连续实时信号处理器的性能分析
RC完全适合如此应用。
对于MPC7410,1024点CFFT其准其实是误导。因为它不能同时搬移数据和进行数据处理,而且在处理时间里,8KB的输入数据必须搬入高速缓存(cache),8KB的输出数据必须搬出的高速缓存(cache)。搬移数据需要增加16.4μs的处理时间,执行1024点CFFT共需要38.4μs的时间。考虑到数据的租用移,1024点CFFT基准的倒数为1/38.4μs。
然而对于MPC7455的情况不同,基准的倒数显示处理器内核每秒处理76923次1024点CFFT,需要1260MB/s数据流量。尽管PowerPC进行处理的同时能搬移数据,但它的峰值带宽仅为1064MB/s,因此在这一应用中带宽受到了限制。假设它能连续保持峰值I/O带宽(cache管理和控制器瓶颈会明显减小I/O带宽,不在本文讨论管理),PMC7455每秒仅能执行64941次1024点cFFT(1064MB/s除16KB/1024点cFFT),明显比基准的倒数要小。
5板极应用
如上所述,目前可获得基于所有处理器cPCI和VME总线的COTS板。然而,当与板级应用相联系时,会大大改变以上的评估结果。
因为MPC7455带宽受限,板级的结构会增加I/O的限制,进一步恶化处理器连续CFFT的性能。不考虑背板的数据流,对于PowerPC来讲,目前最好的I/O方式是两个64位/66MHzPMC,双528MB/sPMC,可达到的数据流共1056MB/s。这已经小于MPC7455的1064MB/s峰值I/O带宽。实际上PMC达到连续、持续的吞吐率也是不可能的。假设1056MB/s持续的I/O带宽,PowerPC板持续1024点cFFTs为每秒64453次(1056MB/s被16KB除)——不依赖于PowerPC的数量或速度。
相反,TigerSHARC具有通过link口可扩展的I/O,图2所示为典型的4个TigerSHARC处理器的结构框图。在此例子中,每个处理器必须共享一个簇总线带宽,每个处理器使用2个Link口作为处理器间的数据传输,每个TigerSHARC的其它2个Link被用做I/O。这样每个处理器I/O总带宽就减少至700MB/s(Link口2×250MB/s+1/4×共享簇总线800MB/s)。然而,对于每个处理器,在最大连续CFFT速率的情况下,TigerSHARC需要504MB/s的带宽。虽然这一速率在TigerSHARC极限范围,但把连续的I/O分裂成Link口和簇总线也是不切合实际的做法。实际上,对于连续CFFT的最大I/O数据率是500MHz,由每个TIgerSHARC的两个Link口提供。很小带宽的限制降低了连续1024点cFFT的性能,每个TigerSHARC能处理30517次。TigerSHARC低功耗、小尺寸和功能的集成,目前可得到簇总线(8片TigerSHARC)6UcPCI板卡。8片TigerSHARC每秒能执行244135次连续1024点CFFT运算,几乎是理想PowerPC板卡的4倍。
6结论
我们讨论的各种COTS板的应用,代表了连续实时信号处理应用的实际性能。对于其它因素的分析(如中断、开发环境、DMAs、存储器的利用、Cache管理、电源等)不在本文讨论范围。如果应用系统需要大量的计算、比较少的数据搬移和所谓的后向数据处理,由于较高的时钟频率和强大的内核,Po 《连续实时信号处理器的性能分析(第3页)》
本文链接地址:http://www.oyaya.net/fanwen/view/168868.html
对于MPC7410,1024点CFFT其准其实是误导。因为它不能同时搬移数据和进行数据处理,而且在处理时间里,8KB的输入数据必须搬入高速缓存(cache),8KB的输出数据必须搬出的高速缓存(cache)。搬移数据需要增加16.4μs的处理时间,执行1024点CFFT共需要38.4μs的时间。考虑到数据的租用移,1024点CFFT基准的倒数为1/38.4μs。
然而对于MPC7455的情况不同,基准的倒数显示处理器内核每秒处理76923次1024点CFFT,需要1260MB/s数据流量。尽管PowerPC进行处理的同时能搬移数据,但它的峰值带宽仅为1064MB/s,因此在这一应用中带宽受到了限制。假设它能连续保持峰值I/O带宽(cache管理和控制器瓶颈会明显减小I/O带宽,不在本文讨论管理),PMC7455每秒仅能执行64941次1024点cFFT(1064MB/s除16KB/1024点cFFT),明显比基准的倒数要小。
5板极应用
如上所述,目前可获得基于所有处理器cPCI和VME总线的COTS板。然而,当与板级应用相联系时,会大大改变以上的评估结果。
因为MPC7455带宽受限,板级的结构会增加I/O的限制,进一步恶化处理器连续CFFT的性能。不考虑背板的数据流,对于PowerPC来讲,目前最好的I/O方式是两个64位/66MHzPMC,双528MB/sPMC,可达到的数据流共1056MB/s。这已经小于MPC7455的1064MB/s峰值I/O带宽。实际上PMC达到连续、持续的吞吐率也是不可能的。假设1056MB/s持续的I/O带宽,PowerPC板持续1024点cFFTs为每秒64453次(1056MB/s被16KB除)——不依赖于PowerPC的数量或速度。
相反,TigerSHARC具有通过link口可扩展的I/O,图2所示为典型的4个TigerSHARC处理器的结构框图。在此例子中,每个处理器必须共享一个簇总线带宽,每个处理器使用2个Link口作为处理器间的数据传输,每个TigerSHARC的其它2个Link被用做I/O。这样每个处理器I/O总带宽就减少至700MB/s(Link口2×250MB/s+1/4×共享簇总线800MB/s)。然而,对于每个处理器,在最大连续CFFT速率的情况下,TigerSHARC需要504MB/s的带宽。虽然这一速率在TigerSHARC极限范围,但把连续的I/O分裂成Link口和簇总线也是不切合实际的做法。实际上,对于连续CFFT的最大I/O数据率是500MHz,由每个TIgerSHARC的两个Link口提供。很小带宽的限制降低了连续1024点cFFT的性能,每个TigerSHARC能处理30517次。TigerSHARC低功耗、小尺寸和功能的集成,目前可得到簇总线(8片TigerSHARC)6UcPCI板卡。8片TigerSHARC每秒能执行244135次连续1024点CFFT运算,几乎是理想PowerPC板卡的4倍。
6结论
我们讨论的各种COTS板的应用,代表了连续实时信号处理应用的实际性能。对于其它因素的分析(如中断、开发环境、DMAs、存储器的利用、Cache管理、电源等)不在本文讨论范围。如果应用系统需要大量的计算、比较少的数据搬移和所谓的后向数据处理,由于较高的时钟频率和强大的内核,Po 《连续实时信号处理器的性能分析(第3页)》