李才发;侯森
【期刊名称】《今日电子》 【年(卷),期】2018(000)006 【总页数】4页(P47-49,52) 【作 者】李才发;侯森
【作者单位】75842;中国人民信息工程大学 【正文语种】中 文 一、引言
高性能计算(HPC)指使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。在过去的十几年里高性能计算取得了迅猛的发展,但困扰其发展的一些关键技术并没得到根本解决,新一代高性能计算系统不应该再单纯追求理论上的峰值速度,而应该关心如何为不同类型的应用设计平衡的计算系统,应用驱动的高性能计算机体系结构正在成为行业研究的热点。 图1 FDK算法流程图
不同的应用对系统结构的要求是不同的。针对高性能计算中数字运算量大和实时性要求高的应用,DSP由于具有独特的硬件加速结构,因而能够取得很好的效果。本文结合一种典型的高性能计算——工业CT图像的三维重建,分析DSP在高性能计算中的应用特点、方式和效果,并提出了一种可重构的多DSP处理器阵列的
设计方法。
二、高性能计算中的典型应用
工业CT图像的三维重建是目前CT研究的热点之一。工业CT是工业用X射线计算机层析成像或工业用X射线计算机断层扫描成像的简称。自诞生以来,其发展和应用令人瞩目,特别是在无损检测与无损评价领域显示出了其独特的优点。CT图像的三维重建算法已有较为成熟的描述,实际的应用难点主要集中在计算规模与计算效率上。工业CT图像三维重建的数据量大,计算量大,数据处理需要消耗大量时间,成为整个CT系统的瓶颈制约。因此,CT图像重建速度成为衡量CT系统的重要指标之一。
三维CT重建算法可以分为两大类。一类是Feldkamp、Dewis、Kress提出的锥顶轨迹为单圆的重建方法(简称FDK算法)。另一类是Tuy、Smith、Grangeat提出的扫描轨迹为双圆或其他非平面轨迹的三维Radon变换方法。FDK算法中锥顶轨迹为单圆时,不满足Tuy-Smith条件,因此该算法是一种非精确重建方法。但方法具有扫描过程易于实现计算相对简单的优点,因此得到了比较好的应用。 FDK算法实际上是一种基于滤波背投影的由二维投影进行三维重建的方法。它最初所关心的是圆轨道扫描的重建。这种方法虽然说是近似的,但在很多的实际应用情况下还是能够给出较为精确的结果。实际上,在圆扫描轨迹下,当我们考察垂直于旋转轴的那个平面时,FDK算法将退化成扇形束的滤波背投影重建(FBP)问题。因此,FDK算法可以看作二维扇形束FBP重建在锥束CT中的扩展。 FDK算法的公式如式(1):
在式(1)中我们可以明显看到平方项(D/U)2为前面所说的背投影加权因子,其分子为射线源到旋转中心的距离,分母为射线源到待重建点的距离在y’轴上的投影;而后面的卷积则代表了对投影图像在行方向上的一维滤波,cosξ为卷积修正
项;最外层的积分,上下限是[0,2π],事实上代表了在整个圆周的背投影过程。 因此,由图1可以提取较粗粒度的算粒如下。 (1)对二维投影数据乘以加权因子
(2)对二维投影数据Rβ(p,ξ)沿行方向进行滤波,滤波函数为h(.); (3)计算投影地址p'、ξ,进行反投影重构。
通过上述分解,我们可以看到FDK算法中需要大量的运算,并涉及到FFT傅里叶变换和滤波运算,DSP器件提供了高度专业化的指令集,提高了FFT快速傅里叶变换和滤波器的运算速度。使用DSP可以很大程度上提高算法的运行速度。 三、工业CT图像重建在DSP上的高效实现
DSP器件采用改进的哈佛结构,具有的程序和数据空间,允许同时存取程序和数据。内置高速的硬件乘法器,增强的多级流水线,使DSP器件具有高速的数据运算能力,多DSP连接成并行计算模块可实现对CT图像三维重建的加速。 作者通过在PC上运行TI提供的DSP开发软件CCS3.3进行了仿真。在DSP仿真环境上,用C语言实现了火花塞切割数据的重建,并且用重建数据与标准数据做比较。投影数据大小×,重建数据大小32^3,重建角度360/10,探测器单元尺寸0.148mm,光源到载物台的距离477.28mm,光源到探测器的距离1265.2mm。
整个处理过程可认为包含投影数据预加权,FFT变换,频域滤波,FFT逆变换和反投影操作。通过CCS的文件输入输出接口读取投影数据,然后用FDK算法进行运算,重建后的结果通过文件输入输出接口以文件的形式存储在计算机上。 用MATLAB编写重建图像显示程序,该程序同时显示DSP软件仿真重建的图像和标准的重建图像,用这种方法验证重建图像的质量。
DSP算法的效率通过对各算粒的执行所消耗的系统时钟个数来描述,由于DSP的型号决定了该DSP的时钟周期,所以系统时钟的个数可以作为评估算法执行速度
的标准,也可以用系统时钟的个数评价算法执行所需时间。 试验测得各功能单元运行时间如下: 表1 各算粒单元运行时间?
每个角度的数据有三个主要的处理过程:投影加权、投影滤波和反投影重构。其处理时间依次为:356,094cycles、61,400,353cycles、179,425,512cycles。可见单数据反投影重构部分所占用的时间比较多,约为三者总时间的75%。在进行DSP下的FDK加速时,对这部分的优化可以在很大程度上加快整体运算速度。 对DSP软件仿真的结果与PC在同规模下所得结果进行了对比。结果如表2所示。 表2 DSP与PC运行结果对比?
从表2可知:基于DSP的火花塞重建与PC下重建结果一致,证明了DSP环境下的FDK重建算法是有效的。
同规模的数据,在DSP上运行了91463295cycles,若采用TMS320C16的1GHz芯片,运行耗时为91ms。与CPU上运行结果656ms相比,加速比为7.209。
四、可重构多DSP处理器阵列设计
根据上述的分析,利用DSP进行类似工业CT图像三维重建等大数据量的运算,我们能得到较大的加速比。由于高性能计算的需求日益增长,目前单DSP或者少数几个DSP的结合并不能完全满足大数据处理的需求,多处理器阵列是当前DSP研究的一个重要领域。多DSP处理器阵列可以与高性能服务器结合,与CPU、FPGA等处理器配合起到良好的运算加速效果。本文提出了一种针对典型应用的构建中、大规模DSP处理器阵列的设计方法,提供更高的数字处理能力,为未来高效能计算奠定基础。
图2 基于RapidIO一级交换的多DSP芯片间互连的框图结构
如图2、3所示,通过采用两级交换互连的方式将多个高性能DSP进行紧耦合连
接,组成DSP处理器阵列,实现单片DSP多倍处理能力,大大提升了高速数字信号的处理能力。一级互连通过RapidIO交换实现芯片间互连,二级互连通过Infiniband交换接口实现底板间连接,组成处理器阵列,处理器阵列可采用ATCA刀片服务器的方式。
图2表示基于RapidIO一级交换的多DSP芯片间互连的框图结构。底板单元采用1U的标准ATCA刀片作为底板,每个底板单元承载4片DSP芯片。底板内部DSP间通过SRIO交换互连,互连方式采用Tundra的TSI 578交换芯片,可以提供8个4X SRIO端口和16个1X SRIO端口,每个端口可配置为1.25Gb/s、2.5Gb/s或3.125Gb/s。整板设计处理能力115,200MIPS,芯片间互连速率可达40Gb/s。TSI 578交换机采用0.13微米CMOS技术,27mm×27mm 675球FCBGA封装技术包装。该设备需要使用1.2V和3.3V电源,适合在产业和商业环境温度下使用,增强的SerDes大大降低了功耗,适用于ATCA与MicroTCA背板或处理连接的理想平台。
图3表示基于Infiniband二级交换的多DSP处理器阵列的构成框图。ATCA刀片底板作为阵列的基本单元,通过Virtex5 LX50T FGPA与Mallox ConnectX MT208A0-FCCR-QIS桥接芯片建立与板外IB接口。系统通过IB接口建立同外部数据高速交换通道,数据交换速率40Gb/s。
图3 基于Infiniband二级交换的多DSP处理器阵列的构成框图
每个底板存储器采用了4片4G DDR2,总容量16G,每个DSP通过EMIF口接4MB的FLASH和8MB SRAM。存储器采取基于SRIO协议的全局内存共享机制。通过SRIO互连网络,任何一个DSP都可以访问网络上其他DSP资源,实现网络上的所有设备资源共享。
每个底板提供10/100/1000M网口供系统管理维护使用和JTAG/USB口供组件加载程序、调试、测试使用,以太网接口芯片采用Marvell的单口10/100/1000M
PHY接口芯片88E1111,变压器采用H5007,以太网接口芯片的管理由FPGA通过MDIO接口完成。本系统通过Motorola的MPC 860微处理器进行内部管理,FLASH芯片TE28F128J3与MPC860相连,用于固化程序及数据,MPC860与DSP通过HPI接口通信。
DSP之间的数据传输利用主要利用包交换方式,在高性能计算中,涉及计算的中间结果无须在处理单元与主处理器之间、不同的处理单元与处理单元之间进行数据交互,进一步降低了系统的通信开销。 五、结束语
本文结合典型的高性能计算——工业CT图像的三维重建,分析了DSP在高性能计算中的应用特点、方式和效果,相关实验验证了DSP的加速性能。鉴于FDK算法在实际应用中的普遍性,在新的高性能计算体系结构下,对算法实现中的各个步骤进行性能测试,能够为新体系架构的建立提供重要参考。接着作者提出了一种构建大规模多DSP处理器阵列的设计方法。基于两级交换架构的多DSP互连组成中、大规模的多DSP处理器阵列,结合其他的处理器刀片使用,将能有效提高系统效能。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务