宋玉霞,李 貴,甘 峰,邵江雨
(中國西南電子技術(shù)研究所,四川 成都 610036)
基于TMS320C667x和VPX的雷達處理系統(tǒng)設(shè)計及應(yīng)用
宋玉霞,李 貴,甘 峰,邵江雨
(中國西南電子技術(shù)研究所,四川 成都 610036)
針對基于CPCI或VME構(gòu)建的雷達信號處理系統(tǒng)數(shù)傳和處理能力的瓶頸,提出了一種以TI公司多核DSP TMS320C667x為核心處理器、基于VPX架構(gòu)的高端高速雷達實時信號處理系統(tǒng),介紹了系統(tǒng)的軟硬件架構(gòu)設(shè)計、電氣結(jié)構(gòu)設(shè)計、背板拓撲結(jié)構(gòu)設(shè)計以及在雷達SAR成像處理模式、單脈沖處理模式的應(yīng)用軟件設(shè)計。工程應(yīng)用中的測試結(jié)果表明,該系統(tǒng)具有比傳統(tǒng)信號處理系統(tǒng)更高的處理性能和與高性能相匹配的高速數(shù)傳網(wǎng)絡(luò),應(yīng)用前景廣闊。
處理系統(tǒng);TMS320C667x;VPX;SAR成像處理;單脈沖處理
過去10多年,雷達信號處理系統(tǒng)常采用TigerSHARC系列DSP或PowerPC系列CPU基于CPCI或VME總線進行構(gòu)建。然而,在機載、彈載雷達SAR成像和單脈沖波束銳化等應(yīng)用場合,采用TigerSHARC和PowerPC構(gòu)建的處理平臺因體積龐大、功耗高、控制復(fù)雜,給雷達系統(tǒng)的應(yīng)用帶來了很多局限性;面對現(xiàn)代武器裝備系統(tǒng)海量數(shù)據(jù)傳輸需求,基于并行傳輸方式的CPCI或VME總線在帶寬、功耗限制等方面的瓶頸日益突出[1]。
運用多核DSP技術(shù)實現(xiàn)雷達信號處理算法設(shè)計逐漸成為新的趨勢[2],同時,高性能的處理器需要更高帶寬的總線的支持[3]。本文采用TI公司多核DSP TMS320C667x和基于串行總線架構(gòu)的VPX總線規(guī)范設(shè)計了一種新型高速實時通用信號處理系統(tǒng),解決了傳統(tǒng)信號處理系統(tǒng)芯片多、體積大和功耗高的問題。同時,VPX總線的采用解決了海量數(shù)據(jù)傳輸瓶頸問題,并與核心處理器的高性能相匹配,構(gòu)成了處理和數(shù)傳平衡的高性能系統(tǒng),滿足現(xiàn)代新體制雷達的應(yīng)用需求。
1.1 TMS320C667X
TI公司基于最新的KeyStone架構(gòu)的TMS320C667x系列多核DSP,包括分別含1、2、4、8個C66x CorePacs 的TMS320C6671、TMS320C6672、TMS320C6674、TMS320C6678,其主要特點如下:
① 每個內(nèi)核可工作在1 GHz、1.25 GHz或1.4 GHz;
② 具有定點/浮點雙運算模塊,當(dāng)內(nèi)核頻率為1.25 GHz時,TMS320C6678處理論上可實現(xiàn)320GMACS或16GFLOPS處理能力[4];
③ 各核配置32 KB L1P(一級程序存儲器)、32 KB L2D (一級數(shù)據(jù)存儲器)和512 KB L2 (二級局部存儲器)[5];片內(nèi)集成4 096 KB多核共享存儲器和運行速率達1 600 MHz的64 bit DDR3存儲器接口。
④ 集成大量基于SerDes的適用于芯片級、板級互連的高速接口,包括Serial Rapid IO(SRIO)、PCI-Express、Hyperlink、EMAC等。
1.2 VPX
針對傳統(tǒng)CPCI和VME并行總線面對海量數(shù)據(jù)傳輸?shù)钠款i,VITA組織制定了VPX系列標(biāo)準。VPX是超級計算機型架構(gòu),具備聲納和雷達系統(tǒng)所需要的眾多處理能力和各種帶寬的要求[6],其主要優(yōu)勢如下: IO數(shù)量劇增,6U板卡共可提供160個高速差分對,每差分對傳輸速率高達6.25 GBauds;增強供電能力,支持115 W/ 5 V、384 W/ 12 V、768 W/ 48 V;集成ESD保護機制的連接器,提供強大的定位機制。
VPX標(biāo)準是支持包括PCI Express、Serial RapidIO、Infiniband、散熱和加固等在內(nèi)的多種子標(biāo)準的總稱[7],它包含VITA46.0[8]:基本標(biāo)準,規(guī)范板卡電氣性能和板卡尺寸;VITA46.1:VMEbus 在VPX的映射規(guī)范;VITA46.3:Serial RapidI/O在VPX的映射規(guī)范;VITA46.4:PCI-E在VPX的映射規(guī)范;VITA46.7:千兆網(wǎng)在VPX的映射規(guī)范;VITA46.9:XMC/PMC/GbE on VPX;VITA46.10:VPX的后I/O規(guī)范;VITA46.11 VPX系統(tǒng)管理規(guī)范;VITA46.12:VPX光纖接口規(guī)范;VITA46.20 :VPX交換槽位規(guī)范;VITA48.0:加固散熱基礎(chǔ)規(guī)范;VITA48.1:風(fēng)冷子規(guī)范;VITA48.2:傳導(dǎo)制冷規(guī)范;VITA48.2:液冷規(guī)范。
2.1 系統(tǒng)總體架構(gòu)
系統(tǒng)總體架構(gòu)貫穿通用處理平臺設(shè)計思想。由于TMS320C667x系列器件管腳相互兼容、定浮點處理能力兼容,且與所有現(xiàn)有的C6000系列兼容[9],采用TMS320C667x作為核心處理器,在不改變PCB設(shè)計的情況下根據(jù)應(yīng)用要求選裝不同數(shù)量內(nèi)核的處理器,可使系統(tǒng)兼顧高低端處理、定浮點運算的需求,不僅可用于動態(tài)范圍大的雷達聲納信號處理,還可應(yīng)用到圖像、通信信號處理和數(shù)據(jù)處理,為系統(tǒng)賦予真正通用性。同時,TMS320C667x集成了大量高速串行互連接口,而基于高速串行互聯(lián)的VPX規(guī)范可以滿足苛刻環(huán)境和超寬帶的雷達等軍工需求[10]。因此,本系統(tǒng)將TMS320C667x和VPX完美地結(jié)合,電路以TMS320C667x為核心處理器,板卡尺寸、電氣接口、機箱結(jié)構(gòu)完全遵循VITA46和VITA48系列標(biāo)準進行設(shè)計,構(gòu)建出一套高速、高性能、全開放的通用處理平臺。
系統(tǒng)組成結(jié)構(gòu)如圖1所示。系統(tǒng)采用標(biāo)準3U 5槽VPX機箱,含1塊3U VPX背板、1塊后I/O板、1塊電源板、2塊處理板(信號處理和數(shù)據(jù)處理)和1塊主控板,其中信號處理板上安裝ADC功能的XMC子卡,完成高速ADC和數(shù)字下變頻功能,處理板實現(xiàn)雷達視頻數(shù)字回波的信號處理和數(shù)據(jù)處理功能,主控板則通過解析外部命令實現(xiàn)系統(tǒng)啟動、復(fù)位和時序控制等功能。系統(tǒng)通過VPX背板和后I/O板形成的通路實現(xiàn)對外信息交互,整個系統(tǒng)共對外提供4個千兆以太網(wǎng)口、32個用戶自定義接口、4個全雙工RS422接口和6個遠程調(diào)試口。
圖1 系統(tǒng)總體組成
系統(tǒng)槽位間采用0.8 inch中心間距標(biāo)準,結(jié)構(gòu)緊湊,可適應(yīng)機載、彈載平臺電子設(shè)備應(yīng)用需求。同時,電路模塊采用導(dǎo)冷散熱,模塊加固散熱設(shè)計遵循VITA48.2,可滿足機載等嚴酷的軍用環(huán)境對沖擊、振動、溫度和海拔等的要求。
2.2 數(shù)據(jù)采集板
數(shù)據(jù)采集板設(shè)計成符合VITA42.0的XMC背板,主要完成輸入中頻模擬回波的A/D轉(zhuǎn)換和數(shù)字正交解調(diào)。數(shù)據(jù)采集板含3路以ADS5474為主的數(shù)模轉(zhuǎn)換通道,實現(xiàn)3通道14位、采樣率400 MSPS的A/D轉(zhuǎn)換,可分別對應(yīng)雷達和、方位差和俯仰差支路回波的A/D變換;板載一片Xilinx公司的Virtex-6系列FPGA XC6VLX240T,含24×104個可編程邏輯單元和20個GTX高速低功耗鏈路口,可實現(xiàn)數(shù)字正交解調(diào)和高速數(shù)據(jù)通信功能;4片DDR3 SDRAM組成2組32位、容量4 Gbits的存儲組,可以乒乓方式工作實現(xiàn)采集數(shù)據(jù)的緩存。
2.3 處理板
單個處理板組成框圖如圖2所示。處理板電氣結(jié)構(gòu)符合VITA46.0 3U板卡標(biāo)準。板載2個TMS320C6678計算節(jié)點,每個計算節(jié)點配置獨享的64位、工作頻率667 MHz的 8 Gbits DDR3 SDRAM,共可提供358GFLOPS峰值處理能力;2個處理節(jié)點以點對點互連的高速Hyperlink口以分布式松耦合方式互聯(lián),避免了緊耦合互連方式中總線競爭、多管腳走線問題,具有傳輸速度快、低延遲的優(yōu)點。
板載FPGA XC6VLX240T可組成5組4X SRIO,實現(xiàn)板內(nèi)DSP和XMC或處理板對外接口。在FPGA中可實現(xiàn)5個4X SRIO 交換機功能和輸入數(shù)據(jù)預(yù)處理功能。
對外接口包括2個2x PCI-E、1個4x SRIO和2個以太網(wǎng)MAC層接口,對外通信帶寬寬。
2.4 背板高速互連拓撲
處理板提供了種類和數(shù)量豐富的高速串行鏈路接口,便于板卡間互連。板卡互連通過VPX背板實現(xiàn)。系統(tǒng)中每槽和其他各槽互連關(guān)系如下:通過板內(nèi)FPGA 4x SRIO實現(xiàn)與相鄰槽位的互連,通過2個DSP分別提供的2x PCI-E分別實現(xiàn)與其余兩槽的互連,每Lane SRIO或PCI-E至少以3.125 Gbps速率運行,這種互連方式確保了任意2個槽位間均具有點對點高速互連接口,可用于槽位間大量數(shù)據(jù)傳輸。此外,系統(tǒng)內(nèi)每個DSP的SGMII0接口均接入背板內(nèi)千兆網(wǎng)交換器,外部設(shè)備通過交換器可訪問系統(tǒng)內(nèi)任意計算節(jié)點。
3.1 系統(tǒng)軟件架構(gòu)
系統(tǒng)軟件為嵌入式軟件,主要由板級支持包BSP、操作系統(tǒng)內(nèi)核、驅(qū)動、BOOT軟件和應(yīng)用軟件等組件組成。BSP負責(zé)硬件初始化和操作系統(tǒng)內(nèi)核載入等,為軟件應(yīng)用層提供大量的系統(tǒng)調(diào)用,主要包括DSP主頻時鐘設(shè)置、DDR初始化和中斷初始化等;驅(qū)動主要包含DSP的SRIO、千兆以太網(wǎng)、Hyperlink、PCI-Express以及GPIO等驅(qū)動程序;BOOT包括基于EMIF16和SPI口等方式的BOOT軟件。
系統(tǒng)支持源代碼公開的嵌入Linux操作系統(tǒng)。系統(tǒng)中每個DSP的各核均可根據(jù)應(yīng)用情況選擇是否采用操作系統(tǒng)。在實時處理要求較高的應(yīng)用中不推薦采用操作系統(tǒng)。
3.2 SAR成像處理模式應(yīng)用軟件
SAR成像處理模式對和支路回波進行SAR成像處理。采用3個子孔徑成像拼接的SAR處理流程如圖3所示。
圖3 SAR成像處理模式應(yīng)用軟件流程
在這種模式中,信號處理板的2個DSP和數(shù)據(jù)處理板DSP1分別對雷達的1、2、3個孔徑并行進行SAR成像處理,SAR成像處理過程中的距離脈壓、幅度和計算、中心頻率估計等處理過程經(jīng)過細分由每個DSP的8核并行完成,有效區(qū)間估計、各核獲得的中心頻率和調(diào)頻斜率的擬合由各DSP0#核完成,0#核在執(zhí)行這些匯總信息處理前后,均需對其他核進行核間同步操作。各成像處理DSP獲得的斜距圖像傳給數(shù)據(jù)處理板DSP2,由DSP2的8個核并行執(zhí)行幾何校正、子圖拼接和圖像處理后向主控板送出處理結(jié)果。
3.3 單脈沖處理模式應(yīng)用軟件
雷達單脈沖處理模式下通常需處理和支路、方位差支路、俯仰差支路回波。在本系統(tǒng)中,可由信號處理板DSP1的0#3#核完成和支路的脈沖壓縮、相參積累,DSP2的0#3#核、4#7#核分別完成方位差、俯仰差支路的脈沖壓縮、相參積累,DSP1的4#7#核完成目標(biāo)檢測,DSP1和DSP2根據(jù)檢測結(jié)果往數(shù)據(jù)處理板送出3通道目標(biāo)幅度、相位信息,數(shù)據(jù)處理板DSP1完成測角處理和跟蹤算法處理,給主控送出處理結(jié)果。
本系統(tǒng)主要硬件實物如圖4所示。
圖 4 硬件實物
工程應(yīng)用過程中,對系統(tǒng)處理能力和數(shù)據(jù)傳輸能力分別進行了測試,測試結(jié)果如表1所示。
表1 性能測試結(jié)果
表1中FFT為單精度浮點基2FFT運算,運行時旋轉(zhuǎn)因子存在DSP的L2 Cache中;數(shù)據(jù)傳輸能力測試的是連續(xù)長時間誤碼為0時的有效數(shù)據(jù)傳輸率;SAR成像時間是單片TMS320C6678完成1個孔徑SAR成像處理時間,孔徑回波數(shù)據(jù)為距離向8 192點、方位向1 024點復(fù)數(shù)數(shù)據(jù),距離壓縮后有效距離長度1 024點。
從表1中可看出,TMS320C6678具有比ADSP-TS201更強的處理能力(單片ADSP-TS201完成8 192點FFT需耗時246.05 μs);系統(tǒng)采用高速串行鏈路獲得了極高的數(shù)據(jù)通信率,即使是板間2x PCI-E鏈路接口,其有效數(shù)據(jù)傳輸率也大于并行PCI總線的理論峰值傳輸率(64位、66 MHz PCI運行速率528 Mbytes/s)。
在研究TMS320C6678和VPX系列標(biāo)準的基礎(chǔ)上,設(shè)計了一套基于TMS320C6678和VPX的雷達信號和數(shù)據(jù)處理系統(tǒng),該系統(tǒng)結(jié)構(gòu)、電氣接口遵循VITA46和VITA48進行設(shè)計,結(jié)構(gòu)緊湊,兼容高,低端信號處理,兼容定、浮點運算,是一套全開放式具有真正通用性的處理系統(tǒng)。測試結(jié)果表明,系統(tǒng)具有比ADSP-TS201類型的處理系統(tǒng)更強的處理能力和數(shù)傳帶寬。作為高效應(yīng)用示例,介紹了基于多DSP多核并行處理的雷達或?qū)б^SAR成像模式和單脈沖模式的應(yīng)用軟件流程。由于超強的處理能力和數(shù)據(jù)傳輸能力,系統(tǒng)還可推廣應(yīng)用到分子動力學(xué)等對定浮點運算能力及實時性有較高要求的超高性能計算領(lǐng)域;通過更換標(biāo)準的XMC ADC板卡,整個系統(tǒng)可實現(xiàn)雷達DBF處理和STAP處理等多項功能。系統(tǒng)已應(yīng)用到工程實踐中,具有廣闊的應(yīng)用前景。
[1] 包利民,潘 奇.VPX 總線技術(shù)及其實現(xiàn)[J].電子機械工程,2009(2):57-60.
[2] 歐旺軍.基于多核處理器的PD雷達信號處理算法設(shè)計[D].西安:西安電子科技大學(xué),2014.
[3] 鄭東衛(wèi),陳 矛,羅丁利.VPX總線的技術(shù)規(guī)范及應(yīng)用[J].火控雷達技術(shù),2009(4):73-77.
[4] 張明志.基于DSP和FPGA的并行處理系統(tǒng)硬件設(shè)計[D].北京:北京工業(yè)大學(xué),2011.
[5] 楊 方.基于Tms320c6678的多核DSP并行處理應(yīng)用技術(shù)研究[D].北京:北京理工大學(xué),2014.
[6] VPX:VMEbus for the 21st century[M].America:GE Fanunc Embedded Systems,Inc,2007:3-6.
[7] 46.0-2007 ANSI/VITA.American National Standard for VPX Baseline Standard[S].
[8] 48.0-2007 ANSI/VITA.Mechanical Specifications for Microcomputers Using Ruggedized Enhanced Design Implementation[S].
[9] 徐 赟.基于Tms320c6678處理器的圖像處理平臺設(shè)計[D].成都:中國科學(xué)院光電技術(shù)研究所,2015.
[10]邢乃福.雷達高速數(shù)據(jù)傳輸技術(shù)研究[D].成都:電子科技大學(xué),2013.
宋玉霞 女,(1973—),碩士,高級工程師。主要研究方向:雷達制導(dǎo)。
李 貴 男,(1982—),碩士,工程師。主要研究方向:雷達制導(dǎo)與對抗。
Design and Application of a Radar Processing System Based on TMS320C667x and VPX
SONG Yu-xia,LI Gui,GAN Feng,SHAO Jiang-yu
(SouthwestChinaInstituteofElectronicTechnology,ChengduSichuan610036,China)
For radar processing systems based on CPCI or VME,the data transmission and processing capability is a bottleneck.To address this issue,the design of a highly real-time processor based on multi-core DSP TMS320C667x from TI and VPX is presented,the design of software,hardware,electric structure and backplane topological structure is introduced,and the applications in SAR imaging and monopulse processing are proposed.The testing results in engineering application shown that this system has a better processing performance than traditional signal processor and a high-speed data transmission network matching with its high performance,and it has a good prospect of application.
processing system;TMS320C667x;VPX;SAR imaging;monopulse processing
10.3969/j.issn.1003-3106.2016.11.18
宋玉霞,李 貴,甘 峰,等.基于TMS320C667x和VPX的雷達處理系統(tǒng)設(shè)計及應(yīng)用[J].無線電工程,2016,46(11):71-74.
2016-08-11
中國西南電子技術(shù)研究所發(fā)展基金資助項目(2011-098Y)。
TN958.94
A
1003-3106(2016)11-0071-04