• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向雷達信號處理應用的可重構處理器設計

      2016-09-13 01:48:05何國強李世平
      現(xiàn)代雷達 2016年8期
      關鍵詞:脈壓信號處理算子

      何國強,李 麗,李世平

      (1. 南京電子技術研究所, 南京 210039; 2. 南京大學 電子科學與工程學院, 南京 210046)

      ?

      ·信號處理·

      面向雷達信號處理應用的可重構處理器設計

      何國強1,李麗2,李世平1

      (1. 南京電子技術研究所,南京 210039;2. 南京大學 電子科學與工程學院,南京 210046)

      為滿足現(xiàn)代雷達的高性能應用需求,文中提出并設計了一種可重構專用處理(RASP)架構。其采用非規(guī)則化微結構和混合重構策略,有效提升了并行流水計算的性能;通過兵乓處理機制掩蓋DDR讀寫時間,充分發(fā)揮了運算資源的效率。RASP作為硬件加速核嵌入華睿2號DSP芯片并于TSMC 40 nm工藝下完成流片。測試結果顯示,RASP完成1 K(1 024)點FFT的運算時間為2.57 μs,處理效率高達42%,相比于NoC、MorphoSys、C6678、T4240等處理器,性能提升至1.9~30倍,效率達到1.25~4倍。

      可重構處理器;快速傅里葉變換;矩陣求逆;脈壓;空時自適應處理

      0 引 言

      隨著雷達向數(shù)字陣、多功能、智能化方向發(fā)展[1-2],對雷達信號處理的運算性能提出了越來越高的需求,通用DSP性能已顯不足,專用ASIC或FPGA則靈活性差,且研制周期長、成本高,不能滿足多變的應用需求[3-4]。因此,有必要在性能、功耗和功能靈活性等關鍵指標之間尋找更好的平衡。

      自20世紀60年代加州大學洛杉磯分校的Gerald Estrin教授[5]首次提出可重構計算概念以來,通信、多媒體、雷達等多個領域的科學工作者開展了大量的可重構處理器的研究,如:MIT的MATRIX[6]、IMEC的ADRES[7]、PACT公司的XPP[8]、雷聲公司的Mornarch[9]、國防科技大學的ASRA[10]等,至今仍然是高效能計算的研究熱點。可重構計算是一種由配置流和數(shù)據(jù)流來共同驅動的計算方式,即在運行時通過配置流動態(tài)改變運算單元陣列結構,并由數(shù)據(jù)流驅動運算單元陣列進行計算。因此,可以同時獲得較高的能效和靈活性[11-12],是雷達信號處理高性能處理器的實現(xiàn)途徑之一。

      本文面向雷達信號處理應用,提出并設計了一種可重構專用處理架構(RASP),主要包括6個可重構處理單元和32個存儲單元,通過混合重構策略和乒乓處理機制,可以高效實現(xiàn)FFT、矩陣求逆、FIR等基本算子的硬件加速,進而由基本算子組合實現(xiàn)數(shù)字脈壓、STAP等雷達信號處理功能。實測結果顯示:與同類型可重構處理器相比,RASP處理性能及效率均有著顯著優(yōu)勢。

      1 RASP架構

      1.1架構簡述

      RASP核的架構如圖1所示。其主體結構包括主控制單元、可配置上下文存儲單元、可重構計算陣列、存儲陣列、DMA控制器和AXI總線。

      圖1 RASP架構圖

      可重構計算陣列由6路可重構處理單元(RPE)和互聯(lián)網絡組成,通過對RPE內部、RPE間的互連方式的配置,可以構造出不同類型的計算部件,如:蝶形運算、向量復乘、向量乘累加等,進而實現(xiàn)FFT、FIR、矩陣乘、矩陣求逆等多種基本算子。

      存儲陣列中包含32個64 KB的數(shù)據(jù)存儲單元,提供了32組讀寫端口,最高可并行讀寫32個浮點復數(shù),總容量2 MB??焖俳粨Q總線用于完成32組讀寫端口與32個數(shù)據(jù)存儲塊之間的數(shù)據(jù)交換,使得RPE可以訪問到任意一個存儲單元。

      上下文存儲單元存儲用于實現(xiàn)信號處理功能的基本算子指令組合,組合可以是同類型指令,如:N條1K點FFT,也可以是不同類型指令,如:向量乘、FFT、IFFT等。這些指令組合可通過DMA導入。

      主控制單元用于完成核內各模塊的調度控制,其先從上下文存儲單元中讀取待執(zhí)行的基本算子指令,然后根據(jù)指令類型對各個RPE內部及其之間的互連結構進行相應配置,再通知DMA從外部DDR中導入(或直接從存儲陣列中讀入)源數(shù)據(jù)并啟動指令運算,運算結果可緩存在存儲陣列中用作下一條指令的源數(shù)據(jù),也可通過DMA輸出到外部DDR中。多條指令之間順序執(zhí)行,部分指令還支持乒乓處理機制,即當前指令的源數(shù)據(jù)導入與上一條指令的運算并行執(zhí)行,可有效掩蓋數(shù)據(jù)傳輸?shù)臅r間,提升運算效能。

      1.2RPE微結構

      RASP的6個RPE中,RPE1~RPE4主要用于進行復數(shù)乘、加運算,RPE5用于實現(xiàn)除法及定浮轉換,RPE6則為矩陣求逆預留擴展單元,內含2個實數(shù)乘法器、1個實數(shù)加法器、2個浮點除法器和1個復數(shù)乘法器,主要用于完成LU分解。

      為了充分發(fā)掘FFT、矩陣乘等常用雷達信號處理算法的性能,RPE1~RPE4采用了如圖2所示的非規(guī)則化微結構,共包括1個復數(shù)乘法器、4個復數(shù)加法器和1個實數(shù)乘法器。不同于傳統(tǒng)規(guī)則化微結構所需要的復雜的流水線配置和任務編譯技術,非規(guī)則化微結構僅面向雷達信號處理所需的有限個計算部件,能夠充分發(fā)揮各個運算資源的效率,從而更加有效地提升并行流水計算性能,盡管犧牲了一定的靈活性,但獲得了顯著的性能提升。

      圖2 RPE微結構圖

      RASP是通過控制MUX和互連方式來實施重構的,所有MUX的控制值以及互連網絡互連方式控制值均存在在寄存器文件中,寄存器文件則由主控制器讀取基本算子指令后根據(jù)算法類型更新。

      1.3重構策略

      RASP采用了RPE內及RPE間的混合重構策略,每個RPE可以獨立重構成復乘、復加、乘累加等基本計算部件,從而支持4路并行計算,同時,RPE之間還可通過互連網絡通信,進一步重構成FFT用混合基蝶形單元、相關用含除法向量乘累加等擴展計算部件,兼顧了運算并行度和流水性能,有效提高了FFT、相關等常用基本算子的性能。

      1.4兵乓處理機制

      可重構處理器進行運算時,通常會先從DDR中讀取源數(shù)據(jù),然后進行運算,運算結果再寫回DDR。隨著計算資源的增大,并行度逐漸增高,當數(shù)據(jù)長度較小時,受DDR帶寬限制,讀寫DDR所消耗的時間將上升到與運算時間可比擬的程度。以2 K點FFT為例,受DDR寬帶的限制,讀取或寫回DDR所需時間約3.8 μs,運算時間約4.6 μs量級??梢姡x寫DDR總共耗時已超過運算時間,運算效率(運算時間占總處理時間的比例)僅38%。

      為提高數(shù)據(jù)長度較小時的運算效率,RASP有針對性地采用了乒乓處理機制,在執(zhí)行含多條基本算子指令的批處理任務時可大大提高運算效率。其運算橫道圖如圖3所示。將整個存儲陣列等分為兩組,記為組1和組2,兩組RAM乒乓工作,基本流程為:

      (1) 源數(shù)據(jù)1從DDR讀出后存入RAM 組1,然后啟動運算,同時,源數(shù)據(jù)2也從DDR讀出,并存入RAM組2;

      (2) 當源數(shù)據(jù)1的運算結束后,結果由RAM組1寫入DDR,同時,RAM組 2中緩存的源數(shù)據(jù)2啟動運算,當RAM組1的結果寫完后,緊接著從DDR中讀取源數(shù)據(jù)3并存入RAM 組1。

      圖3 乒乓處理運行橫道圖

      記運算時間為Tcalc,從DDR讀取源數(shù)據(jù)的時間為Tread,運算結果寫回DDR的時間記為Twrite??梢钥吹?,當循環(huán)執(zhí)行N次運算時,采用兵乓處理機制消耗的總時間為

      (1)

      當Tcalc≥Tread+Twrite時,除第1次源數(shù)據(jù)讀取和第N次結果回寫的時間外,運算始終執(zhí)行,讀寫數(shù)據(jù)的時間幾乎被完全掩蓋。因此,當N足夠大時,運算效率近乎100%。

      2 基本算子指令設計

      RASP通過計算資源的實時重構可支持FFT、FIR、矩陣乘、矩陣求逆等多種基本算子指令,下面分別對典型的FFT和矩陣求逆指令的重構設計進行說明。

      2.1FFT

      對于長度為N的輸入序列,F(xiàn)FT結果為

      (2)

      圖4 1 K點FFT計算流程示意圖

      2.2矩陣求逆

      RASP計算矩陣求逆采用了LU分解法,分三個步驟:列選主元LU分解、三角矩陣求逆、矩陣相乘。

      設矩陣A為非奇異矩陣,并且所有順序主子式不為0,則矩陣A可以唯一分解為一個主對角元素全為1的下三角矩陣L和一個上三角矩陣U的乘積,即A=LU。為避免主元很小時因計算機精度限制所導致的下溢問題,采用了列選主元LU分解法,循環(huán)執(zhí)行選主元、歸一化、數(shù)據(jù)更新三個步驟。其中,選主元和歸一化步驟均使用RPE6中的計算資源,數(shù)據(jù)更新則使用RPE1~RPE4中的復數(shù)乘加器,四路并行處理。

      三角矩陣求逆則分別計算L和U的逆矩陣L-1和U-1,主要使用求倒和乘累加器,其中,求倒由RPE6實現(xiàn),乘累加器由RPE1~RPE4實現(xiàn),四路乘累加器分2組同時并行計算L和U的逆矩陣。

      將U-1、L-1相乘并進行適當變換即可得到A矩陣的逆矩陣A-1,主要運算為矩陣相乘,其使用每個RPE中的1個復數(shù)乘法器和2個復數(shù)加法器構成一個全流水的復數(shù)浮點乘累加器,共四路乘累加器并行運算。

      3 典型功能實現(xiàn)

      基于RASP所支持的基本算子指令集,使用不同的指令組合,可以極其便捷地實現(xiàn)不同的雷達信號處理功能,用戶僅需要通過軟件編程配置相應的指令組合即可。例如,常規(guī)脈壓算法的計算公式為

      Y=IFFT[FFT(X)·Cdpc]

      (3)

      式中:X為輸入向量;Y為輸出結果;Cdpc為脈壓系數(shù)。顯然,脈壓算法可由FFT、向量乘、IFFT三條基本算子指令組合實現(xiàn),運算流程見圖5a)。

      圖5 RASP實現(xiàn)典型雷達信號處理算法的運算流程

      STAP算法需先計算輸入矩陣X的協(xié)方差R=XXH,然后對R求逆得到R-1,再利用導向矢量s計算最優(yōu)權

      (4)

      最后進行向量矩陣乘Y=WHX,于是,STAP算法可由矩陣協(xié)方差、求逆、相乘、點乘、除法等多條基本算子指令組合實現(xiàn),主要運算流程見圖5b)。

      在脈壓和STAP運算過程中的所有中間值R、R-1、U、V等均存于內部RAM中,可以有效降低讀寫DDR的時間消耗。

      4 實驗測試

      4.1測試平臺

      RASP作為一個硬件加速核集成在華睿2號DSP芯片中,芯片采用40 nm的工藝流片,主頻可達1 GHz,其中,RASP核面積20 mm2(包含2 MB SRAM),芯片實物如圖6a)所示,設計的相應測試模塊見圖6b)。

      圖6 含RASP核的華睿2號芯片及測試模塊實物

      4.2基本算子指令性能測試

      不同點數(shù)FFT和不同階數(shù)矩陣求逆的性能測試結果如圖7所示,其中,縱坐標為以2為底的對數(shù)坐標,因DDR讀寫時間受DDR傳輸帶寬限制,且批處理時有可能被掩蓋。因此,為評估RASP的運算效能,此處僅關注運算的時間消耗。

      圖7 RASP基本算子指令性測試結果

      可以看到,隨FFT點數(shù)增大,處理時間基本呈現(xiàn)NlbN趨勢增大,1 K點FFT時間僅2.57 μs,當FFT點數(shù)大于256 K點時,受片內存儲陣列容量限制,需采用二維FFT實現(xiàn),故運算時間陡然增多。隨矩陣階數(shù)增大,運算資源的并行處理效率越充分,等效于并行度提高,因此處理時間增加趨勢漸緩,48階矩陣求逆時間110.4 μs。

      將RASP實現(xiàn)1 K點FFT的性能與其他處理器進行對比,包括可重構處理器NoC[14]、MorphoSys[15],以及商用DSP或CPU,如:TI公司C6678、Freescale公司T4240、Intel公司Xeon E5-2648L V2,結果如圖8所示。其中,商用DSP或CPU測試性能時均采用了變址模式。通常用式(5)中的MFLOPS描述處理器實現(xiàn)FFT算法的有效處理能力

      (5)

      由圖8a),RASP實現(xiàn)1 K點FFT僅2.57 μs,有效處理能力高達20 GFLOPS,是E5-2648L的1.9倍,是TI C6678的4.7倍,與NoC相比,則高達30倍。

      圖8 1K點FFT在不同處理器的性能比較

      因不同處理器的主頻和運算資源均存在區(qū)別,通常用運算效率(有效處理能力與峰值處理能力的比值)來表征處理架構的性能,考慮到RASP實現(xiàn)FFT時所使用的RPE資源,主頻1 GHz下峰值運算能力達48GFLOPS,運算效率42%。Xeon E5-2648L V2主頻1.9 GHz,單核8個MAC,峰值運算能力30.4 GFLOPS,運算效率34%,將不同處理器的運算效率對比如圖8b),可以看到,RASP運算效率可以達到其他處理器的1.25~4倍。

      4.3典型雷達信號處理算法性能測試

      以一個帶寬B=2 MHz,時寬T=250 μs,采樣頻率fs=2 MHz的線性調頻信號進行脈壓處理,波形見圖9a),采用漢明窗加權后主副瓣比MSR可達48.69 dB,與matlab計算的理論值相比,最大相對誤差0.03%。完成2 K點脈壓處理的時間見表1,共15.3 μs,16 K點脈壓處理時間131 μs。

      圖9 RASP實現(xiàn)脈壓和STAP運算的結果

      從表1可以看到,運算效率受DDR讀寫時間影響仍然較大,2 K點時為64%,因FFT運算時間呈MlbN增長,DDR讀寫時間則線性增長,故點數(shù)越大運算效率會越高,16 K點時達66.5%。此外,若連續(xù)進行M次脈壓運算且點數(shù)較大時,還可以考慮采用批處理方法實現(xiàn),即依次進行M次FFT、M次向量乘、M次IFFT,以盡可能掩蓋DDR讀寫時間,提高運算效率。

      表1不同點數(shù)下RASP實現(xiàn)脈壓算法的性能μs

      規(guī)模DDR讀FFT向量乘IFFTDDR寫總時間2K2.744.620.564.622.7415.3016K21.9641.604.1141.6021.96131.00

      分別對24通道、256距離門以及48通道、1 024距離門兩種規(guī)模的矩陣進行STAP處理,性能見表2。24×256規(guī)模的STAP耗時70.9 μs,48×1 024規(guī)模的STAP耗時798 μs。

      表2不同規(guī)模下RASP實現(xiàn)STAP算法的性能μs

      規(guī)模DDR讀協(xié)方差矩陣求逆矩陣乘除法DDR寫總時間24×2568.2338.0022.301.740.270.3470.9048×102465.90607.00110.0013.300.541.37798.00

      選擇20通道、128頻率門、715距離門的實錄數(shù)據(jù)進行STAP處理,采用和通道導向矢量,輸出幅度分布見圖9b),在頻率門27~58,距離門101~616的清晰區(qū)內,雜波剩余3.7 dB,與預期值相符。

      5 結束語

      本文提出并設計了一種面向雷達信號處理應用的可重構專用處理RASP架構,其采用了非規(guī)則化微結構和混合重構策略,并通過兵乓處理機制有效掩蓋了DDR讀寫時間,能夠充分發(fā)揮各運算資源的效率,1 K點FFT運算時間2.57 μs,處理效率高達42%,是同類型其他處理器的1.25~4倍,處理性能是同類型其他處理器的1.9~30倍。RASP作為協(xié)處理器被嵌入華睿2號DSP芯片并在TSMC 40 nm工藝下流片,經測試,雷達數(shù)字脈壓(2 K點)和STAP(48×1 024)處理的時間分別為15.3 μs和798 μs,適用于對處理性能和靈活性均有較高要求的雷達信號處理和電子對抗等領域。

      [1]BROOKER E. Recent developments and future trends in phased arrays[C]// IEEE International Symposium on Phased Array Systems & Technology. Waltham, MA: IEEE Press, 2013: 43-53.

      [2]張光義, 趙玉潔. 相控陣雷達技術[M]. 北京: 電子工業(yè)出版社,2006.

      ZHANG Guangyi, ZHAO Yujie. Technology of phased array radar[M]. Beijing: Publishing House of Electronics Industry, 2006.

      [3]IQBAL M A, AWAN U S. RISP design using tightly coupled reconfigurable FPGA cores[C]// International Conference on Information & Communication Technologies. Karachi: IEEE Press, 2009: 249-254.

      [4]王新安,葉兆華,戴鵬, 等. 可重構陣列DSP結構ReMAP[J]. 深圳大學學報理工版,2010,27(1): 16-20.WANG Xinan, YE Zhaohua, DAI Peng, et al. ReMAP: a reconfigurable array DSP architecture[J]. Journal of Shenzhen University Science and Engineering, 2010, 27(1):16-20.

      [5]ESTRIN G. Organization of computer systems: the fixed plus variable structure computer[J]. IEEE Computer Society, 1960, 133(37): 33-40.

      [6]MIRSKY E, DEHON A. MATRIX: a reconfigurable computing architecture with configurable instruction distribution and deployable resources[C]// IEEE Symposium on FPGAs for Custom Computing Machines. Mapa Valley, CA: IEEE Press, 1996: 157-166.

      [7]MEI B, VERNALDE S, VERKEST D, et al. ADRES: an architecture with tightly coupled VLIW processor and coarse-grained reconfigurable matrix[C]// International Conference on Field Programmable Logic & Applicaiton. Lisbon: IEEE Press, 2003(2778): 61-70.

      [8]BAUMGARTE V, EHLERS G, MAY F, et al. PACT XPP-A self-reconfigurable data processing architecture[J]. The Journal of Supercomputing, 2003, 26(2): 167-184.

      [9]HENTRICH D, ORUKLU E, SANIIE J. Polymorphic computing: definition, trends, and a new agent-based architecture[J]. Circuits and Systems, 2011, 2(4): 358-364.

      [10]LIULei,YANGZiyu,LISikun,etal.Implementationofhigh-throughputFFTprocessingonanapplication-specificreconfigurableprocessor[C]// 2012 2ndInternationalConferenceonComputerScienceandNetworkTechnology.Changchun:IEEEPress, 2012: 1284-1288.

      [11]魏少軍,劉雷波,尹首一. 可重構處理器技術[J]. 中國科學:信息科學,2012,42(12): 1559-1576.

      WEIShaojun,LIULeibo,YINShouyi.Keytechniquesofreconfigurablecomputingprocessor[J].ScienceChina:InformationSciences, 2012,42(12): 1559-1576.

      [12]CHALAMALASETTISR,PUROHITS,MARGALAM,etal.MORA-anarchitectureandprogrammingmodelforaresourceefficientcoarsegrainedreconfigurableprocessor[C]// 2009NASA/ESAConferenceonAdaptiveHardwareandSystems.SanFrancisco,CA:IEEEPress, 2009: 390-396.

      [13]于蘇東,劉雷波,尹首一, 等. 嵌入式粗顆粒度可重構處理器的軟硬件協(xié)同設計流程[J]. 電子學報,2009, 37(5): 1136-1140.

      YUSudong,LIULeibo,YINShouyi,etal.Hardware-softwareco-designflowforembeddedcoarse-grainedreconfigurableprocessor[J].ActaElectronicaSinica, 2009, 37(5): 1136-1140.

      [14]BAHNJH,YANGJS,BAGHERZADEHN,etal.ParallelFFTalgorithmsonnetwork-on-chips[J].JournalofCircuitsSystem&Computers, 2011, 18(2): 255-269.

      [15]KAMALIZADAH,PANC,BAGHERZADEHN.FastparallelFFTonareconfigurablecomputationplatform[C]//Proceedingsofthe15thSymposiumonComputerArchitectureandHighPerformanceComputing. [S.l.]:IEEEPress, 2003: 254-259.

      何國強男,1977年生,高級工程師。研究方向為雷達信號處理、數(shù)字芯片設計。

      李麗女,1975年生,教授,博士生導師。研究方向為超大規(guī)模集成電路設計。

      Design of Reconfigurable Processor for Radar Signal Processing Application

      HE Guoqiang1,LI Li2,LI Shiping1

      (1. Nanjing Research Institute of Electronics Technology,Nanjing 210039, China)(2. School of Electronic Science and Engineering, Nanjing University,Nanjing 210046, China)

      To meet the demands of high performance applications in modern radar, RASP architecture is presented in this paper. Through anomalistic microstructure and mixed reconfigurable strategy, the performance of parallel-pipeline compute improves in effect. With ping-pang processing method which conceals DDR read-write time, RASP also gives full play to the efficiency of computing resources. As a co-processor, RASP is tapped out and integrated in the DSP chip Huarui-2 with TSMC 40 nm. The test results demonstrate that 1 K FFT calculating only needs 2.57 μs. The processing efficiency is as high as 42%. The performance is about 1.9~30 times and the efficiency is about 1.25~4 times as other FFT processors like NoC, MorphoSys, C6678, T4240, et al.

      reconfigurable processor; FFT; matrix inverse; pulse compression; STAP

      10.16592/ j.cnki.1004-7859.2016.08.011

      何國強Email:guoqiang_he@sohu.com

      2016-04-22

      2016-06-24

      TN957

      A

      1004-7859(2016)08-0046-05

      猜你喜歡
      脈壓信號處理算子
      擬微分算子在Hp(ω)上的有界性
      各向異性次Laplace算子和擬p-次Laplace算子的Picone恒等式及其應用
      一類Markov模算子半群與相應的算子值Dirichlet型刻畫
      《信號處理》征稿簡則
      信號處理(2018年5期)2018-08-20 06:16:02
      《信號處理》第九屆編委會
      信號處理(2018年5期)2018-08-20 06:16:00
      《信號處理》征稿簡則
      信號處理(2018年8期)2018-07-25 12:25:42
      《信號處理》第九屆編委會
      信號處理(2018年8期)2018-07-25 12:24:56
      測量血壓時要注意“脈壓”
      Roper-Suffridge延拓算子與Loewner鏈
      老年高血壓患者的脈壓特點分析
      浏阳市| 延安市| 濉溪县| 和田市| 柳河县| 寻甸| 长岭县| 无为县| 桂阳县| 老河口市| 清远市| 南昌市| 蓝田县| 中山市| 尖扎县| 娱乐| 海宁市| 新营市| 古田县| 东乡族自治县| 衡山县| 乌兰浩特市| 永新县| 陵川县| 陈巴尔虎旗| 民县| 甘孜县| 象山县| 龙口市| 如皋市| 五家渠市| 定结县| 北安市| 神池县| 通州区| 永和县| 高阳县| 玛多县| 大荔县| 淮阳县| 璧山县|