胡善清, 李慧星, 李炳沂, 謝宜壯, 陳亮, 陳禾
(1. 北京理工大學(xué) 信息與電子學(xué)院 雷達(dá)技術(shù)研究所,北京 100081;2.嵌入式實(shí)時(shí)信息處理技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100081;3.北京無線電測量研究所, 北京 100854)
星載合成孔徑雷達(dá)(synthetic aperture radar,SAR)是空間對地觀測領(lǐng)域的一個(gè)重要組成部分,由于其全天時(shí)、全天候的工作能力,星載SAR被廣泛應(yīng)用于地球遙感、軍事偵察、資源勘探等諸多國防和民生的重要領(lǐng)域. 隨著高分重大專項(xiàng)的開展以及高分三號(hào)衛(wèi)星的發(fā)射,我國星載SAR領(lǐng)域進(jìn)入了對多模式、多尺度和多粒度數(shù)據(jù)結(jié)合處理階段,進(jìn)一步豐富了SAR數(shù)據(jù)產(chǎn)品的檢測、識(shí)別等后端應(yīng)用形式. 然而,目前對于高分SAR數(shù)據(jù)處理依然停留在原始數(shù)據(jù)下傳地面處理階段,對于突發(fā)事件的響應(yīng)能力嚴(yán)重不足. 在軌SAR數(shù)據(jù)實(shí)時(shí)處理是解決這一問題的主要途徑.
在SAR在軌處理方面,麻省理工學(xué)院(MIT)林肯實(shí)驗(yàn)室[1]、美國空氣動(dòng)力學(xué)實(shí)驗(yàn)室(JPL)[2-4]、德國漢諾威大學(xué)[5]、加州理工大學(xué)[6-7]等機(jī)構(gòu)開展了星上實(shí)時(shí)處理方面的研究. 現(xiàn)有的在軌處理通常采用DSP+FPGA的方式實(shí)現(xiàn)[8],但其擴(kuò)展性較差、算法實(shí)現(xiàn)難度大、性能不強(qiáng). 與此同時(shí),計(jì)算硬件的快速發(fā)展,特別是功耗低、性能強(qiáng)、開放性好的嵌入式GPU的問世和持續(xù)發(fā)展為遙感數(shù)據(jù)在軌實(shí)時(shí)處理帶來了新的可行方案. 針對光學(xué)應(yīng)用,中科院遙感與數(shù)字地球研究所[9]、武漢大學(xué)[10]等國內(nèi)高校已經(jīng)開始驗(yàn)證嵌入式GPU在軌搭載的可行性.
目前GPU主要在地面站作為SAR數(shù)據(jù)處理加速器使用. 孟大地等[11]在NVIDIA K20c + INTEL E5645平臺(tái)上做了基于距離多普勒(range Doppler,RD)算法SAR成像的優(yōu)化加速,8 GB的數(shù)據(jù)量只用了7 s;Zhang等[12]做了基于多CPU/GPU的深度協(xié)同SAR成像處理研究,2 GB數(shù)據(jù)量耗時(shí)0.72 s. 地面的成熟應(yīng)用為基于嵌入式的在軌SAR實(shí)時(shí)成像處理提供可能. 相比于傳統(tǒng)插卡式GPU,Tegra系列具有功耗低、體積小、接口完備、易于嵌入式擴(kuò)展等優(yōu)勢,但其劣勢主要體現(xiàn)在處理性能相對較差,且內(nèi)存空間不足等方面. 本設(shè)計(jì)基于Jetson TX2嵌入式開發(fā)板對滑動(dòng)聚束SAR成像算法進(jìn)行高效移植及優(yōu)化加速. TX2的內(nèi)存雖然高達(dá)8 GB,但由于其內(nèi)存-顯存共享設(shè)計(jì)的特性,若無法合理分配內(nèi)存資源很容易導(dǎo)致內(nèi)存不足. 對此,本設(shè)計(jì)依托滑動(dòng)聚束式SAR處理流程,提出了一種基于TX2的內(nèi)存復(fù)用方案,在一定程度上有效解決了TX2內(nèi)存不足的問題;再利用zero-copy技術(shù)進(jìn)行實(shí)時(shí)數(shù)據(jù)傳輸,解決了傳統(tǒng)模式下通過PCIe數(shù)傳帶來的處理瓶頸與資源浪費(fèi). 在計(jì)算加速層次,本設(shè)計(jì)借助CUDA通用并行計(jì)算架構(gòu),將需要海量計(jì)算的環(huán)節(jié),如方位向去斜、CS因子相乘、FFT等,都做了大規(guī)模并行化處理,最終實(shí)現(xiàn)16 384×8 192點(diǎn)滑動(dòng)聚束SAR精確成像.
與現(xiàn)有研究相比,本文主要作出以下貢獻(xiàn):第一,通過算法分割,提出了一種基于嵌入式GPU的內(nèi)存分割與重配置方案. 采取了一系列手段包括內(nèi)存的原地寫入、交替循環(huán)、動(dòng)態(tài)釋放等,有效減少了內(nèi)存碎片化及重分配次數(shù),節(jié)約了內(nèi)存空間. 第二,借助頁鎖定內(nèi)存和zero-copy技術(shù),實(shí)現(xiàn)真正意義的零復(fù)制. 在ARM端開辟頁鎖定內(nèi)存,通過無需任何開銷的指針映射,杜絕傳輸耗時(shí).
本設(shè)計(jì)采用的成像算法是基于CS(chirp scaling)原理的兩步去斜法. CS算法無需距離多普勒算法(刪除)中復(fù)雜的卷積,只需要若干次CS因子相乘和FFT即可實(shí)現(xiàn)條帶式SAR成像[13-14]. 滑聚模式SAR是對條帶SAR的改進(jìn),它兼?zhèn)錀l帶SAR的寬測幅與聚束SAR的高分辨率的優(yōu)點(diǎn)[15]. 滑聚SAR成像算法的整體流程圖如圖1所示.
雷達(dá)每次接收一條距離向數(shù)據(jù)(NR點(diǎn)),共接收NA條,作為一景的原始數(shù)據(jù),轉(zhuǎn)置后便可進(jìn)行方位向去斜操作,得到距離多普勒域數(shù)據(jù),而后進(jìn)入正常的CS處理流程. 首先,對方位向作變標(biāo)處理;其次,距離向頻域乘徙動(dòng)因子進(jìn)而完成距離向脈沖壓縮操作;再次,方位向乘因子并作逆FFT完成方位向壓縮;最后對圖像作量化并輸出成像結(jié)果.
由于滑聚模式針對的應(yīng)用場景多為高分辨率成像,因此處理的原始數(shù)據(jù)量大多是GB級,且為保證精度,數(shù)據(jù)全程以單精度浮點(diǎn)形式處理,對內(nèi)存需求極大. 結(jié)合如表 1所示TX2內(nèi)存開銷情況,假設(shè)一次可處理的最大數(shù)據(jù)量的理論值為xGB,則針對TX2 7.5 GB可用空間(除去操作系統(tǒng)占用),單批次可處理的原始數(shù)據(jù)量理論最大值約為1.8 GB. 本文旨在討論嵌入式GPU獨(dú)立處理方法,針對的原始數(shù)據(jù)量小于理論上限.
同時(shí),針對滑聚算法實(shí)現(xiàn)本身,F(xiàn)FT、相位因子生成、二維數(shù)據(jù)轉(zhuǎn)置的實(shí)現(xiàn)方式都關(guān)乎處理的時(shí)效性. 后文將著重闡述算法不同部分的并行優(yōu)化方法.
表1 內(nèi)存開銷情況
本文主要從以下兩個(gè)角度對滑動(dòng)聚束式SAR成像做了基于嵌入式GPU的優(yōu)化加速:內(nèi)存分割、配置與基于任務(wù)的重調(diào)度;基于算法映射的大規(guī)模數(shù)據(jù)處理并行優(yōu)化方法. 規(guī)定采用的原始數(shù)據(jù)量是NA×NR,升采樣后為NP×NR.
2.1.1內(nèi)存分割與重配置
頻繁分配和釋放內(nèi)存不僅耗時(shí),更容易導(dǎo)致內(nèi)存的碎片化,因而內(nèi)存分割與重配置在整體方案的設(shè)計(jì)中十分重要. 內(nèi)存分割主要體現(xiàn)在對內(nèi)存的有效劃分上,根據(jù)用途,本設(shè)計(jì)將使用到的內(nèi)存段主要分為工作區(qū)內(nèi)存和數(shù)據(jù)緩沖內(nèi)存兩部分. 工作區(qū)內(nèi)存專門用于執(zhí)行FFT操作,因而需要長期占用;數(shù)據(jù)緩沖內(nèi)存用于暫時(shí)存放中間輸出,因而具有很大的可操控性. 本著相同數(shù)據(jù)量大小為一組的原則,將數(shù)據(jù)緩沖內(nèi)存再根據(jù)大小劃分為四組,如表 2所示.
表2 內(nèi)存分割設(shè)計(jì)
內(nèi)存段mem0用于存放輸入和輸出數(shù)據(jù);mem11與mem12代表升采樣前的數(shù)據(jù)存儲(chǔ);mem21與mem22代表升采樣后的數(shù)據(jù)存儲(chǔ);另外還有一些中間變量用到的內(nèi)存段,表格中以mem3表示. 設(shè)計(jì)利用這4組內(nèi)存塊,通過有效的內(nèi)存復(fù)用與動(dòng)態(tài)分配釋放,達(dá)到了降低內(nèi)存占用、減少分配耗時(shí)的目的.
如圖2,內(nèi)存的復(fù)用主要體現(xiàn)在以下3個(gè)方面.
① 原始數(shù)據(jù)緩存區(qū)mem0在處理過程中采用原位置換機(jī)制.M1為升采樣后的數(shù)據(jù)量,該部分空間一景處理完成后再釋放;
② 由于矩陣轉(zhuǎn)置模塊無法實(shí)現(xiàn)內(nèi)存覆蓋,使用同一段內(nèi)存會(huì)導(dǎo)致數(shù)據(jù)混亂,因此將上一個(gè)轉(zhuǎn)置的輸入空間作為下一個(gè)轉(zhuǎn)置的輸出空間使用,實(shí)現(xiàn)內(nèi)存交替復(fù)用.
③ 在執(zhí)行FFT操作與因子復(fù)乘部分時(shí),輸出結(jié)果將輸入數(shù)據(jù)覆蓋,實(shí)現(xiàn)原地存儲(chǔ).
內(nèi)存的動(dòng)態(tài)分配與釋放主要體現(xiàn)在兩個(gè)方面:
① 用于存放升采樣前數(shù)據(jù)的存儲(chǔ)空間在升采樣后便不復(fù)使用,因而升采樣結(jié)束后將其立即釋放;而用于放置升采樣后數(shù)據(jù)的mem21和mem22分配將在mem11與mem12釋放成功后進(jìn)行.
② 中間變量,如CS因子、距離徙動(dòng)因子、距離向時(shí)間軸、方位向頻率軸等,都采取即分配、即利用、即釋放的手段. 這些變量數(shù)據(jù)量較小,占用的空間往往是kB量級,因而可以順利獲取,不用擔(dān)心由頻繁釋放帶來的內(nèi)存碎片化問題.
2.1.2任務(wù)分區(qū)與數(shù)據(jù)調(diào)度
在嵌入式GPU中,ARM作為SAR成像處理的主控及輔助計(jì)算部分,主要用于指令生成、調(diào)度與參數(shù)計(jì)算. ARM向GPU發(fā)布命令,激活GPU內(nèi)核啟動(dòng)程序,繼而GPU開始并行計(jì)算;計(jì)算完成后GPU向ARM返回成功標(biāo)志,ARM開始著手準(zhǔn)備激活下一條內(nèi)核程序. 本設(shè)計(jì)里ARM用于計(jì)算的環(huán)節(jié)主要體現(xiàn)在軌道參數(shù)計(jì)算部分,該部分算法擁有大量迭代與串行操作,無法在GPU上實(shí)現(xiàn)并行加速,因而選擇在ARM端串行計(jì)算.
另外,對于數(shù)據(jù)傳輸方式,由于數(shù)據(jù)的中間處理過程都是在GPU上進(jìn)行的,故在傳統(tǒng)的CPU+GPU異構(gòu)平臺(tái)上,是采取在CPU和GPU端分別開辟一段內(nèi)存的方法,先將數(shù)據(jù)讀取至CPU中,然后將數(shù)據(jù)由CPU再拷貝至GPU端作后續(xù)處理[16],如圖 3(a)所示. 然而復(fù)制過程以及分別在主機(jī)端和設(shè)備端分配內(nèi)存的過程相對于計(jì)算本身而言沒有任何產(chǎn)出,且相當(dāng)耗時(shí),因而應(yīng)盡可能地減少此類操作.
考慮到TX2的主機(jī)和設(shè)備的內(nèi)存共享特性,若分別開辟內(nèi)存,會(huì)導(dǎo)致兩段內(nèi)存中的內(nèi)容重復(fù). 故此處采用了zero-copy技術(shù),借助免費(fèi)的映射關(guān)系達(dá)到有效規(guī)避傳輸時(shí)間的作用,如圖 3(b).
首先分配CPU頁鎖定內(nèi)存,這段主機(jī)存儲(chǔ)在經(jīng)過指針映射后可以投入到設(shè)備空間中使用. 在讀取與寫入磁盤時(shí)用到的是主機(jī)端指針,在需要設(shè)備端做加速計(jì)算處理時(shí),使用相應(yīng)的設(shè)備端指針即可. 在傳統(tǒng)GPU上,zero-copy是將數(shù)據(jù)傳輸與內(nèi)核計(jì)算操作以流水線的方式執(zhí)行,因而只能對該塊內(nèi)存讀寫一次,且性能提升不明顯,通常不加以考慮;而TX2得益于其內(nèi)存共享的特性,節(jié)約設(shè)備端存儲(chǔ)器的同時(shí)省去了數(shù)據(jù)拷貝的時(shí)間,因而可以實(shí)現(xiàn)真正意義上的零復(fù)制.
綜合上述分析,采用zero-copy技術(shù)的數(shù)據(jù)傳輸耗時(shí)為零,這正是因?yàn)閦ero-copy省去了一切不必要的顯式復(fù)制,取而代之的是不需要任何開銷的指針映射.
算法映射時(shí),無論是矩陣轉(zhuǎn)置、因子復(fù)乘,還是FFT、求最值,都用到了GPU的并行特點(diǎn),使得整體計(jì)算效率相比較串行處理提升了上百倍.
2.2.1矩陣轉(zhuǎn)置
對于全局內(nèi)存讀取,GPU要想達(dá)到高吞吐率,必須盡可能地采取合并訪問的方式,即連續(xù)訪問對齊內(nèi)存. 當(dāng)發(fā)生非合并訪問時(shí),GPU會(huì)傳輸多次來完成這個(gè)訪存請求,這將極大地降低內(nèi)存吞吐率,影響GPU的訪存速度[17].
顯然,矩陣轉(zhuǎn)置過程中,讀取矩陣的行時(shí)可以達(dá)到合并訪問,然而轉(zhuǎn)置后寫入矩陣的列時(shí)會(huì)形成非合并訪問(刪除原始圖4 非合并內(nèi)存訪問). (刪除共享內(nèi)存介紹)本設(shè)計(jì)借助共享內(nèi)存來避免對全局內(nèi)存的非合并訪問. 然而,當(dāng)分屬不同塊的線程訪問到同一個(gè)塊時(shí),就會(huì)帶來塊訪問沖突的問題[16]. 為了解決這一問題,本設(shè)計(jì)將共享內(nèi)存塊的大小設(shè)定為
Bdim*(Bdim+1).
(1)
Bdim代表共享內(nèi)存塊在一個(gè)維度上的大小. 這樣在寫入時(shí)分屬相同塊中的線程將訪問到不同的共享內(nèi)存塊,示意圖如圖4所示.
圖中,相同的數(shù)字代表矩陣的同一列;X代表為共享內(nèi)存人為加入的附加列. 可以看出,在寫入共享內(nèi)存時(shí)不存在塊內(nèi)沖突;但在從共享內(nèi)存中讀取數(shù)據(jù)時(shí)由于要做轉(zhuǎn)置操作,若不加處理(刪除)會(huì)導(dǎo)致一個(gè)塊中的所有線程讀取到同一個(gè)塊中的不同地址上,帶來嚴(yán)重的沖突;而添加附加列處理后,每一列的數(shù)據(jù)會(huì)呈對角線式均勻分布在不同塊中,每一個(gè)線程對應(yīng)著不同塊. 最后將讀取到的列元素按行寫入內(nèi)存塊完成矩陣轉(zhuǎn)置.
經(jīng)過以上優(yōu)化,矩陣轉(zhuǎn)置可以同時(shí)避免非合并訪問與共享內(nèi)存帶來的塊沖突問題,理論吞吐率達(dá)100%.
2.2.2因子復(fù)乘
在滑聚算法中,5次因子的計(jì)算以及它們各自與待處理數(shù)據(jù)的相乘都涉及到了因子復(fù)乘. 像素點(diǎn)之間的計(jì)算相互獨(dú)立,故可以借助CUDA架構(gòu)很容易地移植到TX2中并行計(jì)算,如圖 5.
占用率表明了GPU中硬件發(fā)射時(shí)的并行情況,一般情況下,占用率越高,意味著程序的并發(fā)度越高,性能越好. 可以根據(jù)以下公式來計(jì)算硬件占用率. 其中,o為硬件占用率,Wact為實(shí)際活躍的線程束個(gè)數(shù),Wmax為最大可活躍的線程束個(gè)數(shù).
o=Wact/Wmax.
(2)
在TX2中,由于受到寄存器資源的限制,占用率有時(shí)無法達(dá)到100%,這時(shí),減少每個(gè)線程塊的大小可以有效地提升硬件占用率. 理論上,線程塊越小,硬件占用率越高;然而過小的線程塊又會(huì)導(dǎo)致GPU無法借助大量線程之間的流水操作來很好地掩藏訪存延遲,這就帶來一對矛盾. 可以參考以下公式計(jì)算一個(gè)內(nèi)核中可以同時(shí)發(fā)射的線程塊的個(gè)數(shù).
(3)
式中:Bnum為實(shí)際活躍的線程塊個(gè)數(shù);Rmax為設(shè)備中的寄存器個(gè)數(shù)上限;R為每個(gè)線程中所需要使用的寄存器個(gè)數(shù),與內(nèi)核復(fù)雜度有關(guān);Bsize為分配的線程塊大小.
本文為了達(dá)到最高的性能收益,對上述矛盾做了折中. 對于寄存器個(gè)數(shù)充足的計(jì)算內(nèi)核,采用最大線程塊規(guī)?!? 024個(gè)線程,這使得占用率可達(dá)到100%,且最大限度地掩藏了訪存延遲;對于寄存器個(gè)數(shù)不足的計(jì)算內(nèi)核,則以2為基準(zhǔn),逐倍降低塊規(guī)模,最小塊為256個(gè)線程,從而達(dá)到性能最優(yōu).
2.2.3FFT
要想實(shí)現(xiàn)方位向和距離向壓縮,需要執(zhí)行多次FFT. CUDA庫中已經(jīng)集成了完備的cuFFT庫以幫助開發(fā)人員實(shí)現(xiàn)高性能的FFT變換.
在調(diào)用FFT的庫函數(shù)時(shí),需要為FFT分配工作區(qū),該區(qū)只能由FFT占用而不能用于其他操作. 經(jīng)過測試,地址空間的分配十分耗時(shí),消耗時(shí)間超出FFT本身操作的10倍以上,若每次FFT操作都重新分配工作區(qū)會(huì)導(dǎo)致執(zhí)行效率大大降低. 分析整個(gè)SAR成像流程,共執(zhí)行了包括IFFT在內(nèi)的5次FFT操作,其中,方位向FFT 3次,距離向FFT 2次. 因此,本設(shè)計(jì)選擇在5次FFT操作全部完成后再將FFT的工作區(qū)統(tǒng)一釋放,從而提升了FFT計(jì)算在程序執(zhí)行總時(shí)間中的占比. 輸入和輸出數(shù)據(jù)存放在同一塊內(nèi)存中,實(shí)現(xiàn)原位存儲(chǔ).
本文基于GF-3地面測試數(shù)據(jù)[18],分別采取點(diǎn)目標(biāo)與面目標(biāo)成像結(jié)果作評估,輸入數(shù)據(jù)均為1 m分辨率、10 km幅寬. 數(shù)據(jù)粒度為;16 384×8 192. (刪除具體內(nèi)存分配)
3.1.1點(diǎn)目標(biāo)成像分析
在方位向與距離向均加-30 dB的5階泰勒窗后,設(shè)計(jì)優(yōu)化得到的點(diǎn)目標(biāo)壓縮圖像如圖 6.
選取景中心點(diǎn)目標(biāo)(像素點(diǎn)坐標(biāo)為(8 192,4 096))作評估,可以得到二維等高線圖、方位向峰值曲線和距離向峰值曲線(加窗),如圖 7和圖 8是未加窗的成像結(jié)果.
SAR成像結(jié)果常用的幾個(gè)評價(jià)指標(biāo)為:峰值旁瓣比(peak side lobe ratio,PSLR)、積分旁瓣比(integrated side lobe ratio,ISLR)和分辨率[19]. 為了使評估結(jié)果更可靠,本文將圖8中的9個(gè)點(diǎn)目標(biāo)全部作評估再取平均值,得到結(jié)果如表 3.
表3 點(diǎn)目標(biāo)評估結(jié)果
理論上,在未加窗的情況下,PSLR應(yīng)該為-13.4 dB;但在本設(shè)計(jì)中,由于構(gòu)造參數(shù)本身的些微誤差導(dǎo)致了成像結(jié)果的方位向PSLR增加了約0.55 dB,距離向PSLR增加了約0.12 dB. 為了使弱目標(biāo)不被附近的強(qiáng)目標(biāo)覆蓋,通常要求PSLR取到-20 dB,ISLR取到-15 dB,此時(shí),可以選擇在脈壓時(shí)對方位向和距離向分別加-30 dB的5階泰勒窗抑制旁瓣,加窗后的結(jié)果滿足要求.
3.1.2面目標(biāo)成像分析
壓縮后可得到面目標(biāo)圖像如圖 9.
為了比較成像效果,本文采用了常用的面目標(biāo)圖像質(zhì)量評估指標(biāo):均方誤差(mean squared error,MSE)、峰值信噪比(peak signal to noise ratio,PSNR)、結(jié)構(gòu)相似度(structural similarity index,SSIM)、輻射分辨率(γ)[20],將TX2處理后的全幅圖像與CPU仿真結(jié)果圖作比較,得到各指標(biāo)如表 4.
表4 面目標(biāo)評估結(jié)果
為了得到最佳方案,此處根據(jù)計(jì)算機(jī)硬件評估指標(biāo),定義SAR成像在GPU上實(shí)現(xiàn)的性能功耗比如下.
(4)
利用Nsight Eclipse平臺(tái)的Profile分析工具對優(yōu)化結(jié)果做分析可以知道,TX2在優(yōu)化等級為-o2的情況下,完成數(shù)據(jù)量為1 GB的滑動(dòng)聚束式SAR成像的總執(zhí)行時(shí)間為12.660 s;其中,指令執(zhí)行時(shí)間(包括文件讀寫以及ARM端的一些調(diào)度)占用了1.418 47 s,在GPU上的計(jì)算時(shí)間占用了8.599 83 s,內(nèi)存分配與釋放占用了2.641 7 s. 同樣的數(shù)據(jù)量在Tesla K20c + Intel Xeon CPU E5-2697 v2平臺(tái)上的總仿真時(shí)間為4.165 s. 再結(jié)合現(xiàn)有的SAR成像研究[12,21-22],可以得到對比結(jié)果如表 5所示.
表5 不同優(yōu)化方案的性能對比
可以看出,SAR成像在TX2上實(shí)現(xiàn)時(shí)的性能功耗比明顯高于其他平臺(tái)下的性能功耗比,這意味著單位功耗下嵌入式GPU可以提供更高的處理效率. 因此,在嵌入式GPU開發(fā)平臺(tái)上實(shí)現(xiàn)星載SAR實(shí)時(shí)成像非常有發(fā)展前景.
主要研究基于Chirp Scaling處理算法的滑動(dòng)聚束式SAR成像算法在嵌入式開發(fā)平臺(tái)Jetson TX2上的設(shè)計(jì)與實(shí)現(xiàn). 通過算法分析,對內(nèi)存做到有效分割與重配置,借助原地內(nèi)存寫入、內(nèi)存交替循環(huán)、動(dòng)態(tài)內(nèi)存釋放等手段解決了TX2上內(nèi)存不足的問題;在ARM與GPU的數(shù)據(jù)交互上,利用頁鎖定內(nèi)存,通過指針映射過程實(shí)現(xiàn)零復(fù)制,使數(shù)據(jù)傳輸耗時(shí)降低至0 ms;最后,通過有效復(fù)用TX2中的共享內(nèi)存、寄存器、全局內(nèi)存等存儲(chǔ)資源,合理分配線程個(gè)數(shù),最大限度地開發(fā)了TX2的計(jì)算性能,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)并行. 與現(xiàn)有研究相比,本設(shè)計(jì)在不損失精度的前提下,達(dá)到了最高的性能功耗比. 這為星載SAR實(shí)時(shí)成像開辟了良好的開端.
考慮到TX2現(xiàn)有的8 GB內(nèi)存空間仍不足以滿足大批量數(shù)據(jù)的星上實(shí)時(shí)處理,這可以通過PCIe擴(kuò)展內(nèi)存或數(shù)據(jù)分塊來解決. 另外,隨著嵌入式平臺(tái)的不斷發(fā)展,更高性能的硬件平臺(tái)也可以投入使用,例如Jetson Xavier,內(nèi)嵌16 GB的LPDDR4,將TX2的內(nèi)存空間擴(kuò)大了一倍;同時(shí)Xavier采用PCIe 4.0技術(shù),當(dāng)采用分塊處理時(shí),可以達(dá)到更大的傳輸帶寬. 這都使未來基于嵌入式GPU的更大點(diǎn)數(shù)SAR在軌成像成為可能.