張文廣,魯 敏,郭裕蘭,滕書華,張 軍
(國防科技大學(xué)自動目標(biāo)識別重點實驗室,湖南長沙410073)
激光雷達(dá)以其獨特的技術(shù)優(yōu)勢,在航天器對接、坦克目標(biāo)識別、地形地貌分析等應(yīng)用領(lǐng)域中均有著廣闊的前景,被世界各主要科技強(qiáng)國所關(guān)注。20世紀(jì)70年代以來,激光成像雷達(dá)逐步應(yīng)用于軍事、工業(yè)控制、地形測繪、宇宙飛船導(dǎo)航、港口交通管理以及水下定位等方面[1]。國內(nèi)對激光成像雷達(dá)的研究始于20世紀(jì)90年代,雖然對激光雷達(dá)數(shù)據(jù)處理算法方面的研究較多,但關(guān)于激光雷達(dá)數(shù)據(jù)處理系統(tǒng)的文獻(xiàn)卻依然較少。由于激光雷達(dá)既不同于微波雷達(dá)也有別于可見光,因此其數(shù)據(jù)處理系統(tǒng)也有別于現(xiàn)有的雷達(dá)信息處理機(jī)?;诖?,本文設(shè)計了一套可靠、高效的激光雷達(dá)實時圖像處理系統(tǒng)。
硬件設(shè)計是激光雷達(dá)圖像信息處理系統(tǒng)的基礎(chǔ)[2]。根據(jù)激光雷達(dá)圖像系統(tǒng)信息處理的需求,對信息智能處理系統(tǒng)的硬件資源進(jìn)行分析。整個信息處理系統(tǒng)可分為五個模塊:數(shù)據(jù)接收模塊、數(shù)據(jù)處理模塊、接口控制模塊、顯示模塊和通信模塊。處理機(jī)硬件框圖如圖1所示。
圖1 信息處理機(jī)硬件框圖Fig.1 Block diagram for the signal processing hardware
數(shù)據(jù)接收模塊用于接收激光雷達(dá)獲取的原始距離圖像,在本系統(tǒng)中采用網(wǎng)絡(luò)接口實現(xiàn)前端與處理模塊的通信。網(wǎng)絡(luò)通信協(xié)議分為TCP和UDP兩種,為滿足較高的實時性要求,系統(tǒng)采用易于實現(xiàn)的UDP協(xié)議。UDP協(xié)議是面向無連接通信的協(xié)議,由于沒有TCP中三次握手的需求,網(wǎng)絡(luò)設(shè)備在通信時,UDP數(shù)據(jù)的優(yōu)先級高于TCP數(shù)據(jù),因此實時性要求高的系統(tǒng)均采用UDP協(xié)議。為保證網(wǎng)口數(shù)據(jù)接收的實時性,以太網(wǎng)PHY芯片選用Marvell公司的88E1111芯片,該芯片接口傳輸速率理論上可達(dá)到千兆每秒。
由于激光雷達(dá)圖像數(shù)據(jù)為浮點型的距離圖像且處理算法中涉及大量的乘法操作,因此數(shù)據(jù)處理模塊選用一片擁有硬件乘法器的八核DSP浮點型芯片TMS320C6678作為主處理器。TMS320C6678有專用64位DDR3接口,最大外掛存儲容量為8G。選用Micron公司的MT41K256M16的DDR3存儲芯片用于存儲圖像數(shù)據(jù),該芯片單片位寬為16位,存儲容量為2G。選用128M的N25Q128 FLASH芯片用于存儲DSP程序。
核心處理單元FPGA主要實現(xiàn)圖像數(shù)據(jù)預(yù)處理、接口芯片控制以及與DSP進(jìn)行SRIO和EMIF通信等功能。因此,F(xiàn)PGA選用性價比較高的XilinxK7系列XC7K70TFBG676芯片。該型芯片包括10250個Slices,135個 36k的 Block RAM,240個 DSP48 Slices,最多400個I/O,8lane GTX。其最高速度可達(dá) 12.5Gbps/lane。
對于圖像處理系統(tǒng),傳統(tǒng)硬件實現(xiàn)、調(diào)試過程中,通常對硬件內(nèi)部圖像處理過程不可知、系統(tǒng)中間狀態(tài)不能及時反饋,只有系統(tǒng)處理最終結(jié)果,用戶只能通過經(jīng)驗對系統(tǒng)進(jìn)行測試、修改,這給系統(tǒng)的實現(xiàn)、維護(hù)等帶來了極大的不便。為實現(xiàn)在系統(tǒng)實現(xiàn)與維護(hù)過程中的實時觀測和在線調(diào)試,實時獲取激光雷達(dá)數(shù)據(jù)處理的中間結(jié)果就顯得尤為重要。本系統(tǒng)采用FPGA控制各接口與PC及主控機(jī)進(jìn)行數(shù)據(jù)通信,并將圖像處理結(jié)果通過VGA接口分屏顯示在液晶屏幕上。
綜上,本文采用FPGA+DSP的硬件系統(tǒng)框架,通過內(nèi)部高速互聯(lián)以及可測可試的內(nèi)部狀態(tài)顯控方式來滿足相應(yīng)的數(shù)據(jù)處理需求。
2.2.1 強(qiáng)大的處理能力
DSP處理器選用TI公司新一代KeyStone架構(gòu)的TMS320C6678芯片。該芯片擁有4M共享內(nèi)存,以及8個最高可達(dá)1.25GHz的DSP內(nèi)核,每個內(nèi)核擁有512KB L2內(nèi)存,可在10W功耗下實現(xiàn)160GFLOP的運算。此外,該芯片外部接口豐富,共包含 4xSRIO、16位 EMIF總線、DDR3總線、2路PCIe接口、1路Heyperlink接口以及1路千兆以太網(wǎng)接口。TI公司提供了強(qiáng)大的與DSP結(jié)構(gòu)相適應(yīng)的內(nèi)聯(lián)函數(shù)、匯編指令和大量的開發(fā)例程,大大降低了圖像處理系統(tǒng)的開發(fā)。
2.2.2 FPGA+多核 DSP 的并行架構(gòu)
由于激光三維成像數(shù)據(jù)量大、算法復(fù)雜度高,為實現(xiàn)高速實時的激光雷達(dá)圖像信息智能處理,硬件實現(xiàn)中運用了FPGA+多核DSP的并行架構(gòu)。以FPGA為主要功能芯片的圖像預(yù)處理子系統(tǒng),主要實現(xiàn)對高速圖像數(shù)據(jù)的預(yù)處理等功能,同時承擔(dān)總線控制、幀存控制等任務(wù)。基于多核DSP并行處理結(jié)構(gòu)的圖像信息智能處理子系統(tǒng)主要實現(xiàn)對激光雷達(dá)數(shù)據(jù)處理算法的復(fù)雜運算功能。此外,多核DSP的并行處理結(jié)構(gòu)通過總線連接容量較大的DDR3作為全局外部存儲器用于存儲圖像處理過程中的圖像數(shù)據(jù)。FPGA與DSP之間通過高速總線進(jìn)行數(shù)據(jù)傳輸,實現(xiàn)系統(tǒng)的分布式并行運算。
2.2.3 內(nèi)部狀態(tài)顯控及可擴(kuò)展性
相比于其他傳統(tǒng)的圖像處理系統(tǒng)[3],本系統(tǒng)的一大優(yōu)勢在于內(nèi)部狀態(tài)顯控模塊。該模塊可將處理的中間結(jié)果和最終結(jié)果通過分屏方式進(jìn)行顯示,實現(xiàn)了在系統(tǒng)實現(xiàn)與維護(hù)過程中的狀態(tài)實時觀測和在線調(diào)試,大大縮短了算法調(diào)試驗證所需的時間,并且能快速直觀地得到處理結(jié)果。
其次,無論是FPGA模塊還是DSP模塊,均能反復(fù)燒寫不同的工程,對軟件稍作修改即能用于二維圖像處理等其他應(yīng)用場合,因此本系統(tǒng)可移植性強(qiáng)。
在多核DSP開發(fā)中,多核并行的架構(gòu)主要分為主輔拓?fù)浣Y(jié)構(gòu)(Master Slave)和數(shù)據(jù)流拓?fù)浣Y(jié)構(gòu)(Data Flow)兩種。本文選用主輔拓?fù)浣Y(jié)構(gòu),由此DSP內(nèi)核將分為主核與輔核兩種,主核起到控制作用,由主核向各輔核發(fā)送核間中斷來控制輔核的狀態(tài),而輔核之間沒有任何核間通信,只負(fù)責(zé)計算任務(wù)。主核(控制核)與輔核的數(shù)據(jù)通信則通過EDMA與外部存儲器DDR3進(jìn)行數(shù)據(jù)交換來完成。
TMS320C6678芯片共有8個內(nèi)核,不失一般性,本文以4核并行系統(tǒng)設(shè)計為例進(jìn)行分析。以下圖表中,若無特別說明,均為4核并行系統(tǒng)。本文核間通信結(jié)構(gòu)如圖2所示,核0作為主核,核1至核4作為輔核,主核負(fù)責(zé)與各種接口進(jìn)行數(shù)據(jù)通信以及控制輔核進(jìn)行并行處理,輔核只負(fù)責(zé)算法處理,并將計算結(jié)果存入DDR3指定的存儲段中。
圖2 DSP核間數(shù)據(jù)通信框圖Fig.2 Block diagram for the data communication between DSP cores
核間通信主要分為數(shù)據(jù)通信和狀態(tài)通信。狀態(tài)通信主要用于傳輸狀態(tài)量和控制信息,因此通信時間短、實時性要求高。相比較而言,數(shù)據(jù)通信是大量數(shù)據(jù)的搬移,通信時間長、實時性要求較低。不論哪種數(shù)據(jù)通信方式,都需要采用相應(yīng)的狀態(tài)機(jī)制進(jìn)行管理,狀態(tài)機(jī)制可以由中斷或者消息產(chǎn)生。由于本系統(tǒng)涉及到大量的圖像處理和數(shù)據(jù)存儲,數(shù)據(jù)通信的時間在很大程度上決定了系統(tǒng)圖像處理的效率。因此,采用何種機(jī)制來管理核間通信是本系統(tǒng)設(shè)計的關(guān)鍵。
目標(biāo)通常被置于一定的背景環(huán)境之中,與背景圖像融為一體[4]。因而,若需對目標(biāo)進(jìn)行后續(xù)處理(如跟蹤、分類、識別),則不僅需要能檢測到目標(biāo),同時還應(yīng)能感知目標(biāo)在環(huán)境中的相對位置以及目標(biāo)大小等信息。在激光雷達(dá)探測過程中,由于視角、背景等原因,目標(biāo)時常被遮擋,在距離像中可能難以很好地實現(xiàn)檢測與分割[5]。如圖3所示,目標(biāo)部分被樹木遮擋,難以完整地將目標(biāo)與背景分離。
圖3 目標(biāo)被樹木遮擋示意圖Fig.3 An illustration of a target under trees
此時,通過從距離像中恢復(fù)三維點云場景則能較好地實現(xiàn)目標(biāo)與背景的分割[6]。由于距離像是三維場景在二維平面的投影像,在某一觀測視點上目標(biāo)被物體遮擋,則相應(yīng)的成像結(jié)果中目標(biāo)也會被遮擋[7]。然而,在真實場景中目標(biāo)實際與背景是分離的,因此通過三維點云可以從不同的角度進(jìn)行觀測,從而較好地分離背景與目標(biāo)[8]。
綜上,本文檢測算法的具體步驟為:首先對距離像進(jìn)行去噪、分塊以及轉(zhuǎn)換成點云等預(yù)處理操作,其次進(jìn)行地面估計,然后進(jìn)行高程濾波,最后根據(jù)目標(biāo)大小等先驗信息分割出目標(biāo)。算法流程如圖4所示。
圖4 地面目標(biāo)檢測算法流程Fig.4 The flow chart for the ground target detection algorithm
Semaphore[10]模塊是 TI-C6678 的內(nèi)部硬件模塊,完成對共享資源互斥訪問的硬件仲裁,保證同時刻片上資源只被一個內(nèi)核訪問。Semaphore模塊最多支持64個獨立的旗語信號用于表征資源的訪問狀態(tài)。Semaphore模塊提供共享資源申請、釋放和狀態(tài)查看等管理操作庫函數(shù)。資源申請是獲取資源訪問權(quán)的過程,資源被閘式保護(hù)以保證互斥訪問。資源釋放是放棄所有權(quán)的過程,狀態(tài)查看函數(shù)提供了確認(rèn)資源當(dāng)前狀態(tài)的功能,內(nèi)核一旦放棄資源所有權(quán),再次使用仍需重新申請。Semaphore硬件仲裁模塊實現(xiàn)了對資源共享的協(xié)調(diào)化管理,避免多核環(huán)境下可能產(chǎn)生多個核同時競爭使用共享資源等錯誤。其次,該模塊和其他功能模塊有良好的事件交互,增強(qiáng)了多核開發(fā)的靈活性。最后,由于硬件信號量訪問時間幾近零開銷,因而大大減少了多核調(diào)用資源的延時等待。
Semaphore模塊申請資源分為以下三種方式:
(1)直接申請(Direct request);
(2)間接申請(Indirect request);
(3)合并申請(Combined request)。
本系統(tǒng)采用信號量直接申請的方式進(jìn)行多核控制。此種方式是獲取資源訪問權(quán)的最簡單方法,申請結(jié)果只有應(yīng)允和否決兩種。申請被應(yīng)允,表明資源當(dāng)前可用,申請內(nèi)核獲得所有權(quán)。否決狀態(tài)說明資源被占用,內(nèi)核不能獲得訪問權(quán),硬件模塊持續(xù)嘗試直到被應(yīng)允。本系統(tǒng)基于信號量多核調(diào)度工作流程框圖如圖5所示。如2.1節(jié)所述,本文多核系統(tǒng)采用主輔拓?fù)浣Y(jié)構(gòu),其中0核作為主核負(fù)責(zé)接收數(shù)據(jù)與任務(wù)調(diào)度,1~4核作為輔核進(jìn)行并行處理。
馬蘭把衣服放在搓衣板上反復(fù)地揉搓著,不大會兒洗衣盆里就堆起了五顏六色的泡沫。再過一陣,她的兩只手以及小半截手臂也淹沒在泡沫里了。好幾次我都想提醒她,你不要再搓了小蘭,再搓下去會把衣服搓壞的。可我忍住沒敢開口。當(dāng)我給馬蘭轉(zhuǎn)述那天事情的經(jīng)過時,她就這樣一直低著頭搓洗衣服,我說完半天了,她還沒有停手的意思。那件衣服被馬蘭搓得撲哧撲哧響,人一樣急促地喘息。
首先各工作核開始進(jìn)行各自的信號量初始化,釋放信號量即釋放所占用的資源。主核與輔核不同的是,主核在信號量初始化時占用了輔核在處理時所需的資源并進(jìn)行了一系列的接口初始化,而后等待網(wǎng)口發(fā)數(shù)據(jù)。輔核在信號量初始化完畢后,開始申請各自的信號量,直到獲得該資源的所有權(quán)時才開始后續(xù)的處理。當(dāng)從網(wǎng)口接收到一幅激光雷達(dá)圖像數(shù)據(jù)時,主核開始釋放其所占用的資源,隨即進(jìn)入等待,直到輔核釋放各自的資源時再處理下一幀激光雷達(dá)圖像。而此時,輔核在主核釋放了資源后,立即獲得各核對應(yīng)資源的所有權(quán),從而進(jìn)行檢測算法處理。處理完畢后釋放各自的資源,并將處理結(jié)果存入DDR3內(nèi)。自此,處理機(jī)完成了一幀圖像的處理。
圖5 基于信號量的多核交互流程圖Fig.5 Diagram of the multi-core scheduling based on Semaphore
多核并行系統(tǒng)的處理效率由各核處理時間的最大值決定[11],也就是說,如何合理的分配任務(wù)以使各核承載的運算量處于同一個量級是多核任務(wù)分配的關(guān)鍵。以本系統(tǒng)為例,對同一個檢測算法,處理所需的計算量與激光雷達(dá)圖像的大小成正比。要想各輔核的計算量處于同一個量級只需將激光雷達(dá)圖像合理地分成多份,各個輔核只需對各自對應(yīng)的圖像區(qū)間進(jìn)行處理即可。然而如果目標(biāo)處于兩個或多個圖像區(qū)間的邊界時,目標(biāo)會被分割開,因而不利于目標(biāo)檢測。本文采用適當(dāng)擴(kuò)大各圖像區(qū)間大小的方法,使得各個區(qū)間有一定的重合部分。由于激光雷達(dá)圖像不同于二維圖像,其圖像中的每個點之間的距離是物體在真實世界的實際距離,因此,可根據(jù)待檢測目標(biāo)的大小等一系列先驗知識決定重合部分的大小。
在多核操作系統(tǒng)上進(jìn)行并行計算的主要目的是減少整個計算過程中所耗費的時間,為此加速比被提出用于衡量并行系統(tǒng)的加速性能。加速比的定義為在某個特定的應(yīng)用下,并行執(zhí)行程序相對于串行執(zhí)行程序在運算速度方面提高的倍數(shù)。
隨著計算機(jī)技術(shù)的發(fā)展,先后有三個計算并行加速比的定律被提出,即Amdahl定律、Gustafson定律以及Sun和Ni定律。由于本文為激光雷達(dá)圖像處理系統(tǒng),對于同一檢測算法,計算負(fù)載是不變的,所以衡量加速比采用適用于固定計算負(fù)載的Amdahl定律。
1967年,IBM公司的計算機(jī)結(jié)構(gòu)師Amdahl在其論文中提出了計算機(jī)科學(xué)中著名的Amdahl定律[12]。Amdahl定律的出發(fā)點主要基于以下幾點:
(1)對實時性要求很高的處理系統(tǒng),在計算負(fù)載(計算量)不變的情況下,可以通過采用多核處理器,增加并行處理器的數(shù)量的方法來提高整體計算速度以達(dá)到實時性要求。
(2)計算負(fù)載(計算量)是固定不變的,通過增加處理器數(shù)目,可以將計算任務(wù)均勻地分成幾個子任務(wù),然后分配到各個處理器并行執(zhí)行。由于每個處理器的任務(wù)量減小,并行執(zhí)行時總的時間縮短,從而達(dá)到了加速計算的目的。Amdahl推導(dǎo)出的加速公式如下:
式中,p表示處理器個數(shù);f為可串行執(zhí)行的負(fù)載占總負(fù)載的比例,加速比用S表示。當(dāng)p→∞ 時,S→1/f。
上式表明,即使處理器數(shù)目無限增大,并行系統(tǒng)所能達(dá)到的最大加速比也不超過1/f。以本系統(tǒng)為例,假如串行執(zhí)行的計算負(fù)載占整個負(fù)載的1/4,并行執(zhí)行的計算負(fù)載占整個負(fù)載的3/4,則1/f。因此,不論增加多少處理器,它所能達(dá)到的最大加速比為4倍。這是因為,程序的執(zhí)行時間等于串行部分執(zhí)行時間與并行部分執(zhí)行時間之和。處理器的增加縮短了并行執(zhí)行的時間,從而減少了整體的執(zhí)行時間。然而串行執(zhí)行時間與處理器數(shù)目p無關(guān),增加處理器的數(shù)量無法加速串行部分,因此,串行部分執(zhí)行時間過長而導(dǎo)致的處理時間過長問題不能通過增加系統(tǒng)處理器的數(shù)量來解決。
本系統(tǒng)的DSP編譯環(huán)境為CCS5.1,每個核均工作在1 GHz頻率。本實驗采用面陣激光雷達(dá)仿真軟件獲取1500 m外的地面場景距離圖像。為仿真場景內(nèi)包含樹木和坦克等目標(biāo),圖像分辨率分別設(shè)置為32×32、64×64、128×128。
圖6 系統(tǒng)實物圖Fig.6 A photo of the LiADR data processing system
系統(tǒng)實物圖如圖6所示。圖7中的左圖為分辨率為128×128以偽灰度形式表示的原始距離圖像,圖7中的右圖為檢測到的地面目標(biāo)(即坦克)。
本文將并行處理系統(tǒng)擴(kuò)展至雙核和六核,利用TI自帶的TSCL計時函數(shù)分別對三種分辨率下的距離圖像進(jìn)行測試,采用計時函數(shù)得到處理一幀圖像所用的DSP時鐘周期數(shù),并將該時鐘周期數(shù)除以工作頻率(1 GHz)即可得到處理一幀圖像所消耗的時間。由于目前國內(nèi)面陣激光雷達(dá)所能達(dá)到的分辨率為32×32,處理機(jī)四核并行時處理一幀圖像需要50 ms左右,因此滿足實時性要求。
圖7 分辨率為128×128的激光雷達(dá)距離圖像處理結(jié)果Fig.7 The processing results of 128 ×128 LiDAR range image
圖8為采用不同的工作核數(shù)處理不同分辨率激光雷達(dá)圖像時的性能。需要注意的是,由于本系統(tǒng)采用的多核模式是主從模式,主核用于和外部接口通信,只有輔核承擔(dān)算法的運算任務(wù),所以圖中的核數(shù)表示的是承擔(dān)算法運算的輔核個數(shù)。其次,本文處理的圖像數(shù)據(jù)均存儲于DDR3中,因此處理速度比存儲于L2或者共享內(nèi)存中要稍慢。
圖8 多核的性能比較Fig.8 Performance comparison with multiple cores
從圖8可看出,當(dāng)工作核數(shù)較少時,通過增加工作核數(shù)(即對圖像進(jìn)行多次分區(qū)處理)會大幅減少處理時間。然而當(dāng)核數(shù)較多時,核數(shù)增加帶來的加速效益逐步下降。本文所設(shè)計的處理系統(tǒng)是將圖像分區(qū),每個區(qū)塊交給單獨核進(jìn)行處理,即每一個核對應(yīng)一個區(qū)塊的圖像,增加的并行工作的DSP核數(shù),也就是增加圖像分區(qū)后的區(qū)塊數(shù)。由于分區(qū)后的相鄰的區(qū)塊之間重疊部分要大于待檢測目標(biāo),以及每一區(qū)塊的點數(shù)要足夠多以保證地面擬合的精確度。因此即使分區(qū)的區(qū)塊數(shù)增多,也并不代表每個區(qū)塊的點云個數(shù)成比例減少。因此,每個核分擔(dān)的計算負(fù)載沒有成比例的減少。正如圖8的時間曲線所示,隨著核數(shù)的增加,加速效益逐步減小。
對本系統(tǒng)稍作修改即可實現(xiàn)可見光圖像處理,本系統(tǒng)以對含噪聲圖像進(jìn)行平滑及銳化處理為例演示本系統(tǒng)的良好擴(kuò)展性。測試圖像采用含椒鹽噪聲的lena圖像以及原始的lena圖像。實驗結(jié)果如圖9所示。
以上處理均是比較經(jīng)典的濾波處理,圖9中的平滑是以3×3的窗口對圖像進(jìn)行中值濾波;銳化則是以拉普拉斯算子對圖像進(jìn)行濾波。以上實驗表明,該系統(tǒng)對于可見光圖像處理有一定的適應(yīng)性,為后續(xù)實現(xiàn)可見光與激光融合圖像處理提供了有效途徑。
圖9 可見光圖像處理結(jié)果Fig.9 Processing results for a visible image
DSP+FPGA架構(gòu)已成為大數(shù)據(jù)高速處理系統(tǒng)的典型構(gòu)架,本文采用該構(gòu)架以及DSP多核處理技術(shù),實現(xiàn)了完整的激光成像雷達(dá)數(shù)據(jù)處理系統(tǒng)設(shè)計。測試結(jié)果表明,本文設(shè)計的系統(tǒng)工作穩(wěn)定、可靠、擴(kuò)展性強(qiáng)且處理一幀圖像僅需50ms,達(dá)到了實時性要求。此外,本文還進(jìn)一步分析了多核系統(tǒng)的并行加速比。理論分析和實驗結(jié)果均表明,對于固定負(fù)載的處理系統(tǒng),單純通過增加并行核數(shù)來提高加速比的作用是有限的。當(dāng)增加并行核數(shù)已經(jīng)不能明顯提高計算速度時,系統(tǒng)應(yīng)從減少每個核串行執(zhí)行的負(fù)載著手。即通過算法優(yōu)化及減少核間通信所需的時間開銷來提高總的運算速度。最后,本文還對該處理系統(tǒng)的可擴(kuò)展性開展了一系列的實驗。實驗表明,該系統(tǒng)稍作修改同樣適用于可見光圖像的處理,為激光與紅外融合圖像處理系統(tǒng)設(shè)計與實現(xiàn)提供了重要的參考。
[1] GUO Yulan,LU Min,TAN Zhiguo,et al.Survey of local feature extraction on rang images[J].Pattern Recognition and Artificial Intelligence,2012,25(5):783-791.(in Chinese)郭裕蘭,魯敏,譚志國,等.距離圖像局部特征提取方法綜述[J].模式識別與人工智能,2012,25(5):783-791.
[2] GUO Fumin,DING Mingyue,ZHANG Xuming.Fast image matching based on multi-core DSP[J].International Conference on Intelligent Computation and Bio-Medical Instrumentat-ion(ICBMI),2011:68-70.
[3] HUANG Zongfu,WANG Weihua,XIONG Yunsheng,et al.Design and implementation of a real-time signal processor for astronomical opto-electronic observation system[J].Infrared and Laser Engineering,2012,41(3):671-675.(in Chinese)黃宗福,王衛(wèi)華,熊運生,等.天文光電觀測系統(tǒng)實時信息處理機(jī)的設(shè)計與實現(xiàn)[J].紅外與激光工程,2012,41(3):671-675.
[4] M Himmelsbach,F(xiàn)elix V Hundelshausen,H-J Wuensche.Fast segmentation of 3D point clouds for ground vehicles[C].IEEE Intelligent Vehicles Symposium(IV),2010.USA:Institute of Electrical and Electronics Engineers Inc,2010,560-565.
[5] Wei Yao,Stefan Hinz,Uwe Stilla.Automa-tic vehicle extraction from airborne LiDAR data of urban areas using Morphological Reconstruction[J].Pattern Recognition Letters,2010,(31):1100-1108.
[6] Matthias R Schmid,Mirko Maehlisch,Juergen Dickmann,et al.Dynamic level of detail 3D occupancy grids for automotive use[C].IEEE Intelligent Vehicles Symposium(IV).USA:Institute of Electrical and Electronics Engineers Inc,2010:269-274.
[7] Wei Yao,Uwe Stilla.Comparison of two methods for vehicle extraction from airbor-ne LiDAR data toward motion analysis[J].IEEE Geoscience and Remote Sensing Letters,2011,(8):607-611.
[8] Yani Ioannou,Babak Taati,Robin Harrap,et al.Difference of Normals as a Multi-scale Operator in Unorganized Point Clouds[J].IEEE Conference on 3D Imaging,Modeling,Processing,Visualization and Transmission(3DIMPVT).USA,2012:501-508.
[9] Wei Yao,Stefan Hinz,Uwe Stilla.3D object-based classification for vehicle extract-ion from airborne LiDAR data by combining point shape information with spatial edge[C].6th IAPR Workshop PRRS.USA:IEEE,2010,1-4.
[10] Texas Instruments.KeyStone Architecture Semaphore2 Hardware Module User Guide[M].USA:Texas,2012:10-20.
[11] Pawel Gepner,Michal F Kowalik.Multi-Core Processors:New Way to Achieve High Systems Performance[C].International Sym-posium on Parallel Computing in Electrical Engineering,2006:9-13.
[12] Gene M Amdahl.Validity of the Single-processor Approach to Achieving Large Scale Computing Capabilities[C].AFIPS Spring Joint Computer Conference,1967:483-485.