李寶奇 ,任露露 ,陳 發(fā) ,錢 斌 ,黃海寧
(1.中國科學(xué)院 聲學(xué)研究所,北京,100086;2.蘇州桑泰海洋儀器研發(fā)有限責(zé)任公司,江蘇 蘇州,215000;3.中國科學(xué)院大學(xué),北京,100086;4.中國科學(xué)院 先進(jìn)水下信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京,100190)
在現(xiàn)役破障裝備中[1-2],微波、電磁感應(yīng)、機(jī)器人和激光等技術(shù)得到了廣泛的應(yīng)用,但是對(duì)于水下軌條砦的探測和識(shí)別卻一直缺乏有效手段[3-4]。
與二維成像聲吶相比,三維聲吶兼具水平和垂直窄波束,具有很強(qiáng)的抗混響能力,更適合渾濁水和淺水等高混響環(huán)境下的探測。三維聲吶可獲取三維立體數(shù)據(jù)信息,能夠根據(jù)圖像判斷水下物體的形態(tài)和位置,而且通過三維立體空間旋轉(zhuǎn),可從多個(gè)視角對(duì)水下目標(biāo)物進(jìn)行觀測,提高對(duì)水下復(fù)雜環(huán)境的判斷能力[5]。三維成像聲吶主要有機(jī)械掃描、多波束電子掃描和基于二維面陣掃描3 種形式。機(jī)械掃描的成像方式要想獲得三維圖像,需要利用單波束對(duì)探測場景進(jìn)行全方位的掃描,成像速率過低;多波束電子掃描的方式通過相控陣技術(shù),能夠提高掃描速度,但聲脈沖的單次收發(fā)不能獲得三維圖像;而基于二維面陣的三維成像聲吶單次發(fā)射聲脈沖,即可一次性獲得場景中水平、垂直和距離3 個(gè)維度的信息,圖像刷新率高,同時(shí)增加垂直維度的信息能在較大程度上提高無人系統(tǒng)的自主識(shí)別能力[6]。
經(jīng)典的三維點(diǎn)云物體識(shí)別方法多是通過提取物體的特征點(diǎn)幾何屬性、形狀屬性、結(jié)構(gòu)屬性或者多種屬性的組合等特征進(jìn)行比對(duì)和匹配,從而完成物體的識(shí)別與分類。主要包括基于局部特征和基于全局特征的物體識(shí)別方法?;诰植刻卣鞯姆椒o需對(duì)處理數(shù)據(jù)進(jìn)行分割,通過提取物體的關(guān)鍵點(diǎn)、邊緣或者面片等局部特征并進(jìn)行比對(duì)來完成物體的識(shí)別;基于全局特征的方法需要從背景中將目標(biāo)物體分割出來,通過描述和比對(duì)三維物體形狀中的全部或者最顯著的幾何特征來完成物體的識(shí)別。近年來,隨著深度學(xué)習(xí)在圖像分類、目標(biāo)檢測和圖像分割中成功應(yīng)用[6-7],基于深度學(xué)習(xí)技術(shù)的點(diǎn)云數(shù)據(jù)分析也成為了研究的熱點(diǎn)。從數(shù)據(jù)輸入角度考慮,當(dāng)前基于深度學(xué)習(xí)的點(diǎn)云目標(biāo)識(shí)別方法大體可以分為以下3 類: 多視圖、體素結(jié)構(gòu)和直接點(diǎn)云數(shù)據(jù)[8-11],其中多視圖類方法可以直接利用二維目標(biāo)檢測方法,并且具有明顯的速度優(yōu)勢。
在二維圖像目標(biāo)識(shí)別研究方面,為了提高模型的檢測速度。Redmon 等[12]提出了一種無區(qū)域建議的目標(biāo)檢測模型,稱為YOLO(you only look once)。YOLO 通過采用空間限制,大大提高了效率,能夠達(dá)到實(shí)時(shí)的效果。但是YOLO 的檢測精度不如Faster R-CNN(faster region-convolutional neural networks)[13]。針對(duì)YOLO 存在的不足,Liu 等[14]提出了單步檢測 (single shot detector,SSD)模型,該模型通過融合6 個(gè)尺度的特征來提高目標(biāo)檢測的精度,但檢測時(shí)間依然偏高。
為了兼顧SSD 對(duì)小目標(biāo)的檢測精度和速度,Howard 等[15]提出了輕量化的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural net works,CNN)MobileNet V1。MobileNet V1 用深度可分離卷積 (depthwise separable convolution,DSC)替換標(biāo)準(zhǔn)卷積來減少模型的參數(shù)和計(jì)算量,其在不影響目標(biāo)檢測精度的條件下能極大地提高SSD 的檢測速度。Sandler 等[16]提出了MobileNet V1 的改進(jìn)版本MobileNet V2。MobileNet V2 在深度可分離卷積的基礎(chǔ)上引入了跨連接(shortcut connections)結(jié)構(gòu),并設(shè)計(jì)了新的特征提取模塊IRB(inverted residual block)。新模塊將原來的先“壓縮”后“擴(kuò)張”調(diào)整為先“擴(kuò)張”后“壓縮”,同時(shí)為了降低激活函數(shù)在高維信息向低維信息轉(zhuǎn)換時(shí)的丟失和破壞,將最后卷積層的激活層由非線性更改為線性。Howard 等[17]在Mobile-Net V1 和MobileNet V2 的基礎(chǔ)上提出了改進(jìn)版本MobileNet V3 和特征提取模塊IRB+,IRB+引入了SE(squeeze and excitation)注意力機(jī)制[18]。SE 首先對(duì)卷積得到的特征進(jìn)行squeeze 操作,得到全局特征,然后對(duì)全局特征進(jìn)行excitation 操作,得到不同特征的權(quán)重,最后乘以對(duì)應(yīng)通道的特征得到最終特征。本質(zhì)上,SE 組件是在特征維度上做選擇,這可以更加關(guān)注信息量最大的特征,而抑制那些不重要的特征。IRB+在保持較低計(jì)算量的同時(shí),具有更好的特征提取能力,但其捕獲所有通道的依賴關(guān)系是低效且不必要的。Wang 等[19]提出了跨通道交互的極輕量注意力組件ECA(efficient channel attention)。ECA 去除了原來SE 組件中的全連接層,直接在全局平均池化(global average pooling,GAP)之后的特征上通過一個(gè)可以權(quán)重共享的一維卷積進(jìn)行學(xué)習(xí),其中一維卷積的卷積核尺寸表示局部跨通道交互的覆蓋率。
借助前視三維聲吶對(duì)水下軌條砦目標(biāo)進(jìn)行成像,并針對(duì)上述多視圖類點(diǎn)云識(shí)別方法存在的問題,設(shè)計(jì)了一種基于SSD 的軌條砦目標(biāo)識(shí)別方法PCSSD(point cloud SSD)。另外,提出了基于多尺度注意力機(jī)制的特征模塊,進(jìn)一步改善了PCSSD對(duì)軌條砦目標(biāo)的檢測性能。
PCSSD 將三維點(diǎn)云數(shù)據(jù)進(jìn)行前向投影,利用二維目標(biāo)檢測方法對(duì)投影圖像中的軌條砦目標(biāo)進(jìn)行檢測,并與目標(biāo)深度信息結(jié)合實(shí)現(xiàn)三維點(diǎn)云中軌條砦目標(biāo)的檢測、識(shí)別和測量,識(shí)別方法原理如圖1 所示。
圖1 PCSSD 原理圖Fig.1 Schematic diagram of PCSSD
PCSSD 的實(shí)現(xiàn)過程: 1)對(duì)原始波束域數(shù)據(jù)進(jìn)行閾值和直通濾波處理,消除噪聲和干擾,得到稀疏的點(diǎn)云數(shù)據(jù);2)對(duì)稀疏的點(diǎn)云數(shù)據(jù)進(jìn)行前向投影,同時(shí)依據(jù)點(diǎn)云的距離信息得到深度圖;3)將深度灰度圖偽彩化,并制作基于深度偽彩圖的軌條砦目標(biāo)識(shí)別數(shù)據(jù)集;4)利用軌條砦目標(biāo)訓(xùn)練集對(duì)檢測模型進(jìn)行訓(xùn)練,得到訓(xùn)練充分的目標(biāo)識(shí)別模型;5)利用訓(xùn)練充分的模型對(duì)深度偽彩圖進(jìn)行識(shí)別,得到目標(biāo)的類型、概率和位置信息(平面xy);6)結(jié)合目標(biāo)位置(平面xy)計(jì)算深度灰度圖中目標(biāo)的深度范圍(z軸),聯(lián)合目標(biāo)類型、概率、xyz信息對(duì)稀疏點(diǎn)云軌條砦目標(biāo)進(jìn)行標(biāo)注,從而實(shí)現(xiàn)三維點(diǎn)云目標(biāo)的識(shí)別。
前視三維聲吶接收到的原始回波信號(hào)是陣元數(shù)目和距離向采樣的乘積。對(duì)每一幀接收到的聲學(xué)回波數(shù)據(jù)進(jìn)行波束形成處理,得到大小為B·B·Q的波束域數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)如圖2 所示,其中B·B是2 個(gè)方向形成的波束數(shù)量,Q為距離切片數(shù)量,由成像距離和距離分辨率決定。
圖2 波束域數(shù)據(jù)結(jié)構(gòu)Fig.2 Data structure of beam domain
波束形成之后的數(shù)據(jù)代表的是空間中每一點(diǎn)的強(qiáng)度信息,這里的采樣網(wǎng)格遍布空間中的每個(gè)點(diǎn)。根據(jù)三維聲吶的成像場景,無論是對(duì)目標(biāo)或者地形地貌等特征進(jìn)行成像,成像目標(biāo)都是三維空間中的有限個(gè)點(diǎn),是絕對(duì)稀疏的,所以波束形成之后的數(shù)據(jù)有著非常大的冗余,需要將無用的噪聲數(shù)據(jù)加以去除。
1.2.1 閾值濾波
原始陣元域數(shù)據(jù)進(jìn)行波束形成之后得到波束域數(shù)據(jù),鑒于目標(biāo)在波束域數(shù)據(jù)的強(qiáng)度較大,隨機(jī)噪聲在波束域的強(qiáng)度較小,使用閾值濾波對(duì)波束域數(shù)據(jù)進(jìn)行第1 步處理:
式中:Pixel為波束域數(shù)據(jù);PixelT為閾值濾波后數(shù)據(jù)。進(jìn)行閾值濾波之后,將強(qiáng)度小于一定閾值的點(diǎn)進(jìn)行刪除,數(shù)據(jù)量會(huì)大大減小,一定程度上可以展示成像場景,如圖3 所示。
圖3 閾值濾波數(shù)據(jù)Fig.3 Threshold filtered data
1.2.2 直通濾波
波束形成之后進(jìn)行閾值濾波,仍然有一些不完善的地方,尤其是在空間中存在非常強(qiáng)的散射點(diǎn)的情況下,由于聲吶設(shè)備有一定的動(dòng)態(tài)范圍,這些強(qiáng)的散射點(diǎn)會(huì)導(dǎo)致聲吶對(duì)相對(duì)較弱的目標(biāo)成像能力大大減弱??紤]到三維成像聲吶的工作頻率為上百千赫茲,穿透性很弱,進(jìn)行直通濾波操作,在每個(gè)波束方向上保留強(qiáng)度最大的點(diǎn):
式中:Pixelpt是每個(gè)波束方向強(qiáng)度最大點(diǎn)的強(qiáng)度,也就是強(qiáng)度信息矩陣;Indpt是直通濾波每個(gè)波束方向強(qiáng)度最大點(diǎn)的距離切片索引,也就是位置信息矩陣。直通濾波后的點(diǎn)云數(shù)據(jù)如圖4 所示。
圖4 直通濾波數(shù)據(jù)Fig.4 Pass-through filtered data
1.2.3 深度灰度圖和偽彩圖
在閾值濾波和直通濾波的作用上,得到稀疏點(diǎn)云Pixelpt和位置信息矩陣Indpt,文中利用Indpt生成深度灰度圖
式中,Img為深度灰度圖。進(jìn)一步,可將深度灰度圖轉(zhuǎn)換為深度偽彩圖,便于訓(xùn)練和目標(biāo)檢測,深度灰度圖和深度偽彩圖如圖5 和圖6 所示。
圖5 深度灰度圖Fig.5 Depth grayscale image
圖6 深度偽彩圖Fig.6 Pseudo color depth image
鑒于ECA 的單尺度卷積核提取軌條砦目標(biāo)的能力有限,提出了一個(gè)多尺度輕量化注意力組件MECA(multiscale efficient channel attention)。MECA通過多個(gè)尺度的特征融合來提高組件對(duì)輸入特征通道的選擇能力,利用該組件設(shè)計(jì)新的特征提取模塊MEIRB(multiscale efficient inverted residual block),如圖7 所示。MEIRB 模塊采用了反殘差網(wǎng)絡(luò)結(jié)構(gòu),即對(duì)通道采取先“擴(kuò)張”后“壓縮”的策略,由擴(kuò)張層、通道可選擇組件和壓縮層組成,其中擴(kuò)張層負(fù)責(zé)輸入特征通道擴(kuò)張;通道可選擇組件通過學(xué)習(xí)權(quán)重選擇包含重要信息的通道;壓縮層負(fù)責(zé)將特征通道壓縮成與輸入特征一致的數(shù)量。
圖7 MEIRB 模塊Fig.7 MEIRB module
對(duì)于一個(gè)任意的輸入特征D∈ΦH×H×M,其中H×H為輸入特征的尺寸,M為輸入特征的通道數(shù)。輸入特征D進(jìn)入MEIRB 模塊的2 個(gè)支路網(wǎng)絡(luò): 下側(cè)支路負(fù)責(zé)水下感興趣小目標(biāo)特征提取和選擇;上側(cè)支路保持D不變,并最后與上側(cè)支路網(wǎng)絡(luò)的輸出特征相加。對(duì)于下側(cè)支路網(wǎng)絡(luò),輸入特征D首先經(jīng)過擴(kuò)張層,其數(shù)學(xué)表達(dá)式為
式中:D為原始輸入特征;Dex為經(jīng)過擴(kuò)張層后的特征,擴(kuò)張層的卷積核尺寸為1×1,卷積核的數(shù)量為輸入特征通道的k倍,即k×M。
將輸出特征Dex送入MECA 通道選擇組件,其輸出特征的數(shù)學(xué)表達(dá)式為
接著,對(duì)Dse進(jìn)行通道壓縮,數(shù)學(xué)表達(dá)式為
式中,D′為通道壓縮后的特征。
通過上面的計(jì)算,最后可以得到MEIRB 模塊的輸出特征數(shù)學(xué)表達(dá)式為
利用MEIRB 模塊在SSD-MV3 框架內(nèi)替換IRB+模塊,得到改進(jìn)的目標(biāo)檢測模型SSD-MV3ME,結(jié)構(gòu)如圖8 所示,包括基礎(chǔ)網(wǎng)絡(luò)、附加特征提取網(wǎng)絡(luò)、候選框生成和卷積預(yù)測4 個(gè)部分。SSDMV3ME 附加特征提取網(wǎng)絡(luò)一共提取6 個(gè)尺度的特征,基礎(chǔ)網(wǎng)絡(luò)中的第14 層(conv14)和第19 層(conv19)作為附加特征提取網(wǎng)絡(luò)的第1 特征層和第2 特征層,輸入特征圖尺寸為19×19 和10×10;Conv19_1、Conv19_2、Conv19_3 和Conv19_4 作為附加特征提取網(wǎng)絡(luò)的第3~6 尺度特征層,輸入特征圖尺寸分別為5×5,3×3,2×2 和1×1。候選框生成部分從上述6 個(gè)尺度的特征層中提取數(shù)量和大小不同的候選框;卷積預(yù)測部分則是對(duì)候選框內(nèi)目標(biāo)的類型和位置進(jìn)行判斷。SSD-MV3ME 與目標(biāo)檢測模型SSD-MV3 的訓(xùn)練過程[18]相同。
圖8 SSD-MV3ME 模型Fig.8 SSD-MV3ME model
為了驗(yàn)證PCSSD 的有效性以及相關(guān)參數(shù)對(duì)其性能的影響,設(shè)計(jì)實(shí)驗(yàn)1,以輕量化目標(biāo)檢測模型SSD-MV3 為研究對(duì)象,比較分析不同注意力機(jī)制的性能差異;設(shè)計(jì)實(shí)驗(yàn)2,以注意力機(jī)制MECA 為研究對(duì)象,比較分析MECA 中多尺度卷積核的數(shù)量對(duì)PCSSD 性能的影響。
為驗(yàn)證文中點(diǎn)云識(shí)別方法的有效性,在中國南海某淺水海域布放多個(gè)軌條砦目標(biāo),如圖9 所示,并通過無人艇搭載前視三維聲吶按不同距離和不同方位對(duì)軌條砦目標(biāo)進(jìn)行數(shù)據(jù)采集,每幀點(diǎn)云數(shù)據(jù)中最少存在1 個(gè)軌條砦目標(biāo)。
圖9 軌條砦布放Fig.9 Deployment of erect rail barricades
數(shù)據(jù)采集完畢后,利用1.2 節(jié)方法對(duì)采集到的軌條砦點(diǎn)云數(shù)據(jù)進(jìn)行預(yù)處理,得到深度偽彩圖,并建立一個(gè)軌條砦目標(biāo)檢測數(shù)據(jù)集GTZ,其中訓(xùn)練數(shù)據(jù)集包含444 幅圖像,驗(yàn)證數(shù)據(jù)集包含140 幅圖像,測試數(shù)據(jù)集包含88 幅圖像,3 個(gè)數(shù)據(jù)集的比例約為7∶2∶1,組成如表1 所示。
表1 軌條砦目標(biāo)檢測數(shù)據(jù)集Table 1 Dataset of erect rail barricades for target detection
在PCSSD 框架內(nèi),實(shí)驗(yàn)1 比較分析了SSDMV3、SSD-MV3E 與文中SSD-MV3ME 在數(shù)據(jù)集GTZ 上的性能差異。SSD-MV3 的特征提取模塊為IRB+,采用SE 注意力組件;SSD-MV3E 的特征提取模塊為EIRB,采用ECA 注意力組件;SSDMV3ME 的特征提取模塊為MEIRB,采用MECA注意力組件。分別記錄檢測模型在迭代1 000 次時(shí)對(duì)GTZ 測試數(shù)據(jù)集的平均精度(mean average precision,mAP)數(shù)值、參數(shù)大小和平均檢測時(shí)間。
從表2 可以發(fā)現(xiàn),SSD-MV3ME 的檢測精度比SSD-MV3 和SSD-MV3E 分別高1.05%和0.55%;參數(shù)大小比SSD-MV3 減少2 482 kB,比SSD-MV3E增加8 kB;檢測時(shí)間比SSD-MV3 和SSD-MV3E分別增加0.32 ms 和1.32 ms。綜合考慮mAP、參數(shù)大小和檢測時(shí)間,SSD-MV3ME 更適合三維點(diǎn)云軌條砦目標(biāo)檢測識(shí)別。
表2 目標(biāo)檢測模型性能比較Table 2 Performance comparsion of target detection models
為了進(jìn)一步驗(yàn)證PCSSD 對(duì)軌條砦目標(biāo)的檢測識(shí)別效果,利用PCSSD 對(duì)軌條砦三維點(diǎn)云數(shù)據(jù)進(jìn)行識(shí)別,識(shí)別結(jié)果如圖10 所示。從圖10 可以發(fā)現(xiàn),PCSSD 能有效檢測識(shí)別出三維點(diǎn)云數(shù)據(jù)中的軌條砦目標(biāo)。
圖10 軌條砦目標(biāo)識(shí)別結(jié)果Fig.10 Detection results of erect rail barricades
實(shí)驗(yàn)2 比較了具有不同數(shù)量多尺度卷積核的MECA 對(duì)SSD-MV3ME 性能的影響。MECA 多尺度卷積核數(shù)量分別為1,2,3 和4,其中多尺度卷積核數(shù)量為1 時(shí),SSD-MV3ME 為SSD-MV3E;多尺度卷積核數(shù)量為2 時(shí),SSD-MV3ME 中MECA 卷積核尺寸為1×1 和3×3;多尺度卷積核數(shù)量為3 時(shí),SSDMV3ME 中MECA 卷積核尺寸為1×1、3×3 和5×5;多尺度卷積核數(shù)量為4 時(shí),SSD-MV3ME 中MECA卷積核尺寸為1×1,3×3,5×5 和7×7。分別記錄檢測模型在迭代1 000 次時(shí)對(duì)GTZ 測試數(shù)據(jù)集的mAP 數(shù)值、參數(shù)大小和平均檢測時(shí)間,如表3 所示。
表3 MECA 不同數(shù)量多尺度卷積核對(duì)SSD-MV3ME 性能的影響Table 3 Effect of different accounts of MECA multiscale convolutions kernel on the performance of SSDMV3ME
從表3 可以發(fā)現(xiàn),隨MECA 多尺度卷積核數(shù)量的增加,SSD-MV3ME 檢測精度逐漸增加,當(dāng)多尺度卷積核數(shù)量等于4 時(shí),SSD-MV3ME 的檢測精度為88.26%,比卷積核數(shù)量等于3、2 和1 時(shí)的檢測精度分別高0.13%、0.66%和0.68%。SSD-MV3ME的模型參數(shù)并沒有隨多尺度系數(shù)的增加有明顯的變化,但檢測時(shí)間隨多尺度系數(shù)增加也不斷增大,當(dāng)多尺度卷積核數(shù)量等于4 時(shí),SSD-MV3ME 的檢測時(shí)間已經(jīng)達(dá)到13.94 ms,比多尺度卷積核數(shù)量等于1 時(shí)的SSD-MV3ME 增加16.55%。顯然,MECA多尺度卷積核數(shù)量的選取應(yīng)兼顧檢測精度和檢測時(shí)間,文中MECA 多尺度卷積核個(gè)數(shù)為3,檢測時(shí)間與SSD-MV3 基本相同,但檢測精度有顯著提升。
實(shí)驗(yàn)從mAP、參數(shù)大小和運(yùn)算時(shí)間3 個(gè)方面比較了目標(biāo)檢測算法SSD-MV3ME 與經(jīng)典算法(SSD-MV3)和最新算法(SSD-MV3E)性能上的差異,進(jìn)一步分析了MECA 多尺度卷積核數(shù)量的選取如何影響SSD-MV3ME 的性能。與SSD-MV3 相比,SSD-MV3ME 能更好地兼顧檢測精度和檢測時(shí)間,并能準(zhǔn)確識(shí)別三維點(diǎn)云數(shù)據(jù)中的軌條砦目標(biāo)。
基于前視三維聲吶的軌條砦目標(biāo)檢測識(shí)別具有重要的理論研究和實(shí)際應(yīng)用價(jià)值。文中提出了一種基于改進(jìn)SSD 的前視三維聲吶軌條砦目標(biāo)檢測方法PCSSD,并提出了輕量化小目標(biāo)檢測模塊MEIRB 和目標(biāo)檢測網(wǎng)絡(luò)SSD-MV3ME,理論分析和仿真實(shí)驗(yàn)證明了基于SSD-MV3ME 的PCSSD對(duì)軌條砦目標(biāo)的有效性。
對(duì)于前視三維聲吶的軌條砦目標(biāo)檢測任務(wù),下一步的研究重點(diǎn)包括: 1)研究更加輕量化的目標(biāo)檢測模型;2)研究適合更復(fù)雜環(huán)境下的軌條砦目標(biāo)識(shí)別算法。