葛慧林,戴躍偉,朱志宇,王 彪
(江蘇科技大學(xué) 海洋學(xué)院,江蘇 鎮(zhèn)江,212003)
基于光學(xué)傳感器獲得的圖像具有較高的圖像細(xì)節(jié)及顏色信息,適用于環(huán)境監(jiān)測或地質(zhì)勘探等應(yīng)用場景。光學(xué)相機(jī)提供的高分辨率數(shù)據(jù),在諸如珊瑚礁監(jiān)測[1]、船體檢查[2]、運(yùn)動(dòng)估計(jì)[3]和考古調(diào)查[4]等應(yīng)用中具有重要意義。
然而,光學(xué)相機(jī)的成像范圍有限,水下光的衰減、水的濁度或天氣改變等因素都將進(jìn)一步影響到光學(xué)傳感器的范圍和性能。照明系統(tǒng)可以在一定程度上緩解這些問題,但不均勻的照明也是光學(xué)圖像的干擾因素之一,并且由于成本及功率的限制,高質(zhì)量的照明系統(tǒng)并不適用于多數(shù)應(yīng)用場景。此外,在水下環(huán)境中,潛艇會(huì)揚(yáng)起淤泥,干擾光學(xué)傳感器的性能。聲吶可以適應(yīng)昏暗的環(huán)境,擁有更大的感知范圍,但是與光學(xué)相機(jī)相比,聲吶的分辨率較低,而且不包含顏色。
結(jié)合光學(xué)和聲吶數(shù)據(jù),可實(shí)現(xiàn)各自優(yōu)點(diǎn)的整合,提高水下目標(biāo)檢測的準(zhǔn)確度[5]。目前相關(guān)研究多數(shù)集中于如何創(chuàng)建高效的整合模型。Moroni 等[6]利用光學(xué)數(shù)據(jù)建立一個(gè)三維紋理的場景,利用聲吶數(shù)據(jù)的陰影形狀產(chǎn)生一個(gè)三維水深輪廓,通過整合每一個(gè)表征并使用文獻(xiàn)[7]中啟發(fā)的方法,投影到多維狀態(tài)空間圖中的參考層。然而,算法沒有對聲光圖像數(shù)據(jù)進(jìn)行直接的融合。Negahdaripour 等[8]設(shè)計(jì)的模型在特征層面上明確地融合光學(xué)和聲吶數(shù)據(jù),不僅改進(jìn)了運(yùn)動(dòng)估計(jì),還克服了單眼視覺固有的模糊性。Babaee 等[9]提出一種利用前視聲吶DIDSON 和光學(xué)相機(jī)圖像從遮擋表面法線建立三維物體模型的方法,與單純的光學(xué)傳感器技術(shù)相比,可以在更高的濁度水平下生成更好的物體三維模型。
在目標(biāo)檢測任務(wù)中,執(zhí)行光學(xué)圖像和聲吶圖像的融合需要對影像進(jìn)行校準(zhǔn)。在使用深度學(xué)習(xí)的多模態(tài)輸入中,根據(jù)聲光圖像信息被結(jié)合的時(shí)刻,一共分為3 種解決方案:早期融合、后期融合和中間融合。早期融合方法主要是在神經(jīng)網(wǎng)絡(luò)處理之前,在原始數(shù)據(jù)層面上結(jié)合光學(xué)和聲吶圖像。后期融合是指對來自光學(xué)和聲吶圖像進(jìn)行獨(dú)立處理后,融合處理結(jié)果。中期融合模型接受多種輸入,在網(wǎng)絡(luò)內(nèi)部融合數(shù)據(jù)。
為了克服樣本的不足,可利用零散的方法來增加樣本數(shù)量[10-11]。對預(yù)訓(xùn)練的CNN 進(jìn)行微調(diào)是聲吶圖像檢測中一個(gè)有用的方法。Lee 等[12]采用StyleBankNet對人體的光學(xué)圖像進(jìn)行風(fēng)格轉(zhuǎn)移模擬,進(jìn)一步提高了聲吶物體檢測的精度,但該樣本由計(jì)算機(jī)輔助設(shè)計(jì)軟件生成,需要大量的模擬工作來生成樣本。Li 等[13]充分利用風(fēng)格轉(zhuǎn)移白化、著色變換方法和遙感圖像模擬聲吶圖像進(jìn)行目標(biāo)風(fēng)格轉(zhuǎn)移。Yu 等[14]通過使用Transformer-YOLOv5,提高的準(zhǔn)確率。Huang 等[15]結(jié)合三維模型、放大數(shù)據(jù)、設(shè)備噪聲和圖像機(jī)制,通過DCNN 和微調(diào)風(fēng)格轉(zhuǎn)換方法提取目標(biāo)特征并模擬目標(biāo)損傷和姿態(tài)。Song 等[16]提出了一種基于斑點(diǎn)噪聲分析的高效聲吶分割方法,該方法便于進(jìn)行像素級分類,并采用具有多個(gè)側(cè)向輸出的單流深度神經(jīng)網(wǎng)絡(luò)來優(yōu)化邊緣分割。
為提升水下目標(biāo)檢測與識(shí)別的準(zhǔn)確度,本文研究了實(shí)時(shí)神經(jīng)網(wǎng)絡(luò)檢測器架構(gòu)YOLOv7,并使其適用于多模態(tài)輸入,實(shí)現(xiàn)聲光數(shù)據(jù)融合。通過設(shè)計(jì)全新的融合模型YOLOv7-Fusion 以及引入CE-Fusion 模塊,進(jìn)一步提升融合效率和準(zhǔn)確性。利用快速風(fēng)格和圖像處理算法轉(zhuǎn)化的方法,生成人工數(shù)據(jù)集,豐富樣本集數(shù)量。本文提出的算法可充分利用聲、光圖像的優(yōu)勢,顯著提升水下目標(biāo)檢測識(shí)別的效率、準(zhǔn)確性以及穩(wěn)定性。
本文網(wǎng)絡(luò)主干選擇為YOLOv7,YOLOv7 是一種單階段的物體檢測算法,其架構(gòu)是在YOLOv4,Scaled YOLOv4 和YOLO-R 模型架構(gòu)的基礎(chǔ)上開發(fā)。YOLOv7采用了擴(kuò)展的高效層聚合網(wǎng)絡(luò)(E-ELAN)架構(gòu),通過實(shí)現(xiàn)輸入的不同變化,如位置變換、擴(kuò)展和合并,使網(wǎng)絡(luò)的學(xué)習(xí)能力得到不斷提高,進(jìn)而網(wǎng)絡(luò)在梯度路線改變時(shí)也能保持較高學(xué)習(xí)性能。YOLOv7 架構(gòu)包括1 個(gè)骨干層、1 個(gè)瓶頸層和1 個(gè)頭部。模型的輸出位于頭部,并包括主導(dǎo)頭和輔助頭,主導(dǎo)頭負(fù)責(zé)預(yù)測結(jié)果,而輔助頭支持中間層的訓(xùn)練。基于YOLOv7,將光學(xué)圖像和聲吶圖像融合為6 通道的張量,其中3 個(gè)通道為RGB 圖像數(shù)據(jù),另3 個(gè)通道為聲吶數(shù)據(jù)。使用2 個(gè)不同的特征提取網(wǎng)絡(luò)進(jìn)行獨(dú)立處理,特征圖在不同層級使用支系間連接進(jìn)行組合,實(shí)現(xiàn)水下目標(biāo)檢測準(zhǔn)確率的提升。所設(shè)計(jì)的YOLOv7-Fusion 如圖1 所示,分別在骨干層的倒數(shù)第1、第2、第3 層提取特征圖輸入進(jìn)CE-Fusion 模塊,輸出融合特征圖,分別連接到瓶頸層的對應(yīng)部分。
圖1 YOLOv7 多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 YOLOv7 multi-mode network architecture
為了在中間融合時(shí),有效地結(jié)合來自不同模態(tài)的影像特征,提出一個(gè)新的CE-Fusion 模塊,具體結(jié)構(gòu)如圖2 所示。模塊包含自我注意力和多模態(tài)融合機(jī),定義ti和gi代表第i層的光學(xué)特征圖和聲吶特征圖。
圖2 CE-Fusion 模塊Fig. 2 CE-Fusion module
由于低層CNN 特征可能包含噪聲,為促進(jìn)全局信息的表達(dá)、增強(qiáng)局部細(xì)節(jié)并抑制不相關(guān)區(qū)域,參照CBAM[24] 實(shí)現(xiàn)通道注意力和空間注意力方法。此外,利用哈達(dá)瑪積對來自2 個(gè)分支特征之間的細(xì)粒度互動(dòng)進(jìn)行建模。最后,結(jié)合交叉特征和刺激特征,并通過一個(gè)殘差塊,產(chǎn)生特征fi,該特征可有效捕捉當(dāng)前空間分辨率下的全局和局部環(huán)境。使用YOLOv7在COCO 的預(yù)訓(xùn)練權(quán)重初始化YOLOv7-Fusion,由于原版模型沒有CE-Fusion 模塊,在初始化后進(jìn)行預(yù)熱訓(xùn)練,在預(yù)熱訓(xùn)練階段,凍結(jié)轉(zhuǎn)移的權(quán)重,專門訓(xùn)練CE-Fusion。
目前,許多研究注重轉(zhuǎn)移學(xué)習(xí)和數(shù)據(jù)增強(qiáng),在聲吶目標(biāo)檢測中,基于風(fēng)格轉(zhuǎn)移的模型性能有了明顯的提高,并成為聲吶目標(biāo)檢測的一個(gè)技術(shù)趨勢。一般來說,風(fēng)格轉(zhuǎn)移主要包括2 個(gè)步驟:風(fēng)格轉(zhuǎn)移網(wǎng)絡(luò)在風(fēng)格圖像和內(nèi)容圖像上訓(xùn)練,生成一個(gè)風(fēng)格模型;將圖像輸入生成的模型中,并輸出風(fēng)格化圖像。然而,直接使用風(fēng)格轉(zhuǎn)移方法,會(huì)失去聲吶圖像中目標(biāo)的關(guān)鍵特征。為了增強(qiáng)特征,提出一系列增加特征的圖像工學(xué)操作,通過使用3 個(gè)圖像操作來增強(qiáng)目標(biāo)的陰影和特征,具體表示如下:
式中:AutoLevel 為自動(dòng)色階;I為顏色反轉(zhuǎn);g為伽馬值調(diào)整;γ為伽馬函數(shù)的閾值;y為最終結(jié)果。該方法也可以應(yīng)用于其他類型的聲學(xué)圖像。
在快速風(fēng)格轉(zhuǎn)移中,定義2 個(gè)Loss 函數(shù),Lstyle和Lcontent。LStyle為f在風(fēng)格方面與p更相似。Lcontent為f在內(nèi)容方面與a更相似,則
式中:p為聲吶圖像的背景;a為光學(xué)圖像;f為具有聲學(xué)圖像風(fēng)格的轉(zhuǎn)移圖像。
在實(shí)際環(huán)境中, 由于水下環(huán)境多變,如低光照、失焦、抖動(dòng)等,獲取到的光學(xué)圖像無法達(dá)到穩(wěn)定的質(zhì)量,而聲吶可以獲得相對穩(wěn)定的數(shù)據(jù)。為了模擬應(yīng)用中的不可控因素,對隨機(jī)的光學(xué)圖像進(jìn)行高斯模糊,并改變其伽馬值。最終通過融合光學(xué)及聲學(xué)圖像數(shù)據(jù),實(shí)現(xiàn)檢測及識(shí)別效果的提升。
生成人工資料集的具體操作如圖3 所示,對于每一種光學(xué)圖像,先進(jìn)行一系列增強(qiáng)特征的圖像工學(xué)操作,之后送進(jìn)已經(jīng)訓(xùn)練的風(fēng)格轉(zhuǎn)移模型,從而獲得對應(yīng)的聲吶圖像。光學(xué)圖像本身則進(jìn)行隨機(jī)高斯模糊和伽馬值調(diào)整,模擬昏暗水下環(huán)境,并與聲吶圖像成對輸出。在訓(xùn)練集和測試集都進(jìn)行人工資料集生成,最終獲得了大量的聲光融合資料集。
圖3 基于快速風(fēng)格轉(zhuǎn)移的人工數(shù)據(jù)集生成Fig. 3 Manual data set generation based on fast style transfer
用來衡量模型準(zhǔn)確性的指標(biāo)是平均精度(AP)。計(jì)算平均精度需要了解其他3 個(gè)指標(biāo):交并比(IoU)、精確率(Precision)和召回率(Recall)。IoU 是預(yù)測區(qū)域和真實(shí)區(qū)域的交集區(qū)域和并集區(qū)域的比例,精確率是指正確識(shí)別預(yù)測的比例,召回率是指正確檢測到的真實(shí)結(jié)果的比例。當(dāng)一個(gè)預(yù)測對真實(shí)結(jié)果的“聯(lián)合之上的交集”值,即IoU,高于一個(gè)特定的閾值時(shí),則認(rèn)為該預(yù)測正確。
式中:真陽性(TP)為指檢測的方框中IoU 高于閾值的數(shù)量;假陽性(FP)為檢測方框中IoU 低于閾值的數(shù)量;假陰性(FN)為未檢測到的真實(shí)結(jié)果的數(shù)量。
定義mAP 是每個(gè)召回值的精度的平均值,換言之,mAP 代表精度-召回曲線下的面積。為了建立作為召回率函數(shù)的精度曲線,必須對整個(gè)測試集進(jìn)行預(yù)測。建立一個(gè)按精度降序排序的每個(gè)方框的置信度表格,為每個(gè)預(yù)測的邊界盒分配TP 和FP 的值。根據(jù)式(8)可知,通過創(chuàng)建一個(gè)累積的TP 和FP,可計(jì)算每個(gè)值的精度方程。根據(jù)式(9)可知,對于每個(gè)精度值,使用累積的TP 和FN 計(jì)算召回率。以TP 與FN 的和作為測試數(shù)據(jù)集中真實(shí)結(jié)果的數(shù)量。基于已設(shè)置的每個(gè)預(yù)測界線盒的精度和召回值的累積順序,建立精度-召回曲線。最后,通過計(jì)算曲線下的面積得到mAP。mAP 指標(biāo)決定了有多少預(yù)測結(jié)果是正確以及檢測到的物體和地面真實(shí)位置之間的重疊程度如何,因此,可利用mAP 對于比不同檢測算法的性能。此外,mAP 的值與預(yù)設(shè)的閾值密切相關(guān),預(yù)設(shè)的閾值決定了預(yù)測方框和真實(shí)結(jié)果的重疊。本文采用了mAP0.5和mAP0.5-0.95兩個(gè)指標(biāo)。mAP0.5表示將IoU 的閾值設(shè)為0.5 時(shí),所有類別的mAP,而mAP0.5-0.95則表示在0.5 到0.95,步長0.05 的所有閾值的平均mAP。
實(shí)驗(yàn)中的數(shù)據(jù)集為NorFisk,并以9:1 的比率劃分訓(xùn)練集和測試集。在訓(xùn)練基于多模態(tài)的中期融合網(wǎng)絡(luò)時(shí),輸入圖像大小設(shè)置為640×640,初始學(xué)習(xí)率為0.01,權(quán)重衰減率為0.000 5。每次網(wǎng)絡(luò)訓(xùn)練樣本數(shù)為16,并使用動(dòng)量為0.937 的亞當(dāng)優(yōu)化器進(jìn)行梯度更新。模型在單張RTX 3 090 上訓(xùn)練。
為證明本文理論分析的正確性及優(yōu)越性,分別使用多種融合方法對目標(biāo)數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,使用的方法如下:
1)早期融合YOLOv7-Early,如圖4(a)所示。在YOLOv7 處理之前,在原始數(shù)據(jù)層面上結(jié)合光學(xué)和聲吶圖像,使用加權(quán)加法操作進(jìn)行融合。在YOLO 的骨干中創(chuàng)建的潛在特征包含了來自第1 個(gè)計(jì)算階段的2 個(gè)模態(tài)的信息。
圖4 早期融合模型和后期融合模型結(jié)構(gòu)Fig. 4 Early fusion model and late fusion model structure
2)后期融合YOLOv7-Late,如圖4(b)所示,對來自光學(xué)和聲吶圖像進(jìn)行獨(dú)立處理,同時(shí)融合處理結(jié)果。深度神經(jīng)網(wǎng)絡(luò)由2 個(gè)完整獨(dú)立的分支組成,從這2 個(gè)分支得到的檢測結(jié)果由一個(gè)預(yù)測合并模塊處理。檢測方框根據(jù)從2 個(gè)處理分支獲得的結(jié)果的平均提供一個(gè)單一的檢測輸出,目標(biāo)種類預(yù)測采用聲學(xué)圖像的結(jié)果,從而融合2 個(gè)網(wǎng)絡(luò)的結(jié)果。
3)中間融合YOLOv7-Fusion,是本文主要提出的方法。開始時(shí),使用2 個(gè)不同的特征提取網(wǎng)絡(luò)進(jìn)行獨(dú)立處理,特征圖在不同層級使用支系間連接進(jìn)行組合,最終可以實(shí)現(xiàn)更高的水下目標(biāo)檢測準(zhǔn)確率。
4)原始模型YOLOv7,不進(jìn)行融合,只使用單獨(dú)一個(gè)模態(tài)進(jìn)行訓(xùn)練和檢測。標(biāo)記使用光學(xué)圖像訓(xùn)練的YOLOv7 為YOLOv7-Opti,而使用人工聲吶圖像訓(xùn)練的為YOLOv7 -Acou。
通過比較不同網(wǎng)絡(luò)mAP 值,實(shí)現(xiàn)不同網(wǎng)絡(luò)性能的對比。根據(jù)表1 可知,YOLOv7-Fusion 檢測器達(dá)到了最高的指標(biāo)分?jǐn)?shù),因?yàn)槟P徒Y(jié)合了從不同處理水平的2 個(gè)來源提取的信息。YOLO4-Late 檢測器的檢測結(jié)果稍差,模塊平均了光學(xué)和聲吶圖像數(shù)據(jù)的并行處理模塊的檢測結(jié)果。在目標(biāo)分類任務(wù)上,YOLOv7-Fusion 的召回率比YOLOv7-Acou 略低,產(chǎn)生此種現(xiàn)象的原因可能是由于選擇的模型擁有簡單的背景和良好的光照條件,使得普通的單模態(tài)模型也能達(dá)到非常高的準(zhǔn)確率,并且YOLOv7 本身也是強(qiáng)大的目標(biāo)檢測模型。
表1 不同網(wǎng)絡(luò)對數(shù)據(jù)集的檢測準(zhǔn)確率Tab. 1 Detection accuracy of different networks of the data set
為了模擬應(yīng)用中的不可控因素,通過改變數(shù)據(jù)集,實(shí)施了穩(wěn)定性測試。對光學(xué)圖像的處理有改變伽馬值和進(jìn)行高斯模糊,將改變后的數(shù)據(jù)集輸入融合網(wǎng)絡(luò)進(jìn)行測試,實(shí)驗(yàn)的結(jié)果如表2 所示,通過對比mAP指標(biāo)可知,YOLOv7-Fusion 各項(xiàng)性能均最佳,它在處理后的圖像數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于其他方法,尤其與YOLOv7-Early 和YOLOv7-Opti 等單源方法相比,這種性能差異更為明顯,根據(jù)表2 所呈現(xiàn)的數(shù)據(jù)可知,YOLOv7-Fusion 比YOLOv7-Early 和YOLOv7-Opti 在mAP0.5的改進(jìn)超過0.066。對于融合時(shí)機(jī)來說,YOLOv7-Fusion 比YOLOv7-Late 的表現(xiàn)好0.328,比YOLOv7-Early 好0.009,這證明了中間數(shù)據(jù)融合能夠最有效地吸收各個(gè)模態(tài)地信息。值得注意的是,YOLOv7-Late探測器在模糊圖像分類準(zhǔn)確度低,因?yàn)槟K參考光學(xué)圖像分類。
表2 在穩(wěn)定性測試中不同網(wǎng)絡(luò)的檢測準(zhǔn)確率Tab. 2 Detection accuracy of different networks in stability testing
當(dāng)使用數(shù)據(jù)采集裝置時(shí),系統(tǒng)只有有限的時(shí)間預(yù)算來進(jìn)行有效的檢測和決定。表3 列出了所分析的融合模型的處理Fps 值,即每秒可以處理的張數(shù),推理時(shí)間的計(jì)算均是假設(shè)每個(gè)圖像都是獨(dú)立處理。Fps 越大,網(wǎng)絡(luò)檢測性能越好。由上述實(shí)驗(yàn)可知,不同的光照條件下,YOLOv7-Fusion 有關(guān)目標(biāo)檢測準(zhǔn)確性均最佳,且效率比擁有2 個(gè)獨(dú)立模型的YOLOv7-Late 效率高,與YOLOv7 以及YOLOv7 基本持平。此外,由于YOLOv7-Fusion 在RTX3090 GPU 上實(shí)現(xiàn)了43.4 fps 的速度,因此本文所提出的YOLOv7-Fusion 在保持高檢測準(zhǔn)確率以及穩(wěn)定性的同時(shí),還滿足了對瞬時(shí)處理的要求。
表3 不同網(wǎng)絡(luò)對數(shù)據(jù)集的檢測性能Tab. 3 Detection performance of different networks of data sets