檀盼龍,吳小兵,張曉宇
(1. 南開(kāi)大學(xué) 人工智能學(xué)院,天津 300350;2. 海軍研究院,北京 100161)
隨著水下探測(cè)需求的日益增長(zhǎng),水下目標(biāo)識(shí)別成為近年來(lái)非?;钴S的研究領(lǐng)域之一,其在水環(huán)境測(cè)深與建模[1]、海床建模與繪圖[2]、海底管道探測(cè)[3]、海底目標(biāo)定位與識(shí)別[4]以及水雷、潛艇等水下目標(biāo)物的探測(cè)[5]等領(lǐng)域得到了廣泛的應(yīng)用。無(wú)線(xiàn)電信號(hào)和視覺(jué)信號(hào)在水介質(zhì)中的衰減較快,而聲波在水中可以傳播得更遠(yuǎn),因此聲探測(cè)是感知水下目標(biāo)的有效方法[6],近年來(lái),聲吶設(shè)備的使用也呈爆發(fā)式增長(zhǎng)。與陸地和空中的圖像獲取方法相比,水下圖像的獲取更加困難,而且存在成本高、質(zhì)量差等缺點(diǎn),可用于分析和研究的聲吶數(shù)據(jù)往往數(shù)量和質(zhì)量均有不足,這給水下目標(biāo)的探測(cè)與識(shí)別帶來(lái)諸多挑戰(zhàn)。如何提高目標(biāo)識(shí)別的準(zhǔn)確率和快速性、降低計(jì)算和通信成本以及減小識(shí)別算法的復(fù)雜度,都是水下目標(biāo)識(shí)別中面臨的關(guān)鍵問(wèn)題。
水下目標(biāo)的識(shí)別主要依靠聲吶設(shè)備,包括前視聲吶[7]、側(cè)掃聲吶[8]和合成孔徑聲吶[9]等,一般通過(guò)在航行中不斷發(fā)射和接收聲吶信號(hào)實(shí)現(xiàn)目標(biāo)探測(cè)。探測(cè)聲吶基于目標(biāo)物對(duì)入射聲波的反向散射原理探測(cè)水下目標(biāo)形態(tài),能夠直觀地提供水下目標(biāo)物形態(tài)的聲成像[10]。隨著聲吶技術(shù)的發(fā)展,合成孔徑聲吶等新型聲吶設(shè)備可以得到更高的方位方向分辨力[11],且這種分辨力與水下探測(cè)距離無(wú)關(guān),距離越大,合成孔徑長(zhǎng)度越長(zhǎng),合成陣的角分辨率越高,從而抵消了距離的影響,保持分辨力不變。
水下目標(biāo)識(shí)別過(guò)程一般包括特征提取和目標(biāo)分類(lèi)等[12],經(jīng)過(guò)多年的發(fā)展,已經(jīng)提出了多種基于聲吶圖像的水下目標(biāo)識(shí)別算法。傳統(tǒng)的信號(hào)處理方法,如短時(shí)傅里葉變換(Short Time Fourier Transform,STFT)、希爾伯特–黃變換[13]、小波變換[14]等,都可以用來(lái)提取水下聲信號(hào)的特征。此外,常用的目標(biāo)檢測(cè)算法有基于恒虛警率(Constant False Alarm Rate,CFAR)檢測(cè)算法[15]、單元平均恒虛警率(Cell Averaging-Constant False Alarm Rate,CA-CFAR)算法[16]和累積單元平均恒虛警率(Accumulated Cell Averaging-Constant False Alarm Rate,ACA-CFAR)算法[17]等,此類(lèi)算法通過(guò)將設(shè)定閾值與聲吶圖像的像素灰度進(jìn)行比較以實(shí)現(xiàn)水下目標(biāo)的檢測(cè)與識(shí)別。然而,這些算法未能充分考慮結(jié)構(gòu)特征,導(dǎo)致了如魯棒性差和識(shí)別率低等問(wèn)題[18]。在選擇特征時(shí),使用傳統(tǒng)的信號(hào)處理方法比較方便,但需要專(zhuān)家監(jiān)督來(lái)保證特征選擇的有效性。聲吶系統(tǒng)和聲吶技術(shù)的發(fā)展為水下目標(biāo)的探測(cè)識(shí)別提供了更加豐富的細(xì)節(jié)信息,尤其為對(duì)水雷等幾何外形較小的目標(biāo)探測(cè)提供了可能,但傳統(tǒng)的信號(hào)處理算法和機(jī)器學(xué)習(xí)算法對(duì)這類(lèi)非顯著目標(biāo)存在較高的漏檢可能,而深度學(xué)習(xí)算法可以通過(guò)深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)更高的識(shí)別率。因此,研究人員正試圖用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法等智能系統(tǒng)取代人工特征提取或傳統(tǒng)的信號(hào)處理方法,以跟蹤、檢測(cè)和分類(lèi)水下聲學(xué)信號(hào)。
針對(duì)聲吶圖像識(shí)別的相關(guān)問(wèn)題和進(jìn)展,本文給出了聲吶圖像預(yù)處理、聲吶圖像分割以及聲吶圖像智能識(shí)別方面的最新研究進(jìn)展,總結(jié)了相關(guān)方向亟待解決的科學(xué)問(wèn)題及未來(lái)發(fā)展趨勢(shì)。
水下目標(biāo)識(shí)別預(yù)處理過(guò)程主要是指聲吶圖像去噪,目的是通過(guò)減弱或者消除干擾信號(hào)得到更清晰、質(zhì)量更好的圖像。通過(guò)提高聲吶圖像的信噪比提高目標(biāo)識(shí)別精度,是整個(gè)圖像處理過(guò)程中非常重要的一步。聲吶圖像去噪可以分為空間域方法和變換域方法2類(lèi),其中空間域方法直接通過(guò)對(duì)聲吶圖像本身的像素點(diǎn)灰度值進(jìn)行處理實(shí)現(xiàn)降噪,而變換域方法則將聲吶圖像通過(guò)域轉(zhuǎn)換方式在新空間中對(duì)其特征進(jìn)行分析。
空間域去噪方法實(shí)現(xiàn)過(guò)程相對(duì)簡(jiǎn)單,主要包括中值濾波和均值濾波等[19-21]。均值濾波是典型的線(xiàn)性濾波算法,通過(guò)對(duì)像素點(diǎn)鄰域的數(shù)值進(jìn)行平均,再將均值賦予當(dāng)前像素實(shí)現(xiàn)去噪。均值濾波雖然實(shí)現(xiàn)簡(jiǎn)單,但會(huì)使局部特征變模糊,不利于后續(xù)處理。相對(duì)而言,中值濾波是一種非線(xiàn)性濾波算法,實(shí)現(xiàn)方式是將像素點(diǎn)鄰域中各點(diǎn)值的中值代替該點(diǎn)的值,從而消除孤立的噪聲點(diǎn)。中值濾波可以較好保留聲吶圖像的邊緣信息,但也很容易產(chǎn)生邊緣抖動(dòng),因此進(jìn)一步的研究轉(zhuǎn)向了自適應(yīng)中值濾波、多級(jí)中值濾波等方法。在文獻(xiàn)[22]中,研究人員提出了基于極值等方法的中值濾波改進(jìn)算法,對(duì)具有先驗(yàn)知識(shí)的聲吶圖像噪聲進(jìn)行濾波。然而,水下環(huán)境中存在的噪聲復(fù)雜多變,噪聲信息的模型很難獲取,導(dǎo)致上述方法存在著去噪與保持圖像細(xì)節(jié)的矛盾。因此,如何針對(duì)不同特性的噪聲選擇有效的聲吶圖像去噪方法,既能去除噪聲又能完整地保持圖像的特征信息,是水下聲吶圖像去噪的一個(gè)難點(diǎn)問(wèn)題。
針對(duì)聲吶圖像去噪中的矛盾問(wèn)題,目前最常用的解決思路是采樣基于偏微分方程(Partial Differential Equation,PDE)的方法,通過(guò)求解方程最優(yōu)解實(shí)現(xiàn)去噪。目前已提出的偏微分方程模型有:TV(Total Variation)模型、ROF(Rudin-Osher- Fatemi)模型、PM(Perona-Malik)模型以及高階變分模型等[23-26]。高階變分模型在消除聲吶圖像中的階梯效應(yīng)方面具有優(yōu)勢(shì),如利用拉普拉斯算子構(gòu)造高階PDE模型實(shí)現(xiàn)濾波[27],但在實(shí)際應(yīng)用中不能保持清晰的邊界形態(tài)。總體來(lái)說(shuō),空間域去噪方法具有較大的局限性,很難實(shí)現(xiàn)降噪性能的綜合提高。
變換域去噪方法是將聲吶圖像從空間域轉(zhuǎn)換到變換域,然后在變換域中對(duì)數(shù)據(jù)進(jìn)行處理和分析,最后通過(guò)反變換回到空間域以實(shí)現(xiàn)去噪,盡可能多地保留了聲吶圖像在多尺度下的特征信息。經(jīng)典的變換方法有傅里葉變換、小波變換等[28-29]。目前變換域去噪方法應(yīng)用較多的是小波域HMT模型(Hidden Markov Tree Model),在去噪時(shí),采用混合高斯模型刻畫(huà)各子帶系數(shù)的概率分布,并利用多個(gè)尺度之間的馬爾可夫依賴(lài)性描述小波系數(shù)隨尺度變化的持續(xù)性和尺度內(nèi)的聚集性,從而對(duì)小波系數(shù)之間的關(guān)系進(jìn)行分析[30]。為突破一維小波的局限性,DACUNHA等[31]提出了Contourlet變換法對(duì)聲吶圖像中存在的高斯噪聲和普通加性噪聲進(jìn)行處理,雖然達(dá)到了較好的去噪效果,但Contourlet變換不具備平移不變性,因此會(huì)引入偽吉布斯現(xiàn)象,導(dǎo)致觀察效果和識(shí)別率的降低。針對(duì)該問(wèn)題,研究人員舍棄Contourlet變換中的下采樣環(huán)節(jié),通過(guò)非下采樣Contourlet變換實(shí)現(xiàn)了變換的平移不變性,與閾值法相結(jié)合有效抑制了聲吶圖像中的噪聲。文獻(xiàn)[32]更是通過(guò)將Contourlet變換與HMT模型相結(jié)合分析和描述聲吶圖像不同方向間系數(shù)相關(guān)性,同時(shí)再利用貝葉斯準(zhǔn)則估計(jì)無(wú)噪聲吶圖像的Contourlet系數(shù),對(duì)于對(duì)比度差、特征信息弱的聲吶圖像處理效果更佳。
在成像聲吶的實(shí)際應(yīng)用中,聲吶圖像分割通常是一個(gè)基礎(chǔ)且重要的步驟。聲吶圖像分割的目的是將聲吶圖像劃分為不同的部分,從海底背景中提取目標(biāo)和陰影并盡量保留圖像原始邊緣信息。相對(duì)于光學(xué)圖像,聲吶圖像具有低分辨率和高噪聲的特點(diǎn),同時(shí)還受到海底混響的影響,導(dǎo)致聲吶圖像分割成為了該領(lǐng)域的難題,很多國(guó)家的研究人員都在聲吶圖像分割方法的研究方面做了大量工作。在聲吶圖像分割算法中,主要可以分為有監(jiān)督和無(wú)監(jiān)督2種。
聲吶圖像的監(jiān)督分割是基于實(shí)況分割訓(xùn)練集進(jìn)行分類(lèi)器訓(xùn)練的過(guò)程,常用方法是基于反向散射(Back Scatter,BS)強(qiáng)度模型進(jìn)行分割。然而上述方法過(guò)于簡(jiǎn)單,無(wú)法處理聲吶圖像中存在的紋理問(wèn)題,而且反向散射的測(cè)量值與入射角和海底類(lèi)型有關(guān),實(shí)際應(yīng)用效果不理想。針對(duì)入射角問(wèn)題,研究人員提出了多種對(duì)聲吶圖像入射角變化進(jìn)行建模的方法[33-34],但同樣因?yàn)椴煌5最?lèi)型的聲學(xué)特性差異而無(wú)法實(shí)現(xiàn)精確補(bǔ)償,而且大多只局限于一種海底背景類(lèi)型。
近些年,有學(xué)者提出利用海底紋理提高分割精度的方法,在應(yīng)用中考慮反向散射角度變化和紋理特征實(shí)現(xiàn)目標(biāo)分割[35]?;诩y理的海底聲吶圖像分割通常依賴(lài)Haralick參數(shù)[36]和濾波器系數(shù)來(lái)建模紋理[37]。在紋理分析領(lǐng)域,作為局部濾波器響應(yīng)的統(tǒng)計(jì)數(shù)據(jù)計(jì)算特征可以用于描述和鑒別紋理模型[38-39]。在這些研究的基礎(chǔ)上,KAROUI[40]根據(jù)一組不同濾波器的紋理響應(yīng)對(duì)海底類(lèi)型進(jìn)行描述,在不同的聲吶紋理間引入相似性度量,并使用紋理特征作為過(guò)濾海底聲學(xué)影響的邊緣分布模型,以達(dá)到圖像分割的目的。基于貝葉斯框架的圖像分割方法是一種常用的監(jiān)督圖像分割方法,其中研究最多的是最大后驗(yàn)概率法(Maximum Posteriori,MAP)[38]和最大邊際概率法(Maximum Marginal Probability,MMP)[39],而且已發(fā)表的文獻(xiàn)表明MMP比MAP更適合圖像分割[39]。與貝葉斯方案不同,另一種監(jiān)督圖像分割方法在區(qū)域?qū)用嫔媳硎緸榧s束能量準(zhǔn)則的最小化[40],兩者都基于海底類(lèi)型圖像之間的一種新的相似性度量,產(chǎn)生的加權(quán)因子一方面用于濾波器選擇,另一方面用于考慮海底紋理的入射角依賴(lài)性。目前對(duì)監(jiān)督分割算法的研究應(yīng)用較少,而對(duì)無(wú)監(jiān)督分割算法研究更加充分。
無(wú)監(jiān)督分割算法計(jì)算復(fù)雜度低,而且模型簡(jiǎn)單,因此應(yīng)用更廣泛,算法類(lèi)型也更多。無(wú)監(jiān)督分割算法一般需要通過(guò)學(xué)習(xí)來(lái)實(shí)現(xiàn)自動(dòng)分割,目前已有的聲吶圖像分割有基于模糊c-均值(Fuzzy C-means,F(xiàn)CM)聚類(lèi)的聲吶圖像分割方法[41]、基于馬爾可夫隨機(jī)場(chǎng)(Markov Random Field,MRF)模型的分割方法[42-43]、基于Snake模型和水平集的分割方法[44-46]、基于譜聚類(lèi)的方法[47-48]、基于期望最大化的方法[49-50]以及基于小波變換的方法等。
在聲吶圖像分割方法中,基于小波分析實(shí)現(xiàn)的分割方法由于其良好的空間/頻率定位能力和多尺度(多分辨率)分析能力而適合于圖像分割[51-56]。GONZALEZ和WOODS認(rèn)為基于小波的方法可以發(fā)現(xiàn)在一種分辨率下可能未被發(fā)現(xiàn)而在另一種分辨率下可能容易被發(fā)現(xiàn)的特征[57]。因此,基于小波的聲吶圖像分割方法對(duì)于解決聲吶目標(biāo)識(shí)別問(wèn)題具有突出優(yōu)勢(shì)。
2.2.1 基于小波的聲吶圖像分割常用方法
一個(gè)給定的圖像可以通過(guò)小波變換在不同的分辨率水平上進(jìn)行分析。對(duì)于聲吶圖像,由于不同的紋理是以不同的分辨率記錄的,不同的紋理在不同的細(xì)節(jié)子帶有不同的能量值,因此可以通過(guò)不同子帶的小波系數(shù)對(duì)紋理進(jìn)行分析和分類(lèi)。JAVIDAN[58]提出了通過(guò)子帶中小波系數(shù)的振幅來(lái)描述能量的方法,在對(duì)各層的小波子圖像進(jìn)行粗略分割后,將粗略分割結(jié)果融合為精細(xì)分割圖像,粗略的分割結(jié)果與模糊邊緣檢測(cè)器的分割結(jié)果混合,得到最終的分割圖像。WILLIAMS[59]根據(jù)海底的實(shí)際情況,選擇2 m×2 m的海底區(qū)域作為小波變換的數(shù)據(jù)源,同樣采用計(jì)算能量值的方法進(jìn)行分析,聲吶圖像的紋理信息通過(guò)五層小波系數(shù)計(jì)算的特征向量得到了完整準(zhǔn)確的描述。譜系聚類(lèi)算法[60]同樣被用來(lái)根據(jù)聲吶圖像特征進(jìn)行識(shí)別,該方法使用了K–均值聚類(lèi)算法,但K–均值聚類(lèi)算法有一個(gè)固有的缺點(diǎn),即會(huì)陷入局部最優(yōu),因此效果過(guò)度依賴(lài)于聚類(lèi)中心的選擇。WILLIAMS和GROEN對(duì)上述方法進(jìn)行了改進(jìn)[61],將 K–均值聚類(lèi)算法用無(wú)監(jiān)督的變異貝葉斯高斯混合模型取代[62],實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的方法達(dá)到了相對(duì)理想的分割結(jié)果。在COBB和PRINCIPE[63]的實(shí)驗(yàn)中,同樣證明了小波系數(shù)在描述聲吶圖像的紋理信息方面的優(yōu)異性能。每種海床類(lèi)型都有其獨(dú)特的紋理特征,WILLIAMS[64]提出了使用獨(dú)特的高斯混合模型來(lái)表達(dá)建立在小波系數(shù)上的海底紋理類(lèi)型的方法,原始聲吶圖像被基于小波的特征矢量取代,并通過(guò)貝葉斯理論對(duì)海床進(jìn)行分類(lèi),同樣也可以應(yīng)用于海底聲吶圖像的分割。
BAUSSARD[65]提出了一種基于小波變換和貝葉斯框架的海底聲吶圖像分割方法,基于二維可轉(zhuǎn)向Riesz小波的方法對(duì)聲吶圖像進(jìn)行變換,然后得到低頻近似子帶系數(shù)和高頻詳細(xì)子帶系數(shù),其中高頻子帶系數(shù)基于傳統(tǒng)的廣義高斯分布(Generalized Gaussian Distribution,GGD)建模[66],低頻子帶的系數(shù)則是基于高斯的有限混合模型來(lái)建模[67]。BAUSSARD保留了KARINE等人省略的低頻近似子帶[68],可以提高具有類(lèi)似特征(如沙子和淤泥)的海床的分類(lèi)精度。因此,海底聲吶圖像可以被更準(zhǔn)確地分割。總的來(lái)說(shuō),WILLIAMS[69]和SONG[70]等的方法可以應(yīng)用于具有明顯紋理特征的海底聲吶圖像的分割。KARINE等[71]用滑動(dòng)窗口將聲吶圖像進(jìn)行劃分,然后對(duì)每個(gè)窗口進(jìn)行小波變換,對(duì)小波子帶系數(shù)進(jìn)行統(tǒng)計(jì)建模,用GGD和α-stable分布參數(shù)作為聲吶圖像的特征。
小波變換有一些局限性,一個(gè)限制是對(duì)方向?qū)傩缘拿枋霾粔虺浞?,另一個(gè)限制是對(duì)小波參數(shù)敏感。鑒于此,夏平等[72]提出了雙樹(shù)復(fù)合小波變換(Dual-tree Complex Wavelet Transform,DTCWT),在一定程度上可以提高圖像分割的精度。吳濤[73]和夏平的方法可以充分利用聲吶圖像的先驗(yàn)知識(shí),達(dá)到了更準(zhǔn)確的分割結(jié)果。然而,由于這些方法比較復(fù)雜,因此僅適用于低實(shí)時(shí)性要求的情況。在分割速度方面,KAROUI等[74]提出了一種基于紋理散射強(qiáng)度分割聲吶圖像的方法,利用多分辨率分析的優(yōu)勢(shì),通過(guò)直接測(cè)量小波變換得到的信息量最大的相似性來(lái)區(qū)分紋理,并將不同尺度的分割結(jié)果融合在一起,從而得到最終的分割結(jié)果。CELIK和TJAHJADI利用小波變換分辨率之間的數(shù)據(jù)提取每個(gè)像素的特征向量[75],通過(guò)主成分分析(Principal Component Analysis,PCA)降低了特征向量的維度,并通過(guò) K–均值聚類(lèi)算法將特征向量分為不同類(lèi)型,從而實(shí)現(xiàn)對(duì)側(cè)掃聲吶圖像的分割,而且具有較強(qiáng)的抗干擾能力。此外,PCA降維也將算法的速度提高到一個(gè)可接受的范圍,還可以很好地保留圖像細(xì)節(jié)。夏平等[76]在提出的分割方法中使用了多尺度統(tǒng)計(jì)信息的FCM聚類(lèi)和小波域的MRF,在建立小波子帶 MRF之前使用 FCM聚類(lèi)算法進(jìn)行預(yù)分割,提高了后續(xù)小波子帶MRF的收斂率,實(shí)現(xiàn)聲吶圖像的穩(wěn)定和準(zhǔn)確分割。
2.2.2 基于超小波的聲吶圖像分割
由于小波變換在一些方面比傅里葉變換更具有優(yōu)勢(shì),因此被廣泛用于圖像處理的各個(gè)領(lǐng)域[77],但小波變換不是圖像表示的最佳工具,只能表達(dá)奇異點(diǎn)的位置和特征,不能完全表征圖像中多方向的邊緣和紋理等幾何特征。DO和VETTERLI[78]提出,一個(gè)優(yōu)秀的圖像表示工具應(yīng)該滿(mǎn)足多分辨率、具有方向性以及各向異性等特征,而小波轉(zhuǎn)換只符合上述的一些性質(zhì)。為了尋求更好的圖像表示工具,更有效地表示和處理圖像高維空間數(shù)據(jù),研究人員提出了超小波變換,并迅速成為研究熱點(diǎn)。超小波變換是幾個(gè)具有幾何特征的“小波變換”的聯(lián)合體,是小波變換的延伸,可以滿(mǎn)足上述所有的圖像表示性質(zhì),并在圖像處理中取得了巨大的成功。超小波變換包括 ridgelet,curvelet,bandelet,contourlet,beamlet,surfacelet等多種不同的變換算法,引起了圖像分割領(lǐng)域研究者的關(guān)注[77]。由于小波變換的一些優(yōu)良特性,小波變換非常適用于圖像處理,如去噪、壓縮和特征提取,超小波方法同樣在聲吶圖像分割中得到了應(yīng)用。在過(guò)去的幾年里,小曲線(xiàn)變換(Curvelet Transform,CVT)在應(yīng)用數(shù)學(xué)和信號(hào)處理界引起了越來(lái)越多的興趣[79]。小曲線(xiàn)變換是一種多尺度的方向性變換,可以對(duì)圖像邊緣進(jìn)行幾乎最佳的非適應(yīng)性稀疏表示,因此可以比小波變換更有效地表示邊緣特征和曲線(xiàn)奇異性。YOON和KIM提出了一種基于CVT的有效的邊緣增強(qiáng)方法[80],用于聲吶圖像中的物體識(shí)別,在該方法中,最大值是由每個(gè)角線(xiàn)的系數(shù)計(jì)算出來(lái)的,該系數(shù)來(lái)自CVT的子步驟,在找到該值的方位角后,通過(guò)局部最大值選擇來(lái)確定真正的邊緣方向。
非采樣小輪廓變換(Non-subsampled Contourlet Transfer,NSCT)可以實(shí)現(xiàn)多尺度、多方向和平移不變的靈活分解,具有更好的邊緣捕獲和表達(dá)能力[81]。王敏等[82]引用了基于 NSCT的光學(xué)圖像邊緣檢測(cè)的超小波模數(shù)最大值方法,以獲得各尺度方向子帶的模數(shù)最大值,在閾值處理之后,得到圖像在每個(gè)尺度方向子帶的邊緣圖像,最后將一個(gè)尺度內(nèi)和尺度間的邊緣融合,得到單像素寬的邊緣圖像。該方法得到的邊緣是相對(duì)完整的,偽邊緣點(diǎn)的數(shù)量較少,但比較復(fù)雜,適合于低實(shí)時(shí)性要求。LI等人將 NSCT與區(qū)域分割的思想相結(jié)合[83],使用K–均值聚類(lèi)算法分割陰影區(qū)域,并搜索高頻中的模數(shù)最大位置,以更準(zhǔn)確地確定圖像邊緣,然后在一個(gè)標(biāo)度和標(biāo)度之間將圖像邊緣融合,最后通過(guò)區(qū)域增長(zhǎng)法對(duì)圖像進(jìn)行分割。HUO等人將NSCT與灰度共現(xiàn)矩陣(Gray-level Co-occurrence Matrix,GLCM)結(jié)合[76],在NSCT領(lǐng)域提取圖像特征,以彌補(bǔ)在提取 GLCM紋理特征時(shí)細(xì)節(jié)紋理表達(dá)不足的缺陷。將這2種紋理特征結(jié)合生成每個(gè)像素的多維特征向量,可以提高圖像分割的準(zhǔn)確性。總的來(lái)說(shuō),基于超小波變換的聲吶圖像分割方法計(jì)算量大,適合于低實(shí)時(shí)性和高精度的分割要求。
聲吶目標(biāo)識(shí)別是指從聲吶圖像中提取水下目標(biāo)特性并對(duì)目標(biāo)進(jìn)行分類(lèi)識(shí)別,主要過(guò)程為特征提取和目標(biāo)分類(lèi)。然而海水介質(zhì)的非均勻性會(huì)造成聲信號(hào)的衰減和畸變,同時(shí)各種漂浮物和顆粒都會(huì)增大聲波傳輸過(guò)程中的多路徑效應(yīng),使得傳統(tǒng)的聲吶目標(biāo)識(shí)別方法很難取得較好的識(shí)別效果[84-86]。深度學(xué)習(xí)以人工神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),由多個(gè)處理層組成計(jì)算模型研究具有不同抽象級(jí)別的數(shù)據(jù)。深度學(xué)習(xí)結(jié)構(gòu)可以處理非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù),并且無(wú)需手動(dòng)操作即可執(zhí)行自動(dòng)特征提取,極大地提升了包括自動(dòng)聲吶目標(biāo)識(shí)別在內(nèi)的不同領(lǐng)域的最新技術(shù)[87-88]。
深度學(xué)習(xí)算法可以分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督等多種形式。有監(jiān)督學(xué)習(xí)方法是建立在使用正確分類(lèi)的數(shù)據(jù)或標(biāo)簽訓(xùn)練模型的基礎(chǔ)上的,當(dāng)新數(shù)據(jù)輸入到體系結(jié)構(gòu)時(shí),訓(xùn)練過(guò)的深度學(xué)習(xí)模型可以準(zhǔn)確地估計(jì)輸出。無(wú)監(jiān)督學(xué)習(xí)功能用于無(wú)監(jiān)督數(shù)據(jù)集,可以在不提供損失信號(hào)的情況下研究和建立信息映射,評(píng)估可能的解決方案[89]。半監(jiān)督學(xué)習(xí)方法僅使用一小部分標(biāo)記數(shù)據(jù)[90],使用有監(jiān)督學(xué)習(xí)方法對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行最佳預(yù)測(cè),通過(guò)使用反向傳播算法查找和學(xué)習(xí)輸入中的模式,克服了無(wú)監(jiān)督和有監(jiān)督方法的局限性。另外一種廣泛采用的深度學(xué)習(xí)技術(shù)是遷移學(xué)習(xí),即除了標(biāo)準(zhǔn)的訓(xùn)練數(shù)據(jù)外,還有 1個(gè)來(lái)自一個(gè)或多個(gè)相關(guān)任務(wù)知識(shí)的補(bǔ)充信息源。當(dāng)數(shù)據(jù)量巨大時(shí),深度學(xué)習(xí)方法能夠有效地實(shí)現(xiàn)目標(biāo)識(shí)別,然而在現(xiàn)實(shí)世界中,大量有效聲吶圖像數(shù)據(jù)是不易獲得的,遷移學(xué)習(xí)則解決了訓(xùn)練數(shù)據(jù)不足的問(wèn)題[91]。
深度學(xué)習(xí)技術(shù)的上述優(yōu)點(diǎn)吸引了研究人員在諸多領(lǐng)域廣泛使用該算法,包括圖像、語(yǔ)音和文本識(shí)別、目標(biāo)檢測(cè)、模式識(shí)別、故障和異常診斷等。在基于聲吶圖像的目標(biāo)識(shí)別應(yīng)用中,深度學(xué)習(xí)模型顯示了其優(yōu)越性,具有較高的精度和可靠性。接下來(lái)將對(duì)常用的深度學(xué)習(xí)模型及其在聲吶圖像識(shí)別中的應(yīng)用進(jìn)行介紹。
LECUNN首先提出了用于圖像處理的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[92],隨著GPU和制造業(yè)的興起,卷積神經(jīng)網(wǎng)絡(luò)極大地促進(jìn)了計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、文本和語(yǔ)音識(shí)別、目標(biāo)檢測(cè)、醫(yī)療預(yù)測(cè)等領(lǐng)域的發(fā)展。其中,CNN在計(jì)算機(jī)視覺(jué)中得到了廣泛應(yīng)用,在AlexNet之后,深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展階段在短時(shí)間內(nèi)迅速取代了傳統(tǒng)的圖像分類(lèi)和識(shí)別方法[93]。CNN的多層結(jié)構(gòu)可以自動(dòng)提取多個(gè)層次特征,通過(guò)卷積和池化操作以及參數(shù)共享使深度學(xué)習(xí)結(jié)構(gòu)能在各種設(shè)備中運(yùn)行,在圖像處理中提供了穩(wěn)健而高效的性能,因此得到了廣泛應(yīng)用[94]。文獻(xiàn)[95]提出了一種基于深度學(xué)習(xí)的目標(biāo)和非目標(biāo)合成聲吶孔徑圖像分類(lèi)方法,融合異常檢測(cè)器用于縮小合成聲吶孔徑圖像中的像素范圍并提取目標(biāo)大小的圖像塊。檢測(cè)器根據(jù)其周?chē)泥徲蛴?jì)算所有像素的目標(biāo)概率值后,生成與原始圖像大小相同的置信圖,置信圖僅允許相鄰的感興趣區(qū)域(Region of Interests,ROI)作為分類(lèi)器要考慮的最期望像素。為了解決水下數(shù)據(jù)匱乏的問(wèn)題,文獻(xiàn)[96]提出了一種在訓(xùn)練圖像準(zhǔn)備階段的端到端傳輸圖像合成生成方法,從UWSim中的模擬深度相機(jī)中為合成訓(xùn)練數(shù)據(jù)集捕獲一幅基礎(chǔ)圖像,采用StyleBankNet對(duì)水下環(huán)境中采集的聲吶圖像進(jìn)行噪聲特性綜合,生成用于訓(xùn)練的數(shù)據(jù)集。在文獻(xiàn)[97]中,作者提出了一種有效的卷積網(wǎng)絡(luò)(ECNet)用于側(cè)掃聲吶圖像的語(yǔ)義分割。該網(wǎng)絡(luò)架構(gòu)包括用于捕獲上下文的編碼器網(wǎng)絡(luò)和用于像素級(jí)特征映射的解碼器網(wǎng)絡(luò),以增強(qiáng)邊緣分類(lèi)效果。結(jié)果表明,與其他模型相比,該方法速度快、參數(shù)少,實(shí)現(xiàn)了效果與效率的最佳折衷。
在文獻(xiàn)[98]中,CNN在前視聲吶圖像的目標(biāo)檢測(cè)中得到了應(yīng)用。通過(guò)從實(shí)驗(yàn)水箱捕獲不同形狀物體的前視聲吶圖像,使用 96×96大小的圖像作為CNN模型的輸入,所提的模型優(yōu)于模板匹配方法,準(zhǔn)確率達(dá)到99.2%,而且模型參數(shù)更少,速度提高了40%,更具有實(shí)時(shí)應(yīng)用價(jià)值。在進(jìn)一步工作中,Valdenegro[99]提出了用于在前視聲吶圖像中檢測(cè)和識(shí)別對(duì)象的模型,所提方法還可以用于任何聲吶圖像檢測(cè)未標(biāo)記和未訓(xùn)練的目標(biāo),具有良好的泛化性能。文獻(xiàn)[100]對(duì)三維點(diǎn)云激光雷達(dá)數(shù)據(jù)和水下聲吶圖像應(yīng)用了2種聚類(lèi)程序,在2個(gè)數(shù)據(jù)集上使用 CNN和完全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)產(chǎn)生的輸出均采用K–均值聚類(lèi)和基于密度的空間聚類(lèi)(Density-based Spatial Clustering of Applications with Noise,DBSCAN)方法進(jìn)行處理,消除了異常值,并對(duì)有意義的數(shù)據(jù)進(jìn)行了識(shí)別和分組,改進(jìn)了多目標(biāo)檢測(cè)的結(jié)果。在該研究中,F(xiàn)CN用于訓(xùn)練和測(cè)試水下聲吶圖像數(shù)據(jù)集,然后將該數(shù)據(jù)集轉(zhuǎn)換為像素?cái)?shù)據(jù)矩陣,最高可獲得100%的準(zhǔn)確度。
深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN)是由受限玻爾茲曼機(jī)器(Restricted Boltzmann Machine,RBM)的幾個(gè)中間層組成的網(wǎng)絡(luò)模型,其中所有RBM層與前一層和后一層連接,層之間沒(méi)有連接,且最后一層用于分類(lèi)。與其他體系結(jié)構(gòu)不同,DBN的所有層都學(xué)習(xí)整個(gè)輸入,更深層次的信念網(wǎng)絡(luò)通過(guò)分層表示輸入模式的幾個(gè)特征來(lái)解決這個(gè)問(wèn)題。此外,DBN在學(xué)習(xí)中還優(yōu)化了所有層中的權(quán)重,按順序在所有層中做出最優(yōu)決策,最終獲得全局最優(yōu)解[88]。除了第一層和最后一層之外,DBN的所有層都具有雙重角色,包括作為前面節(jié)點(diǎn)的隱藏層和下一個(gè)節(jié)點(diǎn)的可見(jiàn)層或輸入層。這種結(jié)構(gòu)可以稱(chēng)為由單層網(wǎng)絡(luò)構(gòu)成的體系結(jié)構(gòu),它能夠解決深度學(xué)習(xí)中的過(guò)擬合現(xiàn)象等問(wèn)題,成功應(yīng)用于聲吶目標(biāo)識(shí)別系統(tǒng)的檢測(cè)和分類(lèi)[101]。
文獻(xiàn)[102]提出了一種基于多角度傳感、分?jǐn)?shù)傅里葉變換特征和3層隱藏DBN的聲吶目標(biāo)分類(lèi)算法,利用具有三維高光分布的目標(biāo)原型,基于光線(xiàn)跟蹤法合成了主動(dòng)目標(biāo)回波。特征提取過(guò)程產(chǎn)生了基于100階分?jǐn)?shù)傅里葉變換的特征,這些特征充分表示形狀變化并具有識(shí)別能力。DBN的平均準(zhǔn)確率為91.40%,而100–24–4結(jié)構(gòu)BPNN模型的準(zhǔn)確率為87.57%。與之類(lèi)似,KE[103]提出了基于深度競(jìng)爭(zhēng)信念網(wǎng)絡(luò)的算法,通過(guò)從標(biāo)記和未標(biāo)記對(duì)象中學(xué)習(xí)具有附加鑒別信息的特征來(lái)解決水聲目標(biāo)檢測(cè)的小樣本維數(shù)問(wèn)題。結(jié)果表明,該系統(tǒng)實(shí)現(xiàn)了90.89%的分類(lèi)準(zhǔn)確率。
生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)是由 2 個(gè)網(wǎng)絡(luò)組成的深度神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),在使用任意輸入時(shí),GAN會(huì)在輸出上創(chuàng)建對(duì)應(yīng)的信息[104]。GOODFELLOW等在文獻(xiàn)[105]中首先介紹了GAN網(wǎng)絡(luò),該網(wǎng)絡(luò)由鑒別器D和生成器G組成,生成器用于生成具有等效概率分布的樣本作為實(shí)際訓(xùn)練數(shù)據(jù)集,鑒別器負(fù)責(zé)識(shí)別輸入是來(lái)自實(shí)際數(shù)據(jù)集還是生成器,并引導(dǎo)生成器通過(guò)反向傳播梯度創(chuàng)建更真實(shí)的樣本數(shù)據(jù)。鑒別器擅長(zhǎng)最大化或優(yōu)化類(lèi)之間的距離,并區(qū)分來(lái)自訓(xùn)練數(shù)據(jù)集的真實(shí)圖像和生成器的再現(xiàn)樣本,生成器應(yīng)使生成的概率分布和真實(shí)數(shù)據(jù)分布盡可能接近,以使鑒別器無(wú)法在真實(shí)樣本和假樣本之間進(jìn)行選擇。在這個(gè)對(duì)抗過(guò)程中,生成器改進(jìn)了自身以學(xué)習(xí)真實(shí)的數(shù)據(jù)分布,鑒別器也提高了其特征學(xué)習(xí)能力。最后,訓(xùn)練達(dá)到納什均衡,此時(shí)鑒別器不能分離 2個(gè)分布。使用 GAN的大量工作可用于各種水下聲吶目標(biāo)的檢測(cè)和分類(lèi)。
文獻(xiàn)[106]提出了一種基于條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Network,CGAN)的真實(shí)感知圖像生成系統(tǒng),其中模型學(xué)習(xí)光學(xué)圖像和聲吶圖像之間的圖像到圖像轉(zhuǎn)換關(guān)系。作者用人工噪聲穩(wěn)定地使拍攝的相機(jī)圖像變暗,并將合成圖像和聲吶圖像作為輸入,從而生成夜間圖像,然后對(duì)模型進(jìn)行訓(xùn)練,根據(jù)輸入生成真實(shí)的日間圖像。SUNG等[107]提出了一種生成真實(shí)聲吶片段或圖像的算法,以更好地使用聲吶信號(hào)。該方法包括聲吶圖像模擬和基于GAN的圖像變換2個(gè)步驟。首先,通過(guò)計(jì)算聲波的透射和反射,采用基于射線(xiàn)跟蹤技術(shù)的聲吶圖像模擬器,模擬器通過(guò)簡(jiǎn)單的計(jì)算模擬包含語(yǔ)義信息(如高亮顯示和陰影)的圖像。然后,基于GAN的風(fēng)格轉(zhuǎn)換方法通過(guò)加上噪聲或通過(guò)去噪和分割將實(shí)際聲吶圖像轉(zhuǎn)換為簡(jiǎn)單圖像,再將這些簡(jiǎn)單圖像轉(zhuǎn)換為真實(shí)聲吶圖像。類(lèi)似地,文獻(xiàn)[108]提出了一種生成全長(zhǎng)任務(wù)真實(shí)側(cè)掃聲吶圖像的算法,稱(chēng)為馬爾可夫條件 pix2pix(Markov Conditional pix2pix,MC-pix2pix),合成數(shù)據(jù)的生成速度比實(shí)際采集速度快18倍。對(duì)于專(zhuān)家來(lái)說(shuō),合成數(shù)據(jù)幾乎無(wú)法與實(shí)際數(shù)據(jù)區(qū)分開(kāi)來(lái)。
為了提高聲吶目標(biāo)識(shí)別程序在新環(huán)境中的可用性和適應(yīng)性,文獻(xiàn)[109]中提出了一種基于GAN的方法,該方法用于將模擬接觸增強(qiáng)為實(shí)際聲吶圖像,合成觸點(diǎn)是在射線(xiàn)追蹤三維CAD模型上創(chuàng)建的,位于實(shí)際側(cè)掃海底的特定位置。通過(guò)計(jì)算海底的高程圖創(chuàng)建了真實(shí)的陰影。通過(guò)識(shí)別耦合陰影和高光(即連接到相鄰陰影的高程)來(lái)計(jì)算高程。然后,使用CycleGAN對(duì)合成接觸外觀進(jìn)行細(xì)化。
遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)是一種允許以前的輸出作為輸入操作的神經(jīng)網(wǎng)絡(luò)。這些網(wǎng)絡(luò)可以記憶以前的狀態(tài),傾向于從早期階段學(xué)習(xí)。長(zhǎng)–短期記憶(Long Short-Term Memory,LSTM)可以從早期和當(dāng)前階段獲取輸入,引入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)可以有效解決RNN引起的梯度爆炸或消失問(wèn)題。RNN廣泛應(yīng)用于語(yǔ)音和文本識(shí)別、自然語(yǔ)言處理和聲吶識(shí)別系統(tǒng)[110]。
PERRY和GUAN提出了一種在中段掃描聲吶圖像中識(shí)別微小人造物體的算法,該圖像由安裝在船舶下方的聲吶結(jié)構(gòu)采樣而成[111],在距離移動(dòng)船只200 m處進(jìn)行目標(biāo)檢測(cè)。作者首先在海底跟蹤物體的基礎(chǔ)上,對(duì)船只的運(yùn)動(dòng)進(jìn)行了近似計(jì)算。在得到的圖像順序中,海底目標(biāo)的外觀得到改善,雜波噪聲最小化。探測(cè)器的工作分2步進(jìn)行,第1步,預(yù)先確定可能感興趣的對(duì)象;第2步,跟蹤第1步中識(shí)別的對(duì)象,并將特征向量序列提供給分類(lèi)器,其中RNN為最終的檢測(cè)分類(lèi)器。對(duì)使用RNN和使用非RNN得到的結(jié)果進(jìn)行比較,可以看出所提出的方法實(shí)現(xiàn)了檢測(cè)成功率的提高。
如前所述,基于深度學(xué)習(xí)的體系結(jié)構(gòu)能夠熟練地處理大量數(shù)據(jù)。然而,在現(xiàn)實(shí)世界中,獲取大量數(shù)據(jù)并不總是可行的,遷移學(xué)習(xí)方法則是為了解決這一數(shù)據(jù)不足的問(wèn)題而提出的,是解決機(jī)器學(xué)習(xí)中訓(xùn)練數(shù)據(jù)不足的一種基本且被廣泛接受的方法[112],深度遷移學(xué)習(xí)方法也得到了廣泛的應(yīng)用[113]。在文獻(xiàn)[114]中,研究人員開(kāi)發(fā)了一個(gè)用于在散射和極化等噪聲中對(duì)多波束聲吶圖像進(jìn)行分類(lèi)的模型,用于檢測(cè)潛水員等人形目標(biāo)。DYLAN EINSI在其論文文獻(xiàn)[115]中提出了一種基于深度學(xué)習(xí)的遷移學(xué)習(xí)方法,用于側(cè)掃聲吶圖像的目標(biāo)檢測(cè)。在這項(xiàng)研究中,使用一個(gè)系統(tǒng)的遷移學(xué)習(xí)方法來(lái)檢測(cè)目標(biāo)或異常聲吶圖像,利用預(yù)先訓(xùn)練好的網(wǎng)絡(luò)學(xué)習(xí)聲吶圖像中基于像素強(qiáng)度的海底異常特征。使用基于遷移學(xué)習(xí)方法,作者可以通過(guò)一個(gè)小的訓(xùn)練數(shù)據(jù)集訓(xùn)練新生成的“You Only Look Once”(YOLO)模型,測(cè)試結(jié)果顯示識(shí)別結(jié)果的成功率提高到了95%。因此,通過(guò)遷移學(xué)習(xí)的方法來(lái)將可見(jiàn)光領(lǐng)域的檢測(cè)算法應(yīng)用于聲吶圖像處理是一個(gè)高效有用的技術(shù)途徑。
隨著科學(xué)技術(shù)的進(jìn)步,聲吶自動(dòng)目標(biāo)識(shí)別在短時(shí)間內(nèi)得到了快速發(fā)展。然而,這些方法有許多需要克服的缺點(diǎn)。由于水下的數(shù)據(jù)采集或處理程序比在陸地上更加困難,實(shí)際應(yīng)用中也存在更多的挑戰(zhàn),因此將傳統(tǒng)的研究方法與深度學(xué)習(xí)方法相結(jié)合逐漸成為一種趨勢(shì)。水下目標(biāo)的檢測(cè)與識(shí)別受到國(guó)內(nèi)外越來(lái)越多學(xué)者的關(guān)注,取得了很多研究成果,但也存在一些亟待解決的問(wèn)題。下面對(duì)該領(lǐng)域的關(guān)鍵問(wèn)題及其發(fā)展趨勢(shì)加以展望。
1)水下環(huán)境復(fù)雜多變,在利用目標(biāo)物的回波進(jìn)行檢測(cè)時(shí),增強(qiáng)回波強(qiáng)度、提高回波檢測(cè)算法的性能十分重要,需要進(jìn)一步提高聲吶技術(shù)和硬件水平,尤其對(duì)于水下小目標(biāo),如何在復(fù)雜環(huán)境中獲得有效聲吶回波信號(hào)是極具挑戰(zhàn)性的課題。
2)聲吶圖像包含斑點(diǎn)噪聲,對(duì)其進(jìn)行分割和目標(biāo)識(shí)別是一個(gè)抗斑點(diǎn)噪聲的問(wèn)題。去噪是小波變換的優(yōu)勢(shì),利用小波變換,可以將聲噪圖像的去噪和分割融合在一起,更有利于識(shí)別。因此,需要研究利用小波變換得到具有自適應(yīng)能力的抗斑點(diǎn)噪聲方法。
3)水環(huán)境中的弱紋理目標(biāo)特征提取一直是水下目標(biāo)識(shí)別的難點(diǎn)問(wèn)題,為了提高識(shí)別精度,可以考慮將更多基于深度學(xué)習(xí)的光學(xué)圖像識(shí)別技術(shù)引入到水下目標(biāo)分類(lèi)識(shí)別算法中,通過(guò)監(jiān)督數(shù)據(jù)的遷移提高分類(lèi)能力和復(fù)雜環(huán)境適應(yīng)能力。