王培兵,彭 圓
(水下測控技術(shù)重點實驗室,遼寧 大連 116013)
水聲目標識別技術(shù)在反潛、魚雷防御、海底地形勘探等領(lǐng)域應用廣泛。但隨著潛艇降噪技術(shù)的進步、水下無人航行器的迅速發(fā)展、魚雷等水下武器的多樣化以及不斷惡劣的水下復雜環(huán)境都使人們對目標識別精度有了更高的要求,所以研究更加自主、智能、高效的水聲目標識別技術(shù)刻不容緩。深度學習是由Hinton等人[1]于2006年提出來的具有多層結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡算法,因采用多個隱藏層相互疊加的結(jié)構(gòu)特點,使其具有強大的數(shù)據(jù)特征自學能力,并可以從數(shù)據(jù)中挖出其內(nèi)在的變化規(guī)律[2]。
本文就近年來深度學習在水聲目標識別中的應用進行了較為系統(tǒng)的研究,總結(jié)了深度學習在處理水聲聲信號和圖像信號應用中的優(yōu)越性。相比于傳統(tǒng)的識別算法,其更能提高目標識別的效率。同時,也指出了深度學習在水聲目標識別應用中的不足之處,為后續(xù)改進提供參考。
水聲目標識別主要依據(jù)目標的特征信息。目標特征信息是目標原始數(shù)據(jù)中包含或者可提取的一種能精確和簡化表明目標狀態(tài)和身份的信息[3]。水聲目標主要包括噪聲、運動、尾流、幾何結(jié)構(gòu)等特征信息[4]。
隨著水聲目標識別越來越受到人們的重視,國內(nèi)外眾多學者也開展了很多的研究工作。例如Rajgopal等[5]在研制的水聲目標識別專家系統(tǒng)中所使用的特征包括:螺旋槳槳葉數(shù)、螺旋槳轉(zhuǎn)速、推進器類型、目標殼體輻射低頻噪聲、活塞松動產(chǎn)生的諧音基頻噴嘴噪聲、注水器噪聲、最大速度、槽極噪聲、傳動裝置類型等。Lourens[6]在識別特征分析中重點強調(diào)了螺旋槳轉(zhuǎn)速、主機類型、齒輪噪聲線譜等特征。Arnab等[7]在分類識別特征分析中歸納了譜中心、譜形、譜起伏、窄帶與寬帶譜特征、倒譜特征、MeI倒譜參數(shù)、音調(diào)頻率參數(shù)等統(tǒng)計時頻域特征。AR模型系數(shù)、非線性融合特征等也常被作為水聲目標輻射噪聲識別的特征量[8-12]。國內(nèi)學者對船舶輻射噪聲的調(diào)制譜、功率譜、低頻線譜以及高階譜、小波變換、混沌分形、聽覺感知等特征和特性的分析也開展了很多研究工作[13-20],例如勵榮峰等人研究了各類水聲目標的功率譜分析,提取了目標的視頻特征,并通過實際數(shù)據(jù)分析進行了可分性驗證。彭圓等人研究了基于雙譜的方法對水中目標輻射噪聲進行特征提取與分類,同樣也取得了很好的效果。
隨著水聲探測技術(shù)的發(fā)展和降噪水平的提高,傳統(tǒng)識別技術(shù)的性能正在逐漸下降,這為水聲目標識別技術(shù)帶來了新的挑戰(zhàn)[21]。
1.2.1 聲吶信號帶寬對識別能力的影響
目標特征量的提取都是基于一定帶寬的聲吶傳感器得到的。根據(jù)香農(nóng)公式,對于1個帶寬為BHz的信道,信道的最大信息傳送速率為
式中:S為信號功率,W;N為噪聲功率,W。
也就是說,等功率強度的信號帶寬和信道的信息容量成正比,寬帶信號可以比窄帶信號攜帶更多的信息。
1.2.2 低頻探測對線譜識別性能的影響
為了達到提高探測距離的目標,低頻探測成為當下主流的趨勢,帶來的問題是波束寬度的增加。對于作用距離為100 km的聲吶來說,波束寬度內(nèi)目標很可能不是單個目標。因此,對于利用低頻探測來進行線譜識別,檢測到的低頻線譜是否就是關(guān)注的水聲目標的低頻線譜特征有著很大的不確定性。
1.2.3 減震降噪對識別性能的影響
對于水中目標來說,減震降噪是永恒不變的主題和最終的目標。減震降噪使得低頻線譜特征顯著降低,而線譜特征都可以通過結(jié)構(gòu)設計、工藝設計、使用減震裝置等不斷降低。最終這些線譜特征都有可能被消除或者減得很弱,那么基于線譜探測的識別技術(shù)將失去意義。
深度學習常用的開發(fā)工具主要有TensorFlow、Torch、Caffe、Theano,以下詳細探討這4種。除此之外,Deeplearing4j、MXNet等開發(fā)工具也都有著廣泛的應用。
1)TensorFlow開發(fā)工具。
優(yōu)勢:①機動性:并不是一個規(guī)則的 neural network,定義新的操作只需要寫1個Python函數(shù);②可使用性強:可以應用在不同的設備上,如cpus、gpu移動設備、平臺等;③自動差分:TensorFlow的自動差分能力對很多基于Graph的機器學習算法有益;④多種編程語言可選:有Python接口和C++接口,其他語言可以使用SWIG工具使用接口;⑤最優(yōu)化表現(xiàn):充分利用硬件資源,TensorFlow可以將Graph的不同計算單元分配到不同的設備執(zhí)行。
特點:TensorFlow靈活的架構(gòu)可以部署在1個或者多個 CPU、GPU的臺式以及服務器中,或者使用單一的API應用在移動設備中,開源之后幾乎可以適用各個領(lǐng)域。
2)Torch開發(fā)工具。
優(yōu)勢:構(gòu)建模型簡單,高度模塊化,GPU快速高效。具有豐富的索引、切片和transposing的例程,支持LuaJIT接入C數(shù)值優(yōu)化程序等,可移植嵌入到iOS、Android和FPGA后端的接口。
特點:Torch擁有Facebook為其開源的大量深度學習模塊和擴展,并采用了編程語言Lua。
3)Caffe開發(fā)工具。
優(yōu)勢:①上手快:模型與相應優(yōu)化都是以文本形式而非代碼形式給出;②速度快:能夠運行最好的模型與海量的數(shù)據(jù);③模塊化:方便擴展到新的任務和設置上;④開放性:公開的代碼和參考模型用于再現(xiàn);⑤社區(qū)好:可以通過 BSD-2參與開發(fā)與討論。
特點:Caffe是開源的,核心語言是C++,支持命令行、Python、MATLAB,既可以在 CPU上運行也可以在GPU上運行。
4)Theano開發(fā)工具。
優(yōu)勢:①集成NumPy的基于Python實現(xiàn)的科學計算包,可以與稀疏矩陣運算包SeiPy配合使用,全面兼容NumPy庫函數(shù);②易于使用GPU進行加速,具有比CPU實現(xiàn)相對較大的加速比;③具有優(yōu)異的可靠性和速度優(yōu)勢;④可支持動態(tài) C程序生成;⑤擁有測試和自檢單元,可方便檢測和診斷多類型錯誤。
特點:Theano派生出大量的深度學習 Python軟件包,最著名的有Blocks和Keras,其核心是1個數(shù)學表達式的編譯器。
2.2.1 深度置信網(wǎng)絡DBN原理及改進
DBN[22](Deep Belief Network)由多個受限玻爾茲曼機RBM和1層反向傳播網(wǎng)絡BP堆疊而成。其網(wǎng)絡結(jié)構(gòu)如圖1所示,圖1中:h為隱藏層數(shù);v為可視層數(shù);W為連接權(quán)值矩陣。
圖1 深度置信網(wǎng)絡結(jié)構(gòu)圖Fig.1 Block diagram of DBN
DBN的訓練過程為2部分:預訓練和微調(diào)整訓練。預訓練就是對每層的每個RBM進行訓練,而在微調(diào)整階段則采用反向傳播算法將訓練誤差逐層向后傳播。其改進型網(wǎng)絡有CRBM-DBN[23],即首先使用有高斯分布的連續(xù)受限玻爾茲曼機(CRBM)的DBN模型對數(shù)據(jù)的輸入量進行特征學習,然后利用對比散度算法進行抽樣以獲取高層次的特征。此外還有稀疏受限玻爾茲曼機(SRBM)[24]、稀疏組受限玻爾茲曼機(SGRBM)[25]等改進型深度置信網(wǎng)絡。
2.2.2 卷積神經(jīng)網(wǎng)絡CNN原理及改進
CNN[26](Convolutional Neural Network)通過結(jié)合局部感知區(qū)域、共享權(quán)重、空間或時間上的池化降采樣 3大特點來充分利用數(shù)據(jù)本身包含的局部性等特征,優(yōu)化網(wǎng)絡結(jié)構(gòu),并且保證一定程度上的位移不變性[27]。其網(wǎng)絡結(jié)構(gòu)如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)圖Fig.2 Block diagram of CNN
隨著CNN網(wǎng)絡的不斷發(fā)展,也出現(xiàn)了一些新的深層卷積網(wǎng)絡。其改進的過程實質(zhì)就是用深度學習模型來替代淺層機器學習模型的過程,實現(xiàn)端到端的訓練,速度也越來越快。例如R-CNN[28]:物體檢測目標是將圖片中所有物體用方框框出來。首先是生成方框?qū)⑽矬w框出來,然后對框出來的物體進行分類判斷。Fast R-CNN[29]將R-CNN中CNN提取特征、SVM分類、回歸這3個過程放在一起,形成端到端整體的模型,速度和準確率都得到提升。再如 Faster R-CNN[30]:Faster R-CNN首先用卷積層、池化層處理整張圖片得到特征圖,在此特征圖上用region proposal network來生成方框,其余的操作跟 Fast R-CNN如出一轍。即Faster R-CNN將生成方框的方法也換成了深度學習模型,并由原來在整張圖上生成改成在更小的特征圖上生成,使得模型訓練速度進一步加快。此外比較常用的還有 Mask R-CNN[31]等改進型卷積神經(jīng)網(wǎng)絡。
2.2.3 循環(huán)神經(jīng)網(wǎng)絡RNN原理及改進
RNN(Recursive Neural Network)亦稱遞歸神經(jīng)網(wǎng)絡,其最大特點在于神經(jīng)網(wǎng)絡各隱層之間的節(jié)點是具有連接的。其網(wǎng)絡結(jié)構(gòu)如圖3所示,圖中:X為輸入層;H為隱藏層;O為輸出層;Y為神經(jīng)網(wǎng)絡的主體結(jié)構(gòu)。
圖3 循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)圖Fig.3 Block diagram of RNN
RNN的優(yōu)點是可以處理序列數(shù)據(jù),缺點則是容易隨迭代的進行,歷史輸入對隱含層作用會逐漸減小乃至消失,即出現(xiàn)梯度消失問題。針對這個問題,研究者相繼提出了一些RNN的變種,其中最著名的包括 Hochreiter等人[32]提出的長短時記憶網(wǎng)絡(Long Short-Term Memory,LSTM)和Cho等人[33]提出的門限循環(huán)單元(Gated Recurrent Unit,GRU)。長短時記憶網(wǎng)絡用LSTM單元替代RNN中的神經(jīng)元,在輸入、輸出、忘記過去信息上分別加了輸入門、輸出門、遺忘門來控制允許多少信息過。LSTM有單元狀態(tài)(cell state)和隱藏狀態(tài)(hidden state)2個傳輸狀態(tài)。GRU是LSTM的輕量級變體,只有2個門——更新門和重置門。更新門決定保留過去多少信息,以及從輸入層輸入多少信息;重置門與LSTM里的遺忘門類似。GRU沒有輸出門,所以總是輸出完整狀態(tài)。除此之外,還有分層RNN、雙向RNN、多維RNN、神經(jīng)圖靈機等改進型循環(huán)神經(jīng)網(wǎng)絡,在處理實際任務時都表現(xiàn)出了很好的效果。
實際的使用中,常采用多個模型相結(jié)合的方式,用于規(guī)避各模型缺點,充分發(fā)揮模型優(yōu)勢,以達到目標識別、現(xiàn)象預測等研究目的。
2.3.1 深度學習在水聲圖像識別中的應用
傳統(tǒng)的水聲圖像目標識別方法大多數(shù)是基于局部特征的識別。但是,這種特征匹配在局部特征匹配中僅作為低級表示,對復雜背景進行特征提取時魯棒性不足,沒有足夠的特征來防止假匹配,使得圖像識別率也較低。這主要是由于傳統(tǒng)目標識別算法語義分割魯棒性較差。
卷積神經(jīng)網(wǎng)絡是深度學習在處理圖像時的主要工具,可以幫助提取圖像的特征。主要方式是通過使用若干個卷積核對圖形進行濾波,得到原圖像的多幅特征圖,從各個角度提取圖像的特征。利用權(quán)值共享使得只需要訓練較少的卷積參數(shù),就可以提取圖像的多個特征。例如:Perez等人[34]提出了一種基于深度學習的水聲圖像增強方法,其基本原理就是利用卷積神經(jīng)網(wǎng)絡對采集到的水聲圖像進行處理。Kim 等人[35]提出以水聲聲視覺圖像中的陰影作為識別特征,基于卷積神經(jīng)網(wǎng)絡的方法對水聲聲視覺圖像進行目標識別與分類。該方法成功地對4類水聲目標的聲視覺圖像進行了準確分類。2015年,Orenstein等人[36]采用卷積神經(jīng)網(wǎng)絡對340萬個浮游生物圖像進行了訓練和分類,結(jié)果表明:該方法在時間和精度方面都優(yōu)于傳統(tǒng)人工分類篩選方法,對大量浮游生物圖像的分類效果較好。胡炎等[37]在Faster R-CNN框架下構(gòu)建了1個僅3層的卷積神經(jīng)網(wǎng)絡,并對4種不同海洋雜波環(huán)境的寬幅SAR圖像進行測試,取得了較好的檢測結(jié)果。林明旺[38]設計了一種基于卷積神經(jīng)網(wǎng)絡的魚類圖像分類系統(tǒng),對魚類圖像的識別準確率達到96%,實現(xiàn)了預期效果。趙亮等[39]結(jié)合CNN提取的特征、HOG算法提取的邊緣特征和HSV算法得到的顏色特征,較好地實現(xiàn)了船舶目標識別。張清博等人[40]提出利用基于卷積神經(jīng)網(wǎng)絡的深度學習方法對水下光電圖像進行優(yōu)化圖像質(zhì)量的研究。王博[41]通過選通式水下激光成像系統(tǒng)在不同的光照、水質(zhì)、距離、成像參數(shù)條件下采集水下目標的光學圖像,分別用在線Adaboost方法、BFSPM方法、DCNN方法對樣本圖像進行水下目標識別性能的比較和分析。王念濱等人[42]在卷積神經(jīng)網(wǎng)的基礎(chǔ)上引入特征圖多維加權(quán)層,構(gòu)造了一個集特征提取和分類器訓練于一體的端到端網(wǎng)絡,有效地提高了目標的識別精度。
2.3.2 深度學習在水聲聲信號識別中的應用
由于深度學習在語音識別上取得的突破性進展和自主學習的能力,使得學者們在處理水聲聲信號的時候又有了新的思路:利用計算機自動分析復雜的水聲聲音信息,通過合理的深層神經(jīng)網(wǎng)絡結(jié)構(gòu)的訓練得到信號的特征信息,再配合高效率的分類器,完成分類任務,以提高識別的準確度。例如:英國科學家Sheppard和Gent利用神經(jīng)網(wǎng)絡技術(shù)開發(fā)的被動聲吶分類系統(tǒng),不僅采用窄帶分析,還采用寬帶分析、DEMON分析和瞬態(tài)分析方法。由于采用神經(jīng)網(wǎng)絡方法提高了系統(tǒng)的容錯能力,使訓練不平衡系統(tǒng)有較好的性能,從而能更好地完成對聲音的分類與識別。王強等人[43]從實測水聲數(shù)據(jù)庫中提取梅爾倒譜特征以及傅里葉變換特征,用 10個聲音片段作為訓練樣本,5個聲音片段作為測試樣本,比較了DBN、CNN、SVM(支持向量機Support Vector Machines,SVM)的識別率,結(jié)果 DBN和 CNN的識別率均好于SVM。Xu CAO等人[44]使用21 850個水聲聲音片段作為訓練樣本,用 8 550個聲音片段作為測試樣本,使用自動編碼器與SVM和概率神經(jīng)網(wǎng)絡作比較,識別3種類別的結(jié)果均是自動編碼器較好,而且都達到了92%以上。嚴韶光[45]等人對3類目標在不同工況和水文氣象條件下采集的 5段長度為32 768 s的實錄輻射噪聲作為原始信號,提出了一種基于卷積神經(jīng)網(wǎng)絡的艦船噪聲分類器。通過數(shù)據(jù)仿真實驗表明,CNN的分類效果要好于BP神經(jīng)網(wǎng)絡的分類效果。趙安邦等人[46]將高階累積量用于希爾伯特變換特征提取中,通過對艦船目標輻射噪聲信號進行采集,得到艦船目標噪聲信號,進而提取目標輻射信號各階模態(tài)的相鄰平均瞬時頻率比、相對標準差、中心頻率、平均強度、高階矩和高階累積量等作為特征,最終利用神經(jīng)網(wǎng)絡來實現(xiàn)對 2類艦船目標的分類識別。程錦盛等人[47]從被動聲吶目標識別出發(fā),用4種監(jiān)督學習模型對A和B類水聲目標、不同次海試、不同信噪比數(shù)據(jù)中提取的MFCC特征樣本進行了識別研究,其中CNN和DBN模型的識別率最高。
對于以數(shù)據(jù)為驅(qū)動的深度學習,獲取好的水聲數(shù)據(jù)信息顯得尤為重要。但就目前水聲目標識別的研究現(xiàn)狀來看,由于水聲環(huán)境的復雜性,對于水聲聲信號的識別,研究人員仍會更多地參照深度學習對空氣中聲音的識別方法。而對水聲圖像的識別,則會采用以往的圖像處理算法和相關(guān)的深度學習理論。所以,應建立完備的數(shù)據(jù)庫,從水聲聲信號與水聲圖像信號中提取預識別的水聲目標的有效特征并發(fā)現(xiàn)其變化規(guī)律,訓練水聲目標識別模型或分類器,進而提高水聲目標識別模型的準確性、信噪比魯棒性和泛化性。
復雜的海洋環(huán)境,需要花費大量的時間為深度學習模型提取理想的樣本,并按照模型要求的圖像大小構(gòu)造訓練數(shù)據(jù)。由于處理大數(shù)據(jù)的規(guī)模所帶來的大樣本,使得數(shù)據(jù)呈現(xiàn)高維屬性和多樣性,故而數(shù)據(jù)預處理方法的優(yōu)劣對模型的構(gòu)建有重要的影響。深度學習在未來的數(shù)據(jù)處理方面應面向多種數(shù)據(jù)格式,以期減少數(shù)據(jù)預處理所耗費的大量時間,從而提高深度學習整體模型建立效率。
深度學習模型算法眾多,但當面對具體的水聲目標識別問題時,沒能及時給出最優(yōu)的模型算法。其大都是對現(xiàn)有的模型進行改造或者多模型相結(jié)合,在模型的構(gòu)建過程中通過大量實驗對比才能建立更加準確的模型。同時,面對這些問題還需要構(gòu)建新的學習模型,提高模型在面對不同種類的水聲目標信號時的通用性,從而提升模型的適用范圍。
本文首先對水聲目標識別技術(shù)的研究現(xiàn)狀及面臨的挑戰(zhàn)進行了描述。同時,介紹了深度學習的典型網(wǎng)絡結(jié)構(gòu)、改進型網(wǎng)絡以及常用的幾種開發(fā)工具,并對深度學習在水聲目標識別中的實際應用情況進行了闡述??隙松疃葘W習在水聲目標識別應用中的優(yōu)勢,也指出了其中的不足之處,并給出了相應的解決思路。可以預見,未來水聲目標識別技術(shù)發(fā)展方向主要是非聲探測、多傳感器信息融合、智能目標識別等。人工智能技術(shù)與水聲目標識別技術(shù)有機結(jié)合將是今后水聲目標識別研究的重要方向。