王升貴,胡橋,陳迎亮,葉明剛
(1. 中國船舶集團公司 第七〇五研究所昆明分部,云南 昆明 650118;2. 西安交通大學機械學院,陜西 西安 710049)
水下目標的分類識別是水聲領域研究的熱點問題,對于現(xiàn)代海洋裝備目標探測尤為關鍵。最早興起的目標分類辨識技術(shù)是機器學習,基于機器學習的水下目標分類可以擺脫人工經(jīng)驗限制,比傳統(tǒng)信號分析更加精準有效,但由于其需要復雜的特征工程結(jié)構(gòu)進行分類決策,識別精度存在瓶頸,無法進行多任務學習,難以滿足水下目標智能辨識高精度的要求,越來越多的學者開始將深度學習引入水下目標的智能辨識以解決上述問題。深度學習是一種利用非線性信息處理技術(shù)實現(xiàn)多層次、有監(jiān)督或無監(jiān)督的特征提取和轉(zhuǎn)換,并進行模式分析和分類的機器學習理論和方法。2006 年,由加拿大多倫多大學Hinton 等首次提出深度學習的概念,并將理論模型發(fā)表于Science 期刊,開啟了深度學習領域的浪潮[1]。此后,隨著各國學者不斷探索,深度學習理論不斷在醫(yī)學、教育、工業(yè)等研究領域取得重大成果。
在水下目標處理方面,由于深度學習理論可以打破現(xiàn)有的水聲目標識別中對先驗知識和特征提取方法等的依賴,能夠從原始信號進行學習,完成特征提取,極大降低噪聲的影響,實現(xiàn)分類決策的自主化與智能化,近年來也有學者在進行不斷深入的研究。2017 年,楊宏暉等[2]采用混合正則化深度置信網(wǎng)絡進行艦船輻射噪聲識別,表明通過描述深度特征能夠提高水聲目標識別率。2018 年,陳越超等[3]采用降噪自編碼器的方法對輻射噪聲進行識別,分類結(jié)果優(yōu)于傳統(tǒng)的BP 神經(jīng)網(wǎng)絡和支持向量機。2019年,呂海濤等[4]采用卷積神經(jīng)網(wǎng)絡對分幀并歸一化后的艦船噪聲信號進行分類,結(jié)果顯示分類性能優(yōu)于傳統(tǒng)高階譜分類方法。水聲深度學習目標分類辨識常采用的方法如圖1 所示。
圖 1 深度學習水下目標分類方法Fig. 1Deep learning underwater target classification method
基于以上工作,本文提出利用二維時頻譜圖(LOFAR 譜)和深度學習方法(卷積神經(jīng)網(wǎng)絡)相結(jié)合的方式,對艦船輻射噪聲信號進行特征提取和分類。采用短時傅里葉變換(short-time-Fourier-transform,STFT)方法通過分幀、加窗的方式對時間序列分段求取功率譜。通過對每一幀的功率譜數(shù)值離散化并用色閾值表示,將每一幀的數(shù)值依次疊加獲得譜圖,即LOFAR 譜。LOFAR 譜中包含了時域和頻域的信息,可以作為分類識別的依據(jù)。然后搭建深度卷積神經(jīng)網(wǎng)絡,進行迭代更新模型參數(shù)完成對LOFAR 譜圖特征信息的提取,最后通過類別映射實現(xiàn)水下目標的分類辨識,并且驗證了不同的網(wǎng)絡模型結(jié)構(gòu)參數(shù)、激活函數(shù)、池化方法以及數(shù)據(jù)片段長度均會對深度學習模型分類精度造成的影響,為深度學習水下目標分類辨識提供了一種新思路。
本文提出的基于深度學習的水下目標識理論別主要包括LOFAR 譜變換理論和卷積神經(jīng)網(wǎng)絡理論兩部分。
LOFAR 譜圖分析方法基于短時傅里葉變換產(chǎn)生的,其工作流程如圖2 所示。LOFAR 譜中包含了豐富的時域和頻域的信息,可以作為分類識別的依據(jù)。
圖 2 LOFAR 譜生成過程Fig. 2Generation process of the LOFAR spectrum
1)分幀。由于艦船、潛艇等噪聲信號具有時變性和非平穩(wěn)性,因此可以對一個時間片段進行頻譜分析,通常取幾十毫秒并認為此時間區(qū)域內(nèi)信號為穩(wěn)態(tài)。從整段信號中取出一部分片段即稱為分幀。實際分幀時幀與幀之間往往存在重疊部分,目的是使信號幀之間過渡平緩。
2)加窗。信號分幀時采用窗函數(shù)在原信號上滑動截取的方式實現(xiàn),選取窗函數(shù)時需要考慮窗函數(shù)的類型和寬度,盡量使得窗函數(shù)兩側(cè)過渡平滑,常用的窗函數(shù)有矩形窗、漢明窗、海寧窗等。
其中,M 為窗長度。漢明窗可以避免信號泄露,應用最為廣泛,實際使用中應注意窗函數(shù)類型和寬度的選取。
3)FFT??焖俑道锶~變換,對信號分幀加窗后,對每一幀信號進行傅里葉變換,將時域信號轉(zhuǎn)換為頻域信號,X(i,k)=FFT[xi(m)]。
4)取log。對FFT 后的數(shù)據(jù)計算譜線能量,E(i,k)=[Xi(k)]2。通常會在取log 求對數(shù)譜 l og(E(i,k)),使得頻譜能量更加緊湊。
5)色域映射。將能量譜幅值進行離散化,通常取256 階,從而將能量譜轉(zhuǎn)化為灰度或RGB 色值。
最后,通過將大量幀的離散色值按照時間順序進行堆疊即獲得LOFAR 譜圖(也稱為聲譜圖,Spectrogram 譜圖)。可以用于進一步的目標分辨、自動識別分類等應用。
20 世紀80 年代,就提出了卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)方法。直到1998 年,LeCun 等[5]在研究手寫數(shù)字識別問題時,將梯度反向傳播算法和卷積神經(jīng)網(wǎng)絡進行結(jié)合,提出深度卷積神經(jīng)網(wǎng)絡LeNet(見圖3),其極高的識別率結(jié)果將卷積神經(jīng)網(wǎng)絡處理方法推向了蓬勃發(fā)展的新階段。卷積神經(jīng)網(wǎng)絡的典型結(jié)構(gòu)包含卷積層、池化層(也稱為降采樣層)、全連接層等,卷積層和池化層通常包含多個特征圖像(由不同卷積核生成),通過多層的卷積和池化,可以將數(shù)據(jù)從二維矩陣轉(zhuǎn)化為一維特征向量,最后通過Softmax 等分類層即可獲得預測的類別標簽。
圖 3 LeNet 卷積神經(jīng)網(wǎng)絡,用于識別手寫數(shù)字集Fig. 3LeNet convolutional neural network for recognizing handwritten digit sets
1)卷積層
卷積層是卷積神經(jīng)網(wǎng)絡的核心,通過卷積核可以從輸入中提取豐富的特征從而形成特征圖像。假設卷積層的輸入為X,卷積核為k,則單次卷積輸出y 為:
其中:σ 為卷積核大?。籰1和l2為卷積核在輸入圖像上所處的位置;b 為偏置項;f 為激活函數(shù),如ReLU 激活函數(shù)、Sigmoid 激活函數(shù)等。
通過設置步長使得卷積核遍歷整個二維輸入圖像矩陣,便可求得卷積層輸出特征圖像矩陣:
其中:輸出特征圖像大小m,n 由原圖像大小、卷積核大小以及卷積核移動步長決定。
2)池化層
池化層也稱為降采樣層,是在卷積層之后對特征參數(shù)進行壓縮,從而降低卷積神經(jīng)網(wǎng)絡特征數(shù)量和網(wǎng)絡參數(shù),提高運算速度,減少訓練時間并能有效防止訓練過擬合。與卷積層運算類似,池化層也是通過一個運算核在輸入圖像矩陣上進行滑動計算。不同的是池化層的運算核不含參數(shù),而是采用計算區(qū)域內(nèi)的最大值或平均值的方式輸出。與之相對的池化層分別稱為最大池化層(max-pooling)和平均池化層(averagepooling)。假設池化層輸入為X,核為k(σ×σ),池化輸出y 為:
其中:σ 為池化運算核大??;l1,l2為運算核在圖像上的位置。
通過運算核遍歷整個二維輸入圖像矩陣,便可求得特征圖像輸出矩陣:
池化運算時通常步長與運算核維數(shù)一致,因此池化層輸出圖像大小m, n 由輸入圖像大小和核大小決定。
3)全連接層和Softmax 層
經(jīng)過多層的卷積層和池化層處理后的特征矩陣,采用全連接層將圖像矩陣排列成一位數(shù)組的形式輸出,從而完成分類任務。一般C N N 最后會采用1~2 層全連接層,將特征擺成一維形式并對特征進一步提取,最終輸出向量元素個數(shù)與待預測的標簽類別數(shù)相同。最后采用Softmax 激活函數(shù),便可以得到每個標簽類別的預測概率。
全連接層的輸出為:
其中:zi為全連接層輸出向量Z 的第i 個元素;X 為全連接層輸入特征矩陣或特征向量;wi為輸出向量第i 個元素的加權(quán)求和向量;K 為輸出向量的元素個數(shù)。
Softmax 層輸出為:
其中:zi為輸入特征向量第i 個元素;pi為softmax 層輸出第i 個值,即表示待分類數(shù)據(jù)屬于第i 類的概率。
用代表7 類不同水下目標的實測艦船輻射噪聲對二維時頻譜圖深度學習目標分類模型進行驗證。采頻為8 000 Hz,采樣時間10 s,即總共80 000 個采樣點。其歸一化時域和頻域信號如圖4 和圖5 所示。
圖 4 7 類艦船噪聲歸一化信號Fig. 4Normalized signal of 7 types of ship noise
通過對輻射噪聲信號進行分幀加窗求取FFT(即短時傅里葉變換,STFT),將一維數(shù)據(jù)轉(zhuǎn)化為二維時頻譜圖(LOFAR 譜),如圖6 所示。
由于深度學習訓練需要大量數(shù)據(jù),通過在原始信號進行分段截取的方法進行數(shù)據(jù)庫建立。本章在原始信號上截取8 000 個點為一個片段,片段之間重疊部分7 000 個點,即每組信號可以生成72 個數(shù)據(jù)片段,共計7 類504 個數(shù)據(jù)。通過LOFAR 譜圖轉(zhuǎn)化最終生成504 張二維時頻譜圖供后續(xù)訓練分類。
構(gòu)建卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)如圖7 所示,采用3 層卷積層對圖像特征進行提取,最后連接一層全連接層和Softmax 層進行分類預測。
卷積神經(jīng)網(wǎng)絡各層主要參數(shù)如下:
輸入層:本章中生成二維時頻譜圖格式為224×224,RGB 三通道,因此輸入層與之對應為224×224×3;
卷積層1:卷積核3×3,共8 個,步長為1;
池化層1:最大池化層,池化核2×2,步長為2;
卷積層2:卷積核3×3,共16 個,步長為1;
池化層2:最大池化層,池化核2×2,步長為2;
圖 5 7 類艦船噪聲歸一化信號能量譜Fig. 5Normalized signal energy spectrum of 7 types of ship noise
圖 6 7 類艦船噪聲信號LOFAR 譜Fig. 6LOFAR spectrum of 7 types of ship signal
圖 7 卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)Fig. 7Structure of convolutional neural network
卷積層3:卷積核3×3,共32 個,步長為1;
全連接層:輸入為7×1 向量(與類別數(shù)相同);
Softmax 層:根據(jù)全連接層輸出按照Softmax 函數(shù)判斷類別。
采用分層抽樣將數(shù)據(jù)集劃分為訓練樣本集和測試樣本集,最終訓練測試結(jié)果如表1 所示。
將卷積層的卷積核大小修改為5×5,7×7,9×7,11×11,訓練與測試數(shù)據(jù)之比為36/36,對不同卷積核大小對卷積神經(jīng)網(wǎng)絡分類精確度的影響進行測試,結(jié)果如表2 所示。
表 1 卷積神經(jīng)網(wǎng)絡訓練測試結(jié)果Tab. 1 Training result of Convolutional neural network
表 2 不同卷積核大小對分類精度的影響Tab. 2 The effect of different convolution kernel sizes on classification accuracy
將卷積層的激活函數(shù)設置為ReLU,ELU,tanh,驗證不同激活函數(shù)對卷積神經(jīng)網(wǎng)絡分類性能的影響。訓練與測試數(shù)據(jù)之比為36/36,結(jié)果如表3 所示。
表 3 不同激活函數(shù)對分類精度的影響Tab. 3 The effect of different activation functions on classification accuracy
將卷積神經(jīng)網(wǎng)絡中池化層分別設置為最大池化和平均池化層,驗證不同池化方法對卷積神經(jīng)網(wǎng)絡分類性能的影響。訓練與測試數(shù)據(jù)之比為36/36,結(jié)果如表4所示。
表 4 不同池化層對分類精度的影響Tab. 4 The effect of different pooling layers on classification accuracy
調(diào)整數(shù)據(jù)單元長度,取時間長度分別為0.2s,0.4s,0.6s,0.8s,1.0s,其對應LOFAR 譜如圖8 所示。驗證不同數(shù)據(jù)長度對卷積神經(jīng)網(wǎng)絡分類性能的影響。訓練數(shù)據(jù)集與驗證數(shù)據(jù)集之比為80%/20%。結(jié)果如表5 所示。
表 5 不同數(shù)據(jù)單元長度對分類精度的影響Tab. 5 The effect of different data unit length on classification accuracy
綜合上述結(jié)果可以看出,盡管CNN 各層的結(jié)構(gòu)以及網(wǎng)絡參數(shù)也會對分類性能造成影響,但深度學習方法對于艦船輻射噪聲信號的總體分類效果較好,在水下目標智能識別方面具有可行性和廣闊的應用前景。
通過以上實驗,得出以下結(jié)論:
1)基于二維時頻譜圖變換和卷積神經(jīng)網(wǎng)絡相結(jié)合的深度學習模型能夠?qū)Σ煌愋偷呐灤椛湓肼曔M行分類;
2)不同的網(wǎng)絡模型結(jié)構(gòu)參數(shù)、激活函數(shù)、池化方法以及數(shù)據(jù)片段長度均會對深度學習模型分類精度造成影響,但總體來說深度學習對于水下目標識別保持較高的準確率,為海洋裝備目標探測提供了一種新思路。
圖 8 不同數(shù)據(jù)單元長度對應的二維譜圖Fig. 8Two-dimensional spectra corresponding to different data unit lengths