徐曉剛 羅昕煒
(東南大學水聲信號處理教育部重點實驗室,南京,210096)
水下目標的分類識別是水聲領域研究的熱點問題,對于現(xiàn)代海洋裝備目標探測尤為關鍵,特征向量提取的方法是水聲目標分類識別的研究重點。文獻[1]提出了一種基于小波包變換的水下目標輻射噪聲特征提取算法,文獻[2]提出了一種基于雙譜估計的水下目標輻射噪聲特征提取算法,文獻[3]提出了一種基于波數(shù)譜模態(tài)能量差特征的目標分類方法。由于聲吶識別不同水下輻射噪聲源的原理與人耳語音識別的機理類似,因此,基于聽覺特征的水下聲目標特征提取方法是研究熱點之一,其中提取梅爾倒譜系數(shù)進行水下聲目標識別是常用的方法之一。文獻[4]介紹了差分梅爾頻率倒譜系數(shù)的概念和相應的特征提取方法,對水下目標進行了基于MFCC特征提取方法仿真研究和實驗分析;文獻[5]將 MFCC特征應用于船舶和鯨類水下聲信號的特征提取中,提取了船舶和鯨類聲信號的MFCC特征,通過高斯混合模型對提取的MFCC特征進行訓練和識別分類,討論MFCC維數(shù)變化和不同MFCC特征組合對識別分類性能的影響;文獻[6-8]也進行了MFCC特征提取相關方面的研究工作,并取得了一定的研究成果。
傳統(tǒng)水下聲目標識別分類過程具有較強的人機交互特性,需要人工提取泛化能力強的特征數(shù)據(jù),無法滿足未來水下無人平臺只能識別分類水聲目標的需求。深度學習理論可以改善這一點,它可以打破現(xiàn)有的水聲目標識別中對先驗知識和特征提取方法的依賴,直接通過學習獲得信號特征,目前已發(fā)展出自編碼器(Auto Encode, AE)[9]、深度置信網(wǎng)絡(Deep Belief Networks,DBN)[10]、CNN[11-12]、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNN)[13-15]、生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)[16-17]及其相關變種等多種模型,在各個領域得到廣泛的應用且都有不錯的效果。因此,用深度學習的方法結合 MFCC對不同水下目標進行分類識別,可以減少實時環(huán)境對技術人員的依賴性,使得未來水下無人平臺領域應用更加廣泛和靈活。本文利用實現(xiàn)的 CNN研究了不同維度下 MFCC和LOFAR特征的分類性能。
通過對人耳聽覺機理的研究發(fā)現(xiàn),人耳對不同頻率的聲音有不同的敏感度,特別是頻率200~5000 Hz的語音信號特別敏感。所以人耳的聽覺系統(tǒng)是非線性的,這也是對低頻聲音信號更加敏感的原因。梅爾倒譜系數(shù)是在梅爾頻率(Mel-Frequency)域上提取出來的參數(shù),Mel頻率描述了人耳的非線性特性,它與頻率關系為
式中,fmel表示的是在Mel頻率域上的頻率,Hz。
MFCC特征的提取過程,需要對語音信號進行預加重、信號分幀、加窗以及濾波器處理等操作,具體流程如圖1所示,這些處理方式都是為了能夠最大化的保留語音的有效特征,從而達到最好的特征參數(shù)提取。
圖1 MFCC算法框圖
(a)預加重即將聲信號通過一個高通濾波器,目的是增強聲信號中的高頻部分,使得頻譜變得平坦,保持從低頻到高頻的整個頻帶內(nèi)可以有相同的信噪比,本實驗選取的高通濾波器傳遞函數(shù)為:,其中μ=0.95。
(b)分幀是將N個采樣點集合成一個觀測單位,通常N取值為256或者512,其涵蓋時間范圍大約在20~30 ms,而且相鄰兩幀之間有1/2或者1/3的重疊區(qū)域,然后加窗。為了使信號具有連續(xù)性,窗函數(shù)表達式為
式中,N是漢明窗的長度。圖2是漢明窗的時域圖像。
圖2 漢明窗時域圖
(c)對分幀和加窗后的各幀信號進行快速傅里葉變換得到其頻譜,再對信號頻譜取平方得到語音信號的功率譜。
(d)將能量譜通過一組 Mel尺度的三角形濾波器組。Mel頻率尺度上的等距三角形濾波器組對應于Hz頻率上的非等距三角形濾波器組,即Mel濾波器組,其表達式為
式中,f(m)為濾波器組的中心頻率,間距隨著m值的減小而減小。具體濾波器結構如圖3所示,其作用可以使頻譜平滑并且消除諧波。利用對數(shù)函數(shù)對Mel濾波后的能量譜進行壓縮,那么得到輸出的對數(shù)能量為
圖3 梅爾濾波器
(e)對得到的對數(shù)能量譜做DCT變換,這是一種用于去相關語音特征的最佳變換。最后得到L階倒譜系數(shù):
式中,M為梅爾濾波器個數(shù),L為MFCC特征向量的階數(shù)。一般使用26個梅爾濾波器,可以得到26個倒譜系數(shù),取13個系數(shù)出來作為所需要的MFCC特征系數(shù)。
標準的MFCC只反映聲信號的靜態(tài)特性,為了提高分類的識別能力,加入動態(tài)特征,也就是靜態(tài)特征的差分譜。聲信號的一階和二階MFCC特征向量為
式中,d(n)表示第n個一階差分,c(n)表示第n個倒譜系數(shù),Q代表倒譜系數(shù)的階數(shù),K代表一階系數(shù)的時間差。將上述結果再次迭代這個公式就可以得到二階差分的特征向量。
CNN與一般的神經(jīng)網(wǎng)絡相似,都由可學習的權重和偏差的神經(jīng)元組成,但CNN更加注重輸入數(shù)據(jù)的結構。二維圖像包含的特征信息比一維數(shù)據(jù)要多并且隱蔽,使用一般的神經(jīng)網(wǎng)絡不好處理,CNN可以很好地解決這一問題,它能夠從二維圖像中提取輸入數(shù)據(jù)的位移、縮放以及變形的特性。CNN主要由卷積層、激活函數(shù)層、池化層、全連接層等交叉組成前饋神經(jīng)網(wǎng)絡,其結構如圖4所示。
圖4 CNN流程圖
ShipsEar數(shù)據(jù)庫為研究人員提供各類船舶的聲音記錄和自然背景噪聲,用來訓練船只探測器和分類器、或者監(jiān)測海上的交通情況。本文選取 A~D四類信號,其中A為Motorboat輻射噪聲信號,B為Ocean linear輻射噪聲信號,C為Passenger輻射噪聲信號,D為Natural ambient noise輻射噪聲信號,如表1所示。
表1 數(shù)據(jù)類別及其時長和文件個數(shù)
通過第1節(jié)介紹的梅爾倒譜系數(shù)計算步驟,實驗采用漢明窗,幀長為fs/40,幀移為幀長的一半。計算得到四類不同船只輻射噪聲和自然噪聲的仿真圖如圖5所示。仿真得到A~D四類不同艦船輻射噪聲的歸一化26階MFCC系數(shù),其中包含了13階的MFCC系數(shù)、13階的D-MFCC系數(shù)。三維圖中X、Y軸分別代表MFCC系數(shù)的階數(shù)和幀數(shù),Z軸代表MFCC特征系數(shù)。從圖中可知,MFCC系數(shù)特征在 3~17階存在比較大的區(qū)分度,因此將其作為分類識別的有效特征。
圖5 不同船只輻射噪聲和自然噪聲的仿真圖
將上述計算得到的四類樣本數(shù)據(jù)用 CNN神經(jīng)網(wǎng)絡進行訓練,樣本數(shù)據(jù)按7:3劃分為訓練集和測試集。本實驗采用VGG網(wǎng)絡的模式,即在卷積層后加池化層,采用Dropout正則化方法避免網(wǎng)絡過擬合,其中keep-prob的值統(tǒng)一設置為 0.25,在網(wǎng)絡反向傳播時,采用的是Adam梯度下降優(yōu)化算法,網(wǎng)絡參數(shù)設置如表2所示。
表2 CNN網(wǎng)絡參數(shù)表
實驗采用二進制交叉熵作為損失函數(shù):
式中,表示網(wǎng)絡預測輸出,y表示網(wǎng)絡的真實樣本值,k表示類別數(shù)。epoch設置為200,CNN預測模型某次訓練精度和loss值隨epoch的變化如圖6所示。
圖6(a) 訓練和測試準確率
圖6(b) 訓練和測試損失
從圖6中訓練精度、測試精度和loss值的變化曲線可以看出,epoch從125開始時,訓練和測試的loss值基本不變,訓練集精度變化緩慢,測試集精度趨近平衡。通過圖6~7可以發(fā)現(xiàn),訓練集精度穩(wěn)定在93%、測試集精度穩(wěn)定在91%左右時有比較好的訓練效果。A類測試精度達到了79%,B類測試精度達到了94%,C類測試精度達到了92%,D類測試精度達到了89%。整體而言,由于訓練樣本自身就存在一定的噪聲干擾,并不是純凈的艦船輻射噪聲,所以精度不是特別的高,但四種類別的分類效果都還不錯。
圖7 CNN網(wǎng)絡的混淆矩陣
對不同艦船輻射噪聲進行分類,還可以采用信號各自的LOFAR圖作為神經(jīng)網(wǎng)絡的輸入。本文用短時傅里葉變換來分析艦船輻射噪聲的LOFAR譜圖。對語音或噪聲信號處理和識別時,由于信號的非平穩(wěn)性,其性質(zhì)隨時間發(fā)生較明顯的變化,因此不能應用通常的傅里葉表示方法。LOFAR 譜圖從時、頻兩個角度對信號進行描述,通過對連續(xù)的采樣數(shù)據(jù)作短時傅里葉變換而構成信號的非平穩(wěn)特性,對信號特征提取具有很好的效果。
當神經(jīng)網(wǎng)絡的輸入分別為MFCC和LOFAR特征,并且二者的輸入?yún)?shù)相同時,A~D四類艦船輻射噪聲信號的識別準確率如圖8所示。
圖8 LOFAR和MFCC特征輸入網(wǎng)絡的準確率
可以看出,當輸入?yún)?shù)相同,MFCC作為特征輸入時的四類艦船輻射噪聲識別準確率更高,并且網(wǎng)絡的損失函數(shù)趨于平穩(wěn)的迭代次數(shù)更少,網(wǎng)絡的訓練時間也相應的更少;對于同一特征(MFCC或LOFAR),輸入?yún)?shù)越少,準確率越低,隨著輸入?yún)?shù)的增加,神經(jīng)網(wǎng)絡的優(yōu)勢體現(xiàn)出來,系統(tǒng)的識別準確率慢慢提高,分類效果慢慢變好。
由表 3可以看出,信號同類特征(MFCC或LOFAR)不同維度作為輸入,隨著特征維度的增加,網(wǎng)絡訓練參數(shù)能夠更好的表征信號特征,這能很好地提高網(wǎng)絡識別性能。卷積網(wǎng)絡對多參數(shù)訓練具有很好的優(yōu)勢,通過每一層卷積核大小和卷積核個數(shù)可以很好的對特征進行壓縮,防止訓練數(shù)據(jù)爆炸,導致網(wǎng)絡過擬合現(xiàn)象。對于 LOFAR特征來說,B類識別準確率提升的比較明顯;對于MFCC特征來說,B、C類識別準確率提升的比較明顯??傮w來看,對于兩種特征,A類的識別率相比于B、C、D類來說相對較低。通過對A類樣本集分析,發(fā)現(xiàn)樣本間存在明顯差異,訓練之后網(wǎng)絡效果不佳。信號同一維度不同特征作為輸入,MFCC較LOFAR特征的識別效果更好,即使是在輸入?yún)?shù)較少的情況下,MFCC也能夠達到更好的識別效果。對于網(wǎng)絡訓練時間,隨著輸入?yún)?shù)的增加,訓練時間也會跟著增加,但是當LOFAR輸入?yún)?shù)為110×110、MFCC輸入?yún)?shù)為100×100時,網(wǎng)絡總體識別率不再提升。如果再增加輸入?yún)?shù),那么只會增加訓練的時間,識別效果不會明顯提升。在相同的輸入特征維度下,雖然LOFAR特征相比MFCC特征需要訓練的時間相對較少,但是MFCC在參數(shù)較少的情況下也能達到很好的識別準確率。
表3 LOFAR和MFCC特征輸入網(wǎng)絡的準確率和訓練時間
艦船輻射噪聲是一種非平穩(wěn)、復雜的信號,為提高艦船輻射噪聲識別的準確率,本文將MFCC和CNN結合構建了一個水聲信號卷積分類網(wǎng)絡。該分類網(wǎng)絡通過 MFCC特征提取方法逐幀提取艦船輻射噪聲信號的梅爾倒譜系數(shù),將提取的梅爾系數(shù)構建特征矩陣輸入卷積網(wǎng)絡中進行分類。實驗結果表明,對于同一種特征,隨著網(wǎng)絡輸入?yún)?shù)增加,目標整體識別率提高,MFCC特征相比于LOFAR特征具有很好的識別效果,即使是在輸入?yún)?shù)比較少的情況下,也能達到90%的整體識別準確率。在輸入?yún)?shù)相同的情況下,A~D四類的MFCC特征識別準確率都高于LOFAR,且MFCC特征的識別率最高能達到94%。