王 勇,宋玉寶,魏春華,陳正武
(中國空氣動力研究與發(fā)展中心氣動噪聲控制重點實驗室,四川 綿陽 621000)
直升機在飛行過程中通常會充分利用地形地貌等條件進行低空或超低空飛行,以避免被雷達、紅外等探測手段發(fā)現(xiàn)。但是,直升機無論是在懸停狀態(tài)還是在前飛狀態(tài),均會產(chǎn)生強烈的聲信號,特別是其主旋翼擾動空氣時產(chǎn)生的中低頻聲音具有傳播距離遠、衰減速度慢等特點。同時,直升機聲信號能夠繞過遮蔽物(如山體、叢林等)傳播,且不受煙霧阻擋和光照影響。因此,利用直升機輻射的聲信號來分辨其類型是直升機探測識別的重要手段。
如何有效地提取出直升機聲信號中隱含的能反映目標類型的個性特征是直升機聲信號識別的關鍵環(huán)節(jié)。近年來,研究者們采用了多種信號處理方法來提取待識別直升機目標的最有效或最具代表的特征,典型的方法大致可以分為時域特征提取[1]、頻域特征提取[2]以及以短時傅里葉變換和小波分析為代表的時頻域特征提取[3-5]。時域方法提取速度快、實時性好,但低信噪比下的識別性能大大降低。傳統(tǒng)的頻域方法和時頻域方法大多以傅里葉變換為構建基礎,而傅里葉變換得到的頻譜在頻率域上線性分布且維數(shù)較高,通常需要加以改進才能得到更高的識別率。眾所周知,人類可以在低信噪比和多種干擾環(huán)境下穩(wěn)定地識別目標,例如訓練有素的聲吶兵依靠耳朵判識水下目標的能力超過很多現(xiàn)有的識別系統(tǒng)。因此,通過模擬人類聽覺系統(tǒng)的聲信號處理過程,構建聽覺模型來改進傳統(tǒng)方法、提取穩(wěn)定特征引起越來越多研究者的關注和興趣[6-8]。
Mel濾波器組通過一組相互交疊的、中心頻率呈非線性分布的三角形帶通濾波器組將線性頻譜轉(zhuǎn)化為基于Mel頻率尺度的非線性頻譜,符合人耳的聽覺特性,具有良好的識別性能和抗噪能力,已被廣泛應用于語音識別和水下目標識別中[9-11]。聲信號經(jīng)過Mel濾波器組處理后具有更敏感的中低頻分析能力,而直升機聲信號識別中的關鍵成分正是傳播距離遠、衰減速度慢的中低頻聲音。因此,本文提出了基于Mel濾波器組的Mel譜特征提取方法應用于直升機聲信號識別,并通過數(shù)值仿真驗證了所提出方法的有效性和噪聲魯棒性。仿真結果表明:Mel譜特征提取可以有效地辨識直升機類別,具有一定的應用前景;低信噪比下,識別率和魯棒性受幀長、頻率下界和Mel濾波器個數(shù)的影響較大,而受頻率上界的影響較小。
人耳聽覺感知機理的生理學研究表明,人類聽覺系統(tǒng)的特殊結構使之在聽聲辨物的過程中具有動態(tài)、非線性的振動響應,以及一定的頻率選擇能力和更敏感的中低頻聲信號分析能力。感受聲音刺激并進行初步分析和處理的耳蝸類似于一個頻譜分析儀,具有頻率選擇和分解作用,其基底膜的不同部位對接收聲信號的不同頻率成分產(chǎn)生共振響應,將復雜的聲信號分解成各種頻率分量[12]。聲音頻率較低時,基底膜的頂部附近出現(xiàn)振幅峰值;相反,聲音頻率較高時,基底膜的基部附近出現(xiàn)振幅峰值。不同頻率的聲音,其峰值對應的基底膜位置并不是均勻等距分布的,而是呈現(xiàn)近似對數(shù)型的非線性分布。另一方面,耳蝸基底膜還起到了聽覺濾波器組的作用,且不同位置對應不同的濾波帶寬,頂部附近的帶寬小而基部附近的帶寬大,這使得耳蝸處理聲信號時具有特殊的頻率分辨特性,即低頻分辨率高而高頻分辨率低。
Mel濾波器組是一系列相互交疊的三角形帶通濾波器,其中心頻率在Mel尺度上等間距分布。Mel尺度與線性頻率f的關系可近似表示為
Mel(f)=2595log10(1+f/700)
(1)
相應地,有
f=700(10Mel(f)/2595-1)
(2)
Mel濾波器組中相鄰的三角形濾波器相互交疊,每個三角濾波器的兩個底點頻率分別對應其相鄰的兩個三角濾波器的中心頻率,即第i個濾波器的中心頻率對應第i-1個濾波器的上限頻率和第i+1個濾波器的下限頻率。因此,在確定聲信號的頻率分析范圍[lowf,highf](lowf、highf分別為分析頻率的下界與上界)和Mel濾波器個數(shù)N后,第i個濾波器(i=1,…,N)的中心頻率fi對應的Mel尺度為
(3)
進一步,可以利用式(2)得到中心頻率fi。
第i個Mel帶通濾波器的傳遞函數(shù)為
(4)
其中f0=lowf,fN+1=highf。
圖1給出了頻率分析范圍0Hz~12800Hz、N=30時,前10個Mel濾波器組的傳遞函數(shù)值以及每個濾波器對應的中心頻率和Mel尺度值。從圖中可以看出,Mel濾波器是一個在中心頻率處具有最大系數(shù)的帶通濾波器,只在其下限頻率和上限頻率之間大于0,很好地模擬了耳蝸基底膜的頻率分解特性。三角形濾波器在低頻段密集且系數(shù)高(放大低頻成分),而在高頻段稀疏但系數(shù)低(弱化高頻成分),模擬了人耳低頻處分辨率高、高頻處分辨率低,更敏感的中低頻聲音信號的分析和處理能力。此外,隨著濾波器次序的增加,三角形帶通濾波器的帶寬逐漸增大,與基底膜具有相似的聽覺頻率帶寬和濾波特性。圖1(b)顯示Mel濾波器組的中心頻率在Mel尺度上等間隔分布,而在線性頻域上呈對數(shù)型非線性分布,模擬了人耳聽覺系統(tǒng)的非線性特性。
圖1 Mel濾波器組示意圖及其每個濾波器對應的中心頻率和Mel尺度值
基于Mel譜的直升機聲信號識別利用Mel濾波器組細化并加強中低頻范圍內(nèi)直升機聲信號的頻率分析方式和特征表達能力,隨后送入分類器識別直升機的類型。算法流程如圖2所示。
圖2 基于Mel譜特征提取的直升機聲信號識別算法流程圖
具體過程如下:
1) 分幀與加窗 由于直升機聲信號只在較短時間內(nèi)才可視為平穩(wěn)過程,因此需要將目標聲信號劃分為長度L的若干幀,得到幀信號x(n),1≤n≤L。同時,相鄰幀之間需要設置一段重疊區(qū)域(通常為幀長的50%)以防止直升機聲信號中的連續(xù)動態(tài)變化信息丟失(即Gibbs效應)。
為了增加幀信號左端和右端的連續(xù)性,減小分幀截斷導致的“頻譜泄漏”,將每幀信號乘上窗函數(shù)w(n)得到加窗后的聲信號y(n)=x(n)w(n)。窗函數(shù)通常選擇Hamming窗
1≤n≤L
(5)
2) FFT變換 對加窗聲信號進行快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT),得到其頻譜
(6)
對應的分析頻率為
(7)
式(6)和(7)中,j=sqrt(-1)為虛數(shù)單位,Δt=1/Fs為采樣間隔,F(xiàn)s為直升機聲信號的采樣率。
進一步對頻譜取模,得到聲信號的幅值譜。
可以看出,過程1)和過程2)相當于對輸入信號進行了時頻域的短時傅里葉分析(Short Time Fourier Transform,STFT)。
3) Mel濾波器組濾波 在指定的頻率分析范圍[lowf,highf]內(nèi),用N個Mel濾波器組對幅值譜進行帶通濾波,得到更符合人耳聽覺特性的輸出
(8)
4) 對數(shù)壓縮 模擬聽覺系統(tǒng)的非線性效應,對每個Mel濾波器的輸出取對數(shù)得到log10(Bi),壓縮數(shù)據(jù)的動態(tài)范圍并濾除乘性噪聲。將所有數(shù)據(jù)幀的對數(shù)輸出取均值得到一組Mel譜特征。
5) 分類器識別 將訓練集的Mel譜特征送入分類器進行訓練,利用訓練好的模型判識測試集的Mel譜特征,以確定直升機的類型。
實驗數(shù)據(jù)來源于低背景噪聲環(huán)境下采集的3類直升機旋翼在懸停和前飛等10種不同工況下輻射的聲信號,采樣時間和采樣率分別為10 s和25600 Hz。將獲取的每條直升機聲信號間隔0.5 s截取1 s時間段的數(shù)據(jù),得到共597段樣本。仿真中,訓練集和測試集的樣本數(shù)分別占每類直升機聲信號的75%和25%,即448和149。分類器選擇簡單的基于歐式距離的最近鄰分類器。
為考察所提出的Mel譜特征提取方法的噪聲魯棒性,在原始數(shù)據(jù)中加入不同強度的高斯白噪聲,得到信噪比(Signal-to-Noise Ratio,SNR)分別為0 dB、±10 dB、±20 dB和±40 dB的含噪數(shù)據(jù)。圖3給出了某段直升機聲信號加入不同信噪比白噪聲后的頻譜圖。從圖中可以看出,高信噪比時聲信號的能量主要集中在100Hz以下的低頻段,以及槳葉通過頻率及其諧波頻率所在的中間頻段。信噪比SNR=-20 dB時,槳葉通過頻率及其諧波頻率附近的頻譜尖峰基本消失;SNR=-40 dB時,各頻段的頻譜呈近似直線的平坦分布,已經(jīng)沒有明顯的可區(qū)分特征。
圖3 不同信噪比下的聲信號頻譜
從2.3節(jié)的算法描述中可以看出,基于Mel譜特征提取的直升機聲信號識別包含4個參數(shù):幀長L、頻率分析范圍[lowf,highf]、Mel濾波器個數(shù)N。下面逐一考察參數(shù)設置對識別性能及其噪聲魯棒性的影響。
3.2.1 幀長的影響分析
圖4給出了不同幀長時的識別準確率。從圖中可以看出,本文提出的基于Mel譜特征提取的直升機聲信號識別方法具有很好的識別性能和噪聲魯棒性。當信噪比SNR≥0 dB時,不同幀長時的識別率均接近100%;隨著信噪比的進一步降低(SNR<0 dB),本文方法的識別率逐漸降低,其原因在于:如圖3所示,信噪比為負時,有效信號逐漸淹沒于噪聲之中,可區(qū)分特征逐漸消失。從圖4中還可以看出,當幀長取適當大小(最優(yōu)長度L=2048)時,可以提高識別率和抗噪能力。出現(xiàn)這種現(xiàn)象的原因在于:一方面,幀長較小時,每一幀聲信號包含的有效信息較小不利于識別信息的提取,且FFT的頻率分辨率較低不能有效地分辨兩個不同頻率的直升機聲信號;另一方面,幀長較大時,短時平穩(wěn)條件難以滿足且頻率分辨率較高,導致算法容易受噪聲的影響。
圖4 不同幀長下的識別準確率
3.2.2 頻率分析范圍的影響分析
圖5給出了頻率分析范圍采用不同下界lowf和上界highf時的識別準確率。從圖中可以看出,盡管頻率下界lowf的最大變化范圍只有320 Hz,遠小于頻率上界highf的變化范圍6400 Hz,但頻率下界對識別率的影響卻更大。頻率下界設置得越小,噪聲魯棒性越強、識別率越高。這與圖3所揭示的直升機聲信號的主要能量聚集于中低頻段是相符的,也說明直升機聲目標識別的有效特征主要是能量大、傳播遠、衰減慢的中低頻信號。
3.2.3 Mel濾波器個數(shù)的影響分析
圖6給出了不同Mel濾波器個數(shù)時的識別準確率。從圖中可以看出,隨著Mel濾波器個數(shù)的增加,識別率呈現(xiàn)先增加再降低的趨勢,特別是在信噪比較低時。圖7給出了Mel濾波器組的濾波帶寬隨濾波器個數(shù)的變化情況。從圖6和圖7中可以看出,識別率和濾波帶寬隨濾波器個數(shù)的變化趨勢基本相反。結合圖1(a)可知,當Mel濾波器較少時,濾波帶寬過大造成頻率分辨率低,這與Mel譜特征提取中引入Mel濾波器組加強直升機聲信號中低頻段的頻率分辨率的初衷是背離的,因此無論信噪比大小均不能得到較好的識別率。另一方面,當Mel濾波器較多時,濾波帶寬較小頻率分辨率高使得濾波效果容易受噪聲的影響,進而引起低信噪比時(SNR<0 dB)識別率反而隨著濾波器個數(shù)的增加而降低。此外,濾波器個數(shù)越多,算法復雜度越大,且Mel譜特征越多、耗時增加,因此綜合考慮,需要設置恰當?shù)臑V波器個數(shù)。
圖5 不同頻率分析范圍時的識別準確率
受人類聽覺系統(tǒng)優(yōu)異的聲音識別能力及其抗噪聲干擾能力的啟發(fā),本文提出了基于Mel譜的特征提取方法用于直升機聲信號識別。該方法采用三角形Mel帶通濾波器組在中低頻范圍內(nèi)細化并加強頻率分析和特征表達能力,以提高能量集中在中低頻處的直升機聲信號的識別性能及其魯棒性。仿真結果表明:
1)本文提出的Mel譜特征提取方法即使在信噪比較低時仍具有較高的識別率;
2)不同的參數(shù)設置對識別性能和噪聲魯棒性的影響不同,分析頻率范圍的下界對識別率的影響較大,而高頻上界對識別率的影響較??;
3)數(shù)據(jù)分幀長度和Mel濾波器個數(shù)恰當設置,以使得頻譜分析的頻率分辨率和濾波器帶寬適當時,系統(tǒng)具有較高的識別率和噪聲魯棒性。
圖6 不同Mel濾波器個數(shù)時的識別準確率
圖7 濾波帶寬隨濾波器個數(shù)的變化