何家雄
摘要:文章介紹了車輛音頻信號(hào)特征參數(shù)的提取和循環(huán)神經(jīng)網(wǎng)絡(luò)識(shí)別算法,該方法為了優(yōu)化傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在輸入層中加入特征層,對(duì)模型結(jié)構(gòu)進(jìn)行改進(jìn)。通過(guò)對(duì)四種車型的音頻數(shù)據(jù)進(jìn)行處理的結(jié)果表明,該模型可以有效地識(shí)別不同車型,識(shí)別準(zhǔn)確率超過(guò)80%,可以達(dá)到基本識(shí)別要求。
關(guān)鍵詞:車型識(shí)別;聲音信號(hào)識(shí)別;特征提取;循環(huán)神經(jīng)網(wǎng)絡(luò)
0 引言
車型的自動(dòng)識(shí)別技術(shù)[1]是智能交通系統(tǒng)(IntelligentTransportationSystem,ITS)構(gòu)成的關(guān)鍵技術(shù)之一,是道路交通監(jiān)控系統(tǒng)的重要研究領(lǐng)域。目前,車輛自動(dòng)識(shí)別主要運(yùn)用紅外線、超聲波、聲表面波以及視頻圖像監(jiān)測(cè)等技術(shù)[2]。由于施工和安裝過(guò)程復(fù)雜、維護(hù)困難、主要設(shè)備易損壞、價(jià)格昂貴等因素,車型自動(dòng)識(shí)別技術(shù)在我國(guó)未普及。
聲音是一種由物體發(fā)出的信息,該信息通過(guò)傳播介質(zhì)的傳播,最終被人體的聽(tīng)覺(jué)器官感知。聲音可以看作為一種模擬信號(hào),該信號(hào)可通過(guò)波形表示。聲音因其信息量豐富的特點(diǎn)而成為現(xiàn)代化信息處理技術(shù)的重要研究手段之一。車輛聲音信號(hào)就是車輛運(yùn)動(dòng)過(guò)程中產(chǎn)生的噪聲。由于車輛在行駛過(guò)程中底盤、車身、變速器、發(fā)動(dòng)機(jī)、傳動(dòng)軸或者輪胎等都會(huì)發(fā)出聲音,因此車輛的聲音信號(hào)是一種多聲源機(jī)械噪聲[3]。車輛機(jī)械構(gòu)造的不同也就造成了車輛聲音信號(hào)的差異,因此車型識(shí)別可以根據(jù)車輛行駛過(guò)程中產(chǎn)生的噪聲信號(hào)實(shí)現(xiàn)。該方法成本較低,信息冗余量小,受外界的干擾少,近年來(lái)已成為國(guó)內(nèi)外研究的熱點(diǎn)。
本文提出了一種基于車輛聲音信號(hào)的車型識(shí)別方法,基于Matlab軟件平臺(tái),采用梅爾倒譜系數(shù)算法提取聲音信號(hào)的特征,并應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)對(duì)不同車型進(jìn)行分類。
1 循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種常見(jiàn)的深度神經(jīng)網(wǎng)絡(luò)模型,與以往的神經(jīng)網(wǎng)絡(luò)模型相比,其既有前饋通路,又有反饋通路。RNN的網(wǎng)絡(luò)結(jié)構(gòu)由輸入層(InputLayer)、隱含層(HiddenLayer)和輸出層(OutputLayer)三部分構(gòu)成。循環(huán)神經(jīng)網(wǎng)絡(luò)的大致訓(xùn)練過(guò)程如下:首先,輸入信號(hào)W(t)經(jīng)過(guò)隱含層處理,然后,在輸出層中產(chǎn)生待預(yù)測(cè)結(jié)果的概率分布[4]在隱含層中的狀態(tài)S(t)中包含信號(hào)的歷史信息。輸入W(t)和上一時(shí)刻隱含層的輸出S(t-1)構(gòu)成網(wǎng)絡(luò)的輸入,通過(guò)W(t)和S(t-1)可以計(jì)算得到當(dāng)前隱含層的狀態(tài)S(t),將時(shí)刻W(t-1)的歷史S(t)也加入到網(wǎng)絡(luò)的訓(xùn)練過(guò)程中。隱含層不斷地循環(huán)使歷史信息在預(yù)測(cè)過(guò)程得到了充分利用。但是在循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的訓(xùn)練過(guò)程中,實(shí)際輸出和期望輸出之間有一定誤差,該誤差信號(hào)向后傳播至隱含層,并隨著時(shí)間的延長(zhǎng)不斷地減弱,伴隨出現(xiàn)了梯度消失的問(wèn)題,由此網(wǎng)絡(luò)對(duì)無(wú)限長(zhǎng)距離歷史信息的學(xué)習(xí)能力受到了限制。
鑒于網(wǎng)絡(luò)的局限性,受到長(zhǎng)距離歷史信息學(xué)習(xí)的限制,本文采用了一種旨在增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)長(zhǎng)距離歷史信息能力的改進(jìn)型循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)是在傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上加入一個(gè)特征層(FeatureLayer),該特征層與隱含層和輸出層都相連,如圖1所示,圖1(b)為其網(wǎng)絡(luò)結(jié)構(gòu)。特征層f(t)表示額外的輸入,其包含有對(duì)原始輸入的補(bǔ)充信息。
隱含層和輸出層的計(jì)算公式見(jiàn)式(1)和式(2):
2 聲音信號(hào)特征參數(shù)提取
由于車型種類較多,而現(xiàn)階段的研究水平有限,本文對(duì)大卡車、公交車、小型轎車、摩托車四種類型的車進(jìn)行識(shí)別的研究。在車流量相對(duì)較少,背景環(huán)境較為安靜的條件下分別對(duì)四種車型行駛時(shí)的車輛噪聲進(jìn)行錄制,聲音樣本各為500個(gè),量化位數(shù)為16位,采樣率為8kHZ,保存為.wav格式,方便Matlab軟件處理。
由于在車輛行駛過(guò)程中,人耳可以準(zhǔn)確地分辨其車型,因此本文選用模擬人耳機(jī)理的梅爾倒譜系數(shù)(Mel-scaleFrequencyCepstralCoefficient,MFCC),且與一般特征相比,MFCC具有更好的魯棒性[5]。MFCC特征參數(shù)提取的一般過(guò)程如圖2所示。
2.1 預(yù)加重
預(yù)加重處理是對(duì)聲音的高頻信號(hào)進(jìn)行加重,以增加聲音的高頻分辨率,使得提取的音頻頻譜更加平緩,提高信噪比。預(yù)加重過(guò)程一般通過(guò)系統(tǒng)函數(shù)為H(z)=1-μZ-1的一階有限長(zhǎng)沖激響應(yīng)數(shù)字濾波器來(lái)實(shí)現(xiàn),式中μ為預(yù)加重系數(shù),該系數(shù)的典型取值為0.9375。
2.2 分幀加窗
聲音信號(hào)為時(shí)變信號(hào),但可以看作短時(shí)間內(nèi)的平穩(wěn)信號(hào)[6],因此分幀的目的就是得到短時(shí)聲音信號(hào)。在MFCC特征提取過(guò)程中,音頻片段長(zhǎng)度一般為20~30ms,而幀移為10~15ms的相互重疊的語(yǔ)音幀,本文設(shè)置幀長(zhǎng)為25ms,幀移為10ms。加窗處理是為了消除音頻噪聲對(duì)音頻幀的影響,因此加窗處理通常是必需的過(guò)程。本文選用漢明窗(Hamming)作為窗函數(shù),減小頻譜能量的泄露,獲得較為平滑的頻譜特性。
2.3 特征提取
在提取MFCC特征的過(guò)程中,本文通過(guò)快速傅里葉變換(FastFourierTransformation,F(xiàn)FT)將音頻信號(hào)由時(shí)域空間轉(zhuǎn)化到頻域空間,得到聲音頻譜。在Mel頻率上設(shè)置L個(gè)通道的Mel濾波器組,令信號(hào)的線性幅度譜通過(guò)Mel濾波器,得到濾波器輸出Y(l)=∑h(l)k=o(l)Wl(k)|Xn(k)|,l=1,2,…,L。其中,濾波器頻率特性為:
將上述得到的MFCC作為靜態(tài)特征,進(jìn)行一階差分與二階差分,可得到動(dòng)態(tài)特征。研究表明,最前面若干維及最后面若干維的MFCC對(duì)聲音的區(qū)分性能較大,本文取前12維MFCC。
3 實(shí)驗(yàn)與結(jié)果分析
為驗(yàn)證本文聲音識(shí)別模型的性能,通過(guò)實(shí)驗(yàn)進(jìn)行了驗(yàn)證。在Matlab軟件平臺(tái)采用上文提到的方法提取FMCC特征進(jìn)行對(duì)比實(shí)驗(yàn),首先進(jìn)行隱馬爾科夫模型的實(shí)驗(yàn),然后采用本文提出的加入特征層的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,取摩托車、小型轎車、公交車、大卡車四種車型的行駛噪聲,每種噪聲樣本為500,其中測(cè)試數(shù)據(jù)為200個(gè),訓(xùn)練數(shù)據(jù)為300個(gè)。從語(yǔ)音數(shù)據(jù)中提取MFCC特征值。在提取特征值之前,首先要進(jìn)行預(yù)加重和分幀加窗處理。實(shí)驗(yàn)中幀長(zhǎng)設(shè)置為25ms,幀長(zhǎng)重復(fù)部分為10ms。加窗處理使用Hamming。提取MFCC為12階,并提取其一階差分系數(shù)及二階差分系數(shù),每個(gè)系數(shù)取能量譜。實(shí)驗(yàn)中,循環(huán)神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元為100個(gè),類別層為100個(gè)。以上過(guò)程在Matlab軟件中實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果如表1所示。
通過(guò)表1的結(jié)果表明,本文基于循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)車輛聲音信號(hào)進(jìn)行識(shí)別,該法識(shí)別效果高于隱馬爾模型,車型識(shí)別率均超過(guò)80%,可以使用本方法對(duì)車輛進(jìn)行簡(jiǎn)單的分類,該方法與其他車型識(shí)別方法相比,具有識(shí)別率高、操作簡(jiǎn)單等特點(diǎn)。
4 結(jié)語(yǔ)
綜上所述,本文提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的車型識(shí)別方法,通過(guò)車輛行駛噪聲辨認(rèn)不同車型。實(shí)驗(yàn)結(jié)果證明,該方法可以對(duì)摩托車、小型轎車、公交車、大卡車四種車型的車輛進(jìn)行識(shí)別,識(shí)別效果優(yōu)于傳統(tǒng)的識(shí)別模型且操作簡(jiǎn)單,同時(shí)驗(yàn)證了基于聲音信號(hào)對(duì)車輛識(shí)別算法的可行性。
參考文獻(xiàn):
[1]錢志偉.智能交通系統(tǒng)中車型識(shí)別的研究與應(yīng)用[D].西安:西安電子科技大學(xué),2011.
[2]劉 波.車輛音頻特征分析及車型識(shí)別研究[D].武漢:武漢理工大學(xué),2007.
[3]周勇麟,李樹(shù)珉.汽車噪聲原理,檢測(cè)與控制[M].北京:中國(guó)環(huán)境科學(xué)出版社,1992.
[4]張 劍,屈 丹,李 真.基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[J].模式識(shí)別與人工智能,2015,28(4):299-305.
[5]WangJC,WangJF,WenYS.Chipdesignofmelfrequencycepstralcoefficientsforspeechrecognition[C].InIEEEInternationalConferenceon,Acoustics,Speech,andSignalProcessing,2000.
[6]王炳錫,屈 丹.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2005.