陳 東, 黃智鵬
(華南理工大學(xué)機(jī)械與汽車工程學(xué)院,廣州 510640)
在日趨繁忙的城市交通中,由于駕駛員缺乏環(huán)境保護(hù)意識(shí),在市區(qū)內(nèi)頻繁使用汽車?yán)?,給居民的日常生活帶來(lái)了很大的困擾,尤其是相關(guān)重點(diǎn)區(qū)域,比如在學(xué)校、醫(yī)院與居民區(qū)周圍。因此交管和環(huán)境保護(hù)部門開始在這些路段、場(chǎng)所安裝違法鳴喇叭輔助執(zhí)法設(shè)備,該設(shè)備通過(guò)實(shí)時(shí)識(shí)別城市交通中汽車?guó)Q喇叭事件的發(fā)生,將系統(tǒng)識(shí)別出的汽車違法鳴喇叭音視頻資料作為執(zhí)法的有效證據(jù)進(jìn)行上傳。其中,準(zhǔn)確高效地在城市交通噪聲里,識(shí)別出汽車?guó)Q喇叭事件發(fā)生的方法十分重要。
目前,中國(guó)在汽車?guó)Q喇叭識(shí)別這方面的研究主要有:蔣翠清等[1]提取音頻信號(hào)的梅爾頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)與自相關(guān)函數(shù)(auto-correlation function,ACF)方差組合成混合特征,使用高斯混合模型(gaussian mixture model,GMM)進(jìn)行汽車?yán)嚷暤慕:妥R(shí)別,研究了城市道路的喇叭和非喇叭識(shí)別率;鄭皓等[2]利用深度神經(jīng)網(wǎng)絡(luò)的非線性建模能力和特征提取能力,提取多幀音頻信號(hào)的MFCC及一階、二階差分系數(shù),將其組合成特征向量塊作為(deep belief networks,DBN)網(wǎng)絡(luò)的輸入層,對(duì)10種不同汽車的喇叭聲樣本進(jìn)行分類;張鐵成[3]采用BP(back propagation)神經(jīng)網(wǎng)絡(luò)作為喇叭和非喇叭聲音的二分類識(shí)別器,研究了MFCC及其一階差分系數(shù)和峰度、幾何算術(shù)平均值、子帶能量在不同組合條件下的識(shí)別效果,測(cè)試了汽車?guó)Q喇叭聲在低信噪比條件下的識(shí)別率。這些研究都有使用語(yǔ)音識(shí)別領(lǐng)域中的MFCC特征提取技術(shù),但沒(méi)有根據(jù)汽車?guó)Q喇叭聲的特點(diǎn)作進(jìn)一步優(yōu)化,并且識(shí)別的情景區(qū)別比較大。
現(xiàn)基于MFCC和支持向量機(jī)提出一種汽車?guó)Q喇叭識(shí)別方法。采用支持向量機(jī)(support vector machine,SVM)作為喇叭聲和交通噪聲的二分類器,從汽車?yán)嚷暤奶攸c(diǎn)出發(fā),分析傳統(tǒng)MFCC特征中梅爾濾波器個(gè)數(shù)及特征維數(shù)對(duì)識(shí)別效果的影響。其中,以干凈的常見(jiàn)汽車?yán)嚷暫徒煌ㄔ肼曈?xùn)練SVM分類器模型,用兩者按不同信噪比隨機(jī)混合后的喇叭聲,驗(yàn)證汽車?guó)Q喇叭在不同背景及不同信噪比條件下的仿真識(shí)別效果,再用實(shí)際路況中帶有交通噪聲干擾的喇叭聲驗(yàn)證模型的路測(cè)識(shí)別效果。
汽車?yán)仁亲约ふ袷幍碾娐曆b置,城市交通中常見(jiàn)的汽車?yán)戎饕校号锠铍娎?、蝸牛型電喇叭、蝸牛型氣喇叭以及筒狀氣喇叭,它們大多是電?dòng)驅(qū)動(dòng),靠鐵芯和膜片的聯(lián)系振動(dòng)發(fā)聲[4]。這些喇叭又分高音和低音版本,高音與低音喇叭的基頻范圍一般為240~600 Hz。通常情況下,汽車會(huì)配置高音和低音兩個(gè)喇叭,也稱雙音喇叭,單音和三音的情況相對(duì)比較少。
交通噪聲一般指機(jī)動(dòng)車輛在城市交通中行駛產(chǎn)生的噪聲。在此主要研究分析對(duì)環(huán)境要求較高的區(qū)域,如學(xué)校、醫(yī)院與居民區(qū)周圍的道路、紅綠燈路口的交通噪聲。這些交通噪聲包括汽車發(fā)動(dòng)機(jī)聲、摩托車引擎聲、汽車輪胎路面噪聲、行人說(shuō)話聲、自行車鈴鐺聲等。以下對(duì)汽車?yán)嚷暫徒煌ㄔ肼曋芯哂写硇缘膸追N聲音信號(hào)進(jìn)行分析。
圖1(a)是城市道路采集的汽車發(fā)動(dòng)機(jī)聲和行人說(shuō)話聲時(shí)頻圖,圖1(b)是開闊區(qū)域采集的汽車靜止?fàn)顟B(tài)下的蝸牛型雙音喇叭噪聲時(shí)頻圖。在圖1(a)中,汽車發(fā)動(dòng)機(jī)聲信號(hào)范圍是0~0.75 s,行人說(shuō)話聲信號(hào)范圍是0.75~1.5 s,在圖1(b)中,汽車?guó)Q喇叭聲信號(hào)范圍是0.5~1.3 s,其余為背景噪聲。從圖1可以看出,語(yǔ)音信號(hào)隨時(shí)間變化得比較快,具有很強(qiáng)的瞬態(tài)特點(diǎn),汽車發(fā)動(dòng)機(jī)噪聲比語(yǔ)音信號(hào)平穩(wěn)很多,而與測(cè)量傳聲器相對(duì)靜止?fàn)顟B(tài)下的被測(cè)汽車?yán)嚷暿欠€(wěn)態(tài)信號(hào),比前兩者更加平穩(wěn)。而由于運(yùn)動(dòng)聲源信號(hào)中廣泛存在多普勒效應(yīng)的影響[5],現(xiàn)主要研究在城市道路中與測(cè)量傳聲器相對(duì)靜止及速度較低條件下的汽車?guó)Q喇叭聲,故仍將被測(cè)汽車?yán)嚷曇曌鞣€(wěn)態(tài)信號(hào)。
圖2和圖3(a)分別是對(duì)應(yīng)于圖1中時(shí)間軸上A、B、C處,采樣時(shí)間為128 ms的頻譜圖。從圖2可以看出,汽車發(fā)動(dòng)機(jī)噪聲的能量分布主要在中低頻部分,且包含了其運(yùn)轉(zhuǎn)產(chǎn)生的基頻及其諧波波峰;語(yǔ)音信號(hào)的能量分布規(guī)律是由基頻及其倍頻形成的諧波波峰,也稱共振峰。從圖3中可以看出,汽車雙音喇叭的能量分布為其雙基頻及多次倍頻所形成的諧波波峰,相比于汽車發(fā)動(dòng)機(jī)噪聲更加具有規(guī)律性,并且其分布的頻率范圍比語(yǔ)音信號(hào)寬,能量集中在中低頻部分。由于汽車?yán)冉Y(jié)構(gòu)的不同,相同的基頻產(chǎn)生的諧波特征分布會(huì)有差別。汽車?yán)嚷暤闹C波特征分布特點(diǎn),可以在特征提取時(shí)給予突出。
圖1 汽車發(fā)動(dòng)機(jī)、行人說(shuō)話和汽車雙音喇叭的時(shí)頻圖Fig.1 Spectrogram of car engine, pedestrian talk and car dual tone honking
圖2 汽車發(fā)動(dòng)機(jī)和行人說(shuō)話聲的頻譜圖Fig.2 Spectrum of car engine and pedestrian talk
圖3 不同類型汽車?yán)嚷暤念l譜圖Fig.3 Spectrum of different types of car honking
汽車?yán)嚷曅盘?hào)識(shí)別方法如圖4所示,主要包括將音頻信號(hào)數(shù)據(jù)轉(zhuǎn)換為特征向量的信號(hào)預(yù)處理和特征提取,以及對(duì)特征向量進(jìn)行訓(xùn)練、識(shí)別的SVM特征分類器。
圖4 汽車?guó)Q喇叭聲識(shí)別方法的流程圖Fig.4 Flow chart of recognition method for car honking
預(yù)處理包括設(shè)置高通濾波器、歸一化處理、預(yù)加重、分幀以及添加窗函數(shù),其詳細(xì)過(guò)程如下:
(1)高通濾波器。根據(jù)汽車?yán)嚷暬l一般大于200 Hz的特點(diǎn),設(shè)置一個(gè)200 Hz的高通數(shù)字濾波器,可以濾除大部分道路背景下的低頻噪聲,保證汽車?yán)嚷暤慕^大部分能量得以保留,從而提升低信噪比條件下的識(shí)別效果。
(2)歸一化處理。歸一化處理的目的是為了消除實(shí)驗(yàn)數(shù)據(jù)中不同音頻樣本的音強(qiáng)差別,將音頻樣本的幅值限制在[-1,1]。
(3)預(yù)加重。音頻信號(hào)的預(yù)加重是使其通過(guò)一個(gè)高通濾波器,以損失部分低頻能量來(lái)彌補(bǔ)其在高頻部分的能量分布,用FIR(finite impulse response)濾波器表示為
X(n)=x(n)-αx(n-1)
(1)
式(1)中:α通常介于0.9~1.0;x(n)為原始信號(hào)序列;X(n)為預(yù)加重后的信號(hào)序列。
(4)分幀。由于采集的音頻信號(hào)是非平穩(wěn)信號(hào),不能用處理平穩(wěn)信號(hào)的方法直接對(duì)其進(jìn)行信號(hào)處理和分析,但在10~30 ms的短時(shí)間內(nèi),其特性可以看作是穩(wěn)態(tài)過(guò)程[6]。因此,可以將采集到的數(shù)據(jù)按一定的時(shí)間長(zhǎng)度分成單幀數(shù)據(jù)塊,并在相鄰幀之間設(shè)置一定的重疊,以保證相鄰幀之間參數(shù)過(guò)渡的平穩(wěn)性。經(jīng)過(guò)多次實(shí)驗(yàn)對(duì)比,選擇64 ms幀長(zhǎng),相鄰幀之間的重疊為50%。
(5)加窗。加窗函數(shù)的主要目的是為了減少信號(hào)在頻譜中的泄漏,常用的窗函數(shù)有矩形窗、漢寧窗、漢明窗和布萊克曼窗,在此選用的窗函數(shù)為漢明窗[7]。
MFCC特征提取技術(shù)是在倒譜技術(shù)上依據(jù)人耳的感知特性進(jìn)行改進(jìn)而提出的一種特征提取算法,它的穩(wěn)定性與高識(shí)別率使得其在語(yǔ)音識(shí)別領(lǐng)域得到了廣泛應(yīng)用[8]。其最大特點(diǎn)是將信號(hào)從線性頻域轉(zhuǎn)換到梅爾域,梅爾頻率fMel和線性頻率f之間的轉(zhuǎn)換關(guān)系為
(2)
汽車?yán)戎饕轻槍?duì)人聽覺(jué)開發(fā)的,其能量分布也主要在中低頻,使用MFCC特征提取技術(shù)可以很好的突出其信號(hào)特征。其詳細(xì)提取過(guò)程如下:
設(shè)經(jīng)過(guò)預(yù)處理后的信號(hào)為Xi(n),i為幀數(shù)。
(1)快速傅里葉變換及譜線能量。使用快速傅里葉變換可以將信號(hào)幀從時(shí)域轉(zhuǎn)換到頻域,進(jìn)一步平方可求得其譜線能量,計(jì)算公式為
(3)
式(3)中:N表示傅里葉變換的點(diǎn)數(shù)。
(2)梅爾濾波器及對(duì)數(shù)能量。使用梅爾域的三角濾波器組對(duì)譜線能量加權(quán),再求對(duì)數(shù)能量,計(jì)算公式為
(4)
式(4)中:Hm(k)為三角濾波器函數(shù);M表示三角濾波器的個(gè)數(shù)。由于MFCC的出現(xiàn)主要是針對(duì)語(yǔ)音信息的特征提取,傳統(tǒng)MFCC的三角濾波器個(gè)數(shù)取 22~26。在此,為研究不同維數(shù)的MFCC特征對(duì)汽車?guó)Q喇叭聲識(shí)別效果的影響,使三角濾波器的個(gè)數(shù)為MFCC維數(shù)的2倍。
(3)離散余弦變換。采用的一維離散余弦變換(discrete cosine transform, DCT)公式[9]為
n=1,2,…,L
(5)
式(5)中:n為MFCC的維數(shù)。由于在本文中使用三角濾波器的個(gè)數(shù)為MFCC維數(shù)的2倍,所以L=M/2。
當(dāng)前的分類識(shí)別算法有很多,具有代表性的有壓縮感知、神經(jīng)網(wǎng)絡(luò)、稀疏表示分類及SVM算法等,各具特點(diǎn),各有不足[10]。在小樣本聲音分類識(shí)別中,支持向量機(jī)具有較高的效率和識(shí)別率,并能巧妙的解決高維數(shù),非線性,局部極小等實(shí)際問(wèn)題。文中采用SVM算法作為分類算法,使用臺(tái)灣大學(xué)林志仁等開發(fā)的LibSVM工具箱,在MATLAB軟件環(huán)境下處理城市道路中汽車?guó)Q喇叭和道路噪聲的二分類問(wèn)題。
使用SVM分類器時(shí),核函數(shù)的選擇直接決定特征空間的結(jié)構(gòu),影響分類結(jié)果[11],常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、RBF(radial basis function)核函數(shù)以及Sigmoid核函數(shù)。為提高分類結(jié)果準(zhǔn)確率,還可以使用網(wǎng)格搜索法對(duì)懲罰函數(shù)c和核函數(shù)參數(shù)g進(jìn)行優(yōu)化[12]。經(jīng)過(guò)多次實(shí)驗(yàn)測(cè)試,常用的RBF核函數(shù)對(duì)汽車?yán)嚷曌R(shí)別效果最好,而懲罰函數(shù)c和核函數(shù)參數(shù)g按經(jīng)驗(yàn)選取。
實(shí)驗(yàn)所處環(huán)境均為筆記本的Windows 7操作系統(tǒng),CPU為i7-3720 QM,主頻2.6 GHz,內(nèi)存為8 GB,實(shí)驗(yàn)所用軟件主要是MATIAB R2017a。本實(shí)驗(yàn)包括兩部分:仿真實(shí)驗(yàn)和實(shí)測(cè)實(shí)驗(yàn)。
3.1.1 仿真實(shí)驗(yàn)數(shù)據(jù)
汽車?yán)嚷曋饕獊?lái)源于網(wǎng)絡(luò),交通噪聲來(lái)源于道路路口采集。將兩者的樣本導(dǎo)入Adobe Audition軟件后,通過(guò)反復(fù)試聽截取發(fā)聲較好,且波形較為飽和的音頻樣本,選擇采樣率16 kHz保存作為后續(xù)實(shí)驗(yàn)數(shù)據(jù)。其中,汽車?yán)嚷暟ㄅ栊碗娎?、蝸牛型電喇叭、筒型氣喇叭等,?0個(gè)樣本,單個(gè)樣本時(shí)長(zhǎng)2 s左右,總時(shí)長(zhǎng)100 s。交通噪聲包括汽車發(fā)動(dòng)機(jī)、摩托車引擎聲、汽車輪胎路面噪聲、行人對(duì)話、等其他噪聲,共50個(gè)樣本,單個(gè)樣本時(shí)長(zhǎng)2.5 s左右,總時(shí)長(zhǎng)124 s。
將50個(gè)喇叭聲樣本和50個(gè)交通噪聲樣本分別按單個(gè)樣本進(jìn)行均分,得到相對(duì)獨(dú)立的A、B兩組數(shù)據(jù)。將A組中的80%數(shù)據(jù)作為訓(xùn)練集導(dǎo)入SVM分類器中訓(xùn)練分類器模型,剩余的20%作為驗(yàn)證集驗(yàn)證分類器模型。
信號(hào)去噪的基本思路為:首先,采用閾值法對(duì)每個(gè)IMF進(jìn)行處理;其次,對(duì)處理后的IMF和RV進(jìn)行信號(hào)疊加,得到去噪信號(hào)。閾值去噪法包括硬閾值去噪法和軟閾值去噪法,硬閾值方法可以很好地保留圖像邊緣等局部特性,而軟閾值處理可以使圖像邊緣更加平和。結(jié)合電壓互感器量測(cè)數(shù)據(jù)及其在所提方法的應(yīng)用特點(diǎn),采用軟閾值去噪法,具體步驟如下:
將B組中的50個(gè)交通噪聲樣本按式(6)信噪比的準(zhǔn)則[11],隨機(jī)添加至50個(gè)喇叭聲樣本中,獲得信噪比分別為:0、5、10、15、20、25、30 dB條件下的喇叭聲樣本組C,喇叭聲樣本在不同信噪比(signal noise ratio, SNR)下添加的噪聲一致。
(6)
式(6)中:Ps為信號(hào)的有效功率,kW;Pn為噪聲的有效功率,kW。其中,將圖1(a)中的汽車發(fā)動(dòng)機(jī)噪聲和行人對(duì)話聲以信噪比為0混合到圖1(b)中的汽車雙音喇叭噪聲后的時(shí)頻圖如圖5所示。
3.1.2 實(shí)測(cè)實(shí)驗(yàn)數(shù)據(jù)
在城市道路路口采集了帶有交通噪聲干擾的汽車?yán)嚷晿颖?0個(gè),交通噪聲樣本30個(gè),選擇采樣率16 kHz保存作為實(shí)驗(yàn)數(shù)據(jù)D組。
綜上,實(shí)驗(yàn)數(shù)據(jù)分組如表1所示。將上述數(shù)據(jù)按幀長(zhǎng)為2 048個(gè)樣點(diǎn),幀移為1 024個(gè)樣點(diǎn),以本文的方法提取特征向量。然后,以A組數(shù)據(jù)訓(xùn)練SVM分類器模型,B組數(shù)據(jù)測(cè)試分別獲得模型的喇叭聲和非喇叭聲識(shí)別效果,C組數(shù)據(jù)測(cè)試獲得喇叭聲在不同信噪比和背景條件下的識(shí)別效果,D組數(shù)據(jù)測(cè)試分別獲得實(shí)測(cè)條件下的喇叭聲和非喇叭聲識(shí)別效果。按上述進(jìn)行5次實(shí)驗(yàn),求其平均結(jié)果。
以誤報(bào)率(false alarm rate,F(xiàn)AR)、漏報(bào)率(missed alarm rate,MAR)、不同信噪比條件下的識(shí)別率及其平均識(shí)別率作為評(píng)價(jià)指標(biāo)。FAR是指系統(tǒng)將交通噪聲幀識(shí)別成喇叭聲幀占交通噪聲總幀數(shù)的比率;MAR是指系統(tǒng)將喇叭聲幀識(shí)別成交通噪聲幀占喇叭聲總幀數(shù)的比率。其中,汽車?guó)Q喇叭聲識(shí)別的準(zhǔn)確率A與漏報(bào)率的關(guān)系為
A=1-MAR
(7)
圖6為識(shí)別率隨MFCC維數(shù)的變化。從圖6可以看出,B組仿真數(shù)據(jù)的漏報(bào)率全為0,意味著系統(tǒng)能將喇叭聲全部識(shí)別出來(lái)。這一方面是因?yàn)楦蓛衾嚷暫徒煌ㄔ肼暤腗FCC特征區(qū)別比較大,另外一方面是因?yàn)橄到y(tǒng)分類器模型是由A組數(shù)據(jù)訓(xùn)練獲得,而B組與A組數(shù)據(jù)相似程度比較高導(dǎo)致。
圖6 識(shí)別率隨MFCC維數(shù)的變化Fig.6 Change of recognition rate with MFCC dimension
D組數(shù)據(jù)為城市道路采集的帶交通噪聲干擾的汽車?guó)Q喇叭聲。其漏報(bào)率隨著MFCC維數(shù)的增加,呈下降趨勢(shì),說(shuō)明通過(guò)增加梅爾濾波器組的個(gè)數(shù)可以使識(shí)別喇叭聲的準(zhǔn)確率上升。但同時(shí),兩組數(shù)據(jù)的誤報(bào)率也都在逐漸上升,使得B組仿真數(shù)據(jù)在10維MFCC處達(dá)到最佳鳴笛識(shí)別效果,其準(zhǔn)確率為100%;D組實(shí)測(cè)數(shù)據(jù)在31維處達(dá)到最佳鳴笛識(shí)別效果,其準(zhǔn)確率為89%。說(shuō)明由干凈汽車?yán)嚷曈?xùn)練的SVM分類器模型能夠識(shí)別實(shí)際道路上的喇叭噪聲,但其準(zhǔn)確率沒(méi)有仿真數(shù)據(jù)高,除了因?yàn)樵肼暩蓴_比較嚴(yán)重,還由于喇叭聲的模型庫(kù)和實(shí)際道路上的車輛鳴笛聲模型庫(kù)有所差距導(dǎo)致。
圖7是汽車?yán)嚷曉诓煌尘案蓴_及不同信噪比條件下的仿真識(shí)別效果。從圖7可以看出,隨著喇叭聲信噪比的降低,汽車?guó)Q喇叭聲的識(shí)別率均有所下降,MFCC 特征取低維數(shù)時(shí)的下降最明顯,MFCC特征提升維數(shù)后沒(méi)有出現(xiàn)識(shí)別率驟降的情況。結(jié)合圖6發(fā)現(xiàn),信噪比為0時(shí)的識(shí)別率提升了約50%的同時(shí),其誤報(bào)率也提升了約8%。說(shuō)明梅爾濾波器組個(gè)數(shù)的增加在改善低信噪比識(shí)別率的同時(shí)也在加大背景噪聲識(shí)別成喇叭聲的概率。當(dāng)信噪比在10 dB以上時(shí),B組仿真數(shù)據(jù)中的喇叭噪聲基本都能完全識(shí)別出來(lái)。
圖7 識(shí)別率隨信噪比和MFCC維數(shù)的變化Fig.7 Change of recognition rate with SNR and MFCC dimension
(1)針對(duì)汽車?yán)嚷暤闹C波特征分布特點(diǎn),提取了基于不同濾波器個(gè)數(shù)下的不同維數(shù)MFCC特征。以干凈的汽車?yán)嚷暫徒煌ㄔ肼曈?xùn)練SVM分類器模型,用兩者按不同信噪比隨機(jī)混合后的喇叭聲,驗(yàn)證了汽車?guó)Q喇叭在不同背景及不同信噪比條件下的仿真識(shí)別效果;再用實(shí)際路況中帶有交通噪聲干擾的喇叭聲驗(yàn)證了分類器模型的有效性。
(2)通過(guò)增加MFCC特征中梅爾濾波器個(gè)數(shù)及特征維數(shù)可以有效提升識(shí)別效果,信噪比越低越明顯。盡管這樣會(huì)同時(shí)增加背景噪聲被識(shí)別成喇叭聲的概率,但是可以通過(guò)控制其大小以獲得最佳識(shí)別效果。如本文中的仿真數(shù)據(jù)在10維MFCC處達(dá)到最佳鳴笛識(shí)別效果,其準(zhǔn)確率為100%;實(shí)測(cè)數(shù)據(jù)在31維處達(dá)到最佳鳴笛識(shí)別效果,其準(zhǔn)確率為89%。在違法鳴笛輔助執(zhí)法設(shè)備中,汽車?guó)Q喇叭聲識(shí)別還需結(jié)合笛聲定位和車牌識(shí)別才能實(shí)現(xiàn)完整的違法鳴笛抓拍,所以提升鳴喇叭聲識(shí)別的準(zhǔn)確率有利于該設(shè)備的運(yùn)行。
綜上所述,提出的識(shí)別方法簡(jiǎn)單有效,可以給違法鳴喇叭輔助執(zhí)法設(shè)備的實(shí)時(shí)、高效、準(zhǔn)確識(shí)別提供有力支撐。