曾 宇 戶(hù)文成
(北京市勞動(dòng)保護(hù)科學(xué)研究所 北京 100054)
近年來(lái)隨著公共場(chǎng)所安全問(wèn)題復(fù)雜性的提高,公共場(chǎng)所的異常監(jiān)控和危險(xiǎn)預(yù)警得到了越來(lái)越多的關(guān)注[1]。公共場(chǎng)所環(huán)境中的聲信號(hào)包含了大量的安全信息,異常事件的發(fā)生常會(huì)伴隨特定的異常聲。聲頻監(jiān)控系統(tǒng)用于實(shí)時(shí)公共安全監(jiān)控,所需的數(shù)據(jù)存儲(chǔ)和傳輸條件都低于視頻監(jiān)控系統(tǒng),同時(shí)也能更好地保護(hù)隱私。公共場(chǎng)所異常聲的識(shí)別作為公共場(chǎng)所聲頻監(jiān)控的關(guān)鍵技術(shù)之一,具有重要的研究意義和實(shí)用價(jià)值。
對(duì)于異常事件的聲音識(shí)別,學(xué)者們進(jìn)行了一系列的研究。韋娟等[2]對(duì)公共場(chǎng)所異常聲進(jìn)行總體平均經(jīng)驗(yàn)?zāi)B(tài)分解并提取各層信號(hào)的Mel倒譜系數(shù)(Mel-frequency cepstrum coefficient,MFCC)、短時(shí)能量和能量比,采用改進(jìn)的決策導(dǎo)向無(wú)環(huán)圖支持向量機(jī)(Support vector machine,SVM)對(duì)槍聲、爆炸聲、玻璃破碎聲、說(shuō)話聲和腳步聲進(jìn)行識(shí)別。胡濤等[3]將公共場(chǎng)所異常聲分幀后各幀的Mel 倒譜系數(shù)及其一階、二階差分按照時(shí)間先后順序沿著不同方向排列分別形成二維和一維特征圖,采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)爆炸聲、玻璃破碎聲、槍聲、警報(bào)聲、開(kāi)關(guān)門(mén)聲和哭聲進(jìn)行識(shí)別。李偉紅等[4]提出改進(jìn)的極點(diǎn)對(duì)稱(chēng)模態(tài)分解特征提取方法,采用支持向量機(jī)對(duì)爆炸聲、尖叫聲、槍聲與玻璃破碎聲進(jìn)行識(shí)別。羅森林等[5]以Mel 倒譜系數(shù)為特征,將分別使用高斯混合模型(Gaussian mixed model,GMM)和支持向量機(jī)獲得的識(shí)別結(jié)果進(jìn)行融合,對(duì)兩類(lèi)槍聲進(jìn)行識(shí)別。劉鑫錦等[6]提取巖石脆性破壞時(shí)聲信號(hào)的Mel倒譜系數(shù)、譜質(zhì)心和過(guò)零率作為特征,采用高斯混合模型對(duì)顆粒彈射和巖板劈裂情況進(jìn)行檢測(cè)。蘇國(guó)韶等[7]提取巖爆過(guò)程聲信號(hào)的波形持續(xù)時(shí)間、主頻及短時(shí)能量作為特征,基于隨機(jī)森林對(duì)顆粒彈射、巖板劈裂和塊片彈射情況進(jìn)行識(shí)別。張鐵民等[8]提取雞叫聲的短時(shí)過(guò)零率和短時(shí)能量,采用模糊神經(jīng)網(wǎng)絡(luò)對(duì)禽流感病雞進(jìn)行識(shí)別。韓磊磊等[9]提取生豬異常聲的Mel 倒譜系數(shù)及其一階、二階差分,采用支持向量機(jī)對(duì)生豬打斗聲、咳嗽聲、噴嚏聲、饑餓聲和嗆水聲進(jìn)行識(shí)別。楊元威等[10]基于KS檢驗(yàn)和ReliefF 算法對(duì)高壓斷路器故障時(shí)的聲信號(hào)進(jìn)行特征提取和選擇,采用支持向量機(jī)對(duì)線圈電源低壓、電磁鐵卡阻、合閘彈簧疲勞、脫扣延遲和傳動(dòng)阻尼增大情況進(jìn)行檢測(cè)。王豐華等[11]對(duì)變壓器噪聲信號(hào)的Mel 倒譜系數(shù)進(jìn)行主成分分析,基于降維后的特征采用矢量量化算法對(duì)變壓器鐵芯未壓緊故障進(jìn)行檢測(cè)。
公共場(chǎng)所中,火災(zāi)可能導(dǎo)致嚴(yán)重的財(cái)產(chǎn)損失和人員傷亡,煙花爆竹燃放也在國(guó)內(nèi)數(shù)百個(gè)城市中被禁止,上述研究中沒(méi)有對(duì)此兩類(lèi)安全事件中的異常聲進(jìn)行分析和識(shí)別。此外不同分類(lèi)器的模型參數(shù)設(shè)置對(duì)識(shí)別結(jié)果有影響,上述研究中鮮有對(duì)異常聲分類(lèi)器模型的參數(shù)優(yōu)化。本文針對(duì)公共場(chǎng)所異常聲的感知和識(shí)別問(wèn)題,提出一種基于貝葉斯優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別方法。提取異常聲信號(hào)的Gammatone 倒譜系數(shù)(Gammatone cepstrum coefficient,GTCC)、短時(shí)能量、倍頻程功率譜和譜質(zhì)心,經(jīng)過(guò)信息融合形成特征圖,整合公共場(chǎng)所異常聲的時(shí)域、頻域和倒譜特性。以卷積神經(jīng)網(wǎng)絡(luò)為分類(lèi)器,設(shè)計(jì)遞增的卷積核尺度和池化操作以處理不同尺度的特征,構(gòu)建批量歸一化層和丟棄層以提高網(wǎng)絡(luò)模型的泛化能力。提取該卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)和網(wǎng)絡(luò)訓(xùn)練參數(shù),基于貝葉斯優(yōu)化算法對(duì)卷積神經(jīng)網(wǎng)絡(luò)的模型參數(shù)進(jìn)行優(yōu)化,對(duì)包括火苗噼啪聲、嬰兒啼哭聲、煙花燃放聲、玻璃破碎聲和警報(bào)聲的5 種公共場(chǎng)所異常聲進(jìn)行識(shí)別。最后分析比較了基于不同的特征提取和分類(lèi)器方案得到的識(shí)別結(jié)果,并對(duì)本文方法在不同信噪比噪聲干擾下的識(shí)別效果進(jìn)行驗(yàn)證。
公共場(chǎng)所異常聲屬于環(huán)境聲,由于環(huán)境聲與語(yǔ)聲的相似性,語(yǔ)聲識(shí)別中的典型特征參數(shù)也常用于環(huán)境聲識(shí)別中。倍頻程功率譜分析是最常用的聲信號(hào)處理方法之一,倍頻程功率譜譜線少頻帶寬,符合人耳知覺(jué)頻帶低頻部分較窄、高頻部分較寬的特點(diǎn),表征了環(huán)境聲信號(hào)的聲學(xué)特性。
Mel倒譜系數(shù)是語(yǔ)聲識(shí)別和說(shuō)話人識(shí)別的有效特征之一,但其在低信噪比環(huán)境下識(shí)別效果較差。Gammatone 濾波器可以模擬人耳基底膜的時(shí)頻分析功能,在噪聲條件下具有較強(qiáng)的抗干擾性,濾波效果更好,且經(jīng)過(guò)Gammatone 濾波后的信號(hào)能夠更好增強(qiáng)目標(biāo)識(shí)別系統(tǒng)的魯棒性。將Mel 倒譜系數(shù)計(jì)算中的濾波器替換為Gammatone 濾波器得到的Gammatone倒譜系數(shù)已應(yīng)用于聲音識(shí)別中,在不同背景噪聲環(huán)境下取得比Mel倒譜系數(shù)更好的識(shí)別效果[12-14]。Gammatone濾波器的時(shí)域表達(dá)式如下:
式(1)中,A和a分別為濾波器增益和階數(shù),U(t)為階躍函數(shù),fi和φi分別為中心頻率和相位,Bw(fi)為等效矩陣帶寬函數(shù), 其表達(dá)式為Bw(fi)=24.7+0.108fi。提取Gammatone 倒譜系數(shù)時(shí),首先對(duì)聲信號(hào)進(jìn)行加窗分幀,對(duì)每幀信號(hào)進(jìn)行快速傅里葉變換,然后通過(guò)Gammatone 濾波器組進(jìn)行濾波,最后進(jìn)行離散余弦變換。
異常聲往往是突發(fā)的,瞬間爆發(fā)力較強(qiáng),能量隨時(shí)間變化比較明顯。聲信號(hào)的短時(shí)能量是信號(hào)在一幀時(shí)間內(nèi)的能量值,在一定程度上能反映出信號(hào)在時(shí)域的幅度變化情況。對(duì)于聲信號(hào)xi(n),其短時(shí)能量為
式(2)中,i為幀號(hào),N為幀長(zhǎng)。
譜質(zhì)心是描述音色屬性的重要信號(hào)特征之一。它是一定頻率范圍內(nèi)通過(guò)能量加權(quán)平均的頻率,關(guān)聯(lián)著信號(hào)的基頻特性;同時(shí)它也體現(xiàn)了聲音的明亮度,聲音明亮度隨譜質(zhì)心增加而增高。對(duì)于聲信號(hào)xi(n),其譜質(zhì)心為
式(3)中,i為幀號(hào),K為離散傅里葉變換的長(zhǎng)度,Sik為頻率fk處的功率譜值。
本文提取公共場(chǎng)所異常聲的Gammatone 倒譜系數(shù)、倍頻程功率譜、短時(shí)能量和譜質(zhì)心,將這些特征組合成特征向量,即:
式(4)中,V為公共場(chǎng)所異常聲特征向量,GTCC為Gammatone 倒譜系數(shù),E為短時(shí)能量,Oct為倍頻程功率譜,SC為譜質(zhì)心,Nm、Ne、No和Nc分別為Mel 倒譜系數(shù)、短時(shí)能量、倍頻程功率譜和譜質(zhì)心的個(gè)數(shù)。
二維的特征圖所包含的信息量大于一維的特征向量,以特征圖作為分類(lèi)器的輸入會(huì)增加單次分類(lèi)器訓(xùn)練所包含的信息量,提高訓(xùn)練效率。常用的特征圖生成方法包括短時(shí)傅里葉變換、Mel 譜圖等[3,15-16],短時(shí)傅里葉變換和Mel譜圖分別表征了信號(hào)的頻域特性和倒譜特性,但沒(méi)有體現(xiàn)頻域特性和Mel 倒譜特性的交叉效應(yīng)。本文整合公共場(chǎng)所異常聲的時(shí)域特性、頻域特性和倒譜特性,構(gòu)建公共場(chǎng)所異常聲的特征圖表示,步驟如下:
(1)對(duì)聲頻文件進(jìn)行處理,如果聲頻文件采樣率不同或長(zhǎng)度不同則進(jìn)行重采樣并裁剪到同樣長(zhǎng)度,之后得到各聲頻文件的時(shí)域信號(hào)Si(n),式中i為聲頻文件標(biāo)識(shí)號(hào);
(2)對(duì)時(shí)域信號(hào)Si(n)進(jìn)行分幀加窗,幀信號(hào)時(shí)長(zhǎng)為10~30 s,得到分幀時(shí)域信號(hào)sij(m),式中j為幀標(biāo)識(shí)號(hào);
(3)計(jì)算時(shí)域信號(hào)Si(n)的第j個(gè)分幀信號(hào)的特征向量Vij,該特征向量長(zhǎng)度為28,包含13 個(gè)Gammatone 倒譜系數(shù)、13 個(gè)倍頻程功率譜、1 個(gè)短時(shí)能量和1個(gè)譜質(zhì)心;
(4)生成時(shí)域信號(hào)Si(n)的特征矩陣:
式(5)中,Pi為特征矩陣,k和j分別為特征矩陣Pi的行標(biāo)識(shí)和列標(biāo)識(shí),Nf為幀數(shù);
(5)對(duì)時(shí)域信號(hào)Si(n)的特征矩陣Pi進(jìn)行歸一化,得到歸一化的特征矩陣,即:
(6)保存時(shí)域信號(hào)Si(n)的歸一化特征矩陣作為該信號(hào)對(duì)應(yīng)的公共場(chǎng)所異常聲聲頻文件的特征圖。
卷積神經(jīng)網(wǎng)絡(luò)是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的多層神經(jīng)網(wǎng)絡(luò),是研究和應(yīng)用最廣泛的深度神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)的局部連接、權(quán)值共享等特性使之可以有效地降低網(wǎng)絡(luò)的復(fù)雜度,減少訓(xùn)練參數(shù)的數(shù)目,使模型對(duì)平移、扭曲、縮放具有一定程度的不變性,并具有強(qiáng)魯棒性和容錯(cuò)能力,且也易于訓(xùn)練和優(yōu)化[17-18]。
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)由輸入層、卷積層、激活層、池化層、全連接層及輸出層構(gòu)成,此外還可以增加批量歸一化層和丟棄層以進(jìn)一步強(qiáng)化模型的泛化能力。卷積層包含多個(gè)卷積核,神經(jīng)元通過(guò)卷積核與上一層的局部區(qū)域相關(guān)聯(lián),每個(gè)卷積核以局部權(quán)值矩陣的形式遍歷作為輸入的特征圖,進(jìn)行內(nèi)積運(yùn)算,同一卷積核實(shí)現(xiàn)權(quán)值共享,加上偏置完成特征映射,即:
式(8)中,var為方差,dimW1和dimW2為卷積核的兩個(gè)維度,Nch為輸入通道數(shù)。激活層實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)對(duì)非線性特征的檢測(cè),典型的激活函數(shù)有sigmoid、tanh 和ReLU 等,其中ReLU 激活函數(shù)是最為常用的,其形式為
池化層旨在通過(guò)降低特征映射的分辨率來(lái)實(shí)現(xiàn)移位不變性,典型的池化類(lèi)型有最大池化、均值池化等,其中最大池化函數(shù)為
式(10)中,X是維度為dimP1* dimP2的矩陣,dimP1和dimP2為池化窗口的尺度。全連接層與卷積層類(lèi)似,差別在于該層的所有神經(jīng)元均與前一層的所有神經(jīng)元相連,即:
式(12)中,xi為輸入的第i個(gè)特征映射圖,yi為xi規(guī)范化處理的結(jié)果,γ為縮放系數(shù),β為偏移,γ和β會(huì)隨著網(wǎng)絡(luò)訓(xùn)練而自動(dòng)變化,γ和β的初值分別為1 和0,μb和σb為數(shù)據(jù)的均值和方差,ε為一個(gè)非常小的數(shù),旨在提高方差σb極小時(shí)歸一化處理的穩(wěn)定性。丟棄層會(huì)按照一定比例將部分輸入數(shù)據(jù)賦值為0,從而避免了所有的神經(jīng)元同步優(yōu)化其權(quán)重以致收斂到同樣的結(jié)果,防止過(guò)擬合的發(fā)生。
本文設(shè)計(jì)了包含多個(gè)卷積層和池化層的卷積神經(jīng)網(wǎng)絡(luò),采用遞增的卷積核設(shè)置和池化操作處理不同尺度的特征,并增加批量歸一化層和丟棄層以避免過(guò)擬合,該網(wǎng)絡(luò)的結(jié)構(gòu)如下:
(1)輸入層;
(2)卷積層,卷積核數(shù)量為NC,卷積核的兩個(gè)維度相等,均為dimW;
(3)批量歸一化層;
(4)激活層,激活函數(shù)為ReLU函數(shù);
(5)池化層,池化類(lèi)型為最大池化,池化窗口的兩個(gè)維度分別為1和dimP;
(6)卷積層,卷積核數(shù)量為NC,卷積核的兩個(gè)維度相等,都為2*dimW;
(7)批量歸一化層;
(8)激活層,激活函數(shù)為ReLU函數(shù);
(9)池化層,池化類(lèi)型為最大池化,池化窗口的兩個(gè)維度分別為1和dimP;
(10)卷積層,卷積核數(shù)量為NC,卷積核的兩個(gè)維度相等,都為4*dimW;
(11)批量歸一化層;
(12)激活層,激活函數(shù)為ReLU函數(shù);
(13)丟棄層,丟棄率為rDrop;
(14)全連接層,神經(jīng)元數(shù)為分類(lèi)數(shù);
(15)輸出層。
卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),采用隨機(jī)梯度下降法對(duì)卷積層和全連接層的權(quán)值和偏差、批量歸一化層的縮放系數(shù)和偏移等參數(shù)進(jìn)行調(diào)整,隨機(jī)梯度下降法可表示為
式(13)中,l為迭代數(shù),θ為調(diào)整的向量,W為權(quán)值向量,rLearn為學(xué)習(xí)率,momD為隨機(jī)梯度下降動(dòng)量,L2Reg為L(zhǎng)2正則化強(qiáng)度,E(θ)為損失函數(shù)。
本文選取4 個(gè)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)NC、 dimW、dimP、rDrop和3個(gè)網(wǎng)絡(luò)訓(xùn)練參數(shù)rLearn、momD、L2Reg作為卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)變量。
貝葉斯優(yōu)化是一種全局優(yōu)化算法,通過(guò)設(shè)計(jì)恰當(dāng)?shù)母怕蚀砟P秃筒杉瘮?shù),貝葉斯優(yōu)化框架只需經(jīng)過(guò)少數(shù)次目標(biāo)函數(shù)評(píng)估即可獲得理想解,非常適用于求解目標(biāo)函數(shù)表達(dá)式未知、非凸、多峰和評(píng)估代價(jià)高昂的復(fù)雜優(yōu)化問(wèn)題[19-20]。
貝葉斯優(yōu)化算法以貝葉斯定理為理論基礎(chǔ),該定理表示為
式(14)中,f為未知的目標(biāo)函數(shù)或參數(shù)模型中的參數(shù),D1:t={(x1,y1),(x2,y2),···,(xt,yt)}為已評(píng)估點(diǎn)集合,xt為決策向量,yt=f(xt)+ε為觀測(cè)值,ε為觀測(cè)誤差,p(D1:t|f)為y的似然分布,p(D1:t)為邊際化f的邊際似然分布,p(f)為f的先驗(yàn)概率,p(f|D1:t)為f的后驗(yàn)概率,后驗(yàn)概率分布是通過(guò)已評(píng)估點(diǎn)集合對(duì)先驗(yàn)進(jìn)行修正后未知目標(biāo)函數(shù)或參數(shù)模型中的參數(shù)的置信度。貝葉斯優(yōu)化算法使用概率代理模型擬合真實(shí)的目標(biāo)函數(shù),根據(jù)采集函數(shù)選擇下一個(gè)評(píng)估點(diǎn)。常用的概率代理模型包括貝塔-伯努利模型、線性模型、高斯過(guò)程、隨機(jī)森林等,其中高斯過(guò)程具有高度的靈活性、可擴(kuò)展性和可分析性,是貝葉斯優(yōu)化中應(yīng)用最廣泛的概率代理模型。高斯過(guò)程是多元高斯概率分布的范化,由均值函數(shù)和半正定的協(xié)方差函數(shù)構(gòu)成,即:
式(15)中,m(x)為均值函數(shù),k(x,x′)為協(xié)方差函數(shù)。采用高斯過(guò)程對(duì)一系列離散數(shù)據(jù)對(duì)(xi,yi)進(jìn)行函數(shù)擬合時(shí),m(x)通常設(shè)置為0,k(x,x′)通常采用Matern協(xié)方差函數(shù),即:
式(16)中,r為x和x′的歐拉距離,σf為特征偏差,σl為特征長(zhǎng)度,σf和σl會(huì)隨著高斯過(guò)程擬合而自動(dòng)變化,σl的初值為xi的標(biāo)準(zhǔn)差,σf的初值為yi的標(biāo)準(zhǔn)差除以。常用的采集函數(shù)生成策略包括基于提升概率的策略、基于提升概率和提升量的策略、置信邊界策略、基于信息的策略等,基于提升概率和提升量的策略構(gòu)造的采集函數(shù)如下:
式(17)中,αt(x;D1:t)為采集函數(shù),v*為當(dāng)前最優(yōu)函數(shù)值,φ(x)為標(biāo)準(zhǔn)正態(tài)分布累積密度函數(shù),μt(x)和σt(x)分別為均值和標(biāo)準(zhǔn)差。
本文基于貝葉斯優(yōu)化算法對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的7 個(gè)設(shè)計(jì)變量進(jìn)行優(yōu)化,概率代理模型選用高斯過(guò)程模型,采集函數(shù)通過(guò)基于提升概率和提升量的策略構(gòu)造,優(yōu)化變量的約束條件如表1所示。
表1 優(yōu)化變量的約束條件Table 1 Constraints on optimizing variables
本文所用的異常聲來(lái)源于Freesound 網(wǎng)站,包括火苗噼啪聲、玻璃破碎聲、嬰兒啼哭聲、煙花燃放聲和警報(bào)聲,聲音文件的樣本數(shù)為1000 個(gè),其中每類(lèi)聲音文件的樣本數(shù)均為200,聲音文件長(zhǎng)度均為5 s,采樣頻率均為44.1 kHz。為了比較不同特征提取和分類(lèi)器方案的識(shí)別效果,選取Mel 倒譜系數(shù)(MFCC)、Mel 倒譜系數(shù)+Gammatone 倒譜系數(shù)(MFCC+GTCC)作為特征提取的比較對(duì)象,選取高斯混合模型(GMM)、支持向量機(jī)(SVM)作為分類(lèi)器的比較對(duì)象,高斯混合模型和支持向量機(jī)也都采用貝葉斯優(yōu)化進(jìn)行模型參數(shù)優(yōu)化,高斯混合模型的優(yōu)化參數(shù)為階數(shù),支持向量機(jī)的優(yōu)化參數(shù)為懲罰系數(shù)和徑向基核尺度,優(yōu)化過(guò)程最長(zhǎng)時(shí)間均為20 h。訓(xùn)練集、驗(yàn)證集和預(yù)測(cè)集的分割比例為6 :2 :2,即訓(xùn)練集、驗(yàn)證集和預(yù)測(cè)集中的樣本數(shù)分別為600、200和200。每類(lèi)異常聲的200個(gè)樣本中,120個(gè)樣本用于訓(xùn)練分類(lèi)器,40 個(gè)樣本用于貝葉斯優(yōu)化分類(lèi)器參數(shù),40個(gè)樣本用于預(yù)測(cè)。
每類(lèi)異常聲識(shí)別結(jié)果的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率、召回率、F值,其計(jì)算表達(dá)式為
式(18)中,Pi、Ri和Fi分別為第i種異常聲識(shí)別的準(zhǔn)確率、召回率和F 值,TPi為預(yù)測(cè)集中第i種異常聲被正確識(shí)別出的數(shù)量,TPFPi為預(yù)測(cè)集中被預(yù)測(cè)為第i種異常聲的數(shù)量,TPFNi為預(yù)測(cè)集中第i種異常聲的數(shù)量。
本文的異常聲識(shí)別問(wèn)題為多分類(lèi)問(wèn)題,以異常聲識(shí)別的準(zhǔn)確率、召回率和F 值分別求均值所得到的平均準(zhǔn)確率、平均召回率和平均F 值作為異常聲識(shí)別結(jié)果的綜合評(píng)價(jià)指標(biāo)。
不同特征提取和分類(lèi)器方案的異常聲識(shí)別結(jié)果如圖1~3所示,本文方法對(duì)不同類(lèi)別異常聲的識(shí)別結(jié)果如圖4所示。本文方法對(duì)5 種異常聲識(shí)別的平均準(zhǔn)確率、平均召回率和平均F值均為最高,分別為91.3%、91.5%和91.0%,其識(shí)別效果優(yōu)于其他特征提取和分類(lèi)器方案。主要原因在于本文方法整合了聲信號(hào)的時(shí)域、頻域和倒譜域特征,與單獨(dú)使用Mel 倒譜特征或整合使用Mel 和Gammatone 兩種倒譜特征相比,可以更全面地表征公共場(chǎng)所異常聲的特性。此外本文方法的分類(lèi)器通過(guò)遞增的卷積核尺度和池化操作設(shè)計(jì)可以處理公共場(chǎng)所異常聲不同尺度的特征,而文中的高斯混合模型和支持向量機(jī)分類(lèi)器在多尺度特征分析方面有所不足。
圖1 異常聲識(shí)別平均準(zhǔn)確率Fig.1 Average precise ratio of abnormal sound recognition
圖2 異常聲識(shí)別平均召回率Fig.2 Average recall ratio of abnormal sound recognition
圖3 異常聲識(shí)別平均F 值Fig.3 Average F score of abnormal sound recognition
為了考察本文方法在噪聲干擾下的識(shí)別效果,在聲音文件中加入信噪比分別為-10 dB、-6 dB、0 dB、10 dB 的高斯白噪聲,本文方法在不同信噪比噪聲干擾下的識(shí)別結(jié)果如圖5所示。識(shí)別結(jié)果隨著信噪比的增大而提高,信噪比為-10 dB 時(shí)平均準(zhǔn)確率、平均召回率和平均F 值分別為80.1%、80.0%和80.0%,本文方法在噪聲干擾下識(shí)別效果較好。主要原因在于本文方法的特征提取部分用抗干擾性更好、魯棒性更強(qiáng)的Gammatone 倒譜代替Mel 倒譜,而批量歸一化層和丟棄層的構(gòu)建也增強(qiáng)了分類(lèi)器的泛化能力。因此本文方法可以有效地對(duì)火苗噼啪聲、玻璃破碎聲、嬰兒啼哭聲、煙花燃放聲和警報(bào)聲5種異常聲進(jìn)行識(shí)別。
圖4 本文方法的異常聲識(shí)別結(jié)果Fig.4 Results of abnormal voice recognition based on my method
圖5 本文方法在噪聲干擾下的異常聲識(shí)別結(jié)果Fig.5 Results of abnormal voice recognition under different SNR
本文針對(duì)公共場(chǎng)所異常聲的感知和識(shí)別問(wèn)題,提出一種基于貝葉斯優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別方法。提取聲信號(hào)的Gammatone倒譜系數(shù)、倍頻程功率譜、短時(shí)能量和譜質(zhì)心,組合成聲信號(hào)的特征圖。設(shè)計(jì)了包含多個(gè)卷積層和池化層的卷積神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器,采用遞增的卷積核設(shè)置和池化操作處理不同尺度的特征,并增加批量歸一化層和丟棄層以避免過(guò)擬合。采用高斯過(guò)程模型和基于提升概率和提升量的策略構(gòu)建概率代理模型和采集函數(shù),基于貝葉斯優(yōu)化算法對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì)變量進(jìn)行優(yōu)化,對(duì)包括火苗噼啪聲、嬰兒啼哭聲、煙花燃放聲、玻璃破碎聲和警報(bào)聲的5 種公共場(chǎng)所異常聲進(jìn)行識(shí)別。該方法的識(shí)別結(jié)果與基于MFCC 或MFCC+GTCC的特征提取、基于GMM 或SVM 的分類(lèi)器得到的識(shí)別效果進(jìn)行比較,結(jié)果表明該方法的識(shí)別效果優(yōu)于其他特征提取和分類(lèi)器方案的識(shí)別效果。最后分析了該方法在不同信噪比噪聲干擾下的識(shí)別結(jié)果,驗(yàn)證了該方法的有效性。