李芳足 羅麗燕 王 玫,2*
1(桂林電子科技大學(xué)認(rèn)知無線電與信息處理教育部重點實驗室 廣西 桂林 541004) 2(桂林理工大學(xué)信息科學(xué)與工程學(xué)院 廣西 桂林 541007)
視頻監(jiān)控在公共安全管理中發(fā)揮著重要作用,為保護人民生命財產(chǎn)安全提供了有力支撐。但由于室外環(huán)境下視頻數(shù)據(jù)的采集過程易受環(huán)境因素的干擾,且視頻采集設(shè)備通常布點固定,所以會出現(xiàn)“監(jiān)控盲區(qū)”的問題。單純地以增加視頻采集設(shè)備為代價解決“監(jiān)控盲區(qū)”問題,無疑會較大地增加設(shè)備成本與存儲成本。因此,如何在低成本的條件下實現(xiàn)監(jiān)控?zé)o死角覆蓋成為了急需解決的問題。而聲傳播的全向性、聲接收設(shè)備成本較低等優(yōu)點使得基于聲的監(jiān)控手段得到了廣泛關(guān)注,例如針對道路交通環(huán)境下的異常聲事件監(jiān)測[1]、針對動物聲識別的動物習(xí)性和生活區(qū)域監(jiān)測[2]、針對地鐵環(huán)境的異常聲事件監(jiān)測[3]等。
環(huán)境聲事件識別是指對采集的環(huán)境聲數(shù)據(jù)進行分析進而識別出其中包含的聲學(xué)事件的技術(shù)。經(jīng)過近年來對該技術(shù)的研究,研究人員借鑒語音識別框架總結(jié)出一套環(huán)境聲事件識別框架。該框架包含兩個重要部分:聲學(xué)特征提取和分類器識別[4]。早期的環(huán)境聲事件識別的研究中,由于識別任務(wù)較為簡單加之計算機的算力不足,常使用K近鄰算法(K-Nearest Neighbor,KNN)[5]、支持向量機(Support Vector Machines,SVMs)[6-7]和隨機森林算法(Random Forest,RF)[8]等作為分類器,梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCCs)作為聲學(xué)特征。但是隨著將環(huán)境聲事件識別投入實際場景應(yīng)用的需求增加,環(huán)境聲事件識別技術(shù)所面臨的應(yīng)用場景更加復(fù)雜多變,上述分類器由于對復(fù)雜數(shù)據(jù)的建模能力有限,無法滿足當(dāng)前的環(huán)境聲事件識別的要求。
近些年,隨著計算機的算力提升,深度學(xué)習(xí)受到環(huán)境聲事件識別領(lǐng)域研究人員的廣泛關(guān)注,目前主流的環(huán)境聲事件識別技術(shù)常使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[9-12]作為分類器,對數(shù)梅爾譜(Log-mel spectrogram,Log-mel)作為聲學(xué)特征,卷積神經(jīng)網(wǎng)絡(luò)因具有強大的特征提取能力和復(fù)雜函數(shù)建模能力而使得環(huán)境聲事件識別性能得到有效的提升。然而在機器學(xué)習(xí)領(lǐng)域中,數(shù)據(jù)、特征和分類算法是決定機器學(xué)習(xí)性能的關(guān)鍵因素,文獻(xiàn)[9-12]盡管采用了不同的卷積策略和不同的激活函數(shù)提升了分類算法的性能,但其只采用Log-mel特征作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,使得環(huán)境聲事件識別性能受限。針對這個問題,許多研究人員對多特征融合進行了調(diào)研,并指出融合特征的表現(xiàn)要優(yōu)于單一特征[13],例如文獻(xiàn)[2]將投影特征和局部二元模式變化特征進行融合從而完成了低信噪比環(huán)境下動物聲的自動識別任務(wù)。文獻(xiàn)[14]融合梅爾頻率倒譜系數(shù)(MFCC)和Gammatone倒譜系數(shù)(GFCC)解決了有噪聲環(huán)境下的說話人識別問題。然而上述文獻(xiàn)的特征融合方式均采用前融合方式(early fusion-based method),盡管此類融合方式已經(jīng)取得一定成效,但是并不適合于卷積神經(jīng)網(wǎng)絡(luò),因為這種融合方式存在如下缺陷:單位或尺度不同的兩種特征拼接在一起會使得融合特征存在內(nèi)部數(shù)值差異較大以及產(chǎn)生無規(guī)律的拼接邊界,從而影響卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。文獻(xiàn)[13,15]使用不同的聲學(xué)特征對不同的模型進行訓(xùn)練,然后將訓(xùn)練好的模型使用DS證據(jù)理論(Dempster-Shafer evidence theory)進行融合,經(jīng)Urbansound8K、ESC-10和ESC-50數(shù)據(jù)集評估結(jié)果表明基于DS證據(jù)理論的后融合方式(late fusion-based method)具有較好的識別表現(xiàn)。這種基于DS證據(jù)理論的后融合方式盡管避免了前融合方式帶來的弊端,但是需要對兩個模型分開訓(xùn)練使得識別方法更繁瑣并且無法保證特征進行有效的融合。因此,尋找一種適合卷積神經(jīng)網(wǎng)絡(luò)的特征融合方式成為必要。
為解決上述問題,本文作出如下貢獻(xiàn):(1) 提出一種基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架,該框架的核心是為MFCCs特征和Log-mel特征匹配合適的卷積和池化策略。(2) 通過實景實驗,探索了該融合框架在實際場景中應(yīng)用的可行性。
聲學(xué)特征是影響環(huán)境聲事件識別性能的重要因素,不同類型的聲學(xué)特征可以從不同角度描述聲音信號,該融合框架選擇MFCCs特征和Log-mel特征作為融合對象,兩種特征提取流程如圖1所示。Log-mel特征是經(jīng)過梅爾濾波器過濾后的頻譜特征,符合人耳的聽覺特性,描述了聲音信號頻譜的全局信息,被廣泛應(yīng)用于環(huán)境聲事件識別和聲場景識別中;MFCCs特征是Log-mel特征經(jīng)過離散余弦變換之后得到的倒譜特征,該特征反映了信號的倒譜特征,被廣泛應(yīng)用于語音識別和說話人識別中。圖2是對汽車鳴笛聲、槍聲和尖叫聲分別提取Log-mel特征和MFCCs特征得到的特征圖,可以看出,Log-mel特征圖可以更直觀地看到三種聲音的區(qū)別,在圖像上更具辨識度,而MFCCs特征由于只保留了低頻部分的譜包絡(luò)信息無法直觀地分辨出三種聲音。對這兩種特征進行融合不僅可以從全局的頻譜信息中對聲音信號進行區(qū)分,還可以通過低頻的包絡(luò)信息對特征進行補充,有效地提高了特征的描述能力和抗噪能力。除此之外,Log-mel特征是MFCCs特征的中間產(chǎn)物,同時提取這兩種特征時不會增加額外的計算消耗,可以滿足在實際應(yīng)用中對特征提取的實時性要求,因此選擇這兩種聲學(xué)特征來描述環(huán)境聲信號。兩種特征的提取步驟如下[16]。
圖1 MFCCs和Log-mel特征提取流程
圖2 Log-mel和MFCCs特征圖
(1) 分幀和加窗:將一段聲音信號分為一系列重疊的短幀s(n),幀長設(shè)為1 024,幀移設(shè)為512。然后對幀信號s(n)加漢明窗ω(n)來減輕邊界效應(yīng),漢明窗ω(n)為:
(1)
式中:N為總的采樣點數(shù)。
(2) 快速傅里葉變換:進行快速傅里葉變換(Fast Fourier Transform,FFT)得到其復(fù)數(shù)譜。假設(shè)輸入信號為x(n),該信號的離散傅里葉變換(Discrete Fourier Transform,DFT)公式為:
(2)
式中:N表示進行DFT變換的點數(shù);X(k)表示第k個頻率點的值。然后將得到的復(fù)數(shù)譜取模平方得到功率譜。
(3) 梅爾濾波器濾波:將功率譜通過一組梅爾濾波器,即:
(3)
式中:Hm(k)為梅爾濾波器組;M為濾波器組中三角濾波器的數(shù)量,取M=40。梅爾濾波器組計算公式為:
(4)
式中:f(m)為第m個三角濾波器的中心頻率,1≤m≤M。
然后將梅爾頻譜取對數(shù),得到對數(shù)梅爾譜特征。
(4) 離散余弦變換:對數(shù)梅爾譜做離散余弦變換得到MFCCs系數(shù),即:
(5)
本文取前12個系數(shù)作為最終的MFCCs特征,即L=12。
不同聲學(xué)特征的描述能力不同,經(jīng)過有效的融合可以極大地提高環(huán)境聲事件識別的性能,本文采用基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架,通過雙輸入方式為Log-mel和MFCCs匹配不同的卷積和池化策略,然后通過展平和拼接操作對提取到的高階特征進行融合。同時,使用Batch Normalization、正則化、Dropout等技巧提升了網(wǎng)絡(luò)的訓(xùn)練速度以及泛化能力。
本文借鑒經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)[9,17]和BP神經(jīng)網(wǎng)絡(luò),設(shè)計了如圖3所示的雙輸入卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)有兩條輸入并分別使用MFCCs特征和Log-mel特征作為輸入數(shù)據(jù),其數(shù)據(jù)維度分別為Xmfcc∈R12×80、Xlogmel∈R40×80。詳細(xì)的模型結(jié)構(gòu)描述如下。
圖3 雙輸入卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在前向傳播過程中,每次輸入Xmfcc和Xlogmel,數(shù)據(jù)從前一層網(wǎng)絡(luò)流向下一層網(wǎng)絡(luò),直到輸出層得到分類結(jié)果,并且前一層流向下一層網(wǎng)絡(luò)的數(shù)據(jù)需經(jīng)過非線性映射F(·|Θ),從輸入層Xmfcc和Xlogmel到Max-pool2和Max-pool4的操作分別為:
Zmax-pool2=F(Xmfcc|Θ)=
fl(…f2(f1(Xmfcc|θ1)|θ2)|θl)l=4
(6)
Zmax-pool4=F(Xlogmel|Θ)=
fl(…f2(f1(Xlogmel|θ1)|θ2)|θl)l=4
(7)
式中:fl(·|θl)表示對第l層網(wǎng)絡(luò)的操作,例如l∈{Conv.1,Conv.2,Conv.3,Conv.4}為卷積層,其卷積運算為:
Zl=fl(Xl|θl)=h(W*Xl+b),θl=[W,b]
(8)
式中:Xl為輸入的三維張量;W為卷積核;*表示卷積操作;b為偏置向量;h(·)表示激活函數(shù)。然后在每層卷積層后接最大池化層l∈{Max-pool.1,Max-pool.2,Max-pool.3,Max-pool.4},用來減小特征映射的維度和提升訓(xùn)練速度。
Zconcatenate=concatanate(Zmax-pool2,Zmax-pool4)
(9)
最后,將融合后的一維張量與輸出層進行全連接,操作為:
Zl=fl(Xl|θl)=h(WXl+b),θl=[W,b]
(10)
式中:Xl表示Concatenate層輸出的一維張量;W表示權(quán)重;b為偏置參數(shù);h(·)表示激活函數(shù)。
基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合方式可歸為后融合方式。而前融合方式是在卷積神經(jīng)網(wǎng)絡(luò)輸入前對聲學(xué)特征進行如圖4所示的操作。這種融合方式會存在如下缺點:單位或尺度不同的兩種特征拼接在一起會使得融合特征存在內(nèi)部數(shù)值差異較大以及產(chǎn)生無規(guī)律的拼接邊界的問題,從而干擾卷積核更新有效的權(quán)值,影響卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。針對這個缺點,基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架的優(yōu)勢在于為不同的特征匹配不同的卷積和池化策略,充分發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,最后將得到高階特征進行融合并輸送到Softmax層,對提取到的高階特征進行選擇和非線性擬合,極大地提高了網(wǎng)絡(luò)的分類性能。
圖4 以前融合方式融合Log-mel和MFCCs
本文提出的卷積神經(jīng)網(wǎng)絡(luò)有兩個特點:(1) 雙輸入結(jié)構(gòu),不同的輸入經(jīng)過不同的卷積層和池化層,充分發(fā)揮不同特征的描述能力,從而提高網(wǎng)絡(luò)的分類性能;(2) 無額外的全連接層,這種結(jié)構(gòu)可以有效地減少模型的參數(shù)和降低模型的復(fù)雜度,提高模型的泛化能力[18]。具體的網(wǎng)絡(luò)參數(shù)設(shè)置如下。
(1) Conv.1和Conv.2:這兩層卷積層均使用40個3×3的卷積核,卷積核的滑動步長為2。這種小尺寸卷積核用于提取MFCCs特征圖中的局部高階特征并且有效地減少了模型的參數(shù)。然后將卷積核的輸出用修正線性單元(Rectified Linear Unit, ReLU)[19]進行非線性映射,其映射關(guān)系為:
f(x)=max(0,x)
(11)
同時,在每個卷積核和激活函數(shù)之間引入Batch Normalization技術(shù)[20],用來提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練的速度和穩(wěn)定性。
(2) Conv.3和Conv.4:這兩層卷積層均使用40個5×5的卷積核用于提取Log-mel特征圖的深層特征,卷積核滑動步長為2,同樣采用ReLU作為激活函數(shù)并且在激活函數(shù)前引入Batch Normalization技術(shù)。
(3) Max-pool.1和Max-pool.2:這兩層池化層均采用2×2的最大池化濾波器來下采樣上層輸出,以達(dá)到減小輸出數(shù)據(jù)的尺寸和特征選擇的目的。
(4) Max-pool.3和Max-pool.4:這兩層池化層均采用3×3的最大池化濾波器。
為了進一步提高模型的泛化能力,本模型在輸出層前添加概率為0.5的Dropout機制,即在每批次的訓(xùn)練過程中,隨機地讓網(wǎng)絡(luò)中的某些隱藏層節(jié)點的權(quán)重暫時失效,通過Dropout機制可以減輕網(wǎng)絡(luò)節(jié)點之間的聯(lián)合適應(yīng)性,防止網(wǎng)絡(luò)發(fā)生過擬合現(xiàn)象[21]。此外,網(wǎng)絡(luò)還使用了L2參數(shù)范數(shù)懲罰,使得權(quán)重更加接近原點,防止過擬合[21],即通過向目標(biāo)函數(shù)添加一個正則項:
(12)
式中:向量w表示所有應(yīng)受范數(shù)懲罰影響的權(quán)重;向量θ表示所有參數(shù)(包括w和無須正則化的參數(shù))。
針對多分類任務(wù),本模型使用目標(biāo)函數(shù)-分類交叉熵?fù)p失(Categorical Cross-entropy)來衡量當(dāng)前訓(xùn)練得到的概率分布與真實分布之間的距離,交叉熵?fù)p失函數(shù)定義為:
C=-∑ylog(a)
(13)
式中:y表示期望輸出;a表示模型得到的輸出,而a=σ(z),其中σ(·)表示激活函數(shù),z=∑WX+b。輸出層的激活函數(shù)使用Softmax函數(shù),即每個神經(jīng)元的輸出映射為:
(14)
而且要保證:
(15)
式中:J為輸出層神經(jīng)元個數(shù),要求與預(yù)定義的類別數(shù)量保持一致。
在做反向傳播時,采用Adam[22]優(yōu)化器來訓(xùn)練網(wǎng)絡(luò),Adam是一種學(xué)習(xí)率自適應(yīng)的優(yōu)化算法,它采用了偏置修正,修正從原點初始化的一階矩(動量項)和(非中心的)二階矩的估計,使得其對超參數(shù)的選擇更魯棒[20]。
實驗使用公開的環(huán)境聲數(shù)據(jù)集Google AudioSet[23],該數(shù)據(jù)集是目前聲音種類最豐富、數(shù)量最多的聲音數(shù)據(jù)集,常用于評估環(huán)境聲事件識別方法。本文從該數(shù)據(jù)集中選取了三種比較典型的環(huán)境聲:槍聲、尖叫聲和汽車鳴笛聲,每種類別的聲音樣本數(shù)量均為900余條,每條聲音樣本均采用44.1 kHz采樣和16 bits位深度編碼為WAV格式。然后按照7∶3將聲音樣本隨機劃分為訓(xùn)練集和測試集。
本實驗使用公開的環(huán)境聲數(shù)據(jù)集對如下十種環(huán)境聲事件識別方法進行評估對比。
方法一:使用文獻(xiàn)[11]中的識別方法作為Baseline方法,該方法使用對數(shù)梅爾譜作為聲學(xué)特征,使用卷積神經(jīng)網(wǎng)絡(luò)作為分類算法。
方法二:采用MFCCs作為聲學(xué)特征,單輸入卷積神經(jīng)網(wǎng)絡(luò)作為分類器,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。其中卷積層和池化層結(jié)構(gòu)與本文設(shè)計的雙輸入卷積神經(jīng)網(wǎng)絡(luò)中關(guān)于MFCCs輸入部分的卷積層和池化層結(jié)構(gòu)保持一致,在Flatten層與輸出層之間添加一層全連接層。
圖5 以MFCCs特征作為輸入的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
方法三:采用Log-mel作為聲學(xué)特征,單輸入卷積神經(jīng)網(wǎng)絡(luò)作為分類器,其結(jié)構(gòu)如圖6所示。該網(wǎng)絡(luò)中卷積層和池化層與本文設(shè)計的雙輸入卷積神經(jīng)網(wǎng)絡(luò)中有關(guān)Log-mel輸入部分中的卷積層和池化層結(jié)構(gòu)保持一致,同樣在Flatten與輸出層之間添加一層全連接層。
圖6 以Log-mel特征作為輸入的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
方法四:聲學(xué)特征采用前融合方式融合MFCCs特征與Log-mel特征,分類器采用K近鄰算法。
方法五:聲學(xué)特征采用前融合方式融合MFCCs特征與Log-mel特征,分類器采用支持向量機算法。
方法六:聲學(xué)特征采用前融合方式融合MFCCs特征與Log-mel特征,分類器采用隨機森林算法。
方法七:聲學(xué)特征采用前融合方式融合MFCCs特征與Log-mel特征,分類器采用包含兩個隱含層的多層感知機。
方法八:聲學(xué)特征采用前融合方式融合MFCCs特征與Log-mel特征,分類器采用圖6所示的卷積神經(jīng)網(wǎng)絡(luò)。
方法九:使用文獻(xiàn)[13,15]中采用的DS證據(jù)理論對方法一和方法二中訓(xùn)練好的模型進行融合,以此作為基于后融合的對比方法。
方法十:即本文方法,采用MFCCs和Log-mel作為聲學(xué)特征,雙輸入卷積神經(jīng)網(wǎng)絡(luò)作為分類器。
所有的實驗均在Windows平臺下完成,硬件設(shè)備使用酷睿i7 6800K處理器和GTX1080TI顯卡,軟件部分中涉及到的特征提取和分類算法的建模和應(yīng)用借助Python 語言中的librosa、sklearn和TensorFlow等模塊完成。
評估環(huán)境聲事件識別方法常采用如下的評估指標(biāo)[24]:
(1) 查全率(Recall):正確識別到的鳴笛聲數(shù)量占鳴笛聲真實發(fā)生數(shù)量的比率。
(16)
(2) 查準(zhǔn)率(Precision): 正確識別到的鳴笛聲數(shù)量占識別到鳴笛聲數(shù)量的比率。
(17)
(3) F1-度量(F1-measure):
(18)
式中:TP稱為真正例(True Positive);FP稱為假正例(False Positive);TN稱為真反例(True Negative);FN稱為假反例(False Negative)。在評估指標(biāo)中,查全率和查準(zhǔn)率越高說明檢測系統(tǒng)性能越好,但是這兩者是相互矛盾的,因此引入F1-度量來權(quán)衡兩者。
將實驗結(jié)果以混淆矩陣圖的形式呈現(xiàn)在圖7中,其中圖7(a)-圖7(j)是使用十種方法得到的評估結(jié)果。并將實驗結(jié)果以查全率、查準(zhǔn)率、F1度量的形式呈現(xiàn)在表1中。
圖7 十種識別方法得到的混淆概率矩陣
表1 十種方法的評估結(jié)果(%)
對比方法二和方法三的實驗結(jié)果可以得出,使用MFCCs特征的方法僅對汽車鳴笛聲的識別表現(xiàn)優(yōu)于Log-mel特征,而從整體識別表現(xiàn)看,其識別表現(xiàn)不如使用Log-mel特征的方法,因此可以得出,Log-mel特征和MFCCs特征對不同聲音信號的描述能力不同,而且使用Log-mel特征的方法要優(yōu)于使用MFCCs特征的方法,通過將兩種特征進行融合可以對特征的描述能力進行互補從而提高識別方法的性能。方法二和方法三的實驗結(jié)果要優(yōu)于Baseline方法,驗證了本文所設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)分類性能突出。
通過比較方法四-方法八的實驗結(jié)果,可以對使用前融合方式的不同分類算法進行比較。分析實驗結(jié)果,使用傳統(tǒng)分類算法的方法相比使用深度學(xué)習(xí)的方法存在一定差距。因此證明了深度學(xué)習(xí)技術(shù)更適合處理環(huán)境聲信號。
通過對比Baseline、方法二、方法三、方法八、方法九、方法十(本文方法)的實驗結(jié)果,可以對單特征方法、基于前融合方式的融合特征方法和基于DS證據(jù)理論的后融合方法與本文提出的基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的方法進行對比。分析實驗結(jié)果,方法二和方法三的識別結(jié)果優(yōu)于方法八,因此驗證了基于前融合的特征融合方式對卷積神經(jīng)網(wǎng)絡(luò)的分類性能產(chǎn)生了負(fù)面影響。方法九的表現(xiàn)優(yōu)于方法二和方法三,證明了基于DS證據(jù)理論的融合方式是一種有效的特征融合手段。而本文方法在各項指標(biāo)的表現(xiàn)相較于其他的方法有明顯提升,因此本文提出的特征融合框架是有效且性能突出的。
為了評估本文方法在實際場景中應(yīng)用的性能,通過實景實驗對上述性能較好的識別方法與本文方法進行對比。
為了保證實驗的真實性,在桂林電子科技大學(xué)金雞嶺校區(qū)正門前放置聲音采集設(shè)備,對過往車輛的鳴笛聲進行采集,采集場景及采集設(shè)備如圖8所示。經(jīng)過長時間的采集,最終得到1 742條鳴笛聲數(shù)據(jù),每條聲音數(shù)據(jù)持續(xù)時間為0.6 s~1.5 s,均采用44.1 kHz的采樣頻率和16 bits的位深度保存為WAV格式。使用采集到的汽車鳴笛聲數(shù)據(jù)用于訓(xùn)練分類算法,最終使用一段未參與訓(xùn)練的時長為10 min的街道環(huán)境聲數(shù)據(jù)對該網(wǎng)絡(luò)進行評價。
圖8 聲音采集場景
汽車鳴笛聲識別類似于跌倒聲識別[25]屬于二分類任務(wù),要求在一段聲音信號中檢測并識別出是否存在汽車鳴笛聲,因此采用如圖9所示的評估方法。圖9中上方的黑線表示鳴笛聲檢測的真實結(jié)果,中間的虛線表示模型檢測得到的結(jié)果,底部的粗黑線表示時間軸,凸起的線條表示有汽車鳴笛聲發(fā)生。圖9中展示了在模型的識別結(jié)果中會出現(xiàn)的四種情況:TP、FP、TN、FN,當(dāng)模型識別結(jié)果和真實結(jié)果均為汽車鳴笛聲時表示為TP,反之表示為TN。當(dāng)模型識別結(jié)果為汽車鳴笛聲而真實結(jié)果中無汽車鳴笛聲時表示為FP,反之為FN。
圖9 鳴笛聲識別評估策略
表2呈現(xiàn)了汽車鳴笛聲識別的實景實驗結(jié)果,基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的環(huán)境聲事件識別方法對汽車鳴笛聲的識別擁有較高的查全率(Recall=87.7%),而且其查準(zhǔn)率(Precision=84.7%)相比查全率也僅僅低了3百分點,綜合這兩個指標(biāo)得到的F1-度量也能達(dá)到86.2%,而且相比Baseline、方法二、方法三、方法六、方法八和方法九表現(xiàn)也有較大提升。綜合實驗結(jié)果,基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架在實際環(huán)境聲中仍具有較好識別性能,而且該識別方法明顯優(yōu)于單特征方法、基于前融合的融合特征方法和基于DS證據(jù)理論的模型后融合方法。
表2 鳴笛聲識別的評估結(jié)果(%)
本文針對前融合的特征融合方式不利于卷積神經(jīng)網(wǎng)絡(luò)提取高階特征的問題,提出一種基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架。經(jīng)公開數(shù)據(jù)集評估以及實景實驗驗證,所提出的融合框架是有效的,并具備在實際場景中應(yīng)用的可行性。但是,本文工作仍存在不足,例如還需對特征的選擇做進一步探索。在以后的工作中將對更多的特征進行研究,探索性能更優(yōu)以及魯棒性更強的融合特征,推動環(huán)境聲事件識別在實際場景中的應(yīng)用。