王 麗龔 君黃裕磊
(1.正德職業(yè)技術(shù)學(xué)院機(jī)電工程系,江蘇南京 211106;2.東南大學(xué)信息科學(xué)與工程學(xué)院;江蘇南京 210096)
聲場(chǎng)景分類,就是訓(xùn)練計(jì)算機(jī)通過(guò)聲音中所包含的信息將聲音正確的劃分到其所屬的場(chǎng)景中,例如室內(nèi)環(huán)境(家中)或室外環(huán)境(公園)等。聲場(chǎng)景分類技術(shù)有著廣泛的應(yīng)用。在處理不同的聲音信號(hào)前,將聲音場(chǎng)景進(jìn)行分類,然后針對(duì)不同場(chǎng)景的聲音,采用不同的信號(hào)處理方式或者采用不同的參數(shù)來(lái)處理,可以帶來(lái)效率的巨大提升[1],比如帶有聲場(chǎng)景分類功能的助聽(tīng)器,能夠自動(dòng)的識(shí)別出佩戴者所處的場(chǎng)景,并相應(yīng)的調(diào)整降噪、增強(qiáng)算法,實(shí)現(xiàn)智能的模式調(diào)整,無(wú)需佩戴者進(jìn)行人工調(diào)整[2]。聲場(chǎng)景分類算法也能應(yīng)用于環(huán)境感知設(shè)備[3],如根據(jù)當(dāng)前聲場(chǎng)景自動(dòng)調(diào)節(jié)模式的智能手機(jī)[4]。當(dāng)用戶進(jìn)入自習(xí)室等比較安靜的環(huán)境時(shí),手機(jī)能夠自動(dòng)設(shè)置為靜音模式,當(dāng)用戶處于街道、商場(chǎng)等較為嘈雜的環(huán)境中,手機(jī)自動(dòng)將音量設(shè)置為匹配這種場(chǎng)景的大小,使得用戶不錯(cuò)過(guò)重要信息[5]。隨著智能駕駛汽車的逐漸普及,聲場(chǎng)景分類技術(shù)也將發(fā)揮很大的作用。雖然近年來(lái)基于計(jì)算機(jī)視覺(jué)的自動(dòng)駕駛技術(shù)[6-10]發(fā)展迅速,但是其存在一些明顯的不足:夜間檢測(cè)困難、視覺(jué)上存在死角、運(yùn)算量巨大等?;诼晫W(xué)場(chǎng)景分類的自動(dòng)駕駛可以彌補(bǔ)視覺(jué)算法的不足,并且兩者可以起到互補(bǔ)作用。比如在夜間,自動(dòng)駕駛的汽車在行駛過(guò)程中,通過(guò)收集車外的聲音進(jìn)行聲場(chǎng)景分類,然后根據(jù)分類的場(chǎng)景進(jìn)行駕駛模式的切換。總而言之,聲場(chǎng)景分類技術(shù)在多個(gè)領(lǐng)域都有著重大的作用,對(duì)聲場(chǎng)景分類進(jìn)行深入的研究具有十分重要的意義。
聲場(chǎng)景分類最開(kāi)始屬于模式識(shí)別的一個(gè)子領(lǐng)域。上世紀(jì)九十年代,Sawhney 和Maes 首次提出了聲場(chǎng)景分類的概念[11]。他們錄制了一份包含人行道、地鐵、餐廳、公園、街道5 類聲場(chǎng)景的數(shù)據(jù)集,Sawhney 從錄制的音頻中提取了功率譜密度、相對(duì)光譜、濾波器組的頻帶3 類特征,之后采用k 最鄰近和循環(huán)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行分類,取得了68%的準(zhǔn)確率。20 世紀(jì)初期,機(jī)器學(xué)習(xí)領(lǐng)域快速發(fā)展,越來(lái)越多的學(xué)者嘗試使用機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行聲音場(chǎng)景的劃分。支持向量機(jī)、決策樹(shù)等機(jī)器學(xué)習(xí)算法逐漸替代傳統(tǒng)的HMM 模型,被廣泛的應(yīng)用在了聲場(chǎng)景分類和聲事件檢測(cè)任務(wù)中。同時(shí),一些集成學(xué)習(xí)的方法如隨機(jī)森林、XGBoost 進(jìn)一步提升了聲場(chǎng)景分類的效果。2015 年,Phan 等人[12]將聲場(chǎng)景分類問(wèn)題轉(zhuǎn)化為回歸問(wèn)題,搭建了基于隨機(jī)森林回歸的模型,并在ITC-Irst 和UPC-TALP 2 個(gè)數(shù)據(jù)庫(kù)上分別將檢測(cè)錯(cuò)誤率降低了6% 和10%。2012 年,在ImageNet 圖像分類競(jìng)賽中,Krizhevsky[13]提出了AlexNet 模型并一舉獲得了冠軍。AlexNet 的巨大的成功,引發(fā)了深度學(xué)習(xí)的熱潮,研究者也逐漸開(kāi)始將深度學(xué)習(xí)的方法引入到聲場(chǎng)景分類任務(wù)中。在近年來(lái)的聲學(xué)場(chǎng)景和事件檢測(cè)分類挑戰(zhàn)(Detection and Classification of Acoustic Scenes and Events,DCASE)競(jìng)賽中,很多參賽者使用了卷積神經(jīng)網(wǎng)絡(luò)[14]、循環(huán)神經(jīng)網(wǎng)絡(luò)[15]、深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)[16]并將這些模型與傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行集成,取得了很優(yōu)異的成果。比賽結(jié)果表明,對(duì)于聲場(chǎng)景分類任務(wù),使用語(yǔ)譜圖作為輸入特征的CNN 模型可以達(dá)到比較好的效果。在DCASE2018 Task1A 聲場(chǎng)景分類競(jìng)賽中,Sakashita 等人[17]提取了雙聲道音頻的mel 譜圖、諧波-沖擊分離(Harmonic-Percussive Source Separation,HPSS)音頻的mel 譜圖,并采取不同的圖像處理方式對(duì)譜圖進(jìn)行切分,然后利用改進(jìn)的視覺(jué)幾何群網(wǎng)絡(luò)(Visual Geometry Group Network,VGG16)網(wǎng)絡(luò)進(jìn)行分類,最終TUT Urban Acoustic Scenes 2018 數(shù)據(jù)集上達(dá)到了76.9%的準(zhǔn)確率并獲得了第一名[18]。
用于聲場(chǎng)景分類的音頻信號(hào)通常包含很多聲音事件,這些聲音事件往往是相互重疊的。提取音頻的頻譜圖然后利用CNN 模型進(jìn)行分類時(shí)容易發(fā)生過(guò)擬合現(xiàn)象,這是因?yàn)镃NN 模型可能會(huì)將重疊的聲音事件認(rèn)定為聲學(xué)場(chǎng)景的代表模式,當(dāng)僅出現(xiàn)一種聲音事件時(shí)可能無(wú)法正確識(shí)別其場(chǎng)景。因此,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法,首先利用中值濾波器將對(duì)數(shù)Mel 譜圖分層為2 個(gè)譜圖分量,每個(gè)譜圖分量包含特定類型的時(shí)頻模式。然后使用雙路徑的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)譜圖分量分別建模,在模型輸出前將雙路徑的特征圖進(jìn)行拼接,最后利用Softmax 層進(jìn)行分類。
如圖1 所示,聲場(chǎng)景分類系統(tǒng)主要由以下幾個(gè)模塊所組成:預(yù)處理模塊、特征提取模塊、分類器訓(xùn)練模塊和測(cè)試模塊。
圖1 聲場(chǎng)景分類系統(tǒng)結(jié)構(gòu)圖
預(yù)處理模塊是對(duì)輸入的音頻進(jìn)行預(yù)加重、分幀和加窗等處理,為后續(xù)的聲學(xué)特征提取模塊打下基礎(chǔ)。
特征提取模塊是整個(gè)聲場(chǎng)景分類系統(tǒng)構(gòu)建的核心,對(duì)系統(tǒng)的最終效果有著直接影響。特征決定了整個(gè)系統(tǒng)所能達(dá)到的最優(yōu)效果,聲學(xué)特征的提取對(duì)整個(gè)系統(tǒng)性能起著至關(guān)重要的作用。聲學(xué)特征可以分為時(shí)域特征和頻域特征2 大類,時(shí)域特征有短時(shí)能量、短時(shí)平均幅度、短時(shí)過(guò)零率、短時(shí)自相關(guān)等,頻率特征有傅里葉系數(shù)、功率譜、梅爾頻率倒譜系數(shù)等。針對(duì)深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò),還可以提取語(yǔ)音的語(yǔ)譜圖,然后按照構(gòu)建圖像分類器的方法來(lái)設(shè)計(jì)聲場(chǎng)景分類系統(tǒng)。
分類器訓(xùn)練模塊是整個(gè)系統(tǒng)最重要的一環(huán)。訓(xùn)練的大體過(guò)程如下:首先將從訓(xùn)練樣本中提取好的特征輸入分類器,分類器進(jìn)行運(yùn)算并預(yù)測(cè)樣本的標(biāo)簽,計(jì)算預(yù)測(cè)標(biāo)簽與真實(shí)類別之間的差距,求出損失函數(shù),求出損失函數(shù)關(guān)于分類器可訓(xùn)練參數(shù)的導(dǎo)數(shù),利用參數(shù)更新規(guī)則對(duì)模型參數(shù)進(jìn)行調(diào)整,反復(fù)進(jìn)行迭代直到模型的損失不再下降或者達(dá)到指定的訓(xùn)練迭代次數(shù)。對(duì)于聲場(chǎng)景分類任務(wù),可以選擇的分類器有很多,如傳統(tǒng)的機(jī)器學(xué)習(xí)模型HMM、SVM 等,還可以使用深度學(xué)習(xí)模型如CNN,RNN 等。
測(cè)試模塊的主要任務(wù)是對(duì)訓(xùn)練所得到的分類器模型進(jìn)行測(cè)試。將類別已知的測(cè)試樣本依次輸入到分類器中,得出分類結(jié)果,統(tǒng)計(jì)分類正確率。
頻譜圖是對(duì)音頻信號(hào)進(jìn)行短時(shí)傅里葉變換(Short-Time Fourier transform,STFT)得到的一種二維譜圖,它的橫坐標(biāo)是時(shí)間軸,縱坐標(biāo)是頻率軸,譜圖中每個(gè)像素點(diǎn)的值表示相應(yīng)時(shí)刻、相應(yīng)頻率的能量密度。這種二維譜圖可以很好的反映出音頻中不同時(shí)刻、不同頻率的能量值強(qiáng)度,在聲場(chǎng)景分類中有著重要的應(yīng)用價(jià)值[19]。但是通過(guò)傅里葉變換求出的頻譜是線性的,與人類的聽(tīng)覺(jué)感受不符,將其進(jìn)一步轉(zhuǎn)換為非線性的梅爾(Mel)頻率,可以更加符合人耳的聽(tīng)覺(jué)特性。Mel 頻率的定義如下:
式中:f是頻率,單位為Hz。Mel 特征譜圖的求取過(guò)程如圖2 所示。
圖2 對(duì)數(shù)Mel 譜圖求取過(guò)程
具體過(guò)程如下:
(1)對(duì)輸入音頻進(jìn)行預(yù)處理,主要包括:預(yù)加重、分幀、加窗;
(2)對(duì)分幀后的信號(hào)進(jìn)行短時(shí)傅里葉變換,得到信號(hào)的頻譜;
(3)將信號(hào)的頻譜通過(guò)具有Mel 刻度的Mel 濾波器組,并對(duì)濾波器組的輸出取對(duì)數(shù),得到對(duì)數(shù)Mel譜圖。
對(duì)數(shù)Mel 譜圖可以很好的反映出音頻的靜態(tài)特性,但是無(wú)法體現(xiàn)音頻動(dòng)態(tài)特征。將Mel 譜圖求取差分可以得到一階差分Mel 譜圖,其能很好的體現(xiàn)出音頻的動(dòng)態(tài)特征。而且可以進(jìn)一步對(duì)一階差分Mel 譜圖再次求取差分,得到二階差分Mel 譜圖,進(jìn)一步獲取更多的動(dòng)態(tài)特征。將標(biāo)準(zhǔn)的對(duì)數(shù)Mel 譜圖和一階二階差分對(duì)數(shù)Mel 譜圖進(jìn)行拼接,形成3 通道融合譜圖作為系統(tǒng)的輸入。
在圖像處理中,中值濾波器被廣泛用于抑制圖像中的脈沖噪聲。將中值濾波器應(yīng)用于提取到的對(duì)數(shù)Mel 譜圖,并沿著時(shí)間軸滑動(dòng),當(dāng)聲音事件的持續(xù)時(shí)長(zhǎng)小于濾波器窗口一半時(shí),該聲事件將被濾除。因此,提出了基于中值濾波器的特征譜圖分層方法,原理如下:
表1 基于中值濾波器的特征譜圖分層方法
通過(guò)上述譜圖分層方法,可以將原始的譜特征分層為2 個(gè)譜特征分量,每個(gè)分量中包含有不同持續(xù)時(shí)長(zhǎng)的聲音事件,即代表這不同的時(shí)頻特性。
利用基于中值濾波器的特征譜圖分層方法將輸入音頻的對(duì)數(shù)Mel 譜圖劃分為2 個(gè)譜圖分量,每個(gè)分量包含特定的時(shí)頻模式。接下來(lái)針對(duì)每個(gè)分量利用卷積神經(jīng)網(wǎng)絡(luò)單獨(dú)的進(jìn)行建模,以更好地利用分層時(shí)頻特征。深度卷積神經(jīng)網(wǎng)絡(luò)有2 條平行的路徑,每個(gè)路徑對(duì)一個(gè)譜圖分量建模,如圖3 所示。在求取音頻的對(duì)數(shù)Mel 譜圖時(shí),采用的Mel 濾波器的個(gè)數(shù)為128 個(gè),因此輸入網(wǎng)絡(luò)的融合特征譜圖在頻率軸上的大小也是128。采用包含17 個(gè)卷積層的殘差網(wǎng)絡(luò)進(jìn)行處理,這些卷積層的卷積核大小均為3×3。經(jīng)過(guò)殘差網(wǎng)絡(luò)之后,將2 個(gè)路徑的特征圖在通道維度上進(jìn)行拼接,形成最終的特征圖。最后,依次通過(guò)批歸一化層(Batch Normalization,BN)、1×1的卷積層、全連接層、Softmax 層進(jìn)行分類。
圖3 雙路徑深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
為了驗(yàn)證所提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法的有效性,在TUT 數(shù)據(jù)集上進(jìn)行了多組實(shí)驗(yàn)進(jìn)行對(duì)比驗(yàn)證。TUT 數(shù)據(jù)集包含機(jī)場(chǎng)、公共汽車、地鐵、地鐵站、公園、廣場(chǎng)、購(gòu)物商場(chǎng)、步行街道、交通街道、電車軌道10 類聲場(chǎng)景,共14 400 條音頻數(shù)據(jù)。該數(shù)據(jù)集在12 個(gè)大型歐洲城市阿姆斯特丹、巴塞羅那、赫爾辛基、里斯本、倫敦、里昂、馬德里、米蘭、布拉格、巴黎、斯德哥爾摩和維也納錄制。
TUT 數(shù)據(jù)集中音頻樣本的采樣率為48 kHz,每段音頻長(zhǎng)10 s。首先對(duì)音頻進(jìn)行分幀,幀長(zhǎng)為2 048個(gè)采樣點(diǎn)(約為43 ms),幀重疊率為50%,因此每段音頻可分為469 幀。對(duì)分幀后的音頻計(jì)算2 048 點(diǎn)的FFT,之后再通過(guò)包含128 個(gè)濾波器的Mel 濾波器組并取對(duì)數(shù),得到最終的對(duì)數(shù)Mel 譜圖,每張Mel譜圖的大小為(469,128)。再對(duì)進(jìn)一步對(duì)對(duì)數(shù)Mel譜圖求取差分,得到一階和二階差分Mel 譜圖。實(shí)驗(yàn)中,利用LibROSA 庫(kù)函數(shù)實(shí)現(xiàn)了原始音頻、沖擊源、諧波源的對(duì)數(shù)Mel 譜圖的求取,最后的融合譜圖大小為(469,128,9)。
提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法的訓(xùn)練設(shè)備為 Nvidia GTX1080Ti 顯卡(顯存為11GB)。雙路徑深度卷積神經(jīng)網(wǎng)絡(luò)使用帶動(dòng)量的隨機(jī)梯度下降算法進(jìn)行優(yōu)化,動(dòng)量大小為0.9,batchsize 為32。模型使用學(xué)習(xí)率熱重啟機(jī)制訓(xùn)練了270個(gè)epoch,在訓(xùn)練2、6、14、30、126 和254 個(gè)epoch 后將學(xué)習(xí)速率重置為其最大值的0.1,然后余弦衰減至1×10-5。
為了對(duì)比所提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法和傳統(tǒng)機(jī)器學(xué)習(xí)方法的分類效果,測(cè)試了高斯混合模型(GMM)、隱馬爾可夫模型(HMM)、支撐向量機(jī)(SVM)、隨機(jī)森林(RF)在TUT 數(shù)據(jù)集上的分類效果。首先,通過(guò)開(kāi)源軟件openSMILE 從每段音頻信號(hào)中提取988 維的特征向量,其中包括26類聲學(xué)特征,主要有音頻的強(qiáng)度、響度、12 階的MFCC、過(guò)零率、基音頻率等,以及每種特征的均值、最值、標(biāo)準(zhǔn)差、方差等統(tǒng)計(jì)量。然后將988 維的特征向量作為上述4 種機(jī)器學(xué)習(xí)模型的輸入特征,最終通過(guò)網(wǎng)格搜索法獲得4 類模型的最佳參數(shù)。
對(duì)于GMM、HMM、SVM、RF 分類模型,采用第4節(jié)介紹的988 維特征向量作為輸入特征。通過(guò)網(wǎng)格搜索法獲得GMM 模型的最佳參數(shù)為:高斯混合模型的個(gè)數(shù)為12 個(gè);采用‘full’模式,即每個(gè)高斯分布具有不同的標(biāo)準(zhǔn)協(xié)方差矩陣;采用K-Means 的方式對(duì)模型的參數(shù)進(jìn)行初始化。對(duì)于SVM 模型,搜索懲罰系數(shù)、核函數(shù)、決策方式這3 個(gè)重要參數(shù)的最佳取值。最優(yōu)SVM 模型的懲罰系數(shù)為1.8,采用高斯核函數(shù),分類方式為OVO。RF 模型的最優(yōu)參數(shù)為:森林中包含的決策樹(shù)個(gè)數(shù)為200,決策數(shù)在進(jìn)行節(jié)點(diǎn)分裂時(shí)采用基尼指數(shù)作為最優(yōu)特征選擇標(biāo)準(zhǔn),決策樹(shù)內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)為10,每棵決策樹(shù)葉子節(jié)點(diǎn)最少樣本數(shù)為25。上述4 種模型和所提出的方法在TUT 測(cè)試集上各類別的準(zhǔn)確率如表2所示。
表2 5 類聲場(chǎng)景分類方法分類結(jié)果
提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法在TUT 測(cè)試集上的分類混淆矩陣如圖4 所示。
圖4 基于卷積神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法分類混淆矩陣
通過(guò)上述實(shí)驗(yàn)結(jié)果可知,GMM 模型在TUT 測(cè)試數(shù)據(jù)上的平均類別準(zhǔn)確率為59.8%。機(jī)場(chǎng)場(chǎng)景的分類準(zhǔn)確率最高為76.9%,步行街道場(chǎng)景的準(zhǔn)確率最低,僅為44.5%。HMM 模型的平均類別準(zhǔn)確率為58.1%。機(jī)場(chǎng)場(chǎng)景的分類準(zhǔn)確率最高為66.4%,步行街道場(chǎng)景的準(zhǔn)確率最低為53.2%,且每個(gè)類別的準(zhǔn)確率較為接近相差不大。SVM 模型的各類別準(zhǔn)確率較為接近,平均類別準(zhǔn)確率為62.2%。公交場(chǎng)景的分類準(zhǔn)確率最高為68.1%,公共廣場(chǎng)場(chǎng)景的準(zhǔn)確率最低為59.3%。RF 模型在TUT 測(cè)試數(shù)據(jù)上的平均類別準(zhǔn)確率為61.3%。公共廣場(chǎng)場(chǎng)景的分類準(zhǔn)確率最高為68.2%,電車軌道場(chǎng)景的準(zhǔn)確率最低為52.7%?;诰矸e神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法的平均類別準(zhǔn)確率為79.2%,明顯高于其他4 類機(jī)器學(xué)習(xí)方法,并且在除公共廣場(chǎng)外的9 類聲場(chǎng)景中,分類效果都有顯著提升。
基于卷積神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法被提出。首先提取音頻的對(duì)數(shù)Mel 譜圖及其一階二階差分譜圖并在通道維度上進(jìn)行拼接,隨后利用中值濾波器對(duì)融合譜圖進(jìn)行分層,得到2 個(gè)融合譜圖分量。然后搭建了雙路徑深度卷積神經(jīng)網(wǎng)絡(luò),分別對(duì)每個(gè)譜圖分量進(jìn)行建模,并在系統(tǒng)輸出前將2 個(gè)路徑獲得的特征圖進(jìn)行融合,最后通過(guò)全連接層進(jìn)行分類。為了證明所提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法有效性,在TUT 數(shù)據(jù)集上設(shè)計(jì)了實(shí)驗(yàn)進(jìn)行驗(yàn)證。分別利用GMM、HMM、SVM、RF 4 類傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于卷積神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法對(duì)TUT 數(shù)據(jù)集進(jìn)行建模,通過(guò)在測(cè)試集上的分類結(jié)果可知,基于卷積神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景分類方法的分類準(zhǔn)確率明顯高于其他4 種機(jī)器學(xué)習(xí)方法。