摘" 要:根據(jù)卷積神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)能力強(qiáng)、可移植性高的優(yōu)點(diǎn),結(jié)合數(shù)據(jù)增強(qiáng)可提升模型泛化能力的特點(diǎn),提出了一種基于數(shù)據(jù)增強(qiáng)的深度學(xué)習(xí)聲學(xué)場景分類方法,其次構(gòu)建基于VGG16和Mixup的聲學(xué)場景分類模型,最后在ESC-50數(shù)據(jù)集上對實(shí)驗(yàn)?zāi)P瓦M(jìn)行廣泛的測試。實(shí)驗(yàn)結(jié)果表明,使用Mixup數(shù)據(jù)增強(qiáng)方法能夠提升6.44%的模型準(zhǔn)確率,且模型在該數(shù)據(jù)集上獲得了81.56%的分類準(zhǔn)確率,優(yōu)于基線系統(tǒng)37.26%的準(zhǔn)確率,驗(yàn)證了該方法的可靠性和有效性,且能夠有效提高模型的分類效果。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);聲學(xué)場景分類;數(shù)據(jù)增強(qiáng)
中圖分類號:TN912.16;TP183" " 文獻(xiàn)標(biāo)識碼:A" 文章編號:2096-4706(2024)23-0076-06
Deep Learning Acoustic Scene Classification Algorithm Based on Data Enhancement
WU Guxin1, HU Yiding1, YANG Dong2
(1.School of Electronics and Information Engineering, Wuyi University, Jiangmen" 529020, China;
2.Earthquake Engineering Research and Test Center, Guangzhou University, Guangzhou" 510006, China)
Abstract: Based on the advantages of Convolutional Neural Networks, such as strong learning ability and high portability, and combined with the characteristic that data enhancement can improve the model's generalization ability, a Deep Learning acoustic scene classification method based on data enhancement is proposed. Then, this paper constructs an acoustic scene classification model based on VGG16 and Mixup. Finally, extensive tests are conducted on the experimental model using the ESC-50 dataset. The experimental results indicate that the use of the Mixup data enhancement method can improve the model's accuracy by 6.44%, and the model achieves a classification accuracy of 81.56% on this dataset, which is higher than the accuracy of the baseline system by 37.26%. This confirms the reliability and effectiveness of this method and can effectively improve the model's classification performance.
Keywords: Convolutional Neural Networks; Deep Learning; acoustic scene classification; data enhancement
0" 引" 言
聲音承載著關(guān)于人們生活環(huán)境的大量信息,聲學(xué)場景分類旨在對自然聲學(xué)環(huán)境感知和分析,把這些具有背景信息的聲音劃分成不同的場景類型,其在環(huán)境監(jiān)測、智慧城市、AR/VR等方面都有廣泛的應(yīng)用。在聲學(xué)場景分類算法中,支持向量機(jī)、決策樹等機(jī)器學(xué)習(xí)技術(shù)已經(jīng)逐步取代了傳統(tǒng)的分類模型[1]。與此同時,如隨機(jī)森林、分布式梯度等機(jī)器學(xué)習(xí)算法,使得聲場景分類的效率得到了提高。文獻(xiàn)[2]提出了一種多流卷積網(wǎng)絡(luò)模型,以及一種多維混合數(shù)據(jù)增強(qiáng)方法,在Urbansound8K、ESC-50和ESC-10數(shù)據(jù)集上獲得模型準(zhǔn)確率分別有88.29%,77.75%和96.25%;文獻(xiàn)[3]使用一種雙路徑深度卷積網(wǎng)絡(luò),對Mel譜圖及其一階、二階差分譜圖進(jìn)行融合,并在TUT數(shù)據(jù)集上獲得了79.2%的分類準(zhǔn)確率;文獻(xiàn)[4]使用線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstral Coefficients, LPCC)和譜質(zhì)心幅度倒譜系數(shù)(Spectral Centroid Magnitude Cepstral Coefficients, SCMC)特征以及Log-Mel能帶能量來表示聲場景,并基于深度神經(jīng)網(wǎng)絡(luò)在DCASE2017數(shù)據(jù)集上的分類準(zhǔn)確率達(dá)到了82.1%;文獻(xiàn)[5]提出一種SoundNet網(wǎng)絡(luò)模型,通過預(yù)訓(xùn)練的視頻對象和場景,遷徙的標(biāo)簽訓(xùn)練模型,在ESC-50和ESC-10數(shù)據(jù)集上取得了74.2%和92.2%得到準(zhǔn)確率;文獻(xiàn)[6]使用非負(fù)矩陣分解,并在TUT2017數(shù)據(jù)集上較之前提升了3.9%的準(zhǔn)確率;文獻(xiàn)[7]提出了一種深度環(huán)境聲分類網(wǎng)絡(luò),在ESC-10和ESC-50數(shù)據(jù)集上取得了82.3%和65.7%的準(zhǔn)確率。
綜上所述,從早期傳統(tǒng)的機(jī)器學(xué)習(xí)到現(xiàn)今流行的深度學(xué)習(xí)方法,聲學(xué)場景分類技術(shù)在不斷進(jìn)步,誕生了一些優(yōu)秀的分類模型和分類方法,但是在分類結(jié)果的準(zhǔn)確率及算法的泛化能力等問題上,仍然存在改進(jìn)和提高的空間。本文提出一種基于Mixup數(shù)據(jù)增強(qiáng)與深度神經(jīng)網(wǎng)絡(luò)VGG16的聲學(xué)場景分類算法,并且針對ESC-50數(shù)據(jù)集進(jìn)行分類的實(shí)驗(yàn),以提高分類的準(zhǔn)確率。
1" 基于數(shù)據(jù)增強(qiáng)的聲學(xué)場景分類方法
1.1" 算法框架
聲學(xué)場景分類任務(wù)是將一段未知音頻用模型分類后獲得其所屬的場景類別的標(biāo)簽。這種分類方式屬于有監(jiān)督的分類,即在分類前所訓(xùn)練好的分類模型及訓(xùn)練樣本都經(jīng)過了標(biāo)簽。
圖1為提出的聲學(xué)場景的分類框架,框架分為訓(xùn)練和測試兩個階段。在訓(xùn)練階段中,將從輸入音頻中提取的對數(shù)梅爾譜特征作為訓(xùn)練器的特征輸入已建立好的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型訓(xùn)練,最后獲得分類模型。在測試階段,對待測試音頻提取對數(shù)梅爾譜特征,送入分類模型中得到預(yù)測標(biāo)簽。輸出的標(biāo)簽即為測試音頻對應(yīng)的類別。
具體步驟如下:
1)提取訓(xùn)練集音頻的對數(shù)梅爾譜特征。
2)使用Mixup對特征進(jìn)行數(shù)據(jù)增強(qiáng),并輸入已構(gòu)建的VGG16模型中。
3)設(shè)置訓(xùn)練參數(shù),使用五折交叉驗(yàn)證方式訓(xùn)練模型,并保存最佳模型。
4)提取測試集音頻的對數(shù)梅爾譜特征。
5)獲取預(yù)測值,以最大預(yù)測概率值的對應(yīng)標(biāo)簽作為分類結(jié)果。
1.2" 對數(shù)梅爾譜特征
音頻信號的頻域更能表達(dá)其聲學(xué)特征,根據(jù)人類聽覺的特性,采用對數(shù)梅爾譜特征作為模型的輸入特征。
對數(shù)梅爾譜特征提取流程如圖2所示,主要分為四步進(jìn)行,首先對輸入的ESC-50數(shù)據(jù)集進(jìn)行分幀、加窗;接著對每幀音頻信號進(jìn)行快速傅里葉變換,并取模后平方求得功率譜;然后使用梅爾濾波器組對功率譜進(jìn)行濾波,使其從頻率轉(zhuǎn)換為梅爾頻率;最后對梅爾頻率取對數(shù),獲得對數(shù)梅爾譜特征。
1.3" Mixup數(shù)據(jù)增強(qiáng)
Mixup屬于混類增強(qiáng)手段,原理是將兩個特征圖片按一定比例混合,產(chǎn)生一張新的特征圖。首先需要設(shè)置混合比例的超參數(shù),接著對同一個批次獲得的兩個圖像的每個像素相加,以獲得混合特征矩陣,最后將混合特征傳遞給VGG16模型得到輸出特征,分別計(jì)算兩幅特征圖的標(biāo)簽的損失函數(shù),按照比例對損失函數(shù)進(jìn)行加權(quán)求和[8-9]。取兩張圖像,記為xi與xj,其類別標(biāo)簽分別為yi與yj,則Mixup的圖像混合可用式(1)表示:
(1)
其中,λ為從beta分布中隨機(jī)采樣生成的權(quán)重參數(shù),代表圖像混合比例,范圍[0,1]。
1.4" VGG16分類模型
分類模型采用VGG16的卷積塊作為網(wǎng)絡(luò)架構(gòu),完全連接層使用全局平均池化,在經(jīng)過兩個Dense層后使用Softmax函數(shù)輸出50個分類。表1為采用的VGG16模型結(jié)構(gòu)。其中,輸入層尺寸為(64,251,1)。
2" 算法實(shí)施條件與參數(shù)設(shè)置
2.1" 數(shù)據(jù)集選取
模型輸入使用ESC-50[10]數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)。該數(shù)據(jù)集出自freesound.org公開項(xiàng)目,其中包括5大類別:動物叫聲、自然環(huán)境聲、水聲、人類聲音(非語音)以及室內(nèi)/室外聲音,各類別下包括10個子類別,共計(jì)50種小類的音頻,每個小類含有40個樣本,每個樣本時長為均5秒。共計(jì)2 000個樣本數(shù)據(jù)。目標(biāo)是對50種環(huán)境聲進(jìn)行分類。這50個聲音類別如表2所示。
2.2" 聲學(xué)特征
使用對數(shù)梅爾譜圖作為模型輸入特征。設(shè)置ESC-50數(shù)據(jù)集中的音頻的采樣頻率為44 100 Hz,每段音頻時長為5 s,共220 500個采樣點(diǎn)。以1 764個采樣點(diǎn)進(jìn)行分幀,每幀的時間長度為40 ms。步長設(shè)置為882,對分幀后的音頻計(jì)算1 764點(diǎn)的傅里葉變換,通過梅爾濾波器組后進(jìn)行對數(shù)運(yùn)算,最后得到對數(shù)梅爾頻譜圖,每張對數(shù)梅爾譜圖的尺寸為(64,251)。利用LibROSA庫函數(shù)求對數(shù)梅爾譜圖,輸入音頻被轉(zhuǎn)換成如圖4所示的對數(shù)梅爾頻譜圖,其中圖4(a)和圖4(b)分別為“呼吸”和“咳嗽”的對數(shù)梅爾譜圖。
2.3" 實(shí)驗(yàn)配置
基于Keras深度學(xué)習(xí)框架構(gòu)建模型。使用Intel UHD Graphics 620顯卡在Window 10操作系統(tǒng)上對模型進(jìn)行訓(xùn)練。軟件環(huán)境為Python 3.7、TensorFlow 1.13.1、Keras 2.3.1。使用五折交叉驗(yàn)證方式劃分?jǐn)?shù)據(jù)集,選取分類交叉熵(Categorical cross-entropy)作為聲學(xué)場景分類任務(wù)的損失函數(shù),采用Adam優(yōu)化算法對這兩個損失函數(shù)的加權(quán)之和進(jìn)行優(yōu)化。一次訓(xùn)練所取的樣本數(shù)設(shè)定為32,迭代次數(shù)設(shè)置為300次,每50次迭代的準(zhǔn)確率不再增加時減小學(xué)習(xí)率。
3" 實(shí)驗(yàn)結(jié)果與分析
3.1" 梅爾濾波器組數(shù)量對模型的影響
通過對比在個數(shù)為40、64、128的梅爾濾波器下模型準(zhǔn)確率,選擇最優(yōu)的濾波器數(shù)量作為模型的對數(shù)梅爾譜特征輸入。
由圖5可知,梅爾濾波器的個數(shù)關(guān)系到對數(shù)梅爾譜圖的分辨率。梅爾濾波器數(shù)量越少,圖片越模糊,體現(xiàn)的特征就越少,反之梅爾濾波器數(shù)量越多,圖片越清晰,體現(xiàn)的特征就越多。梅爾濾波器過少使得音頻的特征信息無法完全體現(xiàn)到對數(shù)梅爾頻譜圖中,因?yàn)槟P蛯W(xué)習(xí)到的特征就變少。
但根據(jù)表3不同梅爾濾波器個數(shù)的準(zhǔn)確率對比可知,模型準(zhǔn)確率與梅爾濾波器數(shù)量不成正比,這是由于過多的梅爾濾波器使得圖片的細(xì)節(jié)特征增加,這些細(xì)節(jié)特征同時包含了噪聲等冗余信息,導(dǎo)致參數(shù)量變大,使得模型訓(xùn)練速度變慢,同時由于放大了噪聲信息使得模型更容易出現(xiàn)過擬合。因此,選擇最優(yōu)的64個梅爾濾波器來提取聲學(xué)特征。
3.2" Mixup對模型的影響
為說明不同的Mixup超參數(shù)α對模型的影響,設(shè)置在相同網(wǎng)絡(luò)模型、梅爾濾波器數(shù)量均為64、α分別為0.2、0.3、0.4的情況下準(zhǔn)確率的對比實(shí)驗(yàn)。
如表4所示,在超參數(shù)α為0.2時,準(zhǔn)確率為78.52%,0.3時準(zhǔn)確率為81.56%,0.4時準(zhǔn)確率為79.24%??芍?,在網(wǎng)絡(luò)模型相同的情況下,不同的超參數(shù)影響模型的準(zhǔn)確率,同時超參數(shù)為0.3時模型的分類準(zhǔn)確率最高,因此Mixup選擇0.3作為超參數(shù)α。
為評估Mixup對模型擬合的效果,分別對未使用Mixup和使用超參數(shù)α為0.3的Mixup的模型做對比實(shí)驗(yàn)。如表5所示,在沒有經(jīng)過Mixup數(shù)據(jù)增強(qiáng)的情況下,準(zhǔn)確率為75.12%;經(jīng)過Mixup數(shù)據(jù)增強(qiáng)的情況下準(zhǔn)確率為81.56%。結(jié)果表明,使用Mixup數(shù)據(jù)增強(qiáng)可以將準(zhǔn)確度提高6.44%。
如圖6所示,在使用了Mixup數(shù)據(jù)增強(qiáng)后,可以看到模型準(zhǔn)確率曲線斜率比未使用Mixup大,說明Mixup數(shù)據(jù)增強(qiáng)能夠加快模型的收斂速度。從圖7可知,未使用Mixup的損失交叉熵為1.051,使用Mixup的損失交叉熵為0.79。損失交叉熵越小代表模型魯棒性越好,精度也越高,可見Mixup能夠減少模型預(yù)測值和真實(shí)值之間的差距,緩解模型的過擬合現(xiàn)象。
3.3" 模型分析
為了驗(yàn)證基于VGG16和Mixup數(shù)據(jù)增強(qiáng)的聲學(xué)場景分類方法的有效性,在ESC-50數(shù)據(jù)集開展了聲學(xué)場景分類實(shí)驗(yàn),并與已有聲學(xué)場景分類模型進(jìn)行比較。如表6所示,為在ESC-50數(shù)據(jù)集下不同模型的準(zhǔn)確率對比??梢杂^察到,基于VGG16和Mixup數(shù)據(jù)增強(qiáng)的聲學(xué)場景分類模型取得了最高的分類準(zhǔn)確率,且相較于文獻(xiàn)[10]中的基線系統(tǒng)、文獻(xiàn)[5]中的SoundNet模型、文獻(xiàn)[2]中的多流卷積與多維數(shù)據(jù)增強(qiáng)模型、文獻(xiàn)[11]中的ANNamp;KNN模型、文獻(xiàn)[7]中的DeepESC模型、文獻(xiàn)[8]中的D-CNN模型的準(zhǔn)確率分別提高了37.26%、7.36%、3.81%、31.36%、15.86%和13.46%。
圖8為ESC-50數(shù)據(jù)集的模型混淆矩陣。可以觀察到,如洗衣機(jī)、吸塵器等生活類噪音識別率較低,容易發(fā)生混淆;而其余類別的音頻識別率較高,如貓、海浪、雷雨等明確環(huán)境聲的識別率為100%。
由于驗(yàn)證集只有400條音頻,每個類別預(yù)測的樣本有限,因此上述的混淆矩陣識別率值并不能充分表達(dá)模型對該類別所預(yù)測的概率。模型是由model.predict函數(shù)返回每個測試集50種類別的概率,并輸出概率最大的標(biāo)簽作為結(jié)果,因此可以從模型對每個音頻所預(yù)測的精度分析模型對各個類別預(yù)測的效果。
表7為模型對ESC-50各個別類的預(yù)測精度,其中,烏鴉、敲門、警笛、手鋸等13個類別的預(yù)測精度在90%以上,說明模型對此類音頻的特征學(xué)習(xí)充分;但同時可以發(fā)現(xiàn),牛、飲水、木門吱吱聲和洗衣機(jī)這5個類別的預(yù)測精度低于70%,說明模型對這5個類別的音頻特征學(xué)習(xí)不夠充分,需要進(jìn)一步地提高分類器性能。
4" 結(jié)" 論
本文從一般卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)出發(fā),對卷積的方式、卷積的層數(shù),以及過渡層上進(jìn)行了改變,最終構(gòu)建的VGG16卷積模塊在堆疊層數(shù)為5的時候結(jié)合全局最大池化以及Mixup數(shù)據(jù)增強(qiáng)的聲學(xué)場景分類模型在ESC-50數(shù)據(jù)集上取得了81.56%的準(zhǔn)確率,驗(yàn)證了在使用該方法分類聲學(xué)場景時能夠提高準(zhǔn)確率與泛化能力。下一步工作可以繼續(xù)研究卷積網(wǎng)絡(luò)結(jié)構(gòu)以提升模型分類準(zhǔn)確率,以及盡可能減少模型參數(shù)量和模型大小,提高模型訓(xùn)練效率,并將其應(yīng)用到實(shí)際場景中。
參考文獻(xiàn):
[1] BARCHIESI D,GIANNOULIS D,STOWELL D,et al. Acoustic Scene Classification: Classifying Environments from the Sounds They Produce [J].IEEE Signal Processing Magazine,2015,32(3):16-34.
[2] 曹毅,費(fèi)鴻博,李平,等.基于多流卷積和數(shù)據(jù)增強(qiáng)的聲場景分類方法 [J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2022,50(4):40-46.
[3] 王麗,龔君,黃裕磊.一種基于雙路徑深度卷積網(wǎng)絡(luò)的聲場景分類方法研究 [J].電子器件,2021,44(2):417-422.
[4] PASEDDULA C,GANGASHETTY S V. Late Fusion Framework for Acoustic Scene Classification Using LPCC,SCMC,and Log-Mel Band Energies with Deep Neural Networks [J/OL].Applied Acoustics,2021,172:107568[2024-09-05].https://doi.org/10.1016/j.apacoust.2020.107568.
[5] AYTAR Y,VONDRICK C,TORRALBA A. SoundNet: Learning Sound Representations from Unlabeled Video [C]//NIPS'16: Proceedings of the 30th International Conference on Neural Information Processing Systems.Barcelona:Curran Associates Inc,2016:892-900.
[6] 韋娟,楊皇衛(wèi),寧方立.基于NMF與CNN聯(lián)合優(yōu)化的聲學(xué)場景分類 [J].系統(tǒng)工程與電子技術(shù),2022,44(5):1433-1438.
[7] 陰法明,王詩佳,趙力.Deep ESC網(wǎng)絡(luò)的環(huán)境聲分類方法研究 [J].聲學(xué)技術(shù),2019,38(5):590-593.
[8] ZHANG X H,ZOU Y X,WEI S. Dilated Convolution Neural Network with LeakyReLU for Environmental Sound Classification [C]//2017 22nd International Conference on Digital Signal Processing (DSP).London:IEEE,2017:1-5.
[9] PARK S Y,CARAGEA C. A Data Cartography based MixUp for Pre-trained Language Models [J/OL].arXiv:2205.03403 [cs.CL].[2024-09-20].https://doi.org/10.48550/arXiv.2205.03403.
[10] PICZAK K J. ESC: Dataset for Environmental Sound Classification [C]//MM'15: Proceedings of the 23rd ACM international conference on Multimedia.Brisbane:Association for Computing Machinery,2015:1015-1018.
[11] SILVA B D,HAPPI A W,BREAKEN A,et al. Evaluation of Classical Machine Learning Techniques towards Urban Sound Recognition on Embedded Systems [J/OL].Applied Sciences,2019,9(18):3885[2024-09-23].https://doi.org/10.3390/app9183885.
作者簡介:伍谷馨(1999—),女,漢族,廣東廣州人,碩士生在讀,研究方向:信號處理;通信作者:胡異?。?974—),男,漢族,湖北武漢人,副教授,博士,研究方向:信號處理;楊棟(1982—),男,漢族,湖南長沙人,副教授,博士,研究方向:工程信號處理。