摘要:環(huán)境聲音分類(ESC)技術(shù)主要涉及聲音特征提取和分類器算法的選擇。為了探索最佳的特征提取方法和分類器組合,文章對(duì)深度學(xué)習(xí)模型PANNs-CNN進(jìn)行了研究和分析,對(duì)不同的特征提取方法進(jìn)行了實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)結(jié)果表明,在與同類模型對(duì)比中,選用預(yù)訓(xùn)練且更深層的CNN模型可以提高ESC的預(yù)測(cè)性能;Log-Mel特征可以更好地保留聲音信號(hào)高維度特征及特征相關(guān)性,有助于提升模型分類準(zhǔn)確率。文章研究的基于Log-Mel特征提取方式和PANNs-CNN 14的環(huán)境聲音分類算法在ESC-50數(shù)據(jù)集上的分類準(zhǔn)確率最好,并且在實(shí)際應(yīng)用中驗(yàn)證了該算法的有效性。
關(guān)鍵詞:環(huán)境聲音分類;預(yù)訓(xùn)練音頻神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);Log-Mel;Mel頻率倒譜系數(shù)
中圖分類號(hào):TP3-05" 文獻(xiàn)標(biāo)志碼:A
0 引言
環(huán)境聲音分類(Environmental Sound Classifica-tion, ESC)技術(shù)已被廣泛應(yīng)用于警報(bào)系統(tǒng)、野生動(dòng)物監(jiān)測(cè)、城市環(huán)境聲音檢測(cè)等領(lǐng)域,主要涉及聲音特征提取和分類器算法的選擇。在聲音特征提取方面,目前廣泛使用基于梅爾濾波器組和伽瑪通濾波器組的特征提取方法。在分類器方面,與傳統(tǒng)機(jī)器學(xué)習(xí)模型的手動(dòng)特征提取方案相比,深度學(xué)習(xí)能夠從大型數(shù)據(jù)集中自動(dòng)提取具有區(qū)分性的特征,并且在未見(jiàn)過(guò)的數(shù)據(jù)上具有良好的泛化能力。Piczak[1]采用了從Log-Mel(LM)特征中獲得的二維結(jié)構(gòu)輸入具有2個(gè)全連接層和2個(gè)卷積層的深度學(xué)習(xí)模型,該模型的準(zhǔn)確率達(dá)到了64.5%。Tokozume等[2]提出了一個(gè)由全連接層和一維卷積層組成的CNN模型,從原始波形中提取特征,達(dá)到了71.0%的準(zhǔn)確率。Zhu等[3]研究了由6個(gè)卷積層組成的深度神經(jīng)模型的預(yù)測(cè)性能,基于頻譜圖和原始波進(jìn)行特征提取,獲得了79.1%的準(zhǔn)確率。
然而,這些研究工作仍然存在明顯不足:(1)選用的特征提取算法很多是為語(yǔ)音、音樂(lè)等結(jié)構(gòu)化聲音信號(hào)設(shè)計(jì)的,無(wú)法充分表征復(fù)雜的非結(jié)構(gòu)化環(huán)境聲音;(2)對(duì)更深的神經(jīng)網(wǎng)絡(luò)探索不足,訓(xùn)練模型的泛化能力不強(qiáng)。為此,本文選用在AudioSet數(shù)據(jù)集預(yù)訓(xùn)練的深度學(xué)習(xí)模型PANNs-CNN作為主干架構(gòu),使用公開(kāi)數(shù)據(jù)集ESC-50進(jìn)行模型微調(diào)(fine-tune),對(duì)基于梅爾濾波器組的Log-Mel特征和Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)特征提取方法進(jìn)行實(shí)驗(yàn)對(duì)比,以探尋最佳的特征提取方法與分類器的組合。
1 研究對(duì)象與方法
1.1 ESC-50數(shù)據(jù)集
聲音檢測(cè)在研究領(lǐng)域取得了巨大進(jìn)展,公開(kāi)可用的帶標(biāo)注數(shù)據(jù)集功不可沒(méi)。ESC-50是2000個(gè)環(huán)境聲音樣本的帶標(biāo)注公開(kāi)數(shù)據(jù)集,可以認(rèn)為是環(huán)境聲音分類的基準(zhǔn)數(shù)據(jù)集之一。該數(shù)據(jù)集包含了5大類聲音樣本,分別是動(dòng)物聲音、自然界聲音、人類發(fā)出的非語(yǔ)言聲音、室內(nèi)聲音以及城市噪聲。每個(gè)大類的聲音樣本又細(xì)分為10個(gè)小類,是單通道的.wav文件,采樣頻率為44.1 kHz,時(shí)長(zhǎng)為5 s。
1.2 特征提取方法
1.2.1 Log-Mel特征
聲音信號(hào)首先經(jīng)過(guò)預(yù)處理(包括預(yù)加重、分幀和加窗等)后進(jìn)行短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT),得到功率譜;然后通過(guò)一組三角形梅爾濾波器,對(duì)功率譜進(jìn)行濾波得到梅爾頻譜。
Log-Mel特征是對(duì)梅爾頻譜進(jìn)行對(duì)數(shù)運(yùn)算得到的,其表達(dá)式滿足式(1)。
LogMel(m,j)=log(Sm(m,j)+ε)(1)
其中,Sm(m,j)是聲音信號(hào)的梅爾頻譜,ε是一個(gè)小常數(shù),用于避免對(duì)數(shù)零值問(wèn)題。對(duì)數(shù)運(yùn)算考慮了人類聽(tīng)覺(jué)系統(tǒng)的非線性特性,使提取的特征更加符合人類的聲音感知。
1.2.2 MFCC特征
MFCC特征是對(duì)Log-Mel特征進(jìn)行離散余弦變換得到的,其表達(dá)式滿足式(2)。
MFCC(m,n)=∑J-1j=0LogMel(m,j)·cosπnJ(j+12)(2)
其中,n是MFCC系數(shù)的索引,J是MFCC的系數(shù)數(shù)量。為了壓縮數(shù)據(jù),一般僅保留最有效(前12~20個(gè))的MFCC特征,因此J通常取值為13。
1.3 PANNs-CNN模型
在大規(guī)模AudioSet數(shù)據(jù)集中,基于卷積神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練音頻神經(jīng)網(wǎng)絡(luò)(Pretrained Audio Neural Networks based Convolutional Neural Network,PANNs-CNN)分為6層、10層和14層結(jié)構(gòu),在本文分別記為PANNs-CNN6、PANNs-CNN10、PANNs-CNN14。6層結(jié)構(gòu)由4個(gè)卷積層組成,卷積核大小為(5,5)。10層和14層結(jié)構(gòu)分別由4個(gè)和6個(gè)卷積塊組成,每個(gè)卷積塊由2個(gè)卷積層組成,卷積核大小為(3,3)。PANNs-CNN在每個(gè)卷積層之間應(yīng)用批量歸一化(Batch Normalization,BN),并使用ReLU激活函數(shù)。卷積模塊之后使用平均池化下采樣,池化核大小為(2,2)。PANNs-CNN14的模型結(jié)構(gòu),如圖1所示。
2 實(shí)驗(yàn)及分析
2.1 實(shí)驗(yàn)設(shè)置
2.1.1 數(shù)據(jù)集
本文使用ESC-50數(shù)據(jù)集對(duì)PANNs-CNN進(jìn)行訓(xùn)練和評(píng)估。聲音的采樣頻率為44.1 kHz,窗函數(shù)選擇漢寧窗,幀長(zhǎng)為1024,幀移為320,梅爾頻率通道數(shù)為64。
本文采用5-fold交叉驗(yàn)證的方法劃分?jǐn)?shù)據(jù)集,以證明最終模型評(píng)估結(jié)果非隨機(jī)產(chǎn)生。即將整個(gè)數(shù)據(jù)樣本分成5等份,訓(xùn)練過(guò)程每次選擇其中的一份作為驗(yàn)證集,其余4份作為訓(xùn)練集,最終以5次訓(xùn)練在驗(yàn)證集上的準(zhǔn)確率均值作為該模型的最終評(píng)估結(jié)果。
2.1.2 模型參數(shù)
為適配ESC-50數(shù)據(jù)集,本文在PANNs-CNN模型的末尾添加了50個(gè)節(jié)點(diǎn)的全連接神經(jīng)網(wǎng)絡(luò),用以將提取的音頻特征映射到分類標(biāo)簽的空間。每個(gè)模型的超參數(shù)均進(jìn)行相同的設(shè)置,每次訓(xùn)練的Epoch均為50次,優(yōu)化函數(shù)為Adam,學(xué)習(xí)率為0.0001,batch size設(shè)置為16,dropout值為0.3,損失函數(shù)為交叉熵?fù)p失函數(shù)。
本文所有模型均基于paddlepaddle-gpu 2.6.1深度學(xué)習(xí)框架及Python 3.8進(jìn)行訓(xùn)練。用于程序運(yùn)行的計(jì)算機(jī)操作系統(tǒng)為Ubantu18.04,內(nèi)存為64 GB,處理器型號(hào)為Intel Xeon W-2223,顯卡型號(hào)為NVIDIA GeForce RTX 2080 Ti,顯卡內(nèi)存為11 GB。
2.2 實(shí)驗(yàn)結(jié)果
2.2.1 準(zhǔn)確率和損失值
PANNs-CNN模型在ESC-50數(shù)據(jù)集的訓(xùn)練準(zhǔn)確率(train_acc)、驗(yàn)證準(zhǔn)確率(val_acc),如圖2所示;訓(xùn)練損失(train_loss)、驗(yàn)證損失(val_loss),如圖3所示。
可以看到,PANNs-CNN 14經(jīng)過(guò)大約20次的迭代,驗(yàn)證集的準(zhǔn)確率穩(wěn)定在92.5%左右,損失值在0.29左右。其達(dá)到穩(wěn)定準(zhǔn)確率和損失值所需的迭代次數(shù),明顯少于實(shí)驗(yàn)中同類模型PANNs-CNN6、PANNs-CNN10所需的50次以上。
PANNs-CNN模型以及現(xiàn)有的部分同類環(huán)境聲音分類模型,在ESC-50數(shù)據(jù)集的準(zhǔn)確率如表1所示。
可以看到,基于Log-Mel特征和PANNs-CNN 14的環(huán)境聲音分類算法在ESC-50數(shù)據(jù)集上的分類精度最高。這說(shuō)明對(duì)于復(fù)雜環(huán)境聲音分類任務(wù),選用預(yù)訓(xùn)練且更深層的CNN模型可以提高ESC的預(yù)測(cè)性能。
2.2.2 特征提取方法對(duì)比
為了研究不同特征提取方法的模型效果,另一組實(shí)驗(yàn)在相同的數(shù)據(jù)集和模型參數(shù)下,采用MFCC特征提取的方法微調(diào)PANNs-CNN 14模型。MFCC特征的維度是13維,加上一階、二階差分,得到39維的MFCC特征。不同特征提取方法的模型準(zhǔn)確率曲線、損失曲線分別如圖4—5所示。
由圖可以看到,對(duì)于復(fù)雜環(huán)境聲音分類任務(wù),采用Log-Mel特征提取方法的PANNs-CNN 14模型在驗(yàn)證集的準(zhǔn)確率和損失值上均優(yōu)于采用MFCC特征提取方法的同種模型。這是因?yàn)镸FCC特征舍棄了聲音部分高維度特征,更強(qiáng)調(diào)低頻部分的聲音特征,因而更適用于傳統(tǒng)的語(yǔ)音識(shí)別,而PANNs-CNN 14模型利用包含高維度特征及特征相關(guān)性的Log-Mel特征,對(duì)復(fù)雜環(huán)境聲音有更好的分類性能。
采用MFCC、Log-Mel特征提取方法訓(xùn)練的PANNs-CNN 14模型在ESC-50數(shù)據(jù)集中進(jìn)行訓(xùn)練的準(zhǔn)確率如表2所示。
3 模型應(yīng)用
通過(guò)上述的實(shí)驗(yàn)及分析,Log-Mel特征提取方法與PANNs-CNN 14模型組合的算法性能在公開(kāi)數(shù)據(jù)集上得到驗(yàn)證。此外,本文還采集了真實(shí)環(huán)境中的聲音片段,構(gòu)建了樣本量為200、分類為車輛碰撞聲、人體摔倒聲、施工噪聲、水龍頭漏水聲的數(shù)據(jù)集。該聲音場(chǎng)景數(shù)據(jù)集樣本的梅爾語(yǔ)譜圖示例如圖6所示。
采用Log-Mel特征提取方法,將提取到的聲音特征微調(diào)PANNs-CNN 14模型,在樣本量為40的實(shí)驗(yàn)中,驗(yàn)證評(píng)估其分類準(zhǔn)確率,得到的混淆矩陣,如圖7所示。
可以看到,在實(shí)際應(yīng)用中模型對(duì)4種聲音場(chǎng)景的分類準(zhǔn)確率約為90%。這說(shuō)明在實(shí)際聲音分類應(yīng)用中,采用Log-Mel特征的PANNs-CNN 14模型具有良好的性能表現(xiàn)。不難分析,除了場(chǎng)景頻域特征相似導(dǎo)致分類錯(cuò)誤外,聲音樣本的噪聲也對(duì)分類效果產(chǎn)生了負(fù)面影響。
4 結(jié)語(yǔ)
本文研究了在大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練的深度學(xué)習(xí)模型中解決環(huán)境聲音分類的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,在與同類模型的對(duì)比中,選用預(yù)訓(xùn)練且更深層的CNN" 模型可以提高ESC的預(yù)測(cè)性能;Log-Mel特征可以更好地保留聲音信號(hào)高維度特征及特征相關(guān)性,有助于提升模型分類準(zhǔn)確率。相比于現(xiàn)有的一些CNN模型,結(jié)合Log-Mel特征提取方法的PANNs-CNN 14模型的分類性能得到明顯提升,并在實(shí)際采集的4種聲音場(chǎng)景中表現(xiàn)出良好的泛化能力。后續(xù)的研究方向,可以針對(duì)抗噪性能更強(qiáng)的模型結(jié)構(gòu)進(jìn)行研究和改進(jìn),以實(shí)現(xiàn)更優(yōu)的聲音分類效果。
參考文獻(xiàn)
[1]PICZAK K J. 25th International Workshop on Machine Learning for Signal Processing,September 17-20,2015[C]. Boston:IEEE,2015.
[2]TOKOZUME Y,HARADA T. International Conference on Acoustics, Speech, and Signal Processing (ICASSP),March 05-09,2017[C]. New Orleans:IEEE,2017.
[3]ZHU B Q, WANG C J, LIU F, et al. International Joint Conference on Neural Networks(IJCNN),July 08-13,2018[C]. Rio de Janeiro:IEEE,2018.
[4]ZHANG X H, ZOU Y X, SHI W. 2017 22nd International Conference on Digital Signal Processing,August 23-25,2017[C]. London:IEEE,2017.
[5]PICZAK K J. Proceedings of the 23rd ACM International Conference on Multimedia,October 26-30,2015[C]. New York:SIGMM,2015.
(編輯 沈 強(qiáng))
Research and application of environmental sound classification algorithm based on PANNs-CNN
GUAN" Zhiguang
(Nanning Vocational and Technical University, Nanning 530008, China)
Abstract: Environmental sound classification(ESC) technology mainly involves sound feature extraction and the selection of classifier algorithms. In order to explore the best feature extraction methods and classifier combinations, this article studies and analyzes the deep learning model PANNs-CNN, and compares different feature extraction methods through experiments. The experimental results show that compared with similar models, selecting pretrained and deeper CNN models can improve the predictive performance of ESC. Log-Mel features can better preserve high-dimensional features and feature correlations of sound signals,which helps improve the accuracy of model classification. The environmental sound classification algorithm based on Log-Mel feature extraction method and PANNs-CNN14 studied in the article has the best classification accuracy on the ESC-50 dataset,and its effectiveness has been verified in practical applications.
Key words: ESC; PANNs; CNN; Log-Mel; Mel frequency cepstrum coefficient
基金項(xiàng)目:廣西教育科學(xué)“十四五”規(guī)劃2023年度專項(xiàng)課題;項(xiàng)目名稱:新工科背景下人工智能類專業(yè)專創(chuàng)融合實(shí)踐教學(xué)研究;項(xiàng)目編號(hào):2023ZJY1841。
作者簡(jiǎn)介:關(guān)志廣(1988— ),男,講師,碩士;研究方向:人工智能及機(jī)器人技術(shù)。