李 源,馬成男,李關(guān)防,王 強(qiáng),張文武
(1. 海裝重大專項(xiàng)裝備項(xiàng)目管理中心,北京 100071;2. 江蘇自動(dòng)化研究所,江蘇 連云港 222061)
聲音中攜帶了大量與人類日常生活息息相關(guān)的環(huán)境信息,通過這些信息人們可以準(zhǔn)確感知自己所處的聲音場景。聲學(xué)場景分類(Acoustic Scene Classification,ASC)[1]是利用機(jī)器模型對聲音信號(hào)自動(dòng)進(jìn)行分析并識(shí)別所處的環(huán)境內(nèi)容。聲學(xué)場景分類的應(yīng)用廣泛,如安全監(jiān)控、助聽器設(shè)備、智能家居以及智能控制設(shè)備等。由于音頻數(shù)據(jù)中往往存在復(fù)雜的噪聲,早期傳統(tǒng)的分類器,使用K近鄰模型以及隱馬爾可夫模型等進(jìn)行建模分類,效果并不理想,隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,以及聲學(xué)場景和事件檢測及分類競賽(Detection and Classification of Acoustic Scenes and Events,DCASE)[2]的提出,極大地促進(jìn)了該領(lǐng)域的發(fā)展。
相比于計(jì)算機(jī)視覺領(lǐng)域,聲音信號(hào)的采集和標(biāo)注相對困難,面對神經(jīng)網(wǎng)絡(luò)對大規(guī)模標(biāo)注數(shù)據(jù)的需求,多種數(shù)據(jù)增廣技術(shù)源源不斷地提出,在一定程度緩解了這一問題。聲學(xué)領(lǐng)域的數(shù)據(jù)增廣大多是基于聲譜圖進(jìn)行的,例如:Time stretch[3]、Pitch shift[3]、SpecAugment[4]、Mixup[5]等,但不同數(shù)據(jù)增廣技術(shù)對聲學(xué)場景的分類結(jié)果影響研究相對較少。筆者統(tǒng)計(jì)了近兩年DCASE大賽上各種數(shù)據(jù)增廣技術(shù)出現(xiàn)的比例發(fā)現(xiàn),Mixup增廣出現(xiàn)在半數(shù)以上方案中,SpecAugment增廣出現(xiàn)比例緊隨其后,此外,在計(jì)算機(jī)視覺領(lǐng)域,Cutmix[6]增廣成為近年應(yīng)用比例較高的技術(shù)之一。
在音頻分類任務(wù)中,通常需要對目標(biāo)音頻信號(hào)進(jìn)行有效特征提取,以便模型進(jìn)行高效分類,音頻信號(hào)特征提取的一般流程為:以原始音頻信號(hào)作為輸入,首先,通過預(yù)加重、分幀和加窗等操作實(shí)現(xiàn)音頻信號(hào)的增強(qiáng),然后,對增強(qiáng)后的音頻信號(hào)進(jìn)行時(shí)域到頻域的轉(zhuǎn)換,最后,在頻譜中提取適合且有代表性的特征,常用的聲學(xué)特征包括Mel聲譜圖、梅爾頻率倒譜系數(shù)等。
本文利用公開的城市場景分類數(shù)據(jù)集UrbanSound8k[7]提取的Mel聲譜圖作為模型的輸入,其中,各標(biāo)簽和縮寫的對應(yīng)關(guān)系為:空調(diào)(0-ac)、汽車?yán)?1-cb)、兒童玩耍(2-cp)、狗吠叫(3-db)、鉆井(4-dr)、發(fā)動(dòng)機(jī)空轉(zhuǎn)(5-ei)、槍聲(6-gs)、手提鉆(7-jh)、警報(bào)器(8-si)和街頭音樂(9-sm)。以空調(diào)(0-ac)為例,音頻波形圖與Mel聲譜圖對應(yīng)關(guān)系如圖1所示。各標(biāo)簽下的Mel聲譜圖如圖2所示,由圖2可以看出,各類別的Mel聲譜圖呈現(xiàn)不同特點(diǎn)。
圖1 聲音波形圖與Mel聲譜圖
圖2 各標(biāo)簽對應(yīng)Mel聲譜圖
為進(jìn)一步研究在聲學(xué)場景分類任務(wù)下,Mel聲譜特征作為模型輸入時(shí),各標(biāo)簽的分布情況。本文對每類標(biāo)簽隨機(jī)抽取50段音頻文件,分別提取其Mel聲譜圖,利用T-SNE[8]降維技術(shù),對500個(gè)Mel聲譜圖進(jìn)行降維,數(shù)據(jù)分布情況如圖3所示。由圖可知,各類別音頻經(jīng)過降維后仍具有相對較好的可分性,因此,可以判斷Mel聲譜特征適合作為輸入,幫助模型獲得更高的分類準(zhǔn)確率。
圖3 Mel聲譜T-SNE降維分布
在沒有足夠訓(xùn)練數(shù)據(jù)的情況下,數(shù)據(jù)增廣技術(shù)可以起擴(kuò)充數(shù)據(jù)集的作用,緩解模型易于發(fā)生過度擬合的同時(shí),最大限度地利用樣本中的有效信息。在音頻領(lǐng)域,早期的數(shù)據(jù)增廣方法包括聲波變形和添加背景噪聲等。本節(jié)針對三種在近年廣泛使用的數(shù)據(jù)增廣技術(shù):SpecAugment、Mixup以及Cutmix,在聲學(xué)場景音頻下的表現(xiàn)形式做進(jìn)一步探究。
SpecAugment是一種專門為頻譜圖進(jìn)行數(shù)據(jù)增廣的方法,通過進(jìn)行頻域信道和時(shí)域信道的掩碼操作,來提高模型對頻譜圖局部缺失的魯棒性。其中,頻域信道掩碼,是使連續(xù)的f個(gè)Mel頻率通道[f0,f0+f)被屏蔽,其中,f取值服從0到頻率掩蔽參數(shù)F的均勻分布;f0滿足[0,v-f),其中,v是Mel頻率通道的數(shù)量。時(shí)域信道掩碼應(yīng)用于屏蔽時(shí)間步[t0,t0+t),其中,t服從0到時(shí)間屏蔽參數(shù)T的均勻分布,t0從[0,τ-t)中選擇。以槍聲(6-gs)的Mel聲譜圖為例,同時(shí)疊加頻域信道掩碼和時(shí)域信道掩碼的可視化效果如圖4所示。
圖4 Mel聲譜圖SpecAugment增廣示意圖
Mixup數(shù)據(jù)增廣是一種對圖像進(jìn)行混合增強(qiáng)的算法,即將不同類之間的圖像混合生成新圖像,新樣本的標(biāo)簽由原標(biāo)簽混合而來,實(shí)現(xiàn)方式如式(1)所示。
(1)
式中,λ∈[0,1],其取值符合Beta分布β(α,α),參數(shù)α滿足α∈(0,∞);xi和xj分別代表不同的原始輸入向量,yi和yj代表對應(yīng)的標(biāo)簽編碼。以槍聲(6-gs)和狗吠叫(3-db)的Mel聲譜圖為例,當(dāng)λ取值為0.5時(shí),通過Mixup增廣生成新譜圖的效果如圖5所示。
圖5 Mel聲譜圖Mixup增廣示意圖
與Mixup利用兩張圖像按比例進(jìn)行插值生成新樣本不同,CutMix數(shù)據(jù)增廣是利用另一個(gè)圖像中的補(bǔ)丁替換原圖對應(yīng)區(qū)域,具體操作如式(2)所示。
(2)
式中,M∈{0,1}W*H表示兩個(gè)圖像中刪除和填充位置的二進(jìn)制掩碼,⊙表示逐元素相乘。λ與Mixup增廣類似,服從Beta分布β(α,α)。同樣以槍聲(6-gs)和狗吠叫(3-db)的Mel聲譜圖為例,通過Cutmix增廣合成的效果如圖6所示。
圖6 Mel聲譜圖Cutmix增廣示意圖
隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)擬合能力不斷提升,模型的參數(shù)量和計(jì)算量也在高速增長,使得大多數(shù)模型無法部署在存儲(chǔ)和計(jì)算力有限的硬件平臺(tái)。設(shè)計(jì)更輕量高效的網(wǎng)絡(luò),成為近幾年深度學(xué)習(xí)領(lǐng)域主要的研究方向之一。其中,具有代表性的輕量化網(wǎng)絡(luò)包括SqueezeNet[9]、MobileNet[10,12]、ShuffleNet[11]。針對聲學(xué)場景分類問題,本文選取Mobilenetv2[12]作為網(wǎng)絡(luò)骨架來實(shí)現(xiàn)Mel聲譜圖的分類。
城市場景分類數(shù)據(jù)集UrbanSound8k包含8732個(gè)標(biāo)記的城市聲音片段(單個(gè)音頻時(shí)長不超過4 s),音頻總時(shí)長約為9.7 h,各類別對應(yīng)的具體數(shù)量如表1所示。
表1 UrbanSound8k數(shù)據(jù)集詳情
為了使網(wǎng)絡(luò)獲得相同尺寸的Mel聲譜圖作為輸入,將所有的聲音片段轉(zhuǎn)換成頻率為22.05 KHz的單聲道波形文件,并將波形文件通過補(bǔ)0操作補(bǔ)齊至4 s長度,同時(shí)將8732個(gè)樣本按照7∶1.5∶1.5的比例劃分訓(xùn)練集、驗(yàn)證集和測試集。
針對聲學(xué)場景分類問題,引入交叉熵?fù)p失函數(shù),選擇Adam優(yōu)化器來指導(dǎo)網(wǎng)絡(luò)參數(shù)更新,初始學(xué)習(xí)率設(shè)置為0.001,同時(shí)采用余弦退火方式調(diào)整學(xué)習(xí)率,此外,在保證訓(xùn)練過程收斂完畢的前提下,實(shí)驗(yàn)統(tǒng)一設(shè)置成300個(gè)訓(xùn)練循環(huán)。Mel聲譜特征利用librosa工具包進(jìn)行提取,選取默認(rèn)參數(shù)。輸入特征圖尺寸固定為(128,173)。針對Cutmix和Mixup增廣方案,將Beta分布β(α,α)的參數(shù)α設(shè)置為1,使λ的取值服從(0,1)均勻分布,在同時(shí)施加Cutmix和Mixup兩種增廣技術(shù)的實(shí)驗(yàn)中,Cutmix和Mixup施加的比例為1∶1。
實(shí)驗(yàn)采用準(zhǔn)確率和混淆矩陣作為評估指標(biāo),利用混淆矩陣結(jié)果,觀測各類別精準(zhǔn)率、召回率以及F1分?jǐn)?shù),此外,結(jié)合各類別T-SNE降維后的可視化分布圖,對結(jié)果進(jìn)一步討論。
針對本文聲學(xué)場景分類問題,利用SpecAugment、Mixup和Cutmix三種數(shù)據(jù)增廣技術(shù),制定了全面的八組消融實(shí)驗(yàn),其中,第1組無增廣技術(shù)的實(shí)驗(yàn)作為基線,用于衡量其他增廣組合方案對分類結(jié)果的貢獻(xiàn)程度。實(shí)驗(yàn)方案及結(jié)果如表2所示。
表2 消融實(shí)驗(yàn)結(jié)果
為便于對比結(jié)果,將各組方案的準(zhǔn)確率結(jié)果繪制成柱狀圖形式,如圖7所示。
圖7 準(zhǔn)確率柱狀圖
結(jié)合圖表可知:實(shí)驗(yàn)1無增廣技術(shù)對應(yīng)的基線分類準(zhǔn)確率為95.632%;實(shí)驗(yàn)2、3和4分別為單獨(dú)施加SpecAugment、Mixup和Cutmix數(shù)據(jù)增廣技術(shù),結(jié)果表明,單獨(dú)的SpecAugment和Mixup增廣技術(shù)對分類結(jié)果并沒有起到積極的貢獻(xiàn),相反導(dǎo)致了準(zhǔn)確率下降,而單獨(dú)施加Cutmix增廣技術(shù),將分類準(zhǔn)確率提升至96.333%。這是由于,相比于Cutmix增廣,Mixup增廣技術(shù)生成頻譜圖的局部區(qū)域更加不自然,導(dǎo)致某些信噪比低的聲音信號(hào)通過Mixup增廣后提升了自身的識(shí)別難度;此外,在進(jìn)行SpecAugment增廣時(shí),由于4 s對應(yīng)的頻譜圖有效區(qū)域一般在2 s或者更短的時(shí)間內(nèi),SpecAugment在進(jìn)行時(shí)域掩碼時(shí)會(huì)遮擋有用信息,從而導(dǎo)致模型預(yù)測準(zhǔn)確率下降;實(shí)驗(yàn)5、6和7分別嘗試了兩兩組合的增廣技術(shù),其中,SpecAugment和Cutmix組合的分類準(zhǔn)確率達(dá)到了最優(yōu)結(jié)果97.097%,此時(shí),Cutmix增廣技術(shù)通過圖像拼接方式弱化了SpecAugment對有效時(shí)域信息的遮擋,同時(shí)發(fā)揮了其數(shù)據(jù)擴(kuò)充的作用,Mixup和Cutmix組合的準(zhǔn)確率和基線大致持平,SpecAugment和Mixup的組合結(jié)果仍低于基線,但是略高于二者單獨(dú)施加的準(zhǔn)確率;最后,將三種增廣技術(shù)同時(shí)施加到網(wǎng)絡(luò)上,分類準(zhǔn)確率定格為96.562%,略低于最優(yōu)結(jié)果,由此可見,Mixup數(shù)據(jù)增廣技術(shù)在此任務(wù)中,未發(fā)揮其優(yōu)勢。其中,最優(yōu)結(jié)果97.097%對應(yīng)的訓(xùn)練過程如圖8所示,由圖8可知:在訓(xùn)練進(jìn)行至200個(gè)循環(huán)左右時(shí),模型收斂完畢,訓(xùn)練損失和驗(yàn)證損失同時(shí)接近最低,驗(yàn)證準(zhǔn)確率達(dá)到最高。
其中,最優(yōu)方案下各類別的精準(zhǔn)率、召回率以及F1分?jǐn)?shù)如表3所示。
結(jié)果表明:汽車?yán)?1-cb)和街頭音樂(9-sm)各評價(jià)指標(biāo)相對較低,回顧圖3可以發(fā)現(xiàn),二者的分布情況相對較零散,穿插分布在各個(gè)類別之間,分類難度相對較大;而槍聲(6-gs)的三個(gè)評價(jià)指標(biāo)均為1.00,由于其Mel聲譜圖與其他類別聲譜圖相似度較小,同時(shí),觀測其在T-SNE分布圖的分布情況可以發(fā)現(xiàn),槍聲(6-gs)集中在右上方,并且無與之相互干擾的類別。上述分析表明,在聲學(xué)場景分類任務(wù)上,利用T-SNE進(jìn)行降維及分布觀測的效果較理想。
圖8 最優(yōu)方案訓(xùn)練過程
表3 最優(yōu)方案下各類別指標(biāo)
本文在音頻場景分類問題上利用城市場景分類數(shù)據(jù)集,基于Mel聲譜特征以及輕量化網(wǎng)絡(luò)模型Mobilenetv2,針對三種數(shù)據(jù)增廣技術(shù)SpecAugment、Mixup和Cutmix進(jìn)行了全面的消融實(shí)驗(yàn)。單獨(dú)施加SpecAugment和Mixup增廣技術(shù)對分類結(jié)果起抑制作用,而單獨(dú)的Cutmix增廣對分類結(jié)果提升明顯;增廣技術(shù)兩兩組合下,SpecAugment和Cutmix組合取得了最優(yōu)的分類準(zhǔn)確率,為97.097%;三種增廣技術(shù)同時(shí)施加到網(wǎng)絡(luò)上,分類準(zhǔn)確率為96.562%。針對最優(yōu)分類結(jié)果,觀測其精準(zhǔn)率、召回率以及F1分?jǐn)?shù)發(fā)現(xiàn),汽車?yán)?1-cb)和街頭音樂(9-sm)三個(gè)評價(jià)指標(biāo)均較低,而槍聲(6-gs)三個(gè)觀測指標(biāo)皆達(dá)到了1.00,上述情況與Mel聲譜特征經(jīng)過T-SNE降維后,各類別分布情況大致相同,表明T-SNE適合用在Mel聲譜特征的降維及分布觀測。