韋 娟, 楊皇衛(wèi), 寧方立
(1. 西安電子科技大學(xué)通信工程學(xué)院, 陜西 西安 710071; 2. 西北工業(yè)大學(xué)機(jī)電學(xué)院, 陜西 西安 710072)
聲學(xué)場(chǎng)景分類(acoustic scene classification, ASC)旨在從不同音頻片段中識(shí)別出各自包含的場(chǎng)景信息并加以分類。相比利用圖像或視頻信息實(shí)現(xiàn)場(chǎng)景分類,ASC技術(shù)具有全向性,且不會(huì)受遮擋和光線條件的影響,在智能穿戴設(shè)備、物聯(lián)網(wǎng)音頻監(jiān)控、巡檢機(jī)器人等領(lǐng)域有著廣泛的應(yīng)用前景[1-2]。
實(shí)際聲學(xué)場(chǎng)景通常由多個(gè)聲學(xué)事件組成,但只有少數(shù)聲學(xué)事件能對(duì)場(chǎng)景分析起到關(guān)鍵作用,因此需要提取足夠有效的聲學(xué)特征。ASC任務(wù)中常用的對(duì)數(shù)梅爾譜(log Mel-spectrogram,LM)[3-4]和常數(shù)Q變換(constant Q transform,CQT)[5]可以對(duì)頻帶相對(duì)固定的音頻信號(hào)進(jìn)行有效的時(shí)頻分析,但對(duì)于結(jié)構(gòu)性較差的聲學(xué)場(chǎng)景信號(hào)表現(xiàn)不佳[6]。于是,基于自動(dòng)特征學(xué)習(xí)的非負(fù)矩陣分解(non-negative matrix factorization,NMF)[7-8]被應(yīng)用于ASC任務(wù)。作為一種基于部分表達(dá)整體的方法,NMF能夠有效解決由各類聲學(xué)事件組成的場(chǎng)景分類問(wèn)題。姚琨等人[9]將NMF與LM進(jìn)行特征融合以提高識(shí)別率,但未考慮樣本標(biāo)簽對(duì)特征提取的輔助作用。Lee等人[10]提出一種利用標(biāo)簽信息對(duì)各類聲學(xué)場(chǎng)景獨(dú)立學(xué)習(xí)基矩陣的方法,但不同場(chǎng)景可能存在相似的聲學(xué)事件,易造成基向量的冗余和混淆。Bisot等人[11]提出基于邏輯回歸的任務(wù)驅(qū)動(dòng)型NMF(task-driven NMF,TNMF)算法,通過(guò)分類器修正特征學(xué)習(xí)的方式有效提升場(chǎng)景分類效果,但因邏輯回歸分類器性能有限而難以得到更有判別性的特征。
如何利用聲學(xué)特征訓(xùn)練出有效的分類模型是ASC任務(wù)的另一個(gè)難點(diǎn)。隨著深度學(xué)習(xí)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[12]因?yàn)榭梢宰R(shí)別縮放、移位等空間失真不變性[13],在ASC任務(wù)中得到廣泛應(yīng)用。Boddapati等人[14]通過(guò)疊加聲譜圖、梅爾倒譜系數(shù)以及相干復(fù)原圖組成三通道特征,結(jié)合圖像識(shí)別中兩種常用的CNN模型進(jìn)行環(huán)境聲音分類。Doan等人[15]提出一種應(yīng)用于耳蝸?zhàn)V圖的深度CNN模型,通過(guò)加深卷積層個(gè)數(shù)學(xué)習(xí)更豐富的場(chǎng)景信息。曹毅等人[16]將馬爾可夫模型的思想應(yīng)用于CNN,提出一種更適合音頻分類的N階密集CNN模型。雖然上述模型嘗試從不同角度獲取特征圖中的分類信息并取得一定的效果,但均基于一次性提取的無(wú)監(jiān)督特征圖,沒(méi)有考慮在后續(xù)模型訓(xùn)練過(guò)程中對(duì)特征圖本身所包含的信息進(jìn)行優(yōu)化。
針對(duì)以上問(wèn)題,提出一種NMF與CNN聯(lián)合優(yōu)化的有監(jiān)督特征學(xué)習(xí)算法。該算法利用基于NMF的特征表示訓(xùn)練CNN模型,根據(jù)標(biāo)簽信息和實(shí)際訓(xùn)練效果不斷反向優(yōu)化NMF的過(guò)程,自適應(yīng)地調(diào)整特征提取方向以獲得更利于分類的判別性特征。
NMF在對(duì)原始時(shí)頻圖降維的同時(shí)能夠提取出聲學(xué)場(chǎng)景的更好表示[17]。一方面,對(duì)非負(fù)聲譜圖矩陣V進(jìn)行NMF,可理解為聯(lián)合學(xué)習(xí)非負(fù)的基矩陣W與權(quán)值矩陣H,使得V≈WH[18-19]。其中,W的列向量代表特定的聲學(xué)事件,H的列向量對(duì)應(yīng)當(dāng)前時(shí)刻各聲學(xué)事件所占的比重。由于聲學(xué)場(chǎng)景是由不同聲學(xué)事件組成的復(fù)雜多源環(huán)境,因此判斷特定事件是否發(fā)生將有助于分辨不同的場(chǎng)景。另一方面,NMF算法可以與標(biāo)簽信息結(jié)合,不斷修正特征提取過(guò)程,促使基矩陣W對(duì)環(huán)境中聲學(xué)事件的刻畫更加準(zhǔn)確,從而增強(qiáng)NMF特征的表達(dá)能力。
(1)
式中:‖·‖F(xiàn)表示矩陣Frobenius范數(shù);λ表示L2正則化系數(shù),目的是防止基矩陣出現(xiàn)過(guò)擬合。
通過(guò)NMF算法得到基矩陣W,再對(duì)每個(gè)樣本的聲譜圖v在W上利用帶有正約束的最小角回歸算法[20]進(jìn)行投影,得到的權(quán)值矩陣h即為該樣本的NMF特征。
進(jìn)一步,令?f(W,h)/?h=0,有:
h=(WTW+λI)-1WTv
(2)
對(duì)式(2)求微分,有:
dh=-(WTW+λI)-1WTdWh+ (WTW+λI)-1(dW)T(v-Wh)
(3)
式(3)表達(dá)了權(quán)值矩陣h與基矩陣W的微分關(guān)系,利用該式以及樣本的標(biāo)簽信息即可根據(jù)聯(lián)合優(yōu)化算法實(shí)現(xiàn)NMF特征的修正。
NMF作為一種自動(dòng)特征學(xué)習(xí)方法,能夠根據(jù)不同任務(wù)和數(shù)據(jù)集自動(dòng)學(xué)習(xí)到有效特征。在加入標(biāo)簽信息后,NMF可進(jìn)一步調(diào)整特征提取方向,提高對(duì)特定任務(wù)的適應(yīng)性。于是,在文獻(xiàn)[11]的基礎(chǔ)上提出一種聯(lián)合優(yōu)化算法,通過(guò)引入CNN模型實(shí)現(xiàn)NMF與神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練,提取同時(shí)包含生成信息和判別信息[21]的有監(jiān)督NMF(supervised NMF,SNMF)特征。
令神經(jīng)網(wǎng)絡(luò)的損失函數(shù)為ls,有:
(4)
(5)
利用梯度下降法實(shí)現(xiàn)基矩陣的修正:
(6)
式中:ΠW表示對(duì)基矩陣W進(jìn)行L2范數(shù)標(biāo)準(zhǔn)化;ρ代表基矩陣的學(xué)習(xí)率。
在修正后的基矩陣上進(jìn)行投影,得到新的權(quán)值矩陣h即為SNMF特征。
算法具體步驟如下。
步驟 1將訓(xùn)練集樣本的聲譜圖擴(kuò)展后進(jìn)行NMF,得到基矩陣W。
步驟 2將訓(xùn)練集樣本的聲譜圖在基矩陣W上進(jìn)行投影,獲得的權(quán)值矩陣輸入已搭建的CNN模型中進(jìn)行訓(xùn)練。
步驟 3從訓(xùn)練集中隨機(jī)不重復(fù)選取一組樣本的聲譜圖,在基矩陣W上投影得到權(quán)值矩陣h,輸入已訓(xùn)練CNN模型中獲取對(duì)應(yīng)的一組損失值。
步驟 4利用式(6)實(shí)現(xiàn)網(wǎng)絡(luò)損失值對(duì)基矩陣W的修正。
步驟 5在修正后的基矩陣W基礎(chǔ)上重復(fù)步驟3~步驟4,完成整個(gè)訓(xùn)練集樣本對(duì)基矩陣的修正。
步驟 6在修正完畢的基矩陣W基礎(chǔ)上重復(fù)步驟2~步驟5,直到滿足預(yù)設(shè)條件后退出循環(huán)。
聯(lián)合優(yōu)化算法的整體流程如圖1所示。
目前ASC任務(wù)主要采用CNN型深度神經(jīng)網(wǎng)絡(luò)對(duì)二維時(shí)頻特征進(jìn)行分類[22-23]。通過(guò)NMF得到的二維特征同樣包含豐富的分類信息,可使用相似的網(wǎng)絡(luò)結(jié)構(gòu)[10]。在模型的搭建上,一方面,由于各時(shí)間片段里包含的聲學(xué)事件有所不同,為使模型充分學(xué)習(xí)到這些聲學(xué)事件的有效特征,應(yīng)適當(dāng)減少在時(shí)間軸上的池化。另一方面,網(wǎng)絡(luò)中的卷積層數(shù)目對(duì)識(shí)別效果也有一定影響[24]。數(shù)目過(guò)少可能導(dǎo)致網(wǎng)絡(luò)的擬合程度不高;數(shù)目過(guò)多則可能因梯度消失問(wèn)題降低SNMF特征的修正效果。為得到適合SNMF特征的模型,并驗(yàn)證網(wǎng)絡(luò)層數(shù)對(duì)分類效果的影響,在視覺(jué)幾何組網(wǎng)絡(luò)(visual geometry groupnet work, VGGNet)[25]和文獻(xiàn)[3]的基礎(chǔ)上分別搭建卷積層數(shù)目為8、10、12的CNN8、CNN10和CNN12模型進(jìn)行實(shí)驗(yàn)。
模型結(jié)構(gòu)與參數(shù)如表1所示,其中@符號(hào)表示Conv2D卷積層。優(yōu)化器使用隨機(jī)梯度下降算法,批大小為16,模型的訓(xùn)練與SNMF特征的修正交替進(jìn)行。為避免因網(wǎng)絡(luò)收斂過(guò)快而導(dǎo)致修正幅度較小,選擇每訓(xùn)練10輪模型修正1次SNMF特征。每10輪間模型的學(xué)習(xí)率按熱重啟學(xué)習(xí)率策略[3,26]從5×10-3以余弦下降方式衰減到5×10-5,使用交叉熵?fù)p失函數(shù)共訓(xùn)練70輪[11]。
表1 CNN模型結(jié)構(gòu)
實(shí)驗(yàn)所采用的數(shù)據(jù)集為TUT Acoustic Scenes 2017開發(fā)數(shù)據(jù)集[27]。該數(shù)據(jù)集的錄音時(shí)長(zhǎng)總計(jì)13 h,包括沙灘、公交、咖啡館/飯館、汽車、市中心、林蔭道、雜貨店、家、圖書館、地鐵站、辦公室、公園、居民區(qū)、火車、電車在內(nèi)的15種聲學(xué)環(huán)境,每類音頻包含312個(gè)樣本,總共4 680個(gè)樣本。樣本均為采樣率44.1 kHz,精度24位,時(shí)長(zhǎng)10 s的雙聲道音頻。將所有樣本降采樣到22.05 kHz,平均左右聲道數(shù)據(jù)以供后續(xù)使用。根據(jù)官方提供的四折交叉驗(yàn)證方式進(jìn)行數(shù)據(jù)集的劃分與實(shí)驗(yàn),使用準(zhǔn)確率作為最終的評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)硬件配置為Intel(R) Core(TM) i5-10400F CPU、16 GB內(nèi)存、Nvidia GeForce RTX 2060 GPU,軟件環(huán)境為Ubuntu18.04系統(tǒng),Python3.6.11、Tensorflow1.15.0、Keras2.3.1。
NMF特征設(shè)置:幀長(zhǎng)和幀移分別為1 024和512個(gè)采樣點(diǎn),通過(guò)短時(shí)傅里葉變換得到512×431的對(duì)數(shù)聲譜圖。按文獻(xiàn)[11]的方法進(jìn)行池化操作得到512×108的對(duì)數(shù)聲譜圖。擴(kuò)展所有訓(xùn)練樣本的聲譜圖后進(jìn)行NMF得到512×K的基矩陣W,K為基向量數(shù)及特征維數(shù),該基矩陣同時(shí)用作SNMF特征的初始基矩陣。最后在W上重新投影得到K×108的NMF特征。
SNMF特征設(shè)置:正則化系數(shù)λ設(shè)為2×10-2,學(xué)習(xí)率ρ取5×10-4。參數(shù)的選擇來(lái)源于組合實(shí)驗(yàn)的結(jié)果。
其他特征設(shè)置:為了對(duì)比分析,提取由聲譜圖通過(guò)256組梅爾濾波器后獲得的LM特征,尺寸為256×431;每8度取24個(gè)頻帶得到的CQT特征,尺寸為255×431。通過(guò)池化操作后得到256×108的LM特征與255×108的CQT特征。
4.3.1 特征維數(shù)和模型層數(shù)對(duì)準(zhǔn)確率的影響
為說(shuō)明不同特征維數(shù)對(duì)分類準(zhǔn)確率的影響,令分類器為已搭建的CNN10模型,并分別令NMF中基向量的數(shù)目為64、128、256和512以提取4種不同維數(shù)的SNMF特征。如表2所示,為SNMF特征在四折交叉驗(yàn)證下取不同特征維數(shù)時(shí)的準(zhǔn)確率變化情況。
表2 不同特征維數(shù)下的準(zhǔn)確率
由表2可知,K值取64、128和256時(shí),四折數(shù)據(jù)劃分下的識(shí)別準(zhǔn)確率均隨著特征維數(shù)的增加而提高。說(shuō)明隨著基向量的增多,基矩陣對(duì)聲學(xué)場(chǎng)景中各聲學(xué)事件的學(xué)習(xí)更加充分,能夠從聲譜圖中學(xué)習(xí)到更細(xì)分的基事件,使提取的SNMF特征中包含更多的區(qū)分信息。但當(dāng)K值大于256時(shí),識(shí)別準(zhǔn)確率發(fā)生一定下降,說(shuō)明K值并非越大越好。因?yàn)?此時(shí)多余的基向量學(xué)習(xí)到的是噪聲和冗余信息,將對(duì)識(shí)別效果產(chǎn)生一定干擾。
表3為K=256時(shí)SNMF特征在模型取不同層數(shù)時(shí)對(duì)識(shí)別準(zhǔn)確率的影響。
分析表3可知,模型的層數(shù)會(huì)對(duì)識(shí)別準(zhǔn)確率產(chǎn)生較大影響。層數(shù)較低時(shí),因?yàn)榫W(wǎng)絡(luò)欠擬合而導(dǎo)致分類效果不佳;而層數(shù)較高時(shí)則容易因網(wǎng)絡(luò)過(guò)深而產(chǎn)生梯度消失問(wèn)題。由于聯(lián)合優(yōu)化算法的效果依賴于網(wǎng)絡(luò)損失值的梯度反向傳播,若出現(xiàn)梯度消失將會(huì)使SNMF特征的修正程度不高,從而降低聯(lián)合優(yōu)化算法的效果。
4.3.2 不同特征之間的對(duì)比
為驗(yàn)證聯(lián)合優(yōu)化算法的實(shí)際效果,將SNMF特征與TUT2017數(shù)據(jù)集的官方基線系統(tǒng)[27]、無(wú)監(jiān)督NMF特征、以對(duì)數(shù)聲譜圖為基礎(chǔ)提取的TNMF特征[11]、CQT特征與LM特征進(jìn)行對(duì)比。其中,NMF特征和SNMF特征的特征維數(shù)K=256。為保證所有特征能夠擁有適合其自身特點(diǎn)的分類器,令NMF與SNMF特征的分類器為CNN10模型,TNMF特征的分類器同文獻(xiàn)[11],而LM和CQT特征則選取在2020年聲學(xué)場(chǎng)景和事件的檢測(cè)與分類挑戰(zhàn)賽(Detection and Classification of Acoustic Scenes and Events,DCASE)中表現(xiàn)優(yōu)異的類VGGNet模型[28]。獲得的分類結(jié)果如表4所示。
分析表4可知,與CNN結(jié)合的無(wú)監(jiān)督NMF特征和SNMF特征的識(shí)別準(zhǔn)確率分別高出基線系統(tǒng)4.9%和8.8%,說(shuō)明NMF與CNN結(jié)合是一種有效的識(shí)別方法。同時(shí),即使未使用聯(lián)合優(yōu)化算法的NMF特征也要優(yōu)于使用邏輯回歸分類器的TNMF特征,說(shuō)明分類器的性能對(duì)識(shí)別結(jié)果有著較大影響。另外,通過(guò)聯(lián)合優(yōu)化算法獲取的SNMF特征識(shí)別準(zhǔn)確率達(dá)到83.6%,分別高出NMF特征3.9%、CQT特征3.1%和LM特征2.3%,說(shuō)明聯(lián)合優(yōu)化算法有助于提取更優(yōu)的特征。原因是與CNN分類器相結(jié)合的有監(jiān)督特征學(xué)習(xí)方式能夠利用標(biāo)簽信息和實(shí)際分類效果不斷調(diào)整NMF中基矩陣內(nèi)的參數(shù),提高基向量的表征能力,從而獲取更有判別性的特征。
由表4還可知,在不同類別場(chǎng)景下的分類效果方面,SNMF特征在所有類別中準(zhǔn)確率的最大值與最小值之間的差值最小,說(shuō)明SNMF特征有更好的穩(wěn)定性。另外,無(wú)論哪一種特征,在汽車、市中心、辦公室、電車等類別的分類上均表現(xiàn)良好,而在某些類別的分類上性能卻不高,如飯館、圖書館、公園和居民區(qū)。這主要是因?yàn)樵肼曈绊懯蛊渚哂械奶囟晫W(xué)事件變得模糊不清,或是該類聲學(xué)場(chǎng)景中具有易與其他聲學(xué)場(chǎng)景造成混淆的相似聲學(xué)事件[29-30]。而在測(cè)試集樣本的總預(yù)測(cè)時(shí)間方面,幾種特征沒(méi)有明顯的區(qū)別,都能夠滿足一般場(chǎng)景下的實(shí)時(shí)性要求。
為解決ASC任務(wù)中特征提取與模型訓(xùn)練的聯(lián)合優(yōu)化問(wèn)題,首先對(duì)聲譜圖進(jìn)行NMF,得到基矩陣和權(quán)值矩陣,然后搭建并訓(xùn)練CNN模型,根據(jù)訓(xùn)練結(jié)果反向更新基矩陣以獲得修正的SNMF特征,實(shí)現(xiàn)一種NMF與CNN聯(lián)合優(yōu)化的有監(jiān)督特征學(xué)習(xí)方法。得出結(jié)論如下:
(1) 提高特征維數(shù)有利于學(xué)習(xí)更細(xì)分的基事件,但維數(shù)過(guò)高則會(huì)因噪聲和冗余信息降低識(shí)別效果;
(2) 由于聯(lián)合優(yōu)化算法依賴于梯度反向傳播,過(guò)高的網(wǎng)絡(luò)層數(shù)會(huì)引起梯度消失從而影響算法的優(yōu)化效果;
(3) 相較于直接使用NMF特征,聯(lián)合優(yōu)化后的SNMF特征能夠使分類準(zhǔn)確率得到明顯提升;
(4) 所提方法實(shí)現(xiàn)了特征提取與網(wǎng)絡(luò)訓(xùn)練的聯(lián)合優(yōu)化,是一種有效的聲學(xué)場(chǎng)景分類方法。