董紹江,劉 偉
(重慶交通大學(xué) 機(jī)電與車輛工程學(xué)院, 重慶 400074)
人類周圍的聲音大致可以分為3類:環(huán)境聲音[1]、音樂、語音,因此智能聲音識(shí)別(ISR)包括環(huán)境聲音分類(ESC)、音樂信息識(shí)別(MIR)和自動(dòng)語音識(shí)別(ASR)。其中,ESC在生活中應(yīng)用十分廣闊,常應(yīng)用于電力設(shè)備[2]、醫(yī)院和地鐵站的異常監(jiān)測等場景。但是,環(huán)境聲音具有復(fù)雜變化的時(shí)頻特性,因此ESC比MIR和ASR更難。
針對(duì)上述問題,許多學(xué)者對(duì)ESC進(jìn)行了大量的研究??傮w而言,ESC主要由特征提取和分類網(wǎng)絡(luò)兩部分組成,通過計(jì)算獲得過零率(ZCR)[3]和梅爾頻率倒譜系數(shù)(MFCC)[4]等特征表示,然后通過矩陣分解、支持向量機(jī)等機(jī)器學(xué)習(xí)模型進(jìn)行特征提取,但是通常這類方法比較耗時(shí)且缺乏創(chuàng)新性。
注意力機(jī)制在很多領(lǐng)域都有應(yīng)用,如目標(biāo)檢測、數(shù)據(jù)挖掘等。在環(huán)境聲音識(shí)別領(lǐng)域,Tripathi等[5]將神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制結(jié)合,在ESC數(shù)據(jù)集中取得了相當(dāng)好的結(jié)果。SE[6]模塊是通道注意力機(jī)制,而CBAM[7]模塊是空間通道注意力機(jī)制,它們都屬于典型的注意力機(jī)制。其中,通道注意力機(jī)制首先會(huì)計(jì)算不同特征通道的重要程度,然后分配相應(yīng)的權(quán)重以適配通道的重要性,但是SE注意力機(jī)制模塊會(huì)將二維特征圖壓縮為一維,這會(huì)導(dǎo)致某些空間位置信息丟失??臻g通道注意力機(jī)制除了利用不同通道特征外,還利用不同空間位置信息,一定程度上是優(yōu)于通道注意力機(jī)制的。
為了充分利用從環(huán)境聲中提取的Log-Mel譜圖的空間與通道相關(guān)性,提出了一種基于密集連接卷積網(wǎng)絡(luò)(DenseNet)的空間通道注意力機(jī)制,可以使網(wǎng)絡(luò)模型更加關(guān)注語義相關(guān)和突出的特征,從而提高ESC算法分類準(zhǔn)確率。此外,為了解決聲音數(shù)據(jù)不足引起的模型過擬合現(xiàn)象,將混合在線數(shù)據(jù)增強(qiáng)方法應(yīng)用于Log-Mel譜圖,并在2個(gè)公開數(shù)據(jù)集ESC-50和ESC-10上測試驗(yàn)證了所提方法的適用性。結(jié)果表明,提出的空間通道注意力機(jī)制模型能夠使神經(jīng)網(wǎng)絡(luò)更加關(guān)注顯著特征。
在給定環(huán)境聲音信號(hào)的場景下,采用Librosa庫[8]提取LogMel譜圖。窗口長度設(shè)置為2 048,步長設(shè)置為512,梅爾濾波器的數(shù)量設(shè)置為128,最后將像素值限制在0~255。經(jīng)過上述步驟后,將ESC-10和ESC-50數(shù)據(jù)集的Log-Mel譜圖大小設(shè)置為128*431*1(對(duì)應(yīng)頻率*時(shí)間*通道數(shù)),然后將特征譜圖作為網(wǎng)絡(luò)的輸入。ESC-50數(shù)據(jù)集的Log-Mel譜圖示例如圖1所示。
因?yàn)槊芗B接卷積網(wǎng)絡(luò)[9](DenseNet)在圖像識(shí)別領(lǐng)域有成功應(yīng)用的先例,所以提出了基于DenseNet的網(wǎng)絡(luò)結(jié)構(gòu)。DenseNet的本質(zhì)是增加后續(xù)層輸入的變量,并通過連接不同層學(xué)習(xí)的特征圖來提高效率。圖2為DenseNet的主要結(jié)構(gòu)。
圖2 DenseNet的主要結(jié)構(gòu)
具體來說,第N層將先前層F0、…、FN-1處理后的特征圖作為輸入:
FN=HN[concat(F0,F1,…,FN-1)]
(1)
式中:concat是沿通道進(jìn)行的拼接操作;HN被定義為3種連續(xù)操作的復(fù)合函數(shù),即批量歸一化(BN)、線性整流函數(shù)(ReLU)和卷積核大小為(3,3)的卷積操作。對(duì)densnet網(wǎng)絡(luò)不同層的描述如表1所示。
表1 對(duì)densnet網(wǎng)絡(luò)不同層的描述
表1中的每個(gè)“conv”層表示順序操作BN-ReLU-Conv,其中網(wǎng)絡(luò)的輸出層包含的節(jié)點(diǎn)等于不同數(shù)據(jù)集中種類數(shù)。圖3為所提出的網(wǎng)絡(luò)模型框架。
圖3 網(wǎng)絡(luò)模型框架
1.3.1空間注意力模型
當(dāng)環(huán)境聲音受到無聲片段影響時(shí),意味著應(yīng)該為相應(yīng)的幀級(jí)特征分配不同的權(quán)重。為了解決ESC中普遍存在的問題,引入了空間注意力模塊來關(guān)注特征圖的空間位置信息,從而提高ESC中網(wǎng)絡(luò)的性能??臻g注意力模型如圖4所示。
圖4 空間注意力模型
獲得空間注意力特征圖的主要步驟如下:
將一個(gè)大小為(H*W*C)的特征圖M輸入網(wǎng)絡(luò),通過卷積核(H*1)和(1*W)分別沿橫軸和縱軸對(duì)每個(gè)通道進(jìn)行編碼,因此第c通道在頻率h,時(shí)間w處的輸出可表示為:
(2)
(3)
將式(2)和式(3)得到的特征圖進(jìn)行拼接,最后進(jìn)行卷積運(yùn)算,如式(4)所示。
(4)
式中:ReLU為激活函數(shù);conv為一種卷積運(yùn)算,卷積核大小為(1,1);BN為批量歸一化;f∈R(H+W)C/r是融合特征圖,涵蓋2個(gè)方向上的空間信息,即水平和垂直方向;r為沿通道維度的壓縮比,設(shè)置為8;f是沿空間維度被分割成的2個(gè)獨(dú)立張量,即fh∈RH×C/r和fh∈RW×C/r,后面是2個(gè)卷積運(yùn)算convh和convw,包含的卷積核總數(shù)等于輸入特征圖M的通道數(shù),卷積核大小為(1,1)。
zh=σ(convh(fh))
(5)
zw=σ(convw(fw))
(6)
將式(4)的結(jié)果分別代入式(5)和式(6),得到zh和zw,分別為包含沿水平方向和垂直方向信息的張量,其中σ是sigmoid激活函數(shù)。最后,將式(5)和式(6)的結(jié)果代入式(7),得到最終的注意力特征圖S。
(7)
從式(7)可以看出,最后的注意力特征圖Sc(i,j)的每個(gè)位置的值是通過原始特征圖Mc(i,j) 乘以包含水平方向信息和垂直方向信息的張量加權(quán)而得來的,這樣可以精確定位特征圖的突出區(qū)域。
1.3.2通道注意力模型
要使網(wǎng)絡(luò)更加關(guān)注顯著特征的通道,應(yīng)用通道注意力機(jī)制將十分有效。在眾多通道注意力機(jī)制中,SE注意力機(jī)制[10]是典型的通道注意力機(jī)制,圖5為SE通道注意力機(jī)制模型。通常SE分為2個(gè)步驟操作:壓縮和激勵(lì)。壓縮是一種獲得全局特征向量的方式,具體操作是全局平均池化特征圖的空間維度。而激勵(lì)操作是將壓縮后的特征向量輸入兩層全鏈接層,獲得注意力權(quán)重矩陣,之后再與原始特征圖的對(duì)應(yīng)通道相乘,得到增強(qiáng)后的特征圖。
圖5 SE通道注意力機(jī)制模型
輸入的特征圖xc(i,j)首先要全局平均池化,池化公式如下:
(8)
然后通過激勵(lì)操作獲得每個(gè)特征通道對(duì)應(yīng)的權(quán)重,可由式(9)定義。
wc=σ[conv2(ReLU(conv1(gc)))]
(9)
式中:wc代表第c個(gè)通道對(duì)應(yīng)的注意力權(quán)重;σ代表sigmoid激活函數(shù);conv1代表含有C/r個(gè)卷積核,卷積核大小為(1,1);conv2為含有C個(gè)卷積核的卷積運(yùn)算,卷積核大小也為(1,1),卷積核中會(huì)進(jìn)行卷積運(yùn)算;r是特征通道維數(shù)壓縮比,設(shè)置為8。
經(jīng)過增強(qiáng)后的特征圖可由式(10)得到。
zc=wc⊙fc
(10)
式中:zc表示經(jīng)過增強(qiáng)的第c個(gè)特征圖;⊙為對(duì)應(yīng)通道相乘;fc∈RH×W表示第c個(gè)原始特征圖。
1.3.3空間通道注意力模型
由于卷積運(yùn)算獲得的跨通道信息與空間信息之間的關(guān)系錯(cuò)綜復(fù)雜,因此增加對(duì)二者的注意力機(jī)制,突出關(guān)鍵特征至關(guān)重要。具體來說,通道注意力機(jī)制更加關(guān)注顯著特征的通道,空間注意力機(jī)制有助于突出特征圖中特定的空間位置信息,因此可以將通道和空間2種注意力機(jī)制結(jié)合,從而得到更好的處理結(jié)果。圖6為提出的空間通道注意力機(jī)制模型。
由式(10)可得到經(jīng)過空間通道注意力模型增強(qiáng)后的特征圖。
Rc(i,j)=zc⊙Sc(i,j)
(11)
式中:⊙代表對(duì)應(yīng)通道相乘;zc和Sc(i,j)代表由通道注意力模型和空間注意力模型得到的增強(qiáng)后的特征圖。
圖6 空間通道注意力機(jī)制模型
為了解決數(shù)據(jù)不足導(dǎo)致的過擬合問題,采用混合[11]數(shù)據(jù)增強(qiáng)方法對(duì)離散樣本空間進(jìn)行線性插值,以提高鄰域的平滑度?;旌纤惴ǘx如下。
(12)
(13)
式中:xi和xj是來自訓(xùn)練數(shù)據(jù)集中的2個(gè)樣本特征,為隨機(jī)選取且具有泛化性;yi和yj是相應(yīng)的one-hot標(biāo)簽;λ是服從參數(shù)為α和β的Beta分布,即λ~Beta(α,β),其中α和β都為0.2。圖7為幾個(gè)ESC-10數(shù)據(jù)集中的Log-Mel譜圖混合增強(qiáng)的例子,用紅色框圈出來的數(shù)值表示的是2種不同類型的Log-Mel譜圖的混合比例,兩者混合比例之和為1。可以將2種不同類別的Log-Mel譜圖以隨機(jī)比例混合形成新的特征圖,以實(shí)現(xiàn)數(shù)據(jù)的混合增強(qiáng)。
在2個(gè)公開的聲音識(shí)別數(shù)據(jù)集上(ESC-10、ESC-50[12])對(duì)所提方法的優(yōu)劣進(jìn)行了驗(yàn)證實(shí)驗(yàn)。這2個(gè)數(shù)據(jù)集是通過Freesound項(xiàng)目公開獲得的錄音中的聲音片段構(gòu)建的,聲音樣本以44.1 kHz,單通道,192 kbit/s的Ogg-Voorbis格式進(jìn)行壓縮,數(shù)據(jù)集的格式為wav。對(duì)2個(gè)數(shù)據(jù)集的描述如下。
ESC-50數(shù)據(jù)集:該數(shù)據(jù)集的音頻總時(shí)長為2.8 h,它是擁有2 000個(gè)環(huán)境聲音音頻的集合,其中的每個(gè)音頻的時(shí)長有5 s。整個(gè)集合共有50個(gè)語義類(其中每類都有40個(gè)樣本例子),可粗略的分為5大類聲音:自然環(huán)境音、動(dòng)物叫聲、流水聲、人類非交流聲以及室內(nèi)室外聲。數(shù)據(jù)集預(yù)先劃分為5個(gè)部分,以便于后續(xù)的交叉驗(yàn)證。
ESC-10數(shù)據(jù)集:該數(shù)據(jù)集可以看成是ESC-50數(shù)據(jù)集的一個(gè)子集,類別總數(shù)為10類(海浪聲、狗吠聲、雨聲、嬰兒啼哭聲、時(shí)鐘滴答聲、打鼾聲、直升機(jī)飛行聲、公雞打鳴聲、電鋸聲、火焰燃燒聲)。每個(gè)類別也包含40條音頻。
實(shí)驗(yàn)是在Window 10操作系統(tǒng),顯存8 GB,內(nèi)存32 GB,顯卡為英偉達(dá)RTX2080的硬件環(huán)境下完成的。深度學(xué)習(xí)框架為Python-Tensorflow-2.5.0版本,采用Python語言編程。
在訓(xùn)練階段,采用的損失函數(shù)為交叉熵函數(shù),迭代次數(shù)設(shè)置為300,初始學(xué)習(xí)率為0.000 02,然后每迭代50次后將學(xué)習(xí)率縮小10倍,batchsize設(shè)置為32。樣本在訓(xùn)練前是亂序的,網(wǎng)絡(luò)權(quán)重是隨機(jī)初始化的,Adam優(yōu)化器用于優(yōu)化損失函數(shù)。在測試階段,網(wǎng)絡(luò)的最終準(zhǔn)確率為交叉驗(yàn)證后的平均準(zhǔn)確率。訓(xùn)練和測試階段涉及的Log-Mel譜圖均采用訓(xùn)練集的全局平均值和標(biāo)準(zhǔn)差進(jìn)行歸一化操作。
表2為所提出的網(wǎng)絡(luò)與現(xiàn)有最好的環(huán)境聲音分類方法的最佳準(zhǔn)確率,模型的最終準(zhǔn)確率為交叉驗(yàn)證后的平均準(zhǔn)確率。
由表2可以看出,所提網(wǎng)絡(luò)模型在2個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別為94.3%和79.3%,與大部分現(xiàn)有網(wǎng)絡(luò)相比,準(zhǔn)確率有明顯提升。與MCTA-CNN相比,所提模型在2個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率下降了0.2%和7.8%,這是由于MCTA-CNN是通過多通道時(shí)間注意力機(jī)制和離線數(shù)據(jù)增強(qiáng)的方法(ESC-10為1 600個(gè)樣本,ESC-50為8 000 個(gè)樣本)來訓(xùn)練的,使用Log-Mel譜圖、一階變量和二階變量的特征圖沿通道維度進(jìn)行堆疊作為輸入,整個(gè)過程十分繁雜耗時(shí)。所提的方法實(shí)施起來是比較簡單的,但代價(jià)是準(zhǔn)確率略有下降,但已能夠滿足生活中大部分聲音識(shí)別的場景。
表2 所提網(wǎng)絡(luò)和現(xiàn)有網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率 %
2.3.1模型在ESC-10上的分類效果
圖8為所提網(wǎng)絡(luò)模型在ESC-10數(shù)據(jù)集的混淆矩陣,模型的平均準(zhǔn)確率為94.3%。
圖8 在ESC-10數(shù)據(jù)集上的混淆矩陣
從圖8可以看出,電鋸(Chainsaw)、直升機(jī)(Helicopter)和打鼾(Sneezing)的聲音都獲得了100%的識(shí)別率。大多數(shù)聲音識(shí)別的準(zhǔn)確率都高于90%(36/40)。其中嬰兒啼哭聲(Crying baby)識(shí)別準(zhǔn)確率最低,為85.0%(34/40),分別有10%(4/40)、2.5%(1/40)和2.5%(1/40)的樣本被誤分類為時(shí)鐘滴答聲(Clock tick)、犬吠聲(Dog)和火焰燃燒聲(Crackling fire),因?yàn)樯鲜鲞@些環(huán)境聲音特征非常相似,所以可能導(dǎo)致分類錯(cuò)誤。
如圖9所示,為了便于體現(xiàn)所提出的模型的有效性,從2個(gè)角度(即二維視圖(2D)和三維視圖(3D))使用t-SNE算法,分別對(duì)ESC-10的原始數(shù)據(jù)集和訓(xùn)練后得到的特征分布通過Softmax層進(jìn)行可視化表示。需要注意在圖9中的同一聲音類別的樣本點(diǎn)顏色相同。
由圖9可以發(fā)現(xiàn),ESC-10的原始數(shù)據(jù)集的潛在特征分布是混亂無序的,不同類別之間相互交錯(cuò),可分性差。通過網(wǎng)絡(luò)模型訓(xùn)練后,潛在特征分布變得更加緊湊,同一類別的大多數(shù)樣本會(huì)匯聚在一起,并且可分離性較強(qiáng)。
圖9 模型訓(xùn)練前后ESC-10數(shù)據(jù)集潛在特征分布
2.3.2模型在ESC-50上的分類效果
圖10為所提模型在ESC-50數(shù)據(jù)集上的混淆矩陣,模型的平均識(shí)別準(zhǔn)確率為79.3%。從圖10可以看出,雨聲(Rain)的識(shí)別準(zhǔn)確率為20%(8/40),是所有聲音類型中識(shí)別率最低的,大多數(shù)的雨聲被錯(cuò)誤地識(shí)別為犬吠聲(Dog)(6/40)、貓叫聲(Cat)(5/40)、水滴聲(Water drops)(4/40)和海浪聲(Sea waves)(4/40),這主要是雨的頻率響應(yīng)范圍很寬造成的。此外,響雷聲(Thunderstorm)、煙花爆竹聲(Fireworks)、腳步聲(Footsteps)和玻璃破碎聲(Glass breaking)有97.5%(39/40)的識(shí)別準(zhǔn)確率,是所有聲音類型中識(shí)別率最高的。
圖10 在ESC-50數(shù)據(jù)集上的混淆矩陣
除了在公共數(shù)據(jù)集上驗(yàn)證網(wǎng)絡(luò)模型性能外,還收集了現(xiàn)實(shí)世界中的一些環(huán)境聲音片段,并用訓(xùn)練好的網(wǎng)絡(luò)模型識(shí)別其聲音類別,如圖11所示。
圖11 環(huán)境聲音采集場景
以上每個(gè)場景都收集了3段5 s的聲音片段,所以總共有12段環(huán)境聲音片段進(jìn)行實(shí)際場景測試。經(jīng)過預(yù)處理后,上述場景聲音的Log-Mel譜圖示例如圖12所示。
圖12 實(shí)際聲音場景的Log-Mel譜圖
隨后,將采集的音頻輸入訓(xùn)練好的模型進(jìn)行分類,檢驗(yàn)其識(shí)別準(zhǔn)確率,測試結(jié)果的混淆矩陣如圖13所示。
圖13 采集的環(huán)境聲音片段的混淆矩陣
從圖13可以看出,網(wǎng)絡(luò)模型對(duì)于采集的環(huán)境聲音片段的分類準(zhǔn)確率約為91.67%,沒有準(zhǔn)確識(shí)別所有音頻的原因可能是分類有誤的兩類聲音時(shí)頻域特征比較相似。還需要注意的是上述環(huán)境聲音片段是利用手機(jī)麥克風(fēng)進(jìn)行采集的,并沒有使用專業(yè)的錄音設(shè)備。
1) 空間和通道結(jié)合的注意力機(jī)制模型相比于單一的通道注意力機(jī)制或空間注意力機(jī)制模型更有優(yōu)勢(shì),用來訓(xùn)練網(wǎng)絡(luò)效果更佳。
2) 采用混合增強(qiáng)保證數(shù)據(jù)的多樣性,可以提高模型的泛化能力以及識(shí)別的準(zhǔn)確率。
未來將嘗試?yán)糜?jì)算機(jī)視覺領(lǐng)域的方法,找出更簡單、更可行、更有效的方法來解決環(huán)境聲音分類的關(guān)鍵問題。