林巧穎, 陳 寧
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
與語音和音樂信號不同,場景相關(guān)的聲音信號攜帶著大量日常生活環(huán)境以及發(fā)生于其中的事件信息。由于音頻場景中大部分音頻信號為短時非平穩(wěn)信號,不具備固定的音源,聲源復(fù)雜且音頻事件高度重疊,適用于語音與音樂分類的方法已不再適用音頻場景分類,因此音頻特征的有效提取以及基于深度學(xué)習(xí)的分類模型的建立對音頻場景分類任務(wù)至關(guān)重要。目前,研究能夠表現(xiàn)音頻場景中的典型示例的特征提取方法,并在此基礎(chǔ)上實現(xiàn)有效的場景分類已成為該領(lǐng)域的研究熱點,其潛在的應(yīng)用領(lǐng)域包括機(jī)器人導(dǎo)航系統(tǒng)[1]、情境感知設(shè)備[2],以及可根據(jù)音頻場景進(jìn)行自動模式切換的智能手機(jī)[3]。
傳統(tǒng)的用于音頻場景分類的特征提取模型大多借鑒語音信號處理和聽覺感知技術(shù),如梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)[4]。這類特征抗干擾性強(qiáng),但只能分析信號的短時特征,無法完整刻畫整個音頻數(shù)據(jù)的結(jié)構(gòu)特點,存在一定的局限性。一些學(xué)者提出利用對數(shù)梅爾頻譜特征(Log Mel Spectrogram)[5-7]保留高頻能量,從而對場景音頻中的大動態(tài)范圍[8]進(jìn)行有效補充。然而,由于場景音頻信號是自然音頻信號,存在較多的背景噪聲,頻率變化劇烈,且大多數(shù)頻譜能量位于低頻范圍[9],對數(shù)梅爾頻譜特征亦存在一定局限性。
在特征分類方面,一些研究人員提出用結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)(Recurrant Neural Network, RNN)和K-近鄰(K-Nearest Neighbor, KNN)準(zhǔn)則的分類器。此后,考慮到音頻樣本中音頻事件在時域上的演進(jìn),研究者又提出采用隱馬爾可夫模型(Hidden Markov Model, HMM)刻畫聲音頻譜分量在時域的上下文信息,從而提高識別精度。近年來,隨著深度學(xué)習(xí)的發(fā)展[10],基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的分類模型被成功地引入場景分類領(lǐng)域。
最新的研究表明,特殊音頻事件的識別有助于提高音頻場景的分類準(zhǔn)確性[11]。此類音頻場景分類模型首先對音頻事件進(jìn)行檢測,然后在此基礎(chǔ)上進(jìn)行音頻場景分類。由于音頻事件之間存在重疊且聲源數(shù)量未知,音頻事件的檢測相對較為困難。為了解決這一問題,文獻(xiàn)[12]提出了基于多示例學(xué)習(xí)的場景分類方法。傳統(tǒng)的訓(xùn)練方法中,音頻場景由單一的特征向量表示。而多示例學(xué)習(xí)(Multi Instance Learning, MIL)算法則是用示例包(包含多個特征向量)來表示目標(biāo)音頻場景,場景標(biāo)簽為示例包標(biāo)簽,而非示例包內(nèi)的具體示例。多示例學(xué)習(xí)旨在訓(xùn)練出基于場景示例包的分類器[13],該模型目前已成功應(yīng)用于音頻事件檢測[14-16]和鳥聲分類[17]等領(lǐng)域。
目前現(xiàn)有的算法仍無法實現(xiàn)像人耳那樣對聽覺場景準(zhǔn)確地分類,主要原因包括兩個方面:第一,現(xiàn)有的特征提取算法大多基于頻率的線性分隔,這與人耳基底膜的非線性頻率選擇特性不匹配,從而造成特征分辨率低下的問題;第二,沒有將人耳聽覺感知特性與多示例分析有機(jī)地結(jié)合,從而造成分類準(zhǔn)確率不高的問題。
為了解決以上問題,本文提出了基于耳蝸圖多示例分析的音頻場景分類模型(ASC-MIL)。首先,利用中心頻率信號呈對數(shù)分布的濾波器組對音頻進(jìn)行濾波并構(gòu)造耳蝸圖[18];然后,將耳蝸圖輸入VGGNet 網(wǎng)絡(luò)提取其深層語義特征;最后,對深層語義特征進(jìn)行多示例分析,捕捉其場景標(biāo)簽之間的潛在關(guān)系[19]。其中,在多示例分析方法的分類預(yù)測整合器中采用了平均池化方法,可以有效地保留音頻場景的整體特征以及音頻場景背景噪聲特征。在DCASE 2018 Task 1A 和DCASE 2019 Task 1A 數(shù)據(jù)集上的實驗結(jié)果表明,本文模型取得了比文獻(xiàn)[12]更高的分類準(zhǔn)確率。
ASC-MIL 的模型框圖如圖1 所示,主要由基于耳蝸圖分析的特征提取模塊和基于多示例分析的分類模塊組成。
圖1 ASC-MIL 模型框圖Fig. 1 Block diagram of ASC-MIL model
在特征提取階段,為了模擬人耳聽覺感知特性,采用了文獻(xiàn)[18]提出的耳蝸圖分析方法。
首先,采用式(1)所示的等效矩形帶寬余弦濾波器(Equivalent Rectangular Bandwidth Cosine Filter)組成的濾波器組對輸入信號進(jìn)行濾波。
其次,從人耳感知特性上看,聲音信號的包絡(luò)攜帶可用于重建聽覺感知難以區(qū)分的信息,采用低通濾波器對各濾波器組的輸出進(jìn)行濾波以提取其包絡(luò)信息。
為了模擬耳蝸可以對不同程度的聲音進(jìn)行非線性壓縮的特性,對各濾波的包絡(luò)輸出進(jìn)行非線性壓縮處理,得到壓縮包絡(luò)。非線性處理如式(3)所示:
文獻(xiàn)[18]提出壓縮包絡(luò)的幅度在高頻部分取值通常很低,對聽覺感知特性的表征影響不大。因此,為了進(jìn)一步提高模型的計算效率,本文采用文獻(xiàn)[18]的處理方式,對壓縮包絡(luò)進(jìn)行采樣率為400 Hz 的降采樣處理。所得的音頻樣本聽覺感知特征記為X。
如圖1 所示,基于多示例分析的分類模塊由音頻示例生成器(Instance generator)、音頻示例檢測器(Instance detectors)以及分類預(yù)測整合器(Prediction aggregator)組成。
1.2.2 音頻示例檢測器 考慮到每個音頻場景包含多個音頻事件,為了捕獲多示例與多個音頻場景標(biāo)簽之間的潛在關(guān)系,采用文獻(xiàn)[20]提出的Subconcepts 層作為音頻場景多示例檢測器。假定每個音頻場景標(biāo)簽具有若干個Sub-concepts,而多示例檢測器中的Sub-concepts 層能夠模擬單個音頻示例與所有音頻場景標(biāo)簽的Sub-concepts 之間的匹配分?jǐn)?shù)。示例j與音頻場景l(fā)的第k個Sub-concepts 之間的匹配分?jǐn)?shù)記為ajlk,可由公式(4)計算:
為了防止過擬合,在每個卷積塊的二維卷積層后增加了舍棄概率為0.5 的Dropout 層。
實驗分別采用DCASE 2018 Task 1A 和DCASE 2019 Task 1A 數(shù)據(jù)集作為實驗對象。其中DCASE 2018 Task 1A 包含8 640 段采樣率為44.1 kHz、長度為10 s 的來自6 個歐洲城市的機(jī)場、商場、巴士、地鐵站、街道-人行道、街道-機(jī)動車道、廣場、電車、地鐵車廂、公園共10 個音頻場景的樣本,總時長24 h。DCASE 2019 Task 1A 包含14 400 段采樣率為48 kHz、長度為10 s 的來自12 個歐洲城市的10 個同樣音頻場景的樣本。DCASE 2018 Task 1A 和DCASE 2019 Task 1A 中訓(xùn)練集和驗證集的數(shù)目之比分別為6 122∶2 518 和10 080∶4 186。
式(2)中采樣因子s表征了等效矩形帶寬余弦濾波器組中帶通濾波器分布的疏密程度。當(dāng)s分別取1、2、4 時,相鄰帶通濾波器之間分別重疊50%、75%、87.5%。此外,s還決定了濾波器組所包含的低通濾波器與高通濾波器的個數(shù)。具體取值見表1。
表1 采樣因子取值對濾波器個數(shù)的影響Table 1 Effect of sample factor on the numbers of filters
為了在計算效率和特征分辨率之間進(jìn)行平衡,本文采用s=2 時的濾波器組對輸入進(jìn)行非線性頻率映 射。
考慮到某些出現(xiàn)概率極低的音頻事件可能對整段音頻的場景分類產(chǎn)生重大影響,文獻(xiàn)[21]采用對音頻樣本進(jìn)行分割的方法,將罕見音頻事件限制于少數(shù)音頻片段,從而降低對整段音頻場景的影響。因此,在數(shù)據(jù)預(yù)處理階段,本文首先對輸入音頻進(jìn)行分割預(yù)處理再進(jìn)行耳蝸圖特征提取。
2.3.1 音頻樣本切分長度對模型性能的影響 音頻片段的長度對模型性能有一定的影響,片段越短,音頻場景的分類準(zhǔn)確率相對越高。同時,分割后的音頻片段所提取的耳蝸圖特征維度較小,系統(tǒng)處理速度快,具有較強(qiáng)的實時性。本文以DCASE 2018 Task 1A 數(shù)據(jù)集作為實驗對象,均以音頻時長為2 s 的音頻片段進(jìn)行實驗,表2 示出了實驗結(jié)果。
表2 音頻樣本切分長度對模型性能的影響Table 2 Effect of audio samples segmentation length on model performance
2.3.2 特征提取方式對模型性能的影響 為了驗證耳蝸圖特征提取方法對分類性能的影響,分別采用語譜圖(Spectrogram)、MFCC 以及耳蝸圖特征作為模型的輸入,表3 示出了實驗結(jié)果。可以看出耳蝸圖特征優(yōu)于語譜圖和MFCC 特征。可能的原因是耳蝸圖特征能夠模擬人耳基底膜的頻率選擇特性,因此提高了特征的分辨率,能更有效地刻畫場景音頻的整體特征。
2.3.3 分類器的選擇對模型性能的影響 為了驗證分類器對模型性能的影響,分別采用SVM、最大池化層(MaxPool)和平均池化層(AvgPool)作為分類器。表3 的實驗結(jié)果表明,平均池化層在音頻場景分類任務(wù)中優(yōu)于最大池化層和SVM 分類器??赡艿脑蚴瞧骄鼗瘜訉⒁纛l幀級的分類概率求平均得到音頻樣本的分類概率,在一定程度上解決了音頻事件頻移對場景分類的影響[19]。
2.3.4 音頻場景分類模型性能比較 為了進(jìn)一步驗證ASC-MIL 模型優(yōu)于其他音頻場景分類模型,實驗比較了2018 年DCASE Task1 Subtask B 官方基線模型[5]、文獻(xiàn)[12]提出的模型和ASC-MIL 模型的分類準(zhǔn)確率,實驗結(jié)果如表3 所示。結(jié)果表明:(1)相較于2018 年DCASE Task1 Subtask B 官 方 基 線 模 型,ASC-MIL 模型在2018 Task 1A 和2019 Task 1A 數(shù)據(jù)集上分類準(zhǔn)確率分別提高了9.4%和16.5%;(2)相較于文獻(xiàn)[12]提出的模型,ASC-MIL 模型在2018 Task 1A 和2019 Task 1A 數(shù)據(jù)集上分類準(zhǔn)確率分別提高了2.1%與2.2%。
表3 基于多示例分析的音頻場景分類算法性能比較Table 3 ASC Performance comparison based on multi-instance analysis
性能提升的可能原因如下:(1) ASC-MIL 模型通過加深網(wǎng)絡(luò)結(jié)構(gòu)的方式在音頻特征的基礎(chǔ)上提取出更高層、抽象的語義特征,從而提高模型性能;(2)高級語義特征與多示例學(xué)習(xí)方法結(jié)合,在無需對具體音頻事件進(jìn)行標(biāo)注的情況下,可檢測到多示例與多標(biāo)簽之間的潛在關(guān)系[21],對場景分類有一定的幫助。
超參數(shù)K值表示每個音頻場景所檢測到的音頻示例數(shù)量的最大值。為了檢測音頻多示例檢測器中超參數(shù)K的取值對模型性能的影響,選擇2018 Task 1A 數(shù)據(jù)集作為實驗對象。圖2 示出了ASC-MIL 模型采用不同K值時所得的分類準(zhǔn)確率結(jié)果,可以看出增加K值不一定會提高分類性能??赡艿脑蚴?,當(dāng)K值較大時,模型在每個音頻場景中所學(xué)習(xí)的音頻示例檢測器的區(qū)分性可能會下降。模型在K=7 時達(dá)到最高分類準(zhǔn)確率。
圖2 多示例檢測器的K 值對模型性能的影響Fig. 2 Influence of K value of multi-detector on model performance
本文提出了一種結(jié)合人耳聽覺感知特性和多示例分析機(jī)制的音頻場景分類模型。該模型在特征提取階段,利用中心頻率呈對數(shù)分布的濾波器組對輸入音頻進(jìn)行濾波以模擬人耳基底膜的頻率選擇特性,從而提高了特征的分辨率。同時引入了多示例學(xué)習(xí)機(jī)制對特征進(jìn)行分類,從而解決了音源復(fù)雜且音頻事件高度重疊所造成的分類準(zhǔn)確率低下的問題。實驗結(jié)果表明,與傳統(tǒng)的基于深度學(xué)習(xí)的模型相比,本文模型實現(xiàn)了更高的分類準(zhǔn)確率。為了進(jìn)一步降低算法復(fù)雜度,未來可考慮通過引入圖卷積神經(jīng)網(wǎng)絡(luò)對場景內(nèi)示例之間的相關(guān)性進(jìn)行學(xué)習(xí),從而幫助音頻場景的分類。