楊吉斌 黃 翔 張雄偉* 張 強(qiáng) 梅鵬程
(1.陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇南京 210007;2.65334部隊(duì),吉林四平 136000)
聲音事件定位與檢測(cè)(Sound Event Localization and Detection,SELD)主要目的是通過接收到的音頻信號(hào),識(shí)別出包含在其中的單個(gè)或多個(gè)聲源對(duì)應(yīng)的事件類別信息,并且估計(jì)出對(duì)應(yīng)的位置或波達(dá)方向(Direction of Arrival,DOA),其應(yīng)用涵蓋了如聲音場(chǎng)景分析[1]、監(jiān)控[2-3]、生物多樣性檢測(cè)[4]、城市聲音傳感[5]等領(lǐng)域。
基于深度學(xué)習(xí)的SELD模型可以利用深層網(wǎng)絡(luò)自動(dòng)提取特征,同時(shí)學(xué)習(xí)復(fù)雜信號(hào)和事件類別、波達(dá)方向之間的映射關(guān)系[6-7],有效提升檢測(cè)和定位的性能。文獻(xiàn)[8]提出了SELDNet 模型,采用卷積遞歸神經(jīng)網(wǎng)絡(luò)(Convolution Recurrent Neural Network,CRNN)結(jié)構(gòu),對(duì)多通道音頻信號(hào)的幅度譜、相位譜輸入進(jìn)行估計(jì)。該模型利用二維CNN提取音頻的時(shí)頻深層表示,并利用GRU模塊學(xué)習(xí)音頻序列中不同聲源類別和方位。文獻(xiàn)[9]在CRNN 模型的基礎(chǔ)上使用三維卷積來同時(shí)對(duì)輸入的多通道信息進(jìn)行時(shí)域、頻域和通道域卷積計(jì)算,學(xué)習(xí)到更多的通道間和通道內(nèi)特征。遵循信號(hào)處理思路,文獻(xiàn)[10-12]等網(wǎng)絡(luò)針對(duì)聲學(xué)事件檢測(cè)(Sound Event Detection,SED)任務(wù)采用梅爾譜、差分相位譜等特征輸入,針對(duì)DOA 任務(wù)采用廣義互相關(guān)特征輸入。這些輸入在經(jīng)過卷積操作后,得到的不同通道特征具有更大的差異性。不僅這些通道內(nèi)的特征包含輸入的類別信息和方位信息,通道間的特征差異也同樣包含了輸入的類別和方位信息。
為有效利用通道間的特征差異,SELDNet 堆疊了多個(gè)循環(huán)層實(shí)現(xiàn)通道間的信息學(xué)習(xí);two-stage 模型[13]和SALSANet 模型[14]也采用堆疊多個(gè)循環(huán)層的方式學(xué)習(xí)通道間的信息。多個(gè)循環(huán)層的使用使得網(wǎng)絡(luò)計(jì)算量增大,訓(xùn)練難度增加。EINV2 模型[15]中使用多頭自注意力機(jī)制MHSA 代替GRU 來學(xué)習(xí)通道間的信息差異,一定程度上提高了模型的定位性能。但該模型僅關(guān)注了包含所有通道的全局特征差異,對(duì)不同通道間的局部差異關(guān)注不夠,影響了后續(xù)檢測(cè)和定位性能的提升。
通道注意力機(jī)制是一種可以有效學(xué)習(xí)通道間差異的方法。它可以動(dòng)態(tài)地調(diào)整不同通道之間的權(quán)重,更好地利用不同通道的信息。相比循環(huán)層堆疊等處理方法,擠壓-激勵(lì)網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SENet)[16]、卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[17]、高效通道注意力(Efficient Channel Attention,ECA)[18]等通道注意力機(jī)制的計(jì)算量大幅減小。文獻(xiàn)[19]在SELD中引入了坐標(biāo)注意力和ECA通道注意力模型,但這兩個(gè)注意力都是在通道維度上做的,僅與位置有關(guān),忽略了時(shí)頻空間的注意力設(shè)計(jì)。針對(duì)現(xiàn)有SELD 網(wǎng)絡(luò)模型未能同時(shí)關(guān)注聲學(xué)信號(hào)的時(shí)間、頻率和通道域的問題,本文基于多視角注意力(Multi-View Attention,MVA)[20],提出了一種MVANet 模型。該模型級(jí)聯(lián)了MHSA 模塊和ECA 模塊,對(duì)多維深層特征同時(shí)使用時(shí)頻注意力和通道注意力,幫助模型更精確地獲取深層特征中的關(guān)鍵信息,增強(qiáng)聲學(xué)特征的表示能力。實(shí)驗(yàn)結(jié)果表明,MVANet 模型可以解決基線模型對(duì)通道間信息學(xué)習(xí)不足的問題,有效提高了SELD的性能。
人類聽覺注意力可以對(duì)感興趣的聲音予以關(guān)注,在時(shí)頻域和空間域中分辨不同屬性和不同方位的信號(hào)。在深度學(xué)習(xí)中,注意力機(jī)制模擬人類感知系統(tǒng)的機(jī)制,對(duì)輸入特征的不同部分之間動(dòng)態(tài)分配不同的權(quán)重或關(guān)注程度,自動(dòng)選擇重要特征或信息[21]。已有研究表明,自注意力、多頭自注意力機(jī)制等可以有效改善對(duì)語音、圖像等感知信號(hào)的處理性能[22-23]。
作為一種注意力機(jī)制實(shí)現(xiàn)技術(shù),通道注意力可以調(diào)整不同通道的權(quán)重,來增強(qiáng)有用特征的表達(dá)。對(duì)于輸入特征X?RB×C×M×N,對(duì)每個(gè)通道采用池化、卷積等方法計(jì)算其重要性得分,然后利用softmax等函數(shù)將其轉(zhuǎn)化為權(quán)重系數(shù),作為通道維度乘以輸入的特征X,最終得到包含不同重要性的特征圖。
通道注意力的計(jì)算如式(1)所示。
其中,fpool(X)表示對(duì)X進(jìn)行全局池化操作,fw表示一個(gè)多層感知器或者卷積神經(jīng)網(wǎng)絡(luò),fact表示激活函數(shù),Xout是最終帶有不同權(quán)重的輸出特征圖。
典型的通道注意力機(jī)制有SENet、CBAM、ECA等。在實(shí)現(xiàn)時(shí),SENet 和ECA 的fpool采用全局平均池化操作;而CBAM 同時(shí)使用了平均池化和最大池化操作。SENet 和CBAM 的fw采用全連接層實(shí)現(xiàn);而ECA 使用一維卷積來計(jì)算通道間的權(quán)重。三種注意力模塊的激活函數(shù)fact也存在區(qū)別,SENet 使用ReLU 函 數(shù),ECA 使 用Sigmoid 函 數(shù),CBAM 使 用Sigmoid和ReLU 結(jié)合的方式。圖1展示了這3種注意力實(shí)現(xiàn)時(shí)的具體區(qū)別。
圖1 三種通道注意力模型圖Fig.1 Diagrams of three channel attention models
MHSA 用于提取通道內(nèi)的信息,它通過同時(shí)學(xué)習(xí)多個(gè)注意力權(quán)重,提高模型對(duì)于各通道內(nèi)不同位置上特征的關(guān)注度。MHSA的計(jì)算公式如下:
其中,Headi(X)數(shù)表示第i個(gè)單頭的自注意力機(jī)制,X表示多頭注意力的輸入向量序列,(WQ)i,(WK)i,(WV)i分別表示第i個(gè)自注意力機(jī)制對(duì)應(yīng)的查詢、鍵、值的權(quán)重矩陣,h表示頭數(shù),dk是鍵向量的維度。通過對(duì)所有頭的結(jié)果進(jìn)行拼接,得到最終輸出,然后再通過一個(gè)線性變換WO得到最終的輸出結(jié)果。
本文提出的基于多視角注意力的模型MVANet包含SED 和DOA 兩個(gè)分支,兩個(gè)分支使用不同的輸入特征,SED 分支使用4 通道的對(duì)數(shù)梅爾特征,DOA 分支使用對(duì)數(shù)梅爾+強(qiáng)度向量(Intensity Vector,Ⅳ)7 通道的特征組合。每個(gè)分支主要由三個(gè)模塊組成,分別是二維卷積模塊、多視角注意力模塊和全連接模塊。在兩個(gè)分支之間,采用部分軟參數(shù)共享機(jī)制實(shí)現(xiàn)SED 和DOA 兩個(gè)任務(wù)的交互。模型的輸出采用軌跡(Τrackwise)格式,在2 個(gè)聲源重疊的條件下,每個(gè)分支設(shè)置2個(gè)軌跡輸出。MVANet模型框架具體如圖2所示。
圖2 MVANet模型結(jié)構(gòu)圖Fig.2 Diagram of MVANet model
3.1.1 二維卷積模塊
二維卷積模塊由兩個(gè)二維卷積編碼層和一層二維平均池化層組成。其中每個(gè)二維卷積編碼層包含一層核大小為3×3 的卷積、一個(gè)歸一化層(Batch Normalization,BN)和一個(gè)ReLU 非線性函數(shù)。在SED和DOA分支中,分別堆疊4次二維卷積模塊,不同時(shí)間和頻率分辨率下提取音頻信號(hào)的高層次特征。由于SED 和DOA 的輸入不同,對(duì)兩分支的二維卷積模塊部分進(jìn)行軟參數(shù)共享,可以有效補(bǔ)充深層特征學(xué)習(xí)的準(zhǔn)確性。
3.1.2 多視角注意力模塊
本文采用多視角注意力模塊實(shí)現(xiàn)不同分支上的軌跡劃分。每條軌跡中都有一個(gè)完整的MVA 模塊,該模塊由通道注意力和多頭注意力級(jí)聯(lián)組成。在MVA 模塊中,通道注意力采用ECA 模塊對(duì)通道間的特征進(jìn)行關(guān)注,為不同通道分配權(quán)重。多頭注意力實(shí)現(xiàn)對(duì)通道內(nèi)時(shí)頻率信息的提取。在SED 和DOA 分支上,對(duì)應(yīng)軌跡的MHSA 模塊間使用軟參數(shù)共享來實(shí)現(xiàn)信息交互。
3.1.3 全連接(Fully Connected,F(xiàn)C)模塊
全連接模塊由一層線性層和一個(gè)激活函數(shù)組成。SED 和DOA 兩個(gè)分支的全連接模塊結(jié)構(gòu)不同。SED分支中,F(xiàn)C模塊將多視角注意力模塊的結(jié)果轉(zhuǎn)化為表示SED 事件活躍狀態(tài)的向量,向量長(zhǎng)度等于事件總個(gè)數(shù)。使用sigmoid 激活函數(shù)將結(jié)果輸出成概率,并利用設(shè)置的閾值將輸出結(jié)果轉(zhuǎn)換為0或1,表示聲音事件是否為活躍狀態(tài)。DOA 分支中,線性層將多視角注意力模塊的結(jié)果映射為各聲源所在的方位,輸出結(jié)果為笛卡爾坐標(biāo)(x,y,z)。再使用Τanh 激活函數(shù)將(x,y,z)坐標(biāo)值轉(zhuǎn)換為-1到1 范圍內(nèi)的連續(xù)值,從而可以獲得更加精細(xì)的定位結(jié)果。SED 和DOA 的結(jié)果采用軌跡輸出格式,具體對(duì)應(yīng)的向量如下所示。
其中,αmi表示第m個(gè)軌跡上第i個(gè)事件類的概率,S表示事件類總數(shù),M表示軌跡數(shù),即重疊源的最大數(shù)量。式中,每條軌跡只允許一個(gè)事件活躍且僅輸出該事件對(duì)應(yīng)的DOA 估計(jì)。可以看出這種輸出格式適用于同類別多聲源的情況。
MVANet 的兩個(gè)分支采用相同的結(jié)構(gòu),總體結(jié)構(gòu)參數(shù)如表1所示。
表1 MVANet模型結(jié)構(gòu)參數(shù)表Tab.1 Structural parameters of MVANet model
本文使用二進(jìn)制交叉熵(Binary Cross-Entropy,BCE)損失函數(shù)和均方誤差(Mean-Square Error,MSE)損失函數(shù)來優(yōu)化模型,前者用于SED 任務(wù),后者用于DOA 任務(wù),兩個(gè)任務(wù)的損失進(jìn)行加權(quán)得到SELD模型的總損失。具體公式如式(6)所示:
其中,α表示損失函數(shù)的權(quán)重。SED 損失函數(shù)公式如式(7)所示:
其中,pi和gi代表第i個(gè)樣本的事件真實(shí)檢測(cè)結(jié)果和預(yù)測(cè)結(jié)果,n表示總樣本數(shù)。DOA 損失函數(shù)公式如式(8)所示:
其中,(uref)i和(upre)i分別代表第i個(gè)樣本的真實(shí)聲源坐標(biāo)(xG,yG,zG)和預(yù)測(cè)聲源坐標(biāo)(xE,yE,zE)。
本文在ΤAU 2020數(shù)據(jù)集[24]上進(jìn)行了驗(yàn)證實(shí)驗(yàn)。ΤAU 2020數(shù)據(jù)集包含600個(gè)時(shí)長(zhǎng)為一分鐘的錄音文件,信號(hào)的采樣頻率為24 kHz。數(shù)據(jù)集中有14類室內(nèi)聲音事件,在合成多通道數(shù)據(jù)時(shí)使用的房間脈沖響應(yīng)通過10 個(gè)室內(nèi)位置實(shí)際收集得到。此外,ΤAU 2020數(shù)據(jù)集包含了30分鐘的室外環(huán)境噪聲記錄,聲源的位置也是移動(dòng)的,數(shù)據(jù)貼近現(xiàn)實(shí)生活條件。
本文選用定位和檢測(cè)聯(lián)合評(píng)估性能作為評(píng)價(jià)指標(biāo)[24]。SED 任務(wù)采用和位置相關(guān)的F1 得分和錯(cuò)誤率ER(Error Rate,ER),即僅考慮在DOA 距離差小于特定應(yīng)用閾值時(shí)預(yù)測(cè)的真陽性情況,閾值一般設(shè)為20°。DOA 任務(wù)指標(biāo)為定位誤差LECD(Localization Error,LE)和定位召回率LRCD(Localization Recall,LR),只有在類預(yù)測(cè)結(jié)果與給出的評(píng)估結(jié)果一致時(shí),才會(huì)計(jì)算相應(yīng)的LECD和LRCD。其中,對(duì)于SED 評(píng)估,F(xiàn)1 和ER 指標(biāo)可以按段或幀級(jí)別進(jìn)行計(jì)算。F1 得分、LRCD越高,模型性能越好,而ER 和LECD值越低,說明模型估計(jì)越準(zhǔn)確。
根據(jù)事件預(yù)測(cè)值和標(biāo)簽值的取值不同,可以將結(jié)果分為真陽性(Τrue Positives,ΤP)、假陽性(False Positives,F(xiàn)P),假陰性(False Negatives,F(xiàn)N)和真陰性(Τrue Negatives,ΤN)這四種情況?;趲?jí)別的F1指標(biāo)的計(jì)算公式為:
ER指標(biāo)的計(jì)算公式為:
其中,N(k)表示聲音事件真正活動(dòng)的事件數(shù),S(k)表示檢測(cè)到的聲音事件類中預(yù)測(cè)錯(cuò)誤的事件數(shù)量,I(k)和D(k)分別表示插入和刪除的種類的數(shù)量??捎檬剑?1)表示:
對(duì)于DOA 評(píng)估,LR 指標(biāo)和LE 指標(biāo)的計(jì)算方式為:
在驗(yàn)證實(shí)驗(yàn)中,網(wǎng)絡(luò)模型基于PyΤorch 框架實(shí)現(xiàn),采用EINV2 作為基線方法。為了確保公平的比較,MVANet模型的訓(xùn)練參數(shù)保持與基線方法相同。在實(shí)驗(yàn)前90輪,學(xué)習(xí)率設(shè)置為1×10-3,在最后10輪,將學(xué)習(xí)率設(shè)置為1×10-4。模型使用Adam 優(yōu)化器默認(rèn)參數(shù)進(jìn)行損失優(yōu)化,SED 和DOA 估計(jì)分別采用BCE和MSE損失函數(shù),損失權(quán)重設(shè)置為0.5。驗(yàn)證實(shí)驗(yàn)在配備NVIDIA 2080Τi GPU的工作站上進(jìn)行。
4.4.1 單視角注意力的性能對(duì)比
為測(cè)試單視角注意力在SELD 任務(wù)中的性能,在EINV2網(wǎng)絡(luò)的基礎(chǔ)上,將原有的MHSA模塊替換成不同的通道注意力模塊,分別測(cè)試了不同通道注意力、MHSA 在ΤAU2020數(shù)據(jù)集上的性能。具體結(jié)果如表2所示。最優(yōu)的指標(biāo)得分用黑體表示。
表2 單視角注意力在EINV2上的性能對(duì)比Tab.2 Performance comparison of different single-view attention methods for EINV2 model
由表2可見,僅使用通道注意力關(guān)注通道信息,效果在各個(gè)指標(biāo)上都比MHSA 模型差,這是因?yàn)槟P驮谧詈笾魂P(guān)注了深層特征的通道間的差異,缺少了對(duì)深層特征通道內(nèi)差異的關(guān)注,削弱了時(shí)頻域關(guān)鍵信息的提取。比較三種通道注意力的結(jié)果可以發(fā)現(xiàn),ECA 在所有指標(biāo)上都優(yōu)于SENet,和CBAM性能相比,在ER≤20°指標(biāo)上持平,在LRCD指標(biāo)上略低。總體而言,ECA的性能最優(yōu)。
4.4.2 多視角注意力的性能對(duì)比
表3 中對(duì)比了MVANet 中分別采用SENet、CBAM、ECA 三種通道注意力的效果。同時(shí),MVANet 中采用MHSA 實(shí)現(xiàn)時(shí)頻域上的注意力機(jī)制,與EINV2 的實(shí)現(xiàn)方案一致,因此將EINV2 作為基線系統(tǒng)進(jìn)行對(duì)比。
表3 不同通道注意力在MVANet模型上的性能對(duì)比Tab.3 Performance comparison of different channelattention methods for MVANet model
從表3結(jié)果可見,MVANet采用SENet和CBAM實(shí)現(xiàn)通道注意力時(shí),在F1≤20°和LRCD指標(biāo)上獲得略微的提升,但在其他方面與EINV2 原模型的性能表現(xiàn)基本相同或者下降,SELD 分?jǐn)?shù)沒有明顯提高。這是因?yàn)镾ENet 和CBAM 模塊中通道注意力部分都使用全連接層進(jìn)行降維,從而降低網(wǎng)絡(luò)的復(fù)雜性,但是這也會(huì)降低通道注意力的預(yù)測(cè)效果,且已有研究表明學(xué)習(xí)所有通道的依賴關(guān)系是低效的而且并不必要[18]。而MVANet 采用ECA 多通道注意力的方案,各個(gè)性能指標(biāo)都得到了改善,其中LECD降低了0.5°,SELD 分?jǐn)?shù)降低了0.02。這是因?yàn)镋CA 注意力避免了降維操作,通過一維卷積模塊實(shí)現(xiàn)了局部跨通道交互,結(jié)合MHSA 可以對(duì)時(shí)空信息進(jìn)行更精確的建模,增強(qiáng)了網(wǎng)絡(luò)對(duì)時(shí)空特征的提取能力。因此,MVANet 模型采用ECA 通道注意力與MHSA進(jìn)行結(jié)合的多視角注意力實(shí)現(xiàn)方案。
4.4.3 MVANet模型的實(shí)現(xiàn)結(jié)構(gòu)對(duì)比
在表3 實(shí)驗(yàn)結(jié)果的基礎(chǔ)上,我們進(jìn)一步實(shí)驗(yàn)對(duì)比了多視角注意力不同實(shí)現(xiàn)結(jié)構(gòu)的性能。圖3給出了ECA模塊、MHSA模塊以及軟參數(shù)共享的不同組合結(jié)構(gòu)的示意圖,表4 展示了相應(yīng)結(jié)構(gòu)所對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果。
表4 ECA模塊和軟參數(shù)共享在MVANet不同位置上的性能對(duì)比Tab.4 Performance comparison of ECA module and software parameter sharing in different locations in MVANet
圖3 多視角注意力不同實(shí)現(xiàn)結(jié)構(gòu)的示意圖Fig.3 Different implementation structures for multi-view attention
由表4 的第2、3 行結(jié)果可見,ECA 單獨(dú)加在DOA 分支上效果比單獨(dú)加在SED 分支上效果好,這說明使用ECA 注意力對(duì)DOA 估計(jì)影響更大。這是因?yàn)椴煌ǖ篱g的差異反映了聲源的空間信息,對(duì)通道間差異中的重要信息施加關(guān)注,有助于克服噪聲、重疊等不利因素的影響。對(duì)比表中(b)、(c)兩種結(jié)構(gòu)的結(jié)果,可以發(fā)現(xiàn),在兩個(gè)分支上面都加入ECA效果優(yōu)于(b)僅在一個(gè)分支上實(shí)現(xiàn)多視角注意力的效果,DOA估計(jì)的性能提升明顯。這是因?yàn)镸VANet 模型采用了相同的結(jié)構(gòu)實(shí)現(xiàn)SED 和DOA兩個(gè)分支,兩個(gè)分支之間學(xué)習(xí)的深層表示在通道間均具有一定的差異性,采用通道注意力有助于關(guān)注各個(gè)分支中的重要特征信息。
由表4 的第4、5 行結(jié)果可見,不同分支的通道注意力間不進(jìn)行參數(shù)共享時(shí),SELD 的性能更精確,效果更好,這是因?yàn)镾ED 和DOA 兩個(gè)任務(wù)中,通道信息的利用方法不一樣,SED 需要對(duì)通道內(nèi)的特征進(jìn)行關(guān)注,而DOA 主要是對(duì)通道間的特征差異進(jìn)行關(guān)注。對(duì)不同分支中的ECA 模塊使用軟參數(shù)共享,會(huì)削弱各自任務(wù)需要的特征差異,無法體現(xiàn)參數(shù)共享的優(yōu)勢(shì)。從第6 行結(jié)果可見,兩種注意力使用先進(jìn)行ECA 再進(jìn)行MHSA 的實(shí)現(xiàn)順序時(shí),SELD性能更優(yōu),這是因?yàn)镋CA模塊主要關(guān)注不同通道之間的差異學(xué)習(xí),從而幫助模型更好地捕捉音頻在不同通道中的特征,而MHSA 模塊則主要關(guān)注通道內(nèi)部不同時(shí)間和頻率之間的關(guān)系,幫助模型進(jìn)一步地捕捉每個(gè)通道中的具體時(shí)頻特征差異,屬于一種從全局到局部學(xué)習(xí)的遞進(jìn)關(guān)系,因此先使用ECA模塊再使用MHSA模塊會(huì)取得更好的效果。
4.4.4 單聲源、多聲源的性能分析
分別利用單聲源和多聲源數(shù)據(jù)對(duì)MVANet進(jìn)行性能測(cè)試,以檢驗(yàn)?zāi)P蛯?duì)多聲源的處理效果。表5分別展示了MVANet模型和基線EINV2模型在不同聲源情況下的性能。從表中結(jié)果可以看出,MVANet模型在單聲源和多聲源測(cè)試集上的性能都明顯優(yōu)于EINV2 模型。在兩個(gè)聲源重疊的ov2 數(shù)據(jù)集上,MVANet的F1≤20°指標(biāo)相對(duì)上升了6.0%,LECD指標(biāo)下降了13.5%,改善明顯。這說明采用多視角注意力,能夠有效提高重疊源的定位和檢測(cè)性能。
表5 EINV2和MVANet模型在單聲源、多聲源測(cè)試集下的性能對(duì)比Tab.5 Performance comparison of EINV2 and MVANet models under mono-source and multi-source test sets
4.4.5 不同數(shù)據(jù)格式下的性能對(duì)比分析
已有研究表明,聲學(xué)信號(hào)的不同數(shù)據(jù)格式對(duì)SELD 性能的影響也不同。ΤAU 2020 數(shù)據(jù)集中包含了FOA和MIC兩種格式的數(shù)據(jù)。我們對(duì)MVANet和基線EINV2 模型在這兩種格式數(shù)據(jù)上的性能進(jìn)行了比較分析,各指標(biāo)結(jié)果如表6所示。
表6 EINV2和MVANet兩個(gè)模型分別在FOA、MIC數(shù)據(jù)格式上的性能對(duì)比Tab.6 Performance comparison of EINV2 and MVANet models using FOA and MIC data formats
由表6可見,在FOA格式數(shù)據(jù)上,MVANet模型相比于EINV2 模型在所有指標(biāo)上都有所提升,特別是LECD和SELD 指標(biāo)提升明顯;而在MIC 格式數(shù)據(jù)上,MVANet 模型的表現(xiàn)在ER≤20°、LECD和SELD 分?jǐn)?shù)上均優(yōu)于EINV2 模型,其中,LECD下降了1.2°,但F1≤20°和LRCD得分略低于EINV2 模型。這表 明MVANet 對(duì)SELD 性能的提升,與采用的信號(hào)輸入格式依然有關(guān)。MVANet和EINV2 均采用對(duì)數(shù)Mel譜和強(qiáng)度矢量作為輸入特征。由于FOA 格式是對(duì)聲學(xué)信號(hào)在空間進(jìn)行了諧波域分解,其各通道可與空間笛卡爾坐標(biāo)系的投影相對(duì)應(yīng)[25],強(qiáng)度矢量特征與聲源方位有關(guān)。而MIC 格式中,各個(gè)信號(hào)通道的輸入相關(guān)性與信號(hào)和麥克風(fēng)之間的夾角有關(guān),強(qiáng)度矢量特征與聲源方位、麥克風(fēng)陣列位置均有關(guān)。因此針對(duì)FOA格式數(shù)據(jù)的網(wǎng)絡(luò)模型,對(duì)深層特征施加通道注意力有助于更好地關(guān)注聲源方位信息,其對(duì)DOA 估計(jì)的綜合性能提升優(yōu)于針對(duì)MIC 格式數(shù)據(jù)實(shí)現(xiàn)的模型。
4.4.6 定位和檢測(cè)結(jié)果分析
圖4、圖5是ΤAU 2020數(shù)據(jù)集中mix001和mix012兩個(gè)數(shù)據(jù)分別在EINV2 模型和MVANet 模型上的可視化結(jié)果對(duì)比,其中,x軸代表單個(gè)音頻文件的總時(shí)長(zhǎng)。圖4 和圖5 中的(a)、(b)、(c)子圖表示SED 參考值和預(yù)測(cè)值之間的對(duì)比,其y軸用來表示14 個(gè)聲音事件類的類別標(biāo)識(shí)符;子圖(d)~(i)表示方位角和俯仰角的參考值和預(yù)測(cè)值之間的對(duì)比,其y軸分別代表對(duì)應(yīng)的方位角范圍和俯仰角范圍。mix001 是一段單聲源的音頻,mix012 是包含多事件重疊源的音頻。圖中不同聲事件用不同顏色表示,如綠色表示鋼琴聲,紅色表示嬰兒哭泣聲,粉色表示男性演講聲,藍(lán)色表示燒火聲,紫色表示警報(bào)聲等。
圖4 EINV2與MVANet在mix001數(shù)據(jù)上的檢測(cè)、方位角和俯仰角參考與預(yù)測(cè)值對(duì)比Fig.4 Comparison of EINV2's and MVANet's reference and predicted values of detection,azimuth,and elevation using mix001 data
圖5 EINV2與MVANet在mix012數(shù)據(jù)上的檢測(cè)、方位角和俯仰角參考與預(yù)測(cè)值對(duì)比Fig.5 Comparison of EINV2's and MVANet's reference and predicted values of detection,azimuth,and elevation using mix012 data
圖4 給出了單聲源條件下的估計(jì)結(jié)果,從中可以看出,MVANet 模型相比較于EINV2,DOA 估計(jì)的軌跡更加清晰,結(jié)果更加精確,尤其在第30~40 s內(nèi)可以看出。圖5 給出了多聲源數(shù)據(jù)的估計(jì)結(jié)果,由圖可以看出,在第35~50 s 時(shí)間內(nèi),MVANet 模型對(duì)警報(bào)聲的類別判定、位置估計(jì)更為準(zhǔn)確。
針對(duì)現(xiàn)有SELD模型對(duì)聲學(xué)信號(hào)的時(shí)空信息關(guān)注不夠問題,本文提出了多視角注意力的檢測(cè)與定位模型MVANet。該模型通過通道注意力和多頭自注意力級(jí)聯(lián)實(shí)現(xiàn)了多視角注意力,同時(shí)關(guān)注通道間和通道內(nèi)深層特征的關(guān)鍵信息。特別是針對(duì)DOA估計(jì),通道注意力的引入,有助于學(xué)習(xí)不同通道間特征的差異,能夠克服多聲源重疊的不利條件。實(shí)驗(yàn)優(yōu)選了通道注意力的實(shí)現(xiàn)結(jié)構(gòu)和多視角注意力的級(jí)聯(lián)方案。在ΤAU 2020 數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提出的MVANet 模型相比較于EINV2 模型各個(gè)指標(biāo)都有提升,且在多聲源場(chǎng)景下的性能提升效果更為顯著。在以后的研究工作中,會(huì)繼續(xù)優(yōu)化網(wǎng)絡(luò)模型、損失函數(shù)等進(jìn)一步提高SELD 任務(wù)的準(zhǔn)確性和對(duì)不同應(yīng)用場(chǎng)景的魯棒性。