王金甲 紀(jì)紹男 崔琳 夏靜 楊倩
全球正在面臨人口老齡化的問(wèn)題,預(yù)計(jì)到2050 年,64 歲及以上的人口將超過(guò)世界人口的20%.據(jù)調(diào)查顯示,有40%的老年人將獨(dú)自居住在自己家中[1].這將導(dǎo)致許多社會(huì)問(wèn)題,例如疾病和衛(wèi)生保健費(fèi)用的增加、護(hù)理人員的短缺以及無(wú)法獨(dú)立生活的人數(shù)增加.因此,開(kāi)發(fā)環(huán)境智能輔助生活工具幫助老年人獨(dú)立在家中生活是勢(shì)在必行的[2].基于音頻的家庭活動(dòng)識(shí)別是一個(gè)新問(wèn)題,也是聲音事件分類的一個(gè)新興應(yīng)用領(lǐng)域.聲音事件分類將語(yǔ)義標(biāo)簽與音頻流相關(guān)聯(lián),并識(shí)別產(chǎn)生它的事件.用于家庭活動(dòng)識(shí)別的聲音事件分類系統(tǒng)能夠預(yù)測(cè)對(duì)應(yīng)的活動(dòng)事件.聲音事件分類問(wèn)題在基于人工智能(Artificial intelligence,AI)的機(jī)器人導(dǎo)航、智能駕駛、監(jiān)測(cè)家庭活動(dòng)及老年人生活等方面有重要應(yīng)用[3].
傳統(tǒng)的聲音事件分類方法是從音頻信號(hào)中提取預(yù)先設(shè)計(jì)的人工特征用于訓(xùn)練分類器[4].這種方法在很大程度上依賴于預(yù)先設(shè)計(jì)特征的能力,而這需要大量信號(hào)處理方面的專業(yè)知識(shí).事實(shí)上,鑒于現(xiàn)實(shí)生活中遇到的問(wèn)題和特殊情況的高度多樣性,這種方法在許多問(wèn)題中既沒(méi)有效率也沒(méi)有可持續(xù)性[5].
基于深度學(xué)習(xí)的聲音事件分類方法采用端到端的深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)自動(dòng)特征提取和分類.近年來(lái),基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等深度學(xué)習(xí)方法在聲音事件分類方面顯示出良好的性能,并且卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)結(jié)合了CNN 和RNN 也已經(jīng)獲得了較先進(jìn)的聲音事件分類性能.例如,Hershey 等通過(guò)將不同結(jié)構(gòu)的CNN 用于音頻分類任務(wù)中,發(fā)現(xiàn)以前應(yīng)用于圖像分類的CNN 在音頻分類任務(wù)中也表現(xiàn)良好,并且更大的訓(xùn)練和標(biāo)簽集有助于達(dá)到更好的分類效果[6].Parascandolo 等提出了一種基于雙向長(zhǎng)短時(shí)記憶(Bi-LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)用于復(fù)音聲音事件檢測(cè),并在來(lái)自不同日常環(huán)境的不同類別的音頻樣本上進(jìn)行測(cè)試,顯示出了很好的效果[7].Cakir 等提出了將卷積循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用到復(fù)音聲音事件檢測(cè)任務(wù)中,結(jié)果顯示CRNN 方法優(yōu)于先前只用CNN 和RNN 的方法[8].徐勇等在DCASE 2016 任務(wù)4 弱監(jiān)督音頻標(biāo)記問(wèn)題中,在卷積循環(huán)神經(jīng)網(wǎng)絡(luò)上加入注意力和定位方案[9];在DCASE 2017 任務(wù)4 弱監(jiān)督聲音事件檢測(cè)問(wèn)題中提出了門控卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型,其中可學(xué)習(xí)的門控線性單元可以幫助選擇對(duì)應(yīng)于最終標(biāo)簽的最相關(guān)特征,獲得競(jìng)賽第一名的成績(jī)[10].
DCASE 2018 挑戰(zhàn)任務(wù)5 是用于家庭環(huán)境中日?;顒?dòng)識(shí)別問(wèn)題的多聲道聲音事件分類任務(wù),該任務(wù)的目標(biāo)是將由麥克風(fēng)陣列獲取的多聲道音頻段分類為所提供的預(yù)定義類之一,這些類是在家庭環(huán)境中進(jìn)行的日?;顒?dòng)(例如“ 烹飪”).這個(gè)任務(wù)的重點(diǎn)在于可以利用多聲道音頻系統(tǒng)來(lái)識(shí)別家庭活動(dòng),多麥克風(fēng)信號(hào)處理技術(shù)可以有效地提高音頻分類的魯棒性[11],由于多個(gè)聲音事件的并發(fā)性,多聲道音頻分類是一項(xiàng)具有挑戰(zhàn)性的任務(wù).該任務(wù)的基線系統(tǒng)使用了兩個(gè)卷積層和一個(gè)全連接層的結(jié)構(gòu)[12].Kong 等使用了AlexNetish和VGGish 的卷積神經(jīng)網(wǎng)絡(luò),更深網(wǎng)絡(luò)層的VGGish 模型有更好的性能,這說(shuō)明VGG 模型不僅能夠在大規(guī)模圖像數(shù)據(jù)集上分類效果很好,在音頻數(shù)據(jù)集上的推廣能力也非常出色[13].在此競(jìng)賽中并列第一名的兩個(gè)團(tuán)隊(duì)是Tanabe 團(tuán)隊(duì)和Inoue 團(tuán)隊(duì).Tanabe 等所提出的系統(tǒng)是基于盲信號(hào)處理的前端模塊和基于機(jī)器學(xué)習(xí)的后端模塊的組合方法.為了避免過(guò)擬合,前端模塊采用盲去混響,盲源分離等,它們使用空間線索而無(wú)需機(jī)器學(xué)習(xí).后端模塊采用基于一維卷積神經(jīng)網(wǎng)絡(luò)(1DCNN)的架構(gòu)和基于VGG16 的架構(gòu).所有的網(wǎng)絡(luò)概率輸出進(jìn)行集成[14].Inoue 等提出了數(shù)據(jù)增強(qiáng)的前端模塊和基于CNN 分類方法的后端模塊的組合方法.首先,它通過(guò)混洗和混合聲音片段來(lái)增強(qiáng)輸入數(shù)據(jù),這種數(shù)據(jù)增強(qiáng)方法有助于增加訓(xùn)練樣本的變化,并減少不平衡數(shù)據(jù)集的影響.其次,使用CNN 深度學(xué)習(xí)模型作為分類器,CNN 模型輸入是增強(qiáng)后數(shù)據(jù)的對(duì)數(shù)Mel 語(yǔ)譜圖[15].
總的來(lái)說(shuō),CNN 是將局部特征提取進(jìn)行處理,RNN 是對(duì)局部特征之間的時(shí)間依賴性進(jìn)行建模,盡管它們?cè)诤芏喾矫嫒〉昧顺晒?但是由于CNN 網(wǎng)絡(luò)對(duì)各個(gè)部件的朝向和空間上的相對(duì)關(guān)系并不敏感,它只在乎有沒(méi)有相應(yīng)的特征,所以CNN 不能很好地反映部分和整體的關(guān)系.加之各個(gè)特征的重疊性,現(xiàn)有的深層學(xué)習(xí)技術(shù)仍然不足以將單個(gè)聲音事件從它們的混合物中分離出來(lái),所以取得的效果并不是很理想.而且CNN 和RNN 都不能很好地減少過(guò)擬合.膠囊網(wǎng)絡(luò)是Hinton 在2017 年提出的,膠囊是一組神經(jīng)元,其表示特定類型的對(duì)象或?qū)ο蟛糠值膶?shí)例化參數(shù)[16].膠囊網(wǎng)絡(luò)的一個(gè)主要優(yōu)點(diǎn)是它提供了一種類似于人類感知系統(tǒng)的方法,可以很簡(jiǎn)單地通過(guò)識(shí)別其部分來(lái)識(shí)別整體.對(duì)于DCASE 2018 任務(wù)5,我們使用膠囊路由機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)完成.
在該網(wǎng)絡(luò)中,膠囊層為每個(gè)聲音事件選擇代表性的頻帶,低級(jí)膠囊通過(guò)權(quán)值矩陣對(duì)高級(jí)膠囊所代表的事件類別進(jìn)行預(yù)測(cè),如果該預(yù)測(cè)向量與高級(jí)膠囊層中某個(gè)膠囊的輸出有較大點(diǎn)積值,則通過(guò)反饋來(lái)增加膠囊與該高級(jí)膠囊的耦合系數(shù),并降低與其他膠囊的耦合系數(shù)從而可以準(zhǔn)確地反映部分和整體的關(guān)系.與最大池化實(shí)現(xiàn)的原始路由形式相比,膠囊路由可以避免忽視除最顯著特征之外的其他特征,可有效地減少特征損失[16].另一個(gè)創(chuàng)新是在膠囊網(wǎng)絡(luò)中的初級(jí)膠囊層后加入了注意力層,它可以通過(guò)加權(quán)來(lái)提高對(duì)顯著部分的關(guān)注度,即可以自動(dòng)選擇音頻事件類最相關(guān)的重要幀,同時(shí)忽略不相關(guān)幀(例如,背景噪聲段).我們提出的注意力層通過(guò)對(duì)時(shí)間片的顯著性選擇實(shí)現(xiàn)了注意力機(jī)制,從而減少了模型過(guò)擬合.
膠囊網(wǎng)絡(luò)和標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的重要區(qū)別在于膠囊的激活是基于多個(gè)輸入姿態(tài)預(yù)測(cè)之間的比較,而在標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)中,它是基于單個(gè)輸入活動(dòng)向量和學(xué)習(xí)到的權(quán)重矢量之間的比較.解決部分和整體關(guān)系問(wèn)題的一種方法是找到高維投票的緊密聚類,這個(gè)方法稱為路由協(xié)議.不同于CNN 的輸入輸出形式,也不同于CNN 的池化操作,膠囊層的輸入輸出均為向量形式,并且采用了動(dòng)態(tài)路由算法,來(lái)對(duì)這些向量進(jìn)行運(yùn)算.
膠囊網(wǎng)絡(luò)每一層有若干節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)表示一個(gè)膠囊.低級(jí)膠囊連接到更高級(jí)別膠囊的過(guò)程中,連接權(quán)值會(huì)在學(xué)習(xí)中發(fā)生變化,由此引起節(jié)點(diǎn)連接程度的變化,因此稱為動(dòng)態(tài)路由.通常,在兩層膠囊之間用動(dòng)態(tài)路由算法對(duì)該網(wǎng)絡(luò)進(jìn)行訓(xùn)練.以下是我們描述的動(dòng)態(tài)路由算法[16].
算法1.動(dòng)態(tài)路由算法
膠囊路由的概念圖如圖1 所示,圓圈為單個(gè)神經(jīng)元,虛線圈出的為一個(gè)膠囊.膠囊可以代表實(shí)體,左側(cè)L層兩個(gè)膠囊分別表示人的左右胳膊,從實(shí)線箭頭可以看出正確朝向的左胳膊對(duì)應(yīng)右側(cè)(L+1)層膠囊的人體上半身構(gòu)造,而虛線箭頭表示不能對(duì)應(yīng).兩個(gè)膠囊層之間通過(guò)識(shí)別局部的器官,學(xué)習(xí)到局部和整體的關(guān)系,然后找到正確的人體上半身結(jié)構(gòu).
圖1 膠囊路由的概念圖Fig.1 Conceptual diagram of capsule routing
注意力機(jī)制可以從大量信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息,并抑制不相關(guān)的信息,從而減少了過(guò)擬合問(wèn)題.圖像處理中的注意力機(jī)制關(guān)注空間注意力,我們提出的方法關(guān)注時(shí)間注意力.注意力模塊用sigmoid 作為激活函數(shù),能在選擇重要特征的同時(shí)抑制不相關(guān)的信息[9].它也可以幫助平滑訓(xùn)練集和測(cè)試集之間不匹配的問(wèn)題.第t幀的注意力因子z(t)表示當(dāng)前音頻幀對(duì)音頻類的重要程度.z(t)的輸出值為0 到1 之間.當(dāng)z(t)接近1 時(shí),對(duì)應(yīng)t時(shí)刻幀作為重要幀被選擇,當(dāng)z(t)接近0 時(shí),對(duì)應(yīng)t時(shí)刻幀作為不相關(guān)幀被忽略.通過(guò)這種方法,網(wǎng)絡(luò)可以關(guān)注音頻片段中的音頻類事件幀,忽略噪聲幀.z(t)定義為:
其中,x(t)為輸入特征,w為權(quán)重矩陣,b為偏置參數(shù),σ是sigmoid 非線性激活函數(shù).通過(guò)訓(xùn)練網(wǎng)絡(luò)來(lái)更新參數(shù)w和b.
本節(jié)提出了注意力膠囊網(wǎng)絡(luò)模型來(lái)進(jìn)行家庭活動(dòng)識(shí)別.網(wǎng)絡(luò)模型如圖2 所示,首先將音頻片段轉(zhuǎn)變成對(duì)數(shù)Mel 語(yǔ)譜圖,其次將對(duì)數(shù)Mel 語(yǔ)譜圖輸入到提出的注意力膠囊神經(jīng)網(wǎng)絡(luò)模型,最后模型輸出是音頻標(biāo)簽預(yù)測(cè)值.
提出的注意力膠囊網(wǎng)絡(luò)模型由三個(gè)門控卷積模塊,一個(gè)初級(jí)膠囊層,一個(gè)高級(jí)膠囊層,一個(gè)注意力層和一個(gè)融合層組成.每個(gè)門控卷積模塊由兩層門控卷積網(wǎng)絡(luò)和最大池化組成,每層門控卷積網(wǎng)絡(luò)包括線性(linear)函數(shù)和sigmoid 激活函數(shù).與傳統(tǒng)的CNN 相比,門控卷積網(wǎng)絡(luò)用門控線性單元(GLUs)取代了修正線性單元(ReLU).這個(gè)可學(xué)習(xí)的門能控制當(dāng)前層傳入下一層的信息量[10].GLUs 能減少梯度消失現(xiàn)象[17],這是通過(guò)用sigmoid 激活函數(shù)保留了神經(jīng)網(wǎng)絡(luò)的非線性能力,同時(shí)用線性(linear)函數(shù)為梯度提供線性路徑來(lái)實(shí)現(xiàn)的.最大池化操作能減少特征的空間維度.
圖2 注意力膠囊網(wǎng)絡(luò)模型Fig.2 Attention capsule network model
經(jīng)過(guò)三個(gè)門控卷積模塊的輸出特征被送入初級(jí)膠囊層.初級(jí)膠囊層由卷積模塊,重塑模塊和squashing 模塊組成.輸入特征先經(jīng)過(guò)卷積層,加入偏差之后,又經(jīng)過(guò)ReLU 非線性激活函數(shù),然后重塑為一個(gè)T×V×U的三維張量,并用squashing 函數(shù)壓縮.T是重塑前的時(shí)間維度,V是從其他變量推測(cè)出的維度,U4 是膠囊的大小.也就是說(shuō)初級(jí)膠囊層的輸出有T個(gè)時(shí)間片,每個(gè)時(shí)間片有V個(gè)膠囊,每個(gè)膠囊是1 ×1 ×U的張量.
將每個(gè)時(shí)間片的V個(gè)膠囊輸入高級(jí)膠囊層.在初級(jí)膠囊層和高級(jí)膠囊層之間使用動(dòng)態(tài)路由算法進(jìn)行計(jì)算.動(dòng)態(tài)路由算法將V個(gè)代表音頻幀的低級(jí)膠囊與J個(gè)代表事件類別的高級(jí)膠囊進(jìn)行匹配.當(dāng)多個(gè)音頻幀都預(yù)測(cè)到同一事件后,則確定出音頻事件的類別.然后通過(guò)反饋來(lái)增加與該音頻事件相關(guān)音頻幀之間的權(quán)重,并降低與該音頻事件不相關(guān)音頻幀的權(quán)重,從而準(zhǔn)確地學(xué)習(xí)到所有音頻幀和音頻事件之間的權(quán)重.每一次訓(xùn)練,路由算法的權(quán)重都會(huì)更新,算法結(jié)束時(shí)保存最終權(quán)重.用動(dòng)態(tài)路由算法計(jì)算輸出向量vvvj,再算出輸出向量vvvj的歐氏長(zhǎng)度.每個(gè)時(shí)刻t的所有J個(gè)類別的歐氏長(zhǎng)度組成向量作為高級(jí)膠囊層的輸出,記為ooo(t).
將每個(gè)時(shí)間片的V個(gè)膠囊輸入注意力層.注意力層可以讓網(wǎng)絡(luò)模型更專注地找出與音頻事件類相關(guān)的輸入音頻的顯著幀.該層的sigmoid 激活函數(shù)能夠預(yù)測(cè)出每幀的重要性,每個(gè)時(shí)刻t的注意力層輸出為zzz(t),zzz(t)的值在0 到1 之間.注意力層在抑制音頻事件類不相關(guān)幀的同時(shí)選擇顯著幀.時(shí)間注意力機(jī)制就是通過(guò)注意力層的輸出來(lái)實(shí)現(xiàn)的.
最后是融合層,將高級(jí)膠囊層的輸出ooo(t)與注意力層的輸出zzz(t)合并.對(duì)時(shí)間片的顯著幀選擇實(shí)現(xiàn)時(shí)間注意力機(jī)制,注意力因子大的時(shí)間片對(duì)應(yīng)著類相關(guān)顯著音頻幀,注意力因子小的時(shí)間片對(duì)應(yīng)著類不相關(guān)的音頻幀.通過(guò)計(jì)算高級(jí)膠囊層的輸出ooo(t)和注意力因子zzz(t)的加權(quán)和得到最終的預(yù)測(cè)輸出yj.yj表示第j類音頻類事件的預(yù)測(cè)值,表達(dá)式如下:
其中,oj(t)表示時(shí)刻t的第j個(gè)膠囊輸出向量vvvj的歐氏長(zhǎng)度,zj(t)表示時(shí)刻t的第j類注意力因子,j1,···,J,t1,···,T.zzz(t)控制了ooo(t)傳送信息中的顯著音頻幀.選擇一個(gè)概率閾值τ,當(dāng)yj >τ時(shí),輸出是第j類音頻活動(dòng)事件.
此次任務(wù)使用的是DCASE 2018 任務(wù)5 數(shù)據(jù)集,它是SINS 數(shù)據(jù)集的派生數(shù)據(jù)[18].對(duì)于這項(xiàng)任務(wù),在起居室和廚房混合區(qū)域使用了7 個(gè)麥克風(fēng)陣列組成網(wǎng)絡(luò)收集音頻,每個(gè)麥克風(fēng)陣列由4 個(gè)線性排列的麥克風(fēng)組成.圖3 顯示了聲音錄制環(huán)境的平面圖以及使用的傳感器節(jié)點(diǎn)的位置.
此數(shù)據(jù)集包含一個(gè)人一周住在度假屋中的連續(xù)錄音,這個(gè)連續(xù)錄音被分成10 s 的音頻段,包含多于一個(gè)活動(dòng)類(例如兩個(gè)活動(dòng)間的轉(zhuǎn)換)的音頻段被忽略了,這意味著每個(gè)音頻段僅代表一個(gè)活動(dòng).這些音頻段和對(duì)應(yīng)的類別標(biāo)簽作為單獨(dú)的文件被提供.每個(gè)音頻段包含4 個(gè)聲道(例如來(lái)自特定節(jié)點(diǎn)的4 個(gè)麥克風(fēng)聲道).這個(gè)9 類任務(wù)的日?;顒?dòng)如表1所示,表1 中還包括開(kāi)發(fā)集和評(píng)估集中每類活動(dòng)的10 s 片段的數(shù)量.
表1 開(kāi)發(fā)集和評(píng)估集音頻數(shù)量Table 1 Development set and evaluation set audio quantity
我們此次實(shí)驗(yàn)采用的特征提取方法是目前音頻處理最常用的對(duì)數(shù)Mel濾波[19?20].在提取特征之前,我們將每個(gè)剪輯的音頻以16 kHz 重新采樣,然后進(jìn)行短時(shí)傅里葉變換得到語(yǔ)譜圖;其次我們生成一個(gè)64 頻帶的Mel 濾波器組;將語(yǔ)譜圖和Mel 濾波器組相乘,并進(jìn)行對(duì)數(shù)運(yùn)算,得到對(duì)數(shù)Mel 語(yǔ)譜圖.即每個(gè)10 s 音頻樣本產(chǎn)生一個(gè)240 ×64 的特征向量.圖4 是我們列舉的每類活動(dòng)的對(duì)數(shù)Mel 語(yǔ)譜圖.
在訓(xùn)練階段,我們?cè)陬A(yù)測(cè)標(biāo)簽和錄音的真實(shí)標(biāo)簽之間應(yīng)用對(duì)數(shù)交叉熵?fù)p失函數(shù).神經(jīng)網(wǎng)絡(luò)的權(quán)值可以通過(guò)反向傳播計(jì)算的權(quán)值梯度來(lái)更新.損失定義為:
其中,E是對(duì)數(shù)交叉熵?fù)p失,OOOn和PPP n表示樣本索引n處的預(yù)測(cè)和真實(shí)類別標(biāo)簽向量,批處理大小用N表示.我們采用Adam 作為隨機(jī)優(yōu)化方法,初始學(xué)習(xí)率為0.001,以0.9 的衰減率每?jī)奢喫p一次學(xué)習(xí)率.批處理的大小為64,總共訓(xùn)練了30 輪.
我們此次實(shí)驗(yàn)折疊了四次開(kāi)發(fā)集數(shù)據(jù),三折數(shù)據(jù)集用于訓(xùn)練模型,一折數(shù)據(jù)集用于預(yù)測(cè)結(jié)果,然后計(jì)算四折結(jié)果的平均值.重復(fù)該過(guò)程10 次計(jì)算預(yù)測(cè)結(jié)果的平均值,得到開(kāi)發(fā)集上模型的F1 得分.這樣更好地避免了偶然性,讓實(shí)驗(yàn)結(jié)果更具有說(shuō)服力.最后我們?cè)谠u(píng)估集上進(jìn)行了測(cè)試,得到了各模型的評(píng)估集F1 得分.
圖3 具有傳感器節(jié)點(diǎn)的廚房和客廳混合的2D 平面布置圖Fig.3 2D floorplan of the combined kitchen and living room with the used sensor nodes
圖4 各類活動(dòng)的對(duì)數(shù)Mel 語(yǔ)譜圖Fig.4 Logmel spectrum of various activities
表2 顯示了5 個(gè)不同模型在開(kāi)發(fā)集上各類活動(dòng)的F1 得分,表3 是評(píng)估集上各模型平均F1 得分.其中基線系統(tǒng)是簡(jiǎn)單的兩層卷積結(jié)構(gòu)[12].GCRNN 是在卷積循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上加了門控線性單元.GCRNN-att 是GCRNN 后端加上了前文提到的注意力模塊.Caps 是指沒(méi)有加入注意力模塊的膠囊網(wǎng)絡(luò)模型.Caps-att 是我們提出的模型.
表2 開(kāi)發(fā)集上各模型的F1 得分Table 2 F1 scores of each model on development dataset
從表2 的結(jié)果可以明顯看出,我們的模型相比于其他4個(gè)模型在9 類活動(dòng)中有5 類活動(dòng)的F1 得分都是最高的,其中缺席類的F1 得分比其他4 個(gè)模型高出5% 左右,其他類的得分比另外4 個(gè)系統(tǒng)高出10% 左右.可以看出對(duì)于不是具體相關(guān)活動(dòng)的類別,我們的模型能很好地減少過(guò)擬合現(xiàn)象.
從實(shí)驗(yàn)結(jié)果可以看出,我們模型在開(kāi)發(fā)集和評(píng)估集上F1得分的平均值都要高于其他4 個(gè)模型.膠囊網(wǎng)絡(luò)模型(Caps)在開(kāi)發(fā)集和評(píng)估集的F1 得分明顯高于基線系統(tǒng),分別高出2.8% 和1.6%.這說(shuō)明膠囊網(wǎng)絡(luò)在音頻分類問(wèn)題中的效果是要明顯好于這種淺層的CNN 結(jié)構(gòu).Caps 在開(kāi)發(fā)集和評(píng)估集的F1 得分也高于GCRNN,分別高出0.4% 和0.1%.這說(shuō)明相比于GCRNN 這種較深的網(wǎng)絡(luò)結(jié)構(gòu),膠囊網(wǎng)絡(luò)在分類效果上也有較好的表現(xiàn).GCRNN-att 較GCRNN 在開(kāi)發(fā)集和評(píng)估集F1 得分分別提高了0.9% 和0.7%;Caps-att 較Caps 在開(kāi)發(fā)集和評(píng)估集F1 得分分別提高了4.8% 和2.2%,這說(shuō)明注意力機(jī)制成功抑制了音頻事件類不相關(guān)幀,選擇了顯著幀.
在本文中,我們提出了注意力膠囊網(wǎng)絡(luò)模型用于多聲道音頻分類任務(wù).針對(duì)CNN 對(duì)局部特征間相對(duì)關(guān)系不敏感,提出采用膠囊網(wǎng)絡(luò)學(xué)習(xí)局部特征與整體間的相對(duì)關(guān)系;針對(duì)最大池化路由造成的特征損失問(wèn)題,提出采用動(dòng)態(tài)路由避免忽視不顯著局部特征,得到初級(jí)膠囊層與高級(jí)膠囊層間的權(quán)重系數(shù),更加準(zhǔn)確反映出部分與整體的關(guān)系;針對(duì)音頻剪輯所有幀對(duì)音頻類貢獻(xiàn)程度不同,提出時(shí)間注意力機(jī)制賦予幀不同權(quán)重,減少模型過(guò)擬合問(wèn)題.通過(guò)實(shí)驗(yàn)可以看出,相比于一般的卷積網(wǎng)絡(luò)和卷積循環(huán)網(wǎng)絡(luò)等方法,提出的網(wǎng)絡(luò)模型具有更好的學(xué)習(xí)能力,模型在開(kāi)發(fā)集和評(píng)估集上的F1 得分分別為92.1% 和88.8%.我們下一步的研究計(jì)劃包括將注意力膠囊網(wǎng)絡(luò)推廣到注意力矩陣膠囊網(wǎng)絡(luò),將注意力膠囊網(wǎng)絡(luò)用于弱標(biāo)簽半監(jiān)督音頻事件檢測(cè)以及將注意力膠囊網(wǎng)絡(luò)用于其他的類別區(qū)分度低的海量數(shù)據(jù)問(wèn)題上.
表3 評(píng)估集上各模型F1 得分Table 3 F1 scores of each model on evaluation dataset