張會(huì)云,黃鶴鳴
(1.青海師范大學(xué) 計(jì)算機(jī)學(xué)院,西寧 810008;2.藏語智能信息處理及應(yīng)用國家重點(diǎn)實(shí)驗(yàn)室 西寧 810008)
在多目標(biāo)學(xué)習(xí)領(lǐng)域,CARUANA[1]提出的多任務(wù)學(xué)習(xí)(Multi-Task Learning,MTL)使用單一模型,并同時(shí)學(xué)習(xí)包含在多個(gè)相關(guān)聯(lián)任務(wù)中的信息,通過共享表示層參數(shù)實(shí)現(xiàn)信息共享,提高模型在多個(gè)任務(wù)上的泛化性[2]。
近年來,多任務(wù)學(xué)習(xí)越來越成熟并被廣泛應(yīng)用到人臉表情識(shí)別[3]、無人駕駛[4]等諸多領(lǐng)域,但在網(wǎng)絡(luò)輿情分析領(lǐng)域應(yīng)用不多,主要的研究有:文獻(xiàn)[5]提出交互式的多任務(wù)學(xué)習(xí)模型,通過一組共享的隱變量迭代地傳遞給不同任務(wù),能夠在標(biāo)記層和文檔層學(xué)習(xí)多個(gè)相關(guān)任務(wù);文獻(xiàn)[6]利用門控循環(huán)單元(Gated Recurrent Unit,GRU)捕捉對(duì)話的全局上下文信息,通過注意力機(jī)制實(shí)現(xiàn)模態(tài)間的交互,最后結(jié)合多任務(wù)學(xué)習(xí)預(yù)測(cè)情感類型;文獻(xiàn)[7]提出一種對(duì)抗性多任務(wù)學(xué)習(xí)架構(gòu),減輕了共享和私有潛在特征間的相互干擾,該方法在16種分類任務(wù)中具有明顯優(yōu)勢(shì)。
本文根據(jù)不同信噪比和噪聲類型對(duì)基線數(shù)據(jù)集EMODB 進(jìn)行數(shù)據(jù)擴(kuò)充,在擴(kuò)充的數(shù)據(jù)集上提取融合的特征集,同時(shí)提出用于情感分類、說話人辨識(shí)和性別識(shí)別的策略時(shí)間卷積網(wǎng)絡(luò)(Diplomatic Temporal Convolutional Network,DTCN)來增強(qiáng)多任務(wù)學(xué)習(xí)性能。
DTCN 模型的性能主要在德語語音情感數(shù)據(jù)集EMODB[8]上進(jìn)行驗(yàn)證。數(shù)據(jù)集EMODB包含10 位說話人(5 男5 女)和7 類情感,即中性(Neutral/N)、憤怒(Anger/A)、恐懼(Fear/F)、高興(Happiness/H)、悲傷(Sadness/S)、厭惡(Disgust/D)和無聊(Boredom/B),每類情感包含的樣本數(shù)量依次為79、127、69、71、62、46、81。
為了充分驗(yàn)證DTCN 模型的魯棒性和泛化性,本文對(duì)數(shù)據(jù)集EMODB 進(jìn)行擴(kuò)充。首先,根據(jù)數(shù)據(jù)集EMODB 分別在-10、-5、0、5 和10 dB 信噪比(Signal-to-Noise Ratio,SNR)下利用噪聲庫NoiseX-92[9]中的15 種噪聲進(jìn)行擴(kuò)充,得到5 個(gè)單信噪比含噪數(shù)據(jù)集,分別記為EMODB-10、EMODB-5、EMODB0、EMODB5 以及EMODB10,每個(gè)數(shù)據(jù)集中的樣本數(shù)是數(shù)據(jù)集EMODB 中樣本數(shù)的15倍;其次,合并5個(gè)單信噪比含噪數(shù)據(jù)集,構(gòu)建多信噪比含噪數(shù)據(jù)集EMODBM,EMODBM 的樣本數(shù)是數(shù)據(jù)集EMODB 樣本數(shù)的75倍。基線數(shù)據(jù)集EMODB 及相應(yīng)的擴(kuò)充數(shù)據(jù)集中各類樣本數(shù)量占比相同,如圖1所示。
具體來說,在SNR=-10 dB 條件下,首先采用Babble 噪聲對(duì)基線數(shù)據(jù)集EMODB 中的每類情感(如憤怒、開心等7 類)樣本依次加噪,這樣將獲得包含Babble 噪聲的含噪數(shù)據(jù)集EMODB,記為B-EMODB,該數(shù)據(jù)集與基線數(shù)據(jù)集EMODB 中的樣本數(shù)量相同。此時(shí),由于對(duì)每類情感的每條樣本只是添加了Babble 噪聲,因此各類情感樣本數(shù)量并未增加,情感類別也未發(fā)生改變。相應(yīng)地,依次向基線數(shù)據(jù)集EMODB 添加White、Pink、Factory1 等剩余的14 種噪聲,同樣,每添加一種類型的噪聲,就會(huì)形成包含某一類型噪聲的含噪數(shù)據(jù)集,依次記為W-EMODB、P-EMODB、F-EMODB等。在每種噪聲下構(gòu)建的含噪數(shù)據(jù)集中的各類樣本數(shù)量均相同,只是噪聲類型不同。其次,將不同類型噪聲的含噪數(shù)據(jù)集按照情感類別合并,此時(shí)構(gòu)建的數(shù)據(jù)集稱為EMODB-10。該數(shù)據(jù)集是對(duì)各類情感的所有樣本均進(jìn)行加噪,樣本數(shù)量增加的倍數(shù)等于噪聲的種類數(shù),即各類情感樣本數(shù)量隨噪聲種類的增加等比例增加。
韻律特征和譜特征是語音的主要特征。首先提取5 維的韻律特征,即音高(Pitch)和過零率(Zero Crossing Rate,ZCR)的低級(jí)描述符(Low-Level Descriptor,LLD),并計(jì)算這些LLD 的高級(jí)統(tǒng)計(jì)函數(shù)(High-level Statistic Function,HSF)。然后提取214 維的譜特征:即頻譜平坦度(Flatness)、梅爾頻率倒譜系數(shù)(Mel Frequency Ceptrum Cofficient,MFCC)、譜重心(Centroid)、色譜圖(Chroma)、幅度(Amplitude)、梅爾頻譜(Mel)以及譜對(duì)比度(Contrast)等特征的LLD,并計(jì)算這些LLD 的HSF。如表1 所示,融合這些韻律特征和譜特征的HSF 作為DTCN 模型的輸入。
表1 低級(jí)描述符與高級(jí)統(tǒng)計(jì)函數(shù)特征Table 1 Low-level descriptor and high-level statistical function features
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)通過門控結(jié)構(gòu)保留歷史信息,實(shí)時(shí)更新模型參數(shù)[10],但RNN 存在模型訓(xùn)練時(shí)間較長、模型構(gòu)建時(shí)定性參數(shù)較多、內(nèi)存消耗較大、梯度消失或梯度爆炸等缺點(diǎn)。文獻(xiàn)[11]提出的時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)有效地避免了時(shí)間序列建模中出現(xiàn)的梯度消失或梯度爆炸問題[12],在時(shí)序預(yù)測(cè)方面引起了巨大反響。
模型TCN 的結(jié)構(gòu)簡單,參數(shù)較少,對(duì)單任務(wù)的學(xué)習(xí)能力較強(qiáng),但對(duì)多任務(wù)的非線性映射能力較弱。本文提出的基于模型TCN 的策略時(shí)間卷積網(wǎng)絡(luò)能夠有效提升模型在多任務(wù)學(xué)習(xí)中的并行處理能力。DTCN 模型結(jié)構(gòu)如圖2 所示。
圖2 DTCN 模型的結(jié)構(gòu)Fig.2 Structure of the DTCN model
DTCN 模型由全連接層、級(jí)聯(lián)TCN 模塊、Flatten層以及多任務(wù)輸出層構(gòu)成。其中,級(jí)聯(lián)TCN 模塊由3 個(gè)堆疊的TCN 構(gòu)成,核心結(jié)構(gòu)是時(shí)序模塊和殘差連接。時(shí)序模塊由因果空洞卷積、加權(quán)歸一化、ReLU 和Dropout構(gòu)成。
通過硬參數(shù)共享、殘差模塊、激活函數(shù)ReLU 以及Adam 優(yōu)化器等機(jī)制,可有效提升DTCN 模型對(duì)多任務(wù)的并行處理能力。通過硬參數(shù)共享機(jī)制,DTCN 模型減少了參數(shù),保證了各個(gè)任務(wù)互相充分挖掘有用信息;殘差模塊[13]在很大程度上避免了網(wǎng)絡(luò)層數(shù)加深引起的梯度爆炸或梯度消失問題;通過使用激活函數(shù)ReLU[14]使DTCN 模型避免了單純的線性組合,具有較強(qiáng)的非線性映射能力,提升了模型的整體表達(dá)能力;Adam 優(yōu)化器[15]能夠避免網(wǎng)絡(luò)學(xué)習(xí)進(jìn)入局部最優(yōu)或鞍點(diǎn)。
因果卷積[16]是指DTCN 模型中時(shí)序模塊的上下層神經(jīng)元之間存在因果關(guān)系,而且當(dāng)前網(wǎng)絡(luò)層t時(shí)刻的值僅與先前時(shí)刻的值有關(guān),這意味著數(shù)據(jù)信息的傳遞是單向的,如圖3 所示。
圖3 因果卷積的可視化Fig.3 Visualization of causal convolution
DTCN 模型中的因果卷積能較好地處理時(shí)序問題,它能根據(jù)時(shí)間序列X=(x1,x2,…,xt)預(yù)測(cè)輸出Y=(y1,y2,…,yt)。令濾波器F=(f1,f2,…,fK),K為卷積核大小,則xt的因果卷積如下:
假設(shè)輸入層最后兩個(gè)節(jié)點(diǎn)為xt-1和xt,第1 個(gè)隱藏層的最后一個(gè)節(jié)點(diǎn)為,濾波器F=(f1,f2),則根據(jù)式(1)有:時(shí)刻t的輸出來自前一層中的時(shí)刻t和更早時(shí)刻的元素卷積,是一種嚴(yán)格的時(shí)間約束模型。此外,時(shí)序模塊中隱藏層越多,追溯的歷史信息越多。例如,第2 個(gè)隱藏層的最后一個(gè)節(jié)點(diǎn)關(guān)聯(lián)了輸入的3 個(gè)節(jié)點(diǎn),即xt-2、xt-1和xt;輸出層最后一個(gè)節(jié)點(diǎn)關(guān)聯(lián)了輸入層的5 個(gè)節(jié)點(diǎn),即xt-4、xt-3、xt-2、xt-1和xt(實(shí)心箭頭關(guān)聯(lián)的節(jié)點(diǎn))。
單純的因果卷積對(duì)時(shí)間的建模長度受限于卷積核大小。線性堆疊更多的層能夠擴(kuò)大感受野,從而捕獲更長的依賴關(guān)系,但這會(huì)增加網(wǎng)絡(luò)層數(shù),加大反向訓(xùn)練難度,導(dǎo)致梯度消失、訓(xùn)練復(fù)雜、擬合效果差等問題。為此,在DTCN 模型的時(shí)序模塊中引入了空洞卷積[17-18]。
空洞卷積允許對(duì)輸入進(jìn)行間隔采樣,通過設(shè)置空洞系數(shù)d將每兩個(gè)相鄰層之間卷積神經(jīng)元的數(shù)量減少為原來的1/d。隨著網(wǎng)絡(luò)層數(shù)的增加,有效窗口的數(shù)量大幅增長。這意味著引入空洞卷積后,相同深度的網(wǎng)絡(luò)可以獲得更大的視野。圖4 所示為空洞卷積計(jì)算過程。
圖4 空洞卷積的可視化過程Fig.4 Visualization process of dilated convolution
因果空洞卷積[19-20]允許卷積時(shí)的輸入存在間隔采樣,采樣率受空洞率d的控制。輸入層的空洞率為d=1,表示輸入時(shí)每個(gè)點(diǎn)都采樣;第1 個(gè)隱藏層的空洞率d=2,表示輸入時(shí)每2 個(gè)點(diǎn)采樣1 個(gè)作為輸入。一般來講,層數(shù)越高對(duì)應(yīng)的空洞率d越大??斩淳矸e使得有效窗口的大小隨著網(wǎng)絡(luò)層數(shù)的增加而呈指數(shù)型增長,從而用比較少的層獲得更大的感受野。
令輸入序列X=(x1,x2,…,xt),濾波器F=(f1,f2,…,fK),當(dāng)空洞率為d時(shí),xt處的因果空洞卷積如下:
具體來說,當(dāng)空洞率d=1時(shí),因果空洞卷積是簡單的因果卷積,此時(shí)第1 個(gè)隱藏層的最后一個(gè)節(jié)點(diǎn)關(guān)聯(lián)了輸入的3 個(gè)節(jié)點(diǎn);當(dāng)空洞率d=2時(shí),第2 個(gè)隱藏層的最后一個(gè)節(jié)點(diǎn)關(guān)聯(lián)了輸入的7 個(gè)節(jié)點(diǎn),關(guān)聯(lián)了第1 個(gè)隱藏層的3 個(gè)節(jié)點(diǎn),根據(jù)式(2)有=f1xt-2d+f2xt-d+f3xt(d=2)。通常,因果空洞卷積的感受野大小為(K-1)d+1。其中,K表示卷積核大小,d以2 的指數(shù)增長,依次取1、2、4。由于采用了空洞卷積,每一層都要填充,填充大小為(k-1)d。
殘差網(wǎng)絡(luò)[21-22]具有非常強(qiáng)大的表達(dá)能力,使得網(wǎng)絡(luò)以跨層跳躍的方式傳遞信息,解決了深層網(wǎng)絡(luò)訓(xùn)練時(shí)存在的梯度問題。因此,在DTCN 模型中引入殘差模塊結(jié)構(gòu),如圖5 所示。殘差模塊由左右2 個(gè)分支構(gòu)成:左分支由2 個(gè)時(shí)序模塊構(gòu)成,右分支由1×1 卷積構(gòu)成。每個(gè)時(shí)序模塊由卷積和ReLU 非線性映射構(gòu)成,并在每層中引入了權(quán)重歸一化和Dropout 來正則化網(wǎng)絡(luò)。若輸入通道的數(shù)量與第2 個(gè)時(shí)序模塊中空洞卷積的濾波器數(shù)量不同,則啟用右分支,將卷積輸出和輸入元素相加,確保殘差連接有效。
圖5 殘差塊的結(jié)構(gòu)Fig.5 Structure of residual block
級(jí)聯(lián)TCN 模塊使用殘差連接構(gòu)建深層網(wǎng)絡(luò)。對(duì)左分支中輸入殘差塊的序列yt按照式(3)進(jìn)行計(jì)算:
其中:Wa、Wb分別表示兩個(gè)時(shí)序模塊中卷積層權(quán)重向量;右分支是殘差塊中的一維全卷積操作,確保輸入序列yt和輸出序列yt+1具有相同長度。殘差塊計(jì)算如下:
實(shí)驗(yàn)采用一臺(tái)服務(wù)器進(jìn)行計(jì)算,CPU 為40 核80 線程,內(nèi)存為64 GB。通過深度學(xué)習(xí)框架Keras[23]搭建模型DTCN,使用RTX 2080 Ti GPU 進(jìn)行訓(xùn)練。
在本文研究中,優(yōu)化器為Adam[24],迭代周期(Epoch)為100,批處理(Batch Size)為256,損失函數(shù)為交叉熵,用5 次實(shí)驗(yàn)結(jié)果的平均值來刻畫模型的整體性能。
DTCN 模型同時(shí)對(duì)情感類別、說話人和性別進(jìn)行多任務(wù)學(xué)習(xí)。其中,情感類別數(shù)為7,說話人類別數(shù)為10,性別類別為2。當(dāng)特征維度為219時(shí),DTCN 模型的參數(shù)量為532 883;當(dāng)特征維度增加到233 時(shí)(增加了譜對(duì)比度的最大值和方差特征),模型DTCN 的參數(shù)量為566 931。
為了驗(yàn)證模型DTCN 在多任務(wù)學(xué)習(xí)中的效果,依次進(jìn)行消融研究、泛化性驗(yàn)證和魯棒性驗(yàn)證,并與同類模型的性能進(jìn)行對(duì)比。
1)消融研究:選擇最優(yōu)模型,特征維度為219,通過在數(shù)據(jù)集EMODB0 上進(jìn)行多任務(wù)識(shí)別,選擇最優(yōu)DTCN 模型,取5 次實(shí)驗(yàn)的均值和標(biāo)準(zhǔn)差衡量模型的分類性能。
2)泛化性驗(yàn)證:驗(yàn)證DTCN 模型在用不同方法擴(kuò)充后的數(shù)據(jù)集上的性能,特征維度分別為219和233。
3)魯棒性驗(yàn)證:選 擇NoiseX-92中的Babble、Pink、White 以及Factory1 噪聲,分別驗(yàn)證這4 種噪聲及由它們構(gòu)成的混合噪聲對(duì)模型性能的影響。
4)對(duì)比DTCN 模型與同類模型AHPCL、HMN、MA-CapsNet 的性能。
3.2.1 消融研究
表2 所示為模型TCN1、TCN2、TCN3、Dense1、Dense2、Dense3 及DTCN 在數(shù)據(jù)集EMODB0 上的多任務(wù)分類性能(表中數(shù)據(jù)為Avg±Std)。圖6 所示為上述模型在數(shù)據(jù)集EMODB0 上進(jìn)行5 次實(shí)驗(yàn)的分布。其中,TCN1 模型中濾波器的數(shù)量為32,核大小為4,空洞率依次為1、2、4、8;TCN2 由兩層TCN1 構(gòu)成;TCN3由三層TCN1構(gòu)成;Dense1模型由一層 包含128 個(gè)神經(jīng)元節(jié)點(diǎn)的全連接網(wǎng)絡(luò)構(gòu)成,模型Dense2 由兩層Dense1構(gòu)成,Dense3 模型由三層Dense1構(gòu)成;DTCN 由一個(gè)全連接 層、3 個(gè)級(jí)聯(lián)的TCN 模塊、Flatten 層及輸出層構(gòu)成。
表2 不同模型在數(shù)據(jù)集EMODB0 上的多任務(wù)識(shí)別結(jié)果Table 2 Multi-task recognition results of different models on the dataset EMODB0 %
圖6 不同模型在數(shù)據(jù)集EMODB0 上的多任務(wù)識(shí)別準(zhǔn)確率Fig.6 Multi-task recognition accuracy of different models on dataset EMODB0
從表2 和圖6 可以看出:
1)在多任務(wù)學(xué)習(xí)過程中,所有模型的穩(wěn)定性均較好,且對(duì)多任務(wù)學(xué)習(xí)的性能均達(dá)到了90%以上,對(duì)性別的分類性能優(yōu)于對(duì)說話人和情感識(shí)別的性能。其中,全連接網(wǎng)絡(luò)對(duì)說話人的區(qū)分能力優(yōu)于對(duì)情感類別的區(qū)分能力,而TCN 及其相關(guān)衍生類模型則相反;結(jié)合全連接層和TCN 的模型能更好地區(qū)分情感類別和說話人。
2)絕大多數(shù)模型對(duì)說話人識(shí)別的魯棒性較低,對(duì)性別識(shí)別的魯棒性最高。因?yàn)檎f話人類別數(shù)較多(包含10 個(gè)類別),識(shí)別難度較大;而性別僅有兩類,識(shí)別難度大幅降低。
3)在7 類模型中,DTCN 模型的多任務(wù)學(xué)習(xí)性能最好,對(duì)情感、說話人以及性別的識(shí)別準(zhǔn)確率依次為97.38%、95.34%、99.35%,這是一個(gè)非常理想的結(jié)果。
3.2.2 模型的泛化性
為驗(yàn)證DTCN 模型的泛化性,分別采用219D 特征和233D 特征詳細(xì)對(duì)比DTCN 模型在基線數(shù)據(jù)集EMODB 和擴(kuò)充數(shù)據(jù)集EMODB-10、EMODB-5、EMODB0、EMODB5、EMODB10 及EMODBM上的性能,如表3、圖7 所示,其中,圖7 橫坐標(biāo)表示在不同SNR 下構(gòu)建的數(shù)據(jù)集。從表3 和圖7 可以看出:
表3 DTCN 模型在基線數(shù)據(jù)集EMODB 及其擴(kuò)充數(shù)據(jù)集上的性能對(duì)比Table 3 Performance comparison of DTCN model on baseline dataset EMODB and its augmented datasets %
圖7 DTCN 模型在擴(kuò)充的數(shù)據(jù)集EMODB 上的多任務(wù)識(shí)別結(jié)果Fig.7 Multi-task recognition results of DTCN model on the augmented dataset EMODB
1)在基線數(shù)據(jù)集EMODB 和擴(kuò)充數(shù)據(jù)集EMODB-10上,DTCN 模型在233D 特征上的性能較大程度上優(yōu)于219D 特征上的性能,而在其他擴(kuò)充數(shù)據(jù)集上,模型在219D 特征上性能較好。
2)DTCN 模型的性能與信噪比成正相關(guān):使用不同SNR 對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充時(shí),隨著SNR 的增大,模型的性能線性提升;當(dāng)SNR 為10 dB時(shí),無論采用219D 特征還是233D 特征,模型的多任務(wù)學(xué)習(xí)能力均取得了非常理想的效果。其中,在233D 特征下,DTCN 模型對(duì)多任務(wù)學(xué)習(xí)的穩(wěn)定性最高。
3)從圖7 可以看出,無論采用哪一種特征向量,模型的多任務(wù)學(xué)習(xí)能力隨SNR 的變化趨勢(shì)相同。其中,當(dāng)采用219D 的特征向量時(shí),模型在不同SNR 下對(duì)情感的區(qū)分能力優(yōu)于對(duì)說話人的區(qū)分能力;當(dāng)SNR≥-5 dB時(shí),模型對(duì)情感和對(duì)說話人的區(qū)分能力非常接近。
3.2.3 模型的魯棒性
為了驗(yàn)證不同類型噪聲對(duì)模型性能的影響,在限定SNR 為10 dB 條件下,對(duì)數(shù)據(jù)集EMODB 分別添加Babble、Pink、White 及Factory1 噪聲,當(dāng)特征維度為233時(shí),模型DTCN 在這些含噪數(shù)據(jù)集上的性能對(duì)比分別如表4 和圖8 所示,其中,No 表示未加噪聲的情況。從表4 和圖8 可以看出:
表4 DTCN 模型在SNR=10 dB 下對(duì)數(shù)據(jù)集EMODB 使用單一噪聲的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of the DTCN model using single noise on the dataset EMODB under the SNR=10 dB %
圖8 不同噪聲下DTCN 模型對(duì)多任務(wù)的識(shí)別結(jié)果Fig.8 Results of DTCN model for multitask recognition under the different noise
1)不同噪聲對(duì)模型性能的影響程度不一,Babble噪聲對(duì)模型性能的干擾較小,Pink 噪聲對(duì)情感識(shí)別的影響較大,White噪聲對(duì)說話人識(shí)別的影響較大。
2)DTCN 模型在Pink 和Factory1 噪聲下進(jìn)行多任務(wù)學(xué)習(xí)時(shí)的魯棒性較好,而在White噪聲下魯棒性較差。
3)DTCN 模型對(duì)性別的識(shí)別性能最高,對(duì)情感識(shí)別的性能最差。
為進(jìn)一步驗(yàn)證噪聲對(duì)DTCN 模型性能的影響,當(dāng)SNR 為10時(shí),對(duì)數(shù)據(jù)集EMODB 分別添加Babble、Pink、White 及Factory1 噪聲,通過合并得到的含噪數(shù)據(jù)集,構(gòu)建了10 種混合噪聲下的樣本數(shù)據(jù)集。表5 和圖9 所示為DTCN 模型在這些混合噪聲下的識(shí)別性能。其中,特征向量維度為233,B、P、W和F 分別表示對(duì)數(shù)據(jù)集EMODB 添加Babble、Pink、White 和Factory1 噪聲。BP 表示對(duì)數(shù)據(jù)集EMODB添加了Babble 噪聲和Pink 噪聲后的混合而成的數(shù)據(jù)集,PW、BW、PF、BF、WF、BPW、BPF、BPWF 與BP 定義相似。從表5 和圖9 可以看出:
表5 DTCN 模型在混合噪聲數(shù)據(jù)集上的識(shí)別精確率Table 5 Performance of the DTCN model on the hybrid noisy datasets %
圖9 混合噪聲下DTCN 模型對(duì)多任務(wù)識(shí)別的影響Fig.9 Performance of DTCN model for multitask recognition under the hybrid noise
1)隨著噪聲種類的增加,DTCN 模型的多任務(wù)學(xué)習(xí)能力明顯提升。對(duì)情感、說話人以及性別的識(shí)別精確率最高可達(dá)95.87%、97.86%和99.54%,這可能是因?yàn)殡S著噪聲種類的增多,訓(xùn)練樣本數(shù)量成倍增加,模型能夠得到更充分的訓(xùn)練。
2)隨著噪聲種類的增加,模型的魯棒性逐漸增強(qiáng)。在絕大多數(shù)情況下,模型對(duì)說話人的識(shí)別效果優(yōu)于對(duì)情感的識(shí)別效果,這可能是因?yàn)檎f話人之間的特征差異較大且所提取的特征能夠更好地區(qū)分說話人。
3.2.4 與同類模型的性能對(duì)比
為了全面評(píng)估DTCN 模型的多任務(wù)學(xué)習(xí)能力,表6 對(duì)比了特征維度為233 時(shí)DTCN 模型與同類模型HMN[25]、AHPCL[26]、MA-CapsNet[27]、CNN[28]、LSTM[29]、GRU[30]、BiLSTM[31]以及BiGRU[32]對(duì)多任務(wù)的分類性能。從表6 可以看出:與上述研究的同類模型相比,DTCN 模型的性能均優(yōu)于其他幾種模型且復(fù)雜度較低,說明DTCN 模型能夠更有效地捕獲數(shù)據(jù)的時(shí)序信息,而且DTCN 模型所花費(fèi)的時(shí)間最少。另外,CNN 比各種循環(huán)網(wǎng)絡(luò)的變體(如LSTM、GRU、BiLSTM、GRU)更有效。
表6 在數(shù)據(jù)集EMODBM 上使用不同模型進(jìn)行多任務(wù)識(shí)別的性能Table 6 Multi-task recognition performance of different models on the dataset EMODBM
本文提出一種新的用于情感分類、說話人識(shí)別和性別識(shí)別的DTCN 多任務(wù)學(xué)習(xí)模型,并設(shè)計(jì)數(shù)據(jù)增強(qiáng)技術(shù),在不同信噪比下采用加噪的方式對(duì)數(shù)據(jù)集EMODB 進(jìn)行擴(kuò)充,驗(yàn)證不同噪聲對(duì)多任務(wù)學(xué)習(xí)能力的影響。實(shí)驗(yàn)結(jié)果表明,DTCN 模型在多任務(wù)學(xué)習(xí)中取得了較好的效果,當(dāng)SNR>0時(shí),DTCN 模型的多任務(wù)學(xué)習(xí)能力優(yōu)于基線,且隨著噪聲種類的增多,DTCN 模型的多任務(wù)學(xué)習(xí)能力越來越強(qiáng),在混合噪聲下,DTCN 模型的魯棒性和泛化性更好。下一步將研究DTCN 模型在數(shù)據(jù)集CASIA 和SAVEE 上的多任務(wù)學(xué)習(xí)能力,并探究更有利于多任務(wù)學(xué)習(xí)的特征。