楊震,王天朗,郭海燕,王婷婷
(1.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇 南京 210003;2.南京郵電大學(xué)通信與網(wǎng)絡(luò)技術(shù)國家地方聯(lián)合工程研究中心,江蘇 南京 210003)
隨著深度學(xué)習(xí)的興起,涌現(xiàn)了大量基于深度神經(jīng)網(wǎng)絡(luò)的說話人確認(rèn)模型,這些模型的說話人特征提取過程主要分為兩部分:前端聲學(xué)特征提取與話語級說話人嵌入特征提取。目前,主流的說話人識別模型的前端聲學(xué)特征使用梅爾頻率倒譜系數(shù)(MFCC,mel-frequency cepstral coefficient)或?qū)?shù)梅爾濾波器組能量(FBank,log-mel filter bank energy)等聲學(xué)特征[1]。這些特征都是在短時傅里葉變換的幅度譜的基礎(chǔ)上得到的,因此只利用了語音信號的時頻信息,而忽略了反映樣點間相關(guān)性的信號結(jié)構(gòu)信息[2]。然而,前端聲學(xué)特征中結(jié)構(gòu)信息的丟失,會導(dǎo)致后續(xù)話語級說話人嵌入特征提取網(wǎng)絡(luò)獲得的信息不完整,進(jìn)而制約了說話人確認(rèn)方法的性能。
針對上述說話人身份特征提取中信號結(jié)構(gòu)信息的缺失問題,文獻(xiàn)[3]通過在一條語音中提取多個片段級說話人嵌入特征,在后端判別模型中將每個說話人嵌入作為一個圖節(jié)點,利用圖注意力網(wǎng)絡(luò)(GAN,graph attention network)提取特征的結(jié)構(gòu)信息進(jìn)行判別。文獻(xiàn)[4]將神經(jīng)網(wǎng)絡(luò)提取的幀級別特征作為圖的節(jié)點,利用GAN 與圖池化替代原始的統(tǒng)計池化層,提取幀級別特征的結(jié)構(gòu)信息,得到話語級說話人特征。上述這些工作利用的是高維特征間的關(guān)聯(lián)性等結(jié)構(gòu)信息,并未關(guān)注反映原始語音信號樣點間關(guān)聯(lián)性的結(jié)構(gòu)信息。
同時,為了獲得更多的說話人身份信息,一些研究者提出了特征融合方法。文獻(xiàn)[5]在殘差網(wǎng)絡(luò)的基礎(chǔ)上提出了通道注意力模塊(CAM,channel attention module)以及并行注意力(CA,coordinate attention)來融合恒等映射特征與殘差特征,在提取高維特征的同時,保留了低維特征。文獻(xiàn)[6]提出一種多特征融合的說話人確認(rèn)方法,分別將MFCC特征、頻率域線性預(yù)測(FDLP,frequency domain linear prediction)特征以及原始語音信號輸入各分支網(wǎng)絡(luò),在各分支經(jīng)過池化層之后,通過一個共同的話語級特征提取網(wǎng)絡(luò),之后計算多種輸入特征的交叉熵?fù)p失函數(shù)的和,將其作為最終的損失函數(shù)來更新網(wǎng)絡(luò)參數(shù)。然而,上述方法主要針對同一個域的特征進(jìn)行融合,并沒有額外增加信號的結(jié)構(gòu)信息。此外,在其他研究領(lǐng)域,也有通過融合多領(lǐng)域特征進(jìn)行各種任務(wù)的方法。文獻(xiàn)[7]將對數(shù)梅爾譜圖和測度向量經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)后的輸出進(jìn)行拼接,得到了融合特征,用于后續(xù)的干擾語音評估;文獻(xiàn)[8]通過U-Net 提取4 個不同尺度的視覺特征后,將歸一化的特征進(jìn)行拼接,得到了融合視覺特征。此外,其他融合方法通過各種算法賦予不同特征不同的權(quán)重后進(jìn)行特征疊加[9]。然而,無論是特征的拼接還是疊加,都是線性操作,無法充分利用多領(lǐng)域特征之間的相關(guān)性。
為了克服說話人識別中前端特征提取的結(jié)構(gòu)信息缺失問題,本文使用圖信號處理(GSP,graph signal processing)技術(shù)[10]提取語音樣點之間的圖結(jié)構(gòu)信息。相比于傳統(tǒng)的數(shù)字信號處理方法,GSP可以通過邊和邊權(quán)重充分利用信號點之間的關(guān)系。同時,理論上已經(jīng)證明,離散傅里葉變換(DFT,discrete Fourier transform)是圖傅里葉變換(GFT,graph Fourier transform)在有向周期循環(huán)圖下的一個特例[10]。此外,已有研究表明,在語音增強(qiáng)以及語音分離等語音信號處理任務(wù)中,采用GSP 技術(shù)提取語音信號的結(jié)構(gòu)信息,有利于提升語音信號處理任務(wù)的性能[11-15]。因此,本文使用GSP 技術(shù),對語音信號在幀內(nèi)構(gòu)建圖結(jié)構(gòu),通過圖傅里葉變換得到語音的圖頻譜,進(jìn)而通過濾波器組得到圖對數(shù)梅爾濾波器組能量(GFBank,graph log-mel filter bank energy)特征,以此來表征語音信號樣點之間的結(jié)構(gòu)信息。在此基礎(chǔ)上,本文對傳統(tǒng)頻域特征與圖頻域特征進(jìn)行了特征融合。與其他傳統(tǒng)常用的特征拼接或疊加方法不同,本文引入了殘差網(wǎng)絡(luò)(ResNet,residual network)[16]和擠壓-激勵網(wǎng)絡(luò)(SE,squeeze-and-excitation network)[17]進(jìn)行特征融合,其中ResNet 將FBank 特征和GFBank特征映射為多通道特征,增強(qiáng)特征的表示能力,并通過殘差連接防止梯度消失,而SE 在ResNet的基礎(chǔ)上提供了注意力機(jī)制,根據(jù)不同特征通道的重要性賦予不同權(quán)重。
本文通過提取圖頻域特征,并與時頻域特征融合,得到跨域信息融合特征,用于基線模型ECAPATDNN(emphasized channel attention,propagation and aggregation in time delay neural network)[18]。本文工作主要包括以下幾個方面。
1) 提出了一種基于GSP 的新型圖頻域特征,能夠提取傳統(tǒng)時頻特征無法包含的信號樣點間的結(jié)構(gòu)信息。
2) 引入了ResNet[16]和SE[17]對提出的圖頻域特征以及傳統(tǒng)時頻域特征進(jìn)行跨域注意力特征融合,提升了特征提取的效果。
3) 在VoxCeleb1&2[19-20]、SITW(speaker in the wild)[21]和CN-Celeb[22]數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的圖頻率特征以及特征融合網(wǎng)絡(luò)在ECAPA-TDNN 模型[18]上的等錯誤率(EER,equal error rate)與最小檢測代價函數(shù)(minDCF,minimum detection cost function)均優(yōu)于使用傳統(tǒng)時頻域特征的基線模型。
在GSP 中,圖信號可以定義為G=(V,E,W),其中,V、E和W分別表示圖信號的頂點集、邊集和邊權(quán)重矩陣。對于一幀語音s=[s0,s1,…,sN-1]T∈RN,通過將其每個樣點si視為圖的頂點vi,可以將其從時域映射到圖域,即
此外,GFT 可以將信號從圖域變換到圖頻域,其中的GFT 基可以通過對邊權(quán)重矩陣進(jìn)行特征分解或奇異值分解得到[10]。由于GFT 是對反映語音圖信號結(jié)構(gòu)的邊權(quán)重矩陣進(jìn)行分解得到的,因此由GFT 得到的圖頻域特征一定程度上蘊含了語音信號的結(jié)構(gòu)信息。
SE 模塊[17]通過顯式地構(gòu)建不同特征通道間的相互關(guān)系,自適應(yīng)地調(diào)整通道間的特征響應(yīng),從而提升模型的建模能力,共分為擠壓與激勵兩步。擠壓時,對輸入Y∈RH×W×C的前2 個維度進(jìn)行全局池化,其中C為通道數(shù),則第c個通道的輸入Yc∈RH×W的輸出為zc,表示為
對于激勵操作,其輸出h=[h1,h2,…,hC]∈RC為
其中,σ(·)為sigmoid 激活函數(shù),δ(·)為ReLU 函數(shù),W1和W2為2 個全連接層的權(quán)重矩陣,b1和b2為2 個全連接層的偏置,z=[z1,z2,…,zC]T∈RC。h中的元素的取值范圍為0~1,將其作用于最初的輸入,可得SE 模塊的輸出Y*∈RH×W×C,其第c個通道的輸出Yc*∈RH×W為
本文提出了一種跨域注意力特征融合的說話人確認(rèn)方法,其模型結(jié)構(gòu)如圖1 所示。模型由圖結(jié)構(gòu)特征提取、時頻域特征提取、注意力特征融合、說話人嵌入特征提取以及損失函數(shù)五部分組成。其中,灰色為本文創(chuàng)新部分。在圖結(jié)構(gòu)特征提取模塊,本文提出了一種新的基于GSP 的圖頻域特征,即GFBank特征。在注意力特征融合模塊,本文提出了使用ResNet 和SE 模塊進(jìn)行注意力特征融合的方法。說話人特征嵌入提取模塊使用ECAPA-TDNN 模型[18]。
圖1 模型結(jié)構(gòu)
如圖2 所示,GFBank 特征的提取包括預(yù)加重、分幀、構(gòu)建圖信號、以及濾波器組五部分。其中,灰色為本文創(chuàng)新部分。預(yù)加重通過增加語音信號的高頻分量,可以有效補(bǔ)償聲音傳輸過程中高頻分量的損失。鑒于語音信號的時變非平穩(wěn)性,對語音進(jìn)行分幀的短時處理,以有效減少語音非平穩(wěn)性的影響。預(yù)加重與分幀過程與傳統(tǒng)FBank 特征提取[1]相同,這里省略。
圖2 GFBank 特征提取過程
語音分幀之后,一段長語音被分成多段有重疊的短語音,此時,語音信號幀內(nèi)與幀間均存在相關(guān)性[13],因此在語音信號的幀內(nèi)和幀間均可構(gòu)建圖結(jié)構(gòu)??紤]到說話人嵌入提取的TDNN 通過計算幀間特征的卷積,可以獲得語音信號幀間的相關(guān)性。因此,本文僅考慮語音信號幀內(nèi)的相關(guān)性,具體而言,本文考慮語音信號幀內(nèi)相鄰k個樣點之間的相關(guān)性,使用k階移位(k-shift)圖[11]Ψk∈RN×N作為圖鄰接矩陣,構(gòu)建語音圖信號,其圖拓?fù)浣Y(jié)構(gòu)如圖3所示,當(dāng)前節(jié)點僅與本節(jié)點以及其后的k-1個節(jié)點存在直接的邊相連,且具有循環(huán)移位特性,圖鄰接矩陣Ψk第i行第j列元素為
圖3 k 階移位圖結(jié)構(gòu)
設(shè)預(yù)加重和分幀后的語音信號S∈RN×T,其中,N為幀長,T為幀數(shù)。根據(jù)式(1),通過k-shift 圖將其映射到圖域,得到語音圖信號SG∈RN×T。時域語音信號映射到圖域后,圖節(jié)點的值與原語音信號樣點值相同,但增加了節(jié)點之間的邊連接。因此,需要對語音圖信號進(jìn)行圖濾波或變換到圖頻域進(jìn)一步處理。對于時域的語音信號,可以使用DFT 得到其頻譜;對于圖信號,可以使用GFT 得到其圖頻譜;對于有向圖信號,通過對鄰接矩陣Ψk進(jìn)行奇異值分解,可以得到其圖傅里葉變換基,即
其中,Σ=[σ0,σ1,…,σN-1]∈RN×N為奇異值矩陣,奇異值σn(n=0,1,…,N-1)∈RN為圖頻率,左奇異矩陣U=[u0,u1,…,uN-1]∈RN×N,un∈RN(n=0,1,…,N-1)為圖頻率σn對應(yīng)的圖頻率分量,且UT=U-1=VT為圖傅里葉變換基。由于一幀語音信號的點數(shù)過多,在圖中難以觀察,因此以包含15 個頂點的3-shift 圖信號為例,其第1 個~第4 個圖頻率分量如圖4 所示,每個圖頻率分量k個頂點(即信號樣點)之間有邊連接,圖頻率越高,表示頂點的值沿著邊的振蕩越快,因此圖頻率特征表示了信號樣點間的結(jié)構(gòu)信息。
圖4 k-shift 圖信號的圖頻率分量
借助圖傅里葉變換基,可以得到語音圖信號SG經(jīng)GFT 后的圖頻譜為
在FBank 特征提取過程中,利用人耳對低頻信號敏感、高頻信號不敏感的特點,設(shè)計了梅爾濾波器組,得到了符合人耳特性的聲學(xué)特征。在圖頻率域處理時,為了實現(xiàn)與FBank 特征對齊,同時減小特征參數(shù),使用濾波器組 FB ∈RN×F對圖能量譜進(jìn)行濾波,即
圖5 給出了VoxCeleb2 數(shù)據(jù)集中id00012/21 Uxsk56VDQ/00001.wav 語音中提取的 FBank 與GFBank 特征對比。從圖5 可以看出,F(xiàn)Bank 特征譜的頻率分布范圍為-15~0 dB,GFBank 特征譜的頻率分布范圍為-15~-5 dB,GFBank 特征譜能量更加集中。
圖5 FBank 與GFBank 特征對比
此外,本文分析了VoxCeleb1&2 數(shù)據(jù)集中每個語音的FBank 特征與GFBank 特征的最大頻率差的分布,如圖6 所示。從圖6 可以看出,GFBank 特征的最大幅度差主要分布在5~17 dB,F(xiàn)Bank 特征的最大幅度差主要分布在10~22 dB。由圖5 與圖6可知,相比FBank 特征,語音信號的GFBank 特征由于考慮了信號樣點間的圖結(jié)構(gòu),頻譜的能量更加集中,也驗證了圖頻率特征能夠反映信號樣點間的結(jié)構(gòu)信息。因此,傳統(tǒng)時頻域的FBank 特征與圖域的GFBank 特征存在較大差異,這使簡單的線性疊加或者是拼接的特征融合方法都無法充分融合兩者特征,需要一種非線性的自適應(yīng)的融合方法來動態(tài)調(diào)整2 種特征的權(quán)重分配。
圖6 VoxCeleb1&2 數(shù)據(jù)集中FBank 與GFBank 最大頻率差的分布
原始的ECAPA-TDNN模型中僅使用了FBank特征,未利用語音信號的結(jié)構(gòu)信息,為此本文加入了圖域特征GFBank。由于FBank 與GFBank 是屬于不同域的2 種特征,關(guān)注語音的不同方面,因此不能通過簡單的特征疊加或拼接來融合。無論是特征疊加還是拼接,都是線性操作,無法充分利用多領(lǐng)域特征之間的相關(guān)性,并且特征的拼接會改變輸入特征維度,對后續(xù)網(wǎng)絡(luò)的性能產(chǎn)生影響。
本文提出的注意力特征融合方法主要由ResNet[16]和SE[17]組成。具體而言,由ResNet 組成的卷積層通過不同卷積核和非線性激活函數(shù)可以將FBank 特征和GFBank 特征映射為多通道特征,進(jìn)一步提升特征的表示能力。然后,利用SE 模塊的擠壓操作聚合每個特征通道,計算注意力系數(shù),再經(jīng)過激勵操作,得到注意力權(quán)重分配后的特征,并與原始特征進(jìn)行殘差連接,以避免產(chǎn)生梯度消失問題。最后,經(jīng)過一層卷積層將多通道特征聚合為單通道特征,得到最終的跨域融合特征。通過這種方式,不僅實現(xiàn)了注意力融合,同時還保持了輸入特征維度的不變性,避免了由特征維度變化引起的影響。注意力特征融合網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示。
圖7 注意力特征融合網(wǎng)絡(luò)結(jié)構(gòu)
對于注意力特征融合網(wǎng)絡(luò),首先,將2 種前端特征XFBank與XGFBank構(gòu)成雙通道特征,即注意力特征融合網(wǎng)絡(luò)的輸入
然后,通過三層的二維卷積神經(jīng)網(wǎng)絡(luò)(2D CNN,two-dimension convolution neural network)將特征通道數(shù)擴(kuò)大到C,以獲取更多的通道信息,再借助SE模塊的注意力機(jī)制,自適應(yīng)調(diào)整特征通道的特征響應(yīng),最后通過一個2D CNN 聚合多通道特征信息,將特征通道數(shù)降為1。此外,在第一層網(wǎng)絡(luò)與最后一層網(wǎng)絡(luò)之間加入了殘差連接,其過程如下
其中,Conv1 和Conv2 為不同卷積核的2D CNN,SE 為SE 模塊,每層網(wǎng)絡(luò)都省略了批標(biāo)準(zhǔn)化(BN,batch normalization)和ReLU 激活函數(shù)。注意力特征融合網(wǎng)絡(luò)中每層網(wǎng)絡(luò)的詳細(xì)參數(shù)如表1 所示。
表1 注意力融合網(wǎng)絡(luò)參數(shù)
目前,說話人確認(rèn)的主流模型包括基于TDNN的ECAPA-TDNN 模型[18]、基于ResNet 的ResNet34模型[23],以及基于Transformer 的模型[24-25]等。主流的說話人識別數(shù)據(jù)集包括VoxCeleb1&2[19-20]、SITW[21]和CN-Celeb[22]等數(shù)據(jù)集,其中VoxCeleb數(shù)據(jù)集的說話人數(shù)量最多,是大多數(shù)研究者使用的。而本文選取的ECAPA-TDNN 模型在VoxCeleb數(shù)據(jù)集上的結(jié)果優(yōu)于其他主流模型。因此,本文選擇ECAPA-TDNN 作為基線模型。為了驗證所提出的融合特征的有效性,本文在ECAPA-TDNN 模型上進(jìn)行實驗,模型結(jié)構(gòu)如圖1 所示。將模型中的單一FBank 特征替換為融合特征,作為網(wǎng)絡(luò)的輸入。
本文分別在VoxCeleb1&2、SITW 和CN-Celeb1數(shù)據(jù)集上進(jìn)行實驗,以驗證所提方法。實驗使用VoxCeleb2 的開發(fā)集作為訓(xùn)練集,其中包含5 994 個說話人的1 092 009 條語音。此外,模型訓(xùn)練過程中,使用了MUSAN 數(shù)據(jù)集[26]、RIR 數(shù)據(jù)集[27]以及SpecAugment[28]進(jìn)行數(shù)據(jù)增強(qiáng)。實驗使用VoxCe-leb1、SITW 以及CN-Celeb1 作為測試集,包括Vox1-E cl.、Vox1-H cl.、SITW-dev、SITW-eval 以及CN-Celeb1-eval??紤]到VoxCeleb 和SITW 包含重疊的說話人,本文在SITW 中去除了重復(fù)的說話人語音數(shù)據(jù)。實驗結(jié)果使用等錯誤率和先驗?zāi)繕?biāo)概率為0.01的最小檢測代價函數(shù)作為評估指標(biāo)。
實驗語音使用32 ms 窗函數(shù)分幀,幀移為12.5 ms,每段語音截取200 幀,得到80 維的F-Bank特征和GFBank 特征。損失函數(shù)使用邊緣(margin)為0.2、尺度因子(scale)為30 的AAM-softmax[29]損失。初始學(xué)習(xí)率設(shè)置為0.001,每次epoch 學(xué)習(xí)率下降3%,數(shù)據(jù)批大小設(shè)置為400。使用Adam 優(yōu)化器對網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化。
在訓(xùn)練模型的基礎(chǔ)上,將AAM-softmax 損失函數(shù)的邊緣和尺度因子分別設(shè)置為0.4 與60,每條語音的持續(xù)時間加長到300 幀,對模型參數(shù)進(jìn)行微調(diào)。其中,ET-FBank 模型為原始的使用FBank 特征作為輸入的ECAPA-TDNN 模型,ET-AFF-CSx為本文提出的基于跨域注意力的通道數(shù)為x的特征融合網(wǎng)絡(luò),融合FBank 和GFBank 后的特征作為輸入的ECAPA-TDNN 模型。
表2~表4 分別列出了本文提出的ET-AFF-CSx模型與基線模型ET-FBank 在VoxCeleb、SITW 和CN-Celeb 數(shù)據(jù)集上的實驗結(jié)果。值得注意的是,基線模型ECAPA-TDNN 使用FBank 特征作為輸入,在表2~表4 中,本文用基線模型ET-FBank 來表示原始的ECAPA-TDNN 模型,以和本文提出的ET-AFF-CSx 模型區(qū)分。
表2 不同模型在VoxCeleb1 數(shù)據(jù)集上的結(jié)果對比
如表2所示,本文提出的ET-AFF-CSx模型的EER和minDCF 均低于ET-FBank 模型與ResNet34 模型。其中,ET-AFF-CS128 模型取得了最低的EER 與minDCF,在Vox1-E cl.上的EER 與minDCF 分別為1.121%和0.070,相比基線模型的EER 與minDCF 分別降低了12.53%和17.65%;在Vox1-H cl.上的EER和minDCF分別為2.010%和0.124,與基線模型的EER和minDCF 相比,分別降低了16.63%和16.78%。此外,從表2 還可以發(fā)現(xiàn),隨著注意力特征融合網(wǎng)絡(luò)的通道數(shù)增加,模型的性能也在不斷提升。
如表3 所示,本文提出的ET-AFF-CSx模型在SITW 數(shù)據(jù)集上的EER 與minDCF 均優(yōu)于其余模型。其中,ET-AFF-CS32 模型在SITW-dev 上取得了最低的EER,為1.617%,相比基線模型降低了16.09%;ET-AFF-CS128 模型在 SITW-dev 上的minDCF 為0.098,相比基線模型降低了23.44%;在SITW-eval 上的EER 和minDCF 分別為1.725%和 0.108,相比基線模型分別降低了 15.85%和18.80%。
表3 不同模型在SITW 數(shù)據(jù)集上的結(jié)果對比
如表4 所示,本文模型在CN-Celeb1 數(shù)據(jù)集上的各項評價指標(biāo)均優(yōu)于基線模型,其中ET-AFF-CS64 模型取得了最低的EER,相比基線模型降低了9.87%;ET-AFF-CS32 與ET-AFF-CS128的minDCF 最低,相比基線模型降低了13.20%。
表4 不同模型在CN-Celeb1 數(shù)據(jù)集上的結(jié)果對比
總體而言,本文提出的基于不同通道數(shù)的注意力融合特征模型的性能在VoxCeleb、SITW 以及CN-Celeb 這3 個數(shù)據(jù)集上均優(yōu)于基線模型,同時,ET-AFF-CS128 模型在大多數(shù)數(shù)據(jù)集上實現(xiàn)了最好的性能。
3.3.1不同特征融合方法對比
為了驗證本文提出的注意力特征融合網(wǎng)絡(luò)方法的有效性,實驗比較了特征疊加、特征拼接與本文方法在VoxCeleb1 數(shù)據(jù)集上的性能,如表5 所示。其中,ET-CAT 為將FBank 和GFBank 沿頻率維拼接作為輸入特征的ECAPA-TDNN 模型;ET-ADD為使用FBank 和GFBank 的線性疊加特征作為輸入特征的ECAPA-TDNN 模型。從表5 可以看出,拼接或線性疊加等融合方法無法充分利用FBank 與GFBank 特征,反而會造成模型性能的下降,而本文提出的注意力特征融合方法通過自適應(yīng)分配特征權(quán)重,充分利用了FBank 與GFBank 特征,實現(xiàn)了模型性能的提升。
表5 不同特征融合方法在VoxCeleb1 數(shù)據(jù)集上的結(jié)果對比
3.3.2與其他模型實驗結(jié)果對比
表6 列出了本文方法與當(dāng)前的主流模型ResNet34[23]、ECAPA-TDNN[18]以及其他新模型ReaNet34-GAT[4]、ResNet34-ft-CBAM[30]、MFCC+FDLP+wav2vec[6]、SAEP[24]、GCSA[25]和MLP-SVNet[31]在VoxCeleb1 數(shù)據(jù)集上EER 的實驗結(jié)果對比。
表6 不同模型在VoxCeleb1 數(shù)據(jù)集上的EER 對比
如表6 所示,相比其他模型,本文方法的EER在Vox1-O cl.測試集上提升了9.52%~67.35%,在Vox1-E cl.測試集上提升了12.5%~60.98%,在Vox1-H cl.測試集上提升了16.60%~57.68%。
3.3.3消融實驗
本節(jié)設(shè)計消融實驗,以驗證本文提出的基于圖信號處理的GFBank 特征提取,以及FBank 與GFBank 的注意力特征融合網(wǎng)絡(luò)的有效性,實驗結(jié)果如表7 所示。其中,F(xiàn)Bank 和GFBank 均為單一特征,未使用注意力特征融合網(wǎng)絡(luò)。FBank+LFCC為使用FBank 與線性頻率倒譜系數(shù)(LFCC,linear frequency cepstral coefficient)的融合特征,F(xiàn)Bank +FBank 為使用 FBank 與自身融合的特征,ET-R-CS64 為僅使用ResNet 進(jìn)行特征融合的模型,ET-SE-CS64 為僅使用SE 進(jìn)行特征融合的模型(保留圖7 中第一層與最后一層卷積層)。從表7可以看出,單一的GFBank 特征的模型性能略差于單一的FBank 特征,但兩者的融合特征的模型性能優(yōu)于單一的FBank 特征,這證實了跨域融合FBank 和GFBank 特征能有效地提升說話人確認(rèn)的性能。因此基于圖信號處理的GFBank 特征為模型提供了信號之間的結(jié)構(gòu)信息,從而實現(xiàn)了模型識別性能的提升。此外,從表7 還可以看出,采用FBank 與LFCC 的融合特征,或FBank 與自身融合的特征,相比于采用單一的FBank 特征,模型的性能更差,這說明采用本文提出的跨域融合特征能夠提升模型的性能并不是因為網(wǎng)絡(luò)參數(shù)的增加,而是因為GFBank 特征提供了FBank特征以外的信息,這進(jìn)一步證實了GFBank 特征的有效性。最后,在單獨使用ResNet 或SE 進(jìn)行特征融合的消融實驗中,ET-R-CS64 性能優(yōu)于前4 種方法,而ET-SE-CS64 由于缺少殘差連接而導(dǎo)致模型性能下降。通過對比 ET-R-CS64 和ET-AFF-CS64 的結(jié)果可以發(fā)現(xiàn),SE 網(wǎng)絡(luò)提升了僅使用ResNet 進(jìn)行融合的方法。因此驗證了本文方法的有效性。
表7 消融實驗
3.3.4特征泛化性實驗
表8 給出了使用ResNet34 作為后端說話人特征提取網(wǎng)絡(luò)的EER 結(jié)果,其中ResNet34 使用FBank特征,ResNet-AFF-CS64 使用融合特征。如表8 所示,對于ResNet34 模型,本文方法使EER 在Vox1-E cl.上降低了5.69%,在Vox1-H cl.上降低了10.16%。由此可見,本文提出的特征融合方法不僅適用于ECAPA-TDNN 模型,也適用于ResNet34 模型,因此本文方法具有較好的泛用性。
表8 特征泛化性實驗
3.3.5說話人特征表示可視化圖像對比
為了進(jìn)一步驗證本文方法的有效性,本文從Vox1-O cl.數(shù)據(jù)集中隨機(jī)選取了23 個說話人的2 500 條語音,分別使用ECAPA-TDNN 和本文提出的ET-AFF-CS128 模型提取了說話人特征表示,并采用t 分布隨機(jī)鄰居嵌入(t-SNE,t-distributed stochastic neighbor embedding)[32]方法進(jìn)行了可視化圖像的對比,結(jié)果如圖8 所示,其中相同的線框表示同一說話人的特征。
圖8 說話人特征表示的可視化對比
從圖 8 可以看出,與采用基線模型ECAPA-TDNN 提取的說話人特征表示相比,采用ET-AFF-CS128 模型提取的說話人特征表示對于相同說話人特征通常更加集中,有利于說話人確認(rèn)任務(wù),驗證了本文提出的ET-AFF-CS128 模型的有效性。
本文提出了一種基于圖信號處理的GFBank 特征,為說話人信息提取提供圖結(jié)構(gòu)信息,并使用注意力特征融合網(wǎng)絡(luò)融合FBank 與GFBank 特征,得到跨域特征,應(yīng)用于 ECAPA-TDNN 模型。在VoxCeleb、SITW 和CN-Celeb 數(shù)據(jù)集上的實驗結(jié)果表明,與傳統(tǒng)的單一特征相比,跨域融合特征提升了說話人識別模型的性能。此外,本文還研究了不同的特征融合方式以及不同的特征對最終的說話人識別模型性能的影響,并在ResNet34 模型上進(jìn)行了特征泛化性實驗。