聯(lián)合總變率空間和時延神經(jīng)網(wǎng)絡(luò)的說話人識別

2021-07-22 17:02:34瞿于荃邵玉斌杜慶治

計算機與生活 2021年7期

瞿于荃，龍華,2+，段熒，邵玉斌,2，杜慶治,2

1.昆明理工大學(xué) 信息工程與自動化學(xué)院，昆明 650000

2.昆明理工大學(xué) 云南省計算機國家重點實驗室，昆明 650000

說話人識別（speaker verification，SV）屬于生物認(rèn)證領(lǐng)域的一種技術(shù)，是一項根據(jù)說話人語音中代表說話人生理和行為的特征參數(shù)，來判別說話人身份的技術(shù)。起初的短語音問題還沒能得到廣大信號處理界的重視，有些研究員們僅僅從側(cè)面提到了短語音問題[1]，并未成為說話人識別的重點。由于說話人識別對樣本語音的時長非常敏感，短時語音的識別性能的好壞，是決定其能否商業(yè)化的關(guān)鍵一步。隨著說話人系統(tǒng)實際項目的落地，短語音問題開始被重視起來。由于實際生活環(huán)境的限制，收集目標(biāo)用戶長時間的語音數(shù)據(jù)不易，而在短語音條件下獲得的有效信息較少，這樣就無法提取足夠的說話人身份信息，直接導(dǎo)致識別性能的降低。在21 世紀(jì)初期，高斯混合模型通用背景模型（Gaussian mixture model universal background model，GMM-UBM）[2]的提出解決了注冊說話人語料不足的問題，它的成功應(yīng)用標(biāo)志著說話人識別的興起。隨后，聯(lián)合因子分析（joint factor analysis，JFA）[3]則對說話人變率空間和信道變率空間分別建模，以其高性能引領(lǐng)了說話人識別進(jìn)入一個新時代。繼而，基于總變率空間的身份向量（identity vector，i-vector）[4]成為了近十年來說話人識別研究的基線標(biāo)準(zhǔn)。直至深度學(xué)習(xí)流行的今日，身份向量仍占據(jù)一席之地。近來，針對短語音說話人識別的問題，大致思路分為兩方面。一是特征層面，增加特征有效維度是短語音的常用方法，它能有效提高識別率。然而，特征維數(shù)的增加，勢必加大計算的復(fù)雜度和維度災(zāi)難的風(fēng)險。文獻(xiàn)[5]將聲學(xué)特征進(jìn)行特征融合后生成高維特征矩陣，再利用主成分分析（principal component analysis，PCA）降維；利用說話人特征信息在高頻區(qū)域更為突出的特點，文獻(xiàn)[6]提出使用線性頻率倒譜系數(shù)（linear frequency cepstral coefficients，LFCC）提取短語音說話人嵌入向量；針對Baum-Welch 統(tǒng)計量的不足，文獻(xiàn)[7]通過聯(lián)合通用背景模型中的參數(shù)信息，增加說話人的個人信息表達(dá)；文獻(xiàn)[8]利用神經(jīng)網(wǎng)絡(luò)極強的特征提取能力，提出了使用時延神經(jīng)網(wǎng)絡(luò)（time-delay neural networks，TDNN）提取語音的嵌入向量x-vector。針對x-vector 的不足，文獻(xiàn)[9]提出將語譜圖輸入進(jìn)時延神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)聲學(xué)特征，并在統(tǒng)計池化層使用注意力機制增強關(guān)鍵幀的信息。二是模型層面，對于傳統(tǒng)支持向量機模型，文獻(xiàn)[10]運用多個核函數(shù)的線性組合構(gòu)造多核空間實現(xiàn)短語音下說話人識別。而深度學(xué)習(xí)的崛起，席卷整個語音處理界，人們開始嘗試不同模型應(yīng)用在短語音說話人識別上。文獻(xiàn)[11]將話語視為圖像，將深度卷積架構(gòu)直接應(yīng)用于時頻語音表征，像人臉識別一樣學(xué)習(xí)短時說話人嵌入。文獻(xiàn)[12]提出使用生成式對抗網(wǎng)絡(luò)（generative adversarial networks，GAN）的i-vector 補償方法來代替概率線性判別模型（probabilistic linear discriminant analysis，PLDA）在短語音下所出現(xiàn)的估計偏差。文獻(xiàn)[13]使用圖像特征金字塔（feature pyramid network，F(xiàn)PN）對多尺度聚合（multi-scale aggregation，MSA）進(jìn)行改進(jìn)，提高處理變化時長下話語的魯棒性；然而，訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)[14]需要大量的數(shù)據(jù)，而用于說話人識別的可用數(shù)據(jù)量通常非常小。這一直是使用深度學(xué)習(xí)構(gòu)建端到端說話者識別系統(tǒng)的最大障礙之一。

本文從特征方法出發(fā)，提出使用典型聯(lián)合分析方法從總變率空間的i-vector 向量和TDNN 網(wǎng)絡(luò)的xvector 向量中學(xué)習(xí)線性關(guān)聯(lián)信息，再從投影矩陣中抽取相關(guān)向量組合成為新向量，以此增強說話人身份信息。在短注冊和短測試語音環(huán)境下，實驗結(jié)果證明，融合超向量在注冊和測試時長不匹配問題條件下均對說話人識別等誤差率有下降的作用。

1 總變率空間模型

說話人語音的長短不一，讓學(xué)者耗費大量的精力去尋求一種技術(shù)可以從變化長度的語音中獲得恒定長度表示說話人身份信息。i-vector 的出現(xiàn)為這種想法開創(chuàng)了先河，使得文本無關(guān)的說話人識別上升到了新高度。由聯(lián)合因子分析（JFA）理論獲得啟發(fā)[4]，Dehak 提出從高斯混合模型的均值超向量中提取更加緊湊的身份向量，即i-vector。i-vector 模型利用因子分析來構(gòu)造總變率空間（total variability space），對說話人差異和信道差異共同進(jìn)行建模。假設(shè)說話人的一段語音，該語音的高斯均值超矢量可由下式表示：

其中，m為通用背景模型的高斯均值超矢量，T為總變率空間矩陣，ω為總變率空間因子，其后驗均值就是身份向量i-vector。身份向量模型的重點就是總變率空間矩陣的估計和身份向量的提取。

1.1 總變率空間矩陣的估計

總變率空間矩陣的估計[15]用最大期望算法，提取Baum-Welch 統(tǒng)計量，計算隱藏因子的后驗分布，更新模型參數(shù)，迭代多次直至停止，最后得到總變率空間矩陣。前提條件是已訓(xùn)練好一個通用背景模型。

步驟1給定第s說話人第h句話，有若干幀{Y1,Y2,…}組成，對于每一個高斯分量c，計算零階、一階Baum-Welch 的統(tǒng)計量如下：

其中，mc為高斯分量所對應(yīng)的均值矢量。對于t時刻，γt(c)是第t幀Yt相對每個高斯分量c的狀態(tài)占有率，換句話說，第t時刻落入狀態(tài)c的后驗概率，其值可以表示為：

步驟2計算總變率空間因子ω的后驗分布。對于第s個說話人的第h段語音總變率空間因子記為ωs,h，令l(s)=I+TTΣ-1Nh(s)T：

Σ為UBM 的各階協(xié)方差矩為對角塊的對角矩陣。

步驟3最大似然值重估更新模型參數(shù)矩陣T和最大化似然函數(shù)值，得到如下：

對于每一個高斯混合分量c=1,2,…,C和特征參數(shù)的每一維d=1,2,…,P，令i=(c-1)P+d，Ti表示T的第i行，Ωi表示Ω的第i行，則說話人總變率空間矩陣T的更新公式如下：

1.2 抽取身份向量

步驟2、步驟3 在設(shè)置一定的次數(shù)迭代更新，完成總變率空間矩陣訓(xùn)練后，由式（6）得到每個說話人對應(yīng)的身份向量i-vector。這里，目標(biāo)說話人的模型訓(xùn)練的過程和i-vector說話人向量抽取就到此結(jié)束。

短語音下的說話人識別的困難很大程度上可以歸結(jié)于注冊和測試時長語音數(shù)據(jù)的不匹配。雖然通用背景模型中的均值超向量可以通過每個人的總變率因子來共享一些統(tǒng)計信息，在一定程度上減輕短語音帶來的影響，但從式（2）～（4）看來，總變率空間的估計很大程度上依賴于Baum-Welch 統(tǒng)計量的計算，而語音數(shù)據(jù)量過少勢必造成統(tǒng)計量估計的偏差。對于GMM-UBM、i-vector 等基于語音概率分布的統(tǒng)計模型來說，短語音下的語音分布必然存在偏差，使得估計的說話人特征在統(tǒng)計上變得不那么可靠。

2 時延神經(jīng)網(wǎng)絡(luò)模型

深度學(xué)習(xí)中的嵌入（embedding）是一項非常流行的技術(shù)，它的原理是取一個低維稠密的向量表示一個對象?！氨硎尽贝碇鴈mbedding 向量能夠表達(dá)相應(yīng)對象的某些特性，同時兩個embedding 向量之間的距離反映了對象之間的相像性。比較典型的：graph embedding 中圖像為對象的deepwalk[16]；word embedding 中文字為對象的word2vec[17]；隨著深度學(xué)習(xí)在語音識別方面火熱進(jìn)行，說話人識別深受影響。而xvector 是由Snyder 從時延神經(jīng)網(wǎng)絡(luò)（TDNN）[18]中提取的voice embedding 特征，并像i-vector 一樣使用。時延神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1 所示，由此看來，TDNN 更像是一個一維卷積的過程，這樣的架構(gòu)更適合語音序列信息的處理。將分幀后的語音輸入進(jìn)TDNN 網(wǎng)絡(luò)，網(wǎng)絡(luò)中的統(tǒng)計池化層會負(fù)責(zé)將幀級特征映射至話語級特征上，具體操作為計算幀級特征的均值和標(biāo)準(zhǔn)差。在統(tǒng)計池化層之后的全連接層用于抽取embedding 向量，網(wǎng)絡(luò)最后一層為softmax 層，輸出的神經(jīng)元數(shù)量與訓(xùn)練集中說話人個數(shù)保持一致。由于TDNN 是時延架構(gòu)，利用其網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)點可以學(xué)習(xí)不同時長的特征，這也讓x-vector 在注冊測試不同時長語音上表現(xiàn)出更強的魯棒性。

Fig.1 Time delay neural network structure圖1 時延神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

傳統(tǒng)基線DNN（deep neural networks）網(wǎng)絡(luò)中，DNN 僅僅只對輸入層的語音特征做了前后若干幀的擴展，在輸入層擁有上下文信息，而TDNN 與DNN 不同之處在于TDNN 對其中的隱藏層也進(jìn)行上下文的拓展，TDNN 會將隱層當(dāng)前時刻的輸出與前后若干時刻的輸出組成在一起，以此作為當(dāng)前時刻下一個隱藏層的輸入。由此來看，TDNN 中的每一層都被給予了上下層級的時間信息，對于處理時序數(shù)據(jù)是非常有效的。

3 聯(lián)合總變率空間和時延神經(jīng)網(wǎng)絡(luò)模型

同為生物識別技術(shù)，說話人識別許多的技術(shù)都是借鑒于人臉識別的經(jīng)驗，比如信道補償?shù)母怕示€性判別模型（PLDA）[19]、Face net以及新引入的代價函數(shù)三元組損失（triplet loss）。典型關(guān)聯(lián)分析（canonical correlation analysis，CCA）[20]可以被看作是為兩組變量間尋求基向量的問題，由此變量在基向量上的投影之間的相關(guān)性就可以相互最大化，這樣可以聯(lián)合特征提高分類的效果。CCA 主要在人臉識別中多視圖學(xué)習(xí)的特征融合方面，在驗證目標(biāo)人身份時，利用不同信息的人臉照片進(jìn)行多視圖信息學(xué)習(xí)。ivector 的獨到之處在于它結(jié)構(gòu)簡單，只考慮說話人差異和信道差異兩部分，這讓它在文本無關(guān)方面優(yōu)勢明顯。x-vector 是話語層級提取的嵌入特征，更符合說話人在多段話語中的一個平均代表。兩種向量都能單獨代表說話人，且又從不同形式下表征說話人獨有的信息。典型相關(guān)分析尋求一對線性轉(zhuǎn)換，每組變量對應(yīng)一對，當(dāng)這組變量被轉(zhuǎn)換時，對應(yīng)的表示說話人的向量就會最大程度相關(guān)，聯(lián)合兩個向量組成說話人超向量，用來增強說話人信息。

假設(shè)訓(xùn)練階段總變率空間，TDNN 已被訓(xùn)練。那么注冊和測試階段，每個說話人的i-vector 身份向量表示為I=(i1,i2,…,in)T，x-vector 向量為X=(x1,x2,…,xn)T，對于I其對應(yīng)的投影向量為α，對于X，對應(yīng)的投影向量為β，令Z=[I X]T，則：

設(shè)W=αTI，V=βTX，計算W、V方差和協(xié)方差：

由Pearson 相關(guān)系數(shù)可得優(yōu)化目標(biāo)為：

其中，cov(W,V)為W、V協(xié)方差，而σW、σV分別是I、X標(biāo)準(zhǔn)差，優(yōu)化的目標(biāo)是：

構(gòu)造Lagrangian 等式對式（16）進(jìn)行求解：

式（17）分別求導(dǎo)令等于0 得：

式（18）分別左乘αT和βT，結(jié)合式（16）得：

λ=θ（19）

將式（20）中下式帶入上式得：

將式（20）中上式帶入下式得：

Fig.2 Model combining total variability space with TDNN圖2 聯(lián)合總變率空間和時延神經(jīng)網(wǎng)絡(luò)模型

流程如圖2 所示。訓(xùn)練階段，分別訓(xùn)練總變率空間和時延神經(jīng)網(wǎng)絡(luò)。建立一個獨立說話人的適應(yīng)集提取i-vector 和x-vector 用來學(xué)習(xí)總變率空間與TDNN在說話人表示上的線性關(guān)系，i-vector 用來學(xué)習(xí)關(guān)聯(lián)性的輸入矩陣I，維度為P1×N，x-vector 學(xué)習(xí)關(guān)聯(lián)性的輸入矩陣X，維度為P2×N，獲得r個投影向量拼接為矩陣形式，其中N是適應(yīng)集說話人話語數(shù)，P1為總變率空間維度，本次實驗取400 維，P2為TDNN全連接層第一層輸出維度，同文獻(xiàn)[21]保持一致取512 維。若仍使用訓(xùn)練集提取說話人向量，說話人已存在訓(xùn)練集之中，不能表達(dá)集外說話人的普適特性，使用適應(yīng)集目的為解決CCA 學(xué)習(xí)中說話人的泛化能力和魯棒性問題。注冊和測試階段，提取i-vector 和x-vector 與投影變換α、β矩陣映射，得到一組線性關(guān)聯(lián)向量，組合得到超向量xi-vector。

4 實驗與分析

4.1 實驗設(shè)置

語料庫選自Librispeech 英文演講集、TIMIT 英文集，共1 257 人。語料庫分為注冊集、適應(yīng)集、測試集和訓(xùn)練集。注冊集為100 個說話人；測試集與注冊集說話人對應(yīng)，適應(yīng)集為500 個說話人，剩余人數(shù)為訓(xùn)練集。特征預(yù)處理設(shè)置同i-vector、x-vector 原文獻(xiàn)保持一致：預(yù)加重系數(shù)0.95，幀長25 ms，幀移10 ms，使用基于能量的端點檢測對語音去靜音?？傋兟士臻g設(shè)置方面：通用背景模型和總變率空間的訓(xùn)練集保持一致，高斯混合度為512，總變率空間維度400，20維梅爾倒譜系數(shù)（Mel frequency cepstrum coefficient，MFCC），以及一階、二階差分[6]。提取i-vector，使用LDA（linear discriminant analysis）降維至200 維，以及PLDA 信道補償和相似度打分。時延神經(jīng)網(wǎng)絡(luò)方面：TDNN 網(wǎng)絡(luò)結(jié)構(gòu)與文獻(xiàn)[21]保持一致，特征取24 維FilterBank，提取x-vector 向量，后端與i-vector 保持一致。

4.2 實驗指標(biāo)

本次實驗使用的說話人指標(biāo)為等誤差率（equal error rate，EER）。EER定義如下式：

式中，Pfrr(θ)為錯誤拒絕率（false rejection rate），Pfar(θ)為錯誤接受率（false acceptance rate）。stws為冒充者測試得分（spoof trials with score），tst為總冒充次數(shù)（total spoof trials）；htws為正確測試得分（human trials with score），tht為總正確測試次數(shù)（total human trials）；θ為判斷兩語音為同一人閾值，Pfrr(θ)和Pfar(θ)隨著θ變換而發(fā)生變化，當(dāng)θ=θEER時，使Pfrr(θ)、Pfar(θ)值相等，該值為EER，其中：

以錯誤接受率為橫坐標(biāo)，錯誤拒絕率為縱坐標(biāo)，做檢測錯誤權(quán)衡圖（detection error tradeoff，DET），反映說話人識別系統(tǒng)性能。

4.3 實驗分析

首先，在不同注冊和測試時長下，分別統(tǒng)計了三種說話人向量的等誤差率。通過表1 的實驗結(jié)果和圖3 的DET 曲線可以看出，固定說話人測試語音為全時長，注冊時長為30 s 時，xi-vector 的誤差率相比ivector、x-vector 下降了6.15%和15.2%；20 s 時，同比下降7.02%和15.6%；10 s 極短注冊語音下，分別下降6.5%和29.6%。面對逐漸縮短的短語音任務(wù)，短注冊語音給i-vector 帶來的問題是對說話人語音分布估計的偏差，注冊說話人的身份偏差導(dǎo)致即使使用全時長的語音去測試說話人也不能獲得較好的等誤差率。而時延神經(jīng)網(wǎng)絡(luò)也會遇到相同的問題，雖然能夠利用自身結(jié)構(gòu)學(xué)習(xí)上下文的相關(guān)信息，但為了加速計算而會選擇在輸入層對語音進(jìn)行固定時長的分塊操作，直接造成了短注冊語音被再次分割和剔除，上下文信息的捕獲變得少之又少。從整體變化來看，i-vector 等誤差率上升幅度較大也印證了基于統(tǒng)計模型對于短語音的魯棒性能力較差的缺點，而x-vector上升幅度趨緩的表現(xiàn)得益于時延神經(jīng)網(wǎng)絡(luò)連接softmax 的架構(gòu)，所取出的x-vector 在說話人分類上有著極強的區(qū)分能力，這也讓x-vector代替i-vector成為近幾年說話人識別挑戰(zhàn)賽的基線系統(tǒng)。xi-vector 在上升幅度中有著最好的表現(xiàn)，它在三者之中保持了短語音下較好的魯棒性，聯(lián)合總變率空間的信道變化，說話人差異變化的同時又有著時延神經(jīng)網(wǎng)絡(luò)的超強分類器能力。

Table 1 EER of each vector under different registered speech lengths表1 不同注冊語音長度下各向量的等誤差率

Fig.3 DET of each vector under different registered speech lengths圖3 不同注冊語音長度下各向量的檢測錯誤權(quán)衡圖

值得注意的是，在全時長注冊和測試語音下，xivector 的效果并沒有i-vector 和x-vector 的好，原因就在于基于總變率空間提取i-vector 的說話人差異性和基于時延神經(jīng)網(wǎng)絡(luò)提取x-vector 的分類性在全時長下都可以完全表達(dá)說話人個人信息，反而聯(lián)合總變率空間和時延神經(jīng)網(wǎng)絡(luò)下的xi-vector 在結(jié)合兩者之間線性關(guān)系在某種情況下成為一種冗余。x-vector等誤差率最低也說明在全時長注冊和測試的情況下，基于時延神經(jīng)網(wǎng)絡(luò)的x-vector已經(jīng)能達(dá)到較好的性能。

通過表2 的實驗結(jié)果和圖4 的DET 曲線可以看出，固定注冊時長為全時長，測試時長為10 s 時，xivector 的等誤差率相比i-vector、x-vector 分別下降了4.01%和15.8%，5 s測試語音時，相比分別下降6.0%和22.1%，3 s 短測試語音下，分別下降了1.7%和12%。盡管注冊說話人已經(jīng)得到了充分的注冊，短測試語音下總變率空間對語音概率估計不足的問題，讓測試i-vector 缺少區(qū)分不同人的能力，而時延神經(jīng)網(wǎng)絡(luò)輸入的語音特征在短測試語音下并沒能在上下文關(guān)系上給予信息的共享。xi-vector 對上述情況做出補償，在i-vector 和x-vector 學(xué)習(xí)線性關(guān)聯(lián)關(guān)系，以結(jié)合的方式增強說話人個人信息，這一點讓xi-vector 在短測試環(huán)境下優(yōu)于前兩者。整體來看，本文所提出的聯(lián)合總變率空間和時延神經(jīng)網(wǎng)絡(luò)的新向量xi-vector，在短注冊和短測試環(huán)境下，與基線i-vector、x-vector相比表現(xiàn)最佳，系統(tǒng)性能較基線系統(tǒng)有了良好改善，尤其是在極低時長環(huán)境下，依然有著較為理想和穩(wěn)定的等誤差率。

Table 2 EER of each vector under different test speech lengths表2 不同測試語音長度下各向量的等誤差率

Fig.4 DET of each vector under different test speech lengths圖4 不同測試語音長度下各向量的檢測錯誤權(quán)衡圖

最后，更換數(shù)據(jù)集為aidatatang 中文普通話數(shù)據(jù)集和Primewords 中文語料庫，旨在驗證本文算法對中文語料下的處理能力以及與不同針對短語音的改進(jìn)技術(shù)的文獻(xiàn)在等誤差率上進(jìn)行對比。設(shè)置中文語料庫注冊集為100 人，測試集與注冊集人數(shù)對應(yīng)。其余實驗細(xì)節(jié)部分與上述實驗保持一致。短語音時長設(shè)置方面，固定注冊時長為全時長，測試語音劃分為10 s、5 s和3 s三部分，固定測試時長為全時長，注冊語音劃分為30 s、20 s、10 s三部分，總計6 個短語音條件下對文獻(xiàn)[5]、文獻(xiàn)[6]、文獻(xiàn)[7]、文獻(xiàn)[9]和xi-vector 進(jìn)行實驗，對比結(jié)果如圖5 所示。

從圖5 可以看出，固定全時長注冊語音，在10 s測試語音下，xi-vector 比文獻(xiàn)[5]、文獻(xiàn)[6]、文獻(xiàn)[7]、文獻(xiàn)[9]在等誤差率上降低了44.46%、7.67%、39.9%、9.33%；5 s 測試語音下，xi-vector 相比下降30.16%、8.36%、25.03%、6.44%；3 s 測試語音下，xi-vector 相比下降30.41%、5.36%、22.21%、5.15%。固定全時長測試語音，在30 s 注冊語音下，xi-vector 在等誤差率上同比降低了32.74%、2.56%、26.89%、2.57%；在20 s 注冊語音下，xi-vector 在等誤差率上同比降低30.01%、7.42%、18.45%、7.2%；在10 s 注冊語音下，xi-vector 在等誤差率上同比降低26.9%、9.37%、18.68%、6.53%。文獻(xiàn)[5]所使用特征融合再進(jìn)行降維的方法，通過對淺層特征融合達(dá)到增強說話人信息的行為，但任何降維都導(dǎo)致原始信息的損失，而同樣是以總變率空間作為說話人模型的文獻(xiàn)[7]借助通用背景模型增強短語音下的Baum-Welch 統(tǒng)計量，但人為選擇超參量的方法對統(tǒng)計量進(jìn)行融合，在不同環(huán)境下應(yīng)用的魯棒性還有待商榷。文獻(xiàn)[6]提取線性頻率倒譜系數(shù)代替?zhèn)鹘y(tǒng)梅爾倒譜系數(shù)特征，并且將i-vector 與x-vector在提取后直接串聯(lián)實現(xiàn)融合，但串聯(lián)的方法增加維度的同時，并不能有效提升識別性能。文獻(xiàn)[9]是基于時延變率空間的基礎(chǔ)，將語譜圖作為x-vector輸入，并在統(tǒng)計池化層上添加注意力機制對幀級信息疊加權(quán)值，但是對于語音序列來說，使用注意力機制的缺點是忽略了序列中的上下文順序關(guān)系，這樣其實浪費了TDNN 網(wǎng)絡(luò)的優(yōu)勢。相比上述文獻(xiàn)，xi-vector 聯(lián)合i-vector 和x-vector 的說話人信息，進(jìn)行說話人識別在等誤差率上均優(yōu)于上述針對短語音所改進(jìn)的i-vector與x-vector 算法。有一點值得考慮的是，xi-vector 在優(yōu)化誤差率的同時也增大了計算量和負(fù)載量，對于實時性要求嚴(yán)格的識別系統(tǒng)來說，運算時間可能是本文算法的一大挑戰(zhàn)，相比實時性，本文算法更合適于離線識別，要求精度較高的說話人識別系統(tǒng)，比如軍隊以及公安刑偵等方面。

Fig.5 EER comparison of various documents under different speech lengths圖5 不同語音長度下各文獻(xiàn)等誤差率對比

總體來看，在注冊測試語音不匹配條件下，xivector 在中文數(shù)據(jù)集的等誤差率比英文數(shù)據(jù)集上的表現(xiàn)上升了4.87%、9.21%、7.72%、10.19%、6.29%、6.36%，這說明xi-vector 在中文語料庫下的性能沒有英文下的好。原因可能是所使用的Librispeech 與TIMIT 是相對純凈的數(shù)據(jù)集且語音的長度分布較為均勻，可以保證注冊語音的長度足夠長而不需要進(jìn)行拼接的操作，而實驗所使用的數(shù)據(jù)集的特點是較短語句，且大部分語音都在日常移動設(shè)備聊天應(yīng)用上采集，更加貼近現(xiàn)實生活的說話人識別使用情況。另外一個原因是，所采用數(shù)據(jù)集的采集設(shè)備情況不一，所造成各個說話人之間的信道差異也有所不同，雖然實驗后處理使用PLDA 進(jìn)行信道補償，但整體來說對基于總變率空間的模型產(chǎn)生些許影響。

綜上所述。本文實驗在英文語料庫下對xi-vector進(jìn)行測試，在實驗中均比i-vector、x-vector 等說話人嵌入向量在等誤差率上有所下降；同時，在中文語料庫中對幾種針對短語音改進(jìn)說話人向量的方法進(jìn)行對比發(fā)現(xiàn)，xi-vector 在等誤差率上均低于其余幾種方法，實驗證明了本文算法的有效性。

5 總結(jié)

短語音條件下收集說話人語音信息的不足，嚴(yán)重制約了說話人現(xiàn)實商用的落地。針對短語音條件下總變率空間對不同時長魯棒性不足的問題，本文結(jié)合時延神經(jīng)網(wǎng)絡(luò)，提出一種聯(lián)合總變率空間和時延神經(jīng)網(wǎng)絡(luò)的短語音說話人識別方法。通過典型關(guān)聯(lián)分析兩者的關(guān)聯(lián)性，并將其嵌入向量進(jìn)行投影，組合成新向量xi-vector 以獲取更加豐富的說話人信息超向量。實驗證明，將本文方法應(yīng)用在說話人識別方面，能夠有效降低在短注冊語音或短測試語音中說話人識別的等誤差率，改善了說話人識別在短語音環(huán)境下的時長不匹配的魯棒性問題。