張翼飛 騰瀟琦
1(上海大學(xué)機(jī)電工程與自動(dòng)化學(xué)院 上海 200072)2(訊飛智元信息科技有限公司 安徽 合肥 230088)3(北京市互聯(lián)網(wǎng)信息辦公室 北京 100062)
?
一種改進(jìn)的有監(jiān)督訓(xùn)練的TV語種識(shí)別方法
張翼飛1,2騰瀟琦3
1(上海大學(xué)機(jī)電工程與自動(dòng)化學(xué)院上海 200072)2(訊飛智元信息科技有限公司安徽 合肥 230088)3(北京市互聯(lián)網(wǎng)信息辦公室北京 100062)
傳統(tǒng)的GMM-TV(Gaussian Mixture Model-Total Variability,又稱為i-vector)系統(tǒng)得益于它良好的識(shí)別效果以及優(yōu)秀的識(shí)別效率,在語種識(shí)別LID(language identification)中得到廣泛應(yīng)用,然而載荷矩陣T的訓(xùn)練過程是無監(jiān)督的,使得它的分類空間并沒有得到最好的優(yōu)化。已有的有監(jiān)督TV(Supervised-TV,S-TV)算法,通過在均值超矢量上拼接一個(gè)帶有標(biāo)簽信息的向量,使得T矩陣的訓(xùn)練過程變成一個(gè)有監(jiān)督的過程,但是效果增長較弱,同時(shí)帶來了載荷矩陣自由度問題。提出一種改進(jìn)的有監(jiān)督訓(xùn)練方法,在目標(biāo)函數(shù)中引入正則化項(xiàng)來解決自由度的問題,同時(shí)大大提升它的分類效果。該方法在NIST LRE09的30s數(shù)據(jù)集實(shí)驗(yàn)中得到了很好的效果,等錯(cuò)誤率EER(Equal Error Rate)從5.40%下降到4.96%,融合系統(tǒng)的EER達(dá)到了3.86%。
語種識(shí)別TV系統(tǒng)有監(jiān)督訓(xùn)練載荷矩陣
語種識(shí)別LID是通過對(duì)給定的一段語音信號(hào)分析處理,識(shí)別其所屬語言的種類。它往往作為語音識(shí)別和其他相關(guān)應(yīng)用的一個(gè)前端處理技術(shù),是在語音識(shí)別基礎(chǔ)上發(fā)展起來的[1]。隨著全球化趨勢(shì)和國際互聯(lián)網(wǎng)的發(fā)展,人們更加迫切地希望可以突破語言的障礙進(jìn)行交流,因而對(duì)于語種識(shí)別技術(shù)的需求也與日俱增,比如音頻和視頻信息檢索、自動(dòng)機(jī)器翻譯、電話自動(dòng)轉(zhuǎn)接、多語種語音識(shí)別和智能監(jiān)測(cè)等。不僅如此,語種識(shí)別還廣泛應(yīng)用于軍事、國家安全和各個(gè)信息產(chǎn)業(yè)領(lǐng)域,具有極為重要的應(yīng)用價(jià)值和前景。
目前主流的LID方法有很多,但國際主流的方法都是以GMM-TV[2-4]為基礎(chǔ)的,這主要得益于GMM-TV系統(tǒng)優(yōu)秀的識(shí)別效率和良好的識(shí)別效果。然而傳統(tǒng)的T矩陣的訓(xùn)練是無監(jiān)督的過程,這就使得它的分類空間并沒有得到最好的優(yōu)化。2014年李明提出了一種有監(jiān)督的TV系統(tǒng)S-TV[5]。該方法在原TV系統(tǒng)的基礎(chǔ)上,在均值超矢量上拼接了一個(gè)帶標(biāo)簽的語種標(biāo)識(shí)向量,使得T矩陣的訓(xùn)練過程融入了監(jiān)督信息,以此來增加T矩陣的區(qū)分性。實(shí)驗(yàn)結(jié)果表明,該方法在傳統(tǒng)的TV系統(tǒng)基線上有一定的提升。
然而S-TV系統(tǒng)在迭代過程中T和W的方差不斷地在增大,尤其在迭代了5次以后,方差的增大幅度在10倍以上,遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)TV系統(tǒng)中T矩陣方差的增長速度。而我們需要的是盡量收斂的T矩陣,于是本文對(duì)S-TV做了小小的改進(jìn),通過增加正則化項(xiàng)來抑制T和W矩陣的增長幅度,使得識(shí)別效果得到了很大的提升。在NIST LRE09數(shù)據(jù)集上,此方法取得了較好的效果。
給定混合度為C的UBM模型λ,C個(gè)分量λc={wc,uc,Σc}。假設(shè)一條語音有L幀,它的特征序列為{x1,x2,…,xL},并且每個(gè)特征xi的維度為D,根據(jù)文獻(xiàn)[4]:
z=(I+TtΣ-1NT)-1TtΣ-1Ny
(1)
其中z就是i-vector,維度為K。Σ為CD×CD維的協(xié)方差對(duì)角陣。N是一個(gè)CD×CD維的對(duì)角陣,并且由C個(gè)子塊NcI構(gòu)成,Nc為D×D維的對(duì)角陣,且所有元素都相同,它的值由下式確定:
(2)
其中,P(c|xt,λ)為xt在λc上的占有率。y是均值超矢量,它由C個(gè)分量構(gòu)成:
(3)
于是y可以通過CD×K維的矩陣T映射到K維的空間上:
y→Tz
(4)
在通過式(1)得到i-vector之后,經(jīng)過LDA并計(jì)算cosine距離即可實(shí)現(xiàn)分類。
為了讓i-vector具有更好的區(qū)分性,文獻(xiàn)[5]中的有監(jiān)督TV在基線TV的均值超矢量后面加上了一個(gè)語種標(biāo)識(shí)向量,語種標(biāo)識(shí)向量的維度M等于語種的類別數(shù)。假設(shè)第j條語音的語種標(biāo)識(shí)向量為Lj=(Lj1,Lj2,…,LjM)T,則有:
(5)
如圖1所示,將M維的L拼接在CD維的均值超矢量后面,構(gòu)成一條(CD+M)維的超矢量,同樣在T矩陣下方拼接一個(gè)M×K的W矩陣,構(gòu)成一個(gè)(CD+M)×K的矩陣。這樣超矢量就代入了監(jiān)督信息,并且參與了T矩陣的訓(xùn)練,使最后得到的i-vector的區(qū)分性更強(qiáng)。
圖1 S-TV結(jié)構(gòu)圖
類似于傳統(tǒng)TV系統(tǒng),假設(shè)zj服從于標(biāo)準(zhǔn)正態(tài)分布,則有:
P(zj)=N(0,I)
(6)
(7)
(8)
結(jié)合式(7)、式(8),通過簡化操作得到優(yōu)化函數(shù),可以看出,EM算法的目標(biāo)在于最小化J:
(9)
(10)
(11)
在M步驟,通過最小化上述函數(shù)J后可得W和T的更新公式:
(12)
(13)
式中,Tc是T矩陣在第c個(gè)高斯上的分量,ycj是yj在第c個(gè)高斯上的分量。
經(jīng)過幾次EM迭代后,T和W矩陣的參數(shù)會(huì)得到很好的修正。后面的提取i-vector階段,利用修正的矩陣,采用傳統(tǒng)的TV方法進(jìn)行i-vector估計(jì)即可。
(14)
則最終的更新公式變?yōu)椋?/p>
(15)
(16)
實(shí)驗(yàn)證明,加入正則化項(xiàng)后,成功抑制住了W和T矩陣過大的增長趨勢(shì),并且使得Supervised-TV的效果有了很大的提升。
4.1數(shù)據(jù)和參數(shù)
圖2 LID測(cè)試流程
本次實(shí)驗(yàn)選用了NIST LRE09的30s數(shù)據(jù)集合,該集合有24個(gè)語種。特征選用了PLP-SDC特征[6]和PNCC-SDC特征[7,8],UBM的維度為512,i-vector維度為300。在開發(fā)集上,對(duì)S-TV的一些參數(shù)進(jìn)行了調(diào)優(yōu),正則化項(xiàng)系數(shù)λ的值取1000,初始的W矩陣為隨機(jī)生成,并且它的值服從均值為0,方差為1×10-6的高斯分布。后端采用LDA+cosine距離的組合,LDA矩陣的維度為300×23。整個(gè)測(cè)試系統(tǒng)如圖2所示。
4.2實(shí)驗(yàn)結(jié)果與結(jié)論
首先看正則化項(xiàng)對(duì)優(yōu)化函數(shù)J的影響。目標(biāo)函數(shù)采用式(9),特征為PLP-SDC特征,我們?nèi)〕龅?次中的每一代結(jié)果,分別統(tǒng)計(jì)出相同的6條語音的目標(biāo)函數(shù)J之和放在表1中。
表1 目標(biāo)函數(shù)
從表1可以看出,帶正則化項(xiàng)后的S-TV對(duì)目標(biāo)函數(shù)J的優(yōu)化更好,理論上會(huì)得到更好的結(jié)果。實(shí)驗(yàn)結(jié)果證明了我們的猜想,表2展示了正則化項(xiàng)對(duì)實(shí)驗(yàn)結(jié)果的影響。
表2 不同配置下的S-TV系統(tǒng)結(jié)果
對(duì)比表2各項(xiàng),正則化項(xiàng)對(duì)S-TV的提升很明顯,特別是在使用PNCC-SDC特征時(shí)。表3對(duì)比了基線和S-TV的單系統(tǒng)效果(S-TV系統(tǒng)均是帶正則化項(xiàng)的),圖3是它們的DET曲線。
表3 各單系統(tǒng)結(jié)果
圖3 單系統(tǒng)的DET曲線
從以上結(jié)果可以得出結(jié)論,單系統(tǒng)中,PNCC-SDC特征整體上優(yōu)于PLP-SDC特征,并且在使用PNCC-SDC特征時(shí),S-TV令基線系統(tǒng)的EER從5.40%下降到4.96%,效果相對(duì)提升達(dá)到了8.15%。
表4展示了各種融合系統(tǒng)的效果,可以看出,融合系統(tǒng)的效果有很顯著的提升,說明PNCC-SDC特征和 PLP-SDC特征以及S-TV和TV的互補(bǔ)性都較強(qiáng)。當(dāng)四個(gè)單系統(tǒng)融合時(shí),EER達(dá)到了3.86%的最小值。
表4 融合系統(tǒng)結(jié)果
在效率方面,文獻(xiàn)[5]給出了TV和S-TV的時(shí)間復(fù)雜度,分別為O(K3+K2C+KCD)和O(K3+K2C+K(CD+M))。在一般情況下,M< 表5 改進(jìn)S-TV與傳統(tǒng)TV的效率對(duì)比 本文在GMM-TV系統(tǒng)以及已有的有監(jiān)督訓(xùn)練的TV系統(tǒng)下,提出了一種改進(jìn)的有監(jiān)督訓(xùn)練TV系統(tǒng),在原本訓(xùn)練T矩陣的基礎(chǔ)上給訓(xùn)練數(shù)據(jù)增加標(biāo)識(shí)向量來增加T空間的區(qū)分性,同時(shí)在目標(biāo)函數(shù)中引入正則化項(xiàng),來控制空間訓(xùn)練的自由度。實(shí)驗(yàn)結(jié)果表明,此方法在不影響效率的情況下有效地提高了語種識(shí)別的效果,在NIST LRE09數(shù)據(jù)集合上,所提出的融合系統(tǒng)相比基線系統(tǒng)提升非常明顯。本文方法為模型域?qū)用娴母倪M(jìn),可以用于國際主流的Bottleneck特征[9]中。 [1] 付強(qiáng).基于高斯混合模型的語種識(shí)別的研究[D].中國科學(xué)技術(shù)大學(xué),2009. [2] 郭武.復(fù)雜信道下的說話人識(shí)別[D].中國科學(xué)技術(shù)大學(xué),2007. [3] Dehak N,Kenny P,Dehak R,et al.Front-End Factor Analysis for Speaker Verification[J].Audio Speech & Language Processing IEEE Transactions on,2011,19(4):788-798. [4] Kenny P.Joint factor analysis of speaker and session variability:Theory and algorithm[R].Technical report CRIM-06/08-13,CRIM,2006. [5] Li ming,Shrikanth Narayanan.Simplified Supervised I-vector Modeling with Application to Robust and Efficient Language Identification and Speaker Verification[J].Computer Speech & Language,2014,28(4):940-958. [6] Kohler M A,Kennedy M.Language identification using shifted delta cepstra[C]//Circuits and Systems,2002.MWSCAS-2002.The 2002 45th Midwest Symposium on.IEEE,2002:III-69-72. [7] Kim C,Stern R M.Feature extraction for robust speech recognition using a power-law nonlinearity and power-bias subtraction[J].Interspeech,2009:28-31. [8] Kim C,Stern R M.Power-Normalized Cepstral Coefficients (PNCC) for robust speech recognition[C]//2012 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2012,22(10):4101-4104. [9] Jiang Bing,Song yan,Wei si,et al.Deep Bottleneck Features for Spoken Language Identification[J].PLOS ONE,2014,9(7):e100795. AN IMPROVED LANGUAGE IDENTIFICATION METHOD USING SUPERVISED TOTAL VARIABILITY Zhang Yifei1,2Teng Xiaoqi3 1(School of Mechatronics Engineering and Automation,Shanghai University,Shanghai 200072,China)2(IflytekIntelligentSystemCo.,Ltd,Hefei230088,Anhui,China)3(TheOfficeofInternetInformation,Beijing100062,China) Traditional GMM-TV (Gaussian mixture model-total variability) system is benefited from its good recognition effect and excellent recognition efficiency, and has been widely used in language identification (LID). However the training process of load matrix T is unsupervised, this leads to its classification space not being optimised the best. Existing supervised-TV (S-TV) algorithm, through stitching a vector with tag information on mean super vector, makes the training process of T matrix become a supervised process, but it only achieves a little performance gain while introduces the problem of load matrix’s freedom. In this paper we propose an improved S-TV method which puts a regularisation item into the objective function for solving the freedom problem and meanwhile greatly improves its classification effect. The improved system achieves excellent effect in the experiment on 30s dataset of NIST LRE2009, the equal error rate (EER) reduces to 4.96% from 5.40% and the fusion system’s EER has even reached 3.86%. Language identificationTV systemSupervised trainingLoad matrix 2015-05-20。北京市科委項(xiàng)目(Z141100006014002)。張翼飛,碩士生,主研領(lǐng)域:聲紋語種識(shí)別。騰瀟琦,碩士生。 TP3 A 10.3969/j.issn.1000-386x.2016.09.0385 結(jié) 語