沈思秋,呂 勇,楊 蕓,齊彥云
(河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,江蘇 南京 210096)
高斯混合模型(Gaussian Mixture Modeling:GMM)[1]和隱馬爾可夫模型(Hidden Markov Modeling:HMM)[2]已經(jīng)被成功應(yīng)用于多種分類識(shí)別中,最大似然估計(jì)(MLE)和期望最大(EM)算法能有效地估計(jì)模型的參數(shù)。然而,模型域方法存在一個(gè)明顯的缺陷,那就是被建模的模型是獨(dú)立的,也就是說(shuō),當(dāng)為一個(gè)類建立一個(gè)模型后,這個(gè)模型不考慮其它類的數(shù)據(jù)。換句話說(shuō),其它類的數(shù)據(jù)不能夠被用來(lái)優(yōu)化分類識(shí)別效果。因此,建立這樣的模型會(huì)增大誤識(shí)率。在數(shù)據(jù)訓(xùn)練過(guò)程中,如果能獲取本類特有的特征,且利用這個(gè)特征能有效地識(shí)別出其他類的數(shù)據(jù),這樣就可以提高分類器的分類識(shí)別能力。
現(xiàn)在的很多研究中,通過(guò)增強(qiáng)分類器對(duì)其它類數(shù)據(jù)的識(shí)別能力的方法來(lái)提高識(shí)別性能的文獻(xiàn)主要有以下兩類:
1)除去兩個(gè)類所共同擁有的且相近的特征。
2)調(diào)整模型的參數(shù),使得它們?cè)谔卣饔蛑心芎芎玫姆珠_(kāi)。
一些方法被提出來(lái)用以提高GMM的分類能力,通用背景的高斯混合模型 (Universal ackground Model-Gaussian Mixture Model:UBM-GMM)是其中一種已經(jīng)被廣泛使用的方法。UBM模型的建立過(guò)程使用了所有可能的說(shuō)話人的數(shù)據(jù)。在訓(xùn)練過(guò)程中,用最大后驗(yàn)概率(MAP)算法對(duì)說(shuō)話人的特定模型進(jìn)行調(diào)整,使它適應(yīng)于UBM。
文獻(xiàn)[3]提出了基于最小分類誤差(Minimum Classification Error:MCE)的算法。在這個(gè)方法中,所有的說(shuō)話人的聲音都被用來(lái)估計(jì)別的說(shuō)話人所屬的類,這是一個(gè)比較有效的方法。然而,當(dāng)說(shuō)話人數(shù)非常多的時(shí)候,這種方法因計(jì)算量迅速增大而變得不適用。文獻(xiàn)[4]指出,i-矢量方法是說(shuō)話人分類識(shí)別領(lǐng)域中有效的方法,它能將輸入的高維數(shù)據(jù)變?yōu)榈途S數(shù)據(jù),且保留住輸入數(shù)據(jù)的相應(yīng)信息,文獻(xiàn)[5]中的聯(lián)合因子分析框架就用到了這種方法。
當(dāng)存在兩個(gè)發(fā)音相似的說(shuō)話人時(shí),這篇文章在音素層次上對(duì)他們進(jìn)行區(qū)分。文中首先提取出說(shuō)話人特定的特征集,再用基于GMM和i-矢量的方法對(duì)說(shuō)話人進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,這篇文章提出的方法的識(shí)別準(zhǔn)確率要優(yōu)于傳統(tǒng)的基于GMM以及i-矢量的方法。
本文剩余部分組織如下:下一節(jié)強(qiáng)調(diào)了說(shuō)話人特定特征集的獲??;所使用的基于GMM的方法在第2節(jié)進(jìn)行介紹;第3節(jié)介紹i-矢量方法;第4節(jié)介紹了本文的實(shí)驗(yàn)步驟;第5節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析與討論;最后一節(jié)對(duì)全文進(jìn)行總結(jié)。
文獻(xiàn)[6]提出了一種基于高斯混合模型(GMM)的方法,該方法提取出每一個(gè)類獨(dú)有的特征,并只用該特征對(duì)說(shuō)話人進(jìn)行識(shí)別。在測(cè)試過(guò)程中,提取出每一個(gè)類別特有的特征矢量,從而提高識(shí)別器的識(shí)別性能。該方法的其中一個(gè)缺陷是:如果無(wú)法從用于測(cè)試的發(fā)聲中找到合適的特征,則識(shí)別結(jié)果的準(zhǔn)確率就無(wú)法得到保證。該方法的另一個(gè)缺陷是:在測(cè)試階段提取與鑒定每個(gè)類別所獨(dú)有的特征的過(guò)程中存在大量運(yùn)算,因?yàn)槊總€(gè)發(fā)聲中可能還存在其它類別的特征,要將其排除,故這會(huì)降低系統(tǒng)的實(shí)時(shí)性。如果一個(gè)說(shuō)話人的聲音中只包含了本類別所特有的特征,那么運(yùn)算消耗的時(shí)間可以減少,但在實(shí)際過(guò)程中,出現(xiàn)這種情況幾乎是不可能的。
本文研究了說(shuō)話人特有的特征集對(duì)說(shuō)話人識(shí)別結(jié)果的影響,主要工作分為以下3個(gè)步驟:
1)為每一個(gè)說(shuō)話人找出與他發(fā)聲相似的其他說(shuō)話人(稱為干擾者)。
2)將每個(gè)說(shuō)話人的發(fā)聲和他的干擾者的發(fā)聲相比較,提取出他特有的特征集。
3)將上一步結(jié)束后得到的結(jié)果用于測(cè)試識(shí)別。
文獻(xiàn)[7]用TIMIT語(yǔ)音集對(duì)以上方法的結(jié)果進(jìn)行了實(shí)驗(yàn),但在訓(xùn)練與測(cè)試過(guò)程中,作者只考慮了每個(gè)人僅存在一個(gè)干擾者的情況。該文獻(xiàn)的方法產(chǎn)生誤識(shí)率的一個(gè)原因是:該文章用對(duì)數(shù)似然值的均值來(lái)產(chǎn)生不同的聲學(xué)特征集,如果某些音素中的樣本較少,則這種方法產(chǎn)生的結(jié)果不可靠。該文獻(xiàn)所使用的TIMIT語(yǔ)音集中,音素含有的樣本很少,某些音素甚至只有2個(gè)樣本,因此,通過(guò)對(duì)數(shù)似然值產(chǎn)生的聲學(xué)特征集非常不可靠,有時(shí)甚至是錯(cuò)誤的。為了避免這種情況產(chǎn)生,可以建立自己的語(yǔ)音庫(kù)。本文建立了自己的語(yǔ)音庫(kù),確保了每個(gè)音素有足夠的樣本數(shù)(至少有30個(gè))。
此外,在文獻(xiàn)[7]中,只考慮了每個(gè)人僅存在一個(gè)干擾者的情況。另一方面,如果每個(gè)說(shuō)話人存在不止一個(gè)的干擾者,則可以通過(guò)與所有這些干擾者的發(fā)聲逐個(gè)進(jìn)行比較的方法提取出這個(gè)人所特有的特征集。講到這里,某些人可能會(huì)產(chǎn)生疑惑,他們可能認(rèn)為通過(guò)這種方法提取到的特征集并不僅僅屬于該說(shuō)話人的,它們也是這位說(shuō)話人的干擾者的特征。在一個(gè)閉集中考慮有n個(gè)人的說(shuō)話人識(shí)別過(guò)程,即每個(gè)說(shuō)話人是這n個(gè)人中的其中之一,每個(gè)人所特有的音素可以通過(guò)以下兩種方法來(lái)獲得:
1)將剩余的n-1個(gè)人全都視為干擾者。
2)從剩余的n-1個(gè)人中選取一部分作為干擾者。
若使用第一種方法,則運(yùn)算量相對(duì)較大,此外,由于其他的n-1個(gè)干擾者的發(fā)聲并不一定與該說(shuō)話人的發(fā)音有相似性,故本文使用第二種方法。
當(dāng)要提取某個(gè)說(shuō)話人的音素特征時(shí),這個(gè)人稱為目標(biāo)說(shuō)話人,將目標(biāo)說(shuō)話人的特征與所選取的干擾者逐個(gè)進(jìn)行比對(duì),比較兩人發(fā)聲中音素和模型的相似性就可以得到目標(biāo)說(shuō)話人特有的特征。具體過(guò)程如下:
設(shè)S為目標(biāo)說(shuō)話人提取到的特征,即
假設(shè)M、N為所選取的S的兩個(gè)干擾者,由于他們的發(fā)聲與S相似,故M發(fā)聲中的某些特征會(huì)跟S的某些特征相同。設(shè)M中有如下特征跟S的相同:
N中有如下特征跟S的相同:
則通過(guò)逐一比較,可得到說(shuō)話人特有的特征集為:
可見(jiàn),S2中的特征參數(shù)已經(jīng)排除了si和sk,即這些參數(shù)是說(shuō)話人S所特有的。得到S2后,再用基于GMM和i-矢量的方法對(duì)說(shuō)話人進(jìn)行識(shí)別。
本文將美爾頻率倒譜系數(shù)(MFCC)作為特征參數(shù)。研究表明,人耳對(duì)聲音的頻率分辨能力是不均勻的,對(duì)低頻的分辨率較高,對(duì)高頻的分辨率較低[4]。人耳對(duì)頻率在1 kHz以下的聲音的感知能力遵循線性關(guān)系,而對(duì)頻率在1 kHz以上的聲音的感知能力遵循的是對(duì)數(shù)頻率坐標(biāo)上的線性關(guān)系。MFCC考慮到了人耳的這種特點(diǎn),它先將頻譜轉(zhuǎn)變?yōu)槊罓栴l標(biāo)的非線性頻譜,接著再轉(zhuǎn)換到倒譜域上。美爾頻率Mel(f)與實(shí)際頻率f間的關(guān)系式如下:
若將美爾頻率在整個(gè)頻帶上進(jìn)行等間距劃分,則可得到一系列中心頻率。再以每個(gè)中心頻率為中點(diǎn),以上一個(gè)和下一個(gè)中心頻率為截止頻率,構(gòu)建一系列三角帶通濾波器,再將其變換到實(shí)際頻域中,就可得到圖1所示的美爾濾波器組。
圖1 美爾濾波器組Fig.1 Mel filter banks
美爾頻率倒譜系數(shù)的提取步驟框圖下所示:
1)對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行數(shù)字化以及加窗、分幀等預(yù)處理過(guò)程,得到各幀的時(shí)域信號(hào)x(n)。
2)對(duì)時(shí)域信號(hào)x(n)進(jìn)行離散傅里葉變換,得到每幀信號(hào)的短時(shí)幅度頻譜X(K):
其中,N為幀長(zhǎng)。
3)用美爾濾波器組對(duì)求得的短時(shí)幅度頻譜X(K)進(jìn)行加權(quán)求和,得到美爾譜S(m):
其中,S(m)為第m個(gè)美爾濾波器的輸出,M為濾波器個(gè)數(shù),Wm(k)為第m個(gè)美爾濾波器在頻率k處的加權(quán)因子。
4)對(duì)美爾濾波器組的所有輸出取對(duì)數(shù),并且作離散余弦變換(DCT),就可得到 MFCC:
其中,L是MFCC的維數(shù)。
由于本文是在音素層次上提取說(shuō)話人發(fā)聲的特征,故需要將發(fā)聲進(jìn)行分幀處理,使得每幀語(yǔ)音信號(hào)含有若干個(gè)音素,再求取各幀信號(hào)的MFCC。
首先介紹一下GMM模型的基本概念?;贕MM的說(shuō)話人識(shí)別的原理是對(duì)每一個(gè)說(shuō)話人建立一個(gè)高斯混合模型 (概率模型),該模型的參數(shù)由說(shuō)話人的特征參數(shù)的分布決定的,因此,表征了說(shuō)話人的身份。為了方便,假設(shè)每個(gè)人有相同形式的概率密度函數(shù),但每個(gè)人的概率密度函數(shù)中的參數(shù)不同,這時(shí)說(shuō)話人模型就是在特定概率密度函數(shù)形式下的一組參數(shù)。
對(duì)M個(gè)高斯概率密度函數(shù)進(jìn)行加權(quán)求和,即可求得M階混合高斯模型(GMM)的概率密度函數(shù),即:
其中,M是模型的階數(shù),X是一個(gè)P維隨機(jī)向量,wi(i=1,2,…,M)代表混合權(quán)重,bi(X)代表子分布,每一個(gè)子分布是P維的聯(lián)合高斯概率分布,表達(dá)式如下:
上式中的右邊第三項(xiàng),即協(xié)方差矩陣可以是對(duì)角陣或一般的矩陣。為了簡(jiǎn)化計(jì)算過(guò)程,本文使用對(duì)角陣,即:
其中,Xm和uim分別是X和ui的第m個(gè)分量。
基于GMM的說(shuō)話人識(shí)別過(guò)程主要包括模型訓(xùn)練和說(shuō)話人識(shí)別這兩個(gè)過(guò)程。在訓(xùn)練階段,將說(shuō)話人發(fā)聲的特征通過(guò)參數(shù)估計(jì),為每個(gè)說(shuō)話人確定一組參數(shù),從而建立模型。在說(shuō)話人識(shí)別階段,通過(guò)分析測(cè)試語(yǔ)音的特征與被建立的模型的相似度來(lái)進(jìn)行識(shí)別。
以上介紹的是傳統(tǒng)的基于GMM的說(shuō)話人識(shí)別方法。在模型訓(xùn)練階段,需要用說(shuō)話人發(fā)聲的特征參數(shù)進(jìn)行參數(shù)估計(jì),本文用于估計(jì)的特征參數(shù)是每個(gè)說(shuō)話人他自己所特有的,他所特有的特征參數(shù)的提取方法在上一小節(jié)中作了詳細(xì)說(shuō)明。
在基于i-矢量的方法中,一個(gè)長(zhǎng)度可變的語(yǔ)音向量被投影到一個(gè)低維的線性子空間中,這個(gè)子空間的基是根據(jù)EM算法估計(jì)出來(lái)的。話語(yǔ)的這種低維表示方式被稱為i-矢量。傳統(tǒng)的聯(lián)合因素分析方法是分別為說(shuō)話人的發(fā)聲本身和其它可變因素各找一個(gè)子空間,其中,可變因素的空間中包含著一些信息,這些信息可以用來(lái)區(qū)別多個(gè)說(shuō)話人。基于這個(gè)原因,文獻(xiàn)[8]的作者用一個(gè)空間來(lái)模仿這兩個(gè)可變因素,他將這個(gè)空間稱為總可變空間。他的基本假設(shè)是:說(shuō)話人本身以及其它因素所依賴的GMM矢量M可以用以下模型來(lái)表示:
其中,m是說(shuō)話人本身以及其它因素所依賴的矢量T是一個(gè)低秩的矩陣,代表總可變空間降維后的部分,w是一個(gè)標(biāo)準(zhǔn)正態(tài)分布矢量。
T被稱為總可變矩陣,向量w中的元素代表在降維后的空間中各個(gè)說(shuō)話人。這些特征矢量便是身份矢量(i-矢量)。
本文所使用的i-矢量不是一般的特征矢量,而是每個(gè)說(shuō)話人他自己所特有的特征矢量。T可采用文獻(xiàn)[9]中的EM算法估計(jì)得到,w可根據(jù)文獻(xiàn)[9]中的MAP算法估計(jì)得到。
在本文的實(shí)驗(yàn)中,創(chuàng)建了自己的語(yǔ)音庫(kù),從TIMIT語(yǔ)音庫(kù)中收集了142個(gè)英文句子,每個(gè)句子中的音素至少有30個(gè)(英語(yǔ)中共有45個(gè)音素),如果將靜默也看成是一個(gè)音素,那么本文共涉及到46個(gè)音素。在實(shí)驗(yàn)中,用16 kHz的采樣頻率來(lái)錄制語(yǔ)音,選取50個(gè)人作為說(shuō)話人(其中43個(gè)女人,7個(gè)男人),他們的年齡都在20-35歲之間,他們的每個(gè)發(fā)聲持續(xù)時(shí)間大約為3秒鐘,用文獻(xiàn)[10]中的Forced Viterbi alignment算法對(duì)整個(gè)語(yǔ)音數(shù)據(jù)在音素水平上進(jìn)行分段。
對(duì)于每個(gè)說(shuō)話人說(shuō)的142個(gè)句子中,130個(gè)句子用于訓(xùn)練,12個(gè)句子用于測(cè)試,為每個(gè)說(shuō)話人訓(xùn)練出一個(gè)含有128個(gè)混合元素的高斯混合模型,提取出語(yǔ)音的美爾頻率倒譜系數(shù)(MFCC)作為特征。為了找到干擾者,用所有說(shuō)話人的模型對(duì)每個(gè)說(shuō)話人的130個(gè)訓(xùn)練發(fā)聲進(jìn)行測(cè)試,這里每個(gè)說(shuō)話人的干擾者數(shù)量為3,根據(jù)有序?qū)?shù)似然值來(lái)找出這3個(gè)干擾者。找出所有說(shuō)話人他們各自的干擾者后,就得到了一份干擾者清單。
為了得到每個(gè)說(shuō)話人特有的特征集,在訓(xùn)練過(guò)程中要用說(shuō)話人本身以及他的干擾者的模型對(duì)他及其干擾者的音素進(jìn)行檢測(cè)。每一個(gè)音素的平均對(duì)數(shù)似然值是通過(guò)該說(shuō)話人跟他的干擾者計(jì)算出來(lái)的。根據(jù)有序的平均對(duì)數(shù)似然值,可認(rèn)為起初的20個(gè)音素是不同的聲學(xué)音素,這樣可得到每個(gè)說(shuō)話人與他的干擾者所不同的音素。重復(fù)這個(gè)過(guò)程,直到遍歷完所有說(shuō)話人的音素,為了減小計(jì)算量,提取出每個(gè)人20個(gè)音素中的前6個(gè)音素作為該說(shuō)話人特有的音素,對(duì)其進(jìn)行特征提取,便可得到說(shuō)話人特有的特征集。
在基于高斯混合模型的方法中,對(duì)于每個(gè)說(shuō)話人,對(duì)該說(shuō)話人特有的特征參數(shù)進(jìn)行參數(shù)估計(jì),為每個(gè)說(shuō)話人建立一組參數(shù),參數(shù)個(gè)數(shù)為128,從而為他建立了模型。用同樣的方法對(duì)該說(shuō)話人的干擾者也進(jìn)行同樣的建模過(guò)程。在基于i-矢量的方法中,用說(shuō)話人特有的特征參數(shù)作為i-矢量,為每個(gè)說(shuō)話人建立一個(gè)含有128個(gè)參數(shù)的UBM,并且把每一個(gè)人的142個(gè)句子集中在一起,總可變矩陣可通過(guò)集中起來(lái)的數(shù)據(jù)估計(jì)得到。i-矢量的維數(shù)設(shè)為400,它通過(guò)摘錄每個(gè)說(shuō)話人的測(cè)試用的發(fā)聲來(lái)獲得。
用本文提出的上述方法來(lái)對(duì)說(shuō)話人進(jìn)行識(shí)別時(shí),誤識(shí)率要比傳統(tǒng)的基于GMM和i-矢量的方法低,具體對(duì)識(shí)別結(jié)果的分析見(jiàn)下節(jié)。
為了獲得說(shuō)話人的特征,要求用于測(cè)試的每個(gè)發(fā)聲至少含有6個(gè)因素,每個(gè)因素的持續(xù)時(shí)間大約為80 ms,故將每個(gè)測(cè)試語(yǔ)音分為一幀幀時(shí)間長(zhǎng)度為500 ms的信號(hào)。
第一組實(shí)驗(yàn)不考慮噪聲的影響。在測(cè)試人數(shù)為50人、不含噪聲的情況下,傳統(tǒng)的基于GMM的方法和使用說(shuō)話人特定特征集的基于GMM方法的識(shí)別結(jié)果如表1所示。
表1 傳統(tǒng)GMM方法和本文方法識(shí)別結(jié)果Tab.1 Traditional methods of GMM and the proposed method of recognition results
從表一可見(jiàn),使用了說(shuō)話人特定的特征集后,能夠使基于GMM的說(shuō)話人識(shí)別的誤識(shí)率降低3.9%.
表二顯示了在不含噪聲的情況下,傳統(tǒng)的基于i-矢量方法和使用了說(shuō)話人特定特征集的i-矢量的說(shuō)話人識(shí)別結(jié)果。
表2 傳統(tǒng)i-矢量方法和本文方法識(shí)別結(jié)果Tab.2 Traditional methods of i-vector and the proposed method of recognition results
從表2可見(jiàn),使用了說(shuō)話人特定的特征集后,能夠使基于i-矢量方法的說(shuō)話人識(shí)別的誤識(shí)率降低4.6%.
對(duì)比表一和表二中的第一種方法,可以發(fā)現(xiàn)在不考慮噪聲的環(huán)境下,無(wú)論是哪種方法,當(dāng)使用了說(shuō)話人特定的特征集后,識(shí)別的準(zhǔn)確率都會(huì)提高。
下面的第二組實(shí)驗(yàn)顯示了在信噪比分別為0 dB、10 dB、20 dB和30 dB的情況下,本文的方法和傳統(tǒng)的基于GMM和i-矢量方法各自的識(shí)別結(jié)果。圖2顯示了本文使用的基于GMM方法和傳統(tǒng)的基于GMM方法在各種信噪比下的識(shí)別結(jié)果。
圖2 本文方法和傳統(tǒng)的基于GMM方法的結(jié)果比較Fig.2 The comparison of results of the proposed method and traditional methods based on GMM
圖3 本文方法和傳統(tǒng)的i-矢量方法的結(jié)果比較Fig.3 The comparison of results of the proposed method and traditional methods based on i-vector
通過(guò)第二組實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),當(dāng)使用了說(shuō)話人特有的特征集后,無(wú)論采用基于GMM的方法還是基于i-矢量的方法,識(shí)別結(jié)果都要優(yōu)于相應(yīng)的傳統(tǒng)的方法。此外,也可以發(fā)現(xiàn)基于GMM的方法的結(jié)果要明顯優(yōu)于基于i-矢量方法的識(shí)別結(jié)果。
本文通過(guò)使用說(shuō)話人特有的特征參數(shù)并用基于GMM和i-矢量的方法來(lái)對(duì)說(shuō)話人進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果顯示,無(wú)論是在純凈環(huán)境下還是在含有噪聲的環(huán)境下,本文方法的誤識(shí)率均要低于傳統(tǒng)的基于GMM和i-矢量的方法,即識(shí)別的準(zhǔn)確率有了提高。
但是,通過(guò)第二組實(shí)驗(yàn)可以發(fā)現(xiàn),當(dāng)?shù)玫搅苏f(shuō)話人特有的特征集后,若采用基于GMM的方法,則在信噪比較高時(shí),可以得到較為理想的識(shí)別結(jié)果,但是當(dāng)信噪比較低時(shí),識(shí)別結(jié)果同樣得不到保證。因此,如何提高在低信噪比環(huán)境下的識(shí)別準(zhǔn)確率是接下去要研究的問(wèn)題。
[1]Kim W,Hansen JHL.Feature compensation in the cepstral domain employing model combination[J].Speech Commun 2009;51:83-96.
[2]Lü Y,Wu H,Zhou L,et al.Multi-environment model adaptation based on vector Taylor series for robust speech recognition[J].Pattern Recognition,2010,43(9):3093-3099.
[3]Juang B H,Chou W,Lee C H.Minimum classificatio n error rate methods for speech recognition[J].IEEE Trans.on Speech and Audio Processing,1997,5(3):257-265.
[4]Dehak N,Kenny P,Dehak R,et al.Front-end factor analysis for speaker verification[J].IEEE Transactions on Audio,Speech, and Language Processing,2011:788-798.
[5]Kenny P,Boulianne G,Ouellet P,et al.Joint factor analysis versus eigenchannels in speaker recognition [J].IEEE Transactions on Audio, Speech and Language Processing,2007:1435-1447.
[6]Arun Kumar C, Bharathi B,Nagarajan T.A discriminative GMM technique using product of likelihood Gaussians[J].IEEE TENCON,2009.
[7]Bharathi B,Vijayalakshmi P,Nagarajan T.Speaker identification using utterances correspond to speaker-specific-text[J].IEEE Students technology symposium(Techsym),2011.
[8]Dehak N,Dehak R,Kenny P,et al.Support vector machines versus fast scoring in the low-dimensional total variability space for speaker verification [J].in INTER-SPEECH,Brighton,2009.
[9]Glembek O,Burget L,Matejka P,et al.Simplification and Optimization of i-vector extraction[J].In proceedings of IEEE International conference on Acoustics, Speech, and Signal Processing,2011:4516-4519.
[10]Brugnara F,F(xiàn)alavigna D,Omologo M.Automatic segmentation and labeling of speech based on hidden markov models[J].Speech Com-munication,1993,12(4):357-370.