陳霄鵬, 彭亞雄, 賀 松
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院, 貴州 貴陽(yáng) 550025)
基于PLDA的說(shuō)話人識(shí)別時(shí)變魯棒性問(wèn)題研究
陳霄鵬, 彭亞雄, 賀 松
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院, 貴州 貴陽(yáng) 550025)
隨著時(shí)間的變化,人的聲音也會(huì)發(fā)生變化。這對(duì)說(shuō)話人的識(shí)別帶來(lái)了一定的影響。通過(guò)研究發(fā)現(xiàn),說(shuō)話人識(shí)別的性能與時(shí)間有著線性變化的規(guī)律。傳統(tǒng)的說(shuō)話人識(shí)別系統(tǒng)使用GMM-UBM模型并不能很好地學(xué)習(xí)出線性變化規(guī)律。由于概率線性判別分析(PLDA)對(duì)于類內(nèi)與類間有著很好的線性區(qū)分度,所以為了解決線性變化的問(wèn)題,選擇概率線性判別分析的方法學(xué)習(xí)說(shuō)話人識(shí)別中時(shí)變的線性變化規(guī)律。從實(shí)驗(yàn)結(jié)果看出,PLDA對(duì)于說(shuō)話人識(shí)別的識(shí)別魯棒性具有很好的提升。
說(shuō)話人識(shí)別;時(shí)變魯棒性;GMM-UBM;PLDA
說(shuō)話人識(shí)別即聲紋識(shí)別,為生物特征識(shí)別的一種。而聲紋這一概念從誕生之初就一直伴隨著其是否隨時(shí)間變化的質(zhì)疑。經(jīng)過(guò)多年的研究發(fā)現(xiàn),聲紋識(shí)別確確實(shí)實(shí)隨著時(shí)間發(fā)生變化。早在2003年,Bonastre教授已發(fā)表論文指出說(shuō)話人識(shí)別的時(shí)變問(wèn)題。在實(shí)際的說(shuō)話人識(shí)別系統(tǒng)中,聲紋預(yù)留與聲紋驗(yàn)證之間的時(shí)間間隔也帶來(lái)了系統(tǒng)性能的下降。
在已有的研究中,浙江大學(xué)CNNT實(shí)驗(yàn)室設(shè)計(jì)了一個(gè)聲紋打卡系統(tǒng),記錄了實(shí)驗(yàn)室成員每天打卡情況,其中在開(kāi)始的50天里識(shí)別率為69.02%,在稍近的幾天里識(shí)別率提高到了74.19%。同時(shí)提出了平滑化梅爾倒譜系數(shù)(Smoothing Mel Cepstrum Coefficient, SMFCC )這種更穩(wěn)定的特征提高時(shí)變魯棒性。
清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)中心王琳琳博士以F-ratio作為中間準(zhǔn)則計(jì)算頻帶區(qū)分度從而提高其魯棒性。同時(shí)還提出了性能驅(qū)動(dòng)的頻率彎折方法的特征提取算法。
以上研究都基于特征層面,并未涉及到模型層面,本文研究著重于模型層面。
隨著時(shí)間的變化,人的聲音也會(huì)發(fā)生變化,從而影響說(shuō)話人識(shí)別的識(shí)別率。其識(shí)別率會(huì)降低,而這種降低類似線性變化。所以,假設(shè)說(shuō)話人識(shí)別中不同時(shí)間的特征之間的線性相關(guān),通過(guò)特征之間的相關(guān)系數(shù)可以判別兩個(gè)特征之間的線性相關(guān)性。根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),相關(guān)系數(shù)都在0.7~1之間,也就說(shuō)明特征與特征之間有著極大的線性相關(guān)性。而且相關(guān)系數(shù)隨著時(shí)間的變化也有著相對(duì)的線性變化。實(shí)驗(yàn)結(jié)果如圖1。
圖1 平均相關(guān)系數(shù)隨時(shí)間變化曲線
為了更加準(zhǔn)確地描述時(shí)間變化的規(guī)律,最大可能排除音素沒(méi)有對(duì)齊的影響,故而選擇動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)對(duì)特征進(jìn)行分析。將動(dòng)態(tài)時(shí)間規(guī)整后的兩段語(yǔ)音求cosine距離,根據(jù)cosine距離觀察兩段語(yǔ)音的相似程度。實(shí)驗(yàn)結(jié)果表明,cosine距離隨著時(shí)間的變化也呈現(xiàn)出相應(yīng)的線性變化。實(shí)驗(yàn)結(jié)果如圖2。
圖2 DTW后cosine距離隨時(shí)間變化曲線
由以上兩個(gè)實(shí)驗(yàn)結(jié)果可以得出,隨著時(shí)間的變化,說(shuō)話人識(shí)別的魯棒性呈線性變化規(guī)律。
說(shuō)話人識(shí)別是模式識(shí)別的一種,分為訓(xùn)練和識(shí)別兩個(gè)階段。訓(xùn)練可以認(rèn)為就是將語(yǔ)音按照不同的人進(jìn)行分類,每一類代表了一個(gè)人,識(shí)別就是將測(cè)試的語(yǔ)音與已經(jīng)分好類的模型進(jìn)行比對(duì)。在說(shuō)話人識(shí)別中加入時(shí)間的變化,就要同時(shí)考慮同一類的變化,即類內(nèi)的變化,以及類與類之間的變化,也即類間的變化。
線性概率判別分析[1-3](Linear Discriminant Analysis,LDA)是一種將類內(nèi)和類間的方差作為多維高斯分布的一種技術(shù),它尋求方向空間最大的辨別力,因此非常適合支持類的識(shí)別任務(wù)。
假設(shè)訓(xùn)練數(shù)據(jù)為不同的I個(gè)人,且每個(gè)人有J個(gè)語(yǔ)音,xij表示第i個(gè)人的第j個(gè)語(yǔ)音,則LDA模型可表示為:
xij=μ+Fhi+Gwij+ij
(1)
此模型分為兩個(gè)部分:第一個(gè)部分μ+Fhi只與每個(gè)個(gè)體的特征有關(guān),而與每條語(yǔ)音的特征無(wú)關(guān);第二個(gè)部分Gwij+ij指每個(gè)個(gè)體語(yǔ)音的不同以及代表個(gè)體內(nèi)部的噪聲。其中μ為訓(xùn)練數(shù)據(jù)集的總體平均數(shù);矩陣F的列包含了個(gè)人之間子空間的主要成分;hi代表這個(gè)子空間的位置;矩陣G包含了個(gè)體內(nèi)部子空間的主要成分;wij代表這個(gè)子空間的位置;ij定義為高斯對(duì)角線協(xié)方差Σ(殘差)。從條件概率方面來(lái)描述式(1)的模型:
(2)
(3)
(4)
2.1 訓(xùn)練階段
訓(xùn)練階段的主要目標(biāo)是得到一組數(shù)據(jù)點(diǎn)xij,并且得到相應(yīng)的參數(shù)θ={μ,F,G,Σ}。如果知道隱藏變量hi和wij的值,這個(gè)問(wèn)題將變得十分簡(jiǎn)單。同樣地在給定θ的情況下也很容易估計(jì)hi和wij。但是式(1)中的很多參量都是未知的。
使用EM算法[4-5]可以解決這個(gè)問(wèn)題。EM算法通過(guò)迭代輪流估計(jì)兩個(gè)參數(shù)。在E-step,計(jì)算出整個(gè)后驗(yàn)分布中的隱藏變量hi和wij,從而修正參數(shù)的值。在M-step,使參數(shù)θ={μ,F,G,Σ}的點(diǎn)估計(jì)最優(yōu)化。
2.2 識(shí)別階段
在識(shí)別階段,需要比較數(shù)據(jù)在R個(gè)模型M1…R下的似然分。定義模型M代表了隱藏身份變量hi和數(shù)據(jù)的一種關(guān)系。如果測(cè)試集中的多條語(yǔ)音屬于同一個(gè)人,那么這些語(yǔ)音就需要一個(gè)相同的身份變量hi。反之如果多條語(yǔ)音對(duì)應(yīng)了多個(gè)人,那么就需要不同的身份變量。因此需要得到第q個(gè)模型的似然分Pr(X|Mq),其中X是所有的觀察數(shù)據(jù)。為了計(jì)算每個(gè)模型的后驗(yàn)概率,需要使用貝葉斯準(zhǔn)則[6-8]:
(5)
為了更真實(shí)地描述這個(gè)公式,假設(shè)訓(xùn)練語(yǔ)音為x1、x2,測(cè)試語(yǔ)音為xp。如圖3所示,圖中有兩個(gè)模型,模型M1的測(cè)試語(yǔ)音xp與訓(xùn)練語(yǔ)音x1相匹配,則它們有著相同的身份變量h1[9-10]。同樣地,模型M2的測(cè)試語(yǔ)音xp與訓(xùn)練語(yǔ)音x2相匹配,則它們就有著相同的身份變量h2。用下式計(jì)算數(shù)據(jù)在模型M1下的似然分:
Pr(x1,2,p|M1)=Pr(x1,p|M1)Pr(x2|M2)
(6)
其中隨機(jī)變量x1,p和x2是相互獨(dú)立的。此處目標(biāo)是求出觀測(cè)數(shù)據(jù)的似然分,然而隱藏變量h和w都是未知的[10-11]。提取出所有關(guān)鍵的觀測(cè)似然分和已知的隱藏變量,忽略未知的隱藏變量,從而可以得到:
Pr(x1,p|M1)=?Pr(x1,xp,h1,w1,wp)dh1dw1dwp
(7)
進(jìn)一步可以得到:
Pr(x1,p|M1)=∫[∫Pr(x1|h1,w1)Pr(w1)dw1
∫Pr(xp|h1,wp)Pr(wp)dwp]?Pr(h1)dh1
(8)
同樣地,可以得出關(guān)于x2的條件概率:
Pr(x2|M1)=?Pr(x2|h2,w2)Pr(w2)dw2Pr(h2)dh2
(9)
圖3 通過(guò)比較數(shù)據(jù)在不同模型下的似然分進(jìn)行識(shí)別
以上條件概率所描述的都是最開(kāi)始所定義的高斯分布,即式(1)~式(4)。同樣地,模型M2可以用相同的方法做分解。
在計(jì)算式(8)、式(9)的積分時(shí),算出N條語(yǔ)音匹配相同參數(shù)h的似然分,同時(shí)忽略了噪音參數(shù)w1...wN,加之PLDA是一種線性的高斯分布,所以可以將N條語(yǔ)音識(shí)別的系統(tǒng)按照式(1)寫(xiě)成下面的等式:
(10)
將上式重新命名為:
x′=μ′+Ay+′
(11)
(12)
(13)
其中:
(14)
式(12)、式(13)即為標(biāo)準(zhǔn)的因素分析形式,而這種方法是已知的:
(15)
實(shí)際中,在已知矩陣A結(jié)構(gòu)的前提下,可以提高計(jì)算效率。
實(shí)驗(yàn)采用GMM-UBM與PLDA進(jìn)行比較。兩種算法均采用采樣率為16 kHz的語(yǔ)音和39維的MFCC特征,MFCC特征由基本的13維MFCC特征加上其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)組成。其中MFCC的幀寬為24 ms,幀移為12 ms,預(yù)加重系數(shù)為0.97,MFCC濾波器組數(shù)目為30,低頻截止頻率為60 Hz,高頻截止頻率為3 600 Hz,DCT數(shù)目為16。同時(shí)增加有效語(yǔ)音檢測(cè)(Voice Activity Detection, VAD),取得有效音。對(duì)連續(xù)四周的語(yǔ)音進(jìn)行測(cè)試,以等錯(cuò)誤率(Equal Error Rate, EER)為判別標(biāo)準(zhǔn)。EER為錯(cuò)誤拒絕率(False Rejection Rate,F(xiàn)RR)和錯(cuò)誤接受率(False Acceptance Rate,F(xiàn)AR)相等的點(diǎn)。實(shí)驗(yàn)結(jié)果如表1。
表1 GMM-UBM與PLDA的等錯(cuò)誤率
其中本周測(cè)試表示以當(dāng)前周的訓(xùn)練語(yǔ)音建立模型,用當(dāng)前周的測(cè)試語(yǔ)音進(jìn)行測(cè)試。第一周的結(jié)果表示的是以當(dāng)前周的語(yǔ)音為訓(xùn)練語(yǔ)音,以當(dāng)前周的下一周的測(cè)試語(yǔ)音進(jìn)行測(cè)試。后三周的測(cè)試方法與第一周的測(cè)試方法相同。
由表1實(shí)驗(yàn)結(jié)果可以看出,說(shuō)話人識(shí)別的時(shí)變魯棒性具有線性變化規(guī)律,隨著時(shí)間的推移,不論是GMM-UBM[12]還是PLDA[13],在不同周的測(cè)試效果均在逐步降低,但是PLDA的整體效果均優(yōu)于GMM-UBM。從時(shí)變的魯棒性來(lái)看,PLDA的EER從第一周到第四周表現(xiàn)比較平穩(wěn),均保持在9%左右,而GMM_UBM在第三周開(kāi)始有了明顯的增加,也就是說(shuō)GMM-UBM的魯棒性有所降低。
本文通過(guò)使用PLDA模型對(duì)說(shuō)話人識(shí)別進(jìn)行了測(cè)試,目的在于解決時(shí)變的魯棒性問(wèn)題,從實(shí)驗(yàn)結(jié)果來(lái)看,PLDA對(duì)時(shí)變的魯棒性有很大的提高。本文中使用PLDA和GMM-UBM對(duì)語(yǔ)音進(jìn)行了測(cè)試,以GMM-UBM為基線,從測(cè)試結(jié)果來(lái)看,PLDA的整體效果均優(yōu)于GMM-UBM。以后可以使用PLDA為基線,通過(guò)對(duì)PLDA的改進(jìn)來(lái)進(jìn)一步提高時(shí)變的魯棒性。
[1] YOUNG S. A review of large-vocabulary continuous-speech recognition[J]. Signal Processing Magazine, IEEE, 1996, 13(5): 45.
[2] LIANG L, RENALS S. Probabilistic linear discriminant analysis for acoustic modelling[J]. IEEE Signal Processing Letters, 2014,21(6):702-706.
[3] CHEN L F, LIAO H Y M, LIN J C, et al. A new LDA-based face recognition system which can solve the sample size problem[J]. Pattern Recognition, 2000, 33(10): 1713-1726.
[4] RUBIN R, THAYER D. EM algorithms for ML factor analysis[J]. Psychometrika, 1982,47(1):69-76.
[5] GHARAMANI Z, HINTON G E. The EM algorithm for mixtures of factor analyzers[R]. University of Toronto Technical Report, 1997.
[6] DEHAK N, KENNY P J, DEHAK R, et al. Frontend factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 9(4): 788-798.
[7] KIM T, KITTLER J. Locally linear discriminant analysis for multimodally distributed classes for face recognition with a single model image[J]. PAMI, 2005, 27(3): 318-327.
[8] MATEJKA P, GLEMBEK O, CASTALDO F, et al. Full-covariance UBM and heavy-tailed PLDA in i-vector speaker verification[C]. In Proc. ICASSP. IEEE, 2011: 4828-4831.
[9] HASAN T, HANSEN J H L. Acoustic factor analysis for robust speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(4): 842-853.
[10] KENNY P. Bayesian speaker verification with heavy tailed priors[C]. In Speaker and Language Recognition Workshop (IEEE Odyssey), 2010:1-41.
[11] GODFREY J J, HOLLIMAN E C, MCDANIEL J. SWIT-CHBOARD: telephone speech corpus for research and development[C]. In Proc. ICASSP. IEEE, 1992: 517-520.
[12] REYNOLDS D A, QUATERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1/3): 19-41.
[13] PRINCE S J, ELDER J H. Probabilistic linear discriminant analysis for inferences about identity[C]. In Proc. ICCV. IEEE, 2007: 1-8.
Research on time-varying robustness in speaker recognition based on PLDA
Chen Xiaopeng, Peng Yaxiong, He Song
(Big Data and Information Engineering Institute, Guizhou University, Guiyang 550025, China)
As time goes on, the voice will have a change. It is an influence to speaker recognition. By our research, we find that the recognition rate of speaker recognition have some rule of linear on time-varying. The traditional speaker recognition system always uses GMM-UBM, but it can’t learn the rule of linear. The Probabilistic Linear Discriminant Analysis (PLDA) can distinguish intra-class and inter-class easily. So in order to solve the linear problem, we choose PLDA to learn the rule of speaker recognition on time-varying. The experiment results show that PLDA is better for time-varying robust in speaker recognition.
speaker recognition; time-varying robustness; GMM-UBM; PLDA
TN912.34
A
1674-7720(2016)05-0058-03
陳霄鵬,彭亞雄,賀松. 基于PLDA的說(shuō)話人識(shí)別時(shí)變魯棒性問(wèn)題研究[J].微型機(jī)與應(yīng)用,2016,35(5):58-60,64.
2015-12-01)
陳霄鵬(1990-),男,碩士研究生,主要研究方向:說(shuō)話人識(shí)別。
彭亞雄(1963-),通信作者,男,副教授,碩士生導(dǎo)師,主要研究方向:數(shù)字通信技術(shù),音視頻處理技術(shù)。E-mail:573014663@qq.com。
賀松(1974-),男,副教授,碩士生導(dǎo)師,主要研究方向:信號(hào)處理。