譚 萍 邢玉娟 高 翔
(蘭州文理學(xué)院數(shù)字媒體學(xué)院,甘肅 蘭州 730000 )
說(shuō)話人識(shí)別是生物身份認(rèn)證技術(shù)中的重要分支,主要通過(guò)提取說(shuō)話人語(yǔ)音中的個(gè)性特征參數(shù),實(shí)現(xiàn)說(shuō)話人身份的自動(dòng)識(shí)別。支持向量機(jī)(Support Vector Machine,SVM)[1]是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,由于其出色的分類性能,近幾年成為話者識(shí)別領(lǐng)域研究的熱點(diǎn)。高斯混合模型(Gaussian mixture model, GMM)可以有效的描述說(shuō)話人語(yǔ)音特征分布。將SVM和GMM相結(jié)合[2],在說(shuō)話人確認(rèn)領(lǐng)域獲得了成功的應(yīng)用。然而,在說(shuō)話人識(shí)別系統(tǒng)中隨著注冊(cè)人數(shù)的增加,語(yǔ)音數(shù)據(jù)規(guī)模急劇變大,GMM的計(jì)算復(fù)雜度增大,從而導(dǎo)致SVM訓(xùn)練速度變慢,進(jìn)而影響系統(tǒng)的性能。針對(duì)上述問(wèn)題,本文提出兩種新的基于GMM的聚類算法。該算法借助GMM模型對(duì)話者語(yǔ)音數(shù)據(jù)建模,分別依據(jù)話者GMM模型間的KL散度和巴氏距離對(duì)模型進(jìn)行聚類,減少SVM訓(xùn)練樣本數(shù)量,從而達(dá)到提高系統(tǒng)識(shí)別性能和魯棒性的目的。
GMM模型是一種統(tǒng)計(jì)模型,它利用若干個(gè)高斯概率密度函數(shù)的加權(quán)和來(lái)近似地描述說(shuō)話人特征矢量在概率空間的分布。
對(duì)于一個(gè)D維的輸入特征向量X,M 個(gè)成員高斯概率密度的加權(quán)和表示為:
隨著說(shuō)話人識(shí)別系統(tǒng)注冊(cè)人數(shù)的增加,采集的語(yǔ)音數(shù)據(jù)的規(guī)模會(huì)急劇增大,從而導(dǎo)致GMM計(jì)算復(fù)雜度變高,進(jìn)而影響到系統(tǒng)的識(shí)別性能。因此,本文提出兩種說(shuō)話人模型聚類算法,以期在保證識(shí)別率的情況下支持向量機(jī)訓(xùn)練階段的計(jì)算復(fù)雜度。
KL散度是一種有效的概率模型差異度量方法[4],本算法采用說(shuō)話GMM模型和聚類中心模型()cp 之間的KL散度作為K均值聚類算法的距離度量:
由于在超向量映射中只是對(duì)均值向量進(jìn)行自適應(yīng),因此所有話者的GMM具有相同的協(xié)方差矩陣和權(quán)重向量,則模型間的KL距離可以近似為:
算法2:KL散度聚類算法
1)設(shè)定聚類數(shù)K,隨機(jī)指定K個(gè)說(shuō)話人GMM模型為K個(gè)聚類的中心模型:用于記錄當(dāng)前類別n中聚類的說(shuō)話人模型數(shù)目;
4)重復(fù)執(zhí)行步驟②和③,直到聚類中心模型不再變化為止。
在KL散度聚類中,距離的計(jì)算只考慮到了模型的均值向量,在此我們又采用巴氏距離[5]進(jìn)行模型的聚類,在距離的計(jì)算中不僅考慮均值向量,還考慮到協(xié)方差的影響。巴氏距離計(jì)算公式如下:
對(duì)(7)式取近似上限可得:
4)重復(fù)執(zhí)行步驟②和③,直到聚類中心模型不再變化為止。
算法4 支持向量機(jī)判決
支持向量機(jī)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則在兩類中尋找最優(yōu)分類邊界,在數(shù)據(jù)分類方面顯示了優(yōu)越的性能,因此本文使用支持向量機(jī)獲得最終識(shí)別結(jié)果。使用目標(biāo)說(shuō)話人和其他說(shuō)話人的特征向量進(jìn)行SVM的訓(xùn)練,得到?jīng)Q策分類函數(shù):
為了對(duì)提出的算法性能進(jìn)行測(cè)試,本文針對(duì)73個(gè)說(shuō)話人進(jìn)行文本無(wú)關(guān)確認(rèn)仿真實(shí)驗(yàn),實(shí)驗(yàn)中支持向量機(jī)采用RBF核函數(shù)。性能評(píng)估的標(biāo)準(zhǔn)為接受錯(cuò)誤和拒絕錯(cuò)誤的等差率(Equal Error Rate, EER) 和DET (Detection Error Tradeoff)曲線[6]。
實(shí)驗(yàn)數(shù)據(jù)采用自建語(yǔ)音庫(kù),其中男性36人,女性37人。語(yǔ)音信號(hào)的采用頻率為11025Hz、量化位數(shù)為16bit。每位話者錄制了7個(gè)語(yǔ)音段,每個(gè)語(yǔ)音段的長(zhǎng)度為30s,其中4個(gè)語(yǔ)音段用于訓(xùn)練,3個(gè)語(yǔ)音段用于測(cè)試。在語(yǔ)音的預(yù)處理階段,采用一階數(shù)字濾波器對(duì)語(yǔ)音信號(hào)預(yù)加重,漢明窗寬度為30ms,幀移15ms。對(duì)每幀數(shù)據(jù)提取13維的MFCC及它的一階差分構(gòu)成26維輸入特征向量。利用Cool Edit中的降噪器工具,清除各種背景雜音。
表1、表2分別為兩種聚類算法在不同聚類數(shù)目下EER、minDCF和識(shí)別時(shí)間(Recognition Time, RT)比較。
表1 KL散度聚類算法性能
表2 巴氏距離聚類算法性能
由表1和表2可知:
1) 系統(tǒng)在兩種聚類算法下,隨著聚類數(shù)目的增加,兩種算法的EER和minDCF呈降低趨勢(shì),表明算法性能越來(lái)越好,然而其識(shí)別時(shí)間反之變長(zhǎng)。這主要是因?yàn)轭悇e劃分越細(xì),訓(xùn)練語(yǔ)音數(shù)據(jù)也越多,使得系統(tǒng)的識(shí)別性能越好。但是由于大量的語(yǔ)音數(shù)據(jù),導(dǎo)致GMM和SVM的計(jì)算復(fù)雜度增加,進(jìn)而系統(tǒng)識(shí)別時(shí)間變長(zhǎng)。
2) KL散度聚類算法在K=70,K=50,K=35,K=20下的EER分別是7.23%、6.77%、5.49%和4.93%,minDCF分別是0.0695、0.0613、0.0482、0.0419,而在相同條件下,巴氏距離聚類算法的EER分別是6.83%、5.94%、5.26%和4.22%,minDCF分 別 是0.0617、0.0583、0.0434和0.0392。顯然巴氏距離聚類算法的性能優(yōu)于KL散度聚類算法,證明巴氏距離在計(jì)算中不僅考慮均值向量,還考慮到協(xié)方差的影響而KL散度的計(jì)算只考慮到了模型的均值向量。但是巴氏距離的計(jì)算復(fù)雜度高于KL散度,因此系統(tǒng)的識(shí)別時(shí)間較長(zhǎng)。
針對(duì)說(shuō)話人確認(rèn)識(shí)別率不高及實(shí)時(shí)性差的問(wèn)題,在深入研究傳統(tǒng)高斯混合模型以及K均值聚類算法的基礎(chǔ)上提出兩種基于說(shuō)話人GMM模型的說(shuō)話人聚類算法: KL散度聚類算法和巴氏距離聚類算法。借助于話者GMM模型的聚類,減少支持向量機(jī)訓(xùn)練階段的數(shù)據(jù)量,提高系統(tǒng)的識(shí)別速度和性能。仿真實(shí)驗(yàn)驗(yàn)證了這兩種聚類算法的有效性。
[1]Haiyan Yang,Xinxing Jing, Ping Zhou.Application of Speaker Recognition Based on LSSVM and GMM Mixture Model[J].Information Technology Journal;2012,11(7):799-803
[2]Lai Y.-X.,Lai C.-F.,Huang,Y.-M,Chao H.-C.Multi-appliance recognition system with hybrid SVM/GMM classifier in ubiquitous smart home[J]. Information Sciences;2013,230(1):39-55
[3]Fujimoto,M.,Riki,Y.A.Robust speech recognition in additive and channel noise environments using GMM and EM algorithm[C].Acoustics, Speech, and Signal Processing 2004:I-941-944
[4]Lei Zhen-chun.Combining the Likelihood and the Kullback-Leibler Distance in Estimating the Universal Background Model for Speaker Verification Using SVM[C].2010 20th International Conference on Pattern Recognition, ICPR2010,2010,pages:4553-4556
[5]Chang Huai You,Kong Aik Lee,Haizhou Li.GMM-SVM Kernel With a Bhattacharyya-Based Distance for Speaker Recognition [J].Audio, Speech,and Language Processing,2010;18(6):1300-1312
[6]劉祥樓,李輝,吳香艷,高丙坤. 基于SQLite技術(shù)的漢語(yǔ)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)的建立[J].科學(xué)技術(shù)與工程,2011;11(14):3326-3330