馬 平,黃 浩,程露紅,楊萌萌
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
基于i?vector說話人識(shí)別算法中訓(xùn)練時(shí)長研究
馬平,黃浩,程露紅,楊萌萌
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046)
為了進(jìn)一步提升i?vector說話人識(shí)別模型的系統(tǒng)性能,探討了基于i?vector的說話人識(shí)別系統(tǒng)中訓(xùn)練時(shí)長、男女比例和高斯混合度對(duì)系統(tǒng)識(shí)別性能的影響。針對(duì)訓(xùn)練時(shí)長、男女比例和高斯混合度設(shè)置了一組實(shí)驗(yàn),結(jié)合目前最流行的語音識(shí)別工具Kaldi進(jìn)行驗(yàn)證,得出i?vector說話人識(shí)別算法的最佳參數(shù),為以后的基于i?vector說話人識(shí)別算法研究提供數(shù)據(jù)依據(jù)。
說話人識(shí)別;i?vector;Kaldi;訓(xùn)練時(shí)長
說話人識(shí)別是指計(jì)算機(jī)通過對(duì)說話人語音信號(hào)進(jìn)行分析處理,進(jìn)而提取能反映特定說話人生理和行為的語音特征參數(shù)來自動(dòng)識(shí)別說話人身份的技術(shù)。該技術(shù)已廣泛應(yīng)用于國家安全、司法鑒定、電話銀行、語音撥號(hào)等諸多領(lǐng)域。說話人識(shí)別根據(jù)識(shí)別目標(biāo)的不同,可分為說話人辨別和說話人確認(rèn)兩類,本文主要研究基于i?vector說話人辨認(rèn)模型來分析和測試語料時(shí)長、男女比例和高斯混合度之間的關(guān)系。
當(dāng)前由NIST組織的比較流行的國際說話人評(píng)測系統(tǒng),主要是建立在以混合高斯模型?通用背景模型(Gaussian Mixture Model?Universal Background Model,GMM?UBM)[1]的基礎(chǔ)上。隨后學(xué)者們?cè)诖嘶A(chǔ)上進(jìn)行了改進(jìn),從而得出高斯混合模型超矢量?支持向量機(jī)(Gaussian Mixture Model Super?support Vector Machine, GSV?SVM)[2]、聯(lián)合因子分析(Joint Factor Analysis,JFA)[3]及i?vector(identity vector)[4]等說話人建模技術(shù),其中i?vector識(shí)別系統(tǒng)已成為當(dāng)今最前沿最有效的說話人識(shí)別技術(shù),其性能明顯優(yōu)于GSV?SVM和JFA這兩種識(shí)別系統(tǒng)。通過總結(jié)以往的研究成果發(fā)現(xiàn)在訓(xùn)練和提取i?vec?tor時(shí),對(duì)語料的時(shí)長、高斯混合度及男女比例不是太關(guān)注。但在實(shí)際的實(shí)驗(yàn)中,提取i?vector特征的語料參數(shù)也非常重要,需要經(jīng)過多次測試比較,找到訓(xùn)練時(shí)長、混合度、男女比例和系統(tǒng)性能之間的關(guān)系,從而減少訓(xùn)練時(shí)間和工作量,為以后的研究提供一個(gè)基本的數(shù)據(jù)依據(jù)。
1.1i?vector基本原理
基于身份認(rèn)證矢量i?vector說話人辨別系統(tǒng)的基本思想是假設(shè)說話人信息以及信道信息同時(shí)處于高斯混合模型高維均值超矢量(Super Vector,SV)空間中,通過利用在這個(gè)超矢量空間中訓(xùn)練包括說話人信息和信道差異的全差異(Total Variability,TV)空間,將每個(gè)說話人語音數(shù)據(jù)的均值超矢量S分解為:
式中:S代表高斯混合模型的高維均值超矢量;m代表與特定說話人信息和信道信息無關(guān)的一個(gè)超矢量;T為全差異空間,將高維的高斯混合模型均值超矢量在該子空間上進(jìn)行投影,得到低維的總體變化因子矢量ω,ω是包含整段語音中的說話人信息和信道信息的一個(gè)全差異因子,即i?vector。其實(shí)現(xiàn)框圖如圖1所示。
圖1 基于i?vector的說話人識(shí)別系統(tǒng)框圖
基于GMM?UBM的說話人系統(tǒng)的通用背景模型(UBM)是由大量說話人的語料通過期望最大化(EM)[5]訓(xùn)練得到的,其代表著統(tǒng)計(jì)平均的說話人信息和信道信息,在此基礎(chǔ)上,將注冊(cè)語料通過最大后驗(yàn)概率算法(MAP)[6]自適應(yīng)得到目標(biāo)說話人模型。
1.2i?vector特征提取
對(duì)于給定的訓(xùn)練語音數(shù)據(jù)s,首先根據(jù)訓(xùn)練所得的UBM提取Baum?Welch統(tǒng)計(jì)量:
式中:Ns[c]和 fs[c]為語音s特征參數(shù)(維度為D)對(duì)于混合度為C的UBM的零階和一階統(tǒng)計(jì)量;γc(ot)為觀察矢量ot對(duì)于給定UBM的第c個(gè)混合度的后驗(yàn)概率的輸出;語音s所有混合度的一階統(tǒng)計(jì)量fs=(fs(1),fs(2),…,fs(c))。為了便于計(jì)算,先對(duì)一階統(tǒng)計(jì)量和均值進(jìn)行歸一化[7]:
然后再對(duì)一階統(tǒng)計(jì)量和全差異空間T用UBM的協(xié)方差進(jìn)行規(guī)整,假設(shè)UBM的協(xié)方差矩陣Σ[c]為對(duì)角正定矩陣,如下:
式中:Ls是一個(gè)M×M的矩陣;ωs為語音s的i?vector特征。在已知全差異空間T的前提下,就可以求出任何語音的i?vector特征,所以準(zhǔn)確估計(jì)全差異空間T是求i?vector的關(guān)鍵。
1.3全差異空間T的構(gòu)建
全差異空間T包含了說話人信息和信道信息兩者在空間上的統(tǒng)計(jì)分布,可以通過大量的語音利用EM算法訓(xùn)練得到。首先初始化T,對(duì)s條訓(xùn)練語音數(shù)據(jù)計(jì)算以下變量:
式中:fs[c],Ns[c],ωs是由式(2)、式(3)、式(9)得到的。T的更新過程可以利用式(13)實(shí)現(xiàn):
1.4余弦距離打分及系統(tǒng)性能評(píng)價(jià)
余弦距離打分實(shí)際上是一種對(duì)稱式的核函數(shù)分類器,也就是說目標(biāo)矢量與測試矢量交換后不影響打分結(jié)果。通過計(jì)算目標(biāo)說話人i?vector矢量ωtar和測試i?vec?tor矢量ωtst的余弦距離分?jǐn)?shù)作為判決分?jǐn)?shù),再與閾值θ進(jìn)行比較,從而得到結(jié)果,如式(14)所示:
說話人識(shí)別系統(tǒng)中經(jīng)常采用識(shí)別率對(duì)系統(tǒng)性能進(jìn)行評(píng)價(jià),其計(jì)算公式如下:
本文在Linux操作系統(tǒng)服務(wù)器版Ubuntu 12.04.4下以Kaldi語音識(shí)別工具[9]為平臺(tái)進(jìn)行仿真。Kaldi作為當(dāng)前最新也是最流行的語音識(shí)別工具,它是由劍橋大學(xué)開發(fā)的一個(gè)開源工具包,由C++編寫而成且被Apache Li?cense v2.0進(jìn)行授權(quán)許可。仿真實(shí)驗(yàn)采用微軟的語音庫MSRA。該語音庫包括了100個(gè)男性和100個(gè)女性說話人發(fā)聲的干凈單聲道語音,每人分別為150句,每條語音的長度大約在8~10 s,其數(shù)據(jù)采樣率為16 b/16 kHz。實(shí)驗(yàn)中選男女各80人作為訓(xùn)練集,其余的男女各20人作為測試集。
本實(shí)驗(yàn)的目的在于探討不同時(shí)長及混合度與i?vector識(shí)別系統(tǒng)性能之間的關(guān)系,因此在實(shí)驗(yàn)中不考慮信道因素、噪聲因素對(duì)說話人識(shí)別系統(tǒng)的影響。在進(jìn)行語音特征提取時(shí),選用預(yù)加重的系數(shù)是0.95,采用Hamming窗,幀移為10 ms,幀長為30 ms,并選用由Mermelstein和Davis提出的Mel倒譜系數(shù)(Mel Frequency Cepstrum Co?efficient,MFCC)特征,MFCC特征維數(shù)為12,外加其一維能量以及一、二階差分和能量,所以MFCC的總維數(shù)為42。在進(jìn)行i?vector訓(xùn)練時(shí),通過選擇訓(xùn)練語句的條數(shù)來設(shè)定時(shí)長,訓(xùn)練語句平均取自男女各80個(gè)說話人中,訓(xùn)練時(shí)長分別設(shè)定為1 600條,4 800條,8 000條,11 200條,14 400條,17 600條,20 800條,24 000條。為了更精確地討論高斯混合度和訓(xùn)練時(shí)長對(duì)i?vector的影響,將高斯混合度數(shù)分別設(shè)定為64,128,256,512,1 024,2 048。在此基礎(chǔ)上,實(shí)驗(yàn)還設(shè)定了一組不同男女比例混合度對(duì)i?vector識(shí)別系統(tǒng)的影響,分別為女性說話人占總數(shù)的0%,20%,40%,60%,80%,100%。
根據(jù)訓(xùn)練語句的多少,依次由少到多記為1~8,在測試階段,用男女各20個(gè)說話人的150條語句作為測試集進(jìn)行驗(yàn)證,通過式(15)計(jì)算出不同時(shí)長和高斯混合度的識(shí)別率,實(shí)驗(yàn)結(jié)果如表1所示。
表1實(shí)驗(yàn)結(jié)果 %
從表1可以看出:在訓(xùn)練語句較多的情況下,隨著高斯混合度的增加,i?vector的識(shí)別率也有明顯的提高,說明混合度越高識(shí)別率就越高;但是隨著混合度的增加,訓(xùn)練i?vector時(shí)間就會(huì)越多,呈指數(shù)增長,而且對(duì)硬件環(huán)境要求也比較高,所以在硬件條件一般的情況下,綜合性價(jià)比來說,高斯混合度在512維是性價(jià)比最優(yōu)。在相同混合度條件下,隨著訓(xùn)練語音數(shù)據(jù)的增加,系統(tǒng)的識(shí)別性能也隨之提高,但是當(dāng)語音條數(shù)增加到一定程度時(shí)識(shí)別率不再提高,為了節(jié)省空間,提高運(yùn)算效率,語音數(shù)在14 400的時(shí)候效果最佳。
從表1知,當(dāng)混合度在512維,訓(xùn)練語句在14 000左右時(shí)效果最好,因此固定時(shí)長和高斯混合度的維數(shù),通過調(diào)節(jié)男女混合比例來進(jìn)行測試,其結(jié)果見表2。
在訓(xùn)練時(shí)長和高斯混合度一定的情況下,男女混合的比例對(duì)i?vector說話人識(shí)別系統(tǒng)的性能也有較大的影響;從實(shí)驗(yàn)的結(jié)果可以看出,當(dāng)女生的比例占所有總數(shù)的60%時(shí),識(shí)別效果最優(yōu)。因此在今后的i?vector說話人識(shí)別系統(tǒng)中,要充分考慮語音數(shù)據(jù)的男女比例。
表2測試結(jié)果 %
本文旨在通過設(shè)置不同的訓(xùn)練語音時(shí)長和高斯混合度的維數(shù)及男女比例,在基于i?vector的說話人識(shí)別系統(tǒng)上探討了三者對(duì)i?vector的影響,通過實(shí)驗(yàn)發(fā)現(xiàn),高斯混合度和語音時(shí)長之間存在著對(duì)應(yīng)關(guān)系,為今后說話人識(shí)別研究提供了一個(gè)基本的數(shù)據(jù)依據(jù)。本實(shí)驗(yàn)只是探討了單一信道的語音,沒有考慮信道和噪聲對(duì)系統(tǒng)的影響,在今后的說話人識(shí)別測試中,可以考慮以上兩個(gè)因素對(duì)系統(tǒng)性能的影響,討論在這兩種情況下,高斯混合度和語音時(shí)長及男女混合比例之間的關(guān)系。
注:本文通訊作者為黃浩。
[1]REYNOLDS D A,QUATIERI T F,DUNN R.Speaker verifica?tion using adapted gaussian mixture model[J].Digital signal processing,2000,10(1/2/3):19?41.
[2]CAMPBELL W M,STURIM D E,REYNOLDS D A.Support vector machines using GMM supervectors for speaker verifica?tion[J].IEEE signal processing letters,2006,13(5):308?311.
[3]KENNY P,OUELLET P,DEHAK N,et al.A study of inter?speaker variability in speaker verification[J].IEEE transac?tions on audio,speech and language processing,2008,16 (5):980?988.
[4]DEHAK N,KENNY P,OUELLET P,et al.Front?end factor analysis for speaker verification[J].IEEE Transactions on au?dio,speech and language processing,2011,19(4):788?798.
[5]GHAHRAMANI Z,HINTON G.The EM algorithm for mix?tures of factor analyzers:CRG?TR?96?1[R].Toronto:Depart?ment of Computer Science,University of Toronto,1966.
[6]GAUVAINJL,LEE C H.Maximum a posterior estimation formultivariateGaussianmixtureobservationsofMarkov chains[J].IEEE transactions on speech and audio processing,1994,2(2):291?298.
[7]GLEMBEKO,BURGET L,MAěJKAP,et al.Simplifica?tion and optimization of I?vector extraction[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Prague:IEEE,2011:4516?4519.
[8]SEEGER Matthias.Low rank updates for the cholesky decompo?sition[EB/OL].[2010?12?04].http://upseeger.epfl.ch/papers/ cholupdate.pdf.
[9]POVEY D,GHOSHAL A,BOULIANNE G,et al.The Kaldi speech recognition toolkit[EB/OL].[2013?02?03].http://blog. csdn.net/jiangyangbo/article/.
[10]方昕,李輝,劉青松.利用i?vectors構(gòu)建區(qū)分性話者模型的話者確認(rèn)[J].小型微型計(jì)算機(jī)系統(tǒng),2014(3):685?688.
[11]栗志意,張衛(wèi)強(qiáng),何亮,等.基于總體變化子空間自適應(yīng)的i?vector說話人識(shí)別系統(tǒng)研究[J].自動(dòng)化學(xué)報(bào),2014(8):1836?1840.
Research on training duration of speaker recognition algorithm based on i?vector
MA Ping,HUANG Hao,CHENG Luhong,YANG Mengmeng
(School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China)
In order to further enhance the system performance of speaker recognition model based on i?vector,the effect of the training time,the sex ratio and Gaussian mixture in the speaker recognition system based on i?vector on the performance of system identification is discussed in this paper.In this article,a set of experiments is set in allusion to the training time,the sex ratio and Gaussian mixture,and is verified in combination with the most popular voice recognition tool Kaldi.The best pa?rameters of the speaker recognition algorithm based on i?vector were obtained,which provided a data basis for later research on the speaker recognition algorithm based on i?vector.
speaker recognition;i?vector;Kaldi;training duration
10.16652/j.issn.1004?373x.2016.14.001
TN911?34;TP391
A
1004?373X(2016)14?0001?03
2015?11?24
國家自然科學(xué)基金(61365005;60965002)
馬平(1987—),男,碩士研究生。主要研究方向?yàn)檎f話人識(shí)別、多媒體交互技術(shù)。
黃浩(1976—),男,新疆烏魯木齊人,副教授,博士。主要研究方向?yàn)檎Z音語言處理技術(shù)。