李澤萌 李娜 蔣春燕
摘 ? 要:本文描述了這一種新的說話者轉(zhuǎn)換矩陣用基矩陣表示的說話者自適應(yīng)的方法,利用最大似然線性回歸轉(zhuǎn)換矩陣(MLLR)的廣義低階近似(GLRAM)構(gòu)建了基矩陣,用公式表示了在最大限度的后驗(yàn)(MAP)結(jié)構(gòu)下說話者的自適應(yīng)。
關(guān)鍵詞:GLRAM ?MAP ?MLLR
中圖分類號:G64 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2019)02(a)-0154-02
1 ?引言
3 ?實(shí)驗(yàn)
實(shí)驗(yàn)中使用華爾街日報語料庫WSJ0,在訓(xùn)練中使用了101個說話者的12,574種表達(dá)方式。作為特征向量,實(shí)驗(yàn)中使用了39維向量組成了13維的MFCC,以及它們的導(dǎo)數(shù)系數(shù)和加速系數(shù)。同時使用了20ms的漢明窗并以10ms滑動去提取特征向量。通過建立SI模型,使用MLLR得到了每個測試者的回歸矩陣。這101個矩陣通過GLRAM被分解,這些分解矩陣用來建立基矩陣。在自適應(yīng)和識別的測試中,使用了NOV92 ?5K非語言表態(tài)的自適應(yīng)測試集合。在監(jiān)督模式下,測試的8名說話者提取1~5個句子用于自適應(yīng)測試,330個句子用于識別測試。在識別測試中,使用了WSJ 5K非語言表態(tài)的5K封閉詞匯集和WSJ標(biāo)準(zhǔn)5K非語言表態(tài)的閉合雙子字母組。以這個為基準(zhǔn),SI模型給出了91.45%的單詞識別準(zhǔn)確率。圖1給出了實(shí)驗(yàn)結(jié)果。
4 ?結(jié)語
本文給出了說話者在SI模型下一名新說話者的轉(zhuǎn)換矩陣的自適應(yīng)系統(tǒng),同時使用在來自于訓(xùn)練回歸矩陣的GLRAM的基矩陣,用公式表示了在MAP框架下的自適應(yīng)性,同ML配對比較,效果得到了改善。
參考文獻(xiàn)
[1] C. J. Leggeter ,P. C. Woodland.Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov model,”[J].Comput Speech Lang, 1995,2(9):171-185.
[2] Y. Jeong ,H. S. Kim.“Speaker adaptation in transform space using generalized low rank approximations of matrices (GLRAM),”[J].in Proc. Spring Conf. KSSS,2012:27-28.
[3] J .Ye.“Generalized low rank approximations of matrices,”[J].Mach. Learn,2005,61(1-3):167-191.