王朝松 韓紀(jì)慶 鄭鐵然
摘 要:關(guān)鍵詞檢測(cè)是從連續(xù)語(yǔ)音流中檢測(cè)預(yù)先定義的給定詞的技術(shù),是語(yǔ)音識(shí)別領(lǐng)域的一個(gè)重要應(yīng)用。目前的關(guān)鍵詞檢測(cè)研究中,主流的方法是基于連續(xù)語(yǔ)音識(shí)別器的先識(shí)別后檢測(cè)的兩階段方法,語(yǔ)音識(shí)別器的準(zhǔn)確率對(duì)關(guān)鍵詞檢測(cè)有很大影響。本文首先在識(shí)別階段引入深度學(xué)習(xí)技術(shù)來(lái)改善關(guān)鍵詞檢測(cè)算法的性能。進(jìn)而針對(duì)識(shí)別階段和檢測(cè)階段缺乏緊密聯(lián)系,耦合度不夠的問(wèn)題,研究了側(cè)重關(guān)鍵詞的深度神經(jīng)網(wǎng)絡(luò)聲學(xué)建模技術(shù),利用非均勻的最小分類錯(cuò)誤準(zhǔn)則來(lái)調(diào)整深度神經(jīng)網(wǎng)絡(luò)聲學(xué)建模中的參數(shù),并利用AdaBoost算法來(lái)動(dòng)態(tài)調(diào)整聲學(xué)建模中的關(guān)鍵詞權(quán)重。結(jié)果表明,利用非均勻最小分類錯(cuò)誤準(zhǔn)則來(lái)調(diào)整深度神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化的聲學(xué)模型,可以提高關(guān)鍵詞檢測(cè)的性能。
關(guān)鍵詞:深度學(xué)習(xí);關(guān)鍵詞檢測(cè);AdaBoost;最小分類錯(cuò)誤
中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào):2095-2163(2015)04-
Non-uniform MCE based Acoustic Model for Keyword Spotting based on Deep Neural Network
WANG Zhaosong, HAN Jiqing, ZHENG Tieran
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001,China)
Abstract: Spoken term detection (STD) is a task to automatically detect a set of keywords in continuous speech, which is an important field of speech recognition. Current study is based on two-stage approach i.e. recognition and detection. The accuracy of speech recognition has a significant impact on keyword detection. Firstly, this paper uses deep leaning techniques to improve performance during the first stage. As the two stages lack of close contact, the paper studies using non-uniform misclassification error (MCE) criteria to adjust the parameters in deep neural network based acoustic modeling. Further the paper uses the adaptive boosting (AdaBoost) strategy to adjust keywords weight dynamically. It shows that non-uniform MCE can improve the performance of STD.
Keyword: Deep Learning; Spoken Term Detection; AdaBoost; Minimum Classification Error
0 引 言
自2006年以來(lái),深度學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)的一個(gè)重點(diǎn)研究領(lǐng)域,而且現(xiàn)已在許多方面取得了卓越進(jìn)展。而在語(yǔ)音識(shí)別領(lǐng)域,基于深度學(xué)習(xí)的方法也隨即應(yīng)用而生,特別是在聲學(xué)建模上,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)已經(jīng)能夠替代高斯混合模型(Gaussian Mixture Model, GMM),并和隱馬爾科夫模型(Hidden Markov Model, HMM)結(jié)合而推出了DNN-HMM混合模型,在實(shí)際應(yīng)用中取得了很高的識(shí)別率[1]。當(dāng)前的關(guān)鍵詞檢測(cè)(Spoken term detection, STD)系統(tǒng)通常是利用大詞匯量連續(xù)語(yǔ)音識(shí)別器(large vocabulary continuous speech recognition, LVCSR)來(lái)對(duì)搜索語(yǔ)音解碼產(chǎn)生關(guān)鍵詞假設(shè),再通過(guò)將輸入語(yǔ)音轉(zhuǎn)換為文本形式;基于此,關(guān)鍵詞檢測(cè)系統(tǒng)就可以利用文本搜索的一些技術(shù),但其與文本搜索不同的則是關(guān)鍵詞檢測(cè)多會(huì)利用lattice來(lái)表示語(yǔ)音識(shí)別結(jié)果[2-3]。在語(yǔ)音識(shí)別中,常常都是采用不同的區(qū)分性訓(xùn)練準(zhǔn)則來(lái)減小語(yǔ)音識(shí)別的詞錯(cuò)誤率(Word Error Rate, WER),著名的區(qū)分性訓(xùn)練準(zhǔn)則主要有MCE(Minimum Classification Error)[4]、MMI(Maximum Mutual Information)[5]、MPE(Minimum Phone Error)[6]和MWE(Minimum Word Error)[6]。
在關(guān)鍵詞檢測(cè)任務(wù)中,關(guān)注的重點(diǎn)只是預(yù)定義的關(guān)鍵詞是否被檢測(cè)到。至于與目標(biāo)關(guān)鍵詞無(wú)關(guān)的詞,針對(duì)其所獲的檢測(cè)結(jié)果卻并不重要。Fu等人提出利用非均勻MCE準(zhǔn)則,并開展了運(yùn)用至語(yǔ)音識(shí)別中的嘗試[7-8]。Weng等人針對(duì)傳統(tǒng)GMM-HMM模型利用非均勻MCE準(zhǔn)則來(lái)推進(jìn)關(guān)鍵詞檢測(cè)的研究,也就是通過(guò)在聲學(xué)建模階段利用非均勻MCE準(zhǔn)則來(lái)進(jìn)行區(qū)分性訓(xùn)練,提高了關(guān)鍵詞檢測(cè)系統(tǒng)的性能[9]。研究表明,區(qū)分性訓(xùn)練可以改善DNN系統(tǒng)的性能[10]。Chen等人在非均勻準(zhǔn)則的基礎(chǔ)上,利用基于keyword-boosted sMBR(state-level minimum Bayes risk)準(zhǔn)則來(lái)訓(xùn)練關(guān)鍵詞檢測(cè)中的DNN-HMM模型,同時(shí)再通過(guò)在聲學(xué)模型訓(xùn)練階段對(duì)定義的關(guān)鍵詞進(jìn)行加重來(lái)提高模型對(duì)關(guān)鍵詞的建模能力,結(jié)果即取得了ATWV(Actual Term Weighted Value)1.7%-6.1%的提升[11]。
在此,立基于對(duì)傳統(tǒng)GMM-HMM模型之上,相較于非均勻sMBR準(zhǔn)則而言,非均勻MCE準(zhǔn)則能夠利用AdaBoost來(lái)調(diào)整關(guān)鍵詞權(quán)重系數(shù),而非均勻sMBR準(zhǔn)則的權(quán)重系數(shù)卻是固定的,因而非均勻MCE準(zhǔn)則要比非均勻sMBR準(zhǔn)則獲得更佳效果[12]。從這一結(jié)論出發(fā),本文即將文獻(xiàn)[9]中所提出的非均勻MCE準(zhǔn)則引入到關(guān)鍵詞檢測(cè)的DNN聲學(xué)建模階段,在DNN的參數(shù)調(diào)整過(guò)程中,通過(guò)對(duì)關(guān)鍵詞進(jìn)行一定程度的側(cè)重來(lái)提高DNN-HMM模型對(duì)關(guān)鍵詞的建模能力。
1 基于非均勻MCE準(zhǔn)則的關(guān)鍵詞DNN聲學(xué)模型訓(xùn)練
1.1 DNN-HMM聲學(xué)模型
DNN-HMM模型利用DNN替代GMM提供LVCSR中HMM狀態(tài)的后驗(yàn)概率。特別的, 表示語(yǔ)句r時(shí)刻t的觀測(cè)變量,DNN對(duì)HMM狀態(tài)s的輸出 可以通過(guò)softmax激活函數(shù)來(lái)計(jì)算:
(1)
其中, 表示狀態(tài)s對(duì)應(yīng)的輸出層的激活值,識(shí)別器通常利用偽對(duì)數(shù)似然來(lái)計(jì)算后驗(yàn)概率:
(2)
式中, 表示從訓(xùn)練數(shù)據(jù)中計(jì)算得到的狀態(tài)s的先驗(yàn)概率。
網(wǎng)絡(luò)訓(xùn)練可以通過(guò)利用反向傳播算法來(lái)優(yōu)化給定的目標(biāo)函數(shù)而獲得實(shí)現(xiàn)。更經(jīng)常地,DNN-HMM聲學(xué)模型主要利用交叉熵(cross-entropy)作為目標(biāo)函數(shù),優(yōu)化則主要利用隨機(jī)梯度下降方法來(lái)進(jìn)行處理和操作展開。
1.2 基于MCE準(zhǔn)則的區(qū)分性訓(xùn)練
區(qū)分性訓(xùn)練中,MCE訓(xùn)練準(zhǔn)則是常用的一種。該準(zhǔn)則以最小化經(jīng)驗(yàn)錯(cuò)誤率為目標(biāo)[4],在語(yǔ)音識(shí)別中,令Xr(r=1,…R)為訓(xùn)練集中的R個(gè)句子,Wr為句子Xr所對(duì)應(yīng)的標(biāo)注,W是特定的假設(shè)空間,對(duì)某個(gè)假設(shè)W的判別函數(shù)可以定義為:
(3)
其中, 和 分別表示聲學(xué)模型和語(yǔ)言模型得分, 表示聲學(xué)模型因子,誤分類度量通常采用:
(4)
誤分類度量的符號(hào)反映了給定聲學(xué)模型參數(shù),句子 的分類正確或者錯(cuò)誤程度。經(jīng)過(guò)對(duì)上式運(yùn)用sigmoid函數(shù)進(jìn)行平滑,目標(biāo)損失函數(shù)可以表示為:
(5)
其中, 表示sigmoid函數(shù),目標(biāo)函數(shù)表示針對(duì)訓(xùn)練集的經(jīng)驗(yàn)損失。
1.3 關(guān)鍵詞檢測(cè)的非均勻MCE準(zhǔn)則
非均勻準(zhǔn)則的區(qū)分性訓(xùn)練是基于某些識(shí)別單元可能比其他單元攜帶更多重要信息的假設(shè)[9],其目標(biāo)不是最小錯(cuò)誤率而是最小錯(cuò)誤損失,最小錯(cuò)誤率不區(qū)分不同的錯(cuò)誤。訓(xùn)練過(guò)程中的關(guān)鍵詞識(shí)別錯(cuò)誤比非關(guān)鍵詞識(shí)別錯(cuò)誤代價(jià)更大。
在DNN系統(tǒng)中,對(duì)某一幀t,定義幀級(jí)判別函數(shù)為:
(6)
其中,i是狀態(tài)編號(hào), 是給定Xr和假設(shè)標(biāo)簽W的后驗(yàn)概率,研究中只關(guān)注關(guān)鍵詞是否在標(biāo)簽或假設(shè)中出現(xiàn),定義錯(cuò)誤損失函數(shù) 為語(yǔ)句r在時(shí)刻t的損失,關(guān)鍵詞檢測(cè)的非均勻MCE準(zhǔn)則的目標(biāo)函數(shù)為:
(7)
為了對(duì)公式(7)進(jìn)行優(yōu)化,同時(shí)與普通的MCE準(zhǔn)則進(jìn)行對(duì)比,并推導(dǎo)出非均勻MCE與普通MCE準(zhǔn)則優(yōu)化的不同,進(jìn)而采取有效的方法來(lái)優(yōu)化非均勻MCE準(zhǔn)則的目標(biāo)函數(shù),即對(duì)公式(7)進(jìn)行求導(dǎo):
(8)
其中, 分別表示標(biāo)注和假設(shè)的幀后驗(yàn)概率,將非均勻MCE準(zhǔn)則的導(dǎo)數(shù)與原來(lái)的MCE準(zhǔn)則進(jìn)行對(duì)比,實(shí)際使用中,為了便于計(jì)算,通常令 并忽略 ,具體公式為:
(9)
可以看到,非均勻MCE與普通的MCE方法的一個(gè)區(qū)別是 ,普通MCE對(duì)單個(gè)句子是不變的。另一個(gè)區(qū)別是非均勻的錯(cuò)誤損失函數(shù) ,錯(cuò)誤損失函數(shù)是加在每一幀上的,為了便于計(jì)算非均勻MCE目標(biāo)函數(shù)并有效優(yōu)化參數(shù),在此采用了普通MCE的固定值而不是變化值,目標(biāo)函數(shù)近似為:
(10)
錯(cuò)誤損失函數(shù)定義為:
(11)
其含義是,如果當(dāng)前訓(xùn)練實(shí)例的標(biāo)注是關(guān)鍵詞,錯(cuò)誤損失定義為K1;若對(duì)當(dāng)前訓(xùn)練實(shí)例,關(guān)鍵詞出現(xiàn)在假設(shè)中錯(cuò)誤損失定義為K2;當(dāng)關(guān)鍵詞既未出現(xiàn)在標(biāo)注又未出現(xiàn)在假設(shè)空間時(shí),錯(cuò)誤損失定義為1。K1、K2應(yīng)該都大于1,這樣在模型訓(xùn)練階段才可以對(duì)關(guān)鍵詞進(jìn)行側(cè)重。
公式(11)中的錯(cuò)誤損失函數(shù)在不同的迭代中對(duì)同一幀賦予相同的錯(cuò)誤損失,當(dāng)使用較大的錯(cuò)誤損失時(shí)可能會(huì)導(dǎo)致過(guò)訓(xùn)練。與普通的MCE相比,非均勻的MCE相當(dāng)于對(duì)每一幀根據(jù) 進(jìn)行了重采樣,因此,可以考慮采用基于boosting的方法。AdaBoost方法在每次迭代時(shí)均會(huì)根據(jù)錯(cuò)誤率調(diào)整錯(cuò)誤損失[13],因此可以將AdaBoost方法運(yùn)用到非均勻MCE準(zhǔn)則中。訓(xùn)練啟動(dòng)時(shí)會(huì)使用較大的K1和K2來(lái)初始化錯(cuò)誤損失函數(shù),這些值會(huì)根據(jù)識(shí)別器的性能進(jìn)行調(diào)整[9]。具體算法總結(jié)如算法1所示。
2 實(shí)驗(yàn)結(jié)果與分析
本文設(shè)計(jì)了一系列的實(shí)驗(yàn)來(lái)研究前述的非均勻MCE準(zhǔn)則的DNN聲學(xué)模型區(qū)分性訓(xùn)練,主要研究不同的K1、K2值對(duì)關(guān)鍵詞檢測(cè)系統(tǒng)性能的影響。
本實(shí)驗(yàn)所使用的語(yǔ)料庫(kù)來(lái)自于國(guó)家863朗讀語(yǔ)料庫(kù),其中約100個(gè)小時(shí)的數(shù)據(jù)用來(lái)訓(xùn)練DNN-HMM模型的識(shí)別器,約10個(gè)小時(shí)的數(shù)據(jù)用作關(guān)鍵詞檢測(cè)的搜索集。實(shí)驗(yàn)的基線系統(tǒng)由開源的語(yǔ)音識(shí)別工具Kaldi建立[14],關(guān)鍵詞檢測(cè)系統(tǒng)的評(píng)測(cè)利用NIST OpenKWS15提供,關(guān)鍵詞檢測(cè)系統(tǒng)的評(píng)價(jià)主要通過(guò)ATWV來(lái)計(jì)算[15-16],其數(shù)學(xué)描述如下:
(12)
其中,K是關(guān)鍵詞數(shù)目,Nmiss(kw)是漏檢的關(guān)鍵詞數(shù),NFA(kw)是檢測(cè)到的虛警數(shù),T是測(cè)試集的時(shí)間長(zhǎng)度(以秒計(jì)),β是為999.9的常數(shù)。
本文進(jìn)行了非均勻MCE準(zhǔn)則的訓(xùn)練,迭代次數(shù)為4,不同的K1、K2和 下系統(tǒng)ATWV值如表1所示。分析可知,較大的K1和K2可以取得較高的性能,但衰減因子 會(huì)導(dǎo)致波動(dòng)。
表1 基于非均勻MCE準(zhǔn)則關(guān)鍵詞檢測(cè)實(shí)驗(yàn)結(jié)果
Tab.1 Results of non-uniform criteria based STD
方案 K1 K2
ATWV
基線(MLE) - - - 0.615 3
AdaBoost非均勻MCE準(zhǔn)則 5 5 0.3 0.726 5
5 5 0.5 0.723 7
5 5 0.7 0.721 3
7 7 0.3 0.727 6
7 7 0.5 0.726 8
7 7 0.7 0.727 3
3 結(jié)束語(yǔ)
本文在DNN聲學(xué)模型的參數(shù)訓(xùn)練階段,通過(guò)利用非均勻的MCE準(zhǔn)則對(duì)關(guān)鍵詞進(jìn)行側(cè)重,由此提高了DNN-HMM模型對(duì)關(guān)鍵詞的建模能力。采用AdaBoost算法,可以解決過(guò)訓(xùn)練的問(wèn)題。研究結(jié)果表明,非均勻MCE方法相比基線系統(tǒng)可以提高關(guān)鍵詞檢測(cè)的性能。本文用不同的組合(K1,K2, β)來(lái)進(jìn)行實(shí)驗(yàn),并測(cè)試不同配置下的性能。錯(cuò)誤損失函數(shù)中K1、K2的取值越大,系統(tǒng)性能越好,而β取較大值時(shí),系統(tǒng)會(huì)出現(xiàn)波動(dòng)。此外,較小的β值則具有較好的效果。接下來(lái)的工作可以研究衰減系數(shù)β對(duì)關(guān)鍵詞檢測(cè)系統(tǒng)的作用,并且可以嘗試使β進(jìn)行自適應(yīng)調(diào)整而不再是使用固定值。
參考文獻(xiàn):
[1] HINTON G, DENG L, YU D, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. Signal Processing Magazine IEEE, 2012, 29(6):82 - 97.
[2] MILLER D, KLEBER M, KAO C, et al. Rapid and accurate spoken term detection[J]. Proc. Interspeech, 2007, 3:1965 - 1968.
[3] National Institute of Standards and Technology (NIST). The spoken term detection (STD) 2006 evaluation plan [J]. http://www.nist.gov/speech/tests/std,2006. 10 edition
[4] JUANG B, HOU W, LEE C. Minimum classification error rate methods for speech recognition[J]. IEEE Trans on Speech & Audio Proc, 1997, 5(3):257 - 265.
[5] BAHL L, BROWN P F, De SOUZA P V, et al. Maximum mutual information estimation of hidden Markov model parameters for speech recognition[J]. Acoustics Speech & Signal Processing IEEE International Conference on Icassp, 1986, 11:49 - 52.
[6] DANIEL P. Discriminative training for large vocabulary speech recognition [D]. Cambridge:University of Cambridge, 2003.
[7] FU Q, MANSJUR D S, JUANG B H. Non-Uniform error criteria for automatic pattern and speech recognition[C]// Acoustics, Speech and Signal Processing, 2008. ICASSP 2008, IEEE International Conference on. Las Vegas: IEEE, 2008:1853 - 1856.
[8] FU Q, MANSJUR D S, JUANG B. Empirical System Learning for Statistical Pattern Recognition With Non-Uniform Error Criteria[J]. Signal Processing IEEE Transactions on, 2010, 58(9):4621 - 4633.
[9] WENG C, JUANG B, WENG C, et al. Adaptive boosted non-uniform mce for keyword spotting on spontaneous speech[C] //IEEE International Conference on Acoustics, Speech & Signal Processing, Vancouver:IEEE, 2013:6960 - 6964.
[10] GHOSHAL A, POVEY D. Sequence discriminative training of deep neural networks[J]. ProcInterspeech, 2013, (8):2345 - 2349.
[11] CHEN I, CHEN N, LEE C. A keyword-boosted sMBR Criterion to enhance keyword search performance in deep neural network based acoustic modeling[J]. Interspeech,2014, (9):2779-2783.
[12] WENG C, JUANG B H F. Discriminative training using non-uniform criteria for keyword spotting on spontaneous speech[J]. Audio Speech & Language Processing IEEE/ACM Transactions on, 2015, 23(2):300 - 312.
[13] FREUND Y, SCHAPIRE R E. Experiments with a New Boosting Algorithm[J]. Proceedings of the Thirteenth International Conference on Machine Learning, 1996, 96:148 - 156.
[14] POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit[C]// Automatic Speech Recognition and Understanding(ASRU), IEEE Workshop on. Hawaii: IEEE, 2011:174 – 178.
[15] NIST Open Keyword Search 2015 Evaluation (OpenKWS15)[EB/OL].http://www.nist.gov/itl/iad/mig/openkws15.cfm.
[16] WEGMANN S, FARIA A, JANIN A, et al. The TAO of ATWV: Probing the mysteries of keyword search performance[C]// Automatic Speech Recognition and Understanding (ASRU), IEEE Workshop on. Olomouc:IEEE, 2013:192 – 197.