許蘇魁,戴禮榮,魏思,劉慶峰,,高前勇
(1. 中國科學技術大學 語音及語言信息處理國家工程實驗室,安徽 合肥230027;2. 科大訊飛信息股份有限公司,安徽 合肥230088)
自由表述口語語音評測后驗概率估計改進方法
許蘇魁1,戴禮榮1,魏思2,劉慶峰1,2,高前勇2
(1. 中國科學技術大學 語音及語言信息處理國家工程實驗室,安徽 合肥230027;2. 科大訊飛信息股份有限公司,安徽 合肥230088)
該文研究了兩種用于改善深度神經(jīng)網(wǎng)絡聲學建模框架下自由表述口語語音評測任務后驗概率估計的方法: 1)使用RNN語言模型對一遍解碼N-best候選做語言模型得分重估計來獲得更準確的識別結果以重新估計后驗概率;2)借鑒多語種神經(jīng)網(wǎng)絡訓練框架,提出將方言數(shù)據(jù)聚類狀態(tài)加入解碼神經(jīng)網(wǎng)絡輸出節(jié)點,在后驗概率估計中引入方言似然度得分以評估方言程度的新方法。實驗表明,這兩種方法估計出的后驗概率與人工分相關度分別絕對提升了3.5%和1.0%,兩種方法融合后相關度絕對提升4.9%;對于一個真實的評測任務,結合該文改進的后驗概率評分特征,總體評分相關度絕對提升2.2%。
自由表述口語;語音評測;后驗概率;深度神經(jīng)網(wǎng)絡;RNN語言模型
傳統(tǒng)的口語評測情境主要是朗讀給定的參考文本,在此背景下,參考文本相對于發(fā)音矢量的后驗概率是公認的最能反映發(fā)音質量好壞的測度[1-3]。在前端搭建好識別器后,以參考文本對應的HMM序列為標注對測試語音進行強制對齊(Force Alignment),再通過簡化的GOP(Goodness of Pronunciation)算法[4]估計給定HMM序列相對于競爭序列的幀規(guī)整對數(shù)后驗概率。大量實驗表明,該后驗概率與人工打分具有很高的相關度[5]。
然而,在自由表述的情境下,測試者往往是圍繞某一給定主題進行一段限制時長的表述,這時是沒有參考文本的。一種直觀的做法是以識別器識別的最優(yōu)結果為參考文本,估計識別結果相對于發(fā)音矢量的后驗概率以進行發(fā)音好壞的評估;這種情境下的后驗概率也是有一定效果的[6],但它對于識別結果的依賴性非常高,因為錯誤識別結果的后驗概率是很難反映發(fā)音好壞性質的,尤其是發(fā)音較好,但卻由于引入了語言模型而導致識別錯誤的情況。因此,提高識別系統(tǒng)的識別率,尤其是糾正因為語言模型導致的識別錯誤,對自由表述情境下后驗概率的估計就顯得非常重要。
目前,大多數(shù)針對大詞匯量連續(xù)語流識別任務(Large Vocabulary Continuous Speech Recognition, LVCSR)設計的識別器使用的語言模型都是基于統(tǒng)計的n-gram模型[7],其中n一般為3~4,而且需要采用一些Backoff的平滑操作[8]來緩解語言模型詞條在訓練集中的稀疏問題。但這樣的語言模型看到的歷史過于短暫,一個詞的語言模型得分僅由其前面2~3個詞決定,再遠的歷史對該詞的得分是沒有影響的,這顯然會大大降低語言模型得分的可靠性。
最近,Mikolov提出了一種新的基于循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network, RNN)的語言模型[9],與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(forward neural network)不同的是,這種網(wǎng)絡結構將當前時刻隱含層的輸出反饋至下一時刻,和下一時刻描述單詞信息的輸入一起拼成新的輸入再進行網(wǎng)絡前向傳播。這里認為每一時刻隱含層的輸出都一定程度上保留了該句話的歷史信息,從而在語言模型訓練過程中引入了更長的句子歷史信息。但由于解碼效率問題,該語言模型不適合直接應用在解碼器的一遍解碼中。我們嘗試利用RNN語言模型對使用n-gram語言模型一遍解碼出的N-best候選結果[10]進行得分的重估計(rescoring),以rescoring后的第一得分句子作為新的識別結果。文獻[9]主要關注混淆度(perplexity)和識別率兩個指標,本論文的關注點則是在識別率提升的基礎上,希望能更準確的估計后驗概率以衡量發(fā)音的好壞。實驗表明,rescoring后句子識別率相對于一遍解碼的1-best有了顯著提高,依此估計出的新的后驗概率也更適合作為發(fā)音質量好壞的度量。
對于第一語言學習者(L1 learner)的口語評測任務——如中國人說普通話,真正出現(xiàn)類似英文表述時發(fā)音錯誤的情形并不多,更多的是方言口音導致的發(fā)音質量下降;尤其在自由表述情境下,即興表述導致難以提前準備,加上考試氛圍使測試者感到緊張,日常表述中的方言口音現(xiàn)象可能會更加顯著。而傳統(tǒng)的后驗概率策略,其聲學模型一般是使用發(fā)音較好的語料訓練,即所謂Golden模型[1],這樣的模型是不能精確反映發(fā)音的方言程度的。為此,我們專門收集了一批真實的方言數(shù)據(jù),借鑒多語種(multi-lingual)深度神經(jīng)網(wǎng)絡(Deep Neural NetWork, DNN)訓練的思想[11],提出將方言數(shù)據(jù)經(jīng)過HTK[10]標準聲學模型訓練流程聚類后的Tri-phone狀態(tài)加在解碼所需的DNN[12]的輸出層,并且用方言數(shù)據(jù)僅更新方言狀態(tài)節(jié)點和最后一個隱含層的權重以確保主網(wǎng)絡的解碼性能不受影響;通過引入方言數(shù)據(jù)似然度得分來衡量發(fā)音的方言程度。具體的,當估計后驗概率時,如果發(fā)現(xiàn)某個音素對應的方言節(jié)點似然度得分大于主網(wǎng)絡輸出節(jié)點似然度得分,則認為該音素方言程度可能較嚴重,則將該方言似然度得分加入后驗概率估計公式的分母以評估方言口音程度。
在自由表述情境下,我們以識別器一遍解碼的結果作為參考文本。對于一遍解碼出的音素t,假設其對應的聲學觀測矢量為O=[o1,o2,…,oN],則t對應的幀規(guī)整對數(shù)后驗概率pp(t|O)估計公式為式(1)。
這里假設所有音素出現(xiàn)的先驗概率p(q)相等[1]。一般后驗概率分母空間Qt可以選擇所有發(fā)音音素空間,但研究表明如果以音素t易誤發(fā)音成的音素來構成集合Qt,放在分母進行計算,則會更加有針對性[13]。
假設對于音素t,Viterbi解碼出的最優(yōu)路徑為Θ={s1,s2,…,sN},則lnp(O|t)可近似累和為式(2)。
(2)
這里忽略了HMM的轉移概率aij,認為只要aij>0便可完成從狀態(tài)i到狀態(tài)j的跳轉,但aij本身不參與似然得分的計算。傳統(tǒng)聲學模型框架下,p(oj|sj)是由高斯混合模型(Gaussian Mixture Model, GMM)來描述的;但對于DNN聲學模型,我們有[14]式(3)。
(3)
其中p(sj)是各HMM狀態(tài)出現(xiàn)的先驗概率,可從訓練集合中統(tǒng)計得到;p(oj)對于解碼而言是常數(shù),解碼中可以忽略。p(sj|oj)即為狀態(tài)sj對應的神經(jīng)網(wǎng)絡輸出softmax操作后的得分。從而p(O|t)可由網(wǎng)絡輸出和狀態(tài)先驗表示為式(4)。
(4)
此即為DNN聲學模型框架下似然度得分的計算公式。
式(1)的分母,則是在分子解碼確定的時間邊界內[15],對每一個q∈Qt,根據(jù)q對應的HMM結構Tri-phone狀態(tài)節(jié)點,重復以上Viterbi解碼過程以獲得q對應的最優(yōu)狀態(tài)路徑Θq,再根據(jù)式(4)把Θq對應的神經(jīng)網(wǎng)絡輸出累加以計算所需的p(O|q)。引入DNN聲學模型,在訓練時間上會有更大需求,一般采用GPU加速神經(jīng)網(wǎng)絡訓練,目前實驗中對730h語料迭代十次,大約需要三天時間。
當估計出解碼得到的每個音素的后驗概率后,對一句話內所有音素的后驗概率取平均,再對一段語音的所有句子取平均,即可得到該段語音最終的后驗概率估計值。
Mikolov提出基于RNN的語言模型[7],其網(wǎng)絡結構如圖1所示。
圖1 RNN語言模型結構圖
其中w(t)是當前輸入單詞的N維向量表示,N是詞典大小,w(t)向量中只有表示該詞的那一維是1,其余均為0;s(t)是t時刻隱含層的輸出,上一時刻隱含層的輸出s(t-1)在t時刻也會作為輸入,從而體現(xiàn)網(wǎng)絡的循環(huán)(recurrent)性。輸出y(t)也是N維的向量,其每一維表示詞典中的該詞在下一時刻出現(xiàn)的概率。具體的公式如下:
(5)
(6)
(7)
注意這里的輸出y(t)是做了softmax函數(shù)的,從而保證了所有預測詞出現(xiàn)的概率都在區(qū)間(0,1)內,不會取到0,從而無n-gram模型中復雜的backoff平滑操作。c(t)是為了訓練加速而引入的單詞聚類[16],設c(t)維度為M,則預先在訓練集中根據(jù)單詞的詞頻將單詞分到M個不同的類,使得每一類中單詞的詞頻之和大致相等;訓練時只需要更新c(t)和y(t)中與輸入詞屬于同一類的單詞對應的權重即可。網(wǎng)絡訓練過程采用經(jīng)典的BPTT(back propagation through time)算法[9],并且采用在線(on-line)更新方式,即每mini-batch個詞更新一次而不必一句話所有詞的梯度一起更新。
由于解碼效率問題,目前是先用n-gram語言模型一遍解碼獲得每句話的N-best候選集合,再用RNN語言模型對N-best候選做得分rescoring。研究發(fā)現(xiàn)RNN語言模型在與n-gram語言模型插值后可以獲得更好的性能[17],因此這里rescoring后新的語言模型得分也是二者插值所得,每個候選句子新的得分score計算公式如式(8)所示。
(8)
這里AcScore是句子的聲學模型得分,在語言模型Rescoring過程中該部分保持不變;W是整個句子的詞個數(shù),C是詞懲罰;lmngram和lmRNN分別是n-gram和RNN的語言模型得分,λ是插值系數(shù),lmScale是解碼中需要的語言模型得分伸縮因子。這樣選取rescoring后得分最大的1-best候選作為新的參考文本,重新估計后驗概率;由于語言模型導致的識別錯誤會有所降低,因此rescoring后估計出的后驗概率會更合適。
多語種深度神經(jīng)網(wǎng)絡(multi-lingual DNN)模型已經(jīng)被證實在資源受限的小語種情形下是非常有效的[11]。該模型的主要思想是把神經(jīng)網(wǎng)絡的隱含層當作一個通用的特征提取器,而最后一個隱含層和輸出層間的權重主要起到分類的作用;另外,認為不同語言之間其特征提取具有較強的共享性,因此我們可以先用大語料的某種語言訓練一個較好的DNN,然后對于資源受限的小語種,可以利用大語料訓練的DNN隱含層進行特征提取,僅用小語種的數(shù)據(jù)更新最外層作為分類器的權重,這種方式性能明顯優(yōu)于用小語種語料從網(wǎng)絡的隨機初始狀態(tài)開始更新整個網(wǎng)絡權重。
我們這里沿用這種思想,使用發(fā)音較好的數(shù)據(jù)訓練解碼用的DNN,然后使用額外收集到的方言數(shù)據(jù)作為小語種,其聚類后的狀態(tài)作為網(wǎng)絡的添加節(jié)點,其結構如圖2所示。
圖2 方言得分提取模型結構
這里我們使用方言數(shù)據(jù)僅更新圖2中最外層右邊方言狀態(tài)節(jié)點與最后一個隱含層的權重(圖2中右邊部分權重),其余權重保持不變,這樣既可以保證主網(wǎng)絡的解碼性能不受任何影響,又能保證方言狀態(tài)節(jié)點具有良好的狀態(tài)分類特性。注意這里softmax操作針對解碼節(jié)點和方言狀態(tài)節(jié)點是分開來算的。
另一種multi-lingual DNN使用方法是把大語料訓練好的整個網(wǎng)絡作為一個更好的初始網(wǎng)絡,然后用小語料的數(shù)據(jù)在此基礎上更新全部網(wǎng)絡參數(shù)[18];本文為了確保主網(wǎng)絡正常解碼性能不受影響,故不采用這種方法。
假設對于觀測矢量O,先使用主網(wǎng)絡viterbi解碼出O對應音素t的狀態(tài)序列為Θt={s1,s2,…,sN},其似然得分依式(4)計算出為p(O|t),同樣得到t的競爭音素得分為p(O|q),q∈Qt;在音素t確定的時間邊界內,使用方言狀態(tài)節(jié)點輸出同樣做Viterbi解碼,得到方言狀態(tài)得分的最優(yōu)序列為Θd={d1,d2,…,dN},從而估計方言數(shù)據(jù)的似然度得分如式(9)所示。
(9)
其中p(dj)同樣是方言狀態(tài)在訓練集中出現(xiàn)的先驗概率,從而得到修正后的后驗概率pp(t|O)得分估計如式(10)所示。
(10)
即只有當方言狀態(tài)節(jié)點估計出的似然度得分p(O|d)大于正常解碼獲得的似然度得分p(O|t)時,p(O|d)才會加入式(1)的分母進行后驗概率的估計。這樣特殊處理的原因主要是即使對于發(fā)音較好的情況,有時候p(O|d)也比p(O|t)小不了太多,這時候如果仍然把p(O|d)加入(1)的分母,可能使后驗概率錯誤地偏低,造成誤判;故認為只有當p(O|d)大于p(O|t)時,該音素的發(fā)音才有明顯的方言口音現(xiàn)象,才會修正其后驗概率的估計公式。
5.1 語料庫簡介
主要介紹實驗部分用到的三個數(shù)據(jù)集: 聲學及語言模型訓練集合、方言數(shù)據(jù)集合及發(fā)音評測集合。
1) 聲學及語言模型訓練集合
這里主要使用的是收集到的一批國內普通話水平測試[19]第四題考試的實錄語音數(shù)據(jù),該題型要求考生在規(guī)定的三分鐘內,依據(jù)給定的主題進行一段自由表述,專家主要從表述的語音標準程度和方言口音程度等方面進行評分,與本論文的研究背景很匹配。我們從中抽取了總得分在80分以上(滿分100分)的考生對應的第四題的約730小時數(shù)據(jù)作為聲學模型訓練集合,這部分數(shù)據(jù)的發(fā)音水平良好。另外對于總得分在60~100之間的考生,又隨機抽取了15小時第四題的數(shù)據(jù)作為識別率驗證的測試集;該測試集與聲學模型訓練集合沒有重合的數(shù)據(jù)。所有數(shù)據(jù)都是16kHz采樣,16bit量化、沒有降噪處理的真實考場數(shù)據(jù)。
對于語言模型,我們使用大量第四題人工轉寫的文本作為語料,約464千條句子,分詞后共有詞語(Token)3.53MB。下文n-gram和RNN語言模型都是使用這批語料訓練的。
2) 方言數(shù)據(jù)集合
我們收集到一批包含合肥、南昌、南京、山東、山西、武漢等地共約250小時的方言數(shù)據(jù),將其全部用來訓練解碼DNN中輸出方言狀態(tài)節(jié)點與最后一個隱含層連接的權重。
3) 發(fā)音評測集合
我們收集到4 100份有精確人工分標注的第四題真實語音數(shù)據(jù),每份語音數(shù)據(jù)都有兩位專家獨立評分,分差在3分以內,相關度約為0.8(認為這樣的評分比較可靠)。取兩位專家的平均分作為實驗中最終使用的人工參考分。這里相關度的計算如式(11)所示。
(11)
5.2 后驗概率基線性能
由于漢語是帶調語言,因此聲學模型訓練部分采用的是39維Mel頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征加上四維基頻特征[20],幀長25ms,幀移10ms。HMM是tri-phone模型,聚類后狀態(tài)綁定到4 000,這也對應解碼DNN的網(wǎng)絡輸出節(jié)點個數(shù)。
DNN采用的輸入是當前幀的特征與前后擴展5幀拼接,即43×11=473維輸入向量,共五個隱含層,每層2 048個節(jié)點,激活函數(shù)采用sigmoid函數(shù);輸出層采用softmax變換,使得輸出可以表示為概率的形式且和為1。訓練時使用隨機梯度下降(stochastic gradient descend, SGD)的方式,并采用mini-batch更新策略,即每次輸入1 024個樣本,取它們的梯度平均更新;所有數(shù)據(jù)迭代十次,前三次固定學習率0.2,后七次每次折半。
一遍解碼語言模型采用srilm工具[21]訓練3-gram模型。在此基線配置下,15小時測試集上字識別率(accuracy, ACC)為84.71%;在發(fā)音評測集合上,依式(1)估計出每位考生的后驗概率特征,該特征與人工分的相關度為0.535,以此作為后續(xù)實驗的對比性能。
5.3 RNN語言模型Rescoring性能
RNN語言模型訓練采用mikolov提供的開源代碼[22],訓練語料同n-gram模型。RNN網(wǎng)絡中沒有依詞頻對詞典裁剪,因此輸入w(t)即為詞典大??;隱含層節(jié)點數(shù)500,輸出c(t)類別數(shù)100。采用BPTT方法訓練,每次遞歸展開數(shù)為4,并且每四個詞更新一次;所有數(shù)據(jù)迭代十次,前七次固定學習率0.1,后三次每次都折半。
在rescoring時,一遍解碼保留的候選N-best數(shù)為50,利用RNN與n-gram插值后的語言模型得分對每個候選best得分重估計,插值系數(shù)λ為0.5,聲學得分保持不變。使用RNN模型做rescoring帶來運算量的增加主要是額外訓練了一個RNN語言模型網(wǎng)絡,以及一遍解碼保留N-best候選造成解碼時間的增加。
表1給出在15小時測試集上rescoring之后字識別性能的改進。
表1 RNN Rescoring字識別性能
可見,rescoring 后,字識別率絕對提升了5%以上,識別性能提升較為顯著;注意到這里我們沒有使用任何額外的資源,只是使用相同的n-gram語言模型訓練語料重訓了一個RNN網(wǎng)絡就獲得了這樣的提升。這里的增益主要來自于語言模型更好的算分,因此糾正的識別錯誤可能大多數(shù)都是語言模型歷史不夠長導致的。
接下來使用RNN語言模型對評測集合的4 100份數(shù)據(jù)每句話的N-best候選做rescoring,使用rescoring后的最大得分句子重新估計后驗概率,其與人工分相關度如表2所示。
可見,RNN rescoring后,后驗概率與人工分的相關度絕對提升3%以上。雖然這樣的提升已經(jīng)比較顯著,但和識別性能的提升——錯誤率下降了約34%來說,相關度提升還是略顯不足。這里分析可能有以下兩個原因。
表2 RNN rescoring后驗概率與人工分相關度
1) 特殊背景導致識別率提升較大
由于RNN語言模型看到的歷史更長,會使整體更有邏輯性的句子獲得更高的語言模型得分;而本文背景是中國人說普通話,因此即使存在發(fā)音不準確的現(xiàn)象,但表述有邏輯錯誤的可能性還是較小;這導致N-best中被RNN rescoring后找出的得分最大候選,其邏輯性也可能最強,從而該候選確實是正確識別結果的可能性也較大,從而識別率會有較大提升。
2) 識別率的提升和最終后驗概率反映發(fā)音好壞并不完全等價
比如考生想說“是”,但其卻發(fā)音為“si4”,如果這時候識別為“似”則會被判識別正確(假定識別為“似”也完全符合上下文邏輯),據(jù)此計算出的后驗概率也會較高,然而這卻掩蓋了考生發(fā)音錯誤的事實!只有將其識別為考生“打算”的發(fā)音“shi4”(這里“打算的發(fā)音”類似于給定文本語音評測情境下的參考文本),據(jù)此“是”計算其后驗概率得到一個較低的值,才能正確反映考生“發(fā)音確實有誤”這個事實。因此,如何有效找出考生“打算”發(fā)音的內容而非其真正發(fā)音的內容,是后續(xù)非常重要的研究計劃。
5.4 引入方言得分性能
方言數(shù)據(jù)的前端處理同基線系統(tǒng)里的聲學模型訓練特征提取配置。最后也聚類到4 000個狀態(tài),加在解碼DNN輸出層。使用方言數(shù)據(jù)更新解碼DNN方言節(jié)點與最外隱含層的權重,SGD的配置與之前DNN也保持一致。這里網(wǎng)絡中方言節(jié)點權重的更新會增加一些額外的訓練時間;解碼時網(wǎng)絡最外層的矩陣相乘規(guī)模也會擴大一倍。依據(jù)式(10)調整后驗概率的估計方法,性能統(tǒng)計如表3所示。
可以看到,無論是對基線系統(tǒng)直接引入方言得分,還是對rescoring后的系統(tǒng)再引入方言得分(即兩種方法融合),相關度都會有進一步絕對1%的提升;特別的,注意到兩種方法融合后,相關度相比于最初的基線有絕對4.9%的提升。
表3 引入方言得分估計的后驗概率與人工分的相關度
5.5 總體評分預測性能
為了在普通話水平測試第四題上完成真實的最終預測評分,我們還需要一些針對該具體問題的輔助評分特征。
1) 靜音段時長比例
由于自由表述是一種即興表述,本身難度較大,再加上考場環(huán)境,很多考生都會在表述中出現(xiàn)一定的停頓,如果停頓時間過長,專家也會相應扣分,因此把識別結果中的靜音段時長占總三分鐘的比例作為一維特征。
2) 流暢度
考生表述的流暢程度也是專家評分的關注點,因此我們用每句話包含的總幀數(shù)除以該句話內的有效音素個數(shù)(去除sil和sp),得到每個音素的平均發(fā)音幀數(shù),再按句子取平均;因為音素的平均發(fā)音幀數(shù)越多,表述可能越不流暢。
3) 發(fā)音錯誤個數(shù)
在自由表述這種連續(xù)語流背景下,發(fā)音檢錯是一個比較難的任務[15]。這里只是利用一些先驗的統(tǒng)計信息,對每個音素按式(1)估計出的后驗概率設一個門限,如果后驗概率值低于該門限則認為發(fā)音錯誤,統(tǒng)計所有發(fā)音錯誤音素個數(shù)N作為一維特征。
輔助特征與人工分相關度在評測集合上統(tǒng)計如表4所示。
表4 輔助特征與人工分相關度
我們在評測集合的4 100份數(shù)據(jù)集上進行交叉驗證來評估總體的評分預測性能。即將數(shù)據(jù)平均分為十堆,每堆410份數(shù)據(jù);每次取其中九堆提取后驗概率及上述三個輔助評分特征,并利用這些特征與人工分做線性回歸,利用最小二乘法得到回歸系數(shù),在余下的一堆數(shù)據(jù)里利用回歸系數(shù)和評分特征預測機器分,計算機器分與人工分的相關度;十次交叉驗證的相關度取平均,作為最終的機器與人工總體評分相關度性能評估指標,如表5所示。
表5 10折交叉驗證評分性能
上述四組對比中,三個輔助評分特征保持不變,僅有后驗概率特征的估計方式不同: 基線采用的是4.2節(jié)中的估計方式;rescoring和方言得分分別采用4.3和4.4節(jié)中的估計方式。可以看到,對于使用rescoring和加入方言得分這兩種方式估計的后驗概率,最終交叉驗證的評分平均相關度相比于基線都有絕對1%的提升;特別的,若將二者融合,則有絕對2.2%的提升;這表明本文提出的關于后驗概率估計的改進方法,對評分這樣一個具體任務最終性能的提升有一定的改善。
本文首先介紹了深度神經(jīng)網(wǎng)絡聲學模型框架下自由表述口語語音評測的幀規(guī)整對數(shù)后驗概率特征的一般估計方法,然后提出了兩種改進的估計方法。(1)使用RNN語言模型對一遍解碼結果的N-best候選做rescoring后再重新估計后驗概率; (2)借用multi-lingual神經(jīng)網(wǎng)絡模型框架,提出在后驗概率估計中,有選擇的引入方言狀態(tài)節(jié)點的似然度得分。實驗表明,使用這兩種方法估計的后驗概率,相比于基線系統(tǒng),在單一后驗概率特征相關度和總體評分相關度上都有一定的性能提升。改進方法估計的后驗概率與人工分相關度達到0.584,絕對提升4.9%,總體評分相關度達到0.757,絕對提升2.2%。
后續(xù)工作為一是收集更多方言數(shù)據(jù)以達到更好的覆蓋率,因為對于真實情境而言,表述者來自全國各地,各種方言都有;二是對于RNN語言模型訓練,將其利用GPU實現(xiàn)并行化,加速矩陣運算操作;三是可以嘗試直接用RNN對聲學模型建模,相關研究表明RNN聲學模型在識別率上相對于DNN又會有進一步的提升[23],而識別率的提升則是整個自由表述口語語音評測任務的基礎;最后是希望能結合自然語言處理相關的技術,有效的找出考生表述中“打算”說的內容,以使估計出的后驗概率特征與發(fā)音好壞任務更好的匹配。
[1] Witt S M. Use of speech recognition in computer-assisted language learning[D]. University of Cambridge, 1999.
[2] 嚴可, 戴禮榮. 基于音素評分模型的發(fā)音標準度評測研究[J]. 中文信息學報, 2011, 25(5): 101-108.
[3] 嚴可, 魏思, 戴禮榮. 針對發(fā)音質量評測的聲學模型優(yōu)化算法[J]. 中文信息學報, 2013 (1): 98-107.
[4] Witt S M, Young S J. Phone-level pronunciationscoring and assessment for interactive language learning[J]. Speech communication, 2000, 30(2): 95-108.
[5] 魏思, 劉慶升, 胡郁, 等. 普通話水平測試電子化系統(tǒng)[J]. 中文信息學報, 2006, 20(6): 89-96.
[6] 嚴可, 胡國平, 魏思, 等. 面向大規(guī)模英語口語機考的復述題自動評分技術[J]. 清華大學學報 (自然科學版), 2009, 1: 1356-1362.
[7] Manning C D. Foundations of statistical natural language processing[M]. MIT press, 1999:194-234.
[8] Goodman J T. A bit of progress in language modeling[J]. Computer Speech & Language, 2001, 15(4): 403-434.
[9] Mikolov T. Statistical language models based on neural networks[D]. Brno University of Technology, 2012.
[10] Young S,Evermann G, Gales M, et al. The HTK book (for HTK version 3.4)[J]. Cambridge University Engineering Department,2006,2(2): 2-3.
[11] Huang J T, Li J, Yu D, et al. Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers[C]//Proceedings of the 2013 IEEE International Conference on. IEEE, 2013: 7304-7308.
[12] Dahl G E, Yu D, Deng L, et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2012, 20(1): 30-42.
[13] 劉慶升, 魏思, 胡郁, 等. 基于語言學知識的發(fā)音質量評價算法改進[J]. 中文信息學報, 2007, 21(4): 92-96.
[14] Bourlard H A, Morgan N. Connectionist speech recognition: a hybrid approach[M]. Springer Science & Business Media, 1994.
[15] 魏思. 基于統(tǒng)計模式識別的發(fā)音錯誤檢測研究[D].中國科學技術大學博士學位論文, 2008.
[16] Mikolov T, Kombrink S, Burget L, et al. Extensions of recurrent neural network language model[C]//Proceedings of Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on. IEEE, 2011: 5528-5531.
[17] Mikolov T, Deoras A, Kombrink S, et al. Empirical Evaluation and Combination of Advanced Language Modeling Techniques [C]//Proceedings of the Interspeech. 2011 (s 1): 605-608.
[18] Thomas S, Seltzer M L, Church K, et al. Deep neural network features and semi-supervised training for low resource speech recognition[C]//Proceedings of Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 6704-6708.
[19] 國家語言文字工作委員會普通話培訓測試中心.普通話水平測試實施綱要[M].北京: 商務印書館,2004.
[20] Boersma P. Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound[C]//Proceedings of the institute of phonetic sciences. 1993, 17(1193): 97-110.
[21] Stolcke A. SRILM-an extensible language modeling toolkit[C]//Proceedings of the Interspeech. 2002; 901-904.
[22] Mikolov T, Kombrink S, Deoras A, et al. RNNLM-Recurrent neural network language modeling toolkit[C]//Proceedings of the 2011 ASRU Workshop. 2011: 196-201.
[23] Graves A, Mohamed A R, Hinton G. Speech recognition with deep recurrent neural networks[C]//Proceedings of the Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 6645-6649.
Improved Posterior Probability Estimation Methods forthe Freely-Spoken Speech Evaluation
XU Sukui1, DAI Lirong1, WEI Si2, LIU Qingfeng1,2, GAO Qianyong2
(1. National Engineering Laboratory of Speech and Language Information Processing,University of Science and Technology of China, Hefei,Anhui 230027, China;2. Anhui USTC iFlytek Co., Ltd., Hefei,Anhui 230088, China)
Two methods under the deep neural network acoustic modeling framework are proposed to improve the estimation of posterior probability for evaluation of pronunciation of freely-spoken speech: 1) the posterior probability is re-estimated with more accurate recognition results by employing RNN language model to re-score the N-best candidates produced from the first decoding process; 2) the influence of dialect to posterior probability is taken into account by involving likelihood scores produced by dialect clustered nodes added to deep neural network acoustic model which is re-trained as a multi-lingual style. Experimental results show that these methods increase the correlation (between posterior probabilities and human scores) for 3.5% and 1.0% respectively, and the combination of these two methods achieves 4.9% increase. In a real evaluation task, a 2.2% absolute improvement is observed in correlation between machine scores and human scores.
freely spoken speech; pronunciation quality evaluation; posterior probability; deep neural network; RNN language model
許蘇魁(1991—),碩士研究生,主要研究領域為計算機輔助語言學習。E?mail:xskui@mail.ustc.edu.cn戴禮榮(1962—),教授,博士生導師,主要研究領域為語音識別、語音合成、基于內容的音視頻檢索等。E?mail:lrdai@ustc.edu.cn魏思(1981—),博士,高級工程師,主要研究領域為中英文語音評測,語種識別,語音識別,離線手寫識別,自然語言處理等。E?mail:siwei@iflytek.com
2015-06-23 定稿日期: 2015-11-06
國家自然科學基金(61273264)
1003-0077(2017)02-0212-08
TP391
A