孫杰 吾守爾·斯拉木 熱依曼·吐爾遜
關鍵詞: 語音識別; 低資源; 柯爾克孜語; 跨語種聲學模型; CMN; 音素映射
中圖分類號: TN711?34; TP391 ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2018)24?0132?05
Research on CMN?based recognition of Kirgiz with less resources
SUN Jie1,2, Wushour Silamu1, Reyiman Tursun1
(1. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China;
2. Department of Physics, Changji University, Changji 831100, China)
Abstract: As there exists low recognition rate caused by sparse training data during the speech recognition of minority languages, a cross?language acoustic model based on convolutional maxout networks (CMNs) is constructed in this paper for less?resource Kirgiz recognition. In the CMN model, the local sampling and weight sharing technologies of the convolutional neural network (CNN) are used to reduce network parameters. The convolutional kernel of the CNN is replaced by the maxout neuron to improve the extraction capability of network abstract features. The cross?language CMN is pre?trained by using the Uygur language with relatively?rich resources. The Dropout regularization training method is used to prevent over?fitting. The phoneme mapping set based on forced alignment of synonyms is created according to the similarities of the two languages. The to?be recognized Kirgiz data is marked. The CMN parameters are fine?tuned by using the limited corpus of the target language. The experimental results show that the word error rate of the proposed CMN acoustic model is 8.3% lower than that of the baseline CNN acoustic model.
Keywords: speech recognition; less resource; Kirgiz; cross?language acoustic model; CMN; phoneme mapping
“一帶一路”倡儀的提出使得我國與周邊國家的商貿往來和文化交流日趨頻繁。多語言特別是小語種的自動語言翻譯機成為地區(qū)間互聯(lián)互通的迫切需求。
小語種語音識別面臨的困難是標注數據匱乏難以建立魯棒的聲學模型。目前,低資源條件下構建跨語種聲學模型是一個研究的熱點問題。Schultz等人提出利用Bootstrap將多個單語種的聲學模型集成為跨語言的通用音素集,對瑞典語識別時獲得最低34.3%的音素錯誤率,但該方法不能將富語料語種音素的上下文關系轉移到目標語聲學模型[1]。為此,Imseng等人使用KL距離(Kullback?Leibler divergence) 構建了多語種三音素隱馬爾可夫模型HMM(Hidden Markov Model)。該模型的主要思想是用MLP(Multi?Layer Percetron)估計音素的后驗概率,用多項式分布描述HMM狀態(tài),利用相對熵作為損失函數度量兩者之間的距離[2]。實驗結果表明,在較小數據集情況下,KL?HMM模型比GMM?HMM[3]模型識別效果好。但該方法假定模型中每個音子的狀態(tài)轉移概率固定,會降低解碼精度。Miao,Joy等人在SGMM(Subspace Gaussian Mixture Model)基礎上提出了共享SGMM模型,分別使用多語言語料訓練模型的共享參數和有限資源語料訓練狀態(tài)特殊的向量,較單語種SGMM在字識別準確率有5%的提升[4?5]。由于深度神經網絡[6](Deep Neural Network,DNN)具有強大的抽象特征提取能力,Huang等人將經過多語種訓練的深度神經網絡的隱藏層用于低資源語種的識別[7],稱為共享隱藏層技術(Shared Hidden Layers,SHL)。該方法取得很好的識別效果,但需要多個語種的大量數據對模型進行充分訓練。
為了更好利用dropout具有的近似模型平均的功能,Goodfellow提出一種新型前饋maxout網絡。基于這種思想[8],Miao提出了DMN[9](Deep Maxout Networks)、Cai引入了SPMN[10](Stochastic Pooling Maxout Networks)方法對有限數據的語言進行語音識別,在Babel數據集上的實驗結果表明該方法能有效降低對數據的需求。
受此啟發(fā),本文在對語料資源匱乏的柯爾克孜語識別時,提出跨語種的CMN聲學建模方法,與文獻[9]和文獻[10]相比本文的主要不同點是:
1) 借用同一個語系資源相對豐富的維吾爾語數據構建交叉語種的CMN網絡,作為識別系統(tǒng)的底層特征提取器獲得柯爾克孜語音素的后驗概率;
2) 使用maxout激活函數替換CNN[11] (Convolutional Neural Networks)的卷積操作,增強模型的非線性表達能力;
3) 通過maxout神經元具有的仿射變換結構,在CMN訓練時引入dropout方法,增加模型平均的能力。
最后,根據語言的相似性,對維語和柯語表示相同意義的詞進行強制對齊,用數據驅動方法建立維語到柯語的音素映射集,并用映射結果標注柯爾克孜語,利用有限標注數據微調網絡參數,進一步提高柯爾克孜語的識別精度。
跨語種的CMN(Convolutional Maxout Networks)模型是一種前饋型網絡,結構類似于卷積神經網絡CNN,不同點是將CNN的卷積層和ReLU層替換為仿射變換層和maxout激活層,并在訓練時引入dropout正則化方法。CMN網絡結構如圖1所示。
1.1 ?仿射變換層和maxout激活層
CMN網絡中仿射變換層采用了CNN網絡局部采樣技術的思想。首先通過一組大小不同的滑動窗口(Window)沿語譜圖的頻域維度滑動,并將窗口中的每一個神經元與仿射變換層中的[k]個神經元進行全連接;然后對局部輸入特征做仿射變換。與CNN卷積層類似,為減少網絡的待調節(jié)參數,在CMN中定義一個滑動窗口對應一個仿射變換矩陣[W],并通過固定[W]實現不同輸入單元共享權值。第[l]層第[i]個窗口對應的仿射變換定義為:
[zli=Wlixl-1+bli] ?(1)
式中:[Wli∈Rk×d]是仿射變換矩陣;[xl-1∈Rd]是[l]-1層局部輸入向量,[d]代表滑動窗口的大小;[bli]為偏置量。
由式(1)可知仿射變換層中不同的滑動窗口產生不同的仿射特征圖,而maxout激活層通過maxout函數對上一層仿射特征圖中的[k]個節(jié)點取最大值,生成多張?zhí)卣饔成鋱D。maxout激活層中特征映射圖節(jié)點的激活值為:
[hli(x)=maxj∈[1,k]zl-1ij] (2)
maxout神經元具有非常強的擬合能力,可以擬合任意的凸函數。文獻[8]證明當[k]足夠大時,只需2個maxout神經元就可擬合任意凸函數。基本思想是任意的凸函數都可由分段線性函數以任意精度擬合,而maxout層神經元是取前一層k個節(jié)點的最大值,同時這些節(jié)點都是線性的。因此在不同的取值范圍內最大值也被看作是分段線性的,分段的個數與k值相關。圖2是用maxout神經元分別擬合正線性函數、絕對值函數和二次函數的情況。
1.2 ?跨通道聚合層
在CMN結構中,兩個maxout層后通常接一個跨通道聚合層。跨通道聚合層采用池化(pooling)技術將多個特征映射層相同位置的特征點整合為新的特征,其功能主要有兩個:一是壓縮maxout激活層的特征維度,減少網絡參數,從而減少對訓練數據的需求;二是提升CMN網絡聲學模型的魯棒性,即對輸入特征的微小變化保持不變性(旋轉、平移和伸縮等)。常用池化技術有最大池化(max?pooling)和均值池化(mean?pooling)等。本文采用均值池化,聚合后的神經元為:
[Pmi=averagej∈i?k…(i+1)?k(hmj)] ?(3)
式中:[Pmi]是第m層第i個神經元;k是采樣因子。
1.3 ?全連接層和HMM
CMN網絡末端是一個全連接層和一個softmax層以及一個HMM(Hidden Markov Model)模型。最后一個softmax層輸出為音素的后驗概率,其概率得分可以看作是隱馬爾科夫模型的發(fā)射概率,定義為:
[p(y(i)=jx(i);θ)=eθTjx(i)l=1keθTlx(i)] (4)
式中:[θ]是權重矩陣;[l=1keθTlx(i)]是歸一化因子。
1.4 ?Dropout正則化訓練
深度神經網絡DNN參數通常達百萬數量級,當標注數據不足時網絡會過度學習到訓練集上的分類權重,在測試集上泛化性能較差。在CMN網絡中,除使用共享權值矩陣防止過擬合外,還可利用maxout層的仿射變換結構引入dropout正則化訓練方法,在每次訓練時以一定的概率對網絡的神經元進行舍取,減少網絡待調節(jié)參數防止過擬合。應用dropout后第[l]層上神經元的激活值為:
[hl=σ(WTlhl-1+bl)?ml] ?(5)
式中:“[?]”代表向量對應元素相乘;[ml]為二進制掩碼且服從[Bernoulli(1-p)]分布,[p]通常稱為dropout的丟棄率。由于訓練階段神經元以[(1-p)]概率保持,測試時須還原出訓練時的網絡行為,需要通過比例因子[(1-p)]縮放激活函數,導致訓練后模型不固定。反轉dropout基本思想與dropout基本一致,只是在訓練時對神經元激活值進行比例縮放,測試時保持不變,達到一次定義模型的目的。訓練時反轉dropout應用于第[l]層神經元的激活為:
[hl=(1-p)-1σ(WTlhl-1+bl)?ml] ?(6)
在交叉語種識別時要建立源語言到目標語發(fā)音詞典的轉換,實現目標語料的轉寫、發(fā)音詞典的構建和識別結果的轉換。
2.1 ?維語與柯語的語言學關系
維語和柯語分別是維吾爾語與柯爾克孜語的簡稱,其文字均以阿拉伯字母書寫,同時輔以拉丁文進行補充和完善。按照譜系關系,二者被歸于阿爾泰語系突厥語族,屬于有親屬關系的兩種語言。從語言學角度看,維語和柯語在語音、詞匯和語法規(guī)則上存在一定的相似關系:
1) 維語和柯語的元音和諧律部分相同。突厥語語音相近程度的主要衡量標準是元音和諧律類型的異同[12]。在維語和柯語各自16種和諧模式中存在8種相同的規(guī)律:/a/?/a/,/a/?/u/,/a/??/o/,/u/?/u/,/u/??/a/,/y/??/y/,
/?/??/y/,/i/?/i/(使用IPA轉寫)。
2) 在維語和柯語中,有部分表達同一意思的詞音節(jié)構成有具有對應關系,表現為元音之間的替換、增音和減音等。例如:“媽媽”/ana/(維語)?/ene/(柯語),“鴨子”/?d?k/(維語)?/?rd?k /(柯語),“學生”/oqu?u? ?i/(維語)?/oqu? ?u/(柯語)。另外,語言接觸過程中產生了一些共同詞匯,如:“爸爸”/ata/,“教育”/marip/等。
3) 維語和柯語表示不同語法意義是通過在詞根后線性添加不同詞綴實現,如 “畫家的”/syr?t?i?ni?/(維語)?/syr?t?y?nin/(柯語),“我喝”/ i??i?m?n /(維語)?/i??e?men/(柯語)等。
2.2 ?維語和柯語的發(fā)音單元
維吾爾語和柯爾克孜語都是拼音文字,音素和音節(jié)都有本質發(fā)音的特點。突厥語的一個共性特征是都含有8個基本元音,且元音是構成音節(jié)的基礎。維吾爾語保持了8個基本元音??聽柨俗握Z除8個元音外,還增加了6個長元音。維吾爾語有24個輔音,柯爾克孜語有22輔音。另外,兩種語言大約各有5 000個音節(jié)[13]。目前,音素作為維吾爾語識別基元已經成為一種共識[13?14]。
2.3 ?數據驅動的音素映射集
在維吾爾語和柯爾克孜語之間建立音素映射,最簡便的方法是利用國際音標(International Phonetic Alphabet,IPA)分別轉寫維語和柯語的元音和輔音,然后尋找具有共同發(fā)音的音素組成映射對,本文稱為啟發(fā)式音素映射方法。對于一些不存在的音素使用發(fā)音最接近的音素進行匹配,因此這種方法很大程度上受到主觀因素影響。
本文考慮到維語和柯語在語音、詞匯和語法方面具有一定的相似性,從語言學角度提出將維語和柯語中的同義詞進行強制對齊,用概率統(tǒng)計的方法計算兩種語言之間音素映射頻率,本文稱為數據驅動音素映射方法。在給定兩個音素集W和K的情況下,基于詞強制對齊的數據驅動的音素映射表示為:
[K→W=argmaxWPwi kj] (7)
式中,[Pwi kj]表示統(tǒng)計詞對中音素[kj]出現時[wi]出現的概率,計算方法如下:
[Pwi kj=o=1Nt=1MCwio,t,kjo,to=1Nt=1MCkjo,t] (8)
式中:N表示詞的總個數;M表示詞的長度;[Cwio,t,kjo,t]和[Ckjo,t]分別表示詞對o中第t個位置音素[wi,kj]同時出現的頻數和[kj]出現的總頻數。
圖3描述了漢語詞匯“牧民”使用IPA轉寫為柯爾克孜語/?aban/和維吾爾語/mal?i/后進行音素映射的過程。容易看出柯爾克孜語音素/a/出現的總頻數為2,與維吾爾語音素/?/在同一位置出現的頻數為1,用式(8)計算映射概率P(w=‘?|k=‘a)=0.5。
由于維語和柯語表示相同意義的語句長度不同,在計算維語和柯語音素映射概率之前,音素序列使用動態(tài)規(guī)劃(Dynamic Programming,DP)算法進行對齊。
3.1 ?實驗數據
為使跨語種的CMN,CNN,DNN網絡聲學模型參數獲得較為充分的訓練,本文使用兩個維吾爾語數據庫:THUYG?20[15]和《維吾爾語電話語音數據庫》。THUYG?20是清華大學公開的一個免費的20 h維吾爾語語音數據庫,共有9 468句使用麥克風連接電腦錄制的維吾爾語語音;《維吾爾語電話語音數據庫》是由新疆大學多語種信息技術實驗室創(chuàng)建,目前提供給部分科研院所、公司和實驗室內部使用,處于半開放狀態(tài),未來逐步全面公開。該數據庫通過手機收集了1 050對維吾爾族說話人自由交談的語音數據,有效總時長約為500 h??聽柨俗握Z語料由40個柯爾克孜族說話人(19男,21女)使用手機記錄的自然對話語音組成,有效總時長約5 h,共計2 160句。
3.2 ?實驗設計
實驗使用Kaldi語音識別工具箱分別搭建CMN?HMM,CNN?HMM和DNN?HMM識別系統(tǒng)。CMN網絡結構input+2maxout+pool+2maxout+pool+2FC;CNN網絡結構為input+2conv+pool+2conv+pool+2FC;DNN網絡結構為input+4hiddens+softmax,隱層節(jié)點為1 024個;CMN,CNN和DNN的輸入層均為1 364維(由40維Fbank和其一階、二階差分,加上四維的韻律特征,進行前后各5幀共計11幀拼接組成);其中CMN滑動窗口大小為3×3@64,每個窗口對應仿射層神經元為7個,池化窗口大小為2×2;CNN網絡的卷積層卷積核尺寸為3×3@64,池化窗口大小為2×2。實驗中所有訓練和測試語音數據采用G.723.1算法進行語音端點檢測(Voice Activity Detection,VAD)和倒譜均值減(Cepstral Mean Substract,CMS)技術做降噪處理。使用誤差反向傳播算法(Back Propagation,BP) 對CMN,CNN和DNN網絡訓練,采用隨機梯度下降(Stochastic Gradient Descent,SGD)調整網絡參數。在訓練過程中,對DNN和CNN在全連接層采用dropout方法,而CMN中的仿射變換和全連接層均采用dropout方法。在柯爾克孜語語音數據隨機挑選2 000句語音組成訓練集,剩余160句語音作為測試集。
3.3 ?實驗結果
1) 實驗1
單語種CMN,CNN和DNN混合系統(tǒng)識別實驗。直接用柯爾克孜語數據訓練DNN,CNN和CMN網絡,訓練時將dropout的丟棄率[p]分別設置為0.2,0.3和0.4;然后用最大似然準則訓練單音子HMM模型,使用決策樹算法做狀態(tài)綁定后獲得920個三音子狀態(tài)。最后將3種網絡和HMM模型結合對柯爾克孜語進行識別實驗,并用WER(Word Error Rate)作為評價指標,識別結果見表1。
從表1三種網絡混合模型的識別結果可以看出,CMN?HMM模型在不同的dropout丟棄率下的WER均低于CNN?HMM和DNN?HMM,說明CMN網絡在單一語種且有限數據情況下的識別性能好于CNN和DNN。另外,由于DNN網絡參數數量巨大,識別準確率隨dropout丟棄率增大有所提升,而CMN和CNN網絡模型在dropout為0.3時字錯誤率最低,當繼續(xù)增加到0.4時WER開始變大,說明[p]=0.3時,網絡識別準確率最佳。
2) 實驗2
跨語種的CMN?HMM,CNN?HMM和DNN?HMM混合模型識別實驗。首先使用維吾爾語數據對3種網絡做預訓練,設置dropout丟棄率為0.3;分別用啟發(fā)式音素映射集和數據驅動音素映射集標注柯爾克孜語音;然后用柯爾克孜語調優(yōu)網絡(分為調優(yōu)整個網絡和僅調優(yōu)softmax層);最后,使用EM算法訓練單音子HMM模型,經狀態(tài)綁定后獲得10 800三音子狀態(tài)。解碼時使用維語文本數據訓練得到的3?gram語言模型。識別結果如表2所示。
表2是跨語種CMN?HMM,CNN?HMM和DNN?HMM混合系統(tǒng)識別柯爾克孜語的識別結果。對比表1可以看出跨語種的三類網絡模型均比單語種的網絡模型識別率高,說明深度神經網絡經過相似語種的預訓練后可以獲得很好的初始化參數,網絡的多層結構和神經元之間的非線性連接可以提取到語言之間更加抽象的關系。從表2實驗結果可以看出CMN網絡識別效果好于CNN網絡,在跨語種聲學建模時仿射變換層要比卷積層更有優(yōu)勢。對比使用不同音素映射集標注語料的識別結果,可以看出數據驅動音素集比啟發(fā)式音素集識別精度有1.8%~3.7%的提升。此外,單獨對softmax層調整權重的識別效果優(yōu)于對整個網絡參數調整的識別效果,識別字錯誤率有0.8%~4.1%的降低??傮w而言,CMN?HMM混合系統(tǒng)在使用數據驅動音素集標注低資源目標語料且只對softmax層調參的情況下,識別準確率最高,其WER為27.2%,相比CNN?HMM混合系統(tǒng)識別準確率有8.3%的改進。
本文結合卷積神經網絡的特點和maxout神經單元的特殊結構提出跨語種的CMN網絡模型,用于低資源的少數民族語言識別的聲學模型構建,并將dropout正則化訓練方法運用到CMN網絡參數訓練增強模型平均能量和防止過擬合。為進一步提高系統(tǒng)的識別準確率,采用概率統(tǒng)計方法獲得富語種和低資源語種音素映射集,標注待識別語種數據。本文下一步的工作是在增加柯爾克孜語料的基礎上,進一步完善CMN?HMM模型。
參考文獻
[1] SCHULTZ T, WAIBEL A. Experiments on cross?language acoustic modeling [C/OL]. [2011?09?14]. https://wenku.baidu.com/view/b6ced1edf8c75fbfc77db2d3.html.
[2] IMSENG D, BOURLARD H, GARNER P N. Using KL?divergence and multilingual information to improve ASR for under?resourced languages [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto: IEEE, 2012: 4869?4872.
[3] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition [J]. Proceedings of the IEEE, 1989, 77(2): 257?286.
[4] MIAO Y, METZE F, WAIBEL A. Subspace mixture model for low?resource speech recognition in cross?lingual settings [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 7339?7343.
[5] JOY N M, ABRAHAM B, NAVNEETH K, et al. Improved acoustic modeling of low?resource languages using shared SGMM parameters of high?resource languages [C]// Proceedings of 22nd National Conference on Communication. Guwahati: IEEE, 2016: 1?6.
[6] DAHL G E, DONG Y, LI D, et al. Context?dependent pre?trained deep neural networks for large?vocabulary speech recognition [J]. IEEE transactions on audio speech & language processing, 2012, 20(1): 30?42.
[7] HUANG J T, LI J, YU D, et al. Cross?language knowledge transfer using multilingual deep neural network with shared hidden layers [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 7304?7308.
[8] GOODFELLOW I J, WARDE?FARLEY D, MIRZA M, et al. Maxout networks [C]// Proceedings of the 30th International Conference on Machine Learning. [S.l.: s.n.], 2013: 1319?1327.
[9] MIAO Y, METZE F, RAWAT S. Deep maxout networks for low?resource speech recognition [C]// Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc: IEEE, 2014: 398?403.
[10] CAI M, SHI Y, LIU J. Stochastic pooling maxout networks for low?resource speech recognition [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Florence: IEEE, 2014: 3266?3270.
[11] DAHL J V, KOCH K C, KLEINHANS E, et al. Convolutional networks and applications in vision [C]// Proceedings of IEEE International Symposium on Circuits and Systems. Paris: IEEE, 2010: 253?256.
[12] 吳宏偉.突厥語族語言的分類[J].語言與翻譯,1992(1):19?24.
WU Hongwei. The language classification of Turkic branch [J]. Language and translation, 1992(1): 19?24.
[13] 那斯爾江·吐爾遜,吾守爾·斯拉木.基于隱馬爾可夫模型的維吾爾語連續(xù)語音識別系統(tǒng)[J].計算機應用,2009,29(7):2009?2011.
Nasirjan Tursun, Wushour Silamu. Uyghur continuous speech recognition system based on HMM [J]. Journal of computer applications, 2009, 29(7): 2009?2011.
[14] 楊雅婷,馬博,王磊,等.維吾爾語語音識別中發(fā)音變異現象[J].清華大學學報(自然科學版),2011,51(9):1230?1233.
YANG Yating, MA Bo, WANG Lei, et al. Uyghur pronunciation variations in automatic speech recognition systems [J]. Journal of Tsinghua University (Science & technology), 2011, 51(9): 1230?1233.
[15] 艾斯卡爾·肉孜,殷實,張之勇,等.THUYG?20:免費的維吾爾語語音數據庫[J].清華大學學報(自然科學版),2017,57(2):182?187.
Aisikaer Rouzi, YIN Shi, ZHANG Zhiyong, et al. THUYG?20: a free Uyghur speech database [J]. Journal of Tsinghua University (Science & technology), 2017, 57(2): 182?187.