劉鵬程,袁三男,劉虹
(上海電力學(xué)院電子與信息工程學(xué)院,上海,200090)
信息技術(shù)日新月異的進(jìn)步使語(yǔ)音識(shí)別成為可能,且在全球范圍內(nèi)得到了廣泛的關(guān)注。人工神經(jīng)網(wǎng)絡(luò)(ANN)最早于20世紀(jì)80年代開(kāi)始被引入聲學(xué)領(lǐng)域,并利用反向傳播方法(BP)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,極大地提高了語(yǔ)音識(shí)別的準(zhǔn)確率和效率。但是,隨著相關(guān)研究的補(bǔ)充和完善,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)已經(jīng)難以滿足使用需求,各種缺陷也越來(lái)越突出,此后,人們開(kāi)始尋求新的識(shí)別方法,例如嘗試通過(guò)高斯混合模型(GMM)實(shí)現(xiàn)語(yǔ)音識(shí)別。2006年,著名學(xué)者Hinton將深度學(xué)習(xí)[1-2]引入語(yǔ)音識(shí)別過(guò)程,研究結(jié)果表明,此方法可以比較有效地防止陷入局部最優(yōu)。以深度神經(jīng)網(wǎng)絡(luò)(DNN)為基礎(chǔ)的聲學(xué)模型[3]性能遠(yuǎn)好于傳統(tǒng)的高斯混合模型(GMM),因而得到了大范圍應(yīng)用,極大地促進(jìn)了語(yǔ)音識(shí)別的效果的優(yōu)化。語(yǔ)音識(shí)別在人機(jī)交互的巨大潛力使得眾多國(guó)內(nèi)外公司如蘋(píng)果和科大訊飛在語(yǔ)音識(shí)別的研究上投入了大量的人力和財(cái)力,并且也取得了不菲的成績(jī),得到了商業(yè)上的巨大成功。語(yǔ)音識(shí)別的迅猛發(fā)展極大的方便了我們的生產(chǎn)和生活,也必將在未來(lái)的信息化時(shí)代寫(xiě)下濃墨重彩的一筆。
可以通過(guò)參數(shù)對(duì)特定的隱馬爾科夫模型進(jìn)行表示[4]。模型的狀態(tài)集合是,其中N為狀態(tài)個(gè)數(shù);代表不同狀態(tài)下能夠觀測(cè)到的輸出,集合中M代表可觀測(cè)符號(hào)數(shù)量;aij代表t時(shí)刻到t+1完成狀態(tài)轉(zhuǎn)換的概率,全部的aij共同構(gòu)成矩陣A,即:B代表能夠觀測(cè)到的狀態(tài)的概率情況,分析過(guò)程中結(jié)合觀測(cè)量對(duì)HMM模型進(jìn)行區(qū)分,包括離散和連續(xù)兩種類型。Ok為t時(shí)刻的觀測(cè)值,它是由不可見(jiàn)的內(nèi)部狀態(tài) qt=Sj決定的,則有: π 為初始狀態(tài)分布,有,。如圖1所示,HMM是個(gè)雙重隨機(jī)過(guò)程。下一時(shí)刻出現(xiàn)狀態(tài)轉(zhuǎn)移的概率僅取決于該時(shí)刻所在的位置,不受歷史位置信息的影響,是一種很有代表性的馬爾科夫鏈,通過(guò)參數(shù)A進(jìn)行描述。通常用隨機(jī)過(guò)程B來(lái)表示依附于狀態(tài)的觀測(cè)事件的概率,得到觀測(cè)值序列。
圖1 HMM的雙重隨機(jī)過(guò)程Fig.1 The double random process of HMM
確定模型的基本形式后,為了確保構(gòu)建的模型符合實(shí)際,必須注意以下三個(gè)基本問(wèn)題[5]:
1)評(píng)估問(wèn)題:確定觀測(cè)序列及模型參數(shù),對(duì)這些序列出現(xiàn)的概率進(jìn)行分析,據(jù)此對(duì)模型進(jìn)行相應(yīng)的評(píng)估。通常用前向算法相對(duì)高效地完成模型的評(píng)估問(wèn)題[6]。
2)譯碼問(wèn)題:確定序列和參數(shù) λ= {N , M,π,A,B},如何找出一定條件下最佳的隱狀態(tài)序列。利用(Viterbi)算法可以快速找出最佳路徑,因此一般通過(guò)該算法完成譯碼過(guò)程。
3)訓(xùn)練問(wèn)題:已知觀測(cè)序列,如何調(diào)整參數(shù){π,A,B},使得P(O λ)最大。HMM 模型的參數(shù)估計(jì)問(wèn)題通常使用Baum-Welch算法解決。
本次實(shí)驗(yàn)采用實(shí)驗(yàn)室環(huán)境下錄制的孤立單詞、連續(xù)語(yǔ)音、有噪聲干擾、方言和遠(yuǎn)場(chǎng)情況的語(yǔ)音作為輸入。錄制時(shí)將采樣頻率設(shè)置為16 KHz,對(duì)于各個(gè)采樣點(diǎn)采取16位量化,每一幀的長(zhǎng)度為30 ms,幀移位10 ms,選擇單聲道。
語(yǔ)音識(shí)別系統(tǒng)的優(yōu)劣在很大程度上由特征參數(shù)決定,因此必須選擇可以較好地代表語(yǔ)音生成與聽(tīng)覺(jué)感知特點(diǎn)的參數(shù)。比較常用的參數(shù)包括有線性預(yù)測(cè)倒譜系數(shù)(LPCC) 和梅爾頻率倒譜系數(shù)(MFCC)[7-8]。其中,前者根據(jù)聲音的形成原理,對(duì)其初始特征進(jìn)行表示,但是未能涉及到實(shí)際傳播途徑中必然存在的多種噪聲的影響,因此其識(shí)別質(zhì)量差強(qiáng)人意;后者則是基于聽(tīng)覺(jué)的感知原理,可以比較精確地表示聽(tīng)覺(jué)器官接收信號(hào)的特點(diǎn),識(shí)別效果較好。因此本文通過(guò)MFCC參數(shù)對(duì)信號(hào)特征進(jìn)行提取。圖2描述了MFCC特征提取的過(guò)程。
圖2 梅爾頻率倒譜系數(shù)的提取Fig.2 Extraction of MFCC
GMM-HMM系統(tǒng)具有構(gòu)成簡(jiǎn)單的優(yōu)勢(shì),但是面對(duì)大規(guī)模的數(shù)據(jù)往往難以處理,在降噪過(guò)程中也主要是在特征處理上做工作,識(shí)別率不高,魯棒性也不強(qiáng)。相比之下,DNN-HMM系統(tǒng)最突出的特點(diǎn)是通過(guò)DNN代替GMM,深度學(xué)習(xí)大量的參數(shù)可以對(duì)海量數(shù)據(jù)進(jìn)行有效建模,通過(guò)底層網(wǎng)絡(luò)把噪聲濾去,高層網(wǎng)絡(luò)可以提取語(yǔ)音特征中更具區(qū)分性的特征,把需要的語(yǔ)音信息保存在上層,極大地增強(qiáng)了魯棒性,準(zhǔn)確率與傳統(tǒng)方法相比提升了20%[9-11]?;贒NN-HMM的聲學(xué)模型如圖3所示。
整個(gè)模型可以表示為:
圖3 DNN-HMM聲學(xué)模型Fig.3 DNN-HMM acoustic model
式中:x 表示輸入的語(yǔ)音聲學(xué)特征;{Wl,bl}分別表示l層的連接權(quán)重和偏量; f()為隱含層的非線性激活函數(shù)。在最早提出的DNN-HMM模型中,DNN往往采取以sigmoid為基礎(chǔ)的非線性激活函數(shù),現(xiàn)階段最新的研究進(jìn)展證明線性單元(ReLUs)的應(yīng)用效果更好。相比與sigmoid,它可以在不進(jìn)行預(yù)訓(xùn)練的情況下獲得更好的性能。ReLUs公式表達(dá)如下:
Softm ax函數(shù)代表不同單元對(duì)應(yīng)的后驗(yàn)概率。系統(tǒng)的輸出和對(duì)應(yīng)的標(biāo)注的相似程度,決定了模型性能的優(yōu)劣。實(shí)驗(yàn)選用的優(yōu)化目標(biāo)函數(shù)是交叉熵(CE)[7],可以描述實(shí)際輸出和目標(biāo)輸出之間的相似程度,其數(shù)值越小代表越相似,表明模型的性能越理想[12]?;贑E準(zhǔn)則的優(yōu)化目標(biāo)函數(shù)如下:
式中:t時(shí)刻第r句話在狀態(tài)s下對(duì)應(yīng)Softmax層的實(shí)際 yrt(s),srt表示Xrt對(duì)應(yīng)的標(biāo)注。
語(yǔ)言模型是自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)問(wèn)題,主要是根據(jù)客觀語(yǔ)音信息而進(jìn)行的語(yǔ)言抽象數(shù)學(xué)建模,包含了字詞之間的上下聯(lián)系和語(yǔ)義[13]。模型能夠動(dòng)態(tài)檢測(cè)是否存在發(fā)音邊界,使不同的字或詞之間的區(qū)分變得清晰。模型包含了字詞間的上下文聯(lián)系和語(yǔ)義,在實(shí)踐過(guò)程中應(yīng)用最多的是三音子模型。三音子模型同時(shí)考慮前后各一個(gè)音素,充分的利用了上下文的信息,大大提高了語(yǔ)音識(shí)別效率。實(shí)驗(yàn)采用基于決策樹(shù)的方式對(duì)這些三音子模型進(jìn)行聚類,每一個(gè)模型都可以進(jìn)行訓(xùn)練數(shù)據(jù)和參數(shù)的共享。在設(shè)計(jì)決策樹(shù)的方式以及由上至下的分裂過(guò)程中,可以輸入一定的語(yǔ)音學(xué)常識(shí),減少運(yùn)算量的同時(shí)也可以在識(shí)別中使用訓(xùn)練數(shù)據(jù)未出現(xiàn)的三音子模型。
模型構(gòu)建完畢后,需要通過(guò)系統(tǒng)對(duì)語(yǔ)音進(jìn)行識(shí)別。識(shí)別過(guò)程如圖4所示。具體識(shí)別過(guò)程包括如下幾個(gè)步驟[14-17]:
1)對(duì)原始聲音進(jìn)行一定的處理,例如預(yù)加重、分幀、加窗等;
2)計(jì)算每一幀聲音的梅爾頻率倒譜系數(shù),得到一個(gè)輸入特征矩陣I(n×r),其中r為幀數(shù);
3)通過(guò)深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)逐層的前向計(jì)算,獲得輸出矩陣 O(m ×r);
4)在輸出矩陣中,找到每一個(gè)列向量中的最大輸出概率值,構(gòu)成一個(gè)具有r個(gè)元素的馬爾科夫鏈,其中每一個(gè)元素分別代表每一幀聲音的音素;
5)將上一步得到的Hr輸入模型中,對(duì)模型進(jìn)行分析確定最高概率對(duì)應(yīng)的路徑,獲取有關(guān)的文字信息,對(duì)識(shí)別結(jié)果進(jìn)行輸出。
圖4 語(yǔ)音識(shí)別系統(tǒng)Fig.4 Speech recognition system
分別采用GMM-HMM和DNN-HMM對(duì)孤立單詞、連續(xù)語(yǔ)音、有噪聲干擾、方言和遠(yuǎn)場(chǎng)情況語(yǔ)音材料進(jìn)行識(shí)別。表1所示為試驗(yàn)結(jié)果,對(duì)表中數(shù)據(jù)進(jìn)行觀察可以看到,DNN-HMM系統(tǒng)對(duì)于單個(gè)詞語(yǔ)進(jìn)行識(shí)別的準(zhǔn)確率達(dá)到97%,而GMM-HMM系統(tǒng)則僅有81%,前者的識(shí)別質(zhì)量顯著高于后者。但是在部分條件下,例如噪聲較強(qiáng)時(shí),DNN-HMM系統(tǒng)的識(shí)別率不足80%,其效果有待進(jìn)一步提高。
表1 基于DNN-HMM模型的ASR與傳統(tǒng)模型對(duì)比Table 1 Comparison of ASR and traditional model based on DNN-HMM model
本文對(duì)隱馬爾科夫模型的相關(guān)理論進(jìn)行了分析和探討,并利用實(shí)驗(yàn)論證了基于DNN-HMM的語(yǔ)音識(shí)別系統(tǒng)與傳統(tǒng)系統(tǒng)相比在識(shí)別率方面得到了很大的提升。在連續(xù)語(yǔ)音、噪聲干擾、方言和遠(yuǎn)場(chǎng)情況下,基于DNN-HMM的語(yǔ)音識(shí)別系統(tǒng)識(shí)別率不甚理想。為解決此類問(wèn)題,一般需要在聲學(xué)模型中將CNN、RNN與DNN合理搭配,混合使用,發(fā)揮不同類型神經(jīng)網(wǎng)絡(luò)各自的優(yōu)越性,使識(shí)別率得到進(jìn)一步提高。
[1] HINTON G E, SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786): 504-507.
[2] 余凱, 賈磊, 陳雨強(qiáng), 等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(9): 1799-1804.YU Kai, JIA Lei, CHEN Yu-qiang, et al. Yesterday, Today and Tomorrow of Deep Learning[J]. Computer Research and Development, 2013,50(9): 1799-1804.
[3] 趙永生, 徐海青, 吳立剛. 基于DNN-HMM模型的語(yǔ)音識(shí)別的語(yǔ)音導(dǎo)航系統(tǒng)[J]. 新型工業(yè)化, 2017, 7(2): 45-53.ZHAO Yong-sheng, XU Hai-qing, WU Li-gang. Speech Recognition System Based on DNN-HMM Model Speech Recognition Navigation System[J]. The Journal of New Industrialization, 2017, 7(2): 45-53.
[4] 劉韜. 基于隱馬爾可夫模型與信息融合的設(shè)備故障診斷與性能退化評(píng)估研究[D]. 上海:上海交通大學(xué), 2014.LIU Tao. Research on Equipment Fault Diagnosis and Performance Degradation Based on Hidden Markov Model and Information Fusion[D].Shanghai: Shanghai Jiao Tong University, 2014.
[5] 游治勇. 基于字的分詞方法的研究與實(shí)現(xiàn)[D]. 成都:電子科技大學(xué), 2015.YOU Zhi-yong. Research and Implementation of Word Segmentation Method[D]. Chengdu: University of Electronic Science and Technology, 2015.
[6] 王坤, 劉鶴飛, 蔣成飛. 隱馬爾可夫結(jié)構(gòu)方程模型及其貝葉斯估計(jì)[J]. 數(shù)理統(tǒng)計(jì)與管理: 1-8.WANG Kun, LIU He-fei, JIANG Cheng-fei. Hidden Markov Structure Equation Model and its Bayesian Estimation [J]. Mathematical Statistics and Management: 1-8.
[7] 戴禮榮, 張仕良, 黃智穎. 基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)現(xiàn)狀與展望[J]. 數(shù)據(jù)采集與處理, 2017, 32(2): 221-231.DAI Li-rong, ZHANG Shi-liang, HUANG Zhi-ying. Current Situation and Prospect of Speech Recognition Technology Based on Deep Learning[J]. Data Acquisition and Processing, 2017, 32 (2): 221-231.
[8] AREL I, ROSE D C, KARNOWSKI T P. Deep Machine Learning - A New Frontier in Artificial Intelligence Research [Research Frontier][J].Computational Intelligence Magazine, IEEE, 2010, 5(4): 13-18.
[9] 蔡敏. 基于多特征組合優(yōu)化的漢語(yǔ)數(shù)字語(yǔ)音識(shí)別研究[J]. 電子器件, 2013, 36(2): 282-284.CAI Min. Chinese Digital Speech Recognition Based on Multi Feature Combination Optimization[J]. Electronic Devices, 2013, 36 (2): 282-284.
[10] 胡石, 章毅, 陳芳, 等. 基于HMM模型語(yǔ)音識(shí)別系統(tǒng)中聲學(xué)模型的建立[J]. 通訊世界, 2017(8): 233-234.HU Shi, ZHANG Yi, CHEN Fang, et al. Establishment of Acoustic Model in Speech Recognition System Based on HMM Model[J].Communication World, 2017 (8): 233-234.
[11] 張仕良. 基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型研究[D]. 合肥:中國(guó)科學(xué)技術(shù)大學(xué), 2017.ZHANG Shi-liang. Speech Recognition Model Based on Deep Neural Network[D]. Hefei:University of Science & Technology, China, 2017.
[12] 張?jiān)? 語(yǔ)音識(shí)別:從技術(shù)應(yīng)用到習(xí)慣應(yīng)用[J]. 中國(guó)信息化, 2015(2): 30-31.ZHANG Yue. Speech Recognition: from Technology Application to Customary Application[J]. China Information Technology, 2015 (2): 30-31.
[13] 劉豫軍, 夏聰. 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2014(12): 28.LIU Yu-jun, XIA Cong. Application of Deep Learning Neural Network in Speech Recognition[J]. Network Security Technology and Applications, 2014(12): 28.
[14] 黃天蕓. 基于人工智能深度學(xué)習(xí)的語(yǔ)音識(shí)別方法[J]. 信息記錄材料, 2017, 18(9): 20-21.HUANG Tian-yun. Speech Recognition Method based on artificial intelligence deep learning[J]. Information Recording Material, 2017, 18(9): 20-21.
[15] HINTON G E, OSINDERO S, TEH Y W. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006, 18(7): 1527-1554
[16] 龐榮. 深度神經(jīng)網(wǎng)絡(luò)算法研究及應(yīng)用[D]. 成都: 西南交通大學(xué), 2016.PANG Rong. Deep Neural Network Algorithm Research and Application [D]. Chengdu: Southwest Jiao Tong University, 2016.
[17] 張建明, 詹智財(cái), 成科揚(yáng), 等. 深度學(xué)習(xí)的研究與發(fā)展[J]. 江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 36(2): 191-200.ZHANG Jian-ming, ZHAN Zhi-cai, CHENG Ke-yang, et al. Research and Development of Deep Learning[J]. Journal of Jiangsu University(Natural Science Edition), 2015, 36 (2): 191-200.