楊洋 汪毓鐸
摘要:目前人工智能時代已經(jīng)到來,自動語音識別技術(shù)無疑是最好的人機交互方式之一。深度學(xué)習(xí)憑借其強大的建模能力在語音識別領(lǐng)域得到廣泛使用。首先對深度學(xué)習(xí)進(jìn)行簡介;其次重點介紹了幾種主流深度學(xué)習(xí)聲學(xué)模型的研究現(xiàn)狀;最后總結(jié)了語音識別領(lǐng)域直到現(xiàn)在仍存在的問題以及未來的可能研究方向。
關(guān)鍵詞:人機交互;深度學(xué)習(xí);聲學(xué)建模;語音識別
中圖分類號:TN912 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)18-0190-03
Application of Deep Learning in Acoustic Modeling of Speech Recognition
YANG Yang,WANG Yu-duo
(School of Information and Communication Engineering, Beijing Information Science and Technology University, Beijing 100101, China)
Abstract: At present, the era of artificial intelligence has come. Automatic speech recognition technology is undoubtedly one of the best human-computer interaction methods. Deep learning is widely used in the field of speech recognition for its powerful modeling capabilities. Firstly, this article introduces the deep learning. Secondly, it mainly introduces the research status of several mainstream deep learning acoustic models. Finally, it summarizes the problems that still exist in the field of speech recognition and the possible research directions in the future.
Key words:Human–Computer Interaction;Deep learning;Acoustic modeling;Speech Recognition
1 引言
人與機器之間最理想的交流方式就是語音,語音識別是實現(xiàn)機器智能化的關(guān)鍵技術(shù)。語音信號具有復(fù)雜性、隨機性以及非平穩(wěn)的性質(zhì)。由于語音識別的某些理論一直存在一定的假設(shè),導(dǎo)致很長一段時間語音識別的研究都停滯不前,不能很好地適用于復(fù)雜多變的場景。為了解決語音識別的瓶頸問題需要引入一些新的方法。2006年,深度學(xué)習(xí)理論成功應(yīng)用在機器學(xué)習(xí)中,由此研究人員開始將深度學(xué)習(xí)用于語音識別。深度網(wǎng)絡(luò)能提取語音信號中更高層次的抽象特征,能對語音數(shù)據(jù)進(jìn)行有效的建模?;谏疃葘W(xué)習(xí)的聲學(xué)模型相比于傳統(tǒng)的基于高斯混合模型—隱馬爾可夫模型(Gaussian Mixture Model – Hidden Markov Model, GMM-HMM)語音識別系統(tǒng),在性能上有很大的提高,語音識別率有質(zhì)的飛躍,其逐漸成為語音識別主流的聲學(xué)模型。
2 深度學(xué)習(xí)簡介
深度學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)(Artificial neural networks,ANN)的延伸和拓展,截至目前,其已經(jīng)成為機器學(xué)習(xí)的一個重要分支。從本質(zhì)上來說深度學(xué)習(xí)就是訓(xùn)練深層次神經(jīng)網(wǎng)絡(luò)模型的一種機器學(xué)習(xí)算法。普遍認(rèn)為,深層結(jié)構(gòu)學(xué)習(xí)算法正式發(fā)端于2006年,以Hinton 等人提出的深度信念網(wǎng)絡(luò)( deep belief network,DBN) 為標(biāo)志。一般來說,其基本過程包括兩個階段:
1) 預(yù)訓(xùn)練( pre-training)階段,即特征學(xué)習(xí)階段,就是利用受限波爾茲曼機進(jìn)行自底向上的逐層非監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)一般都是采用無標(biāo)簽數(shù)據(jù)去訓(xùn)練每一層,然后將每一層的訓(xùn)練輸出作為其高一層的輸入。
2) 微調(diào)階段,按照誤差反向傳播算法(back propagation,BP)利用有標(biāo)簽的數(shù)據(jù)自頂向下對所有層的權(quán)值和偏置進(jìn)行微小的調(diào)整。
由于深度學(xué)習(xí)在進(jìn)行特征學(xué)習(xí)時是通過學(xué)習(xí)無標(biāo)簽的數(shù)據(jù)來對網(wǎng)絡(luò)進(jìn)行初始化的,而不是隨機初始化,因此,深度神經(jīng)網(wǎng)絡(luò)的權(quán)值以及偏置初值更接近全局最優(yōu)值,與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)相比,其學(xué)習(xí)算法效果更好。深度學(xué)習(xí)方法發(fā)展至今,已經(jīng)形成了一系列的有監(jiān)督和無監(jiān)督的特征學(xué)習(xí)算法、層次概率模型以及神經(jīng)網(wǎng)絡(luò)[1]。一般來說,我們把深層結(jié)構(gòu)學(xué)習(xí)算法模型分為兩類:
(1)無監(jiān)督學(xué)習(xí)的生成式模型,這種深度模型可以在數(shù)據(jù)沒有目標(biāo)類標(biāo)簽信息的情況下學(xué)習(xí)到數(shù)據(jù)更具有表征能力的抽象特征,這類神經(jīng)網(wǎng)絡(luò)一般包括受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)、深度置信網(wǎng)絡(luò)、自編碼器(Automatic Encoder,AE)等。RBM具有兩層結(jié)構(gòu),包括一層可視層和一層隱含層,其中層間節(jié)點可以相互連接,層內(nèi)節(jié)點無連接。由多個RBM堆疊就可以構(gòu)造出一個深度置信網(wǎng)絡(luò)。自動編碼器只包含一個隱層,它的顯著特點就是輸出與輸入接近相同,一般需要RBM進(jìn)行預(yù)訓(xùn)練。
(2)有監(jiān)督學(xué)習(xí)的判別式模型,這種深度模型一般針對的是有目標(biāo)類標(biāo)簽的數(shù)據(jù),它具有對數(shù)據(jù)進(jìn)行模式分類的判別能力。這類模型主要有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),以及長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和雙向長短時記憶網(wǎng)絡(luò)。RNN能夠利用信號中的時間依賴性提取數(shù)據(jù)特征,是一種具有記憶性的模型,它在傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)中加入了反饋連接。CNN是根據(jù)貓視覺系統(tǒng)的感受野神經(jīng)機制提出來的,具有局部連接、共享權(quán)值的特點。就神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來說,它與其他神經(jīng)網(wǎng)絡(luò)的不同之處在于隱層包含卷積層和池化層,并在圖像識別與分類、目標(biāo)定位等領(lǐng)域得到廣泛使用。LSTM和雙向長短時記憶網(wǎng)絡(luò)是基于RNN提出來的一種改進(jìn)深度學(xué)習(xí)模型,能夠克服傳統(tǒng)RNN在經(jīng)過較多的時間步驟以后出現(xiàn)的梯度消失問題,其已成功應(yīng)用在了語音識別、文字識別等領(lǐng)域。
3 深度學(xué)習(xí)在聲學(xué)建模中的研究現(xiàn)狀
語音識別流程如圖1所示。語音識別過程首先需要對語音數(shù)據(jù)進(jìn)行分幀、預(yù)加重、端點檢測等預(yù)處理操作,接著提取語音數(shù)據(jù)的聲學(xué)特征,然后用提取到的聲學(xué)特征參數(shù)去訓(xùn)練聲學(xué)模型;語言模型通常是利用文本形式的語料(如人民日報)訓(xùn)練而得,從語料中學(xué)習(xí)當(dāng)前詞序列出現(xiàn)的可能性,簡單來說語言模型的作用就是把一個詞序列組合為一句符合人們使用規(guī)范的語句;解碼搜索是構(gòu)建一個狀態(tài)空間,利用聲學(xué)模型得分和語言模型得分,采用維特比算法將總體分?jǐn)?shù)最高的詞序列作為最終的識別結(jié)果。
目前深度學(xué)習(xí)已經(jīng)成功應(yīng)用在了音素識別、聲韻母識別、孤立詞識別以及大詞匯量語音識別中。具體到語音識別的流程中,深度學(xué)習(xí)主要應(yīng)用在提取更加抽象的高層聲學(xué)特征以及對現(xiàn)有隱馬爾可夫聲學(xué)模型的構(gòu)建進(jìn)行加強。下文主要對深度學(xué)習(xí)在聲學(xué)建模中的發(fā)展現(xiàn)狀進(jìn)行闡述。
2009年,文獻(xiàn)[2]基于TIMIT數(shù)據(jù)庫將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)首次用于聲學(xué)建模進(jìn)行語音識別,系統(tǒng)性能有很大提升。文獻(xiàn)[3]基于RM語音庫進(jìn)行DNN-HMM聲學(xué)建模,識別正確率要比GMM-HMM聲學(xué)模型提高了30%。文獻(xiàn)[4]提出了一種基于DAE-HMM的聲學(xué)模型構(gòu)建方法,實驗結(jié)果表明,對于具有不同信噪比的小詞匯孤立詞語音識別系統(tǒng),DAE具有良好的抗噪聲性能。
對于RNN,文獻(xiàn)[5]最早提出將聲學(xué)模型中的GMM用RNN來代替,并且在TIMIT語音數(shù)據(jù)庫中取得了較好的結(jié)果。采用雙向LSTM做語音識別相比于DNN能獲得了20%的性能提升。為了進(jìn)一步簡化語音識別的流程,從語音數(shù)據(jù)的輸入到最后的文字串識別結(jié)果的輸出,只有一個深度神經(jīng)網(wǎng)絡(luò)模型,不再需要其他的模型,實現(xiàn)端到端的語音識別, Graves等提出一種新的聲學(xué)模型將連接時序分類技術(shù)(Connectionist Temporal Classification,CTC)和LSTM結(jié)合[6],將語音識別問題表述成語音特征序列與其對應(yīng)的音素序列之間的序列轉(zhuǎn)換問題。文獻(xiàn)[7]研究藏語的語音識別時將CTC與雙向LSTM結(jié)合,語音識別率提升了2.93%。
CNN在時域和頻域上能夠?qū)崿F(xiàn)卷積運算的平移不變性,因此在用于聲學(xué)建模時能夠克服語音信號的多樣性。CNN,LSTM和DNN在建模能力上是互補的,因為CNN在減少頻率變化方面很出色,LSTM擅長時間建模,而DNN適合將特征映射到更加可分離的空間。文獻(xiàn)[8]利用CNN,LSTM和DNN的互補性將它們組合成一個統(tǒng)一的CLDNN體系結(jié)構(gòu),與單類型的深度學(xué)習(xí)聲學(xué)模型相比,語音識別系統(tǒng)性能有很大改善。文獻(xiàn)[9]提出的非常深的CNN體系結(jié)構(gòu)可以顯著降低噪聲魯棒語音識別的詞錯率。目前,微軟、百度、科大訊飛等公司提出自己的Deep CNN模型,語音識別取得巨大突破。百度公司采用VGGNET以及包括Residual的Deep CNN等模型,結(jié)合LSTM和CTC的端到端語音識別技術(shù),使得系統(tǒng)有10%的相對性能改善。
大量的研究工作表明,為了獲得語音識別中較低的詞錯率,以及能夠較好地適用于各種復(fù)雜的實際應(yīng)用場景,用深層次的神經(jīng)網(wǎng)絡(luò)替換傳統(tǒng)聲學(xué)模型中的GMM部分是非??扇〉模彩欠浅3晒Φ?。
4 結(jié)束語
目前基于深度學(xué)習(xí)的語音識別器在發(fā)音規(guī)范且相對安靜的環(huán)境下,識別率已經(jīng)很高了,而且已經(jīng)可以實用化了,比如阿里巴巴的天貓精靈產(chǎn)品、蘋果的Siri系統(tǒng)等。但是在復(fù)雜噪聲干擾、發(fā)音不規(guī)范、方言、說話不連貫存在較長時間的停頓時以及遠(yuǎn)場情況下,基于深度學(xué)習(xí)的語音識別技術(shù)的識別率會急劇下降。目前還沒有一個系統(tǒng)的語音識別技術(shù)去解決這些復(fù)雜條件下語音識別存在的問題。而且語音識別領(lǐng)域仍然存在的一個嚴(yán)峻問題是缺少大規(guī)模的語音數(shù)據(jù)(比如幾十萬小時的語音)去進(jìn)行深度學(xué)習(xí)聲學(xué)模型的訓(xùn)練,以得到足夠的魯棒性。
對于未來的語音識別研究方向,研究者應(yīng)該關(guān)注于如何讓機器去盡可能地模仿人腦機制去識別語音,以應(yīng)對復(fù)雜環(huán)境下識別正確率的迅速降低。而且由于目前基于深度學(xué)習(xí)成熟的識別語音技術(shù)在整個識別過程中需要較多煩瑣的步驟,例如要獨立訓(xùn)練聲學(xué)模型和聲學(xué)模型,然后送到解碼網(wǎng)絡(luò)中進(jìn)行解碼,所以基于深度學(xué)習(xí)的端到端的語音識別技術(shù)在未來是一個值得研究的方向。
參考文獻(xiàn):
[1] 鄧力, 俞棟. 深度學(xué)習(xí): 方法及應(yīng)用[M]. 機械工業(yè)出版社, 2016.
[2] Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips Workshop on Deep Learning for Speech Recognition and Related Application.Whistler, BC, Canda:MIT Press, 2009:39.
[3] 李晉徽, 楊俊安, 王一. 一種新的基于瓶頸深度信念網(wǎng)絡(luò)的特征提取方法及其在語種識別中的應(yīng)用[J]. 計算機科學(xué), 2014, 41(3):263-266.
[4] 黃麗霞, 王亞楠, 張雪英,等. 基于深度自編碼網(wǎng)絡(luò)語音識別噪聲魯棒性研究[J]. 計算機工程與應(yīng)用, 2017, 53(13):49-54.
[5] Graves A, Mohamed A R, Hinton G. Speech Recognition with Deep Recurrent Neural Networks[J]. 2013, 38(2003):6645-6649.
[6] Graves A, Jaitly N. Towards end-to-end speech recognition with recurrent neural networks[C]// International Conference on Machine Learning. 2014:1764-1772.
[7] 王慶楠, 郭武, 解傳棟. 基于端到端技術(shù)的藏語語音識別[J]. 模式識別與人工智能, 2017, 30(4):359-364.
[8] Sainath T N, Vinyals O, Senior A, et al. Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks[C]// IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2015:4580-4584.
[9] Qian Y, Bi M, Tan T, et al. Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2016, 24(12):2263-2276.