陳雷,楊俊安,王龍,李晉徽
?
連續(xù)語音識別中基于Dropout修正線性深度置信網(wǎng)絡(luò)的聲學模型
陳雷1,2,楊俊安1,2,王龍1,2,李晉徽1,2
(1. 電子工程學院,安徽合肥230037;2. 電子制約技術(shù)安徽省重點實驗室,安徽合肥230037)
大詞匯量連續(xù)語音識別系統(tǒng)中,為了增強現(xiàn)有聲學模型的表征能力、防止模型過擬合,提出一種基于遺失策略(Dropout)修正線性深度置信網(wǎng)絡(luò)的聲學模型構(gòu)建方法。該方法使用修正線性函數(shù)代替?zhèn)鹘y(tǒng)Logistic函數(shù)進行深度置信網(wǎng)絡(luò)訓練,修正線性函數(shù)更接近生物神經(jīng)網(wǎng)絡(luò)的工作方式,增強了模型的表征能力;同時引入Dropout策略對修正線性深度置信網(wǎng)絡(luò)進行調(diào)整,避免節(jié)點之間的協(xié)同作用,防止網(wǎng)絡(luò)出現(xiàn)過擬合。文章利用公開語音數(shù)據(jù)集進行了實驗,實驗結(jié)果證明了所提出的聲學模型構(gòu)建方法相對于傳統(tǒng)方法的優(yōu)越性。
連續(xù)語音識別;深度置信網(wǎng)絡(luò);修正線性;過擬合;Dropout
語音識別技術(shù)是指機器通過識別和理解把人類的語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。大詞匯量連續(xù)語音識別(Large Vocabulary Continuous Speech Recognition,LVCSR)在公共安全、語音控制、可穿戴設(shè)備等領(lǐng)域有著廣泛的應(yīng)用,對連續(xù)語音識別展開深入研究對推動整個語音識別產(chǎn)業(yè)發(fā)展有著非比尋常的意義。相比于孤立詞識別,連續(xù)語音識別系統(tǒng)更多地強調(diào)運用語言學知識,更加注重對上下文的關(guān)聯(lián)信息的分析,能夠有效地挖掘和利用語音數(shù)據(jù)的深層次信息。但是由于連續(xù)語音的發(fā)音更為隨意,更易受協(xié)同發(fā)音、發(fā)音習慣、信道噪聲的影響;訓練過程中還需要考慮到切分(把輸入的語料切分以得到可以處理的較小的部分)和強制對齊(使得每一幀特征嚴格對應(yīng)到模型的各個音素上)等復(fù)雜技術(shù)。這使得連續(xù)語音識別的識別準確率和魯棒性遠不及孤立詞和特定人識別,同時也使連續(xù)語音識別成為語音識別領(lǐng)域極具挑戰(zhàn)性的研究課題[1]。
目前主流的語音識別系統(tǒng)主要由三部分組成:特征提取、聲學模型以及解碼[2]。特征提取的主要功能是從輸入的原始語音中提取出有利于后續(xù)識別的語音特征。聲學模型的主要作用是匹配輸入的語音特征,進而識別出對應(yīng)的語音單元,作為LVCSR系統(tǒng)中的核心模塊,聲學模型起到了底層支撐的作用,本文主要針對聲學模型模塊展開研究。
早期語音識別系統(tǒng)大多使用動態(tài)時間規(guī)整方法進行聲學模型構(gòu)建,這種方法消耗大量內(nèi)存,計算量巨大;隨后高斯混合模型(Gaussian Mixture Models,GMM)與隱馬爾科夫模型(Hidden Markov Models, HMM)聯(lián)合構(gòu)成的GMM+HMM[3]在聲學模型中得到了廣泛的應(yīng)用,一度成為LVCSR系統(tǒng)的標準配置。但是GMM+HMM仍然存在一些缺陷,包括表征能力不強、容易陷入局部最優(yōu)、未考慮上下文相關(guān)信息等。
近年來,深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)的提出為建立更加有效的聲學模型提供了新的思路,它具有諸多優(yōu)點:對語音數(shù)據(jù)的內(nèi)部結(jié)構(gòu)和概率密度函數(shù)要求不嚴格;可對較長時間段的語音數(shù)據(jù)進行處理;對不同說話人的說話方式、口音、噪聲等干擾的魯棒性更強;在處理語音數(shù)據(jù)時,具有更強的建模能力。于是相關(guān)學者將DBN引入聲學模型,構(gòu)建了DBN+HMM聲學模型[4],DBN的深層模型能夠模擬人腦神經(jīng)網(wǎng)絡(luò)的工作機理對語音數(shù)據(jù)進行處理,同時能夠完美地與HMM上下文相關(guān)三音子模型結(jié)合。
DBN+HMM聲學模型表現(xiàn)出了諸多的優(yōu)越性,但是尋求表征更強的模型構(gòu)建方法始終是我們追尋的目標;同時當前訓練模型中存在著過擬合現(xiàn)象,特別是當訓練數(shù)據(jù)比較充足時過擬合現(xiàn)象尤為突出,這會嚴重影響模型的性能[5]。
相關(guān)學者已經(jīng)將修正線性函數(shù)和Dropout策略引入深度神經(jīng)網(wǎng)絡(luò)中,并取得了較好的成果。文獻[6]首先提出了Dropout策略,作者將Dropout策略應(yīng)用于前饋神經(jīng)網(wǎng)絡(luò)以防止過擬合,在圖像識別和英語語音數(shù)據(jù)集上的實驗證明了該方法的有效性;文獻[5]在深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)的基礎(chǔ)上引入修正線性函數(shù),該方法首先利用受限波爾茲曼機(Restricted Boltzmann Machine, RBM)進行預(yù)訓練,隨后使用貝葉斯方法對網(wǎng)絡(luò)進行優(yōu)化,在此基礎(chǔ)上還結(jié)合了Dropout策略防止過擬合,文章的最后利用所提方法進行圖像識別,取得了較好的識別性能;文獻[7]使用修正線性節(jié)點來改進受限波爾茲曼機,在圖像識別中取得了較好的性能;文獻[8]使用修正線性節(jié)點進行稀疏自動編碼機(Auto-Encoder,AE)的訓練,在英語語音和圖像測試集上取得了較好的識別效果。
針對DBN+HMM聲學模型中存在的表征能力不強、過擬合的問題,本文提出一種基于Dropout RDBN(Rectified Deep Belief Network,RDBN)+ HMM的聲學模型構(gòu)建方法,該方法首先使用修正線性函數(shù)代替?zhèn)鹘y(tǒng)的Logistic函數(shù)作為激活函數(shù)來進行DBN訓練,提高了模型的表征能力;同時引入Dropout策略避免模型的過擬合。最后利用Dropout RDBN+HMM聲學模型在公開數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明基于Dropout RDBN +HMM的聲學模型構(gòu)建方法相對于傳統(tǒng)方法更有效。
1.1 DBN基本理論
一個典型DBN的結(jié)構(gòu)圖如圖1所示。DBN雖然本質(zhì)上仍然是一種多層感知器神經(jīng)網(wǎng)絡(luò)(Multi-Layer Perceptron neural networks, MLP),但是與傳統(tǒng)的MLP構(gòu)建方式不同,它是由一系列受限波爾茲曼機疊加而成的[9-10]。
一個典型的RBM如圖2所示,它由兩層神經(jīng)元構(gòu)建而成的:一層是顯層神經(jīng)元(一般為伯努利型或高斯型),另一層為隱層神經(jīng)元(一般為伯努利型)。顯層神經(jīng)元和隱層神經(jīng)元相互連接,但是同一層神經(jīng)元相互之間沒有連接。由于伯努利-伯努利RBM采用的是二進制方式,不能很好地對自然界的真實數(shù)據(jù)如語音進行建模,因此在實際應(yīng)用中,一般采用高斯-伯努利RBM對語音進行建模,一個高斯-伯努利RBM的能量函數(shù)可以表示為
(2)
(4)
(6)
(7)
1.2 基于DBN+HMM的聲學模型
基于DBN+HMM的聲學模型能夠?qū)ι舷挛南嚓P(guān)的多元音素進行建模,從而得到對應(yīng)于每一個狀態(tài)的后驗概率,由條件概率公式可以得到HMM狀態(tài)的輸出概率為:
圖3 DBN+HMM結(jié)構(gòu)示意圖
Fig.3 Schematic diagram of DBN+HMM
1.3 基于RDBN+HMM的聲學模型
傳統(tǒng)的網(wǎng)絡(luò)擁有相似的多重前饋網(wǎng)絡(luò)結(jié)構(gòu),這些隱含層通過Logistic函數(shù)執(zhí)行近似線性操作。Logistic函數(shù)能夠使用BP網(wǎng)絡(luò)對參數(shù)進行較好的優(yōu)化,同時能夠挖掘數(shù)據(jù)的深層次非線性特征,因此一度被認為是深度神經(jīng)網(wǎng)絡(luò)的重要組成部分。但是Logistic函數(shù)的一些問題同樣不容忽視:(1) 當概率較小時,函數(shù)近似一種泊松分布,但是當概率的取值逐漸趨近于1時,方差再次變小,這是我們所不期望看到的;(2) 對于小數(shù)值的概率,總體輸入按概率以指數(shù)形式增長,相對于漸進式單元魯棒性較差;(3) 在使用梯度下降法求取最優(yōu)解時會遇到梯度消失的問題。因此尋求表征能力更強的模型便成為了進一步研究的方向。圖4所示為Logistic 函數(shù)()和修正線性函數(shù)()。
(a) Logistic函數(shù)
(b) 修正線性函數(shù)
圖4 Logistic函數(shù)和修正線性函數(shù)
Fig.4 Logistic function and rectified function
由圖4可以看到Logistic函數(shù)更加平滑,同時有一個函數(shù)值上限。相比于傳統(tǒng)的Logistic函數(shù),修正線性函數(shù)能夠擁有更加出色的性能,本文總結(jié)了以下幾點原因:
(1) 修正線性的這種硬判決的形式更類似于人腦神經(jīng)網(wǎng)絡(luò)中神經(jīng)元信息傳遞方式,更加具有仿生學特性,這帶來了識別速度和準確率的提升[12]。
從函數(shù)圖形上看,修正線性函數(shù)比Logistic函數(shù)更接近生物學的激活模型,如圖5所示[13]。
(2) 在使用BP算法對網(wǎng)絡(luò)進行微調(diào)優(yōu)化時,反向傳輸?shù)倪^程中使用簡單的分段函數(shù)(修正線性函數(shù)的反函數(shù))進行權(quán)重更新。
(3) 修正線性網(wǎng)絡(luò)的另一個優(yōu)勢是它進行硬判決,即對于輸入為負數(shù)時,輸出取值為零。這使得神經(jīng)網(wǎng)絡(luò)僅有一小部分處于激活狀態(tài),便達到了神經(jīng)網(wǎng)絡(luò)所追求的稀疏特性。
(4) 隨著的逐漸增大,修正線性的神經(jīng)單元輸出并不趨于飽和,這一特性是修正線性函數(shù)在深度結(jié)構(gòu)中取得優(yōu)異表現(xiàn)的重要原因——正是因為線性單元的引入,避免了梯度消失的問題。
(5) 修正線性函數(shù)的引入使神經(jīng)網(wǎng)絡(luò)成為局部競爭網(wǎng)絡(luò),局部競爭網(wǎng)絡(luò)由許多子網(wǎng)絡(luò)構(gòu)成,而且子網(wǎng)絡(luò)之間的大量權(quán)重共享使網(wǎng)絡(luò)更容易訓練。如果網(wǎng)絡(luò)中不存在子網(wǎng)絡(luò),訓練一個由多個神經(jīng)網(wǎng)絡(luò)來完成簡單任務(wù)將會非常困難:不僅需要全局門限機制,同時要對算法和目標函數(shù)進行修正以引入網(wǎng)絡(luò)之間的競爭。在優(yōu)化的階段,子網(wǎng)絡(luò)在訓練的初始階段使用較短的時間進行組織,使相似的樣本擁有更多相同的參數(shù)。
圖6所示的Maxout函數(shù)為一種局部競爭網(wǎng)絡(luò),可以想象自動加入一個“隱隱含層”。通過這種同一層節(jié)點之間的競爭作用,Maxout這種淺層神經(jīng)網(wǎng)絡(luò)取得了較好的識別性能,而本文的修正線性網(wǎng)絡(luò)則是通過隱層節(jié)點與0的競爭作用達到了同樣的效果。
由于以上原因,基于修正線性函數(shù)打破了傳統(tǒng)的Logistic函數(shù)的壟斷,成為了神經(jīng)網(wǎng)絡(luò)訓練的主流方法。相關(guān)學者通過在語音識別、圖像識別等領(lǐng)域的研究發(fā)現(xiàn)修正線性不僅能夠取得識別準確率的提升,而且能夠更方便、快捷地完成訓練和識別。
修正線性函數(shù)有多種形式,諸如softplus函數(shù)(見圖7)、過濾修正線性函數(shù)(Leaky Rectified Linear,LReL)、噪聲修正線性函數(shù)(Noisy Recti?ed Linear Unit,NReLU)等。本節(jié)首先對softplus函數(shù)進行介紹。
(a) 修正線性函數(shù)
(b) Softplus函數(shù)
圖7 修正線性函數(shù)和Softplus函數(shù)效果對比圖
Fig.7 Rectified function and Softplus function
圖7(b)所示為Softplus函數(shù),作為修正線性函數(shù)的平滑版本,Softplus函數(shù)有許多出色性質(zhì),設(shè)同一層的單元有著相同的權(quán)重矩陣,偏置以固定的數(shù)值漸變。如果設(shè)置變化量為-0.5,-1.5,-2.5…那么總體的概率分布有一個很好的近似結(jié)果,如公式(9)所示:
所有單元的總體活躍度接近于修正線性函數(shù)的一個噪聲、整數(shù)、平滑的版本。盡管并不是指數(shù)函數(shù)族中的成員,但是仍然能夠使用共享的權(quán)重和遞變的偏置來構(gòu)建它的模型,這種方法并沒有引入額外的參數(shù),同時提供了一種更出色的模型訓練方法。
隨著訓練的深入進行,發(fā)現(xiàn)如下問題:首先,如果經(jīng)過修正線性調(diào)整在原非零位置重構(gòu)了一個零結(jié)點,在進行權(quán)重的反向傳導的過程中重構(gòu)結(jié)點無法進行梯度的傳播,這使識別準確率大打折扣,嚴重影響系統(tǒng)性能;其次,由于修正線性輸出無上限,權(quán)重傳輸不能應(yīng)用常規(guī)BP網(wǎng)絡(luò)所使用的方法進行處理。為解決上述問題,本文在DBN中引入噪聲項,構(gòu)建噪聲修正線性結(jié)點(Noisy Recti?ed Linear Unit,NReLU)。
由此,訓練過程中的公式(2)和公式(3)相應(yīng)的用公式(10)和公式(11)表示:
(11)
使用BP網(wǎng)絡(luò)進行優(yōu)化的過程同樣使用修正線性函數(shù)進行訓練,不引入噪聲項,以修正線性節(jié)點代替?zhèn)鹘y(tǒng)的二元節(jié)點進行訓練,在誤差反向傳導的過程中使用公式(12)進行。
RDBN的訓練流程如下:
(1) 參數(shù)初始化;
預(yù)訓練:
(2) 使用公式(10)、(11)進行修正線性RBM訓練;
(3) 采用CD算法利用公式(5)~(7)調(diào)整權(quán)重和偏置;
(4) 逐層完成RBM訓練,RBM初值調(diào)整完畢;
微調(diào):
(5) 將預(yù)訓練的權(quán)值賦給相同網(wǎng)絡(luò)結(jié)構(gòu)的BP網(wǎng)絡(luò);
(6) 權(quán)重反向傳輸過程使用公式(12)進行。
1.4 基于Dropout RDBN+HMM的聲學模型
1.3節(jié)構(gòu)建了RDBN+HMM的聲學模型,識別效果取得了一定提升,但并未達到預(yù)期。深入分析過后發(fā)現(xiàn),模型存在過擬合現(xiàn)象,特別是在RDBN中,修正線性函數(shù)的硬判決使網(wǎng)絡(luò)的過擬合現(xiàn)象更為突出。
將為了得到一致假設(shè)而使假設(shè)變得過度復(fù)雜這種現(xiàn)象為過擬合。在DBN中,當訓練樣本相對于模型參數(shù)來說比較充裕的時候,可能產(chǎn)生的分類決策面不唯一的情況,需要多個結(jié)點協(xié)同對參數(shù)進行表示,獨立的隱含層節(jié)點無法較好地對模型進行表征。這種協(xié)同作用在訓練集中表現(xiàn)較好、具有較高的分類正確率。但是在測試集中往往表現(xiàn)不佳,因為在訓練集上對網(wǎng)絡(luò)的調(diào)整使參數(shù)具有了協(xié)同作用,在測試集上卻無法進行類似的調(diào)整。同時,復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)不可避免地帶來訓練速度的降低。
傳統(tǒng)解決過擬合問題的主要方法為權(quán)值衰減,該方法每次迭代過程中加入一個與網(wǎng)絡(luò)權(quán)值總量相應(yīng)的懲罰項,進而保持權(quán)值較小,使學習過程向著復(fù)雜決策面的反方向進行。這種方法對網(wǎng)絡(luò)的優(yōu)化調(diào)整作用效果有限。
本文考慮從網(wǎng)絡(luò)結(jié)構(gòu)的角度出發(fā)對網(wǎng)絡(luò)模型進行調(diào)整,引入Dropout策略對模型結(jié)構(gòu)進行調(diào)整,進而防止過擬合。具體來說,Dropout中每一個結(jié)點隨機以一定的概率被置零,這樣網(wǎng)絡(luò)結(jié)點不能夠?qū)ζ渌Y(jié)點的即時狀態(tài)做出響應(yīng),權(quán)值的更新不再依賴于有固定關(guān)系的隱含結(jié)點的共同作用,阻止了某些結(jié)點僅僅在其他特定結(jié)點下發(fā)揮作用的情況。
從另一個角度來看,一個降低測試集上識別錯誤率的方法是對大量不同的網(wǎng)絡(luò)進行訓練,然后對訓練結(jié)果求取均值。標準的方法是訓練很多不同的網(wǎng)絡(luò)結(jié)構(gòu),然后使用這些網(wǎng)絡(luò)結(jié)構(gòu)進行數(shù)據(jù)的測試。但是這種方法無論在訓練還是測試階段計算成本都十分可觀。隨機進行Dropout使得在同一時間對大量的不同的網(wǎng)絡(luò)結(jié)構(gòu)進行訓練成為可能。對于每一次輸入到網(wǎng)絡(luò)中的樣本,對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)都有差異,但這些網(wǎng)絡(luò)結(jié)構(gòu)同時共享隱含層結(jié)點的權(quán)值,從而達到了求取均值的目的。
本文將Dropout策略引入RDBN+HMM中,提出了基于Dropout RDBN+HMM的聲學模型構(gòu)建方法。Dropout RDBN+HMM訓練的總體思路是:在每個訓練樣本訓練時,對于每一個隱含層的每一個結(jié)點來說,都按照一個固定的概率決定它是否激活,若某個結(jié)點不幸沒被激活,便視該結(jié)點的輸出值為0。相比于RDBN+HMM,引入Dropout后網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)做如下調(diào)整:
(1) 訓練階段:前饋網(wǎng)絡(luò)的部分權(quán)值的每一個隱含層結(jié)點的輸出值以一定的百分比隨機置零,這樣便完成了Dropout前饋網(wǎng)絡(luò)的構(gòu)建;
(2) 訓練階段:由于前饋網(wǎng)絡(luò)中使用Dropout,在微調(diào)部分權(quán)重反向傳輸?shù)倪^程中要進行相應(yīng)的調(diào)整,具體操作為網(wǎng)絡(luò)計算結(jié)點誤差時將誤差以一定的幾率置零;
(3) 測試階段:前饋網(wǎng)絡(luò)部分對于前饋網(wǎng)絡(luò)的處理與訓練階段相同,以相同的百分比將權(quán)重置零。
2.1 數(shù)據(jù)集
本文采用的數(shù)據(jù)集分為兩部分:第一部分為普通話評測第四題數(shù)據(jù)集。訓練集共包含語音76843句,共64.1小時;測試集含3720句,共2.6小時,兩個集共含2000多個說話人。
第二部分數(shù)據(jù)集會話主題開放,表達方式較為隨意、信道噪聲復(fù)雜,是中文連續(xù)語音識別難度較大的任務(wù)之一,其訓練集和測試集如表1、2所示。
表1 訓練集
表2 測試集
2.2 實驗系統(tǒng)構(gòu)建
本文采用的語音識別基線系統(tǒng)為DBN+HMM音素識別系統(tǒng)。首先進行濾波器組特征提取,隨后進行聲道參數(shù)規(guī)整(Vocal Tract Length Normalization,VTLN VTLN),再進行DBN訓練,采用72維的濾波器組特征[14]作為單幀特征(靜態(tài)、一階、二階差分),考慮到4維音調(diào)特征,共79維,每一幀前后各擴展5幀得到11幀的音素作為每一維的輸入。
濾波器組特征是對梅爾域倒譜系數(shù)特征(Mel Frequency Cepstral Coefficients, MFCC)特征的調(diào)整,圖8為MFCC特征提取流程。
進行深入分析后發(fā)現(xiàn),從信息的豐富程度來看,MFCC是經(jīng)過了降維處理的,在降維過程中盡管只舍棄掉了離散余弦變換變換后一些不重要的維,但是這些維仍然包含一定的有用信息。因此,本文考慮采用降維之前的特征即經(jīng)過Filter Bank濾波器組以后的輸出替換MFCC用來訓練DBN,F(xiàn)ilter Bank特征提取流程如圖9所示。
為了與MFCC盡可能相似,本文仍然使用了一階差分、二階差分和靜態(tài)特征拼接在一起,并且拼接上了4維的Pitch特征。最終的特征網(wǎng)絡(luò)變?yōu)?9*11-[2048-2048-2048-43]-3936。
本文使用文獻[15]給出的參數(shù)設(shè)置方法進行參數(shù)調(diào)節(jié)。權(quán)重以均值為0、方差為0.01的高斯分布取值;預(yù)訓練過程中設(shè)定訓練周期為200;批大小(Batch Size)為1024;迭代次數(shù)為10次。Momentum被用來加速訓練,初始選取為0.5,通過20次迭代線性增長到0.9;L2正則懲罰因子為0.002;聲學模型規(guī)整因子為1.2。
2.3 實驗結(jié)果及分析
本文設(shè)計了三組實驗來驗證本文所提出的聲學模型構(gòu)建方法的有效性,實驗1在規(guī)模較小的PSC數(shù)據(jù)集上對RDBN+HMM的學習速率和權(quán)重衰減系數(shù)進行調(diào)整;實驗2對Dropout的置零率進行調(diào)整;實驗3在以上實驗的基礎(chǔ)上對Dropout RDBN+HMM聲學模型性能進行了驗證。
本文使用詞錯誤率(Word Error Rate, WER)作為評價標準。通過對比不同模型的WER對模型的性能進行評估。
2.3.1 實驗1
首先,本文對預(yù)訓練的學習速率進行了調(diào)整。具體實驗結(jié)果如表3所示。
表3 預(yù)訓練學習速率對詞錯誤率的影響表
可見,當學習速度較大時,會導致整個訓練過程不收斂,從而出現(xiàn)無法進行訓練的情況,而學習速度為0.0125時就出現(xiàn)了不收斂的現(xiàn)象。從表3結(jié)果來看,學習速度對整個預(yù)訓練過程的影響較小,學習速度取在0.01時能夠取得最優(yōu)性能,在后續(xù)的訓練中將學習速度統(tǒng)一設(shè)置為0.01。
隨后,本文進行了權(quán)重衰減系數(shù)的調(diào)整,測試不同預(yù)訓練權(quán)重衰減系數(shù)對識別性能的影響,具體實驗結(jié)果如表4所示。
表4 不同權(quán)重衰減對詞錯誤率的影響
權(quán)重衰減在每次迭代過程中以小因子降低每個權(quán)值,加入一個與網(wǎng)絡(luò)權(quán)值的總量相應(yīng)的懲罰項,保持權(quán)值較小,從而使學習向著復(fù)雜決策面的反方向進行,有效地防止過擬合。從表4識別結(jié)果可以看出,較小的權(quán)重衰減能夠從一定程度上防止過擬合,提升識別性能,但是當權(quán)重衰減較大時,網(wǎng)絡(luò)反而不能達到所需的精度,識別性能開始下降。權(quán)重衰減系數(shù)為0.0008能夠達到最優(yōu)的性能。因此,本文中采用0.0008的權(quán)重衰減系數(shù)。
2.3.2 實驗2
在試驗2中本文重點研究Dropout置零率對系統(tǒng)識別性能的影響,實驗中置零率分別設(shè)置為0、0.1、0.2、0.3、0.4、0.5、0.6、0.7。在測試集2上測試的結(jié)果表5所示。
表5 不同置零率對詞錯誤率的影響
通過實驗,Dropout的置零率在0.3時系統(tǒng)取得最優(yōu)效果,過高或過低的置零率都會帶來識別準確率的下降,因此本文在后續(xù)實驗中Dropout置零率統(tǒng)一設(shè)置為0.3。
2.3.3 實驗3
在上述實驗的基礎(chǔ)上,本實驗針對本章所提出的基于Dropout RDBN+HMM聲學模型進行實驗驗證,分別建立了傳統(tǒng)基于DBN+HMM的聲學模型、基于RDBN+HMM的聲學模型、基于Dropout DBN+HMM的聲學模型以及基于Dropout RDBN+HMM的聲學模型,在數(shù)據(jù)集2上對上述模型進行驗證,實驗結(jié)果如表6所示。
表6 不同聲學模型的識別性能對比
通過實驗發(fā)現(xiàn):①模型(1)和模型(2)實驗結(jié)果表明,在不同的數(shù)據(jù)集上,基于RDBN+HMM的聲學模型相對于傳統(tǒng)的DBN+HMM的聲學模型均取得了效果的提升,符合實驗預(yù)期,表明了基于RDBN+HMM的聲學模型是一種表征能力更強的聲學模型構(gòu)建方法;②模型(1)和模型(3)的實驗結(jié)果表明:Dropout DBN+HMM相對于傳統(tǒng)的DBN+ HMM取得了一定的詞錯誤率提升,Dropout策略能夠防止過擬合;③模型(4)有著最佳的實驗結(jié)果,證明了Dropout策略能夠與修正線性網(wǎng)絡(luò)協(xié)同作用于DBN+HMM,這使得基于Dropout RDBN+HMM的聲學模型在擁有較強表征能力的同時,能夠利用Dropout策略防止模型過擬合。
修正線性結(jié)點的硬判決有助于識別速度的提升,能夠抵消Dropout策略的引入給模型訓練速度帶來的負面影響??紤]到模型訓練過程中要引入切分、強制對齊等技術(shù)進行分步訓練,難以對模型訓練時間進行準確把握,同時聲學模型訓練過程的耗時對解碼識別過程影響不大,故未對訓練速度做定量分析。
本文提出一種基于Dropout RDBN+HMM的聲學模型構(gòu)建方法。該方法使用修正線性函數(shù)代替?zhèn)鹘y(tǒng)的Logistic函數(shù)進行DBN的訓練,使用修正線性函數(shù)的硬判決對網(wǎng)絡(luò)進行優(yōu)化,增強了模型的表征能力;同時引入Dropout策略對網(wǎng)絡(luò)模型進行調(diào)整,防止訓練過程中出現(xiàn)過擬合,促使系統(tǒng)構(gòu)成一個均值網(wǎng)絡(luò),提高了網(wǎng)絡(luò)的泛化能力。本文在聲道環(huán)境復(fù)雜、會話主題多樣的多個數(shù)據(jù)集中進行了測試,新的聲學模型構(gòu)建方法相對于傳統(tǒng)方法取得了2.0%的詞錯誤率提升,表明本文提出的基于Dropout RDBN+HMM的聲學模型構(gòu)建方法相對于傳統(tǒng)方法的優(yōu)越性。
[1] 鄭鐵然. 基于音節(jié)網(wǎng)格的漢語語音文檔檢索方法研究[D]. 哈爾濱: 哈爾濱工業(yè)大學.2008.
[2] 韓紀慶, 張磊, 鄭鐵然. 語音信號處理[M]. 北京: 清華大學出版社. 2004.
[3] Torres-Carrasquillo P A, Singer E, Kohler M A., et al. Approaches to language identification using gaussian mixture models and shifted delta cepstral features [C]//Proc ICSLP. 2002: 33-36.
[4] Mohamed A, Dahl G, Hinton G. Acoustic modeling using deep belief networks [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 14-22.
[5] Dahl G E, Sainath T N, Hinton G E. Improving deep neural networks for lvcsr using recti?ed linear units and dropout[C]//ICASSP, 2013.
[6] Hinton G, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. The Computing Research Repository, abs/1207.0580, 2012.
[7] Vinod Nair, Geo?rey G, Hinton. rectified linear units improve restricted boltzmann machines[C]//ICML-10.2010.
[8] Zeiler M D, Ranzato M, Monga R., et al. On Recti?ed Linear Units for Speech Processing[C]//ICASSP, 2013.
[9] Hinton G, Salakhutdinov R.. Reducing the dimensionality of data with neural networks [J]. Science. 2006, 313(5786): 504-507.
[10] Yu D, Seltzer M. Improved bottleneck features using pre-trained deep neural networks[C]//Proceedings of the International Speech Communication Association, 2011, Florence, Italy: 237-240.
[11] Yu D, Deng L, Dahl G E. Roles of pre training and fine-tuning in context-dependent dbn-hmms for real-world speech recognition[C]//NIPS 2010 Workshop on Deep Learning for Speech Recognition and Related Applications, 2009.
[12] Glorot X, Bordes A, Bengio Y. Deep sparse recti?er neural networks[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011.
[13] Purves D, George J, Augustine, Fitzpatrick D, et al. Neuroscience [M]. 2nd, Sinauer Associates Inc, 2001. ISBN 087893-741-2.
[14] Chakroborty S, Roy A, Majumdar S, et al. Capturing complementary information via reversed filter bank and parallel implementation with mfcc for improved text-independent speaker identification[C]//Computing: Theory and Applications, 2007 ICCTA07 International Conference on: IEEE. 2007: 463-467
[15] Hinton G. A practical guide to training restricted boltzmann machines [R]. Technical Report 2010-003, Machine Learning Group, University of Toronto, Canada, 2010.
Acoustic model based on Dropout rectified deep belief network in large vocabulary continuous speech recognition system
CHEN Lei1, 2, YANG Jun-an1,2, WANG Long1, 2, LI Jin-hui1, 2
(1. Electronic Engineering Institute, Hefei 230037, Anhui, China;2. Key Laboratory of Electronic Restriction, Anhui Province, Hefei 230037, Anhui, China)
To improve representation ability of acoustic model and prevent over fitting in large vocabulary continuous speech recognition system, this article proposes a method of establishing the acoustic model based on Dropout rectified Deep Belief Network (DBN). This method uses rectified linear function instead of traditional Logistic function as the activation function for DBN training, and the rectified linear function that is closer to the working mode of biological neural network can improve acoustic representation ability of the model, simultaneously Dropout strategy is introduced to avoid the synergy between nodes and to prevent over fitting. The actual test certificate on public speech databases proves the superiority of the proposed method over the conventional one.
large vocabulary continuous speech recognition; deep belief network; rectified linear function; over fitting; Dropout
TP391
A
1000-3630(2016)-02-0146-09
10.16300/j.cnki.1000-3630.2016.02.0012
2015-03-08;
2015-04-17
國家自然科學基金資助項目(60872113)
陳雷(1990-), 男, 遼寧鐵嶺人, 碩士研究生, 研究方向為語音識別和機器學習。
陳雷, E-mail: plory89@163.com