鄭文秀, 連曉飛, 張旭東, 黃瓊丹
(西安郵電大學(xué) 通信與信息工程學(xué)院, 陜西 西安 710121)
近年來,深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)模型在連續(xù)語音識別任務(wù)中廣泛應(yīng)用,語音識別準(zhǔn)確率有了極大的提升。語音識別系統(tǒng)主要包含三個部分:特征提取、聲學(xué)模型的建立、解碼識別[1]。特征提取是指從原始數(shù)據(jù)中提取出有利于語音識別的部分特征,并進(jìn)行降維、去噪處理[2]。聲學(xué)模型的建立是語音識別系統(tǒng)中最重要的一個部分,目前應(yīng)用最廣泛的是高斯混合—隱馬爾科夫模型(Gaussian mixture model-hidden Markov model,GMM-HMM),其優(yōu)點是計算量較小且在語音識別中效果不俗。
傳統(tǒng)的語音識別聲學(xué)模型利用梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)特征對GMM-HMM進(jìn)行建模[3],但MFCC特征為短時特征,信息量較少、魯棒性差,也忽略了連續(xù)語音中前后幀信息間的相關(guān)性。因此,文獻(xiàn)[4]研究了一種具有狹窄中間層的瓶頸深度神經(jīng)網(wǎng)絡(luò)提取瓶頸(bottleneck,BN)特征,代替MFCC特征訓(xùn)練GMM-HMM聲學(xué)模型,語音識別系統(tǒng)性能有效提升。
基于上述思想,本文聯(lián)合L21范數(shù)懲罰函數(shù)和重疊組套索算法提取稀疏性BN特征[5~7],并將其與傳統(tǒng)的MFCC特征相結(jié)合,構(gòu)造一種新的復(fù)合特征參數(shù)流,利用新特征流重構(gòu)GMM-HMM聲學(xué)模型,在TIMIT數(shù)據(jù)庫上的實驗結(jié)果表明,稀疏BN復(fù)合特征能有效提高系統(tǒng)語音識別準(zhǔn)確率。
當(dāng)前,基于DNN的語音瓶頸特征提取方法仍有不足之處,處理冗余信息時會丟失部分語音特征信息,導(dǎo)致語音識別準(zhǔn)確率仍達(dá)不到期望。此外,連續(xù)語音中前后幀之間具有一定的相關(guān)性,這也是提高語音識別率的關(guān)鍵。
深度神經(jīng)網(wǎng)絡(luò)瓶頸(BN-DNN)特征模型是在DNN模型的基礎(chǔ)上,在隱含層之間引入瓶頸層來減少輸出特征的維度[8]。如圖1所示。
圖1 BN-DNN結(jié)構(gòu)
在機器學(xué)習(xí)中引入稀疏通常是在目標(biāo)函數(shù)中添加稀疏正則項,并將其視為凸優(yōu)化問題來解決。相關(guān)研究表明,將稀疏應(yīng)用到DNN時,重疊組套索算法能較好表征稀疏變量的結(jié)構(gòu)先驗信息[9]。
將重疊組套索算法應(yīng)用于DNN主要是將隱含層神經(jīng)元hj,平均分配到M個互相重疊的組Gm(m=1,2,…,M)中,組間重疊的程度由系數(shù)?控制。再通過引入L21范數(shù)懲罰函數(shù)到目標(biāo)函數(shù)中,使學(xué)習(xí)的結(jié)果具有重疊組稀疏的特性。DNN模型訓(xùn)練采用反向傳播(back propagation,BP)算法,因此稀疏DNN的目標(biāo)函數(shù)可寫為
L=-∑p(x)logq(x)+λ‖p(h=1|v)‖2,1
(1)
式中λ‖p(h=1|v)‖2,1為稀疏正則項的一般表達(dá)式,λ為正則化參數(shù)。由于本文選擇重疊組套索作為稀疏DNN的正則項,式(1)可改寫為
(2)
式中Gm為M個重疊組中的第m組神經(jīng)元,n為Gm中對應(yīng)的第n個隱含層神經(jīng)元,p(hn=1|vl)為第l隱含層中第n個隱含層神經(jīng)元的激活概率。選擇L21范數(shù)有兩個原因:在組間,L1范數(shù)可以促使部分隱含層單元組的范數(shù)為0;在組內(nèi),L2范數(shù)具有相關(guān)性特征選擇的作用,從而有效提取語音前后幀相關(guān)性信息。
利用梯度下降算法對目標(biāo)函數(shù)的對數(shù)似然概率進(jìn)行計算,可得稀疏正則項的更新公式為
p(hm=1|vl)·vl
(3)
從而推導(dǎo)出BN-DNN訓(xùn)練的權(quán)值和偏置的更新公式為
(4)
(5)
式中 Δwi,j為從節(jié)點i到節(jié)點j的更新權(quán)值,Δbi為節(jié)點i的更新偏置。
訓(xùn)練方法:1)輸入MFCC聲學(xué)特征,采用無監(jiān)督學(xué)習(xí)的方式預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),初始化每個網(wǎng)絡(luò)節(jié)點參數(shù);2)在BN-DNN目標(biāo)函數(shù)中加入稀疏正則項,使學(xué)習(xí)的結(jié)果具有重疊組稀疏的特性;3)對BN-DNN進(jìn)行微調(diào)優(yōu)化,采用標(biāo)注數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)的監(jiān)督訓(xùn)練,使用BP算法來回調(diào)整網(wǎng)絡(luò)參數(shù),逐層更新網(wǎng)絡(luò)權(quán)重集,在訓(xùn)練結(jié)束后的BN-DNN模型中提取稀疏性瓶頸特征;4)將BN層之后的網(wǎng)絡(luò)移除,把原來的瓶頸層作為輸出層,從BN-DNN模型中提取出稀疏性瓶頸特征[10,11]。
聲學(xué)復(fù)合特征指將非短時差異特征與傳統(tǒng)短時特征拼接后形成的新特征參數(shù)。呂丹桔等人[12]將采用ANN技術(shù)提取出的非短時差異特征MLP與傳統(tǒng)短時特征MFCC復(fù)合構(gòu)成聲學(xué)復(fù)合特征,利用聲學(xué)復(fù)合特征訓(xùn)練GMM-HMM聲學(xué)模型,實驗結(jié)果表明復(fù)合特征比單一特征具有更好的識別表現(xiàn)。本文由于只是截取部分DNN來提取稀疏性BN特征,也將損失一部分語音特征。因此,提出將BN-DNN提取的非短時39維稀疏性BN特征與傳統(tǒng)的39維MFCC特征復(fù)合成78維的高維特征參數(shù),來彌補語音特征的損失,通過線性區(qū)分分析(linear discriminant analysis,LDA)進(jìn)行降維,降維后的39維特征參數(shù)用于GMM-HMM聲學(xué)建模[13]。流程圖如圖2所示。
圖2 稀疏BN復(fù)合特征構(gòu)造流程圖
本文利用TIMIT聲學(xué)—音素學(xué)連續(xù)語音語料庫來驗證實驗的有效性,其中共包含6.5 h的語音數(shù)據(jù)(測試集選用100名發(fā)音人約1 h的語料庫),訓(xùn)練集包含500名說話人約5.5 h的語音數(shù)據(jù),且訓(xùn)練集與測試集沒有相同的說話人。實驗將詞錯誤率(word error rate,WER)作為評估指標(biāo)。WER定義為
(6)
式中S為替換,D為刪除,I為插入,N為單詞數(shù)量。
本文使用三音素建模。對三音素單元使用自左向右的無狀態(tài)間跨越的三狀態(tài)HMM,每個HMM拓?fù)浣Y(jié)構(gòu)前后都有一個開始狀態(tài)和一個結(jié)束狀態(tài)[14]。利用最大似然估計準(zhǔn)則訓(xùn)練的GMM-HMM聲學(xué)模型,輸入為連續(xù)11幀的39維特征(12維稀疏性BN特征和1維對數(shù)能量,以及兩者的一、二階差分),漢明窗幀長設(shè)置為25 ms,幀移設(shè)置為10 ms[15],HMM中每個狀態(tài)設(shè)置100個獨立的高斯分量。本實驗DNN模型中包含5個隱含層,其中最中間的隱含層定義為BN層。BN層神經(jīng)元個數(shù)通常設(shè)置與特征單幀維數(shù)相同,為了提升DNN的性能,其他隱含層神經(jīng)元個數(shù)相同且盡量設(shè)置較大;輸入層神經(jīng)元個數(shù)=幀數(shù)×每幀特征的維數(shù),即輸入層的節(jié)點個數(shù)=11×39=429。因此,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為429-[1024-1024-39-1024-1024]-429,稀疏組重疊系數(shù)?設(shè)置為30 %。DNN模型訓(xùn)練采用BP算法,其中隨機梯度下降的Mini-batch設(shè)為512。為了防止權(quán)重過大,使用較小的學(xué)習(xí)效率,模型學(xué)習(xí)效率設(shè)置為0.04,沖量值的大小為0.3。訓(xùn)練結(jié)束后,利用39維稀疏性瓶頸特征訓(xùn)練得到的GMM-HMM模型進(jìn)行解碼識別。
BN+MFCC-GMM-HMM模型的訓(xùn)練采用提取的39維稀疏性BN特征和39維MFCC特征進(jìn)行串接得到的78維復(fù)合特征,經(jīng)過LDA降維后[16,17]獲得39維復(fù)合特征,訓(xùn)練復(fù)合特征的GMM-HMM聲學(xué)模型。稀疏BN復(fù)合特征的GMM-HMM模型訓(xùn)練所涉及的一些參數(shù)配置與BN-GMM-HMM模型一致。過程如圖3所示。
圖3 稀疏BN復(fù)合特征的聲學(xué)模型建立過程
實驗1隱含層中神經(jīng)元個數(shù)的最優(yōu)配置
調(diào)整BN-DNN模型中隱含層神經(jīng)元個數(shù)確定最佳的網(wǎng)絡(luò)結(jié)構(gòu)配置。設(shè)置BN層神經(jīng)元個數(shù)為39、稀疏組重疊系數(shù)為30 %。隱含層依次設(shè)置為128,256,512,1 024,2 048五種時,WER分別為17.29 %,16.37 %,15.65 %,15.38 %,15.52 %。結(jié)果表明:在BN層神經(jīng)元個數(shù)為39、稀疏組重疊系數(shù)設(shè)置為30 %的情況下,隨著隱含層神經(jīng)元個數(shù)增加,WER逐漸降低,當(dāng)隱含層神經(jīng)元個數(shù)達(dá)到1 024時,稀疏BN復(fù)合特征構(gòu)建的聲學(xué)模型效果達(dá)到最佳。當(dāng)隱含層神經(jīng)元個數(shù)繼續(xù)增大時,WER反而升高,所以隱含層神經(jīng)元個數(shù)并不是越多越好,五層隱含層神經(jīng)元個數(shù)的最優(yōu)設(shè)置為1 024。
實驗2BN層神經(jīng)元個數(shù)的最優(yōu)設(shè)置
根據(jù)實驗1確定隱含層神經(jīng)元個數(shù)為1 024是最優(yōu)設(shè)置,稀疏組重疊系數(shù)設(shè)置為30 %,確定BN層神經(jīng)元個數(shù)為39是否為最優(yōu)參數(shù)。改變BN層神經(jīng)元個數(shù),依次設(shè)置為30,35,39,45,50時,WER分別為13.67 %,13.61 %,13.53 %,13.62 %,13.65 %。結(jié)果表明,在隱含層神經(jīng)元個數(shù)為1024、稀疏組重疊系數(shù)為30 %的情況下,改變BN層神經(jīng)元個數(shù),WER并沒有太大的改變,最大差距是BN層神經(jīng)元個數(shù)為39時,比30降低了0.14 %,但還是驗證了BN層神經(jīng)元個數(shù)為39時,稀疏BN復(fù)合特征建立的GMM-HMM聲學(xué)模型性能最好。
實驗3稀疏組重疊系數(shù)的最優(yōu)配置
根據(jù)實驗1、實驗2確定隱含層神經(jīng)元個數(shù)和BN層神經(jīng)元個數(shù)的最優(yōu)設(shè)置為1 024和39,改變稀疏組重疊系數(shù),分別設(shè)置為0 %,20 %,30 %,40 %和50 %時,WER分別為14.86 %,14.41 %,14.21 %,14.27 %,14.33 %。可以看出,在隱含層和BN層神經(jīng)元個數(shù)分別為1 024和39的情況下,當(dāng)稀疏度越大時,WER的值越小。但當(dāng)稀疏度達(dá)到一定的峰值,繼續(xù)增加WER的值反而增大,稀疏組重疊系數(shù)設(shè)置為30 %是最優(yōu)配置。稀疏組重疊系數(shù)30 %與0 %相比,其WER降低了0.65 %,其原因是稀疏正則項有效控制了深度神經(jīng)網(wǎng)絡(luò)的泛化能力,聲學(xué)模型具有較強的魯棒性。
實驗4四種不同特征的聲學(xué)模型識別率比對
在TIMIT上分別搭建基于MFCC,BN和BN+MFCC特征的GMM-HMM聲學(xué)模型系統(tǒng)以及DNN-HMM聲學(xué)模型系統(tǒng)的WER分別為18.31 %,16.56 %,16.35 %,13.07 %??梢钥闯?,BN+MFCC-GMM-HMM聲學(xué)模型具有最佳的識別效果。相較于傳統(tǒng)的MFCC特征WER降低了5.24 %,語音識別率大幅提升。稀疏BN復(fù)合特征相較于深度神經(jīng)網(wǎng)絡(luò)后驗特征和單一的BN特征WER分別降低了3.49 %和3.28 %。DNN后驗特征與稀疏性BN特征具有相當(dāng)?shù)淖R別表現(xiàn)。稀疏性BN特征不僅能夠借助成熟的GMM-HMM進(jìn)行聲學(xué)建模,而且在融合了MFCC特征后,其系統(tǒng)識別率又進(jìn)一步提升,從而驗證了基于稀疏BN復(fù)合特征的聲學(xué)模型優(yōu)良性能。
本文研究了聯(lián)合L21范數(shù)懲罰函數(shù)和重疊組套索算法提取出低維、具有稀疏性的BN特征,并將它與傳統(tǒng)的MFCC特征相融合,構(gòu)造新的復(fù)合特征參數(shù)流,訓(xùn)練復(fù)合特征的GMM-HMM聲學(xué)模型。最后在TIMIT數(shù)據(jù)庫上對隱含層與BN層神經(jīng)元個數(shù)、稀疏組重疊系數(shù)大小、不同特征的聲學(xué)模型識別率進(jìn)行了相關(guān)的對比實驗。實驗結(jié)果表明:基于稀疏DNN提取的BN特征比傳統(tǒng)的MFCC特征有更好的識別表現(xiàn),而且在融合了MFCC特征后,系統(tǒng)識別率又大幅度提升。稀疏BN復(fù)合特征不僅結(jié)合了稀疏性BN特征的語音長時相關(guān)性,還結(jié)合了MFCC特征更符合人耳的聽覺特性。下一步會把稀疏性BN特征與其他傳統(tǒng)特征相融合,以期獲得更高的識別率。