鄭文秀,趙峻毅,文心怡,姚引娣
(西安郵電大學(xué) 通信與信息工程學(xué)院,西安 710121)
近年來(lái),隨著語(yǔ)音識(shí)別技術(shù)的迅速發(fā)展,特別是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)在大詞匯量連續(xù)語(yǔ)音識(shí)別中的成功應(yīng)用,使語(yǔ)音的識(shí)別正確率得到了很大的提升。語(yǔ)音識(shí)別系統(tǒng)一般包含特征提取、聲學(xué)模型和解碼識(shí)別3個(gè)部分[1]。特征提取是將原始數(shù)據(jù)中提取有利于后續(xù)過(guò)程中語(yǔ)音識(shí)別的部分特征,消除大量冗余信息,對(duì)這些特征進(jìn)行降維和去噪處理[2]。聲學(xué)模型訓(xùn)練利用特征和標(biāo)注訓(xùn)練模型來(lái)區(qū)分隱馬爾科夫模型(Hidden Markov Model,HMM)狀態(tài),包括高斯混合模型(Gaussian Mixture Model,GMM)、深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN)[3]、深度神經(jīng)網(wǎng)絡(luò)[4]和瓶頸-高斯混合模型(BottleNeck-GMM,BN-GMM)。
在DNN-HMM聲學(xué)模型之前,GMM-HMM聲學(xué)模型具有完善的理論知識(shí)體系,訓(xùn)練效率較高。傳統(tǒng)的語(yǔ)音識(shí)別聲學(xué)模型采用梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)特征對(duì)GMM-HMM進(jìn)行建模。但是MFCC特征具有短時(shí)的特性,容易受到環(huán)境中噪聲的影響,魯棒性較差,忽略了連續(xù)幀之間的相關(guān)特性[5]。為利用GMM-HMM的性能優(yōu)勢(shì),文獻(xiàn)[6-7]研究了一種具有狹窄中間層的瓶頸深度神經(jīng)網(wǎng)絡(luò),從神經(jīng)網(wǎng)絡(luò)的瓶頸層提取BN特征來(lái)代替MFCC特征,并應(yīng)用于GMM-HMM聲學(xué)模型訓(xùn)練,構(gòu)造出BN-GMM-HMM,實(shí)驗(yàn)結(jié)果表明,該模型與DNN-HMM聲學(xué)模型相比具有相當(dāng)?shù)淖R(shí)別能力。
本文將深度神經(jīng)網(wǎng)絡(luò)提取的語(yǔ)音長(zhǎng)時(shí)相關(guān)性和緊湊性特征與傳統(tǒng)MFCC特征相結(jié)合,構(gòu)造一種新的復(fù)合特征參數(shù)流系統(tǒng)。該系統(tǒng)采用成熟的GMM-HMM聲學(xué)模型,并利用復(fù)合特征參數(shù)流進(jìn)行GMM-HMM模型的重構(gòu),以提升系統(tǒng)的識(shí)別率。
2007年,GREZL等人[8]提出瓶頸的概念并在連續(xù)語(yǔ)音識(shí)別中成功應(yīng)用。通過(guò)在BN-DBN引入瓶頸層減少了輸出特征的維度,降低了后續(xù)的運(yùn)算復(fù)雜度[9]。本文采用基于DNN模型的瓶頸聲學(xué)特征,其訓(xùn)練與其他應(yīng)用于語(yǔ)音識(shí)別的DNN訓(xùn)練程相似。輸入數(shù)據(jù)為39維(12維濾波器輸出值,1維對(duì)數(shù)能量和兩者的一階、二階差分)、幀長(zhǎng)為25 ms、幀移為10 ms、11幀拼接的MFCC特征[10]。
本文采用的DNN由輸入層、5層隱層和輸出層構(gòu)成。相鄰的兩層神經(jīng)元之間相互連接,層內(nèi)神經(jīng)元不連接[11]?;贐N-DNN的語(yǔ)音特征提取可以分為以下2個(gè)主要步驟:
步驟1建立DNN。DNN的訓(xùn)練分成神經(jīng)網(wǎng)初始化和參數(shù)更新2個(gè)階段,即預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning),建立一個(gè)訓(xùn)練好的DNN[12]。
1)Pre-training階段:采用貪婪算法進(jìn)行非監(jiān)督的方法訓(xùn)練一個(gè)受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM),再通過(guò)從底向上的方式訓(xùn)練多個(gè)RBM,底層RBM的輸出值作為高層的輸入值,獲得一個(gè)DBN網(wǎng)絡(luò)。
本文RBM的能量函數(shù)為高斯-伯努利型,可表示為:
E(v,h;θ)=
(1)
其中,θ代表模型參數(shù),vi代表第i個(gè)顯層神經(jīng)元,hj代表第j個(gè)隱層神經(jīng)元,Wij代表第i個(gè)神經(jīng)元和第j個(gè)神經(jīng)元的連接權(quán)重,σi代表控制能量寬度的參數(shù),bi代表顯層神經(jīng)元的第i個(gè)偏置,aj代表隱層神經(jīng)元的第j個(gè)偏置。
利用梯度下降(Gradient Descent,GD)算法對(duì)RBM的對(duì)數(shù)似然概率logap(v,h;θ)進(jìn)行計(jì)算,其推導(dǎo)公式為:
(2)
(3)
(4)
(5)
2)Fine-tuning階段:在最后一個(gè)RBM處采取反向傳播(Back Propagation,BP)算法對(duì)整個(gè)神經(jīng)網(wǎng)自頂向下進(jìn)行有監(jiān)督地微調(diào)訓(xùn)練,完成DNN的建立。DNN的結(jié)構(gòu)如圖1所示。
圖1 DNN結(jié)構(gòu)Fig.1 Structure of DNN
步驟2訓(xùn)練好DNN后,將瓶頸層后面網(wǎng)絡(luò)移除,瓶頸層當(dāng)作輸出層獲取BN特征[9]。BN-DNN結(jié)構(gòu)如圖2所示。
圖2 BN-DNN結(jié)構(gòu)Fig.2 Structure of BN-DNN
從圖2可以看出[13],隱層3為瓶頸層,將提取的MFCC聲學(xué)特征作為輸入數(shù)據(jù)經(jīng)過(guò)顯層和隱層對(duì)網(wǎng)絡(luò)進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,并采取BP算法對(duì)整個(gè)神經(jīng)網(wǎng)由后往前進(jìn)行有監(jiān)督地微調(diào)訓(xùn)練,完成DNN的建立。訓(xùn)練好模型后,將隱層3之后的隱層4、隱層5及輸出層去除,并將瓶頸層作為輸出層。DNN具有強(qiáng)大的分類(lèi)能力,可以從數(shù)據(jù)中學(xué)習(xí)更有利于特定分類(lèi)任務(wù)的特征表示,因此提取出的語(yǔ)音瓶頸特征更有效。
復(fù)合特征是指?jìng)鹘y(tǒng)的短時(shí)特征和非短時(shí)差異特征復(fù)合后形成新的特征參數(shù)流。2010年,呂丹桔等人[14]提出將傳統(tǒng)的短時(shí)特征如MFCC/PLP特征與采用ANN技術(shù)提取具有差異特征的MLP復(fù)合構(gòu)成新的復(fù)合特征向量,利用構(gòu)造出的復(fù)合特征GMM-HMM聲學(xué)建模在漢語(yǔ)的聲學(xué)特征的識(shí)別率上比單特征有了明顯提高。2018年,周楠等人[15]在藏語(yǔ)的研究中進(jìn)行了瓶頸復(fù)合特征的相關(guān)實(shí)驗(yàn),結(jié)果表明,復(fù)合特征相比于單BN特征和DNN后驗(yàn)特征系統(tǒng),識(shí)別率有了明顯改善。本文采取DNN模型提取瓶頸特征與MFCC特征相結(jié)合構(gòu)造出一個(gè)新的復(fù)合特征參數(shù)。
復(fù)合特征提取步驟如下:
1)對(duì)語(yǔ)音的原始數(shù)據(jù)預(yù)處理得到MFCC特征。
2)訓(xùn)練基于最大似然準(zhǔn)則的GMM-HMM聲學(xué)模型,并通過(guò)區(qū)分性訓(xùn)練優(yōu)化GMM模型。
3)采用步驟2優(yōu)化好的GMM模型對(duì)訓(xùn)練標(biāo)注進(jìn)行強(qiáng)制對(duì)齊,獲取幀級(jí)標(biāo)注用于DNN訓(xùn)練。
4)通過(guò)Pre-training初始化前面得到的DNN網(wǎng)絡(luò)參數(shù),并根據(jù)交叉熵準(zhǔn)則Fine-tuning訓(xùn)練DNN網(wǎng)絡(luò)。
5)移除上一步驟得到的DNN網(wǎng)絡(luò)中瓶頸層之后的網(wǎng)絡(luò),將瓶頸層作為輸出層,獲取BN特征。
6)將上述步驟獲取的BN特征和MFCC特征進(jìn)行串接獲取復(fù)合特征。
復(fù)合特征的流程如圖3所示。
圖3 復(fù)合特征的訓(xùn)練流程Fig.3 Training procedure of compound features
本文采用三音素模型進(jìn)行訓(xùn)練。三音素模型采用A_B_C形式,B為當(dāng)前狀態(tài),A和C分別為前后狀態(tài),對(duì)三音素單元使用自左向右的無(wú)狀態(tài)間跨越的三狀態(tài)HMM,每個(gè)HMM拓?fù)浣Y(jié)構(gòu)前后都有一個(gè)開(kāi)始狀態(tài)和一個(gè)結(jié)束狀態(tài)[17]。
基于最大似然準(zhǔn)則的GMM-HMM聲學(xué)模型,其輸入為39維特征,幀長(zhǎng)為25 ms,幀移為10 ms,HMM中的每個(gè)狀態(tài)設(shè)置100個(gè)獨(dú)立的高斯分量。
由DNN作為特征提取模塊提取出BN特征并使用GMM-HMM進(jìn)行聲學(xué)建模所構(gòu)成的系統(tǒng)稱(chēng)為級(jí)聯(lián)系統(tǒng)[18]。首先訓(xùn)練一個(gè)DNN-bottleneck神經(jīng)網(wǎng)絡(luò)提取瓶頸特征。輸入層神經(jīng)元數(shù)目=輸入特征的幀數(shù)×每幀的維數(shù),即輸入層節(jié)點(diǎn)429=39×11;隱層中的神經(jīng)元數(shù)目通常設(shè)置應(yīng)盡量大,使得它可以提升深度神經(jīng)網(wǎng)絡(luò)的性能,且除BN層以外,其他隱層的神經(jīng)元數(shù)目相等;瓶頸層的神經(jīng)元數(shù)目通常設(shè)置和特征的單幀維數(shù)一樣。因此,本文的BN-DNN的結(jié)構(gòu)表示為:429-[1 024-1 024-39-1 024-1 024]-429。最后,將得到的BN特征訓(xùn)練GMM-HMM模型,進(jìn)行識(shí)別解碼。
復(fù)合特征的GMM-HMM模型的訓(xùn)練采用提取的39維BN特征和39維傳統(tǒng)MFCC特征進(jìn)行串接,得到78維高維度復(fù)合特征,經(jīng)過(guò)主成分分析法(Principal Component Analysis,PCA)降維[19-20]后,獲得39維的復(fù)合特征,重復(fù)2.2節(jié)中復(fù)合特征提取步驟中的步驟2的訓(xùn)練方法,訓(xùn)練復(fù)合特征的GMM-HMM聲學(xué)模型并進(jìn)行識(shí)別解碼。復(fù)合特征的聲學(xué)模型建立過(guò)程如圖4所示。
圖4 復(fù)合特征的聲學(xué)模型建立過(guò)程Fig.4 Process of acoustic model establishing with compound features
實(shí)驗(yàn)過(guò)程如下:
1)數(shù)據(jù)集
本文采用TIMIT聲學(xué)-音素學(xué)連續(xù)語(yǔ)音語(yǔ)料庫(kù)來(lái)驗(yàn)證實(shí)驗(yàn)的有效性,共包含4.3 h的語(yǔ)音數(shù)據(jù)(其中包含1.1 h的NIST測(cè)試數(shù)據(jù))。數(shù)據(jù)集中訓(xùn)練集包含462個(gè)不同發(fā)音人朗讀的4 620個(gè)句子,測(cè)試集包含162個(gè)不同發(fā)音人朗讀的1 620個(gè)句子,且訓(xùn)練集與測(cè)試集沒(méi)有同一個(gè)說(shuō)話(huà)人。
2)參數(shù)的設(shè)置
在Pre-training階段,所有的RBM使用CD算法配合小批量隨機(jī)梯度下降法進(jìn)行訓(xùn)練,每一個(gè)mini-batch的大小為128,沖量因子設(shè)置為0.9,不使用權(quán)重衰減,學(xué)習(xí)率訓(xùn)練200代RBM。在Fine-tuning階段,所有的參數(shù)設(shè)置和預(yù)訓(xùn)練階段相同。
3)評(píng)估標(biāo)準(zhǔn)
本文將詞錯(cuò)誤率(Word Error Rate,WER)作為評(píng)估標(biāo)準(zhǔn)。WER的公式為:
(6)
其中,S為替換數(shù),D為刪除數(shù),I為插入數(shù),N為單詞數(shù)。
實(shí)驗(yàn)1隱層中神經(jīng)元個(gè)數(shù)的最優(yōu)設(shè)置
在實(shí)驗(yàn)1中,本文通過(guò)調(diào)整BN-DNN模型中隱層的神經(jīng)元個(gè)數(shù)確定最佳的網(wǎng)絡(luò)結(jié)構(gòu)配置。隱層依次設(shè)置為256、512、1 024、2 048這4種情況,每個(gè)隱層神經(jīng)元個(gè)數(shù)相同,且BN層神經(jīng)元數(shù)目臨時(shí)設(shè)置為39。不同神經(jīng)元個(gè)數(shù)的模型性能比較如表1所示。
表1 不同神經(jīng)元個(gè)數(shù)的復(fù)合特征聲學(xué)模型性能比較Table 1 Performance comparison of composund features acoustic models with different numbers of neurons %
從表1可以看出,在DNN為五層隱層的情況下,除瓶頸層神經(jīng)元數(shù)目為39外,其他隱層均為1 024時(shí),新的復(fù)合特征建立的聲學(xué)模型效果達(dá)到最佳。從而驗(yàn)證在2.2節(jié)提出的深度神經(jīng)網(wǎng)絡(luò)模型中,隱層神經(jīng)元數(shù)目盡量大可以提升深度神經(jīng)網(wǎng)絡(luò),在神經(jīng)元數(shù)目達(dá)到1 024時(shí),WER達(dá)到最小值13.75%,神經(jīng)元數(shù)目繼續(xù)增加,WER反而增加。所以,神經(jīng)元數(shù)目并不是越大越好,五層隱層效果最好的神經(jīng)元數(shù)目為1 024。
實(shí)驗(yàn)2BN層中神經(jīng)元個(gè)數(shù)的最優(yōu)設(shè)置
根據(jù)實(shí)驗(yàn)1確定隱層神經(jīng)元數(shù)目為1 024,改變BN層中神經(jīng)元的個(gè)數(shù),分別設(shè)置為20、30、39及40這4種情況來(lái)確定BN層為39個(gè)神經(jīng)元時(shí)是否為最優(yōu)參數(shù)。不同BN層的模型性能比較如表2所示。
表2 不同BN層的復(fù)合聲學(xué)模型性能比較Table 2 Performance comparison of composund acoustic models of different BN layers %
從表2可以看出,在BN層數(shù)改變的4種情況下,WER并沒(méi)有太大的改變,在最大差距數(shù)目為39時(shí),比20降低了0.11%,在最小差距數(shù)目為39時(shí),比30降低了0.06%,但驗(yàn)證了BN層神經(jīng)元數(shù)目為39時(shí),根據(jù)新的復(fù)合特征建立的GMM-HMM聲學(xué)模型性能最好。
實(shí)驗(yàn)34種不同特征的聲學(xué)模型識(shí)別率的對(duì)比
MFCC特征、BN特征及新的復(fù)合特征進(jìn)行GMM-HMM聲學(xué)建模以及深度神經(jīng)網(wǎng)絡(luò)后驗(yàn)特征的識(shí)別結(jié)果對(duì)比如表3所示。
表3 不同模型識(shí)別的詞錯(cuò)誤率Table 3 Word error rate recognized by different models %
從表3可以看出,與其他語(yǔ)音特征相比,基于深度神經(jīng)網(wǎng)絡(luò)的瓶頸特征與傳統(tǒng)MFCC特征的復(fù)合特征具有最佳的識(shí)別效果。相比單一的MFCC特征WER下降5.63%,與單一的瓶頸特征相比,深度神經(jīng)網(wǎng)絡(luò)后驗(yàn)特征具有相當(dāng)?shù)淖R(shí)別性能。而復(fù)合特征的識(shí)別效果相比于深度神經(jīng)網(wǎng)絡(luò)后驗(yàn)特征和單一瓶頸特征分別提高了3.56%和3.67%。這是因?yàn)楫?dāng)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)相匹配時(shí),使用BN特征相比于MFCC特征能獲得更低的錯(cuò)誤率,但是當(dāng)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)不匹配時(shí),BN特征與MFCC特征復(fù)合才能獲得更好的識(shí)別率。
本文針對(duì)TIMIT語(yǔ)音數(shù)據(jù)集連續(xù)語(yǔ)音識(shí)別,將語(yǔ)音數(shù)據(jù)中提取到的MFCC特征作為輸入數(shù)據(jù),經(jīng)過(guò)最大似然準(zhǔn)則訓(xùn)練GMM-HMM聲學(xué)模型,并根據(jù)區(qū)分性訓(xùn)練優(yōu)化GMM模型。通過(guò)預(yù)訓(xùn)練初始化參數(shù)并根據(jù)交叉熵準(zhǔn)則微調(diào)訓(xùn)練DNN網(wǎng)絡(luò),移除訓(xùn)練好的DNN網(wǎng)絡(luò)瓶頸層之后的網(wǎng)絡(luò),從而獲取具有更強(qiáng)區(qū)分性的BN特征。將MFCC特征和BN特征進(jìn)行串接,建立復(fù)合特征的GMM-HMM聲學(xué)模型。實(shí)驗(yàn)結(jié)果表明,深度神經(jīng)網(wǎng)絡(luò)提取的BN特征在識(shí)別效果上比傳統(tǒng)的MFCC特征更具優(yōu)勢(shì),兩者串接而成的復(fù)合特征的聲學(xué)模型在識(shí)別率上有了大幅提升,從而驗(yàn)證了本文聲學(xué)建模方法較優(yōu)的識(shí)別性能。下一步擬將不同的深度神經(jīng)網(wǎng)模型與傳統(tǒng)的MFCC特征進(jìn)行對(duì)比,構(gòu)建復(fù)合的聲學(xué)模型,以期獲得更好的識(shí)別率。