趙彩光,張樹(shù)群,雷兆宜
(暨南大學(xué)信息科學(xué)技術(shù)學(xué)院,廣州510632)
基于改進(jìn)對(duì)比散度的GRBM語(yǔ)音識(shí)別
趙彩光,張樹(shù)群,雷兆宜
(暨南大學(xué)信息科學(xué)技術(shù)學(xué)院,廣州510632)
對(duì)比散度作為訓(xùn)練受限波爾茲曼機(jī)模型的主流技術(shù)之一,在實(shí)驗(yàn)訓(xùn)練中具有較好的測(cè)試效果。通過(guò)結(jié)合指數(shù)平均數(shù)指標(biāo)算法和并行回火的思想,提出一種改進(jìn)對(duì)比散度的訓(xùn)練算法,包括模型參數(shù)的更新和樣本數(shù)據(jù)的采樣,并將改進(jìn)后的訓(xùn)練算法應(yīng)用于高斯伯努利受限玻爾茲曼機(jī)(GRBM)中訓(xùn)練語(yǔ)音識(shí)別模型參數(shù)。在TI-Digits數(shù)字語(yǔ)音訓(xùn)練和數(shù)字測(cè)試數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,采用改進(jìn)的對(duì)比散度訓(xùn)練的GRBM明顯優(yōu)于傳統(tǒng)的模型訓(xùn)練算法,語(yǔ)音識(shí)別率能夠達(dá)到80%左右,最高提升7%左右,而且應(yīng)用改進(jìn)算法訓(xùn)練的其他GRBM對(duì)比模型的語(yǔ)音識(shí)別率也都有所提高,具有較好的識(shí)別性能。
對(duì)比散度;高斯伯努利受限玻爾茲曼機(jī);受限玻爾茲曼機(jī);指數(shù)平均數(shù)指標(biāo);并行回火;語(yǔ)音識(shí)別;深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)模型通常為復(fù)雜的分層結(jié)構(gòu)[1],每層訓(xùn)練的樣本數(shù)據(jù)特征值作為其他隱層的輸入樣本,經(jīng)過(guò)多層訓(xùn)練處理,得到蘊(yùn)含的抽象信息。DNN的優(yōu)勢(shì)在于通過(guò)增加隱層數(shù)擴(kuò)展了神經(jīng)網(wǎng)絡(luò)建模能力,近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別、圖像分類等領(lǐng)域得到了廣泛應(yīng)用[2-3]。
文獻(xiàn)[4]提出了一種深度信念網(wǎng)絡(luò) (Deep Belief Net,DBN),并給出了一個(gè)高效的學(xué)習(xí)算法——貪婪逐層無(wú)監(jiān)督訓(xùn)練算法[4-6]。DBN可以看成由多層受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)[7-8]構(gòu)成的復(fù)雜神經(jīng)網(wǎng)絡(luò),當(dāng)深信度網(wǎng)絡(luò)只有一個(gè)隱藏層時(shí),就是受限制玻爾茲曼機(jī)。
RBM參數(shù)訓(xùn)練有多種方法:對(duì)比散度(Contrastive Divergence,CD)[9-10]、最大隨機(jī)似然(Stochastic Max-imum Likelihood,SML)[11]等。其中,對(duì)比散度是目前比較流行的一種訓(xùn)練RBM算法,該算法可用于訓(xùn)練不同類型的受限玻爾茲曼機(jī)模型。實(shí)驗(yàn)表明,對(duì)比散度在受限玻爾茲曼機(jī)中具有良好的測(cè)試效果[12-14]。
傳統(tǒng)的基于對(duì)比散度訓(xùn)練的受限玻爾茲曼機(jī)(RBM)模型參數(shù)的算法,僅考慮模型預(yù)訓(xùn)練得到的最近一次參數(shù)值與當(dāng)前訓(xùn)練模型參數(shù)的疊加。由于神經(jīng)網(wǎng)絡(luò)模型在實(shí)際應(yīng)用中無(wú)法保證采樣的充分性,模型采樣的樣本數(shù)據(jù)也可以是連續(xù)的,而且在實(shí)際訓(xùn)練過(guò)程中也不可能滿足有足夠多的采樣訓(xùn)練次數(shù)。因此,傳統(tǒng)CD訓(xùn)練算法仍會(huì)對(duì)RBM模型的訓(xùn)練具有一定的誤差影響。為了克服這個(gè)缺點(diǎn),進(jìn)一步保證每次訓(xùn)練所得模型參數(shù)的連續(xù)性,提高模型的識(shí)別效果,本文提出一種改進(jìn)的對(duì)比散度訓(xùn)練算法,在訓(xùn)練過(guò)程中,當(dāng)前所得新的模型參數(shù)集都會(huì)充分考慮過(guò)去所有的訓(xùn)練值,減小模型參數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)模型的影響[15-17]。
擬合一個(gè)復(fù)雜的高維數(shù)據(jù)分布時(shí),通常會(huì)采用聯(lián)合一些簡(jiǎn)單的概率模型去描述這個(gè)數(shù)據(jù)分布。最常用的方法就是GMM混合高斯模型,采用估計(jì)最大化(Estimation Maximization,EM)迭代方法簡(jiǎn)便地優(yōu)化整個(gè)模型,但是這種方法在一些較高維的數(shù)據(jù)中效果并不十分理想。文獻(xiàn)[18]在此基礎(chǔ)上提出了產(chǎn)品專家(Products of Experts,PoE)模型,較為有效地處理高維數(shù)據(jù)。
PoE模型通過(guò)把n個(gè)相關(guān)的模型用乘積的形式聯(lián)合起來(lái),做歸一化處理,模型數(shù)學(xué)等式如下:
其中,n為模型個(gè)數(shù);d為觀測(cè)數(shù)據(jù)集;θm為每個(gè)模型的參數(shù),分子為歸一化項(xiàng)。
通常如果要優(yōu)化整個(gè)模型,會(huì)采用log最大似然法去估計(jì)模型參數(shù),對(duì)θm求偏導(dǎo):
數(shù)據(jù)分布Q0,而基于觀察變量的均衡數(shù)據(jù)分布表示Q0與Q∞之間的KL距離,即相對(duì)熵[9]。所謂的對(duì)比散度CD算法,不是去直接優(yōu)化KL距離,使KL距離達(dá)到最小,而是轉(zhuǎn)而去優(yōu)化Q0之間的距離。Q1是通過(guò)一次吉布斯采樣[19-20]后重構(gòu)數(shù)據(jù)的分布,當(dāng)兩者之間距離為0時(shí),從狹義上來(lái)說(shuō)模型是完美的,因此,CD算法優(yōu)化兩者之間距離,對(duì)目標(biāo)函數(shù)求偏導(dǎo):
而近似的參數(shù)更新則為:
對(duì)于式(3)中的第3項(xiàng)可以約去的原因是[9]:在通常情況下,第3項(xiàng)的數(shù)值非常小,并且很少會(huì)抵消前2項(xiàng)之和。
受限玻爾茲曼機(jī)(RBM)模型是玻爾茲曼機(jī)由可視層v和隱層h組成,同層節(jié)點(diǎn)間沒(méi)有連接,傳統(tǒng)的RBM模型采用二元神經(jīng)元節(jié)點(diǎn),即節(jié)點(diǎn)取值為{0,1}兩值的神經(jīng)元構(gòu)建RBM。高斯伯努利受限玻爾茲曼機(jī)(GRBM)與基本受限玻爾茲曼機(jī)的區(qū)別在于: GRBM將二進(jìn)制可視節(jié)點(diǎn)值替換為具有高斯分布的連續(xù)實(shí)數(shù),隱層仍采用服從伯努利分布的二值神經(jīng)元節(jié)點(diǎn),高斯伯努利受限玻爾茲曼機(jī)的能量函數(shù)為:
N(μ,σ2)表示均值為μ,方差為σ2的高斯分布, GRBM的可視節(jié)點(diǎn)和隱層節(jié)點(diǎn)激活的條件概率如下:
因此,GRBM模型參數(shù)θGRBM更新方法如式(8)所示,ε表示學(xué)習(xí)率:
其中,i,j表示模型參數(shù)下標(biāo);上標(biāo)τ表示模型訓(xùn)練的次數(shù);表示第 τ+1次采用對(duì)比散度算法訓(xùn)練所得模型參數(shù)值θGRBM。
4.1 對(duì)比散度改進(jìn)算法
同理,偏置向量a和b:
從以上的推導(dǎo)分析,改進(jìn)后的算法式(9)不同于傳統(tǒng)的對(duì)比散度訓(xùn)練模型參數(shù),式(8)只是考慮了最近一次的相關(guān)模型參數(shù)。可以看到,基于指數(shù)平均數(shù)指標(biāo)改進(jìn)的對(duì)比散度訓(xùn)練算法,每次參數(shù)的更新不僅會(huì)對(duì)上一次的相關(guān)參數(shù)值加強(qiáng)權(quán)重比(最大權(quán)重比),而且在訓(xùn)練的過(guò)程中也會(huì)加權(quán)過(guò)去已知的模型訓(xùn)練值,反映近期模型參數(shù)的波動(dòng)情況,過(guò)去各個(gè)階段的參數(shù)所占權(quán)重比不同。改進(jìn)的CD算法對(duì)模型參數(shù)進(jìn)行加權(quán)平均,分析可知,給予當(dāng)前得到的新模型參數(shù)的權(quán)重,給予過(guò)去的參數(shù)值共的權(quán)重。
4.2 并行回火
并行回火(Parallel Tempering,PT)[21-23]采樣對(duì)RBM訓(xùn)練是一種很有效率的方法[24]。RBM-PT在訓(xùn)練過(guò)程中,M個(gè)不同溫度對(duì)應(yīng)M條吉布斯鏈?zhǔn)褂貌⑿谢鼗鸬姆椒ú蓸?每條吉布斯鏈對(duì)應(yīng)一個(gè)不同的溫度ti,ti滿足1=t1<t2<…<ti<…<tM-1<tM,不同溫度鏈之間根據(jù)一定的條件決定是否交換采樣值。通過(guò)分析基本并行回火RBM模型,對(duì)GRBM在并行回火的每個(gè)溫度下進(jìn)行一次或多次吉布斯采樣,采用并行回火改進(jìn) GRBM 模型的參數(shù)為,具體公式如下:
計(jì)算溫度集內(nèi)的2個(gè)相鄰的溫度(tr和tr-1)下的顯隱層節(jié)點(diǎn)(vr,hr)與(vr-1,hr-1)是否滿足交換的條件,并行回火GRBM模型的交換條件如式(11)所示:
E(vr,hr)即不同模型下的能量函數(shù),如式(5)所示。如果滿足該條件式(11),就把相鄰的溫度鏈下的采樣點(diǎn)交換,否則不交換。經(jīng)過(guò)多次循環(huán)采樣、交換,最終將t1=1溫度下的采樣值用于GRBM預(yù)訓(xùn)練模型參數(shù)θ,采用并行回火獲取的目標(biāo)采樣值可使GRBM訓(xùn)練獲得較好的應(yīng)用效果。
4.3 算法描述
綜上所述,本文改進(jìn)的對(duì)比散度算法訓(xùn)練GRBM模型如下:
輸入 訓(xùn)練樣本xi,隱層單元個(gè)數(shù)m,學(xué)習(xí)率ε,最大訓(xùn)練周期N,GRBM模型參數(shù)θGRBM-PT={βW,βa,,其中,0<β1<…<βi<…<βM-1<βM=1
輸出 連接權(quán)值矩陣w,可見(jiàn)層的偏置向量a,隱層的偏置向量b
5.1 實(shí)驗(yàn)配置
本文實(shí)驗(yàn)在TI-Digits數(shù)據(jù)集上進(jìn)行,分為訓(xùn)練集和測(cè)試集2類,訓(xùn)練集和測(cè)試集各自包含男聲和女聲發(fā)音,分別為英文數(shù)字0~9,訓(xùn)練集包含38組男聲和57組女聲,共2 072段語(yǔ)音,每個(gè)訓(xùn)練數(shù)據(jù)對(duì)應(yīng)一個(gè)類別的標(biāo)簽作為分類的依據(jù),類別標(biāo)簽共2 072個(gè),測(cè)試集包含56組男聲和57組女聲,共2 260段語(yǔ)音,類別標(biāo)簽為2 260個(gè),語(yǔ)音識(shí)別內(nèi)容的具體數(shù)量如表1所示。原始語(yǔ)音信號(hào)使用Hanning窗進(jìn)行處理,幀長(zhǎng)32 ms,幀移16 ms。雖然RBM也能提取聲學(xué)特征參數(shù),但是,由文獻(xiàn)[26]中的實(shí)驗(yàn)表明,MFCC在實(shí)際應(yīng)用中具有較好的實(shí)驗(yàn)效果,因此,本文實(shí)驗(yàn)全部采用聲學(xué)特征Mel頻率倒譜系數(shù)(Mel frequency Cepstral Coefficient,MFCC)作為模型底層的輸入數(shù)據(jù),實(shí)驗(yàn)中采用42維的特征向量。
表1 語(yǔ)音訓(xùn)練和測(cè)試數(shù)據(jù)具體個(gè)數(shù)
GRBM模型采用2層模型進(jìn)行語(yǔ)音識(shí)別實(shí)驗(yàn):第1層是采用改進(jìn)的對(duì)比散度算法訓(xùn)練GRBM模型,包括并行回火采樣;第2層采用支持向量機(jī)(Support Vector Machine,SVM)[27]對(duì)訓(xùn)練后的模型得到的識(shí)別結(jié)果進(jìn)行分類。顯層節(jié)點(diǎn)數(shù)為42,因?yàn)殡[層節(jié)點(diǎn)的數(shù)目不同會(huì)對(duì)識(shí)別效果產(chǎn)生不同影響,因此這里不固定。權(quán)值W初始為滿足[-1.0,1.0]均勻分布的隨機(jī)數(shù),偏置a和b初始為0,預(yù)訓(xùn)練中的學(xué)習(xí)速率為0.001,參數(shù)循環(huán)次數(shù)為100。并行回火的溫度個(gè)數(shù)M=10,β∈{0.1,0.2,…,1},[t1= 0.1,tM=1]滿足β∈0.1,1]內(nèi)的均勻分布。實(shí)驗(yàn)采用一步吉布斯采樣改進(jìn)的對(duì)比散度(CD1)方法,由于語(yǔ)音識(shí)別采用的訓(xùn)練和識(shí)別數(shù)據(jù)是連續(xù)的,因此本文選用3種不同的GRBM模型用于實(shí)驗(yàn)測(cè)試,建立3個(gè)不同的高斯受限玻爾茲曼模型進(jìn)行實(shí)驗(yàn)對(duì)比,采用改進(jìn)的CD訓(xùn)練算法與未改進(jìn)的CD訓(xùn)練算法的數(shù)字語(yǔ)音識(shí)別率。模型分為:(1)基本GRBM模型;(2)文獻(xiàn)[24]提出的GBRBM模型;(3)GRBM-PT模型(本文改進(jìn)算法模型)。實(shí)驗(yàn)平臺(tái)采用的是Matlab 2010b。
5.2 實(shí)驗(yàn)結(jié)果及分析
表2分別列出各種不同高斯受限玻爾茲曼機(jī)下的語(yǔ)音識(shí)別率,不同GRBM模型下的語(yǔ)音識(shí)別率不同,在同等訓(xùn)練條件下,使用原始對(duì)比散度算法訓(xùn)練的GRBM-PT模型的語(yǔ)音識(shí)別率最高,能夠達(dá)到73.23%,比未使用并行回火采樣的GRBM的語(yǔ)音識(shí)別率有較大的提高。
表2 數(shù)字語(yǔ)音識(shí)別率比較
另外,由表2可以看出,對(duì)于同一個(gè)模型,采用改進(jìn)的CD算法明顯優(yōu)于傳統(tǒng)的CD訓(xùn)練算法,同一個(gè)模型下的語(yǔ)音識(shí)別率都有相應(yīng)的提高。各個(gè)模型間對(duì)比說(shuō)明,使用改進(jìn)的CD算法訓(xùn)練的GRBM的識(shí)別效果仍是最好的。改進(jìn)的對(duì)比散度訓(xùn)練算法在采樣過(guò)程中使用本文提出的并行回火采樣算法(GRBM-PT),語(yǔ)音識(shí)別率可以達(dá)到80%左右,在保證基本識(shí)別效果的前提下,語(yǔ)音識(shí)別率進(jìn)一步提高了7%左右,模型具有良好的識(shí)別性能。
圖1~圖4中的黑色實(shí)線表示采用本文改進(jìn)的CD訓(xùn)練算法,虛線表示原始CD訓(xùn)練算法,圖4用“?”線表示原始CD訓(xùn)練算法。由圖1~圖3可以看出,改進(jìn)的CD算法,因?yàn)槟P蛥?shù)的每次訓(xùn)練都與過(guò)去所有已知值相關(guān),充分考慮過(guò)去已知參數(shù)值,算法能及時(shí)反映近期參數(shù)值的波動(dòng)情況,更加穩(wěn)定,改進(jìn)的CD算法訓(xùn)練的模型參數(shù)值相比于未改進(jìn)的CD算法訓(xùn)練的模型參數(shù)值的絕對(duì)值要小。實(shí)線較虛線走向更加平滑,曲線連續(xù)性好。由圖4可以看出,改進(jìn)算法得到的重構(gòu)誤差曲線快速收斂,在曲線下降即第0~500次訓(xùn)練階段,改進(jìn)的CD算法實(shí)線曲線走向收斂的速度明顯快于原始“?”線。
圖1 顯層偏置權(quán)值對(duì)比曲線
圖2 隱層偏置權(quán)值對(duì)比曲線
圖3 顯層和隱層連接權(quán)值對(duì)比曲線
圖4 模型重構(gòu)誤差對(duì)比曲線
圖1 ~圖3模型參數(shù)實(shí)線曲線變化平滑,波動(dòng)幅度較小,而原始CD訓(xùn)練算法所得模型參數(shù)值幅度跳動(dòng)較大,不易穩(wěn)定;并且由圖4重構(gòu)誤差曲線可以看出,圖4的?線曲線輪廓稍大于實(shí)線曲線輪廓,實(shí)線曲線波動(dòng)范圍主要集中在44~48左右,而?線則集中在43~50左右間波動(dòng),采用改進(jìn)后的CD算法,模型誤差的波動(dòng)幅度范圍進(jìn)一步降低。除此之外,改進(jìn)的CD訓(xùn)練算法實(shí)線曲線大約訓(xùn)練1 600次左右就收斂停止訓(xùn)練,而原始CD算法在2 200次左右,改進(jìn)后的訓(xùn)練算法模型更容易收斂,訓(xùn)練循環(huán)次數(shù)降低。
本文主要研究分析了對(duì)比散度的算法原理,利用指數(shù)平均數(shù)指標(biāo)算法改進(jìn)傳統(tǒng)的對(duì)比散度算法訓(xùn)練高斯受限玻爾茲曼機(jī)模型參數(shù),并且實(shí)現(xiàn)了并行回火下GRBM神經(jīng)網(wǎng)絡(luò)模型在TI-Digits數(shù)據(jù)集上進(jìn)行的語(yǔ)音識(shí)別。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的對(duì)比散度算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型在識(shí)別效率和訓(xùn)練速度上明顯提高,為進(jìn)一步將該方法應(yīng)用于多層深度學(xué)習(xí)的語(yǔ)音識(shí)別奠定了基礎(chǔ)。
[1]Bengio Y.Learning Deep Architectures for AI[J]. Foundations and Trends in Machine Learning,2009, 2(1):1-127.
[2]Dahl G E,Ranzato M,Mohamed A,etal.Phonerecognition with the Mean-covariance Restricted Boltzmann Machine[C]//Proceedings of the 24th Annual Conference on Neural Information Processing Systems.Berlin, Germany:Springer,2010:469-477.
[3]Mohamed A,Dahl G E,Hinton G,et al.Acoustic Modeling UsingDeepBeliefNetworks[J].IEEE Transactions on Audio, Speech and Language Processing,2012,20(1):14-22.
[4]Salakhutdinov R,Hinton G.An EfficientLearning Procedure for Deep Boltzmann Machines[J].Neural Computation,2012,24(8):1967-2006.
[5]Hinton G E,Osindero S,Teh Y W.A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation,2006,18(7):1527-1554.
[6]張 震,趙慶衛(wèi),顏永紅.基于語(yǔ)音識(shí)別與特征的無(wú)監(jiān)督語(yǔ)音模式提?。跩].計(jì)算機(jī)工程,2014,40(5): 262-265.
[7]Fischer A,Igel C.An Introduction to Restricted Boltzmann Machines[C]//Proceedings of Progress in Pattern Recognition,Image Analysis,Computer Vision,and Applications.Berlin,Germany:Springer,2012:14-36.
[8]Mohamed A,Dahl G,Hinton G.Deep Belief Networks for Phone Recognition[C]//Proceedings of Workshop on Deep Learning for Speech Recognition and Related Applications.Berlin,Germany:Springer,2009.
[9]Hinon G E.Training Products of Experts by Minimizing Contrastive Divergence[J].Neural Computation,2002, 14(8):1771-1800.
[10]Tóth L,Grósz T.A Comparison of Deep Neural Network Training Methods for Large Vocabulary Speech Recognition[C]//Proceedings of the 16th International Conference on Text,Speech,and Dialogue.Berlin, Germany:Springer,2013:36-43.
[11]Tieleman T.Training Restricted Boltzmann Machines Using Approximations to the Likelihood Gradient[C]// Proceedings of the 25th International Conference on Machine Learning.New York,USA:ACM Press,2008: 1064-1071.
[12]Dahl G E,Yu Dong,Li Deng,et al.Context-dependent Pre-trained Deep Neural Networks for Large-vocabulary Speech Recognition[J].IEEE Transactions on Audio, Speech,and Language Processing,2012,20(1):30-42.
[13]Seide F,Li Gang,Dong Yu.Conversational Speech Transcription Using Context-dependentDeep Neural Networks[C]//Proceedings of the 12th Annual Conference of the International Speech Communication Association.Washington D.C.,USA:IEEE Press,2011: 437-440.
[14]薛少飛,宋 彥,戴禮榮.基于多GPU的深層神經(jīng)網(wǎng)絡(luò)快速訓(xùn)練方法[J].清華大學(xué)學(xué)報(bào),2013,53(6): 745-748.
[15]Krizhevsky A,Hinton G.Learning Multiple Layers of Features from Tiny Images[D].Toronto,Canada: University of Toronto,2009.
[16]Tang Yichuan,Mohamed A R.Multiresolution Deep Belief Networks[C]//Proceedings of International Conference on Artificial Intelligence and Statistics. New York,USA:ACM Press,2012:1203-1211.
[17]陳麗萍,王爾玉,戴禮榮.基于深層置信網(wǎng)絡(luò)的說(shuō)話人信息提取方法[J].模式識(shí)別與人工識(shí)別,2013, 26(12):1089-1095.
[18]Hinton G E.Products of Experts[C]//Proceedings of the 9th International Conference on Artificial Neural Networks.New York,USA:ACM Press,1999:1-6.
[19]Resnik P,Hardisty E. Gibbs Sampling for the Uninitiated[D].Washington D.C.,USA:University of Maryland,2010.
[20]Walsh B.Markov Chain Monte Carlo and Gibbs Sampling[D].Tucson,USA:University of Arizona,2004.
[21]Gront D,Kolinski A.Efficient Scheme for Optimization of Parallel Tempering Monte Carlo Method[J].Journal of Physics:Condensed Matter,2007,19(3).
[22]Trebst S,Troyer M,Hansmann U H E.Optimized Parallel Tempering Simulations of Proteins[J].The Journal of Chemical Physics,2006,124(17).
[23]Desjardins G,Courville A,Bengio Y,et al.Parallel Tempering for Training of Restricted Boltzmann Machines[C]//Proceedings of the 13th International Conference on ArtificialIntelligence and Statistics. Berlin,Germany:Springer,2010:145-152.
[24]Cho K H,Raiko T,Ilin A.ParallelTempering is Efficient for Learning Restricted Boltzmann Machines[C]//Proceedings of International Joint Conference on Neural Networks.New York,USA:ACM Press,2010:1-8.
[25]Cho K H,Ilin A,Raiko T.Improved Learning of Gaussian-Bernoulli Restricted Boltzmann Machines[C]//Proceedings of the 21st International Conference on Artificial Neural Networks.Berlin,Germany:Springer,2011:10-17.
[26]Mus D.Audio Feature Extraction with Restricted Boltzmann Machines[EB/OL].(2014-02-28).http:// www.liacs.nl/~dmus/paper.pdf.
[27]徐 晨,曹 輝,趙 曉.基于SVM的說(shuō)話人識(shí)別參數(shù)選擇方法[J].計(jì)算機(jī)工程,2012,38(21):175-177.
編輯 顧逸斐
Speech Recognition of Gaussian-Bernoulli Restricted Boltzmann Machine Based on Improved Contrastive Divergence
ZHAO Caiguang,ZHANG Shuqun,LEI Zhaoyi
(College of Information Science and Technology,Jinan University,Guangzhou 510632,China)
Contrastive divergence has a good result for training restricted Boltzmann machine model as one of the mainstream training algorithm in the experiments.An improved contrastive divergence based on Exponential Moving Average(EMA)is proposed by combining with the exponential moving average learning algorithm and Parallel Tempering(PT),which includes updating the model parameters and samples.The improved algorithm is applied to train speech recognition model parameters in Gaussian-Bernoulli Restricted Boltzmann Machine(GRBM),and experimental results of digit speech recognition on the core test of TI-Digits show that the proposed algorithm works better than traditional training algorithms in GRBM,the accuracy can be as high as 80.53%and increase by about 7%.Recognition accuracy of some other GRBM models also increase apparently based on the proposed algorithm.And its performance keeps well.
Contrastive Divergence(CD);Gaussian-Bernoulli Restricted Boltzmann Machine(GRBM);Restricted Boltzmann Machine(RBM);Exponential Moving Average(EMA);Parallel Tempering(PT);speech recognition;Deep Neural Network(DNN)
1000-3428(2015)05-0213-06
A
TP391.4
10.3969/j.issn.1000-3428.2015.05.039
趙彩光(1989-),男,碩士研究生,主研方向:神經(jīng)網(wǎng)絡(luò),語(yǔ)音識(shí)別;張樹(shù)群,副教授;雷兆宜,高級(jí)實(shí)驗(yàn)師。
2014-06-16
2014-07-09E-mail:gwongc@126.com
中文引用格式:趙彩光,張樹(shù)群,雷兆宜.基于改進(jìn)對(duì)比散度的GRBM語(yǔ)音識(shí)別[J].計(jì)算機(jī)工程,2015,41(5):213-218.
英文引用格式:Zhao Caiguang,Zhang Shuqun,Lei Zhaoyi.Speech Recognition of Gaussian-Bernoulli Restricted Boltzmann Machine Based on Improved Contrastive Divergence[J].Computer Engineering,2015,41(5):213-218.