彭玉青, 劉 帆, 高晴晴, 張媛媛, 閆 倩
(河北工業(yè)大學(xué) 計算機科學(xué)與軟件學(xué)院 天津 300401)
?
基于微調(diào)優(yōu)化的深度學(xué)習(xí)在語音識別中的應(yīng)用
彭玉青, 劉 帆, 高晴晴, 張媛媛, 閆 倩
(河北工業(yè)大學(xué) 計算機科學(xué)與軟件學(xué)院 天津 300401)
針對深度學(xué)習(xí)模型在對小樣本進(jìn)行訓(xùn)練時會出現(xiàn)過擬合現(xiàn)象,提出隨機退出優(yōu)化方法和隨機下降連接優(yōu)化方法.這兩種方法針對深度學(xué)習(xí)模型的微調(diào)階段進(jìn)行改進(jìn),最大限度減少由于訓(xùn)練數(shù)據(jù)量較少使得深層網(wǎng)絡(luò)模型訓(xùn)練出現(xiàn)過擬合現(xiàn)象,并且使權(quán)值的更新過程更具有獨立性,而不是依賴于有固定關(guān)系的隱層節(jié)點間的作用,同時可以降低識別錯誤率.對自建孤立語音詞匯庫進(jìn)行了訓(xùn)練和識別,結(jié)果表明,在深度信念網(wǎng)絡(luò)的基礎(chǔ)上引入隨機退出優(yōu)化方法和隨機下降連接優(yōu)化方法可以提升識別率,緩解過擬合現(xiàn)象.
深度學(xué)習(xí); 語音識別; 神經(jīng)網(wǎng)絡(luò); 深度信念網(wǎng)絡(luò)
深度學(xué)習(xí)模型的發(fā)展基礎(chǔ)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型,深度學(xué)習(xí)可以完成需要高度抽象特征的人工智能任務(wù),如語音識別、圖像識別與檢索和自然語言理解等[1].深層模型是包含多個隱層的神經(jīng)網(wǎng)絡(luò),與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)只具備有限隱層結(jié)構(gòu)模型相比,深層模型可以對特征進(jìn)行更好的表達(dá),也具備更強大的建模能力[2-3].深度學(xué)習(xí)模型較傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型而言具有很大的優(yōu)勢,可以克服淺層模型計算能力有限以及泛化能力受到一定制約等缺點[4-5].然而深層模型也遇到一些問題,在訓(xùn)練時需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,否則訓(xùn)練過程中可能學(xué)習(xí)到訓(xùn)練數(shù)據(jù)的噪聲,出現(xiàn)過擬合現(xiàn)象[6].目前,構(gòu)建大數(shù)據(jù)集用來進(jìn)行訓(xùn)練與學(xué)習(xí)是比較復(fù)雜的,小數(shù)據(jù)集在實踐領(lǐng)域中的應(yīng)用更加普遍.因此,解決小數(shù)據(jù)集在深層模型中的應(yīng)用會遇到的過擬合問題,具有現(xiàn)實研究意義.
本文提出隨機退出優(yōu)化方法和隨機下降連接優(yōu)化方法,對深度學(xué)習(xí)預(yù)訓(xùn)練后的微調(diào)過程進(jìn)行改進(jìn),減少因為訓(xùn)練數(shù)據(jù)較少而對深層模型所造成的過擬合,使得權(quán)值的更新過程更具有獨立性,而不是依賴于有固定關(guān)系的隱層節(jié)點間的作用,提高了學(xué)習(xí)效率.
深度學(xué)習(xí)在訓(xùn)練少量樣本時,隨著迭代次數(shù)的增加,節(jié)點間的依賴性也會增加,導(dǎo)致某些節(jié)點必須在其他節(jié)點的聯(lián)合作用下才工作.提出隨機退出思想的目的是減少節(jié)點間的依賴性,此外,也為了減少深度學(xué)習(xí)對小樣本訓(xùn)練時過擬合現(xiàn)象的出現(xiàn).
1.1 隨機退出的思想
過擬合是指一個擬合數(shù)據(jù)在訓(xùn)練數(shù)據(jù)上能夠獲得比其他數(shù)據(jù)更好的擬合,但是在訓(xùn)練數(shù)據(jù)外的數(shù)據(jù)集上卻不能很好地擬合數(shù)據(jù),這種現(xiàn)象稱為過擬合現(xiàn)象.在深度學(xué)習(xí)訓(xùn)練中,如果訓(xùn)練的樣本比較少,那么很容易出現(xiàn)過擬合現(xiàn)象.為了有效防止過擬合現(xiàn)象的產(chǎn)生,提出隨機退出的方法.例如,給定一個假設(shè)空間M,設(shè)m屬于M,若存在其他數(shù)據(jù)m′,使得在訓(xùn)練樣本中m比m′的錯誤率小,但在整體實例分布上m′比m的錯誤率小,那么就說m過度擬合訓(xùn)練數(shù)據(jù).訓(xùn)練數(shù)據(jù)中存在噪音或者訓(xùn)練數(shù)據(jù)過少是導(dǎo)致過擬合的主要原因.隨機退出是指在進(jìn)行模型訓(xùn)練時,隨機選定一些網(wǎng)絡(luò)中隱層的某些節(jié)點,令這些節(jié)點的權(quán)重不工作.被選中的隱層中不工作的節(jié)點權(quán)重可以看作非該網(wǎng)絡(luò)結(jié)構(gòu)的節(jié)點,但是仍將其權(quán)重進(jìn)行保留,停止這些節(jié)點的工作目的是使其暫時停止更新權(quán)重,而在下一次樣本輸入時,這些節(jié)點將重新開始工作[7].
通常情況下,網(wǎng)絡(luò)中的每個節(jié)點都是相對獨立的,并且具有保留節(jié)點本身的固定概率p,概率p可以根據(jù)驗證集來確定,或者直接將其設(shè)為0.5.對輸入節(jié)點來說,通常最佳的固定概率更接近1.
圖1為沒有引入隨機退出的網(wǎng)絡(luò),將隨機退出引入網(wǎng)絡(luò)模型后,將會形成一個稀疏網(wǎng)絡(luò),如圖2所示.圖2中的虛線圓圈表示已經(jīng)退出的網(wǎng)絡(luò)節(jié)點,該稀疏網(wǎng)絡(luò)包含所有被保留下來的節(jié)點.假設(shè)該網(wǎng)絡(luò)為一個n層網(wǎng)絡(luò),那么該網(wǎng)絡(luò)有2n種可能形成的稀疏網(wǎng)絡(luò).這些所有可能形成的稀疏網(wǎng)絡(luò)共享權(quán)值,總參數(shù)仍然為O(n2).每次進(jìn)行訓(xùn)練時,將對形成的新的稀疏網(wǎng)絡(luò)進(jìn)行訓(xùn)練.因此,對引入隨機退出的網(wǎng)絡(luò)進(jìn)行訓(xùn)練的過程可以看作是對2n個共享權(quán)值的稀疏網(wǎng)絡(luò)進(jìn)行訓(xùn)練的過程.
圖1 未引入隨機退出的網(wǎng)絡(luò)Fig.1 Network without dropout
圖2 引入隨機退出的網(wǎng)絡(luò)Fig.2 Network with dropout
1.2 隨機退出模型描述
假設(shè)一神經(jīng)網(wǎng)絡(luò)模型有L層隱層,l∈{1,…,L}為網(wǎng)絡(luò)隱層的索引,向量z(l)為l層的輸入向量,向量y(l)(y(0)=x為輸入)為l層的輸出向量,W(l)和b(l)分別為l層的權(quán)值和偏置.
標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的前饋操作如圖3所示,其中l(wèi)∈{0,…,L-1},隱層單元為i.zi和yi分別滿足:
(1)
(2)
式中:f為任意激活函數(shù).
當(dāng)引入隨機退出之后,神經(jīng)網(wǎng)絡(luò)的前饋操作過程如圖4所示.此時zi和yi滿足:
(3)
(4)
(5)
1.3 隨機退出在深度學(xué)習(xí)中的應(yīng)用
深度信念網(wǎng)絡(luò)(DBNs)是由多個受限玻爾茲曼機(RBMs)組成的深層網(wǎng)絡(luò),它既可以被看作一個生成模型,也可以被看作一個判別模型[9].它的訓(xùn)練過程是使用非監(jiān)督方法進(jìn)行預(yù)訓(xùn)練獲得權(quán)值,這一步與神經(jīng)網(wǎng)絡(luò)隨機初始化初值的過程相似,不同的是深度學(xué)習(xí)的第一步是通過學(xué)習(xí)輸入數(shù)據(jù)結(jié)構(gòu)得到的,與神經(jīng)網(wǎng)絡(luò)通過隨機初始化相比,深度學(xué)習(xí)獲得的這個初值更接近全局最優(yōu).訓(xùn)練完成之后還需要對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)優(yōu),使得認(rèn)知和生成表示一致.
圖3 標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的前饋操作Fig.3 Feed forward of standard network model
圖4 引入隨機退出后神經(jīng)網(wǎng)絡(luò)的前饋操作Fig.4 Feed forward of network model with dropout
方法測試樣本正確率/%訓(xùn)練樣本錯誤率的均方誤差未引入隨機退出85.50.042引入隨機退出880.066
深度學(xué)習(xí)的調(diào)優(yōu)是根據(jù)第一步各層參數(shù)進(jìn)一步優(yōu)化整個多層模型的參數(shù),這是一個有監(jiān)督學(xué)習(xí)的過程.將隨機退出方法應(yīng)用于深度學(xué)習(xí)的調(diào)優(yōu)過程,使得每一個單獨節(jié)點學(xué)習(xí)有用的特征,降低神經(jīng)元之間的依賴性,調(diào)優(yōu)之后獲得更穩(wěn)定的權(quán)重,提高深度學(xué)習(xí)的學(xué)習(xí)效率.表1 為將隨機退出應(yīng)用于MNIST數(shù)據(jù)庫識別的前后對比結(jié)果,可以看出,過擬合現(xiàn)象減少,識別率提高.
通過實驗可以看出,引入隨機退出方法之后,訓(xùn)練數(shù)據(jù)錯誤率的均方誤差較引入前有所增長,但測試樣本識別正確率得到提高,說明隨機退出具有較好的泛化能力,可以防止過擬合.
提出的隨機退出思想是隨機選擇隱層網(wǎng)絡(luò)中的一些節(jié)點不工作,那么被選中不工作的節(jié)點就相當(dāng)于暫時不在這個網(wǎng)絡(luò)中,與之相連的所有權(quán)重也不進(jìn)行工作[10].如果僅僅使與節(jié)點相連的一些權(quán)值停止工作,則會形成另外一種網(wǎng)絡(luò),就是所提出的基于隨機下降連接思想的網(wǎng)絡(luò).
圖5 引入隨機下降連接后的網(wǎng)絡(luò)Fig.5 Network with dropconnect
2.1 隨機下降連接的思想
隨機退出的思想是在反向傳播時只利用剩余的“活躍”節(jié)點,也就是只利用那些被隨機選中的節(jié)點.這種做法可以顯著減少過擬合現(xiàn)象,并且提高測試性能.隨機退出方法是在訓(xùn)練過程中以一定概率1-p將隱層節(jié)點的輸出值清零,不再更新與該節(jié)點相連的權(quán)值.與隨機退出方法不同的是,隨機下降連接不是隨機將隱層節(jié)點的輸出清零,而是將節(jié)點中的每個與其相連的輸入權(quán)值以1-p的概率清零.隨機下降連接的推理部分與隨機退出不同,在對隨機退出網(wǎng)絡(luò)進(jìn)行推理時,是把所有的權(quán)重W都規(guī)整到一個系數(shù)p.而在對隨機下降連接進(jìn)行推理時,采用的是對每個輸入的權(quán)重進(jìn)行高斯分布的采樣,該高斯分布的均值和方差與p有關(guān).圖5是引入隨機下降連接后的網(wǎng)絡(luò).
2.2 隨機下降連接模型描述
假設(shè)有一個具有全連接層的神經(jīng)網(wǎng)絡(luò),輸入層為v=[v1,v2,…,vn]T,權(quán)值參數(shù)為W(d×n),輸出層為r=[r1,r2,…,rd]T,該輸出是由輸入向量和權(quán)值矩陣?yán)梅蔷€性激活函數(shù)進(jìn)行矩陣相乘得出的.設(shè)該激活函數(shù)為a(u),則
r=a(u)=a(Wv).
(6)
隨機下降連接與隨機退出類似,這兩種方法都引入了動態(tài)稀疏模型,但是兩者不同的是,隨機下降連接是權(quán)值的“稀疏”,隨機退出是輸出層中輸出向量的“稀疏”.換句話說,將隨機下降連接應(yīng)用于全連接層時,在訓(xùn)練階段的“稀疏”連接是隨機進(jìn)行選擇的.將隨機下降連接應(yīng)用于全連接層時,輸出為
r=a((M*W)v),
(7)
式中:M表示連接信息的二元矩陣,Mij服從伯努利分布(Mij~Bernoulli(p)).矩陣M中的每個部分在每一次訓(xùn)練過程中都是獨立的,這就使得每一次初始化網(wǎng)絡(luò)連接時都會形成不同的網(wǎng)絡(luò)連接.
隨機下降連接模型主要分為3個部分:輸入層、隨機下降連接層和Softmax分類層.
輸入層:x為整個模型的輸入數(shù)據(jù),v為輸出,Wg為提取的參數(shù),則有
v=g(x;Wg),
(8)
式中:g()為具有全連接層的神經(jīng)網(wǎng)絡(luò);Wg為濾波器,即網(wǎng)絡(luò)中的參數(shù).
隨機下降連接層:v作為第一步的輸出,W為全連接權(quán)值矩陣,a為非線性激活函數(shù),M為二元矩陣,則有
r=a(u)=a((M*W)v).
(9)
Softmax分類層:將r作為輸入,使用參數(shù)Ws計算輸出k的維數(shù)(k為數(shù)字分類的數(shù)目),則有
o=s(r;Ws).
(10)
2.3 隨機下降連接在深度學(xué)習(xí)中的應(yīng)用
隨機下降連接方法在深度學(xué)習(xí)中的應(yīng)用與隨機退出方法相似.深度學(xué)習(xí)的調(diào)優(yōu)是根據(jù)第一步各層參數(shù)進(jìn)一步優(yōu)化整個多層模型的參數(shù),若訓(xùn)練樣本數(shù)量較小,則很可能在預(yù)訓(xùn)練時產(chǎn)生過擬合.調(diào)優(yōu)階段,將反向傳播網(wǎng)絡(luò)引入隨機下降連接,把第一步預(yù)訓(xùn)練獲得的輸出數(shù)據(jù)作為引入隨機下降連接的反向傳播網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練,調(diào)整第一步學(xué)習(xí)到的權(quán)重.由于網(wǎng)絡(luò)層之間是神經(jīng)網(wǎng)絡(luò)連接,此時引入隨機下降連接方法可以在調(diào)優(yōu)階段調(diào)整第一步通過預(yù)訓(xùn)練得到的比較不理想的權(quán)重.
引入隨機下降連接,輸入時隨機讓一些節(jié)點不工作,這些不工作的節(jié)點也不會得到誤差貢獻(xiàn),其泛化能力較隨機退出方法更強一些.
語音樣本為數(shù)字1~10的英文讀音,語音樣本庫中包括9個說話者(6男和3女),并且發(fā)音較清晰.實驗首先對語音樣本進(jìn)行語音特征提取,采用對語音樣本的梅爾倒譜系數(shù)MFCC參數(shù)進(jìn)行提取.由于每一個英文數(shù)字讀音的特征參數(shù)矩陣的維數(shù)都比較大,如果不對提取的語音特征進(jìn)行處理,那么在進(jìn)行參數(shù)訓(xùn)練時,會使得所需存儲空間以及計算量變得非常龐大.因此,本文使用主成分分析法(PCA)對數(shù)據(jù)進(jìn)行降維,得到語音樣本庫,用于語音識別.
3.1 深度信念網(wǎng)絡(luò)進(jìn)行語音識別
在語音樣本庫中取2 000個樣本用于訓(xùn)練,1 000個樣本用于識別,并構(gòu)建具有2個隱層的深度信念網(wǎng)絡(luò).訓(xùn)練階段,大致過程是每層訓(xùn)練一個RBMs,RBMs網(wǎng)絡(luò)如圖6所示.根據(jù)RBMs訓(xùn)練的權(quán)值,利用可視層的偏置來產(chǎn)生上一層的輸入,再繼續(xù)進(jìn)行下一個RBMs的訓(xùn)練[10].與進(jìn)行傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練一樣,每次以100個數(shù)據(jù)單位進(jìn)行訓(xùn)練.
對RBMs的訓(xùn)練,根據(jù)v1(可視層的第一個節(jié)點)生成h1,根據(jù)h1構(gòu)造v2,根據(jù)v2重構(gòu)h2,之后更新權(quán)值與可視層的偏置和隱層的偏置.深度信念網(wǎng)絡(luò)的訓(xùn)練完成之后還需要把參數(shù)傳遞給神經(jīng)網(wǎng)絡(luò),調(diào)優(yōu)階段仍需要使用普通的神經(jīng)網(wǎng)絡(luò)BP算法.圖7為DBNs訓(xùn)練流程圖.DBNs預(yù)訓(xùn)練后還有一個調(diào)優(yōu)階段,即在最頂層的RBMs網(wǎng)絡(luò)上增加一層BP網(wǎng)絡(luò)進(jìn)行反向傳播,對權(quán)值進(jìn)行微調(diào).經(jīng)過訓(xùn)練后,孤立數(shù)字識別的正確率為89%.
圖6 RBMs網(wǎng)絡(luò)Fig.6 RBMs network
圖7 DBNs訓(xùn)練流程Fig.7 DBNs training processing
3.2 基于隨機退出優(yōu)化的深度學(xué)習(xí)語音識別
基于隨機退出優(yōu)化的深度學(xué)習(xí)在預(yù)訓(xùn)練階段仍然使用深度信念網(wǎng)絡(luò)完成,之后在調(diào)優(yōu)階段引入隨機退出優(yōu)化的神經(jīng)網(wǎng)絡(luò).實驗中深度信念網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)設(shè)置為:輸入層500,h1隱層400,h2隱層400,輸出層10,學(xué)習(xí)率0.01.由于網(wǎng)絡(luò)參數(shù)是經(jīng)過深度學(xué)習(xí)預(yù)訓(xùn)練過的,因此,在調(diào)優(yōu)階段的隨機退出比例較小,設(shè)隨機退出的比例為20%,也就是將p設(shè)為0.8,與普通神經(jīng)網(wǎng)絡(luò)微調(diào)相比,加入隨機退出優(yōu)化之后,識別率提高了1.5%.
3.3 基于隨機下降連接優(yōu)化的深度學(xué)習(xí)語音識別
基于隨機下降連接優(yōu)化的深度學(xué)習(xí)在預(yù)訓(xùn)練階段仍然使用深度信念網(wǎng)絡(luò)完成,之后在調(diào)優(yōu)階段引入隨機下降連接優(yōu)化的神經(jīng)網(wǎng)絡(luò).基于隨機下降連接優(yōu)化的深度學(xué)習(xí)與基于隨機退出優(yōu)化的深度學(xué)習(xí)類似,也是在深度學(xué)習(xí)調(diào)優(yōu)階段引入優(yōu)化方法,設(shè)置隨機下降連接的比例為20%,與普通神經(jīng)網(wǎng)絡(luò)微調(diào)階段相比,加入隨機下降連接優(yōu)化之后,深度學(xué)習(xí)的識別率提高了0.64%.而在運算時間上,加入隨機退出的DBNs網(wǎng)絡(luò)以及加入隨機下降連接的DBNs網(wǎng)絡(luò)的運行時間,要比相同網(wǎng)絡(luò)結(jié)構(gòu)的普通DBNs網(wǎng)絡(luò)的運行時間短.BP網(wǎng)絡(luò)與3種DBNs網(wǎng)絡(luò)的實驗對比結(jié)果為:普通BP網(wǎng)絡(luò)的正確率為87.2%,普通DBNs網(wǎng)絡(luò)的正確率為89%,加入隨機退出的DBNs網(wǎng)絡(luò)的正確率為90.5%,加入隨機下降連接的DBNs網(wǎng)絡(luò)的正確率為91.14%.
深度學(xué)習(xí)在對小樣本數(shù)據(jù)集進(jìn)行訓(xùn)練時,容易出現(xiàn)訓(xùn)練不充分,學(xué)習(xí)效率不理想以及過擬合現(xiàn)象.針對深度學(xué)習(xí)在訓(xùn)練少量數(shù)據(jù)時易產(chǎn)生的問題,提出了對于深度學(xué)習(xí)微調(diào)階段的改進(jìn)方法,即隨機退出和隨機下降連接方法,這兩種方法都是針對深度學(xué)習(xí)在預(yù)訓(xùn)練后的調(diào)優(yōu)階段的優(yōu)化.隨機退出優(yōu)化是指隨機選定一些網(wǎng)絡(luò)中隱層的一些節(jié)點,令選中的節(jié)點的權(quán)重不工作,隨機下降連接是在輸入時就隨機選定一些網(wǎng)絡(luò)中的節(jié)點的權(quán)重不工作,兩者都類似于平均模型.將這兩種方法應(yīng)用于深度學(xué)習(xí),使得權(quán)值更新的過程更具有獨立性,不依賴有固定關(guān)系的隱層節(jié)點間的作用,降低神經(jīng)元之間的依賴性,通過調(diào)優(yōu)獲得更穩(wěn)定的權(quán)重,提高了深度學(xué)習(xí)的效率.
[1] 蔣文,齊林.一種基于深度玻爾茲曼機的半監(jiān)督典型相關(guān)分析算法[J]. 河南科技大學(xué)學(xué)報(自然科學(xué)版), 2016, 37(2):47-51.
[2] 余凱,賈磊,陳雨強,等.深度學(xué)習(xí)的昨天、今天和明天[J].計算機研究與發(fā)展,2013, 50(9):1799-1804.
[3] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計算機應(yīng)用研究,2012,29(8):2806-2810.
[4] 尹寶才,王文通,王立春.深度學(xué)習(xí)研究綜述[J].北京工業(yè)大學(xué)學(xué)報,2015,41(1):48-59.
[5] 李海峰,李純果.深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析[J].河北大學(xué)學(xué)報(自然科學(xué)版),2012,32(5):538-544.
[6] 王洪,劉偉銘. 深度信任支持向量回歸的耕地面積預(yù)測方法[J].鄭州大學(xué)學(xué)報(理學(xué)版),2016,48(1):121-126.
[7] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of machine learning research, 2014, 15(1):1929-1958.
[8] HINTON G, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer science, 2012, 3(4): 212-223.
[9] 胡侯立,魏維,胡蒙娜.深度學(xué)習(xí)算法的原理及應(yīng)用[J].信息技術(shù),2015(2):175-177.
[10]WAN L, ZEILER M, ZHANG S, et al. Regularization of neural networks using dropconnect[C]//Proceedings of the 30th International Conference on Machine Learning. Atlanta, 2013:1058-1066.
(責(zé)任編輯:孔 薇)
Application of Deep Learning Model in Speech Recognition Based on Fine-tuning Optimization Method
PENG Yuqing, LIU Fan, GAO Qingqing, ZHANG Yuanyuan, YAN Qian
(SchoolofComputerScienceandSoftware,HebeiUniversityofTechnology,Tianjin300401,China)
Deep learning models in the training with small samples appeared over-fitting phenomenon. Two optimization methods called dropout and dropconnect based on deep learning were proposed. The two methods intended to improve the fine-tune stage of deep learning models, which could reduce the amount of training data, and made the update process more independent, rather than depended on the hidden layer nodes. Moreover,the error rate could be reduced. Then the experimental methods and the models were used to train and identify the MNIST handwritten digit data set and the isolated speech vocabulary database. The results showed that the two methods could improve the recognition rates, and ease the phenomenon of over-fitting.
deep learning; speech recognition; neural network; deep belief network
2016-06-23
國家自然科學(xué)基金資助項目(51175145);河北省高等學(xué)??茖W(xué)技術(shù)研究重點項目(ZD2014030).
彭玉青(1969—),女,湖南永順人,教授,主要從事基于認(rèn)知機制的多模式感知信息融合、數(shù)據(jù)挖掘、圖像處理與應(yīng)用研究,E-mail: pengyuqing@scse.hebut.edu.cn.
彭玉青,劉帆,高晴晴,等.基于微調(diào)優(yōu)化的深度學(xué)習(xí)在語音識別中的應(yīng)用[J].鄭州大學(xué)學(xué)報(理學(xué)版),2016,48(4):30-35.
TP391
A
1671-6841(2016)04-0030-06
10.13705/j.issn.1671-6841.2016649