賀昱曜 李寶奇
?
一種組合型的深度學(xué)習(xí)模型學(xué)習(xí)率策略
賀昱曜1李寶奇1
一個(gè)設(shè)計(jì)良好的學(xué)習(xí)率策略可以顯著提高深度學(xué)習(xí)模型的收斂速度,減少模型的訓(xùn)練時(shí)間.本文針對AdaGrad和AdaDec學(xué)習(xí)策略只對模型所有參數(shù)提供單一學(xué)習(xí)率方式的問題,根據(jù)模型參數(shù)的特點(diǎn),提出了一種組合型學(xué)習(xí)策略:AdaMix.該策略為連接權(quán)重設(shè)計(jì)了一個(gè)僅與當(dāng)前梯度有關(guān)的學(xué)習(xí)率,為偏置設(shè)計(jì)使用了冪指數(shù)型學(xué)習(xí)率.利用深度學(xué)習(xí)模型Autoencoder對圖像數(shù)據(jù)庫MNIST進(jìn)行重構(gòu),以模型反向微調(diào)過程中測試階段的重構(gòu)誤差作為評價(jià)指標(biāo),驗(yàn)證幾種學(xué)習(xí)策略對模型收斂性的影響.實(shí)驗(yàn)結(jié)果表明,AdaMix比AdaGrad和AdaDec的重構(gòu)誤差小并且計(jì)算量也低,具有更快的收斂速度.
深度學(xué)習(xí),學(xué)習(xí)率,組合學(xué)習(xí)策略,圖像重構(gòu)
引用格式賀昱曜,李寶奇.一種組合型的深度學(xué)習(xí)模型學(xué)習(xí)率策略.自動化學(xué)報(bào),2016,42(6):953-958
深度學(xué)習(xí)[1-6]是機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)新的研究方向,與傳統(tǒng)的機(jī)器學(xué)習(xí)和信號處理方法相比,深度學(xué)習(xí)模擬人類視覺神經(jīng)系統(tǒng)的層次體系,含有更多的隱含單元層,通過對原始數(shù)據(jù)逐層的非線性變換,可以得到更高層次的、更加抽象的特征表達(dá),高層次的表達(dá)能夠強(qiáng)化輸入數(shù)據(jù)的區(qū)分能力,同時(shí)削弱不相關(guān)因素的不利影響.
深度學(xué)習(xí)憑借其處理復(fù)雜和不確定性問題的能力,在圖像分類、文本檢測、語音識別等領(lǐng)域取得了比以往方法更好的成績[7].成績的提高是以規(guī)模更大、層次更深的網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),以海量的訓(xùn)練數(shù)據(jù)為依據(jù),以更多的調(diào)節(jié)參數(shù)為代價(jià),所以深度學(xué)習(xí)模型的訓(xùn)練比以往的方法需要更長時(shí)間,因此如何加快模型的收斂速度是一個(gè)值得深入研究的問題.
一個(gè)呈下降趨勢的學(xué)習(xí)率策略可以顯著提高模型的收斂速度,減少模型的訓(xùn)練時(shí)間[8].深度學(xué)習(xí)模型的學(xué)習(xí)率通常為常數(shù)型或簡單呈下降趨勢的指數(shù)型函數(shù)和冪指數(shù)型函數(shù),其根據(jù)函數(shù)本身的特點(diǎn)調(diào)節(jié)學(xué)習(xí)率大小,在很多情況下上述方法仍然不失為一種最簡單有效的學(xué)習(xí)率策略.2010年,Duchi等提出了自適應(yīng)的全參數(shù)學(xué)習(xí)率策略AadGrad[9],該方法為深度學(xué)習(xí)過程中每一個(gè)參數(shù)單獨(dú)設(shè)計(jì)一個(gè)學(xué)習(xí)率,并利用梯度的平方和保證學(xué)習(xí)率的下降趨勢,該方法首次提出全參數(shù)學(xué)習(xí)率策略,為深度學(xué)習(xí)模型的快速收斂提供了一個(gè)很好的解決思路.2013年,Senior等在AadGrad學(xué)習(xí)策略的基礎(chǔ)上提出了一種改進(jìn)型的學(xué)習(xí)策略AadDec[10],該方法每個(gè)參數(shù)學(xué)習(xí)率由之前的所有回合梯度的平方和簡化為當(dāng)前梯度和上一回合梯度的平方和,并將該方法成功應(yīng)用到語音識別系統(tǒng)中,在模型收斂速度上AadDec比AadGrad有進(jìn)一步的提升.深度學(xué)習(xí)模型內(nèi)連接權(quán)重和偏置屬于兩種類型的參數(shù),作用也不一樣,為不同類型的參數(shù)提供相同的學(xué)習(xí)策略是不合理的.
本文在AadGrad和AadDec學(xué)習(xí)策略的基礎(chǔ)上,通過對隨機(jī)梯度下降法收斂機(jī)制的分析以及對深度學(xué)習(xí)模型連接權(quán)重和偏置的深入研究,提出了一種組合型的學(xué)習(xí)策略AdaMix,即為連接權(quán)重和偏置分別設(shè)計(jì)學(xué)習(xí)率,以期能加快深度學(xué)習(xí)模型的收斂速度,同時(shí)減少模型的運(yùn)算時(shí)間.
本文以圖像重構(gòu)任務(wù)為背景,研究學(xué)習(xí)率對深度學(xué)習(xí)模型收斂性的影響.
1.1數(shù)據(jù)
為客觀地評價(jià)學(xué)習(xí)率策略對深度學(xué)習(xí)模型收斂性的影響,實(shí)驗(yàn)采用MNIST數(shù)據(jù)庫,該庫總共包含70000幅28像素×28像素的圖像,每一個(gè)樣本為0~9的手寫體數(shù)字,其中60000幅為訓(xùn)練樣本集,10000幅為測試樣本集.
1.2深度學(xué)習(xí)模型
本文研究的深度學(xué)習(xí)模型為Autoencoder[8],從本質(zhì)上講它是深度信念網(wǎng)絡(luò)(Deep belief nets,DBN)[11]的無監(jiān)督形式,同樣由多個(gè)限制玻爾茲曼機(jī)(Restricted Boltzmann machines,RBM)[12]逐層迭代組成.在預(yù)處理階段(Pertraining),Autoencoder與DBN的訓(xùn)練方式一樣,利用大量的無標(biāo)簽數(shù)據(jù)使模型參數(shù)的初值感知在一個(gè)合理的范圍;在反向微調(diào)階段(Fine-turning),DBN模型使用Wake-sleep算法[13]對模型的參數(shù)進(jìn)行微調(diào),而Autoencoder首先構(gòu)建一個(gè)對稱的網(wǎng)絡(luò)用于生成原始輸入數(shù)據(jù),如圖1所示,這個(gè)過程被稱作展開(Unrolling),然后利用原始數(shù)據(jù)與生成數(shù)據(jù)之間的差異對模型的參數(shù)進(jìn)行微調(diào),整個(gè)過程不需要使用標(biāo)簽數(shù)據(jù),經(jīng)過足夠多的迭代運(yùn)算以后,模型便可以精確重構(gòu)原始輸入數(shù)據(jù).
圖1 Autoencoder模型的訓(xùn)練過程Fig.1 The training process of Autoencoder model
1.3學(xué)習(xí)率的定義
對于一個(gè)參數(shù)為θ={ωij,b1i,b2j}的RBM模型,如圖2所示,上層為隱含單元層,下層為可見單元層,可見單元與隱含單元之間雙向連接,同一層內(nèi)的神經(jīng)元之間互不連接.從概率論的角度,這也就意味著在給定可見單元的狀態(tài)下各個(gè)隱含單元之間是相互獨(dú)立的,反之亦然.在模型訓(xùn)練過程中,需要計(jì)算三種不同類型的參數(shù)[14].
其中,α為可見單元層與隱含單元層之間連接權(quán)重的學(xué)習(xí)率,Δωij為權(quán)重增量;β為可見單元層偏置的學(xué)習(xí)率,Δb1i為偏置增量;γ為隱含單元層偏置的學(xué)習(xí)率,Δb2j為偏置增量. Edata為由輸入數(shù)據(jù)得到的期望,Emodel為由模型得到的期望.η={α,β,γ}稱為模型的學(xué)習(xí)率.
圖2 RBM的結(jié)構(gòu)圖Fig.2 The network graph of an RBM
1.4隨機(jī)梯度下降法
對于深度學(xué)習(xí)模型Autoencoder的參數(shù)θ優(yōu)化求解問題[15-16],其一般數(shù)學(xué)表達(dá)式為
其中,L(θ)為定義在數(shù)據(jù)集上的損失函數(shù),▽L(θ)為損失函數(shù)的梯度,θ(t+1)為迭代t+1時(shí)刻的參數(shù)值,θ(t)為迭代t時(shí)刻的參數(shù)值,η(t)為學(xué)習(xí)率(步長).梯度下降法可以快速求解大多數(shù)優(yōu)化問題,但對以大規(guī)模數(shù)據(jù)集(Large data set)為基礎(chǔ)的深度學(xué)習(xí)模型參數(shù)優(yōu)化而言,▽L(θ)的計(jì)算非常耗時(shí)甚至無法計(jì)算.
隨機(jī)梯度下降法(Stochastic gradient descent,SGD)[17]是梯度下降法的變形.與梯度下降法計(jì)算整個(gè)數(shù)據(jù)集不同,SGD只在數(shù)據(jù)集中隨機(jī)挑選一部分樣本(Minibatch)來計(jì)算損失函數(shù)的梯度,其數(shù)學(xué)表達(dá)式為
其中,▽Lm(θ)為利用第m個(gè)批次數(shù)據(jù)計(jì)算得到的損失函數(shù)梯度值,N為第m個(gè)批次數(shù)據(jù)集內(nèi)樣本的個(gè)數(shù).與梯度下降法相比,SGD的計(jì)算量得到了極大的降低,所以深度學(xué)習(xí)模型主要采用SGD方法優(yōu)化模型參數(shù).
在滿足
的條件下,SGD與梯度下降法具有相同的收斂特性[18].‖▽Lm‖< H,H 為有界常數(shù),模型的學(xué)習(xí)率需滿足limt→∞η(t)=0,即一個(gè)呈下降趨勢并收斂至0的學(xué)習(xí)率.
1.5評價(jià)指標(biāo)
本文使用Autoencoder反向微調(diào)階段測試數(shù)據(jù)集的重構(gòu)誤差(Reconstruction error rate,RER)作為模型收斂狀態(tài)的定量評價(jià)指標(biāo).該指標(biāo)是在像素的層次上描述圖像的重構(gòu)質(zhì)量,與分類準(zhǔn)確率相比能更好地描述模型參數(shù)的收斂狀態(tài).對于一個(gè)含有N個(gè)樣本的測試數(shù)據(jù)集,其重構(gòu)誤差數(shù)學(xué)表達(dá)式為
其中,MSE為均方誤差(Mean squared error,MSE)的計(jì)算公式,In(data)為模型輸入數(shù)據(jù),Out(data)為模型生成數(shù)據(jù),D為樣本元素個(gè)數(shù),即圖像的像素?cái)?shù).在相同的迭代次數(shù)下,重構(gòu)誤差率越大收斂性越差,重構(gòu)誤差率越小收斂性越好.
常數(shù)型學(xué)習(xí)率在很多時(shí)候仍然不失為一種最簡單有效的方法,但需要對學(xué)習(xí)率初值設(shè)置有足夠豐富的經(jīng)驗(yàn).深度學(xué)習(xí)模型權(quán)重和偏置屬于兩種類型的參數(shù),其作用也不同,因此在設(shè)計(jì)學(xué)習(xí)率策略時(shí),需要考慮權(quán)重和偏置各自的特點(diǎn).
2.1權(quán)重和偏置
深度學(xué)習(xí)模型的基本單元為神經(jīng)元,其結(jié)構(gòu)如圖3所示.
圖3 人工神經(jīng)元結(jié)構(gòu)Fig.3 The network graph of an artificial neuron
圖3中,vi代表輸入神經(jīng)元,xi為輸入神經(jīng)元狀態(tài),wij為輸入神經(jīng)元與輸出神經(jīng)元hj的連接權(quán)重,bj為輸出神經(jīng)元的偏置(閾值),f(·)為激活函數(shù),yj為輸出神經(jīng)元狀態(tài).數(shù)學(xué)表達(dá)式如下:
深度學(xué)習(xí)模型通過連接權(quán)重實(shí)現(xiàn)數(shù)據(jù)的表達(dá),通過共享權(quán)重和偏置實(shí)現(xiàn)數(shù)據(jù)的區(qū)分,權(quán)重對深度學(xué)習(xí)模型的特征提取和逐層抽象非常重要;偏置項(xiàng)則是相當(dāng)于原始數(shù)據(jù)增加的一個(gè)維度(一個(gè)狀態(tài)為bj,權(quán)重一直為1的神經(jīng)元),原始數(shù)據(jù)增加一個(gè)維度有利于數(shù)據(jù)的區(qū)分,尤其是在輸入數(shù)據(jù)維度較低的條件下.但如果輸入數(shù)據(jù)維度比較高,已經(jīng)足以對數(shù)據(jù)進(jìn)行區(qū)分,偏置的作用就會被弱化.因此對于本文的高維數(shù)據(jù)(本文數(shù)據(jù)維度為28像素×28像素),如果僅考慮連接權(quán)重而不考慮偏置,模型通過增加的迭代次數(shù)仍可達(dá)到它們同時(shí)作用的效果;反之則不然.
對于連接權(quán)重(權(quán)重)和偏置(狀態(tài))的調(diào)節(jié)需要采用不同的機(jī)制.對權(quán)重而言,為每個(gè)權(quán)重參數(shù)單獨(dú)設(shè)計(jì)一個(gè)學(xué)習(xí)率,讓其根據(jù)自身的狀態(tài)自適應(yīng)調(diào)節(jié)學(xué)習(xí)率及增量的大小,能加快輸入數(shù)據(jù)的穩(wěn)定表達(dá),從而提高模型的收斂速度.雖然在處理高維數(shù)據(jù)時(shí),偏置項(xiàng)的作用得到了弱化,但若處理不當(dāng)仍會放慢模型收斂速度,所以偏置學(xué)習(xí)率的選取應(yīng)在保證下降趨勢的前提下,盡量選取計(jì)算量小的函數(shù).后續(xù)的仿真實(shí)驗(yàn)對本文提出的權(quán)重和偏置學(xué)習(xí)率設(shè)計(jì)原則的合理性進(jìn)行了驗(yàn)證.
2.2學(xué)習(xí)率策略
一個(gè)設(shè)計(jì)良好的學(xué)習(xí)率策略可以顯著提高深度學(xué)習(xí)模型的收斂速度,減少模型的訓(xùn)練時(shí)間.全參數(shù)型學(xué)習(xí)率從機(jī)理上講,更能加快深度學(xué)習(xí)模型的收斂速度.
2.2.1AdaGrad
AdaGrad是一個(gè)自適應(yīng)的全參數(shù)形式學(xué)習(xí)策略.其數(shù)學(xué)表達(dá)形式如下:
其中,η(0)為模型迭代第1次時(shí)的學(xué)習(xí)率,η(t)為模型迭代第t+1次時(shí)的學(xué)習(xí)率,g(s)為模型迭代第s次時(shí)的梯度(為了表述方便,用g代替▽Lm),K為常數(shù)項(xiàng),通常K=1.
AdaGrad為模型連接權(quán)重和偏置的每個(gè)參數(shù)都單獨(dú)提供了一個(gè)統(tǒng)一形式學(xué)習(xí)率,每個(gè)學(xué)習(xí)率能根據(jù)梯度的變化情況自適應(yīng)調(diào)整大小,并利用梯度的平方和來保證學(xué)習(xí)率呈下降趨勢.AdaGrad為研究全參數(shù)自適應(yīng)學(xué)習(xí)率提供了依據(jù).
2.2.2AdaDec
AdaDec是在AdaGrad的基礎(chǔ)上針對語音識別系統(tǒng)提出的一種改進(jìn)形式,分母中的梯度部分僅由上一回合和當(dāng)前梯度決定,與之前的梯度沒有關(guān)系,同時(shí)為了保證學(xué)習(xí)策略在長期的學(xué)習(xí)過程中呈現(xiàn)下降的趨勢,分子用一個(gè)呈下降趨勢的冪指數(shù)代替,其數(shù)學(xué)表達(dá)形式如下:
其中,p為冪指數(shù)型函數(shù),R為最大迭代次數(shù),q為常數(shù)項(xiàng),通常取值為0.75;G(t)為當(dāng)前梯度和上一次梯度的平方和,ξ為衰減因子,取值為0.999;K為常數(shù)項(xiàng),取值為1.
AdaDec同樣為模型連接權(quán)重和偏置的每個(gè)參數(shù)都單獨(dú)提供了一個(gè)統(tǒng)一形式學(xué)習(xí)率,每個(gè)學(xué)習(xí)率在冪指數(shù)函數(shù)和最近兩個(gè)回合梯度平方和的共同作用下自適應(yīng)的下降.
2.2.3AdaMix
本文在AdaGrad和AdaDec的基礎(chǔ)上,根據(jù)連接權(quán)重和偏置的不同特點(diǎn)和作用,依據(jù)本文提出的設(shè)計(jì)原則提出了一種組合形式的學(xué)習(xí)率策略:AdaMix,其數(shù)學(xué)表達(dá)式如下:
其中,αij(t)為連接權(quán)重下一回合的學(xué)習(xí)率,αij(t-1)為當(dāng)前回合連接權(quán)重的學(xué)習(xí)率,g(t)2為當(dāng)前回合的梯度的平方和,K=1.βi(t)和γj(t)分別為可見單元和隱含單元偏置的學(xué)習(xí)率,使用呈下降趨勢的冪指數(shù)函數(shù),q依然取0.75.
AdaMix權(quán)重部分的學(xué)習(xí)率是在AdaGrad和AdaDec兩種學(xué)習(xí)率策略基礎(chǔ)上做出的改進(jìn).在上一回合的學(xué)習(xí)率的基礎(chǔ)上利用當(dāng)前的梯度去自適應(yīng)調(diào)節(jié)學(xué)習(xí)率的大小,這樣設(shè)計(jì)的學(xué)習(xí)率更能準(zhǔn)確描述模型的運(yùn)行狀態(tài),調(diào)節(jié)得到的學(xué)習(xí)率也更合理,因此能加快模型的收斂速度,也減少了不必要的計(jì)算(歷史梯度數(shù)據(jù)).在處理高維數(shù)據(jù)時(shí),偏置項(xiàng)的作用受到了弱化,因此在保證快速收斂的前提下,從減少計(jì)算量的角度出發(fā),為偏置部分選擇了冪指數(shù)函數(shù)作為學(xué)習(xí)率,同時(shí)所有的偏置項(xiàng)共用此學(xué)習(xí)率.
2.3算法分析
AdaGrad引入了過多的歷史梯度數(shù)據(jù),歷史梯度數(shù)據(jù)對當(dāng)前回合的學(xué)習(xí)率的貢獻(xiàn)是有限的,而且當(dāng)前學(xué)習(xí)率都是在初始學(xué)習(xí)率的調(diào)節(jié)基礎(chǔ)上得到,并不能很好地反映模型運(yùn)行狀態(tài).AdaDec是以冪指數(shù)函數(shù)作為學(xué)習(xí)率的下降趨勢,在此基礎(chǔ)上利用最近兩個(gè)回合的梯度數(shù)據(jù)對當(dāng)前學(xué)習(xí)率進(jìn)行調(diào)節(jié),而冪指數(shù)函數(shù)并不是模型真正的收斂曲線.AdaMix則是在充分考慮了模型參數(shù)特點(diǎn)的基礎(chǔ)上,為權(quán)重設(shè)計(jì)了更能反映模型運(yùn)行狀態(tài)的學(xué)習(xí)率,為偏置設(shè)計(jì)了收斂速度較好但計(jì)算量小的冪指數(shù)函數(shù),不同類型的參數(shù)依據(jù)自身的狀態(tài)實(shí)現(xiàn)快速收斂.從模型的收斂條件來看,模型參數(shù)的學(xué)習(xí)率越能反映模型的運(yùn)行狀態(tài)越能加快模型的收斂速度.
為了驗(yàn)證本文方法AdaMix的性能,引入常數(shù)型學(xué)習(xí)率(Cons或Cons+Cons)作為參考,設(shè)計(jì)實(shí)驗(yàn)1對三種學(xué)習(xí)率策略AdaMix、AdaGrad和AdaDec的收斂性和計(jì)算量(模型運(yùn)算時(shí)間)進(jìn)行比較;為了驗(yàn)證本文提出的權(quán)重和偏置學(xué)習(xí)率設(shè)計(jì)原則,設(shè)計(jì)實(shí)驗(yàn)2、實(shí)驗(yàn)3和實(shí)驗(yàn)4分別研究權(quán)重和偏置的關(guān)系、不同學(xué)習(xí)率對權(quán)重的影響和不同學(xué)習(xí)率對偏置的影響;為了進(jìn)一步驗(yàn)證本文方法的收斂性能,設(shè)計(jì)實(shí)驗(yàn)5研究不同規(guī)模數(shù)據(jù)量對本文方法(AdaMix)的影響.
實(shí)驗(yàn)采用一個(gè)5層的Autoencoder模型,第1層神經(jīng)元的個(gè)數(shù)為784,第2層神經(jīng)元的個(gè)數(shù)為1000,第3層神經(jīng)元的個(gè)數(shù)為500,第4層神經(jīng)元的個(gè)數(shù)為250,第5層神經(jīng)元的個(gè)數(shù)為30,各層之間的初始連接權(quán)重服從均值為0、方差為0.001的高斯分布,第1層的初始偏置由訓(xùn)練數(shù)據(jù)決定,其他層的初始偏置設(shè)置為0.實(shí)驗(yàn)中所提到的方法均采用相同的學(xué)習(xí)率初始值,預(yù)處理階段的學(xué)習(xí)率初始值為0.1,反向微調(diào)階段的學(xué)習(xí)率初始值為0.001.模型的重構(gòu)誤差根據(jù)式(8)和式(9)計(jì)算.
3.1實(shí)驗(yàn)1.AdaMix的性能
實(shí)驗(yàn)比較常數(shù)型、AdaGrad、AdaDec和AdaMix四種學(xué)習(xí)率策略對深度學(xué)習(xí)模型收斂性的影響同時(shí)計(jì)算模型迭代50次時(shí)的運(yùn)行時(shí)間.實(shí)驗(yàn)數(shù)據(jù)為完整MNIST數(shù)據(jù)集的1/10,即訓(xùn)練樣本集為6000幅圖像,測試樣本集為1000幅圖像.SGD迭代次數(shù)為5~50,步長為5.
從圖4可以看出,四種學(xué)習(xí)策略都使模型的重構(gòu)誤差隨迭代次數(shù)的增加而減小并且逐步趨于穩(wěn)定.在整個(gè)迭代過程中常數(shù)型、AdaGrad和AdaDec的重構(gòu)誤差曲線接近,AdaMix的重構(gòu)誤差曲線低于另外三種.迭代次數(shù)為50次時(shí),常數(shù)型學(xué)習(xí)率的重構(gòu)誤差為8.37,AdaGrad的重構(gòu)誤差為8.47,AdaDec的重構(gòu)誤差為8.22,AadMix的重構(gòu)誤差為7.82.AdaMix的收斂性能最好.
與此同時(shí),模型迭代50次時(shí)計(jì)算機(jī)仿真時(shí)間依次為693.54s,810.20s,833.79s和752.56s.常數(shù)型學(xué)習(xí)率的計(jì)算時(shí)間最短,其次是AdaMix,AdaGrad和AdaDec.雖然迭代50次時(shí),AadMix比常數(shù)型學(xué)習(xí)率的計(jì)算時(shí)間長,但從圖4可以看出要實(shí)現(xiàn)相同的收斂效果,常數(shù)型學(xué)習(xí)率需要更多的迭代次數(shù),即更長的計(jì)算時(shí)間.綜合考慮重構(gòu)誤差和計(jì)算時(shí)間,AadMix的性能優(yōu)于其他三種學(xué)習(xí)率.
圖4 AdaMix與其他三種方法的收斂性能比較Fig.4 Comparison of the convergence performance of AdaMix and other three methods
3.2實(shí)驗(yàn)2.權(quán)重和偏置的作用
本實(shí)驗(yàn)在常數(shù)型學(xué)習(xí)率策略(Cons+Cons)的基礎(chǔ)上,設(shè)計(jì)另外兩種形式的學(xué)習(xí)率策略.權(quán)重學(xué)習(xí)率為常數(shù),偏置學(xué)習(xí)率為零(Cons+None)和權(quán)重的學(xué)習(xí)率為零,偏置的學(xué)習(xí)率為常數(shù)(None+Cons).比較分析連接權(quán)重和偏置對深度學(xué)習(xí)模型收斂性的影響.實(shí)驗(yàn)數(shù)據(jù)為完整MNIST數(shù)據(jù)集的1/10,即訓(xùn)練樣本集為6000幅圖像,測試樣本集為1000幅圖像.SGD迭代次數(shù)為5~50,步長為5.
從圖5可以看出,Cons+None和Cons+Cons兩種學(xué)習(xí)率策略使模型的重構(gòu)誤差隨著迭代次數(shù)的增加逐漸減小,并且下降的趨勢是一致的,迭代50次時(shí)的重構(gòu)誤差分別為9.09和8.37;None+Cons型學(xué)習(xí)率策略并沒有使模型的重構(gòu)誤差隨迭代次數(shù)的增加而減少,而且一直保持在一個(gè)非常高的水平(51.40).由此可見,在處理高維數(shù)據(jù)時(shí)(本文數(shù)據(jù)的維數(shù)28像素×28像素),權(quán)重對模型的收斂起決定性的作用,偏置的作用受到了弱化.同時(shí)通過增加迭代次數(shù),Cons+None型學(xué)習(xí)率可以獲得與Cons+Cons同樣水平的重構(gòu)誤差.
圖5 權(quán)重和偏置對深度學(xué)習(xí)模型收斂性的影響Fig.5 The influence of weight and bias on the convergence of deep learning model
3.3實(shí)驗(yàn)3.不同學(xué)習(xí)率對權(quán)重的影響
本實(shí)驗(yàn)在常數(shù)型學(xué)習(xí)率(Cons+Cons)的基礎(chǔ)上,對權(quán)重部分設(shè)計(jì)五種不同形式的學(xué)習(xí)率策略.權(quán)重的學(xué)習(xí)率為指數(shù)(Exponent),偏置的學(xué)習(xí)率為常數(shù)(Exp+Cons);權(quán)重的學(xué)習(xí)率為冪指數(shù)(Power),偏置的學(xué)習(xí)率為常數(shù)(Power +Cons);權(quán)重的學(xué)習(xí)率為AdaGrad,偏置的學(xué)習(xí)率為常數(shù)(AdaGrad+Cons);權(quán)重的學(xué)習(xí)率為AdaDec,偏置的學(xué)習(xí)率為常數(shù)(AdaDec+Cons);權(quán)重為AdaMix的權(quán)重部分;偏置為常數(shù)型學(xué)習(xí)率(AdaMix+Cons).比較上述六種學(xué)習(xí)率策略對深度學(xué)習(xí)模型連接權(quán)重的影響.實(shí)驗(yàn)數(shù)據(jù)為完整MNIST數(shù)據(jù)集的1/10,即訓(xùn)練樣本集為6000幅圖像,測試樣本集為1000幅圖像.SGD迭代次數(shù)為5~50,步長為5.
從圖6可以看出,六種學(xué)習(xí)率策略都使模型重構(gòu)誤差隨著迭代次數(shù)的增加而降低,整體趨勢一致.模型迭代50次時(shí)常數(shù)型學(xué)習(xí)率重構(gòu)誤差為8.37,Exp+Cons型學(xué)習(xí)率為8.67,Power+Cons型學(xué)習(xí)率為8.38,AdaGrad+Cons型學(xué)習(xí)率為8.28,AdaDec+Cons型學(xué)習(xí)率為8.10,AdaMix +Cons型學(xué)習(xí)率為7.88.連接權(quán)重為全參數(shù)形式(后三種)的學(xué)習(xí)率策略比簡單形式(前三種)的學(xué)習(xí)率策略具有更好的收斂性能,尤其是本文提出的權(quán)重學(xué)習(xí)方式.
圖6 不同學(xué)習(xí)率對深度學(xué)習(xí)模型權(quán)重的影響Fig.6 The influence of different learning rates on the weight of deep learning model
3.4實(shí)驗(yàn)4.不同學(xué)習(xí)率對偏置的影響
本實(shí)驗(yàn)在常數(shù)型學(xué)習(xí)率的基礎(chǔ)上,對偏置部分設(shè)計(jì)五種不同形式的學(xué)習(xí)率策略.權(quán)重的學(xué)習(xí)率為常數(shù),偏置的學(xué)習(xí)率為指數(shù)(Cons+Exp);權(quán)重的學(xué)習(xí)率為常數(shù),偏置的學(xué)習(xí)率為冪指數(shù)(Cons+Power);權(quán)重的學(xué)習(xí)率為常數(shù),偏置的學(xué)習(xí)率為AdaGrad(Cons+AdaGrad);權(quán)重的學(xué)習(xí)率為常數(shù),偏置的學(xué)習(xí)率為AdaDec(Cons+AdaDec);權(quán)重的學(xué)習(xí)率為常數(shù),偏置為AdaMix的權(quán)重部分的學(xué)習(xí)率(Cons+AdaMix).比較上述六種學(xué)習(xí)率深度學(xué)習(xí)模型偏置的影響.實(shí)驗(yàn)數(shù)據(jù)為完整MNIST數(shù)據(jù)集的1/10,即訓(xùn)練樣本集為6000幅圖像,測試樣本集為1000幅圖像.SGD迭代次數(shù)為5~50,步長為5.
從圖7可以看出,六種學(xué)習(xí)率策略都使模型重構(gòu)誤差隨著迭代次數(shù)的增加而降低,整體趨勢一致.六種偏置的學(xué)習(xí)率性能比較接近,模型迭代50次時(shí)常數(shù)型學(xué)習(xí)率的重構(gòu)誤差為8.37,Cons+Exp型學(xué)習(xí)率為8.49,Cons+Power型學(xué)習(xí)率為8.31,Cons+AdaGrad型學(xué)習(xí)率為8.54,Cons+AdaDec型學(xué)習(xí)率為8.44,Cons+AdaMix型學(xué)習(xí)率為8.45.六種學(xué)習(xí)略策略的收斂性能接近,偏置部分為冪指數(shù)形式的學(xué)習(xí)率時(shí),模型收斂性能稍好.
圖7 不同學(xué)習(xí)率對深度學(xué)習(xí)模型偏置的影響Fig.7 The influence of different learning rates on the bias of deep learning model
3.5實(shí)驗(yàn)5.數(shù)據(jù)量對AdaMix性能的影響
本實(shí)驗(yàn)比較數(shù)據(jù)量對AdaMix性能的影響,數(shù)據(jù)量為完整MNIST數(shù)據(jù)集的1/10、3/10、6/10和1.SGD迭代次數(shù)為5~50,步長為5.
從圖8可以看出,AdaMix在四種數(shù)據(jù)量下,模型重構(gòu)誤差隨迭代次數(shù)的增大重構(gòu)誤差不斷減小.模型迭代50次時(shí)四種數(shù)據(jù)量下的重構(gòu)誤差依次為7.81、5.06、4.06和3.56.在相同的迭代次數(shù)條件下,數(shù)據(jù)量越大模型的重構(gòu)誤差越小,收斂速度越快.
圖8 不同數(shù)據(jù)量下的AdaMix對深度學(xué)習(xí)模型收斂性能的影響Fig.8 The convergence of deep learning model under AdaMix in different scale data sets
3.6討論
簡單形式的學(xué)習(xí)率(常數(shù)型、指數(shù)型和冪指數(shù)型等)雖然計(jì)算量低,但模型收斂速度慢.全參數(shù)形式的學(xué)習(xí)率策略(AdaGrad和AdaDec)雖然在一定程度上提高模型的收斂速度,但卻提高了模型的計(jì)算量.AdaMix是一種組合型的學(xué)習(xí)率策略,即為權(quán)重和偏置分別設(shè)計(jì)符合各自特點(diǎn)的學(xué)習(xí)率,與AdaGrad和AdaDec相比,在提高模型收斂速度的同時(shí)也降低了模型的運(yùn)算時(shí)間.收斂速度的提高得益于權(quán)重采用全參數(shù)形式的學(xué)習(xí)率,學(xué)習(xí)率的取值與模型當(dāng)前的運(yùn)行狀態(tài)直接相關(guān),所以得到的學(xué)習(xí)率更合理;計(jì)算量的降低一部分原因是權(quán)重部分減少了不必要的歷史梯度計(jì)算,另外就是偏置采取了形式簡單的冪指數(shù)函數(shù)作為學(xué)習(xí)率.當(dāng)原始輸入數(shù)據(jù)維度較高時(shí),弱化了偏置的作用、強(qiáng)化了權(quán)重的作用,連接權(quán)重和偏置的關(guān)系和作用得到了進(jìn)一步的理解.數(shù)據(jù)量對深度學(xué)習(xí)模型收斂有很大的影響,通過增加訓(xùn)練樣本集的數(shù)量可以減小模型的重構(gòu)誤差、提高模型的收斂速度.
通過對深度學(xué)習(xí)模型參數(shù)特點(diǎn)進(jìn)行深入研究,給出了深度學(xué)習(xí)模型權(quán)重和偏置的設(shè)計(jì)原則,并在此基礎(chǔ)上提出了一種組合型學(xué)習(xí)策略AdaMix,經(jīng)實(shí)驗(yàn)證明AdaMix比Ada-Grad和AdaDec的收斂性好、計(jì)算量低.顯然細(xì)化深度學(xué)習(xí)模型中參數(shù)的學(xué)習(xí)策略是提高模型是收斂性的有效手段.
在本文的研究基礎(chǔ)上,擬開展的研究工作是:1)將本文方法應(yīng)用到聲音、文本等其他領(lǐng)域的學(xué)習(xí)過程中;2)對深度學(xué)習(xí)模型采用逐層的學(xué)習(xí)策略,并對本文方法做相應(yīng)的改變.
References
1 Hinton G.Where do features come from?Cognitive Science,2014,38(6):1078-1101
2 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436-444
3 Mnih V,Kavukcuoglu K,Silver D,Rusu A A,Veness J,Bellemare M G,Graves A,Riedmiller M,F(xiàn)idjeland A K,Ostrovski G,Petersen S,Beattie C,Sadik A,Antonoglou I,King H,Kumaran D,Wierstra D,Legg S,Hassabis D. Human-level control through deep reinforcement learning. Nature,2015,518(7540):529-533
4 Schmidhuber J.Deep learning in neural networks: an overview.Neural Networks,2015,61(7553):85-117
5 Gao Ying-Ying,Zhu Wei-Bin.Deep neural networks with visible intermediate layers.Acta Automatica Sinica,2015,41(9):1627-1637(高瑩瑩,朱維彬.深層神經(jīng)網(wǎng)絡(luò)中間層可見化建模.自動化學(xué)報(bào),2015,41(9):1627-1637)
6 Qiao Jun-Fei,Pan Guang-Yuan,Han Hong-Gui.Design and application of continuous deep belief network.Acta Automatica Sinica,2015,41(12):2138-2146(喬俊飛,潘廣源,韓紅桂.一種連續(xù)型深度信念網(wǎng)的設(shè)計(jì)與應(yīng)用.自動化學(xué)報(bào),2015,41(12):2138-2146)
7 Yu D,Deng L.Deep learning and its applications to signal and information processing.IEEE Signal Processing Magazine,2011,28(1):145-154
8 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507
9 Duchi J,Hazan E,Singer Y.Adaptive subgradient methods for online learning and stochastic optimization.The Journal of Machine Learning Research,2011,12:2121-2159
10 Senior A,Heigold G,Ranzato M A,Yang K.An empirical study of learning rates in deep neural networks for speech recognition.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech,and Signal Processing. Vancouver,BC:IEEE,2013.6724-6728
11 Hinton G E,Dayan P,F(xiàn)rey B J,Neal R M.The“wake-sleep”algorithm for unsupervised neural networks.Science,1995,268(5214):1158-1161
12 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7):1527 -1554
13 Fischer A,Igel C.Training restricted Boltzmann machines:an introduction.Pattern Recognition,2014,47(1):25-39
14 Salakhutdinov R,Hinton G.An efficient learning procedure for deep Boltzmann machines.Neural Computation,2012,24(8):1967-2006
15 Robbins H,Monro S.A stochastic approximation method. The Annals of Mathematical Statistics,1951,22(3):400-407
16 You Z,Wang X R,Xu B.Exploring one pass learning for deep neural network training with averaged stochastic gradient descent.In:Proceedings of the 2014 IEEE International Conference on Acoustics,Speech,and Signal Processing.Florence,Italy:IEEE,2014.6854-6858
17 Klein S,Pluim J P W,Staring M,Viergever M A.Adaptive stochastic gradient descent optimisation for image registration.International Journal of Computer Vision,2009,81(3):227-239
18 Shapiro A,Wardi Y.Convergence analysis of gradient descent stochastic algorithms.Journal of Optimization Theory and Applications,1996,91(2):439-454
賀昱曜西北工業(yè)大學(xué)教授.主要研究方向?yàn)橹悄芸刂婆c非線性控制理論,精確制導(dǎo)與仿真,信息融合,現(xiàn)代電力電子技術(shù)與功率變換理論.
E-mail:heyyao@nwpu.edu.cn
(HE Yu-YaoProfessor at Northwestern Polytechnical University.His research interest covers intelligent control and nonlinear control theory,precision guidance and simulation,information fusion,modern power electronics technology,and power transformation theory.)
李寶奇西北工業(yè)大學(xué)博士研究生.主要研究方向?yàn)槟繕?biāo)檢測、識別和跟蹤,信息融合,深度學(xué)習(xí).本文通信作者.
E-mail:bqli@mail.nwpu.edu.cn
(LI Bao-QiPh.D.candidate at Northwestern Polytechnical University.His research interest covers target detection,recognition and tracking,information fusion,and deep learning.Corresponding author of this paper.)
A Combinatory Form Learning Rate Scheduling for Deep Learning Model
HE Yu-Yao1LI Bao-Qi1
A good learning rate scheduling can significantly improve the convergence rate of the deep learning model and reduce the training time.The AdaGrad and AdaDec learning strategies only provide a single form learning rate for all the parameters of the deep learning model.In this paper,AdaMix is proposed.According to the characteristics of the model parameters,and a learning rate form which is only based on the current epoch gradient is designed for the connection weights,a power exponential learning rate form is used for the bias.The test reconstruction error in the fine-turning phase of the deep learning model is used as the evaluation index.In order to verify the convergence of the deep learning based on different learning rate strategies,Autoencoder,a deep learning model,is trained to restructure the MNIST database.The experimental results show that Adamix has the lowest reconstruction error and minimum calculation compared with AdaGrad and AdaDec,so the deep learning model can quickly converge by using AdaMix.
Deep learning,learning rate,combined learning scheduling,image reconstruction
10.16383/j.aas.2016.c150681
He Yu-Yao,Li Bao-Qi.A combinatory form learning rate scheduling for deep learning model.Acta Automatica Sinica,2016,42(6):953-958
2015-10-20錄用日期2016-04-01
Manuscript received October 20,2015;accepted April 1,2016
國家自然科學(xué)基金(61271143)資助
Supported by National Natural Science Foundation of China (61271143)
本文責(zé)任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.西北工業(yè)大學(xué)航海學(xué)院 西安710072
1.School of Marine Science and Technology,Northwestern Polytechnical University,Xi′an 710072