何婕
(重慶工商職業(yè)學(xué)院)
【摘要】針對并行訓(xùn)練算法面臨的諸多問題上 ,提出了一種并行分布式訓(xùn)練模型。該模型采用主-從機(jī)結(jié)構(gòu),通過數(shù)據(jù)片split迭代得到數(shù)據(jù)塊block,然后聚合所有從機(jī)優(yōu)化得到的模型。實(shí)驗(yàn)表明,該模型在犧牲部分模型性能的情況下,實(shí)現(xiàn)了訓(xùn)練的線性加速
【關(guān)鍵字】深度學(xué)習(xí) 數(shù)據(jù)并行 訓(xùn)練框架
1 引言
深度學(xué)習(xí)是現(xiàn)代信息處理的一種智能算法,通過多層人工神經(jīng)網(wǎng)絡(luò)擬合訓(xùn)練樣本數(shù)據(jù),解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法在訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)時出現(xiàn)的局部最優(yōu)問題,基于深度學(xué)習(xí)對于圖像、文本、語音等識別算法能夠較快的提取對象特征值,且時效性較好,得到越來越深入的研究。
2 深度學(xué)習(xí)模型
近年來,深度學(xué)習(xí)模型最引人注目的是谷歌公司開發(fā)的DistBelief訓(xùn)練框架,該框架在數(shù)以千計(jì)的計(jì)算節(jié)點(diǎn)上訓(xùn)練不同類型的深度學(xué)習(xí)模型,這種算法屬于異步SGD算法。根據(jù)谷歌公布的結(jié)果顯示,隨著用于并行訓(xùn)練機(jī)器的增多,異步SGD訓(xùn)練得到的模型性能會出現(xiàn)顯著下降。對其算法進(jìn)行可擴(kuò)展化訓(xùn)練的思路,一是可以采用基于模型平均的算法,還有一種是基于狀態(tài)聚類的多DNN訓(xùn)練算法,它將深度學(xué)習(xí)訓(xùn)練任務(wù)分解成多個子任務(wù),每個子任務(wù)獨(dú)立進(jìn)行各自模型的訓(xùn)練,因而可以并行處理,在系統(tǒng)性能略有下降的情況下,實(shí)現(xiàn)了DNN的加速訓(xùn)練。
3 數(shù)據(jù)并行的分布式訓(xùn)練算法
針對現(xiàn)有并行訓(xùn)練算法面臨的諸多問題(可擴(kuò)展性差、實(shí)現(xiàn)困難、并行效率低),我們通過多方面的嘗試,在數(shù)據(jù)并行的増量塊式訓(xùn)練(Incremental Block Training,IBT)框架下,提出了一種新的分布式訓(xùn)練算法。該算法的主要思想是:把無約束的深度學(xué)習(xí)模型訓(xùn)練問題轉(zhuǎn)化成全局一致性優(yōu)化問題進(jìn)行分布式求解。當(dāng)并行運(yùn)算機(jī)器増多時,訓(xùn)練呈線性加速的同時,相對于單機(jī)訓(xùn)練得到的模型,并行訓(xùn)練得到的模型性能不再下降,在一些情況下甚至優(yōu)于單機(jī)模型。
3.1 并行增量塊訓(xùn)練框架
IBT框架中,每次取訓(xùn)練數(shù)據(jù)的一個子集稱之為數(shù)據(jù)塊(block),用該數(shù)據(jù)塊對模型進(jìn)行訓(xùn)練,模型更新完畢再取下個數(shù)據(jù)塊進(jìn)行訓(xùn)練,即模型的訓(xùn)練是按照數(shù)據(jù)塊逐個進(jìn)行的。如果數(shù)據(jù)塊內(nèi)的訓(xùn)練數(shù)據(jù)是被多個處理單元并行處理的,便實(shí)現(xiàn)了數(shù)據(jù)并行訓(xùn)練。見圖1所示。
IBT采用主-從機(jī)結(jié)構(gòu),主機(jī)上的模型為全局模型,從機(jī)上的模型為局部模型。單個從機(jī)處理的為一個數(shù)據(jù)片(split),每次主機(jī)算法迭代時,n臺從機(jī)處理的split便構(gòu)成上了一個block。
3.2 并行分布式訓(xùn)練算法
ADMM是一種用于解決線性等式約束凸優(yōu)化問題的分布式優(yōu)化算法,成功應(yīng)用于大規(guī)模機(jī)器學(xué)習(xí)問題的求解。我們把深度學(xué)習(xí)模型的訓(xùn)練,采用全局一致問題的ADMM算法優(yōu)化模型參數(shù)。
3.3 實(shí)驗(yàn)結(jié)果
我們選取 Google Earth等網(wǎng)絡(luò)軟件下載圖像數(shù)據(jù) 25000 張,將其分為居民地、道路、綠化區(qū)、湖泊、土地 5 類,每類 5000 張。通過改進(jìn)的并行分布式訓(xùn)練,我們把每個block的split數(shù)目N為10,20,40,10*496,20*248,40*124,在這些數(shù)據(jù)分割下,分別進(jìn)行傳統(tǒng)的ADMM和改進(jìn)的并行分布式訓(xùn)練。并行訓(xùn)練使用的GPU數(shù)目和每個block包含的split數(shù)目相同, 我們通過統(tǒng)計(jì)每種算法處理一遍數(shù)據(jù)的用時計(jì)算訓(xùn)練的加速比。結(jié)果表明,在犧牲部分模型性能的情況下,實(shí)現(xiàn)了訓(xùn)練的線性加速,使用32塊GPU卡達(dá)到了28倍以上的訓(xùn)練加速,且并行訓(xùn)練得到的模型相對單機(jī)基準(zhǔn)模型,性能基本沒有下降,有些情況下甚至好于單機(jī)模型。
4 結(jié)語
本文對深度學(xué)習(xí)模型進(jìn)行了研究,在并行訓(xùn)練算法面臨的諸多問題上 ,提出了一種并行分布式訓(xùn)練模型。實(shí)驗(yàn)數(shù)據(jù)表明,該模型在犧牲部分模型性能的情況下,實(shí)現(xiàn)了訓(xùn)練的線性加速。
參考文獻(xiàn):
[1]陳凱.深度學(xué)習(xí)模型的高效訓(xùn)練算法研究[D].中國科學(xué)技術(shù)大學(xué).2016
[2]HATFIELD.F.J,WIGGERT.D.C.Response of pipe-linesto seismic motion in:the axial direction.ASME PVPConf.Symp.on Recent Advances.in Design, Analysis,Testing, and Qualification Methods. San Diego, US-A, July 1987: 289–295.
基金項(xiàng)目:2016年重慶工商職業(yè)學(xué)院科學(xué)研究“基于深度學(xué)習(xí)模型的圖像識別技術(shù)研究”項(xiàng)目(項(xiàng)目編號YB2016-18)。