現(xiàn)如今,在深度學(xué)習(xí)領(lǐng)域中,我們通過隨機(jī)梯度下降(SGD)對具有多個層和數(shù)百萬個連接的深度神經(jīng)網(wǎng)絡(luò)(DNN)進(jìn)行常規(guī)訓(xùn)練。許多人認(rèn)為,SGD所具有的對梯度進(jìn)行有效訓(xùn)練的能力是它有能力對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的關(guān)鍵所在。然而,在我們新近發(fā)布的五篇論文中,我們支持這樣一種新提出的觀點(diǎn),神經(jīng)進(jìn)化(Neuro Evolution)也是一個用于解決強(qiáng)化學(xué)習(xí)(RL)問題的訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的有效方法,其中,通過進(jìn)化算法優(yōu)化神經(jīng)網(wǎng)絡(luò)。Uber涉及的領(lǐng)域很多,其中機(jī)器學(xué)習(xí)可以改進(jìn)其操作,而開發(fā)一系列涵蓋神經(jīng)進(jìn)化在內(nèi)的強(qiáng)有力學(xué)習(xí)方法將幫助我們實(shí)現(xiàn)使命,即開發(fā)出更安全、更可靠的交通解決方案。
遺傳算法——用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的有效替代方案
使用我們發(fā)明的一種新技術(shù)來使深度神經(jīng)網(wǎng)絡(luò)進(jìn)化,在這個過程中,我們發(fā)現(xiàn)一個極其簡單的遺傳算法(GA)可以對超過400萬個參數(shù)的深度卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而使其能夠從像素點(diǎn)進(jìn)行Atari游戲,而且在許多游戲中的性能表現(xiàn)要遠(yuǎn)超過現(xiàn)代深度強(qiáng)化學(xué)習(xí)(RL)算法(例如DQN和A3C)或進(jìn)化策略(ES),與此同時,還具有更好的并行化,運(yùn)行得更快。這個結(jié)果是令人驚訝的,我們之所以這樣認(rèn)為,一方面是沒有期待這個不基于梯度的遺傳算法能夠很好地擴(kuò)展到如此大的參數(shù)空間中,另一方面是認(rèn)為在強(qiáng)化學(xué)習(xí)中使用遺傳算法的性能表現(xiàn)是不可能匹配或超越現(xiàn)有技術(shù)的。我們進(jìn)一步表明,現(xiàn)代遺傳算法的改進(jìn)提高了系列遺傳算法的能力,例如全新性搜索,也可以在深度神經(jīng)網(wǎng)絡(luò)規(guī)模下運(yùn)作,并且可以促進(jìn)探索以解決欺騙性問題(那些具有挑戰(zhàn)局部最優(yōu)的問題),這些問題阻礙了諸如Q-learning(DQN)、政策梯度(A3C)、進(jìn)化策略和遺傳算法等獎勵最大化算法。
通過梯度計算實(shí)現(xiàn)安全突變
在這篇文章中,我們將展示梯度是如何與神經(jīng)進(jìn)化相結(jié)合,以提高進(jìn)化循環(huán)和極其深的深度神經(jīng)網(wǎng)絡(luò)的能力,實(shí)現(xiàn)了超過一百層的深度神經(jīng)網(wǎng)絡(luò)的進(jìn)化,這要遠(yuǎn)遠(yuǎn)超過以前通過神經(jīng)進(jìn)化實(shí)現(xiàn)的水平。我們通過計算網(wǎng)絡(luò)輸出相對于權(quán)重的梯度(即,不同于傳統(tǒng)深度學(xué)習(xí)中的誤差梯度)來實(shí)現(xiàn)這一點(diǎn),使得隨機(jī)突變的校準(zhǔn)能夠更精細(xì)地對最敏感的參數(shù)進(jìn)行處理,從而解決大型網(wǎng)絡(luò)中隨機(jī)突變的主要問題。
進(jìn)化策略(ES)如何與隨機(jī)梯度
下降(SGD)相關(guān)聯(lián)?
我們對OpenAI的一個團(tuán)隊(duì)首次提出的一個發(fā)現(xiàn)做出了補(bǔ)充,神經(jīng)元進(jìn)化的進(jìn)化策略多樣性可以在深度強(qiáng)化學(xué)習(xí)任務(wù)上有效優(yōu)化深度神經(jīng)網(wǎng)絡(luò)。然而,迄今為止,這個結(jié)果的更為廣泛的影響仍然受到質(zhì)疑?;谶M(jìn)化策略,為了進(jìn)行進(jìn)一步探索,我們通過一個全面的研究,深入了解了ES與SGD的關(guān)系,研究了ESI梯度近似與MNIST數(shù)據(jù)集上由SGD計算的每個小批量的最佳梯度的近似程度,以及這個近似值所必須表現(xiàn)良好的程度。結(jié)果證明,如果提供足夠的計算來改善其梯度近似,ES可以在MNIST上達(dá)到99%的精確度,這暗示了為什么ES將越來越成為深度強(qiáng)化學(xué)習(xí)中的一個強(qiáng)有力的競爭者,其中,在并行計算增加的情況下,沒有任何方法可以獲得完美的梯度信息。
ES不僅僅是傳統(tǒng)的有限差分法
(finite differences)
為了加強(qiáng)進(jìn)一步的理解,經(jīng)同行業(yè)研究證實(shí),ES(具有足夠大的干擾大小參數(shù))的行為與SGD不同,因?yàn)樗鼉?yōu)化的是由概率分布所描述的策略的預(yù)期獎勵(搜索空間中的一片云),而SGD優(yōu)化的是單一策略的獎勵(搜索空間中的一個點(diǎn))。這種變化使得ES訪問搜索空間的不同區(qū)域,無論好壞(這兩種情況都有相關(guān)說明)。對參數(shù)干擾總體進(jìn)行優(yōu)化的另一個結(jié)果是,ES獲得了不是通過SGD獲得的魯棒性屬性。強(qiáng)調(diào)ES在參數(shù)總體上所進(jìn)行的優(yōu)化,也就強(qiáng)調(diào)了ES和貝葉斯方法之間的有趣聯(lián)系。
改善ES中的探索(exploration)
有關(guān)深度神經(jīng)進(jìn)化的一個令人興奮的結(jié)果是,之前為神經(jīng)進(jìn)化開發(fā)的工具集合現(xiàn)在已經(jīng)成為加強(qiáng)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的備選方法。我們通過引入一種新的方法來探索這種可能性,這種方法將ES的優(yōu)化能力和可擴(kuò)展性與神經(jīng)進(jìn)化的獨(dú)特方法——通過激勵不同的智能體的不同表現(xiàn)來促進(jìn)在強(qiáng)化學(xué)習(xí)領(lǐng)域的探索。這種基于群體的探索與強(qiáng)化學(xué)習(xí)中的單一智能體傳統(tǒng)不同,包括最近在深度強(qiáng)化學(xué)習(xí)中的探索。我們的實(shí)驗(yàn)顯示,增加這種新的探索方式,可以在許多需要探索以避免欺騙性的局部最優(yōu)化域中提高ES的性能表現(xiàn),包括一些Atari游戲和Mujoco模擬器中的類人動作任務(wù)。
智能體的任務(wù)是盡量向前跑,而ES則永遠(yuǎn)都學(xué)不會避開這個陷阱。然而,有了探索的壓力,其中的一個智能體學(xué)會了在陷阱中尋找出路。
結(jié)論
總而言之,對于那些有興趣轉(zhuǎn)向深度網(wǎng)絡(luò)的神經(jīng)進(jìn)化的研究人員來說,有幾個重要的考慮因素:首先,這些類型的實(shí)驗(yàn)較之前需要更多的計算;其次,對于這些新論文中的實(shí)驗(yàn),在每次運(yùn)行中,我們經(jīng)常使用數(shù)百甚至數(shù)千個同步CPU。但是,對更多CPU或GPU的渴求不應(yīng)被視為一種負(fù)擔(dān);從長遠(yuǎn)來看,將進(jìn)化擴(kuò)展到大規(guī)模并行計算中心意味著,神經(jīng)進(jìn)化可能最有利于即將到來的世界。
新的結(jié)果與以前在低維度神經(jīng)進(jìn)化中所觀察到的結(jié)果大有不同,它們有效地推翻了多年的直覺,特別是高維度的搜索的影響上。正如在深度學(xué)習(xí)中發(fā)現(xiàn)的那樣,考慮到某種復(fù)雜性,搜索似乎實(shí)際上在高維度方面變得更加容易,因?yàn)樗灰资芫植孔顑?yōu)的影響。雖然深度學(xué)習(xí)領(lǐng)域熟悉這種思維方式,但它的含義才剛剛開始在神經(jīng)進(jìn)化中被理解。
神經(jīng)進(jìn)化的再度出現(xiàn)是一個很好的例子,說明舊算法與現(xiàn)代計算量的結(jié)合可以很好地發(fā)揮作用。神經(jīng)進(jìn)化的可行性是有趣的,因?yàn)樵谏窠?jīng)進(jìn)化社區(qū)開發(fā)出的許多技術(shù)能夠即刻在深度神經(jīng)網(wǎng)絡(luò)規(guī)模上得到應(yīng)用,每個技術(shù)提供不同的工具以解決那些具有挑戰(zhàn)性的問題。此外,正如我們的論文所顯示的,神經(jīng)進(jìn)化搜索與SGD不同,因此機(jī)器學(xué)習(xí)工具箱提供了有趣的可替代方法。我們想知道,深度神經(jīng)進(jìn)化是否會像深度學(xué)習(xí)一樣經(jīng)歷復(fù)興。如果是這樣的話,那么2017年可能就標(biāo)志著這個時代的開端,而今后會發(fā)生什么,且拭目以待!