文 Demis Hassabis
編譯 晗 冰
在圍棋上打敗天下無敵手之后,DeepMind旗下的Alpha家族開始深入探究所有棋類,其中就包括國際象棋、日本將軍棋。
2018年12月初,在AlphaZero誕生一周年之際,《自然》雜志以封面文章發(fā)布了AlphaZero經(jīng)過同行審議的完整論文,Deepmind創(chuàng)始人兼CEO哈薩比斯親自執(zhí)筆了這一論文。
AlphaGo Zero發(fā)布于2017年10月,而真正受到重視是在2018年12月初發(fā)布的《科學(xué)》雜志上,論文顯示,AlphaGo Zero在三天內(nèi)自學(xué)了三種不同的棋類游戲,包括國際象棋、圍棋和日本將軍棋,而且無需人工干預(yù)。這一成果震驚了國際象棋世界,幾個小時內(nèi),AlphaGo Zero就成了世界上最好的棋類玩家。
眾所周知,在國際象棋方面,I B M的深藍(lán)在20年前就打敗了國際象棋大師,而后續(xù)的Stockfish和Komodo這些國際象棋程序也早已獨霸國際象棋世界。在AlphaGo Zero發(fā)布之后,很多人質(zhì)疑了其在國際象棋領(lǐng)域的價值。而此次的完整論文,對一些人認(rèn)為機(jī)器算法下國際象棋沒有價值的論調(diào)提出了幾個措辭頗為嚴(yán)厲的批評。這是因為,在過去的12個月里,AlphaZero清楚展示了人類從未見過的一種智慧。
下面,就讓我們通過這篇論文來分析下AlphaZero。
文章指出,在過去的20年里,用機(jī)器算法下國際象棋已經(jīng)取得了很大進(jìn)步。1997年,IBM公司的國際象棋程序“深藍(lán)”(Deep Blue)在一場六局的比賽中擊敗了當(dāng)時的人類世界冠軍卡斯帕羅夫(Garry Kasparov)。現(xiàn)在看來,這一成就并不神秘。深藍(lán)每秒可以計算2億個位置。它從不疲倦,從不在計算中出錯,也從不會忘記片刻之前的想法。
無論結(jié)果是好是壞,“深藍(lán)”都像一臺真正的機(jī)器,粗暴而物質(zhì)化。它的計算能力遠(yuǎn)超過卡斯帕羅夫,但卻無法真正從思維上超越他。在第一局的比賽中,深藍(lán)貪婪地接受了卡斯帕羅夫用車換一名主教的犧牲,卻在16步之后輸了比賽?,F(xiàn)在,諸如Stockfish和Komodo等當(dāng)前世界上最強(qiáng)的國際象棋程序仍然在以這種方式下棋。它們喜歡吃掉對手的棋子,它們防守像鋼鐵一樣強(qiáng)悍。但是,盡管這些國際象棋程序要比任何人類棋手強(qiáng)大得多,但并沒有真正理解棋局本身的意義。
經(jīng)過幾十年的發(fā)展,人類大師關(guān)于棋類游戲的經(jīng)驗都被作為復(fù)雜的評估工具編進(jìn)程序中,表明在下棋中該尋求什么樣的有利位置以及避免陷入什么樣的不利境地。比如,王的安全性,棋子的活動、兵形、中心控制以及如何平衡利弊。但以往很多國際象棋程序卻天生無視這些原則,給人留下的印象是野蠻粗暴的,這些程序速度快得驚人,但卻完全缺乏洞察力。
Alphago讓人類圍棋世界冠軍柯潔一籌莫展
所有這些都隨著機(jī)器學(xué)習(xí)的興起而改變。AlphaZero通過與自己對弈并根據(jù)經(jīng)驗更新神經(jīng)網(wǎng)絡(luò),從而發(fā)現(xiàn)了國際象棋的原理,并迅速成為史上最好的棋手。它不僅能夠輕而易舉地?fù)魯∷凶顝?qiáng)大的人類棋手,還能擊敗當(dāng)時的計算機(jī)國際象棋世界冠軍Stockfish。在與Stockfish進(jìn)行的100場比賽中,AlphaZero取得28勝72平的好成績。它沒有輸?shù)粢粓霰荣悺?/p>
最令人不可思議的是,AlphaZero似乎表達(dá)出一種天然的洞察力。它具備浪漫而富有攻擊性的風(fēng)格,以一種直觀而優(yōu)美的方式發(fā)揮著電腦所沒有的作用。它會玩花招,冒險。在其中幾局中,它使Stockfish癱瘓并玩弄它。當(dāng)AlphaZero在第10局進(jìn)行進(jìn)攻時,它把自己的皇后佯退到棋盤的角落里,遠(yuǎn)離Stockfish的國王。通常來說,這并不是攻擊皇后應(yīng)該被放置的地方。
然而,這種奇怪的撤退行為充滿了惡意,不管Stockfish如何應(yīng)對,它都注定要失敗。經(jīng)過數(shù)十億次殘酷的計算后,AlphaZero幾乎是在等待Stockfish意識到,自己的處境是多么無望,就像一頭被擊敗的公牛面對斗牛士一樣平靜落敗。大師們從未見過這樣的機(jī)器。AlphaZero擁有精湛的技藝,同時也擁有機(jī)器的力量。這是人類第一次瞥見一種令人敬畏的新型智能。
很明顯,AlphaZero獲勝靠的是更聰明的思維,而不是更快的思維。它每秒只計算6萬個位置,而Stockfish會計算6000萬個。它更明智,知道該思考什么,該忽略什么??ㄋ古亮_ 夫在《科學(xué)》雜志文章附帶的一篇評論中寫道,AlphaZero通過自主發(fā)現(xiàn)國際象棋的原理,開發(fā)出一種“反映游戲真相”的玩法,而不是“程序員式的優(yōu)先級和偏見”。
現(xiàn)在的問題是,機(jī)器學(xué)習(xí)能否幫助人類發(fā)現(xiàn)所關(guān)心問題的真相?比如像癌癥和意識、免疫系統(tǒng)之謎、基因組之謎等科學(xué)和醫(yī)學(xué)尚未解決的重大問題。
早期跡象令人鼓舞。2018年8月份,《自然醫(yī)學(xué)》上的兩篇文章探討了機(jī)器學(xué)習(xí)如何應(yīng)用于醫(yī)學(xué)診斷。在一項研究中,DeepMind研究人員與倫敦莫爾菲爾德眼科醫(yī)院(Moorfields Eye Hospital)的臨床醫(yī)生合作,開發(fā)出一種深度學(xué)習(xí)算法,可以準(zhǔn)確地對各種視網(wǎng)膜病變進(jìn)行分類。
另一篇文章也涉及一種機(jī)器學(xué)習(xí)算法,其能夠確定急診室病人的C T掃描是否顯現(xiàn)出中風(fēng)、顱內(nèi)出血或其他重要神經(jīng)疾病的跡象。對于中風(fēng)患者來說,每一分鐘都很重要,治療耽誤的時間越長,結(jié)果就越糟。新算法的準(zhǔn)確性堪比人類專家,而且比人類專家快150倍。一個更快的診斷有助于醫(yī)生對最緊急病例進(jìn)行快速分類,并由人類放射科醫(yī)生進(jìn)行復(fù)查。
然而令人沮喪的是,機(jī)器學(xué)習(xí)算法還無法清晰表達(dá)它們的想法。我們不知道它們?nèi)绾蔚贸鼋Y(jié)論,所以也就無從確定能否信任機(jī)器。AlphaZero似乎已經(jīng)發(fā)現(xiàn)了一些有關(guān)國際象棋的重要原則,但它無法與我們分享這種洞察力。作為人類,我們想要的不僅僅是答案,我們想要的是洞察力。從現(xiàn)在起,這將成為我們與電腦互動交流的開始。
事實上,這一情況在數(shù)學(xué)領(lǐng)域中早有耳聞。四色映射定理就是這樣一個長期存在的數(shù)學(xué)問題。該定理指出在一定的合理約束條件下,有關(guān)相鄰國家的任何地圖都可以只使用四種顏色進(jìn)行著色,這樣相鄰兩個國家的顏色就不會相同。
雖然人們最終在計算機(jī)幫助下于1977年證明了四色映射定理,但是沒有人能夠檢驗論證中的所有步驟。從那以后,這個定理的證明得到了驗證和簡化,但仍有一些部分需要進(jìn)行蠻力計算。這種發(fā)展使許多數(shù)學(xué)家感到惱火。他們不需要確認(rèn)四色定理是正確的,但他們想知道為什么這是真的,但是證明沒有幫助。
但是設(shè)想有一天,也許就在不久的將來,AlphaZero已經(jīng)發(fā)展成為一種更通用的解決問題算法,其將擁有至高無上的洞察力,它能夠拿出漂亮的證據(jù),就像AlphaZero與Stockfish對弈時一樣優(yōu)雅,而且每一個證明都會揭示為什么定理是正確的。
對于人類數(shù)學(xué)家和科學(xué)家來說,這一天將標(biāo)志著一個新時代的到來。機(jī)器的速度越來越快,相比之下人類神經(jīng)元卻以毫秒級的速度緩慢運轉(zhuǎn),我們再也跟不上機(jī)器的理解速度,人類洞察力的黎明可能很快就會變成黃昏。
無論是基因調(diào)控或癌癥,還是免疫系統(tǒng)的編排,抑或是亞原子粒子的運動,其中或許還存在有待于發(fā)現(xiàn)的更深層模式。假設(shè)這些模式需要超越人類的更高智能來預(yù)測,而AlphaZero的繼任者又能夠識別并理解它們,那么在我們?nèi)祟惪磥硭惴ň拖袷且粋€神諭。
或許未來,我們不再明白為什么計算機(jī)的結(jié)論總是正確的,但我們可以通過實驗和觀察來檢驗它的計算和預(yù)測??茖W(xué)將把我們的角色降低到旁觀者的角色,在驚奇和困惑中目瞪口呆。
也許最終我們不再糾結(jié)于人類自身關(guān)于洞察力的匱乏。畢竟機(jī)器算法將能夠治愈我們所有的疾病,解決我們所有的科學(xué)問題,并讓我們所有的一切順利前行。在我們作為智人存在的最初30萬年時間里,我們在沒有多少洞察力的情況下一樣生存得相當(dāng)好。我們將自豪地回憶起人類洞察力的黃金時代,這段幾千年的輝煌插曲就發(fā)生在我們不理解的過去和我們不可思議的未來之間。