□文/孫佑先
走,跟AlphaGo下棋去!
孫佑先
本刊特約撰稿人
□文/孫佑先
AlphaGo2.0來中國了,在5月23日-27日在烏鎮(zhèn)舉行的中國烏鎮(zhèn)·圍棋峰會,AlphaGo2.0與圍棋現(xiàn)排名世界第一的柯潔九段進(jìn)行了三番賽對弈(此前都是五番賽),結(jié)局雖然在預(yù)見中,但這一從去年夏天就“被謠言”的消息,在各方的期待中變?yōu)榱爽F(xiàn)實,意義就不僅僅局限在圍棋領(lǐng)域。當(dāng)下,在金融、醫(yī)療、教育等各個領(lǐng)域,人工智能對于人類社會的基礎(chǔ)性變革影響力已經(jīng)展開。這種變革的過程進(jìn)展飛快,它把我們又卷入了一波技術(shù)浪潮帶來的、打破均衡、再造均衡的過程。
人工智能(AI)和機器人領(lǐng)域的從業(yè)者,都對2016年3月李世石與AlphaGo的對決印象深刻。這場“人機大戰(zhàn)”讓AI從幕后走向了臺前,幾乎每一位地球人都意識到了AI的發(fā)展已經(jīng)走進(jìn)了日常生活,未來,還將顛覆我們的生活。
追根溯源,AlphaGo是一款由Google旗下DeepMind團(tuán)隊研發(fā)的圍棋人工智能程序?!捌平庵悄?,用它來讓世界變得更好”是打開DeepMind官網(wǎng)后,清晰可見的口號,DeepMind公司早在2014年就以4億英鎊的價格被谷歌收購,今時今日仍是Google截至目前在歐洲地區(qū)的最大收購案。而在Google之前,包括特斯拉創(chuàng)始人馬斯克、Facebook創(chuàng)始人扎克伯格在內(nèi)的許多硅谷大佬們也都曾向DeepMind拋出過橄欖枝。
人工智能程序AlphaGo首次被大眾熟知是在2015年,因其在沒有讓子的前提下以5:0擊敗中國旅歐職業(yè)棋手、歐洲冠軍樊麾。
圍棋九段高手柯潔
隨后,AlphaGo以4:1戰(zhàn)勝世界圍棋名將李世石,這場被稱為全球頂級“人機大戰(zhàn)”的對抗中,AlphaGo的實力首次被世人真正認(rèn)可。
但是,圍棋界人士也表示,李世石心態(tài)上準(zhǔn)備不足,在比賽中未必發(fā)揮出真實的最高水準(zhǔn)。
DeepMind創(chuàng)始人Demis Hassabis在賽后也表達(dá),希望AlphaGo能與中國的高水平棋手對弈,比如柯潔。但因為種種原因頂尖對決被推遲。
AlphaGo在未能“華山論劍”的時間里,江湖還是有它的各種傳說,比如“化身” Master標(biāo)注為韓國九段,在圍棋網(wǎng)站弈城與野狐上不斷發(fā)起挑戰(zhàn),先后擊敗了包括世界冠軍常昊、時越、羋昱廷、唐韋星、古力在內(nèi)的諸多好手,以及“韓國第一人”樸廷桓與“日本第一人”井山裕太都敗北。世界排名第一的柯潔也在與Master的對抗中敗下陣來。直到最后,Master宣布自己就是AlphaGo,而代為執(zhí)子的就是AlphaGo團(tuán)隊的黃士杰博士。
在結(jié)束了Master的測試后,DeepMind團(tuán)隊于1月下旬宣布推出新版“AlphaGo”,也就是這次來中國的AlphaGo 2.0。這一版本的升級亮點是——摒棄人類棋譜,即僅通過監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),再度進(jìn)化出新的“圍棋機器人”。
柯潔遭遇了一個全新的、更強大的對手。
在AlphaGo出現(xiàn)之前,基于傳統(tǒng)算法的圍棋程序僅能達(dá)到業(yè)余棋手的水平,遠(yuǎn)遠(yuǎn)不能令人滿意。而AlphaGo橫空出世后,首戰(zhàn)即以5:0大勝歐洲圍棋冠軍樊麾二段,展現(xiàn)出不俗的實力。因此,說AlphaGo的出現(xiàn)嚴(yán)重動搖了人類智能在圍棋上的壟斷,是毫無問題的。那么,AlphaGo及其研發(fā)團(tuán)隊DeepMind都有什么亮點呢?
在談及AlphaGo及其開發(fā)團(tuán)隊DeepMind之前,必須先介紹一下其領(lǐng)導(dǎo)者Demis Hassabis,可以說,在他出現(xiàn)之前,幾乎所有研究者都認(rèn)為在十年內(nèi)人工智能戰(zhàn)勝圍棋大師的機會是渺茫的。而在他出現(xiàn)以后,幾乎所有人都在驚呼人工智能已破解了圍棋這一歷史難題,甚至在極短的時間內(nèi)兩次讓研究成果上了《Nature》雜志的封面。因此,英國《衛(wèi)報》直呼Hassabis就是人工智能領(lǐng)域的超級英雄。Hassabis個人完全配得上這個稱謂。
據(jù)《衛(wèi)報》報道,Hassabis的終生目標(biāo)就是開發(fā)出“通用”的人工智能程序,來解決生活中的一切問題。他分別取得了劍橋大學(xué)和倫敦大學(xué)學(xué)院的計算機科學(xué)和神經(jīng)科學(xué)學(xué)位。Hassabis稱自己領(lǐng)導(dǎo)的項目就是“21世紀(jì)的阿波羅項目”,這也難怪AlphaGo在擊敗了李世石九段之后,Hassabis第一時間在Twitter對團(tuán)隊的祝賀中用“登月”形容圍棋程序擊敗人類頂尖棋手的意義。而在此之前,DeepMind通過對近期人工智能技術(shù)中最熱門的一項技術(shù)——深度學(xué)習(xí)網(wǎng)絡(luò),加上“強化學(xué)習(xí)”的方法使計算機通過自學(xué)的方式在上世紀(jì)七八十年代的雅達(dá)利經(jīng)典游戲中,獲得了近乎人類的表現(xiàn)。而這一成果在更早先的時候登上了《Nature》雜志的封面。擁有千年歷史的古老游戲與三十年前的像素游戲紛紛被人工智能攻破,恐怕在未來若干年間,人工智能在任何游戲中都強于人類也不會是太令人震驚的事情吧。
以上所有人工智能領(lǐng)域的發(fā)展,都離不開一項技術(shù)在近年來的突破,那就是深度學(xué)習(xí)(Deep Learning),深度學(xué)習(xí)是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)技術(shù)的再發(fā)展。何為神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)就是人類提出的一套模擬大腦工作方式的計算機算法。人的大腦有100億個神經(jīng)元,人類對于環(huán)境的感知,對于未知事物的認(rèn)知與神經(jīng)元的“可塑性”息息相關(guān),人腦通過對特定的人物或者感興趣的知識進(jìn)行“建?!?,神經(jīng)元形成相互連接的“神經(jīng)網(wǎng)絡(luò)”,并通過互聯(lián)神經(jīng)元的連接強度,即突觸權(quán)值來儲存知識。而所謂人工神經(jīng)網(wǎng)絡(luò),就是將化簡后人腦的神經(jīng)元模型實現(xiàn)于電子計算機之上,從而得到類似于人腦的功能,使計算機可以通過“學(xué)習(xí)”從外界環(huán)境中獲取知識。
最初等的人工神經(jīng)網(wǎng)絡(luò)出現(xiàn)在20世紀(jì)50年代末的“感知機”模型,初步展現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,后來的研究表明感知機模型只能解決很有限的幾類問題。神經(jīng)網(wǎng)絡(luò)的最新發(fā)展——深度學(xué)習(xí)方法源于Geoffrey Hinton教授等人三十多年來的不懈努力研究和推廣,自誕生之日起,即在機器學(xué)習(xí)領(lǐng)域中大放異彩,通過深度學(xué)習(xí)方法訓(xùn)練出來的模型,在某些特別的圖像識別和語音識別的任務(wù)中,甚至有超過人類的表現(xiàn)。在當(dāng)下,深度學(xué)習(xí)方法是最接近人類大腦的人工智能學(xué)習(xí)算法。那么將深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用于圍棋程序AlphaGo又與傳統(tǒng)的國際象棋程序深藍(lán)有什么區(qū)別呢?
據(jù)AlphaGo官方博客介紹,AlphaGo采用了一種更加“通用”的人工智能方法,即采用將改進(jìn)的蒙特卡洛決策樹算法與深度神經(jīng)網(wǎng)絡(luò)算法相結(jié)合的方法構(gòu)建最終的學(xué)習(xí)系統(tǒng)。其中,深度神經(jīng)網(wǎng)絡(luò)由一個多達(dá)12層的包含上百萬個神經(jīng)元節(jié)點的神經(jīng)網(wǎng)絡(luò)構(gòu)成,其包括兩個部分:策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò)。具體的技術(shù)細(xì)節(jié)在此不贅言,僅說說其發(fā)揮的作用。策略網(wǎng)絡(luò)在當(dāng)前給定的棋局中,負(fù)責(zé)預(yù)測下一步的走棋,并對下一步走棋的好壞進(jìn)行打分,如果是好棋,就打高分,最終,最高分的走法被策略網(wǎng)絡(luò)選為下一步棋的走法。而這個最高分要如何評定呢?此時,現(xiàn)存于人類數(shù)據(jù)庫中的圍棋棋譜的作用就體現(xiàn)出來了。對比以往高手對決的棋譜,如果如此走法能得到最終的勝利,那就是好棋,這步就可以評高分,因為以往棋譜的勝負(fù)是已知的,反之亦然。在這里,人類歷史上的大量圍棋起了訓(xùn)練數(shù)據(jù)的作用,好比老師在“監(jiān)督”學(xué)生做練習(xí),答對了就給高分,答錯了不給分。通過對于三千萬步人類棋譜的學(xué)習(xí),AlphaGo對于人類棋手下一步走棋的預(yù)測準(zhǔn)確率高達(dá)57%(之前為43%)。策略網(wǎng)絡(luò)的作用好比“模仿”人類棋手的各種走法,以達(dá)到預(yù)測的效果。
然而僅憑模仿無法擊敗最頂級的人類高手。因此,AlphaGo增加了價值網(wǎng)絡(luò)來判斷當(dāng)前的局面,到底對哪一方有利。這一步類似于國際象棋程序中的估值函數(shù),而具體的實現(xiàn)方法卻有所不同。象棋程序中需要人工調(diào)整估值函數(shù)中的權(quán)重,以達(dá)到最好的效果,甚至需要水平極高的國際特級大師參與調(diào)整參數(shù)。而圍棋程序的局勢評估相當(dāng)困難,只能通過深度學(xué)習(xí)網(wǎng)絡(luò)之間自我訓(xùn)練的方法來達(dá)到良好的效果。與國際象棋程序相比,圍棋好比人類用自己的知識訓(xùn)練電腦,使其達(dá)到人類高手的水平。而國際象棋程序則是人類親自將行棋的方法與邏輯設(shè)計為電腦程序,最終由計算機代表人類與人類高手進(jìn)行對弈。根據(jù)Facebook人工智能組研究員田淵棟博士介紹,為了得到合適的價值網(wǎng)絡(luò)模型,AlphaGo通過自我對局三千萬盤的方式訓(xùn)練得到了強有力的價值網(wǎng)絡(luò)模型,最后再通過傳統(tǒng)的蒙特卡洛搜索樹方法結(jié)合以上兩種深度神經(jīng)網(wǎng)絡(luò)模型,最終得到了完整的AlphaGo圍棋程序??梢哉fAlphaGo的研發(fā)是當(dāng)今人工智能領(lǐng)域各類技術(shù)的集大成者,體現(xiàn)了人工智能技術(shù)的最高水平。
AlphaGo下圍棋的原理和人類有相似之處,一是判斷局部,二是把握全局。但是,AlphaGo就不會輸嗎?并不竟然。從原理上來說,在大數(shù)據(jù)時代,更加復(fù)雜且更加強大的深度學(xué)習(xí)模型能深刻揭示海量數(shù)據(jù)里所承載的復(fù)雜而豐富的信息,并對未來或未知事件做更精準(zhǔn)的預(yù)測。但是,深度學(xué)習(xí)也有瓶頸——延遲反饋的問題。
所以AlphaGo下圍棋也不是深度學(xué)習(xí)包下所有的,它還有強化學(xué)習(xí)的一部分,反饋是直到最后那一步才知道你的輸贏。還有很多其他的學(xué)習(xí)任務(wù)都不一定是深度學(xué)習(xí)才能來完成的。
AlphaGo下圍棋背后的DeepMind 方法其實就是深度學(xué)習(xí)和強化學(xué)習(xí)混合體,被稱為“深度強化學(xué)習(xí)(deep reinforcement learning)”。簡單來說,在這之中,深度學(xué)習(xí)是主體,強化學(xué)習(xí)解決了延時反饋的問題。
目前,AlphaGo取得的研究成果正在快速復(fù)制到各行各業(yè),谷歌旗下的DeepMind做的第一件事情是用機器學(xué)習(xí)來管理數(shù)據(jù)中心。為了解決服務(wù)器集群的冷卻管理問題,DeepMind訓(xùn)練了三個神經(jīng)網(wǎng)絡(luò),并在某一個數(shù)據(jù)中心進(jìn)行了應(yīng)用,比人管理的時候節(jié)電40%。DeepMind認(rèn)為,這個神經(jīng)網(wǎng)絡(luò)不只可以用于數(shù)據(jù)中心,具有一定的通用性,準(zhǔn)備把它發(fā)展到發(fā)電廠、半導(dǎo)體制造等行業(yè)。
DeepMind也將神經(jīng)網(wǎng)絡(luò)帶到了醫(yī)療領(lǐng)域。有數(shù)據(jù)顯示每11個成年人里就有1個會得糖尿病,糖尿病讓患者失明的概率提高了25倍,如果失明的癥狀能在早期發(fā)現(xiàn),那么有98%的可能性治愈。DeepMind與一家叫Moorfields的機構(gòu)合作,拿到了近百萬的原始數(shù)據(jù)。用這些數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后從圖片中提取特征,神經(jīng)網(wǎng)絡(luò)在圖像識別上的錯誤率比人低,未來準(zhǔn)確率會越來越高。
資深的程序員和性能強大的電腦對AI業(yè)務(wù)至關(guān)重要,但獲取真實環(huán)境數(shù)據(jù)也至關(guān)重要。利用AI和機器學(xué)習(xí)技術(shù)改進(jìn)醫(yī)院、電網(wǎng)和工廠等場合的不同系統(tǒng)時,需要具體的操作數(shù)據(jù)。
當(dāng)然,它所屬的Google公司擁有海量可服務(wù)于這些目的的數(shù)據(jù),以供DeepMind“挖寶”。但有關(guān)每個細(xì)分領(lǐng)域,DeepMind現(xiàn)有的數(shù)據(jù)還遠(yuǎn)遠(yuǎn)滿足不了需求。最近它參與了一個研究讀唇語的項目,并取得了成功,而成功的關(guān)鍵就在于研究團(tuán)隊掌握了一個龐大的數(shù)據(jù)集。該項目的研究團(tuán)隊主要來自牛津大學(xué),并以計算機視覺研究者安德魯·西塞曼(Andrew Zisserman)為首。BBC向研究團(tuán)隊提供了數(shù)十萬小時的新聞剪輯資料。如果沒有這些資料,他們根本無法讓AI系統(tǒng)接受讀唇語的訓(xùn)練。
DeepMind CEO Demis Hassabis
數(shù)據(jù)獲取對DeepMind未來的重要性,Hassabis持輕描淡寫的態(tài)度。他稱,讓人類工程師打造出模擬待解決問題的模型就足夠了,再在這些模型中部署AI學(xué)習(xí)工具。但這并不是目前大多數(shù)機器學(xué)習(xí)系統(tǒng)的運作方式。如果DeepMind需要收集大量個人信息,它將需要考慮清楚:如何應(yīng)對消費者對企業(yè)訪問個人數(shù)據(jù)這類行為的擔(dān)憂?
近期就有類似問題曝光,DeepMind 被指控通過非法交易獲取160萬份 NHS(英國國民醫(yī)療服務(wù)體系)患者病歷。英國國家數(shù)據(jù)監(jiān)護(hù)機構(gòu)(National Data Guardian) Fiona Caldicott 女爵于2月20日在致皇家自由醫(yī)院信托會醫(yī)療負(fù)責(zé)人 Stephen Powis 的信件中披露了這一信息。這封信被泄露給 Sky News 并于5月初被公之于眾。
如果DeepMind能夠解決這類問題,它將是人工智能推向行業(yè)的無價之寶:一個算法工廠。它將遠(yuǎn)不僅僅是Google的AI研究機構(gòu)和人才集聚地。DeepMind處理過的數(shù)據(jù)仍屬于原本的擁有者,但從數(shù)據(jù)中學(xué)習(xí)的軟件將屬于Google。無疑,在未來,DeepMind將把AI程序用來解決復(fù)雜問題,但它或許無法靠這種方式來創(chuàng)造大量營收。然而,AI軟件通過分析數(shù)據(jù)獲取的知識或技能將極具價值,讓Google為曾經(jīng)的天價競標(biāo)付出的一切努力物有所值。
手機掃碼閱讀
李世石在圍棋人機大戰(zhàn)第一盤中的失利,幾乎掀起了軒然大波,似乎一夜之間人工智能已經(jīng)戰(zhàn)勝人類智能,甚至人工智能完全超越人類智能的那一天似乎也不會遙遠(yuǎn)了。為此,需要對“人工智能”的概念做一個簡單的澄清。
對于人工智能的看法,一直分兩派不同的觀點,一派是強人工智能,即通過不斷地發(fā)展機器終將獲得類人的自我意識,最終通過不斷地自我進(jìn)化獲得遠(yuǎn)強于人類的智能水平。而另一派則認(rèn)為人工智能只是對人類勞動的接管,僅在部分領(lǐng)域超越人類,全面超越人類智能只是一個夢想而已。
從目前的研究現(xiàn)狀看,強人工智能的研究幾乎陷入了停滯,遠(yuǎn)超過人類智能的強人工智能是否存在依然是個很有爭議的話題,更不要說具體的研究方向了。而主流的機器學(xué)習(xí)技術(shù),依然集中于對人類技能的學(xué)習(xí),并通過學(xué)習(xí)的成果來解決實際的問題。比如說圍棋程序AlphaGo,盡管比起國際象棋機器深藍(lán)進(jìn)步很大,然而本質(zhì)上依然是在給定規(guī)則具體游戲上的探究,一旦改變了規(guī)則,甚至換不同規(guī)格的棋盤,AlphaGo就必須推倒重來,重新搜集相應(yīng)棋譜來獲得棋力了。很明顯,這和人類所認(rèn)識的“舉一反三”類型的“創(chuàng)造知識”的智慧是不相符的。如果要問當(dāng)今的人工智能是否達(dá)到了三歲小孩的智力水平,那也是一件無法比較的事情,因為通過不斷地訓(xùn)練機器可以在特定技能上完勝小孩子,但是在一些看似簡單的學(xué)習(xí)上,小孩子需要花費的精力卻遠(yuǎn)小于機器。比如拿起桌子上的杯子喝水,對于小孩來說很容易學(xué)會,但對于智能機器來說,卻是件連問題是什么都很難描述清楚的事情,更不要說自主學(xué)習(xí)了。因此,在未來很長一段時間內(nèi),所謂人工智能,依然只是對人類技能的補充,好比工具,是對人類智慧的拓寬,即“機器使用人類的知識戰(zhàn)勝了人類”,而遠(yuǎn)非到了遠(yuǎn)超人類智慧的地步。
當(dāng)然,人類對于智能的理解還很淺。就拿上文所提的深度學(xué)習(xí)舉例,雖然在實用中獲得了廣泛的應(yīng)用,然而人們對其背后的數(shù)學(xué)機制依然不太清楚,不知道機器做出結(jié)論的依據(jù)是什么,甚至連Hassabis本人也說不清楚AlphaGo的棋力到底幾何?;蛟S直到人類對“智能是什么”這種問題的本質(zhì)了解透徹之時,對于“人工智能能否超越人類”這個話題才能得到令人滿意的答案吧。