許智博
5月23日晚上的烏鎮(zhèn)西柵景區(qū),白天的大雨已經(jīng)止住,如織的游人在雨后的涼爽潮濕里踏在青石板路上,抓緊時(shí)間欣賞眼底燈火點(diǎn)點(diǎn)的江南水鄉(xiāng),或許他們絕大多數(shù)人并不曉得,就在這天的下午雨還沒(méi)有停的時(shí)候,中國(guó)的頂尖圍棋選手、世界排名第一的柯潔,在這里剛剛以1/4子輸給了他的對(duì)手、人工智能AlphaGo,丟掉了第一盤(pán)棋的比賽,成為了當(dāng)天重要的全球科技新聞。
在入口通往散布于景區(qū)里的酒店和民宿的電動(dòng)擺渡車上,一個(gè)穿著西裝、有些微醺的體育官員,正在與同行的一位長(zhǎng)者絮叨地感慨著:“我晚飯時(shí)問(wèn)他們的二把手,可不可以把你們的技術(shù)做成平板電腦,給我們隊(duì)的棋手訓(xùn)練使用,他說(shuō)這要問(wèn)他們的CEO……對(duì),就是那個(gè)哈薩比斯,但他可能覺(jué)得圍棋實(shí)在是太‘小了,他明天會(huì)在論壇上說(shuō)AlphaGo的用途,肯定還是他關(guān)心的醫(yī)療啊能源啊這些大事——唉,這個(gè)哈薩比斯,簡(jiǎn)直就像是又一個(gè)霍金!”
那個(gè)體育官員口中讓他難以理解的哈薩比斯(Demis Hassabis),正是目前全球人工智能(Artificial Intelligence,縮寫(xiě)為AI)領(lǐng)域的領(lǐng)軍人物之一。
這個(gè)戴著黑框眼鏡的小個(gè)子英國(guó)人雖然其貌不揚(yáng),但卻是一個(gè)絕對(duì)的天才,尚不到41歲的人生充滿傳奇:他生于倫敦,是一個(gè)普通移民家庭的孩子,父親是希臘的塞浦路斯人,母親則是新加坡的華人。家庭成員的構(gòu)成很難解釋他的數(shù)理天賦遺傳于誰(shuí),父母都是教師,也會(huì)做一些兼職,他的弟弟和妹妹擅長(zhǎng)的則是寫(xiě)作和作曲。
哈薩比斯的早慧從小就顯露出來(lái),4歲時(shí)他看父親和舅舅下國(guó)際象棋,兩周后便在棋盤(pán)上打敗了成年人。從5歲開(kāi)始,他開(kāi)始參加正式的國(guó)際象棋比賽,6歲時(shí)便獲得了倫敦8歲以下組的冠軍,9歲時(shí)已經(jīng)是英國(guó)11歲組少年隊(duì)的隊(duì)長(zhǎng),13歲時(shí)在世界14歲以下的國(guó)際象棋棋手中以2300積分排名第二,而領(lǐng)先他35個(gè)積分、排在他前面的那個(gè)選手,則是國(guó)際象棋界傳奇“波爾加三姐妹”中的小妹朱迪特·波爾加(Judit Polgár),那是后來(lái)被稱為“有史以來(lái)最厲害的國(guó)際象棋女棋手”的神級(jí)角色,連續(xù)26年女子國(guó)際象棋排名第一。
或許讓哈薩比斯后來(lái)沒(méi)有選擇做一名職業(yè)棋手的原因,是他在8歲那年用下棋贏得的200英鎊購(gòu)買的一臺(tái)電腦。這臺(tái)1982年由Sinclair公司生產(chǎn)的8位個(gè)人電腦ZX Spectrum在現(xiàn)在看起來(lái)更像是一個(gè)黑色鍵盤(pán),但這臺(tái)頻譜計(jì)算機(jī)卻讓哈薩比斯找到了某種人生終極樂(lè)趣。
迷戀上電腦游戲的他很快就發(fā)現(xiàn)別人設(shè)計(jì)的游戲簡(jiǎn)直太LOW了,干脆拆解了電腦,開(kāi)始自學(xué)編程做游戲。“我爸會(huì)帶我去Foyles(倫敦最大的書(shū)店),坐在計(jì)算機(jī)編程類書(shū)籍的區(qū)域,學(xué)習(xí)如何在游戲中無(wú)限續(xù)命,我從直覺(jué)上感到這是一個(gè)神奇的設(shè)備,你可以釋放你的創(chuàng)造力?!被貞浲陼r(shí)哈薩比斯如此說(shuō)。他曾花一個(gè)夏天的時(shí)間,在北倫敦的布倫特十字(Brent Cross)站的一個(gè)報(bào)刊鋪瀏覽那些他買不起的計(jì)算機(jī)雜志。
在這樣的“探索”過(guò)程里,小哈薩比斯已經(jīng)在思考兩個(gè)問(wèn)題:一,大腦是怎么思考的?二,計(jì)算機(jī)可以模擬人類嗎?
正是這樣的癡迷,讓15歲的他后來(lái)在一場(chǎng)為游戲《太空侵略者》(Space Invaders)設(shè)計(jì)續(xù)集的比賽中獲得第二名,被視頻游戲公司牛蛙工作室(Bullfrog)的老板彼得·莫利紐克斯(Peter Molyneux)相中。被中國(guó)資深游戲玩家昵稱為“魔力?!钡哪~克斯是英國(guó)的傳奇級(jí)游戲設(shè)計(jì)師,通過(guò)設(shè)計(jì)游戲拿到過(guò)大英帝國(guó)勛章的游戲界“老炮”,他開(kāi)創(chuàng)了“上帝視角”的游戲《上帝也瘋狂》,也創(chuàng)造了可以讓玩家轉(zhuǎn)換游戲扮演角色的《地下城守護(hù)者》,后來(lái)他的工作室基本都被美國(guó)游戲巨頭EA(藝電)收購(gòu)。
雖然哈薩比斯和莫利紐克斯年紀(jì)差了十多歲,但用哈薩比斯的話說(shuō),兩個(gè)人“相互影響”。與“魔力?!逼珢?ài)讓玩家在虛擬世界里扮演擁有絕對(duì)權(quán)力的上帝不同,在牛蛙,哈薩比斯主持并協(xié)助設(shè)計(jì)的是沉浸式模擬現(xiàn)實(shí)游戲《主題公園》(Theme Park)。在游戲中,玩家可以設(shè)計(jì)和管理游樂(lè)園,為了在非?,F(xiàn)實(shí)的條件下做到盈利,甚至要使用在汽水里加鹽、好讓游人多喝幾杯的小伎倆。這個(gè)需要耐心的游戲吸引了很多玩家,游戲軟件賣了幾百萬(wàn)份,還贏得了當(dāng)年英國(guó)的“金手柄”獎(jiǎng)(Golden Joystick Award)。
1997年,哈薩比斯大學(xué)畢業(yè)后,“魔力牛”再一次把他招至自己獅頭工作室(Lionhead)。在獅頭工作室不到一年的工作中,哈薩比斯創(chuàng)造出了電子游戲領(lǐng)域第一個(gè)具有自我學(xué)習(xí)能力的人工智能——游戲《黑與白》(Black & White)中的“神獸”,在“上帝視角”的游戲里打造了一個(gè)擁有鮮明個(gè)性和自我意識(shí)的角色,讓玩家根據(jù)它的習(xí)性實(shí)施間接的影響力。
在這個(gè)游戲里,“神獸”擁有可怕的力量,但心智僅相當(dāng)于兩歲左右的孩童,作為神獸的主人,玩家在游戲中最重要的任務(wù),就是通過(guò)胡蘿卜加大棒,把神獸訓(xùn)練成自己想要的樣子:當(dāng)神獸干了壞事,比如隨地大小便,乃至是吃人的時(shí)候,就要用一頓抽打來(lái)讓它長(zhǎng)些記性。而當(dāng)神獸偶爾幫助村民干活的時(shí)候,適時(shí)愛(ài)撫可以強(qiáng)化它們的記憶,從而培養(yǎng)做好事的習(xí)慣……當(dāng)然,如果玩家愿意,也可以反過(guò)來(lái)做。
與升級(jí)和解鎖新技能的老套路游戲比,《黑與白》中神獸的培養(yǎng)過(guò)程其實(shí)非常接近人工智能領(lǐng)域里“機(jī)器學(xué)習(xí)”(machine learning)的“強(qiáng)化學(xué)習(xí)”(Reinforcement Learning)概念:導(dǎo)入訓(xùn)練數(shù)據(jù),讓AI在不斷試錯(cuò)中積累正面反饋,最終找到獲得利益最大化的途徑——只不過(guò)在游戲中,判定權(quán)重的工作(即玩家對(duì)神獸行為的反饋)由人類來(lái)完成的,而非像后來(lái)的AlphaGo那樣去自己判斷。
1998年,哈薩比斯決定單飛,成立了自己的公司Elixir Studios。在這次不算成功的創(chuàng)業(yè)期里,他在《黑與白》的思維邏輯基礎(chǔ)上,做了兩款將模擬現(xiàn)實(shí)與上帝視角結(jié)合起來(lái)的游戲,其中策略游戲《共和:革命》(Republic: The Revolution)更像是一個(gè)更加復(fù)雜的《主題公園》,虛擬了一個(gè)20世紀(jì)90年代發(fā)生制度變革的東歐小國(guó),玩家要在游戲里不斷依靠資源分配、合縱連橫才能最后達(dá)到自己執(zhí)掌政權(quán)的目標(biāo),而《邪惡天才》(Evil Genius)則是后來(lái)被很多專業(yè)人士評(píng)價(jià)為水準(zhǔn)不低于《半條命2》(Half-Life)的作品,游戲以007系列電影為靈感,打造了一個(gè)席卷全球的“黑暗勢(shì)力”,被很多“硬核玩家”評(píng)價(jià)為“設(shè)定平衡度很高的游戲”。
可惜那時(shí)隨著電腦硬件性能的飛速進(jìn)化和互聯(lián)網(wǎng)的普及,電子游戲界的整體風(fēng)潮從單機(jī)游戲的趣味性、平衡度轉(zhuǎn)向了強(qiáng)調(diào)游戲的視覺(jué)呈現(xiàn)和玩家之間的交互,所以最后這兩款游戲都不算成功。哈薩比斯面對(duì)變化的游戲市場(chǎng),意識(shí)到了自己癡迷游戲的本源其實(shí)是人工智能:“20世紀(jì)90年代,游戲很有趣,也有創(chuàng)新性。但到了新世紀(jì),游戲注重圖像和內(nèi)容,想通過(guò)游戲這扇‘后門(mén)去展開(kāi)人工智能研究已經(jīng)非常困難,這違背了我做游戲的初衷?!?h3>天才改變世界
2005年,哈薩比斯“戒”了游戲,直到現(xiàn)在,作為曾經(jīng)的資深游戲迷,他對(duì)一些爆款的大型多人游戲依然感覺(jué)失望,“我從來(lái)都無(wú)法真正融入游戲,因?yàn)樘摂M人物看起來(lái)傻傻的。他們沒(méi)有記憶,不會(huì)改變,也與環(huán)境無(wú)關(guān)。如果有學(xué)習(xí)型人工智能,游戲質(zhì)量就能提升到新水平?!?/p>
實(shí)際上,哈薩比斯能果斷地結(jié)束自己的“游戲開(kāi)發(fā)者”的職業(yè)生涯,也是為了重新集中自己的精力去做人工智能——20年前在劍橋大學(xué)學(xué)習(xí)計(jì)算機(jī)的時(shí)候,當(dāng)講臺(tái)上的教授講解著“狹義人工智能”(當(dāng)時(shí)IBM的“深藍(lán)”,Deep Blue)戰(zhàn)勝了國(guó)際象棋大師卡斯帕羅夫(Gary Kasporov)是轟動(dòng)的新聞,“深藍(lán)”是狹義人工智能的代表,下面聽(tīng)課的哈薩比斯就在心里想著,自己是否可以做一個(gè)“通用人工智能”。作為一個(gè)曾經(jīng)的國(guó)際象棋大師,哈薩比斯認(rèn)為“深藍(lán)”不過(guò)是“僅在某一領(lǐng)域發(fā)揮特長(zhǎng)的狹義人工智能”的極致,但戰(zhàn)勝卡斯帕羅夫的“其實(shí)并不是機(jī)器或者算法本身,而是一群聰明的編程者智慧的結(jié)晶”。
“他們與每一位國(guó)際象棋大師對(duì)話,汲取他們的經(jīng)驗(yàn),把其轉(zhuǎn)化成代碼和規(guī)則,組建了人類最強(qiáng)的象棋大師團(tuán)隊(duì)。但是這樣的系統(tǒng)僅限于象棋,不能用于其他游戲。對(duì)于新的游戲,你需要重新開(kāi)始編程。在某種程度上,這些技術(shù)仍然不夠完美,并不是傳統(tǒng)意義上的完全人工智能,其中所缺失的就是普適性和學(xué)習(xí)性?!痹诮衲瓿趸氐絼虼髮W(xué)演講時(shí),哈薩比斯說(shuō)。
1994年,《主題公園》上市發(fā)行后,劍橋大學(xué)同意17歲的哈薩比斯入學(xué)(16歲時(shí)他就已經(jīng)通過(guò)考試并提交申請(qǐng),只是劍橋認(rèn)為他年齡太小沒(méi)有接受)。那時(shí)的他依舊沉迷于各種與頭腦和智力相關(guān)的事情,除了游戲,他也是智力奧運(yùn)會(huì)(Mind Sports Olympiad)的熱衷參與者。這于1997年在倫敦開(kāi)始的智力大賽包括多種棋牌游戲,前7屆比賽里,哈薩比斯攬下了5屆冠軍。大賽組織者戴維·利維(David Levy)還清楚地記得20年前,在皇家節(jié)日音樂(lè)廳舉辦的第一屆比賽中,他看見(jiàn)哈薩比斯為了同時(shí)參加兩場(chǎng)比賽,在樓梯上跑上跑下。利維說(shuō):“非常聰明的人有一些不尋常的行為,是意料之中的事情?!?/p>
在劍橋,哈薩比斯還遇到了自己后來(lái)的好友、合作伙伴之一大衛(wèi)·西維爾(David Silver),兩人為了研究人工智能彼此監(jiān)督,19歲的哈薩比斯第一次接觸到圍棋之后,就教會(huì)了西維爾怎么去下。在他創(chuàng)立Elixir Studios之后,第一件事情就是拉西維爾入伙,讓他成為了《共和:革命》的主程序員,直到2004年,西維爾決定不再與電腦游戲里的“假人工智能”浪費(fèi)時(shí)間,而是要去觸碰人工智能的核心領(lǐng)域,選擇了師從人工智能“強(qiáng)化學(xué)習(xí)之父”理查德·薩爾騰(Richard Sarten)去讀博士。
為了尋找靈感,哈薩比斯也在2005年將游戲版權(quán)賣掉后解散工作室重回高校。與好友直接選擇與人工智能相關(guān)的研究方向不同,他選擇的是在倫敦大學(xué)學(xué)院(UCL)進(jìn)修神經(jīng)系統(tǒng)科學(xué)博士學(xué)位——因?yàn)樗X(jué)得通過(guò)研究真實(shí)人腦也許能找到研究人工智能的線索。在UCL期間,哈薩比斯主要研究的是海馬體。海馬體是人腦的一個(gè)區(qū)域,對(duì)方向感、記憶調(diào)取和未來(lái)事件的想象至關(guān)重要,但目前人類對(duì)它所知甚少。
作為一個(gè)沒(méi)有學(xué)習(xí)高中生物的計(jì)算機(jī)科學(xué)家與游戲企業(yè)家,哈薩比斯在一群醫(yī)學(xué)博士和心理學(xué)家間顯得尤為另類?!拔医?jīng)常開(kāi)玩笑說(shuō),我對(duì)大腦唯一了解的事情就是,它在頭蓋骨里?!?/p>
但哈薩比斯與埃莉諾·馬圭爾(Eleanor Maguire,其做出的一項(xiàng)發(fā)現(xiàn)是,倫敦出租車司機(jī)的海馬體比常人更大)教授密切合作,很快便做出了成績(jī):2007年,他在一項(xiàng)被《科學(xué)》雜志評(píng)選為“年度突破”的研究中發(fā)現(xiàn),五名因腦損傷而遭受失憶癥折磨的病人,他們的海馬體會(huì)努力地設(shè)想未來(lái)的事情,這顯示大腦中被認(rèn)為只與過(guò)去有關(guān)的部分也對(duì)計(jì)劃未來(lái)至關(guān)重要。
哈薩比斯后來(lái)得到了一筆博士后獎(jiǎng)學(xué)金,可以使他在哈佛和麻省繼續(xù)研究腦神經(jīng)科學(xué),但這并不是他想要的,他想要的是“人工智能科學(xué)”。
2010年,哈薩比斯與童年時(shí)代的好友穆斯塔法·蘇萊曼(Mustafa Suleyman,此君履歷同樣光彩奪目,曾在牛津大學(xué)學(xué)習(xí)哲學(xué)和神學(xué),后來(lái)放棄學(xué)業(yè)開(kāi)辦“穆斯林青年求助熱線”,成為了倫敦市長(zhǎng)的政策官員之一,還創(chuàng)辦了“變革實(shí)驗(yàn)室”這個(gè)“復(fù)雜問(wèn)題咨詢機(jī)構(gòu)”)、人工智能專家謝恩·萊格(Shane Legg,UCL蓋茨比計(jì)算神經(jīng)科學(xué)院博士后,哈薩比斯也曾在此處與其共事)一起創(chuàng)辦了DeepMind——當(dāng)然,哈薩比斯同樣沒(méi)忘記拉著已經(jīng)擔(dān)任英國(guó)皇家學(xué)會(huì)研究員的西維爾給DeepMind做顧問(wèn)。DeepMind盡管被外界認(rèn)為是一家公司,但是在哈薩比斯的定義里,這是一種新的研究機(jī)構(gòu)和企業(yè)組織結(jié)合的組織。
哈薩比斯對(duì)外宣布,DeepMind將研究領(lǐng)域放在通用人工智能這個(gè)大方向,是“21世紀(jì)的阿波羅計(jì)劃”,“勇于了解并研究人工智能,然后駕馭它、利用它來(lái)幫我們解決一切難題?!?/p>
雖然這個(gè)團(tuán)隊(duì)到底在干什么,外界并不清楚,但很快就有了兩個(gè)投資者——其中一家是李嘉誠(chéng)的維港投資(Horizons Ventures)。有Skype的一個(gè)聯(lián)合創(chuàng)始人做指導(dǎo)顧問(wèn),DeepMind也很快引起了許多硅谷大佬的注意,包括伊隆·馬斯克(Elon Musk,SpaceX創(chuàng)辦人,特斯拉和PayPal的聯(lián)合創(chuàng)辦人)。這位對(duì)人工智能又愛(ài)又防備的“鋼鐵俠”在2012年為Deepmind投資了650萬(wàn)美元,意圖是“讓我可以監(jiān)視人工智能到達(dá)什么程度了”。據(jù)說(shuō)有一次哈薩比斯去馬斯克的SpaceX火箭工廠參觀,兩人坐在食堂里聊天,馬斯克正在解釋他創(chuàng)建SpaceX的終極目標(biāo)是完成世界上最重要的項(xiàng)目:星際殖民。哈薩比斯回答說(shuō),事實(shí)上,他也在研究世界上最重要的項(xiàng)目:開(kāi)發(fā)超級(jí)人工智能。馬斯克回答說(shuō),這正是他決定殖民火星的原因之一:假如人工智能反叛,倒戈攻擊人類,我們至少有一個(gè)落腳的地方。哈薩比斯笑瞇瞇地說(shuō),人工智能會(huì)跟著我們一起去火星。
事實(shí)上,也正是馬斯克在自己的私人飛機(jī)上將DeepMind推薦給了正在尋找人工智能人才的拉里·佩奇(Larry Page,谷歌聯(lián)合創(chuàng)始人)。
2013年,西維爾正式加入DeepMind,用他擅長(zhǎng)的“強(qiáng)化學(xué)習(xí)”開(kāi)發(fā)出一套算法,“能玩50種Atari游戲,通過(guò)自我學(xué)習(xí)、玩游戲、看視頻,來(lái)找到玩游戲的方法”。巧合的是,西維爾所說(shuō)的“Atari”是一家曾經(jīng)美國(guó)的游戲公司,在這套算法所“攻克”的50款游戲里,“打磚塊”(Pong)的開(kāi)發(fā)者正是當(dāng)年蘋(píng)果的創(chuàng)始人之一沃茲尼亞克(Stephe Wozniak),而喬布斯則是Atari和沃茲尼亞克之間的掮客,沃茲尼亞克靠開(kāi)發(fā)這個(gè)游戲賺到了350美元,但喬布斯則從Atari那里多領(lǐng)了5000美元的報(bào)酬。
不知道是有意還是無(wú)意,DeepMind的初試牛刀,多少有了點(diǎn)向前輩致敬的意思。
這一年年底,這套算法在美國(guó)加州和內(nèi)華達(dá)州交界的太浩湖畔的第一次公開(kāi)亮相震驚了眾人。它并沒(méi)有被編入“如何玩游戲”的指令,但通過(guò)控制鍵盤(pán),觀察顯示器分?jǐn)?shù),經(jīng)過(guò)反復(fù)試錯(cuò)之后,成為了一個(gè)專業(yè)級(jí)游戲高手?!败浖笨梢酝ㄟ^(guò)神經(jīng)模擬網(wǎng)絡(luò)處理數(shù)據(jù),像人腦一樣“本能地”學(xué)習(xí)——這正是哈薩比斯想要的那種可以“深度學(xué)習(xí)”(deep learning)的“通用人工智能”。他說(shuō):“這是我們知道大腦會(huì)做的事,當(dāng)你睡覺(jué)的時(shí)候,你的海馬體就會(huì)重演你當(dāng)天的記憶,然后再返回大腦皮層?!?/p>
觀看演示的拉里·佩奇也不吝贊美,稱贊說(shuō)這是“我多年以來(lái)見(jiàn)過(guò)的最驚人技術(shù)之一”, 演示之后,F(xiàn)acebook也開(kāi)始加入與DeepMind的商業(yè)談判,向“人工智能先行”(AI First)轉(zhuǎn)型的谷歌當(dāng)機(jī)立斷,答應(yīng)之前談判中哈薩比斯的要求,設(shè)立了人工智能道德監(jiān)察委員會(huì),以4億英鎊的價(jià)格完成了谷歌在歐洲最大的一筆收購(gòu),在2014年初結(jié)束了之前與DeepMind拖拖拉拉長(zhǎng)達(dá)兩年的試探性接觸。
對(duì)于“道德委員會(huì)”的事情,哈薩比斯在烏鎮(zhèn)接受采訪時(shí)解釋說(shuō):“正確地使用人工智能,包含有兩個(gè)層面的意思。第一個(gè)層面,它必須是造福于全人類、不能用于干壞事,比如說(shuō)不能用于研發(fā)武器,而是應(yīng)該用于例如科學(xué)、制藥等領(lǐng)域。第二個(gè)層面的意思,人工智能不能僅為少數(shù)幾家公司或者是個(gè)人去使用,應(yīng)該是全人類共享的?!?h3>新的哈勃望遠(yuǎn)鏡
除了利物浦隊(duì)的忠實(shí)球迷的身份之外,哈薩比斯對(duì)于生于斯長(zhǎng)于斯的倫敦有著很深的眷戀。在他的堅(jiān)持下,DeepMind依舊留在了倫敦,而不是搬到加州山景城的谷歌總部。每天,他都要工作到夜里11點(diǎn)多;當(dāng)午夜時(shí)分到來(lái)時(shí),他開(kāi)始了所謂的“第二天”,與美國(guó)的同事進(jìn)行電話會(huì)議,一直到1點(diǎn)多;這之后才是他自己的思考時(shí)間,通常會(huì)持續(xù)到凌晨三四點(diǎn)。
DeepMind現(xiàn)在已經(jīng)搬遷到谷歌位于倫敦的豪華新總部,國(guó)王十字車站的潘克拉斯廣場(chǎng)6號(hào)(6 Pancras Square),這里也是谷歌英國(guó)Android和YouTube業(yè)務(wù)軟件工程師的辦公之地。新總部擁有午休休息室、90米跑道的小型體育場(chǎng)以及一個(gè)按摩房等。樓頂還有露臺(tái),可以觀賞倫敦風(fēng)景。每周五晚的樓頂聚會(huì)已成慣例,公司還有跑步協(xié)會(huì)、足球隊(duì)、棋類協(xié)會(huì)。DeepMind每間辦公室都以天才來(lái)命名:特斯拉、拉馬努詹、柏拉圖、費(fèi)曼、亞里士多德、居里夫人。雖然互聯(lián)網(wǎng)行業(yè)人員流動(dòng)很頻繁,對(duì)手公司也試圖來(lái)挖墻腳,但DeepMind從創(chuàng)建起離職率一直為零,人數(shù)從被谷歌收購(gòu)時(shí)的75人增加到了200多人。
不過(guò)要成為這里的一員并不容易,一位已經(jīng)入職DeepMind的工程師在Quora(“知乎”就是中國(guó)版的Quora)上回答“怎樣才能在DeepMind里工作”時(shí)這樣寫(xiě)道:你看過(guò)的大部分谷歌招聘的過(guò)程都不適用于DeepMind,這里的應(yīng)聘面試總共有8個(gè)小時(shí)之久,“你必須要有一個(gè)博士學(xué)位,最好還有幾年機(jī)器學(xué)習(xí)研究經(jīng)歷?!?/p>
攻克了Atari游戲之后,哈薩比斯和西維爾又將他們的下個(gè)課題指向了他們19歲時(shí)熱衷的游戲——圍棋。這個(gè)有著3000年歷史的雙人棋盤(pán)游戲在1997年卡斯帕羅夫輸給“深藍(lán)”之后,一直被視為人類智力最后的自留地,因?yàn)榘凑摘M義人工智能的思路,圍棋的計(jì)算量是國(guó)際象棋的1億倍,是計(jì)算機(jī)難以用窮舉法解決的問(wèn)題。
DeepMind的這套算法就是后來(lái)震驚世界的AlphaGo,雖然被中國(guó)網(wǎng)友們戲稱為“阿爾法狗”,但實(shí)際上,哈薩比斯為這套算法起的名字里,有不少涵義。用西維爾的話說(shuō),“其中一個(gè)意思是Alphabeta——谷歌的母公司,因?yàn)檫@名字和谷歌神經(jīng)網(wǎng)絡(luò)幾乎是在同一時(shí)間發(fā)布的;同時(shí),Alpha有‘較高的意識(shí)狀態(tài)的意思,當(dāng)你把某件事思考得很透徹的時(shí)候,你有了更高的意識(shí)狀態(tài),這是另一層意思。”而“Go”正是英語(yǔ)里對(duì)圍棋的稱謂。
起初,他們希望像玩Atari游戲那樣,讓AlphaGo的人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,一種模仿動(dòng)物大腦和中樞神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能設(shè)計(jì)的數(shù)學(xué)模型或計(jì)算模型)“自己理解”圍棋的規(guī)則,但發(fā)現(xiàn)效率不高,直到后來(lái)引入了“價(jià)值網(wǎng)絡(luò)”(value network,原來(lái)是商業(yè)管理的概念,判斷公司客戶的重要程度,這里指是用一個(gè)“價(jià)值”數(shù)來(lái)評(píng)估當(dāng)前的棋局),局面才豁然開(kāi)朗。
根據(jù)DeepMind發(fā)表的論文,專業(yè)人士可以窺探到AlphaGo的基本設(shè)計(jì)思路——任何完全信息博弈(棋類游戲是典型的例子)都無(wú)非是一種搜索。搜索的復(fù)雜度取決于搜索空間的寬度(每步的選擇多寡)和深度(博弈的步數(shù))。對(duì)于圍棋,寬度約為250,深度約為150。AlphaGo用“價(jià)值網(wǎng)絡(luò)”消減深度,用策略網(wǎng)絡(luò)(policy network,在棋局里評(píng)估每一種應(yīng)對(duì)可能的勝率,從而根據(jù)當(dāng)前盤(pán)面狀態(tài)來(lái)選擇走棋策略)消減寬度,結(jié)合在棋類電腦游戲里成熟的蒙特卡洛樹(shù)搜索(Monte Carlo tree search)算法,從而極大地縮小了搜索范圍?!斑@樣,你只需看那5到10種可能性,而不用分析所有的200種可能性了?!惫_比斯說(shuō)。
在2016年3月AlphaGo在韓國(guó)首爾4:1擊敗韓國(guó)天才棋手李世石九段,一時(shí)間讓人工智能成為了全世界刷屏的新聞,一天之內(nèi),韓國(guó)出現(xiàn)了3300多篇介紹哈薩比斯和DeepMind的報(bào)道,而圍棋在西方世界成為了一種時(shí)髦。
而早在之前一年,中國(guó)旅歐棋手樊麾二段就先被它折服了?!爱?dāng)時(shí)我是法國(guó)歐洲圍棋冠軍,我在倫敦跟AlphaGo進(jìn)行了第一次的比賽,被AlphaGo打了5:0,一盤(pán)棋都沒(méi)有贏?!狈庠诮衲隇蹑?zhèn)AlphaGo跟柯潔的比賽間隙接受采訪時(shí)說(shuō),“那次對(duì)我來(lái)說(shuō),震撼是非常強(qiáng)大的,于是我加入團(tuán)隊(duì),幫助測(cè)試和提升AlphaGo?!?/p>
李世石在去年敗給AlphaGo之后曾說(shuō):“AlphaGo讓我找到了繼續(xù)下棋的樂(lè)趣和動(dòng)力?!彪S后一年,這位曾經(jīng)世界第一的棋手一直在研究AlphaGo的下棋思路。李世石的做法也是中國(guó)年輕一代棋手們的做法, 在今年5月烏鎮(zhèn)的柯潔與AlphaGo對(duì)弈的第一局,執(zhí)黑先行的柯潔就使出了AlphaGo最愛(ài)使用的“三·3”開(kāi)局,他按照之前揣摩AlphaGo的棋風(fēng)想針?shù)h相對(duì),但卻最終找不到破綻,以1/4子告負(fù)。
在5月25日的第二盤(pán)對(duì)弈上,柯潔下出了迄今為止人類與AlphaGo比賽過(guò)程里最完美的前100手棋,讓在后臺(tái)觀棋的哈薩比斯在第一時(shí)間發(fā)推大贊。在現(xiàn)場(chǎng)的九段棋手們?cè)u(píng)價(jià)說(shuō),一般高水平棋手會(huì)在棋盤(pán)上“挑起六條龍”,但柯潔“今天挑起了十條”。然而在處處充滿希望的“大亂戰(zhàn)”中,人類的計(jì)算能力穩(wěn)定性上再次輸給人工智能一籌,柯潔因?yàn)橛?jì)算失誤再次告負(fù)。但這場(chǎng)博弈讓哈薩比斯對(duì)柯潔更加欣賞,賽后發(fā)布會(huì)上言語(yǔ)和目光都充滿了天才之間的惺惺相惜——當(dāng)柯潔要求第三局要像第二局一樣執(zhí)白后行時(shí),哈薩比斯爽快地說(shuō):“好,沒(méi)問(wèn)題,就這樣!”
5月27日,柯潔在比賽過(guò)程里因?yàn)槭д`離席痛哭,見(jiàn)證了人力在智力上將最后一塊陣地拱手相讓。但在一周時(shí)間里,DeepMind團(tuán)隊(duì)不斷披露的信息,也足以證明了這個(gè)19歲少年的優(yōu)秀——與戰(zhàn)勝李世石的那版AlphaGo相比,一年后與柯潔對(duì)弈的AlphaGo在算法上已經(jīng)更加優(yōu)化,要?jiǎng)龠^(guò)老版“三子”左右,而運(yùn)算量則降低到1/10——如果說(shuō)在首爾的AlphaGo還是網(wǎng)絡(luò)版,那么在烏鎮(zhèn)的AlphaGo則更像是“單機(jī)版”。
正如那個(gè)體育官員在首戰(zhàn)之后所說(shuō),在結(jié)束了與柯潔的對(duì)弈之后, DeepMind也同時(shí)宣布AlphaGo的“使命結(jié)束”。就像之前哈薩比斯在劍橋?qū)λ膶W(xué)弟學(xué)妹們說(shuō)的那樣:“我們發(fā)明AlphaGo,并不是為了贏取圍棋比賽?!?/p>
“從現(xiàn)在開(kāi)始,AlphaGo 的研發(fā)團(tuán)隊(duì)將把精力投入到其他重大挑戰(zhàn)中,研發(fā)出高級(jí)通用算法,為科學(xué)家們解決最復(fù)雜的問(wèn)題提供幫助,包括找到新的疾病治療方法、顯著降低能源消耗、發(fā)明革命性的新材料等?!惫_比斯對(duì)媒體宣布說(shuō)。
這早已經(jīng)是啟動(dòng)的項(xiàng)目,目前DeepMind正在與英國(guó)NHS(國(guó)家醫(yī)療服務(wù)體系)進(jìn)行合作成立了“DeepMind健康”項(xiàng)目,希望用技術(shù)手段幫助有意向參與的醫(yī)護(hù)人員提高服務(wù)質(zhì)量;而在去年7月, DeepMind在谷歌的全球機(jī)房用機(jī)器學(xué)習(xí)搭建了三個(gè)人工神經(jīng)網(wǎng)絡(luò)(收集相關(guān)溫度和功率信息、預(yù)測(cè)溫度、預(yù)測(cè)下一小時(shí)負(fù)荷),組成了一個(gè)PUE(Power Usage Effectiveness,能源使用效率)評(píng)估網(wǎng)絡(luò),然后由人工智能自動(dòng)調(diào)節(jié)機(jī)房的溫度,結(jié)果比人管理的時(shí)候節(jié)電40%——在今年,這個(gè)技術(shù)將向更多的火電廠和計(jì)算中心推廣。
當(dāng)然,作為離別禮物,DeepMind為全球的圍棋棋手和愛(ài)好者留下來(lái)50盤(pán)AlphaGo在戰(zhàn)勝李世石之后“自我對(duì)弈”的棋譜(從那時(shí)起AlphaGo已經(jīng)不再參考人類棋手的棋譜了)。在烏鎮(zhèn)對(duì)弈結(jié)束的當(dāng)晚,有棋手在網(wǎng)上看過(guò)了5張棋譜之后,評(píng)價(jià)說(shuō),這根本就不是人類下棋的思維。
或許正應(yīng)了哈薩比斯的那句話,人類3000年以來(lái),或許連圍棋的表皮都沒(méi)有揭開(kāi),而AlphaGo這樣的人工智能則像天文學(xué)里的哈勃望遠(yuǎn)鏡,人類借助它,可以更深刻地理解很多我們認(rèn)為已經(jīng)十分了解的東西。