徐丹
2016年3月15日,谷歌的“阿爾法圍棋”AlphaGo和韓國(guó)九段圍棋手李世石之間的人機(jī)世紀(jì)大戰(zhàn)終于落下帷幕,AlphaGo最終以4:1取得勝利。雖然很多人都慶幸人類并沒有輸?shù)煤翢o還手之力,但AlphaGo也有自己的收獲:由于在第四局比賽中輸給了李世石,AlphaGo也有了自己的WHR排名,它以9勝1負(fù)的戰(zhàn)績(jī),積3586分,排名世界第二,僅次于中國(guó)九段棋手柯潔。
此次人機(jī)大戰(zhàn),無論在圍棋界還是人工智能(AI)界,抑或是在普通民眾間,都引發(fā)了軒然大波。但在這場(chǎng)被全球圍觀的人機(jī)大戰(zhàn)中,只有贏家,沒有輸家。
為什么是圍棋?
其實(shí)早在1996年,美國(guó)IBM公司就開發(fā)出了一款國(guó)際象棋超級(jí)電腦“深藍(lán)”,它在正常時(shí)限的比賽中首次擊敗了等級(jí)分排名世界第一的棋手。不過,那次的比賽似乎并沒有引來多少關(guān)注,而這次人機(jī)圍棋大戰(zhàn)卻成了全球的聚焦點(diǎn)。為什么?因?yàn)樗澳懜摇边x擇圍棋!
傳統(tǒng)的計(jì)算機(jī)程序在參與棋類游戲時(shí),往往會(huì)使用“暴力計(jì)算”的做法,即為所有可能的步數(shù)建立搜索樹,也就是根據(jù)數(shù)學(xué)和邏輯推理的方法,把每種可能的路徑都走一遍,從中選出最優(yōu)的走法。
圍棋棋盤有361個(gè)點(diǎn),走法變化繁多,其他棋類游戲望塵莫及。圍棋的“分支因子”無窮無盡,19×19格圍棋的精確合法棋局?jǐn)?shù)的所有可能性是一個(gè)171位數(shù)——比宇宙中的原子數(shù)還多。這樣的計(jì)算量,哪怕是巨型計(jì)算機(jī)也要算上許多年。此外,由于圍棋的每顆棋子都相同,沒有大小的區(qū)分,這就使圍棋的下法中增加了很多“隨機(jī)”的成分,無法用邏輯推理來預(yù)測(cè)(譬如在象棋中,不同的棋對(duì)應(yīng)有不同的下法規(guī)則,而圍棋則沒有這些限制)。因此,進(jìn)入圍棋領(lǐng)域一直被認(rèn)為是目前人工智能的最大挑戰(zhàn)。
AlphaGo是怎么學(xué)圍棋的?
那么AlphaGo是怎么學(xué)習(xí)圍棋的?難道還靠“暴力計(jì)算”嗎?答案顯然是否定的。
簡(jiǎn)單來說,AlphaGo之所以可以玩轉(zhuǎn)圍棋,主要在于其擁有兩個(gè)大腦——負(fù)責(zé)選擇下一步走法的“策略網(wǎng)絡(luò)”和負(fù)責(zé)預(yù)測(cè)比賽實(shí)時(shí)勝利者的“價(jià)值網(wǎng)絡(luò)”。每走一步,它倆估算一次獲勝方,而不是像“深藍(lán)”那樣一直搜索到比賽結(jié)局,從而減少了運(yùn)算量。兩個(gè)大腦的配合工作,將圍棋巨大無比的搜索空間壓縮到可以控制的范圍之內(nèi)。
僅僅這樣還不夠,想要戰(zhàn)勝人類,AlphaGo需要做的第一步就是模仿人類。設(shè)計(jì)人員首先讓它“學(xué)習(xí)”了圍棋專業(yè)棋手的3000萬步實(shí)例,完成“價(jià)值網(wǎng)絡(luò)”的基礎(chǔ)訓(xùn)練“課程”。通過這種經(jīng)驗(yàn)學(xué)習(xí),AlphaGo對(duì)于人類圍棋走法的預(yù)測(cè)準(zhǔn)確率就已達(dá)到57%。之后,等待AlphaGo的便是試著超越人類。與以往的計(jì)算機(jī)不同,AlphaGo最特別的地方就在于它可以“深度學(xué)習(xí)”——像人類大腦一樣自主學(xué)習(xí),不斷提升棋藝。這才是AlphaGo最令人可怕的地方。
簡(jiǎn)單來說,AlphaGo可以自己與自己對(duì)弈(目前它已自我對(duì)弈超過3000萬局),在這個(gè)過程中,它不斷積累著勝負(fù)經(jīng)驗(yàn),還舉一反三,形成它對(duì)圍棋的一種“全局觀”,甚至形成自己對(duì)于圍棋的一種“思考”。
伴隨著自我學(xué)習(xí)的不斷深入和對(duì)弈次數(shù)的不斷增加,AlphaGo會(huì)越來越少地依賴過往的“經(jīng)驗(yàn)”,轉(zhuǎn)而越來越多地依靠自己的評(píng)價(jià)網(wǎng)絡(luò),帶有創(chuàng)新性地選擇最有利于自己的走法。在圍棋世界里,AlphaGo自覺是學(xué)霸中的學(xué)霸。
在戰(zhàn)勝李世石之后,外界推測(cè)AlphaGo的下一個(gè)對(duì)手極有可能是目前排名世界第一的柯潔,AlphaGo的設(shè)計(jì)人員也在社交網(wǎng)絡(luò)上發(fā)出了約戰(zhàn)意愿。
對(duì)于AlphaGo的學(xué)習(xí)能力,柯潔也非常驚訝,他表示:“如果面對(duì)的是目前水平的AlphaGo,相信我可以戰(zhàn)勝它。但AlphaGo在相同時(shí)間內(nèi),學(xué)習(xí)效率是人類的數(shù)十倍甚至數(shù)百倍,因此隨著時(shí)間的推移,它終會(huì)擊敗全人類。”
人類還剩下什么?
本次人機(jī)大戰(zhàn)勝負(fù)已然分明,許多網(wǎng)友開始幻想,究竟在什么棋類項(xiàng)目上,人類能夠有把握戰(zhàn)勝人工智能,或者至少不會(huì)輸?shù)煤軕K。最終的討論結(jié)果是飛行棋——主要依靠運(yùn)氣的游戲。
其實(shí)除了圍棋,人工智能已經(jīng)從各個(gè)方面開始挑戰(zhàn)人類,比如與棋類游戲不盡相同的麻將或是牌類游戲。在這類游戲中,玩家能夠掌握的信息是不完整的,無法控制諸如對(duì)手的底牌以及下一張來牌等因素,因此屬于不完全信息博弈,計(jì)算難度成倍上升。不過,日本東京大學(xué)卻開發(fā)了一款麻將AI——“爆打”?!氨颉焙?AlphaGo一樣,有自我對(duì)弈以及閱讀學(xué)習(xí)人類牌譜的能力。從2015年到2016年2月,“爆打”已經(jīng)打了約13萬手牌,平均成績(jī)?cè)诹我陨稀?015年,加拿大研究人員則開發(fā)了能夠玩轉(zhuǎn)德州撲克的“不敗”AI(僅限于雙人限注模式)。無論對(duì)手是誰,這款德州撲克程序都能保證至少不輸錢。
來自英國(guó)的科學(xué)家比爾·西蒙斯早在十幾年前便開發(fā)了“大獎(jiǎng)?wù)禄稹?,這是一款可以應(yīng)用于投資領(lǐng)域的人工智能。當(dāng)年他請(qǐng)來一位統(tǒng)計(jì)學(xué)大師和一位數(shù)學(xué)家編寫模型,然后讓電腦程序完全自主操作。“大獎(jiǎng)?wù)禄稹蓖ㄟ^對(duì)歷史數(shù)據(jù)的統(tǒng)計(jì),找出金融產(chǎn)品價(jià)格、宏觀經(jīng)濟(jì)、市場(chǎng)指標(biāo)、技術(shù)指標(biāo)等各種指標(biāo)間變化的數(shù)學(xué)關(guān)系,從中發(fā)現(xiàn)市場(chǎng)目前存在的微小獲利機(jī)會(huì),隨后執(zhí)行快速且大規(guī)模的交易。迄今,“大獎(jiǎng)?wù)禄稹比匀槐3种?4%的年化收益率,如果你在20年前向他投資一萬元,那么今天它會(huì)回報(bào)給你348萬,這樣的投資效率完爆投資巨鱷巴菲特和索羅斯。
而在藝術(shù)方面,AI已經(jīng)創(chuàng)作出既合乎樂曲規(guī)則又符合人類審美的音樂,它們甚至可以創(chuàng)作出具有巴洛克時(shí)期或是古典主義早期風(fēng)格的樂曲,許多聽眾甚至都無法分辨樂曲的真正創(chuàng)作者是AI還是人類。在韓國(guó)《金融新聞》編輯部,有一位特殊的人工智能記者。這位“記者”在得知當(dāng)天的股市數(shù)據(jù)后,能夠在短短0.3秒內(nèi)完成一篇股市行情的新聞報(bào)道,讀者在字里行間同樣無法發(fā)現(xiàn)人工智能的影子。
說來辛酸,如今還未被人工智能征服的領(lǐng)域恐怕就還剩體育了,它們?cè)诙虝r(shí)間內(nèi)根本無法在該領(lǐng)域與人類對(duì)抗。人體結(jié)構(gòu)的精妙復(fù)雜,肌肉和骨骼的完美配合,讓科學(xué)家都“望人興嘆”。人機(jī)大戰(zhàn)后,很多體育迷開始研究,哪些運(yùn)動(dòng)是AI還遠(yuǎn)不能戰(zhàn)勝人類的“凈土”,結(jié)果排名第一的是足球。從目前的技術(shù)來看,機(jī)器人的射門還不錯(cuò),角度精準(zhǔn)且力量十足,但它們想要玩出“圓月彎刀”、“蝎子擺尾”等動(dòng)作,恐怕還為時(shí)尚早。機(jī)器人目前最差的一項(xiàng)技術(shù)就是守門,機(jī)器守門員的反應(yīng)絕對(duì)比《瘋狂動(dòng)物城》的樹懶還遲緩。
不過這并不意味著AI不會(huì)在某一天向人類運(yùn)動(dòng)員發(fā)起挑戰(zhàn)?;蛟S在不久的將來,人類將不得不派出最強(qiáng)11人,去和冷酷的鋼鐵洪流一決雌雄,可能人類僅有的一絲驕傲感也會(huì)在那時(shí)蕩然無存。不過可以想見,場(chǎng)面一定會(huì)比今日的人機(jī)大戰(zhàn)更為壯觀。
1.深藍(lán) 1997年,“深藍(lán)”以2勝1負(fù)3平的戰(zhàn)績(jī),戰(zhàn)勝了當(dāng)時(shí)世界排名第一的國(guó)際象棋大師卡斯帕羅夫。在今天看來,“深藍(lán)”還算不上足夠智能,它主要依靠強(qiáng)大的計(jì)算能力窮舉所有路數(shù)來選擇最佳策略?!吧钏{(lán)”靠硬算可以預(yù)判12步,比卡斯帕羅夫多了2步。
2.浪潮天梭 在2006年“浪潮杯”首屆中國(guó)象棋人機(jī)大戰(zhàn)中,5位中國(guó)象棋特級(jí)大師最終敗在超級(jí)計(jì)算機(jī)“浪潮天梭”手下。在2局制的博弈中,“浪潮天梭”憑借每步66萬億次的棋位分析與檢索能力,以11:9的總比分險(xiǎn)勝。“浪潮天梭”最終取勝的關(guān)鍵,被認(rèn)為是其不知疲倦的穩(wěn)定性。
3.沃森 2011年,“深藍(lán)”的同門師弟“沃森”在美國(guó)老牌智力問答節(jié)目《危險(xiǎn)邊緣》中挑戰(zhàn)兩位人類冠軍。參賽者不僅需要大量歷史、文學(xué)、政治、科學(xué)及流行文化知識(shí),還需要解析隱晦含義和謎語,即讀懂出題人的用意所在。比賽中,“沃森”不但能準(zhǔn)確分析出題目線索中的微妙含義及諷刺口吻,還能權(quán)衡比賽獎(jiǎng)金的數(shù)額、自己和對(duì)手的比分情況、自己擅長(zhǎng)的題類等,果斷選擇搶答還是放棄。競(jìng)賽中,“沃森”每答一題平均檢索數(shù)百萬條信息,用時(shí)3秒。它所展示出的自然語言理解能力一直是人工智能界的重點(diǎn)課題。