李文愷
(天津市南開中學(xué),天津 300100)
從阿爾法元的誕生看人工智能的發(fā)展趨勢(shì)
李文愷
(天津市南開中學(xué),天津 300100)
隨著信息技術(shù)不斷發(fā)展,人工智能達(dá)到了前所未有的高度。而在未來的20年內(nèi),人工智能的發(fā)展還必將對(duì)人們的生活產(chǎn)生重要影響,把握人工智能的發(fā)展趨勢(shì)變得尤為重要。從2016年的阿爾法狗戰(zhàn)勝李世石,再到2017年的阿爾法元橫掃阿爾法狗,本文通過分析其中技術(shù)方法的改進(jìn)與變革,分別從網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)方法、驅(qū)動(dòng)模式及知識(shí)創(chuàng)造等方面總結(jié)人工智能的發(fā)展趨勢(shì)。
人工智能;阿爾法元;大數(shù)據(jù);網(wǎng)絡(luò)結(jié)構(gòu)
2016年是人工智能發(fā)展最快的一年,從“阿爾法狗以4∶1的比分擊敗了世界圍棋冠軍李世石”,再到“人工智能診斷癌癥”,人工智能經(jīng)歷了里程碑式的發(fā)展,2016年也因此被稱為“人工智能元年”。公認(rèn)的人工智能的開端是在1956年的達(dá)特茅斯會(huì)議上,在會(huì)議上參會(huì)者正式確立了人工智能的概念及研究領(lǐng)域,與會(huì)人員也在未來多年內(nèi)成為人工智能領(lǐng)域的先驅(qū)者。
百度可以說是國(guó)內(nèi)發(fā)展最快的互聯(lián)網(wǎng)公司,百度深度語音識(shí)別系統(tǒng)入選MIT2016十大突破技術(shù),是唯一一家入選的中國(guó)公司,而李開復(fù)也在2017年7月乘坐百度開發(fā)的無人駕駛汽車在北京上路。智能客服是阿里巴巴在人工智能領(lǐng)域應(yīng)用最多的技術(shù),結(jié)合語音自動(dòng)轉(zhuǎn)接技術(shù)、情感識(shí)別等技術(shù),人工智能可以代替人類高效地處理巨大的工作量。與此同時(shí),馬云的城市大腦通過對(duì)地圖等數(shù)據(jù)分析智能調(diào)節(jié)紅綠燈,讓蕭山市的車輛同行速度提高了11%;無人餐廳也出現(xiàn)在了人們的視野中??拼笥嶏w開發(fā)的語言互譯神器可以實(shí)現(xiàn)中文進(jìn)英文出,瞬間同傳。
美國(guó)波士頓動(dòng)力公司的Handle機(jī)器人將把“足+輪”式的能力直接拔升到了一個(gè)聞所未聞的高度,還有陪你一起散步的雙足機(jī)器人Atlas;而Facebook對(duì)于未來10年有一個(gè)宏大的計(jì)劃,即連接世界、人工智能(AI)、虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí),而人工智能是這個(gè)計(jì)劃的核心。同時(shí),有報(bào)道稱,F(xiàn)acebook實(shí)驗(yàn)室的兩個(gè)機(jī)器人已經(jīng)可以用人類無法理解的語言成功交流;而DeepMind開發(fā)的新一代阿爾法元更是橫掃了曾經(jīng)完勝人類頂級(jí)圍棋選手的阿爾法狗。
目前來說,人工智能正在朝著我們可預(yù)料亦不可預(yù)料的方向飛速發(fā)展,一個(gè)人工智能時(shí)代正以前所未有的速度和影響力向我們迎面而來[1]。
2.1 戰(zhàn)勝人類圍棋的阿爾法狗
2015年,谷歌旗下的DeepMind公司開發(fā)出了圍棋人工智能程序——阿爾法狗,這款人工智能機(jī)器人內(nèi)置“策略網(wǎng)略”和“價(jià)值網(wǎng)絡(luò)”兩種網(wǎng)絡(luò)結(jié)構(gòu),分別用來選擇策略和計(jì)算勝率,同時(shí)加入了快速走子系統(tǒng)。阿爾法狗通過對(duì)人類職業(yè)以及業(yè)余的大量棋局進(jìn)行學(xué)習(xí)幾個(gè)月,達(dá)到了人類大師水平。
2015年10月,阿爾法狗以5∶0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。2016年3月,與前世界圍棋冠軍手李世石對(duì)戰(zhàn),最后以4∶1結(jié)束了這場(chǎng)“戰(zhàn)爭(zhēng)”。
2017年5月23日到27日,柯潔與阿爾法狗在“中國(guó)烏鎮(zhèn)·圍棋峰會(huì)”展開對(duì)弈。阿爾法狗三勝柯潔。27日賽后宣布阿爾法狗退役。
2.2 橫掃阿爾法狗的阿爾法元
2017年10月19日,DeepMind繼阿爾法狗之后又開發(fā)出了最強(qiáng)版本“阿爾法元”,這一人工智能機(jī)器系統(tǒng)僅通過3天的訓(xùn)練就用100∶0的戰(zhàn)績(jī)橫掃了戰(zhàn)勝阿爾法狗Lee版本(戰(zhàn)勝李世石的那套),又經(jīng)過40天的自我對(duì)弈后,阿爾法元又以89∶11的大比分戰(zhàn)勝了阿爾法狗Master版本(戰(zhàn)勝柯潔的那套)。
最重要的改變是,阿爾法元并不像之前的阿爾法狗一樣依托人類的圍棋成果和經(jīng)驗(yàn)來進(jìn)行學(xué)習(xí),而是在完全沒有任何數(shù)據(jù)導(dǎo)入情況下的自我對(duì)弈,從中不斷進(jìn)步。同時(shí),將兩種網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合,可以同時(shí)運(yùn)作,還去掉了快速走子系統(tǒng)??梢哉f,無論是設(shè)計(jì)理念還是系統(tǒng)配置,阿爾法元都與之前的阿爾法狗Lee/Master版本大為不同[2]。
3.1 從獨(dú)立網(wǎng)絡(luò)結(jié)構(gòu)到整體結(jié)構(gòu)
網(wǎng)絡(luò)結(jié)構(gòu)是阿爾法系列的核心配置,之前的阿爾法狗Lee/Master版本除了擁有“策略網(wǎng)絡(luò)”和“價(jià)值網(wǎng)絡(luò)”之外,還加入了快速走子系統(tǒng),策略網(wǎng)絡(luò)用于判斷局面,預(yù)測(cè)下一步行動(dòng),而價(jià)值網(wǎng)絡(luò)用于計(jì)算盤中勝率,進(jìn)而選擇最優(yōu)落子;與此同時(shí),快速走子系統(tǒng)可以在稍微犧牲走子質(zhì)量的前提下提高運(yùn)算速度。但是,3種系統(tǒng)是分開訓(xùn)練、獨(dú)立運(yùn)行的,最后需要用蒙特卡羅樹算法搜索算法將三者連接。
阿爾法元的網(wǎng)絡(luò)結(jié)構(gòu)則做了改進(jìn),將策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)結(jié)合到一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中,使二者可以同時(shí)輸出,另外去除了快速走子系統(tǒng),使之真正成為一個(gè)整體。而事實(shí)也表明,這種整體性的網(wǎng)絡(luò)結(jié)構(gòu)在很多情況下表現(xiàn)得更好。因?yàn)檫@些改變,阿爾法元相比阿爾法狗來說,有了更高的訓(xùn)練效率和更好的表現(xiàn)。
3.2 從監(jiān)督學(xué)習(xí)到強(qiáng)化學(xué)習(xí)
監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)中的概念,阿爾法狗是監(jiān)督學(xué)習(xí)的代表,在預(yù)先輸入圍棋規(guī)則和對(duì)3 000萬局人類職業(yè)以及業(yè)余的棋盤學(xué)習(xí),從而達(dá)到了人類的圍棋最高水準(zhǔn)。
阿爾法元最大的改變是不需要借助任何人類在以往圍棋對(duì)局中的經(jīng)驗(yàn)知識(shí),隨機(jī)落子,從零開始,完全靠自我對(duì)弈和自我進(jìn)步。其中,最大的突破就是無監(jiān)督的深度學(xué)習(xí)。此前的阿爾法狗Lee/Master版本都是用上千盤人類業(yè)余和專業(yè)棋手的棋譜進(jìn)行訓(xùn)練,而這些經(jīng)驗(yàn)棋譜和歷史對(duì)局就是一種監(jiān)督,阿爾法元?jiǎng)t是除了圍棋基本規(guī)則之外的無師自通。從人工智能的技術(shù)角度來看,這無疑是深度強(qiáng)化學(xué)習(xí)方法的勝利,在沒有外界監(jiān)督,僅僅靠自我學(xué)習(xí)的情況下,就可以達(dá)到一個(gè)高于人類最高水平的境地。強(qiáng)化學(xué)習(xí)之于人工智能的意義至關(guān)重要,這也是想要從弱人工智能走向強(qiáng)人工智能的必經(jīng)階段。正如一些人所說,監(jiān)督學(xué)習(xí)讓你成為復(fù)讀機(jī),而強(qiáng)化學(xué)習(xí)讓你成為生物[3]。
3.3 從數(shù)據(jù)驅(qū)動(dòng)到情景驅(qū)動(dòng)
一般認(rèn)為,數(shù)據(jù)技術(shù)驅(qū)動(dòng)階段、數(shù)據(jù)驅(qū)動(dòng)階段和情景驅(qū)動(dòng)階段是按照驅(qū)動(dòng)力劃分的3個(gè)人工智能發(fā)展階段。
近年來,隨著互聯(lián)網(wǎng)的高速發(fā)展,我們進(jìn)入了大數(shù)據(jù)時(shí)代,而智能數(shù)據(jù)時(shí)代則是大數(shù)據(jù)時(shí)代的新階段。阿爾法狗是典型的數(shù)據(jù)驅(qū)動(dòng)的代表,3 000萬盤的大數(shù)據(jù)樣本則是原動(dòng)力,沒有數(shù)據(jù)就不會(huì)有智能。李開復(fù)也曾提到,人工智能更適合于擁有大數(shù)據(jù)且數(shù)據(jù)量可以實(shí)現(xiàn)自我推動(dòng)的公司,沒有數(shù)據(jù)的人工智能是無法前行的。這也從一方面說明了大數(shù)據(jù)是數(shù)據(jù)驅(qū)動(dòng)時(shí)代人工智能發(fā)展的必需品。
阿爾法元?jiǎng)t在一定程度上擺脫了大數(shù)據(jù)對(duì)人工智能的限制。除了圍棋規(guī)則之外,沒有任何的數(shù)據(jù)輸入,全靠自我對(duì)弈,基于實(shí)時(shí)的情景局勢(shì)判斷應(yīng)該如何走下一步,這可以說是走到了情景驅(qū)動(dòng)的階段。
3.4 從知識(shí)學(xué)習(xí)到知識(shí)創(chuàng)造
按照人工智能的學(xué)習(xí)方式,我們可以將其分為3個(gè)階段:從外界吸取知識(shí)階段、自我學(xué)習(xí)階段和開創(chuàng)能力階段。
在第一階段,阿爾法狗Lee版本為了達(dá)到人類大師水平,對(duì)人類職業(yè)和業(yè)余選手的棋局學(xué)習(xí)訓(xùn)練了幾個(gè)月,而從打敗人類圍棋冠軍李世石的Lee版本再到打敗柯潔的Master版本,中間又不斷訓(xùn)練學(xué)習(xí)幾個(gè)月。在這段時(shí)間里,它需要從外界獲取上百萬種人類專業(yè)選手的下棋步驟來進(jìn)行學(xué)習(xí)。
在第二個(gè)階段,阿爾法元通過強(qiáng)化學(xué)習(xí)的方式進(jìn)行自我學(xué)習(xí),最終完勝了阿爾法狗版本,這是一個(gè)不需要人為干預(yù)的學(xué)習(xí)過程,就像我們小時(shí)候?qū)W了基礎(chǔ)的數(shù)學(xué)知識(shí)后,可以自主地去推理、思考。阿爾法元的這種從監(jiān)督學(xué)習(xí)到強(qiáng)化學(xué)習(xí)的突破正是對(duì)人類固有思維模式的一個(gè)突破。
值得注意的是,阿爾法元已經(jīng)有一些在學(xué)習(xí)中進(jìn)入開創(chuàng)的跡象,美國(guó)杜克大學(xué)的人工智能專家陳怡然曾經(jīng)說過,她認(rèn)為人工智能最有趣的地方就是證明了人類經(jīng)驗(yàn)由于樣本空間大小的限制,往往都收斂于局部而不自知,而人工智能學(xué)習(xí)則可以突破這個(gè)限制。如今的阿爾法元遠(yuǎn)比阿爾法狗強(qiáng)大,因?yàn)樗辉俦蝗祟愓J(rèn)知所局限,而是能夠發(fā)現(xiàn)新知識(shí),尋找新策略,這具體表現(xiàn)在:阿爾法狗的開局和收官與專業(yè)棋手的下法并無區(qū)別,但是中盤看起來則非常詭異,很多職業(yè)選手表示超出了自己的理解。阿爾法元放棄學(xué)習(xí)人類而使用完全隨機(jī)的初始下法,訓(xùn)練過程也一直朝著收斂的方向進(jìn)行,也就沒有產(chǎn)生難以收斂的現(xiàn)象,因?yàn)槿绱?,阿爾法元突破了人類以往知識(shí)經(jīng)驗(yàn)的局限,創(chuàng)造出了人類以往經(jīng)驗(yàn)知識(shí)無法理解的棋盤,也豐富了人類對(duì)于圍棋的認(rèn)識(shí)。
[1]閆德利.2016人工智能發(fā)展綜述[J].互聯(lián)網(wǎng)天地,2017(2):22-27.
[2]何哲.通向人工智能時(shí)代——兼論美國(guó)人工智能戰(zhàn)略方向及對(duì)中國(guó)人工智能戰(zhàn)略的借鑒[J].電子政務(wù),2017(2):2-10.
[3]韓曄彤.人工智能技術(shù)發(fā)展及應(yīng)用研究綜述[J].電子制作,2016(12):95.
The Development Trend of Artificial Intelligence from the Birth of Alpha
Li Wenkai
(Tianjin Nankai Middle School,Tianjin 300100)
With the continuous development of information technology,artificial intelligence has reached un?precedented heights.In the next 20 years,the development of artificial intelligence will surely make a sig?nificant change in people's lives.It is particularly important to grasp the development trend of artificial in?telligence.From 2016,when alpha dog defeated Li Shishi and then alpha meta in 2017 swept through al?pha dog,this paper analyzed the improvement and transformation of technical methods,summarized the trend of development artificial intelligence from aspects of network structure,learning methods,driving modes,and knowledge creation through improvement and transformation of all technical methods.
artificial intelligence;alpha meta;big data;network structure
TP18
A
1003-5168(2017)12-0026-03
2017-11-03
李文愷(2000-),男,研究方向:人工智能。