周吉帆 徐昊骙 唐 寧 史博皓 趙 陽(yáng) 高 濤 沈模衛(wèi)*
(浙江大學(xué)心理與行為科學(xué)系,杭州 310028)
?
“強(qiáng)認(rèn)知”的心理學(xué)研究:來(lái)自AlphaGo的啟示*
周吉帆徐昊骙唐寧史博皓趙陽(yáng)高濤**沈模衛(wèi)***
(浙江大學(xué)心理與行為科學(xué)系,杭州 310028)
本文從AlphaGo戰(zhàn)勝李世石的熱議話題出發(fā),簡(jiǎn)要介紹了AlphaGo的算法,通過(guò)比較和分析當(dāng)前先進(jìn)人工智能技術(shù)與人類智能的特點(diǎn),就當(dāng)前人工智能迅猛發(fā)展背景下心理學(xué)的研究取向進(jìn)行了探討。筆者認(rèn)為,心理學(xué)研究應(yīng)重視計(jì)算科學(xué)這一理論基礎(chǔ)與工具,從計(jì)算理論取向探討核心認(rèn)知問(wèn)題,重點(diǎn)關(guān)注人類所擅長(zhǎng)的,而人工智能尚無(wú)法解決的計(jì)算難題。這一研究取向?qū)M(jìn)一步推動(dòng)心理學(xué)從定性到定量,從現(xiàn)象到理論的發(fā)展具有重要意義。同時(shí)該研究取向下所獲的研究成果也能在與人工智能、機(jī)器學(xué)習(xí)及神經(jīng)科學(xué)等多學(xué)科交叉中,體現(xiàn)出獨(dú)特的價(jià)值。我們將這一類聚焦于“人類智能優(yōu)越特質(zhì)”的心理學(xué)研究,命名為“強(qiáng)認(rèn)知”研究。
強(qiáng)認(rèn)知人工智能認(rèn)知心理學(xué)AlphaGo計(jì)算理論
谷歌(Google)公司研發(fā)的圍棋程序AlphaGo近期與人類圍棋冠軍李世石的對(duì)戰(zhàn)轟動(dòng)了全世界。李世石作為人類圍棋界最高水平的代表,竟然以1∶4的結(jié)果慘敗于一臺(tái)冰冷的機(jī)器。這一結(jié)果使無(wú)數(shù)專業(yè)人士和非專業(yè)人士感到震驚、迷茫甚至憤怒,人類脆弱的自尊受到嚴(yán)峻挑戰(zhàn)。其實(shí)2015年10月,AlphaGo就曾以5∶0完勝歐洲圍棋冠軍樊麾,只不過(guò)當(dāng)時(shí)人們尚存僥幸,認(rèn)為有種種理由可以解釋該結(jié)果:樊麾在對(duì)弈中并未發(fā)揮其應(yīng)有水準(zhǔn);樊麾并不能代表人類圍棋界的最高水平;樊麾可能由于種種原因有意輸?shù)袅吮荣?。然而,?dāng)此次大戰(zhàn)落幕后,再也無(wú)人質(zhì)疑AlphaGo的棋力,一致承認(rèn)其具有超一流圍棋棋手的水平。于是在最新世界圍棋排行榜上出現(xiàn)了一個(gè)沒(méi)有性別、沒(méi)有國(guó)籍的非人類名字——AlphaGo,排名世界第二,僅次于柯潔。
這場(chǎng)圍棋大戰(zhàn)引發(fā)了輿論狂潮,人們紛紛驚呼“奇點(diǎn)”*“奇點(diǎn)理論”是美國(guó)學(xué)者雷·庫(kù)茲韋爾提出的假設(shè)(Kurzweil,2005),他認(rèn)為,隨著科學(xué)技術(shù)的不斷加速發(fā)展,人工智能將在不久的將來(lái)超越人類,到達(dá)一個(gè)人類無(wú)法理解的高度,并取代人類成為科技繼續(xù)發(fā)展的智能主體。來(lái)臨,認(rèn)為人工智能即將超越人類智能,并脫離人類的控制,迅速改變甚至終結(jié)人類文明。也許人工智能在某些方面和某些領(lǐng)域終有一天會(huì)比人類更強(qiáng),但這一天的來(lái)臨可能還需要幾十年,或許上千年,且需要以人類智能的深入研究為基石。作為心理學(xué)工作者,我們尚無(wú)法對(duì)人工智能的未來(lái)做出準(zhǔn)確預(yù)測(cè),然而更重要的是,在人工智能迅猛發(fā)展的形勢(shì)下,心理學(xué)研究的走向卻值得深思。本文從AlphaGo的實(shí)現(xiàn)方式和工作原理出發(fā),著重探討人工智能技術(shù)對(duì)于心理學(xué)研究的啟示,提出了“強(qiáng)認(rèn)知”的心理學(xué)研究取向,旨在為推進(jìn)學(xué)術(shù)研究提供新思路。
AlphaGo的圍棋算法并不神秘,相關(guān)論文(Silver et al.,2016)已于今年1月發(fā)表于Nature,一些前期的技術(shù)積累(e.g.,Mnih et al.,2015)則更早見諸學(xué)術(shù)期刊。計(jì)算理論認(rèn)為,棋類游戲?qū)賱?dòng)態(tài)規(guī)劃(dynamic programming)問(wèn)題(Bellman,1954),其核心原理是在所有可能的行為空間中尋找最優(yōu)解。Bellman(1957)提出了此類問(wèn)題的理論解法,也就是人工智能領(lǐng)域所熟知的貝爾曼方程(Bellman equation),該方法已廣泛應(yīng)用于離散時(shí)間最佳化問(wèn)題的動(dòng)態(tài)規(guī)劃。然而,正如貝爾曼本人所指出的,雖然他的解法理論上可行,但受到了維度的詛咒(curse of dimensionality)。一旦行為空間的維度過(guò)高(每一步可能的行為過(guò)多,或達(dá)到目標(biāo)所需步數(shù)過(guò)多),將導(dǎo)致運(yùn)算量過(guò)大,從而使解法無(wú)法實(shí)現(xiàn)。具體到棋類游戲上,國(guó)際象棋每手棋有35種可能的走法,完成一盤棋約需80手,共計(jì)3580種可能。1997年,IBM的深藍(lán)計(jì)算機(jī)采用手工編碼規(guī)則,通過(guò)搜索所有可能的走法,擊敗了當(dāng)時(shí)的國(guó)際象棋世界冠軍。圍棋平均每手有250種走法,每盤約需150手,共計(jì)250150種可能。因此,即使在20年后的今天,電腦運(yùn)算速度獲得了大幅提升,但遍歷搜索所有的行為空間也是難以實(shí)現(xiàn)的。
解決維度的詛咒問(wèn)題必須縮小搜索空間,降低搜索的廣度和深度。許多傳統(tǒng)圍棋程序通過(guò)啟發(fā)式策略、學(xué)習(xí)算法等方法達(dá)到該目的。AlphaGo則結(jié)合了當(dāng)今人工智能中三個(gè)本無(wú)太大交集的研究領(lǐng)域:強(qiáng)化學(xué)習(xí)(reinforcement learning)、深度學(xué)習(xí)(deep learning)、蒙特卡洛模擬(Monte-Carlo tree search),實(shí)現(xiàn)了高效的搜索。
強(qiáng)化學(xué)習(xí)是其核心思想,即個(gè)體通過(guò)感知環(huán)境狀態(tài)選擇下一步的行為,并接受環(huán)境返回的反饋,強(qiáng)化那些得到高獎(jiǎng)賞的行為。針對(duì)圍棋問(wèn)題,就是通過(guò)學(xué)習(xí),使AlphaGo在輸入當(dāng)前局面信息后,輸出能導(dǎo)致較高勝率的一手棋。基于該思想,谷歌公司工程師們?cè)O(shè)計(jì)了兩個(gè)人工神經(jīng)網(wǎng)絡(luò)——策略網(wǎng)絡(luò)(policy network)和估值網(wǎng)絡(luò)(value network)。前者用于產(chǎn)生下一手棋,而后者用于評(píng)估某個(gè)局面的勝率。策略網(wǎng)絡(luò)采用人類棋手?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練,以學(xué)習(xí)人類下棋的策略。由于訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù),工程師們從國(guó)際圍棋網(wǎng)站上選取了三千萬(wàn)局對(duì)弈數(shù)據(jù),從每局中抽取一手,共三千萬(wàn)手,用以訓(xùn)練策略網(wǎng)絡(luò)。為達(dá)到更好的訓(xùn)練效果,在此之后AlphaGo用策略網(wǎng)絡(luò)與自己對(duì)弈,產(chǎn)生出新的三千萬(wàn)局?jǐn)?shù)據(jù),再次用于訓(xùn)練。AlphaGo由此習(xí)得了人類棋手的下棋策略,學(xué)會(huì)針對(duì)某個(gè)特定局面,大多數(shù)人如何選擇下一手的策略。僅使用策略網(wǎng)絡(luò),AlphaGo已經(jīng)能戰(zhàn)勝大多數(shù)棋手和其他圍棋程序,但面對(duì)圍棋高手仍有差距。因此工程師們加入估值網(wǎng)絡(luò),用以精確計(jì)算每一種走法所產(chǎn)生的收益。工程師同樣采用大數(shù)據(jù)對(duì)估值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使之能根據(jù)當(dāng)前局面較為準(zhǔn)確地估計(jì)出勝率。在對(duì)弈過(guò)程中,AlphaGo采用蒙特卡洛模擬方法,針對(duì)當(dāng)前局面,根據(jù)策略網(wǎng)絡(luò)的建議,有限制地向前模擬展開行為樹,并用估值網(wǎng)絡(luò)對(duì)每種走法的勝率進(jìn)行估計(jì),在展開足夠的搜索后選擇最優(yōu)的下一手棋。
綜上所述,AlphaGo的致勝關(guān)鍵可簡(jiǎn)要概括如下:采用策略網(wǎng)絡(luò)和蒙特卡洛模擬縮小搜索廣度和深度,同時(shí)采用估值網(wǎng)絡(luò)精確評(píng)估每一種走法的勝率,并將線下深度學(xué)習(xí)與在線高效搜索相結(jié)合,從而獲取圍棋問(wèn)題的有效解法。這是谷歌工程師們創(chuàng)造性地結(jié)合了當(dāng)前人工智能領(lǐng)域數(shù)種最先進(jìn)技術(shù)的結(jié)果。
當(dāng)人類在引以為傲的圍棋項(xiàng)目上落敗后,一個(gè)令人焦慮的問(wèn)題浮出水面:人工智能是否已經(jīng)(或者即將)全面超越人類智能?基于對(duì)心理學(xué)理論和AlphaGo算法的深入分析,筆者的回答是否定的。筆者認(rèn)為,在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),對(duì)人類智能的心理學(xué)研究都能對(duì)人工智能的發(fā)展起積極的導(dǎo)向作用。
諸多原因?qū)е氯藗儺a(chǎn)生了人工智能已經(jīng)超越人類智能的錯(cuò)覺(jué),其中最主要的是對(duì)“智能”不全面的理解。在很多場(chǎng)合中,人們習(xí)慣把各種“智力游戲”當(dāng)作衡量智能水平的標(biāo)尺,其作用之一就是對(duì)個(gè)體的智能水平做出區(qū)分,如圍棋的段位就是這種標(biāo)尺的體現(xiàn)。人工智能恰恰對(duì)這種從生活的豐富情景中剝離出來(lái),且規(guī)則明確的游戲非常擅長(zhǎng)。相反,人類(甚至包括其他動(dòng)物)所共同具有的智能,由于不具備對(duì)個(gè)體的區(qū)分度,往往被當(dāng)成物種存在的背景而未引起人們的關(guān)注。這類“背景智能”恰恰是人工智能最難把握的。例如,普通的3歲兒童就能通過(guò)語(yǔ)言、視覺(jué)與行為的整合,對(duì)我們所處的世界有了深刻的理解。這種理解難以定義,而又隨時(shí)隨地以“常識(shí)”的形式表現(xiàn)出來(lái)。如此內(nèi)涵深刻的人類智能是當(dāng)今人工智能無(wú)法實(shí)現(xiàn)的。然而,挖掘和洞察“3歲兒童”的超越人工智能之長(zhǎng),對(duì)心理學(xué)工作者而言,不僅需要系統(tǒng)、扎實(shí)的心理學(xué)訓(xùn)練,而且需要“從平凡中見偉大”的視角。
通過(guò)系統(tǒng)比較AlphaGo與人類的特點(diǎn),筆者認(rèn)為,此次圍棋大戰(zhàn)在展現(xiàn)人工智能快速進(jìn)步的同時(shí),也凸顯了人類智能在諸多方面的優(yōu)越性。強(qiáng)大的人工智能就像一塊試金石,可以使心理學(xué)工作者更清晰地捕捉到人類智能的偉大之處。與AlphaGo相對(duì)照,筆者將心理學(xué)研究值得關(guān)注的人類智能優(yōu)勢(shì)從如下角度加以歸納。
3.1學(xué)習(xí)量與計(jì)算量
由前述可見,AlphaGo從三千萬(wàn)局人類對(duì)弈棋譜中采集數(shù)據(jù)進(jìn)行學(xué)習(xí),隨后又加入了自己與自己對(duì)弈產(chǎn)生的三千萬(wàn)局??梢?,其棋藝是通過(guò)千萬(wàn)級(jí)的學(xué)習(xí)和訓(xùn)練量達(dá)到的。這是人類任何一個(gè)個(gè)體所無(wú)法企及的,即使專業(yè)棋手如李世石,一輩子又能研讀多少局棋譜?此外,硬件上AlphaGo采用分布式計(jì)算技術(shù),由幾十到上千個(gè)CPU和GPU支撐其運(yùn)算,使其可以達(dá)到2μs一步棋的計(jì)算速度,保證其在實(shí)戰(zhàn)中能完成足夠深度的蒙特卡洛模擬。換言之,AlphaGo在以每秒一百萬(wàn)手棋的速度思考棋局。然而,實(shí)戰(zhàn)中的李世石每秒能做多少手精算?跟AlphaGo相比恐怕望塵莫及。因此,要達(dá)到AlphaGo的訓(xùn)練水平和計(jì)算速度,人類棋手大約需要活上好幾萬(wàn)年,并將大腦容量增加幾十萬(wàn)倍。然而,李世石竟然與AlphaGo的棋力相去不遠(yuǎn)——畢竟還贏了一局。更何況這是谷歌公司集合了當(dāng)今世界最優(yōu)秀算法和最先進(jìn)計(jì)算硬件才得以實(shí)現(xiàn)的智能系統(tǒng)。因此就這次人機(jī)對(duì)戰(zhàn)而言,應(yīng)該是人類的而非人工智能的奇跡。AlphaGo向人們展現(xiàn)了當(dāng)今人工智能解決計(jì)算問(wèn)題的復(fù)雜性與難度,而李世石卻展現(xiàn)了人類自身計(jì)算系統(tǒng)的優(yōu)越性。那么,人類是怎樣在如此之少學(xué)習(xí)樣本的條件下,習(xí)得如此之高效的下棋策略的呢?這恰恰是值得心理學(xué)著重探討的問(wèn)題。由此可見,對(duì)人類智能的心理學(xué)研究,在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),仍將指引人工智能的發(fā)展方向。
3.2信息不確定性
AlphaGo所面對(duì)的圍棋問(wèn)題,屬完全信息(perfect information)問(wèn)題,即解決該問(wèn)題所需的信息都是已知的。具體到AlphaGo所采用的強(qiáng)化算法,該算法所需的狀態(tài)信息(即當(dāng)前局面)、所能采取的行動(dòng)(下一手棋)以及行動(dòng)所能獲得的獎(jiǎng)賞(落子之后根據(jù)圍棋規(guī)則所能獲得的收益)都是可以獲知的。一旦上述信息存在缺失,該算法將無(wú)法有效運(yùn)作,即使采用某些彌補(bǔ)措施,其計(jì)算效能也將大打折扣。目前谷歌公司DeepMind項(xiàng)目所解決的問(wèn)題,都屬于完全信息問(wèn)題,如圍棋(Silver et al.,2016)和簡(jiǎn)單電子游戲(e.g.,Mnih et al.,2015)。他們計(jì)劃挑戰(zhàn)的下一個(gè)目標(biāo),就是與人類對(duì)戰(zhàn)“星際爭(zhēng)霸”,該游戲中戰(zhàn)爭(zhēng)迷霧的設(shè)置使信息并非完全可見(知識(shí)核,2016)。這表明,處理不確定性,哪怕是電腦游戲這種被人視為“小兒科的把戲”,都是當(dāng)今人工智能的難點(diǎn)。
人類所面臨的環(huán)境,恰恰充滿了不確定性,我們不確定一扇門打開后有什么,不確定紅綠燈什么時(shí)候會(huì)變色,更不確定明天股市的漲跌。然而人們?cè)谶@個(gè)不確定的世界中生活游刃有余,并沒(méi)有太多的無(wú)所適從。以至于很多人無(wú)法理解,為什么在谷歌的工程師看來(lái)“星際爭(zhēng)霸”居然是比圍棋更困難的游戲。因此對(duì)不確定性的處理是人工智能領(lǐng)域一大難點(diǎn)問(wèn)題,同時(shí)也是反映人類智能更為優(yōu)越的重要方面,從而更是心理學(xué)應(yīng)關(guān)注的重要課題。
3.3視覺(jué)
谷歌公司選擇圍棋作為突破口,部分原因是因?yàn)閲逯兴婕暗囊曈X(jué)處理比較簡(jiǎn)單。機(jī)器視覺(jué)是人工智能領(lǐng)域的傳統(tǒng)難題,很多解決方法的實(shí)現(xiàn)采用了繞開視覺(jué)的策略。例如在無(wú)人駕駛領(lǐng)域,目前對(duì)環(huán)境的感知主要是通過(guò)雷達(dá)和各類傳感器獲取周圍空間信息的方式加以實(shí)現(xiàn)的,由此避開了從二維視覺(jué)圖像還原三維空間的棘手問(wèn)題,而依靠視網(wǎng)膜投影圖像認(rèn)知三維空間正是人類感知空間環(huán)境的主要途徑。目前卷積網(wǎng)絡(luò)(convolutional network)技術(shù)的發(fā)展很大程度上提升了機(jī)器圖像處理的能力,使谷歌團(tuán)隊(duì)可以完成對(duì)圍棋棋局和簡(jiǎn)單電子游戲畫面中視覺(jué)特征的抽取和計(jì)算,從而實(shí)現(xiàn)從前端視覺(jué)到后端行為的完整人工智能系統(tǒng)。然而面對(duì)更復(fù)雜的視覺(jué)場(chǎng)景,現(xiàn)有的圖像工程技術(shù)仍然力不從心。
大多數(shù)人并未意識(shí)到視覺(jué)的計(jì)算難度,不是因?yàn)橐曈X(jué)問(wèn)題本身簡(jiǎn)單,而是因?yàn)槿祟悡碛幸惶讖?qiáng)大的視覺(jué)系統(tǒng),使我們?cè)诒犙鄣囊凰查g就能毫不費(fèi)力地感知并理解了自己所處的空間環(huán)境。僅從數(shù)據(jù)量上比較,AlphaGo一局對(duì)弈中僅需處理幾百?gòu)?一手棋一張圖)棋盤大小的圖像(分辨率19×19就夠用),而人類日常生活中需每秒處理多幀高清圖像,二者遠(yuǎn)遠(yuǎn)不在同一個(gè)數(shù)量級(jí)上。而且人類可以輕易識(shí)別物體,并“看到”事物間的關(guān)系,例如看見書桌旁有個(gè)“被壓扁了”的易拉罐。對(duì)這類從圖像中抽取語(yǔ)義信息的任務(wù),當(dāng)前人工智能尚無(wú)高效、普適的解決方案。因此,對(duì)人類視覺(jué)及其機(jī)制的深入研究將為此類計(jì)算問(wèn)題提供有效的解決思路,從而推動(dòng)人工智能系統(tǒng)的跨越式發(fā)展。
3.4知識(shí)驅(qū)動(dòng)的內(nèi)部模擬
雖然AlphaGo的策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)是通過(guò)人工神經(jīng)網(wǎng)絡(luò)技術(shù)加以實(shí)現(xiàn)的,其中并不包含有關(guān)圍棋的顯性知識(shí)。然而,其對(duì)弈中的關(guān)鍵算法之一——蒙特卡洛模擬,卻是按照圍棋的規(guī)則,在內(nèi)部模擬比賽的進(jìn)程。因此一個(gè)與外界動(dòng)態(tài)交互的系統(tǒng),需要有關(guān)于外部世界的知識(shí)和模型,并基于此模擬事件發(fā)展,以對(duì)未來(lái)進(jìn)行預(yù)測(cè),從而決定當(dāng)前行為。在圍棋世界中,知識(shí)相對(duì)簡(jiǎn)單,也即幾條圍棋規(guī)則的集合。而對(duì)于復(fù)雜度稍高的問(wèn)題,例如前述的“星際爭(zhēng)霸”游戲,解決方法就變得難度陡增。且不說(shuō)如何實(shí)現(xiàn)一個(gè)可以學(xué)會(huì)游戲規(guī)則的算法,即使將“星際爭(zhēng)霸”的游戲引擎原封不動(dòng)地“教”給人工智能系統(tǒng),它也不可能達(dá)到AlphaGo下圍棋時(shí)的速度,則蒙特卡洛模擬無(wú)法有效進(jìn)行。
在人工智能面臨上述難題時(shí),許多相應(yīng)的心理學(xué)課題就顯得尤為重要。例如人是如何在上物理課之前就擁有了關(guān)于這個(gè)世界的樸素物理常識(shí);如何形成關(guān)于他人內(nèi)心活動(dòng)的心理模型(即心理理論,theory of mind);兒童需要哪些核心知識(shí)(core knowledge)才能完成對(duì)常識(shí)的學(xué)習(xí)等等。這些對(duì)“他人”及“環(huán)境”的樸素知識(shí)和模型,可以讓人基于此對(duì)事物的發(fā)展進(jìn)行快速模擬和預(yù)測(cè)。有關(guān)人類常識(shí)問(wèn)題的解決,可以為人工智能技術(shù)帶來(lái)革命性的進(jìn)展。
由上述分析可見,從人工智能的視角去看待問(wèn)題,有助于充分理解人類智能的優(yōu)越所在。這不僅讓我們能辨析哪些方向的心理學(xué)研究對(duì)當(dāng)前科技的發(fā)展會(huì)有所促進(jìn),更重要的是,作為檢視心理學(xué)的一面鏡子,人工智能讓心理學(xué)工作者把握計(jì)算問(wèn)題的關(guān)鍵和難點(diǎn)所在,從而明確探究心理機(jī)制的著力點(diǎn)。在技術(shù)迅猛發(fā)展的背景下,人工智能無(wú)法匹敵的能力,往往也正反映了人類心智的精華。我們將這一精華定義為“強(qiáng)認(rèn)知”。
筆者認(rèn)為,心理學(xué)研究應(yīng)更積極地以“強(qiáng)認(rèn)知”為取向。這要求心理學(xué)工作者,在正確理解計(jì)算理論的基礎(chǔ)上,重點(diǎn)關(guān)注人類在面對(duì)各種復(fù)雜計(jì)算問(wèn)題時(shí)超越機(jī)器的“聰明”之處,而不是滿足于揭示人類面對(duì)各種簡(jiǎn)單問(wèn)題時(shí)所表現(xiàn)出的“愚蠢”(即“弱認(rèn)知”)。我們并非要否定“弱認(rèn)知”研究的重要性:弗洛伊德對(duì)“無(wú)意識(shí)”的揭示(Freud,1949)是現(xiàn)代心理學(xué)的開端;卡尼曼對(duì)人類“非理性”的研究(Kahneman & Tversky,1979)為心理學(xué)贏得了學(xué)術(shù)界的最高榮譽(yù)“諾貝爾獎(jiǎng)”。我們所主張的重點(diǎn)是,任何人類智能的局限性與消極面,都應(yīng)置于“人為萬(wàn)物之靈”的背景下加以考慮。人類是地球40億年進(jìn)化史上最為智能的物種:人類的智慧突破了感官的局限,揭示了牛頓三定律、元素周期律與進(jìn)化法則等一系列科學(xué)規(guī)律;人類的智慧還讓我們的身體擺脫引力的束縛,進(jìn)入太空,登上月球。因此,如果心理學(xué)的研究?jī)H關(guān)注于人的局限,則始終無(wú)法回答這些“揭示世界運(yùn)行規(guī)律”、“改變世界發(fā)展進(jìn)程”的創(chuàng)舉是如何由人的認(rèn)知活動(dòng)而產(chǎn)生的,也注定無(wú)法對(duì)人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等相關(guān)學(xué)科產(chǎn)生積極的引領(lǐng)作用,進(jìn)而限制了心理學(xué)的社會(huì)影響力。
更為重要的是,缺乏對(duì)計(jì)算理論的理解與把握,很可能會(huì)使心理學(xué)工作者將“強(qiáng)認(rèn)知”誤認(rèn)為“弱認(rèn)知”,從而讓認(rèn)知研究南轅北轍。以筆者熟悉的視知覺(jué)為例,過(guò)去30年關(guān)于人類視知覺(jué)的大量研究成果表明,人類的視覺(jué)加工資源極為有限:例如注意瞬脫(attentional blink;Shapiro,Raymond,& Arnell,1997)、變化盲(change blindness;Simons & Levin,1997)、工作記憶(working memory;Baddeley,1992)的容量限制(Cowan,2012;Luck & Vogel,2013)、多客體追蹤(multiple-object tracking;Sears & Pylyshyn,2000)的目標(biāo)數(shù)量限制(Cavanagh & Alvarez,2000)。如果缺乏對(duì)“強(qiáng)認(rèn)知”的自覺(jué)及對(duì)計(jì)算理論的理解,很容易得出人類的知覺(jué)被層層鐐銬所束縛的“弱認(rèn)知”判斷。相反,如果對(duì)人工智能及計(jì)算機(jī)視覺(jué)有所了解,就會(huì)得出完全相反的“強(qiáng)認(rèn)知”判斷。因?yàn)槿祟惢谌绱酥俚挠?jì)算資源,仍能近乎完美地實(shí)現(xiàn)對(duì)視覺(jué)場(chǎng)景從局部到整體、從具體事例到抽象概念的實(shí)時(shí)加工。這是任何人工智能及機(jī)器視覺(jué)系統(tǒng),在耗費(fèi)了大量的計(jì)算資源(無(wú)任何注意、記憶、追蹤限制,可調(diào)用大量GPU做并行計(jì)算)的條件下,都無(wú)法達(dá)成的壯舉。人類計(jì)算資源的局限必然意味著認(rèn)知算法的優(yōu)越。如果心理學(xué)工作者能跳出對(duì)資源限制本身的關(guān)注,而揭示其在有限資源下高效運(yùn)行的計(jì)算原理,那么將對(duì)人工智能和機(jī)器視覺(jué)產(chǎn)生巨大的推動(dòng)作用。心理學(xué)在與多學(xué)科的合作與競(jìng)爭(zhēng)中的強(qiáng)勢(shì)地位也可望得以確立。
為了推動(dòng)“強(qiáng)認(rèn)知”取向的心理學(xué)研究,重新認(rèn)識(shí)計(jì)算理論作為心理學(xué)理論基礎(chǔ)和理論工具的重要性,把握當(dāng)代計(jì)算理論的最新趨勢(shì),顯得尤為重要。筆者將與心理學(xué)密切相關(guān)的計(jì)算科學(xué)領(lǐng)域新近成熟的思想和技術(shù)歸納為以下幾方面:
(1)產(chǎn)生式計(jì)算模型。與傳統(tǒng)辨別式計(jì)算不同,產(chǎn)生式計(jì)算是一種自上而下的計(jì)算方式,與心理學(xué)中的構(gòu)建概念類似。它可以實(shí)現(xiàn)基于少數(shù)樣本的學(xué)習(xí)(人工智能一大難題),通過(guò)幾個(gè)甚至一個(gè)樣例就可習(xí)得概念,并舉一反三產(chǎn)生出同類刺激。該特性與人類(尤其是兒童)的學(xué)習(xí)特點(diǎn)極為相似(Lake,Salakhutdinov,& Tenenbaum,2015)。因此,產(chǎn)生式模型在心理學(xué)領(lǐng)域最成功的應(yīng)用體現(xiàn)為對(duì)兒童概念學(xué)習(xí)的建模,已有研究近乎完美地模擬了兒童由具體對(duì)象習(xí)得抽象概念的過(guò)程,并建立了概念間的層次表征(Hamlin,Ullman,Tenenbaum,Goodman,& Baker,2013;Kemp,Perfors,& Tenenbaum,2004)。
(2)以貝葉斯推理為代表的逆向推理技術(shù)。此類技術(shù)可以幫助我們實(shí)現(xiàn)對(duì)不確定問(wèn)題的逆向求解,其核心思想是,猜測(cè)什么原因最有可能導(dǎo)致目前狀態(tài)的結(jié)果。該技術(shù)可用于解釋人類心理理論,即通過(guò)對(duì)個(gè)體行為的觀察,尋找最有可能產(chǎn)生當(dāng)前觀測(cè)行為的內(nèi)部因素,從而理解他人的心理狀態(tài)(Ondobaka,Kilner,& Friston,2015)。此外,貝葉斯技術(shù)在心理學(xué)其他領(lǐng)域,如眼跳和注意(Chikkerur,Serre,Tan,& Poggio,2010;Hoffman,Grimes,Shon,& Rao,2006;Mihali,van Opheusden,& Ma,2015)、決策(Krynski,& Tenenbaum,2007)、記憶表征(Turner,Dennis,& Van Zandt,2013)等課題的心理建模中均有成功應(yīng)用。
(3)深度學(xué)習(xí)。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)技術(shù)不同,深度學(xué)習(xí)將抽象問(wèn)題分解為多個(gè)層次加以學(xué)習(xí),極大地提高了神經(jīng)網(wǎng)絡(luò)的計(jì)算效率。借助于深度學(xué)習(xí)技術(shù),機(jī)器在圖像識(shí)別和分類(Krizhevsky,Sutskever,& Hinton,2012)、主題和語(yǔ)句識(shí)別(Cho,Memisevic,& Bengio,2015)等任務(wù)中均有接近于人類的出色表現(xiàn)。深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)本質(zhì)上是數(shù)據(jù)驅(qū)動(dòng)的辨別式模型。辨別式模型和產(chǎn)生式模型在績(jī)效上均有不俗的表現(xiàn),但同時(shí)也存在各自的缺陷或不足。前者需要大量數(shù)據(jù)的驅(qū)動(dòng),而后者則在構(gòu)建合適的產(chǎn)生和推論規(guī)則時(shí)存在一定困難。新近有研究指出,兩類模型可以加以結(jié)合,從而得到更優(yōu)的效果(Jampani,Nowozin,Loper,& Gehler,2014)。這種結(jié)合算法有望在很大程度上逼近人類自上而下與自下而上過(guò)程協(xié)同運(yùn)作的心理加工模式。
上述計(jì)算科學(xué)的新進(jìn)展,使人工智能表現(xiàn)出人類問(wèn)題解決的特征成為可能,從而拉近了人工智能與心理學(xué)的距離。這些思想和技術(shù)也可以通過(guò)認(rèn)知建模應(yīng)用于心理學(xué)研究,成為構(gòu)建心理學(xué)理論的工具,以推動(dòng)心理學(xué)的加速發(fā)展。沿著該路徑發(fā)展的心理學(xué)理論必將更利于應(yīng)用,因?yàn)槠淅碚摫旧砑床捎糜?jì)算模型表達(dá),可以很自然地與人工智能無(wú)縫對(duì)接,從而實(shí)現(xiàn)心理學(xué)理論研究與社會(huì)應(yīng)用的高度統(tǒng)一。最核心的心理學(xué)理論問(wèn)題恰恰能釋放出對(duì)現(xiàn)代產(chǎn)業(yè)最大的推動(dòng)力量。結(jié)合最新計(jì)算科學(xué)技術(shù)的心理建模研究,可望在人工智能多個(gè)領(lǐng)域取得突破性進(jìn)展:如跨情境的機(jī)器視覺(jué)、具有獲取規(guī)律能力的學(xué)習(xí)機(jī)、具有社交智能的社會(huì)機(jī)器人、可靈活處理復(fù)雜路況的無(wú)人駕駛。
綜上所述,借當(dāng)前人工智能快速發(fā)展的東風(fēng),發(fā)展“強(qiáng)認(rèn)知”取向的心理學(xué),既有助于心理學(xué)在重大理論問(wèn)題上取得突破,又可與高新科技領(lǐng)域的應(yīng)用實(shí)現(xiàn)更緊密的結(jié)合,以促進(jìn)其加速發(fā)展。
知識(shí)核.(2016,Apirl 02).為什么AlphaGo的下一個(gè)對(duì)手是星際爭(zhēng)霸2.[Web log post].Retrieved from http://mp.weixin.qq.com/s?__biz=MzIyMDI1MTI2NA==&mid=402457734&idx=2&sn=f37b884440306bfb79fdb8fff8fcec11
Baddeley,A.(1992).Working memory.Science,255(5044),556-559.
Bellman,R.(1954).The theory of dynamic programming(No.RAND-P-550).RAND CORP SANTA MONICA CA.
Bellman,R.(1957).Dynamic Programming Princeton University Press.Princeton,NJ.
Cavanagh,P.,& Alvarez,G.A.(2005).Tracking multiple targets with multifocal attention.TrendsinCognitiveSciences,9(7),349-354.
Chikkerur,S.,Serre,T.,Tan,C.,& Poggio,T.(2010).What and where:A bayesian inference theory of attention.VisionResearch,50(22),2233-2247.
Cho,S.J.K.,Memisevic,R.,& Bengio,Y.(2015).On using very large target vocabulary for neural machine translation.
Cowan,N.(2012).Working memory capacity.Psychology Press.
Freud,S.(1949).Abriβ der Psychoanalyse-An Outline of Psycho-Analysis.
Hamlin,J.K.,Ullman,T.,Tenenbaum,J.,Goodman,N.,& Baker,C.(2013).The mentalistic basis of core social cognition:Experiments in preverbal infants and a computational model.DevelopmentalScience,16(2),209-226.
Hoffman,M.W.,Grimes,D.B.,Shon,A.P.,& Rao,R.P.N.(2006).A probabilistic model of gaze imitation and shared attention.NeuralNetworkstheOfficialJournaloftheInternationalNeuralNetworkSociety,19(3),299-310.
Jampani,V.,Nowozin,S.,Loper,M.,& Gehler,P.V.(2014).The informed sampler:A discriminative approach to bayesian inference in generative computer vision models.arXivpreprintarXiv:1402.0859.
Kahneman,D.,& Tversky,A.(1979).Prospect theory:An analysis of decision under risk.Econometrica:JournaloftheEconometricSociety,263-291.
Kemp,C.,Perfors,A.,& Tenenbaum,J.B.(2004).Learning domain structures.InProceedingsofthe26thannualconferenceoftheCognitiveScienceSociety(pp.672-677).
Krizhevsky,A.,Sutskever,I.,& Hinton,G.E.(2012).Imagenet classification with deep convolutional neural networks.InAdvancesinneuralinformationprocessingsystems(pp.1097-1105).
Krynski,T.R.,& Tenenbaum,J.B.(2007).The role of causality in judgment under uncertainty.JournalofExperimentalPsychology:General,136(3),430-450.
Kurzweil,R.(2005).Thesingularityisnear:Whenhumanstranscendbiology.Penguin.
Lake,B.M.,Salakhutdinov,R.,& Tenenbaum,J.B.(2015).Human-level concept learning through probabilistic program induction.Science,350(6266),1332-1338.
Luck,S.J.,& Vogel,E.K.(2013).Visual working memory capacity:From psychophysics and neurobiology to individual differences.TrendsinCognitiveSciences,17(8),391-400.
Mihali,A.,van Opheusden,B.,& Ma,W.J.(2015).A Bayesian model for microsaccade detection.JournalofVision,15(12),1275-1275.
Mnih,V.,Kavukcuoglu,K.,Silver,D.,Rusu,A.A.,Veness,J.,Bellemare,M.G.,...& Petersen,S.(2015).Human-level control through deep reinforcement learning.Nature,518(7540),529-533.
Ondobaka,S.,Kilner,J.,& Friston,K.(in press).The role of interoceptive inference in theory of mind.Brain&Cognition.
Ponzo,M.(1910).Intornoadalcuneillusioninel campo dellesensazionitattilisull'illusione di Aristotele e fenomenianaloghi.ArchivfürdieGesamtePsychologie,16,307-345.
Sears,C.R.,& Pylyshyn,Z.W.(2000).Multiple object tracking and attentional processing.CanadianJournalofExperimentalPsychology/RevueCanadiennedePsychologieExperimentale,54(1),1-14.
Shapiro,K.L.,Raymond,J.E.,& Arnell,K.M.(1997).The attentional blink.TrendsinCognitiveSciences,1(8),291-296.
Silver,D.,Huang,A.,Maddison,C.J.,Guez,A.,Sifre,L.,van den Driessche,G.,...& Dieleman,S.(2016).Mastering the game of Go with deep neural networks and tree search.Nature,529(7587),484-489.
Simons,D.J.,& Levin,D.T.(1997).Change blindness.TrendsinCognitiveSciences,1(7),261-267.
Turner,B.M.,Dennis,S.,& Van Zandt,T.(2013).Likelihood-free Bayesian analysis of memory models.PsychologicalReview,120(3),667.
Abstract
Inspired by the recent event that AlphaGo defeated the human world champion—Lee SeDol on the Go games,the present article discusses the implications of fast-evolving artificial intelligence (AI) research for psychological studies,based on the comparison between human intelligence and the currently most advanced AI that AlphaGo represents.We highlight several computational problems that humans are quite capable of solving which AI could not handle,to emphasize the importance of continued efforts on the advantageous aspects (rather than the disadvantageous aspects and limits) of human intelligence in future psychological studies.We are convinced that computational sciences are essential to build theories about the core cognitive mechanisms that make humans highly intelligent.This research orientation,we assert,will facilitate the development of psychology from being qualitative to being quantitative,and from phenomena to theories.Consequently,relevant research findings will demonstrate their unique values in the context of interdisciplinary interaction with AI,machine learning and neural sciences.Here,we name such a research orientation in psychology focusing on the advantageous aspects of human intelligence as “strong-cognition”.
The “Strong-Cognition” Psychology Research:Implications of AlphaGo
ZHOU Ji-fanXU Hao-kuiTANG NingSHI Bo-haoZHAO YangGAO TaoSHEN Mo-wei
(Department of Psychology and Behavioral Science,Hangzhou 310028,China)
strong cognition,artificial intelligence,cognitive psychology,AlphaGo,theory of computation
國(guó)家自然科學(xué)基金項(xiàng)目(31571119,61431015)和中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助(2015QNA3021)。
B84-05
A
1006-6020(2016)-01-0003-09
**通信作者:高濤,男,博士,麻省理工大學(xué)博士后,E-mail:taogao@mit.edu。
***通信作者:沈模衛(wèi),男,博士,浙江大學(xué)教授,E-mail:mwshen@zju.edu.cn。