程少哲 史博皓 趙 陽(yáng) 徐昊骙 唐 寧 高 濤 周吉帆沈模衛(wèi)
(浙江大學(xué)心理與行為科學(xué)系,杭州310028)
對(duì)注意的再思考:一個(gè)注意的強(qiáng)化學(xué)習(xí)模型*
程少哲 史博皓 趙 陽(yáng) 徐昊骙 唐 寧 高 濤 周吉帆**沈模衛(wèi)**
(浙江大學(xué)心理與行為科學(xué)系,杭州310028)
本文在分析總結(jié)現(xiàn)有注意理論的基礎(chǔ)上,假設(shè)注意是一種信息選擇現(xiàn)象,而非心理結(jié)構(gòu)或資源。通過(guò)借鑒人工智能領(lǐng)域強(qiáng)化學(xué)習(xí)算法的思想,筆者提出了一種可以表現(xiàn)出注意現(xiàn)象的人類強(qiáng)化學(xué)習(xí)模型。該模型描述了人與環(huán)境交互的過(guò)程:人接受環(huán)境的反饋,根據(jù)自身心理狀態(tài)調(diào)整行為策略,以最大化所獲收益。該過(guò)程中,注意體現(xiàn)為高價(jià)值信息逐漸獲得優(yōu)先加工的現(xiàn)象。因此,本文對(duì)注意的本質(zhì)進(jìn)行了重新思考,為未來(lái)注意研究提供了新思路。
注意 強(qiáng)化學(xué)習(xí) 計(jì)算模型 人工智能
日常生活中,每時(shí)每刻都有大量相關(guān)和無(wú)關(guān)的信息通過(guò)各種感覺通道進(jìn)入大腦,認(rèn)知系統(tǒng)可以有效地忽略無(wú)關(guān)信息,執(zhí)行有效的認(rèn)知加工。這種將認(rèn)知加工聚焦于部分信息的機(jī)制通常被心理學(xué)家稱為注意(Kinchla,1992;Buschman&Kastner,2015)。正像James(1890)曾說(shuō)過(guò)的“每個(gè)人都知道注意是什么”,人人都擁有對(duì)注意清晰的主觀體驗(yàn),我們卻難以給它下一個(gè)明確的學(xué)術(shù)定義。研究者們對(duì)注意的描述和解釋,往往需要通過(guò)各種隱喻來(lái)完成。早期的研究者將注意比作過(guò)濾器(Broadbent,1958),認(rèn)為注意的主要作用是以“全或無(wú)”的方式對(duì)信息進(jìn)行選擇。該理論得到雙耳分聽實(shí)驗(yàn)(Cherry,1953)的支持,只有那些從追隨耳進(jìn)入受到注意的信息得到了進(jìn)一步加工。后續(xù)研究發(fā)現(xiàn),非追隨耳中呈現(xiàn)的人名等有特殊意義的刺激也能捕獲注意,表明注意并非以嚴(yán)格的全或無(wú)方式過(guò)濾信息,而是以相對(duì)溫和的衰減器(Treisman,1960)方式調(diào)節(jié)輸入信息的強(qiáng)度。另有研究者認(rèn)為,注意選擇是發(fā)生在反應(yīng)階段而非感知覺加工階段,并據(jù)此提出了反應(yīng)選擇模型(Deutsch&Deutsch,1963)。視覺注意的研究者們對(duì)注意所做的比喻則更具視覺特色,將其比喻成聚光燈(spotlight)(Posner,1980;LaBerge,1983)、變焦鏡(zoom-lens)(Eriksen&Yeh,1985)等。這類模型認(rèn)為視覺注意存在一個(gè)焦點(diǎn),在焦點(diǎn)附近的信息會(huì)獲得更好的加工。上述各類注意的隱喻理論表明,注意具有加工瓶頸的特點(diǎn),同時(shí)暗示注意是一種選擇“裝置”,屬于信息加工系統(tǒng)中的一部分,負(fù)責(zé)將認(rèn)知加工引導(dǎo)至某些特定信息。
上述理論試圖解釋注意的作用,而另一些理論則致力于回答“為何需要對(duì)信息進(jìn)行選擇”。該問題的一個(gè)簡(jiǎn)單而直觀的答案是,認(rèn)知資源是有限的,因此只能選擇部分信息深入加工。Kahneman(1973)的注意資源理論認(rèn)為,注意是用于執(zhí)行認(rèn)知任務(wù)的有限的資源,注意資源的調(diào)用與喚醒水平緊密聯(lián)系。由于注意資源總體有限,認(rèn)知任務(wù)只能在受限的范圍內(nèi)進(jìn)行。在過(guò)去的30年中,注意資源說(shuō)一直在變化盲(change blindness)(Simons&Levin,1997)和非注意視盲(inattentional blindness)(Simons&Chabris,1999)等實(shí)驗(yàn)的解釋中占據(jù)一席之地。這些對(duì)各類明顯的視覺刺激和變化視而不見的現(xiàn)象,往往被歸因于在認(rèn)知資源有限的條件下目標(biāo)刺激未得到充分的認(rèn)知加工。隨后的研究則進(jìn)一步將注意資源進(jìn)行了細(xì)分,提出了基于客體的、空間的和特征的注意等概念(Kastner,Pinsk,Weerd,Desimone,&Ungerleider,1999;Mc-Adams&Maunsell,1999;Moran&Desimone,1985;Treue&Martinez-Trujillo,1999;Maunsell&Treue,2006;Duncan,1984;O’Craven et al.,1999)。大量研究表明,不同類型的注意資源對(duì)執(zhí)行相應(yīng)任務(wù)的績(jī)效存在特異性(e.g.,Shen,Huang,&Gao,2015;Gao,et al,2016)。
可見,當(dāng)前心理學(xué)中的主流注意理論都將注意視為執(zhí)行信息選擇的心理結(jié)構(gòu),或認(rèn)知資源,成功解釋了許多與注意相關(guān)的實(shí)驗(yàn)現(xiàn)象。然而,注意理論的天空中卻長(zhǎng)期飄著幾朵“烏云”——各種注意理論均存在一些懸而未決的問題。例如,注意的聚光燈隱喻實(shí)際上是意識(shí)劇場(chǎng)隱喻的一個(gè)變種,若將注意比作聚光燈,那么是誰(shuí)在觀看燈下照亮的場(chǎng)景,又是誰(shuí)在控制聚光燈的焦點(diǎn)?追問之下,這種隱喻似乎意味著意識(shí)小人(conscious homunculus)的存在,它控制了我們的注意,產(chǎn)生了我們的主觀體驗(yàn)。那么問題就變成意識(shí)小人如何控制注意,以及小人頭腦里是否存在另一個(gè)小人以實(shí)現(xiàn)控制過(guò)程,最終將陷入小人謬誤(homunculus fallacy)的陷阱中(Richard&Gregory,1987)。類似的困境也存在于過(guò)濾器等隱喻中,這些理論雖然解釋了注意的作用,卻隱含地假設(shè)存在著一個(gè)本身難以解釋的信息選擇主體。注意的資源說(shuō)則面臨著另外一個(gè)問題,即資源究竟是什么。在注意資源說(shuō)的表述中,注意資源似乎是萬(wàn)能的,它可以加快加工速度、提高加工精度和準(zhǔn)確性、導(dǎo)致更好更持久的記憶。此外,這種資源可以自由分配于各種不同的加工通道和加工階段,甚至它們共享同一個(gè)資源池,例如工作記憶與知覺共享注意資源(Cowan,1988)。然而,如此萬(wàn)金油般的“資源”似乎既未找到對(duì)應(yīng)的生理機(jī)制,也未得到計(jì)算理論的支持。此外,有關(guān)注意資源理論關(guān)鍵的研究問題應(yīng)該是,為何注意資源可以如此萬(wàn)能地幫助執(zhí)行各種不同心理過(guò)程。該問題尚未獲得令人滿意的答案。上述理論困境促使我們反思——將注意看作客觀存在的心理結(jié)構(gòu)或資源是否正確。
解決上述困境大致存在兩條途徑:其一是繼續(xù)推進(jìn)現(xiàn)有理論框架下的研究,嘗試解決原有假設(shè)中存在的問題;其二是重新思考注意的本質(zhì),擺脫可能導(dǎo)致問題的舊假設(shè),從新的基本假設(shè)出發(fā)理解注意。筆者認(rèn)為,一種可能的假設(shè)是,注意是某些心理加工過(guò)程表現(xiàn)出來(lái)的一種現(xiàn)象?;煜耸挛飪?nèi)部本質(zhì)與其外在現(xiàn)象的例子在自然科學(xué)其他領(lǐng)域也并不罕見。例如,人類歷史上長(zhǎng)期將火看作是一種基本元素,認(rèn)為木頭燃燒釋放火元素后變成了灰(主要為土元素)。直到近代化學(xué)誕生后,人們才逐漸認(rèn)識(shí)到火是劇烈氧化反應(yīng)伴隨的發(fā)光發(fā)熱現(xiàn)象。之所以在不同的古代文明里火都被認(rèn)為是基本元素,很大程度上是因?yàn)榛鹁哂絮r明的視覺形象:木頭燃燒過(guò)程中熊熊的火焰清晰可見,但氧氣的介入和二氧化碳的釋放卻看不見。這種“眼見為實(shí)”的感覺使火看起來(lái)像一種客觀存在的物質(zhì)。與之類似,我們對(duì)注意過(guò)程有明確的主觀覺知,但僅因此就將其視為客觀存在的心理結(jié)構(gòu)或資源可能不利于揭示其本質(zhì)。當(dāng)代心理學(xué)已經(jīng)發(fā)現(xiàn)大多數(shù)心理過(guò)程可以在無(wú)意識(shí)狀態(tài)下進(jìn)行;而且存在各種各樣的錯(cuò)覺,抑或是虛假的主觀體驗(yàn)。因此,注意有可能是某些心理過(guò)程(大部分是意識(shí)不到的)所伴隨的現(xiàn)象,這種現(xiàn)象在客觀上體現(xiàn)為對(duì)信息的選擇性加工,在主觀上體驗(yàn)到精神集中狀態(tài)和主體控制感。那么,研究的關(guān)鍵就不是解釋現(xiàn)象本身,而是揭示造成該現(xiàn)象的原因,即考察導(dǎo)致注意現(xiàn)象的心理過(guò)程。
根據(jù)上述假設(shè),注意研究的主要任務(wù)是描述一種可以表現(xiàn)出信息選擇現(xiàn)象的心理過(guò)程。要揭示這種心理過(guò)程的本質(zhì),不妨從信息本身入手,思考“認(rèn)知系統(tǒng)選擇了什么信息”和“信息選擇的目的為何”兩個(gè)問題。事實(shí)上,已有學(xué)者提出類似觀點(diǎn),并從上述兩個(gè)問題出發(fā)構(gòu)建理論模型。例如Krauzlis等人認(rèn)為注意不過(guò)是一種現(xiàn)象,是決策過(guò)程中為了獲得更大價(jià)值所帶來(lái)的副產(chǎn)品,注意是決策過(guò)程的結(jié)果而不是原因(Krauzlis,Bollimunta,Arcizet,&Wang,2014)。根據(jù)這種觀點(diǎn),認(rèn)知系統(tǒng)選擇了對(duì)于當(dāng)前決策而言具有高價(jià)值的信息,信息選擇的目的是為了價(jià)值的最大化。這種基于價(jià)值的信息選擇機(jī)制和策略的形成可能是學(xué)習(xí)的結(jié)果,它一部分是人類進(jìn)化形成的,另一部分則是個(gè)體后天習(xí)得的。研究發(fā)現(xiàn),剛出生的嬰兒就表現(xiàn)出對(duì)生命信息(例如人臉和言語(yǔ))的注意偏好(Frank,Vul,&Johson,2008),表明這種選擇機(jī)制可能是一種進(jìn)化形成的特性(Haladjian&Montemayor,2015);同時(shí)與成人比較,嬰兒的注意在完成特定任務(wù)時(shí)還略顯“稚嫩”:如果將成人的注意比作聚光燈,能快速聚焦于關(guān)鍵客體,那么嬰兒的注意更像一盞燈籠(Gopnick,2009),更為擴(kuò)散和隨意。一項(xiàng)有關(guān)兒童學(xué)習(xí)的研究發(fā)現(xiàn),4歲兒童在學(xué)習(xí)類別概念時(shí),容易被新異的刺激所吸引而忽略客體的關(guān)鍵信息;6歲兒童的注意與成人基本相同,能快速地注意到那些決定物體類別的關(guān)鍵特征(Sloutsky,2016)。上述結(jié)果表明,選擇性注意是動(dòng)態(tài)發(fā)展的,而且可能是在與復(fù)雜環(huán)境的交互中習(xí)得的。在一系列基于價(jià)值的學(xué)習(xí)過(guò)程中,認(rèn)知系統(tǒng)完成了從信息無(wú)區(qū)別加工到有選擇加工的轉(zhuǎn)變,被選擇的這部分信息可使利益最大化。
人類受價(jià)值驅(qū)動(dòng)的行為有著深遠(yuǎn)的生態(tài)意義,與行為相聯(lián)系的獎(jiǎng)賞直接影響著人們的注意捕獲和視覺工作記憶(Anderson,Laurent,&Yantis,2011;Gong&Li,2014)。而最大化行為效用,也是人類智能和機(jī)器智能共同追求的目標(biāo)(Gershman,Horvitz,&Tenenbaum,2015;Jara-Ettinger,Gweon,Schulz,&Tenenbaum,2016)。為了獲得更大的價(jià)值,人們往往在內(nèi)部心理狀態(tài)(包括知識(shí)、信念、動(dòng)機(jī)、目標(biāo)等)影響下加工輸入信息形成心理表征,并根據(jù)心理表征做出行為反應(yīng),獲得相應(yīng)的反饋。在行為—反饋的不斷交互中,為最大化行為所帶來(lái)的獎(jiǎng)賞,我們逐漸習(xí)得了信息選擇性加工的策略。這種過(guò)濾信息的屬性,是我們?cè)趦?yōu)化行為決策時(shí)表現(xiàn)出的一種必然結(jié)果,是我們?cè)诿鎸?duì)復(fù)雜世界時(shí)高效學(xué)習(xí)的產(chǎn)物。這種通過(guò)以追求最大效益為目的的注意學(xué)習(xí)過(guò)程,與當(dāng)前人工智能領(lǐng)域最為先進(jìn)有效的算法——強(qiáng)化學(xué)習(xí)的基本思想完全一致。因此,我們認(rèn)為注意背后的心理本質(zhì)是基于行為價(jià)值的強(qiáng)化學(xué)習(xí)過(guò)程,注意是該學(xué)習(xí)過(guò)程表現(xiàn)出的信息選擇現(xiàn)象,以強(qiáng)化學(xué)習(xí)算法為核心的計(jì)算模型可以解釋人的動(dòng)態(tài)注意。該模型將在本文第三部分具體展開,在此之前,有必要回顧現(xiàn)有關(guān)于注意的計(jì)算模型。
傳統(tǒng)的注意計(jì)算模型,主要關(guān)注自下而上的注意,描述環(huán)境中那些突出、新異的刺激如何捕獲人們的注意。例如Itti等人(1998,2001)的顯著性地圖模型。近來(lái),也有研究者把注意當(dāng)作一種自上而下的推理過(guò)程(Vul,Hanus,&Kanwisher,2009),采用貝葉斯技術(shù)描述具體視覺場(chǎng)景下的注意分布。下面簡(jiǎn)要介紹這兩方面的計(jì)算建模工作。
2.1 自下而上的注意模型
自下而上注意的計(jì)算模型中,顯著性地圖(Saliency Map)占據(jù)了主流地位。該模型認(rèn)為,那些與背景差異顯著的區(qū)域會(huì)自動(dòng)吸引注意。受到特征整合理論的啟發(fā),這類方法從圖像的低層信息,例如亮度、顏色、朝向中提取特征,并將其整合到顯著性地圖上,從中尋找高對(duì)比的區(qū)域作為注意的焦點(diǎn)。簡(jiǎn)言之,該方法旨在尋找圖像背景(context)中含有不尋常特征的位置。顯著性算法主要借鑒了人類視覺感受神經(jīng)元的反應(yīng)原理。此類神經(jīng)元僅在其感受野中心與周圍信號(hào)有明顯差異時(shí)開始放電,即當(dāng)輸入圖像上該點(diǎn)突顯于背景時(shí)神經(jīng)元激活。顯著性地圖模型中就采用了對(duì)顏色、亮度、朝向等特征差異敏感的人工“神經(jīng)元”形成初級(jí)的特征地圖。
2.2 自上而下的注意模型
除了視覺刺激本身的特征外,注意還會(huì)受到人們不同的先驗(yàn)知識(shí)、任務(wù)需求、動(dòng)機(jī)等內(nèi)部心理狀態(tài)的影響。對(duì)于這種自上而下的注意,已有大量的心理學(xué)研究考察其認(rèn)知機(jī)制(Yarbus,1967;Giesbrecht,Woldorff,Song,&Mangun,2003),然而解釋其具體運(yùn)作方式的計(jì)算模型仍較為罕見。近來(lái)有學(xué)者提出用貝葉斯推理過(guò)程描述自上而下的注意,并得到實(shí)驗(yàn)證據(jù)的支持(Vul,Hanus,&Kanwisher,2009;Chikkerur,Serre,Tan,&Poggio,2010;Borji,Sihite,&Itti,2014)。這些模型的基本假設(shè)是,注意是與個(gè)體感覺—運(yùn)動(dòng)協(xié)作(sensory-motor coordination)緊密聯(lián)系的:任一時(shí)刻對(duì)場(chǎng)景中客體的注意影響當(dāng)前時(shí)刻的行為,并且該時(shí)刻的注意會(huì)影響下一時(shí)刻的注意;此外,注意還會(huì)受到個(gè)體當(dāng)前時(shí)刻的心理狀態(tài)以及場(chǎng)景特征的影響。各種影響因素以貝葉斯網(wǎng)絡(luò)的方式共同作用,動(dòng)態(tài)決定注意分布。
2.3 當(dāng)前計(jì)算模型的局限
在顯著性地圖模型中,“顯著性”僅由刺激的物理屬性定義,忽略了注意的心理屬性,知識(shí)、期望、目標(biāo)等內(nèi)在心理過(guò)程并未參與其中。而基于貝葉斯理論的注意模型加入了上述心理變量,將注意描述成一個(gè)向前推理的過(guò)程。然而,此類模型與傳統(tǒng)心理學(xué)理論相同,假設(shè)了一個(gè)獨(dú)立的計(jì)算模塊執(zhí)行信息選擇過(guò)程,仍然未能徹底回答注意選擇是如何產(chǎn)生的,以及為何需要進(jìn)行注意選擇。
與之前的理論和模型不同的是,我們的模型并未假設(shè)特殊的計(jì)算結(jié)構(gòu)用以實(shí)現(xiàn)信息的選擇,而僅僅描述了一個(gè)強(qiáng)化學(xué)習(xí)的過(guò)程。在智能體與環(huán)境交互情境中,為了最大化價(jià)值反饋,強(qiáng)化學(xué)習(xí)過(guò)程可以自然表現(xiàn)出一系列行為策略的動(dòng)態(tài)調(diào)整和信息的選擇性加工現(xiàn)象。
模型結(jié)構(gòu)如圖1所示,在一個(gè)強(qiáng)化學(xué)習(xí)的環(huán)境中,人(或智能體)當(dāng)前的狀態(tài),由感知覺信息和先驗(yàn)知識(shí)共同構(gòu)成。在該狀態(tài)下,人們做出行為,獲得相應(yīng)的價(jià)值反饋。此后,根據(jù)獲得的反饋,改變自身心理狀態(tài),從而調(diào)節(jié)行為策略(π),不斷循環(huán)往復(fù)。在一系列的狀態(tài)—行為轉(zhuǎn)換過(guò)程中,由于個(gè)體行為發(fā)生改變,環(huán)境給個(gè)體的輸入信息也會(huì)隨之發(fā)生改變。為了得到更多的累積價(jià)值,行為策略將逐漸收斂至那些能帶來(lái)較多期望價(jià)值的“最優(yōu)化”策略,輸入的信息中具有較高價(jià)值的部分也會(huì)逐漸獲得優(yōu)先加工。該過(guò)程中表現(xiàn)出的過(guò)濾信息、選擇性反應(yīng)的現(xiàn)象,便是注意。在該框架下,注意自上而下和自下而上的過(guò)程可以分別由強(qiáng)化學(xué)習(xí)中基于模型和無(wú)模型的兩類算法實(shí)現(xiàn)。下面依次介紹強(qiáng)化學(xué)習(xí)及有/無(wú)模型的兩類學(xué)習(xí)算法。
圖1 強(qiáng)化學(xué)習(xí)模型框架
3.1 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(reinforcement learning)是人工智能領(lǐng)域用于解決動(dòng)態(tài)決策問題的一類算法,目的是讓智能體(agent)在與動(dòng)態(tài)環(huán)境的交互中不斷優(yōu)化自己的行為策略,使收到的行為反饋效價(jià)最大化(Sutton&Barto,1998)。強(qiáng)化學(xué)習(xí)算法主要有兩方面的思想基礎(chǔ),一方面是心理學(xué)中行為主義學(xué)派關(guān)于動(dòng)物學(xué)習(xí)的理論(Pavlov,1927;Thorndike,1911);另一方面是數(shù)學(xué)中的優(yōu)化控制理論(Bellman,1957)。動(dòng)物學(xué)習(xí)的研究發(fā)現(xiàn)了效果律(law of effect),揭示了個(gè)體行為與環(huán)境反饋之間的聯(lián)系,即刺激與行為的聯(lián)結(jié)在環(huán)境正反饋的條件下增強(qiáng);而工程實(shí)踐上,貝爾曼方程(Bellman equation)和馬爾科夫決策過(guò)程(Markov decision process,MDP)的發(fā)明,解決了動(dòng)態(tài)決策過(guò)程中優(yōu)化控制的數(shù)學(xué)問題。前者為獎(jiǎng)賞提供了數(shù)學(xué)描述,使強(qiáng)化學(xué)習(xí)可以從數(shù)學(xué)上轉(zhuǎn)化為優(yōu)化控制問題;而后者,則為求解該問題提供了解決方案。
強(qiáng)化學(xué)習(xí)可以表達(dá)為一個(gè)馬爾科夫決策過(guò)程,由狀態(tài)(state)、行為(action)、獎(jiǎng)賞(reward)三個(gè)環(huán)節(jié)構(gòu)成。以視覺注意為例,狀態(tài)表示與注意相關(guān)的心理狀態(tài),包括對(duì)外部視覺刺激的表征和包含先驗(yàn)知識(shí)、自身信念、動(dòng)機(jī)和目標(biāo)的心理模型;行為表示會(huì)影響信息輸入的行為,例如眼動(dòng);獎(jiǎng)賞表示收到的獎(jiǎng)賞信號(hào),即某個(gè)狀態(tài)下收到的正、負(fù)反饋,包括外部反饋(環(huán)境給予的現(xiàn)實(shí)獎(jiǎng)賞)和內(nèi)部反饋(心理獎(jiǎng)賞信號(hào),例如視覺搜索任務(wù)中找到目標(biāo)帶來(lái)的成就感)。在動(dòng)態(tài)決策過(guò)程中,獎(jiǎng)賞由當(dāng)下的即時(shí)反饋和未來(lái)預(yù)期的反饋共同決定。由于MDP的馬爾科夫性質(zhì),即狀態(tài)轉(zhuǎn)移的概率只依賴于前一個(gè)狀態(tài),我們可以用貝爾曼方程以遞歸的方式表達(dá)價(jià)值函數(shù)V:
上述方程中,V函數(shù)表示在t時(shí)刻、s狀態(tài)下作出a行為時(shí)獲得的總價(jià)值,等于t時(shí)刻的收到即時(shí)獎(jiǎng)賞r加上被折扣(γ<1)的未來(lái)(t+1時(shí)刻)獎(jiǎng)賞,其中時(shí)刻間的轉(zhuǎn)移概率由模型P定義;π是強(qiáng)化學(xué)習(xí)產(chǎn)生的行為策略,代表狀態(tài)s到相應(yīng)行為a的映射(此映射可以是決定性的a=π(s)或概率性的π(a|s)=P(At=a|st=s)。強(qiáng)化學(xué)習(xí)的目標(biāo)即是學(xué)到一個(gè)最優(yōu)策略,使得期望的累積反饋?zhàn)畲?。圖2展示了強(qiáng)化學(xué)習(xí)的迭代運(yùn)算過(guò)程,個(gè)體通過(guò)行為與環(huán)境進(jìn)行交互,并接受環(huán)境的信息輸入和獎(jiǎng)賞反饋,根據(jù)反饋的結(jié)果調(diào)節(jié)心理狀態(tài),從而產(chǎn)生新的行為策略。隨著行為策略的改變,環(huán)境給個(gè)體的輸入也發(fā)生有規(guī)律的變化,表現(xiàn)為對(duì)特定信息的有選擇加工。以視覺搜索為例,當(dāng)首注視點(diǎn)視野范圍內(nèi)不存在目標(biāo)時(shí),環(huán)境給予了負(fù)反饋,個(gè)體根據(jù)所獲得的場(chǎng)景信息以及當(dāng)前搜索目標(biāo)信息,猜測(cè)目標(biāo)最有可能出現(xiàn)的位置,決定下一次眼跳落點(diǎn),不斷嘗試直到找到目標(biāo)獲得正反饋。行為現(xiàn)象上,該過(guò)程就表現(xiàn)為眼跳落點(diǎn)逐漸逼近目標(biāo),并受到各種顯著視覺信息的影響。這就是傳統(tǒng)意義上的注意現(xiàn)象,而該現(xiàn)象是可以由一個(gè)并不包含外顯信息選擇裝置的“強(qiáng)化學(xué)習(xí)機(jī)”產(chǎn)生。注意也可以隨著強(qiáng)化學(xué)習(xí)的過(guò)程變得更為高效,當(dāng)為了最大化累積反饋不斷迭代學(xué)習(xí)后,便可以形成較為優(yōu)化的注意策略:自動(dòng)選擇環(huán)境中那些能給我們帶來(lái)更多正反饋的信息。
圖2 強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)過(guò)程
在該模型中,注意所表現(xiàn)出來(lái)的自下而上和自上而下的特性,并不是相互割裂的兩個(gè)系統(tǒng)。如圖2所示,人的狀態(tài)由外部表征和心理模型兩部分構(gòu)成。外部表征是對(duì)外部環(huán)境的表征,由刺激輸入決定;心理模型包括先驗(yàn)知識(shí)和動(dòng)機(jī)、目標(biāo)等內(nèi)在心理狀態(tài),這些潛在的心理狀態(tài)可以由層次概率模型(Tenenbaum,Kemp,Griffiths,&Goodman,2011;Ondobaka,Kilner,&Friston,2015)進(jìn)行抽象表征。自下而上的注意主要是外部表征所起作用的體現(xiàn),而自上而下的注意主要是心理模型所起作用的體現(xiàn)。兩部分在強(qiáng)化學(xué)習(xí)的過(guò)程中相互影響,心理模型基于外部表征評(píng)價(jià)信息的價(jià)值預(yù)測(cè)未來(lái)的反饋,從而決定行為策略,而行為又反過(guò)來(lái)影響信息輸入。
3.2 無(wú)模型和基于模型的強(qiáng)化學(xué)習(xí)
注意作為一種現(xiàn)象,在本模型強(qiáng)化學(xué)習(xí)的語(yǔ)境下是優(yōu)化控制的結(jié)果。其本質(zhì)是智能體為了最大化獎(jiǎng)賞而習(xí)得的一種最優(yōu)策略,它包括行為策略,和由表征方式和心理模型共同決定的內(nèi)部信息加工策略。而解決這個(gè)優(yōu)化控制問題,主要有兩類算法。
第一類我們可以直接從等式(1)左側(cè)的一系列V值中,通過(guò)時(shí)間差(Temporal-Difference;Sutton&Barto,1998)算法直接迭代求得,這種方法被稱為無(wú)模型(Model-Free)的強(qiáng)化學(xué)習(xí),近來(lái)在人工智能領(lǐng)域有著優(yōu)異表現(xiàn)(Mnih et al.,2015);而與之對(duì)應(yīng)是基于模型(Model-Based)的強(qiáng)化學(xué)習(xí),該算法需要首先學(xué)到兩個(gè)關(guān)于環(huán)境的模型,P(st+1|st,at)和P(rt|st),分別代表了我們對(duì)于狀態(tài)和反饋的預(yù)測(cè)。此類模型是關(guān)于世界如何運(yùn)作的一套因果關(guān)系概率描述,運(yùn)用這套模型對(duì)環(huán)境做出預(yù)測(cè),可以幫助優(yōu)化決策。
人類智能優(yōu)于人工智能的一個(gè)重要方面就是人類擅長(zhǎng)構(gòu)建現(xiàn)實(shí)環(huán)境的因果模型。雖然直接從經(jīng)驗(yàn)中學(xué)到獎(jiǎng)賞與狀態(tài)—行動(dòng)關(guān)聯(lián)的無(wú)模型強(qiáng)化學(xué)習(xí)在計(jì)算上較為高效,但在現(xiàn)實(shí)世界中,環(huán)境往往是部分可見(partially observable)且充滿了不確定性,獎(jiǎng)賞信號(hào)可能并不時(shí)常出現(xiàn)。而基于模型的學(xué)習(xí)使我們能從有限的獎(jiǎng)賞經(jīng)歷中學(xué)習(xí)到環(huán)境的知識(shí),并利用這種知識(shí)(模型)幫助我們更好地預(yù)測(cè)環(huán)境,使學(xué)習(xí)過(guò)程可以不必完全依賴現(xiàn)實(shí)反饋,并減少蒙受實(shí)際損失的可能性。這種基于模型的強(qiáng)化學(xué)習(xí)能力往往代表了人類的“強(qiáng)認(rèn)知”能力(Silver et al.,2016;Vigorito&Barto,2010;周吉帆等,2016)。此類能力同時(shí)也體現(xiàn)在注意的控制方面,我們不僅能注意到環(huán)境中那些突出的物理刺激,還能利用已有的知識(shí)控制我們的注意,使那些預(yù)期能帶來(lái)正反饋的信息得到優(yōu)先加工(Li,Delgado,&Phelps,2011)。
近來(lái),計(jì)算視覺、人工智能領(lǐng)域的工程實(shí)踐越來(lái)越多地將注意機(jī)制加入到算法模型中,顯著提升了機(jī)器翻譯、客體識(shí)別、圖片注釋的績(jī)效(Bahdanau,Cho,&Bengio,2014;Mnih et al.,2014;Xu et al.,2015)。此類工作中,注意往往是一個(gè)給定的、擁有聚焦性質(zhì)的模塊,幫助機(jī)器解決學(xué)習(xí)過(guò)程中遇到的維度詛咒(curse of dimensionality)問題,縮小了假設(shè)空間,使一些高度復(fù)雜計(jì)算問題的解決成為可能。然而,當(dāng)前人工智能中所謂的注意選擇往往只依賴于刺激特征與反饋的聯(lián)系,并未涉及因果關(guān)系,因此在面對(duì)場(chǎng)景理解等復(fù)雜問題時(shí),機(jī)器的注意往往顯得不合邏輯(Lake,Ullman,Tenenbaum,&Gershman,2016)。如果要讓注意機(jī)制更為智能,那么自上而下的基于因果模型的控制過(guò)程是未來(lái)發(fā)展必不可少的一部分。如何產(chǎn)生靈活智能的信息選擇方式,并將其應(yīng)用到復(fù)雜、動(dòng)態(tài)、不確定的環(huán)境中,是心理學(xué)和人工智能領(lǐng)域共同面臨的一大挑戰(zhàn),也是后續(xù)研究的一個(gè)突破方向。
本文從注意是一種現(xiàn)象的假設(shè)出發(fā),提出在強(qiáng)化學(xué)習(xí)框架下研究注意的計(jì)算模型。與現(xiàn)有注意理論不同,該模型并不主張注意是一種固有的心理結(jié)構(gòu)或資源,而認(rèn)為是強(qiáng)化學(xué)習(xí)過(guò)程表現(xiàn)出的信息選擇現(xiàn)象。該研究思路,相對(duì)于以往注意理論,具有如下進(jìn)步:(1)該模型擺脫了假設(shè)選擇主體的存在而帶來(lái)的小人謬誤陷阱,也不受過(guò)于寬泛、難以驗(yàn)證的資源假設(shè)的困擾。(2)該模型采用行為學(xué)習(xí)過(guò)程的一般算法作為理論基礎(chǔ),可以用于描述各個(gè)階段的認(rèn)知加工過(guò)程,從而能較好地解釋注意現(xiàn)象在認(rèn)知加工中的普遍性。(3)模型以統(tǒng)一的框架解釋了自下而上和自上而下的注意,以及發(fā)生在知覺、決策、行為等各個(gè)階段的注意選擇。(4)以計(jì)算理論為技術(shù)手段,該模型可與人工智能相關(guān)研究實(shí)現(xiàn)直接對(duì)接,將心理學(xué)研究成果快速轉(zhuǎn)化為工程實(shí)踐中的生產(chǎn)力。沿著該思路,未來(lái)研究應(yīng)著力于將模型進(jìn)一步具體化,開發(fā)在具體情境下人類強(qiáng)化學(xué)習(xí)過(guò)程的實(shí)例,并將模型的表現(xiàn)與人類行為數(shù)據(jù)相比較,對(duì)模型進(jìn)行驗(yàn)證。在不斷完善模型、提高模型預(yù)測(cè)效力的基礎(chǔ)上,做出相應(yīng)心理學(xué)解釋,為完善注意理論提供參考,同時(shí)為改進(jìn)人工智能相關(guān)技術(shù)提供心理學(xué)依據(jù)。
周吉帆,徐昊骙,唐寧,史博皓,趙陽(yáng),高濤等.(2016).“強(qiáng)認(rèn)知”的心理學(xué)研究:來(lái)自AlphaGo的啟示.應(yīng)用心理學(xué),22(1),3-11.
Anderson,B.A.,Laurent,P.A.,&Yantis,S.(2011).Value-driven attentional capture.Proceedings of the National Academy of Sciences,108(25),10367-10371.
Bahdanau,D.,Cho,K.,&Bengio,Y.(2014).Neural machine translation by jointly learning to align and translate.a(chǎn)rXiv preprint arXiv:1409.0473.
Bellman,R.(1957).Dynamic programming.Princeton University Press.
Borji,A.,Sihite,D.N.,&Itti,L.(2014).What/where to look next?Modeling top-down visual attention in complex interactive environments.IEEE Transactions on Systems,Man,and Cybernetics:Systems,44(5),523-538.
Broadbent,D.E.(1958).Perception and Communication.Oxford:Pergamon Press.
Buschman,T.J.,&Kastner,S.(2015).From behavior to neural dynam ics:An integrated theory of attention.Neuron,88(1),127-144.
Cherry,E.C.(1953).Some experiments on the recognition of speech,with one and with two ears.Journal of the Acoustical Society of America,25(5),975-979.
Chikkerur,S.,Serre,T.,Tan,C.,&Poggio,T.(2010).What and where:A Bayesian inference theory of attention.Vision Research,50(22),2233-2247.
Cowan,N.(1988).Evolving conceptions of memory storage,selective attention,and their mutual constraints within the human information-processing system.Psychological Bulletin,104(2),163-191.
Deutsch,J.A.,&Deutsch,D.(1963).Attention:Some theoretical considerations.Psychological Review,70(70),80-90.
Duncan,J.(1984).Selective attention and the organization of visual information.Journal of Experimental Psychology:General,113(4),501-517.
Eriksen,C.W.,&Yeh,Y.Y.(1985).Allocation of attention in the visual field.Journal of Experimental Psychology:Human Perception and Performance,11(5),583-597.
Frank,M.C.,Vul,E.,&Johnson,S.P.(2009).Development of infants’attention to faces during the first year.Cognition,110(2),160-170.
Gao,Z.,Yu,S.,Zhu,C.,Shui,R.,Weng,X.,&Peng,L.,et al.(2016).Object-based encoding in visual working memory:Evidence from memorydriven attentional capture.Scientific Reports,6,22822.
Gershman,S.J.,&Daw,N.D.(2015).Reinforcement learning and episodic memory in humans and animals:An integrative framework.Annual Review of Psychology,68(1).
Giesbrecht,B.,Woldorff,M.G.,Song,A.W.,&Mangun,G.R.(2003).Neural mechanisms of top-down control during spatial and feature attention.Neuroimage,19(3),496-512.
Gong,M.,&Li,S.(2014).Learned reward association improves visual working memory.Journal of Experimental Psychology Human Perception&Performance,40(2),841-856.
Gopnik,A.(2009).The philosophical baby.London:Bodley Head.
Haladjian,H.H.,&Montemayor,C.(2015).On the evolution of conscious attention.Psychonomic Bulletin&Review,22(3),595-613.
Itti,L.,&Koch,C.(2001).Computational modelling of visual attention.Nature Reviews Neuro-science,2(3),194-203.
Itti,L.,Koch,C.,&Niebur,E.(1998).A model of saliency-based visual attention for rapid scene analysis.IEEE Transactions on Pattern Analysis and Machine Intelligence,20(11),1254-1259.
Jara-Ettinger,J.,Gweon,H.,Schulz,L.E.,&Tenenbaum,J.B.(2016).The naive utility calculus:Computational principles underlying commonsense psychology.Trends in Cognitive Sciences,20(8),589-604.
Kahneman,D.(1973).Attention and Effort.Prentice-Hall.
Kastner,S.,Pinsk,M.A.,De,W.P.,Desimone,R.,&Ungerleider,L.G.(1999).Increased activity in human visual cortex during directed attention in the absence of visual stimulation.Neuron,22(4),751-61.
Kinchla,R.A.(1992).Attention.Annual Review of Psychology,43(43),711-742.
Krauzlis,R.J.,Bollimunta,A.,Arcizet,F(xiàn).,&Wang,L.(2014).Attention as an effect not a cause.Trends in Cognitive Sciences,18(9),457-464.
LaBerge,D.(1983).Spatial extent of attention to letters and words.Journal of Experimental Psychology:Human Perception and Performance,9(3),371-379.
Lake,B.M.,Ullman,T.D.,Tenenbaum,J.B.,&Gershman,S.J.(2016).Building machines that learn and think like people.a(chǎn)rXiv preprint arXiv:1604.00289.
Li,J.,Delgado,M.R.,&Phelps,E.A.(2011).How instructed know ledge modulates the neural systems of reward learning.Proceedings of the National Academy of Sciences,108(1),55-60.
Maunsell,J.H.,&Treue,S.(2006).Feature-based attention in visual cortex.Trends in Neurosciences,29(6),317-322.
Mcadams,C.J.,&Maunsell,J.H.(1999).Effects of attention on the reliability of individual neurons in monkey visual cortex.Neuron,23(4),765-773.
Mnih,V.,Heess,N.,&Graves,A.(2014).Recurrent models of visual attention.In Advances in Neural Information Processing Systems(pp.2204-2212).
Mnih,V.,Kavukcuoglu,K.,Silver,D.,Rusu,A.A.,Veness,J.,&Bellemare,M.G.,et al.(2015).Human-level control through deep reinforcement learning.Nature,518(7540),529-533.
O’Craven,K.M.,Downing,P.E.,&Kanwisher,N.(1999).fMRI evidence for objects as the units of attentional selection.Nature,401(6753),584-587.
Ondobaka,S.,Kilner,J.,&Friston,K.(2015).The role of interoceptive inference in theory of m ind.Brain and Cognition.
Pavlov,I.P.(1927).Conditional reflexes:An investigation of the physiological activity of the cerebral cortex.H.Milford.
Posner,M.I.,Snyder,C.R.,&Davidson,B.J.(1980).Attention and the detection of signals.Journal of Experimental Psychology:General,109(2),160-174.
Shen,M.,Huang,X.,&Gao,Z.(2015).Objectbased attention underlies the rehearsal of feature binding in visual working memory.Journal of Experimental Psychology:Human Perception and Performance,41(2),479.
Silver,D.,Huang,A.,Maddison,C.J.,Guez,A.,Sifre,L.,van den Driessche,G.,et al.(2016).Mastering the game of Go with deep neural networks and tree search.Nature,529(7587),484-489.
Simons,D.J.,&Chabris,C.F.(1999).Gorillas in our midst:Sustained inattentional blindness for dynamic events.Perception,28(9),1059-1074.
Simons,D.J.,&Levin,D.T.(1997).Change blindness.Trends in Cognitive Sciences,1(7),261-267.
Sloutsky,V.M.(2016).Selective attention,diffused attention,and the development of categorization.Cognitive Psychology,91,24-62.
Sutton,R.S.,&Barto,A.G.(1998).Reinforcement learning:An introduction(Vol.1,No.1).MIT Press.
Tenenbaum,J.B.,Kemp,C.,Griffiths,T.L.,&Goodman,N.D.(2011).How to grow a m ind:Statistics,structure,and abstraction.Science,331(6022),1279-1285.
Thorndike,E.L.(1911).Individuality.Boston:Houghton Mifflin.
Treisman,A.M.(1960).Contextual cues in selective listening.Quarterly Journal of Experimental Psychology,12(4),242-248.
Treue,S.,&Trujillo,J.C.M.(1999).Featurebased attention influences motion processing gain in macaque visual cortex.Nature,399(6736),575-579.
Vigorito,C.M.,&Barto,A.G.(2010).Intrinsically motivated hierarchical skill learning in structured environments.IEEE Transactions on Autonomous Mental Development,2(2),132-143.
Vul,E.,Hanus,D.,&Kanwisher,N.(2009).Attention as inference:Selection is probabilistic;responses are all-or-none samples.Journal of Experimental Psychology General,138(4),546-560.
Xu,K.,Ba,J.,Kiros,R.,Cho,K.,Courville,A.,Salakhutdinov,R.,et al.(2015).Show,attend and tell:Neural image caption generation with visual attention.a(chǎn)rXiv preprint arXiv:1502.03044,2(3),5.
Yarbus,A.L.(1967).Eye movements during perception of complex objects(pp.171-211).Springer US.
Rethinking on Attention:A Reinforcement-learning Model of Attention
CHENG Shao-zhe SHI Bo-hao ZHAO Yang XU Hao-kui TANG Ning GAO Tao ZHOU Ji-fan SHEN Mo-wei
(Department of Psychology and Behavioral Science,Hangzhou 310028,China)
Through summarizing and analyzing the current theories on attention,the present paper proposes a new hypothesis that attention is a phenomenon of information selection,rather than a mental architecture or cognitive resource.Inspired by the reinforcementlearning algorithm in artificial intelligence field,we suggest a reinforcement-learning model of human behavior that is able to show the phenomenal attention.This model describes the interaction between the agent and environment:the agent takes action to interact with the environment and gets feedbacks,by which the mental state updates to produce a new policy for taking the next-step action,to maximize the cumulative reward.In this learning procedure,attention emerges as a phenomenon that high-value information gradually gets the processing priority.This framework of modeling provides a new approach to rethinking the nature of attention.
attention,reinforcement learning,computational model,artificial intelligence
B842.1
:A
:1006-6020(2017)-01-0003-10
國(guó)家自然科學(xué)基金項(xiàng)目(31571119,31600881,61431015)和中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助。
**通信作者:周吉帆,男,博士,浙江大學(xué)特聘副研究員,e-mail:jifanzhou@zju.edu.cn;沈模衛(wèi),男,博士,浙江大學(xué)教授,e-mail:mwshen@zju.edu.cn。