康廷虎 薛 西
?
場景知覺過程中的動作意圖識別*
康廷虎 薛 西
(西北師范大學心理學院視覺認知實驗室, 蘭州 730070)
場景即我們生活于其中的真實環(huán)境, 社會場景是其重要組成部分。在社會場景知覺的研究中, 動作意圖的識別既受場景背景信息的影響, 也與動作的客觀對象有關(guān)。因此, 研究者可以根據(jù)背景?刺激物、刺激物?刺激物關(guān)系, 探索動作識別的影響機制; 另一方面, 也可以根據(jù)場景的語義約束和物理限制, 依據(jù)合理動作原則及其伴隨的生理指標檢測并識別動作意圖。在機器視覺研究領(lǐng)域, 計算機識別模型為社會場景中動作意圖的檢測和識別提供了新的視角。在未來的研究中, 研究者需要考慮真實場景中動作意圖識別能力的發(fā)展、動作意圖識別的個體差異和文化差異等問題。
社會場景; 動作意圖; 場景知覺; 計算機識別模型
動作意圖既可以指動作的立即結(jié)果, 也可以指導致動作的高級動機(Catmur, 2015)。動作意圖的理解對我們的生活至關(guān)重要。對嬰兒而言, 動作不僅是其獲得感性認識的手段, 也是與他人進行社會互動的主要方式(陳亞萍, 李曉東, 2013); 對成人而言, 正確理解動作意圖是個體在社會生活中與他人進行有效交流的基礎(den Ouden, Frith, Frith, & Blakemore, 2005; Satpute et al., 2005)。因此, 動作意圖識別已經(jīng)成為計算機科學和心理學領(lǐng)域內(nèi)的主要研究問題之一(Catmur, 2015; Yao & Fei-Fei, 2010)。
人們對動作意圖的理解, 不僅依賴于動作本身; 也有賴于動作所發(fā)生的真實生活場景。場景(scene)是真實世界中各個分散的刺激物及其背景構(gòu)成的、具有語義一致性的視覺圖景(Henderson & Hollingworth, 1999; 白學軍, 康廷虎, 閆國利, 2008)。場景知覺關(guān)注人如何知覺和加工復雜的真實環(huán)境信息(王福興, 田宏杰, 申繼亮, 2009)。有研究者認為, 真實世界中的場景知覺包括對視覺輸入的感覺過程和認知過程, 比如對場景梗概、空間布局與規(guī)模等信息的快速獲取, 以及場景中的距離知覺、有意義對象的視覺搜索、場景的表征及注意分配等(Henderson, 2005)。社會場景(Socialscene), 即有人存在的場景, 是場景的主要類型之一(Cerf, Harel, Einh?user, & Koch, 2007)。在社會場景知覺的研究中, 對人與人之間互動關(guān)系的探索, 特別是對人與人之間行為互動背后隱含的心理語義, 即動作意圖的探索是其重要內(nèi)容?;趫鼍爸X的動作意圖研究, 需要注意場景的背景(background)及其包含的物體(objects)兩個部分。場景中的背景是指寬廣的、靜止的表面和結(jié)構(gòu); 場景中的物體則是指比例較小的不連續(xù)物體(王福興等, 2009)。在真實場景中, 場景的背景與其包含的刺激物, 以及分散的刺激物之間存在著某種依賴或共現(xiàn)關(guān)系, 從而構(gòu)成了刺激物-刺激物關(guān)系、刺激物-背景關(guān)系, 而其都對動作意圖識別有重要影響(Bonchek-Dokow & Kaminka, 2014; Yao & Fei-Fei, 2010)。
在日常生活中, 對于視覺正常者而言, 80% ~ 90%的外界信息來源于視覺通道(康廷虎, 白學軍, 2008); 而且, 有許多研究者已經(jīng)從視覺加工的角度研究動作意圖(Bonchek-Dokow & Kaminka, 2014; Sartori, Bechio, & Castiello, 2011)。本文主要對視覺信息加工的研究成果進行梳理與分析, 并基于社會場景知覺的研究, 綜述動作意圖檢測、意圖分類和意圖推論等動作意圖識別的相關(guān)研究進展(Park, Lee, Lee, Chang, & Kwak, 2016)。
在社會場景知覺的研究中, 動作意圖是其中的重要內(nèi)容。對嬰兒而言, 各種運動、動作的發(fā)展是其活動發(fā)展的直接前提, 也是其心理發(fā)展的外在表現(xiàn)(李紅, 何磊, 2003)。動作不僅是嬰兒獲得感性認識的手段, 也是其與他人進行社會互動的主要方式, 尤其是對于前語言階段的嬰兒, 動作理解可以看作是一種前心理理論, 對促進嬰兒其他社會認知能力的發(fā)展具有重要的意義(陳亞萍, 李曉東, 2013)。因此, 理解動作意圖對個體心理發(fā)展以及人際交往與溝通都具有重要意義(Cacippo, Berntson, & Decety, 2010)。盡管人們所看到的動作流是極其復雜的, 但是從嬰兒期開始, 個體就可以輕松地處理意圖相關(guān)的動作。人們自發(fā)地根據(jù)意圖邊界對動作進行分段, 得到關(guān)于行為表現(xiàn)者意向性的系統(tǒng)判斷, 并利用對行為表現(xiàn)者特定意圖內(nèi)涵的判斷指導自己的觀察、推論和后續(xù)動作(Baldwin & Baird, 2001), 這表明人們從很小的時候就可以對行為意圖進行識別。另外, 從進化的角度來看, 在危險場景中準確識別對自己具有威脅的行為對其生存及發(fā)展具有重要的適應性作用。因此, 對動作隱含的意圖進行研究就顯得尤為重要。
Catmur (2015)認為, 動作意圖既可以指動作的立即結(jié)果, 也可以指導致動作的高級動機。對動作意圖的識別可以幫助人們預期他人行為的結(jié)果, 也可以幫助人們理解動作發(fā)出者的意愿和目標。Sukthankar, Geib, Bui, Pynadath和Goldman (2014)認為動作意圖識別是一種認知他人計劃、目的的能力, 使得人類可以推論行為表現(xiàn)者正在做什么、為何這樣做以及接下來會怎么做。主體可以憑借對動作意圖的識別, 獲得對他人目標的理解, 并可以預測其后期動作及運動軌跡(Bonchek- Dokow & Kaminka, 2014)。需要強調(diào)的是, 研究者往往關(guān)注的并不是所有的動作, 而僅僅是可以作為意圖識別中介的動作, 即意圖性動作。Bonchek- Dokow和Kaminka (2014)認為“意圖性動作”是指可能帶來某種期望的最終狀態(tài)的動作, 在這一過程中動作作為旨在實現(xiàn)某種隱含意圖的中介存在。在這一概念中有三個關(guān)鍵詞:動作(action)、意圖(purpose)、最終狀態(tài)(final state)。這三個關(guān)鍵詞將意圖性動作與其他術(shù)語進行區(qū)分。其中, “動作”表示“意圖性動作”導致了客觀世界的某種變化, 而識別意圖時又可以將“動作”作為中介; “最終狀態(tài)”指的是動作序列導致了怎樣的最終結(jié)果狀態(tài); “意圖”這一術(shù)語與期望的最終狀態(tài)相關(guān)。
在實際識別動作意圖的過程中, 往往需要使用可直接得到的各類信息, 以此推論行為者動作的隱含意圖, 進而幫助人們識別動作的意圖?;谶@一思路, 研究者試圖利用得到的生物信息進行推論。Choi (2013)設計了情境意識系統(tǒng)(situational awareness system)用以檢測圖像中異常行為的意圖。除此之外, 還有研究認為“功能可見性”在動作意圖預測中扮演著重要角色(Bonchek-Dokow & Kaminka, 2014)。這一概念首先由Gibson (1977)引入, 并認為一個對象的屬性和它提供的功能相對應, 一個物體或環(huán)境會暗示其物理屬性的所有可能性。如, 辦公室的座椅表明其可以用來坐著休息; 圍巾的保溫屬性說明其可以用來保暖, 其厚重屬性暗示其可以被折疊以用來靠枕。每個動作序列都有其引起的狀態(tài)結(jié)果, 每一個提取的狀態(tài)結(jié)果也有誘導其產(chǎn)生的動作序列, 這使人們在談及功能可見性時, 就能夠預期或利用可能的目標狀態(tài)。也就是說, 當試圖識別隱含于動作序列之中的意圖時, 人們可以從可能的目標狀態(tài)出發(fā), 利用環(huán)境中可得到的功能可見性而實現(xiàn)其目的。
也有研究試圖對動作意圖進行分類。比如, 基于真實場景的特點, 合作情境中理解的同伴意圖對于將其動作與共同目標匹配是必不可少的(Sebanz, Bekkering, & Knoblich, 2006); 而理解在沖突情境中對手意圖對于免遭他人行為對自己的傷害也是同樣重要的(Ruys & Aarts, 2010)。與之不同的是, 另有研究者從意圖本身出發(fā), 將社會意圖分為合作意圖和競爭意圖。合作意圖是與同伴合作共同完成某個任務, 而競爭意圖的目標則是與對手競爭以率先完成某個任務(Sartori et al., 2011)。前者指向合作行為, 而后者指向競爭行為。在動作的具體表現(xiàn)特征方面, 競爭意圖可能由于其競技性質(zhì)而導致其所引導的動作在速度上與合作意圖所引導的動作有所區(qū)別。
動作意圖研究與語義的獲得具有密切的聯(lián)系?!罢Z義(semantics)”來源于盎格魯-撒克遜語, 迄今為止仍與德語動詞“meinen”相關(guān), 而這個詞匯指的是思考(think)或意向(intend), 在這個意義上動作意圖是與語義有關(guān)的。語義是指消息發(fā)出者與接受者對信息意義的理解, 以及通過具體背景線索做出的推論(Ziaeefard & Bergevin, 2015), 其實質(zhì)是對客觀刺激對象及其相互關(guān)系的理解(Muehlhaus et al., 2014), 而動作意圖研究中強調(diào)對象不可獨立存在, 在這一點上, 語義與動作意圖是一致的。根據(jù)Henderson (2005)對場景的界定, 真實場景實際上是包含了背景和具體對象的。與之相似的是, 對動作意圖的識別, 要依賴于動作的發(fā)起者(人), 以及動作的對象(可能是人, 也可能是非人的其他客觀刺激)。因此, 從背景和對象的角度考慮, 真實場景中同時包含背景和物體, 兩者并不是孤立存在的, 可能會表現(xiàn)出背景?刺激物關(guān)系、刺激物?刺激物關(guān)系, 這兩種關(guān)系對動作意圖的覺察與識別同樣具有重要意義(Delaitre, Sivic, & Laptev, 2011)。
在真實的場景中, 背景和刺激物之間可能存在共現(xiàn)關(guān)系, 比如, 停車場作為背景, 往往是與停放的車輛存在于同一個時空之中。那么, 無論是對場景的識別, 還是對場景中刺激物的識別, 都可能會受到這種共現(xiàn)關(guān)系的影響。在包含人的動作的社會場景中, 同樣, 也會因為人與場景背景之間的共現(xiàn)關(guān)系, 而使場景中人的動作的識別, 或者場景的識別受到背景?刺激物關(guān)系的影響。
Friedman (1979)指出, 人們對場景診斷刺激的優(yōu)先識別, 反過來會促進場景識別。比如, 人們對菜刀的優(yōu)先識別, 可能會促進對“廚房”場景的識別。那么, 在社會場景中, 如果觀察者能夠?qū)鼍爸心硞€人的動作做出識別, 是否會影響對動作對象以及整個場景的識別呢?比如, 當看到某個人的投籃動作, 我們可能會更容易判斷這是在籃球場, 或者預測防守隊員的位置及其動作。因此, 對動作意圖的研究, 需要考慮場景與刺激對象的匹配情況。而且, 有些動作可能只在特定的場景中出現(xiàn)(Ziaeefard & Bergevin, 2015), 其同樣有可能成為識別某一種社會場景的診斷刺激。一般而言, 游泳只在游泳池進行, 即使在其他環(huán)境中察覺到了游泳的動作特征, 人們也不會得到“場景中的人在游泳”的識別結(jié)果。另一方面, 對場景的識別也可以促進對包含在其內(nèi)的刺激物的識別。Henderson (2005)的研究發(fā)現(xiàn), 場景背景對于刺激信息的視覺搜索及注意分配具有引導性作用。具體而言, 場景中作為背景的各項線索會影響人們對動作意圖的理解(Ziaeefard & Bergevin, 2015)。如, 汽車出現(xiàn)在停車場場景中和出現(xiàn)在公路場景中會誘導人們對駕駛者行為意圖的不同預期。如果汽車出現(xiàn)在停車場內(nèi), 人們可能會傾向于認為駕駛者是想停車; 而在公路場景下, 人們更可能認為駕駛者是在進行行駛操作并且其行為指向某一目的地。
此外, 人們有關(guān)場景上下文背景的序列性知識, 對于動作意圖分析而言也是極其重要的。它可以作為語義信息幫助人們預測動作及其結(jié)果(Oliva & Torralba, 2007), 即幫助人們推斷動作意圖。如, “將某物從箱中取出”和“將某物放入箱中”這兩個動作序列具有不同的隱含意圖, 但是兩者都具有“手抓住某物”這一動作, 此時, 在區(qū)分并識別這兩種不同的隱含意圖時, 對具體動作序列的理解就顯得尤為重要。
在場景中識別動作的隱含意圖時, 人的具體動作可能是與操作對象相聯(lián)系的, 不同的動作與其動作目標對象之間是相互聯(lián)結(jié)的。因此, 識別動作的隱含意圖時, 對該動作涉及的關(guān)聯(lián)對象的識別可以幫助人們理解動作意圖。比如, 在行為者動作特征不變的情況下, 如果該動作特征出現(xiàn)在草坪場景中, 同時伴隨行為者出現(xiàn)的對象為足球, 人們傾向于推斷行為者的動作特征是為了踢足球做出的; 然而, 如果該動作發(fā)生在羽毛球場內(nèi), 伴隨出現(xiàn)的對象為羽毛球球網(wǎng), 人們可能做出“行為者的動作意圖是打羽毛球”的推論。
此外, 人的身體姿勢和行為對象可以作為彼此交互影響的刺激信息(Desai, Ramanan, & Fowlkes, 2010; Delaitre et al., 2011)。也就是說, 對于其中一個刺激物的識別可以促進對于另外一個刺激物的識別。比如, 在板球運動中, 如果沒有察覺到板球, 很難對行為表現(xiàn)者正在使用板球棒進行防御性擊球的動作進行精準判斷; 同樣的, 如果沒有識別到行為表現(xiàn)者的擊球動作, 也很難注意到在空間尺寸上相對較小的板球。在計算機視覺的相關(guān)研究中, 有研究者基于刺激物?刺激物之間的相互關(guān)系對于彼此識別的易化, 提出計算機模型以解釋場景中物體的識別(Yao & Fei-Fei, 2010)。
在動作意圖的研究中, 意圖之類的心理學概念一般都是很難直接測定的, 因此需要通過對可觀測的其他指標的測量與識別, 從而實現(xiàn)對動作意圖的識別。不同研究者采用不同指標作為中介對動作意圖進行研究。
許多研究者采用動作發(fā)生時伴隨的生物指標作為中介。如, Carpenter, Akhtar和Tomasello (1998)在對嬰兒模仿動作的隱含意圖進行研究時, 使用情感聲音和面部證據(jù)作為中介; Jang, Lee, Mallipeddi, Kwak和Lee (2013)在特定行為情景中, 對行為者基于某種任務的動作和無特定任務的動作進行研究時, 使用注視點數(shù)目、注視時長、瞳孔大小變化、瞳孔大小變化梯度、眨眼變化等眼動指標試圖考察并研究行為者的動作意圖。
此外, 合理動作原則(Principle of Rational Action)也是動作意圖研究的重要理論基礎(Watson, 2005)。該原則認為, 在有限制的情景中, 行為表現(xiàn)者通過可得到的最合理的方法實現(xiàn)目標狀態(tài), 這也正是意向性動作生效的方式。合理動作原則包含三個成分:動作、目標狀態(tài)和情景限制。Király, Jovanovic, Prinz, Aschersleben和Gergely (2003)認為合理動作原則包含兩個前提假定。第一個假定認為, 動作的基本功能是帶來客觀環(huán)境的特定變化, 這表明動作結(jié)果應該包括環(huán)境狀態(tài)的明顯變化, 在此重點強調(diào)了三個成分中的“目標狀態(tài)”。第二個假定則認為, 在情景限制下主體會利用其可以獲得的最有效方法。該假定強調(diào)情景限制改變時, 主體為了高效地實現(xiàn)目標會采用不同的動作。這一假定更加重視三個成分中的“動作”和“情景限制”。也就是說, 使用合理動作原則幫助人們進行意圖識別和檢測是基于這樣的推論:如果動作可以體現(xiàn)主體意圖, 那么, 對主體在限制情景下動作及其帶來的現(xiàn)實狀態(tài)改變的察覺, 可以幫助人們確認動作的隱含意圖。已有研究證實動作合理性在意圖識別上的確是有效的參考指標(Bonchek-Dokow & Kaminka, 2014)。
除了對影響動作意圖測量的各個因素的研究之外, 也有研究者對動作意圖識別過程中各個子過程的檢測進行區(qū)分。研究者認為意圖識別有兩個核心過程, 分別為意圖檢測和意圖預測。這兩個階段由于其具體目的不同, 研究側(cè)重點也有所不同。動作意圖檢測是為了確定意圖的存在, 這一階段主要分析觀察到的動作序列的每一點; 而動作意圖預測則是為了確定意圖內(nèi)容, 在這一階段需要在時間進程上向前推進, 從觀察到的行為導致的最終狀態(tài)出發(fā), 推論行為者的預期目標(Bonchek-Dokow & Kaminka, 2014)。
通過中介因素研究動作意圖識別時, 對行為的理解往往同時涉及低級層次和高級層次兩個水平。其中低級層次主要包括人體檢測與跟蹤、動作識別、手勢識別等, 而高級層次主要考慮背景因素的影響等(徐光祐, 曹媛媛, 2009)。同時, 還需要考慮背景?刺激物關(guān)系及刺激物?刺激物關(guān)系對于動作意圖識別的影響。背景?刺激物關(guān)系常常通過自上而下的知識經(jīng)驗影響動作意圖識別; 換言之, 人們首先需要有關(guān)于動作物理特征(包括動作物理特征和動作的序列性信息)和語義特征(包括場景與動作的匹配性問題)的知識經(jīng)驗, 隨后根據(jù)知識經(jīng)驗及所觀察到的信息來推論或識別動作的隱含意圖。另外, 刺激物?刺激物關(guān)系對動作意圖識別的影響也受到自上而下的知識經(jīng)驗的影響。刺激物與刺激物之間聯(lián)系的構(gòu)建一般都是與人們已有的知識系統(tǒng)息息相關(guān)的。但是, 無論是背景?刺激物關(guān)系所依賴的物理特征, 還是刺激物?刺激物關(guān)系中刺激物的各種物理特征, 都是直接通過自下而上的識別過程得到的。這與計算機識別的方式是一致的。
近年來, 如何利用背景信息促進視覺識別不僅引起了場景知覺領(lǐng)域研究者的關(guān)注, 而且也成為機器視覺(computer vision)研究的一個重要內(nèi)容。研究者發(fā)現(xiàn), 背景信息可以用于動作分類(Marszalek, Laptev, & Schmid, 2009)、場景及其包含的刺激物的識別(Divvala, Hoiem, Hays, & Efros, 2009; Rabinovich, Vedaldi, Galleguillos, Wiewiora, & Belongie, 2007)等。然而, 對于復雜場景中的動作姿勢, 仍然沒有非常有效的方法予以識別。那么, 能不能基于合理動作原則, 以及場景不同水平的信息, 對場景中的動作意圖進行訓練學習并計算模擬呢?
Yao和Fei-Fei (2010)在前人研究的基礎上, 提出了動作意圖的計算機識別模型。該模型試圖在刺激物覺察和動作姿勢估計之間建立聯(lián)系, 并假設共同背景(mutual contexts)對于二者之間關(guān)系的理解具有重要的影響作用, 并且可以促進動作姿勢的估計以及刺激物的覺察。在真實的生活場景中, 每一個具體的人?物互動(human-object interaction, HOI)活動都是具有特殊性的, 都是不同于其它任何活動的, 因此, Yao和Fei-Fei所建立的實際上是一個將HOI活動場景分解為活動類別、刺激物對象和身體姿勢的分層隨機場(hierarchicalrandom field)模型。其中身體姿勢又可以分解成身體的不同部位, 而每一個身體部位和刺激物對象則可以表示為相應的視覺特征, 其他潛在變量則可以通過機器訓練學習獲得。
Yao和Fei-Fei (2012)在之后的研究中發(fā)現(xiàn), 該模型可以用于檢測圖像中人的身體姿勢以及與其有交互作用的對象, 并且發(fā)現(xiàn)利用人體動作姿勢更有利于促進相關(guān)刺激物的識別, 其檢測性能顯著優(yōu)于詞匯袋的方法, 也略優(yōu)于Gupta, Kembhavi和Davis (2009)提出的基于背景場景環(huán)境進行檢測的方法。更重要的是, 該模型的應用將“刺激物是什么”的識別轉(zhuǎn)向“刺激物是用來做什么”的識別(Koppula, Gupta, & Saxena, 2013), 這對于真實場景中刺激物識別的研究而言具有重要的引導作用。
20世紀30年代以來, 場景及場景中刺激物的識別始終是研究者關(guān)注的核心理論問題之一。然而, 與自然場景不同, 社會場景中人的注視方向、動作行為等都影響著觀察者的信息加工、行為決策等(Kingstone, Smilek, Ristic, Friesen, & Eastwood, 2003; Gibson & Kingstone, 2006); 而動作意圖的識別與檢測也已成為社會場景知覺及其語義獲得的主要研究內(nèi)容。在未來的相關(guān)研究中, 個體動作意圖識別能力的差異性及其發(fā)展、真實場景中動作意圖識別的文化差異、機器視覺研究的優(yōu)化以及計算機模型的修正等可能是該領(lǐng)域未來研究的重要方向。
有研究者認為動作意圖識別是一種認知他人計劃、目的的能力(Sukthankar et al., 2014)。從這個角度而言, 動作意圖識別作為一種個體能力, 不同個體由于其生活環(huán)境、知識經(jīng)驗等的差異, 識別他人動作意圖的能力也可能存在著不同。因此, 對動作意圖識別能力個體差異的研究, 可能是未來研究中十分重要的方向。基于此, 從能力發(fā)展的角度考慮這種差異, 與年齡相關(guān)的信息加工能力差異是否對動作意圖識別能力的差異有所貢獻?動作意圖識別能力的發(fā)展是階段性的或者連續(xù)性的, 相關(guān)問題的探討有助于人們在兒童發(fā)展的適當階段, 通過適當?shù)囊龑Ы逃? 促進他們動作意圖識別能力的發(fā)展。
場景作為一種真實環(huán)境信息, 可以作為信息載體, 為人們提供各種信息; 同時, 場景提供的信息對不同文化背景下的個體又具有不同的心理含義。如, 西方飲食文化與中國飲食文化背景下的個體對于“使用筷子為他人夾菜”這一行為會得到不同的意圖推論。因此, 對于真實場景中人物的動作意圖的識別, 除了個體差異之外, 也可能存在著深刻的文化差異。在全球化的背景下, 不同文化之間的交流愈加頻繁, 基于場景中人們的動作考察意圖識別的文化差異具有重要的現(xiàn)實意義。諸如在怎樣的場景下動作意圖識別具有人類的普遍性, 而在怎樣的場景下動作意圖又具有明顯的文化差異; 動作意圖識別過程中的文化差異是由于個體人的原因, 還是文化環(huán)境的原因等問題, 仍然需要研究者進一步探討。
在機器視覺的研究中, 動作意圖識別也是一個應用廣泛的課題。例如, 在智能監(jiān)控領(lǐng)域使用智能化的視頻監(jiān)控手段并使用計算機幫助人類進行分析和監(jiān)控, 可以有效避免人工監(jiān)控中存在的效率低、耗費大, 以及可能有遺漏的安全隱患的問題(杜有田, 陳峰, 徐文立, 李永彬, 2007)。此外, 基于機器視覺的人體運動分析研究可以通過提取運動員關(guān)節(jié)位置、角度、速度等信息, 并通過對這些數(shù)據(jù)信息的分析和處理, 指導下一步的訓練(黎洪松, 李達, 2009)。值得注意的是, 機器視覺下的動作意圖研究本就是建立在對人的意圖的研究基礎之上的, 因此, 從認知神經(jīng)科學的角度對動作意圖識別的深入研究(Wang et al., 2010; Wang, Zheng, Lin, Wu, & Shen, 2011), 以及對動作意圖識別過程中的內(nèi)在心理機制的探索(Meltzoff, 2007),對于推進機器視覺動作意圖識別能力的優(yōu)化, 以及計算機模型的修正都是非常必要的。
除此之外, 場景背景對動作意圖識別并不總是發(fā)揮正性作用。如果是嘈雜或混亂的情景, 可能對隱含意圖的識別產(chǎn)生負面影響(Klaser, Marszek, Laptev, & Schmid, 2010); 而且, 一個場景可能包括不同的動作, 如果不能提供有用的信息來區(qū)分這些動作, 對于識別具有隱含意圖的動作行為也有負面影響(Ziaeefard & Bergevin, 2015)。因此, 從場景背景可能產(chǎn)生影響的性質(zhì)角度出發(fā), 探索真實情景中動作意圖識別也是有必要的。
白學軍, 康廷虎, 閆國利. (2008). 真實情景中刺激物識別的理論模型與研究回顧.(5), 679–686.
陳亞萍, 李曉東. (2013). 嬰兒動作理解的研究回顧與展望.(4), 671–678.
杜有田, 陳峰, 徐文立, 李永彬. (2007). 基于視覺的人的運動識別綜述.(1), 84–90.
康廷虎, 白學軍. (2008). 真實情景知覺中注視控制的研究進展.(4), 107–111.
李紅, 何磊. (2003). 兒童早期的動作發(fā)展對認知發(fā)展的作用.(3), 315–320.
黎洪松, 李達. (2009). 人體運動分析研究的若干新進展.(1), 70–78.
王福興, 田宏杰, 申繼亮. (2009). 場景知覺及其研究范式.(2), 268–277.
徐光祐, 曹媛媛. (2009). 動作識別與行為理解綜述.(2), 189–195.
Baldwin, D. A., & Baird, J. A. (2001). Discerning intentions in dynamic human action.(4), 171–178.
Bonchek-Dokow, E., & Kaminka, G. A. (2014). Towards computational models of intention detection and intention prediction., 44–79.
Cacippo, J. T., Berntson, G. G., & Decety, J. (2010). Social neuroscience and its relationship to social psychology.(6), 675–685.
Carpenter, M., Akhtar, N., & Tomasello, M. (1998). Fourteen- through 18-month-old infants differentially imitate intentional and accidental actions.(2), 315–330.
Catmur, C. (2015). Understanding intentions from actions: Direct perception, inference, and the roles of mirror and mentalizing systems., 426–433.
Cerf, M., Harel, J., Einh?user, W., & Koch, C. (2007). Predicting human gaze using low-level saliency combined with face detection. In(pp. 241–248). Vancouver, British Columbia, Canada: Curran Associates Inc..
Choi, D. (2013). Design and implementation of context awareness system for abnormal behavior detection. Unpublished results. Dept of Computer Science, Gachon University.
Delaitre, V., Sivic, J., & Laptev, I. (2011). Learning person-object interactions for action recognition in still images. In(pp. 1503–1511). Granada, Spain: Curran Associates Inc..
den Ouden, H. E. M., Frith, U., Frith, C., & Blakemore, S. J. (2005). Thinking about intentions.(4), 787–796.
Desai, C., Ramanan, D., & Fowlkes, C. (2010). Discriminativemodels for static human-object interactions.9–16.
Divvala, S. K., Hoiem, D., Hays, J. H., & Efros, A. A. (2009). An empirical study of context in object detection. In(pp. 1271–1278).Miami, Florida, USA: IEEE.
Friedman, A. (1979). Framing pictures: The role of knowledge in automatized encoding and memory for gist.(3), 316–355.
Gibson, B. S., & Kingston, A. (2006). Visual attention and the semantics of space.(7), 622–627.
Gibson, J. J. (1977). The theory of affordances. In R. Shaw & J. Bransford (Eds.),. Hoboken, NJ: John Wiley & Sons Inc.
Gupta, A., Kembhavi, A., & Davis, L. S. (2009). Observing human-object interactions: Using spatial and functional compatibility for recognition.(10), 1775–1789.
Henderson, J. M. (2005). Introduction to real-world scene perception.(6), 849–851.
Henderson, J. M., & Hollingworth, A. (1999). High-level scene perception.(1), 243–271.
Jang, Y. M., Lee, S., Mallipeddi, R., Kwak, H. W, & Lee, M. (2013). Intent probing monitoring system based on eye movement analysis and probability.(1), 1518–1521.
Kingstone, A., Smilek, D., Ristic, J., Friesen, C. K., & Eastwood, J. D. (2003). Attention, researchers! It is time to take a look at the real world.(5), 176–180.
Király, I., Jovanovic, B., Prinz, W., Aschersleben, G., & Gergely, G. (2003). The early origins of goal attribution in infancy.(4), 752–769.
Klaser, A., Marszek, M., Laptev, I., & Schmid, C. (2010). Will person detection help bag-of-features action recognition?(2), 365–373.
Koppula, H. S., Gupta, R., & Saxena, A. (2013). Learning human activities and object affordances from RGB-D videos.(8), 951–970.
Marszalek, M., Laptev, I., & Schmid, C. (2009). Actions in context.In(pp. 2929–2936).Miami, FL: IEEE.
Meltzoff, A. N. (2007). The “l(fā)ike me” framework for recognizing and becoming an intentional agent.(1), 26–43.
Muehlhaus, J., Heim, S., Altenbach, F., Chatterjee, A., Habel, U., & Sass, K. (2014). Deeper insights into semantic relations: An fMRI study of part-whole and functional associations., 30–42.
Oliva, A., & Torralba, A. (2007). The role of context in object recognition.(12), 520–527.
Park, H., Lee, S., Lee, M., Chang, M. S., & Kwak, H. W. (2016). Using eye movement data to infer human behavioral intentions., 796–804.
Rabinovich, A., Vedaldi, A., Galleguillos, C., Wiewiora, E., & Belongie, S. (2007). Objects in context. In(pp. 1–8).Rio de Janeiro, Brazil: IEEE.
Ruys, K. I., & Aarts, H. (2010). When competition merges people’s behavior: Interdependency activates shared actionrepresentations.(6), 1130–1133.
Sartori, L., Becchio, C., & Castiello, U. (2011). Cues to intention: The role of movement information.(2), 242–252.
Satpute, A. B., Fenker, D. B., Waldmann, M. R., Tabibnia, G., Holyoak, K. J., & Lieberman, M. D. (2005). An fMRI study of causal judgments.(5), 1233–1238.
Sebanz, N., Bekkering, H., & Knoblich, G. (2006). Joint action: Bodies and minds moving together.(2), 70–76.
Sukthankar, G., Geib, C., Bui, H. H., Pynadath, D., & Goldman, R. P. (2014).(pp. 19–20). London: Morgan Kaufmann.
Wang, Y. W., Lin, C. D., Yuan, B., Huang, L., Zhang W. X., & Shen, D. L. (2010). Person perception precedes theory of mind: An event related potential analysis.(1), 238–246.
Wang, Y. W., Zheng, Y. W., Lin, C. D., Wu, J., & Shen, D. L. (2011). Electrophysiological correlates of reading the single- and interactive-mind.doi: 10.3389/fnhum.2011.00064
Watson, J. S. (2005). The elementary nature of purposive behavior: Evolving minimal neural structures that display intrinsic intentionality.(1), 24–48.
Yao, B. P., & Fei-Fei, L. (2010). Modeling mutual context of object and human pose in human-object interaction activities. In(pp. 17–24). San Francisco, CA, USA: IEEE.
Yao, B. P., & Fei-Fei, L. (2012). Recognizing human-object interactions in still images by modeling the mutual context of objects and human poses.(9), 1691–1703.
Ziaeefard, M., & Bergevin, R. (2015). Semantic human activity recognition: A literature review.(8), 2329–2345.
Recognition of action and intention in real-world scene perception
KANG Tinghu; XUE Xi
(Visual Cognition Lab, School of Psychology, Northwest Normal University, Lanzhou 730070, China)
A social scene plays a crucial part in the real physical world that people live in. In social scene perception studies, recognition of actions and associated intentions can be influenced not only by the background information of the scene, but can also be related to the object of an action. Therefore, researchers could follow the relationships between the background and an object, or among various objects for analyzing the mechanism of action recognition. However, to detect and recognize an action and its associated intention, researchers could also employ semantics restriction and physical baffle of scene, and incorporate the principle of rational action for studying the biological signs following an action. In the field of machine vision, new research is emerging on models of computer recognition that are based on human-object interaction. In the future, researchers can consider the development of action and intention identification capacity, and can study the differences among individuals of various cultures for improving the studies conducted in this field of research.
social scene; action and intention; scene perception; model of computer recognition.
2017-05-02
* 國家社會科學基金青年項目(13CSH074)的支持和甘肅省體育衛(wèi)生與健康教育美育國防教育專項任務項目(項目編號:77)支持
康廷虎, E-mail: kangyan313@126.com
B842
10.3724/SP.J.1042.2018.01617