魏一璞
利用視覺情境范式揭示口語加工的時(shí)間進(jìn)程*
魏一璞
(北京大學(xué)對外漢語教育學(xué)院, 北京 100871)
視覺情境范式是一種通過追蹤、測量人眼在視覺物體上的注視軌跡來研究實(shí)時(shí)口語加工的眼動實(shí)驗(yàn)范式。該范式運(yùn)用于語言理解類研究的理論基礎(chǔ)是眼動連接假設(shè)(如: 協(xié)同互動理論、基于目標(biāo)的連接假設(shè)理論等), 這些連接假設(shè)在眼動軌跡與口語加工進(jìn)程之間建立起了有意義的關(guān)聯(lián)。使用視覺情境范式所獲取的數(shù)據(jù)能夠?yàn)榭谡Z加工提供精確的時(shí)間信息, 常用的數(shù)據(jù)分析方法包括: 時(shí)間興趣區(qū)內(nèi)注視比例均值分析、分叉點(diǎn)分析、生長曲線分析等。該范式為研究詞匯語音識別、句法解歧、語義理解、語篇語用信息加工等問題提供了關(guān)鍵性證據(jù)。
視覺情境范式, 眼動追蹤, 口語加工
語言加工的時(shí)間進(jìn)程問題一直是心理語言學(xué)領(lǐng)域的核心議題之一。探討這一問題有三層重要意義: 首先, 不同層面的語言信息(語音、語義、句法、語篇、語用等)以及不同來源的信息(語言輸入、視覺環(huán)境、世界知識等)在何時(shí)被認(rèn)知系統(tǒng)加工處理對于語言理解模型的建構(gòu)至關(guān)重要。例如, McRae等人(1998)的基于約束的語言加工模型(constraint-based model), 就是根據(jù)歧義句理解的時(shí)間進(jìn)程證據(jù)提出的。其次, 研究影響語言理解的因素(如: 詞頻、語言水平、認(rèn)知能力等)如何起作用也需要語言加工的時(shí)間進(jìn)程信息, 如: Magnuson等人(2003)通過考察聽者理解語音輸入時(shí)鎖定目標(biāo)指代對象的時(shí)間, 提出了詞頻會影響詞匯識別的論斷。此外, 語言要素加工的時(shí)間線也可以作為反映語言理解能力的重要指標(biāo), 在兒童語言習(xí)得、二語加工以及老年人語言能力評估等方面發(fā)揮作用(Saryazdi & Chambers, 2021)。作為探究口語加工時(shí)間進(jìn)程的重要工具, 視覺情境范式(visual world paradigm)可以提供精確的時(shí)間信息, 揭示各個(gè)層面口語加工的問題。
視覺情境范式是一種通過追蹤、測量人眼在視覺環(huán)境中的注視軌跡研究實(shí)時(shí)口語理解加工的實(shí)驗(yàn)范式(Allopenna et al., 1998; Salverda & Tanenhaus, 2018)。隨著上個(gè)世紀(jì)60年代末眼動追蹤儀器與電腦接口的實(shí)現(xiàn), 即時(shí)記錄眼動軌跡以及自動處理眼動數(shù)據(jù)成為可能。70年代中期, 利用眼動技術(shù)進(jìn)行的書面閱讀研究已取得大量進(jìn)展(綜述見: Rayner, 1978)。與此同時(shí), Cooper (1974)第一次嘗試使用眼動追蹤技術(shù)對口語理解進(jìn)行測量。這項(xiàng)早期研究首次將聽者對視覺物體的注視與語言加工建立了聯(lián)系。1995年Tanenhaus等人在《科學(xué)》上發(fā)文, 闡釋了如何利用眼動追蹤技術(shù)揭示歧義句的加工過程, 視覺情境范式(由Allopenna et al., 1998定名)才開始大量被應(yīng)用于口語加工研究, 成為心理語言學(xué)、認(rèn)知心理學(xué)領(lǐng)域最重要的研究手段之一(邱麗景等, 2009; 林桐, 王娟, 2018)。
本文主要闡釋了如何利用眼動視覺情境范式探究口語加工的時(shí)間進(jìn)程。為了闡明這一問題, 本文將首先介紹眼動實(shí)驗(yàn)范式中的連接假設(shè), 將視覺場景中的眼動軌跡與語言的理解過程建立起聯(lián)系, 并且充分說明視覺情境范式在任務(wù)及數(shù)據(jù)上有哪些時(shí)間性的特點(diǎn), 以及如何利用這些特點(diǎn)進(jìn)行數(shù)據(jù)分析; 進(jìn)而以口語加工的時(shí)間進(jìn)程為主線, 綜述近20多年來使用該范式的研究在語音、語義、句法、語篇與語用加工等方面的實(shí)證發(fā)現(xiàn), 進(jìn)一步說明這一高時(shí)間敏感性范式在口語加工時(shí)間進(jìn)程研究中的貢獻(xiàn)。
視覺情境范式眼動研究方法的理論基礎(chǔ)是連接假設(shè)(linking hypotheses), 這類假設(shè)將眼動軌跡與口語理解的認(rèn)知過程建立起了聯(lián)系(Allopenna et al., 1998; Tanenhaus et al., 2000)。具體來說, 當(dāng)聽者處理口語信息時(shí), 會將語言所描述的情景形成動態(tài)的心理表征(mental representation); 而理解者對心理表征中特定實(shí)體的關(guān)注會隨著語言信息的輸入而變化——相應(yīng)地, 他們在視覺空間中的注視點(diǎn)也會隨之移動(Altmann & Kamide, 2007)。這種注視的聚集和移動, 伴隨著瞳孔位置的改變。通過眼動追蹤手段, 瞳孔位置移動的軌跡可以被有效測量, 進(jìn)而揭示口語加工的時(shí)間進(jìn)程。過去20年間, 學(xué)界提出了諸多反映眼動與口語加工之間關(guān)系的具體連接假設(shè)理論, 用于闡釋視覺注意如何被分配到指代物體之上(見綜述Magnuson, 2019)。本文總結(jié)了其中比較有影響力的三種連接假設(shè)理論, 進(jìn)一步闡明將視覺情境范式應(yīng)用于口語加工研究的理論基礎(chǔ)。這些連接假設(shè)雖未直接就具體語言元素加工的時(shí)間進(jìn)程進(jìn)行界定, 但其假設(shè)中包含了口語加工的若干階段, 是探討加工時(shí)間進(jìn)程的前提基礎(chǔ)。
Knoeferle和Crocker (2006, 2007)提出的協(xié)同互動理論(coordinated interplay account)將基于視覺情境的口語理解分為三個(gè)主要階段: (1)在原有的語句結(jié)構(gòu)中整合新輸入的詞, 形成新的語句理解, 并基于這一新信息和原有的語言信息、相關(guān)世界知識, 共同形成對后面語句的預(yù)測; (2)在包含之前視覺場景的工作記憶中, 搜尋詞語所指代的物體或者是基于第一階段信息可以預(yù)測到的物體; (3)將語言輸入(名詞、動詞等)與視覺場景中的物體、動作對應(yīng), 基于視覺場景信息修正之前形成的語句理解, 并形成新的預(yù)測(Knoeferle & Crocker, 2006, 2007; Pyykk?nen-Klauck & Crocker, 2016)。值得注意的是, 這三個(gè)進(jìn)程雖然在協(xié)同互動理論中依次呈現(xiàn), 但該理論并不排斥三個(gè)進(jìn)程在加工時(shí)間上有交疊或者同時(shí)發(fā)生的可能性。協(xié)同互動理論凸顯了視覺場景信息對于口語理解的重要性; 而且盡管當(dāng)視覺場景消失后, 這些情景在工作記憶中會逐漸消退, 但關(guān)于情景的記憶仍然對后續(xù)句子加工具有顯著的影響(Knoeferle & Crocker, 2007)。
Altmann和Mirkovi? (2009)提出了另一種連接假設(shè)理論, 這一理論同樣也認(rèn)同語句加工受到語言信息(如: 實(shí)時(shí)語言輸入、語境信息)和非語言信息(如: 視覺場景、世界知識)的共同影響。但不同于Knoeferle和Crocker (2006, 2007)的協(xié)同互動理論, Altmann和Mirkovi? (2009)認(rèn)為處理視覺場景信息與理解語言輸入的過程在心理表征和處理時(shí)間上都是無法分割的——因?yàn)檎Z言信息和非語言信息都存儲在同一套系統(tǒng)中, 共同構(gòu)成了對情景的動態(tài)表征。當(dāng)聽者接收到某一信息時(shí), 關(guān)于客體的表征(包括與此客體相關(guān)的體驗(yàn)、知識等)會被激活。而隨著聽者不斷接收不同來源的信息(語言輸入、視覺場景、世界知識等), 關(guān)于客體的表征就會不斷變化。當(dāng)不同來源的信息出現(xiàn)重合時(shí), 客體表征的激活就會加強(qiáng)。這一表征系統(tǒng)的不同狀態(tài)體現(xiàn)在心智表征(mental representation)層面就是注意力的分配, 而注意力的分配影響了眼動軌跡。換言之, 伴隨語句輸入, 受試者對視覺物體的注視在時(shí)間上的變化軌跡, 是由包含語言信息、語境信息、視覺場景、世界知識等的一套共同表征系統(tǒng)所影響并驅(qū)動的。在該理論假設(shè)框架下, 不同來源的信息對口語加工會產(chǎn)生即時(shí)影響, 也會迅速反映在眼動軌跡上。
以上兩種連接假設(shè)均基于語言理解視角, 將口語加工過程中的眼動注視變化看作是語言輸入信息與視覺信息共同作用的結(jié)果。這兩個(gè)假說都將語言加工看作是一項(xiàng)獨(dú)立的任務(wù), 與實(shí)驗(yàn)過程中的行為任務(wù)目標(biāo)無關(guān)。然而, 此類基于語言理解視角的連接假設(shè)未涉及完成任務(wù)所需要的動作本身對語言指代加工的影響(Chambers et al., 2004), 同時(shí)也未考慮到在視覺搜尋中眼動本身就和行為任務(wù)的目標(biāo)緊密相關(guān)——即受試者會更多地注視與自己行為目標(biāo)相關(guān)的物體。為了更好地解釋語言加工與眼動的關(guān)系, Salverda等人(2011)提出了基于目標(biāo)的連接假設(shè)理論(goal-based linking hypothesis), 將“任務(wù)目標(biāo)”這一新維度納入眼動連接假設(shè)。不同于基于語言理解視角的連接假設(shè), 基于目標(biāo)的連接假設(shè)理論認(rèn)為不僅語境、語言輸入等可以對語言加工形成約束(constraint), 任務(wù)目標(biāo)本身也可以作為約束——與執(zhí)行任務(wù)目標(biāo)直接相關(guān)的視覺物體, 會吸引更多眼動注視; 而與目標(biāo)執(zhí)行無關(guān)的物體則不會。該連接假設(shè)理論認(rèn)為, 視覺情境下的口語加工過程首先包含了一項(xiàng)基礎(chǔ)任務(wù), 就是把語言輸入信息與視覺場景中可供選擇的物體對應(yīng), 而眼動注視服務(wù)于這一任務(wù)目標(biāo), 用于鎖定可能的指代物體; 不符合可供性(affordance)的物體則很少被注視。例如, 在聽到這一指令時(shí), 只有尺寸大小能放得下立方體(cube)的罐子(can)才會成為被注視的目標(biāo)容器(Chambers et al., 2004)。Salverda等人(2011)認(rèn)為, 額外的任務(wù)如點(diǎn)擊物體、移動物體等, 共同構(gòu)成了口語加工任務(wù)中的任務(wù)目標(biāo)結(jié)構(gòu), 并且影響了眼動注視。例如, 當(dāng)受試者帶著判定句子正誤任務(wù)聽句子時(shí), 會比無判定任務(wù)情況下聽同樣的句子展現(xiàn)出更早、更顯著的預(yù)測性注視(Altmann & Kamide, 1999), 在時(shí)間進(jìn)程上更快地鎖定指代目標(biāo)?;谀繕?biāo)的連接假設(shè)為細(xì)化、層級化語言加工過程中的任務(wù)目標(biāo)結(jié)構(gòu)提出了新的要求。
利用眼動視覺情境范式進(jìn)行的口語加工研究以連接假設(shè)為基本前提, 根據(jù)利用視覺信息的情況, 可以分為兩個(gè)主要研究方向。第一類研究將視覺場景作為呈現(xiàn)物體的布景, 心理表征中對特定指代對象的注意被投射在視覺場景中, 聽者據(jù)此形成對指代物體的注視; 而其注視布景上的物體所形成的眼動軌跡, 揭示了不同的語言成分如何被實(shí)時(shí)加工(例如: Cooper, 1974; Cozijn et al., 2011; Kaiser, 2016)。第二類研究則將視覺信息也作為一種語境約束, 主要探索視覺環(huán)境中的信息(如: 候選物體個(gè)數(shù)、物體大小對比、所描繪的事件動作等)本身對語言加工產(chǎn)生的影響(例如: Chambers et al., 2002; Knoeferle et al., 2005; Tanenhaus et al., 1995)。這兩類研究采用的任務(wù)類似, 但是在連接假設(shè)的理論層面, 第一類研究強(qiáng)調(diào)了理解視覺場景信息與理解口語輸入信息這兩個(gè)過程的共時(shí)性和不可分割性; 第二類研究則將視覺場景信息加工作為一個(gè)相對獨(dú)立的過程, 強(qiáng)調(diào)視覺場景本身在口語加工過程中的作用。而眼動加工領(lǐng)域最新的趨勢是開始關(guān)注任務(wù)目標(biāo)對語言加工的潛在作用。盡管納入了目標(biāo)維度的連接假設(shè)已經(jīng)完成了初步的理論建構(gòu), 但目前針對不同任務(wù)目標(biāo)下加工效應(yīng)對比的研究仍然是空白。
典型的視覺情境范式實(shí)驗(yàn)通常包含以口語形式呈現(xiàn)的語言指令和以視覺刺激形式出現(xiàn)的物體(在真實(shí)世界中或者電腦屏幕上)。受試者在理解口語指令的同時(shí), 在視覺物體上注視點(diǎn)的位置被眼動儀實(shí)時(shí)記錄并用于后續(xù)分析(見圖1)。視覺刺激圖片一般會先于語言指令出現(xiàn), 并有一定的預(yù)視時(shí)間; 語言指令以相對固定的播放速度呈現(xiàn)。前人研究中發(fā)現(xiàn), 圖片復(fù)雜度、預(yù)視時(shí)長、語言指令播放速度、任務(wù)指令類型(是否明確告知受試者需要預(yù)測目標(biāo)物)等因素都會對眼動結(jié)果產(chǎn)生一定的影響(Huettig & Guerra, 2019; Ferreira et al., 2013)。
圖1 視覺情境范式實(shí)驗(yàn)呈現(xiàn)示例
視覺情境范式主要包括兩種不同的實(shí)驗(yàn)任務(wù): 一是主動任務(wù)(基于動作的實(shí)驗(yàn)任務(wù)), 即要求受試者對語言指令做出行為上的反應(yīng)(如: 獲取、挪動、點(diǎn)擊物體; 見Hanna & Tanenhaus, 2004; Tanenhaus et al., 1995); 二是被動任務(wù)(聽?看任務(wù)), 即受試者僅需要聽語言指令、看圖片或者情景, 不需要在行為上做出反應(yīng)(Altmann & Kamide, 1999; Knoeferle et al., 2005)。關(guān)于兩種任務(wù)的區(qū)別, Salverda等人(2011)指出在主動任務(wù)型視覺情境范式實(shí)驗(yàn)中, 獲取、挪動、點(diǎn)擊物體之前受試者會將大量的注視投向目標(biāo)物體; 而被動任務(wù)型實(shí)驗(yàn)不存在這樣的注視模式——此因素可能會導(dǎo)致兩種實(shí)驗(yàn)任務(wù)下眼動模式的差異。Pyykk?nen- Klauck和Crocker (2016)綜述對比了采用兩種任務(wù)類型的眼動實(shí)驗(yàn)結(jié)果, 認(rèn)為主動任務(wù)中一些語言效應(yīng)(如: 詞頻效應(yīng))在眼動指標(biāo)上表現(xiàn)得更為敏感, 受試者能更快地鎖定目標(biāo)物體, 顯示出更迅速實(shí)時(shí)的語言理解過程。而聽句子看圖的被動任務(wù)型視覺情境范式實(shí)驗(yàn), 因不需要受試者完成額外任務(wù), 相對而言具有更好的生態(tài)效度(Huettig et al., 2011a); 而且可以被用于檢驗(yàn)?zāi)男┛谡Z加工效應(yīng)是在語言與視覺交互中普遍存在的, 哪些僅在特殊的實(shí)驗(yàn)任務(wù)下才存在(Huettig et al., 2011b)。
視覺情境范式有兩個(gè)主要的變體——拼詞呈現(xiàn)范式(printed-word paradigm, Huettig & McQueen, 2007)與空屏呈現(xiàn)范式(blank screen paradigm, Altmann, 2004)。拼詞呈現(xiàn)范式中, 視覺刺激圖片被替換為出現(xiàn)在屏幕上的詞語。受試者會聽到與該詞相關(guān)的語音輸入, 同時(shí)其在每個(gè)字母上的眼動注視軌跡被記錄下來用于分析。拼詞呈現(xiàn)范式可以用于檢驗(yàn)語音的識別過程、研究正字法信息如何被實(shí)時(shí)加工等問題??掌脸尸F(xiàn)范式主要用于揭示短期記憶在實(shí)時(shí)語言加工中的作用。在視覺刺激圖片呈現(xiàn)幾秒后, 呈現(xiàn)空白屏幕(一般1秒), 然后播放語音指令。采用該范式的實(shí)驗(yàn)可以證明, 即使在視覺刺激圖片中的物體消失之后, 受試者聽到語言指令仍然會看向相關(guān)物體原來所在的位置(Knoeferle & Crocker, 2007)。空屏呈現(xiàn)范式為心智表征提供了依據(jù): 心智表征形成后, 可以不依賴視覺刺激, 而暫時(shí)存儲在短期記憶中, 參與后續(xù)的語言加工。
視覺情境范式實(shí)驗(yàn)數(shù)據(jù)分析中的常用因變量為注視和眼跳。其中最常用的注視指標(biāo)是注視比例(fixation proportion), 即在指定時(shí)間窗口內(nèi)落入某一興趣區(qū)的注視點(diǎn)在所有試次中的比例。眼跳(saccade)數(shù)據(jù)常用的指標(biāo)包括眼跳比例(即所有試次中看向目標(biāo)興趣區(qū)的眼跳比例)和眼跳反應(yīng)時(shí)(即當(dāng)目標(biāo)詞刺激出現(xiàn)后, 看向目標(biāo)興趣區(qū)所需要的眼跳時(shí)長)。數(shù)據(jù)中的自變量可以是實(shí)驗(yàn)設(shè)計(jì)的組內(nèi)變量(如: 實(shí)驗(yàn)條件與控制條件、歧義句與非歧義句等), 也可以是組間變量(如: 不同語言背景組、年齡組等)。
視覺情境范式的優(yōu)勢在于所產(chǎn)出的數(shù)據(jù)具有高度的時(shí)間精確性, 現(xiàn)有的科研用眼動儀可以達(dá)到1000 Hz的取樣率, 即每一毫秒捕捉一次眼動位置, 可以提供準(zhǔn)確的時(shí)間進(jìn)程信息。以興趣區(qū)注視比例這一數(shù)據(jù)指標(biāo)為例, 研究者不僅可以跨組對比在某一時(shí)間窗口內(nèi)不同條件組下注視比例的均值, 以確定口語加工中的某一效應(yīng); 更重要的是可以探究效應(yīng)出現(xiàn)的時(shí)間(即注視比例在不同條件下開始產(chǎn)生顯著區(qū)別的時(shí)間)以及效應(yīng)隨著時(shí)間發(fā)展而變化的曲線模式。
時(shí)間上的精確性是視覺情境范式數(shù)據(jù)的最重要特點(diǎn), 如何利用好時(shí)間維度信息是該范式數(shù)據(jù)分析的關(guān)鍵。根據(jù)利用時(shí)間信息的方式, 可將現(xiàn)有的數(shù)據(jù)分析方法歸為三類: (1)指定時(shí)間興趣區(qū)內(nèi)注視比例均值對比; (2)效應(yīng)出現(xiàn)、持續(xù)的時(shí)間進(jìn)程分析; (3)效應(yīng)隨時(shí)間變化的曲線模式分析。為了更好地闡釋三類方法的應(yīng)用場景與分析邏輯, 本文選用了Allopenna等人(1998)研究中的實(shí)驗(yàn)物體示意圖(圖2)和注視比例數(shù)據(jù)圖(圖3)作為示例(該研究的詳細(xì)討論見第3.1節(jié))。
第一類分析方法是分析視覺情境范式數(shù)據(jù)最常用、最直觀的方法——將指定時(shí)間興趣區(qū)內(nèi)注視比例均值進(jìn)行對比, 如: 對比從目標(biāo)詞“燒杯”開始呈現(xiàn)到目標(biāo)詞結(jié)束的約375 ms內(nèi)聽者對圖2中幾個(gè)物體的注視比例。這一分析方法將注視比例、時(shí)長或者眼跳指標(biāo)作為因變量, 組內(nèi)和組間變量作為自變量, 采用-test、ANOVA、混合效應(yīng)模型(linear mixed-effects model)等統(tǒng)計(jì)手段對比不同物體之間或者不同條件組之間注視比例的差別。相比于-test和ANOVA, 混合效應(yīng)模型是目前應(yīng)用最廣的分析方法, 它可以將受試者之間以及試次之間的差異作為隨機(jī)變量納入模型, 實(shí)現(xiàn)對效應(yīng)更準(zhǔn)確的模擬與測試(應(yīng)用示例: Gardner et al., 2021; Grüter et al., 2020)。需要注意的是, 此類統(tǒng)計(jì)方法通常要求數(shù)據(jù)符合正態(tài)分布, 而注視比例的閾值范圍在0到1之間, 一般需要事先進(jìn)行對數(shù)(log)轉(zhuǎn)換或者邏輯(logit)轉(zhuǎn)換(Ito & Knoeferle, 2022)。分析指定時(shí)間興趣區(qū)內(nèi)注視比例均值是最簡便的視覺情境范式數(shù)據(jù)分析方法, 適用于大部分實(shí)驗(yàn)設(shè)計(jì)。其主要劣勢在于人為設(shè)定的時(shí)間窗口降低了數(shù)據(jù)的時(shí)間精度, 無法很好地捕捉注視比例隨著時(shí)間變化的趨勢; 補(bǔ)償方法可以是將不同時(shí)間興趣區(qū)作為自變量加入分析模型, 檢驗(yàn)時(shí)間興趣區(qū)這一變量本身是否顯著影響注視比例。
圖2 視覺情境范式實(shí)驗(yàn)視覺刺激示意圖
注:語音指令為:“燒杯”。4個(gè)用于測量的物體分別為: 左?目標(biāo)指代物體(referent)“燒杯”、右?語音同群競爭項(xiàng)(cohort)“甲蟲”、上?韻律競爭項(xiàng)(rhyme)“揚(yáng)聲器”、下?無關(guān)項(xiàng)(unrelated) carriage “嬰兒車”。
資料來源: Allopenna等人(1998), 已獲使用許可。
圖3 使用視覺情境范式的詞匯識別任務(wù)所得數(shù)據(jù)示意圖
注:橫軸: 從目標(biāo)詞開始呈現(xiàn)后的1000 ms時(shí)間軸; 縱軸: 注視比例。4條曲線分別代表看向目標(biāo)指代物體(referent)“燒杯”、語音同群競爭項(xiàng)(cohort)“甲蟲”、韻律競爭項(xiàng)(rhyme)“揚(yáng)聲器”、無關(guān)項(xiàng)(unrelated)“嬰兒車”的注視比例。
資料來源: Allopenna等人(1998), 已獲使用許可。
第二類方法是對效應(yīng)出現(xiàn)、持續(xù)的時(shí)間進(jìn)程進(jìn)行分析。此類方法充分利用了視覺情境范式精確的時(shí)間進(jìn)程信息, 可用于探究某一口語加工效應(yīng)出現(xiàn)的確切時(shí)間。其中, 分叉點(diǎn)分析(divergent point analysis)將潛在效應(yīng)出現(xiàn)的時(shí)間段再細(xì)分為若干小的時(shí)間窗口(如20 ms), 在每一個(gè)小的時(shí)間窗口內(nèi)對比檢驗(yàn)兩個(gè)條件組的注視比例是否存在顯著區(qū)別, 從而找出兩組注視比例曲線最早開始出現(xiàn)顯著分叉的時(shí)間點(diǎn)。例如: 圖3中目標(biāo)指代物體“燒杯”的注視比例曲線與語音同群競爭項(xiàng)“甲蟲”的注視比例曲線分叉點(diǎn)大約在400 ms左右, 晚于目標(biāo)指代物體與韻律競爭項(xiàng)“揚(yáng)聲器”的注視比例分叉點(diǎn), 而通過分叉點(diǎn)分析可以統(tǒng)計(jì)計(jì)算出不同曲線之間開始顯著分叉的具體時(shí)間點(diǎn)。
簡單的分叉點(diǎn)分析只能界定出效應(yīng)開始的時(shí)間點(diǎn)(兩個(gè)條件下變化曲線的分叉點(diǎn)), 并不能檢驗(yàn)分叉點(diǎn)在時(shí)間上的變化區(qū)間, 也不能跨條件組比較兩個(gè)分叉點(diǎn)是否存在統(tǒng)計(jì)學(xué)意義上的顯著不同。而基于自助抽樣檢驗(yàn)(bootstrapping)的進(jìn)階分叉點(diǎn)分析法, 則可以為每一個(gè)分叉時(shí)間點(diǎn)提供置信區(qū)間, 從而實(shí)現(xiàn)跨條件組對比(Stone et al., 2021; 應(yīng)用示例: Corps et al., 2021)。進(jìn)階的分叉點(diǎn)分析法可為對比研究不同群體語言實(shí)時(shí)加工的時(shí)間進(jìn)程提供有效的分析工具, 例如, 一語者與二語者在語言加工的某一效應(yīng)上(如: 預(yù)測加工)可能并不存在效應(yīng)量上的差別, 但是兩類被試者在效應(yīng)開始的時(shí)間上可能存在差異(Kaan & Grüter, 2021), 采用這種分析方法就可以有效檢驗(yàn)二語者預(yù)測加工開始的時(shí)間是否會顯著地滯后于一語者。除了分叉點(diǎn)分析法, 基于頻率簇的置換檢驗(yàn)法(cluster?based permutation analysis; Barr et al., 2014)和自助抽樣檢驗(yàn)時(shí)間序列差別法(bootstrapped differences of timeseries; Seedorff et al., 2018), 均可以用于界定兩個(gè)條件組數(shù)據(jù)出現(xiàn)顯著差別的時(shí)間(詳見眼動數(shù)據(jù)分析方法綜述: Ito & Knoeferle, 2022)。但此類分析方法均無法對不同條件下效應(yīng)隨時(shí)間變化的趨勢進(jìn)行分析, 要回答此類問題需要借助第三類方法分析變化曲線。
第三類方法主要針對視覺情境范式中效應(yīng)隨時(shí)間變化的曲線模式進(jìn)行分析。其中, 生長曲線分析法(growth-curve analysis)將不同條件組下關(guān)鍵興趣區(qū)的注視比例隨著時(shí)間變化的曲線進(jìn)行模擬、分析, 檢驗(yàn)不同條件組下注視比例曲線變化的模式是否有所不同, 進(jìn)而檢證效應(yīng)是否隨著時(shí)間發(fā)展有所變化(Mirman, 2014; Mirman et al., 2008)。不同于第一類分析法, 生長曲線分析法不僅包括了以時(shí)間作為變量的線性模型, 還可以在模型中加入時(shí)間變量的二次方、三次方, 以模擬注視比例隨著時(shí)間出現(xiàn)曲線變化的模式1在包含時(shí)間變量的生長曲線基本模型中(如: Y = β0 + β1× Time), β0為截距, 表示當(dāng)時(shí)間為零時(shí)(即開始時(shí))注視比例(Y)的數(shù)值; 斜率β1表示隨著時(shí)間的推移, 注視比例的變化趨勢; 如將時(shí)間的二次方(Time2)、三次方(Time3)加入模型中, 即可以允許注視比例隨著時(shí)間推移呈拋物線變化——Time2可以模擬有一次趨勢方向變化(如先升后降, 或先降后升)的曲線, 而Time3可以模擬含兩次方向變化的曲線。, 如在圖3中對語音同群競爭項(xiàng)“甲蟲”的注視比例出現(xiàn)了呈拋物線狀先升后降的趨勢, 且斜率不同于韻律競爭項(xiàng)“揚(yáng)聲器”, 這一模式就可以采用包含二次方時(shí)間變量的生長曲線模型進(jìn)行分析。在口語加工過程中, 注視隨著時(shí)間的變化趨勢常常并非線性上升或者下降, 對變化曲線的模擬和對比能夠更精確地分析語言理解的時(shí)間發(fā)展進(jìn)程(應(yīng)用示例: Henry et al., 2022; Koring et al., 2012; Wei et al., 2019)。需要注意的是, 生長曲線分析法存在數(shù)據(jù)自動相關(guān)性問題(autocorrelation), 即相鄰的兩個(gè)時(shí)間窗口在注視位置上存在高度相關(guān)性, 增加了出現(xiàn)統(tǒng)計(jì)學(xué)一型錯(cuò)誤(假陽性)的幾率(Huang & Snedeker, 2020), 因此常需要與第一類和第二類的分析方法相結(jié)合, 共同驗(yàn)證效應(yīng)。廣義加性混合模型(generalized additive mixed model)分析也可以用于對非線性的數(shù)據(jù)曲線進(jìn)行模擬, 通過薄板樣條插值(thin plate regression splines)更靈活地模擬變化曲線, 并且減少統(tǒng)計(jì)學(xué)上的自動相關(guān)性, 一定程度上彌補(bǔ)了生長曲線分析法的劣勢(Porretta et al., 2018)。
學(xué)界早年關(guān)于語言加工時(shí)間進(jìn)程的爭論主要集中在加工即時(shí)性問題上。早期實(shí)驗(yàn)主要采用詞匯再認(rèn)、線索回憶、自定步速閱讀等任務(wù), 得到的證據(jù)傾向于支持延遲整合加工(如: Garnham et al., 1996; Stewart et al., 2000), 即語言使用者加工語言會延遲到句子末尾再進(jìn)行整合(delayed-integration interpretation; Millis & Just, 1994)。然而, 隨著眼動、腦電事件相關(guān)電位(ERP)等測量方法的推廣, 精確測量閱讀時(shí)間、腦電信號反應(yīng)成為可能, 越來越多的證據(jù)支持語言加工的即時(shí)性, 即語言使用者會隨著語言的輸入即刻處理遇到的信息(incremental interpretation; Traxler et al., 1997; Cozijn et al., 2011; Koornneef & van Berkum, 2006)。對于視覺情境下的眼動測量, 盡管從接收到聽覺語言信號刺激到做出眼動反應(yīng)需要大約200 ms(Matin et al., 1993; Saslow, 1967), 使用視覺情境范式的大量口語實(shí)驗(yàn)中仍發(fā)現(xiàn)了在測試詞開始呈現(xiàn)后、下一詞未開始之前眼動注視投向目標(biāo)物的效應(yīng), 說明語言使用者對口語中信息的處理是即刻發(fā)生的(詳見3.1~3.5小節(jié))。
在即時(shí)性加工被廣泛認(rèn)可的基礎(chǔ)之上, 近年來語言加工時(shí)間進(jìn)程的討論主要聚焦于語言使用者何時(shí)利用語境信息來理解語言。語言使用者可能在測試詞出現(xiàn)的同時(shí), 即時(shí)地結(jié)合測試詞的語義與前文語境進(jìn)行加工; 也可能在測試詞出現(xiàn)之前、加工語境信息的過程中, 對測試詞的語音、語義甚至所處的句法結(jié)構(gòu)提前進(jìn)行預(yù)測性加工(expectation-based account; Levy, 2008)。在對預(yù)測效應(yīng)的檢測上, 視覺情境范式相對于閱讀范式、ERP測量等方法具有明顯優(yōu)勢(Huettig & Guerra, 2019)。大部分采用后者的研究只能在測試詞出現(xiàn)的位置捕捉到由測試詞語義與語境信息一致性所產(chǎn)生的效應(yīng); 而視覺情境范式可以在關(guān)鍵詞出現(xiàn)之前, 更早地檢驗(yàn)到語境對受試者在視覺場景中注視方式的影響, 為口語的預(yù)測性加工提供了關(guān)鍵性證據(jù)。下文將重點(diǎn)分析視覺情境范式在語音、語義、句法、語篇與語用等不同層面如何回答語言加工的時(shí)間進(jìn)程問題。需要說明的是, 不同層面的信息在口語加工中并非獨(dú)立, 而是會相互影響(見綜述: Kuperberg & Jaeger, 2016); 而本文出于利于分類總結(jié)的考慮, 將各個(gè)層面單列綜述。
視覺情境范式中, 聽者聽到一個(gè)詞就會在視覺范疇內(nèi)尋找指代的物體?;谶@一特點(diǎn), 視覺情境范式可以用來檢驗(yàn)詞匯的識別過程, 并且探究聽者如何利用已有信息預(yù)測語音形式。Allopenna等人(1998)利用該范式檢驗(yàn)了在口語詞匯的語音識別過程中, 語音輸入與詞匯表征的匹配過程是否是漸進(jìn)發(fā)生的。如果這個(gè)匹配過程在時(shí)間上是漸進(jìn)的, 那么可以預(yù)測目標(biāo)指代物體“燒杯”的語音同群競爭項(xiàng)“甲蟲”, 會比的韻律競爭項(xiàng)“揚(yáng)聲器”有更強(qiáng)的干擾效應(yīng)(見圖2), 因?yàn)檎Z音上與在詞語的開頭位置有重疊, 而與的重疊發(fā)生在后期。Allopenna等人的視覺情境范式眼動實(shí)驗(yàn)結(jié)果驗(yàn)證了這一假設(shè): 注視目標(biāo)物體“燒杯”的比例和注視“甲蟲”的比例在語音加工的早期都出現(xiàn)了上升(見圖3), 而對“揚(yáng)聲器”這一物體的注視比例則是在詞加工的較晚時(shí)間才出現(xiàn)上升, 而且注視比例上升的幅度也相對比較小。視覺情境范式提供的眼動注視比例數(shù)據(jù)有效揭示了詞匯識別中語音輸入和詞匯表征的匹配過程。
在語言使用者能否通過語境信息預(yù)測即將出現(xiàn)詞語的語音信息這個(gè)問題上, 已有的ERP研究結(jié)果存在很大分歧, 并未能得到穩(wěn)定可復(fù)制的語音預(yù)測效應(yīng)(DeLong et al., 2005; Nieuwland et al., 2018), 而視覺情境范式為探討語音預(yù)測問題提供了有力的證據(jù)。Ito等人(2018)采用視覺情境范式的眼動實(shí)驗(yàn), 發(fā)現(xiàn)在高度可預(yù)測的語境下(例如:), 聽者不僅會預(yù)測性地注視目標(biāo)物體(“云”), 還會更多地注視目標(biāo)物體的語音競爭項(xiàng)(與共享開頭音節(jié)的“小丑”), 這一發(fā)現(xiàn)證實(shí)了語音形式預(yù)測的存在。更重要的是, 在視覺情境范式下這一預(yù)測效應(yīng)在目標(biāo)詞出現(xiàn)前的500 ms就已經(jīng)出現(xiàn), 充分證明語言加工中對語音形式的預(yù)測是主動的(proactive), 相比于一些其他范式僅在目標(biāo)詞位置發(fā)現(xiàn)整合效應(yīng)的結(jié)果, 視覺情境范式為語言預(yù)測提供了更為直接的證據(jù)。此外, 視覺情境范式還為研究語音預(yù)測機(jī)制提供了實(shí)證依據(jù): 語音預(yù)測與語義預(yù)測一樣, 其背后機(jī)制都是基于關(guān)聯(lián)——通過加工語境, 語言使用者在心理詞匯中激活了相應(yīng)的語義和語音形式, 從而對即將出現(xiàn)的詞語形成預(yù)期(Kukona, 2020; 語音預(yù)測與語義預(yù)測對比見: Karimi et al., 2019)。值得注意的是, 使用西方語言的語音預(yù)測研究存在一個(gè)無法避免的問題, 即目標(biāo)詞(如)與其語音競爭項(xiàng)(如)不僅在語音上有重合, 在正字法信息上也存在交疊。Li等人(2022)使用語音與正字法信息相對分離的漢語, 通過視覺情境范式實(shí)驗(yàn), 也發(fā)現(xiàn)了類似的語音形式預(yù)測, 驗(yàn)證了語音預(yù)測的普遍性。
視覺情境范式對于句法加工時(shí)間進(jìn)程研究的貢獻(xiàn)主要在兩個(gè)方面。首先, 該范式可以用于分析歧義句的解歧過程, 如花園路徑句(garden-path sentences)。Tanenhaus等人(1995)首次采用視覺情境范式探究了存在結(jié)構(gòu)歧義的英文句子加工過程, 以及視覺場景對句子解歧的影響。如在出現(xiàn)前存在結(jié)構(gòu)歧義:既可以是動作的方向, 又可以是的地點(diǎn)限定語。采用視覺情境范式眼動追蹤的實(shí)驗(yàn)方法, Tanenhaus等人發(fā)現(xiàn)在視覺場景中只有一個(gè)蘋果的時(shí)候, 聽者會更傾向于把解讀為動作的方向(眼動注視從蘋果直接移向毛巾); 而當(dāng)視覺場景中有兩個(gè)蘋果時(shí), 聽者則更傾向于將其解讀為的地點(diǎn)限定語而非動作方向(在鎖定毛巾上的蘋果之后直接看向真正的目標(biāo)地點(diǎn)——箱子)。
其次, 視覺情境范式為句法加工中不同層面信息何時(shí)被加工這一問題提供了新的證據(jù)。早期的雙階段理論(two-stage account)認(rèn)為在句子理解過程中, 句法結(jié)構(gòu)分析要先于其他非結(jié)構(gòu)性信息(包括詞匯語義、世界知識、語篇等)的加工(initial syntactic analysis, Frazier, 1987); 基于約束的語言加工理論(constraint-based account)則認(rèn)為句子加工涉及到多個(gè)層面信息的共同限制(Trueswell et al., 1994), 這些限制會在句子加工的早期就對句法結(jié)構(gòu)分析產(chǎn)生影響。視覺情境范式實(shí)驗(yàn)研究支持了后者的假說。如: Snedeker和Trueswell (2004)研究了具有歧義的介詞短語結(jié)構(gòu)(vs)。既可以是賓語的限定成分, 又可以是完成動作所借助的工具。他們發(fā)現(xiàn), 視覺場景中的信息(物體的個(gè)數(shù))、動詞的偏向(偏向限定語解讀的動詞“選擇” vs偏向動作工具解讀的動詞“撓”)都會在句子加工的早期對歧義句的句法結(jié)構(gòu)的分析產(chǎn)生影響, 體現(xiàn)在物體個(gè)數(shù)、動詞偏向不同的情況下, 聽者會看向不同的目標(biāo)對象。此外, Chambers等人(2002, 2004)的研究還發(fā)現(xiàn), 與視覺場景中物體形態(tài)、大小、特質(zhì)相關(guān)的世界知識信息也會影響句法結(jié)構(gòu)的分析, 并且這些影響都發(fā)生在句子加工的最開始階段, 駁斥了句法結(jié)構(gòu)分析為先的理論性假設(shè)。
視覺情境范式對語義加工研究的一大貢獻(xiàn)是, 揭示了語義加工不僅是即時(shí)的, 在很多情況下甚至是具有預(yù)測性的(Altmann & Kamide, 1999; Kamide et al., 2003; 理論綜述見: Pickering & Gambi, 2018)。Altmann和Kamide (1999)最早使用視覺情境范式, 研究了動詞?論元整合的時(shí)間進(jìn)程: 與無關(guān)動詞move “移動”相比, 聽者在聽到的動詞“吃”時(shí), 會更早地注視到視覺場景中的蛋糕這一物體上。這說明動詞的語義信息(即“吃”需要搭配可以吃的論元)會幫助聽者預(yù)測論元的指代對象。Kamide等人(2003)的后續(xù)研究總結(jié)了語義加工的主要特征: (1)動詞與主語的組合共同促進(jìn)了語義預(yù)測, 例如主語“男人”與動詞“騎”的組合會預(yù)測高可能性賓語“摩托車”; (2)除了動詞之外, 附著于論元的格標(biāo)記也會激活預(yù)測加工, 如在動詞后置的日語中, 聽者在動詞還未出現(xiàn)之前也可以通過格標(biāo)記提前預(yù)測即將出現(xiàn)的論元指代對象。
使用視覺情境范式對語義加工的研究不僅限于動詞?論元結(jié)構(gòu)。Chow和Chen (2020)使用該范式研究了漢語量詞信息與語境中世界知識的整合加工, 發(fā)現(xiàn)漢語使用者可以根據(jù)語境中的世界知識, 在加工的早期對將要出現(xiàn)的名詞形成預(yù)期, 而這種預(yù)期會受到量詞的影響, 在加工后期進(jìn)一步修正。此外, Grüter等人(2020)對一語者和二語者量詞加工的研究發(fā)現(xiàn), 一語者與二語者都對量詞包含的語法搭配信息敏感, 并且會利用該信息進(jìn)行預(yù)測性加工。但是, 二語者在加工中會更加依賴語義信息(如: 量詞“條”會搭配長條狀物體), 表現(xiàn)為當(dāng)視覺場景中出現(xiàn)不符合量詞語法搭配、但符合長條狀語義的干擾物時(shí), 二語者會更多地注視干擾物。
視覺情境范式可以用于探究語篇理解的兩個(gè)重要議題——指代關(guān)系與連接關(guān)系。首先, 視覺情境范式下的眼動追蹤可以有效檢驗(yàn)代詞與先行詞之間指代關(guān)系的建立過程。一般認(rèn)為, 當(dāng)聽者聽到與前文語篇有共同指代關(guān)系的代詞、并注視某相關(guān)物體時(shí), 可以說明此物體被認(rèn)為是潛在的目標(biāo)指代物(Runner et al., 2003)?;谶@一機(jī)制, 研究者利用視覺情境范式探討了諸多指代關(guān)系加工中的時(shí)間進(jìn)程問題。例如, Arnold等人(2000)最早發(fā)現(xiàn)性別線索和指代對象被提及的順序都對指代消解有即時(shí)性影響: 聽者可以在加工早期利用不同性的語言標(biāo)記形式(如: 英語單數(shù)第三人稱或者)鎖定指代的目標(biāo); 同時(shí), 句中第一位提及的人物(如: SVO語序句子中的主語)會更容易被解讀為指代對象。在針對隱含因果對代詞消解影響的研究中, Pyykk?nen和J?rvikivi (2010)發(fā)現(xiàn), 隱含因果效應(yīng)在動詞之后就已經(jīng)顯現(xiàn), 聽者聽到動詞后會更多地注視動詞所偏向的指代對象, 如: 在中, 動詞“驚嚇”更偏向第一個(gè)人物, 所以當(dāng)聽者聽到時(shí), 會更多地注視; 而在中, 動詞“害怕”則更偏向第二個(gè)人物, 當(dāng)動詞出現(xiàn)時(shí), 聽者更多注視。這一發(fā)現(xiàn)證明了指代加工是即時(shí)發(fā)生的, 甚至具有預(yù)測性, 而非延遲整合(另見: Cozijn et al., 2011)。
視覺情境范式也為連接關(guān)系在實(shí)時(shí)語言理解中的建立提供了豐富的實(shí)證證據(jù)。Wei等人(2019)采用視覺情境范式探究了主觀因果關(guān)系(論點(diǎn)?論據(jù))和客觀因果關(guān)系(原因?結(jié)果)的加工以及漢語連詞在其中的作用。研究發(fā)現(xiàn), 相較于客觀因果關(guān)系連詞“因而”, 當(dāng)聽者聽到標(biāo)記主觀因果關(guān)系的連詞“可見”時(shí), 相對于客觀因果關(guān)系連詞“因而”, 他們會更多地注視視覺場景中的說話人。這表明主觀與客觀因果關(guān)系的加工可能在確認(rèn)、追蹤說話人的過程上有所不同, 而且追蹤說話人的過程是隨著主觀因果連詞的輸入而即時(shí)發(fā)生的, 實(shí)驗(yàn)證據(jù)證明了語篇加工的即時(shí)性。Mak等人(2017)通過在視覺場景中提供兩個(gè)備選的指代對象, 并追蹤聽者對兩個(gè)指代對象的注視軌跡, 探究俄語的兩個(gè)連詞在連接關(guān)系建立中的作用。研究發(fā)現(xiàn), 連詞“而且” (用于標(biāo)記延續(xù)關(guān)系, 連詞前后兩個(gè)從句的主語一致)和連詞“而且/但是” (用于標(biāo)記轉(zhuǎn)變關(guān)系, 前后兩個(gè)從句是不同的主語)可以幫助單語兒童和雙語兒童提前預(yù)測第二個(gè)從句的主語是否轉(zhuǎn)變, 印證了在口語語篇理解中存在的預(yù)測性加工現(xiàn)象。
語用隱含義(pragmatic implicature)何時(shí)被加工、這一過程是否先于語義分析是語用學(xué)領(lǐng)域關(guān)注的重要議題。字面義先行假設(shè)(literal-first hypothesis; Huang & Snedeker, 2009, 2011)認(rèn)為對等級含義詞字面語義(如“一些”的語義解讀應(yīng)為: 一些?同時(shí)可以是全部)的加工先于該詞的語用隱含義(一些?但并非全部); Levinson (2000)認(rèn)為語用隱含義是默認(rèn)自動加工的; 基于約束的加工理論則認(rèn)為語用隱含義是否優(yōu)先激活取決于是否具有充足的語境支持(Degen & Tanenhaus, 2015, 2016)。
視覺情境范式是對比語義和語用信息加工時(shí)間線的重要實(shí)驗(yàn)手段。Huang和Snedeker (2011)的視覺情境范式眼動實(shí)驗(yàn)發(fā)現(xiàn), 聽者在加工“一些”時(shí)會先注視與語義解讀(一些?同時(shí)可以是全部)相符的對象, 而利用“一些”的語用隱含義(一些?但并非全部)來消除歧義、排除“全部”的指代對象這一過程要晚于的語義加工(約晚800 ms)。Degen和Tanenhaus (2016)的研究則發(fā)現(xiàn), 語用隱含義加工延遲的現(xiàn)象僅僅出現(xiàn)在當(dāng)數(shù)字詞也作為指令出現(xiàn)的情況下; 而當(dāng)數(shù)字詞不存在時(shí),的語用隱含義加工并不會晚于字面語義含義的加工。Gardner等人(2021)改進(jìn)了Huang和Snedeker (2011)實(shí)驗(yàn)中的視覺物體個(gè)數(shù)使其更加符合的概念, 他們發(fā)現(xiàn)當(dāng)有足夠的語境支持時(shí), 語用隱含義的加工是迅速即時(shí)的, 即聽者可以運(yùn)用的語用隱含義快速鎖定目標(biāo)對象。此外, 語言使用者對語用信息的加工還很大程度受到說話人可信度的影響——面對可信度高的說話人, 受試者可以較早地利用等級形容詞的語用含義鎖定目標(biāo)物體, 而面對可信度低的說話人, 則未出現(xiàn)早期的語用加工效應(yīng)(Gardner et al., 2021)。
眼動視覺情境范式為研究語言理解提供了兩項(xiàng)重要信息: 一是視覺維度的注視指標(biāo); 二是精確的時(shí)間測量。前者為心理語言學(xué)、認(rèn)知心理學(xué)等領(lǐng)域的實(shí)驗(yàn)設(shè)計(jì)提供了豐富的可能性; 而精確的時(shí)間測量, 為語音、詞匯、句法、語義、語篇、語用等各個(gè)層面的口語加工提供了準(zhǔn)確的時(shí)間進(jìn)程信息, 極大地拓展了語言理解的相關(guān)理論。兩者結(jié)合, 可以有效反映在接收到口語信息輸入時(shí), 聽者在視覺場景中的注視位置如何隨著時(shí)間變化, 進(jìn)而為語言理解中的一項(xiàng)重要議題——口語加工的時(shí)間進(jìn)程提供了直接證據(jù)。視覺情境范式的實(shí)驗(yàn)研究通過分析高時(shí)間敏感性的眼動測量數(shù)據(jù), 發(fā)現(xiàn)語言各個(gè)層面的加工都呈現(xiàn)出即時(shí)性甚至預(yù)測性的特點(diǎn), 這與一些早期研究中語言延時(shí)整合的發(fā)現(xiàn)不同, 說明語言加工時(shí)間進(jìn)程的研究結(jié)果與所采用的方法密不可分。此外, 視覺情境范式主要依賴聽力任務(wù), 并不需要受試者具有完整的識字閱讀能力, 可以用來考察低齡兒童、二語學(xué)習(xí)者、特殊語言障礙人群的語言加工過程(研究示例見: Canseco-Gonzalez et al., 2010; McMurray et al., 2010; Weber & Cutler, 2004)。
視覺情境范式的主要局限性之一在于無法提供加工時(shí)長的數(shù)據(jù), 因此不能解答語言理解加工困難的相關(guān)問題(Salverda & Tanenhaus, 2018)。而且視覺情境范式實(shí)驗(yàn)只能在視覺空間中呈現(xiàn)數(shù)目有限的靜態(tài)物體, 這也與日常語言理解的復(fù)雜視覺環(huán)境有所區(qū)別。真實(shí)的語言理解環(huán)境可能包括更多的物體以及動態(tài)的動作、事件等, 這也導(dǎo)致了該范式獲得的結(jié)果在可推廣性上有一定局限(Huettig et al., 2011a)。此外, 在只呈現(xiàn)有限數(shù)目物體的實(shí)驗(yàn)環(huán)境下, 聽者可能會提前對語言輸入形成一定的預(yù)期, 并策略性地注視某些物體, 因此眼動注視軌跡可能并不完全反映語言加工的過程(Henderson & Ferreira, 2004)。對于這點(diǎn)質(zhì)疑, Dahan和Tanenhaus (2004)根據(jù)其在詞匯識別上的研究提出了不同意見, 他們發(fā)現(xiàn)詞頻對詞匯識別的影響效應(yīng)并不會受到視覺空間中是否存在競爭項(xiàng)以及競爭項(xiàng)數(shù)目的影響, 由此推斷在視覺空間中提供有限數(shù)目的物體這一設(shè)置并不會影響視覺情境范式的有效性。
視覺情境范式的眼動研究仍有很大的發(fā)展空間。首先, 盡管連接假設(shè)理論中所提出的關(guān)于視覺信息和語言信息的理解過程假設(shè)已經(jīng)被大量實(shí)證結(jié)果所證實(shí), 任務(wù)目標(biāo)對語言加工的重要作用仍然有待進(jìn)一步探究。對比不同任務(wù)目標(biāo)下, 語言的加工過程如何隨著時(shí)間發(fā)展, 將是未來視覺情境范式眼動研究的方向之一。近年來, 眼動研究也開始使用三維虛擬現(xiàn)實(shí)(VR)技術(shù), 這一技術(shù)創(chuàng)新可以高度還原自然的語言交流場景, 同時(shí)保持對實(shí)驗(yàn)設(shè)置的精確控制。一些利用VR技術(shù)的視覺情境范式眼動實(shí)驗(yàn), 成功復(fù)現(xiàn)了語言加工中的一些經(jīng)典結(jié)果, 如預(yù)測性語言加工(Eichert et al., 2018; Heyselaar et al., 2020)。這類技術(shù)改進(jìn)不僅提高了視覺情境范式的生態(tài)效度, 還可以用于檢驗(yàn)在接近真實(shí)語言使用環(huán)境時(shí), 影響語言加工過程的諸多因素。理論和技術(shù)的創(chuàng)新都為更準(zhǔn)確有效地收集解讀眼動數(shù)據(jù)、探索語言加工提供了新的契機(jī)與更多的可能性。
林桐, 王娟. (2018). 基于視覺情境范式的口語詞匯理解研究進(jìn)展.,(9), 570?576.
邱麗景, 王穗蘋, 關(guān)心. (2009). 口語理解的視覺-情境范式研究., (1), 130?136.
Allopenna, P. D., Magnuson, J. S., & Tanenhaus, M. K. (1998). Tracking the time course of spoken word recognition using eye movements: Evidence for continuous mapping models.,(4), 419?439. https://doi.org/10.1006/jmla.1997.2558
Altmann, G. T. M. (2004). Language-mediated eye movements in the absence of a visual world: The “blank screen paradigm.”,(2), 79?87. https://doi.org/10.1016/ j.cognition.2004.02.005
Altmann, G. T. M., & Kamide, Y. (1999). Incremental interpretation at verbs: Restricting the domain of subsequent reference.,(3), 247?264. https://doi.org/10.1016/ s0010-0277(99)00059-1
Altmann, G. T. M., & Kamide, Y. (2007). The real-time mediation of visual attention by language and world knowledge: Linking anticipatory (and other) eye movements to linguistic processing.,(4), 502?518. https://doi.org/10.1016/ j.jml.2006.12.004
Altmann, G. T. M., & Mirkovi?, J. (2009). Incrementality and prediction in human sentence processing.,(4), 583-609. https://doi.org/10.1111/j.1551- 6709.2009.01022.x
Arnold, J. E., Eisenband, J. G., Brown-Schmidt, S., & Trueswell, J. C. (2000). The rapid use of gender information: Evidence of the time course of pronoun resolution from eyetracking.,(1), B13?B26. https://doi.org/10.1016/s0010-0277(00)00073-1
Barr, D. J., Jackson, L., & Phillips, I. (2014). Using a voice to put a name to a face: The psycholinguistics of proper name comprehension.,(1), 404?413. https://doi.org/10.1037/ a0031813
Canseco-Gonzalez, E., Brehm, L., Brick, C. A., Brown- Schmidt, S., Fischer, K., & Wagner, K. (2010). Carpet or cárcel: The effect of age of acquisition and language mode on bilingual lexical access.,(5), 669?705. https://doi.org/10.1080/ 01690960903474912
Chambers, C. G., Tanenhaus, M. K., Eberhard, K. M., Filip, H., & Carlson, G. N. (2002). Circumscribing referential domains during real-time language comprehension.,(1), 30?49. https://doi.org/ 10.1006/jmla.2001.2832
Chambers, C. G., Tanenhaus, M. K., & Magnuson, J. S. (2004). Actions and affordances in syntactic ambiguity resolution.,(3), 687?696. https://doi.org/ 10.1037/0278-7393.30.3.687
Chow, W. Y., & Chen, D. (2020). Predicting (in)correctly: Listeners rapidly use unexpected information to revise their predictions.,(9), 1149?1161. https://doi.org/10.1080/23273798. 2020.1733627
Cooper, R. M. (1974). The control of eye fixation by the meaning of spoken Language.,(1), 84?107. https://doi.org/10.1016/0010-0285(74)90005-x
Corps, R. E., Brooke, C., & Pickering, M. J. (2021). Prediction involves two stages: Evidence from visual-world eye-tracking.,, 104298. https://doi.org/10.1016/j.jml. 2021.104298
Cozijn, R., Commandeur, E., Vonk, W., & Noordman, L. G.. (2011). The time course of the use of implicit causality information in the processing of pronouns: A visual world paradigm study.,(4), 381?403. https://doi.org/10.1016/j.jml.2011.01.001
Dahan, D., & Tanenhaus, M. K. (2004). Continuous mapping from sound to meaning in spoken-language comprehension: Immediate effects of verb-based thematic constraints.,(2), 498?513. https://doi.org/10.1037/ 0278-7393.30.2.498
Degen, J., & Tanenhaus, M. K. (2015). Processing scalar implicature: A constraint-based approach.,(4), 667?710. https://doi.org/10.1111/cogs.12171
Degen, J., & Tanenhaus, M. K. (2016). Availability of alternatives and the processing of scalar implicatures: A visual world eye-tracking study.,(1), 172?201. https://doi.org/10.1111/cogs.12227
DeLong, K. A., Urbach, T. P., & Kutas, M. (2005). Probabilistic word pre-activation during language comprehension inferred from electrical brain activity.,(8), 1117?1121. https://doi.org/ 10.1038/nn1504
Eichert, N., Peeters, D., & Hagoort, P. (2018). Language- driven anticipatory eye movements in virtual reality.,(3), 1102?1115. https:// doi.org/10.3758/s13428-017-0929-z
Ferreira, F., Foucart, A., & Engelhardt, P. E. (2013). Language processing in the visual world: Effects of preview, visual complexity, and prediction.,(3), 165?182. https://doi.org/ 10.1016/j.jml.2013.06.001
Frazier, L. (1987). Sentence processing: A tutorial review. In M. Coltheart (Ed.),(pp. 559?586). Lawrence Erlbaum Associates.
Gardner, B., Dix, S., Lawrence, R., Morgan, C., Sullivan, A., & Kurumada, C. (2021). Online pragmatic interpretations of scalar adjectives are affected by perceived speaker reliability.,(2), e0245130. https://doi.org/ 10.1371/journal.pone.0245130
Garnham, A., Traxler, M., Oakhill, J., & Gernsbacher, M. A. (1996). The locus of implicit causality effects in comprehension.,(4), 517?543. https://doi.org/doi.org/10.1006/jmla.1996.0028
Grüter, T., Lau, E., & Ling, W. (2020). How classifiers facilitate predictive processing in L1 and L2 Chinese: The role of semantic and grammatical cues.,(2), 221?234. https://doi.org/ 10.1080/23273798.2019.1648840
Hanna, J. E., & Tanenhaus, M. K. (2004). Pragmatic effects on reference resolution in a collaborative task: Evidence from eye movements.,(1), 105?115. https://doi.org/10.1016/j.cogsci.2003.10.002
Henderson, J. M., & Ferreira, F. (2004). Scene perception for psycholinguists. In J. M. Henderson & F. Ferreira (Eds.),(pp. 1?58). Psychology Press. https://doi.org/10.4324/9780203488430
Henry, N., Jackson, C. N., & Hopp, H. (2022). Cue coalitions and additivity in predictive processing: The interaction between case and prosody in L2 German.,(3), 397?422. https://doi.org/ 10.1177/0267658320963151
Heyselaar, E., Peeters, D., & Hagoort, P. (2020). Do we predict upcoming speech content in naturalistic environments?,(4), 440?461. https://doi.org/10.1080/23273798.2020. 1859568
Huang, Y., & Snedeker, J. (2020). Evidence from the visual world paradigm raises questions about unaccusativity and growth curve analyses.,, 104251. https:// doi.org/10.1016/j.cognition.2020.104251
Huang, Y. T., & Snedeker, J. (2009). Semantic meaning and pragmatic interpretation in 5-year-olds: Evidence from real-time spoken language comprehension.,(6), 1723?1739. https://doi.org/10.1037/ a0016704
Huang, Y. T., & Snedeker, J. (2011). Logic and conversation revisited: Evidence for a division between semantic and pragmatic content in real-time language comprehension.,(8), 1161?1172. https://doi.org/10.1080/01690965.2010.508641
Huettig, F., & Guerra, E. (2019). Effects of speech rate, preview time of visual context, and participant instructions reveal strong limits on prediction in language processing.,, 196?208. https://doi.org/10.1016/ j.brainres.2018.11.013
Huettig, F., & McQueen, J. M. (2007). The tug of war between phonological, semantic and shape information in language-mediated visual search.,(4), 460?482. https://doi.org/10.1016/ j.jml.2007.02.001
Huettig, F., Olivers, C. N. L., & Hartsuiker, R. J. (2011a). Looking, language, and memory: Bridging research from the visual world and visual search paradigms.,(2), 138?150. https://doi.org/10.1016/ j.actpsy.2010.07.013
Huettig, F., Rommers, J., & Meyer, A. S. (2011b). Using the visual world paradigm to study language processing: A review and critical evaluation.,(2), 151?171. https://doi.org/10.1016/j.actpsy.2010.11.003
Ito, A., & Knoeferle, P. (2022). Analysing data from the psycholinguistic visual-world paradigm: Comparison of different analysis methods.. https://doi.org/10.3758/s13428-022-01969-3
Ito, A., Pickering, M. J., & Corley, M. (2018). Investigating the time-course of phonological prediction in native and non-native speakers of English: A visual world eye- tracking study.,, 1?11. https://doi.org/10.1016/j.jml.2017.09.002
Kaan, E., & Grüter, T. (2021). Prediction in second language processing and learning: Advances and directions. In E. Kaan & T. Grüter (Eds.),(pp. 1?24). John Benjamins.
Kaiser, E. (2016). Discourse-level Processing. In P. Knoeferle, P. Pyykk?nen-Klauck, & M. W. Crocker (Eds.),(pp. 151?184). John Benjamins Publishing.
Kamide, Y., Scheepers, C., & Altmann, G. T. M. (2003). Integration of syntactic and semantic information in predictive processing: Cross-linguistic evidence from German and English.,(1), 37?55. https://doi.org/10.1023/a:1021933015362
Karimi, H., Brothers, T., & Ferreira, F. (2019). Phonological versus semantic prediction in focus and repair constructions: No evidence for differential predictions.,, 25?47. https://doi.org/10.1016/j.cogpsych. 2019.04.001
Knoeferle, P., & Crocker, M. W. (2006). The coordinated interplay of scene, utterance, and world knowledge: Evidence from eye tracking.,(3), 481?529. https://doi.org/10.1207/s15516709cog0000_65
Knoeferle, P., & Crocker, M. W. (2007). The influence of recent scene events on spoken comprehension: Evidence from eye movements.,(4), 519?543. https://doi.org/10.1016/j.jml.2007.01.003
Knoeferle, P., Crocker, M. W., Scheepers, C., & Pickering, M. J. (2005). The influence of the immediate visual context on incremental thematic role-assignment: Evidence from eye-movements in depicted events.,(1), 95?127. https://doi.org/10.1016/j.cognition.2004.03.002
Koornneef, A. W., & van Berkum, J. J. A. (2006). On the use of verb-based implicit causality in sentence comprehension: Evidence from self-paced reading and eye tracking.,, 445?465. https:// doi.org/10.1016/j.jml.2005.12.003
Koring, L., Mak, P., & Reuland, E. (2012). The time course of argument reactivation revealed: Using the visual world paradigm.,(3), 361?379. https://doi.org/ 10.1016/j.cognition.2012.02.011
Kukona, A. (2020). Lexical constraints on the prediction of form: Insights from the visual world paradigm.,(11), 2153?2162. https://doi.org/10.1037/ xlm0000935
Kuperberg, G. R., & Jaeger, T. F. (2016). What do we mean by prediction in language comprehension?,(1), 32?59. https://doi.org/ 10.1080/23273798.2015.1102299
Levinson, S. C. (2000).. MIT Press.
Levy, R. (2008). Expectation-based syntactic comprehension.,(3), 1126?1177. https://doi.org/10.1016/ j.cognition.2007.05.006
Li, X., Li, X., & Qu, Q. (2022). Predicting phonology in language comprehension: Evidence from the visual world eye-tracking task in Mandarin Chinese.,(5), 531?547. https://doi.org/10.1037/ xhp0000999
Magnuson, J. S. (2019). Fixations in the visual world paradigm: Where, when, why?,(2), 113?139. https://doi.org/10.1007/ s41809-019-00035-3
Magnuson, J. S., Tanenhaus, M. K., Aslin, R. N., & Dahan, D. (2003). The time course of spoken word learning and recognition: Studies with artificial lexicons.,(2), 202?227. https://doi.org/10.1037/0096-3445.132.2.202
Mak, W. M., Tribushinina, E., Lomako, J., Gagarina, N., Abrosova, E., & Sanders, T. (2017). Connective processing by bilingual children and monolinguals with specific language impairment: Distinct profiles.,(2), 329?345. https://doi.org/10. 1017/s0305000915000860
Matin, E., Shao, K. C., & Boff, K. R. (1993). Saccadic overhead: Information-processing time with and without saccades.,(4), 372?380. https://doi.org/10.3758/bf03206780
McMurray, B., Samelson, V. M., Lee, S. H., & Tomblin, J. B. (2010). Individual differences in online spoken word recognition: Implications for SLI.,(1), 1?39. https://doi.org/10.1016/j.cogpsych.2009.06.003
McRae, K., Spivey-Knowlton, M. J., & Tanenhaus, M. K. (1998). Modeling the influence of thematic fit (and other constraints) in on-line sentence comprehension.,(3), 283?312. https://doi.org/ 10.1006/jmla.1997.2543
Millis, K. K., & Just, M. A. (1994). The influence of connectives on sentence comprehension.,(1), 128?147. https://doi.org/ 10.1006/jmla.1994.1007
Mirman, D. (2014).. CRC Press.
Mirman, D., Dixon, J. A., & Magnuson, J. S. (2008). Statistical and computational models of the visual world paradigm: Growth curves and individual differences.,(4), 475?494. https://doi.org/10.1016/j.jml.2007.11.006
Nieuwland, M. S., Politzer-Ahles, S., Heyselaar, E., Segaert, K., Darley, E., Kazanina, N., ... Huettig, F. (2018). Large-scale replication study reveals a limit on probabilistic prediction in language comprehension.,, 1?24. https://doi.org/10.7554/eLife.33468
Porretta, V., Kyr?l?inen, A.-J., van Rij, J., & J?rvikivi, J. (2018). Visual world paradigm data: From preprocessing to nonlinear time-course analysis. In I. Czarnowski, R. Howlett, & L. Jain (Eds.),(Vol. 73, pp. 268?277). Springer.
Pickering, M. J., & Gambi, C. (2018). Predicting while comprehending language: A theory and review.,(10), 1002?1044. https://doi.org/ 10.1037/bul0000158
Pyykk?nen, P., & J?rvikivi, J. (2010). Activation and persistence of implicit causality information in spoken language comprehension.,(1), 5?16. https://doi.org/10.1027/1618-3169/a000002.
Pyykk?nen-Klauck, P., & Crocker, M. W. (2016). Attention and eye movement metrics in visual world eye tracking. In P. Knoeferle, P. Pyykk?nen-Klauck, & M. W. Crocker (Eds.),(pp. 67?82). John Benjamins Publishing.
Rayner, K. (1978). Eye movements in reading and information processing.,(3), 618?660. https://doi.org/10.1037/0033-2909.85.3.618
Runner, J. T., Sussman, R. S., & Tanenhaus, M. K. (2003). Assignment of reference to reflexives and pronouns in picture noun phrases: Evidence from eye movements.,(1), B1?B13. https://doi.org/10.1016/S0010- 0277(03)00065-9
Salverda, A. P., Brown, M., & Tanenhaus, M. K. (2011). A goal-based perspective on eye movements in visual world studies.,(2), 172?180. https://doi. org/10.1016/j.actpsy.2010.09.010
Salverda, A. P., & Tanenhaus, M. K. (2017). The visual world paradigm. In A. M. B. de Groot & P. Hagoort (Eds.),(pp. 89?110). Wiley- Blackwell.
Saryazdi, R., & Chambers, C. G. (2021). Real-time communicative perspective taking in younger and older adults.,(3), 439?454.
Saslow, M. G. (1967). Latency of saccadic eye movement.,(8), 1030?1033. https://doi.org/10.2466/pms.2003.96.1.173
Seedorff, M., Oleson, J., & McMurray, B. (2018). Detecting when timeseries differ: Using the bootstrapped differences of timeseries (BDOTS) to analyze visual world paradigm data (and more).,, 55?67. https://doi.org/10.1016/j.jml.2018.05.004
Snedeker, J., & Trueswell, J. C. (2004). The developing constraints on parsing decisions: The role of lexical-biases and referential scenes in child and adult sentence processing.,(3), 238?299. https://doi.org/ 10.1016/j.cogpsych.2004.03.001
Stewart, A. J., Pickering, M. J., & Sanford, A. J. (2000). The time course of the influence of implicit causality information: Focusing versus integration accounts.,(3), 423?443. https://doi.org/10.1006/ jmla.1999.2691
Stone, K., Lago, S., & Schad, D. J. (2021). Divergence point analyses of visual world data: Applications to bilingual research.,(5), 833?841. https://doi.org/10.1017/s1366728920000607
Tanenhaus, M. K., Magnuson, J. S., Dahan, D., & Chambers, C. (2000). Eye movements and lexical access in spoken-language comprehension: Evaluating a linking hypothesis between fixations and linguistic processing.,(6), 557?580. https://doi.org/10.1023/a:1026464108329
Tanenhaus, M. K., Spivey-Knowlton, M. J., Eberhard, K. M., & Sedivy, J. C. (1995). Integration of visual and linguistic information in spoken language comprehension.,(5217), 1632?1634. https://doi.org/10.1126/science. 7777863
Traxler, M. J., Bybee, M. D., & Pickering, M. J. (1997). Influence of connectives on language comprehension: Eye tracking evidence for incremental interpretation.,(3), 481?497. https://doi.org/10.1080/027249897391982
Trueswell, J. C., Tanenhaus, M. K., & Garnsey, S. M. (1994). Semantic influences on parsing: Use of thematic role information in syntactic ambiguity resolution.,(3), 285?318. https://doi.org/ 10.1006/jmla.1994.1014
Weber, A., & Cutler, A. (2004). Lexical competition in non-native spoken-word recognition.,(1), 1?25. https://doi.org/10.1016/ S0749-596x (03)00105-0
Wei, Y., Mak, W. M., Evers-Vermeul, J., & Sanders, T. J. M. (2019). Causal connectives as indicators of source information: Evidence from the visual world paradigm.,, 102866. https://doi.org/10.1016/ j.actpsy.2019.102866
Visual world paradigm reveals the time course of spoken language processing
WEI Yipu
(School of Chinese as a Second Language, Peking University, Beijing 100871, China)
The visual world paradigm (VWP) assesses real-time language processing by tracking and measuring eye movements in visual contexts. Linking hypotheses, such as the coordinated interplay account and the goal-based linking hypothesis, establish the link between eye movements and the cognitive processes of language comprehension. Time sensitivity is characteristic of the data generated by this paradigm. Analytical methods include the analysis of fixation proportions within time windows, divergence point analysis and growth-curve analysis, etc. Studies using the VWP provide important evidence for speech and lexical recognition, syntactic parsing, semantic integration, and the processing of discourse and pragmatic information.
visual world paradigm; eye-tracking; spoken language processing
2023-02-06
* 教育部人文社會科學(xué)研究青年基金項(xiàng)目(21YJC740062)。
魏一璞, E-mail: weiyipu@pku.edu.cn
B842