關(guān)鍵詞:人工智能;大語(yǔ)言模型;語(yǔ)言能力;語(yǔ)法能力;語(yǔ)言習(xí)得;句法加工中圖分類號(hào):H0-05;TP18 文章標(biāo)志碼:A 文章編號(hào):1006-6152(2025)04-0073-11DOI:10.16388/j.cnki.cn42-1843/c.2025.04.007
語(yǔ)言習(xí)得研究的核心目標(biāo)在于揭示人類語(yǔ)言能力發(fā)展的必要條件和充分條件,聚焦先天稟賦與環(huán)境輸入的互動(dòng)機(jī)制。以Chomsky(1965)為代表的語(yǔ)言天賦論提出“刺激貧乏論”(PovertyofStimulus),強(qiáng)調(diào)人類具備特異性語(yǔ)言本能[1]。而實(shí)證主義學(xué)派則主張通過(guò)領(lǐng)域一般性學(xué)習(xí)機(jī)制與環(huán)境輸入的相互作用即可解釋語(yǔ)言發(fā)展2]。這種理論分歧凸顯出兩個(gè)關(guān)鍵問(wèn)題:第一,單純觀察人類語(yǔ)言環(huán)境難以有效區(qū)分先天機(jī)制與后天經(jīng)驗(yàn)的各自貢獻(xiàn);第二,語(yǔ)言習(xí)得神經(jīng)機(jī)制的驗(yàn)證仍需突破性研究方法的支持。當(dāng)前人工智能領(lǐng)域大語(yǔ)言模型(LLMs)的突破性發(fā)展為上述問(wèn)題提供了新的研究視角。LLMs是基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)言學(xué)習(xí)系統(tǒng)[3],其典型架構(gòu)包含數(shù)百億至數(shù)千億參數(shù)4],通過(guò)海量語(yǔ)料庫(kù)訓(xùn)練可掌握語(yǔ)法規(guī)則、語(yǔ)義表征及語(yǔ)用知識(shí)[5],展現(xiàn)出接近人類的文本生成、多任務(wù)處理等語(yǔ)言能力[6-7]。這類模型本質(zhì)上構(gòu)成了新型語(yǔ)言學(xué)習(xí)范本[8],其發(fā)展軌跡從統(tǒng)計(jì)語(yǔ)言模型到Transformer模型9],其語(yǔ)言能力發(fā)展對(duì)語(yǔ)言習(xí)得從理論到實(shí)踐都產(chǎn)生了深刻的影響,評(píng)測(cè)其語(yǔ)言能力和人類語(yǔ)言本能之間的差異成為熱點(diǎn)話題。本文通過(guò)回顧大語(yǔ)言模型語(yǔ)言能力研究,對(duì)比分析人類與LLMs在學(xué)習(xí)環(huán)境和機(jī)制方面的差異,重點(diǎn)探討大語(yǔ)言模型的語(yǔ)言能力評(píng)測(cè)特征和途徑。
一、大語(yǔ)言模型的語(yǔ)言能力
根據(jù)Chomsky(1965)對(duì)語(yǔ)言能力(competence)和語(yǔ)言表現(xiàn)(performance)的區(qū)分,“語(yǔ)言能力\"主要指對(duì)語(yǔ)言規(guī)則下意識(shí)的理解[1]。“大語(yǔ)言模型的語(yǔ)言能力”則指它對(duì)不同語(yǔ)言現(xiàn)象的理解能力,可分為形式和功能兩個(gè)部分。形式主要指對(duì)語(yǔ)法規(guī)則的泛化能力,而功能主要指語(yǔ)用推理以及語(yǔ)篇文本分析(如情感分析)能力等[10]。隨著大語(yǔ)言模型語(yǔ)言能力的突破性進(jìn)展,評(píng)測(cè)其語(yǔ)言能力逐漸成為學(xué)界探究LLMs是否具備人類語(yǔ)言認(rèn)知機(jī)制的新途徑[],相關(guān)研究歷經(jīng)三個(gè)階段。
(一)萌芽期,人工智能領(lǐng)域的早期語(yǔ)言模型研究呈現(xiàn)明顯的學(xué)科壁壘
從圖靈測(cè)試(1950)到 N-gram 模型,再到神經(jīng)網(wǎng)絡(luò)模型[3],人工智能的技術(shù)演進(jìn)長(zhǎng)期被視為獨(dú)立于語(yǔ)言學(xué)的工程實(shí)踐,大語(yǔ)言模型語(yǔ)言能力被認(rèn)為和語(yǔ)言學(xué)沒(méi)有關(guān)系。研究者甚至主張每開(kāi)除一個(gè)語(yǔ)言學(xué)家,語(yǔ)音識(shí)別系統(tǒng)性能就提升一個(gè)百分點(diǎn),語(yǔ)言學(xué)的介入會(huì)降低模型的表現(xiàn)。而理論語(yǔ)言學(xué)界對(duì)此保持審慎態(tài)度,Katzir(2023)和Chomsky(2023)多次強(qiáng)調(diào)LLMs未遵循特定語(yǔ)言學(xué)理論,難以成為有效的認(rèn)知模型[1-12]。盡管Linzen等(2016)開(kāi)創(chuàng)性地測(cè)試部分神經(jīng)網(wǎng)絡(luò)模型的句法加工能力,相關(guān)成果仍因模型性能局限未能引發(fā)語(yǔ)言學(xué)界的實(shí)質(zhì)關(guān)注[13]
(二)爆發(fā)期,Transformer架構(gòu)的革新催生研究范式轉(zhuǎn)變
自Linzen(2019)與Pater(2019)在《Lan-guage》發(fā)起語(yǔ)言學(xué)與深度學(xué)習(xí)的對(duì)話,大模型語(yǔ)言能力表現(xiàn)的實(shí)證研究呈現(xiàn)井噴態(tài)勢(shì)[14-15]。研究范圍覆蓋語(yǔ)音至語(yǔ)用各層級(jí)的評(píng)測(cè)[16-17],測(cè)評(píng)方法突破顯著,如構(gòu)建多維度評(píng)測(cè)體系,涵蓋可接受性判斷[18]、神經(jīng)認(rèn)知數(shù)據(jù)[19]、BLiMP基準(zhǔn)和Zorro數(shù)據(jù)集[16]。同時(shí)研究也開(kāi)展大模型和人類語(yǔ)言能力認(rèn)知機(jī)制比較,探討語(yǔ)言習(xí)得[20]、加工策略2等核心議題。學(xué)界形成兩大陣營(yíng):支持者認(rèn)為L(zhǎng)LMs具備人類語(yǔ)言結(jié)構(gòu)表征能力[22],質(zhì)疑者則指出它缺乏系統(tǒng)性知識(shí)表征與元語(yǔ)言意識(shí)[23]
(三)反思期,反思大語(yǔ)言模型和語(yǔ)言學(xué)的雙向賦能路徑
Piantadosi(2023)對(duì)“語(yǔ)言天賦論\"的批判引發(fā)學(xué)科反思[24-25.9],形成雙向研究進(jìn)路:一方面,語(yǔ)言學(xué)知識(shí)被證實(shí)在提示工程[26]、小樣本學(xué)習(xí)[、規(guī)則理解[27等方面具有實(shí)踐價(jià)值;另一方面,LLMs開(kāi)始作為實(shí)驗(yàn)工具參與語(yǔ)言認(rèn)知加工和習(xí)得研究[28-29],應(yīng)用于名動(dòng)區(qū)分[30]、語(yǔ)言遞歸[31]、孤島效應(yīng)[32]等理論評(píng)測(cè),甚至模擬人類被試的語(yǔ)言能力[33]。值得關(guān)注的是,反對(duì)聲浪持續(xù)存在:陸儉明(2025)等質(zhì)疑LLMs未能反映人腦語(yǔ)言能力獨(dú)有機(jī)制[34],Katzir(2023)則指出大語(yǔ)言模型缺乏抽象符號(hào)編碼能力[1]
目前評(píng)測(cè)研究對(duì)大語(yǔ)言模型在語(yǔ)音、詞匯、語(yǔ)義、語(yǔ)用多個(gè)層級(jí)上是否展現(xiàn)出人類相似的語(yǔ)言能力的問(wèn)題還沒(méi)有一致的答案,特別是大模型是否具有語(yǔ)言特異性語(yǔ)法規(guī)則泛化能力還是一個(gè)具有爭(zhēng)議性的話題。
二、大語(yǔ)言模型的語(yǔ)言學(xué)習(xí)環(huán)境和機(jī)制
LLMs依賴海量文本數(shù)據(jù)的靜態(tài)訓(xùn)練,通過(guò)概率建模捕捉詞匯間的表層關(guān)聯(lián),卻缺乏多模態(tài)感知和具身認(rèn)知基礎(chǔ)。其學(xué)習(xí)受限于封閉的符號(hào)系統(tǒng),無(wú)法將語(yǔ)言與現(xiàn)實(shí)世界的實(shí)體、動(dòng)作及社會(huì)互動(dòng)直接關(guān)聯(lián)。而人類語(yǔ)言發(fā)展植根于動(dòng)態(tài)的互動(dòng)環(huán)境:嬰幼兒通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多通道輸入,在具體情境中建立語(yǔ)義網(wǎng)絡(luò),并借助心智理論推測(cè)他人意圖。
所以較之人類語(yǔ)言習(xí)得環(huán)境,大語(yǔ)言模型的學(xué)習(xí)環(huán)境差異顯著,主要表現(xiàn)在三個(gè)方面:輸入量級(jí)、輸人模態(tài)結(jié)構(gòu)和環(huán)境效果。首先是輸入規(guī)模的量級(jí)差異。人類語(yǔ)言習(xí)得的輸入量級(jí)呈現(xiàn)漸進(jìn)累積特征,兒童年均接觸詞匯量約300萬(wàn)至1100萬(wàn)35,青春期前累計(jì)可達(dá)千萬(wàn)至億級(jí)。相較之下,主流LLMs的訓(xùn)練語(yǔ)料規(guī)模呈指數(shù)級(jí)超越:ELMo(10億詞符)、BERT(33億詞符)、RoBERTa(300億詞符)至GPT-3(2000億詞符)[36-37.22.6]。Warstadt等(2020)通過(guò)BLiMP基準(zhǔn)測(cè)試揭示:當(dāng)RoBERTa接受300億詞符訓(xùn)練時(shí),其12項(xiàng)語(yǔ)法任務(wù)中6項(xiàng)達(dá)類人水平;但若將訓(xùn)練量降至人類水平(1億詞符),類人表現(xiàn)僅存2項(xiàng)[16。這表明LLMs的語(yǔ)言能力與數(shù)據(jù)規(guī)模存在超線性關(guān)系,但關(guān)鍵語(yǔ)言現(xiàn)象(如長(zhǎng)距離依存結(jié)構(gòu))仍存習(xí)得瓶頸。其次,輸入模態(tài)的結(jié)構(gòu)差異。LLMs當(dāng)前訓(xùn)練語(yǔ)料以書面文本為主,缺失人類語(yǔ)言發(fā)展的核心特征;多模態(tài)感知缺位,兒童通過(guò)感覺(jué)一運(yùn)動(dòng)系統(tǒng)構(gòu)建概念支架[38],而LLMs的語(yǔ)義表征僅源于文本共現(xiàn)模式,導(dǎo)致早期名詞偏向等認(rèn)知特性難以復(fù)現(xiàn);互動(dòng)情境剝離,人類語(yǔ)言功能根植于交際意圖實(shí)現(xiàn)[39],而LLMs的生成機(jī)制缺乏真實(shí)對(duì)話的協(xié)商過(guò)程,且口語(yǔ)特征缺失,盡管近期研究嘗試整合CHILDES兒童語(yǔ)料4與COCA口語(yǔ)數(shù)據(jù)庫(kù)4,LLMs仍難以充分捕捉語(yǔ)音韻律等副語(yǔ)言特征[42]。最后,在環(huán)境效度方面,現(xiàn)有證據(jù)顯示當(dāng)LLMs訓(xùn)練數(shù)據(jù)嚴(yán)格限制于人類水平(如千萬(wàn)詞符量級(jí)),其語(yǔ)言表現(xiàn)顯著退化[43]。這提示研究者需建立環(huán)境輸入的等效性標(biāo)準(zhǔn)。若欲將LLMs結(jié)論外推至人類,須確保模型訓(xùn)練環(huán)境的豐富度不超過(guò)人類經(jīng)驗(yàn)上限。當(dāng)前技術(shù)路徑如多模態(tài)整合[44]與互動(dòng)任務(wù)強(qiáng)化,正試圖彌補(bǔ)LLMs的環(huán)境缺陷,但其認(rèn)知架構(gòu)的本質(zhì)差異仍構(gòu)成理論推廣的生態(tài)效度威脅。
可見(jiàn),關(guān)于模型的環(huán)境支持假說(shuō)45在LLMs中獲部分驗(yàn)證,在毫秒級(jí)時(shí)間尺度內(nèi)完成傳統(tǒng)語(yǔ)言習(xí)得研究需十年追蹤的縱向發(fā)展過(guò)程。大語(yǔ)言模通過(guò)海量語(yǔ)料庫(kù)的概率學(xué)習(xí)機(jī)制[46,8],動(dòng)態(tài)呈現(xiàn)語(yǔ)言能力的演化過(guò)程。
三、大語(yǔ)言模型的語(yǔ)言特異性泛化能力評(píng)測(cè)
從學(xué)習(xí)環(huán)境來(lái)看,模型學(xué)習(xí)者在語(yǔ)料輸入量上具有一定的優(yōu)勢(shì),而人類學(xué)習(xí)者在語(yǔ)料輸人模態(tài)的生態(tài)效度上保持特質(zhì),兩者各有千秋。語(yǔ)言天賦論認(rèn)為人類具有語(yǔ)言特異性的泛化能力[1],所以計(jì)算語(yǔ)言學(xué)界為了檢驗(yàn)語(yǔ)言本能天賦論的核心假設(shè),開(kāi)發(fā)出三類實(shí)驗(yàn)范式系統(tǒng)測(cè)量LLMs語(yǔ)言特異性泛化能力[14-15.47-50]:消融實(shí)驗(yàn)、無(wú)監(jiān)督測(cè)試和監(jiān)督測(cè)試。
(一)消融研究
機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)模型中的消融研究(ablationstudy)旨在測(cè)量神經(jīng)網(wǎng)絡(luò)模型的組成部分去除之后,神經(jīng)網(wǎng)絡(luò)模型行為表現(xiàn)的變化[51]如圖1所示,一個(gè)含有N個(gè)模塊的神經(jīng)網(wǎng)絡(luò)模型的消融研究,每次我們?nèi)コ粋€(gè)模塊,然后檢測(cè)新模型的表現(xiàn),進(jìn)而考察去除模塊的作用。
該消融研究可以用來(lái)回答某些問(wèn)題,如優(yōu)勢(shì)A(advantage)在習(xí)得目標(biāo)語(yǔ)言知識(shí)T(target)中是不是必要條件,探討如果沒(méi)有A的學(xué)習(xí)場(chǎng)景下會(huì)發(fā)生什么。例如,學(xué)習(xí)場(chǎng)景通常有兩個(gè)主要變量:學(xué)習(xí)者本能的泛化能力和學(xué)習(xí)環(huán)境,如果消除A之后,模型能夠成功,那就說(shuō)明沒(méi)有A,目標(biāo)T可以習(xí)得。如果消融實(shí)驗(yàn)顯示大模型較之人類沒(méi)有這種本能優(yōu)勢(shì),仍然可以成功習(xí)得T,那該結(jié)果可以推廣到人類身上,從可學(xué)性上來(lái)說(shuō)人不需要A。若語(yǔ)言天賦論想有更強(qiáng)大的證據(jù),就必須證明模型學(xué)習(xí)者相對(duì)于人來(lái)說(shuō)沒(méi)有明顯的本能劣勢(shì),如果消融,即去除該本能偏向,就會(huì)導(dǎo)致學(xué)習(xí)失敗。大語(yǔ)言模型的消融研究一方面可以用來(lái)驗(yàn)證語(yǔ)言天賦論假設(shè)的相關(guān)理論觀點(diǎn),通過(guò)模型來(lái)測(cè)試一些假設(shè)的泛化能力,例如,評(píng)測(cè)在目標(biāo)學(xué)習(xí)時(shí)對(duì)層級(jí)句法偏向是否為必需品。目前如上文在大語(yǔ)言模型的學(xué)習(xí)環(huán)境中提及,許多具體研究顯示大語(yǔ)言模型(模型學(xué)習(xí)者)如若去除輸入量的優(yōu)勢(shì),輸入明顯貧乏,就會(huì)無(wú)法習(xí)得要觀測(cè)的語(yǔ)言行為。故此消融實(shí)驗(yàn)顯示大模型可能沒(méi)有天生的語(yǔ)言特異性泛化能力[52]
(二)無(wú)監(jiān)督測(cè)試
無(wú)監(jiān)督測(cè)試主要用來(lái)測(cè)試神經(jīng)網(wǎng)絡(luò)模型的語(yǔ)言知識(shí)[52]。無(wú)監(jiān)督測(cè)試不依賴標(biāo)注訓(xùn)練或者任何任務(wù)特異性訓(xùn)練,這種方法揭示的語(yǔ)言知識(shí)通常是通過(guò)自我監(jiān)察,暴露在學(xué)習(xí)環(huán)境或者通過(guò)學(xué)習(xí)者本能獲得。大語(yǔ)言模型的無(wú)監(jiān)督測(cè)試主要利用語(yǔ)言模型的預(yù)訓(xùn)練,根據(jù)之前的成分 W (i 某一成分的可能性,這些預(yù)測(cè)概率乘積能夠用來(lái)預(yù)測(cè)整個(gè)W序列,如圖2公式所示:
大語(yǔ)言模型使用語(yǔ)言模型的概率得分來(lái)評(píng)價(jià)它是否具有某種語(yǔ)法規(guī)則泛化能力,常見(jiàn)的測(cè)量任務(wù)為可接受性判斷任務(wù)??山邮苄耘袛嗳蝿?wù)是測(cè)量句法理論的主要方式[53],它可以提供豐富的行為測(cè)試來(lái)測(cè)量語(yǔ)法知識(shí)偏向。語(yǔ)言學(xué)家設(shè)計(jì)各種可接受性判斷任務(wù)[54]進(jìn)行無(wú)監(jiān)督測(cè)試,在針對(duì)語(yǔ)言模型的非監(jiān)督測(cè)試中,最小對(duì)可接受性判斷被廣泛使用[55]。所謂最小對(duì)就是意指兩個(gè)句子僅1處不同,一個(gè)為可接受,另一個(gè)為不可接受。如例句(1)a和 (1)b (1)a:他昨天買了一本書和一支筆。b:*他昨天買了什么和一支筆。
句子構(gòu)成最小對(duì)時(shí)通常在長(zhǎng)度和一元概率上基本匹配,最小對(duì)主要聚焦可接受和不可接受句子之間的決定性差異,這是決定句子可接受概率的兩個(gè)決定因素[56]。所以最小對(duì)可接受性判斷任務(wù)可以評(píng)價(jià)模型預(yù)測(cè)可接受性等級(jí)差異的能力。這種方法基于一種假設(shè):一個(gè)語(yǔ)法正確的句子 Wgood 比一個(gè)和自己差異最小但是語(yǔ)法不正確的句子 Wbad 出現(xiàn)的概率更高,語(yǔ)言模型在可接受性判斷中可以預(yù)測(cè)到這種差異,如圖3:
PLM(Wgood)gt;PLM(Wbad)
為了提升無(wú)監(jiān)督測(cè)試效度,研究者開(kāi)始嘗試給可接受性判斷任務(wù)提供數(shù)據(jù)庫(kù)支持。Warstadt等(2018)開(kāi)發(fā)英語(yǔ)語(yǔ)言學(xué)可接受性數(shù)據(jù)庫(kù)(Co-LA)18,包含10000個(gè)句子,涉及英語(yǔ)中67種最小對(duì),每一種有1000對(duì),包括形態(tài)、句法和語(yǔ)義等語(yǔ)言現(xiàn)象,如指代一致、元結(jié)構(gòu)、控制和提升、限定和名詞一致、省略、填充和空位、不規(guī)則動(dòng)詞、孤島效應(yīng)、主謂一致等。他們測(cè)試了多個(gè)語(yǔ)言模型,但是模型在多個(gè)語(yǔ)言現(xiàn)象上沒(méi)有表現(xiàn)出優(yōu)勢(shì),且在填充一空位、長(zhǎng)距離孤島結(jié)構(gòu)等復(fù)雜語(yǔ)法結(jié)構(gòu)中錯(cuò)誤顯著。然而Warstadt等(2020)對(duì)可接受性數(shù)據(jù)庫(kù)進(jìn)行了標(biāo)注,之后再進(jìn)行無(wú)監(jiān)督測(cè)試,發(fā)現(xiàn)語(yǔ)言模型如GPT等會(huì)表現(xiàn)得更好,而在長(zhǎng)距離依存如孤島結(jié)構(gòu)的可接受性判斷中表現(xiàn)仍然較差[16]。在此基礎(chǔ)上研究者又開(kāi)發(fā)了日語(yǔ)可接受性數(shù)據(jù)庫(kù)[5,包含10020個(gè)句子,331個(gè)最小對(duì),Warstadt等(2020)對(duì)GPT-2、長(zhǎng)短時(shí)記憶模型和 N-Gram 語(yǔ)言模型進(jìn)行了測(cè)試,準(zhǔn)確率達(dá)到 75% 左右,但是像長(zhǎng)距離主謂一致、依存和孤島等識(shí)別的錯(cuò)誤率依舊較高[16]。同樣利用無(wú)監(jiān)督測(cè)試,Mikhailov等(2022)創(chuàng)建并利用俄語(yǔ)語(yǔ)言可接受性數(shù)據(jù)庫(kù)(包含134000個(gè)句子)對(duì)多個(gè)大模型(包括ChatGPT系列)進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn)在形態(tài)、語(yǔ)義和句法等方面大模型明顯落后于人類[58]。所以總體來(lái)看,在非監(jiān)察測(cè)試下針對(duì)不同語(yǔ)言研究都很難明確大語(yǔ)言模型擁有對(duì)語(yǔ)法,特別是復(fù)雜句法規(guī)則如孤島結(jié)構(gòu)等的特異性泛化能力。
(三)監(jiān)督測(cè)試或者限制性監(jiān)督測(cè)試
監(jiān)督或者限制性監(jiān)督測(cè)試,實(shí)際是對(duì)非監(jiān)督測(cè)試的一種輔助,主要依靠對(duì)詞和句子標(biāo)注及訓(xùn)練來(lái)進(jìn)行,如詞性標(biāo)注、依存結(jié)構(gòu)標(biāo)注和共指消解等,都是常用的探測(cè)任務(wù)[59,在探測(cè)神經(jīng)網(wǎng)絡(luò)模型的泛化能力方面有一定的作用,經(jīng)典范式就是刺激貧乏實(shí)驗(yàn)[60]。根據(jù)刺激貧乏論(povertyofstimulus),探測(cè)大語(yǔ)言模型能否像兒童一樣從有限且混亂的輸入當(dāng)中習(xí)得某種語(yǔ)法規(guī)則,從而證明它也具有某種語(yǔ)言本能偏向。刺激貧乏實(shí)驗(yàn)實(shí)際是訓(xùn)練大模型(模型學(xué)習(xí)者)去完成一項(xiàng)句子判斷任務(wù),訓(xùn)練數(shù)據(jù)具有模糊和混亂特征,在兩個(gè)假設(shè)空間上(語(yǔ)言學(xué)歸納和表層歸納)都具有模糊性。首先,在訓(xùn)練時(shí),假設(shè)大模型應(yīng)該具有兩種泛化能力:語(yǔ)言學(xué)歸納(如Isthemainverbinthe“ing”form)和表層結(jié)構(gòu)歸納(如Does the word“the”precede“a”),輸人數(shù)據(jù)是混亂和模糊的,模型要從中去學(xué)習(xí)。其次,到測(cè)試時(shí),改用清晰的數(shù)據(jù),測(cè)試模型是否具有語(yǔ)言學(xué)偏向和表層結(jié)構(gòu)偏向?;诒O(jiān)督測(cè)試的刺激貧乏實(shí)驗(yàn)設(shè)計(jì),研究者開(kāi)始評(píng)測(cè)大語(yǔ)言模型傾向于基于句法結(jié)構(gòu)的歸納還是基于主語(yǔ)和情態(tài)動(dòng)詞倒裝的線性順序歸納48。McCoy等(2020)使用刺激貧乏實(shí)驗(yàn)方法,測(cè)試多個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,重點(diǎn)考察對(duì)歧義主語(yǔ)和情態(tài)動(dòng)詞倒裝結(jié)構(gòu)泛化情況。結(jié)果發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)模型缺乏層級(jí)泛化能力[48],即使Transformer架構(gòu)的大模型(如Deepseek等)也沒(méi)有發(fā)現(xiàn)多層級(jí)特異性泛化能力[49。然而,人工神經(jīng)網(wǎng)絡(luò)(ANN)或者大語(yǔ)言模型缺乏類人語(yǔ)言特異性的泛化能力,使得它們成為更加合適的模型學(xué)習(xí)者,因?yàn)檫@些模型可能在這些領(lǐng)域沒(méi)有特別先天優(yōu)勢(shì)。
從大語(yǔ)言模型語(yǔ)言規(guī)則泛化能力的三種常用測(cè)量(消融法、可接受性判斷和刺激貧乏實(shí)驗(yàn))來(lái)看,目前大模型在概率學(xué)習(xí)方面具有一定的泛化能力,但是并沒(méi)有語(yǔ)言特異性本能偏向。所以探測(cè)沒(méi)有先天語(yǔ)言特異性層級(jí)泛化能力的大語(yǔ)言模型,能否習(xí)得人類句法規(guī)則以及在語(yǔ)法特征方面,能否做出類人的可接受性判斷,可能是大語(yǔ)言模型語(yǔ)言能力評(píng)測(cè)的新興方向。
四、大語(yǔ)言模型語(yǔ)法能力的評(píng)測(cè)
從概率統(tǒng)計(jì)演化而來(lái)的大語(yǔ)言模型是否可以真正習(xí)得人類的語(yǔ)法特征?是否具備與人類相似的語(yǔ)言特異性語(yǔ)法能力?針對(duì)這一系列問(wèn)題,實(shí)際就是要評(píng)測(cè)大語(yǔ)言模型是否具備類人語(yǔ)法能力。為此,研究者提出句法加工一習(xí)得路徑一基準(zhǔn)建構(gòu)三位一體的評(píng)測(cè)體系,包括大語(yǔ)言模型的句法加工能力評(píng)測(cè)、大語(yǔ)言模型的語(yǔ)法特征習(xí)得路徑評(píng)測(cè)、大語(yǔ)言模型語(yǔ)法評(píng)價(jià)基準(zhǔn)的構(gòu)建。
(一)大語(yǔ)言模型的句法加工能力評(píng)測(cè)
大語(yǔ)言模型的句法加工能力評(píng)測(cè)已經(jīng)成為學(xué)界的熱點(diǎn)話題[61-63],主要聚焦語(yǔ)言模型和人類對(duì)語(yǔ)法規(guī)則合法性判斷情況的對(duì)比,相關(guān)研究已經(jīng)覆蓋多個(gè)語(yǔ)法特征和規(guī)則[63]。例如,有研究者測(cè)試了GPT-4和GPT-3.5在系列語(yǔ)言和非語(yǔ)言任務(wù)中對(duì)語(yǔ)言區(qū)別性特征“遞歸性”的掌握情況,結(jié)果發(fā)現(xiàn)GPT-4可以識(shí)別、產(chǎn)出和分析語(yǔ)言的遞歸結(jié)構(gòu)。當(dāng)然有研究者質(zhì)疑大模型對(duì)遞歸性的理解可能只是記憶的結(jié)果,因?yàn)榇竽P涂赡茉谶M(jìn)行大量的訓(xùn)練之后,記住了訓(xùn)練的文本內(nèi)容[31]。所以這類表現(xiàn)可能只是記憶效應(yīng),它是否真正理解遞歸的認(rèn)知本質(zhì)仍然存疑。
針對(duì)復(fù)雜句法加工能力的評(píng)測(cè),Warstadt和Bowman(2020)引入新數(shù)據(jù)集,涵蓋更多的語(yǔ)言學(xué)現(xiàn)象,他們從上文提到的語(yǔ)言學(xué)可接受性語(yǔ)料庫(kù)中選出十三種句法現(xiàn)象,如元結(jié)構(gòu)、控制和提升、省略、填充和空位、句法孤島、主謂一致等,用這十三種句法現(xiàn)象來(lái)考察三種預(yù)訓(xùn)練模型(BERT,GPT和BiLSTM)的句法習(xí)得情況[52]。結(jié)果發(fā)現(xiàn)這些模型雖然具有強(qiáng)大的復(fù)雜句加工能力,能輕松加工雙賓結(jié)構(gòu)和被動(dòng)句等,但是在長(zhǎng)距離依存結(jié)構(gòu)方面表現(xiàn)欠佳。例如,句(2)對(duì)所有三個(gè)模型來(lái)說(shuō)具有一定的挑戰(zhàn)性,BERT和GPT模型相對(duì)于BILSTM來(lái)說(shuō)具有一定的優(yōu)勢(shì)。
(2)What do you think Iate_?
所以研究發(fā)現(xiàn)大模型在可接受性的分類上總體表現(xiàn)和人類一致,但是在一些復(fù)雜句法結(jié)構(gòu)上沒(méi)有做出精細(xì)的區(qū)分[52]
在句法敏感性研究領(lǐng)域,為了解決句法依存等長(zhǎng)句子的加工和習(xí)得問(wèn)題,Linzen等(2016)開(kāi)創(chuàng)性采用長(zhǎng)短時(shí)記憶模型(LSTM)來(lái)考察該模型對(duì)學(xué)習(xí)句法依存的敏感性[13]。該研究發(fā)現(xiàn)LSTM模型在語(yǔ)言加工中可以成功捕捉句子長(zhǎng)距離統(tǒng)計(jì)規(guī)律。同年他們進(jìn)一步考察了LSTM模型對(duì)英語(yǔ)主謂依存結(jié)構(gòu)中人稱數(shù)一致性的敏感性。在該研究中,他們首先進(jìn)行嚴(yán)厲的監(jiān)察,使用數(shù)的預(yù)測(cè)任務(wù)來(lái)訓(xùn)練模型根據(jù)前面的單詞去猜測(cè)動(dòng)詞數(shù)的變化[13]
(3)The keys to the cabinet
在數(shù)預(yù)測(cè)任務(wù)中,如例句(3):模型需要猜測(cè)后面的動(dòng)詞是復(fù)數(shù)還是單數(shù),需要判斷句子的動(dòng)詞第三人稱單數(shù)、學(xué)習(xí)名詞的單復(fù)數(shù)、能否發(fā)現(xiàn)正確的主語(yǔ)和對(duì)應(yīng)的動(dòng)詞、需要對(duì)層級(jí)句法敏感等。數(shù)預(yù)測(cè)任務(wù)的特別之處在于可以生成大量的訓(xùn)練句和測(cè)試句,然后使用語(yǔ)法合法性判斷任務(wù)來(lái)訓(xùn)練和學(xué)習(xí)帶有標(biāo)注的句子,顯示這些句子是否違反主謂一致,但是不顯示違反的位置。最后訓(xùn)練模型在沒(méi)有采用任何語(yǔ)法監(jiān)督情況下預(yù)測(cè)下一個(gè)單詞。該研究結(jié)果顯示在較強(qiáng)的監(jiān)督場(chǎng)景下,LSTM模型可以取得較高準(zhǔn)確率(錯(cuò)誤率不到 1% ),但是模型對(duì)于捕獲句法敏感結(jié)構(gòu)表現(xiàn)不佳,需要更直接的監(jiān)督。
(二)大語(yǔ)言模型與兒童語(yǔ)言習(xí)得路徑評(píng)測(cè)對(duì)比
通過(guò)對(duì)比大模型和兒童的語(yǔ)言習(xí)得,評(píng)測(cè)大語(yǔ)言模型的語(yǔ)法特征習(xí)得和兒童母語(yǔ)習(xí)得的路徑是否有相似之處[64-66]。Evanson等(2023)探討大語(yǔ)言模型和兒童是否有相似的學(xué)習(xí)階段,重點(diǎn)比較神經(jīng)網(wǎng)絡(luò)模型和兒童(18月一6歲)在句法一語(yǔ)義能力的習(xí)得順序上是否存在顯著性相關(guān),他們共構(gòu)建48個(gè)語(yǔ)言模型,評(píng)測(cè)每個(gè)階段大模型的句法和語(yǔ)義能力。在該研究中使用了來(lái)自BLiMP和Zorro的96個(gè)探測(cè)點(diǎn)和54名兒童的語(yǔ)言產(chǎn)出行為并進(jìn)行對(duì)比,發(fā)現(xiàn)大語(yǔ)言模型和兒童相似,按照一定的系統(tǒng)順序?qū)W習(xí)語(yǔ)言技能,同時(shí)在部分學(xué)習(xí)階段上也表現(xiàn)相似]。Qin等(2024)指出大語(yǔ)言模型在生成連貫文本中的精彩表現(xiàn)已經(jīng)激起大量討論,所以關(guān)于模型學(xué)習(xí)環(huán)境和人類語(yǔ)言可學(xué)性關(guān)系引起研究者的極大興趣[]。如上文所述,大語(yǔ)言模型接受的訓(xùn)練數(shù)據(jù)和兒童收到的語(yǔ)言輸入存在巨大差異,模型訓(xùn)練數(shù)據(jù)規(guī)模(TB級(jí))遠(yuǎn)超兒童語(yǔ)言輸入量(百萬(wàn)),這種“超量學(xué)習(xí)\"可能導(dǎo)致語(yǔ)法表征機(jī)制的質(zhì)性差異。為了消除數(shù)據(jù)偏差,Wang等(2023)和Qin等(2024)等嘗試用兒童的真實(shí)語(yǔ)料來(lái)訓(xùn)練大模型,結(jié)果均發(fā)現(xiàn)訓(xùn)練后的大語(yǔ)言模型可以建立句法范疇系統(tǒng)。這些大語(yǔ)言模型語(yǔ)言習(xí)得路徑評(píng)測(cè),為語(yǔ)言學(xué)中“刺激貧乏論(Povertyofstimulus)”的爭(zhēng)論提供了新的視角[67-68]
(三)大語(yǔ)言模型語(yǔ)法能力評(píng)價(jià)基準(zhǔn)的構(gòu)建
為了深人探究大語(yǔ)言模型語(yǔ)法表征和人類語(yǔ)法能力的質(zhì)性差異,研究者開(kāi)始嘗試基于自然語(yǔ)言數(shù)據(jù)集,建構(gòu)語(yǔ)法能力評(píng)測(cè)基準(zhǔn)。在評(píng)價(jià)模型的語(yǔ)法能力中,多采用經(jīng)典理論語(yǔ)言學(xué)家常用的推測(cè)語(yǔ)言的可接受性判斷任務(wù),研究者已經(jīng)建構(gòu)大規(guī)模可接受性數(shù)據(jù)集,如英語(yǔ)、日語(yǔ)和俄語(yǔ)等[18.57-58]?;谶@些數(shù)據(jù)集研究者著力句法、語(yǔ)義和形態(tài)等具體語(yǔ)言學(xué)現(xiàn)象的評(píng)價(jià)[62],開(kāi)發(fā)語(yǔ)法能力評(píng)價(jià)系統(tǒng)如BLiMP[16]、SyntaxGym[67]、Zorro[8]等,例如,BLiMP(語(yǔ)言最小對(duì)基準(zhǔn)評(píng)價(jià)系統(tǒng))實(shí)際是對(duì)早期推理研究的拓展。這些早期研究主要使用最小對(duì)范式進(jìn)行可接受性判斷任務(wù),主要用來(lái)評(píng)測(cè)人類被試的語(yǔ)法能力。而BLiMP主要針對(duì)大語(yǔ)言模型,該評(píng)價(jià)系統(tǒng)主要由最小對(duì)組成(兩個(gè)句子幾乎相同除了在一個(gè)結(jié)構(gòu)或者詞匯特征上有差異)。對(duì)于一個(gè)給定的最小對(duì) ΔMi ,由兩個(gè)句子組成:一個(gè)可接受(S,1)和一個(gè)不可接受 (Si,2) 。如果一個(gè)語(yǔ)言模型能評(píng)測(cè)P(Si,1)gt;P(Si,2) ,那么這個(gè)模型就可以評(píng)測(cè) ΔMi 。大語(yǔ)言模型對(duì)最小對(duì)句子的評(píng)測(cè)打分主要基于該可接受性句子在所有最小對(duì)中所占的百分比率,所以最小對(duì)范式可以讓大語(yǔ)言模型直接進(jìn)行評(píng)測(cè)。當(dāng)然最小對(duì)需要仔細(xì)建構(gòu),需要嚴(yán)格控制長(zhǎng)度和詞匯頻率。BLiMP評(píng)測(cè)系統(tǒng)的語(yǔ)料庫(kù)涵蓋了12種語(yǔ)言學(xué)現(xiàn)象(指代一致、元結(jié)構(gòu)、約束、控制提升、填充一空位、孤島效應(yīng)、量詞、省略等),67種范式、1000句子對(duì),可以用來(lái)測(cè)試模型的語(yǔ)言學(xué)知識(shí)和語(yǔ)法能力。
另外一種基準(zhǔn)評(píng)價(jià)系統(tǒng)Zorro數(shù)據(jù)集,旨在評(píng)價(jià)語(yǔ)言模型和語(yǔ)法習(xí)得之間的關(guān)系[29],該數(shù)據(jù)集主要來(lái)自Baby-BERTa(RoBERTa的友好型版本),采用英語(yǔ)兒童直接產(chǎn)出的自然語(yǔ)言,接近一個(gè)6歲英語(yǔ)兒童的輸入量。訓(xùn)練材料中的兒童直接話語(yǔ)主要來(lái)自英語(yǔ)CHILDES數(shù)據(jù)庫(kù)[40]。由于Baby-BERTa訓(xùn)練數(shù)據(jù)要比大模型少得多,且詞匯量也較小,為了解決超范圍詞匯對(duì)測(cè)試基準(zhǔn)評(píng)價(jià)系統(tǒng)的影響,按照BLiMP的樣式,Huebner等(2021)開(kāi)發(fā)新的語(yǔ)法合法性測(cè)試系統(tǒng)Zorro,共包含12種語(yǔ)言現(xiàn)象,每種對(duì)應(yīng)一種范式,句子不僅詞匯簡(jiǎn)單且變化不大[50]
BLiMP和Zorro測(cè)試屬于基礎(chǔ)版,優(yōu)點(diǎn)在于可以生成和測(cè)量大量的句子,缺點(diǎn)是所有的句子結(jié)構(gòu)相同。此外許多結(jié)構(gòu)較為簡(jiǎn)單,遠(yuǎn)低于現(xiàn)代句法分析的覆蓋面。例如,在BLiMP中,主謂一致現(xiàn)象,六個(gè)范式中有四個(gè)關(guān)于線性主謂一致,可以被2-gram模型捕捉到。盡管長(zhǎng)距離,單個(gè)線性規(guī)則在這個(gè)現(xiàn)象上是成功的,但是簡(jiǎn)單測(cè)試的成功并沒(méi)有驗(yàn)證大模型的真實(shí)語(yǔ)法能力,所以有研究者質(zhì)疑這些范式在評(píng)價(jià)大語(yǔ)言模型是否擁有語(yǔ)言學(xué)知識(shí)的總體目標(biāo)中貢獻(xiàn)不大。雖然存在方法論爭(zhēng)議,但Warstadt等(2020)Gauthier等(2020)和Warstadt等(2018)基于上述數(shù)據(jù)集評(píng)價(jià)基準(zhǔn),聚焦句法、語(yǔ)義和形態(tài),發(fā)現(xiàn)許多最新的神經(jīng)網(wǎng)絡(luò)模型能夠基于無(wú)標(biāo)注數(shù)據(jù),像人類兒童一樣在語(yǔ)言習(xí)得中歸納出語(yǔ)法知識(shí)[16,67,18],具有一定的語(yǔ)法能力。
綜上所述,人工神經(jīng)網(wǎng)絡(luò)和當(dāng)下的大語(yǔ)言模型可以從無(wú)標(biāo)注的自然文本中學(xué)習(xí)、生成文章,回答問(wèn)題,可以做出類人的語(yǔ)法接受性判斷[6,16],適合提供低偏向可學(xué)性證據(jù)[14-15]。所以大語(yǔ)言模型的學(xué)習(xí)環(huán)境、規(guī)則泛化能力和語(yǔ)法能力對(duì)語(yǔ)言天賦假設(shè)和刺激貧乏論提出了極大的挑戰(zhàn),但是這些研究也顯示語(yǔ)言模型并不能總是展現(xiàn)像人類一樣的泛化能力和語(yǔ)法能力,訓(xùn)練的語(yǔ)料基于不真實(shí)的學(xué)習(xí)場(chǎng)景,如采用來(lái)自互聯(lián)網(wǎng)的大規(guī)模語(yǔ)料訓(xùn)練大語(yǔ)言模型,造成這些研究不能針對(duì)性回答人類語(yǔ)言能力和大模型語(yǔ)言能力之間的差異本質(zhì)。
五、結(jié)語(yǔ)
大語(yǔ)言模型的語(yǔ)言能力評(píng)測(cè)研究本質(zhì)上是計(jì)算語(yǔ)言學(xué)與理論語(yǔ)言學(xué)、心理語(yǔ)言學(xué)、認(rèn)知語(yǔ)言學(xué)及形式語(yǔ)言學(xué)之間的跨學(xué)科對(duì)話。這種互動(dòng)體現(xiàn)為兩類研究范式的互補(bǔ)性:計(jì)算語(yǔ)言學(xué)通過(guò)構(gòu)建計(jì)算模型揭示語(yǔ)言處理機(jī)制,而認(rèn)知語(yǔ)言學(xué)、形式語(yǔ)言學(xué)和心理語(yǔ)言學(xué)等則聚焦兒童語(yǔ)言習(xí)得和人類語(yǔ)言能力的發(fā)展規(guī)律。二者在方法論與理論建構(gòu)層面存在顯著的協(xié)調(diào)潛力。故此對(duì)未來(lái)研究有兩點(diǎn)思考:第一,能力邊界與理論挑戰(zhàn):形式與功能的認(rèn)知解耦。盡管大語(yǔ)言模型在形式語(yǔ)言能力層面取得突破,包括生成連貫文本、復(fù)現(xiàn)復(fù)雜句法結(jié)構(gòu)等,但其功能語(yǔ)言能力仍存在系統(tǒng)性缺陷。即形式能力有優(yōu)勢(shì),通過(guò)海量參數(shù)實(shí)現(xiàn)語(yǔ)言模式的概率擬合,可模擬人類句法判斷行為[14];而功能能力有局限,在語(yǔ)用推理、意圖理解、跨模態(tài)關(guān)聯(lián)等涉及認(rèn)知一社會(huì)交互的領(lǐng)域表現(xiàn)顯著弱于人類[12]。這種能力分離現(xiàn)象引發(fā)理論語(yǔ)言學(xué)界的激烈爭(zhēng)論。一方面是否定論,Chomsky(2023)強(qiáng)調(diào)大模型僅是語(yǔ)言行為的模擬工具,無(wú)法解釋人類語(yǔ)言器官(FLN)的生物特異性[2;另一方面是重構(gòu)論,Piantadosi(2023)認(rèn)為大模型的成功證明語(yǔ)言習(xí)得可通過(guò)純統(tǒng)計(jì)機(jī)制實(shí)現(xiàn),這直接挑戰(zhàn)普遍語(yǔ)法的必要性假設(shè)24。第二,學(xué)科影響與范式轉(zhuǎn)型。當(dāng)前大語(yǔ)言模型語(yǔ)言能力的突破性進(jìn)展,正在重塑語(yǔ)言習(xí)得研究的方法論格局。理論工具革新,為“語(yǔ)言本能論”等長(zhǎng)期爭(zhēng)議提供可計(jì)算的檢驗(yàn)平臺(tái);研究范式擴(kuò)展,推動(dòng)產(chǎn)生式模型成為繼行為實(shí)驗(yàn)、腦成像之后的第三種實(shí)證研究路徑;學(xué)科邊界重構(gòu),迫使認(rèn)知科學(xué)家重新審視語(yǔ)言能力的模塊化假設(shè)[9。值得警惕的是,現(xiàn)有大模型的訓(xùn)練數(shù)據(jù)(互聯(lián)網(wǎng)文本)與兒童語(yǔ)言輸入存在生態(tài)效度偏差,這要求后續(xù)研究有必要建立以發(fā)展語(yǔ)言學(xué)為導(dǎo)向的大模型語(yǔ)言能力評(píng)測(cè)體系。
參考文獻(xiàn):
[1]Chomsky N.Aspects of the Theory of Syntax[M]. Cambridge,MA:MITPress,1965.
[2]Franco PL. Susan Stebbing on Logical Positivism and Communication[J].Journal of Philosophy,2024 (10):48.
[3]馮志偉.計(jì)算語(yǔ)言學(xué)方法研究[M].上海:上海外 語(yǔ)教育出版社,2023.
[4]馮志偉,張燈柯.人工智能中的大語(yǔ)言模型[J]. 外國(guó)語(yǔ)文,2024(3):1-29.
[5]TayY,Dehghani M,TranVQ,et al. UnifyingLanguage Learning Paradigms[EB/OL].(2022-05-10) [2025-04-15]. https://arxiv.org/pdf/2205.05131.
[6] Brown TB,MannB,RyderN,etal.LanguageModels areFew-Shot Learners [EB/OL].(2020-05-28) [2025-04-15]. https://arxiv.org/pdf/2005.14165.
[7] Naveed H,KhanAU,Qiu S,et al.AComprehensive Overview of Large Language Models[EB/OL]. (2023-07-12)[2025-04-15]. https://arxiv.org/pdf/ 2307.06435.
[8] Marian V. Studying Second Language Acquisition in the Age of Large Language Models:Unlocking the Mysteries of Language and Learning,A Commentary on“Age Effectsin Second Language Acquisition:Expanding the Emergentist Account ”by Catherine L. Caldwell-Harrisand Brian MacWhinney[J].Brain and Language,2023(246).
[9]袁毓林.ChatGPT等大模型的語(yǔ)言處理機(jī)制及其 理論蘊(yùn)涵[J].外國(guó)語(yǔ),2024(4):2-14.
[10]Mahowald K,Ivanova A A,et al.Dissociating Language and thought in Large Language Models[J]. Trends in Cognitive Sciences,2024(6):517-540.
[11」Katzir K. Wny Large Language Models are Poor Ineories ofHuman Linguistic Cognition:A Reply to Piantadosi[J]. Biolinguistics,2023(17).
[12]Chomsky N. ChatGPT and Human Intelligence:Noam Chomsky Responds to Critics:Noam Chomsky Interviewed by Mirfakhraie [EB/OL].(2023-04-24) [2025-04-15]. htps://chomsky.info/20230424-2.
[13]Linzen T,Dupoux E,Goldberg Y. Assessing the Ability of LSTMs to Learn Syntax-sensitive Dependencies[J]. Transactions of the Association for Computational Linguistics,2016(4): 521-535.
[14]Linzen T. What can Linguistics and Deep Learning Contribute to Each Other?Response to Pater[J]. Language,2019(1) :99-108.
[15]Pater J. Generative Linguistics and Neural Networks at60:Foundation,F(xiàn)riction,and Fusion[J].Language,2019(1) :41-74.
[16]Warstadt A,Parrish A,Liu H,et al.BLiMP:The Benchmark of Linguistic Minimal Pairs for English [J].Transactions of the Association for Computational Linguistics,2020(8):377-392.
[17]劉海濤,元達(dá).大語(yǔ)言模型的語(yǔ)用能力探索:從整 體評(píng)估到反語(yǔ)分析[J].現(xiàn)代外語(yǔ),2024(3): 439-451.
[18]Warstadt A,Singh A,Bowman SR.Neural Network Acceptability Judgments [EB/OL]. [2025-04-15]. https ://arxiv. org/pdf/1805.12471.
[19]Binz M,Schulz E. Using Cognitive Psychology to Understand GPT-3[J]. Proceedings of National Academy of Sciences of the United States of America, 2023 (6).
[20]Pouw C,Klots MD H,Alishahi A,et al.Perception of Phonological Assimilation by Neural Speech Recognition Models [J]. Computational Linguistics, 2024 (4):1557-1585.
[21]Lampinen A. Can Language Models Handle Recursively Nested Grammatical Structures?A Case Study on Comparing Models and Humans[J]. Computational Linguistics,2024(4) :1441-1476.
[22]DevlinJ,Chang MW,Kenton L,et al.BERT:Pretraining of Deep Bidirectional Transformers for Language Understanding [C]/Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language lecnnoiogies: voiume 1, zU1y:41/1-4100.
[23]Frank M C. Bridging the Data Gap between Children and Large Language Models[J]. Trends in Cognitive Sciences,2023(11):990-992.
[24]Piantadosi S. Modern Language Models Refute Chomsky’s Approach to Language[EB/OL]. (2024-07- 05)[2025-04-15].https://ling.auf. net/lingbuzz/ 007180.
[25]Fox D,Katzir R. Large Language Models and Theoretical Linguistics[J]. Theoretical Linguistics,2024 (1): 71-76.
[26]Wang L,Chen X,Deng X,et al. Prompt Engineering in Consistency and Reliability with the Evidencebased Guideline forLLMs[J].NPJDigit Med,2024 (1):41.
[27]Opitz J.A Closer Look at Classification Evaluation Metrics and A Critical Reflection of Common Evaluation Practice[J].Transactions of the Association for Computational Linguistics,2024(12) : 820-836.
[28]Hu J, Mahowald K,Lupyan G,et al. Language Models Align with Human Judgments on Key Grammatical Constructions [J].Proceedings of the National Academy of Sciences, 2024(36).
[29]崔希亮.AI時(shí)代語(yǔ)言學(xué)的學(xué)科發(fā)展問(wèn)題[J].現(xiàn)代 外語(yǔ),2025(1):139-147.
[30]Rambell G,Chersoni E,et al. Can Large Language Models Interpret Noun-Noun Compounds? A Linguistically-Motivated Study on Lexicalized and Novel Compounds [C]/Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics: Volume 1: Long Papers,Association for ComputationalLinguistics.Bangkok,Thailand,2024: 11823-11835.
[31] Dabkowski M,Begus G. Large Language Models and (non-)Linguistic Recursion[EB/OL].(2023-06-12) [2025-04-15].https://www.semanticscholar.org/reader/ 55209dc15c9489c1e8ea3cc5d36b697b861f8919.
[32]Wilcox E,et al. What do RNN Language Models Learnabout Filler-Gap Dependencies?[C]//Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP,2018:211-221.
[33]Marjieh R,Sucholutsky I,van Rijn P,et al. Large Language Models Predict Human Sensory Judgments Across Six Modalities[J].Scientific Reports,2024 (14): 21445.
[34]陸儉明.大語(yǔ)言模型的\"語(yǔ)言\"跟自然語(yǔ)言性質(zhì)迥 然不同[J].語(yǔ)言戰(zhàn)略研究,2025(1):1-1.
[35]Hart B,Risley T R.American Parenting of Language-learning Children:Persisting Differences in Family-child Interactions Observed in Natural Home Environments[J].Developmental Psychology,1992 (6):1096.
[36]Peters M E,Neumann M,Iyer M,et al. Deep Contextualized Word Representations[C]/Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics :Human Language Technologies:Volume 1:Long Papers,2018:2227-2237.
[37]Liu Y H,Ott M,Goyal N,et al.RoBERTa:A Robustly Optimized BERT Pretraining Approach [EB/ OL].(2019-07-26)[2025-04-15].https://arxiv. org/pdf/1907.11692.
[38]李宇明.兒童語(yǔ)言發(fā)展的連續(xù)性及順序性[J].漢 語(yǔ)學(xué)習(xí),1994(5):6.
[39]Long M H. The Role of the Linguistic Environment in Second Language Acquisition [C]// Ritchie W C, Bhatia T K. Handbook of Second Language Acquisition.New York:Academic Press,1996:413-468.
[40]MacWhinney B. The CHILDES Project: Tools for Analyzing Talk Volume II:The Database[M].New York : Psychology Press, 2014.
[41]Davies M. The 385+ Million Word Corpus of Contemporary American English(1990-2008 + ):Design, Architecture,and Linguistic Insights[J]. International Journal of Corpus Linguistics, 2009(2):159-190.
[42]Lavechin M, Seyssel M D,Metais M,et al. Early Phonetic Learning from Ecological Audio:Domaingeneral Versus Domain-specific Mechanisms [EB/ OL].[2025-02-18]. https://osf. io/preprints/psyarxiv.
[43]ZhangY,Warstadt A,LiXC,et al.When do You Need Billions of Words of Pretraining Data?[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing:Vol.1:Long papers,2021:1112-1125.
[44]Lazaridou A,Baroni M. Emergent Multi-Agent Com[2025-02-18]. hps://arxiv. org/pdf/2006. 02419.
[45]Caldwell-Harrs C L,MacWhinney B.Age Efects in Second Language Acquisition:Expanding the Emergentist Account [J].Brain and Language,2023 (241):105269.
[46]Ornes S. The Unpredictable Abilities Emerging from Large AI Models[EB/OL].(2023-03-16)[2025- 01-17]. https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models20230316/.
[47]Warstadt A,Bowman S R.Can Neural Networks Acquire a Structural Bias from Raw Linguistic Data? [C]//Proceedings of the 42nd Annual Conference of the Cognitive Science Society,2020.
[48]McCoy RT,F(xiàn)rank R,Linzen T.Does Syntax Need to Growon Trees?Sources ofHierarchical Inductive Biasin Sequence-to-Sequence Networks[J].Transactions of the Association for Computational Linguistics,2020,8:125-140.
[49]Petty J,F(xiàn)rank R. Transformers Generalize Linearly [EB/OL].[2025-02-17]. https://arxiv.org/pdf/2109. 12036.
[50]Huebner P A,Willits JA. Using Lexical Context to Discover the Noun Category :Younger Children Have It Easier[C]// Federmeier K D,Sahakyan L,eds. The Psychology of Learning and Motivation Volume 75:The Context of Cognition:Emerging Perspectives.New York:Academic Press,2021:279-331.
[51]Meyes R,Lu M,Puiseau CW,et al.Ablation Studies in Artificial Neural Networks[EB/OL].[2025- 02-17]. https://arxiv. org/pdf/1901. 08644.
[52]Warstadt A,Bowman SR. What Artificial Neural Networks can Tell us about Human Language Acquisition[C]/ Lappin S,Bernady JP,eds.Algebraic Structures in Natural Language .Oxford:Taylor amp; Francis,2022:1-44.
[53]Schutze C T. The Empirical Base of Linguistics : Grammaticality Judgments and Linguistic Methodology[M]. Chicago,IL:University of Chicago Press, 1996.
[54]Sprouse J,Schutze C T,Almeida D.A Comparison of Informal and Formal Acceptability Judgments UsingaRandom Sample from Linguistic Inquiry 2001- 2010[J].Lingua,2013(134): 219-248.
[55]Marvin R,Linzen T. Targeted Syntactic Evaluation of Language Models [C]/Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018:1192-1202.
[56]Lau JH,Clark A,Lappin S.Grammaticality,Acceptability,and Probability:AProbabilistic Viewof Linguistic Knowledge[J]. Cognitive Science,2017 (5):1202-1241.
[57]Someya T,Sugimoto Y,Oseki Y. JCoLA: Japanese Corpus of Linguistic Acceptability[EB/OL].[2025- 02-17]. https ://arxiv. org/pdf/2309.12676.
[58]Mikhailov V,Shamardian T,Ryabinin M,et al.RuColA:Russian Corpus of Linguistic Acceptability [EB/OL].[2025-02-17].https://arxiv.org/pdf/ 2210.12814.
[59]Belinkov Y,Glass JR.Analysis Methods in Neural Language Processing:A Survey [J]. Transactions of the Association for Computational Linguistics,2019 (7):49-72
[60]Wilson C.Learning Phonology with Substantive Bias : An Experimental and Computational Study of Velar Palatalization[J]. Cognitive Science,2006(5): 945-982.
[61] Chaves R P. What don’t RNN Language Models Learn about Filler-Gap Dependencies?[C]//Proceedings of the third Meeting of the Society for Computation in Linguistics (SCiL),2020.
[62]Wilcox E,et al. What do RNN Language Models Learn about Filler-Gap Dependencies?[C]/Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networksfor NLP,2018: 211-221.
[63]Hu J,Mahowald K,Lupyan G,et al. Language Models Align with Human Judgments on Key Grammatical Constructions[J].PNAS,2024(36).
[64]Evanson L,Lakretz Y, King JR. Language Acquisition :Do Children and Language Models Follow Similar Learning Stages?[C]//Findings of the Association for Computational Linguistics:ACL 2O23,Association for Computational Linguistics.Toronto,Canada, 2023:12205-12218.
[65]Qin Y,Wang W,Lake BM. A Systematic InvestigationofLearnability from Single Child Linguistic Input [EB/OL].[2025-02-17]. https://arxiv.org/pdf/2402. 07899.
[66]WangW,VongWK,Kim N,et al.Finding Structure inone Child’s Linguistic Experience[J].Cognitive Science,2023(6).
[67]GauthierJ,HuJ,WilcoxE,et al.SyntaxGym:An Online Platform for Targeted Evaluation of Language Models[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics:System Demonstrations,Association for Computational Linguistics,2020:70-76.
[68]Martinez HJV,Heuser A,Yang C,etal. Evaluat
ingNeural Language Models as Cognitive Modelsof Language Acquisition [C]//Proceedings of the 1st GenBenchWorkshopon(Benchmarking)Generalisation inNLP,2023:48-64. [69]Fodor JD,Crowther C. Understanding Stimulus PovertyArguments[J].The Linguistic Review,2002 (19):105-145.
責(zé)任編輯:劉伊念(E-mail:lynsy@ jhun.edu.cn)
Linguistic Competence Evaluation of Large Language Models : Feature,Approachand Trend
YIBaoshu1,NIChuanbin2
(1.School of Foreign Studies,Nanjing University of Posts and Telecommunications,Nanjing 210023; 2.School of Foreign Languages and Cultures,Nanjing Normal University,Nanjing 210023)
Abstract:After reviewing researches on the development of linguistic competence of Large Language Models(LLMs)and comparing the different characteristics between LLMs and human speech learning, this study explores the evaluation of LLMs’linguistic competence and its theoretical implications from multiple dimensions,including the learning environment and mechanism,the measurement of languagespecific generalization ability,and the assessment of grammatical competence.It can be found that:In terms of learning environment,LLMs achieve eficient statistical generalization with massive single-modal text input,while humans develop language capacity in multi-modal interactions with higher ecological validity;their diffrencesare complementary.Regarding the core assumption of genetic theory of language,the results of ablation experiment,unsupervised and supervised tests reveal that although LLMs lack the prior grammatical specificity of humans,theycanreproduce some grammatical rules through statistical models. The assessment of grammatical competence indicates that although LLMs can acquire surface syntactic structures,thereare stillsignificant limitations in modeling human-specific features such as deep recursion and semantic-syntactic interfaces.Meanwhile,the emergent abilityof LLMs poses a dual challenge to the theory of stimulus scarcity and the genetic theory of language; it promotes the paradigm fusionof computational linguistics with theoretical linguistics,cognitive science and other fields.In the future,the assessment of LLMs’language capabilities needs to focus on the cognitive decoupling mechanism between language forms and functions,so as to explore the collaborative approaches of interdisciplinary methodologiesand clarifyLLMs’language capability boundaries.
Key Words:artificial intelligence(AI);Large Language Model (LLM);linguistic competence; grammatical competence; language acquisition; syntactic processing