• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大語(yǔ)言模型的語(yǔ)言能力評(píng)測(cè)研究:特征、路徑和趨勢(shì)

    2025-07-29 00:00:00易保樹(shù)倪傳斌
    江漢學(xué)術(shù) 2025年4期
    關(guān)鍵詞:評(píng)測(cè)句法語(yǔ)言學(xué)

    關(guān)鍵詞:人工智能;大語(yǔ)言模型;語(yǔ)言能力;語(yǔ)法能力;語(yǔ)言習(xí)得;句法加工中圖分類號(hào):H0-05;TP18 文章標(biāo)志碼:A 文章編號(hào):1006-6152(2025)04-0073-11DOI:10.16388/j.cnki.cn42-1843/c.2025.04.007

    語(yǔ)言習(xí)得研究的核心目標(biāo)在于揭示人類語(yǔ)言能力發(fā)展的必要條件和充分條件,聚焦先天稟賦與環(huán)境輸入的互動(dòng)機(jī)制。以Chomsky(1965)為代表的語(yǔ)言天賦論提出“刺激貧乏論”(PovertyofStimulus),強(qiáng)調(diào)人類具備特異性語(yǔ)言本能[1]。而實(shí)證主義學(xué)派則主張通過(guò)領(lǐng)域一般性學(xué)習(xí)機(jī)制與環(huán)境輸入的相互作用即可解釋語(yǔ)言發(fā)展2]。這種理論分歧凸顯出兩個(gè)關(guān)鍵問(wèn)題:第一,單純觀察人類語(yǔ)言環(huán)境難以有效區(qū)分先天機(jī)制與后天經(jīng)驗(yàn)的各自貢獻(xiàn);第二,語(yǔ)言習(xí)得神經(jīng)機(jī)制的驗(yàn)證仍需突破性研究方法的支持。當(dāng)前人工智能領(lǐng)域大語(yǔ)言模型(LLMs)的突破性發(fā)展為上述問(wèn)題提供了新的研究視角。LLMs是基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)言學(xué)習(xí)系統(tǒng)[3],其典型架構(gòu)包含數(shù)百億至數(shù)千億參數(shù)4],通過(guò)海量語(yǔ)料庫(kù)訓(xùn)練可掌握語(yǔ)法規(guī)則、語(yǔ)義表征及語(yǔ)用知識(shí)[5],展現(xiàn)出接近人類的文本生成、多任務(wù)處理等語(yǔ)言能力[6-7]。這類模型本質(zhì)上構(gòu)成了新型語(yǔ)言學(xué)習(xí)范本[8],其發(fā)展軌跡從統(tǒng)計(jì)語(yǔ)言模型到Transformer模型9],其語(yǔ)言能力發(fā)展對(duì)語(yǔ)言習(xí)得從理論到實(shí)踐都產(chǎn)生了深刻的影響,評(píng)測(cè)其語(yǔ)言能力和人類語(yǔ)言本能之間的差異成為熱點(diǎn)話題。本文通過(guò)回顧大語(yǔ)言模型語(yǔ)言能力研究,對(duì)比分析人類與LLMs在學(xué)習(xí)環(huán)境和機(jī)制方面的差異,重點(diǎn)探討大語(yǔ)言模型的語(yǔ)言能力評(píng)測(cè)特征和途徑。

    一、大語(yǔ)言模型的語(yǔ)言能力

    根據(jù)Chomsky(1965)對(duì)語(yǔ)言能力(competence)和語(yǔ)言表現(xiàn)(performance)的區(qū)分,“語(yǔ)言能力\"主要指對(duì)語(yǔ)言規(guī)則下意識(shí)的理解[1]。“大語(yǔ)言模型的語(yǔ)言能力”則指它對(duì)不同語(yǔ)言現(xiàn)象的理解能力,可分為形式和功能兩個(gè)部分。形式主要指對(duì)語(yǔ)法規(guī)則的泛化能力,而功能主要指語(yǔ)用推理以及語(yǔ)篇文本分析(如情感分析)能力等[10]。隨著大語(yǔ)言模型語(yǔ)言能力的突破性進(jìn)展,評(píng)測(cè)其語(yǔ)言能力逐漸成為學(xué)界探究LLMs是否具備人類語(yǔ)言認(rèn)知機(jī)制的新途徑[],相關(guān)研究歷經(jīng)三個(gè)階段。

    (一)萌芽期,人工智能領(lǐng)域的早期語(yǔ)言模型研究呈現(xiàn)明顯的學(xué)科壁壘

    從圖靈測(cè)試(1950)到 N-gram 模型,再到神經(jīng)網(wǎng)絡(luò)模型[3],人工智能的技術(shù)演進(jìn)長(zhǎng)期被視為獨(dú)立于語(yǔ)言學(xué)的工程實(shí)踐,大語(yǔ)言模型語(yǔ)言能力被認(rèn)為和語(yǔ)言學(xué)沒(méi)有關(guān)系。研究者甚至主張每開(kāi)除一個(gè)語(yǔ)言學(xué)家,語(yǔ)音識(shí)別系統(tǒng)性能就提升一個(gè)百分點(diǎn),語(yǔ)言學(xué)的介入會(huì)降低模型的表現(xiàn)。而理論語(yǔ)言學(xué)界對(duì)此保持審慎態(tài)度,Katzir(2023)和Chomsky(2023)多次強(qiáng)調(diào)LLMs未遵循特定語(yǔ)言學(xué)理論,難以成為有效的認(rèn)知模型[1-12]。盡管Linzen等(2016)開(kāi)創(chuàng)性地測(cè)試部分神經(jīng)網(wǎng)絡(luò)模型的句法加工能力,相關(guān)成果仍因模型性能局限未能引發(fā)語(yǔ)言學(xué)界的實(shí)質(zhì)關(guān)注[13]

    (二)爆發(fā)期,Transformer架構(gòu)的革新催生研究范式轉(zhuǎn)變

    自Linzen(2019)與Pater(2019)在《Lan-guage》發(fā)起語(yǔ)言學(xué)與深度學(xué)習(xí)的對(duì)話,大模型語(yǔ)言能力表現(xiàn)的實(shí)證研究呈現(xiàn)井噴態(tài)勢(shì)[14-15]。研究范圍覆蓋語(yǔ)音至語(yǔ)用各層級(jí)的評(píng)測(cè)[16-17],測(cè)評(píng)方法突破顯著,如構(gòu)建多維度評(píng)測(cè)體系,涵蓋可接受性判斷[18]、神經(jīng)認(rèn)知數(shù)據(jù)[19]、BLiMP基準(zhǔn)和Zorro數(shù)據(jù)集[16]。同時(shí)研究也開(kāi)展大模型和人類語(yǔ)言能力認(rèn)知機(jī)制比較,探討語(yǔ)言習(xí)得[20]、加工策略2等核心議題。學(xué)界形成兩大陣營(yíng):支持者認(rèn)為L(zhǎng)LMs具備人類語(yǔ)言結(jié)構(gòu)表征能力[22],質(zhì)疑者則指出它缺乏系統(tǒng)性知識(shí)表征與元語(yǔ)言意識(shí)[23]

    (三)反思期,反思大語(yǔ)言模型和語(yǔ)言學(xué)的雙向賦能路徑

    Piantadosi(2023)對(duì)“語(yǔ)言天賦論\"的批判引發(fā)學(xué)科反思[24-25.9],形成雙向研究進(jìn)路:一方面,語(yǔ)言學(xué)知識(shí)被證實(shí)在提示工程[26]、小樣本學(xué)習(xí)[、規(guī)則理解[27等方面具有實(shí)踐價(jià)值;另一方面,LLMs開(kāi)始作為實(shí)驗(yàn)工具參與語(yǔ)言認(rèn)知加工和習(xí)得研究[28-29],應(yīng)用于名動(dòng)區(qū)分[30]、語(yǔ)言遞歸[31]、孤島效應(yīng)[32]等理論評(píng)測(cè),甚至模擬人類被試的語(yǔ)言能力[33]。值得關(guān)注的是,反對(duì)聲浪持續(xù)存在:陸儉明(2025)等質(zhì)疑LLMs未能反映人腦語(yǔ)言能力獨(dú)有機(jī)制[34],Katzir(2023)則指出大語(yǔ)言模型缺乏抽象符號(hào)編碼能力[1]

    目前評(píng)測(cè)研究對(duì)大語(yǔ)言模型在語(yǔ)音、詞匯、語(yǔ)義、語(yǔ)用多個(gè)層級(jí)上是否展現(xiàn)出人類相似的語(yǔ)言能力的問(wèn)題還沒(méi)有一致的答案,特別是大模型是否具有語(yǔ)言特異性語(yǔ)法規(guī)則泛化能力還是一個(gè)具有爭(zhēng)議性的話題。

    二、大語(yǔ)言模型的語(yǔ)言學(xué)習(xí)環(huán)境和機(jī)制

    LLMs依賴海量文本數(shù)據(jù)的靜態(tài)訓(xùn)練,通過(guò)概率建模捕捉詞匯間的表層關(guān)聯(lián),卻缺乏多模態(tài)感知和具身認(rèn)知基礎(chǔ)。其學(xué)習(xí)受限于封閉的符號(hào)系統(tǒng),無(wú)法將語(yǔ)言與現(xiàn)實(shí)世界的實(shí)體、動(dòng)作及社會(huì)互動(dòng)直接關(guān)聯(lián)。而人類語(yǔ)言發(fā)展植根于動(dòng)態(tài)的互動(dòng)環(huán)境:嬰幼兒通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多通道輸入,在具體情境中建立語(yǔ)義網(wǎng)絡(luò),并借助心智理論推測(cè)他人意圖。

    所以較之人類語(yǔ)言習(xí)得環(huán)境,大語(yǔ)言模型的學(xué)習(xí)環(huán)境差異顯著,主要表現(xiàn)在三個(gè)方面:輸入量級(jí)、輸人模態(tài)結(jié)構(gòu)和環(huán)境效果。首先是輸入規(guī)模的量級(jí)差異。人類語(yǔ)言習(xí)得的輸入量級(jí)呈現(xiàn)漸進(jìn)累積特征,兒童年均接觸詞匯量約300萬(wàn)至1100萬(wàn)35,青春期前累計(jì)可達(dá)千萬(wàn)至億級(jí)。相較之下,主流LLMs的訓(xùn)練語(yǔ)料規(guī)模呈指數(shù)級(jí)超越:ELMo(10億詞符)、BERT(33億詞符)、RoBERTa(300億詞符)至GPT-3(2000億詞符)[36-37.22.6]。Warstadt等(2020)通過(guò)BLiMP基準(zhǔn)測(cè)試揭示:當(dāng)RoBERTa接受300億詞符訓(xùn)練時(shí),其12項(xiàng)語(yǔ)法任務(wù)中6項(xiàng)達(dá)類人水平;但若將訓(xùn)練量降至人類水平(1億詞符),類人表現(xiàn)僅存2項(xiàng)[16。這表明LLMs的語(yǔ)言能力與數(shù)據(jù)規(guī)模存在超線性關(guān)系,但關(guān)鍵語(yǔ)言現(xiàn)象(如長(zhǎng)距離依存結(jié)構(gòu))仍存習(xí)得瓶頸。其次,輸入模態(tài)的結(jié)構(gòu)差異。LLMs當(dāng)前訓(xùn)練語(yǔ)料以書面文本為主,缺失人類語(yǔ)言發(fā)展的核心特征;多模態(tài)感知缺位,兒童通過(guò)感覺(jué)一運(yùn)動(dòng)系統(tǒng)構(gòu)建概念支架[38],而LLMs的語(yǔ)義表征僅源于文本共現(xiàn)模式,導(dǎo)致早期名詞偏向等認(rèn)知特性難以復(fù)現(xiàn);互動(dòng)情境剝離,人類語(yǔ)言功能根植于交際意圖實(shí)現(xiàn)[39],而LLMs的生成機(jī)制缺乏真實(shí)對(duì)話的協(xié)商過(guò)程,且口語(yǔ)特征缺失,盡管近期研究嘗試整合CHILDES兒童語(yǔ)料4與COCA口語(yǔ)數(shù)據(jù)庫(kù)4,LLMs仍難以充分捕捉語(yǔ)音韻律等副語(yǔ)言特征[42]。最后,在環(huán)境效度方面,現(xiàn)有證據(jù)顯示當(dāng)LLMs訓(xùn)練數(shù)據(jù)嚴(yán)格限制于人類水平(如千萬(wàn)詞符量級(jí)),其語(yǔ)言表現(xiàn)顯著退化[43]。這提示研究者需建立環(huán)境輸入的等效性標(biāo)準(zhǔn)。若欲將LLMs結(jié)論外推至人類,須確保模型訓(xùn)練環(huán)境的豐富度不超過(guò)人類經(jīng)驗(yàn)上限。當(dāng)前技術(shù)路徑如多模態(tài)整合[44]與互動(dòng)任務(wù)強(qiáng)化,正試圖彌補(bǔ)LLMs的環(huán)境缺陷,但其認(rèn)知架構(gòu)的本質(zhì)差異仍構(gòu)成理論推廣的生態(tài)效度威脅。

    可見(jiàn),關(guān)于模型的環(huán)境支持假說(shuō)45在LLMs中獲部分驗(yàn)證,在毫秒級(jí)時(shí)間尺度內(nèi)完成傳統(tǒng)語(yǔ)言習(xí)得研究需十年追蹤的縱向發(fā)展過(guò)程。大語(yǔ)言模通過(guò)海量語(yǔ)料庫(kù)的概率學(xué)習(xí)機(jī)制[46,8],動(dòng)態(tài)呈現(xiàn)語(yǔ)言能力的演化過(guò)程。

    三、大語(yǔ)言模型的語(yǔ)言特異性泛化能力評(píng)測(cè)

    從學(xué)習(xí)環(huán)境來(lái)看,模型學(xué)習(xí)者在語(yǔ)料輸入量上具有一定的優(yōu)勢(shì),而人類學(xué)習(xí)者在語(yǔ)料輸人模態(tài)的生態(tài)效度上保持特質(zhì),兩者各有千秋。語(yǔ)言天賦論認(rèn)為人類具有語(yǔ)言特異性的泛化能力[1],所以計(jì)算語(yǔ)言學(xué)界為了檢驗(yàn)語(yǔ)言本能天賦論的核心假設(shè),開(kāi)發(fā)出三類實(shí)驗(yàn)范式系統(tǒng)測(cè)量LLMs語(yǔ)言特異性泛化能力[14-15.47-50]:消融實(shí)驗(yàn)、無(wú)監(jiān)督測(cè)試和監(jiān)督測(cè)試。

    (一)消融研究

    機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)模型中的消融研究(ablationstudy)旨在測(cè)量神經(jīng)網(wǎng)絡(luò)模型的組成部分去除之后,神經(jīng)網(wǎng)絡(luò)模型行為表現(xiàn)的變化[51]如圖1所示,一個(gè)含有N個(gè)模塊的神經(jīng)網(wǎng)絡(luò)模型的消融研究,每次我們?nèi)コ粋€(gè)模塊,然后檢測(cè)新模型的表現(xiàn),進(jìn)而考察去除模塊的作用。

    該消融研究可以用來(lái)回答某些問(wèn)題,如優(yōu)勢(shì)A(advantage)在習(xí)得目標(biāo)語(yǔ)言知識(shí)T(target)中是不是必要條件,探討如果沒(méi)有A的學(xué)習(xí)場(chǎng)景下會(huì)發(fā)生什么。例如,學(xué)習(xí)場(chǎng)景通常有兩個(gè)主要變量:學(xué)習(xí)者本能的泛化能力和學(xué)習(xí)環(huán)境,如果消除A之后,模型能夠成功,那就說(shuō)明沒(méi)有A,目標(biāo)T可以習(xí)得。如果消融實(shí)驗(yàn)顯示大模型較之人類沒(méi)有這種本能優(yōu)勢(shì),仍然可以成功習(xí)得T,那該結(jié)果可以推廣到人類身上,從可學(xué)性上來(lái)說(shuō)人不需要A。若語(yǔ)言天賦論想有更強(qiáng)大的證據(jù),就必須證明模型學(xué)習(xí)者相對(duì)于人來(lái)說(shuō)沒(méi)有明顯的本能劣勢(shì),如果消融,即去除該本能偏向,就會(huì)導(dǎo)致學(xué)習(xí)失敗。大語(yǔ)言模型的消融研究一方面可以用來(lái)驗(yàn)證語(yǔ)言天賦論假設(shè)的相關(guān)理論觀點(diǎn),通過(guò)模型來(lái)測(cè)試一些假設(shè)的泛化能力,例如,評(píng)測(cè)在目標(biāo)學(xué)習(xí)時(shí)對(duì)層級(jí)句法偏向是否為必需品。目前如上文在大語(yǔ)言模型的學(xué)習(xí)環(huán)境中提及,許多具體研究顯示大語(yǔ)言模型(模型學(xué)習(xí)者)如若去除輸入量的優(yōu)勢(shì),輸入明顯貧乏,就會(huì)無(wú)法習(xí)得要觀測(cè)的語(yǔ)言行為。故此消融實(shí)驗(yàn)顯示大模型可能沒(méi)有天生的語(yǔ)言特異性泛化能力[52]

    圖1神經(jīng)網(wǎng)絡(luò)模型消融研究示意圖

    (二)無(wú)監(jiān)督測(cè)試

    無(wú)監(jiān)督測(cè)試主要用來(lái)測(cè)試神經(jīng)網(wǎng)絡(luò)模型的語(yǔ)言知識(shí)[52]。無(wú)監(jiān)督測(cè)試不依賴標(biāo)注訓(xùn)練或者任何任務(wù)特異性訓(xùn)練,這種方法揭示的語(yǔ)言知識(shí)通常是通過(guò)自我監(jiān)察,暴露在學(xué)習(xí)環(huán)境或者通過(guò)學(xué)習(xí)者本能獲得。大語(yǔ)言模型的無(wú)監(jiān)督測(cè)試主要利用語(yǔ)言模型的預(yù)訓(xùn)練,根據(jù)之前的成分 W (i 某一成分的可能性,這些預(yù)測(cè)概率乘積能夠用來(lái)預(yù)測(cè)整個(gè)W序列,如圖2公式所示:

    大語(yǔ)言模型使用語(yǔ)言模型的概率得分來(lái)評(píng)價(jià)它是否具有某種語(yǔ)法規(guī)則泛化能力,常見(jiàn)的測(cè)量任務(wù)為可接受性判斷任務(wù)??山邮苄耘袛嗳蝿?wù)是測(cè)量句法理論的主要方式[53],它可以提供豐富的行為測(cè)試來(lái)測(cè)量語(yǔ)法知識(shí)偏向。語(yǔ)言學(xué)家設(shè)計(jì)各種可接受性判斷任務(wù)[54]進(jìn)行無(wú)監(jiān)督測(cè)試,在針對(duì)語(yǔ)言模型的非監(jiān)督測(cè)試中,最小對(duì)可接受性判斷被廣泛使用[55]。所謂最小對(duì)就是意指兩個(gè)句子僅1處不同,一個(gè)為可接受,另一個(gè)為不可接受。如例句(1)a和 (1)b (1)a:他昨天買了一本書和一支筆。b:*他昨天買了什么和一支筆。

    句子構(gòu)成最小對(duì)時(shí)通常在長(zhǎng)度和一元概率上基本匹配,最小對(duì)主要聚焦可接受和不可接受句子之間的決定性差異,這是決定句子可接受概率的兩個(gè)決定因素[56]。所以最小對(duì)可接受性判斷任務(wù)可以評(píng)價(jià)模型預(yù)測(cè)可接受性等級(jí)差異的能力。這種方法基于一種假設(shè):一個(gè)語(yǔ)法正確的句子 Wgood 比一個(gè)和自己差異最小但是語(yǔ)法不正確的句子 Wbad 出現(xiàn)的概率更高,語(yǔ)言模型在可接受性判斷中可以預(yù)測(cè)到這種差異,如圖3:

    PLM(Wgood)gt;PLM(Wbad

    為了提升無(wú)監(jiān)督測(cè)試效度,研究者開(kāi)始嘗試給可接受性判斷任務(wù)提供數(shù)據(jù)庫(kù)支持。Warstadt等(2018)開(kāi)發(fā)英語(yǔ)語(yǔ)言學(xué)可接受性數(shù)據(jù)庫(kù)(Co-LA)18,包含10000個(gè)句子,涉及英語(yǔ)中67種最小對(duì),每一種有1000對(duì),包括形態(tài)、句法和語(yǔ)義等語(yǔ)言現(xiàn)象,如指代一致、元結(jié)構(gòu)、控制和提升、限定和名詞一致、省略、填充和空位、不規(guī)則動(dòng)詞、孤島效應(yīng)、主謂一致等。他們測(cè)試了多個(gè)語(yǔ)言模型,但是模型在多個(gè)語(yǔ)言現(xiàn)象上沒(méi)有表現(xiàn)出優(yōu)勢(shì),且在填充一空位、長(zhǎng)距離孤島結(jié)構(gòu)等復(fù)雜語(yǔ)法結(jié)構(gòu)中錯(cuò)誤顯著。然而Warstadt等(2020)對(duì)可接受性數(shù)據(jù)庫(kù)進(jìn)行了標(biāo)注,之后再進(jìn)行無(wú)監(jiān)督測(cè)試,發(fā)現(xiàn)語(yǔ)言模型如GPT等會(huì)表現(xiàn)得更好,而在長(zhǎng)距離依存如孤島結(jié)構(gòu)的可接受性判斷中表現(xiàn)仍然較差[16]。在此基礎(chǔ)上研究者又開(kāi)發(fā)了日語(yǔ)可接受性數(shù)據(jù)庫(kù)[5,包含10020個(gè)句子,331個(gè)最小對(duì),Warstadt等(2020)對(duì)GPT-2、長(zhǎng)短時(shí)記憶模型和 N-Gram 語(yǔ)言模型進(jìn)行了測(cè)試,準(zhǔn)確率達(dá)到 75% 左右,但是像長(zhǎng)距離主謂一致、依存和孤島等識(shí)別的錯(cuò)誤率依舊較高[16]。同樣利用無(wú)監(jiān)督測(cè)試,Mikhailov等(2022)創(chuàng)建并利用俄語(yǔ)語(yǔ)言可接受性數(shù)據(jù)庫(kù)(包含134000個(gè)句子)對(duì)多個(gè)大模型(包括ChatGPT系列)進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn)在形態(tài)、語(yǔ)義和句法等方面大模型明顯落后于人類[58]。所以總體來(lái)看,在非監(jiān)察測(cè)試下針對(duì)不同語(yǔ)言研究都很難明確大語(yǔ)言模型擁有對(duì)語(yǔ)法,特別是復(fù)雜句法規(guī)則如孤島結(jié)構(gòu)等的特異性泛化能力。

    (三)監(jiān)督測(cè)試或者限制性監(jiān)督測(cè)試

    監(jiān)督或者限制性監(jiān)督測(cè)試,實(shí)際是對(duì)非監(jiān)督測(cè)試的一種輔助,主要依靠對(duì)詞和句子標(biāo)注及訓(xùn)練來(lái)進(jìn)行,如詞性標(biāo)注、依存結(jié)構(gòu)標(biāo)注和共指消解等,都是常用的探測(cè)任務(wù)[59,在探測(cè)神經(jīng)網(wǎng)絡(luò)模型的泛化能力方面有一定的作用,經(jīng)典范式就是刺激貧乏實(shí)驗(yàn)[60]。根據(jù)刺激貧乏論(povertyofstimulus),探測(cè)大語(yǔ)言模型能否像兒童一樣從有限且混亂的輸入當(dāng)中習(xí)得某種語(yǔ)法規(guī)則,從而證明它也具有某種語(yǔ)言本能偏向。刺激貧乏實(shí)驗(yàn)實(shí)際是訓(xùn)練大模型(模型學(xué)習(xí)者)去完成一項(xiàng)句子判斷任務(wù),訓(xùn)練數(shù)據(jù)具有模糊和混亂特征,在兩個(gè)假設(shè)空間上(語(yǔ)言學(xué)歸納和表層歸納)都具有模糊性。首先,在訓(xùn)練時(shí),假設(shè)大模型應(yīng)該具有兩種泛化能力:語(yǔ)言學(xué)歸納(如Isthemainverbinthe“ing”form)和表層結(jié)構(gòu)歸納(如Does the word“the”precede“a”),輸人數(shù)據(jù)是混亂和模糊的,模型要從中去學(xué)習(xí)。其次,到測(cè)試時(shí),改用清晰的數(shù)據(jù),測(cè)試模型是否具有語(yǔ)言學(xué)偏向和表層結(jié)構(gòu)偏向?;诒O(jiān)督測(cè)試的刺激貧乏實(shí)驗(yàn)設(shè)計(jì),研究者開(kāi)始評(píng)測(cè)大語(yǔ)言模型傾向于基于句法結(jié)構(gòu)的歸納還是基于主語(yǔ)和情態(tài)動(dòng)詞倒裝的線性順序歸納48。McCoy等(2020)使用刺激貧乏實(shí)驗(yàn)方法,測(cè)試多個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,重點(diǎn)考察對(duì)歧義主語(yǔ)和情態(tài)動(dòng)詞倒裝結(jié)構(gòu)泛化情況。結(jié)果發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)模型缺乏層級(jí)泛化能力[48],即使Transformer架構(gòu)的大模型(如Deepseek等)也沒(méi)有發(fā)現(xiàn)多層級(jí)特異性泛化能力[49。然而,人工神經(jīng)網(wǎng)絡(luò)(ANN)或者大語(yǔ)言模型缺乏類人語(yǔ)言特異性的泛化能力,使得它們成為更加合適的模型學(xué)習(xí)者,因?yàn)檫@些模型可能在這些領(lǐng)域沒(méi)有特別先天優(yōu)勢(shì)。

    從大語(yǔ)言模型語(yǔ)言規(guī)則泛化能力的三種常用測(cè)量(消融法、可接受性判斷和刺激貧乏實(shí)驗(yàn))來(lái)看,目前大模型在概率學(xué)習(xí)方面具有一定的泛化能力,但是并沒(méi)有語(yǔ)言特異性本能偏向。所以探測(cè)沒(méi)有先天語(yǔ)言特異性層級(jí)泛化能力的大語(yǔ)言模型,能否習(xí)得人類句法規(guī)則以及在語(yǔ)法特征方面,能否做出類人的可接受性判斷,可能是大語(yǔ)言模型語(yǔ)言能力評(píng)測(cè)的新興方向。

    四、大語(yǔ)言模型語(yǔ)法能力的評(píng)測(cè)

    從概率統(tǒng)計(jì)演化而來(lái)的大語(yǔ)言模型是否可以真正習(xí)得人類的語(yǔ)法特征?是否具備與人類相似的語(yǔ)言特異性語(yǔ)法能力?針對(duì)這一系列問(wèn)題,實(shí)際就是要評(píng)測(cè)大語(yǔ)言模型是否具備類人語(yǔ)法能力。為此,研究者提出句法加工一習(xí)得路徑一基準(zhǔn)建構(gòu)三位一體的評(píng)測(cè)體系,包括大語(yǔ)言模型的句法加工能力評(píng)測(cè)、大語(yǔ)言模型的語(yǔ)法特征習(xí)得路徑評(píng)測(cè)、大語(yǔ)言模型語(yǔ)法評(píng)價(jià)基準(zhǔn)的構(gòu)建。

    (一)大語(yǔ)言模型的句法加工能力評(píng)測(cè)

    大語(yǔ)言模型的句法加工能力評(píng)測(cè)已經(jīng)成為學(xué)界的熱點(diǎn)話題[61-63],主要聚焦語(yǔ)言模型和人類對(duì)語(yǔ)法規(guī)則合法性判斷情況的對(duì)比,相關(guān)研究已經(jīng)覆蓋多個(gè)語(yǔ)法特征和規(guī)則[63]。例如,有研究者測(cè)試了GPT-4和GPT-3.5在系列語(yǔ)言和非語(yǔ)言任務(wù)中對(duì)語(yǔ)言區(qū)別性特征“遞歸性”的掌握情況,結(jié)果發(fā)現(xiàn)GPT-4可以識(shí)別、產(chǎn)出和分析語(yǔ)言的遞歸結(jié)構(gòu)。當(dāng)然有研究者質(zhì)疑大模型對(duì)遞歸性的理解可能只是記憶的結(jié)果,因?yàn)榇竽P涂赡茉谶M(jìn)行大量的訓(xùn)練之后,記住了訓(xùn)練的文本內(nèi)容[31]。所以這類表現(xiàn)可能只是記憶效應(yīng),它是否真正理解遞歸的認(rèn)知本質(zhì)仍然存疑。

    針對(duì)復(fù)雜句法加工能力的評(píng)測(cè),Warstadt和Bowman(2020)引入新數(shù)據(jù)集,涵蓋更多的語(yǔ)言學(xué)現(xiàn)象,他們從上文提到的語(yǔ)言學(xué)可接受性語(yǔ)料庫(kù)中選出十三種句法現(xiàn)象,如元結(jié)構(gòu)、控制和提升、省略、填充和空位、句法孤島、主謂一致等,用這十三種句法現(xiàn)象來(lái)考察三種預(yù)訓(xùn)練模型(BERT,GPT和BiLSTM)的句法習(xí)得情況[52]。結(jié)果發(fā)現(xiàn)這些模型雖然具有強(qiáng)大的復(fù)雜句加工能力,能輕松加工雙賓結(jié)構(gòu)和被動(dòng)句等,但是在長(zhǎng)距離依存結(jié)構(gòu)方面表現(xiàn)欠佳。例如,句(2)對(duì)所有三個(gè)模型來(lái)說(shuō)具有一定的挑戰(zhàn)性,BERT和GPT模型相對(duì)于BILSTM來(lái)說(shuō)具有一定的優(yōu)勢(shì)。

    (2)What do you think Iate_?

    所以研究發(fā)現(xiàn)大模型在可接受性的分類上總體表現(xiàn)和人類一致,但是在一些復(fù)雜句法結(jié)構(gòu)上沒(méi)有做出精細(xì)的區(qū)分[52]

    在句法敏感性研究領(lǐng)域,為了解決句法依存等長(zhǎng)句子的加工和習(xí)得問(wèn)題,Linzen等(2016)開(kāi)創(chuàng)性采用長(zhǎng)短時(shí)記憶模型(LSTM)來(lái)考察該模型對(duì)學(xué)習(xí)句法依存的敏感性[13]。該研究發(fā)現(xiàn)LSTM模型在語(yǔ)言加工中可以成功捕捉句子長(zhǎng)距離統(tǒng)計(jì)規(guī)律。同年他們進(jìn)一步考察了LSTM模型對(duì)英語(yǔ)主謂依存結(jié)構(gòu)中人稱數(shù)一致性的敏感性。在該研究中,他們首先進(jìn)行嚴(yán)厲的監(jiān)察,使用數(shù)的預(yù)測(cè)任務(wù)來(lái)訓(xùn)練模型根據(jù)前面的單詞去猜測(cè)動(dòng)詞數(shù)的變化[13]

    (3)The keys to the cabinet

    在數(shù)預(yù)測(cè)任務(wù)中,如例句(3):模型需要猜測(cè)后面的動(dòng)詞是復(fù)數(shù)還是單數(shù),需要判斷句子的動(dòng)詞第三人稱單數(shù)、學(xué)習(xí)名詞的單復(fù)數(shù)、能否發(fā)現(xiàn)正確的主語(yǔ)和對(duì)應(yīng)的動(dòng)詞、需要對(duì)層級(jí)句法敏感等。數(shù)預(yù)測(cè)任務(wù)的特別之處在于可以生成大量的訓(xùn)練句和測(cè)試句,然后使用語(yǔ)法合法性判斷任務(wù)來(lái)訓(xùn)練和學(xué)習(xí)帶有標(biāo)注的句子,顯示這些句子是否違反主謂一致,但是不顯示違反的位置。最后訓(xùn)練模型在沒(méi)有采用任何語(yǔ)法監(jiān)督情況下預(yù)測(cè)下一個(gè)單詞。該研究結(jié)果顯示在較強(qiáng)的監(jiān)督場(chǎng)景下,LSTM模型可以取得較高準(zhǔn)確率(錯(cuò)誤率不到 1% ),但是模型對(duì)于捕獲句法敏感結(jié)構(gòu)表現(xiàn)不佳,需要更直接的監(jiān)督。

    (二)大語(yǔ)言模型與兒童語(yǔ)言習(xí)得路徑評(píng)測(cè)對(duì)比

    通過(guò)對(duì)比大模型和兒童的語(yǔ)言習(xí)得,評(píng)測(cè)大語(yǔ)言模型的語(yǔ)法特征習(xí)得和兒童母語(yǔ)習(xí)得的路徑是否有相似之處[64-66]。Evanson等(2023)探討大語(yǔ)言模型和兒童是否有相似的學(xué)習(xí)階段,重點(diǎn)比較神經(jīng)網(wǎng)絡(luò)模型和兒童(18月一6歲)在句法一語(yǔ)義能力的習(xí)得順序上是否存在顯著性相關(guān),他們共構(gòu)建48個(gè)語(yǔ)言模型,評(píng)測(cè)每個(gè)階段大模型的句法和語(yǔ)義能力。在該研究中使用了來(lái)自BLiMP和Zorro的96個(gè)探測(cè)點(diǎn)和54名兒童的語(yǔ)言產(chǎn)出行為并進(jìn)行對(duì)比,發(fā)現(xiàn)大語(yǔ)言模型和兒童相似,按照一定的系統(tǒng)順序?qū)W習(xí)語(yǔ)言技能,同時(shí)在部分學(xué)習(xí)階段上也表現(xiàn)相似]。Qin等(2024)指出大語(yǔ)言模型在生成連貫文本中的精彩表現(xiàn)已經(jīng)激起大量討論,所以關(guān)于模型學(xué)習(xí)環(huán)境和人類語(yǔ)言可學(xué)性關(guān)系引起研究者的極大興趣[]。如上文所述,大語(yǔ)言模型接受的訓(xùn)練數(shù)據(jù)和兒童收到的語(yǔ)言輸入存在巨大差異,模型訓(xùn)練數(shù)據(jù)規(guī)模(TB級(jí))遠(yuǎn)超兒童語(yǔ)言輸入量(百萬(wàn)),這種“超量學(xué)習(xí)\"可能導(dǎo)致語(yǔ)法表征機(jī)制的質(zhì)性差異。為了消除數(shù)據(jù)偏差,Wang等(2023)和Qin等(2024)等嘗試用兒童的真實(shí)語(yǔ)料來(lái)訓(xùn)練大模型,結(jié)果均發(fā)現(xiàn)訓(xùn)練后的大語(yǔ)言模型可以建立句法范疇系統(tǒng)。這些大語(yǔ)言模型語(yǔ)言習(xí)得路徑評(píng)測(cè),為語(yǔ)言學(xué)中“刺激貧乏論(Povertyofstimulus)”的爭(zhēng)論提供了新的視角[67-68]

    (三)大語(yǔ)言模型語(yǔ)法能力評(píng)價(jià)基準(zhǔn)的構(gòu)建

    為了深人探究大語(yǔ)言模型語(yǔ)法表征和人類語(yǔ)法能力的質(zhì)性差異,研究者開(kāi)始嘗試基于自然語(yǔ)言數(shù)據(jù)集,建構(gòu)語(yǔ)法能力評(píng)測(cè)基準(zhǔn)。在評(píng)價(jià)模型的語(yǔ)法能力中,多采用經(jīng)典理論語(yǔ)言學(xué)家常用的推測(cè)語(yǔ)言的可接受性判斷任務(wù),研究者已經(jīng)建構(gòu)大規(guī)模可接受性數(shù)據(jù)集,如英語(yǔ)、日語(yǔ)和俄語(yǔ)等[18.57-58]?;谶@些數(shù)據(jù)集研究者著力句法、語(yǔ)義和形態(tài)等具體語(yǔ)言學(xué)現(xiàn)象的評(píng)價(jià)[62],開(kāi)發(fā)語(yǔ)法能力評(píng)價(jià)系統(tǒng)如BLiMP[16]、SyntaxGym[67]、Zorro[8]等,例如,BLiMP(語(yǔ)言最小對(duì)基準(zhǔn)評(píng)價(jià)系統(tǒng))實(shí)際是對(duì)早期推理研究的拓展。這些早期研究主要使用最小對(duì)范式進(jìn)行可接受性判斷任務(wù),主要用來(lái)評(píng)測(cè)人類被試的語(yǔ)法能力。而BLiMP主要針對(duì)大語(yǔ)言模型,該評(píng)價(jià)系統(tǒng)主要由最小對(duì)組成(兩個(gè)句子幾乎相同除了在一個(gè)結(jié)構(gòu)或者詞匯特征上有差異)。對(duì)于一個(gè)給定的最小對(duì) ΔMi ,由兩個(gè)句子組成:一個(gè)可接受(S,1)和一個(gè)不可接受 (Si,2) 。如果一個(gè)語(yǔ)言模型能評(píng)測(cè)P(Si,1)gt;P(Si,2) ,那么這個(gè)模型就可以評(píng)測(cè) ΔMi 。大語(yǔ)言模型對(duì)最小對(duì)句子的評(píng)測(cè)打分主要基于該可接受性句子在所有最小對(duì)中所占的百分比率,所以最小對(duì)范式可以讓大語(yǔ)言模型直接進(jìn)行評(píng)測(cè)。當(dāng)然最小對(duì)需要仔細(xì)建構(gòu),需要嚴(yán)格控制長(zhǎng)度和詞匯頻率。BLiMP評(píng)測(cè)系統(tǒng)的語(yǔ)料庫(kù)涵蓋了12種語(yǔ)言學(xué)現(xiàn)象(指代一致、元結(jié)構(gòu)、約束、控制提升、填充一空位、孤島效應(yīng)、量詞、省略等),67種范式、1000句子對(duì),可以用來(lái)測(cè)試模型的語(yǔ)言學(xué)知識(shí)和語(yǔ)法能力。

    另外一種基準(zhǔn)評(píng)價(jià)系統(tǒng)Zorro數(shù)據(jù)集,旨在評(píng)價(jià)語(yǔ)言模型和語(yǔ)法習(xí)得之間的關(guān)系[29],該數(shù)據(jù)集主要來(lái)自Baby-BERTa(RoBERTa的友好型版本),采用英語(yǔ)兒童直接產(chǎn)出的自然語(yǔ)言,接近一個(gè)6歲英語(yǔ)兒童的輸入量。訓(xùn)練材料中的兒童直接話語(yǔ)主要來(lái)自英語(yǔ)CHILDES數(shù)據(jù)庫(kù)[40]。由于Baby-BERTa訓(xùn)練數(shù)據(jù)要比大模型少得多,且詞匯量也較小,為了解決超范圍詞匯對(duì)測(cè)試基準(zhǔn)評(píng)價(jià)系統(tǒng)的影響,按照BLiMP的樣式,Huebner等(2021)開(kāi)發(fā)新的語(yǔ)法合法性測(cè)試系統(tǒng)Zorro,共包含12種語(yǔ)言現(xiàn)象,每種對(duì)應(yīng)一種范式,句子不僅詞匯簡(jiǎn)單且變化不大[50]

    BLiMP和Zorro測(cè)試屬于基礎(chǔ)版,優(yōu)點(diǎn)在于可以生成和測(cè)量大量的句子,缺點(diǎn)是所有的句子結(jié)構(gòu)相同。此外許多結(jié)構(gòu)較為簡(jiǎn)單,遠(yuǎn)低于現(xiàn)代句法分析的覆蓋面。例如,在BLiMP中,主謂一致現(xiàn)象,六個(gè)范式中有四個(gè)關(guān)于線性主謂一致,可以被2-gram模型捕捉到。盡管長(zhǎng)距離,單個(gè)線性規(guī)則在這個(gè)現(xiàn)象上是成功的,但是簡(jiǎn)單測(cè)試的成功并沒(méi)有驗(yàn)證大模型的真實(shí)語(yǔ)法能力,所以有研究者質(zhì)疑這些范式在評(píng)價(jià)大語(yǔ)言模型是否擁有語(yǔ)言學(xué)知識(shí)的總體目標(biāo)中貢獻(xiàn)不大。雖然存在方法論爭(zhēng)議,但Warstadt等(2020)Gauthier等(2020)和Warstadt等(2018)基于上述數(shù)據(jù)集評(píng)價(jià)基準(zhǔn),聚焦句法、語(yǔ)義和形態(tài),發(fā)現(xiàn)許多最新的神經(jīng)網(wǎng)絡(luò)模型能夠基于無(wú)標(biāo)注數(shù)據(jù),像人類兒童一樣在語(yǔ)言習(xí)得中歸納出語(yǔ)法知識(shí)[16,67,18],具有一定的語(yǔ)法能力。

    綜上所述,人工神經(jīng)網(wǎng)絡(luò)和當(dāng)下的大語(yǔ)言模型可以從無(wú)標(biāo)注的自然文本中學(xué)習(xí)、生成文章,回答問(wèn)題,可以做出類人的語(yǔ)法接受性判斷[6,16],適合提供低偏向可學(xué)性證據(jù)[14-15]。所以大語(yǔ)言模型的學(xué)習(xí)環(huán)境、規(guī)則泛化能力和語(yǔ)法能力對(duì)語(yǔ)言天賦假設(shè)和刺激貧乏論提出了極大的挑戰(zhàn),但是這些研究也顯示語(yǔ)言模型并不能總是展現(xiàn)像人類一樣的泛化能力和語(yǔ)法能力,訓(xùn)練的語(yǔ)料基于不真實(shí)的學(xué)習(xí)場(chǎng)景,如采用來(lái)自互聯(lián)網(wǎng)的大規(guī)模語(yǔ)料訓(xùn)練大語(yǔ)言模型,造成這些研究不能針對(duì)性回答人類語(yǔ)言能力和大模型語(yǔ)言能力之間的差異本質(zhì)。

    五、結(jié)語(yǔ)

    大語(yǔ)言模型的語(yǔ)言能力評(píng)測(cè)研究本質(zhì)上是計(jì)算語(yǔ)言學(xué)與理論語(yǔ)言學(xué)、心理語(yǔ)言學(xué)、認(rèn)知語(yǔ)言學(xué)及形式語(yǔ)言學(xué)之間的跨學(xué)科對(duì)話。這種互動(dòng)體現(xiàn)為兩類研究范式的互補(bǔ)性:計(jì)算語(yǔ)言學(xué)通過(guò)構(gòu)建計(jì)算模型揭示語(yǔ)言處理機(jī)制,而認(rèn)知語(yǔ)言學(xué)、形式語(yǔ)言學(xué)和心理語(yǔ)言學(xué)等則聚焦兒童語(yǔ)言習(xí)得和人類語(yǔ)言能力的發(fā)展規(guī)律。二者在方法論與理論建構(gòu)層面存在顯著的協(xié)調(diào)潛力。故此對(duì)未來(lái)研究有兩點(diǎn)思考:第一,能力邊界與理論挑戰(zhàn):形式與功能的認(rèn)知解耦。盡管大語(yǔ)言模型在形式語(yǔ)言能力層面取得突破,包括生成連貫文本、復(fù)現(xiàn)復(fù)雜句法結(jié)構(gòu)等,但其功能語(yǔ)言能力仍存在系統(tǒng)性缺陷。即形式能力有優(yōu)勢(shì),通過(guò)海量參數(shù)實(shí)現(xiàn)語(yǔ)言模式的概率擬合,可模擬人類句法判斷行為[14];而功能能力有局限,在語(yǔ)用推理、意圖理解、跨模態(tài)關(guān)聯(lián)等涉及認(rèn)知一社會(huì)交互的領(lǐng)域表現(xiàn)顯著弱于人類[12]。這種能力分離現(xiàn)象引發(fā)理論語(yǔ)言學(xué)界的激烈爭(zhēng)論。一方面是否定論,Chomsky(2023)強(qiáng)調(diào)大模型僅是語(yǔ)言行為的模擬工具,無(wú)法解釋人類語(yǔ)言器官(FLN)的生物特異性[2;另一方面是重構(gòu)論,Piantadosi(2023)認(rèn)為大模型的成功證明語(yǔ)言習(xí)得可通過(guò)純統(tǒng)計(jì)機(jī)制實(shí)現(xiàn),這直接挑戰(zhàn)普遍語(yǔ)法的必要性假設(shè)24。第二,學(xué)科影響與范式轉(zhuǎn)型。當(dāng)前大語(yǔ)言模型語(yǔ)言能力的突破性進(jìn)展,正在重塑語(yǔ)言習(xí)得研究的方法論格局。理論工具革新,為“語(yǔ)言本能論”等長(zhǎng)期爭(zhēng)議提供可計(jì)算的檢驗(yàn)平臺(tái);研究范式擴(kuò)展,推動(dòng)產(chǎn)生式模型成為繼行為實(shí)驗(yàn)、腦成像之后的第三種實(shí)證研究路徑;學(xué)科邊界重構(gòu),迫使認(rèn)知科學(xué)家重新審視語(yǔ)言能力的模塊化假設(shè)[9。值得警惕的是,現(xiàn)有大模型的訓(xùn)練數(shù)據(jù)(互聯(lián)網(wǎng)文本)與兒童語(yǔ)言輸入存在生態(tài)效度偏差,這要求后續(xù)研究有必要建立以發(fā)展語(yǔ)言學(xué)為導(dǎo)向的大模型語(yǔ)言能力評(píng)測(cè)體系。

    參考文獻(xiàn):

    [1]Chomsky N.Aspects of the Theory of Syntax[M]. Cambridge,MA:MITPress,1965.

    [2]Franco PL. Susan Stebbing on Logical Positivism and Communication[J].Journal of Philosophy,2024 (10):48.

    [3]馮志偉.計(jì)算語(yǔ)言學(xué)方法研究[M].上海:上海外 語(yǔ)教育出版社,2023.

    [4]馮志偉,張燈柯.人工智能中的大語(yǔ)言模型[J]. 外國(guó)語(yǔ)文,2024(3):1-29.

    [5]TayY,Dehghani M,TranVQ,et al. UnifyingLanguage Learning Paradigms[EB/OL].(2022-05-10) [2025-04-15]. https://arxiv.org/pdf/2205.05131.

    [6] Brown TB,MannB,RyderN,etal.LanguageModels areFew-Shot Learners [EB/OL].(2020-05-28) [2025-04-15]. https://arxiv.org/pdf/2005.14165.

    [7] Naveed H,KhanAU,Qiu S,et al.AComprehensive Overview of Large Language Models[EB/OL]. (2023-07-12)[2025-04-15]. https://arxiv.org/pdf/ 2307.06435.

    [8] Marian V. Studying Second Language Acquisition in the Age of Large Language Models:Unlocking the Mysteries of Language and Learning,A Commentary on“Age Effectsin Second Language Acquisition:Expanding the Emergentist Account ”by Catherine L. Caldwell-Harrisand Brian MacWhinney[J].Brain and Language,2023(246).

    [9]袁毓林.ChatGPT等大模型的語(yǔ)言處理機(jī)制及其 理論蘊(yùn)涵[J].外國(guó)語(yǔ),2024(4):2-14.

    [10]Mahowald K,Ivanova A A,et al.Dissociating Language and thought in Large Language Models[J]. Trends in Cognitive Sciences,2024(6):517-540.

    [11」Katzir K. Wny Large Language Models are Poor Ineories ofHuman Linguistic Cognition:A Reply to Piantadosi[J]. Biolinguistics,2023(17).

    [12]Chomsky N. ChatGPT and Human Intelligence:Noam Chomsky Responds to Critics:Noam Chomsky Interviewed by Mirfakhraie [EB/OL].(2023-04-24) [2025-04-15]. htps://chomsky.info/20230424-2.

    [13]Linzen T,Dupoux E,Goldberg Y. Assessing the Ability of LSTMs to Learn Syntax-sensitive Dependencies[J]. Transactions of the Association for Computational Linguistics,2016(4): 521-535.

    [14]Linzen T. What can Linguistics and Deep Learning Contribute to Each Other?Response to Pater[J]. Language,2019(1) :99-108.

    [15]Pater J. Generative Linguistics and Neural Networks at60:Foundation,F(xiàn)riction,and Fusion[J].Language,2019(1) :41-74.

    [16]Warstadt A,Parrish A,Liu H,et al.BLiMP:The Benchmark of Linguistic Minimal Pairs for English [J].Transactions of the Association for Computational Linguistics,2020(8):377-392.

    [17]劉海濤,元達(dá).大語(yǔ)言模型的語(yǔ)用能力探索:從整 體評(píng)估到反語(yǔ)分析[J].現(xiàn)代外語(yǔ),2024(3): 439-451.

    [18]Warstadt A,Singh A,Bowman SR.Neural Network Acceptability Judgments [EB/OL]. [2025-04-15]. https ://arxiv. org/pdf/1805.12471.

    [19]Binz M,Schulz E. Using Cognitive Psychology to Understand GPT-3[J]. Proceedings of National Academy of Sciences of the United States of America, 2023 (6).

    [20]Pouw C,Klots MD H,Alishahi A,et al.Perception of Phonological Assimilation by Neural Speech Recognition Models [J]. Computational Linguistics, 2024 (4):1557-1585.

    [21]Lampinen A. Can Language Models Handle Recursively Nested Grammatical Structures?A Case Study on Comparing Models and Humans[J]. Computational Linguistics,2024(4) :1441-1476.

    [22]DevlinJ,Chang MW,Kenton L,et al.BERT:Pretraining of Deep Bidirectional Transformers for Language Understanding [C]/Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language lecnnoiogies: voiume 1, zU1y:41/1-4100.

    [23]Frank M C. Bridging the Data Gap between Children and Large Language Models[J]. Trends in Cognitive Sciences,2023(11):990-992.

    [24]Piantadosi S. Modern Language Models Refute Chomsky’s Approach to Language[EB/OL]. (2024-07- 05)[2025-04-15].https://ling.auf. net/lingbuzz/ 007180.

    [25]Fox D,Katzir R. Large Language Models and Theoretical Linguistics[J]. Theoretical Linguistics,2024 (1): 71-76.

    [26]Wang L,Chen X,Deng X,et al. Prompt Engineering in Consistency and Reliability with the Evidencebased Guideline forLLMs[J].NPJDigit Med,2024 (1):41.

    [27]Opitz J.A Closer Look at Classification Evaluation Metrics and A Critical Reflection of Common Evaluation Practice[J].Transactions of the Association for Computational Linguistics,2024(12) : 820-836.

    [28]Hu J, Mahowald K,Lupyan G,et al. Language Models Align with Human Judgments on Key Grammatical Constructions [J].Proceedings of the National Academy of Sciences, 2024(36).

    [29]崔希亮.AI時(shí)代語(yǔ)言學(xué)的學(xué)科發(fā)展問(wèn)題[J].現(xiàn)代 外語(yǔ),2025(1):139-147.

    [30]Rambell G,Chersoni E,et al. Can Large Language Models Interpret Noun-Noun Compounds? A Linguistically-Motivated Study on Lexicalized and Novel Compounds [C]/Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics: Volume 1: Long Papers,Association for ComputationalLinguistics.Bangkok,Thailand,2024: 11823-11835.

    [31] Dabkowski M,Begus G. Large Language Models and (non-)Linguistic Recursion[EB/OL].(2023-06-12) [2025-04-15].https://www.semanticscholar.org/reader/ 55209dc15c9489c1e8ea3cc5d36b697b861f8919.

    [32]Wilcox E,et al. What do RNN Language Models Learnabout Filler-Gap Dependencies?[C]//Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP,2018:211-221.

    [33]Marjieh R,Sucholutsky I,van Rijn P,et al. Large Language Models Predict Human Sensory Judgments Across Six Modalities[J].Scientific Reports,2024 (14): 21445.

    [34]陸儉明.大語(yǔ)言模型的\"語(yǔ)言\"跟自然語(yǔ)言性質(zhì)迥 然不同[J].語(yǔ)言戰(zhàn)略研究,2025(1):1-1.

    [35]Hart B,Risley T R.American Parenting of Language-learning Children:Persisting Differences in Family-child Interactions Observed in Natural Home Environments[J].Developmental Psychology,1992 (6):1096.

    [36]Peters M E,Neumann M,Iyer M,et al. Deep Contextualized Word Representations[C]/Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics :Human Language Technologies:Volume 1:Long Papers,2018:2227-2237.

    [37]Liu Y H,Ott M,Goyal N,et al.RoBERTa:A Robustly Optimized BERT Pretraining Approach [EB/ OL].(2019-07-26)[2025-04-15].https://arxiv. org/pdf/1907.11692.

    [38]李宇明.兒童語(yǔ)言發(fā)展的連續(xù)性及順序性[J].漢 語(yǔ)學(xué)習(xí),1994(5):6.

    [39]Long M H. The Role of the Linguistic Environment in Second Language Acquisition [C]// Ritchie W C, Bhatia T K. Handbook of Second Language Acquisition.New York:Academic Press,1996:413-468.

    [40]MacWhinney B. The CHILDES Project: Tools for Analyzing Talk Volume II:The Database[M].New York : Psychology Press, 2014.

    [41]Davies M. The 385+ Million Word Corpus of Contemporary American English(1990-2008 + ):Design, Architecture,and Linguistic Insights[J]. International Journal of Corpus Linguistics, 2009(2):159-190.

    [42]Lavechin M, Seyssel M D,Metais M,et al. Early Phonetic Learning from Ecological Audio:Domaingeneral Versus Domain-specific Mechanisms [EB/ OL].[2025-02-18]. https://osf. io/preprints/psyarxiv.

    [43]ZhangY,Warstadt A,LiXC,et al.When do You Need Billions of Words of Pretraining Data?[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing:Vol.1:Long papers,2021:1112-1125.

    [44]Lazaridou A,Baroni M. Emergent Multi-Agent Com[2025-02-18]. hps://arxiv. org/pdf/2006. 02419.

    [45]Caldwell-Harrs C L,MacWhinney B.Age Efects in Second Language Acquisition:Expanding the Emergentist Account [J].Brain and Language,2023 (241):105269.

    [46]Ornes S. The Unpredictable Abilities Emerging from Large AI Models[EB/OL].(2023-03-16)[2025- 01-17]. https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models20230316/.

    [47]Warstadt A,Bowman S R.Can Neural Networks Acquire a Structural Bias from Raw Linguistic Data? [C]//Proceedings of the 42nd Annual Conference of the Cognitive Science Society,2020.

    [48]McCoy RT,F(xiàn)rank R,Linzen T.Does Syntax Need to Growon Trees?Sources ofHierarchical Inductive Biasin Sequence-to-Sequence Networks[J].Transactions of the Association for Computational Linguistics,2020,8:125-140.

    [49]Petty J,F(xiàn)rank R. Transformers Generalize Linearly [EB/OL].[2025-02-17]. https://arxiv.org/pdf/2109. 12036.

    [50]Huebner P A,Willits JA. Using Lexical Context to Discover the Noun Category :Younger Children Have It Easier[C]// Federmeier K D,Sahakyan L,eds. The Psychology of Learning and Motivation Volume 75:The Context of Cognition:Emerging Perspectives.New York:Academic Press,2021:279-331.

    [51]Meyes R,Lu M,Puiseau CW,et al.Ablation Studies in Artificial Neural Networks[EB/OL].[2025- 02-17]. https://arxiv. org/pdf/1901. 08644.

    [52]Warstadt A,Bowman SR. What Artificial Neural Networks can Tell us about Human Language Acquisition[C]/ Lappin S,Bernady JP,eds.Algebraic Structures in Natural Language .Oxford:Taylor amp; Francis,2022:1-44.

    [53]Schutze C T. The Empirical Base of Linguistics : Grammaticality Judgments and Linguistic Methodology[M]. Chicago,IL:University of Chicago Press, 1996.

    [54]Sprouse J,Schutze C T,Almeida D.A Comparison of Informal and Formal Acceptability Judgments UsingaRandom Sample from Linguistic Inquiry 2001- 2010[J].Lingua,2013(134): 219-248.

    [55]Marvin R,Linzen T. Targeted Syntactic Evaluation of Language Models [C]/Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018:1192-1202.

    [56]Lau JH,Clark A,Lappin S.Grammaticality,Acceptability,and Probability:AProbabilistic Viewof Linguistic Knowledge[J]. Cognitive Science,2017 (5):1202-1241.

    [57]Someya T,Sugimoto Y,Oseki Y. JCoLA: Japanese Corpus of Linguistic Acceptability[EB/OL].[2025- 02-17]. https ://arxiv. org/pdf/2309.12676.

    [58]Mikhailov V,Shamardian T,Ryabinin M,et al.RuColA:Russian Corpus of Linguistic Acceptability [EB/OL].[2025-02-17].https://arxiv.org/pdf/ 2210.12814.

    [59]Belinkov Y,Glass JR.Analysis Methods in Neural Language Processing:A Survey [J]. Transactions of the Association for Computational Linguistics,2019 (7):49-72

    [60]Wilson C.Learning Phonology with Substantive Bias : An Experimental and Computational Study of Velar Palatalization[J]. Cognitive Science,2006(5): 945-982.

    [61] Chaves R P. What don’t RNN Language Models Learn about Filler-Gap Dependencies?[C]//Proceedings of the third Meeting of the Society for Computation in Linguistics (SCiL),2020.

    [62]Wilcox E,et al. What do RNN Language Models Learn about Filler-Gap Dependencies?[C]/Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networksfor NLP,2018: 211-221.

    [63]Hu J,Mahowald K,Lupyan G,et al. Language Models Align with Human Judgments on Key Grammatical Constructions[J].PNAS,2024(36).

    [64]Evanson L,Lakretz Y, King JR. Language Acquisition :Do Children and Language Models Follow Similar Learning Stages?[C]//Findings of the Association for Computational Linguistics:ACL 2O23,Association for Computational Linguistics.Toronto,Canada, 2023:12205-12218.

    [65]Qin Y,Wang W,Lake BM. A Systematic InvestigationofLearnability from Single Child Linguistic Input [EB/OL].[2025-02-17]. https://arxiv.org/pdf/2402. 07899.

    [66]WangW,VongWK,Kim N,et al.Finding Structure inone Child’s Linguistic Experience[J].Cognitive Science,2023(6).

    [67]GauthierJ,HuJ,WilcoxE,et al.SyntaxGym:An Online Platform for Targeted Evaluation of Language Models[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics:System Demonstrations,Association for Computational Linguistics,2020:70-76.

    [68]Martinez HJV,Heuser A,Yang C,etal. Evaluat

    ingNeural Language Models as Cognitive Modelsof Language Acquisition [C]//Proceedings of the 1st GenBenchWorkshopon(Benchmarking)Generalisation inNLP,2023:48-64. [69]Fodor JD,Crowther C. Understanding Stimulus PovertyArguments[J].The Linguistic Review,2002 (19):105-145.

    責(zé)任編輯:劉伊念(E-mail:lynsy@ jhun.edu.cn)

    Linguistic Competence Evaluation of Large Language Models : Feature,Approachand Trend

    YIBaoshu1,NIChuanbin2

    (1.School of Foreign Studies,Nanjing University of Posts and Telecommunications,Nanjing 210023; 2.School of Foreign Languages and Cultures,Nanjing Normal University,Nanjing 210023)

    Abstract:After reviewing researches on the development of linguistic competence of Large Language Models(LLMs)and comparing the different characteristics between LLMs and human speech learning, this study explores the evaluation of LLMs’linguistic competence and its theoretical implications from multiple dimensions,including the learning environment and mechanism,the measurement of languagespecific generalization ability,and the assessment of grammatical competence.It can be found that:In terms of learning environment,LLMs achieve eficient statistical generalization with massive single-modal text input,while humans develop language capacity in multi-modal interactions with higher ecological validity;their diffrencesare complementary.Regarding the core assumption of genetic theory of language,the results of ablation experiment,unsupervised and supervised tests reveal that although LLMs lack the prior grammatical specificity of humans,theycanreproduce some grammatical rules through statistical models. The assessment of grammatical competence indicates that although LLMs can acquire surface syntactic structures,thereare stillsignificant limitations in modeling human-specific features such as deep recursion and semantic-syntactic interfaces.Meanwhile,the emergent abilityof LLMs poses a dual challenge to the theory of stimulus scarcity and the genetic theory of language; it promotes the paradigm fusionof computational linguistics with theoretical linguistics,cognitive science and other fields.In the future,the assessment of LLMs’language capabilities needs to focus on the cognitive decoupling mechanism between language forms and functions,so as to explore the collaborative approaches of interdisciplinary methodologiesand clarifyLLMs’language capability boundaries.

    Key Words:artificial intelligence(AI);Large Language Model (LLM);linguistic competence; grammatical competence; language acquisition; syntactic processing

    猜你喜歡
    評(píng)測(cè)句法語(yǔ)言學(xué)
    認(rèn)知術(shù)語(yǔ)學(xué)與社會(huì)認(rèn)知術(shù)語(yǔ)學(xué)比較研究
    基于人工智能的高中課堂精準(zhǔn)教學(xué)策略研究
    人工智能背景下機(jī)器翻譯文學(xué)文本流水句漢翻法語(yǔ)篇連貫性研究
    中醫(yī)藥典籍俄譯的術(shù)語(yǔ)生態(tài)研究
    語(yǔ)言學(xué)視角下的跨文化交際研究
    大語(yǔ)言模型賦能語(yǔ)料庫(kù)建設(shè)的方法探究
    集成電路IP核評(píng)測(cè)標(biāo)準(zhǔn)的研究
    基于深度學(xué)習(xí)的漢字硬筆楷書智能評(píng)測(cè)系統(tǒng)的設(shè)計(jì)與應(yīng)用
    句法與句意(外一篇)
    述謂結(jié)構(gòu)與英語(yǔ)句法配置
    免费人妻精品一区二区三区视频| 午夜福利网站1000一区二区三区| 美女午夜性视频免费| 丝袜在线中文字幕| 久久久久久人人人人人| 女人被躁到高潮嗷嗷叫费观| 在线亚洲精品国产二区图片欧美| 亚洲精品国产av蜜桃| 在线亚洲精品国产二区图片欧美| 亚洲国产精品国产精品| 久久久久久人妻| 老女人水多毛片| h视频一区二区三区| 伦精品一区二区三区| 欧美xxⅹ黑人| 一边亲一边摸免费视频| 欧美日韩精品网址| 另类亚洲欧美激情| 亚洲av国产av综合av卡| 免费av中文字幕在线| 热99国产精品久久久久久7| 日日啪夜夜爽| 波野结衣二区三区在线| 七月丁香在线播放| 一本久久精品| 精品国产一区二区三区四区第35| 亚洲av欧美aⅴ国产| 久久久久国产一级毛片高清牌| 午夜老司机福利剧场| 九九爱精品视频在线观看| 亚洲国产日韩一区二区| 精品久久久久久电影网| 国产精品久久久久成人av| 精品亚洲乱码少妇综合久久| 中文字幕另类日韩欧美亚洲嫩草| 可以免费在线观看a视频的电影网站 | 中文字幕人妻熟女乱码| 久久韩国三级中文字幕| 男女午夜视频在线观看| 亚洲国产精品999| 国产精品 国内视频| 国产男人的电影天堂91| 国产精品99久久99久久久不卡 | 亚洲国产精品一区二区三区在线| 色哟哟·www| 午夜激情av网站| 亚洲精品久久成人aⅴ小说| 久久99一区二区三区| 日韩三级伦理在线观看| 欧美精品亚洲一区二区| 免费在线观看完整版高清| 国产精品国产三级专区第一集| 欧美少妇被猛烈插入视频| 亚洲欧美中文字幕日韩二区| 国产又色又爽无遮挡免| 男人操女人黄网站| 大片免费播放器 马上看| 亚洲图色成人| 大话2 男鬼变身卡| 有码 亚洲区| 欧美日韩精品网址| 国产精品二区激情视频| 欧美日韩视频精品一区| 国产精品久久久久久av不卡| 免费黄频网站在线观看国产| 亚洲国产精品一区二区三区在线| 免费av中文字幕在线| 免费黄色在线免费观看| 91精品三级在线观看| 国产 一区精品| 午夜免费鲁丝| 日韩中文字幕欧美一区二区 | 青春草视频在线免费观看| 国产福利在线免费观看视频| 美女xxoo啪啪120秒动态图| 亚洲欧美日韩另类电影网站| 欧美激情 高清一区二区三区| 久久99蜜桃精品久久| 久久久久久久久免费视频了| 日韩制服丝袜自拍偷拍| 中文字幕另类日韩欧美亚洲嫩草| av一本久久久久| 天堂俺去俺来也www色官网| 亚洲,欧美,日韩| 午夜av观看不卡| 看免费av毛片| 久久久国产欧美日韩av| 一级片免费观看大全| 免费av中文字幕在线| 日韩一区二区三区影片| 国产一区二区激情短视频 | 精品视频人人做人人爽| 日韩av不卡免费在线播放| 日韩av免费高清视频| 午夜激情av网站| 欧美老熟妇乱子伦牲交| 日产精品乱码卡一卡2卡三| 天堂8中文在线网| a 毛片基地| 欧美日韩精品网址| 午夜日本视频在线| 国产精品无大码| 日韩大片免费观看网站| 在线观看三级黄色| 久久人人爽av亚洲精品天堂| 啦啦啦在线免费观看视频4| www日本在线高清视频| 纯流量卡能插随身wifi吗| 国产成人精品福利久久| 自拍欧美九色日韩亚洲蝌蚪91| 黄色视频在线播放观看不卡| 久久鲁丝午夜福利片| 成人国产麻豆网| 一本久久精品| 一区二区日韩欧美中文字幕| 欧美亚洲 丝袜 人妻 在线| 国产视频首页在线观看| www.自偷自拍.com| 永久免费av网站大全| 亚洲精品国产色婷婷电影| 激情视频va一区二区三区| 国产在线视频一区二区| 中文精品一卡2卡3卡4更新| 国产 精品1| 黄片小视频在线播放| 制服诱惑二区| 少妇猛男粗大的猛烈进出视频| 女人高潮潮喷娇喘18禁视频| 边亲边吃奶的免费视频| 国产av国产精品国产| 韩国精品一区二区三区| 老鸭窝网址在线观看| 9色porny在线观看| 三上悠亚av全集在线观看| 亚洲成色77777| 久久久久视频综合| 黄色 视频免费看| 波野结衣二区三区在线| 国产人伦9x9x在线观看 | 亚洲av中文av极速乱| 黄片播放在线免费| 国产在线一区二区三区精| 狠狠婷婷综合久久久久久88av| 欧美日韩亚洲国产一区二区在线观看 | 91aial.com中文字幕在线观看| 黄色毛片三级朝国网站| 欧美精品高潮呻吟av久久| 国产精品 国内视频| 人人妻人人添人人爽欧美一区卜| 97在线人人人人妻| 免费人妻精品一区二区三区视频| 日韩免费高清中文字幕av| 在线观看免费视频网站a站| 国产精品偷伦视频观看了| 卡戴珊不雅视频在线播放| 久久久国产欧美日韩av| 国产精品一国产av| 男人爽女人下面视频在线观看| 国产av一区二区精品久久| 国产福利在线免费观看视频| 最黄视频免费看| 国产精品亚洲av一区麻豆 | 国产精品女同一区二区软件| 午夜福利影视在线免费观看| 欧美成人午夜免费资源| 国产欧美亚洲国产| 香蕉精品网在线| 亚洲欧美色中文字幕在线| 黑丝袜美女国产一区| 亚洲色图 男人天堂 中文字幕| 91久久精品国产一区二区三区| 国产片特级美女逼逼视频| 国产亚洲精品第一综合不卡| 国产白丝娇喘喷水9色精品| 黄片无遮挡物在线观看| 丰满乱子伦码专区| 午夜日韩欧美国产| 人妻系列 视频| 赤兔流量卡办理| 69精品国产乱码久久久| 国产精品熟女久久久久浪| 99久久人妻综合| 欧美+日韩+精品| 亚洲第一区二区三区不卡| 精品一区二区免费观看| 9色porny在线观看| 国产精品免费视频内射| 午夜福利乱码中文字幕| 精品一区二区三区四区五区乱码 | xxx大片免费视频| 一区二区三区激情视频| 美女高潮到喷水免费观看| 波多野结衣一区麻豆| 欧美中文综合在线视频| 性色avwww在线观看| 欧美成人午夜免费资源| 免费高清在线观看日韩| 日韩中文字幕视频在线看片| 中文字幕精品免费在线观看视频| 极品少妇高潮喷水抽搐| 肉色欧美久久久久久久蜜桃| 大码成人一级视频| av女优亚洲男人天堂| a级片在线免费高清观看视频| 伊人亚洲综合成人网| 777米奇影视久久| 在现免费观看毛片| 成年女人在线观看亚洲视频| 一级片免费观看大全| 黄色怎么调成土黄色| 飞空精品影院首页| 免费观看在线日韩| 国产亚洲欧美精品永久| 婷婷色综合www| 天天影视国产精品| 精品国产露脸久久av麻豆| 大码成人一级视频| 9191精品国产免费久久| 久久国产精品男人的天堂亚洲| 日韩av在线免费看完整版不卡| 亚洲伊人久久精品综合| 欧美日韩精品网址| 在线天堂中文资源库| 亚洲av.av天堂| 男人爽女人下面视频在线观看| 精品99又大又爽又粗少妇毛片| 岛国毛片在线播放| 国产 一区精品| 夫妻午夜视频| 99九九在线精品视频| 狠狠精品人妻久久久久久综合| 老汉色av国产亚洲站长工具| 亚洲色图 男人天堂 中文字幕| 人人妻人人添人人爽欧美一区卜| 国产精品久久久久久精品古装| 国产欧美亚洲国产| 少妇人妻 视频| 99九九在线精品视频| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲欧美一区二区三区黑人 | 伊人久久国产一区二区| 丝袜美腿诱惑在线| 成年女人毛片免费观看观看9 | 晚上一个人看的免费电影| 亚洲成色77777| 久久久久国产一级毛片高清牌| 亚洲五月色婷婷综合| a级片在线免费高清观看视频| 免费观看a级毛片全部| 毛片一级片免费看久久久久| 天天影视国产精品| 国产精品偷伦视频观看了| 春色校园在线视频观看| 欧美+日韩+精品| 午夜激情久久久久久久| videos熟女内射| 波多野结衣一区麻豆| 97人妻天天添夜夜摸| 午夜福利在线免费观看网站| 久久97久久精品| 国产av一区二区精品久久| 国产97色在线日韩免费| 国产精品蜜桃在线观看| 国产极品天堂在线| 777久久人妻少妇嫩草av网站| 大陆偷拍与自拍| 亚洲情色 制服丝袜| 精品国产一区二区三区四区第35| 中国三级夫妇交换| 97在线人人人人妻| 亚洲欧美成人综合另类久久久| 国产日韩欧美视频二区| 1024视频免费在线观看| 亚洲欧美中文字幕日韩二区| 大话2 男鬼变身卡| 久久午夜福利片| 亚洲久久久国产精品| 国产亚洲午夜精品一区二区久久| 一个人免费看片子| 亚洲综合色惰| 亚洲精品国产av蜜桃| av在线观看视频网站免费| 久久久久网色| 免费女性裸体啪啪无遮挡网站| 国产成人免费无遮挡视频| 日韩欧美一区视频在线观看| 日韩av免费高清视频| 男女午夜视频在线观看| 国产一区二区在线观看av| 妹子高潮喷水视频| 国产黄频视频在线观看| 少妇人妻精品综合一区二区| 日韩人妻精品一区2区三区| 亚洲综合精品二区| 最近中文字幕2019免费版| 久久99热这里只频精品6学生| 久久毛片免费看一区二区三区| 可以免费在线观看a视频的电影网站 | 久久久精品区二区三区| 久久99精品国语久久久| 秋霞在线观看毛片| 这个男人来自地球电影免费观看 | 日韩视频在线欧美| 精品午夜福利在线看| 日韩制服丝袜自拍偷拍| 校园人妻丝袜中文字幕| 国产精品麻豆人妻色哟哟久久| 亚洲欧美成人综合另类久久久| 蜜桃国产av成人99| 免费高清在线观看视频在线观看| 日韩一区二区三区影片| av在线观看视频网站免费| 丝袜脚勾引网站| 丝袜美腿诱惑在线| 国产在视频线精品| av.在线天堂| 亚洲成人手机| 亚洲国产日韩一区二区| 欧美精品国产亚洲| 日韩一区二区三区影片| 大香蕉久久网| 久久久久久伊人网av| www日本在线高清视频| 久久久久精品人妻al黑| 精品久久蜜臀av无| 建设人人有责人人尽责人人享有的| 国产成人精品福利久久| 欧美精品国产亚洲| 香蕉精品网在线| 欧美精品人与动牲交sv欧美| 制服人妻中文乱码| 精品99又大又爽又粗少妇毛片| 伊人亚洲综合成人网| 日日摸夜夜添夜夜爱| 在线观看人妻少妇| 母亲3免费完整高清在线观看 | 秋霞在线观看毛片| 久久久久久久久久久免费av| 一级毛片 在线播放| 午夜福利影视在线免费观看| 18+在线观看网站| 精品久久久久久电影网| a 毛片基地| 精品酒店卫生间| www.精华液| 久久人人97超碰香蕉20202| 满18在线观看网站| 亚洲色图综合在线观看| 久久这里有精品视频免费| 99香蕉大伊视频| av不卡在线播放| 国产成人一区二区在线| 亚洲成国产人片在线观看| 少妇人妻精品综合一区二区| 不卡视频在线观看欧美| 精品久久蜜臀av无| 国产乱来视频区| 国产福利在线免费观看视频| 婷婷色综合www| 国产高清不卡午夜福利| 精品卡一卡二卡四卡免费| 成人免费观看视频高清| 嫩草影院入口| 最近中文字幕2019免费版| 国产精品久久久久久av不卡| 免费高清在线观看日韩| 咕卡用的链子| 国产熟女欧美一区二区| 一本久久精品| 丝袜美腿诱惑在线| 老司机亚洲免费影院| 国产在线视频一区二区| 日日爽夜夜爽网站| 岛国毛片在线播放| 一区二区三区四区激情视频| 精品酒店卫生间| 国产免费视频播放在线视频| 久久久精品免费免费高清| 在线观看三级黄色| 日韩一区二区视频免费看| 午夜激情久久久久久久| 在线观看免费视频网站a站| 午夜久久久在线观看| 在线观看免费视频网站a站| 欧美中文综合在线视频| 亚洲人成网站在线观看播放| 熟女少妇亚洲综合色aaa.| 国产精品麻豆人妻色哟哟久久| 色吧在线观看| 日本91视频免费播放| 日日撸夜夜添| 免费黄频网站在线观看国产| 熟女少妇亚洲综合色aaa.| 秋霞伦理黄片| 国产亚洲最大av| 尾随美女入室| 制服人妻中文乱码| 亚洲成av片中文字幕在线观看 | 日本91视频免费播放| 少妇人妻久久综合中文| 波多野结衣av一区二区av| 久久久久视频综合| 久久久精品免费免费高清| 男女国产视频网站| 在线精品无人区一区二区三| av在线播放精品| 捣出白浆h1v1| 日日摸夜夜添夜夜爱| 女性生殖器流出的白浆| 日韩欧美精品免费久久| 亚洲欧美精品自产自拍| 亚洲一区中文字幕在线| 亚洲一码二码三码区别大吗| 国产日韩欧美视频二区| 日本色播在线视频| 伊人久久大香线蕉亚洲五| 国产欧美日韩综合在线一区二区| 欧美日韩亚洲高清精品| 最新中文字幕久久久久| videos熟女内射| xxx大片免费视频| 一区二区日韩欧美中文字幕| 9色porny在线观看| 久久久久久久久久久免费av| 久久午夜福利片| 美女脱内裤让男人舔精品视频| 免费在线观看视频国产中文字幕亚洲 | 色哟哟·www| 蜜桃在线观看..| 伦理电影免费视频| 中文字幕人妻丝袜一区二区 | 亚洲伊人色综图| 爱豆传媒免费全集在线观看| 精品人妻在线不人妻| 色哟哟·www| 18+在线观看网站| 天美传媒精品一区二区| 人人妻人人澡人人爽人人夜夜| 婷婷色综合www| 伊人亚洲综合成人网| 青春草国产在线视频| 欧美人与性动交α欧美精品济南到 | 老汉色av国产亚洲站长工具| 精品少妇内射三级| 亚洲第一区二区三区不卡| 九色亚洲精品在线播放| 中文欧美无线码| 18禁动态无遮挡网站| 久久久精品国产亚洲av高清涩受| 免费黄频网站在线观看国产| videos熟女内射| 中文字幕人妻丝袜制服| 少妇人妻久久综合中文| 老司机亚洲免费影院| 岛国毛片在线播放| 久久久久久久久免费视频了| 久久久欧美国产精品| 黑人猛操日本美女一级片| 日本91视频免费播放| 日韩伦理黄色片| 亚洲国产精品成人久久小说| 一级毛片黄色毛片免费观看视频| 91精品伊人久久大香线蕉| 亚洲精品aⅴ在线观看| 人人妻人人添人人爽欧美一区卜| 1024香蕉在线观看| 亚洲精品国产一区二区精华液| 美女中出高潮动态图| 午夜激情久久久久久久| 巨乳人妻的诱惑在线观看| 日韩大片免费观看网站| 精品亚洲成国产av| 精品久久久久久电影网| 亚洲图色成人| 亚洲国产精品一区二区三区在线| 免费在线观看视频国产中文字幕亚洲 | 九九爱精品视频在线观看| av福利片在线| 三上悠亚av全集在线观看| 国产精品成人在线| 在线观看免费高清a一片| 岛国毛片在线播放| 午夜福利视频精品| 国产精品一区二区在线观看99| 一区二区三区四区激情视频| 深夜精品福利| 自拍欧美九色日韩亚洲蝌蚪91| 久久国产精品男人的天堂亚洲| 日本wwww免费看| 亚洲少妇的诱惑av| 精品一区二区三区四区五区乱码 | 国产欧美日韩综合在线一区二区| 如何舔出高潮| 中文字幕人妻熟女乱码| 国产精品蜜桃在线观看| 黄片无遮挡物在线观看| 黄网站色视频无遮挡免费观看| 制服诱惑二区| 美女视频免费永久观看网站| 国产精品无大码| 国产成人aa在线观看| 制服丝袜香蕉在线| 一本大道久久a久久精品| 久久99一区二区三区| 咕卡用的链子| 亚洲欧美精品自产自拍| 久久久久精品性色| 大陆偷拍与自拍| 久久久久精品性色| 母亲3免费完整高清在线观看 | 国产欧美亚洲国产| 丰满迷人的少妇在线观看| 考比视频在线观看| 亚洲av电影在线观看一区二区三区| 熟女av电影| 国产视频首页在线观看| 一区二区日韩欧美中文字幕| 国产精品三级大全| 欧美变态另类bdsm刘玥| 丰满乱子伦码专区| 久久久久精品人妻al黑| 王馨瑶露胸无遮挡在线观看| 久久久欧美国产精品| 日本vs欧美在线观看视频| 成年av动漫网址| 国产极品天堂在线| 中文字幕制服av| 亚洲av成人精品一二三区| av线在线观看网站| 国产成人免费观看mmmm| 精品亚洲成a人片在线观看| av又黄又爽大尺度在线免费看| 午夜影院在线不卡| 亚洲综合色网址| 精品人妻一区二区三区麻豆| av免费观看日本| 丝瓜视频免费看黄片| 亚洲国产av影院在线观看| av线在线观看网站| 各种免费的搞黄视频| 国产免费又黄又爽又色| 国产精品 欧美亚洲| 精品国产超薄肉色丝袜足j| 欧美精品一区二区免费开放| 黄色 视频免费看| 精品国产乱码久久久久久小说| 精品99又大又爽又粗少妇毛片| 母亲3免费完整高清在线观看 | 高清视频免费观看一区二区| 色视频在线一区二区三区| 亚洲国产日韩一区二区| 亚洲国产欧美网| 狠狠婷婷综合久久久久久88av| 中文字幕精品免费在线观看视频| 天堂中文最新版在线下载| 日本欧美国产在线视频| 亚洲av欧美aⅴ国产| 国产精品国产三级国产专区5o| 美女主播在线视频| 一边摸一边做爽爽视频免费| 亚洲美女黄色视频免费看| 日韩制服丝袜自拍偷拍| 又粗又硬又长又爽又黄的视频| 欧美+日韩+精品| 性色avwww在线观看| 日韩人妻精品一区2区三区| 国产精品久久久久久精品古装| 美女国产视频在线观看| 日韩一区二区视频免费看| 国产成人av激情在线播放| 久久久久久久久久人人人人人人| 欧美 亚洲 国产 日韩一| 亚洲精品aⅴ在线观看| 国产无遮挡羞羞视频在线观看| 国产精品秋霞免费鲁丝片| 欧美精品高潮呻吟av久久| 久久久久人妻精品一区果冻| 欧美+日韩+精品| av电影中文网址| 母亲3免费完整高清在线观看 | 天天躁狠狠躁夜夜躁狠狠躁| 中文字幕最新亚洲高清| 国产探花极品一区二区| 黄色毛片三级朝国网站| 国产成人精品久久久久久| 午夜激情av网站| freevideosex欧美| 黄色 视频免费看| 桃花免费在线播放| 国产亚洲av片在线观看秒播厂| 又粗又硬又长又爽又黄的视频| 久热这里只有精品99| 中文精品一卡2卡3卡4更新| 亚洲精品一二三| 精品卡一卡二卡四卡免费| 亚洲精品aⅴ在线观看| 最近的中文字幕免费完整| 成人手机av| 男女午夜视频在线观看| 一本—道久久a久久精品蜜桃钙片| 秋霞伦理黄片| 久久热在线av| av有码第一页| 少妇人妻久久综合中文| 中文字幕精品免费在线观看视频| 1024视频免费在线观看| 美女视频免费永久观看网站| 亚洲av.av天堂| 日韩精品免费视频一区二区三区| 伦理电影免费视频| 亚洲经典国产精华液单| 9191精品国产免费久久| 老鸭窝网址在线观看| 国产日韩欧美视频二区| 性少妇av在线|