大語言模型評(píng)測(cè)綜述

2024-03-26 02:52:16王厚峰

中文信息學(xué)報(bào) 2024年1期

羅文,王厚峰

(北京大學(xué) 計(jì)算機(jī)學(xué)院,北京 100871)

0 引言

自2017年Google提出Transformer以來,自然語言處理的研究已逐步統(tǒng)一到這種具有靈活堆疊擴(kuò)展能力的編解碼框架下。特別是,人們可以基于Transformer的編碼端和解碼端,通過無監(jiān)督的方式,使用大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練具有通用語言能力的基礎(chǔ)模型,如基于編碼端的BERT[1]、基于解碼端的GPT[2],以及融入編碼和解碼結(jié)構(gòu)的BART[3]、T5[4]等。當(dāng)這些預(yù)訓(xùn)練的基礎(chǔ)模型與下游任務(wù)適配后,不斷地刷新最優(yōu)結(jié)果。為了評(píng)估模型的能力,研究人員提出了許多針對(duì)這些模型在下游任務(wù)上性能表現(xiàn)的評(píng)測(cè)基準(zhǔn)。

預(yù)訓(xùn)練語言模型的規(guī)模越來越大,參數(shù)量從開始的億級(jí),發(fā)展到目前的千億級(jí)甚至萬億級(jí)。隨著規(guī)模的擴(kuò)大,模型在無須對(duì)具體任務(wù)適配的情況下,解決下游任務(wù)的能力也迅速提升。但與此同時(shí),模型自身的各項(xiàng)能力和屬性、應(yīng)用的局限性、潛在風(fēng)險(xiǎn)及其可控性等仍未得到全面評(píng)測(cè)和深入研究。由于大語言模型的迅速發(fā)展和巨大影響,以及通用性的日益增強(qiáng),傳統(tǒng)基于單一任務(wù)的單一評(píng)價(jià)方法已經(jīng)無法適應(yīng)新的評(píng)測(cè)需求。首先,缺乏廣度和深度。面對(duì)許多出色的大語言模型,僅在幾個(gè)已有的基準(zhǔn)數(shù)據(jù)集上往往難以區(qū)分它們的優(yōu)劣。其次,存在數(shù)據(jù)偏差的問題。許多用于評(píng)測(cè)的數(shù)據(jù)集都是從特定的領(lǐng)域或人群中收集,這可能導(dǎo)致模型在基準(zhǔn)數(shù)據(jù)上的表現(xiàn)難以準(zhǔn)確反映其在真實(shí)應(yīng)用場(chǎng)景中的性能。再者,忽視模型其他方面的能力或?qū)傩栽u(píng)估。先前的評(píng)測(cè)方法往往只關(guān)注模型的性能表現(xiàn),忽視了對(duì)模型其他方面的能力或?qū)傩栽u(píng)估。例如,對(duì)模型邏輯推理能力的評(píng)估、對(duì)模型魯棒性的評(píng)估和對(duì)模型生成有害內(nèi)容可能性的評(píng)估等。因此,在大語言模型不斷發(fā)展的同時(shí),模型評(píng)估方法也需要進(jìn)一步研究。

本文首先回顧了自然語言處理中有代表性的評(píng)測(cè)基準(zhǔn)與評(píng)估指標(biāo),針對(duì)大語言模型的評(píng)估對(duì)評(píng)測(cè)范式進(jìn)行了分類,將其分為經(jīng)典評(píng)測(cè)范式和新型評(píng)測(cè)范式,分析了現(xiàn)有評(píng)測(cè)的不足;再介紹了全面的大語言模型評(píng)測(cè)思想,以及相關(guān)的評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法;最后對(duì)目前廣受關(guān)注的大語言模型評(píng)測(cè)的一些新方向做了總結(jié)。需要說明的是,本文所指的大語言模型并沒有嚴(yán)格規(guī)定模型規(guī)模的大小,凡以預(yù)訓(xùn)練為基礎(chǔ)具有“通用”能力的語言模型都屬于本文所指的大模型。

1 自然語言處理的評(píng)測(cè)范式

自然語言處理的發(fā)展受益于自然語言處理評(píng)測(cè)。評(píng)測(cè)通常依賴于一系列的評(píng)測(cè)基準(zhǔn)(Benchmark),模型在這些基準(zhǔn)數(shù)據(jù)集上運(yùn)行并產(chǎn)生輸出結(jié)果,評(píng)測(cè)系統(tǒng)據(jù)此返回一個(gè)代表模型能力的值。最簡(jiǎn)單的評(píng)測(cè)基準(zhǔn)由單一任務(wù)上的單一數(shù)據(jù)集構(gòu)成,這也是常見的自然語言處理基本評(píng)測(cè)模式。為了全面評(píng)估大語言模型,可以將多個(gè)數(shù)據(jù)集聚合和重新組織,形成一個(gè)更通用的評(píng)測(cè)基準(zhǔn)。本章針對(duì)大語言模型的評(píng)估對(duì)評(píng)測(cè)范式進(jìn)行了分類,將其分為經(jīng)典評(píng)測(cè)范式和新型評(píng)測(cè)范式。表1列出了一些典型的評(píng)測(cè)基準(zhǔn)。下面將分別介紹經(jīng)典評(píng)測(cè)范式,以及面向多種能力的新型評(píng)測(cè)范式與現(xiàn)有評(píng)測(cè)的不足。

表1 一些典型的評(píng)測(cè)基準(zhǔn)

1.1 經(jīng)典的自然語言處理評(píng)測(cè)

自然語言處理分為自然語言理解(Natural Language Understanding,NLU)和自然語言生成(Natural Language Generation, NLG)兩個(gè)大類。但在經(jīng)典評(píng)測(cè)范式下都主要關(guān)注模型最終輸出結(jié)果與參考答案的匹配程度。經(jīng)典評(píng)測(cè)的結(jié)構(gòu)如圖1所示。

圖1 經(jīng)典評(píng)測(cè)的結(jié)構(gòu)

1.1.1 自然語言理解能力評(píng)測(cè)

常見的自然語言理解任務(wù)有情感分析(Sentiment Analysis)、文本匹配(Text Matching)、文本分類 (Text Classification)和閱讀理解(Reading Comprehension)等。針對(duì)具體的任務(wù)已有大量的相關(guān)評(píng)測(cè)基準(zhǔn)。2018年,McCann等人[5]提出了 DecaNLP,試圖以統(tǒng)一的問答形式評(píng)測(cè) NLU 能力。該基準(zhǔn)涉及 10 個(gè)任務(wù),與這些任務(wù)相關(guān)的數(shù)據(jù)集均以三元組形式表示,如(問題,上下文,答案)。在評(píng)測(cè)時(shí),給模型輸入(問題,上下文),模型輸出“答案”,然后再計(jì)算模型答案與參考答案的匹配程度。

紐約大學(xué)和華盛頓大學(xué)等機(jī)構(gòu)的研究人員提出了評(píng)測(cè)數(shù)據(jù)集GLUE[6],由9個(gè)自然語言理解任務(wù)組成,包括情感分析、文本蘊(yùn)含、句子相似性等。隨著模型的進(jìn)一步發(fā)展,GLUE進(jìn)一步升級(jí)為SuperGLUE[7]。SuperGLUE在 GLUE 的基礎(chǔ)上增加了五個(gè)難度更高的評(píng)測(cè)任務(wù)。

上述基準(zhǔn)僅限于英語。為了填補(bǔ)跨語言的模型評(píng)測(cè)空白,卡耐基梅隆大學(xué)和谷歌等單位的研究人員提出了XTREME[8]。 XTREME是一個(gè)大規(guī)模、多任務(wù)、多語言的模型評(píng)測(cè)基準(zhǔn),涉及 40 種不同的語言,共 9 個(gè)任務(wù)。幾乎與XTREME同時(shí)出現(xiàn)的XGLUE[9]也是一個(gè)跨語言的模型性能評(píng)測(cè)基準(zhǔn),由11個(gè)任務(wù)組成,涵蓋19種語言。

在中文信息處理方面,第一個(gè)大規(guī)模的中文理解評(píng)測(cè)基準(zhǔn)CLUE[10]于2020年提出,CLUE中的任務(wù)集涵蓋了文本分類、閱讀理解、自然語言推理等多個(gè)中文自然語言理解任務(wù)和一個(gè)診斷評(píng)估數(shù)據(jù)集,具體包含: 長(zhǎng)文本分類IFLYTEK[10]、語義相似度計(jì)算AFQMC[10]、中文命名實(shí)體識(shí)別CLUENER[11]、中文自然語言推理OCNLI[12]、成語完形填空ChID[10]、小樣本(few-shot)測(cè)評(píng)FewCLUE[13]和零樣本(zerow-shot)測(cè)評(píng)ZeroCLUE[13]等。CLUE提供了一種標(biāo)準(zhǔn)化的評(píng)估方式來測(cè)評(píng)模型的中文理解能力。

1.1.2 自然語言生成能力評(píng)測(cè)

自然語言生成的典型任務(wù)是機(jī)器翻譯(Machine Translation)、生成式文本摘要(Generative Text Summarization)、自動(dòng)對(duì)話(Dialogue)等。BLEU[14]是評(píng)測(cè)機(jī)器翻譯任務(wù)中譯文質(zhì)量的一個(gè)重要指標(biāo)。在機(jī)器翻譯的評(píng)測(cè)中,每段原文都有一組高質(zhì)量的參考譯文(Reference),模型生成的譯文被稱為Candidate。BLEU通過衡量模型生成譯文與參考譯文之間的N-gram匹配程度來計(jì)算得分。BLEU的評(píng)測(cè)得分是一個(gè)0～1之間的數(shù)值,表示生成譯文與參考譯文的相似程度。BLEU值越接近1,表示生成譯文與參考譯文之間的相似度越高,也意味著翻譯結(jié)果的質(zhì)量越好。此外,用于機(jī)器翻譯生成譯文的評(píng)估指標(biāo)還有METEOR[15]等。

ROUGE[16]是生成式文本摘要任務(wù)常見的評(píng)測(cè)指標(biāo),ROUGE和BLEU在計(jì)算上非常相似,區(qū)別在于BLEU更關(guān)注精確度,而ROUGE更關(guān)注召回率。ROUGE-N指的是用n-gram對(duì)參考摘要和模型生成摘要分別進(jìn)行拆分后得到的兩個(gè)集合之間的重合率,分母為參考摘要n-gram集合的長(zhǎng)度。

在國(guó)內(nèi),四川大學(xué)和微軟的研究人員于2020年提出了用于評(píng)測(cè)生成能力的GLGE[17]。該基準(zhǔn)涵蓋了生成式文本摘要、問題生成(Question Generation,QG)、生成式問答(Generative Question Answering,QA)和對(duì)話4個(gè)領(lǐng)域,并且根據(jù)難易程度分為三個(gè)級(jí)別: GLGE-easy、GLGE-medium 和 GLGE-difficult。

SemEval是一個(gè)語義處理國(guó)際評(píng)測(cè)研討會(huì),目標(biāo)是推進(jìn)語義分析技術(shù)進(jìn)步,并幫助創(chuàng)建高質(zhì)量的標(biāo)注數(shù)據(jù)集以應(yīng)對(duì)自然語言語義領(lǐng)域越來越具挑戰(zhàn)性的問題。每年的研討會(huì)都包括一系列的共享任務(wù),不同團(tuán)隊(duì)設(shè)計(jì)的計(jì)算語義分析系統(tǒng)在這些任務(wù)中進(jìn)行展示和比較。以SemEval-2022的任務(wù)9[18]為例,該任務(wù)要求模型從英語烹飪食譜和相關(guān)視頻中回答問題,以此評(píng)估模型在表達(dá)和推理時(shí)具有的語言能力和認(rèn)知能力。

GEM[19]是一個(gè)活躍的自然語言生成評(píng)測(cè)基準(zhǔn),側(cè)重于通過人類注釋和自動(dòng)化度量對(duì)模型的NLG能力進(jìn)行評(píng)估。GEM旨在衡量多語言下各種NLG任務(wù)的進(jìn)步,并以數(shù)據(jù)卡片和模型卡片的方式展示相關(guān)的數(shù)據(jù)集信息和模型評(píng)測(cè)結(jié)果。此外,它還致力于結(jié)合自動(dòng)化度量和人類度量方法制定生成文本評(píng)估標(biāo)準(zhǔn)。具體來說,GEM囊括了11個(gè)數(shù)據(jù)集(包括CommonGEN[20]、Czech Restaurant[21]、DART[22]、E2E clean[23-24]、WebNLG[25]、WikiLingua[26]等),涉及英語、西班牙語、土耳其語、俄語、越南語等18種語言。

1.1.3 同時(shí)考慮理解和生成的能力評(píng)測(cè)

隨著大語言模型的迅速發(fā)展及其在下游任務(wù)上的廣泛應(yīng)用,僅僅局限于評(píng)估模型某一種能力的評(píng)測(cè)基準(zhǔn)逐漸無法滿足評(píng)測(cè)需求。在這種背景下,許多新的更為全面的評(píng)測(cè)基準(zhǔn)不斷推出。這些評(píng)測(cè)基準(zhǔn)的一個(gè)重要特點(diǎn)就是它們通常會(huì)聚合多個(gè)數(shù)據(jù)集、多個(gè)任務(wù)以及多個(gè)評(píng)測(cè)指標(biāo)來對(duì)模型進(jìn)行更全面的能力評(píng)測(cè)。

為了更好地對(duì)通用語言能力進(jìn)行基準(zhǔn)測(cè)試,北京大學(xué)、清華大學(xué)以及北京智源人工智能研究院等研究機(jī)構(gòu)聯(lián)合提出了一個(gè)評(píng)估漢語理解和生成能力的評(píng)測(cè)基準(zhǔn)CUGE[27]。CUGE在語言能力-任務(wù)-數(shù)據(jù)集層次框架中選擇和組織數(shù)據(jù)集,涵蓋了7種重要的語言功能,包括: 字句級(jí)別的語言理解能力(Language Understanding: Word-sentence Level)、語篇級(jí)別的語言理解能力(Language Understanding: Discourse Level)、信息獲取和問答能力(Information Acquisition and Question Answering)、語言生成能力(Language Generation)、對(duì)話式交互能力(Conversational Interaction)、多語言能力(Multilingualism)和數(shù)學(xué)推理能力(Mathematical Reasoning);在這7種語言功能下進(jìn)一步細(xì)分到18個(gè)主流NLP任務(wù),包括: 命名實(shí)體識(shí)別(Named Entity Recognition)、實(shí)體關(guān)系抽取(Entity Relation Extraction)、語法糾錯(cuò)(Grammatical Error Correction)、閱讀理解(Reading Comprehension)、開放領(lǐng)域式問答(Open-domain Question Answering)和機(jī)器翻譯(Machine Translation)等;再根據(jù)相應(yīng)的NLP任務(wù)挑選出21個(gè)數(shù)據(jù)集,例如,在命名實(shí)體識(shí)別任務(wù)中使用了CMeEE數(shù)據(jù)集[28],在語法糾錯(cuò)任務(wù)中使用了YACLC數(shù)據(jù)集[29]。該框架是根據(jù)人類語言考試大綱和目前的自然語言處理研究現(xiàn)狀精心設(shè)計(jì)的。

在國(guó)外,為了解決大語言模型的量化評(píng)估及評(píng)估結(jié)果復(fù)現(xiàn)問題,EleutherAI提出了EleutherAI LM Harness[30],這是一個(gè)針對(duì)自回歸大語言模型(Autoregressive Large Language Models)的統(tǒng)一基準(zhǔn)測(cè)試框架。它涵蓋200多個(gè)數(shù)據(jù)集,支持包括但不限于GPT-3[31]、GPT-NeoX[32]和GPT-J[33]等自回歸大語言模型。同時(shí),為了保證評(píng)測(cè)結(jié)果可復(fù)現(xiàn),基于EleutherAI LM Harness的評(píng)測(cè)提供統(tǒng)一的評(píng)測(cè)接口和對(duì)應(yīng)評(píng)測(cè)任務(wù)的版本控制。

1.2 面向多種能力的新型評(píng)測(cè)范式

與經(jīng)典評(píng)測(cè)范式不同,新型評(píng)測(cè)范式不僅關(guān)注大型語言模型在理解和生成方面的能力,同時(shí)也關(guān)注模型本身所表現(xiàn)出的更多重要屬性。例如,模型生成的內(nèi)容是否符合社會(huì)道德準(zhǔn)則。新型評(píng)測(cè)范式使得研究者能夠從更多維度和更深層次去理解和評(píng)估自然語言處理模型的性能,從而推動(dòng)自然語言處理技術(shù)的進(jìn)一步發(fā)展和完善。

1.2.1 多種屬性的能力評(píng)測(cè)

為了追蹤大語言模型的規(guī)模對(duì)模型表現(xiàn)的影響,探究大語言模型本身是否存在基礎(chǔ)性能力和屬性上的缺陷,Google聚集442名研究人員耗時(shí)兩年,于2022年發(fā)布了評(píng)測(cè)基準(zhǔn)BIG-bench[34]。該基準(zhǔn)涵蓋200多個(gè)數(shù)據(jù)集,分為9個(gè)主要方向,分別為: 傳統(tǒng)自然語言處理任務(wù)(Traditional NLP Tasks,包括自然語言理解任務(wù)和自然語言生成任務(wù))、邏輯、數(shù)學(xué)和代碼(Logic,Math,Code)理解、對(duì)世界的理解(Understanding the World)、對(duì)人類的理解(Understanding Humans)、對(duì)科學(xué)技術(shù)的理解(Scientific and Technical Understanding)、與模型的交互機(jī)制(Mechanics of Interaction with Model)、針對(duì)通用語言模型的能力短板(Targeting Common Language Model Technical Limitations)、行為是否符合既定社會(huì)道德準(zhǔn)則(Pro-social Behavior)以及其他(Other)。對(duì)于尚未包括在評(píng)測(cè)基準(zhǔn)里的任務(wù)和數(shù)據(jù)集,BIG-bench支持研究者提交和更新,這使得評(píng)測(cè)基準(zhǔn)能夠隨著大語言模型的發(fā)展而同步發(fā)展,為更加全面地評(píng)測(cè)大語言模型提供了更多可能。

除了評(píng)估大語言模型核心的基礎(chǔ)能力外,還存在一些衡量這些模型與人類偏好的對(duì)齊程度的評(píng)測(cè)基準(zhǔn)。其中,MT-Bench[35]和Chatbot Arena[35]是兩個(gè)常用的評(píng)測(cè)基準(zhǔn)。MT-Bench是一個(gè)包含80個(gè)手工編寫的高質(zhì)量開放式多輪問題的評(píng)測(cè)基準(zhǔn),其目標(biāo)是評(píng)估大型語言模型在多輪對(duì)話和指令遵循方面的能力。該基準(zhǔn)涵蓋了8個(gè)常見的人機(jī)交互場(chǎng)景,包括: 寫作、角色扮演、信息提取、推理、數(shù)學(xué)、編程、自然科學(xué)知識(shí)和人文社會(huì)科學(xué)知識(shí)。針對(duì)每個(gè)場(chǎng)景,研究人員精心編寫了10個(gè)多輪問題,用以評(píng)估大語言模型在面對(duì)這些問題時(shí)與人類偏好的一致性。與MT-Bench不同,Chatbot Arena是一個(gè)眾包匿名基準(zhǔn)測(cè)試平臺(tái)。在該平臺(tái)上,用戶可以同時(shí)與兩個(gè)匿名的大語言模型進(jìn)行交互。用戶可以自由地向這兩個(gè)模型提出相同的問題,并根據(jù)個(gè)人偏好評(píng)價(jià)它們的回答。在Chatbot Arena開始運(yùn)作的一個(gè)月內(nèi),研究者們便收集到了約30 000條評(píng)測(cè)數(shù)據(jù),這種眾包方式為大量用戶動(dòng)態(tài)參與提供了可能,增強(qiáng)了評(píng)測(cè)結(jié)果的廣泛覆蓋性和多樣性。

在中文方面,2023年5月9日, SuperCLUE-Open評(píng)測(cè)基準(zhǔn)正式發(fā)布,這是一個(gè)評(píng)估大語言模型中文對(duì)話能力和遵循指令能力的評(píng)測(cè)基準(zhǔn),包含1 200道中文的高質(zhì)量多輪問題。該基準(zhǔn)不僅包括一些普通的常規(guī)使用場(chǎng)景,還設(shè)計(jì)了一些具有挑戰(zhàn)性的指令以增加不同模型的區(qū)分度。它考察了模型的十大能力,包括: 語義理解與抽取、閑聊、上下文對(duì)話、角色扮演、知識(shí)與百科、生成與創(chuàng)作、代碼、邏輯與推理、計(jì)算、代碼和安全。每個(gè)子能力有60個(gè)題目,每個(gè)題目包括兩輪問題,從中文語境下與人類偏好的對(duì)齊程度方面對(duì)大語言模型進(jìn)行了評(píng)估。

C-EVAL[36]是一個(gè)綜合的中文評(píng)測(cè)基準(zhǔn),旨在評(píng)估中文語境下大語言模型的知識(shí)運(yùn)用與推理能力,為研究者理解和評(píng)估中文語境下的大語言模型能力提供了重要的工具和資源。該評(píng)測(cè)基準(zhǔn)總共包含13 948個(gè)多項(xiàng)選擇題,涵蓋了中學(xué)、高中、大學(xué)和專家四個(gè)難度級(jí)別。這些題目來自52個(gè)不同的學(xué)科領(lǐng)域,包括人文科學(xué)(例如,中國(guó)語言文學(xué)、藝術(shù)學(xué)、歷史學(xué)等)、理工科(例如,高等數(shù)學(xué)、大學(xué)化學(xué)、計(jì)算機(jī)組成、注冊(cè)電氣工程師等)和社會(huì)科學(xué)(例如,政治學(xué)、教育學(xué)、工商管理學(xué)等)等。此外,研究者還基于C-EVAL構(gòu)建了一個(gè)難度更高的評(píng)測(cè)基準(zhǔn)子集C-EVAL HARD。C-EVAL HARD中的題目對(duì)知識(shí)運(yùn)用與推理能力的要求更高,例如,高等數(shù)學(xué)題、大學(xué)物理考試題等。值得指出的是,為了確保評(píng)測(cè)數(shù)據(jù)不被污染,C-EVAL的題目并非直接從官方的國(guó)家考試中選取,而是主要采集自模擬考試和小規(guī)模的地方考試。研究者可以通過C-EVAL評(píng)估中文語境下的大語言模型在各個(gè)學(xué)科領(lǐng)域和不同難度級(jí)別下的表現(xiàn)。

SAFETYPROMPTS[37]是一個(gè)中文大語言模型安全評(píng)測(cè)基準(zhǔn)。該基準(zhǔn)從8種典型的安全場(chǎng)景和6種對(duì)抗性的指令攻擊場(chǎng)景綜合探索了大語言模型應(yīng)用中的安全性問題。其中,安全場(chǎng)景分別為: 侮辱(Insult)、不公平和歧視(Unfairness and Discrimination)、犯罪和非法活動(dòng)(Crimes and Illegal Activities)、敏感話題(Sensitive Topics)、身體傷害(Physical Harm)、心理健康(Mental Health)、隱私和財(cái)產(chǎn)權(quán)(Privacy and Property)、倫理和道德(Ethics and Morality);指令攻擊場(chǎng)景分別為: 目標(biāo)劫持(Goal Hijacking)、提示泄漏(Prompt Leaking)、角色扮演(Role Play Instruction)、不安全的話題引導(dǎo)(Unsafe Instruction Topic)、不安全的觀點(diǎn)詢問(Inquiry with Unsafe Opinion)和逆向曝光(Reverse Exposure)。為了構(gòu)建SAFETYPROMPTS評(píng)測(cè)基準(zhǔn),研究者們首先根據(jù)這14個(gè)場(chǎng)景人工編寫了一個(gè)測(cè)試數(shù)據(jù)集,再利用ChatGPT對(duì)測(cè)試數(shù)據(jù)集進(jìn)行增廣,形成更多的基準(zhǔn)數(shù)據(jù),最終形成了10 000個(gè)評(píng)測(cè)數(shù)據(jù)。通過SAFETYPROMPTS評(píng)測(cè)基準(zhǔn),研究人員可以較為全面地了解大語言模型在典型安全場(chǎng)景和對(duì)抗性指令攻擊下的表現(xiàn),提升大語言模型的安全性能,減少大語言模型的潛在安全風(fēng)險(xiǎn)。

復(fù)旦大學(xué)的研究人員提出了一個(gè)名為L(zhǎng)LMEVAL(1)https://github.com/llmeval的中文評(píng)測(cè)系列,以回答關(guān)于大語言模型評(píng)估方面、評(píng)估方法和排序比較方法的問題。目前已經(jīng)公開的評(píng)測(cè)基準(zhǔn)包括LLMEVAL-1和LLMEVAL-2。LLMEVAL-1從認(rèn)知心理學(xué)的角度出發(fā),以人類信息處理、思考和問題解決能力為基準(zhǔn),從正確性、流暢性、信息量、邏輯性和無害性五個(gè)評(píng)估方面構(gòu)建了一個(gè)包含17個(gè)大類、453個(gè)問題的評(píng)測(cè)問題集,涵蓋了事實(shí)性問答、閱讀理解、框架生成、段落重寫、摘要、數(shù)學(xué)解題、推理、詩歌生成和編程等多個(gè)領(lǐng)域。LLMEVAL-2則以一般用戶的日常使用場(chǎng)景為背景,從12個(gè)學(xué)科(包括,生命科學(xué)、化學(xué)、漢語言文學(xué)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)等)出發(fā)構(gòu)建了一個(gè)包含480個(gè)問題的評(píng)測(cè)問題集,重點(diǎn)評(píng)估了大語言模型在各學(xué)科本科生和研究生希望在日常學(xué)習(xí)和生活中得到幫助的任務(wù)上的表現(xiàn)。

除了上述評(píng)測(cè)基準(zhǔn)以外,還存在許多其他用于評(píng)估大語言模型的多種能力屬性的評(píng)測(cè)基準(zhǔn)。例如,考察大語言模型的知識(shí)運(yùn)用能力的TriviaQA[38]和OpenBookQA[39]、考察大語言模型數(shù)學(xué)推理能力的GSM8k[40]、評(píng)估大語言模型檢測(cè)幻覺能力的HaluEval[41]等。

1.2.2 模型評(píng)測(cè)實(shí)例——GPT-4的評(píng)測(cè)

為了凸顯GPT-4的總體表現(xiàn),OpenAI在一系列評(píng)測(cè)基準(zhǔn)上對(duì)GPT-4進(jìn)行了評(píng)估[42]。這些評(píng)測(cè)基準(zhǔn)既包含最初為人類設(shè)計(jì)的模擬考試,也包含在傳統(tǒng)自然語言處理任務(wù)上用來評(píng)估語言模型的評(píng)測(cè)基準(zhǔn)。為人類設(shè)計(jì)的模擬考試包括: SAT Math、Leetcode等。其中,SAT Math的考察內(nèi)容是學(xué)生在大學(xué)和未來生涯期間可能會(huì)遇到的數(shù)學(xué)問題,主要包托: 代數(shù)核心(Heart of Algebra)、問題求解與數(shù)據(jù)分析(Problem Solving and Data Analysis)和高等數(shù)學(xué)基礎(chǔ)(Passport to Advanced Math);Leetcode則主要考察待測(cè)者的綜合代碼能力。上述模擬考試題由多項(xiàng)選擇題(Multiple Choice Question)和主觀題(Free-Response Question)兩種模式組成。傳統(tǒng)自然語言處理任務(wù)上的評(píng)測(cè)基準(zhǔn)包含MMLU[43]、HellaSwag[44]、HumanEval[45]、DROP[46]等。其中,MMLU是一個(gè)涵蓋STEM、人文科學(xué)、社會(huì)科學(xué)等57個(gè)學(xué)科領(lǐng)域(例如,數(shù)學(xué)、法律、倫理等)的評(píng)測(cè)基準(zhǔn),旨在考察大語言模型將知識(shí)運(yùn)用于問題解決的能力;HellaSwag關(guān)注模型在圍繞日常事件的常識(shí)性推理方面的能力,包含70k個(gè)問題;HumanEval主要考察大語言模型的代碼生成能力;DROP則是一個(gè)閱讀理解與數(shù)值推理基準(zhǔn)測(cè)試數(shù)據(jù)集,包含96k個(gè)問題,用于評(píng)測(cè)模型在離散推理任務(wù)上的表現(xiàn)。這些評(píng)測(cè)基準(zhǔn)不僅關(guān)注GPT-4作為一個(gè)大語言模型在傳統(tǒng)自然語言處理任務(wù)上的表現(xiàn),更關(guān)注GPT-4在更高層次問題求解上的能力(例如,推理、知識(shí)、語言與理解能力)。評(píng)測(cè)結(jié)果表明,在大多數(shù)專業(yè)類考試和學(xué)術(shù)類考試中GPT-4具有與人類相當(dāng)?shù)谋憩F(xiàn);而在多個(gè)傳統(tǒng)的自然語言處理評(píng)測(cè)基準(zhǔn)上GPT-4已經(jīng)達(dá)到了最先進(jìn)的效果。此外,GPT-4還在評(píng)測(cè)中展現(xiàn)出了其他方面的能力,例如,處理低資源語言(low-resource language)的能力[42]。研究人員通過Azure Translate將MMLU中的數(shù)據(jù)翻譯成其他多種語言,之后將各個(gè)語言版本的MMLU用于評(píng)測(cè)GPT-4,結(jié)果表明GPT-4具有較強(qiáng)的處理其他語言的能力,包括拉脫維亞語(Latvian)、威爾士語(Welsh)和斯瓦希里語(Swahili)等小語種。

以體現(xiàn)人類級(jí)別的認(rèn)知能力與強(qiáng)調(diào)和現(xiàn)實(shí)世界的緊密聯(lián)系為原則,微軟的研究人員提出了一個(gè)以人為中心的評(píng)測(cè)基準(zhǔn)AGIEval[47],并在其上評(píng)測(cè)了GPT-4和ChatGPT等大語言模型的表現(xiàn)。與傳統(tǒng)評(píng)測(cè)數(shù)據(jù)不同,AGIEval中的評(píng)測(cè)數(shù)據(jù)來自高標(biāo)準(zhǔn)化、官方的人類考試題,其中包括: 研究生入學(xué)考試(Graduate Record Examinations,GRE)、學(xué)術(shù)評(píng)估測(cè)試(Scholastic Assessment Test,SAT)、中國(guó)高考(China College Entrance Exam,Gaokao)、法學(xué)院入學(xué)考試(Law School Admission Test,LSAT)、美國(guó)數(shù)學(xué)競(jìng)賽 (American Mathematics Competitions,AMC)、中國(guó)公務(wù)員考試 (Chinese Civil ServiceExamination)等。與文獻(xiàn)[35]不同,為了更加標(biāo)準(zhǔn)和自動(dòng)地評(píng)測(cè)大語言模型,AGIEval在題型上刪除了所有的主觀題,只保留了客觀題(包括多項(xiàng)選擇和填空)。在AGIEval評(píng)測(cè)中共有四種設(shè)置,即,零樣本學(xué)習(xí)(Zero-shot learning)、小樣本學(xué)習(xí)(Few-shot learning)、零樣本思維鏈(Zero-shot chain-of-thought prompting)和小樣本思維鏈(Few-shot chain-of-thought prompting)。評(píng)測(cè)結(jié)果表明: ①GPT-4在LSAT、SAT和數(shù)學(xué)競(jìng)賽中超越了人類的平均表現(xiàn),在SAT數(shù)學(xué)考試中達(dá)到了95%的準(zhǔn)確率,展示了出色性能。②當(dāng)前的大語言模型(如GPT-4)在面對(duì)需要復(fù)雜推理(如LSAT分析推理和物理學(xué))或特定領(lǐng)域知識(shí)(如法律和化學(xué))的任務(wù)時(shí)仍然表現(xiàn)不佳。③與先前GPT-3系列模型的小樣本表現(xiàn)顯著優(yōu)于零樣本表現(xiàn)不同,GPT-4等當(dāng)前的大語言模型的零樣本學(xué)習(xí)能力開始逐漸接近它們的小樣本學(xué)習(xí)能力。

1.3 現(xiàn)有評(píng)測(cè)的不足

隨著不同通用大語言模型的推出,現(xiàn)有評(píng)測(cè)及基準(zhǔn)的不足開始顯現(xiàn)。這使得在應(yīng)用上如何選擇模型以及在開發(fā)上如何改進(jìn)模型都面臨極大的挑戰(zhàn)。下面簡(jiǎn)要分析現(xiàn)有評(píng)測(cè)的不足。

1.3.1 新生任務(wù)缺乏相應(yīng)的評(píng)測(cè)基準(zhǔn)

隨著通用大語言模型的迅速發(fā)展,需要在更多的應(yīng)用場(chǎng)景和任務(wù)上評(píng)測(cè)模型的效果。但是,一些新生任務(wù)缺乏相應(yīng)的評(píng)測(cè)基準(zhǔn)。這樣,研究者難以了解大語言模型在這些任務(wù)上的表現(xiàn)能力,從而制約在該領(lǐng)域的進(jìn)一步發(fā)展。利用評(píng)測(cè)基準(zhǔn)進(jìn)行評(píng)估是衡量模型性能和比較不同模型的重要途徑。缺乏評(píng)測(cè)基準(zhǔn)會(huì)導(dǎo)致研究人員無法準(zhǔn)確評(píng)估模型的性能,也難以使許多新生的算法和模型被有效地評(píng)估和比較。此外,缺乏評(píng)測(cè)基準(zhǔn)還會(huì)影響研究人員對(duì)新生任務(wù)的理解和定義。因此,建立相應(yīng)的評(píng)測(cè)基準(zhǔn)對(duì)于模型在新生任務(wù)上的應(yīng)用研究至關(guān)重要,這也有助于研究者更好地理解大語言模型在新生任務(wù)中的應(yīng)用潛力。

1.3.2 評(píng)測(cè)任務(wù)缺乏區(qū)分度

隨著大語言模型的發(fā)展和規(guī)模的不斷擴(kuò)大,其能力也越來越強(qiáng),以至于它在一些評(píng)測(cè)任務(wù)上的表現(xiàn)已經(jīng)與人類相當(dāng)[42],甚至評(píng)測(cè)結(jié)果可以超越人類。在這種情況下,許多原來以較小規(guī)模模型為評(píng)測(cè)目標(biāo)的評(píng)估任務(wù)已經(jīng)逐漸失去了挑戰(zhàn)性和區(qū)分度,難以為研究者提供有價(jià)值的信息。缺乏區(qū)分度這一問題不僅是評(píng)測(cè)基準(zhǔn)本身的問題,也反映出了大語言模型發(fā)展的一個(gè)重要趨勢(shì),即現(xiàn)有的大語言模型的發(fā)展已經(jīng)開始超出原有的評(píng)估任務(wù)的評(píng)測(cè)范圍。因此,需要更加注重評(píng)測(cè)任務(wù)的區(qū)分度和難度,以確保評(píng)測(cè)結(jié)果具有實(shí)際可參考的意義。

1.3.3 評(píng)估方式不公平

在大語言模型的評(píng)估中,評(píng)估方式的公平性至關(guān)重要。然而,目前常用的評(píng)估指標(biāo)和數(shù)據(jù)集選擇存在許多不公平的問題,使得評(píng)估結(jié)果的準(zhǔn)確性和客觀性受質(zhì)疑。例如,當(dāng)前同一任務(wù)下的評(píng)測(cè)數(shù)據(jù)集通常有很多,很有可能會(huì)產(chǎn)生模型A在某個(gè)評(píng)測(cè)數(shù)據(jù)集上優(yōu)于模型B,但是在另一個(gè)評(píng)測(cè)數(shù)據(jù)集上又劣于模型B的矛盾情況。這種情況下,研究者可能只選取有利于自己的結(jié)果公布[48]。此外,人為因素也可能導(dǎo)致評(píng)估結(jié)果的不公平。例如,在人工評(píng)測(cè)中,評(píng)測(cè)人員的背景、觀點(diǎn)和經(jīng)驗(yàn)可能影響他們對(duì)模型的判斷,從而在評(píng)測(cè)結(jié)果中引入人為的偏差;同時(shí),在不同的人工評(píng)測(cè)過程中,評(píng)估標(biāo)準(zhǔn)化程度也可能存在差異,從而進(jìn)一步削弱了不同模型間的可比性和公平性。

1.3.4 評(píng)估不全面

目前,對(duì)模型單項(xiàng)能力的評(píng)測(cè)往往被簡(jiǎn)化成針對(duì)單個(gè)任務(wù)上的單數(shù)據(jù)集單指標(biāo)的評(píng)測(cè),無法準(zhǔn)確可靠地反映模型在待評(píng)測(cè)能力方面的強(qiáng)弱[48]。例如,針對(duì)自然語言生成能力的評(píng)測(cè),需要考察生成文本的連貫性、多樣性、幻覺程度和有趣程度等多個(gè)方面,但不同方面往往適用不同的評(píng)測(cè)指標(biāo)。而且,不同的任務(wù)和數(shù)據(jù)集會(huì)涉及不同的語言現(xiàn)象和應(yīng)用場(chǎng)景,這是單個(gè)任務(wù)上的單數(shù)據(jù)集單指標(biāo)評(píng)測(cè)有失考量的內(nèi)容。此外,對(duì)模型綜合能力的評(píng)測(cè)大多是單個(gè)評(píng)測(cè)基準(zhǔn)的簡(jiǎn)單聚合,缺乏系統(tǒng)性的交互,也無法全面評(píng)估模型的綜合能力和多種屬性。

1.3.5 評(píng)測(cè)基準(zhǔn)的污染問題

所謂評(píng)測(cè)基準(zhǔn)的污染問題,是指用于評(píng)測(cè)的數(shù)據(jù)出現(xiàn)在了模型的訓(xùn)練數(shù)據(jù)中。為了確保大語言模型評(píng)估的公正性和可信度,以及評(píng)測(cè)基準(zhǔn)能夠展現(xiàn)的具有一般性的評(píng)測(cè)結(jié)果,評(píng)測(cè)基準(zhǔn)中的測(cè)試數(shù)據(jù)不應(yīng)當(dāng)被包含在大語言模型的訓(xùn)練數(shù)據(jù)中。由于目前的大語言模型是在多個(gè)來源的龐大數(shù)據(jù)集上訓(xùn)練的,研究者很難確定當(dāng)前使用的評(píng)測(cè)基準(zhǔn)是否泄漏到了模型的訓(xùn)練數(shù)據(jù)中。這種污染會(huì)對(duì)評(píng)測(cè)基準(zhǔn)的公正性和可信度產(chǎn)生一定程度的影響。因此,評(píng)測(cè)基準(zhǔn)的構(gòu)建者需要謹(jǐn)慎考慮以確保評(píng)測(cè)基準(zhǔn)的獨(dú)立性和代表性;評(píng)測(cè)基準(zhǔn)的使用者也需要注意這一問題。當(dāng)然,未來大語言模型的研發(fā)者應(yīng)盡可能明確模型在訓(xùn)練時(shí)可能存在的污染問題以及污染程度[42]。

1.3.6 評(píng)估結(jié)果缺乏可解釋性

在大語言模型評(píng)測(cè)中,評(píng)測(cè)結(jié)果的可解釋性常常被忽視。現(xiàn)有評(píng)測(cè)基準(zhǔn)通常依賴某個(gè)數(shù)字指標(biāo)來概括模型的表現(xiàn),缺乏對(duì)評(píng)估過程的解釋和分析。這種評(píng)估方式雖然可以快速了解不同模型的表現(xiàn),卻難以解釋模型表現(xiàn)好壞的原因,也就難以對(duì)模型進(jìn)行有效診斷,進(jìn)而難以有針對(duì)性地對(duì)現(xiàn)有模型進(jìn)行改進(jìn)和優(yōu)化。可解釋性的缺失主要表現(xiàn)在以下兩個(gè)方面。第一,評(píng)估結(jié)果的數(shù)字化方式使得研究人員難以全面了解模型在評(píng)測(cè)任務(wù)中的行為,也就無法直接對(duì)模型的優(yōu)劣進(jìn)行深入的分析與解釋。第二,現(xiàn)有的評(píng)測(cè)基準(zhǔn)往往是針對(duì)特定的應(yīng)用場(chǎng)景和任務(wù)設(shè)計(jì)的,限制了評(píng)測(cè)結(jié)果的可遷移性和可解釋性,難以被推廣到其他應(yīng)用場(chǎng)景和任務(wù)中。

2 全面的大語言模型評(píng)測(cè)

隨著大語言模型的影響越來越廣泛,如何更好地評(píng)測(cè)模型已經(jīng)成為研究界關(guān)注的熱點(diǎn)問題。一項(xiàng)代表性的工作就是Liang等人[49]提出的語言模型的全面評(píng)估(Holistic Evaluation of Language Models,HELM)方法。

HELM的出發(fā)點(diǎn)是在多個(gè)場(chǎng)景、任務(wù)和評(píng)估指標(biāo)下評(píng)估大語言模型的能力。HELM首先對(duì)自然語言處理涉及的眾多場(chǎng)景和任務(wù)進(jìn)行了分類和篩選,并以應(yīng)用性的任務(wù)作為評(píng)測(cè)重點(diǎn),基于可行性和全面性從當(dāng)前主要的評(píng)測(cè)數(shù)據(jù)中選擇了一部分用于大語言模型的評(píng)測(cè)。其次,明確了大語言模型評(píng)估里需要考慮的7個(gè)評(píng)測(cè)指標(biāo)(如準(zhǔn)確率),同時(shí)又設(shè)計(jì)了7個(gè)更具針對(duì)性的評(píng)估維度(如語言能力、推理能力等)。最后,HELM對(duì)30個(gè)大語言模型(包括BLOOM[50]、GPT-3、GPT-NeoX、GPT-J、GLM[51]等)在42個(gè)場(chǎng)景和上述評(píng)測(cè)指標(biāo)下進(jìn)行了評(píng)測(cè),并公開了評(píng)測(cè)結(jié)果。HELM也指出了其評(píng)測(cè)中存在的遺漏和不足,例如部分場(chǎng)景和任務(wù)的缺失、部分評(píng)估方法的不足、部分模型和適配策略的遺漏等。

由于不少大模型不再開源(如ChatGPT),全面評(píng)測(cè)大模型存在一定困難。HELM為了模擬現(xiàn)實(shí)中人們通過API訪問大語言模型的情形[14],在評(píng)估中將大語言模型視為黑盒,這也是上述提及此次評(píng)估中的遺漏和不足之一。

下面結(jié)合HELM用到的評(píng)測(cè)屬性對(duì)其分別進(jìn)行介紹,包括: 準(zhǔn)確率(Accuracy)、校準(zhǔn)度(Calibration)、泛化(Generalization)能力、適配(Adaptation)能力、魯棒性(Robustness)、效率(Efficiency)、偏見和刻板印象(Bias and Stereotypes)、公平性(Fairness)和有害性(toxicity)。

2.1 準(zhǔn)確率

準(zhǔn)確率是指模型預(yù)測(cè)或生成結(jié)果的正確比例。一個(gè)準(zhǔn)確率高的大語言模型能夠更好地處理自然語言的相關(guān)任務(wù),并提供更準(zhǔn)確的預(yù)測(cè)和生成結(jié)果。大語言模型的準(zhǔn)確率對(duì)于其在具體任務(wù)中的應(yīng)用至關(guān)重要。

準(zhǔn)確率的評(píng)估方法因場(chǎng)景和任務(wù)而異。常見的指標(biāo)有: 判別類問題的評(píng)測(cè)指標(biāo),如F1(包括 MicroF1和 MacroF1)值和Accuracy值;生成類問題的評(píng)測(cè)指標(biāo) BLEU(主要用于機(jī)器翻譯結(jié)果評(píng)測(cè))和ROUGE(主要用于文本摘要結(jié)果評(píng)測(cè));判別類問題和生成類問題都用到的精確匹配(Exact Match,EM);檢索類問題常用的Reciprocal Rank[52]和Normalized Discounted Cumulative Gain[53]等。

準(zhǔn)確率指標(biāo)在自然語言處理的評(píng)測(cè)中廣為使用,在很長(zhǎng)一段時(shí)間里幾乎成為模型評(píng)測(cè)的唯一指標(biāo)。在今后仍將是重要的指標(biāo)。

2.2 校準(zhǔn)度

準(zhǔn)確率衡量的是模型輸出結(jié)果的正確性,而校準(zhǔn)度[54-56]則是衡量模型對(duì)輸出結(jié)果賦予的概率的準(zhǔn)確性,也就是模型在預(yù)測(cè)時(shí)給出的置信度(confidence)對(duì)真實(shí)概率分布進(jìn)行估計(jì)的準(zhǔn)確性。

大語言模型的校準(zhǔn)度評(píng)估是十分有意義的。首先,有助于提高模型的可靠性。在一定程度上,校準(zhǔn)度越高,模型的預(yù)測(cè)結(jié)果就越可靠。如果一個(gè)大語言模型的校準(zhǔn)度低,它的預(yù)測(cè)結(jié)果就更有可能會(huì)導(dǎo)致誤解和錯(cuò)誤的決策。其次,有助于改善置信度估計(jì)。在實(shí)際的應(yīng)用場(chǎng)景里,大語言模型的使用通常會(huì)伴隨著對(duì)預(yù)測(cè)結(jié)果的置信度估計(jì)。如果模型的校準(zhǔn)度很高,置信度估計(jì)一般也會(huì)更加準(zhǔn)確。這樣,校準(zhǔn)度可以更好地幫助使用者理解模型的預(yù)測(cè)結(jié)果并在必要的時(shí)候(例如當(dāng)模型對(duì)預(yù)測(cè)結(jié)果的置信度很低時(shí))進(jìn)行人工介入。

下面介紹一種常見的校準(zhǔn)度評(píng)估方法,即期望校準(zhǔn)誤差(Expected Calibration Error,ECE)[57-58]。ECE表示模型認(rèn)為輸出正確的概率與模型輸出實(shí)際上正確的概率之差的絕對(duì)值期望。這里介紹一種有限數(shù)據(jù)情況下的ECE計(jì)算方法。

(1)

(2)

(3)

其中,n表示樣例的總數(shù)目。

2.3 泛化能力

模型泛化能力的評(píng)估重點(diǎn)集中于模型在與訓(xùn)練集數(shù)據(jù)分布不同的域外數(shù)據(jù)集上的表現(xiàn)。一般來說,泛化能力的評(píng)估是在小樣本(few-shot)或零樣本(zero-shot)設(shè)置下進(jìn)行的[31]。

小樣本是指模型在預(yù)測(cè)時(shí),僅給模型少量的樣例作為模型推理的參考。在這個(gè)過程中,模型的參數(shù)通常不作更新。典型的小樣本法是給出k個(gè)由問題、文本和對(duì)應(yīng)的答案作為相關(guān)任務(wù)的實(shí)例,然后再給出一個(gè)真正需要解答的問題和文本,希望模型參照所給的樣例輸出合理的答案。當(dāng)前廣受關(guān)注的上下文學(xué)習(xí)(In-Context Learning)就屬于這種情況。

零樣本與小樣本類似,不同在于零樣本不提供參考樣例,只給模型提供需要解答的問題和對(duì)應(yīng)的文本,由模型直接推理出答案。這種方法在應(yīng)用場(chǎng)景下變得更加簡(jiǎn)單,但同時(shí)也存在一些問題,比如,有時(shí)零樣本設(shè)置可能會(huì)導(dǎo)致不清晰的任務(wù)定義,從而影響模型的表現(xiàn)[31]。

由于小樣本和零樣本通常在下游任務(wù)上不對(duì)模型參數(shù)進(jìn)行更新,所以這種評(píng)估方式能夠較好地體現(xiàn)模型的泛化能力。泛化能力也在一定程度上預(yù)示著模型應(yīng)用于下游任務(wù)時(shí)的效果。因此,泛化能力的評(píng)估是評(píng)估大語言模型能否廣泛應(yīng)用于諸多實(shí)際下游應(yīng)用場(chǎng)景的關(guān)鍵之一,也將成為未來大型模型評(píng)估的一個(gè)重要組成部分。

2.4 適配能力

目前的大模型普遍強(qiáng)調(diào)通用性。雖然通過小樣本或零樣本可以增強(qiáng)通用模型在具體任務(wù)上的能力,但比起在特定任務(wù)上經(jīng)過訓(xùn)練的模型,在該任務(wù)上不一定具有優(yōu)勢(shì)。因此,需要考慮大模型在下游具體任務(wù)上的適配(adaptation)問題。適配是指將原始模型轉(zhuǎn)換成一個(gè)適用于下游具體任務(wù)的過程;模型的適配能力則是指面對(duì)不同的適配策略,模型在具體任務(wù)上的性能優(yōu)劣。適配策略分為三種類型: 不更新原模型參數(shù)的適配[59]、增加適配層并調(diào)整適配層參數(shù)的適配[60],以及對(duì)原模型做全參數(shù)更新的適配。

在不更新模型參數(shù)的適配中,最典型的方法就是通過設(shè)計(jì)提示(Prompt)和上下文例子(In-Context example)使模型在下游任務(wù)上獲得更好的效果。提示的作用是提醒模型補(bǔ)充“答案”,這種方式類似于預(yù)訓(xùn)練模型時(shí)對(duì)掩碼(Mask)部分的預(yù)測(cè)或后續(xù)內(nèi)容的生成。以這種方式進(jìn)行推理與模型預(yù)訓(xùn)練的方式一致,減少了推理和訓(xùn)練時(shí)形式上的鴻溝(Gap)。但如何選擇合適的提示形式非常重要。大量的研究表明,提示形式的輕微變化會(huì)導(dǎo)致模型輸出結(jié)果的明顯不同。

增加適配層并調(diào)整適配層參數(shù)的適配是一類高效率、低損耗的適配方法。這類方法的目標(biāo)是在保證模型性能的情況下,盡量減少優(yōu)化迭代的次數(shù),甚至不更新原模型的參數(shù)。例如,Houlsby等人[61]在原有的模型架構(gòu)上添加只含有少量參數(shù)的適配層,即在適配下游任務(wù)時(shí),固定原模型本身的參數(shù),而只基于梯度更新適配層的參數(shù),從而縮小更新參數(shù)的規(guī)模,這也使得原始模型的參數(shù)在不同任務(wù)中可以共享而不發(fā)生變化。

一種極端的適配方式是更新模型的全部參數(shù)。具體而言,就是利用下游任務(wù)中的數(shù)據(jù)對(duì)模型進(jìn)行再訓(xùn)練,從而迭代更新整個(gè)模型的參數(shù)。這種調(diào)優(yōu)方法在之前的模型(如BERT)規(guī)模不足夠大時(shí)經(jīng)常使用。但隨著模型規(guī)模越來越大,重新迭代更新模型所有參數(shù)的成本也越來越高,這種方法的實(shí)用性也逐漸降低。

需要說明的是,模型對(duì)不同適配策略的適配程度與模型的結(jié)構(gòu)設(shè)計(jì)、預(yù)訓(xùn)練方式等因素有關(guān)。同一個(gè)模型在不同的適配策略下的表現(xiàn)也可能十分不同。從這個(gè)角度看,評(píng)估模型的適配能力的主要任務(wù)之一是在特定類別的任務(wù)下研究最適合該模型的適配策略,并探索模型在不同適配策略下產(chǎn)生性能差異的原因。

2.5 魯棒性

雖然大語言模型在很多任務(wù)上的性能越來越出色,甚至在一些數(shù)據(jù)集上超越了人類的表現(xiàn),但如果數(shù)據(jù)受到輕微的擾動(dòng),仍有可能會(huì)導(dǎo)致模型性能的大幅下降。特別是,當(dāng)現(xiàn)實(shí)世界比較復(fù)雜時(shí),模型的表現(xiàn)可能并不突出[62-65],這便是模型的魯棒性不強(qiáng)。魯棒性用于衡量模型對(duì)于輸入數(shù)據(jù)中的擾動(dòng)或者噪聲的抵抗能力。目前,模型魯棒性的評(píng)估方法之一是對(duì)文本輸入進(jìn)行擾動(dòng),然后觀察模型輸出的變化。這些擾動(dòng)大致可以分為兩類: 對(duì)抗擾動(dòng)(Adversarial Perturbations)[66-69]和非對(duì)抗擾動(dòng)(Non-adversarial Perturbations)[70]。

對(duì)抗擾動(dòng)是指為了誤導(dǎo)模型做出錯(cuò)誤的預(yù)測(cè)而故意對(duì)輸入內(nèi)容進(jìn)行修改。盡管這些擾動(dòng)不會(huì)引起人的判斷變化,但它們對(duì)模型的預(yù)測(cè)結(jié)果會(huì)產(chǎn)生明顯影響。相比之下,非對(duì)抗擾動(dòng)則是對(duì)輸入內(nèi)容更自然和隨機(jī)的改動(dòng)。這類擾動(dòng)并不是刻意用來使模型出錯(cuò)的,而是用于模擬現(xiàn)實(shí)世界中輸入的復(fù)雜情況。

對(duì)抗擾動(dòng)可以用來評(píng)估模型對(duì)惡意輸入的處理能力,而非對(duì)抗擾動(dòng),可用于衡量模型在現(xiàn)實(shí)世界中面對(duì)有自然誤差的輸入時(shí)的表現(xiàn)。在評(píng)估大語言模型時(shí),需要綜合考慮這兩種擾動(dòng)類型的影響,以更全面地評(píng)估模型的魯棒性。

2.6 效率

對(duì)于大語言模型而言,效率是一個(gè)重要的維度。效率可以分為訓(xùn)練效率和推理效率兩個(gè)方面。訓(xùn)練效率指模型在訓(xùn)練時(shí)的復(fù)雜程度,而推理效率則是指模型在不更新參數(shù)的情況下的推理復(fù)雜度。

針對(duì)模型效率的評(píng)估指標(biāo)有多種,如訓(xùn)練時(shí)的能量消耗和二氧化碳排放量[71-72]、參數(shù)個(gè)數(shù)[73-74]、FLOPS(運(yùn)行給定實(shí)例模型所需的操作數(shù))[74-77]、實(shí)際推理時(shí)間[78-79]、執(zhí)行層數(shù)(模型實(shí)際推理時(shí)輸入經(jīng)過的總層數(shù))[80-81]等。對(duì)這些指標(biāo)的評(píng)估可以幫助研究人員選擇最合適的模型來滿足具體的應(yīng)用需求。

2.7 偏見和刻板印象

大語言模型通常會(huì)應(yīng)用于多種不同的下游任務(wù),而其中潛在的偏見和刻板印象可能會(huì)使它在下游任務(wù)中表現(xiàn)出歧視行為[72],從而限制其在一些領(lǐng)域的應(yīng)用。

與代表型損害(Representational Harm)[82]對(duì)應(yīng),本文中的大語言模型偏見和刻板印象指的是針對(duì)某個(gè)群體和某類屬性標(biāo)簽產(chǎn)生的過于籠統(tǒng)且不合事實(shí)的概括性觀點(diǎn)[83-84],例如,認(rèn)為男性天生更擅長(zhǎng)數(shù)學(xué)。目前,評(píng)估模型中的偏見和刻板印象的方法主要分為兩類: 基于表示端的評(píng)估方法和基于生成端的評(píng)估方法。

基于表示端的評(píng)估方法主要利用詞向量在語義向量空間中的幾何關(guān)系表征詞匯間的關(guān)聯(lián)程度,從而反映語言模型中的偏見和刻板印象[82,85-89]。其中,上下文嵌入關(guān)聯(lián)測(cè)試(Contextualized Embedding Association Test,CEAT)[89]通過待測(cè)群體詞向量與兩組屬性標(biāo)簽詞向量間的相似度差距來表征待測(cè)群體偏向某類屬性標(biāo)簽的程度,即刻板印象的程度。以種族偏見為例,兩組屬性標(biāo)簽分別為“友好、勤勞、有才華”和“冷漠、懶惰、無能”。CEAT首先計(jì)算待測(cè)群體詞向量與兩類屬性標(biāo)簽詞向量的余弦相似度,然后計(jì)算這兩組相似度的差值,之后再通過統(tǒng)計(jì)方法計(jì)算效應(yīng)量(Effect Size)來量化上述差值。效應(yīng)量的符號(hào)代表了偏見的方向(正向偏見或負(fù)向偏見),而效應(yīng)量的絕對(duì)值表示偏見程度的大小。然而,由于基于詞向量,這類評(píng)估方法通常并不能很好地適用于閉源大語言模型。

基于生成端的評(píng)估方法側(cè)重于利用模型的生成來衡量其偏見程度[49,84,90-95]。常見做法包括: ①利用模型生成內(nèi)容的統(tǒng)計(jì)信息。例如,計(jì)算生成內(nèi)容中不同群體和屬性標(biāo)簽的共現(xiàn)頻率來反映不同群體與該屬性標(biāo)簽的關(guān)聯(lián)程度[49,96]。②利用模型生成過程中給出的概率分?jǐn)?shù)進(jìn)行估計(jì)[84,91,98]。例如,自診斷方法(self-diagnosis)[91]通過設(shè)計(jì)模板來詢問模型生成內(nèi)容中是否包含偏見成分,并利用模型輸出補(bǔ)全時(shí)的概率分?jǐn)?shù)估計(jì)偏見程度。

上述評(píng)測(cè)方法通常需要依賴人工篩選的詞表集合來代表某個(gè)待測(cè)群體或某類屬性標(biāo)簽。但是研究表明,這些由人工篩選的詞表本身可能會(huì)引入篩選者的固有偏見[98];此外,詞表中的詞匯組成也會(huì)對(duì)評(píng)測(cè)結(jié)果產(chǎn)生較大的影響[99]。目前,NLP社區(qū)對(duì)于偏見的評(píng)估仍然存在一些問題,例如偏見的界定標(biāo)準(zhǔn)模糊不清[100-101],某些評(píng)估方式與模型在下游應(yīng)用上表現(xiàn)的相關(guān)性并不明確[90,102-104],除性別、種族外對(duì)其他形式的偏見(如宗教、國(guó)家等)研究較少,非英語語境下的偏見評(píng)估尚缺乏相關(guān)研究等。未來,大語言模型研發(fā)者需明確模型的預(yù)期使用場(chǎng)景,最小化模型在不適合的場(chǎng)景中的應(yīng)用,并提高模型透明度[105]以減輕偏見在大語言模型實(shí)際使用時(shí)可能造成的社會(huì)危害。

2.8 公平性

隨著大語言模型在下游任務(wù)中的準(zhǔn)確率不斷提高,模型的公平性問題也逐漸受到關(guān)注。與分配型損害(allocational harm)[82]對(duì)應(yīng),公平性更多關(guān)注模型在特定下游任務(wù)中針對(duì)不同特征群體的性能差距[82,102,106-108]。相對(duì)而言,偏見和刻板印象是指大語言模型內(nèi)部的某種固有屬性(intrinsic biases[72],內(nèi)在偏見);而公平性則關(guān)注實(shí)際任務(wù)中模型在特征群體間的表現(xiàn)差距(extrinsic harms[72],外在傷害,通常反映為不同群體間準(zhǔn)確率的差距)。例如,機(jī)器翻譯中某些語言的翻譯質(zhì)量明顯低于其他語言;語音識(shí)別系統(tǒng)在識(shí)別非洲裔美國(guó)方言時(shí)可能會(huì)有更低的準(zhǔn)確率[108]。目前,模型公平性評(píng)估可以分為三類: 預(yù)測(cè)公平性(Predictive Parity)[109]、機(jī)會(huì)平等性(Equality of Opportunity)[110]和反事實(shí)公平性(Counterfactual Fairness)[111]。

(4)

而Lum等人[113]則計(jì)算樣本方差來估計(jì)模型的公平性,如式(5)所示。

(5)

上述評(píng)估方法通常依賴數(shù)據(jù)集對(duì)子群體信息的預(yù)先標(biāo)注,因此在無預(yù)先標(biāo)注的數(shù)據(jù)集上通常難以發(fā)揮很大的作用[49]。

反事實(shí)公平性評(píng)估通過對(duì)測(cè)試樣例進(jìn)行擾動(dòng)生成反事實(shí)數(shù)據(jù)[114],然后評(píng)估模型基于反事實(shí)數(shù)據(jù)的性能[115-116]。與魯棒性評(píng)估類似,其難度主要在于選擇擾動(dòng)時(shí)機(jī)和擾動(dòng)位置[49,117-118]。

隨著大語言模型的不斷發(fā)展,其能力范圍和應(yīng)用形式可能從單語言、單模態(tài)逐漸轉(zhuǎn)向多語言、多模態(tài)。因此,現(xiàn)有的基于單語言(主要為英語)、單模態(tài)、數(shù)據(jù)標(biāo)注依賴的公平性評(píng)測(cè)范式需要進(jìn)一步迭代,以適應(yīng)未來更廣泛的群體特征及更復(fù)雜交融的語言背景[107]。

2.9 有害性

大語言模型的有害性是指模型產(chǎn)生有害言論的能力。當(dāng)大語言模型部署于社交媒體或互聯(lián)網(wǎng)時(shí),這種模型產(chǎn)生的有害言論很容易造成不良的社會(huì)影響。目前,對(duì)大語言模型的有害性評(píng)估方法之一是使用有害性檢測(cè)系統(tǒng)檢測(cè)文本中可能含有的有害成分(包括大語言模型生成內(nèi)容中的有害成分)。具有代表性的系統(tǒng)包括HateBERT[119]和Perspective API[120]等。

當(dāng)前,有害言論的定義并沒有統(tǒng)一標(biāo)準(zhǔn),不同群體可能會(huì)有不同的理解。因此,開發(fā)有害性檢測(cè)系統(tǒng)時(shí),研發(fā)者需要謹(jǐn)慎地考慮多方面的問題,包括系統(tǒng)設(shè)計(jì)的合理性、數(shù)據(jù)集標(biāo)注的準(zhǔn)確性和是否存在偏見等。同時(shí),研發(fā)有害性檢測(cè)系統(tǒng)的一個(gè)主要挑戰(zhàn)是在準(zhǔn)確率和公平性之間取得平衡,避免對(duì)某些群體的過度懲罰或忽視對(duì)他們的有害言論。在這個(gè)意義上,研發(fā)者應(yīng)提高系統(tǒng)及其數(shù)據(jù)的開源性和透明度,以便對(duì)系統(tǒng)進(jìn)行全面評(píng)估。這種對(duì)檢測(cè)系統(tǒng)本身的全面評(píng)估將有助于提高系統(tǒng)的可信度和有效性,進(jìn)一步增強(qiáng)有害性評(píng)測(cè)的準(zhǔn)確度和公平性。

3 大語言模型評(píng)測(cè)的一些新方向

自ChatGPT推出以來,生成式大語言模型影響越來越大,與此同時(shí),傳統(tǒng)的生成式評(píng)測(cè)方法又面臨巨大的挑戰(zhàn)。研究者們開始探索新的評(píng)測(cè)模式。在這一過程中,涌現(xiàn)出了一些有影響的研究,例如基于模型的評(píng)測(cè)、幻覺問題的評(píng)測(cè)和元評(píng)測(cè)(對(duì)評(píng)測(cè)指標(biāo)本身進(jìn)行評(píng)估)。這些研究進(jìn)一步彌補(bǔ)了傳統(tǒng)評(píng)測(cè)的不足,并為評(píng)價(jià)模型性能(尤其是模型在自然語言生成任務(wù)上的性能)提供了更加精準(zhǔn)、穩(wěn)定和可靠的評(píng)估結(jié)果。下面介紹這三個(gè)研究方向以及相應(yīng)的研究進(jìn)展。

3.1 基于模型的評(píng)測(cè)

為了討論方便,本文將任務(wù)中的原文(Source)稱為原文本,將任務(wù)模型的輸出(Hypothesis)稱為待測(cè)文本,將參考答案文本(Reference)稱為參考文本。在自然語言生成領(lǐng)域,早期的自動(dòng)化評(píng)測(cè)方法如BLEU和ROUGE主要基于“形式匹配”。這些方法雖然在某種程度上取得了一定的效果,但同樣也存在以下不足: ①對(duì)語義的忽視。在許多情況下,生成文本可能使用不同的詞匯或短語來表達(dá)相同的語義。但是這些方法主要關(guān)注詞匯表層的形式匹配,容易忽略語義的重要性,導(dǎo)致評(píng)測(cè)結(jié)果不能完全真實(shí)地反映模型性能。②對(duì)參考文本的依賴。由于需要參考文本作為對(duì)照,這些評(píng)測(cè)方法的評(píng)測(cè)結(jié)果往往受參考文本質(zhì)量的影響。此外,這些評(píng)測(cè)指標(biāo)通常假設(shè)存在一個(gè)或幾個(gè)“最優(yōu)”的參考文本,這在許多NLG任務(wù)中并不成立。例如,在開放式對(duì)話等任務(wù)中,可能存在多種合理但完全不同的生成結(jié)果。這種假設(shè)限制了這些評(píng)測(cè)指標(biāo)在評(píng)估生成多樣性和創(chuàng)新性方面的能力。③難以抓住不同任務(wù)間的細(xì)微差別及各個(gè)任務(wù)上的評(píng)測(cè)需求。例如,摘要和對(duì)話生成這兩種任務(wù)在語義連貫性、文本多樣性和創(chuàng)新性等方面的評(píng)測(cè)需求可能大相徑庭,但是這些差異往往很難被這些只關(guān)注表層的精確匹配的自動(dòng)化評(píng)測(cè)方法捕捉。

上述局限性使得先前的自動(dòng)評(píng)估指標(biāo)通常難以準(zhǔn)確地評(píng)估大語言模型的性能和表現(xiàn)。為了克服這些局限性,研究者開始探索基于模型的評(píng)測(cè)方法,尤其是基于大語言模型的評(píng)測(cè)方法。這類方法使用預(yù)先構(gòu)建的評(píng)估模型對(duì)任務(wù)模型進(jìn)行評(píng)測(cè)。相比早期的傳統(tǒng)評(píng)測(cè)方法,這些評(píng)測(cè)模型具有更加強(qiáng)大的表示學(xué)習(xí)能力和語義理解能力,其中的一些方法也不需要依賴參考文本,并能更好地捕捉到不同生成任務(wù)之間的細(xì)微差別,與人類評(píng)測(cè)之間也往往有更好的相關(guān)性,為評(píng)估大語言模型在自然語言生成任務(wù)中的表現(xiàn)提供了更為準(zhǔn)確和全面的評(píng)價(jià)標(biāo)準(zhǔn)?；谀Ｐ偷脑u(píng)測(cè)方法有很多,例如,BERTr[122]、BERTScore[123]、MoverScore[124]、BERT for MTE[125]、COMET[126]、BLEURT[127]、RoBERTa-eval[128]、BARTScore[129]、MAUVE[130]、DiscoScore[131]和基于大語言模型的評(píng)測(cè)[132-135]等。下面將重點(diǎn)介紹幾種有代表性的基于模型的評(píng)測(cè)方法,分別是依賴參考文本,基于BERT的BERTScore、BERT for MTE與不依賴參考文本,基于大語言模型的GPTScore[132]、Kocmi &Federmann[133]以及PandaLM[135]。

3.1.1 BERTScore

BERTScore是一種基于BERT的評(píng)測(cè)方法,計(jì)算結(jié)構(gòu)如圖2所示。其核心思想是利用BERT的詞嵌入來計(jì)算待測(cè)文本中的每個(gè)token與參考文本中的每個(gè)token的余弦相似度。它首先利用BERT的詞嵌入來得到參考文本和待測(cè)文本的編碼向量,分別記為(r1,r2,…,rn)和(p1,p2,…,pm),然后通過待測(cè)文本中每個(gè)token與參考文本中每個(gè)token的余弦相似度來計(jì)算精確度與召回率,具體如下:

圖2 BERTScore的計(jì)算結(jié)構(gòu)

然后根據(jù)精確度和召回率來計(jì)算F1值,如式(8)所示。

(8)

BERTScore即取式(8)計(jì)算得到的F1值。

3.1.2 BERT for MTE

另一種基于BERT的評(píng)測(cè)方法是BERT for MTE,該方法通過句子對(duì)編碼的方式同時(shí)編碼待測(cè)文本和參考文本,并使用基于MLP的回歸模型得到最后的指標(biāo)分?jǐn)?shù)。記參考文本和待測(cè)文本的單詞序列分別為r和p,BERT for MTE首先利用BERT進(jìn)行句子對(duì)編碼,如式(9)所示。

v=BERT([CLS];p;[SEP];r;[SEP])

(9)

之后再將句子對(duì)的嵌入表示送入多層感知機(jī)(Multilayer Perceptron, MLP)回歸模型中得到最后的指標(biāo)分?jǐn)?shù),如式(10)所示。

Score=MLP(vCLS)

(10)

式(10)計(jì)算得到的分?jǐn)?shù)即為最終指標(biāo)值。

3.1.3 GPTScore

GPTScore是一種基于大語言模型的評(píng)測(cè)方法。其核心在于給定指令和原文本后,經(jīng)過預(yù)訓(xùn)練的大語言模型會(huì)對(duì)更高質(zhì)量的生成內(nèi)容賦予更大的生成概率。具體來說,給定一個(gè)生成任務(wù)指令d(如“請(qǐng)為以下文本生成一個(gè)摘要”),該任務(wù)關(guān)注的評(píng)估角度a(如流暢度)以及上下文信息S(可以是原文本或參考文本),GPTScore首先將三者通過提示模板的方式組織成輸入文本,然后將GPTScore定義為大語言模型生成待測(cè)文本p的加權(quán)對(duì)數(shù)概率和,如式(11)所示。

(11)

其中,T(·)是提示模板,用于組織評(píng)估的實(shí)例,它通常任務(wù)相關(guān),并通過提示工程人工構(gòu)造。

3.1.4 Kocmi &Federmann

與GPTScore類似,Kocmi &Federmann嘗試?yán)么笳Z言模型來對(duì)其他的模型進(jìn)行評(píng)估。與GPTScore依靠大語言模型給出的概率計(jì)算得分不同,Kocmi &Federmann嘗試以一種更加擬人化的形式利用大語言模型進(jìn)行生成任務(wù)上的評(píng)估。具體來說,Kocmi &Federmann利用提示工程將指令d(如“請(qǐng)?jiān)u估下面句子的翻譯流暢度”)、上下文信息S(可以是原文本或參考文本,如,需要翻譯的原文本)和待測(cè)文本(如某個(gè)任務(wù)模型輸出的翻譯文本)組織成與人類評(píng)估相近的模板形式作為預(yù)訓(xùn)練大語言模型的輸入,然后讓大語言模型直接輸出對(duì)應(yīng)的評(píng)分,并將這個(gè)評(píng)分作為該任務(wù)的指標(biāo)分?jǐn)?shù)。

3.1.5 PandaLM

與GPTScore和Kocmi &Federmann對(duì)單個(gè)模型的生成內(nèi)容給出一個(gè)絕對(duì)的評(píng)價(jià)不同,PandaLM是一種基于比較的評(píng)測(cè)模型。PandaLM由LLaMA-7B[136]調(diào)優(yōu)得到,專注于在指令調(diào)優(yōu)的語境下根據(jù)生成內(nèi)容在各種候選任務(wù)模型中選出最優(yōu)秀的模型。如圖3所示,PandaLM接收一個(gè)任務(wù)的描述,包括指令和與任務(wù)相關(guān)的輸入,再同時(shí)接收兩個(gè)任務(wù)模型在這個(gè)任務(wù)描述下的生成內(nèi)容,最后給出對(duì)哪個(gè)任務(wù)模型的生成內(nèi)容更好的評(píng)判,并給出評(píng)判的原因。

圖3 PandaLM的評(píng)測(cè)結(jié)構(gòu)圖

由于PandaLM評(píng)測(cè)方法基于不同模型之間的比較,在一定程度上擺脫了對(duì)參考文本的依賴。同時(shí),利用大語言模型的泛化能力,PandaLM超越了傳統(tǒng)評(píng)估方法主要針對(duì)客觀正確性的限制,能夠通過對(duì)指令的設(shè)計(jì)更好地抓住不同生成任務(wù)上對(duì)評(píng)測(cè)需求的微妙差異,如簡(jiǎn)潔性、清晰度、全面性、正式性等。此外,PandaLM還可以同時(shí)識(shí)別和糾正任務(wù)模型生成內(nèi)容中可能存在的邏輯謬誤、冗余、語法不準(zhǔn)確和上下文不相關(guān)等問題,具有較好的魯棒性。相較于先前的傳統(tǒng)自動(dòng)化評(píng)測(cè)方法,基于模型的評(píng)測(cè)方法,特別是基于大語言模型的評(píng)測(cè)方法,在無參考文本的自然語言生成任務(wù)的評(píng)估上具有巨大潛力[121]。

下面列出了一些未來可能的基于模型評(píng)測(cè)的研究方向:

(1) 更具魯棒性的指標(biāo)。隨著現(xiàn)有模型魯棒性的不斷提高,研究者可以開發(fā)更具魯棒性的基于模型的評(píng)測(cè)指標(biāo),以降低噪聲對(duì)評(píng)測(cè)結(jié)果的影響,從而提高評(píng)測(cè)結(jié)果的穩(wěn)定性和可靠性。

(2) 更可靠的評(píng)測(cè)方法。雖然大語言模型廣泛用于評(píng)估生成文本的質(zhì)量,并展現(xiàn)出了較好的效果[132-135],但研究表明,基于大語言模型的評(píng)測(cè)方法同樣存在不公平、不可靠的問題[35,121],例如順序偏見(大語言模型對(duì)不同的位置有特定的偏好)和冗長(zhǎng)偏見(大語言模型傾向于偏愛更加冗長(zhǎng)的回答,即使這些回答不如更短的回答清晰或準(zhǔn)確)等。因此,未來的研究可以進(jìn)一步發(fā)展更加可靠的基于模型的評(píng)測(cè)方法,增強(qiáng)評(píng)測(cè)結(jié)果的可信度。

(3) 知識(shí)增強(qiáng)的評(píng)測(cè)方法。大語言模型在一般場(chǎng)景下可以保持較好的泛化性,但在需要特定知識(shí)的專業(yè)領(lǐng)域可能表現(xiàn)不佳。基于大語言模型的評(píng)測(cè)方法也類似: 盡管大語言模型在廣泛的訓(xùn)練數(shù)據(jù)上進(jìn)行了訓(xùn)練,但由于缺乏某些專業(yè)知識(shí),它可能仍然無法在專業(yè)性較強(qiáng)的領(lǐng)域做出合理準(zhǔn)確的評(píng)價(jià)。然而,如何構(gòu)建知識(shí)增強(qiáng)的大語言模型仍然是一個(gè)開放的研究問題[121]: 一種方法是將特定領(lǐng)域的數(shù)據(jù)納入大語言模型的訓(xùn)練語料中,以便它能夠更好地理解和應(yīng)用該領(lǐng)域的知識(shí);另一種方法是結(jié)合外部知識(shí)庫(kù)或?qū)＜蚁到y(tǒng),將其與大語言模型聯(lián)合使用,以獲取該領(lǐng)域?qū)I(yè)性的評(píng)估能力。未來的研究可以探索將特定知識(shí)注入到大語言模型中的方法,從而提高基于大語言模型的評(píng)測(cè)方法在某些專業(yè)領(lǐng)域的表現(xiàn)。

(4) 細(xì)粒度評(píng)估與可解釋性增強(qiáng)。過去的許多基于模型的評(píng)測(cè)方法通常關(guān)注生成文本的整體質(zhì)量,較少關(guān)注生成內(nèi)容中更細(xì)維度的質(zhì)量水平[137],例如充分性、冗余度、忠實(shí)度和趣味性等。由于缺少各個(gè)細(xì)粒度方面的評(píng)價(jià)分析,導(dǎo)致在一定程度上缺乏可解釋性。未來基于模型的評(píng)測(cè)研究可以關(guān)注評(píng)測(cè)模型在生成內(nèi)容的更細(xì)粒度劃分上的評(píng)估方式及可解釋性。

(5) 擺脫對(duì)參考文本的依賴。自然語言生成任務(wù)的評(píng)測(cè)方法通?？梢苑譃閮深? 需要參考文本的評(píng)測(cè)方法和不需要參考文本的評(píng)測(cè)方法。由于大多數(shù)生成式任務(wù)具有不確定性和開放性,任務(wù)答案往往多樣且難以枚舉,參考文本通常有限,這就導(dǎo)致需要參考文本的評(píng)測(cè)方法難以捕捉生成內(nèi)容的多樣性,影響評(píng)測(cè)結(jié)果的準(zhǔn)確性。相比之下,無參考文本的評(píng)測(cè)方法無須枚舉可能的答案,在實(shí)現(xiàn)對(duì)生成內(nèi)容的多角度、多方面及定制化的評(píng)估上有著巨大潛力。未來研究可進(jìn)一步探索如何利用大語言模型的零樣本或小樣本泛化能力來擺脫生成式任務(wù)評(píng)測(cè)中對(duì)參考文本的依賴,從而獲得更易泛化和遷移的評(píng)測(cè)方法、評(píng)測(cè)指標(biāo)和更準(zhǔn)確的評(píng)測(cè)結(jié)果。

(6) 人機(jī)協(xié)作評(píng)測(cè)。在自然語言生成評(píng)測(cè)中,人類評(píng)測(cè)通常被認(rèn)為是最重要、最準(zhǔn)確的評(píng)測(cè)方法之一。但由于人類評(píng)測(cè)的時(shí)間和資源消耗較大,在模型研發(fā)階段,研究者往往難以利用人類評(píng)測(cè)實(shí)時(shí)監(jiān)測(cè)任務(wù)模型的能力變化。利用基于模型的評(píng)測(cè)作為輔助,尤其是基于大語言模型的評(píng)測(cè),可以在一定程度上緩解純?nèi)祟愒u(píng)測(cè)中存在的上述問題。未來研究可嘗試提出結(jié)合基于模型評(píng)測(cè)和人類評(píng)測(cè)的有效方式,從而提高人類評(píng)測(cè)的可用性和基于模型評(píng)測(cè)的準(zhǔn)確性。

3.2 幻覺問題的評(píng)測(cè)

隨著生成式大語言模型的發(fā)展和應(yīng)用日益廣泛,其產(chǎn)生的文本在質(zhì)量和流暢性上已經(jīng)達(dá)到了十分可觀的水平。但模型在生成內(nèi)容時(shí)也可能會(huì)產(chǎn)生一種被稱為“幻覺”的現(xiàn)象,即生成的文本包含不準(zhǔn)確或無根據(jù)的信息。這種現(xiàn)象會(huì)對(duì)模型的實(shí)用性和可靠性產(chǎn)生較大的負(fù)面影響。因此,越來越多的研究開始集中于幻覺評(píng)測(cè)。

幻覺是指自然語言生成模型產(chǎn)生的內(nèi)容不忠實(shí)于原文本或不符合現(xiàn)實(shí)世界的現(xiàn)象。根據(jù)能否通過原文本直接進(jìn)行驗(yàn)證,幻覺可以分為兩類[129]: 內(nèi)在幻覺(Intrinsic Hallucinations)和外在幻覺(Extrinsic Hallucinations)。內(nèi)在幻覺是指能夠直接通過原文本證偽的幻覺現(xiàn)象。以文本摘要任務(wù)為例,原文本中包含“蘋果公司今天發(fā)布了新的iPhone,具有更強(qiáng)大的處理器和攝像頭”,而待測(cè)文本中包含“蘋果公司今天發(fā)布了新的iPad,具有更強(qiáng)大的處理能力和改進(jìn)的攝像頭”,這就是一個(gè)內(nèi)在幻覺的例子。因?yàn)榇郎y(cè)文本與原文本中的信息直接相矛盾(一者是 iPhone,一者是 iPad)。外在幻覺是指不能夠直接通過原文本得到驗(yàn)證的幻覺現(xiàn)象。同樣考慮上述的摘要任務(wù),如果待測(cè)文本包含“蘋果公司今天發(fā)布了新的iPhone,它將在全球范圍內(nèi)同步推出”,這就是一個(gè)外在幻覺的例子。因?yàn)榇郎y(cè)文本中存在無法從原文本直接得到驗(yàn)證的內(nèi)容(iPhone將在全球范圍內(nèi)同步推出)。在原文本中并沒有提到產(chǎn)品的發(fā)布范圍,因此待測(cè)文本中的這部分內(nèi)容既不能由原文本直接支撐,也不能被原文本直接證偽。

為了評(píng)估幻覺現(xiàn)象,研究者們提出了多種方法,總體上可以分為非大語言模型的方法[138-139]與基于大語言模型的方法兩類。非大語言模型的方法包括基于統(tǒng)計(jì)的方法、基于信息抽取的方法、基于生成式問答的方法和基于句子級(jí)別分類的方法等。下面重點(diǎn)介紹基于大語言模型的方法。

基于大語言模型方法的核心思想是利用大語言模型的理解和生成能力來評(píng)估待測(cè)文本的幻覺度。其方法可以分為直接評(píng)測(cè)方法和間接評(píng)測(cè)方法。直接評(píng)測(cè)方法通常將大語言模型作為人的代理,通過模板設(shè)計(jì),使其完成一般人類評(píng)測(cè)員需要完成的工作,即直接評(píng)價(jià)或直接判斷。例如,Sun等人[140]采用自驗(yàn)證的策略,將任務(wù)描述、原文本與大語言模型生成的待測(cè)文本再次輸入大語言模型本身,讓其自身對(duì)生成的待測(cè)文本進(jìn)行幻覺的檢測(cè)與幻覺的消除;Mündler等人[141]通過設(shè)計(jì)模板,使大語言模型能夠在給定原文本的情況下,像人類一樣直接判斷兩個(gè)和原文本有關(guān)的陳述是否互相矛盾。HaluEval[41]結(jié)合大語言模型生成和人工標(biāo)注,創(chuàng)建了一個(gè)包含大規(guī)?；糜X樣例的評(píng)測(cè)基準(zhǔn)以衡量大語言模型檢測(cè)幻覺和歸因幻覺類型的能力。這種評(píng)測(cè)方法的優(yōu)勢(shì)在于能夠直接利用大語言模型的泛化能力進(jìn)行幻覺評(píng)測(cè),無須其他額外的計(jì)算過程。間接評(píng)測(cè)方法則是借助大語言模型的生成能力,并結(jié)合其他現(xiàn)有的評(píng)測(cè)指標(biāo)和方法綜合得到最后的幻覺評(píng)測(cè)結(jié)果。例如,給定任務(wù)描述、原文本和待測(cè)文本,SelfCheckGPT[142]首先將相同的任務(wù)描述和原文本輸入到一個(gè)大語言模型中,并多次隨機(jī)采樣這個(gè)大語言模型的輸出,得到一組生成文本。如果待測(cè)文本中不存在幻覺,那么這組生成文本的內(nèi)容應(yīng)當(dāng)相似,并與待測(cè)文本的內(nèi)容較為一致;反之,這組文本的內(nèi)容則很可能會(huì)發(fā)散并與待測(cè)文本的內(nèi)容相互矛盾。因此,給定待測(cè)文本和一組生成文本時(shí),可以利用現(xiàn)有的相關(guān)指標(biāo)和方法來表征待測(cè)文本和這組生成文本之間的一致性,并將這些指標(biāo)值綜合起來以衡量待測(cè)文本的幻覺程度。具體而言,SelfCheckGPT使用了BERTScore、生成式問答與n-gram模型的預(yù)測(cè)概率三種指標(biāo)或方法來衡量待測(cè)文本和生成文本集合之間的一致性,并通過加和的方式得到最終衡量幻覺度的指標(biāo)值。這種間接評(píng)測(cè)方法的主要優(yōu)勢(shì)在于其能夠結(jié)合大語言模型的生成能力與現(xiàn)有的評(píng)測(cè)指標(biāo)與評(píng)測(cè)方法的優(yōu)點(diǎn),得到一個(gè)較為綜合的度量指標(biāo)。在幻覺評(píng)測(cè)中充分利用大語言模型的理解和生成能力,能夠在一定程度上幫助處理較為復(fù)雜的語義關(guān)系,從而評(píng)測(cè)較為復(fù)雜的幻覺現(xiàn)象,如邏輯錯(cuò)誤、事實(shí)錯(cuò)誤及多種錯(cuò)誤的耦合等。同時(shí),這種方法一般無須大量的人工標(biāo)注數(shù)據(jù),并可以提供有關(guān)幻覺現(xiàn)象的更詳細(xì)的信息(例如程度信息)。然而,這種方法的局限性在于用于評(píng)測(cè)的大語言模型本身也同樣可能產(chǎn)生幻覺現(xiàn)象。如何控制用于評(píng)測(cè)的大語言模型本身可能產(chǎn)生的幻覺,將是一項(xiàng)新的挑戰(zhàn)性問題。

幻覺評(píng)測(cè)在未來可能的研究方向有:

(1) 更有效的幻覺檢測(cè)方法。當(dāng)前的幻覺檢測(cè)方法在處理較為復(fù)雜和模糊的語義時(shí)可能會(huì)遇到困難。未來的研究可以探索更復(fù)雜的模型設(shè)計(jì)和檢測(cè)算法以提高幻覺檢測(cè)的準(zhǔn)確性和效率,也可以探索如何利用無標(biāo)簽數(shù)據(jù)或弱標(biāo)簽數(shù)據(jù)來提高幻覺評(píng)測(cè)的性能。

(2) 幻覺生成機(jī)制的研究?；糜X的全面評(píng)測(cè)能夠幫助研究者進(jìn)行更深入的有關(guān)幻覺生成機(jī)制的研究,幻覺生成機(jī)制的研究反過來也有助于發(fā)展更為全面、更具針對(duì)性的幻覺評(píng)測(cè)方法。若要理解模型為何會(huì)產(chǎn)生幻覺,需要深入研究模型的內(nèi)部工作機(jī)制。這可能涉及研究模型的語言理解和生成過程。例如,模型是如何理解并處理語義和語法的,以及這個(gè)過程中哪些因素可能會(huì)導(dǎo)致幻覺的產(chǎn)生。此外,也可能涉及研究模型的訓(xùn)練過程。例如,模型是如何從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的,訓(xùn)練過程中哪些因素可能導(dǎo)致模型學(xué)習(xí)到錯(cuò)誤的或誤導(dǎo)性的信息,從而導(dǎo)致幻覺的產(chǎn)生。

(3) 通用的幻覺評(píng)測(cè)方法設(shè)計(jì)。在自然語言生成中,不同任務(wù)的輸入輸出形式多樣,設(shè)計(jì)一個(gè)與任務(wù)無關(guān)的通用幻覺評(píng)測(cè)方法非常重要。這需要深入理解幻覺的本質(zhì),以及不同任務(wù)中幻覺的共性和特性。同時(shí),不同任務(wù)對(duì)幻覺的容忍度也不同。在數(shù)據(jù)到文本生成的任務(wù)中,忠實(shí)于原文本與事實(shí)性正確是兩個(gè)十分重要的評(píng)價(jià)方面,對(duì)幻覺的容忍度非常低;而故事生成任務(wù)對(duì)幻覺的容忍度就相對(duì)較高,因?yàn)樵诠适律芍型雨P(guān)注例如有趣程度等其他方面。如何設(shè)計(jì)一個(gè)能夠捕捉不同任務(wù)之間的細(xì)微差別,并在各個(gè)任務(wù)下的評(píng)測(cè)結(jié)果都與人類判斷相關(guān)性較強(qiáng)的幻覺評(píng)測(cè)指標(biāo),也是目前幻覺評(píng)測(cè)中的一個(gè)挑戰(zhàn)。

3.3 元評(píng)測(cè)

在大語言模型的評(píng)測(cè)中,元評(píng)測(cè)是一個(gè)不可或缺的部分。元評(píng)測(cè)是一種衡量評(píng)測(cè)指標(biāo)本身有效性和可靠性的過程,也就是對(duì)評(píng)測(cè)的再評(píng)測(cè)。其核心目標(biāo)是判斷評(píng)測(cè)方法與人類的評(píng)測(cè)的相關(guān)程度,這對(duì)于確保評(píng)測(cè)質(zhì)量、減少誤差以及提升評(píng)測(cè)結(jié)果可信度具有重要意義。隨著大型語言模型在各領(lǐng)域的應(yīng)用日益廣泛,評(píng)測(cè)大語言模型的方法本身的準(zhǔn)確性和可信度也逐漸成為關(guān)注焦點(diǎn)。通過對(duì)比不同的評(píng)測(cè)方法,研究者能夠發(fā)現(xiàn)各種方法的優(yōu)勢(shì)和局限性,這將有助于研究者選擇更適用于特定任務(wù)和場(chǎng)景的評(píng)測(cè)方法,從而更準(zhǔn)確地衡量模型的性能。在下面的討論中,本文將某個(gè)評(píng)測(cè)指標(biāo)對(duì)模型的n個(gè)生成內(nèi)容給出的分?jǐn)?shù),分別記為x1,…,xn,并將人類評(píng)測(cè)對(duì)這n個(gè)生成內(nèi)容賦予的分?jǐn)?shù)分別記為y1,…,yn。下面將介紹幾種元評(píng)測(cè)中常見的相關(guān)性計(jì)算方法。

3.3.1 皮爾遜相關(guān)系數(shù)

皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)是衡量?jī)蓚€(gè)變量之間線性關(guān)系強(qiáng)度的指標(biāo)。給定模型n個(gè)生成內(nèi)容上的評(píng)測(cè)指標(biāo)分?jǐn)?shù)與人類評(píng)測(cè)分?jǐn)?shù)的數(shù)據(jù)點(diǎn)對(duì)(x1,y1),…,(xn,yn),皮爾遜相關(guān)系數(shù)的計(jì)算,如式(12)所示。

(12)

值得指出的是,皮爾遜相關(guān)系數(shù)衡量的是兩個(gè)變量之間的線性關(guān)系的強(qiáng)弱。其在兩個(gè)變量之間存在比較強(qiáng)的線性相關(guān)時(shí)能夠表現(xiàn)出較好的性能。同時(shí),它對(duì)非線性關(guān)系的敏感度較低,并且受異常值的影響較大,數(shù)據(jù)分布的偏態(tài)可能導(dǎo)致相關(guān)系數(shù)的失真。因此,皮爾遜相關(guān)系數(shù)不適用于變量之間存在復(fù)雜的非線性關(guān)系或數(shù)據(jù)中存在嚴(yán)重異常值或偏態(tài)的情況。

3.3.2 斯皮爾曼相關(guān)系數(shù)

斯皮爾曼相關(guān)系數(shù)(Spearman's Correlation Coefficient)用于衡量?jī)蓚€(gè)變量之間的單調(diào)關(guān)系,它是基于變量的秩次(相對(duì)大小關(guān)系)計(jì)算得出的。給定模型n個(gè)生成內(nèi)容上的評(píng)測(cè)指標(biāo)分?jǐn)?shù)與人類評(píng)測(cè)分?jǐn)?shù)的數(shù)據(jù)點(diǎn)對(duì)(x1,y1),…,(xn,yn)以及它們對(duì)應(yīng)的秩次(rx1,ry1),…,(rxn,ryn),斯皮爾曼相關(guān)系數(shù)的計(jì)算如式(13)所示。

(13)

斯皮爾曼相關(guān)系數(shù)基于數(shù)據(jù)的秩次計(jì)算,從而對(duì)異常值和偏態(tài)數(shù)據(jù)較為魯棒,并且可以在一定程度上捕捉非線性的關(guān)系。但是其只能反映兩個(gè)變量間的單調(diào)關(guān)系,當(dāng)變量之間存在多種依賴關(guān)系時(shí),只靠斯皮爾曼相關(guān)系數(shù)可能難以區(qū)分。

3.3.3 肯德爾τ系數(shù)

肯德爾τ系數(shù)(Kendall’sτCoefficient)是另一種基于數(shù)據(jù)秩次的系數(shù),用于衡量?jī)蓚€(gè)變量之間的共同趨勢(shì)。給定模型n個(gè)生成內(nèi)容上的評(píng)測(cè)指標(biāo)分?jǐn)?shù)與人類評(píng)測(cè)分?jǐn)?shù)的數(shù)據(jù)點(diǎn)對(duì)(x1,y1),…,(xn,yn),肯德爾τ系數(shù)的計(jì)算方法如下: ①計(jì)算配對(duì)。對(duì)于每一對(duì)分?jǐn)?shù)對(duì)(xi,yi)和(xj,yj),計(jì)算它們的差值xi-xj和yi-yj。②計(jì)算一致對(duì)(concordant pair)的數(shù)目和不一致對(duì)(discordant pair)的數(shù)目,分別記為C和D。具體來說,若(xi-xj)(yi-yj)>0,則記為一個(gè)一致對(duì),若(xi-xj)(yi-yj)<0,則記為一個(gè)不一致對(duì)。③計(jì)算相關(guān)系數(shù)?？系聽枽酉禂?shù)的計(jì)算如式(14)所示。

(14)

與斯皮爾曼相關(guān)系數(shù)類似,肯德爾τ系數(shù)是基于數(shù)據(jù)的秩次,因此對(duì)異常值和偏態(tài)數(shù)據(jù)較為魯棒。但是肯德爾τ系數(shù)的計(jì)算需要枚舉每一對(duì)數(shù)據(jù)點(diǎn)對(duì),因此在小樣本數(shù)據(jù)中表現(xiàn)較好,面對(duì)大樣本數(shù)據(jù)時(shí)計(jì)算效率較低。

元評(píng)測(cè)的實(shí)例眾多,例如,Sai等人[143]在摘要、對(duì)話、問題生成等多個(gè)任務(wù)上對(duì)包括正確性、流利度、相關(guān)性、有趣程度在內(nèi)的多個(gè)評(píng)估維度彼此之間的相關(guān)程度進(jìn)行了評(píng)估,結(jié)果表明即使在同一個(gè)任務(wù)上,人類在不同評(píng)估維度上的評(píng)分的相關(guān)性往往也并不顯著。因此,在這種情況下,僅由自動(dòng)化評(píng)估指標(biāo)對(duì)生成內(nèi)容賦予一個(gè)單一的總分很難全面地評(píng)估生成內(nèi)容在各個(gè)細(xì)粒度評(píng)估維度上的質(zhì)量。同時(shí),他們還基于擾動(dòng)方法評(píng)估了包括BLEU、METEOR、BERTScore、BLEURT、MoverScore在內(nèi)的多個(gè)評(píng)測(cè)指標(biāo)的魯棒性。具體而言,他們通過計(jì)算擾動(dòng)前后評(píng)測(cè)指標(biāo)給出的分?jǐn)?shù)差異與人類判斷給出的分?jǐn)?shù)差異是否一致來衡量評(píng)測(cè)指標(biāo)的魯棒性。結(jié)果顯示,相比早期的自動(dòng)化評(píng)測(cè)指標(biāo),雖然基于模型的評(píng)測(cè)指標(biāo)(例如,BERTScore, BLEURT和MoverScore等)在與人類判斷的相關(guān)程度上表現(xiàn)較好,但是它們面對(duì)非常簡(jiǎn)單的擾動(dòng)時(shí)也無法保持較強(qiáng)的魯棒性。此外,結(jié)果還顯示,現(xiàn)有的評(píng)測(cè)指標(biāo)往往難以捕捉特定任務(wù)上的特殊評(píng)測(cè)需求。例如,在對(duì)話任務(wù)中,許多任務(wù)模型傾向于生成通用且缺乏針對(duì)性的回復(fù),導(dǎo)致與用戶的互動(dòng)效果不佳。然而,在實(shí)驗(yàn)中沒有一個(gè)評(píng)測(cè)指標(biāo)對(duì)產(chǎn)生諸如“好的”或“你能再重復(fù)一遍嗎?”等通用回復(fù)的擾動(dòng)具有敏感性。

未來,元評(píng)測(cè)的研究方向可能包括:

(1) 更細(xì)粒度的元評(píng)測(cè)。不同的自然語言生成任務(wù)通常有各自特定的評(píng)測(cè)需求,即使在同一任務(wù)下,也存在多種不同的評(píng)估維度,例如連貫性、正確性和相關(guān)度等。因此,未來的元評(píng)測(cè)需要在更細(xì)粒度上進(jìn)行,以評(píng)估各評(píng)測(cè)指標(biāo)在這些細(xì)粒度評(píng)估維度上的評(píng)測(cè)結(jié)果與人類判斷的相關(guān)性,揭示評(píng)測(cè)指標(biāo)在捕捉不同生成任務(wù)上的微妙差異的能力,為評(píng)估方法本身的改進(jìn)提供指導(dǎo)。

(2) 針對(duì)評(píng)測(cè)指標(biāo)公平性評(píng)估的元評(píng)測(cè)?，F(xiàn)有的評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法通常涉及人類評(píng)測(cè)與基于模型的評(píng)測(cè)。其中,人類評(píng)測(cè)可能受到評(píng)測(cè)員的專業(yè)背景、文化差異等因素的影響;而由于數(shù)據(jù)的稀缺性,基于模型的評(píng)測(cè)方法可能面臨著在低資源語言上表現(xiàn)更差的問題。元評(píng)測(cè)需要探究這些因素對(duì)評(píng)測(cè)指標(biāo)性能的影響,研究評(píng)測(cè)指標(biāo)捕捉模型對(duì)不同群體或語言的偏見和歧視的能力。這將有助于提高評(píng)測(cè)方法的公平性,推動(dòng)更公平、包容的自然語言處理技術(shù)的發(fā)展。

(3) 針對(duì)評(píng)測(cè)指標(biāo)魯棒性評(píng)估的元評(píng)測(cè)。通過基于擾動(dòng)的方法研究評(píng)測(cè)指標(biāo)的魯棒性,可以揭示其在面對(duì)數(shù)據(jù)噪聲、變化或?qū)剐詷颖緯r(shí)的穩(wěn)定性。這種魯棒性元評(píng)測(cè)有助于提高評(píng)測(cè)方法的可靠性,為自然語言處理研究和實(shí)踐提供更穩(wěn)健的評(píng)估手段。

4 結(jié)論

大語言模型評(píng)測(cè)對(duì)大語言模型的應(yīng)用以及后續(xù)發(fā)展有非常重要的作用。大語言模型的評(píng)測(cè)范式分為經(jīng)典評(píng)測(cè)范式和新型評(píng)測(cè)范式。經(jīng)典評(píng)測(cè)范式中的傳統(tǒng)自然語言處理任務(wù)按照內(nèi)含任務(wù)的特點(diǎn)劃分為自然語言理解任務(wù)和自然語言生成任務(wù),本文分別介紹了這些任務(wù)當(dāng)前所流行的經(jīng)典評(píng)測(cè)基準(zhǔn)以及一些新型評(píng)測(cè)范式下代表性的評(píng)測(cè)基準(zhǔn)和大語言模型評(píng)測(cè)方面的實(shí)例;總結(jié)了現(xiàn)有評(píng)測(cè)中的一些不足之處;然后介紹了全面的大語言模型評(píng)測(cè)思想以及相關(guān)的評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法;最后總結(jié)了大語言模型評(píng)測(cè)的一些新的研究問題、挑戰(zhàn)以及未來的研究方向。

猜你喜歡

文本語言方法

語言是刀

文苑(2020年4期)2020-05-30 12:35:30

在808DA上文本顯示的改善

制造技術(shù)與機(jī)床(2019年10期)2019-10-26 02:48:08

基于doc2vec和TF-IDF的相似文本識(shí)別

電子制作(2018年18期)2018-11-14 01:48:06

讓語言描寫搖曳多姿

小學(xué)生作文(中高年級(jí)適用)(2018年3期)2018-04-18 01:24:47

累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮

華北電力大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)(2016年4期)2016-12-01 03:59:30

可能是方法不對(duì)

意林原創(chuàng)版(2016年10期)2016-11-25 10:28:30

用對(duì)方法才能瘦

Coco薇(2016年2期)2016-03-22 02:42:52

文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻

小學(xué)教學(xué)參考(2015年20期)2016-01-15 08:44:38

四大方法教你不再“坐以待病”！

Coco薇(2015年1期)2015-08-13 02:47:34

我有我語言

少兒科學(xué)周刊·少年版(2015年4期)2015-07-07 21:11:17

中文信息學(xué)報(bào)2024年1期

中文信息學(xué)報(bào)的其它文章: 中國(guó)中文信息學(xué)會(huì)關(guān)于開展2023年度國(guó)家科學(xué)技術(shù)獎(jiǎng)提名工作的通知; 歡迎訂閱《中文信息學(xué)報(bào)》; 第二十三屆中國(guó)計(jì)算語言學(xué)大會(huì)(CCL 2024)征稿啟事; 第九屆中國(guó)科協(xié)青年人才托舉工程入選名單發(fā)布,中國(guó)中文信息學(xué)會(huì)推薦4人入選!; 基于雙三元組網(wǎng)絡(luò)的易混淆文本情感分類方法; 探索中文預(yù)訓(xùn)練模型的混合粒度編碼和IDF遮蔽

感谢您访问我们的网站，您可能还对以下资源感兴趣：温州秤旁教育咨询有限公司

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看网站地图

亚洲中文字幕一区二区三区有码在线看 22中文网久久字幕搞女人的毛片 18禁动态无遮挡网站免费大片18禁欧美潮喷喷水亚洲色图av天堂亚洲三级黄色毛片 18禁裸乳无遮挡免费网站照片国产av不卡久久亚洲国产欧美在线一区老师上课跳d突然被开到最大视频啦啦啦啦在线视频资源国产免费福利视频在线观看午夜视频国产福利国产精品久久电影中文字幕十八禁国产超污无遮挡网站蜜桃久久精品国产亚洲av 十八禁国产超污无遮挡网站成人亚洲欧美一区二区av av国产免费在线观看乱码一卡2卡4卡精品亚洲国产欧美人成日本色播在线视频国产精品一区二区在线观看99 好男人在线观看高清免费视频男的添女的下面高潮视频噜噜噜噜噜久久久久久91 日日摸夜夜添夜夜爱黄色日韩在线色综合亚洲欧美另类图片超碰av人人做人人爽久久国产在视频线在精品淫秽高清视频在线观看尾随美女入室神马国产精品三级电影在线观看国产69精品久久久久777片综合色丁香网色视频www国产美女cb高潮喷水在线观看日韩在线高清观看一区二区三区禁无遮挡网站秋霞在线观看毛片日韩欧美精品免费久久国产又色又爽无遮挡免午夜老司机福利剧场精品国产三级普通话版国产淫语在线视频国产淫语在线视频国产一区有黄有色的免费视频 26uuu在线亚洲综合色少妇猛男粗大的猛烈进出视频 91av网一区二区大又大粗又爽又黄少妇毛片口 .国产精品久久七月丁香在线播放亚洲国产欧美人成国产极品天堂在线久久99热这里只有精品18 午夜福利成人在线免费观看久久久久久久久久久免费av 免费av毛片视频搡老妇女老女人老熟妇 97超碰精品成人国产 a级毛色黄片国产一区二区亚洲精品在线观看边亲边吃奶的免费视频亚洲不卡免费看国产又黄又爽又无遮挡在线国产精品1区2区在线观看. 婷婷六月久久综合丁香欧美变态另类bdsm刘玥国产精品福利在线免费观看国产精品精品国产色婷婷免费观看精品视频网站国产国拍精品亚洲av在线观看免费观看的影片在线观看 1000部很黄的大片简卡轻食公司亚洲人成网站在线播亚洲美女搞黄在线观看五月伊人婷婷丁香亚洲精品乱码久久久久久按摩 22中文网久久字幕 99在线视频只有这里精品首页一边摸一边抽搐一进一小说亚洲久久久久久中文字幕一级爰片在线观看 av天堂中文字幕网 91精品伊人久久大香线蕉国产av不卡久久 99在线人妻在线中文字幕成人午夜高清在线视频欧美三级亚洲精品亚洲欧美精品综合久久99 国模一区二区三区四区视频亚洲精品,欧美精品三级国产精品欧美在线观看欧美人与善性xxx 欧美3d第一页 18禁在线无遮挡免费观看视频美女cb高潮喷水在线观看身体一侧抽搐国产精品久久久久久精品电影国产黄片视频在线免费观看日韩成人伦理影院欧美zozozo另类高清午夜精品一区二区三区好男人视频免费观看在线国产伦一二天堂av在线观看男的添女的下面高潮视频女人被狂操c到高潮赤兔流量卡办理一区二区三区四区激情视频麻豆av噜噜一区二区三区国产伦在线观看视频一区国产精品福利在线免费观看午夜亚洲福利在线播放秋霞在线观看毛片国产黄a三级三级三级人在线免费观看不下载黄p国产国产成人精品一,二区天天躁日日操中文字幕边亲边吃奶的免费视频亚洲性久久影院国产在线一区二区三区精免费不卡的大黄色大毛片视频在线观看熟妇人妻久久中文字幕3abv 99久久九九国产精品国产免费直男gayav资源 91在线精品国自产拍蜜月国产视频首页在线观看成年版毛片免费区亚洲人成网站在线观看播放久久99热这里只有精品18 久久久久久久久久久丰满国产乱人偷精品视频久久久久精品久久久久真实原创 av在线蜜桃九九在线视频观看精品国产真实乱freesex 一个人观看的视频www高清免费观看国产成人精品婷婷人人妻人人澡人人爽人人夜夜干丝袜人妻中文字幕欧美成人精品欧美一级黄精品99又大又爽又粗少妇毛片欧美精品一区二区大全国产av在哪里看 99视频精品全部免费在线亚洲在线自拍视频好男人视频免费观看在线在线播放国产精品三级联通29元200g的流量卡 a级毛色黄片 kizo精华嫩草影院入口久久久色成人亚洲av成人精品一区久久 99热这里只有是精品50 99久久精品国产国产毛片欧美bdsm另类精品国产一区二区三区久久久樱花精品一区二区三区视频在线免费观看性生交大片5 亚洲国产高清在线一区二区三 18禁裸乳无遮挡免费网站照片色吧在线观看欧美zozozo另类 99久久精品一区二区三区精品一区二区三区人妻视频热99在线观看视频国产黄色小视频在线观看久久久久免费精品人妻一区二区中文在线观看免费www的网站国产精品人妻久久久久久国产精品.久久久男女国产视频网站高清毛片免费看国产成人福利小说国产乱人视频国产伦精品一区二区三区视频9 国产精品无大码特级一级黄色大片午夜激情福利司机影院淫秽高清视频在线观看精品不卡国产一区二区三区国产午夜精品一二区理论片级片在线观看亚洲久久久久久中文字幕最近中文字幕2019免费版女人十人毛片免费观看3o分钟午夜亚洲福利在线播放 av在线天堂中文字幕变态另类丝袜制服亚洲av二区三区四区日韩一区二区视频免费看免费看a级黄色片成人二区视频禁无遮挡网站麻豆成人午夜福利视频欧美激情国产日韩精品一区一级黄色大片毛片能在线免费观看的黄片久久精品国产亚洲av涩爱精品不卡国产一区二区三区午夜福利网站1000一区二区三区 videossex国产久久热精品热久久精品国产亚洲av涩爱亚洲精品乱码久久久久久按摩国产成人a区在线观看日本与韩国留学比较熟女人妻精品中文字幕免费无遮挡裸体视频一个人免费在线观看电影午夜激情欧美在线 99久久中文字幕三级久久日本又粗又爽又猛毛片免费看精品一区二区免费观看亚洲欧美一区二区三区国产亚洲高清免费不卡视频联通29元200g的流量卡国产精品久久久久久久久免国产一区欧美日韩成年版毛片免费区日韩av在线大香蕉日韩国内少妇激情av av在线天堂中文字幕桃色一区二区三区在线观看一区二区三区免费毛片 18禁动态无遮挡网站午夜福利高清视频麻豆乱淫一区二区午夜a级毛片国产精品久久久久久久电影在线天堂最新版资源欧美日韩精品成人综合77777 免费人成在线观看视频色亚洲在线自拍视频久久精品久久精品一区二区三区亚洲无线观看免费亚洲国产精品成人综合色男女视频在线观看网站免费色哟哟·www 久久鲁丝午夜福利片搡女人真爽免费视频火全软件欧美+日韩+精品精品一区二区三区视频在线午夜精品在线福利亚洲欧美精品专区久久亚洲av男天堂我的老师免费观看完整版 www.av在线官网国产久久久久久九九精品二区国产欧美变态另类bdsm刘玥最近最新中文字幕大全电影3 女人被狂操c到高潮日本免费在线观看一区欧美激情久久久久久爽电影 99热精品在线国产色噜噜av男人的天堂激情 2022亚洲国产成人精品成人亚洲精品av一区二区搡女人真爽免费视频火全软件熟女人妻精品中文字幕国产在线一区二区三区精 a级毛片免费高清观看在线播放欧美区成人在线视频噜噜噜噜噜久久久久久91 午夜视频国产福利精品酒店卫生间中文字幕免费在线视频6 18禁动态无遮挡网站人体艺术视频欧美日本欧美三级亚洲精品国产成人a∨麻豆精品午夜爱爱视频在线播放成人亚洲精品av一区二区一边摸一边抽搐一进一小说亚洲av成人av av专区在线播放噜噜噜噜噜久久久久久91 欧美一区二区精品小视频在线水蜜桃什么品种好国产伦一二天堂av在线观看女的被弄到高潮叫床怎么办国产亚洲91精品色在线 99在线人妻在线中文字幕国产精品国产三级专区第一集 99久久人妻综合少妇丰满av 女人久久www免费人成看片成人一区二区视频在线观看毛片一级片免费看久久久久菩萨蛮人人尽说江南好唐韦庄狂野欧美白嫩少妇大欣赏 ponron亚洲 av女优亚洲男人天堂狂野欧美白嫩少妇大欣赏欧美激情在线99 晚上一个人看的免费电影美女高潮的动态插逼视频在线观看热99在线观看视频精品久久国产蜜桃成人二区视频深夜a级毛片国产亚洲av片在线观看秒播厂欧美丝袜亚洲另类国产高清三级在线国产亚洲5aaaaa淫片日本免费在线观看一区久久久午夜欧美精品国产成人91sexporn 人妻夜夜爽99麻豆av 身体一侧抽搐一级av片app 黄片无遮挡物在线观看日本五十路高清 99热6这里只有精品亚洲图色成人 97超视频在线观看视频中文字幕亚洲精品专区婷婷色av中文字幕直男gayav资源成年女人看的毛片在线观看精品久久久久久成人av 国产综合懂色 av天堂中文字幕网亚洲怡红院男人天堂免费看日本二区永久免费av网站大全国产精品久久久久久精品电影国产色婷婷99 色哟哟·www 亚洲精华国产精华液的使用体验日本-黄色视频高清免费观看国产精品国产三级国产专区5o 九九热线精品视视频播放 ponron亚洲最近最新中文字幕免费大全7 极品教师在线视频亚洲精华国产精华液的使用体验久久精品久久久久久噜噜老黄看免费成人av毛片亚洲真实伦在线观看精品国产一区二区三区久久久樱花国产不卡一卡二亚洲av成人精品一二三区看黄色毛片网站在线天堂最新版资源熟妇人妻久久中文字幕3abv 日产精品乱码卡一卡2卡三 av线在线观看网站十八禁国产超污无遮挡网站午夜亚洲福利在线播放婷婷色麻豆天堂久久免费av不卡在线播放国产精品国产三级国产专区5o 欧美高清性xxxxhd video 欧美性感艳星久久久精品大字幕三级男女做爰猛烈吃奶摸视频色噜噜av男人的天堂激情成人鲁丝片一二三区免费亚洲精品自拍成人 av在线观看视频网站免费久久久a久久爽久久v久久亚洲国产欧美在线一区中文资源天堂在线亚洲经典国产精华液单亚洲av成人精品一区久久国产熟女欧美一区二区非洲黑人性xxxx精品又粗又长久久精品国产亚洲av涩爱一级二级三级毛片免费看亚洲国产高清在线一区二区三男人舔女人下体高潮全视频精品无人区乱码1区二区国国产精品蜜臀av免费色综合色国产高清日韩中文字幕在线亚洲欧美精品自产自拍午夜免费激情av 成年av动漫网址少妇熟女欧美另类日韩亚洲欧美综合久久国内精品自在自线图片亚洲三级黄色毛片免费在线观看成人毛片一级二级三级毛片免费看国产视频内射国产av码专区亚洲av 免费看美女性在线毛片视频国产精品永久免费网站成人三级黄色视频国产探花极品一区二区国产欧美另类精品又又久久亚洲欧美国产精品女同一区二区软件校园人妻丝袜中文字幕欧美不卡视频在线免费观看国产精品爽爽va在线观看网站中文字幕av成人在线电影我的女老师完整版在线观看免费看日本二区赤兔流量卡办理九九在线视频观看精品国产精品久久久久久久久免又粗又爽又猛毛片免费看免费搜索国产男女视频日韩一区二区视频免费看婷婷六月久久综合丁香 97超碰精品成人国产亚洲一区高清亚洲精品 av在线天堂中文字幕我的女老师完整版在线观看精品人妻熟女av久视频少妇丰满av 精品一区二区三区视频在线夫妻性生交免费视频一级片天美传媒精品一区二区欧美精品一区二区大全乱码一卡2卡4卡精品大香蕉97超碰在线一个人免费在线观看电影精品久久久久久成人av 欧美性猛交黑人性爽久久精品夜夜夜夜夜久久蜜豆深爱激情五月婷婷 99在线人妻在线中文字幕亚洲av电影不卡..在线观看 av专区在线播放亚洲精品日韩av片在线观看亚洲国产最新在线播放 av播播在线观看一区 18+在线观看网站欧美xxxx性猛交bbbb 亚洲国产精品国产精品亚洲av电影在线观看一区二区三区永久免费av网站大全亚洲人成网站在线播亚洲婷婷狠狠爱综合网久久亚洲精品不卡亚洲精品日韩av片在线观看 91精品伊人久久大香线蕉亚洲,欧美,日韩国产伦一二天堂av在线观看日韩精品青青久久久久久一区二区三区乱码不卡18 成人午夜精彩视频在线观看午夜福利网站1000一区二区三区免费观看精品视频网站久久久久久大精品日韩精品有码人妻一区亚洲人成网站在线播在线观看美女被高潮喷水网站高清日韩中文字幕在线老司机福利观看丰满人妻一区二区三区视频av 老师上课跳d突然被开到最大视频日韩亚洲欧美综合久久99热这里只有精品18 精品一区二区免费观看亚洲精品乱码久久久v下载方式国产亚洲精品久久久com 欧美另类亚洲清纯唯美男女啪啪激烈高潮av片 97热精品久久久久久大话2 男鬼变身卡一本一本综合久久 a级毛片免费高清观看在线播放亚洲av免费在线观看久久亚洲国产成人精品v 美女xxoo啪啪120秒动态图中文天堂在线官网色5月婷婷丁香 91精品一卡2卡3卡4卡自拍偷自拍亚洲精品老妇色吧在线观看日韩三级伦理在线观看国产黄色视频一区二区在线观看久久久久性生活片天堂√8在线中文国产成人精品久久久久久亚洲av日韩在线播放色综合站精品国产国产免费福利视频在线观看精品欧美国产一区二区三一个人免费在线观看电影 av卡一久久亚洲av熟女最近手机中文字幕大全免费av不卡在线播放免费观看的影片在线观看亚洲人成网站高清观看中文精品一卡2卡3卡4更新亚洲18禁久久av 夜夜看夜夜爽夜夜摸 18禁动态无遮挡网站亚洲最大成人av 精品一区二区免费观看国产在视频线在精品日日摸夜夜添夜夜爱婷婷色麻豆天堂久久你懂的网址亚洲精品在线观看 97在线视频观看国产精品综合久久久久久久免费国语自产精品视频在线第100页久久精品国产亚洲网站久久久久久九九精品二区国产欧美不卡视频在线免费观看纵有疾风起免费观看全集完整版国产精品爽爽va在线观看网站草草在线视频免费看真实男女啪啪啪动态图午夜a级毛片久久久亚洲精品成人影院国产精品乱码一区二三区的特点最后的刺客免费高清国语热99re8久久精品国产欧美极品一区二区三区四区高清在线视频一区二区三区成人综合一区亚洲 .国产精品久久国产精品蜜桃在线观看国产片特级美女逼逼视频成人二区视频久99久视频精品免费国产高清不卡午夜福利亚洲内射少妇av 你懂的网址亚洲精品在线观看国产亚洲5aaaaa淫片色噜噜av男人的天堂激情欧美日韩精品成人综合77777 免费av观看视频一区二区三区四区激情视频国产精品久久视频播放亚洲天堂国产精品一区在线亚洲在线观看片国产精品无大码听说在线观看完整版免费高清亚洲国产日韩欧美精品在线观看欧美成人一区二区免费高清观看 22中文网久久字幕亚洲五月天丁香 91午夜精品亚洲一区二区三区日韩大片免费观看网站 a级毛片免费高清观看在线播放 18+在线观看网站亚洲欧美中文字幕日韩二区国产色爽女视频免费观看搡女人真爽免费视频火全软件韩国高清视频一区二区三区午夜爱爱视频在线播放日日干狠狠操夜夜爽国产高清三级在线亚洲在久久综合麻豆乱淫一区二区天堂中文最新版在线下载精品人妻一区二区三区麻豆一级爰片在线观看国内揄拍国产精品人妻在线免费人成在线观看视频色精品人妻熟女av久视频欧美成人午夜免费资源乱码一卡2卡4卡精品亚洲精品乱码久久久v下载方式在线播放无遮挡少妇猛男粗大的猛烈进出视频色吧在线观看国产精品一区二区在线观看99 亚洲美女视频黄频亚洲欧美日韩高清专用中文乱码字字幕精品一区二区三区一级毛片电影观看秋霞伦理黄片国产不卡一卡二国产亚洲91精品色在线久久国产乱子免费精品麻豆久久精品国产亚洲av 亚洲av福利一区成人性生交大片免费视频hd 两个人的视频大全免费全区人妻精品视频毛片一级片免费看久久久久久久久久久久久久久免费av 国产免费一级a男人的天堂美女内射精品一级片tv 国产精品一及搡老妇女老女人老熟妇 99久久精品热视频热99re8久久精品国产国产亚洲一区二区精品国产美女午夜福利看片在线看免费视频亚洲精品aⅴ在线观看国产一区二区在线观看日韩国产精品国产高清国产av 简卡轻食公司七月丁香在线播放午夜激情福利司机影院 a级毛色黄片日本猛色少妇xxxxx猛交久久国产精华一区二区三区亚洲aⅴ乱码一区二区在线播放国产亚洲精品av在线欧美最新免费一区二区三区国产v大片淫在线免费观看 97在线视频观看国产精品蜜桃在线观看欧美zozozo另类午夜老司机福利剧场久久6这里有精品国产亚洲精品av在线中文资源天堂在线欧美bdsm另类国产精品熟女久久久久浪国产一区二区在线av高清观看高清在线视频一区二区三区国内精品宾馆在线特大巨黑吊av在线直播男女国产视频网站男插女下体视频免费在线播放啦啦啦观看免费观看视频高清少妇丰满av 国产激情偷乱视频一区二区建设人人有责人人尽责人人享有的亚洲av成人精品一区久久五月玫瑰六月丁香亚洲四区av 男人舔女人下体高潮全视频国产精品一区二区三区四区免费观看国产伦理片在线播放av一区身体一侧抽搐亚洲国产色片午夜a级毛片 videos熟女内射少妇的逼水好多成人国产麻豆网乱系列少妇在线播放男人狂女人下面高潮的视频婷婷色麻豆天堂久久美女xxoo啪啪120秒动态图 videos熟女内射久久精品熟女亚洲av麻豆精品精品久久久久久成人av 91久久精品国产一区二区成人麻豆一二三区av精品十八禁国产超污无遮挡网站少妇的逼好多水尤物成人国产欧美一区二区三区搞女人的毛片日韩av在线大香蕉舔av片在线久久精品国产亚洲av天美人人妻人人澡人人爽人人夜夜国产精品国产三级国产专区5o 国产精品久久久久久精品电影亚洲av电影在线观看一区二区三区亚洲综合色惰成年免费大片在线观看 av卡一久久亚洲国产精品合色在线国产av一区在线观看免费免费观看a级毛片全部你懂的网址亚洲精品在线观看国产精品电影一区二区三区我要看日韩黄色一级片日韩精品有码人妻一区午夜福利在线在线亚洲av成人精品一二三区成人综合一区亚洲国产精品99久久久久久久久久久精品综合一区二区三区少妇高潮的动态图看免费成人av毛片 97超碰精品成人国产午夜精品国产一区二区电影在线免费观看的www视频欧美极品一区二区三区四区九九在线视频观看精品亚洲图色成人国产美女午夜福利 97在线视频观看亚洲婷婷狠狠爱综合网亚洲自拍偷在线中国国产av一级久久久精品欧美日韩精品国产在视频线在精品国产亚洲av嫩草精品影院亚洲精品久久久久久婷婷小说欧美一区二区亚洲超碰av人人做人人爽久久日韩国内少妇激情av 欧美变态另类bdsm刘玥亚洲最大成人av 狂野欧美白嫩少妇大欣赏亚洲国产精品专区欧美免费一级毛片在线播放高清视频美女被艹到高潮喷水动态国产亚洲午夜精品一区二区久久国产精品久久久久久精品电影小说国产精品野战在线观看亚洲欧美清纯卡通最近2019中文字幕mv第一页日韩欧美国产在线观看中国国产av一级 99在线视频只有这里精品首页乱码一卡2卡4卡精品午夜激情欧美在线久久精品久久久久久久性亚洲成人中文字幕在线播放色综合站精品国产久久久久久伊人网av 国产老妇女一区中文字幕av成人在线电影插阴视频在线观看视频男人舔女人下体高潮全视频 2021少妇久久久久久久久久久 99热6这里只有精品在线免费观看的www视频国产精品国产三级专区第一集色网站视频免费爱豆传媒免费全集在线观看婷婷色av中文字幕 99热网站在线观看午夜av观看不卡成人毛片60女人毛片免费亚洲国产av影院在线观看国产精品秋霞免费鲁丝片咕卡用的链子免费看av在线观看网站欧美精品一区二区大全免费黄网站久久成人精品日韩,欧美,国产一区二区三区久久久久久久久久久免费av 熟女电影av网午夜精品国产一区二区电影久久久久久久亚洲中文字幕女性被躁到高潮视频又大又黄又爽视频免费夜夜骑夜夜射夜夜干国产精品无大码 18+在线观看网站男女边吃奶边做爰视频亚洲图色成人免费观看无遮挡的男女亚洲欧美色中文字幕在线 97在线人人人人妻亚洲av电影在线观看一区二区三区亚洲人成网站在线观看播放考比视频在线观看亚洲五月色婷婷综合制服诱惑二区亚洲精品美女久久av网站中国美白少妇内射xxxbb 亚洲av综合色区一区少妇人妻久久综合中文我要看黄色一级片免费的日本vs欧美在线观看视频亚洲精品日韩在线中文字幕久久精品国产a三级三级三级 tube8黄色片一级黄片播放器 av女优亚洲男人天堂伦理电影大哥的女人热99国产精品久久久久久7 男男h啪啪无遮挡国国产精品蜜臀av免费性色avwww在线观看国产乱人偷精品视频亚洲av.av天堂看十八女毛片水多多多免费大片18禁亚洲天堂av无毛 av黄色大香蕉亚洲精品国产av蜜桃国产极品天堂在线亚洲精品久久成人aⅴ小说国产色爽女视频免费观看 99re6热这里在线精品视频又黄又爽又刺激的免费视频. 在线观看人妻少妇 videossex国产免费在线观看完整版高清中文字幕人妻丝袜制服在线观看一区二区三区激情亚洲精品第二区麻豆精品久久久久久蜜桃大话2 男鬼变身卡午夜免费观看性视频中文乱码字字幕精品一区二区三区亚洲精品av麻豆狂野国产乱人偷精品视频男女下面插进去视频免费观看精品国产一区二区三区四区第35 最新的欧美精品一区二区亚洲精品视频女赤兔流量卡办理侵犯人妻中文字幕一二三四区国产成人精品婷婷久久久久久久大尺度免费视频两个人看的免费小视频男女高潮啪啪啪动态图秋霞伦理黄片亚洲欧洲国产日韩 90打野战视频偷拍视频久久这里有精品视频免费国产免费视频播放在线视频亚洲精品色激情综合 a 毛片基地两个人看的免费小视频国产成人av激情在线播放蜜臀久久99精品久久宅男老女人水多毛片亚洲精品av麻豆狂野 97在线人人人人妻 91午夜精品亚洲一区二区三区 97人妻天天添夜夜摸自线自在国产av 国产成人免费无遮挡视频黄色一级大片看看午夜久久久在线观看欧美国产精品va在线观看不卡国产国语露脸激情在线看国产精品不卡视频一区二区久久精品国产自在天天线免费大片黄手机在线观看婷婷色av中文字幕一二三四在线观看免费中文在日本91视频免费播放国产黄色视频一区二区在线观看国产精品麻豆人妻色哟哟久久 1024视频免费在线观看色婷婷久久久亚洲欧美婷婷色综合www 成人亚洲欧美一区二区av 另类亚洲欧美激情 av福利片在线 90打野战视频偷拍视频伦精品一区二区三区 99热国产这里只有精品6 黑丝袜美女国产一区国产男人的电影天堂91 精品久久久久久电影网多毛熟女@视频在线观看国产h片丝袜喷水一区国产亚洲精品久久久com 国产精品欧美亚洲77777 免费看光身美女亚洲欧美中文字幕日韩二区国产成人91sexporn 久久亚洲国产成人精品v 欧美激情国产日韩精品一区成人二区视频有码亚洲区边亲边吃奶的免费视频午夜日本视频在线高清不卡的av网站国产高清三级在线 18在线观看网站 av女优亚洲男人天堂国内精品宾馆在线美女视频免费永久观看网站亚洲精品乱久久久久久日韩av免费高清视频精品少妇内射三级免费黄网站久久成人精品热99国产精品久久久久久7 免费人妻精品一区二区三区视频男女国产视频网站国产日韩欧美视频二区中文乱码字字幕精品一区二区三区日日摸夜夜添夜夜爱精品卡一卡二卡四卡免费日韩伦理黄色片国产精品熟女久久久久浪亚洲综合精品二区男人添女人高潮全过程视频 9191精品国产免费久久国产男人的电影天堂91 国产永久视频网站国产成人91sexporn 日韩,欧美,国产一区二区三区中文字幕另类日韩欧美亚洲嫩草国产精品久久久久久av不卡欧美日本中文国产一区发布国产无遮挡羞羞视频在线观看两个人免费观看高清视频在线观看www视频免费大香蕉97超碰在线 99热这里只有是精品在线观看日韩人妻精品一区2区三区欧美人与性动交α欧美软件成人毛片a级毛片在线播放久久韩国三级中文字幕色网站视频免费少妇被粗大猛烈的视频精品少妇黑人巨大在线播放桃花免费在线播放亚洲av男天堂久热这里只有精品99 在线 av 中文字幕国产免费福利视频在线观看中文字幕人妻熟女乱码国产伦理片在线播放av一区久久国产精品大桥未久av 国产男女超爽视频在线观看 √禁漫天堂资源中文www 熟女人妻精品中文字幕看非洲黑人一级黄片久久久精品94久久精品男的添女的下面高潮视频色吧在线观看日韩欧美精品免费久久制服诱惑二区国精品久久久久久国模美亚洲精华国产精华液的使用体验满18在线观看网站婷婷色av中文字幕欧美亚洲国产日韩一国产av精品麻豆在线观看免费视频网站a站日韩av不卡免费在线播放女性被躁到高潮视频一区二区三区精品91 丝袜人妻中文字幕国产男人的电影天堂91 最新中文字幕久久久久亚洲色图男人天堂中文字幕久久青草综合色国产欧美日韩一区二区三区在线 26uuu在线亚洲综合色国产精品一区www在线观看美女大奶头黄色视频天堂中文最新版在线下载国产一区亚洲一区在线观看男女午夜视频在线观看国产精品免费大片亚洲,一卡二卡三卡免费黄色在线免费观看亚洲国产日韩一区二区久久久精品区二区三区 av在线app专区 99热全是精品在线免费观看不下载黄p国产少妇被粗大的猛进出69影院 9色porny在线观看 kizo精华成人亚洲欧美一区二区av 一区在线观看完整版精品一品国产午夜福利视频亚洲精品乱久久久久久波多野结衣一区麻豆国产精品偷伦视频观看了一本一本久久a久久精品综合妖精国产伦在线观看视频一区亚洲av日韩在线播放 a级片在线免费高清观看视频色婷婷av一区二区三区视频精品99又大又爽又粗少妇毛片波多野结衣一区麻豆熟女av电影日本免费在线观看一区成人影院久久国产精品蜜桃在线观看中文字幕精品免费在线观看视频久久这里只有精品19 av播播在线观看一区久久99一区二区三区性高湖久久久久久久久免费观看 2018国产大陆天天弄谢成人午夜精彩视频在线观看搡老乐熟女国产国产老妇伦熟女老妇高清亚洲精品日韩在线中文字幕水蜜桃什么品种好亚洲国产欧美日韩在线播放日韩制服骚丝袜av 久久免费观看电影 1024视频免费在线观看久久久a久久爽久久v久久日韩一区二区三区影片晚上一个人看的免费电影欧美精品人与动牲交sv欧美 18禁在线无遮挡免费观看视频男女无遮挡免费网站观看啦啦啦中文免费视频观看日本免费看av在线观看网站少妇人妻视频 av在线app专区免费日韩欧美在线观看性高湖久久久久久久久免费观看搡女人真爽免费视频火全软件少妇猛男粗大的猛烈进出视频久久av网站午夜日本视频在线人人妻人人爽人人添夜夜欢视频男女下面插进去视频免费观看日本免费在线观看一区国产亚洲精品第一综合不卡日本91视频免费播放欧美3d第一页国产精品国产av在线观看自拍欧美九色日韩亚洲蝌蚪91 久久久精品94久久精品久久99热6这里只有精品日本黄色日本黄色录像最近的中文字幕免费完整午夜影院在线不卡国产免费一区二区三区四区乱码免费黄网站久久成人精品日韩一本色道免费dvd 国产精品99久久99久久久不卡丝袜在线中文字幕久久av网站精品一区二区三卡丝袜脚勾引网站精品卡一卡二卡四卡免费 99久久人妻综合国产日韩欧美视频二区亚洲精品成人av观看孕妇视频在线观看一区二区三区亚洲精品久久午夜乱码狠狠精品人妻久久久久久综合国产精品99久久99久久久不卡一级a做视频免费观看欧美激情极品国产一区二区三区晚上一个人看的免费电影国产成人91sexporn 亚洲精品456在线播放app 午夜影院在线不卡 av.在线天堂国产又色又爽无遮挡免国产精品国产三级国产av玫瑰宅男免费午夜亚洲av福利一区国产精品偷伦视频观看了国产av一区二区精品久久 18禁观看日本亚洲丝袜综合中文字幕 91久久精品国产一区二区三区丰满饥渴人妻一区二区三 999精品在线视频免费观看性生交大片5 av黄色大香蕉少妇精品久久久久久久国产免费视频播放在线视频欧美精品亚洲一区二区久久这里只有精品19 国产一区二区激情短视频黑人欧美特级aaaaaa片久久久久久久大尺度免费视频国产在线免费精品飞空精品影院首页国产精品1 老女人水多毛片亚洲精品久久久久久婷婷小说在线观看免费日韩欧美大片最近的中文字幕免费完整日韩视频在线欧美美女内射精品一级片tv 制服丝袜香蕉在线免费大片黄手机在线观看免费不卡的大黄色大毛片视频在线观看久久女婷五月综合色啪小说精品人妻熟女毛片av久久网站天天操日日干夜夜撸欧美精品av麻豆av 18禁国产床啪视频网站夫妻性生交免费视频一级片妹子高潮喷水视频成人国产麻豆网 av播播在线观看一区在线观看人妻少妇免费大片18禁狠狠婷婷综合久久久久久88av 91精品三级在线观看亚洲欧美中文字幕日韩二区亚洲丝袜综合中文字幕亚洲四区av 人妻人人澡人人爽人人亚洲一码二码三码区别大吗国产av国产精品国产五月开心婷婷网午夜福利,免费看成人二区视频 av一本久久久久啦啦啦在线观看免费高清www 日日爽夜夜爽网站激情视频va一区二区三区美女内射精品一级片tv 五月开心婷婷网在线亚洲精品国产二区图片欧美欧美xxⅹ黑人日本猛色少妇xxxxx猛交久久 91精品伊人久久大香线蕉大香蕉97超碰在线免费高清在线观看日韩欧美国产精品一级二级三级丝袜脚勾引网站 www日本在线高清视频伦精品一区二区三区国产精品久久久久成人av 午夜影院在线不卡精品卡一卡二卡四卡免费国产日韩欧美在线精品亚洲国产精品专区欧美国产午夜精品一二区理论片肉色欧美久久久久久久蜜桃美女主播在线视频 av在线老鸭窝女人被躁到高潮嗷嗷叫费观黑丝袜美女国产一区超碰97精品在线观看国产男女内射视频欧美日本中文国产一区发布亚洲性久久影院欧美成人午夜免费资源大码成人一级视频国产精品人妻久久久影院国产成人午夜福利电影在线观看日韩亚洲欧美在线看免费成人av毛片色网站视频免费九九爱精品视频在线观看 99国产综合亚洲精品黄色怎么调成土黄色亚洲欧美成人精品一区二区五月开心婷婷网五月伊人婷婷丁香大香蕉久久网国产白丝娇喘喷水9色精品人妻少妇偷人精品九色国产免费视频播放在线视频啦啦啦视频在线资源免费观看桃花免费在线播放亚洲第一区二区三区不卡九色成人免费人妻av 国产精品一区www在线观看国产淫语在线视频人妻一区二区av 国产欧美日韩一区二区三区在线免费看光身美女精品一区二区三区视频在线国产成人精品在线电影欧美人与性动交α欧美软件日韩在线高清观看一区二区三区国产成人精品在线电影我要看黄色一级片免费的国产69精品久久久久777片在线亚洲精品国产二区图片欧美亚洲欧美一区二区三区国产亚洲精华国产精华液的使用体验久久精品国产鲁丝片午夜精品一级片'在线观看视频欧美激情高清一区二区三区 91精品国产国语对白视频久久久久久久久久久久大奶天堂中文最新版在线下载日韩成人av中文字幕在线观看 av免费在线看不卡 freevideosex欧美久久狼人影院国产一区亚洲一区在线观看在线观看免费日韩欧美大片亚洲av福利一区久热这里只有精品99 一级片'在线观看视频女的被弄到高潮叫床怎么办久久亚洲国产成人精品v 欧美bdsm另类宅男免费午夜国产一区亚洲一区在线观看 a级毛色黄片欧美日韩视频精品一区男女下面插进去视频免费观看国产精品女同一区二区软件午夜激情av网站国产极品天堂在线久久精品国产a三级三级三级一本一本久久a久久精品综合妖精国产伦在线观看视频一区高清视频免费观看一区二区国产片内射在线十分钟在线观看高清视频www 国产精品国产三级专区第一集日韩,欧美,国产一区二区三区欧美激情国产日韩精品一区母亲3免费完整高清在线观看男女啪啪激烈高潮av片 av天堂久久9 91国产中文字幕 80岁老熟妇乱子伦牲交日本av手机在线免费观看 90打野战视频偷拍视频国产深夜福利视频在线观看亚洲欧美色中文字幕在线一本一本久久a久久精品综合妖精国产伦在线观看视频一区性色av一级视频中文字幕在线观看超色免费av 宅男免费午夜女人被躁到高潮嗷嗷叫费观国产免费又黄又爽又色国产一区精品欧美国产精品va在线观看不卡亚洲在久久综合亚洲第一av免费看女人精品久久久久毛片一区二区三区四区激情视频一边亲一边摸免费视频午夜激情av网站久久99蜜桃精品久久日韩成人av中文字幕在线观看一区二区三区四区激情视频国产成人a∨麻豆精品国产亚洲一区二区精品国产日韩欧美在线精品 97超碰精品成人国产建设人人有责人人尽责人人享有的秋霞在线观看毛片国产精品一国产av 国产片特级美女逼逼视频国产精品久久久久久精品古装美女国产高潮福利片在线看 99热这里只有是精品在线观看国产精品久久久久久精品电影小说国产有黄有色有爽视频亚洲精品第二区日韩在线高清观看一区二区三区国产精品蜜桃在线观看乱码一卡2卡4卡精品亚洲精品自拍成人成年人午夜在线观看视频亚洲精品第二区欧美人与性动交α欧美精品济南到免费久久久久久久精品成人欧美视频亚洲精品第二区日日爽夜夜爽网站欧美少妇被猛烈插入视频丰满乱子伦码专区男女午夜视频在线观看 97人妻天天添夜夜摸成人无遮挡网站一边摸一边做爽爽视频免费 91国产中文字幕亚洲色图综合在线观看满18在线观看网站国产欧美另类精品又又久久亚洲欧美久久久精品区二区三区久久久久精品久久久久真实原创久久人人爽av亚洲精品天堂国产免费福利视频在线观看嫩草影院入口国产在线一区二区三区精男女边摸边吃奶国产亚洲精品第一综合不卡少妇在线观看黄色视频在线播放观看不卡大片电影免费在线观看免费你懂的网址亚洲精品在线观看一级爰片在线观看国产成人精品无人区高清视频免费观看一区二区 av黄色大香蕉国产精品人妻久久久影院亚洲精品一二三男女下面插进去视频免费观看天天影视国产精品久久精品久久久久久噜噜老黄插逼视频在线观看精品午夜福利在线看成年人免费黄色播放视频 videosex国产 av线在线观看网站成人亚洲欧美一区二区av 久久婷婷青草少妇的逼好多水 18禁动态无遮挡网站日韩不卡一区二区三区视频在线两个人看的免费小视频热99久久久久精品小说推荐精品国产国语对白av 女人被躁到高潮嗷嗷叫费观少妇人妻久久综合中文 av电影中文网址国产一区二区在线观看av 51国产日韩欧美亚洲精品一区蜜桃国产淫语在线视频亚洲经典国产精华液单亚洲欧洲国产日韩国产成人a∨麻豆精品欧美日韩av久久黄色一级大片看看午夜av观看不卡国内精品宾馆在线夫妻性生交免费视频一级片乱人伦中国视频亚洲,一卡二卡三卡日本wwww免费看又黄又粗又硬又大视频另类精品久久黑人高潮一二区久久精品国产亚洲av天美老司机亚洲免费影院亚洲色图综合在线观看欧美日韩视频精品一区久热这里只有精品99 国精品久久久久久国模美亚洲欧美精品自产自拍热re99久久国产66热成人亚洲精品一区在线观看熟妇人妻不卡中文字幕亚洲三级黄色毛片视频在线观看一区二区三区国产不卡av网站在线观看狠狠精品人妻久久久久久综合丰满饥渴人妻一区二区三亚洲精品久久久久久婷婷小说在线观看一区二区三区激情久久久久久人人人人人亚洲国产成人一精品久久久亚洲精品第二区 av.在线天堂久久青草综合色男女无遮挡免费网站观看 99国产综合亚洲精品 av在线老鸭窝亚洲精品456在线播放app 美女大奶头黄色视频亚洲av欧美aⅴ国产亚洲精品美女久久av网站久久久国产欧美日韩av 亚洲色图综合在线观看 999精品在线视频最近最新中文字幕大全免费视频欧美日韩精品国产亚洲国产欧美在线一区欧美精品人与动牲交sv欧美一二三四在线观看免费中文在亚洲精品国产av成人精品午夜av观看不卡国产成人午夜福利电影在线观看亚洲精品国产av成人精品亚洲四区av 久久婷婷青草 18在线观看网站免费久久久久久久精品成人欧美视频日韩一区二区视频免费看国产激情久久老熟女免费观看a级毛片全部哪个播放器可以免费观看大片性色av一级 videosex国产亚洲av中文av极速乱色网站视频免费国产国语露脸激情在线看亚洲三级黄色毛片 h视频一区二区三区欧美日韩亚洲高清精品亚洲国产色片日韩精品有码人妻一区咕卡用的链子久久人人爽av亚洲精品天堂 9色porny在线观看巨乳人妻的诱惑在线观看 99热全是精品不卡视频在线观看欧美国产欧美日韩一区二区三区在线国产麻豆69 免费看av在线观看网站久久狼人影院视频在线观看一区二区三区国产一区二区在线观看av 制服诱惑二区极品人妻少妇av视频国产伦理片在线播放av一区亚洲欧美成人综合另类久久久欧美国产精品一级二级三级青春草亚洲视频在线观看一区二区三区四区激情视频 18禁在线无遮挡免费观看视频日韩中文字幕视频在线看片蜜桃在线观看.. 日韩精品免费视频一区二区三区精品一区在线观看国产久久久久国产网址大香蕉久久成人网国产精品国产三级专区第一集人人妻人人澡人人看久久久久精品久久久久真实原创欧美精品一区二区免费开放午夜激情久久久久久久精品少妇黑人巨大在线播放中文字幕精品免费在线观看视频一区二区三区四区激情视频亚洲成人av在线免费 99re6热这里在线精品视频国产成人91sexporn 91成人精品电影午夜影院在线不卡建设人人有责人人尽责人人享有的亚洲第一av免费看亚洲,欧美,日韩日韩中字成人亚洲av免费高清在线观看国产精品人妻久久久久久大码成人一级视频伦理电影免费视频久久久精品区二区三区看免费av毛片日本免费在线观看一区在线精品无人区一区二区三亚洲综合色网址婷婷成人精品国产国产又色又爽无遮挡免最近最新中文字幕大全免费视频中文乱码字字幕精品一区二区三区天美传媒精品一区二区大陆偷拍与自拍午夜福利视频在线观看免费亚洲精华国产精华液的使用体验少妇人妻视频韩国高清视频一区二区三区久久久久精品性色欧美精品一区二区大全国产1区2区3区精品亚洲av免费高清在线观看亚洲av免费高清在线观看日日爽夜夜爽网站亚洲人成网站在线观看播放 av国产精品久久久久影院 2021少妇久久久久久久久久久 av网站免费在线观看视频日本黄大片高清人妻系列视频国产免费又黄又爽又色丰满少妇做爰视频久久99热6这里只有精品国产欧美另类精品又又久久亚洲欧美人人澡人人妻人久久久久精品性色免费黄网站久久成人精品一级,二级,三级黄色视频国产乱人偷精品视频国产精品女同一区二区软件男人添女人高潮全过程视频午夜激情久久久久久久一区二区三区精品91 涩涩av久久男人的天堂午夜老司机福利剧场国产激情久久老熟女狂野欧美激情性xxxx在线观看国产69精品久久久久777片男女高潮啪啪啪动态图国产精品秋霞免费鲁丝片美女国产视频在线观看 91成人精品电影欧美亚洲日本最大视频资源中文天堂在线官网男女国产视频网站亚洲中文av在线午夜视频国产福利狠狠婷婷综合久久久久久88av 国产精品一国产av 国产精品一二三区在线看中文字幕精品免费在线观看视频一区二区三区四区激情视频 51国产日韩欧美日本欧美国产在线视频 av在线播放精品 av不卡在线播放亚洲av在线观看美女高潮在现免费观看毛片有码亚洲区日韩一区二区三区影片国产亚洲一区二区精品人妻少妇偷人精品九色成人手机av 亚洲第一区二区三区不卡夫妻午夜视频 www.熟女人妻精品国产国产成人91sexporn 成人毛片a级毛片在线播放亚洲av福利一区亚洲国产精品一区二区三区在线自拍欧美九色日韩亚洲蝌蚪91 欧美丝袜亚洲另类久久久久久人人人人人麻豆乱淫一区二区亚洲精品美女久久久久99蜜臀婷婷色综合www 91aial.com中文字幕在线观看男女下面插进去视频免费观看久久免费观看电影欧美精品一区二区免费开放亚洲av在线观看美女高潮日本猛色少妇xxxxx猛交久久少妇人妻久久综合中文少妇精品久久久久久久国产爽快片一区二区三区中文字幕人妻熟女乱码精品一品国产午夜福利视频极品少妇高潮喷水抽搐涩涩av久久男人的天堂欧美日韩视频精品一区中文字幕人妻丝袜制服国产精品久久久av美女十八一级a做视频免费观看亚洲综合色惰 97人妻天天添夜夜摸久久精品aⅴ一区二区三区四区亚洲,欧美精品. 国产一区二区三区综合在线观看免费人成在线观看视频色多毛熟女@视频久久久久人妻精品一区果冻亚洲欧美成人精品一区二区国产一区二区在线观看av 国产一区精品亚洲欧美清纯卡通 97精品久久久久久久久久精品国产精品国内视频免费观看在线日韩午夜福利在线观看免费完整高清在天美传媒精品一区二区久久久久网色 www.av在线官网国产我的女老师完整版在线观看成年人午夜在线观看视频婷婷色麻豆天堂久久欧美日韩精品国产性色avwww在线观看免费黄网站久久成人精品日韩精品免费视频一区二区三区成年美女黄网站色视频大全免费久久精品久久久久久噜噜老黄男男h啪啪无遮挡日韩欧美精品免费久久亚洲久久久国产精品日日摸夜夜添夜夜爱亚洲综合色网址 18禁观看日本午夜福利影视在线免费观看一区二区三区四区激情视频成人漫画全彩无遮挡欧美精品一区二区大全久久韩国三级中文字幕亚洲国产毛片av蜜桃av 日韩在线高清观看一区二区三区久热这里只有精品99 日日爽夜夜爽网站中文字幕最新亚洲高清亚洲精品美女久久久久99蜜臀久久人人爽人人爽人人片va 精品人妻偷拍中文字幕中文字幕免费在线视频6 色94色欧美一区二区亚洲四区av 丝袜脚勾引网站国精品久久久久久国模美久久久精品免费免费高清 freevideosex欧美少妇被粗大猛烈的视频国产成人午夜福利电影在线观看十八禁高潮呻吟视频国产一区亚洲一区在线观看久久久国产一区二区久久久久久久久久久久大奶国产午夜精品一二区理论片一本色道久久久久久精品综合超色免费av 男人添女人高潮全过程视频成年动漫av网址中文字幕人妻熟女乱码在现免费观看毛片婷婷色av中文字幕精品熟女少妇av免费看另类精品久久伊人久久国产一区二区免费久久久久久久精品成人欧美视频国产片内射在线精品久久国产蜜桃久久久精品94久久精品天堂中文最新版在线下载韩国av在线不卡 99热这里只有是精品在线观看日本黄色日本黄色录像 9热在线视频观看99 啦啦啦在线观看免费高清www 欧美成人午夜精品在线亚洲精品国产二区图片欧美日本黄色日本黄色录像 80岁老熟妇乱子伦牲交色婷婷av一区二区三区视频日本av手机在线免费观看成人影院久久国产综合精华液一本久久精品欧美日韩av久久麻豆精品久久久久久蜜桃久久久久久伊人网av 免费高清在线观看视频在线观看亚洲高清免费不卡视频 18禁裸乳无遮挡动漫免费视频热99国产精品久久久久久7 一级毛片黄色毛片免费观看视频搡老乐熟女国产亚洲欧美日韩卡通动漫高清av免费在线又粗又硬又长又爽又黄的视频激情视频va一区二区三区欧美日韩视频高清一区二区三区二久久青草综合色久久久久国产精品人妻一区二区女性生殖器流出的白浆国产精品女同一区二区软件亚洲第一区二区三区不卡国产精品国产三级国产av玫瑰欧美人与性动交α欧美软件久久热在线av 美女xxoo啪啪120秒动态图熟女av电影精品久久久久久电影网大码成人一级视频人人妻人人添人人爽欧美一区卜 av.在线天堂日本wwww免费看 av有码第一页日本黄大片高清日韩一本色道免费dvd 少妇精品久久久久久久最后的刺客免费高清国语午夜福利视频在线观看免费 av网站免费在线观看视频免费av不卡在线播放热re99久久精品国产66热6 久久久a久久爽久久v久久性色av一级国产淫语在线视频国产精品久久久久成人av 欧美日韩一区二区视频在线观看视频在线日韩视频在线欧美内地一区二区视频在线 99久久综合免费亚洲人与动物交配视频亚洲av.av天堂国产精品一国产av 国产极品天堂在线欧美最新免费一区二区三区中文精品一卡2卡3卡4更新韩国av在线不卡超碰97精品在线观看日日爽夜夜爽网站亚洲av电影在线观看一区二区三区亚洲av男天堂校园人妻丝袜中文字幕国产一区二区在线观看日韩久久99热6这里只有精品日本午夜av视频亚洲欧美日韩另类电影网站亚洲国产av新网站亚洲成av片中文字幕在线观看亚洲少妇的诱惑av 色哟哟·www 自拍欧美九色日韩亚洲蝌蚪91 欧美国产精品一级二级三级国产在线一区二区三区精欧美亚洲国产日韩一男男h啪啪无遮挡亚洲av男天堂午夜老司机福利剧场少妇高潮的动态图曰老女人黄片午夜福利网站1000一区二区三区亚洲经典国产精华液单最近中文字幕高清免费大全6 久久精品国产鲁丝片午夜精品国产女主播在线喷水免费视频网站美女脱内裤让男人舔精品视频两个人免费观看高清视频亚洲熟女精品中文字幕久久精品国产亚洲av天美国产极品天堂在线 97超碰精品成人国产国语对白做爰xxxⅹ性视频网站男人爽女人下面视频在线观看曰老女人黄片香蕉丝袜av 免费黄网站久久成人精品青春草视频在线免费观看亚洲第一区二区三区不卡综合色丁香网交换朋友夫妻互换小说国产精品熟女久久久久浪午夜免费观看性视频久久久久精品久久久久真实原创欧美变态另类bdsm刘玥亚洲精品乱码久久久久久按摩国产熟女欧美一区二区男女啪啪激烈高潮av片曰老女人黄片 51国产日韩欧美高清欧美精品videossex 热re99久久精品国产66热6 亚洲精品美女久久av网站九色成人免费人妻av 男人添女人高潮全过程视频精品酒店卫生间久久久久国产网址久久精品aⅴ一区二区三区四区国产高清三级在线国产av国产精品国产女人久久www免费人成看片国产成人精品婷婷亚洲精品色激情综合人妻亚洲视频十八禁高潮呻吟视频欧美精品国产亚洲国产黄色免费在线视频 99热6这里只有精品午夜精品国产一区二区电影毛片一级片免费看久久久久 a级毛色黄片午夜激情av网站国产精品一区二区在线不卡亚洲美女搞黄在线观看日本猛色少妇xxxxx猛交久久 av天堂久久9 xxxhd国产人妻xxx 色网站视频免费人妻一区二区av 国产高清三级在线黄网站色视频无遮挡免费观看久久精品aⅴ一区二区三区四区国产色婷婷99 女的被弄到高潮叫床怎么办一级毛片黄色毛片免费观看视频欧美xxⅹ黑人精品熟女少妇av免费看 av电影中文网址 9191精品国产免费久久 18+在线观看网站黄色视频在线播放观看不卡十八禁网站网址无遮挡欧美激情高清一区二区三区大片免费播放器马上看亚洲第一av免费看久久国产亚洲av麻豆专区 av电影中文网址亚洲欧洲国产日韩中文字幕另类日韩欧美亚洲嫩草日韩欧美一区视频在线观看日韩一本色道免费dvd 伊人亚洲综合成人网 69精品国产乱码久久久精品人妻一区二区三区麻豆 2018国产大陆天天弄谢国产在线一区二区三区精十分钟在线观看高清视频www 国产乱人偷精品视频国产极品天堂在线亚洲国产最新在线播放天美传媒精品一区二区免费看光身美女国产精品99久久99久久久不卡日本爱情动作片www.在线观看亚洲图色成人精品久久久久久电影网亚洲人成77777在线视频男女下面插进去视频免费观看宅男免费午夜 99热这里只有是精品在线观看精品99又大又爽又粗少妇毛片最近最新中文字幕免费大全7 久久热在线av 午夜福利网站1000一区二区三区国产成人午夜福利电影在线观看人人妻人人澡人人爽人人夜夜两个人免费观看高清视频亚洲欧洲国产日韩国产精品一区二区在线不卡狂野欧美激情性xxxx在线观看成人手机av 欧美精品人与动牲交sv欧美九色成人免费人妻av 久久精品aⅴ一区二区三区四区国产精品嫩草影院av在线观看色视频在线一区二区三区 2022亚洲国产成人精品日日撸夜夜添街头女战士在线观看网站九色亚洲精品在线播放一级黄片播放器成人漫画全彩无遮挡国产成人午夜福利电影在线观看欧美日韩亚洲高清精品你懂的网址亚洲精品在线观看日韩av在线免费看完整版不卡欧美亚洲丝袜人妻在线精品国产乱码久久久久久小说男女下面插进去视频免费观看国产精品熟女久久久久浪男女午夜视频在线观看性色avwww在线观看 av线在线观看网站最黄视频免费看国产精品1 最近手机中文字幕大全国产色婷婷99 久久久久精品性色 √禁漫天堂资源中文www 国产免费视频播放在线视频国产日韩欧美在线精品少妇高潮的动态图国产精品久久久久成人av 好男人视频免费观看在线日韩制服丝袜自拍偷拍免费女性裸体啪啪无遮挡网站精品国产露脸久久av麻豆 freevideosex欧美 av片东京热男人的天堂天堂8中文在线网国产白丝娇喘喷水9色精品 av在线观看视频网站免费 99久久中文字幕三级久久日本日本黄色日本黄色录像丝袜美足系列男人操女人黄网站亚洲av在线观看美女高潮伦精品一区二区三区 97在线视频观看一级毛片电影观看一级,二级,三级黄色视频国产综合精华液日本欧美国产在线视频久久久久国产网址国产爽快片一区二区三区久久久欧美国产精品久久99热这里只频精品6学生久久久久久久久久久免费av 精品一区二区三区四区五区乱码亚洲精品美女久久av网站国产一区亚洲一区在线观看中文字幕精品免费在线观看视频成年动漫av网址欧美老熟妇乱子伦牲交国产乱人偷精品视频久久精品国产综合久久久日韩亚洲欧美在线久久99热6这里只有精品成人亚洲精品一区在线观看国产成人免费无遮挡视频草草在线视频免费看欧美bdsm另类 97在线人人人人妻欧美激情国产日韩精品一区如日韩欧美国产精品一区二区三区亚洲图色成人国产精品女同一区二区软件国语对白做爰xxxⅹ性视频网站免费观看无遮挡的男女亚洲国产毛片av蜜桃av 女人精品久久久久毛片大香蕉久久网久久精品久久精品一区二区三区 99久国产av精品国产电影日韩在线高清观看一区二区三区中文精品一卡2卡3卡4更新 26uuu在线亚洲综合色人体艺术视频欧美日本高清av免费在线 91精品伊人久久大香线蕉午夜视频国产福利国产成人欧美久久精品国产鲁丝片午夜精品亚洲国产欧美日韩在线播放久久99热这里只频精品6学生咕卡用的链子成人午夜精彩视频在线观看久久久精品免费免费高清黄网站色视频无遮挡免费观看最近中文字幕2019免费版国产无遮挡羞羞视频在线观看少妇人妻久久综合中文亚洲精品美女久久av网站精品第一国产精品国产免费一区二区三区四区乱码飞空精品影院首页中文字幕av电影在线播放国产亚洲精品第一综合不卡一级爰片在线观看午夜影院在线不卡亚洲精品久久久久久婷婷小说日韩,欧美,国产一区二区三区乱码一卡2卡4卡精品亚洲人成网站在线观看播放国产一区精品亚洲av日韩在线播放天天影视国产精品人人妻人人澡人人爽人人夜夜女人被躁到高潮嗷嗷叫费观国产精品久久久久久av不卡综合色丁香网香蕉精品网在线国产精品久久久久成人av 久久精品人人爽人人爽视色亚洲熟女精品中文字幕亚洲欧美日韩卡通动漫 av在线老鸭窝欧美性感艳星国产男女超爽视频在线观看日韩成人伦理影院狂野欧美激情性xxxx在线观看少妇被粗大猛烈的视频 av在线app专区男女边摸边吃奶国产免费福利视频在线观看色吧在线观看亚洲精品乱久久久久久国产精品国产三级国产av玫瑰久久这里只有精品19 色婷婷久久久亚洲欧美欧美精品人与动牲交sv欧美免费女性裸体啪啪无遮挡网站久久99精品国语久久久国产欧美日韩综合在线一区二区欧美精品人与动牲交sv欧美中文字幕人妻熟女乱码久久久a久久爽久久v久久亚洲内射少妇av 如何舔出高潮亚洲婷婷狠狠爱综合网日本黄色日本黄色录像天天影视国产精品人人妻人人澡人人看看非洲黑人一级黄片青青草视频在线视频观看 2022亚洲国产成人精品纯流量卡能插随身wifi吗美女主播在线视频日日爽夜夜爽网站精品99又大又爽又粗少妇毛片色哟哟·www 久久久久久人人人人人欧美3d第一页国产极品粉嫩免费观看在线午夜福利乱码中文字幕内地一区二区视频在线国产精品.久久久久久精品久久久久久久性伦理电影免费视频一本—道久久a久久精品蜜桃钙片 91精品国产国语对白视频国产片特级美女逼逼视频免费观看性生交大片5 日本wwww免费看日本欧美国产在线视频国产免费视频播放在线视频只有这里有精品99 菩萨蛮人人尽说江南好唐韦庄人妻一区二区av 欧美日韩综合久久久久久亚洲国产毛片av蜜桃av 最近2019中文字幕mv第一页岛国毛片在线播放色网站视频免费亚洲综合色惰国产亚洲一区二区精品国产亚洲精品久久久com 久久久久精品久久久久真实原创国产精品人妻久久久久久在线亚洲精品国产二区图片欧美一级片'在线观看视频伦理电影大哥的女人欧美xxⅹ黑人日韩成人av中文字幕在线观看国产在线免费精品久久99精品国语久久久在线观看免费日韩欧美大片久久久久久人妻不卡视频在线观看欧美日韩亚洲欧美在线中文字幕精品免费在线观看视频亚洲色图综合在线观看日韩一本色道免费dvd 国产在线视频一区二区国产午夜精品一二区理论片国产在视频线精品免费黄色在线免费观看精品久久久精品久久久国产成人a∨麻豆精品校园人妻丝袜中文字幕 xxx大片免费视频免费观看无遮挡的男女人人妻人人添人人爽欧美一区卜人妻亚洲视频岛国毛片在线播放

一个人看片免费亚洲精品乱码爱久久久久免费观看亚洲一区二区