羅 文,王厚峰
(北京大學(xué) 計(jì)算機(jī)學(xué)院,北京 100871)
自2017年Google提出Transformer以來,自然語言處理的研究已逐步統(tǒng)一到這種具有靈活堆疊擴(kuò)展能力的編解碼框架下。特別是,人們可以基于Transformer的編碼端和解碼端,通過無監(jiān)督的方式,使用大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練具有通用語言能力的基礎(chǔ)模型,如基于編碼端的BERT[1]、基于解碼端的GPT[2],以及融入編碼和解碼結(jié)構(gòu)的BART[3]、T5[4]等。當(dāng)這些預(yù)訓(xùn)練的基礎(chǔ)模型與下游任務(wù)適配后,不斷地刷新最優(yōu)結(jié)果。為了評(píng)估模型的能力,研究人員提出了許多針對(duì)這些模型在下游任務(wù)上性能表現(xiàn)的評(píng)測(cè)基準(zhǔn)。
預(yù)訓(xùn)練語言模型的規(guī)模越來越大,參數(shù)量從開始的億級(jí),發(fā)展到目前的千億級(jí)甚至萬億級(jí)。隨著規(guī)模的擴(kuò)大,模型在無須對(duì)具體任務(wù)適配的情況下,解決下游任務(wù)的能力也迅速提升。但與此同時(shí),模型自身的各項(xiàng)能力和屬性、應(yīng)用的局限性、潛在風(fēng)險(xiǎn)及其可控性等仍未得到全面評(píng)測(cè)和深入研究。由于大語言模型的迅速發(fā)展和巨大影響,以及通用性的日益增強(qiáng),傳統(tǒng)基于單一任務(wù)的單一評(píng)價(jià)方法已經(jīng)無法適應(yīng)新的評(píng)測(cè)需求。首先,缺乏廣度和深度。面對(duì)許多出色的大語言模型,僅在幾個(gè)已有的基準(zhǔn)數(shù)據(jù)集上往往難以區(qū)分它們的優(yōu)劣。其次,存在數(shù)據(jù)偏差的問題。許多用于評(píng)測(cè)的數(shù)據(jù)集都是從特定的領(lǐng)域或人群中收集,這可能導(dǎo)致模型在基準(zhǔn)數(shù)據(jù)上的表現(xiàn)難以準(zhǔn)確反映其在真實(shí)應(yīng)用場(chǎng)景中的性能。再者,忽視模型其他方面的能力或?qū)傩栽u(píng)估。先前的評(píng)測(cè)方法往往只關(guān)注模型的性能表現(xiàn),忽視了對(duì)模型其他方面的能力或?qū)傩栽u(píng)估。例如,對(duì)模型邏輯推理能力的評(píng)估、對(duì)模型魯棒性的評(píng)估和對(duì)模型生成有害內(nèi)容可能性的評(píng)估等。因此,在大語言模型不斷發(fā)展的同時(shí),模型評(píng)估方法也需要進(jìn)一步研究。
本文首先回顧了自然語言處理中有代表性的評(píng)測(cè)基準(zhǔn)與評(píng)估指標(biāo),針對(duì)大語言模型的評(píng)估對(duì)評(píng)測(cè)范式進(jìn)行了分類,將其分為經(jīng)典評(píng)測(cè)范式和新型評(píng)測(cè)范式,分析了現(xiàn)有評(píng)測(cè)的不足;再介紹了全面的大語言模型評(píng)測(cè)思想,以及相關(guān)的評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法;最后對(duì)目前廣受關(guān)注的大語言模型評(píng)測(cè)的一些新方向做了總結(jié)。需要說明的是,本文所指的大語言模型并沒有嚴(yán)格規(guī)定模型規(guī)模的大小,凡以預(yù)訓(xùn)練為基礎(chǔ)具有“通用”能力的語言模型都屬于本文所指的大模型。
自然語言處理的發(fā)展受益于自然語言處理評(píng)測(cè)。評(píng)測(cè)通常依賴于一系列的評(píng)測(cè)基準(zhǔn)(Benchmark),模型在這些基準(zhǔn)數(shù)據(jù)集上運(yùn)行并產(chǎn)生輸出結(jié)果,評(píng)測(cè)系統(tǒng)據(jù)此返回一個(gè)代表模型能力的值。最簡(jiǎn)單的評(píng)測(cè)基準(zhǔn)由單一任務(wù)上的單一數(shù)據(jù)集構(gòu)成,這也是常見的自然語言處理基本評(píng)測(cè)模式。為了全面評(píng)估大語言模型,可以將多個(gè)數(shù)據(jù)集聚合和重新組織,形成一個(gè)更通用的評(píng)測(cè)基準(zhǔn)。本章針對(duì)大語言模型的評(píng)估對(duì)評(píng)測(cè)范式進(jìn)行了分類,將其分為經(jīng)典評(píng)測(cè)范式和新型評(píng)測(cè)范式。表1列出了一些典型的評(píng)測(cè)基準(zhǔn)。下面將分別介紹經(jīng)典評(píng)測(cè)范式,以及面向多種能力的新型評(píng)測(cè)范式與現(xiàn)有評(píng)測(cè)的不足。
表1 一些典型的評(píng)測(cè)基準(zhǔn)
自然語言處理分為自然語言理解(Natural Language Understanding,NLU)和自然語言生成(Natural Language Generation, NLG)兩個(gè)大類。但在經(jīng)典評(píng)測(cè)范式下都主要關(guān)注模型最終輸出結(jié)果與參考答案的匹配程度。經(jīng)典評(píng)測(cè)的結(jié)構(gòu)如圖1所示。
圖1 經(jīng)典評(píng)測(cè)的結(jié)構(gòu)
1.1.1 自然語言理解能力評(píng)測(cè)
常見的自然語言理解任務(wù)有情感分析(Sentiment Analysis)、文本匹配(Text Matching)、文本分類 (Text Classification)和閱讀理解(Reading Comprehension)等。針對(duì)具體的任務(wù)已有大量的相關(guān)評(píng)測(cè)基準(zhǔn)。2018年,McCann等人[5]提出了 DecaNLP,試圖以統(tǒng)一的問答形式評(píng)測(cè) NLU 能力。 該基準(zhǔn)涉及 10 個(gè)任務(wù),與這些任務(wù)相關(guān)的數(shù)據(jù)集均以三元組形式表示,如(問題,上下文,答案)。在評(píng)測(cè)時(shí),給模型輸入(問題,上下文),模型輸出“答案”,然后再計(jì)算模型答案與參考答案的匹配程度。
紐約大學(xué)和華盛頓大學(xué)等機(jī)構(gòu)的研究人員提出了評(píng)測(cè)數(shù)據(jù)集GLUE[6],由9個(gè)自然語言理解任務(wù)組成,包括情感分析、文本蘊(yùn)含、句子相似性等。隨著模型的進(jìn)一步發(fā)展,GLUE進(jìn)一步升級(jí)為SuperGLUE[7]。SuperGLUE在 GLUE 的基礎(chǔ)上增加了五個(gè)難度更高的評(píng)測(cè)任務(wù)。
上述基準(zhǔn)僅限于英語。為了填補(bǔ)跨語言的模型評(píng)測(cè)空白,卡耐基梅隆大學(xué)和谷歌等單位的研究人員提出了XTREME[8]。 XTREME是一個(gè)大規(guī)模、多任務(wù)、多語言的模型評(píng)測(cè)基準(zhǔn),涉及 40 種不同的語言,共 9 個(gè)任務(wù)。幾乎與XTREME同時(shí)出現(xiàn)的XGLUE[9]也是一個(gè)跨語言的模型性能評(píng)測(cè)基準(zhǔn),由11個(gè)任務(wù)組成,涵蓋19種語言。
在中文信息處理方面,第一個(gè)大規(guī)模的中文理解評(píng)測(cè)基準(zhǔn)CLUE[10]于2020年提出,CLUE中的任務(wù)集涵蓋了文本分類、閱讀理解、自然語言推理等多個(gè)中文自然語言理解任務(wù)和一個(gè)診斷評(píng)估數(shù)據(jù)集,具體包含: 長(zhǎng)文本分類IFLYTEK[10]、語義相似度計(jì)算AFQMC[10]、中文命名實(shí)體識(shí)別CLUENER[11]、中文自然語言推理OCNLI[12]、成語完形填空ChID[10]、小樣本(few-shot)測(cè)評(píng)FewCLUE[13]和零樣本(zerow-shot)測(cè)評(píng)ZeroCLUE[13]等。CLUE提供了一種標(biāo)準(zhǔn)化的評(píng)估方式來測(cè)評(píng)模型的中文理解能力。
1.1.2 自然語言生成能力評(píng)測(cè)
自然語言生成的典型任務(wù)是機(jī)器翻譯(Machine Translation)、生成式文本摘要(Generative Text Summarization)、自動(dòng)對(duì)話(Dialogue)等。BLEU[14]是評(píng)測(cè)機(jī)器翻譯任務(wù)中譯文質(zhì)量的一個(gè)重要指標(biāo)。在機(jī)器翻譯的評(píng)測(cè)中,每段原文都有一組高質(zhì)量的參考譯文(Reference),模型生成的譯文被稱為Candidate。BLEU通過衡量模型生成譯文與參考譯文之間的N-gram匹配程度來計(jì)算得分。BLEU的評(píng)測(cè)得分是一個(gè)0~1之間的數(shù)值,表示生成譯文與參考譯文的相似程度。BLEU值越接近1,表示生成譯文與參考譯文之間的相似度越高,也意味著翻譯結(jié)果的質(zhì)量越好。此外,用于機(jī)器翻譯生成譯文的評(píng)估指標(biāo)還有METEOR[15]等。
ROUGE[16]是生成式文本摘要任務(wù)常見的評(píng)測(cè)指標(biāo),ROUGE和BLEU在計(jì)算上非常相似,區(qū)別在于BLEU更關(guān)注精確度,而ROUGE更關(guān)注召回率。ROUGE-N指的是用n-gram對(duì)參考摘要和模型生成摘要分別進(jìn)行拆分后得到的兩個(gè)集合之間的重合率,分母為參考摘要n-gram集合的長(zhǎng)度。
在國(guó)內(nèi),四川大學(xué)和微軟的研究人員于2020年提出了用于評(píng)測(cè)生成能力的GLGE[17]。該基準(zhǔn)涵蓋了生成式文本摘要、問題生成(Question Generation,QG)、生成式問答(Generative Question Answering,QA)和對(duì)話4個(gè)領(lǐng)域,并且根據(jù)難易程度分為三個(gè)級(jí)別: GLGE-easy、GLGE-medium 和 GLGE-difficult。
SemEval是一個(gè)語義處理國(guó)際評(píng)測(cè)研討會(huì),目標(biāo)是推進(jìn)語義分析技術(shù)進(jìn)步,并幫助創(chuàng)建高質(zhì)量的標(biāo)注數(shù)據(jù)集以應(yīng)對(duì)自然語言語義領(lǐng)域越來越具挑戰(zhàn)性的問題。每年的研討會(huì)都包括一系列的共享任務(wù),不同團(tuán)隊(duì)設(shè)計(jì)的計(jì)算語義分析系統(tǒng)在這些任務(wù)中進(jìn)行展示和比較。以SemEval-2022的任務(wù)9[18]為例,該任務(wù)要求模型從英語烹飪食譜和相關(guān)視頻中回答問題,以此評(píng)估模型在表達(dá)和推理時(shí)具有的語言能力和認(rèn)知能力。
GEM[19]是一個(gè)活躍的自然語言生成評(píng)測(cè)基準(zhǔn),側(cè)重于通過人類注釋和自動(dòng)化度量對(duì)模型的NLG能力進(jìn)行評(píng)估。GEM旨在衡量多語言下各種NLG任務(wù)的進(jìn)步,并以數(shù)據(jù)卡片和模型卡片的方式展示相關(guān)的數(shù)據(jù)集信息和模型評(píng)測(cè)結(jié)果。此外,它還致力于結(jié)合自動(dòng)化度量和人類度量方法制定生成文本評(píng)估標(biāo)準(zhǔn)。具體來說,GEM囊括了11個(gè)數(shù)據(jù)集(包括CommonGEN[20]、Czech Restaurant[21]、DART[22]、E2E clean[23-24]、WebNLG[25]、WikiLingua[26]等),涉及英語、西班牙語、土耳其語、俄語、越南語等18種語言。
1.1.3 同時(shí)考慮理解和生成的能力評(píng)測(cè)
隨著大語言模型的迅速發(fā)展及其在下游任務(wù)上的廣泛應(yīng)用,僅僅局限于評(píng)估模型某一種能力的評(píng)測(cè)基準(zhǔn)逐漸無法滿足評(píng)測(cè)需求。在這種背景下,許多新的更為全面的評(píng)測(cè)基準(zhǔn)不斷推出。這些評(píng)測(cè)基準(zhǔn)的一個(gè)重要特點(diǎn)就是它們通常會(huì)聚合多個(gè)數(shù)據(jù)集、多個(gè)任務(wù)以及多個(gè)評(píng)測(cè)指標(biāo)來對(duì)模型進(jìn)行更全面的能力評(píng)測(cè)。
為了更好地對(duì)通用語言能力進(jìn)行基準(zhǔn)測(cè)試,北京大學(xué)、清華大學(xué)以及北京智源人工智能研究院等研究機(jī)構(gòu)聯(lián)合提出了一個(gè)評(píng)估漢語理解和生成能力的評(píng)測(cè)基準(zhǔn)CUGE[27]。CUGE在語言能力-任務(wù)-數(shù)據(jù)集層次框架中選擇和組織數(shù)據(jù)集,涵蓋了7種重要的語言功能,包括: 字句級(jí)別的語言理解能力(Language Understanding: Word-sentence Level)、語篇級(jí)別的語言理解能力(Language Understanding: Discourse Level)、信息獲取和問答能力(Information Acquisition and Question Answering)、語言生成能力(Language Generation)、對(duì)話式交互能力(Conversational Interaction)、多語言能力(Multilingualism)和數(shù)學(xué)推理能力(Mathematical Reasoning);在這7種語言功能下進(jìn)一步細(xì)分到18個(gè)主流NLP任務(wù),包括: 命名實(shí)體識(shí)別(Named Entity Recognition)、實(shí)體關(guān)系抽取(Entity Relation Extraction)、語法糾錯(cuò)(Grammatical Error Correction)、閱讀理解(Reading Comprehension)、開放領(lǐng)域式問答(Open-domain Question Answering)和機(jī)器翻譯(Machine Translation)等;再根據(jù)相應(yīng)的NLP任務(wù)挑選出21個(gè)數(shù)據(jù)集,例如,在命名實(shí)體識(shí)別任務(wù)中使用了CMeEE數(shù)據(jù)集[28],在語法糾錯(cuò)任務(wù)中使用了YACLC數(shù)據(jù)集[29]。該框架是根據(jù)人類語言考試大綱和目前的自然語言處理研究現(xiàn)狀精心設(shè)計(jì)的。
在國(guó)外,為了解決大語言模型的量化評(píng)估及評(píng)估結(jié)果復(fù)現(xiàn)問題,EleutherAI提出了EleutherAI LM Harness[30],這是一個(gè)針對(duì)自回歸大語言模型(Autoregressive Large Language Models)的統(tǒng)一基準(zhǔn)測(cè)試框架。它涵蓋200多個(gè)數(shù)據(jù)集,支持包括但不限于GPT-3[31]、GPT-NeoX[32]和GPT-J[33]等自回歸大語言模型。同時(shí),為了保證評(píng)測(cè)結(jié)果可復(fù)現(xiàn),基于EleutherAI LM Harness的評(píng)測(cè)提供統(tǒng)一的評(píng)測(cè)接口和對(duì)應(yīng)評(píng)測(cè)任務(wù)的版本控制。
與經(jīng)典評(píng)測(cè)范式不同,新型評(píng)測(cè)范式不僅關(guān)注大型語言模型在理解和生成方面的能力,同時(shí)也關(guān)注模型本身所表現(xiàn)出的更多重要屬性。例如,模型生成的內(nèi)容是否符合社會(huì)道德準(zhǔn)則。新型評(píng)測(cè)范式使得研究者能夠從更多維度和更深層次去理解和評(píng)估自然語言處理模型的性能,從而推動(dòng)自然語言處理技術(shù)的進(jìn)一步發(fā)展和完善。
1.2.1 多種屬性的能力評(píng)測(cè)
為了追蹤大語言模型的規(guī)模對(duì)模型表現(xiàn)的影響,探究大語言模型本身是否存在基礎(chǔ)性能力和屬性上的缺陷,Google聚集442名研究人員耗時(shí)兩年,于2022年發(fā)布了評(píng)測(cè)基準(zhǔn)BIG-bench[34]。該基準(zhǔn)涵蓋200多個(gè)數(shù)據(jù)集,分為9個(gè)主要方向,分別為: 傳統(tǒng)自然語言處理任務(wù)(Traditional NLP Tasks,包括自然語言理解任務(wù)和自然語言生成任務(wù))、邏輯、數(shù)學(xué)和代碼(Logic,Math,Code)理解、對(duì)世界的理解(Understanding the World)、對(duì)人類的理解(Understanding Humans)、對(duì)科學(xué)技術(shù)的理解(Scientific and Technical Understanding)、與模型的交互機(jī)制(Mechanics of Interaction with Model)、針對(duì)通用語言模型的能力短板(Targeting Common Language Model Technical Limitations)、行為是否符合既定社會(huì)道德準(zhǔn)則(Pro-social Behavior)以及其他(Other)。對(duì)于尚未包括在評(píng)測(cè)基準(zhǔn)里的任務(wù)和數(shù)據(jù)集,BIG-bench支持研究者提交和更新,這使得評(píng)測(cè)基準(zhǔn)能夠隨著大語言模型的發(fā)展而同步發(fā)展,為更加全面地評(píng)測(cè)大語言模型提供了更多可能。
除了評(píng)估大語言模型核心的基礎(chǔ)能力外,還存在一些衡量這些模型與人類偏好的對(duì)齊程度的評(píng)測(cè)基準(zhǔn)。其中,MT-Bench[35]和Chatbot Arena[35]是兩個(gè)常用的評(píng)測(cè)基準(zhǔn)。MT-Bench是一個(gè)包含80個(gè)手工編寫的高質(zhì)量開放式多輪問題的評(píng)測(cè)基準(zhǔn),其目標(biāo)是評(píng)估大型語言模型在多輪對(duì)話和指令遵循方面的能力。該基準(zhǔn)涵蓋了8個(gè)常見的人機(jī)交互場(chǎng)景,包括: 寫作、角色扮演、信息提取、推理、數(shù)學(xué)、編程、自然科學(xué)知識(shí)和人文社會(huì)科學(xué)知識(shí)。針對(duì)每個(gè)場(chǎng)景,研究人員精心編寫了10個(gè)多輪問題,用以評(píng)估大語言模型在面對(duì)這些問題時(shí)與人類偏好的一致性。與MT-Bench不同,Chatbot Arena是一個(gè)眾包匿名基準(zhǔn)測(cè)試平臺(tái)。在該平臺(tái)上,用戶可以同時(shí)與兩個(gè)匿名的大語言模型進(jìn)行交互。用戶可以自由地向這兩個(gè)模型提出相同的問題,并根據(jù)個(gè)人偏好評(píng)價(jià)它們的回答。在Chatbot Arena開始運(yùn)作的一個(gè)月內(nèi),研究者們便收集到了約30 000條評(píng)測(cè)數(shù)據(jù),這種眾包方式為大量用戶動(dòng)態(tài)參與提供了可能,增強(qiáng)了評(píng)測(cè)結(jié)果的廣泛覆蓋性和多樣性。
在中文方面,2023年5月9日, SuperCLUE-Open評(píng)測(cè)基準(zhǔn)正式發(fā)布,這是一個(gè)評(píng)估大語言模型中文對(duì)話能力和遵循指令能力的評(píng)測(cè)基準(zhǔn),包含1 200道中文的高質(zhì)量多輪問題。該基準(zhǔn)不僅包括一些普通的常規(guī)使用場(chǎng)景,還設(shè)計(jì)了一些具有挑戰(zhàn)性的指令以增加不同模型的區(qū)分度。它考察了模型的十大能力,包括: 語義理解與抽取、閑聊、上下文對(duì)話、角色扮演、知識(shí)與百科、生成與創(chuàng)作、代碼、邏輯與推理、計(jì)算、代碼和安全。每個(gè)子能力有60個(gè)題目,每個(gè)題目包括兩輪問題,從中文語境下與人類偏好的對(duì)齊程度方面對(duì)大語言模型進(jìn)行了評(píng)估。
C-EVAL[36]是一個(gè)綜合的中文評(píng)測(cè)基準(zhǔn),旨在評(píng)估中文語境下大語言模型的知識(shí)運(yùn)用與推理能力,為研究者理解和評(píng)估中文語境下的大語言模型能力提供了重要的工具和資源。該評(píng)測(cè)基準(zhǔn)總共包含13 948個(gè)多項(xiàng)選擇題,涵蓋了中學(xué)、高中、大學(xué)和專家四個(gè)難度級(jí)別。這些題目來自52個(gè)不同的學(xué)科領(lǐng)域,包括人文科學(xué)(例如,中國(guó)語言文學(xué)、藝術(shù)學(xué)、歷史學(xué)等)、理工科(例如,高等數(shù)學(xué)、大學(xué)化學(xué)、計(jì)算機(jī)組成、注冊(cè)電氣工程師等)和社會(huì)科學(xué)(例如,政治學(xué)、教育學(xué)、工商管理學(xué)等)等。此外,研究者還基于C-EVAL構(gòu)建了一個(gè)難度更高的評(píng)測(cè)基準(zhǔn)子集C-EVAL HARD。C-EVAL HARD中的題目對(duì)知識(shí)運(yùn)用與推理能力的要求更高,例如,高等數(shù)學(xué)題、大學(xué)物理考試題等。值得指出的是,為了確保評(píng)測(cè)數(shù)據(jù)不被污染,C-EVAL的題目并非直接從官方的國(guó)家考試中選取,而是主要采集自模擬考試和小規(guī)模的地方考試。研究者可以通過C-EVAL評(píng)估中文語境下的大語言模型在各個(gè)學(xué)科領(lǐng)域和不同難度級(jí)別下的表現(xiàn)。
SAFETYPROMPTS[37]是一個(gè)中文大語言模型安全評(píng)測(cè)基準(zhǔn)。該基準(zhǔn)從8種典型的安全場(chǎng)景和6種對(duì)抗性的指令攻擊場(chǎng)景綜合探索了大語言模型應(yīng)用中的安全性問題。其中,安全場(chǎng)景分別為: 侮辱(Insult)、不公平和歧視(Unfairness and Discrimination)、犯罪和非法活動(dòng)(Crimes and Illegal Activities)、敏感話題(Sensitive Topics)、身體傷害(Physical Harm)、心理健康(Mental Health)、隱私和財(cái)產(chǎn)權(quán)(Privacy and Property)、倫理和道德(Ethics and Morality);指令攻擊場(chǎng)景分別為: 目標(biāo)劫持(Goal Hijacking)、提示泄漏(Prompt Leaking)、角色扮演(Role Play Instruction)、不安全的話題引導(dǎo)(Unsafe Instruction Topic)、不安全的觀點(diǎn)詢問(Inquiry with Unsafe Opinion)和逆向曝光(Reverse Exposure)。為了構(gòu)建SAFETYPROMPTS評(píng)測(cè)基準(zhǔn),研究者們首先根據(jù)這14個(gè)場(chǎng)景人工編寫了一個(gè)測(cè)試數(shù)據(jù)集,再利用ChatGPT對(duì)測(cè)試數(shù)據(jù)集進(jìn)行增廣,形成更多的基準(zhǔn)數(shù)據(jù),最終形成了10 000個(gè)評(píng)測(cè)數(shù)據(jù)。通過SAFETYPROMPTS評(píng)測(cè)基準(zhǔn),研究人員可以較為全面地了解大語言模型在典型安全場(chǎng)景和對(duì)抗性指令攻擊下的表現(xiàn),提升大語言模型的安全性能,減少大語言模型的潛在安全風(fēng)險(xiǎn)。
復(fù)旦大學(xué)的研究人員提出了一個(gè)名為L(zhǎng)LMEVAL(1)https://github.com/llmeval的中文評(píng)測(cè)系列,以回答關(guān)于大語言模型評(píng)估方面、評(píng)估方法和排序比較方法的問題。目前已經(jīng)公開的評(píng)測(cè)基準(zhǔn)包括LLMEVAL-1和LLMEVAL-2。LLMEVAL-1從認(rèn)知心理學(xué)的角度出發(fā),以人類信息處理、思考和問題解決能力為基準(zhǔn),從正確性、流暢性、信息量、邏輯性和無害性五個(gè)評(píng)估方面構(gòu)建了一個(gè)包含17個(gè)大類、453個(gè)問題的評(píng)測(cè)問題集,涵蓋了事實(shí)性問答、閱讀理解、框架生成、段落重寫、摘要、數(shù)學(xué)解題、推理、詩歌生成和編程等多個(gè)領(lǐng)域。LLMEVAL-2則以一般用戶的日常使用場(chǎng)景為背景,從12個(gè)學(xué)科(包括,生命科學(xué)、化學(xué)、漢語言文學(xué)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)等)出發(fā)構(gòu)建了一個(gè)包含480個(gè)問題的評(píng)測(cè)問題集,重點(diǎn)評(píng)估了大語言模型在各學(xué)科本科生和研究生希望在日常學(xué)習(xí)和生活中得到幫助的任務(wù)上的表現(xiàn)。
除了上述評(píng)測(cè)基準(zhǔn)以外,還存在許多其他用于評(píng)估大語言模型的多種能力屬性的評(píng)測(cè)基準(zhǔn)。例如,考察大語言模型的知識(shí)運(yùn)用能力的TriviaQA[38]和OpenBookQA[39]、考察大語言模型數(shù)學(xué)推理能力的GSM8k[40]、評(píng)估大語言模型檢測(cè)幻覺能力的HaluEval[41]等。
1.2.2 模型評(píng)測(cè)實(shí)例——GPT-4的評(píng)測(cè)
為了凸顯GPT-4的總體表現(xiàn),OpenAI在一系列評(píng)測(cè)基準(zhǔn)上對(duì)GPT-4進(jìn)行了評(píng)估[42]。這些評(píng)測(cè)基準(zhǔn)既包含最初為人類設(shè)計(jì)的模擬考試,也包含在傳統(tǒng)自然語言處理任務(wù)上用來評(píng)估語言模型的評(píng)測(cè)基準(zhǔn)。為人類設(shè)計(jì)的模擬考試包括: SAT Math、Leetcode等。其中,SAT Math的考察內(nèi)容是學(xué)生在大學(xué)和未來生涯期間可能會(huì)遇到的數(shù)學(xué)問題,主要包托: 代數(shù)核心(Heart of Algebra)、問題求解與數(shù)據(jù)分析(Problem Solving and Data Analysis)和高等數(shù)學(xué)基礎(chǔ)(Passport to Advanced Math);Leetcode則主要考察待測(cè)者的綜合代碼能力。上述模擬考試題由多項(xiàng)選擇題(Multiple Choice Question)和主觀題(Free-Response Question)兩種模式組成。傳統(tǒng)自然語言處理任務(wù)上的評(píng)測(cè)基準(zhǔn)包含MMLU[43]、HellaSwag[44]、HumanEval[45]、DROP[46]等。其中,MMLU是一個(gè)涵蓋STEM、人文科學(xué)、社會(huì)科學(xué)等57個(gè)學(xué)科領(lǐng)域(例如,數(shù)學(xué)、法律、倫理等)的評(píng)測(cè)基準(zhǔn),旨在考察大語言模型將知識(shí)運(yùn)用于問題解決的能力;HellaSwag關(guān)注模型在圍繞日常事件的常識(shí)性推理方面的能力,包含70k個(gè)問題;HumanEval主要考察大語言模型的代碼生成能力;DROP則是一個(gè)閱讀理解與數(shù)值推理基準(zhǔn)測(cè)試數(shù)據(jù)集,包含96k個(gè)問題,用于評(píng)測(cè)模型在離散推理任務(wù)上的表現(xiàn)。這些評(píng)測(cè)基準(zhǔn)不僅關(guān)注GPT-4作為一個(gè)大語言模型在傳統(tǒng)自然語言處理任務(wù)上的表現(xiàn),更關(guān)注GPT-4在更高層次問題求解上的能力(例如,推理、知識(shí)、語言與理解能力)。評(píng)測(cè)結(jié)果表明,在大多數(shù)專業(yè)類考試和學(xué)術(shù)類考試中GPT-4具有與人類相當(dāng)?shù)谋憩F(xiàn);而在多個(gè)傳統(tǒng)的自然語言處理評(píng)測(cè)基準(zhǔn)上GPT-4已經(jīng)達(dá)到了最先進(jìn)的效果。此外,GPT-4還在評(píng)測(cè)中展現(xiàn)出了其他方面的能力,例如,處理低資源語言(low-resource language)的能力[42]。研究人員通過Azure Translate將MMLU中的數(shù)據(jù)翻譯成其他多種語言,之后將各個(gè)語言版本的MMLU用于評(píng)測(cè)GPT-4,結(jié)果表明GPT-4具有較強(qiáng)的處理其他語言的能力,包括拉脫維亞語(Latvian)、威爾士語(Welsh)和斯瓦希里語(Swahili)等小語種。
以體現(xiàn)人類級(jí)別的認(rèn)知能力與強(qiáng)調(diào)和現(xiàn)實(shí)世界的緊密聯(lián)系為原則,微軟的研究人員提出了一個(gè)以人為中心的評(píng)測(cè)基準(zhǔn)AGIEval[47],并在其上評(píng)測(cè)了GPT-4和ChatGPT等大語言模型的表現(xiàn)。與傳統(tǒng)評(píng)測(cè)數(shù)據(jù)不同,AGIEval中的評(píng)測(cè)數(shù)據(jù)來自高標(biāo)準(zhǔn)化、官方的人類考試題,其中包括: 研究生入學(xué)考試(Graduate Record Examinations,GRE)、學(xué)術(shù)評(píng)估測(cè)試(Scholastic Assessment Test,SAT)、中國(guó)高考(China College Entrance Exam,Gaokao)、法學(xué)院入學(xué)考試(Law School Admission Test,LSAT)、美國(guó)數(shù)學(xué)競(jìng)賽 (American Mathematics Competitions,AMC)、中國(guó)公務(wù)員考試 (Chinese Civil ServiceExamination)等。與文獻(xiàn)[35]不同,為了更加標(biāo)準(zhǔn)和自動(dòng)地評(píng)測(cè)大語言模型,AGIEval在題型上刪除了所有的主觀題,只保留了客觀題(包括多項(xiàng)選擇和填空)。在AGIEval評(píng)測(cè)中共有四種設(shè)置,即,零樣本學(xué)習(xí)(Zero-shot learning)、小樣本學(xué)習(xí)(Few-shot learning)、零樣本思維鏈(Zero-shot chain-of-thought prompting)和小樣本思維鏈(Few-shot chain-of-thought prompting)。評(píng)測(cè)結(jié)果表明: ①GPT-4在LSAT、SAT和數(shù)學(xué)競(jìng)賽中超越了人類的平均表現(xiàn),在SAT數(shù)學(xué)考試中達(dá)到了95%的準(zhǔn)確率,展示了出色性能。②當(dāng)前的大語言模型(如GPT-4)在面對(duì)需要復(fù)雜推理(如LSAT分析推理和物理學(xué))或特定領(lǐng)域知識(shí)(如法律和化學(xué))的任務(wù)時(shí)仍然表現(xiàn)不佳。③與先前GPT-3系列模型的小樣本表現(xiàn)顯著優(yōu)于零樣本表現(xiàn)不同,GPT-4等當(dāng)前的大語言模型的零樣本學(xué)習(xí)能力開始逐漸接近它們的小樣本學(xué)習(xí)能力。
隨著不同通用大語言模型的推出,現(xiàn)有評(píng)測(cè)及基準(zhǔn)的不足開始顯現(xiàn)。這使得在應(yīng)用上如何選擇模型以及在開發(fā)上如何改進(jìn)模型都面臨極大的挑戰(zhàn)。下面簡(jiǎn)要分析現(xiàn)有評(píng)測(cè)的不足。
1.3.1 新生任務(wù)缺乏相應(yīng)的評(píng)測(cè)基準(zhǔn)
隨著通用大語言模型的迅速發(fā)展,需要在更多的應(yīng)用場(chǎng)景和任務(wù)上評(píng)測(cè)模型的效果。但是,一些新生任務(wù)缺乏相應(yīng)的評(píng)測(cè)基準(zhǔn)。這樣,研究者難以了解大語言模型在這些任務(wù)上的表現(xiàn)能力,從而制約在該領(lǐng)域的進(jìn)一步發(fā)展。利用評(píng)測(cè)基準(zhǔn)進(jìn)行評(píng)估是衡量模型性能和比較不同模型的重要途徑。缺乏評(píng)測(cè)基準(zhǔn)會(huì)導(dǎo)致研究人員無法準(zhǔn)確評(píng)估模型的性能,也難以使許多新生的算法和模型被有效地評(píng)估和比較。此外,缺乏評(píng)測(cè)基準(zhǔn)還會(huì)影響研究人員對(duì)新生任務(wù)的理解和定義。因此,建立相應(yīng)的評(píng)測(cè)基準(zhǔn)對(duì)于模型在新生任務(wù)上的應(yīng)用研究至關(guān)重要,這也有助于研究者更好地理解大語言模型在新生任務(wù)中的應(yīng)用潛力。
1.3.2 評(píng)測(cè)任務(wù)缺乏區(qū)分度
隨著大語言模型的發(fā)展和規(guī)模的不斷擴(kuò)大,其能力也越來越強(qiáng),以至于它在一些評(píng)測(cè)任務(wù)上的表現(xiàn)已經(jīng)與人類相當(dāng)[42],甚至評(píng)測(cè)結(jié)果可以超越人類。在這種情況下,許多原來以較小規(guī)模模型為評(píng)測(cè)目標(biāo)的評(píng)估任務(wù)已經(jīng)逐漸失去了挑戰(zhàn)性和區(qū)分度,難以為研究者提供有價(jià)值的信息。缺乏區(qū)分度這一問題不僅是評(píng)測(cè)基準(zhǔn)本身的問題,也反映出了大語言模型發(fā)展的一個(gè)重要趨勢(shì),即現(xiàn)有的大語言模型的發(fā)展已經(jīng)開始超出原有的評(píng)估任務(wù)的評(píng)測(cè)范圍。因此,需要更加注重評(píng)測(cè)任務(wù)的區(qū)分度和難度,以確保評(píng)測(cè)結(jié)果具有實(shí)際可參考的意義。
1.3.3 評(píng)估方式不公平
在大語言模型的評(píng)估中,評(píng)估方式的公平性至關(guān)重要。然而,目前常用的評(píng)估指標(biāo)和數(shù)據(jù)集選擇存在許多不公平的問題,使得評(píng)估結(jié)果的準(zhǔn)確性和客觀性受質(zhì)疑。例如,當(dāng)前同一任務(wù)下的評(píng)測(cè)數(shù)據(jù)集通常有很多,很有可能會(huì)產(chǎn)生模型A在某個(gè)評(píng)測(cè)數(shù)據(jù)集上優(yōu)于模型B,但是在另一個(gè)評(píng)測(cè)數(shù)據(jù)集上又劣于模型B的矛盾情況。這種情況下,研究者可能只選取有利于自己的結(jié)果公布[48]。此外,人為因素也可能導(dǎo)致評(píng)估結(jié)果的不公平。例如,在人工評(píng)測(cè)中,評(píng)測(cè)人員的背景、觀點(diǎn)和經(jīng)驗(yàn)可能影響他們對(duì)模型的判斷,從而在評(píng)測(cè)結(jié)果中引入人為的偏差;同時(shí),在不同的人工評(píng)測(cè)過程中,評(píng)估標(biāo)準(zhǔn)化程度也可能存在差異,從而進(jìn)一步削弱了不同模型間的可比性和公平性。
1.3.4 評(píng)估不全面
目前,對(duì)模型單項(xiàng)能力的評(píng)測(cè)往往被簡(jiǎn)化成針對(duì)單個(gè)任務(wù)上的單數(shù)據(jù)集單指標(biāo)的評(píng)測(cè),無法準(zhǔn)確可靠地反映模型在待評(píng)測(cè)能力方面的強(qiáng)弱[48]。例如,針對(duì)自然語言生成能力的評(píng)測(cè),需要考察生成文本的連貫性、多樣性、幻覺程度和有趣程度等多個(gè)方面,但不同方面往往適用不同的評(píng)測(cè)指標(biāo)。而且,不同的任務(wù)和數(shù)據(jù)集會(huì)涉及不同的語言現(xiàn)象和應(yīng)用場(chǎng)景,這是單個(gè)任務(wù)上的單數(shù)據(jù)集單指標(biāo)評(píng)測(cè)有失考量的內(nèi)容。此外,對(duì)模型綜合能力的評(píng)測(cè)大多是單個(gè)評(píng)測(cè)基準(zhǔn)的簡(jiǎn)單聚合,缺乏系統(tǒng)性的交互,也無法全面評(píng)估模型的綜合能力和多種屬性。
1.3.5 評(píng)測(cè)基準(zhǔn)的污染問題
所謂評(píng)測(cè)基準(zhǔn)的污染問題,是指用于評(píng)測(cè)的數(shù)據(jù)出現(xiàn)在了模型的訓(xùn)練數(shù)據(jù)中。為了確保大語言模型評(píng)估的公正性和可信度,以及評(píng)測(cè)基準(zhǔn)能夠展現(xiàn)的具有一般性的評(píng)測(cè)結(jié)果,評(píng)測(cè)基準(zhǔn)中的測(cè)試數(shù)據(jù)不應(yīng)當(dāng)被包含在大語言模型的訓(xùn)練數(shù)據(jù)中。由于目前的大語言模型是在多個(gè)來源的龐大數(shù)據(jù)集上訓(xùn)練的,研究者很難確定當(dāng)前使用的評(píng)測(cè)基準(zhǔn)是否泄漏到了模型的訓(xùn)練數(shù)據(jù)中。這種污染會(huì)對(duì)評(píng)測(cè)基準(zhǔn)的公正性和可信度產(chǎn)生一定程度的影響。因此,評(píng)測(cè)基準(zhǔn)的構(gòu)建者需要謹(jǐn)慎考慮以確保評(píng)測(cè)基準(zhǔn)的獨(dú)立性和代表性;評(píng)測(cè)基準(zhǔn)的使用者也需要注意這一問題。當(dāng)然,未來大語言模型的研發(fā)者應(yīng)盡可能明確模型在訓(xùn)練時(shí)可能存在的污染問題以及污染程度[42]。
1.3.6 評(píng)估結(jié)果缺乏可解釋性
在大語言模型評(píng)測(cè)中,評(píng)測(cè)結(jié)果的可解釋性常常被忽視。現(xiàn)有評(píng)測(cè)基準(zhǔn)通常依賴某個(gè)數(shù)字指標(biāo)來概括模型的表現(xiàn),缺乏對(duì)評(píng)估過程的解釋和分析。這種評(píng)估方式雖然可以快速了解不同模型的表現(xiàn),卻難以解釋模型表現(xiàn)好壞的原因,也就難以對(duì)模型進(jìn)行有效診斷,進(jìn)而難以有針對(duì)性地對(duì)現(xiàn)有模型進(jìn)行改進(jìn)和優(yōu)化。可解釋性的缺失主要表現(xiàn)在以下兩個(gè)方面。第一,評(píng)估結(jié)果的數(shù)字化方式使得研究人員難以全面了解模型在評(píng)測(cè)任務(wù)中的行為,也就無法直接對(duì)模型的優(yōu)劣進(jìn)行深入的分析與解釋。第二,現(xiàn)有的評(píng)測(cè)基準(zhǔn)往往是針對(duì)特定的應(yīng)用場(chǎng)景和任務(wù)設(shè)計(jì)的,限制了評(píng)測(cè)結(jié)果的可遷移性和可解釋性,難以被推廣到其他應(yīng)用場(chǎng)景和任務(wù)中。
隨著大語言模型的影響越來越廣泛,如何更好地評(píng)測(cè)模型已經(jīng)成為研究界關(guān)注的熱點(diǎn)問題。一項(xiàng)代表性的工作就是Liang等人[49]提出的語言模型的全面評(píng)估(Holistic Evaluation of Language Models,HELM)方法。
HELM的出發(fā)點(diǎn)是在多個(gè)場(chǎng)景、任務(wù)和評(píng)估指標(biāo)下評(píng)估大語言模型的能力。HELM首先對(duì)自然語言處理涉及的眾多場(chǎng)景和任務(wù)進(jìn)行了分類和篩選,并以應(yīng)用性的任務(wù)作為評(píng)測(cè)重點(diǎn),基于可行性和全面性從當(dāng)前主要的評(píng)測(cè)數(shù)據(jù)中選擇了一部分用于大語言模型的評(píng)測(cè)。其次,明確了大語言模型評(píng)估里需要考慮的7個(gè)評(píng)測(cè)指標(biāo)(如準(zhǔn)確率),同時(shí)又設(shè)計(jì)了7個(gè)更具針對(duì)性的評(píng)估維度(如語言能力、推理能力等)。最后,HELM對(duì)30個(gè)大語言模型(包括BLOOM[50]、GPT-3、GPT-NeoX、GPT-J、GLM[51]等)在42個(gè)場(chǎng)景和上述評(píng)測(cè)指標(biāo)下進(jìn)行了評(píng)測(cè),并公開了評(píng)測(cè)結(jié)果。HELM也指出了其評(píng)測(cè)中存在的遺漏和不足,例如部分場(chǎng)景和任務(wù)的缺失、部分評(píng)估方法的不足、部分模型和適配策略的遺漏等。
由于不少大模型不再開源(如ChatGPT),全面評(píng)測(cè)大模型存在一定困難。HELM為了模擬現(xiàn)實(shí)中人們通過API訪問大語言模型的情形[14],在評(píng)估中將大語言模型視為黑盒,這也是上述提及此次評(píng)估中的遺漏和不足之一。
下面結(jié)合HELM用到的評(píng)測(cè)屬性對(duì)其分別進(jìn)行介紹,包括: 準(zhǔn)確率(Accuracy)、校準(zhǔn)度(Calibration)、泛化(Generalization)能力、適配(Adaptation)能力、魯棒性(Robustness)、效率(Efficiency)、偏見和刻板印象(Bias and Stereotypes)、公平性(Fairness)和有害性(toxicity)。
準(zhǔn)確率是指模型預(yù)測(cè)或生成結(jié)果的正確比例。一個(gè)準(zhǔn)確率高的大語言模型能夠更好地處理自然語言的相關(guān)任務(wù),并提供更準(zhǔn)確的預(yù)測(cè)和生成結(jié)果。大語言模型的準(zhǔn)確率對(duì)于其在具體任務(wù)中的應(yīng)用至關(guān)重要。
準(zhǔn)確率的評(píng)估方法因場(chǎng)景和任務(wù)而異。常見的指標(biāo)有: 判別類問題的評(píng)測(cè)指標(biāo),如F1(包括 MicroF1和 MacroF1)值和Accuracy值;生成類問題的評(píng)測(cè)指標(biāo) BLEU(主要用于機(jī)器翻譯結(jié)果評(píng)測(cè))和ROUGE(主要用于文本摘要結(jié)果評(píng)測(cè));判別類問題和生成類問題都用到的精確匹配(Exact Match,EM);檢索類問題常用的Reciprocal Rank[52]和Normalized Discounted Cumulative Gain[53]等。
準(zhǔn)確率指標(biāo)在自然語言處理的評(píng)測(cè)中廣為使用,在很長(zhǎng)一段時(shí)間里幾乎成為模型評(píng)測(cè)的唯一指標(biāo)。在今后仍將是重要的指標(biāo)。
準(zhǔn)確率衡量的是模型輸出結(jié)果的正確性,而校準(zhǔn)度[54-56]則是衡量模型對(duì)輸出結(jié)果賦予的概率的準(zhǔn)確性,也就是模型在預(yù)測(cè)時(shí)給出的置信度(confidence)對(duì)真實(shí)概率分布進(jìn)行估計(jì)的準(zhǔn)確性。
大語言模型的校準(zhǔn)度評(píng)估是十分有意義的。首先,有助于提高模型的可靠性。在一定程度上,校準(zhǔn)度越高,模型的預(yù)測(cè)結(jié)果就越可靠。如果一個(gè)大語言模型的校準(zhǔn)度低,它的預(yù)測(cè)結(jié)果就更有可能會(huì)導(dǎo)致誤解和錯(cuò)誤的決策。其次,有助于改善置信度估計(jì)。在實(shí)際的應(yīng)用場(chǎng)景里,大語言模型的使用通常會(huì)伴隨著對(duì)預(yù)測(cè)結(jié)果的置信度估計(jì)。如果模型的校準(zhǔn)度很高,置信度估計(jì)一般也會(huì)更加準(zhǔn)確。這樣,校準(zhǔn)度可以更好地幫助使用者理解模型的預(yù)測(cè)結(jié)果并在必要的時(shí)候(例如當(dāng)模型對(duì)預(yù)測(cè)結(jié)果的置信度很低時(shí))進(jìn)行人工介入。
下面介紹一種常見的校準(zhǔn)度評(píng)估方法,即期望校準(zhǔn)誤差(Expected Calibration Error,ECE)[57-58]。ECE表示模型認(rèn)為輸出正確的概率與模型輸出實(shí)際上正確的概率之差的絕對(duì)值期望。這里介紹一種有限數(shù)據(jù)情況下的ECE計(jì)算方法。
(1)
(2)
(3)
其中,n表示樣例的總數(shù)目。
模型泛化能力的評(píng)估重點(diǎn)集中于模型在與訓(xùn)練集數(shù)據(jù)分布不同的域外數(shù)據(jù)集上的表現(xiàn)。一般來說,泛化能力的評(píng)估是在小樣本(few-shot)或零樣本(zero-shot)設(shè)置下進(jìn)行的[31]。
小樣本是指模型在預(yù)測(cè)時(shí),僅給模型少量的樣例作為模型推理的參考。在這個(gè)過程中,模型的參數(shù)通常不作更新。典型的小樣本法是給出k個(gè)由問題、文本和對(duì)應(yīng)的答案作為相關(guān)任務(wù)的實(shí)例,然后再給出一個(gè)真正需要解答的問題和文本,希望模型參照所給的樣例輸出合理的答案。當(dāng)前廣受關(guān)注的上下文學(xué)習(xí)(In-Context Learning)就屬于這種情況。
零樣本與小樣本類似,不同在于零樣本不提供參考樣例,只給模型提供需要解答的問題和對(duì)應(yīng)的文本,由模型直接推理出答案。這種方法在應(yīng)用場(chǎng)景下變得更加簡(jiǎn)單,但同時(shí)也存在一些問題,比如,有時(shí)零樣本設(shè)置可能會(huì)導(dǎo)致不清晰的任務(wù)定義,從而影響模型的表現(xiàn)[31]。
由于小樣本和零樣本通常在下游任務(wù)上不對(duì)模型參數(shù)進(jìn)行更新,所以這種評(píng)估方式能夠較好地體現(xiàn)模型的泛化能力。泛化能力也在一定程度上預(yù)示著模型應(yīng)用于下游任務(wù)時(shí)的效果。因此,泛化能力的評(píng)估是評(píng)估大語言模型能否廣泛應(yīng)用于諸多實(shí)際下游應(yīng)用場(chǎng)景的關(guān)鍵之一,也將成為未來大型模型評(píng)估的一個(gè)重要組成部分。
目前的大模型普遍強(qiáng)調(diào)通用性。雖然通過小樣本或零樣本可以增強(qiáng)通用模型在具體任務(wù)上的能力,但比起在特定任務(wù)上經(jīng)過訓(xùn)練的模型,在該任務(wù)上不一定具有優(yōu)勢(shì)。因此,需要考慮大模型在下游具體任務(wù)上的適配(adaptation)問題。適配是指將原始模型轉(zhuǎn)換成一個(gè)適用于下游具體任務(wù)的過程;模型的適配能力則是指面對(duì)不同的適配策略,模型在具體任務(wù)上的性能優(yōu)劣。適配策略分為三種類型: 不更新原模型參數(shù)的適配[59]、增加適配層并調(diào)整適配層參數(shù)的適配[60],以及對(duì)原模型做全參數(shù)更新的適配。
在不更新模型參數(shù)的適配中,最典型的方法就是通過設(shè)計(jì)提示(Prompt)和上下文例子(In-Context example)使模型在下游任務(wù)上獲得更好的效果。提示的作用是提醒模型補(bǔ)充“答案”,這種方式類似于預(yù)訓(xùn)練模型時(shí)對(duì)掩碼(Mask)部分的預(yù)測(cè)或后續(xù)內(nèi)容的生成。以這種方式進(jìn)行推理與模型預(yù)訓(xùn)練的方式一致,減少了推理和訓(xùn)練時(shí)形式上的鴻溝(Gap)。但如何選擇合適的提示形式非常重要。大量的研究表明,提示形式的輕微變化會(huì)導(dǎo)致模型輸出結(jié)果的明顯不同。
增加適配層并調(diào)整適配層參數(shù)的適配是一類高效率、低損耗的適配方法。這類方法的目標(biāo)是在保證模型性能的情況下,盡量減少優(yōu)化迭代的次數(shù),甚至不更新原模型的參數(shù)。例如,Houlsby等人[61]在原有的模型架構(gòu)上添加只含有少量參數(shù)的適配層,即在適配下游任務(wù)時(shí),固定原模型本身的參數(shù),而只基于梯度更新適配層的參數(shù),從而縮小更新參數(shù)的規(guī)模,這也使得原始模型的參數(shù)在不同任務(wù)中可以共享而不發(fā)生變化。
一種極端的適配方式是更新模型的全部參數(shù)。具體而言,就是利用下游任務(wù)中的數(shù)據(jù)對(duì)模型進(jìn)行再訓(xùn)練,從而迭代更新整個(gè)模型的參數(shù)。這種調(diào)優(yōu)方法在之前的模型(如BERT)規(guī)模不足夠大時(shí)經(jīng)常使用。但隨著模型規(guī)模越來越大,重新迭代更新模型所有參數(shù)的成本也越來越高,這種方法的實(shí)用性也逐漸降低。
需要說明的是,模型對(duì)不同適配策略的適配程度與模型的結(jié)構(gòu)設(shè)計(jì)、預(yù)訓(xùn)練方式等因素有關(guān)。同一個(gè)模型在不同的適配策略下的表現(xiàn)也可能十分不同。從這個(gè)角度看,評(píng)估模型的適配能力的主要任務(wù)之一是在特定類別的任務(wù)下研究最適合該模型的適配策略,并探索模型在不同適配策略下產(chǎn)生性能差異的原因。
雖然大語言模型在很多任務(wù)上的性能越來越出色,甚至在一些數(shù)據(jù)集上超越了人類的表現(xiàn),但如果數(shù)據(jù)受到輕微的擾動(dòng),仍有可能會(huì)導(dǎo)致模型性能的大幅下降。特別是,當(dāng)現(xiàn)實(shí)世界比較復(fù)雜時(shí),模型的表現(xiàn)可能并不突出[62-65],這便是模型的魯棒性不強(qiáng)。魯棒性用于衡量模型對(duì)于輸入數(shù)據(jù)中的擾動(dòng)或者噪聲的抵抗能力。目前,模型魯棒性的評(píng)估方法之一是對(duì)文本輸入進(jìn)行擾動(dòng),然后觀察模型輸出的變化。這些擾動(dòng)大致可以分為兩類: 對(duì)抗擾動(dòng)(Adversarial Perturbations)[66-69]和非對(duì)抗擾動(dòng)(Non-adversarial Perturbations)[70]。
對(duì)抗擾動(dòng)是指為了誤導(dǎo)模型做出錯(cuò)誤的預(yù)測(cè)而故意對(duì)輸入內(nèi)容進(jìn)行修改。盡管這些擾動(dòng)不會(huì)引起人的判斷變化,但它們對(duì)模型的預(yù)測(cè)結(jié)果會(huì)產(chǎn)生明顯影響。相比之下,非對(duì)抗擾動(dòng)則是對(duì)輸入內(nèi)容更自然和隨機(jī)的改動(dòng)。這類擾動(dòng)并不是刻意用來使模型出錯(cuò)的,而是用于模擬現(xiàn)實(shí)世界中輸入的復(fù)雜情況。
對(duì)抗擾動(dòng)可以用來評(píng)估模型對(duì)惡意輸入的處理能力,而非對(duì)抗擾動(dòng),可用于衡量模型在現(xiàn)實(shí)世界中面對(duì)有自然誤差的輸入時(shí)的表現(xiàn)。在評(píng)估大語言模型時(shí),需要綜合考慮這兩種擾動(dòng)類型的影響,以更全面地評(píng)估模型的魯棒性。
對(duì)于大語言模型而言,效率是一個(gè)重要的維度。效率可以分為訓(xùn)練效率和推理效率兩個(gè)方面。訓(xùn)練效率指模型在訓(xùn)練時(shí)的復(fù)雜程度,而推理效率則是指模型在不更新參數(shù)的情況下的推理復(fù)雜度。
針對(duì)模型效率的評(píng)估指標(biāo)有多種,如訓(xùn)練時(shí)的能量消耗和二氧化碳排放量[71-72]、參數(shù)個(gè)數(shù)[73-74]、FLOPS(運(yùn)行給定實(shí)例模型所需的操作數(shù))[74-77]、實(shí)際推理時(shí)間[78-79]、執(zhí)行層數(shù)(模型實(shí)際推理時(shí)輸入經(jīng)過的總層數(shù))[80-81]等。對(duì)這些指標(biāo)的評(píng)估可以幫助研究人員選擇最合適的模型來滿足具體的應(yīng)用需求。
大語言模型通常會(huì)應(yīng)用于多種不同的下游任務(wù),而其中潛在的偏見和刻板印象可能會(huì)使它在下游任務(wù)中表現(xiàn)出歧視行為[72],從而限制其在一些領(lǐng)域的應(yīng)用。
與代表型損害(Representational Harm)[82]對(duì)應(yīng),本文中的大語言模型偏見和刻板印象指的是針對(duì)某個(gè)群體和某類屬性標(biāo)簽產(chǎn)生的過于籠統(tǒng)且不合事實(shí)的概括性觀點(diǎn)[83-84],例如,認(rèn)為男性天生更擅長(zhǎng)數(shù)學(xué)。目前,評(píng)估模型中的偏見和刻板印象的方法主要分為兩類: 基于表示端的評(píng)估方法和基于生成端的評(píng)估方法。
基于表示端的評(píng)估方法主要利用詞向量在語義向量空間中的幾何關(guān)系表征詞匯間的關(guān)聯(lián)程度,從而反映語言模型中的偏見和刻板印象[82,85-89]。其中,上下文嵌入關(guān)聯(lián)測(cè)試(Contextualized Embedding Association Test,CEAT)[89]通過待測(cè)群體詞向量與兩組屬性標(biāo)簽詞向量間的相似度差距來表征待測(cè)群體偏向某類屬性標(biāo)簽的程度,即刻板印象的程度。以種族偏見為例,兩組屬性標(biāo)簽分別為“友好、勤勞、有才華”和“冷漠、懶惰、無能”。CEAT首先計(jì)算待測(cè)群體詞向量與兩類屬性標(biāo)簽詞向量的余弦相似度,然后計(jì)算這兩組相似度的差值,之后再通過統(tǒng)計(jì)方法計(jì)算效應(yīng)量(Effect Size)來量化上述差值。效應(yīng)量的符號(hào)代表了偏見的方向(正向偏見或負(fù)向偏見),而效應(yīng)量的絕對(duì)值表示偏見程度的大小。然而,由于基于詞向量,這類評(píng)估方法通常并不能很好地適用于閉源大語言模型。
基于生成端的評(píng)估方法側(cè)重于利用模型的生成來衡量其偏見程度[49,84,90-95]。常見做法包括: ①利用模型生成內(nèi)容的統(tǒng)計(jì)信息。例如,計(jì)算生成內(nèi)容中不同群體和屬性標(biāo)簽的共現(xiàn)頻率來反映不同群體與該屬性標(biāo)簽的關(guān)聯(lián)程度[49,96]。②利用模型生成過程中給出的概率分?jǐn)?shù)進(jìn)行估計(jì)[84,91,98]。例如,自診斷方法(self-diagnosis)[91]通過設(shè)計(jì)模板來詢問模型生成內(nèi)容中是否包含偏見成分,并利用模型輸出補(bǔ)全時(shí)的概率分?jǐn)?shù)估計(jì)偏見程度。
上述評(píng)測(cè)方法通常需要依賴人工篩選的詞表集合來代表某個(gè)待測(cè)群體或某類屬性標(biāo)簽。但是研究表明,這些由人工篩選的詞表本身可能會(huì)引入篩選者的固有偏見[98];此外,詞表中的詞匯組成也會(huì)對(duì)評(píng)測(cè)結(jié)果產(chǎn)生較大的影響[99]。目前,NLP社區(qū)對(duì)于偏見的評(píng)估仍然存在一些問題,例如偏見的界定標(biāo)準(zhǔn)模糊不清[100-101],某些評(píng)估方式與模型在下游應(yīng)用上表現(xiàn)的相關(guān)性并不明確[90,102-104],除性別、種族外對(duì)其他形式的偏見(如宗教、國(guó)家等)研究較少,非英語語境下的偏見評(píng)估尚缺乏相關(guān)研究等。未來,大語言模型研發(fā)者需明確模型的預(yù)期使用場(chǎng)景,最小化模型在不適合的場(chǎng)景中的應(yīng)用,并提高模型透明度[105]以減輕偏見在大語言模型實(shí)際使用時(shí)可能造成的社會(huì)危害。
隨著大語言模型在下游任務(wù)中的準(zhǔn)確率不斷提高,模型的公平性問題也逐漸受到關(guān)注。與分配型損害(allocational harm)[82]對(duì)應(yīng),公平性更多關(guān)注模型在特定下游任務(wù)中針對(duì)不同特征群體的性能差距[82,102,106-108]。相對(duì)而言,偏見和刻板印象是指大語言模型內(nèi)部的某種固有屬性(intrinsic biases[72],內(nèi)在偏見);而公平性則關(guān)注實(shí)際任務(wù)中模型在特征群體間的表現(xiàn)差距(extrinsic harms[72],外在傷害,通常反映為不同群體間準(zhǔn)確率的差距)。例如,機(jī)器翻譯中某些語言的翻譯質(zhì)量明顯低于其他語言;語音識(shí)別系統(tǒng)在識(shí)別非洲裔美國(guó)方言時(shí)可能會(huì)有更低的準(zhǔn)確率[108]。目前,模型公平性評(píng)估可以分為三類: 預(yù)測(cè)公平性(Predictive Parity)[109]、機(jī)會(huì)平等性(Equality of Opportunity)[110]和反事實(shí)公平性(Counterfactual Fairness)[111]。
(4)
而Lum等人[113]則計(jì)算樣本方差來估計(jì)模型的公平性,如式(5)所示。
(5)
上述評(píng)估方法通常依賴數(shù)據(jù)集對(duì)子群體信息的預(yù)先標(biāo)注,因此在無預(yù)先標(biāo)注的數(shù)據(jù)集上通常難以發(fā)揮很大的作用[49]。
反事實(shí)公平性評(píng)估通過對(duì)測(cè)試樣例進(jìn)行擾動(dòng)生成反事實(shí)數(shù)據(jù)[114],然后評(píng)估模型基于反事實(shí)數(shù)據(jù)的性能[115-116]。與魯棒性評(píng)估類似,其難度主要在于選擇擾動(dòng)時(shí)機(jī)和擾動(dòng)位置[49,117-118]。
隨著大語言模型的不斷發(fā)展,其能力范圍和應(yīng)用形式可能從單語言、單模態(tài)逐漸轉(zhuǎn)向多語言、多模態(tài)。因此,現(xiàn)有的基于單語言(主要為英語)、單模態(tài)、數(shù)據(jù)標(biāo)注依賴的公平性評(píng)測(cè)范式需要進(jìn)一步迭代,以適應(yīng)未來更廣泛的群體特征及更復(fù)雜交融的語言背景[107]。
大語言模型的有害性是指模型產(chǎn)生有害言論的能力。當(dāng)大語言模型部署于社交媒體或互聯(lián)網(wǎng)時(shí),這種模型產(chǎn)生的有害言論很容易造成不良的社會(huì)影響。目前,對(duì)大語言模型的有害性評(píng)估方法之一是使用有害性檢測(cè)系統(tǒng)檢測(cè)文本中可能含有的有害成分(包括大語言模型生成內(nèi)容中的有害成分)。具有代表性的系統(tǒng)包括HateBERT[119]和Perspective API[120]等。
當(dāng)前,有害言論的定義并沒有統(tǒng)一標(biāo)準(zhǔn),不同群體可能會(huì)有不同的理解。因此,開發(fā)有害性檢測(cè)系統(tǒng)時(shí),研發(fā)者需要謹(jǐn)慎地考慮多方面的問題,包括系統(tǒng)設(shè)計(jì)的合理性、數(shù)據(jù)集標(biāo)注的準(zhǔn)確性和是否存在偏見等。同時(shí),研發(fā)有害性檢測(cè)系統(tǒng)的一個(gè)主要挑戰(zhàn)是在準(zhǔn)確率和公平性之間取得平衡,避免對(duì)某些群體的過度懲罰或忽視對(duì)他們的有害言論。在這個(gè)意義上,研發(fā)者應(yīng)提高系統(tǒng)及其數(shù)據(jù)的開源性和透明度,以便對(duì)系統(tǒng)進(jìn)行全面評(píng)估。這種對(duì)檢測(cè)系統(tǒng)本身的全面評(píng)估將有助于提高系統(tǒng)的可信度和有效性,進(jìn)一步增強(qiáng)有害性評(píng)測(cè)的準(zhǔn)確度和公平性。
自ChatGPT推出以來,生成式大語言模型影響越來越大,與此同時(shí),傳統(tǒng)的生成式評(píng)測(cè)方法又面臨巨大的挑戰(zhàn)。研究者們開始探索新的評(píng)測(cè)模式。在這一過程中,涌現(xiàn)出了一些有影響的研究,例如基于模型的評(píng)測(cè)、幻覺問題的評(píng)測(cè)和元評(píng)測(cè)(對(duì)評(píng)測(cè)指標(biāo)本身進(jìn)行評(píng)估)。這些研究進(jìn)一步彌補(bǔ)了傳統(tǒng)評(píng)測(cè)的不足,并為評(píng)價(jià)模型性能(尤其是模型在自然語言生成任務(wù)上的性能)提供了更加精準(zhǔn)、穩(wěn)定和可靠的評(píng)估結(jié)果。下面介紹這三個(gè)研究方向以及相應(yīng)的研究進(jìn)展。
為了討論方便,本文將任務(wù)中的原文(Source)稱為原文本,將任務(wù)模型的輸出(Hypothesis)稱為待測(cè)文本,將參考答案文本(Reference)稱為參考文本。在自然語言生成領(lǐng)域,早期的自動(dòng)化評(píng)測(cè)方法如BLEU和ROUGE主要基于“形式匹配”。這些方法雖然在某種程度上取得了一定的效果,但同樣也存在以下不足: ①對(duì)語義的忽視。在許多情況下,生成文本可能使用不同的詞匯或短語來表達(dá)相同的語義。但是這些方法主要關(guān)注詞匯表層的形式匹配,容易忽略語義的重要性,導(dǎo)致評(píng)測(cè)結(jié)果不能完全真實(shí)地反映模型性能。②對(duì)參考文本的依賴。由于需要參考文本作為對(duì)照,這些評(píng)測(cè)方法的評(píng)測(cè)結(jié)果往往受參考文本質(zhì)量的影響。此外,這些評(píng)測(cè)指標(biāo)通常假設(shè)存在一個(gè)或幾個(gè)“最優(yōu)”的參考文本,這在許多NLG任務(wù)中并不成立。例如,在開放式對(duì)話等任務(wù)中,可能存在多種合理但完全不同的生成結(jié)果。這種假設(shè)限制了這些評(píng)測(cè)指標(biāo)在評(píng)估生成多樣性和創(chuàng)新性方面的能力。③難以抓住不同任務(wù)間的細(xì)微差別及各個(gè)任務(wù)上的評(píng)測(cè)需求。例如,摘要和對(duì)話生成這兩種任務(wù)在語義連貫性、文本多樣性和創(chuàng)新性等方面的評(píng)測(cè)需求可能大相徑庭,但是這些差異往往很難被這些只關(guān)注表層的精確匹配的自動(dòng)化評(píng)測(cè)方法捕捉。
上述局限性使得先前的自動(dòng)評(píng)估指標(biāo)通常難以準(zhǔn)確地評(píng)估大語言模型的性能和表現(xiàn)。為了克服這些局限性,研究者開始探索基于模型的評(píng)測(cè)方法,尤其是基于大語言模型的評(píng)測(cè)方法。這類方法使用預(yù)先構(gòu)建的評(píng)估模型對(duì)任務(wù)模型進(jìn)行評(píng)測(cè)。相比早期的傳統(tǒng)評(píng)測(cè)方法,這些評(píng)測(cè)模型具有更加強(qiáng)大的表示學(xué)習(xí)能力和語義理解能力,其中的一些方法也不需要依賴參考文本,并能更好地捕捉到不同生成任務(wù)之間的細(xì)微差別,與人類評(píng)測(cè)之間也往往有更好的相關(guān)性,為評(píng)估大語言模型在自然語言生成任務(wù)中的表現(xiàn)提供了更為準(zhǔn)確和全面的評(píng)價(jià)標(biāo)準(zhǔn)?;谀P偷脑u(píng)測(cè)方法有很多,例如,BERTr[122]、BERTScore[123]、MoverScore[124]、BERT for MTE[125]、COMET[126]、BLEURT[127]、RoBERTa-eval[128]、BARTScore[129]、MAUVE[130]、DiscoScore[131]和基于大語言模型的評(píng)測(cè)[132-135]等。下面將重點(diǎn)介紹幾種有代表性的基于模型的評(píng)測(cè)方法,分別是依賴參考文本,基于BERT的BERTScore、BERT for MTE與不依賴參考文本,基于大語言模型的GPTScore[132]、Kocmi &Federmann[133]以及PandaLM[135]。
3.1.1 BERTScore
BERTScore是一種基于BERT的評(píng)測(cè)方法,計(jì)算結(jié)構(gòu)如圖2所示。其核心思想是利用BERT的詞嵌入來計(jì)算待測(cè)文本中的每個(gè)token與參考文本中的每個(gè)token的余弦相似度。它首先利用BERT的詞嵌入來得到參考文本和待測(cè)文本的編碼向量,分別記為(r1,r2,…,rn)和(p1,p2,…,pm),然后通過待測(cè)文本中每個(gè)token與參考文本中每個(gè)token的余弦相似度來計(jì)算精確度與召回率,具體如下:
圖2 BERTScore的計(jì)算結(jié)構(gòu)
然后根據(jù)精確度和召回率來計(jì)算F1值,如式(8)所示。
(8)
BERTScore即取式(8)計(jì)算得到的F1值。
3.1.2 BERT for MTE
另一種基于BERT的評(píng)測(cè)方法是BERT for MTE,該方法通過句子對(duì)編碼的方式同時(shí)編碼待測(cè)文本和參考文本,并使用基于MLP的回歸模型得到最后的指標(biāo)分?jǐn)?shù)。記參考文本和待測(cè)文本的單詞序列分別為r和p,BERT for MTE首先利用BERT進(jìn)行句子對(duì)編碼,如式(9)所示。
v=BERT([CLS];p;[SEP];r;[SEP])
(9)
之后再將句子對(duì)的嵌入表示送入多層感知機(jī)(Multilayer Perceptron, MLP)回歸模型中得到最后的指標(biāo)分?jǐn)?shù),如式(10)所示。
Score=MLP(vCLS)
(10)
式(10)計(jì)算得到的分?jǐn)?shù)即為最終指標(biāo)值。
3.1.3 GPTScore
GPTScore是一種基于大語言模型的評(píng)測(cè)方法。其核心在于給定指令和原文本后,經(jīng)過預(yù)訓(xùn)練的大語言模型會(huì)對(duì)更高質(zhì)量的生成內(nèi)容賦予更大的生成概率。具體來說,給定一個(gè)生成任務(wù)指令d(如“請(qǐng)為以下文本生成一個(gè)摘要”),該任務(wù)關(guān)注的評(píng)估角度a(如流暢度)以及上下文信息S(可以是原文本或參考文本),GPTScore首先將三者通過提示模板的方式組織成輸入文本,然后將GPTScore定義為大語言模型生成待測(cè)文本p的加權(quán)對(duì)數(shù)概率和,如式(11)所示。
(11)
其中,T(·)是提示模板,用于組織評(píng)估的實(shí)例,它通常任務(wù)相關(guān),并通過提示工程人工構(gòu)造。
3.1.4 Kocmi &Federmann
與GPTScore類似,Kocmi &Federmann嘗試?yán)么笳Z言模型來對(duì)其他的模型進(jìn)行評(píng)估。與GPTScore依靠大語言模型給出的概率計(jì)算得分不同,Kocmi &Federmann嘗試以一種更加擬人化的形式利用大語言模型進(jìn)行生成任務(wù)上的評(píng)估。具體來說,Kocmi &Federmann利用提示工程將指令d(如“請(qǐng)?jiān)u估下面句子的翻譯流暢度”)、上下文信息S(可以是原文本或參考文本,如,需要翻譯的原文本)和待測(cè)文本(如某個(gè)任務(wù)模型輸出的翻譯文本)組織成與人類評(píng)估相近的模板形式作為預(yù)訓(xùn)練大語言模型的輸入,然后讓大語言模型直接輸出對(duì)應(yīng)的評(píng)分,并將這個(gè)評(píng)分作為該任務(wù)的指標(biāo)分?jǐn)?shù)。
3.1.5 PandaLM
與GPTScore和Kocmi &Federmann對(duì)單個(gè)模型的生成內(nèi)容給出一個(gè)絕對(duì)的評(píng)價(jià)不同,PandaLM是一種基于比較的評(píng)測(cè)模型。PandaLM由LLaMA-7B[136]調(diào)優(yōu)得到,專注于在指令調(diào)優(yōu)的語境下根據(jù)生成內(nèi)容在各種候選任務(wù)模型中選出最優(yōu)秀的模型。如圖3所示,PandaLM接收一個(gè)任務(wù)的描述,包括指令和與任務(wù)相關(guān)的輸入,再同時(shí)接收兩個(gè)任務(wù)模型在這個(gè)任務(wù)描述下的生成內(nèi)容,最后給出對(duì)哪個(gè)任務(wù)模型的生成內(nèi)容更好的評(píng)判,并給出評(píng)判的原因。
圖3 PandaLM的評(píng)測(cè)結(jié)構(gòu)圖
由于PandaLM評(píng)測(cè)方法基于不同模型之間的比較,在一定程度上擺脫了對(duì)參考文本的依賴。同時(shí),利用大語言模型的泛化能力,PandaLM超越了傳統(tǒng)評(píng)估方法主要針對(duì)客觀正確性的限制,能夠通過對(duì)指令的設(shè)計(jì)更好地抓住不同生成任務(wù)上對(duì)評(píng)測(cè)需求的微妙差異,如簡(jiǎn)潔性、清晰度、全面性、正式性等。此外,PandaLM還可以同時(shí)識(shí)別和糾正任務(wù)模型生成內(nèi)容中可能存在的邏輯謬誤、冗余、語法不準(zhǔn)確和上下文不相關(guān)等問題,具有較好的魯棒性。相較于先前的傳統(tǒng)自動(dòng)化評(píng)測(cè)方法,基于模型的評(píng)測(cè)方法,特別是基于大語言模型的評(píng)測(cè)方法,在無參考文本的自然語言生成任務(wù)的評(píng)估上具有巨大潛力[121]。
下面列出了一些未來可能的基于模型評(píng)測(cè)的研究方向:
(1) 更具魯棒性的指標(biāo)。隨著現(xiàn)有模型魯棒性的不斷提高,研究者可以開發(fā)更具魯棒性的基于模型的評(píng)測(cè)指標(biāo),以降低噪聲對(duì)評(píng)測(cè)結(jié)果的影響,從而提高評(píng)測(cè)結(jié)果的穩(wěn)定性和可靠性。
(2) 更可靠的評(píng)測(cè)方法。雖然大語言模型廣泛用于評(píng)估生成文本的質(zhì)量,并展現(xiàn)出了較好的效果[132-135],但研究表明,基于大語言模型的評(píng)測(cè)方法同樣存在不公平、不可靠的問題[35,121],例如順序偏見(大語言模型對(duì)不同的位置有特定的偏好)和冗長(zhǎng)偏見(大語言模型傾向于偏愛更加冗長(zhǎng)的回答,即使這些回答不如更短的回答清晰或準(zhǔn)確)等。因此,未來的研究可以進(jìn)一步發(fā)展更加可靠的基于模型的評(píng)測(cè)方法,增強(qiáng)評(píng)測(cè)結(jié)果的可信度。
(3) 知識(shí)增強(qiáng)的評(píng)測(cè)方法。大語言模型在一般場(chǎng)景下可以保持較好的泛化性,但在需要特定知識(shí)的專業(yè)領(lǐng)域可能表現(xiàn)不佳。基于大語言模型的評(píng)測(cè)方法也類似: 盡管大語言模型在廣泛的訓(xùn)練數(shù)據(jù)上進(jìn)行了訓(xùn)練,但由于缺乏某些專業(yè)知識(shí),它可能仍然無法在專業(yè)性較強(qiáng)的領(lǐng)域做出合理準(zhǔn)確的評(píng)價(jià)。然而,如何構(gòu)建知識(shí)增強(qiáng)的大語言模型仍然是一個(gè)開放的研究問題[121]: 一種方法是將特定領(lǐng)域的數(shù)據(jù)納入大語言模型的訓(xùn)練語料中,以便它能夠更好地理解和應(yīng)用該領(lǐng)域的知識(shí);另一種方法是結(jié)合外部知識(shí)庫(kù)或?qū)<蚁到y(tǒng),將其與大語言模型聯(lián)合使用,以獲取該領(lǐng)域?qū)I(yè)性的評(píng)估能力。未來的研究可以探索將特定知識(shí)注入到大語言模型中的方法,從而提高基于大語言模型的評(píng)測(cè)方法在某些專業(yè)領(lǐng)域的表現(xiàn)。
(4) 細(xì)粒度評(píng)估與可解釋性增強(qiáng)。過去的許多基于模型的評(píng)測(cè)方法通常關(guān)注生成文本的整體質(zhì)量,較少關(guān)注生成內(nèi)容中更細(xì)維度的質(zhì)量水平[137],例如充分性、冗余度、忠實(shí)度和趣味性等。由于缺少各個(gè)細(xì)粒度方面的評(píng)價(jià)分析,導(dǎo)致在一定程度上缺乏可解釋性。未來基于模型的評(píng)測(cè)研究可以關(guān)注評(píng)測(cè)模型在生成內(nèi)容的更細(xì)粒度劃分上的評(píng)估方式及可解釋性。
(5) 擺脫對(duì)參考文本的依賴。自然語言生成任務(wù)的評(píng)測(cè)方法通??梢苑譃閮深? 需要參考文本的評(píng)測(cè)方法和不需要參考文本的評(píng)測(cè)方法。由于大多數(shù)生成式任務(wù)具有不確定性和開放性,任務(wù)答案往往多樣且難以枚舉,參考文本通常有限,這就導(dǎo)致需要參考文本的評(píng)測(cè)方法難以捕捉生成內(nèi)容的多樣性,影響評(píng)測(cè)結(jié)果的準(zhǔn)確性。相比之下,無參考文本的評(píng)測(cè)方法無須枚舉可能的答案,在實(shí)現(xiàn)對(duì)生成內(nèi)容的多角度、多方面及定制化的評(píng)估上有著巨大潛力。未來研究可進(jìn)一步探索如何利用大語言模型的零樣本或小樣本泛化能力來擺脫生成式任務(wù)評(píng)測(cè)中對(duì)參考文本的依賴,從而獲得更易泛化和遷移的評(píng)測(cè)方法、評(píng)測(cè)指標(biāo)和更準(zhǔn)確的評(píng)測(cè)結(jié)果。
(6) 人機(jī)協(xié)作評(píng)測(cè)。在自然語言生成評(píng)測(cè)中,人類評(píng)測(cè)通常被認(rèn)為是最重要、最準(zhǔn)確的評(píng)測(cè)方法之一。但由于人類評(píng)測(cè)的時(shí)間和資源消耗較大,在模型研發(fā)階段,研究者往往難以利用人類評(píng)測(cè)實(shí)時(shí)監(jiān)測(cè)任務(wù)模型的能力變化。利用基于模型的評(píng)測(cè)作為輔助,尤其是基于大語言模型的評(píng)測(cè),可以在一定程度上緩解純?nèi)祟愒u(píng)測(cè)中存在的上述問題。未來研究可嘗試提出結(jié)合基于模型評(píng)測(cè)和人類評(píng)測(cè)的有效方式,從而提高人類評(píng)測(cè)的可用性和基于模型評(píng)測(cè)的準(zhǔn)確性。
隨著生成式大語言模型的發(fā)展和應(yīng)用日益廣泛,其產(chǎn)生的文本在質(zhì)量和流暢性上已經(jīng)達(dá)到了十分可觀的水平。但模型在生成內(nèi)容時(shí)也可能會(huì)產(chǎn)生一種被稱為“幻覺”的現(xiàn)象,即生成的文本包含不準(zhǔn)確或無根據(jù)的信息。這種現(xiàn)象會(huì)對(duì)模型的實(shí)用性和可靠性產(chǎn)生較大的負(fù)面影響。因此,越來越多的研究開始集中于幻覺評(píng)測(cè)。
幻覺是指自然語言生成模型產(chǎn)生的內(nèi)容不忠實(shí)于原文本或不符合現(xiàn)實(shí)世界的現(xiàn)象。根據(jù)能否通過原文本直接進(jìn)行驗(yàn)證,幻覺可以分為兩類[129]: 內(nèi)在幻覺(Intrinsic Hallucinations)和外在幻覺(Extrinsic Hallucinations)。內(nèi)在幻覺是指能夠直接通過原文本證偽的幻覺現(xiàn)象。以文本摘要任務(wù)為例,原文本中包含“蘋果公司今天發(fā)布了新的iPhone,具有更強(qiáng)大的處理器和攝像頭”,而待測(cè)文本中包含“蘋果公司今天發(fā)布了新的iPad,具有更強(qiáng)大的處理能力和改進(jìn)的攝像頭”,這就是一個(gè)內(nèi)在幻覺的例子。因?yàn)榇郎y(cè)文本與原文本中的信息直接相矛盾(一者是 iPhone,一者是 iPad)。外在幻覺是指不能夠直接通過原文本得到驗(yàn)證的幻覺現(xiàn)象。同樣考慮上述的摘要任務(wù),如果待測(cè)文本包含“蘋果公司今天發(fā)布了新的iPhone,它將在全球范圍內(nèi)同步推出”,這就是一個(gè)外在幻覺的例子。因?yàn)榇郎y(cè)文本中存在無法從原文本直接得到驗(yàn)證的內(nèi)容(iPhone將在全球范圍內(nèi)同步推出)。在原文本中并沒有提到產(chǎn)品的發(fā)布范圍,因此待測(cè)文本中的這部分內(nèi)容既不能由原文本直接支撐,也不能被原文本直接證偽。
為了評(píng)估幻覺現(xiàn)象,研究者們提出了多種方法,總體上可以分為非大語言模型的方法[138-139]與基于大語言模型的方法兩類。非大語言模型的方法包括基于統(tǒng)計(jì)的方法、基于信息抽取的方法、基于生成式問答的方法和基于句子級(jí)別分類的方法等。下面重點(diǎn)介紹基于大語言模型的方法。
基于大語言模型方法的核心思想是利用大語言模型的理解和生成能力來評(píng)估待測(cè)文本的幻覺度。其方法可以分為直接評(píng)測(cè)方法和間接評(píng)測(cè)方法。直接評(píng)測(cè)方法通常將大語言模型作為人的代理,通過模板設(shè)計(jì),使其完成一般人類評(píng)測(cè)員需要完成的工作,即直接評(píng)價(jià)或直接判斷。例如,Sun等人[140]采用自驗(yàn)證的策略,將任務(wù)描述、原文本與大語言模型生成的待測(cè)文本再次輸入大語言模型本身,讓其自身對(duì)生成的待測(cè)文本進(jìn)行幻覺的檢測(cè)與幻覺的消除;Mündler等人[141]通過設(shè)計(jì)模板,使大語言模型能夠在給定原文本的情況下,像人類一樣直接判斷兩個(gè)和原文本有關(guān)的陳述是否互相矛盾。HaluEval[41]結(jié)合大語言模型生成和人工標(biāo)注,創(chuàng)建了一個(gè)包含大規(guī)?;糜X樣例的評(píng)測(cè)基準(zhǔn)以衡量大語言模型檢測(cè)幻覺和歸因幻覺類型的能力。這種評(píng)測(cè)方法的優(yōu)勢(shì)在于能夠直接利用大語言模型的泛化能力進(jìn)行幻覺評(píng)測(cè),無須其他額外的計(jì)算過程。間接評(píng)測(cè)方法則是借助大語言模型的生成能力,并結(jié)合其他現(xiàn)有的評(píng)測(cè)指標(biāo)和方法綜合得到最后的幻覺評(píng)測(cè)結(jié)果。例如,給定任務(wù)描述、原文本和待測(cè)文本,SelfCheckGPT[142]首先將相同的任務(wù)描述和原文本輸入到一個(gè)大語言模型中,并多次隨機(jī)采樣這個(gè)大語言模型的輸出,得到一組生成文本。如果待測(cè)文本中不存在幻覺,那么這組生成文本的內(nèi)容應(yīng)當(dāng)相似,并與待測(cè)文本的內(nèi)容較為一致;反之,這組文本的內(nèi)容則很可能會(huì)發(fā)散并與待測(cè)文本的內(nèi)容相互矛盾。因此,給定待測(cè)文本和一組生成文本時(shí),可以利用現(xiàn)有的相關(guān)指標(biāo)和方法來表征待測(cè)文本和這組生成文本之間的一致性,并將這些指標(biāo)值綜合起來以衡量待測(cè)文本的幻覺程度。具體而言,SelfCheckGPT使用了BERTScore、生成式問答與n-gram模型的預(yù)測(cè)概率三種指標(biāo)或方法來衡量待測(cè)文本和生成文本集合之間的一致性,并通過加和的方式得到最終衡量幻覺度的指標(biāo)值。這種間接評(píng)測(cè)方法的主要優(yōu)勢(shì)在于其能夠結(jié)合大語言模型的生成能力與現(xiàn)有的評(píng)測(cè)指標(biāo)與評(píng)測(cè)方法的優(yōu)點(diǎn),得到一個(gè)較為綜合的度量指標(biāo)。在幻覺評(píng)測(cè)中充分利用大語言模型的理解和生成能力,能夠在一定程度上幫助處理較為復(fù)雜的語義關(guān)系,從而評(píng)測(cè)較為復(fù)雜的幻覺現(xiàn)象,如邏輯錯(cuò)誤、事實(shí)錯(cuò)誤及多種錯(cuò)誤的耦合等。同時(shí),這種方法一般無須大量的人工標(biāo)注數(shù)據(jù),并可以提供有關(guān)幻覺現(xiàn)象的更詳細(xì)的信息(例如程度信息)。然而,這種方法的局限性在于用于評(píng)測(cè)的大語言模型本身也同樣可能產(chǎn)生幻覺現(xiàn)象。如何控制用于評(píng)測(cè)的大語言模型本身可能產(chǎn)生的幻覺,將是一項(xiàng)新的挑戰(zhàn)性問題。
幻覺評(píng)測(cè)在未來可能的研究方向有:
(1) 更有效的幻覺檢測(cè)方法。當(dāng)前的幻覺檢測(cè)方法在處理較為復(fù)雜和模糊的語義時(shí)可能會(huì)遇到困難。未來的研究可以探索更復(fù)雜的模型設(shè)計(jì)和檢測(cè)算法以提高幻覺檢測(cè)的準(zhǔn)確性和效率,也可以探索如何利用無標(biāo)簽數(shù)據(jù)或弱標(biāo)簽數(shù)據(jù)來提高幻覺評(píng)測(cè)的性能。
(2) 幻覺生成機(jī)制的研究?;糜X的全面評(píng)測(cè)能夠幫助研究者進(jìn)行更深入的有關(guān)幻覺生成機(jī)制的研究,幻覺生成機(jī)制的研究反過來也有助于發(fā)展更為全面、更具針對(duì)性的幻覺評(píng)測(cè)方法。若要理解模型為何會(huì)產(chǎn)生幻覺,需要深入研究模型的內(nèi)部工作機(jī)制。這可能涉及研究模型的語言理解和生成過程。例如,模型是如何理解并處理語義和語法的,以及這個(gè)過程中哪些因素可能會(huì)導(dǎo)致幻覺的產(chǎn)生。此外,也可能涉及研究模型的訓(xùn)練過程。例如,模型是如何從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的,訓(xùn)練過程中哪些因素可能導(dǎo)致模型學(xué)習(xí)到錯(cuò)誤的或誤導(dǎo)性的信息,從而導(dǎo)致幻覺的產(chǎn)生。
(3) 通用的幻覺評(píng)測(cè)方法設(shè)計(jì)。在自然語言生成中,不同任務(wù)的輸入輸出形式多樣,設(shè)計(jì)一個(gè)與任務(wù)無關(guān)的通用幻覺評(píng)測(cè)方法非常重要。這需要深入理解幻覺的本質(zhì),以及不同任務(wù)中幻覺的共性和特性。同時(shí),不同任務(wù)對(duì)幻覺的容忍度也不同。在數(shù)據(jù)到文本生成的任務(wù)中,忠實(shí)于原文本與事實(shí)性正確是兩個(gè)十分重要的評(píng)價(jià)方面,對(duì)幻覺的容忍度非常低;而故事生成任務(wù)對(duì)幻覺的容忍度就相對(duì)較高,因?yàn)樵诠适律芍型雨P(guān)注例如有趣程度等其他方面。如何設(shè)計(jì)一個(gè)能夠捕捉不同任務(wù)之間的細(xì)微差別,并在各個(gè)任務(wù)下的評(píng)測(cè)結(jié)果都與人類判斷相關(guān)性較強(qiáng)的幻覺評(píng)測(cè)指標(biāo),也是目前幻覺評(píng)測(cè)中的一個(gè)挑戰(zhàn)。
在大語言模型的評(píng)測(cè)中,元評(píng)測(cè)是一個(gè)不可或缺的部分。元評(píng)測(cè)是一種衡量評(píng)測(cè)指標(biāo)本身有效性和可靠性的過程,也就是對(duì)評(píng)測(cè)的再評(píng)測(cè)。其核心目標(biāo)是判斷評(píng)測(cè)方法與人類的評(píng)測(cè)的相關(guān)程度,這對(duì)于確保評(píng)測(cè)質(zhì)量、減少誤差以及提升評(píng)測(cè)結(jié)果可信度具有重要意義。隨著大型語言模型在各領(lǐng)域的應(yīng)用日益廣泛,評(píng)測(cè)大語言模型的方法本身的準(zhǔn)確性和可信度也逐漸成為關(guān)注焦點(diǎn)。通過對(duì)比不同的評(píng)測(cè)方法,研究者能夠發(fā)現(xiàn)各種方法的優(yōu)勢(shì)和局限性,這將有助于研究者選擇更適用于特定任務(wù)和場(chǎng)景的評(píng)測(cè)方法,從而更準(zhǔn)確地衡量模型的性能。在下面的討論中,本文將某個(gè)評(píng)測(cè)指標(biāo)對(duì)模型的n個(gè)生成內(nèi)容給出的分?jǐn)?shù),分別記為x1,…,xn,并將人類評(píng)測(cè)對(duì)這n個(gè)生成內(nèi)容賦予的分?jǐn)?shù)分別記為y1,…,yn。下面將介紹幾種元評(píng)測(cè)中常見的相關(guān)性計(jì)算方法。
3.3.1 皮爾遜相關(guān)系數(shù)
皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)是衡量?jī)蓚€(gè)變量之間線性關(guān)系強(qiáng)度的指標(biāo)。給定模型n個(gè)生成內(nèi)容上的評(píng)測(cè)指標(biāo)分?jǐn)?shù)與人類評(píng)測(cè)分?jǐn)?shù)的數(shù)據(jù)點(diǎn)對(duì)(x1,y1),…,(xn,yn),皮爾遜相關(guān)系數(shù)的計(jì)算,如式(12)所示。
(12)
值得指出的是,皮爾遜相關(guān)系數(shù)衡量的是兩個(gè)變量之間的線性關(guān)系的強(qiáng)弱。其在兩個(gè)變量之間存在比較強(qiáng)的線性相關(guān)時(shí)能夠表現(xiàn)出較好的性能。同時(shí),它對(duì)非線性關(guān)系的敏感度較低,并且受異常值的影響較大,數(shù)據(jù)分布的偏態(tài)可能導(dǎo)致相關(guān)系數(shù)的失真。因此,皮爾遜相關(guān)系數(shù)不適用于變量之間存在復(fù)雜的非線性關(guān)系或數(shù)據(jù)中存在嚴(yán)重異常值或偏態(tài)的情況。
3.3.2 斯皮爾曼相關(guān)系數(shù)
斯皮爾曼相關(guān)系數(shù)(Spearman's Correlation Coefficient)用于衡量?jī)蓚€(gè)變量之間的單調(diào)關(guān)系,它是基于變量的秩次(相對(duì)大小關(guān)系)計(jì)算得出的。給定模型n個(gè)生成內(nèi)容上的評(píng)測(cè)指標(biāo)分?jǐn)?shù)與人類評(píng)測(cè)分?jǐn)?shù)的數(shù)據(jù)點(diǎn)對(duì)(x1,y1),…,(xn,yn)以及它們對(duì)應(yīng)的秩次(rx1,ry1),…,(rxn,ryn),斯皮爾曼相關(guān)系數(shù)的計(jì)算如式(13)所示。
(13)
斯皮爾曼相關(guān)系數(shù)基于數(shù)據(jù)的秩次計(jì)算,從而對(duì)異常值和偏態(tài)數(shù)據(jù)較為魯棒,并且可以在一定程度上捕捉非線性的關(guān)系。但是其只能反映兩個(gè)變量間的單調(diào)關(guān)系,當(dāng)變量之間存在多種依賴關(guān)系時(shí),只靠斯皮爾曼相關(guān)系數(shù)可能難以區(qū)分。
3.3.3 肯德爾τ系數(shù)
肯德爾τ系數(shù)(Kendall’sτCoefficient)是另一種基于數(shù)據(jù)秩次的系數(shù),用于衡量?jī)蓚€(gè)變量之間的共同趨勢(shì)。給定模型n個(gè)生成內(nèi)容上的評(píng)測(cè)指標(biāo)分?jǐn)?shù)與人類評(píng)測(cè)分?jǐn)?shù)的數(shù)據(jù)點(diǎn)對(duì)(x1,y1),…,(xn,yn),肯德爾τ系數(shù)的計(jì)算方法如下: ①計(jì)算配對(duì)。對(duì)于每一對(duì)分?jǐn)?shù)對(duì)(xi,yi)和(xj,yj),計(jì)算它們的差值xi-xj和yi-yj。②計(jì)算一致對(duì)(concordant pair)的數(shù)目和不一致對(duì)(discordant pair)的數(shù)目,分別記為C和D。具體來說,若(xi-xj)(yi-yj)>0,則記為一個(gè)一致對(duì),若(xi-xj)(yi-yj)<0,則記為一個(gè)不一致對(duì)。③計(jì)算相關(guān)系數(shù)??系聽枽酉禂?shù)的計(jì)算如式(14)所示。
(14)
與斯皮爾曼相關(guān)系數(shù)類似,肯德爾τ系數(shù)是基于數(shù)據(jù)的秩次,因此對(duì)異常值和偏態(tài)數(shù)據(jù)較為魯棒。但是肯德爾τ系數(shù)的計(jì)算需要枚舉每一對(duì)數(shù)據(jù)點(diǎn)對(duì),因此在小樣本數(shù)據(jù)中表現(xiàn)較好,面對(duì)大樣本數(shù)據(jù)時(shí)計(jì)算效率較低。
元評(píng)測(cè)的實(shí)例眾多,例如,Sai等人[143]在摘要、對(duì)話、問題生成等多個(gè)任務(wù)上對(duì)包括正確性、流利度、相關(guān)性、有趣程度在內(nèi)的多個(gè)評(píng)估維度彼此之間的相關(guān)程度進(jìn)行了評(píng)估,結(jié)果表明即使在同一個(gè)任務(wù)上,人類在不同評(píng)估維度上的評(píng)分的相關(guān)性往往也并不顯著。因此,在這種情況下,僅由自動(dòng)化評(píng)估指標(biāo)對(duì)生成內(nèi)容賦予一個(gè)單一的總分很難全面地評(píng)估生成內(nèi)容在各個(gè)細(xì)粒度評(píng)估維度上的質(zhì)量。同時(shí),他們還基于擾動(dòng)方法評(píng)估了包括BLEU、METEOR、BERTScore、BLEURT、MoverScore在內(nèi)的多個(gè)評(píng)測(cè)指標(biāo)的魯棒性。具體而言,他們通過計(jì)算擾動(dòng)前后評(píng)測(cè)指標(biāo)給出的分?jǐn)?shù)差異與人類判斷給出的分?jǐn)?shù)差異是否一致來衡量評(píng)測(cè)指標(biāo)的魯棒性。結(jié)果顯示,相比早期的自動(dòng)化評(píng)測(cè)指標(biāo),雖然基于模型的評(píng)測(cè)指標(biāo)(例如,BERTScore, BLEURT和MoverScore等)在與人類判斷的相關(guān)程度上表現(xiàn)較好,但是它們面對(duì)非常簡(jiǎn)單的擾動(dòng)時(shí)也無法保持較強(qiáng)的魯棒性。此外,結(jié)果還顯示,現(xiàn)有的評(píng)測(cè)指標(biāo)往往難以捕捉特定任務(wù)上的特殊評(píng)測(cè)需求。例如,在對(duì)話任務(wù)中,許多任務(wù)模型傾向于生成通用且缺乏針對(duì)性的回復(fù),導(dǎo)致與用戶的互動(dòng)效果不佳。然而,在實(shí)驗(yàn)中沒有一個(gè)評(píng)測(cè)指標(biāo)對(duì)產(chǎn)生諸如“好的”或“你能再重復(fù)一遍嗎?”等通用回復(fù)的擾動(dòng)具有敏感性。
未來,元評(píng)測(cè)的研究方向可能包括:
(1) 更細(xì)粒度的元評(píng)測(cè)。不同的自然語言生成任務(wù)通常有各自特定的評(píng)測(cè)需求,即使在同一任務(wù)下,也存在多種不同的評(píng)估維度,例如連貫性、正確性和相關(guān)度等。因此,未來的元評(píng)測(cè)需要在更細(xì)粒度上進(jìn)行,以評(píng)估各評(píng)測(cè)指標(biāo)在這些細(xì)粒度評(píng)估維度上的評(píng)測(cè)結(jié)果與人類判斷的相關(guān)性,揭示評(píng)測(cè)指標(biāo)在捕捉不同生成任務(wù)上的微妙差異的能力,為評(píng)估方法本身的改進(jìn)提供指導(dǎo)。
(2) 針對(duì)評(píng)測(cè)指標(biāo)公平性評(píng)估的元評(píng)測(cè)?,F(xiàn)有的評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法通常涉及人類評(píng)測(cè)與基于模型的評(píng)測(cè)。其中,人類評(píng)測(cè)可能受到評(píng)測(cè)員的專業(yè)背景、文化差異等因素的影響;而由于數(shù)據(jù)的稀缺性,基于模型的評(píng)測(cè)方法可能面臨著在低資源語言上表現(xiàn)更差的問題。元評(píng)測(cè)需要探究這些因素對(duì)評(píng)測(cè)指標(biāo)性能的影響,研究評(píng)測(cè)指標(biāo)捕捉模型對(duì)不同群體或語言的偏見和歧視的能力。這將有助于提高評(píng)測(cè)方法的公平性,推動(dòng)更公平、包容的自然語言處理技術(shù)的發(fā)展。
(3) 針對(duì)評(píng)測(cè)指標(biāo)魯棒性評(píng)估的元評(píng)測(cè)。通過基于擾動(dòng)的方法研究評(píng)測(cè)指標(biāo)的魯棒性,可以揭示其在面對(duì)數(shù)據(jù)噪聲、變化或?qū)剐詷颖緯r(shí)的穩(wěn)定性。這種魯棒性元評(píng)測(cè)有助于提高評(píng)測(cè)方法的可靠性,為自然語言處理研究和實(shí)踐提供更穩(wěn)健的評(píng)估手段。
大語言模型評(píng)測(cè)對(duì)大語言模型的應(yīng)用以及后續(xù)發(fā)展有非常重要的作用。大語言模型的評(píng)測(cè)范式分為經(jīng)典評(píng)測(cè)范式和新型評(píng)測(cè)范式。經(jīng)典評(píng)測(cè)范式中的傳統(tǒng)自然語言處理任務(wù)按照內(nèi)含任務(wù)的特點(diǎn)劃分為自然語言理解任務(wù)和自然語言生成任務(wù),本文分別介紹了這些任務(wù)當(dāng)前所流行的經(jīng)典評(píng)測(cè)基準(zhǔn)以及一些新型評(píng)測(cè)范式下代表性的評(píng)測(cè)基準(zhǔn)和大語言模型評(píng)測(cè)方面的實(shí)例;總結(jié)了現(xiàn)有評(píng)測(cè)中的一些不足之處;然后介紹了全面的大語言模型評(píng)測(cè)思想以及相關(guān)的評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法;最后總結(jié)了大語言模型評(píng)測(cè)的一些新的研究問題、挑戰(zhàn)以及未來的研究方向。