曾輝
關(guān)鍵詞:中文大模型;多任務(wù)評測;zero-shot;few-shot;垂直領(lǐng)域任務(wù)
0引言
隨著ChatGPT[1]等大模型的驚艷亮相,ChatGLM[2]、MOSS[3]、文心一言、通義千問、商量等具備中文能力的大模型也相繼發(fā)布。雖然針對英文大語言模型已有較為完善的評測方式(如MMLU[4]),但目前仍缺乏針對中文大語言模型的評測方法。因此,推出一種科學(xué)的中文大模型評測方法并提供高質(zhì)量的中文評測數(shù)據(jù)集已迫在眉睫。
以Transformer[5]為架構(gòu)的中文預(yù)訓(xùn)練大模型采用大量文本語料(包括中文百科數(shù)據(jù)、海量中文電子書籍和眾多中文網(wǎng)站)進(jìn)行預(yù)訓(xùn)練。然而,這種訓(xùn)練方式的模型在理解和解決諸多領(lǐng)域問題的能力尚未經(jīng)過科學(xué)、全面的評測。
由于近期發(fā)布的大語言模型大多經(jīng)過了指令微調(diào)訓(xùn)練,本測試提供了zero-shot和few-shot兩種測試方式。在few-shot模式中,模型會得到5個(gè)示例。測試題目為單項(xiàng)選擇和多項(xiàng)選擇題,每道選擇題可能有一個(gè)或多個(gè)正確答案,更類似于人類考試,難度也更大。
本次測試涵蓋醫(yī)療、法律、心理學(xué)和教育四個(gè)大類。其中,醫(yī)療類題目來自大學(xué)醫(yī)學(xué)專業(yè)考試,法律類題目來自國家統(tǒng)一法律職業(yè)資格考試,心理學(xué)題目源于心理咨詢師資格考試和心理學(xué)專業(yè)研究生入學(xué)綜合基礎(chǔ)考試,教育領(lǐng)域的題目取自全國普通高等學(xué)校統(tǒng)一招生考試。測試題目覆蓋范圍廣,專業(yè)知識點(diǎn)難度高,非常適合評估大模型的綜合能力。
值得一提的是,高達(dá)160億參數(shù)的MOSS模型在四大領(lǐng)域的zero-shot準(zhǔn)確率均低于26%,是評測中表現(xiàn)倒數(shù)第二的模型。而參數(shù)量至少1750億的GPT-3.5-turbo模型取得了41.3%的平均zero-shot準(zhǔn)確率(見表1)。
評測結(jié)果顯示,雖然大模型最近進(jìn)展迅速,但最先進(jìn)的模型仍未達(dá)到某個(gè)領(lǐng)域的專家水平。所有模型在法律領(lǐng)域任務(wù)上的準(zhǔn)確率都接近隨機(jī)準(zhǔn)確率。相關(guān)測試代碼見github.com/Felixgithub2017/MMCU。
1多任務(wù)測試
本研究開發(fā)了一個(gè)涉及多個(gè)任務(wù)的廣泛測試,包括各個(gè)領(lǐng)域知識的單選和多選題,涵蓋醫(yī)學(xué)、法學(xué)、心理學(xué)和教育學(xué)等領(lǐng)域。其中,醫(yī)療分為15個(gè)子任務(wù),教育分為8個(gè)子任務(wù)。數(shù)據(jù)集中的問題由專業(yè)人員從在線免費(fèi)資源中手動收集,涵蓋醫(yī)學(xué)院考試、全國法律資格考試、心理咨詢師資格考試、心理學(xué)研究生入學(xué)基礎(chǔ)綜合考試和全國普通高校招生考試等內(nèi)容。本研究共收集了11900個(gè)問題,設(shè)計(jì)為few-shot調(diào)試集和測驗(yàn)集。few-shot調(diào)試集每個(gè)主題有5個(gè)問題,共55個(gè)問題;測驗(yàn)集共有11845個(gè)問題。
1.1醫(yī)療
醫(yī)學(xué)領(lǐng)域涵蓋以下學(xué)科:基礎(chǔ)醫(yī)學(xué)、藥學(xué)、護(hù)理、病理、臨床診斷、感染病、手術(shù)、人體結(jié)構(gòu)、放射學(xué)、寄生蟲病、免疫、小兒科、皮膚病與性病、胚胎學(xué)、藥物學(xué)。醫(yī)療領(lǐng)域共有2819個(gè)問題。
以下是一個(gè)醫(yī)療問題示例:
針對初次出現(xiàn)的急性腰椎間盤膨出,首選的治療方式為:
A.嚴(yán)格的床上休息,三周之后佩戴腰帶進(jìn)行下床活動。
B.保持臥床,但可進(jìn)行站立和坐起動作。
C.在硬膜外進(jìn)行皮質(zhì)類固醇注射。
D.對髓核進(jìn)行化學(xué)溶解處理。
1.2法律
法律類問題包括以下領(lǐng)域:中國特色社會主義法律體系、法學(xué)基礎(chǔ)、憲法原理、中國法制史、國際法概論、法律職業(yè)倫理與司法體系、刑法基礎(chǔ)、刑事司法程序、行政法及其訴訟程序、民事法律、知識產(chǎn)權(quán)保護(hù)、商業(yè)法規(guī)、經(jīng)濟(jì)法理論、環(huán)境與資源法、勞動法與社會保障法規(guī)、跨國私法、國際商法、民事訴訟法律、法律職業(yè)道德與司法結(jié)構(gòu)。法律領(lǐng)域共有3,695個(gè)問題。
以下是一個(gè)法律問題示例:
依據(jù)法律規(guī)定,哪種情形應(yīng)受民法調(diào)整?
A.小明要求稅務(wù)部門退還多繳的所得稅。
B.小紅丟了手機(jī),貼出尋物啟事:“歸還者將獲得現(xiàn)金獎勵?!?/p>
C.小李向女朋友保證:“若我在北京找到工作,便帶你去美國旅游?!?/p>
D.小王作為志愿者,定期在孤兒院提供幫助。
1.3心理學(xué)
心理學(xué)問題覆蓋以下領(lǐng)域:心理學(xué)基礎(chǔ)、個(gè)性及群體心理學(xué)、成長心理學(xué)、心理健康與異常、心理咨詢基礎(chǔ)、咨詢理念、評估心理學(xué)、咨詢技巧、咨詢實(shí)踐方法。心理學(xué)領(lǐng)域共有2,001個(gè)問題。
以下是一個(gè)心理學(xué)問題示例:
將與己無關(guān)的事物視為相關(guān),這種臨床癥狀最可能見于:
A.被害型幻想
B.癡迷型幻覺
C.連接型錯(cuò)覺
D.夸張型妄想
1.4教育
這部分包括語文、數(shù)學(xué)、物理、化學(xué)、政治、歷史、地理和生物,題目來自中國普通高等學(xué)校招生全國統(tǒng)一考試(中國高考)。教育領(lǐng)域共有3331個(gè)問題。
以下是一個(gè)數(shù)學(xué)問題示例:
如果一個(gè)圓錐的側(cè)面積是底面積的三倍,那么這個(gè)圓錐的側(cè)面展開成扇形時(shí),扇形的中心角大小為()。
A.六十度
B.九十度
C.一百二十度
D.一百八十度
2實(shí)驗(yàn)
2.1實(shí)驗(yàn)方法
為了衡量多任務(wù)測試的性能,本研究計(jì)算了所有模型在所有任務(wù)上的zero-shot和few-shot準(zhǔn)確率。評測了Bloom系列中的bloomz_560m、bloomz_1b1、bloomz_3b和bloomz_7b1_mt;同樣評測了清華大學(xué)知識工程與數(shù)據(jù)挖掘研究組開發(fā)的ChatGLM6B[2]、復(fù)旦大學(xué)創(chuàng)建的MOSS16B[3]以及OpenAI的GPT-3.5-tur?bo[1]。
在zero-shot模式下,將題目直接輸入到模型以獲取答案并計(jì)算準(zhǔn)確率。以下是一個(gè)zero-shot提問示例:
請閱讀以下選擇題并給出正確選項(xiàng),不要解釋原因。
在笛卡爾坐標(biāo)系中,點(diǎn)P(m-3,4-2m)不可能位于()
A.一象限
B.二象限
C.三象限
D.四象限
正確答案的序號是:
其中,粗體部分為問題的前綴和后綴,前綴告訴模型應(yīng)該怎樣給出答案,后綴引導(dǎo)模型輸出答案序號。而在few-shot模式下,先給模型提供5個(gè)問題和答案的例子,再附上問題讓模型給出答案。
2.2評測結(jié)果
1)模型的大小與其準(zhǔn)確性。表1對不同模型的zero-shot準(zhǔn)確率進(jìn)行了比較。本研究發(fā)現(xiàn)GPT-3.5-turbo在四個(gè)領(lǐng)域都遙遙領(lǐng)先。還發(fā)現(xiàn),MOSS16B模型雖然有160億參數(shù),卻具有接近隨機(jī)的準(zhǔn)確率(大約25%)。相比之下,參數(shù)量更低的Bloom家族的bloomz_560m、bloomz_1b1、bloomz_3b、bloomz_7b1_mt以及ChatGLM6B的zero-shot準(zhǔn)確率都要更高。
盡管bloomz_560m模型的參數(shù)量最小,它的表現(xiàn)卻超越了參數(shù)量更大的bloomz_1b1模型和MOSS16B模型。這些結(jié)果表明,雖然模型參數(shù)量是實(shí)現(xiàn)強(qiáng)大性能的關(guān)鍵因素,但訓(xùn)練的方式和數(shù)據(jù)也非常重要。
turbo在大多數(shù)子任務(wù)上都取得了相對最高準(zhǔn)確率,緊隨其后的是ChatGLM6B,但這兩個(gè)模型的性能都不均衡。表3顯示了所有模型在教育子任務(wù)上的準(zhǔn)確性。它表明這兩個(gè)模型在所有任務(wù)上的表現(xiàn)都低于60%,GPT-3.5-turbo的準(zhǔn)確率從生物的59.9%到語文的31.0%不等,而ChatGLM6B的準(zhǔn)確率從歷史的44.8%到物理的25.6%不等。
總的來說,所有模型在物理任務(wù)上的表現(xiàn)均不佳。表2顯示,計(jì)算量大的數(shù)學(xué)、物理科目的準(zhǔn)確率往往較低。對于GPT-3.5-turbo而言,準(zhǔn)確率最低的任務(wù)依次是語文、物理、數(shù)學(xué)科目。部分原因可能是GPT-3.5-turbo的中文訓(xùn)練數(shù)據(jù)不足,導(dǎo)致中文語文科目表現(xiàn)不佳,并且與解決程序性問題相比,模型更容易解答陳述性問題。
測試還表明,所有模型在few-shot模式下都有不同程度的性能下降(見表3)。例如,與zero-shot準(zhǔn)確率相比,GPT-3.5-turbo在語文、化學(xué)、政治和地理子任務(wù)上的few-shot準(zhǔn)確率都有下降。而這種趨勢在ChatGLM6B模型上體現(xiàn)得更加明顯,ChatGLM6B在所有教育子任務(wù)上的few-shot準(zhǔn)確率都低于zero-shot準(zhǔn)確率。我們認(rèn)為這可能是由于GPT-3.5-turbo和Chat?GLM6B已經(jīng)經(jīng)過了較為充分的指令微調(diào)和與人類偏好的對齊,因此few-shot模式下的5個(gè)示例反而給模型造成了困擾。
3討論
3.1評測結(jié)果分析
與針對英文語言的MMLU相同,本研究的測試方式不需要大型訓(xùn)練集。本研究假設(shè)模型已經(jīng)通過閱讀互聯(lián)網(wǎng)上大量不同的文本獲取了必要的知識,這個(gè)過程通常稱為預(yù)訓(xùn)練。
人類主要通過閱讀書籍、聽老師講課和做練習(xí)題來學(xué)習(xí)新知識。因此,本研究提供了few-shot測試模式,并為每個(gè)任務(wù)提供調(diào)試集和測驗(yàn)集。調(diào)試集用于few-shot提示,測驗(yàn)集用于計(jì)算最終準(zhǔn)確率。
以表4展示的醫(yī)療領(lǐng)域?yàn)槔?,所有模型在諸多醫(yī)療子任務(wù)上的準(zhǔn)確率都低于60%,表現(xiàn)僅次于GPT-3.5-turbo的ChatGLM6B在諸多醫(yī)療子任務(wù)上的zeroshot準(zhǔn)確率甚至沒有超過50%。因此,未來的研究應(yīng)該特別致力于提高模型在醫(yī)療、法律等垂直領(lǐng)域任務(wù)的準(zhǔn)確性。此外,所有模型在全部任務(wù)上的表現(xiàn)都未達(dá)到優(yōu)秀水平(90%)。
目前尚不清楚簡單地增大參數(shù)量是否能在這些任務(wù)上取得提升,因?yàn)閿?shù)據(jù)也可能是一個(gè)重要的瓶頸。這些大模型訓(xùn)練通常采用海量互聯(lián)網(wǎng)公開數(shù)據(jù),數(shù)據(jù)的高效篩選以及垂直領(lǐng)域高質(zhì)量數(shù)據(jù)的標(biāo)注也非常重要。
通過觀察表1-表4中的數(shù)據(jù),可以發(fā)現(xiàn)一些有趣的趨勢。首先,在四個(gè)主要領(lǐng)域中,GPT-3.5-turbo的zero-shot準(zhǔn)確率普遍高于其他模型,這表明更大的模型參數(shù)量可能有助于提高模型在這些任務(wù)上的性能。
然而,即使是性能最佳的GPT-3.5-turbo,其在法律領(lǐng)域的準(zhǔn)確率也只有0.239,遠(yuǎn)低于理想水平,這突出了法律領(lǐng)域?qū)δP屠斫饽芰Φ奶魬?zhàn)。
此外,在教育子任務(wù)中,所有模型在物理和數(shù)學(xué)科目上的表現(xiàn)普遍較差,這可能反映出這些科目的問題對模型的推理能力提出了更高的要求。相比之下,模型在歷史和政治科目上的表現(xiàn)相對較好,可能因?yàn)檫@些科目更依賴于語言理解能力。
從醫(yī)療子任務(wù)的表現(xiàn)來看,大多數(shù)模型在臨床醫(yī)學(xué)和皮膚性病學(xué)上的表現(xiàn)相對較好,而在組織胚胎學(xué)和藥物分析學(xué)上表現(xiàn)較差。這可能反映了不同醫(yī)學(xué)領(lǐng)域?qū)δP椭R和推理能力的不同要求。
總的來說,雖然大規(guī)模預(yù)訓(xùn)練模型在多任務(wù)測試中取得了一定的成績,但它們在特定領(lǐng)域和子任務(wù)上的表現(xiàn)仍然存在很大的差異。這強(qiáng)調(diào)了未來研究的重點(diǎn)應(yīng)該是提高模型在垂直領(lǐng)域任務(wù)上的性能。
3.2模型改進(jìn)建議
1)領(lǐng)域特定的預(yù)訓(xùn)練。針對在法律和醫(yī)療等特定領(lǐng)域表現(xiàn)不佳的問題,可以采用領(lǐng)域特定的預(yù)訓(xùn)練方法。通過使用與目標(biāo)領(lǐng)域相關(guān)的文本進(jìn)行預(yù)訓(xùn)練,可以增強(qiáng)模型在該領(lǐng)域的理解能力。
2)多任務(wù)學(xué)習(xí)??紤]到模型在不同任務(wù)上的表現(xiàn)存在差異,可以采用多任務(wù)學(xué)習(xí)方法,同時(shí)訓(xùn)練模型在多個(gè)任務(wù)上進(jìn)行優(yōu)化。這種方法可以幫助模型學(xué)習(xí)到跨任務(wù)的通用特征,提高其在多個(gè)領(lǐng)域的表現(xiàn)。
3)任務(wù)特定的微調(diào)。在zero-shot測試中,模型可能沒有充分利用任務(wù)的特定信息??梢栽谖⒄{(diào)階段引入任務(wù)特定的信息,例如使用與任務(wù)相關(guān)的提示或示例,以幫助模型更好地理解任務(wù)要求。
4)知識融合。考慮到模型在某些科目上的表現(xiàn)較差,可以嘗試將外部知識融合到模型中。例如,對于數(shù)學(xué)和物理等科目,可以將數(shù)學(xué)公式和物理定律作為先驗(yàn)知識融入模型中,以提高模型在這些科目上的推理能力。
5)模型架構(gòu)的改進(jìn)。針對模型在特定任務(wù)上的局限性,可以探索新的模型架構(gòu)。例如,對于需要強(qiáng)推理能力的任務(wù),可以設(shè)計(jì)能夠進(jìn)行邏輯推理和關(guān)系推斷的模型架構(gòu)。
6)數(shù)據(jù)增強(qiáng)。為了提高模型在特定任務(wù)上的表現(xiàn),可以采用數(shù)據(jù)增強(qiáng)技術(shù),生成更多樣化的訓(xùn)練樣本。這有助于模型學(xué)習(xí)到更豐富的特征表示,提高其泛化能力。
7)細(xì)粒度評估。在評估模型性能時(shí),可以采用更細(xì)粒度的評估方法,針對不同的任務(wù)和子任務(wù)進(jìn)行單獨(dú)評估。這有助于更準(zhǔn)確地識別模型在哪些方面存在不足,從而有針對性地進(jìn)行改進(jìn)。
通過采用這些改進(jìn)方法,可以有效提高模型在多任務(wù)測試中的表現(xiàn),特別是在那些模型表現(xiàn)不佳的領(lǐng)域和任務(wù)上。
5總結(jié)
本研究提出了一種新的中文語言測試,覆蓋醫(yī)學(xué)、法律、心理學(xué)和教育四個(gè)主要領(lǐng)域及其多個(gè)子任務(wù),旨在評估預(yù)訓(xùn)練的中文大型語言模型在解決跨領(lǐng)域問題的能力。通過對不同規(guī)模模型的測試發(fā)現(xiàn),模型的參數(shù)量增加并不總是能帶來性能的提升,模型的訓(xùn)練策略和所使用的數(shù)據(jù)集的質(zhì)量對其性能有著決定性的影響。即便是在性能最佳的模型中,其在特定任務(wù)上的表現(xiàn)也未能達(dá)到理想的優(yōu)秀水平,這表明當(dāng)前的模型仍然存在明顯的局限性。
為了進(jìn)一步提升模型的性能,研究者們應(yīng)該關(guān)注如何設(shè)計(jì)更有效的模型架構(gòu),以便更準(zhǔn)確地捕捉和學(xué)習(xí)文本數(shù)據(jù)中的知識。此外,開發(fā)和標(biāo)注高質(zhì)量的數(shù)據(jù)集也至關(guān)重要,這不僅能夠提供更豐富的訓(xùn)練材料,還能夠幫助模型更好地理解和處理復(fù)雜的問題??傊?,未來的工作應(yīng)該著重于探索更先進(jìn)的建模技術(shù)和優(yōu)化數(shù)據(jù)處理方法,以推動中文大型語言模型在多領(lǐng)域任務(wù)中的應(yīng)用和發(fā)展。