摘 要:在構(gòu)建高性能大模型時(shí),大規(guī)模高質(zhì)量數(shù)據(jù)的重要性不容忽視。本研究旨在深入探究這一核心要素,并系統(tǒng)評(píng)估其在專業(yè)領(lǐng)域中的實(shí)際應(yīng)用效果與潛在價(jià)值。本研究基于中國(guó)知網(wǎng)大量專業(yè)文獻(xiàn),構(gòu)建了一個(gè)包含1 316.45億token的學(xué)術(shù)資源數(shù)據(jù)集AcaDS和2 700萬(wàn)條指令的下游微調(diào)數(shù)據(jù)集AcaDSI,采用Transformer架構(gòu)設(shè)計(jì)并訓(xùn)練了一個(gè)70億參數(shù)規(guī)模的生成式學(xué)術(shù)大模型AcaLM-7B。通過(guò)實(shí)驗(yàn)評(píng)測(cè),AcaLM-7B在面向?qū)W術(shù)研究的6個(gè)核心應(yīng)用場(chǎng)景中獲得總積分第一、3個(gè)單項(xiàng)第一和2個(gè)單項(xiàng)第二,驗(yàn)證了大規(guī)模高質(zhì)量數(shù)據(jù)資源在構(gòu)建專業(yè)大模型中的核心地位。此外,本研究在數(shù)字出版行業(yè)具有實(shí)際應(yīng)用價(jià)值,有利于提升內(nèi)容生產(chǎn)效率并優(yōu)化用戶體驗(yàn)。
關(guān)鍵詞:高質(zhì)量數(shù)據(jù);學(xué)術(shù)大模型;出版大模型;知網(wǎng)大模型;專業(yè)應(yīng)用場(chǎng)景;模型評(píng)測(cè)
DOI: 10.3969/j.issn.2097-1869.2024.03.014 文獻(xiàn)標(biāo)識(shí)碼: A
著錄格式:薛德軍,師慶輝,畢琰虹,等.數(shù)據(jù)引擎驅(qū)動(dòng)的學(xué)術(shù)出版大模型:實(shí)測(cè)檢驗(yàn)大規(guī)模高質(zhì)量數(shù)據(jù)在構(gòu)建高性能模型中的核心地位[J].數(shù)字出版研究,2024,3(3):122-132.
隨著人工智能技術(shù)的持續(xù)發(fā)展,大模型的應(yīng)用已廣泛滲透到多個(gè)領(lǐng)域[1-2],展現(xiàn)出卓越的性能和廣泛的應(yīng)用前景[3]。大模型不僅提升了處理各種任務(wù)的能力[4],也為特定領(lǐng)域的任務(wù)提供了更加高效的解決方案[5-6]。然而,實(shí)際應(yīng)用場(chǎng)景的下游任務(wù)越來(lái)越專業(yè)化與復(fù)雜化,這意味著對(duì)大模型性能的要求也越來(lái)越高[7-10]。影響大模型性能的因素眾多,其中高質(zhì)量數(shù)據(jù)已越發(fā)重要并成為核心要素。數(shù)據(jù)的質(zhì)量和規(guī)模直接關(guān)系到模型訓(xùn)練的效果和最終性能表現(xiàn)[11]。無(wú)論是針對(duì)通用任務(wù)還是特定領(lǐng)域的專業(yè)應(yīng)用,高質(zhì)量的數(shù)據(jù)都是構(gòu)建高性能模型的基礎(chǔ)[12]。特別是在專業(yè)應(yīng)用領(lǐng)域如學(xué)術(shù)研究,通用數(shù)據(jù)集往往難以覆蓋該特定領(lǐng)域的專業(yè)知識(shí)和細(xì)節(jié)。
目前公開的通用大模型在處理學(xué)術(shù)任務(wù)時(shí),其性能常受限于缺乏針對(duì)學(xué)術(shù)領(lǐng)域的特定訓(xùn)練數(shù)據(jù)。因此,通用大模型在理解和生成學(xué)術(shù)文獻(xiàn)中的專業(yè)術(shù)語(yǔ)、研究方法、核心思想等任務(wù)中的準(zhǔn)確性往往不高,將其應(yīng)用于自動(dòng)摘要生成、學(xué)術(shù)問(wèn)答、段落總結(jié)等學(xué)術(shù)應(yīng)用場(chǎng)景時(shí),其性能受到限制,難以完全滿足學(xué)術(shù)需求。此外,學(xué)術(shù)領(lǐng)域的數(shù)據(jù)通常較為稀缺且分散,這進(jìn)一步增加了模型訓(xùn)練的難度。同時(shí),學(xué)術(shù)領(lǐng)域的專業(yè)性和獨(dú)特性使得通用大模型在遷移到其他領(lǐng)域時(shí),可能需要額外的調(diào)整和優(yōu)化,以適應(yīng)新的領(lǐng)域特性。因此,構(gòu)建一個(gè)高質(zhì)量的學(xué)術(shù)數(shù)據(jù)集,并在此基礎(chǔ)上訓(xùn)練出能夠服務(wù)于學(xué)術(shù)研究的大模型,不僅有助于推動(dòng)學(xué)術(shù)研究的智能化,提高研究效率和準(zhǔn)確性,還能促進(jìn)跨學(xué)科研究的融合與創(chuàng)新。同時(shí),這也為人工智能技術(shù)在學(xué)術(shù)領(lǐng)域的應(yīng)用帶來(lái)了新的機(jī)遇和挑戰(zhàn)。
本研究基于中國(guó)知網(wǎng)(以下簡(jiǎn)稱“知網(wǎng)”)豐富的學(xué)術(shù)資源,篩選出覆蓋廣泛學(xué)科領(lǐng)域的多類型學(xué)術(shù)文獻(xiàn),構(gòu)建了一個(gè)具有專業(yè)性和多樣性的高質(zhì)量學(xué)術(shù)數(shù)據(jù)集AcaDS。采用Transformer架構(gòu)訓(xùn)練了一個(gè)70億參數(shù)規(guī)模的生成式學(xué)術(shù)大模型AcaLM-7B,并通過(guò)實(shí)驗(yàn)評(píng)測(cè)該模型在面向?qū)W術(shù)研究的6個(gè)核心應(yīng)用場(chǎng)景中的性能,從而分析大規(guī)模高質(zhì)量數(shù)據(jù)資源在構(gòu)建專業(yè)大模型中的作用。
1 基礎(chǔ)數(shù)據(jù)集與指令數(shù)據(jù)集構(gòu)建
1.1 高質(zhì)量數(shù)據(jù)集特性
在構(gòu)建用于訓(xùn)練學(xué)術(shù)大模型的數(shù)據(jù)集時(shí),高質(zhì)量數(shù)據(jù)集的特性尤為重要。這些特性不僅關(guān)乎模型訓(xùn)練的效率和效果,更直接影響模型在下游任務(wù)中的性能表現(xiàn)[11-12]。以下是從數(shù)量規(guī)模、數(shù)據(jù)質(zhì)量、多樣性、專業(yè)性和通用性等方面對(duì)高質(zhì)量數(shù)據(jù)集特性的闡述。
首先,高質(zhì)量數(shù)據(jù)集應(yīng)具備一定的數(shù)量規(guī)模。這種規(guī)模不僅體現(xiàn)在數(shù)據(jù)量的多少,更在于數(shù)據(jù)是否能夠全面覆蓋下游領(lǐng)域的任務(wù)。數(shù)據(jù)集需要包含足夠多的樣本,以確保模型能夠?qū)W習(xí)各領(lǐng)域的知識(shí)。
其次,數(shù)據(jù)質(zhì)量是高質(zhì)量數(shù)據(jù)集的核心要素。數(shù)據(jù)集的來(lái)源應(yīng)是專業(yè)領(lǐng)域內(nèi)被廣泛認(rèn)可的權(quán)威數(shù)據(jù),以保證數(shù)據(jù)的可靠性。數(shù)據(jù)應(yīng)經(jīng)過(guò)進(jìn)一步嚴(yán)格篩選和清洗,去除其中的噪聲、重復(fù)和無(wú)關(guān)信息,以確保數(shù)據(jù)的準(zhǔn)確性。
此外,數(shù)據(jù)的多樣性也是高質(zhì)量數(shù)據(jù)集的重要特性。多樣性體現(xiàn)在數(shù)據(jù)的來(lái)源、類型及數(shù)據(jù)在各維度上的平衡。學(xué)術(shù)大模型通常是面向多任務(wù)的,數(shù)據(jù)集需要在滿足覆蓋多學(xué)科要求的同時(shí),在各學(xué)科領(lǐng)域之間保持平衡,以避免模型在訓(xùn)練中出現(xiàn)偏倚或過(guò)度擬合的情況。
最后,數(shù)據(jù)的專業(yè)性和通用性也是高質(zhì)量數(shù)據(jù)集的特性。專業(yè)性體現(xiàn)在數(shù)據(jù)集包含特定領(lǐng)域的專業(yè)基礎(chǔ)和前沿技術(shù)。通用性則體現(xiàn)在數(shù)據(jù)集具備廣泛的適用性,能夠支持多種應(yīng)用場(chǎng)景。專業(yè)性和通用性的結(jié)合有助于模型在特定領(lǐng)域內(nèi)表現(xiàn)出色,同時(shí)也使其具備一定的跨領(lǐng)域應(yīng)用能力。
1.2 基礎(chǔ)數(shù)據(jù)集構(gòu)建
基于知網(wǎng)學(xué)術(shù)資源庫(kù),本研究收集了學(xué)術(shù)期刊、各類型論文、報(bào)紙、專利等多類型的學(xué)術(shù)文獻(xiàn),總計(jì)約2 902.5億字文本數(shù)據(jù),覆蓋近億篇文獻(xiàn),文本數(shù)據(jù)來(lái)源分布見(jiàn)表1?;谠撐谋緮?shù)據(jù)進(jìn)行嚴(yán)格的數(shù)據(jù)篩選和清洗,去除噪聲和重復(fù)信息,保留高質(zhì)量的數(shù)據(jù)樣本,構(gòu)建了1 316.45億token的學(xué)術(shù)資源數(shù)據(jù)集AcaDS。
數(shù)據(jù)集AcaDS在數(shù)據(jù)分布上力求均勻,覆蓋不同年份及廣泛學(xué)科,以提供全面、深入的學(xué)術(shù)領(lǐng)域知識(shí)。AcaDS中不同科學(xué)領(lǐng)域數(shù)據(jù)的占比情況見(jiàn)圖1。
AcaDS充分滿足了高質(zhì)量數(shù)據(jù)集在數(shù)量規(guī)模、數(shù)據(jù)質(zhì)量、多樣性等方面的要求。其權(quán)威的數(shù)據(jù)來(lái)源、嚴(yán)格的數(shù)據(jù)篩選和清洗過(guò)程,以及廣泛覆蓋不同學(xué)科領(lǐng)域的特點(diǎn),使得AcaDS能夠?yàn)閷W(xué)術(shù)大模型的訓(xùn)練提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
1.3 數(shù)據(jù)預(yù)處理
在數(shù)據(jù)預(yù)處理階段,首先進(jìn)行數(shù)據(jù)去重操作以確保數(shù)據(jù)質(zhì)量,旨在消除冗余和重復(fù)的數(shù)據(jù),以提高數(shù)據(jù)集的純凈度和有效性。
接著進(jìn)行分詞處理,將學(xué)術(shù)文本切分為獨(dú)立的詞匯單元。由于學(xué)術(shù)文本的復(fù)雜性和專業(yè)性,分詞算法需要特別考慮專業(yè)術(shù)語(yǔ)和縮寫詞,以確保準(zhǔn)確捕捉文本中的關(guān)鍵信息。
最后,利用字節(jié)對(duì)編碼(Byte Pair Encoding,BPE)算法[13]將文本轉(zhuǎn)換為固定長(zhǎng)度的向量序列。BPE算法通過(guò)合并最常出現(xiàn)的子詞來(lái)生成新的詞匯單元,有效解決了未登錄詞(Out of Vocabulary,OOV)1和稀有詞的問(wèn)題,為模型訓(xùn)練提供有效的數(shù)值化表示。這種表示方式不僅保留了文本中的關(guān)鍵信息,還降低了數(shù)據(jù)的維度和復(fù)雜性,從而提高了模型的訓(xùn)練效率和準(zhǔn)確性。
1.4 指令數(shù)據(jù)集構(gòu)建
本研究基于基礎(chǔ)數(shù)據(jù)集AcaDS,根據(jù)學(xué)術(shù)論文的特點(diǎn),抽取文章中的標(biāo)題、摘要、大綱等關(guān)鍵數(shù)據(jù),自動(dòng)構(gòu)建了包含2 700萬(wàn)條指令的大規(guī)模指令數(shù)據(jù)集AcaDSI。該數(shù)據(jù)集專注于6個(gè)核心學(xué)術(shù)領(lǐng)域的任務(wù),包括摘要生成、文本續(xù)寫、段落總結(jié)、大綱生成、開放問(wèn)答和抽取問(wèn)答。AcaDSI構(gòu)建步驟見(jiàn)表2。
2 模型結(jié)構(gòu)與訓(xùn)練策略
2.1 模型結(jié)構(gòu)
AcaLM-7B模型是以開源模型LLaMa-7B[14]為基礎(chǔ),針對(duì)學(xué)術(shù)領(lǐng)域的深度優(yōu)化而構(gòu)建的大型語(yǔ)言模型,參數(shù)規(guī)模70億。其核心結(jié)構(gòu)包含一個(gè)4 096維度的詞向量嵌入層,通過(guò)堆疊32層的Transformer結(jié)構(gòu)來(lái)捕捉文本中的深層語(yǔ)義信息,每一層采用32個(gè)注意力頭數(shù)。此外,詞表大小設(shè)置為55 000,以支持多語(yǔ)種、多符號(hào)的學(xué)術(shù)文本表達(dá)能力,窗口長(zhǎng)度為8 192,以支持對(duì)長(zhǎng)文本的有效處理。
針對(duì)學(xué)術(shù)領(lǐng)域的優(yōu)化方面,由于LLaMa-7B模型原始詞典在適應(yīng)學(xué)術(shù)文本上存在不足,因此本文利用學(xué)術(shù)領(lǐng)域數(shù)據(jù),通過(guò)BPE算法[13]生成了具備學(xué)術(shù)特色的詞典,并采用詞級(jí)粒度對(duì)文本進(jìn)行分詞處理。這不僅增強(qiáng)了模型對(duì)學(xué)術(shù)語(yǔ)義信息的理解,還提升了其處理長(zhǎng)文本的能力。此外,本文引入DeepNorm方法[15]替換原有歸一化策略,有效緩解了模型參數(shù)更新問(wèn)題,提高了訓(xùn)練穩(wěn)定性,為模型未來(lái)擴(kuò)展到更大規(guī)模(如百億級(jí)別)奠定基礎(chǔ)。
2.2 訓(xùn)練策略
AcaLM-7B模型的訓(xùn)練經(jīng)歷了兩個(gè)階段:首先,在1 316.45億token的預(yù)訓(xùn)練數(shù)據(jù)集AcaDS上進(jìn)行訓(xùn)練,使模型掌握學(xué)術(shù)語(yǔ)言規(guī)律;然后,在2 700萬(wàn)條指令的指令數(shù)據(jù)集AcaDSI上進(jìn)行微調(diào),確保預(yù)訓(xùn)練后的模型更適應(yīng)學(xué)術(shù)下游任務(wù)的具體應(yīng)用場(chǎng)景。
訓(xùn)練硬件環(huán)境為GPU_Nvidia_A800_640G_ 8GPU-Mods*4。
3 實(shí)驗(yàn)結(jié)果
3.1 評(píng)測(cè)任務(wù)與數(shù)據(jù)集
為檢驗(yàn)AcaLM-7B模型的學(xué)術(shù)服務(wù)能力,本研究設(shè)計(jì)了6個(gè)學(xué)術(shù)領(lǐng)域常用的應(yīng)用場(chǎng)景:摘要生成、文本續(xù)寫、段落總結(jié)、大綱生成、開放問(wèn)答和抽取問(wèn)答,這些場(chǎng)景覆蓋了學(xué)術(shù)寫作與研究的多個(gè)方面。任務(wù)描述與評(píng)測(cè)目標(biāo)見(jiàn)表3。每項(xiàng)任務(wù)從指令數(shù)據(jù)集AcaDSI中隨機(jī)抽取30個(gè)樣本(不放回)作為測(cè)試數(shù)據(jù),構(gòu)成整個(gè)評(píng)測(cè)任務(wù)的數(shù)據(jù)集。
3.2 評(píng)測(cè)模型
在評(píng)測(cè)中,依據(jù)數(shù)據(jù)來(lái)源、模型大小等綜合因素,本文選取了華知大模型[16]和ChatGLM-6B[17]兩款大模型,與AcaLM-7B共同參與評(píng)測(cè)。
華知大模型,是同方知網(wǎng)與華為公司聯(lián)合研發(fā)的面向知識(shí)服務(wù)領(lǐng)域的大語(yǔ)言模型,參數(shù)規(guī)模約380億。該模型以盤古38B模型為基礎(chǔ),使用知網(wǎng)部分專業(yè)學(xué)術(shù)資源進(jìn)行增強(qiáng)訓(xùn)練,以提高其專業(yè)知識(shí)服務(wù)能力[16]。
ChatGLM-6B,是目前10B以下參數(shù)中質(zhì)量較好的開源通用大模型之一,它繼承了GLM-3系列前代模型的優(yōu)秀特性,支持多種復(fù)雜應(yīng)用場(chǎng)景,具有出色的通用性能[17]。
選擇華知大模型參與評(píng)測(cè),旨在探究大模型在結(jié)合專業(yè)資源訓(xùn)練后的性能表現(xiàn)。選擇ChatGLM-6B參與評(píng)測(cè),是由于其參數(shù)量與AcaLM-7B相近,在目前相近參數(shù)量的開源大模型中質(zhì)量較好,進(jìn)而可以對(duì)比其與僅依賴專業(yè)資源構(gòu)建的AcaLM-7B在性能上的差異,從而探究不同構(gòu)建方式對(duì)模型性能的影響機(jī)制。
3.3 人工評(píng)測(cè)
在人工評(píng)測(cè)環(huán)節(jié),筆者邀請(qǐng)5名具備大模型評(píng)測(cè)經(jīng)驗(yàn)的工作人員參與,通過(guò)多輪交叉評(píng)測(cè)確保結(jié)果的客觀性。在每輪評(píng)測(cè)中,工作人員隨機(jī)接收不同任務(wù),并在任務(wù)輪換中完成對(duì)多個(gè)模型的評(píng)測(cè),以減少主觀偏見(jiàn)。評(píng)測(cè)采用排名積分制(5分制),根據(jù)模型表現(xiàn)進(jìn)行排名并賦分。每輪任務(wù)完成后,計(jì)算平均得分作為本輪成績(jī),最終取多輪評(píng)測(cè)得分的均值,轉(zhuǎn)化為百分制(乘以20)得出模型的最終評(píng)測(cè)得分。
最后,每個(gè)模型在6項(xiàng)評(píng)測(cè)任務(wù)中的平均得分為該模型服務(wù)學(xué)術(shù)任務(wù)的總積分。
3.4 結(jié)果分析
對(duì)AcaLM-7B、華知大模型、ChatGLM-6B這3個(gè)大模型的綜合評(píng)測(cè)結(jié)果見(jiàn)表4,可視化效果圖見(jiàn)圖2。
綜合評(píng)測(cè)結(jié)果顯示,AcaLM-7B的總積分排名第一,華知大模型緊隨其后,ChatGLM-6B位列第三。此結(jié)果反映了3個(gè)大模型對(duì)下游學(xué)術(shù)任務(wù)的服務(wù)能力是不同的,AcaLM-7B整體效果最好。
3.4.1 AcaLM-7B
具體來(lái)看,AcaLM-7B在摘要生成、段落總結(jié)和抽取問(wèn)答3個(gè)任務(wù)中均排名第一,同時(shí)在文本續(xù)寫和大綱生成任務(wù)中排名第二,從而以最高總積分在綜合評(píng)測(cè)中脫穎而出。這充分說(shuō)明AcaLM-7B在理解和處理學(xué)術(shù)文本信息、提取關(guān)鍵學(xué)術(shù)內(nèi)容方面具有強(qiáng)大能力。摘要生成任務(wù)、段落總結(jié)任務(wù)評(píng)測(cè)中實(shí)例分別見(jiàn)表 5、表 6。
如表5所示,從摘要生成任務(wù)實(shí)例中可以看出,AcaLM-7B能夠準(zhǔn)確捕捉論文的核心內(nèi)容,并生成精煉且連貫的摘要文本。它成功地涵蓋了研究目的、方法、結(jié)果及結(jié)論等關(guān)鍵信息,提供了對(duì)論文全面且準(zhǔn)確的理解。相比之下,華知大模型與ChatGLM-6B在摘要生成方面稍顯不足,存在信息遺漏或表達(dá)不夠準(zhǔn)確的問(wèn)題。
實(shí)例1(Prompt 1)中,AcaLM-7B精準(zhǔn)捕捉了醫(yī)療旅游產(chǎn)業(yè)的發(fā)展概況、時(shí)空演化特征及影響因素等多個(gè)關(guān)鍵信息,并生成了具有高度概括性和可讀性的摘要;華知大模型雖然對(duì)醫(yī)療旅游產(chǎn)業(yè)的概念、發(fā)展現(xiàn)狀及耦合協(xié)調(diào)程度進(jìn)行了分析,但在表達(dá)上不夠準(zhǔn)確,部分信息未能完全捕捉;ChatGLM-6B雖然提供了較為詳細(xì)的內(nèi)容框架,但在具體信息的呈現(xiàn)上略顯籠統(tǒng),未能充分展現(xiàn)學(xué)術(shù)論文的精髓。
實(shí)例2(Prompt 2)中,AcaLM-7B不僅準(zhǔn)確提煉了研究的核心內(nèi)容,還對(duì)其設(shè)計(jì)原理、實(shí)現(xiàn)方法及實(shí)驗(yàn)驗(yàn)證結(jié)果進(jìn)行了詳盡而深入的分析,生成的摘要邏輯清晰、條理分明,能夠充分展現(xiàn)論文的創(chuàng)新點(diǎn)和學(xué)術(shù)價(jià)值;華知大模型雖然也提到了微帶反射陣單元的相位電可控設(shè)計(jì),但并未深入探討其設(shè)計(jì)原理和實(shí)現(xiàn)方法,只是簡(jiǎn)要概述了其優(yōu)點(diǎn)和應(yīng)用方向;ChatGLM-6B則更側(cè)重于從標(biāo)題中提取關(guān)鍵信息,生成了較為簡(jiǎn)潔的中心思想,缺乏對(duì)論文內(nèi)容的深入理解和闡述。
通過(guò)分析,AcaLM-7B在摘要生成任務(wù)上的優(yōu)勢(shì)主要得益于其訓(xùn)練過(guò)程中所使用的專業(yè)優(yōu)質(zhì)資源,這些資源為模型提供了豐富的學(xué)術(shù)領(lǐng)域知識(shí),使其能夠準(zhǔn)確地理解并生成學(xué)術(shù)文本的摘要。
如表6所示,從段落總結(jié)任務(wù)實(shí)例中可以看出,AcaLM-7B對(duì)信息的捕捉精準(zhǔn)且概括能力突出,華知大模型和ChatGLM-6B的總結(jié)內(nèi)容都稍顯冗長(zhǎng),在簡(jiǎn)潔性和概括性方面有所欠缺。
實(shí)例1(Prompt 1)中,對(duì)于養(yǎng)老保險(xiǎn)關(guān)系轉(zhuǎn)移規(guī)定的描述,AcaLM-7B的總結(jié)既準(zhǔn)確又簡(jiǎn)潔,直接點(diǎn)明了跨省轉(zhuǎn)移養(yǎng)老保險(xiǎn)關(guān)系的一般規(guī)定,充分體現(xiàn)了其高效的信息處理能力;華知大模型雖然準(zhǔn)確地提到了轉(zhuǎn)移的規(guī)定,但表述略顯冗長(zhǎng),超過(guò)了字?jǐn)?shù)限制;ChatGLM-6B則較為詳細(xì)地描述了轉(zhuǎn)移的各種情況,包括省內(nèi)外的不同處理方式,但同樣在字?jǐn)?shù)控制上稍顯不足。
實(shí)例2(Prompt 2)中,AcaLM-7B準(zhǔn)確地抓住了作文立意與學(xué)生個(gè)性發(fā)展之間的關(guān)系,并用簡(jiǎn)潔的語(yǔ)言進(jìn)行了概括,既符合字?jǐn)?shù)要求又體現(xiàn)了文本的核心要義;華知大模型較為全面地概括了作文教學(xué)中立意的重要性及如何通過(guò)提煉主題和滲透學(xué)生個(gè)性來(lái)培養(yǎng)學(xué)生寫出有新意的作文,但在字?jǐn)?shù)控制上仍稍顯不足;ChatGLM-6B則詳細(xì)描述了新課改的要求及如何通過(guò)具體例子來(lái)體現(xiàn)好的立意,但同樣在簡(jiǎn)潔性上有所欠缺。
通過(guò)分析,AcaLM-7B在段落總結(jié)任務(wù)中的出色表現(xiàn),同樣得益于其訓(xùn)練過(guò)程中的專業(yè)優(yōu)質(zhì)資源及模型架構(gòu)優(yōu)化。這些因素共同作用,使得AcaLM-7B能夠更準(zhǔn)確地理解段落內(nèi)容并生成簡(jiǎn)潔明了的總結(jié)。
3.4.2 華知大模型
華知大模型在大綱生成任務(wù)中排名第一,同時(shí)在摘要生成、段落總結(jié)、開放問(wèn)答及抽取問(wèn)答4項(xiàng)任務(wù)中位列第二,總積分排名第二。大綱生成任務(wù)評(píng)測(cè)中的實(shí)例見(jiàn)表7。
從大綱生成任務(wù)實(shí)例中可以看出,華知大模型能夠準(zhǔn)確布局論文的各個(gè)部分和章節(jié),并生成清晰的大綱框架,從引言到結(jié)論,每個(gè)部分都進(jìn)行了詳細(xì)的規(guī)劃和說(shuō)明。相比之下,AcaLM-7B與ChatGLM-6B在大綱生成時(shí)存在結(jié)構(gòu)不清晰或內(nèi)容不完整的問(wèn)題。
華知大模型的出色性能主要得益于兩方面:一是華知大模型以華為的38B盤古大模型為基座,基于知網(wǎng)的學(xué)術(shù)資源進(jìn)行二次訓(xùn)練,習(xí)得了專業(yè)領(lǐng)域的知識(shí)表示,有助于解決下游專業(yè)任務(wù);二是華知大模型的參數(shù)量比AcaLM-7B大5倍,因而知識(shí)表示更專業(yè)、學(xué)習(xí)能力更強(qiáng)。
3.4.3 ChatGLM-6B
ChatGLM-6B在文本續(xù)寫和開放問(wèn)答2個(gè)任務(wù)中排名第一,表現(xiàn)出該模型在理解和生成自然流暢文本、開放問(wèn)答場(chǎng)景方面的強(qiáng)大能力。特別是在開放問(wèn)答任務(wù)中,ChatGLM-6B的得分遠(yuǎn)高于其他2個(gè)模型,進(jìn)一步凸顯其在問(wèn)答領(lǐng)域的優(yōu)勢(shì)。開放問(wèn)答任務(wù)中的評(píng)測(cè)實(shí)例見(jiàn)表8。
開放問(wèn)答任務(wù)實(shí)例中可以看出,ChatGLM-6B能夠準(zhǔn)確理解問(wèn)題的背景和需求,并提取相關(guān)信息進(jìn)行回答。相比之下,AcaLM-7B與華知大模型在回答時(shí)存在信息不足或回答不夠準(zhǔn)確的問(wèn)題。
ChatGLM-6B在開放問(wèn)答任務(wù)中的出色表現(xiàn),主要由于模型在訓(xùn)練階段對(duì)通用問(wèn)答數(shù)據(jù)的深度挖掘及模型架構(gòu)針對(duì)問(wèn)答任務(wù)的專項(xiàng)優(yōu)化。這些因素共同促使ChatGLM-6B能夠精準(zhǔn)理解問(wèn)題,并從知識(shí)庫(kù)中提取相關(guān)信息,給出準(zhǔn)確回答。
然而,ChatGLM-6B在其他評(píng)測(cè)任務(wù)中的表現(xiàn)相對(duì)較弱。這源于該模型主要基于公開、通用的數(shù)據(jù)集進(jìn)行訓(xùn)練,缺乏專業(yè)文獻(xiàn)資源的支撐。因此,在應(yīng)對(duì)專業(yè)領(lǐng)域的開放問(wèn)題時(shí),ChatGLM-6B表現(xiàn)出一定的局限性。
通過(guò)對(duì)各個(gè)評(píng)測(cè)任務(wù)的結(jié)果分析,可以發(fā)現(xiàn)大模型的性能不僅與其參數(shù)規(guī)模緊密相關(guān),訓(xùn)練資源的多樣性、質(zhì)量、專業(yè)性及通用性也同樣關(guān)鍵。特別是,大規(guī)模高質(zhì)量專業(yè)數(shù)據(jù)資源對(duì)于大模型的性能提升具有顯著影響。華知大模型因龐大的參數(shù)量在特定任務(wù)中表現(xiàn)出色,ChatGLM-6B則凸顯通用知識(shí)的重要性,這也為提升AcaLM-6B整體性能提供了兩個(gè)方向:一是通過(guò)擴(kuò)大模型規(guī)模來(lái)增強(qiáng)其表示與學(xué)習(xí)能力;二是加入更多通用資源,以提高模型在特定領(lǐng)域與通用場(chǎng)景下的整體性能。實(shí)驗(yàn)結(jié)果論證了大規(guī)模高質(zhì)量數(shù)據(jù)在模型構(gòu)建與優(yōu)化中占據(jù)的核心地位。研究發(fā)現(xiàn)不應(yīng)僅關(guān)注模型參數(shù)的規(guī)模,更要深入探索如何有效整合和利用這些高質(zhì)量數(shù)據(jù),以推動(dòng)大模型技術(shù)的發(fā)展和性能的提升。
4 結(jié)語(yǔ)
本研究深入探究了大規(guī)模高質(zhì)量數(shù)據(jù)集在構(gòu)建專業(yè)大模型中的核心作用?;谥W(wǎng)大規(guī)模的專業(yè)文獻(xiàn),本研究構(gòu)建了包含1 316.45億token的高質(zhì)量學(xué)術(shù)資源數(shù)據(jù)集AcaDS,根據(jù)學(xué)術(shù)文獻(xiàn)特點(diǎn),自動(dòng)合成了2 700萬(wàn)條指令的微調(diào)數(shù)據(jù)集AcaDSI,訓(xùn)練了70億參數(shù)量的生成式學(xué)術(shù)大模型AcaLM-7B。針對(duì)學(xué)術(shù)研究常用的應(yīng)用場(chǎng)景,本研究設(shè)計(jì)了6個(gè)下游評(píng)測(cè)任務(wù),并對(duì)AcaLM-7B、華知大模型、ChatGLM-6B 這3個(gè)大模型進(jìn)行了綜合評(píng)測(cè)。
實(shí)驗(yàn)結(jié)果顯示,AcaLM-7B在面向?qū)W術(shù)研究的6個(gè)應(yīng)用場(chǎng)景中獲得總積分第一,并在摘要生成、段落總結(jié)和抽取問(wèn)答3個(gè)任務(wù)中均排名第一。這一結(jié)果充分驗(yàn)證了大規(guī)模高質(zhì)量數(shù)據(jù)資源在構(gòu)建專業(yè)大模型中的關(guān)鍵作用。AcaLM-7B通過(guò)利用知網(wǎng)大規(guī)模的專業(yè)文獻(xiàn)數(shù)據(jù),習(xí)得了豐富的專業(yè)領(lǐng)域知識(shí)表示,從而在處理學(xué)術(shù)任務(wù)時(shí)表現(xiàn)出色。
與此同時(shí),華知大模型和ChatGLM-6B也展現(xiàn)了各自的優(yōu)勢(shì)。華知大模型基于華為的38B盤古大模型,通過(guò)二次訓(xùn)練增加了學(xué)術(shù)資源,其龐大的參數(shù)量(比AcaLM-7B大5倍)使得其在大綱生成任務(wù)中表現(xiàn)突出。ChatGLM-6B則在文本續(xù)寫和開放問(wèn)答任務(wù)中取得了顯著成績(jī),特別是在開放問(wèn)答任務(wù)中,其得分遠(yuǎn)高于其他2個(gè)模型,凸顯了其在問(wèn)答領(lǐng)域的優(yōu)勢(shì)。
通過(guò)對(duì)比分析,本研究揭示了不同類型大模型在不同任務(wù)中的性能差異與潛在優(yōu)勢(shì)。這一發(fā)現(xiàn)不僅為構(gòu)建更加全面、均衡的高性能大模型提供了重要參考,也為未來(lái)研究指明了方向。未來(lái)研究可進(jìn)一步關(guān)注如何結(jié)合專業(yè)資源與通用知識(shí),構(gòu)建更加全面、均衡的高性能大模型,滿足多樣化實(shí)際應(yīng)用場(chǎng)景的需求。
未來(lái)的研究將不再局限于單一的數(shù)據(jù)集或模型,而是會(huì)進(jìn)一步探索多源數(shù)據(jù)的融合策略,構(gòu)建出更加全面、均衡的大模型。首先,進(jìn)一步探索多源數(shù)據(jù)的融合技術(shù),通過(guò)整合來(lái)自不同領(lǐng)域的數(shù)據(jù),構(gòu)建出更加豐富、均衡的數(shù)據(jù)集,以支持大模型在更廣泛場(chǎng)景下的應(yīng)用。其次,關(guān)注數(shù)據(jù)的動(dòng)態(tài)更新和擴(kuò)展。隨著學(xué)術(shù)領(lǐng)域知識(shí)的不斷發(fā)展和新研究成果的涌現(xiàn),數(shù)據(jù)集需要不斷更新以反映最新的學(xué)術(shù)動(dòng)態(tài)。此外,研究數(shù)據(jù)集的標(biāo)簽質(zhì)量和多樣性也非常重要,通過(guò)提高標(biāo)簽的準(zhǔn)確性和豐富性,進(jìn)一步提升大模型在各類學(xué)術(shù)任務(wù)中的性能。最后,研究將致力于構(gòu)建跨領(lǐng)域、跨語(yǔ)言的數(shù)據(jù)集,支持大模型在全球化、多語(yǔ)言環(huán)境下的應(yīng)用。這些研究方向?yàn)闃?gòu)建更高質(zhì)量、更具實(shí)際應(yīng)用價(jià)值的數(shù)據(jù)集提供有力支撐,并進(jìn)一步推動(dòng)專業(yè)大模型的發(fā)展。
作者簡(jiǎn)介
薛德軍,男,博士,同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司副總經(jīng)理兼總工程師、高級(jí)工程師。研究方向:自然語(yǔ)言處理、深度學(xué)習(xí)、大模型。
師慶輝,男,同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司技術(shù)研究院總經(jīng)理。研究方向:自然語(yǔ)言處理、深度學(xué)習(xí)、大模型。
畢琰虹,本文通信作者,女,博士,同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司中級(jí)工程師。研究方向:計(jì)算機(jī)視覺(jué)、人工智能、大模型。E-mail:byh11630@cnki.net。
蘆筱菲,男,碩士,同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司項(xiàng)目部經(jīng)理。研究方向:模式識(shí)別、人工智能、大模型。
陳婧,女,碩士,同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司軟件設(shè)計(jì)師。研究方向:深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)。
王旭,男,同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司中級(jí)工程師。研究方向:自然語(yǔ)言處理、大語(yǔ)言模型微調(diào)和壓縮。
王海山,男,碩士,同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司項(xiàng)目經(jīng)理。研究方向:圖像處理,數(shù)據(jù)分析。
耿崇,男,碩士,同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司技術(shù)研究院副總經(jīng)理。研究方向:自然語(yǔ)言處理、語(yǔ)義檢索、大模型。
吳晨,男,博士,同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司技術(shù)專家、高級(jí)工程師。研究方向:人工智能,區(qū)塊鏈。
參考文獻(xiàn)
ASHISH V, NOAM S, NIKI P, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017(30): 5998-6008.
BONAN M, HAYLEY R, ELIOR S, et al. Recent advances in natural language processing via Large pre-trained language models: A survey[J]. ACM Computing Surveys, 2024, 56(2): 1-40.
JACOB D, MING-WEI C, KENTON L, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL].(2018-10-11)[2024-05-20]. https://arxiv.org/pdf/1810.04805.
ALEC R, KARTHIK N, TIM S, et al. Improving language understanding by generative pre-training[EB/OL].[2024-05-20] .https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
ALEC R, JEFFREY W, REWON C, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019,1(8):9.
DING N, QIN Y, YANG G, et al. Parameter-efficient fine-tuning of large-scale pre-trained language models[J]. Nature Machine Intelligence, 2023, 5(3): 220-235.
ZHAO W X, ZHOU K, LI J, et al. A survey of large language models[EB/OL].(2023-03-31)[2024-05-20]. https://arxiv.org/pdf/2303.18223v1.
YUAN S, ZHAO H, ZHAO S, et al. A roadmap for big model[EB/OL].(2022-03-26)[2024-05-20]. https://arxiv.org/abs/2203.14101.
YANG J, JIN H, TANG R, et al. Harnessing the power of LLMs in practice: A survey on ChatGPT and beyond[EB/OL].(2023-04-26)[2024-05-20]. https://arxiv.org/pdf/2304.13712.
LONG O, WU J, XU J, et al. Training language models to follow instructions with human feedback[C]// Conference on Neural Information Processing Systems, New Orleans, Los Angeles, 2022, 35:27730-27744.
BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[C]// Conference on Neural Information Processing Systems, New Orleans, Los Angeles, 2020, 33:1877-1901.
LIU Y, CAO J, LIU C, et al. Datasets for large language models: A comprehensive survey[EB/OL].(2024-02-28)[2024-05-20]. https://arxiv.org/pdf/2402.18041.
SENNRICH R, HADDOW B, BIRCH A. Neural machine translation of rare words with subword units[EB/OL]. (2015-08-31)[2024-05-20]. https://arxiv.org/pdf/1508.07909.
HUGO T, THIBAUT L, GAUTIER I, et al. LLaMA: Open and efficient foundation language models[EB/OL]. (2023-02-27)[2024-05-20]. https://arxiv.org/pdf/2302.13971.
WANG H, MA S, DONG L, et al. DeepNet: Scaling transformers to 1,000 layers[EB/OL]. (2022-03-01)[2024-05-20]. https://arxiv.org/pdf/2203.00555.
華知.中華知識(shí)大模型[EB/OL].[2024-05-20].https://huazhi.cnki.net.
ChatGLM-6B: An open bilingual dialogue language model[EB/OL].[2024-05-20].https://github.com/THUDM/ChatGLM-6B.
Data-Driven Academic Publishing Large Model—An Empirical Test of Centrality of Large-Scale and High-Quality Data in Building High-Performance Models
XUE Dejun, SHI Qinghui, BI Yanhong , LU Xiaofei, CHEN Jing, WANG Xu, WANG Haishan, GENG Chong, WU Chen
Tongfang Knowledge Network Digital Publishing Technology Co.,Ltd, 100192, Beijing, China
Abstract: The importance of large-scale and high-quality data is paramount in building high-performing large models. This paper delved into this core element and systematically evaluated its practical application impacts and potential value in the professional field. Based on a large number of professional literature from China National Knowledge Infrastructure (CNKI), this paper constructed an academic resource dataset, AcaDS, containing 131.645 billion tokens and a fine-tuning dataset, AcaDSI, with 27 million instructions. A generative academic large model, AcaLM-7B, with 7 billion parameters was designed and trained using the Transformer architecture. Through experimental evaluation, AcaLM-7B achieved the first place in total score and the first place in three individual categories and the second place in two individual categories in six core application scenarios for academic research, demonstrating excellent performance and verifying the core position of large-scale and high-quality data resources in building professional large models. In addition, this paper facilitated the improvement of content production efficiency and optimization of user experience, and thus had practical application value in the digital publishing industry.
Keywords: High-quality data; Academic large model; Publishing large model; CNKI large model; Professional application scenarios; Model evalution