摘要:[目的/意義]通過對國內(nèi)外典型的大語言模型所生成的中文論文摘要進行對比分析,總結(jié)歸納兩者間的異同點,為大語言模型后續(xù)的深度開發(fā)和發(fā)展研究提供參考。[方法/過程]選取2023年國家社會科學(xué)基金年度項目中“圖書館、情報與文獻學(xué)”學(xué)科的121個課題作為題目,通過ChatGPT4.0與文心大模型4.0分別生成中文摘要,經(jīng)過數(shù)據(jù)預(yù)處理及文本分析,從高頻詞特征、詞性分布、句子數(shù)量以及摘要內(nèi)容長度等角度探討國內(nèi)外大語言模型生成內(nèi)容的異同。然后,與中文期刊《圖書情報工作》中的摘要寫作做對比,判斷大語言模型生成摘要是否貼合中文論文寫作規(guī)范。[結(jié)果/結(jié)論]文心一言生成摘要篇幅較短,字數(shù)較少,更貼合中文論文寫作標準,GPT生成摘要的平均字數(shù)及句子數(shù)量較多,通過對比兩個典型大語言模型生成內(nèi)容的差距及特點,為大語言模型的完善與進一步深度開發(fā)提供一定的參考。
關(guān)鍵詞:ChatGPT4.0;文心大模型4.0;中文論文摘要
分類號:G25
引用格式:邢淼, 田麗. 國內(nèi)外大語言模型生成中文論文摘要對比研究——以圖書情報領(lǐng)域為例[J/OL]. 知識管理論壇, 2024, 9(5): 437-447 [引用日期]. http://www.kmf.ac.cn/p/404/. (Citation: Xing Miao, Tian Li. Comparative Research on the Abstracts of Chinese Papers Generating Large Language Models at Home and Abroad: Taking the Field of Library and Information as an Example[J/OL]. Knowledge Management Forum, 2024, 9(5): 437-447 [cite date]. http://www.kmf.ac.cn/p/404/.)
1nbsp; 引言/Introduction
大語言模型通過大規(guī)模的數(shù)據(jù)集訓(xùn)練來學(xué)習(xí)、識別、總結(jié)、翻譯、預(yù)測和生成文本以及其他內(nèi)容,其快速發(fā)展也為編程、自然語言處理、搜索引擎、機器人等領(lǐng)域帶來了新的機遇。目前大語言模型的應(yīng)用十分廣泛,包括服務(wù)商運用咨詢服務(wù)機器人等AI對話的形式,了解用戶多元化的需求及問題反饋;輔助搜索引擎使其搜索結(jié)果更匹配用戶的需求與提問;使應(yīng)用與程序的開發(fā)實現(xiàn)技術(shù)上的突破;智能語音機器人為用戶提供多樣的便捷服務(wù)等[1]。
國外的大語言模型主要包括:OpenAI公司開發(fā)的ChatGPT,是目前最受全世界矚目的大語言模型,也是目前國外應(yīng)用最廣泛的大語言模型;谷歌研發(fā)的Meena聊天機器人,擁有海量的數(shù)據(jù),是一款多輪開放域?qū)υ挋C器人;Facebook發(fā)布的最新大語言模型LLaMA-2,是一款開源模型,能夠通過多種渠道獲??;微軟和英偉達(Nvidia)合作開發(fā)的Transformer語言模型MT-NLG能夠完成多種自然語言任務(wù),并具有極高的準確性。
國內(nèi)也開發(fā)了多種大語言模型,應(yīng)用于各行業(yè)、各領(lǐng)域。清華大學(xué)與智譜AI聯(lián)合開發(fā)的ChatGLM-6B[2]是支持中英雙語問答的開源對話語言模型,同時針對中文進行了優(yōu)化,具有62億個參數(shù),是世界范圍內(nèi)大熱的開源大語言模型之一。科大訊飛推出的星火認知大模型、字節(jié)跳動旗下的AI對話類產(chǎn)品Grace、復(fù)旦大學(xué)自然語言處理實驗室發(fā)布的MOSS、阿里云推出的通義千問語言模型等眾多國內(nèi)大語言模型均陸續(xù)獲批上線,是國內(nèi)人工智能生成技術(shù)不斷發(fā)展的產(chǎn)物,為企業(yè)、高校、專業(yè)機構(gòu)提供了技術(shù)支撐,大語言模型的出現(xiàn)與廣泛應(yīng)用也為人工智能生成內(nèi)容(artificial intelligence generated content, AIGC)帶來了新的變革。百度開發(fā)的全新一代知識增強大語言模型文心一言在國內(nèi)應(yīng)用十分廣泛。公開數(shù)據(jù)顯示[3],文心一言面向全社會開放一個多月,用戶規(guī)模達到4 500萬,開發(fā)者5.4萬,場景4 300個,應(yīng)用825個,插件超過500個,凝聚800萬開發(fā)者,服務(wù)22萬家企事業(yè)單位,基于飛槳深度學(xué)習(xí)平臺創(chuàng)建了80萬個模型。2023年10月,文心大模型4.0宣布上線,是國內(nèi)與ChatGPT在功能應(yīng)用上相似的同類型大語言模型。因此,筆者將比較ChatGPT4.0(以下簡稱GPT)與基于文心大模型4.0研發(fā)的文心一言在摘要生成方面的異同。
2" 相關(guān)研究/Related research
2.1" 大語言模型在不同領(lǐng)域的應(yīng)用研究
對于大語言模型應(yīng)用領(lǐng)域的研究十分廣泛,涉及教育、管理決策、醫(yī)療健康等。D. Jungwirth等[4]著重研究ChatGPT對實現(xiàn)可持續(xù)發(fā)展目標的看法與影響,得出ChatGPT具備在教育、健康和通信等領(lǐng)域為可持續(xù)發(fā)展目標做出貢獻的能力,同時指出ChatGPT通過模仿人類較弱的寫作能力來提高自然語言處理能力的潛力;W. Choi等[5]則研究了用戶應(yīng)用ChatGPT的體驗與感受,為制定正確運用人工智能等新興技術(shù)的相關(guān)政策提供了參考;D. Estau等[6]從處方審查、不良藥物反應(yīng)識別、不良藥物反應(yīng)因果關(guān)系評估以及藥物咨詢等方面,收集并評價ChatGPT給出的方案,從而總結(jié)ChatGPT在臨床藥學(xué)中的實踐能力與作用;J. H. Kim等[7]探討了ChatGPT對旅行者作出相關(guān)決策的影響,以及旅行者使用ChatGPT的場景及意圖,認為ChatGPT能夠輔助旅行者作出決策;翟其玲等[8]通過LDA(Latent Dirichlet Allocation)模型方法探析了AIGC應(yīng)用的熱點,包括人工智能概念股、智能數(shù)字內(nèi)容創(chuàng)作、數(shù)字經(jīng)濟下的科技股投資趨勢、自然語言技術(shù)的突破等,總結(jié)了AIGC的輿情熱點,為AIGC的未來發(fā)展研究提供參考;張新新等[9]指出生成式智能出版內(nèi)容未來會在出版大數(shù)據(jù)、高維度智能知識服務(wù)、出版+智能機器人、生成式智能出版物以及元宇宙出版等新產(chǎn)品、新業(yè)態(tài)等方面取得實質(zhì)性突破;馬永強等[10]指出,以ChatGPT為代表的人工智能大模型等數(shù)智技術(shù)為科研創(chuàng)新提供較為準確的信息以及常規(guī)的知識聚合服務(wù),為科研人員提供個性化、細粒度的知識和場景化的解決方案,輔助科研人員更好地進行科研創(chuàng)新服務(wù)。
2.2" 大語言模型輔助學(xué)術(shù)研究
國內(nèi)外學(xué)者重點對包括ChatGPT在內(nèi)的大語言模型在學(xué)科領(lǐng)域范圍內(nèi)的實踐與影響進行研究。陸偉等[11]基于對ChatGPT本質(zhì)及其系列模型的核心技術(shù)特征演進路徑進行分析,從支撐算法與技術(shù)、信息資源建設(shè)、信息組織與信息檢索、信息治理、內(nèi)容安全與評價、人機智能交互與協(xié)同6個角度探析大模型對信息資源管理學(xué)科研究與實踐帶來的影響,指出在大語言模型發(fā)展的時代下信息資源管理學(xué)科機遇與挑戰(zhàn)并存;曹樹金等[12]表示生成式AI在綜合性知識服務(wù)、社會信息服務(wù)、學(xué)術(shù)信息服務(wù)和決策情報服務(wù)4個方面對情報領(lǐng)域的實踐有深刻的影響,情報學(xué)科能夠與AI技術(shù)交叉融合以實現(xiàn)學(xué)科創(chuàng)新發(fā)展;趙浜等[13]在Gpt-3.5-Turbo與ChatGLM-6B大語言模型上進行測試,詳細分析了國內(nèi)外大語言模型在情報領(lǐng)域多方面典型工作中的運用能力水平;張宏玲等[14]指出,大語言模型的應(yīng)用為圖書館數(shù)字人文工作帶來新的范式變革,未來數(shù)字人文工作的后臺支持將向大語言模型進行轉(zhuǎn)型,前臺的應(yīng)用也會廣泛采用自然語言交互等形式,從而實現(xiàn)圖書館數(shù)字人文工作的智慧化轉(zhuǎn)型;張強等[15]表示,ChatGPT可助力圖書館的信息資源管理建設(shè)、智慧空間場景建設(shè)、智能咨詢服務(wù)建設(shè)和館員服務(wù)能力建設(shè),從而介入智慧圖書館建設(shè),并為其提供新思路新方向。在醫(yī)學(xué)研究領(lǐng)域,M. Zuckerman等[16]通過ChatGPT生成醫(yī)學(xué)教育評估項目,將ChatGPT生成的內(nèi)容與專家編寫的項目統(tǒng)計數(shù)據(jù)進行比較,進一步確定ChatGPT最適合的問題類型,并納入最終的項目,從而提高了內(nèi)容的創(chuàng)作效率;H. Alkaissi等[17]通過要求ChatGPT根據(jù)提供的病例特征撰寫對應(yīng)疾病的發(fā)病機制,來探討ChatGPT在醫(yī)學(xué)科學(xué)寫作方面的作用以及影響。
2.3" 大語言模型生成內(nèi)容研究
對大語言模型生成內(nèi)容的研究主要集中在其特征、價值與創(chuàng)新性方面。王一博等[18]從實證角度分析AI生成與學(xué)者撰寫的中文論文摘要內(nèi)容之間的檢測與差異性,歸納總結(jié)了AI生成的優(yōu)缺點和寫作特征,并對ChatGPT和人類產(chǎn)出論文的引言內(nèi)容進行分析對比;郭鑫等[19]通過查重測試檢驗人工生成內(nèi)容的重復(fù)性,總結(jié)大語言模型生成內(nèi)容與模式的特點;王雅琪等[20]探討了ChatGPT用于論文創(chuàng)新性評價的效果與可行性,在生命科學(xué)、細胞免疫等6個學(xué)術(shù)研究領(lǐng)域進行生成內(nèi)容創(chuàng)新性測驗,認為GPT生成內(nèi)容的創(chuàng)新性、準確性稍顯不足,可以成為學(xué)術(shù)寫作的輔助工具;M. Salvagno等[21]探討了ChatGPT在科學(xué)寫作中的應(yīng)用,認為其生成內(nèi)容有助于協(xié)助研究人員組織資料、生成或校對文章,但在運用生成內(nèi)容過程中可能會出現(xiàn)剽竊、不準確等道德問題,并且不同國家之間的訪問性也存在不平衡等問題。此外,大語言模型生成內(nèi)容在專利技術(shù)應(yīng)用、醫(yī)患溝通等場景中都有重要作用。白如江等[22]提到ChatGPT在專利技術(shù)生成方面的應(yīng)用,ChatGPT與技術(shù)功效矩陣任務(wù)相結(jié)合,拓展了ChatGPT與AIGC的應(yīng)用場景,為AI技術(shù)輔助文本挖掘、信息抽取、專利分析提供了新的思路;J.W. Ayers等[23]對比評估公共社交媒體論壇中ChatGPT與醫(yī)生對于患者提出問題的回答內(nèi)容,探究ChatGPT對患者問題提供優(yōu)質(zhì)和感同身受的回復(fù)的能力。
目前,對于大語言模型的研究大致分為人工智能生成與人類生成內(nèi)容對比分析,AIGC的實際應(yīng)用、發(fā)展與影響研究兩大方向,主要關(guān)注AIGC的理論與實踐應(yīng)用研究,而針對國內(nèi)外不同的代表性大語言模型工具各方面運行特征的對比分析較少。因此,筆者以相同主題和條件的指令為控制變量,對國外具有代表性的大語言模型GPT和國內(nèi)應(yīng)用廣泛、規(guī)模較大、功能完善的文心一言的生成內(nèi)容進行多維度的分析比對,總結(jié)兩者的異同,探究大語言模型在中文內(nèi)容生成方面的特點,為大語言模型后續(xù)的深度開發(fā)和發(fā)展研究提供參考。
3" 研究設(shè)計/Research design
選定特定的大語言模型作為研究對象,并確定要分析的數(shù)據(jù)源,作為大語言模型生成內(nèi)容的主題條件。利用Python進行數(shù)據(jù)預(yù)處理,對預(yù)處理后的結(jié)果進行二次人工篩查,最后對處理后的文本數(shù)據(jù)進行文本分析,對比并總結(jié)分析后的結(jié)果。研究設(shè)計框架如圖1所示:
3.1" 數(shù)據(jù)準備
3.1.1" 大模型選擇
GPT作為國外大語言模型的代表之作,問世至今熱度仍舊不減,引發(fā)不同領(lǐng)域的研究與思考熱潮,最新發(fā)布的GPT4.0能力更強,應(yīng)用范圍更加廣泛,影響力更廣,因此選取GPT4.0作為國外大語言模型的代表進行研究。
百度開發(fā)的文心一言是國內(nèi)最早開發(fā)、最早啟動測試的類GPT大語言模型,是百度在文心大模型的技術(shù)基礎(chǔ)上研發(fā)的對話問答式語言模型。目前文心大模型已全面升級至文心大模型4.0。文心一言全面開放,人人皆可用,在對話功能實現(xiàn)方面與GPT異曲同工。因此,選取基于文心大模型4.0的文心一言作為國內(nèi)大語言模型代表,對標GPT4.0進行進一步分析研究。
3.1.2" 數(shù)據(jù)源選擇
為探究大語言模型的創(chuàng)作能力以及生成內(nèi)容的可靠性、準確性等要素特征,選取全國哲學(xué)社會科學(xué)辦公室公布的“2023年國家社科基金年度項目立項名單”中,所在學(xué)科為“圖書館、情報與文獻學(xué)”的課題名稱作為論文主題,共計121條。分別要求“GPT”和“文心一言”根據(jù)所提供的論文主題和指令要求,為每個主題撰寫中文論文摘要,再分別將二者生成的摘要內(nèi)容匯總,作為后續(xù)數(shù)據(jù)處理與文本分析的數(shù)據(jù)源。以下為向大語言模型提供的指令:“我將提供一個中文學(xué)術(shù)主題,希望您根據(jù)此主題為我撰寫字數(shù)在250字到300字的中文論文摘要,主題是:……”。
3.2" 數(shù)據(jù)分析
3.2.1" 數(shù)據(jù)預(yù)處理
對大語言模型生成的摘要文本進行數(shù)據(jù)預(yù)處理,主要分為以下4個步驟:①創(chuàng)建自定義詞表。根據(jù)所選的121條主題條目,結(jié)合圖書情報領(lǐng)域?qū)I(yè)術(shù)語,將特定詞匯、專有名詞、新興詞匯等寫入自定義詞表,避免后續(xù)分詞將專業(yè)詞匯拆分,影響數(shù)據(jù)分析結(jié)果。②設(shè)置停用詞表。為探究大語言模型對指令輸出的真實結(jié)果,選取哈工大停用詞表中標點符號及特殊符號部分,并添加少量無實際意義的字詞(如“的”“了”等),將其作為停用詞表,在分詞過程中清理不必要的詞語。③中文分詞及詞性標注。運用jieba分詞,結(jié)合自定義詞表與停用詞表對大語言模型生成的摘要文本分別進行分詞,并標注詞性。④數(shù)據(jù)統(tǒng)計。該過程的主要目的是為文本分析做準備。將分詞與詞性標注結(jié)果分別寫入文件,并分別統(tǒng)計高頻詞占比與詞性分布概率。統(tǒng)計大語言模型生成摘要的長度,以CSV文件的格式進行保存,方便后續(xù)處理分析。
3.2.2" 文本分析
采用文本分析、對比分析方法,包括高頻詞占比、詞性分布統(tǒng)計、句子數(shù)量對比、摘要長度分析等,揭示GPT與文心一言之間生成中文摘要的異同點。
分析文本中詞語的出現(xiàn)頻率,揭示詞語的重要性,統(tǒng)計分析大語言模型撰寫的摘要中各類詞匯的詞性,從中總結(jié)大語言模型內(nèi)容生成的特點,發(fā)掘其寫作特征。在完成數(shù)據(jù)預(yù)處理后,將分詞與詞性標注結(jié)果分別寫入文件,并分別統(tǒng)計詞頻與詞性分布概率,分別按照從大到小的順序進行排列。對比兩者生成摘要中句子的數(shù)量,分析兩個大語言模型生成摘要的長度,對比兩者寫作的特征,以及是否符合所給指令的要求限制,進一步對比總結(jié)出兩者的異同。
3.3" 對比分析
對文本分析結(jié)果進行統(tǒng)計與對比分析,從詞、句、篇3個維度對比GPT生成摘要與文心一言生成摘要。此外,選擇圖書情報領(lǐng)域綜合性較強的中文核心期刊《圖書情報工作》作為對比對象,統(tǒng)計其2023年最新發(fā)布的121篇中文期刊論文摘要,主要從摘要平均字符數(shù)、摘要句子總數(shù)、摘要平均句子數(shù)、每句平均字數(shù)4個方面分別與GPT生成摘要與文心一言生成摘要進行對比,從而判斷大語言模型生成摘要是否符合中文摘要的形式特征。
4" 對比分析結(jié)果/Comparative analysis results
4.1" 高頻詞占比分析
高頻詞體現(xiàn)了文本中詞語的重要程度和運用情況,側(cè)面反映了撰寫方的側(cè)重點,從而凸顯寫作特點與用詞特征。由于文本篇幅不同,因此通過比較高頻詞在全部詞語中所占的比例,分析兩者生成摘要內(nèi)容的用詞特征與習(xí)慣。再次對分詞結(jié)果進行人工篩查后,統(tǒng)計GPT生成和文心一言生成摘要內(nèi)容的前20個高頻詞所占比進行對比分析,結(jié)果如表1所示:
數(shù)據(jù)顯示,在GPT生成摘要的高頻詞中,第一與第二位高頻詞所占比相差約為12個百分點,差距較大;文心一言生成摘要中第一與第二位高頻詞所占比相差約5個百分點,且“研究”一詞在兩個大語言模型生成摘要中,均位于高頻詞第一位。對比高頻詞在全部詞語中的占比可以發(fā)現(xiàn),文心一言生成摘要的高頻詞占比均多于GPT生成摘要的高頻詞所占比,說明文心一言對于論文摘要寫作相關(guān)詞語的運用更為集中。對比前20個高頻詞語,發(fā)現(xiàn)GPT與文心一言生成摘要中有13個共同高頻詞(占比65%),包括“研究”“文化”“信息”“發(fā)展”等。除此之外,各有7個詞語(占比35%)非另一方的高頻詞,即表1中加粗詞語。
將大語言模型生成內(nèi)容中的詞語詞性分為論文寫作中常見的4種類型,即名詞、動詞、動名詞與介詞,通過分詞詞性標注,分別統(tǒng)計GPT與文心一言生成的摘要文本中以上4類詞語的數(shù)量,如表2所示:
數(shù)據(jù)顯示,GPT與文心一言在中文摘要寫作詞語運用方面差距仍較大,GPT生成摘要中各詞性的詞語運用均多于文心一言生成摘要。結(jié)合表1可以發(fā)現(xiàn),在GPT與文心一言生成摘要的前20個高頻詞中,名詞數(shù)量占比分別為40%、25%;動詞分別占比25%、35%;動名詞分別占比20%、15%;介詞分別占5%、10%。由此可見,GPT生成摘要中名詞與動名詞運用較多,文心一言生成摘要運用動詞與介詞較多,GPT與文心一言在中文摘要生成上的差異除詞語的含義和詞語的用法外,對于詞語詞性的運用也有明顯差別。
在詞頻對比方面,分析兩者生成摘要的高頻詞及詞性分布,可以看出GPT生成摘要中主要包含“通過”“提出”“包括”等與提出觀點與方法相關(guān)的表達,以及“數(shù)據(jù)”“用戶”“服務(wù)”等與提供的主題相關(guān)的名詞。文心一言生成摘要中主要包括“分析”“推動”“創(chuàng)新”“意義”等論文寫作表達常見的詞匯,更偏向于常規(guī)學(xué)術(shù)寫作的詞匯應(yīng)用習(xí)慣。而GPT與文心一言生成摘要中均有“本文”“我們”“文章”等詞語字眼的出現(xiàn),且詞頻較高,說明在這類詞語的運用上不貼合中文論文摘要寫作規(guī)范。針對生成摘要中學(xué)術(shù)寫作相關(guān)詞匯運用這一方面,應(yīng)將中文論文寫作的常用詞及期刊中普遍列出的不應(yīng)采用的詞語,寫入訓(xùn)練集,并加強對大語言模型的訓(xùn)練。
4.2" 摘要句子數(shù)量對比分析
以生成摘要中的句號為節(jié)點,每一句號處記為完整的一句話,據(jù)此統(tǒng)計GPT與文心一言生成摘要的句子數(shù)量。結(jié)果顯示,GPT生成摘要句子總數(shù)為1 209句,文心一言生成摘要句子總數(shù)為675句,因此推算121篇摘要的句子數(shù)量分別約為9句/篇和6句/篇,因此將期待平均值分別預(yù)設(shè)為9和6,生成GPT與文心一言生成摘要句子數(shù)量正態(tài)分布擬合直方圖,見圖2。
統(tǒng)計結(jié)果顯示,GPT生成摘要句子數(shù)量平均值為8.98句,句子數(shù)量在9—10句較多;文心一言生成摘要句子數(shù)量平均值為6.05句,句子一般分布在6句左右。GPT生成摘要句子數(shù)量數(shù)據(jù)分布均較為集中,說明GPT生成的每一篇摘要之間,句子數(shù)量差距較小。此外,句子數(shù)量過少的情況出現(xiàn)在文心一言生成的摘要中的頻率比GPT生成摘要的頻率要高;相反,GPT生成摘要中句子數(shù)量過多的頻率也大于文心一言生成摘要。
在句子數(shù)量對比方面,兩者生成摘要的句子總數(shù)相差354句,GPT生成摘要每篇句子數(shù)量都較多,普遍在9句左右,而文心一言生成摘要一般在6句左右,說明文心一言生成摘要的句子數(shù)量普遍不多,更加符合中文摘要簡明扼要的標準。
4.3" 摘要長度對比分析
摘要是論文寫作的第一部分,也是文章的濃縮精華,摘要長度在一定程度上衡量了摘要所包含的信息量以及摘要撰寫的詳細程度,過長的摘要也容易造成信息的冗余。探討大語言模型生成的摘要長度,以此分析大語言模型的寫作特征以及彼此之間的差異。分別統(tǒng)計GPT和文心一言生成的摘要長度,并據(jù)此繪制正態(tài)分布擬合直方圖(見圖3)。
結(jié)果顯示,GPT生成摘要長度的平均值為441.24個字符,均方差值為47.59個字符,文心一言生成摘要長度的平均值與均方差值分別為247.11個字符和18.40個字符。兩者生成的摘要長度平均值相差近200個字符,說明文心一言生成摘要的長度遠小于GPT生成摘要長度。文心一言生成摘要的正態(tài)分布曲線更高更窄,表示文心一言生成的摘要之間的長度差異性較小,分布比較集中,而GPT生成的摘要之間長度存在一定的差距,波動較大,數(shù)據(jù)分布較分散。
通過繪制兩者生成摘要長度的箱線圖(見圖4),進一步直觀地對比分析摘要長度之間的差異。結(jié)果顯示,GPT生成摘要長度的最大值為565個字符,最小值為335個字符,極差為230個字符;而文心一言生成摘要長度最大值為300個字符,最小值為201個字符,極差為99個字符,GPT與文心一言生成摘要的長度平均字數(shù)相差200字符左右。說明在主題與指令相同的情況下,GPT生成的摘要彼此之間的寫作長度差異較大,文心一言生成摘要長度整體較短,且差異較小。與所給指令中“字數(shù)在250字到300字”的要求相比,GPT生成的121篇摘要均不在指令所給范圍內(nèi),文心一言生成摘要中有54篇的字數(shù)在250—300字之間,占比約為45%,說明文心一言生成摘要更加符合指令要求,大語言模型在指令辨別、讀取及執(zhí)行方面的準確度還應(yīng)繼續(xù)加強與改進。
4.4" 與中文期刊摘要對比分析
選取《圖書情報工作》期刊中2023年第10期至第20期的121篇學(xué)術(shù)期刊的摘要,將GPT與文心一言生成摘要分別與其進行對比,主要分析大語言模型生成的中文摘要形式是否符合常規(guī)中文摘要的寫作規(guī)范,如表3所示:
對比結(jié)果顯示,GPT與文心一言生成摘要的長度與句子數(shù)量均多于期刊中學(xué)者撰寫的摘要,而摘要中每一句的平均字符數(shù)卻少于學(xué)者撰寫的,說明大語言模型生成摘要句子數(shù)量雖多,但每句字數(shù)較少,而學(xué)者撰寫的摘要句子總數(shù)較少,每句字數(shù)較多。綜合摘要句子數(shù)及平均字符數(shù)來看,文心一言生成摘要整體上較為貼近中文摘要寫作規(guī)范,大語言模型也應(yīng)以更多的期刊論文為訓(xùn)練集訓(xùn)練其寫作與創(chuàng)作能力。
5" 結(jié)語/Conclusions
筆者主要從詞、句、篇3個方面分析了GPT與文心一言生成中文摘要內(nèi)容的特征及異同點,對比兩者生成內(nèi)容的高頻詞、句子數(shù)量、摘要長度等特征,發(fā)現(xiàn)大語言模型之間原創(chuàng)能力存在一定差距。最后與《圖書情報工作》期刊中收錄的學(xué)者撰寫摘要進行簡要對比,判斷大語言模型生成摘要是否貼合中文論文摘要寫作規(guī)范,為日后大語言模型的深度開發(fā)提供有益的參考。
經(jīng)過對GPT與文心一言兩個國內(nèi)外代表性大語言模型生成中文摘要的內(nèi)容特征進行分析,發(fā)現(xiàn)大語言模型雖然在智能問答及學(xué)術(shù)寫作方面有著廣泛的應(yīng)用并在不斷更新完善,但其生成的內(nèi)容仍舊并非完全符合指令的需求,且內(nèi)容質(zhì)量有待商榷,對于學(xué)術(shù)論文寫作而言,其生成中文摘要的寫作規(guī)范與實際學(xué)術(shù)表達大不相同。大語言模型在學(xué)術(shù)論文寫作中發(fā)揮了一定的輔助作用,正確準確地運用其參與學(xué)術(shù)寫作等研究活動,需要學(xué)者、大模型開發(fā)商共同協(xié)作。大語言模型開發(fā)商應(yīng)該更加側(cè)重模型的訓(xùn)練和調(diào)試,及時豐富更新訓(xùn)練集,提高大語言模型運行的準確度。
本文基于多維度分析對比了國內(nèi)外大語言模型生成圖情領(lǐng)域中文論文摘要的特點與異同,未來可以針對大語言模型在多領(lǐng)域、多學(xué)科、多場景的應(yīng)用與發(fā)展開展更加深入的研究。本文也存在一定的不足,例如僅針對圖書情報領(lǐng)域內(nèi)的中文摘要進行對比研究,僅選擇兩個具有代表性的國內(nèi)和國外大語言模型作為研究對象進行分析探討,對于大語言模型的訓(xùn)練還不充分,不同的提問方式可能會產(chǎn)生不同的研究結(jié)果,因此在模型選擇、模型訓(xùn)練語句的數(shù)量和多領(lǐng)域融合等方面還有待進一步深入探索。
參考文獻/References:
[1] 麗臺科技. 大型語言模型有哪些用途?大型語言模型如何運作呢?[EB/OL]. [2024-06-15]. https://www.elecfans.com/d/2024516.html. (LEADTEK. What are the uses of large-scale language models? how do large-scale language models work? [EB/OL]. [2024-06-15]. https://www.elecfans.com/d/2024516.html.)
[2] 清華大學(xué). 國產(chǎn)對話模型ChatGLM啟動內(nèi)測[EB/OL]. [2024-06-15]. https://www.tsinghua.edu.cn/info/1182/102133.htm. (TSINGHUA UNIVERSITY. A domestic dialogue model, ChatGLM has started internal testing[EB/OL]. [2024-06-15]. https://www.tsinghua.edu.cn/info/1182/102133.htm.)
[3] 百度. 最新成果!中國計算機大會現(xiàn)場王海峰揭秘文心大模型4.0[EB/OL]. [2024-06-15]. https://mp.weixin.qq.com/s/K5WRrfIoDtxPkZIlgXo9xQ. (BAIDU. Latest achievement! Wang Haifeng reveals ERNIE Bot4.0 at China computer conference [EB/OL]. [2024-06-15]. https://mp.weixin.qq.com/s/K5WRrfIoDtxPkZIlgXo9xQ.)
[4] JUNGWIRTH D, HALUZA D. Artificial intelligence and the sustainable development goals: an exploratory study in the context of the society domain[J]. Journal of software engineering and applications, 2023, 16(4): 91-112.
[5] CHOI W, ZHANG Y, STVILIA B. Exploring applications and user experience with generative AI tools: a content analysis of reddit posts on ChatGPT[J]. Proceedings of the Association for Information Science and Technology, 2023, 60(1): 543-546.
[6] HUANG X R, ESTAU D, LIU X N, et al. Evaluating the performance of ChatGPT in clinical pharmacy: a comparative study of ChatGPT and clinical pharmacists[J]. British journal of clinical pharmacology, 2024, 90(1): 232-238.
[7] KIM J H, KIM J, KIM S, et al. Effects of AI ChatGPT on travelers’ travel decision-making[J]. Tourism review, 2024, 79(5): 1038-1057.
[8] 翟其玲, 張佳怡, 劉寶瑞, 等.基于LDA主題模型對AIGC的影響力分析[J]. 數(shù)據(jù)挖掘, 2023, 13(4): 366-375. (ZHAI Q L, ZHANG J Y, LIU B R, et al. Influence analysis of AIGC based on LDA topic model[J]. Hans journal of data mining, 2023, 13(4): 366-375.)
[9] 張新新, 黃如花.生成式智能出版的應(yīng)用場景、風(fēng)險挑戰(zhàn)與調(diào)治路徑[J]. 圖書情報知識, 2023, 40(5): 77-86, 27. (ZHANG X X, HUANG R H. Application scenarios, risk challenges and regulatory pathways of generative intelligent publishing[J]. Documentation, information amp; knowledge, 2023, 40(5): 77-86, 27.)
[10] 陸偉, 馬永強, 劉家偉, 等. 數(shù)智賦能的科研創(chuàng)新——基于數(shù)智技術(shù)的創(chuàng)新輔助框架探析[J]. 情報學(xué)報, 2023, 42(9): 1009-1017. (LU W, MA Y Q, LIU J W, et al. Data intelligence empowered innovation: an exploration of the innovation assistance framework based on data intelligence technology[J]. Journal of the China Society for Scientific and Technical Information, 2023, 42(9): 1009-1017.)
[11] 陸偉, 劉家偉, 馬永強, 等. ChatGPT為代表的大模型對信息資源管理的影響[J]. 圖書情報知識, 2023, 40(2): 6-9, 70. (LU W, LIU J W, MA Y Q, et al. The influence of language models represented by ChatGPT on information resources management[J]. Documentation, information amp; knowledge, 2023, 40(2): 6-9, 70.)
[12] 曹樹金, 曹茹燁. 從ChatGPT看生成式AI對情報學(xué)研究與實踐的影響[J]. 現(xiàn)代情報, 2023, 43(4): 3-10. (CAO S J, CAO R Y. Influence of generative AI on the research and practice of information science from the perspective of ChatGPT[J]. Journal of modern information, 2023, 43(4): 3-10.)
[13] 趙浜, 曹樹金. 國內(nèi)外生成式AI大模型執(zhí)行情報領(lǐng)域典型任務(wù)的測試分析[J]. 情報資料工作, 2023, 44(5): 6-17. (ZHAO B, CAO S J. Test analysis of typical tasks in the information field performed by generative AI large models at home and abroad[J]. Information and documentation services, 2023, 44(5): 6-17.)
[14] 張宏玲, 沈立力, 韓春磊, 等.大語言模型對圖書館數(shù)字人文工作的挑戰(zhàn)及應(yīng)對思考[J]. 圖書館雜志, 2023, 42(11): 31-39, 61. (ZHANG H L, SHEN L L, HAN C L, et al. Challenges and reflections on the practical application of large language model in digital humanities work at libraries[J]. Library journal, 2023, 42(11): 31-39, 61.)
[15] 張強, 高穎, 趙逸淳, 等.ChatGPT在智慧圖書館建設(shè)中的機遇與挑戰(zhàn)[J]. 圖書館理論與實踐, 2023(6): 116-122. (ZHANG Q, GAO Y, ZHAO Y C, et al. The opportunity and challenge of ChatGPT in the construction of intelligent library[J]. Library theory and practice, 2023(6): 116-122.)
[16] ZUCKERMAN M, FLOOD R, TAN R J B, et al. ChatGPT for assessment writing[J]. Medical teacher, 2023, 45(11): 1224-1227.
[17] ALKAISSI H, MCFARLANE S I. Artificial hallucinations in ChatGPT: implications in scientific writing[J]. Cureus journal of medical science, 2023, 15(2): e35179.
[18] 王一博, 郭鑫, 劉智鋒, 等. AI生成與學(xué)者撰寫中文論文摘要的檢測與差異性比較研究[J]. 情報雜志, 2023, 42(9): 127-134. (WANG Y B, GUO X, LIU Z F, et al. Detection and comparative study of differences between AI-generated and scholar-written Chinese abstracts[J]. Journal of intelligence, 2023, 42(9): 127-134.)
[19] 郭鑫, 王一博, 王繼民.ChatGPT生成中文學(xué)術(shù)內(nèi)容分析——以情報學(xué)領(lǐng)域為例[J]. 圖書館論壇, 2024, 44(3): 134-143. (GUO X, WANG Y B, WANG J M. Feature analysis of Chinese academic content generated by ChatGPT: an example in the field of intelligence[J]. Library tribune, 2024, 44(3): 134-143.)
[20] 王雅琪, 曹樹金.ChatGPT用于論文創(chuàng)新性評價的效果及可行性分析[J]. 情報資料工作, 2023, 44(5): 28-38. (WANG Y Q, CAO S J. The effect and feasibility analysis of ChatGPT used in paper innovativeness evaluation[J]. Information and documentation services, 2023, 44(5): 28-38.)
[21] SALVAGNO M, TACCONE F S, GERLI A G. Can artificial intelligence help for scientific writing?[J]. Critical care, 2023, 27(1): 75-79.
[22] 白如江, 陳啟明, 張玉潔, 等. 基于ChatGPT+Prompt的專利技術(shù)功效實體自動生成研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2024, 8 (4): 14-25. (BAI R J, CHEN Q M, ZHANG Y J, et al. Research on automatic entities generation of patent technology function matrix based on ChatGPT+Prompt[J]. Data analysis and knowledge discovery, 2024, 8(4): 14-25.)
[23] AYERS J W, POLIAK A, DREDZE M, et al. Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum[J]. JAMA internal medicine, 2023, 183(6): 589-596.
作者貢獻說明/Author contributions:
邢" 淼:文本分析,論文初稿撰寫;
田" 麗:研究設(shè)計,論文定稿。
Comparative Research on the Abstracts of Chinese Papers Generating Large Language Models at Home and Abroad: Taking the Field of Library and Information as an Example
Xing Miao1" Tian Li1,2
1Department of Management, Liaoning Normal University, Dalian 116082
2Dalian Public Culture and Social Development Research Center, Dalian 116399
Abstract: [Purpose/Significance] By comparing and analyzing the abstracts of Chinese papers generated by typical Large Language Models at home and abroad, we summarize the similarities and differences between the two, and provide references for the subsequent in-depth development of the Large Language Models and the development of research. [Method/Process] 121 topics in the discipline of “Library, Intelligence and Documentation “in the annual project of the National Social Science Foundation of China in 2023 were selected as the topics. The Chinese abstracts were generated by ChatGPT4.0 and ERNIE 4.0 respectively, and were analyzed in terms of the characteristics of high-frequency words, the distribution of words, the number of sentences, and the length of the abstract content to explore the similarities and differences of the content generated by the Large Language Models at home and abroad through the data preprocessing and the text analysis. Then, the comparison was also made with the abstracts written in the Chinese journal “Library and Intelligence Service” to determine whether the abstracts generated by the large language model are in line with the norms of Chinese thesis writing. [Result/Conclusion] The abstracts generated by ERNIE Bot are shorter, with fewer words, and more suitable for Chinese paper writing standards, while GPT generates abstracts with more words and sentences on average. By comparing the gaps and characteristics of the contents generated by the two typical Large Language Models, we can provide certain references for the improvement and further in-depth development of the Large Language Models.
Keywords: ChatGPT4.0" " ERNIE 4.0" " Chinese abstracts
Fund project(s): Xing Miao, master candidate; Tian Li, professor, master supervisor, corresponding author, E-mail: 358879854@qq.com.
Received: 2024-05-23" " Published: 2024-09-18