DOI:10.19619/j.issn.1007-1938.2025.00.022 作者單位:
引文格式:.國產(chǎn)人工智能大模型中文文字編校性能測試與分析[J].出版與印刷,2025(3): 58-69.
隨著人工智能技術(shù)特別是ChatGPT等大模型的迅猛發(fā)展和快速迭代,人工智能大模型(簡稱“AI大模型”)已逐漸成為各領(lǐng)域創(chuàng)新發(fā)展的重要驅(qū)動力。依托海量數(shù)據(jù)的訓(xùn)練和深度學(xué)習(xí)算法的迭代更新,AI大模型展現(xiàn)出卓越的能力,已廣泛應(yīng)用于人類社會和科學(xué)研究的各個(gè)領(lǐng)域,也給出版和編輯工作帶來了前所未有的機(jī)遇和挑戰(zhàn)。相較于傳統(tǒng)的人工智能,AI大模型憑借強(qiáng)大的自然語言處理功能、上下文理解能力與豐富的背景知識庫,能夠依據(jù)用戶指令迅速且準(zhǔn)確地解答問題,[11462因而在書刊編校工作中具有獨(dú)特的優(yōu)勢和巨大的應(yīng)用潛力。AI大模型能夠高效處理復(fù)雜的語言任務(wù),如語法糾錯、語言優(yōu)化、術(shù)語規(guī)范等,從而提升編校效率和質(zhì)量,優(yōu)化編校流程,縮短出版周期,有望推動出版工作從人工主導(dǎo)模式向人機(jī)協(xié)同的智能化工作流轉(zhuǎn)型。[2-3]
盡管AI大模型展現(xiàn)出巨大的潛力,但現(xiàn)有研究表明其在中文編校方面仍存在諸多不足。李真4以編校差錯典型案例為測試文本,對ChatGPT的編校功能進(jìn)行了測試,結(jié)果發(fā)現(xiàn)ChatGPT在圖書編校上的應(yīng)用效果有限,尤其在整體邏輯框架、行文風(fēng)格等方面表現(xiàn)較差,甚至?xí)黾泳庉嫷墓ぷ髫?fù)擔(dān)。李侗桐等[5]1014以中文論文摘要為測試文本,評估了ChatGPT在文字編輯中的實(shí)用性,發(fā)現(xiàn)其存在提供信息錯誤、術(shù)語誤用等問題。夏麗云等設(shè)計(jì)了不同差錯類型的測試文本,對36款大模型的編校性能進(jìn)行了測試,發(fā)現(xiàn)平均編校準(zhǔn)確率偏低,僅為 35% 。陳瑋等構(gòu)建了錯例庫,對國內(nèi)外6款A(yù)I大模型的中文編校能力進(jìn)行了測試,發(fā)現(xiàn)國產(chǎn)大模型在語言、邏輯等方面表現(xiàn)優(yōu)于ChatGPT,但在政治敏銳性和編校準(zhǔn)確性方面存在較大局限,得分率不足 60% 。綜上所述,國產(chǎn)大模型在中文文字編校方面存在一定優(yōu)勢,但實(shí)際編校能力存疑,編校工作中的應(yīng)用實(shí)例也尚未見報(bào)道。現(xiàn)有研究多采用人工構(gòu)造的模擬文本來測試AI大模型的編校性能,測試材料未能反映實(shí)際編校場景,測試方法尤其是提示詞設(shè)計(jì)等方面存在不足,測試結(jié)果也不能反映與人工編校的差異,因此對AI大模型的中文文字編校性能仍需進(jìn)行系統(tǒng)測試,以客觀評估其是否適用于實(shí)際編校任務(wù)。此外,鑒于AI大模型的快速迭代和自我優(yōu)化能力,近一年來國產(chǎn)AI大模型的文字編校性能及其應(yīng)用效果仍有待明確。
為了進(jìn)一步客觀評價(jià)國產(chǎn)AI大模型在中文文字編輯中的應(yīng)用性能,明確AI大模型是否適用于實(shí)際編校任務(wù),本文構(gòu)建了基于專業(yè)編校競賽試題的評估方法。首先,選取10款國內(nèi)廣泛使用的國產(chǎn)AI大模型為測試對象,以韜奮杯全國出版社青年編校大賽試題作為測試問題,使用AI大模型的問答系統(tǒng)對其中文文字編校性能進(jìn)行測試;然后,根據(jù)不同大模型在各類編校問題中的表現(xiàn),對比分析其整體性能、處理不同差錯類型問題的性能、與人工編校水平的差異,并梳理總結(jié)國產(chǎn)AI大模型的優(yōu)勢和局限,進(jìn)而提出應(yīng)用AI大模型開展文字編校工作的建議,以期為編校人員合理應(yīng)用AI大模型提供實(shí)證依據(jù)。
一、研究方法
(一)研究對象
為了較為全面地反映國產(chǎn)AI大模型在中文文字編校任務(wù)中的性能水平,本文選擇國內(nèi)知名度較高且應(yīng)用廣泛的10款國產(chǎn)AI大模型進(jìn)行測試。(見表1)這些AI大模型展現(xiàn)出諸多優(yōu)勢,例如:采用先進(jìn)的模型架構(gòu)和算法,具有快速計(jì)算和推理能力,滿足即時(shí)交互需求;具有較強(qiáng)的自然語言處理能力和用戶交互能力,能夠準(zhǔn)確解析用戶輸入的文本信息,為用戶提供較為全面的解答;融合了人文社科和自然科學(xué)多個(gè)領(lǐng)域的知識信息,適用于多種應(yīng)用場景;注冊簡便,使用門檻低,操作便捷;提供免費(fèi)服務(wù),用戶數(shù)量多。
(二)測試方案
1.測試問題
本文選擇韜奮杯全國出版社青年編校大賽編輯人員試題作為測試題目。該編校大賽是出版行業(yè)的一個(gè)重要賽事,始于2007年,至今已舉辦了八屆,受到了全行業(yè)的廣泛關(guān)注。[8試題設(shè)計(jì)緊密貼合出版業(yè)務(wù)實(shí)際,聚焦編輯工作中的關(guān)鍵問題和薄弱環(huán)節(jié),具有較強(qiáng)的實(shí)踐導(dǎo)向性。試題類型多樣,以語言文字應(yīng)用為主,考查編校人員對相關(guān)知識的掌握程度以及分析、辨誤、改錯等綜合編校能力;[試題考查內(nèi)容廣泛,覆蓋編校環(huán)節(jié)中常見的字詞、標(biāo)點(diǎn)、語法、邏輯、知識等差錯,具有較好的代表性和典型性,其中文稿編輯加工和校樣審改試題的數(shù)量和分值占比較大,[1]測試場景設(shè)計(jì)較為貼近編校實(shí)際。因此,該試題適合用來定量評估AI大模型的綜合文字編校能力。
為便于對比AI大模型與參賽人員的答題表現(xiàn),本文選擇有對參賽人員答題情況進(jìn)行分析[12]104的最近一屆大賽,即2019 年舉辦的第七屆韜奮杯全國出版社青年編校大賽的試題作為測試題目,以便比較AI大模型與參賽人員在編校能力上的差異。該屆大賽試題有編輯人員試題和校對人員試題兩種,兩者內(nèi)容多有重疊,由于校對人員試題中有部分題目以圖片格式呈現(xiàn),而AI大模型的問答系統(tǒng)目前僅限于處理非格式化文本的內(nèi)容,因此本文僅選擇編輯人員試題進(jìn)行測試。
試題準(zhǔn)備過程如下。
(1)文本去格式化
由于AI大模型問答系統(tǒng)的對話界面只能輸人非格式化文本,因此在測試時(shí)去掉了試題的字體、段落格式,在對話界面的文本框內(nèi)只輸入非格式化文本。
(2)試題篩選
因?yàn)锳I大模型問答系統(tǒng)只能處理文本形式的問題,所以剔除存在以下情況的試題:① 字詞格式差錯(如字體字號、正斜體、黑白體差錯等); ② 段落格式差錯(如轉(zhuǎn)行差錯、不符合版式要求的另起一段、空格等);③ 標(biāo)題格式差錯(如標(biāo)題位置、字體字號不統(tǒng)一等); ④ 插圖形式的試題。另外,有些帶有敏感詞語的問題,個(gè)別AI大模型會拒絕回答,這類試題也剔除。
篩選后的測試題目共有6類題型,分別為多項(xiàng)選擇題(16題,每題2分,共32分)單項(xiàng)選擇題(10題,每題1分,共10分)填空題(3題,5個(gè)得分點(diǎn),共5分)、修改語句或文稿片段(1題,9個(gè)得分點(diǎn),共9分)、編輯加工I(1題,30個(gè)得分點(diǎn),共25分)、編輯加工Ⅱ(1題,38個(gè)得分點(diǎn),共33分),合計(jì)總分為114分。(見表2)
(3)差錯類型標(biāo)注
為分析AI大模型對不同差錯類型問題的處理情況,本文參考試題答案,將試題的每個(gè)得分點(diǎn)按差錯類型進(jìn)行標(biāo)注,共分為7類:① 字詞差錯; ② 量和單位差錯; ③ 標(biāo)點(diǎn)符號差錯; ④ 語法差錯; ⑤ 知識差錯(包括事實(shí)性差錯和知識性差錯); ⑥ 邏輯差錯; ⑦ 參考文獻(xiàn)著錄錯誤。
2.提示詞設(shè)計(jì)
提示詞是用戶與AI大模型交互的橋梁,對AI大模型的輸出有重大影響。[13]提示詞一般由任務(wù)指令、背景信息、輸入數(shù)據(jù)和輸出指令組成,用以引導(dǎo)AI大模型根據(jù)具體任務(wù)、上下文信息、問題內(nèi)容和期望生成并輸出回答。[14]3本文參考“文心一言使用手冊”[15]以及陳嗣榮等[14]14提出的方法,針對不同題型要求設(shè)計(jì)提示詞,按角色、背景、問題和輸出要求設(shè)計(jì)提示詞。例如,按角色和背景設(shè)計(jì)提示詞如下。
角色:你是一位經(jīng)驗(yàn)豐富的圖書期刊編輯和校對人員,對于文字寫作、編輯和校對有深刻的認(rèn)識。
背景:編輯和校對人員的主要工作是依據(jù)各種權(quán)威圖書和期刊出版編輯規(guī)范和標(biāo)準(zhǔn)以及事實(shí)和常識,指出并修改文本中存在的詞語差錯、語法差錯、標(biāo)點(diǎn)符號差錯、知識性差錯、邏輯性差錯、政治性差錯等?,F(xiàn)在你正在參加一項(xiàng)全國性編校大賽,請按不同題型的要求完成后續(xù)提供的所有試題。
再針對不同題型要求設(shè)計(jì)提示詞。例如,對于多項(xiàng)選擇題,輸入的提示詞如下。
輸出要求:請按前面提出的角色和背景要求,完成下面的試題。
一、多項(xiàng)選擇題。在這些小題的備選項(xiàng)中,有2個(gè)或2個(gè)以上符合題意,至少有1個(gè)不符合題意。錯選任何一項(xiàng),該小題不得分;少選且所選選項(xiàng)均正確,所選的每個(gè)選項(xiàng)得0.5分。請回答以下16個(gè)題目,直接輸出選項(xiàng)的編號(如ABDE),不需要輸出分析過程。
試題內(nèi)容:·
再如,對于編輯加工類型的試題,輸入的提示詞如下。
輸出要求:請繼續(xù)按前面提出的角色和背景要求,結(jié)合常識和寫作規(guī)范,按編校規(guī)范改正下列文稿片段中可能存在的差錯或欠妥之處。
按以下步驟完成試題: ① 按文本順序,逐一檢查并分析文字中存在的每一處差錯或欠妥之處,但不要輸出分析過程; ② 所有可能存在的差錯或欠妥之處均須處理,如果沒有明顯的問題請勿改動; ③ 修改后產(chǎn)生差錯,倒扣分; ④ 輸出修改后的完整文稿。
下面的試題存在9個(gè)差錯或欠妥之處,請按以上步驟完成。
試題內(nèi)容:·
為客觀評價(jià)10款A(yù)I大模型的編校性能,本文輸入的提示詞都相同。
3.測試步驟
為了保證測試的客觀性,本文在相同的測試環(huán)境(即同一計(jì)算機(jī)、操作系統(tǒng)、瀏覽器)中于同一時(shí)間段內(nèi)進(jìn)行測試。具體的測試步驟如下。
① 逐一注冊并登錄10款A(yù)I大模型的網(wǎng)址; ② 按題型設(shè)計(jì)提示詞,并逐一輸入問答系統(tǒng)對話界面的文本框中,讓AI大模型生成答案; ③ 對照參考答案檢查AI大模型生成的回答,記錄每個(gè)大模型的得分情況; ④ 統(tǒng)計(jì)每款A(yù)I大模型總體得分以及不同題型和各類編校問題上的得分。
4.評估方法
本文采用比較研究法,根據(jù)每款A(yù)I大模型在各類編校問題上的得分情況,通過定量分析與定性分析相結(jié)合的方式,比較各AI大模型的整體性能、在處理不同差錯問題上的表現(xiàn)。參照相關(guān)文獻(xiàn)的研究結(jié)果,與人工編校情況進(jìn)行差異對比,進(jìn)而揭示AI大模型在中文文字編校任務(wù)中的優(yōu)勢與局限。
二、結(jié)果與討論
(一)AI大模型的得分情況
1.不同題型的得分情況
各AI大模型和參賽人員在不同題型中的得分情況見表3,整體得分率見圖1。由于剔除了部分測試題目,參賽人員的平均分根據(jù)相關(guān)文獻(xiàn)的統(tǒng)計(jì)數(shù)據(jù)計(jì)算,[12]15 計(jì)算公式為:原試題參賽人員平均分/原試題總分 × 測試題目總分。
AI大模型在各題型方面的表現(xiàn)如下。
① 在多項(xiàng)選擇題題型的測評中,通義千問、天工AI、智譜清言等3款大模型的得分超過參賽人員平均分;騰訊元寶、文心一言、DeepSeek等大模型得分接近參賽人員平均分。整體上看,AI大模型平均分(19.0分)低于參賽人員平均分(20.8分),但兩者相差不大;AI大模型得分率標(biāo)準(zhǔn)差為 11.84% ,表明各大模型在多項(xiàng)選擇題上的表現(xiàn)差異不是很大。
② 在單項(xiàng)選擇題題型的測評中,6款大模型的得分均超過參賽人員平均分,分別為DeepSeek、豆包、天工AI、通義千問、文心一言、智譜清言。整體上看,AI大模型平均分(7.3分)與參賽人員平均分(7.3分)相同,表明它們對較為簡單直接的問題處理能力較強(qiáng),與人工編校水平相近;AI大模型得分率標(biāo)準(zhǔn)差為 10.59% ,表明各大模型在單項(xiàng)選擇題上的表現(xiàn)差異不是很大。
③ 在填空題題型的測評中,幾乎所有AI大模型都獲得了滿分,遠(yuǎn)高于參賽人員平均分,表明它們在處理答案比較明確的知識類問題時(shí)具有較高的準(zhǔn)確性。
④ 在修改語句或文稿片段題型的測評中,DeepSeek、豆包、智譜清言的得分最高,360智腦、天工AI、文心一言、訊飛星火等也超過參賽人員平均得分;其他AI大模型得分較低。整體上看,AI大模型平均分(6.4分)高于參賽人員平均分(5.0分),表明它們在解決語句問題方面具有較強(qiáng)的性能;AI大模型得分率標(biāo)準(zhǔn)差為 18.29% ,表明各大模型在修改語句或文稿片段上的表現(xiàn)有較大差異。
⑤ 在編輯加工I和編輯加工Ⅱ的題目測評中,DeepSeek接近滿分,Kimi、豆包、天工AI、文心一言、通義千問等超過參賽人員平均分;部分大模型得分較低,甚至只有參賽人員平均得分的一半左右,這可能意味著這些大模型在語言理解和處理方面存在不足。整體上看,在編輯加工這種題型中,AI大模型平均分(39.4分)高于參賽人員平均分(38.0分),表明它們在解決綜合文字編校問題上具有較強(qiáng)的性能;在兩個(gè)試題上AI大模型得分率標(biāo)準(zhǔn)差分別為 14.48% 和 19.07% ,表明各大模型在綜合文字編校問題上的表現(xiàn)有較大差異。
總體上看,AI大模型的平均分和平均得分率(76.8分, 67.32% )均超過參賽人員(74.0分, 64.92% );10款大模型中有7款總分超過參賽人員平均分,DeepSeek、天工AI、通義千問、文心一言、豆包等大模型表現(xiàn)較為突出,其中DeepSeek在編校測試中總分最高,得分率為 82.46% ;天工AI、通義千問、文心一言、豆包得分率均超過 70.00% 。AI大模型得分率標(biāo)準(zhǔn)差為 11.00% ,表明各大模型總體得分表現(xiàn)差異不是很大。AI大模型平均分與參賽人員平均分的 t 檢驗(yàn)顯著性 p 值為 0.92gt;0.05 ,表明AI大模型與參賽人員在得分上無顯著統(tǒng)計(jì)差異。上述結(jié)果表明,這些AI大模型已具備一定的中文文字編校能力,可以作為編輯輔助工具使用,但其性能尚未達(dá)到替代人工編校的水平。
2.不同差錯類型的得分情況
各AI大模型在不同差錯類型試題中的得分情況見表4。其中,AI大模型在不同差錯類型試題中的得分率,為該大模型在對應(yīng)差錯類型試題中的實(shí)際得分與該類型試題得分點(diǎn)總分的百分比;各AI大模型的總得分率,為該大模型的實(shí)際總得分與所有類型試題得分點(diǎn)總分(124分)的百分比。
AI大模型在不同差錯類型試題中的表現(xiàn)如下。
① 字詞處理方面,天工AI、DeepSeek和通義千問得分居前,得分率超過 80.00% :360智腦、智譜清言、文心一言、騰訊元寶等表現(xiàn)較好,得分率超過 70.00% 。整體上看,AI大模型平均得分率為 72.76% ,表明其在字詞糾錯方面的能力較強(qiáng);標(biāo)準(zhǔn)差為 11.31% 表明各大模型在字詞處理方面的表現(xiàn)差異較小。
② 量和單位處理方面,5款大模型的得分為滿分,分別是360智腦、DeepSeek、豆包、通義千問和智譜清言;部分大模型表現(xiàn)較差。整體上看,AI大模型平均得分率為 77.50% 表明其在量和單位處理方面具有較強(qiáng)的能力;標(biāo)準(zhǔn)差為 32.17% ,各大模型表現(xiàn)差異顯著,原因之一可能是該類測試試題只有4個(gè)得分點(diǎn),沒有充分驗(yàn)證各模型在這方面的性能。
③ 標(biāo)點(diǎn)符號處理方面,豆包表現(xiàn)突出,得分率為 83.33% ;DeepSeek、Kimi、騰訊元寶、天工AI、智譜清言等表現(xiàn)較好,得分率超過 60.00% 。整體上看,AI大模型平均得分率為 61.67% ,表明其在標(biāo)點(diǎn)符號糾錯方面具有一定的不足;標(biāo)準(zhǔn)差為 15.81% ,表明各大模型在標(biāo)點(diǎn)符號處理方面的表現(xiàn)有一定差異。
④ 語法處理方面,各大模型的得分普遍較低,其中文心一言、通義千問得分相對較高,但也僅剛過 60.00% 。整體上看,AI大模型平均得分率只有 45.40% ;標(biāo)準(zhǔn)差為 13.86% ,表明各大模型在語法處理方面的差異不大??傮w而言,AI大模型在語法理解和糾錯方面的性能普遍有待提升。
⑤ 知識處理方面,文心一言得分最高,得分率為 89.29% ,DeepSeek、豆包、Kimi等表現(xiàn)較好,得分率超過 80.00% ;天工AI、通義千問、360智腦、智譜清言等得分率超過70.00% 。整體上看,AI大模型平均得分率為77.86% ,各大模型的得分率均超過 60.00% ;標(biāo)準(zhǔn)差為 7.68% ,表明各大模型在知識處理方面的表現(xiàn)差異很小。總體而言,人工智能大模型在知識問題處理方面的表現(xiàn)普遍較為突出。
⑥ 邏輯處理方面,DeepSeek表現(xiàn)出色,得分率為 77.59% ,表明其在邏輯推理和判斷能力方面大幅領(lǐng)先其他大模型;天工AI和豆包的表現(xiàn)相對較好,得分率超過 60.00% ;其他模型的得分普遍較低,均低于 60.00% 。整體上看,AI大模型平均得分率為 53.80% ;標(biāo)準(zhǔn)差為 13.74% ,表明各大模型在邏輯處理方面的表現(xiàn)差異較小??梢园l(fā)現(xiàn),相對于字詞、知識問題,AI大模型在復(fù)雜語言理解和推理能力上普遍存在不足。
⑦ 參考文獻(xiàn)著錄處理方面,DeepSeek和通義千問表現(xiàn)出色;在提示詞中加入?yún)⒖嘉墨I(xiàn)著錄的規(guī)則信息后,360智腦、騰訊元寶、天工AI、文心一言、智譜清言等均有得分。整體上看,AI大模型平均得分率僅為 50.00% 5標(biāo)準(zhǔn)差為 39.28% ,各大模型表現(xiàn)差異顯著,原因之一可能是該類測試試題只有3個(gè)得分點(diǎn),沒有充分驗(yàn)證各模型在這方面的性能。經(jīng)分析可以發(fā)現(xiàn),這些大模型已部分理解了相關(guān)規(guī)則,因而能發(fā)現(xiàn)并糾正文獻(xiàn)著錄差錯;但也有大模型在加入規(guī)則信息后改不誤為誤,表明其在知識應(yīng)用和規(guī)則理解方面存在局限。
⑧ 總得分情況方面,AI大模型平均得分率為 63.02% ,已具備一定的中文文字編校能力;標(biāo)準(zhǔn)差為 10.49% ,表明各大模型在文字編校處理方面的表現(xiàn)差異較小。這些大模型在處理字詞、知識等方面問題的準(zhǔn)確率較高,但在語法、邏輯、標(biāo)點(diǎn)符號等復(fù)雜編校問題的處理上存在不足。
值得注意的是,本文的測試結(jié)果與部分現(xiàn)有研究成果差異較大,主要原因可能是:① 測試問題存在較大差異。韜奮杯全國出版社青年編校大賽的試題內(nèi)容多為基礎(chǔ)知識和常識,這些信息大多可以通過網(wǎng)頁檢索獲取。AI大模型的訓(xùn)練數(shù)據(jù)覆蓋了常用知識,并且在解答問題時(shí)會主動聯(lián)網(wǎng),檢索相關(guān)網(wǎng)頁并進(jìn)行處理,因而在本文測試中表現(xiàn)較好。例如,文心一言表現(xiàn)突出,原因之一可能是其擁有龐大的知識庫,訓(xùn)練數(shù)據(jù)涵蓋了百度百科、百度文庫等來源的資料。而其他文獻(xiàn)的研究中采用的測試問題,背景信息少,專業(yè)術(shù)語多,上下文邏輯復(fù)雜,在處理這些問題時(shí),編輯可以根據(jù)個(gè)人積累的知識經(jīng)驗(yàn)來理解問題的背景知識和語境,而AI大模型由于在問題理解、術(shù)語應(yīng)用方面存在局限,[5]1016使得測試結(jié)果不盡如人意。 ② 測試方法存在差異。一些研究設(shè)計(jì)的提示詞較為簡略,沒有提供充分的背景信息,影響了AI大模型的表現(xiàn)。 ③AI 大模型的更新迭代和自我優(yōu)化。部分現(xiàn)有研究的測試時(shí)間距今已過一年,AI大模型在此期間進(jìn)行了算法改進(jìn)和持續(xù)優(yōu)化,而且國產(chǎn)AI大模型在中文處理能力上優(yōu)于ChatGPT,使得本文的測試結(jié)果優(yōu)于這些早期文獻(xiàn)的研究結(jié)果。
(二)國產(chǎn)AI大模型的優(yōu)勢與局限
1.優(yōu)勢
從本次測試結(jié)果來看,國產(chǎn)AI大模型在中文編校中的整體得分略高于人工編校,這表明其已具備一定的中文文字編校能力,可以作為編校輔助工具使用。AI大模型對字詞、知識問題的處理準(zhǔn)確率較高,可以在一定程度上彌補(bǔ)編輯因知識盲點(diǎn)而造成的疏漏。盡管AI大模型在語法糾錯、語義理解、邏輯判斷等方面存在一定的局限,但其對常見文字編校問題的處理已具備一定的參考意義,其處理思路與判斷依據(jù)可以給編輯帶來啟發(fā),有助于編輯發(fā)現(xiàn)并解決編校差錯。
測試過程中也發(fā)現(xiàn),對于復(fù)雜問題,通過設(shè)計(jì)恰當(dāng)?shù)奶崾驹~,AI大模型常常能給出較為準(zhǔn)確的解答或提供有益的啟示,為編輯高效處理這些復(fù)雜編校問題提供有力支持。例如,對于“編輯加工Ⅱ”題型中的參考文獻(xiàn)著錄問題,在不加人背景知識信息的情況下,測試的多款A(yù)I大模型都沒有發(fā)現(xiàn)問題,但是在提示詞中加人“請根據(jù)《信息與文獻(xiàn)參考文獻(xiàn)著錄規(guī)則》(GB/T7714—2015),檢查并改正以下參考文獻(xiàn)的著錄格式”等知識信息后,360智腦等AI大模型發(fā)現(xiàn)并糾正了部分差錯。
在應(yīng)用交互方面,AI大模型注冊流程簡便,界面友好,操作方便;使用便捷、效率高;使用門檻低,即使不熟悉AI大模型或缺乏編程經(jīng)驗(yàn)的用戶也能輕松操作。對于測試問題,AI大模型具有一定的即時(shí)響應(yīng)能力,能夠迅速生成答案。例如,在“編輯加工Ⅱ”的題目測評時(shí),編校的短文有1910個(gè)字符,DeepSeek用時(shí)僅56秒(深度思考時(shí)間),而筆者完成該題目的時(shí)間超過15分鐘,且得分不及該AI大模型,其他大模型則幾乎不需要等待就開始輸出結(jié)果。
各AI大模型在文本處理任務(wù)中表現(xiàn)出一定的穩(wěn)健性,對同一試題的輸出結(jié)果雖然存在一定差異,但總體表現(xiàn)穩(wěn)定。例如,對于多項(xiàng)選擇題(總分為32分),使用同一個(gè)大模型進(jìn)行重復(fù)測試,得分僅有 2~4 分的變動;而在文稿編輯方面,重復(fù)測試所輸出的結(jié)果差異不大。
2.局限
雖然在本次測試中,國產(chǎn)AI大模型整體得分略高于人工編校,但并未展現(xiàn)出顯著的統(tǒng)計(jì)學(xué)優(yōu)勢,其性能尚未達(dá)到替代人工編校的水平。在處理各類編校問題時(shí),多數(shù)大模型在語法、邏輯、標(biāo)點(diǎn)符號等復(fù)雜編輯加工問題和綜合編校任務(wù)的處理上得分率低于字詞、知識等問題,在上下文邏輯特別是復(fù)雜句、跨段落邏輯分析方面處理能力尚顯不足。因此,當(dāng)前AI大模型尚不能完全勝任人工編校的角色。
在使用過程中發(fā)現(xiàn),AI大模型在編校交互方面存在一定的局限。 ① AI大模型的問答系統(tǒng)無法通過文本框輸入圖表和格式化文本,不能處理圖表以及字體、段落格式等問題,這限制了其在編校領(lǐng)域的應(yīng)用。 ② 對于帶有敏感詞語的問題,有些AI大模型會拒絕回答。如“修改語句或文稿片段”題型中的第1題和第2題,可能因?yàn)樯婕懊舾袃?nèi)容,DeepSeek、訊飛星火等大模型均拒絕回答。 ③ 文字輸人或輸出數(shù)量受限。例如,文心一言3.5版輸入文字的上限為5000字符,在輸入或輸出文字較多時(shí),需多次輸入或提示系統(tǒng)繼續(xù)輸出,這在一定程度上降低了使用的便捷性。
三、AI大模型在編校工作中的應(yīng)用建議
AI大模型在編校領(lǐng)域雖展現(xiàn)出一定潛力,尤其是在字詞、知識問題處理等方面表現(xiàn)出色,但其局限性亦不容忽視,目前尚無法替代人工編輯,因此更適合作為輔助工具,在編輯主導(dǎo)下協(xié)同開展編校工作。通過人機(jī)協(xié)作,合理應(yīng)用AI大模型開展文字編校,是當(dāng)前提升編校質(zhì)量、適應(yīng)智能化編校的重要途徑。
1.利用AI大模型的優(yōu)勢,謹(jǐn)慎審查其生成的內(nèi)容
本研究測試結(jié)果和相關(guān)文獻(xiàn)表明,AI大模型是一個(gè)強(qiáng)大的語言處理工具,能夠輔助編輯糾正語法、字詞、標(biāo)點(diǎn)符號以及知識性差錯,還能規(guī)范和優(yōu)化語言表達(dá)。[16-17] 因此,編輯在應(yīng)用AI大模型時(shí),應(yīng)充分利用AI大模型在這些方面的優(yōu)勢,以緩解由于潛意識偏差、感覺和知覺局限、知識經(jīng)驗(yàn)不足以及編校過程中精力不集中等因素造成的編校疏漏和差錯。[18]
然而AI大模型也存在諸如提供錯誤信息、忽視語境、誤用術(shù)語、語義理解不準(zhǔn)確等問題,[5]1016甚至生成違背事實(shí)或無意義的文本,[1467在深度理解、語境把握、高階思維和個(gè)性化適應(yīng)性等方面仍存在明顯不足,無法替代人類的專業(yè)技能、批判性思維和復(fù)雜邏輯分析能力。[19]因此在利用AI大模型進(jìn)行編校時(shí)需保持審慎態(tài)度,避免因過度信任而忽視其存在的風(fēng)險(xiǎn),[20]應(yīng)細(xì)致審查其生成的內(nèi)容,以確保其有效性與可信度,并結(jié)合人工編校的優(yōu)勢進(jìn)行互補(bǔ)與協(xié)作。
此外,AI大模型不僅具備提供參考答案的能力,還能為編校人員揭示潛在的問題。通過提示詞設(shè)計(jì),可以引導(dǎo)AI大模型展示其分析過程與參考依據(jù),進(jìn)而為編校人員帶來啟示,打破編輯的思維慣性,避免智能“黑箱”問題,[21]從而更好地解決編校問題。例如,在提示詞中加入“請?zhí)峁┮罁?jù)或參考資料”指令,可促使AI大模型深入分析問題并提供相關(guān)依據(jù)和資料,這不僅有助于編輯驗(yàn)證答案的準(zhǔn)確性,還能豐富個(gè)人知識,積累編校經(jīng)驗(yàn),提升業(yè)務(wù)能力。
2.優(yōu)化使用策略,合理應(yīng)用提示詞
AI大模型具有一定的個(gè)性化服務(wù)功能。通過優(yōu)化使用策略、設(shè)計(jì)合理的提示詞,可以進(jìn)一步提升AI大模型的使用效能,幫助編輯提高編校質(zhì)量和效率。提示詞對AI大模型在編校工作中的表現(xiàn)有重要影響,合理的提示詞能夠引導(dǎo)AI大模型準(zhǔn)確理解問題并提供更具針對性的回答,從而大幅提高AI大模型生成內(nèi)容的質(zhì)量和準(zhǔn)確性。在提示詞中加入相關(guān)編校規(guī)范或背景知識可以顯著提高答案的準(zhǔn)確率。例如,在參考文獻(xiàn)著錄審查時(shí),如果未給出背景知識信息,AI大模型可能會忽略潛在的差錯;但在給出參考文獻(xiàn)著錄規(guī)則后,AI大模型就會依據(jù)這一規(guī)則發(fā)現(xiàn)并改正差錯。
值得一提的是,AI大模型還能通過提示詞功能靈活應(yīng)對各類查詢需求,甚至能在一定程度上替代傳統(tǒng)的網(wǎng)頁搜索方式,從而提高編輯查詢相關(guān)問題的效率。此外,不同的AI大模型具有一定的互補(bǔ)性,結(jié)合使用不同的AI大模型有助于發(fā)現(xiàn)潛在問題,從而幫助編輯發(fā)現(xiàn)和解決隱蔽的編校問題。
3.熟悉使用方法,提升信息素養(yǎng)
為更好地將AI大模型融入編校流程,編輯需深入了解其工作原理,熟悉應(yīng)用場景與操作方法,了解其優(yōu)勢與局限,以實(shí)現(xiàn)人機(jī)高效協(xié)作。同時(shí),編輯應(yīng)在掌握傳統(tǒng)的編輯技能的基礎(chǔ)上,保持對新技術(shù)的敏感度,持續(xù)學(xué)習(xí)相關(guān)專業(yè)知識,不斷提升自身的信息素養(yǎng)。只有這樣才能更好地駕馭AI大模型這一工具,從而主動適應(yīng)人機(jī)共在、人機(jī)共有、人機(jī)共創(chuàng)的編輯生態(tài)[22]和智能化編校趨勢[23]
四、結(jié)語
本文以韜奮杯全國出版社青年編校大賽試題作為測試問題,對10款國內(nèi)廣泛使用的AI大模型進(jìn)行了編校性能測試。研究結(jié)果表明,AI大模型尤其是DeepSeek、天工AI、通義千問、文心一言、豆包等,在一定程度上已具備輔助文字編校的功能,但也存在明顯的局限。在應(yīng)用AI大模型進(jìn)行文字編校時(shí),應(yīng)在編輯主導(dǎo)下發(fā)揮AI大模型在知識性問題處理等方面的優(yōu)勢,并謹(jǐn)慎審查其生成的內(nèi)容,與人工編?;パa(bǔ)協(xié)作;通過優(yōu)化使用策略、合理應(yīng)用提示詞,可以增強(qiáng)AI大模型的效能。編輯應(yīng)熟悉AI大模型的使用方法,提升信息素養(yǎng),主動適應(yīng)智能化編校趨勢。隨著AI技術(shù)的不斷發(fā)展和完善,相信AI大模型在編校領(lǐng)域會發(fā)揮更大的作用。
本文存在一定的研究局限,如測試題目的試題差錯類型不夠全面,試題數(shù)量相對有限,難以全面反映實(shí)際編校工作的復(fù)雜性與多樣性;提示詞未充分考慮不同AI大模型的應(yīng)用特點(diǎn)和優(yōu)勢等。在實(shí)際編校工作中如何有效且合規(guī)地使用AI大模型,尚待后續(xù)探索。
參考文獻(xiàn)
[1]FARROKHNIA M,BANIHASHEMSK,NOROOZIO,etal.A SWOT analysisofChatGPT:implicationsforeducational practice and research[J]. Innovations inEducation and Teaching International,2024,61(3):460-474.
[2]崔玉潔.ChatGPT與人工編校相結(jié)合:提高期刊編校效率和文章質(zhì)量[J].編輯學(xué)報(bào),2023,35(4):429-433.
[3]徐敬宏,張如坤.ChatGPT在編輯出版行業(yè)的應(yīng)用:機(jī)遇、挑戰(zhàn)與對策[J].中國編輯,2023(5):116-122.
[4]李真.ChatGPT在圖書編校中的應(yīng)用測試與分析[J].出版與印刷,2023(6):60-64.
[5]李侗桐,高瑞婧,田佳.ChatGPT在中文科技期刊摘要文字編輯中的實(shí)用性測試與分析[J].中國科技期刊研究,2023,34(8):1014-1019.
[6]夏麗云,岳于佳,徐敏贊,等.生成式人工智能應(yīng)用于編校工作的探索與分析:基于ChatGPT和150余款國產(chǎn)大模型的實(shí)測[J].中國科技期刊研究,2024,35(7): 948-956.
[7]陳瑋,葉飛.國內(nèi)外人工智能工具在中文編校中應(yīng)用效果評價(jià)與建議[J].編輯學(xué)報(bào),2024,36(3):313-317.
[8]王娥.第四軍醫(yī)大學(xué)出版社黃璐在“韜奮杯”全國編校大賽中奪優(yōu)[J].出版參考,2011(34):26.
[9]王專.編校隊(duì)伍能力建設(shè)路徑初探[J].新聞傳播,2022(16): 77-78.
[10]周奇.競賽的輻射效應(yīng)遠(yuǎn)大于競賽[J].編輯之友,2009(12): 8.
[11]魏運(yùn)華,潘正安,李紅.第二屆韜奮杯全國出版社青年編校大賽答題情況分析[J].中國編輯,2010(1):79-82,128.
[12]魏運(yùn)華,謝李杉.第七屆韜奮杯全國出版社青年編校大賽分析與啟示[J].中國編輯,2020(4):104-108
[13]陳秋心,邱澤奇.“人機(jī)互生”時(shí)代可供性理論的契機(jī)與危機(jī):基于“提示詞”現(xiàn)象的考察[J].蘇州大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2023,44(5):172-182.
[14]陳嗣榮,馮敬益.提示詞模板在人工智能對話中的實(shí)踐研究[J].電腦知識與技術(shù),2023,19(34):13-15,22.
[15]文心一言 使用手冊[EB/OL].(2024-06-28)[2024-07-18]. https://yiyan.baidu.com/learn.
[16]彭家雨,徐鵬.AIGC對數(shù)字出版的機(jī)遇與挑戰(zhàn)[EB/OL].(2023-02-21)[2024-08-15].http://www.iii.tsinghua.edu.cn/info/1131/3323.htm.
[17]SALVAGNO M,TACCONEF S,GERLI A G. Canartificial intelligence help for scientific writing?[J].CriticalCare,2023,27(1):75.
[18]米戎.從心理學(xué)角度看編校者對差錯的敏感性[J].出版科學(xué),2017,25(1):63-65.
[19] ZHOUL B,WU A C, HEGYI P,et al. ChatGPT forscientificwriting ∵ The coexistence of opportunities andchallenges[J]. Journal of Orthopaedic Translation,2024,44: A1-A3.
[20]陳慧敏,朱姿伊,金兼斌.知識生產(chǎn)視域下生成式人工智能信任的復(fù)合框架、作用機(jī)制與未來進(jìn)路[J].中國編輯,2024(12):60-69.
[21]王飛,馮誠.“智能編輯人\":生成式人工智能對編輯角色的認(rèn)知重塑[J].編輯之友,2024(8):92-98.
[22]崔波,王婷瑜.數(shù)智時(shí)代編輯力重構(gòu):歷史演進(jìn)、理論邏輯與踐行路徑[J].中國編輯,2024(7):11-17.
[23]陳曉峰,沈錫賓.生成式人工智能重塑科技期刊產(chǎn)業(yè)的影響、挑戰(zhàn)及應(yīng)對策略研究[J].中國科技期刊研究,2024,35(7): 890-898.
Test and Analysis of Chinese Text Editing Performance of Domestic Artificial Intelligence Large Language Models
KANG Feng ZHANG Huiwei CHEN Liqiong
Abstract:
With the rapid development and iteration of artificial intelligence technology, especially large language models such as ChatGPT,artificial inteligence large language models have gradually become an important driving force for innovation and development in various fields,and their potential applications in the field of editing and publishing have also atracted widespread attention.The article evaluates the Chinese text editing performance of domesticartificial intellgence large language models,explores theperformance of diffrent artificial intelligence large language models in various editing problems and their diferences from manual editing,and provides the empirical evidence for the rational application of artificial intellgence large language models in the publishing industry.Research has developed an evaluation method based on the profesional editing competition questions: 10 widely used domestic artificial intellgence large language models were selected as the test objects,and the Taofen Cup National Publishing House Youth Editing Competition questions were used as the test questions.The Chinese text editing performance of these models was tested bythe question answering system of the artificial intellgence large language models; based on the performance of diferent large language models in various editing problems, their overallperformance,performance in handling different types of errors,and diferences from manual editing levels were compared and analyzed;on this basis,the advantages and limitations of domestic artificial intellgence large language models were summarized,and then the suggestions for using artificial intelligence large language models to carry out text editing and proofreading work were proposed.
Research has found that the artificial inteligencelarge language models have theabilityof text editing,but cannot completely replace manual editing. The average score and average score rate of the artificial intelligence large language models (76.8 points and 67.32% )are higher than those of the participants (74.O points and 64.92% ); these large language models have high accuracy in dealing with the problems such as the words and knowledge problems (average score rates of 72.76% and 77.86% , respectively),but there are shortcomings in dealing with the complex editing problems such as the grammar, logic,and punctuation problems (average score rates of 45.40% , 53.80% , and 61.67% ,respectively); there are technical bottlenecks in the areas such as the format text procesing and sensitive information recognition.
Based on the analysis results,this article proposes suggestions for the application of artificial inteligence large language models in editing and proofreading Work: under the leadership of editors,the advantages of artificial intellgence large language models in knowledge problem processing should be fullyutilized,and the generated content should be carefully reviewed to complement and cooperate with manual editing and proofreading; by optimizing usage strategies and applying prompt words reasonably, the effectiveness of artificial intellgence large language modelscan be enhanced; editors should be familiar with the use of artificial intelligence large language models,improve their information literacy,and actively adapt to the trend of inteligent editing and proofreading.
Keywords: artificial intelligence large language model; editing performance; editing error; test; prompt; intellient editing and proofreading
Author Affiliation: Periodicals Agency of Zhejiang Sci-Tech University
作者貢獻(xiàn)聲明
康鋒:研究總體構(gòu)思,研究方法設(shè)計(jì),數(shù)據(jù)處理與分析,撰寫論文;
張會巍:文獻(xiàn)分析,數(shù)據(jù)分析,修改論文;
陳麗瓊:研究總體構(gòu)思,修改論文。
收稿日期:2025-03-05 修回日期:2025-04-01