【摘 要】在出版領(lǐng)域,提升編校質(zhì)量至關(guān)重要。當(dāng)前自動編校工具存在不足,導(dǎo)致生成式人工智能在編校領(lǐng)域極具潛力但應(yīng)用受限。立足編輯實(shí)務(wù)構(gòu)建錯誤文本語料庫,測評國內(nèi)外8個主流大模型,綜合各模型的優(yōu)勢任務(wù),采用提示詞工程和工作流協(xié)同優(yōu)化策略構(gòu)建編校工作流。研究顯示,該工作流在標(biāo)準(zhǔn)模型與嚴(yán)格模式下的檢錯率均顯著高于傳統(tǒng)自動編校工具黑馬校對及大多數(shù)單一大模型,驗(yàn)證了特定模型架構(gòu)、訓(xùn)練數(shù)據(jù)與編校任務(wù)具有較好的適配性,且優(yōu)化策略能夠提升模型的編校效果?;跍y試結(jié)果,提出編校工作者選擇性調(diào)用工具、優(yōu)化提示詞設(shè)計、構(gòu)建動態(tài)工作流等實(shí)用建議,以助力出版行業(yè)編校質(zhì)量的提升。
【關(guān)" 鍵" 詞】生成式人工智能;中文自動編校;大模型;工作流
【作者單位】徐奇智,中國科學(xué)技術(shù)大學(xué)科技傳播系,科學(xué)教育與傳播安徽省哲學(xué)社會科學(xué)重點(diǎn)實(shí)驗(yàn)室;羅楚杰,中國科學(xué)技術(shù)大學(xué)科技傳播系;周新喻,中國科學(xué)技術(shù)大學(xué)科技傳播系。
【中圖分類號】G230.7 【文獻(xiàn)標(biāo)識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2025.07.010
在出版領(lǐng)域,提升編校質(zhì)量是重要目標(biāo),編校工作者需嚴(yán)格執(zhí)行審稿、編輯加工以及校對流程,但出版環(huán)節(jié)繁多、工作量大,需耗費(fèi)大量的精力與時間。近年來,生成式人工智能(Generative Artificial Intelligence,GenAI)廣泛應(yīng)用于各行業(yè),其在編校領(lǐng)域的潛力備受關(guān)注。盡管GenAI具備較強(qiáng)的語言理解和邏輯分析能力,但目前GenAI技術(shù)尚不能完全滿足編校工作的需求。有學(xué)者評估發(fā)現(xiàn),多數(shù)大模型的編校準(zhǔn)確率集中在30%—40% 區(qū)間[1]。因此,提升人工智能的編校效能是推動其在編校領(lǐng)域深入應(yīng)用的關(guān)鍵。本研究立足于編輯實(shí)務(wù),對國內(nèi)外主流大模型進(jìn)行實(shí)測評估,探索適用于編校工作者的GenAI自動編校優(yōu)化策略。研究有助于探明GenAI的編校能力現(xiàn)狀與潛能,提出現(xiàn)實(shí)可行的優(yōu)化策略,幫助編輯更好地使用 GenAI,并為AI工程師研發(fā)專業(yè)編校工具指明方向。
一、研究現(xiàn)狀
在GenAI技術(shù)出現(xiàn)之前,中文文本自動編校研究主要基于傳統(tǒng)自然語言處理方法,從規(guī)則與統(tǒng)計模型逐步發(fā)展為深度學(xué)習(xí)方法?,F(xiàn)有研究語料多局限于SIGHAN等特定語料庫,主要針對非母語者或中學(xué)生的拼寫、語法等基礎(chǔ)錯誤[2],所得結(jié)論難以滿足編輯實(shí)務(wù)要求。近期研究關(guān)注到GenAI在學(xué)術(shù)期刊編校場景中的應(yīng)用潛力[3],有學(xué)者構(gòu)建了包含論文摘要不規(guī)范、專業(yè)術(shù)語誤用等錯誤的語料庫[4],但未覆蓋圖書、報紙等多元出版場景?;诖?,本研究立足出版實(shí)務(wù),構(gòu)建更具廣泛適用性的編校錯誤語料庫,為評估自動編校技術(shù)在出版領(lǐng)域的應(yīng)用效果奠定基礎(chǔ)。
現(xiàn)有研究揭示了GenAI在自動編校中面臨的關(guān)鍵挑戰(zhàn)。一方面,提示詞交互存在顯著的不穩(wěn)定性,不同提示策略可能導(dǎo)致編校效果波動,甚至產(chǎn)生術(shù)語處理失準(zhǔn)、虛假信息等問題[5];另一方面,不同模型對邏輯、語言、專業(yè)術(shù)語等各類錯誤的處理能力差異明顯,表現(xiàn)參差不齊[1]。據(jù)此,本研究將提示詞交互優(yōu)化與模型類型適配作為主要待優(yōu)化項目,探索自動編校效能的提升路徑。
針對自動編校的優(yōu)化需求,當(dāng)前研究提出了提示工程[6]、檢索增強(qiáng)生成[7]、工作流構(gòu)建[8]和模型微調(diào)[9]等技術(shù)路徑。結(jié)合出版機(jī)構(gòu)的技術(shù)能力現(xiàn)狀,本研究選擇更具可行性的提示工程與工作流方法作為主要優(yōu)化策略,前者通過精心設(shè)計提示詞引導(dǎo)模型輸出,后者整合不同模型的優(yōu)勢處理各類錯誤。該組合策略可避免復(fù)雜的技術(shù)調(diào)試,在實(shí)際出版場景中更具可行性,有望在保持編校效率的同時提升編校質(zhì)量。基于上述分析,本研究提出以下問題:使用更貼合出版實(shí)務(wù)的語料庫后,不同主流大模型的編校表現(xiàn)有何差異?提示詞與工作流優(yōu)化策略能否顯著提升GenAI在出版編校中的效果?
二、研究設(shè)計與方法
1.錯誤文本語料庫構(gòu)建
為測試GenAI在實(shí)際編校情境中的性能,本研究依據(jù)《圖書編輯校對實(shí)用手冊》中的錯誤分類框架構(gòu)建錯誤文本語料庫。該手冊收錄的錯誤實(shí)例類型全面,高度貼近編輯實(shí)務(wù)。通過研究手冊中“編校基本規(guī)范”的分類規(guī)則,本研究篩選出6個錯誤類型:文字錯誤、詞語錯誤、語法錯誤、標(biāo)點(diǎn)符號錯誤、數(shù)字用法錯誤、常見知識性錯誤。由于當(dāng)前GenAI模型暫時無法有效識別“量和單位的用法規(guī)范”及“版面格式規(guī)范”中的字體與格式問題,故未將其納入評估范圍。
文字錯誤主要指不規(guī)范異體字、二簡字、繁體字、錯別字等;詞語錯誤包括一般詞語誤用、成語誤用、諺語誤用、歇后語誤用、縮略語誤用等;語法錯誤主要包括詞性誤用、成分殘缺、搭配不當(dāng)、成分冗余、歧義、雜糅、不合事理等;標(biāo)點(diǎn)符號錯誤包括逗號、句號、問號、嘆號、引號等多種標(biāo)點(diǎn)使用問題;數(shù)字用法錯誤包括未正確使用阿拉伯?dāng)?shù)字、未正確使用漢字?jǐn)?shù)字、數(shù)字在行文中局部體例不統(tǒng)一、概數(shù)或約數(shù)表意重復(fù)、數(shù)字范圍使用不規(guī)范等;常見知識性錯誤包括歷史、天文、地理等多學(xué)科知識錯誤,以及人名、稱謂錯誤等社會常識錯誤。
為確保錯誤文本語料庫充分涵蓋各錯誤類型的典型語句,本研究共收集并編寫了600條錯誤語句,每種錯誤類型100條。部分例句取自《圖書編輯校對實(shí)用手冊》原文,其余則從《人民日報》新聞報道、科學(xué)出版社圖書等規(guī)范性文本中提取正確語句,再依據(jù)手冊中的錯誤規(guī)則人工改造為每句僅含一處錯誤的句子。
2.編校效果評估方法
(1)大模型的選擇
為全面深入地探究GenAI在中文自動編校領(lǐng)域的發(fā)展現(xiàn)狀與應(yīng)用潛力,本研究選取國內(nèi)外具有代表性的模型進(jìn)行測評。國內(nèi)方面,選取 DeepSeek、文心一言、豆包、Kimi、智譜、通義千問、日日新7款大模型。這些模型或技術(shù)領(lǐng)先,或已廣泛應(yīng)用,憑借在自然語言處理領(lǐng)域的出色表現(xiàn)積累了較高的知名度與較大的用戶規(guī)模,可充分代表國內(nèi)生成式人工智能的主流水平。國外方面,選取ChatGPT作為測評對象,該模型全球用戶龐大、多領(lǐng)域案例豐富,是國外大模型的典型代表。所選模型涵蓋多種技術(shù)架構(gòu),能夠較全面地反映當(dāng)前生成式人工智能的整體水準(zhǔn)。各模型具體使用情況詳見表 1。
(2)編校能力測試方法
考慮到本研究所構(gòu)建的錯誤文本語料庫規(guī)模較大,為精準(zhǔn)測評人工智能的單句編校能力,本研究在各模型官網(wǎng)調(diào)用接口,依托官方穩(wěn)定服務(wù)確保性能充分發(fā)揮,同時在Python環(huán)境中編寫程序,將600條錯誤語句逐句輸入模型,自動獲取輸出結(jié)果并統(tǒng)一存儲,實(shí)現(xiàn)文本數(shù)據(jù)的自動化處理與高效分析。
為全面比較各模型在不同錯誤類型上的能力差異,本研究針對6種錯誤類型分別設(shè)計指令提示。每個模型獨(dú)立完成6輪測試,每輪使用對應(yīng)提示詞對600條錯誤語句進(jìn)行編校,最終形成該模型在單一錯誤類型下的完整編校結(jié)果集。
(3)編校提示詞設(shè)計
研究遵循四大核心原則設(shè)計提示詞體系:一是角色扮演原則[10],通過賦予模型特定身份,引導(dǎo)其基于角色定位調(diào)整語言處理策略,輸出符合專業(yè)標(biāo)準(zhǔn)的內(nèi)容;二是任務(wù)拆解原則[11],將復(fù)雜編校任務(wù)拆解為單類型錯誤檢測,降低模型處理難度,使其更精準(zhǔn)地聚焦于特定類型的錯誤檢測;三是負(fù)面性的約束設(shè)計[12],在提示詞中明確排除無關(guān)因素,防止模型因發(fā)散性輸出而偏離檢測目標(biāo);四是結(jié)構(gòu)化輸出原則[13],通過預(yù)設(shè)XML格式標(biāo)簽,確保結(jié)果可被程序快速解析與分析。
以文字錯誤類型的提示詞為例,研究最終采用的提示詞如下。
你是一位精通中文的專業(yè)文字校對專家,擅長發(fā)現(xiàn)各類錯別字。任務(wù):請檢查以下句子中是否存在任何文字錯誤,包括但不限于:錯別字(如“的”寫成“地”),形近字混用(如“已”與“己”)、異體字(二簡字等非規(guī)范漢字),繁體字混用(在簡體中文環(huán)境中),拼寫錯誤、多字、少字、誤字等其他字形錯誤。評判標(biāo)準(zhǔn):僅判斷字形層面的錯誤,不考慮語法、表達(dá)或標(biāo)點(diǎn)符號問題;不考慮專有名詞或特殊術(shù)語的使用是否恰當(dāng);僅關(guān)注漢字本身是否有誤,不評價句子通順度。輸出要求:如發(fā)現(xiàn)錯別字,僅輸出:lt;errorgt;1lt;/errorgt;lt;correctiongt;正確的完整句子lt;/correctiongt;;如無錯別字,僅輸出:lt;errorgt;0lt;/errorgt;;不要提供任何解釋、分析或額外內(nèi)容。確保輸出格式嚴(yán)格符合上述要求,便于程序解析。檢測句子為:[此處替換為待編校句子]
(4)編校結(jié)果評估方法
錯誤文本校對通常包括“檢錯”和“糾錯”兩個環(huán)節(jié)。其中,檢錯要求模型有效識別并標(biāo)記錯誤,糾錯則需給出正確結(jié)果。在出版編輯實(shí)務(wù)中,當(dāng)文本出現(xiàn)錯誤時,通常需要與原作者討論后確定最終糾正方案,這意味著人工智能的糾錯結(jié)果無法直接作為最終結(jié)論。因此,相較于糾錯功能,人工智能更適宜作為檢錯工具,故本研究以模型的檢錯水平來代表其在編校任務(wù)中的實(shí)際效能。
獲取各模型各類型編校結(jié)果后,研究構(gòu)建了單類型編校評估混淆矩陣(見表2)。其中:TP(True Positive)表示被正確識別為該類型錯誤的語句數(shù);FP(False Positive)表示被錯誤識別為該類型錯誤的語句數(shù);TN(True Negative)表示被正確識別為無該類型錯誤的語句數(shù);FN(False Negative)表示未識別到的該類型錯誤的語句數(shù)。為衡量模型整體性能及其檢錯能力,在得到混淆矩陣后,計算召回率(Recall)和F1值兩個編校評估指標(biāo),具體計算方法見式(1)與式(2)。其中,召回率反映實(shí)際錯誤語句中被正確識別的比例,體現(xiàn)模型對錯誤語句的識別能力。由于編輯校對實(shí)務(wù)中漏校影響重大,高召回率意味著模型能夠盡可能多地找出文本中的錯誤,減少漏檢,契合校對需求,故本研究以召回率作為工作流模型的選擇標(biāo)準(zhǔn)。F1值為精確率和召回率的調(diào)和平均數(shù),綜合反映模型性能,當(dāng)精確率和召回率均較高時,F(xiàn)1值也較高,體現(xiàn)模型在漏檢與誤檢方面的綜合水平,故本研究以F1值作為評估模型整體性能的指標(biāo)。
表2 評估指標(biāo)混淆矩陣
混淆矩陣 系統(tǒng)預(yù)測
Positive Negative
標(biāo)準(zhǔn)答案 Positive TP FN
Negative FP TN
(1)
(2)
為降低模型輸出不穩(wěn)定對編校結(jié)果的影響,每個模型進(jìn)行3次測試,評估時取3次測試結(jié)果各指標(biāo)的平均值作為最終結(jié)果。
3.編校效果優(yōu)化方法
(1)工作流架構(gòu)
基于單類型測試評估結(jié)果,本研究篩選出在各種錯誤類型中表現(xiàn)最優(yōu)的大模型,構(gòu)建人工智能編校工作流(見圖1),并在Python環(huán)境中實(shí)現(xiàn)自動化運(yùn)行。具體操作流程為:將600條錯誤語句按預(yù)設(shè)工作流順序輸入系統(tǒng),語句依次經(jīng)過6個專業(yè)化處理模塊,每個模塊均搭載針對特定錯誤類型的提示詞及相應(yīng)的大模型接口。處理后,每條語句將在6個錯誤類型維度上獲得“0”(無錯誤)或“1”(存在錯誤)的二進(jìn)制標(biāo)注結(jié)果。
(2)編校效果判定標(biāo)準(zhǔn)
為適應(yīng)不同出版場景的質(zhì)量要求,本研究設(shè)計了兩級編校判定標(biāo)準(zhǔn):標(biāo)準(zhǔn)模式下,僅當(dāng)某一維度的識別結(jié)果與實(shí)際錯誤類型完全匹配時,判定該語句存在錯誤;嚴(yán)格模式下,只要任一維度識別出錯誤,無論是否匹配實(shí)際錯誤類型,均判定為錯誤語句。為確保編校結(jié)果穩(wěn)定,研究采用三重復(fù)測機(jī)制,最終以三次測試檢錯率的平均值作為工作流性能的評價依據(jù)。
(3)編校效果基線設(shè)置
為科學(xué)評估工作流優(yōu)化策略的效果,研究選取“黑馬校對”及8個模型的全類型校對結(jié)果作為基線參照。黑馬校對是傳統(tǒng)編校領(lǐng)域的代表性工具,在行業(yè)內(nèi)應(yīng)用廣泛。構(gòu)建基線時,研究使用黑馬校對WPS插件進(jìn)行測試:將語料庫中的600條錯誤語句整體輸入文檔,選擇標(biāo)準(zhǔn)校對(僅標(biāo)記錯誤)和嚴(yán)格校對(標(biāo)記錯誤與疑錯)兩種等級模式進(jìn)行校對。為確保結(jié)果穩(wěn)定,研究同樣進(jìn)行3次測試,取檢錯率的平均值。同時,研究獲取8個模型的全類型校對結(jié)果作為對比基線,采用與單一維度測評相同的方法,通過各模型的官方接口,在Python環(huán)境中逐句輸入600條語句,獲取模型判斷語句正確與否的結(jié)果。為構(gòu)建模型全類型編?;€,研究僅采用簡單任務(wù)描述,不再設(shè)計其他提示詞。每個模型均進(jìn)行3次測試,取檢錯率的平均值。具體提示詞如下。
任務(wù):請檢查以下句子中是否存在任何文本錯誤。輸出要求:如發(fā)現(xiàn)文本錯誤,僅輸出:lt;errorgt;1lt;/errorgt;lt;correctiongt;正確的完整句子
lt;/correctiongt;;如無文本錯誤,僅輸出:lt;errorgt;0
lt;/errorgt;;不要提供任何解釋、分析或額外內(nèi)容。確保輸出格式嚴(yán)格符合上述要求,便于程序解析。檢測句子為:[此處替換為待編校句子]
三、研究結(jié)果分析
1.模型綜合性能對比
8個主流生成式人工智能模型在6個中文自動編校維度上的整體性能如圖2所示,以各模型在6類錯誤上的F1值為評價指標(biāo)。總體來看,模型在各維度的表現(xiàn)呈現(xiàn)差異化:文字錯誤和數(shù)字用法錯誤維度表現(xiàn)較好,標(biāo)點(diǎn)符號錯誤和常識知識性錯誤維度表現(xiàn)中等,詞語錯誤和語法錯誤維度檢錯效果相對較弱。其中:豆包模型表現(xiàn)突出,在文字錯誤、語法錯誤、標(biāo)點(diǎn)符號錯誤、數(shù)字用法錯誤等維度取得較高的F1值,說明其在各類錯誤識別上的綜合能力較強(qiáng),兼具準(zhǔn)確性與全面性;DeepSeek在文字錯誤、數(shù)字用法錯誤和常識知識性錯誤維度表現(xiàn)較好,但在其他維度處于中等水平;通義千問在語法錯誤、數(shù)字用法錯誤等方面尚可;智譜在數(shù)字用法錯誤維度優(yōu)勢明顯;其余模型雖在部分維度有一定表現(xiàn),但整體遜于豆包等模型??梢?,不同模型在中文自動編校各維度的能力參差不齊,均存在優(yōu)化空間。
2.錯誤識別能力對比
8個模型在6種錯誤類型上的識別能力如圖3所示,以各模型在6類錯誤上的召回率為評價指標(biāo)。整體來看,各模型在不同維度差異顯著:在文字錯誤和數(shù)字用法錯誤維度表現(xiàn)較好,語法錯誤、標(biāo)點(diǎn)符號錯誤和常識知識性錯誤維度表現(xiàn)中等,詞語規(guī)范維度整體表現(xiàn)欠佳。其中:豆包模型在文字錯誤、詞語錯誤、語法錯誤、常識知識性錯誤維度召回率較高,表明其能最大限度地識別這些類型的錯誤,綜合能力突出;智譜在標(biāo)點(diǎn)符號錯誤和數(shù)字用法錯誤維度表現(xiàn)最優(yōu),具備特定類型的強(qiáng)識別能力;DeepSeek在文字錯誤、標(biāo)點(diǎn)符號錯誤維度有一定優(yōu)勢,但在其他維度表現(xiàn)一般;通義千問等模型雖在個別維度有亮點(diǎn),但整體識別能力與豆包等模型存在差距。
基于上述分析,本研究選擇在各維度召回率具有獨(dú)特優(yōu)勢的模型構(gòu)建工作流:豆包用于文字錯誤、詞語錯誤、語法錯誤、常識知識性知識錯誤檢測模塊,智譜用于標(biāo)點(diǎn)符號錯誤和數(shù)字用法錯誤檢測模塊。
3.工作流優(yōu)化測試結(jié)果
對8個模型在中文自動編校不同維度的表現(xiàn)進(jìn)行評估后,本研究基于各模型在不同錯誤類型上的優(yōu)勢,構(gòu)建整合優(yōu)勢模型的工作流,并進(jìn)行3輪測試,以平均檢錯率作為性能評價指標(biāo)。同時,為衡量工作流優(yōu)化效果,研究以黑馬校對結(jié)果及8個模型的全維度編校結(jié)果為基線,對600條錯誤語句進(jìn)行3次測試,取平均檢錯率作為對比依據(jù)。
圖4為黑馬校對與工作流在標(biāo)準(zhǔn)模式和嚴(yán)格模式下的對比。結(jié)果顯示,工作流在兩種模式下均具有顯著優(yōu)勢:嚴(yán)格模式下,黑馬校對檢錯率為60.5%,工作流達(dá)76.5%;標(biāo)準(zhǔn)模式下,黑馬校對檢錯率為32.3%,工作流為67.5%,提升明顯。
圖5為8個模型全維度編校與工作流在兩種模式下的對比。嚴(yán)格模式下的工作流編校檢錯率最高(76.5%);其次為豆包全維度編校(72.9%);標(biāo)準(zhǔn)模式下的工作流編校檢錯率為67.5%;文心一言、智譜和通義千問的檢錯率均高于50%;而日日新、DeepSeek、ChatGPT和Kimi的檢錯率均低于50%,檢錯能力較弱。其中,國外主流大模型ChatGPT對中文文本的編校能力顯著弱于國內(nèi)主流大模型。
四、研究建議
為探索生成式人工智能在智能編校中的應(yīng)用路徑與潛力,針對以往研究中語料庫偏離編輯實(shí)務(wù)、模型能力差異缺乏整合等問題,本研究通過語料庫擴(kuò)展、獨(dú)立任務(wù)類型測試和工作流整合等措施,驗(yàn)證了生成式人工智能在實(shí)際出版場景中的應(yīng)用潛力。與既往語料庫相比,本研究基于編輯實(shí)務(wù)構(gòu)建涵蓋文字、數(shù)字用法等6類常見的出版通用錯誤語料庫,有利于探明生成式人工智能的能力邊界。經(jīng)測試評估發(fā)現(xiàn),豆包綜合性能突出,尤其在文字錯誤、語法錯誤識別方面優(yōu)勢顯著,智譜則在標(biāo)點(diǎn)符號錯誤與數(shù)字用法錯誤方面表現(xiàn)更佳。這表明單一模型難以覆蓋全部錯誤類型,需根據(jù)任務(wù)拆解策略,進(jìn)一步探索基于現(xiàn)有模型的優(yōu)化路徑。
1.提升編輯的人工智能探索與測評意識
對比本研究與既往人工智能編校測評結(jié)果可以發(fā)現(xiàn),受研究范圍差異及人工智能快速迭代的影響,模型的編校能力呈動態(tài)變化。在既往研究中表現(xiàn)突出的日日新、通義千問、文心一言,在本研究中被豆包、智譜超越,表明人工智能編校評估受多種復(fù)雜因素影響,具有時效性。編校工作者不僅要關(guān)注領(lǐng)域評估結(jié)果,還要主動提升對人工智能編校能力的評測與探索意識,比較不同模型在多種錯誤類型上的表現(xiàn)差異,自主篩選契合工作需求的工具,確保編輯工作在復(fù)雜的編校環(huán)境中保持高效與準(zhǔn)確。此外,本研究表明生成式人工智能在單一錯誤類型測試中性能各異,但整體上具備基礎(chǔ)編校能力,編輯應(yīng)嘗試選擇性地使用人工智能工具提升編校效率。
2.探索并優(yōu)化提示詞策略
本研究表明,基于三種原則的提示詞優(yōu)化僅做簡單的任務(wù)描述能夠顯著提升編校效果。編輯可采用角色扮演、任務(wù)拆解、負(fù)面約束等方法構(gòu)建提示詞,并根據(jù)編校需求和錯誤類型進(jìn)行有針對性的設(shè)計。例如,檢測文字錯誤時強(qiáng)調(diào)字形、字義識別,檢測語法錯誤時側(cè)重句子結(jié)構(gòu)、詞性搭配與邏輯關(guān)系分析。此外,編輯可通過簡單的實(shí)驗(yàn)和迭代,不斷優(yōu)化提示詞的表述與結(jié)構(gòu),從而提高大模型的響應(yīng)速度和準(zhǔn)確性。通過精細(xì)化提示詞設(shè)計,編輯可充分發(fā)揮大模型潛力,實(shí)現(xiàn)更精準(zhǔn)的編校。
3.構(gòu)建并優(yōu)化編校工作流
本研究構(gòu)建的工作流整合了各模型在不同錯誤類型上的優(yōu)勢,其嚴(yán)格模式和標(biāo)準(zhǔn)模式下的檢錯率均高于傳統(tǒng)校對軟件“黑馬校對”,體現(xiàn)了合理構(gòu)建人工智能工作流的重要性。具體而言,編輯可從三個方面優(yōu)化工作流:一是依據(jù)出版場景與任務(wù)需求,篩選擅長特定領(lǐng)域的模型組合,充分發(fā)揮其優(yōu)勢;二是設(shè)定合理的判定標(biāo)準(zhǔn)和審核環(huán)節(jié),按質(zhì)量要求選取結(jié)果,平衡編校效率與準(zhǔn)確性;三是持續(xù)關(guān)注新模型,評估其在編校工作流中的適用性,及時優(yōu)化調(diào)整,以構(gòu)建高效、精準(zhǔn)且靈活的編校體系。
五、研究展望
本研究針對出版編校質(zhì)量提升需求,構(gòu)建實(shí)務(wù)導(dǎo)向的錯誤語料庫,測評8個主流大模型,并結(jié)合提示詞與工作流策略構(gòu)建編校工作流。結(jié)果顯示,各模型在不同任務(wù)上表現(xiàn)各異,整合各模型的優(yōu)勢后構(gòu)建的工作流在提示詞的協(xié)同優(yōu)化下,檢錯效果顯著優(yōu)于單一模型和傳統(tǒng)工具,表明GenAI較傳統(tǒng)智能編校工具已實(shí)現(xiàn)飛躍式進(jìn)步,潛力巨大。編輯可通過多種優(yōu)化策略,以較低成本利用GenAI有效提升編校質(zhì)量。
需要注意的是,本研究存在三個方面的局限:一是未單獨(dú)量化提示工程與工作流優(yōu)化的各自貢獻(xiàn),難以明確二者在提升效果中的具體占比,可能影響策略的針對性調(diào)整;二是測試文本以單句為主,未涉及長文本編校,對復(fù)雜語境下模型的穩(wěn)定性及錯誤識別能力考察不足,而在實(shí)際出版場景中長文本處理更為常見;三是因成本限制,未探索模型調(diào)優(yōu)、基于編校知識庫的檢索增強(qiáng)模式、針對編校工作的全新模型訓(xùn)練等其他提升策略,這些手段可能更具潛力。
基于上述局限,未來研究可從三個方面推進(jìn):一是量化單一策略的提升幅度,通過對照實(shí)驗(yàn)分離提示工程與工作流的獨(dú)立效應(yīng),優(yōu)化協(xié)同方案;二是將測試文本擴(kuò)展至長文本及多模態(tài)內(nèi)容,檢驗(yàn)?zāi)P驮趶?fù)雜場景中的適應(yīng)性;三是構(gòu)建領(lǐng)域知識庫和語料庫,通過檢索增強(qiáng)、新模型開發(fā)、現(xiàn)有模型調(diào)優(yōu),進(jìn)一步縮小人工智能與出版質(zhì)檢標(biāo)準(zhǔn)的差距,推動其在出版編校中的深度應(yīng)用。
|參考文獻(xiàn)|
[1]夏麗云,岳于佳,徐敏赟,等. 生成式人工智能應(yīng)用于編校工作的探索與分析:基于ChatGPT和150余款國產(chǎn)大模型的實(shí)測[J]. 中國科技期刊研究,2024(7):948-956.
[2]李云漢,施運(yùn)梅,李寧,等. 中文文本自動校對綜述[J]. 中文信息學(xué)報,2022(9):1-18.
[3]李莎,鄭偉. 生成式人工智能在學(xué)術(shù)期刊出版中的應(yīng)用研究[J]. 出版廣角,2025(2):123-128.
[4]李侗桐,高瑞婧,田佳. ChatGPT在中文科技期刊摘要文字編輯中的實(shí)用性測試與分析[J]. 中國科技期刊研究,2023(8):1014-1019.
[5]李啟正,胡崴琳. ChatGPT用于學(xué)術(shù)論文編校的能力分析、交互方式和應(yīng)用場景[J]. 編輯學(xué)報,2024(S2):111-116.
[6]巴澤智,張輝,謝錚涵,等. 大語言模型自動化提示工程技術(shù)研究綜述[J/OL]. 計算機(jī)科
學(xué)與探索,1-28[2025-06-22]. http://kns.cnki.net/
kcms/detail/11.5602.TP.20250701.1702.004.html.
[7]田永林,王雨桐,王興霞,等. 從RAG到SAGE:現(xiàn)狀與展望[J]. 自動化學(xué)報,2025(6):1145-1169.
[8]王樹義,張慶薇,張晉. AIGC時代的科研工作流:協(xié)同與AI賦能視角下的數(shù)字學(xué)術(shù)工具應(yīng)用及其未來[J]. 圖書情報知識,2023(5):28-38.
[9]吳春志,趙玉龍,劉鑫,等. 大語言模型微調(diào)方法研究綜述[J]. 中文信息學(xué)報,2025(2):1-26.
[10]Rolellm:Benchmarking,eliciting,and enhancing role-playing abilities of large language models[EB/OL].[2025-06-22].https://openreview.net/pdf/b4b99311af110ded344085d983e5ed97af976285.pdf.
[11]Decomposed Prompting: A Modular Approach for Solving Complex Tasks[EB/OL].[2025-06-22].https://arxiv.org/abs/2210.02406.
[12]How You Prompt Matters! Even Task-Oriented Constraints in Instructions Affect LLM-Generated Text Detection[EB/OL].[2025-06-22].https://xueshu.baidu.com/usercenter/paper/show?paperid=18250jp0vv7q0660b0170ax0m9540982amp;site=xueshu_seamp;hitarticle=1.