■侯修洲 黃延紅
《中國科學(xué)》雜志社,北京市東城區(qū)東黃城根北街16號(hào) 100717
科技論文在完成同行評(píng)議后,一般還需要經(jīng)過編輯加工、校對(duì)、質(zhì)檢、核對(duì)清樣等步驟,才能正式發(fā)表,這些工作往往比較繁瑣,還容易出現(xiàn)差錯(cuò)。2018年1月10日,國家新聞出版廣電總局報(bào)刊司發(fā)出《關(guān)于對(duì)〈報(bào)刊質(zhì)量管理規(guī)定〉(征求意見稿)征求意見的通知》,該通知對(duì)期刊質(zhì)量提出了更嚴(yán)格的要求,其中最明顯的調(diào)整是將期刊編校差錯(cuò)率從3/10000降低到2/10000,差錯(cuò)率超過2/10000的期刊,其編校質(zhì)量將被視為不合格。由此可見,編輯的工作壓力會(huì)越來越大,并將長期陷入事務(wù)性的編校工作中,難以發(fā)揮編輯的主動(dòng)性和創(chuàng)造性。
薛子儉等[1]提出分步編校方法,該方法從論文構(gòu)架核查、分類加工、常規(guī)潤色、整體核對(duì)4個(gè)方面分步進(jìn)行,條理清晰,避免了漏校,但所有流程均需要人工參與,并沒有減少編輯的工作量,也不能完全保證將每條錯(cuò)誤檢查出來。近年來,王紅劍等[2]和黃城煙[3]提出了利用Visual Basic for Application (VBA)編程技術(shù)在Word文檔環(huán)境中批量替換易錯(cuò)字詞的功能,可以在一定程度上降低人工勞動(dòng)量。龔小謹(jǐn)?shù)萚4-6]從自然語言理解和語法分析角度對(duì)文章校對(duì)進(jìn)行了研究,該技術(shù)的優(yōu)點(diǎn)是校對(duì)顆粒度能達(dá)到詞語級(jí)別,但糾錯(cuò)建議的有效率或首選正確率比較低,與用戶的要求還有較大差距。此外,市面上流行的黑馬校對(duì)軟件也是主要集中在詞語的錯(cuò)誤用法和敏感詞的識(shí)別,其查錯(cuò)率也有待提高。
近年來,國外大多數(shù)期刊均采用了XML排版,其優(yōu)點(diǎn)是論文結(jié)構(gòu)清晰,不僅能為讀者提供豐富的閱讀體驗(yàn),而且可從其結(jié)構(gòu)化角度來尋找科技論文內(nèi)在的邏輯規(guī)律,利用這些規(guī)律,可對(duì)論文進(jìn)行計(jì)算機(jī)程序輔助校對(duì)。由于VBA技術(shù)和Word文檔具有良好的結(jié)合性,且筆者已經(jīng)成功地將VBA技術(shù)應(yīng)用于Word文檔的XML結(jié)構(gòu)化標(biāo)記和參考文獻(xiàn)的自動(dòng)加工中[7-9],在此基礎(chǔ)上,本文嘗試尋找科技論文的內(nèi)在連續(xù)性、一致性和唯一性等邏輯原則,并基于此原則使用VBA輔助編程對(duì)科技論文進(jìn)行自動(dòng)校對(duì),盡量將大多數(shù)錯(cuò)誤在排版前標(biāo)示出來,以提高編排效率,避免多次編校返工。
本研究的編校差錯(cuò)是指排版前可由計(jì)算機(jī)程序識(shí)別的錯(cuò)誤。VBA語言環(huán)境、部署及實(shí)例應(yīng)用等內(nèi)容將不再做詳細(xì)闡述,可以參考王玥等[10]的文章,語法規(guī)則可以參考http://www.doc88.com/p-931469800915.html。
科技論文有一定的寫作要求,其連續(xù)性原則表現(xiàn)在:(1)順序編碼制參考文獻(xiàn)著錄一般要求正文中的文獻(xiàn)引用序號(hào)必須按照順序出現(xiàn),不能漏引;(2)圖表序號(hào)、公式序號(hào)、章節(jié)序號(hào)也需要按照順序出現(xiàn),不能中斷。
一致性原則主要用在著者-出版年制文獻(xiàn)的校對(duì)。著者-出版年制文獻(xiàn)著錄一般要求正文中出現(xiàn)的著者年要和文后的文獻(xiàn)嚴(yán)格一致。如果正文中著者后面出現(xiàn)“et al.”或 “等”的描述,則要求文后文獻(xiàn)的作者至少是3位;如果正文中著者后面出現(xiàn)“and”或“和”的描述,則一般要求文后文獻(xiàn)的作者是2位。但筆者在實(shí)踐過程中發(fā)現(xiàn),正文中著者姓的大小寫和拉丁文書寫格式經(jīng)常和文后參考文獻(xiàn)的著錄不一致,如果人工對(duì)這部分內(nèi)容進(jìn)行校對(duì),其工作量較大,且操作繁瑣,并且很難避免疏漏或錯(cuò)誤的出現(xiàn)。對(duì)于中文科技論文,一致性原則還可以用于校對(duì)作者的中文姓名和拼音是否一致,以及中英文地址、郵編是否一致。
無論是順序編碼制文獻(xiàn)還是著者-出版年制文獻(xiàn)的著錄,都要求文后的每一條參考文獻(xiàn)只能出現(xiàn)一次,這就是文獻(xiàn)的唯一性原則。作者在撰寫和修改論文時(shí),由于反復(fù)增刪內(nèi)容或其他原因,經(jīng)常會(huì)發(fā)生文獻(xiàn)重復(fù)出現(xiàn)的情況,這時(shí)候就需要對(duì)文獻(xiàn)的唯一性進(jìn)行檢查和校對(duì)。
依照上述原則進(jìn)行校對(duì)后,在原文中相應(yīng)地方進(jìn)行高亮標(biāo)識(shí),以提醒加工者注意,這屬于建議性質(zhì)的輔助校對(duì),而不是強(qiáng)制要求用戶修改。編輯部可以按照具體體例進(jìn)行針對(duì)性修改,如有特殊情況,可具體問題具體處理。
以順序編碼制文獻(xiàn)為例,在正文中標(biāo)注引用文獻(xiàn)的格式一般為“[1]”“[1-2]”“[1-3]”“[1-3,5]”“[1-3,5,7,9-11]”等形式,其中的對(duì)開線有時(shí)也可能為全身線或“~”。首先需要識(shí)別這些文獻(xiàn)序號(hào),在VBA語言環(huán)境中,上述文獻(xiàn)格式可以用正則表達(dá)式來表述:[([d]{1,3})((,|.)[d]{1,3})?],其中[表示開始的方括號(hào),]表示結(jié)束的方括號(hào),([d]{1,3})表示文獻(xiàn)序號(hào),((,|.)[d]{1,3})?表示結(jié)束的文獻(xiàn)序號(hào),表示結(jié)束的文獻(xiàn)序號(hào)的“?”也可以省略。如果是像[1-3,5,7,9-11]這樣復(fù)雜的文獻(xiàn)表述,則只需將((,|.)[d]{1,3})?在正則表達(dá)式中重復(fù)幾次即可。
當(dāng)識(shí)別了正文中的所有文獻(xiàn)序號(hào)后,就要判斷序號(hào)的連續(xù)性了。將某一處的文獻(xiàn)序號(hào)表述內(nèi)容記為I,將I處之前的文獻(xiàn)序號(hào)表述內(nèi)容記為I-1,設(shè)定I-1處的最大文獻(xiàn)序號(hào)為Mmax,顯然,當(dāng)程序開始執(zhí)行時(shí),Mmax的初始賦值為1。當(dāng)程序執(zhí)行到第I處時(shí),求取該處文獻(xiàn)序號(hào)的最大值和最小值,分別記為Imax和Imin,此時(shí)判斷第I處文獻(xiàn)序號(hào)是否和第I-1處文獻(xiàn)連續(xù),可以分為三種情況:(1)當(dāng)Imax≤Mmax時(shí),則I處文獻(xiàn)和I-1處文獻(xiàn)連續(xù);(2)當(dāng)Imin>Mmax時(shí),則I處文獻(xiàn)和I-1處文獻(xiàn)不連續(xù),此時(shí)將Mmax重新賦值為Imax;(3)當(dāng)Imin≤Mmax 在程序運(yùn)行中,將每一處連續(xù)的文獻(xiàn)序號(hào)標(biāo)為藍(lán)色,如校對(duì)示意圖(圖2)的圓圈所示;不連續(xù)的文獻(xiàn)序號(hào)標(biāo)為紅色字體并高亮,如圖2的方框所示。 圖表序號(hào)和公式序號(hào)的判斷規(guī)則與順序編碼制文獻(xiàn)序號(hào)連續(xù)性判斷規(guī)則相同,此處不再贅述。 對(duì)于章節(jié)標(biāo)題序號(hào)的連續(xù)性判斷,則需要事先定位章節(jié)標(biāo)題的位置,具體標(biāo)記方法可以查閱文獻(xiàn)[7]。 圖2 順序編碼制文獻(xiàn)序號(hào)連續(xù)性校對(duì)示意圖 對(duì)于一級(jí)標(biāo)題,只需提取標(biāo)題前面的序號(hào),按照自然數(shù)來判斷是否連續(xù),而二級(jí)標(biāo)題和三級(jí)標(biāo)題的序號(hào)連續(xù)性判斷,則不能簡單套用自然數(shù)來判斷。一般二級(jí)標(biāo)題序號(hào)為“1.1、1.2、1.3”“2.1、2.2、2.3”等形式,三級(jí)標(biāo)題序號(hào)為“1.1.1、1.1.2、1.1.3”“2.1.1、2.1.2、2.1.3”等形式。關(guān)于二級(jí)標(biāo)題和三級(jí)標(biāo)題,當(dāng)成功提取標(biāo)題序號(hào)后,應(yīng)先忽略序號(hào)中的點(diǎn),然后比較自然數(shù)順序序列。與判斷一級(jí)標(biāo)題序號(hào)連續(xù)性不同的是,當(dāng)考慮二級(jí)標(biāo)題序號(hào)的連續(xù)性時(shí),既要滿足自然數(shù)連續(xù)性規(guī)則,也要保持該二級(jí)標(biāo)題序號(hào)的第一位數(shù)和緊鄰的一級(jí)標(biāo)題序號(hào)一致;當(dāng)考慮三級(jí)標(biāo)題序號(hào)的連續(xù)性時(shí),同樣要考慮該三級(jí)標(biāo)題序號(hào)的前兩位數(shù)與緊鄰的二級(jí)標(biāo)題序號(hào)一致。對(duì)于不連續(xù)的章節(jié)標(biāo)題,可用高亮顯示,如圖3的方框所示。 圖3 章節(jié)序號(hào)不連續(xù)的示意圖 一致性校對(duì)主要涉及到著者-出版年制文獻(xiàn)的校對(duì),一般此類文獻(xiàn)在正文中引用時(shí),其表述方式為“姓,年”“姓et al/等,年”“姓1 and/和 姓2,年”“姓(年)”“姓et al/等(年)”和“姓1 and/和 姓2(年)”等形式?;谝陨细袷剑P者編寫了識(shí)別著者年的正則表達(dá)式: (([a-zA-Zu00C1-u00FFu2C60-u2C74u002D]+(( and |和)[a-zA-Zu00C1-u00FFu2C60-u2C74u002D]+)?)|([u4e00-u9fa5]{2,3}(和([u4e00-u9fa5]{2,3}))?))(等人|等| et al.| et al|)?(,)?( )?(()?((20|19|18)([d]{2}))([a-g])?())? 當(dāng)完成正文的著者年信息識(shí)別后,還需要將每一條的識(shí)別內(nèi)容和文后參考文獻(xiàn)進(jìn)行比較,其流程如圖4所示?;谖墨I(xiàn)[8-9],筆者已經(jīng)成功地將參考文獻(xiàn)進(jìn)行了自動(dòng)加工和XML標(biāo)記拆分,絕大多數(shù)參考文獻(xiàn)都實(shí)現(xiàn)了姓名、文題、刊名、年、卷、頁碼等信息的拆分(圖5)。只需將正文中識(shí)別的姓和年與文后已經(jīng)拆分的文獻(xiàn)信息中的姓和年進(jìn)行匹配比較即可。如果前后驗(yàn)證沒問題,則標(biāo)上藍(lán)色;如果前后不對(duì)應(yīng),則高亮并用紅色字體標(biāo)識(shí)。與圖5文獻(xiàn)對(duì)應(yīng)的校對(duì)示例如圖6所示。 圖4 著者-出版年制文獻(xiàn)一致性校對(duì)流程 圖5 參考文獻(xiàn)XML標(biāo)記加工示意圖[6] 圖6 著者-出版年制參考文獻(xiàn)一致性校對(duì)示意圖 對(duì)于中文版論文,筆者已經(jīng)利用VBA程序?qū)⑽臋n中作者姓名及其相應(yīng)地址的中英文內(nèi)容進(jìn)行了標(biāo)記[7],可方便提取每一位作者及其相應(yīng)地址的中英文信息。將作者的中文姓名轉(zhuǎn)換成拼音,然后和作者標(biāo)注的拼音進(jìn)行匹配比較,如果表述不一致則標(biāo)黃色高亮; 同理,可提取地址和郵編的中英文信息,如果不一致,同樣黃色高亮提示(圖7)。如果作者及其相應(yīng)地址的中英文數(shù)量不一致,將彈窗提醒加工人員注意。 圖7 作者姓名和郵編中英文校對(duì)示意圖 筆者已經(jīng)將參考文獻(xiàn)進(jìn)行了XML拆分[8-9],并且獲取了文獻(xiàn)的DOI信息(圖5)。 在提取每條參考文獻(xiàn)的DOI信息時(shí),如果發(fā)現(xiàn)參考文獻(xiàn)的DOI信息相同,則判斷這些文獻(xiàn)是重復(fù)文獻(xiàn),程序會(huì)將重復(fù)文獻(xiàn)都標(biāo)為紅色字體,具體示例如圖8的方框所示。 圖8 參考文獻(xiàn)唯一性校對(duì)示意圖 在已有工作的基礎(chǔ)上[7-9],尋找論文邏輯的連續(xù)性、一致性和唯一性原則,并利用這些原則對(duì)科技論文進(jìn)行全文自動(dòng)校對(duì),不僅減輕了加工人員的勞動(dòng)量,減少了審校的輪次,也避免了低級(jí)編校錯(cuò)誤的出現(xiàn),提高了出版效率,同時(shí)也為后期Word文檔轉(zhuǎn)換為XML文件提供了質(zhì)量保證。 論文的邏輯原則包括:(1)連續(xù)性原則,適用于論文中不連續(xù)的文獻(xiàn)、章節(jié)、圖表、公式等序號(hào)的校對(duì);(2)一致性原則,適用于著者-出版年制文獻(xiàn)前后不一致表述的校對(duì)和作者姓名及相應(yīng)地址、郵編的中英文校對(duì);(3)唯一性原則,適用于文后重復(fù)出現(xiàn)的參考文獻(xiàn)的校對(duì)。 需要說明的是,這些原則是筆者在《中國科學(xué)》系列刊物編校實(shí)踐中總結(jié)出來的,依照上述原則進(jìn)行校對(duì)的結(jié)果,是建議性質(zhì)的輔助校對(duì),相關(guān)編輯部可以按照具體情況進(jìn)行針對(duì)性修改。論文自動(dòng)校對(duì)大致包含邏輯校對(duì)和語法校對(duì)兩個(gè)方向,本研究側(cè)重于邏輯原則,筆者也很期待未來能開發(fā)出全面且性能良好的校對(duì)方法。3 基于一致性原則的自動(dòng)校對(duì)方法
4 基于參考文獻(xiàn)唯一性原則的校對(duì)方法
5 結(jié)論