文/段洋
隨著國家科技發(fā)展戰(zhàn)略不斷深入,以形成綜合印刷出版物、數(shù)字出版物和各類數(shù)字信息資源生產(chǎn)與服務(wù)的智能出版系統(tǒng)逐漸走進(jìn)出版人的視野。以智能檢校工具為核心出發(fā)點(diǎn),打造針對報(bào)社、出版社等各出版單位具體流程的出版檢校系統(tǒng),能為新聞出版行業(yè)的產(chǎn)業(yè)升級、技術(shù)改造和數(shù)字化轉(zhuǎn)型提供有力支撐。智能檢校以先進(jìn)技術(shù)為依托、內(nèi)容建設(shè)為根本,面向出版全流程,研發(fā)應(yīng)用于選題策劃、協(xié)同采編、加工制作、資源管理、多渠道發(fā)布、運(yùn)營服務(wù)等核心業(yè)務(wù),既覆蓋以報(bào)業(yè)出版為代表的常規(guī)和政治敏感類檢校需求,也覆蓋以專業(yè)圖書、期刊為代表的專業(yè)性和知識性檢校,同時(shí)還滿足各類出版單位針對業(yè)務(wù)類型進(jìn)行個(gè)性化維護(hù)的需求,開創(chuàng)檢校領(lǐng)域全媒體資源管理和互動(dòng)服務(wù)等多方面變革,大幅提高出版產(chǎn)業(yè)對內(nèi)容資源的加工能力和運(yùn)營能力,有利于進(jìn)一步提升出版物質(zhì)量,縮短出版周期,降低運(yùn)營成本。
新聞出版面向公眾傳播新聞、信息資訊,其基本屬性是內(nèi)容的真實(shí)、準(zhǔn)確。當(dāng)前,互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)在媒體行業(yè)的應(yīng)用,使得新聞出版的時(shí)效性得以快速提升,但不論是傳統(tǒng)媒體還是新媒體,出版質(zhì)量的控制還是以人工居多。傳統(tǒng)出版共有寫稿、編輯組版、人工校對、照排印刷四個(gè)環(huán)節(jié),其中三個(gè)環(huán)節(jié)基本實(shí)現(xiàn)信息化高效運(yùn)行,唯獨(dú)校對環(huán)節(jié)還是人工為主,工作效率低,無法滿足新媒體時(shí)代下用戶對信息速度的要求,尤其在當(dāng)下網(wǎng)絡(luò)出版質(zhì)量差錯(cuò)率遠(yuǎn)遠(yuǎn)超過國家要求的情況下,對于文字內(nèi)容的質(zhì)量控制手段亟須提升。
為保證報(bào)紙、書籍、期刊、音像電子等出版物的質(zhì)量要求,同時(shí)促進(jìn)互聯(lián)網(wǎng)信息傳播的正確性,加強(qiáng)出版單位、出版物及用戶之間的聯(lián)系互動(dòng),形成出版生產(chǎn)質(zhì)量的全面優(yōu)化,實(shí)現(xiàn)出版全過程信息化,開發(fā)適應(yīng)當(dāng)前行業(yè)全媒體需求的智能檢校系統(tǒng)的需求日益增長。
出版物編纂、審核過程中,對內(nèi)容的檢查涉及多個(gè)方面,包括字詞符號檢查、邏輯性檢查、內(nèi)容重復(fù)性檢查、知識性檢查、格式檢查、語法審校等。目前,對于出版物內(nèi)容的檢校,除部分報(bào)社、出版社引入新聞出版檢校系統(tǒng)或自動(dòng)校對工具外,大部分出版單位的檢校還是依賴純?nèi)斯さ姆绞?。在?shù)字出版中,特別是微博、微信、移動(dòng)客戶端的內(nèi)容中存在錯(cuò)詞、文字段落重復(fù)出現(xiàn)等諸多質(zhì)量問題,需要研發(fā)配套的技術(shù),提供方便的校檢輔助服務(wù),對數(shù)字出版物的質(zhì)量進(jìn)行控制,支撐出版單位及管理機(jī)構(gòu)的質(zhì)量控制需求。當(dāng)前出版業(yè)普遍使用的審校工具主要基于錯(cuò)詞庫進(jìn)行審校,在媒體融合發(fā)展環(huán)境下,對知識性、邏輯性、語法的審校能力相對薄弱。智能檢校利用自然語言理解技術(shù)、機(jī)器深度學(xué)習(xí)技術(shù)、人工智能技術(shù)對出版內(nèi)容進(jìn)行審校,讓編輯人員從低價(jià)值的、重復(fù)性較多的編校工作中釋放出來,將主要精力放到更有價(jià)值的知識性、學(xué)術(shù)性的內(nèi)容檢查上去,提升圖書內(nèi)容編校質(zhì)量和效率,具有重要價(jià)值。
報(bào)紙出版時(shí)效性強(qiáng),流程環(huán)節(jié)復(fù)雜,其中的校對環(huán)節(jié)更是重中之重;期刊與圖書出版生產(chǎn)周期相對較長,稿件以WORD和PDF格式為主,內(nèi)容多,生產(chǎn)流程中的采編審校環(huán)節(jié)的銜接比較松散。智能檢校系統(tǒng)提供智能檢校云平臺、協(xié)同檢校系統(tǒng)、嵌入式檢校工具、智能檢校SDK四種應(yīng)用模式,以適應(yīng)出版社、報(bào)社、期刊社融合出版的不同檢校需求,滿足出版行業(yè)各類用戶的質(zhì)量控制需求。
智能檢校云平臺。通過瀏覽器為用戶提供云端智能檢校服務(wù),適合各類出版用戶的輕應(yīng)用業(yè)務(wù)場景。平臺為新媒體出版及各種輕檢校場景(不調(diào)用專業(yè)閱讀器及采編系統(tǒng)等)提供網(wǎng)絡(luò)化的智能檢校服務(wù),同時(shí)將詞庫維護(hù)及算法管理等功能集成在云平臺中,隨時(shí)隨地滿足新媒體移動(dòng)出版時(shí)代用戶輕快的檢校要求。
協(xié)同檢校系統(tǒng)。服務(wù)于報(bào)業(yè),提供各種智能檢校工具,在保證校對質(zhì)量的前提下,以獨(dú)立的檢校處理系統(tǒng)與用戶的采編系統(tǒng)并行,除了提供文字內(nèi)容校對外,還滿足報(bào)紙出版特有報(bào)頭自動(dòng)校對、字體字號校對、原文比對、重稿檢查、核紅比對、標(biāo)記查詢的業(yè)務(wù)需求,并輔以進(jìn)度監(jiān)控、工量統(tǒng)計(jì)、即時(shí)通訊等系統(tǒng)功能,為各環(huán)節(jié)人員提供質(zhì)量控制和時(shí)效管控輔助工具,提高生產(chǎn)時(shí)效。
嵌入式檢校工具。著重滿足圖書及期刊用戶在專業(yè)編輯器中的檢校需求,安裝簡單、實(shí)用便捷。專業(yè)性圖書、學(xué)術(shù)型期刊出版時(shí)專業(yè)名詞較多,公式、章節(jié)、圖表等特殊內(nèi)容較多,編寫和排版時(shí)容易出現(xiàn)序(編)號缺失、顛倒等錯(cuò)誤,需求也相對較多。嵌入式檢校工具能夠在稿件采、編時(shí)提供智能檢校服務(wù),操作簡便,更適合流程周期長的圖書、期刊出版。
智能檢校SDK。供出版用戶的采編系統(tǒng)直接調(diào)用,提供采寫、編輯時(shí)的內(nèi)容檢校服務(wù)。
智能檢校系統(tǒng)的研發(fā)目標(biāo)是面向文字內(nèi)容等差錯(cuò)的在線自動(dòng)查找,在智能檢校系統(tǒng)中實(shí)現(xiàn)人與機(jī)器高效協(xié)同地采編、出版、檢校,運(yùn)用智能檢校和人機(jī)結(jié)合工具提高出版的質(zhì)檢自動(dòng)化程度,能有效縮短出版周期,降低出錯(cuò)率。項(xiàng)目的創(chuàng)新包括以下幾個(gè)方面。
邏輯體例檢查。通過“邏輯體例檢查”功能,可實(shí)現(xiàn)對稿件大綱的標(biāo)題序號是否連續(xù)、標(biāo)題序號體例及格式是否一致等問題,以及稿件中所有圖片、表格、公式、列表、數(shù)學(xué)元素、參考文獻(xiàn)的序號或順序書寫是否正確、是否存在引用關(guān)系錯(cuò)誤進(jìn)行檢查。
內(nèi)容相似性檢查。通過該功能,可以快速檢查出整篇稿件或多篇稿件中是否存在疑似重復(fù)的文本內(nèi)容及相似程度較高的文本內(nèi)容。
敏感內(nèi)容檢查。除基礎(chǔ)詞庫外,分類專項(xiàng)設(shè)立領(lǐng)導(dǎo)人詞庫、敏感詞詞庫等專業(yè)庫,包括重點(diǎn)詞監(jiān)控、涉及港澳臺相關(guān)用語的檢查、涉及敏感政治事件及重大提法、涉及民族宗教敏感詞、其他敏感詞匯、危害社會安全的敏感詞檢查,提升智能校對正確率及覆蓋廣度,并成為出版單位、用戶與監(jiān)管單位三方共享使用的檢校平臺。
政要信息檢查。檢查政要姓名中是否出現(xiàn)錯(cuò)別字、多字少字等錯(cuò)誤情況,包括領(lǐng)導(dǎo)人職務(wù)正確性檢查、領(lǐng)導(dǎo)人職務(wù)表述的規(guī)范性檢查、領(lǐng)導(dǎo)人排序檢查等。
重要講話內(nèi)容核查。通過重要講話內(nèi)容核查功能,實(shí)現(xiàn)可以不受書寫體例限制自動(dòng)識別出稿件中的領(lǐng)導(dǎo)人講話、政府發(fā)布的重要文件等內(nèi)容,通過文本相似性比對技術(shù)推薦與原句相似度較高的句子,并標(biāo)注出句子間的差異,供用戶核查。
法律法規(guī)內(nèi)容核查。不受書寫體例限制自動(dòng)識別出稿件中的法律法規(guī)內(nèi)容,通過文本相似性比對技術(shù)推薦與原句相似度較高的句子,并標(biāo)注出句子間的差異,供用戶核查。
字詞符號檢查。字詞符號檢查主要包括針對錯(cuò)別字、疊字疊詞檢查、“的地得”檢查等字詞錯(cuò)誤,不規(guī)范字、標(biāo)點(diǎn)符號等內(nèi)容錯(cuò)誤進(jìn)行檢查?;谇把厣疃壬窠?jīng)網(wǎng)絡(luò)的糾錯(cuò)模型,利用海量數(shù)據(jù)預(yù)訓(xùn)練得到的神經(jīng)語言模型。結(jié)合審校場景,針對不同類型錯(cuò)誤特點(diǎn)的數(shù)據(jù)特征進(jìn)行調(diào)整,并通過不同的算法模型進(jìn)行糾錯(cuò)。結(jié)合用戶真實(shí)使用的反饋數(shù)據(jù),利用數(shù)據(jù)增強(qiáng)技術(shù)持續(xù)增強(qiáng)模型的糾錯(cuò)能力,包括易錯(cuò)詞、不規(guī)范字、標(biāo)點(diǎn)符號檢查、時(shí)間日期檢查、術(shù)語譯文檢查、單位符號檢查、英文拼寫檢查、全半角檢查、千分位檢查、單位間隙檢查等。
正文內(nèi)參考文獻(xiàn)引用順序檢查。檢查稿件正文中參考文獻(xiàn)的引用順序是否存在錯(cuò)誤,一直是令廣大書刊編校人員較為頭痛的編校問題之一。通過拓展對采用順序編碼制編寫的參考文獻(xiàn)的檢查維度,對參考文獻(xiàn)在正文內(nèi)的引用順序進(jìn)行檢查,可實(shí)現(xiàn)對整體的引用順序、方括號內(nèi)的引用順序進(jìn)行檢查。
易錯(cuò)詞檢查。一方面,聯(lián)合大數(shù)據(jù)及實(shí)驗(yàn)室團(tuán)隊(duì)對拼寫模型、同音音近模型、語法檢查模型進(jìn)行多輪優(yōu)化,有效提升拼寫錯(cuò)誤檢查的查全率;通過增加詞對數(shù)量,提升同音近詞檢查模型的查全能力;通過擴(kuò)展檢查錯(cuò)誤范圍及增加錯(cuò)字和選詞錯(cuò)誤的范圍,提升語法檢查的查全率和查準(zhǔn)率。另一方面,優(yōu)化檢查規(guī)則。一是疊字疊詞檢查規(guī)則優(yōu)化:完善了疊字疊詞檢查的后處理規(guī)則,增加了對存在疊字的正詞中疊字部分錯(cuò)誤的檢查規(guī)則(如“消消話”),提升了疊字疊詞檢查的查準(zhǔn)率和查全率;二是短文本糾錯(cuò):增加基于詞庫和規(guī)則的短文本糾錯(cuò)能力,解決用戶測評時(shí)刻意構(gòu)造的短文本樣例,以及檢查歧義性低的常用詞或詞組,提升了易錯(cuò)詞檢查的查全率和查準(zhǔn)率;三是將“非推薦詞”和“語義重復(fù)”這兩項(xiàng)檢查能力拆分出來形成獨(dú)立的檢查能力,以滿足不同用戶對易錯(cuò)詞范圍的檢查需求。
知識類檢查。知識類檢查包括紀(jì)年檢查、地名檢查、古詩詞引文檢查。
近年來,各級出版單位認(rèn)真貫徹中央精神,積極推進(jìn)復(fù)合數(shù)字出版發(fā)展,不斷探索融合發(fā)展路徑,利用互聯(lián)網(wǎng)思維方法、理念技術(shù)提高出版效率和內(nèi)容質(zhì)量,應(yīng)勢而動(dòng),順勢而為,將機(jī)器學(xué)習(xí)、自然語言處理、認(rèn)知推理、模型構(gòu)建、圖像識別等技術(shù)集成應(yīng)用融入到出版過程中。雖然智能檢校技術(shù)針對機(jī)器學(xué)習(xí)、機(jī)器視覺、感知識別、自然語言處理、認(rèn)知推理、模型構(gòu)建等技術(shù)都有廣泛應(yīng)用,并具有較強(qiáng)的集成應(yīng)用和工程化能力,但我們也應(yīng)認(rèn)識到,如何把新技術(shù)應(yīng)用到出版流程中才更重要。筆者認(rèn)為,智能檢校系統(tǒng)在未來的不斷升級完善中,有以下幾方面值得重點(diǎn)關(guān)注。
多渠道拓寬詞庫。詞庫是決定檢校成效的關(guān)鍵之一,為解決傳統(tǒng)自動(dòng)校對詞庫封閉、知識面窄的弊端,智能檢校系統(tǒng)可以積極推動(dòng)詞庫“眾籌”理念,向用戶開放可維護(hù)詞庫,并提供用戶檢校結(jié)果審定接口,使得詞庫隨著用戶持續(xù)使用而優(yōu)化豐滿,實(shí)現(xiàn)云端匯聚和在線分享。
升級云平臺部署及分布式計(jì)算技術(shù)。以云端檢校、客戶端展現(xiàn)結(jié)果的方式提供智能檢校服務(wù),用戶可隨時(shí)隨地通過網(wǎng)絡(luò)校對,處理速度快,應(yīng)用成本低。進(jìn)一步升級云平臺部署將不斷優(yōu)化處理能力,降低應(yīng)用成本,提升用戶體驗(yàn)。
優(yōu)化立體檢校模式。多算法相互驗(yàn)證、多規(guī)則彼此協(xié)同的立體化檢校方式,輔以基于詞庫的非規(guī)則算法提供支撐,對字、詞、句、段各級文本實(shí)現(xiàn)智能化識別和立體化檢校。及時(shí)采用最新的大數(shù)據(jù)技術(shù),可持續(xù)高速擴(kuò)充規(guī)則庫的采集,進(jìn)一步優(yōu)化立體檢校模式。
提升數(shù)字化出版環(huán)境下的質(zhì)量管控能力。通過多種檢校服務(wù),滿足媒體融合出版全流程、多格式、輕應(yīng)用的智能檢校需求,支撐中文出版領(lǐng)域質(zhì)效控制,提升出版時(shí)效,降低直接生產(chǎn)成本。
應(yīng)用最新技術(shù)帶動(dòng)檢校服務(wù)模式的轉(zhuǎn)變。通過云檢校平臺幫助用戶擴(kuò)充專業(yè)詞庫并分享用戶的檢校知識和經(jīng)驗(yàn),實(shí)現(xiàn)從傳統(tǒng)的單向服務(wù)變?yōu)橛脩襞c平臺雙向互動(dòng)、互為分享,共同提升檢校準(zhǔn)確性的業(yè)務(wù)模式。智能化技術(shù)置于智能審校發(fā)展的中樞環(huán)節(jié),對圖書、期刊、工具書和新聞?lì)悆?nèi)容質(zhì)量進(jìn)行把關(guān),提升出版效率和出版質(zhì)量。
近年來,媒體融合發(fā)展已經(jīng)深入人心,從中央的政策支持,到行業(yè)內(nèi)外的積極探索,新聞出版行業(yè)已經(jīng)走到了轉(zhuǎn)型發(fā)展的重要拐點(diǎn)?;ヂ?lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的廣泛普及,大數(shù)據(jù)技術(shù)、人工智能技術(shù)等新興技術(shù)在內(nèi)容生產(chǎn)及消費(fèi)領(lǐng)域的應(yīng)用,VR/AR在內(nèi)容呈現(xiàn)方面的應(yīng)用,都促使新聞出版行業(yè)由傳統(tǒng)的紙筆生產(chǎn)及消費(fèi)模式迅速與新興技術(shù)結(jié)合。出版單位要積極探索適合自身的業(yè)務(wù)模式,堅(jiān)定地推進(jìn)數(shù)字出版轉(zhuǎn)型升級。相信通過政府的引導(dǎo),新聞出版產(chǎn)業(yè)鏈上的各方共同參與、互相協(xié)調(diào),終會探索出一條適合中國數(shù)字出版的道路!