■于亞明 蘇海波
無論是媒體行業(yè)還是出版行業(yè),校對方式都經(jīng)歷了人工校對和人機(jī)校對兩個階段。
在進(jìn)入計(jì)算機(jī)時代之前的校對工作,主要是由人工“校異同”,這種校對方式屬于傳統(tǒng)校對方式。“校異同”也就是在稿件上版之前,校對工作者拿原稿與排版打印出來的樣張逐字逐句對照,以原稿為準(zhǔn)糾正樣張上的多字、漏字、錯字等錯誤,反復(fù)進(jìn)行三次,即所謂的“三?!?,直到樣張和原稿內(nèi)容完全一致方可發(fā)布。
在進(jìn)入計(jì)算機(jī)時代后,紙質(zhì)稿件逐漸變?yōu)殡娮痈寮?,從而使原稿和樣張合二為一,這種改變對校對人員提出了更高的要求,要求校對工作對編輯工作起補(bǔ)充和完善作用,因此該階段由“校異同”開始向“校是非”轉(zhuǎn)變?!靶J欠恰鳖櫭剂x就是校對文本內(nèi)容的正確與否,不再是和原稿一致性的檢查,雖然這個階段的“校是非”比重較小,但這標(biāo)志著傳統(tǒng)校對的創(chuàng)新和變革。
稿件電子化和對校對人員更高的要求催生了校對軟件,也就出現(xiàn)了新的校對方式,即“人機(jī)校對”。此時的校對軟件是采用N-Gram統(tǒng)計(jì)語言模型的校對計(jì)算技術(shù),主要實(shí)現(xiàn)查找錯別字、專有名詞、標(biāo)點(diǎn)符號等錯誤,相比人工校對提升了效率。舉個簡單的例子,“餞行社會主義核心價值觀”,該句中“餞行”一詞本身沒有錯誤,但在該句中卻是錯誤的,利用校對軟件能夠自動識別出這類錯誤。雖然校對軟件具有一定優(yōu)勢,在識別文本的錯字錯詞方面提高了效率,但是其局限性也十分明顯,因而要求采用“人校+機(jī)校相結(jié)合”的方式。
基于N-Gram統(tǒng)計(jì)語言模型的校對,其實(shí)現(xiàn)方式可以簡單地按照如下思路理解:首先基于大量的語料進(jìn)行分詞,進(jìn)行統(tǒng)計(jì)得到N-Gram語言模型,對需要校對的文本,判斷相鄰詞語在語言模型中出現(xiàn)的次數(shù)是否高于一定的閾值,如果達(dá)不到該要求,則報(bào)錯。這種方法實(shí)現(xiàn)比較簡單,效果也比較一般,容易誤報(bào)和漏報(bào)。
新興的利用人工智能技術(shù)的校對軟件,是利用自然語言處理技術(shù)和深度學(xué)習(xí)技術(shù),對大量語料進(jìn)行模型訓(xùn)練從而完成校對。算法人員依據(jù)行業(yè)規(guī)范、標(biāo)準(zhǔn)和業(yè)務(wù)知識設(shè)計(jì)對應(yīng)的模型,讓機(jī)器通過模型去學(xué)習(xí)語料中的錯誤的案例和對應(yīng)的正確的內(nèi)容,同時以知識庫作為補(bǔ)充和完善,最終識別和提示稿件中的不規(guī)范內(nèi)容,并給出修改建議。基于深度學(xué)習(xí)模型的方法需要更多的語料,實(shí)現(xiàn)更加復(fù)雜,但是效果相比傳統(tǒng)的N-Gram統(tǒng)計(jì)語言模型有明顯的提升。
目前市面上的校對軟件主要分為兩類,分別是基于N-Gram統(tǒng)計(jì)語言模型的校對軟件和利用深度學(xué)習(xí)技術(shù)的校對軟件,這兩種類型的軟件有各自的優(yōu)缺點(diǎn)。
基于N-Gram統(tǒng)計(jì)語言模型方式實(shí)現(xiàn)校對的軟件,有以下優(yōu)勢:一是進(jìn)入行業(yè)早,客戶多,知名度高;二是軟件的功能多,通用性強(qiáng)。其缺點(diǎn)也是顯而易見的,由于采用的是傳統(tǒng)統(tǒng)計(jì)語言模型,效果一般。
利用深度學(xué)習(xí)技術(shù)的校對軟件,結(jié)合前沿的深度學(xué)習(xí)技術(shù),具有以下優(yōu)勢:一是利用深度學(xué)習(xí)技術(shù)滿足了不同業(yè)務(wù)場景下的語法錯誤校對,校對效果好;二是可快速優(yōu)化效果,根據(jù)收集的錯誤案例及時優(yōu)化模型,快速解決客戶的問題,其優(yōu)勢非常明顯,在信息爆炸、新聞時效性高、稿件量大、工作任務(wù)緊、質(zhì)量要求高的情況下,這種優(yōu)勢變得越來越重要。
盡管校對軟件可以輔助人工審稿,提高審稿效率,降低錯誤率,但所有校對軟件的準(zhǔn)確率目前都還無法達(dá)到100%。中國漢字語言博大精深,一字一詞錯誤就可能會差之毫厘,謬以千里。完全由機(jī)器替代人工完成校對工作是不現(xiàn)實(shí)的,因此依舊需要人機(jī)結(jié)合校對。
目前市面上的大多數(shù)校對軟件都支持網(wǎng)頁端、插件端等多種使用方式,編校人員可根據(jù)實(shí)際使用場景選擇合適的版本。如果媒體編校人員對文本格式要求不高,可以選擇網(wǎng)頁端的軟件,這種版本無需下載安裝任何軟件,直接登錄瀏覽器輸入賬號密碼即可使用,靈活易用。對于稿件格式有較高要求的編校人員,可以選用WORD插件或WPS插件,避免修改文本錯誤后再次調(diào)整格式的重復(fù)工作。
無論是基于N-Gram統(tǒng)計(jì)語言模型的校對軟件還是利用深度學(xué)習(xí)技術(shù)的校對軟件,在編校工作中都發(fā)揮了重要的作用,幫助編校人員提高了審稿效率,降低了內(nèi)容錯誤率,助力機(jī)構(gòu)把好內(nèi)容安全生產(chǎn)關(guān),避免不良信息傳播,增強(qiáng)其公信力與權(quán)威性。但目前校對軟件只能輔助人工審稿,不能完全替代人工審稿,編校人員依然要不斷學(xué)習(xí),增強(qiáng)自身專業(yè)能力和知識功底。