科學技術(shù)的飛速發(fā)展,為各行各業(yè)帶來了前所未有的機遇和變化。習近平總書記高度重視傳統(tǒng)媒體和新興媒體的融合發(fā)展,作出了一系列重要指示。
在人工智能逐漸成熟且產(chǎn)業(yè)化步伐加速的背景下,可引入人工智能技術(shù)的應(yīng)用場景不斷增多,各行各業(yè)也不得不正視這種技術(shù)變革訴求。尤其是那些與計算機技術(shù)緊密結(jié)合的行業(yè),更需快速回應(yīng)人工智能技術(shù)的挑戰(zhàn)。新聞出版業(yè)正是應(yīng)用計算機的典型行業(yè),必須積極響應(yīng)人工智能技術(shù)帶來的變革訴求[1]。
出版業(yè)的發(fā)展,離不開技術(shù)的革新。中國新聞出版研究院發(fā)布的《2016—2017中國數(shù)字出版產(chǎn)業(yè)年度報告》提出了“人工智能技術(shù)將重塑出版流程”的論述。即以大數(shù)據(jù)、人工智能等技術(shù)為支撐,建立健全眾智眾創(chuàng)、協(xié)同創(chuàng)新的生產(chǎn)管理流程,提高數(shù)字內(nèi)容生產(chǎn)、流程管控、發(fā)行傳播的智能化水平,研發(fā)、應(yīng)用和推廣支持智能選題策劃、智能審校、智能排版、智能印刷、智能發(fā)行等環(huán)節(jié)的技術(shù)工具集[2]。
本文主要探討人工智能,尤其是智能編校工具在出版流程中輔助傳統(tǒng)編務(wù)工作的相關(guān)問題。
在傳統(tǒng)編務(wù)工作中,編輯加工環(huán)節(jié)是整個出版鏈條中最為耗時耗力的環(huán)節(jié)。編輯首先要在宏觀層面上對圖書所體現(xiàn)出的價值判斷和價值選擇進行把關(guān);其次,需要在微觀層面上對圖書的文字語句進行修改和校對;最后,還要根據(jù)目標受眾的閱讀期待對書稿進行整體潤色。而互聯(lián)網(wǎng)平臺的發(fā)展和全民創(chuàng)作的熱潮又促使文學作品的數(shù)量呈指數(shù)級增長,給編輯的身高加工帶來了更大的挑戰(zhàn)[3]。
智能輔助審校工具可以使用海量的真實語料對算法模型進行訓練,結(jié)合自然語言處理技術(shù)(NLP)、人工智能技術(shù)和內(nèi)容結(jié)構(gòu)化技術(shù),同時參考國際標準,以及編輯行業(yè)相關(guān)標準規(guī)范或權(quán)威資料,在字詞符號審校、文檔大綱審校、圖表公式序號審校、知識內(nèi)容審校,以及內(nèi)容相似性檢查等方面輔助編輯加工。
例如,利用北大方正電子有限公司研發(fā)的“方正智能輔助審校系統(tǒng)”中的標點符號檢查功能,可以檢查稿件中是否存在成對的標點符號有缺失或格式不一致的情況,以及發(fā)現(xiàn)不同標點符號是否疊用、連用等錯誤(圖1)。
圖1中,利用方正智能輔助審校系統(tǒng)嵌入的《標點符號用法GBT 15834-2011》中的規(guī)定,通過一定算法結(jié)合上下文即可快速查找出標點符號疊用的錯誤,有效提高的編輯加工的效率,為提升出版單位整體編務(wù)運營效率起到了良好的輔助作用。
圖1 方正智能輔助審校系統(tǒng)的標點符號檢查功能
人工智能在解放生產(chǎn)力、提高編校效率方面具有積極的作用,利用智能編校工具不僅可以將編輯從大量低端、重復性的工作中解放出來投入到對內(nèi)容及專業(yè)性問題的審校中,而且可以規(guī)避人工處理帶來的差錯。
將海量的數(shù)據(jù)資源有組織地存入數(shù)據(jù)庫內(nèi),利用計算機技術(shù)進行信息檢索與核對,比之于人工檢查,具有遺漏率低、定向精準等特點。如對錯詞、錯字、敏感詞的檢查,以及上下文查重等,依靠敏感詞識別與排查技術(shù)、自動糾錯技術(shù)等手段,能夠?qū)崿F(xiàn)自動發(fā)現(xiàn)和識別稿件中存在的相關(guān)問題,一定程度上規(guī)避了人工查閱可能出現(xiàn)的遺漏問題,對提升圖書質(zhì)量、提高流程效率、確保圖書的導向正確和質(zhì)量過硬等具有十分重要的意義。
例如,北京黑馬飛騰科技有限公司研發(fā)的“黑馬校對軟件”擁有超過1萬億字的語料信息,通過對海量分類語料進行量化統(tǒng)計、分析、提煉、迭代學習,同時采用高倍信息壓縮、快速檢索、漢字高精度快速切分等技術(shù)生成語言模型來檢查各類文字錯誤。能夠?qū)Υ蟛糠种形?、英文、標點、計量、重句、異形詞等文字錯誤,大部分政治性問題(如國家領(lǐng)導人姓名、職務(wù)、排序,大部分臺灣問題,敏感詞語、部分落馬官員等)進行錯誤提示。同時具有8 000萬條核心庫,800萬條錯誤規(guī)則庫,79個專業(yè)庫(圖2)。
圖2 黑馬校對軟件運行界面
圖2中,黑馬軟件通過對全稿進行檢索,依據(jù)其內(nèi)嵌的大規(guī)模專業(yè)庫,可快速識別稿件中存在的錯詞、錯字及敏感詞并給出正確建議共編輯參考。對因編輯學科專業(yè)原因造成的漏錯起到了補充作用。
除了上述提到的兩款使用量相對較大的智能輔助審校工具之外,各出版單位及技術(shù)公司也在積極投身于該領(lǐng)域,研發(fā)出了各式有針對性的審校工具。如鳳凰出版?zhèn)髅郊瘓F自主研發(fā)的鳳凰智能校對系統(tǒng)可進行文字類、標點類、語法類、知識類、政治類差錯檢查(圖3)。中國科技出版?zhèn)髅焦煞萦邢薰臼仪f分公司自助研發(fā)的括號核對工具可對數(shù)學及計算機類稿件中出現(xiàn)的大量括號進行成對核對,避免編輯肉眼核對造成的漏錯。龍源數(shù)字傳媒集團旗下的人工智能平臺“知識樹”可在編輯定義部分內(nèi)容后,利用機器自動完成圖書寫作和修改工作,等等。
圖3 鳳凰智能校對系統(tǒng)校對前及校對后
隨著智能編校工具在傳統(tǒng)編務(wù)工作中的不斷滲透,越來越多傳統(tǒng)意義上機械性、重復性的核查、統(tǒng)改等加工工作將通過智能編校工具的輔助作用迅速得到解決。一方面,大大釋放了文案編輯的工作量;另一方面,也是編輯的工作重心逐漸向稿件加工的終審者轉(zhuǎn)移。同時,在掌握好編輯基本功的基礎(chǔ)上,也能熟練掌握相關(guān)智能編校工具的使用,了解何種稿件、何種類型的問題適合何種工具進行智能化處理,何種問題仍需人工處理等。通過不斷調(diào)整、及時與開發(fā)人員進行溝通交流,不斷完善智能編校工具的功能,從而成為人工智能時代的“新編輯”。
目前的智能審校工具雖然可以通過采用大規(guī)模詞庫和重點詞監(jiān)控等技術(shù)對漢語文本中的常見錯誤進行審校,對文本審校起到較大的助益,在一定程度上降低了人工審校的工作量,但仍存在一些不足與局限性,集中表現(xiàn)在以下方面:1)算法的局限性;2)詞庫更新機制的局限性;3)產(chǎn)品架構(gòu)的局限性[4]。
漢語本身博大精深,在不同語境下有著不同的含義。當前階段使用的智能編校工具在編輯加工環(huán)節(jié)中仍以“機械”處理為主,即通過計算機快速檢索詞庫、對比、處理等進行檢查,尚處于人工智能發(fā)展的初級階段。通過查找嵌入詞庫指明錯誤的方法,在獲得較高報錯率的同時,很難保證詞庫的全面性及無歧義性。在具體的邏輯推理、上下文結(jié)合、圖書結(jié)構(gòu)、相近詞辨析等需要深度學習的環(huán)節(jié),則是智能工具無法駕馭的階段,也是智能工具無法取代人腦的關(guān)鍵點所在。
如對中國科技出版?zhèn)髅焦煞萦邢薰臼褂梅秸悄茌o助審校各功能的頻次進行統(tǒng)計,可發(fā)現(xiàn)在日常工作中,編輯使用頻次較多的仍然是基于詞庫檢索對比類的檢查項目,如標點符號檢查、不規(guī)范名詞檢查、敏感詞檢查、異體字檢查、易錯詞檢查等。而對于邏輯推理等需要深度學習辨別的內(nèi)容,如譯文檢查、重點詞檢查等,則使用較少(表1)。
這也在一定程度上反映出該款審校工具在數(shù)據(jù)的深度學習和挖掘方面存在局限性。
表1 中國科技出版?zhèn)髅焦煞萦邢薰?020年5-7月使用方正智能輔助審校系統(tǒng)各功能頻次
由于當前智能編校工具多數(shù)由專業(yè)技術(shù)公司開發(fā),無法及時掌握新聞出版業(yè)實時變化的海量信息,從而造成相關(guān)數(shù)據(jù)庫中的信息滯后,產(chǎn)生新的錯誤。而對出版行業(yè)最新信息較為了解的編輯、校對等業(yè)內(nèi)人士,由于不懂得相關(guān)技術(shù),無法將最新數(shù)據(jù)補充入數(shù)據(jù)庫中,造成了實際使用過程中“腸梗阻”的狀態(tài)。
未來如果想要實現(xiàn)編校智能化的更深層次發(fā)展,傳統(tǒng)出版企業(yè)、專業(yè)技術(shù)公司等在深度融合或企業(yè)內(nèi)部構(gòu)件上需要有更多的探索與突破?!俺霭?技術(shù)”的組合拳需要被不斷推出并完善。平臺資源整合有待創(chuàng)新和升級,技術(shù)服務(wù)商、渠道運營商和內(nèi)容提供商等再功能設(shè)計與實現(xiàn)、內(nèi)容推廣及內(nèi)容資源供應(yīng)等方面應(yīng)進一步融合,才能不斷實現(xiàn)新的突破。
智能輔助審校工具大多數(shù)屬于閉源軟件,開發(fā)公司將其視為自有資源或商業(yè)機密。因此,不同軟件之間的數(shù)據(jù)庫互補聯(lián)通,造成同一種功能不同的工具都有但都不夠全面的現(xiàn)狀,往往一個編輯在處理一部書稿時,要同時使用若干種智能審校工具的同一功能,在一定程度上造成了時間成本的浪費。專業(yè)詞庫的更新完全依賴于開發(fā)公司,編輯無法根據(jù)日常工作實時更新、調(diào)整與補充,不便于使用及管理。
在人工智能沖擊著幾乎所有行業(yè)的今天,出版業(yè),尤其是傳統(tǒng)編務(wù)工作面臨著前所未有的發(fā)展機遇及挑戰(zhàn)。從人工智能的角度而言,未來的“智能輔助編校系統(tǒng)”應(yīng)該具備如下功能:在運用大數(shù)據(jù)分析和自然語言處理、神經(jīng)網(wǎng)絡(luò)、深度學習等技術(shù)的基礎(chǔ)上,不僅通過對比,也模仿人的推理邏輯,自動發(fā)現(xiàn)文稿中字詞、語法、語義、常用數(shù)據(jù)、知識性甚至引文、格式、遵循相關(guān)技術(shù)標準方面的錯誤,并提出修改建議。
隨著人工智能技術(shù)的不斷發(fā)展,基礎(chǔ)性編輯工作將越來越多地由計算機完成,編輯將成為稿件加工的終審者,將會向統(tǒng)籌全局、調(diào)整參數(shù)、終審檢查等方面轉(zhuǎn)變。因此,我們必須高度重視出版行業(yè)從業(yè)人員的智能化信息素養(yǎng)工作,不斷提高編輯的信息化素養(yǎng)。
與此同時,出版單位也要加強對編輯的引導,鼓勵從業(yè)者采取開放、包容的心態(tài)擁抱人工智能。對于編輯來說,機器的核心是軟件,而軟件的核心是它的哲學。編輯在使用人工智能輔助編務(wù)工作時,應(yīng)不斷進行思考,不斷將自己的想法引入到技術(shù)中,真正實現(xiàn)人與技術(shù)的融合。
如今,我國出版業(yè)正在經(jīng)歷著轉(zhuǎn)型升級的重大變革,相信隨著越多、越來越成熟的生產(chǎn)流程和生產(chǎn)工具的運用,出版行業(yè)將會逐步從人員密集行業(yè)向智力密集行業(yè)轉(zhuǎn)變,從而實現(xiàn)全行業(yè)高質(zhì)量發(fā)展的目標和預期。當前階段,人工智能,尤其是智能編校工具,在出版行業(yè)中的傳統(tǒng)編務(wù)工作中正處于起步階段,相信隨著日臻成熟的人工智能技術(shù),以及更多從業(yè)者的努力,編務(wù)工作實現(xiàn)真正意義上的智能化指日可待。