■文/靖純
基于新聞?wù)Z料庫(kù)的中文自動(dòng)校對(duì)改進(jìn)方案探討
■文/靖純
新聞采編中文字校對(duì)工作是很重要的一個(gè)環(huán)節(jié),隨著新華社對(duì)自己新聞產(chǎn)品質(zhì)量要求的提高,對(duì)中文文字校對(duì)工作的要求也日趨嚴(yán)格。中文校對(duì)軟件已成為新聞信息化中協(xié)助校對(duì)人員的常規(guī)工具,但校對(duì)效果卻差強(qiáng)人意。利用中文稿件數(shù)據(jù)庫(kù)資源,實(shí)現(xiàn)校對(duì)軟件與新聞?wù)Z料庫(kù)協(xié)同工作,探索智能校對(duì)方向可有效彌補(bǔ)校對(duì)軟件的不足。
中文校對(duì);語(yǔ)料庫(kù);語(yǔ)義分析;方案設(shè)計(jì)
隨著計(jì)算機(jī)和信息技術(shù)的發(fā)展,自然語(yǔ)言處理技術(shù)也隨之進(jìn)步。中文自動(dòng)校對(duì)技術(shù)含自動(dòng)查錯(cuò)和自動(dòng)糾錯(cuò)兩個(gè)步驟,是自然語(yǔ)言處理技術(shù)中的重要組成部分。
新聞采編中除了字詞錯(cuò)誤外,還存在語(yǔ)義類(lèi)錯(cuò)誤。語(yǔ)義類(lèi)錯(cuò)誤與編輯者知識(shí)水平、語(yǔ)言使用習(xí)慣和對(duì)內(nèi)容的敏感程度有關(guān)。比如與知識(shí)有關(guān)的“張飛手里拿著蘋(píng)果手機(jī)”一句,如果出現(xiàn)在三國(guó)歷史環(huán)境中,這句話就是錯(cuò)誤的,如果出現(xiàn)在近幾年的文章里,張飛只是與歷史人物同名,這句話又是正確的。無(wú)論出現(xiàn)在哪里,使用中文自動(dòng)校對(duì)技術(shù)都無(wú)法自動(dòng)判斷這句的對(duì)錯(cuò)。由此,在校對(duì)軟件協(xié)助下,語(yǔ)義校對(duì)成為校對(duì)工作的重點(diǎn),而充分利用新聞?wù)Z料庫(kù)中的資源進(jìn)行中文智能校對(duì)逐漸提上日程。
一般而言,語(yǔ)料庫(kù)通常指作為語(yǔ)言資料收集的、用電子形式保存的語(yǔ)言材料,由自然出現(xiàn)的書(shū)面語(yǔ)或口語(yǔ)的樣本匯集而成。經(jīng)過(guò)科學(xué)選材和標(biāo)注,具有適當(dāng)規(guī)模的語(yǔ)料庫(kù)能夠反映和記錄語(yǔ)言的實(shí)際使用情況。我們通過(guò)語(yǔ)料庫(kù)觀察和把握語(yǔ)言事實(shí),分析和研究語(yǔ)言系統(tǒng)的規(guī)律。語(yǔ)料庫(kù)已經(jīng)成為自然語(yǔ)言工程不可缺少的基礎(chǔ)資源。新聞?wù)Z料庫(kù)提供大量的新聞自然語(yǔ)言材料,采用的是經(jīng)驗(yàn)積累方法,充分利用語(yǔ)料的檢索和頻率統(tǒng)計(jì)結(jié)果,有助于校對(duì)軟件根據(jù)語(yǔ)言實(shí)際得出正確的結(jié)論,這種結(jié)論同時(shí)也是可觀測(cè)和可驗(yàn)證的。中文智能校對(duì)就是在計(jì)算機(jī)技術(shù)的支持下,學(xué)習(xí)和總結(jié)新聞?wù)Z料庫(kù)的海量數(shù)據(jù),以判斷當(dāng)前文本中的字、詞、句及相互組合是否符合中文事實(shí)規(guī)律。
新聞出版校對(duì)任務(wù)一般分三部分:一是比照原稿校核校樣,依據(jù)原稿改正排版錯(cuò)誤;二是采用通讀方法,發(fā)現(xiàn)并改正原稿本身可能存在的錯(cuò)誤;三是通過(guò)技術(shù)整理,保證版面格式的規(guī)范與統(tǒng)一。原始校對(duì)任務(wù)通過(guò)人工實(shí)現(xiàn),人工校對(duì)有很多不確定因素,校對(duì)準(zhǔn)確率與校對(duì)人員的身體狀況、精神狀況、知識(shí)水平、責(zé)任心水平都有很大關(guān)系,在連續(xù)工作情況下就會(huì)出現(xiàn)遺漏,影響新聞出版產(chǎn)品整體質(zhì)量。隨著新聞出版生產(chǎn)流程的信息化,自動(dòng)校對(duì)成為質(zhì)量保障體系中重要一環(huán)。電子文稿的中文自動(dòng)校對(duì)是使用校對(duì)軟件對(duì)文章中的字、詞、詞組進(jìn)行檢查,發(fā)現(xiàn)問(wèn)題自動(dòng)提示及提供修改建議,不過(guò)難以發(fā)現(xiàn)語(yǔ)義中的問(wèn)題。
1.1中文校對(duì)軟件現(xiàn)狀
在目前的中文自動(dòng)校對(duì)領(lǐng)域,經(jīng)過(guò)調(diào)研新聞出版行業(yè)的使用情況,黑馬校對(duì)軟件是中文自動(dòng)校對(duì)的首選。黑馬校對(duì)擁有高倍信息壓縮、快速檢索、漢字高精度快速切分、最優(yōu)漢語(yǔ)依存分析等多項(xiàng)中文信息處理技術(shù);并積累了3000億漢字的各類(lèi)原始語(yǔ)言材料,以及達(dá)6000萬(wàn)條之巨的漢語(yǔ)知識(shí)庫(kù),堪稱超大海量語(yǔ)料庫(kù);采用國(guó)際計(jì)算語(yǔ)言先進(jìn)的語(yǔ)法分析和語(yǔ)料庫(kù)統(tǒng)計(jì)相結(jié)合的方法,具有漢語(yǔ)切分技術(shù)、漢語(yǔ)語(yǔ)法分析技術(shù)、漢語(yǔ)依存關(guān)系分析技術(shù)等優(yōu)秀的中文智能技術(shù)。
新華社的主要編輯部門(mén)使用的中文自動(dòng)校對(duì)工具均為黑馬校對(duì)軟件。黑馬校對(duì)在新聞稿件編輯過(guò)程中起到一定質(zhì)量保證作用,但是,實(shí)際使用的問(wèn)題也越來(lái)越多,黑馬校對(duì)在涉及內(nèi)容語(yǔ)義檢查時(shí)依然無(wú)能為力,并且相對(duì)新聞更新速度,黑馬校對(duì)詞庫(kù)不能即時(shí)在線更新。鑒于上述原因,人工校對(duì)在稿件編輯過(guò)程中仍為重中之重,不可或缺。
1.2多媒體數(shù)據(jù)庫(kù)發(fā)展
新華社多媒體數(shù)據(jù)庫(kù),以新華社遍布全球的新聞信息及采集網(wǎng)絡(luò)為依托,全面整合新華社的文字、圖片、圖表、音視頻、報(bào)刊等全部資源及各類(lèi)新聞、各類(lèi)歷史資料和社會(huì)上有價(jià)值的新聞信息資源,擁有包括中、英、法、俄、西、阿、葡及中文繁體在內(nèi)的多個(gè)文種,涵蓋政治、經(jīng)濟(jì)、文化、生活等各個(gè)領(lǐng)域、各行各業(yè),并具有高效靈活、實(shí)用檢索、瀏覽、個(gè)性化定制與推送服務(wù)等多種功能,真正實(shí)現(xiàn)多媒體互動(dòng),數(shù)據(jù)準(zhǔn)確、傳輸高效、檢索便捷。數(shù)據(jù)庫(kù)收錄漢字多達(dá)數(shù)百億,全天候?yàn)楹?nèi)外用戶提供多層次的新聞信息服務(wù),每天及時(shí)將國(guó)內(nèi)以及世界各地的新聞信息進(jìn)行收集,成為新聞?lì)愘Y料的總匯。
多媒體數(shù)據(jù)庫(kù)提供多級(jí)分類(lèi)查詢功能,有全文檢索、二次檢索、中英文及圖片、文字、音像多媒體混合檢索,以及分庫(kù)和跨庫(kù)聯(lián)合檢索等。多媒體數(shù)據(jù)庫(kù)通過(guò)歷史積淀和快速發(fā)展,可以提供有效捕獲正確信息的手段進(jìn)行綜合比對(duì)和分析,可以實(shí)現(xiàn)在海量數(shù)據(jù)中通過(guò)統(tǒng)計(jì)概率總結(jié)出正確的語(yǔ)言規(guī)律。
1.3多媒體數(shù)據(jù)庫(kù)可實(shí)現(xiàn)新聞?wù)Z料庫(kù)功能
廣義的語(yǔ)料庫(kù)指大量文本的集合,庫(kù)中的文本(語(yǔ)料)通常經(jīng)過(guò)整理,具有既定的格式與標(biāo)記,在本文所述范疇,特指計(jì)算機(jī)存儲(chǔ)的數(shù)字化語(yǔ)料庫(kù)。
新華社多媒體數(shù)據(jù)庫(kù)的中文文字系統(tǒng)不僅匯集了從1948年以來(lái)新華社播發(fā)的所有中文電訊稿,而且全天24小時(shí)實(shí)時(shí)播發(fā)新華社各路電訊稿、各條經(jīng)濟(jì)信息專線產(chǎn)品,以及新華社社辦報(bào)刊和精選稿件。多媒體數(shù)據(jù)庫(kù)中有各種新聞詞匯庫(kù),比如人物庫(kù)、組織機(jī)構(gòu)庫(kù)、法規(guī)庫(kù)、背景資料庫(kù)、中外詞匯翻譯、中國(guó)譯名、國(guó)際譯名庫(kù)等,比如組織機(jī)構(gòu)庫(kù)中現(xiàn)有中國(guó)組織機(jī)構(gòu)詞條約3000篇,國(guó)際機(jī)構(gòu)組織詞條約9000篇,主要是對(duì)國(guó)內(nèi)外相關(guān)組織機(jī)構(gòu)情況及其領(lǐng)導(dǎo)人情況進(jìn)行描述。除了使用規(guī)范結(jié)構(gòu)的專用庫(kù),數(shù)據(jù)庫(kù)中的大量資料都是按照文章的方式存儲(chǔ),不是格式化的規(guī)范詞條,可以為人工查詢提供資料幫助,但是難以滿足直接作為中文校對(duì)軟件的詞庫(kù)進(jìn)行自動(dòng)處理的要求。
黑馬校對(duì)的語(yǔ)料庫(kù)涵蓋的是通用語(yǔ)料,而不是專為新聞出版行業(yè)設(shè)計(jì),新華社多媒體數(shù)據(jù)庫(kù)中存在的海量語(yǔ)料信息,是新聞?lì)I(lǐng)域重要的信息資產(chǎn),完全可以彌補(bǔ)黑馬校對(duì)中新聞?wù)Z料的不足,實(shí)現(xiàn)與新聞業(yè)務(wù)關(guān)系最密切的新聞?wù)Z料庫(kù)功能。
B企業(yè)的創(chuàng)始團(tuán)隊(duì)多為重點(diǎn)大學(xué)畢業(yè)的碩士研究生,在大疆、邁瑞、聯(lián)想等知名企業(yè)工作多年,有無(wú)人機(jī)、機(jī)器人、智能家電設(shè)備等領(lǐng)域的研發(fā)經(jīng)驗(yàn),擁有十余項(xiàng)專利技術(shù),并將其成功應(yīng)用到新產(chǎn)品的研發(fā)中??梢哉f(shuō),產(chǎn)品上市前,企業(yè)主要是拼湊手頭的研發(fā)經(jīng)驗(yàn)和技術(shù)資源,屬于手段導(dǎo)向型拼湊模式(11>2)。產(chǎn)品上市后被評(píng)為粵港澳大灣區(qū)的明星產(chǎn)品,受到消費(fèi)者的好評(píng),獲得了政府創(chuàng)業(yè)補(bǔ)貼和天使投資,與國(guó)內(nèi)外數(shù)十家供應(yīng)商、渠道商建立了合作關(guān)系,以拼湊外部?jī)?yōu)勢(shì)資源。據(jù)表6編碼顯示,產(chǎn)品上市后,社會(huì)網(wǎng)絡(luò)型條目數(shù)遠(yuǎn)遠(yuǎn)超過(guò)手段導(dǎo)向型條目數(shù)(12>4),可將其判定為社會(huì)網(wǎng)絡(luò)型拼湊模式。
中文自動(dòng)校對(duì)與語(yǔ)料庫(kù)的發(fā)展相輔相成。我們利用語(yǔ)料庫(kù)對(duì)大規(guī)模的自然語(yǔ)言進(jìn)行調(diào)查和統(tǒng)計(jì),建立統(tǒng)計(jì)語(yǔ)言模型,依托信息檢索、文本分類(lèi)、文本過(guò)濾、信息抽取等應(yīng)用,研究和發(fā)展基于統(tǒng)計(jì)的中文智能校對(duì)技術(shù)。同時(shí),中文自動(dòng)校對(duì)技術(shù)的發(fā)展也為語(yǔ)料庫(kù)的建設(shè)提供了支持,從字符編碼、文本輸入和整理、語(yǔ)料的自動(dòng)分詞和標(biāo)注,到語(yǔ)料的統(tǒng)計(jì)和檢索,為語(yǔ)料的加工提供了關(guān)鍵性的技術(shù)參考。
基于新聞?wù)Z料庫(kù)的中文自動(dòng)校對(duì)改進(jìn)方案是依托校對(duì)軟件,充分利用語(yǔ)料庫(kù)資源以彌補(bǔ)校對(duì)軟件的不足,實(shí)現(xiàn)語(yǔ)義類(lèi)校對(duì)的改進(jìn),提供優(yōu)質(zhì)服務(wù),形成校對(duì)服務(wù)體系,在逐漸積累的過(guò)程中向智能化發(fā)展,嘗試可深度學(xué)習(xí)的智能校對(duì)之路。首先要對(duì)校對(duì)軟件更新,使之能掌握最新信息發(fā)揮最大作用。其次對(duì)多媒體數(shù)據(jù)庫(kù)提供建模和優(yōu)化算法,使之更符合語(yǔ)料庫(kù)結(jié)構(gòu)功能,并以服務(wù)形式輸出。最后實(shí)現(xiàn)智能化學(xué)習(xí)的基礎(chǔ)建設(shè)要求。
2.1實(shí)現(xiàn)黑馬校對(duì)維護(hù)升級(jí)
黑馬校對(duì)軟件在新華社業(yè)務(wù)系統(tǒng)中應(yīng)用廣泛,是編輯常用的糾錯(cuò)工具。除了定期更新公共詞庫(kù)外,黑馬校對(duì)還提供客戶自定義重點(diǎn)詞庫(kù)的功能,可以按照指定格式人工導(dǎo)入新增詞條。
黑馬校對(duì)軟件提供了詞庫(kù)管理功能,詞庫(kù)維護(hù)人員直接對(duì)黑馬校對(duì)的客戶自定義詞庫(kù)進(jìn)行擴(kuò)充和維護(hù),形成格式化糾錯(cuò)詞庫(kù)。黑馬校對(duì)提供了用戶詞庫(kù)、敏感詞庫(kù)、錯(cuò)詞庫(kù)等一系列可以由用戶自行定義的詞庫(kù),用戶可以根據(jù)自身需求及對(duì)某一類(lèi)詞的專業(yè)處理來(lái)有效運(yùn)用這些自定義詞庫(kù)。
通過(guò)用戶專業(yè)詞庫(kù)定制方式,利用黑馬校對(duì)軟件的重點(diǎn)詞校對(duì)機(jī)制,可以將新聞?wù)Z料庫(kù)中的部分符合規(guī)則內(nèi)容加入到用戶自定義詞庫(kù)中,形成新聞行業(yè)專有詞庫(kù),業(yè)務(wù)系統(tǒng)通過(guò)調(diào)用黑馬校對(duì)來(lái)實(shí)現(xiàn)用戶自定義詞庫(kù)提示和糾錯(cuò)的功能。這樣,可以實(shí)現(xiàn)黑馬校對(duì)在新聞?lì)I(lǐng)域的專業(yè)詞庫(kù)維護(hù)升級(jí)方案。
新華社新聞編輯系統(tǒng)中為此特別開(kāi)發(fā)了用戶界面,提供稿件檢查過(guò)程中即時(shí)添加和隨時(shí)管理添加修改兩種方式,用于定制用戶自定義詞庫(kù),滿足用戶的個(gè)性化需求,同時(shí)也可以積累最新語(yǔ)料關(guān)注情況信息。
2.2黑馬校對(duì)與新聞?wù)Z料庫(kù)結(jié)合提供校對(duì)服務(wù)
作為新聞?wù)Z料庫(kù)的多媒體數(shù)據(jù)庫(kù)中存在大量不符合黑馬校對(duì)詞庫(kù)格式的存儲(chǔ)內(nèi)容,無(wú)法直接導(dǎo)入到用戶自定義詞庫(kù)中,同時(shí)用戶自定義詞庫(kù)中的積累資料也無(wú)法直接存放在多媒體數(shù)據(jù)庫(kù)中。比如組織機(jī)構(gòu)庫(kù)中的資料都是按照文章的方式對(duì)機(jī)構(gòu)及其領(lǐng)導(dǎo)人進(jìn)行編寫(xiě),類(lèi)似一篇篇新聞稿件,不是格式化的規(guī)范詞條,可以為人工查詢提供資料幫助,但是難以滿足系統(tǒng)的自動(dòng)處理的要求。如圖1所示,“蒙古國(guó)政府”是一篇文章的標(biāo)題,政府中的職務(wù)和人名都在“蒙古國(guó)政府”的正文中。調(diào)用語(yǔ)料庫(kù)查錯(cuò),對(duì)于政治敏感性要求嚴(yán)格的內(nèi)容,由于無(wú)法容忍自動(dòng)校對(duì)的“錯(cuò)誤率”,也不適合直接使用文本智能識(shí)別的技術(shù)進(jìn)行糾錯(cuò)。所以,要完成進(jìn)一步的校對(duì)目標(biāo),應(yīng)建立專業(yè)的內(nèi)容維護(hù)團(tuán)隊(duì),利用專業(yè)糾錯(cuò)工具,同時(shí)調(diào)用相關(guān)接口來(lái)輔助實(shí)現(xiàn)。
圖1 多媒體數(shù)據(jù)庫(kù)中組織機(jī)構(gòu)庫(kù)條目實(shí)例
如圖1所示,如果目標(biāo)是檢查“蒙古國(guó)總理”,庫(kù)中只有“蒙古國(guó)政府”詞條,沒(méi)有“蒙古國(guó)總理”詞條,需要檢索出蒙古國(guó)政府后,查看正文中的一段內(nèi)容才能知道總理的名字。由于沒(méi)有格式化,不利于計(jì)算機(jī)準(zhǔn)確識(shí)別和糾錯(cuò)。同時(shí),用戶自定義詞庫(kù)由于存放在用戶本地計(jì)算機(jī)內(nèi),既不是稿件也不是數(shù)據(jù)庫(kù)資料,無(wú)法存放到多媒體數(shù)據(jù)庫(kù)整理共享,這樣即使有用戶了解到正確的信息也無(wú)法共享給其他用戶,作用到其他用戶校對(duì)詞庫(kù)中。校對(duì)軟件詞庫(kù)、語(yǔ)料庫(kù)資料和用戶自定義信息都是相互獨(dú)立的,有時(shí)候甚至是相互沖突的。
除了數(shù)據(jù)結(jié)構(gòu)問(wèn)題,應(yīng)用系統(tǒng)的調(diào)用與統(tǒng)一也是校對(duì)軟件和語(yǔ)料庫(kù)結(jié)合需重點(diǎn)解決的問(wèn)題。應(yīng)用系統(tǒng)使用的校對(duì)軟件版本和對(duì)系統(tǒng)支持度都不盡相同,多媒體數(shù)據(jù)庫(kù)對(duì)各應(yīng)用系統(tǒng)開(kāi)放的程度也不同。所以必須建立統(tǒng)一的校對(duì)軟件和數(shù)據(jù)庫(kù)接口規(guī)范。
目前新華社新聞編輯系統(tǒng)中,黑馬校對(duì)被集成到編輯器里使用,類(lèi)似于微軟WORD軟件。黑馬校對(duì)提供了一些可被外部程序調(diào)用的接口及動(dòng)態(tài)鏈接庫(kù),編輯系統(tǒng)開(kāi)發(fā)時(shí)將校對(duì)功能調(diào)用直接使用了黑馬校對(duì),完成整篇稿件的中文校對(duì)過(guò)程。新聞編輯系統(tǒng)同時(shí)也可以訪問(wèn)多媒體數(shù)據(jù)庫(kù)系統(tǒng)接口,完成所有語(yǔ)料庫(kù)資料的查詢檢索等功能。由于接口不同和語(yǔ)料結(jié)構(gòu)不統(tǒng)一,目前無(wú)法把校對(duì)詞庫(kù)和語(yǔ)料庫(kù)中的資料結(jié)合在一起進(jìn)行校對(duì)判斷。
鑒于上述原因,基于新聞?wù)Z料庫(kù)的中文自動(dòng)校對(duì)改進(jìn)方案是一個(gè)業(yè)務(wù)和技術(shù)結(jié)合的系統(tǒng)工程。
2.2.1在多媒體數(shù)據(jù)庫(kù)中,由業(yè)務(wù)部門(mén)組建專業(yè)的資料維護(hù)團(tuán)隊(duì),按照新聞?wù)Z料庫(kù)要求,完成相關(guān)詞條的格式化、規(guī)范化,并根據(jù)新聞動(dòng)態(tài)進(jìn)行及時(shí)更新,保證內(nèi)容的正確性,形成一套符合系統(tǒng)要求的專業(yè)“新聞?wù)Z料詞庫(kù)”管理體系。體系中包含所有可被用于中文校對(duì)的數(shù)據(jù)庫(kù)專用庫(kù),利用新華社編輯記者的專業(yè)性控制內(nèi)容質(zhì)量。
2.2.2在多媒體數(shù)據(jù)庫(kù)中開(kāi)發(fā)一套“新聞?wù)Z料詞庫(kù)”維護(hù)工具,使得資料維護(hù)人員可以使用該工具對(duì)詞庫(kù)進(jìn)行維護(hù),增、刪、改相關(guān)內(nèi)容,最終能夠形成一套適合計(jì)算機(jī)處理的格式化的詞庫(kù),確保處理效率和內(nèi)容正確性。維護(hù)工具僅面向少量專業(yè)人員,按照管理體系要求進(jìn)行維護(hù),以避免多人信息不對(duì)稱造成的人為維護(hù)混亂,甚至有可能造成人為錯(cuò)誤。
2.2.3由多媒體數(shù)據(jù)庫(kù)系統(tǒng)建立校對(duì)詞庫(kù)服務(wù)體系,結(jié)合黑馬校對(duì)詞庫(kù),統(tǒng)一數(shù)據(jù)庫(kù)與黑馬校對(duì)接口,實(shí)現(xiàn)語(yǔ)料資料與黑馬詞庫(kù)格式互認(rèn),數(shù)據(jù)庫(kù)語(yǔ)料不必嚴(yán)格遵守黑馬校對(duì)詞庫(kù)格式要求。語(yǔ)料數(shù)據(jù)庫(kù)提供的統(tǒng)一校對(duì)服務(wù)接口,以服務(wù)形式實(shí)現(xiàn)黑馬校對(duì)和新聞?wù)Z料詞庫(kù)協(xié)同共作,來(lái)滿足提示和糾錯(cuò)的功能。
2.2.4開(kāi)發(fā)相關(guān)業(yè)務(wù)系統(tǒng)調(diào)用“新聞?wù)Z料詞庫(kù)”的統(tǒng)一接口,將“新聞?wù)Z料詞庫(kù)”納入到實(shí)際業(yè)務(wù)系統(tǒng)中文校對(duì)范圍,與校對(duì)軟件結(jié)合,達(dá)到輔助人工校對(duì)的目標(biāo)。同時(shí),用戶自定義詞庫(kù)和最新的語(yǔ)料資料信息可以通過(guò)此接口方便地導(dǎo)入語(yǔ)料庫(kù)資料中,按照管理體系要求維護(hù)后,實(shí)現(xiàn)語(yǔ)料庫(kù)的實(shí)時(shí)更新與共享。
上述方案需要先確定詞庫(kù)加工人員的規(guī)模和工作方式,還要依賴黑馬校對(duì)提供接口和開(kāi)發(fā)支持的情況。考慮到性能和日后的專用詞庫(kù)管理,應(yīng)為語(yǔ)料庫(kù)系統(tǒng)搭建內(nèi)置的黑馬校對(duì)軟件,將中文校對(duì)所需語(yǔ)料庫(kù)統(tǒng)一在后臺(tái),建設(shè)中文校對(duì)公共服務(wù)。各相關(guān)業(yè)務(wù)系統(tǒng)不再建立獨(dú)立的中文校對(duì)系統(tǒng),而是通過(guò)接口使用公共校對(duì)服務(wù)。
基于新聞?wù)Z料庫(kù)的中文自動(dòng)校對(duì)改進(jìn)方案可以實(shí)現(xiàn)部分語(yǔ)義級(jí)校對(duì),還是以上述組織機(jī)構(gòu)庫(kù)中蒙古國(guó)總理舉例,如新聞中出現(xiàn)“蒙古國(guó)總理張飛”字樣,如果黑馬校對(duì)中沒(méi)有最新的蒙古國(guó)總理資料,會(huì)認(rèn)為該表述是正確的,但多媒體數(shù)據(jù)庫(kù)中存在最新的組織機(jī)構(gòu)資料,會(huì)提示編輯者相關(guān)錯(cuò)誤并提出修改建議。
2.3基于新聞?wù)Z料庫(kù)的中文智能校對(duì)初探
在完善語(yǔ)料庫(kù)過(guò)程中,除了盡量規(guī)范設(shè)計(jì)組織機(jī)構(gòu)庫(kù)等專用詞庫(kù)外,語(yǔ)義校對(duì)功能可以通過(guò)模糊匹配語(yǔ)料庫(kù)和校對(duì)軟件的針對(duì)性開(kāi)發(fā)得以實(shí)現(xiàn),語(yǔ)義校對(duì)的基礎(chǔ)是語(yǔ)料庫(kù),為用戶服務(wù)的是校對(duì)軟件,無(wú)論是對(duì)黑馬校對(duì)定制開(kāi)發(fā)或是自行開(kāi)發(fā)校對(duì)軟件來(lái)實(shí)現(xiàn),對(duì)于語(yǔ)義層面的校對(duì),國(guó)內(nèi)多家研究機(jī)構(gòu)和組織已經(jīng)具備可以達(dá)到應(yīng)用的資料積累和技術(shù)能力。
語(yǔ)料庫(kù)使用統(tǒng)計(jì)語(yǔ)言模型方法處理基礎(chǔ)資源。統(tǒng)計(jì)語(yǔ)言模型關(guān)注的是一串符號(hào)的同現(xiàn)概率。比如N元語(yǔ)法模型,只關(guān)注句子中各種單元(比如字、詞、短語(yǔ)等)近距離連接關(guān)系的概率分布,而對(duì)于更復(fù)雜的語(yǔ)言現(xiàn)象就無(wú)能為力了。要想改進(jìn)N元語(yǔ)法的建模技術(shù),必須利用語(yǔ)料庫(kù)引入更多的語(yǔ)言特征信息和統(tǒng)計(jì)語(yǔ)言數(shù)據(jù)。同樣,在智能校對(duì)方向,語(yǔ)料庫(kù)提供的語(yǔ)言知識(shí)大量用在統(tǒng)計(jì)語(yǔ)言模型方法中。除了詞語(yǔ)自動(dòng)切分、詞性自動(dòng)標(biāo)注、信息抽取、信息檢索、文本分類(lèi)和過(guò)濾以外,還有語(yǔ)法、語(yǔ)義的語(yǔ)言知識(shí)建立,并最終把基于統(tǒng)計(jì)或?qū)嵗姆治黾夹g(shù)集成到智能校對(duì)中。
智能校對(duì)可以根據(jù)語(yǔ)料庫(kù)數(shù)據(jù)里大量中文語(yǔ)料模糊匹配出“正確詞錯(cuò)詞”的組合概率來(lái)校對(duì)語(yǔ)義類(lèi)錯(cuò)誤。首先根據(jù)語(yǔ)料自動(dòng)獲取搭配,這是智能校對(duì)的基礎(chǔ)資源,校對(duì)時(shí)提取待校對(duì)文本的搭配信息,根據(jù)訓(xùn)練的搭配資源組合計(jì)算搭配支持度,比較資源集中所有詞的支持度大小判斷原文是否出錯(cuò),并給出支持度最大的多個(gè)結(jié)果作為糾錯(cuò)意見(jiàn),校對(duì)時(shí)若文本匹配到錯(cuò)詞,系統(tǒng)就直接給出正確的詞。智能校對(duì)的實(shí)現(xiàn)基礎(chǔ)是在逐漸積累中深度學(xué)習(xí),是可以不斷學(xué)習(xí)和進(jìn)步的“校對(duì)機(jī)器人”,隨著近年人工智能浪潮興起,“校對(duì)機(jī)器人”誕生可期。
基于新聞?wù)Z料庫(kù)的中文自動(dòng)校對(duì)改進(jìn)方案可以有效利用新華社稿件多年的歷史積淀,發(fā)揮新華社采編團(tuán)隊(duì)在新聞界的權(quán)威優(yōu)勢(shì),把新聞?wù)Z言中文使用規(guī)范逐步建立起來(lái)。除此之外,新華社還不斷發(fā)布新聞報(bào)道中的禁用詞、慎用詞和規(guī)范用詞等針對(duì)性公告,對(duì)若干領(lǐng)域的新聞報(bào)道用詞加以規(guī)范。這些規(guī)范專業(yè)的語(yǔ)料成為新聞?wù)Z料庫(kù)重要組成部分,為中文自動(dòng)校對(duì)提供了基礎(chǔ)的新聞?wù)Z料支持。
基于新聞?wù)Z料庫(kù)的中文自動(dòng)校對(duì)改進(jìn)是對(duì)目前新華社中文自動(dòng)校對(duì)的優(yōu)化完善,主要針對(duì)由新華社產(chǎn)出的各類(lèi)新聞?dòng)谜Z(yǔ),解決部分語(yǔ)義產(chǎn)生的錯(cuò)誤,可以提高中文校對(duì)工作效率,進(jìn)一步保證新聞產(chǎn)品質(zhì)量。但是,從另一方面來(lái)說(shuō),中文自動(dòng)校對(duì)遠(yuǎn)未實(shí)現(xiàn)真正智能化,無(wú)法保證可以檢查所有錯(cuò)誤,仍需人工校對(duì)服務(wù)的支持。
(作者單位:新華社技術(shù)局全媒體采編技術(shù)系統(tǒng)部)
TP393
A