張仰森,唐安杰,張澤偉
(北京信息科技大學 智能信息處理研究所,北京,100192)
當今網(wǎng)絡(luò)傳媒快速發(fā)展,報紙種類也越來越多,競爭異常激烈,各類差錯也如影隨形。有的報紙違紀違規(guī),發(fā)生導(dǎo)向錯誤,有的采訪不深入,出現(xiàn)新聞失真或虛假新聞,有的在涉及港臺澳以及國家主權(quán)方面出現(xiàn)錯誤,這些錯誤都是影響比較大的,甚至影響國家的穩(wěn)定[1]。因此,研究政治新聞領(lǐng)域的文本校對技術(shù)意義非常重大。然而,新聞中的錯誤除了一些印刷錯誤外,很多錯誤可能是影響輿論導(dǎo)向的政治性錯誤,是潛在的語義級錯誤,采用通常的文本校對方法,很難發(fā)現(xiàn)這些錯誤,而是要檢查語句中所表達的語義和語用是否違背了某種標準,例如,報刊、網(wǎng)絡(luò)文章中出現(xiàn)的一些關(guān)于臺灣問題的不正確表述等,難度是相當大的。但政治錯誤對報刊雜志的影響是很大的,是編輯部校對的重中之重。采用人工校對,勞動強度大,成本高,還由于校對人員的責任心或視覺疲勞等問題,會漏掉許多錯誤;采用計算機自動校對技術(shù)偵測政治性錯誤,由于難度大,目前相關(guān)的研究比較少。王燚[2]通過將句子和短語結(jié)構(gòu)轉(zhuǎn)為一階謂詞邏輯表達式,匹配標準庫中的標準,實現(xiàn)臺灣問題的語義匹配。但是局限于邏輯表達式的規(guī)模,僅實現(xiàn)了臺灣問題部分檢查,并且推理效率比較低。本文利用新聞領(lǐng)域政治性文本中的語言學特征和統(tǒng)計特征,細化文本中政治性差錯的錯誤類型,提取相關(guān)知識庫,制定政治性差錯偵測規(guī)則庫,并提出了查錯規(guī)則的一般形式化模型,采用統(tǒng)計與規(guī)則相結(jié)合的策略對文本進行多級查錯和分類查錯,以實現(xiàn)政治新聞領(lǐng)域文本的語義校對。
政治性差錯從表現(xiàn)形式上來看主要分兩類: 一是直接陳述出來的,二是通過字里行間表現(xiàn)出來的[3]。對于字里行間表現(xiàn)出來的隱性錯誤,利用計算機實現(xiàn)自動錯誤偵測難度很大,而對于直接表現(xiàn)出來的政治性錯誤,通過查閱文獻[4]以及對相關(guān)中央文件和網(wǎng)絡(luò)文本的統(tǒng)計分析,發(fā)現(xiàn)以下5類錯誤是政治性新聞領(lǐng)域出現(xiàn)頻率較高的錯誤類型:
(1) 政治性或政策性錯誤。這類錯誤主要涉及意識形態(tài)領(lǐng)域的政治傾向錯誤、損害國家利益的錯誤、違反民族政策方面的錯誤言論、領(lǐng)土主權(quán)及港臺澳問題上違反國家政策法規(guī)的錯誤等等。由于政治性或政策性錯誤一般屬于語義級錯誤,只有具有高度政治敏感性的人才能發(fā)現(xiàn)其錯誤,一般的自動校對只是從文本結(jié)構(gòu)中發(fā)現(xiàn)錯誤,因此,難度比較大。涉及國家領(lǐng)土、主權(quán)和港澳臺問題的錯誤,由于有中央文件《涉及港澳臺用語規(guī)范34條》和《新華社新聞報道中的禁用詞》(第一批)[5]作參考,本文將對涉及港澳臺問題的錯誤進行校對。例如,在有的報紙中出現(xiàn)“中港合資”、“中臺合資”的情況。再比如,2004年11月,某報在報道孫楠的一篇文章中,竟把香港一唱片公司說成是“境外”的唱片公司。
(2) 領(lǐng)導(dǎo)人姓名錯誤。即新聞文本中涉及的領(lǐng)導(dǎo)人的姓名出現(xiàn)錯字、別字、多字或少字。例如,2010年12月30日出版的《人民日報》第4版的文章標題將國務(wù)院總理溫家寶姓名錯印成“溫家室”, 2005年3月15日,有一標題為“消費者的煩惱與期盼”的消息,文中將“溫家寶總理”錯成“溫家??偫怼?。幸虧這一領(lǐng)導(dǎo)人名的重大差錯在校對環(huán)節(jié)被堵住,否則對媒體將產(chǎn)生極其不良的社會影響。此類錯誤偵測需借助句子中的特征詞,如相應(yīng)職務(wù)等,若無相關(guān)的特征詞則很難校對。
(3) 領(lǐng)導(dǎo)人順序錯誤。即文本中出現(xiàn)的國家領(lǐng)導(dǎo)人姓名次序不符合領(lǐng)導(dǎo)人的職務(wù)排位順序。例如,李克強、習近平、李源潮等出席了本次會議。句中“習近平”與“李克強”次序顛倒。
(4) 姓名—職務(wù)對應(yīng)錯誤。即文本中涉及的領(lǐng)導(dǎo)人姓名與其職務(wù)不符合規(guī)定。錯誤形式主要包括: ①領(lǐng)導(dǎo)人姓名正確但是職務(wù)搭配不正確,如“國務(wù)院總理習近平”中習近平對應(yīng)的職務(wù)應(yīng)為中共中央總書記、國家主席、中央軍委主席。②領(lǐng)導(dǎo)人姓名正確、職務(wù)搭配也正確,但是職務(wù)順序不正確,如“國家主席、中共中央總書記、中央軍委主席習近平”中,國家主席應(yīng)該排在中共中央總書記之后。③領(lǐng)導(dǎo)人姓名和職務(wù)均正確但出現(xiàn)了重復(fù),如“中共中央總書記習近平總書記”中兩個總書記出現(xiàn)了重復(fù)。④領(lǐng)導(dǎo)人姓名錯誤但是職務(wù)正確,如“全國政協(xié)主席俞正生”。⑤領(lǐng)導(dǎo)人姓名正確但是職務(wù)錯誤,如“中國中央總書記習近平同志”。⑥領(lǐng)導(dǎo)人姓名和職務(wù)均出現(xiàn)錯誤,如“中國中央總書記刁近平”。
(5) 輸入過程疏忽造成多字、漏字或別字而引起的政治錯誤。這類錯誤有時會出現(xiàn)在新聞的正文里或標題中,如幾年前某報在美國前總統(tǒng)克林頓訪華之際,將“克林頓訪華”錯成“克林頓反華”[1]。這是一個嚴重的政治差錯,會引起讀者的不解或外交風波。對于多字、漏字等錯誤,其校對方法和一般文本的校對方法類似。
在真實文本中,以上各類型的錯誤有時會出現(xiàn)一定的交叉重疊,如在多位領(lǐng)導(dǎo)人姓名并列時,可能會出現(xiàn)領(lǐng)導(dǎo)人姓名錯誤和順序錯誤并存的情況。
通用的中文文本自動校對系統(tǒng)的研究重心為查錯和糾錯算法,其構(gòu)造的查錯知識庫也是面向所有領(lǐng)域的通用型知識庫[6-8],這就使得當針對特定領(lǐng)域文本進行自動校對時,由于通用知識庫中包含有較少該領(lǐng)域的專業(yè)詞語或知識,導(dǎo)致查錯準確率和召回率下降。因此,構(gòu)建面向政治新聞領(lǐng)域的專業(yè)詞庫和相應(yīng)的查錯知識庫,對于提高政治新聞文本自動校對系統(tǒng)的性能是非常必要的。
《新華社新聞報道中的禁用詞》(第一批)[5]第四部分對涉及我領(lǐng)土、主權(quán)和港澳臺的禁用詞列出了的13條規(guī)定。例如,(1)在涉及港澳臺時,不能將其稱為“國家”,尤其是多個國家和地區(qū)名稱連用時,一定不能漏寫“(國家)和地區(qū)”字樣; (2)在涉及臺灣當局“政權(quán)”系統(tǒng)和其他機構(gòu)的名稱,無法回避時應(yīng)加引號,如臺灣“立法院”、“行政院”、“監(jiān)察院”等; (3)在涉及我國領(lǐng)土釣魚島時,不能將其稱為“尖閣列島”。我們將涉及以上新聞中的帶引號的敏感詞稱為“引號詞”,并引入如下定義:
定義1“引號詞”是指在新聞領(lǐng)域政治性文本表達中需要加注雙引號的字符串。
算法1“引號詞”庫QTLIB的構(gòu)建方法如下:
Step1提取2000年《人民日報》語料中加雙引號的詞;
Step2根據(jù)《中華人民共和國國家標準標點符號用法》中的引號用法規(guī)定,對引號詞或短語進行篩選,除去引用他人話語和表示著重論述的引號內(nèi)的詞語或語句,保留具有特殊含義的詞語和短語,形成候選集;
Step3計算候選集中各詞語的政治敏感度,詞語A的政治敏感度定義如下:
(1)
Step4如果αA≥90%,則將詞語A加入引號詞庫QTLIB;
Step5依據(jù)《新華社新聞報道中的禁用詞》,將一些涉及主權(quán)、領(lǐng)土完整和港澳臺的引號詞加入引號詞庫QTLIB;
Step6結(jié)束.
通過Step3和Step4的篩選,將會把那些只在少數(shù)特定語境下才加雙引號的敏感詞濾除掉,以提高查錯的準確率,Step5則進一步濾掉了非政治性的加引號詞。引號詞庫的格式見表1。
領(lǐng)導(dǎo)人順序庫以及姓名—職務(wù)庫主要是為查找領(lǐng)導(dǎo)人順序錯誤、姓名錯誤以及姓名—職務(wù)對應(yīng)錯誤服務(wù)的。
3.2.1 領(lǐng)導(dǎo)人順序知識庫LSQLIB的構(gòu)建
領(lǐng)導(dǎo)人順序庫的構(gòu)建,根據(jù)國家級領(lǐng)導(dǎo)人的職務(wù)排位順序,羅列出各領(lǐng)導(dǎo)姓名及其次序。對相同職務(wù)的領(lǐng)導(dǎo)人按其姓氏筆畫排列,但七名中共中央政治局常務(wù)委員會委員的排列順序由國家規(guī)定,不按照姓氏筆畫排列。擁有多個職務(wù)的領(lǐng)導(dǎo)人,按照其最高職位在職位中的順序進行排列。已卸任的國家領(lǐng)導(dǎo)人根據(jù)其卸任時間和卸任之前的職務(wù)進行綜合排序,暫將已卸任的國家領(lǐng)導(dǎo)人排在現(xiàn)任國家領(lǐng)導(dǎo)人之后。領(lǐng)導(dǎo)人順序庫的格式見表1。
3.2.2 領(lǐng)導(dǎo)人姓名—職務(wù)知識庫LNDLIB的構(gòu)建
該庫主要為查找領(lǐng)導(dǎo)人姓名錯誤和姓名-職務(wù)對應(yīng)錯誤服務(wù)的。通過對2000年《人民日報》標注語料中每位領(lǐng)導(dǎo)人的姓名與職務(wù)對應(yīng)問題進行了統(tǒng)計分析,發(fā)現(xiàn)出現(xiàn)在領(lǐng)導(dǎo)人姓名前面的通常是其所擔任職務(wù)。例如,在“江澤民”前面,通常會出現(xiàn)“中共中央(中國共產(chǎn)黨中央委員會)總書記、國家主席(中國國家主席、中華人民共和國主席)和中央軍委(中央軍事委員會)主席”,且新聞稿中會根據(jù)所參加的不同活動,在不同的上下文中以三種形式出現(xiàn),即(1)三個職務(wù)都出現(xiàn);(2)出現(xiàn)兩個職務(wù);(3)出現(xiàn)一個職務(wù)。第(1)種情況一般在整篇報道的首段,或每段的前兩句,第(2)種情況多出現(xiàn)在句首,第(3)種情況大部分出現(xiàn)在句首,少部分出現(xiàn)在句中。根據(jù)以上規(guī)律,制訂相應(yīng)的查錯規(guī)則,有針對性,可節(jié)省空間,提高效率。我們將出現(xiàn)在領(lǐng)導(dǎo)人姓名之前的職務(wù)稱為前職務(wù)項。
統(tǒng)計發(fā)現(xiàn),出現(xiàn)在領(lǐng)導(dǎo)人后面的詞,可能是職務(wù)詞,也可能是其他詞。例如,在“江澤民”后出現(xiàn)較多的詞有: 同志(2 051次)、主席(1 694次)、總書記(1 048次)、說(370次)、在(268次)、今天(181次)、指出(167次)。其中“同志”、“主席”和“總書記”均為名詞詞性(/n),我們?nèi)∶~詞性的詞“同志”、“主席”、“總書記”構(gòu)成姓名—規(guī)則庫的后稱謂項。
我們構(gòu)建了13個詞庫和知識庫,由于篇幅限制,這里不一一介紹。每個知識庫都具有良好的可擴展性,各知識庫的組織形式如表1所示。
表1 詞庫和知識庫
政治性差錯的偵測主要涉及第2節(jié)提出的5類錯誤,對于第1類至第4類的港澳臺問題和領(lǐng)導(dǎo)人姓名、順序、職務(wù)錯誤,依據(jù)所構(gòu)建的詞庫或知識庫,以規(guī)則算法實現(xiàn)錯誤偵測,而第5類錯誤則利用統(tǒng)計語言模型實現(xiàn)錯誤偵測。由于篇幅限制,這里只給出“引號詞”錯誤偵測算法和領(lǐng)導(dǎo)人順序錯誤的偵測算法。
4.1.1 涉及港澳臺問題的相關(guān)錯誤偵測
涉及港澳臺的問題,主要依據(jù)文獻[5]中新華社的相關(guān)規(guī)定設(shè)計錯誤偵測算法如下:
算法2港澳臺相關(guān)問題的錯誤偵測算法
Step1利用文本分類算法判定文本是否為涉港臺澳文本,是則轉(zhuǎn)Step2,否則轉(zhuǎn)Step5;
Step2提取含香港、臺灣、澳門等詞的語句,檢查句末是否有“國家和地區(qū)”,是則轉(zhuǎn)Step3,否則,將該語句標紅,轉(zhuǎn)Step3;
Step3對每個 Wi∈QTLIB,檢測Wi在新聞文本中是否出現(xiàn),若出現(xiàn)并被雙引號標注,則取下一個詞,否則,將該詞標紅,轉(zhuǎn)Step3循環(huán),直至QTLIB中所有詞檢查完畢,轉(zhuǎn)Step4;
Step4檢查文本中是否出現(xiàn)“文書驗證”、“司法協(xié)助”、“引渡”、“兩岸三地”、“兩岸四地”等被雙引號括起來的詞,若出現(xiàn),則對這些詞標紅,轉(zhuǎn)Step5;
Step5結(jié)束.
4.1.2 領(lǐng)導(dǎo)人順序錯誤偵測
領(lǐng)導(dǎo)人順序錯誤檢測可能會有兩種情況出現(xiàn): 一種是介紹多位領(lǐng)導(dǎo)人同時出席各類黨政會議或經(jīng)濟、文化、體育等活動的新聞稿,如“出席會議的領(lǐng)導(dǎo)同志還有: 王剛、王兆國、王岐山、回良玉、劉淇、劉云山、劉延東……”;另一種是新聞報道中存在一位領(lǐng)導(dǎo)人向另一位領(lǐng)導(dǎo)人轉(zhuǎn)達問候的文章,如 “楊潔篪首先轉(zhuǎn)達習近平主席和李克強總理對普京總統(tǒng)的親切問候”。第一種情況可直接利用稿件中的領(lǐng)導(dǎo)人姓名排序與LSQLIB庫中的順序進行比較,第二種情況則需要考慮“轉(zhuǎn)達”之后的領(lǐng)導(dǎo)人的排序。為此,引入“傳遞性動詞”的定義。
定義2“傳遞性動詞”是指主語作為中間人而進行傳遞或傳達動作的詞語。如 “轉(zhuǎn)達”、“傳達”、“表示”、“說”、“指出”等。
傳遞性動詞之后的領(lǐng)導(dǎo)人順序一般按領(lǐng)導(dǎo)人順序庫LSQLIB中的規(guī)則進行排序檢查,前面作為主語的領(lǐng)導(dǎo)人順序不需要進行檢查。領(lǐng)導(dǎo)人順序檢查算法如下:
算法3領(lǐng)導(dǎo)人順序檢查算法
Step1讀入下一個含有領(lǐng)導(dǎo)人姓名的句子;
Step2檢查該語句中是否有“傳遞性動詞”,若有,按順序從左到右提取傳遞性動詞后的領(lǐng)導(dǎo)人姓名,否則,直接按順序從左到右提取語句中領(lǐng)導(dǎo)人的姓名,存于一數(shù)組中;
Step3依據(jù)對數(shù)組中每個領(lǐng)導(dǎo)人在LSQLIB查找其次序編號,記入數(shù)組;
Step4比較各位領(lǐng)導(dǎo)人的編號,如果序號大小正序遞增,則轉(zhuǎn)Step1,否則,對出現(xiàn)反序的領(lǐng)導(dǎo)人姓名標紅,轉(zhuǎn)Step5;
Step5若文本檢查未結(jié)束,轉(zhuǎn)Step1,否則,轉(zhuǎn)Step6;
Step6結(jié)束.
由于政治領(lǐng)域文本本身具有較高的敏感度,相關(guān)的錯誤語料相對較少,我們通過國家各級政府機關(guān)相關(guān)的指導(dǎo)性文件和網(wǎng)絡(luò)資源進行規(guī)則的分析和制定。根據(jù)不同的錯誤類型在報刊中出現(xiàn)的頻率和現(xiàn)實中產(chǎn)生的影響,對不同類別的政治性差錯制定了不同粒度的錯誤推理規(guī)則,共有78條推理規(guī)則,由于篇幅所限,其他的錯誤推理算法就不在這里列出了。
我們調(diào)用了ICTCLAS詞法分析系統(tǒng)并對其進行了一定的優(yōu)化,將表稱職務(wù)的幾個詞合成一個詞,例如“國務(wù)院/nt副/b總理/n”變?yōu)椤皣鴦?wù)院副總理/pos”,同時,變更了一些敏感詞的詞性標注,如原有系統(tǒng)中國家和地區(qū)的詞性標注都為ns,優(yōu)化后國家的詞性標注變?yōu)閏t。為此我們定義了一個新詞庫UserWord,共包含462個詞條,每條知識是一個二元組,用(W,P)表示,W 表新詞,P代表詞性,詞性標注類別主要有表2所列的幾種。
表2 新詞庫詞性標注類別
假設(shè)待分詞的文本為T=S1S2…Sn,則分詞優(yōu)化算法描述如下:
算法4分詞優(yōu)化算法
Step1遍歷文本T,若T中出現(xiàn)UserWord中的詞,將其替換為“‘ddcc’+序號+‘ ’”;
Step2調(diào)用分詞程序?qū)μ鎿Q后文本進行常規(guī)分詞處理;
Step3將分詞后文本中的形如“‘ddcc’+序號+/x”的詞,替換為UserWord中對應(yīng)的詞形如“‘詞’+’/’+‘詞類’”;
Step4輸出結(jié)果。
注: “ddcc”是“單獨成詞”的拼音縮寫,表示一個單獨成詞的字符串。
真實的政治領(lǐng)域文本中的差錯多發(fā)生在語義級,這類錯誤類型比較固定,但是具體的錯誤形式卻五花八門。通過分析大量的政治新聞?wù)Z料和相關(guān)的政府文件以及真實政治性差錯語料,提取制定了相關(guān)的錯誤推理規(guī)則庫,針對不同類型錯誤采取不同的規(guī)則進行分類偵測。
通過對《人民日報》語料和互聯(lián)網(wǎng)時政文章的統(tǒng)計分析,提出政治性差錯校對的一般形式化規(guī)則模型如下:
S(K,I,T,B)+DCi(K,I,T)→O(K,I,T,C)
(2)
句子分詞后存入字符串數(shù)組StringArray,同時將關(guān)鍵信息存入初始集S(K,I,T,B),其中K是n元組K=(K0K1K2…kn)(n為大于2的整數(shù)),Ki是句中各類政治類關(guān)鍵詞集合,K0是領(lǐng)導(dǎo)人姓名集合,K1是領(lǐng)導(dǎo)人職務(wù)集合,K2港臺澳術(shù)語集合,若Ki未包含元素,則Ki=?;I為K中詞語在數(shù)組StringArray的序號集合;T為傳遞性動詞,若句中不存在,則T=null;B為初始文本字體顏色,表示黑色。DCi(Ki,I,T)為規(guī)則函數(shù)集,下標i對應(yīng)初始集S中關(guān)鍵詞集Ki的下標。O(K,I,T,C)為S(K,I,T,B)在規(guī)則集DCi(K,I,T)的作用下輸出的文本信息,其中C為輸出文本中字串的顏色集,C=(黑色,黃色,紅色),文本中黑色字串表示字串不存在錯誤,黃色表示可能存在錯誤,紅色表示存在錯誤。
DC0(K0,I,T)表示針對領(lǐng)導(dǎo)人姓名順序錯誤的規(guī)則集,DC1(K1,I,T)表示針對領(lǐng)導(dǎo)人職務(wù)錯誤的規(guī)則集,DC2(K2,I,T)表示針對港臺澳錯誤的規(guī)則集。由于篇幅所限,下面只給出DC0(K0,I,T)規(guī)則集的具體形式如下:
DC0(K0,I,T)1: T=null,K0包含于領(lǐng)導(dǎo)人順序庫,且K0中元素個數(shù)大于1,若I中元素的數(shù)值大小次序符合領(lǐng)導(dǎo)人順序庫中次序,C=黑色;否則,C=紅色。
DC0(K0,I,T)2: T=null且K0中元素K0,i不屬于領(lǐng)導(dǎo)人順序庫,若I0,i=max(I0,1I0,2…I0,m),且I1中其他元素的數(shù)值大小次序符合領(lǐng)導(dǎo)人順序庫中次序,C=黑色;否則,C=紅色。
DC0(K0,I,T)3: 若T!=null, 取文本中T之后的內(nèi)容按照規(guī)則DC1(K0,I,T)和規(guī)則DC2(K0,I,T)進行處理。
本校對方法的實現(xiàn)采用兩級偵測和分類偵測的方法。兩級偵測分別為: 第一級常見錯誤和引號詞偵測,第二級政治性差錯偵測;分類偵測則是按照政治性差錯的類別偵測。分級分類偵測的文本校對流程圖如圖1所示。
圖1 分級分類錯誤偵測的文本校對流程圖
由于對字詞級錯誤的偵測已有比較深入的研究[7],故對第2節(jié)分析指出的第(5)類錯誤不作考慮,本文只針對第(1)—(4)類的語義級的錯誤進行處理,為了簡單起見,假設(shè)待校對文本中每句話至多含有一處錯誤。
規(guī)則1每一級和每一類錯誤都統(tǒng)一存放在錯詞組Error(words,num,index,type),記錄其所在句子的序列號num,句中的位置index,和錯誤類型type,最終處理后的文本中錯誤字體顏色標注為紅色。
規(guī)則2在進行錯誤偵測時,若句子在上一級已偵測出錯誤,則終止本句偵測,跳轉(zhuǎn)到下一句。
規(guī)則3對于實際文本中單句存在多處錯誤的情況,采用重復(fù)偵測的方法,人機交互修改標注的錯誤,直至無標紅字體(即計算機認為文本中不存在錯誤)。
算法5是采用分級與分類偵測相結(jié)合分析具體例子“中共中央總書記、國家主席、中央軍委主席習近平在李克強總理的陪同下來到中華世紀壇?!钡拿枋?。
算法5分級分類錯誤偵測算法
Step1輸入待查錯文本,遍歷文本,將引號詞庫內(nèi)包含的,但句中未加引號的詞條記入錯詞組Error(words,num,index,type);
Step2分句處理文本,假設(shè)第k句是上述例句,檢查num是否包含k,若是,則處理第k+1句;否則,對句子進行分詞預(yù)處理,分詞后為: 中共中央總書記/pof、/wn 國家主席/pof、/wn 中央軍委主席/pof 習近平/nL 在/p 李克強/nL 總理/pob 的/ude1 陪同/vn 下/f 來到/v 中華/nz 世紀/n 壇/ng 。/wj
按空格切分放入字符串數(shù)組如下:
0123中共中央總書記/pof、/wn國家主席/pof、/wn
依據(jù)詞性標注信息提取關(guān)鍵詞分類放入S(K,I,T,B),K0(習近平,李克強),K1(中共中央總書記,國家主席,中央軍委主席,總理),I0(5,7),I1(0,2,4,8),T=null;
Step3. 按政治類關(guān)鍵詞的類別分別應(yīng)用對應(yīng)的規(guī)則集DC(K,I,T)進行偵測:
(1) 若K0至少包含兩個元素,則使用領(lǐng)導(dǎo)人次序規(guī)則集DC(K0,I,T),假設(shè)K0內(nèi)元素順序差錯,則將錯誤詞條放入Error[(習近平,k,5,T0),(李克強,k,7,T0)],轉(zhuǎn)到Step4;否則轉(zhuǎn)到(2);
(2) 若K0和K1不為空,判斷K1內(nèi)職務(wù)與其修飾的K0內(nèi)姓名是否對應(yīng),若不對應(yīng)則將職務(wù)和姓名錯詞放入Error,轉(zhuǎn)到Step4,對應(yīng)則看職務(wù)是否正確,錯誤則將職務(wù)加入Error,轉(zhuǎn)到Step4; 否則跳轉(zhuǎn)(3);
(3) 若K3不為空,則應(yīng)用港澳臺規(guī)則集,因為該規(guī)則集包含規(guī)則較多不再詳述,具體步驟類似(1)和(2)。
Step4. 若已掃描完所有文本,則轉(zhuǎn)Step5;否則處理第k+1句,跳轉(zhuǎn)至Step2;
Step5. 將錯詞組Error內(nèi)記錄的內(nèi)容,換算為該錯詞在整個文章中的索引存入O(K,I,T,C),標紅顯示輸出。
由于報社期刊對于政治性校對的嚴格把關(guān),真實文本中的政治性差錯相對較少,我們粗略統(tǒng)計了四種錯誤的分布比例: 領(lǐng)導(dǎo)人姓名錯誤占20%,領(lǐng)導(dǎo)人順序錯誤占10%,領(lǐng)導(dǎo)人姓名-職務(wù)對應(yīng)錯誤占20%,涉及港臺澳的政治性差錯占40%。為了更好地模擬真實錯誤。我們選取1 000個涉及政治性關(guān)鍵詞的句子,句子各類型的分布比例符合我們的統(tǒng)計比例,首先進行分詞處理,然后按照以下原則構(gòu)建測試集,把1 000個正確的句子和1 000個錯誤的句子合在一起構(gòu)成2 000個句子的測試集ZZ。
(1) 每個句子中只包含一處錯誤。
(2) 除領(lǐng)導(dǎo)人姓名外,不對其它詞進行替換單字、加字或刪字的處理。
利用ZZ測試集我們對錯誤偵測模型進行了測試,并做了語義搭配模型[9]的對比試驗,具體試驗結(jié)果如表3和表4所示。由表3中的比較可以看出,本實驗在準確率、召回率以及F值方面的表現(xiàn)都較為突出。語義搭配模型主要檢測詞語間的語義搭配是否合理,雖是針對政治性領(lǐng)域文本進行訓練,但整體的召回率和F值偏低,當然這與測試集的錯誤類型有一定關(guān)系。
表3 實驗結(jié)果
表4 實驗結(jié)果
通過表4可以看出,本文方法準確率較高但召回率偏低,造成這種結(jié)果的原因有:
(1) 受限于錯誤語料的匱乏,規(guī)則庫的規(guī)模偏小,一些錯誤模式并未在規(guī)則庫中登錄,所制定的規(guī)則沒有考慮到語言中那些經(jīng)驗性的、小粒度的知識,覆蓋不了各種復(fù)雜紛繁的語言現(xiàn)象。
(2) 政治性新聞文本雖具有一定的用語規(guī)律,
但其錯誤卻非常分散,較難總結(jié),且很多錯誤句子本身沒有問題,只是語用方面的錯誤,這類錯誤的計算機自動校對還是很難實現(xiàn)的。
(3) 盡管在分析涉及港臺澳問題時首先使用文本分類方法,判定其是否屬于涉港臺澳的文章,但在具體文章的錯誤偵測時,僅考慮了詞語的上下文,而未考慮句子的上下文,因而對“習金平將出席博鰲亞洲論壇年會”這樣的句子,將無法判定“習金平”是否有錯,因為他可能是一個企業(yè)家。后續(xù)的工作進一步收集新聞領(lǐng)域政治性差錯方面的語料,補充完善規(guī)則庫,對目前的方法進行改進。
[1] 桂紅星,陳暉.報紙重大差錯的成因及防堵[DB/OL],2006-8-29, http://www.cnhubei.com/200608/ca1147130.htm.
[2] 王燚.基于場景化知識表示的自然語言處理及其在自動文本校對中的應(yīng)用[D].成都: 西南交通大學博士論文,2005.
[3] 王亞東.消除報刊政治性差錯需要注意的幾個問題[J].吉林省教育學院學報, 2012,28(2): 125-126.
[4] 郭愛民.書報刊中常見政治性差錯例析[J].科技與出版,2006(5): 50-52.
[5] 新華社.新華社新聞報道中的禁用詞(第一批)[DB/OL].http://dms.mca.90U.Cnlarticle/xxyd/201408/20140800680684.shtml.2014.
[6] Li M, Zhang Y, et al. Exploring Distributional Similarity Based Models for Query Spelling Correction[C]//Proceedings of the 21stInternational Conference on Computational Linguistics and 44thAnnual Meeting of the ACL.2006: 1025-1032.
[7] 張仰森,曹元大,俞士汶.基于規(guī)則與統(tǒng)計相結(jié)合的中文文本自動查錯模型與算法[J].中文信息學報,2005,20(4): 1-8.
[8] 李蓉.一個用于OCR輸出的中文文本的拼寫校對系統(tǒng)[J].中文信息學報,2009,23(5): 92-97.
[9] 管君,謝偉,張仰森.基于多知識源的語義搭配知識庫的構(gòu)建及應(yīng)用[J].計算機工程與設(shè)計,2013,34(6): 2136-2140.