張文艷 李存華 仲兆滿 王 藝 李 莉
(1.中國礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,徐州,221116; 2.淮海工學(xué)院計(jì)算機(jī)工程學(xué)院,連云港,222005)
結(jié)合規(guī)則與語義的中文人稱代詞指代消解*
張文艷1李存華2仲兆滿2王 藝2李 莉2
(1.中國礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,徐州,221116; 2.淮海工學(xué)院計(jì)算機(jī)工程學(xué)院,連云港,222005)
指代消解是一種為了確定文章中出現(xiàn)的指代詞與前文中出現(xiàn)的內(nèi)容是否為同一事物的技術(shù),在海量信息文本智能處理中具有重要的作用,而人稱代詞在各種指代詞集合中占有相當(dāng)一部分比例。本文采用規(guī)則與語義相結(jié)合的方法對(duì)中文人稱代詞進(jìn)行指代消解,在基礎(chǔ)的語法過濾規(guī)則之上新增同位語規(guī)則過濾指代詞的候選消解項(xiàng);提出更精確的同義詞距離計(jì)算方法,利用同義詞詞林和知網(wǎng)對(duì)人稱代詞的關(guān)聯(lián)詞與候選先行詞的關(guān)聯(lián)詞進(jìn)行語義關(guān)系計(jì)算,選擇關(guān)聯(lián)度最高的候選先行詞作為最終的指代結(jié)果。通過不同方法的對(duì)比實(shí)驗(yàn)和在真實(shí)語料數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文所提方法獲得了較好的效果。
指代消解;人稱代詞;規(guī)則;候選先行詞;語義特征
在漢語中,人們經(jīng)常為了表達(dá)的多樣性而使用代詞指代前文已經(jīng)提到的事物,達(dá)到行文流暢的效果。但是,這無疑給計(jì)算機(jī)處理信息帶來難度:自然語言中最大的問題就是計(jì)算機(jī)不能像人腦一樣通過固有的知識(shí)結(jié)合上下文的語義環(huán)境判斷某個(gè)代詞具體指代什么。指代消解的出現(xiàn)更好地解決了詞義消歧、詞義標(biāo)注等問題,為機(jī)器翻譯、信息自動(dòng)抽取、多語言信息處理和文本摘要等應(yīng)用系統(tǒng)的發(fā)展提供了支持。
指代消解就是為了明確自然語言中兩個(gè)成分是否代指同一個(gè)事物的過程,主要研究人稱代詞的消解,為進(jìn)一步的文本處理提供完整信息。目前,指代消解的主要技術(shù)分為基于句法的方法和基于語料庫[1]的方法:前者主要利用句法層面的知識(shí),將啟發(fā)式規(guī)則應(yīng)用到指代消解當(dāng)中[2],比較典型的有RAP算法;而后者則主要運(yùn)用統(tǒng)計(jì)學(xué)的方法和機(jī)器學(xué)習(xí)[3,4]的方法,其中包括簡(jiǎn)單同現(xiàn)方法、決策樹、聚類[5]以及其他機(jī)器學(xué)習(xí)[6]方法等。
近年來指代消解逐漸成為計(jì)算機(jī)語言學(xué)研究的重點(diǎn)之一。1995年美國麻省大學(xué)的McCarthy等[7]運(yùn)用決策樹的方法進(jìn)行共指消解;1997年的EACL和1999年的ACL年會(huì)設(shè)立了指代消解專題會(huì)議;1999年Cardie等[8]提出通過聚類方法進(jìn)行名詞短語的共指消解;《Computational Linguistics》學(xué)報(bào)在2001年出了指代消解的專輯。與國外相比,國內(nèi)的指代消解研究相對(duì)滯后。2000年王凌飛等研究基于中心理論的指代消解在漢英機(jī)器翻譯中的應(yīng)用;王厚峰等[9]在2002年提出了消解人稱代詞的基本方法和技術(shù);李國臣等[10]在2005年采用決策樹機(jī)器學(xué)習(xí)并結(jié)合優(yōu)先選擇的策略進(jìn)行中文人稱代詞指代消解。 與英語相比,漢語指代消解的研究才剛剛起步,還存在較大的差距。漢語詞語間不像英語那樣有明顯的分界,因此分詞的好壞對(duì)于指代消解將是一個(gè)重要的因素。同時(shí)由于語言之間的差異,使得直接運(yùn)用英語指代消解的方法解決漢語指代消解問題變得困難。
現(xiàn)階段的指代消解技術(shù)仍然面臨著指代范圍不全面、指代對(duì)象不準(zhǔn)確等問題。本文提出了規(guī)則和語義相結(jié)合的漢語人稱代詞指代消解方法,涵蓋了12種人稱代詞,消解效果有了一定的提高。
1.1 總體結(jié)構(gòu)
規(guī)則與語義相結(jié)合的消解方法主要體系結(jié)構(gòu)如圖1所示。指代消解流程包括以下部分:(1)語料處理:對(duì)文本進(jìn)行預(yù)處理,包括文本格式的統(tǒng)一、中文分詞、詞性標(biāo)注以及對(duì)語料中各種類型人稱代詞的統(tǒng)計(jì);(2)規(guī)則過濾:首先利用代詞過濾集去掉不需要消解的代詞,然后根據(jù)候選先行詞過濾規(guī)則,確定滿足條件的候選先行詞組成待消解對(duì);(3)語義相似度計(jì)算:利用同
圖1 指代消解體系結(jié)構(gòu)
Fig.1 Architecture of coreference resolution
義詞詞林和HowNet計(jì)算代詞的關(guān)聯(lián)詞與候選先行詞的關(guān)聯(lián)詞在文本中的語義關(guān)系度量值,確定人稱代詞指代結(jié)果。
1.2 人物及關(guān)聯(lián)詞提取
采用中科院分詞工具ICTCLAS對(duì)文本進(jìn)行分詞和詞性標(biāo)注。參照在線新華詞典中對(duì)漢語人稱代詞的定義提取人稱代詞及人名,包括:第一人稱(我、我們),第二人稱(你、你們),第三人稱代詞(他、他們、她、她們)和特殊指代詞(這人、這個(gè)人、那人、那個(gè)人),其中代詞“自己”作為特殊指代也加入到第一人稱代詞中。
受語言表達(dá)形式多樣性及分詞系統(tǒng)影響,要排除那些被分詞系統(tǒng)識(shí)別為人稱代詞但是并不需要消解的成語和俗語,如:“顧而言他、敵眾我寡、你唱我和”等,這些成語中含有人稱代詞,但是作為成語被引用時(shí)并不需要進(jìn)行消解。本文利用《漢語成語詞典》提取包含人稱代詞的成語和俗語,主要為第一人稱代詞和第三人稱代詞,被識(shí)別為人稱代詞的成語加入到人稱代詞過濾集,作為過濾規(guī)則引用。利用輿情監(jiān)測(cè)系統(tǒng)(研究室自主研發(fā))抽取當(dāng)前熱門的3個(gè)人物、5個(gè)事件共300篇文本作為實(shí)驗(yàn)語料進(jìn)行分析。統(tǒng)計(jì)語料中各類人稱代詞的比例如表1所示。
表1 人稱代詞比例
從表1看出,在中文人稱代詞的分布中,第一人稱和第三人稱占有較大的比例,單數(shù)人稱代詞出現(xiàn)的次數(shù)要遠(yuǎn)遠(yuǎn)超過復(fù)數(shù)人稱代詞,因此對(duì)第一人稱和第三人稱代詞消解的正確與否將直接影響最后效果。通過對(duì)第一人稱代詞的分析,發(fā)現(xiàn)第一人稱和第二人稱在語料中主要以兩種形式出現(xiàn):第一類以直接或間接引用的方式描述說話內(nèi)容,是需要消解的;第二類是在祈使句中出現(xiàn),是不需要消解的。
選擇人名和代詞周圍特定詞性的詞語作為人物關(guān)聯(lián)詞,根據(jù)關(guān)聯(lián)詞判斷人名和代詞之間的指代關(guān)系,詞性包括:nz,ng,an,vd,vn,vg,i,j,l,v,n,具體字母的含義參見表2。標(biāo)點(diǎn)符號(hào)作為劃分關(guān)聯(lián)詞歸屬的標(biāo)志,無標(biāo)點(diǎn)符號(hào)則擴(kuò)大關(guān)聯(lián)詞提取范圍至鄰近的人物。
表2 詞性標(biāo)注集
1.3 候選先行詞過濾
代詞所代指的詞即為候選先行詞,能夠作為代詞候選先行詞的詞包括出現(xiàn)在人稱代詞前部的人名或者是已經(jīng)被消解的人稱代詞。根據(jù)語料統(tǒng)計(jì)結(jié)果,結(jié)合漢語中的語法、語義特征,提出了同位語特征的消解規(guī)則和人物對(duì)話的語法規(guī)則,配合性別、單復(fù)數(shù)、距離等屬性提取代詞的候選先行詞。
(1)同位語規(guī)則
通過對(duì)語料的分析發(fā)現(xiàn),在文本中出現(xiàn)“S+/nr+/r+S”和“S+/r1+/r2+S”的表達(dá)形式,例如:“林森浩:我也一直跟公安說我這個(gè)人矛盾?!保@種以同位語形式出現(xiàn)的指代詞根據(jù)同位語規(guī)則直接消解:表達(dá)一中〈r〉=〈nr〉,表達(dá)二中〈r1〉=〈r2〉。這一規(guī)則可以消解掉大部分的特殊指代詞和第一人稱中“自己”的指代。
(2)語法規(guī)則
根據(jù)第一人稱和第二人稱在文本中出現(xiàn)的兩種表達(dá)形式,結(jié)合人物對(duì)話特征,設(shè)定語法規(guī)則:出現(xiàn)如下形式“S+/nr1+/v+/w+/w+S+/r1+S+/w+/w+S+/nr2+/v+/w+/w+S+/r2+S+/w+/w”,表達(dá)中若r1、r2為第一人稱則〈r1〉=〈nr1〉、〈r2〉=〈nr2〉,若r1、r2為第二人稱則〈r1〉=〈nr2〉、〈r2〉=〈nr1〉。
(3)性別一致性
收集具有明顯性別特征的詞分別組成男女性別詞庫。如女士、小姐為女性特征詞,先生、兄弟為男性特征詞,其余無明確特征的詞則標(biāo)注為無性別類。候選先行詞與人稱代詞性別一致則為1,有一項(xiàng)無性別為0.5,不一致為0。
(4)單復(fù)數(shù)一致性
詞語的單復(fù)數(shù)分為單數(shù)、復(fù)數(shù)和無單復(fù)數(shù)三類。人稱代詞的單復(fù)數(shù)可直接判斷,候選先行詞則根據(jù)“和、每個(gè)、大部分、許多”等特征詞判斷,無明顯特征的標(biāo)注為無單復(fù)數(shù)類。
(5)距離屬性
經(jīng)過對(duì)待消解項(xiàng)的分析統(tǒng)計(jì),發(fā)現(xiàn)漢語中指代詞與先行詞的距離大多在三句話之內(nèi),設(shè)定候選先行詞與指代詞的距離上線為3,過濾掉大于3的候選先行詞。
1.4 語義特征判斷
語義特征的判斷主要是對(duì)待消解項(xiàng)中人稱代詞的關(guān)聯(lián)詞與候選先行詞的關(guān)聯(lián)詞語義關(guān)系的判斷,包括關(guān)聯(lián)詞一致性、關(guān)聯(lián)詞相似性和關(guān)聯(lián)詞相關(guān)性。其中,關(guān)聯(lián)詞一致性用代詞關(guān)聯(lián)詞與候選先行詞關(guān)聯(lián)詞的字符串匹配判斷,利用同義詞詞林和HowNet確定關(guān)聯(lián)詞相似性[11]和相關(guān)性。
首先根據(jù)同義詞詞林計(jì)算待消解項(xiàng)中關(guān)聯(lián)詞的相似度,在小于設(shè)定閾值的情況下再進(jìn)一步計(jì)算關(guān)聯(lián)詞在HowNet中的相關(guān)度。對(duì)知網(wǎng)中未收錄的詞語從同義詞詞林中找出近義詞,利用近義詞進(jìn)行相關(guān)度計(jì)算。
1.4.1 語義相似度計(jì)算
《同義詞詞林》是梅家駒等人于1983年編纂而成,后來由哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室進(jìn)一步擴(kuò)展成為了一部具有漢語大詞表的《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》。詞林中收錄詞語近7萬條,是一部同義類詞典,詞典采用層級(jí)體系,具備5層結(jié)構(gòu),存儲(chǔ)在同義詞詞林中的詞語都采用8位標(biāo)記法,具體編碼格式如表3所示。
表3 詞語編碼表
詞林級(jí)別越高詞義越詳細(xì),第5級(jí)詞群中很多只有一個(gè)詞語并且不可再分。若兩個(gè)詞語有相同的前三級(jí)編碼,其相似程度已非常地接近,但是本文通過研究發(fā)現(xiàn)并非所有處于相同三級(jí)的詞語都具有很高的相似性,這與兩詞語所在的第四級(jí)的個(gè)數(shù)和編碼距離有關(guān)。統(tǒng)計(jì)發(fā)現(xiàn)第四類的編碼最大范圍為A~J,個(gè)數(shù)為10,當(dāng)兩詞語的編碼距離在4以內(nèi)時(shí),詞語的相似度較高,若超過則需要進(jìn)一步的相似計(jì)算。相似度與距離成反比,用距離評(píng)測(cè)詞語間的相似關(guān)系[12]。
給定兩詞A,B,其語義距離計(jì)算方法為
(1)
式中:P,Q分別為A,B兩詞在同義詞詞林中的所有語義的集合。語義a,b之間的距離為
(2)
式中:n(a,b)為兩詞語的編碼開始分支的級(jí)數(shù);i為第四級(jí)中兩詞語的距離差。
不同方法計(jì)算的詞語相似度如表4所示。計(jì)算詞語在同義詞詞林和知網(wǎng)中的相似度量,HowNet相似度參照李峰等[13]的語義相似度計(jì)算,在i=4時(shí),相似距離相同但知網(wǎng)中的相似度相差較大,i<4時(shí)相似度普遍較高。因此設(shè)定i=3為閾值,在距離大于1*2-7時(shí),利用知網(wǎng)計(jì)算相似度。
表4 詞語相似度
1.4.2 語義相關(guān)度計(jì)算
知網(wǎng)(Hownet)是一個(gè)以漢語和英語詞語所代表的概念為描述對(duì)象,揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫。影響語義相關(guān)度計(jì)算的因素有:詞語上下位關(guān)系所體現(xiàn)的相似度、橫向關(guān)系所體現(xiàn)的相關(guān)度。采用李生琦[14]的語義相關(guān)度計(jì)算方法:相關(guān)度=相似度*(權(quán)值1)+關(guān)聯(lián)度*(權(quán)值2)+實(shí)力影響因素*(權(quán)值3),其中第三項(xiàng)的值為0。
(1)詞語相似度計(jì)算
《知網(wǎng)》中的所有義原根據(jù)上下位關(guān)系構(gòu)成了一個(gè)樹狀義原層次結(jié)構(gòu),利用距離計(jì)算相似度[13]。假設(shè)兩個(gè)義原在層次體系中的路徑長度為d,定義兩個(gè)義原的語義距離為
(3)
式中:p1和p2代表兩個(gè)義原(primitive);d為p1和p2在義原層次體系中的路徑長度;α為一個(gè)可調(diào)節(jié)的參數(shù)。
兩個(gè)概念之間的相似度為
(4)
式中:Simj(S1,S2)為概念的4個(gè)不同義原相似度;βi(1≤i≤4)為可調(diào)節(jié)的參數(shù),且有β1+β2+β3+β4=1,β1≥β2≥β3≥β4。
兩個(gè)詞語W1和W2的相似度取各個(gè)概念相似度的最大值,即
(5)
式中S1i,S2j為詞語的概念。
(2)詞語關(guān)聯(lián)度計(jì)算
詞語關(guān)聯(lián)度[15]為義原與解釋義原之間的橫向關(guān)系度量。解釋義原由若干義原組成,義原之間有12種關(guān)系:RelaSet={*,@,?,!,~,#,MYM,%,^,&,+,null},對(duì)應(yīng)權(quán)值:{0.7,0.6,0.7,0.4,0.75,0.9,0.7,0.5,-1,0.8,0.9,0.5}。義原關(guān)聯(lián)度計(jì)算公式為
(6)
式中:exp(P1)和exp(P2)分別為義原P1和P2解釋義原集合;Wi,Wj為義原關(guān)系對(duì)應(yīng)權(quán)值;Sim(pi,P2)和Sim(P1,pj)代表義原語義距離;n和m為義原P1和P2解釋義原個(gè)數(shù)。
概念S1和S2的關(guān)聯(lián)度近似為兩概念的義原關(guān)聯(lián)度最大值,即
(7)
詞語關(guān)聯(lián)度取概念關(guān)聯(lián)度最大值,計(jì)算公式為
(8)
綜合上述計(jì)算,詞語相關(guān)度的計(jì)算公式為
(9)
式中:γ1+γ2=1。參數(shù)設(shè)置如下:α=1.6,β1=0.5,β2=0.2,β3=0.17,β4=0.13,γ1=0.23,γ2=0.77。
選取輿情系統(tǒng)收集到的300篇文章作為實(shí)驗(yàn)語料,手工標(biāo)注這300篇語料的指代消解結(jié)果。標(biāo)注格式為“她 158 葉云芬”,其中,“她”為文章中待消解的人稱代詞,158為該代詞在文中的位置,“葉云芬”為指代消解的標(biāo)準(zhǔn)答案。測(cè)試主要分為兩個(gè)方面:一是比較改進(jìn)的方法與原來方法的效率,檢測(cè)改進(jìn)方法的可靠性;另一方面是測(cè)試本方法對(duì)不同類型人稱代詞的指代效果。本文采用MUC-6[16]中所定義的評(píng)測(cè)方法。指代消解性能評(píng)測(cè)計(jì)算方法為
(10)
式中:P=M/N為準(zhǔn)確率,R=M/C為召回率,M為正確消解的代詞個(gè)數(shù),N為實(shí)際消解代詞個(gè)數(shù),C為應(yīng)該消解的代詞個(gè)數(shù)。
表5為不同方法的測(cè)試結(jié)果,包括單純的知網(wǎng)語義計(jì)算方法(SC)、加入改進(jìn)的同義詞詞林相似距離計(jì)算的方法(ISC)以及加入同位語等語義規(guī)則(AR)的方法。
表5 各種方法的實(shí)驗(yàn)結(jié)果
通過不同的方法實(shí)驗(yàn)發(fā)現(xiàn),在語義計(jì)算的基礎(chǔ)上加入細(xì)化的同義詞相似距離計(jì)算,比單獨(dú)的語義計(jì)算效果好,而在語義計(jì)算之前增加規(guī)則可以進(jìn)一步提高消解效果。綜合評(píng)測(cè),將規(guī)則和改進(jìn)的語義計(jì)算方法相結(jié)合取得了較好的指代結(jié)果。在時(shí)間的消耗上,由于算法的執(zhí)行時(shí)間是算法復(fù)雜度的重要指標(biāo),因此,加入細(xì)化的同義詞相似距離的算法要比單獨(dú)的語義計(jì)算消耗時(shí)間多,而規(guī)則的加入也同時(shí)增加了算法執(zhí)行時(shí)間。利用本文所提方法對(duì)300篇語料中的不同人稱代詞測(cè)試效果如表6所示。通過實(shí)驗(yàn),可以看到第一人稱和第二人稱的準(zhǔn)確率高,這是因?yàn)檎Z料中的第一和第二人稱在引用中出現(xiàn)的次數(shù)較多,并且“自己”作為第一人稱代詞多以同位語的形式出現(xiàn)在語料中。第三人稱的指代結(jié)果有了一定的提高,相比第一第二人稱情況復(fù)雜,因此準(zhǔn)確率稍低。特殊指代在語料中出現(xiàn)較少并且都是以同位語形式出現(xiàn)。綜合分析實(shí)驗(yàn)結(jié)果,影響實(shí)驗(yàn)結(jié)果的因素有分詞系統(tǒng)中人名識(shí)別錯(cuò)誤、對(duì)于出現(xiàn)多個(gè)人名的復(fù)數(shù)指代準(zhǔn)確度不高以及對(duì)于前面代詞指代結(jié)果的錯(cuò)誤繼承等。
表6 指代消解實(shí)驗(yàn)結(jié)果
指代消解是自然語言處理中一個(gè)重要的部分,對(duì)于提高文本的可讀行、分析的準(zhǔn)確性都有不可忽視的作用。本文主要采用了規(guī)則和語義結(jié)合的指代消解方法,通過添加代詞的同位語規(guī)則、精確同義詞相似距離計(jì)算,提高了指代消解系統(tǒng)的性能。實(shí)驗(yàn)結(jié)果表明改進(jìn)的方法是有效的,但是第三人稱代詞的消解結(jié)果還有待進(jìn)一步提高。在之后的研究中將會(huì)嘗試采用不同的語義相似度和語義相關(guān)度計(jì)算方法,研究第三人稱代詞出現(xiàn)的語法特征等,以期提高第三人稱代詞的消解效率。
[1] Dagan I, Itai A. Automatic processing of large corpora for the resolution of anaphora references[C]∥Proceedings of 13th Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 1990:330-332.
[2] 周炫余,劉娟,盧笑.篇章中指代消解研究綜述[J].武漢大學(xué)學(xué)報(bào):理學(xué)版,2014,60(1):24-36.
Zhou Xuanyu, Liu Juan, Lu Xiao. Intra-document anaphora resolution: A survey[J]. Journal of Wuhan University: Natural Science Edition, 2014,60(1):24-36.
[3] Ngai G, Wang C S. A knowledge-based approach for unsupervised Chinese coreference resolution[J]. Computational Linguistics and Chinese Language Processing, 2007,12(4):459-484.
[4] 陳恩紅,邱思語,許暢,等.單詞嵌入——自然語言的連續(xù)空間表示[J].數(shù)據(jù)采集與處理,2014,29(1):19-29.
Chen Enhong, Qiu Siyu, Xu Chang, et al. Word embedding: Continuous space representation for natural language[J]. Journal of Data Acquisition and Processing, 2014,29(1):19-29.
[5] Lee H, Chang A, Peirsman Y, et al. Deterministic coreference resolution based on entity-centric, precision-ranked rules[J]. Computational Linguistics, 2013,39(4):885-916.
[6] 邸鵬,段利國.一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014,29(1):71-75.
Di Peng, Duan Liguo. New native Bayes text classification algorithm[J]. Journal of Data Acquisition and Processing, 2014,29(1):71-75.
[7] McCarthy J F, Lehnert W G. Using decision trees for coreference resolution[C]∥Proceedings of the 14th International Joint Conference on Artificial Intelligence. San Francisco: Margan Kaufman Publishers Inc, 1995:1050-1055.
[8] Cardie C, Wagstaff K. Noun phrase coreference as clustering[C]∥Joint Conference on Empirical Methods in Nlp & Very Large Corpora. Maryland: University of Maryland, 2002:277-308.
[9] 王厚峰.指代消解的基本方法和實(shí)現(xiàn)技術(shù)[J].中文信息學(xué)報(bào),2002,16(6):9-17.
Wang Houfeng. Survey: Computational models and technologies in anaphora resolution[J]. Journal of Chinese Information Processing, 2002,16(6):9-17.
[10]李國臣,羅云飛.采用優(yōu)先選擇策略的中文人稱代詞的指代消解[J].中文信息學(xué)報(bào),2005,19(4):24-30.
Li Guochen, Luo Yunfei. Chinese pronominal anaphora resolution via a preference selection approach[J]. Journal of Chinese Information Processing, 2005,19(4):24-30.
[11]葛斌,李芳芳,郭絲路,等.基于知網(wǎng)的詞匯語義相似度計(jì)算方法研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(9):3329-3333.
Ge Bin, Li Fangfang, Guo Silu, et al. Word′s semantic similarity computation method based on Hownet[J]. Application Research of Computers, 2010,27(9):3329-3333.
[12]車萬翔,劉挺,秦兵,等.基于改進(jìn)編輯距離的中文相似句子檢索[J].高技術(shù)通訊,2004,14(7):15-19.
Che Wanxiang, Liu Ting, Qin Bing, et al. Similar Chinese sentence retrieval based on improved edit-distance[J]. High Technology Letters, 2004,14(7):15-19.
[13]李峰,李芳.中文詞語語義相似度計(jì)算——基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99-105.
Li Feng, Li Fang. An new approach measuring semantic similarity in Hownet 2000[J]. Journal of Chinese Information Processing, 2007,21(3):99-105.
[14]李生琦,田巧燕,湯承.基于《知網(wǎng)》詞匯語義相關(guān)度計(jì)算的消歧方法[J].情報(bào)學(xué)報(bào),2009,8(5):706-711.
Li Shengqi, Tian Qiaoyan, Tang Cheng. Disambiguating method for computing relevancy based on Hownet semantic knowledge[J]. Journal of the China Society for Scientific and Technical Information, 2009,28(5):706-711.
[15]王小林,王義.改進(jìn)的基于知網(wǎng)的詞語相似度算法[J].計(jì)算機(jī)應(yīng)用,2011,31(11):3075-3077.
Wang Xiaolin, Wang Yi. Improved word similarity algorithm based on HowNet[J]. Journal of Computer Applications, 2011,31(11):3075-3077.
[16]Vilain M, Burger J, Aberdeen J, et al. A model-theoretic coreference scoring scheme[C]∥Proceedings of the 6th Conference on Message Understanding. San Francisco: Margan Kaufmann, 1995:45-52.
Coreference Resolution of Chinese Personal Pronouns With Combination of Semantics and Rules
Zhang Wenyan1, Li Cunhua2, Zhong Zhaoman2, Wang Yi2, Li Li2
(1.School of Computer Science and Technology, China University of Mining and Technology, Xuzhou, 221116, China; 2.School of Computer Engineering, Huaihai Institute of Technology, Lianyungang, 222005, China)
Coreference resolution is a widely used technology to judge whether pronouns can match with the entity existing before in the text, which plays a crucial role in intelligent processing for massive text information on internet. A coreference resolution study, especially on the frequently-used Chinese personal pronouns, was carried out with the result of a developed algorithm with the combination of semantics and rules. Based on fundamental filtration rules, an improved mechanism specific to apposition was also adopted. To raise the accuracy of calculating the synonyms distances, the algorithm identified the associative-word of personal pronouns and selected antecedents based method for analyzing semantic relations and selecting high relevancy antecedent, which was realized with the aid of Tongyici Cilin and HowNet. Comparison experiments with different methods and experiments on the real corpus dataset were conducted, and results show that the presented method achieves higher validity and obvious improvement.
coreference resolution; person pronouns; rules; antecedent; semantic relations
江蘇省教育廳產(chǎn)業(yè)化推進(jìn)(JHB2012-61)資助項(xiàng)目。
2014-04-10;
2015-06-11
TP391.1
A
張文艷(1989-),女,碩士研究生,研究方向:人工智能,E-mail:wenwen112@126.com。
李存華(1963-),男,教授,研究方向:數(shù)據(jù)挖掘、人工智能、圖像處理。
仲兆滿(1977-),男,副教授,研究方向:信息檢索、文本信息挖掘、事件本體。
王藝(1992-),女,本科,研究方向:人工智能。
李莉(1992-),女,本科,研究方向:人工智能。