• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向信息抽取的指代消解探究

      2015-06-01 12:30:31許永良周曉輝李曉戈
      關(guān)鍵詞:指代先行代詞

      許永良,周曉輝,李曉戈

      (西安郵電大學(xué)計(jì)算機(jī)學(xué)院,西安 710121)

      面向信息抽取的指代消解探究

      許永良,周曉輝,李曉戈

      (西安郵電大學(xué)計(jì)算機(jī)學(xué)院,西安 710121)

      指代消解是自然語言處理中的重點(diǎn)難點(diǎn),對(duì)信息抽取具有重要意義.指代分有三種形式:代詞指代,名詞指代及零形回指.其中代詞指代和名詞指代是漢語中最基礎(chǔ)的指代形式,以上兩種指代的消解是指代消解研究的基礎(chǔ).為解決這一基本問題,使用決策樹方法同時(shí)對(duì)兩種形式指代進(jìn)行處理.實(shí)驗(yàn)結(jié)果顯示,所提出方法在不犧牲指代消解準(zhǔn)確率的基礎(chǔ)上,較大提高了指代消解的召回率.

      信息抽??;指代消解;命名實(shí)體;決策樹;有限狀態(tài)機(jī)

      指代消解是信息抽取中極其重要的一項(xiàng)任務(wù).在正常文本中,相同信息會(huì)在同文本中出現(xiàn)若干次.作者為了行文簡(jiǎn)練,文本的概念關(guān)聯(lián)性會(huì)更多地通過指代關(guān)系來描述.為實(shí)現(xiàn)相關(guān)信息的融合,獲得相應(yīng)信息在該文本中最完整的描述集合,將這些指代相互聯(lián)系起來是十分必要的.

      1 指代相關(guān)概念

      指代作為一種常見的語言現(xiàn)象,廣泛存在于自然語言的各種表達(dá)中,它是指篇章中的一個(gè)語言單位(通常是詞或短語)與之前出現(xiàn)的語言單位存在的特殊語義關(guān)聯(lián),其語義解釋依賴于前者.用于指向的語言單位稱為指代語(Anaphor),被指向的語言單位稱為先行語(Antecedent),而確認(rèn)指代語所指的先行語的過程即為指代消解.

      2 指代消解相關(guān)研究

      指代消解的相關(guān)研究歷史很長(zhǎng).早期方法多偏向于理論中探索,使用大量人工編制的語言知識(shí)甚至是學(xué)科領(lǐng)域的知識(shí)來進(jìn)行指代消解.近年來,機(jī)器學(xué)習(xí)等自然語言自動(dòng)處理技術(shù)發(fā)展迅速,基于弱語言知識(shí)的自動(dòng)指代消解技術(shù)廣泛出現(xiàn).但受制于弱語言知識(shí),近年來自動(dòng)指代消解技術(shù)的性能增進(jìn)遇到了瓶頸,研究人員開始將目光轉(zhuǎn)向結(jié)構(gòu)化句法信息及語義信息等基于自動(dòng)產(chǎn)生的深層語言知識(shí)方面的研究.

      與其他語言不同,漢語回指的三種形式:零形回指,代詞回指和名詞回指中,零形回指出現(xiàn)的頻率最高,分布最廣,被認(rèn)為是漢語回指的標(biāo)準(zhǔn)形式[1].代詞回指和名詞回指中回指詞都有實(shí)體形式——相對(duì)應(yīng)的回指詞為代詞和名詞,相對(duì)于零形回指來說,這兩種指代消解的類型是有標(biāo)記的消解.零形回指中零形式的出現(xiàn)沒有具體的標(biāo)記,已有的零形回指的消解工作大多默認(rèn)零形式位置已知,人工標(biāo)注零形式的位置.

      由于實(shí)際需要,自然語言處理領(lǐng)域的中文指代消解的研究正迅速發(fā)展.但受限于中文的特點(diǎn),目前更集中在有實(shí)體形式的代詞及名詞指代消解方面,零形回指的處理研究較少.

      人稱代詞方面,王厚峰等采用了近似Mitkov的基于弱化語言知識(shí)的方法,解決人稱代詞的消解[2];李國(guó)臣等使用決策樹機(jī)器學(xué)習(xí)算法,結(jié)合優(yōu)化選擇策略,進(jìn)行人稱代詞消解研究[3];王智強(qiáng)等利用決策樹方法進(jìn)行了中文共指消解處理研究[4].

      名詞方面,孔芳等提出一種基于中心理論的指代消解研究,在對(duì)代詞指代消解基礎(chǔ)上,增加了對(duì)名詞指代的消解工作[5];謝永康等提出一種譜聚類的共指消解方法[6];胡乃全等基于最大熵模型對(duì)中文指代進(jìn)行了消解研究[7];高俊偉等基于支持向量機(jī)方法對(duì)中文名詞短語指代消解進(jìn)行了研究[8].

      3 實(shí)驗(yàn)內(nèi)容

      實(shí)驗(yàn)使用用于信息抽取的多層級(jí)混合架構(gòu)自然語言處理系統(tǒng).系統(tǒng)主要用于批量文本的信息抽取處理.

      系統(tǒng)多層級(jí)模塊間,傳輸同一數(shù)據(jù)結(jié)構(gòu)—tokenlist[9].結(jié)構(gòu)中標(biāo)有文本中所有文字字符以及相應(yīng)文字的特征屬性.模塊中,對(duì)文字特征屬性進(jìn)行添加刪除操作.最終以命名實(shí)體為中心,創(chuàng)建相應(yīng)關(guān)鍵實(shí)體的信息抽取結(jié)果文件—profile[10].

      指代消解處理后,同一命名實(shí)體的實(shí)體詞和相關(guān)指代詞將完成合并,會(huì)大大豐富每一實(shí)體profile中的有效信息,并降低profile的合并復(fù)雜度.

      本文基于規(guī)則方法,使用有限狀態(tài)機(jī),在tokenlist結(jié)構(gòu)上,完成對(duì)文本中名詞指代和代詞指代的語句定位,使用決策樹方法,完成對(duì)這兩種回指的消解工作.

      3.1 實(shí)驗(yàn)語料

      語料庫(kù)使用2012年6月中,在百度新聞欄目中截取的80篇文章語料,并進(jìn)行了指代詞的人工標(biāo)注.

      語料中對(duì)與命名實(shí)體相關(guān)的指代詞進(jìn)行了分類標(biāo)注:先行詞為命名實(shí)體的零形指代詞、人稱代詞、名詞指代詞、代詞名詞組合指代詞等.

      3.2 指代消解處理流程

      指代消解需要基本自然語言處理結(jié)果,相關(guān)系統(tǒng)流程如圖1所示.

      3.2.1 分詞及詞性標(biāo)注

      分詞及詞性標(biāo)注使用中科院分詞系統(tǒng)ICTCLAS進(jìn)行基本處理.詞性標(biāo)注集文本處理范例:

      圖1 指代消解系統(tǒng)流程

      中國(guó)/ns 聯(lián)合/v 網(wǎng)絡(luò)/n 通信/vn 集團(tuán)/n 有限公司/n (/w 簡(jiǎn)稱/v “/w 中國(guó)/ns 聯(lián)通/nz”/w)/w 于/p 2009年/t 1月/t 6日/t 在/p 原/b 中國(guó)/ns 網(wǎng)/n 通/v 和/c 原/b

      中國(guó)/ns 聯(lián)通/nz 的/u 基礎(chǔ)/n 上/m 合并/v 組建/v 而/c 成/m,/w 是/v 中國(guó)/ns唯一/b 一/m 家/q 在/p 紐約/ns 、/w 香港/ns 、/w 上海/ns 三/m 地/u 同時(shí)/d 上市/v 的/u 電信/n 運(yùn)營(yíng)/vn 企業(yè)/n ./w

      3.2.2 命名實(shí)體識(shí)別

      信息抽取以命名實(shí)體為核心.本系統(tǒng)使用最基本的四類命名實(shí)體作為信息采集的中心:人物實(shí)體(NePer),組織實(shí)體(NeOrg),地點(diǎn)實(shí)體(NeLoc),時(shí)間實(shí)體(NeTIME).其中,與指代消解關(guān)系最為密切的是人物實(shí)體與組織實(shí)體.

      人物實(shí)體(NePer)在文本中表現(xiàn)形式主要為人物姓名,以及部分常見別名、簡(jiǎn)稱等,如:

      曾國(guó)藩/NePer謚號(hào)是文正,因而也被人稱為文正公/NePer.

      組織實(shí)體(NeOrg)包括組織機(jī)構(gòu)的全名及簡(jiǎn)稱,如:

      中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司/NeOrg(簡(jiǎn)稱“中國(guó)聯(lián)通/NeOrg”)于2009年1月6日/NeTIME在原中國(guó)網(wǎng)通/NeOrg和原中國(guó)聯(lián)通/NeOrg的基礎(chǔ)上合并組建而成,是中國(guó)/NeLoc唯一一家在紐約/Ne-Loc、香港/NeLoc、上海/NeLoc三地同時(shí)上市的電信運(yùn)營(yíng)企業(yè).

      系統(tǒng)使用條件隨機(jī)場(chǎng)模型進(jìn)行人物實(shí)體、地點(diǎn)實(shí)體及部分組織實(shí)體的識(shí)別.輔助使用有限狀態(tài)機(jī)對(duì)部分組織實(shí)體進(jìn)行識(shí)別,并進(jìn)行識(shí)別結(jié)果修正.

      3.2.3 回指詞識(shí)別

      系統(tǒng)使用有限狀態(tài)機(jī)對(duì)指代詞進(jìn)行識(shí)別.同時(shí)為特征屬性明顯的指代詞添加相應(yīng)特征.進(jìn)行標(biāo)記的特征有:

      基本指代詞(IsAnaphor),例:

      這/IsAnaphor是一個(gè)夢(mèng)一樣的地方.

      人物指代詞(Anaphor-person),分有男性指代詞(Anaphor-male),女性指代詞(Anaphor-female),例:

      李宏和王雪今年剛結(jié)婚,他/Anaphor-male是她/Anaphor-female的高中同學(xué).

      組織指代詞(Anaphor-org),例:

      東莞市鼎立檢針器檢測(cè)試驗(yàn)設(shè)備有限公司是一新興的高科技公司,自成立以來,公司/Anaphor-org堅(jiān)持:“誠(chéng)實(shí)守信,持續(xù)發(fā)展”的經(jīng)營(yíng)理念.

      地點(diǎn)指代詞(Anaphor-area),例:

      許昌市人大常委會(huì)主任石克生主持召開第十七次主任(擴(kuò)大)會(huì)議,認(rèn)真聽取了該市/Anaphor-area農(nóng)信社服務(wù)“三農(nóng)”情況匯報(bào).

      復(fù)數(shù)指代詞(Anaphor-complex),例:

      對(duì)于湖人隊(duì)和納什的球迷來說,他們/Anaphor-complex只希望下賽季能有一個(gè)健康的納什.

      3.2.4 決策樹方法進(jìn)行指代消解

      決策樹方法是在分類技術(shù)方面應(yīng)用最廣泛的一種方法,也是目前對(duì)一般指代消解處理性能較優(yōu)秀的方法之一.本文參考王智強(qiáng)的《基于決策樹的漢語代詞共指消解》搭建決策樹指代消解模塊.流程如圖2.

      系統(tǒng)使用80篇新聞?wù)Z料的前60篇作為訓(xùn)練語料,后20篇作為處理對(duì)象.

      3.3 實(shí)驗(yàn)數(shù)據(jù)

      80篇語料中,與命名實(shí)體相關(guān),即指代詞數(shù)據(jù)如表1所示:

      圖2 指代消解模塊原理圖

      表1 80篇語料命名實(shí)體指代詞統(tǒng)計(jì)

      指代消解完成結(jié)果如表2所示:

      表2 指代消解結(jié)果統(tǒng)計(jì)

      指代消解準(zhǔn)確率和召回率結(jié)果統(tǒng)計(jì)如表3所示.

      表3 指代消解準(zhǔn)確率和召回率

      3.4 實(shí)驗(yàn)結(jié)果分析

      本文共選取4個(gè)feature作為決策樹訓(xùn)練和分類的依據(jù):sig-plu,gender,nature,distance.各個(gè)feature的屬性值及說明如下:

      (1)sin-plu表示的是先行詞和代詞之間單復(fù)數(shù)的一種關(guān)系,sin-plu的值總共有3種情況,分別是true、false和unknown.當(dāng)先行詞與代詞都為單數(shù)或者先行詞與代詞都為復(fù)數(shù)時(shí),此時(shí)sin-plu為true;當(dāng)先行詞與代詞之間的單復(fù)數(shù)不一致時(shí),此時(shí)sin-plu為false;當(dāng)先行詞和代詞兩者中有一個(gè)詞的單復(fù)數(shù)未知時(shí),此時(shí)sin-plu為unknown.

      (2)gender表示的是先行詞與代詞的性別之間的一個(gè)關(guān)系,gender的值總共有3種情況,分別是true、false和unknown.當(dāng)先行詞與代詞都表示的是男性或者都表示的是女性時(shí),此時(shí)gender的值為true;當(dāng)先行詞與代詞之間的性別不相同時(shí),此時(shí)gender為false;當(dāng)先行詞與代詞兩者有一個(gè)詞的性別未知時(shí),此時(shí)gender的值為unknown.

      (3)nature表示的是先行詞與代詞在句子中做的句子成分是否一致.nature的值總共有3種情況,分別是true、false和unknown.當(dāng)先行詞與代詞在句子中做的句子成分一致時(shí),此時(shí)nature為true;當(dāng)先行詞與代詞在句子中的句子成分不一致時(shí),此時(shí)nature為false;當(dāng)先行詞與代詞兩者中有一個(gè)在句子中詞性未知或者是兩者的詞性都未知,此時(shí)nature的值為unknown.

      (4)distance表示先行詞與代詞之間的距離關(guān)系.當(dāng)先行詞與代詞在同一個(gè)句子里時(shí),此時(shí)distance為0;當(dāng)先行詞在代詞上一個(gè)句子里時(shí),此時(shí)distance為2,按照此關(guān)鍵依次增長(zhǎng).

      自然語言處理的結(jié)果一般采用正確率(precision)、召回率(recall)評(píng)估試驗(yàn)結(jié)果,即

      其中,正確率表示:在識(shí)別出的標(biāo)注中,我們的判定有多少是正確的;召回率表示:在所有的標(biāo)注中,被識(shí)別出來的標(biāo)注有多少,包括正例和反例.

      我們選取80篇文章中的60篇作為訓(xùn)練數(shù)據(jù),通過決策樹訓(xùn)練得到分類規(guī)則,剩余的20篇作為處理對(duì)象(測(cè)試數(shù)據(jù)),用訓(xùn)練得到的分類規(guī)則對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類測(cè)試.通過手工標(biāo)注正確的指代集作為標(biāo)準(zhǔn),對(duì)測(cè)試數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析.

      通過測(cè)試,通過決策樹完成的指代消解結(jié)果中,代詞指代詞消解完成532個(gè),其中正確個(gè)數(shù)501個(gè),準(zhǔn)確率為94.17%;名詞指代詞消解完成222個(gè),其中正確個(gè)數(shù)為209個(gè),準(zhǔn)確率為94.14%.但是,總共1 659個(gè)指代詞中,一共完成了754個(gè)指代詞的消解(其中,正確消解710個(gè),錯(cuò)誤消解44個(gè)),召回率為42.8%.經(jīng)過比對(duì)和分析,發(fā)現(xiàn)召回率過低的原因是某些指代詞的指代詞標(biāo)注漏標(biāo).例如:在topic54中關(guān)于房地產(chǎn)的采訪,有一段話:在他看來,房地產(chǎn)市場(chǎng)的調(diào)控還在延續(xù),房?jī)r(jià)會(huì)往哪個(gè)方向走,依然是個(gè)未知數(shù),根本看不清楚.文中,有人稱代詞“他”,但是系統(tǒng)并沒有標(biāo)注出指代詞的feature,導(dǎo)致后續(xù)指代消解召回率的降低.

      實(shí)驗(yàn)結(jié)果說明:基于決策樹的指代消解,能夠比較出色地完成代詞指代消解和名詞指代消解,但是其召回率有待提高.

      4 結(jié)論

      本文提出一種基于自然語言基本處理結(jié)果的用決策樹進(jìn)行指代消解的方法,該方法彌補(bǔ)了決策樹忽略屬性關(guān)聯(lián)性的缺點(diǎn).實(shí)驗(yàn)結(jié)果顯示:人稱代詞指代消解和名稱代詞指代消解的準(zhǔn)確率分別為:94.17%和94.14%,達(dá)到了較高的指代消解準(zhǔn)確率.召回率為42.8%,召回率比較低,這也是我們今后要改進(jìn)的方向.

      基于決策樹的指代消解方法是自然語言處理使用較為普遍的方法,與其他的使用規(guī)則過濾的方法不同,我們嘗試使用自然語言基本處理和決策樹來進(jìn)行指代消解,取得了顯著的效果.但是,召回率過低.

      在后續(xù)的研究中,我們將會(huì)朝兩個(gè)方向繼續(xù)研究:(1)考慮更加復(fù)雜的、甚至是網(wǎng)絡(luò)語料庫(kù),用其來進(jìn)行決策樹指代消解實(shí)驗(yàn),檢驗(yàn)基于決策樹的指代消解方法的健壯性,并研究影響指代消解準(zhǔn)確率的因素或者feature;(2)在進(jìn)行詞性標(biāo)注處理的模塊上,做出改進(jìn),提高系統(tǒng)的召回率.

      [1] 陳平.話語分析說略[J].語言教學(xué)與研究,1987(3):3-19.

      [2] 王厚峰.魯棒性的漢語人稱代詞消解[J].軟件學(xué)報(bào),2005,16(5):700-707.

      [3] 李國(guó)臣,羅云飛.采用優(yōu)先選擇策略的中文人稱代詞的指代消解[J].中文信息學(xué)報(bào),2005,19(4):24-30.

      [4] 王智強(qiáng),李蕾,王樅.基于決策樹的漢語代詞共指消解[J].北京郵電大學(xué)學(xué)報(bào),2006,29(4):1-5.

      [5] 孔芳,朱巧明,周國(guó)棟,等.基于中心理論的指代消解研究[J].計(jì)算機(jī)科學(xué),2009,36(6):219-222.

      [6] 謝永康,周雅倩,黃萱菁.一種基于譜聚類的共指消解方法[J].中文信息學(xué)報(bào),2009,23(3):10-16.

      [7] 胡乃全,孔芳,王海東,等.基于最大熵模型的中文指代消解系統(tǒng)實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2009,26(8):2948-2951,2955.

      [8] 高俊偉,孔芳,朱巧明,等.基于SVM的中文名詞短語指代消解研究[J].計(jì)算機(jī)科學(xué),2012,39(10):231-234.

      [9] SOONW,NG H,LIM D.Amachine learning approach to coreference resolution ofnoun phrase[J].Computational Linguistics,2001,27(4):521-544.

      [10]ZHOU G D,SU J.A high-performance coreference resolution system using amulti-agent strategy[C]∥COLING'2004.Geneva,Switzerland,2004:522-528.

      [責(zé)任編輯馬云彤]

      Anaphora Resolution Inquiry for Information Retrieval

      XU Yong-liang,ZHOU Xiao-hui,LIXiao-ge

      (School of Computer Science&Technology,Xi'an University of Posts&Telecommunications,Xi'an 710121,China)

      Anaphora resolution is a difficult and important point in Natural Language Processing and important for information retrieval.Anaphora consists of three main forms:pronominal anaphora,nominal anaphora and zero anaphora.In Chinese,pronominal anaphora and nominal anaphora are themost fundamental forms,the resolution ofwhich are the research focus of Coreference Resolution.To solve this problem,we adopt Decision Tree Approach for the treatment of both the anaphora forms.The experimental result shows that the proposed approach can promote the recalling of anaphora resolution without lowering the precision.

      information retrieval;anaphora resolution;naming entity;decision tree;finite statemachine

      TP391

      A

      1008-5564(2015)02-0065-05

      2015-01-15

      許永良(1986—),男,山東煙臺(tái)人,西安郵電大學(xué)計(jì)算機(jī)學(xué)院碩士研究生,主要從事高性能計(jì)算研究;

      周曉輝(1978—),男,山東高密人,西安郵電大學(xué)計(jì)算機(jī)學(xué)院教授,博士,主要從事高性能計(jì)算、金融大數(shù)據(jù)研究;

      李曉戈(1962—),男,浙江杭州人,西安郵電大學(xué)計(jì)算機(jī)學(xué)院教授,博士,主要從事自然語言處理研究.

      猜你喜歡
      指代先行代詞
      Let’s Save Food To Fight Hunger
      復(fù)合不定代詞點(diǎn)撥
      奧卡姆和布列丹對(duì)指代劃分的比較
      代詞(一)
      代詞(二)
      健康養(yǎng)生“手”先行
      從“先行先試”到“先行示范”
      這樣將代詞考分收入囊中
      黔貨出山 遵義先行
      遵義(2017年8期)2017-07-24 18:11:30
      黔貨出山 遵義先行
      遵義(2017年6期)2017-07-18 11:32:10
      交城县| 都安| 象州县| 鄢陵县| 湟源县| 伽师县| 渑池县| 黔西县| 临西县| 芦山县| 阳泉市| 武城县| 宁津县| 贵溪市| 乐都县| 奉贤区| 永昌县| 密山市| 淳化县| 炉霍县| 松桃| 广南县| 琼结县| 临桂县| 宜兴市| 秀山| 金坛市| 平遥县| 武义县| 屏南县| 平顶山市| 广安市| 南木林县| 普定县| 咸阳市| 安陆市| 镇宁| 浦北县| 馆陶县| 安平县| 辽阳县|