呂國英,武宇娟,李 茹,1b,2,張?jiān)缕?關(guān) 勇,郭少茹
(1.山西大學(xué) a.計(jì)算機(jī)與信息技術(shù)學(xué)院; b.計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原 030006;2.山西省大數(shù)據(jù)挖掘與智能技術(shù)協(xié)同創(chuàng)新中心,太原 030006)
語義理解是完成語篇理解、機(jī)器翻譯以及問答系統(tǒng)等語言處理任務(wù)的前提,基于框架語義的推理是實(shí)現(xiàn)語義理解的有效手段?;跐h語框架語義的推理是指通過框架語義推理解決問題,框架元素之間的語義相關(guān)性可以建立篇章句子之間的聯(lián)系,這種聯(lián)系正是實(shí)現(xiàn)框架語義推理的一種路徑??蚣茉貎?nèi)部表述的共指阻礙了框架元素之間聯(lián)系的建立,因此,研究框架元素中的表述共指至關(guān)重要。
本文提出一種基于漢語框架語義的共指消解方案。對(duì)在CFN資源下標(biāo)注的篇章進(jìn)行數(shù)據(jù)預(yù)處理,采用基于規(guī)則的方法識(shí)別框架元素中的表述,利用分類模型進(jìn)行表述消解,借助漢語框架語義信息提升消解效果。
早期的共指消解研究方法主要是基于規(guī)則的方法。文獻(xiàn)[1]提出2種基于句法分析樹的算法,一種只考慮句法知識(shí),另一種同時(shí)考慮句法和語義知識(shí)。文獻(xiàn)[2]提出一種基于中心理論[3]的BFP算法,其通過設(shè)置詞匯句法、約束以及類型標(biāo)準(zhǔn)等篩選條件為代詞尋找合適的先行語。文獻(xiàn)[4]簡化了文獻(xiàn)[5]提出的RAP算法,其通過分析得到文本的句法功能和詞性,根據(jù)這些信息為特征賦予不同的重要性(突顯性),然后根據(jù)突顯性得分來確定先行詞。
在基于機(jī)器學(xué)習(xí)的共指消解研究方法中,實(shí)例構(gòu)建和特征選擇是重要步驟,其中主要的學(xué)習(xí)模型為表述對(duì)模型、實(shí)體-表述模型和表述排序模型。文獻(xiàn)[6]使用表述對(duì)模型提出一種實(shí)例構(gòu)建的規(guī)則以降低正負(fù)例的不平衡性,為文本中的每個(gè)表述mi選取其前面最近的共指表述mj(j
近年來,深度學(xué)習(xí)成為共指消解的主流方法,其依賴大規(guī)模的語料集。文獻(xiàn)[10]采用Esay-first原則,即先進(jìn)行簡單決策,當(dāng)學(xué)習(xí)到更多的特征和更精確的權(quán)重時(shí)再進(jìn)行復(fù)雜決策,這種方法使用神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)可用信息。文獻(xiàn)[11]結(jié)合表述對(duì)模型和表述排序模型的優(yōu)點(diǎn),其整合得分以定義有用的實(shí)體級(jí)特征,并利用表述對(duì)模型得分刪減搜索空間,從而學(xué)習(xí)有效的共指策略。文獻(xiàn)[12]將強(qiáng)化學(xué)習(xí)直接應(yīng)用于神經(jīng)網(wǎng)絡(luò)排序模型,使用強(qiáng)化策略梯度算法和最大間隔損失函數(shù)進(jìn)行實(shí)驗(yàn),在CoNLL 2012 Shared Task數(shù)據(jù)集的中英文部分都取得了很好的結(jié)果。
與英文共指消解研究相比,中文共指消解研究起步較晚。研究人員結(jié)合中文文本的特點(diǎn),將類似英文的消解方法用于中文消解的研究中,取得了一定的成果。文獻(xiàn)[13]基于樹核函數(shù)從使用中心理論、集成競爭者信息和融入語義角色相關(guān)信息等方面動(dòng)態(tài)擴(kuò)展結(jié)構(gòu)句法樹,從而提升代詞消解的性能。文獻(xiàn)[14]提出一種表述識(shí)別的改進(jìn)方法,針對(duì)代詞和專有名詞進(jìn)行分類過濾,保留所有的名詞短語,其有效提升了全自動(dòng)的漢語指代消解性能。文獻(xiàn)[15]提出一種DBN模型的Deeping Learning學(xué)習(xí)機(jī)制,使用多層無監(jiān)督的RBM網(wǎng)絡(luò)和一層有監(jiān)督的BP網(wǎng)絡(luò),獲取文本語義特征并進(jìn)行指代消解,ACE04英文和ACE中文上的實(shí)驗(yàn)結(jié)果表明,該方法通過增加訓(xùn)練層數(shù)提高了系統(tǒng)性能。
基于漢語框架語義的共指消解是指從篇章句子中找到框架元素中的實(shí)體表述,并對(duì)這些表述進(jìn)行共指消解,其任務(wù)示例如例1所示。
例1對(duì)荷蘭而言,
問題為什么
例1為在漢語框架網(wǎng)(Chinese FrameNet,CFN)體系下標(biāo)注過的語篇片段,包括3個(gè)句子。對(duì)于句子S1和S2,目標(biāo)詞“是”激起框架“狀態(tài)”,其框架元素集合為{Entity(實(shí)體),State(狀態(tài))}。其中,“實(shí)體”分別為“中國”和“荷蘭”,“狀態(tài)”分別為“非常重要的貿(mào)易伙伴”和“中國在歐盟的第二大貿(mào)易伙伴”。對(duì)于句子S3,目標(biāo)詞“有”激起框架“擁有”,其框架元素集合為{Owner(物主),Possession(擁有物)},其中,“物主”為“兩國”,“擁有物”為“巨大的合作潛力”。在回答問題“為什么兩國擁有巨大的合作潛力”時(shí),首先需要確定“兩國”的指代對(duì)象。雖然人們可以很容易判斷“兩國”代表的是“荷蘭與中國”,但是對(duì)于計(jì)算機(jī)而言,這是一個(gè)難度較高的問題。在CFN下回答這類推理問題時(shí),僅通過框架標(biāo)注不能直接確定“兩國”為“荷蘭與中國”,但如果加入“荷中”與“兩國”、“荷”與“荷蘭”以及“中”與“中國”的共指關(guān)系,就很容易確定“兩國”的貿(mào)易關(guān)系,得到“合作潛力”體現(xiàn)為“貿(mào)易伙伴關(guān)系”。需要從框架元素中抽取并判斷為共指關(guān)系的表述為[荷中,兩國]、[荷,荷蘭,第二大貿(mào)易伙伴]、[中,中國,貿(mào)易伙伴,我國]。
CFN[16]以框架語義學(xué)[17]為理論基礎(chǔ)構(gòu)建,其為一個(gè)大規(guī)模的詞匯語義知識(shí)庫,應(yīng)用于語言學(xué)、計(jì)算語言學(xué)和自然語言處理等領(lǐng)域的研究。通過框架語義可以挖掘詞語潛在的概念結(jié)構(gòu)和語義場景[18]??蚣苁侵赣稍~元以及與其相聯(lián)系的框架元素構(gòu)成的表達(dá)特定場景的句子語義結(jié)構(gòu)形式。本文研究基于標(biāo)注的CFN資源。在CFN中,對(duì)于每個(gè)框架按照“框架”“框架元素”“詞元”和“框架關(guān)系”4個(gè)方面進(jìn)行描述。為了便于理解本文任務(wù),介紹框架語義標(biāo)注中的一些重要概念,具體如下:
1)詞元(框架承擔(dān)詞)包括動(dòng)詞、形容詞和名詞,目標(biāo)詞是指在句子中能激起框架的詞元。
2)框架中涉及的各種參與者、外部條件等稱為框架元素??蚣茉胤譃楹诵目蚣茉嘏c非核心框架元素,核心框架是一個(gè)框架在概念理解上的必要成分[19],在不同框架中它們的數(shù)量和類型不同,顯示出框架的個(gè)性。非核心框架元素則表達(dá)時(shí)間、地點(diǎn)等通用語義成分。
3)對(duì)每一個(gè)承擔(dān)語義角色的框架元素進(jìn)行3層標(biāo)注,包括語義角色標(biāo)注(語義信息)、短語類型標(biāo)注(詞性)和句法結(jié)構(gòu)標(biāo)注(句法信息)。比如,例1中框架元素
4)框架關(guān)系是指語義場景之間的關(guān)系,CFN詳細(xì)定義了8種框架關(guān)系[19],分別為繼承、使用、總分、透視、先后、因果、起始和參照,框架通過這些關(guān)系形成了網(wǎng)狀結(jié)構(gòu)。
共指主要指2個(gè)表述(一般是名詞,包括專有名詞、名詞短語和代名詞)指向真實(shí)網(wǎng)絡(luò)世界中的同一實(shí)體[14],其為一種等價(jià)關(guān)系。共指消解主要研究的是在一篇文本中如何找到指向同一實(shí)體的名詞,形成若干共指鏈?;刂甘侵府?dāng)前的照應(yīng)語與前文出現(xiàn)的詞、短語或句子存在指代關(guān)聯(lián),不一定滿足等價(jià)性。共指與回指構(gòu)成了指代的全部內(nèi)容,早期研究沒有明確區(qū)分共指與指代,因此,一些針對(duì)指代消解的研究方法同樣適用于共指消解。
基于框架語義的共指消解問題可以形式化描述為:給定已標(biāo)注框架語義的篇章[19]D={s1,s2,…,sn},其中,sk(k∈[1,n])為篇章D的第k句。sk中能激起框架的目標(biāo)詞的集合為Tk={Tk1,Tk2,…,Tkp},目標(biāo)詞對(duì)應(yīng)的框架集合Fk={Fk1,Fk2,…,Fkp}。對(duì)于某個(gè)框架Fki,其框架元素集合為FEki={Feki,1,Feki,2,…,Feki,q}。對(duì)于某個(gè)框架元素Feki,x,其中包含了若干個(gè)表述Feki,x={menki,x,1,menki,x,2,…,menki,x,m}。基于框架語義的共指消解就是找到篇章中指向同一實(shí)體的表述menki,x,l,形成若干條共指鏈。因此,本文的研究步驟為:首先識(shí)別出框架元素中的表述,然后判段表述是否指向同一實(shí)體從而生成共指鏈?;诳蚣苷Z義的共指消解系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 基于框架語義的共指消解系統(tǒng)結(jié)構(gòu)Fig.1 Coreference resolution system structure based on framework semantics
由共指消解實(shí)體表述的類型可知,能夠成為表述的主要有專有名詞、名詞性詞和代名詞(名詞性代詞,指向的實(shí)體類型為實(shí)體名詞)三類。實(shí)體表述識(shí)別的主要工作是確定篇章中哪些名詞短語需要進(jìn)行共指消解。對(duì)于該任務(wù),本文根據(jù)框架多樣性的特點(diǎn)設(shè)置了以下識(shí)別方法,其中,例2為文本在篇章庫中的存儲(chǔ)格式。
1)抽取文本中的表述
應(yīng)用CFN的資源標(biāo)注規(guī)則,將標(biāo)注框架中類型為“np”“tp”和“sp”的短語直接用作表述。比如,例2中的“大陸人”“它”,其標(biāo)注格式為
應(yīng)用相關(guān)文法信息對(duì)框架元素內(nèi)部的短語進(jìn)行抽取。比如,例2中框架元素“其植株”中的“其”和“植株”,標(biāo)注格式為
例2
2)選擇相關(guān)規(guī)則過濾表述
本文使用的規(guī)則集是文獻(xiàn)[20]提出的中文平臺(tái)特有的規(guī)則集。先去除停用詞,所有出現(xiàn)在停用詞表中的名詞短語均被認(rèn)為是非表述,然后按照排除規(guī)則集,將符合特定模式的某些名詞短語標(biāo)注成非表述,最后按照保留規(guī)則集,將符合特定模式的某些名詞短語標(biāo)注成表述。
實(shí)體表述的消解旨在對(duì)識(shí)別出的表述進(jìn)行消解,形成若干條包含實(shí)體表述的共指鏈,其基本思路是采用分類思想判斷2個(gè)表述是否指向相同的實(shí)體,并利用傳遞關(guān)系將指向同一實(shí)體的表述鏈接成一條共指鏈。
3.2.1 表述對(duì)構(gòu)建
共指消解是一個(gè)分類類別(共指和不共指)已經(jīng)確定的分類問題,本文將共指問題轉(zhuǎn)換成二元分類問題。將抽取出的篇章框架元素中的所有表述兩兩配對(duì)形成不重復(fù)的二元組,如下:
上述二元組可以包括重復(fù)的文本,但其在語料中的標(biāo)識(shí)是唯一的,這樣共指問題就轉(zhuǎn)換為每一對(duì)實(shí)體表述是否指向同一實(shí)體的二元分類問題。
3.2.2 特征選擇
本文使用共指消解的基礎(chǔ)特征和框架特征進(jìn)行實(shí)驗(yàn),選取的基礎(chǔ)特征參考文獻(xiàn)[21],它們是共指研究中的常用特征。表1所示為共指消解的基礎(chǔ)特征集。
表1 共指消解的基礎(chǔ)特征描述Table 1 Basic features description of coreference resolution
本文表述的單復(fù)數(shù)屬性值主要分為單數(shù)、復(fù)數(shù)和無單復(fù)數(shù)3類,根據(jù)一些明顯的特征詞來構(gòu)建單復(fù)數(shù)字典,通過字符匹配判定其單復(fù)數(shù),特征不明顯的表述賦值為無單復(fù)數(shù)。比較2個(gè)表述的單復(fù)數(shù)屬性值,一致則返回1,不一致則返回0。長字符Dice系數(shù)如式(1)所示:
(1)
其中,comm(s1,s2)是表述對(duì)相同字符的個(gè)數(shù),leng(s1)和leng(s2)分別是表述對(duì)的字符串長度。
考慮到在每個(gè)表述對(duì)中,不同的字符串長度對(duì)公共字符串的敏感程度不同,本文對(duì)傳統(tǒng)Dice系數(shù)進(jìn)行變形,得到短字符Dice系數(shù),如式(2)所示:
(2)
本文分析框架標(biāo)注信息及框架之間的關(guān)系,得到表2所示的框架特征集。
表2 共指消解的框架特征描述Table 2 Framework features description of coreference resolution
本文使用余弦相似度來計(jì)算2個(gè)目標(biāo)詞的相似度。具體地,使用Word2Vec工具訓(xùn)練詞向量,通過式(3)計(jì)算2個(gè)框架的目標(biāo)詞相似度:
(3)
其中,CosDis(t1,t2)用來計(jì)算2個(gè)目標(biāo)詞對(duì)應(yīng)詞向量t1和t2的余弦相似度,n為詞向量的維度。需要說明的是,對(duì)于同一表述分屬于不同框架的框架元素,本文采用的方法是分別計(jì)算每一對(duì)目標(biāo)詞相似度然后取均值,這是因?yàn)槟繕?biāo)詞激活了不同框架,需要綜合多個(gè)框架信息。
如圖2所示,2個(gè)表述激起的框架名為“命名”和“陳述”,通過一個(gè)框架“信息交流”建立聯(lián)系,則框架關(guān)系路徑返回值為1。各個(gè)框架通過這些關(guān)系形成了框架的網(wǎng)狀結(jié)構(gòu),有時(shí)2個(gè)框架間的關(guān)系路徑不止一條,則選擇最近的一條。
圖2 框架關(guān)系路徑示意圖
Fig.2 Schematic diagram of framework relationship path
句法功能和短語類型返回實(shí)數(shù)類型值。以短語類型為例,假設(shè)當(dāng)前表述對(duì)為(表述1,表述2),從表述列表中分別檢索出表述1和表述2,得到其短語類型type1和type2,如果type1與type2相同則返回1,否則返回0。比如,“太原”和“首都”都被標(biāo)注為“sp(處所短語)”,而“2019年1月”被標(biāo)注為“tp(時(shí)間詞性短語)”,則“北京”和“首都”更容易存在共指關(guān)系。句法功能特征與短語類型具有相似的處理方法。一般而言,具有共指關(guān)系的表述的短語類型往往相同,且句法結(jié)構(gòu)也存在一定關(guān)聯(lián)。
本文使用核心框架元素來表示框架特有的語義信息。在數(shù)據(jù)預(yù)處理階段,抽取出每個(gè)框架下的核心框架元素,使用Glove模型分別訓(xùn)練詞向量,某個(gè)框架的向量表示為該框架下的所有核心框架元素的向量均值。對(duì)于某個(gè)框架Fk,其核心框架元素集合為FEk={Fek,1,Fek,2,…,Fek,q},計(jì)算公式如下:
(4)
比如在“比賽結(jié)果”框架下,其核心框架元素有“賽事名稱”“參賽者”“參賽雙方”和“對(duì)手”,則將4個(gè)詞向量的向量均值作為框架“比賽結(jié)果”的框架向量,然后計(jì)算2個(gè)表述的框架向量相似度作為返回值。
3.2.3 成對(duì)分類模型
成對(duì)分類模型即表述對(duì)的二元分類模型。本文使用的語料選自漢語框架標(biāo)注的資源,由于標(biāo)注平臺(tái)還不夠完善,標(biāo)注的語篇語料較少,受限于語料規(guī)模,適合使用傳統(tǒng)的機(jī)器學(xué)習(xí)算法。
以支持向量機(jī)(SVM)為例構(gòu)建分類模型。給定訓(xùn)練數(shù)據(jù)集D={m1,m2,…,mt},其中,特征向量m={f1,f2,…,fn},n為特征個(gè)數(shù)。SVM算法根據(jù)給定的D尋找最佳決策邊界劃分?jǐn)?shù)據(jù)的共指類別和不共指類別。定義模型的決策邊界函數(shù)h(x)為:
h(x)=wTx+b
“你有沒有想過,萬一我,或者夏冰被警方抓了,我們拒不承認(rèn)開車撞了人,警方說不定會(huì)懷疑那個(gè)拍照的人?尤其是夏冰,他可能供出你?!?/p>
(5)
其中,w為特征權(quán)重向量,b為偏移向量,用于訓(xùn)練各特征的權(quán)重。共指分類問題可以寫成如下形式的優(yōu)化問題:
(6)
s.t.yi[wTΦ(xi)+b]≥1-ζi,ζi≥0
(7)
在訓(xùn)練時(shí)可以選擇調(diào)節(jié)參數(shù)C和ζ,本文使用sklearn的SVM工具包,通過不同的參數(shù)設(shè)置進(jìn)行實(shí)驗(yàn)。在分類問題中,特征選擇的優(yōu)劣直接影響模型的性能,本文將表1、表2所示特征經(jīng)過處理后作為分類器的輸入從而訓(xùn)練模型。
常用的共指消解語料有MUC語料、ACE語料和OntoNotes語料3種。其中,OntoNotes語料中包含英文、中文以及阿拉伯文3種語言,為共指消解研究人員提供了標(biāo)注的訓(xùn)練語料以及測試語料,是當(dāng)前比較流行的共指數(shù)據(jù)集。
在漢語框架標(biāo)注的資源中,沒有專門針對(duì)共指消解研究的語料,而在大數(shù)據(jù)集上構(gòu)建CFN標(biāo)注資源需要耗費(fèi)大量的人力和時(shí)間。因此,本文在CFN資源的基礎(chǔ)上增加共指標(biāo)注,仿照ACE語料共指的標(biāo)注,通過共指鏈描述篇章中的共指關(guān)系。增加的標(biāo)注內(nèi)容如表3所示。
表3 標(biāo)注的共指語料Table 3 Annotated coreference corpus
其中,p27表示裸文本的內(nèi)容,p27_coref表示增加的共指標(biāo)注內(nèi)容。實(shí)體鏈之間用“;”分隔,一個(gè)“[ ]”表示一個(gè)實(shí)體,表述文本包含在共指標(biāo)簽內(nèi),“”表示表述的開始位置和結(jié)束位置,“start=”和“end=”表示表述在文檔中的位置,其作為表述的唯一標(biāo)識(shí)。
本文使用的語料涉及地理、歷史和科技等15個(gè)領(lǐng)域,共216篇。通過山西大學(xué)人機(jī)協(xié)同標(biāo)注平臺(tái)進(jìn)行句子集語義角色標(biāo)注,共指標(biāo)注由專業(yè)人員進(jìn)行手工標(biāo)注和檢驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)如表4所示。
表4 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)結(jié)果Table 4 Statistical results of experimental data
本文采用MUC評(píng)價(jià)標(biāo)準(zhǔn),有準(zhǔn)確率P、召回率R和F值3個(gè)重要指標(biāo),其中,準(zhǔn)確率反映消解結(jié)果的準(zhǔn)確性,召回率反映消解結(jié)果的完備性。兩者分別定義如下:
其中,TP表示表述對(duì)之間的關(guān)系為“共指”且預(yù)測為“共指”,FP表示表述對(duì)之間的關(guān)系為“不共指”而預(yù)測為“共指”,FN表示表述對(duì)之間的關(guān)系為“共指”而預(yù)測為“不共指”。使用F值評(píng)價(jià)系統(tǒng)的總性能,F值是召回率和準(zhǔn)確率的綜合體現(xiàn),定義如下:
其中,β為召回率和準(zhǔn)確率的相對(duì)權(quán)重,一般取1,因此,F值可以表示為:
利用本文方法對(duì)語料進(jìn)行實(shí)驗(yàn),結(jié)果如表5所示。從表5可以看出,相比單獨(dú)使用普通特征或單獨(dú)使用框架特征,同時(shí)使用這2類特征在不同分類器上的F值均有所提高,原因是框架特征是一種句子級(jí)的語義特征,其有效刻畫了表述的局部特征。分析分別使用SVM[22]、樸素貝葉斯(NB)[23]、最近鄰(KNN)和決策樹(DT)[24-25]的實(shí)驗(yàn)結(jié)果可以看出,SVM分類效果優(yōu)于其他分類器,表明在漢語框架標(biāo)注的資源中,SVM更適合解決共指消解問題。SVM算法在結(jié)合框架特征以后,其準(zhǔn)確率得到明顯的提高,但是召回率提升不明顯,原因是語料規(guī)模小,使得框架的所有語境并不能被完全覆蓋,某些具有關(guān)系的框架由于框架缺失而不能建立聯(lián)系。加入框架特征后F值雖有提升但仍然不佳,究其原因,一是在表述識(shí)別任務(wù)中無法檢驗(yàn)識(shí)別表述的有效性,二是同一目標(biāo)詞會(huì)激起語義的不同框架(框架排歧),而不同目標(biāo)詞也會(huì)激起相同框架(同一框架下的不同詞元),使得框架語義存在偏差。
表5 不同特征類型在4種分類器中的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of different feature types in four classifiers %
為了選出有效的特征組合,本文進(jìn)行大量的對(duì)照實(shí)驗(yàn)。以SVM為例,分別從特征組合中去掉每個(gè)框架特征,得到表6所示的實(shí)驗(yàn)結(jié)果。
表6 單個(gè)框架語義特征消融實(shí)驗(yàn)結(jié)果Table 6 Experimental results of single frame semantic feature ablation %
從表6可以看出,雖然每個(gè)特征對(duì)共指結(jié)果的影響不盡相同,但是3項(xiàng)指標(biāo)的結(jié)果非常接近,說明框架特征刻畫的是語義的不同方面,且相互之間具有促進(jìn)作用。其中,對(duì)準(zhǔn)確率影響較大的特征為框架元素距離(F3)、句法功能(F4)和短語類型(F5)。
分別去掉組合中的一些框架特征,得到表7所示的實(shí)驗(yàn)結(jié)果。
表7 多個(gè)框架語義特征消融實(shí)驗(yàn)結(jié)果Table 7 Experimental results of multiple frame semantic features ablation %
從表7可以看出,在2個(gè)特征組合中,框架關(guān)系路徑(F2)和框架元素之間的距離(F3)對(duì)準(zhǔn)確率的影響較大,可見框架之間的關(guān)系能夠提升實(shí)驗(yàn)效果。而對(duì)F值影響較大的是核心框架元素(F6)和目標(biāo)詞激起的框架元素相似度(F8),這2個(gè)特征是從語義方面對(duì)表述對(duì)進(jìn)行描述。
本文通過研究框架元素中表述之間的共指關(guān)系,確定框架元素以及句子之間的聯(lián)系,從而實(shí)現(xiàn)框架語義推理。對(duì)于表述識(shí)別任務(wù),使用漢語框架標(biāo)注資源結(jié)合基于規(guī)則的方法進(jìn)行表述抽取和過濾。通過結(jié)合框架特征與基礎(chǔ)特征實(shí)現(xiàn)表述消解。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的可行性。表述識(shí)別是解決共指消解問題的基礎(chǔ),下一步將在擴(kuò)大語料的同時(shí)結(jié)合框架語義類型,設(shè)計(jì)一種有效的表述識(shí)別方法以提升消解效果。