李國臣,張雅星,李 茹,3,4
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008;3. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;4. 山西省大數(shù)據(jù)挖掘與智能技術(shù)協(xié)同創(chuàng)新中心,山西 太原 030006)
篇章關(guān)系識別是篇章分析中重要的子任務(wù),它研究的是篇章中兩個(gè)篇章單元的關(guān)系。例如,本文給出一個(gè)簡單篇章: “令人欣喜的是,現(xiàn)在媒體對會議進(jìn)行了相當(dāng)廣泛的評論和報(bào)道?!蓖ㄟ^對該篇章中的兩個(gè)篇章單元進(jìn)行篇章關(guān)系識別,可以得到前置篇章單元“令人欣喜的是”與后置篇章單元“現(xiàn)在媒體對會議進(jìn)行了相當(dāng)廣泛的評論和報(bào)道”的篇章關(guān)系為解說關(guān)系。
目前,篇章關(guān)系的分析主要是面向英文,其中最主要的原因是英文的篇章分析理論體系比較完善。英文的篇章分析理論體系主要有修辭結(jié)構(gòu)理論(rhetorical structure theory,RST)和賓州篇章樹庫(penn discourse TreeBank,PDTB)。
修辭結(jié)構(gòu)理論[1]是由美國學(xué)者William C. Mann和Sandra A. Thompson 等首創(chuàng)于1988年,是一套關(guān)于自然語篇結(jié)構(gòu)描寫的理論體系?;赗ST的篇章關(guān)系識別主要有兩個(gè)子任務(wù): ①基本篇章單元的生成;②根據(jù)RST對篇章單元之間的篇章關(guān)系進(jìn)行分析。根據(jù)話語效果的位置,RST將篇章中的修辭關(guān)系分為兩個(gè)大類: 并列型的“多級核心(multinuclear)關(guān)系”和主從型的“核心(nuclear)/輔助(satellite)關(guān)系”。其中并列型關(guān)系分為對比、結(jié)合、列舉、多級核心重述和序列,主從型關(guān)系分為“表述”和“主題”關(guān)系。目前,已有許多學(xué)者在修辭結(jié)構(gòu)理論篇章樹庫(rhetorical structure theory-discourse TreeBank,RST-DT)[2]上展開了研究和實(shí)驗(yàn)。Marcu[3]提出了一種無監(jiān)督的方法來識別篇章關(guān)系,該方法從訓(xùn)練語料中抽取詞對信息作為基本特征訓(xùn)練貝葉斯分類模型,其中某些句間關(guān)系分類模型取得了93%的準(zhǔn)確率。
賓州篇章樹庫[4]主要標(biāo)注與篇章連接詞相關(guān)的篇章關(guān)系。賓州篇章樹庫根據(jù)兩個(gè)篇章單元之間是否存在連接詞,將篇章關(guān)系分為顯式篇章關(guān)系和隱式篇章關(guān)系。其中隱式篇章關(guān)系又分為替代詞匯化(AItLex)、基于實(shí)體一致性關(guān)系(EntRel)、沒有關(guān)系(NoRel)。賓州篇章樹庫還另外對所有的篇章關(guān)系定義了一個(gè)三層的語義結(jié)構(gòu): 第一層是種類,第二層是類型,第三層是子類型。其中,第一層包括四種最常見的語義: 擴(kuò)展(expansion)、時(shí)序偶然(contingency)、對比(comparison)和時(shí)序(temporal),第二層包括16類語義,第三層包括23類語義。在篇章關(guān)系識別方面,Pilter[5]等人在連接詞識別的基礎(chǔ)上使用樸素貝葉斯方法依據(jù)連接詞和句法信息特征對第一層顯式關(guān)系進(jìn)行識別,其準(zhǔn)確率達(dá)到了94.15%。Lan[6]等人在交互結(jié)構(gòu)優(yōu)化多任務(wù)學(xué)習(xí)框架下,抽取論元的動詞、極性等基本語言學(xué)特征訓(xùn)練基于現(xiàn)實(shí)語境的隱式論元對數(shù)據(jù)的主分類器和基于人造偽隱式論元對數(shù)據(jù)的輔分類器,提升隱式關(guān)系推理性能至42.30%。
在漢語方面,孫靜[7]等人在自建的漢語篇章結(jié)構(gòu)語料庫(Chinese discourse TreeBank,CDTB)上進(jìn)行了隱式篇章關(guān)系的識別。張牧宇[8-11]等人在哈工大中文篇章關(guān)系樹庫(HIT-CDTB)上進(jìn)行了篇章分析的相關(guān)研究。目前篇章關(guān)系分析方法主要采用短語結(jié)構(gòu)、依從句法、詞共現(xiàn)等一些篇章的淺層特征進(jìn)行分析,雖然這些特征對篇章關(guān)系分析具有很大的作用,但是篇章關(guān)系識別是一項(xiàng)有挑戰(zhàn)性的任務(wù),僅依靠這些淺層特征不能有效地完成篇章關(guān)系識別任務(wù)。篇章分析只有在分析了篇章上下文知識、理解了有聯(lián)系的篇章單元的語義之后,才能更好地分析出篇章單元之間的語義關(guān)系。因此,本文在蘇娜[12]基于漢語框架語義所構(gòu)建的理論體系上進(jìn)行篇章關(guān)系的識別。在該理論體系中,篇章由與該篇章內(nèi)容相關(guān)的框架集組合而成,具體描述為: 較小的框架集描述的場景按照篇章關(guān)系組合形成更大的場景,并進(jìn)一步再與相鄰的框架集所描述的場景組合,最終形成一棵具有層次的篇章框架語義結(jié)構(gòu)樹,描述一個(gè)完整的最大的語義場景。根據(jù)該理論體系,每個(gè)篇章單元的場景可以由框架集進(jìn)行描述,因此,每個(gè)篇章單元都可以由相應(yīng)的框架集代替。本文找出可以代替要分析的篇章單元的場景的框架集,用該框架集中的核心框架來代替該語義場景,因此將分析兩個(gè)篇章單元間的關(guān)系改為分析兩個(gè)框架的關(guān)系。而且在本文所用的方法中,用框架語義識別篇章關(guān)系,可以有效改善篇章關(guān)系識別性能。
本文在第1節(jié)簡單介紹了漢語框架語義網(wǎng);在第2節(jié)具體介紹了篇章關(guān)系識別的步驟;在第3節(jié)描述了實(shí)驗(yàn)設(shè)置并對實(shí)驗(yàn)結(jié)果進(jìn)行分析;在第4節(jié)總結(jié)全文并展望未來的研究工作。
漢語框架語義網(wǎng)(Chinese FrameNet,CFN)[13-14]是山西大學(xué)在Fillmore提出的框架語義學(xué)基礎(chǔ)上所構(gòu)建的,以加州大學(xué)伯克利分校的FrameNet為參照,以漢語真實(shí)語料為依據(jù),是一個(gè)供計(jì)算機(jī)使用的漢語詞匯語義知識庫。該知識庫包括框架庫、句子庫、詞元庫三部分。
框架庫以框架為單位,對詞語進(jìn)行分類描述??蚣苁且恍┡c激活性語境相一致的結(jié)構(gòu)化范疇系統(tǒng),它是存儲在人類認(rèn)知經(jīng)驗(yàn)中的圖示化情境,是理解詞語的背景和動因,場景內(nèi)容可以是一個(gè)動作、一個(gè)活動事件、一個(gè)實(shí)體或者一個(gè)抽象體的狀態(tài)??蚣艹袚?dān)詞包括動詞、形容詞、名詞、成語及一些約定俗語,它們是能夠激起漢語框架語義網(wǎng)某個(gè)框架所對應(yīng)的語義場景的詞語,是標(biāo)注工作的著眼點(diǎn),稱為詞元。一般情況下,一個(gè)框架包括多個(gè)詞元。在實(shí)際例句中出現(xiàn)的可以激起框架語義場景的詞元是目標(biāo)詞。
例1篇章單元“這位負(fù)責(zé)人表示這些年各地高度重視保障工資支付工作?!敝械哪繕?biāo)詞有“表示”“重視”?!氨硎尽迸c“重視”可以激起的框架分別為“陳述”“重視”,也即“表示”為框架“陳述”的詞元,“重視”為框架“重視”的詞元。以“表示”為例對該篇章單元進(jìn)行分析后可得:
本文基于漢語框架語義網(wǎng)識別篇章關(guān)系,通過使用篇章單元對的框架集合,對篇章單元對的框架對進(jìn)行抽取,得到框架對關(guān)系表,將待測篇章單元對的核心目標(biāo)詞對對應(yīng)的框架對與框架對關(guān)系表進(jìn)行對照,得到待測篇章單元對的篇章關(guān)系。篇章關(guān)系識別的具體流程如圖1所示。
圖1 篇章關(guān)系識別流程圖
本文對篇章關(guān)系的識別主要包括以下三個(gè)步驟:
(1) 將已標(biāo)注語料分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,對訓(xùn)練數(shù)據(jù)集進(jìn)行框架對的抽取,得到框架對與對應(yīng)關(guān)系的映射,計(jì)算每個(gè)框架對的最大概率關(guān)系,生成框架對關(guān)系表;
(2) 抽取特征訓(xùn)練核心目標(biāo)詞識別模型,對測試數(shù)據(jù)集的篇章單元對進(jìn)行核心目標(biāo)詞的識別,生成核心目標(biāo)詞對;
(3) 將測試數(shù)據(jù)集的核心目標(biāo)詞對對應(yīng)的框架對與第一步生成的框架對關(guān)系表進(jìn)行對照,得到測試數(shù)據(jù)集對應(yīng)的篇章關(guān)系。
2.1.1 框架對抽取
對所標(biāo)注語料進(jìn)行框架對抽取的具體步驟為:
(1) 抽取前置篇章單元的所有框架,獲得框架集合FrameSet1,F(xiàn)rameSet1包含m個(gè)框架{Frame11,F(xiàn)rame12,…,F(xiàn)rame1m};同理,抽取后置篇章單元的所有框架,獲得框架集合FrameSet2,F(xiàn)rameSet2包含n個(gè)框架{Frame21,F(xiàn)rame22,…,F(xiàn)rame2n};
(2) 對FrameSet1和FrameSet2中的所有框架進(jìn)行兩兩配對,形成所有可能的框架對{Frame1i,F(xiàn)rame2j}i =1…m,j = 1…n;
(3) 該篇章單元對形成的所有的框架對都對應(yīng)于該篇章單元對已經(jīng)標(biāo)注的篇章關(guān)系;
(4) 對所有的篇章單元對進(jìn)行上面三個(gè)步驟,得到所有訓(xùn)練集形成的框架對與對應(yīng)關(guān)系的映射。
下面以例2為例,對抽取框架對的步驟進(jìn)行詳細(xì)說明。
例2篇章單元對: 在新的歷史時(shí)期中國夢的本質(zhì)是國家富強(qiáng)、民族振興、人民幸福,我們的奮斗目標(biāo)是到2020年全面實(shí)現(xiàn)小康社會。
前置篇章單元: 在新的歷史時(shí)期中國夢的本質(zhì)是國家富強(qiáng)、民族振興、人民幸福
后置篇章單元: 我們的奮斗目標(biāo)是到2020年全面實(shí)現(xiàn)小康社會
篇章關(guān)系: 并列關(guān)系
在例2中,前置篇章單元和后置篇章單元包含的目標(biāo)詞和對應(yīng)框架如表1所示。
表1 篇章單元對的目標(biāo)詞與框架
從表1可以看出,前置篇章單元的框架集合FrameSet1為{等同},后置篇章單元的框架集合FrameSet2為{等同,實(shí)現(xiàn)},則對FrameSet1和
FrameSet2中的框架兩兩配對形成的框架對為{等同,等同}、{等同,實(shí)現(xiàn)}。根據(jù)該篇章單元對的篇章關(guān)系為并列關(guān)系,則這兩對框架對的對應(yīng)關(guān)系為并列關(guān)系。對所有的篇章單元對進(jìn)行如例2所示的步驟,得到所有訓(xùn)練集形成的框架對與對應(yīng)關(guān)系的映射。
2.1.2 框架對的最大概率關(guān)系
將得到的所有框架對以及每個(gè)框架對在不同篇章單元對中的相應(yīng)關(guān)系進(jìn)行不去重合并,得到框架對與篇章關(guān)系的關(guān)系映射表Fmap。
借助關(guān)系映射表Fmap,本文對每種框架對最可能對應(yīng)的關(guān)系進(jìn)行計(jì)算。將篇章關(guān)系的11種關(guān)系進(jìn)行編號i,i∈{1,2,…,11}。特定框架對{Frame1i,F(xiàn)rame2j}i =1...m,j = 1...n在關(guān)系映射表Fmap中對應(yīng)這11種關(guān)系出現(xiàn)的頻次分別為ri,i∈{1,2,…,11},在關(guān)系映射表中出現(xiàn)的總數(shù)為n。本文用ri除以n計(jì)算特定框架對{Frame1i,F(xiàn)rame2j}i =1...m,j = 1...n在每種關(guān)系上的分布概率,其分布概率最大的數(shù)值對應(yīng)的關(guān)系r為該框架對的篇章關(guān)系,計(jì)算i的公式如式(1)所示。
例2中的框架對{等同,等同},在關(guān)系映射表中對應(yīng)遞進(jìn)關(guān)系出現(xiàn)1次,對應(yīng)解說關(guān)系出現(xiàn)1次,對應(yīng)因果關(guān)系出現(xiàn)4次,對應(yīng)并列關(guān)系出現(xiàn)9次,其余關(guān)系類都沒有出現(xiàn),則出現(xiàn)總次數(shù)為15次。分別用1,1,4,9除以15,可以得到概率最大的出現(xiàn)次數(shù)為9次的并列關(guān)系,則框架對{等同,等同}對應(yīng)的篇章關(guān)系為并列關(guān)系。
本文對關(guān)系映射表Fmap中的每種框架都進(jìn)行上述計(jì)算,得到框架對關(guān)系表FRmap。獲得FRmap的算法如下:
算法1:獲取框架對關(guān)系表FRmap算法輸入:篇章單元對集合D={D1,D2,...,Dn},每個(gè)篇章單元對Di的前置篇章單元Di1和后置篇章單元Di2的篇章關(guān)系Ri輸出:框架對關(guān)系表FRmap1.FORDiIND2. FORDijINDi //j∈{1,2}3. 獲得Dij的框架集合FrameSetj={Framej1,F(xiàn)ramej2,....,F(xiàn)ramejm}4. ENDFOR5. FORFrame1xINFrameSet16. FORFrame2yINFrameSet27. Frame1x與Frame2y配對,并將{Frame1x,F(xiàn)rame2y,Ri}放入表Fmap8. ENDFOR9. ENDFOR //得到篇章單元對Di前置篇章單元的所有框架和后置篇章單元的所有框架的兩兩配對 10.ENDFOR 11.FORFmapiINFmap12. IF!Fmapi∈FRmap //只進(jìn)行框架對的對照13. 根據(jù)公式(1)計(jì)算框架對Fmapi的篇章關(guān)系,并將該框架對和對應(yīng)篇章關(guān)系放入表FRmap14. ENDIF15.ENDFORReturnFRmap
識別核心目標(biāo)詞的著眼點(diǎn)是篇章單元中的一個(gè)詞,識別該詞是否是核心目標(biāo)詞,因此本文將這項(xiàng)任務(wù)看做分類問題來解決,使用最大熵模型構(gòu)建分類模型。
在本實(shí)驗(yàn)中,用向量X表示篇章單元,用y表示候選目標(biāo)詞是否是核心目標(biāo)詞,p(y|X)為預(yù)測X為y的概率,熵定義為:
采用拉格朗日乘數(shù)法求解最大熵,計(jì)算公式為:
其中,fi表示每個(gè)特征,n表示特征總數(shù),λi為特征的權(quán)重。
抽取詞形、詞性、當(dāng)前詞前一個(gè)詞的詞性、當(dāng)前詞后一個(gè)詞的詞性、依從關(guān)系來分別表示訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù),用最大熵分類模型在訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練,在測試數(shù)據(jù)集上進(jìn)行識別,得到篇章單元的核心目標(biāo)詞。
將測試數(shù)據(jù)集中的篇章單元對進(jìn)行核心目標(biāo)詞識別,得到每個(gè)篇章單元的核心目標(biāo)詞,從而可以得到篇章單元對的核心目標(biāo)詞對,得到所對應(yīng)的框架對。
將篇章單元對的核心目標(biāo)詞對對應(yīng)的框架對與FRmap進(jìn)行對照,得到該框架對對應(yīng)的篇章關(guān)系。該篇章關(guān)系就是待測篇章單元對的關(guān)系。下面以例3為例,對篇章關(guān)系的識別步驟進(jìn)行說明。
例3篇章單元對: 僅2012年全國共發(fā)生0到12歲兒童傷亡交通事故11 117起,造成12 153名兒童傷亡。
前置篇章單元: 僅2012年全國共發(fā)生0到12歲兒童傷亡交通事故11 117起
后置篇章單元: 造成12 153名兒童傷亡
例3中,前置篇章單元的核心目標(biāo)詞是“發(fā)生”,所屬框架為事件;后置篇章單元的核心目標(biāo)詞是“造成”,所屬框架是因果。因此可以得到該待測篇章單元對的核心目標(biāo)詞對對應(yīng)的框架對為{事件,因果},與框架對關(guān)系表FRmap對照,可以得到{事件,因果}的篇章關(guān)系為承接關(guān)系,所以該篇章單元對的篇章關(guān)系為承接關(guān)系。
本文基于框架語義的篇章關(guān)系識別算法如下:
算法2:篇章關(guān)系識別算法輸入:待測篇章單元對D,框架對關(guān)系表FRmap輸出:待測篇章單元對的篇章關(guān)系1.FORDiIND //i∈{1,2}2. 將Di經(jīng)過核心目標(biāo)詞識別模型,識別出核心目標(biāo)詞Wi3.ENDFOR4.將核心目標(biāo)詞對{M1,M2}在FRmap中查找對應(yīng)的篇章關(guān)系RReturnR。
3.1.1 篇章關(guān)系
本文所采用的篇章關(guān)系[12]是基于黃伯榮和廖序東的《現(xiàn)代漢語》中關(guān)于復(fù)句以及句群之間關(guān)系分類體系而建立的。該篇章關(guān)系結(jié)構(gòu)分為三層。第一層根據(jù)篇章單元之間意義是否平等分為聯(lián)合關(guān)系和偏正關(guān)系。第二層中,聯(lián)合關(guān)系可分為并列關(guān)系、承接關(guān)系、遞進(jìn)關(guān)系、選擇關(guān)系、解說關(guān)系。偏正關(guān)系可分為條件關(guān)系、假設(shè)關(guān)系、因果關(guān)系、目的關(guān)系、轉(zhuǎn)折關(guān)系、屬于關(guān)系。該體系在傳統(tǒng)的偏正關(guān)系中加入“屬于關(guān)系”這一類別,屬于關(guān)系表示篇章的意圖以及意圖的所有者的所屬關(guān)系。第三層根據(jù)前后篇章單元的功能分為24類。在該篇章關(guān)系中,如果無法區(qū)分篇章單元之間的關(guān)系,就將其歸為承接關(guān)系中的連貫關(guān)系。前兩層篇章關(guān)系如表2所示。
表2 前兩層篇章關(guān)系
3.1.2 篇章語料庫
本文研究的是相鄰的兩個(gè)篇章單元之間的關(guān)系,并且本文的實(shí)驗(yàn)方法是基于漢語框架語義網(wǎng)的,因此所用語料必須具有下列特點(diǎn):
(1) 具有前置篇章單元和后置篇章單元;
(2) 前置篇章單元和后置篇章單元必須且至少包含一個(gè)可以激起框架的目標(biāo)詞。
本文對所獲得的語料都進(jìn)行了人工標(biāo)注,對每對篇章單元對都標(biāo)注了框架與篇章關(guān)系。這些語料主要來源于新聞?wù)Z料和語料庫在線。語料中各個(gè)篇章關(guān)系的分布概率如表3所示。
表3 篇章語料庫
在訓(xùn)練識別核心目標(biāo)詞模型時(shí),本文使用哈爾濱工業(yè)大學(xué)信息檢索研究中心的語言處理集成平臺LTP[15]對語料進(jìn)行預(yù)處理。實(shí)驗(yàn)語料的統(tǒng)計(jì)結(jié)果如表4所示。
表4 標(biāo)注語料
本文使用準(zhǔn)確率Acc(Accuracy)、精確率P(Precision)、召回率R(Recall)和F值F作為篇章關(guān)系識別性能的度量指標(biāo)。假設(shè)i∈{1,2,…,11},分別對應(yīng)11種篇章關(guān)系中的一種,Ri為實(shí)驗(yàn)中預(yù)測出關(guān)系為i的個(gè)數(shù),Ci為實(shí)驗(yàn)中預(yù)測正確的關(guān)系為i的個(gè)數(shù),Ai為測試集中關(guān)系為i的個(gè)數(shù),則:
(1) 計(jì)算11種關(guān)系總的性能時(shí),本文將準(zhǔn)確率、精確率、召回率和F值表示如下:
(6)
(8)
(2) 分別計(jì)算每種關(guān)系的性能時(shí),本文將準(zhǔn)確率、精確率、召回率和F值表示如下:
(9)
(12)
3.3.1 框架對關(guān)系表FRmap的生成
本文選用了2 774篇篇章單元對作為訓(xùn)練數(shù)據(jù)集生成框架對關(guān)系表FRmap,200篇篇章單元對作為測試數(shù)據(jù)集。
生成的框架對關(guān)系表FRmap共有2 216對不同框架對,其中11種篇章關(guān)系的分布概率如表5所示。
3.3.2 核心目標(biāo)詞的識別
本文對要測試的200篇篇章單元對即400個(gè)篇章單元經(jīng)過預(yù)處理,然后用生成的核心目標(biāo)詞識別模型進(jìn)行識別。識別結(jié)果如表6所示。
表5 FRmap
表6 核心目標(biāo)詞識別結(jié)果
經(jīng)過分析,識別核心目標(biāo)詞正確率不高的原因是: 訓(xùn)練語料無法包含所有的目標(biāo)詞,存在未登錄詞,使得核心目標(biāo)詞的識別存在困難。對于篇章單元對,對各位專家學(xué)者提出的思想觀點(diǎn)、意見建議,要認(rèn)真歸納、研究、吸收。識別后置篇章單元“要認(rèn)真歸納、研究、吸收”的核心目標(biāo)詞時(shí),經(jīng)過核心目標(biāo)詞識別模型的識別,目標(biāo)詞“歸納”“研究”“吸收”為核心目標(biāo)詞的概率相同,無法準(zhǔn)確判斷核心目標(biāo)詞。
3.3.3 篇章關(guān)系的識別
按照本文所說實(shí)驗(yàn)步驟進(jìn)行,所得到的最終結(jié)果如表7所示。
表7 篇章關(guān)系識別結(jié)果
通過表7可以看出,“選擇類”沒有識別出來,“目的類”和“假設(shè)類”的識別率較低,這是由于數(shù)據(jù)稀疏引起的,在所有語料中,“選擇類”僅有五例,“目的類”所占比例為6.36%,“假設(shè)類”所占比例為3.03%?!俺薪宇悺焙汀斑f進(jìn)類”的識別效率低,則是由于承接類和遞進(jìn)類的語義比較相近,比較難以區(qū)分這兩個(gè)類別?!皩儆陬悺弊R別效果最好,這是由于“識別類”的篇章單元多由“說”“稱”“強(qiáng)調(diào)”等可以激起“陳述”框架詞語進(jìn)行引導(dǎo),而且屬于類的實(shí)例也比較多,因此“屬于類”效果最好。
在測試集中,將每個(gè)篇章單元對中的框架都進(jìn)行兩兩配對,生成框架對的步驟與生成框架對關(guān)系表FRmap的步驟一樣。將生成的每一對框架對都和FRmap進(jìn)行對照,得到框架對對應(yīng)的篇章關(guān)系,將該篇章單元對的所有框架對對應(yīng)的篇章關(guān)系進(jìn)行統(tǒng)計(jì),篇章關(guān)系相同的進(jìn)行相加,最后出現(xiàn)最多的關(guān)系為該篇章單元對的關(guān)系。所得實(shí)驗(yàn)結(jié)果如表8所示。
表8 篇章單元時(shí)關(guān)系識別結(jié)果
表8中,“選擇類”和“假設(shè)類”都沒有識別出來,這是由于數(shù)據(jù)稀疏引起的,在整個(gè)語料中,“選擇類”僅僅有五例,“假設(shè)類”所占比例為3.03%。與表7對比可以發(fā)現(xiàn),表7中只有“選擇類”沒有識別出來,說明該方法更加依賴于語料規(guī)模的大小。圖2中對兩個(gè)實(shí)驗(yàn)的精確率進(jìn)行對比。
通過圖2可以看出,表8的篇章關(guān)系識別結(jié)果只有“遞進(jìn)類”和“目的類”比表7好,因此可以看出識別篇章單元的核心目標(biāo)詞可以提高識別篇章關(guān)系的準(zhǔn)確率。這是由于表8所示的實(shí)驗(yàn)采用的是簡單配對的方法,觸發(fā)核心框架的概率小,所形成的框架對無法較好地表達(dá)篇章單元的核心語義,因此識別篇章單元對的篇章關(guān)系效果差。
我們運(yùn)用嚴(yán)為絨等[16]的方法,計(jì)算待測篇章單元對中的框架對的互信息,選取互信息排序前四的框架對,將每一對框架對都和FRmap進(jìn)行對照,得到框架對對應(yīng)的篇章關(guān)系,將在這四個(gè)篇章關(guān)系中出現(xiàn)次數(shù)最多的關(guān)系判斷為待測篇章單元對的篇章關(guān)系。在本文語料庫上進(jìn)行測試,所得結(jié)果如表9 所示。
圖2 實(shí)驗(yàn)結(jié)果對比
識別方法Ours(核心框架)Ours(簡單配對)互信息Acc/%43.5532.2534.65
對比結(jié)果顯示,運(yùn)用核心框架進(jìn)行識別的性能最好。造成這一結(jié)果最主要的原因便是本文的語料規(guī)模較小,而互信息對語料的依賴性較大。目前,有關(guān)中文篇章關(guān)系的語料庫規(guī)模都較小,因此本文的算法對中文篇章關(guān)系分析有更大的適用性。
本文基于漢語框架語義網(wǎng)識別篇章關(guān)系,研究了如何在框架語義層面進(jìn)行篇章關(guān)系的識別?;跐h語框架語義所構(gòu)建的理論體系中篇章是由與該篇章內(nèi)容相關(guān)的框架集組合而成的,因此本文用核心框架代表篇章單元。在識別核心框架過程中,本文用的是最大熵分類模型。在該實(shí)驗(yàn)中由于所用語料有限,因此最大的問題便是數(shù)據(jù)稀疏問題,導(dǎo)致框架配對中無法包含所有的框架對,在未來的工作中可以在這方面進(jìn)行優(yōu)化,同時(shí)有效使用漢語框架語義網(wǎng)的相關(guān)資源,如框架的語義角色、框架關(guān)系等。
[1] Mann W C,Thompson S A. Rhetorical structure theory: Toward a functional theory of text organization[J]. Text,1988,8(3):243-281.
[2] Carlson L, Marcu D, Okurowski M E. Building a discourse-tagged corpus in the framework of rhetorical structure theory[C]//Proceedings of 2nd SIGdial Workshop on Discourse and Dialogue,2001:1-10.
[3] Marcu D, Echihabi A. An unsupervised approach to recognizing discourse relations[C]//Proceedings of the
40th Annual Meeting on Association for Computational Linguistics(ACL),2002:368-375.
[4] Prasad R,Dinesh N,Lee A,et al. The Penn discourse treebank 2.0[C]//Proceeding of the 6th International Conference on Language Resources and Evalution(LREC),Marrakech,Morocco,2008:2961-2968.
[5] Piter E, Nenkova A. Using syntax to disambiguate explicit discourse connectives in text[C]//Proceedings of the ACL-IJCNLP 2009 Conference Short Papers,2009: 13-16.
[6] Lan M,Xu Y,Niu Z Y. Leveraging synthetic discourse data via multi-task learning for implicit discourse relation recognition[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,2013:476-485.
[7] 孫靜,李艷翠,周國棟,等. 漢語隱式篇章關(guān)系識別[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1):111-117.
[8] 張牧宇,宋原,秦兵,等. 中文篇章級句間語義關(guān)系識別[J]. 中文信息學(xué)報(bào),2013,27(6):51-57.
[9] 張牧宇,秦兵,劉挺. 中文篇章級句間語義關(guān)系體系及標(biāo)注[J]. 中文信息學(xué)報(bào),2014,28(2):28-36.
[10] 姬建輝,張牧宇,秦兵,等. 中文篇章級句間關(guān)系自動分析[J]. 江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,39(2):124-131.
[11] 張牧宇,秦兵,劉挺. 中文篇章關(guān)系任務(wù)分析及語料標(biāo)注[J]. 智能計(jì)算機(jī)與應(yīng)用,2016,6(5):1-4.
[12] 蘇娜. 基于框架語義的漢語篇章連貫性研究[D]. 山西大學(xué)碩士學(xué)位論文,2016.
[13] 李茹. 漢語句子框架語義結(jié)構(gòu)分析技術(shù)研究[D]. 山西大學(xué)博士學(xué)位論文,2012.
[14] 郝曉燕,劉偉,李茹,等. 漢語框架語義知識庫及軟件描述體系[J]. 中文信息學(xué)報(bào), 2007,21(5): 96-100.
[15] 劉挺,車萬翔,李正華. 語言技術(shù)平臺[J]. 中文信息學(xué)報(bào),2012,25(6):53-62.
[16] 嚴(yán)為絨,朱珊珊,洪宇,等. 基于框架語義的隱式篇章關(guān)系推理[J]. 中文信息學(xué)報(bào),2015,29(3):88-99.