劉 凱,王紅玲
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
隨著大數(shù)據(jù)時(shí)代的來臨,用戶時(shí)刻都在接收海量的信息,這使得信息冗余的情況經(jīng)常發(fā)生,產(chǎn)生信息過載的問題。如何從大量的信息中找出有效信息是大數(shù)據(jù)時(shí)代面臨的一個(gè)挑戰(zhàn),自動文摘技術(shù)則是應(yīng)對該項(xiàng)挑戰(zhàn)的利器。自動文摘是指通過自動分析給定的一篇或多篇文檔,提煉、總結(jié)其中的要點(diǎn)信息,最終形成一篇長度較短、可讀性良好的摘要。簡言之,文摘就是通過對原文本進(jìn)行壓縮、提煉,為用戶提供簡明扼要的文字描述。
自動文摘是自然語言處理(natural language processing,NLP)的一個(gè)非常重要的領(lǐng)域,已經(jīng)被研究多年,也涌現(xiàn)出許多方法,如基于語言分析的方法、基于統(tǒng)計(jì)的方法、基于聚類的方法和基于圖的方法等,在部分自動文摘問題的研究上取得了明顯的進(jìn)展,并成功地將自動文摘技術(shù)應(yīng)用于搜索引擎、新聞閱讀等產(chǎn)品與服務(wù)中。但是自動文摘技術(shù)還遠(yuǎn)談不上完美,特別是在摘要的可讀性上還面臨相當(dāng)多的挑戰(zhàn)和難題。其中,目前主流的抽取式自動文摘[1]表現(xiàn)較好,但從語言學(xué)角度上看往往不盡如人意,造成這種結(jié)果的原因很多,例如,提取的文章特征不能夠很好地表達(dá)文章的含義,選取的句子不是文章的主要部分等,其中比較核心的問題是從文本中抽取出來的摘要句,它們之間的指代關(guān)系和篇章結(jié)構(gòu)沒有很好地被保留,這使得文摘不連貫,導(dǎo)致摘要的可讀性不好,如“但就整個(gè)世界經(jīng)濟(jì)而言,其他國家的強(qiáng)勁增長勢頭會彌補(bǔ)這一損失。報(bào)告估計(jì)1997年世界經(jīng)濟(jì)增長百分之三點(diǎn)二,預(yù)計(jì)1998年將增長百分之三?!眱删湓捴g并無直接的關(guān)系,而且由于抽取第一句還缺少成分(即“這一損失”的具體指向),導(dǎo)致這段摘要的質(zhì)量不高,這也是抽取式摘要目前所面臨的主要困難。
在語言學(xué)中,篇章(discourse)是由一系列連續(xù)的詞、短語、子句或段落構(gòu)成的語言整體單位[2]。文檔摘要的實(shí)質(zhì)也是篇章,提高摘要的質(zhì)量,可從篇章分析著手。從篇章的角度考慮,一段語篇是否具有較好的質(zhì)量主要從篇章的7個(gè)基本特征[3]來看,分別是銜接性(cohesion)、連貫性(coherence)、意圖性(intentionality)、可接受性(acceptability)、信息性(informativity)、 情景性(situationality)和跨篇章性(intertextualinty)。篇章的銜接性和連貫性,是篇章表層的形式表示,而連貫性[4]作為衡量篇章可讀性的一個(gè)指標(biāo),表示各個(gè)句子之間有一定的順序,句子的上下文之間有一定的承接,這對于多句文本在句法和邏輯上有著重要的意義。
一篇高質(zhì)量的自動摘要,不僅需要確保能夠最大限度地表達(dá)原文的含義,還要保證其在描述上前后一致、表達(dá)連貫,即具有良好的連貫性,以使讀者具有良好的閱讀感觀。因此,本文嘗試使用深層語言信息——篇章修辭結(jié)構(gòu),進(jìn)行抽取式自動文摘的研究,重點(diǎn)考慮修辭結(jié)構(gòu)在自動文摘選擇核心內(nèi)容時(shí)的影響,并基于篇章連貫性評價(jià)方法對抽取出的摘要進(jìn)行連貫性評價(jià)。
近年來,自然語言處理的研究對象逐漸從詞匯、句法等淺層語義,深入到句子、篇章的語義連貫性和結(jié)構(gòu)銜接性等深層語義方面。篇章修辭結(jié)構(gòu)就是指句子之間或篇章之間的主次關(guān)系。從理論上說,通過分析篇章修辭結(jié)構(gòu),不僅能夠抽取出篇章的主要信息作為摘要,還可以使文摘的語義更加連貫,從而提高自動摘要的質(zhì)量。
從以往文獻(xiàn)來看,基于篇章修辭結(jié)構(gòu)的自動文摘在英語上的應(yīng)用相對較多;而在漢語上,由于缺乏篇章修辭結(jié)構(gòu)的標(biāo)注語料,對該方面在自動文摘的應(yīng)用上尚未見到。Marcu[5]從語言學(xué)的角度分析了篇章修辭結(jié)構(gòu)信息中的核心作為摘要的原理,并基于RST標(biāo)注語料構(gòu)建了一個(gè)自動文摘系統(tǒng)。Yoshida等[6]將基于依存結(jié)構(gòu)樹的自動摘要看作一個(gè)樹背包問題,提出了一種新的篇章結(jié)構(gòu),把依存結(jié)構(gòu)轉(zhuǎn)化為修辭結(jié)構(gòu),并就轉(zhuǎn)換時(shí)出現(xiàn)的問題進(jìn)行了改進(jìn)。Louis等[7]分別基于RST和PDTB語料來說明篇章的結(jié)構(gòu)信息和語義信息對文摘內(nèi)容選擇的影響,并且與非篇章特征(位置、句子長度等)進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,內(nèi)容選擇的主體主要還是依靠結(jié)構(gòu)信息,語義信息可以作為結(jié)構(gòu)信息的一個(gè)補(bǔ)充。Goyal等[8]利用RST標(biāo)注語料,將結(jié)構(gòu)信息具體應(yīng)用在內(nèi)容的選擇上,他們提出了一種新的監(jiān)督學(xué)習(xí)的方法——SampleRank,通過在RST樹形態(tài)轉(zhuǎn)變的時(shí)候賦予不同的權(quán)值來計(jì)算每個(gè)篇章最小單元(EDU)的得分,最終選出得分最高的單元作為文摘,結(jié)果證明這樣的方法是有效的。Mithun等人[9]基于博客文本構(gòu)建了一個(gè)修辭結(jié)構(gòu)的語料庫,并利用篇章的結(jié)構(gòu)特征抽取句子,結(jié)果表明,抽出的句子具有一定的連貫性。這進(jìn)一步說明,篇章結(jié)構(gòu)的特點(diǎn)不僅能夠選擇有代表性的內(nèi)容,還能夠使選出的內(nèi)容具有一定的連貫性。
文摘連貫性研究是篇章連貫性的研究內(nèi)容之一,主要研究摘要中句子與句子之間的連貫程度。當(dāng)前篇章連貫性建模的主要工作分為三大類:局部篇章連貫性模型、全局篇章連貫性模型和混合篇章連貫性模型,這是依據(jù)語篇的跨度來進(jìn)行劃分的。其中局部篇章連貫性模型研究取得了相對較好的實(shí)驗(yàn)性能,代表性模型有:基于實(shí)體的模型(Barzilay和Lapata[10-11])、基于篇章關(guān)系的模型(Louis和Nenkova[12],Lin,et al[13])和基于神經(jīng)網(wǎng)絡(luò)的模型(Li[14],Nguyen[15],林睿[16],Xu等[17])。
當(dāng)前的連貫性評價(jià)方法中,實(shí)體網(wǎng)格方法是一種用來評價(jià)局部連貫性的常見模型,它最早由Barzilay等[11]提出,依據(jù)銜接性理論,從句子間的表層連接上對連貫性進(jìn)行建模,利用句子間相似名詞實(shí)體的概率轉(zhuǎn)移來為篇章的連貫性打分。
雖然Barzilay的方法是一種適用范圍較廣的方法,但對于一些特殊的語料來說,加上其他的特征則會對此方法有較好的提升。Strube等[18]給實(shí)體網(wǎng)格方法添加了相關(guān)實(shí)體的語義信息,使用一個(gè)標(biāo)注好的德文語料,在原先實(shí)體網(wǎng)格方法的基礎(chǔ)上添加了實(shí)體的語義相關(guān)性(GermaNet API),具體方法為當(dāng)一個(gè)新的實(shí)體出現(xiàn)時(shí),首先計(jì)算它和實(shí)體集合中實(shí)體的相關(guān)性,如大于某個(gè)值(t),則將先前實(shí)體的信息(句法信息)分配給它。
基于神經(jīng)網(wǎng)絡(luò)的模型中,Li等[14]在基于神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上分別使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network)和遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network)來對句子進(jìn)行向量化處理,直接從語義的角度來考慮篇章的連貫性。兩者雖然都是樹模型,可Recurrent模型是將句子中每個(gè)單詞的信息向后進(jìn)行累積,并以最后一個(gè)單詞的向量來表示整個(gè)句子的含義。Nguyen等[15]繼承了實(shí)體網(wǎng)格的特點(diǎn),將神經(jīng)網(wǎng)絡(luò)方法和實(shí)體網(wǎng)格法結(jié)合,該文總結(jié)了實(shí)體網(wǎng)格方法的缺點(diǎn)——當(dāng)窗口相當(dāng)大的時(shí)候,可能會發(fā)生維數(shù)災(zāi)難,即計(jì)算得到的連貫性的值是一個(gè)很小的值。而該文給出的方法是用卷積神經(jīng)網(wǎng)絡(luò)將事先處理好的實(shí)體網(wǎng)格進(jìn)行卷積操作,并把一個(gè)篇章的實(shí)體網(wǎng)格的內(nèi)容映射為特征向量,再使用Softmax函數(shù)來對篇章的連貫性求解值,最終,通過比較ROUGE值發(fā)現(xiàn),他的結(jié)果比Li等[14]的模型效果好,提高約8個(gè)百分點(diǎn)。在中文方面,Xu等[17]的recursive模型,在ROUGE值方面略有提升。
蘇州大學(xué)自然處理實(shí)驗(yàn)室在針對連接依存樹和篇章結(jié)構(gòu)分析研究的基礎(chǔ)上,吸取了修辭結(jié)構(gòu)理論的樹形結(jié)構(gòu)和篇章主次關(guān)系,參考了賓州篇章樹庫對連接詞的處理方式,同時(shí)結(jié)合漢語復(fù)句和句群理論,提出了基于連接依存樹的篇章結(jié)構(gòu)理論。本文使用的漢語篇章結(jié)構(gòu)樹庫(Chinese discourse tree bank ,CDTB)[19]就是基于該理論所標(biāo)注的一個(gè)篇章修辭結(jié)構(gòu)語料庫,它結(jié)合了RST(Rhetorical Structure Theory)[20]和PDTB(Penn Discourse Tree Bank)[21]的特點(diǎn),不僅具有篇章的結(jié)構(gòu)信息,同時(shí)還具有語義信息。孫靜等[22]利用最大熵等方法標(biāo)注了CDTB中因果類、并列類、解說類和轉(zhuǎn)折類的隱式關(guān)系,并與PDTB進(jìn)行了對比,表明CDTB具有篇章語義信息。李艷翠等[23]分析了連接詞在篇章中的作用:不同的連接詞表示不同的篇章層次,從而表現(xiàn)出不同篇章單元的主次關(guān)系,以及連接詞的隱顯關(guān)系代表了篇章單元不同的語義信息。
該語料分別標(biāo)注篇章的宏觀修辭結(jié)構(gòu)和微觀修辭結(jié)構(gòu),其中宏觀表示段與段之間的關(guān)系,微觀表示段內(nèi)的篇章單元的修辭關(guān)系,二者都是通過連接詞將相應(yīng)的篇章單元連接起來。
2.2.1 抽取段落摘要
圖1 段內(nèi)關(guān)系篇章結(jié)構(gòu)示例圖
CDTB采用樹的形式表示漢語的篇章結(jié)構(gòu),包含了兩種樹的結(jié)構(gòu),其一是段內(nèi)的篇章修辭結(jié)構(gòu)樹,即為每一個(gè)段落構(gòu)建一棵篇章修辭結(jié)構(gòu)樹,其結(jié)構(gòu)如圖1中的例子所示,其中葉子節(jié)點(diǎn)表示一個(gè)具體的篇章基本結(jié)構(gòu)單元,即EDU(element discourse unit),內(nèi)部節(jié)點(diǎn)表示的是連接詞,這里的連接詞是指篇章連接詞,它連接各個(gè)篇章單位,而根據(jù)連接詞是否在篇章單位中出現(xiàn)又分為隱式和顯式,總共標(biāo)注有657篇;其二是段間的篇章修辭結(jié)構(gòu)樹,即段與段之間的篇章關(guān)系。
具體例子如圖2所示,其中內(nèi)部節(jié)點(diǎn)表示段間的關(guān)系,包括并列、轉(zhuǎn)折、因果、解說四個(gè)大類,這幾個(gè)大類又分為17個(gè)小類;不同的關(guān)系類型有不同的側(cè)重點(diǎn),根據(jù)它們的重要性可以確定關(guān)系主次,如轉(zhuǎn)折關(guān)系中往往后一部分較為重要,因此樹中的箭頭將指向后一部分,目前總共標(biāo)注了97篇。另外,為方便評價(jià),我們對這97篇文檔標(biāo)注了人工摘要,包括文檔中每段的段落摘要和整篇文檔的摘要。
圖1表示段內(nèi)的各個(gè)子句的樹形結(jié)構(gòu),圖2表示段落間的樹形結(jié)構(gòu),而a~e為子句,具體表示為:
圖2 段與段關(guān)系篇章結(jié)構(gòu)示例圖
a: 如今,甘肅省的外資企業(yè)已不再為投資風(fēng)險(xiǎn)擔(dān)憂。
b: 為確保對外開放的順利進(jìn)行。
c: “八五”期間(一九九一至一九九五年),甘肅省涉外保險(xiǎn)業(yè)發(fā)展迅速。
d: 累計(jì)已經(jīng)提供六百一十一億元的風(fēng)險(xiǎn)保障。
e: 承保范圍包括財(cái)產(chǎn)、責(zé)任、信用、人身四大類主、副六十多個(gè)險(xiǎn)種。
通過對微觀篇章修辭結(jié)構(gòu)主次的標(biāo)注,可以清晰地從圖中觀察到篇章的主要部分。為了更好地對各個(gè)子句進(jìn)行重要性的計(jì)算,本文引入子句中詞語的統(tǒng)計(jì)信息和層次信息,選擇候選的摘要句。如式(1)所示。
其中,Si表示該子句是否為主要部分,即如圖1中①②③所指示的路徑,若是主要部分則為1,否則為0;M表示該子句詞語的個(gè)數(shù);TFIDF表示計(jì)算tf-idf值的方法;xi,j表示子句i句的第j個(gè)詞;Depth表示子句i所在的層次。
具體的算法如下:
算法1:Input:一棵建好的段落篇章結(jié)構(gòu)樹Output:抽取出的段落摘要獲取樹中的一個(gè)節(jié)點(diǎn)If 這個(gè)節(jié)點(diǎn)是一個(gè)葉子節(jié)點(diǎn) then 依據(jù)標(biāo)注信息中的center信息和公式(1)對各個(gè)葉子節(jié)點(diǎn)打分,選擇候選摘要,center中'3'表示各個(gè)篇章單位的地位相同,“1”表示前一個(gè)篇章單位更重要,“2”表示后一個(gè)篇章單位更重要Else if該節(jié)點(diǎn)有一個(gè)孩子節(jié)點(diǎn)then 判斷這個(gè)孩子節(jié)點(diǎn)的內(nèi)容是否居于主要地位,如果是則繼續(xù)迭代;否則依據(jù)公式(1)計(jì)算得分Else該節(jié)點(diǎn)有兩個(gè)或以上的孩子節(jié)點(diǎn) then 依據(jù)center的值選取居于主要地位的孩子節(jié)點(diǎn),繼續(xù)進(jìn)行迭代。End
2.2.2 抽取全局摘要
抽取全局摘要的方法和抽段內(nèi)摘要的方法類似,依據(jù)標(biāo)注的宏觀的篇章修辭結(jié)構(gòu)信息,得出在全局中重要的段落,并將主要段落的候選摘要作為全局的候選摘要。如圖2所表明的順序①、②所示,第一段位置是全文摘要產(chǎn)生的地方,也就是將第一段的候選摘要作為全文的候選摘要,最后利用候選摘要句得分和全局摘要長度的限制生成全局的摘要,本文抽取的全局摘要長度根據(jù)人工摘要的長度確定,平均長度為80個(gè)字。
由于CDTB語料庫沒有對單個(gè)子句作為一個(gè)段落進(jìn)行處理,這樣導(dǎo)致了標(biāo)注的語料中漏掉了一些段落,因此這一步作為抽取段落摘要的補(bǔ)充,將源語料中漏掉的部分作為單獨(dú)的一個(gè)段落摘要加入抽取完的摘要集合中,使得段落摘要的順序和原始語料的段落對應(yīng)。
由于循環(huán)神經(jīng)網(wǎng)絡(luò)能夠有效地依據(jù)時(shí)間關(guān)系來對模型進(jìn)行整合,通過輸入的訓(xùn)練數(shù)據(jù)到循環(huán)的各個(gè)隱藏層的映射,能夠?qū)W習(xí)到輸入序列隨著時(shí)間變化而變化的語義,而LSTM更適合處理相當(dāng)長的序列,以及預(yù)測時(shí)間延遲非常長的重要事件。因此,本文首先采用LSTM來構(gòu)建句子的分布式向量表示形式。
參考Xu等[17]引入實(shí)體連接對篇章連貫性的重要作用,本文也在模型中加入實(shí)體的向量,區(qū)別在于本文實(shí)體向量并不進(jìn)行句子向量間加減的操作,而是直接加在句子向量的后面,以希望保留更多原有的句子中的信息。具體模型圖如圖3所示。
圖3 篇章連貫性模型圖
由圖3可知,該模型的組成分為三個(gè)部分,分別是分布式的句子向量、合成的句子和實(shí)體的向量以及基于團(tuán)塊的篇章連貫性表示。
為了判斷這個(gè)輸入的內(nèi)容是否連貫,本文在訓(xùn)練時(shí)把計(jì)算篇章的連貫性看作一個(gè)分類任務(wù),即對文本的內(nèi)容進(jìn)行排序,其中原始文本的內(nèi)容為正例,經(jīng)打亂后的文本為負(fù)例,并以此進(jìn)行輸入。
首先,它的輸入是一個(gè)經(jīng)過分詞的句子塊(也稱作團(tuán)),表示這個(gè)篇章中的句子,可以是正例或負(fù)例。然后,將它用預(yù)先訓(xùn)練好的向量表示輸入到一個(gè)LSTM層中,得到各個(gè)句子的向量。由于最后的全連接層輸入要求是有相同長度的向量,而每個(gè)句子中的實(shí)體個(gè)數(shù)并不相同,因此必須進(jìn)行一些額外的處理,使得實(shí)體向量的長度相同,本文是將把句子中的所有實(shí)體向量之和作為實(shí)體驅(qū)動向量。最后,將一個(gè)團(tuán)塊的實(shí)體驅(qū)動向量輸入到最終的分類器中進(jìn)行計(jì)算,判斷該團(tuán)塊中的句子是否連貫。
2.3.1 實(shí)體驅(qū)動的句子向量表示
詞向量是一種語言模型訓(xùn)練得到的產(chǎn)品,它表示詞語在當(dāng)前語言模型中所在空間的位置,即它形象地表示了詞語之間的相互關(guān)系,而且它還會從語言模型的語義空間中遷移出一些未知的知識,這對進(jìn)一步表示句子有相當(dāng)大的幫助。因此,本文首先使用glove[注]http://nlp.stanford.edu/projects/glove工具訓(xùn)練出語料中的詞向量,每個(gè)詞向量的大小為w。輸入的句子可以看成一個(gè)詞向量的組合,若用xi表示句子S中第i個(gè)詞向量,則長度為N的句子可以被表示為SN=[x1,x2,…,xN],其大小為N×w,最終通過LSTM訓(xùn)練得到k維的句子向量SN,其大小為1×k。
借助于前文對實(shí)體網(wǎng)格的分析中,我們發(fā)現(xiàn)實(shí)體的轉(zhuǎn)移概率是判斷一個(gè)篇章是否連貫的一項(xiàng)重要參數(shù),它反映了人們在閱讀時(shí)習(xí)慣于記憶的相同或語義相近的名詞,以增加對文章內(nèi)容的理解。因此,我們需要將實(shí)體向量與句子向量相融合。
一般而言,每個(gè)句子中的實(shí)體數(shù)量不同,因此就需要對實(shí)體向量進(jìn)行歸一化處理,本文采用將實(shí)體向量相加的方法,得到最終實(shí)體向量的表示,并將它直接拼接在句子向量之后。
2.3.2 句子間連貫性判斷的團(tuán)塊表示
由于不同長度的篇章難以一起訓(xùn)練,所以給篇章規(guī)定了一個(gè)固定長度(滑動窗口)以方便計(jì)算,在此設(shè)滑動的窗口的長度為C。將人工摘要按逗號隔開,經(jīng)過統(tǒng)計(jì)分析,得到的平均句子長度是2.6,因此選取C的值為3進(jìn)行訓(xùn)練。
一個(gè)團(tuán)塊是由長度為C的連續(xù)句子組成的篇章,為了計(jì)算它的連貫性,將團(tuán)塊向量化,并輸入到模型中。模型的公式如式(2)、式(3)所示。
2.3.3 模型訓(xùn)練和優(yōu)化
在訓(xùn)練時(shí),我們將連貫性的計(jì)算看成分類的問題,把打亂順序的文本看成是負(fù)例,原始文本看成為正例。在利用訓(xùn)練集和驗(yàn)證集數(shù)據(jù)進(jìn)行模型學(xué)習(xí)之后,用該模型對測試集打分得到文本的連貫性,最后再利用最優(yōu)參數(shù)對摘要連貫性進(jìn)行打分。
由于是分類任務(wù),因此該模型采用廣泛應(yīng)用的交叉熵函數(shù)作為目標(biāo)函數(shù),如式(4)所示。
其中,Θ是模型需要訓(xùn)練的所有參數(shù),M表示訓(xùn)練集的大小,Q是正則化項(xiàng),防止模型的過擬合。
反向傳播的梯度更新操作如式(5)所示。
2.4.1 實(shí)驗(yàn)設(shè)置
(1) 基于篇章修辭結(jié)構(gòu)的摘要抽取
抽取摘要所用的語料來自于CDTB,共97篇,平均每篇大約有600字。人工摘要平均約80字,因此抽取出大約80字的機(jī)器摘要。具體的抽取方法參見2.2節(jié)的描述。
(2) 連貫性評價(jià)
連貫性評價(jià)實(shí)驗(yàn)的語料來自于CTB9.0,從chtb_0001到chtb_1 151,以及chtb_2 000值chtb_3 145,共2 296篇語料中選出2 000篇作為此次的實(shí)驗(yàn)語料,這些當(dāng)中包含了新聞、雜志等不同類型的文章。然后利用這些文章隨機(jī)生成20個(gè)打亂順序的文本,作為負(fù)類。
將語料分為訓(xùn)練集、驗(yàn)證集和測試集,所占比例分別為60%、20%、20%。訓(xùn)練時(shí),為了防止過擬合問題,設(shè)置dropout rate為0.4,滑動窗口的大小為3。為了記錄每次迭代后最好的值,在每訓(xùn)練100輪數(shù)據(jù)時(shí)將最好的模型保留下來,并且為了防止訓(xùn)練過程長時(shí)間無更新權(quán)值操作,設(shè)計(jì)當(dāng)超過1 000輪未更新時(shí),說明參數(shù)已收斂,很難繼續(xù)學(xué)習(xí),因此將強(qiáng)制終止學(xué)習(xí)過程。設(shè)置Adagrad的初始學(xué)習(xí)速率為0.001,并將詞向量的維度設(shè)置為100。
為說明基于LSTM方法的有效性,本文采用基于實(shí)體網(wǎng)格的方法來與該方法的結(jié)果進(jìn)行對比,并對結(jié)果進(jìn)行分析。實(shí)驗(yàn)結(jié)果的評價(jià)指標(biāo)為文本正確分類的準(zhǔn)確率。
2.4.2 結(jié)果分析
(1) 摘要抽取評價(jià)結(jié)果
利用ROUGE方法,最后得到了基于篇章修辭結(jié)構(gòu)的段落摘要和全局摘要的得分,其中表1為段落摘要的得分,表2為全局摘要的得分,表3為不同摘要抽取方法的對比實(shí)驗(yàn)結(jié)果。
表1 段落摘要評價(jià)結(jié)果
表2 全局摘要評價(jià)結(jié)果
表3 不同抽取方法對比實(shí)驗(yàn)結(jié)果
從表1中可看出,基于篇章修辭結(jié)構(gòu)抽取出來的段落摘要的召回率R比較高,說明這種方法在抽取段落摘要時(shí)比較有效,同時(shí)由于段落摘要是相對較短的文本,所以它的準(zhǔn)確率和F值較低;而全局摘要包含了所有重要段落的內(nèi)容,因此準(zhǔn)確率比較高(表2)。
為了對比不同抽取方法,我們分別使用基于圖的方法中的PageRank、LexRank,基于統(tǒng)計(jì)方法的TF-IDF,基于聚類方法中的LSA等方法來與基于修辭結(jié)構(gòu)的自動文摘進(jìn)行對比,表3顯示了這些方法的結(jié)果。
對比結(jié)果顯示,基于篇章修辭結(jié)構(gòu)的全局摘要抽取方法在Rouge-2和Rouge-L的F值上結(jié)果最好,而這兩個(gè)值分別代表的是二元和最大長度子串的匹配程度。這說明了利用篇章結(jié)構(gòu)來抽取文摘,能夠較好地保持文摘中長句子的準(zhǔn)確程度,更能準(zhǔn)確表達(dá)文章的含義。
(2) 連貫性評價(jià)結(jié)果
由于目前缺乏通用的連貫性評價(jià)方法,本文采用基于實(shí)體網(wǎng)格的方法來與基于LSTM方法的結(jié)果進(jìn)行對比,并對結(jié)果進(jìn)行分析。實(shí)驗(yàn)結(jié)果的評價(jià)指標(biāo)為將文本正確分類的準(zhǔn)確率,得到結(jié)果如表4 所示。
表4 文本排序的評價(jià)結(jié)果
可以看出基于實(shí)體的模型由于提取的特征較為簡單,在分類時(shí)錯(cuò)分的概率比較大,而基于神經(jīng)網(wǎng)絡(luò)的模型,由于大量數(shù)據(jù)的輸入和提取到的更豐富的特征,能夠更加準(zhǔn)確地分類出連貫的文本,具有更好的可靠性。
具體的示例如下:
① TF-IDF摘要:浙江省今后將進(jìn)一步提高對外開放水平,把全面推進(jìn)對外開放向高層次、寬領(lǐng)域、縱深化發(fā)展作為重點(diǎn)。實(shí)施出口商品“龍頭”計(jì)劃,引導(dǎo)外資投資方向,探索新的投資方式。
② 篇章修辭摘要:浙江省今后將進(jìn)一步提高對外開放水平,努力擴(kuò)大對外貿(mào)易、利用外資和國際經(jīng)濟(jì)技術(shù)合作,并逐步完善對外經(jīng)貿(mào)營銷網(wǎng)絡(luò)。
③ 人工摘要:浙江省今后將進(jìn)一步提高對外開放水平,努力擴(kuò)大對外貿(mào)易、利用外資和國際經(jīng)濟(jì)技術(shù)合作,并逐步完善對外經(jīng)貿(mào)營銷網(wǎng)絡(luò)。把全面推進(jìn)對外開放向高層次、寬領(lǐng)域、縱深化發(fā)展作為重點(diǎn)。實(shí)施出口商品“龍頭”計(jì)劃,引導(dǎo)外資投資方向,探索新的投資方式通過對以上的示例可以看出人工摘要具有更好的連貫性和信息性,而篇章修辭結(jié)構(gòu)和TF-IDF方法抽取的摘要概括了文章的信息,但仔細(xì)觀察后可以看出篇章修辭方法抽取的摘要具有更好的連貫性。
在此基礎(chǔ)上,本文利用LSTM模型評價(jià)了抽取摘要的連貫性,得到結(jié)果如表5所示。從表5可看出,相比于常見的摘要抽取方法,基于篇章修辭結(jié)構(gòu)抽取出的摘要在連貫性評價(jià)方面具有較高的取值,這是由于篇章的主次結(jié)構(gòu)是自然表述的過程,這使得按照篇章修辭結(jié)構(gòu)抽取出的句子往往帶有一定的連貫性,提升了抽取摘要的質(zhì)量。同樣地,我們也可以看出,人工摘要具有最高的連貫性得分,這一方面驗(yàn)證了人工摘要具有很強(qiáng)的連貫性,另一方面也說明基于篇章修辭結(jié)構(gòu)的自動文摘在連貫性方面還有提升的空間。
表5 摘要連貫性的評價(jià)結(jié)果
本文使用抽取式的方法,利用漢語篇章結(jié)構(gòu)樹庫中標(biāo)注的篇章修辭結(jié)構(gòu)信息,抽取出文檔的重要部分作為文檔摘要,并使用ROUGE和連貫性評價(jià)的方法分別對摘要的信息覆蓋度和連貫性進(jìn)行評分。實(shí)驗(yàn)結(jié)果表明,基于篇章修辭結(jié)構(gòu)的文摘方法在這兩個(gè)評分標(biāo)準(zhǔn)上都具有較好的性能。
一篇文摘質(zhì)量的高低不僅僅在于內(nèi)容的選擇,它的表達(dá)形式(連貫性和銜接性)也相當(dāng)重要。對于依據(jù)篇章修辭結(jié)構(gòu)信息抽取得到的文摘來說,盡管由于篇章結(jié)構(gòu)關(guān)系本身具有一定的連貫性,但相比與人工摘要還有很大差距,因此如何使用深層語義信息(如篇章話題結(jié)構(gòu))優(yōu)化文摘連貫性將成為下一步的研究目標(biāo)。同時(shí),未來將使用最新研發(fā)的discourse parser對大規(guī)模自動文摘語料標(biāo)注篇章修辭結(jié)構(gòu),然后再應(yīng)用本方法抽取摘要。