張龍凱,王厚峰
(1. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
隨著電子文本數(shù)量的劇增,快速獲取文本信息的需求越來(lái)越強(qiáng)烈。作為濃縮文本信息的技術(shù),自動(dòng)摘要可以扮演重要的角色。自動(dòng)摘要的宗旨是為用戶提供簡(jiǎn)短的文本表示。在保留盡可能多的原文信息的同時(shí),形成盡可能短的摘要。對(duì)于一個(gè)理想的抽取式摘要而言,具有三個(gè)基本特征: 源自文本、保留重要信息、長(zhǎng)度短[1]。
按照摘要源自的文本個(gè)數(shù),可分為單文本摘要和多文本摘要。按照摘要的方式,又分成生成式摘要和抽取式摘要。本文研究單文本、抽取式摘要問(wèn)題。在抽取式摘要中,從文本中選取代表性句子是難點(diǎn)所在。IBM的Luhn在1958年提出一種基于高頻詞的方法,將高頻詞列出并給包含這些高頻詞的句子打分,得分高的句子被認(rèn)為是摘要句[2]。Baxendale則引入句子位置作為判斷句子重要性的一種特征,該特征被后來(lái)大部分機(jī)器學(xué)習(xí)算法所借鑒[3]。Edmundson整合了Luhn和Baxendale的方法,并在科技文獻(xiàn)中取得了較好的應(yīng)用效果[4]。Kupiee, et al.在1995年提出一種基于樸素貝葉斯算法的方法,在Edmundson的基礎(chǔ)上增加了句長(zhǎng)等特征[5]。同樣使用樸素貝葉斯算法的還有1999年Aone, et al.,其中考慮了TF-IDF等多個(gè)特征[6]。同時(shí)期的還有1999年Lin的方法。不同于樸素貝葉斯算法的獨(dú)立性假設(shè),Lin采用決策樹(shù)算法并取得了較好地效果[7]。2001年Conroy和O’leary提出一種基于隱馬爾可夫模型的方法,由于隱馬爾可夫模型有較強(qiáng)的獨(dú)立性假設(shè),該方法仍存在不足[8]。Osborne于2002年提出一種基于最大熵模型的方法,結(jié)果表明,通過(guò)增加先驗(yàn)概率,該方法優(yōu)于基于樸素貝葉斯模型的方法。
同時(shí),在基于機(jī)器學(xué)習(xí)的文本摘要中,對(duì)代表性句子的選擇大多將句子作為分類問(wèn)題。本文考慮了句子之間的依賴關(guān)系,將摘要句的提取過(guò)程看作一個(gè)序列標(biāo)注問(wèn)題?;舅枷胧牵瑢⑽谋究醋魇蔷渥拥男蛄?,句子是序列中的一個(gè)點(diǎn)。如果某個(gè)句子出現(xiàn)在摘要中,則標(biāo)為“在”,否則,標(biāo)為“不在”。利用“帶標(biāo)”的文本集合,可以訓(xùn)練一個(gè)序列標(biāo)注模型。由于條件隨機(jī)場(chǎng)(CRF)屬于全局優(yōu)化的序列標(biāo)注模型,本文采用CRF模型標(biāo)識(shí)句子,這一想法與Shen的思想不謀而合[9]。他們也使用了基于條件隨機(jī)場(chǎng)模型的序列標(biāo)注方法選擇句子,并在英文測(cè)試語(yǔ)料上有著較好地效果。但是中文本身與英文有著較大的差異,例如,中文句子不存在大小寫(xiě),并且中文句子與英文句子的線索詞語(yǔ)不同。此外,本文研究主要針對(duì)新聞文本,在新聞報(bào)道中,時(shí)間、數(shù)值、地名、人名等實(shí)體信息都是十分重要的信息,標(biāo)題也含有豐富的內(nèi)涵,需要特別關(guān)注。也就是說(shuō),針對(duì)中文文本,需要進(jìn)一步考慮中文的特點(diǎn)選擇特征,而特征的選擇是運(yùn)用CRF模型的一個(gè)重要因素。另外,據(jù)我們所知,目前并沒(méi)有使用CRF模型進(jìn)行中文摘要的相關(guān)工作。
同時(shí),根據(jù)我們對(duì)于中文新聞文本的觀察,摘要通常遠(yuǎn)遠(yuǎn)短于原始文本,因此,原文本中的大多數(shù)句子都將被排除在摘要之外。這樣,訓(xùn)練的模型會(huì)傾向于將句子標(biāo)為非摘要句,從而使得算法效果較差。本文進(jìn)一步引入了修正因子來(lái)平滑這一現(xiàn)象。
接下來(lái)的幾部分詳細(xì)介紹了本文所采用的思路。第二部分主要介紹特征的選擇。第三部分對(duì)本文所采用的模型做詳細(xì)介紹。第四部分介紹了實(shí)驗(yàn),并且同已有方法做了對(duì)比,測(cè)試表明,本文所述方法有著較好地效果。
一個(gè)句子是否被抽取作為摘要句,受多個(gè)因素的影響。總體上可以分成兩類,其一是句子自身,其二是上下文信息。這里,我們稱為單句特征和關(guān)聯(lián)特征。
單句特征是指句子自身體現(xiàn)出來(lái)的特征,不涉及上下文因素。本文使用的單句特征包括以下幾種。
句子長(zhǎng)度。過(guò)長(zhǎng)或過(guò)短的句子通常較少地出現(xiàn)在文本摘要中,本文在計(jì)算句子長(zhǎng)度時(shí)首先過(guò)濾掉停用詞,然后以詞為單位計(jì)算長(zhǎng)度。通過(guò)對(duì)語(yǔ)料觀測(cè)后,本文最終選取最長(zhǎng)與最短長(zhǎng)度的閾值分別為36與5。
特定線索詞語(yǔ)。一些特殊詞所在的句子被選入摘要的概率要大于其他句子,如 “表示”。我們稱這類詞為摘要句線索詞。統(tǒng)計(jì)表明,有26%的句子含有線索詞。本文利用這些詞作為判斷摘要句的標(biāo)記。
位置特征。位置是一個(gè)重要特征,特別是在新聞?wù)Z料中。一般而言,文章的首段和尾段以及段落的首句和尾句相比而言更為重要。文獻(xiàn)[9]著重考慮了首句和尾句信息。本文采用了是否在首段、是否在段首、是否在段尾、是否在前二段的位置特征。
高頻詞。高頻詞是指在文章中出現(xiàn)頻率較高的詞,一般而言,詞頻越高,詞的重要程度越大,所在的句子也可能更有代表性,但虛詞例外。本文在利用停用詞表進(jìn)行過(guò)濾處理之后,再度量高頻詞。
數(shù)字、時(shí)間及專有名詞。命名實(shí)體經(jīng)常成為文章的焦點(diǎn)。本文在選擇句子時(shí),也使用了相關(guān)特征,包括數(shù)字、時(shí)間以及專有名詞。
一個(gè)句子是否選為摘要句,除了自身的特征外,也受到上下文的影響。關(guān)聯(lián)特征是指影響摘要句選擇的上下文信息。本文使用了以下幾種關(guān)聯(lián)特征。
與標(biāo)題的相似度。標(biāo)題包含了文本的重要信息,句子與標(biāo)題相似度越大,則通常更可能出現(xiàn)在摘要中。
與其他句子的相似度。同高頻詞原理類似,該特征可以看作是尋找“高頻句”,計(jì)算公式見(jiàn)式(1)。
(1)
sim(i,j)為句子i與句子j的相似度,計(jì)算公式見(jiàn)式(2)。
(2)
其中Si為組成句子i的詞集。
與前后兩句的相似度。句子與周圍句子的相似度在一定程度上反應(yīng)了句子在局部的重要性。相似度計(jì)算公式同式(2)。
條件隨機(jī)場(chǎng)(Conditional Random Fields, CRFs)模型是一種判別模型,其主要模型思想來(lái)源于最大熵模型。CRF模型是在給定觀察序列的前提下,計(jì)算整個(gè)標(biāo)記序列的概率。CRF模型可以較好地解決序列標(biāo)注問(wèn)題,在詞性標(biāo)注、命名實(shí)體識(shí)別、語(yǔ)塊分析中都得到了很好地應(yīng)用。
在CRF模型中,令表示待標(biāo)記的觀察序列,表示對(duì)應(yīng)的標(biāo)注序列,則條件概率的計(jì)算方法見(jiàn)式(3)。
(3)
Ψc為對(duì)應(yīng)最大團(tuán)的勢(shì)函數(shù)[10]。在Linear-chain CRF中,勢(shì)函數(shù)Ψc的形式見(jiàn)式(4)。
(4)
為歸一化因子,計(jì)算公式見(jiàn)公式(5)。
(5)
其中為特征函數(shù)。
在上面第二節(jié)已經(jīng)描述了特征模板。在模型使用中,本文使用了二值特征值,通常定義為由輸入變量x以及輸出變量y的函數(shù)f(x,y),舉例如下:
其中,φ(x)表示x的特征模板,在x中成立時(shí),則為真(取值1)。
文本摘要中句子的數(shù)量遠(yuǎn)少于原文本中句子的數(shù)量,這樣,被選句子的特征出現(xiàn)頻率將會(huì)偏低。在使用序列標(biāo)注時(shí),原文本中的句子也傾向于不被選擇,從而導(dǎo)致實(shí)驗(yàn)結(jié)果中準(zhǔn)確率較高而召回率較低的現(xiàn)象。
本文在CRF基礎(chǔ)上,引入了修正因子。于是一個(gè)句子s究竟是“在”還是“不在”,便由式(6)決定。
label(s)=arg maxc∈Cadjust(c)P(c|s)
(6)
其中adjust(c)為類別c的修正因子,P(c|s)是由CRF模型計(jì)算出的類別c的條件概率。由于原文本中的句子要么被抽取,要么不被抽取,只需要將原文中的句子標(biāo)記為“在”和“不在”兩個(gè)標(biāo)記之一即可,這樣,adjust(在)=1-adjust(不在)。
通過(guò)統(tǒng)計(jì)發(fā)現(xiàn),在我們使用的訓(xùn)練語(yǔ)料中摘要句數(shù)不超過(guò)三句的比例高達(dá)98.7%,這樣,越長(zhǎng)的文章其句子越容易被標(biāo)記為“不在”。考慮這一因素,本文采用式(7)計(jì)算修正因子。
(7)
其中x表示某個(gè)文本,Length(x)文本的長(zhǎng)度,即文本所包含的句子數(shù)。
訓(xùn)練以及測(cè)試的語(yǔ)料來(lái)自網(wǎng)易新聞。我們從網(wǎng)易上采集了大量帶“核心提示”的新聞文本,核心提示可以看成摘要。在采集后,對(duì)其進(jìn)行適當(dāng)處理,最終得到17 610篇新聞文本作為實(shí)驗(yàn)語(yǔ)料。所作的處理主要是剔除摘要句較少的文本。
此外,我們還發(fā)現(xiàn),在“核心提示”中的有些句子并非完整地出現(xiàn)在原文之中,有的做了修改,有的由不同句子拼接而成。也就是說(shuō),“核心提示”并不完全是抽取式摘要,我們對(duì)這種情況做了剔除處理。為了判斷是否完全對(duì)應(yīng),本文使用了基于字的最長(zhǎng)公共子序列的算法實(shí)現(xiàn)核心提示中的句子與原文句子的對(duì)齊,以保證其正確性。
所有17 610個(gè)新聞文本平均分為五部分,采用交叉驗(yàn)證方法評(píng)測(cè),四份用于訓(xùn)練,一份用于測(cè)試。
為評(píng)價(jià)摘要效果,本文采用準(zhǔn)確率、召回率和F值三個(gè)標(biāo)準(zhǔn)來(lái)衡量,其中以F值為最重要的指標(biāo)。這三個(gè)指標(biāo)的計(jì)算公式如式(8)。由于語(yǔ)料中摘要句按照原文出現(xiàn)的先后順序出現(xiàn)在摘要中,因此語(yǔ)序并不是評(píng)測(cè)要求。
(8)
其中:
P: 準(zhǔn)確率;
R: 召回率;
a: 在摘要中、同時(shí)被標(biāo)記為摘要句的句子數(shù);
b: 在摘要中、但是沒(méi)有被標(biāo)記為摘要句的句子數(shù);
c: 不在摘要中、但是被標(biāo)記為摘要句的句子數(shù)。
本文實(shí)驗(yàn)分為兩組。第一組使用基本的線性CRF序列標(biāo)注模型,該方法為文獻(xiàn)[9]中所提到的方法,但是考慮到中英文文本摘要問(wèn)題的差異性,所采取的特征為更適合中文文本摘要的特征。該算法同時(shí)與之前有文獻(xiàn)所采用的兩種方法,即樸素貝葉斯和最大熵兩種分類模型作為對(duì)比。第二組在線性CRF基礎(chǔ)上,增加了修正因子,并將實(shí)驗(yàn)結(jié)果與無(wú)修正因子的方法做對(duì)比。
表1列出了第一組實(shí)驗(yàn)的結(jié)果。樸素貝葉斯模型、最大熵模型、線性CRF模型均在同樣的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)下做的實(shí)驗(yàn)。為了令對(duì)比更為公平可信,樸素貝葉斯模型與最大熵模型在方法上繼續(xù)采用已有論文的方法,特征基本采用了與CRF模型相同的特征,但是考慮到這兩種模型與CRF模型的差異,所采用的特征不包括與前一句的標(biāo)記有關(guān)的特征。
表1 不同模型下準(zhǔn)確率、召回率以及F值
表1顯示,CRF模型的綜合效果(F值)好于其他兩種模型,但召回率不如樸素貝葉斯模型。我們觀察標(biāo)注的結(jié)果發(fā)現(xiàn),當(dāng)文本過(guò)長(zhǎng)時(shí),摘要句分布過(guò)于分散。位于文本中部的句子其位置特征相對(duì)較弱,容易造成誤判。因而文本長(zhǎng)度對(duì)實(shí)驗(yàn)效果有著重要的影響。我們對(duì)實(shí)驗(yàn)語(yǔ)料統(tǒng)計(jì)發(fā)現(xiàn),在語(yǔ)料中,50%的文本長(zhǎng)度超過(guò)10句,20%的文本長(zhǎng)度超過(guò)21句。文本越長(zhǎng),句子抽取效果相對(duì)越差。
基于上述分析,本文進(jìn)一步通過(guò)引入修正因子來(lái)比較了各項(xiàng)指標(biāo)的變化。
圖1顯示了不同修正因子下準(zhǔn)確率、召回率以及F值的變化曲線。圖中橫軸所示為標(biāo)記為拒絕為摘要句的修正因子(下面簡(jiǎn)稱“修正因子”)。從圖中可見(jiàn),隨著修正因子的增大,準(zhǔn)確率升高,這是因?yàn)樵节呄蛴诰芙^,未被拒絕的句子更可能為摘要句。但從圖中也可以發(fā)現(xiàn),隨著修正因子增大,盡管準(zhǔn)確率提高了,但是召回率隨之降低,并在修正因子取0.45之后,F(xiàn)值也會(huì)下降。因此,確定合理的修正因子也是一個(gè)重要的問(wèn)題。
圖1 不同修正因子下準(zhǔn)確率、召回率以及F值的變化
表2比較了根據(jù)式(7),不加修正因子以及增加修正因子對(duì)交叉驗(yàn)證的實(shí)驗(yàn)結(jié)果的影響。
表2 有無(wú)修正因子各項(xiàng)指標(biāo)對(duì)比
從表2中可以看出,采用了適當(dāng)?shù)男拚蜃雍螅現(xiàn)值與無(wú)修正因子相比提高了4.2%。總體來(lái)看,適當(dāng)增加修正因子可以在一定程度上提高F值,具有更好的效果。
本文所提出的方法是作者在總結(jié)已有的文本摘要算法后做的一個(gè)初步嘗試,取得了較好的結(jié)果。但是仍有許多值得改進(jìn)的地方。比如考慮到文本長(zhǎng)度的影響,增加修正因子以提高相應(yīng)指標(biāo),雖然對(duì)實(shí)驗(yàn)效果有一定的提高,但仍有改進(jìn)余地,今后可以考慮多種因素的修正因子。此外還可以考慮到增加全局信息,不少實(shí)驗(yàn)已經(jīng)表明,增加全局信息在許多序列標(biāo)注問(wèn)題上有較好的改進(jìn)效果。
在訓(xùn)練及測(cè)試語(yǔ)料方面,本文依賴于網(wǎng)易新聞所提供的新聞數(shù)據(jù)。由于時(shí)間倉(cāng)促、數(shù)量巨大,標(biāo)注過(guò)程中難免會(huì)有疏漏,這都是今后可以改進(jìn)的地方。
[1] Dipanjan Das,Andre F.T.Martins. A survey on Automatic Text Summarization. Literature Survey for the Language and Statistics II[J]. 2007.
[2] Luhn, H. P. The automatic creation of literature abstracts[J]. IBM Journal of Research Development, 1958,2(2):159-165.
[3] Baxendale P. Machine-made index for technical literature-an experiment[J]. IBM Journal of Research Development, 1958,2(4):354-361.
[4] Edmundson H. P. New methods in automatic extracting[J]. Journal of the ACM, 16(2):264-285. 1999
[5] Kupiec J., Pedersen J., Chen, F. A trainable document summarizer[C]//Proceedings of SIGIR ’95, 68-73, New York, NY, USA. 1995.
[6] Aone C., Okurowski M. E., Gorlinsky J., et al. A trainable summarizer with knowledge acquired from robust nlp techniques[J]. In Mani, I. and Maybury, M. T., editors, Advances in Automatic Text Summarization, 71-80. MIT Press.1999.
[7] Lin, C.-Y. Training a selection function for extraction[C]//Proceedings of CIKM ’99, New York, NY, USA. 1999: 55-62.
[8] Conroy J. M., O’leary D. P. Text summarization via hidden markov models[C]//Proceedings of SIGIR ’01, New York, NY, USA. 2001:406-407.
[9] D. Shen, J.T. Sun, H. Li, et al. Document Summarization using Conditional Random Fields[C]//Proceedings of IJCAI, 2007:1805-1813.
[10] Kschischang Frank, Frey Brendan J., Loeliger. Hans-Andrea: Factor Graphs and the Sum-Product Algorithm[J]. IEEE Transactions on Information Theory 47 (2001), No. 2, 2001: 498-519.