駱俊帆,陳 黎,于中華,丁革建,羅 謙
(1. 四川大學(xué) 計(jì)算機(jī)學(xué)院,四川 成都 610065; 2. 浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004;3. 中國(guó)民用航空總局第二研究所 信息技術(shù)分公司,四川 成都610041)
長(zhǎng)度分布約束下的摘要文本無(wú)監(jiān)督分割算法
駱俊帆1,陳 黎1,于中華1,丁革建2,羅 謙3
(1. 四川大學(xué) 計(jì)算機(jī)學(xué)院,四川 成都 610065; 2. 浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004;3. 中國(guó)民用航空總局第二研究所 信息技術(shù)分公司,四川 成都610041)
作為文章內(nèi)容的濃縮表達(dá),摘要蘊(yùn)含著文章關(guān)鍵的發(fā)現(xiàn)和結(jié)論。自動(dòng)分析挖掘摘要內(nèi)容,對(duì)于充分利用快速增長(zhǎng)的科技文獻(xiàn)具有重要意義。該文以Medline生物醫(yī)學(xué)文章的摘要為對(duì)象,對(duì)摘要的文本分割問(wèn)題進(jìn)行了研究。針對(duì)摘要各論述側(cè)面(內(nèi)容塊)之間在長(zhǎng)度分布上傾向于均勻的特點(diǎn),提出了一種考慮長(zhǎng)度分布約束的摘要文本無(wú)監(jiān)督分割算法,該算法以信息熵作為長(zhǎng)度分布均勻性的度量指標(biāo),將信息熵與塊內(nèi)語(yǔ)義相似度及塊間語(yǔ)義相似度相結(jié)合作為優(yōu)化的目標(biāo)函數(shù),采用動(dòng)態(tài)規(guī)劃方法搜索最佳分割點(diǎn)。在8 603篇Medline摘要上對(duì)算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并與文獻(xiàn)中最新的無(wú)監(jiān)督分割算法進(jìn)行了實(shí)驗(yàn)對(duì)比。結(jié)果表明,該文提出的增加了長(zhǎng)度分布約束的分割算法更加適用于摘要文本分割,分割的準(zhǔn)確率有3%的提高。
文本分割;無(wú)監(jiān)督;動(dòng)態(tài)規(guī)劃;生物醫(yī)學(xué);摘要文本
Abstract: To deal with the text segmentation for academic paper abstracts, an unsupervised text segmentation algorithm is proposed, which incorporates constraint of the length distribution derived from the preference of length uniformity in different discussion aspects (i.e. content blocks) of an abstract. A metric based on information entropy is introduced to the algorithm to measure the length distribution uniformity, and the object function is designed with further combination of semantic similarities of inter-and intra-content blocks. A standard dynamic programming scheme is employed to determine the best segmentation sequence. Experimented on 8603 abstracts from Medline, the results show an improvement of 3% in accuracy compared with baselines.
Key words: text segmentation; unsupervised; dynamic programming; biomedical; abstract-text
收稿日期: 2016-03-14 定稿日期: 2016-11-20
基金項(xiàng)目: 四川省科技支撐項(xiàng)目(2014GZ0063)
海量的科技文獻(xiàn)作為大數(shù)據(jù)的重要組成部分,蘊(yùn)含著人類(lèi)科研活動(dòng)取得的各種發(fā)明、發(fā)現(xiàn)和創(chuàng)造方面的關(guān)鍵信息。以這些信息為處理對(duì)象,進(jìn)行分析和挖掘,對(duì)于促進(jìn)科技進(jìn)步和科研成果轉(zhuǎn)化,具有重要意義。
當(dāng)前,多數(shù)科技文獻(xiàn)文本挖掘的研究工作以Medline生物醫(yī)學(xué)文獻(xiàn)摘要為處理對(duì)象,具體的研究?jī)?nèi)容包括句子邊界識(shí)別、命名實(shí)體識(shí)別和分類(lèi)、關(guān)系抽取、縮略語(yǔ)識(shí)別和理解等,根本目的是從摘要中抽取出研究結(jié)果或結(jié)論信息,例如特定蛋白質(zhì)對(duì)之間的作用關(guān)系。選擇生物醫(yī)學(xué)文獻(xiàn)摘要作為對(duì)象的原因一方面是生物醫(yī)學(xué)的快速發(fā)展使得借助計(jì)算機(jī)進(jìn)行文獻(xiàn)分析處理更為迫切,另一方面是Medline*http://www.pubmed.gov.摘要數(shù)據(jù)量大,覆蓋面廣,作為文獻(xiàn)全文的濃縮表達(dá),包含了全文關(guān)鍵的結(jié)果和結(jié)論,滿(mǎn)足抽取文獻(xiàn)關(guān)鍵信息的需要,且具有簡(jiǎn)潔、冗余少等特點(diǎn)。
任何文本都具有篇章結(jié)構(gòu),各種信息按照邏輯被組織成不同的文本塊(邏輯單元)。通過(guò)文本分割,自動(dòng)識(shí)別文本塊,再利用篇章結(jié)構(gòu)來(lái)提高文本理解(包括信息抽取)的效果,十分重要[1-4]。摘要作為一篇文章的濃縮表達(dá),同樣具有篇章結(jié)構(gòu),例如很多Medline摘要都包括目的、方法、結(jié)果、結(jié)論四個(gè)邏輯單元。對(duì)摘要進(jìn)行文本分割,識(shí)別構(gòu)成摘要的邏輯單元,對(duì)于科技文獻(xiàn)的文本挖掘和信息抽取,具有重要意義。
針對(duì)現(xiàn)有摘要分割算法存在的不足,本文以Medline生物醫(yī)學(xué)文獻(xiàn)摘要為對(duì)象,研究無(wú)監(jiān)督的摘要自動(dòng)分割問(wèn)題,在總結(jié)摘要篇章結(jié)構(gòu)特點(diǎn)的基礎(chǔ)上,提出基于長(zhǎng)度分布約束的無(wú)監(jiān)督分割算法,并對(duì)該算法進(jìn)行實(shí)驗(yàn)驗(yàn)證。
本文的后續(xù)內(nèi)容組織如下: 第一節(jié)介紹相關(guān)工作,分析現(xiàn)有分割算法存在的不足;第二節(jié)提出基于長(zhǎng)度分布約束的無(wú)監(jiān)督摘要分割算法,對(duì)算法進(jìn)行分析和描述;第三節(jié)對(duì)算法進(jìn)行實(shí)驗(yàn)驗(yàn)證,介紹實(shí)驗(yàn)所用的數(shù)據(jù)集和實(shí)驗(yàn)結(jié)果,并對(duì)結(jié)果進(jìn)行分析;最后第四節(jié)對(duì)全文工作進(jìn)行總結(jié),展望下一步工作的改進(jìn)方向。
文本分割屬于篇章層面的自然語(yǔ)言處理任務(wù),已經(jīng)有幾十年的研究歷史。但是傳統(tǒng)的相關(guān)研究主要面向具有段落結(jié)構(gòu)的全文文本,而摘要簡(jiǎn)短、無(wú)段落結(jié)構(gòu)的特點(diǎn)使得全文文本分割算法無(wú)法直接應(yīng)用于摘要[5-7]。專(zhuān)門(mén)面向摘要的文本分割研究還比較少見(jiàn),據(jù)我們所知,僅有文獻(xiàn)[5-7]等有監(jiān)督方法,這些方法基于大量人工標(biāo)注的語(yǔ)料來(lái)訓(xùn)練分割模型,可移植性差。
面向一般文本提出的無(wú)監(jiān)督分割算法[8-14],通常是先對(duì)文檔結(jié)構(gòu)進(jìn)行分析,自動(dòng)識(shí)別主題邊界,再將原始文檔分割成連續(xù)的主題塊。詞匯分布(如詞項(xiàng)重復(fù)、詞匯鏈)是這些無(wú)監(jiān)督分割算法經(jīng)常利用的信息,因?yàn)樵谕恢黝}塊內(nèi), 相似或有關(guān)聯(lián)的詞匯經(jīng)常大量重復(fù)出現(xiàn)[8]。文獻(xiàn)[9-11]從主題塊的詞匯內(nèi)聚性出發(fā),內(nèi)聚性越大的文本塊越傾向于被分割為一個(gè)主題塊,而文獻(xiàn)[12-13]則根據(jù)文本塊間詞匯分布的耦合性來(lái)劃分主題塊,兩文本塊間詞匯分布越不相似,則存在分割邊界的可能性越大。雖然詞匯內(nèi)聚性比耦合性能帶來(lái)更好的分割效果,但是也會(huì)產(chǎn)生過(guò)度分割的問(wèn)題。文獻(xiàn)[11]通過(guò)構(gòu)建一個(gè)概率模型,利用動(dòng)態(tài)規(guī)劃自動(dòng)選擇最優(yōu)的分割結(jié)果,文獻(xiàn)[14]基于文獻(xiàn)[11]的模型框架,提出一種綜合考慮文本塊內(nèi)聚性和塊間耦合性的算法,使分割效果明顯提高。
盡管上述算法并未利用段落信息,同時(shí)屬于無(wú)監(jiān)督方法,不需要人工標(biāo)注訓(xùn)練數(shù)據(jù),但是摘要簡(jiǎn)短的特點(diǎn)使得這些算法在用于摘要文本分割時(shí)面臨著數(shù)據(jù)稀疏帶來(lái)的內(nèi)聚性和耦合性難以準(zhǔn)確度量的困難。摘要不同于一般文本,它平均長(zhǎng)度短,概括性強(qiáng),濃縮了文章的主要內(nèi)容。根據(jù)我們對(duì)Medline數(shù)萬(wàn)篇摘要的統(tǒng)計(jì),一般的生物醫(yī)學(xué)文獻(xiàn)摘要平均僅包含11個(gè)句子,320個(gè)詞次(token),這些句子被組織成不同的語(yǔ)義塊,例如,背景、方法、結(jié)果、結(jié)論等。因此,有必要對(duì)摘要文本的無(wú)監(jiān)督分割進(jìn)行專(zhuān)門(mén)的研究。
本文旨在根據(jù)摘要文本的特點(diǎn),設(shè)計(jì)面向摘要的無(wú)監(jiān)督文本分割算法。摘要文本簡(jiǎn)短、無(wú)段落結(jié)構(gòu)的特點(diǎn),一方面帶來(lái)了塊內(nèi)聚性和塊間耦合性難以準(zhǔn)確評(píng)價(jià)的困難,但另一方面也使得構(gòu)成摘要的各語(yǔ)義塊(論述側(cè)面)之間在長(zhǎng)度的分布上傾向于均勻,這種長(zhǎng)度分布的均勻性?xún)A向可以與塊內(nèi)聚性及塊間耦合性一起作為評(píng)價(jià)分割質(zhì)量?jī)?yōu)劣的準(zhǔn)則,彌補(bǔ)單純依賴(lài)塊內(nèi)聚性和塊間耦合性帶來(lái)的準(zhǔn)確率降低的問(wèn)題?;谏鲜鏊枷?,本文提出一種長(zhǎng)度分布約束下的摘要文本無(wú)監(jiān)督分割算法,并對(duì)該算法進(jìn)行實(shí)驗(yàn)驗(yàn)證和分析。
3.1 分割模型 沿用文獻(xiàn)[11,14]的思想,本文將摘要文本分割歸結(jié)為搜索最佳分割塊序列的優(yōu)化問(wèn)題,并采用動(dòng)態(tài)規(guī)劃方法來(lái)求解該問(wèn)題。然而與文獻(xiàn)[11]和[14]不同,本文不但采用文獻(xiàn)[14]的方法度量文本塊內(nèi)聚性和塊間耦合性,還根據(jù)摘要文本的特點(diǎn),在優(yōu)化的目標(biāo)函數(shù)中增加對(duì)塊長(zhǎng)度分布均勻性的度量,從而彌補(bǔ)單純依賴(lài)塊內(nèi)容帶來(lái)的數(shù)據(jù)稀疏使分割準(zhǔn)確率下降的問(wèn)題。
(1)
而P(T)與C無(wú)關(guān),因此,給定T,最可能的C應(yīng)該為
(2)
采用馬爾可夫有限歷史的假設(shè),將P(T|C)分解為
(3)
其中P(Tci|ci,ci-1)和P(Tci|ci)分別定義為
(4)
和
(5)
其中,λ為可以調(diào)整的權(quán)值。式(4)的分子部分和式(5)用于從概率的角度度量文本塊的內(nèi)聚性,而式(4)中的Δ(Tci,Tci-1)為耦合項(xiàng),采用向量夾角余弦值度量文本塊間主題(論述側(cè)重點(diǎn))的差異性,即塊間耦合性。式(6)為Δ(Tci,Tci-1)的計(jì)算方法。
(6)
其中,cos(Tci,Tci-1)是文本塊Tci和Tci-1之間的余弦相似度。
式(5)中的V是詞表,P(wj|ci)為單詞wj在文本Tci中出現(xiàn)的概率,采用最大似然估計(jì)確定該概率,并用“加一”法進(jìn)行平滑,如式(7)所示。
(7)
其中,fi(wj)為單詞wj在Tci中出現(xiàn)的次數(shù),|V|表示詞表的大小。
對(duì)于P(C),文獻(xiàn)[11]和[14]從信息編碼的角度來(lái)懲罰塊數(shù)多的分割(式(8))。
P(C)=n-m
(8)
考慮到摘要各個(gè)文本塊(論述側(cè)重點(diǎn))的長(zhǎng)度分布傾向于均勻的特點(diǎn),本文在式(8)的基礎(chǔ)上施加長(zhǎng)度分布約束,懲罰長(zhǎng)度分布傾斜的分割方案。為此,采用信息熵來(lái)度量文本塊長(zhǎng)度分布的均勻性大小,將信息熵引入到P(C)中,使得分割算法綜合利用文本塊內(nèi)聚性、塊間耦合性和長(zhǎng)度分布均勻性來(lái)決策最優(yōu)分割點(diǎn)的位置。改進(jìn)的P(C)定義為式(9)。
(9)
(10)
這樣,本文算法將摘要文本分割歸結(jié)為尋找滿(mǎn)足下列條件的Cout:
(11)
其中,α是權(quán)重,用于調(diào)整長(zhǎng)度分布均勻性約束相對(duì)于塊內(nèi)聚性和塊間耦合性的重要程度。定義Δ(Tc1,Tc0)=0,則式(11)變成:
(12)
從式(12)很容易看出,T=S1S2…Sn任何分割方案C=c1c2…cm的得分值(即P(C|T))可以歸結(jié)為每個(gè)塊ci給定前一塊ci-1情況下得分值的累加(見(jiàn)式(13)),因此可以采用動(dòng)態(tài)規(guī)劃方法來(lái)求解最優(yōu)分割方案。
(13)
3.2 算法描述與分析
為了采用動(dòng)態(tài)規(guī)劃算法求解最佳分割,定義變量
(14)
該變量表示對(duì)于摘要T前j個(gè)句子的分割,最后一個(gè)文本塊由第i個(gè)句子到第j個(gè)句子組成的分割中最佳分割的分值。此外,定義變量ψi,j來(lái)保存式(14)中的ik-1+1,即最佳分割中塊ck-1的起始位置。
利用變量σi,j和ψi,j,基于動(dòng)態(tài)規(guī)劃求解式(12)中Cout的過(guò)程可以歸結(jié)為下列遞推計(jì)算。
(1) 初始化
計(jì)算由第1個(gè)句子到第j個(gè)句子組成的文本塊的得分,1≤j≤n
σ1,j←Score([1,j]|c0))
ψi,j←-1 //-1表示之前沒(méi)有別的塊
(2) 遞推
for(i=2;i≤n;i++){
for(j=i;j≤n;j++){
[k,i-1])]
[k,i-1])]
}
}
(3) 回溯讀出最佳分割點(diǎn)
le←n//最后一塊的起始句子編號(hào)
lnewb←ψlb,le//倒數(shù)第二塊起始句子的編號(hào)
while(lnewb!=-1){
le←lb-1 //新當(dāng)前塊的結(jié)尾句子編號(hào)
lb←lnewb//新當(dāng)前塊的起始句子編號(hào)
lnewb←ψlb,le//前一塊起始句子的編號(hào)
}
4.1 數(shù)據(jù)集 為了對(duì)所提出算法的效果進(jìn)行實(shí)驗(yàn)驗(yàn)證,本文從美國(guó)國(guó)家生物技術(shù)信息中心(National Center of Biotechnology Information)*http://www.ncbi.nlm.nih.gov/.收集了8 603篇分割好的摘要作為標(biāo)準(zhǔn)測(cè)試集。這些摘要被原始作者分割成四部分,分別用標(biāo)簽Background、Methods、Results、Conclusions表示,圖1給出了其中的一篇。每篇摘要去除其中的分割標(biāo)簽后作為算法的輸入,算法輸出的分割位置與被去除的分割標(biāo)簽位置進(jìn)行比對(duì),從而判斷算法分割是否正確。
4.2 評(píng)價(jià)指標(biāo)
4.3 實(shí)驗(yàn)結(jié)果及分析
考慮到絕大多數(shù)科技文章的摘要都由四個(gè)文本塊(背景、方法、結(jié)果、結(jié)論)組成,因此首先進(jìn)行固定分割塊個(gè)數(shù)m=4的實(shí)驗(yàn),算法中的參數(shù)λ和α設(shè)為1,這種情況的實(shí)驗(yàn)結(jié)果見(jiàn)表1。
表1 固定分割塊數(shù)目情況下的實(shí)驗(yàn)結(jié)果
從表1可以看出,對(duì)于摘要文本分割,在固定分割塊個(gè)數(shù)的情況下,單純基于長(zhǎng)度分布均勻性約束的AverageSeg明顯低于TextSeg、CombinedSeg和AbstractSeg,單純依賴(lài)文本塊內(nèi)聚性的TextSeg不及兼顧內(nèi)聚性和塊間耦合性的CombinedSeg,本文提出的附加長(zhǎng)度分布約束,綜合考慮文本塊內(nèi)聚性和塊間耦合性的AbstractSeg,在三種評(píng)價(jià)指標(biāo)下都明顯優(yōu)于另外三個(gè)算法,說(shuō)明本文提出的摘要文本塊長(zhǎng)度分布約束及基于熵的長(zhǎng)度分布度量是有效的。與基于詞分布的塊內(nèi)聚性和塊間耦合性分析相結(jié)合,可以顯著提高摘要文本分割的效果。
為了觀察長(zhǎng)度分布均勻性約束對(duì)分割效果的影響,我們實(shí)驗(yàn)了不同的α(α∈[0,16],λ=1),得到的結(jié)果如圖2~4所示。由于固定文本塊個(gè)數(shù),P(C)對(duì)于TextSeg、CombinedSeg和AverageSeg不起作用,分割結(jié)果不受α影響,因此這三個(gè)圖中TextSeg和CombinedSeg與AverageSeg都是直線。從這三個(gè)圖可以看出,隨著α值的增大,AbstractSeg的分割效果先逐漸上升,大約在α=5時(shí)達(dá)到峰值,然后逐漸下降,α=0時(shí)與CombinedSeg重合,此時(shí)AbstractSeg退化為CombinedSeg。
圖2 隨著α的增加,1-Pk的變化情況
圖3 隨著α的增加,1-winDiff的變化情況
圖4 隨著α的增加,BS的變化情況
表2為不固定文本塊數(shù)目情況下的實(shí)驗(yàn)結(jié)果,算法的參數(shù)λ和α的值仍然都設(shè)為1。如果不指定文本塊個(gè)數(shù),單純基于長(zhǎng)度分布均勻性約束的AverageSeg總是把每個(gè)句子單獨(dú)分成一塊,這使得AverageSeg無(wú)法使用。因此,表2相對(duì)于表1少了AverageSeg。從表2的實(shí)驗(yàn)數(shù)據(jù)很容易看出,即使不固定文本塊個(gè)數(shù),本文提出的算法AbstractSeg仍然明顯優(yōu)于TextSeg和CombinedSeg。
表2 不固定分割塊數(shù)目情況下的實(shí)驗(yàn)結(jié)果
對(duì)比表1和表2可以發(fā)現(xiàn),固定文本塊個(gè)數(shù)情況下的分割效果優(yōu)于不固定文本塊個(gè)數(shù)的效果。在固定文本塊個(gè)數(shù)的情況下,摘要應(yīng)該分割成多少個(gè)文本塊,即m,是已知的算法參數(shù),例如本文實(shí)驗(yàn)用的Medline摘要均由四部分組成,因此固定文本塊個(gè)數(shù)時(shí)設(shè)定m=4,此時(shí)算法只需要搜索固定個(gè)數(shù)的最優(yōu)分割點(diǎn)序列。而不固定文本塊個(gè)數(shù)時(shí),m未知,算法需要同時(shí)優(yōu)化分割點(diǎn)個(gè)數(shù)和分割點(diǎn)序列,面臨的搜索空間更大,導(dǎo)致分割效果變差。
本文針對(duì)現(xiàn)有無(wú)監(jiān)督文本分割算法在用于摘要分割時(shí)面臨的困難,基于摘要文本塊長(zhǎng)度的分布具有均勻性?xún)A向這一特點(diǎn),提出了基于長(zhǎng)度分布約束的無(wú)監(jiān)督摘要文本分割算法,該算法以信息熵作為塊長(zhǎng)度分布均勻性的度量指標(biāo),并綜合度量文本塊內(nèi)聚性和塊間耦合性,從而使摘要文本分割的效果顯著提高。實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了本文算法的效果。作為下一步的工作,考慮利用一些時(shí)態(tài)特征及關(guān)鍵詞在不同文本塊出現(xiàn)的情況,提高算法的分割效果。
盡管實(shí)驗(yàn)驗(yàn)證是在英文Medline摘要文本上進(jìn)行的,但是由于所用的文本特征與語(yǔ)言無(wú)關(guān),因此,本文算法也應(yīng)該適用于中文摘要文本分割。搜集中文摘要文本并進(jìn)行人工分割形成測(cè)試數(shù)據(jù)集,在此基礎(chǔ)上進(jìn)一步測(cè)試本文算法對(duì)于中文摘要文本自動(dòng)分割的效果,是下一步的工作內(nèi)容之一。
[1] 劉娜, 唐煥玲, 魯明羽. 文本線性分割方法的研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2008, 44(21): 212-216.
[2] Liu Na, Tang Huanling, Lu Mingyu. Study on linear text segmentation method[J]. Computer Engineering and Applications, 2008, 44(21): 212-216.
[3] 童毅見(jiàn), 唐慧豐. 面向自動(dòng)文摘的主題劃分方法[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 49(1): 39-44.
[4] Tong Yijian, Tang Huifeng. Topic partition for automatic summarization[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(1): 39-44.
[5] Li X, Han A. An improved method of statistical model for text segmentation[C]//Proceedings of the IEEE Electronics Information and Emergency Communication(ICEIEC), 2013: 282-285.
[6] Wu J W, Tseng J C R, Tsai W N. A hybrid linear text segmentation algorithm using hierarchical agglomerative clustering and discrete particle swarm optimization[J]. Integrated Computer-Aided Engineering, 2014, 21(1): 35-46.
[7] McKnight L, Srinivasan P. Categorization of sentence types in medical abstracts[C]//Proceedings of the AMIA Annual Symposium Proceedings, 2003: 440.
[8] Lin R T K, Dai H J, Bow Y Y. Result identification for biomedical abstracts using conditional random fields[C]//Proceedings of Information Reuse and Integration Conference on IEEE, 2008: 122-126.
[9] 陳源, 陳蓉, 胡俊鋒,等. 面向概括性小文本的文本分割算法[J]. 計(jì)算機(jī)工程, 2008, 34(22): 43-45.
[10] Chen Yuan, Chen Rong, HU Junfeng.Text segmentation algorithm oriented to small general-text[J]. Computer Engineering, 2008, 34(22): 43-45.
[11] Halliday M A K, Hasan R. Cohesion in English[M].London. Routledge, 1976.
[12] Jeffrey C, Reynar. An automatic method of finding topic boundaries[C]//Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics, 1994: 331-333.
[13] Marie Francine Moens, Rik De Busser. Generic topic segmentation of document texts[C]//Proceedings of the 24th International Conference on Research and Developement in Information Retrieval, 2001: 418-419.
[14] Masao Utiyama, Hitoshi Isahara. A statistical model for domain-independent text segmentation[C]//Proceedings of the 39th Annual Meeting on the Association for Computational Linguistics, 2001: 499-506.
[15] Marti A Hearst. TextTiling: Segmenting text into multi-paragraph subtopic passages[J]. Computational Linguistics, 1997, 23(1): 33-64.
[16] Choi F Y Y. Advances in domain independent linear text segmentation[C]//Proceedings of the 1st North American chapter of the Association for Computational Linguistics Conference, 2000: 26-33.
[17] Simon A R, Gravier G, Sébillot P. Leveraging lexical cohesion and disruption for topic segmentation[C]//Proceedings of International Conference on Empirical Methods in Natural Language Processing, 2013.
[18] Beeferman D, Berger A, Lafferty J. Statistical models for text segmentation[J]. Machine Learning, 1999, 34(1-3): 177-210.
[19] Pevzner L, Hearst M A. A critique and improvement of an evaluation metric for text segmentation[J]. Computational Linguistics, 2002, 28(1): 19-36.
[20] Fournier, Chris. Evaluatingtext segmentation using boundary edit distance[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, 2013: 1702-1712.
駱俊帆(1990—),碩士,工程師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。
E-mail: 244459939@qq.com
陳黎(1977—),博士,講師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、自然語(yǔ)言處理。
E-mail: cl@scu.edu.cn
于中華(1967—),通信作者,博士,副教授,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、自然語(yǔ)言處理。
E-mail: yuzhonghua@scu.edu.cn
A Length Distribution Constrained Text Segmentation for Paper Abstracts
LUO Junfan1, CHEN Li1, YU Zhonghua1, DING Gejian2, LUO Qian3
(1. Department of Computer Science, Sichuan University, Chengdu, Sichuan 610065, China;2. College of Mathematics, Physics and Information Engineering, Zhejiang Normal University, Jinhua, Zhejiang 321004,China;3. Information Technology Branch, The Second Research Institute, General Administration of Civil Aviation of China, Chengdu, Sichuan 610041,China)
1003-0077(2017)04-0138-07
TP393
A