• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于圖模型的多文檔摘要生成算法

    2020-08-19 10:42:04張云純徐濟銘袁衛(wèi)平
    計算機工程與應(yīng)用 2020年16期
    關(guān)鍵詞:文檔權(quán)重聚類

    張云純,張 琨,徐濟銘,袁衛(wèi)平,蔡 穎,高 雅

    1.南京理工大學 計算機科學與工程學院,南京 210094

    2.國家計算機網(wǎng)絡(luò)與信息安全管理中心江蘇分中心 互聯(lián)網(wǎng)信息處,南京 210019

    1 引言

    人工文本摘要的形成過程十分復(fù)雜,且十分費時費力。它需要由具有一定專業(yè)知識并經(jīng)過相關(guān)培訓的特定人員,在研習了相關(guān)資料文獻后,概括成可讀性強、質(zhì)量高的摘要。在這個信息超負荷的時代,對于文本摘要的處理,需要滿足時效性強、范圍廣、速度快等特征,這顯然是傳統(tǒng)的人工提取文本摘要所不能滿足的。

    自動文本摘要生成技術(shù)是利用計算機技術(shù)從文章中提取內(nèi)容生成摘要,并以語意連貫的段落乃至篇章的形式展現(xiàn),該技術(shù)能夠幫助人們快速獲取情報信息,輔助國家輿情監(jiān)測部門采取應(yīng)急響應(yīng)措施。它采用機器學習與自然語言處理技術(shù)進行內(nèi)容抽取、分類,并精簡概括全文。出于對信息過載問題的考慮,該技術(shù)在國內(nèi)外正日益受到密切關(guān)注。本文以國外新聞網(wǎng)站的大量新聞文檔為研究對象,利用自然語言處理、機器學習等技術(shù),對新聞文檔進行多文檔摘要的生成。

    2 相關(guān)研究

    自動文本摘要生成技術(shù)是自然語言處理領(lǐng)域中較難的技術(shù),亦是當下的研究熱點。國內(nèi)外學者在自動文本摘要領(lǐng)域做了大量的研究。統(tǒng)計學模型在自然語言處理領(lǐng)域應(yīng)用廣泛,統(tǒng)計技術(shù)也是自動文本摘要最早應(yīng)用的技術(shù)。統(tǒng)計技術(shù)相較于其他技術(shù)而言,數(shù)學模型簡單,實現(xiàn)方便,出現(xiàn)時間也最早。文獻[1]最早提出了自動文本摘要的概念,運用詞頻來衡量句子在一篇文檔中的重要性,即出現(xiàn)越多的單詞越能夠代表文章的主題思想。僅考慮詞頻不夠全面,在實際提取摘要時,統(tǒng)計特征往往會與句子本身的特征結(jié)合使用,來提高權(quán)重的精確度[2-3]。例如在新聞報道中,針對首段內(nèi)容往往凝煉了事件的主體信息,段落中的首句和末句能夠概括段落內(nèi)容等特性,設(shè)計特定的權(quán)重公式來提取摘要句更為恰當。Edmundson[4]設(shè)計了一個經(jīng)典的抽取式摘要系統(tǒng)。他不僅利用詞頻和段落位置等基本特性,還將提示詞、文檔框架特征納入考慮范圍,對語句的重要程度進行評判。

    圖模型算法在自動文本摘要生成領(lǐng)域亦有著廣泛應(yīng)用,最早的工作可見文獻[5]。文獻[6]提出了一種基于親和圖的自動文本摘要生成技術(shù),該方法考慮句子間的相似性,結(jié)合主題信息抽取出高信息性和高獨特性的句子,經(jīng)過冗余削減后生成摘要。文獻[7]利用N-Gram圖抽取文檔中的重要成分。文獻[8]使用WordNet 識別文檔中的概念來構(gòu)建文本圖?;趫D排序算法的自動文本摘要生成技術(shù)是圖模型在該領(lǐng)域應(yīng)用的一類特例,其因為良好的效果以及可擴展性成為本領(lǐng)域的研究熱點。在圖的構(gòu)建方面,除了應(yīng)用最廣泛的余弦相似度度量外,基于關(guān)聯(lián)規(guī)則挖掘[9]、信息論[10]等衡量文本單元相關(guān)性的方法也有所應(yīng)用,以及基于超圖[11]、聚類[12]、WordNet以及維基百科的方法[13-15]也有所應(yīng)用;在圖排序方面,現(xiàn)有的系統(tǒng)大多是對PageRank或HITS(Hyperlink-Induced Topic Search)算法基于所構(gòu)建的文本圖進行相應(yīng)的改進,例如TextRank和GraphSum算法將PageRank算法的權(quán)重傳播做了加權(quán)改進,Biased-LexRank[16]將馬爾科夫鏈轉(zhuǎn)移到自身的概率進行了加權(quán),文獻[15]從加權(quán)HITS算法中獲得啟發(fā);也有方法進一步擴展了現(xiàn)有的圖排序方法,例如文獻[14]用全局排序的結(jié)果對聚類簇做動態(tài)更新,然后利用更新過后的聚類簇對句子進行重新排序。

    多文檔自動文本摘要生成技術(shù)以不同主題的文本集合為研究對象,其目的是生成同一主題下多個文檔的摘要信息,通常在圖模型的基礎(chǔ)上展開研究。目前,研究人員在這一領(lǐng)域也展開了一系列的研究,并取得了階段性成果。文獻[17]提出了一種識別關(guān)鍵主題的方法,以在多個文檔中提取摘要。文獻[18]通過結(jié)合LDA(Latent Dirichlet Allocation)主題模型,提出了一種新的挖掘主題的方法。文獻[19]主要針對多文檔句子重要度排序的問題,設(shè)計了一種通用的解決方案。

    新聞文檔存在時效性強、主題明確的特征,傳統(tǒng)的基于統(tǒng)計學模型和圖模型的自動文本摘要生成方法很難充分考慮這兩個特征,因而生成的摘要存在冗余度高、新穎性不強等缺點?;诖耍疚膶ι鲜鰣D模型算法進行改進,實現(xiàn)對英文文本的多文檔摘要生成。算法采用兩步文本聚類的方法,在提升效率的同時,更好地發(fā)現(xiàn)文檔主題。此外,在摘要的抽取階段,采用了基于特征融合的算法,充分考慮了位置因素和時間因素對文檔、句子的影響,提高了文本摘要的新穎性、時效性和準確性。

    3 基于圖模型的自動文本摘要生成算法

    為提高摘要句抽取的準確度,本文首先對傳統(tǒng)的詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法進行改進,以對文本中的單詞進行向量表示。在此基礎(chǔ)上,建立圖模型,對多文檔進行基于文檔、句子兩階段的文本聚類算法。最后,基于多特征融合的方式,選取句子重要度高的句子作為摘要句,并按照一定的順序生成最終的摘要。算法流程圖詳見圖1。

    3.1 基于改進的TF-IDF的文本特征向量化算法

    文本特征向量化是文本預(yù)處理中最關(guān)鍵的一步,文本特征向量化的效果將直接影響生成的摘要的質(zhì)量。常見的文本特征向量化有三種,即one-hot、TF-IDF、word2vec。one-hot編碼是將標記轉(zhuǎn)換為向量的最常用、最基本的方法。one-hot 編碼在文本中的應(yīng)用是,將每個詞與一個唯一的整數(shù)索引關(guān)聯(lián),然后將這個整數(shù)索引i轉(zhuǎn)換成長度為N(N是詞典大?。┑亩M制向量,這個向量的特點是只有第i個元素是1,其余元素為0,但它得到的特征往往是離散稀疏的。word2vec不穩(wěn)定,且無法區(qū)分文本中詞匯的重要程度[20]。TF-IDF主要思想是:一個詞的重要度不僅取決于其出現(xiàn)的頻率,還取決于該詞所具有的代表性。TF-IDF 也存在缺點,因為其提取關(guān)鍵字的能力嚴重依賴語料庫,所以對語料庫范圍和質(zhì)量要求較高。逆文本頻率(Inverse Document Frequency,IDF)算法本身是一種抑制噪聲的加權(quán),對文本中頻次較小的詞存在著傾向性,這也影響了TF-IDF 算法的精度。該算法考慮對傳統(tǒng)的TF-IDF 算法進行改進,實現(xiàn)文本特征向量化。具體地,該算法將引入一個熱度系數(shù)Hot,充分考慮到隨著時間的變化,新聞的熱點話題會隨之轉(zhuǎn)移的問題,通過該算法得到的詞權(quán),更能突出實時熱點。文本向量空間模型的表示如式(1)所示:

    圖1 算法流程圖

    式(1)中,tk(k=1,2,…,n)為特征詞,wik為特征詞tk在文本di中的權(quán)重,其具體定義如式(2)所示:

    式(2)中,詞頻tfk為特征詞tk在文檔di中出現(xiàn)的頻率次數(shù),為逆文本詞頻,N為文本集中的文本總數(shù),nk為包含特征詞tk的文本數(shù)量,Hoti(x)表示文檔di的熱度系數(shù),x表示文檔di的報道時間距離當前時間相隔的天數(shù)。

    新聞熱度值的大小取決于兩方面的因素:媒體因素和用戶因素。對于某一新聞,在單位時間內(nèi)與之相關(guān)的報道數(shù)量越多,則表明該新聞受到的媒體關(guān)注越多;同樣地,若參與該新聞評論的人數(shù)越多,則表明該新聞受到的用戶關(guān)注越多。因此,根據(jù)媒體關(guān)注度和用戶關(guān)注度,設(shè)計式(3),計算新聞的熱度。

    其中,sR表示第x天的所有報道數(shù)量,sr表示第x天與新聞di相關(guān)的報道數(shù)量,pr為參與討論新聞di的人數(shù),υ和ν表示權(quán)重調(diào)節(jié)因子,υ=0.9,ν=0.1 。本文針對某一新聞,進行了熱度計算,其熱度系數(shù)Hoti(x)隨天數(shù)變化的示意圖如圖2所示。

    圖2 熱度系數(shù)變化圖

    由圖可知,新聞的熱度將逐漸消退,其變化趨勢與指數(shù)函數(shù)的遞減趨勢類似,前期波動比較大,下降快,后期變化趨于平緩,并大約在30天內(nèi)降為0。這個權(quán)重被稱為基于熱度的詞頻-逆向文件頻率(Heat factor based Term Frequency-Inverse Document Frequency,TF-IDFH)權(quán)重。本算法將選取TF-IDFH 值最大的前γ個詞作為特征詞。文檔集合總體的向量空間模型如表1所示。

    表1 向量空間模型

    3.2 基于文檔、句子兩階段的文本聚類算法

    通過文本聚類,能夠使同一簇內(nèi)的節(jié)點與節(jié)點之間的連接緊密,而簇與簇之間的連接比較稀疏,從而找到相似度較高的集合,降低最后提取的文本摘要的冗余性。文本聚類應(yīng)充分體現(xiàn)高內(nèi)聚、低耦合的特性。通過文本聚類算法,可以將同一主題的句子歸為一個簇。然而,由于多文檔中句子數(shù)量龐大,若直接構(gòu)建句子級的圖模型,勢必會導致運行效率下降。因此,本文采用文檔、句子兩階段的文本聚類算法:首先,構(gòu)建文檔級的圖模型,并進行文本聚類;其次,對得到的簇中文檔的句子,仿照文檔級圖模型的構(gòu)建方法,構(gòu)建出句子級的圖模型,再次進行文本聚類。如圖3所示,C1、C2、C3為文檔級文本聚類算法得到的簇,對C3中文檔的句子構(gòu)建句子級圖模型,并進行文本聚類,得到S1和S2兩個簇。

    3.2.1 文檔級圖模型的構(gòu)建方法

    對于已有的文本集D={d1,d2,…,dm} ,根據(jù)文檔的相似度閾值T1構(gòu)造文檔級的圖模型。在文本向量空間模型的基礎(chǔ)上,利用余弦相似度來表示兩文檔之間的相似度,文檔之間的相似度如式(4)所示:

    圖3 兩階段文本聚類示意圖

    式(4)中,wik為特征詞tk在文本di中的權(quán)重,wjk為特征詞tk在文本dj中的權(quán)重,為兩個向量的長度。如果兩節(jié)點之間的相似度大于文檔的相似度閾值T1,則認為這兩個文檔相似度較高,并將這兩個節(jié)點連接。兩點之間邊的權(quán)重即用相似度Sim(di,dj)來表示,依此構(gòu)建一個文檔級的無向加權(quán)圖。

    3.2.2 句子級圖模型的構(gòu)建方法

    在構(gòu)建了文檔級圖模型后,將通過文檔級文本聚類算法,得到相似度比較高的文檔簇,即子主題的發(fā)現(xiàn)過程。為了對某一主題進行更為細節(jié)性的劃分,考慮仿照3.2.1小節(jié)文檔級圖模型的構(gòu)建方法,構(gòu)建句子級的圖模型。與文檔級不同的是,句子通常比較簡短,因此考慮多個因素來計算句子間的相似度,能夠在不降低算法執(zhí)行效率的基礎(chǔ)上,提升最終抽取的摘要句的準確度。本文考慮將句子長度以及Jaccard相似度結(jié)合的方式來確定句子之間相似度,進而構(gòu)建句子級圖模型。

    (1)句長相似度的計算

    句子的長度往往能夠反映句子之間的相似度,句長的差值與句子相似度成反比,長度相差越小,句子相似的可能性越高。假設(shè)len(si)表示句子si的長度,len(sj)表示句子sj的長度,則si和sj的句長相似度如式(5)所示:

    (2)Jaccard相似度的計算

    句子的相似度往往和句子中相同的詞匯個數(shù)成正比,Jaccard 相似度就是衡量重疊性的一個標準。假設(shè)表示句子si和sj中重疊的詞匯個數(shù),則si和sj的Jaccard相似度如式(6)所示:

    得到的句子相似度如式(7)所示:

    式(6)中,cr為權(quán)重系數(shù),,若兩節(jié)點之間的相似度大于句子的相似度閾值T2,則認為這兩個句子較為相似,并將這兩個節(jié)點連接。兩點之間邊的權(quán)重即用相似度sim(si,sj)來表示,依此構(gòu)建一個句子級的無向加權(quán)圖。

    3.2.3 文本聚類算法

    在聚類方法中,基于距離的K-Means 聚類方法時間開銷很大,對于簇的個數(shù)需要經(jīng)過多次實驗并根據(jù)輪廓系數(shù)來確定,受人工影響較大,且K-Means對于異常點也比較敏感。此外,在數(shù)據(jù)集方面,K-Means方法多適用于凸數(shù)據(jù)集,而文本數(shù)據(jù)一般不具有凸數(shù)據(jù)集的特性。因此,將該方法運用于文本聚類時效果不佳。相比之下,密度聚類不需要規(guī)定簇的個數(shù),對異常點亦不敏感,適用于解決文本這類稠密數(shù)據(jù)集的聚類問題。本文采取基于密度的文本聚類算法,通過該方法可以更好體現(xiàn)數(shù)據(jù)分布,得到非圓形的聚類結(jié)果。通過該方法得到的簇的中心密度很大,圍繞著這個中心的點較多,簇與簇之間的距離較大?;静襟E如下:

    步驟1 根據(jù)相似度值的倒數(shù),確定文檔或句子之間的距離,構(gòu)建文檔級距離矩陣M和句子級距離矩陣N。其中,文檔之間的距離用1/Sim(di,dj)表示;句子之間的距離用1/sim(si,sj)表示。矩陣中第i行、第j列表示di與dj(或si與sj)之間的距離disij。

    步驟2 根據(jù)距離矩陣,計算每個點的密度。點i的密度,參數(shù)disc為邊界閾值,disc的值越小,則會在盡可能小的范圍內(nèi)得到簇。

    步驟3 根據(jù)距離矩陣,計算點i到比其密度更高的其他所有點的最小距離。

    步驟4 選取ρ和δ都較大的點作為簇的中心點。此處,算法通過乘積因子ψ,綜合衡量兩個因素對簇中心的影響。對點i的乘積因子ψi的定義如式(8)所示。

    其中,normρi和normδi都是歸一化后的值。此處歸一化的方法采用離差歸一化,將值映射在[0,1]的區(qū)間范圍內(nèi)。具體地,以normρi為例:

    normδi的計算方法與此類似,不再贅述。ψ越大,表示簇的中心密度越大,且不同簇的中心相互之間的距離越遠。將ψ值從大到小進行排序,選取ψ值較大的點作為簇中心點。由于從非簇中心點過渡到簇中心點,ψ值會大幅度地提升,此處將根據(jù)冪次法則,確定簇的個數(shù)。

    步驟5 對于其余非簇中心的數(shù)據(jù)點,將其分配給離它最近且密度比它高的鄰點所在的簇。

    3.3 基于特征融合的文本摘要單元提取

    基于特征融合的文本摘要單元提取方法基本思想如下:選取句子的若干特征,對其進行加權(quán)求和,得到句子重要度。其關(guān)鍵點在于句子特征的選擇上,本文所采用的算法中,抽取的特征信息主要包括段落及句子的位置信息、句子與標題之間的相似度等。特別地,考慮到報道型文檔時效性強的特征,新聞報道的時間也將作為一個重要因素,融入到權(quán)重的計算中,并賦予較大的權(quán)重。最終句子的得分,將是多種權(quán)重的線性加權(quán)和。

    (1)基于位置信息的句子權(quán)重計算

    句子的重要度受到句子在段落中的位置因素的影響。例如,主旨性的語句放在第一段,且段落首句往往是中心句。根據(jù)人工摘要總結(jié)出的規(guī)律可知,段首句作為摘要句的概率高達85%。此外,新聞領(lǐng)域的文檔多具有段落首尾句重要度更高的特征。因此,結(jié)合新聞領(lǐng)域及余弦函數(shù)的特征,設(shè)計了基于位置的句子權(quán)重的計算方法。其核心思想是突出段落首尾句的重要度。

    定義countPi為第i篇文檔的段落總數(shù),則第i篇文檔中第m個段落的重要度PEim如式(9)所示:

    式中,α和β均為常量,在本文中,α=1,β=2 ,這兩個參數(shù)的意義在于能夠確保PEim的歸一化。

    (2)基于標題相似度的句子權(quán)重計算

    新聞報道中的標題句往往能夠反映文章的主旨,與標題的相似程度也能夠反映句子的重要度。本算法采用余弦相似度,計算句子與標題的相似度?;跇祟}相似度的句子權(quán)重e2如式(10):

    其中,sn為句子向量,ti表示第i篇文章的標題向量。

    (3)基于報道時間的句子權(quán)重計算

    新聞報道最大的特征是時效性強。例如,最新發(fā)布的文章,其重要度一定遠遠大于10 年前發(fā)布的文章。此外,新聞文檔還滿足越接近當下發(fā)表的文章,其重要度波動越大的規(guī)律。10年前的文章和11年前的文章相比,其價值近乎一樣。因此,根據(jù)指數(shù)函數(shù)的特點,設(shè)計了符合新聞時效性特征的句子權(quán)重計算方法。

    假設(shè)currentTime表示當前時間,oldestTime表示某主題內(nèi)最早的一篇報道的發(fā)表時間。TimeLenth表示時間區(qū)間,即TimeLenth=currentTime-oldestTime。定義Timei為第i篇文章的發(fā)表時間。則基于報道時間的句子權(quán)重e3如式(11):

    對上述三種句子權(quán)重的結(jié)果進行加權(quán)求和,得到句子的融合權(quán)重W,即句子重要度,如式(12)所示:

    其中,quo表示權(quán)重系數(shù),。

    4 實驗過程

    4.1 數(shù)據(jù)收集

    本文算法的數(shù)據(jù)集主要由紐約時報、??怂剐侣劇⑷A爾街日報、美國之音等國外著名新聞網(wǎng)站的報道組成,內(nèi)容涉及網(wǎng)絡(luò)、科技、軍事、政治、經(jīng)濟、安全等領(lǐng)域。實驗采用Python及Java語言,利用主題爬蟲對新聞網(wǎng)站進行數(shù)據(jù)的采集,通過對網(wǎng)頁源碼進行正則匹配,得到所需格式的數(shù)據(jù),共計抓取656 篇報道,去除篇幅過長和過短的報道,得到400篇符合要求的文檔。

    4.2 數(shù)據(jù)預(yù)處理

    (1)去除噪聲。該步驟去除對文本分析貢獻度不大的特殊符號、表格等。

    (2)詞干化。此處采用經(jīng)典的波特詞干算法對單詞進行詞干化,該方法速度快,準確度高,目的是刪除單詞的后綴,保留詞根。

    (3)文檔分割。首先,利用正則表達式匹配標點符號,將文檔分割為句子集合。然后,通過去除停用詞和標點符號,將句子表示為詞項集合。

    4.3 過濾句子

    過長或過短的句子不適宜作為摘要的候選句,本實驗考慮將長度系數(shù)CL >0.8 以及CL <0.2 的句子去掉。句子長度系數(shù)的定義如式(13)所示:

    其中,L為句子的長度,LM為最長句子的長度。

    4.4 文本向量化

    通過改進的TF-IDF算法,對單詞進行詞權(quán)的計算,選取詞權(quán)最高的50 個單詞作為特征詞,將文檔轉(zhuǎn)化為50維的向量,用于文檔聚類前的相似度計算。

    4.5 文本聚類

    利用上文提到的基于文檔、句子兩階段的文本聚類算法對多文檔進行二次聚類,先得到文檔中主要的分類方向,繼而得到每個類別下的子主題。

    4.6 摘要句抽取

    利用基于特征融合的方法對摘要進行提取。傳統(tǒng)方法沒有考慮文檔的時效性和新穎性,此處利用余弦函數(shù)及指數(shù)函數(shù)的特性,為句子位置與報道時間這兩個衡量句子重要度的關(guān)鍵因素設(shè)計了特殊的權(quán)重衡量公式。

    4.7 摘要輸出

    將每個子主題中得分高的K個句子按原文順序及報道發(fā)表時間順序輸出,保證生成的摘要的連貫性。K的計算公式如式(14)所示:

    其中,size(topic)表示topic主題下的句子個數(shù),根據(jù)經(jīng)驗,此處的perc取為20%。

    5 結(jié)果分析

    實驗中的主要參數(shù)如表2所示。

    表2 實驗中的主要參數(shù)

    實驗對一階段文本聚類和兩階段文本聚類進行了性能的對比,具體運行時間如圖4所示。由圖4可知,一階段聚類和兩階段聚類的消耗時間均隨著文檔數(shù)量的增加呈現(xiàn)上升的趨勢,其中一階段聚類所消耗的時間增加得更快。隨著數(shù)據(jù)規(guī)模的增大,一階段聚類的時間消耗將會大幅度提升,兩階段文本聚類的優(yōu)勢將逐步顯現(xiàn)。產(chǎn)生這樣的實驗結(jié)果,是因為兩階段文本聚類中的第一階段,已經(jīng)對文本進行了初步的分類,為第二階段的句子級聚類縮小了聚類的范圍,從而減少了不必要的時間開銷。從復(fù)雜度的角度來分析,本文基于密度的聚類方法本身的時間復(fù)雜度為O(n2),若對所有文檔中的n個句子直接進行聚類,則時間復(fù)雜度為O(n2)。本文采用的是兩階段的聚類方法,假設(shè)一階段的聚類將文檔分為m個主題,則兩階段聚類的平均時間復(fù)雜度為,由于m的數(shù)量小于n,因此要小于n2,在主題個數(shù)合理的情況下,兩階段聚類的方法可較大幅度節(jié)省時間開銷。相較于一階段聚類進行主題劃分的算法,本文所采用的兩階段文本聚類進行主題劃分的算法運行效率更高。

    圖4 一階段聚類與兩階段聚類運行效率對比圖

    圖5 展示了在進行文檔級聚類時,ψ值的變化趨勢。由圖可知,由簇中心點到非簇中心點過渡時,ψ值存在較大的變化,本實驗選取ψ≥0.2 的16 個節(jié)點作為簇中心點,共選取了16個主題。

    圖5 ψ 值變化圖

    在本實驗中,對自動摘要效果的評價主要是通過與人工撰寫的摘要進行對比。實驗采用的數(shù)據(jù)均經(jīng)過國家應(yīng)急響應(yīng)中心專業(yè)人員的交叉審核,標準摘要亦由相關(guān)專業(yè)人士標注,準確性和可靠性高。國際上通用的評價指標為查準率P(Precision)、F1 分數(shù)(F1 Score)、查全率R(Recall)。查準率P是指正確摘要的句子占全部摘要句子的百分比,主要衡量摘要表現(xiàn)原文主題信息的準確度。查全率R是指被正確分類的文檔樣本數(shù)量占總文檔樣本數(shù)量的百分比。由于查準率和查準率是兩個不同的指標,它們的關(guān)系是二律背反的。F1 分數(shù)是二者的調(diào)和平均值,一般來說,F(xiàn)1 分數(shù)越高,說明聚類效果越佳。計算公式詳見式(15)~(17):

    本實驗通過對比三種算法,分別為本文所提的算法、TextRank算法以及TextTeaser,計算各算法在每種主題下的準確率P、召回率R及F1 值。由于句子級聚類得到的子主題較多,此處的主題是指文檔級聚類得到的16個分類,其中的值為各分類中子主題的平均值,算法對比結(jié)果詳見表3。

    表3 算法對比結(jié)果

    通過求取平均值對三種算法的三個指標進行對比,算法效率如圖6所示。

    實驗結(jié)果表明,本文算法的平均查準率能達到83%,分別比TextRank 算法和TextTeaser 算法高出24%和18%。與此同時,本文算法的平均查全率為63%,比TextRank 算法高出19%,比TextTeaser 算法高出11%。此外,本文算法的F1 分數(shù)也較高,平均F1 分數(shù)為71%。綜上,本文算法在自動文本摘要生成方面的效果比傳統(tǒng)算法更加優(yōu)化。因為利用改進的TF-IDF文本特征向量化方法,能夠更加突出新聞熱點;基于密度的聚類算法能夠提高運行效率,本文所提密度聚類算法可以自動確定簇中心個數(shù),兩階段的文本聚類,亦使得摘要富有層次性;此外,考慮到新聞時效性強,報道時間及句子位置對句子重要度起關(guān)鍵作用,本文算法利用余弦函數(shù)及指數(shù)函數(shù)的特性,對句子重要度進行運算,使得得到的摘要句更符合新聞文本的特點。

    圖6 算法效率

    6 結(jié)束語

    自動文本摘要技術(shù)應(yīng)需而生,主要運用于新聞領(lǐng)域,旨在幫助群眾快速獲取信息,幫助情報部門快速了解國內(nèi)外動態(tài)。本文算法基于新聞領(lǐng)域時效性強、主題明確的特征,對先前學者的研究進行改進,算法多次將時間因素納入考慮的范圍。實驗表明,本文算法可提升摘要的時效性。此外,兩階段的聚類也在提升效率的同時,使最終生成的摘要更具層次性。然而,本文算法還存在許多局限性,有待深入研究,例如生成摘要時,如何使摘要更加通順、連貫。本文研究的兩階段聚類雖然能夠提升效率,但在多個子主題中抽取摘要容易產(chǎn)生句子不連貫的問題。因此,如何利用語義分析增強摘要的連貫性是未來的研究方向。

    猜你喜歡
    文檔權(quán)重聚類
    有人一聲不吭向你扔了個文檔
    權(quán)重常思“浮名輕”
    當代陜西(2020年17期)2020-10-28 08:18:18
    為黨督政勤履職 代民行權(quán)重擔當
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    基于公約式權(quán)重的截短線性分組碼盲識別方法
    電信科學(2017年6期)2017-07-01 15:44:57
    基于RI碼計算的Word復(fù)制文檔鑒別
    基于改進的遺傳算法的模糊聚類算法
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
    層次分析法權(quán)重的計算:基于Lingo的數(shù)學模型
    河南科技(2014年15期)2014-02-27 14:12:51
    欧美激情高清一区二区三区 | 岛国毛片在线播放| 亚洲国产精品一区二区三区在线| 精品午夜福利在线看| 91精品国产国语对白视频| 一边摸一边做爽爽视频免费| 午夜福利一区二区在线看| 中文字幕人妻丝袜制服| 久久久精品国产亚洲av高清涩受| 成人国语在线视频| 亚洲欧美成人综合另类久久久| 成年av动漫网址| 日韩中文字幕欧美一区二区 | 看十八女毛片水多多多| 熟女电影av网| 亚洲一码二码三码区别大吗| 国产精品国产三级专区第一集| 69精品国产乱码久久久| 亚洲国产av新网站| 日韩av免费高清视频| av一本久久久久| 美女福利国产在线| 人妻少妇偷人精品九色| 亚洲国产欧美日韩在线播放| 91成人精品电影| 国产深夜福利视频在线观看| 亚洲经典国产精华液单| 日韩伦理黄色片| 美女xxoo啪啪120秒动态图| 侵犯人妻中文字幕一二三四区| 亚洲第一av免费看| 男女免费视频国产| 欧美日韩亚洲国产一区二区在线观看 | 成人免费观看视频高清| 成人国产麻豆网| 国精品久久久久久国模美| 婷婷色av中文字幕| 看免费成人av毛片| 一区二区av电影网| 久久午夜福利片| 狠狠精品人妻久久久久久综合| 在线精品无人区一区二区三| av福利片在线| 一区二区三区四区激情视频| 18禁动态无遮挡网站| 十八禁网站网址无遮挡| 欧美日韩精品成人综合77777| 在线观看美女被高潮喷水网站| 建设人人有责人人尽责人人享有的| 久热这里只有精品99| 高清黄色对白视频在线免费看| 最近最新中文字幕免费大全7| av国产久精品久网站免费入址| 老熟女久久久| 国产熟女欧美一区二区| 大码成人一级视频| 人妻少妇偷人精品九色| kizo精华| 欧美bdsm另类| 亚洲婷婷狠狠爱综合网| 午夜福利视频在线观看免费| 国产熟女欧美一区二区| xxx大片免费视频| 春色校园在线视频观看| 少妇精品久久久久久久| 久久精品国产亚洲av高清一级| 亚洲国产欧美在线一区| 黄色视频在线播放观看不卡| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 国产成人a∨麻豆精品| 国产爽快片一区二区三区| 美女高潮到喷水免费观看| 99热国产这里只有精品6| 久久青草综合色| 欧美日韩亚洲高清精品| 欧美最新免费一区二区三区| 一级片'在线观看视频| 9热在线视频观看99| 秋霞伦理黄片| 国产 一区精品| 啦啦啦中文免费视频观看日本| 国产精品蜜桃在线观看| 国产精品一区二区在线观看99| 少妇人妻久久综合中文| 午夜av观看不卡| 欧美精品av麻豆av| 飞空精品影院首页| 久久久久久久久久久免费av| xxx大片免费视频| 人妻少妇偷人精品九色| 亚洲欧美成人精品一区二区| 免费在线观看黄色视频的| 男男h啪啪无遮挡| 久久久久久人人人人人| 精品国产一区二区三区久久久樱花| 久久久久久伊人网av| 春色校园在线视频观看| 人妻 亚洲 视频| 麻豆av在线久日| 国产亚洲最大av| 国产日韩欧美视频二区| 老汉色av国产亚洲站长工具| av免费在线看不卡| 人妻少妇偷人精品九色| 伦精品一区二区三区| 欧美人与性动交α欧美精品济南到 | 美国免费a级毛片| 极品少妇高潮喷水抽搐| 人成视频在线观看免费观看| 黑人猛操日本美女一级片| 少妇人妻精品综合一区二区| 欧美激情极品国产一区二区三区| 成年女人毛片免费观看观看9 | 亚洲国产av新网站| 欧美人与性动交α欧美软件| 天天躁狠狠躁夜夜躁狠狠躁| 中文字幕另类日韩欧美亚洲嫩草| 亚洲欧洲精品一区二区精品久久久 | 黄色怎么调成土黄色| 欧美 日韩 精品 国产| 亚洲经典国产精华液单| av网站在线播放免费| 丝袜脚勾引网站| 18+在线观看网站| 久久精品亚洲av国产电影网| 久久 成人 亚洲| 涩涩av久久男人的天堂| 美女大奶头黄色视频| 国产成人免费观看mmmm| av在线播放精品| 精品国产国语对白av| 最近的中文字幕免费完整| 午夜福利视频在线观看免费| av网站免费在线观看视频| 97在线视频观看| 人妻系列 视频| 看免费成人av毛片| 爱豆传媒免费全集在线观看| 久久精品久久久久久久性| 伦理电影大哥的女人| 成人国语在线视频| 久久久久国产精品人妻一区二区| 久久久久国产网址| 精品久久蜜臀av无| 国产亚洲一区二区精品| 成人亚洲欧美一区二区av| 亚洲av福利一区| 狂野欧美激情性bbbbbb| 国产一区二区激情短视频 | 日日啪夜夜爽| 亚洲精品aⅴ在线观看| 亚洲av电影在线观看一区二区三区| 女的被弄到高潮叫床怎么办| 国产成人精品无人区| 国产精品一区二区在线不卡| 男女午夜视频在线观看| freevideosex欧美| 久久韩国三级中文字幕| 精品视频人人做人人爽| 一区在线观看完整版| 亚洲国产最新在线播放| 日韩一区二区视频免费看| 亚洲美女黄色视频免费看| 黄色毛片三级朝国网站| 少妇精品久久久久久久| 大香蕉久久成人网| 天天躁日日躁夜夜躁夜夜| 成年动漫av网址| 中文欧美无线码| 9191精品国产免费久久| 少妇的逼水好多| 久久精品国产自在天天线| 夜夜骑夜夜射夜夜干| 午夜免费男女啪啪视频观看| 久久精品久久久久久噜噜老黄| 99久久精品国产国产毛片| kizo精华| 爱豆传媒免费全集在线观看| 香蕉精品网在线| 欧美激情高清一区二区三区 | 久久久久国产精品人妻一区二区| 久久国产精品大桥未久av| 亚洲内射少妇av| 婷婷成人精品国产| 男女免费视频国产| 国产成人av激情在线播放| 日韩制服丝袜自拍偷拍| 男女啪啪激烈高潮av片| videossex国产| 久久久精品免费免费高清| 观看av在线不卡| 一区二区三区乱码不卡18| 亚洲人成网站在线观看播放| 亚洲美女视频黄频| 99热全是精品| 夫妻性生交免费视频一级片| 91久久精品国产一区二区三区| 精品99又大又爽又粗少妇毛片| 午夜福利网站1000一区二区三区| 亚洲成人手机| 免费看不卡的av| 视频区图区小说| 欧美精品亚洲一区二区| 岛国毛片在线播放| 精品一区在线观看国产| 男女午夜视频在线观看| 如日韩欧美国产精品一区二区三区| 午夜福利影视在线免费观看| 国产成人精品福利久久| av一本久久久久| 亚洲精品一区蜜桃| 成人手机av| 中文字幕精品免费在线观看视频| 国产精品二区激情视频| 国产熟女午夜一区二区三区| 日韩成人av中文字幕在线观看| 韩国高清视频一区二区三区| 蜜桃在线观看..| 午夜日本视频在线| 热re99久久精品国产66热6| 久久精品国产鲁丝片午夜精品| 晚上一个人看的免费电影| 黄片小视频在线播放| 丝袜人妻中文字幕| 亚洲精品国产色婷婷电影| 妹子高潮喷水视频| 久久亚洲国产成人精品v| 欧美亚洲 丝袜 人妻 在线| 男女高潮啪啪啪动态图| 久久久久国产精品人妻一区二区| 欧美精品高潮呻吟av久久| 黑丝袜美女国产一区| 日本vs欧美在线观看视频| 一二三四中文在线观看免费高清| 另类精品久久| 日韩在线高清观看一区二区三区| freevideosex欧美| 亚洲精品国产色婷婷电影| 秋霞在线观看毛片| 午夜福利乱码中文字幕| 日本-黄色视频高清免费观看| 日韩中文字幕视频在线看片| 一本久久精品| tube8黄色片| av.在线天堂| av网站在线播放免费| 国产精品久久久久久精品电影小说| 日韩电影二区| 久久免费观看电影| 高清av免费在线| 青春草国产在线视频| 国产成人一区二区在线| 国产熟女午夜一区二区三区| 国产精品国产三级国产专区5o| 欧美日韩一区二区视频在线观看视频在线| 国产精品久久久久久av不卡| 久久精品国产亚洲av涩爱| 国产精品免费大片| 精品亚洲成国产av| 少妇人妻 视频| 青春草国产在线视频| 最近最新中文字幕大全免费视频 | 欧美国产精品一级二级三级| 免费少妇av软件| 少妇人妻 视频| 欧美精品亚洲一区二区| 欧美+日韩+精品| 婷婷色综合大香蕉| 午夜激情久久久久久久| 久久久久网色| 丝瓜视频免费看黄片| 看十八女毛片水多多多| 搡女人真爽免费视频火全软件| 久久精品国产综合久久久| 在线观看人妻少妇| 久久女婷五月综合色啪小说| 国产97色在线日韩免费| 亚洲国产最新在线播放| 欧美精品高潮呻吟av久久| 大话2 男鬼变身卡| www.熟女人妻精品国产| 亚洲精品在线美女| 国产一区二区激情短视频 | 人妻一区二区av| 自拍欧美九色日韩亚洲蝌蚪91| 国产深夜福利视频在线观看| 又大又黄又爽视频免费| 久久久久久久大尺度免费视频| 精品人妻偷拍中文字幕| 亚洲国产色片| 成人毛片60女人毛片免费| 丝袜美足系列| 久久精品人人爽人人爽视色| 国产成人免费无遮挡视频| 尾随美女入室| 丰满迷人的少妇在线观看| 精品视频人人做人人爽| 可以免费在线观看a视频的电影网站 | 久久国产精品男人的天堂亚洲| 久久这里只有精品19| 久热久热在线精品观看| 两性夫妻黄色片| 国产精品免费视频内射| 天天躁夜夜躁狠狠久久av| 亚洲四区av| 国产男女超爽视频在线观看| 国产免费一区二区三区四区乱码| 国产免费现黄频在线看| 美女福利国产在线| 国产白丝娇喘喷水9色精品| 观看美女的网站| 亚洲精品一二三| 又粗又硬又长又爽又黄的视频| 精品亚洲成a人片在线观看| 最黄视频免费看| 久久久久久免费高清国产稀缺| a级毛片在线看网站| 在现免费观看毛片| 国产成人精品久久二区二区91 | 亚洲五月色婷婷综合| 午夜福利网站1000一区二区三区| 亚洲一区中文字幕在线| 永久免费av网站大全| 国产精品久久久久成人av| 国产高清不卡午夜福利| 午夜老司机福利剧场| 久久精品人人爽人人爽视色| 99久久综合免费| 国产一区二区激情短视频 | 香蕉丝袜av| 国精品久久久久久国模美| 人人妻人人爽人人添夜夜欢视频| 人人澡人人妻人| 国产午夜精品一二区理论片| 中文字幕最新亚洲高清| 亚洲国产精品999| 久久ye,这里只有精品| 80岁老熟妇乱子伦牲交| 国产亚洲最大av| 人妻 亚洲 视频| 日本猛色少妇xxxxx猛交久久| 免费少妇av软件| 18禁裸乳无遮挡动漫免费视频| 日日啪夜夜爽| 亚洲一级一片aⅴ在线观看| 国产乱人偷精品视频| 国产极品粉嫩免费观看在线| 丝瓜视频免费看黄片| 最新中文字幕久久久久| 久久精品国产a三级三级三级| 最新中文字幕久久久久| 亚洲伊人色综图| 精品国产一区二区久久| 精品人妻一区二区三区麻豆| 国产97色在线日韩免费| 亚洲第一av免费看| 免费久久久久久久精品成人欧美视频| 精品视频人人做人人爽| 丰满乱子伦码专区| 欧美激情 高清一区二区三区| 搡老乐熟女国产| 蜜桃在线观看..| 国产视频首页在线观看| 高清视频免费观看一区二区| 久久精品久久精品一区二区三区| 亚洲中文av在线| 久久 成人 亚洲| av有码第一页| 欧美日韩国产mv在线观看视频| 90打野战视频偷拍视频| 午夜福利影视在线免费观看| 在线看a的网站| 国产老妇伦熟女老妇高清| 满18在线观看网站| 国产精品99久久99久久久不卡 | 日日爽夜夜爽网站| 人人妻人人澡人人爽人人夜夜| 免费观看无遮挡的男女| 国产高清不卡午夜福利| 免费在线观看视频国产中文字幕亚洲 | 日韩成人av中文字幕在线观看| 午夜免费男女啪啪视频观看| 久久久久人妻精品一区果冻| 99国产精品免费福利视频| 久久人人爽av亚洲精品天堂| 九草在线视频观看| 精品卡一卡二卡四卡免费| 免费高清在线观看日韩| 超碰成人久久| 久久免费观看电影| 国产亚洲一区二区精品| 99香蕉大伊视频| 精品99又大又爽又粗少妇毛片| 免费播放大片免费观看视频在线观看| 新久久久久国产一级毛片| 国产精品亚洲av一区麻豆 | 亚洲精品aⅴ在线观看| 曰老女人黄片| 超色免费av| 久久久久久免费高清国产稀缺| 亚洲熟女精品中文字幕| 国产深夜福利视频在线观看| 少妇的丰满在线观看| 久久国产精品男人的天堂亚洲| 高清av免费在线| 日韩精品免费视频一区二区三区| 国产成人免费观看mmmm| 999久久久国产精品视频| 黑丝袜美女国产一区| 免费大片黄手机在线观看| 亚洲综合色网址| 久久精品国产a三级三级三级| 欧美精品一区二区大全| 亚洲欧美一区二区三区久久| 伦精品一区二区三区| 一级毛片电影观看| 久久久久久久亚洲中文字幕| 精品一区二区免费观看| 女人被躁到高潮嗷嗷叫费观| 男女啪啪激烈高潮av片| 国产老妇伦熟女老妇高清| 亚洲第一区二区三区不卡| 午夜91福利影院| 欧美日韩综合久久久久久| 卡戴珊不雅视频在线播放| 在线观看一区二区三区激情| 国产国语露脸激情在线看| 免费黄色在线免费观看| 一级毛片黄色毛片免费观看视频| av国产精品久久久久影院| av在线老鸭窝| 日韩不卡一区二区三区视频在线| 国产精品99久久99久久久不卡 | 五月天丁香电影| 国产午夜精品一二区理论片| 亚洲成国产人片在线观看| 女人被躁到高潮嗷嗷叫费观| 91午夜精品亚洲一区二区三区| av电影中文网址| 免费在线观看完整版高清| 日本猛色少妇xxxxx猛交久久| 精品亚洲成a人片在线观看| 久久精品国产自在天天线| 国产av一区二区精品久久| 精品福利永久在线观看| 国产熟女午夜一区二区三区| 亚洲一区中文字幕在线| 美女脱内裤让男人舔精品视频| 天堂8中文在线网| 国产精品国产av在线观看| 久久久国产一区二区| 男女午夜视频在线观看| 亚洲av成人精品一二三区| 国产精品久久久久久精品古装| 久久免费观看电影| 最近的中文字幕免费完整| 交换朋友夫妻互换小说| 超碰成人久久| 大陆偷拍与自拍| 在线观看免费高清a一片| 欧美+日韩+精品| 青春草亚洲视频在线观看| 人妻 亚洲 视频| 国产激情久久老熟女| 精品一区二区三卡| 大码成人一级视频| 少妇精品久久久久久久| 国产成人91sexporn| 亚洲图色成人| 国产极品粉嫩免费观看在线| 久久久久久人人人人人| 婷婷色综合大香蕉| av在线老鸭窝| 成人18禁高潮啪啪吃奶动态图| 国产一区二区激情短视频 | 亚洲人成77777在线视频| 久久国内精品自在自线图片| 亚洲人成电影观看| 亚洲伊人色综图| 国产激情久久老熟女| 中文字幕人妻丝袜一区二区 | 午夜精品国产一区二区电影| 看非洲黑人一级黄片| 女人被躁到高潮嗷嗷叫费观| 2022亚洲国产成人精品| 欧美成人午夜精品| 丝袜人妻中文字幕| 久久久久精品性色| 免费女性裸体啪啪无遮挡网站| 天天躁日日躁夜夜躁夜夜| 免费高清在线观看日韩| 久久午夜福利片| 90打野战视频偷拍视频| 99久久综合免费| 欧美激情极品国产一区二区三区| 国产男女内射视频| 日韩视频在线欧美| 18禁裸乳无遮挡动漫免费视频| av在线老鸭窝| 18禁裸乳无遮挡动漫免费视频| 午夜福利视频在线观看免费| 一级毛片 在线播放| 丁香六月天网| 一本色道久久久久久精品综合| 日本欧美视频一区| 大码成人一级视频| 在线观看一区二区三区激情| 18禁裸乳无遮挡动漫免费视频| 午夜福利视频在线观看免费| av免费在线看不卡| 午夜福利视频在线观看免费| 最近最新中文字幕免费大全7| 国产野战对白在线观看| 亚洲精品乱久久久久久| 日本欧美视频一区| 高清av免费在线| 日韩一区二区视频免费看| 丰满乱子伦码专区| 亚洲欧美成人精品一区二区| 激情五月婷婷亚洲| 久久久a久久爽久久v久久| 国产探花极品一区二区| xxxhd国产人妻xxx| 国产欧美亚洲国产| 色视频在线一区二区三区| 国产探花极品一区二区| 在线观看国产h片| 亚洲在久久综合| 高清不卡的av网站| 久久精品国产亚洲av涩爱| 久久人人爽av亚洲精品天堂| 亚洲男人天堂网一区| 搡老乐熟女国产| 熟女av电影| 午夜免费鲁丝| 国产一区二区激情短视频 | 亚洲国产色片| 男女边摸边吃奶| 亚洲三区欧美一区| 日韩熟女老妇一区二区性免费视频| 免费观看性生交大片5| 女性生殖器流出的白浆| 好男人视频免费观看在线| 国产熟女欧美一区二区| 亚洲av免费高清在线观看| 欧美xxⅹ黑人| 9热在线视频观看99| a级毛片在线看网站| 三级国产精品片| 国产欧美日韩综合在线一区二区| 久久这里有精品视频免费| 国产成人a∨麻豆精品| 男女啪啪激烈高潮av片| 精品亚洲乱码少妇综合久久| 久久久久人妻精品一区果冻| 你懂的网址亚洲精品在线观看| 精品国产超薄肉色丝袜足j| 成年女人毛片免费观看观看9 | 久久精品久久久久久久性| 亚洲精品乱久久久久久| 久久久久精品人妻al黑| 国产精品久久久久久精品电影小说| 最新中文字幕久久久久| 午夜免费男女啪啪视频观看| 午夜福利影视在线免费观看| 制服诱惑二区| 久久婷婷青草| 久久午夜福利片| 国产黄频视频在线观看| 欧美av亚洲av综合av国产av | 狠狠精品人妻久久久久久综合| 国产亚洲午夜精品一区二区久久| 人人妻人人澡人人爽人人夜夜| 国产日韩欧美视频二区| 可以免费在线观看a视频的电影网站 | 黄色一级大片看看| 国产黄色视频一区二区在线观看| 亚洲综合色惰| 亚洲久久久国产精品| 曰老女人黄片| 性少妇av在线| 99国产精品免费福利视频| 下体分泌物呈黄色| 国产成人91sexporn| 伦精品一区二区三区| 国产片特级美女逼逼视频| 99热国产这里只有精品6| 少妇的逼水好多| 亚洲精品国产av成人精品| 哪个播放器可以免费观看大片| 亚洲精品久久成人aⅴ小说| 9191精品国产免费久久| 亚洲美女黄色视频免费看| 国产淫语在线视频| 久久午夜福利片| 亚洲美女黄色视频免费看| 日韩精品免费视频一区二区三区| 久久午夜福利片| 香蕉国产在线看| 秋霞伦理黄片| 亚洲综合精品二区| 看非洲黑人一级黄片| 免费看不卡的av| 欧美国产精品va在线观看不卡| 又大又黄又爽视频免费| 熟女av电影| 国产片特级美女逼逼视频| 日韩精品有码人妻一区| 国产精品不卡视频一区二区| 在线 av 中文字幕| 日韩制服骚丝袜av| 十八禁网站网址无遮挡| 久久精品夜色国产| 日韩中文字幕视频在线看片| 久久久久久久久久久免费av|