范澤泉 賴(lài) 華
(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 昆明 650500)(2.昆明理工大學(xué)信息處理重點(diǎn)實(shí)驗(yàn)室 昆明 650500)
基于超圖的多文檔新聞關(guān)鍵詞抽取?
范澤泉1賴(lài) 華2
(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 昆明 650500)(2.昆明理工大學(xué)信息處理重點(diǎn)實(shí)驗(yàn)室 昆明 650500)
新聞作為網(wǎng)絡(luò)信息傳播的重要載體,其本質(zhì)是一個(gè)以接近真相為目標(biāo)的持續(xù)過(guò)程。隨著時(shí)間的推進(jìn),針對(duì)同一新聞事件會(huì)出現(xiàn)大量詳盡程度不同的網(wǎng)頁(yè)。如何在這些網(wǎng)頁(yè)中快速、準(zhǔn)確地抽取出這一系列新聞的關(guān)鍵信息成了一個(gè)越來(lái)越重要的課題。關(guān)鍵詞作為對(duì)文章內(nèi)容的簡(jiǎn)要概括,可以使用戶(hù)快速了解新聞事件,從而節(jié)省大量的時(shí)間,因此關(guān)鍵詞抽取技術(shù)被認(rèn)為是解決此類(lèi)問(wèn)題的關(guān)鍵。文章通過(guò)分析新聞網(wǎng)頁(yè)的特點(diǎn),提出一種新的基于超圖模型的多文檔關(guān)鍵詞抽取方法,該方法以詞作為節(jié)點(diǎn),新聞網(wǎng)頁(yè)作為超邊,并結(jié)合網(wǎng)頁(yè)信任度、新聞發(fā)布時(shí)間因素,建立了多新聞文檔的超圖模型,最后使用超圖排序算法抽取出關(guān)鍵詞。實(shí)驗(yàn)的結(jié)果驗(yàn)證了該方法的準(zhǔn)確性。
多文檔超圖模型;超圖排序;隨機(jī)游走;關(guān)鍵詞抽??;網(wǎng)頁(yè)信任度;時(shí)間因素
隨著信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上的信息呈現(xiàn)出幾何級(jí)數(shù)的增長(zhǎng),其中存在著海量的新聞網(wǎng)頁(yè)。有時(shí)針對(duì)同一新聞事件,隨著事件的逐步推進(jìn),又會(huì)出現(xiàn)不同層面、詳盡不同的報(bào)道。如何從海量的網(wǎng)頁(yè)中快速、準(zhǔn)確地抽取出這一系列新聞事件的關(guān)鍵信息成為了數(shù)據(jù)挖掘方面的研究熱點(diǎn)。
關(guān)鍵詞能表達(dá)文本的主題思想與內(nèi)容,在信息檢索系統(tǒng)的應(yīng)用中,它常用于標(biāo)引文章的主要內(nèi)容以供用戶(hù)進(jìn)行查閱[1]??梢哉f(shuō),關(guān)鍵詞是表達(dá)一個(gè)文檔核心意義的最小單位,它可以在極少的時(shí)間內(nèi)就使用戶(hù)對(duì)新聞事件建立起一個(gè)較為清晰的了解。關(guān)鍵詞在期刊和會(huì)議論文當(dāng)中通常是由作者自己標(biāo)注,然而,對(duì)于大量的新聞文章來(lái)說(shuō),卻普遍沒(méi)有關(guān)鍵詞[2]。因此如何自動(dòng)地從新聞文檔中抽取關(guān)鍵詞具有十分重要的實(shí)際應(yīng)用及研究?jī)r(jià)值。
國(guó)內(nèi)外關(guān)于關(guān)鍵詞提取技術(shù)的研究,主要分為以下幾類(lèi):第一類(lèi)是基于統(tǒng)計(jì)的抽取方法,即統(tǒng)計(jì)候選詞在文檔中出現(xiàn)的頻率和位置,對(duì)這兩類(lèi)特征值加權(quán)求和,最后進(jìn)行排序。如Salton等提出的TF-IDF算法就是基于這種思想[3]。而Mihalcea等提出的TextRank算法,首先根據(jù)詞共現(xiàn)關(guān)系構(gòu)建圖網(wǎng)絡(luò),然后再進(jìn)行排序來(lái)抽取關(guān)鍵詞[4]。第二類(lèi)是基于語(yǔ)言學(xué)的抽取方法,主要利用自然語(yǔ)言處理的相關(guān)技術(shù)來(lái)提高抽取的準(zhǔn)確度。如索紅光等考慮到詞匯間的依存關(guān)系,利用知網(wǎng)知識(shí)庫(kù)構(gòu)建詞匯連,再結(jié)合詞頻特征從候選集中抽取關(guān)鍵詞[5]。第三類(lèi)是基于機(jī)器學(xué)習(xí)的方法,如ADM公司的Tur?ney將文本內(nèi)容分為關(guān)鍵詞類(lèi)和非關(guān)鍵詞類(lèi),只針對(duì)關(guān)鍵詞類(lèi)挑選特定的關(guān)鍵詞作為文檔的關(guān)鍵詞。后來(lái)基于這一思想,美國(guó)著名的數(shù)學(xué)家Witten等人提出采用樸素貝葉斯算法作為分類(lèi)器來(lái)對(duì)關(guān)鍵詞進(jìn)行自動(dòng)提取[6]。
近年來(lái),基于圖的排序算法已經(jīng)成功地應(yīng)用于文本摘要[7]和關(guān)鍵詞抽?。?]。然而傳統(tǒng)的圖模型僅能表達(dá)句子與詞之間簡(jiǎn)單的二元關(guān)系,卻無(wú)法很好地描述詞與文檔之間,文檔與文檔之間更加高階的多元關(guān)系。同時(shí),目前的關(guān)鍵詞抽取研究大多集中在單文檔環(huán)境下,卻忽視了新聞的本質(zhì)是一個(gè)動(dòng)態(tài)的過(guò)程。為此,文章提出了一種基于超圖的多文檔新聞關(guān)鍵詞抽取方法。
在數(shù)學(xué)上,超圖是普通圖的一種泛化,普通圖中一條邊只能連接兩個(gè)頂點(diǎn),表示這兩個(gè)頂點(diǎn)之間滿(mǎn)足一定的關(guān)系,然而在實(shí)際生活中,各個(gè)對(duì)象間的關(guān)系往往要復(fù)雜得多。超圖與普通圖最大的區(qū)別在于,一條超邊可以包含兩個(gè)以上的頂點(diǎn)。對(duì)于許多問(wèn)題,普通圖并不能完全表示各個(gè)對(duì)象間的關(guān)系,如圖1中給出的例子。一個(gè)文檔集需根據(jù)不同的主題進(jìn)行區(qū)分,唯一已知的信息是各個(gè)文檔的作者。如果使用普通圖模型來(lái)表示,一個(gè)頂點(diǎn)代表一篇文檔,若兩個(gè)頂點(diǎn)被一條邊相連,則代表這兩篇文檔擁有同一個(gè)作者。顯然這種方法丟失了同一作者是否是三篇或以上文檔的作者的信息。同一作者所寫(xiě)的文檔極有可能是屬于同一主題的,這一信息是非常重要的。而在使用超圖表示這一問(wèn)題時(shí),因?yàn)橐粭l超邊可以包含多個(gè)頂點(diǎn),所以在構(gòu)建超圖時(shí),一條超邊可以表示一個(gè)作者,該作者的所有作品都包含在此超邊之中。因此相比于簡(jiǎn)單圖,超圖顯然更好地表示出了文檔與作者之間的關(guān)系[9]。
圖1 超圖與普通圖
設(shè)超圖 H=(V,E),其中V={v1,v2,v3,…,vn-1,vn}是一個(gè)有限的集合,表示超圖的頂點(diǎn)集,其中的每一個(gè)元素都是超圖的一個(gè)頂點(diǎn)。 E={e1,e2,e3,…,em-1,em}是V的一系列的集族,表示包含至少一個(gè)頂點(diǎn)的超邊的集合,ei為超邊。每條超邊包含的頂點(diǎn)的個(gè)數(shù)稱(chēng)之為超邊的度,定義為δ(e)= ||e,通常情況下,超圖的頂點(diǎn)和超邊都有對(duì)應(yīng)的權(quán)值。
一個(gè)簡(jiǎn)單的超圖如圖2所示,圖中包含6個(gè)頂點(diǎn),4條超邊,即頂點(diǎn)集V={v1,v2,v3,v4,v5,v6},超邊集 E={e1,e2,e3,e4},其中e1={v1,v2,v3},e2={v2,v3},e3={v3,v5,v6},e4={v4},e1的度為3。由此可以看出,當(dāng)超邊只包含兩個(gè)頂點(diǎn)的時(shí)候,超圖就相當(dāng)于簡(jiǎn)單圖,因此可以說(shuō)超圖是簡(jiǎn)單圖的泛化。
圖2 超圖
超圖的關(guān)聯(lián)矩陣定義如下:
頂點(diǎn)和超邊的度定義如下:
Dv和De分別代表超圖中頂點(diǎn)和超邊的度的對(duì)角矩陣,We是超邊權(quán)重的對(duì)角矩陣。
定義超圖H=(V,E,W)作為一個(gè)帶有權(quán)重的超圖。因?yàn)楸疚难芯康膬?nèi)容是多文檔下新聞關(guān)鍵詞的抽取,因此一條超邊表示一篇新聞文檔。對(duì)于一篇新聞文檔,首先進(jìn)行中文分詞、去除停用詞,得到該文檔的詞集合。
傳統(tǒng)的關(guān)鍵詞提取方法是使用TF-IDF算法,該算法傾向于過(guò)濾掉常見(jiàn)的詞語(yǔ),保留重要的詞語(yǔ)[10]。在這里,根據(jù)得到的詞集合中每個(gè)詞的TF-IDF值進(jìn)行排序,取排名前20的詞作為超圖的頂點(diǎn),并由這些詞生成一條超邊。即一篇新聞文檔是由其中TF-IDF值最高的20個(gè)詞來(lái)表示。
超圖中的頂點(diǎn)代表新聞文檔中的詞,為了使關(guān)鍵詞抽取的結(jié)果更加準(zhǔn)確,為頂點(diǎn)設(shè)置權(quán)重。
本文中,超圖頂點(diǎn)的權(quán)重由兩部分組成,第一部分是頂點(diǎn)的tf-idf值,第二部分由頂點(diǎn)對(duì)應(yīng)詞的詞性決定。詞語(yǔ)的詞性表示詞語(yǔ)在句中的作用,根據(jù)句法規(guī)則,不同詞性的詞語(yǔ)重要程度往往不同。例如,名詞通常表述一個(gè)實(shí)體概念,符合關(guān)鍵詞反映文檔主要內(nèi)容的原則,因此新聞文檔中的關(guān)鍵詞多以名詞為主。而連詞、介詞這樣的虛詞表述具體事物的能力較弱,幾乎不可能成為關(guān)鍵詞[11]。文章采用統(tǒng)計(jì)的方法,從網(wǎng)易新聞、騰訊新聞網(wǎng)站上隨機(jī)選取了100個(gè)網(wǎng)頁(yè),通過(guò)人工的方式對(duì)其進(jìn)行關(guān)鍵詞提取,然后對(duì)這些關(guān)鍵詞進(jìn)行詞性統(tǒng)計(jì),詞性特征權(quán)重如表1所示。
表1 詞性與權(quán)重
則多文檔新聞超圖模型的頂點(diǎn)權(quán)值即可定義如下:
3.2.1 時(shí)間因素
新聞是一個(gè)動(dòng)態(tài)發(fā)展的過(guò)程,隨著時(shí)間的推移,同一個(gè)事件往往會(huì)有新的內(nèi)容被媒體挖掘出來(lái)。因此對(duì)于新聞事件來(lái)說(shuō),時(shí)間是一個(gè)很重要的因素,越新的新聞,在內(nèi)容上就越真實(shí)、越詳細(xì)。在本文定義的超圖模型中,超邊代表新聞文檔,因此我們將時(shí)間作為超邊權(quán)重的第一個(gè)因素,時(shí)間越新的新聞,其作為超邊便擁有越高的權(quán)重。
本文定義的時(shí)間因素如下所示:
其中:c和p分別表示當(dāng)前時(shí)間(current)和新聞發(fā)布時(shí)間(publication)。
Q是一個(gè)衰減率參數(shù),取值介于0到1之間。當(dāng)Q的取值接近0時(shí),會(huì)使得排序更多的依賴(lài)于新發(fā)布的新聞;而當(dāng)Q的取值接近1時(shí),排序的結(jié)果則不怎么依賴(lài)新發(fā)布的新聞。本文中Q取值為0.5。
3.2.2 評(píng)論數(shù)因素
互聯(lián)網(wǎng)上存在大量的新聞網(wǎng)站,這其中有的新聞網(wǎng)站具備足夠的權(quán)威性,其發(fā)布的新聞往往經(jīng)過(guò)很認(rèn)真的考證,內(nèi)容也真實(shí)可信。而有些網(wǎng)站不但權(quán)威性不足,為了吸引用戶(hù)還惡意夸大新聞內(nèi)容、制造噱頭。對(duì)于這種網(wǎng)站的新聞,其關(guān)鍵詞不但無(wú)法幫助用戶(hù)了解新聞事件,有時(shí)甚至還會(huì)誤導(dǎo)用戶(hù)。
我們?yōu)g覽了大量的新聞網(wǎng)站,發(fā)現(xiàn)權(quán)威的新聞網(wǎng)站有很多的用戶(hù),發(fā)布的新聞也有大量的用戶(hù)評(píng)論。而權(quán)威性不足的網(wǎng)站,即便為了吸引用戶(hù)而夸大新聞內(nèi)容,卻依然少有用戶(hù)觀(guān)看,其發(fā)布的新聞評(píng)論數(shù)也非常少。
因此,本文把評(píng)論數(shù)作為超邊權(quán)重的第二個(gè)因素,評(píng)論數(shù)越多的新聞,說(shuō)明發(fā)布該新聞的網(wǎng)站有著較高的權(quán)威性,所以相應(yīng)代表這篇新聞的超邊理應(yīng)有著更高的權(quán)重。評(píng)論數(shù)權(quán)重公式定義如下:
其中:si表示文檔di下的評(píng)論數(shù),∑ese表示文檔集的總評(píng)論數(shù)。通常,為了避免文檔評(píng)論數(shù)為0的情況,我們給每一個(gè)值都手工加上了1。
則多文檔新聞超圖模型的超邊權(quán)值即可定義如下
其中,λ是一個(gè)平滑參數(shù),其取值介于0~1之間,用來(lái)權(quán)衡時(shí)間要素與評(píng)論數(shù)要素,在本文中,λ取值為0.5。
考慮新聞文檔的時(shí)間因素與評(píng)論數(shù)因素并把其作為超邊的權(quán)重,是為了反映新聞文檔本身對(duì)關(guān)鍵詞的重要性。在生活中,新聞內(nèi)容常會(huì)隨時(shí)間快速改變,而相應(yīng)的關(guān)鍵詞也會(huì)改變。傳統(tǒng)的關(guān)鍵詞提取算法僅僅考慮關(guān)鍵詞在文章中的位置等因素,卻忽略了文檔本身的屬性也可以影響關(guān)鍵詞抽取的準(zhǔn)確性。
超圖的超邊可以包含多個(gè)頂點(diǎn),其隨機(jī)游走可以分成兩步進(jìn)行描述:
第一步:漫游者從當(dāng)前所在的節(jié)點(diǎn)u,根據(jù)包含u的單條超邊的權(quán)重與包含u的所有超邊的權(quán)重之和的比值作為概率選擇一條超邊e;
第二步:漫游者從e上,以目標(biāo)頂點(diǎn)v的權(quán)重和邊e∈E(u)∩ E(v)中的所有頂點(diǎn)的權(quán)重之和的比值作為概率選擇目標(biāo)頂點(diǎn)v。
我們定義帶權(quán)的超圖的關(guān)聯(lián)矩陣Hw如下:
則帶權(quán)超圖中超邊的度定義如下:
轉(zhuǎn)移矩陣P定義如下:
矩陣的表示形式如下:
Dv是式(2)中頂點(diǎn)度的對(duì)角矩陣。We是超邊權(quán)重的對(duì)角矩陣。 Dve是式(9)中超邊度的對(duì)角矩陣。為了避免回路,本文把P當(dāng)中的對(duì)角線(xiàn)元素置0,然后把P歸一化,讓每一行元素之和為1。
本文中,阻尼系數(shù)α的值為0.85,n是超圖中頂點(diǎn)的個(gè)數(shù)?!鷈∈Rn*1是長(zhǎng)度為n的單位向量。αPT→v表示漫游者從當(dāng)前頂點(diǎn)u選擇一條關(guān)聯(lián)的超邊進(jìn)行跳轉(zhuǎn),(1-α)→e/n表示漫游者以(1-α)/n的概率跳轉(zhuǎn)到一個(gè)新的頂點(diǎn)。
在PageRank隨機(jī)游走的迭代過(guò)程中,當(dāng)→v的值發(fā)生變化時(shí),頂點(diǎn)的權(quán)重也相應(yīng)變化,所以Dv、Dve、We和W 的值都會(huì)改變。在最開(kāi)始,使用式(4)所得到的頂點(diǎn)權(quán)重作為初始值,通過(guò)頂點(diǎn)權(quán)重得到 Dv、Dve、We和W 的值,從而可以計(jì)算出P的值,然后進(jìn)行初次迭代。迭代得到的值即詞的權(quán)重向量,由此可以重新計(jì)算Dv、Dve、We和W ,繼而再次得到P的值。反復(fù)迭代這一過(guò)程,直到相鄰兩次迭代和對(duì)應(yīng)位置元素差值的絕對(duì)值小于本文設(shè)定的閾值(0.0001),此時(shí)停止迭代。然后取得分最高的K(本文中K取值為50)個(gè)詞,作為最終提取的關(guān)鍵詞。
為了保證實(shí)驗(yàn)數(shù)據(jù)的隨機(jī)抽樣性,本次實(shí)驗(yàn)選擇10個(gè)新聞事件,針對(duì)每一個(gè)新聞事件,從不同的新聞網(wǎng)站中選擇10篇相關(guān)且不重復(fù)的新聞,總計(jì)10組共100篇新聞。針對(duì)每一組的10篇新聞,人工標(biāo)注出該組新聞文檔中的關(guān)鍵詞,每一組共標(biāo)注最多50個(gè)關(guān)鍵詞。之后針對(duì)每一組的10篇新聞,利用本文提出的方法,從每一組當(dāng)中提取出50個(gè)得分最高的詞。
我們通過(guò)查準(zhǔn)率、召回率和F值3項(xiàng)指標(biāo)對(duì)關(guān)鍵詞抽取的有效性進(jìn)行評(píng)價(jià)。
查準(zhǔn)率(Precision):是指人工抽取和自動(dòng)抽取均判斷為關(guān)鍵詞的數(shù)目占整個(gè)自動(dòng)抽取為關(guān)鍵詞的比率,它反映關(guān)鍵詞抽取系統(tǒng)準(zhǔn)確抽取關(guān)鍵詞的能力。
召回率(Recall)是指人工抽取和自動(dòng)抽取均判斷為關(guān)鍵詞的數(shù)目占整個(gè)人工抽取關(guān)鍵詞的比率,它反映關(guān)鍵詞自動(dòng)抽取系統(tǒng)發(fā)現(xiàn)關(guān)鍵詞的能力。
F值(F-Measure)是查準(zhǔn)率與召回率的調(diào)和平均值。
為了驗(yàn)證基于超圖排序的關(guān)鍵詞抽取方法的有效性,本文一共設(shè)計(jì)了兩個(gè)實(shí)驗(yàn),實(shí)驗(yàn)一驗(yàn)證新聞文檔的時(shí)間要素與評(píng)論數(shù)要素對(duì)抽取結(jié)果的影響,實(shí)驗(yàn)二則是與其他抽取方法的對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)一中,本文首先去掉時(shí)間要素與評(píng)論數(shù)要素,超邊的權(quán)重計(jì)算采用基本的平均值方式,即超邊的權(quán)重等于超邊中所有頂點(diǎn)權(quán)重的平均值;之后再將超邊權(quán)重的計(jì)算改為時(shí)間要素與評(píng)論數(shù)要素之和,對(duì)比這兩次實(shí)驗(yàn),結(jié)果如表2所示。
表2 超邊權(quán)重對(duì)實(shí)驗(yàn)結(jié)果的影響
實(shí)驗(yàn)結(jié)果表明,以時(shí)間要素與評(píng)論數(shù)要素作為超邊權(quán)重的方法要比傳統(tǒng)的頂點(diǎn)權(quán)重平均值的方法更加優(yōu)秀。
實(shí)驗(yàn)二中,本文選擇了三種方法進(jìn)行對(duì)比實(shí)驗(yàn),這三種方法分別是TF-IDF、TextRank和WordRank。TextRank方法是基于傳統(tǒng)圖模型的關(guān)鍵詞抽取方法;TopicSignatures方法在提取一篇新聞的關(guān)鍵詞時(shí),首先會(huì)將該新聞文檔所在組中剩余的九篇新聞文檔作為背景語(yǔ)料,然后基于這些語(yǔ)料來(lái)進(jìn)行關(guān)鍵詞的抽?。?2]。評(píng)價(jià)結(jié)果如表3所示。
表3 對(duì)比實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,相比基于傳統(tǒng)圖模型的Tex?tRank方法,超圖模型因?yàn)槟軌虮磉_(dá)詞與文檔、文檔與文檔的多元關(guān)系,在關(guān)鍵詞抽取方面有了明顯的提高;而相比于考慮背景語(yǔ)料的TopicSignatures方法,基于超圖排序的方法因?yàn)榭紤]到了每篇新聞文檔的時(shí)間要素與評(píng)論數(shù)要素,使得抽取結(jié)果也有了一定的提升。
盡管超圖的概念在很多年前就被提出,但直到近年來(lái)它才被應(yīng)用于自然語(yǔ)言處理領(lǐng)域。超圖是傳統(tǒng)圖的泛化,不同于傳統(tǒng)圖,超圖可以表示更加復(fù)雜的關(guān)系,這個(gè)優(yōu)點(diǎn)使得超圖在關(guān)鍵詞抽取中具有更好的效果。在本文中,我們提出了一種基于超圖排序的多文檔關(guān)鍵詞抽取方法,并基于新聞文檔的特性,設(shè)置了時(shí)間與評(píng)論數(shù)兩種要素作為新聞文檔的權(quán)重,實(shí)驗(yàn)結(jié)果證明了這種方法的有效性。我們的下一個(gè)工作將會(huì)考慮多語(yǔ)言環(huán)境下的關(guān)鍵詞抽取。目前,在關(guān)鍵詞抽取領(lǐng)域,超圖的應(yīng)用還不廣泛,技術(shù)尚未成熟,但毫無(wú)疑問(wèn),基于超圖的方法具有巨大的潛力。
[1]徐高.基于詞跨度的網(wǎng)頁(yè)關(guān)鍵詞提取方法研究[D].湘潭:湘潭大學(xué),2015.XU Gao.Method of Webpage Keyword Extraction Based on Word Span[D].Xiangtan:Xiangtan University,2015.
[2]王民.新聞文檔關(guān)鍵詞抽取技術(shù)研究[J].科技傳播,2015,07:85-86,204.WANG Ming.Research on Keyword Extraction Technolo?gy in News Documents[J].Public Communication of Sci?ence&Technology,2015,07:85-86,204.
[3]Salton G,Buckley C.Term-weighting approaches in auto?matic text retrieval[J].Information processing&manage?ment,1988,24(5):513-523.
[4]Mihalcea R,Tarau P.TextRank:Bringing Order into Texts[J].Unt Scholarly Works,2004:404-411.
[5]索紅光,劉玉樹(shù),曹淑英.一種基于詞匯鏈的關(guān)鍵詞抽取方法[J].中文信息學(xué)報(bào),2006,06:25-30.SUO Hongguang,LIU Yushu,CAO Shuying.A Keyword Selection Method Based on Lexical Chains[J].Journal of Chinese Information Processing,2006,06:25-30.
[6]WITTEN I H,PAYNTER G W,F(xiàn)RANK E,et al.KEA:practical automatic keyphrase extraction[C]//Proceedings of the Fourth ACM Conference on Digital Libraries.ACM,s1999:254-255.
[7]吳振東.基于圖模型聚類(lèi)的文本摘要方法研究[D].杭州:浙江工商大學(xué),2015.WU Zhendong.Research on Document Summarization Based on the Cluster of Graph[D].Hongzhou:Zhejiang Gongshang University,2015.
[8]翟周偉,劉剛,呂玉琴.基于圖模型的關(guān)鍵詞挖掘方法[J].軟件,2012,08:9-13.ZHAI Zhouwei,LIU Gang,LV Yuqin.Keywords Mining Method Based on Graph Model[J].SOFTWARE,2012,08:9-13.
[9]徐杰.基于超圖融合語(yǔ)義信息的圖像場(chǎng)景分類(lèi)方法[D].北京:北京交通大學(xué),2014.XU Jie.A Hypergraph-based Semantic Information Fu?sion Method for Image Scene Classification[D].Beijing:Beijing Jiaotong University,2014.
[10]錢(qián)愛(ài)兵,江嵐.基于改進(jìn)TF-IDF的中文網(wǎng)頁(yè)關(guān)鍵詞抽取——以新聞網(wǎng)頁(yè)為例[J].情報(bào)理論與實(shí)踐,2008,06:945-950.QIAN Aibing,JIANG Lan.Keyword Extraction of Chi?nese Web Pages Based on Improved TF-IDF——Take the news page as an example[J].Theory&Application,2008,06:945-950.
[11]毛新武.基于組合特征的中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取研究[D].北京:北京林業(yè)大學(xué),2013.MAO Xinwu.Research on Keyword Extraction from Chi?nese News Web Pages based on Compose Features[D].Beijing:Beijing Forestry University,2013.
[12]Lin C Y,Hovy E.The automated acquisition of topic sig?natures for text summarization[C]//Proceedings of the 18th Conference on Computational Linguistics-Vol-ume 1.Association for Computational Linguistics,2000:495-501.
News Keyword Extraction in Multi-documents based on Hypergraph
FAN Zequan1LAI Hua2
(1.School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500)(2.Intelligent Information Processing Key Laboratory,Kunming University of Science and Technology,Kunming 650500)
As an important carrier of network information dissemination,the essence of the news is a continuous process aimed at reaching the truth.As time goes by,there will be a large number of different web pages for the same news event.How to quickly and accurately extract the key information of these news has become an increasingly important issue.Keywords as a brief summary of the article content,which can be used to quickly understand the news events,thus saving a lot of time,so keyword ex?traction technology is considered to be the key to solve this problem.Based on the analysis of the characteristics of news web pages,this paper proposes a new method for extracting multi-document keywords based on hypergraph model.This method takes words as nodes and news web pages as hyperedges,considering the factors of web-trust and the time of news,a hypergraph model of multi-news documents is established.Finally,the keywords are extracted by hypergraph ranking algorithm.The experimental re?sults verify the accuracy of the method.
multi-document hypergraph model,hypergraph ranking,random walk,keywords extraction,web-trust,time factor
Class Number TP391
TP391
10.3969/j.issn.1672-9722.2017.12.031
2017年6月13日,
2017年7月28日
范澤泉,男,碩士,研究方向:自然語(yǔ)言處理。賴(lài)華,男,副教授,研究方向:自然語(yǔ)言處理。