樊 瑋,劉 歡,張宇翔
中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300300
隨著網(wǎng)絡(luò)文本數(shù)據(jù)的快速增長(zhǎng),如何從這些海量數(shù)據(jù)中快速準(zhǔn)確地找到需要的信息成為人們面臨的重要問題。關(guān)鍵詞能夠?qū)ξ谋緝?nèi)容進(jìn)行提取和凝練,幫助人們篩選信息從而迅速定位到所需文檔。然而大量文檔或網(wǎng)頁(yè)并沒有提供關(guān)鍵詞,且人工標(biāo)注關(guān)鍵詞的成本較大,所以自動(dòng)關(guān)鍵詞提取技術(shù)越來(lái)越受到人們的關(guān)注。自動(dòng)關(guān)鍵詞提取技術(shù)旨在自動(dòng)地從文檔中抽取反映文檔主題的關(guān)鍵詞(包括單詞或詞組),其研究成果除直接用于信息檢索之外,還可以廣泛應(yīng)用于文本分類[1]、自動(dòng)摘要[2]和對(duì)話系統(tǒng)[3]等領(lǐng)域。
現(xiàn)有的關(guān)鍵詞提取技術(shù)大致可分為有監(jiān)督和無(wú)監(jiān)督兩大類。有監(jiān)督提取方法是將關(guān)鍵詞提取問題看作一個(gè)二分類問題[4]。具體而言,首先對(duì)候選關(guān)鍵詞進(jìn)行人工標(biāo)注和定義特征集,從而形成訓(xùn)練集,然后訓(xùn)練給定的二分類模型,最后用訓(xùn)練好的分類模型進(jìn)行關(guān)鍵詞提取。這種方法的明顯不足是人工標(biāo)記關(guān)鍵詞的代價(jià)較大,且分類模型可能存在過擬合的問題。無(wú)監(jiān)督提取方法是將關(guān)鍵詞提取問題看作候選關(guān)鍵詞的排序問題。通常利用一些評(píng)分指標(biāo)(如詞頻-逆文檔頻率TFIDF、組合特征[5]等)對(duì)每個(gè)候選關(guān)鍵詞進(jìn)行打分,然后選取排名靠前的作為文檔的關(guān)鍵詞。
基于圖的關(guān)鍵詞提取方法(也具體稱為基于Page-Rank 的提取方法)被認(rèn)為是目前最好的無(wú)監(jiān)督方法[6]。該方法首先構(gòu)建一個(gè)候選關(guān)鍵詞圖,圖中每個(gè)節(jié)點(diǎn)表示一個(gè)候選關(guān)鍵詞,每個(gè)邊表示文檔中候選關(guān)鍵詞之間的共現(xiàn)關(guān)系;接著在詞圖上使用隨機(jī)游走(PageRank[7]算法)技術(shù)來(lái)對(duì)單詞進(jìn)行排序。因PageRank 算法的核心思想是在圖上進(jìn)行全局隨機(jī)游走計(jì)算(或迭代計(jì)算)每個(gè)節(jié)點(diǎn)在穩(wěn)定狀態(tài)下的分?jǐn)?shù),故基于PageRank 的提取方法主要是依賴于詞與詞之間的全局關(guān)系。首次直接利用PageRank算法對(duì)詞圖上的候選關(guān)鍵詞進(jìn)行評(píng)分的方法是TextRank[8],隨后研究者不斷嘗試將各種信息通過PageRank 的轉(zhuǎn)移概率和重啟概率融合到該模型中,如ExpandRank[9]方法融入了相似文檔信息、TopicalPage-Rank[10]方法添加了主題信息。
本文嘗試將文本序列中詞與詞之間的潛在語(yǔ)義關(guān)系和詞在文本序列中的位置信息同時(shí)融入到基于圖的關(guān)鍵詞提取方法框架中。該研究想法的提出基于以下幾個(gè)考量:(1)基于PageRank的提取方法主要依賴于詞與詞之間全局的共現(xiàn)關(guān)系,而忽略了詞與詞之間局部的語(yǔ)義關(guān)系,事實(shí)上局部語(yǔ)義關(guān)系是非常重要的信息;(2)隨著近年來(lái)自然語(yǔ)言處理領(lǐng)域中詞語(yǔ)的分布式表示技術(shù)(如Word2vec[11]方法)的提出和發(fā)展,詞與詞之間的潛在語(yǔ)義關(guān)系可以通過詞嵌入向量表示出來(lái),這使得在基于PageRank的提取方法中融入潛在的局部語(yǔ)義關(guān)系成為可能;(3)候選關(guān)鍵詞在文本文檔中的位置信息也是非常重要的信息,能夠表示詞在文章的分配并常常作為重要特征用于有監(jiān)督的關(guān)鍵詞提取方法中。
實(shí)驗(yàn)使用的數(shù)據(jù)集是來(lái)自于發(fā)表在計(jì)算機(jī)領(lǐng)域的兩個(gè)頂級(jí)會(huì)議KDD 和SIGIR 上的文章,將本文提出的EPRank方法和5個(gè)現(xiàn)有的無(wú)監(jiān)督方法(這些方法或非常經(jīng)典或?yàn)樽钚绿岢觯┻M(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,EPRank的各項(xiàng)性能指標(biāo)均超現(xiàn)有的無(wú)監(jiān)督的關(guān)鍵詞提取方法。
本文工作聚焦到基于圖的關(guān)鍵詞提取方法,同時(shí)將詞向量與位置信息融合到基于圖的提取方法中,下面主要總結(jié)與本文工作相關(guān)的研究成果。
2004年,TextRank[8]首次利用PageRank算法在詞圖上計(jì)算候選關(guān)鍵詞的評(píng)分,據(jù)此評(píng)分來(lái)對(duì)候選關(guān)鍵詞進(jìn)行排序,從而實(shí)現(xiàn)關(guān)鍵詞的提取。緊隨其后,研究者提出了許多方法,這些方法的共同之處在于將各種有利于關(guān)鍵詞提取的信息通過修改PageRank算法的轉(zhuǎn)移概率和重置概率融合在一起。
第一種融合方式是將與詞圖中邊相關(guān)的信息通過修改PageRank 算法的轉(zhuǎn)移概率融合到一起。例如,2008年北京大學(xué)萬(wàn)小軍等人[9]提出了ExpandRank方法,它使用了與目標(biāo)文檔相近的文檔集來(lái)輔助構(gòu)建詞圖,從而增強(qiáng)詞圖中兩個(gè)候選關(guān)鍵詞之間的共現(xiàn)關(guān)系。2014年Gollapalli 等人[12]延續(xù)這種想法提出了CiteTextRank方法,它使用目標(biāo)文檔的引用文獻(xiàn)和被引文獻(xiàn)的上下文來(lái)擴(kuò)充詞圖,從而增加詞圖的信息。2014 年提出的WordAttractionRank[13]方法嘗試將維基百科中的外部信息通過轉(zhuǎn)移概率融合到PageRank算法中。
第二種融合方式是將與詞圖中詞節(jié)點(diǎn)相關(guān)的信息通過修改PageRank 算法的重置概率融合到一起。例如,2010年清華大學(xué)劉知遠(yuǎn)等[10]提出的TopicalPageRank方法,它采用LDA 模型獲得目標(biāo)文檔的主題分布和候選關(guān)鍵詞在主題下的分布,并將主題信息通過重置概率融合到PageRank 算法中。為了降低該方法的計(jì)算量,2015年single-TPR[14]方法被提出。此外,2017年Florescu等人[15]嘗試將位置信息直接添加到PageRank 算法的重置概率中。
第三種融合方式是將詞圖中與邊相關(guān)的信息和與點(diǎn)相關(guān)的信息通過同時(shí)修改轉(zhuǎn)移概率和重置概率融合到PageRank 算法中。例如2017 年Zhang 等人[16]提出的MIKE方法等。
通過以上分析,發(fā)現(xiàn)這些基于圖的關(guān)鍵詞提取方法都是在TextRank 算法的基礎(chǔ)上通過與詞相關(guān)的信息或與邊相關(guān)的信息賦予PageRank 模型中的轉(zhuǎn)移概率或重置概率不同的解釋來(lái)提高關(guān)鍵詞提取的性能。但是這些方法未能有效整合詞與詞之間的潛在語(yǔ)義關(guān)系。因此,本文也在TextRank 算法的基礎(chǔ)上嘗試將這種語(yǔ)義關(guān)系通過詞的詞向量與位置信息同時(shí)融入到PageRank 模型的轉(zhuǎn)移概率中,從而提升關(guān)鍵詞提取的效果。
設(shè)D={d1,d2,…,dm} 為包含m 篇文本文檔的集合。每篇文本文檔di∈D 包含一個(gè)由in個(gè)候選關(guān)鍵詞組成的集合Wi={wi1,wi2,…,win} 。關(guān)鍵詞提取的目標(biāo)是找到一個(gè)函數(shù),將每個(gè)wij∈Wi映射到一個(gè)分?jǐn)?shù)中,然后選取幾個(gè)能夠更好地表示文本文檔di的候選關(guān)鍵詞或短語(yǔ)。
針對(duì)上述問題,提出了一個(gè)基于圖的關(guān)鍵詞提取算法,EPRank(word Ranking using word Embeddings and Position information)。它主要貢獻(xiàn)在于融合詞向量與位置信息對(duì)詞圖中的每個(gè)詞進(jìn)行打分,具體包括以下四個(gè)基本步驟:
(1)篩選候選關(guān)鍵詞:也稱為文本預(yù)處理,主要是通過去除停用詞和詞性過濾從目標(biāo)文檔中獲取候選關(guān)鍵詞。因大多數(shù)關(guān)鍵詞都是名詞短語(yǔ)并且它們通常是由名詞和形容詞組成,所以本文只選擇名詞和形容詞作為文檔的候選關(guān)鍵詞。
(2)構(gòu)建候選關(guān)鍵詞圖:利用給定大小的滑動(dòng)窗口在目標(biāo)文檔序列上滑動(dòng),同一個(gè)窗口內(nèi)的詞認(rèn)為具有共現(xiàn)關(guān)系,據(jù)此建立候選關(guān)鍵詞圖。
(3)對(duì)詞圖中的候選關(guān)鍵詞進(jìn)行打分。本文嘗試將文本序列中詞之間的潛在語(yǔ)義關(guān)系整合到PageRank模型中,并提出了融合詞向量與位置信息的詞打分方法。將在3.4節(jié)詳細(xì)介紹這部分的內(nèi)容。
(4)提取關(guān)鍵詞或關(guān)鍵短語(yǔ)。首先根據(jù)上一步中得到的評(píng)分較高的前幾個(gè)候選關(guān)鍵詞生成n-grams候選關(guān)鍵短語(yǔ);然后根據(jù)組成候選關(guān)鍵短語(yǔ)的單詞計(jì)算它的整體得分,具體計(jì)算公式如下:
其中,R(w)代表候選單詞w 的分?jǐn)?shù),ψp是與短語(yǔ)p 的長(zhǎng)度相關(guān)的權(quán)重,具體取值詳見4.1.3 小節(jié);最后將得分較高的候選詞或短語(yǔ)作為最終的關(guān)鍵詞或詞組。
詞嵌入向量(Word Embedding),也稱為詞的分布式表示,是利用深度學(xué)習(xí)技術(shù)將文本數(shù)據(jù)中的每個(gè)詞語(yǔ)表示為一個(gè)多維的特征向量,該特征向量可以反映文本中詞語(yǔ)之間的潛在語(yǔ)義關(guān)系。本文用到Skip-gram、TWE-1 和fastText 三個(gè)已有的詞向量表示模型,三個(gè)模型的共同之處是詞向量可以反映出詞和它的周圍詞(也稱為上下文,Context)之間的局部的語(yǔ)義關(guān)系,而這種局部的語(yǔ)義關(guān)系是非常重要的信息。本文嘗試將這種局部的語(yǔ)義關(guān)系信息融合到基于圖的關(guān)鍵詞提取方法中。
Skip-gram模型[17]是2013年谷歌公司提出的詞向量表示模型,其目標(biāo)是最大化由中心詞wi生成其周圍詞wi-c至wi+c的條件概率,目標(biāo)函數(shù)具體如下:
其中,N 為文本序列D 中詞的個(gè)數(shù),c 為周圍詞窗口的大小。
TWE-1 模型[18]是2015 年清華大學(xué)提出的融合主題信息的詞向量表示模型,該模型引入了主題信息z,其目標(biāo)是最大化中心詞wi和其主題zi生成其周圍詞wi-c至wi+c的條件概率之和,目標(biāo)函數(shù)為:
TWE-1 學(xué)得的詞向量除了包含周圍詞之間的潛在語(yǔ)義關(guān)系信息還融合了主題信息。
fastText模型[19]是2016年Facebook公司提出的詞向量表示模型,該模型將一個(gè)單詞劃分若干個(gè)子序列(例如where 劃分為
本文分別使用上述三種詞向量進(jìn)行實(shí)驗(yàn),除此之外,候選關(guān)鍵詞在文本中所處的位置也是非常重要的信息,常常作為一個(gè)重要特征用在有監(jiān)督的提取方法中。不同方法中有不同的位置特征定義,本文將位置特征定義如下:
其中,tf(wi)為詞wi在目標(biāo)文檔中出現(xiàn)的次數(shù),pk(wi)為詞wi在文檔序列中第k 次出現(xiàn)的位置下標(biāo)。例如,一個(gè)文本序列“w1w2w3w2w4w5w6w2w7w1”,對(duì)于給定的詞w2,它在文本序列中出現(xiàn)的次數(shù)為tf(w2)=3,出現(xiàn)的位置分別為p1(w2)=2 、p2(w2)=4 、p3(w2)=8 。根據(jù)公式(4),它的位置特征pos(w2)=1/2+1/4+1/8=0.875。該特征不僅反映了候選關(guān)鍵詞每次出現(xiàn)的位置權(quán)重,還反映了候選關(guān)鍵詞出現(xiàn)的頻度。
基于PageRank 的圖提取方法是在詞圖上利用隨機(jī)游走技術(shù)對(duì)詞圖中的詞節(jié)點(diǎn)進(jìn)行評(píng)分。對(duì)于詞圖中的任一詞節(jié)點(diǎn)wi,其PageRank 分?jǐn)?shù)R(wi)可遞歸計(jì)算如下:
其中,系數(shù)λ 用來(lái)調(diào)節(jié)轉(zhuǎn)移概率和重置概率所占比重,e(wj,wi)是邊(wj,wi)的權(quán)重,O(wj)=wk:wj→wke(wj,wk)是詞wj的出度,e(wj,wi)/O(wj)為轉(zhuǎn)移概率,其值越大會(huì)使詞wi在隨機(jī)游走的迭代過程中從wj上獲得越高的分?jǐn)?shù),r(wi)是重置概率,最終的PageRank 分?jǐn)?shù)將有利于具有較大重啟概率的候選關(guān)鍵詞。
為了提高關(guān)鍵詞提取的效果,本文嘗試將文本序列之間潛在語(yǔ)義關(guān)系融合到PageRank 框架中,為此設(shè)計(jì)了一個(gè)新方案來(lái)計(jì)算公式(5)中邊的權(quán)重e(wj,wi),具體計(jì)算公式如下:
星光村鄉(xiāng)村旅游發(fā)展僅僅2年時(shí)間,尚處于旅游發(fā)展的初級(jí)階段。目前主要依托水果產(chǎn)業(yè)發(fā)展觀光游覽、水果采摘等節(jié)事活動(dòng),受花期和采摘期季節(jié)影響較大,旅游淡旺季明顯。游客活動(dòng)方面,以觀光為主,消費(fèi)水平整體不高。由于缺乏特色項(xiàng)目的帶動(dòng),留不住游客,雖然有鄉(xiāng)村咖啡屋、私房菜、稻草藝術(shù)展等新業(yè)態(tài)的帶動(dòng),但內(nèi)容單一、規(guī)模小,帶動(dòng)作用不明顯。國(guó)學(xué)、漢文化、繪畫等培訓(xùn)班及民宿等游客停留時(shí)間長(zhǎng)的業(yè)態(tài)還在建或才開業(yè)不久,旅游效益還未顯現(xiàn)。
在上述公式中,dice(wj,wi)為Dice 系數(shù)[20],它最初是用來(lái)衡量?jī)蓚€(gè)集合之間的相似度,后來(lái)被自然語(yǔ)言處理領(lǐng)域用來(lái)衡量?jī)蓚€(gè)單詞同時(shí)出現(xiàn)在同一個(gè)短語(yǔ)中的概率,具體計(jì)算公式如下:
其中,cf(wj,wi)為詞wj和wi在目標(biāo)文檔中的共現(xiàn)次數(shù),tf(wi)為詞wi在目標(biāo)文檔中出現(xiàn)的次數(shù)。
在公式(6)中,prs(wj,wi)使用了詞向量與位置信息,用來(lái)衡量目標(biāo)文檔中兩個(gè)詞wj和wi在語(yǔ)義相似度下的位置關(guān)系強(qiáng)度,具體計(jì)算公式如下:
其中,pos(w)為詞w 在目標(biāo)文檔中的位置信息,具體計(jì)算詳見公式(4),d(wj,wi)是詞wj和wi在詞向量空間下的語(yǔ)義距離。本文實(shí)驗(yàn)比較了余弦距離和歐氏距離,發(fā)現(xiàn)歐氏距離表現(xiàn)得更好,故本文使用歐氏距離d(wj,wi)=||vj-vi||2,其中vj和vi分別是詞wj和wi的詞向量。本文使用了3.3節(jié)所述三種詞向量模型訓(xùn)練單詞的詞向量并在4.2節(jié)對(duì)其進(jìn)行比較。
根據(jù)公式(6)的設(shè)計(jì),若兩個(gè)詞出現(xiàn)在同一個(gè)短語(yǔ)的概率越大,并且詞間的語(yǔ)義距離越小,位置關(guān)系強(qiáng)度越大,則它們的邊權(quán)重越大。根據(jù)PageRank 的原理可知,在公式(5)的迭代計(jì)算,若兩個(gè)詞的邊權(quán)重越大,則這兩個(gè)詞將更傾向于獲得更高的打分,從而更容易成為關(guān)鍵詞。
4.1.1 數(shù)據(jù)集
本文使用了來(lái)自在兩個(gè)計(jì)算機(jī)領(lǐng)域頂級(jí)會(huì)議發(fā)表的文章的摘要,它們分別是ACM 的數(shù)據(jù)挖掘會(huì)議(KDD)和信息檢索會(huì)議(SIGIR),前者KDD 數(shù)據(jù)集是由Caragea[12]提供,后者SIGIR數(shù)據(jù)集是本文采集的新數(shù)據(jù)集。實(shí)驗(yàn)評(píng)估采用了作者在文章中給出的關(guān)鍵詞作為對(duì)照標(biāo)準(zhǔn),且要求完全匹配才算作提取正確。表1統(tǒng)計(jì)了兩個(gè)數(shù)據(jù)集的一些重要指標(biāo)。
由表1可知,兩個(gè)數(shù)據(jù)集具有以下基本特征:(1)每篇論文平均約有4 個(gè)關(guān)鍵詞;(2)可提取關(guān)鍵詞的比例約為一半左右,也即論文中作者給出的關(guān)鍵詞一半出現(xiàn)在摘要中,另外一半沒有出現(xiàn)在摘要中;(3)2元關(guān)鍵詞占多數(shù),而3元和大于3元的關(guān)鍵詞較少。
為了說(shuō)明模型的有效性,本文選取了五個(gè)已有的無(wú)監(jiān)督的方法與本文提出的模型EPRank 進(jìn)行對(duì)比,這些方法的具體介紹如下:
(1)TF-IDF:在無(wú)監(jiān)督關(guān)鍵詞提取中,最簡(jiǎn)單且相對(duì)有效的方法是直接根據(jù)候選關(guān)鍵詞的TF-IDF值(詞頻-逆文本頻率)對(duì)其進(jìn)行打分排序。
(2)TextRank[8]:該方法是首個(gè)直接使用PageRank算法在詞圖上對(duì)候選關(guān)鍵詞進(jìn)行打分排序的方法,其中邊權(quán)重為共現(xiàn)次數(shù),即e(wj,wi)=cf(wj,wi);重啟概率設(shè)為1,即r(w)=1。
(3)Single-TPR[14]:與TextRank 相比,該方法將候選關(guān)鍵詞的主題信息融合到PageRank的重啟概率中。該方法首先使用LDA模型計(jì)算文檔中主題的分布向量和詞在不同主題下的分布向量,將二者的余弦相似度賦值給重啟概率r(w)。
(4)WordAttractionRank[13](簡(jiǎn)記為WAR):與TextRank相比,該方法使用在Wikipedia 上預(yù)訓(xùn)練的詞向量來(lái)增強(qiáng)詞與詞之間共現(xiàn)關(guān)系,本文在重現(xiàn)該方法時(shí)采用了fastText 詞向量模型,該信息通過修改轉(zhuǎn)移概率融合到PageRank模型中。
(5)PositionRank[15]:與TextRank 相比,該方法直接將位置信息融合到PageRank的重置概率中。
4.1.3 參數(shù)設(shè)置
本文使用了三個(gè)經(jīng)典的詞向量表示模型:Skip-gram、TWE-1 和fastText。通過訓(xùn)練參數(shù)和為了實(shí)驗(yàn)的公平性,所有模型所學(xué)的詞向量維度均設(shè)為300 維;窗口大小設(shè)置為5,初始學(xué)習(xí)率設(shè)為0.025;在Skip-gram 中,負(fù)采樣的個(gè)數(shù)設(shè)為3;在TWE-1 中,主題的個(gè)數(shù)設(shè)為50;fastText詞向量來(lái)于谷歌公司2017年公布的在Wikipedia上使用fastText默認(rèn)參數(shù)訓(xùn)練的詞向量集(https://github.com/facebookresearch/fastText/blob/master/pretrainedvectors.md)。
表1 實(shí)驗(yàn)中使用的數(shù)據(jù)集
此外,關(guān)鍵詞提取時(shí)構(gòu)建詞圖的共現(xiàn)窗口大小c 一般設(shè)置為1~10,窗口越大,方法的算法復(fù)雜度越大。本文c 設(shè)置為2。公式(1)中調(diào)節(jié)候選關(guān)鍵詞組的長(zhǎng)度重要性的權(quán)重系數(shù)ψp在1/|p|左右取值,本文設(shè)置如下:如果|p|=1,則ψp=1;如果|p|=2,則ψp=0.62;如果|p|≥3,則ψp=0.3。
4.1.4 性能評(píng)估指標(biāo)
在關(guān)鍵詞提取方法的性能評(píng)估中,通常廣泛采用以下四個(gè)指標(biāo):(1)準(zhǔn)確率P=#c/#p,(2)召回率R=#c/#s,(3)F1 值F1=2×P×R/(P+R),(4)平均倒數(shù)等級(jí)(Mean Reciprocal Rank,MRR),該指標(biāo)用來(lái)衡量關(guān)鍵詞提取的排序是否合理,具體定義如下:
其中,#c 表示抽取正確的關(guān)鍵詞總個(gè)數(shù),#p 表示抽取的關(guān)鍵詞總個(gè)數(shù),#s 表示數(shù)據(jù)集中標(biāo)注的關(guān)鍵詞總個(gè)數(shù),D 表示所有的文檔集合,rankd表示文檔d 第一個(gè)正確提取的關(guān)鍵詞的排序。實(shí)驗(yàn)結(jié)果中指標(biāo)P 、R、F1 值和MRR 的值越大,表明關(guān)鍵詞提取的效果越好。
由表1可知,數(shù)據(jù)集中給出的關(guān)鍵詞有一半左右沒有出現(xiàn)在摘要中,而且本實(shí)驗(yàn)的評(píng)估標(biāo)準(zhǔn)較為嚴(yán)格。實(shí)驗(yàn)中提取的關(guān)鍵詞與數(shù)據(jù)集標(biāo)注的關(guān)鍵詞完全匹配時(shí)才算做一個(gè)正例,而非二者取詞干后匹配即可成為正例。因此實(shí)驗(yàn)提升難度較大。
圖1 不同k 值下關(guān)鍵詞提取的F1 值的變化
4.2.1 在top k 下不同提取方法的性能對(duì)比
在無(wú)監(jiān)督的關(guān)鍵詞提取方法中,一般會(huì)取排名靠前的k 個(gè)(也稱為top k)候選關(guān)鍵詞或詞組作為最后的關(guān)鍵詞。無(wú)監(jiān)督提取方法的性能與top k 的取值密切相關(guān),當(dāng)top k 取值較小時(shí),召回率R 會(huì)很低;當(dāng)top k取值較大時(shí),準(zhǔn)確率P 會(huì)降低,而召回率R 會(huì)增大。為了方便在圖上進(jìn)行直觀比較,此處使用F1 值和MRR兩個(gè)綜合指標(biāo)來(lái)衡量不同方法的提取性能。根據(jù)top k取值的不同,不同方法在兩個(gè)數(shù)據(jù)集上的F1 值變化詳見圖1,MRR 值的變化詳見圖2。
從圖1(a)可知,在KDD 數(shù)據(jù)集上,本文提出的EPRank方法在三個(gè)不同的詞向量下均明顯好于其他對(duì)比方法,特別是在使得F1 值達(dá)到頂峰的top k=4 附近,EPRank 方法相對(duì)于其他對(duì)比方法有很大的優(yōu)勢(shì)。從圖1(b)可知,在SIGIR 數(shù)據(jù)集上,盡管PositionRank方法也取得不錯(cuò)的性能(其性能好于EPRank(fastText)方法),但是提出的EPRank(TWE-1)和EPRank(Skipgram)的性能明顯占據(jù)優(yōu)勢(shì)。
圖2 給出了不同方法在兩個(gè)數(shù)據(jù)集上的平均倒數(shù)等級(jí)MRR 值的實(shí)驗(yàn)結(jié)果。從圖上可以明顯得出,隨著top k 的增加,兩個(gè)數(shù)據(jù)集上不管是哪個(gè)提取方法都更容易提取到正確的關(guān)鍵詞,因此MRR 值也在遞增。此外,提出的方法EPRank(TWE-1)、EPRank(Skip-gram)和EPRank(fastText)的MRR 值在KDD 和SIGIR 數(shù)據(jù)集上均明顯高于其他5個(gè)關(guān)鍵詞提取提方法,說(shuō)明EPRank預(yù)測(cè)正確的關(guān)鍵詞更靠前,更有利于為文檔提取到正確的關(guān)鍵詞。
4.2.2 top k=4 時(shí)不同提取方法的性能對(duì)比
因本文所使用的兩個(gè)數(shù)據(jù)集中文章的平均關(guān)鍵詞個(gè)數(shù)約為4個(gè)(KDD的是4.03個(gè),SIGIR的是3.81個(gè),見表1),故選取排名靠前的4個(gè)(top k=4)候選關(guān)鍵詞作為最終的關(guān)鍵詞進(jìn)行性能對(duì)比,具體結(jié)果詳見表2。
圖2 不同k 值下關(guān)鍵詞提取的MRR值變化
表2 當(dāng)top k=4時(shí)KDD和SIGIR數(shù)據(jù)集上關(guān)鍵詞提取方法對(duì)比
觀察表2,可以得出以下結(jié)論:
第一,TWE-1 和Skip-gram 兩個(gè)詞向量模型的效果要好于fastText 模型,主要原因應(yīng)該是它們的訓(xùn)練語(yǔ)料集不同。fastText詞向量是從Wikipedia中學(xué)習(xí)得到,而TWE-1 和Skip-gram 詞向量是從SIGIR 或KDD 兩個(gè)目標(biāo)語(yǔ)料集訓(xùn)練得到。這說(shuō)明在目標(biāo)語(yǔ)料庫(kù)上訓(xùn)練的詞向量比在Wikipedia 上訓(xùn)練的詞向量更有利于關(guān)鍵詞提取。
第二,本文提出的融合詞向量與位置信息的方式更有利于關(guān)鍵詞的提取。首先對(duì)比EPRank(fastText)和WAR(fastText),雖然這兩種方法均在PageRank 算法的轉(zhuǎn)移概率矩陣中使用了fastText 詞向量,但是EPRank(fastText)因?yàn)槲恢眯畔⒌募尤朐贙DD和SIGIR數(shù)據(jù)集上的F1值比WAR(fastText)提高了約2個(gè)百分點(diǎn);MRR值在KDD 上提高了4.77%,在SIGIR 上提高了7.28%。其次對(duì)比EPRank(Skip-gram)和PositionRank,這兩種方法均在PageRank 算法中使用了位置信息,但是EPRank(Skip-gram)因?yàn)镾kip-gram 詞向量的加入在KDD 上比PositionRank的F1 值高出1.99%,MRR 值高出5.45%;在SIGIR 上的F1 值高出0.73%,MRR 值高出3.84%。由此證明了提出的融合詞向量與位置信息的關(guān)鍵詞提取方法在關(guān)鍵詞提取任務(wù)上的有效性。
自動(dòng)關(guān)鍵詞提取問題是自然語(yǔ)言處理領(lǐng)域中亟待解決的基礎(chǔ)關(guān)鍵問題。本文聚焦于基于圖的無(wú)監(jiān)督提取方法,嘗試將可以表示文本序列中詞與詞之間的潛在語(yǔ)義關(guān)系的詞向量與位置信息同時(shí)融合到基于PageRank算法框架中。實(shí)驗(yàn)數(shù)據(jù)來(lái)自于發(fā)表在計(jì)算機(jī)領(lǐng)域的兩個(gè)國(guó)際會(huì)議KDD 和SIGIR 上的文章。實(shí)驗(yàn)結(jié)果表明,本文提出的EPRank在各項(xiàng)性能評(píng)估指標(biāo)上均優(yōu)于現(xiàn)有的無(wú)監(jiān)督對(duì)比方法。未來(lái),計(jì)劃將提出的算法在其他領(lǐng)域的數(shù)據(jù)集上進(jìn)行測(cè)試,如生物、醫(yī)學(xué)等學(xué)科領(lǐng)域,以便進(jìn)一步檢驗(yàn)所提出算法的有效性。