余本功 張宏梅 曹雨蒙
知識(shí)組織與應(yīng)用
基于多元特征加權(quán)改進(jìn)的TextRank關(guān)鍵詞提取方法*
余本功 張宏梅 曹雨蒙
(合肥工業(yè)大學(xué)管理學(xué)院,合肥 230009)
現(xiàn)有的關(guān)鍵詞提取方法從文檔集或者單文檔方面考慮詞語的特征,很少考慮詞語在單文檔和文檔集中的綜合特征對(duì)關(guān)鍵詞提取效果產(chǎn)生的影響,因此,本文提出多元特征加權(quán)的關(guān)鍵詞提取方法。該方法通過Word2vec模型提取出詞語在文檔集中的語義關(guān)系特征與詞語在單文檔中的重要性特征,通過線性加權(quán)的方式計(jì)算出詞語的綜合影響力,用于改進(jìn)TextRank模型中的概率轉(zhuǎn)移矩陣,最后迭代計(jì)算選取排名靠前的詞語作為文檔的關(guān)鍵詞。實(shí)驗(yàn)結(jié)果表明,從單文檔和文檔集兩方面綜合考慮詞語的影響力,可以有效地改善關(guān)鍵詞的提取效果。
關(guān)鍵詞提??;TextRank ;Word2vec;多元特征加權(quán)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動(dòng)互聯(lián)網(wǎng)的普及,以論壇、博客、頭條和知乎社區(qū)為主流的媒介平臺(tái)成為人們共享知識(shí)及發(fā)表言論的重要場(chǎng)所。這些平臺(tái)上存儲(chǔ)大量有用的非結(jié)構(gòu)化文本信息,如何從承載這些信息的文本中提取對(duì)用戶有用的信息成為了一個(gè)亟需解決的難題。自然語言處理技術(shù)為解決這一難題提供了強(qiáng)有力的技術(shù)支撐。
關(guān)鍵詞提取作為自然語言處理的核心技術(shù)之一,對(duì)自然語言處理技術(shù)的應(yīng)用有重要的作用。一方面,它為自然語言處理中的文本聚類分類、熱點(diǎn)識(shí)別、創(chuàng)新評(píng)價(jià)研究,以及知識(shí)圖譜和領(lǐng)域知識(shí)網(wǎng)絡(luò)的構(gòu)建打下了基礎(chǔ)[1-5];另一方面,關(guān)鍵詞提取技術(shù)可以提高用戶檢索信息的效率和準(zhǔn)確性[6],幫助用戶獲得有用信息。如在中國知網(wǎng)上搜索學(xué)術(shù)論文時(shí),用戶一般會(huì)通過輸入的關(guān)鍵詞檢索論文,而網(wǎng)頁是通過與用戶輸入的關(guān)鍵詞進(jìn)行匹配,返回給用戶相似度最高的文章。因此,對(duì)關(guān)鍵詞提取進(jìn)行研究是十分必要的,特別是在文本信息應(yīng)用和信息檢索等方面具有極其重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。
當(dāng)前,關(guān)鍵詞提取方法主要分為有監(jiān)督方法和無監(jiān)督方法。有監(jiān)督方法是將關(guān)鍵詞提取問題轉(zhuǎn)化為分類問題或標(biāo)注問題[7-8],借助分類算法來判斷候選詞是否為關(guān)鍵詞,由于語料集難以獲取,有監(jiān)督方法受到了制約,無監(jiān)督方法因不需訓(xùn)練語料而受到了學(xué)者的廣泛關(guān)注。因此,研究者們圍繞無監(jiān)督方法進(jìn)行了大量的研究工作,來改進(jìn)關(guān)鍵詞提取的效果。
隨著自然語言處理技術(shù)的發(fā)展,研究者在關(guān)鍵詞提取方法上不斷創(chuàng)新,使得關(guān)鍵詞提取方法更加成熟。關(guān)鍵詞提取無監(jiān)督方法主要包括3種,基于主題模型的關(guān)鍵詞提取方法[9]、基于統(tǒng)計(jì)特征的關(guān)鍵詞提取方法[10]和基于圖模型的關(guān)鍵詞提取方法[11-12]。在這3種方法中,基于主題模型的關(guān)鍵詞提取方法僅考慮了主題信息,丟失了關(guān)鍵詞本身的統(tǒng)計(jì)特征信息;基于統(tǒng)計(jì)特征的關(guān)鍵詞提取方法容易忽略詞語的語義信息;基于圖模型的關(guān)鍵詞提取方法沒有考慮統(tǒng)計(jì)特征對(duì)詞語節(jié)點(diǎn)權(quán)重的影響。因此,在對(duì)無監(jiān)督方法進(jìn)行研究的過程中,如何揚(yáng)長(zhǎng)避短是研究者思考的重點(diǎn)。
基于主題模型的關(guān)鍵詞提取方法是通過主題模型中主題分布的性質(zhì)對(duì)關(guān)鍵詞進(jìn)行提取。LDA是主題模型中應(yīng)用最廣的模型[13],其核心思想是文檔由多個(gè)主題構(gòu)成,而主題是由詞語的概率分布表示,只要找到文檔的主題,然后選擇主題中概率最大的詞語,就可以將其作為文檔的關(guān)鍵詞。為進(jìn)一步提高關(guān)鍵詞提取效果,研究者在LDA模型上做了許多改進(jìn)工作。朱澤德等[14]將LDA模型與TFIDF相融合,提出一種基于文檔隱含主題的關(guān)鍵詞提取新算法TFITF;李湘東等[15]在抽取粗粒度特征時(shí),將詞性、詞語位置等權(quán)重?cái)U(kuò)展到LDA的生成模型中,增強(qiáng)了特征的表意性;邱明濤等[16]利用擴(kuò)展的LDA模型調(diào)整詞語的權(quán)值,彌補(bǔ)了LDA模型在話題解釋性上的不足;楊春艷等[17]引入引用內(nèi)容,建立Labeled-LDA模型,從語義層面分析了文檔中詞匯之間的關(guān)系,提高了主題提取的質(zhì)量與準(zhǔn)確率。
基于統(tǒng)計(jì)特征的關(guān)鍵詞提取方法主要是利用詞語在文檔中的詞權(quán)重、詞語位置,以及詞語的關(guān)聯(lián)信息衡量詞語是否能夠作為文章的關(guān)鍵詞。詞權(quán)重主要包括詞性、詞頻、詞長(zhǎng)等,而詞語位置是指文檔中詞語的分布信息,如標(biāo)題、段首、段尾;詞語的關(guān)聯(lián)信息涵蓋互信息、均值、方差、TFIDF[18]等。在基于統(tǒng)計(jì)的關(guān)鍵詞提取方法中,有學(xué)者對(duì)這些統(tǒng)計(jì)特征進(jìn)行線性組合,通過計(jì)算得分來選取關(guān)鍵詞,如著名的YAKE方法[19]綜合影響詞語得分的詞頻、長(zhǎng)度、位置、首字母狀態(tài)等信息對(duì)關(guān)鍵詞重要性進(jìn)行評(píng)分。但大多數(shù)學(xué)者是以TFIDF為核心,將常見的統(tǒng)計(jì)特征引入TFIDF中來改進(jìn)關(guān)鍵詞提取方法。羅燕等[20]通過齊普夫定律推導(dǎo)出同頻詞數(shù)統(tǒng)計(jì)規(guī)律,提出結(jié)合同頻詞數(shù)統(tǒng)計(jì)規(guī)律的TFIDF關(guān)鍵詞提取方法;余本功等[21]使用詞性和調(diào)節(jié)函數(shù)對(duì)TFIDF進(jìn)行優(yōu)化,并結(jié)合問答社區(qū)中多個(gè)用戶特征綜合計(jì)算詞語的權(quán)重,獲得更加精準(zhǔn)的關(guān)鍵詞;陳列蕾等[22]提出結(jié)合詞語位置分布特征與基于Scopus數(shù)據(jù)庫檢索的TFIDF從英文摘要中提取關(guān)鍵詞的方法。除此之外,為使TFIDF方法能夠適合不同長(zhǎng)度的語料,F(xiàn)lorescu等[23]提出使用單詞的算數(shù)平均值來代替IDF的對(duì)數(shù)取值計(jì)算方式,其效果優(yōu)于傳統(tǒng)的TFIDF方法。
基于圖模型的關(guān)鍵詞提取方法以TextRank[12]模型為代表,是目前應(yīng)用最廣泛的方法。該方法受PageRank的啟發(fā),通過詞語間的共現(xiàn)關(guān)系建立網(wǎng)絡(luò)圖,然后進(jìn)行迭代排序,抽取前N個(gè)詞語作為關(guān)鍵詞。由于該模型具有很強(qiáng)的適應(yīng)性和擴(kuò)展能力,因此,研究者在此基礎(chǔ)上進(jìn)行了改進(jìn),主要分為兩個(gè)方面。一是在TextRank中引入統(tǒng)計(jì)特征屬性。李航等[24]使用神經(jīng)網(wǎng)絡(luò)對(duì)詞語平均信息熵、詞性、位置進(jìn)行加權(quán)計(jì)算,將得到的綜合權(quán)重融合到TextRank中,以改進(jìn)詞語節(jié)點(diǎn)的初始權(quán)重及概率轉(zhuǎn)移矩陣;Yan[25]將詞語的上下文信息、詞語位置、詞語中心等特征引入圖模型中,用于改進(jìn)節(jié)點(diǎn)的初始權(quán)重;Biswas等[26]提出用于提取Twitter的KECNW模型,著重強(qiáng)調(diào)了圖模型的集體節(jié)點(diǎn)權(quán)重取決于頻率、中心性、鄰居節(jié)點(diǎn)位置等參數(shù);張莉婧等[27]通過引入G1賦權(quán)法對(duì)TFIDF、詞語位置、詞語長(zhǎng)度和詞性賦予不同權(quán)重并計(jì)算綜合權(quán)重,對(duì)TextRank中的重啟概率和概率轉(zhuǎn)移矩陣進(jìn)行改進(jìn);夏天[28]將覆蓋影響力、位置影響力和頻度影響力引入TextRank中,通過計(jì)算詞語間的影響力,從而實(shí)現(xiàn)對(duì)概率轉(zhuǎn)移矩陣的改進(jìn);劉竹辰等[29]在學(xué)者夏天的基礎(chǔ)上對(duì)詞語位置進(jìn)行修改,提高了關(guān)鍵詞提取的準(zhǔn)確率。二是模型間的相互融合。在模型相互融合方面,主要是利用LDA模型和Word2vec[30]對(duì)TextRank進(jìn)行改進(jìn)。在LDA與TextRank結(jié)合方面,一些學(xué)者選擇先對(duì)候選關(guān)鍵詞進(jìn)行聚類,然后將其作為圖中的節(jié)點(diǎn)進(jìn)行迭代計(jì)算,從而獲得關(guān)鍵詞,如TopicRank[31]模型與Multipartiterank[32]模型,后者是在前者的基礎(chǔ)上進(jìn)行改進(jìn),更加強(qiáng)調(diào)主題的多樣性;然而,通過主題模型獲得主題影響力或用詞語相似性來改進(jìn)TextRank中的概率轉(zhuǎn)移矩陣和節(jié)點(diǎn)初始值占據(jù)了該方面研究的主流地位[33-35]。在Word2vec與TextRank結(jié)合方面,夏天[36]利用Word2vec生成詞向量,對(duì)詞向量進(jìn)行聚類以獲取聚類影響力,并與位置影響力、覆蓋影響力進(jìn)行加權(quán),改進(jìn)詞語節(jié)點(diǎn)間的概率轉(zhuǎn)移矩陣,提高了關(guān)鍵詞提取的準(zhǔn)確率;寧建飛等[37]利用Word2vec將文檔集中的詞語生成詞向量,構(gòu)建詞語相似度矩陣,改進(jìn)TextRank中節(jié)點(diǎn)的初始權(quán)重以及概率轉(zhuǎn)移矩陣。
綜上所述,利用多特征融合或模型結(jié)合的無監(jiān)督方法在一定程度上提升了關(guān)鍵詞提取的效果。如在基于圖模型的關(guān)鍵詞提取方法中,將Word2vec計(jì)算出的詞語相似性引入圖模型中,取得了一定的效果,但尚未考慮到詞語在文檔內(nèi)的重要性特征。因此,本文在已有研究的基礎(chǔ)上將文檔內(nèi)詞語重要性與詞語在文檔集上的語義關(guān)系進(jìn)行線性加權(quán),將計(jì)算的詞語綜合影響力用于改進(jìn)TextRank中的概率轉(zhuǎn)移矩陣,通過強(qiáng)化詞語節(jié)點(diǎn)的權(quán)值,達(dá)到改善節(jié)點(diǎn)間影響力的相互傳遞目的,從而提高關(guān)鍵詞提取的效果。
在現(xiàn)有關(guān)鍵詞提取方法的基礎(chǔ)上,本文提出一種多元特征加權(quán)改進(jìn)的TextRank關(guān)鍵詞提取方法(Improved TextRank Keyword Extraction Method Based on Multivariate Features Weighted,MFW-ITKEM),基本流程如圖1所示。詞語語義關(guān)系特征會(huì)在一定程度上影響詞語節(jié)點(diǎn)間的關(guān)系;而文檔內(nèi)詞語的重要性有利于反映詞語是否為文檔的核心部分,其權(quán)值越大,說明該詞語越有可能是文檔的關(guān)鍵詞,文檔內(nèi)詞語的重要性體現(xiàn)在詞語節(jié)點(diǎn)出度特征、詞語節(jié)點(diǎn)位置特征以及詞語節(jié)點(diǎn)頻次特征3個(gè)方面。本文通過線性加權(quán)的方式將詞語語義關(guān)系、詞語節(jié)點(diǎn)出度、詞語節(jié)點(diǎn)位置和詞語節(jié)點(diǎn)頻次4個(gè)特征進(jìn)行綜合度量,計(jì)算詞語的綜合影響力,并將其用于改進(jìn)候選關(guān)鍵詞圖中的概率轉(zhuǎn)移矩陣,優(yōu)化圖中詞語節(jié)點(diǎn)的迭代計(jì)算過程,獲取文檔內(nèi)詞語節(jié)點(diǎn)的權(quán)值,實(shí)現(xiàn)關(guān)鍵詞的抽取。
根據(jù)TextRank原理,中文文檔的候選關(guān)鍵詞圖的構(gòu)建分為兩個(gè)環(huán)節(jié)。對(duì)文檔進(jìn)行分句、分詞,去停用詞,保留詞性為名詞、動(dòng)詞、形容詞、副詞的詞語,獲得候選關(guān)鍵詞集合T=[w1,w2,…wm]。根據(jù)T中詞語的相鄰關(guān)系構(gòu)建候選關(guān)鍵詞圖G=(V,E),V是圖中的節(jié)點(diǎn)集合,由T中的候選關(guān)鍵詞組成,E是相鄰候選關(guān)鍵詞之間的邊集合。對(duì)于圖中任意的兩個(gè)相鄰的節(jié)點(diǎn),添加v→v和v→v兩條邊,將TextRank構(gòu)建為一個(gè)有向圖。節(jié)點(diǎn)v的TextRank值見公式(1)。
其中,(v)表示節(jié)點(diǎn)v的出度,d是阻尼系數(shù),默認(rèn)取值為0.85,V是節(jié)點(diǎn)集合數(shù)。通過公式(1)進(jìn)行迭代至收斂,即可獲得文檔中每個(gè)詞的權(quán)重。
多元特征用于計(jì)算節(jié)點(diǎn)的綜合影響力,即詞語在單文檔中的重要性以及詞語在文檔集中存在的語義關(guān)系,多元特征導(dǎo)向見圖2。詞語在單文檔中的重要性由詞語節(jié)點(diǎn)的出度特征、詞語節(jié)點(diǎn)的頻次特征、詞語節(jié)點(diǎn)在文檔內(nèi)的位置特征構(gòu)成;而詞語在文檔集中的語義關(guān)系是通過Word2vec將詞典表征為詞向量,計(jì)算向量間的相似度來獲得詞語在語義方面的關(guān)系。因此,提出詞語的綜合影響力計(jì)算公式(2)。
其中,θ和π是詞語在文檔內(nèi)及文檔集上特征的系數(shù),(im(v,v))為在文檔集中詞匯之間的相似度,θ和π在實(shí)驗(yàn)中取值都為0.5。
2.3.1 文檔內(nèi)詞語節(jié)點(diǎn)重要性的計(jì)算
在關(guān)鍵詞圖中,一個(gè)詞語節(jié)點(diǎn)對(duì)其鄰居節(jié)點(diǎn)的影響力是由該詞語節(jié)點(diǎn)的重要性決定的,本文在已有研究基礎(chǔ)上將詞語節(jié)點(diǎn)在單文檔中的特征分為詞語節(jié)點(diǎn)出度、詞語節(jié)點(diǎn)頻次以及詞語節(jié)點(diǎn)位置。令表示節(jié)點(diǎn)的重要性,、、表示3個(gè)要素所占的比例,通過公式(3)計(jì)算詞語節(jié)點(diǎn)的重要性。根據(jù)經(jīng)驗(yàn),參數(shù)設(shè)為α=0.34、β=0.33、γ=0.33。
(1)詞語節(jié)點(diǎn)出度特征。指詞語節(jié)點(diǎn)vi將其出度影響力均勻地分配給其他詞語節(jié)點(diǎn),旨在說明詞語節(jié)點(diǎn)vi與其相鄰詞語節(jié)點(diǎn)之間的關(guān)系。
(2)詞語節(jié)點(diǎn)頻次特征。指詞語在文本中出現(xiàn)的次數(shù),頻次越高的詞語其獲得的影響權(quán)重越大。
(3)詞語節(jié)點(diǎn)位置特征。指詞語在文本中所處的位置,一般詞語在標(biāo)題中的重要性高于其他位置。如果詞語在標(biāo)題中出現(xiàn),則取值為一個(gè)參數(shù),參數(shù)取值范圍?∈[20,30] ;如果在其他位置,則賦值為1。
2.3.2 文檔集詞語間的關(guān)系特征
(1)Word2vec模型。Word2vec是Google團(tuán)隊(duì)開源的將詞表征成向量的工具[30],主要包含跳字模型(skip-gram)和連續(xù)詞袋模型(Continuous Bag-Of-Words Model,CBOW),如圖3所示。CBOW模型和skip-gram模型都是由輸入層、投影層和輸出層組成,兩個(gè)模型不同之處在于CBOW模型是利用上下文來預(yù)測(cè)中心詞出現(xiàn)的概率,skip-gram模型是用中心詞預(yù)測(cè)上下文出現(xiàn)在中心詞附近的概率。與統(tǒng)計(jì)語言模型相比,Word2vec模型生成的詞向量不僅解決了維度災(zāi)難問題,而且通過相似性的計(jì)算強(qiáng)化了詞語之間的語義關(guān)系。因此,可以利用Word2vec訓(xùn)練得到的詞向量計(jì)算相似性,來獲得詞語之間的語義關(guān)系。
(2)文檔集中詞語節(jié)點(diǎn)語義特征的計(jì)算。為進(jìn)一步研究文檔集合中詞語節(jié)點(diǎn)存在的語義關(guān)系對(duì)單文檔中詞語節(jié)點(diǎn)的影響力,需要對(duì)文檔集合中詞語節(jié)點(diǎn)的語義關(guān)系進(jìn)行量化。本文利用Word2vec對(duì)文檔集中的詞語節(jié)點(diǎn)進(jìn)行詞向量表征,通過余弦公式計(jì)算詞向量的相似性,獲得詞語節(jié)點(diǎn)在文檔集中的語義關(guān)系特征。詞語節(jié)點(diǎn)在文檔集中語義關(guān)系的計(jì)算需要在構(gòu)建候選關(guān)鍵詞圖前完成,一般分為:①對(duì)給定的文檔集進(jìn)行分句、分詞,獲得詞匯集S1,S1由N個(gè)子詞匯集組成,每組子詞匯集對(duì)應(yīng)一篇文檔;②對(duì)詞匯集S1去停用詞,保留詞性為名詞、動(dòng)詞、形容詞及副詞的詞語,進(jìn)行合并生成詞典D=[w1,w2,…wn],該詞典是關(guān)鍵詞圖中所有候選關(guān)鍵詞的全集;③利用訓(xùn)練好的Word2vec對(duì)詞典D進(jìn)行詞向量表達(dá),得到D的詞向量。
通過詞典中詞語的詞向量,利用余弦公式計(jì)算詞典D中詞語的相似度,獲得詞語在文檔集中所存在的語法關(guān)系,故詞典中詞語的相似度計(jì)算見公式(4)。
其中,c是目標(biāo)文檔句中的第個(gè)詞,u是源文檔句中第個(gè)詞,u與c均為詞向量。
假設(shè)詞典的大小為n,則可以得到一個(gè)n×n的詞語相似度矩陣,見公式(5)。
其中,(im(v,v))表示詞典的相似度矩陣,w表示詞典中詞語節(jié)點(diǎn)v與v的相似度。
傳統(tǒng)的詞圖中,詞語節(jié)點(diǎn)的權(quán)重依賴于相鄰詞語節(jié)點(diǎn)的貢獻(xiàn)度。為了對(duì)TextRank進(jìn)行改進(jìn),本文引入詞語綜合影響力對(duì)概率轉(zhuǎn)移矩陣進(jìn)行優(yōu)化,提高關(guān)鍵詞提取的準(zhǔn)確性。詞語節(jié)點(diǎn)的權(quán)重由兩個(gè)因素所決定:一是詞語節(jié)點(diǎn)本身的重要性,代表詞語在文檔內(nèi)部結(jié)構(gòu)中的作用,一般設(shè)定為1,在迭代過程中由相鄰詞語節(jié)點(diǎn)的分值進(jìn)行調(diào)整,記為(v);二是由詞語在單文檔中重要性和詞語在文檔集中語義關(guān)系所構(gòu)成的分值,表示詞語的綜合影響力。因此,定義新的節(jié)點(diǎn)重要性迭代計(jì)算公式(6)。
在迭代計(jì)算前,構(gòu)建詞語節(jié)點(diǎn)間的概率轉(zhuǎn)移矩陣,見公式(7)。
其中,w表示節(jié)點(diǎn)v的影響力轉(zhuǎn)移到其他節(jié)點(diǎn)的概率,每列概率之和為1。w的權(quán)重可以通過公式(8)計(jì)算得到。
在引入概率轉(zhuǎn)移矩陣之后,令B表示一次迭代的結(jié)果,則迭代公式可以轉(zhuǎn)化為公式(9)。
其中,為維數(shù)為的單位向量。通過公式(9)進(jìn)行迭代計(jì)算,當(dāng)兩次的計(jì)算結(jié)果差異小于0.001時(shí),表明計(jì)算結(jié)果達(dá)到收斂狀態(tài)。最后對(duì)所有的詞語節(jié)點(diǎn)權(quán)重降序排列,將排名靠前的N個(gè)詞作為關(guān)鍵詞。
為了對(duì)提出的基于多元特征加權(quán)改進(jìn)的TextRank關(guān)鍵詞提取方法進(jìn)行驗(yàn)證,本文選取專利文本摘要進(jìn)行實(shí)證分析,并與其他學(xué)者提出的方法進(jìn)行對(duì)比,分析關(guān)鍵詞提取效果。專利文本是一種特殊的文本,它以精簡(jiǎn)的方式存儲(chǔ)著最新的科學(xué)技術(shù),通過對(duì)專利文本進(jìn)行挖掘,能夠快速地捕捉到技術(shù)前沿,為企業(yè)提供一定的參考價(jià)值,激發(fā)企業(yè)的創(chuàng)新能力。本文選取制造行業(yè)的汽車專利文本,提取汽車技術(shù)前沿的關(guān)鍵詞,為人們快速了解最新技術(shù)提供便捷。
本文數(shù)據(jù)來自國內(nèi)文獻(xiàn)檢索平臺(tái)中國知網(wǎng),選擇高級(jí)檢索方式,以“申請(qǐng)人=安徽江淮汽車股份有限公司”為檢索條件,選擇公開日期為2016年4月20日—2017年2月15日共1?038條文本,剔除文本摘要篇幅小于150字的專利文本,共得到843條文本,對(duì)得到的843條專利文本進(jìn)行數(shù)據(jù)清洗。剔除申請(qǐng)?zhí)?、專利?hào)、申請(qǐng)日、公開號(hào)等結(jié)構(gòu)化信息,保留專利文本的標(biāo)題和摘要文本,將每條專利摘要和標(biāo)題看作一個(gè)文檔存儲(chǔ)在xlsx文件中,為解決專利文本摘要中沒有標(biāo)準(zhǔn)的關(guān)鍵詞問題,筆者采用人工標(biāo)注的方式在每條專利摘要中標(biāo)注10個(gè)關(guān)鍵詞作為標(biāo)準(zhǔn)關(guān)鍵詞,與算法自動(dòng)提取出的關(guān)鍵詞進(jìn)行對(duì)比分析。
本實(shí)驗(yàn)使用Python自帶的結(jié)巴分詞工具對(duì)數(shù)據(jù)進(jìn)行分詞,通過停用詞詞典將通用詞以及標(biāo)點(diǎn)符號(hào)過濾掉,進(jìn)行詞性標(biāo)注,在團(tuán)隊(duì)所構(gòu)建的2萬條汽車專用詞典的基礎(chǔ)上加入未收錄的汽車專用術(shù)語,共引入41?891個(gè)汽車術(shù)語,以此來提高分詞效果。
本文使用維基百科語料作為Word2vec訓(xùn)練集,完成詞向量的訓(xùn)練,利用訓(xùn)練好的參數(shù)對(duì)專利文本進(jìn)行詞向量的表達(dá)。
本文采用的數(shù)據(jù)語料是江淮專利文本摘要和標(biāo)題,為了對(duì)關(guān)鍵詞的提取效果進(jìn)行評(píng)估,本文選擇準(zhǔn)確率(P值)、召回率(R值)和F值3個(gè)指標(biāo)。
本文提出的多元特征的關(guān)鍵詞提取方法是將文檔外部信息與文檔內(nèi)部信息相結(jié)合,對(duì)專利文本摘要進(jìn)行關(guān)鍵詞提取研究,提取的關(guān)鍵詞取值范圍為[3-10]。本文設(shè)置了兩類對(duì)比實(shí)驗(yàn),第一類是特征組合實(shí)驗(yàn),通過對(duì)不同特征的融合,說明特征的疊加能夠有效提升關(guān)鍵詞的提取效果;第二類是不同關(guān)鍵詞算法之間的比較,旨在表明本文提出的算法優(yōu)于其他算法。在各性能對(duì)比圖表中僅顯示關(guān)鍵詞個(gè)數(shù)為3、5、7、10的準(zhǔn)確率、召回率以及F值。
3.2.1 特征組合
通過單個(gè)特征進(jìn)行分析,以TextRank模型為基準(zhǔn),分別加入表示詞語在文檔內(nèi)的重要性特征,即詞語節(jié)點(diǎn)出度特征(A)、詞語節(jié)點(diǎn)位置特征(B)、詞語節(jié)點(diǎn)頻次特征(C)和詞語在文檔集間的語義關(guān)系特征(D),依次對(duì)模型中的初始概率轉(zhuǎn)移矩陣進(jìn)行改進(jìn)。從圖4可以看出,在單個(gè)特征中,B的準(zhǔn)確率、召回率和F值均高于其他特征,而D是單個(gè)特征中提取效果最差的,原因在于僅考慮文檔集間的語義關(guān)系,忽略了單文檔的詞語節(jié)點(diǎn)出度、詞語在文本中的位置以及頻次產(chǎn)生的影響,所以對(duì)于提取單文檔關(guān)鍵詞來說,準(zhǔn)確率、召回率、F值均較差。
為更好地說明特征對(duì)實(shí)驗(yàn)結(jié)果的影響,本文在單個(gè)特征的基礎(chǔ)上將不同特征進(jìn)行組合,如圖5所示。
圖5的實(shí)驗(yàn)結(jié)果顯示,將詞語在文檔集上的語義特征與詞語在文檔內(nèi)的重要性相融合,其準(zhǔn)確率、召回率和F值均大于詞語位置特征與其他單個(gè)特征相組合的效果,即A+B+C+D的關(guān)鍵詞提取性能要?jiǎng)儆谄渌卣鞯慕M合性能。
3.2.2 算法比較
不同算法的對(duì)比在這里分為兩組,第一組是將本文提出的MFW-ITKEM算法與傳統(tǒng)的TextRank和TFIDF算法作對(duì)比,第二組是將本文提出的MFW-ITKEM算法與其他研究者提出的算法作比較。
第一組實(shí)驗(yàn)包括以下3種算法。
(1)TextRank。通過滑動(dòng)窗口構(gòu)建共現(xiàn)網(wǎng)絡(luò),迭代計(jì)算詞語重要性,輸出排名靠前的詞語作為關(guān)鍵詞[12]。
(2)TFIDF。詞頻逆文檔算法,在基于詞頻的關(guān)鍵詞提取算法中,既考慮了詞語在單篇文檔中詞頻的大小,也將詞語對(duì)整個(gè)文檔集的區(qū)分能力納入計(jì)算中,這是一種經(jīng)典算法。
(3)MFW-ITKEM。本文提出的方法在已有研究的基礎(chǔ)上,將詞語在文檔內(nèi)的特征與詞語在文檔集上的語法特征相融合,改進(jìn)TextRank中的概率轉(zhuǎn)移矩陣,進(jìn)行關(guān)鍵詞的抽取。
表1和圖6是本文提出的MFW-ITKEM算法與經(jīng)典的TextRank和TFIDF算法的對(duì)比,可以看到,本文提出的方法在提取效果上均優(yōu)于經(jīng)典方法,其優(yōu)勢(shì)在于將節(jié)點(diǎn)在文檔內(nèi)的特征與節(jié)點(diǎn)在文檔集上的語義特征引入TextRank方法中。
第二組實(shí)驗(yàn)包括以下5種算法。
(1)T1。Word2vec算法,通過詞向量計(jì)算詞語的相似性,然后聚類得到關(guān)鍵詞[38]。
(2)T2。將詞向量進(jìn)行聚類,將外部知識(shí)融入TextRank的計(jì)算中[36]。
(3)T3。將詞語的位置信息和詞距融入詞圖模型中,來提升單文檔的關(guān)鍵詞提取效果[29]。
(4)T4。將Word2vec與TextRank相結(jié)合,將提取出的詞向量作為TextRank的輸入,采用了模型結(jié)合的方式[37]。
(5)MFW-ITKEM。本文提出的算法。
表2和圖7的統(tǒng)計(jì)結(jié)果顯示,橫向上比較來看,在關(guān)鍵詞個(gè)數(shù)較小時(shí),5種方法的準(zhǔn)確率和F值基本相等,但是隨著關(guān)鍵詞個(gè)數(shù)的增加,MFW-ITKEM的準(zhǔn)確率和F值都有所提高,且高于其他研究者的方法,表明MFW-ITKEM方法在關(guān)鍵詞提取方面有更明顯的優(yōu)勢(shì)。
根據(jù)F值從縱向上分析,在關(guān)鍵詞數(shù)量為5、7、10的情況下,MFW-ITKEM在效果上均優(yōu)于其他4種算法。具體來說,關(guān)鍵詞數(shù)目為5時(shí),5種算法的排序?yàn)門4 通過兩類實(shí)驗(yàn)結(jié)果分析,驗(yàn)證了本文提出的方法在使用詞向量獲取文檔集間的詞語關(guān)系的基礎(chǔ)上引入文檔內(nèi)的相鄰詞語的出度特征、頻率特征和詞語位置特征,能夠有效地提高關(guān)鍵詞的提取效果,比其他學(xué)者提出的僅考慮單文檔的統(tǒng)計(jì)特征或是通過詞向量聚類的算法更有優(yōu)勢(shì)。 本文在基于圖模型的關(guān)鍵詞提取方法的基礎(chǔ)上,綜合考慮詞語在單文檔中的重要性和其在文檔集中的語義關(guān)系,提出將這兩部分通過線性加權(quán)的方式融合來計(jì)算詞語的綜合影響力,并以此來改進(jìn)TextRank方法的概率轉(zhuǎn)移矩陣,實(shí)現(xiàn)圖中節(jié)點(diǎn)的權(quán)重計(jì)算并獲得關(guān)鍵詞,經(jīng)過實(shí)驗(yàn)驗(yàn)證,該算法提高了關(guān)鍵詞的提取效果。 本文所提出的算法也存在一些不足。訓(xùn)練Word2vec的語料均來自維基百科,尚未涵蓋汽車專業(yè)領(lǐng)域的一些術(shù)語,造成在使用單特征提取關(guān)鍵詞的實(shí)驗(yàn)中效果并不理想。后續(xù)研究將考慮使用汽車領(lǐng)域的語料集來訓(xùn)練Word2vec模型,并進(jìn)一步擴(kuò)大關(guān)鍵詞提取的文本,且將該方法與具體的應(yīng)用領(lǐng)域相結(jié)合,如熱點(diǎn)分析、創(chuàng)新評(píng)價(jià)以及主題演化方面,為用戶提供更有價(jià)值的參考。 [1] 毛太田,蔣冠文,李勇,等. 新媒體時(shí)代下網(wǎng)絡(luò)熱點(diǎn)事件情感傳播特征研究[J]. 情報(bào)科學(xué),2019,37(4):29-35,96. [2] 王健,張俊妮. 統(tǒng)計(jì)模型在中文文本挖掘中的應(yīng)用[J]. 數(shù)理統(tǒng)計(jì)與管理,2017,36(4):609-619. [3] 馬宗國,尹圓圓. 我國研究聯(lián)合體研究的知識(shí)圖譜分析——基于1992—2017年中國知網(wǎng)期刊文獻(xiàn)[J]. 科技管理研究,2019,39(5):246-250. [4] 余本功,陳楊楠,楊穎. 基于主題模型和專利數(shù)據(jù)的技術(shù)創(chuàng)新評(píng)價(jià)研究[J]. 現(xiàn)代情報(bào),2019,39(1):111-117,168. [5] 趙汝南,常志遠(yuǎn),姜博,等. 基于網(wǎng)絡(luò)演化的領(lǐng)域知識(shí)發(fā)展趨勢(shì)研究[J]. 數(shù)字圖書館論壇,2016(3):24-29. [6] 溫有奎. 信息檢索系統(tǒng)的關(guān)聯(lián)關(guān)鍵詞推薦研究[J]. 數(shù)字圖書館論壇,2016(4):11-14. [7] 趙京勝,朱巧明,周國棟,等. 自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 軟件學(xué)報(bào),2017,28(9):2431-2449. [8] 常耀成,張宇翔,王紅,等. 特征驅(qū)動(dòng)的關(guān)鍵詞提取算法綜述[J]. 軟件學(xué)報(bào),2018,29(7):2046-2070. [9] WEI H X,GAO G L,SU X D. LDA-Based Word Image Representation for Keyword Spotting on Historical Mongolian Documents[C]//Neural Information Processing(ICONIP). Springer,2016:432-441. [10] 傅柱,王曰芬,陳必坤. 國內(nèi)外知識(shí)流研究熱點(diǎn):基于詞頻的統(tǒng)計(jì)分析[J]. 圖書館學(xué)研究,2016(14):2-12. [11] BOUDIN F. A Comparison of Centrality Measures for Graph-Based Keyphrase Extraction[C]//Proceedings of the 6th International Joint Conference on Natural Language Processing. Nagoya:Asian Federation of Natural Language Processing,2013:834-838 [12] MIHALCEA R,TARAU P. TextRank:Bringing Order into Texts[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing,Stroudsburg:ACL,Barcelona. 2004:404-411. [13] BLEI D M,NGA Y,JODAN M I.Latentdirichlet allocation[J]. The Journal of Machine Learning Research,2003,3:993-1022. [14] 朱澤德,李淼,張健,等. 一種基于LDA模型的關(guān)鍵詞抽取方法[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,46(6):2142-2148 [15] 李湘東,巴志超,黃莉. 一種基于加權(quán)LDA模型和多粒度的文本特征選擇方法[J]. 現(xiàn)代圖書情報(bào)技術(shù),2015(5):42-49. [16] 邱明濤,馬靜,張磊,等. 基于可擴(kuò)展LDA模型的微博話題特征抽取研究[J]. 情報(bào)科學(xué),2017,35(4):22-26,31. [17] 楊春艷,潘有能,趙莉. 基于語義和引用加權(quán)的文獻(xiàn)主題提取研究[J]. 圖書情報(bào)工作,2016,60(9):131-138,146. [18] PAIK J H. A novel TF-IDF weighting scheme for effective ranking[C]//Proceedings of the 36th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM,2013:343-352. [19] CAMPOS R,VíTOR M,PASQUALI A,et al. YAKE! Collection-Independent Automatic Keyword Extractor[C]//In Advances in Information Retrieval-40th European Conference on Information Retrieval. Springer ECIR 2018,Lecture Notes in Computer Science,Grenoble,F(xiàn)rance. Cham,2018:806-810. [20] 羅燕,趙書良,李曉超,等. 基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法[J]. 計(jì)算機(jī)應(yīng)用,2016,36(3):718-725. [21] 余本功,李婷,楊穎. 基于多屬性加權(quán)的社會(huì)化問答社區(qū)關(guān)鍵詞提取方法[J]. 圖書情報(bào)工作,2018,62(5):132-139. [22] 陳列蕾,方暉. 基于Scopus檢索和TFIDF的論文關(guān)鍵詞自動(dòng)提取方法[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)),2018,54(3):604-611. [23] FLORESCU C,CARAGEA C. A New Scheme for Scoring Phrases in Unsupervised Keyphrase Extraction[C]//Proceedings of the Advances in Information Retrieval-39th European Conference on Information Retrieval.ECIR 2017,Lecture Notes in Computer Science Aberdeen,UK,2017. [24] 李航,唐超蘭,楊賢,等. 融合多特征的TextRank關(guān)鍵詞抽取方法[J]. 情報(bào)雜志,2017,36(8):183-187. [25] YAN Y. A Graph-based approach of automatic key phraseextraction[J]. Procedia Computer Science,2017,107:248-255. [26] BISWAS S K,BORDOLOI M,SHREYA J. A graph based keyword extraction model using collective node weight[J]. Expert Systems with Applications,2018,97:51-59. [27] 張莉婧,李業(yè)麗,曾慶濤,等. 基于改進(jìn)TextRank的關(guān)鍵詞抽取算法[J]. 北京印刷學(xué)院學(xué)報(bào),2016,24(4):51-55. [28] 夏天. 詞語位置加權(quán)Text Rank的關(guān)鍵詞抽取研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2013(9):30-34. [29] 劉竹辰,陳浩,于艷華,等. 詞位置分布加權(quán)TextRank的關(guān)鍵詞提取[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(9):74-79. [30] MIKOLOVT,CHEN K,CORRADO G,et al. Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of the 2013 International Conference on Learning Representations,ICLR 2013,Workshop Track,Scottsdale,Arizona,USA. 2013:1-12. [31] BOUGOUIN A,BOUDINF,BéATRICE D. TopicRank:Graph-Based Topic Ranking for Keyphrase Extraction[C]// Proceedings of the 6th International Joint Conference on Natural Language Processing,IJCNLP 2013,Nagoya,Japan2013:543-551. [32] BOUDINF. Unsupervised key phraseextraction with multipartite graphs[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,NAACL HLT,Association for Computational Linguistics,NewOrleans:June 1-6,2018,2:667-672. [33] STERCKX L,DEMEESTER T,DELEU J,et al. Creation and evaluation of large keyphrase extraction collections with multiple opinions[J]. Language Resources and Evaluation,2017,52:503-532. [34] 顧益軍,夏天. 融合LDA與TextRank的關(guān)鍵詞抽取研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2014(7/8):41-47. [35] 劉嘯劍,謝飛,吳信東. 基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 情報(bào)學(xué)報(bào),2016,35(6):664-672. [36] 夏天. 詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽?。跩]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(2):28-34. [37] 寧建飛,劉降珍. 融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2016(6):20-27. [38] 李躍鵬,金翠,及俊川. 基于word2vec的關(guān)鍵詞提取算法[J]. 科研信息化技術(shù)與應(yīng)用,2015,6(4):54-59. Improved TextRank Keyword Extraction Method Based on Multivariate Features Weighted YU BenGong ZHANG HongMei CAO YuMeng ( School of Management, Hefei University of Technology, Hefei 230009, China ) Existing keyword extraction methods take into account the characteristics of words from the document set or single document, and rarely comprehensively considered the impact of the comprehensive features of words in single document and document set on the keyword extraction effect. This paper proposed a multi-feature weighted keyword extraction method. This method used the Word2vec model to extract the semantic relationship characteristics of words in the document set, and the importance characteristics of words in a single document to calculate the comprehensive influence of the words in a linear weighting manner, which was used to improve the probability transition matrix in the TextRank model. Finally, iterative calculation selected the top-ranked words as the keywords of the document. Experimental results show that comprehensive consideration of the influence of words from both a single document and a document set can effectively improve the effect of keyword extraction. Keyword Extraction; TextRank; Word2vec; Multivariate Feature Weighting TP391 10.3772/j.issn.1673-2286.2020.03.006 (2020-02-28) *本研究得到國家自然科學(xué)基金資助項(xiàng)目“基于制造大數(shù)據(jù)的產(chǎn)品研發(fā)知識(shí)集成與服務(wù)機(jī)制研究”(編號(hào):71671057)資助。 余本功,男,1971年生,博士,教授,研究方向:信息系統(tǒng)、機(jī)器學(xué)習(xí)。 張宏梅,女,1994年生,碩士,通信作者,研究方向:數(shù)據(jù)挖掘、自然語言處理,E-mail:18856002708@163.com。 曹雨蒙,女,1994年生,碩士,研究方向:機(jī)器學(xué)習(xí)、自然語言處理。4 結(jié)語