白曙光, 林 民, 李艷玲, 張樹鈞
(內(nèi)蒙古師范大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院,內(nèi)蒙古 呼和浩特 010022)
自然語言處理是人工智能的重要組成部分,在學(xué)術(shù)研究和實際應(yīng)用等各個方面都有重要地位,關(guān)鍵詞抽取技術(shù)作為自然語言處理的基礎(chǔ)技術(shù)之一,其結(jié)果的優(yōu)劣直接影響后續(xù)任務(wù)的性能。
關(guān)鍵詞抽取能夠幫助讀者獲取文章的中心思想,迅速了解一篇文章,或者從海量語料中快速獲得文章主題。在文本檢索、文本摘要等領(lǐng)域,關(guān)鍵詞抽取的準(zhǔn)確程度對其他下游任務(wù)具有重要意義[1]。有效提取文本中關(guān)鍵詞有助于讀者快速、及時、高效、準(zhǔn)確地獲取信息。文本關(guān)鍵詞可以提高文檔管理和檢索效率,還可為文本的分類、聚類、檢索、分析和主題搜索等文本挖掘任務(wù)提供豐富的語義信息。因此,關(guān)鍵詞抽取與其他下游任務(wù)是密切相關(guān)的。
關(guān)鍵詞抽取是自然語言處理領(lǐng)域的研究熱點,目前存在以下六個研究難點,嚴(yán)重制約了關(guān)鍵詞抽取技術(shù)的發(fā)展。
(1) 文本預(yù)處理不夠準(zhǔn)確。近幾年文本表示學(xué)習(xí)、預(yù)訓(xùn)練等技術(shù)的發(fā)展有了一定提升,但是在精度和深度上仍不能滿足研究需要,直接影響上層應(yīng)用效果和智能水平。不能從語義上準(zhǔn)確理解文本是關(guān)鍵詞抽取技術(shù)的一大難點。
(2) 效率低,復(fù)雜度高,尤其是融合方法的復(fù)雜度更高。目前許多自然語言處理任務(wù)為了達(dá)到較好效果,需要利用大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,但是常會出現(xiàn)訓(xùn)練語料不足的問題,而且標(biāo)注數(shù)據(jù)費時費力[2],所以,當(dāng)數(shù)據(jù)資源有限時,如何增強(qiáng)資源啟動和多語種場景的應(yīng)用成為亟待解決的問題。
(3) 語義關(guān)聯(lián)關(guān)系的去重、歧義消解等問題。深度學(xué)習(xí)的應(yīng)用雖然使眾多自然語言處理的任務(wù)性能得到提升,但是如何設(shè)計更好的語義表達(dá)方式仍未解決,而且中文存在語義歧義現(xiàn)象,如“郭德綱的粉絲想吃粉絲”這句話中,兩個“粉絲”代表不同的語義,但向量表示形式一致,所以語義歧義現(xiàn)象在一定程度上制約了關(guān)鍵詞抽取技術(shù)的發(fā)展,解決語義歧義問題可在一定程度上提高文本關(guān)鍵詞抽取任務(wù)的性能。
(4) 抽取得到的關(guān)鍵詞對文檔主題覆蓋性不高。在一個文檔中,經(jīng)常有多個主題,現(xiàn)有方法沒有有效機(jī)制對主題進(jìn)行較好的覆蓋[3]。
(5) 文檔與關(guān)鍵詞之間存在一定的差異性。很多關(guān)鍵詞在文檔中的頻率低,導(dǎo)致文檔和關(guān)鍵詞之間存在差異[4]。
(6) 少數(shù)民族語言文本的關(guān)鍵詞抽取存在自身的難點。如因文本自身的特征,預(yù)處理操作較為困難。
關(guān)鍵詞抽取方法目前有三種: 有監(jiān)督、半監(jiān)督和無監(jiān)督。其中,無監(jiān)督方法包含基于統(tǒng)計特征、主題模型及圖網(wǎng)絡(luò),其中被廣泛應(yīng)用的有詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)算法[5]、LDA (latent dirichlet allocation)主題模型[6]和TextRank等算法[7-10]。
有監(jiān)督關(guān)鍵詞抽取方法的主要思想一般是先建立一個大規(guī)模標(biāo)注好的關(guān)鍵詞訓(xùn)練語料,然后利用訓(xùn)練語料對關(guān)鍵詞抽取模型進(jìn)行訓(xùn)練。有監(jiān)督的關(guān)鍵詞抽取方法常用的模型有樸素貝葉斯(naive bayesian,NB)[11]、決策樹(decision tree,DT)[12]、最大熵(maximum entropy,ME)[13]、支持向量機(jī)(support vector machine,SVM)[14]等。
有監(jiān)督的方法中關(guān)鍵詞抽取問題被轉(zhuǎn)化為分類問題或標(biāo)注問題,即判斷每個文檔與已構(gòu)建好的詞表中每個詞的匹配程度,然后把文檔中的詞作為候選關(guān)鍵詞,通過分類學(xué)習(xí)方法或序列標(biāo)注方法判斷這些候選詞是否為關(guān)鍵詞,進(jìn)而實現(xiàn)關(guān)鍵詞抽取的效果。當(dāng)將關(guān)鍵詞抽取任務(wù)看作是一個二分類任務(wù)時,需要在一個有標(biāo)注的數(shù)據(jù)集上訓(xùn)練分類器。當(dāng)將關(guān)鍵詞抽取任務(wù)看作是標(biāo)注問題時,研究人員需要從訓(xùn)練集中建立一個語言模型,并選出符合關(guān)鍵詞特征的模型,再利用人工標(biāo)注信息作為特征進(jìn)行關(guān)鍵詞抽取。
有監(jiān)督學(xué)習(xí)的關(guān)鍵詞抽取方法通常需要建立大規(guī)模訓(xùn)練集合即語料庫(corpus),是由大量實際使用的語言信息組成,并需要針對通用或特定需求進(jìn)行人工標(biāo)注。訓(xùn)練語料的質(zhì)量對模型的準(zhǔn)確性至關(guān)重要,直接影響模型的性能,從而影響關(guān)鍵詞抽取的結(jié)果。目前,已經(jīng)標(biāo)注好關(guān)鍵詞的語料有限,訓(xùn)練集又需要大規(guī)模的語料,所以需要人工標(biāo)注,帶有一定主觀性,易造成實驗數(shù)據(jù)的不真實[15]。因此,高質(zhì)量的訓(xùn)練集合對有監(jiān)督學(xué)習(xí)方法的性能是至關(guān)重要的。有監(jiān)督的學(xué)習(xí)方法具有較高的準(zhǔn)確性和較強(qiáng)的穩(wěn)定性,更加科學(xué)、有效,但存在人工標(biāo)注工作量大、數(shù)據(jù)量激增、內(nèi)容實時性強(qiáng)、耗時耗力等問題。如果將關(guān)鍵詞抽取問題視為一個二分類問題,那么對每個單詞的獨立處理忽略了文本的結(jié)構(gòu)信息[16],對模型性能有一定影響。
無監(jiān)督關(guān)鍵詞抽取方法無需人工標(biāo)注語料,該方法根據(jù)詞匯的重要程度進(jìn)行排序,抽取排名靠前的作為關(guān)鍵詞。無監(jiān)督方法是近年來研究和應(yīng)用的重點,常見的無監(jiān)督關(guān)鍵詞抽取方法有三種: 基于統(tǒng)計特征[17]、基于主題模型[18]和基于網(wǎng)絡(luò)圖模型[19]的關(guān)鍵詞抽取。無監(jiān)督的文本關(guān)鍵詞抽取流程如圖1所示。
圖1 無監(jiān)督文本關(guān)鍵詞抽取方法流程圖Fig.1 Unsupervised keyword extraction method in text
2.2.1 基于統(tǒng)計特征的方法 基于統(tǒng)計特征的關(guān)鍵詞抽取方法是一種傳統(tǒng)機(jī)器學(xué)習(xí)方法,主要是利用文檔的統(tǒng)計學(xué)特征抽取關(guān)鍵詞。首先對文本進(jìn)行預(yù)處理操作,去除不規(guī)范內(nèi)容,獲得候選詞集,然后計算候選詞集中詞匯的統(tǒng)計學(xué)特征,根據(jù)特征值對詞匯進(jìn)行排序,根據(jù)排序從候選集中抽取關(guān)鍵詞。常用的統(tǒng)計特征包括詞權(quán)重、詞位置、詞的關(guān)聯(lián)信息等[20]。
詞權(quán)重特征主要包括詞長度、詞性、詞頻、TF-IDF等。詞性是通過分詞、語法分析后得到的結(jié)果,一般為名詞或動詞,更能表達(dá)一篇文本的中心思想。詞頻一般可以認(rèn)為文本中出現(xiàn)頻率越高的詞越有可能成為關(guān)鍵詞。但僅依靠詞頻得到的關(guān)鍵詞對長文本的不確定性很高,會有較大噪音; 而且,語句的位置也反映了其在文章中的重要性,文章標(biāo)題、引言、段首句、段尾句均對文章有重要意義,這些詞作為關(guān)鍵詞可以表達(dá)整個文本的主題[21]。標(biāo)題和摘要更能概括文本的中心思想,具有一定代表性,因受到作者寫作方式的影響,具有不確定性?;谠~的關(guān)聯(lián)信息的特征量化信息一般包含詞和詞、詞和文本之間的關(guān)聯(lián)程度,關(guān)聯(lián)信息通常包括互信息、HITS(hyperlink-induced topic search)值、貢獻(xiàn)度、依存度、TF-IDF值等。
TF-IDF算法是關(guān)鍵詞抽取方法中的一種基礎(chǔ)算法,因其簡單有效而被廣泛應(yīng)用。TF-IDF值是指如果某個詞語在一篇文本中出現(xiàn)的頻率(term frequency,TF)高,而其他文本中較少出現(xiàn),即逆文檔頻率(inverse document frequency,IDF)低,則認(rèn)為該詞語能較好地代表當(dāng)前文本的含義。TF-IDF算法主要用于評價一個詞對于一個文檔的重要程度。在TF-IDF算法中,字詞的重要性隨著該字詞在文檔中出現(xiàn)的次數(shù)呈正比,但同時也會隨著它在該文檔出現(xiàn)的頻率呈反比。TF-IDF算法的計算如公式(1)-公式(3),詞頻即一個詞在文檔中出現(xiàn)的頻率,一個詞的IDF表示這個詞在整個語料數(shù)據(jù)庫中出現(xiàn)的頻率。
(1)
(2)
It(i,j)=Iω(i,j)×Id(i,j),
(3)
其中:It(i,j)是指詞i相對于文檔j的重要性值;Iω(i,j)是指某一個字詞在該文檔中出現(xiàn)的次數(shù)占比,即給定的詞語在該文檔中出現(xiàn)的頻率,計算公式如(4);Id(i,j)是指詞i的逆文檔頻率,是用總文檔數(shù)目除以包含指定詞語的文檔數(shù)目,再將得到的商取對數(shù),計算公式如(5)。
(4)
其中:ni,j表示詞i在文檔j中出現(xiàn)的次數(shù);nk,j表示文檔j字詞出現(xiàn)的次數(shù)。
(5)
其中:D表示語料庫中文檔的總數(shù); {j:ti∈dj}表示包含詞語ti的文檔數(shù)目。
TF-IDF算法存在如下不足: 一是對語料庫的質(zhì)量要求較高,而且在跨領(lǐng)域語料上表現(xiàn)較差; 二是對一些在文本中出現(xiàn)頻率高并具有代表性的詞語不能很好表示; 三是精度不高,由于IDF有一種試圖抑制噪聲的加權(quán),本身會傾向于文本中出現(xiàn)頻率較小的詞,從而導(dǎo)致TF-IDF算法精度不高; 四是對詞匯位置不敏感,沒有考慮不同位置上詞匯的不同重要性,例如在標(biāo)題、句首和句尾等位置出現(xiàn)的字詞往往含有較重要的信息,應(yīng)該賦予較高的權(quán)重[22]。可以通過將多個短文本歸并為一個文本的方法來改進(jìn)TF-IDF算法,不僅可以增加TF值,而且可以增加IDF值,但同時也會增加模型的計算成本。此外,TF-IDF僅能考慮到詞自身的頻度,無法將其與語義語法相結(jié)合,影響了關(guān)鍵詞抽取的性能。
基于統(tǒng)計特征的關(guān)鍵詞抽取方法主要是通過詞權(quán)重、詞的文檔位置、詞的關(guān)聯(lián)信息等特征量化指標(biāo)對關(guān)鍵詞按照其重要程度從高到低排序,獲取Top K個詞作為關(guān)鍵詞。
2.2.2 基于主題模型的方法 關(guān)鍵詞抽取與內(nèi)容的主題相關(guān),因此提取文本內(nèi)容的主題至關(guān)重要。主題模型又稱文檔生成模型,它認(rèn)為文檔是主題的概率分布,而主題是詞匯的概率分布[23]。LDA利用隱含主題模型發(fā)現(xiàn)文檔主題,然后再選取主題中具有代表性的詞作為該文檔的關(guān)鍵詞。
基于主題的關(guān)鍵詞抽取方法主要是利用主題模型中關(guān)于主題的分布性質(zhì)進(jìn)行關(guān)鍵詞抽取。首先從文本中獲取候選關(guān)鍵詞,然后利用有關(guān)鍵詞的語料訓(xùn)練出一個主題模型,并得到主題分布和詞匯分布[24],最后在主題空間上計算候選關(guān)鍵詞和文本的相似度,根據(jù)相似度從大到小排序,選取前n個詞作為關(guān)鍵詞。具有代表性的是pLSA (probability latent semantic analysis)[25]模型、LDA模型等。pLSA將概率引入主題模型中,文檔主題之間、主題詞匯之間的隱含語義空間不再是一個抽象的概念空間,而是一個特定的概率分布空間,計算公式為
(6)
其中w表示詞語,D表示文檔,T表示主題。
圖2 LDA模型圖Fig.2 LDA model
2003年D.M.Blei提出了LDA主題模型[6],與pLSA相似,LDA也從文檔、主題、詞三個層面進(jìn)行分析,并認(rèn)為文檔有其主題概率分布,主題有其詞匯概率分布文檔可以在主題空間上進(jìn)行表示,并根據(jù)主題的相似性進(jìn)行文本聚類或者文本分類。LDA模型如圖2所示。LDA通過采用詞袋模型(bag-of-words,BOW)的方法簡化了問題的復(fù)雜性,認(rèn)為一篇文檔是由一些詞組成的集合,詞與詞之間沒有先后關(guān)系。與pLSA分布不同的是,主題概率分布和詞匯概率分布的參數(shù)不是唯一的,這兩個分布的參數(shù)都符合Dirichlet分布。
在LDA模型中,包含詞、主題、文檔三層結(jié)構(gòu)。該模型認(rèn)為一篇文檔的生成過程是:先為一篇文檔選擇若干主題,然后為每個主題挑選若干詞語,最后將這些詞語組成一篇文章。所以主題對于文章以及單詞對于主題都服從多項分布。由此可以得到: 如果一個單詞w對于主題t很重要,而主題t對于文章d又很重要,那么可以推出單詞w對于文章d就非常重要,并在同主題的詞wi(i=1,2,3,…)中,詞w的權(quán)重也會較大。
根據(jù)上述,需計算以下概率。主題Tk下各個詞wi的權(quán)重計算公式為
(7)
文檔Dm下各個主題Tk的權(quán)重計算公式為
(8)
指定文檔下某個主題出現(xiàn)的概率,以及指定主題下某個單詞出現(xiàn)的概率計算公式為
(9)
由公式(9)可以得到單詞i對于文檔m主題的重要性。在LDA主題模型中,由于所有的詞都會以一定的概率出現(xiàn)在每個主題中,因此會導(dǎo)致最終計算的單詞對于文檔的主題重要性區(qū)分度受到影響。為避免該情況的出現(xiàn),一般將單詞相對于主題低于一定閾值的概率設(shè)置為0。基于LDA的關(guān)鍵詞抽取方法,在主題層面上對文檔關(guān)鍵詞進(jìn)行分析。這種方法不僅挖掘了文本的深層語義即文本的主題,而且可以將文檔集中的每篇文檔按照概率分布的形式表示,文檔的主題維度一般遠(yuǎn)小于文檔的詞匯個數(shù),所以也有研究者根據(jù)主題對文本進(jìn)行分類。但基于主題模型提取到的關(guān)鍵詞比較寬泛,不能很好地表示文檔主題; LDA模型同樣耗時耗力; 在LDA中,主題的數(shù)目沒有固定的最優(yōu)解[26]。模型訓(xùn)練時,需事先設(shè)置主題數(shù),訓(xùn)練人員需要根據(jù)訓(xùn)練出來的結(jié)果,手動調(diào)參,通過優(yōu)化主題數(shù)目,進(jìn)而優(yōu)化文本分類結(jié)果。對此,可以借助知網(wǎng)、同義詞林等外部資源獲得更加準(zhǔn)確的單詞語義關(guān)系。
在pLSA模型中,主題分布和詞分布的參數(shù)都是唯一確定的。而在LDA中,主題分布和詞分布的參數(shù)是變化的,LDA的研究人員采用貝葉斯派的思想,認(rèn)為參數(shù)應(yīng)服從某個分布。主題分布和詞分布呈多項式分布,因為多項式分布的共軛先驗分布是狄利克雷分布(Dirichlet distribution),所以在LDA中主題分布和詞分布的參數(shù)應(yīng)服從Dirichlet分布??梢哉fLDA就是無監(jiān)督的pLSA的貝葉斯化版本。
2.2.3 基于網(wǎng)絡(luò)圖的方法 TextRank是一種基于圖排序的算法。TF-IDF對于多段文本的關(guān)鍵詞抽取非常有效,但對單篇或者篇幅較長的文本效果一般。TF-IDF僅考慮詞語自身的頻度,而TextRank考慮了文檔內(nèi)詞間語義關(guān)系,可以有效提取文本的關(guān)鍵詞。
TextRank基本思想來源于Google的PageRank[27]算法,通過把文本切分為若干組成單元(單詞、短語或者句子)建立圖模型。首先將文本中的詞作為節(jié)點,詞之間的關(guān)系作為邊,建立文本詞匯網(wǎng)絡(luò)圖,然后根據(jù)圖結(jié)構(gòu)挖掘詞匯之間的關(guān)聯(lián)關(guān)系,找到整個網(wǎng)絡(luò)中具有重要地位的詞或短語,作為關(guān)鍵詞[28]。顧亦然[29]提出基于PageRank算法,利用詞頻特性,結(jié)合語言習(xí)慣特性定義位置權(quán)重系數(shù),在新浪新聞?wù)Z料上進(jìn)行實驗,有效提升了新聞類文本關(guān)鍵詞提取的結(jié)果。隨機(jī)游走算法中具有代表性的是PageRank算法,它通過網(wǎng)頁之間的超鏈接來計算網(wǎng)頁重要性[30]。TextRank算法借鑒了這種重要性可傳遞的思想。
李航[31]為克服傳統(tǒng)TextRank的局限性,提出對詞語的平均信息熵、詞性、位置的特征進(jìn)行自動優(yōu)化的神經(jīng)網(wǎng)絡(luò)算法,通過優(yōu)化詞匯節(jié)點的初始權(quán)重以及概率轉(zhuǎn)移矩陣,進(jìn)而提高關(guān)鍵詞抽取準(zhǔn)確度。柳青林[32]通過引入馬爾可夫狀態(tài)轉(zhuǎn)移模型,對TextRank算法本身進(jìn)行了完善,得到的單文本關(guān)鍵詞提取結(jié)果與人工提取結(jié)果更加一致。
TextRank算法對一段文本多次出現(xiàn)的詞賦予更大的權(quán)重,因為詞的共現(xiàn)關(guān)系即為邊,一個詞的共現(xiàn)詞越多,網(wǎng)絡(luò)中與這個詞相連的節(jié)點就越多,這樣會使類似于“的”“這”“那”等沒有特別含義的停用詞的權(quán)重增大[33]。對于這種情況,可在對文本進(jìn)行切分時,去掉停用詞或其他符合一定規(guī)則的詞語?;趫D的算法,計算詞與詞之間的共現(xiàn)關(guān)系,結(jié)合其他特征為每個詞打分,從而找到關(guān)鍵詞。近年來,基于圖算法的模型有Top-icRank[34]、SalienceRank[35]、PositionRank[36]。
TF-IDF和TextRank算法各有不足。TextRank算法為每個節(jié)點賦予相等的初始權(quán)重,沒有考慮到節(jié)點本身不同的重要性,在計算過程中節(jié)點的分?jǐn)?shù)也是平均分配到周圍節(jié)點,沒有考慮到被分配節(jié)點與分配節(jié)點的相關(guān)程度[37]。為解決這些問題,通常將多種方法進(jìn)行組合來彌補(bǔ)單一算法的缺點。例如將TF-IDF和TextRank算法相結(jié)合,將其作為詞節(jié)點之間的特征權(quán)重,調(diào)整詞節(jié)點間的影響力,或者綜合TF-IDF與詞性得到關(guān)鍵詞等。
圖3 改進(jìn)TextRank算法的關(guān)鍵詞抽取流程圖Fig.3 The keyword extraction flowchart of the improved TextRank algorithm
尤苡名等[38]提出融合TF-IDF與TextRank 算法的關(guān)鍵詞抽取方法,通過引入用戶瀏覽評論后的反饋,提高重要詞語的權(quán)重,對TF-IDF算法進(jìn)行改進(jìn)。將改進(jìn)后的詞頻逆文檔頻率作為詞節(jié)點特征權(quán)重加入TextRank 算法中,提高有效評論中關(guān)鍵詞的權(quán)重。陳志泊[39]等通過改進(jìn)TextRank算法,將計算的綜合權(quán)值作為詞語特征值,得到高品質(zhì)的詞語集合,判定信息類型,然后將關(guān)鍵詞和信息類型相結(jié)合,實現(xiàn)對文本關(guān)鍵信息的抽取,最終形成的信息類型集合在緊密性、間隔性、綜合評價指標(biāo)上均表現(xiàn)良好。改進(jìn)的TextRank 算法關(guān)鍵詞抽取流程如圖3所示。
劉嘯劍等[23]提出一種結(jié)合LDA與TextRank 的關(guān)鍵詞抽取模型,并在Huth200和DUC2001數(shù)據(jù)集上驗證了該方法的有效性。張瑾[40]將特征詞位置及詞跨度權(quán)值引入到TF-IDF中,并在提取新聞情報關(guān)鍵詞實驗中證明了算法的有效性。謝瑋等[41]利用TF-IDF對詞語的位置進(jìn)行加權(quán),并采用TextRank實現(xiàn)關(guān)鍵詞抽取任務(wù)。
隨著人工智能的不斷發(fā)展,深度學(xué)習(xí)方法被廣泛應(yīng)用于文本關(guān)鍵詞抽取方法中。成彬等[42]利用條件隨機(jī)場(conditional random field,CRF)模型[43]處理序列標(biāo)注問題的優(yōu)勢,通過將詞性信息和CRF模型融入雙向長短時記憶(bidirectional long short term memory,BiLSTM)網(wǎng)絡(luò)[44],實現(xiàn)期刊關(guān)鍵詞的自動抽取。融合詞性與BiLSTM-CRF的關(guān)鍵詞抽取模型如圖4。首先需要對文本進(jìn)行預(yù)處理操作,包括分詞、詞性標(biāo)注和依存句法分析,然后使用word2vec[45]向量化表示文本,最后使用BiLSTM-CRF模型進(jìn)行關(guān)鍵詞的自動抽取。基于融合詞性特征的BiLSTM-CRF期刊關(guān)鍵詞抽取方法,不僅實現(xiàn)了數(shù)據(jù)時序和語義信息挖掘,而且保證了單詞與單詞之間的關(guān)聯(lián)性。
圖4 融合詞性與BiLSTM-CRF的關(guān)鍵詞抽取模型Fig.4 Keyword extraction model for journals based on part-of-speech and BiLSTM-CRF
圖5 基于注意力機(jī)制的關(guān)鍵詞抽取結(jié)構(gòu)圖Fig.5 Structure of keyword extraction based on attention mechanism
楊丹浩等[46]提出基于序列標(biāo)注的關(guān)鍵詞抽取模型,該模型將BiLSTM與注意力機(jī)制相結(jié)合用于論文關(guān)鍵詞的提取。在實驗過程中,將字的向量表示與詞的向量表示作為模型的輸入,將不同顆粒度的向量表示相融合,相比于傳統(tǒng)的無監(jiān)督模型TextRank,TF-IDF性能有明顯提升。該模型的結(jié)構(gòu)框如圖5所示。
雖然基于序列標(biāo)注的關(guān)鍵詞抽取模型有效利用了BiLSTM和注意力模型,但實驗仍存在兩點不足:一是該實驗僅將論文中的關(guān)鍵詞進(jìn)行標(biāo)注并訓(xùn)練,沒有考慮該關(guān)鍵詞與文章內(nèi)容的相關(guān)性; 二是沒有考慮論文標(biāo)題與關(guān)鍵詞的關(guān)系,將論文標(biāo)題有效結(jié)合提取關(guān)鍵詞有待進(jìn)一步的研究。
考慮到詞向量的優(yōu)勢,寧建飛等[47]使用Word2vec算法計算文本集詞向量,并構(gòu)建文本層面的詞匯相似矩陣,同時改進(jìn)TextRank 算法的初始權(quán)重分配方式和迭代計算過程中的概率轉(zhuǎn)移矩陣。周錦章等[48]針對單詞語義的差異性對TextRank算法的影響這一問題,提出一種基于詞向量與TextRank的關(guān)鍵詞抽取方法。同時利用FastText將文本集進(jìn)行詞向量表示,基于隱含主題分布思想和利用單詞間語義的不同,構(gòu)建TextRank轉(zhuǎn)移概率矩陣,最后進(jìn)行詞圖的迭代計算和關(guān)鍵詞抽取。實驗結(jié)果表明,該方法的抽取效果優(yōu)于傳統(tǒng)方法,同時證明了詞向量可以簡單有效地改善TextRank 算法性能。
多民族是我國的重要特征之一,結(jié)合現(xiàn)代技術(shù)研究少數(shù)民族語言對各民族歷史文化的傳承,增加我國社會人文內(nèi)涵,具有重要作用。同時,利用現(xiàn)代信息技術(shù)結(jié)合大數(shù)據(jù)的優(yōu)勢,可以更加深入挖掘分析民族語言文字中隱含的規(guī)律,提高民族語言文字?jǐn)?shù)據(jù)的處理效率,為少數(shù)民族語言文字的研究提供有效幫助。目前研究中主要涉及的少數(shù)民族語言文字有藏文、維吾爾文、蒙古文、哈薩克文等,并采用例如LDA模型、深度神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行研究。我國少數(shù)民族中,藏族、維吾爾族和蒙古族具有相對完整的民族語言文字,形成了相對成熟的民族教育體系,相關(guān)領(lǐng)域擁有相對較多的民族科學(xué)研究人員,因此本文主要研究藏文、維吾爾文和蒙古文三種少數(shù)民族語言文字。
2.5.1 蒙古語 蒙古文作為蒙古族通用語言文字,是目前世界上極少數(shù)豎向排列的文字之一,從上到下連寫,從左到右移行?;佞X式蒙古文是有記載以來最早的蒙古族文字,回鶻式蒙古文文獻(xiàn)對蒙古族歷史文化和蒙古語發(fā)展變化及蒙古文詞法、詞匯的研究具有重要學(xué)術(shù)價值。但由于蒙古文文字編碼不統(tǒng)一,導(dǎo)致難以制定蒙古文通用規(guī)則,而且相對于其他語言的研究相對起步較晚,所以目前蒙古文的研究還處于初級階段。
斯日古楞等[49]基于LDA模型建立蒙古文文本主題模型,分析隱藏在文檔內(nèi)不同主題和詞之間的關(guān)系,通過實驗計算文本的主題分布和查詢語句主題之間的相似度,較好地實現(xiàn)了蒙古文文本主題語義的檢索效果。Hongxiwei等[50]通過在檢索時合成分詞后的蒙古文歷史文獻(xiàn)圖像序列,提取基于輪廓特征表示的文字圖像并進(jìn)行固定長度的特征向量在線匹配,從而得到降序后的相似度排序結(jié)果,以此定位蒙古文歷史文獻(xiàn)圖像中的關(guān)鍵詞。白淑霞等[51]考慮到詞袋模型(Bag-of-words model)可能忽略單詞間的空間關(guān)系和語義信息問題,提出一種基于LDA的主題模型,用以解決蒙古文古籍的關(guān)鍵詞檢索。該方法的性能優(yōu)于視覺詞袋模型(bag of visual word model)[52]。王玉榮等[53]設(shè)計并實現(xiàn)了一個基于云架構(gòu)的分布式蒙古文碩士論文檢索系統(tǒng),設(shè)計完成了滿足分布式要求的蒙古文分析器,作為系統(tǒng)核心模塊在分布式多節(jié)點上實現(xiàn)了蒙古文的索引和檢索功能; 使用BM25概率模型可對蒙古文論文檢索和排序,并具有關(guān)鍵詞或摘要的中文檢索功能。
2.5.2 藏語 藏語的主要表現(xiàn)形式是藏文,藏文分為輔音字母、元音符號和標(biāo)點符號3個部分。其中有30個輔音字母,4個元音符號,以及5個反寫字母用以拼寫外來語。藏文采用上下疊寫的方法自左向右橫寫。目前藏文的關(guān)鍵詞研究大多基于藏文新聞網(wǎng)頁,為后續(xù)藏文古籍翻譯、藏文情感識別以及藏文輿情分析工作奠定了基礎(chǔ)。雖然藏文文字排序方面的研究取得一定進(jìn)展,但藏文文字中的幾種特殊音節(jié)字母到目前還沒有標(biāo)準(zhǔn)處理方法。
通過對中文關(guān)鍵詞抽取方法的學(xué)習(xí),對網(wǎng)頁模塊中智能識別后的藏文文本進(jìn)行自動分詞,采用以此為基礎(chǔ)改進(jìn)后的TF-IDF算法得到基礎(chǔ)詞集,根據(jù)詞向量特征擴(kuò)展構(gòu)建候選關(guān)鍵詞集,分析利用其語義相關(guān)度值并在一定程度上更高效率的提取藏文網(wǎng)頁關(guān)鍵詞[54]。艾金勇[55]為提升藏文文本關(guān)鍵詞的抽取效果,針對藏文文本特點,將藏文文本的多種特征和TextRank相結(jié)合,同時根據(jù)詞語之間的語法關(guān)系給出了候選關(guān)鍵詞的量化權(quán)值。與傳統(tǒng)方法相比,關(guān)鍵詞抽取效果明顯提升。洛桑嘎登等[56]結(jié)合藏文分詞標(biāo)注研究并實現(xiàn)了一種基TextRank算法的藏文關(guān)鍵詞提取技術(shù),該文在1 500句的藏文問句上進(jìn)行了實驗研究,總體效果較好。才讓卓瑪?shù)萚57]通過借鑒中文關(guān)鍵詞抽取方法,提出一種基于語料庫的藏語高頻詞抽取算法,并提出對藏語文本的預(yù)處理方法,實驗結(jié)果表明,該算法的準(zhǔn)確率達(dá)86.22%。徐濤等[58]針對藏文新聞網(wǎng)頁提出卡方統(tǒng)計量結(jié)合詞與詞推薦相結(jié)合的方法,并通過實驗得出該方法效果優(yōu)于融入位置的TF-IDF算法。
2.5.3 維吾爾語 維吾爾文是新疆大多數(shù)人互相交流的語種之一。我國維吾爾族使用的是以阿拉伯字母為基礎(chǔ)的拼音文字。相對于通用語言文字的識別,維吾爾文的識別研究起步相對較晚,電子化維吾爾文本數(shù)據(jù)較少,語料規(guī)模較小,質(zhì)量不高,為維吾爾文的研究帶來了困難。研究者們通過直接識別維吾爾文圖片、借鑒中文關(guān)鍵詞的語義分析等技術(shù),試圖克服上述問題。
李靜靜等[59]提出并實現(xiàn)一種基于由粗到細(xì)層級匹配的關(guān)鍵詞文檔圖像檢索方法,通過支持向量機(jī)(SVM)分類器學(xué)習(xí),從單詞圖像提取方向梯度直方圖(HOG)的特征向量,可以有效實現(xiàn)維吾爾文關(guān)鍵詞圖像檢索。阿力甫·阿不都克里木等[60]提出一種基于TextRank算法的維吾爾文關(guān)鍵詞提取方法,首先對輸入文本進(jìn)行預(yù)處理,濾除非維吾爾語的字符和停用詞,然后利用詞語語義相似度、詞語位置和詞頻重要性加權(quán)的TextRank算法提取文本關(guān)鍵詞集合。實驗結(jié)果表明,該方法能夠提取出具有較高識別度的關(guān)鍵詞。熱依萊木·帕爾哈提[61]通過實驗對維吾爾文文本基于TextRank、TF-IDF、SDA(system display architecture)、SparseSVM四種方法分別進(jìn)行關(guān)鍵詞提取和文本文本分類,實驗效果可滿足需求。買買提阿依甫等[62]通過對維吾爾文語言特殊性的分析,提出一種結(jié)合word2vec和LDA模型生成主題特征矩陣,獲取語義粒度層面特征信息,通過豐富卷積網(wǎng)絡(luò)池化層特征來提高情感分類的準(zhǔn)確率,取得了比傳統(tǒng)機(jī)器學(xué)習(xí)方法更好的情感分類性能。
本文通過對各種關(guān)鍵詞抽取方法進(jìn)行闡述,分別分析了無監(jiān)督方法和有監(jiān)督方法的技術(shù)特點、代表性模型及其優(yōu)缺點,結(jié)果見表1。
表1 文本關(guān)鍵詞抽取技術(shù)總結(jié)Tab.1 Summary of text keyword extraction technologies
關(guān)鍵詞抽取質(zhì)量優(yōu)劣的評價標(biāo)準(zhǔn)是其符合文本的實際語義,高質(zhì)量的關(guān)鍵詞應(yīng)具備可讀性、相關(guān)性、覆蓋性和簡潔性等特質(zhì),即關(guān)鍵詞不僅具有實際意義,而且關(guān)鍵詞和文本主題保持一致,更能夠覆蓋文本的各個主題。此外,關(guān)鍵詞還應(yīng)簡潔明了,各個關(guān)鍵詞之間也應(yīng)相關(guān)聯(lián)。目前對關(guān)鍵詞抽取任務(wù)一般有兩種方法,一種是由領(lǐng)域?qū)<疫M(jìn)行人工評價,這種方式可操作性強(qiáng)但缺點也明顯,比如認(rèn)識分歧、詞或短語的組合歧義等問題。另一種常用的評價指標(biāo)是: 準(zhǔn)確率P(precision)、召回率R(recall)和F值(F-measure)。
(10)
其中KP表示抽取出的正確關(guān)鍵詞條數(shù),K表示抽取出的關(guān)鍵詞條數(shù)。
(11)
其中DK表示文檔中的關(guān)鍵詞條數(shù)。
(12)
其中: 準(zhǔn)確率和召回率的取值范圍為[0,1],取值越接近1,分別表示抽取出的關(guān)鍵詞正確率越高和越多的關(guān)鍵詞被正確抽取;F值為準(zhǔn)確率和召回率的調(diào)和平均值,能夠綜合準(zhǔn)確率和召回率; ?為調(diào)節(jié)參數(shù),當(dāng)?=1時,表示為F1值,即
(13)
通過總結(jié)文本關(guān)鍵詞抽取的各種方法,考慮到應(yīng)用環(huán)境復(fù)雜性的影響,對于不同類型的文本,例如長文本和短文本,通用語言文本和少數(shù)民族語言文本,采用同一種文本關(guān)鍵詞抽取方法得到的性能結(jié)果會有所不相同。所以,針對不同類型、不同民族語言的文本應(yīng)采取不同的算法。針對目前文本關(guān)鍵詞抽取技術(shù)面臨的研究難點,提出以下需進(jìn)一步研究內(nèi)容:
(1) 多種方法的有效融合。使用傳統(tǒng)方法和基于深度學(xué)習(xí)的方法,或者其他的多種方法相融合的方式改進(jìn)中文或少數(shù)民族語言文本關(guān)鍵詞抽取的性能。
(2) 結(jié)合語義的方法。隨著深度學(xué)習(xí)的發(fā)展,相較于傳統(tǒng)機(jī)器學(xué)習(xí)時代,自然語言處理技術(shù)發(fā)生了翻天覆地的變化。從word2vec模型,到Elmo模型,再到后來Google提出的BERT語言模型,大幅度提升了自然語言處理多種任務(wù)的性能,BERT能動態(tài)調(diào)整語義信息有效解決一詞多義的問題,將文本理解和語義表示推向了新高度。
(3) 借助外部知識庫改善關(guān)鍵詞抽取技術(shù)。神經(jīng)網(wǎng)絡(luò)在大規(guī)模語料訓(xùn)練過程中,并沒有顯式的將知識進(jìn)行合理的結(jié)構(gòu)化組織,從而導(dǎo)致模型領(lǐng)域泛化能力較弱。利用知識圖譜等形式進(jìn)行組織并實現(xiàn)知識融合,可以幫助模型提高泛化能力,是未來值得探索的重要方向。