程 芮 張海軍
(新疆師范大學(xué)計算機科學(xué)技術(shù)學(xué)院 烏魯木齊 830054)
科技文獻是指涵蓋科學(xué)、工程、醫(yī)學(xué)等領(lǐng)域的專業(yè)文獻,是科研工作者進行科學(xué)研究和技術(shù)開發(fā)的基礎(chǔ),也是科技創(chuàng)新的重要源頭。隨著科技文獻數(shù)量和種類的不斷增加,如何高效管理和利用科技文獻成為一個難題??萍嘉墨I關(guān)鍵詞提取技術(shù)可以幫助研究者快速準確地了解文獻主題,提高科技文獻檢索的效率,為科技研究提供了支持。
傳統(tǒng)的科技文獻關(guān)鍵詞提取方法只能從文本中提取已經(jīng)存在的詞語作為關(guān)鍵詞而不能根據(jù)隱含的深層語義特征生成更準確表達文本主題和內(nèi)容的詞語,存在一定的語義局限性。另外,傳統(tǒng)的科技文獻關(guān)鍵詞提取方法主要關(guān)注文本中出現(xiàn)頻率較高的詞語,對于一些出現(xiàn)次數(shù)較少但可以幫助理解文獻主題和內(nèi)容的專有名詞、術(shù)語概念等則關(guān)注較少,存在重點信息關(guān)注不足的問題。
針對上述問題,本文提出一種基于數(shù)據(jù)增強的關(guān)鍵詞提取模型(GPT-2 BiLSTM Mul-Attention,GPBA)。將生成任務(wù)與提取任務(wù)相結(jié)合,通過GPT-2模型結(jié)構(gòu)中堆疊的自注意力機制從科技文獻中采集語義表示信息,將提取的隱藏語義特征進行數(shù)據(jù)增強,來解決語義局限性問題。為強化模型對局部重點信息的關(guān)注,該文在BiLSTM獲取全局信息的基礎(chǔ)上,引入多頭注意力機制以在不同空間中捕獲詞語特征,從而加強對重點詞匯的關(guān)注。
業(yè)界自1957年首次提出基于詞頻的關(guān)鍵詞自動提取方法后歷經(jīng)60多年的發(fā)展,關(guān)鍵詞提取方法已經(jīng)衍生出諸多類別[1]。目前關(guān)鍵詞提取方法主要分為無監(jiān)督的關(guān)鍵詞提取和有監(jiān)督的關(guān)鍵詞提取兩類[2]。
無監(jiān)督的關(guān)鍵詞提取方法目前主要分為三類:基于統(tǒng)計特征的關(guān)鍵詞提取方法、基于主題模型的關(guān)鍵詞提取方法以及基于詞圖模型的關(guān)鍵詞提取方法。
基于統(tǒng)計特征的關(guān)鍵詞提取方法常用的算法是TF-IDF算法。Huang等人[3]使用一個小型的標簽數(shù)據(jù)集對短語進行簡單的索引,通過TF-IDF值對短語加權(quán)篩選關(guān)鍵詞。在提高文本適用性能上,Li等人[4]利用語義空間的特征,重新排列原始TF-IDF得分。
基于主題模型的關(guān)鍵詞提取代表方法為LDA模型[5]。在文本結(jié)構(gòu)與主題聯(lián)系上,Gu等人[6]將單個文檔的內(nèi)部結(jié)構(gòu)信息與文檔間的主題信息合并實現(xiàn)關(guān)鍵詞提取。Qian等人[7]使用Bert模型提取關(guān)鍵句集作為LDA文本主題信息的補充,以獲取更豐富的特征表示。
基于詞圖模型的關(guān)鍵詞提取代表方法為TextRank算法。在節(jié)點權(quán)重調(diào)節(jié)上,Biswas[8]提出了一種使用集體節(jié)點權(quán)重的關(guān)鍵詞提取方法,通過集體考慮各種影響參數(shù)來確定關(guān)鍵詞的重要性。Tao等人[9]提出一種基于PMI加權(quán)的TextRank算法,更加考慮詞匯間的相互信息并修正其關(guān)系。
以上介紹的三種無監(jiān)督關(guān)鍵詞提取方法,均是通過分析短語的外部特征來獲取關(guān)鍵詞。相較于需要預(yù)先標記或訓(xùn)練數(shù)據(jù)集的方法,無監(jiān)督的關(guān)鍵詞提取方法無需手動標注數(shù)據(jù),更加簡單便捷。
無監(jiān)督的關(guān)鍵詞提取方法雖然適用范圍廣、靈活性高,但提取的關(guān)鍵詞準確度較低。而有監(jiān)督的關(guān)鍵詞提取方法使用特定的數(shù)據(jù)集進行訓(xùn)練,通過學(xué)習關(guān)鍵詞的各種特征,能更準確地提取與主題相關(guān)的關(guān)鍵詞。目前該方法主要分為兩類:二分類關(guān)鍵詞提取方法和序列標注關(guān)鍵詞提取方法。
二分類的關(guān)鍵詞提取方法在模型中加入各種特征進行訓(xùn)練,利用詞語自身的特征屬性將詞語分為關(guān)鍵詞和非關(guān)鍵詞。二分類的關(guān)鍵詞提取方法有廣泛地實際應(yīng)用場景,有些學(xué)者[10-11]通過微調(diào)BERT模型總結(jié)醫(yī)學(xué)報告中的關(guān)鍵詞對其分類,提取重要數(shù)據(jù)進行實際應(yīng)用。
序列標注關(guān)鍵詞提取方法中,根據(jù)序列標注學(xué)習詞語間的關(guān)系,預(yù)測每個詞的標簽并提取關(guān)鍵詞。Rabah等人[12]通過BiLSTM模型與CRF相結(jié)合的方法捕獲文本中的隱藏語義。Sahrawat等人[13]在BiLSTM-CRF模型的基礎(chǔ)上加入SciBERT預(yù)訓(xùn)練模型獲取詞嵌入信息,相比于BERT模型可以獲取不同的自我關(guān)注層。
上述方法雖然能根據(jù)文本的上下文語義關(guān)系提取關(guān)鍵詞,但獲取的只是文本的表層信息,對于文本的深層語義信息理解不足使得提取出的關(guān)鍵詞存在局限性。
近年來學(xué)者們?yōu)榱烁玫財U充數(shù)據(jù)豐富其特征表示,將數(shù)據(jù)增強方法引入關(guān)鍵詞提取任務(wù)中。在數(shù)據(jù)擴充上,許多研究[14-15]通過訓(xùn)練其他領(lǐng)域的數(shù)據(jù)來擴充當前領(lǐng)域的數(shù)據(jù)集,并在新數(shù)據(jù)集上再次訓(xùn)練模型對其相關(guān)性進行微調(diào)。在使用其他模型特征進行數(shù)據(jù)增強上,Ding等人[16]提出一種基于增強圖的關(guān)鍵詞提取模型,通過全局和局部上下文節(jié)點增強圖以提高性能。Saidi等人[17]提出一種基于語言模型的數(shù)據(jù)增強,通過使用GPT-2為詞義消岐任務(wù)增加數(shù)據(jù)。從上述方法可知在數(shù)據(jù)量不足時利用數(shù)據(jù)增強技術(shù)可以獲取更多樣化的數(shù)據(jù),提高關(guān)鍵詞提取的魯棒性和泛化能力。
基于以上分析,本文提出一種基于數(shù)據(jù)增強的科技文獻關(guān)鍵詞提取模型。一方面引入GPT-2模型對大規(guī)模的科技文獻數(shù)據(jù)集進行訓(xùn)練,根據(jù)上下文語境生成新單詞,提高關(guān)鍵詞多樣性解決以往關(guān)鍵詞局限性問題。另一方面在提取模型BiLSTM的基礎(chǔ)上加入多頭注意力機制,通過對文本中的局部重要特征加權(quán)來解決重點詞關(guān)注不足問題。
本文提出的基于數(shù)據(jù)增強的科技文獻關(guān)鍵詞提取模型(GPT-2 BiLSTM Mul-Attention,GPBA)如圖1所示。該模型主要由語言模型層、融合多頭注意力機制的特征提取層和基于多模型特征融合的分類層三個模塊組成。在語言模型層中,將對數(shù)據(jù)擴充后訓(xùn)練得到的GPT-2模型作為語言模型。在該文的實驗過程中,通過加載語言模型對輸入的信息進行多特征融合,挖掘文本隱藏語義來進行深層次的語義凝練,以起到關(guān)鍵詞語義增強的作用。融合多頭注意力機制的特征提取層,在BiLSTM模型獲取詞語全局特征的基礎(chǔ)上加入多頭注意力機制,對局部特征加權(quán)強調(diào)重要特征信息;基于多模型特征融合的分類層將語言模型層生成的關(guān)鍵詞特征與提取層提取的關(guān)鍵詞特征相拼接,以增加數(shù)據(jù)的多樣性和覆蓋面,提高模型的魯棒性和泛化能力,從而有效地進行數(shù)據(jù)增強。最后,對拼接后的關(guān)鍵詞信息進行分類。
圖1 GPBA模型結(jié)構(gòu)圖
為了獲取更能準確表達科技文獻中心含義的關(guān)鍵詞,選擇與人類寫作習慣相同的GPT-2模型[18]作為該文的語言模型。GPT-2模型本質(zhì)上是自回歸模型,其作用是根據(jù)已有句子的一部分來預(yù)測下一個單詞是什么,自左向右依次生成新詞語。由于關(guān)鍵詞通常表現(xiàn)出與復(fù)雜句法和語義信息根深蒂固的內(nèi)在層次[19],因此表示信息需要對句法和語義信息進行充分編碼,而GPT-2模型中多特征集合的詞語信息矩陣提供了更準確地詞向量表示,從而獲取更多樣的深層特征。
使用Google的word2vec[20]模型獲取文本{W1,W2,W3,…,Wn}的詞向量表示,在輸入語言模型層前,找到起始單詞對應(yīng)的嵌入向量及對應(yīng)的位置編碼后,將文本轉(zhuǎn)化為詞語信息矩陣{x1,x2,…,xn},該矩陣包含詞語的詞向量信息和位置信息。
利用GPT-2模型中堆疊的解碼器(Decoder)自注意力機制層,對文本中的詞語進行加權(quán)計算,學(xué)習科技文獻的上下文語義依賴關(guān)系,捕捉文本序列中的結(jié)構(gòu)特征并利用這些結(jié)構(gòu)特征生成蘊含上下文深層語義的關(guān)鍵詞。
在語言模型層中,選取最后一層Transformer最后一個時間步的輸出向量ht,如公式(1)所示。
ht=Decoder(ht-1)
(1)
本文使用Word2Vec將輸入的文本{W1,W2,W3,…,Wn}轉(zhuǎn)化為詞向量{x1,x2,…,xn},并采用BiLSTM模型來提取科技文獻的全局特征。為了選擇性忽略無用信息并提取重要信息,該文做了如下改進,在BiLSTM模型的基礎(chǔ)上加入Transformer模型[22]中的多頭注意力機制。這種機制能夠并行執(zhí)行多個注意力模塊的工作,從而獲取不同類型的相關(guān)信息,并引入更多特征信息以提高文本特征提取的能力。通過將BiLSTM層中獲取到的特征映射到多個空間,該方法能夠從多個維度上捕獲空間特征,實現(xiàn)對重點詞匯的關(guān)注作用。
(2)
(3)
h*=MultiHead(Q,K,V)=concat(head1,head2,…,headh)Wo
(4)
單一的關(guān)鍵詞提取模型,由于只能將文本中已存在的短語作為最終的關(guān)鍵詞,存在關(guān)鍵詞語義局限性問題。該文的另一改進是將語言模型層特征與提取層特征相融合,這種方法與僅使用提取模型相比,可以通過語言模型理解文本內(nèi)在層次,生成隱含文本深層語義結(jié)構(gòu)的特征,并與提取層在多維空間中計算的重要性權(quán)重特征相融合,從而得到蘊含文本表層與深層語義信息結(jié)構(gòu)的特征。該文將GPT-2模型中最后一層最后一個時間步的輸出向量ht與提取層的輸出向量h*進行拼接,如公式(5)所示。⊕表示將兩個隱含層的向量相拼接。
H=(ht⊕h*)
美國學(xué)者保羅·麥克林提出了“蛇形腦”這個概念,人類在處于恐懼和憤怒情緒時,做出的應(yīng)激反應(yīng)和蛇一樣——蛇在發(fā)起進攻時,要么噴毒液把對方毒死,要么纏住對方使其窒息而死。
(5)
之后通過softmax函數(shù)將輸出映射到(0,1)區(qū)間,如公式(6)所示,得到關(guān)鍵詞分類結(jié)果。
(6)
本文實驗中用到了5種公開的數(shù)據(jù)集,具體內(nèi)容如表1所示。
表1 不同數(shù)據(jù)集介紹
在文本預(yù)處理過程中,首先使用NLTK[28]庫中的sent_tokenize函數(shù)對文本進行分句操作,對文本中的句子進行分割;然后,使用NLTK庫中的word_tokenize函數(shù),對分句后的句子進行分詞操作;由于在學(xué)術(shù)文本中有許多非文本的標點符號和與文章主題無關(guān)的停用詞,因此使用NLTK庫中的corpus函數(shù)導(dǎo)入英文stopwords,刪除停用詞進行降噪處理;最后,使用PorterStemmer類對單詞的詞干進行提取,從單詞中去除詞綴并返回詞根,把詞性還原后再將所有的英文單詞都轉(zhuǎn)化為小寫。實驗過程中僅使用學(xué)術(shù)論文數(shù)據(jù)集的標題和摘要部分。
本文使用困惑度[29]作為衡量語言模型好壞的評估指標。困惑度是用來衡量語言模型優(yōu)劣的一種評估方法,可以計算在整個句子或者文段上的概率分布。如公式(7)所示,S表示句子,N是句子長度,p(wi)是第i個詞的概率。
(7)
采用精確率、召回率和F1值三種評估指標,來衡量關(guān)鍵詞提取模型的好壞。
精確度(Precision):精確率(P)指模型正確提取的關(guān)鍵詞在提取關(guān)鍵詞中正確的比例,如公式(8)所示:
(8)
召回率(Recall):召回率(R)指一篇文章中被正確提取的關(guān)鍵詞比例,如公式(9)所示:
(9)
F1值(F-Value):F1值基于精確度和召回率計算,預(yù)測得到的關(guān)鍵詞準確度與F1值成正相關(guān),如公式(10)所示:
(10)
在實驗中,采用一臺64GB內(nèi)存24核AMD的CPU,通過一塊24GB顯存的RTX3090 GPU進行加速,編程語言為Python3.7,使用了Pytorch1.10.0框架。詞向量設(shè)定的維度為768,BiLSTM層數(shù)為2層,多頭注意力機制中的頭數(shù)為8,并設(shè)置初始的學(xué)習率為0.0003,dropout為0.3。
3.5.1對比實驗
為了驗證該文所提出的GPBA模型相比其它有競爭力的模型在性能上的提升,選用目前有代表性的關(guān)鍵詞提取方法TF-IDF、YAKE、EmbedRankBERT和有競爭力的關(guān)鍵詞生成方法CopyRNN、CATSEQ、TG-NET以及數(shù)據(jù)增強的關(guān)鍵詞提取方法AGRank,作為基線模型進行對比。
TF-IDF[30]是一種基于統(tǒng)計方式,根據(jù)詞頻預(yù)測關(guān)鍵詞任務(wù)模型,通過計算候選詞詞頻以及逆詞頻的乘積作為權(quán)重,并排序來獲取最終關(guān)鍵詞。
YAKE[31]是一種輕量型自動提取關(guān)鍵詞的方法,通過基于文本統(tǒng)計特征方法,從單個文檔中抽取關(guān)鍵詞(單詞和多詞短語),并且不需要依賴文檔集合。
EmbedRankBERT[32]利用BERT句子嵌入提取關(guān)鍵詞的關(guān)鍵詞提取模型,通過關(guān)鍵詞句子的嵌入和完整文檔的嵌入之間的距離獲得信息量來篩選關(guān)鍵詞,由候選短語之間的距離來表示多樣性。
CopyRNN由Meng等人[24]將序列到序列模型應(yīng)用到關(guān)鍵詞預(yù)測領(lǐng)域中,使用編碼器-解碼器結(jié)構(gòu)和復(fù)制機制進行關(guān)鍵詞生成任務(wù)。
CATSEQ[33]提出一種循環(huán)生成模型,采用兩種范式訓(xùn)練Seq2Seq模型,以分離符分割序列生成多個關(guān)鍵詞操縱解碼器的隱藏狀態(tài)。
TG-NET[34]引入一種標題引導(dǎo)網(wǎng)絡(luò),使用標題用作類似查詢的輸入,并通過標題引導(dǎo)編碼器從標題收集文檔中每個單詞的相關(guān)信息。
AGRank[16]利用從預(yù)訓(xùn)練的BERT模型中提取的相互注意力來構(gòu)建候選圖,并使用全局和局部上下文節(jié)點來增強圖以強調(diào)全局和局部上下文以及它們與候選項的關(guān)系。
表2在5個數(shù)據(jù)集上對提取前五個和前十個關(guān)鍵詞的F1值進行了實驗,對比不同模型的表現(xiàn),并驗證本文所提出的模型的有效性。
表2 不同模型的對比實驗
根據(jù)表2的結(jié)果可以看出,本文提出的GPBA模型在5個數(shù)據(jù)集上的實驗效果優(yōu)于大部分的基線模型。對于其他基線模型的表現(xiàn),TF-IDF在五個數(shù)據(jù)集上的實驗結(jié)果最差,這是由于該算法多根據(jù)文本詞頻、逆文檔頻率來計算獲取關(guān)鍵詞,雖然簡潔快速,但獲取的特征不全面。YAKE模型基于文本特征統(tǒng)計的方法從單個文檔中抽取關(guān)鍵詞,盡管能考慮到比TF-IDF更豐富的特征信息,但對于文本之間的主題信息以及語義聯(lián)系上考慮不足,雖然在五個數(shù)據(jù)集上的效果略優(yōu)于TF-IDF,但提升效果并不顯著。
EmbedRankBERT相比TF-IDF和YAKE有一定的提升,但相比于其他模型效果一般。這是因為該模型雖然通過BERT模型綜合考慮了詞語間的上下文聯(lián)系和語義信息,但只能提取文本中存在的詞作為關(guān)鍵詞,存在語義局限性。
CopyRNN是由特定領(lǐng)域內(nèi)的大量數(shù)據(jù)訓(xùn)練而成,與前面三個關(guān)鍵詞提取方法相比有了大幅度的提升。盡管它能生成文本中不存在的關(guān)鍵詞,但缺乏對語義覆蓋度及語義相關(guān)性的考慮,生成許多語義重復(fù)的關(guān)鍵詞,對結(jié)果產(chǎn)生負面影響。
CatSeq雖然在ONE2ONE中返回的序列本身都是唯一的短語,但由于ONE2SEQ中需要額外的過程獲取最終唯一的有序短語列表,使得生成的短語重復(fù)性較多,在實驗結(jié)果上略低于GPBA模型。
本文提出的GPBA模型在關(guān)鍵詞提取任務(wù)中的表現(xiàn)優(yōu)于TG-NET模型。當提取前五個關(guān)鍵詞時,Inspec和LIS-2000數(shù)據(jù)集上相比于TG-NET模型分別提高了0.129和0.044,但在Kp20k、PubMed和Semeval數(shù)據(jù)集上沒有顯著優(yōu)勢,反而比TG-NET模型分別降低了0.03、0.012和0.027。造成這種情況的主要原因是TG-NET中的標題引導(dǎo)網(wǎng)絡(luò)可以使其更快速地獲取文本的總結(jié)性信息,進一步幫助TG-NET生成標準關(guān)鍵詞,在一些標題概括性較強的數(shù)據(jù)集下TG-NET的實驗結(jié)果略優(yōu)于GPBA。但GPBA模型通過語言模型進行數(shù)據(jù)增強,生成的關(guān)鍵詞更多樣化,提取關(guān)鍵詞數(shù)量越多效果越好。當提取前十個關(guān)鍵詞時,GPBA模型在五個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于TG-NET模型,分別提高了0.138、0.031、0.045、0.015和0.036。
與基于圖增強的AGRank對比可知,本文提出的GPBA在Inspec和SemEval兩個數(shù)據(jù)集上的實驗效果均優(yōu)于AGRank。雖然AGRank可以通過增強圖節(jié)點的方式強調(diào)全局和局部上下文以及它們與候選項之間的關(guān)系,但GPBA的數(shù)據(jù)增強方法能更好地貼近原文的語義聯(lián)系,從而擁有更好的實驗效果。
3.5.2語言模型與泛化性實驗
為了更好地體現(xiàn)文本語義結(jié)構(gòu)化信息,使用OpenAI團隊的GPT-2模型作為語言模型進行數(shù)據(jù)增強。在使用GPT-2模型時,該文利用困惑度來評估語言模型的好壞。通過對預(yù)處理后的5個數(shù)據(jù)集進行拼接、打亂順序等形成一個新的大型語料庫,共進行10輪的訓(xùn)練,時長約為11小時。這里將困惑度最低一輪對應(yīng)的模型參數(shù)保存為最終的語言模型,如圖2所示。
圖2 語言模型困惑度
圖2中橫坐標為訓(xùn)練的批次,縱坐標為困惑度的大小。由于困惑度越低的模型越能準確地預(yù)測關(guān)鍵詞樣本,根據(jù)圖2的實驗結(jié)果可以看出訓(xùn)練批次為10時對應(yīng)的困惑度最低。為了更好地實現(xiàn)關(guān)鍵詞生成效果,該文保存第10輪訓(xùn)練的模型作為最終語言模型。
為了驗證本模型的泛化性,分別在5個數(shù)據(jù)集上進行實驗。表3和表4分別列出了在不同數(shù)據(jù)集上提取前五個和前十個關(guān)鍵詞的預(yù)測精確度(P)、召回率(R)和F1值。
表4 各數(shù)據(jù)集上提取前十個關(guān)鍵詞結(jié)果
通過表3和表4的數(shù)據(jù)得出,本模型在Inspec數(shù)據(jù)集上的效果最好,提取前五個和前十個關(guān)鍵詞的精確度分別可以達到0.516和0.484。在提取關(guān)鍵詞數(shù)量上,隨著提取關(guān)鍵詞數(shù)量增加,精確度有所降低,但召回率和F1值都在升高,說明隨著關(guān)鍵詞提取數(shù)量的增加,提取正確關(guān)鍵詞的數(shù)量也隨之增加,召回率升高。但是增加的正確提取關(guān)鍵詞數(shù)量仍少于提取關(guān)鍵詞增加的個數(shù),使得精確度有所下降。對于其它數(shù)據(jù)集來說,雖然數(shù)據(jù)集數(shù)據(jù)較少,但表現(xiàn)出來的結(jié)果與規(guī)模最大數(shù)據(jù)集kp20k的結(jié)果相差不大,說明本方法具有良好的泛化性。
3.5.3消融實驗
為了探究使用語言模型進行數(shù)據(jù)增強以及在BiLSTM模型框架上添加多頭注意力機制對實驗效果的影響,該文分別在五個數(shù)據(jù)集上進行消融實驗。
如圖3和圖4所示,除Semeval數(shù)據(jù)集外,本文使用的GPBA模型的效果都是最優(yōu)的。正如Meng等人在實驗中發(fā)現(xiàn)學(xué)術(shù)論文中作者給出的關(guān)鍵詞會有近半數(shù)不在正文中出現(xiàn),當不使用GPT-2模型作為語言模型進行數(shù)據(jù)增強時,大部分數(shù)據(jù)集上對應(yīng)的F1值都有不同程度的下降,這說明使用語言模型做數(shù)據(jù)增強,在科技文獻領(lǐng)域進行關(guān)鍵詞提取可以起到正向作用。由圖3、圖4可見,不使用多頭注意力機制時,BiLSTM模型雖然能考慮到文本的全局特征,但沒有多頭注意力機制對特征加權(quán)導(dǎo)致對局部重要特征的捕捉變?nèi)?無法在不同語義情景下很好的發(fā)揮作用。在Semeval數(shù)據(jù)集中 BiLSTM+多頭注意力機制模型實驗效果要略好于本方法,是因為該數(shù)據(jù)集是本實驗中所使用的五個數(shù)據(jù)集中規(guī)模最小的,而本實驗的模型具有較大的規(guī)模,這意味著在相同條件下進行實驗容易出現(xiàn)過擬合現(xiàn)象,導(dǎo)致測試時對實驗結(jié)果產(chǎn)生負面影響。
圖3 消融實驗提取五個關(guān)鍵詞
圖4 消融實驗提取十個關(guān)鍵詞
為了解決關(guān)鍵詞語義局限性和重點信息關(guān)注不足問題,本文提出了一種基于數(shù)據(jù)增強的科技文獻關(guān)鍵詞提取模型GPBA,有效提高了對科技文獻核心內(nèi)容的提取能力。本方法根據(jù)科技文獻寫作時的語義特點,使用5個數(shù)據(jù)集組合而成的大型語料庫訓(xùn)練語言模型,通過語言模型更深入理解文本中詞語的隱藏語義信息,更好地挖掘與預(yù)測科技文獻中不存在的關(guān)鍵詞信息。之后與使用BiLSTM和多頭注意力機制的關(guān)鍵詞提取方法結(jié)合,融合兩種關(guān)鍵詞獲取方法的優(yōu)點,進一步提升關(guān)鍵詞提取任務(wù)的效果。實驗結(jié)果表明,本文采用的GPBA模型在5個公開數(shù)據(jù)集上相比于其他模型的效果具有顯著提高。
本模型僅適用于特定的科技文獻領(lǐng)域,而隨著當前網(wǎng)絡(luò)技術(shù)的發(fā)展,各個領(lǐng)域信息的規(guī)模也不斷擴大,關(guān)鍵詞提取任務(wù)的重要性日益顯著。接下來的研究重點主要針對不同領(lǐng)域的模型泛化性進行研究,并進一步完善模型以增強關(guān)鍵詞提取任務(wù)的應(yīng)用范圍。