• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于數(shù)據(jù)增強的科技文獻關(guān)鍵詞提取模型*

    2024-01-06 08:42:08張海軍
    情報雜志 2024年1期
    關(guān)鍵詞:集上語義特征

    程 芮 張海軍

    (新疆師范大學(xué)計算機科學(xué)技術(shù)學(xué)院 烏魯木齊 830054)

    0 引 言

    科技文獻是指涵蓋科學(xué)、工程、醫(yī)學(xué)等領(lǐng)域的專業(yè)文獻,是科研工作者進行科學(xué)研究和技術(shù)開發(fā)的基礎(chǔ),也是科技創(chuàng)新的重要源頭。隨著科技文獻數(shù)量和種類的不斷增加,如何高效管理和利用科技文獻成為一個難題??萍嘉墨I關(guān)鍵詞提取技術(shù)可以幫助研究者快速準確地了解文獻主題,提高科技文獻檢索的效率,為科技研究提供了支持。

    傳統(tǒng)的科技文獻關(guān)鍵詞提取方法只能從文本中提取已經(jīng)存在的詞語作為關(guān)鍵詞而不能根據(jù)隱含的深層語義特征生成更準確表達文本主題和內(nèi)容的詞語,存在一定的語義局限性。另外,傳統(tǒng)的科技文獻關(guān)鍵詞提取方法主要關(guān)注文本中出現(xiàn)頻率較高的詞語,對于一些出現(xiàn)次數(shù)較少但可以幫助理解文獻主題和內(nèi)容的專有名詞、術(shù)語概念等則關(guān)注較少,存在重點信息關(guān)注不足的問題。

    針對上述問題,本文提出一種基于數(shù)據(jù)增強的關(guān)鍵詞提取模型(GPT-2 BiLSTM Mul-Attention,GPBA)。將生成任務(wù)與提取任務(wù)相結(jié)合,通過GPT-2模型結(jié)構(gòu)中堆疊的自注意力機制從科技文獻中采集語義表示信息,將提取的隱藏語義特征進行數(shù)據(jù)增強,來解決語義局限性問題。為強化模型對局部重點信息的關(guān)注,該文在BiLSTM獲取全局信息的基礎(chǔ)上,引入多頭注意力機制以在不同空間中捕獲詞語特征,從而加強對重點詞匯的關(guān)注。

    1 文獻綜述

    業(yè)界自1957年首次提出基于詞頻的關(guān)鍵詞自動提取方法后歷經(jīng)60多年的發(fā)展,關(guān)鍵詞提取方法已經(jīng)衍生出諸多類別[1]。目前關(guān)鍵詞提取方法主要分為無監(jiān)督的關(guān)鍵詞提取和有監(jiān)督的關(guān)鍵詞提取兩類[2]。

    1.1 無監(jiān)督關(guān)鍵詞提取方法

    無監(jiān)督的關(guān)鍵詞提取方法目前主要分為三類:基于統(tǒng)計特征的關(guān)鍵詞提取方法、基于主題模型的關(guān)鍵詞提取方法以及基于詞圖模型的關(guān)鍵詞提取方法。

    基于統(tǒng)計特征的關(guān)鍵詞提取方法常用的算法是TF-IDF算法。Huang等人[3]使用一個小型的標簽數(shù)據(jù)集對短語進行簡單的索引,通過TF-IDF值對短語加權(quán)篩選關(guān)鍵詞。在提高文本適用性能上,Li等人[4]利用語義空間的特征,重新排列原始TF-IDF得分。

    基于主題模型的關(guān)鍵詞提取代表方法為LDA模型[5]。在文本結(jié)構(gòu)與主題聯(lián)系上,Gu等人[6]將單個文檔的內(nèi)部結(jié)構(gòu)信息與文檔間的主題信息合并實現(xiàn)關(guān)鍵詞提取。Qian等人[7]使用Bert模型提取關(guān)鍵句集作為LDA文本主題信息的補充,以獲取更豐富的特征表示。

    基于詞圖模型的關(guān)鍵詞提取代表方法為TextRank算法。在節(jié)點權(quán)重調(diào)節(jié)上,Biswas[8]提出了一種使用集體節(jié)點權(quán)重的關(guān)鍵詞提取方法,通過集體考慮各種影響參數(shù)來確定關(guān)鍵詞的重要性。Tao等人[9]提出一種基于PMI加權(quán)的TextRank算法,更加考慮詞匯間的相互信息并修正其關(guān)系。

    以上介紹的三種無監(jiān)督關(guān)鍵詞提取方法,均是通過分析短語的外部特征來獲取關(guān)鍵詞。相較于需要預(yù)先標記或訓(xùn)練數(shù)據(jù)集的方法,無監(jiān)督的關(guān)鍵詞提取方法無需手動標注數(shù)據(jù),更加簡單便捷。

    1.2 有監(jiān)督關(guān)鍵詞提取方法

    無監(jiān)督的關(guān)鍵詞提取方法雖然適用范圍廣、靈活性高,但提取的關(guān)鍵詞準確度較低。而有監(jiān)督的關(guān)鍵詞提取方法使用特定的數(shù)據(jù)集進行訓(xùn)練,通過學(xué)習關(guān)鍵詞的各種特征,能更準確地提取與主題相關(guān)的關(guān)鍵詞。目前該方法主要分為兩類:二分類關(guān)鍵詞提取方法和序列標注關(guān)鍵詞提取方法。

    二分類的關(guān)鍵詞提取方法在模型中加入各種特征進行訓(xùn)練,利用詞語自身的特征屬性將詞語分為關(guān)鍵詞和非關(guān)鍵詞。二分類的關(guān)鍵詞提取方法有廣泛地實際應(yīng)用場景,有些學(xué)者[10-11]通過微調(diào)BERT模型總結(jié)醫(yī)學(xué)報告中的關(guān)鍵詞對其分類,提取重要數(shù)據(jù)進行實際應(yīng)用。

    序列標注關(guān)鍵詞提取方法中,根據(jù)序列標注學(xué)習詞語間的關(guān)系,預(yù)測每個詞的標簽并提取關(guān)鍵詞。Rabah等人[12]通過BiLSTM模型與CRF相結(jié)合的方法捕獲文本中的隱藏語義。Sahrawat等人[13]在BiLSTM-CRF模型的基礎(chǔ)上加入SciBERT預(yù)訓(xùn)練模型獲取詞嵌入信息,相比于BERT模型可以獲取不同的自我關(guān)注層。

    上述方法雖然能根據(jù)文本的上下文語義關(guān)系提取關(guān)鍵詞,但獲取的只是文本的表層信息,對于文本的深層語義信息理解不足使得提取出的關(guān)鍵詞存在局限性。

    近年來學(xué)者們?yōu)榱烁玫財U充數(shù)據(jù)豐富其特征表示,將數(shù)據(jù)增強方法引入關(guān)鍵詞提取任務(wù)中。在數(shù)據(jù)擴充上,許多研究[14-15]通過訓(xùn)練其他領(lǐng)域的數(shù)據(jù)來擴充當前領(lǐng)域的數(shù)據(jù)集,并在新數(shù)據(jù)集上再次訓(xùn)練模型對其相關(guān)性進行微調(diào)。在使用其他模型特征進行數(shù)據(jù)增強上,Ding等人[16]提出一種基于增強圖的關(guān)鍵詞提取模型,通過全局和局部上下文節(jié)點增強圖以提高性能。Saidi等人[17]提出一種基于語言模型的數(shù)據(jù)增強,通過使用GPT-2為詞義消岐任務(wù)增加數(shù)據(jù)。從上述方法可知在數(shù)據(jù)量不足時利用數(shù)據(jù)增強技術(shù)可以獲取更多樣化的數(shù)據(jù),提高關(guān)鍵詞提取的魯棒性和泛化能力。

    基于以上分析,本文提出一種基于數(shù)據(jù)增強的科技文獻關(guān)鍵詞提取模型。一方面引入GPT-2模型對大規(guī)模的科技文獻數(shù)據(jù)集進行訓(xùn)練,根據(jù)上下文語境生成新單詞,提高關(guān)鍵詞多樣性解決以往關(guān)鍵詞局限性問題。另一方面在提取模型BiLSTM的基礎(chǔ)上加入多頭注意力機制,通過對文本中的局部重要特征加權(quán)來解決重點詞關(guān)注不足問題。

    2 基于數(shù)據(jù)增強的多特征關(guān)鍵詞提取模型

    本文提出的基于數(shù)據(jù)增強的科技文獻關(guān)鍵詞提取模型(GPT-2 BiLSTM Mul-Attention,GPBA)如圖1所示。該模型主要由語言模型層、融合多頭注意力機制的特征提取層和基于多模型特征融合的分類層三個模塊組成。在語言模型層中,將對數(shù)據(jù)擴充后訓(xùn)練得到的GPT-2模型作為語言模型。在該文的實驗過程中,通過加載語言模型對輸入的信息進行多特征融合,挖掘文本隱藏語義來進行深層次的語義凝練,以起到關(guān)鍵詞語義增強的作用。融合多頭注意力機制的特征提取層,在BiLSTM模型獲取詞語全局特征的基礎(chǔ)上加入多頭注意力機制,對局部特征加權(quán)強調(diào)重要特征信息;基于多模型特征融合的分類層將語言模型層生成的關(guān)鍵詞特征與提取層提取的關(guān)鍵詞特征相拼接,以增加數(shù)據(jù)的多樣性和覆蓋面,提高模型的魯棒性和泛化能力,從而有效地進行數(shù)據(jù)增強。最后,對拼接后的關(guān)鍵詞信息進行分類。

    圖1 GPBA模型結(jié)構(gòu)圖

    2.1 語言模型層

    為了獲取更能準確表達科技文獻中心含義的關(guān)鍵詞,選擇與人類寫作習慣相同的GPT-2模型[18]作為該文的語言模型。GPT-2模型本質(zhì)上是自回歸模型,其作用是根據(jù)已有句子的一部分來預(yù)測下一個單詞是什么,自左向右依次生成新詞語。由于關(guān)鍵詞通常表現(xiàn)出與復(fù)雜句法和語義信息根深蒂固的內(nèi)在層次[19],因此表示信息需要對句法和語義信息進行充分編碼,而GPT-2模型中多特征集合的詞語信息矩陣提供了更準確地詞向量表示,從而獲取更多樣的深層特征。

    使用Google的word2vec[20]模型獲取文本{W1,W2,W3,…,Wn}的詞向量表示,在輸入語言模型層前,找到起始單詞對應(yīng)的嵌入向量及對應(yīng)的位置編碼后,將文本轉(zhuǎn)化為詞語信息矩陣{x1,x2,…,xn},該矩陣包含詞語的詞向量信息和位置信息。

    利用GPT-2模型中堆疊的解碼器(Decoder)自注意力機制層,對文本中的詞語進行加權(quán)計算,學(xué)習科技文獻的上下文語義依賴關(guān)系,捕捉文本序列中的結(jié)構(gòu)特征并利用這些結(jié)構(gòu)特征生成蘊含上下文深層語義的關(guān)鍵詞。

    在語言模型層中,選取最后一層Transformer最后一個時間步的輸出向量ht,如公式(1)所示。

    ht=Decoder(ht-1)

    (1)

    2.2 融合多頭注意力機制的特征提取層

    本文使用Word2Vec將輸入的文本{W1,W2,W3,…,Wn}轉(zhuǎn)化為詞向量{x1,x2,…,xn},并采用BiLSTM模型來提取科技文獻的全局特征。為了選擇性忽略無用信息并提取重要信息,該文做了如下改進,在BiLSTM模型的基礎(chǔ)上加入Transformer模型[22]中的多頭注意力機制。這種機制能夠并行執(zhí)行多個注意力模塊的工作,從而獲取不同類型的相關(guān)信息,并引入更多特征信息以提高文本特征提取的能力。通過將BiLSTM層中獲取到的特征映射到多個空間,該方法能夠從多個維度上捕獲空間特征,實現(xiàn)對重點詞匯的關(guān)注作用。

    (2)

    (3)

    h*=MultiHead(Q,K,V)=concat(head1,head2,…,headh)Wo

    (4)

    2.3 基于多模型特征融合的分類層

    單一的關(guān)鍵詞提取模型,由于只能將文本中已存在的短語作為最終的關(guān)鍵詞,存在關(guān)鍵詞語義局限性問題。該文的另一改進是將語言模型層特征與提取層特征相融合,這種方法與僅使用提取模型相比,可以通過語言模型理解文本內(nèi)在層次,生成隱含文本深層語義結(jié)構(gòu)的特征,并與提取層在多維空間中計算的重要性權(quán)重特征相融合,從而得到蘊含文本表層與深層語義信息結(jié)構(gòu)的特征。該文將GPT-2模型中最后一層最后一個時間步的輸出向量ht與提取層的輸出向量h*進行拼接,如公式(5)所示。⊕表示將兩個隱含層的向量相拼接。

    H=(ht⊕h*)

    美國學(xué)者保羅·麥克林提出了“蛇形腦”這個概念,人類在處于恐懼和憤怒情緒時,做出的應(yīng)激反應(yīng)和蛇一樣——蛇在發(fā)起進攻時,要么噴毒液把對方毒死,要么纏住對方使其窒息而死。

    (5)

    之后通過softmax函數(shù)將輸出映射到(0,1)區(qū)間,如公式(6)所示,得到關(guān)鍵詞分類結(jié)果。

    (6)

    3 實 驗

    3.1 實驗數(shù)據(jù)集

    本文實驗中用到了5種公開的數(shù)據(jù)集,具體內(nèi)容如表1所示。

    表1 不同數(shù)據(jù)集介紹

    3.2 文本預(yù)處理

    在文本預(yù)處理過程中,首先使用NLTK[28]庫中的sent_tokenize函數(shù)對文本進行分句操作,對文本中的句子進行分割;然后,使用NLTK庫中的word_tokenize函數(shù),對分句后的句子進行分詞操作;由于在學(xué)術(shù)文本中有許多非文本的標點符號和與文章主題無關(guān)的停用詞,因此使用NLTK庫中的corpus函數(shù)導(dǎo)入英文stopwords,刪除停用詞進行降噪處理;最后,使用PorterStemmer類對單詞的詞干進行提取,從單詞中去除詞綴并返回詞根,把詞性還原后再將所有的英文單詞都轉(zhuǎn)化為小寫。實驗過程中僅使用學(xué)術(shù)論文數(shù)據(jù)集的標題和摘要部分。

    3.3 評估指標

    本文使用困惑度[29]作為衡量語言模型好壞的評估指標。困惑度是用來衡量語言模型優(yōu)劣的一種評估方法,可以計算在整個句子或者文段上的概率分布。如公式(7)所示,S表示句子,N是句子長度,p(wi)是第i個詞的概率。

    (7)

    采用精確率、召回率和F1值三種評估指標,來衡量關(guān)鍵詞提取模型的好壞。

    精確度(Precision):精確率(P)指模型正確提取的關(guān)鍵詞在提取關(guān)鍵詞中正確的比例,如公式(8)所示:

    (8)

    召回率(Recall):召回率(R)指一篇文章中被正確提取的關(guān)鍵詞比例,如公式(9)所示:

    (9)

    F1值(F-Value):F1值基于精確度和召回率計算,預(yù)測得到的關(guān)鍵詞準確度與F1值成正相關(guān),如公式(10)所示:

    (10)

    3.4 實驗環(huán)境及參數(shù)設(shè)置

    在實驗中,采用一臺64GB內(nèi)存24核AMD的CPU,通過一塊24GB顯存的RTX3090 GPU進行加速,編程語言為Python3.7,使用了Pytorch1.10.0框架。詞向量設(shè)定的維度為768,BiLSTM層數(shù)為2層,多頭注意力機制中的頭數(shù)為8,并設(shè)置初始的學(xué)習率為0.0003,dropout為0.3。

    3.5 實驗結(jié)果與分析

    3.5.1對比實驗

    為了驗證該文所提出的GPBA模型相比其它有競爭力的模型在性能上的提升,選用目前有代表性的關(guān)鍵詞提取方法TF-IDF、YAKE、EmbedRankBERT和有競爭力的關(guān)鍵詞生成方法CopyRNN、CATSEQ、TG-NET以及數(shù)據(jù)增強的關(guān)鍵詞提取方法AGRank,作為基線模型進行對比。

    TF-IDF[30]是一種基于統(tǒng)計方式,根據(jù)詞頻預(yù)測關(guān)鍵詞任務(wù)模型,通過計算候選詞詞頻以及逆詞頻的乘積作為權(quán)重,并排序來獲取最終關(guān)鍵詞。

    YAKE[31]是一種輕量型自動提取關(guān)鍵詞的方法,通過基于文本統(tǒng)計特征方法,從單個文檔中抽取關(guān)鍵詞(單詞和多詞短語),并且不需要依賴文檔集合。

    EmbedRankBERT[32]利用BERT句子嵌入提取關(guān)鍵詞的關(guān)鍵詞提取模型,通過關(guān)鍵詞句子的嵌入和完整文檔的嵌入之間的距離獲得信息量來篩選關(guān)鍵詞,由候選短語之間的距離來表示多樣性。

    CopyRNN由Meng等人[24]將序列到序列模型應(yīng)用到關(guān)鍵詞預(yù)測領(lǐng)域中,使用編碼器-解碼器結(jié)構(gòu)和復(fù)制機制進行關(guān)鍵詞生成任務(wù)。

    CATSEQ[33]提出一種循環(huán)生成模型,采用兩種范式訓(xùn)練Seq2Seq模型,以分離符分割序列生成多個關(guān)鍵詞操縱解碼器的隱藏狀態(tài)。

    TG-NET[34]引入一種標題引導(dǎo)網(wǎng)絡(luò),使用標題用作類似查詢的輸入,并通過標題引導(dǎo)編碼器從標題收集文檔中每個單詞的相關(guān)信息。

    AGRank[16]利用從預(yù)訓(xùn)練的BERT模型中提取的相互注意力來構(gòu)建候選圖,并使用全局和局部上下文節(jié)點來增強圖以強調(diào)全局和局部上下文以及它們與候選項的關(guān)系。

    表2在5個數(shù)據(jù)集上對提取前五個和前十個關(guān)鍵詞的F1值進行了實驗,對比不同模型的表現(xiàn),并驗證本文所提出的模型的有效性。

    表2 不同模型的對比實驗

    根據(jù)表2的結(jié)果可以看出,本文提出的GPBA模型在5個數(shù)據(jù)集上的實驗效果優(yōu)于大部分的基線模型。對于其他基線模型的表現(xiàn),TF-IDF在五個數(shù)據(jù)集上的實驗結(jié)果最差,這是由于該算法多根據(jù)文本詞頻、逆文檔頻率來計算獲取關(guān)鍵詞,雖然簡潔快速,但獲取的特征不全面。YAKE模型基于文本特征統(tǒng)計的方法從單個文檔中抽取關(guān)鍵詞,盡管能考慮到比TF-IDF更豐富的特征信息,但對于文本之間的主題信息以及語義聯(lián)系上考慮不足,雖然在五個數(shù)據(jù)集上的效果略優(yōu)于TF-IDF,但提升效果并不顯著。

    EmbedRankBERT相比TF-IDF和YAKE有一定的提升,但相比于其他模型效果一般。這是因為該模型雖然通過BERT模型綜合考慮了詞語間的上下文聯(lián)系和語義信息,但只能提取文本中存在的詞作為關(guān)鍵詞,存在語義局限性。

    CopyRNN是由特定領(lǐng)域內(nèi)的大量數(shù)據(jù)訓(xùn)練而成,與前面三個關(guān)鍵詞提取方法相比有了大幅度的提升。盡管它能生成文本中不存在的關(guān)鍵詞,但缺乏對語義覆蓋度及語義相關(guān)性的考慮,生成許多語義重復(fù)的關(guān)鍵詞,對結(jié)果產(chǎn)生負面影響。

    CatSeq雖然在ONE2ONE中返回的序列本身都是唯一的短語,但由于ONE2SEQ中需要額外的過程獲取最終唯一的有序短語列表,使得生成的短語重復(fù)性較多,在實驗結(jié)果上略低于GPBA模型。

    本文提出的GPBA模型在關(guān)鍵詞提取任務(wù)中的表現(xiàn)優(yōu)于TG-NET模型。當提取前五個關(guān)鍵詞時,Inspec和LIS-2000數(shù)據(jù)集上相比于TG-NET模型分別提高了0.129和0.044,但在Kp20k、PubMed和Semeval數(shù)據(jù)集上沒有顯著優(yōu)勢,反而比TG-NET模型分別降低了0.03、0.012和0.027。造成這種情況的主要原因是TG-NET中的標題引導(dǎo)網(wǎng)絡(luò)可以使其更快速地獲取文本的總結(jié)性信息,進一步幫助TG-NET生成標準關(guān)鍵詞,在一些標題概括性較強的數(shù)據(jù)集下TG-NET的實驗結(jié)果略優(yōu)于GPBA。但GPBA模型通過語言模型進行數(shù)據(jù)增強,生成的關(guān)鍵詞更多樣化,提取關(guān)鍵詞數(shù)量越多效果越好。當提取前十個關(guān)鍵詞時,GPBA模型在五個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于TG-NET模型,分別提高了0.138、0.031、0.045、0.015和0.036。

    與基于圖增強的AGRank對比可知,本文提出的GPBA在Inspec和SemEval兩個數(shù)據(jù)集上的實驗效果均優(yōu)于AGRank。雖然AGRank可以通過增強圖節(jié)點的方式強調(diào)全局和局部上下文以及它們與候選項之間的關(guān)系,但GPBA的數(shù)據(jù)增強方法能更好地貼近原文的語義聯(lián)系,從而擁有更好的實驗效果。

    3.5.2語言模型與泛化性實驗

    為了更好地體現(xiàn)文本語義結(jié)構(gòu)化信息,使用OpenAI團隊的GPT-2模型作為語言模型進行數(shù)據(jù)增強。在使用GPT-2模型時,該文利用困惑度來評估語言模型的好壞。通過對預(yù)處理后的5個數(shù)據(jù)集進行拼接、打亂順序等形成一個新的大型語料庫,共進行10輪的訓(xùn)練,時長約為11小時。這里將困惑度最低一輪對應(yīng)的模型參數(shù)保存為最終的語言模型,如圖2所示。

    圖2 語言模型困惑度

    圖2中橫坐標為訓(xùn)練的批次,縱坐標為困惑度的大小。由于困惑度越低的模型越能準確地預(yù)測關(guān)鍵詞樣本,根據(jù)圖2的實驗結(jié)果可以看出訓(xùn)練批次為10時對應(yīng)的困惑度最低。為了更好地實現(xiàn)關(guān)鍵詞生成效果,該文保存第10輪訓(xùn)練的模型作為最終語言模型。

    為了驗證本模型的泛化性,分別在5個數(shù)據(jù)集上進行實驗。表3和表4分別列出了在不同數(shù)據(jù)集上提取前五個和前十個關(guān)鍵詞的預(yù)測精確度(P)、召回率(R)和F1值。

    表4 各數(shù)據(jù)集上提取前十個關(guān)鍵詞結(jié)果

    通過表3和表4的數(shù)據(jù)得出,本模型在Inspec數(shù)據(jù)集上的效果最好,提取前五個和前十個關(guān)鍵詞的精確度分別可以達到0.516和0.484。在提取關(guān)鍵詞數(shù)量上,隨著提取關(guān)鍵詞數(shù)量增加,精確度有所降低,但召回率和F1值都在升高,說明隨著關(guān)鍵詞提取數(shù)量的增加,提取正確關(guān)鍵詞的數(shù)量也隨之增加,召回率升高。但是增加的正確提取關(guān)鍵詞數(shù)量仍少于提取關(guān)鍵詞增加的個數(shù),使得精確度有所下降。對于其它數(shù)據(jù)集來說,雖然數(shù)據(jù)集數(shù)據(jù)較少,但表現(xiàn)出來的結(jié)果與規(guī)模最大數(shù)據(jù)集kp20k的結(jié)果相差不大,說明本方法具有良好的泛化性。

    3.5.3消融實驗

    為了探究使用語言模型進行數(shù)據(jù)增強以及在BiLSTM模型框架上添加多頭注意力機制對實驗效果的影響,該文分別在五個數(shù)據(jù)集上進行消融實驗。

    如圖3和圖4所示,除Semeval數(shù)據(jù)集外,本文使用的GPBA模型的效果都是最優(yōu)的。正如Meng等人在實驗中發(fā)現(xiàn)學(xué)術(shù)論文中作者給出的關(guān)鍵詞會有近半數(shù)不在正文中出現(xiàn),當不使用GPT-2模型作為語言模型進行數(shù)據(jù)增強時,大部分數(shù)據(jù)集上對應(yīng)的F1值都有不同程度的下降,這說明使用語言模型做數(shù)據(jù)增強,在科技文獻領(lǐng)域進行關(guān)鍵詞提取可以起到正向作用。由圖3、圖4可見,不使用多頭注意力機制時,BiLSTM模型雖然能考慮到文本的全局特征,但沒有多頭注意力機制對特征加權(quán)導(dǎo)致對局部重要特征的捕捉變?nèi)?無法在不同語義情景下很好的發(fā)揮作用。在Semeval數(shù)據(jù)集中 BiLSTM+多頭注意力機制模型實驗效果要略好于本方法,是因為該數(shù)據(jù)集是本實驗中所使用的五個數(shù)據(jù)集中規(guī)模最小的,而本實驗的模型具有較大的規(guī)模,這意味著在相同條件下進行實驗容易出現(xiàn)過擬合現(xiàn)象,導(dǎo)致測試時對實驗結(jié)果產(chǎn)生負面影響。

    圖3 消融實驗提取五個關(guān)鍵詞

    圖4 消融實驗提取十個關(guān)鍵詞

    4 結(jié)論與展望

    為了解決關(guān)鍵詞語義局限性和重點信息關(guān)注不足問題,本文提出了一種基于數(shù)據(jù)增強的科技文獻關(guān)鍵詞提取模型GPBA,有效提高了對科技文獻核心內(nèi)容的提取能力。本方法根據(jù)科技文獻寫作時的語義特點,使用5個數(shù)據(jù)集組合而成的大型語料庫訓(xùn)練語言模型,通過語言模型更深入理解文本中詞語的隱藏語義信息,更好地挖掘與預(yù)測科技文獻中不存在的關(guān)鍵詞信息。之后與使用BiLSTM和多頭注意力機制的關(guān)鍵詞提取方法結(jié)合,融合兩種關(guān)鍵詞獲取方法的優(yōu)點,進一步提升關(guān)鍵詞提取任務(wù)的效果。實驗結(jié)果表明,本文采用的GPBA模型在5個公開數(shù)據(jù)集上相比于其他模型的效果具有顯著提高。

    本模型僅適用于特定的科技文獻領(lǐng)域,而隨著當前網(wǎng)絡(luò)技術(shù)的發(fā)展,各個領(lǐng)域信息的規(guī)模也不斷擴大,關(guān)鍵詞提取任務(wù)的重要性日益顯著。接下來的研究重點主要針對不同領(lǐng)域的模型泛化性進行研究,并進一步完善模型以增強關(guān)鍵詞提取任務(wù)的應(yīng)用范圍。

    猜你喜歡
    集上語義特征
    Cookie-Cutter集上的Gibbs測度
    語言與語義
    鏈完備偏序集上廣義向量均衡問題解映射的保序性
    如何表達“特征”
    不忠誠的四個特征
    當代陜西(2019年10期)2019-06-03 10:12:04
    復(fù)扇形指標集上的分布混沌
    抓住特征巧觀察
    “上”與“下”語義的不對稱性及其認知闡釋
    認知范疇模糊與語義模糊
    線性代數(shù)的應(yīng)用特征
    河南科技(2014年23期)2014-02-27 14:19:15
    av在线播放精品| 色哟哟·www| 国产午夜精品久久久久久一区二区三区 | 日韩成人av中文字幕在线观看 | 女人被狂操c到高潮| 久久午夜福利片| 一夜夜www| 我要看日韩黄色一级片| 长腿黑丝高跟| 97超视频在线观看视频| 精品一区二区免费观看| 99国产极品粉嫩在线观看| 悠悠久久av| 白带黄色成豆腐渣| 日本熟妇午夜| 成年版毛片免费区| 成年版毛片免费区| 老熟妇乱子伦视频在线观看| 伊人久久精品亚洲午夜| 91狼人影院| 91狼人影院| 日韩成人伦理影院| 中文资源天堂在线| 麻豆一二三区av精品| 中文字幕av在线有码专区| 欧美潮喷喷水| 天堂影院成人在线观看| 直男gayav资源| 午夜福利成人在线免费观看| 欧美丝袜亚洲另类| 国产单亲对白刺激| 美女高潮的动态| 麻豆精品久久久久久蜜桃| 久久99热6这里只有精品| aaaaa片日本免费| 日本黄色片子视频| aaaaa片日本免费| 欧美3d第一页| 久久久国产成人精品二区| 女人十人毛片免费观看3o分钟| 国产国拍精品亚洲av在线观看| 99久久久亚洲精品蜜臀av| 中文亚洲av片在线观看爽| 亚洲第一区二区三区不卡| 日韩欧美 国产精品| 成人特级黄色片久久久久久久| 国产精品亚洲一级av第二区| 高清午夜精品一区二区三区 | 三级经典国产精品| 欧美激情久久久久久爽电影| 亚洲色图av天堂| 精品不卡国产一区二区三区| h日本视频在线播放| 国语自产精品视频在线第100页| 亚洲最大成人中文| h日本视频在线播放| 日本成人三级电影网站| 三级国产精品欧美在线观看| ponron亚洲| 欧美一区二区精品小视频在线| 国产精品综合久久久久久久免费| 男人舔奶头视频| 亚洲av中文av极速乱| 国产高潮美女av| 一区二区三区高清视频在线| 亚洲激情五月婷婷啪啪| 2021天堂中文幕一二区在线观| 亚洲精品一区av在线观看| 亚洲乱码一区二区免费版| 国产一区二区三区av在线 | 日韩av不卡免费在线播放| 波多野结衣高清无吗| 国产三级在线视频| 国产 一区精品| 美女免费视频网站| 成人国产麻豆网| 丰满人妻一区二区三区视频av| 黑人高潮一二区| 国产成人福利小说| 久久综合国产亚洲精品| 久久天躁狠狠躁夜夜2o2o| 69人妻影院| 69av精品久久久久久| 美女内射精品一级片tv| 嫩草影院入口| 亚洲欧美清纯卡通| 日韩欧美精品免费久久| 国产精品嫩草影院av在线观看| 欧美xxxx性猛交bbbb| 成人二区视频| 中文字幕免费在线视频6| 天堂影院成人在线观看| 日韩大尺度精品在线看网址| 国产色婷婷99| 联通29元200g的流量卡| 我的老师免费观看完整版| 三级国产精品欧美在线观看| 色在线成人网| 免费电影在线观看免费观看| 久久综合国产亚洲精品| 免费观看的影片在线观看| 成年女人毛片免费观看观看9| 国产成人a区在线观看| 欧美人与善性xxx| 亚洲一区二区三区色噜噜| 美女免费视频网站| 国产精品三级大全| 日韩高清综合在线| 女的被弄到高潮叫床怎么办| 精品久久久久久久人妻蜜臀av| 国产精品亚洲一级av第二区| 国产亚洲91精品色在线| 日本黄色片子视频| 国产老妇女一区| 亚洲熟妇中文字幕五十中出| 国产69精品久久久久777片| 婷婷亚洲欧美| 精品乱码久久久久久99久播| 国产精品一二三区在线看| 内射极品少妇av片p| 色噜噜av男人的天堂激情| 国模一区二区三区四区视频| 看黄色毛片网站| 欧美日本亚洲视频在线播放| 欧美在线一区亚洲| 国产aⅴ精品一区二区三区波| 悠悠久久av| 嫩草影院精品99| 极品教师在线视频| 成人特级黄色片久久久久久久| 亚洲内射少妇av| 麻豆精品久久久久久蜜桃| 国内精品一区二区在线观看| 国产精品免费一区二区三区在线| 熟女人妻精品中文字幕| 国产精品一区二区三区四区免费观看 | 99在线视频只有这里精品首页| 久久久欧美国产精品| 国产真实伦视频高清在线观看| 成人午夜高清在线视频| av黄色大香蕉| 蜜臀久久99精品久久宅男| 日日干狠狠操夜夜爽| 又爽又黄a免费视频| 三级国产精品欧美在线观看| av在线播放精品| 最近最新中文字幕大全电影3| 国产爱豆传媒在线观看| 69av精品久久久久久| 丝袜喷水一区| 最好的美女福利视频网| 午夜免费激情av| 免费一级毛片在线播放高清视频| 国内揄拍国产精品人妻在线| 乱系列少妇在线播放| 欧美+日韩+精品| www.色视频.com| 欧美色视频一区免费| 搡老熟女国产l中国老女人| avwww免费| 日本欧美国产在线视频| 看免费成人av毛片| 精品久久国产蜜桃| 午夜福利成人在线免费观看| 久久精品人妻少妇| 亚洲精品影视一区二区三区av| 日韩大尺度精品在线看网址| 精品国产三级普通话版| 一级黄片播放器| 白带黄色成豆腐渣| or卡值多少钱| av在线老鸭窝| 3wmmmm亚洲av在线观看| 最近的中文字幕免费完整| 国内精品一区二区在线观看| 97在线视频观看| 校园春色视频在线观看| 日韩人妻高清精品专区| 亚洲精品久久国产高清桃花| 国产精品人妻久久久久久| 国产一区二区在线观看日韩| 一进一出抽搐动态| 在线观看免费视频日本深夜| 日本免费a在线| 99久久成人亚洲精品观看| 久久久久久九九精品二区国产| 最近中文字幕高清免费大全6| 日本一本二区三区精品| 国产真实伦视频高清在线观看| 午夜老司机福利剧场| 国产激情偷乱视频一区二区| 日韩制服骚丝袜av| 免费看av在线观看网站| 成人av一区二区三区在线看| 亚洲av熟女| 成人综合一区亚洲| 九九久久精品国产亚洲av麻豆| 最近2019中文字幕mv第一页| 中文亚洲av片在线观看爽| 日韩强制内射视频| 欧美一级a爱片免费观看看| 自拍偷自拍亚洲精品老妇| 97热精品久久久久久| 真人做人爱边吃奶动态| 久久久久久久久久黄片| 国产精品久久电影中文字幕| 欧美+亚洲+日韩+国产| 亚洲国产精品成人综合色| 国内精品久久久久精免费| 亚洲乱码一区二区免费版| 男人的好看免费观看在线视频| 欧美日本视频| 天堂动漫精品| 国内久久婷婷六月综合欲色啪| 天天躁夜夜躁狠狠久久av| 91久久精品国产一区二区成人| 可以在线观看毛片的网站| 日韩精品有码人妻一区| 国产真实乱freesex| 久久鲁丝午夜福利片| 国产国拍精品亚洲av在线观看| 欧美成人免费av一区二区三区| 高清午夜精品一区二区三区 | 美女 人体艺术 gogo| .国产精品久久| 久久久精品欧美日韩精品| 又爽又黄a免费视频| 亚洲精品一区av在线观看| 亚洲精品国产av成人精品 | 欧美成人一区二区免费高清观看| 中文字幕av在线有码专区| 国产精品久久久久久精品电影| 热99re8久久精品国产| 在线观看66精品国产| 亚洲性夜色夜夜综合| 午夜久久久久精精品| 国产精品无大码| 国产欧美日韩一区二区精品| 日本成人三级电影网站| 欧美在线一区亚洲| 内射极品少妇av片p| 变态另类丝袜制服| 老师上课跳d突然被开到最大视频| 免费看a级黄色片| 给我免费播放毛片高清在线观看| 国产白丝娇喘喷水9色精品| 波多野结衣高清无吗| 一边摸一边抽搐一进一小说| 成人高潮视频无遮挡免费网站| 长腿黑丝高跟| 老女人水多毛片| 亚洲精品成人久久久久久| av女优亚洲男人天堂| 欧美不卡视频在线免费观看| 欧美一区二区亚洲| 中文字幕av在线有码专区| 色吧在线观看| 亚洲国产精品国产精品| 最新中文字幕久久久久| 久久精品国产99精品国产亚洲性色| 精品一区二区三区人妻视频| 美女内射精品一级片tv| 国产毛片a区久久久久| 露出奶头的视频| 99久久成人亚洲精品观看| 亚洲欧美日韩无卡精品| 亚洲国产色片| 亚洲一区二区三区色噜噜| 国产精品久久久久久av不卡| 97超碰精品成人国产| 精品乱码久久久久久99久播| 级片在线观看| 久久99热这里只有精品18| 干丝袜人妻中文字幕| 老熟妇仑乱视频hdxx| 亚洲高清免费不卡视频| 又黄又爽又免费观看的视频| 听说在线观看完整版免费高清| 久久久久久久亚洲中文字幕| 日日撸夜夜添| 99久久成人亚洲精品观看| 美女大奶头视频| 国产黄色视频一区二区在线观看 | 黄色配什么色好看| 一个人免费在线观看电影| 啦啦啦韩国在线观看视频| 丰满的人妻完整版| 国产精品久久电影中文字幕| 3wmmmm亚洲av在线观看| 如何舔出高潮| 18禁黄网站禁片免费观看直播| 熟女人妻精品中文字幕| 国产精品综合久久久久久久免费| 男人和女人高潮做爰伦理| 波野结衣二区三区在线| 性插视频无遮挡在线免费观看| 欧美日本视频| 舔av片在线| 欧美最黄视频在线播放免费| 天堂动漫精品| 黄色欧美视频在线观看| 国产男人的电影天堂91| 十八禁国产超污无遮挡网站| 一进一出好大好爽视频| 亚洲第一电影网av| 菩萨蛮人人尽说江南好唐韦庄 | 国产精品精品国产色婷婷| 黄色欧美视频在线观看| 十八禁网站免费在线| 天堂影院成人在线观看| 久久久久久久久大av| 成熟少妇高潮喷水视频| 亚洲精品在线观看二区| 欧美成人一区二区免费高清观看| 少妇熟女aⅴ在线视频| 亚洲熟妇熟女久久| 久久草成人影院| 精品一区二区三区人妻视频| 好男人在线观看高清免费视频| 欧美日韩综合久久久久久| 日韩av在线大香蕉| 亚洲色图av天堂| 91在线精品国自产拍蜜月| 91狼人影院| 亚洲最大成人av| 欧美潮喷喷水| 国产精品日韩av在线免费观看| 又黄又爽又刺激的免费视频.| 国产真实伦视频高清在线观看| 一级黄片播放器| 国产熟女欧美一区二区| 午夜免费激情av| 在线a可以看的网站| av视频在线观看入口| 国产探花极品一区二区| 一区二区三区四区激情视频 | 欧美日韩精品成人综合77777| 久久99热6这里只有精品| 男人舔奶头视频| 可以在线观看的亚洲视频| 国产免费一级a男人的天堂| 国产亚洲精品久久久com| 欧美区成人在线视频| 一个人观看的视频www高清免费观看| 少妇熟女aⅴ在线视频| 观看美女的网站| 日韩在线高清观看一区二区三区| 99九九线精品视频在线观看视频| 国产伦在线观看视频一区| 我要看日韩黄色一级片| 国产精品亚洲美女久久久| 听说在线观看完整版免费高清| 18+在线观看网站| 色综合站精品国产| 国产亚洲精品av在线| 狂野欧美激情性xxxx在线观看| 真人做人爱边吃奶动态| 嫩草影院精品99| 国产精品不卡视频一区二区| 亚洲av一区综合| 亚洲国产日韩欧美精品在线观看| 久久综合国产亚洲精品| 久久鲁丝午夜福利片| 亚洲七黄色美女视频| 内射极品少妇av片p| 少妇裸体淫交视频免费看高清| 国产成人一区二区在线| 69人妻影院| 少妇熟女aⅴ在线视频| av在线播放精品| 又黄又爽又免费观看的视频| 亚洲高清免费不卡视频| 亚洲中文字幕日韩| 国产片特级美女逼逼视频| 国产女主播在线喷水免费视频网站 | 伦理电影大哥的女人| 两个人视频免费观看高清| 国内精品一区二区在线观看| 美女内射精品一级片tv| 亚洲电影在线观看av| 99久国产av精品国产电影| 亚洲国产高清在线一区二区三| 最近手机中文字幕大全| 我的老师免费观看完整版| 亚洲国产精品成人久久小说 | 成年女人永久免费观看视频| 91在线观看av| 亚洲七黄色美女视频| 黄色一级大片看看| 亚洲精品久久国产高清桃花| 国产成人精品久久久久久| 99在线视频只有这里精品首页| 一区二区三区高清视频在线| 午夜激情福利司机影院| 无遮挡黄片免费观看| 干丝袜人妻中文字幕| 美女免费视频网站| 久久精品国产鲁丝片午夜精品| 久久精品夜夜夜夜夜久久蜜豆| 日本三级黄在线观看| 一进一出好大好爽视频| 黄色欧美视频在线观看| 淫秽高清视频在线观看| 特级一级黄色大片| 少妇猛男粗大的猛烈进出视频 | 我的女老师完整版在线观看| 精品国内亚洲2022精品成人| a级毛片a级免费在线| 中文资源天堂在线| 欧美激情在线99| h日本视频在线播放| 最后的刺客免费高清国语| 亚洲第一区二区三区不卡| 麻豆国产av国片精品| 成人毛片a级毛片在线播放| 人妻少妇偷人精品九色| 自拍偷自拍亚洲精品老妇| 免费看日本二区| 日韩精品有码人妻一区| 国产高清三级在线| 欧美性猛交黑人性爽| 成人永久免费在线观看视频| 一个人观看的视频www高清免费观看| 亚洲成人av在线免费| 亚洲精品国产av成人精品 | 成人二区视频| 精品一区二区免费观看| 青春草视频在线免费观看| 日韩欧美在线乱码| 国产黄色小视频在线观看| 亚洲最大成人中文| 性色avwww在线观看| 色哟哟哟哟哟哟| 三级毛片av免费| 日本与韩国留学比较| 如何舔出高潮| 免费电影在线观看免费观看| 看片在线看免费视频| 欧美一区二区亚洲| 亚洲av二区三区四区| 亚洲精品国产av成人精品 | 免费看日本二区| 国产高清激情床上av| 国产高清三级在线| 久久久久久大精品| 天天一区二区日本电影三级| 久久午夜福利片| 寂寞人妻少妇视频99o| 午夜激情欧美在线| 精品久久久久久久久亚洲| 亚洲国产精品国产精品| 亚洲内射少妇av| 色5月婷婷丁香| 免费人成视频x8x8入口观看| 国产极品精品免费视频能看的| av专区在线播放| 国产一区二区亚洲精品在线观看| 精品少妇黑人巨大在线播放 | 欧美性感艳星| 伦理电影大哥的女人| 美女cb高潮喷水在线观看| 日本免费一区二区三区高清不卡| 日本黄色片子视频| 日韩欧美一区二区三区在线观看| 成人美女网站在线观看视频| 欧美性猛交╳xxx乱大交人| 黄色一级大片看看| 午夜精品在线福利| 欧美日本亚洲视频在线播放| 亚洲精品乱码久久久v下载方式| 久久久久久久久久黄片| 免费av观看视频| 丝袜美腿在线中文| 国产成人精品久久久久久| 少妇熟女欧美另类| 久久这里只有精品中国| 一级毛片aaaaaa免费看小| 日韩欧美免费精品| 国产精品亚洲一级av第二区| 欧美xxxx性猛交bbbb| 亚洲精品成人久久久久久| 国产又黄又爽又无遮挡在线| 欧美一区二区国产精品久久精品| 少妇熟女aⅴ在线视频| 亚洲va在线va天堂va国产| 国产精品综合久久久久久久免费| 国产精华一区二区三区| 日本五十路高清| 成年av动漫网址| 国产精品人妻久久久影院| 亚洲欧美成人精品一区二区| 免费搜索国产男女视频| 一区二区三区高清视频在线| 国产v大片淫在线免费观看| 99久久中文字幕三级久久日本| 少妇的逼水好多| 亚洲aⅴ乱码一区二区在线播放| 午夜福利在线观看免费完整高清在 | 国产单亲对白刺激| 精品乱码久久久久久99久播| 亚洲国产日韩欧美精品在线观看| 中国美女看黄片| 大型黄色视频在线免费观看| 亚洲人成网站在线播| 免费高清视频大片| 欧美激情国产日韩精品一区| 春色校园在线视频观看| av在线观看视频网站免费| 国产精品永久免费网站| 久久精品综合一区二区三区| 色综合色国产| 乱系列少妇在线播放| 欧美日韩精品成人综合77777| 亚洲av成人精品一区久久| 丰满乱子伦码专区| 国语自产精品视频在线第100页| 亚洲欧美中文字幕日韩二区| 欧美bdsm另类| 欧美潮喷喷水| 日韩av在线大香蕉| 午夜福利高清视频| 亚洲av不卡在线观看| 国产欧美日韩精品亚洲av| 国产探花极品一区二区| 老司机影院成人| 少妇人妻一区二区三区视频| 成人美女网站在线观看视频| 亚洲av第一区精品v没综合| 国产精品久久久久久久电影| 亚洲成a人片在线一区二区| 婷婷六月久久综合丁香| av专区在线播放| 免费人成视频x8x8入口观看| 精品人妻偷拍中文字幕| 亚洲国产精品久久男人天堂| 亚洲精品国产成人久久av| 亚洲精品一卡2卡三卡4卡5卡| 一进一出抽搐动态| 九九久久精品国产亚洲av麻豆| 精品久久久久久久人妻蜜臀av| 99久久无色码亚洲精品果冻| 又粗又爽又猛毛片免费看| 欧美另类亚洲清纯唯美| 国产国拍精品亚洲av在线观看| 久久久久国产精品人妻aⅴ院| 国产欧美日韩一区二区精品| 一a级毛片在线观看| 可以在线观看毛片的网站| 日韩av在线大香蕉| 亚洲激情五月婷婷啪啪| 精品人妻一区二区三区麻豆 | 免费人成在线观看视频色| av视频在线观看入口| 国产精品综合久久久久久久免费| 九九爱精品视频在线观看| a级毛片免费高清观看在线播放| 婷婷精品国产亚洲av| 精品无人区乱码1区二区| 日日撸夜夜添| 久久久久久久久久成人| 国产精品嫩草影院av在线观看| 搡老岳熟女国产| 啦啦啦韩国在线观看视频| 卡戴珊不雅视频在线播放| 日韩av不卡免费在线播放| 尤物成人国产欧美一区二区三区| 99九九线精品视频在线观看视频| 日本-黄色视频高清免费观看| 久久草成人影院| 有码 亚洲区| 免费av不卡在线播放| 97超级碰碰碰精品色视频在线观看| 在线免费观看的www视频| 日本熟妇午夜| 国产黄色视频一区二区在线观看 | 婷婷色综合大香蕉| 美女被艹到高潮喷水动态| 亚洲高清免费不卡视频| 2021天堂中文幕一二区在线观| 亚洲在线自拍视频| 欧美在线一区亚洲| 国产精品久久久久久亚洲av鲁大| 国产大屁股一区二区在线视频| 国产黄色小视频在线观看| 国产高潮美女av| 在线播放国产精品三级| 欧美日韩乱码在线| 国产精品一区二区性色av| 亚洲久久久久久中文字幕| 最近视频中文字幕2019在线8| 在线观看66精品国产| 成人鲁丝片一二三区免费| 变态另类丝袜制服| 三级男女做爰猛烈吃奶摸视频| 最新在线观看一区二区三区| 免费高清视频大片| 国产精品1区2区在线观看.| 最新在线观看一区二区三区| 久久人人爽人人爽人人片va| 色综合色国产| 麻豆精品久久久久久蜜桃| 国产亚洲91精品色在线| 亚洲精品一卡2卡三卡4卡5卡| 色视频www国产| 天堂动漫精品| 亚洲av二区三区四区| 欧美3d第一页| 成年女人永久免费观看视频| 熟女电影av网| 老司机午夜福利在线观看视频| 国产一区二区激情短视频| 国产高清不卡午夜福利| 国产精品久久久久久久久免| 欧美性猛交黑人性爽| 亚洲第一区二区三区不卡|