• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    學(xué)術(shù)文本詞匯功能識(shí)別
    ——在關(guān)鍵詞自動(dòng)抽取中的應(yīng)用

    2021-03-15 07:52:50夏義堃李鵬程
    情報(bào)學(xué)報(bào) 2021年2期
    關(guān)鍵詞:詞匯特征功能

    姜 藝,黃 永,夏義堃,李鵬程,陸 偉

    (1. 武漢大學(xué)信息管理學(xué)院,武漢 430072;2. 武漢大學(xué)信息檢索與知識(shí)挖掘研究所,武漢 430072;3. 武漢大學(xué)信息資源研究中心,武漢 430072)

    1 引 言

    隨著文本數(shù)據(jù)的日益增長(zhǎng),關(guān)鍵詞自動(dòng)抽取——從文本中挖掘能夠高度概括其研究?jī)?nèi)容和主題的關(guān)鍵詞[1]——一直以來都是一個(gè)備受關(guān)注的研究問題。由于對(duì)關(guān)鍵詞抽取任務(wù)理解的不同,關(guān)鍵詞抽取研究主要分為基于排序[2-3]、基于分類[4-5]、基于序列標(biāo)注[6-7]和基于序列生成[8-9]四大類研究模式[1,10]。在上述研究模式的框架下,現(xiàn)有研究所使用的特征主要包括:①候選詞基準(zhǔn)特征,如詞頻、長(zhǎng)度、位置、外部知識(shí)庫(kù)等;②圖結(jié)構(gòu)特征,如詞間關(guān)系和中心度量等;③主題特征;④詞嵌入向量特征[11]。

    上述幾類特征更多地考慮詞匯本身的分布特點(diǎn),而忽略了詞匯與文獻(xiàn)之間的語(yǔ)義關(guān)系。詞匯功能定義了詞匯在學(xué)術(shù)文獻(xiàn)中所承擔(dān)的語(yǔ)義角色,如“問題”“方法”“技術(shù)”“數(shù)據(jù)”[12],這些具有不同語(yǔ)義功能的詞匯從不同的角度反映文獻(xiàn)的研究?jī)?nèi)容??茖W(xué)研究被普遍認(rèn)為是提出問題并解決問題的過程[13-14],在一定程度上,學(xué)術(shù)文獻(xiàn)可視為科學(xué)研究過程的固化,而文獻(xiàn)的核心問題與核心方法則是從文檔層面對(duì)研究工作內(nèi)容的總結(jié)[12]。同時(shí),關(guān)鍵詞也是對(duì)文獻(xiàn)主題和內(nèi)容的凝練與反應(yīng),作者在選擇關(guān)鍵詞時(shí)有其目的性,其選擇的關(guān)鍵詞通常是一些注明研究領(lǐng)域、表征研究主題、描述研究所使用的方法和知識(shí)等具有一定語(yǔ)義功能的詞[15]。因此,關(guān)鍵詞往往會(huì)涵蓋能夠充分表征文獻(xiàn)研究問題和研究方法等內(nèi)容的詞匯。劉智鋒等[16]通過對(duì)信息計(jì)量學(xué)領(lǐng)域的期刊(Journal of Informetrics)論文統(tǒng)計(jì)指出,具有研究主題或研究方法語(yǔ)義功能的關(guān)鍵詞數(shù)量比例高達(dá)74.99%。同樣地,本文對(duì)所使用的計(jì)算機(jī)領(lǐng)域數(shù)據(jù)集中,作者標(biāo)注關(guān)鍵詞的詞匯功能進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)問題和方法詞共占67.99%。因此,從科學(xué)研究過程的共性出發(fā),考慮領(lǐng)域數(shù)據(jù)集的統(tǒng)計(jì)特點(diǎn),本文將詞匯的功能分為“研究問題”“研究方法”和“其他”。從上文可知,作者在標(biāo)注關(guān)鍵詞時(shí)對(duì)研究問題和研究方法詞具有很強(qiáng)的傾向性,這說明詞匯功能特征可以為關(guān)鍵詞抽取提供強(qiáng)有力的線索。

    因此,為驗(yàn)證詞匯功能對(duì)于關(guān)鍵詞自動(dòng)抽取的有效性,本文需解決以下三個(gè)問題:①如何利用詞匯功能特征進(jìn)行關(guān)鍵詞自動(dòng)抽取?②詞匯功能特征對(duì)于關(guān)鍵詞自動(dòng)抽取是否有效?③在多種關(guān)鍵詞自動(dòng)抽取模式中詞匯功能特征是否有效?

    針對(duì)上述三個(gè)問題,本文使用了兩種關(guān)鍵詞抽取模式——基于分類和基于排序的模式,在對(duì)現(xiàn)有文獻(xiàn)關(guān)鍵詞詞匯功能統(tǒng)計(jì)分析的基礎(chǔ)上,抽取候選關(guān)鍵詞構(gòu)建特征數(shù)據(jù)集,然后,融合詞匯功能特征訓(xùn)練關(guān)鍵詞分類器和排序器,對(duì)詞匯功能的效果進(jìn)行了驗(yàn)證與分析。

    2 相關(guān)研究

    對(duì)于關(guān)鍵詞自動(dòng)抽取,目前已有許多研究對(duì)該任務(wù)進(jìn)行了探討,提出了不同的算法和模型,并取得了較好的效果。本節(jié)將對(duì)學(xué)術(shù)文本詞匯功能的相關(guān)研究進(jìn)行闡述,并進(jìn)一步介紹基于不同模式的關(guān)鍵詞自動(dòng)抽取研究。

    2.1 學(xué)術(shù)文本詞匯功能

    學(xué)術(shù)文獻(xiàn)的詞匯功能是指詞匯在“學(xué)術(shù)文本”這一特定背景下所承擔(dān)的功能和意義,也是詞匯作為一個(gè)符號(hào)在該環(huán)境下對(duì)應(yīng)的內(nèi)容或用途[12]。對(duì)于學(xué)術(shù)文本詞匯功能相關(guān)的研究,國(guó)內(nèi)外相關(guān)學(xué)者已取得了一定的進(jìn)展。Kondo 等[17]對(duì)文獻(xiàn)的標(biāo)題結(jié)構(gòu)進(jìn)行分析,將標(biāo)題中的語(yǔ)義信息劃分為研究主題(head)、研究方法(method)、研究目的(goal)和其他(other)四類,并基于此構(gòu)建了技術(shù)趨勢(shì)圖生成系統(tǒng)。Nanba 等[18]對(duì)標(biāo)題和摘要中的技術(shù)(tech‐nology)和效果(effect)兩類詞進(jìn)行了自動(dòng)識(shí)別,其中技術(shù)包括算法、工具、材料和數(shù)據(jù),效果是屬性和屬性值的組合。Gupta 等[19]將學(xué)術(shù)文獻(xiàn)的詞匯功能分為話題(focus)、技術(shù)(technique)和領(lǐng)域(domain)三類,并進(jìn)行自動(dòng)識(shí)別,其中,話題是指文獻(xiàn)的主要貢獻(xiàn),技術(shù)包括所使用的方法或工具,領(lǐng)域則為文獻(xiàn)的應(yīng)用領(lǐng)域。Tsai 等[20]重點(diǎn)關(guān)注技術(shù)(technique)和應(yīng)用(application)兩類語(yǔ)義概念,提出了一種無監(jiān)督的啟發(fā)式算法,對(duì)文獻(xiàn)中的詞匯進(jìn)行識(shí)別與分類。Heffernan 等[14]認(rèn)為,科學(xué)研究是問題提出和解決的過程,將科學(xué)文獻(xiàn)中的詞匯功能分為研究問題和解決方法,并訓(xùn)練分類模型對(duì)短語(yǔ)是否為問題或方法進(jìn)行二值判斷。

    此外,國(guó)際語(yǔ)義測(cè)評(píng)任務(wù)SemEval 2017 Task 10[21]基于計(jì)算機(jī)科學(xué)、材料科學(xué)和物理學(xué)領(lǐng)域的文獻(xiàn)數(shù)據(jù),提出了關(guān)鍵詞抽取、關(guān)鍵詞分類和同種類型關(guān)鍵詞的語(yǔ)義關(guān)系抽取三個(gè)子任務(wù)。其中,關(guān)鍵詞類型包括過程(process)、任務(wù)(task) 和材料(material),過程包括研究方法和研究設(shè)備,材料包含實(shí)驗(yàn)語(yǔ)料和物理材料等。程齊凱[12]對(duì)學(xué)術(shù)文本詞匯功能的顯現(xiàn)機(jī)理進(jìn)行闡釋后,對(duì)學(xué)術(shù)文本的詞匯功能進(jìn)行明確定義,構(gòu)建了領(lǐng)域相關(guān)詞匯功能和領(lǐng)域無關(guān)詞匯功能結(jié)合而成的學(xué)術(shù)文本詞匯功能框架,并基于條件隨機(jī)場(chǎng)和機(jī)器學(xué)習(xí)排序?qū)崿F(xiàn)了詞匯功能的自動(dòng)標(biāo)注,其中,領(lǐng)域相關(guān)詞匯功能依賴于特定的研究領(lǐng)域,并以計(jì)算機(jī)科學(xué)、數(shù)學(xué)科學(xué)和社會(huì)科學(xué)三個(gè)領(lǐng)域?yàn)槔M(jìn)行了闡釋;領(lǐng)域無關(guān)詞匯功能,則是從科學(xué)研究的普遍過程和共同特點(diǎn)考慮,分為研究問題和研究方法兩大類,其中研究問題是科研工作中的問題、主題等對(duì)象,研究方法是用于解決問題的技術(shù)、手段和途徑。程齊凱等[22]將學(xué)術(shù)文獻(xiàn)視為研究人員應(yīng)用研究方法解決研究問題過程的固化,對(duì)文獻(xiàn)標(biāo)題中的研究問題詞(topic)和研究方法詞(method)進(jìn)行自動(dòng)標(biāo)引,在此基礎(chǔ)上構(gòu)建了領(lǐng)域無關(guān)學(xué)術(shù)文獻(xiàn)詞匯功能的標(biāo)準(zhǔn)化數(shù)據(jù)集。另外,劉智鋒等[16]結(jié)合信息計(jì)量學(xué)領(lǐng)域的研究特性,將信息計(jì)量學(xué)領(lǐng)域?qū)W術(shù)文本關(guān)鍵詞的詞匯功能分為領(lǐng)域范圍、研究對(duì)象、研究主題、研究方法、數(shù)據(jù)以及其他六類,并基于此構(gòu)建了相應(yīng)的數(shù)據(jù)集。

    2.2 關(guān)鍵詞自動(dòng)抽取方法

    2.2.1 基于排序的方法

    考慮到關(guān)鍵詞和非關(guān)鍵詞對(duì)于文檔重要程度的差異,基于排序的方法往往按候選詞的重要性大小選擇文檔的關(guān)鍵詞,通常利用詞的統(tǒng)計(jì)特征或詞圖結(jié)構(gòu)特征通過一定的模式對(duì)候選詞進(jìn)行排序。Salton等[2]提出的TFIDF 算法是典型的基于統(tǒng)計(jì)特征的抽取方法,該算法綜合詞匯的詞頻和文檔頻率構(gòu)造了特征TFIDF,并以該特征對(duì)候選詞的重要性進(jìn)行評(píng)分,對(duì)得分簡(jiǎn)單排序后選擇文檔的關(guān)鍵詞。李素建等[23]以候選詞的長(zhǎng)度、出現(xiàn)頻數(shù)、首次出現(xiàn)位置等七個(gè)特征,提出了分類試驗(yàn)、正例試驗(yàn)和打分試驗(yàn)三種基于最大熵模型的關(guān)鍵詞標(biāo)引方法,其中,打分方法綜合考慮在模型中影響正負(fù)概率的特征,在三種方法中顯現(xiàn)出可觀的潛力。此外,Campos等[24-25]推出的YAKE 系統(tǒng)也利用了多種統(tǒng)計(jì)特征,如詞的大小寫、位置、詞頻以及與上下文的關(guān)聯(lián)等,通過綜合以上信息對(duì)候選詞的重要性進(jìn)行評(píng)估排序,實(shí)現(xiàn)了關(guān)鍵詞的自動(dòng)抽取。

    基于圖模型的抽取方法中,Mihalcea 等[3]提出的TextRank 算法最具有代表性,該算法以詞和詞的共現(xiàn)關(guān)系構(gòu)建網(wǎng)絡(luò)圖,并使用PageRank 算法為每個(gè)詞打分并排序,以此獲取文檔的關(guān)鍵詞?;赥ex‐tRank 算法衍生出了許多抽取效果更好的改進(jìn)算法,例如,Liu 等[26]使用LDA(latent Dirichlet allocation)融合主題信息構(gòu)建的Topical PageRank (TPR) 算法;Florescu 等[27]通過加入位置等信息提出的Posi‐tionRank 模型;方俊偉等[28]利用候選詞的先驗(yàn)知識(shí)實(shí)現(xiàn)的PK-TextRank 算法等。

    另外,Rose 等[29]提出了RAKE(rapid automatic keyword extraction)算法,先利用網(wǎng)絡(luò)中詞的度和詞頻計(jì)算詞的得分,再基于詞的得分計(jì)算短語(yǔ)的得分并以此排序。隨著機(jī)器學(xué)習(xí)的興起,有監(jiān)督的學(xué)習(xí)排序方法逐漸被提出,典型的代表是Jiang 等[30]提出的Ranking SVM(support vector machine)模型。在此基礎(chǔ)上,Zhang 等[31]利用詞匯的TFIDF、引文TFIDF、位置信息以及共現(xiàn)頻次等多種特征,實(shí)現(xiàn)了更加先進(jìn)的機(jī)器學(xué)習(xí)排序算法,取得了較好的效果。

    2.2.2 基于分類的方法

    以候選詞在關(guān)鍵詞抽取任務(wù)中的身份類別(是或不是關(guān)鍵詞)為研究對(duì)象,許多研究者將關(guān)鍵詞抽取問題轉(zhuǎn)化為分類問題,利用文檔中蘊(yùn)含的信息構(gòu)建特征來編碼文檔中的詞條,并基于各種特征訓(xùn)練分類器對(duì)候選詞進(jìn)行判別,從而實(shí)現(xiàn)關(guān)鍵詞的篩選。Witten 等[4]提出的著名算法KEA 就是典型的基于分類的抽取方法,該算法使用TFIDF 和詞匯首次出現(xiàn)的位置等特征訓(xùn)練樸素貝葉斯模型,實(shí)現(xiàn)候選詞的分類,取得了較好的抽取效果。還有些研究者通過改進(jìn)或擴(kuò)充原有特征對(duì)KEA 模型進(jìn)行擴(kuò)展并提升了模型的抽取性能,例如,Nguyen 等[32]在模型中添加了表征位置信息的向量和詞匯的后綴序列等特征進(jìn)行關(guān)鍵詞抽?。籑edelyan 等[5]通過加入包括節(jié)點(diǎn)度、語(yǔ)義關(guān)聯(lián)性、鏈接概率等基于維基百科的新特征,提出了KEA 的擴(kuò)展模型Maui。

    此外,Caragea 等[33]不僅使用TFIDF、首次出現(xiàn)的位置、詞性等特征,還利用引文上下文構(gòu)造了新特征,提出了樸素貝葉斯二分類模型CeKE,進(jìn)一步提升了抽取效果。除了樸素貝葉斯模型,Tur‐ney[34]基于C4.5 決策樹提出了GenEx 模型;Hulth[35]在文檔內(nèi)頻率、位置和詞性等統(tǒng)計(jì)特征的基礎(chǔ)上,加入了更多語(yǔ)言學(xué)的知識(shí),訓(xùn)練了一個(gè)規(guī)則歸納系統(tǒng)實(shí)現(xiàn)關(guān)鍵詞抽??;Zhang 等[36]利用全局上下文信息和局部上下文信息,實(shí)現(xiàn)了基于支持向量機(jī)(SVM)的抽取算法;方龍等[37]基于TFIDF 和詞匯首次出現(xiàn)的位置,通過融合學(xué)術(shù)文本的結(jié)構(gòu)功能提升了基于SVM 的關(guān)鍵詞抽取效果。

    2.2.3 基于序列標(biāo)注的方法

    從文本的角度出發(fā),關(guān)鍵詞抽取也可以視為待抽取文本的序列標(biāo)注問題,基于序列標(biāo)注的抽取方法也逐漸被提出。Zhang 等[38]首次將條件隨機(jī)場(chǎng)模型(conditional random fields,CRFs)應(yīng)用到關(guān)鍵詞自動(dòng)抽取任務(wù)中,利用局部上下文特征(如前一個(gè)詞或后一個(gè)詞、TFIDF、詞性、位置等)、全局上下文特征(如是否在文章標(biāo)題、摘要、段落等文章結(jié)構(gòu)中出現(xiàn))以及混合上下文特征(如前一個(gè)詞加后一個(gè)詞等),訓(xùn)練CRFs 模型對(duì)文本進(jìn)行標(biāo)注與關(guān)鍵詞抽取。近年來,Gollapalli 等[6]以詞的大小寫、是否在標(biāo)題中出現(xiàn)以及是否為無監(jiān)督方法抽取結(jié)果的前十之一等為特征,以單個(gè)特征或組合特征訓(xùn)練CRFs 標(biāo)注器抽取關(guān)鍵詞;Patel 等[39]將詞嵌入向量作為特征之一,同TFIDF、相對(duì)位置等特征一起訓(xùn)練CRFs 實(shí)現(xiàn)關(guān)鍵詞抽取。同時(shí),基于神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注方法也逐漸引起研究者的興趣,例如,Sahrawat 等[7]利 用BERT (bidirectional encoder repre‐sentation from transformers)等預(yù)訓(xùn)練模型獲得上下文信息更豐富的嵌入向量,提出了BiLSTM-CRF 抽取模型;Martinc 等[40]使用Transformer 模型并加入詞性信息對(duì)文本進(jìn)行標(biāo)注,提出了TNT-KID 模型,這些模型大都取得了不錯(cuò)的效果。

    2.2.4 基于序列生成的方法

    由于關(guān)鍵詞不一定在文檔中出現(xiàn),但標(biāo)注人員可根據(jù)對(duì)文檔的整體理解,提煉出合適的詞作為文檔的關(guān)鍵詞,而深度學(xué)習(xí)模型恰好能夠?qū)崿F(xiàn)對(duì)文本的理解,因此,不少研究將翻譯模型的思想應(yīng)用到關(guān)鍵詞抽取任務(wù)中,提出了基于序列生成的方法。Meng 等[8]提出了生成模型copyRNN,通過深度學(xué)習(xí)捕獲文本的語(yǔ)義信息,使用Encoder-Decoder 框架預(yù)測(cè)關(guān)鍵詞;Chen 等[9]進(jìn)一步考慮到關(guān)鍵詞生成中的重復(fù)問題和覆蓋問題,加入詞匯間的相關(guān)性約束提出了CorrRNN 模型;Chen 等[41]著重考慮標(biāo)題對(duì)文檔主題內(nèi)容的概括作用,提出了利用標(biāo)題指導(dǎo)關(guān)鍵詞生成的TG-Net 模型;Zhao 等[42]通過在模型中加入詞性約束模塊也降低了關(guān)鍵詞的重復(fù)率,提升了效果。

    可見,關(guān)鍵詞自動(dòng)抽取任務(wù)已經(jīng)形成了較為成熟的研究模式,并且各種模式下的成果十分豐富。模型使用的文本特征呈現(xiàn)多樣化趨勢(shì),主要考慮詞匯在文檔中出現(xiàn)的頻次、所處的位置、與其他詞的共現(xiàn)關(guān)系以及詞匯的詞向量、上下文等信息,或與源文檔相關(guān)的外部知識(shí),如引文、維基百科等,眾多研究結(jié)果證明了典型特征(如TFIDF、位置信息等)對(duì)于關(guān)鍵詞自動(dòng)抽取的有效性,為本研究的開展提供了堅(jiān)實(shí)的基礎(chǔ)。但是,在語(yǔ)義信息的使用方面,仍然未有研究考慮與文獻(xiàn)內(nèi)容密切相關(guān)的詞匯功能特征。同時(shí),對(duì)學(xué)術(shù)文本詞匯功能的探究大都聚焦于其分類與識(shí)別任務(wù),幾乎沒有研究深入討論詞匯功能在關(guān)鍵詞自動(dòng)抽取中的應(yīng)用。因此,本文擬利用候選詞的詞匯功能構(gòu)造相關(guān)特征參與關(guān)鍵詞抽取,從而探究學(xué)術(shù)文本詞匯特有的語(yǔ)義功能——詞匯功能在關(guān)鍵詞自動(dòng)抽取中的有效性,充分發(fā)揮詞匯功能的作用,優(yōu)化關(guān)鍵詞抽取任務(wù)的效果。

    3 研究方法

    詞匯功能是一些特定的詞所具有的語(yǔ)義特征,與關(guān)鍵詞緊密相關(guān),而傳統(tǒng)的兩階段抽取方法首先會(huì)構(gòu)建與關(guān)鍵詞較為相近的候選關(guān)鍵詞集合,在此基礎(chǔ)上直接將候選詞的詞匯功能應(yīng)用于關(guān)鍵詞的選擇,能夠更加直觀地發(fā)揮學(xué)術(shù)文本中關(guān)鍵詞的詞匯功能作用。另外,有監(jiān)督的方法已經(jīng)較為成熟有效,如方龍等[37]對(duì)學(xué)術(shù)文本結(jié)構(gòu)功能特征在關(guān)鍵詞自動(dòng)抽取中的應(yīng)用研究,對(duì)于本研究也有較好的借鑒作用。因此,本文將基于相同的模式——分類和排序,探究詞匯功能在關(guān)鍵詞自動(dòng)抽取中的作用。

    3.1 問題定義

    給定一篇學(xué)術(shù)文獻(xiàn)ai,其摘要表示為Di(w1,w2,…,wli),關(guān)鍵詞詞表表示為Ki(k1,k2,…,km)。關(guān)鍵詞自動(dòng)抽取則是學(xué)習(xí)函數(shù)g(z)使得

    概率最大,其中f(Di)是基于摘要的特征抽取方法。那么基于分類的關(guān)鍵詞自動(dòng)抽取則可以定義為:假設(shè)V(v1,v2,…,vN)為領(lǐng)域關(guān)鍵詞詞表,若cj?di且cj∈V,則選擇cj為文獻(xiàn)ai的候選詞,使得Ci=(c1,c2,…,cj,…,cn);然后,學(xué)習(xí)分類函數(shù)h(x)對(duì)cj是否為文獻(xiàn)ai的關(guān)鍵詞進(jìn)行判定,若是,則使kp=cj,從而使得

    其中,Ki?Ci。類似地,對(duì)文獻(xiàn)ai的候選詞集合Ci=(c1,c2,…,cj,…,cn),基于排序的關(guān)鍵詞抽取通過學(xué)習(xí)函數(shù)?(x)對(duì)cj打分后排序Ci中的全部候選詞得到C'i,即,使得

    按一定的閾值返回top_n個(gè)候選詞,構(gòu)成關(guān)鍵詞集合Ki。

    區(qū)別于上述一般的關(guān)鍵詞自動(dòng)抽取規(guī)則,在融合詞匯功能的關(guān)鍵詞自動(dòng)抽取中,

    特別地,F(xiàn)(Di)表示融合詞匯功能特征的構(gòu)造函數(shù)。在本研究中,不僅要獲得候選詞的基礎(chǔ)特征,還要基于候選詞的詞匯功能構(gòu)建新特征,進(jìn)而學(xué)習(xí)函數(shù)h(x)和h?(x),實(shí)現(xiàn)對(duì)候選詞的分類和排序,從而得到最終的抽取結(jié)果。

    3.2 關(guān)鍵詞自動(dòng)抽取流程

    本文將分為候選關(guān)鍵詞集合構(gòu)建和關(guān)鍵詞抽取兩個(gè)階段進(jìn)行實(shí)驗(yàn),主要包括4 個(gè)步驟:①候選關(guān)鍵詞集合構(gòu)建;②特征構(gòu)建;③模型訓(xùn)練;④結(jié)果評(píng)估。整體流程如圖1 所示。

    圖1 融合學(xué)術(shù)文本詞匯功能的關(guān)鍵詞抽取流程

    3.2.1 候選關(guān)鍵詞集合構(gòu)建

    在對(duì)特定領(lǐng)域的學(xué)術(shù)文獻(xiàn)進(jìn)行關(guān)鍵詞抽取時(shí),領(lǐng)域先驗(yàn)知識(shí)具有較好的作用[28,37]。因此,本文利用計(jì)算機(jī)領(lǐng)域中主要期刊文獻(xiàn)的作者關(guān)鍵詞構(gòu)建領(lǐng)域關(guān)鍵詞詞表,基于詞表匹配的方法,對(duì)實(shí)驗(yàn)文獻(xiàn)集中的每一篇實(shí)驗(yàn)文獻(xiàn)ai,從其摘要中匹配出n個(gè)詞條作為其候選關(guān)鍵詞,以此構(gòu)建文獻(xiàn)ai的候選關(guān)鍵詞集合Ci=(c1,c2,…,cj,…,cn),并對(duì)每一個(gè)候選關(guān)鍵詞cj是否為關(guān)鍵詞進(jìn)行標(biāo)注。

    3.2.2 特征構(gòu)建

    如圖1 所示,在特征構(gòu)建階段,首先基于摘要文檔為候選詞構(gòu)建基礎(chǔ)特征——詞頻特征和位置特征,同時(shí),對(duì)候選詞的詞匯功能類別進(jìn)行識(shí)別,再基于詞匯功能對(duì)候選詞的基礎(chǔ)特征進(jìn)行加權(quán)操作,從而構(gòu)建最終的加權(quán)特征。本節(jié)將對(duì)上述步驟進(jìn)行詳細(xì)介紹。

    3.2.2.1 基礎(chǔ)特征

    1)詞頻特征(TFIDF)

    Salton 等[2]在1988 年將TFIDF 應(yīng)用于關(guān)鍵詞自動(dòng)抽取,該指標(biāo)用于評(píng)估一個(gè)詞對(duì)文檔集中某篇文檔的重要程度,是信息檢索領(lǐng)域的重要加權(quán)指標(biāo)之一。TFIDF是詞頻(term frequency,TF)和逆文檔頻率(inverse document frequency,IDF)的乘積,具體計(jì)算為

    其中,nij表示詞ti在文檔dj中出現(xiàn)的次數(shù);|A|表示文檔集中的文檔總數(shù);|{j:ti∈dj}|表示包含詞ti的文檔數(shù)。從上述公式可以看出,詞匯的TFIDF 與其在文檔中出現(xiàn)的頻次成正比,與其在文檔集中出現(xiàn)的頻次成反比。一個(gè)詞的TFIDF 越大,表明該詞對(duì)于當(dāng)前文檔的重要性越高。

    2)位置特征(FI)

    詞匯在文檔中的位置也是重要的特征信息[4],本文采用候選關(guān)鍵詞在文檔中首次出現(xiàn)的位置FI(first index) 作為關(guān)鍵詞抽取模型的第二個(gè)特征,計(jì)算公式為

    其中,indexij為詞ti在文檔dj中首次出現(xiàn)的位置;|dj|是文檔dj的總長(zhǎng)度,即dj包含的總字?jǐn)?shù)。

    3.2.2.2 詞匯功能特征

    1)詞匯功能識(shí)別

    雖然學(xué)術(shù)文本的詞匯功能可以分為多種類別[12],但是通過對(duì)本文的研究數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn)(數(shù)據(jù)詳情見第4.1 節(jié)),一篇文獻(xiàn)的作者關(guān)鍵詞中,作為研究問題或研究方法的關(guān)鍵詞較多,占比達(dá)到67.99%,而用于表征文獻(xiàn)其他內(nèi)容的關(guān)鍵詞相對(duì)較少,僅占32.01%。因此,本文將詞匯功能分為“研究方法”“研究問題”和“其他”三類,其中,“研究方法”“研究問題”即程齊凱[12]定義的領(lǐng)域無關(guān)詞匯功能。本文采用人工標(biāo)注的方法對(duì)數(shù)據(jù)集中的關(guān)鍵詞進(jìn)行詞匯功能標(biāo)注。每篇文獻(xiàn)的關(guān)鍵詞統(tǒng)計(jì)結(jié)果如表1所示。

    表1 每篇文獻(xiàn)的關(guān)鍵詞統(tǒng)計(jì)結(jié)果

    2)基于詞匯功能的加權(quán)特征

    在劉智鋒等[16]的研究中,具有研究主題和研究方法語(yǔ)義功能的作者關(guān)鍵詞占比較高,分別達(dá)到40.85%和34.14%,而標(biāo)記為其他語(yǔ)義功能的關(guān)鍵詞僅25.01%,本文的統(tǒng)計(jì)結(jié)果(表1)同樣表明,作者在標(biāo)注關(guān)鍵詞時(shí)更偏向于能夠表征文獻(xiàn)主題和方法的詞。因此,在進(jìn)行關(guān)鍵詞抽取時(shí),應(yīng)該重點(diǎn)關(guān)注詞匯功能為“研究問題”和“研究方法”的候選詞。并且,統(tǒng)計(jì)結(jié)果顯示,以上兩類關(guān)鍵詞在數(shù)量上存在一定差異,這說明不同詞匯功能的詞被作者標(biāo)注為文獻(xiàn)關(guān)鍵詞的概率是不同的。為此,本文設(shè)置了權(quán)重wt和權(quán)重wf,根據(jù)候選關(guān)鍵詞的詞匯功能類型(term_func),對(duì)基礎(chǔ)特征TFIDF 和FI 按不同的比例進(jìn)行加權(quán),從而構(gòu)造加權(quán)詞頻特征TFIDF′和加權(quán)位置特征FI′,計(jì)算公式為

    如公式(9)和公式(10)所示,對(duì)于具有“研究問題”和“研究方法”功能的候選詞,按一定比例改變其基礎(chǔ)特征的大??;由于仍有部分關(guān)鍵詞不是文獻(xiàn)的研究問題或方法,故對(duì)于“其他”的候選詞,實(shí)驗(yàn)保持其值不變。綜上所述,基于表1 的統(tǒng)計(jì)結(jié)果,本文將分別設(shè)置參數(shù)wt0、wt1、wf0、wf1為1.5、2.0、0.75、0.5,以此計(jì)算加權(quán)詞頻特征TFIDF′和加權(quán)位置特征FI′。

    3.2.3 融合詞匯功能的關(guān)鍵詞抽取模型訓(xùn)練

    在第3.2.1 節(jié)和第3.2.2 節(jié)的基礎(chǔ)上,本文將使用 sickit-learn①https://pypi.org/project/scikit-learn/和 TensorFlow Ranking (TF-Rank‐ing)②https://github.com/tensorflow/ranking[43]實(shí)現(xiàn)效果穩(wěn)定且常用的SVM 算法和學(xué)習(xí)排序算法,以相同的參數(shù),利用不同特征組合的訓(xùn)練集數(shù)據(jù)(具體設(shè)置見第4.3 節(jié))分別訓(xùn)練關(guān)鍵詞分類器和關(guān)鍵詞排序器,從而對(duì)比分析融合詞匯功能的加權(quán)特征的作用。

    3.3 結(jié)果評(píng)價(jià)

    對(duì)于二分類模型,在以候選關(guān)鍵詞為單位的二類分類層次上,采用準(zhǔn)確率Acc 評(píng)估SVM 模型對(duì)關(guān)鍵詞的判別能力;在以文獻(xiàn)為單位的文獻(xiàn)層次上,本研究選擇P、R和F[10]為評(píng)價(jià)指標(biāo)。假設(shè)候選詞總個(gè)數(shù)為X,模型分類正確的候選詞個(gè)數(shù)為x,作者關(guān)鍵詞集合為,模型抽取的關(guān)鍵詞集合為K,那么上述評(píng)價(jià)指標(biāo)的計(jì)算公式為

    對(duì)于學(xué)習(xí)排序模型,本文采用P@n、MAP、NDCG@n[43]對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。

    4 實(shí)驗(yàn)與結(jié)果分析

    4.1 數(shù)據(jù)集與預(yù)處理

    本研究采用計(jì)算機(jī)領(lǐng)域核心期刊《計(jì)算機(jī)工程》2007—2018 年刊載的8511 篇學(xué)術(shù)文獻(xiàn)數(shù)據(jù),以文獻(xiàn)摘要構(gòu)建關(guān)鍵詞抽取的文檔集,并獲取全部作者關(guān)鍵詞。同時(shí),實(shí)驗(yàn)收集了計(jì)算機(jī)領(lǐng)域1998—2018 年發(fā)表于中文核心期刊的30 萬篇文獻(xiàn)的作者關(guān)鍵詞,經(jīng)過濾處理后,構(gòu)建了大小為448474 的領(lǐng)域關(guān)鍵詞詞表。實(shí)驗(yàn)使用的文獻(xiàn)集共有作者關(guān)鍵詞34554 個(gè)(去重后21065 個(gè)),平均每篇4.06 個(gè),最多8 個(gè),最少1 個(gè),其中約95.95%的關(guān)鍵詞(33155個(gè))在本文使用的詞表中出現(xiàn),說明本文基于領(lǐng)域關(guān)鍵詞詞表進(jìn)行關(guān)鍵詞自動(dòng)抽取具有一定的合理性。

    為了更客觀地評(píng)估詞匯功能特征在學(xué)術(shù)文本關(guān)鍵詞自動(dòng)抽取任務(wù)中的作用,本文根據(jù)候選詞匹配的結(jié)果,對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行了過濾,刪除了關(guān)鍵詞集合中不包含作者關(guān)鍵詞的文獻(xiàn)數(shù)據(jù),共獲得8286篇有效文獻(xiàn)用于后續(xù)實(shí)驗(yàn)。經(jīng)篩選后的數(shù)據(jù)中,平均每篇文獻(xiàn)的關(guān)鍵詞詞數(shù)為4.09 個(gè),其中2.96 個(gè)在摘要中出現(xiàn),2.85 個(gè)被成功匹配為文獻(xiàn)的候選關(guān)鍵詞。

    對(duì)于候選詞的詞匯功能,本文根據(jù)人工標(biāo)注的關(guān)鍵詞詞匯功能進(jìn)行標(biāo)注,若候選詞為關(guān)鍵詞,則其詞匯功能同關(guān)鍵詞;反之,則標(biāo)注為“其他”。對(duì)于位置特征FI,本文直接按公式(8)進(jìn)行計(jì)算;對(duì)于詞頻特征TFIDF,本文使用中文分詞工具jieba①https://pypi.org/project/jieba/,在用戶詞典中加入領(lǐng)域詞表V,并采用全模式對(duì)摘要文本進(jìn)行分詞,在此基礎(chǔ)上按公式(5)~公式(7)進(jìn)行計(jì)算。

    4.2 特征分析

    本研究對(duì)實(shí)驗(yàn)使用的8286 篇文獻(xiàn)的候選詞的詞頻特征和位置特征進(jìn)行了統(tǒng)計(jì),結(jié)果如表2 所示。其中,正例的TFIDF 均值為0.088,約為負(fù)例的2倍,正例的FI 均值為0.280,遠(yuǎn)小于負(fù)例均值0.430。可以看出,相較于非關(guān)鍵詞,關(guān)鍵詞在摘要中出現(xiàn)的位置更靠前,并且具有更大的TFIDF 值,因此,對(duì)于更有潛力成為關(guān)鍵詞的詞——具有“研究問題”和“研究方法”功能的候選詞,本研究將通過一定的加權(quán)策略增大其TFIDF,并減小其FI,從而增強(qiáng)基礎(chǔ)特征在關(guān)鍵詞抽取中的作用。

    表2 候選詞基礎(chǔ)特征統(tǒng)計(jì)結(jié)果

    4.3 實(shí)驗(yàn)設(shè)置

    對(duì)于二分類模型,本文基于數(shù)據(jù)集大小對(duì)其進(jìn)行了5 折交叉驗(yàn)證處理;同時(shí),為了降低正例(23652)和負(fù)例(459111)數(shù)據(jù)不平衡對(duì)分類器的影響,實(shí)驗(yàn)選擇訓(xùn)練文獻(xiàn)中全部標(biāo)記為1 的候選詞及其特征數(shù)據(jù)和隨機(jī)抽取的等量標(biāo)記為0 的候選詞及其特征數(shù)據(jù)作為訓(xùn)練集,抽取每篇測(cè)試文獻(xiàn)中所有標(biāo)記為1 的候選詞及其特征數(shù)據(jù)和等量的標(biāo)記為0 的候選詞及其特征數(shù)據(jù)作為測(cè)試集,以此訓(xùn)練SVM 分類器。對(duì)于學(xué)習(xí)排序模型,實(shí)驗(yàn)按8∶1∶1 的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,以默認(rèn)參數(shù)進(jìn)行訓(xùn)練,訓(xùn)練步數(shù)設(shè)為10000。另外,實(shí)驗(yàn)分別對(duì)基礎(chǔ)特征和加權(quán)特征進(jìn)行歸一化處理。

    本文以使用詞頻特征TFIDF 和位置特征FI 的實(shí)驗(yàn)為基準(zhǔn)實(shí)驗(yàn),設(shè)置了10 組不同的特征組合進(jìn)行二分類實(shí)驗(yàn)和學(xué)習(xí)排序?qū)嶒?yàn),分別為:實(shí)驗(yàn)①,僅使用詞頻特征;實(shí)驗(yàn)②,僅使用加權(quán)詞頻特征;實(shí)驗(yàn)③,使用詞頻特征和加權(quán)詞頻特征;實(shí)驗(yàn)④,僅使用位置特征;實(shí)驗(yàn)⑤,僅使用加權(quán)位置特征;實(shí)驗(yàn)⑥,使用位置特征和加權(quán)位置特征;實(shí)驗(yàn)⑦,使用兩個(gè)加權(quán)特征;實(shí)驗(yàn)⑧,使用兩個(gè)基礎(chǔ)特征和加權(quán)詞頻特征;實(shí)驗(yàn)⑨,使用兩個(gè)基礎(chǔ)特征和加權(quán)位置特征;實(shí)驗(yàn)⑩,使用兩個(gè)基礎(chǔ)特征和兩個(gè)加權(quán)特征。

    4.4 實(shí)驗(yàn)結(jié)果與分析

    表3 是分類實(shí)驗(yàn)的評(píng)價(jià)結(jié)果。從表中可以看出,在二分類層次上,相較于基準(zhǔn)實(shí)驗(yàn),所有使用加權(quán)特征的實(shí)驗(yàn)的Acc 指標(biāo)均有所提高,其中實(shí)驗(yàn)⑩效果最好,達(dá)到0.840,相對(duì)于基準(zhǔn)實(shí)驗(yàn)(0.674)提高了約24.63%;在文獻(xiàn)層次上,從F值來看,有多組實(shí)驗(yàn)的效果均優(yōu)于基準(zhǔn)實(shí)驗(yàn)(0.532),包括僅使用單個(gè)加權(quán)特征的實(shí)驗(yàn)⑤(0.596),并且最優(yōu)實(shí)驗(yàn)(實(shí)驗(yàn)⑩)的F值提升至0.666,相對(duì)提升幅度達(dá)到25.19%。以上結(jié)果說明,融合詞匯功能的特征能夠有效地提高基于分類的關(guān)鍵詞自動(dòng)抽取效果。

    表3 SVM二分類結(jié)果評(píng)價(jià)

    鑒于每篇文獻(xiàn)的作者關(guān)鍵詞約為4.09 個(gè),本文選擇n= 5 時(shí)的P@n和NDCG@n以及MAP 對(duì)基于排序的抽取結(jié)果進(jìn)行了評(píng)價(jià),評(píng)價(jià)結(jié)果如表4 所示。從表4 可以發(fā)現(xiàn),除了實(shí)驗(yàn)①、實(shí)驗(yàn)④和實(shí)驗(yàn)⑤外,其他實(shí)驗(yàn)組相較于基準(zhǔn)實(shí)驗(yàn)在三個(gè)指標(biāo)上都有明顯的提升,其中效果最好的實(shí)驗(yàn)⑩在MAP、NDCG@5 和P@5 上依次達(dá)到0.813、0.828 和0.447,相對(duì)提升高達(dá)168.32%、189.50%和148.30%。提升效果最弱的實(shí)驗(yàn)②也達(dá)到0.490、0.500 和0.300,相對(duì)提升61.72%、74.83%和66.67%。這些結(jié)果充分說明,在基于排序的關(guān)鍵詞自動(dòng)抽取中,詞匯功能特征具有積極的作用。

    表4 TF-Ranking學(xué)習(xí)排序結(jié)果評(píng)價(jià)

    4.5 討 論

    本研究對(duì)二分類實(shí)驗(yàn)中僅使用基礎(chǔ)特征的基準(zhǔn)實(shí)驗(yàn)和融合詞匯功能特征后的最佳實(shí)驗(yàn)(實(shí)驗(yàn)⑩)的預(yù)測(cè)錯(cuò)誤進(jìn)行了統(tǒng)計(jì)分析。實(shí)驗(yàn)⑩預(yù)測(cè)錯(cuò)誤的詞共有1468 個(gè),根據(jù)表5 可知,有1173 個(gè)詞(約79.90%)是在僅使用基礎(chǔ)特征時(shí)就出錯(cuò)的,且關(guān)鍵詞比非關(guān)鍵詞少,分別有441 個(gè)和732 個(gè)。在這些關(guān)鍵詞中,詞匯功能為“其他”的關(guān)鍵詞有298 個(gè),為“研究方法”和“研究問題”的分別僅有134 個(gè)和9 個(gè),也就是說,兩次實(shí)驗(yàn)均未被正確分類的關(guān)鍵詞中,大部分(約67.57%)的關(guān)鍵詞并不具有問題或方法功能,根據(jù)加權(quán)策略,這些關(guān)鍵詞的加權(quán)特征與基礎(chǔ)特征并無差別,并沒有改變對(duì)關(guān)鍵詞的區(qū)分能力,因此在基準(zhǔn)實(shí)驗(yàn)中無法被正確分類,在實(shí)驗(yàn)⑩中仍無法被預(yù)測(cè)正確。而在基準(zhǔn)實(shí)驗(yàn)預(yù)測(cè)錯(cuò)誤的3060 個(gè)詞中,共有1887 個(gè)詞(約61.67%)在融合詞匯功能特征后被預(yù)測(cè)正確,包括774 個(gè)非關(guān)鍵詞和1113 個(gè)關(guān)鍵詞。從表6 可以看出,重新預(yù)測(cè)正確的關(guān)鍵詞比非關(guān)鍵詞多,并且預(yù)測(cè)正確的關(guān)鍵詞全部具有問題或方法功能,進(jìn)一步說明通過詞匯功能增強(qiáng)關(guān)鍵詞的基礎(chǔ)特征后,關(guān)鍵詞更容易正確地被識(shí)別出來,分類效果自然得到較好的提升。

    表5 基準(zhǔn)實(shí)驗(yàn)和實(shí)驗(yàn)⑩均預(yù)測(cè)錯(cuò)誤的結(jié)果統(tǒng)計(jì)

    表6 基準(zhǔn)實(shí)驗(yàn)預(yù)測(cè)錯(cuò)誤但實(shí)驗(yàn)⑩預(yù)測(cè)正確的結(jié)果統(tǒng)計(jì)

    另外,對(duì)于排序?qū)嶒?yàn),本文對(duì)相較于基準(zhǔn)實(shí)驗(yàn)(TFIDF+FI)有明顯提升的實(shí)驗(yàn)增加P@3 和P@8 指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了評(píng)估,評(píng)估結(jié)果如圖2 所示。從圖中可以看出,無論n取何值,融合詞匯功能的實(shí)驗(yàn)評(píng)價(jià)結(jié)果均優(yōu)于基準(zhǔn)實(shí)驗(yàn);更重要的是,雖然所有實(shí)驗(yàn)的P@n都隨著n的增大而降低,但是明顯地,相較于基準(zhǔn)實(shí)驗(yàn),融合詞匯功能實(shí)驗(yàn)的下降幅度更大,并且n越小,與基準(zhǔn)實(shí)驗(yàn)的差距越大,各實(shí)驗(yàn)與基準(zhǔn)實(shí)驗(yàn)在P@3 上的差距顯著大于P@8,說明融合詞匯功能的排序模型能將更多的關(guān)鍵詞排到更靠前的位置,從而更高效地實(shí)現(xiàn)關(guān)鍵詞抽取。

    圖2 P@n評(píng)價(jià)結(jié)果

    表7 為基準(zhǔn)實(shí)驗(yàn)和實(shí)驗(yàn)⑩分類結(jié)果的部分示例。從表7 可以看出,基準(zhǔn)實(shí)驗(yàn)分類正確的候選詞,實(shí)驗(yàn)⑩均分類正確,并且實(shí)驗(yàn)⑩能夠有效地將基準(zhǔn)實(shí)驗(yàn)中分類錯(cuò)誤的候選詞正確分類,在一定程度上,這說明融合詞匯功能的新特征的加入并沒有削弱基礎(chǔ)特征對(duì)關(guān)鍵詞的區(qū)分能力,反而提升了分類效果。

    表7 分類抽取結(jié)果示例

    由表2 可知,關(guān)鍵詞的TFIDF 值一般更大,在文中出現(xiàn)的位置更靠前。在文獻(xiàn)147 中,關(guān)鍵詞“前景”和“背景”的TFIDF 值(0.049,0.038)都相對(duì)較小,而FI 值(0.513,0.603)相對(duì)較大,但是作為文章的“研究問題”,經(jīng)過加權(quán)后,TFIDF′值(0.067,0.051)變大,F(xiàn)I′值(0.257,0.301)減小,使得其更容易被識(shí)別為文章的關(guān)鍵詞;文獻(xiàn)4942 的關(guān)鍵詞“性能評(píng)估”也同樣重新被實(shí)驗(yàn)⑩判斷正確。從文獻(xiàn)21 也能看出,具有“研究問題”或“研究方法”功能的詞能夠通過加權(quán)特征與其他相近的非關(guān)鍵詞區(qū)別開來,如具有相似特征的關(guān)鍵詞“誤碼率”(TFIDF = 0.071,F(xiàn)I = 0.694)和候選詞“碼率”(TFIDF = 0.061,F(xiàn)I = 0.701),其中“誤碼率”具有“研究方法”功能,因此其加權(quán)特征得到相應(yīng)的改善,使得兩者的加權(quán)特征有了明顯的差異(“誤碼率”:TFIDF′ = 0.072,F(xiàn)I′ = 0.521;“碼率”:TFIDF′ = 0.041,F(xiàn)I′ = 0.701),從 而 被 正 確分類。

    從表7 數(shù)據(jù)可知,通過對(duì)“研究問題”和“研究方法”詞進(jìn)行加權(quán)后,其他候選詞的加權(quán)特征(數(shù)據(jù)歸一化后)相應(yīng)地也會(huì)朝著相反方向有所改變,即詞頻特征變小,位置特征變大,使得上述兩類關(guān)鍵詞和其他詞具有更大的距離,從而同時(shí)提高分類器對(duì)正例和負(fù)例的區(qū)分能力。但是,對(duì)于某些詞頻特征和位置特征較為反常的詞,如文獻(xiàn)4942 中的“新型”一詞,雖然不是關(guān)鍵詞,但FI 值很小,TFIDF 值較大,加權(quán)特征也不明顯,無論是基準(zhǔn)實(shí)驗(yàn)還是實(shí)驗(yàn)⑩都難以判斷正確,這說明本文提出的融合詞匯功能的關(guān)鍵詞自動(dòng)抽取方法雖然有較好的效果,但對(duì)“其他”功能的候選詞的識(shí)別仍需進(jìn)一步改進(jìn)。

    5 結(jié) 語(yǔ)

    本文采用基于分類和基于排序的關(guān)鍵詞抽取方法,基于領(lǐng)域關(guān)鍵詞詞表獲取候選關(guān)鍵詞,在基礎(chǔ)特征中融合候選詞在文獻(xiàn)中的詞匯功能,以SVM二類分類模型和學(xué)習(xí)排序模型實(shí)現(xiàn)學(xué)術(shù)文本的關(guān)鍵詞自動(dòng)抽取。實(shí)驗(yàn)結(jié)果表明,詞匯功能有效地提升了關(guān)鍵詞的抽取效果,在關(guān)鍵詞自動(dòng)抽取中具有積極的意義。

    本文提出的融合詞匯功能的關(guān)鍵詞自動(dòng)抽取方法具有較好的效果,但仍存在一定的缺陷:首先,詞匯功能包括且不限于“研究問題”和“研究方法”,而本文僅以這兩種功能增強(qiáng)關(guān)鍵詞的基礎(chǔ)特征,討論詞匯功能在關(guān)鍵詞抽取中的作用;其次,關(guān)鍵詞抽取具有多種模式,但本文僅驗(yàn)證了詞匯功能對(duì)分類模型和排序模型的提升效果;最后,本文只在計(jì)算機(jī)領(lǐng)域的部分文獻(xiàn)數(shù)據(jù)上進(jìn)行了探究,相關(guān)結(jié)論具有一定的領(lǐng)域局限性。在以后的工作中,考慮將對(duì)詞匯功能類別進(jìn)一步細(xì)分,并基于更多的關(guān)鍵詞抽取模式驗(yàn)證其效果。此外,應(yīng)進(jìn)一步考慮學(xué)術(shù)文獻(xiàn)詞匯功能在更多領(lǐng)域中的應(yīng)用場(chǎng)景,充分利用其價(jià)值,發(fā)揮其作用。

    猜你喜歡
    詞匯特征功能
    也談詩(shī)的“功能”
    本刊可直接用縮寫的常用詞匯
    一些常用詞匯可直接用縮寫
    如何表達(dá)“特征”
    本刊可直接用縮寫的常用詞匯
    不忠誠(chéng)的四個(gè)特征
    抓住特征巧觀察
    關(guān)于非首都功能疏解的幾點(diǎn)思考
    中西醫(yī)結(jié)合治療甲狀腺功能亢進(jìn)癥31例
    辨證施護(hù)在輕度認(rèn)知功能損害中的應(yīng)用
    亚洲男人天堂网一区| 成年动漫av网址| 国产精品久久久人人做人人爽| av有码第一页| 男人操女人黄网站| 最新在线观看一区二区三区| 91大片在线观看| 国产男女内射视频| 熟女少妇亚洲综合色aaa.| 啦啦啦视频在线资源免费观看| 一级黄色大片毛片| 精品一品国产午夜福利视频| 亚洲精品中文字幕一二三四区| 色精品久久人妻99蜜桃| www.精华液| 又黄又粗又硬又大视频| 日本欧美视频一区| 51午夜福利影视在线观看| 在线观看日韩欧美| 在线观看免费高清a一片| 精品国产超薄肉色丝袜足j| 午夜福利乱码中文字幕| 久久精品91无色码中文字幕| 法律面前人人平等表现在哪些方面| 露出奶头的视频| 人人妻人人爽人人添夜夜欢视频| 国产色视频综合| 国产片内射在线| 亚洲一区中文字幕在线| 精品人妻在线不人妻| 久久精品国产亚洲av高清一级| 性少妇av在线| 国产在线精品亚洲第一网站| 亚洲av片天天在线观看| 制服人妻中文乱码| 亚洲综合色网址| 欧美日韩视频精品一区| 两性夫妻黄色片| 欧美日韩乱码在线| 久久久久精品人妻al黑| 欧美黄色片欧美黄色片| 久久久水蜜桃国产精品网| 美女高潮到喷水免费观看| 免费在线观看完整版高清| 亚洲全国av大片| 欧美+亚洲+日韩+国产| 日韩免费av在线播放| 国产日韩欧美亚洲二区| 国产主播在线观看一区二区| 亚洲男人天堂网一区| 香蕉丝袜av| 久久久久久久精品吃奶| 制服诱惑二区| 自拍欧美九色日韩亚洲蝌蚪91| 在线播放国产精品三级| 一级毛片女人18水好多| 超碰成人久久| 欧美成人午夜精品| 日韩制服丝袜自拍偷拍| avwww免费| 一本一本久久a久久精品综合妖精| 狠狠婷婷综合久久久久久88av| 久久久国产成人免费| 淫妇啪啪啪对白视频| 国产无遮挡羞羞视频在线观看| 国产精品免费一区二区三区在线 | 最新的欧美精品一区二区| www.熟女人妻精品国产| 黄网站色视频无遮挡免费观看| 国产不卡av网站在线观看| 日韩大码丰满熟妇| 国产成人免费无遮挡视频| 老熟妇仑乱视频hdxx| 日韩三级视频一区二区三区| 日韩一卡2卡3卡4卡2021年| 男男h啪啪无遮挡| 午夜视频精品福利| 丝袜美腿诱惑在线| 老司机午夜福利在线观看视频| 久久精品亚洲熟妇少妇任你| 91麻豆精品激情在线观看国产 | 91大片在线观看| 妹子高潮喷水视频| 在线天堂中文资源库| 别揉我奶头~嗯~啊~动态视频| xxxhd国产人妻xxx| videos熟女内射| 久久中文看片网| 免费高清在线观看日韩| 久久九九热精品免费| 久久这里只有精品19| 婷婷丁香在线五月| 亚洲av片天天在线观看| 婷婷成人精品国产| 涩涩av久久男人的天堂| 国产欧美日韩精品亚洲av| 亚洲九九香蕉| 欧美人与性动交α欧美精品济南到| 免费在线观看亚洲国产| 久久影院123| 色综合婷婷激情| 亚洲专区国产一区二区| 欧美av亚洲av综合av国产av| 国产欧美亚洲国产| 一级片免费观看大全| 亚洲精品中文字幕一二三四区| 亚洲精品中文字幕一二三四区| 黄片大片在线免费观看| 一级片'在线观看视频| 制服人妻中文乱码| 曰老女人黄片| 亚洲少妇的诱惑av| 国产欧美亚洲国产| 国产黄色免费在线视频| 自拍欧美九色日韩亚洲蝌蚪91| 精品福利观看| 欧美午夜高清在线| 一进一出抽搐动态| 色婷婷久久久亚洲欧美| 黄色女人牲交| 国产极品粉嫩免费观看在线| 欧美国产精品va在线观看不卡| 日韩精品免费视频一区二区三区| 日韩大码丰满熟妇| 久久 成人 亚洲| 日本五十路高清| 狠狠婷婷综合久久久久久88av| 美女扒开内裤让男人捅视频| 999精品在线视频| 国产一区二区激情短视频| 国产欧美日韩综合在线一区二区| 王馨瑶露胸无遮挡在线观看| avwww免费| 超色免费av| 日日夜夜操网爽| 女人高潮潮喷娇喘18禁视频| 亚洲黑人精品在线| 国产99久久九九免费精品| 亚洲 国产 在线| 欧美日韩亚洲综合一区二区三区_| 女人精品久久久久毛片| 777久久人妻少妇嫩草av网站| 日韩欧美三级三区| 国产麻豆69| 午夜福利影视在线免费观看| 1024香蕉在线观看| 一进一出抽搐动态| 欧美日韩精品网址| 日本黄色日本黄色录像| 视频区图区小说| 香蕉久久夜色| 亚洲精品一二三| 麻豆国产av国片精品| 啦啦啦视频在线资源免费观看| 国产野战对白在线观看| 国产黄色免费在线视频| 国精品久久久久久国模美| 亚洲精品在线观看二区| 嫁个100分男人电影在线观看| 国精品久久久久久国模美| 久久久国产欧美日韩av| 亚洲色图 男人天堂 中文字幕| 美女福利国产在线| 国产免费av片在线观看野外av| 免费观看a级毛片全部| 亚洲欧美一区二区三区久久| 日韩成人在线观看一区二区三区| 国产成人影院久久av| 国产精品电影一区二区三区 | 欧美中文综合在线视频| 欧美+亚洲+日韩+国产| 在线看a的网站| 正在播放国产对白刺激| 免费黄频网站在线观看国产| 又大又爽又粗| 午夜福利影视在线免费观看| 国产91精品成人一区二区三区| 亚洲一卡2卡3卡4卡5卡精品中文| 女性被躁到高潮视频| 亚洲精品一二三| 国产精华一区二区三区| 正在播放国产对白刺激| 精品国产乱子伦一区二区三区| 国产av一区二区精品久久| 黄色视频不卡| 啪啪无遮挡十八禁网站| 成人三级做爰电影| 亚洲欧美一区二区三区久久| 悠悠久久av| 精品乱码久久久久久99久播| 啪啪无遮挡十八禁网站| 免费不卡黄色视频| 久久国产亚洲av麻豆专区| 亚洲精品在线美女| 欧美在线黄色| 午夜福利在线免费观看网站| 午夜精品久久久久久毛片777| 亚洲欧洲精品一区二区精品久久久| 国产精品国产高清国产av | 十八禁人妻一区二区| 亚洲avbb在线观看| 一本大道久久a久久精品| 亚洲熟女毛片儿| av中文乱码字幕在线| 9热在线视频观看99| 久久久国产欧美日韩av| 久久久久精品人妻al黑| 久久精品亚洲av国产电影网| 黑人欧美特级aaaaaa片| 老熟妇乱子伦视频在线观看| 飞空精品影院首页| 18禁国产床啪视频网站| 极品教师在线免费播放| 国产成人一区二区三区免费视频网站| 久久人人爽av亚洲精品天堂| 一边摸一边抽搐一进一出视频| 亚洲美女黄片视频| 亚洲av日韩精品久久久久久密| 波多野结衣一区麻豆| 精品第一国产精品| 激情在线观看视频在线高清 | 亚洲精品自拍成人| 午夜久久久在线观看| 精品福利观看| 欧美激情高清一区二区三区| 久久国产精品人妻蜜桃| 国产不卡一卡二| 久99久视频精品免费| 国产乱人伦免费视频| 国产免费现黄频在线看| 亚洲欧美日韩高清在线视频| 国产不卡一卡二| 在线观看免费午夜福利视频| 建设人人有责人人尽责人人享有的| 久久中文字幕一级| 国产成人av激情在线播放| tube8黄色片| 国产欧美日韩一区二区精品| 一二三四在线观看免费中文在| 久久久国产精品麻豆| 国产高清videossex| av不卡在线播放| 国产精品国产av在线观看| 很黄的视频免费| 久久久久国产精品人妻aⅴ院 | 热99国产精品久久久久久7| 国产精品二区激情视频| 国产精品永久免费网站| 国产精品久久久av美女十八| 国产欧美日韩综合在线一区二区| 妹子高潮喷水视频| 午夜福利在线观看吧| 久久精品国产综合久久久| 国产欧美日韩一区二区三| 性少妇av在线| 91字幕亚洲| 亚洲av第一区精品v没综合| 精品少妇久久久久久888优播| 免费少妇av软件| 亚洲人成电影免费在线| 女同久久另类99精品国产91| 亚洲一码二码三码区别大吗| 欧美乱码精品一区二区三区| 亚洲中文av在线| 午夜成年电影在线免费观看| 国产xxxxx性猛交| 久久香蕉激情| 999久久久精品免费观看国产| 51午夜福利影视在线观看| 一级毛片精品| 老汉色av国产亚洲站长工具| 最近最新中文字幕大全电影3 | 国产精品成人在线| 久久久久国产精品人妻aⅴ院 | 欧美不卡视频在线免费观看 | 精品一区二区三区四区五区乱码| 久久久久久人人人人人| 中文欧美无线码| 欧美不卡视频在线免费观看 | 女人精品久久久久毛片| 欧美不卡视频在线免费观看 | 免费在线观看影片大全网站| 精品国产一区二区三区久久久樱花| 国产97色在线日韩免费| 少妇 在线观看| a级片在线免费高清观看视频| 欧美日韩成人在线一区二区| 国产1区2区3区精品| 日韩欧美国产一区二区入口| cao死你这个sao货| 黄色怎么调成土黄色| 天天躁夜夜躁狠狠躁躁| 久久久久久久精品吃奶| 亚洲欧美日韩高清在线视频| 无遮挡黄片免费观看| 在线看a的网站| www.熟女人妻精品国产| 好男人电影高清在线观看| 叶爱在线成人免费视频播放| 黑人猛操日本美女一级片| 中文亚洲av片在线观看爽 | 啦啦啦视频在线资源免费观看| av天堂在线播放| 狠狠婷婷综合久久久久久88av| 欧洲精品卡2卡3卡4卡5卡区| 久久久久久久国产电影| 男女下面插进去视频免费观看| av一本久久久久| 精品亚洲成a人片在线观看| 操出白浆在线播放| 成人av一区二区三区在线看| 国产熟女午夜一区二区三区| 亚洲精品中文字幕在线视频| 成年人黄色毛片网站| 少妇 在线观看| 天天操日日干夜夜撸| 香蕉久久夜色| 少妇裸体淫交视频免费看高清 | 国产亚洲av高清不卡| 欧美在线一区亚洲| 欧美不卡视频在线免费观看 | 日韩欧美在线二视频 | 久久热在线av| 深夜精品福利| 午夜免费鲁丝| 男女床上黄色一级片免费看| 亚洲在线自拍视频| 美女高潮喷水抽搐中文字幕| 精品第一国产精品| 亚洲久久久国产精品| 成人影院久久| 国产精品免费一区二区三区在线 | 搡老岳熟女国产| 久久久久久亚洲精品国产蜜桃av| 免费看a级黄色片| 国产成人一区二区三区免费视频网站| 99久久人妻综合| 三级毛片av免费| 老熟妇仑乱视频hdxx| 久9热在线精品视频| 国产99白浆流出| 亚洲人成电影观看| 超碰97精品在线观看| 这个男人来自地球电影免费观看| 亚洲欧美激情在线| 制服诱惑二区| 午夜精品国产一区二区电影| 日本wwww免费看| 亚洲专区中文字幕在线| 午夜老司机福利片| 99国产极品粉嫩在线观看| 精品国产一区二区久久| 久久精品国产a三级三级三级| 人人妻人人澡人人看| 一进一出抽搐gif免费好疼 | 欧美乱码精品一区二区三区| 中文字幕人妻丝袜制服| 99国产精品一区二区三区| 香蕉丝袜av| 亚洲专区字幕在线| 男女下面插进去视频免费观看| 欧美日韩瑟瑟在线播放| av超薄肉色丝袜交足视频| 国产乱人伦免费视频| 免费人成视频x8x8入口观看| 久久精品亚洲熟妇少妇任你| 国产成人精品无人区| 在线十欧美十亚洲十日本专区| 香蕉丝袜av| 国产成+人综合+亚洲专区| 精品国产一区二区三区久久久樱花| 韩国av一区二区三区四区| 国产av精品麻豆| 亚洲一区二区三区不卡视频| 国产成人精品久久二区二区91| av电影中文网址| 国产精品av久久久久免费| 午夜91福利影院| 亚洲精品国产精品久久久不卡| 一级毛片精品| 亚洲性夜色夜夜综合| 女人爽到高潮嗷嗷叫在线视频| 久久国产精品大桥未久av| 韩国av一区二区三区四区| 国内毛片毛片毛片毛片毛片| 久久精品亚洲熟妇少妇任你| a级毛片在线看网站| 久久国产精品影院| 麻豆av在线久日| 黑人巨大精品欧美一区二区mp4| 18禁裸乳无遮挡免费网站照片 | 日韩人妻精品一区2区三区| 岛国在线观看网站| 电影成人av| 最新的欧美精品一区二区| 水蜜桃什么品种好| 99riav亚洲国产免费| 色婷婷久久久亚洲欧美| 久久国产精品大桥未久av| 人人澡人人妻人| 国产精品国产av在线观看| 国产97色在线日韩免费| 亚洲 国产 在线| 欧美人与性动交α欧美精品济南到| 一区二区三区激情视频| 一级片免费观看大全| 99精品在免费线老司机午夜| 人人妻人人澡人人看| 国产成人av激情在线播放| 99久久人妻综合| 久久性视频一级片| 一区二区三区国产精品乱码| 自线自在国产av| 大香蕉久久成人网| 成人18禁在线播放| 亚洲专区中文字幕在线| 亚洲黑人精品在线| 激情在线观看视频在线高清 | 怎么达到女性高潮| 国产一区有黄有色的免费视频| 国产成人影院久久av| 91麻豆av在线| 一边摸一边做爽爽视频免费| 男人操女人黄网站| 少妇粗大呻吟视频| 日韩一卡2卡3卡4卡2021年| tube8黄色片| 国产激情久久老熟女| 国产一卡二卡三卡精品| 窝窝影院91人妻| 90打野战视频偷拍视频| 久久精品亚洲精品国产色婷小说| 久久久久久久久久久久大奶| 日本黄色视频三级网站网址 | 波多野结衣av一区二区av| 老司机福利观看| 国产真人三级小视频在线观看| 国产麻豆69| 一级毛片精品| 一级a爱视频在线免费观看| а√天堂www在线а√下载 | 亚洲在线自拍视频| 亚洲精品一二三| 国产精品 欧美亚洲| 久久久国产欧美日韩av| 日本vs欧美在线观看视频| 激情视频va一区二区三区| 国产精品 国内视频| 超碰成人久久| 成在线人永久免费视频| av国产精品久久久久影院| 久久亚洲精品不卡| 在线观看免费午夜福利视频| 人人妻,人人澡人人爽秒播| 777米奇影视久久| 国产免费av片在线观看野外av| 人人妻人人添人人爽欧美一区卜| 成人亚洲精品一区在线观看| 欧美色视频一区免费| 在线永久观看黄色视频| 一级作爱视频免费观看| 国产亚洲精品一区二区www | 国产成人av教育| 亚洲专区国产一区二区| 国产精品自产拍在线观看55亚洲 | 天天躁狠狠躁夜夜躁狠狠躁| 18禁黄网站禁片午夜丰满| 天堂俺去俺来也www色官网| 一级片免费观看大全| 欧美国产精品va在线观看不卡| 99精国产麻豆久久婷婷| 久久 成人 亚洲| 亚洲精品美女久久av网站| 淫妇啪啪啪对白视频| 欧美黄色片欧美黄色片| 国产片内射在线| 久热这里只有精品99| 校园春色视频在线观看| 国产真人三级小视频在线观看| 十分钟在线观看高清视频www| 国产欧美日韩一区二区三区在线| 国产色视频综合| 中文亚洲av片在线观看爽 | 国产亚洲av高清不卡| 国产精品 国内视频| 免费在线观看视频国产中文字幕亚洲| 国产不卡av网站在线观看| 成人18禁在线播放| 国产不卡一卡二| 很黄的视频免费| 亚洲中文字幕日韩| 欧美精品人与动牲交sv欧美| 欧美日韩av久久| 男人操女人黄网站| 国产一区有黄有色的免费视频| 国产高清国产精品国产三级| 91成年电影在线观看| 精品久久久精品久久久| 日韩大码丰满熟妇| av天堂在线播放| svipshipincom国产片| 日本黄色日本黄色录像| 亚洲va日本ⅴa欧美va伊人久久| 欧美日韩成人在线一区二区| av中文乱码字幕在线| 免费久久久久久久精品成人欧美视频| 99在线人妻在线中文字幕 | 高清毛片免费观看视频网站 | 人妻 亚洲 视频| 黑人欧美特级aaaaaa片| 国产三级黄色录像| 欧美不卡视频在线免费观看 | 91精品国产国语对白视频| 性色av乱码一区二区三区2| 亚洲三区欧美一区| 国产97色在线日韩免费| 精品乱码久久久久久99久播| 午夜福利影视在线免费观看| 最新的欧美精品一区二区| 99久久人妻综合| 黑人猛操日本美女一级片| 女人久久www免费人成看片| 久久久久国产精品人妻aⅴ院 | 在线视频色国产色| 久久久久久久久免费视频了| 俄罗斯特黄特色一大片| 建设人人有责人人尽责人人享有的| 免费不卡黄色视频| 宅男免费午夜| 精品卡一卡二卡四卡免费| 视频在线观看一区二区三区| av天堂在线播放| 搡老乐熟女国产| 女人久久www免费人成看片| 精品福利观看| 午夜老司机福利片| 另类亚洲欧美激情| 丝袜美足系列| 午夜福利在线观看吧| 999久久久国产精品视频| 日本vs欧美在线观看视频| 欧美精品高潮呻吟av久久| 久久久国产成人精品二区 | 亚洲成人免费av在线播放| 亚洲一区高清亚洲精品| 精品久久久久久,| e午夜精品久久久久久久| 中文字幕制服av| 青草久久国产| 久久久久视频综合| 99国产精品一区二区三区| 久久99一区二区三区| 99久久99久久久精品蜜桃| 亚洲av电影在线进入| 欧美最黄视频在线播放免费 | 水蜜桃什么品种好| 69av精品久久久久久| 久久精品亚洲熟妇少妇任你| 中文字幕另类日韩欧美亚洲嫩草| 欧美 亚洲 国产 日韩一| 黄频高清免费视频| 欧美人与性动交α欧美软件| 久久99一区二区三区| 国产精品98久久久久久宅男小说| 69av精品久久久久久| 少妇 在线观看| 国产精品成人在线| 91字幕亚洲| 国产精品亚洲av一区麻豆| 国产xxxxx性猛交| 中文字幕最新亚洲高清| 天堂√8在线中文| 热re99久久国产66热| 久久中文字幕一级| 亚洲午夜精品一区,二区,三区| 久久久久国内视频| 婷婷成人精品国产| 精品一区二区三区四区五区乱码| tube8黄色片| www.熟女人妻精品国产| 天堂动漫精品| 亚洲午夜理论影院| 高清黄色对白视频在线免费看| 久久久久久免费高清国产稀缺| 精品欧美一区二区三区在线| 女性生殖器流出的白浆| 黑人巨大精品欧美一区二区mp4| 女人被狂操c到高潮| 啦啦啦 在线观看视频| 一级黄色大片毛片| 亚洲精品乱久久久久久| 91精品三级在线观看| 午夜激情av网站| 两人在一起打扑克的视频| 十八禁网站免费在线| 国产精品一区二区精品视频观看| av片东京热男人的天堂| 欧美黑人欧美精品刺激| 国产精品国产高清国产av | 久久亚洲精品不卡| 美国免费a级毛片| 亚洲熟女精品中文字幕| 久热这里只有精品99| 午夜福利影视在线免费观看| 别揉我奶头~嗯~啊~动态视频| 国产精品国产av在线观看| 老司机深夜福利视频在线观看| 日韩有码中文字幕| 亚洲成人国产一区在线观看| 色婷婷久久久亚洲欧美| 精品无人区乱码1区二区| 深夜精品福利| av免费在线观看网站| 国产单亲对白刺激| 久久香蕉国产精品|