• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語(yǔ)義文本圖的論文摘要關(guān)鍵詞抽取算法

      2021-09-09 03:18:18王曉宇王芳
      情報(bào)學(xué)報(bào) 2021年8期
      關(guān)鍵詞:語(yǔ)料語(yǔ)義權(quán)重

      王曉宇,王芳

      (1.東北財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院信息管理系,大連 116025;2.南開(kāi)大學(xué)商學(xué)院信息資源管理系,天津 300071)

      1 引言

      關(guān)鍵詞是一組用于描述文檔重要信息的名詞集合,可幫助讀者形成對(duì)文本內(nèi)容的初步印象,常被用作文獻(xiàn)檢索入口。基于關(guān)鍵詞的文獻(xiàn)主題標(biāo)引極大地節(jié)省了人們從數(shù)據(jù)庫(kù)或互聯(lián)網(wǎng)查找信息所花費(fèi)的時(shí)間和精力。由于科學(xué)論文包含了大量可重復(fù)利用的人類(lèi)科學(xué)知識(shí),關(guān)鍵詞也成為文獻(xiàn)信息計(jì)量最常用的分析單元。通過(guò)對(duì)文獻(xiàn)主題分析,可以對(duì)文本進(jìn)行聚類(lèi),并在此基礎(chǔ)上形成對(duì)特定領(lǐng)域知識(shí)關(guān)聯(lián)的清晰認(rèn)識(shí)。目前,科學(xué)文獻(xiàn)的關(guān)鍵詞主要由作者在投稿時(shí)賦予,但是受作者知識(shí)結(jié)構(gòu)和研究興趣的局限,由作者賦予的主題詞常常存在覆蓋面不足、檢索效率不高等問(wèn)題,因此,CNKI(China National Knowledge Infrastructure)等文獻(xiàn)數(shù)據(jù)庫(kù)均會(huì)采用機(jī)標(biāo)關(guān)鍵詞進(jìn)行補(bǔ)充??梢哉f(shuō),高效的關(guān)鍵詞抽取是實(shí)現(xiàn)大規(guī)模文獻(xiàn)檢索以及分析的技術(shù)前提,故吸引了眾多學(xué)者的關(guān)注[1-3]。

      關(guān)鍵詞抽取是信息抽取領(lǐng)域的重要研究?jī)?nèi)容,可被理解為從非結(jié)構(gòu)和/或半結(jié)構(gòu)化機(jī)器可讀文檔中自動(dòng)提取結(jié)構(gòu)化信息的自然語(yǔ)言處理任務(wù)。常見(jiàn)的關(guān)鍵詞抽取算法可分為基于統(tǒng)計(jì)和基于機(jī)器學(xué)習(xí)兩大類(lèi)?;诮y(tǒng)計(jì)方法的詞語(yǔ)重要性通常由詞頻的統(tǒng)計(jì)量構(gòu)成,如詞頻(term frequency,TF)[4-5]、詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)、互信息[6-7]、頻率分布[8-10]等,且主要遵循“在文本中頻繁出現(xiàn)的詞語(yǔ)是重要的,因而也更可能與其他重要術(shù)語(yǔ)相關(guān)聯(lián)”這一假設(shè)[11-12]?;诮y(tǒng)計(jì)的方法具有易于理解和操作簡(jiǎn)便的特點(diǎn),在文獻(xiàn)計(jì)量、競(jìng)爭(zhēng)情報(bào)、科技創(chuàng)新等領(lǐng)域具有廣泛的應(yīng)用[13-16]。但該方法的應(yīng)用以采集特定類(lèi)型文本集合為前提,是一種文本集合依賴(lài)的方法,無(wú)法用于動(dòng)態(tài)數(shù)據(jù)的關(guān)鍵詞抽取任務(wù)。

      基于機(jī)器學(xué)習(xí)的關(guān)鍵詞抽取方法是當(dāng)前信息抽取領(lǐng)域的研究熱點(diǎn),可進(jìn)一步分為有監(jiān)督的學(xué)習(xí)[17-20]、無(wú)監(jiān)督的學(xué)習(xí)[21-23]和半監(jiān)督或弱監(jiān)督的學(xué)習(xí)三個(gè)類(lèi)別。有監(jiān)督的學(xué)習(xí)方法需依賴(lài)標(biāo)注語(yǔ)料完成模型的參數(shù)估計(jì)(即訓(xùn)練過(guò)程),通常訓(xùn)練語(yǔ)料規(guī)模越大,質(zhì)量越高,則模型的抽詞效果越好,但也意味著更大的前期語(yǔ)料標(biāo)注工作。得益于電腦計(jì)算能力的大幅提升和互聯(lián)網(wǎng)環(huán)境下規(guī)模級(jí)語(yǔ)料更易獲得,標(biāo)注語(yǔ)料對(duì)有監(jiān)督學(xué)習(xí)方法的限制在逐步減小,這使得以復(fù)雜人工神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)方法發(fā)展迅速,結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)[24-26]、門(mén)控機(jī)制、注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)[27]等深度網(wǎng)絡(luò)模型成為主流。雖然深度模型在函數(shù)逼近、參數(shù)精簡(jiǎn)、模型泛化等方面具有更明顯的優(yōu)勢(shì),但網(wǎng)絡(luò)規(guī)模的增大也令前期的模型訓(xùn)練更為耗時(shí)。此外,模型強(qiáng)大的學(xué)習(xí)能力也帶來(lái)穩(wěn)健性(ro‐bustness)不足的問(wèn)題,訓(xùn)練數(shù)據(jù)中較小的擾動(dòng)就可導(dǎo)致預(yù)測(cè)錯(cuò)誤;而為了克服這一問(wèn)題,更大的訓(xùn)練樣本和語(yǔ)料標(biāo)注工作仍然是必要的。

      相較于有監(jiān)督學(xué)習(xí)方法對(duì)語(yǔ)料的依賴(lài)性,無(wú)監(jiān)督方法則更為靈活,可通過(guò)預(yù)設(shè)詞典[28-29]、上下文[30-31]、語(yǔ)義[32-34]及其他統(tǒng)計(jì)學(xué)方法[35-36]完成候選詞篩選,再根據(jù)淺層關(guān)系、淺層主題、低排名假設(shè)等預(yù)設(shè)條件確定詞語(yǔ)的重要性?;趫D的方法是將文本內(nèi)容以文本圖表示,再根據(jù)單詞節(jié)點(diǎn)的圖結(jié)構(gòu)特征進(jìn)行詞加權(quán)的無(wú)監(jiān)督抽取方法,其中,最為熟知的是2004年Mihalcea等[23]在經(jīng)典網(wǎng)頁(yè)排名算法PageRank基礎(chǔ)上提出的TextRank。此類(lèi)方法通常將候選關(guān)鍵字表示為節(jié)點(diǎn),詞間關(guān)系表示為節(jié)點(diǎn)連接邊,根據(jù)特定的圖屬性設(shè)計(jì)加權(quán)函數(shù)完成候選詞的排序,因而算法效果受到文本預(yù)處理、圖構(gòu)建方法和加權(quán)函數(shù)三方面的影響。在文本圖構(gòu)建方面,多數(shù)方法以詞語(yǔ)在固定滑動(dòng)窗口的共現(xiàn)關(guān)系確立節(jié)點(diǎn)連接邊,但在最優(yōu)窗口長(zhǎng)度的問(wèn)題上卻難以達(dá)成共識(shí),需要用戶結(jié)合文本和算法特征進(jìn)行反復(fù)調(diào)試后確定,增加了算法效果的不確定因素。此外,由于文本圖的連接邊只能夠表示詞共現(xiàn)關(guān)系,在此基礎(chǔ)上設(shè)計(jì)的詞加權(quán)方法同樣忽略了其他詞間語(yǔ)義關(guān)系對(duì)詞語(yǔ)重要性判斷的作用。

      鑒于已有研究的不足,本文提出了一種基于語(yǔ)義文本圖的關(guān)鍵詞抽取算法,該算法著重對(duì)文本圖構(gòu)建和詞加權(quán)方法進(jìn)行改進(jìn)。其主要貢獻(xiàn)在于:以句法解析中的詞間依存關(guān)系確定實(shí)體關(guān)系類(lèi)別,并作為圖中詞節(jié)點(diǎn)的連接依據(jù),省去以往圖生成方法中所需要的窗口長(zhǎng)度參數(shù)設(shè)定;以包含豐富語(yǔ)義信息的文本圖為基礎(chǔ),提出融合關(guān)鍵詞位置信息、概念層級(jí)和連接強(qiáng)度的詞權(quán)重計(jì)算方法,并在四個(gè)開(kāi)放語(yǔ)料的實(shí)驗(yàn)中證明該方法的優(yōu)越性。

      2 相關(guān)研究概述

      基于圖的關(guān)鍵詞抽取屬于無(wú)監(jiān)督信息抽取方法,其基本思路是先將文本內(nèi)容表示為由單詞節(jié)點(diǎn)和詞間關(guān)系構(gòu)成的文本圖,再根據(jù)圖特征確定節(jié)點(diǎn)的重要性與權(quán)重計(jì)算方法,最后提取高得分節(jié)點(diǎn)作為文檔的關(guān)鍵詞集。該類(lèi)方法的抽詞效果主要受圖結(jié)構(gòu)和詞的加權(quán)方式兩方面的影響,其中文本圖是候選詞特征提取的重要依據(jù),不同的構(gòu)圖方式會(huì)導(dǎo)致文本圖在節(jié)點(diǎn)基數(shù)和邊屬性方面存在較大差異。例如,經(jīng)過(guò)詞干提?。╯temming)操作的候選詞,通常會(huì)組成節(jié)點(diǎn)數(shù)更少的文本圖,而主流的文本圖構(gòu)建方法多采用單一的詞共現(xiàn)關(guān)系邊連接,通過(guò)共現(xiàn)窗口大小和滑動(dòng)位移控制文本圖密度和連接邊方向。通常窗口設(shè)置的越大、位移量越小,圖密度越高,可提取的特征也就越多。

      在詞權(quán)重計(jì)算方面,經(jīng)典的加權(quán)方法包括Pag‐eRank、TextRank和HITS,均是以特征向量的中心性為基礎(chǔ),將節(jié)點(diǎn)權(quán)值作為其在網(wǎng)絡(luò)內(nèi)部影響力的度量方法。PageRank是一種用于解決網(wǎng)頁(yè)排名的有向圖節(jié)點(diǎn)權(quán)重計(jì)算方法,將節(jié)點(diǎn)權(quán)重定義為與其相鄰且指向該點(diǎn)的節(jié)點(diǎn)權(quán)重之和;同時(shí),節(jié)點(diǎn)又將其自身權(quán)重的一部分分配給其指向的節(jié)點(diǎn),因此,被高質(zhì)量節(jié)點(diǎn)所指向的節(jié)點(diǎn)會(huì)得到更高的權(quán)重[37]。Mihalcea等[23]將文本圖的拓?fù)浣Y(jié)構(gòu)與PageRank進(jìn)行整合,并提出了TextRank,在借鑒其節(jié)點(diǎn)加權(quán)方法的同時(shí),將詞語(yǔ)在滑動(dòng)窗口內(nèi)的共現(xiàn)頻次作為邊的權(quán)值,并表示節(jié)點(diǎn)間連接邊的重要程度。

      在其他PageRank相關(guān)變體中,SemanticRank將詞間語(yǔ)義相關(guān)性賦值于節(jié)點(diǎn)連接邊的權(quán)重,且相關(guān)性由詞語(yǔ)在WordNet中的連接路徑長(zhǎng)度和Wikipedia中共同指向詞語(yǔ)鏈接數(shù)量共同決定[38]。PositionRank是由Florescu等[39]提出的,將單詞在文本中的位置信息融入權(quán)值計(jì)算的關(guān)鍵詞提取方法。該方法假定越重要的單詞會(huì)越早地出現(xiàn)在一段文字當(dāng)中,因此,如果一個(gè)單詞在文本中出現(xiàn)的越頻繁且位置越靠前,那么其應(yīng)被賦予更高的權(quán)重。Liu等[40]的研究證明了先驗(yàn)知識(shí)對(duì)抽詞效果的積極影響,并提出以TF-IDF、位置和主題三種權(quán)值作為先驗(yàn)知識(shí)的Biased-PageRank算法。此外,作為T(mén)extRank的變體,SingleRank將文檔集合與單個(gè)文檔中的詞共現(xiàn)頻率作為邊權(quán)重的計(jì)算方式[41]。TopicRank則對(duì)由主題節(jié)點(diǎn)構(gòu)成的文本圖進(jìn)行加權(quán),依據(jù)主題的重要性將高得分節(jié)點(diǎn)中的詞語(yǔ)集合作為文本的關(guān)鍵詞集[42]。

      與PageRank將相鄰節(jié)點(diǎn)權(quán)重納入到權(quán)重計(jì)算中不同,HITS[43]定義了兩類(lèi)重要節(jié)點(diǎn):多個(gè)節(jié)點(diǎn)共同指向的權(quán)威節(jié)點(diǎn)和指向多個(gè)節(jié)點(diǎn)的中心節(jié)點(diǎn)。權(quán)重計(jì)算通常會(huì)融入節(jié)點(diǎn)中心度[39,44]或k-degeneracy[45-46]等社會(huì)網(wǎng)絡(luò)指標(biāo)。在相關(guān)研究中,Boudin[47]比較了度數(shù)中心度、接近中心度、中介中心度和特征向量中心度四個(gè)中心度計(jì)算方法在基于圖的關(guān)鍵詞抽取算法中的效果,在三個(gè)不同語(yǔ)言和領(lǐng)域數(shù)據(jù)集上的實(shí)驗(yàn)表明,簡(jiǎn)單的中心度計(jì)算方法就能達(dá)到與Tex‐tRank相似的結(jié)果。Biswas等[48]在度數(shù)中心度、選擇中心度等多參數(shù)組合節(jié)點(diǎn)權(quán)重計(jì)算基礎(chǔ)上,依據(jù)點(diǎn)-邊排序法(node-edge rank)[49]完成關(guān)鍵詞節(jié)點(diǎn)的提取。Vega-Oliveros等[50]發(fā)現(xiàn)9個(gè)不同的中心度權(quán)重計(jì)算方法,雖然能夠獲得相似的關(guān)鍵詞提取結(jié)果,但是不同方法的組合同樣能夠達(dá)到提高抽詞效果的目的。

      部分研究還采用k-core、k-truss等圖分解法將主核(core)或主束(truss)節(jié)點(diǎn)作為關(guān)鍵詞進(jìn)行提取。例如,Rousseau等[45]使用節(jié)點(diǎn)核,即文本子圖中節(jié)點(diǎn)所具有的最小度數(shù)對(duì)網(wǎng)絡(luò)層級(jí)進(jìn)行劃分,并進(jìn)行權(quán)重計(jì)算,且當(dāng)k值較高、主核數(shù)越少時(shí),該算法顯著優(yōu)于TextRank。這類(lèi)方法的實(shí)質(zhì)是對(duì)圖內(nèi)聚性的計(jì)算,且認(rèn)為高內(nèi)聚性節(jié)點(diǎn)具有更高的影響力,因而將其作為文本的關(guān)鍵詞具有合理性[46]。另外,Ohsawa等[51]提出的KeyGraph將文本圖分割成若干個(gè)聚類(lèi),并以此表示特定的概念,詞語(yǔ)與其所在聚類(lèi)的緊密程度則為詞語(yǔ)重要性的判斷依據(jù)。Matsuo等[22]在證明文本圖具有小世界網(wǎng)絡(luò)特性的基礎(chǔ)上,提出了基于網(wǎng)絡(luò)特征貢獻(xiàn)度的KeyWorld權(quán)重指標(biāo)。Litvak等[21]則在此基礎(chǔ)上將節(jié)點(diǎn)度融入權(quán)重指標(biāo)中,并提出了關(guān)鍵詞抽取效率更高的De‐gExt。Duari等[52]通過(guò)相鄰句子滑動(dòng)窗口構(gòu)建文本圖,并提出整合單詞網(wǎng)絡(luò)層級(jí)、位置信息、語(yǔ)義連接性和語(yǔ)義強(qiáng)度四類(lèi)維度特征的詞加權(quán)方式。

      從上述研究中可發(fā)現(xiàn),基于圖的關(guān)鍵詞抽取算法具有應(yīng)用簡(jiǎn)便的特點(diǎn),但也存在一定的局限性。首先,以單詞作為節(jié)點(diǎn),以固定窗口內(nèi)的詞共現(xiàn)關(guān)系確立連接邊仍是目前普遍采用的圖構(gòu)建方法。雖然具有操作簡(jiǎn)便、運(yùn)算速度快的優(yōu)勢(shì),但共現(xiàn)窗口的長(zhǎng)度卻是一個(gè)超參數(shù),算法的抽詞效果直接受到參數(shù)設(shè)定合理性的影響。較小的窗口會(huì)使得網(wǎng)絡(luò)的連通性較差;反之,則會(huì)使得邊的權(quán)重差異過(guò)小,對(duì)詞節(jié)點(diǎn)的圖結(jié)構(gòu)特征提取造成困難。因此,窗口長(zhǎng)度通常需要根據(jù)抽取算法和語(yǔ)料特征進(jìn)行調(diào)整,無(wú)法給出一個(gè)統(tǒng)一的取值范圍,需要研究者通過(guò)反復(fù)實(shí)驗(yàn)得出。其次,在論文摘要的關(guān)鍵詞抽取任務(wù)中,雖然摘要包含了對(duì)文章主要內(nèi)容的精簡(jiǎn)表述,卻也存在短文本可用信息過(guò)少的問(wèn)題。此時(shí),無(wú)論采用單詞或是句子長(zhǎng)度的滑動(dòng)窗口,均會(huì)出現(xiàn)由文本圖稀疏所導(dǎo)致的算法效率降低的問(wèn)題。最后,文本圖中的連接邊表示詞語(yǔ)在文本中的共現(xiàn)關(guān)系,忽略了詞間存在的多種語(yǔ)義關(guān)系,此時(shí)的文本圖僅能說(shuō)明詞語(yǔ)在指定窗口內(nèi)共同出現(xiàn)過(guò),卻無(wú)法解釋為何共現(xiàn),而缺失的語(yǔ)義信息則是對(duì)詞間關(guān)系最好的補(bǔ)充,如基于主謂賓(subject-verb-object,S-V-O)結(jié)構(gòu)的文本內(nèi)容表示和相似性計(jì)算。

      3 基于語(yǔ)義文本圖的關(guān)鍵詞抽取算法

      為了彌補(bǔ)上述方法中的不足,本文提出一種基于語(yǔ)義文本圖的關(guān)鍵詞抽取算法,框架如圖1所示,由文本預(yù)處理、語(yǔ)義文本圖構(gòu)建(第3.1節(jié))和詞權(quán)重計(jì)算(第3.2節(jié))三個(gè)主要部分構(gòu)成。

      圖1 算法整體框架

      3.1 語(yǔ)義文本圖構(gòu)建方法

      3.1.1 基于依存句法解析的詞間關(guān)系提取

      根據(jù)Vo等[53]的定義,從句(clause)可被狹義地定義為“句法解析和依存關(guān)系解析所形成的樹(shù)結(jié)構(gòu)”。為了讓文本圖盡可能多地保留摘要中的語(yǔ)義和結(jié)構(gòu)信息,本節(jié)重點(diǎn)介紹基于語(yǔ)義依存關(guān)系的詞間關(guān)系抽取框架,特別是英文語(yǔ)法中,從句中不完整元組結(jié)構(gòu)的補(bǔ)全規(guī)則,以及介詞短語(yǔ)修飾成分的關(guān)系提取。

      從句是用于修飾名詞或充當(dāng)名詞功能的語(yǔ)法結(jié)構(gòu)(如在句子中充當(dāng)主語(yǔ)成分的主語(yǔ)從句),包括主語(yǔ)(subject,S)、謂語(yǔ)(verb,V)、直接賓語(yǔ)(direct object,DO)、間 接 賓 語(yǔ)(indirect object,IO)、補(bǔ)語(yǔ)(complement,C),以及充當(dāng)修飾成分的狀語(yǔ)(adverbials,A)等結(jié)構(gòu)。傳統(tǒng)基于句法解析的關(guān)系提取方法,通常以句子中的動(dòng)詞或動(dòng)詞性短語(yǔ)作為關(guān)系提取的依據(jù),再使用形如的元組對(duì)其實(shí)體關(guān)系進(jìn)行表示,其主要局限在于:如果句子中缺少足夠的信息幫助明確主語(yǔ)、謂語(yǔ)或賓語(yǔ)實(shí)體間的聯(lián)系,算法就無(wú)法提取完整的元組結(jié)構(gòu)。例如,圖2的題目中“Three-dimensional objects”和“scale invariances”之間沒(méi)有動(dòng)詞或動(dòng)詞性短語(yǔ)連接,傳統(tǒng)方法無(wú)法提取這一關(guān)系元組。

      因此,為了更多地保留摘要文本中的詞間關(guān)系并生成較大的連通圖,本文將狀語(yǔ)修飾成分及其連接的名詞結(jié)構(gòu)也作為關(guān)系的提取對(duì)象,并將其稱(chēng)為“修飾關(guān)系”。此外,為了減少句法解析器對(duì)復(fù)合長(zhǎng)句進(jìn)行解析時(shí)可能引發(fā)的解析錯(cuò)誤,在關(guān)系提取時(shí)按照如下原則進(jìn)行處理:首先確定句子中的名詞性短語(yǔ)及根詞(head),再根據(jù)句法解析結(jié)果獲得兩個(gè)名詞短語(yǔ)根詞之間的最短依存路徑。以圖2的第二個(gè)句子為例,采用Spacy工具包對(duì)句子進(jìn)行解析,共識(shí)別5個(gè)名詞短語(yǔ)(3-D information,object,de‐formed fringe patterns,F(xiàn)ourier transform profilometry technique,classical convergent correlator)及其依 存關(guān)系,結(jié)果如圖3所示。

      圖2 論文題目與摘要實(shí)例

      在圖3中,箭頭從head指向依存其詞語(yǔ)①SpaCy中Dependency Parse標(biāo)簽釋義見(jiàn)https://spacy.io/api/annotation#dependency-parsing。在路徑搜尋時(shí),除了主語(yǔ)與句子根成分(root)之間的路徑搜索與箭頭方向相反,其余的搜尋方向均與箭頭相同。對(duì)于“3-D(information)”和“classi‐cal convergent(correlator)”兩個(gè)短語(yǔ)(括號(hào)中的單詞為head),根據(jù)上述原則,可在短語(yǔ)的根詞之間得到內(nèi)容為的最短路徑。

      圖3 句子依存路徑解析實(shí)例

      對(duì)于路徑中由“conj”(連詞)連接的兩個(gè)動(dòng)詞,需要對(duì)路徑進(jìn)行拆解,并將動(dòng)詞與路徑中的兩個(gè)實(shí)體分別進(jìn)行組合,以此繼承動(dòng)詞節(jié)點(diǎn)的依存關(guān)系。在上述例子中,根據(jù)該原則可提取到“infor‐和“in‐兩個(gè)子路徑。在第一個(gè)路徑中,codified和using間的依存關(guān)系繼承了correlated與using之間的關(guān)系,而第二個(gè)路徑中的correlated和information則繼承了codified和information間 的關(guān)系。

      在關(guān)系抽取時(shí),除了要獲得最短路徑上的全部詞語(yǔ)之外,還需將只與這些詞語(yǔ)建立依存關(guān)系的介詞修飾語(yǔ)和be動(dòng)詞一起提取,最終可獲得實(shí)體關(guān)系的完整形式是:<3-D information,is correlated us‐ing,classical convergent correlator>和<3-D informa‐tion,is codified using,classical convergent correlator>。類(lèi)似地,可以從句子中抽取剩余的實(shí)體關(guān)系:<3-D information,of,objects>、<3-D,is codified in,de‐formed fringe patterns>、

      3.1.2 名詞實(shí)體間關(guān)系類(lèi)別

      在明確名詞實(shí)體間的關(guān)系提取方法后,要對(duì)關(guān)系進(jìn)一步分類(lèi):首先,使用Python編程語(yǔ)言對(duì)第3.1.1節(jié)的抽取規(guī)則進(jìn)行技術(shù)實(shí)現(xiàn);其次,從Web of Science數(shù)據(jù)庫(kù)中隨機(jī)選擇100篇學(xué)術(shù)論文摘要,每篇任選2個(gè)句子進(jìn)行句法解析;最后,得到731條有效實(shí)體關(guān)系,平均每條句子抽取3.6條,涉及17個(gè)依存類(lèi)別,詳細(xì)的解析結(jié)果如表1所示。

      在此基礎(chǔ)上,作者邀請(qǐng)兩名博士研究生共同對(duì)表1中的依存類(lèi)別進(jìn)行分類(lèi),過(guò)程如下:第一步將編號(hào)為1的依存類(lèi)別直接作為分類(lèi)I;第二步,選取編號(hào)2的類(lèi)別請(qǐng)博士研究生對(duì)其是否能夠歸入分類(lèi)I進(jìn)行判斷并陳述理由,若認(rèn)為不能夠歸入,則將其作為分類(lèi)II獨(dú)立出來(lái),并在第三步選取編號(hào)3的類(lèi)別后重復(fù)執(zhí)行第二步,判斷其是否能夠歸入分類(lèi)I或II;若能夠歸入,則需先將其并入分類(lèi)II,再重復(fù)第二步直至完成分類(lèi)。當(dāng)二人意見(jiàn)不能達(dá)成一致時(shí),由作者進(jìn)行判斷,并根據(jù)少數(shù)服從多數(shù)的原則進(jìn)行操作。上述分類(lèi)過(guò)程結(jié)束后,共得到四個(gè)用于文本圖生成的關(guān)系類(lèi)別,并將其命名為:概念連接關(guān)系、等價(jià)隸屬關(guān)系、功能屬性關(guān)系、修飾限定關(guān)系,具體結(jié)果如表2所示。

      表1 200條句子的解析結(jié)果

      表2 實(shí)體關(guān)系及其對(duì)應(yīng)的依存類(lèi)別

      1)概念連接關(guān)系(conceptual connection,CO)

      該類(lèi)實(shí)體關(guān)系包含名詞性短語(yǔ)中各形容詞和名詞之間的依存關(guān)系,實(shí)際上,這是一種名詞短語(yǔ)內(nèi)的詞共現(xiàn)關(guān)系。在上一節(jié)的關(guān)系抽取方法中,第一步為確定句子中的名詞性短語(yǔ),故構(gòu)成名詞短語(yǔ)的單詞間均具有該實(shí)體關(guān)系類(lèi)別。

      2)等價(jià)隸屬關(guān)系(equal subjection,ES)

      等價(jià)隸屬關(guān)系包括同一句子實(shí)體間的同義、隸屬和指代依存關(guān)系。最簡(jiǎn)單的隸屬關(guān)系可以定義為由介詞“of”連接的名詞實(shí)體,同義關(guān)系則多對(duì)應(yīng)具有“is-a”、名詞短語(yǔ)縮寫(xiě),或同位語(yǔ)關(guān)系連接的實(shí)體關(guān)系。指代關(guān)系可以是代詞與其指代實(shí)體之間的關(guān)系,亦可是定義模糊和定義明確實(shí)體之間的概念,例如,在示例文本中“two different approaches”和“Mellin radial harmonic decomposition”與“l(fā)oga‐rithmic radial harmonic filter”之間的關(guān)系。

      3)功能屬性關(guān)系(functional property,F(xiàn)P)

      這一關(guān)系與Altshuller在其發(fā)明問(wèn)題解決理論(theory of the solution of inventive problems,TRIZ)中所提出的“物質(zhì)(substance)-場(chǎng)(field)”模型類(lèi)似。在該模型中,所有的功能都可以分解為兩種物質(zhì)和一種場(chǎng),并構(gòu)成了一個(gè)用于表示產(chǎn)品功能的三元組。在過(guò)去的研究中,學(xué)者們通常將句子中通過(guò)動(dòng)詞建立語(yǔ)義聯(lián)系的兩個(gè)名詞短語(yǔ)作為具體功能的表示[53-56],類(lèi)似地,本類(lèi)別中的依存關(guān)系多由動(dòng)詞及動(dòng)詞結(jié)構(gòu)參與構(gòu)成。

      4)修飾限定關(guān)系(modification and restriction,MR)

      修飾限定關(guān)系特指狀語(yǔ)修飾成分與其修飾對(duì)象之間的依存關(guān)系。由于狀語(yǔ)通常在句子中作為動(dòng)詞、形容詞、副詞和其他句子修飾成分,因此,可以將其理解為對(duì)特定的實(shí)體對(duì)象添加更多的限制條件,例如,時(shí)間狀語(yǔ)是對(duì)實(shí)體在時(shí)間范圍內(nèi)的限定,地點(diǎn)狀語(yǔ)是在地理空間內(nèi)的限定,條件從句是其他實(shí)體所表示的狀態(tài)空間上的限定。

      在上述類(lèi)別基礎(chǔ)上,對(duì)圖2中的文本進(jìn)行關(guān)系抽取,結(jié)果如表3所示,6個(gè)句子共獲得22個(gè)實(shí)體關(guān)系。再對(duì)關(guān)系元組中實(shí)體和其關(guān)系充當(dāng)?shù)木渥映煞诌M(jìn)行分析,如主語(yǔ)(S)、謂語(yǔ)(V)、賓語(yǔ)(O)、補(bǔ)語(yǔ)(C)和狀語(yǔ)(A),得到包括主謂賓(S-VO)、主謂補(bǔ)(S-V-C)、主謂狀語(yǔ)(S-V-A)等在內(nèi)的多種句法模式,并據(jù)此生成文本圖用于后續(xù)的節(jié)點(diǎn)權(quán)重計(jì)算,如圖4所示。

      圖4 文本圖樣例

      表3 關(guān)系抽取結(jié)果

      3.1.3 文本圖特征比較分析

      為了進(jìn)一步說(shuō)明本文提出的方法所生成文本圖的特點(diǎn),本文選擇四種文本圖構(gòu)建方法與之進(jìn)行比較,分 別 為Graph-of-Word、TextRank、DegExt、Context-of-Aware,并以圖2的摘要為例進(jìn)行可視化,結(jié)果如圖5和表4所示。

      表4 不同圖構(gòu)建方法的圖特征比較

      從節(jié)點(diǎn)數(shù)量上看,本節(jié)提出的圖構(gòu)建方法包含了最多的節(jié)點(diǎn),TextRank和DegExt由于構(gòu)成了多個(gè)互不連接的子圖,其子圖中的節(jié)點(diǎn)數(shù)也最小。從邊屬性和網(wǎng)絡(luò)密度來(lái)看,圖5中的連接邊均表示詞語(yǔ)的共現(xiàn)關(guān)系,不同長(zhǎng)度的滑動(dòng)窗口會(huì)產(chǎn)生不同的孤立節(jié)點(diǎn),如圖5b和圖5c存在互不連通的文本圖。此外,DegExt的連接邊最為稀疏,而Context-Aware的圖密度最高。經(jīng)分析,邊集合數(shù)量差異主要受預(yù)設(shè)共現(xiàn)窗口大小的影響。雖然DegExt和Context-Aware均以長(zhǎng)度為2窗口內(nèi)的詞語(yǔ)共現(xiàn)確立連接邊,但是前者的單位為細(xì)粒度更高的單詞,而后者則為句子。

      圖5 不同算法所生成的文本圖

      與其他方法相比,本節(jié)的文本圖雖然不具有最高的密度,但是通過(guò)多種實(shí)體關(guān)系保留了更多的語(yǔ)義信息。在詞共現(xiàn)關(guān)系方面,方法并沒(méi)有將窗口大小作為超參數(shù),轉(zhuǎn)而采用更為靈活的名詞短語(yǔ)內(nèi)共現(xiàn)作為詞語(yǔ)共現(xiàn)的連接方式,即根據(jù)語(yǔ)法解析器得到的名詞塊(chunk)的實(shí)際長(zhǎng)度在短語(yǔ)間建立連接邊,因而第3.1.2節(jié)的四種實(shí)體關(guān)系確立同樣無(wú)需相關(guān)參數(shù)的設(shè)定。與Context-Aware相比,本節(jié)生成的圖密度更低,降低了后續(xù)圖計(jì)算的復(fù)雜性。與此同時(shí),多樣的邊屬性也使得節(jié)點(diǎn)組合表達(dá)的內(nèi)容更為豐富,含義更為明確。

      3.2 面向多維語(yǔ)義連接的詞加權(quán)方法

      圖的結(jié)構(gòu)特性變化在詞語(yǔ)打分中起著重要作用[52]。在第3.1節(jié)生成的文本圖的基礎(chǔ)上,本節(jié)提出了一種整合單詞位置信息、構(gòu)成名詞實(shí)體數(shù)量、實(shí)體語(yǔ)義連接強(qiáng)度特征的圖節(jié)點(diǎn)加權(quán)方法,并將權(quán)重得分作為詞語(yǔ)重要性的判斷依據(jù)。對(duì)于文本圖中的任意單詞節(jié)點(diǎn)vi,其權(quán)重計(jì)算方法為

      其中,ωi表示單詞vi在文本中的位置權(quán)重;ConceptScore為單詞在文本圖中的概念連接權(quán)重;SemanticScore為語(yǔ)義連接權(quán)重。概念連接權(quán)重由概念層級(jí)(λ)、概念連接偏好(α)、概念連接強(qiáng)度(CC)組成,由公式

      展開(kāi)計(jì)算。語(yǔ)義連接權(quán)重由語(yǔ)義層級(jí)(γ)、語(yǔ)義連接偏好(β)、語(yǔ)義連接強(qiáng)度(SC)組成,計(jì)算公式為

      本節(jié)后續(xù)內(nèi)容將對(duì)各權(quán)重值的含義與應(yīng)用基礎(chǔ)進(jìn)行詳細(xì)闡述。

      3.2.1 詞語(yǔ)位置權(quán)重的計(jì)算

      一個(gè)詞語(yǔ)的位置權(quán)重由該詞在文本中出現(xiàn)的相對(duì)位置決定,重要的關(guān)鍵詞更傾向于出現(xiàn)在文本前半部分[17,57],并得到Florescu等[39]方法的驗(yàn)證。因此,本文以單詞在文本中出現(xiàn)的相對(duì)位置(次序)的倒數(shù)作為該權(quán)重的計(jì)算方式。對(duì)于單詞重復(fù)出現(xiàn)的情況,需先對(duì)其在文中的相對(duì)位置取倒數(shù)再求和,計(jì)算公式為

      其中,ni表示單詞在文本中出現(xiàn)的頻次;pj表示第j個(gè)單詞在文中的位置。此外,本文在位置權(quán)重計(jì)算時(shí)將題目和摘要整合成為一個(gè)短文本,且題目在前,摘要在后,即賦予題目中出現(xiàn)的單詞更高的權(quán)重。

      3.2.2 概念連接權(quán)重的計(jì)算

      在第3.1節(jié)的文本圖中,任一單詞既可以與其他單詞組成名詞短語(yǔ),并建立詞共現(xiàn)連接(CO和ES屬性邊),也可根據(jù)句法解析后識(shí)別到的實(shí)體關(guān)系與其他節(jié)點(diǎn)建立語(yǔ)義上的連接(FP和MR屬性邊)。其中,詞語(yǔ)共現(xiàn)是以單詞的有意義組合為前提所建立的詞間聯(lián)系,單詞及其共現(xiàn)連接邊所組成的子網(wǎng)絡(luò)構(gòu)成了文本中的概念空間,而子網(wǎng)絡(luò)中包含的n階完全圖則代表了概念空間中的每一個(gè)實(shí)體概念。由于重要的單詞可以和不同的單詞進(jìn)行組合,形成表達(dá)形式多樣卻具有同種特征的名詞短語(yǔ),在這種情況下,特定單詞參與組合的概念數(shù)量越多,在句子中出現(xiàn)的越頻繁,該單詞就越重要。因此,概念連接權(quán)重反映了單詞參與構(gòu)成重要概念的能力。

      1)概念層級(jí)

      在基于圖的詞加權(quán)方法中,單詞的概念層級(jí)是對(duì)網(wǎng)絡(luò)進(jìn)行分解和判定節(jié)點(diǎn)重要性的關(guān)鍵,且通常認(rèn)為單詞的概念層級(jí)與其重要性呈正相關(guān)關(guān)系。在已有研究中,Rousseau等[45]和Tixier等[46]分別采用基于核(k-core)和基于束(k-truss)的同質(zhì)網(wǎng)絡(luò)分解法來(lái)計(jì)算單詞的概念層級(jí)。其中,基于束的層級(jí)權(quán)重由節(jié)點(diǎn)所在邊參與構(gòu)成的3階完全圖數(shù)量決定,方法應(yīng)用以適當(dāng)?shù)木W(wǎng)絡(luò)密度為前提。這意味著當(dāng)生成的文本圖密度較低或子圖無(wú)法形成完全圖結(jié)構(gòu)時(shí),單詞權(quán)重的得分差異不明顯,容易導(dǎo)致大量單詞位于較低的概念層級(jí),即權(quán)重失效。由于本文方法生成文本圖具有低密度特征,且密集子圖主要由概念連接屬性邊構(gòu)成(如圖4、圖5所示),因此,本文采用以網(wǎng)絡(luò)中節(jié)點(diǎn)度數(shù)為基礎(chǔ)的k-core方法對(duì)單詞參與的共現(xiàn)屬性子圖進(jìn)行分解,并將概念層定義為節(jié)點(diǎn)與其相鄰節(jié)點(diǎn)共同具有的核數(shù),并采用Batagelj等[58]提出的算法用于節(jié)點(diǎn)v的核數(shù)core(v)計(jì)算。

      定義1:在基于詞共現(xiàn)所生成的加權(quán)無(wú)向同質(zhì)網(wǎng) 絡(luò) 圖G'中(G'?G),H是G'的 一 個(gè) 子 圖,deg(H)表示H中的最小度數(shù),即H中的每一個(gè)節(jié)點(diǎn)至少與deg(H)個(gè)節(jié)點(diǎn)相鄰。如果H是G'中的一個(gè)最大連通子圖,且滿足deg(H)≥k,那么H是G'的一個(gè)k-core。

      定義2:節(jié)點(diǎn)v的核數(shù)core(v)為包含這一節(jié)點(diǎn)的核的最高序,最高序的核也被稱(chēng)為圖的主核,表示為core(H)。

      2)概念連接偏好

      本文在第3.1節(jié)共定義了單詞節(jié)點(diǎn)間的四類(lèi)連接邊,因而,采用本文方法構(gòu)成的文本圖實(shí)際上包含了非單一邊屬性的異質(zhì)網(wǎng)絡(luò)圖。不同于單一屬性邊和節(jié)點(diǎn)構(gòu)成的同質(zhì)網(wǎng)絡(luò),此時(shí)網(wǎng)絡(luò)中節(jié)點(diǎn)的度數(shù)由兩方面因素決定,分別是節(jié)點(diǎn)間的詞共現(xiàn)連接和語(yǔ)義連接邊數(shù)量。而本文將概念連接偏好定義為詞共現(xiàn)連接在節(jié)點(diǎn)度數(shù)中所占的比例,其反映的是在一段文本中,某個(gè)單詞傾向于與其他單詞組成不同概念的程度。

      定義3:圖G'中節(jié)點(diǎn)vi的概念連接偏好被定義為節(jié)點(diǎn)通過(guò)詞共現(xiàn)方式與其他節(jié)點(diǎn)建立連接的數(shù)量與文本圖G中的最大連接數(shù)量的比值,表示為

      3)概念連接強(qiáng)度

      單詞在文本中的概念連接強(qiáng)度可以表示為一個(gè)關(guān)于單詞概念層級(jí)與其連接強(qiáng)度的函數(shù),其中單詞vi(vj∈G')的連接強(qiáng)度表示為其在詞共現(xiàn)網(wǎng)絡(luò)圖G'中的共現(xiàn)頻率,即網(wǎng)絡(luò)中邊eij的權(quán)重。

      定義4:在詞共現(xiàn)網(wǎng)絡(luò)圖G'中,節(jié)點(diǎn)vi具有鄰接節(jié)點(diǎn)集合Ni,vi的概念連接強(qiáng)度被表示為

      其中,cwij為邊eij的權(quán)重;core(vi)為節(jié)點(diǎn)在詞共現(xiàn)子圖中的概念層級(jí)。當(dāng)兩個(gè)單詞所組成的短語(yǔ)越多時(shí),共現(xiàn)頻率越高,詞語(yǔ)間的概念連接強(qiáng)度也就越高。

      3.2.3 語(yǔ)義連接權(quán)重的計(jì)算

      重要的單詞不僅可以組成重要的概念,更應(yīng)與其他單詞或概念組成豐富且有意義的語(yǔ)義功能關(guān)系。一個(gè)文檔包含了語(yǔ)義相關(guān)的多個(gè)概念,Ohsawa等[51]認(rèn)為,重要的單詞是那些在文本圖概念聚類(lèi)間建立連接且將整個(gè)文檔整合起來(lái)的單詞;Duari等[52]將這一概念進(jìn)行了延伸,認(rèn)為一個(gè)單詞的語(yǔ)義連接性可以通過(guò)該單詞參與構(gòu)成概念的數(shù)量進(jìn)行量化,并將網(wǎng)絡(luò)中的層級(jí)束作為概念的近似表示。因此,如果一個(gè)詞語(yǔ)的相鄰節(jié)點(diǎn)屬于多個(gè)概念類(lèi)型,那么當(dāng)移除這個(gè)節(jié)點(diǎn)時(shí),勢(shì)必會(huì)在概念之間產(chǎn)生一個(gè)缺口。類(lèi)似地,如果一個(gè)詞語(yǔ)所有的相鄰節(jié)點(diǎn)都屬于同一概念,那么該節(jié)點(diǎn)的移除會(huì)導(dǎo)致較少的語(yǔ)義的損失。

      在上述研究基礎(chǔ)上,本文對(duì)語(yǔ)義連接權(quán)重的概念進(jìn)一步擴(kuò)展,除了考慮單詞連接的概念子圖數(shù)量,還涵蓋單詞間的連接屬性特征。在一段文本中,某些單詞雖然沒(méi)有參與表示過(guò)多的概念,但其卻頻繁地在不同概念間建立語(yǔ)義聯(lián)系。因此,本節(jié)將單詞節(jié)點(diǎn)間由依存句法解析建立的連接定義為語(yǔ)義連接。此時(shí),如果一個(gè)單詞的相鄰節(jié)點(diǎn)屬于不同的詞共現(xiàn)網(wǎng)絡(luò),那么當(dāng)移除這個(gè)節(jié)點(diǎn)時(shí),勢(shì)必會(huì)在概念之間產(chǎn)生一個(gè)缺口;反之,如果一個(gè)詞語(yǔ)所有的相鄰節(jié)點(diǎn)都屬于同一概念(詞共現(xiàn)網(wǎng)絡(luò)),那么該節(jié)點(diǎn)的移除會(huì)導(dǎo)致較少的語(yǔ)義的損失,因?yàn)楦拍钪惺S嗟脑~語(yǔ)都相對(duì)完整。因此,單詞的語(yǔ)義連接權(quán)重反映的是單詞參與建立實(shí)體間關(guān)系的能力。

      1)語(yǔ)義層級(jí)

      與詞共現(xiàn)網(wǎng)絡(luò)中概念層級(jí)的定義類(lèi)似,本文將單詞的語(yǔ)義層級(jí)定義為其在語(yǔ)義連接子網(wǎng)絡(luò)中的kcore。

      定義5:在基于實(shí)體間語(yǔ)義關(guān)系所生成的加權(quán)網(wǎng)絡(luò)圖G″中(G″?G),節(jié)點(diǎn)v的語(yǔ)義層級(jí)為包含這一節(jié)點(diǎn)的核的最高序。

      2)語(yǔ)義連接強(qiáng)度

      與概念連接強(qiáng)度類(lèi)似,單詞在文本中的語(yǔ)義連接強(qiáng)度是一個(gè)關(guān)于單詞語(yǔ)義層級(jí)和其對(duì)應(yīng)語(yǔ)義連接邊權(quán)重的函數(shù),其中邊的語(yǔ)義連接權(quán)重可以表示為連接頻次。因此,對(duì)于在圖G″中具有Ni個(gè)相鄰節(jié)點(diǎn)的節(jié)點(diǎn)vi,其語(yǔ)義強(qiáng)度可由公式

      計(jì)算得到。其中,swij為語(yǔ)義連接邊eij的權(quán)重;score(vi)為節(jié)點(diǎn)在語(yǔ)義連接網(wǎng)絡(luò)中的概念層級(jí)。當(dāng)一個(gè)單詞的語(yǔ)義層級(jí)越高時(shí),其通過(guò)語(yǔ)義建立的詞間表示修飾、方法或其他功能屬性關(guān)系連接越多且越頻繁,則該詞語(yǔ)的語(yǔ)義連接強(qiáng)度也就越高。

      3)語(yǔ)義連接偏好

      語(yǔ)義連接偏好顯示了節(jié)點(diǎn)的語(yǔ)義連接在節(jié)點(diǎn)度數(shù)中所占的比例,其反映的是在一段文本中,某個(gè)單詞傾向于與其他單詞結(jié)合,以表達(dá)不同語(yǔ)義的程度。

      定義6:圖G″中節(jié)點(diǎn)vi的語(yǔ)義連接偏好被定義為節(jié)點(diǎn)通過(guò)語(yǔ)法依存與其他節(jié)點(diǎn)建立連接的數(shù)量與文本圖G中的最大連接數(shù)量的比值,表示為

      4 算法比較與評(píng)估

      4.1 Baseline與評(píng)估語(yǔ)料

      本節(jié)選取經(jīng)典的TextRank[23]、PositionRank[39]和最新的sCAKE[52]三種基于圖的關(guān)鍵詞提取方法作為baseline與本文方法比較,并在關(guān)鍵詞抽取任務(wù)中較為熟知的四個(gè)公開(kāi)語(yǔ)料Hulth2003[17]、Krapiv‐in2009①語(yǔ)料下載地址:http://disi.unitn.it/~krapivin/、SemEval2010②語(yǔ)料下載地址:http://semeval2.fbk.eu/semeval2.php?location=data和KP20k③語(yǔ)料下載地址:https://github.com/memray/OpenNMT-kpg-release上進(jìn)行實(shí)驗(yàn)。其中,Hulth2003收錄了Inspec數(shù)據(jù)庫(kù)中的2000篇英文期刊論文摘要及其標(biāo)題,關(guān)鍵詞集合分為依照數(shù)據(jù)庫(kù)敘詞表標(biāo)注的受控關(guān)鍵詞集和自由添加的非受控關(guān)鍵詞集,本文將非受控詞集中未在摘要出現(xiàn)的關(guān)鍵詞剔除后用于評(píng)估。類(lèi)似地,SemEval2010包含由作者和讀者分別添加的兩類(lèi)關(guān)鍵詞集合,在對(duì)其進(jìn)行整合和剔重后進(jìn)行實(shí)驗(yàn)。四個(gè)語(yǔ)料的其他信息如表5所示,不同長(zhǎng)度文本的關(guān)鍵詞標(biāo)注比例如圖6所示。

      圖6 語(yǔ)料關(guān)鍵詞標(biāo)注比例

      表5 算法評(píng)估數(shù)據(jù)集描述

      4.2 等量抽取策略下的算法評(píng)估

      本節(jié)的主要內(nèi)容是比較不同算法以相等數(shù)量進(jìn)行關(guān)鍵詞抽取時(shí)的效果。根據(jù)文獻(xiàn)[59]、文獻(xiàn)[52]和文獻(xiàn)[17]的實(shí)驗(yàn)結(jié)果,分別以k=25、10、30和10在Hulth2003、Krapivin2009、Semeval2010、KP20k語(yǔ)料上進(jìn)行實(shí)驗(yàn)。同樣使用查準(zhǔn)率、查全率和F1值三個(gè)指標(biāo)對(duì)抽取效果進(jìn)行評(píng)估,結(jié)果如表6所示。

      表6 等量關(guān)鍵詞抽取的多語(yǔ)料算法評(píng)估結(jié)果

      在測(cè)試語(yǔ)料中,本文方法均取得了最高的查全率,評(píng)估指標(biāo)在Hulth2003、Semeval2010和KP20k數(shù)據(jù)集上的得分均高于其他三個(gè)baseline,而Tex‐tRank在三個(gè)語(yǔ)料上測(cè)試結(jié)果均最差,其次為Posi‐tionRank。結(jié)合表5的語(yǔ)料信息進(jìn)一步分析可知,在摘要文本平均單詞數(shù)量較少的Hulth2003數(shù)據(jù)集中,四個(gè)方法均取得了最好的效果。從正確抽取的關(guān)鍵詞數(shù)量上看,該語(yǔ)料中摘要的平均關(guān)鍵詞數(shù)量約為20個(gè),本文方法平均正確抽取了12個(gè)關(guān)鍵詞,PositionRank和sCAKE為11個(gè),而TextRank僅 為1個(gè)。與Hulth2003和Krapivin2009相比,Semeval2010和KP20k擁有更長(zhǎng)的文本,但關(guān)鍵詞比例卻更低,在以k=30和k=10進(jìn)行抽取時(shí),本文方法在三個(gè)指標(biāo)上均得到了高于baseline的結(jié)果。而對(duì)于平均長(zhǎng)度最短的Krapivin2009,本文算法在以k=10進(jìn)行關(guān)鍵詞抽取時(shí)的優(yōu)勢(shì)并不明顯,sCAKE方法的查準(zhǔn)率和F1值得分高于本文方法,且本文方法的查全率也僅比前者高出0.08。結(jié)合上述語(yǔ)料特征能夠發(fā)現(xiàn),本文方法在抽詞數(shù)量k大于語(yǔ)料平均關(guān)鍵詞數(shù)量時(shí)的抽詞效果最好。例如,當(dāng)以k=25和k=30對(duì)Hulth2003和Semeval2010的文本關(guān)鍵詞進(jìn)行抽取時(shí),k值分別高于兩個(gè)語(yǔ)料中的平均關(guān)鍵詞量19和16。而在Krapivin2009語(yǔ)料中k=10的設(shè)定要低于平均關(guān)鍵詞數(shù)量15,此時(shí)sCAKE的效果更好。

      此外,表6的結(jié)果顯示,四個(gè)算法的查準(zhǔn)率均低于查全率。經(jīng)分析,造成這一結(jié)果的主要原因在于測(cè)試語(yǔ)料中文本長(zhǎng)度的非均衡分布。圖7中繪制了四個(gè)語(yǔ)料文本剔除停用詞后的長(zhǎng)度分布,而當(dāng)分別以k=10、25、30進(jìn)行關(guān)鍵詞抽取時(shí),部分文本的關(guān)鍵詞數(shù)量大于或等于候選詞集,例如,在Krapiv‐in2009語(yǔ)料中,約有6%的文本長(zhǎng)度在區(qū)間[0,10]內(nèi),且超過(guò)53%的樣本分布在區(qū)間[50,80]上。在采用等量策略抽取時(shí),較短文本的關(guān)鍵詞查全率可為1;但對(duì)于長(zhǎng)文本而言,算法抽取的關(guān)鍵詞數(shù)量與文本長(zhǎng)度之比卻又低于語(yǔ)料的平均關(guān)鍵詞占比。具體而言,Krapivin2009中長(zhǎng)度超過(guò)60的文本約占全部樣本的4%,相同區(qū)間上實(shí)際抽取關(guān)鍵詞的平均比例僅為13.62%。類(lèi)似地,Hulth2003在相同區(qū)間上的樣本約占2.9%,關(guān)鍵詞比例為33.54%;SemEval2010在大于70區(qū)間上的百分比則分別為36.89%和36.2%。這意味著在采用固定長(zhǎng)度進(jìn)行關(guān)鍵詞抽取時(shí),一方面,看似較高的查全率得益于語(yǔ)料中包含了較多的短文本(如Hulth2003);另一方面,則需要設(shè)定較大的k值,令長(zhǎng)文本的抽詞比例接近或超過(guò)語(yǔ)料的關(guān)鍵詞比例,然而后者往往以犧牲中長(zhǎng)文本的準(zhǔn)確率為代價(jià),因此,在所有的實(shí)驗(yàn)結(jié)果中查準(zhǔn)率最大值也未超過(guò)50%。

      圖7 測(cè)試語(yǔ)料的文本長(zhǎng)度分布

      本節(jié)進(jìn)一步比較了不同權(quán)值組合對(duì)算法抽詞效果的影響,具體實(shí)驗(yàn)結(jié)果如表7所示。在三個(gè)權(quán)重指標(biāo)中,單獨(dú)使用位置權(quán)重就能夠得到超過(guò)0.2的正確率,且在Krapivin2009數(shù)據(jù)集上最高為0.369。而概念和語(yǔ)義權(quán)重在Hulth2003和SemEval2010中的測(cè)試結(jié)果并不理想,查準(zhǔn)率在0.1附近徘徊,F(xiàn)1值也并未超過(guò)0.2。此外,雖然位置權(quán)重與概念權(quán)重的組合在Krapivin2009和KP20k數(shù)據(jù)集上獲得了0.394和0.358的查準(zhǔn)率,但也并未超過(guò)本文方法實(shí)驗(yàn)結(jié)果的0.412和0.368,且在另外兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果更明顯低于本文方法。

      表7 不同權(quán)值組合的抽詞效果

      4.3 等比抽取策略下的算法評(píng)估

      考慮到現(xiàn)實(shí)中的語(yǔ)料標(biāo)注并沒(méi)有對(duì)關(guān)鍵詞數(shù)量進(jìn)行嚴(yán)格的限定,并且隨著文本長(zhǎng)度的增加,關(guān)鍵詞的標(biāo)注比例呈現(xiàn)下降趨勢(shì),加之多數(shù)文本的關(guān)鍵詞標(biāo)注比例穩(wěn)定在30%~50%(見(jiàn)圖6),因此,本節(jié)進(jìn)一步評(píng)估以固定比例抽取關(guān)鍵詞時(shí)的算法效果。文獻(xiàn)[52]已指出,本文的兩個(gè)baseline方法對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行等量關(guān)鍵詞抽取時(shí)效果最好,因此,本文不再對(duì)其進(jìn)行重復(fù)實(shí)驗(yàn),只探討抽詞比例對(duì)算法的影響,具體結(jié)果如表8所示。

      表8 關(guān)鍵詞抽取比例對(duì)算法效果的影響

      本節(jié)在三個(gè)語(yǔ)料中各進(jìn)行了7輪抽取,總體的實(shí)驗(yàn)結(jié)果表明,本文方法的關(guān)鍵詞等比抽取效果優(yōu)于等量抽取效果,各評(píng)估指標(biāo)均具有較為明顯的提高。特別地,當(dāng)以20%的比例對(duì)Krapivin2009語(yǔ)料進(jìn)行抽取時(shí),算法效果最佳,且查準(zhǔn)率、查全率和F1值均超過(guò)在等量抽詞實(shí)驗(yàn)中具有較好效果的sCAKE。在指標(biāo)變化方面,隨著抽取比例的增加,算法在Krapivin2009中的查準(zhǔn)率和F1值逐漸降低,查全率則逐漸增加。類(lèi)似地,Semeval2010和Hulth2003語(yǔ)料的指標(biāo)得分在小幅波動(dòng)后,也呈現(xiàn)相似的變化趨勢(shì),但前者的變化更為明顯,并且在抽取比例為30%時(shí),算法的查準(zhǔn)率取最大值。結(jié)合圖6和圖7的語(yǔ)料特征可知,若要算法保證較高的準(zhǔn)確率,則抽詞比例應(yīng)接近語(yǔ)料中多數(shù)長(zhǎng)度文本的關(guān)鍵詞標(biāo)注比例。例如,Krapivin2009中長(zhǎng)度在區(qū)間[50,70]上的文本數(shù)量最多,相同區(qū)間上文本的關(guān)鍵詞標(biāo)注比例約為20%,此時(shí),以相同比例進(jìn)行抽詞時(shí)效果最好。此外,若期望算法抽取的關(guān)鍵詞更為全面,只需將抽詞比例盡可能調(diào)大即可。

      5 結(jié)論

      本文提出了一種基于圖的關(guān)鍵詞抽取算法,該算法重點(diǎn)改進(jìn)了文本圖的生成和關(guān)鍵詞的加權(quán)方式。為了讓從文本中生成的文本圖盡可能地保留多的語(yǔ)義和結(jié)構(gòu)信息,該算法根據(jù)單詞在句子中的語(yǔ)義依存關(guān)系為單詞建立不同屬性的連接邊,除了最為常見(jiàn)的共現(xiàn)關(guān)系外,還通過(guò)最短依存路徑的搜索策略確立了單詞間具有的等價(jià)隸屬、功能屬性和修飾限定三種關(guān)系。在關(guān)鍵詞的加權(quán)方法上,該算法提出了一種整合單詞在文本中位置信息、參與構(gòu)成的實(shí)體概念數(shù)量和實(shí)體間建立語(yǔ)義關(guān)系的三個(gè)維度特征的權(quán)重計(jì)算指標(biāo),并與兩個(gè)基于圖的baseline算法在開(kāi)放語(yǔ)料上進(jìn)行比較,證明了該算法的優(yōu)越性。

      同時(shí),本文的研究也存在一定的局限性:首先,提出的關(guān)鍵詞抽取算法以句法解析為前提,因此無(wú)法用于缺乏句法解析工具的語(yǔ)言文本中;其次,本文僅根據(jù)當(dāng)前任務(wù)需要在公開(kāi)的論文摘要語(yǔ)料中進(jìn)行算法評(píng)估。未來(lái)的工作可以進(jìn)一步增加算法評(píng)估的語(yǔ)料類(lèi)型和baseline數(shù)量,使得算法能夠適用于更多信息檢索情境和任務(wù)。

      猜你喜歡
      語(yǔ)料語(yǔ)義權(quán)重
      權(quán)重常思“浮名輕”
      語(yǔ)言與語(yǔ)義
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      認(rèn)知范疇模糊與語(yǔ)義模糊
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
      石泉县| 隆尧县| 普定县| 穆棱市| 五寨县| 高唐县| 平阳县| 天门市| 广西| 平乐县| 莫力| 甘谷县| 青铜峡市| 黄大仙区| 西吉县| 湟中县| 太湖县| 通榆县| 乌拉特中旗| 含山县| 汾阳市| 漾濞| 富顺县| 如东县| 定州市| 嘉义县| 凤山县| 自治县| 沅陵县| 京山县| 泌阳县| 晋江市| 西和县| 兴国县| 达尔| 根河市| 巫山县| 安龙县| 石家庄市| 临桂县| 福贡县|