• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于語(yǔ)義依存和外部知識(shí)庫(kù)的關(guān)鍵詞抽取

    2022-03-22 03:34:54廖光忠
    關(guān)鍵詞:語(yǔ)義

    倪 兵,廖光忠+

    (1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430081; 2.武漢科技大學(xué) 大數(shù)據(jù)科學(xué)與工程研究院,湖北 武漢 430081)

    0 引 言

    隨著互聯(lián)網(wǎng)上文本數(shù)據(jù)的大量增長(zhǎng),從文本中提取出具有核心思想的關(guān)鍵詞這一技術(shù)得到了巨大的發(fā)展,但面對(duì)網(wǎng)絡(luò)上日益繁雜的數(shù)據(jù),其效果仍有待進(jìn)一步提升[1]。在眾多的關(guān)鍵詞抽取方法中,以TextRank為代表的基于圖的方法具有簡(jiǎn)單易部署、效果不錯(cuò)、易于融合其它各種特征等優(yōu)點(diǎn),成為了近年來(lái)的研究熱點(diǎn)[2,3]。在對(duì)TextRank算法的改進(jìn)上,多數(shù)是通過(guò)改進(jìn)詞圖中節(jié)點(diǎn)的得分計(jì)算公式,從而選取出更合適的文本關(guān)鍵詞[4]。這類(lèi)方法典型的有將TF-IDF(term frequency-inverse document frequency)融合到TextRank中[5,6];在詞圖的迭代計(jì)算過(guò)程中加入詞位置和語(yǔ)義特征[7,8];將文檔中的詞頻、詞長(zhǎng)和詞性等特征融入其中[9-11]。此外,還有利用文檔主題模型將文檔集中每篇文檔的主題以概率分布的形式給出,然后據(jù)此計(jì)算候選關(guān)鍵詞的主題特征影響力[12]。在機(jī)器學(xué)習(xí)方面,有使用Word2vec進(jìn)行詞向量表征,獲取詞向量模型,通過(guò)詞向量融合了語(yǔ)義特征,優(yōu)化了TextRank中均等的概率轉(zhuǎn)移問(wèn)題[13,14]。上述方法多數(shù)還是通過(guò)基礎(chǔ)的共現(xiàn)窗口來(lái)構(gòu)建詞圖,然而在中文中,句子中相鄰的詞語(yǔ)間多數(shù)并不具備認(rèn)知上的語(yǔ)義關(guān)聯(lián),針對(duì)這方面的改進(jìn),有使用句法依存代替共現(xiàn)窗口構(gòu)建詞圖[15]。本文一方面以語(yǔ)義依存圖代替共現(xiàn)窗口構(gòu)建詞圖,相比于句法依存,能從句子的底層語(yǔ)法結(jié)構(gòu)上獲取詞語(yǔ)間更深層的語(yǔ)義聯(lián)系。同時(shí)引入規(guī)范化谷歌距離(normalized Google distance,NGD)[16]和外部領(lǐng)域詞典對(duì)候選關(guān)鍵詞加權(quán)計(jì)算得分,綜合考慮了文檔的內(nèi)外部信息。然后對(duì)獲取的關(guān)鍵詞應(yīng)用本文提出的前后向匹配算法做進(jìn)一步處理,得到的關(guān)鍵詞可讀性更好。

    1 TextRank的不足

    TextRank繼承自PageRank的思想,其將文檔中的候選關(guān)鍵詞看作是PageRank中的網(wǎng)頁(yè),將共現(xiàn)窗口內(nèi)的候選關(guān)鍵詞進(jìn)行組合構(gòu)建詞圖[17]。詞圖中的頂點(diǎn)為候選關(guān)鍵詞,邊是詞語(yǔ)與其共現(xiàn)窗口內(nèi)其它詞語(yǔ)的共現(xiàn)關(guān)系,以此來(lái)模擬PageRank中網(wǎng)頁(yè)間超鏈接的連接關(guān)系。在給候選關(guān)鍵詞打分的過(guò)程中,TextRank根據(jù)式(1)進(jìn)行多次迭代計(jì)算,獲取詞圖中各頂點(diǎn)所代表的候選關(guān)鍵詞的得分,然后選取出得分最高的前N個(gè)候選關(guān)鍵詞作為文檔的關(guān)鍵詞

    (1)

    使用TextRank對(duì)候選關(guān)鍵詞打分與PageRank對(duì)網(wǎng)頁(yè)打分的原理是一致的,然而TextRank在關(guān)鍵詞抽取過(guò)程中存在一些不足,具體表現(xiàn)在以下幾點(diǎn):

    (1)在PageRank中,如果一個(gè)網(wǎng)頁(yè)中有超鏈接指向另一個(gè)網(wǎng)頁(yè),那么就代表這兩個(gè)網(wǎng)頁(yè)具有相關(guān)性。而在Text-Rank中,是根據(jù)兩個(gè)詞語(yǔ)是否出現(xiàn)在同一個(gè)共現(xiàn)窗口內(nèi)來(lái)判斷的,但是在同一個(gè)共現(xiàn)窗口內(nèi)的詞語(yǔ)大部分并不具備任何語(yǔ)義上的相關(guān)性,僅僅只是位置上的臨近而已。

    (2)TextRank方法并未考慮不同重要性的詞語(yǔ)對(duì)最終選取文檔關(guān)鍵詞的影響[18],同時(shí)在詞圖中某條邊的權(quán)重只受到對(duì)應(yīng)兩個(gè)候選關(guān)鍵詞的共現(xiàn)頻次影響,沒(méi)有考慮其間的語(yǔ)義關(guān)聯(lián),最終選取的文檔關(guān)鍵詞受詞頻的影響很大,降低了關(guān)鍵詞抽取的正確率。

    (3)最終得到的文檔關(guān)鍵詞在可讀性上受中文分詞技術(shù)的影響很大。例如,很多中文分詞工具會(huì)將“自然語(yǔ)言處理”分割為“自然”、“語(yǔ)言”和“處理”;“關(guān)鍵詞提取”分割成了“關(guān)鍵詞”和“提取”。這導(dǎo)致最終得到的文檔關(guān)鍵詞缺乏可讀性,不具有完整的語(yǔ)義。

    2 研究方法

    2.1 詞圖構(gòu)建

    本文使用訊飛開(kāi)放平臺(tái)提供的語(yǔ)義依存圖分析對(duì)句子中各個(gè)語(yǔ)言單位間的語(yǔ)義關(guān)聯(lián)進(jìn)行分析,并將語(yǔ)義關(guān)聯(lián)以依存結(jié)構(gòu)呈現(xiàn)。語(yǔ)義依存圖分析會(huì)直接將文檔進(jìn)行分句、分詞和詞性標(biāo)注,然后對(duì)每句話(huà)中各個(gè)詞語(yǔ)構(gòu)建出語(yǔ)義結(jié)構(gòu)上的依存圖關(guān)系,以“組建中國(guó)南水北調(diào)集團(tuán)有限公司”這句話(huà)為例,其語(yǔ)義依存圖結(jié)構(gòu)如圖1所示。

    圖1 語(yǔ)義依存圖結(jié)構(gòu)

    在PageRank中,一個(gè)網(wǎng)頁(yè)中有超鏈接指向另一個(gè)網(wǎng)頁(yè),那么這兩個(gè)網(wǎng)頁(yè)在內(nèi)容上是存在關(guān)聯(lián)的。在圖1中,“組建”與除“有限公司”外的其它詞語(yǔ)并未有語(yǔ)義上的關(guān)聯(lián),而使用共現(xiàn)窗口,“組建”與其它每個(gè)詞語(yǔ)都會(huì)有一個(gè)無(wú)向邊相連。相較于共現(xiàn)窗口,語(yǔ)義依存分析可以很好描述句子中各個(gè)語(yǔ)言單位之間的語(yǔ)義關(guān)聯(lián),所構(gòu)建的有向詞圖具有認(rèn)知上的語(yǔ)義聯(lián)系,更加符合PageRank中網(wǎng)頁(yè)間通過(guò)超鏈接的指向關(guān)系,并且去除了共現(xiàn)窗口大小對(duì)最終獲取文檔關(guān)鍵詞的影響。此外,相較于句法分析,語(yǔ)義分析通過(guò)標(biāo)記句子中各個(gè)語(yǔ)言單位間的語(yǔ)義關(guān)系,可以更加直接地獲取深層的語(yǔ)義信息。

    當(dāng)前的語(yǔ)義依存關(guān)系有主要語(yǔ)義角色、事件關(guān)系和語(yǔ)義依附標(biāo)記3大類(lèi)型,前兩大類(lèi)型描述了語(yǔ)義角色間的關(guān)系。這3類(lèi)語(yǔ)義依存關(guān)系共包含71種具體的關(guān)系類(lèi)型,可以非常詳細(xì)準(zhǔn)確地描述句子中各個(gè)語(yǔ)言單位。對(duì)于關(guān)鍵詞抽取而言,主要語(yǔ)義角色和事件關(guān)系是核心,是分析句子的主要成分,而語(yǔ)義依附標(biāo)記所對(duì)應(yīng)的語(yǔ)氣等依附性詞語(yǔ)基本不會(huì)成為一個(gè)文檔的關(guān)鍵詞。因此,當(dāng)兩個(gè)詞語(yǔ)間的關(guān)系是語(yǔ)義依附標(biāo)記時(shí),就拋棄其出鏈所指向的詞語(yǔ),不將其加入詞圖中。

    在部分事件關(guān)系和主要語(yǔ)義角色中,有向圖邊的指向是以謂語(yǔ)動(dòng)詞為核心。比如,在“我送她一束花”中,其施事關(guān)系指向是“送→我”;在“國(guó)家依法宣判”中,其方式角色關(guān)系的指向是“宣判→依法”,而不是我們習(xí)慣上理解的類(lèi)似于“主→謂”這種結(jié)構(gòu)順序。但在PageRank中,如果某個(gè)網(wǎng)頁(yè)比較重要,應(yīng)該有更多的網(wǎng)頁(yè)指向它,而不是它指向更多的網(wǎng)頁(yè),因此針對(duì)這幾個(gè)特殊的關(guān)系類(lèi)型,在構(gòu)建詞圖的時(shí)候需要轉(zhuǎn)換其邊的指向順序。此外,每個(gè)句子中都包含一個(gè)根節(jié)點(diǎn)Root,其指向句子的核心成分,通常是謂語(yǔ)動(dòng)詞。

    對(duì)于中文文本而言,每句話(huà)的語(yǔ)義依存關(guān)系是獨(dú)立存在的,因此對(duì)于一篇文檔,只需要依次對(duì)其中的每句話(huà)進(jìn)行語(yǔ)義依存分析即可。本文以一個(gè)四元組來(lái)表示句子中的每個(gè)詞語(yǔ),形式為 (Wp,Ww,Wd,Wr), 其中Wp為詞語(yǔ)在句子中的位置,Ww為詞語(yǔ)本身,Wd為詞語(yǔ)在句中的語(yǔ)義依存關(guān)系所指向的另一個(gè)詞語(yǔ)位置,Wr為語(yǔ)義依存關(guān)系類(lèi)型。在構(gòu)建詞圖的過(guò)程中,以結(jié)構(gòu)體SW存儲(chǔ)句子中的各個(gè)詞語(yǔ),使用鄰接表來(lái)存儲(chǔ)整個(gè)詞圖,如圖2所示。

    圖2 詞圖的鄰接表存儲(chǔ)格式

    其中,n為文檔中總的詞語(yǔ)個(gè)數(shù),x為文檔中某個(gè)候選關(guān)鍵詞。左側(cè)第一豎列代表文檔中所有的候選關(guān)鍵詞,對(duì)于每個(gè)SWi∈n, 右側(cè)是與其具有語(yǔ)義依存關(guān)聯(lián)所指向的其它詞語(yǔ),通過(guò)鏈表相連接。

    2.2 候選關(guān)鍵詞打分

    2.2.1 規(guī)范化谷歌距離

    規(guī)范化谷歌距離(NGD)被用來(lái)計(jì)算兩個(gè)詞或短語(yǔ)的語(yǔ)義相似度,在自然語(yǔ)言中,具有相同或相似意思的兩個(gè)關(guān)鍵字在以規(guī)范化谷歌距離為單位的情況下趨向于“接近”,意思不同的兩個(gè)關(guān)鍵字則趨向于“疏遠(yuǎn)”。該算法假設(shè)若兩個(gè)詞語(yǔ)出現(xiàn)在同一個(gè)文檔中則代表兩者具有語(yǔ)義關(guān)系,因此當(dāng)兩個(gè)詞語(yǔ)出現(xiàn)在同一文檔中的次數(shù)越高,那么其語(yǔ)義相似性就更強(qiáng)

    (2)

    N是外部數(shù)據(jù)集中總的文檔數(shù)量,當(dāng)采用維基百科作為外部數(shù)據(jù)集時(shí),則為下載的詞條總數(shù);p(Vi) 可以看作是一個(gè)函數(shù),輸入詞語(yǔ)Vi, 返回?cái)?shù)據(jù)集中包含詞語(yǔ)Vi的文檔數(shù)量;p(Vi,Vj) 則是輸入兩個(gè)詞語(yǔ),返回同時(shí)包含這兩個(gè)詞語(yǔ)的文檔數(shù)量。使用式(2)計(jì)算的NGD數(shù)值范圍在零到正無(wú)窮之間,等于零代表兩個(gè)詞語(yǔ)是完全相同的,等于正無(wú)窮則代表兩個(gè)詞語(yǔ)是完全獨(dú)立的,沒(méi)有任何語(yǔ)義上的相似性。使用NGDR(Vi,Vj) 表示兩個(gè)詞語(yǔ)的NGD數(shù)值的倒數(shù)。

    本文基于維基百科這個(gè)外部知識(shí)庫(kù)來(lái)使用規(guī)范化谷歌距離度量詞語(yǔ)相似度,首先從網(wǎng)絡(luò)上下載維基百科詞條;其次對(duì)下載的每個(gè)詞條文檔去除html標(biāo)簽等內(nèi)容,只保留標(biāo)題和正文,并且對(duì)這些文檔進(jìn)行預(yù)處理,內(nèi)容包括切詞、去除停用詞等不具備實(shí)意的詞語(yǔ);最后對(duì)所有的詞語(yǔ)建立倒排索引,每個(gè)詞語(yǔ)對(duì)應(yīng)一個(gè)倒排鏈,鏈表上的內(nèi)容為包含這個(gè)詞語(yǔ)的維基百科詞條?;诘古潘饕?,可以很容易計(jì)算出任意兩個(gè)詞語(yǔ)的NGD數(shù)值。以SWi∈n來(lái)代替式(1)中的Wij, 則有式(3)

    (3)

    2.2.2 外部領(lǐng)域詞典加權(quán)

    領(lǐng)域詞典是相關(guān)領(lǐng)域內(nèi)常用詞匯的集合,對(duì)于某些文檔,尤其是專(zhuān)業(yè)性較強(qiáng)的文檔,其關(guān)鍵詞很有可能是對(duì)應(yīng)領(lǐng)域的專(zhuān)業(yè)詞匯,因此當(dāng)一個(gè)候選關(guān)鍵詞出現(xiàn)在領(lǐng)域詞典中,其成為文檔關(guān)鍵詞的概率應(yīng)更高[19]。本文使用清華大學(xué)推出的開(kāi)放領(lǐng)域詞庫(kù)作為外部領(lǐng)域詞典。對(duì)于將詞庫(kù)中的所有詞語(yǔ)存儲(chǔ)入位圖中以及查詢(xún)要抽取關(guān)鍵詞的某個(gè)文檔中的詞語(yǔ)是否處于詞庫(kù)中時(shí),借鑒布隆過(guò)濾器的思想,如圖3所示。

    圖3 存儲(chǔ)和查詢(xún)?cè)~語(yǔ)

    首先對(duì)詞庫(kù)中的每個(gè)詞語(yǔ)使用K個(gè)哈希函數(shù)求哈希值,那么會(huì)得到K個(gè)不同的哈希值,分別記作 [X1、X2、…、XK]。 然后將這K個(gè)哈希值作為位圖中的下標(biāo),對(duì)應(yīng)的 [Bitmap[X1]、Bitmap[X2]、…、Bitmap[XK]] 都設(shè)置為1。當(dāng)要查詢(xún)文檔中某個(gè)詞語(yǔ)是否處于這個(gè)詞庫(kù)中時(shí),使用同樣的K個(gè)哈希函數(shù)對(duì)這個(gè)詞語(yǔ)求K個(gè)哈希值,若這K個(gè)哈希值作為位圖中的下標(biāo)對(duì)應(yīng)的位都為1,則說(shuō)明這個(gè)文檔中的詞語(yǔ)處于詞庫(kù)中,當(dāng)有一個(gè)不為1則說(shuō)明其不處于詞庫(kù)中。該方法存在一定程度的誤判,對(duì)于存在于位圖中的詞一定可以判斷為存在,但是對(duì)于不存在于位圖中的詞也可能判斷為存在。不過(guò)實(shí)驗(yàn)中位圖的裝載因子(存在的詞條數(shù)/位圖中能容納的詞條數(shù))大小可以容忍這種誤判的概率,并且也可以通過(guò)調(diào)整哈希函數(shù)的個(gè)數(shù)、位圖的大小和存儲(chǔ)詞語(yǔ)的個(gè)數(shù)之間的比例,使得誤判的概率降到非常低。

    在給詞語(yǔ)進(jìn)行外部詞典加權(quán)的過(guò)程中,首先對(duì)每個(gè)詞語(yǔ)設(shè)置一個(gè)初值為1的λ, 之后按照式(4)依次對(duì)文檔中每個(gè)詞語(yǔ)計(jì)算

    (4)

    式中:freq(Vi) 表示詞語(yǔ)Vi在文檔中出現(xiàn)的次數(shù)。這樣在進(jìn)行外部領(lǐng)域詞典加權(quán)的同時(shí)也考慮了詞頻對(duì)文檔關(guān)鍵詞的影響。若詞語(yǔ)Vi的領(lǐng)域詞典加權(quán)得分為λi, 則其歸一化權(quán)重如式(5)所示

    (5)

    最終計(jì)算候選關(guān)鍵詞得分公式為

    (6)

    在使用式(6)的計(jì)算過(guò)程中,當(dāng)前后兩次迭代計(jì)算結(jié)果的值小于指定的閾值時(shí)判定為收斂,當(dāng)算法收斂或者迭代的次數(shù)超過(guò)設(shè)定的最大迭代次數(shù)時(shí)計(jì)算停止。計(jì)算過(guò)程中閾值取值為0.0001,最大迭代次數(shù)為200。

    2.3 補(bǔ)充關(guān)鍵詞語(yǔ)義完整性

    分詞是在文檔預(yù)處理階段進(jìn)行的,而由于目前分詞算法的不足,會(huì)導(dǎo)致將具有完整語(yǔ)義的詞語(yǔ)進(jìn)行切分,最終抽取的文檔關(guān)鍵詞也會(huì)缺乏可讀性。若最終的文檔關(guān)鍵詞不具有完整語(yǔ)義,則即使在詞圖迭代計(jì)算過(guò)程中的得分很高,也是毫無(wú)意義的,因此對(duì)最終得分TOP-N的關(guān)鍵詞做進(jìn)一步處理,使其更具有可讀性。

    本文提出一種前后向匹配的方法應(yīng)用于獲取的文檔關(guān)鍵詞中,使其更具有可讀性。對(duì)每個(gè)選取的文檔關(guān)鍵詞,具體的處理過(guò)程如下所示:

    (1)在原文檔中找到包含關(guān)鍵詞的句子集合T;

    (2)依次對(duì)T中包含的每個(gè)句子進(jìn)行分詞和詞性標(biāo)注,然后去除不包含實(shí)意的特定詞性的詞語(yǔ),包括代詞、介詞、連詞、助詞、感嘆詞和標(biāo)點(diǎn)符號(hào),得到剩下的詞語(yǔ)集合S,S是T中單個(gè)句子經(jīng)過(guò)處理后的詞語(yǔ)集合;

    (3)在句子集合T中找到關(guān)鍵詞在集合S中所在的位置,然后進(jìn)行前后向匹配;

    (4)若某個(gè)詞語(yǔ)匹配的句子數(shù)量與集合T中所有的句子數(shù)量的比值大于α(α∈0.5~1) 時(shí),則將這個(gè)詞語(yǔ)按照原有的順序附加到原關(guān)鍵詞上,組成一個(gè)新的關(guān)鍵詞。需要注意的是,當(dāng)某個(gè)詞語(yǔ)匹配率低于值α, 則該方向的匹配結(jié)束,只進(jìn)行另一方向的匹配。

    (5)對(duì)所有新的關(guān)鍵詞進(jìn)行去重處理,得到文檔最終的關(guān)鍵詞。

    本文提出的關(guān)鍵詞抽取方法總體流程如圖4所示。

    圖4 關(guān)鍵詞抽取流程

    3 實(shí)驗(yàn)結(jié)果和分析

    3.1 實(shí)驗(yàn)數(shù)據(jù)集

    實(shí)驗(yàn)數(shù)據(jù)采用在多個(gè)網(wǎng)絡(luò)新聞平臺(tái)上抓取IT、經(jīng)濟(jì)和日常社會(huì)性新聞共400篇,其中IT和經(jīng)濟(jì)各100篇,日常社會(huì)性新聞200篇。爬取的文檔格式為XML,所以需要先進(jìn)行清洗,去除標(biāo)簽只保留標(biāo)題、關(guān)鍵詞和正文內(nèi)容。由于實(shí)驗(yàn)結(jié)果嚴(yán)重依賴(lài)于新聞中標(biāo)注的關(guān)鍵詞,但是經(jīng)過(guò)觀察發(fā)現(xiàn)原有的關(guān)鍵詞并不是太準(zhǔn)確,因此本文采用多人人工交叉的方式進(jìn)行手動(dòng)標(biāo)注,為此召集數(shù)十名校內(nèi)相關(guān)專(zhuān)業(yè)的師生完成。每篇文檔提取的關(guān)鍵詞在4~6個(gè),在實(shí)驗(yàn)中按照文檔已有的關(guān)鍵詞個(gè)數(shù)動(dòng)態(tài)改變算法的關(guān)鍵詞提取數(shù)量。

    3.2 評(píng)價(jià)指標(biāo)

    關(guān)鍵詞抽取效果的評(píng)判標(biāo)準(zhǔn)采用準(zhǔn)確率P、召回率R和F1值,其計(jì)算公式為

    (7)

    (8)

    (9)

    在前后向匹配算法中,α的值對(duì)最終獲取的文檔關(guān)鍵詞有較大的影響。若該值太低,則可能將一個(gè)本不需要補(bǔ)充語(yǔ)義完整性的關(guān)鍵詞進(jìn)行了補(bǔ)充;若該值太高,則又可能將一個(gè)需要補(bǔ)充語(yǔ)義完整性的關(guān)鍵詞忽略了,因此,α的取值對(duì)前后向匹配算法至關(guān)重要。經(jīng)過(guò)大量的數(shù)據(jù)實(shí)驗(yàn),得出了以下結(jié)果:根據(jù)表1,當(dāng)α取值為0.8時(shí),召回率最大,效果最好。

    表1 α取值對(duì)召回率的影響

    3.3 實(shí)驗(yàn)結(jié)果和分析

    對(duì)同一篇文檔進(jìn)行是否應(yīng)用前后向匹配算法的關(guān)鍵詞可讀性效果對(duì)比,以展示本文所提出的改進(jìn)關(guān)鍵詞可讀性算法的效果。實(shí)驗(yàn)使用了一篇主題為“新時(shí)代中國(guó)共產(chǎn)黨的歷史使命”的文檔,字?jǐn)?shù)1528,以及一篇主題為“中國(guó)高速發(fā)展”,字?jǐn)?shù)1906,各抽取5個(gè)文檔關(guān)鍵詞,其對(duì)比結(jié)果見(jiàn)表2。

    表2 關(guān)鍵詞可讀性對(duì)比

    為了說(shuō)明本文所提出方法的有效性,選取了4個(gè)已有的無(wú)監(jiān)督基于圖的關(guān)鍵詞提取方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表3。

    表3 實(shí)驗(yàn)結(jié)果對(duì)比

    TFIDF-TextRank是結(jié)合了TF-IDF和TextRank兩個(gè)傳統(tǒng)方法,將TFIDF融入TextRank中改進(jìn)詞圖中邊的權(quán)重轉(zhuǎn)移;EPRank是融合了詞位置和詞向量Word2vec,對(duì)TextRank算法進(jìn)行加權(quán),改進(jìn)詞圖迭代過(guò)程中的詞打分公式。這兩個(gè)方法在準(zhǔn)確率、召回率和F1值上具有一定的提升,但總體來(lái)說(shuō)優(yōu)化的效果并不明顯。根據(jù)實(shí)驗(yàn)數(shù)據(jù)對(duì)比,本文提出的方法明顯優(yōu)于其它4個(gè)關(guān)鍵詞提取方法,這驗(yàn)證使用語(yǔ)義依存分析代替共現(xiàn)窗口以及借助外部知識(shí)庫(kù)特征進(jìn)行加權(quán)的方式是有效的。

    實(shí)驗(yàn)發(fā)現(xiàn),文中的方法在100篇IT新聞和100篇經(jīng)濟(jì)新聞中關(guān)鍵詞抽取的效果好于在日常社會(huì)性新聞中抽取的效果,考慮到外部領(lǐng)域詞典的影響,在專(zhuān)業(yè)性更強(qiáng)的文檔下外部領(lǐng)域詞典能發(fā)揮的作用更大,因此這種情況是合理的。另外,此方法在構(gòu)建詞圖的過(guò)程中沒(méi)有消除停用詞或特定詞性的詞語(yǔ),而是在語(yǔ)義依存分析結(jié)束后去除語(yǔ)義依附標(biāo)記類(lèi)關(guān)系的詞匯,這種做法更符合PageRank的思想,避免得到的關(guān)鍵詞結(jié)果受文檔信息不完整的影響。

    4 結(jié)束語(yǔ)

    本文使用語(yǔ)義依存關(guān)系代替共現(xiàn)窗口構(gòu)建詞圖,使用基于維基百科的規(guī)范化谷歌距離以及引入外部領(lǐng)域詞典來(lái)給候選關(guān)鍵詞打分,并提出了前后向匹配算法來(lái)提高關(guān)鍵詞的可讀性。實(shí)驗(yàn)結(jié)果表明,文中所使用的方法顯著提升了關(guān)鍵詞抽取的效果,相較于TextRank方法,在準(zhǔn)確率、召回率和F1值上分別提升了18.6%、19.7%和17.1%,并且實(shí)驗(yàn)過(guò)程無(wú)需受到各種參數(shù)的制約,實(shí)現(xiàn)簡(jiǎn)單。此外,根據(jù)表3的對(duì)比可知,對(duì)抽取的文檔關(guān)鍵詞應(yīng)用于前后向匹配算法能較好提升關(guān)鍵詞的可讀性,使其表達(dá)的語(yǔ)義信息更完整。接下來(lái)的工作是融合其它語(yǔ)義和統(tǒng)計(jì)特征來(lái)繼續(xù)改進(jìn)詞圖中節(jié)點(diǎn)的打分公式,同時(shí)進(jìn)一步改善關(guān)鍵詞可讀性問(wèn)題。

    猜你喜歡
    語(yǔ)義
    為什么字看久了就不認(rèn)識(shí)了
    語(yǔ)言與語(yǔ)義
    “社會(huì)”一詞的語(yǔ)義流動(dòng)與新陳代謝
    “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
    “吃+NP”的語(yǔ)義生成機(jī)制研究
    “V+了+NP1+NP2”中V的語(yǔ)義指向簡(jiǎn)談
    認(rèn)知范疇模糊與語(yǔ)義模糊
    “V+X+算+X”構(gòu)式的語(yǔ)義功能及語(yǔ)義網(wǎng)絡(luò)——兼及與“V+X+是+X”構(gòu)式的轉(zhuǎn)換
    “熊孩子”語(yǔ)義新探
    “深+N季”組配的認(rèn)知語(yǔ)義分析
    久久av网站| 少妇的丰满在线观看| 黑丝袜美女国产一区| 在线观看人妻少妇| 飞空精品影院首页| 欧美日韩视频精品一区| 亚洲美女搞黄在线观看| 人人澡人人妻人| 亚洲人成77777在线视频| 极品少妇高潮喷水抽搐| 美女xxoo啪啪120秒动态图| 国产精品三级大全| 在线观看三级黄色| 一级毛片 在线播放| 亚洲精品视频女| av网站免费在线观看视频| 亚洲经典国产精华液单| 国产探花极品一区二区| 亚洲第一青青草原| 欧美+日韩+精品| 一级毛片黄色毛片免费观看视频| 一级片免费观看大全| 欧美精品一区二区免费开放| 免费不卡的大黄色大毛片视频在线观看| 午夜久久久在线观看| 国产精品女同一区二区软件| 欧美日韩国产mv在线观看视频| 亚洲国产色片| 国产在线一区二区三区精| 在线观看免费视频网站a站| 亚洲久久久国产精品| 色网站视频免费| 亚洲国产精品一区二区三区在线| 视频在线观看一区二区三区| 日韩大片免费观看网站| 国产成人免费无遮挡视频| 亚洲一区中文字幕在线| 女人高潮潮喷娇喘18禁视频| 欧美激情 高清一区二区三区| 老司机影院毛片| 亚洲av中文av极速乱| 极品人妻少妇av视频| 国产精品欧美亚洲77777| 91在线精品国自产拍蜜月| 最近手机中文字幕大全| 久久精品久久久久久久性| 老熟女久久久| 中文字幕人妻丝袜一区二区 | 成人18禁高潮啪啪吃奶动态图| 亚洲美女视频黄频| 亚洲少妇的诱惑av| 下体分泌物呈黄色| 亚洲欧美清纯卡通| 亚洲,一卡二卡三卡| 美女xxoo啪啪120秒动态图| 成年女人毛片免费观看观看9 | 五月伊人婷婷丁香| 免费久久久久久久精品成人欧美视频| 欧美日韩国产mv在线观看视频| 亚洲成人一二三区av| 国产免费又黄又爽又色| 国产成人av激情在线播放| 亚洲婷婷狠狠爱综合网| 在线观看人妻少妇| 一级片免费观看大全| 男女国产视频网站| 欧美亚洲日本最大视频资源| 国产白丝娇喘喷水9色精品| 最新中文字幕久久久久| 春色校园在线视频观看| 80岁老熟妇乱子伦牲交| 亚洲人成电影观看| 亚洲,一卡二卡三卡| 如何舔出高潮| 99国产精品免费福利视频| 在线看a的网站| 久久精品国产自在天天线| 熟女少妇亚洲综合色aaa.| 久久 成人 亚洲| 韩国av在线不卡| 日日啪夜夜爽| 国产高清不卡午夜福利| 超色免费av| 精品福利永久在线观看| 日韩制服丝袜自拍偷拍| 日韩视频在线欧美| 国产av一区二区精品久久| 宅男免费午夜| 蜜桃在线观看..| 十八禁网站网址无遮挡| 欧美最新免费一区二区三区| 欧美精品人与动牲交sv欧美| 亚洲精品aⅴ在线观看| 99国产综合亚洲精品| 亚洲欧美一区二区三区黑人 | 亚洲av成人精品一二三区| 免费在线观看黄色视频的| 性少妇av在线| 国产精品亚洲av一区麻豆 | 国产午夜精品一二区理论片| 精品国产一区二区三区四区第35| 亚洲av在线观看美女高潮| 丝袜喷水一区| 下体分泌物呈黄色| 在线观看www视频免费| 中文字幕亚洲精品专区| 国产精品国产三级国产专区5o| 少妇熟女欧美另类| 在线观看www视频免费| 18禁观看日本| 亚洲国产精品成人久久小说| 国产精品久久久久成人av| 午夜福利影视在线免费观看| 黄网站色视频无遮挡免费观看| 丝袜在线中文字幕| av女优亚洲男人天堂| 在线观看免费高清a一片| av电影中文网址| 9191精品国产免费久久| 午夜福利视频精品| 日韩中文字幕视频在线看片| 国产亚洲午夜精品一区二区久久| 久久久精品国产亚洲av高清涩受| 亚洲欧洲国产日韩| 七月丁香在线播放| av网站在线播放免费| 多毛熟女@视频| 国产综合精华液| 男女高潮啪啪啪动态图| 免费av中文字幕在线| 在线观看国产h片| 欧美日韩视频高清一区二区三区二| 精品卡一卡二卡四卡免费| 免费日韩欧美在线观看| 亚洲精品在线美女| 亚洲精品一区蜜桃| 国产精品国产av在线观看| 久久鲁丝午夜福利片| 国产精品.久久久| 十八禁网站网址无遮挡| 在线精品无人区一区二区三| 精品酒店卫生间| 黄色配什么色好看| 亚洲男人天堂网一区| 亚洲国产精品成人久久小说| 国产成人免费无遮挡视频| 丰满迷人的少妇在线观看| 青春草亚洲视频在线观看| 我的亚洲天堂| 王馨瑶露胸无遮挡在线观看| 一二三四在线观看免费中文在| 国产 精品1| 国产精品熟女久久久久浪| 成人二区视频| 日日啪夜夜爽| 久久精品国产鲁丝片午夜精品| 亚洲av在线观看美女高潮| 久久精品久久久久久久性| 日韩 亚洲 欧美在线| 欧美 亚洲 国产 日韩一| 午夜日韩欧美国产| 超碰成人久久| 精品人妻熟女毛片av久久网站| 亚洲第一青青草原| 久久久久国产网址| 伦精品一区二区三区| 亚洲经典国产精华液单| 永久免费av网站大全| 香蕉国产在线看| 纵有疾风起免费观看全集完整版| 成人手机av| 性少妇av在线| 一本—道久久a久久精品蜜桃钙片| 成人国语在线视频| 免费不卡的大黄色大毛片视频在线观看| 亚洲综合色网址| 日韩一卡2卡3卡4卡2021年| 日韩不卡一区二区三区视频在线| 亚洲成人av在线免费| 免费高清在线观看日韩| 亚洲精品一区蜜桃| 国产日韩一区二区三区精品不卡| 国产精品一国产av| 制服诱惑二区| 国产福利在线免费观看视频| 边亲边吃奶的免费视频| 亚洲精品视频女| 波多野结衣一区麻豆| 99香蕉大伊视频| 男的添女的下面高潮视频| 伦精品一区二区三区| 日韩在线高清观看一区二区三区| 午夜影院在线不卡| 国产爽快片一区二区三区| 欧美 日韩 精品 国产| 香蕉精品网在线| 国产精品久久久久久精品古装| 麻豆精品久久久久久蜜桃| 少妇人妻精品综合一区二区| 卡戴珊不雅视频在线播放| 色视频在线一区二区三区| av在线播放精品| 两个人看的免费小视频| 国产精品嫩草影院av在线观看| 不卡av一区二区三区| tube8黄色片| 叶爱在线成人免费视频播放| 99热网站在线观看| 一区二区三区四区激情视频| 少妇熟女欧美另类| 热99久久久久精品小说推荐| 日韩,欧美,国产一区二区三区| 一区二区三区精品91| 有码 亚洲区| 高清欧美精品videossex| 日韩中文字幕欧美一区二区 | 美女高潮到喷水免费观看| av有码第一页| 日本av免费视频播放| 亚洲国产欧美在线一区| 国产成人免费无遮挡视频| 侵犯人妻中文字幕一二三四区| 少妇精品久久久久久久| 最近中文字幕2019免费版| 国产欧美日韩综合在线一区二区| av网站在线播放免费| 2021少妇久久久久久久久久久| 亚洲国产精品国产精品| 久久精品人人爽人人爽视色| 国产极品粉嫩免费观看在线| 久久久久久久精品精品| 国产日韩欧美视频二区| 日韩精品免费视频一区二区三区| 国产成人精品久久二区二区91 | 91午夜精品亚洲一区二区三区| 国产一区亚洲一区在线观看| 亚洲国产色片| 久久久精品免费免费高清| 午夜日本视频在线| 黑人欧美特级aaaaaa片| 啦啦啦啦在线视频资源| 人人妻人人澡人人爽人人夜夜| 国产成人精品婷婷| 精品少妇一区二区三区视频日本电影 | 搡老乐熟女国产| 久久精品人人爽人人爽视色| freevideosex欧美| 国产高清国产精品国产三级| 一二三四在线观看免费中文在| 精品一品国产午夜福利视频| 日韩伦理黄色片| 久久久久国产精品人妻一区二区| av.在线天堂| 一级毛片我不卡| 日韩一区二区视频免费看| 少妇人妻 视频| 建设人人有责人人尽责人人享有的| 国产熟女欧美一区二区| 有码 亚洲区| 亚洲少妇的诱惑av| 欧美bdsm另类| 香蕉精品网在线| 亚洲一区二区三区欧美精品| 午夜福利影视在线免费观看| 女性生殖器流出的白浆| 国产成人av激情在线播放| 日韩精品免费视频一区二区三区| 国产一区亚洲一区在线观看| 精品亚洲成国产av| 亚洲美女视频黄频| 999久久久国产精品视频| 18在线观看网站| 99久国产av精品国产电影| 成人免费观看视频高清| 成人影院久久| 91成人精品电影| av免费观看日本| 亚洲欧美日韩另类电影网站| 国产精品 国内视频| 一本大道久久a久久精品| 欧美激情极品国产一区二区三区| 日本av手机在线免费观看| 日韩欧美一区视频在线观看| 大码成人一级视频| 丁香六月天网| 亚洲国产av影院在线观看| 亚洲欧美精品综合一区二区三区 | 一级毛片 在线播放| 午夜日韩欧美国产| 国产精品亚洲av一区麻豆 | 男女下面插进去视频免费观看| 中文字幕另类日韩欧美亚洲嫩草| 日韩av免费高清视频| 晚上一个人看的免费电影| 国产成人精品在线电影| 久久久国产一区二区| 午夜日韩欧美国产| 一个人免费看片子| 美女大奶头黄色视频| 国产日韩一区二区三区精品不卡| 另类精品久久| 亚洲成av片中文字幕在线观看 | 欧美精品av麻豆av| 人妻少妇偷人精品九色| 热99久久久久精品小说推荐| 99香蕉大伊视频| 免费在线观看视频国产中文字幕亚洲 | 欧美亚洲日本最大视频资源| 岛国毛片在线播放| 日本vs欧美在线观看视频| 777久久人妻少妇嫩草av网站| 人人妻人人爽人人添夜夜欢视频| 又大又黄又爽视频免费| 国语对白做爰xxxⅹ性视频网站| 青春草视频在线免费观看| 黄片无遮挡物在线观看| 国产成人av激情在线播放| 久久99热这里只频精品6学生| 久久久久久久久免费视频了| 性色av一级| 亚洲,欧美精品.| 国产熟女午夜一区二区三区| 午夜福利视频精品| 天天躁狠狠躁夜夜躁狠狠躁| 日韩人妻精品一区2区三区| 丰满迷人的少妇在线观看| 欧美 日韩 精品 国产| videosex国产| 久久这里只有精品19| 不卡av一区二区三区| 久久av网站| av片东京热男人的天堂| 人妻系列 视频| 亚洲成色77777| 亚洲精品国产一区二区精华液| 日韩一区二区三区影片| 欧美激情极品国产一区二区三区| 综合色丁香网| 在线精品无人区一区二区三| 美女xxoo啪啪120秒动态图| 亚洲视频免费观看视频| 久久ye,这里只有精品| 两个人免费观看高清视频| 欧美日韩亚洲国产一区二区在线观看 | 国产精品成人在线| 蜜桃国产av成人99| 欧美日韩成人在线一区二区| 啦啦啦啦在线视频资源| 国产一区二区三区av在线| 韩国av在线不卡| 亚洲av国产av综合av卡| 国产精品国产三级国产专区5o| 国产黄色免费在线视频| 在线观看www视频免费| 大香蕉久久成人网| 黄色 视频免费看| 午夜av观看不卡| 丰满饥渴人妻一区二区三| 国产精品国产三级专区第一集| 欧美精品亚洲一区二区| 日韩av在线免费看完整版不卡| av女优亚洲男人天堂| 国产女主播在线喷水免费视频网站| www日本在线高清视频| 你懂的网址亚洲精品在线观看| 人妻人人澡人人爽人人| 午夜福利在线观看免费完整高清在| av电影中文网址| 国产av码专区亚洲av| 丝袜美足系列| 欧美日韩一区二区视频在线观看视频在线| 热99国产精品久久久久久7| 免费观看av网站的网址| 亚洲欧美中文字幕日韩二区| 亚洲精品日韩在线中文字幕| 青春草国产在线视频| 亚洲精品久久久久久婷婷小说| 精品少妇黑人巨大在线播放| 天天躁夜夜躁狠狠久久av| 在线观看免费高清a一片| 免费在线观看完整版高清| 国产精品亚洲av一区麻豆 | av在线播放精品| 男女无遮挡免费网站观看| 亚洲av成人精品一二三区| 韩国av在线不卡| 永久网站在线| 91精品国产国语对白视频| 18+在线观看网站| 欧美日韩亚洲国产一区二区在线观看 | 日韩一本色道免费dvd| a 毛片基地| 日韩av在线免费看完整版不卡| 成年人午夜在线观看视频| 亚洲国产日韩一区二区| 精品久久久久久电影网| 高清黄色对白视频在线免费看| 亚洲欧洲日产国产| 狠狠精品人妻久久久久久综合| 欧美xxⅹ黑人| 热re99久久国产66热| 亚洲人成网站在线观看播放| 日韩三级伦理在线观看| 中文字幕亚洲精品专区| 亚洲人成电影观看| 国产片特级美女逼逼视频| 黑丝袜美女国产一区| 国产在视频线精品| 狠狠婷婷综合久久久久久88av| 欧美国产精品va在线观看不卡| 天天操日日干夜夜撸| 免费黄色在线免费观看| 国产精品成人在线| 自线自在国产av| 日日撸夜夜添| 国产又爽黄色视频| 久久ye,这里只有精品| 欧美+日韩+精品| 免费观看无遮挡的男女| 在线天堂最新版资源| 超碰成人久久| 18在线观看网站| 婷婷成人精品国产| 亚洲av成人精品一二三区| 国产野战对白在线观看| 国产精品三级大全| 国产精品二区激情视频| 精品国产国语对白av| 制服丝袜香蕉在线| 久久久久国产精品人妻一区二区| 亚洲天堂av无毛| 18禁观看日本| 久久久久国产一级毛片高清牌| 久热这里只有精品99| 熟女少妇亚洲综合色aaa.| 国产精品麻豆人妻色哟哟久久| 成人国产麻豆网| 美女视频免费永久观看网站| 亚洲欧美色中文字幕在线| 午夜老司机福利剧场| 国产在线视频一区二区| 中国国产av一级| 不卡视频在线观看欧美| 午夜91福利影院| 久久99一区二区三区| 一级a爱视频在线免费观看| 久久精品亚洲av国产电影网| 久久精品国产亚洲av天美| 一本色道久久久久久精品综合| 一区福利在线观看| 久久久久久久精品精品| 国产有黄有色有爽视频| 少妇 在线观看| 哪个播放器可以免费观看大片| 国产爽快片一区二区三区| 一本色道久久久久久精品综合| 人妻 亚洲 视频| 国产一区二区 视频在线| 欧美激情极品国产一区二区三区| 欧美 亚洲 国产 日韩一| 国产免费福利视频在线观看| 建设人人有责人人尽责人人享有的| 国产欧美日韩综合在线一区二区| 巨乳人妻的诱惑在线观看| 久久久久人妻精品一区果冻| 五月开心婷婷网| 不卡av一区二区三区| freevideosex欧美| 久久人人97超碰香蕉20202| 成人国语在线视频| 宅男免费午夜| 99九九在线精品视频| 午夜福利网站1000一区二区三区| 亚洲成人一二三区av| 亚洲伊人久久精品综合| 午夜福利一区二区在线看| 免费观看性生交大片5| 在线天堂最新版资源| 国产伦理片在线播放av一区| 大片电影免费在线观看免费| 中文字幕人妻丝袜一区二区 | 免费日韩欧美在线观看| 国产精品成人在线| videos熟女内射| 黑人猛操日本美女一级片| 国产又色又爽无遮挡免| 免费观看无遮挡的男女| 国产成人精品无人区| 一区二区三区激情视频| 国产成人免费观看mmmm| 80岁老熟妇乱子伦牲交| 黄色毛片三级朝国网站| 天天操日日干夜夜撸| 婷婷成人精品国产| 久久久久视频综合| 人妻一区二区av| 欧美日韩国产mv在线观看视频| 伊人亚洲综合成人网| 欧美 日韩 精品 国产| 中文字幕色久视频| 国产精品二区激情视频| 99久久精品国产国产毛片| 亚洲av国产av综合av卡| 亚洲伊人色综图| 亚洲欧洲日产国产| 日韩熟女老妇一区二区性免费视频| 国产片特级美女逼逼视频| 波多野结衣一区麻豆| 欧美精品高潮呻吟av久久| 中文字幕最新亚洲高清| 久久久久久久久久人人人人人人| 午夜91福利影院| 在线天堂最新版资源| av免费在线看不卡| 欧美日韩精品网址| 一级片免费观看大全| 午夜激情av网站| 日韩一本色道免费dvd| 精品少妇一区二区三区视频日本电影 | 一二三四在线观看免费中文在| 精品人妻偷拍中文字幕| 下体分泌物呈黄色| 国产福利在线免费观看视频| 成年人午夜在线观看视频| 交换朋友夫妻互换小说| 9热在线视频观看99| 1024视频免费在线观看| 青春草国产在线视频| 日本av免费视频播放| 女的被弄到高潮叫床怎么办| 如日韩欧美国产精品一区二区三区| 欧美成人午夜精品| 国产黄频视频在线观看| 久热久热在线精品观看| 日韩伦理黄色片| 精品亚洲乱码少妇综合久久| 七月丁香在线播放| 午夜福利视频在线观看免费| 日韩中文字幕视频在线看片| 久久久a久久爽久久v久久| 最新中文字幕久久久久| 国产深夜福利视频在线观看| 性少妇av在线| 91成人精品电影| 亚洲av男天堂| av在线老鸭窝| 国产亚洲欧美精品永久| 成年动漫av网址| 亚洲精品国产一区二区精华液| 日韩一区二区视频免费看| 欧美另类一区| 国产成人午夜福利电影在线观看| 亚洲av电影在线观看一区二区三区| 亚洲国产精品999| 久久97久久精品| 免费高清在线观看日韩| 久久精品国产综合久久久| 99精国产麻豆久久婷婷| 欧美 亚洲 国产 日韩一| 成人毛片a级毛片在线播放| 九色亚洲精品在线播放| 亚洲精品,欧美精品| 中文字幕制服av| 欧美亚洲 丝袜 人妻 在线| 欧美精品亚洲一区二区| 黄片无遮挡物在线观看| 久久国产精品男人的天堂亚洲| 国产av国产精品国产| 日韩av不卡免费在线播放| 伊人久久国产一区二区| 在线观看国产h片| 亚洲第一区二区三区不卡| 晚上一个人看的免费电影| 国产精品三级大全| 黑丝袜美女国产一区| 热re99久久精品国产66热6| 啦啦啦在线观看免费高清www| 国产一区二区三区综合在线观看| 97人妻天天添夜夜摸| 精品一区二区免费观看| 伦精品一区二区三区| 久久久久网色| 国产一区二区在线观看av| 国产毛片在线视频| 99久国产av精品国产电影| 国产欧美日韩综合在线一区二区| 国产又色又爽无遮挡免| 99久久精品国产国产毛片| 少妇被粗大猛烈的视频| 久久久欧美国产精品| 人妻人人澡人人爽人人| 欧美人与性动交α欧美精品济南到 | 久久精品人人爽人人爽视色| 午夜激情av网站| 国产97色在线日韩免费| 在线天堂中文资源库| 侵犯人妻中文字幕一二三四区| 成人国语在线视频| 欧美激情极品国产一区二区三区| 亚洲五月色婷婷综合| av又黄又爽大尺度在线免费看| 女人久久www免费人成看片| 麻豆精品久久久久久蜜桃| 成年女人毛片免费观看观看9 | 国产野战对白在线观看| 91在线精品国自产拍蜜月| 日韩人妻精品一区2区三区| 久久久国产欧美日韩av| 日日爽夜夜爽网站| 超色免费av| 日韩精品免费视频一区二区三区| 亚洲av电影在线观看一区二区三区| 性高湖久久久久久久久免费观看| 亚洲四区av| 国产极品天堂在线|