歐霖 趙永標
摘? 要:對新聞標注關(guān)鍵詞有助于用戶快速了解新聞內(nèi)容,也有利于新聞的分類及檢索。鑒于人工選取關(guān)鍵詞效率太低,設計并實現(xiàn)了一個基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)。該系統(tǒng)包含五個模塊:用戶登錄、用戶注冊、分詞與詞性標注、候選詞提取、關(guān)鍵詞提取。該系統(tǒng)可以輔助新聞編輯人員進行關(guān)鍵詞抽取和篩選。經(jīng)過測試,該系統(tǒng)達到了一定的準確度,而且界面友好,易于使用。
關(guān)鍵詞:TextRank;關(guān)鍵詞抽取;新聞
中圖分類號:TP391.3 ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)18-0023-04
Abstract:Tagging news with keywords helps users quickly understand the content of the news,and is also conducive to news classification and retrieval. In view of the low efficiency of manual keyword selection,a news keyword extraction system based on TextRank was designed and implemented. The system includes five modules:user login,user registration,word segmentation and part-of-speech tagging,candidate word extraction,and keyword extraction. The system can assist news editors in keyword extraction and screening. After testing,the system has reached a certain degree of accuracy,and the interface is friendly and easy to use.
Keywords:TextRank;keywords extraction;news
0? 引? 言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們獲取新聞的方式發(fā)生了很大的改變,已從電視、報紙等傳統(tǒng)媒體轉(zhuǎn)向新聞網(wǎng)站等互聯(lián)網(wǎng)媒體。新聞關(guān)鍵詞能勾勒新聞的輪廓,反映新聞的主題;同時,新聞關(guān)鍵詞也可以用于新聞的分類和檢索,因此,對新聞標注關(guān)鍵詞是十分必要的[1]。人工選取關(guān)鍵詞雖然準確性高,但效率低。為了提高效率,必須利用相關(guān)算法自動抽取新聞關(guān)鍵詞。
關(guān)鍵詞抽取方法分為有監(jiān)督和無監(jiān)督兩種。有監(jiān)督方法將關(guān)鍵詞抽取轉(zhuǎn)化為二分類問題,即首先構(gòu)造一個詞表,再針對文檔集中的每一個文檔,標注詞表中的哪些詞是該文檔的關(guān)鍵詞,然后用標注的文檔集訓練分類器。有監(jiān)督方法需要構(gòu)造詞表,標注語料,代價太大,而無監(jiān)督方法沒有這些要求,因而應用更廣泛。無監(jiān)督關(guān)鍵詞抽取算法主要有三類:基于統(tǒng)計特征的抽取算法,常用的統(tǒng)計特征是TF-IDF;基于詞圖模型的抽取算法,如TextRank算法;基于主題模型的抽取算法,如LDA[2]。其中,基于詞圖模型的抽取算法,特別是TextRank算法具有理論完備、實現(xiàn)簡單、性能優(yōu)良的特點而被廣泛應用。鑒于此,本文將其應用于新聞文本關(guān)鍵詞抽取,設計并實現(xiàn)了基于TextRank算法的新聞文本關(guān)鍵詞抽取系統(tǒng)。該系統(tǒng)可以輔助新聞編輯人員標注新聞關(guān)鍵詞,提高工作效率。
1? 關(guān)鍵詞抽取的相關(guān)技術(shù)
1.1? TextRank算法
TextRank算法的思想源于Google的PageRank算法[3]。用一個有向有權(quán)圖G=(V,E)來表示TextRank普通模型,由點集合V和邊集合E組成,E為V×V的子集。用wji表示任兩點vi,vj之間邊的權(quán)重,對于一個給定的點vi,In(vi)表示指向該點的點集合,Out(vj)表示點vi指向的點集合,點vi的權(quán)重ws定義為:
其中,d為阻尼系數(shù),取值范圍為0到1,代表從圖中某一特定點指向其余任意點的概率,一般取值為0.85[4]。
基于TextRank的關(guān)鍵詞提取步驟為:
(1)把給定的文本T按照完整句子進行分割,即:T=[S1,S2,…,Sm],其中,m為句子數(shù)量。
(2)關(guān)于每個句子Si∈T,對其進行分詞和詞性標注處理,并除去掉停用詞,只留下指定詞性的單詞,如名詞、動詞、形容詞,即Si=[S(i,1),S(i,2),…,S(i,n)]為候選關(guān)鍵詞,n為候選關(guān)鍵詞的個數(shù)。
(3)構(gòu)建候選關(guān)鍵詞圖G=(V,E),其中,V為節(jié)點集,由步驟(2)生成的候選關(guān)鍵詞組成,而后運用共現(xiàn)關(guān)系構(gòu)造任兩點之間的邊,兩個節(jié)點之間存在邊僅當它們對應的詞匯在長度為K的窗口中共現(xiàn),K為窗口大小,即最多共現(xiàn)K個單詞。其中,在這里K值的設定不同,可能導致抽取的關(guān)鍵詞可能會有所區(qū)別。
(4)根據(jù)上面的權(quán)重計算公式,迭代傳播各節(jié)點的權(quán)重,直至收斂。
(5)對節(jié)點權(quán)重進行倒序排序,從而得到最重要的T個單詞,即為關(guān)鍵詞。
1.2? 中文分詞與詞性標注
與英文不同,中文文本詞語之間沒有界限。在對中文文本進行處理前,一般需要對其進行分詞,根據(jù)具體情況還需要同時進行詞性標注。經(jīng)過多年的研究,中文分詞技術(shù)取得了很大的進展,出現(xiàn)了不少成熟的分詞軟件,例如:結(jié)巴分詞、哈工大的LTP、復旦大學的FudanNLP、北京理工大的NLPIR-ICTCLAS等。本系統(tǒng)選擇NLPIR-ICTCLAS系統(tǒng),該分詞系統(tǒng)采用層疊形馬爾科夫模型(CHMM)進行分詞,通過分層,既增加了分詞的準確性,又保證了分詞的效率。NLPIR-ICTCLAS系統(tǒng)采用北大標準/中科院標準的詞性對照表。表1展示了本系統(tǒng)涉及的名詞、動詞、副詞、形容詞的詞性對照表。
2? 基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)
2.1? 系統(tǒng)總體設計
系統(tǒng)的功能模塊圖如圖1所示。
系統(tǒng)主要包含5個功能模塊,分別是“用戶登錄”“用戶注冊”“分詞與詞性標注”“候選詞提取”“關(guān)鍵詞提取”。
系統(tǒng)啟動后,首先進入“用戶登錄”界面,如果登錄成功,即進入“分詞與詞性標注”界面,然后依次進入“候選詞提取”界面,“關(guān)鍵詞提取”界面,如果是新用戶,則首先需要注冊,然后才能登錄。系統(tǒng)的運行流程圖如圖2所示。
2.2? 系統(tǒng)詳細設計與實現(xiàn)
本軟件用Java語言編寫,包含5個界面,分別對應于5個功能模塊。其中“用戶登錄”“用戶注冊”功能與一般軟件類似,在此略過,重點介紹另外3個模塊的功能。
2.2.1? 分詞與詞性標注模塊
首先在文本框中輸入或者粘貼新聞文本,“分詞與詞性標注”模塊通過調(diào)用NLPIR-ICTCLAS漢語分詞系統(tǒng)(2016版)對待提取關(guān)鍵詞的文本進行分詞和詞性標注,并顯示結(jié)果,如圖3所示。
2.2.2? 候選詞提取模塊
“候選詞提取”模塊用于從已分詞和標注詞性的文本中挑選出候選關(guān)鍵詞。候選關(guān)鍵詞一般為名詞,也可以增加動詞,形容詞或者副詞,用戶可以根據(jù)實際情況選取,名詞必選。選擇候選關(guān)鍵詞的詞性后,點擊候選詞提取,所有候選關(guān)鍵詞即出現(xiàn)在下部文本框中,如圖4所示。
2.2.3? 關(guān)鍵詞提取模塊
“關(guān)鍵詞提取”是本軟件的核心模塊。關(guān)鍵詞提取采用TextRank算法。對于關(guān)鍵詞提取功能,需要設置兩個參數(shù),一個是TextRank算法所需要的窗口大小,另一個是關(guān)鍵詞的個數(shù)。參數(shù)設置好后,點擊“提取關(guān)鍵詞”按鈕,左邊的文本框即顯示所提取的關(guān)鍵詞以及關(guān)鍵詞的TextRank值,如圖5所示。
2.3? 軟件性能測試
為了測試本軟件對新聞文本抽取的關(guān)鍵詞的準確性,本文從鳳凰網(wǎng)新聞板塊隨機選取了10篇新聞進行測試。這些新聞均已標注了關(guān)鍵詞,以下為其中一篇新聞的部分頁面HTML代碼:
上述HTML代碼中,名稱為“keywords”的meta數(shù)據(jù)即為關(guān)鍵詞。
通過觀察,這10篇新聞的關(guān)鍵詞均為名詞,個數(shù)平均為6個?;诖?,將系統(tǒng)中三個的參數(shù)分別設置為:候選關(guān)鍵詞的詞性只選名詞,窗口大小設置為10個,關(guān)鍵詞個數(shù)設置為6個。將系統(tǒng)抽取的關(guān)鍵詞與已標注的關(guān)鍵詞進行對比,準確率為69%,即6個關(guān)鍵詞中平均有約4個屬于已標注的關(guān)鍵詞。
3? 結(jié)? 論
本文設計并實現(xiàn)了基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)。設置相關(guān)參數(shù)后,系統(tǒng)可以運用TextRank算法抽取新聞文本中的關(guān)鍵詞。通過在一定數(shù)量的實際新聞文本上進行測試,結(jié)果表明該系統(tǒng)具有較高的準確性。本系統(tǒng)采用的是經(jīng)典的TextRank算法。雖然該算法簡單高效,但也具有主題相關(guān)性不高以及忽視新詞等缺點,下一步將考慮引入改進的TextRank算法。
參考文獻:
[1] 陶潔.基于新聞文本的關(guān)鍵詞提取 [D].武漢:華中師范大學,2019.
[2] 田脈.新聞文本關(guān)鍵詞提取算法研究與實現(xiàn) [D].武漢:中南財經(jīng)政法大學,2019.
[3] MIHALCEA R,TARAU P.TextRank:Bringing Order into Texts [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing.Barcelona:Association for Computational Linguistics,2004:404-411.
[4] Together_CZ.TextRank雜談 [EB/OL].(2017-04-09).https://blog.csdn.net/together_cz/article/details/69935286.
作者簡介:歐霖(1998—),男,漢族,廣東惠州人,本科,研究方向:自然語言處理;趙永標(1980—),男,漢族,湖北洪湖人,講師,碩士,研究方向:自然語言處理。