關(guān)鍵詞提取是文本挖掘領(lǐng)域中的核心技術(shù)之一,然而在大多數(shù)關(guān)鍵詞提取方法中尚沒(méi)有一種針對(duì)政策文本關(guān)鍵詞提取的算法。本文對(duì)比分析了兩種普遍用于中文文本關(guān)鍵詞提取的方法,并結(jié)合政策文本自身具有的成文特征提出一種基于共現(xiàn)詞的政策文本關(guān)鍵詞提取方法。經(jīng)實(shí)驗(yàn)驗(yàn)證該方法在政策文本關(guān)鍵詞提取方面比其他兩種算法性能更好,抽取的關(guān)鍵詞基本符合實(shí)際需求。
【關(guān)鍵詞】關(guān)鍵詞提取 詞頻統(tǒng)計(jì) 詞共現(xiàn) 位置信息
1 引言
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,大數(shù)據(jù)時(shí)代來(lái)臨,各種文本信息迅速增加。面對(duì)不斷更新且數(shù)據(jù)量巨大的文本數(shù)據(jù),人們需要大量時(shí)間去搜索自己關(guān)注的內(nèi)容。關(guān)鍵詞在一定程度上概括了一篇文章的主題和內(nèi)容。通過(guò)關(guān)鍵詞也可以方便的將文本信息進(jìn)行分類,提高查閱文獻(xiàn)的效率。
目前文本關(guān)鍵詞抽取方法大致分為三類:基于統(tǒng)計(jì)信息的關(guān)鍵詞提取,基于詞相關(guān)性的關(guān)鍵詞提取,基于語(yǔ)義的關(guān)鍵詞提取。TF-IDF算法是目前普遍被采用的基于統(tǒng)計(jì)信息的關(guān)鍵詞提取算法,但該方法需要對(duì)每個(gè)候選詞進(jìn)行詞頻統(tǒng)計(jì),影響提取效率。而且該方法可能將低頻詞錯(cuò)選成關(guān)鍵詞;詞共現(xiàn)是基于詞語(yǔ)相關(guān)性的關(guān)鍵詞提取的一種。根據(jù)詞共現(xiàn)模型,幾個(gè)詞語(yǔ)經(jīng)常在同一窗口單元中出現(xiàn)多次,則他們?cè)谝欢ǔ潭壬媳磉_(dá)了該文檔的語(yǔ)義信息,能進(jìn)一步夠表達(dá)作者的主題思想。但是這種方法會(huì)導(dǎo)致關(guān)鍵詞提取單一化;基于語(yǔ)義的關(guān)鍵詞提取方法一般通過(guò)詞語(yǔ)間的語(yǔ)義相似度來(lái)構(gòu)建詞語(yǔ)網(wǎng)絡(luò)并結(jié)合詞典進(jìn)行關(guān)鍵詞提取,但是由于一般用于關(guān)鍵詞提取的詞典都具有一般性,在針對(duì)特定的領(lǐng)域文本關(guān)鍵詞提取時(shí)效率不高。
本文以詞頻統(tǒng)計(jì)及詞共現(xiàn)為基礎(chǔ)結(jié)合政策文本本身具有的特征提出一種適合政策文本關(guān)鍵詞提取的方法。
2 關(guān)鍵詞提取算法
2.1 TF-IDF
TF-IDF是經(jīng)典的基于統(tǒng)計(jì)的關(guān)鍵詞提取算法。通過(guò)TF-IDF計(jì)算出詞t在文本D中的權(quán)重來(lái)表示其重要程度,按權(quán)重大小排列取權(quán)重較大的一些詞作為關(guān)鍵詞。權(quán)重W計(jì)算公式如下:
2.2 詞共現(xiàn)模型
該類算法是建立在詞頻統(tǒng)計(jì)算法的基礎(chǔ)上,將詞語(yǔ)及其語(yǔ)義關(guān)系映射到詞語(yǔ)共現(xiàn)圖上,利用在詞共現(xiàn)圖上形成的主題信息和不同主題之間的連接特征信息,自動(dòng)的提取文檔中的主題詞,主要目的是找出一些非高頻并且對(duì)主題貢獻(xiàn)大的詞作為關(guān)鍵詞。詞共現(xiàn)算法是建立在詞頻統(tǒng)計(jì)算法的基礎(chǔ)之上,自動(dòng)的提取文檔中的主題詞,主要目的是找出一些非高頻并且對(duì)主題貢獻(xiàn)大的詞作為關(guān)鍵詞。
在自然語(yǔ)言文本中普遍存在詞共現(xiàn)現(xiàn)象,而在特定的某一類文本中這種現(xiàn)象更加明顯。詞共現(xiàn)即某些相關(guān)詞匯會(huì)出現(xiàn)在一定的文本范圍內(nèi),本文將該范圍規(guī)定為一篇文章內(nèi),相關(guān)詞匯比單個(gè)高頻詞匯更具有代表性,更能代表文章的內(nèi)容和思想。在文本集中,任意的兩個(gè)詞多次出現(xiàn)在多個(gè)文本范圍內(nèi)都可被認(rèn)定為共現(xiàn)詞,詞條t1與詞條t2可組成共現(xiàn)詞對(duì)(t1, t2)?,F(xiàn)在我們引入共現(xiàn)度來(lái)評(píng)價(jià)詞條t1與詞條t2的語(yǔ)義相關(guān)性。共現(xiàn)詞對(duì)的相關(guān)性越大就越能表示該共現(xiàn)詞對(duì)在文章中越重要。共現(xiàn)詞對(duì)(t1, t2)的共現(xiàn)度計(jì)算公式如下:
3 基于共現(xiàn)詞的政策文本關(guān)鍵詞提取方法
通過(guò)詞頻統(tǒng)計(jì)得到的關(guān)鍵詞有一定程度的偏差,很多高頻詞匯對(duì)文章的表述沒(méi)有實(shí)質(zhì)性意義,可以通過(guò)同現(xiàn)詞找出一些低頻卻具有代表性的詞匯。然而在計(jì)算共現(xiàn)度時(shí),兩個(gè)加權(quán)系數(shù)α和β的取值至關(guān)重要。目前一般的取值是α=β=0.5,這樣并不具有針對(duì)性。
本文通過(guò)大量觀察政策文本成文規(guī)律得到以下幾點(diǎn)特征來(lái)具體調(diào)整共現(xiàn)度計(jì)算公式中系數(shù)的值。下面給出從待測(cè)樣本集中隨機(jī)抽取的一篇政策文本的截圖如圖1所示。
(1)在一般文本中很少有類似政策文本章節(jié)體的結(jié)構(gòu),很多政策文本的主題內(nèi)容會(huì)在標(biāo)題(包含二級(jí)及以下標(biāo)題)內(nèi)得到有效概括,因此我們規(guī)定在分別計(jì)算關(guān)鍵詞t1,t2的條件共現(xiàn)度時(shí),計(jì)算出t1,t2和標(biāo)題Title的相似度sim1,sim2,相似度算法使用Jaro-Winkler Distance算法。關(guān)鍵詞與標(biāo)題相似度越高越具有代表性。
(2)根據(jù)政策文本通常會(huì)在首段或文章前部總結(jié)提出本文主要思想,所以我們把關(guān)鍵詞t1,t2距離文章開(kāi)始的字符數(shù)記錄下來(lái)即d1,d2。距離計(jì)算以關(guān)鍵詞在文章中第一次出現(xiàn)的位置為準(zhǔn)。即d越大,關(guān)鍵詞t離文章首段或前部越遠(yuǎn)越不具有代表性。
根據(jù)以上兩點(diǎn)可取,。這樣可將更具有代表性的共現(xiàn)詞對(duì)提取出來(lái)。則公式(2)可改進(jìn)為:
政策文本關(guān)鍵詞提取具體分四大模塊即文本預(yù)處理模塊,通過(guò)詞頻統(tǒng)計(jì)計(jì)算權(quán)重模塊,共現(xiàn)詞對(duì)共現(xiàn)度計(jì)算模塊,關(guān)鍵詞提取模塊。關(guān)鍵詞提取具體步驟如下:
(1)文本預(yù)處理模塊:將文本集使用分詞器進(jìn)行分詞得到分詞詞庫(kù),并根據(jù)停用詞庫(kù)自動(dòng)過(guò)濾去除掉一些常見(jiàn)的無(wú)意義的虛詞和名次等。本文使用的分詞器是IK Analyer分詞器,IK Analyer是一款開(kāi)源的,基于java語(yǔ)言開(kāi)發(fā)的輕量級(jí)中文分詞包,可以有效的實(shí)現(xiàn)簡(jiǎn)單的分詞歧義排除等功能。停用詞典采用“哈工大停用詞庫(kù)”。
(2)詞頻統(tǒng)計(jì)模塊:首先對(duì)詞匯進(jìn)行詞頻統(tǒng)計(jì),并記錄對(duì)應(yīng)的文章及相應(yīng)詞條的信息,如在文章中所處位置d1,d2和高頻詞匯與該篇文章標(biāo)題的相似度sim1,sim2。本文取每篇文本中出現(xiàn)兩次及以上的詞條進(jìn)行權(quán)重計(jì)算得到帶選詞庫(kù)K,并將處理后的詞匯按權(quán)重高低排列。
(3)共現(xiàn)詞關(guān)鍵度計(jì)算模塊:將詞庫(kù)K中的詞匯根據(jù)公式(6)計(jì)算兩兩之間的共現(xiàn)度C(t1,t2)并根據(jù)詞匯共現(xiàn)度大小是否超過(guò)均值進(jìn)行連邊構(gòu)成共現(xiàn)圖。最后根據(jù)公式(5)計(jì)算每個(gè)節(jié)點(diǎn)的關(guān)鍵度,并將關(guān)鍵詞按關(guān)鍵度大小排列。
(4)關(guān)鍵詞提取模塊:在詞頻統(tǒng)計(jì)詞庫(kù)K中選取詞頻較高的一部分作為關(guān)鍵詞庫(kù)key1,在K中再次計(jì)算共現(xiàn)度選取關(guān)鍵度最高的前n個(gè)詞匯作為關(guān)鍵詞庫(kù)key2。則得到關(guān)鍵詞庫(kù)。
4 實(shí)驗(yàn)結(jié)果與分析
本文實(shí)驗(yàn)基于Windows 7操作系統(tǒng),采用Eclipse編譯環(huán)境進(jìn)行驗(yàn)證試驗(yàn)。實(shí)驗(yàn)使用Java語(yǔ)言基于JDK1.8進(jìn)行編程,使用Sql Server 2008進(jìn)行數(shù)據(jù)儲(chǔ)存。
4.1 實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)
通常情況下,對(duì)關(guān)鍵詞提取算法的評(píng)估是將算法自動(dòng)提取的關(guān)鍵詞與人工定義的關(guān)鍵詞進(jìn)行匹配比較,實(shí)驗(yàn)中以專業(yè)讀者給出的關(guān)鍵詞為準(zhǔn)。同時(shí)由于關(guān)鍵詞與給出的標(biāo)準(zhǔn)答案可能不會(huì)完全相同但語(yǔ)義相近,所以我們采取相似度匹配的方式,將同義的詞條也認(rèn)為匹配成功?;谡Z(yǔ)義的評(píng)估可使評(píng)估方法更加合理。
評(píng)價(jià)標(biāo)準(zhǔn)采用信息檢索中常用的查準(zhǔn)率Precision(記為P)、查全率Recall(記為R)以及綜合指標(biāo)F對(duì)關(guān)鍵詞提取算法進(jìn)行評(píng)價(jià)。三者計(jì)算公式如下:
其中,x為關(guān)鍵詞提取算法正確提取的關(guān)鍵詞個(gè)數(shù);y為算法提取的所有關(guān)鍵詞的個(gè)數(shù);z為人工賦予關(guān)鍵詞的個(gè)數(shù)。
查準(zhǔn)率和查全率反映了關(guān)鍵詞提取性能的兩個(gè)不同方面,兩者的關(guān)系是相互制約的,可以通過(guò)降低查全率來(lái)提高查準(zhǔn)率,反之亦可。單獨(dú)的提升一個(gè)指標(biāo)是不可行的。綜合指標(biāo)F的提出很好的綜合考慮了這兩項(xiàng)指標(biāo),其值越高代表關(guān)鍵詞提取的性能越好。
4.2 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
本文的實(shí)驗(yàn)的數(shù)據(jù)是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)在中國(guó)人力資源和社會(huì)保障部上政策法規(guī)模塊下的創(chuàng)業(yè)就業(yè),社會(huì)保障,人才隊(duì)伍建設(shè),人事制度改革,工資收入分配,勞動(dòng)關(guān)系六個(gè)欄目中抓取共2410篇文章,具體信息如表1所示。
為使實(shí)驗(yàn)結(jié)果更具普適性,我們將實(shí)驗(yàn)文本數(shù)據(jù)分為兩組,第一組由創(chuàng)業(yè)就業(yè)、社會(huì)保障、人才隊(duì)伍三類文章組成,第二組由人事制度、工資收入、勞動(dòng)關(guān)系三類文章組成。
4.3 實(shí)驗(yàn)結(jié)果分析
分別使用TF-IDF算法,基于共現(xiàn)詞的關(guān)鍵提取算法,加上位置信息及與標(biāo)題相似度后的共現(xiàn)詞提取算法對(duì)實(shí)驗(yàn)文本進(jìn)行關(guān)鍵詞提取。對(duì)第一組文本數(shù)據(jù)進(jìn)行實(shí)驗(yàn)的結(jié)果如表2所示。
第一組數(shù)據(jù)抽取關(guān)鍵詞個(gè)數(shù)不同情況下三種關(guān)鍵詞提取算法的查準(zhǔn)率P如圖3所示。
第一組數(shù)據(jù)抽取關(guān)鍵詞個(gè)數(shù)不同情況下三種關(guān)鍵詞提取算法的查全率R如圖4所示。
對(duì)第一組數(shù)據(jù)抽取關(guān)鍵詞個(gè)數(shù)不同情況下三種關(guān)鍵詞提取算法的綜合指標(biāo)F如圖5所示。
對(duì)第二組文本數(shù)據(jù)進(jìn)行實(shí)驗(yàn)的結(jié)果如表3所示。
從表2和表3實(shí)驗(yàn)結(jié)果對(duì)比可知兩組數(shù)據(jù)實(shí)驗(yàn)結(jié)果的查準(zhǔn)率P和查全率R規(guī)律類似,對(duì)第二組數(shù)據(jù)實(shí)驗(yàn)三種算法綜合指標(biāo)F如圖6所示。
由表2、圖5與表3、圖6對(duì)比可知,根據(jù)政策文本特征改進(jìn)后的關(guān)鍵詞提取算法提取性能普遍要高于詞頻統(tǒng)計(jì)和共現(xiàn)詞兩種關(guān)鍵詞提取算法的提取效率。將兩組實(shí)驗(yàn)的綜合指標(biāo)取均值后仍符合以上規(guī)律,且當(dāng)抽取關(guān)鍵詞小于等于10個(gè)時(shí),三種關(guān)鍵詞提取算法都是在提取關(guān)鍵詞為6個(gè)左右時(shí)綜合指標(biāo)F達(dá)到最高,所以政策文本抽取關(guān)鍵詞以6個(gè)較為恰當(dāng)。
5 總結(jié)
本文首先分析了兩種常用的關(guān)鍵詞提取算法,TF-IDF和基于共現(xiàn)詞的關(guān)鍵詞提取算法。并對(duì)比分析了兩種算法對(duì)于政策文本關(guān)鍵詞提取的不足。在基于共現(xiàn)詞關(guān)鍵詞提取的算法基礎(chǔ)上結(jié)合政策文本特殊的成文特征,改進(jìn)了共現(xiàn)度計(jì)算公式。實(shí)驗(yàn)表明改進(jìn)后的關(guān)鍵詞提取算法在效率上有了明顯提高,更適用于政策文本的關(guān)鍵詞提取。本文在構(gòu)建共現(xiàn)圖時(shí),規(guī)定詞匯共現(xiàn)度超過(guò)該片文章中所有待選詞的共現(xiàn)度的均值即可連邊,如何選取恰當(dāng)?shù)墓铂F(xiàn)度閾值來(lái)限制節(jié)點(diǎn)連邊是一個(gè)值得研究的方向。本文中規(guī)定共現(xiàn)詞出現(xiàn)的最小范圍為一篇文章,縮小或者擴(kuò)大共現(xiàn)詞最小范圍對(duì)關(guān)鍵詞提取有何影響也是一個(gè)值得研究的方向。
參考文獻(xiàn)
[1]王立霞,淮曉永.基于語(yǔ)義的中文文本關(guān)鍵詞提取算法[J].計(jì)算機(jī)工程,2012,38(01):1-4.
[2]羅燕,趙書(shū)良,李曉超等.基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法[J].計(jì)算機(jī)應(yīng)用,2016,36(03):718-725.
[3]唐守忠,齊建東.一種結(jié)合關(guān)鍵詞與共現(xiàn)詞對(duì)的向量空間模型[J].計(jì)算機(jī)工程與科學(xué),2014,36(05):971-976.
[4]楊林.基于文本的關(guān)鍵詞提取方法研究與實(shí)現(xiàn)[D].安徽工業(yè)大學(xué),2013.
[5]張建娥.基于TFIDF和詞語(yǔ)關(guān)聯(lián)度的中文關(guān)鍵詞提取方法[J].情報(bào)科學(xué),2012(10):110-112+123.
[6]蔣昌金,彭宏,陳建超等.基于組合詞和同義詞集的關(guān)鍵詞提取算法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(08):2853-2856.
[7]袁明.基于隱性主題模型和新詞發(fā)現(xiàn)的關(guān)鍵詞抽取研究[D].北京郵電大學(xué),2014.
[8] 郭建波.基于詞共現(xiàn)的關(guān)鍵詞抽取算法研究[D].合肥工業(yè)大學(xué),2015.
[9] 時(shí)永賓,余青松.基于共現(xiàn)詞卡方值的關(guān)鍵詞提取算法[J].計(jì)算機(jī)工程,2016,42(06):191-195.
[10]方俊,郭雷,王曉東.基于語(yǔ)義的關(guān)鍵詞提取算法[J].計(jì)算機(jī)科學(xué),2008,35(06):148-151.
[11]王良芳.文本挖掘關(guān)鍵詞提取算法的研究[D].浙江工業(yè)大學(xué),2013.
[12]王錦波,王蓮芝,高萬(wàn)林等.一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014(02):174-176.
[13]梁偉明.中文關(guān)鍵詞提取技術(shù)[D].上海交通大學(xué),2010.
[14]秦鵬,李恒訓(xùn),張華平等.基于關(guān)鍵詞提取的搜索結(jié)果聚類研究[C].全國(guó)信息檢索學(xué)術(shù)會(huì)議.2009.
[15]趙小寶,張華平.基于迭代算法的新詞識(shí)別[J].計(jì)算機(jī)工程,2014,40(07):154-158.
[16]梁偉明.中文關(guān)鍵詞提取技術(shù)[D].上海交通大學(xué),2010.
作者簡(jiǎn)介
和志強(qiáng)(1972-),男,博士學(xué)位,教授?,F(xiàn)為河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院碩士生導(dǎo)師。主要研究方向?yàn)閿?shù)據(jù)挖掘、高速數(shù)據(jù)采集。
王麗鵬(1991-),男,碩士研究生。主要研究方向?yàn)閿?shù)據(jù)挖掘。
張鵬云(1982-),男,碩士學(xué)位?,F(xiàn)為河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院講師。主要研究方向?yàn)閿?shù)據(jù)挖掘、高速數(shù)據(jù)采集。
作者單位
河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院 河北省石家莊市 050061