網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20150302.1106.006.html
基于概念簇的多主題提取算法
馬甲林1,2,張永軍1,2,王志堅(jiān)1
(1.河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100; 2. 淮陰工學(xué)院 計(jì)算機(jī)工程學(xué)院,江蘇 淮安 223003)
摘要:現(xiàn)實(shí)世界存在著大量的多主題文本,多主題在信息檢索、圖書(shū)情報(bào)等領(lǐng)域有著廣泛的應(yīng)用。傳統(tǒng)主題提取算法大多是針對(duì)文本整體提取一個(gè)主題,且存在缺乏語(yǔ)義信息、向量高維和稀疏等缺陷。以《知網(wǎng)》為知識(shí)庫(kù),構(gòu)建概念向量表示文本,根據(jù)概念的語(yǔ)義及上下文背景對(duì)同義詞進(jìn)行歸并、對(duì)多義詞進(jìn)行排歧,并利用概念間語(yǔ)義關(guān)系實(shí)現(xiàn)語(yǔ)義相似度計(jì)算;在此基礎(chǔ)上提出基于概念簇的多主題提取算法MEABCC,該算法通過(guò)對(duì)概念進(jìn)行聚類,得到多個(gè)主題簇;在使用K-means算法進(jìn)行概念聚類時(shí),通過(guò)“預(yù)設(shè)種子”方法對(duì)其進(jìn)行改進(jìn),以彌補(bǔ)傳統(tǒng)K-means算法對(duì)初始中心的敏感性所引起的時(shí)空開(kāi)銷不穩(wěn)定、結(jié)果波動(dòng)較大的缺陷。實(shí)驗(yàn)結(jié)果表明,該算法具有較好的準(zhǔn)確率、召回率和F1值。
關(guān)鍵詞:語(yǔ)義;稀疏;上下文背景;知識(shí)庫(kù);概念簇;多主題提??; K-means;MEABCC
DOI:10.3969/j.issn.1673-4785.201405066
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)志碼:A
收稿日期:2014-06-01. 網(wǎng)絡(luò)出版日期:2014-03-02.
基金項(xiàng)目:國(guó)家自然科學(xué)青年科學(xué)基金資助項(xiàng)目(11201168).
作者簡(jiǎn)介:
中文引用格式:馬甲林,張永軍,王志堅(jiān). 基于概念簇的多主題提取算法[J]. 智能系統(tǒng)學(xué)報(bào), 2015, 10(2): 261-266.
英文引用格式:MA Jialin, ZHANG Yongjun, WANG Zhijian. Multi-topic extraction algorithm based on concept clusters[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 261-266.
Multi-topic extraction algorithm based on concept clusters
MA Jialin1,2, ZHANG Yongjun1,2, WANG Zhijian1
(1. College of Computer and Information, Hohai University, Nanjing 211100,China; 2. School of Computer Engineering, Huaiyin Institute of Technology, Huaian 223003, China)
Abstract:There are a large number of multi-topic documents existing in the real world, and the extraction of multi-topic is widely used in the fields of information retrieval, library science and intelligence. In the traditional theme extraction algorithm, in most cases a theme is extracted for the whole text, which lacks of semantic information and has high-dimensional vector and sparse defects. Setting concept vectors to represent text based on the repository of cnki.net, merging synonyms and discriminating polysemy according to the semantic of concepts and context, thereby achieving the computation of semantic similarity in light of the semantic relation among concepts. The multi-topic extraction algorithm based on the concept of clusters (MEABCC) is proposed. The MEABCC acquires multiple topics by clustering concepts. The conceptual clustering made by K-means algorithm is improved through the method of presetting "default seed", which makes up the undulating time and space overlay and the unstable results. This happen to be caused by sensitivity to initial centers of traditional K-means algorithm. The experiments showed that MEABCC has good accuracy, recall and F1 values.
Keywords:semantic; sparsity; context; knowledge base; concept clusters; multi-topic extraction; K-means; MEABCC
通信作者:馬甲林. E-mail:majialin@126.com.
現(xiàn)實(shí)世界存在著大量的多主題文本,據(jù)統(tǒng)計(jì)36.85%文章包含多個(gè)主題,Sekine和Nobata主持的一項(xiàng)研究表明,日本新聞文章中的44.62%在談?wù)摱鄠€(gè)話題。從文本中提取反映不同觀點(diǎn)的多個(gè)子主題,在信息檢索、圖書(shū)情報(bào)和信息安全等領(lǐng)域有著非常廣泛的應(yīng)用[1-2]。大多數(shù)傳統(tǒng)主題提取方法是針對(duì)一篇文章從整體考慮提取一個(gè)主題,未能區(qū)分出文內(nèi)混雜的多個(gè)子主題,文獻(xiàn)[3]認(rèn)為子主題體現(xiàn)在主觀句子的語(yǔ)義中,提出CRF模型從主觀句子的極性角度提取子主題,該方法以形容詞、副詞詞性判斷句子語(yǔ)義的貶褒極性,未涉及其他語(yǔ)義信息;文獻(xiàn)[4]使用滑動(dòng)窗口的方法可以從網(wǎng)絡(luò)評(píng)論文本提取局部子主題,適用于網(wǎng)絡(luò)評(píng)論文本;另外,常用的LDA(latent Dirichlet allocation)模型提出于2003年,該模型雖然目前使用廣泛,但LDA是一個(gè)完全基于統(tǒng)計(jì)的方法,在向量空間模型(VSM)下存在向量高維和稀疏、忽略詞匯語(yǔ)義及上下文背景等問(wèn)題,同時(shí)提取過(guò)程受到同義詞和多義詞的干擾,因而在質(zhì)量和效率上表現(xiàn)欠佳[3-5]。
本研究利用《知網(wǎng)》知識(shí)庫(kù),采用概念向量模型(CVM)取代傳統(tǒng)VSM模型表示文本,同時(shí)在CVM模型下同義詞將被自動(dòng)歸并,再根據(jù)上下文語(yǔ)義相關(guān)性對(duì)多義詞進(jìn)行排歧處理;其次通過(guò)計(jì)算概念的語(yǔ)義相似度取代傳統(tǒng)相似度計(jì)算,在此基礎(chǔ)上提出基于概念簇的多主題提取算法(MEABCC),該算法采用無(wú)監(jiān)督學(xué)習(xí)的方法,通過(guò)改進(jìn)經(jīng)典K-means算法對(duì)文本概念進(jìn)行聚類后得到多個(gè)子主題簇,其中,使用“預(yù)設(shè)種子”方法改進(jìn)來(lái)K-means算法,以彌補(bǔ)傳統(tǒng)K-means算法K個(gè)初始中心選擇的隨機(jī)性所引起的時(shí)空開(kāi)銷不穩(wěn)定、結(jié)果波動(dòng)較大的缺陷。
1概念向量模型
文本處理的首要問(wèn)題是文本表示,本研究以中科院計(jì)算機(jī)語(yǔ)言信息工程研究中心董振東主持創(chuàng)立的《知網(wǎng)》為知識(shí)庫(kù),建立基于概念的向量模型來(lái)表示文本。
1.1同義詞和多義詞處理
《知網(wǎng)》是一個(gè)以漢語(yǔ)和英語(yǔ)詞匯所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。在《知網(wǎng)》中,詞匯語(yǔ)義描述被定義為概念 。每一個(gè)詞可以表達(dá)為幾個(gè)概念,概念是由一種知識(shí)表示語(yǔ)言(DEF)來(lái)描述,這種用來(lái)描述概念的“詞匯”又叫義原,相比詞匯的規(guī)模,義原的數(shù)量很少?!吨W(wǎng)》定義了1500多個(gè)義原,分為3類:基本義原、語(yǔ)法義原和關(guān)系義原,DEF中基本義原反映了概念的主要語(yǔ)義,例如:詞匯“愛(ài)好者”,在《知網(wǎng)》中用DEF的基本義原為:DEF={Human|人,*Fondof|喜歡,#WhileAway|休閑},所表達(dá)的意思是:“愛(ài)好者”是個(gè)人,這個(gè)人喜歡某個(gè)東西,本詞語(yǔ)是和休閑相關(guān)[7],它們之間存在語(yǔ)義相關(guān)性。在《知網(wǎng)》中,如果某個(gè)詞只有一個(gè)意思,那么這個(gè)詞對(duì)應(yīng)唯一的概念,而多義詞往往對(duì)應(yīng)多個(gè)概念,為了找到某個(gè)多義詞在文中的具體含義,作如下定義:
定義1 對(duì)于任意中文詞匯c0,在《知網(wǎng)》中描述其對(duì)應(yīng)概念的DEF的基本義原集為{c1,c2,…,cm},(m>=1)則稱c0與{ c1,c2,…,cm}屬于同一個(gè)語(yǔ)義類。
語(yǔ)義類不僅與概念對(duì)應(yīng),而且與描述概念的DEF對(duì)應(yīng),語(yǔ)義類揭示了詞語(yǔ)之間的語(yǔ)義聯(lián)系,描述某個(gè)DEF的基本義原在語(yǔ)義上是相關(guān)的,某個(gè)語(yǔ)義類和文章語(yǔ)境相符時(shí),文中很可能出現(xiàn)該語(yǔ)義類包含的詞匯,利用這一語(yǔ)言現(xiàn)象可以消除詞匯歧義。如圖1:多義詞“水分”,在語(yǔ)義類包含{“植物”、“土壤”、“陽(yáng)光”、“生長(zhǎng)”}中“水分”的含義是指“物體內(nèi)含有的水”,而在語(yǔ)義類包含{“經(jīng)濟(jì)”、“數(shù)據(jù)”、“增長(zhǎng)”、“報(bào)告”}中“水分”的含義是指“夾雜不真實(shí)成分”。
圖1 “水分”語(yǔ)義類示意圖 Fig.1 The semantic class schematic diagram of ′moisture′
由于漢語(yǔ)的復(fù)雜性,同一篇文章中一詞多義和同義詞的情況非常多,單純的機(jī)械詞頻統(tǒng)計(jì)方法無(wú)法處理涉及詞匯語(yǔ)義的問(wèn)題,這是影響文本主題提取質(zhì)量的一個(gè)重要因素。為了解決多義詞排歧和同義詞歸并問(wèn)題,本研究利用《知網(wǎng)》,同義詞在概念映射階段被歸并到同一概念上;多義詞對(duì)應(yīng)多個(gè)概念,根據(jù)語(yǔ)義類成員詞和上下文背景的語(yǔ)義相關(guān)性來(lái)為多義詞選擇適合該文語(yǔ)境的語(yǔ)義類。定位多義詞在文中最佳語(yǔ)義類的思路是:如果某個(gè)語(yǔ)義類所屬成員詞匯在本篇文中出現(xiàn)權(quán)值之和越大,說(shuō)明該語(yǔ)義類比其他語(yǔ)義類更符合文章主題,則該語(yǔ)義類是該多義詞的在此文中最合適的語(yǔ)義類。詞匯wi在文章中所含的信息量H(wi)計(jì)算公式
(1)式中:ST表示待處理文本,TF(wi,ST)表示詞匯wi在文中出現(xiàn)的頻率,P(wi)為詞wi的概率分布。
定義2 多義詞c,它的第i個(gè)語(yǔ)義類Li權(quán)值為[7]
(2)式中:n為某個(gè)語(yǔ)義類Li成員詞在文中出現(xiàn)的個(gè)數(shù)。語(yǔ)義類權(quán)值越大,該語(yǔ)義類成員詞對(duì)文章主題的貢獻(xiàn)越大。
定義3多義詞c,在《知網(wǎng)》中對(duì)應(yīng)多個(gè)語(yǔ)義類,選擇符合該文背景的最佳語(yǔ)義類公式為
(3)1.2 概念向量構(gòu)建算法
傳統(tǒng)基于特征詞的向量空間模型(VSM),認(rèn)為向量是正交的,即詞匯之間互不相關(guān)。顯然,這和現(xiàn)實(shí)情況不符,眾所周知,文獻(xiàn)中各個(gè)詞匯之間存在著復(fù)雜的語(yǔ)義聯(lián)系[5]。利用《知網(wǎng)》知識(shí)庫(kù),構(gòu)建概念向量模型來(lái)表示文本,可以建立起詞匯之間語(yǔ)義聯(lián)系,為后續(xù)進(jìn)一步的語(yǔ)義計(jì)算提供了可能。CVM構(gòu)建過(guò)程首先對(duì)文本進(jìn)行分詞和預(yù)處理后得到文本的特征集,然后對(duì)特征集中的每個(gè)特征進(jìn)行概念映射;特征詞到概念的映射過(guò)程中大量的同義詞被歸并到相同的概念中,實(shí)現(xiàn)了強(qiáng)度較大的降維;其次利用《知網(wǎng)》概念描述語(yǔ)義的特點(diǎn),根據(jù)語(yǔ)義類和上下文背景的相關(guān)性,實(shí)現(xiàn)多義詞排歧,其構(gòu)建算法如下。
算法1概念向量構(gòu)建算法
輸入:文本T;
輸出:文本T的概念向量T。
步驟如下:
3)依次查詢《知網(wǎng)》知識(shí)庫(kù),對(duì)特征詞進(jìn)行概念映射;
①查詢《知網(wǎng)》,若T的特征詞Cm對(duì)應(yīng)唯一的概念,則Cm為單義詞或同義詞,直接獲取Cm的概念,轉(zhuǎn)至4);
②: 若Cm對(duì)應(yīng)多個(gè)概念,則Cm為多義詞,所以Cm對(duì)應(yīng)多個(gè)語(yǔ)義類表示為{L1,L2,…,Lp}(p≥1) ,采用如下步驟為Cm進(jìn)行多義詞排歧:
Fori=1 top
{
利用式(1)計(jì)算語(yǔ)義類Li所有成員詞匯的信息量;
利用式(2)計(jì)算Li權(quán)值;
}
Nexti;
4)對(duì)TG按照概念進(jìn)行整理合并得到:
式中:Gq為T(mén)G集合中無(wú)重復(fù)的概念, q,i,j,k≤m;//現(xiàn)實(shí)同義概念的歸并;
5)輸出文本T對(duì)應(yīng)概念向量T
2多主題提取算法
對(duì)于單主題提取,機(jī)械統(tǒng)計(jì)的主題提取方法通過(guò)詞頻統(tǒng)計(jì)按照權(quán)值大小抽取主題句,能夠得到質(zhì)量達(dá)到簡(jiǎn)單應(yīng)用級(jí)別的主題句[6]。然而,現(xiàn)實(shí)中存在著大量的多主題文獻(xiàn),單純的統(tǒng)計(jì)方法無(wú)法抽取多主題。本研究提出的MEABCC多主題提取方法是以1.2節(jié)提出的概念向量來(lái)表示文本,利用《知網(wǎng)》中義原的樹(shù)形層次體系結(jié)構(gòu)計(jì)算義原相似度,進(jìn)而計(jì)算概念的相似度,然后通過(guò)改進(jìn)K-means算法對(duì)組成文本的概念進(jìn)行聚類,形成多個(gè)子主題概念簇。
2.1概念相似度計(jì)算
相似度是衡量2個(gè)詞匯語(yǔ)義關(guān)系的一個(gè)重要指標(biāo),涉及到詞語(yǔ)的詞法、句法、語(yǔ)義甚至語(yǔ)用等多方面的信息。其中,對(duì)詞語(yǔ)相似度影響最大的是詞的語(yǔ)義。在《知網(wǎng)》中,詞匯被描述為概念,詞匯的相似度計(jì)算就轉(zhuǎn)化為對(duì)概念的相似度計(jì)算。詞語(yǔ)距離與詞語(yǔ)相似度之間有著密切的關(guān)系。2個(gè)詞語(yǔ)的距離越大,其相似度越低;反之,2個(gè)詞語(yǔ)的距離越小,其相似度越大[8]。
《知網(wǎng)》通過(guò)多個(gè)義原來(lái)描述概念,義原之間存在著各種復(fù)雜的關(guān)系,如:上下位關(guān)系、同義關(guān)系、對(duì)義關(guān)系等。其中,最重要的是上下位關(guān)系,所有的義原根據(jù)上下位關(guān)系構(gòu)成了一個(gè)樹(shù)狀的義原層次體系, 所以可以通過(guò)計(jì)算義原距離得到概念的距離進(jìn)而獲得概念的相似度[9]。假設(shè)2個(gè)義原在義原樹(shù)層次體系中的路徑距離為d,d的計(jì)算過(guò)程如下:
設(shè)義原集中的任意一個(gè)義原為wi,Li為義原wi在概念樹(shù)中的深度,a為距離初始閾值,b為滿足不等式max(L) (4)任意2個(gè)義原wi、wj之間的距離定義 (5)式中:ωk表示第k種關(guān)系對(duì)應(yīng)的權(quán)重,通常取ωk≥1??梢则?yàn)證,上述定義符合對(duì)距離函數(shù)的數(shù)學(xué)要求,式(4)、(5)反映出義原在義原層次樹(shù)中的位置越深,二者之間的距離越小,即越相似。 定義4 任意2個(gè)義原(wi,wj)之間的語(yǔ)義相似度 (6)式中:d是wi和wj在義原層次體系中的路徑長(zhǎng)度,是一個(gè)正整數(shù)。θ是一個(gè)可調(diào)節(jié)的參數(shù)。 定義5設(shè)概念U和V分別由義原組(pu1, pu2,…, pun)和(pv1, pv2,…, pvm)描述,則U、V相似度為 定義6 概念U由義原組(p1, p2,…, pn)表示,概念集C由概念集合{C1,C2, …,Cm}組成,概念U和概念集C的相似度定義為U和C中所有概念相似度的最大值[7]:Sim(U,C)=Max{Sim(U,Ci)|Ci∈C} (8) 2.2MEABCC算法 當(dāng)前主題提取的方法主要有2類:基于機(jī)械統(tǒng)計(jì)的方法和基于語(yǔ)法語(yǔ)義分析的方法。統(tǒng)計(jì)的方法能夠有效利用文章表層信息抓住文章關(guān)鍵詞匯,收集文章原句輸出主題,優(yōu)點(diǎn)是通用性好,適用于非受限區(qū)域,然而,其幾乎完全忽略詞匯語(yǔ)義信息,難以得到質(zhì)量較高的主題,且不易提取多主題。基于語(yǔ)法語(yǔ)義分析的主題提取方法被認(rèn)為比傳統(tǒng)的基于機(jī)械統(tǒng)計(jì)的方法更符合語(yǔ)言規(guī)律,提取的主題質(zhì)量較高,但其要求極高的人工智能技術(shù)和完備的專家系統(tǒng),以及領(lǐng)域受限等問(wèn)題導(dǎo)致應(yīng)用困難[10]。 本研究提出了基于概念簇的多主題提取算法(MEABCC),其思路是:利用《知網(wǎng)》知識(shí)庫(kù)豐富的語(yǔ)義信息,將文本表示成為概念向量模型,改進(jìn)K-means算法對(duì)概念進(jìn)行語(yǔ)義聚類,形成多個(gè)子主題概念簇,進(jìn)而得到文章對(duì)應(yīng)的多個(gè)子主題關(guān)鍵詞集。 聚類算法有很多種,最典型有效的劃分法之一是K-means,K-means算法是從樣本中隨機(jī)取出K個(gè)樣本作為初始聚類中心,再通過(guò)迭代,計(jì)算每個(gè)類的中心,每個(gè)樣本被歸入到最近的中心,重新計(jì)算類中心,直到類中心不再改變。使用K-means算法進(jìn)行聚類,首先要選取k個(gè)點(diǎn)作為初始聚類中心,然后進(jìn)行反復(fù)的迭代,由于初始中心選擇具有隨機(jī)性,會(huì)導(dǎo)致結(jié)果和耗時(shí)隨不同的初始輸入而波動(dòng),從而引起算法不可預(yù)測(cè)的復(fù)雜度[11]。為了解決這一問(wèn)題,借鑒傳統(tǒng)基于統(tǒng)計(jì)的主題提取思想,文章的主題很大程度上反映在詞共現(xiàn)上,做進(jìn)一步的延伸,文章中的同義詞往往圍繞某一個(gè)主題,而同義詞在概念向量模型中表現(xiàn)為同一個(gè)概念,因而在多主題提取中,本研究提出根據(jù)概念向量中每個(gè)概念包含文章詞的個(gè)數(shù)大小進(jìn)行排序,選取包含文章詞個(gè)數(shù)最多的前K個(gè)概念作為K-means聚類的初始中心的“預(yù)設(shè)種子”,這種方法可以克服K-means算法的對(duì)初始中心的敏感性。 (9)式(9)由計(jì)算文本集合中心點(diǎn)的方法所得。 基于概念簇的多主題提取算法具體步驟如下: 算法2基于概念簇的多主題提取算法 基本流程如下: 輸入:文本T,聚類的個(gè)數(shù)參數(shù)k,主題個(gè)數(shù)k1,其中k1 輸出:T的k1個(gè)子主題句集合{(st11,st12, …,st1u),( st21,st22, …,st2v), …(stk11,stk12, …,stk1w)}。 步驟如下: 1)調(diào)用算法1得到文本T的語(yǔ)義概念向量T 3)根據(jù)相似度計(jì)算式(8)計(jì)算每個(gè)概念與K個(gè)類中心的相似度,將對(duì)應(yīng)概念分配到相似度最大的類中; 4)利用式(9)重新計(jì)算各類的中心點(diǎn); 5)重復(fù)3)和4)直到類的中心點(diǎn)不再改變,得到K個(gè)類別的概念集:{{Ф1},{Ф2},…,{Фk}}; 6)選擇包含概念個(gè)數(shù)最多的前k1個(gè)概念集合,得到組成k1個(gè)子主題的概念集合:{{Ф1},{Ф2},…,{ Фk1}},進(jìn)而得到k1子主題對(duì)應(yīng)文章中k1個(gè)關(guān)鍵詞匯集合:{(c11,c12,…,c1i),(c21,c22,…,c2j),…(ck11 ,ck12 ,…,ck1t )}。 3實(shí)驗(yàn)及結(jié)果分析 目前還沒(méi)有已標(biāo)注主題的中文文本標(biāo)準(zhǔn)語(yǔ)料庫(kù),復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室的公開(kāi)的標(biāo)準(zhǔn)語(yǔ)料庫(kù)共包含20個(gè)類別,19637篇文檔,但均未標(biāo)注主題,考慮到工作量因素,本研究從該語(yǔ)料庫(kù)5個(gè)類別中選擇篇幅較長(zhǎng)、多主題特征較為明顯的500篇文檔,經(jīng)從事漢語(yǔ)言工作的專業(yè)人員進(jìn)行多主題詞標(biāo)注后作為實(shí)驗(yàn)樣本。實(shí)驗(yàn)結(jié)果評(píng)判采用通用的準(zhǔn)確率(P)、召回率(R)和綜合指標(biāo)F1。 3.1參數(shù)估計(jì) 為了得到算法2中初始聚類簇參數(shù)k的最恰當(dāng)?shù)闹担鶕?jù)測(cè)試樣本的實(shí)際篇幅長(zhǎng)短、文章結(jié)構(gòu)等情況,經(jīng)漢語(yǔ)專業(yè)人士分析,每篇樣本抽取子主題個(gè)數(shù)k1的值取3,并人工為每篇樣本標(biāo)注了3個(gè)子主題作為標(biāo)準(zhǔn)值,在k1=3的情況下實(shí)驗(yàn)分析k取值,圖2反映出k在不同取值下準(zhǔn)確率、召回率和F1的變化情況。 圖2 不同k值下P、R和F 1變化 Fig.2 The accuracy and recall rate and F 1 under different k 由圖2可以看出,每篇樣本抽取3個(gè)子主題的情況下,MEABCC算法隨著k值的增大提取主題的準(zhǔn)確率不斷提高,而召回率在降低,這是由于k值增大導(dǎo)致聚類簇細(xì)化,所以準(zhǔn)確率逐漸上升;通常情況下算法召回率是確定的,但在本實(shí)驗(yàn)中,隨著k值的增大類別不斷細(xì)化,在選取前3個(gè)(k1=3)最大子主題的時(shí),引起了召回率下降;為了找到最合適的k值,分析圖2的F1指標(biāo),從綜合指標(biāo)F1的趨勢(shì)上看,F(xiàn)1的最高點(diǎn)出現(xiàn)在k=7時(shí),所以算法2在本實(shí)驗(yàn)樣本對(duì)象下最適合的取值是k=7,需要說(shuō)明的是k的取值是和要處理的文章的有關(guān)。 3.2算法測(cè)試 為了測(cè)試通過(guò)“預(yù)設(shè)種子”的方法改進(jìn)K-means算法提取多主題的質(zhì)量,實(shí)驗(yàn)樣本仍然為預(yù)備的500篇文檔,采用3.1節(jié)參數(shù)實(shí)驗(yàn)中獲得的結(jié)果,取k=7,子主題個(gè)數(shù)k1為3,首先采用傳統(tǒng)K-means算法,隨即產(chǎn)生k個(gè)初始中心的方法實(shí)驗(yàn)5次,和MEABCC提取主題結(jié)果統(tǒng)計(jì)如表1所示。 表1K-means和MEABCC多主題提取結(jié)果統(tǒng)計(jì) Table1K-meansandMEABCCmoretopicextractionresultstatistics 算法指標(biāo)次數(shù)準(zhǔn)確率/%召回率/%F1/%耗時(shí) 第1次61.356.859.03'51″ 第2次76.865.170.56'73'K-means第3次49.452.350.85'21″ 第4次78.957.766.78'01″ 第5次50.168.057.74'21″MEABCC1次81.768.974.83'39″ 從表1數(shù)據(jù)可以看出,傳統(tǒng)K-means在5次隨即產(chǎn)生初始中心的情況下,結(jié)果的準(zhǔn)確率、召回率以及綜合指標(biāo)F1值都非常不穩(wěn)定,算法耗時(shí)變化較大,這是由于傳統(tǒng)的K-means 算法對(duì)初始聚類中心較敏感,導(dǎo)致結(jié)果和耗時(shí)隨不同的初始輸入波動(dòng)較大。為消除這種缺陷,本研究結(jié)合主題提取特點(diǎn),每個(gè)主題往往包含多個(gè)具有相同概念的詞,概念成員詞構(gòu)成了一個(gè)圍繞該概念的語(yǔ)義中心,因而可根據(jù)概念在文中出現(xiàn)成員詞的數(shù)量大小,預(yù)設(shè)出可能性最大的K個(gè)初始中心,從而改進(jìn)K-means,不但提取的主題質(zhì)量較高,算法的執(zhí)行效率也有較大的提高。 4結(jié)束語(yǔ) 向量空間模型下的傳統(tǒng)主題提取方法忽略詞語(yǔ)間的語(yǔ)義聯(lián)系,缺乏語(yǔ)義信息,提取的主題質(zhì)量不高,不適合提取多主題。本研究利用《知網(wǎng)》,構(gòu)建概念向量模型來(lái)表示文本,對(duì)同義詞進(jìn)行歸并,對(duì)多義詞進(jìn)行語(yǔ)義排歧;實(shí)現(xiàn)了概念的語(yǔ)義相似度計(jì)算;采用無(wú)監(jiān)督學(xué)習(xí)的方法,提出基于概念簇的多主題提取算法(MEABCC),該算法通過(guò)合理“預(yù)設(shè)初值”,改進(jìn)經(jīng)典K-means后對(duì)概念進(jìn)行聚類,得到多個(gè)子主題簇。實(shí)驗(yàn)測(cè)試結(jié)果反映出MEABCC算法效果和效率均較優(yōu)。 參考文獻(xiàn): [1]TANG Jie,YAO Limin, CHEN Dewei.Multi-topic based query-oriented summarization[C]//Proceedings of the SIAM International Conference on Data Mining. Sparks, USA, 2009: 1141-1152. [2]LAMIREL J C. Multi-view data analysis and concept extraction methods for text[J]. Knowledge Organization, 2013, 40(5): 305-319. [3]NA Fan, LI Huixian,and WANG Chao. Research on sentiment analyzing in multi-topics texts[J]. Advances in Computer Science,Intelligent System and Environment, 2013, 105: 581-586. [4]FU Xianghua, LIU Guo, GUO Yanyan, et al. Multi-aspect sentiment analysis for Chinese online social reviews based on topic modeling and HowNet lexicon[J]. Knowledge-Based Systems, 2013, 37: 186-195. [5]ZENG Jianping, DUAN Jiangjiao, WANG Wei, et al. Semantic multi-grain mixture topic model for text analysis[J]. Expert Systems with Applications, 2011, 38: 3574-3579. [6]劉金嶺.基于降維的短信文本語(yǔ)義分類及主題提取[J].計(jì)算機(jī)工程與應(yīng)用, 2010, 46(23):159-161. LIU Jinling.Dimensionality reduction of short message text classification and thematic extraction of semantic[J]. Computer Engineering and Applications, 2010, 46(23): 159-161. [7]白秋,金春霞,周海巖.概念向量文本聚類算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 47(35): 155-157. BAI Qiuchan, JIN Chunxia, ZHOU Haiyan. Text clustering algorithm based on concept vector[J]. Computer Engineering and Applications, 2011, 47(35): 155-157. [8]江敏,肖詩(shī)斌. 一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J]. 中文信息學(xué)報(bào), 2008, 22(5): 84-89. JIANG Min, XIAO Shibin. An improved word similarity computing method based on HowNet[J]. Journal of Chinese Information Processing, 2008, 22(5): 84-89. [9]劉金嶺.基于語(yǔ)義的高質(zhì)量中文短信文本聚類算法[J]. 計(jì)算機(jī)工程, 2009, 35(10): 201-205. LIU Jinling. High quality algorithm for chinese short messages text clustering based on semantic[J]. Computer Engineering, 2009, 35(10): 201-205. [10]LLORET E. Manuel palomar text summarisation in progress: a literature review[J]. Artificial Intelligence Review, 2012, 37: 1-41. [11]XU Junling, XU Baowen, et al. Stable initialization scheme for K-means clustering[J]. Wuhan University Journal of Natural Sciences, 2009, 14: 24-28. 馬甲林,男,1981年生,博士研究生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理。曾獲第12屆全國(guó)多媒體課件大賽三等獎(jiǎng)、江蘇省高等學(xué)校優(yōu)秀多媒體教學(xué)課件二等獎(jiǎng)、淮安市科技進(jìn)步獎(jiǎng)三等獎(jiǎng)、發(fā)明專利1項(xiàng)、參編教材1部,發(fā)表學(xué)術(shù)論文7篇。 張永軍,男,1978年生,講師,博士研究生,主要研究方向?yàn)橹形男畔⑻幚?、文本?shù)據(jù)挖掘、發(fā)表學(xué)術(shù)論文8篇,參編教程1部。 王志堅(jiān),男,1958年生,教授,博導(dǎo),主研方向?yàn)榛诰W(wǎng)絡(luò)的計(jì)算機(jī)應(yīng)用技術(shù)、軟件復(fù)用、基于網(wǎng)絡(luò)的軟件系統(tǒng)集成技術(shù),主持國(guó)家“863”項(xiàng)目、江蘇省基金項(xiàng)目等多項(xiàng),出版專著多部。