李梅 闞峻嶺 汪貴生
(1.安徽中醫(yī)學(xué)院,安徽合肥230031;2.銅陵學(xué)院,安徽銅陵244000)
一種虛擬社區(qū)話題相關(guān)性算法的研究
李梅1闞峻嶺1汪貴生2
(1.安徽中醫(yī)學(xué)院,安徽合肥230031;2.銅陵學(xué)院,安徽銅陵244000)
由于虛擬社區(qū)語(yǔ)言不規(guī)范,使用傳統(tǒng)的語(yǔ)義分析方法計(jì)算話題相關(guān)性時(shí)存在較高的不確定性。文章提出一種新的方法,依據(jù)主題的文檔結(jié)構(gòu)圖計(jì)算該主題的話題相關(guān)度,試驗(yàn)結(jié)果表明本文所提出的方法優(yōu)于傳統(tǒng)的語(yǔ)義分析方法,在一定程度上解決了計(jì)算話題相關(guān)性時(shí)出現(xiàn)的不確定性問(wèn)題。
虛擬社區(qū);話題相關(guān)性;文檔結(jié)構(gòu)圖
虛擬社區(qū)(Virtual Community)研究的先驅(qū)Rheingold認(rèn)為虛擬社區(qū)是一種社會(huì)的集合體,它源自于網(wǎng)絡(luò)空間上有足夠的人、足夠的人類情感以及人際關(guān)系在網(wǎng)絡(luò)上長(zhǎng)期發(fā)展,因此他將虛擬社區(qū)定義為“一群通過(guò)互聯(lián)網(wǎng)相互溝通所形成的群體,他們彼此之間有某種程度的認(rèn)識(shí)、會(huì)分享知識(shí)與信息、如同對(duì)待友人般彼此關(guān)懷”[1]。Hagel&Armsrtnog認(rèn)為虛擬社區(qū)的真正意義在于把人們聚集在一起,通過(guò)互聯(lián)網(wǎng)建立起互動(dòng)的基礎(chǔ),滿足人們的興趣、幻想、人際關(guān)系或交易等需求,而虛擬社區(qū)吸引人們的地方在于它為人們提供了一個(gè)自由交往的生動(dòng)環(huán)境,使人們能夠在社區(qū)里持續(xù)性的互動(dòng),并從互動(dòng)中創(chuàng)造出一種相互信賴和彼此了解的氣氛[2]。虛擬社區(qū)的形成為人們提供了一種新的交流方式、新的工作方式、新的購(gòu)物方式甚至一種全新的生活方式,這種新的社會(huì)組織形式越來(lái)越顯著地影響著傳統(tǒng)社區(qū)中的每一個(gè)人。
隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展,伴隨Web2.0的廣泛應(yīng)用,世界上虛擬社區(qū)的數(shù)量正以前所未有的速度增長(zhǎng),社區(qū)中的人員和話題的數(shù)量都在急劇增加,而社區(qū)中的數(shù)據(jù)又包含著大量與現(xiàn)實(shí)社會(huì)相關(guān)的信息。虛擬社區(qū)的快速發(fā)展為我們提供了許多值得研究的課題,這些研究涉及信息技術(shù)、經(jīng)濟(jì)學(xué)、管理學(xué)、心理學(xué)等各個(gè)方面。然而我國(guó)對(duì)虛擬社區(qū)研究只是對(duì)實(shí)踐起著基本的推動(dòng)作用,理論研究無(wú)論在深度上還是廣度上都相對(duì)滯后,因此對(duì)虛擬社區(qū)進(jìn)行研究和探索具有很大的現(xiàn)實(shí)意義[3]。其中對(duì)于虛擬社區(qū)中的信息分類是當(dāng)前研究的熱點(diǎn),本文結(jié)合文檔向量空間模型的理論,提出一種新的社區(qū)話題相關(guān)性計(jì)算方法,該方法優(yōu)于傳統(tǒng)的語(yǔ)義分析方法,在很大程度上解決了原有方法在計(jì)算話題相關(guān)性時(shí)所存在的不確定性。
文檔向量空間模型[4](Vector Space Model,VSM)是一種使用向量表示文檔的方法。文檔中的詞稱作特征,文檔表示為由特征組成的向量空間中的一個(gè)特征矢量,表示成D(t1,W1;t2,W2;…;tN,WN),其中D為文檔,tk是第k個(gè)特征項(xiàng),Wk為特征項(xiàng)tk的權(quán)重,表示其在文檔D中的重要程度。令t1,t2,…tN為一個(gè)n維坐標(biāo)系,W1,W2,…,WN為相應(yīng)坐標(biāo)值,則D可以表示為n維空間中的一個(gè)向量。提取每類文檔的特征向量建立向量空間模型,文本轉(zhuǎn)化為向量形式并經(jīng)過(guò)特征提取以后,便很容易進(jìn)行分類挖掘了。雖然VSM模型不考慮語(yǔ)義信息并且部分丟失了文本中詞和詞的相互關(guān)聯(lián),但它簡(jiǎn)單易處理,并且對(duì)文本處理(主要是分類)可以得到很好的效果,是目前較常用的方法[5]。
兩個(gè)文檔D1和D2之間的相關(guān)程度用文本相似度Sim(D1,D2)來(lái)度量,當(dāng)文檔表示為向量空間模型時(shí),可以用向量間的夾角余弦值來(lái)表示:
在向量空間模型中,常采用TF-IDF算法[6][7]計(jì)算特征詞的權(quán)重,其基本公式為:Wik=tfik/dfk,其中tfik表示項(xiàng)tk在文本Di中的出現(xiàn)頻數(shù),dfk表示出現(xiàn)tk的文檔數(shù)目。
由于在虛擬社區(qū)中存在大量簡(jiǎn)短的對(duì)話,這類文本內(nèi)容用向量空間模型計(jì)算其相關(guān)性存在較大的不確定性。我們提出的只依據(jù)某話題下所有文章的回復(fù)結(jié)構(gòu)來(lái)計(jì)算該話題主題相關(guān)性,就可以很好的解決此問(wèn)題。
2.1.1 文檔結(jié)構(gòu)圖
在虛擬社區(qū)中,一個(gè)話題通常包含一篇主題文章與同主題的回復(fù)文章,它們通過(guò)文章間的回復(fù)關(guān)系有機(jī)聯(lián)系在一起,構(gòu)成該話題的文檔結(jié)構(gòu)圖,如圖1所示。
圖1 話題的文檔結(jié)構(gòu)圖
2.1.2 文檔子樹(shù)
在計(jì)算話題的主題相關(guān)性之前,需要提出文檔子樹(shù)的概念,其構(gòu)造方法如下:
(1)對(duì)于第m層的第i個(gè)文檔Dmi,構(gòu)造其所屬的文檔子樹(shù)時(shí),首先根據(jù)文檔的回復(fù)關(guān)系找出文檔Dmi指向位于第0層的主題文檔的鏈路,如圖2(a)所示。
(2)將所有直接指向該鏈路中節(jié)點(diǎn)的節(jié)點(diǎn)添加進(jìn)來(lái),構(gòu)成文檔Dmi所屬的文檔子樹(shù)。如圖2(b)所示。
這樣對(duì)于如圖1的文檔結(jié)構(gòu)圖,可以構(gòu)造出若干個(gè)如圖2所示的形如文檔Dmi的文檔子樹(shù),圖中文檔Dmi由黑色實(shí)心節(jié)點(diǎn)表示。
圖2 構(gòu)造文檔Dmi的文檔子樹(shù)
2.1.3 文檔主題相關(guān)度傳遞因子
根據(jù)虛擬社區(qū)的實(shí)際,我們提出以下假設(shè):文檔Di在話題的文檔結(jié)構(gòu)圖中所屬的層次n越大,則該文檔Di的內(nèi)容偏離主題的概率越大?;谠摷僭O(shè),可以認(rèn)為文檔主題相關(guān)度傳遞因子是文檔與其直接回復(fù)文檔之間主題相關(guān)的統(tǒng)計(jì)概率k(k∈[0,1])。
2.1.4 節(jié)點(diǎn)值的傳遞
我們將文檔結(jié)構(gòu)圖中的每個(gè)文檔視為一個(gè)節(jié)點(diǎn),并賦予其節(jié)點(diǎn)值。當(dāng)一個(gè)話題中只存在主題文檔而沒(méi)有回復(fù)文檔時(shí),該話題的主題相關(guān)度為1,該主題文檔的節(jié)點(diǎn)值為1。
當(dāng)文檔結(jié)構(gòu)圖中存在多個(gè)層次時(shí),節(jié)點(diǎn)值在層次間以主題相關(guān)度傳遞因子k進(jìn)行傳遞。對(duì)于第m層的第i個(gè)文檔Dmi,假設(shè)其節(jié)點(diǎn)值為ami,如果它被位于第m+1層的n個(gè)文檔直接回復(fù),那么這n個(gè)回復(fù)文檔的節(jié)點(diǎn)值均為(ami/n)*k,即文檔Dmi的節(jié)點(diǎn)值ami以概率k傳遞到下一層并被所有直接回復(fù)文檔均分。
文檔結(jié)構(gòu)分析系統(tǒng)的實(shí)驗(yàn)流程如圖3所示。
圖3 系統(tǒng)實(shí)驗(yàn)流程圖
我們于2008年5月從水木社區(qū)WorldSoccer版下載了2000多篇文章,以此作為數(shù)據(jù)源,使用文檔結(jié)構(gòu)分析方法計(jì)算其主題相關(guān)度,部分實(shí)驗(yàn)結(jié)果如下:
表1 部分話題的主題相關(guān)度
在實(shí)驗(yàn)中,通過(guò)調(diào)整主題相關(guān)度傳遞因子k值發(fā)現(xiàn),當(dāng)k取值為0.8時(shí),系統(tǒng)得到的主題相關(guān)性數(shù)值與使用向量模型計(jì)算的結(jié)果相近。但在處理相同數(shù)量數(shù)據(jù)時(shí),系統(tǒng)效率明顯高于使用向量模型方法。
本文以虛擬社區(qū)中話題相關(guān)性計(jì)算方法為主要研究對(duì)象,通過(guò)對(duì)已有話題相關(guān)性計(jì)算方法的分析和歸納,提出了根據(jù)某話題下所有文章的回復(fù)結(jié)構(gòu)來(lái)計(jì)算話題相關(guān)性的文檔結(jié)構(gòu)分析方法,并利用此方法對(duì)虛擬社區(qū)話題相關(guān)性進(jìn)行實(shí)驗(yàn)和計(jì)算,實(shí)驗(yàn)結(jié)果表明本文提出的方法明顯高于傳統(tǒng)的向量空間模型法。為進(jìn)一步深入研究虛擬社區(qū)成員的行為模式提供了必要的基礎(chǔ)。
[1]Rheingold H.Virtual Communit y:Homesteeding on the Elect ronic Frontier[Z].Reading Mass Addison-Wesley Inc,1993.
[2]Hagel,Johnand Armasrt rong,Arthur G.Net Gain:Expanding Markets Through Virtual Communities[M].Michinsey&Company Inc,1997.
[3]孫穎,毛波.基于數(shù)據(jù)挖掘技術(shù)的虛擬社區(qū)成員行為研究[J].計(jì)算機(jī)應(yīng)用,2003.1,23(1):50-53.
[4]G Salton,A Wong,C S Yang.A Vector Space Model for Automatic Indexing[C].Communications of the ACM,1975,18(11):603-620.
[5]陶秋香,喻金科,涂繼亮.基于向量空間模型的公文分類系統(tǒng)研究與實(shí)現(xiàn)[J].南昌航空大學(xué)學(xué)報(bào),2009.12,23(4):66-70.
[6]C.T.Yu,K.Lam,G.Salton.Term Weighting in Information Retrieval Using the Term Precision Model[J].Journal of the ACM(JACM),Jan.1982,29(1):152-170.
[7]唐果,陳宏剛.基于BBS熱點(diǎn)主題發(fā)現(xiàn)的文本聚類方法[J].計(jì)算機(jī)工程,2010.4,36(7):79-81.
A Topic Relevance Algorithm on Virtual Community
Li Mei1,Kan Jun-ling1,Wang Gui-sheng2
(1.Anhui university of Traditional Chinese Medicine,Hefei Anhui 230031,China;2.Tongling University,Tongling Anhui 244000,China)
When the method of semantic analysis is applied to the practice of approaching the topic relevance in the virtual community,a great deal of uncertainties would be brought by the substandard languages.The article presents a current approach to figure out the theme relevance based on the documentary structure diagram.It also separates itself from the traditional semantic analysis method and removes the uncertainties in working out the topic relevance.
virtual community;topic relevance;documentary structure diagram
TP301.6
A
1672-0547(2011)01-0089-02
2010-11-17
李梅(1973-),女,安徽合肥人,安徽中醫(yī)學(xué)院實(shí)驗(yàn)師。