吳亞男, 楊 云
(陜西科技大學(xué)電氣與信息工程學(xué)院, 陜西 西安 710021)
Internet上的虛擬社區(qū)、網(wǎng)絡(luò)社區(qū),如BBS/論壇、貼吧、公告欄、群組討論、在線聊天、交友、個(gè)人空間等,其作用是為了增進(jìn)世界各地人們之間的交互.現(xiàn)今互聯(lián)網(wǎng)的猛速發(fā)展和信息日益的開放化、透明化,使得網(wǎng)絡(luò)社區(qū)中人氣指數(shù)高漲,數(shù)據(jù)日益龐大.人們通過(guò)網(wǎng)絡(luò)社區(qū)這一平臺(tái)表達(dá)自己的觀點(diǎn)與見(jiàn)解,而對(duì)社區(qū)中熱點(diǎn)或大眾最為關(guān)心的話題的分析也顯得尤為重要,要從每天的海量信息中提煉出高影響力和有潛在價(jià)值的話題并非是一件很容易的事情.
而我們較為傳統(tǒng)的判斷方法主要是從主題的幾個(gè)指標(biāo)來(lái)看:點(diǎn)擊率(瀏覽數(shù))、回帖數(shù)、討論周期、下載存儲(chǔ)次數(shù).利用此方法可以取得較好的效果.但也存在某些缺陷[1]:(1)無(wú)法從主題內(nèi)容中分析,只是簡(jiǎn)單的數(shù)字統(tǒng)計(jì);(2)沒(méi)有對(duì)主題進(jìn)行聚類,從而發(fā)現(xiàn)社區(qū)中若干相關(guān)主題組成當(dāng)前熱門話題;(3)沒(méi)有考慮到重要詞語(yǔ)在回復(fù)鏈上的傳播作用.
為了較好地解決傳統(tǒng)高影響力主題計(jì)算方法所存在的不足,我們從社區(qū)各個(gè)主題的內(nèi)容出發(fā),即從帖子間的回復(fù)內(nèi)容著手,提出對(duì)高影響力詞語(yǔ)進(jìn)行聚類,從而達(dá)到對(duì)熱點(diǎn)話題的聚類與提取,并設(shè)計(jì)出高影響力主題發(fā)現(xiàn)的原型系統(tǒng),該系統(tǒng)能夠較好地從網(wǎng)絡(luò)社區(qū)中提取出高影響力主題.
在中文里,語(yǔ)言的最小單位是字,而能表達(dá)出一定含義的最小單位則是詞語(yǔ).當(dāng)然,也存在某些單字詞.以文本形式存在的信息是以標(biāo)點(diǎn)符號(hào)對(duì)句子進(jìn)行分割,而詞語(yǔ)之間也同樣需要分割.目前較為常用的分詞方法有3大類:一是基于規(guī)則的方法;二是基于統(tǒng)計(jì)的方法;三是綜合法.雖然這些方法在詞語(yǔ)的分割方面都發(fā)揮著不小的作用,但仍然面臨著詞語(yǔ)切分歧義和未登錄詞識(shí)別兩大難題.為了能夠減少詞語(yǔ)切分歧義、提高詞語(yǔ)分詞的準(zhǔn)確率,本文提出了一種基于隱馬爾可夫模型的雙向最大字符串匹配分詞法.具體實(shí)施步驟如下:首先,按照雙向最大匹配法將待分析的中文字符串與機(jī)器詞典中的詞條進(jìn)行逐一匹配,由左至右掃描每一個(gè)字符串,若掃描時(shí)存在幾種組合形式的詞語(yǔ),則選擇字?jǐn)?shù)較多的詞語(yǔ);同理,再按照由右至左的方式進(jìn)行匹配,可得到兩種匹配的結(jié)果,然后采用隱馬爾可夫模型(HMM)對(duì)兩種匹配結(jié)果進(jìn)行比較并消除歧義,最終得到比較準(zhǔn)確的分詞結(jié)果[2,3].
圖1 文本信息預(yù)處理過(guò)程示意圖
另外,停用詞處理是文本信息抽取過(guò)程中的一個(gè)重要前提,處理好停用詞可以提高特征詞選擇的速度與質(zhì)量.停用詞主要是指對(duì)文本信息沒(méi)有實(shí)際價(jià)值且出現(xiàn)頻繁的詞語(yǔ),如“的、很、而且”等副詞和連詞.因此在對(duì)詞語(yǔ)進(jìn)行分割后還需要對(duì)其進(jìn)行詞性的標(biāo)記.通常,一個(gè)句子是由名詞、冠詞、動(dòng)詞、代詞、副詞、形容詞、介詞和連詞等組成,其中最能表達(dá)文本含義的詞性為名詞和動(dòng)詞,但是冠詞、動(dòng)詞、代詞等其他詞性的詞匯也會(huì)頻繁出現(xiàn)在文本中,這類停用詞需要被過(guò)濾掉,動(dòng)詞與名詞則作為本文特征詞的候選項(xiàng)而保留.
基于以上描述,可以得出社區(qū)信息預(yù)處理過(guò)程如圖1所示.
1.2.1 詞語(yǔ)權(quán)重定義
傳統(tǒng)比較常見(jiàn)的權(quán)重計(jì)算方法有特征頻度權(quán)重函數(shù)、TFC函數(shù)、TF-IDF、組合權(quán)重和熵權(quán)重等.本文對(duì)詞語(yǔ)權(quán)重的計(jì)算主要基于TF-IDF方法并結(jié)合網(wǎng)絡(luò)社區(qū)信息的特點(diǎn)進(jìn)行修改.一個(gè)完整的主題包括標(biāo)題+內(nèi)容+回復(fù)內(nèi)容.顯然,出現(xiàn)在標(biāo)題中的詞語(yǔ)要比在內(nèi)容中更為重要,而內(nèi)容中的詞語(yǔ)要比回復(fù)中重要,因此可根據(jù)情況給不同的位置分別定義影響因子.此外,本文為方便計(jì)算將詞語(yǔ)的權(quán)重值域規(guī)范到[0,1].基于上述理解,對(duì)詞語(yǔ)在每個(gè)主題中的權(quán)重進(jìn)行如下定義[4]:
(1)
其中,frequency(c,T)表示詞語(yǔ)c在主題T中出現(xiàn)的頻率,N表示社區(qū)主題的總個(gè)數(shù),nc代表在詞語(yǔ)c所屬版面中包含詞語(yǔ)c的主題個(gè)數(shù),loc為詞語(yǔ)在主題出現(xiàn)位置的影響因子且值域在[0,1]范圍.因此,高權(quán)詞的集合C={c∣QcTi≥δ,1≤i≤n }.
1.2.2 帖子間影響力
同一主題下,帖子間也存在密切的關(guān)系.設(shè)帖子y是對(duì)x的回復(fù),帖子z是對(duì)y的回復(fù),計(jì)算帖子x對(duì)帖子y的影響力為:
(2)
(3)
“網(wǎng)絡(luò)是我們?cè)谌澜缧枰擞押秃献骰锇榈牡胤健!比欢?,?shù)據(jù)訪問(wèn)和共享可能打破個(gè)人與政府或企業(yè)原本建立的信任關(guān)系,由于大數(shù)據(jù)時(shí)代的元數(shù)據(jù)比以往任何時(shí)候都更容易創(chuàng)建,并且與其他數(shù)據(jù)形成聚合,突破隱私規(guī)則的束縛變得輕而易舉,從而使人們喪失對(duì)隱私規(guī)則的預(yù)期。
(4)
這樣依次類推可獲得回復(fù)鏈中所有帖子間的影響力.
1.2.3 詞語(yǔ)對(duì)帖子的影響力
設(shè)在主題T中存在一條回復(fù)路徑L={x,y,z,…,u,v,w},帖子x對(duì)帖子w的影響力為kxw,并將詞語(yǔ)對(duì)主題T的影響力值確定在[0,1],計(jì)算詞語(yǔ)對(duì)主題T的影響力為:
(5)
因此,可計(jì)算出詞語(yǔ)c在整個(gè)社區(qū)D中的影響力(設(shè)D由n個(gè)主題組成):
(6)
接下來(lái),我們結(jié)合詞語(yǔ)的權(quán)重值和在論壇中的影響力兩個(gè)因素來(lái)提取出高頻詞.得到的高頻詞放入集合H中,H={c∣inf(c|D)≥θ,c∈C}.
1.2.4 無(wú)向圖G的構(gòu)建
由頂點(diǎn)和邊構(gòu)成無(wú)向圖G={V,E},高頻詞集合H用來(lái)確定圖G的頂點(diǎn).詞語(yǔ)之間的緊密關(guān)系確定無(wú)向圖G的邊.判斷詞語(yǔ)間是否存在緊密聯(lián)系,需計(jì)算任意兩個(gè)詞語(yǔ)間的關(guān)聯(lián)度Rela(c1,c2),且詞語(yǔ)c1,c2∈H,則它們?cè)谡搲疍中的關(guān)聯(lián)度為:
(7)
通過(guò)上述計(jì)算方法可以得到任意兩詞語(yǔ)間的關(guān)聯(lián)度,若它們的關(guān)聯(lián)度大于一定的閾值,則認(rèn)為它們具有高度的相關(guān)度并在詞語(yǔ)間用邊連接.E={e(c1,c2)∣Rela(c1,c2)≥Ω, c1,c2∈H}.高度相關(guān)的詞語(yǔ)一般存在兩種情況:一種情況是兩個(gè)詞語(yǔ)屬于同義詞,意思很接近;第二是它們?cè)谥黝}當(dāng)中的同現(xiàn)概率較大.若幾個(gè)高度相關(guān)詞語(yǔ)的組合能夠構(gòu)成一個(gè)詞組或是短語(yǔ),則也具有參考價(jià)值.然而,在主題中也會(huì)存在一些
表1 設(shè)置系統(tǒng)參數(shù)值
特殊的詞語(yǔ),它們?cè)谏鐓^(qū)中的出現(xiàn)不一定很頻繁,卻具有極高代表性并與高頻詞語(yǔ)關(guān)系圖G具有緊密的聯(lián)系,此類特殊詞語(yǔ)為潛在關(guān)鍵詞.潛在關(guān)鍵詞的進(jìn)一步挖掘需將非高頻詞與無(wú)向圖G進(jìn)行同現(xiàn)趨勢(shì)度計(jì)算[5].
(8)
表2 傳統(tǒng)法提取2010年3月2日的前30個(gè)熱點(diǎn)話題
最終構(gòu)成的無(wú)向圖G是由若干個(gè)完全子圖構(gòu)成,G′= g1′∪g2′∪……∪gn′,其中每一個(gè)完全子圖都能代表一類熱點(diǎn)話題,從而提取出較高影響力的主題.結(jié)合傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)方式再對(duì)提取出的高影響力主題進(jìn)行排序.
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)源中華網(wǎng)軍事論壇,這是一個(gè)具有大量用戶和數(shù)據(jù)信息的論壇.論壇平均每日增加的原帖數(shù)達(dá)100~150,而每天增加的回貼數(shù)可達(dá)2 000左右.
利用本文系統(tǒng)提取社區(qū)中2010年3月2日的高影響力主題,該系統(tǒng)的參數(shù)值設(shè)置如表1所示,再利用傳統(tǒng)的方法選擇出2010年2日至4日3天的熱點(diǎn)話題,主要通過(guò)社區(qū)中主題的點(diǎn)擊率、回帖數(shù)進(jìn)行選擇[6].
表2中“#”號(hào)表明兩種不同方法的相同主題,可以發(fā)現(xiàn)其中有16個(gè)共同的高影響力主題,相似度達(dá)60%.
其中表3中“*”表示2010年3月4日的熱點(diǎn)話題已在本文系統(tǒng)結(jié)果2010年3月1日的高影響力主題中出現(xiàn),說(shuō)明該系統(tǒng)方法能夠提前預(yù)計(jì)出高影響力主題的趨勢(shì).
本文通過(guò)對(duì)特征詞語(yǔ)的提取并深度挖掘出潛在關(guān)鍵詞,尋找它們的內(nèi)在關(guān)聯(lián),從而對(duì)高影響力主題進(jìn)行聚類.該原型系統(tǒng)很好地彌補(bǔ)了傳統(tǒng)方法的不足,從主題內(nèi)容上反映了其影響力和關(guān)注度,既對(duì)當(dāng)前的數(shù)據(jù)信息做出了分析和處理,同時(shí)也能對(duì)近期的信息走向進(jìn)行預(yù)測(cè)和基本判斷.然而,本文系統(tǒng)仍有必要進(jìn)一步優(yōu)化.首先,本文系統(tǒng)的設(shè)計(jì)過(guò)程中涉及到很多參數(shù),如何合理的設(shè)計(jì)參數(shù)關(guān)系到最終結(jié)果的準(zhǔn)確率,只有經(jīng)過(guò)多次實(shí)驗(yàn)才能很好的調(diào)試參數(shù)的值.其次,如果在該系統(tǒng)中適當(dāng)融入一些人機(jī)交互操作,則可使得社區(qū)中提取出的高影響力主題更加準(zhǔn)確、高效.
表3 傳統(tǒng)法提取2010年3月4日增加的高影響力主題
參考文獻(xiàn)
[1] 蔣 凡.BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2005,(31):151-153.
[2] 李媛媛.基于潛在語(yǔ)義索引的文本特征詞權(quán)重計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2008,28(6):1 460-1 466.
[3] 李星毅.基于單詞相似度的文本聚類[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(8):1 966-1 968.
[4] 李曉紅.中文文本分類中的特征詞抽取方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(17):4 127-4 129.
[5] 楊林波,王士同. 基于類別分布特征的快速文本分類方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(5):1 267-1 269.
[6] 高俊波.在線論壇中潛在影響力主題的發(fā)現(xiàn)研究[J].計(jì)算機(jī)應(yīng)用, 2008,28(1):140-142.