潘夏暉 虞欣平 鄒軍
摘要:由于網(wǎng)絡(luò)數(shù)據(jù)覆蓋領(lǐng)域廣、信息量大的特征,通過(guò)在線話題聚類得到的話題數(shù)量仍然繁多,并且話題重要程度也不同,其中大多數(shù)話題都無(wú)關(guān)緊要。那些涉及敏感問(wèn)題,具有爆發(fā)力的話題往往決定了整個(gè)網(wǎng)絡(luò)輿情的發(fā)展趨勢(shì),才是需要研究的重點(diǎn)。通過(guò)對(duì)話題熱度的計(jì)算可以有效地發(fā)現(xiàn)網(wǎng)絡(luò)輿情的熱點(diǎn)話題。
關(guān)鍵詞:話題;聚類;熱度
就目前對(duì)話題熱度計(jì)算的研究,主要都是從話題的媒體關(guān)注度和用戶關(guān)注度這兩方面考慮的。話題的媒體關(guān)注度是從輿情數(shù)據(jù)的發(fā)送方來(lái)考察話題的熱度,其主要包括話題的報(bào)道頻率和分布率等信息。而話題的用戶關(guān)注度則是從輿情數(shù)據(jù)的接收方來(lái)考察話題的熱度,其主要包括瀏覽報(bào)道的次數(shù)、評(píng)論的次數(shù)等一些用戶的行為信息。一般來(lái)說(shuō),網(wǎng)絡(luò)應(yīng)用上的信息發(fā)送方對(duì)熱點(diǎn)話題的形成起到了主導(dǎo)作用,因?yàn)橹挥芯W(wǎng)絡(luò)上出現(xiàn)了一個(gè)新的報(bào)道,才會(huì)有用戶去瀏覽、評(píng)論,引發(fā)該報(bào)道的關(guān)注,從而形成有大規(guī)模報(bào)道的話題,使該話題成為熱點(diǎn)話題。而對(duì)于論壇、微博一些應(yīng)用,信息的接收方在網(wǎng)絡(luò)傳播中占到主導(dǎo)地位,用戶的轉(zhuǎn)發(fā)、評(píng)論使得話題傳播越來(lái)越迅速,因此用戶關(guān)注度對(duì)話題的熱度影響將更大。本文根據(jù)層次化在線話題聚類的方法,從媒體關(guān)注度來(lái)評(píng)估新聞話題熱度,從媒體關(guān)注度和用戶關(guān)注度來(lái)評(píng)估論壇和微博話題熱度。
1話題熱度特征
通過(guò)對(duì)一般熱點(diǎn)話題的考察與分析,并結(jié)合網(wǎng)絡(luò)輿情傳播模式的特點(diǎn),一個(gè)話題在成為熱點(diǎn)的過(guò)程中一般都具備如下特征:
(1)在話題發(fā)生的初期,話題受關(guān)注程度并不高,相關(guān)的報(bào)道數(shù)量較少,用戶瀏覽數(shù)回復(fù)數(shù)也少,有的甚至不被人注意。
(2)在某個(gè)時(shí)間段內(nèi),該話題被廣泛關(guān)注,網(wǎng)絡(luò)上出現(xiàn)大量的相關(guān)報(bào)道,報(bào)道的數(shù)量迅速上升,用戶的關(guān)注度也迅速上升,網(wǎng)絡(luò)用戶大量瀏覽回復(fù)轉(zhuǎn)發(fā)相關(guān)內(nèi)容。
(3)在引起廣泛關(guān)注后,有關(guān)該話題的報(bào)道會(huì)大量轉(zhuǎn)載,甚至與話題相關(guān)的人、事件都會(huì)一一被報(bào)道,相關(guān)網(wǎng)站或媒體也會(huì)持續(xù)跟進(jìn)的進(jìn)行大量的報(bào)道,話題在此時(shí)是整個(gè)話題生命周期最熱的時(shí)候。
(4)熱度在達(dá)到一定高度之后,由于媒和網(wǎng)民的官方關(guān)注,熱度會(huì)持續(xù)一段時(shí)間的高峰值,然隨著關(guān)注的減少,熱度開(kāi)始下降,話題逐漸消失在關(guān)注視野中,最后開(kāi)始消亡。
這整個(gè)過(guò)程就是一個(gè)熱點(diǎn)話題的生命周期,從生長(zhǎng)到發(fā)展,從巔峰到最后的消亡,而話題的熱度也會(huì)伴隨著這些過(guò)程進(jìn)行演化。
2話題熱度量化
基于熱點(diǎn)話題的上述特征分別用下面幾個(gè)不同的參數(shù)進(jìn)行刻畫(huà)[1][2][3],其中話題的持續(xù)時(shí)間是指該話題有報(bào)道的天數(shù):
1、報(bào)道數(shù)rn(report number):表示話題在持續(xù)時(shí)間內(nèi)的報(bào)道數(shù);2、持續(xù)天數(shù)rd(report days):話題持續(xù)時(shí)間的天數(shù);3、點(diǎn)擊數(shù)hn(hitting number):表示論壇話題的點(diǎn)擊數(shù);4、回帖數(shù)an(answer number):表示論壇話題的回帖數(shù);5、轉(zhuǎn)發(fā)數(shù)fn(forwarding number):表示微博話題的轉(zhuǎn)發(fā)數(shù);6、評(píng)論數(shù)cn(comment number):表示微博話題的回復(fù)數(shù);
報(bào)道數(shù)和持續(xù)天數(shù)都屬于媒體關(guān)注度范疇,而點(diǎn)擊數(shù)、回帖數(shù)、轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)屬于網(wǎng)民關(guān)注度范疇。
因?yàn)閳?bào)道數(shù)和持續(xù)天數(shù)都和話題的關(guān)注度成正比,并且話題的關(guān)注度還和話題的分布率成正比,所以一定時(shí)間內(nèi)站點(diǎn)上話題的媒體關(guān)注度用下述公式來(lái)定量描述:
式(3.10)
其中,rn是該話題在持續(xù)時(shí)間內(nèi)的報(bào)道的文檔的數(shù)量,RN是在這段時(shí)間里所有話題報(bào)道的文檔的總數(shù),N是這段時(shí)間里出現(xiàn)還在活躍的話題的數(shù)目,前一個(gè)分式的比值反映的正是相對(duì)的話題的文檔頻率。rd是該話題持續(xù)被關(guān)注的天數(shù),而RD是所有話題被關(guān)注的天數(shù)的和,后一個(gè)分式衡量的是話題持續(xù)的天數(shù)和每個(gè)話題平均持續(xù)天數(shù)的相對(duì)比值。
另外,對(duì)于論壇來(lái)說(shuō)網(wǎng)民的一次點(diǎn)擊瀏覽和一次回帖評(píng)論所表現(xiàn)的關(guān)注程度是不同的,網(wǎng)民進(jìn)行回復(fù)帖子比網(wǎng)民只是點(diǎn)擊瀏覽更加值得關(guān)注。定義論壇網(wǎng)民關(guān)注度衡量公式為:
式(3.11)
由于論壇中網(wǎng)民對(duì)話題的回帖比只瀏覽更表現(xiàn)網(wǎng)民對(duì)其的關(guān)心,因此對(duì)進(jìn)行了倍加權(quán),取對(duì)數(shù)是為了使其值在(0,1)之間。
而對(duì)于微博來(lái)說(shuō),微博獨(dú)特的用戶瀏覽模式不能將用戶的瀏覽行為記錄下來(lái),能夠記錄下來(lái)的用戶行為只有轉(zhuǎn)發(fā)或者回復(fù)。對(duì)于一個(gè)用戶來(lái)說(shuō),轉(zhuǎn)發(fā)一條微博所能表現(xiàn)的關(guān)注程度遠(yuǎn)遠(yuǎn)沒(méi)有回復(fù)此條微博來(lái)的強(qiáng)烈。所以定義微博網(wǎng)民關(guān)注度衡量公式為:
式(3.12)
由于微博中網(wǎng)民對(duì)微博的評(píng)論比轉(zhuǎn)發(fā)更表現(xiàn)網(wǎng)民對(duì)其的關(guān)心,因此的值小于0.5,式子前面乘了0.5是因?yàn)槭龟P(guān)注度的其值在(0,1)之間。
對(duì)于所有的網(wǎng)民關(guān)注度,通過(guò)調(diào)節(jié)參數(shù)使網(wǎng)民關(guān)注度和媒體關(guān)注度在同一個(gè)數(shù)量級(jí)并具有不同的權(quán)重。因而,綜合所有網(wǎng)絡(luò)應(yīng)用,本文定義話題的熱度計(jì)算公式為:
式(3.13)
在實(shí)際情況下,對(duì)于新聞數(shù)據(jù)而言,話題的熱度只有媒體關(guān)注度,而對(duì)于論壇和微博數(shù)據(jù),則既有媒體關(guān)注度,又有網(wǎng)民關(guān)注度,而且網(wǎng)民關(guān)注度更具有參考價(jià)值。
3 結(jié)束語(yǔ)
層次化的話題聚類在每一批的文本話題聚類完成,話題得到調(diào)整后,將從新對(duì)每一個(gè)話題進(jìn)行熱度計(jì)算,并根據(jù)其熱度值進(jìn)行排名,將熱度值排名靠前的話題作為熱點(diǎn)話題。不難看出,隨著時(shí)間的往前推移,文檔數(shù)多的話題一直可以保持較高的熱度,話題報(bào)道天數(shù)多的時(shí)間也可以一直保持較高的熱度。但是此公式考察話題的熱度演化有缺陷,而且較難發(fā)現(xiàn)話題生命周期初期文檔數(shù)量相對(duì)較少的突發(fā)熱點(diǎn)話題,未來(lái)可考慮基于衰減因子的熱度演化來(lái)分析熱點(diǎn)話題進(jìn)行研究。
參考文獻(xiàn):
[1] 殷風(fēng)景,肖衛(wèi)東,葛斌,李芳芳.一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J].計(jì)算機(jī)應(yīng)用研究,2011.1:54-57
[2] 何婷婷,朱惹,張勇,任函.基于詞語(yǔ)屬性的計(jì)算機(jī)輔助獲取流行詞語(yǔ)研究[J].中文信息學(xué)報(bào),2006,6(06):38-45.
[3] Tingting He,Guozhong Qu,Xinhui Tu,Yong Zhang,Han Ren.Semi-automatic Hot Event Detection.AMDA 2006:1008-1016.
(作者單位:中國(guó)華藝廣播公司)