摘要:目前,有許多理論被用來識(shí)別輿論領(lǐng)袖。一般使用節(jié)點(diǎn)的度數(shù)、緊密度、介數(shù)和不同領(lǐng)域的PageRank算法等中心化指標(biāo)來識(shí)別出輿論領(lǐng)袖,這些方法雖然簡單,但是由于它們僅利用了節(jié)點(diǎn)自身的外部屬性,因而識(shí)別率并不高。為此,文章提出了一種輿論領(lǐng)袖識(shí)別模型IDMS。該模型不但考慮了節(jié)點(diǎn)的外部屬性,而且還綜合考慮了節(jié)點(diǎn)的內(nèi)部屬性,如文本內(nèi)容的相關(guān)度。最后通過實(shí)驗(yàn),驗(yàn)證了該模型可以更準(zhǔn)確地識(shí)別出輿論領(lǐng)袖。
關(guān)鍵詞:網(wǎng)絡(luò)社區(qū);影響力發(fā)現(xiàn);輿論領(lǐng)袖
一、引言
“輿論領(lǐng)袖”的概念是由美國哥倫比亞大學(xué)的傳播學(xué)者Lazarsfeld、Berelson和Gaudet在1940年政治選舉研究中提出的。輿論領(lǐng)袖會(huì)表達(dá)他們有影響力的評(píng)論或觀點(diǎn),提出指導(dǎo)意見,鼓勵(lì)和指導(dǎo)大眾去理解社會(huì)問題,因此輿論領(lǐng)袖的識(shí)別是非常重要而且是很有意義的。
基于在線網(wǎng)絡(luò)社區(qū)的網(wǎng)絡(luò)交往特征,人際互動(dòng)關(guān)系已成為國內(nèi)外學(xué)者的研究熱點(diǎn),但是關(guān)于在線網(wǎng)絡(luò)社區(qū)中參與者重要性方面的研究并不多見,特別是針對(duì)在線網(wǎng)絡(luò)社區(qū)中輿論領(lǐng)袖的識(shí)別研究非常匱乏。社區(qū)參與者重要性評(píng)估、輿論領(lǐng)導(dǎo)者發(fā)現(xiàn)及其相關(guān)技術(shù)目前仍然處在起步階段,為此本文針對(duì)在線網(wǎng)絡(luò)社區(qū)中輿論領(lǐng)袖的識(shí)別問題進(jìn)行研究。
首先,本文研究的網(wǎng)絡(luò)輿論領(lǐng)袖是指那些通過在新興媒體發(fā)表帖子(文本)或者回復(fù)其他網(wǎng)絡(luò)用戶發(fā)表的帖子這種基于文本的交流方式。將自己的見解、觀點(diǎn)傳遞給其他網(wǎng)絡(luò)用戶,引起他們內(nèi)心的共鳴,進(jìn)而影響、改變他們的觀點(diǎn)、思想和決策的網(wǎng)絡(luò)用戶。
其次,通過研究發(fā)現(xiàn),很多的研究者在研究輿論領(lǐng)袖的識(shí)別方法方面存在一些不足:現(xiàn)有的研究工作側(cè)重于分析網(wǎng)絡(luò)用戶間的外部聯(lián)系,如發(fā)帖、回帖,忽略了內(nèi)部聯(lián)系,如帖子的內(nèi)容。
為此,本文提出了輿論領(lǐng)袖識(shí)別模型IDMS (Influence Diffusion Model Similarity),改進(jìn)了影響力擴(kuò)散模型IDM(In fluence Diffusion Model),增加了文本相似度的計(jì)算與分析。通過高頻關(guān)鍵詞識(shí)別出具有熱點(diǎn)話題的帖子,然后再通過熱帖識(shí)別出影響力大的網(wǎng)絡(luò)用戶,也就是從海量的具有回復(fù)關(guān)系的帖子中找出那些具有重要影響力的網(wǎng)絡(luò)用戶。只有影響力大的網(wǎng)絡(luò)用戶才是真正的輿論領(lǐng)袖。
二、輿論領(lǐng)袖識(shí)別模型
(一)基本思想
假設(shè)C={C1,C2,…,Cn}是一個(gè)帖子的集合,同時(shí)Ci(1≤i≤n)是指任意的一個(gè)帖子,同時(shí)本文給出了以下的定義。
定義1:外部聯(lián)系和內(nèi)部聯(lián)系。對(duì)于任意的Ci和cj(1≤i,j≤n),假設(shè)Ci的發(fā)布時(shí)間早于Ci,如果Ci是Ci的回復(fù),那么Cj和Ci就有外部聯(lián)系。如果它們沒有關(guān)系,但是ci和Cj之間有語義上的相似性(相同或不同)那么Cj和Ci之間就有內(nèi)部聯(lián)系。
定義2:帖子網(wǎng)絡(luò)。對(duì)于任意的帖子會(huì)形成兩種網(wǎng)絡(luò),內(nèi)部聯(lián)系的網(wǎng)絡(luò)和外部聯(lián)系的網(wǎng)絡(luò)。
基于帖子內(nèi)容和信息傳播結(jié)構(gòu)的影響力計(jì)算模型多是從詞頻角度著手。
假設(shè)1:在BBS交流環(huán)境下。發(fā)帖和回復(fù)是BBS成員之間最直接的交互方式,人們通過發(fā)回帖來表達(dá)觀點(diǎn)和意見,可以認(rèn)為論壇對(duì)話鏈體現(xiàn)影響力的傳遞結(jié)構(gòu),即論壇成員通過交互關(guān)系傳遞影響力。
假設(shè)2:論壇成員通過發(fā)帖表達(dá)觀點(diǎn)和看法,帖子的基本組成單位是詞語,可以認(rèn)為論壇交流通過詞語來表達(dá)和傳播。
通過挖掘蘊(yùn)含在網(wǎng)絡(luò)文本內(nèi)容和回復(fù)結(jié)構(gòu)中的規(guī)律來測(cè)量論壇參與者的活動(dòng),并假設(shè)論壇影響力最高的用戶就是論壇輿論領(lǐng)袖。這里分為兩種情況:一是在基于文本的論壇交流環(huán)境中,人們通過發(fā)帖、回帖表達(dá)自己的觀點(diǎn),因此論壇回復(fù)鏈體現(xiàn)影響力的傳遞結(jié)構(gòu):二是詞語是組成帖子內(nèi)容的基本單位,在基于文本的論壇交流環(huán)境中,交流通過詞語來表達(dá)和傳播。帖子影響力定義為帖子包含的詞語集合在回復(fù)鏈傳播的程度,采用回復(fù)關(guān)系的上下游帖子的詞語交集數(shù)與下游帖子詞語數(shù)之比來進(jìn)行計(jì)算。帖子回復(fù)鏈結(jié)構(gòu)表示了個(gè)體之間的關(guān)系,一個(gè)個(gè)體的影響力就是他提交的所有帖子的影響力的總和。因此,通過帖子的影響力計(jì)算就可以找到最有影響力的個(gè)體,也就是輿論領(lǐng)袖。
(二)影響力計(jì)算
帖子內(nèi)容的主題相關(guān)性可以通過向量空間模型來計(jì)算。根據(jù)當(dāng)前帖子和它回復(fù)帖子之間的主題相關(guān)度來分配影響力,計(jì)算的方法是對(duì)這些有回復(fù)鏈接關(guān)系的帖子的主題內(nèi)容進(jìn)行分析。
具體過程如下:兩個(gè)主題型帖子內(nèi)容的相關(guān)性是根據(jù)兩個(gè)帖子出現(xiàn)的相似關(guān)鍵詞和高頻關(guān)鍵詞的次數(shù)總和進(jìn)行計(jì)算的。計(jì)算帖子A和帖子B內(nèi)容的主題相似度算法計(jì)算步驟如下。