[摘 要] 基于復(fù)雜網(wǎng)絡(luò)理論和聚類算法實(shí)現(xiàn)虛擬社區(qū)意見領(lǐng)袖的辨識(shí)研究。首先,通過在線論壇數(shù)據(jù)構(gòu)建虛擬社區(qū)的用戶回復(fù)網(wǎng)絡(luò),采用復(fù)雜網(wǎng)絡(luò)理論分析用戶回復(fù)網(wǎng)絡(luò)的結(jié)構(gòu)特性,提取入度、出度、介數(shù)等作為意見領(lǐng)袖的典型特性參數(shù),并結(jié)合數(shù)據(jù)統(tǒng)計(jì)特性,建立社區(qū)用戶的特征向量。然后,基于復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)中心性分析,定義了意見領(lǐng)袖的篩選條件,提出一種基于期望最大化算法的虛擬社區(qū)意見領(lǐng)袖識(shí)別模型,篩選出最符合意見領(lǐng)袖群體的子類。以國內(nèi)某虛擬社區(qū)為例,采用該模型實(shí)現(xiàn)了意見領(lǐng)袖的篩選,實(shí)驗(yàn)結(jié)果證明了模型的正確性和有效性。
[關(guān)鍵詞] 期望最大化算法; 意見領(lǐng)袖; 聚類; 虛擬社區(qū)
[中圖分類號(hào)] G434 [文獻(xiàn)標(biāo)志碼] A
[作者簡(jiǎn)介] 李慧(1977—),女,山東泰安人。副教授,博士,主要從事網(wǎng)絡(luò)與計(jì)算智能研究。E-mail:lihuicnu@163.com。
一、引 言
20世紀(jì)40年代,哥倫比亞大學(xué)應(yīng)用社會(huì)研究所的保羅·拉扎斯菲爾德(Paul F. Lazarsfeld)等提出了“意見領(lǐng)袖”(也稱“輿論領(lǐng)袖”)的概念。意見領(lǐng)袖對(duì)網(wǎng)絡(luò)輿論的傳播、演化、形成具有至關(guān)重要的影響力,網(wǎng)絡(luò)局部意見在意見領(lǐng)袖的引導(dǎo)下演化為輿論。[1]隨著意見領(lǐng)袖現(xiàn)象的日益突出和網(wǎng)絡(luò)輿論影響力的不斷擴(kuò)大,虛擬社區(qū)意見領(lǐng)袖的識(shí)別及行為研究引起了國內(nèi)外學(xué)者的普遍關(guān)注,已經(jīng)成為信息科學(xué)、社會(huì)學(xué)、復(fù)雜性科學(xué)領(lǐng)域的研究熱點(diǎn)之一。
虛擬社區(qū)意見領(lǐng)袖的測(cè)量方法主要有社會(huì)計(jì)量法、自我報(bào)告法、數(shù)據(jù)挖掘技術(shù)等。[2]社會(huì)計(jì)量法是一種定量測(cè)量社會(huì)群體成員之間人際關(guān)系的技術(shù),適用于群體成員相互了解、凝聚力較強(qiáng)、規(guī)模較小的網(wǎng)絡(luò),對(duì)用戶眾多、結(jié)構(gòu)龐大、關(guān)系復(fù)雜的虛擬社區(qū)中意見領(lǐng)袖的識(shí)別存在較大的局限性。自我報(bào)告法通常采用量表測(cè)量意見領(lǐng)袖,其數(shù)據(jù)來源于受訪者的判斷和回答,具有很強(qiáng)的主觀性。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù),從大量、不完全、有噪聲的隨機(jī)數(shù)據(jù)中抽取潛在的、有價(jià)值的信息和知識(shí),已經(jīng)成為國內(nèi)外研究意見領(lǐng)袖的最新方法。Matsumura等基于數(shù)據(jù)挖掘技術(shù)提出了“影響力擴(kuò)散模型”(IDM),[3]將影響力定義為詞語在對(duì)話鏈中傳播的程度(即有回復(fù)關(guān)系的上下游帖子的詞語交集與下游帖子詞語數(shù)的比值),但僅以詞語的傳播度篩選意見領(lǐng)袖具有一定的片面性,難以識(shí)別出所有的意見領(lǐng)袖。余紅采用了聚類分析方法篩選網(wǎng)絡(luò)論壇意見領(lǐng)袖,但需要人工確定聲望值。[4]高俊波等通過計(jì)算節(jié)點(diǎn)刪除前后社群網(wǎng)絡(luò)平均路徑長(zhǎng)度的差值尋找網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)(即在線論壇的意見領(lǐng)袖),但只分析了最大連通圖而忽略了其他連通分支,往往導(dǎo)致結(jié)果的不準(zhǔn)確。[5]
本文以虛擬社區(qū)為研究對(duì)象,基于社區(qū)用戶之間的回復(fù)關(guān)系或跟帖關(guān)系構(gòu)建虛擬社區(qū)的用戶回復(fù)網(wǎng)絡(luò),采用復(fù)雜網(wǎng)絡(luò)理論和統(tǒng)計(jì)物理學(xué)方法分析虛擬社區(qū)的拓?fù)浣Y(jié)構(gòu)特性;根據(jù)社區(qū)數(shù)據(jù)的統(tǒng)計(jì)特性和節(jié)點(diǎn)的中心性,抽取表示社區(qū)用戶的特征向量,進(jìn)而提出一種基于期望最大化(Expectation Maximization, EM)算法的虛擬社區(qū)意見領(lǐng)袖識(shí)別模型;并從真實(shí)虛擬社區(qū)中提取特征向量數(shù)據(jù)集,分析EM聚類結(jié)果,篩選出最符合意見領(lǐng)袖特點(diǎn)的子類。
二、虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)
(一)虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)的構(gòu)建
虛擬社區(qū)已成為網(wǎng)絡(luò)信息傳播的重要途徑,為廣大用戶提供了開放、自由的虛擬討論空間。在虛擬社區(qū)的討論區(qū)中,版塊屬于論壇的子區(qū)域,版塊中的話題稱為帖子。社區(qū)用戶最直接的交互方式為“回復(fù)→發(fā)帖”,通過這種交互建立用戶之間的相互回復(fù)關(guān)系,基于回復(fù)關(guān)系構(gòu)成的網(wǎng)絡(luò)稱為用戶回復(fù)網(wǎng)絡(luò)G(V,E)。其中,V表示網(wǎng)絡(luò)中的節(jié)點(diǎn)集,即社區(qū)用戶;E表示網(wǎng)絡(luò)中的邊集,當(dāng)某位用戶回復(fù)其他用戶的發(fā)帖時(shí),表明這兩位用戶之間存在回復(fù)關(guān)系,則在用戶之間用箭線連接,箭頭由回復(fù)用戶指向被回復(fù)用戶。構(gòu)建網(wǎng)絡(luò)時(shí),假設(shè)不存在自環(huán),即忽略用戶回復(fù)自己帖子時(shí)形成的自環(huán),因此虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)是典型的有向網(wǎng)絡(luò)。
本文以國內(nèi)著名虛擬社區(qū)為研究對(duì)象,該社區(qū)用戶數(shù)量龐大、交互性強(qiáng)、回復(fù)及跟帖量大、討論內(nèi)容豐富,具有一定的代表性。通過網(wǎng)絡(luò)爬蟲抓取某版塊2010年6月8日—2010年12月8日的數(shù)據(jù),包括帖子標(biāo)題、帖子內(nèi)容、發(fā)帖人ID、發(fā)帖時(shí)間、回帖人ID、回帖時(shí)間等信息,構(gòu)建虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)。
(二)虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)的節(jié)點(diǎn)中心性
復(fù)雜網(wǎng)絡(luò)的中心化研究起源于社會(huì)網(wǎng)絡(luò)中個(gè)體重要性研究。[6]網(wǎng)絡(luò)中節(jié)點(diǎn)的中心性反映了所對(duì)應(yīng)用戶的地位及權(quán)力影響,通過節(jié)點(diǎn)中心性的度量即可實(shí)現(xiàn)虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)中用戶影響力的分析,對(duì)探索信息在整個(gè)網(wǎng)絡(luò)中的傳播方式和傳播效果具有十分重要的意義。
節(jié)點(diǎn)中心性主要分為度中心性(Degree Centrality)、介數(shù)中心性 (Betweenness Centrality)和接近中心性(Closeness Centrality),其中每一種中心性都有中心度和中心勢(shì)兩種度量方法。中心度是指某個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中居于核心地位的程度,而中心勢(shì)則指整個(gè)網(wǎng)絡(luò)的一致性(即圖的中心度)。實(shí)際測(cè)量節(jié)點(diǎn)中心性時(shí),有研究認(rèn)為應(yīng)根據(jù)研究問題的背景選擇測(cè)度方法:[7]如果關(guān)注交往活動(dòng),可采用度中心度;如果研究對(duì)交往或信息的控制,可采用介數(shù)中心度;如果研究信息傳遞的獨(dú)立性和有效性,可采用接近中心度。在虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)中,我們重點(diǎn)研究用戶之間的相互回復(fù)或跟帖,因此本文僅討論度中心度[8][9][10][11]和介數(shù)中心度。[12][13][14][15][16]
1. 度中心度
通過網(wǎng)絡(luò)中節(jié)點(diǎn)所擁有的連接數(shù),分析其直接影響力,用于測(cè)量某節(jié)點(diǎn)與其他節(jié)點(diǎn)發(fā)展交往關(guān)系的能力。在虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)中,當(dāng)一個(gè)用戶與其他多個(gè)用戶有直接回復(fù)關(guān)系時(shí),該用戶處于中心地位,擁有較大的權(quán)力。節(jié)點(diǎn)i的度定義為與節(jié)點(diǎn)i連接的邊數(shù):
k=■a(j,i) (1)
當(dāng)節(jié)點(diǎn)j和i之間有箭線相連時(shí),a(j,i)=1;否則a(j,i)=0。在有向網(wǎng)絡(luò)中,節(jié)點(diǎn)的度又分為入度和出度,節(jié)點(diǎn)i的入度為終止于節(jié)點(diǎn)i的箭線的數(shù)目,其出度為起始于節(jié)點(diǎn)i的箭線的數(shù)目。
2. 介數(shù)中心度
根據(jù)網(wǎng)絡(luò)中通過某節(jié)點(diǎn)的最短路徑的數(shù)目,分析用戶對(duì)資源信息控制的程度,反映節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)中信息流動(dòng)的影響,用于測(cè)量某節(jié)點(diǎn)控制網(wǎng)絡(luò)中其他節(jié)點(diǎn)之間交往的能力。在虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)中,當(dāng)一個(gè)用戶處于許多其他點(diǎn)對(duì)的最短路徑上時(shí),該用戶將擁有控制其他用戶之間交往的能力,在網(wǎng)絡(luò)中居于重要地位。節(jié)點(diǎn)i的介數(shù)定義為網(wǎng)絡(luò)中節(jié)點(diǎn)對(duì)最短路徑中經(jīng)過節(jié)點(diǎn)i的個(gè)數(shù)占所有最短路徑數(shù)的比例:
CB(i)=■■■ (2)
其中,gmn表示節(jié)點(diǎn)m和節(jié)點(diǎn)n之間存在的所有最短路徑的數(shù)目,gmn(i)表示節(jié)點(diǎn)對(duì)m和n最短路徑中經(jīng)過節(jié)點(diǎn)i的路徑數(shù)。
綜上所述,本文選取入度、出度和介數(shù)作為反映節(jié)點(diǎn)中心性的三個(gè)主要特性參數(shù),用于衡量社區(qū)用戶的地位及權(quán)力影響。
三、基于聚類算法的虛擬
社區(qū)意見領(lǐng)袖識(shí)別模型
本文構(gòu)建虛擬社區(qū)意見領(lǐng)袖識(shí)別模型的思路如下:在分析數(shù)據(jù)統(tǒng)計(jì)特性和虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特性的基礎(chǔ)上,抽取社區(qū)用戶的特征向量;采用EM聚類算法獲得社區(qū)用戶的聚類結(jié)果;根據(jù)虛擬社區(qū)意見領(lǐng)袖的識(shí)別條件,篩選出具有意見領(lǐng)袖特點(diǎn)的群體。
(一)社區(qū)用戶特征向量
根據(jù)數(shù)據(jù)統(tǒng)計(jì)特性和虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特性,選取以下6個(gè)特征值組成社區(qū)用戶特征向量:
1. 發(fā)帖數(shù)(v1):用戶發(fā)帖總數(shù),表征社區(qū)用戶提出話題的活躍程度。
2. 被回復(fù)數(shù)(v2):用戶收到回帖的總數(shù),表征社區(qū)用戶發(fā)帖的熱度。考慮用戶之間存在的多次回復(fù)關(guān)系,即不管回帖者是否重復(fù)都記錄在內(nèi)。
3. 回復(fù)數(shù)(v3):用戶回復(fù)他人帖子的總次數(shù),表征社區(qū)用戶參與回帖的積極性??紤]用戶之間存在的多次回復(fù)關(guān)系,即不管被回復(fù)的發(fā)帖者是否重復(fù)都記錄在內(nèi)。
4. 入度(v4):用戶收到回帖的總回復(fù)人數(shù),表征社區(qū)用戶的擁護(hù)者人數(shù)。不考慮用戶之間存在的多次回復(fù)關(guān)系,即每個(gè)回帖者只記錄一次。
5. 出度(v5):用戶回復(fù)他人帖子的總?cè)藬?shù),表征社區(qū)用戶所擁護(hù)的人數(shù)。不考慮用戶之間存在的多次回復(fù)關(guān)系,即每個(gè)被回復(fù)的發(fā)帖者只記錄一次。
6. 介數(shù)(v6):網(wǎng)絡(luò)中節(jié)點(diǎn)對(duì)最短路徑中經(jīng)過某用戶節(jié)點(diǎn)的個(gè)數(shù)占所有最短路徑數(shù)的比例,表征社區(qū)用戶控制其他用戶之間交往的能力。
通過分析抓取的論壇數(shù)據(jù)并計(jì)算虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)的節(jié)點(diǎn)中心性指標(biāo),可以獲得每位社區(qū)用戶的特征值,因此社區(qū)用戶i(復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn))的屬性可以表示為一個(gè)6元組xi = {v1,v2,v3,v4,v5,v6}。
(二)EM聚類算法
EM算法是一種解決數(shù)據(jù)殘缺問題的迭代求精算法,用于求解不完備數(shù)據(jù)的極大似然估計(jì)。由于事先不知道模型的具體參數(shù),EM算法首先對(duì)模型參數(shù)進(jìn)行初始估計(jì),確定與初始參數(shù)對(duì)應(yīng)的最可能狀態(tài),根據(jù)模型參數(shù)產(chǎn)生的混合密度反復(fù)對(duì)每個(gè)對(duì)象重新打分,重新估計(jì)模型參數(shù)。每一次迭代分兩步:E步 (Expectation Step,求期望)和M步(Maximization Step,求極大值),能有效保證似然函數(shù)值增加并收斂到一個(gè)局部極大值。
基于EM的虛擬社區(qū)用戶聚類算法的輸入為n個(gè)用戶的特征向量X={x1,x2,…,xn},其中xi={v1,v2,v3,v4,v5,v6}為用戶i的輸入特征向量;輸出為每個(gè)子類的均值向量μ、協(xié)方差矩陣Σ、n個(gè)用戶的特征向量Y={y1, y2,…,yn},其中yi={v1,v2,v3,v4,v5,v6,cj}為用戶i的輸出特征向量,cj為聚類后yi所屬的子類號(hào)。具體實(shí)現(xiàn)步驟如下。
1. 隨機(jī)初始化:隨機(jī)選擇m個(gè)對(duì)象代表簇的均值或中心,對(duì)模型參數(shù)進(jìn)行初始估計(jì)。
2. E步:針對(duì)每個(gè)簇cj,計(jì)算每個(gè)對(duì)象xi的簇隸屬概率。
3. M步:利用E步得到的概率重新估計(jì)模型參數(shù),把對(duì)象xi指派到最相似的簇中。
4. 循環(huán)E步和M步以求精參數(shù)直至收斂。
(三)虛擬社區(qū)意見領(lǐng)袖識(shí)別
作為具有強(qiáng)大影響力的活躍人物,意見領(lǐng)袖通常是具有輿論引導(dǎo)能力、擅長(zhǎng)激發(fā)討論氛圍、能頻繁收發(fā)大量信息等特征的小部分特殊群體。他們通過發(fā)表有見地的言論樹立威信,不斷提出引人注目的熱點(diǎn)話題,吸引大量用戶參與討論,對(duì)其他用戶產(chǎn)生巨大的影響力。因此,虛擬社區(qū)意見領(lǐng)袖的特征值v1、v2、v3、v4、v5、v6往往都比較大,并且具有較大的度,即v4+v5的值較大。
由于虛擬社區(qū)意見領(lǐng)袖的上述典型特點(diǎn),定義意見領(lǐng)袖的篩選條件為:①類成員數(shù)較少;②類成員的特征值v1、v2、v3、v4、v5、v6的均值較大;③類成員的特征值v4與v5之和較大。
采用EM聚類算法得到聚類結(jié)果后,意見領(lǐng)袖的識(shí)別過程如下:首先選出成員數(shù)較少的子類作為預(yù)選意見領(lǐng)袖群體;然后計(jì)算各個(gè)子類的均值向量μ中特征值v1、v2、v3、v4、v5、v6的均值,對(duì)其排序比較;最后計(jì)算均值向量μ中對(duì)應(yīng)v4+v5的值。特征值均值較大且v4+v5值也較大的子類就是所尋找的意見領(lǐng)袖群體。
四、實(shí) 驗(yàn)
(一)實(shí)驗(yàn)數(shù)據(jù)
本文的實(shí)驗(yàn)數(shù)據(jù)來源于2010年6月8日—2010年12月8日國內(nèi)某虛擬社區(qū)的帖子數(shù)據(jù),共有9372位用戶、71543個(gè)帖子。首先建立每位社區(qū)用戶的特征向量,然后將全部9372位用戶的特征向量作為EM聚類算法的輸入。典型的社區(qū)用戶特征值數(shù)據(jù)如下:
x1={0,0,1,0,1,0}
x2={2,70,964,26,165,0.000701}
x3={0,0,6,0,3,0}
x4={52,3112,7184,280,601,0.020445}
x5={2,79,399,32,97,0.000491}
x6={51,2685,2707,166,274,0.00449}
x7={0,0,223,0,77,0}
x8={54,2706,2976,159,171,0.002633}
x9={4,250,1012,70,198,0.002026}
x10={54,1133,26,764,0,0}
(二)實(shí)驗(yàn)結(jié)果
采用EM算法對(duì)原始輸入數(shù)據(jù)進(jìn)行反復(fù)訓(xùn)練與測(cè)試后,輸入數(shù)據(jù)被聚類為6個(gè)不同的子類(見表1),并得到6個(gè)子類特征值的均值及標(biāo)準(zhǔn)差。
社區(qū)用戶聚類結(jié)果顯示:用戶數(shù)較少的子類為C2、C3、C5,其中有一個(gè)子類必能最大程度滿足意見領(lǐng)袖特征。為了篩選出最符合意見領(lǐng)袖特點(diǎn)的子類,首先對(duì)每個(gè)子類特征值的均值進(jìn)行排序比較,如圖1所示。其中,子類C2的特征值均值(尤其是被回復(fù)數(shù)與回復(fù)數(shù))明顯高于其他子類,說明C2中的社區(qū)用戶是具有強(qiáng)大影響力的活躍人物,符合意見領(lǐng)袖的特點(diǎn)。
然后計(jì)算特征值v4與v5之和,見表2。子類C2(其特征值見表3)的v4+v5值最大,說明在虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)中,子類C2中的社區(qū)用戶與其他用戶存在大量的直接回復(fù)關(guān)系,能頻繁收發(fā)大量信息,對(duì)其他用戶產(chǎn)生強(qiáng)大的影響力。因此,根據(jù)意見領(lǐng)袖篩選的3個(gè)條件,子類C2是成員個(gè)數(shù)最少、特征值均值較大且v4+v5值最大的意見領(lǐng)袖群體。
(三)結(jié)果驗(yàn)證及分析
1. 實(shí)驗(yàn)結(jié)果的對(duì)比驗(yàn)證
本文以社區(qū)用戶特征向量為輸入,采用基于EM算法的虛擬社區(qū)意見領(lǐng)袖識(shí)別模型,篩選出意見領(lǐng)袖群體。而有研究則以論壇帖子回復(fù)關(guān)系構(gòu)成的用戶關(guān)系圖為研究對(duì)象,計(jì)算用戶存在前后網(wǎng)絡(luò)平均路徑長(zhǎng)度的差,差值大的節(jié)點(diǎn)就是網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)(即意見領(lǐng)袖)。[17]為了進(jìn)行對(duì)比驗(yàn)證,針對(duì)本文的實(shí)驗(yàn)數(shù)據(jù)集,采用基于平均路徑差的意見領(lǐng)袖發(fā)現(xiàn)算法,獲得虛擬社區(qū)意見領(lǐng)袖,[18]其中排名前三位的意見領(lǐng)袖如表4所示。
表4中排名第一的意見領(lǐng)袖與本文的聚類結(jié)果相同,其余排名大相徑庭。經(jīng)驗(yàn)證,用戶“小瘦兒”發(fā)帖數(shù)v1少,被回復(fù)數(shù)v2少,回復(fù)帖子數(shù)v3很少,不具備意見領(lǐng)袖的典型特點(diǎn)。用戶“p_ooky”雖然發(fā)過一定數(shù)量的帖子,但只有3個(gè)帖子回復(fù)數(shù)較多;而且只針對(duì)1位其他用戶回復(fù)過1條帖子,其他回帖均為對(duì)自己帖子的回復(fù),也并非意見領(lǐng)袖。由此可見,基于平均路徑差的意見領(lǐng)袖發(fā)現(xiàn)算法雖然能發(fā)現(xiàn)意見領(lǐng)袖,但對(duì)大量輸入數(shù)據(jù)的處理結(jié)果往往不準(zhǔn)確。而本文算法求出的意見領(lǐng)袖(即子類C2中的6位成員)的特征值(如:被回復(fù)數(shù)v2、回復(fù)帖子數(shù)v3、度v4+v5)是最大的,顯然本文方法的正確性較高。
2. 實(shí)驗(yàn)結(jié)果的分析評(píng)價(jià)
由節(jié)點(diǎn)中心性的定義可知:作為虛擬社區(qū)中具有影響力和號(hào)召力的風(fēng)云人物,意見領(lǐng)袖不僅具有較大的度,而且通常處于許多其他用戶之間的最短路徑上。為了進(jìn)一步驗(yàn)證基于EM算法的虛擬社區(qū)意見領(lǐng)袖識(shí)別模型的正確性,本文以平均路徑長(zhǎng)度差?駐L作為評(píng)價(jià)指標(biāo),通過求解用戶存在前后的網(wǎng)絡(luò)平均路徑長(zhǎng)度之差來判斷子類C2中的節(jié)點(diǎn)是否為關(guān)鍵節(jié)點(diǎn)。
網(wǎng)絡(luò)平均路徑長(zhǎng)度是指網(wǎng)絡(luò)中任意兩個(gè)節(jié)點(diǎn)之間距離的平均值:[19][20][21]
L=■■i≠jdij (3)
其中N為網(wǎng)絡(luò)的節(jié)點(diǎn)總數(shù)。由于絕大多數(shù)的實(shí)際網(wǎng)絡(luò)不是完全連通的,因此通常定義網(wǎng)絡(luò)平均路徑長(zhǎng)度為所有存在路徑相連的節(jié)點(diǎn)對(duì)之間的平均最短距離。
基于本文的實(shí)驗(yàn)數(shù)據(jù)集,建立相應(yīng)的虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò),求得網(wǎng)絡(luò)的平均路徑長(zhǎng)度L=3.50826。在6個(gè)子類C0—C5中任意選取6個(gè)節(jié)點(diǎn),分別刪除所選節(jié)點(diǎn),計(jì)算刪減后的用戶回復(fù)網(wǎng)絡(luò)的平均路徑長(zhǎng)度L'和平均路徑長(zhǎng)度的變化值?駐L=L-L'。
由表5可知,刪除子類C2中的全部節(jié)點(diǎn)后,網(wǎng)絡(luò)平均路徑長(zhǎng)度的變化值最大,表明子類C2中的成員處于網(wǎng)絡(luò)的關(guān)鍵路徑上,是網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn),因此子類C2是意見領(lǐng)袖群體。經(jīng)過調(diào)查,子類C2中6位成員都是在線論壇的資深會(huì)員,擔(dān)任過管理員或版主,具有很高的知名度和威望,完全符合意見領(lǐng)袖的特點(diǎn)。
五、總 結(jié)
本文在深入分析虛擬社區(qū)用戶回復(fù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特性尤其是節(jié)點(diǎn)中心性的基礎(chǔ)上,提取入度、出度、介數(shù)等作為意見領(lǐng)袖的典型特性參數(shù),結(jié)合數(shù)據(jù)統(tǒng)計(jì)特性,建立了社區(qū)用戶特征向量;以每位用戶節(jié)點(diǎn)的度和介數(shù)衡量社區(qū)用戶的影響力和號(hào)召力,定義了意見領(lǐng)袖的篩選條件,提出了基于EM算法的虛擬社區(qū)意見領(lǐng)袖識(shí)別模型,獲得每個(gè)用戶子類的均值向量、協(xié)方差矩陣及輸出特征向量等,從而篩選出具有意見領(lǐng)袖特點(diǎn)的群體。實(shí)驗(yàn)結(jié)果表明:與基于平均路徑差的意見領(lǐng)袖發(fā)現(xiàn)算法相比,本文構(gòu)建的意見領(lǐng)袖識(shí)別模型能夠在大規(guī)模虛擬社區(qū)中發(fā)現(xiàn)意見領(lǐng)袖,具有更高的準(zhǔn)確性,篩選出的意見領(lǐng)袖群體均是網(wǎng)絡(luò)最短路徑上的關(guān)鍵節(jié)點(diǎn),具有控制其他用戶之間交往的能力,擁有較大的權(quán)力和影響力,在網(wǎng)絡(luò)中居于核心地位。