葉 鴻,張勤學
(華南理工大學,廣東 廣州 510641)
在線網(wǎng)絡(luò)的普及和網(wǎng)絡(luò)技術(shù)的發(fā)展,促進了線下網(wǎng)絡(luò)和線上網(wǎng)絡(luò)的融合,微博熱點事件特點的顯著性越來越大[1]。微博中熱點事件的演化會引發(fā)群體性事件,對社會的穩(wěn)定產(chǎn)生一定的影響[2]。熱點事件在現(xiàn)實社會中不僅通過人們口述相傳,也在BBS論壇、微信、微博等互聯(lián)網(wǎng)平臺中進行演化和傳播。因為社會結(jié)構(gòu)與網(wǎng)絡(luò)結(jié)構(gòu)不同,因此在不同傳播領(lǐng)域中微博熱點事件的特點之間存在差異[3]。在上述背景下,研究微博熱點事件的演化過程具有重要意義[4]。
康偉等[5]提出基于SD模型的微博熱點事件演化方法,該方法以調(diào)研數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)和文獻分析為基礎(chǔ),提煉影響微博熱點事件演化的因素,通過系統(tǒng)動力學方法建立SD模型,利用SD模型對微博熱點事件的演化過程進行模擬,該方法沒有分析微博信息在網(wǎng)絡(luò)中的傳播特點,在熱點事件傳播過程中獲得的反對人數(shù)變化趨勢誤差較大,存在演化精準度低的問題。孫冰[6]提出基于科學知識圖譜視角的微博熱點事件演化方法,該方法將Web of Science核心集數(shù)據(jù)庫中的文獻作為樣本數(shù)據(jù),在CiteSpace軟件中對樣本數(shù)據(jù)進行知識圖譜分析,獲得關(guān)鍵詞被引和時空分布等知識圖譜,實現(xiàn)微博熱點事件演化的分析,該方法沒有構(gòu)建信息傳播模型,無法準確的獲取支持人數(shù)在微博熱點事件演化過程中的變化情況,導致演化精準度較低。朱立龍等[7]運用系統(tǒng)動態(tài)演化路徑圖和Matlab 2016軟件分析不同策略選擇的演變趨勢,求解了不同情況下演化博弈的穩(wěn)定均衡解,討論對兩個行為主體演化策略的影響,但是其忽略了信息傳播機制。
為了解決上述方法中存在的問題,提出基于用戶行為屬性的微博熱點事件演化仿真,其關(guān)鍵在于通過分析熱點事件信息在微博中的傳播特點,分析用戶行為屬性,對微博熱點事件的演化過程進行模擬,以圖提高演化結(jié)果的精準度。
基于用戶行為屬性的微博熱點事件演化仿真方法以Python為主要工具利用網(wǎng)絡(luò)爬蟲獲取微博信息。
在數(shù)據(jù)挖掘中,信息獲取涉及到人工智能、計算機網(wǎng)絡(luò)、決策分析、文本處理等多個領(lǐng)域,是一項重要技術(shù)。微博文本信息獲取包括微博文本拓撲獲取、結(jié)構(gòu)獲取和內(nèi)容獲取等。在微博網(wǎng)絡(luò)中非結(jié)構(gòu)化信息的采集和處理過程中,將統(tǒng)一格式的數(shù)據(jù)文件存儲在本地數(shù)據(jù)庫中,涉及正則表達式、數(shù)據(jù)結(jié)構(gòu)和網(wǎng)絡(luò)爬蟲等關(guān)鍵技術(shù)。
網(wǎng)絡(luò)爬蟲根據(jù)設(shè)定的規(guī)則遍歷微博信息,自動獲取微博信息的腳本或程序。通常情況下網(wǎng)絡(luò)爬蟲分為以下兩種:
1)在互聯(lián)網(wǎng)上,搜索引擎提供商設(shè)計的網(wǎng)絡(luò)爬蟲可以利用網(wǎng)頁中的鏈接來實現(xiàn)跳轉(zhuǎn),并收集不同微博頁面的信息。網(wǎng)絡(luò)搜索引擎利用網(wǎng)絡(luò)爬蟲獲得的信息建立相關(guān)引擎,用戶在通過已建立的搜索引擎搜索相關(guān)信息時將獲得所需的信息和數(shù)據(jù)[8]。
2)抓取指定網(wǎng)站中存在的數(shù)據(jù),采集用戶所需的信息。
基于Python的網(wǎng)絡(luò)爬蟲采集信息的過程為:在種子采集中,微博頁面內(nèi)容和頁面中的鏈接都是通過網(wǎng)絡(luò)獲取的。網(wǎng)絡(luò)爬蟲利用網(wǎng)頁中的鏈接獲取下層子網(wǎng)頁中存在的信息,并對收集到的信息進行分類整理?;赑ython的網(wǎng)絡(luò)爬蟲信息采集結(jié)構(gòu)如圖1所示。
圖1 基于Python的網(wǎng)絡(luò)爬蟲信息采集結(jié)構(gòu)
基于用戶行為屬性的微博熱點事件演化仿真方法利用上述結(jié)構(gòu)采集的信息構(gòu)建信息傳播模型,模型假設(shè)條件為:當網(wǎng)絡(luò)處于全端可用度的情況,此時的傳播規(guī)則是在網(wǎng)絡(luò)中所確認的傳播節(jié)點感染的可識別性。
設(shè)s(k,t)表示無知節(jié)點在t時刻的密度;c(k,t)表示接觸節(jié)點在t時刻的密度;i(k,t)表示感染節(jié)點在t時刻的密度;r(k,t)表示免疫節(jié)點在t時刻的密度;psi(k,t)表示在時間間隔[t,t+Δt]內(nèi)無知節(jié)點被感染的概率;pci(k,t)表示在時間間隔[t,t+Δt]內(nèi)接觸節(jié)點被感染的概率。無知節(jié)點在網(wǎng)絡(luò)中通過傳播節(jié)點感染,因此度k節(jié)點在網(wǎng)絡(luò)中平均感染鄰居的密度P1可通過下述公式計算得到
(1)
式中,P(k′|k)表示節(jié)點度在網(wǎng)絡(luò)G中的相關(guān)性。
在網(wǎng)絡(luò)內(nèi)指定源S的可用度AG為:
(2)
式中,表示節(jié)點度子參數(shù)反衍系數(shù),P表示微博信息規(guī)則遍歷次數(shù)。
定義網(wǎng)絡(luò)內(nèi)處于維修狀態(tài)下,G網(wǎng)絡(luò)的隨意一個節(jié)點間維持連通概率,即為網(wǎng)絡(luò)全端的可用度,標記成AG全端。在鏈路、節(jié)點故障率以及修復(fù)率都相等時,具體網(wǎng)絡(luò)的全端可用度AG全端公式為
(3)
在網(wǎng)絡(luò)G處于維修的狀態(tài)下,通信網(wǎng)絡(luò)G內(nèi)規(guī)定兩個節(jié)點s-t間最少具有一條通路概率fi,即為網(wǎng)絡(luò)端對端的可用度,標記成AG端穩(wěn),在保證網(wǎng)絡(luò)可用度最高即AG端穩(wěn)最大的情況下,密度的變換量如下
(4)
在上式的基礎(chǔ)上獲得感染節(jié)點密度i(k,t)的變化率
(5)
同理獲得t時刻無知節(jié)點密度s(k,t)、接觸節(jié)點密度c(k,t)和免疫節(jié)點密度r(k,t)的變化率
(6)
?tr(k,t)=δ×c(k,t)
(7)
對上述公式進行積分處理,獲得下式
s(k,t)=s(k,0)exp[-kφ(t)]
(8)
其中,參數(shù)φ(t)的計算公式如下
(9)
通過上述分析,構(gòu)建信息傳播模型
(10)
式中,δ為狄拉克函數(shù)下的密度分布系數(shù),λ為密度比不變的調(diào)節(jié)因子。
基于用戶行為屬性的微博熱點事件演化仿真方法,在信息傳播模型的基礎(chǔ)上分析用戶在微博熱點事件演化過程中的行為屬性。
設(shè)A表示采納或支持事件;B為拒絕或反對事件。個體對事件的認可程度可以通過個體的內(nèi)在觀點進行反映,設(shè)pA表示個體對A的內(nèi)在觀點;pB表示個體對B的內(nèi)在觀點,兩者之間符合下式
(11)
設(shè)p表示個體對事件A的內(nèi)在觀點,當p的值為1時,表明針對事件A,個體持完全同意的觀點;當p的值為0時,表明針對事件A,個體持完全反對的觀點。設(shè)置對數(shù)偏好Odd,在區(qū)間-∞ (12) 個體的觀點傾向也可以通過外在行為σ進行反映,外在行為σ的表達式如下 (13) 在n時間步長內(nèi),節(jié)點i的外在行為、對數(shù)偏好、對事件A的支持觀點分別用σi(n)、Oddi(n)和pi(n)進行表示。 社會作用描述的是想象的、隱含的或真實的其它個體的行為或表現(xiàn),對個體事件能夠改變其行為、認知和感受的作用效果[11-12]。由社會作用理論可知,在社會環(huán)境中社會作用力是由作用群體、作用直接性和作用源強度一起決定的,設(shè)i表示目標個體在社會環(huán)境中受到的社會作用,其表達式如下 i=f(SIN) (14) 式中,f描述的是社會作用函數(shù);N描述的是作用群體對應(yīng)的規(guī)模、數(shù)量;I表示作用對應(yīng)的直接性,用來描述在空間或時間上作用個體與作用源之間的親疏度。 信息在傳統(tǒng)網(wǎng)絡(luò)中接觸的方式較為單一,可用統(tǒng)一的常量描述作用直接性,為了反映目標個體受各個作用源的影響,用下式描述社會作用關(guān)系i i=Nts (15) 式中,指數(shù)t的作用是對個體數(shù)量增多產(chǎn)生的作用增益衰減現(xiàn)象進行反映,在區(qū)間(0,1)內(nèi)取值,且相關(guān)實證數(shù)據(jù)分析研究表明,t取值在0.5附近波動;s表示社會作用力和相關(guān)常量特征在具體情境下縮放比例的綜合。 基于用戶行為屬性的微博熱點事件演化仿真方法在用戶行為屬性的基礎(chǔ)上實現(xiàn)微博熱點事件的演化,具體步驟如下: 1)設(shè)時間步長n=0為微博熱點事件演化的初始狀態(tài)。 2)節(jié)點i在第n時間步中觀察到其它個體在總數(shù)為N的群體中的外在行為,其中反對者和支持者的數(shù)量分別為Nn,-、Nn,+,兩者之間滿足下式 Nn,++Nn,-=N (16) 設(shè)impacti,+(n)表示支持者在微博熱點事件中施加的社會作用大??;impacti,-(n)表示反對者在微博熱點事件中施加的社會作用大小 (17) 式中,dij表示節(jié)點i與節(jié)點j之間存在的距離。接受個體的距離、影響力強度、作用源和觀點強度都會對個體對應(yīng)的社會作用分量產(chǎn)生影響,基于用戶行為屬性的微博熱點事件演化仿真方法設(shè)定作用分量函數(shù)|σj(n)|=1。因此,在社會作用中個體的異質(zhì)性主要受到傳播距離和影響力的影響。 3)降低隨機因素產(chǎn)生的干擾。根據(jù)灰色系統(tǒng)理論定義參考數(shù)列C0與比較數(shù)列Ci之間存在的關(guān)聯(lián)系數(shù)ξi(j) (18) 其中,xi(j)為隨機因素影響量,即 (19) 其中 (20) 式中,j=1,2,…,m,Cj表示微博熱點事件間的關(guān)聯(lián)系數(shù),當關(guān)聯(lián)系數(shù)越高,隨機因素影響量的影響程度越小,降低之間存在的差異顯著性,進一步降低隨機因素產(chǎn)生的干擾。 4)勸說人群在本次觀點一次更新成功時,獲得相應(yīng)的影響力反饋增益。勸說人群在影響力反饋機制的基礎(chǔ)上獲得一定影響力的增加量。 影響力反饋機制可通過下述公式進行描述 (21) 式中,fk(n)描述的是指示函數(shù),當判斷條件屬于真實值時指示函數(shù)的值為1;當判斷條件屬于反之值時,指示函數(shù)的值為0。 5)重復(fù)上述步驟2)-步驟4),當系統(tǒng)穩(wěn)定或觀點收斂時停止迭代,完成微博熱點事件的演化。 為了驗證基于用戶行為屬性的微博熱點事件演化仿真方法的整體有效性,需要對基于用戶行為屬性的微博熱點事件演化仿真方法進行測試,本次測試所用的實驗軟件為MyEclipse,實驗來源為data.gov(https:∥www.data.gov/)數(shù)據(jù)集,從中隨機選取350個有關(guān)微博熱點事件演化趨勢的樣本集,從中選出最優(yōu)實驗價值的某微博熱點,本次研究中將其稱為熱點1,因該熱點參與人數(shù)眾多,因此,從中選取社會作用關(guān)系i相同的演化趨勢數(shù)據(jù)10000個,在操作系統(tǒng)為 JDK 1.7,內(nèi)存為64G的實驗環(huán)境中進行對比實驗。 分別采用基于用戶行為屬性的微博熱點事件演化仿真方法(方法1)、基于SD模型的微博熱點事件演化方法(方法2)和基于科學知識圖譜視角的微博熱點事件演化方法(方法3)對微博熱點事件演化過程進行模擬,模擬微博熱點事件中支持人數(shù)和反對人數(shù)的變化,模擬結(jié)果如圖2所示。 圖2 不同方法的模擬結(jié)果 分析圖2中的數(shù)據(jù)可知,隨著微博熱點事件演化時間的不斷增加,方法1在演化模擬過程中獲得的支持人數(shù)和反對人數(shù)變化曲線與實際人數(shù)變化曲線基本相似,方法2和方法3在演化模擬過程中獲得的支持人數(shù)和反對人數(shù)變化曲線與實際人數(shù)變化曲線之間的誤差較大,通過分析可知,方法1在微博熱點事件中可準確的模擬支持和反對人數(shù)的變化情況,表明方法1的演化精準度較高,高達96%,因為方法1利用采集的微博信息構(gòu)建信息傳播模型,分析信息在微博中的傳播特點,根據(jù)分析結(jié)果建立信息傳播模型,分析用戶在微博熱點事件中的行為屬性,根據(jù)分析結(jié)果模擬微博熱點事件的演化,提高了演化精準度。 1)互聯(lián)網(wǎng)的發(fā)展成為人們進行信息交流的重要平臺,而微博獨特的組織模式促進了觀點傳播的碎片化和網(wǎng)絡(luò)生態(tài)的復(fù)雜化,對此,提出了基于用戶行為屬性的微博熱點事件演化仿真。 2)針對微博熱點事件演化精準度低的問題,構(gòu)建信息傳播模型并分析用戶在微博熱點事件中的行為屬性,其支持人數(shù)和反對人數(shù)的實際變化模擬程度與實際擬合度較高,達到96%和95%。 3)分析用戶行為屬性,根據(jù)分析結(jié)果在信息傳播模型的基礎(chǔ)上準確的模擬微博熱點事件的演化過程,為網(wǎng)絡(luò)輿論的應(yīng)用和研究工作提供了重要依據(jù)。3.2 微博熱點事件演化仿真
4 實驗結(jié)果與分析
5 結(jié)束語