張俊豪,李 楊
(鐵道警察學(xué)院 圖像與網(wǎng)絡(luò)偵查系,河南 鄭州450053)
隨著計算機(jī)、互聯(lián)網(wǎng)技術(shù)特別是移動終端技術(shù)的快速發(fā)展,社交網(wǎng)絡(luò)已經(jīng)成為人們線上交流、獲取信息、發(fā)布信息的一個重要社交平臺。社交網(wǎng)絡(luò)帶給人們便利的同時,也給公安輿情的引導(dǎo)和治理提出了很大的挑戰(zhàn)。在公安網(wǎng)安部門進(jìn)行輿情治理過程中,面臨的主要問題就是技術(shù)手段單一、決策不夠科學(xué)化。本文所提出的基于URL 和PageRank 的公安輿情關(guān)鍵人物評估算法(Keyman Assessment Based on PageRank and URL,KA-PU),就是根據(jù)社交網(wǎng)絡(luò)中真實的輿論消息傳播走向確定某一公安輿情中最關(guān)鍵的核心人物,進(jìn)而為公安網(wǎng)安部門提供理論指導(dǎo)和技術(shù)支持。
評估公安輿情內(nèi)關(guān)鍵人物的話題影響力屬于社交網(wǎng)絡(luò)的研究范疇,類似于社交網(wǎng)絡(luò)中用戶影響力的劃分。近幾年,人們對用戶影響力的研究主要集中在Facebook、Twitter、新浪微博、貼吧、人人網(wǎng)以及微信等[1],目前我國的公安輿情監(jiān)控的重要領(lǐng)域也主要集中于此。
國外對用戶影響力的研究主要集中在用戶行為分析、用戶交互信息分析以及時間度分析三個主流層面上[2]。
國外最初通過用戶的好友數(shù)量進(jìn)行劃分用戶影響力等級,比如Java 等人最初就是通過用戶的粉絲數(shù)目來決定用戶的影響力[3]。但是隨著社會各界重要人物的加入,研究者開始意識到,僅僅依靠粉絲數(shù)量衡量用戶影響力是遠(yuǎn)遠(yuǎn)不夠的,比如Kwak等人研究發(fā)現(xiàn),社交網(wǎng)絡(luò)信息的發(fā)酵和傳播與用戶的粉絲數(shù)并無直接的關(guān)系,即單靠粉絲數(shù)量一個維度衡量用戶影響力是沒有說服力的[4]。2000 年之后,由于各類學(xué)科的大融合,部分研究者開始利用人類行為學(xué)分析用戶行為(發(fā)帖,轉(zhuǎn)帖、評論等),以此得到用戶影響力數(shù)值,并取得了很好的成效,基于用戶行為分析的用戶影響力,不僅能夠衡量用戶的局部影響力,還能夠衡量用戶的全局影響力,此種研究方法一直沿用到現(xiàn)在,并受到廣泛的推崇。用戶行為數(shù)據(jù)的來源非常廣泛,其中網(wǎng)絡(luò)爬蟲是最主流的一種方式,另外網(wǎng)絡(luò)日志也是重要數(shù)據(jù)來源,Goyal通過用戶的日志信息劃分各種行為對用戶影響力的貢獻(xiàn)比重,進(jìn)而衡量用戶影響力[5]。Cha等人從微博用戶的粉絲數(shù)、微博轉(zhuǎn)發(fā)數(shù)以及用戶提及數(shù)三個方面衡量用戶影響力,最終發(fā)現(xiàn)微博轉(zhuǎn)發(fā)數(shù)是決定微博用戶影響力的最為關(guān)鍵因素[6]。Ye 等人在Cha的基礎(chǔ)上細(xì)化用戶的行為,主要包含評論、轉(zhuǎn)發(fā)、回復(fù)、提及等等,并進(jìn)行逐一分析,運(yùn)用不同的模型得出結(jié)論:評論是衡量微博用戶影響力的關(guān)鍵因素[7]。Bakshy E等人根據(jù)路徑追蹤的方法提出了一種URL 追蹤的用戶影響力評估模型[8]。Tang等人根據(jù)圖論等知識,計算出了微博用戶的話題影響力,主要衡量用戶在以特定話題下的局部影響力[9]。Agarwal等人分析了用戶的博文,并根據(jù)博文的傳播質(zhì)量和內(nèi)容屬性評價某一博文的重要性,進(jìn)而挖掘出社交網(wǎng)絡(luò)中的“意見領(lǐng)袖”,之后結(jié)合用戶的行為特征以及博文的綜合影響力得到用戶的影響力范圍[10]。Romero 根據(jù)用戶之間的微博轉(zhuǎn)發(fā)率提出一種新穎的用戶影響力評估方法——IP-influence[11]。由于社交網(wǎng)絡(luò)的時間屬性,即用戶的影響力會隨著時間的推移而改變,所以國外的很多學(xué)者在研究用戶影響力時將時間作為一個重要參數(shù),比如Alsaedi等人將時間維度加到TF-IDF 方法中來自動提取Twitter摘要,然后對結(jié)果進(jìn)行評估[12]。Steeg根據(jù)用戶之間的交互信息以及演化過程找出了隱藏在社交網(wǎng)絡(luò)中真正的“大V”[13]。
國內(nèi)對用戶影響力的研究基本都出現(xiàn)在2006年之后,主要集中在PageRank算法、用戶行為、多學(xué)科融合等領(lǐng)域內(nèi),并在近兩年趨于成熟?;赑ageRank 的微博用戶力研究模型是其中最早的一種評估模型,楊科根據(jù)PageRank算法提出了用于識別微博網(wǎng)絡(luò)領(lǐng)導(dǎo)小組的LeadersRank 算法,該算法能夠識別一組重要的微博用戶[14]。李軍等人根據(jù)微博的特性,提出了一種可以衡量用戶傳播能力的用戶影響力評估模型[15]。丁溫雪等人為了避免出現(xiàn)PageRank 算法中存在的主題漂移現(xiàn)象,提出了TSPR算法,該算法引入時間因子,并采用TF-IDF方法計算微博用戶之間的相似度,大大提升了微博用戶排名的準(zhǔn)確率[16]。Zhai等人在微博用戶行為關(guān)系的基礎(chǔ)上,根據(jù)PageRank提出了一種微博用戶影響力評估算法[17]。毛佳昕等人根據(jù)用戶行為之間的關(guān)系提出了一個能夠預(yù)測用戶影響力大小的分析模型[18]。在國內(nèi),隨著大數(shù)據(jù)的出現(xiàn),多學(xué)科開始不斷融合,國內(nèi)的學(xué)者開始將社會學(xué)、心理學(xué)等各方面的知識運(yùn)用到社交網(wǎng)絡(luò)上,比如肖云鵬等人根據(jù)動力學(xué)模型和傳染病模型提出了一種新型的用戶影響力評估模型[19]。王楠等人根據(jù)區(qū)域交互模型提出了一種新型的用戶影響力評估模型[20]。唐昌宏等人根據(jù)張量分解算法提出了一種影響力用戶識別算法[21]。
以上用戶影響力評估模型都可用于分析計算用戶的影響力,但是都沒能從宏觀的角度考慮用戶之間的關(guān)系,所以缺乏一定的準(zhǔn)確性。本文將從輿情消息的傳播路徑出發(fā),建立涉警輿情用戶的消息轉(zhuǎn)發(fā)網(wǎng)絡(luò),并在此基礎(chǔ)之上更新用戶關(guān)系網(wǎng)絡(luò),真正衡量用戶在某一話題下的用戶影響力。
PageRank 算法是谷歌的核心算法,主要是為了解決網(wǎng)頁排名問題,通過網(wǎng)頁之間的鏈接關(guān)系,建立馬爾科夫矩陣,再經(jīng)過不斷地迭代計算得到網(wǎng)頁權(quán)值的大小排名,權(quán)值越大,網(wǎng)頁就越重要。PageRank算法的核心思想主要有以下兩點[22]:
(1)網(wǎng)頁的鏈入鏈接越多,網(wǎng)頁越重要;
(2)網(wǎng)頁若被某一重要的網(wǎng)頁所指向,那么該網(wǎng)頁也很重要。
PageRank的計算公式如公式1所示:
公式1 中,e 為單位矩陣,P 代表網(wǎng)頁的權(quán)威向量值,d 代表阻尼系數(shù),B 是根據(jù)網(wǎng)頁的鏈接關(guān)系得到的轉(zhuǎn)移矩陣。
通過層次分析法統(tǒng)計分析用戶的幾種網(wǎng)絡(luò)行為可知,在公安輿情網(wǎng)絡(luò)中,真正影響話題發(fā)酵程度的核心因素是用戶的轉(zhuǎn)發(fā)行為,因為轉(zhuǎn)發(fā)是話題擴(kuò)大影響的最根本途徑。因此,在考慮公安輿情內(nèi)的用戶話題影響力時,就需要通過消息的流向分析用戶的真實轉(zhuǎn)發(fā)網(wǎng)絡(luò)。
通過公安輿情消息的轉(zhuǎn)發(fā)網(wǎng)絡(luò)確定關(guān)鍵人物的話題影響力時,不僅要考慮消息傳播的廣度,也要考慮消息傳播的深度。如圖1 所示,其顯示的是公安輿情內(nèi)某一特定消息的轉(zhuǎn)發(fā)傳播路徑。
圖1 微博消息的轉(zhuǎn)發(fā)路徑
在圖1 中,假設(shè)共有用A、B、C、D、E、F 六名用戶,其中箭頭指向代表著輿論消息的流向,從圖中可以看出,輿論消息以A用戶為源頭,經(jīng)用戶B、D、E轉(zhuǎn)發(fā),流向用戶F。直觀地看,用戶F是直接深受用戶E的影響,但是根據(jù)社會學(xué)中的行為動力學(xué),用戶F 轉(zhuǎn)發(fā)該條輿論消息其實是受用戶E、D、B、A 共同的影響,只不過每個用戶對用戶F 的實際作用力有所不同,這就是社交網(wǎng)絡(luò)中的蝴蝶效應(yīng)。
在利用PageRank 評估網(wǎng)絡(luò)用戶的話題影響力時,首先要確定的就是用戶的網(wǎng)絡(luò)關(guān)系圖,圖1是六名用戶的消息轉(zhuǎn)發(fā)關(guān)系圖,根據(jù)行為動力學(xué)可知,通過這種網(wǎng)絡(luò)關(guān)系簡單得到的用戶影響力是不夠準(zhǔn)確的,比如在計算用戶的話題影響力時,根本就考慮不到用戶F 對用戶A 的影響,所以在評估用戶的話題影響力時,需要建立真正的用戶網(wǎng)絡(luò)關(guān)系圖。
為突出用戶之間的關(guān)系,可以把所有用戶的“間接關(guān)系”變?yōu)椤爸苯雨P(guān)系”。如在圖1 中,稱A→B→D→E→F 為某一特定消息傳播的一條URL 路徑,這條URL路徑上的所有用戶都是有“直接關(guān)系”或者“間接關(guān)系”的,把所有的“間接關(guān)系”變?yōu)椤爸苯雨P(guān)系”后,圖1中六名用戶的真實關(guān)系將如圖2所示。
圖2中,實線箭頭代表網(wǎng)絡(luò)用戶原始的“直接關(guān)系”,虛線箭頭代表將“間接關(guān)系”轉(zhuǎn)換后的“直接關(guān)系”,如用戶B指向用戶F代表著用戶F在接受特定消息時,用戶B 起到了橋梁作用,即根據(jù)PageRank算法思想可知,用戶B的話題影響力受用戶F的“間接”影響。在A→B→D→E→F 這條URL 路徑中,原本只有4 條用戶關(guān)系,經(jīng)轉(zhuǎn)發(fā)關(guān)系調(diào)整后,有10 條用戶關(guān)系,不難發(fā)現(xiàn),若存在著一條由N名用戶組成的消息轉(zhuǎn)發(fā)路徑,那么存在的“直接關(guān)系”和“間接關(guān)系”則共有C2N條。
圖2 微博用戶真實關(guān)系網(wǎng)絡(luò)圖
在公安輿情網(wǎng)絡(luò)中,用戶的話題影響力是靠消息傳播的廣度與深度決定的,所以用戶的話題影響力將由消息傳播路徑上的所有用戶共同決定,即輿論消息的傳播意味著影響力的傳播。
由圖2 可知,用戶的真實網(wǎng)絡(luò)關(guān)系圖是由用戶的“直接關(guān)系”和“間接關(guān)系”組成的,雖然“間接關(guān)系”也影響著用戶影響力權(quán)值的分配,但是作用力卻不同于“直接關(guān)系”。在圖2中,用戶F轉(zhuǎn)發(fā)用戶E的微博消息,那么用戶F 不僅對用戶E 的影響力有所影響,更對用戶A、B、D 的用戶影響力也有所影響,因為用戶A、B、D、E、F 同處于一條URL 路徑之上。根據(jù)行為動力學(xué)以及輿論消息的作用力可知,在輿論消息傳播過程中,隨著傳播深度的增加,消息的反饋作用力會逐漸減弱,即用戶F 對用戶A 的影響力貢獻(xiàn)值要遠(yuǎn)遠(yuǎn)小于對用戶E的影響力貢獻(xiàn)值。
在輿論消息的傳播路徑URL中,后面用戶對前面用戶的影響力貢獻(xiàn)值會隨著關(guān)系介數(shù)的增加而逐漸減小,其中衰變因子為α,本文根據(jù)行為動力學(xué)和層次分析法將衰變值α定為0.5。比如在圖2中,用戶F對用戶E、D、B、A的影響力貢獻(xiàn)值會依次減半。
根據(jù)用戶的真實網(wǎng)絡(luò)關(guān)系圖以及微博消息的傳播路徑URL,可確定用戶影響力的權(quán)值分配比例因子,即如公式2所示:
公式2 中B(u,v)代表用戶u 貢獻(xiàn)給用戶v 的話題影響力分配比例因子,n代表最開始節(jié)點到節(jié)點u的URL 路徑長度,(u,v)代表用戶u 到v 的路徑長度。比如在路徑A→B→D→E→F中,用戶F貢獻(xiàn)給用戶A的話題影響力分配比例因子為公式3所示:
同理,用戶D 貢獻(xiàn)給用戶A 的話題影響力分配比例因子為公式4所示:
值得注意的是,本算法還能有效剔除“僵尸粉”對用戶話題影響力的影響,因為本算法中用戶真實網(wǎng)絡(luò)結(jié)構(gòu)是根據(jù)用戶的消息轉(zhuǎn)發(fā)關(guān)系確定的,并不是通過關(guān)注關(guān)系得到的。
基于URL 和PageRank 的算法核心可總結(jié)為如下兩點:
(1)用戶的輿論消息傳播的廣度越大,用戶的話題影響力就越強(qiáng);
(2)用戶的輿論消息傳播的深度越大,用戶的話題影響力就越強(qiáng)。
故本文KA-PU算法的核心可用公式5表示:
公式5 中,KA-PU(v)代表用戶v 的話題影響力,B(u,v)代表輿論消息的轉(zhuǎn)發(fā)者u 貢獻(xiàn)給用戶v的影響力分配比例因子,B為KA-PU算法中的轉(zhuǎn)移矩陣。URL(v)代表以用戶v 為起始節(jié)點的輿論消息傳播路徑上的所有節(jié)點集合。
綜上所述,KA-PU的核心算法如表1所示:
本算法中,根據(jù)Google 給出的阻尼因子d,取值為0.85,根據(jù)PageRank 迭代60 次與59 次的權(quán)值閾值差值,ε取值為0.0001。
本文的實驗數(shù)據(jù)來自于新浪網(wǎng)微博2018 年10月份的一個20人社區(qū),話題為遼寧兩名重刑犯脫逃案件,本次公安輿情在該社區(qū)內(nèi)共出現(xiàn)了有代表性的10條微博消息,產(chǎn)生了856條“間接關(guān)系”。
表1 KA-PU算法
本實驗采用PageRank 和基于用戶的粉絲數(shù)衡量關(guān)鍵人物評估算法(Keyman Assessment Based on the number of User’s Fans,KA-UF)作為對比算法,進(jìn)行綜合的分析比較,采用P@N 作為實驗分析指標(biāo),衡量KA-PU 算法的準(zhǔn)確性,P@N 的計算公式如公式6所示:
公式6 中,AN∩BN代表算法A(B)得到的前N 名用戶話題影響力的交集量,通常關(guān)注的是比較靠前的用戶排名,所以本文N的取值分別為5,10,15。
采用KA-PU對用戶的話題影響力進(jìn)行排序,最終的排序結(jié)果如圖3所示。本文中每一條微博都會產(chǎn)生一個話題影響力,最后將10條微博的話題影響力進(jìn)行加權(quán)融合得到最后的話題影響力,具體參數(shù)由層次分析法確定[23]。
圖3 KA-PU排序結(jié)果
采用PageRank對用戶的話題影響力進(jìn)行排序,排序結(jié)果如圖4所示。
圖4 PageRank排序結(jié)果
采用KA-UF對用戶的話題影響力進(jìn)行排序,排序結(jié)果如圖5所示。
圖5 UIA-UF排序結(jié)果
從上面三個實驗結(jié)果來看,KA-PU排序結(jié)果與PageRank的排序結(jié)果具有一定的相似性,但與KAUF排序結(jié)果看似完全不同。
若以UIA-UF為基線模型,以PageRank和KA-PU為對比模型,那么對比模型所得結(jié)果在P@N指標(biāo)下的表現(xiàn)如表2所示。
表2 以KA-UF為基線算法的P@N值測試結(jié)果
若將PageRank 為基線模型,以KA-UF 和本文的KA-PU算法為對比模型,那么對比模型所得結(jié)果在P@N指標(biāo)下的表現(xiàn)如表3所示。
從以上兩表中可以看出本文的KA-PU 算法在準(zhǔn)確性上都有所提升,并且通過具體的分析可知本文算法與對比算法的調(diào)整幅度非常大。這可以得出兩個結(jié)論:第一,PageRank 與UIA-UF 更為相似;第二,KA-PU比兩個對比算法都準(zhǔn)確。
表3 以PageRank為基線算法的P@N值測試結(jié)果
在KA-PU 中,粉絲最多的ID18 用戶排名第4位,在PageRank中排名第10位,這說明了在KA-PU算法中,僅僅依靠粉絲數(shù)量并不能準(zhǔn)確發(fā)現(xiàn)關(guān)鍵人物。另外,在PageRank算法和本文的算法中,ID4的排名都是第1 位,主要是因為在PageRank 算法中ID4用戶的粉絲影響力較高,粉絲數(shù)也較多,而在本文的算法中,ID4用戶的特定輿情消息(包含轉(zhuǎn)發(fā)的輿情消息)在傳播的廣度和深度上都比較大。在PageRank 中,ID7 用戶排名較為靠后,這是因為ID7用戶的粉絲影響力都不強(qiáng),而在本算法中,排名較為靠前,這是因為ID7 用戶的粉絲以及粉絲的粉絲等轉(zhuǎn)發(fā)了用戶ID7的8條消息,類似的還有ID5用戶等。通過本算法可確定在本次公安輿情中,ID4 和ID7為最關(guān)鍵的核心人物。
從上面的分析可得知KA-PU 算法能夠從消息傳播的角度全面衡量用戶的話題影響力,結(jié)果更具有說服力。
KA-PU 算法能夠為公安網(wǎng)監(jiān)部門在輿情導(dǎo)控中提供建議,比如在進(jìn)行輿情監(jiān)控時,可根據(jù)該算法確定影響公安輿情發(fā)展的關(guān)鍵人物,并對其進(jìn)行實時監(jiān)控,另外通過本算法可以提取出公安輿情傳播的主體框架,借此,可對輿情的下一步發(fā)展以及輿情的導(dǎo)控做出科學(xué)的判斷。
本文提出的基于URL和PageRank的KA-PU算法,能夠根據(jù)實際的輿情消息轉(zhuǎn)發(fā)路徑確定用戶之間的“間接關(guān)系”,并以此衡量公安輿情中關(guān)鍵人物的話題影響力,同時也能夠很好地避開“僵尸粉”的影響。實驗結(jié)果證明KA-PU具有更高的準(zhǔn)確性和更好的說服力,能夠為公安輿情管控提供決策支持。