郭 奕,徐 亮,熊雪軍
西華大學(xué) 電氣與電子信息學(xué)院,成都610039
移動互聯(lián)網(wǎng)技術(shù)的應(yīng)用已經(jīng)取得卓越成效,催生了各種各樣的社交平臺,全球每天有數(shù)十億人活躍在互聯(lián)網(wǎng)中,消息的傳播速度、傳播廣度、影響力與日俱增。人們既是消息的接收者,也是傳播者和生產(chǎn)者,能在網(wǎng)絡(luò)中進行觀點輸出,對商業(yè)產(chǎn)品、公共事件以及政府政策等事物發(fā)表自己的看法。社交網(wǎng)絡(luò)中的每個個體都會受到其他個體觀點的影響或擁有影響其他個體觀點的能力。但是每個個體影響其他個體的能力大小不同,在社交網(wǎng)絡(luò)的消息傳播過程中,對普通個體的觀點或行為具有極強的引導(dǎo)力和影響力的那些人可以被稱為意見領(lǐng)袖。
社交網(wǎng)絡(luò)中的意見領(lǐng)袖挖掘(opinion leader mining),又稱意見領(lǐng)袖識別(opinion leader identification)或意見領(lǐng)袖發(fā)現(xiàn)(opinion leader discovery),其實質(zhì)是在復(fù)雜的社交網(wǎng)絡(luò)中,找出那些對其他個體的觀點形成、行為趨勢起著重要作用的少數(shù)個體。挖掘出這些少數(shù)個體并發(fā)揮他們的特殊作用,可以在政治、經(jīng)濟、社會等領(lǐng)域產(chǎn)生積極效果。政治上可以促進政府政策與制度的宣傳與實施,經(jīng)濟上可以幫助企業(yè)推廣產(chǎn)品,社會上一方面可以引起大家對社會公共問題的廣泛討論、引領(lǐng)輿論的方向、引導(dǎo)社會價值取向朝著健康方向發(fā)展;另一方面可以針對網(wǎng)絡(luò)上的輿情進行監(jiān)控,預(yù)防和及時處理重大輿論事件,維護社會穩(wěn)定。
本文參考了眾多學(xué)者的論文,主要包括收錄于SCI 和IEEE Xplore 中的期刊論文、會議論文以及CNKI 上的碩博畢業(yè)論文。這些論文對“意見領(lǐng)袖”的起源、挖掘、應(yīng)用這三方面進行了廣泛的研究,給本文提供了豐富的參考資源。中英文檢索關(guān)鍵詞如表1 所示。對于在CNKI上檢索到的文獻進行了摘要關(guān)鍵詞詞頻分析,生成詞云圖如圖1 所示,從中可以看出意見領(lǐng)袖挖掘所用到的技術(shù)和應(yīng)用場景。
本文首先詳細闡述了意見領(lǐng)袖的定義和特點以及挖掘意見領(lǐng)袖的意義;然后整理了現(xiàn)有的意見領(lǐng)袖挖掘方法,將其歸納為四類實現(xiàn)方法,并分別闡述了這四類實現(xiàn)方法的基本思想、關(guān)鍵技術(shù)以及各自的優(yōu)缺點;最后,結(jié)合現(xiàn)有方法的不足以及相關(guān)領(lǐng)域的最新研究動態(tài),探討了意見領(lǐng)袖挖掘的未來研究方向。
Table 1 Retrieve keywords表1 文獻檢索關(guān)鍵詞
Fig.1 Wordcloud of keywords圖1 文獻關(guān)鍵詞詞云圖
“意見領(lǐng)袖”一詞起源于拉扎斯菲爾德的著作《人民的選擇》[1],書中拉扎斯菲爾德定義了兩級傳播理論,即消息的傳播遵循這樣一個過程:消息由大眾媒體經(jīng)過意見領(lǐng)袖再傳到普通受眾。拉扎斯菲爾德等人認為,意見領(lǐng)袖最先知曉消息,根據(jù)自己經(jīng)驗、知識對消息進行處理,再將其傳播給其他普通個體。對消息的處理工程中往往包含他們自己的觀點,這對他人的態(tài)度,甚至是行為起著重要的導(dǎo)向作用。
有很多學(xué)者對社交網(wǎng)絡(luò)中意見領(lǐng)袖做出了解釋,目前并沒有一個比較權(quán)威的定義,但是這些定義大都體現(xiàn)了意見領(lǐng)袖對人們態(tài)度、觀點、行為的影響[2-5]。經(jīng)過總結(jié),本文將意見領(lǐng)袖定義為:在社交網(wǎng)絡(luò)的消息傳播過程中,對普通個體的觀點或行為具有極強的引導(dǎo)力和影響力,直接或間接地推動普通個體觀點的形成,影響其觀點傾向甚至是行為趨勢,擴大了消息的傳播廣度和深度的少數(shù)個體。
意見領(lǐng)袖可以分為三類:觀點型意見領(lǐng)袖、群體型意見領(lǐng)袖、事件型意見領(lǐng)袖[6]。意見領(lǐng)袖對普通個體展現(xiàn)出的強大影響力與他們自身的特點密不可分,而不同意見領(lǐng)袖往往具有不一樣的特點。
觀點型意見領(lǐng)袖:這一類意見領(lǐng)袖往往具有一定的專業(yè)性,掌握了一個或多個領(lǐng)域一定的專業(yè)知識,擁有較為權(quán)威的背景和豐富的經(jīng)驗。在相關(guān)的網(wǎng)絡(luò)社區(qū)中,他們的觀點往往能被多數(shù)人認可。
群體性意見領(lǐng)袖:這一類意見領(lǐng)袖可能并不是在某一領(lǐng)域的專家,但是他們擁有豐富的信息資源和廣泛的關(guān)注度。例如一些官方媒體或自媒體賬號,他們憑借高超的信息整合能力也能形成較為專業(yè)的內(nèi)容而被大眾廣泛接受。
事件型意見領(lǐng)袖:這一類意見領(lǐng)袖指的是某個熱點事件的主體或與之相關(guān)的人。他們可能不具備專業(yè)性,但因為他們處于熱點事件之中從而擁有廣泛的關(guān)注度,他們的觀點、行為同樣對大眾擁有極強的影響力,只是這種影響力具有一定的時效性,大多會隨著事件熱度的降低而逐漸消失。
其中事件型意見領(lǐng)袖隨熱點事件而產(chǎn)生,通過熱點事件就能夠發(fā)現(xiàn),本文提到的意見領(lǐng)袖挖掘,主要是指觀點型意見領(lǐng)袖與群體型意見領(lǐng)袖。
在社交網(wǎng)絡(luò)的消息傳播過程中,意見領(lǐng)袖既有積極影響也有消極影響。積極的影響力包括:設(shè)置網(wǎng)絡(luò)議事日程、掌握輿論走向、吸引眾人發(fā)聲。消極的影響力包括:濫用話語權(quán)、誤導(dǎo)受眾群體[7]。
積極的影響力可以加以利用,而消極的影響力則應(yīng)當(dāng)?shù)玫焦芸?。目前意見領(lǐng)袖在眾多領(lǐng)域中都發(fā)揮著極其重要的作用。在商業(yè)營銷中,意見領(lǐng)袖可以提高商品的知名度,開展更加吸引人的互動式營銷,以此來提高商品的銷量[8-10];在輿情監(jiān)控方面,意見領(lǐng)袖對社會輿論的方向有一定的引導(dǎo)作用,挖掘出意見領(lǐng)袖有助于對社會網(wǎng)絡(luò)輿情進行有效的引導(dǎo)和防控[11];在政策宣傳方面,通過意見領(lǐng)袖對政策的廣泛傳播能夠讓大眾了解政策的內(nèi)容并引發(fā)討論,使民眾積極參與到政策的制定過程中,這有助于政策的推行和完善。
根據(jù)所采用的技術(shù)不同,本文將現(xiàn)有的意見領(lǐng)袖挖掘方法歸納為四類,分別為基于評分規(guī)則的方法、基于社交網(wǎng)絡(luò)圖的方法、基于影響傳播模型的方法、多維融合的方法。下文將分別闡述這些方法的基本思想、關(guān)鍵技術(shù)以及各自的優(yōu)缺點。
2.1.1 方法概述
基于評分規(guī)則的意見領(lǐng)袖挖掘方法的主要思想是為社交網(wǎng)絡(luò)中的用戶影響力建立一定的評價規(guī)則,利用這些規(guī)則來衡量一個用戶是否為意見領(lǐng)袖。其實現(xiàn)思路如圖2 所示,基本步驟如下:
步驟1選取特定的用戶信息作為特征信息;
步驟2基于選定的特征信息構(gòu)建評分公式;
步驟3根據(jù)評分公式計算所有用戶的得分并排序,將得分高的用戶視為意見領(lǐng)袖。
Fig.2 Methods based on scoring rules圖2 基于評分規(guī)則的方法
這類方法的關(guān)鍵在于選取哪些用戶信息作為特征信息,以及如何基于這些信息來構(gòu)建評分公式。因此,基于此方法的研究成果主要集中在特征信息的選取和評分規(guī)則的構(gòu)建這兩方面。
2.1.2 特征信息選取
網(wǎng)絡(luò)社交平臺上可以提取出用戶的眾多信息,其中主要包含屬性信息和行為信息。不同的平臺含有的用戶信息不同,本文以包含用戶信息較多的新浪微博平臺為例,列出了該平臺中擁有的用戶信息類型及具體內(nèi)容,如表2 所示。
Table 2 Users'information on Weibo表2 微博平臺用戶信息
目前并沒有研究或者理論表明,哪種用戶信息最能體現(xiàn)用戶的意見領(lǐng)袖特性,即便是“粉絲數(shù)”這樣能直接反映用戶影響力的信息都會因為“水軍”和“僵尸粉”等因素的干擾而使得其可信度降低。因此研究者們都是從邏輯推理的角度選擇適當(dāng)?shù)挠脩粜畔⒆鳛樘卣餍畔?。如張倩基于發(fā)布推文數(shù)量、轉(zhuǎn)發(fā)數(shù)量、回復(fù)數(shù)量等作為特征信息,提出用戶領(lǐng)導(dǎo)力(包括用戶活躍度、用戶影響力、用戶擴散中心度)計算公式來確定最終的意見領(lǐng)袖[12]。Li等人以轉(zhuǎn)發(fā)、評論、發(fā)文、瀏覽行為等為特征信息,提出以專業(yè)性、創(chuàng)新性、影響力和活躍度的綜合值來選出意見領(lǐng)袖[13]。袁竹星提出3 個一級指標(biāo)(用戶歷史活躍度、用戶歷史傳播力、用戶活躍度)和8 個二級指標(biāo)(包括原創(chuàng)微博活躍度、粉絲數(shù)、被轉(zhuǎn)發(fā)數(shù)等)來計算用戶的初始影響力[14],如表3 所示。
Table 3 Example of feature extraction表3 特征信息提取示例
2.1.3 評分規(guī)則的構(gòu)建
目前的評分規(guī)則多種多樣,主流方式是提取多種特征信息進行線性或非線性組合,也有提取較少的特征信息并引入其他理論構(gòu)建的評分規(guī)則。本小節(jié)主要從特征信息、創(chuàng)新點和局限三方面分析三個典型的評分規(guī)則,如表4 所示。
TTV(total trust value)由Aghdam 等人提出[15],僅僅選取了用戶的評論數(shù)作為特征信息,基于此計算JC(Jaccard)系數(shù)來衡量某一用戶與其他用戶信任關(guān)系強度,其評分公式便于計算,但特征信息僅僅包含用戶的評論數(shù),準確性不高;帶懲罰項的評分公式由王君澤等人提出[16],其在一定程度上能夠抑制數(shù)據(jù)中的一些非自然現(xiàn)象的影響,優(yōu)化領(lǐng)袖的識別結(jié)果,但這要求懲罰項設(shè)置要合理,否則效果適得其反;MilestonesRank 由Riquelme 等人提出[17],Milestones的提出意味著不同時段的數(shù)據(jù)所能夠表征的用戶重要性程度不同,邏輯上這符合社交平臺中話題討論的規(guī)律,考慮時間因素,提高了意見領(lǐng)袖的識別結(jié)果,實現(xiàn)過程相比于其他一般的評分規(guī)則稍加復(fù)雜。
Table 4 Comparison among three scoring rules表4 三個評分規(guī)則的比較
2.1.4 方法述評
某些社交網(wǎng)絡(luò)中蘊含了許多能夠反映意見領(lǐng)袖特征的信息,基于評分規(guī)則的方法充分利用這些信息來構(gòu)建評分規(guī)則對用戶進行評分,從而挖掘意見領(lǐng)袖。當(dāng)可以獲得的用戶信息比較單一時,構(gòu)建的評分規(guī)則并不能夠很好地體現(xiàn)用戶在社交網(wǎng)絡(luò)中的重要性。因此該方法僅僅適用于擁有較為豐富的用戶信息的場景。在構(gòu)建評分規(guī)則之前,應(yīng)當(dāng)結(jié)合實際的應(yīng)用場景挑選反映領(lǐng)袖特質(zhì)的用戶信息作為特征信息。多數(shù)評分規(guī)則是特征信息之間的線性組合,因此分析不同特征信息之間的關(guān)系及其重要性程度以構(gòu)建合理的評分規(guī)則尤為重要。
基于評分規(guī)則的最大的優(yōu)點在于原理簡單,復(fù)雜度低,能夠在較短時間內(nèi)獲取較為可靠的結(jié)果,適用于大型網(wǎng)絡(luò)。然而,此方法也存在著如下不足:(1)此方法會對社交網(wǎng)絡(luò)中所有用戶進行無差別的計算,但意見領(lǐng)袖是少數(shù)用戶,大多數(shù)用戶明顯不可能是意見領(lǐng)袖,這無疑耗費了大量不必要的時間和算力;(2)遷移性差,不同社交網(wǎng)絡(luò)蘊含的用戶信息不同,針對某一社交網(wǎng)絡(luò)設(shè)計的規(guī)則無法遷移到另一社交網(wǎng)絡(luò)中進行使用;(3)片面性,僅僅考慮了一些數(shù)量信息,沒有考察社交網(wǎng)絡(luò)中的文本信息和用戶間的拓撲結(jié)構(gòu)關(guān)系。
2.2.1 方法概述
如果將社交網(wǎng)絡(luò)中每一個用戶看成一個節(jié)點,用戶之間各種交互行為,比如點贊、轉(zhuǎn)發(fā)、評論等蘊含了這些節(jié)點之間的某種聯(lián)系。如果把這種聯(lián)系用連接節(jié)點之間的線來表示,那么社交網(wǎng)絡(luò)就可以被表示為一個復(fù)雜的社交網(wǎng)絡(luò)圖。社交網(wǎng)絡(luò)圖中蘊含著豐富的拓撲結(jié)構(gòu)信息,于是大量的研究從用戶間拓撲結(jié)構(gòu)的角度探索用戶重要性的計算方法,進而挖掘出意見領(lǐng)袖,該方法的實現(xiàn)過程如圖3 所示。
Fig.3 Procedure of method based on social network圖3 基于社交網(wǎng)絡(luò)圖的方法處理流程
從圖3 中可以看出,基于社交網(wǎng)絡(luò)圖的意見領(lǐng)袖挖掘方法的重點在于社交網(wǎng)絡(luò)圖的構(gòu)建以及節(jié)點重要性的計算,下面將分別對這兩個重點內(nèi)容的研究進行介紹。
2.2.2 社交網(wǎng)絡(luò)圖的構(gòu)建
一般來說社交網(wǎng)絡(luò)圖可以被定義為G=(V,E,W)。其中V代表節(jié)點集合,即社交網(wǎng)絡(luò)中的所有用戶;E是連接用戶之間的邊的集合,邊代表節(jié)點之間的聯(lián)系;W代表各邊的權(quán)重集合,可以表征節(jié)點之間聯(lián)系的強弱。將圖抽象為數(shù)學(xué)表達即可以表示為一個鄰接矩陣。
權(quán)重的確定可以根據(jù)實際網(wǎng)絡(luò)中用戶間的交互關(guān)系來確定,例如肖宇等人通過BBS 網(wǎng)絡(luò)中用戶共同參與討論的次數(shù)來確定權(quán)重[18],仇麗青等人通過用戶之間發(fā)布微博數(shù)與轉(zhuǎn)發(fā)數(shù)的比例作為權(quán)重[19]。
根據(jù)網(wǎng)絡(luò)圖有向或無向,有權(quán)重或無權(quán)重,可以構(gòu)建出有向有權(quán)網(wǎng)絡(luò)圖、有向無權(quán)網(wǎng)絡(luò)圖、無向有權(quán)網(wǎng)絡(luò)圖、無向無權(quán)網(wǎng)絡(luò)圖,如圖4 所示。
有向網(wǎng)絡(luò)中節(jié)點間交互是單向的,而無向網(wǎng)絡(luò)中節(jié)點間交互是雙向的。針對不同類型的社交網(wǎng)絡(luò),就可以構(gòu)建不同的社交網(wǎng)絡(luò)圖。例如在知乎這樣的問答網(wǎng)絡(luò)中,問題回答者占主導(dǎo)地位,則可以理解為有向網(wǎng)絡(luò),節(jié)點方向由回答者指向提問者和其他閱讀者。相比于知乎,微博這樣的社交平臺中會存在大量的評論信息,評論者的影響力不可忽略,可以理解為無向網(wǎng)絡(luò)。
2.2.3 重要性計算
社交網(wǎng)絡(luò)圖中的重要性計算主要是從拓撲結(jié)構(gòu)角度對網(wǎng)絡(luò)中所有節(jié)點的重要性進行衡量,反映網(wǎng)絡(luò)中節(jié)點在網(wǎng)絡(luò)中的位置或拓撲關(guān)系的重要性。本小節(jié)主要分析圖論中常見的幾個中心性度量指標(biāo)以及經(jīng)典的PageRank 算法。
Fig.4 Four types of social network graph圖4 四類社交網(wǎng)絡(luò)圖
(1)中心性度量
中心性是衡量網(wǎng)絡(luò)中節(jié)點重要性的指標(biāo),早在20 世紀Freeman 就提出了兩種節(jié)點中心性指標(biāo):度中心性(degree centrality,DC)和中介中心性(betweenness centrality,BC)[20]。后續(xù)又有人提出了接近中心性(closeness centrality,CC)和特征向量中心性(eigenvector centrality,EC)[21]等多種中心性衡量指標(biāo),它們的含義如表5 所示,表中N代表網(wǎng)絡(luò)中的節(jié)點數(shù)量。
Table 5 Four types of centrality measures表5 四種中心性度量指標(biāo)
度中心性在無向圖中表征某一節(jié)點與網(wǎng)絡(luò)鄰居節(jié)點的關(guān)聯(lián)程度,是節(jié)點直接的、局部的重要性衡量指標(biāo)[20,22];接近中心性表征的是網(wǎng)絡(luò)中某一節(jié)點與其他節(jié)點的接近程度,以節(jié)點之間的距離表征節(jié)點的重要性程度[23-25];中介中心性表示經(jīng)過節(jié)點vi的最短路徑數(shù),即網(wǎng)絡(luò)中其他節(jié)點之間的最短路徑必須經(jīng)過節(jié)點vi,這樣的路徑越多則表示該節(jié)點對信息傳播越重要[20,26-27];特征向量中心性是一種同時考慮鄰居節(jié)點數(shù)量及其重要性的衡量指標(biāo)[28-29],更能反映社交網(wǎng)絡(luò)中的用戶間關(guān)系,其中PageRank 的應(yīng)用和研究最為廣泛,故在后文單獨進行分析。
(2)PageRank 及其改進
PageRank 由Page 和Brin 于1998年提出[30],本質(zhì)上屬于Eigenvector Centrality 中的一種,被用于計算網(wǎng)頁的重要性,其計算表達式如式(1)所示。式中N為網(wǎng)頁數(shù)量,PR(pi)代表網(wǎng)頁pi的PageRank值,M(pi)是指向網(wǎng)頁pi的所有網(wǎng)頁的集合,L(pj)是網(wǎng)頁pi所指向網(wǎng)站的數(shù)量,d是一個值為0 到1 的阻尼系數(shù),經(jīng)實驗驗證將d設(shè)為0.85 比較合適[31-32]。
將PageRank 算法應(yīng)用于意見領(lǐng)袖挖掘任務(wù)時主要存在兩個問題:
問題1原始算法中每個節(jié)點的初始PR 值相同,這與社交網(wǎng)絡(luò)中不同節(jié)點間影響力大小不同的情況不符,該如何確定節(jié)點影響力初值?
問題2原始算法中節(jié)點PR 值平均分配給與其相連的節(jié)點,這與社交網(wǎng)絡(luò)中同一個節(jié)點對不同節(jié)點的影響力大小不同的情況不符,該如何確定節(jié)點影響力分配權(quán)重?
研究者們對上述問題進行算法改進,形成了多種更加適用于社交網(wǎng)絡(luò)中意見領(lǐng)袖挖掘的算法,較為典型的如表6 所示。從表中可以看出改進后的PageRank 算法通過將用戶的屬性信息和行為信息納入考慮,解決了初值問題和權(quán)重問題。雖然各種方法采用的數(shù)據(jù)集或評價指標(biāo)不同,但可以肯定的是,它們都不同程度地提高了挖掘效果。除此之外,文獻[39-41]也對PageRank 進行了改進,但是基本思路與表格中方法的思路類似,故而沒有列出。
2.2.4 方法述評
基于社交網(wǎng)絡(luò)圖的意見領(lǐng)袖挖掘方法著重從用戶間拓撲結(jié)構(gòu)關(guān)系,利用網(wǎng)絡(luò)分析中的一系列重要性衡量指標(biāo)來挖掘意見領(lǐng)袖,著重表現(xiàn)用戶在網(wǎng)絡(luò)中位置上的重要性。社交網(wǎng)絡(luò)圖的構(gòu)建與節(jié)點重要性的計算是此方法的兩個關(guān)鍵步驟。構(gòu)建社交網(wǎng)絡(luò)圖要參考實際網(wǎng)絡(luò)中的用戶信息和交互行為,如果無法構(gòu)建社交網(wǎng)絡(luò)圖,就不能使用此方法。
節(jié)點重要性的計算方法中,度中心性、鄰近中心性、中介中心性從不同方面都能在一定程度上表征節(jié)點在網(wǎng)絡(luò)中的重要性。但單獨使用三者中任何一個指標(biāo)直接挖掘意見領(lǐng)袖都不能得到比較可靠的結(jié)果,因此它們往往只作為挖掘任務(wù)的一部分影響因素而不單獨使用。
PageRank 算法作為特征向量中心性中的一種,同時考慮與節(jié)點相連的數(shù)量及其重要性,可靠性相對較高,可以將其單獨應(yīng)用于意見領(lǐng)袖挖掘。針對PageRank 算法的不足,一系列改進的PageRank 算法將豐富的用戶信息與用戶間拓撲關(guān)系結(jié)合起來,彌補了基于評分規(guī)則的方法沒有考慮用戶間拓撲關(guān)系的缺點,使挖掘結(jié)果可靠性大幅提升。但由于Page-Rank 算法迭代過程需要進行大量的計算,耗時長,其僅僅適用于數(shù)十萬節(jié)點數(shù)量的網(wǎng)絡(luò),對百萬級節(jié)點的大型網(wǎng)絡(luò)不具備適應(yīng)性。
Table 6 Comparison of different methods based on PageRank表6 改進的PageRank 算法對比
2.3.1 方法概述
挖掘意見領(lǐng)袖的目的就是希望發(fā)揮其影響力,盡可能多地影響他人,即最大化影響范圍。如果能刻畫出一個人的影響力范圍,那么影響范圍大的則可以認為是意見領(lǐng)袖。因此意見領(lǐng)袖的挖掘可以看成是一個影響最大化問題,即嘗試在網(wǎng)絡(luò)中找出給定數(shù)目的K個節(jié)點使得其在網(wǎng)絡(luò)中的影響范圍最大,然后認定這K個節(jié)點為意見領(lǐng)袖。該方法的大致流程如圖5 所示。
Fig.5 Procedure of methods based on influence transmission model圖5 基于影響傳播模型的方法處理流程
(1)基于用戶信息構(gòu)建社交網(wǎng)絡(luò),與2.2 節(jié)所述社交網(wǎng)絡(luò)圖的構(gòu)建相同,但一般構(gòu)建為有權(quán)有向圖;(2)選擇一個傳播模型來確定消息傳播規(guī)則;(3)設(shè)計算法實現(xiàn)傳播模型,模擬消息在社交網(wǎng)絡(luò)中傳播,以此尋找影響范圍最廣的K個節(jié)點,將它們視為意見領(lǐng)袖。該方法的研究重點并不在社交網(wǎng)絡(luò)圖的構(gòu)建,而主要集中在影響傳播模型和消息傳播模擬這兩部分。
2.3.2 影響傳播模型
影響最大化問題的研究需要基于特定的傳播模型,傳播模型規(guī)定了用戶的影響是如何在網(wǎng)絡(luò)中進行擴散的。根據(jù)傳播模型設(shè)定規(guī)則,就可以表征出一個節(jié)點的影響范圍。目前研究最多、應(yīng)用最廣泛的模型有兩個:獨立級聯(lián)模型(independent cascade,IC)[42]與線性閾值模型(linear threshold,LT)[43]。
線性閾值模型[43-45]由Granovetter 于1978 年提出,在該模型中,網(wǎng)絡(luò)中的節(jié)點存在激活和靜默(未被激活)兩種狀態(tài)。節(jié)點V是否能被激活由它的激活閾值和它所有前驅(qū)節(jié)點的作用及權(quán)重共同決定。線性閾值模型如圖6 所示,圖中V表示節(jié)點,特別地,VS0和VS1表示初始節(jié)點,E表示節(jié)點間影響大小,T表示節(jié)點的激活閾值。
Fig.6 Linear threshold model圖6 線性閾值模型
獨立級聯(lián)模型最早由Goldenberg 等人提出,與線性閾值模型相區(qū)別,線性閾值模型中的激活條件并不是一個閾值,而是一個概率,它是一個基于概率的模型[42,45-47]。如果給定K個初始激活節(jié)點,那么該模型下的影響傳播過程如下:K個初始節(jié)點可以激活與自己相連的靜默態(tài)節(jié)點,激活成功的概率一定,且這一概率在不同節(jié)點之間是相同的,稱為傳播概率。對某一靜默態(tài)的節(jié)點V,激活態(tài)節(jié)點只有一次機會去激活。獨立級聯(lián)模型示意圖如圖7 和圖8 所示,P表示傳播概率。
Fig.7 Independent cascade model(activation failed)圖7 獨立級聯(lián)模型(激活失敗)
Fig.8 Independent cascade model(activation succeeded)圖8 獨立級聯(lián)模型(激活成功)
除了上述的兩個模型之外,研究者們還提出很多其他的模型,比如觸發(fā)模型(triggering model)[48]、遞減級聯(lián)模型(decreasing cascade model)[48]、加權(quán)級聯(lián)模型(weighted cascade model)等[49]。這些模型都是在上述兩種模型上的改進,不再贅述。
2.3.3 影響最大化問題
影響最大化問題就是給定傳播模型,在網(wǎng)絡(luò)中找出K個節(jié)點,模擬消息傳播,使得K個節(jié)點的影響范圍最大。針對這一問題,目前的研究中主要有如下三類算法:
貪心算法:最基本的貪心算法是Kempe 等人提出的BasicGreedy 算法[48],此類算法尋求最廣的影響范圍,但時間復(fù)雜度極高,不具有伸縮性。
啟發(fā)算法:最基本的啟發(fā)算法同樣由Kempe 等人提出,叫作Degree Centrality[48]。此類算法的影響范圍無法匹配貪心算法,但特點是時間復(fù)雜度非常低,具有伸縮性。
其他算法:指基于貪心算法或者啟發(fā)算法進行外部改進而形成的算法,多是將貪心算法和啟發(fā)算法進行結(jié)合,或是對傳播模型進行改進。
三類算法的研究成果如表7 所示。表中僅僅展示了一部分較為代表性的算法,并分析了它們各自的創(chuàng)新點和是否具備伸縮性。伸縮性指當(dāng)網(wǎng)絡(luò)節(jié)點數(shù)量劇增時,其運行時間是否還能保持可接受范圍。具備伸縮性則說明該方法能夠應(yīng)用于百萬級大型網(wǎng)絡(luò),反之不行。此外需要說明的是,大多數(shù)學(xué)者從研究影響最大化問題本身出發(fā),主要是對貪婪算法效率低與啟發(fā)算法傳播范圍小兩方面進行改進,而少有結(jié)合社交網(wǎng)絡(luò)中意見領(lǐng)袖挖掘任務(wù)的特點進行相應(yīng)優(yōu)化,類似的還有文獻[60-63]中提及的方法。
2.3.4 方法述評
基于影響傳播模型的方法同樣要基于社交網(wǎng)絡(luò)圖,但與2.2 節(jié)中基于社交網(wǎng)絡(luò)圖的方法不同的是,該方法是一種動態(tài)的方法,通過模擬信息的傳播過程,捕捉拓撲結(jié)構(gòu)上承載的動態(tài)信息,量化網(wǎng)絡(luò)中節(jié)點的影響范圍以挖掘出意見領(lǐng)袖。影響傳播模型是對現(xiàn)實世界消息傳播過程的簡單抽象,規(guī)定影響在社交網(wǎng)絡(luò)的傳播規(guī)則?;趥鞑ヒ?guī)則解決影響最大化問題就是實現(xiàn)意見領(lǐng)袖挖掘的過程。這是一種客觀的方法,可靠性高,只要用戶間拓撲關(guān)系已知就可以采用此方法取得較為可靠的結(jié)果。
Table 7 Comparison of different methods based on influence diffusion model表7 基于影響傳播模型的挖掘方法對比
目前解決影響最大化問題的算法在追求最大的影響范圍的同時,盡可能地降低時間復(fù)雜度。雖已經(jīng)取得一些重大進步,但仍存在如下三個問題:(1)貪心算法以節(jié)點為單位模擬信息傳播使得計算量隨著網(wǎng)絡(luò)規(guī)模的上升而急劇上升,且無法避免。面對實際情況中百萬級甚至是千萬級節(jié)點個數(shù)的社交網(wǎng)絡(luò)時,該方法并不適用。(2)現(xiàn)實中的消息傳播規(guī)律復(fù)雜得多,傳播模型中傳播規(guī)則的設(shè)定并不一定能很好地模擬社交網(wǎng)絡(luò)中的消息的傳播規(guī)律。(3)沒有充分利用社交網(wǎng)絡(luò)中豐富的用戶信息。
上述問題中,問題1 和問題2 實際是一對矛盾體。要讓傳播模型更加貼近真實世界就需要添加相應(yīng)的規(guī)則,這必然會增加模型的復(fù)雜度,對大型網(wǎng)絡(luò)的適應(yīng)性更差。針對問題3,本文認為可以借鑒2.2節(jié)PageRank 的改進思路,利用豐富的用戶信息設(shè)定傳播模型中的閾值、權(quán)重或概率。在不改變傳播規(guī)則的前提下,即不改變傳播模型算法復(fù)雜度,使其更加適用于社交網(wǎng)絡(luò)中的意見領(lǐng)袖挖掘任務(wù)。
前文所述的三種方法各有優(yōu)缺點,研究者們綜合考慮各個方法的優(yōu)點,提出了融合拓撲結(jié)構(gòu)信息的評分規(guī)則的方法。此外,在使用原始方法之前加入主題社區(qū)劃分和文本情感傾向分析,分別形成了面向主題的意見領(lǐng)袖挖掘方法與融合文本信息的挖掘方法。本節(jié)將敘述分析上述三種方法各自的思路與特點。
2.4.1 融合拓撲信息的評分規(guī)則
基于評分規(guī)則的意見領(lǐng)袖挖掘方法僅僅考察了用戶的一些基本的數(shù)量信息,并沒有考慮到用戶之間形成的拓撲結(jié)構(gòu)關(guān)系。而基于社交網(wǎng)絡(luò)圖的方法中有多種重要性衡量指標(biāo)。兩種方法具有互補性,因此研究者們將社交網(wǎng)絡(luò)圖中的節(jié)點重要性衡量指標(biāo)引入評分規(guī)則作為其中的重要組成部分,這樣同時考慮了用戶信息和結(jié)構(gòu)信息,如圖9 所示。
將兩種方法結(jié)合后,挖掘效果得到進一步提高。例如,宋倩倩等人提出基于用戶粉絲關(guān)注度、粉絲影響力、用戶轉(zhuǎn)發(fā)消息率等信息的用戶領(lǐng)導(dǎo)力計算公式,然后結(jié)合度中心性來挖掘意見領(lǐng)袖,將領(lǐng)導(dǎo)力得分高且中心性明顯的用戶視為意見領(lǐng)袖[64]。Cao等人提出了PCA-SNA(principal component analysissocial network analysis)算法[65],該算法結(jié)合節(jié)點的度中心性、鄰近中心性、中介中心性,采用主成分分析法(PCA)確定三者的權(quán)重得出用戶最終的重要性結(jié)果,從而挖掘出意見領(lǐng)袖。
Fig.9 Scoring rules integrated with topological information圖9 融合拓撲信息的評分規(guī)則
2.4.2 面向主題社區(qū)的意見領(lǐng)袖挖掘
社交網(wǎng)絡(luò)中用戶之間的交互通常以某一特定的主題而展開,不同的主題下都存在著意見領(lǐng)袖,張米等人通過實驗也證明主題特征是意見領(lǐng)袖不可忽略的一個特征[46]。因此針對網(wǎng)絡(luò)中明顯存在的社區(qū)特性,研究者們提出了面向主題的意見領(lǐng)袖挖掘[66],先對社交網(wǎng)絡(luò)中的用戶進行主題社區(qū)劃分,再使用傳統(tǒng)的挖掘方法進行挖掘,如圖10 所示。
Fig.10 Opinion leader mining for thematic community圖10 面向主題社區(qū)的意見領(lǐng)袖挖掘
典型的面向主題社區(qū)的挖掘方法有文獻[67-72]中所提出的一系列方法,它們之間的最大區(qū)別在于主題社區(qū)劃分方法不同,社區(qū)劃分后所采用的意見領(lǐng)袖挖掘方法不同。而社交網(wǎng)絡(luò)中的主題社區(qū)發(fā)現(xiàn)方法有多種,主要可以分為啟發(fā)式算法、基于優(yōu)化的算法、聚類算法[73]。其中啟發(fā)式算法有GN(Girvan and Newman)算法、派系過濾算法等[74-75];KL(Kernighan and Lin)算法、基于最大流或最大割的算法[76-78];聚類算法中又分為基于相似度的層次聚類和混合聚類算法[73]。主題社區(qū)發(fā)現(xiàn)本身就是一個重要的研究課題,但不屬于本文主要研究內(nèi)容,故不再贅述。
綜上所述,面向主題的意見領(lǐng)袖挖掘?qū)⒄麄€網(wǎng)絡(luò)劃分成多個主題社區(qū),分別挖掘出各個主題下的意見領(lǐng)袖。此方法具有如下特點:
(1)針對性:可以剔除其他不感興趣的社區(qū),僅針對感興趣的社區(qū)挖掘,大幅提高挖掘效率,這對于商業(yè)中的精準營銷有重要意義。
(2)局部性:針對社區(qū)的挖掘獲取到的是局部的意見領(lǐng)袖,其在社交網(wǎng)絡(luò)中的全局影響力并不高,因此不適用于對全局影響力有所需求的場景。
2.4.3 融合文本信息的挖掘方法
社交網(wǎng)絡(luò)中的文本信息蘊含了某一用戶對其他用戶或是對某件事的情感態(tài)度。有研究者將這些能夠反映意見領(lǐng)袖影響力的情感態(tài)度考慮到意見領(lǐng)袖的挖掘過程之中,結(jié)合一般的挖掘方法,進一步提高了意見領(lǐng)袖的挖掘準確率。
文本的情感傾向性分析是自然語言處理領(lǐng)域的一個重要研究方向,大致的傾向分析可以分為正向、負向、中性三種情感??紤]社交網(wǎng)絡(luò)上推文、評論、回復(fù)等文本內(nèi)容的情感傾向性分析有助于提高意見領(lǐng)袖挖掘結(jié)果的可靠性。例如,陳志雄等人通過對文本進行情感分析,實現(xiàn)對意見領(lǐng)袖的情感傾向的分類,可以挖掘帶有特定情感傾向的意見領(lǐng)袖[79]。曹玖新等人采用用戶的結(jié)構(gòu)特征、行為特征和情感特征來度量用戶的影響力,其中情感特征正是通過對粉絲的評論進行情感傾向分析,將其正向評論數(shù)占總評論數(shù)的比例定義為粉絲對該用戶的情感支持度[80]。
2.4.4 方法述評
多維融合的方法并沒有提出新方法,只是在已有方法的基礎(chǔ)之上進行改進融合,考慮更多的因素以此提高意見領(lǐng)袖挖掘的質(zhì)量。
融合拓撲結(jié)構(gòu)信息的評分規(guī)則彌補了傳統(tǒng)評分規(guī)則方法未考慮用戶間拓撲結(jié)構(gòu)關(guān)系的缺點,以此使結(jié)果更加準確。但這與2.2 節(jié)中改進的PageRank的融合有著本質(zhì)的區(qū)別,因為其實質(zhì)還是評分規(guī)則的建立,所以算法復(fù)雜度并沒有明顯增大,仍然能適用于大型的網(wǎng)絡(luò)。而那些融合了用戶信息的PageRank算法卻不能夠適用于大型網(wǎng)絡(luò)。
面向主題社區(qū)的意見領(lǐng)袖挖掘方法,將社交網(wǎng)絡(luò)劃分成一個個小的社區(qū)再使用一般方法以社區(qū)為單位進行意見領(lǐng)袖識別,獲取的局部性意見領(lǐng)袖對商業(yè)上的精準營銷有重要意義。這種方法適用于具有明顯社區(qū)特性的網(wǎng)絡(luò),而且結(jié)果依賴于社區(qū)劃分的準確性,因此社區(qū)劃分是其關(guān)鍵的一步。
融合文本信息的挖掘方法利用自然語言處理的相關(guān)技術(shù)對社交平臺中的文本信息進行文本傾向性分析,與一般辦法結(jié)合進一步提升挖掘效果。其最大的優(yōu)點在于能夠得到用戶對所挖掘出的意見領(lǐng)袖的傾向,這在輿情監(jiān)控方面具有重要價值。
研究者們提出了很多方法來衡量意見領(lǐng)袖挖掘結(jié)果優(yōu)劣,但是目前并沒有一個普遍公認的評價方法。經(jīng)過整理總結(jié),本文將已有的評價方法分為三類:影響范圍、主觀邏輯推理分析、客觀指標(biāo),如表8所示。其中影響范圍實際也是一種客觀指標(biāo),但其需要基于傳播模型計算,故單獨列出。
Table 8 Three types of evaluation indicators表8 三類評價指標(biāo)
“影響范圍”源于本文2.3 節(jié)所述的基于傳播模型挖掘方法,該方法使用“影響范圍”和算法效率判斷自身優(yōu)劣,而其中影響范圍同時也能夠作為衡量其他方法挖掘結(jié)果優(yōu)劣的指標(biāo)?;贚T、IC、SIR 進行消息模擬計算影響范圍,從而比較不同算法的效果。這種評價指標(biāo)是一種客觀的指標(biāo),在已有的評價方法中具有較強的說服力。但是現(xiàn)實傳播情況遠比傳播模型復(fù)雜得多,需提高傳播模型與現(xiàn)實情況的相似度以進一步提高評價的合理性。
主觀邏輯分析的評價方法從用戶的屬性信息、行為信息等方面分析各方法挖掘結(jié)果的差異,試圖對這種差異做出合理解釋并以此來說明某一方法的優(yōu)點。此評價方法依賴于大量的用戶信息,主觀性強,說服力不高,不適用于僅知拓撲結(jié)構(gòu)關(guān)系而無其他信息的網(wǎng)絡(luò)。
客觀指標(biāo)中覆蓋率指受影響用戶數(shù)占所有用戶數(shù)的比例;支持率指正向評論的數(shù)目與所有評論數(shù)量之比;核心率指所得結(jié)果與用戶之間相互聯(lián)系的緊密程度;標(biāo)準差用來描述用戶影響力值的離散情況,標(biāo)準差越大,影響力越離散,則用戶影響力排名區(qū)分度越大。Kendall 系數(shù)與Spearman 系數(shù)用于衡量不同挖掘方法產(chǎn)生的結(jié)果的相關(guān)性。在文獻[12]中,作者用人工評價結(jié)果與算法挖掘結(jié)果進行相關(guān)性分析說明其算法的準確性;在文獻[16]中,作者將單一的中心性指標(biāo)的挖掘結(jié)果與所提算法的結(jié)果進行相關(guān)性分析,從而說明其所提算法的準確性。上述客觀指標(biāo)都具有一定合理性,但局限在了各自挖掘方法的結(jié)果集合之中。只有文獻[72]提到的評價方法綜合考慮了多種挖掘方法的結(jié)果,使用準確率、召回率、F系數(shù)作為評價指標(biāo),相較而言具有更強的說服力。
綜上所述,無論哪種挖掘方法都具有一定的合理性,如果某種方法能與多種方法結(jié)果的并集取得最大交集,則能夠從一定程度上說明該方法的優(yōu)越性。因此本文認為,文獻[37]中的準確率、召回率、F系數(shù)是目前較為合理評價方法之一。而基于傳播模型的方法通過模擬的消息的傳播取得的影響范圍同樣是一個較為合理的評價方法,可應(yīng)用于已知用戶拓撲信息的場景。
社交網(wǎng)絡(luò)中的意見領(lǐng)袖在商業(yè)營銷、政策宣傳、輿情監(jiān)控、環(huán)境保護等領(lǐng)域發(fā)揮著巨大的作用。本文以社交網(wǎng)絡(luò)中意見領(lǐng)袖的挖掘方法為切入點,較為全面地總結(jié)了現(xiàn)代的意見領(lǐng)袖挖掘方法。根據(jù)方法思路的不同,本文將其分為四類:基于評分規(guī)則的方法、基于社交網(wǎng)絡(luò)圖的方法、基于影響傳播模型的方法、多維融合的方法。通過對四類方法的細致分析,本文總結(jié)了它們的優(yōu)點和面臨的挑戰(zhàn)。
四大類方法的對比分析如表9 所示,此表概括總結(jié)了這四大類方法的適用條件、優(yōu)點、局限和關(guān)鍵內(nèi)容。適用條件主要考慮是否擁有用戶信息和用戶間拓撲結(jié)構(gòu)關(guān)系;優(yōu)點主要考慮各種方法的突出特點;局限主要考慮方法的伸縮性、復(fù)雜度和需要使用到的復(fù)雜技術(shù);關(guān)鍵內(nèi)容則是這些方法的關(guān)鍵技術(shù)步驟或重要分支。
應(yīng)當(dāng)注意的是,沒有哪種方法能完全適用于所有的現(xiàn)實場景,現(xiàn)實中不同的社交平臺可以形成不同的網(wǎng)絡(luò)類型。方法的選取要依據(jù)實際情況而定,主要根據(jù)社交平臺所能提供的用戶信息類型、數(shù)據(jù)量大小、挖掘準確度、挖掘效率來選取合適的方法。
社交網(wǎng)絡(luò)中的意見領(lǐng)袖挖掘方法不斷發(fā)展,取得了一定成效。但隨著時代的進步和技術(shù)的革新,值得去探索一些新技術(shù)并將其應(yīng)用于社交網(wǎng)絡(luò)意見領(lǐng)袖的挖掘之中。針對已有方法的不足和最新的相關(guān)理論,本文探討了以下三個未來的研究方向。
(1)基于圖神經(jīng)網(wǎng)絡(luò)的聚類挖掘方法
圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)是目前處理網(wǎng)絡(luò)圖相關(guān)問題的一種有效工具,其核心思想是將通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法,經(jīng)由學(xué)習(xí)到的權(quán)重參數(shù),可以將鄰居節(jié)點的特征信息融入到自身節(jié)點的特征信息之中,最終可以得到網(wǎng)絡(luò)中每一個節(jié)點的新的特征向量。一般認為,如果一個節(jié)點的鄰居節(jié)點影響力越大,則其自身的影響力就會越大。將鄰居節(jié)點的影響力考慮在內(nèi),能夠提高意見領(lǐng)袖的挖掘效果。而GNN 正好可以巧妙地將鄰居節(jié)點的信息融合到每一個節(jié)點自身特征向量,不需要計算所有節(jié)點在網(wǎng)絡(luò)中的各種中心性指標(biāo)就可以將拓撲結(jié)構(gòu)信息融合到節(jié)點自身信息之中。
Table 9 Comparison of four types of opinion leader mining methods表9 四種意見領(lǐng)袖挖掘方法對比
因此,基于GNN 的聚類挖掘方法是一個值得嘗試的未來研究方向,大致思路如下:挑選能夠反映意見領(lǐng)袖品質(zhì)的信息來初始化每一個節(jié)點的初始特征向量,各分量越大則越可能是意見領(lǐng)袖;使用GNN 網(wǎng)絡(luò)得出包含鄰居節(jié)點信息的新的特征向量;對新的特征向量進行聚類,找出最具有意見領(lǐng)袖品質(zhì)的聚類簇作為意見領(lǐng)袖集合。此方法大致流程如圖11所示。
Fig.11 Procedure of clustering mining method based on GNN圖11 基于GNN 的聚類挖掘方法流程
(2)設(shè)計動態(tài)模型
目前大多數(shù)研究集中于靜態(tài)的網(wǎng)絡(luò),即從某一時間點或時間段的社交網(wǎng)絡(luò)中挖掘出意見領(lǐng)袖。然而在線社交網(wǎng)絡(luò)每時每刻都在發(fā)生著變化,隨著時間推移,每一個用戶都可能是下一個意見領(lǐng)袖,而網(wǎng)絡(luò)中原來的意見領(lǐng)袖的地位也可能在一段時間以后被其他人取代。因此,設(shè)計出一種有效的,能夠根據(jù)社交網(wǎng)絡(luò)的變化而不斷更新信息,快速挖掘出最新的意見領(lǐng)袖的挖掘方法,在商業(yè)營銷此類對時間較為敏感的領(lǐng)域意義重大。
(3)劃分意見領(lǐng)袖等級
大型社交網(wǎng)絡(luò)中,影響力較大用戶的數(shù)量較多,其影響力大小分布會比較連續(xù)而集中。目前的挖掘方法致力于尋找影響力排名最靠前的部分用戶,這樣不僅忽略了其他影響相對較小但仍然擁有意見領(lǐng)袖品質(zhì)的用戶,還造成了挖掘結(jié)果的同質(zhì)性,即挖掘出的意見領(lǐng)袖之間的影響力區(qū)分度小,處在同一量級。同時,領(lǐng)袖影響力越大,商業(yè)成本越高。一些研究者在新浪微博中挖掘出的“人民日報”“今日頭條”“騰訊新聞”等類似的官方媒體自然擁有強大的影響力,但其利用此類意見領(lǐng)袖進行營銷的商業(yè)成本卻不是一般企業(yè)所能夠負擔(dān)的。
因此,設(shè)定一個意見領(lǐng)袖影響力等級劃分規(guī)則以區(qū)分不同量級的意見領(lǐng)袖滿足不同層次的需求。本文認為,可以使用覆蓋率作為等級劃分的指標(biāo),即網(wǎng)絡(luò)中受該意見領(lǐng)袖影響的用戶數(shù)占整個網(wǎng)絡(luò)用戶數(shù)的比例。所謂“受影響”可以用關(guān)注關(guān)系、交互行為等來定義,即有關(guān)注關(guān)系或交互行為就可以認為用戶受到該意見領(lǐng)袖的影響。例如可以將意見領(lǐng)袖設(shè)置為四個等級:一級、二級、三級、四級,分別對應(yīng)覆蓋率40%、60%、80%、90%。研究者們可以根據(jù)實際情況探索一個更合理、更有理論依據(jù)的劃分比例。