王藝霖,仲兆滿,樊繼冬,管 燕
(1.江蘇海洋大學(xué)海洋科學(xué)與水產(chǎn)學(xué)院,連云港,222005;2.江蘇海洋大學(xué)計(jì)算機(jī)工程學(xué)院,連云港,222005;3.江蘇省海洋資源開(kāi)發(fā)研究院(連云港),連云港,222005)
諸多媒體包含了大量的用戶及用戶創(chuàng)造的內(nèi)容,包括Facebook、Twitter、MySpace、LinkedIn、Google+、微博、人人網(wǎng)、論壇、貼吧以及微信等,這類(lèi)媒體被稱(chēng)為在線社交網(wǎng)絡(luò)(Online social net?works,OSNs)。單個(gè)社交網(wǎng)絡(luò)包含了不同類(lèi)型的實(shí)體以及實(shí)體之間建立了不同的關(guān)聯(lián),是典型的異構(gòu)社交網(wǎng)絡(luò),即網(wǎng)絡(luò)上的實(shí)體或者關(guān)系是多類(lèi)型的。在單異構(gòu)社交網(wǎng)絡(luò)的基礎(chǔ)上,多個(gè)社交網(wǎng)絡(luò)通過(guò)某些實(shí)體產(chǎn)生關(guān)聯(lián),比如用戶賬戶、發(fā)表的信息等,這樣多個(gè)社交網(wǎng)絡(luò)又建立了更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。Bartunov 等[1]的研究表明,約有84%的互聯(lián)網(wǎng)用戶擁有多于一個(gè)的社交網(wǎng)站賬戶。2015 年,Global Web Index 面向50 個(gè)社交媒體的調(diào)研發(fā)現(xiàn),每個(gè)人平均擁有5.54 個(gè)賬號(hào),經(jīng)?;钴S在2.82 個(gè)社交網(wǎng)絡(luò)上。由于社交網(wǎng)絡(luò)信息傳播性強(qiáng),具有復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)特征,內(nèi)部蘊(yùn)含了豐富的潛在有價(jià)值信息,近幾年引起了學(xué)術(shù)界和產(chǎn)業(yè)界的高度重視。跨多個(gè)社交網(wǎng)絡(luò)的研究可以有效連接不同社交網(wǎng)絡(luò)的獨(dú)立異構(gòu)數(shù)據(jù),實(shí)現(xiàn)網(wǎng)絡(luò)的深層融合和數(shù)據(jù)的綜合利用。在多異構(gòu)社交網(wǎng)絡(luò)的研究過(guò)程中,以用戶為中心的分析方法相對(duì)充分,尤其是同一自然人在多個(gè)社交網(wǎng)絡(luò)的對(duì)齊關(guān)聯(lián)。因?yàn)槿藗兏嗟仃P(guān)注了用戶在多個(gè)社交網(wǎng)絡(luò)的社交圈子、社交行為、生活習(xí)慣和興趣愛(ài)好,在興趣推薦、社區(qū)發(fā)現(xiàn)以及特殊人員監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用價(jià)值。
異構(gòu)社交網(wǎng)絡(luò)是指網(wǎng)絡(luò)中包含了不同的實(shí)體以及實(shí)體之間形成了不同的關(guān)系。因此,單異構(gòu)社交網(wǎng)絡(luò)的表示模型多是圍繞網(wǎng)絡(luò)中的對(duì)象及其關(guān)系加以描述。根據(jù)單異構(gòu)社交網(wǎng)絡(luò)表示模型包含的要素個(gè)數(shù),可分為二元組、三元組以及多元組等模型。二元組是對(duì)社交網(wǎng)絡(luò)的節(jié)點(diǎn)及其關(guān)系的直觀抽象描述形式。Yang 等[2]在研究社交推薦系統(tǒng)的協(xié)同過(guò)濾時(shí),提出的社交網(wǎng)絡(luò)模型為有向圖G=(U,F(xiàn)),U是用戶集合,F(xiàn)是朋友鏈接集合。Chen 等[3]面向問(wèn)答型社交網(wǎng)絡(luò),將網(wǎng)絡(luò)描述為一個(gè)由用戶、問(wèn)題及類(lèi)別3 種節(jié)點(diǎn),用戶之間、用戶與問(wèn)題之間、問(wèn)題與類(lèi)別之間3 種聯(lián)系邊的異構(gòu)網(wǎng)絡(luò)。Seo 等[4]定義的異構(gòu)信息網(wǎng)絡(luò)為二元組G={V,E},V是信息對(duì)象,E是信息對(duì)象之間的關(guān)系。
有些研究者對(duì)社交網(wǎng)絡(luò)的節(jié)點(diǎn)和邊進(jìn)行了細(xì)分,或者為邊添加了權(quán)重,進(jìn)而形成了異構(gòu)社交網(wǎng)絡(luò)的 三 元 組 表 示 模 型 。 Li 等[5]定 義 社 交 網(wǎng) 絡(luò) 為 三 元 組 SNL=,U為 用 戶 集 ,NU×U?U×U表示用戶之間的好友關(guān)系集,P=Pu1∪,…,∪Pum是用戶發(fā)表、評(píng)論和交互的集合。Tang 等[6]將大規(guī)模復(fù)雜信息網(wǎng)絡(luò)定義為:G=(V,E,W),V代表網(wǎng)站的節(jié)點(diǎn)結(jié)合,E是邊的集合,W為邊的權(quán)重,表示關(guān)系的強(qiáng)度。齊金山等[7]在文獻(xiàn)[6]的基礎(chǔ)上,添加了C表示所有數(shù)據(jù)對(duì)象的多媒體內(nèi)容構(gòu)成,進(jìn)而定義大規(guī)模復(fù)雜信息網(wǎng)絡(luò)為G=(V,E,W,C)。Zhu 等[8]在度量影響力擴(kuò)散時(shí),認(rèn)為社交網(wǎng)絡(luò)是一個(gè)有向二部圖G(V,E,W),節(jié)點(diǎn)V=U∪B,U是用戶集合,B是用戶發(fā)表的內(nèi)容集合;邊E=EU→B∪EB→U,EU→B用戶指向內(nèi)容的邊集合,EB→U為內(nèi)容提及到用戶的邊集合;W是邊的權(quán)重。周小平等[9]將社交網(wǎng)絡(luò)表示為SN=(U,F(xiàn),C),其中U為用戶集合,F(xiàn)為用戶關(guān)系集合,C為用戶創(chuàng)造的內(nèi)容集合。汪潛等[10]定義一個(gè)社交網(wǎng)絡(luò)為G=(U,E,A),其中U為用戶集合,E代表用戶之間的關(guān)系集合,A為用戶的屬性集合。Qin 等[11]定義異構(gòu)社交網(wǎng)絡(luò)為三元組G={X,Y,E},X是社交網(wǎng)絡(luò)的節(jié)點(diǎn)集合,Y是節(jié)點(diǎn)產(chǎn)生的內(nèi)容集合,E是邊的集合。琚春華等[12]定義的電商化社交網(wǎng)絡(luò)包含了用戶U={u1,u2,…,un}、好友F={F1,F(xiàn)2,…,F(xiàn)n}和用戶信用R={r1,r2,…,rn}。
針對(duì)特定研究目標(biāo),一些研究者進(jìn)一步對(duì)社交網(wǎng)絡(luò)的對(duì)象進(jìn)行了更精細(xì)化的描述,由此形成了包含了 4 個(gè)要素以上的多元組表示模型。Vu 等[13]在總結(jié)了 Facebook、Twitter、LinkedIn 及 Google+等媒體特點(diǎn)的基礎(chǔ)上,定義了社交網(wǎng)絡(luò)模型的5 個(gè)主要維度,分別是包含了用戶名、描述、城市、E?mail、性別和地點(diǎn)的用戶背景,用戶之間建立的朋友關(guān)系,包含了用戶的群組、用戶興趣以及用戶發(fā)表的帖子。Kundu 等[14]提出了模糊粒社交網(wǎng)絡(luò)的概念FGSN,融合了粒計(jì)算理論和模糊鄰居系統(tǒng),將有向的社交網(wǎng)絡(luò)表示為四元組S=(C,V,GIN,GOUT),其中V是網(wǎng)絡(luò)中的節(jié)點(diǎn),C?V是粒表示的有限集,GIN是入度關(guān)系的有限集,GOUT是出度關(guān)系的有限集。已有的社交網(wǎng)絡(luò)表示模型將個(gè)體作為活動(dòng)節(jié)點(diǎn),但FG?SN 可以從不同的粒度出發(fā)重新定義節(jié)點(diǎn),比如將一些個(gè)體形成的群體作為活動(dòng)節(jié)點(diǎn)。吳奇等[15]將社交網(wǎng)絡(luò)描述為五元組G=
由于單個(gè)異構(gòu)社交網(wǎng)絡(luò)包含的信息量有限,面向多個(gè)異構(gòu)社交網(wǎng)絡(luò)的融合問(wèn)題是近期研究的熱點(diǎn)。在單一的社交網(wǎng)絡(luò)的表示模型基礎(chǔ)上,已有的融合多個(gè)異構(gòu)社交媒體的研究多是以圍繞用戶的對(duì)齊關(guān)聯(lián)展開(kāi)的。
Kong 等[17]首 先 提 出 了 以 用 戶 為 中 心 的 多 個(gè) 社 交 網(wǎng) 絡(luò) 對(duì) 齊 的 概 念 ,g=((G1,G2,…,Gn),(A1,2,A1,3,…,A1,n,A2,3,…,A(n-1),n)),其中,Gi=(Vi,Ei)(i∈{1,2,…,n})是單一的包含了各種類(lèi)型節(jié)點(diǎn)和鏈接的社交網(wǎng)絡(luò),Ai,j是Gi和Gj錨鏈接集合。如果Gi和Gj的所有用戶都存在錨鏈接,Gi和Gj是全對(duì)齊,否則,Gi和Gj是部分對(duì)齊?,F(xiàn)實(shí)中的社交網(wǎng)絡(luò)用戶之間多是部分對(duì)齊。Zhan 等[18]選取了Four?square 和Twitter 進(jìn)行了跨社交媒體的鏈接預(yù)測(cè)的研究。在借鑒文獻(xiàn)[17]定義的社交網(wǎng)絡(luò)對(duì)齊概念的基礎(chǔ)上,將社交網(wǎng)絡(luò)的節(jié)點(diǎn)和邊細(xì)化為G=({U∪L∪W∪T},{Eu,u∪Eu,l∪Eu,w∪Eu,t}),其中U、L、W和T分別是用戶集、地點(diǎn)集、文本集和時(shí)間戳集,Eu,u、Eu,l、Eu,w和Eu,t分別為用戶鏈接集、地點(diǎn)鏈接集、文本鏈接集和時(shí)間戳鏈接集。通過(guò)采集用戶在Foursquare 主頁(yè)上的Twitter 賬號(hào),使得用戶在兩個(gè)平臺(tái)上的信息對(duì)齊。Buccafurri 等[19]定義了社交互聯(lián)網(wǎng)絡(luò)圖為G=
Shi 等[25]系統(tǒng)地論述了當(dāng)前異構(gòu)網(wǎng)絡(luò)分析的現(xiàn)狀和存在的不足,指出需要進(jìn)一步研究的方向包括不同異構(gòu)網(wǎng)絡(luò)信息的融合、實(shí)體間關(guān)系的清晰梳理、面向不同應(yīng)用的異構(gòu)網(wǎng)絡(luò)挖掘方法等。
已有社交網(wǎng)絡(luò)表示模型的研究存在的問(wèn)題概述如下:
(1)對(duì)單社交網(wǎng)絡(luò)而言,表示模型仍然以包含了節(jié)點(diǎn)和邊的二元組、三元組為主,部分研究者根據(jù)不同社交網(wǎng)絡(luò)的特點(diǎn),對(duì)節(jié)點(diǎn)和邊進(jìn)行了一定的細(xì)化分析,進(jìn)而形成了包含4 個(gè)要素以上的多元組表示模型。已有研究多是面向特定的目標(biāo)而構(gòu)建社交網(wǎng)絡(luò)表示模型,在研究目標(biāo)的約束下,構(gòu)建的表示模型多是為特定研究?jī)?nèi)容服務(wù),沒(méi)能根據(jù)社交媒體具有的宏觀和微觀特點(diǎn)進(jìn)一步揭示其包含的各種復(fù)雜實(shí)體和聯(lián)系。
(2)對(duì)多社交網(wǎng)絡(luò)的融合而言,同一自然人在不同社交網(wǎng)絡(luò)的賬號(hào)對(duì)齊關(guān)聯(lián)是研究重點(diǎn),因此面向多個(gè)社交網(wǎng)絡(luò)構(gòu)建的表示模型也受限于此。跳出研究目標(biāo)的約束,系統(tǒng)地梳理不同社交網(wǎng)絡(luò)的內(nèi)在本質(zhì)聯(lián)系,面向各種類(lèi)型社交媒體的全局建模方法還沒(méi)有文獻(xiàn)提及。
基于OSNs 的用戶空間、內(nèi)容空間的關(guān)聯(lián)以及不同OSNs 之間的分類(lèi)關(guān)系,在理清每個(gè)OSN 包含的節(jié)點(diǎn)及其關(guān)系的基礎(chǔ)上,給出的多異構(gòu)社交網(wǎng)絡(luò)(Multi?heterogeneous social networks,MHSN)的全局表示模型如圖1 所示。MHSN 從縱向和橫向兩個(gè)角度刻畫(huà)了多個(gè)社交網(wǎng)絡(luò)OSNs 的關(guān)聯(lián)關(guān)系。顯然,用戶及內(nèi)容在不同OSNs 的關(guān)聯(lián)與傳播,構(gòu)建了更加復(fù)雜的多異構(gòu)社交網(wǎng)絡(luò)。多異構(gòu)社交網(wǎng)絡(luò)MHSN 全局表示模型描述如下:
(1)多異構(gòu)社交網(wǎng)絡(luò)表示為MHSN=(G,R),其中G表示不同社交網(wǎng)絡(luò)類(lèi)OSN 和實(shí)例osn 集合,R表示不同OSNs 建立關(guān)聯(lián)關(guān)系的集合;
(2)最高層 OSNs 類(lèi)表示為 OSNs=(US,CS,RUU,RCC,RUC,T),以用戶空間US和內(nèi)容空間CS為實(shí)體類(lèi)型,進(jìn)而在用戶之間、內(nèi)容之間及用戶和內(nèi)容之間形成了3 種關(guān)系RUU、RCC和RUC,以時(shí)間戳集合T刻畫(huà)OSNs 類(lèi)的動(dòng)態(tài)特性;
(3)不同的OSNs 類(lèi)之間通過(guò)繼承形成了分類(lèi)關(guān)系,ER={(OSNiExtend OSNj)|OSNi,OSNj∈G,i≠j};
(4)社交網(wǎng)絡(luò)OSNi,OSNj通過(guò)用戶的對(duì)齊形成了關(guān)聯(lián)關(guān)系,UR={(u1Alignu2)|u1∈ OSNi,u2∈ OSNj,i≠j},u1,u2是同一自然人在不同社交媒體的賬號(hào)描述;
(5)社交網(wǎng)絡(luò) OSNi,OSNj通過(guò)內(nèi)容的對(duì)齊形成了關(guān)聯(lián)關(guān)系,CR={(c1Alignc2)|c1∈ OSNi,c2∈ OSNj,i≠j},c1,c2是同一信息內(nèi)容在不同社交媒體的呈現(xiàn)描述;
(6) 社 交 網(wǎng) 絡(luò) 類(lèi) OSNi通 過(guò) 實(shí) 例 化 生 成 具 體 的 社 交 網(wǎng) 絡(luò) 實(shí) 例 osni,OR={(osnijObject OSNi)|OSNigenerates object osnij,OSNi,osnij∈G}。
每個(gè)社交網(wǎng)絡(luò)都包含了復(fù)雜的實(shí)體及其關(guān)系。比如,Twitter 包含用戶和tweets 兩種實(shí)體,用戶與tweet 之間存在發(fā)表、回復(fù)、轉(zhuǎn)發(fā)和點(diǎn)贊關(guān)系,tweets 之間可以建立回復(fù)和轉(zhuǎn)發(fā)關(guān)系,用戶之間可以直接建立關(guān)注關(guān)系,并通過(guò)tweet 建立用戶間的回復(fù)和轉(zhuǎn)發(fā)關(guān)系。又如,百度貼吧包括貼吧、帖子和用戶實(shí)體,用戶與帖子之間存在發(fā)表、回復(fù)和收藏關(guān)系,帖子之間可以建立回復(fù)關(guān)系,用戶之間可以直接建立關(guān)注關(guān)系,并通過(guò)帖子建立用戶間的回復(fù)關(guān)系。同一用戶在不同社交媒體上有不同的表現(xiàn)形式,但對(duì)應(yīng)的都是同一自然人?;贛HSN 用戶空間的關(guān)聯(lián),可以分析多個(gè)OSNs 上用戶的社交行為和影響力,可以進(jìn)行全面的用戶畫(huà)像描述。圖2 是同一真實(shí)用戶在多個(gè)不同社交媒體的對(duì)齊關(guān)聯(lián)示例。
圖1 多異構(gòu)社交網(wǎng)絡(luò)MHSN 全局表示模型Fig.1 Global representation model of multiple heterogeneous social networks
網(wǎng)絡(luò)上的內(nèi)容在不同社交媒體的呈現(xiàn)有兩種模式:一種是顯式的,指同一篇信息在不同網(wǎng)絡(luò)上的傳播,比如新浪媒體發(fā)表的一篇新聞在貼吧、微博中以轉(zhuǎn)發(fā)的形式進(jìn)行傳播;另一種是隱式的,指對(duì)同一內(nèi)容的描述采用了不同的表達(dá)方式,比如不同用戶對(duì)同一突發(fā)事件從不同側(cè)面進(jìn)行了描述和分析,各個(gè)內(nèi)容是獨(dú)立的,但又內(nèi)在關(guān)聯(lián)到了同一突發(fā)事件。不同的社交媒體產(chǎn)生的內(nèi)容有所差異,總體上包括文本、圖片和音視頻等類(lèi)型。基于MHSN 內(nèi)容空間的關(guān)聯(lián),可以分析信息在不同OSNs 上關(guān)聯(lián)的用戶數(shù),閱讀、評(píng)論及轉(zhuǎn)發(fā)數(shù),進(jìn)而可以全面地計(jì)算信息的影響力、熱度值等。圖3 是社交媒體顯式內(nèi)容對(duì)齊關(guān)聯(lián)示例。
圖2 MHSN 用戶對(duì)齊關(guān)聯(lián)示例Fig.2 User alignment association example of MHSN
圖3 MHSN 顯式內(nèi)容的對(duì)齊關(guān)聯(lián)示例Fig.3 Explicit content alignment association ex?ample of MHSN
本文選取基于異構(gòu)社交網(wǎng)絡(luò)的內(nèi)容空間關(guān)聯(lián)(突發(fā)事件檢測(cè))及用戶空間關(guān)聯(lián)(用戶興趣挖掘)的兩個(gè)應(yīng)用場(chǎng)景,闡述多異構(gòu)社交網(wǎng)絡(luò)全局建模的應(yīng)用策略。
3.1.1 多異構(gòu)社交網(wǎng)絡(luò)突發(fā)事件檢測(cè)融合策略
本文使用的社交網(wǎng)絡(luò)地域突發(fā)事件檢測(cè)如定義1 所述。
定義1[26]地域Top?k突發(fā)事件,形式化描述為一個(gè)三元組:LEE=(l,t,E),l表示地域,t表示時(shí)間段,E表示 Top?k個(gè)突發(fā)事件集合,E={e1,e2,…,ek},ei={kw1,kw2,…,kwn}。從語(yǔ)義上講,地域 Top?k突發(fā)事件指地域l在時(shí)間段t發(fā)生的,產(chǎn)生較大影響的k個(gè)事件。多個(gè)社交網(wǎng)絡(luò)的內(nèi)容空間融合問(wèn)題可以簡(jiǎn)化為兩兩社交網(wǎng)絡(luò)的內(nèi)容融合?;趦?nèi)容空間的社交網(wǎng)絡(luò)SN1、SN2突發(fā)事件檢測(cè)融合策略如圖4所示。從自上而下的角度看,單異構(gòu)社交媒體的突發(fā)事件檢測(cè)包含3 個(gè)核心步驟,可以完成各自的突發(fā)事件檢測(cè)任務(wù)。從水平的方向看,兩個(gè)異構(gòu)社交媒體突發(fā)事件檢測(cè)可以有3 種融合策略,分別是信息融合、突發(fā)詞融合和突發(fā)詞簇融合,不同的融合策略對(duì)突發(fā)事件檢測(cè)效果的影響見(jiàn)3.1.4 小節(jié)結(jié)果對(duì)比部分。
基于內(nèi)容空間的社交網(wǎng)絡(luò)SN1、SN2突發(fā)事件檢測(cè)融合策略描述如下:
(1)融合策略 1(信息融合)。假設(shè)SN1、SN2采集的信息集合分別為DS?SN1、DS?SN2,將DS?SN1、DS?SN2合并為一個(gè)信息集合DS?SN。從信息集合DS?SN計(jì)算得到突發(fā)詞集為EW,后續(xù)可看作是基于同一社交網(wǎng)絡(luò)的突發(fā)詞聚類(lèi)、詞簇?zé)岫扔?jì)算和Top?k 突發(fā)事件排序輸出。
(2)融合策略 2(突發(fā)詞融合)。假設(shè)SN1、SN2計(jì)算得到的突發(fā)詞集合分別為EW1、EW2,將EW1、EW2合并為一個(gè)突發(fā)詞集EW。由于不同的社交媒體用戶的活躍度不同,導(dǎo)致信息量、閱讀數(shù)和關(guān)聯(lián)用戶等有較大差異,不能簡(jiǎn)單地根據(jù)計(jì)算的指標(biāo)值直接排序選取,需要分別對(duì)EW1和EW2中的詞突發(fā)值進(jìn)行歸一化處理,選取m個(gè)詞構(gòu)成突發(fā)詞集合為EW,后續(xù)可基于EW進(jìn)行聚類(lèi)、詞簇?zé)岫扔?jì)算,進(jìn)而排序得到Top?k突發(fā)事件。
(3)融合策略3(突發(fā)詞簇融合)。假設(shè)SN1、SN2計(jì)算得到的突發(fā)詞簇集合分別為EWC1、EWC2,將EWC1、EWC2合并為一個(gè)突發(fā)詞簇集EWC。在融合的過(guò)程中,需要計(jì)算兩個(gè)詞簇的相似度,達(dá)到一定閾值兩個(gè)詞簇應(yīng)合并在一起,形成一個(gè)詞簇。兩個(gè)詞簇ewci、ewcj相似度計(jì)算方法采用Jaccard 相似系數(shù),有
圖4 基于內(nèi)容空間的突發(fā)事件檢測(cè)融合策略Fig.4 Emergency detection and fusion strategy based on content space
實(shí)驗(yàn)驗(yàn)證,當(dāng)Sim(ewci,ewcj)≥0.6 時(shí),兩個(gè)詞簇進(jìn)行合并效果較好。
3.1.2 單異構(gòu)微博網(wǎng)絡(luò)的地域突發(fā)事件檢測(cè)方法
2018 年,面向單異構(gòu)微博社交網(wǎng)絡(luò),本文研究提出了地域Top?k突發(fā)事件檢測(cè)方法,簡(jiǎn)記為L(zhǎng)ocBED?WB,詳見(jiàn)文獻(xiàn)[26]。該研究?jī)?nèi)容包含3 個(gè)核心步驟,簡(jiǎn)介如下:
(1)詞突發(fā)值計(jì)算
詞wi在k時(shí)間段的突發(fā)值為
式中:F(wi)、U(wi)、GT(wi)、SB(wi)分別為詞wi的頻率突發(fā)性、用戶突發(fā)性、地域突發(fā)性和社交行為突發(fā)性;α、β、χ、δ為權(quán)重系數(shù),α+β+χ+δ=1,α≥ 0,β≥ 0,χ≥ 0,δ≥ 0。在實(shí)際應(yīng)用中,可以根據(jù)社交網(wǎng)絡(luò)的特點(diǎn),對(duì)上述指標(biāo)進(jìn)行刪減。計(jì)算得到每個(gè)詞的突發(fā)值后,使用四分差選出m個(gè)突發(fā)特征詞,按照詞突發(fā)值進(jìn)行降序排序,得到突發(fā)特征詞集EW。
(2)突發(fā)詞聚類(lèi)
基于突發(fā)特征集EW,構(gòu)建突發(fā)詞關(guān)聯(lián)網(wǎng)絡(luò)EWN=(V,E),V是突發(fā)詞集EW,E表示突發(fā)詞之間的關(guān)聯(lián)強(qiáng)度。突發(fā)詞ewi、ewj關(guān)聯(lián)強(qiáng)度是統(tǒng)計(jì)兩個(gè)詞在同一篇信息中共現(xiàn)的次數(shù)。突發(fā)詞網(wǎng)絡(luò)EWN構(gòu)建完成后,使用開(kāi)源的CLUTO 工具包對(duì)EWN進(jìn)行聚類(lèi),獲取突發(fā)詞簇EWC={ewc1,ewc2,…,ewcq},假設(shè)有q個(gè)詞簇。
(3)突發(fā)詞簇?zé)岫扔?jì)算
詞簇ewci的熱度值為
式中LN(ewci)、F(ewci)、MN(ewci)、MBI(ewci)、UN(ewci)分別為詞簇ewci的地域、頻率、關(guān)聯(lián)博文、關(guān)聯(lián)博文影響力和關(guān)聯(lián)用戶指標(biāo)。
3.1.3 實(shí)驗(yàn)數(shù)據(jù)及評(píng)測(cè)指標(biāo)
新浪微博數(shù)據(jù)集BEWeiboDS 為采集北京、南京兩個(gè)大城市的 2016 年 12 月 1 日—12 月 30 日的帶有地理標(biāo)簽的博文,采集連云港和日照兩個(gè)中小規(guī)模城 市 2016 年 5 月 1 日 —10 月 31 日的帶有地理標(biāo)簽的博文,形成微博數(shù)據(jù)集BEWeiboDS。百度貼吧數(shù)據(jù)集BETiebaDS 為采集北京、南京兩個(gè)大城市的 2016 年 12 月 1 日—12 月 30 日的貼吧內(nèi)容,采集連云港和日照兩個(gè)中小規(guī)模城市2016年5 月1 日—10 月31 日的貼吧內(nèi)容,每個(gè)市包括了區(qū)縣級(jí)以上的貼吧,形成百度貼吧數(shù)據(jù)集BE?TiebaDS。兩個(gè)社交網(wǎng)絡(luò)數(shù)據(jù)集的情況如表1所示。
采用精準(zhǔn)率P@n作為評(píng)測(cè)指標(biāo)。P@n是一個(gè)擬人化的指標(biāo),目前在搜索評(píng)測(cè)中用的較多。突發(fā)事件檢測(cè)類(lèi)似于從給定的批量信息中搜索挖掘出密切相關(guān)的地域突發(fā)事件。P@n指標(biāo)關(guān)心的是返回的n個(gè)結(jié)果中,是否存在相關(guān)的信息,不考慮返回信息相關(guān)性的順序。P@n=m/n,其中n指返回的突發(fā)事件個(gè)數(shù),m指人工判斷后符合突發(fā)事件檢測(cè)結(jié)果的個(gè)數(shù)。由于Top?k突發(fā)事件檢測(cè)返回的事件數(shù)量很少,人工參與評(píng)測(cè)工作量并不大。
3.1.4 結(jié)果對(duì)比
本文使用5 種方法基于新浪微博數(shù)據(jù)集BEWeiboDS 和百度貼吧數(shù)據(jù)集BETiebaDS 進(jìn)行突發(fā)事件檢測(cè)對(duì)比。5 種方法簡(jiǎn)介如下。(1)方法1(LocBED?WB):使用單異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集BE?WeiboDS,使用3.1.2 小節(jié)介紹的方法進(jìn)行突發(fā)事件檢測(cè),具體方法詳見(jiàn)文獻(xiàn)[26]。(2)方法2(LocBED?TB):使用單異構(gòu)社交網(wǎng)絡(luò)百度貼吧數(shù)據(jù)集BETiebaDS,使用3.1.2 小節(jié)介紹的方法進(jìn)行突發(fā)事件檢測(cè)。(3)方法 3(LocBED?WB&TB?BW):使用兩個(gè)異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集 BEWeiboDS 和百度貼吧數(shù)據(jù)集BETiebaDS,在突發(fā)詞計(jì)算層面進(jìn)行融合,然后進(jìn)行突發(fā)事件檢測(cè)。(4)方法4(LocBED?WB&TB?BWC):使用兩個(gè)異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集BEWeiboDS 和百度貼吧數(shù)據(jù)集BETiebaDS,在突發(fā)詞聚類(lèi)層面進(jìn)行融合,然后進(jìn)行突發(fā)事件檢測(cè)。(5)方法5(LocBED?WB&TB?BEH):使用兩個(gè)異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集BEWeiboDS 和百度貼吧數(shù)據(jù)集BETiebaDS,在突發(fā)詞簇?zé)岫扔?jì)算層面進(jìn)行融合,然后進(jìn)行突發(fā)事件檢測(cè)。
5 種方法使用兩個(gè)社交網(wǎng)絡(luò)數(shù)據(jù)集,在P@1、P@2、P@3、P@4、P@5 和 Average 的評(píng)測(cè)指標(biāo)結(jié)果如表2 所示。
如表2 所示,單獨(dú)使用新浪微博數(shù)據(jù)集,方法LocBED?WB 的平均準(zhǔn)確率為0.79,精準(zhǔn)率已經(jīng)比較高了,說(shuō)明單獨(dú)使用新浪微博進(jìn)行突發(fā)事件檢測(cè)的優(yōu)勢(shì)。單獨(dú)使用百度貼吧數(shù)據(jù)集,方法LocBED?TB的平均準(zhǔn)確率為0.56,精準(zhǔn)率比較低,一方面百度貼吧活躍用戶數(shù)相對(duì)少,發(fā)表的信息量偏少,另外貼吧發(fā)表的帖子沒(méi)有地理標(biāo)簽的標(biāo)記,檢測(cè)的很多突發(fā)事件多是廣域突發(fā)事件,地域特征型不強(qiáng)。使用兩個(gè)社交網(wǎng)絡(luò),從3 個(gè)層面進(jìn)行融合檢測(cè)突發(fā)事件,第3 種融合策略,即突發(fā)詞簇?zé)岫扔?jì)算融合的方法,效果最理想,準(zhǔn)確率達(dá)到0.84,比單獨(dú)使用新浪微博數(shù)據(jù)集的方法LocBED?WB 提高了0.05,比單獨(dú)使用百度貼吧數(shù)據(jù)集的方法LocBED?TB 提高了0.28。
表1 突發(fā)事件檢測(cè)的兩個(gè)數(shù)據(jù)集Table 1 Two data sets for emergency detection
表2 5 個(gè)評(píng)測(cè)指標(biāo)檢測(cè)結(jié)果Table 2 Detection results of five evaluation indicators
3.2.1 多異構(gòu)社交網(wǎng)絡(luò)用戶興趣挖掘融合策略
本文使用的社交網(wǎng)絡(luò)用戶興趣表示模型如定義2 和3 所述。
定義2[16]用戶靜態(tài)興趣是指從用戶背景中挖掘出的興趣點(diǎn),UI={Int1,Int2,…,Intm},每個(gè)興趣點(diǎn)是一個(gè)二元組Inti=(kwi,wi),kwi為關(guān)鍵詞;wi為用戶對(duì)kwi的喜好權(quán)重。
定義3用戶動(dòng)態(tài)興趣是指從用戶生成中挖掘出的隨時(shí)間變化而變化的興趣點(diǎn),UI={Int1,Int2,…,Intm},每個(gè)興趣點(diǎn)為一個(gè)三元組Inti=(topici,wi,T),其中,topici是由多個(gè)關(guān)鍵詞組成的話題;wi為用戶對(duì)topici的喜好權(quán)重;T={t1,t2,…,ts},ti為用戶討論話題 topici的各個(gè)時(shí)間點(diǎn),即話題在不同時(shí)間點(diǎn)的分布情況。
同樣,多個(gè)社交網(wǎng)絡(luò)的用戶空間融合問(wèn)題可以簡(jiǎn)化為兩兩社交網(wǎng)絡(luò)的用戶融合。兩個(gè)社交網(wǎng)絡(luò)SN1、SN2在挖掘用戶興趣時(shí),用戶的靜態(tài)興趣可以從簡(jiǎn)介、標(biāo)簽和職位等背景信息方面融合,用戶的動(dòng)態(tài)興趣可以從用戶生成的內(nèi)容方面進(jìn)行融合?;谟脩艨臻g的社交網(wǎng)絡(luò)SN1、SN2用戶興趣挖掘融合策略如圖5 所示。單異構(gòu)社交網(wǎng)絡(luò)的用戶興趣挖掘分為靜態(tài)興趣和動(dòng)態(tài)興趣兩類(lèi),使用社交網(wǎng)絡(luò)上用戶的背景和內(nèi)容信息,可以完成各自的興趣挖掘任務(wù)。對(duì)兩個(gè)社交網(wǎng)絡(luò)SN1、SN2而言,靜態(tài)興趣和動(dòng)態(tài)興趣挖掘都有兩種融合策略,分別是背景和生成內(nèi)容的融合,以及靜態(tài)興趣和動(dòng)態(tài)興趣的融合。不同的融合策略對(duì)用戶興趣挖掘效果的影響見(jiàn)3.2.4 小節(jié)結(jié)果對(duì)比部分。
基于用戶空間的社交網(wǎng)絡(luò)SN1、SN2用戶興趣挖掘融合策略描述如下:
(1)融合策略1(背景和生成內(nèi)容的融合)。假設(shè)SN1、SN2用戶的背景信息分別為profile1、profile2,SN1、SN2用戶的生成內(nèi)容分別為 content1、content2,將 profile1、profile2合并為一個(gè)背景信息 profile,將content1、content2合并為一個(gè)生成內(nèi)容content。后續(xù)分別從profile 和content 中挖掘用戶的靜態(tài)興趣和動(dòng)態(tài)興趣。
(2)融合策略2(靜態(tài)興趣和動(dòng)態(tài)興趣的融合)。假設(shè)SN1、SN2用戶的靜態(tài)興趣分別為SN1?SI、SN2?SI,SN1、SN2用戶的動(dòng)態(tài)興趣分別為SN1?DI、SN2?DI,將SN1?SI、SN2?SI合并為SN?SI,將SN1?DI、SN2?DI合并為SN?DI。在融合用戶動(dòng)態(tài)興趣時(shí),需要計(jì)算興趣點(diǎn)的相似度,然后調(diào)整權(quán)重W和時(shí)間點(diǎn)T的 分 布 ,SN1、SN2用 戶 的 一 個(gè) 興 趣 點(diǎn) 分 別 記 為SN1?DI?Inti={topici,Wi,Ti}、SN2?DI?Intj={topicj,Wj,Tj},用戶興趣點(diǎn)相似度計(jì)算使用 Jaccard 相似系數(shù),有
圖5 基于用戶空間的用戶興趣挖掘融合策略Fig.5 User interest mining and fusion strategy based on user space
實(shí)驗(yàn)驗(yàn)證,當(dāng) Sim(SN1?DI?Inti,SN1?DI?Intj)≥ 0.6 時(shí),兩個(gè)興趣點(diǎn)合并效果較好。
3.2.2 單異構(gòu)微博網(wǎng)絡(luò)的用戶興趣挖掘方法
2017 年,作者提出了面向微博的用戶興趣靜態(tài)和動(dòng)態(tài)興趣挖掘方法,簡(jiǎn)記為USDInt?WB,詳見(jiàn)文獻(xiàn)[16]。該研究?jī)?nèi)容包含3 個(gè)核心步驟,簡(jiǎn)介如下:
(1)用戶靜態(tài)興趣挖掘。挖掘新浪微博用戶的簡(jiǎn)介、標(biāo)簽和職位等背景信息,得到用戶的靜態(tài)興趣為 USInt={(kw1,w1),(kw2,w2),…,(kwm,wm)}。
(2)用戶動(dòng)態(tài)興趣挖掘。挖掘用戶原創(chuàng)、轉(zhuǎn)發(fā)和評(píng)論等方式的微博,得到用戶的動(dòng)態(tài)興趣為UDInt={(topic1,w1,T1),(topic2,w2,T2),…,(topicm,wm,Tm)}。
(3)用戶興趣相似度計(jì)算。兩個(gè)用戶興趣相似度整合,有
式中α是靜態(tài)興趣和動(dòng)態(tài)興趣權(quán)重系數(shù),0≤α≤1。
用戶u1,u2的靜態(tài)興趣相似度計(jì)算使用Jaccard 方式。用戶u1,u2的動(dòng)態(tài)興趣中的兩個(gè)興趣點(diǎn)Inti,In?tj的相似度計(jì)算公式為
式中綜合考慮了用戶興趣點(diǎn)內(nèi)容的相似度和興趣點(diǎn)的時(shí)間周期。
3.2.3 實(shí)驗(yàn)數(shù)據(jù)及評(píng)測(cè)指標(biāo)
本文的研究?jī)?nèi)容沒(méi)有涉及不同用戶在跨社交媒體的對(duì)齊關(guān)聯(lián)方法。因此人工選取了100 個(gè)用戶,已知他們?cè)谛吕宋⒉┖桶俣荣N吧的賬號(hào),然后從兩個(gè)社交媒體中融合挖掘用戶興趣進(jìn)行實(shí)驗(yàn)分析。對(duì)于100 個(gè)用戶,采用滾雪球的方式分別采集其關(guān)注和粉絲用戶共計(jì)2 層,即采集到了用戶u1關(guān)注的關(guān)注集和粉絲的粉絲集。對(duì)于采集的用戶,分別從新浪微博和百度貼吧采集用戶背景和生成內(nèi)容信息,每個(gè)用戶的背景信息合并為1 條,得到的新浪微博數(shù)據(jù)集UserWeiboDS 和百度貼吧數(shù)據(jù)集UserTiebaDS情況如表3 所示。
表3 用戶興趣挖掘的兩個(gè)數(shù)據(jù)集Table 3 Two data sets of user interest mining
新浪微博數(shù)據(jù)集中用戶u1的關(guān)注集記為u1.follower,作為標(biāo)準(zhǔn)答案。通過(guò)方法method1計(jì)算用戶間的興趣相似度選取出的關(guān)注集記為u1.follower?method1,令 |u1.follower|=|u1.follower?method1|,方法method1選取關(guān)注的準(zhǔn)確率計(jì)算公式為
3.2.4 結(jié)果對(duì)比
本文使用4 種方法基于新浪微博數(shù)據(jù)集UserWeiboDS 和百度貼吧數(shù)據(jù)集UserTiebaDS 進(jìn)行用戶興趣挖掘?qū)Ρ取? 種方法簡(jiǎn)介如下。(1)方法1(USDInt?WB):使用單異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集UserWeiboDS,使用 3.2.2 小節(jié)介紹的方法挖掘用戶興趣,具體方法詳見(jiàn)文獻(xiàn)[16]。(2)方法 2(USDInt?TB):使用單異構(gòu)社交網(wǎng)絡(luò)百度貼吧數(shù)據(jù)集UserTiebaDS,使用3.2.2 小節(jié)介紹的方法進(jìn)行用戶興趣挖掘。(3)方法 3(USDInt?WB&TB?PC):使用兩個(gè)異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集 UserWeiboDS 和百度貼吧數(shù)據(jù)集UserTiebaDS,在背景和生成內(nèi)容層面融合,然后挖掘用戶興趣。(4)方法4(USDInt?WB&TB?SD):使用兩個(gè)異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集UserWeiboDS 和百度貼吧數(shù)據(jù)集UserTiebaDS,在靜態(tài)和動(dòng)態(tài)興趣層面融合,然后挖掘用戶興趣。4 種方法使用兩個(gè)社交網(wǎng)絡(luò)數(shù)據(jù)集,在RUA 指標(biāo)的評(píng)測(cè)結(jié)果如表4 所示。單獨(dú)使用UserWeiboDS,方法USDInt?WB 推薦用戶準(zhǔn)確率RUA 為0.61,說(shuō)明單獨(dú)使用新浪微博挖掘用戶興趣進(jìn)行關(guān)注用戶推薦已經(jīng)比較準(zhǔn)確。單獨(dú)使用UserTiebaDS,方法USDInt?TB 推薦用戶準(zhǔn)確率為0.37,準(zhǔn)確率比較低,主要原因是百度貼吧中,用戶往往對(duì)特定的貼吧感興趣,用戶之間的關(guān)注關(guān)系相對(duì)較少,不像新浪微博用戶之間構(gòu)建了豐富的社交關(guān)系。使用兩個(gè)社交網(wǎng)絡(luò),從兩個(gè)層面進(jìn)行融合挖掘用戶興趣,第2 種融合策略,即在靜態(tài)和動(dòng)態(tài)興趣層面融合,效果最理想,推薦用戶準(zhǔn)確率達(dá)到0.69。比單獨(dú)使用新浪微博數(shù)據(jù)集的方法USDInt?WB 提高了0.08,比單獨(dú)使用百度貼吧數(shù)據(jù)集的方法USDInt?TB 提高了0.32,比使用第1 種融合策略提高了0.04。
表4 RUA 指標(biāo)的評(píng)測(cè)結(jié)果Table 4 Evaluation results of RUA indicators
本文在社交網(wǎng)絡(luò)的用戶空間和內(nèi)容空間關(guān)聯(lián)、不同OSNs 的分類(lèi)關(guān)系的基礎(chǔ)上,給出了多異構(gòu)社交網(wǎng)絡(luò)的全局表示模型,為面向多異構(gòu)社交網(wǎng)絡(luò)的后續(xù)研究提供參考。選取多異構(gòu)社會(huì)網(wǎng)絡(luò)的地域突發(fā)事件檢測(cè)、用戶興趣挖掘兩個(gè)應(yīng)用場(chǎng)景,闡述了基于內(nèi)容空間和用戶空間的多異構(gòu)社會(huì)網(wǎng)絡(luò)的融合策略。以新浪微博和百度貼吧兩大社交網(wǎng)絡(luò),進(jìn)行了實(shí)驗(yàn)對(duì)比和分析。還需進(jìn)一步提升的研究?jī)?nèi)容:(1)基于多異構(gòu)社交網(wǎng)絡(luò)的不同應(yīng)用場(chǎng)景的抽象分析,以期為多異構(gòu)社交網(wǎng)絡(luò)的實(shí)際應(yīng)用提供借鑒;(2)擴(kuò)大社交網(wǎng)絡(luò)分析的范圍,選取主流的社交網(wǎng)絡(luò),進(jìn)行更大規(guī)模的數(shù)據(jù)采集和分析;(3)基于隱式內(nèi)容空間的社交媒體關(guān)聯(lián)分析,使用自然語(yǔ)言處理、社交網(wǎng)絡(luò)分析等技術(shù),挖掘隱式內(nèi)容在多異構(gòu)社交網(wǎng)絡(luò)的關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)突發(fā)事件、熱點(diǎn)信息等的精準(zhǔn)挖掘。