郭瑞強(qiáng),郭阿為,韓忠明,周 萌,張 偉
GUO Ruiqiang1,2,GUO Awei1,HAN Zhongming3,ZHOU Meng1,ZHANG Wei1
1.河北師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,石家莊050024
2.河北師范大學(xué) 移動(dòng)物聯(lián)網(wǎng)研究院,石家莊050024
3.北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,北京100048
1.College of Mathematic and Information Science,Hebei Normal University,Shijiazhuang 050024,China
2.Mobile Internet of Things Institute,Hebei Normal University,Shijiazhuang 050024,China
3.College of Computer Science and Information Engineering, Beijing Technology and Business University, Beijing 100048,China
20 世紀(jì)90 年代以來(lái),隨著互聯(lián)網(wǎng)和Web2.0 技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)漸漸成為人們?nèi)粘I钪行畔⒔换サ闹匾脚_(tái),并逐漸超越報(bào)紙、廣播、電視,成為首大媒體。一個(gè)話題(Topic)在網(wǎng)絡(luò)上被瘋狂轉(zhuǎn)載,形成熱點(diǎn)話題、產(chǎn)生巨大效應(yīng)之前,大多都在一些交互式網(wǎng)站(例如論壇、博客、微博等)上已經(jīng)成為熱點(diǎn)話題(Hot Topics),因此交互式網(wǎng)站是最早的網(wǎng)絡(luò)熱點(diǎn)話題起源地。隨著時(shí)間的變化,網(wǎng)絡(luò)熱點(diǎn)話題的發(fā)展趨勢(shì)呈現(xiàn)一定的規(guī)律性。有些熱點(diǎn)話題緩慢地增長(zhǎng)達(dá)到峰值,然后慢慢消退;有些熱點(diǎn)話題迅速達(dá)到高峰后,驟然消退;還有些熱點(diǎn)話題則有更復(fù)雜的變化規(guī)律,如圖1 所示,其中時(shí)間單位為小時(shí)(h)。圖1中的六類曲線[1]是對(duì)網(wǎng)絡(luò)熱點(diǎn)話題進(jìn)行聚類后得到的,圖中歸納出話題可能的傳播模式。
本文以網(wǎng)絡(luò)熱點(diǎn)話題為研究對(duì)象,以熱點(diǎn)話題從起始到相對(duì)長(zhǎng)一段時(shí)間內(nèi)的“熱度”作為一個(gè)時(shí)間序列[1],對(duì)該時(shí)間序列進(jìn)行建模,深入刻畫(huà)熱點(diǎn)話題形成與發(fā)展的內(nèi)在機(jī)制,達(dá)到分析熱點(diǎn)話題規(guī)律的目的。
Yasuko Matsubara 等人[2]對(duì)信息傳播的模式進(jìn)行了建模,提出了SpikeM 模型,該模型可以較好地反映信息傳播的模式。但是針對(duì)熱點(diǎn)話題多次出現(xiàn)高峰的情況,該模型就無(wú)法擬合。且該模型假設(shè)存在一定的局限性,它是針對(duì)某一事件,且每個(gè)網(wǎng)絡(luò)用戶只能發(fā)布一次消息,這與實(shí)際環(huán)境中用戶就某一話題多次發(fā)帖的事實(shí)不符。
本文對(duì)SpikeM 模型的假設(shè)進(jìn)行了改進(jìn),并且在模型中加入了隨機(jī)脈沖干擾,構(gòu)建了脈沖時(shí)序行為動(dòng)力模型(Pulse Time Series Dynamic Model,簡(jiǎn)稱PTSDM),并在實(shí)際數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)、分析與比較。實(shí)驗(yàn)結(jié)果表明本文構(gòu)建的模型能夠很好地?cái)M合真實(shí)數(shù)據(jù),較為準(zhǔn)確地刻畫(huà)了熱點(diǎn)話題形成與發(fā)展的內(nèi)在機(jī)制。
圖1 六類曲線
M.Nekovee 和Y.Moreno 等 人[3]研究了復(fù)雜社會(huì)網(wǎng)絡(luò)(Complex social networks)下謠言傳播的理論,比較了不同社會(huì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中謠言的傳播機(jī)制。Damon Centola 等人[4]研究了在線社會(huì)網(wǎng)絡(luò)實(shí)驗(yàn)中行為的傳播,針對(duì)社會(huì)網(wǎng)絡(luò)對(duì)行為傳播的影響,得出行為在高聚類網(wǎng)絡(luò)中比在相應(yīng)的隨機(jī)網(wǎng)絡(luò)中傳播的更遠(yuǎn)、更快。
吳芳等[5]通過(guò)對(duì)digg.com 網(wǎng)站上100 萬(wàn)用戶的集體關(guān)注動(dòng)力學(xué)進(jìn)行分析,建立了一個(gè)以新穎因子為特征的動(dòng)力學(xué)模型,并得出結(jié)論:關(guān)注會(huì)在一定的自然時(shí)間尺度內(nèi)消退。趙麗等[6]通過(guò)統(tǒng)計(jì)和分析中國(guó)最大的博客站點(diǎn)(新浪博客)在幾個(gè)月中若干具有突發(fā)性的事件引起的熱門話題數(shù)據(jù),提出了一個(gè)基于節(jié)點(diǎn)知名度和活躍度的離散時(shí)間話題傳播模型。該模型只是博客網(wǎng)絡(luò)中話題傳播規(guī)律的初步探索,無(wú)法揭示網(wǎng)絡(luò)中熱點(diǎn)話題的形成與發(fā)展過(guò)程。20 世紀(jì)60 年代,Daley 和Kendall[7]對(duì)謠言傳播現(xiàn)象進(jìn)行了研究,對(duì)謠言傳播提出了數(shù)學(xué)模型。另外,周苗苗等[8]建立了社會(huì)網(wǎng)絡(luò)上的謠言傳播模型,研究初始集合對(duì)謠言傳播的影響,得出了任何節(jié)點(diǎn)被謠言傳播影響總的表達(dá)式,需要進(jìn)一步研究謠言傳播的仿真實(shí)驗(yàn)。Andrea Apolloni等[9]研究了現(xiàn)實(shí)社會(huì)網(wǎng)絡(luò)模型上的信息傳播,仿真檢驗(yàn)了在模擬的社會(huì)技術(shù)網(wǎng)絡(luò)中個(gè)人談話的信息傳播,建立概率模型來(lái)判斷兩個(gè)人基于他們之間的相似度與熟悉度是否將談?wù)撃硞€(gè)特殊的話題。
通常,網(wǎng)絡(luò)用戶可以方便地通過(guò)交互式網(wǎng)站進(jìn)行注冊(cè),成為一名虛擬用戶,并在該網(wǎng)站上瀏覽消息和通過(guò)評(píng)論、轉(zhuǎn)發(fā)及回復(fù)來(lái)表達(dá)自己的思想和對(duì)事件的看法。
在某一時(shí)刻T發(fā)生了一件事,一些網(wǎng)絡(luò)用戶立即關(guān)于此事發(fā)消息,成為傳播源。其他的用戶看到這些消息后,關(guān)于此事發(fā)消息(評(píng)論、轉(zhuǎn)發(fā)),隨著時(shí)間推進(jìn),已發(fā)過(guò)消息的用戶或許繼續(xù)關(guān)于此事與其他用戶討論而發(fā)消息(評(píng)論、轉(zhuǎn)發(fā)或回復(fù)),且有新的用戶關(guān)于此事發(fā)消息。隨著時(shí)間變化,該話題的受關(guān)注度逐漸消退。據(jù)此關(guān)于此話題的用戶的最終發(fā)帖量形成一個(gè)時(shí)間序列,其反映了該話題受關(guān)注度是怎樣隨著時(shí)間的推移而發(fā)生變化的。
首先假設(shè)封閉世界,也就是在Web2.0 這些交互式網(wǎng)絡(luò)上,話題從某一網(wǎng)絡(luò)中產(chǎn)生,并僅在此網(wǎng)絡(luò)中傳播,從而可以定義傳播模型。
定義無(wú)向圖G={V,E},用于描述某一交互式網(wǎng)絡(luò)中某一個(gè)話題的實(shí)際傳播網(wǎng)絡(luò),其中,V是網(wǎng)絡(luò)上用戶的集合,用戶可以發(fā)布新話題的消息,也可以評(píng)論其他用戶發(fā)的消息獲得話題信息,并發(fā)布相關(guān)消息供其他用戶評(píng)論、轉(zhuǎn)發(fā)或回復(fù)。
E表示將網(wǎng)絡(luò)用戶連接起來(lái)的所有邊組成的集合,代表話題可能的傳播路徑。如圖2 所示,表達(dá)了話題在網(wǎng)絡(luò)用戶間的傳播網(wǎng)絡(luò)。圖中空白節(jié)點(diǎn)表示對(duì)某事件不知情的網(wǎng)絡(luò)用戶,陰影節(jié)點(diǎn)表示已經(jīng)知道此事件,并關(guān)于此事件發(fā)布消息的用戶。在圖2 中,T=0 時(shí)刻沒(méi)有事件發(fā)生,所有的網(wǎng)絡(luò)用戶都處于未知狀態(tài),而在T=t時(shí)刻,發(fā)生了一件事,某些網(wǎng)絡(luò)用戶得知此消息后即刻在網(wǎng)絡(luò)上發(fā)布相關(guān)消息,這樣在下一時(shí)刻T=t+1 時(shí),與最先發(fā)布消息的用戶有連接的用戶也得知此消息并發(fā)布相關(guān)消息,而使話題繼續(xù)這樣傳播下去。
圖2 話題在網(wǎng)絡(luò)用戶間的傳播網(wǎng)絡(luò)
由于交互式網(wǎng)絡(luò)(Web2.0)相對(duì)于其他網(wǎng)絡(luò)有自己的特點(diǎn),不同于互聯(lián)網(wǎng)等物理網(wǎng)絡(luò),交互式網(wǎng)絡(luò)是一種關(guān)系網(wǎng)絡(luò)。交互式網(wǎng)絡(luò)(Web2.0)注重用戶的交互作用,用戶既可以瀏覽網(wǎng)站內(nèi)容,也可以“制造”網(wǎng)站內(nèi)容。這里“制造”網(wǎng)站內(nèi)容是指互聯(lián)網(wǎng)上的每一個(gè)用戶不再僅僅是互聯(lián)網(wǎng)的讀者(reader),同時(shí)也成為互聯(lián)網(wǎng)的作者(writer)。即用戶不再被動(dòng)地接收互聯(lián)網(wǎng)信息而是主動(dòng)地創(chuàng)造互聯(lián)網(wǎng)信息。網(wǎng)絡(luò)上的用戶就可以方便地結(jié)識(shí)并互相訪問(wèn),這就使其區(qū)別于電子郵件網(wǎng)絡(luò)等一般的關(guān)系網(wǎng)絡(luò)。因此本文認(rèn)為交互式網(wǎng)絡(luò)中任意兩個(gè)用戶之間都可以互相訪問(wèn),從而此網(wǎng)絡(luò)是一個(gè)全連通的無(wú)向圖。
本文中模型構(gòu)建的思想源于傳染病的傳播模型SI模型、SIS 模型和SIR 模型[10]。SI 模型中的節(jié)點(diǎn)有兩種狀態(tài):易感染狀態(tài)(Susceptible,S)和感染狀態(tài)(Infected,I)。每個(gè)感染節(jié)點(diǎn)以概率β來(lái)感染它的鄰居節(jié)點(diǎn)(概率β反映了病毒的感染力)。一旦易感者被感染,此節(jié)點(diǎn)永遠(yuǎn)保持被感染狀態(tài)。即易感染個(gè)體被感染后,不能被治愈。SI模型的基本形式如公式(1)所示:
而SIS 模型的原理是易感染個(gè)體被感染后,可以被治愈但無(wú)免疫力(即還可以被再次感染)(如感冒等)。SIR 模型的原理是易感染節(jié)點(diǎn)被感染后,可以被治愈且具有終身免疫力(這些節(jié)點(diǎn)不會(huì)被感染,同時(shí)也不會(huì)感染其他節(jié)點(diǎn),相當(dāng)于已經(jīng)從傳播網(wǎng)絡(luò)中被清除了)(如天花等)。
若將傳染病模型的思想用于網(wǎng)絡(luò)中話題的傳播,則可將網(wǎng)絡(luò)中用戶分為兩種狀態(tài):發(fā)布消息的用戶(Spreaders)和未發(fā)布消息的用戶(Ignorants)。用戶發(fā)布的消息以概率β感染尚未發(fā)布消息的用戶,發(fā)過(guò)一次消息的用戶不會(huì)重復(fù)發(fā)消息(或者全部用戶都重復(fù)發(fā)消息),但其所發(fā)的消息永遠(yuǎn)保持一定的感染力,這與現(xiàn)實(shí)的交互式網(wǎng)絡(luò)中話題的傳播不符合。事實(shí)上,在社交網(wǎng)絡(luò)中發(fā)過(guò)消息的網(wǎng)絡(luò)用戶可能會(huì)多次重復(fù)發(fā)布消息,也就是發(fā)過(guò)消息的用戶中有一部分會(huì)重復(fù)發(fā)布消息,而另一部分則發(fā)過(guò)一次消息后就不再發(fā)布消息。
基于上面的分析,本文根據(jù)話題的特征及用戶的行為模式,建立熱點(diǎn)話題傳播的模型,來(lái)描述隨著時(shí)間的推進(jìn),交互式網(wǎng)絡(luò)中用戶群體對(duì)熱點(diǎn)話題發(fā)表言論數(shù)的變化趨勢(shì)。因此,需建立單位時(shí)間內(nèi)所發(fā)消息數(shù)與時(shí)間之間的動(dòng)態(tài)關(guān)系。
簡(jiǎn)單來(lái)說(shuō),本文要解決的問(wèn)題就是已知在某一交互式網(wǎng)絡(luò)中,在時(shí)刻t0發(fā)生了一件事,有r(t0)個(gè)人關(guān)于此事發(fā)布消息,要研究此話題將怎樣隨時(shí)間演化。
文中假設(shè):
(1)在時(shí)刻t0時(shí),發(fā)生一個(gè)新聞事件。
(2)r(t0)個(gè)人立刻關(guān)于此事件發(fā)布消息,消息總數(shù)為r(t0)。
(3)該網(wǎng)站上其他的用戶看到r(t0)個(gè)人發(fā)的消息后,也立刻關(guān)于此事件發(fā)布消息(評(píng)論,轉(zhuǎn)發(fā)或回復(fù))。不考慮那些知道該話題但不發(fā)帖的用戶或不知道該話題的用戶,因?yàn)檫@些用戶對(duì)話題的傳播不起作用。
(4)網(wǎng)站上的所有用戶都可以多次發(fā)布消息。
(5)期間沒(méi)有其他的相關(guān)事件發(fā)生。
假設(shè)在某一交互式網(wǎng)絡(luò)上有用戶數(shù)N,尚沒(méi)有任何人關(guān)于某一話題發(fā)布過(guò)消息,在時(shí)刻t0,關(guān)于此話題的一件事發(fā)生了,有r(t0)個(gè)人立刻關(guān)于此話題發(fā)布消息。此話題的感染力,用流行病學(xué)中病毒感染力的標(biāo)準(zhǔn)符號(hào)β來(lái)表示。如果β等于零,表示無(wú)人關(guān)心此話題;β值越高,表示有越多的用戶關(guān)注此話題。另外,有參數(shù)β·N,此參數(shù)與流行病學(xué)上的基本傳染數(shù)R0相對(duì)應(yīng),表示在沒(méi)有外部力量介入且所有人都可以被感染的情況下,在下一時(shí)刻,一個(gè)感染源會(huì)感染多少個(gè)目標(biāo)的平均數(shù)。則tn時(shí)刻關(guān)于此話題的所有帖子,具有一定的感染力并以此感染力去影響tn時(shí)刻有可能發(fā)帖的用戶,那么就有tn+1時(shí)刻新發(fā)的帖子數(shù)。用數(shù)學(xué)符號(hào)表示如公式(2),(3):
其中,r(tn+1)表示(tn,tn+1]時(shí)間段內(nèi)用戶所發(fā)的消息數(shù),U(tn)表示tn時(shí)刻可以被感染的目標(biāo)數(shù),也就是有可能發(fā)帖的用戶(包括第一次得知此話題的用戶和已發(fā)過(guò)消息但可能會(huì)再次發(fā)消息的用戶),R(tn)表示tn時(shí)刻網(wǎng)站上關(guān)于此話題的所有帖子數(shù),R(tn)·β表示tn時(shí)刻關(guān)于此話題的所有帖子所具有的感染力。
Jure Leskove 等人[11]研究了博客系統(tǒng)中人們的級(jí)聯(lián)行為,他們指出:博客中帖子的“熱度”是按照冪律降低的,而不是指數(shù)規(guī)律,冪律的指數(shù)是-1.5,非常符合Barabasi[12]針對(duì)人類行為提出的長(zhǎng)尾理論。另外,A.L.Barabasi[13]研究的人們對(duì)郵件的響應(yīng)也服從指數(shù)為-1.5的冪律分布。最近的一些研究表明用戶在使用在線虛擬社區(qū)中的行為[14]、計(jì)算機(jī)指令的使用行為[15]等都具有長(zhǎng)尾冪率分布特征。因此,本文假設(shè)所研究的交互式網(wǎng)絡(luò)上用戶發(fā)布的消息的感染力是隨著時(shí)間成冪律下降的,即假設(shè)帖子發(fā)布t時(shí)間后的感染力大小為f(t),則有:
那么tn+1時(shí)刻新發(fā)的帖子數(shù)為:
其中,求和表示從話題開(kāi)始時(shí)刻到tn時(shí)刻,所有帖子的總的感染力。
另外,話題在傳播過(guò)程中,總會(huì)受到一些無(wú)法去除又無(wú)法估計(jì)的情況的影響。故在上式中加入噪聲ε,一般情況下,ε近似等于0。
至此得到了話題傳播的基本模型,如公式(6)。其中U(tn)表示tn時(shí)刻可被感染的用戶數(shù)。由于有些用戶可能會(huì)重復(fù)發(fā)消息,而有些用戶發(fā)過(guò)一次消息后就不再參與討論(不再關(guān)注或只是關(guān)注但不發(fā)言),因此本文假設(shè)發(fā)過(guò)消息的用戶不再參與話題討論的概率服從冪律分布。則tn+1時(shí)刻可被感染的用戶數(shù)等于tn時(shí)刻可被感染的用戶數(shù)減去已經(jīng)發(fā)過(guò)消息但tn+1時(shí)刻后不再發(fā)消息的用戶數(shù)。
其中:
由于本文在構(gòu)建PTSDM 模型時(shí)是基于人類行為動(dòng)力學(xué)的理論框架,根據(jù)熱點(diǎn)話題的特性而進(jìn)行的。則我們考慮人類行為在社會(huì)活動(dòng)中的規(guī)律性——參與網(wǎng)絡(luò)話題討論的用戶活動(dòng)存在一定的周期性(日周期、周周期、月周期或年周期)。本文只考慮用戶行為的日周期,模型如公式(9)所示:
其中:
C(tn)表示周期,考慮到參與討論的用戶的活動(dòng)以天為周期,因此乘以一個(gè)周期因子。即U(tn)表示可被感染的目標(biāo)數(shù),而求和部分表示感染源。正常情況下,只有當(dāng)目標(biāo)與感染源成功接觸時(shí),才會(huì)感染目標(biāo),從而產(chǎn)生新的感染力量;如果目標(biāo)正處于休息或睡眠狀態(tài),沒(méi)有關(guān)注感染源,則就會(huì)感染失敗,故用周期函數(shù)來(lái)表示。Cc表示周期時(shí)長(zhǎng)(24 小時(shí));Cs表示相位移,如果活動(dòng)高峰期在晚上6 點(diǎn),周期為24,則Cs=12;Ca表示振幅,也就是周期波的幅度,如果Ca=0,表示沒(méi)有周期波動(dòng)。
根據(jù)本文對(duì)話題特征的分析,話題在發(fā)展過(guò)程中存在一定的波動(dòng)性,故在上述所構(gòu)建的模型上加入隨機(jī)脈沖干擾,來(lái)表示在話題發(fā)展過(guò)程中,作者或者一部分用戶不斷地在一個(gè)話題中發(fā)表具有新內(nèi)容的回帖,或者發(fā)表一些帶有很大刺激性的回帖,來(lái)吸引其他用戶的回帖??捎萌缦潞瘮?shù)式來(lái)表示該干擾:
其中A表示脈沖的峰值幅度,w1,w2表示脈沖的寬度參數(shù),tr1表示首次脈沖峰值出現(xiàn)的時(shí)間,tr2表示兩個(gè)脈沖峰值間的時(shí)間間隔。
則本文要構(gòu)建的PTSDM 模型為:
其中:
C(tn),S(tn),f(t),P的定義分別如式(10)(11)(4)(8)所示。
模型中各參數(shù)的定義可參照表1。
表1 參數(shù)列表
為了驗(yàn)證本文構(gòu)建模型的有效性,實(shí)驗(yàn)中共使用了兩個(gè)數(shù)據(jù)集,第一個(gè)數(shù)據(jù)集是來(lái)自天涯和百度貼吧的熱點(diǎn)話題(簡(jiǎn)記為ChinDt),以單位時(shí)間(小時(shí))內(nèi)的帖子數(shù)作為熱度,經(jīng)聚類而成的6 個(gè)不同的類;第二個(gè)數(shù)據(jù)集是來(lái)自Stanford 大學(xué),選自Twitter 上的熱門帖子和新聞(簡(jiǎn)記為Twhtag),以每小時(shí)的評(píng)論數(shù)作為熱度,經(jīng)聚類而成的6 個(gè)不同的類。
(1)在ChinDt數(shù)據(jù)集上的實(shí)驗(yàn)
為了說(shuō)明本文所構(gòu)建模型的有效性,將SpikeM[2]模型與PTSDM 模型進(jìn)行了對(duì)比分析。
SpikeM 模型假定,在話題傳播過(guò)程中,每個(gè)網(wǎng)絡(luò)用戶最多參與一次話題討論,而這與客觀實(shí)際不符。因此本文構(gòu)建的PTSDM 模型對(duì)其進(jìn)行了改進(jìn),假設(shè)網(wǎng)絡(luò)用戶可以多次參與話題討論,且服從冪律分布。并且在對(duì)話題建模時(shí),引入了隨機(jī)脈沖信號(hào)作為干擾,使模型更具隨機(jī)性,更符合客觀實(shí)際。
本文采用SpikeM 模型和PTSDM 模型對(duì)數(shù)據(jù)集ChinDt 的6 個(gè)中心曲線進(jìn)行仿真模擬,圖3 和圖4 分別給出了兩個(gè)模型的仿真結(jié)果,其中時(shí)間單位為小時(shí)(h)。
在圖3 和圖4 中,黑色的圈線表示實(shí)際數(shù)據(jù),紅色的加號(hào)線表示模型的仿真數(shù)據(jù)。對(duì)于實(shí)際數(shù)據(jù),橫坐標(biāo)表示話題傳播時(shí)間,縱坐標(biāo)表示6 類中心曲線歸約后的每小時(shí)的新消息數(shù)。對(duì)于仿真曲線,橫坐標(biāo)表示離散的點(diǎn),縱坐標(biāo)表示在相應(yīng)時(shí)間點(diǎn)上用戶(包括首次發(fā)帖的用戶和重復(fù)發(fā)帖的用戶)新發(fā)帖子數(shù)與總帖子數(shù)的比值。
通過(guò)對(duì)圖3 的觀察與分析,可以發(fā)現(xiàn)SpikeM 模型對(duì)ChinDt 數(shù)據(jù)的擬合不理想,沒(méi)有體現(xiàn)出網(wǎng)絡(luò)熱點(diǎn)話題形成與發(fā)展過(guò)程中的上升與下降的過(guò)程,難以刻畫(huà)話題的發(fā)展趨勢(shì)。
通過(guò)對(duì)比圖3 和圖4 的仿真結(jié)果可以看出,PTSDM模型抓住了網(wǎng)絡(luò)熱點(diǎn)話題的本質(zhì)特征,很好地?cái)M合了實(shí)際數(shù)據(jù),特別是實(shí)際數(shù)據(jù)的波動(dòng)性和重尾現(xiàn)象,真實(shí)的反映了時(shí)序網(wǎng)絡(luò)熱點(diǎn)話題的發(fā)展趨勢(shì)。
表2 和表3 分別給出了PTSDM 模型在對(duì)數(shù)據(jù)集ChinDt 的六類曲線進(jìn)行擬合時(shí)的參數(shù)值和均方根誤差(Root-Mean-Square Error,RMSE,也稱為標(biāo)準(zhǔn)誤差)。均方根誤差的計(jì)算如公式(14)所示。
通過(guò)對(duì)圖4、表2 和表3 的分析可以看出:
①類C3 和C4 都有一個(gè)明顯的尖峰,并且迅速達(dá)到尖峰后又迅速衰減,但是C3 在話題傳播的尾部又有明顯的提升,說(shuō)明C3 類話題在以后時(shí)刻又受到某些因素的影響,從而引起網(wǎng)絡(luò)用戶的再次關(guān)注。
②C1、C5 和C6 類都有兩個(gè)波峰,且都是迅速達(dá)到高峰值后,然后又驟然下降,經(jīng)過(guò)一段時(shí)間后又緩慢地提升而達(dá)到第二次高峰,提升到平穩(wěn)階段后又以冪律的形式衰減,而最終消退;在C1、C5 和C6 中,在第二次達(dá)到高峰時(shí),C6 的間歇時(shí)間最長(zhǎng),長(zhǎng)達(dá)3 天時(shí)間,而C5 的間歇時(shí)間最短,在首次高峰衰減后即開(kāi)始緩慢提升。
③對(duì)于C2 類,與其他類都不同,C2 類迅速達(dá)到首次峰值后,在衰減的過(guò)程中,又有一個(gè)小的提升,之后以冪律的形式衰減至最低值,直至用戶對(duì)話題的關(guān)注消失。
圖3 采用SpikeM 模型擬合ChinDt的6 個(gè)中心曲線
④話題在傳播過(guò)程中有一定的日周期,與實(shí)際中人類的日周期行為相符;在所有話題的傳播過(guò)程中都有一定的小的波動(dòng),呈鋸齒狀,這些都是由于一些不可估計(jì)且無(wú)法消除的噪音所造成的,這與網(wǎng)絡(luò)熱點(diǎn)話題的實(shí)際傳播過(guò)程很相符。
⑤模型對(duì)六類曲線擬合的均方根誤差都很小,說(shuō)明本文構(gòu)建的模型對(duì)數(shù)據(jù)擬合的精確度很高。
從圖4 中還可以看出C4 只有一個(gè)波峰,且形成過(guò)程快,較少有其他波動(dòng),屬于自組織的行為模式,說(shuō)明其屬于一般熱點(diǎn)話題——由主帖提出問(wèn)題,然后有大量的用戶進(jìn)行回復(fù)生成熱點(diǎn),回復(fù)主要針對(duì)的對(duì)象是主帖。而C1、C2、C3、C5 和C6 有兩個(gè)波峰,形成過(guò)程是一個(gè)反復(fù)的過(guò)程,是一種外力驅(qū)動(dòng)的行為模式,說(shuō)明其屬于誘導(dǎo)性熱點(diǎn)話題——主帖提出一個(gè)話題,而后吸引回復(fù),在回帖中又有一些帖子(可能是主帖用戶,也可能是其他用戶提交的帖子)吸引了其他的用戶對(duì)其進(jìn)行大量回復(fù),形成一個(gè)波浪形的發(fā)展過(guò)程。
(2)在數(shù)據(jù)集Twhtag 上的實(shí)驗(yàn)
本文根據(jù)PTSDM 模型,采用Matlab 編寫(xiě)程序,以Twhtag 的6 個(gè)中心曲線為數(shù)據(jù)源,對(duì)模型中的參數(shù)進(jìn)行調(diào)整與估計(jì),進(jìn)行了仿真實(shí)驗(yàn),擬合結(jié)果如圖5 所示,其中時(shí)間單位為小時(shí)(h)。
圖4 采用PTSDM 模型擬合ChinDt的6 個(gè)中心曲線
表2 參數(shù)值列表
表3 標(biāo)準(zhǔn)誤差列表
在圖5 中,黑色的圈線表示實(shí)際數(shù)據(jù),紅色的加號(hào)線表示模型的仿真數(shù)據(jù)。對(duì)于實(shí)際數(shù)據(jù),橫坐標(biāo)表示話題傳播時(shí)間,縱坐標(biāo)表示6 類中心曲線歸約后的每小時(shí)的新貼數(shù)。對(duì)于仿真數(shù)據(jù),橫坐標(biāo)表示離散的點(diǎn),縱坐標(biāo)表示在該時(shí)刻話題被提及的次數(shù)的歸約。
通過(guò)對(duì)圖5 的分析,可以看出PTSDM 模型可以很好地仿真來(lái)自交互式網(wǎng)絡(luò)Twitter上的熱點(diǎn)話題的數(shù)據(jù),能夠刻畫(huà)話題發(fā)展的趨勢(shì)。
圖5 采用PTSDM 模型擬合Twhtag 熱點(diǎn)話題的6 個(gè)中心曲線
通過(guò)將PTSDM 模型與SpikeM 模型的對(duì)比以及在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn),可以得出結(jié)論:本文所構(gòu)建的PTSDM 模型能夠很好地刻畫(huà)網(wǎng)絡(luò)熱點(diǎn)話題形成與發(fā)展的內(nèi)在機(jī)制,達(dá)到了分析熱點(diǎn)話題規(guī)律的目的。
本文對(duì)交互式網(wǎng)站上的熱點(diǎn)話題建模開(kāi)展了一系列研究與實(shí)驗(yàn),對(duì)已有的建模方法以及模型進(jìn)行了分析與總結(jié),分析了熱點(diǎn)話題在網(wǎng)絡(luò)上的傳播過(guò)程,并根據(jù)網(wǎng)絡(luò)用戶的行為特征,對(duì)網(wǎng)絡(luò)熱點(diǎn)話題進(jìn)行了建模與分析。本文在構(gòu)建模型時(shí),與實(shí)際情況更為接近——假設(shè)用戶針對(duì)某一事件可以多次發(fā)布消息,并且在模型中加入隨機(jī)脈沖信號(hào)作為干擾,從而使模型可以更好的擬合真實(shí)話題的傳播模式。
本文提出的PTSDM 模型作為網(wǎng)絡(luò)中話題傳播規(guī)律的初步探索,進(jìn)一步的工作有:利用本文構(gòu)建的PTSDM模型對(duì)話題的傳播趨勢(shì)進(jìn)行預(yù)測(cè)。
[1] 韓忠明,陳妮,樂(lè)嘉錦,等.面向熱點(diǎn)話題時(shí)間序列的有效聚類算法研究[J].計(jì)算機(jī)學(xué)報(bào),2012,35(11):2337-2347.
[2] Matsubara Y,Sakurai Y,Prakash B A,et al.Rise and fall patterns of information diffusion:model and implications[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Beijing,China,2012:6-14.
[3] Nekovee M,Moreno Y,Bianconi G,et al.Theory of rumour spreading in complex social networks[J].Physica A:Statistical Mechanics and its Applications,2007,374(1):457-470.
[4] Centola D.The spread of behavior in an online social network experiment[J].Science,2010,329(5996):1194-1197.
[5] Wu F,Huberman B A.Novelty and collective attention[J].Proceedings of the National Academy of Sciences,2007,104(45):17599-17601.
[6] 趙麗,袁睿翕,管曉宏,等.博客網(wǎng)絡(luò)中具有突發(fā)性的話題傳播模型[J].軟件學(xué)報(bào),2009,24(5):1384-1392.
[7] Daley D J,Kendall D G.Epidemics and rumours[J].Nature Science,1964,204.
[8] 周苗苗,許成,劉曉波.社會(huì)網(wǎng)絡(luò)上的謠言傳播模[J].青島大學(xué)學(xué)報(bào):自然科學(xué)版,2010,24(4):28-36.
[9] Apolloni A,Channakeshava K,Durbeck L,et al.A study of information diffusion over a realistic social network model[C]//International Conference on Computational Science and Engineering.IEEE,2009,4:675-682.
[10] Anderson R M,May R M,Anderson B.Infectious diseases of humans:dynamics and control[M].Oxford:Oxford University Press,1992.
[11] Leskovec J,McGlohon M,F(xiàn)aloutsos C,et al.Cascading behavior in large blog graphs[J].arXiv preprint arXiv:0704.2803,2007.
[12] Barabasi A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.
[13] Oliveira J G,Barabási A L.Human dynamics:Darwin and Einstein correspondence patterns[J].Nature,2005,437(7063).
[14] Grabowski A,Kruszewska N,Kosiński R A.Dynamic phenomena and human activity in an artificial society[J].Physical Review E,2008,78(6):066110.
[15] Baek S K,Kim T Y,Kim B J.Testing a priority-based queue model with Linux command histories[J].Physica A:Statistical Mechanics and its Applications,2008,387(14):3660-3668.