熊熙 喬少杰 吳濤 吳越韓楠 張海清
情緒是一種復雜的心理體驗.個體可以通過模仿其他個體的肢體動作或面部表情來傳播情緒[1],同時情緒會受到各種非語言因素的影響.對情緒的研究引起了多學科的廣泛關(guān)注,包括經(jīng)濟學、神經(jīng)科學和心理學.眾多研究表明人們會受到其他人的情緒影響,并且這種影響的持續(xù)時間或長或短[2].陌生人之間的短暫接觸也能傳播情緒,例如服務(wù)員的“微笑服務(wù)”可以提升顧客滿意度進而為自己帶來小費[3].社交網(wǎng)絡(luò)特別強調(diào)用戶創(chuàng)造內(nèi)容,用戶不但是信息接受者,同時也是信息的制造者、發(fā)布者和傳播者,成為網(wǎng)絡(luò)輿論形式中不可分割的一部分.在線社交網(wǎng)絡(luò)也成為人們交流信息與情緒的主要平臺.下面以一個直觀的例子說明研究社交網(wǎng)絡(luò)中情緒傳播的重要性.2015年,亞馬遜網(wǎng)站創(chuàng)始人杰夫·貝佐斯(Je ffBezos)曾在Twitter發(fā)布一條推文,宣稱自己剛剛實現(xiàn)了運載火箭的軟著陸.該條消息以極快的速度在網(wǎng)絡(luò)上轉(zhuǎn)發(fā)和擴散,并且其關(guān)注者表現(xiàn)出極大的喜悅,在Twitter上展開了熱烈討論.于此同時,嫉妒和抑郁的情緒在SpaceX公司CEO埃隆·馬斯克(Elon Musk)的關(guān)注者中迅速蔓延.隨后馬斯克發(fā)布推文表示三年前他的火箭已經(jīng)完成了六次亞軌道飛行.該條消息迅速為其關(guān)注者帶來了積極的情緒.從這個例子可以看出,社交網(wǎng)絡(luò)可以通過用戶交互行為使情緒迅速擴散,并充分放大個體的情緒影響力.
本文對多層社交網(wǎng)絡(luò)中情緒傳播的研究主要基于如下幾點考慮:1)因為社交網(wǎng)絡(luò)用戶情緒與用戶的空間距離和時間跨度有關(guān),所以需要從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中提取時空特征,進而預測情緒傳播趨勢;2)社交網(wǎng)絡(luò)為用戶提供了多種交互機制,使信息和情緒的傳播更加便捷,同時也對情緒傳播產(chǎn)生了多維度的影響,因此有必要研究不同用戶交互行為對情緒傳播的影響.3)利用多層網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)的結(jié)構(gòu)和動力學特性,可以突破傳統(tǒng)單層網(wǎng)絡(luò)分析的局限性.多層網(wǎng)絡(luò)的出現(xiàn)實質(zhì)是為了突破傳統(tǒng)單層網(wǎng)絡(luò)中連邊同質(zhì)性的限制,各層有不同的拓撲結(jié)構(gòu)并且每層的節(jié)點之間不一定有對應關(guān)系.
社交網(wǎng)絡(luò)的結(jié)構(gòu)和動力學特性比隨機網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)和無標度網(wǎng)絡(luò)等典型網(wǎng)絡(luò)更加復雜,而且多種用戶行為對情緒傳播會產(chǎn)生重要影響.在此基礎(chǔ)上,本文的研究主要實現(xiàn)以下目標:
1)在考慮多種用戶行為等復雜要素的基礎(chǔ)上構(gòu)建一種社交網(wǎng)絡(luò)中的情緒傳播模型.
2)利用該模型研究社交網(wǎng)絡(luò)中情緒傳播規(guī)律,并預測其傳播趨勢.
本文主要貢獻包括:
1)提出一種基于社交網(wǎng)絡(luò)多種交互行為的情緒傳播模型,被稱為ECM模型(Emotional contagion model).利用該模型可以分析社交網(wǎng)絡(luò)中情緒傳播的過程與規(guī)律.研究發(fā)現(xiàn):多層社交網(wǎng)絡(luò)中中性情緒用戶所占比例隨時間逐漸增大,并且正向情緒與負向情緒比例始終接近.情緒傳輸率越大,用戶情緒更容易受到其他用戶的影響而發(fā)生變化.初始情緒越中立的用戶,在演化過程中情緒波動越小,而初始情緒極性越大的用戶情緒波動越大.
2)通過實驗對比了本文所提模型與其他情緒傳播模型,包括:基于情緒的Spreader-ignorant-stifler(ESIS)模型[4]和獨立級聯(lián)模型[5],實驗結(jié)果表明ECM模型對社交網(wǎng)絡(luò)中情緒傳播具有較好的預測效果.
情緒可以看作是由許多的關(guān)鍵成分所組成的復雜心理現(xiàn)象,通常包括主觀情緒體驗、面部表情以及軀體行為等,同時可以利用“效價–喚醒度”的劃分方法[6]將情緒分為不同類型:依據(jù)效價(Valence)將情緒分為正、負兩極,位于正極的稱積極情緒,通常帶來愉悅感受,如快樂、愛、愉快、幸福等;位于負極的稱消極情緒,通常產(chǎn)生不愉悅感受,如憂愁、悲傷、憤怒、緊張、焦慮、痛苦、恐懼、憎恨等;同時依據(jù)喚醒度(Arousal)區(qū)分情緒的強弱,喚醒度越大,所產(chǎn)生的情緒就越強烈.
不同類型情緒的傳播各有特點,利用弗雷明漢心臟研究(Framingham heart study,FHS)[7]的參與者數(shù)據(jù)可以分別研究高興、抑郁和孤獨等多種情緒在社交網(wǎng)絡(luò)中的傳播過程[8],進而通過廣義估計公式分析好友間情緒的關(guān)聯(lián)度,最終發(fā)現(xiàn)各種情緒都會在社交網(wǎng)絡(luò)中傳播,并且都能產(chǎn)生長時間的影響.Coviello等[8?9]研究了在線交互行為對傳播用戶情緒的作用,以陰雨天氣為例,發(fā)現(xiàn)下雨不僅可以直接造成人們的情緒低落,還可以通過社交網(wǎng)絡(luò)影響另一個天氣晴朗的城市的用戶情緒.上述研究主要針對消息的內(nèi)在特征,但未考慮用戶多種行為對情緒傳播的影響.
信息傳播為情緒傳播提供了必要的條件.現(xiàn)有的信息傳播模型可以分為兩類:圖模型和傳染病模型[10].圖模型以網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),主要包括獨立級聯(lián)模型(Independent cascade model,IC model)[5]和線性閾值模型(Linear threshold model,LT model)[11],其中獨立級聯(lián)模型中的用戶以一定概率在節(jié)點間傳遞信息,線性閾值模型的每個節(jié)點受到鄰點的影響力超過自身閾值就會被激活.傳染病模型主要通過模擬傳染病的傳播過程來對信息傳播過程建模,其中常見的傳染病模型包括SIR(Susceptible-infected-recovered)模型[12]和SIS(Spreader-ignorant-stifler)模型[13]等.這些模型將用戶分為幾類,各類型用戶在某些條件下可以相互轉(zhuǎn)化.近年來,一些不同場景下的信息傳播模型陸續(xù)被提出.Xiong等[14]提出一種信息擴散模型,該模型在SIR模型的基礎(chǔ)上增加了一種保留狀態(tài),用于表示用戶收到信息但未做出決策的狀態(tài).Wang等[4]提出了基于情緒的SIS(ESIS)模型,將情緒劃分為若干細粒度類型,邊權(quán)值等于用戶間帶有某種情緒的消息的轉(zhuǎn)發(fā)數(shù),而接收消息的概率由傳播概率和轉(zhuǎn)發(fā)強度共同決定.雖然上述模型總結(jié)了信息和情緒傳播過程中的部分特征,但是卻忽略了情緒傳播的多維度時空特性.
Boccaletti等[15]將多層網(wǎng)絡(luò)視為類似于一個由多個單層網(wǎng)絡(luò)組成的網(wǎng)絡(luò)集,每個單層網(wǎng)絡(luò)構(gòu)成一個網(wǎng)絡(luò)層,以(G,C)表示整個多層網(wǎng)絡(luò),其中,G是由一組單層網(wǎng)絡(luò)組成的集合,C是包含所有不同層間連邊的集合,進而形成網(wǎng)絡(luò)層內(nèi)的鄰接矩陣和網(wǎng)絡(luò)層間的鄰接矩陣.Kivela[16]進一步考慮多層網(wǎng)絡(luò)中同一層的網(wǎng)絡(luò)節(jié)點之間存在多重類型連邊的情況,即同一層中網(wǎng)絡(luò)又可進一步分為“亞層”,提出用張量分析的形式來表示這類多層網(wǎng)絡(luò)整體的鄰接矩陣.社交網(wǎng)絡(luò)多種交互機制所構(gòu)成的多層網(wǎng)絡(luò)結(jié)構(gòu)具有其特殊性,例如轉(zhuǎn)發(fā)關(guān)系網(wǎng)是關(guān)注關(guān)系網(wǎng)的子網(wǎng),上述抽象的多層網(wǎng)絡(luò)分析方法無法獲得滿意的結(jié)論.
社交網(wǎng)絡(luò)的多層結(jié)構(gòu)使信息和情緒可以同時在多個拓撲結(jié)構(gòu)中傳播,增加了研究的復雜性.Yagan等[17?18]研究了在線和真實社會網(wǎng)絡(luò)中信息的傳播規(guī)律,通過數(shù)學解析與模擬仿真的方法,發(fā)現(xiàn)獲得信息的用戶比例存在閾值,當該比例大于閾值時,信息將會大范圍傳播,并且傾向于在同一個社區(qū)中傳播.Kim等[19]研究了信息跨多個異質(zhì)社交網(wǎng)絡(luò)的擴散動力學.網(wǎng)絡(luò)用戶通過RSS訂閱器或社交網(wǎng)絡(luò)聚合器等工具,跨平臺瀏覽各種類型的新聞,使不同社交媒體發(fā)生耦合.上述研究的不足在于:跨平臺采集數(shù)據(jù)具有較大難度,即使利用社交網(wǎng)絡(luò)聚合器等工具取得數(shù)據(jù),仍然難以將同一個用戶在不同平臺中的數(shù)據(jù)對應起來.
社交網(wǎng)絡(luò)的用戶情緒更多地受用戶行為的影響,例如“轉(zhuǎn)發(fā)”和“提及”這兩種動作會為情緒傳播帶來不同的影響:“提及”對單個用戶的影響力較大,但影響范圍不及“轉(zhuǎn)發(fā)”.本文正是綜合考慮不同用戶行為對情緒傳播的影響,構(gòu)建社交網(wǎng)絡(luò)中的情緒傳播模型來分析情緒傳播的特征.
如圖1所示,構(gòu)建基于多層社交網(wǎng)絡(luò)的情緒傳播模型包括四個主要步驟:
1)從在線社交網(wǎng)絡(luò)Twitter和新浪微博中采集一段時間的用戶信息及其行為關(guān)系信息,以及在這段時間內(nèi)發(fā)送的文本消息.將這些數(shù)據(jù)進行預處理以供分析使用.
2)用戶的多種交互行為構(gòu)成多層網(wǎng)絡(luò),并且用戶對其好友隨后的信息會產(chǎn)生影響.利用統(tǒng)計方法分析不同時間點和不同網(wǎng)絡(luò)位置的用戶情緒及其交互行為數(shù)據(jù),以提取情緒在空間和時間上的多維度傳播特征.
3)構(gòu)建社交網(wǎng)絡(luò)中的情緒傳播模型,其中包含若干行為子層.每個子層根據(jù)該行為的交互歷史形成不同拓撲結(jié)構(gòu),并且每個子層中擁有不同的情緒傳輸率.
圖1 社交網(wǎng)絡(luò)中情緒傳播分析及模型構(gòu)建示意圖Fig.1 Analysis and modeling of emotion contagion in social networks
4)基于采集的數(shù)據(jù)對該模型進行仿真實驗,分析情緒的傳播規(guī)律,并利用該模型預測情緒的傳播趨勢.
利用文獻[20]中提到的方法可以將用戶不同交互機制形成的多層社交網(wǎng)絡(luò)用G=∪Gα來表示,其中,α表示不同子層.四個子層分別為關(guān)注子層(α=F)、轉(zhuǎn)發(fā)子層(α=R)、提及子層(α=M)和回復子層(α=S).每個子層中的用戶都可以表示為節(jié)點.這些子層存在以下特征:
1)各子層內(nèi)部的連邊分別具有不同的含義:關(guān)注子層的每條邊表示兩個用戶間存在好友關(guān)系;轉(zhuǎn)發(fā)子層的每條邊則表示用戶轉(zhuǎn)發(fā)了其他用戶的消息;提及子層的每條邊表示用戶在自己發(fā)布的消息中提到了其他用戶,該機制可以用于專門構(gòu)建用戶間的對話關(guān)系,或者僅僅是為了提醒某人查看該消息[21],從而使被提及用戶閱讀該消息的幾率大大增加;回復子層中每條邊表示用戶回復其他用戶的消息.
2)關(guān)注子層是其他子層的基礎(chǔ),提供了信息和情緒傳播的通道,而其他每個子層的節(jié)點集合和連邊集合都是關(guān)注子層相應集合的子集,因而其他子層的節(jié)點分布比關(guān)注子層稀疏,這表明用戶只會主動挑選部分消息進行轉(zhuǎn)發(fā)、提及或回復,而不像查看消息那樣是一個被動接受的過程.其他交互行為都受到關(guān)注子層的非規(guī)則拓撲結(jié)構(gòu)的影響.
3)用戶的關(guān)注行為在一段時間內(nèi)相對穩(wěn)定,不容易發(fā)生變化,因此用戶在較短時間內(nèi)(1小時至10天)的交互只需要考慮轉(zhuǎn)發(fā)、提及與回復這三種行為.
這三個行為子層中情緒傳輸效果存在較大差異,因此采用情緒傳輸率[20]來衡量一對用戶間傳播情緒的能力.情緒傳輸率受到用戶行為的影響,即不同的行為子層擁有不同的情緒傳輸率.
社交網(wǎng)絡(luò)用戶間的不同交互機制構(gòu)成了具有不同拓撲結(jié)構(gòu)的用戶關(guān)系網(wǎng)絡(luò),這些網(wǎng)絡(luò)之間相互依存并相互影響.利用多層網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)的結(jié)構(gòu)和動力學特性,可以突破傳統(tǒng)單層網(wǎng)絡(luò)分析的局限性,多維度挖掘情緒傳播的特征.多層網(wǎng)絡(luò)的出現(xiàn)實質(zhì)是為了突破傳統(tǒng)單層網(wǎng)絡(luò)中連邊同質(zhì)性的限制,各層有不同的拓撲結(jié)構(gòu)并且每層的節(jié)點之間不一定有對應關(guān)系.
Kramer通過發(fā)現(xiàn)社交網(wǎng)絡(luò)用戶可以影響其好友情緒,并且影響距離最大為3(用戶與其直接好友之間的距離為1),持續(xù)時間最多為3天[22].這一事實說明用戶間情緒具有時間關(guān)聯(lián)性和空間關(guān)聯(lián)性.同時,社交網(wǎng)絡(luò)中用戶行為的多樣性使情緒傳播又具有特殊性.為有效分析情緒傳播規(guī)律,并預測其傳播趨勢,本文提出基于多層社交網(wǎng)絡(luò)的情緒傳播模型(Emotional contagion model,ECM模型).
為簡化模型構(gòu)建,本模型基于以下假設(shè):為方便表示情緒的傳播過程,可以將連續(xù)時間軸劃分為若干細小時間段,其中每個時間段稱為一個時步.在一個時步中,兩個節(jié)點最多完成每種交互行為各一次,并且該行為子層上的所有節(jié)點(用戶)依次更新情緒狀態(tài).
如果用ρ表示關(guān)注子層的節(jié)點密度,它在整個模型演化過程中保持不變.α表示某一個行為子層,則該子層的節(jié)點密度ρα<ρ,可以表示為ρα=ργα,其中,γα稱為密度系數(shù),由[t??t,t]內(nèi)該層中發(fā)生交互行為的用戶分布決定.
α子層這兩個用戶之間在時步t新出現(xiàn)連邊的概率為γα,即α子層的密度系數(shù).假設(shè)α子層中用戶i與j之間存在連邊,而用戶k與j之間不存在連邊,則i和k分別對j采取α行為的概率為:
其中,?Eij(t)和?Ekj(t)表示節(jié)點i和k與節(jié)點j在時步t的情緒差,即 ?Eij(t)=Ei(t)?Ej(t),?Ekj(t)=Ek(t)?Ej(t);δα(j)和δF(j)分別表示j在α層和關(guān)注子層的鄰點集合;pkj表示k與j之間新產(chǎn)生連邊的概率,該值約等于γα,而pij則表示用戶i與j之間在時步t將發(fā)生交互的概率,可以表示為下面的公式:
如果用戶i對用戶j在[t??t,t]內(nèi)采取了α行為,則表示α子層中用戶i和用戶j之間的連邊權(quán)重,可以按以下公式計算:
在式(3)中,分子與分母分別表示在時間區(qū)間[t??t,t]內(nèi),j與i之間以及j與其在α層所有鄰點之間發(fā)生該行為的次數(shù).因此,是一個基于歷史行為數(shù)據(jù)的時變參數(shù),隨時間窗的移動而改變.式(1)表示用戶j模仿相鄰用戶的情緒,即情緒從相鄰用戶向j擴散,因此該式可以轉(zhuǎn)換為:
最后,同時考慮3個行為子層,可以得到:
式(7)表示用戶j在時步t的情緒表達式,其等于該用戶與相鄰用戶情緒差異的時間累積和行為累積.
本文提出一種基于多層社交網(wǎng)絡(luò)的情緒傳播模型–ECM 模型.該模型包括三個行為子層,并且每層的拓撲結(jié)構(gòu)各不相同,分別由用戶的交互歷史決定.算法過程簡單描述如下:
算法1.基于多層社交網(wǎng)絡(luò)的情緒傳播模型–ECM模型
算法共執(zhí)行sn個時步(第1行),在每次循環(huán)結(jié)束時需要更新時步;每個時步的處理過程可以分為兩個部分,分別用于計算[t??t,t]的時間段中每種行為發(fā)生的次數(shù)(第2~4行),以及更新每個用戶的情緒值(第5~9行).
表1 數(shù)據(jù)集統(tǒng)計信息Table 1 The statistical information of the datasets
為了說明ECM模型具有較好的時間性能,可用于預測情緒傳播趨勢,需要分析ECM模型的時間復雜性.每個時步的流程都分為兩個部分,第一部分用于計算每種行為的發(fā)生次數(shù),其時間復雜度為O(n2),第二部分用于更新用戶情緒,其時間復雜度也為O(n2).綜合上述步驟獲取整個ECM模型的時間復雜度為O(m×n2),其中,m和n分別表示時步數(shù)和用戶總數(shù).
Twitter是一種基于互聯(lián)網(wǎng)的社交網(wǎng)絡(luò),在世界范圍受到用戶的廣泛歡迎.據(jù)統(tǒng)計,2015年Twitter的月均活躍用戶量達到2.71億,成為傳播信息和情緒的有力工具.與此同時,作為國內(nèi)最大的微博網(wǎng)站,新浪微博每天也有超過1億條微博內(nèi)容產(chǎn)生.目前常用的社交網(wǎng)絡(luò)數(shù)據(jù)集主要有以下兩個:
1)斯坦福大學SNAP實驗室提供的Higgs網(wǎng)絡(luò)數(shù)據(jù)集[23].歐洲核子研究組織(CERN)于2012年7月4日宣布發(fā)現(xiàn)Higgs玻色子,該消息引起社交網(wǎng)絡(luò)上的廣泛議論.該數(shù)據(jù)集包含7月1日~7月4日該消息在Twitter傳播過程中的相關(guān)信息,其中包括好友、轉(zhuǎn)發(fā)、提及和回復這四種關(guān)系分別構(gòu)成的網(wǎng)絡(luò),以及每次行為發(fā)生的時間點.由于該數(shù)據(jù)集不包括任何文本信息,因此無法提取用戶行為發(fā)生時的情緒狀況,需要人為指定被傳播消息的情緒值.
2)數(shù)據(jù)堂提供新浪微博數(shù)據(jù)集.其中包含用戶好友關(guān)系和他們對12個主題相關(guān)信息的轉(zhuǎn)發(fā)關(guān)系,但是未包含提及與回復這兩種行為數(shù)據(jù).
現(xiàn)有數(shù)據(jù)集具有一定局限性,無法全面分析本文模型.因此本文利用爬蟲工具從Twitter和新浪微博網(wǎng)站重新采集了大量數(shù)據(jù).其中Twitter數(shù)據(jù)集包括33070個用戶及其關(guān)系信息,以及2016年3月間5起熱門話題的相關(guān)文本內(nèi)容;新采集的新浪微博數(shù)據(jù)集包括6344個用戶及其關(guān)系信息,以及2017年5月間的9起熱門事件的相關(guān)文本內(nèi)容.表1對比了本文新采集的數(shù)據(jù)集與現(xiàn)有數(shù)據(jù)集的主要統(tǒng)計信息.
本文采用情感分析工具SentiStrength[24]對情緒傳播過程進行量化分析.每條消息都同時包含正向情緒或負向情緒,因此每條消息都被同時賦予一個正向情感值S+(t)與一個負向情感值S?(t).這兩個值分別取1(中性)到5(強正向和強負向)之間的一個整數(shù)值.為使用統(tǒng)一的度量方法來衡量消息文本的情緒,可以將情緒極化值定義為正向情緒值和負向情緒值之和,即極化值S(t)取值范圍為?4(S+(t)=1,S?(t)=5)到+4(S+(t)=5,S?(t)=1).當正向和負向情緒值相同時(S+(t)=S?(t))則為中性情緒(S(t)=0).當情緒較弱時,極化值接近0,可以近似看作中性情緒.
此外,可以利用情緒極化值來定義情緒傾向.S(t)取值為?4到?2表示負向情緒傾向;S(t)取值為?1到1表示中性情緒傾向;S(t)取值為2到4則表示正向情緒傾向.如果需要在時變模型中表示情緒值,則可以使用連續(xù)情緒值,即采用θ1表示正向情緒和中性情緒的界線,θ2表示負向情緒和中性情緒的界線.如果連續(xù)情緒極性值服從[?4,4]的均勻分布,即a=?4,b=4,并且三種情緒取值區(qū)間寬度相同,則有下面公式:
利用式(8)可以求得θ1≈1.33,θ2≈?1.33.
為對比不同兩個數(shù)據(jù)集的文本情感,本文仿照SentiStrength對新浪微博數(shù)據(jù)集的中文文本進行分詞和情感分析,主要IKAnalyzer分詞工具[25]和BosonNLP情感詞典[26]對新浪微博的文本進行情感標注.
每個用戶通過三種行為影響其鄰居的情緒.通過對本文采集的數(shù)據(jù)進行分析,可以發(fā)現(xiàn)一系列特征.統(tǒng)計數(shù)據(jù)來自非連續(xù)三天的平均值并且每個時步定義為2個小時.在每個時步中,用戶情緒的變化可以表示為各種行為出現(xiàn)頻率以及不同行為情緒傳輸率的線性函數(shù)[20].利用線性回歸方法分析兩個數(shù)據(jù)集,可以得到置信度為95%時三個子層的情緒傳輸率.如表2所示,在兩個數(shù)據(jù)集中,提及子層的情緒傳輸率都最大,表明該行為更利于情緒在網(wǎng)絡(luò)中的擴散.并且新浪微博中情緒傳播更加迅速,主要是由于新浪微博中公共消息更多,更容易受到用戶的關(guān)注并形成情緒聚集.
表2 兩個數(shù)據(jù)集不同子層的情緒傳輸率Table 2 The transimisibilities on different layers in the two datasets
社交網(wǎng)絡(luò)的結(jié)構(gòu)和動力學特性比隨機網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)和無標度網(wǎng)絡(luò)等典型網(wǎng)絡(luò)更加復雜,而且各種因素都會對社交網(wǎng)絡(luò)中的情緒傳播產(chǎn)生重要影響.本小節(jié)將利用ECM模型分析社交網(wǎng)絡(luò)中的情緒傳播過程及其特征.由于兩個數(shù)據(jù)集中的實驗結(jié)果近似,因此本小節(jié)僅展示在Twitter數(shù)據(jù)集上的結(jié)果.
用戶之間存在某些特殊關(guān)系,例如親戚、朋友或擁有相同的愛好.用戶通過這些現(xiàn)實世界的關(guān)系產(chǎn)生在線關(guān)注關(guān)系,情緒也會因為這些關(guān)系而在網(wǎng)絡(luò)中傳播.如圖2所示,可以發(fā)現(xiàn):具有某種情緒的用戶在一段時間內(nèi)發(fā)布的消息中都會帶有該情緒傾向,并且該情緒會影響該用戶的直接或間接好友.同時,情緒傳播過程具有明顯的局部性,例如用戶一般只能影響距離在3以內(nèi)的用戶,并且距離越近關(guān)聯(lián)度越大,而對距離大于3的用戶幾乎沒有影響.此外還可以從數(shù)據(jù)中發(fā)現(xiàn)抑郁、孤獨和憤怒等負向情緒比愉快、興奮等正向情緒更容易傳播.
圖2 用戶間情緒關(guān)聯(lián)度與距離之間的關(guān)系圖Fig.2 Relation between emotional correlation and distances
利用ECM模型可以定量展示社交網(wǎng)絡(luò)用戶情緒的動態(tài)傳播過程.如圖3所示,三種情緒具有相近的初始比例,比例之差不超過4.0%.初始階段,三種情緒同時在網(wǎng)絡(luò)中傳播,中性情緒減少,其他兩種極化情緒增多.這主要是因為網(wǎng)絡(luò)的非均衡性會產(chǎn)生一些中心用戶,他們的極化情緒會對周圍用戶產(chǎn)生較大影響,使他們也同樣“情緒化”,中性情緒與極性情緒的比例差達到10.1%.用戶在與多個鄰居的交互中獲得了更多的信息,極化情緒用戶逐漸減少,而中性情緒用戶所占比例隨時間逐漸增大,并且正向情緒與負向情緒比例始終接近,比例差最大僅為2.5%.在演化趨于穩(wěn)定時,中性情緒處于主導地位,約占57.1%的比例,同時存在一部分用戶仍然持有極性情緒.通過分析網(wǎng)絡(luò)情緒分布,可以發(fā)現(xiàn)這些極化用戶之間形成了多個社區(qū),每個社區(qū)內(nèi)部用戶相互影響,情緒趨同,卻不易隨其他社區(qū)的情緒而改變.
為分析不同行為對情緒傳播的影響,需要研究情緒在單一行為子層的傳播過程,同時忽略其他子層的影響.圖4表示情緒轉(zhuǎn)換數(shù)(即情緒從一種傾向轉(zhuǎn)換為另一種傾向的次數(shù))與參數(shù)的關(guān)系,其中橫坐標表示用戶初始情緒與節(jié)點度的乘積的平均值.不同的子層具有不同的情緒傳輸率,其中提及行為的傳輸率最高,而轉(zhuǎn)發(fā)行為的傳輸率最小.圖4中三條曲線的關(guān)系表明情緒傳輸率越大,用戶情緒更容易受到其他用戶的影響而發(fā)生變化.對同一條曲線,初始情緒越中立,則用戶情緒波動越小,例如初始平均情緒值為0時,則用戶在演化過程中僅平均改變2次情緒傾向.而初始情緒極性越大,則用戶情緒波動越大.橫坐標為150時,平均每個用戶約改變24次情緒傾向.尤其是具有較大節(jié)點度的中心用戶,其極性情緒更能影響其他用戶.
為了展示ECM 模型的預測效果,可以將ECM 模型、ESIS模型和IC模型與真實數(shù)據(jù)進行對比實驗.鑒于這些模型之間略有差異,因此需要對參數(shù)進行一定的調(diào)整,使它們在同一基準上進行比較,具體參數(shù)調(diào)節(jié)過程如下:
圖3 ECM模型的演化規(guī)律Fig.3 Evolutionary process of ECM model
圖4 情緒轉(zhuǎn)換數(shù)隨用戶初始情緒與節(jié)點度乘積的變化Fig.4 The relation between the number of individual emotional tendency changes,the degree and the initial emotion
1)ESIS模型將情緒細分為六種.首先根據(jù)某用戶轉(zhuǎn)發(fā)的含有該情緒的消息數(shù)來計算該用戶的該種情緒值.然后將這六種情緒歸為正向、負向和中性三類:高興是正向,驚訝是中性,而憤怒、傷心、害怕和厭惡則是負向.最后某用戶在某時步內(nèi)的情緒值即為他在該時步內(nèi)所有消息的各情緒值之和.
2)修改IC模型,使邊的權(quán)重表示用戶間的影響力,而不僅僅是表示獲得信息的概率,因此節(jié)點即使受到該情緒影響也不會停止演化.另外,該模型使用與ECM模型相同的情緒值計算方法:當用戶收到一個消息,用戶當前情緒值為該消息的情緒值與之前用戶情緒值之和.
3)ESIS模型和IC模型也被看作是多層模型,只不過每層的拓撲結(jié)構(gòu)相同.
4)所有演化時步都被固定為2個小時.
通過對ESIS模型和IC模型的時間分析,可以發(fā)現(xiàn)它們的時間復雜度均為O(m×n2),其中m和n分別表示時步數(shù)和節(jié)點數(shù).這與ECM一致,表明三種模型擁有近似的執(zhí)行時間.此外,圖5展示了三種模型與真實數(shù)據(jù)在不同演化時步下的接近程度,其中縱坐標表示節(jié)點情緒值與節(jié)點度的乘積平均值.
從圖5可以看出,ESIS模型比其他模型擁有更好的數(shù)據(jù)擬合性.IC模型最簡單,而ESIS模型由SIS模型演化而來,可用于解釋信息傳播的過程.但是這兩種模型偏離真實數(shù)據(jù)較多,因為它們都只考慮了情緒本身的因素,而未考慮多種網(wǎng)絡(luò)行為對情緒傳播的影響.對比實驗表明,ECM模型與其他兩種模型具有相同的時間復雜度,但是與真實數(shù)據(jù)的擬合度更好.此外,圖5中幾種曲線都具有類似的走向,先是快速上升,然后緩慢下降.這是因為熱門事件通??梢栽诙虝r間內(nèi)激起人們的廣泛關(guān)注并出現(xiàn)極化情緒,隨著時間的推移,人們的情緒會慢慢趨于理性和穩(wěn)定.
分類算法的分類效果可以通過混淆矩陣中的準確率(Precision)、查全率(Recall)和F值(F-measure)等三個指標[27]來衡量.本文將情緒傳播中正向、中性和負向三種情緒分別歸屬到兩個分類:正向情緒為一類,中性和負向情緒為一類,則兩個分類之間的界線就是θ1.θ1為典型值1.3時三種模型的分類效果如圖6所示,顯然ECM模型擁有更好的分類準確率.新浪微博的公眾信息較多,用戶易受到中心用戶的影響,不易隨著其他個人用戶情緒而發(fā)生改變,因此分類準確率較高;而Twitter的用戶通常關(guān)注了較多的個人好友,其情緒也容易受到這些好友的影響,導致分類準確率降低.
三種模型中F-1值隨參數(shù)θ1的變化曲線如圖7所示,可以看出ECM 模型的F-1值比其他兩種模型提高了2.7%~7.8%,說明其擁有更高的分類準確率.三種模型的F-1值在θ1=1.5附近達到最大值,這是因為在情緒值均勻分布的條件下,此時三種情緒都擁有近似的用戶數(shù)量.ECM模型的曲線波動較大,并且與其他兩種模型的F-1之差也在θ1=1.5附近達到最大,說明ECM模型對參數(shù)θ1最為敏感.隨著θ1的增大或減小,情緒分布都會發(fā)生變化,從而導致情緒預測準確率的下降.
三種模型中F-1值隨用戶數(shù)量的變化曲線如圖8所示.可以看出,ECM模型將分類準確率提高了1.8%~6.2%.三種模型的F-1值都會隨用戶數(shù)的增大而增大,這是因為大規(guī)模的訓練集將會提高分類準確率.ECM模型描述情緒傳播特征更加充分,因此F-1值上升更加迅速,在用戶數(shù)為1900時達到最大值70.5%.
本文提出一種基于社交網(wǎng)絡(luò)多種交互行為的情緒傳播模型,利用該模型分析社交網(wǎng)絡(luò)中情緒傳播的過程與規(guī)律.在集的社交網(wǎng)絡(luò)數(shù)據(jù)基礎(chǔ)上進行仿真分析,發(fā)現(xiàn)中性情緒用戶所占比例隨時間逐漸增大,并且正向情緒與負向情緒比例始終接近.情緒傳輸率越大,用戶情緒更容易受到其他用戶的影響而發(fā)生變化.初始情緒越中立的用戶,在演化過程中情緒波動越小,而初始情緒極性越大的用戶情緒波動越大.最后,本文還對比了該模型與其他情緒傳播模型,如:基于情緒的SIS模型和獨立級聯(lián)模型,實驗表明ECM模型對社交網(wǎng)絡(luò)中情緒傳播具有較好的預測效果,預測準確率比其他兩種模型提高1.8%~7.8%.
圖6 三種模型分類度量值的對比Fig.6 The comparison of classification measurements of the three models
圖7 三種模型中的F-1值隨θ1的變化規(guī)律(Twitter數(shù)據(jù)集)Fig.7 F-1 changes withθ1for the three models(Twitter dataset)
圖8 三種模型中的F-1值隨用戶數(shù)的變化規(guī)律(Twitter數(shù)據(jù)集)Fig.8 F-1 changes with the number of users for the three models(Twitter dataset)
本文工作仍然存在一些需要改進的地方,例如:
1)社交網(wǎng)絡(luò)中的情緒傳播是一個復雜的過程,目前很難考慮所有網(wǎng)絡(luò)因素的影響,例如網(wǎng)絡(luò)結(jié)構(gòu)的動態(tài)演化.也就是說,用戶傾向與擁有相近情緒的用戶建立新的連接,而與相反情緒的用戶斷開連接.分析多種因素對情緒傳播的影響將是未來一項有價值的工作.
2)本文的工作基于情緒分析算法,并采用了SentiStrength等工具和手段對消息文本進行分析.雖然比之前的分析方法準確,但仍然無法解析人類語言表達中的微妙情緒,例如挖苦和嘲諷,也無法很好地識別一句話中的多種情緒.情緒的這些特點都給其識別帶來了困難,需要在未來進行深入研究.