湯小東,錢進(jìn)(.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 60065;.重慶市通信服務(wù)產(chǎn)業(yè)有限公司移動服務(wù)分公司,重慶 40400)
社交網(wǎng)絡(luò)中基于情感模型的用戶轉(zhuǎn)發(fā)行為預(yù)測
湯小東1,錢進(jìn)2
(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.重慶市通信服務(wù)產(chǎn)業(yè)有限公司移動服務(wù)分公司,重慶404100)
隨著互聯(lián)網(wǎng)技術(shù)的快速革新,社交網(wǎng)絡(luò)在信息傳播中的作用越來越重要。社交網(wǎng)絡(luò)為人們提供一個(gè)表達(dá)自己觀點(diǎn)和通過一系列行為(例如發(fā)布、轉(zhuǎn)發(fā)和點(diǎn)贊等行為方式)與他人建立溝通的平臺。在這個(gè)過程中將產(chǎn)生巨大的信息,如何利用這些信息將成為大多數(shù)研究者關(guān)注的核心問題。現(xiàn)如今,已經(jīng)有很多學(xué)者從事預(yù)測用戶行為的研究工作。然而他們大多使用機(jī)器學(xué)習(xí)的方法進(jìn)行分類或預(yù)測,很少會分析隱藏在用戶微博中的情感特征。但是這確實(shí)是分析用戶興趣與觀點(diǎn)的重要的因素。
Suh等人[1]使用Twitter的數(shù)據(jù)作為研究對象,他們分析了影響微博被轉(zhuǎn)發(fā)的幾種因素,結(jié)果表明微博是否包含了URL和話題標(biāo)記對微博的轉(zhuǎn)發(fā)率有直接的影響,而微博作者的粉絲數(shù),關(guān)注數(shù)和注冊時(shí)常對轉(zhuǎn)發(fā)率有間接影響,但是微博作者的微博數(shù)和轉(zhuǎn)發(fā)率基本無關(guān)。他沒有分析用戶對微博的主觀看法對轉(zhuǎn)發(fā)率的影響。Wu[2]介紹了一種信息擴(kuò)散方式,并且實(shí)現(xiàn)了一種邏輯回歸模型來預(yù)測用戶轉(zhuǎn)發(fā)行為,但是他也忽略了基于文本的情感因素對預(yù)測結(jié)果的影響。
Naveed[3]介紹了一種基于微博內(nèi)容特征的預(yù)測模型,他分析了用戶對微博內(nèi)容的正向及負(fù)向態(tài)度對轉(zhuǎn)發(fā)率的影響,并且他設(shè)計(jì)了一種回歸模型來預(yù)測用戶的轉(zhuǎn)發(fā)。但是他卻忽略了周圍用戶群對轉(zhuǎn)發(fā)率的影響。Zaman[4]將微博與用戶的固有特征抽離出來進(jìn)行分析,提出了一種概率協(xié)同模型來計(jì)算用戶轉(zhuǎn)發(fā)一條微博的概率。但是他沒有考慮用戶興趣與對應(yīng)微博內(nèi)容之間的聯(lián)系。
本文針對用戶對短文本內(nèi)容的主觀看法,建立基于情感分析方法的主觀模型,并結(jié)合基于周圍鄰居對目標(biāo)用戶轉(zhuǎn)發(fā)行為影響的用戶適應(yīng)性模型,提出一種新的用戶轉(zhuǎn)發(fā)預(yù)測模型——混合模型。并設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證混合模型可極大提升預(yù)測準(zhǔn)確度。本文的主要貢獻(xiàn)如下所示:
(1)設(shè)計(jì)并實(shí)現(xiàn)周圍鄰居對目標(biāo)用戶轉(zhuǎn)發(fā)行為影響的計(jì)算方法,并提出隨時(shí)間變化的迭代算法。
(2)設(shè)計(jì)并實(shí)現(xiàn)了基于情感分析的用戶對特定微博的話題相似度計(jì)算方法。
在社會心理學(xué)分析中,一個(gè)人第一次所做的決定往往是在潛意識中完成的。然后會根據(jù)周圍環(huán)境選擇改變行為或決定。這就是所謂的適應(yīng)性。因此預(yù)測用戶在社交網(wǎng)絡(luò)中的行為時(shí)我們應(yīng)該考慮到個(gè)人潛意識下的決定和環(huán)境的改變兩方面因素。我們做出以下假設(shè):
假設(shè)1:用戶在社交網(wǎng)絡(luò)中的轉(zhuǎn)帖行為只受個(gè)人選擇和周邊人群選擇的影響;例如,在研究Twitter用戶的轉(zhuǎn)帖行為時(shí),當(dāng)用戶u0發(fā)布帖子w,我們將預(yù)測用戶u轉(zhuǎn)發(fā)該帖子w的概率。
假設(shè)2:用戶個(gè)人選擇只受用戶興趣的影響;即用戶與該微博的話題相似度。
為了測量用戶個(gè)人選擇對他的轉(zhuǎn)帖行為的影響,我們基于假設(shè)2來建立用戶主觀模型;在主觀模型中,我們考慮用戶兩方面因素來計(jì)算話題相似度pw(u):
(1)興趣相似度DIu(w):我們將測量用戶u對帖子w的興趣相似度,因?yàn)橹挥杏脩舾信d趣的話題才會被用戶轉(zhuǎn)發(fā)。
(2)觀點(diǎn)相似度sim(u,w):我們將測量用戶u對帖子w的觀點(diǎn)持同意或反對態(tài)度。
結(jié)合興趣相似度和觀點(diǎn)相似度,我們將計(jì)算用戶與該微博的話題相似度。
pw(u)=αDIu(w)+(1-α)sim(u,w)
其中:α(0<α<1)為兩方面因素的權(quán)重。
假設(shè)3:用戶轉(zhuǎn)發(fā)的概率和周圍用戶群轉(zhuǎn)發(fā)概率成單調(diào)遞增關(guān)系;例如,當(dāng)用戶u周圍用戶轉(zhuǎn)發(fā)w概率相當(dāng)大時(shí),即使用戶u對該w話題相似度較低,用戶u仍可能會在一段時(shí)間內(nèi)轉(zhuǎn)發(fā)w;
為了測量用戶受周圍人群的影響,我們根據(jù)假設(shè)3建立用戶適應(yīng)模型。
pw(u)t+1=BNw(u)+(1-B)pw(u)t
其中:B(02 用戶轉(zhuǎn)發(fā)行為建模
2.1用戶主觀模型
在數(shù)據(jù)預(yù)處理階段,對每一個(gè)用戶u,我們收集用戶u的50條微博作為單個(gè)用戶數(shù)據(jù)集。使用Gensim工具[5]來提取每個(gè)用戶話題集Tu。當(dāng)計(jì)算用戶u與帖子w的話題相似度時(shí),我們從Tu中提取出k個(gè)與帖子w的相關(guān)度較高的話題組成一個(gè)新話題集T(u,m)={t1,t2,…,tk}。
用戶u對帖子w的興趣相似度。
其中:DRw(ti)表示帖子w與每個(gè)話題ti(ti∈Tu,m)的相關(guān)度。
其中νw表示帖子w中的單詞,num(νw)表示單詞νw在帖子w出現(xiàn)的個(gè)數(shù)。WPν(ti)表示單詞νw在話題ti中的權(quán)重。DIu(ti)表示用戶u對話題ti的興趣度。
其中Wu(ti),Wu。Sω表示帖子w的情緒度。Sω=sp(w)+|sn(w)|.sp(w)表示帖子w的正向情緒度,sn(w)表示帖子w的負(fù)向情緒度。我們使用情緒檢測工具SentiStrength[6]來測量話題w的正向情緒度sp(w)和負(fù)向情緒度sn(w)。
用戶u對帖子w的觀點(diǎn)相似度:
其中maxDist表示兩個(gè)觀點(diǎn)之間最大的不相關(guān)程度,在模型中我們定義maxDist=9。dist(u,w)定義為用戶u對帖子w的觀點(diǎn)與帖子w所表達(dá)的觀點(diǎn)的不相關(guān)程度。為了計(jì)算用戶關(guān)于帖子w的觀點(diǎn),我們引入情感度量標(biāo)準(zhǔn)。在此標(biāo)準(zhǔn)中,用戶對觀點(diǎn)的情感表示可分為10個(gè)級別,正向情感有(1,2,3,4,5)5個(gè)量度來表示,負(fù)向情感由(-1,-2,-3,-4,-5)5個(gè)量度來表示。
其中VPu(w)∈R10來衡量用戶u關(guān)于帖子w的情感度,其中每一個(gè)分量都表示對應(yīng)情感量度的權(quán)重。VPw∈R10表示帖子w的情感度。其計(jì)算方式如下:
VPu(w)的計(jì)算方式如下:
其中VPu(ti)∈R10來衡量用戶u關(guān)于觀點(diǎn)ti的情感度,可以通過以下方式來計(jì)算:
numu(ti)表示用戶u轉(zhuǎn)發(fā)與話題 ti相關(guān)的帖子個(gè)數(shù)。即就是滿足DRw(ti)>0的帖子個(gè)數(shù)。numu(ti,s)表示滿足DRw(ti)>0并且Sω=s。其中s的計(jì)算方式如下:
2.2用戶適應(yīng)模型
基于用戶主觀模型,我們使用用戶適應(yīng)模型來實(shí)時(shí)更新用戶話題相似度pw(u):
其中Nw(u)t表示的在時(shí)刻t所有鄰居的決定對用戶u的影響。
其中v表示用戶u的鄰居用戶。Nu(v)表示在時(shí)刻t用戶v對用戶u的影響。C定義為最大鄰居個(gè)數(shù)。sim (u,v,w)表示用戶v與用戶u在帖子w上的觀點(diǎn)相似度。
其中Pw(v)t表示在時(shí)刻 t下用戶 v轉(zhuǎn)發(fā)帖子 w的概率。Pwt-1表示在時(shí)刻t-1下所有用戶轉(zhuǎn)發(fā)帖子w的平均概率。pmaxwt-1表示在時(shí)刻t-1下所有用戶轉(zhuǎn)發(fā)帖子w的最大概率。
3.1數(shù)據(jù)預(yù)處理
本文利用Twitter API隨機(jī)抽取約500名用戶,并收集在2012年8月1日至10月30日之間這些用戶的好友信息,發(fā)布或轉(zhuǎn)發(fā)的微博信息,好友發(fā)布或轉(zhuǎn)發(fā)的微博信息,微博信息之間的轉(zhuǎn)發(fā)關(guān)系等組成原始數(shù)據(jù)集。本文將測試數(shù)據(jù)集定義在2012年8月1日至10 月1日之間。為了去除大量的無效信息及無效用戶,本文定義一下約束:
在2012年8月1日至10月1日之間,一條去掉噪音和停用詞之后至少包含10個(gè)實(shí)用詞,并且被轉(zhuǎn)發(fā)2次以上的微博可被定義為有效微博。
在2012年8月1日至10月1日之間,發(fā)布或者轉(zhuǎn)發(fā)過至少200條微博,并且這些微博中至少有包含50條有效微博的用戶可被定義為有效用戶。
在2012年10月1日之后,一條去掉噪音和停用詞之后至少包含5個(gè)實(shí)用詞,并且被轉(zhuǎn)發(fā)2次以上的微博可被定義為測試微博。隨機(jī)提取出1000條有效微博,并隨機(jī)收集200個(gè)發(fā)布或轉(zhuǎn)發(fā)這些有效微博
本實(shí)驗(yàn)從原始數(shù)據(jù)集中提取有效用戶建立用戶訓(xùn)練集。并且從原始數(shù)據(jù)集中隨機(jī)收集用戶訓(xùn)練集中每一個(gè)用戶發(fā)布或轉(zhuǎn)發(fā)的50條有效微博,使用Gensim工具[5]將它們劃分為最多5個(gè)話題集作為用戶話題集。對原始數(shù)據(jù)集中的每一個(gè)微博,本文使用SentiStrength工具[6]對其進(jìn)行情感分析,得出每條微博的正面情感值(在1到5之間)和負(fù)面情感值(在-1到-5之間)。本實(shí)驗(yàn)從原始數(shù)據(jù)集中分別提取出100條,200條,400條測試微博作為用戶測試數(shù)據(jù)集。
3.2實(shí)驗(yàn)結(jié)果
表1 在三種數(shù)據(jù)集下兩種模型的預(yù)測結(jié)果
圖1 在不同時(shí)間段內(nèi)微博平均轉(zhuǎn)發(fā)次數(shù)的走向
考慮用戶u在社交網(wǎng)絡(luò)中的鄰居對u的影響因素來預(yù)測測試集合中每條微博的轉(zhuǎn)發(fā)情況:本實(shí)驗(yàn)實(shí)現(xiàn)用戶適應(yīng)模型算法,將每個(gè)用戶u和每條被測試的微博的 pw(u)的初值設(shè)定為一個(gè)的隨機(jī)小數(shù)d(0 綜合考慮用戶u對于微博的主觀情感,以及 u在社交網(wǎng)絡(luò)中的鄰居對u的影響因素來預(yù)測測試集合中每條微博的轉(zhuǎn)發(fā)情況:本實(shí)驗(yàn)實(shí)現(xiàn)混合模型算法,基于用戶主觀模型來計(jì)算每個(gè)用戶u和每條被測試的微博,pw(u)的初值,迭代次數(shù)設(shè)置為10。 針對每一條測試微博,基于兩種模型分別計(jì)算用戶訓(xùn)練集中的每個(gè)用戶的轉(zhuǎn)發(fā)可能性 pw(u),并將實(shí)驗(yàn)結(jié)果排序,取其前2%的用戶作為預(yù)測結(jié)果。預(yù)測結(jié)果如表1所示,將用戶的主觀情感加入社交網(wǎng)絡(luò)中可以極大地提高預(yù)測的準(zhǔn)確度。同時(shí)本文跟蹤了數(shù)據(jù)集中的每一條微博,并統(tǒng)計(jì)每一條微博在不同時(shí)間段的平均轉(zhuǎn)發(fā)次數(shù)。如圖1所示。 社交網(wǎng)絡(luò)的興起,給研究社會影響現(xiàn)象提供了理想的實(shí)驗(yàn)平臺。同時(shí),對社會社交網(wǎng)絡(luò)的研究又能對改進(jìn)社交網(wǎng)站的某些應(yīng)用起到幫助作用。我們對基于Twitter的社交平臺中用戶的潛意識的主觀看法對其轉(zhuǎn)帖行為影響的進(jìn)行分析研究。發(fā)現(xiàn)用戶潛意識的看法有助于提升預(yù)測其轉(zhuǎn)帖行為的準(zhǔn)確性。本文提出了基于情感分析的主觀模型建模方法,和用戶適應(yīng)性模型的建模方法。這對于基于短文本信息的主題、情感、內(nèi)容等語意信息對社會網(wǎng)絡(luò)的影響提供了指導(dǎo)作用。而且這一方面的研究也使我們能夠更好地分析和度量社會網(wǎng)絡(luò)上用戶的社會影響力。 [1]Suh,B,Lichan Hong,Pirolli,P.,Chi,Ed H.Want to Be Retweeted Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C].2010 IEEE Second International Conference on Social Computing.Minneapolis:IEEE Computer Society,2010:177-184 [2]Wu K,Ji X,Liu C.Information Diffusion Model for Microblog[C].Software Engineering and Service Science(ICSESS),2013 4th IEEE International Conference on.IEEE,2013:212-215. [3]Naveed N,Gottron T,Kunegis J,et al.Bad News Travel Fast:A Content-Based Analysis of Interestingness on Twitter[J].uni,2011. [4]Zaman T R,Herbrich R,van Gael J,et al.Predicting Information Spreading in Twitter[C].Workshop on Computational Social Science and the Wisdom of Crowds.Whistler:NIPS,2010:17599-17601 [5]Khosrovian,Keyvan,Dietmar Pfahl,and Vahid Garousi.GENSIM 2.0:a Customizable Process Simulation Model for Software Process Evaluation.In:ICSP'08 Proceedings of the Software Process,2008 International Conference on Making Globally Distributed Software Development a Success sSory,pp.294-306 [6]Thelwall,Mike,Kevan Buckley,and Georgios Paltoglou.Sentiment Strength Detection for the Social Web.In:Journal of American Society for Information Science and Technology 63.1,pp.163-173 Twitter;Retweet Behavior;Sentiment Analysis;Social Network Prediction of User's Retweet Behavior Based on Sentiment Analysis in Social Network TANG Xiao-dong1,QIAN Jin2 (1.College of Computer Science,Sichuan University,Chengdu 610065;2.Chongqing Communication Services Company Limited,Chongqing404100) 1007-1423(2016)05-0033-05 10.3969/j.issn.1007-1423.2016.05.007 湯小東(1990-),男,陜西楊凌人,碩士,研究方向?yàn)闄C(jī)器學(xué)習(xí)、圖形圖像處理 2015-12-24 2016-01-23 基于Twitter的用戶社會影響力的分析一直是社交網(wǎng)絡(luò)分析的熱點(diǎn)。然而很少有研究針對用戶對微博的主題、情感、內(nèi)容等語意信息的主觀看法來預(yù)測用戶的轉(zhuǎn)貼行為。實(shí)現(xiàn)基于周圍鄰居對目標(biāo)用戶轉(zhuǎn)發(fā)行為影響的用戶適應(yīng)性模型。并且實(shí)現(xiàn)基于語義分析的用戶主觀模型結(jié)合用戶適應(yīng)性模型的混合模型。設(shè)計(jì)實(shí)驗(yàn)證實(shí)用戶對微博內(nèi)容的主觀看法極大影響預(yù)測結(jié)果。 Twitter;轉(zhuǎn)貼行為;情感分析;社交網(wǎng)絡(luò) 錢進(jìn)(197l-),男,重慶人,本科,工程師,研究方向?yàn)橥ㄐ艂鬏?/p> Retweeting behavior on Twitter is the behavior that user reposts comments from their friends.Few studies have investigated in combining a user's subjectivity motivation with his conformity to environment to predict a user's retweeting behavior.Based on the sentiment analysis,combines a user's subjectivity motivation with a designed adoption model which measures a user's neighbors'influences,and then establishes a mixture model with these two factors to do prediction.Evaluates the model in Twitter dataset to verify its prediction performance.4 結(jié)語