唐 興,權(quán)義寧,宋建鋒,鄧 凱,朱 海,苗啟廣
(1.西安電子科技大學(xué)計算機學(xué)院,陜西西安 710071; 2.周口師范學(xué)院計算機科學(xué)與技術(shù)學(xué)院,河南周口 466001)
微博個性化轉(zhuǎn)發(fā)行為預(yù)測新算法
唐 興1,權(quán)義寧1,宋建鋒1,鄧 凱1,朱 海2,苗啟廣1
(1.西安電子科技大學(xué)計算機學(xué)院,陜西西安 710071; 2.周口師范學(xué)院計算機科學(xué)與技術(shù)學(xué)院,河南周口 466001)
目前,對微博轉(zhuǎn)發(fā)行為預(yù)測主要是對所有微博用戶的歷史數(shù)據(jù)進行學(xué)習(xí),從而得到轉(zhuǎn)發(fā)模型.但是這類模型需要對所有用戶的轉(zhuǎn)發(fā)行為進行全局預(yù)測,存在同質(zhì)性且無法對具體用戶進行個性化預(yù)測的缺陷.針對這些問題,提出了基于多任務(wù)學(xué)習(xí)的個性化微博轉(zhuǎn)發(fā)行為預(yù)測算法.對新浪微博進行了數(shù)據(jù)抓取、分析和特征選擇,根據(jù)社會學(xué)中影響力的理論,針對微博用戶之間進行社交信息交流而導(dǎo)致相互影響的特點,引入了多任務(wù)學(xué)習(xí)方法,以邏輯回歸預(yù)測模型作為基準(zhǔn)算法,將預(yù)測模型分為全局模型與個性模型進行學(xué)習(xí).預(yù)測模型把對每個用戶轉(zhuǎn)發(fā)行為的預(yù)測對應(yīng)為多個任務(wù),根據(jù)微博用戶間的社交交互對這些任務(wù)進行關(guān)聯(lián).實驗結(jié)果表明,所提出的模型能夠有效地對單個用戶的微博轉(zhuǎn)發(fā)行為進行預(yù)測,并且提高了轉(zhuǎn)發(fā)行為預(yù)測的準(zhǔn)確率.
多任務(wù)學(xué)習(xí);個性化;轉(zhuǎn)發(fā)行為;社交網(wǎng)絡(luò);微博;數(shù)據(jù)挖掘
近年來,線上社交網(wǎng)絡(luò)的迅猛發(fā)展吸引了研究者的注意.微博是一個基于關(guān)注關(guān)系的信息共享、傳播的線上社交網(wǎng)絡(luò)平臺.在微博中,用戶通過發(fā)布微博分享他們感興趣的信息與狀態(tài),該用戶的關(guān)注者對該用戶的某條微博進行轉(zhuǎn)發(fā),這就使得該條微博在社交網(wǎng)絡(luò)中進行了一跳傳播.經(jīng)典的信息模型包括線性閾值模型與獨立級聯(lián)模型[1].這兩種模型都需要假定信息在用戶之間的傳播概率,通常將傳播概率設(shè)為某個固定的值或者假定服從某個已知的概率分布.這樣就造成了信息在網(wǎng)絡(luò)中傳播的同質(zhì)性現(xiàn)象,無法對個體進行差異性分析.轉(zhuǎn)發(fā)行為是組成信息傳播的原子行為,因此,對轉(zhuǎn)發(fā)行為的研究成為信息傳播的一個基本問題.
通常將預(yù)測用戶對某條微博轉(zhuǎn)發(fā)行為定義為一個二分類問題[2-5].根據(jù)對微博數(shù)據(jù)的分析,將具體某條微博量化為特征向量T.然后對每條微博根據(jù)轉(zhuǎn)發(fā)情況進行標(biāo)記,存在轉(zhuǎn)發(fā)歷史則標(biāo)記為1,沒有被轉(zhuǎn)發(fā)則標(biāo)記為0.根據(jù)得到的特征向量與標(biāo)記,文獻[2]通過人工實驗的方法,證明了分類算法在對微博轉(zhuǎn)發(fā)行為預(yù)測問題上的可行性,并進一步改進了他們的Passive-Aggressive算法.文獻[3]提出了特征加權(quán)模型,通過對Twitter中轉(zhuǎn)發(fā)行為預(yù)測準(zhǔn)確性的研究,對每組特征加以區(qū)分.同樣,文獻[4]通過不同模型來對Twitter中的轉(zhuǎn)發(fā)行為進行預(yù)測來分析特征的重要性.這些研究都是利用在用戶微博數(shù)據(jù)上建立學(xué)習(xí)模型,給出了相應(yīng)的機器學(xué)習(xí)算法來處理用戶微博轉(zhuǎn)發(fā)預(yù)測問題.
另一方面,由于局部用戶數(shù)據(jù)存在稀疏性的特點,預(yù)測模型通常是基于所有用戶的微博數(shù)據(jù)學(xué)習(xí)相關(guān)模型,對轉(zhuǎn)發(fā)行為進行預(yù)測.這樣的全局模型無法對一些具體用戶行為進行預(yù)測.另外,由于用戶的預(yù)測模型都是基于同一參數(shù)模型,因此具有同質(zhì)性.為解決這個問題,引入了多任務(wù)學(xué)習(xí)框架[6-10].多任務(wù)學(xué)習(xí)是一種遷移學(xué)習(xí)方法,通過對多個相關(guān)任務(wù)進行同時學(xué)習(xí)來改善學(xué)習(xí)性能,多個任務(wù)之間由于存在一定的關(guān)系,任務(wù)之間的學(xué)習(xí)過程會起到相互牽制的作用.在某些任務(wù)樣本少的情況下,能夠利用任務(wù)之間的關(guān)系改善學(xué)習(xí)效果.文獻[9]利用多任務(wù)學(xué)習(xí)框架對社交網(wǎng)絡(luò)中用戶活躍性進行了個性化預(yù)測.文獻[10]則引入多任務(wù)學(xué)習(xí)框架對內(nèi)容信息網(wǎng)絡(luò)中信息傳播行為進行了預(yù)測.
針對影響用戶轉(zhuǎn)發(fā)行為的特征選取問題,文獻[11]對Twitter中影響轉(zhuǎn)發(fā)行為的相關(guān)因素進行了分析與討論,利用統(tǒng)計學(xué)的方法,對某些關(guān)鍵因素進行了顯著性分析,但是受到不同數(shù)據(jù)集中的數(shù)據(jù)特征不一致的影響,無法適用于其他數(shù)據(jù)集.
為解決特征選擇問題,筆者對抓取的微博數(shù)據(jù)[12]使用統(tǒng)計分析的方法對特征的區(qū)分性進行了分析,給出了微博轉(zhuǎn)發(fā)預(yù)測中選取特征的一般性思路.基于選取的特征,利用社交影響的作用將個體用戶的轉(zhuǎn)發(fā)預(yù)測作為相互關(guān)聯(lián)的單個任務(wù)進行學(xué)習(xí),最后,得到基于多任務(wù)學(xué)習(xí)的轉(zhuǎn)發(fā)預(yù)測算法.
1.1問題描述
首先,形式化定義微博中的行為歷史.
定義 已知微博有向關(guān)系網(wǎng)絡(luò)G={V,E},其中,V為用戶集合,E為用戶之間的有向關(guān)注關(guān)系集合.如果用戶vi(vi∈V)關(guān)注用戶vj(vj∈V),則存在有向邊:vi→vj,其中,vi能夠收到用戶vj的所有原創(chuàng)與轉(zhuǎn)發(fā)微博.對于用戶vj的一條微博m,定義用戶vi的行為歷史:Ai={vi,vj,m}i,j.
文中對每個用戶抓取得到數(shù)據(jù),根據(jù)定義,把同該用戶的相關(guān)的歷史轉(zhuǎn)發(fā)微博建立轉(zhuǎn)發(fā)列表.為了對轉(zhuǎn)發(fā)行為進行預(yù)測,將該問題建模為二分類問題.
問題 對每條歷史微博{vi,vj,m}抽取相關(guān)的特征T=〈t1,t2,…,tn〉,同時將該條數(shù)據(jù)標(biāo)記為yi,j,m.若yi,j,m=1,則表示vi轉(zhuǎn)發(fā)了vj的微博m;否則,表示vi沒有轉(zhuǎn)發(fā)vj的微博m.基于標(biāo)記得到的歷史數(shù)據(jù){T, yi,j,m},如何給出每個用戶對應(yīng)的預(yù)測模型{wi}?
1.2預(yù)測模型
邏輯回歸模型是通過在輸入特征上建立線性函數(shù),是一種較為常用的二分類算法.首先,邏輯回歸模型優(yōu)化算法復(fù)雜度較為簡單,是線性回歸的一種.對于較大規(guī)模的數(shù)據(jù),這種復(fù)雜度是可以接受的;其次,邏輯回歸模型具有一定的可解釋性.訓(xùn)練得到的模型能夠通過得到的權(quán)值來為每個特征在數(shù)據(jù)中所起的重要程度提供一定程度的解釋;最后,邏輯回歸模型的分類結(jié)果是以概率的形式給出的.這樣對于某個用戶的某條微博,模型能夠以概率大小的方式給出用戶對該條微博的興趣程度,這樣能夠為將用戶接收到的微博進行重排序提供數(shù)值參考.因此,文中使用邏輯回歸作為對個性化轉(zhuǎn)發(fā)行為進行預(yù)測的基準(zhǔn)算法.
進一步,可將分類算法等價于一個帶正則項的優(yōu)化目標(biāo)函數(shù),即
其中,γ0為正則化系數(shù).
通常,相同的特征對不同的用戶具有不一樣的權(quán)重.當(dāng)用戶A和B同時關(guān)注了同一個用戶C的微博,用戶C發(fā)出某一條微博后,這兩個用戶對該微博的轉(zhuǎn)發(fā)情況很可能存在不同,用戶A可能會因為微博內(nèi)容進行轉(zhuǎn)發(fā),而用戶B可能會因為該微博轉(zhuǎn)發(fā)人數(shù)過少而選擇不轉(zhuǎn)發(fā).所以只考慮全局的轉(zhuǎn)發(fā)歷史得到的結(jié)果一般不夠準(zhǔn)確,無法對單個用戶轉(zhuǎn)發(fā)行為進行預(yù)測.因此,引入多任務(wù)學(xué)習(xí)方法,將用戶的轉(zhuǎn)發(fā)行為預(yù)測對應(yīng)為一組相關(guān)聯(lián)的模型.
多任務(wù)學(xué)習(xí)模式基于一個這樣的事實:這些任務(wù)在某種程度上都是相關(guān)的.形式化定義如下:將個體的任務(wù)定義為wi,個體任務(wù)可以分解為wg和wi兩部分,其中,wg是所有任務(wù)相互關(guān)聯(lián)作用的公共參數(shù),wi是對應(yīng)于每個具體任務(wù)的部分的個性參數(shù).在網(wǎng)絡(luò)中,由于個體之間存在社交影響力作用[9],因此,可認(rèn)為每個用戶的微博轉(zhuǎn)發(fā)行為存在相關(guān)性.
在基于多任務(wù)學(xué)習(xí)框架上,將每個用戶的轉(zhuǎn)發(fā)行為預(yù)測對應(yīng)一個獨立的任務(wù).定義每一個任務(wù)需要學(xué)習(xí)的權(quán)值向量為Vi,這個任務(wù)的目標(biāo)可以分為兩部分:Vi=wg+wi,其中,wg為全局的特征權(quán)值向量,而wi對應(yīng)于具體單個用戶的局部權(quán)值特征向量.每個Vi通過wg相互關(guān)系,wg是根據(jù)所有的轉(zhuǎn)發(fā)行為數(shù)據(jù)進行學(xué)習(xí)得到的,而wi是對單個用戶的轉(zhuǎn)發(fā)歷史數(shù)據(jù)進行學(xué)習(xí)得到的向量.這樣個性化的模型可歸納為
其中,M是用戶的數(shù)量,xij是屬于用戶i的第j個數(shù)據(jù)樣本點.通過設(shè)置正則化系數(shù)γ1的值,能夠調(diào)節(jié)個性化對模型的影響.當(dāng)減少γ1時,模型具有更好的個性化,但是可能會對單個用戶的轉(zhuǎn)發(fā)數(shù)據(jù)產(chǎn)生過擬合;當(dāng)γ1增加時,wi在優(yōu)化過程會趨于零,模型效果則等價于單任務(wù)模型.
1.3學(xué)習(xí)算法
目標(biāo)函數(shù)式(3)為凸函數(shù),因此,采用梯度下降算法進行優(yōu)化.這里分別對wg和wi進行求偏導(dǎo),得到
根據(jù)求得的偏導(dǎo),分別迭代更新wg和wi,直到結(jié)果收斂.更新規(guī)則如下:
其中,η表示學(xué)習(xí)的速率.具體的迭代步驟如下面算法所示.算法的復(fù)雜度主要由兩個循環(huán)構(gòu)成:O(I·M),其中,通過設(shè)置合適的學(xué)習(xí)步長,設(shè)定收斂條件為參數(shù)不再顯著變化,這樣在較少迭代次數(shù)的情況下便能達到收斂,得到最優(yōu)解.對每個用戶可使用適當(dāng)?shù)牟⑿兴惴ㄟM行同時訓(xùn)練,這樣可進一步減少算法的復(fù)雜度.
算法 個性化轉(zhuǎn)發(fā)行為預(yù)測算法.
輸入:用戶轉(zhuǎn)發(fā)數(shù)據(jù)xij=〈T1,T2,…,Tn〉,正則化參數(shù)為γ0、γ1和β,學(xué)習(xí)速率為η,最大步長為I.
輸出:全局參數(shù)wg和個性化參數(shù){wi}.
初始化:隨機設(shè)置wg和{wi}
1.for i=1 to I do:
3. for j=1 to M do:
4. 固定wg,更新
5. end for
6. if滿足收斂條件:
7. break
8. end if
9.end for .
2.1數(shù)據(jù)描述
本實驗的數(shù)據(jù)來自于新浪微博.由于存在垃圾粉絲、僵尸用戶等情況,數(shù)據(jù)存在大量噪聲,會影響最后的預(yù)測結(jié)果,因此,文中隨機選取活躍的用戶作為研究對象.在實驗中,假設(shè)一個活躍用戶必須滿足以下條件:①關(guān)注數(shù)與粉絲數(shù)必須大于50;②觀察周期內(nèi)每個星期所發(fā)微博數(shù)必須大于10.根據(jù)這兩個條件篩選出12 013個活躍用戶.以這些用戶為種子,抓取了對應(yīng)的關(guān)注網(wǎng)絡(luò),該網(wǎng)絡(luò)總共包含92 034個用戶和1 272 871組關(guān)注數(shù)對應(yīng)于網(wǎng)絡(luò)的邊.同時,設(shè)定觀察周期為2013年7月1日到9月30日.網(wǎng)絡(luò)中所有用戶總共發(fā)表了9 913 495條微博.在這些微博集合中,分別有716 178條轉(zhuǎn)發(fā)微博和9 197 317條原創(chuàng)微博.表1給出了抓取得到的數(shù)據(jù)集的主要特性,其中,微博總數(shù)由原創(chuàng)微博數(shù)與轉(zhuǎn)發(fā)微博數(shù)共同構(gòu)成.
表1 抓取得到的數(shù)據(jù)集性質(zhì)
將數(shù)據(jù)集以2013年8月31日為分界點,分別構(gòu)成訓(xùn)練集合與測試集合.另外,由表1可以看出,轉(zhuǎn)發(fā)微博數(shù)與原創(chuàng)微博數(shù)非常不平衡(接近1∶12),因此,這里以1∶2的比例對轉(zhuǎn)發(fā)微博與原創(chuàng)微博進行抽樣,表2給出了最后實驗中使用的數(shù)據(jù)集情況.
表2 使用數(shù)據(jù)集特性
2.2特征選擇
對于監(jiān)督學(xué)習(xí),特征選取是影響最終分類性能的重要影響因素.由于受微博字段的限制,將微博數(shù)據(jù)中存在的可用特征分為:用戶特征、結(jié)構(gòu)特征與文本特征[11].用戶特征描述了用戶在微博上的行為特征,主要包括:用戶是否加V,V代表用戶身份是否被官方認(rèn)證;用戶發(fā)微博的數(shù)量,表示了用戶的活躍程度.這里,用戶的特征主要為:用戶是否加V、用戶的原創(chuàng)微博數(shù)、用戶轉(zhuǎn)發(fā)微博數(shù)、用戶的工作經(jīng)歷、學(xué)習(xí)經(jīng)歷和用戶的興趣數(shù).結(jié)構(gòu)特征描述了用戶在網(wǎng)絡(luò)中的結(jié)構(gòu)特性,包括關(guān)注數(shù)與粉絲數(shù),用戶在網(wǎng)絡(luò)中的PageRank值[13].文本特征描述了用戶所發(fā)微博的方式.文中使用Latent Dirichlet Allocation主題模型[14]對微博文本進行了主題分類.通過余弦相似度計算微博和用戶興趣之間的相似性.除此以外,還有微博文本的長度、微博中是否帶統(tǒng)一資源定位符(Uniform Resource Locator,URL)、微博是否@某個用戶、微博的轉(zhuǎn)發(fā)數(shù)、微博的點贊數(shù)、微博的評論數(shù)、微博帶的話題數(shù)和微博的發(fā)布時段.
2.3特征分析
為篩選能夠區(qū)分轉(zhuǎn)發(fā)數(shù)據(jù)與非轉(zhuǎn)發(fā)數(shù)據(jù)的特征,采用統(tǒng)計方法來對數(shù)據(jù)進行分析.對于用戶加V、微博中帶URL等二值特征,通過統(tǒng)計分析,表明無法對類別進行區(qū)分.對于數(shù)值型特征,這里使用箱線圖對每個類別上的數(shù)據(jù)統(tǒng)計特性進行表征,圖1給出了特征選擇中所有可用特征的箱線圖.從圖1可以看出,除了微博長度外,其他的特征都能夠區(qū)分開轉(zhuǎn)發(fā)與非轉(zhuǎn)發(fā)的關(guān)系.因此,基于對箱線圖的比較,抽取了表3所示的特征.
表3 選取特征總結(jié)
2.4評價指標(biāo)
一般情況下,采用信息檢索中的標(biāo)準(zhǔn)指標(biāo)有準(zhǔn)確率P、查全率R和F1值來評價預(yù)測結(jié)果.
圖1 特征箱線圖
(1)準(zhǔn)確率是被正確預(yù)測為轉(zhuǎn)發(fā)的微博數(shù)占所有預(yù)測為被轉(zhuǎn)發(fā)的微博數(shù)的比例.
(2)查全率是被正確預(yù)測的微博數(shù)占實際被轉(zhuǎn)發(fā)全部微博數(shù)的比例.
(3)F1值則是綜合評價準(zhǔn)確率與查全率的指標(biāo),即F1=2PR(P+R).
2.5實驗結(jié)果分析
為驗證所提出模型的預(yù)測性能的提升情況,選取了被動攻擊(Passive-Aggressive,PA)算法[2],邏輯回歸以及支持向量機作為對照算法,在所抓取到的數(shù)據(jù)集上進行訓(xùn)練與驗證.由于數(shù)據(jù)量較大,使用的分布式實驗環(huán)境為1臺主節(jié)點和8臺子節(jié)點組成的Spark集群,其中,主節(jié)點和子節(jié)點機器均為4核Intel Xeon E7-8837,2.67 GHz,16 GB內(nèi)存,Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)為2.5 TB.
表4給出了以召回率和準(zhǔn)確率為指標(biāo)總體的實驗結(jié)果,其中,以個性化預(yù)測算法簡稱文中提出的算法.由實驗結(jié)果可以看出,PA算法過于簡單,召回率與準(zhǔn)確率都比較低;而相對于作為基準(zhǔn)算法的邏輯回歸算法,文中提出的個性化預(yù)測算法能夠在召回率和準(zhǔn)確率兩個性能指標(biāo)上得到顯著提升;支持向量機雖具有比較好的分類效果,但由于對照算法都是基于全局?jǐn)?shù)據(jù)訓(xùn)練得到的模型,所以整體分類效果都沒有文中算法的好.而文中算法引入個性化因子,提升了分類效果.由圖2的F1值比較結(jié)果可以看出,文中算法能夠得到較優(yōu)的F1值.
圖2 F1值實驗結(jié)果
為確定個性因素對模型的影響,用基準(zhǔn)算法邏輯回歸作為對照算法.為看出γ1的變化,這里設(shè)置γ1值分別為[0.01,0.10,1.00,10.00,100.00],實驗結(jié)果如圖3所示.可以看出,當(dāng)γ1值過小時,會導(dǎo)致模型過擬合使得最終分類效果不佳;而當(dāng)γ1過大時,會導(dǎo)致模型中的個性化部分失去作用,效果接近普通的邏輯回歸,無法利用用戶之間的關(guān)聯(lián)性進行多任務(wù)學(xué)習(xí).為驗證提出的模型在轉(zhuǎn)發(fā)歷史數(shù)據(jù)不同情況下的分類情況,根據(jù)微博條數(shù)將用戶分為1~10、10~100、100~500、500~1 000、1 000~2 000這5組,其中每組抽取1個用戶,總共抽取20次.同時,用效果較好的支持向量機為代表,與文中提出的算法進行對照,結(jié)果如圖4所示.
表4 實驗結(jié)果
圖3 γ1對模型的影響
圖4 用戶集合上的模型對比
由圖4可以看出,隨著歷史數(shù)據(jù)的增多,F1值會遞增,支持向量機受數(shù)據(jù)規(guī)模的影響比較大.文中提出的模型在每個用戶組上的F1值震蕩要遠小于支持向量機的,且在數(shù)據(jù)逐漸增多的情況下,個性預(yù)測模型的F1值震蕩也在減少.這說明這些用戶關(guān)注的人也是具有一定的活躍程度,通過用戶之間的轉(zhuǎn)發(fā)行為聯(lián)系緩解了數(shù)據(jù)的稀疏程度,相比支持向量機能夠得到更好的效果,這也說明了模型能夠達到個性化的要求.
線上社交網(wǎng)絡(luò)的信息傳播是研究的熱點問題.文中從數(shù)據(jù)特征抽取開始,對不同特征的區(qū)分性進行了統(tǒng)計分析.通過統(tǒng)計分析能夠有效地為微博轉(zhuǎn)發(fā)行為預(yù)測問題提供高區(qū)分性的特征.基于微博用戶之間的社交接觸,以邏輯回歸作為基準(zhǔn)算法引入多任務(wù)學(xué)習(xí)框架,每個用戶的轉(zhuǎn)發(fā)行為預(yù)測對應(yīng)為多個任務(wù),將微博用戶間的社交交互用來將這些任務(wù)進行關(guān)聯(lián),解決了單個轉(zhuǎn)發(fā)行為學(xué)習(xí)任務(wù)可能遇到的數(shù)據(jù)稀疏問題.用真實的微博數(shù)據(jù)測試實驗的結(jié)果表明,同傳統(tǒng)的分類算法相比,文中所提出的算法能夠有效地對微博轉(zhuǎn)發(fā)行為進行預(yù)測.下一步工作中,將進一步考慮微博轉(zhuǎn)發(fā)時間對轉(zhuǎn)發(fā)行為的影響,并對在線實時微博信息流進行預(yù)測處理.
[1]李棟,徐志明,李生,等.在線社會網(wǎng)絡(luò)中信息擴散[J].計算機學(xué)報,2014,37(1):189-206. LI Dong,XU Zhiming,LI Sheng,et al.A Survey on Information Diffusion in Online Social Networks[J].Chinese Journal of Computers,2014,37(1):189-206.
[2]PETROVIC S,OSBORNE M,LAVRENKO V.RT to Win!Predicting Message Propagation in Twitter[C]// Proceedings of the 5th International Conference on Weblogs and Social Media.Barcelona:AAAI,2011:586-589.
[3]張旸,路榮,楊青.微博客中轉(zhuǎn)發(fā)行為的預(yù)測研究[J].中文信息學(xué)報,2012,26(4):109-114,121. ZHANG Yang,LU Rong,YANG Qing.Predicting Retweeting in Microblogs[J].Journal of Chinese Information Processing,2012,26(4):109-114,121.
[4]XU Z H,YANG Qing.Analyzing User Retweet Behavior on Twitter[C]//Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining.Washington:IEEE Computer Society,2012:46-50.
[5]曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測[J].計算機學(xué)報,2014,37(4):779-790. CAO Jiuxin,WU Jianglin,SHI Wei,et al.Sina Microblog Information Diffusion Analysis and Prediction[J].Chinese Journal of Computers,2014,37(4):779-790.
[6]ARGYRIOU A,EVGENIOU T,PONTIL M.Multi-task Feature Learning[C]//Advances in Neural Information Processing Systems 19.Vancouver:MIT Press,2007:41-48.
[7]EVGENIOU T,PONTIL M.Regularized Multi-task Learning[C]//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2004:109-117.
[8]CARUANA R.Multitask Learning[J].Machine Learning,1997,28(1):41-75.
[9]ZHU Y,ZHONG E,PAN S J,et al.Predicting User Activity Level in Social Networks[C]//Proceedings of the 22nd ACM International Conference on Conference on Information and Knowledge Management.New York:ACM,2013: 159-168.
[10]FEI H,JIANG R,YANG Y,et al.Content Based Social Behavior Prediction:a Multi-task Learning Approach[C]// Proceedings of the 20th ACM International Conference on Information and Knowledge Management.New York:ACM, 2011:995-1000.
[11]LIU Z,LIU L,LI H.Determinants of Information Retweeting in Microblogging[J].Internet Research,2012,22(4): 443-466.
[12]陳慶麗,張志勇,向菲,等.面向多媒體社交網(wǎng)絡(luò)的訪問控制模型[J].西安電子科技大學(xué)學(xué)報,2014,41(6):181-187. CHEN Qingli,ZHANG Zhiyong,XIANG Fei,et al.Research on the Access Control Model for Multimedia Social Networks[J].Journal of Xidian University,2014,41(6):181-187.
[13]PAGE L,BRIN S,MOTWANI R,et al.The PageRank Citation Ranking:Bringing Order to the Web[R].Palo Alto: Stanford Info Lab,1999.
[14]BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003, 3(4/5):993-1022.
(編輯:齊淑娟)
Novel algorithm for predicting personalized retweet behavior
TANG Xing1,QUAN Yining1,SONG Jianfeng1,DENG Kai1, ZHU Hai2,MIAO Qiguang1
(1.School of Computer Science and Technology,Xidian Univ.,Xi’an 710071,China; 2.School of Computer Science and Technology,Zhoukou Normal Univ.,Zhoukou 466001,China)
Recently,models for predicting the user retweet behavior are based mainly on the historical retweet data of all users.However,these models are of homogeneity and could not predict a particular user’s behavior.To overcome these problems,we propose an algorithm for predicting personalized retweet behavior.Based on crawled Weibo data,we have conducted an analysis and a selection of retweet features. According to the influential theory,we introduce the multi-task learning framework to divide the tasks into common global tasks and many individual tasks.Our massive experiments show that our algorithm is effective in predicting personalized retweet behavior.
multi-task learning;personalization;retweet behavior;social networks;microblog; data mining
TP391
A
1001-2400(2016)04-0051-06
10.3969/j.issn.1001-2400.2016.04.010
2015-04-20 網(wǎng)絡(luò)出版時間:2015-10-21
國家自然科學(xué)基金資助項目(61472302,61272280,U1404620,41271447);教育部新世紀(jì)優(yōu)秀人才支持計劃資助項目(NCET-12-0919);中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目(K5051203020,JB150313,JB150317,K5051303018,BDY081422);陜西省自然科學(xué)基金資助項目(2010JM8027);西安市科技局資助項目(CXY1441(1));地理信息工程國家重點實驗室開放研究基金資助項目(SKLGIE2014-M-4-4);NSFC-廣東聯(lián)合基金(第二期)超級計算科學(xué)應(yīng)用研究立項和國家超級計算廣州中心資助項目;模式識別國家重點實驗室開放課題基金資助項目(201600031)
唐 興(1988-),男,西安電子科技大學(xué)博士研究生,E-mail:tangxing@stu.xidian.edu.cn.
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/61.1076.TN.20151021.1046.020.html