魏晶晶,陳暢,廖祥文,陳國(guó)龍,程學(xué)旗
?
基于受限非負(fù)張量分解的用戶(hù)社會(huì)影響力分析
魏晶晶1,2,陳暢3,4,廖祥文3,4,陳國(guó)龍3,4,程學(xué)旗5
(1. 福州大學(xué)物理與信息工程學(xué)院,福建福州350116;2. 福建江夏學(xué)院電子信息科學(xué)學(xué)院,福建福州 350108;3. 福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州350116;4. 福州大學(xué)福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室,福建福州350116;5. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京100086)
針對(duì)傳統(tǒng)社會(huì)影響力分析方法未能充分考慮觀(guān)點(diǎn)和話(huà)題信息等問(wèn)題,提出了一種基于受限非負(fù)張量分解的用戶(hù)社會(huì)影響力分析方法。首先把社交媒介用戶(hù)相互評(píng)論關(guān)系自然地表示成三階張量,然后通過(guò)拉普拉斯話(huà)題約束矩陣控制張量分解過(guò)程,最后根據(jù)分解得到的潛在因子度量用戶(hù)觀(guān)點(diǎn)社會(huì)影響力。該方法的優(yōu)點(diǎn)是能有效地從受限張量分解結(jié)果中檢索出給定話(huà)題下用戶(hù)的社會(huì)影響力,同時(shí)保持其社會(huì)影響力的極性分布。實(shí)驗(yàn)結(jié)果表明,該方法的性能優(yōu)于OOLAM和TwitterRank等基準(zhǔn)算法。
社會(huì)影響力;話(huà)題;觀(guān)點(diǎn);張量分析
社會(huì)影響力是指一個(gè)人的思想、情感或行為被他人所影響的現(xiàn)象[1,2],其作為一種影響網(wǎng)絡(luò)結(jié)構(gòu)和信息傳播的重要因素,受到了許多研究者的關(guān)注。社會(huì)影響力分析往往通過(guò)分析人們的社會(huì)交互行為來(lái)研究人們的社會(huì)影響,并在多個(gè)研究領(lǐng)域中起到關(guān)鍵作用,如推薦系統(tǒng)[3]、社交網(wǎng)絡(luò)信息傳播[4,5]、突發(fā)事件檢測(cè)[6]和廣告投放[7]等。
在線(xiàn)社交網(wǎng)絡(luò)出現(xiàn)和興起之前,針對(duì)社會(huì)影響力的研究工作主要集中在理論層面,包括二級(jí)傳播理論、弱連帶優(yōu)勢(shì)理論、強(qiáng)連帶優(yōu)勢(shì)理論和結(jié)構(gòu)洞理論等[8]。隨著微博、Facebook等社交媒體廣泛使用,人們可以在社交媒介上隨時(shí)隨地發(fā)布信息,而不受時(shí)間和空間的限制。這些海量的用戶(hù)自創(chuàng)造數(shù)據(jù)(user generated data)蘊(yùn)含非常豐富的用戶(hù)信息,如用戶(hù)觀(guān)點(diǎn)、用戶(hù)間交互關(guān)系等,為社會(huì)影響力分析理論的驗(yàn)證與應(yīng)用提供了理想的環(huán)境。從內(nèi)容角度,社會(huì)影響力分析可分為3方面[9]:1) 社會(huì)影響力自身的識(shí)別,研究影響力和相關(guān)因素的聯(lián)系;2) 社會(huì)影響力的度量,希望能夠找到合適的度量社會(huì)影響力的方法;3) 社會(huì)影響力的動(dòng)態(tài)傳播,即刻畫(huà)社會(huì)影響力的動(dòng)態(tài)特性。社會(huì)影響力的度量方法主要有4個(gè)角度[9]:1)基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的度量,通過(guò)衡量網(wǎng)絡(luò)圖中節(jié)點(diǎn)與連接的重要性來(lái)體現(xiàn)社會(huì)影響力的大??;2)基于用戶(hù)行為的度量,使用統(tǒng)計(jì)等方法分析用戶(hù)在社交網(wǎng)絡(luò)中留下的行為數(shù)據(jù);3)基于用戶(hù)交互信息的度量,主要包括基于交互信息內(nèi)容的度量和基于話(huà)題的度量;4)基于時(shí)間因素、轉(zhuǎn)移熵等其他度量。
從層次角度,社交影響力分析主要有以下3個(gè)層次。1)整體社交影響力分析,毛佳昕等[8]提出用戶(hù)關(guān)注、微博轉(zhuǎn)發(fā)這2種用戶(hù)行為與時(shí)間維度有關(guān),以及轉(zhuǎn)發(fā)延遲的分布近似服從冪律分布2個(gè)假設(shè),并通過(guò)假設(shè)檢驗(yàn)驗(yàn)證,最后使用全局閱讀期望的方法度量用戶(hù)影響力。2)話(huà)題級(jí)社交影響力分析,Weng等[10]提出了一種結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)與話(huà)題信息來(lái)計(jì)算話(huà)題級(jí)社會(huì)影響力的方法,驗(yàn)證了話(huà)題相似的用戶(hù)間更容易互相產(chǎn)生影響。據(jù)此,在PageRank基礎(chǔ)上加入話(huà)題相似度的因素,提出了一種TwitterRank方法并取得了不錯(cuò)的效果。3)信息條目級(jí)社交影響力分析:Cui等[1,2]提出了一種更細(xì)粒度的社交影響力度量思路,即信息條目級(jí)社會(huì)影響力度量。其使用受限非負(fù)矩陣分解的方法來(lái)預(yù)測(cè)用戶(hù)在某一話(huà)題下的社會(huì)影響力大小,矩陣約束的部分考慮了用戶(hù)朋友活躍度、用戶(hù)與朋友關(guān)系強(qiáng)度以及話(huà)題信息,該方法的實(shí)驗(yàn)效果較好。
當(dāng)前,細(xì)粒度的社會(huì)影響力分析更加引起了研究者的重視,用戶(hù)觀(guān)點(diǎn)已成為度量用戶(hù)社會(huì)影響力不可忽視的因素。另一方面,用戶(hù)社會(huì)影響力與話(huà)題密切相關(guān)。Cai等[11]曾提出利用帶有傾向性連接的網(wǎng)絡(luò)度量用戶(hù)的社會(huì)影響力,并提出了一種可并行化的PageRank改進(jìn)方法來(lái)求解所提出的OOLAM模型,得到2個(gè)獨(dú)立的用戶(hù)正負(fù)面影響力評(píng)分,從而更加細(xì)致地刻畫(huà)了社會(huì)影響力。然而,該方法不能很好地融入用戶(hù)的話(huà)題信息,難以分析領(lǐng)域?qū)<业纳鐣?huì)影響力。Weng等[10]提出的TwitterRank方法將話(huà)題信息融入到用戶(hù)社會(huì)影響力分析中,能夠有效地檢索出給定話(huà)題下比較重要的用戶(hù),但是卻不能反映出用戶(hù)社會(huì)影響力的正負(fù)面傾向。導(dǎo)致這一局限性的根本原因在于基于圖的方法主要是刻畫(huà)二維數(shù)據(jù),難以同時(shí)將不同的信息加入到分析過(guò)程中。張量[12]是一種特別適合表達(dá)多維數(shù)據(jù)、融合不同信息的數(shù)據(jù)表達(dá)方式,廣泛應(yīng)用于多模態(tài)特征融合相關(guān)研究。
因此,本文提出一種基于受限非負(fù)張量分解的用戶(hù)觀(guān)點(diǎn)社會(huì)影響力分析方法,度量特定話(huà)題下用戶(hù)的社會(huì)影響力及其影響力的極性分布。該方法首先使用張量表示用戶(hù)相互評(píng)論關(guān)系,然后通過(guò)Laplacian矩陣將話(huà)題信息融入到張量分解中,最后基于分解得到的潛在因子度量在特定話(huà)題下用戶(hù)觀(guān)點(diǎn)的社會(huì)影響力。通過(guò)實(shí)驗(yàn)表明,本文方法不僅在效果上比OOLAM、TwitterRank等方法有一定的提升,而且能夠更加細(xì)致地刻畫(huà)用戶(hù)觀(guān)點(diǎn)的社會(huì)影響力。
2.1 問(wèn)題描述
2.2 張量代數(shù)介紹
遵循Kolda和Bader的符號(hào)描述,簡(jiǎn)要介紹與本文工作相關(guān)的張量代數(shù)基本知識(shí)[12]。
(2)
2.3 基于受限非負(fù)張量分解的用戶(hù)觀(guān)點(diǎn)社會(huì)影響力分析方法
在應(yīng)用的驅(qū)動(dòng)下,越來(lái)越多研究工作關(guān)注話(huà)題級(jí)或條目級(jí)等更加細(xì)致的用戶(hù)社會(huì)影響力分析。本文所關(guān)注的問(wèn)題是分析特定話(huà)題下用戶(hù)觀(guān)點(diǎn)的社會(huì)影響力和極性分布。通過(guò)觀(guān)察,本文發(fā)現(xiàn):1)與話(huà)題相關(guān)度高的用戶(hù)往往越容易獲得其他用戶(hù)的評(píng)論,其收到的評(píng)論總量一般會(huì)高出與話(huà)題無(wú)關(guān)的用戶(hù);2)話(huà)題相關(guān)的用戶(hù)所發(fā)布的文檔往往采用分布類(lèi)似的詞來(lái)描述話(huà)題?;谟脩?hù)話(huà)題相似性特征,本文提出了一種基于受限非負(fù)張量的方法。該方法首先利用張量自然地對(duì)用戶(hù)之間的評(píng)論關(guān)系建模,然后通過(guò)加入用戶(hù)話(huà)題相似矩陣控制張量分解過(guò)程,最后基于張量分解得到的潛在因子度量用戶(hù)觀(guān)點(diǎn)的社會(huì)影響力和觀(guān)點(diǎn)極性分布。
2.3.1 基于用戶(hù)評(píng)論關(guān)系的張量構(gòu)建
用戶(hù)與用戶(hù)之間帶有觀(guān)點(diǎn)評(píng)論的三元關(guān)系,可以用一個(gè)三階張量刻畫(huà)用戶(hù)間的評(píng)論行為。其中,張量的1模式表示被評(píng)論用戶(hù),2模式表示發(fā)表評(píng)論的用戶(hù),3模式表示評(píng)論的觀(guān)點(diǎn)傾向性,傾向性分為正面、中性、負(fù)面3種情況。這里的模式對(duì)應(yīng)張量的每一個(gè)維度。每個(gè)張量元素值為
需要說(shuō)明的是,判定用戶(hù)u對(duì)用戶(hù)u的評(píng)價(jià)觀(guān)點(diǎn),即觀(guān)點(diǎn)傾向性的極性,是通過(guò)基于情感詞典[13]的判定方法獲得的。若評(píng)價(jià)內(nèi)容中正面情感詞數(shù)大于負(fù)面情感詞數(shù),則記為一次正面觀(guān)點(diǎn)的評(píng)價(jià),若評(píng)價(jià)內(nèi)容中正面情感詞數(shù)等于負(fù)面情感詞數(shù),則記為一次中性觀(guān)點(diǎn)的評(píng)價(jià),否則記為一次負(fù)面觀(guān)點(diǎn)的評(píng)價(jià)。
2.3.2 用戶(hù)話(huà)題相似性計(jì)算
(6)
2.3.3 改進(jìn)的受限非負(fù)張量分解方法
針對(duì)評(píng)論關(guān)系張量,根據(jù)用戶(hù)話(huà)題相似性假設(shè),提出一種CP(CANDECOMP/PARAFAC)分解算法CP_ALS[14]的改進(jìn)算法HF-CP-ALS,并通過(guò)該算法分解得到刻畫(huà)用戶(hù)觀(guān)點(diǎn)社會(huì)影響力的潛在因子矩陣。
為求解目標(biāo)函數(shù)式(7),先求解在CP_ALS算法中的1模式最優(yōu)化目標(biāo)函數(shù)為
在CP_ALS算法1模式的最優(yōu)化目標(biāo)函數(shù)中加入用戶(hù)話(huà)題相似性限制,從而獲得限定話(huà)題下的用戶(hù)觀(guān)點(diǎn)社會(huì)影響力。在該約束下,話(huà)題相關(guān)而且影響力小的那些用戶(hù),其用戶(hù)觀(guān)點(diǎn)社會(huì)影響力將提升,對(duì)于那些話(huà)題無(wú)關(guān)而且影響力大的用戶(hù),其用戶(hù)觀(guān)點(diǎn)社會(huì)影響力將減小。此外,為了保證潛在因子的可解釋性,引入的約束,得到
(9)
直接求解式(9)所描述的優(yōu)化問(wèn)題時(shí)間復(fù)雜度過(guò)高,為簡(jiǎn)化運(yùn)算引入拉普拉斯矩陣[15]=?,。是一個(gè)對(duì)角矩陣,。由于近似為對(duì)角占優(yōu)矩陣,因此用近似,可以得到
(10)
引入拉普拉斯矩陣后,待優(yōu)化的目標(biāo)函數(shù)可以寫(xiě)成如下形式
(11)
張量分解中解決該類(lèi)型的優(yōu)化問(wèn)題常用交替最小二乘法(ALS)求解目標(biāo)函數(shù),即更新其中一個(gè)因子矩陣時(shí)固定另外2個(gè)因子矩陣。表示限制項(xiàng)的重要程度,因此先計(jì)算對(duì)的微分
(12)
(14)
至此已經(jīng)得到了3個(gè)潛在因子矩陣的更新規(guī)則,加入非負(fù)性約束后可以得到算法HF-CP-ALS,其偽代碼如圖3所示。
Procedure HF-CP-ALS(X,D,R) 初始化 Repeat單位化的每一列,將中小于0的值置零,更新λ單位化的每一列,將中小于0的值置零,更新λ單位化的每一列,將中小于0的值置零,更新λUntil收斂或達(dá)到最大迭代次數(shù)return λ,A(1),A (2),A (3)end procedure
在算法HF-CP-ALS中,值得注意的是在每一次更新因子矩陣完畢后,需要對(duì)矩陣做一次列向量單位化。特別地,潛在因子矩陣具有非負(fù)性約束,因此,在更新完(1)、(2)或(3)時(shí)還需將其中小于零的元素置為0,從而保持潛在因子矩陣非負(fù),即保證潛在因子矩陣的可解釋性。最后同時(shí)更新向量。HF-CP-ALS算法最終可以求得各個(gè)模式的潛在因子矩陣和向量。
2.3.4 用戶(hù)觀(guān)點(diǎn)社會(huì)影響力度量
用戶(hù)觀(guān)點(diǎn)的社會(huì)影響力往往由一系列潛在因子決定,可通過(guò)分析潛在特征矩陣計(jì)算得到[16,17]。通過(guò)算法HF-CP-ALS容易得到話(huà)題約束下的用戶(hù)觀(guān)點(diǎn)潛在因子:、和。設(shè)表示向量的長(zhǎng)度,那么分解結(jié)果可以看成個(gè)秩為一的張量之和,其計(jì)算式可以寫(xiě)成
(17)
不難看出,式(17)就是利用張量分解結(jié)果估計(jì)原始張量,類(lèi)似張量補(bǔ)全的工作。不同的是,加入了用戶(hù)話(huà)題相似性約束。在該約束下,對(duì)于那些社會(huì)影響力大且與話(huà)題無(wú)關(guān)的用戶(hù),其影響力的量化數(shù)值將分享給大量話(huà)題無(wú)關(guān)且社會(huì)影響力小的用戶(hù)。反映在最終分解結(jié)果中的就是在給定話(huà)題下,話(huà)題無(wú)關(guān)但是社會(huì)影響力大的用戶(hù)的社會(huì)影響力得分將變得相對(duì)較小。同理,話(huà)題相關(guān)的用戶(hù)將受到那些話(huà)題無(wú)關(guān)用戶(hù)的影響很小,在張量分解過(guò)程中能夠很好地保持這些數(shù)值的大小。在分解結(jié)果中,比起那些話(huà)題無(wú)關(guān)的用戶(hù),其用戶(hù)觀(guān)點(diǎn)社會(huì)影響力得分將變得相對(duì)較大,在最終用戶(hù)觀(guān)點(diǎn)社會(huì)影響力計(jì)算中取得較高的分值。因此,在用戶(hù)相似性的約束下,本文方法最終能夠從估計(jì)的張量中較好地選出那些話(huà)題相關(guān)且社會(huì)影響力大的用戶(hù)。
3.1 數(shù)據(jù)描述
如表1所示,實(shí)驗(yàn)數(shù)據(jù)來(lái)自新浪微博,包括籃球、經(jīng)濟(jì)、法律、健康4個(gè)話(huà)題,共66 754個(gè)用戶(hù)、282 748條微博。為了更加詳盡地描述數(shù)據(jù)構(gòu)成,圖4統(tǒng)計(jì)了所有話(huà)題中擁有相同數(shù)量級(jí)粉絲數(shù)的目標(biāo)用戶(hù)分布。不難看出,粉絲數(shù)量和目標(biāo)用戶(hù)數(shù)量近似符合冪律分布(在對(duì)數(shù)—對(duì)數(shù)坐標(biāo)下近似為一條直線(xiàn))。因此該數(shù)據(jù)中的目標(biāo)用戶(hù)具有一定的代表性。
表1 實(shí)驗(yàn)數(shù)據(jù)描述
以籃球話(huà)題為例,數(shù)據(jù)內(nèi)容包含2個(gè)部分:1) 用戶(hù)間交互關(guān)系;2) 用戶(hù)信息。其中,用戶(hù)間交互關(guān)系可以使用三元組表示,其中,表示被評(píng)論用戶(hù),表示發(fā)表評(píng)論的用戶(hù),用戶(hù)對(duì)用戶(hù)進(jìn)行了評(píng)論并且評(píng)論內(nèi)容是,、和分別表示正面、負(fù)面和中性的評(píng)論內(nèi)容。根據(jù)預(yù)先設(shè)定的話(huà)題“籃球”,通過(guò)新浪微博提供的搜索相關(guān)用戶(hù)功能獲取目標(biāo)用戶(hù)集合,剩余所需的數(shù)據(jù)則通過(guò)爬取新浪微博頁(yè)面得到。目標(biāo)用戶(hù)將均與籃球相關(guān),即曾發(fā)表過(guò)與籃球有關(guān)的微博,用戶(hù)間的交互關(guān)系是從每個(gè)被評(píng)論用戶(hù)各自發(fā)表的40條微博中獲取的。由于評(píng)論量可能非常龐大,只選取每條微博的前30條評(píng)論關(guān)系。用戶(hù)信息則包括用戶(hù)發(fā)表過(guò)的微博內(nèi)容,包括每個(gè)被評(píng)論用戶(hù)最多200條的微博。
實(shí)驗(yàn)的關(guān)鍵是如何確定給定話(huà)題下用戶(hù)觀(guān)點(diǎn)的社會(huì)影響力排序。實(shí)驗(yàn)中確定該影響力排序列表的方法將結(jié)合用戶(hù)與話(huà)題的相關(guān)性,由5位均參加過(guò)COAE2013-COAE2015、SIGHAN2015標(biāo)注工作的標(biāo)注者進(jìn)行標(biāo)注。提供給這5位標(biāo)注者的數(shù)據(jù)包括:1)用戶(hù)列表;2)用戶(hù)主頁(yè)地址,可以進(jìn)入目標(biāo)用戶(hù)主頁(yè)查看該用戶(hù)的詳細(xì)情況,包括粉絲數(shù)、評(píng)論量、職業(yè)、發(fā)表過(guò)的微博等。每位標(biāo)注者根據(jù)這些數(shù)據(jù),判斷用戶(hù)在給定話(huà)題下的社會(huì)影響力大小,然后選出、和的用戶(hù)。如表2所示,5位標(biāo)注者的指標(biāo)在0.62以上,因此對(duì)用戶(hù)觀(guān)點(diǎn)社會(huì)影響力標(biāo)注在一定程度上是可接受的。
表2 數(shù)據(jù)標(biāo)注的Kappa指標(biāo)
3.2 實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)環(huán)境為Matlab 2010,Intel(R) Pentium(R) CPU G645 2.90 GHz,8 GB內(nèi)存。將基準(zhǔn)方法與本文的方法應(yīng)用在相同的數(shù)據(jù)集上,計(jì)算得到各個(gè)用戶(hù)在給定話(huà)題下的社會(huì)影響力得分,即排序結(jié)果。最后,基于人工標(biāo)注的社會(huì)影響力用戶(hù)列表,比較各個(gè)方法在不同評(píng)價(jià)指標(biāo)的性能優(yōu)劣。參與實(shí)驗(yàn)的基準(zhǔn)方法包括以下幾方面。
1) CP:未添加本文約束的CP分解方法[14],從分解結(jié)果計(jì)算用戶(hù)影響力的方法與本文相同。
2) CP+BM 25:將話(huà)題相關(guān)性BM 25結(jié)合CP分解方法,計(jì)算方法是在CP分解的結(jié)果上乘以BM 25話(huà)題相關(guān)性得分。
3) OOLAM[11]:OOLAM模型的計(jì)算結(jié)果是用戶(hù)正面影響力和負(fù)面影響力2個(gè)得分,本文對(duì)比實(shí)驗(yàn)中取正負(fù)面影響力的均值作為用戶(hù)社會(huì)影響力得分。
4) OOLAM+BM 25:由于OOLAM未考慮話(huà)題信息,本文對(duì)比實(shí)驗(yàn)中將用戶(hù)話(huà)題相關(guān)性BM 25得分乘以O(shè)OLAM方法的結(jié)果作為用戶(hù)社會(huì)影響力得分。
5) TwitterRank[10]:TwitterRank的計(jì)算結(jié)果是用戶(hù)在特定話(huà)題下的重要程度得分,本文實(shí)驗(yàn)直接使用該得分作為用戶(hù)社會(huì)影響力得分。
6) TR+RA:由于TwitterRank未考慮用戶(hù)間評(píng)論的交互關(guān)系。因此在對(duì)比實(shí)驗(yàn)中,將用戶(hù)受到評(píng)論的數(shù)量乘以TwitterRank的結(jié)果作為用戶(hù)影響力得分。
3.2.1 評(píng)價(jià)指標(biāo)
本文所采用的評(píng)價(jià)指標(biāo)有以下3個(gè)指標(biāo)。
1) 排序精度指標(biāo)
2) 張量分解精度指標(biāo)
3) 相關(guān)性評(píng)價(jià)指標(biāo)
使用Pearson相關(guān)系數(shù)來(lái)評(píng)價(jià)本文方法計(jì)算的用戶(hù)社會(huì)影響力極性分布與用戶(hù)真實(shí)的社會(huì)影響力極性分布的相關(guān)強(qiáng)度。計(jì)算式如下
其中,和表示需要度量相關(guān)性的2個(gè)向量,表示這2個(gè)向量的長(zhǎng)度,和表示均值。實(shí)驗(yàn)中,取每個(gè)被評(píng)價(jià)用戶(hù)收到的正面、中性、負(fù)面評(píng)價(jià)數(shù)量作為用戶(hù)真實(shí)的社會(huì)影響力極性分布,對(duì)這3個(gè)方面的評(píng)價(jià)數(shù)量做歸一化得到的取值。而的取值就是本文方法對(duì)用戶(hù)社會(huì)影響力極性分布的估計(jì)值。最后取所有用戶(hù)的,計(jì)算均值作為評(píng)價(jià)本文方法反映用戶(hù)社會(huì)影響力極性分布性能的指標(biāo)。
3.2.2 實(shí)驗(yàn)結(jié)果分析
1) 參數(shù)確定
2) 用戶(hù)社會(huì)影響力排序精度比較
表3 本文的方法與基準(zhǔn)方法對(duì)比實(shí)驗(yàn)結(jié)果
3) 用戶(hù)社會(huì)影響力極性特征
為了評(píng)價(jià)本文方法刻畫(huà)用戶(hù)社會(huì)影響力極性分布的性能,以用戶(hù)正面、負(fù)面和中性的評(píng)論分布作為用戶(hù)真實(shí)的社會(huì)影響力極性分布,分別計(jì)算每個(gè)用戶(hù)真實(shí)社會(huì)影響力極性分布與預(yù)測(cè)結(jié)果的Pearson相關(guān)性得到均值,結(jié)果如表4所示?;@球、經(jīng)濟(jì)、法律和健康這4個(gè)話(huà)題的Pearson 相關(guān)系數(shù)值均大于0.70,具有強(qiáng)相關(guān)性。因此本文的方法能夠較好地反映用戶(hù)社會(huì)影響力的極性分布。
表4 話(huà)題的Pearson相關(guān)系數(shù)值
根據(jù)實(shí)驗(yàn)結(jié)果,選出一位具有代表性的用戶(hù),將其傾向性分布繪圖,結(jié)果如圖6所示。該用戶(hù)的正面社會(huì)影響力占主導(dǎo),可以理解為其他用戶(hù)對(duì)他的反映往往是積極的。不難發(fā)現(xiàn),在本文提出的方法中,借助于用戶(hù)社會(huì)影響力極性分布,可以更加全面的分析用戶(hù)的社會(huì)影響,進(jìn)而為推薦系統(tǒng)、社交網(wǎng)絡(luò)信息傳播、突發(fā)事件檢測(cè)和廣告投放等應(yīng)用提供更為細(xì)致的參考數(shù)據(jù)。
本文提出了一種在給定查詢(xún)?cè)掝}下融合用戶(hù)觀(guān)點(diǎn)的用戶(hù)社會(huì)影響力分析模型,提出了一種受限的CANDECOMP/PARAFAC(CP)分解方法并應(yīng)用于社會(huì)影響力分析。首先,在CP分解中加入用戶(hù)相似性約束,為保證張量分解結(jié)果中因子矩陣的可解釋性又加入了潛在因子非負(fù)約束。其次,為解決受約束的CP分解,設(shè)計(jì)了一種CP_ALS的改進(jìn)算法HF-CP-ALS求解本文的模型。最后,通過(guò)分析潛在因子評(píng)定用戶(hù)的社會(huì)影響力得分,并可以根據(jù)張量評(píng)論傾向性維度的潛在因子得到用戶(hù)社會(huì)影響力的極性分布,在用戶(hù)社會(huì)影響力的分析上提供了更加詳盡的刻畫(huà)。在與基準(zhǔn)方法的對(duì)比實(shí)驗(yàn)中,本文提出的方法表現(xiàn)出了較好的性能。
[1] CUI P, WANG F, YANG S, et al. Item-level social influence prediction with probabilistic hybrid factor matrix factorization[C]//AAAI. c2011: 331-336.
[2] CUI P, WANG F, LIU S, et al. Who should share what?: item-level social influence prediction for users and posts ranking[C]//The 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, c2011:185-194.
[3] RASHID A M, KARYPIS G, RIEDL J. Influence in ratings-based recommender systems: an algorithm- independent approach[C]//The SIAM International Conference on Data Mining. c2005:556-560.
[4] BAKSHY E, HOFMAN J M, MASON W A, et al. Everyone's an influencer: quantifying influence on Twitter[C]//The fourth ACM International Conference on Web Search and Data Mining. ACM, c2011: 65-74.
[5] YANG J, LESKOVEC J. Modeling information diffusion in implicit networks[C]//2010 IEEE 10th International Conference on Data Mining (ICDM). IEEE, c2010: 599-608.
[6] SAKAKI T, OKAZAKI M, MATSUO Y. Earthquake shakes Twitter users: real-time event detection by social sensors[C]//The 19th International Conference on World Wide Web. ACM, c2010: 851-860.
[7] BAKSHY E, ECKLES D, YAN R, et al. Social influence in social advertising: evidence from field experiments[C]//The 13th ACM Conference on Electronic Commerce. ACM, c2012: 146-161.
[8] 毛佳昕, 劉奕群, 張敏, 等. 基于用戶(hù)行為的微博用戶(hù)社會(huì)影響力分析[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(4): 791-800.
MAO J X, LIU Y Q, ZHANF M, et al. Social influence analysis for micro-blog user based on user behavior[J]. Chinese Journal of Computers, 2014, 37(4): 791-800.
[9] 吳信東, 李毅, 李磊. 在線(xiàn)社交網(wǎng)絡(luò)影響力分析[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(4):735-752. WU X D, LI Y, LI L. Influence analysis of online social networks[J]. Chinese Journal of Computers, 2014, 37(4):735-752.
[10] WENG J, LIM E P, JIANG J, et al. Twitterrank: finding topic-sensitive influential twitterers[C]//The Third ACM International Conference on Web Search and Data Mining. ACM, c2010: 261-270.
[11] CAI K, BAO S, YANG Z, et al. OOLAM: an opinion oriented link analysis model for influence persona discovery[C]//The fourth ACM International Conference on Web Search and Data Mining. ACM, c2011: 645-654.
[12] KOLDA T G, BADER B W. Tensor decompositions and applications[J]. SIAM Review, 2009, 51(3): 455-500.
[13] DONG Z D, DONG Q.“ZhiHu”[EB/OL]. http://www.keenAge.com.
[14] CICHOCKI A, ZDUNEK R, PHAN A H, et al. Nonnegative matrix and tensor factorizations: applications to exploratory multi-way data analysis and blind source separation[M]. John Wiley & Sons, 2009:42-46.
[15] HU X, TANG L, TANG J, et al. Exploiting social relations for sentiment analysis in microblogging[C]//The Sixth ACM International Conference on Web Search and Data Mining. ACM, c2013: 537-546.
[16] DAVIDSON I, GILPIN S, WALKER P B. Behavioral event data and their analysis[J]. Data Mining and Knowledge Discovery, 2012, 25(3): 635-653.
[17] KOLDA T G, BADER B W, KENNY J P. Higher-order Web link analysis using multilinear algebra[C]//Fifth IEEE International Conference on Data Mining. IEEE, c2005: 242-249.
User social influence analysis based on constrained nonnegative tensor factorization
WEI Jing-jing1,2, CHEN Chang3,4, LIAO Xiang-wen3,4, CHEN Guo-long3,4, CHENG Xue-qi5
(1. College of Physics and Information Engineering, Fuzhou University, Fuzhou 350116, China; 2. College of Electronics and Information Science, Fujian Jiangxia University, Fuzhou 350108, China; 3. College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350116, China; 4. Fujian Provincial Key Laboratory of Networking Computing and Intelligent Information Processing, Fuzhou University, Fuzhou 350116,China; 5. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100086, China)
Existing models for measuring user social influence fail to integrate both opinion and topic information. Therefore, a new constrained nonnegative tensor factorization method combining user’s opinion and the topical relevance was proposed. The method represented user’s comment relations as 3-order tensor, factorized the comments tensor constrained by Laplacian topical matrix, and then measures user influence according to the latent factors resulting from the tensor factorization. Thus, the new method not only was capable to effectively calculate the strength of user social influence on given topic, but also kept the polarity allocation of social influence. The experimental result shows that the performance of the proposed method is better than that of the baseline methods such as OOLAM , TwitterRank, etc.
social influence, topic, opinion, tensor analysis
TP391
A
10.11959/j.issn.1000-436x.2016125
2015-05-22;
2016-01-30
廖祥文,liaoxw@fzu.edu.cn
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61300105);教育部博士點(diǎn)聯(lián)合基金資助項(xiàng)目(No.2012351410010);福建省科技重大專(zhuān)項(xiàng)基金資助項(xiàng)目(No.2013H6012);福州市科技計(jì)劃基金資助項(xiàng)目(No.2012-G-113, No.2013-PT-45)
The National Natural Science Foundation of China (No.61300105), The Research Fund for Doctoral Program of Higher Education of China (No.2012351410010), The Key Project of Science and Technology of Fujian (No.2013H6012), The Project of Science and Technology of Fuzhou (No.2012-G-113, No.2013-PT-45)
魏晶晶(1984-),女,福建平潭人,福州大學(xué)博士生,主要研究方向?yàn)榫W(wǎng)絡(luò)文本觀(guān)點(diǎn)挖掘。
陳暢(1991-),男,浙江江山人,福州大學(xué)碩士生,主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)、數(shù)據(jù)挖掘等。
廖祥文(1980-),男,福建泉州人,博士,福州大學(xué)副教授、碩士生導(dǎo)師,主要研究方向?yàn)閃eb信息檢索與觀(guān)點(diǎn)挖掘。
陳國(guó)龍(1965-),男,福建莆田人,博士,福州大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)計(jì)算、智能信息處理等。
程學(xué)旗(1971-),男,安徽安慶人,博士,中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)科學(xué)與社會(huì)計(jì)算、互聯(lián)網(wǎng)搜索與挖掘等。