彭艦,王屯屯,陳瑜,劉唐,徐文政
?
基于跨平臺(tái)的在線社交網(wǎng)絡(luò)用戶推薦研究
彭艦1,王屯屯1,陳瑜1,劉唐2,徐文政1
(1. 四川大學(xué)計(jì)算機(jī)學(xué)院,四川 成都 610065;2. 四川師范大學(xué)基礎(chǔ)教學(xué)學(xué)院,四川 成都 610068)
在社交網(wǎng)絡(luò)用戶推薦研究領(lǐng)域,通過(guò)提取用戶的行為模式對(duì)其進(jìn)行好友推薦。但是用戶的行為是多樣性的,在不同的社交平臺(tái),用戶可能有不同的行為模型。提出跨平臺(tái)用戶推薦模型,同時(shí)對(duì)用戶相關(guān)的所有社交網(wǎng)絡(luò)平臺(tái)進(jìn)行建模,最后將用戶在所有平臺(tái)的行為模式進(jìn)行融合?;谡鎸?shí)的新浪微博數(shù)據(jù)集和知乎數(shù)據(jù)集,通過(guò)一系列對(duì)比實(shí)驗(yàn)證明,跨平臺(tái)用戶推薦模型可以更加全面準(zhǔn)確地刻畫(huà)用戶行為,更好地進(jìn)行用戶推薦。
跨平臺(tái);用戶推薦;在線社交網(wǎng)絡(luò);數(shù)據(jù)挖掘
隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,在線社交網(wǎng)絡(luò)已吸引和聚集了大量用戶,如Facebook、Twitter、新浪微博和知乎等知名社交網(wǎng)絡(luò)。在這些社交網(wǎng)絡(luò)平臺(tái)上,每天的活躍用戶數(shù)量和產(chǎn)生的社交信息量巨大。僅僅在新浪微博平臺(tái),每天的活躍用戶可達(dá)6 000萬(wàn)個(gè),平均產(chǎn)生數(shù)億條微博信息[1],新浪微博已成為國(guó)內(nèi)用戶數(shù)量眾多的重要社交網(wǎng)絡(luò)平臺(tái)。如何對(duì)數(shù)量眾多的新浪微博用戶進(jìn)行有效的個(gè)性化推薦已成為社交網(wǎng)絡(luò)研究中一個(gè)非常重要的課題。
針對(duì)新浪微博的用戶推薦問(wèn)題,目前已有較多的研究[2,3]。研究者主要通過(guò)提取用戶在新浪微博平臺(tái)的行為特征對(duì)其進(jìn)行建模,但是用戶的行為是多樣性的,在不同的社交平臺(tái)會(huì)有不同的喜好。單獨(dú)地利用一個(gè)平臺(tái)的信息為用戶進(jìn)行建模,可能不足以全面反映用戶的興趣愛(ài)好。如果能同時(shí)參照和結(jié)合用戶在其他社交網(wǎng)絡(luò)平臺(tái)中的信息,可以更加全面準(zhǔn)確地了解用戶的興趣愛(ài)好以及行為特征。因此,在文檔中進(jìn)行用戶個(gè)性化推薦研究的同時(shí),融合其他平臺(tái)的信息來(lái)進(jìn)行跨平臺(tái)的用戶推薦,從而提升推薦的效率和準(zhǔn)確度。例如,用戶張三在新浪微博平臺(tái)(目標(biāo)平臺(tái))注冊(cè)賬號(hào),并且經(jīng)常發(fā)布或轉(zhuǎn)發(fā)足球相關(guān)內(nèi)容,傳統(tǒng)的單平臺(tái)用戶推薦模型只是根據(jù)用戶在新浪微博的行為特征對(duì)其進(jìn)行建模,得出的結(jié)論是他的興趣愛(ài)好主要是足球,于是為他推薦足球相關(guān)的用戶。此外,張三在知乎平臺(tái)(輔助平臺(tái))經(jīng)常討論軟件開(kāi)發(fā)等相關(guān)問(wèn)題,而且活躍度比在新浪微博高很多。如果能同時(shí)結(jié)合張三在2個(gè)平臺(tái)上的行為,得到的結(jié)論是張三喜歡足球,但是更喜歡軟件開(kāi)發(fā)。為張三推薦好友時(shí),不僅要推薦足球相關(guān)的用戶,也要推薦軟件開(kāi)發(fā)相關(guān)的用戶,而且軟件開(kāi)發(fā)相關(guān)的用戶在推薦列表中的位置更加靠前??赡苡捎趶埲谖⒉┢脚_(tái)未接觸到軟件開(kāi)發(fā)相關(guān)的用戶,導(dǎo)致其在微博平臺(tái)沒(méi)有表現(xiàn)出在軟件開(kāi)發(fā)方面相關(guān)的興趣愛(ài)好和用戶行為。
綜上所述,如果只是單獨(dú)地依據(jù)用戶在微博平臺(tái)的用戶行為特征為用戶進(jìn)行建模,很可能會(huì)導(dǎo)致片面地理解用戶興趣愛(ài)好。本文所提跨平臺(tái)推薦模型URCP,不僅考慮到用戶在新浪微博(目標(biāo)平臺(tái))的興趣愛(ài)好,更結(jié)合了其在知乎平臺(tái)(輔助平臺(tái))上的行為特征,最終將該用戶在所有相關(guān)平臺(tái)的興趣愛(ài)好結(jié)合起來(lái)進(jìn)行微博好友推薦。
在進(jìn)行跨平臺(tái)用戶推薦時(shí),首先遇到的問(wèn)題是數(shù)據(jù)采集。每個(gè)單獨(dú)的平臺(tái)可以通過(guò)爬蟲(chóng)技術(shù)或調(diào)用API獲取相應(yīng)數(shù)據(jù),但是如何將同一個(gè)用戶在不同平臺(tái)的賬號(hào)信息對(duì)應(yīng)起來(lái)是很困難的;其次,每個(gè)社交平臺(tái)具有一定的差異性。例如,知乎平臺(tái)沒(méi)有轉(zhuǎn)發(fā)功能。如何采用統(tǒng)一的方法為用戶進(jìn)行建模也是很大的挑戰(zhàn);最后一個(gè)問(wèn)題是用戶冷啟動(dòng)問(wèn)題,即無(wú)法獲取新注冊(cè)用戶的行為特征。
本文的主要貢獻(xiàn)如下。
1) 提出了一種基于跨平臺(tái)的在線社交網(wǎng)絡(luò)用戶推薦模型URCP,通過(guò)融合用戶在多個(gè)社交網(wǎng)絡(luò)平臺(tái)的信息,可以更加全面地刻畫(huà)用戶行為,更加準(zhǔn)確地進(jìn)行好友推薦。傳統(tǒng)的推薦算法只能對(duì)用戶在目標(biāo)平臺(tái)的行為進(jìn)行建模,不足以反映用戶全部的興趣愛(ài)好。本文所提跨平臺(tái)推薦模型,不僅考慮到用戶在目標(biāo)平臺(tái)的興趣愛(ài)好,同時(shí)將用戶在其他輔助平臺(tái)的行為特征融入整個(gè)模型中,對(duì)用戶進(jìn)行更加全面的建模,進(jìn)而可以更加準(zhǔn)確地對(duì)用戶進(jìn)行好友推薦。
2) 提出了一種新的跨社交網(wǎng)絡(luò)用戶采集方法,為跨平臺(tái)研究提供了數(shù)據(jù)支持,而且具有很好的擴(kuò)展性。國(guó)外提出的跨平臺(tái)數(shù)據(jù)采集方法主要利用賬號(hào)關(guān)聯(lián)工具或Google+API。但是在國(guó)內(nèi),大部分社交平臺(tái)都沒(méi)有賬號(hào)關(guān)聯(lián)工具,而且也沒(méi)有與Google賬號(hào)進(jìn)行關(guān)聯(lián),所以需要使用一個(gè)適合國(guó)內(nèi)社交網(wǎng)絡(luò)發(fā)展情況的跨平臺(tái)數(shù)據(jù)采集方法。
3) 基于跨平臺(tái)的用戶推薦,對(duì)于新注冊(cè)用戶,將輔助平臺(tái)的數(shù)據(jù)遷移到目標(biāo)平臺(tái),可以很好地解決冷啟動(dòng)問(wèn)題。傳統(tǒng)的解決用戶冷啟動(dòng)的方法是采用基于批判式會(huì)話的方式來(lái)逐漸引導(dǎo)用戶,但是基于會(huì)話的方式會(huì)使推薦周期較長(zhǎng)。本文所提冷啟動(dòng)解決方案主要借助于用戶在其他平臺(tái)的行為特征進(jìn)行興趣愛(ài)好的遷移。
社交網(wǎng)絡(luò)用戶推薦已成為一個(gè)研究熱點(diǎn)。由于現(xiàn)有的推薦系統(tǒng)大都建立在單一社交平臺(tái)的基礎(chǔ)上,利用用戶的鏈接信息(例如,關(guān)注其他人與被其他人關(guān)注)或內(nèi)容信息(用戶個(gè)人簡(jiǎn)歷和用戶已經(jīng)發(fā)布的內(nèi)容)來(lái)進(jìn)行推薦,導(dǎo)致其推薦效果仍有較大的提升空間。此外,在單一的平臺(tái)上進(jìn)行推薦容易導(dǎo)致數(shù)據(jù)過(guò)于稀疏和數(shù)據(jù)的過(guò)度擬合[4]。
協(xié)同過(guò)濾(CF, collaborative filtering)是使用較廣泛的技術(shù),根據(jù)用戶產(chǎn)生的評(píng)分信息來(lái)預(yù)測(cè)用戶的偏好[5]。然而,實(shí)踐中,CF系統(tǒng)容易受到不公平評(píng)分的影響。文獻(xiàn)[6]提出,協(xié)同過(guò)濾的方法不適用于用戶推薦,并且當(dāng)考慮到人與人之間的關(guān)系時(shí),需要考慮的因素比較多。在圖像挖掘領(lǐng)域,人們經(jīng)常把社交網(wǎng)絡(luò)用戶推薦問(wèn)題當(dāng)作圖形中的鏈路預(yù)測(cè)問(wèn)題來(lái)解決。文獻(xiàn)[7]將該問(wèn)題定義為給定一個(gè)社交網(wǎng)絡(luò)某個(gè)時(shí)間點(diǎn)的圖形快照,目的就是找到在未來(lái)某個(gè)時(shí)間點(diǎn)之前,圖形將會(huì)增加的邊。但這種方法并不能夠很好地反映真實(shí)生活中人們進(jìn)行朋友選擇的用戶偏好[8]。
潛在狄利克雷分配(LDA, latent Dirichlet allocation)模型的提出使越來(lái)越多的人使用LDA進(jìn)行語(yǔ)義分析和用戶推薦。文獻(xiàn)[9]利用LDA模型對(duì)用戶進(jìn)行建模,提出top-推薦算法,向用戶推薦個(gè)關(guān)注用戶以及用戶可能感興趣的文章。文獻(xiàn)[1]針對(duì)用戶的興趣總是在發(fā)生變化這一現(xiàn)象,利用LDA對(duì)用戶的內(nèi)容進(jìn)行主題生成來(lái)挖掘出用戶潛在的興趣。
文獻(xiàn)[4]指出,利用其他平臺(tái)的數(shù)據(jù)可以緩解數(shù)據(jù)稀疏問(wèn)題,并且提高用戶模型的預(yù)測(cè)性能。文獻(xiàn)[10]提出以標(biāo)簽為基礎(chǔ)的用戶簡(jiǎn)歷,并且提出了一系列跨系統(tǒng)用戶建模的方法。文獻(xiàn)[11]利用Twitter平臺(tái)的數(shù)據(jù)生成最新的話題,并向YouTube平臺(tái)的用戶推薦相關(guān)的視頻。文獻(xiàn)[12]提出利用源平臺(tái)的數(shù)據(jù)豐富目標(biāo)平臺(tái)的數(shù)據(jù)來(lái)進(jìn)行視頻的推薦,以此解決目標(biāo)平臺(tái)的數(shù)據(jù)稀疏問(wèn)題和冷啟動(dòng)問(wèn)題。文獻(xiàn)[13]利用在線LDA(OSLDA, online streaming latent Dirichlet allocation)模型實(shí)時(shí)地生成主題向量,并通過(guò)遷移學(xué)習(xí)算法來(lái)實(shí)現(xiàn)多媒體的應(yīng)用。文獻(xiàn)[14]指出,源平臺(tái)向目標(biāo)平臺(tái)的數(shù)據(jù)轉(zhuǎn)移主要是通過(guò)遷移學(xué)習(xí)完成的,而轉(zhuǎn)移學(xué)習(xí)主要依賴于對(duì)齊用戶或?qū)R數(shù)據(jù)。
本文提出基于對(duì)齊用戶的跨平臺(tái)方法對(duì)用戶進(jìn)行推薦。在進(jìn)行跨平臺(tái)推薦系統(tǒng)的研究中,如何有效獲取不同平臺(tái)的數(shù)據(jù)是一個(gè)重要的環(huán)節(jié)。文獻(xiàn)[10~12]利用Friendfeed、About.me和Google+API等工具進(jìn)行跨平臺(tái)的數(shù)據(jù)采集。但是,由于很多社交網(wǎng)絡(luò)用戶沒(méi)有使用賬號(hào)管理工具或Google+,導(dǎo)致他們提出的數(shù)據(jù)采集方法無(wú)法對(duì)某些用戶或社交平臺(tái)進(jìn)行數(shù)據(jù)采集。文獻(xiàn)[15~18]提出了各種專門(mén)模型用于找到多個(gè)平臺(tái)中對(duì)應(yīng)多個(gè)賬號(hào)的同一個(gè)用戶。這些方法主要是利用自然語(yǔ)言處理技術(shù)或時(shí)空關(guān)系來(lái)進(jìn)行判斷。例如,在2個(gè)不同的平臺(tái)(A和B)上,發(fā)現(xiàn)平臺(tái)A上某個(gè)用戶的名稱與平臺(tái)B上某個(gè)用戶的名稱很相似,就可以在一定程度上認(rèn)為這是同一個(gè)用戶。很有可能是2個(gè)不同的用戶,由于看了同一部電影就起了相似的名稱。因此,現(xiàn)實(shí)情況的復(fù)雜性導(dǎo)致這些方法的效果不是很理想。
在社交網(wǎng)絡(luò)用戶推薦中,除了數(shù)據(jù)稀疏問(wèn)題外,另外一個(gè)比較重要的問(wèn)題是用戶冷啟動(dòng)問(wèn)題。傳統(tǒng)的解決方法是,不斷與用戶進(jìn)行會(huì)話,在每一次會(huì)話中,用戶對(duì)推薦對(duì)象的一個(gè)特征進(jìn)行批判,然后根據(jù)用戶的批判特征逐漸引導(dǎo)用戶找到其期望的推薦對(duì)象[19],這種方法最大的問(wèn)題在于會(huì)話周期太長(zhǎng)。雖然有很多研究者提出一些改進(jìn)的方法來(lái)減少用戶會(huì)話次數(shù),但是效率還是比較低[20~22]。本文所提基于跨平臺(tái)的解決方法,不用通過(guò)用戶會(huì)話解決用戶冷啟動(dòng)問(wèn)題,以快速方便地進(jìn)行用戶推薦。
圖1 模型總體框架
在線社交網(wǎng)絡(luò)中,用戶產(chǎn)生的行為數(shù)據(jù)極其龐大。不同的社交網(wǎng)絡(luò)平臺(tái)之間的差異也較大。因此,在研究跨平臺(tái)的社交網(wǎng)絡(luò)用戶推薦時(shí),如何處理好單個(gè)用戶在多個(gè)平臺(tái)的行為數(shù)據(jù)成為一個(gè)關(guān)鍵問(wèn)題。本節(jié)將重點(diǎn)介紹如何獲取用戶在多個(gè)平臺(tái)的行為數(shù)據(jù),并對(duì)其進(jìn)行數(shù)據(jù)清洗,最后利用這些數(shù)據(jù)對(duì)用戶進(jìn)行建模。本文所提模型總體框架如圖1所示。
在圖1中,上部分為目標(biāo)平臺(tái),下部分為輔助平臺(tái)的其中一個(gè)。在目標(biāo)平臺(tái)中,用戶A發(fā)布了“文檔1”,“文檔1”生成了“主題1”和“主題2”,這2個(gè)主題構(gòu)成了用戶A的主題。用戶B發(fā)布了“文檔2”和“文檔3”,其中,“文檔2”生成了“主題3”和“主題4”,“文檔3”生成了“主題5”,最終“主題3”和“主題4”以及“主題5”構(gòu)成了用戶B的主題。用戶C轉(zhuǎn)發(fā)了“文檔3”,發(fā)布了“文檔4”,其中,“文檔4”生成了“主題6”,最終“主題5”和“主題6”構(gòu)成了用戶C的主題。通過(guò)各個(gè)用戶的主題向量,為目標(biāo)用戶推薦“用戶1”“用戶2”“用戶3”等。輔助平臺(tái)與目標(biāo)平臺(tái)結(jié)構(gòu)類似。最終將所有平臺(tái)的推薦列表融合起來(lái),為目標(biāo)用戶生成最終的推薦列表。
每個(gè)用戶在不同的平臺(tái),可以發(fā)布自己的原創(chuàng)文章或轉(zhuǎn)發(fā)其他人的文章。通過(guò)提取用戶的文檔信息,可以挖掘出其潛在的興趣愛(ài)好。在每個(gè)平臺(tái)上,都會(huì)生成用戶的主題空間,利用用戶的主題分布,向目標(biāo)用戶推薦與其興趣愛(ài)好最接近的用戶。在不同的平臺(tái),用戶的主題分布不同,導(dǎo)致同一個(gè)用戶在不同的平臺(tái)產(chǎn)生的推薦列表不一致。通過(guò)一個(gè)融合模型,對(duì)所有的推薦用戶列表進(jìn)行重排序,從而得到目標(biāo)用戶最終的推薦列表。下面將詳細(xì)介紹框架各個(gè)部分。
在跨平臺(tái)研究中,目前主流的數(shù)據(jù)采集方法是利用賬號(hào)工具和調(diào)用谷歌提供的API。但是,由于一些社交網(wǎng)絡(luò)平臺(tái)的各種限制,這些方法難以有效獲取到用戶的完整數(shù)據(jù)。例如,新浪微博并沒(méi)有提供賬號(hào)管理工具與其他平臺(tái)進(jìn)行關(guān)聯(lián),也未對(duì)外提供API幫助開(kāi)發(fā)者獲取新浪微博用戶關(guān)聯(lián)的其他平臺(tái)賬號(hào)。為解決此問(wèn)題,本文提出了一種新的跨平臺(tái)數(shù)據(jù)采集方法。首先,通過(guò)網(wǎng)絡(luò)爬取獲取賬號(hào)匹配關(guān)系;然后,通過(guò)各個(gè)平臺(tái)對(duì)外提供的API進(jìn)行數(shù)據(jù)獲取。例如,新浪微博提供了跨平臺(tái)登錄功能,在登錄某些社交平臺(tái)時(shí),注冊(cè)用戶可以使用微博賬號(hào)進(jìn)行登錄,如知乎、豆瓣、人人網(wǎng)和優(yōu)酷等社交平臺(tái)均允許采用微博賬號(hào)登錄。因此,基于該功能可獲得微博用戶在其他平臺(tái)的數(shù)據(jù)信息。本文為改善新浪微博用戶的推薦效果,選用知乎作為新浪微博的輔助平臺(tái)。由于知乎是一個(gè)話題性討論及典型的問(wèn)答社區(qū),在該平臺(tái)上更容易分析出用戶感興趣的話題和用戶的喜好。
如果一個(gè)用戶同時(shí)擁有新浪微博賬號(hào)以及知乎賬號(hào),并且該用戶曾經(jīng)利用新浪微博賬號(hào)登錄知乎,知乎平臺(tái)會(huì)在該用戶首頁(yè)進(jìn)行特殊標(biāo)識(shí),表明該用戶的知乎賬號(hào)已經(jīng)與其新浪微博賬號(hào)進(jìn)行關(guān)聯(lián)。為獲取用戶的新浪微博和知乎的賬號(hào)對(duì)應(yīng)關(guān)系,本文需要對(duì)知乎的用戶首頁(yè)進(jìn)行網(wǎng)絡(luò)爬取。通過(guò)解析網(wǎng)頁(yè),判斷是否已關(guān)聯(lián)新浪微博平臺(tái)。如果用戶已經(jīng)關(guān)聯(lián),通過(guò)數(shù)據(jù)解析即可獲取用戶在新浪微博和知乎上的賬號(hào)對(duì)應(yīng)關(guān)系。此外,由于新浪微博提供了公開(kāi)的API,可以使開(kāi)發(fā)者容易獲取到新浪微博用戶的大部分信息。因此,利用新浪微博平臺(tái)和知乎平臺(tái)對(duì)外提供的這些API,通過(guò)傳入不同的用戶ID即可便捷地獲取到用戶對(duì)應(yīng)的各種信息,從而有效解決了難以獲取不同平臺(tái)信息的問(wèn)題。具體實(shí)現(xiàn)過(guò)程為大量爬取知乎用戶的個(gè)人首頁(yè),保存網(wǎng)頁(yè)內(nèi)容到本地。離線對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行解析,發(fā)現(xiàn)知乎名為“張亮”的用戶,關(guān)聯(lián)了新浪微博平臺(tái),并給出了其在新浪微博平臺(tái)的個(gè)人首頁(yè)地址。對(duì)該網(wǎng)址進(jìn)行解析,可以得到該用戶新浪微博和知乎平臺(tái)的賬號(hào)對(duì)應(yīng)關(guān)系為{izlmichael,張亮}。最后將用戶名作為參數(shù)傳入對(duì)應(yīng)平臺(tái)的API,即可獲取該用戶在不同平臺(tái)的信息。
在用戶冷啟動(dòng)問(wèn)題上,本文提出了較為簡(jiǎn)單和高效的解決方案。如果用戶需要在目標(biāo)平臺(tái)上進(jìn)行推薦,但是該用戶對(duì)于目標(biāo)平臺(tái)是新注冊(cè)用戶,傳統(tǒng)的推薦算法無(wú)法對(duì)其進(jìn)行推薦?;跁?huì)話的冷啟動(dòng)解決方案需要與用戶進(jìn)行交互,而且比較耗時(shí)。本文所提跨平臺(tái)解決方案,可以將該用戶在其他平臺(tái)上的信息復(fù)制到目標(biāo)平臺(tái),這樣就可以較為快速地解決用戶冷啟動(dòng)問(wèn)題。例如,當(dāng)需要對(duì)新浪微博上的一個(gè)用戶進(jìn)行推薦時(shí),發(fā)現(xiàn)該用戶是新注冊(cè)用戶,無(wú)法確定其興趣愛(ài)好。但是該用戶的新浪微博賬號(hào)已經(jīng)關(guān)聯(lián)了知乎賬號(hào),而且該用戶在知乎上發(fā)布過(guò)很多文章。可以將該用戶在知乎上的興趣愛(ài)好遷移到新浪微博平臺(tái),這樣就可以獲取其興趣愛(ài)好,并利用推薦算法對(duì)其進(jìn)行推薦。如果用戶在知乎上的興趣愛(ài)好與其在微博上的一致,可以解決用戶冷啟動(dòng)問(wèn)題;如果用戶在2個(gè)平臺(tái)的興趣愛(ài)好不一致,興趣愛(ài)好的遷移,可以發(fā)現(xiàn)用戶在新浪微博平臺(tái)無(wú)法表現(xiàn)出的興趣愛(ài)好。本文認(rèn)為,用戶的興趣愛(ài)好由該用戶在所有平臺(tái)的興趣愛(ài)好共同組合而成,任意單個(gè)平臺(tái)的興趣愛(ài)好都不足以完全表示用戶的興趣愛(ài)好。
在線社交網(wǎng)絡(luò)平臺(tái)的結(jié)構(gòu)較為復(fù)雜,如何選取合適的用戶特征進(jìn)行建模是用戶推薦系統(tǒng)中的另一個(gè)重要環(huán)節(jié)。考慮到用戶的興趣會(huì)隨著時(shí)間發(fā)生變化,如果能充分利用用戶最近的行為即可有效解決該問(wèn)題。在本文模型中,利用用戶在各個(gè)平臺(tái)最近發(fā)布的文章或內(nèi)容來(lái)分析該用戶最新的興趣。同時(shí),本文通過(guò)對(duì)新浪微博用戶觀察分析,發(fā)現(xiàn)水軍有個(gè)普遍存在的特征:關(guān)注了很多其他用戶,但是很少有其他用戶關(guān)注自己。因此,本文通過(guò)某個(gè)用戶的關(guān)注數(shù)量和被關(guān)注數(shù)量的比值來(lái)識(shí)別和剔除社交網(wǎng)絡(luò)中水軍的相關(guān)數(shù)據(jù)。在實(shí)驗(yàn)分析中,發(fā)現(xiàn)若某用戶的關(guān)注人數(shù)遠(yuǎn)遠(yuǎn)大于其粉絲數(shù)量,則該用戶是水軍的概率也較大。文獻(xiàn)[23]指出,可以通過(guò)一個(gè)用戶的所有關(guān)注用戶和被關(guān)注用戶之間的關(guān)注關(guān)系間的距離來(lái)判斷該用戶是否為水軍。本文利用該方法對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行逐一判斷,并將水軍直接剔除。由于微博平臺(tái)具有訪問(wèn)次數(shù)限制,無(wú)法直接通過(guò)接口驗(yàn)證用戶間的關(guān)注關(guān)系。為解決此問(wèn)題,本文爬取各個(gè)用戶的關(guān)注列表,并通過(guò)分析關(guān)注列表來(lái)分析用戶之間的關(guān)注關(guān)系。例如,若用戶A在用戶B的關(guān)注列表中,則認(rèn)為B關(guān)注了A,即B是A的粉絲。
興趣愛(ài)好建模是針對(duì)每個(gè)用戶的。本文采用最常用的概率主題模型LDA模型來(lái)對(duì)微博用戶進(jìn)行興趣度建模。利用LDA進(jìn)行用戶建模時(shí),需要對(duì)文檔進(jìn)行分詞和過(guò)濾等數(shù)據(jù)預(yù)處理操作。本文采用的分詞算法來(lái)源于網(wǎng)上的開(kāi)源代碼(jieba)。關(guān)于單詞的過(guò)濾,比較流行的做法是按照詞性進(jìn)行過(guò)濾,例如,只保留動(dòng)詞和名詞。但是這樣會(huì)導(dǎo)致用戶信息的進(jìn)一步缺失。為了盡可能地保留用戶信息,本文按照單詞的出現(xiàn)次數(shù)進(jìn)行過(guò)濾。
在對(duì)微博數(shù)據(jù)進(jìn)行分析時(shí),發(fā)現(xiàn)用戶A關(guān)注用戶B的主要?jiǎng)訖C(jī)是由于用戶A和用戶B具有相同的興趣愛(ài)好和共同關(guān)注的話題?;诖?,本文通過(guò)共同的話題關(guān)系來(lái)對(duì)用戶進(jìn)行建模,并采用LDA主題模型進(jìn)行用戶的話題建模。LDA主題模型是話題建模中較流行的方法,可用于識(shí)別大規(guī)模文檔集中潛藏的主題信息。然而,由于微博內(nèi)容具有典型的短文本特性,直接使用經(jīng)典的LDA模型用于微博用戶建模的效果并不理想。因此,本文提出一種改進(jìn)的基于LDA 的微博用戶模型。在改進(jìn)模型中,首先將所有用戶的微博基于用戶進(jìn)行劃分,并將每個(gè)用戶發(fā)布的微博進(jìn)行合并,以此來(lái)作為該用戶的信息來(lái)源。同時(shí),將標(biāo)準(zhǔn)LDA模型的“文檔—主題—詞”3層結(jié)構(gòu)轉(zhuǎn)變?yōu)椤坝脩簟黝}—詞”的用戶模型,并利用該模型進(jìn)行用戶建模。在使用LDA模型對(duì)用戶進(jìn)行建模時(shí),模型的好壞與以下3個(gè)參數(shù)聯(lián)系非常緊密:伸張系數(shù)和以及主題數(shù)量。
傳統(tǒng)的用戶推薦中,一般通過(guò)評(píng)分矩陣獲得用戶向量。但是這種方法容易受到不公平評(píng)分的影響。此外,實(shí)踐中,用戶的打分也不能完全反映出該用戶的真實(shí)興趣愛(ài)好。而LDA模型通過(guò)用戶進(jìn)行概率主題分析,可以獲取其潛在的興趣愛(ài)好。為便于理解本文模型,表1給出了文章中出現(xiàn)的符號(hào)及其描述。
表1 符號(hào)及其描述
定義1 文檔集合。令(1,2,…,d,…,d),其中,d表示第個(gè)用戶最近發(fā)布的篇文章,(d1,d2,…,d,…,d),則是文檔的集合。
定義2 文檔的主題(topic)。令=(1,2,…,t,…,t),其中,t表示生成的第個(gè)主題,則是文檔主題。利用LDA模型對(duì)用戶文檔進(jìn)行概率主題建模,得到其主題。
為獲得每個(gè)用戶的主題分布,本文中通過(guò)3個(gè)步驟來(lái)實(shí)現(xiàn):1) 從一個(gè)用戶的微博中抽取一個(gè)主題;2) 從抽取到的主題中抽取一個(gè)單詞;3) 重復(fù)前面2個(gè)步驟,查找出微博中的所有單詞。將上述主題中單詞出現(xiàn)的次數(shù)轉(zhuǎn)換為向量空間模型。
得到每個(gè)用戶的主題向量后,通過(guò)計(jì)算代表用戶興趣愛(ài)好的主題向量間的距離,計(jì)算2個(gè)用戶的相似度。這里的距離采用的是相對(duì)熵(KL, kullback leibler divergence),相對(duì)熵越小,說(shuō)明2個(gè)用戶的興趣越相似。
在計(jì)算2個(gè)用戶間的相似度得分時(shí),本文根據(jù)式(1)來(lái)計(jì)算2個(gè)不同用戶在不同平臺(tái)的行為相似度。2個(gè)用戶間的相似度得分定義為
若2個(gè)用戶的相似度得分越高,說(shuō)明2個(gè)用戶越相似,則需要優(yōu)先進(jìn)行推薦。
對(duì)于同一個(gè)用戶,在不同的社交網(wǎng)絡(luò)平臺(tái)中利用相似度分別進(jìn)行推薦時(shí),通常推薦結(jié)果未必能保持一致性。為解決如何得到一個(gè)合理的、統(tǒng)一的推薦集合的問(wèn)題,本文將邏輯回歸的思想引入所提模型中,將用戶在不同平臺(tái)的推薦結(jié)果進(jìn)行線性擬合。通過(guò)挖掘用戶信息中內(nèi)在支配推薦排序的信息,很好地解決了傳統(tǒng)使用經(jīng)驗(yàn)參數(shù)的問(wèn)題,使模型能夠自適應(yīng)不同的應(yīng)用場(chǎng)景,從而可使用任意的輔助平臺(tái)進(jìn)行跨平臺(tái)推薦。
對(duì)于任意的2個(gè)用戶,他們之間融合后的行為相似度由他們?cè)诟鱾€(gè)平臺(tái)的行為相似度進(jìn)行加權(quán)線性組合得到。
為了得到權(quán)值向量,本文需要先定義預(yù)測(cè)函數(shù)。
在預(yù)測(cè)函數(shù)基礎(chǔ)上,可以進(jìn)一步定義在一次用戶推薦過(guò)程中的誤差函數(shù)。
在單次用戶推薦誤差函數(shù)式(4)的基礎(chǔ)上,可以得到在次推薦中總的誤差函數(shù)。
權(quán)值更新過(guò)程如下
對(duì)總誤差函數(shù)式(5)進(jìn)行求導(dǎo),并代入式(6)得到最終的權(quán)值更新過(guò)程。
按照式(7),不斷進(jìn)行迭代,當(dāng)參數(shù)不再發(fā)生變化時(shí),認(rèn)為已經(jīng)達(dá)到收斂條件并結(jié)束迭代過(guò)程。將模型收斂時(shí)得到的參數(shù)向量作為本文最終的訓(xùn)練結(jié)果。
通過(guò)對(duì)微博數(shù)據(jù)的分析發(fā)現(xiàn),絕大多數(shù)微博用戶通過(guò)興趣愛(ài)好來(lái)關(guān)注其他用戶,即微博用戶和其好友之間擁有相似的話題分布?;诖擞^察,在候選用戶中,優(yōu)先推薦那些與目標(biāo)用戶話題分布相近的用戶。為用戶集合,u為目標(biāo)用戶,U為候選用戶,且U?u。
不同的社交網(wǎng)絡(luò)平臺(tái)上,對(duì)候選用戶集中的每一個(gè)用戶分別與目標(biāo)用戶按照相似度進(jìn)行降序排列。這樣排在前面的用戶,與目標(biāo)用戶更相似,需要優(yōu)先推薦。由于在每個(gè)平臺(tái)上的排序不同,需要對(duì)這些用戶進(jìn)行重新排序。推薦過(guò)程實(shí)現(xiàn)偽代碼如算法1所示。
算法1 跨平臺(tái)用戶推薦
輸入 用戶u的候選用戶集合U;平臺(tái)集合;平臺(tái)權(quán)值向量;用戶u粉絲集合;用戶u關(guān)注用戶集合;用戶概率主題分布向量;各個(gè)平臺(tái)主題數(shù)量向量;推薦用戶數(shù)量
輸出 用戶u推薦列表T
3) ifP= 0;/*用戶在某平臺(tái)信息為空*/
5) ifP!0;
6) = P
7) else
9) if!= 0
10) = P
11) 根據(jù)式(1)計(jì)算各個(gè)用戶間的相似度
12)=(1,2,…,u,…,u)/*按照與目標(biāo)用戶u的相似度得分降序排序并取前個(gè)用戶*/
13) return
對(duì)推薦集合的每個(gè)用戶u分別判斷該用戶是否為目標(biāo)用戶的好友,如果是好友關(guān)系則認(rèn)為此次推薦是成功的。
為驗(yàn)證推薦模型的有效性,本文選取國(guó)內(nèi)用戶活躍度最大的新浪微博作為目標(biāo)測(cè)試平臺(tái),并將國(guó)內(nèi)最大的話題討論平臺(tái)知乎作為輔助平臺(tái)。實(shí)驗(yàn)中,通過(guò)對(duì)2個(gè)不同平臺(tái)的融合來(lái)向微博用戶進(jìn)行好友推薦。同時(shí),將本文提出的推薦模型URCP與文獻(xiàn)中的PYMK[5]、-means[6]、TWILITE[9]等算法進(jìn)行了一系列的對(duì)比實(shí)驗(yàn)。在文獻(xiàn)[5]中,作者通過(guò)用戶在MySpace平臺(tái)的信息為用戶進(jìn)行打分,將特征最接近的用戶作為推薦列表。在文獻(xiàn)[6]中,作者利用用戶的文本內(nèi)容對(duì)其進(jìn)行建模,最后利用-means對(duì)用戶進(jìn)行推薦。在文獻(xiàn)[9]中,作者提取用戶在Twitter平臺(tái)的主體分布,推薦前個(gè)用戶作為推薦列表。本文所提模型URCP不僅對(duì)目標(biāo)平臺(tái)進(jìn)行建模,同時(shí)對(duì)輔助平臺(tái)進(jìn)行建模,而且最后通過(guò)模型融合算法將用戶的行為模式融合起來(lái)作為用戶最終的行為模型,這樣可以更加全面地對(duì)用戶進(jìn)行分析。
本文通過(guò)式(8)和式(9)來(lái)計(jì)算用戶u的推薦準(zhǔn)確率和推薦召回率。
如果u關(guān)注了u,則(u,u)=1;否則,(u,u)=0。
其中,表示候選用戶u中目標(biāo)用戶的好友數(shù)量。
單獨(dú)使用準(zhǔn)確率或召回率無(wú)法對(duì)一個(gè)推薦模型進(jìn)行全面的評(píng)價(jià),這里采用一個(gè)統(tǒng)一的評(píng)價(jià)指標(biāo)1值。定義1值為
其中,(u)表示用戶u的準(zhǔn)確率,(u)表示用戶u的召回率。
用戶u平均準(zhǔn)確率(MAP, mean average precision)的計(jì)算式為
其中,表示候選用戶集合中目標(biāo)用戶的好友數(shù)量。
除了準(zhǔn)確性外,本文還采用了覆蓋率(coverage)作為評(píng)價(jià)指標(biāo),用來(lái)測(cè)評(píng)一個(gè)推薦系統(tǒng)挖掘長(zhǎng)尾用戶的能力,定義為
其中,表示系統(tǒng)中所有用戶的集合,()表示為用戶推薦一個(gè)長(zhǎng)度為的候選用戶集合。覆蓋率越高,代表該推薦系統(tǒng)越好,有更多的人會(huì)被推薦,能夠更加有效地緩解推薦系統(tǒng)的馬太效應(yīng)。
如果某個(gè)用戶在知乎平臺(tái)沒(méi)有回答過(guò)問(wèn)題,說(shuō)明該用戶在知乎平臺(tái)不是很活躍,即知乎平臺(tái)對(duì)該用戶的興趣集合影響很小,對(duì)于該用戶在所有平臺(tái)的權(quán)值向量中,知乎平臺(tái)對(duì)應(yīng)的值設(shè)置為0。
圖2 模型的F1值隨主題數(shù)量變化
表2 學(xué)習(xí)步長(zhǎng)與初始向量
將6.3節(jié)得到的參數(shù)代入模型,對(duì)用戶進(jìn)行推薦。本文主要采用離線實(shí)驗(yàn)方法,將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,其中,訓(xùn)練集用來(lái)對(duì)模型進(jìn)行訓(xùn)練,測(cè)試集用來(lái)對(duì)模型的性能進(jìn)行測(cè)評(píng)。本文主要從推薦準(zhǔn)確性和覆蓋率對(duì)模型進(jìn)行評(píng)估,準(zhǔn)確性主要包括準(zhǔn)確率、召回率、1值和值,具體定義見(jiàn)6.1節(jié)。經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),本文提出的URCP模型在準(zhǔn)確性和覆蓋率方面均優(yōu)于對(duì)比模型,并分別針對(duì)URCP模型準(zhǔn)確性和覆蓋率較高的原因進(jìn)行了詳細(xì)解釋。
根據(jù)式(8),得到實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 模型的準(zhǔn)確率
由圖3可知,本文提出的URCP模型在準(zhǔn)確率方面要優(yōu)于其他對(duì)比模型。隨著推薦人數(shù)的增大,分母不斷增大,分子的增加速度低于分母,導(dǎo)致模型的準(zhǔn)確率不斷下降。同時(shí)也發(fā)現(xiàn),當(dāng)推薦的用戶越少,模型的推薦效果越好。PYMK模型的準(zhǔn)確率隨著推薦人數(shù)的增加,起伏波動(dòng)較大,其他3個(gè)模型基本呈現(xiàn)平緩下降趨勢(shì)。當(dāng)候選用戶集合長(zhǎng)度為2時(shí),URCP模型的準(zhǔn)確率最好。
根據(jù)式(9),分析了模型的召回率,實(shí)驗(yàn)結(jié)果如圖4所示。
由圖4可知,本文提出的URCP模型在召回率方面要優(yōu)于其他對(duì)比模型。隨著的增大,推薦用戶增多,有更多的好友被推薦,導(dǎo)致召回率不斷增大。從圖4中可知,URCP模型和TWILITE模型的召回率要明顯優(yōu)于PYMK模型和-means模型。
圖4 模型的召回率
在實(shí)驗(yàn)中,依據(jù)式(10)來(lái)計(jì)算1值,圖5給出了實(shí)驗(yàn)結(jié)果。
圖5 模型的F1值
由圖5可知,本文URCP模型在1值方面優(yōu)于其他模型。綜合準(zhǔn)確率和召回率的測(cè)試結(jié)果,發(fā)現(xiàn)隨著的增大,雖然準(zhǔn)確率在不斷減小,但是召回率和1值在不斷增大。當(dāng)推薦人數(shù)大于6時(shí),準(zhǔn)確率的下降速度與召回率的增長(zhǎng)速度基本持平,使1值增長(zhǎng)速度變緩。當(dāng)推薦人數(shù)大于9時(shí),由于準(zhǔn)確率的下降速度大于召回率的增長(zhǎng)速度,導(dǎo)致URCP模型的1值開(kāi)始呈現(xiàn)下降趨勢(shì)。
依據(jù)式(11),測(cè)試了對(duì)比模型的,測(cè)試結(jié)果如圖6所示。
由圖6可知,本文提出的URCP模型在平均準(zhǔn)確率方面要優(yōu)于對(duì)比模型。值越大,說(shuō)明模型能夠把目標(biāo)用戶最喜歡的用戶放到推薦列表的靠前位置,能夠更加準(zhǔn)確地刻畫(huà)用戶的興趣愛(ài)好,推薦效果更好。URCP模型的值明顯高于其他3個(gè)模型,說(shuō)明該模型為目標(biāo)用戶推薦的候選用戶更能滿足其興趣愛(ài)好。
圖6 模型的MAP值
圖3~圖6的測(cè)試結(jié)果顯示,相比既有模型,本文URCP模型在推薦的準(zhǔn)確性方面具有顯著的優(yōu)越性。對(duì)于TWILITE模型,只是在新浪微博平臺(tái)對(duì)用戶進(jìn)行主題提取,并推薦興趣愛(ài)好最接近的前個(gè)用戶。利用這種模型得到的用戶興趣愛(ài)好是片面的,對(duì)用戶的興趣愛(ài)好描述的不夠全面。例如,用戶在新浪微博平臺(tái)發(fā)布足球相關(guān)的博文,但是其對(duì)軍事也很感興趣,卻很少表現(xiàn)出相關(guān)的行為動(dòng)作,導(dǎo)致該模型無(wú)法有效地刻畫(huà)出用戶在軍事方面的興趣愛(ài)好,因此推薦效果不是很理想;對(duì)于-means模型,利用用戶發(fā)布的文檔之間的相似性對(duì)用戶進(jìn)行好友推薦,效果不如通過(guò)提取文檔主題來(lái)進(jìn)行推薦。現(xiàn)有的自然語(yǔ)言處理技術(shù),還無(wú)法很好地對(duì)文檔直接進(jìn)行描述,例如對(duì)同義詞的處理。文檔A中出現(xiàn)了“推薦系統(tǒng)”一詞,文檔B中出現(xiàn)了“推薦引擎”一詞,在計(jì)算2個(gè)文檔間的距離時(shí),會(huì)認(rèn)為這是2個(gè)完全不同的單詞,導(dǎo)致文檔差異性較大。本文提出的模型將文檔進(jìn)行主題提取后,能夠更好地反映用戶興趣愛(ài)好;對(duì)于PYMK模型,利用協(xié)同過(guò)濾的思想進(jìn)行用戶推薦,由于系統(tǒng)中有很多用戶更加傾向于關(guān)注大量其他用戶,自己卻很少發(fā)布博文,于是基于協(xié)同過(guò)濾的模型會(huì)將這些出度特別大但并不經(jīng)常發(fā)布微博的用戶推薦給目標(biāo)用戶。其次由于社交網(wǎng)絡(luò)的數(shù)據(jù)稀疏性,用戶之間無(wú)法通過(guò)關(guān)注關(guān)系很好地聯(lián)系起來(lái),于是很多候選用戶與目標(biāo)用戶興趣愛(ài)好相似卻不會(huì)被推薦,導(dǎo)致推薦準(zhǔn)確性不高;本文URCP模型,分別提取用戶在各個(gè)平臺(tái)發(fā)布的文章,利用隱語(yǔ)義模型提取文章的主題分布,用文檔的主題分布表示用戶的興趣愛(ài)好,可以更好地對(duì)用戶行為進(jìn)行描述,并利用回歸模型將用戶在所有平臺(tái)的興趣愛(ài)好進(jìn)行綜合考慮,可以更加全面地對(duì)用戶的興趣愛(ài)好進(jìn)行刻畫(huà),因此,推薦效果比較好。
一個(gè)好的推薦系統(tǒng),不僅要對(duì)用戶進(jìn)行準(zhǔn)確的推薦,還需要盡可能地保證每一個(gè)用戶都有機(jī)會(huì)被推薦給其他用戶,防止關(guān)注度越高的用戶越容易被關(guān)注,關(guān)注度較低的用戶更加不被關(guān)注。依據(jù)式(12),本文對(duì)模型的覆蓋率進(jìn)行了測(cè)評(píng),測(cè)試結(jié)果如圖7所示。
圖7 模型的覆蓋率
由圖7可知,本文提出的URCP模型在覆蓋率方面要優(yōu)于其他對(duì)比模型?;?means的聚類模型,會(huì)形成以大V用戶為中心的極大簇,推薦給目標(biāo)用戶的候選用戶,很大一部分都是距離簇心較近的用戶,因此,覆蓋率較低;基于協(xié)同過(guò)濾的PYMK模型,主要通過(guò)關(guān)注關(guān)系對(duì)用戶進(jìn)行推薦,由于新浪微博中數(shù)據(jù)較為稀疏,導(dǎo)致很多用戶無(wú)法被推薦,覆蓋率較低[24];基于主題模型的TWILITE模型,對(duì)用戶進(jìn)行興趣愛(ài)好建模,根據(jù)用戶的興趣愛(ài)好相似度進(jìn)行推薦,因此,推薦列表中的用戶大都集中在某個(gè)主題領(lǐng)域,所以覆蓋率較??;本文URCP模型,雖然也是利用興趣愛(ài)好相似度進(jìn)行推薦,但是該模型不僅刻畫(huà)了用戶在新浪微博平臺(tái)的行為特征,還綜合考慮了用戶在其他平臺(tái)的興趣。例如,該模型為用戶A推薦了用戶B,是因?yàn)橛脩鬉喜歡“足球”相關(guān)的內(nèi)容,雖然用戶B在新浪微博平臺(tái)并沒(méi)有相關(guān)的行為特征,但是在知乎平臺(tái)發(fā)布了很多“足球”相關(guān)的文章,也會(huì)被推薦給用戶A,因此,該模型具有較高的覆蓋率。
在現(xiàn)有的在線社交網(wǎng)絡(luò)用戶推薦方法中,大部分是基于單平臺(tái)的用戶推薦。在單個(gè)平臺(tái)上,無(wú)法全面地理解用戶行為。此外,在單個(gè)平臺(tái)上,容易發(fā)生用戶冷啟動(dòng)現(xiàn)象。對(duì)于一個(gè)新加入的用戶,人們無(wú)法獲取其行為特征,不能有效地對(duì)其進(jìn)行好友推薦。因此,如何有效進(jìn)行用戶推薦仍是一個(gè)具有挑戰(zhàn)性的問(wèn)題。如果能融合其他平臺(tái)的數(shù)據(jù)進(jìn)行跨平臺(tái)推薦,則會(huì)大大提高用戶推薦的準(zhǔn)確性。然而,已有的一些利用跨平臺(tái)進(jìn)行用戶推薦的方法,雖可以在一定程度上解決用戶冷啟動(dòng)問(wèn)題,但是其數(shù)據(jù)采集方法和用戶推薦模型不具有可擴(kuò)展性?;诖耍疚奶岢隽艘环N新的跨平臺(tái)數(shù)據(jù)采集方法,具有較好的擴(kuò)展性。此外,本文提出的跨平臺(tái)用戶推薦方法,不僅具有很好的推薦效果,而且可以較好地移植到其他跨平臺(tái)研究。本文采用基于跨平臺(tái)的用戶推薦方法有效融合其他平臺(tái)的用戶信息,能夠更加全面地對(duì)用戶進(jìn)行興趣愛(ài)好建模,更加準(zhǔn)確地進(jìn)行用戶推薦。基于真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的基于跨平臺(tái)的用戶推薦模型可以提高用戶推薦效果。
[1] DUAN J, AI Y. LDA topic model for microblog recommendation[C]//International Conference on Asian Language Processing (IALP). 2015: 185-188.
[2] 陳克寒, 韓盼盼, 吳健. 基于用戶聚類的異構(gòu)社交網(wǎng)絡(luò)推薦算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2013, 36(2): 349-359.
CHEN K H, HAN P P, WU J. User clustering based social network recommendation[J]. Journal of Computer, 2013, 36(2): 349-359.
[3] 尚燕敏, 張鵬, 曹亞男. 融合鏈接拓?fù)浣Y(jié)構(gòu)和用戶興趣的朋友推薦方法[J]. 通信學(xué)報(bào), 2015, 36 (2): 117-125.
SHANG Y M, ZHANG P, CAO Y N. New interest-sensitive and network-sensitive method for user recommendation[J]. Journal on Communications, 2015 , 36 (2) :117-125.
[4] ZHONG E, FAN W, WANG J, et al. ComSoc: adaptive transfer of user behaviors over composite social network[C]//The 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2012: 696-704.
[5] MORICZ M, DOSBAYEV Y, BERLYANT M. PYMK: friend recommendation at myspace[C]//The 2010 ACM SIGMOD International Conference on Management of data. 2010: 999-1002.
[6] DENG Z, HE B, YU C, et al. Personalized friend recommendation in social network based on clustering method[M]//Computational Intelligence and Intelligent Systems. Springer Berlin Heidelberg, 2012: 84-91.
[7] LIBEN-NOWELL D, KLEINBERG J. The link-prediction problem for social networks[J]. Journal of the American Society for Information Science and Technology, 2007, 58(7): 1019-1031.
[8] DAS A S, DATAR M, GARG A, et al. Google news personalization: scalable online collaborative filtering[C]//The 16th international conference on World Wide Web. 2007: 271-280.
[9] KIM Y, SHIM K. TWILITE: a recommendation system for Twitter using a probabilistic model based on latent Dirichlet allocation[J]. Information Systems, 2013, 42(3): 59-77.
[10] ABEL F, ARAUJO S, GAO Q, et al. Analyzing cross-system user modeling on the social Web[C]//International Conference on Web Engineering. 2011: 28-43.
[11] DENG Z, YAN M, SANG J, et al. Twitter is faster: personalized time-aware video recommendation from Twitter to YouTube[J]. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2013, 11(2): 1-23.
[12] DENG Z, SANG J, XU C. Personalized video recommendation based on cross-platform user modeling[C]//IEEE International Conference on Multimedia and Expo (ICME). 2013.
[13] ROY S D, MEI T, ZENG W, et al. Social transfer: cross-domain transfer learning from social streams for media applications[C]//The 20th ACM International Conference on Multimedia. 2012: 649-658.
[14] PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.
[15] ZHOU X, LIANG X, ZHANG H, et al. Cross-platform identification of anonymous identical users in multiple social media networks[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(2): 411-424.
[16] KONG X, ZHANG J, YU P S. Inferring anchor links across multiple heterogeneous social networks[C]//The 22nd ACM international conference on Information & Knowledge Management. 2013: 179-188.
[17] GAGA O, LEI H, PARTHASARATHI S H K, et al. Exploiting innocuous activity for correlating users across sites[C]//The 22nd International Conference on World Wide Web. 2013: 447-458.
[18] NARAYANAN A, SHMATIKOV V. De-anonymizing social networks[C]//30th IEEE Symposium on Security and Privacy. 2009: 173-187.
[19] SALEM Y, HONG J, LIU W. CSFinder: a cold-start friend finder in large-scale social networks[C]//IEEE International Conference on Big Data (Big Data). 2015: 687-696.
[20] MANDL M, FELFERNIG A. Improving the performance of unit critiquing[C]//International Conference on User Modeling, Adaptation, and Personalization. 2012: 176-187.
[21] MCCARTHY K, SALEM Y, SMYTH B. Experience-based critiquing: reusing critiquing experiences to improve conversational recommendation[C]//International Conference on Case-Based Reasoning. 2010: 480-494.
[22] SALEM Y, HONG J. History-aware critiquing-based conversational recommendation[C]//The 22nd International Conference on World Wide Web. 2013: 63-64.
[23] JONGHYUK S, SANGHO L, JONG K. Spam filtering in twitter using sender-receiver relationship[J]. Recent Advances in Intrusion Detection-international Symposium, 2011, 6961: 301-317.
[24] ADOMAVICIUS G, TUZHILIN A. Toward the next generation of recommender systems: a survey of the state-of-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(6): 734-749.
User recommendation based on cross-platform online social networks
PENG Jian1, WANG Tuntun1, CHEN Yu1, LIU Tang2, XU Wenzheng1
1. ComputerScienceSchool, Sichuan University, Chengdu 610065, China 2. College of Fundamental Education, Sichuan Normal University, Chengdu 610068, China
In the field of online social networks on user recommendation, researchers extract users’ behaviors as much as possible to model the users. However, users may have different likes and dislikes in different social networks. To tackle this problem, a cross-platform user recommendation model was proposed, users would be modeled all-sided. In this study, the Sina micro blog and the Zhihu were investigated in the proposed model, the experimental results show that the proposed model is competitive. Based on the proposed model and the experimental results, it can be known that modeling users in cross-platform online social networks can describe the user more comprehensively and leads to a better recommendation.
cross-platform, user recommendation, online social networks, data mining
TP311
A
10.11959/j.issn.1000-436x.2018044
2017-06-26;
2018-01-10
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.U1333113, No.61602330);四川省科技支撐計(jì)劃基金資助項(xiàng)目(No.2014GZ0111);四川省教育廳科研基金資助項(xiàng)目(No.18ZA0404)
The National Natural Science Foundation of China (No. U1333113, No. 61602330), Science and Technology Support Plan Foundation of Sichuan Province (No. 2014GZ0111), The Scientific Research Fund of Sichuan Provincial Education Department (No.18ZA0404)
彭艦(1970-),男,四川成都人,博士,四川大學(xué)教授,主要研究方向?yàn)榇髷?shù)據(jù)、傳感器計(jì)算、移動(dòng)計(jì)算等。
王屯屯(1992-),男,河南安陽(yáng)人,四川大學(xué)碩士生,主要研究方向?yàn)閿?shù)據(jù)挖掘、推薦系統(tǒng)、用戶行為建模等。
陳瑜(1974-),男,四川成都人,博士,四川大學(xué)講師,主要研究方向?yàn)檫M(jìn)化計(jì)算、機(jī)器學(xué)習(xí)等。
劉唐(1980-),男,四川樂(lè)山人,博士,四川師范大學(xué)副教授,主要研究方向?yàn)闊o(wú)線傳感器網(wǎng)絡(luò)、無(wú)線能量傳輸?shù)取?/p>
徐文政(1985-),男,四川成都人,博士,四川大學(xué)副研究員,主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)、物聯(lián)網(wǎng)、移動(dòng)計(jì)算。