項連城,?;w,徐常勝
1.中國科學院自動化研究所,北京 100190;2.中國科學院大學,北京 100049
跨社交媒體網(wǎng)絡(luò)大數(shù)據(jù)下的用戶建模
項連城1,2,桑基韜1,2,徐常勝1,2
1.中國科學院自動化研究所,北京 100190;2.中國科學院大學,北京 100049
社交媒體大數(shù)據(jù)中的多源性體現(xiàn)在不同社交媒體網(wǎng)絡(luò)產(chǎn)生的內(nèi)容上,從多源的角度分析跨社交媒體網(wǎng)絡(luò)可以將獨立數(shù)據(jù)的價值通過整合其他來源和模態(tài)的數(shù)據(jù)充分挖掘和釋放出來,提高大數(shù)據(jù)的利用效率??缟缃幻襟w網(wǎng)絡(luò)的用戶建模是分析和應(yīng)用多源社交媒體大數(shù)據(jù)的重要體現(xiàn)。跨社交媒體網(wǎng)絡(luò)中的多源數(shù)據(jù)共享獨立用戶空間,提出以用戶為橋梁對多源數(shù)據(jù)進行關(guān)聯(lián)挖掘,將挖掘得到的關(guān)聯(lián)模式分別應(yīng)用于跨社交媒體網(wǎng)絡(luò)的用戶人口屬性建模和興趣建模中,并應(yīng)用到社交媒體應(yīng)用的個性化服務(wù)中。
跨社交媒體網(wǎng)絡(luò);用戶建模;人口屬性;興趣屬性
計算機、手機、相機等電子產(chǎn)品的問世和廣泛普及,不但使數(shù)據(jù)有了新的載體并擴大了其內(nèi)涵,而且使人們可以更方便地產(chǎn)生數(shù)據(jù)、傳播數(shù)據(jù),極大地加快了數(shù)據(jù)的增長速度。2004年,以Facebook為代表的社交媒體網(wǎng)絡(luò)為人們提供了平臺,供人們分享日常生活工作中的所感、所想并進行交流。這些社交媒體網(wǎng)絡(luò)促使人們完成了從被動接受數(shù)據(jù)到主動產(chǎn)生并分享數(shù)據(jù)的一個重大革命,也帶來了真正的數(shù)據(jù)爆炸。據(jù)統(tǒng)計,以社交媒體行為數(shù)據(jù)為主的非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)占到了人類數(shù)據(jù)總量的75%,達到600 EB,其中平均每個人貢獻的數(shù)據(jù)超過100 GB。人們已經(jīng)進入社交媒體大數(shù)據(jù)時代,但是相比大數(shù)據(jù)的產(chǎn)生速度和獲取能力,大數(shù)據(jù)的價值提煉和挖掘能力仍然比較低,出現(xiàn)了“大數(shù)據(jù),小價值”的失衡狀況。
社交媒體表現(xiàn)出典型的大數(shù)據(jù)“4V”特征,即volume(體量巨大)、velocity(增長迅速)、variety(異構(gòu)多源)、veracity(價值密度低)。在這4個特征中,volume關(guān)注數(shù)據(jù)存取和索引的速度,velocity關(guān)注數(shù)據(jù)計算的效率,variety關(guān)注數(shù)據(jù)分析的復(fù)雜性,veracity關(guān)注數(shù)據(jù)質(zhì)量。社交媒體大數(shù)據(jù)的分析和應(yīng)用,需要重點研究variety這一維特征:即處理和利用不同來源、不同類型的用戶產(chǎn)生內(nèi)容(user-generated content)。variety有異構(gòu)和多源兩種解釋:異構(gòu)是指不同形式、不同類型的數(shù)據(jù),比如文本、圖像、語音、視頻等傳統(tǒng)多模態(tài)數(shù)據(jù)以及隨著社交媒體出現(xiàn)的圖片微博、語音圖片等新媒體數(shù)據(jù);多源是指不同來源的數(shù)據(jù),比如互聯(lián)網(wǎng)數(shù)據(jù)可能從桌面或者移動編輯采集而來,可能由官方或者個人發(fā)布上傳,并存在于新聞、博客、播客、論壇等不同的網(wǎng)站上。異構(gòu)數(shù)據(jù)的分析和應(yīng)用在“小數(shù)據(jù)”時代已經(jīng)得到了充分的關(guān)注,在多媒體傳輸、存儲、特征學習、語義理解等方面取得了顯著成果。與之相比,多源數(shù)據(jù)的分析和應(yīng)用研究卻剛剛起步。實際上,異構(gòu)性和多源性都是挖掘社交媒體大數(shù)據(jù)價值的關(guān)鍵??缟缃幻襟w網(wǎng)絡(luò)同時具有這兩種性質(zhì),不同的社交媒體網(wǎng)絡(luò)是不同的數(shù)據(jù)來源,而每個社交媒體網(wǎng)絡(luò)都擁有大量的異構(gòu)數(shù)據(jù)。分析跨社交媒體網(wǎng)絡(luò)可以將獨立數(shù)據(jù)的價值通過混合其他來源和模態(tài)的數(shù)據(jù)充分挖掘和釋放出來,更加有效地提煉大數(shù)據(jù)的價值。
近年來,跨社交媒體網(wǎng)絡(luò)分析的優(yōu)勢逐漸被發(fā)現(xiàn)和重視,各種社交媒體網(wǎng)絡(luò)之間的合作相繼展開。同種類型的社交媒體網(wǎng)絡(luò)進行橫向合作可以最大化壟斷利潤。僅2015年,國內(nèi)發(fā)生了滴滴打車和快的打車合并、58同城和趕集網(wǎng)合并、美團和大眾點評網(wǎng)合并以及去哪兒網(wǎng)和攜程網(wǎng)合并,涵蓋了電召出行、生活服務(wù)平臺、O2O、在線旅游等各個方面。而不同類型的社交媒體網(wǎng)絡(luò)進行縱向合作的目的是增強生態(tài)的上下游。如Google(谷歌)收購YouTube與國內(nèi)騰訊收購大眾點評網(wǎng)、百度收購糯米一樣,后者為前者的下游,前者向后者導(dǎo)入流量。此外,Amazon(亞馬遜)和Twitter也有合作,兩者關(guān)系類似于淘寶網(wǎng)和微博,后者為前者的上游,前者通過廣告等向后者導(dǎo)入流量。這些橫向或縱向的合作,目前仍停留在淺層,即分享不同社交媒體網(wǎng)絡(luò)的用戶集合,并沒有深入綜合利用各網(wǎng)絡(luò)中獨立、分散的數(shù)據(jù)。其實,社交媒體網(wǎng)絡(luò)中的多源異構(gòu)數(shù)據(jù)共享獨立用戶空間,以用戶為橋梁進行連接。以用戶為中心分析跨社交媒體網(wǎng)絡(luò)可以有效地連接各社交媒體網(wǎng)絡(luò)中的獨立異構(gòu)數(shù)據(jù),并予以綜合利用,充分釋放其潛在價值,從而實現(xiàn)各網(wǎng)絡(luò)的深層合作。
跨社交媒體網(wǎng)絡(luò)的用戶建模是分析和應(yīng)用社交媒體大數(shù)據(jù)的重要體現(xiàn)。社交媒體應(yīng)用的核心是信息服務(wù),在信息內(nèi)容和用戶數(shù)量都爆炸式增長的今天,通過用戶建模進行個性化信息服務(wù),是高效地對接用戶和內(nèi)容、解決信息過載的有效途徑。由于不同的社交網(wǎng)絡(luò)應(yīng)用關(guān)注不同類型的服務(wù),同一個用戶會同時參與到不同社交網(wǎng)絡(luò)中。Global Web Index 2015的統(tǒng)計發(fā)現(xiàn),在調(diào)查的50個社交媒體網(wǎng)站中,每個人平均擁有5.54個賬號,并定期活躍在2.82個網(wǎng)絡(luò)上。參與多個社交網(wǎng)絡(luò)的用戶的網(wǎng)絡(luò)足跡是其在不同社交網(wǎng)絡(luò)平臺行為數(shù)據(jù)的聚合,彼此關(guān)聯(lián)共同反映用戶的屬性和興趣。進行跨社交媒體網(wǎng)絡(luò)的用戶建模就是整合用戶分散在不同社交網(wǎng)絡(luò)的行為數(shù)據(jù),從而準確、全面地理解用戶。用戶建模包括了很多方面,包括人口屬性(如年齡、性別、婚姻狀況和職業(yè)等)、興趣屬性(如政治、技術(shù)、音樂和運動等)、社交網(wǎng)絡(luò)狀態(tài)、流動模式、消費模式及情感傾向等。其中,人口屬性記錄了基本和本質(zhì)的用戶信息,并構(gòu)成了最基礎(chǔ)的維度來建立一般的用戶模型,而興趣屬性有效直觀地反映了用戶喜好,二者都被廣泛地用在實際信息服務(wù)中?;诳缟缃幻襟w網(wǎng)絡(luò),筆者在用戶人口屬性建模和興趣屬性建模兩方面進行了探索,下面逐一進行介紹。
近些年,很多研究根據(jù)用戶的社交媒體行為對他們的人口屬性進行了推斷[1-6],其中大部分研究關(guān)注提升特征性能和模型或者利用外部信息和知識。例如,Rao等人[2]利用社會語言學特征和n元模型,根據(jù)用戶在Twitter上的行為推斷他們的人口屬性,包括性別、年齡和籍貫。Fang等人[4]挖掘不同人口屬性之間的潛在關(guān)系,提出了一個多任務(wù)學習框架在Google+上進行關(guān)聯(lián)屬性推斷。然而,據(jù)筆者所知,一個關(guān)鍵的問題被忽略且尚未解決:社交媒體行為的動態(tài)性和相對穩(wěn)定的人口屬性之間的矛盾。如圖1左側(cè)所示,用戶社交媒體行為明顯是隨著時間變化而變化的。一方面,上述的人口屬性研究通常將用戶不同時間的動態(tài)行為看作一個整體,這導(dǎo)致了用戶建模中的信息丟失,從而不能獲得動態(tài)行為和穩(wěn)定人口屬性之間的潛在關(guān)系。另一方面,用戶興趣建模的研究已經(jīng)通過將用戶行為分成不同時間段來估計隨著時間變化的興趣以解決動態(tài)問題[7]。在人口屬性推斷的背景下,考慮到人口屬性(如性別、年齡、婚姻狀況和職業(yè)等)是靜態(tài)的或者在很長一段時間里是不變的,動態(tài)興趣建模的方法不能直接進行應(yīng)用。
筆者通過尋找用戶在不同場景下的共享模式進行推斷來解決這個問題?,F(xiàn)今每個用戶都同時使用多個社交媒體網(wǎng)絡(luò),這為筆者提供了天然的測試網(wǎng)絡(luò)探索用戶共享行為模式來進行人口屬性推斷。如圖1所示,假設(shè)存在唯一的穩(wěn)定人口屬性解釋和導(dǎo)致了在各種社交媒體網(wǎng)絡(luò)中不同的動態(tài)社交媒體行為,筆者提出了一個跨社交媒體網(wǎng)絡(luò)的人口屬性推斷方法來實現(xiàn)上述假設(shè)。具體地,筆者考慮將Google+和Twitter作為本探索中的測試社交媒體網(wǎng)絡(luò)。用戶在每個網(wǎng)絡(luò)中都可以發(fā)布文本、圖片和視頻信息。具體來說,訓練模型時包含兩個步驟。首先針對每個社交媒體網(wǎng)絡(luò),根據(jù)用戶社會多媒體行為建立每個用戶的特征表示。接著,將已知人口屬性作為監(jiān)督,利用對偶投影矩陣方法挖掘同一用戶不同社交媒體網(wǎng)絡(luò)之間的共享模式,獲得人口屬性空間和行為特征空間之間的關(guān)系。測試時,給定在不同社交媒體網(wǎng)絡(luò)上的用戶行為,先提取用戶特征,然后通過得到的對偶投影矩陣進行投影,最終得到用戶的人口屬性。
圖1 對用戶Rick Bakas根據(jù)其社會媒體行為進行人口屬性推斷示意
2.1 用戶多媒體行為的特征提取
用戶行為中包含大量的文本內(nèi)容,可以反映用戶信息。這里筆者進行了詞干提取和去除停用詞,并去掉了在整個文本中出現(xiàn)詞頻小于15次的詞。為了減少特征表示的維數(shù),進一步采用了基于熵的方法對每種屬性選擇最具有識別力的詞。其基本的思路是計算每個詞的互信息熵,并選取熵值最高的10000個詞。最后采用TF-IDF方法對特征進行重新加權(quán),得到了用戶的文本特征表示。
用戶的多媒體行為除了包含文本內(nèi)容外,還有很多的圖片內(nèi)容。同時考慮圖片特征,可以更進一步地表示用戶行為。筆者采用了廣泛使用的在ImageNet(圖像識別最大數(shù)據(jù)庫)上訓練的VGG16模型,對每一張圖片根據(jù)全連接層提取了1000維視覺特征。由于用戶通常發(fā)表超過一張的圖片,所以對圖片表示采用最大池的方法,得到了每個用戶的1000維聚合特征向量。
最后,筆者連結(jié)文本和圖片特征,獲得了每個用戶的社交行為特征表示。同時,分別對每個社交媒體網(wǎng)絡(luò)都采取同樣的特征提取,最終獲得每個網(wǎng)絡(luò)的每個用戶的社交行為特征表示。
2.2 對偶投影矩陣提取
對于每個社交媒體網(wǎng)絡(luò),假設(shè)用戶行為特征空間和人口屬性空間的關(guān)聯(lián)可以用投影矩陣W表示。因此,用戶的人口屬性表示su可以通過其社交行為特征fu直接投影進行推斷。這個假設(shè)可以用計算式表示為:fu=Wsu。筆者的工作是通過觀察訓練集用戶的社交行為特征和他們相應(yīng)的人口屬性集學習投影矩陣W,可以通過解下面的優(yōu)化問題來實現(xiàn):
其中,F(xiàn)=[f1,f2,…,fN]、S=[s1,s2,…,sN]分別是訓練集中所有N個用戶的社交行為特征和人口屬性表示。A=[a1,a2,…,aN]是用戶屬性的離散表示,通過直接擴展用戶標記屬性作為一個串聯(lián)的二值向量。在這里,將離散屬性表示A修正為連續(xù)形式S,可以更好地反映用戶不同屬性值的相對強弱。
然而,在這個模型中,觀察到的動態(tài)社交行為和相對穩(wěn)定的人口屬性之間的矛盾并沒有被考慮。為了解決這個問題,筆者的方法最基本的前提是尋找不同社交網(wǎng)絡(luò)上的大量用戶行為的共享模式。因此,進一步修正式(1)中連續(xù)屬性表示S為兩個社交網(wǎng)絡(luò)的一個共享因子,得到了下面的目標函數(shù):
其中,F(xiàn)p、Fq分別是兩個社交網(wǎng)絡(luò)上所有N個用戶的社交行為特征,Wp、Wq分別是兩個社交網(wǎng)絡(luò)的對偶投影矩陣,λ1、λ2和λ3是3個正則化參數(shù)。這樣求出的屬性表示S利用了不同的社交網(wǎng)絡(luò),可以反映一些穩(wěn)定行為模式。
考慮到目標函數(shù)中有很多變量,筆者采用一個等價的算法來尋找Wp、Wq和S的最優(yōu)解,主要思想是固定其他變量最小化目標函數(shù)求一個變量,不斷迭代更新直到收斂或最大迭代次數(shù),最終獲得筆者所要求解的對偶投影矩陣。
2.3 用戶人口屬性推斷
根據(jù)求出的對偶投影矩陣Wp和Wq,給定一個新用戶,已知他的社交行為特征fp和fq,可以估計他唯一的人口屬性,過程如下:
除此之外,當?shù)玫搅送队熬仃?,同樣可以通過一些用戶在單一社交網(wǎng)絡(luò)中的社交行為數(shù)據(jù)簡單地進行人口屬性的粗略推斷。該過程的優(yōu)化函數(shù)如下:
其中,f和W分別是某個社交網(wǎng)絡(luò)的用戶社交行為特征和投影矩陣。
已知每個用戶推斷得到的用戶屬性表示s,它的每一項對應(yīng)了某種屬性的某一屬性值對應(yīng)的得分,將每種屬性的屬性值對應(yīng)的得分進行排序,選擇得分最高的屬性值作為該種屬性的最終推斷結(jié)果。
將兩個流行的社交網(wǎng)絡(luò)Google+和Twitter作為測試網(wǎng)絡(luò)。通過Google+上用戶分享的其他網(wǎng)絡(luò)賬號,筆者建立了包含1478個共同用戶的集合,并下載了他們最近發(fā)表的2000條帖子(包括文本和圖片)和用戶的資料。研究其性別、年齡、婚姻狀況和職業(yè)4個人口屬性,以準確率為評價指標,比較了對偶投影矩陣提?。–PME)方法和投影矩陣(PME)方法、支持向量機(SVM)方法分別在兩個社交媒體網(wǎng)絡(luò)中的屬性推斷結(jié)果。表1為筆者所提方法在4個人口屬性推斷中與其他技術(shù)的對比結(jié)果,從表1可知,盡管在單網(wǎng)絡(luò)下的投影矩陣方法的推斷準確率不如支持向量機方法的推斷準確率,但是對偶投影矩陣提取方法利用了豐富的跨社交網(wǎng)絡(luò)用戶數(shù)據(jù),有效地提高了用戶人口屬性推斷準確率。這同時說明了對偶投影矩陣提取方法可以有效地解決用戶動態(tài)行為數(shù)據(jù)和相對穩(wěn)定的人口屬性之間的矛盾。
表2為對偶投影矩陣提取方法在4個人口屬性推斷過程中利用不同用戶數(shù)據(jù)的設(shè)置的推斷準確率。分別給定用戶單獨在Google+上的數(shù)據(jù)、單獨在Twitter上的數(shù)據(jù)和兩個網(wǎng)絡(luò)上所有的數(shù)據(jù)。即使只有一個網(wǎng)絡(luò)的數(shù)據(jù),對偶投影矩陣提取方法的推斷準確率仍要高于其他方法的推斷準確率,因為在對偶投影矩陣提取的過程中已經(jīng)得到了潛在的不同平臺之間的穩(wěn)定關(guān)聯(lián)。同時,給定更多的用戶數(shù)據(jù)可以得到更高的用戶屬性推斷準確率。因此,基于跨社交媒體網(wǎng)絡(luò)的用戶人口屬性建模可以解決動態(tài)的用戶行為和相對穩(wěn)定的人口屬性之間的矛盾,有效地提高人口屬性推斷的準確率。
表1 不同方法的人口屬性推斷準確率
表2 本方法不同設(shè)置下的屬性推斷準確率
特定的社交媒體服務(wù)一般都是在單一社交媒體網(wǎng)絡(luò)進行。例如,YouTube上的視頻推薦服務(wù)已經(jīng)成為引導(dǎo)用戶從大量的視頻中找到自己感興趣的視頻的一種重要方式[8]。但基于單一網(wǎng)絡(luò)的解決方法存在著一定的局限性:單個網(wǎng)絡(luò)上可以利用的用戶數(shù)據(jù)往往不足以全面地理解用戶興趣和有效地捕捉不斷改變的用戶喜好。因此,筆者利用了用戶分散在多個不同社交網(wǎng)絡(luò)的數(shù)據(jù),幫助預(yù)測用戶在YouTube上的興趣畫像和視頻偏好,并設(shè)計了一種統(tǒng)一的視頻推薦解決方案,提升個性化推薦服務(wù)的效果。
統(tǒng)一的視頻推薦方案致力于解決以下3個問題。
(1)新用戶問題
當一個新用戶注冊到Y(jié)ouTube網(wǎng)站并且剛開始使用相應(yīng)推薦服務(wù)時,系統(tǒng)沒有關(guān)于該用戶對視頻興趣的任何了解。一般而言,對新用戶是利用有限的注冊信息進行用戶建模[9],或是直接作為平均用戶對待,并對其推薦最熱門的相關(guān)物品[10]。
(2)冷啟動問題
冷啟動問題是指由于缺乏足夠的用戶初始數(shù)據(jù),推薦系統(tǒng)無法提供精準推薦的相關(guān)情形。筆者用輕量用戶表示那些僅有很少歷史行為記錄的用戶。目前對輕量用戶進行個性化推薦的方法包括利用用戶的內(nèi)容信息(如用戶簡介資料以及標注信息)進行基于內(nèi)容的推薦[11,12]以及利用已知的社交關(guān)系數(shù)據(jù)預(yù)測用戶偏好并啟動推薦系統(tǒng)[13]等。
(3)數(shù)據(jù)稀疏性問題
在典型的推薦系統(tǒng)中,絕大多數(shù)用戶沒有機會瀏覽或評價大部分物品,因此用戶—物品交互矩陣往往非常稀疏。這在具有較高物品—用戶比例的系統(tǒng)中尤為嚴重,如擁有超過20億視頻的YouTube網(wǎng)站。目前已經(jīng)有不少工作專門針對減輕數(shù)據(jù)稀疏性問題,如用默認值填充缺失的用戶—物品記錄[13],利用潛在因子模型將用戶和物品投影到公共的低維子空間,可以捕捉用戶—物品交互行為背后的潛在結(jié)構(gòu)[14]以及通過傳播或者迭代模型發(fā)現(xiàn)用戶間的高階關(guān)聯(lián)[15]等。
這3個問題一直是推薦系統(tǒng)領(lǐng)域最經(jīng)典的問題,受到了廣泛的關(guān)注,但同時處理上述3種問題的統(tǒng)一解決框架還沒被研究過。不同于大多數(shù)工作致力于更好地利用目標網(wǎng)絡(luò)中的數(shù)據(jù),筆者考慮利用其他輔助網(wǎng)絡(luò)上的豐富的用戶數(shù)據(jù)。筆者利用來自Twitter輔助網(wǎng)絡(luò)的更多用戶數(shù)據(jù),介紹一種簡單的解決框架同時處理所有上述提到的問題,有效地幫助3種典型的YouTube用戶。具體地說,對于新用戶,通過分析用戶在Twitter網(wǎng)絡(luò)上的推文活動,估算他們在YouTube上的興趣畫像,基于此給出一個初始化的視頻推薦列表;對輕量用戶,通過整合來自Twitter輔助網(wǎng)絡(luò)的信息和用戶在YouTube網(wǎng)絡(luò)已有的部分信息來裝載推薦引擎;對重度用戶,通過進一步降低數(shù)據(jù)稀疏性,可以提供給他們更有效的推薦。輔助信息有助于計算用戶間的關(guān)聯(lián)性。
筆者的整體解決框架如圖2所示,該框架由兩個階段構(gòu)成,即輔助社交網(wǎng)絡(luò)數(shù)據(jù)遷移與跨社交網(wǎng)絡(luò)用戶行為整合。在第一階段,輔助網(wǎng)絡(luò)和目標網(wǎng)絡(luò)用戶行為間的關(guān)聯(lián)被嵌入一個轉(zhuǎn)移矩陣中,通過該轉(zhuǎn)移矩陣,用戶Twitter上的推文活動可以被映射到Y(jié)ouTube的一個潛在用戶空間。利用學習得到的轉(zhuǎn)移矩陣,可以通過轉(zhuǎn)移用戶的推文歷史行為大致估算用戶的興趣畫像,并得到該用戶在YouTube上的視頻偏好。對于新用戶,推薦系統(tǒng)已經(jīng)可以直接利用轉(zhuǎn)移得到的興趣畫像生成推薦結(jié)果。在第二階段,以轉(zhuǎn)移得到的興趣畫像為先驗,進一步介紹一種基于正則約束的方法來整合兩種不同的用戶數(shù)據(jù)源。此外,加入一個權(quán)重矩陣,根據(jù)用戶可得到的YouTube行為數(shù)據(jù)自適應(yīng)地調(diào)節(jié)不同源的整合權(quán)重。以這種方式,得到的輕量用戶和重度用戶的興趣畫像同時考慮了Twitter上的用戶推文活動以及歷史的YouTube視頻行為交互情況。然后得到的用戶模型可以直接用來生成相應(yīng)的推薦結(jié)果。
圖2 基于跨網(wǎng)絡(luò)用戶行為的統(tǒng)一視頻推薦整體解決框架示意
3.1 輔助社交網(wǎng)絡(luò)行為遷移
筆者通過測試共同用戶在Twitter上的輔助數(shù)據(jù)如何被轉(zhuǎn)移到其對YouTube上的興趣畫像來發(fā)現(xiàn)相應(yīng)的關(guān)聯(lián)模式。筆者提出的解決方案是基于有約束的矩陣分解方法的。在推薦系統(tǒng)中,矩陣分解模型將用戶和物品投影到一個潛在的因子空間,其中用戶—視頻交互被模擬為二者的內(nèi)積。因此,用戶在YouTube上的興趣畫像就是用戶的潛在因子表示u,已經(jīng)嵌入相應(yīng)的用戶—視頻交互矩陣R中。首先,為了表示用戶在Twitter上的推文活動,視每個用戶的推文歷史為一個文檔,將標準的LDA主題模型應(yīng)用到所有Twitter用戶構(gòu)成的文檔集上。結(jié)果,每個用戶可以被表示為一個主題分布ut。對每個跨網(wǎng)絡(luò)共同用戶,假設(shè)存在一個轉(zhuǎn)移矩陣W蘊含著從該用戶的Twitter主題分布ut向其由交互矩陣中提取的YouTube用戶興趣畫像u進行映射的映射關(guān)系。因此,轉(zhuǎn)移輔助數(shù)據(jù)的任務(wù)變?yōu)槔每缇W(wǎng)絡(luò)共同用戶在Twitter和YouTube上的以觀測行為學習相應(yīng)的轉(zhuǎn)移矩陣W。筆者利用用戶Twitter主題分布ut和轉(zhuǎn)移矩陣W替代用戶興趣畫像u,構(gòu)建有約束的矩陣分解模型。其中,為了防止過擬合,僅基于已觀測到的交互數(shù)據(jù)去發(fā)現(xiàn)潛在數(shù)據(jù)結(jié)構(gòu)[14,16]。同時,筆者融合內(nèi)容信息作為正則約束[11,17],使得具有相似內(nèi)容信息的視頻在得到的潛在因子空間具有相似的表示,可以有效地減少數(shù)據(jù)稀疏性的影響。最終,通過求解該模型,可以得到相應(yīng)的轉(zhuǎn)移矩陣W和視頻的潛在因子表示V,捕捉到用戶在輔助網(wǎng)絡(luò)和目標網(wǎng)絡(luò)行為的關(guān)聯(lián)性。那么,給定任意測試用戶及其Twitter主題分布ut,就可以估算該用戶在YouTube上的興趣畫像及視頻的偏好。
在圖3中,筆者模擬了3類YouTube用戶,給出了相應(yīng)的簡單示例。通過W轉(zhuǎn)移,預(yù)測用戶在包含科技、游戲和體育等潛在視頻主題上的用戶興趣(×、√、√√分別表示“不喜歡”“喜歡”和“非常喜歡”)。進一步與V相乘,可以發(fā)現(xiàn)用戶在特定視頻上的相關(guān)偏好。因此,即使在目標網(wǎng)絡(luò)沒有任何可利用的行為記錄的情況下,仍然可以通過轉(zhuǎn)移輔助網(wǎng)絡(luò)的數(shù)據(jù)來建立一個初始化的用戶興趣畫像。這實際上解決了統(tǒng)一視頻推薦問題下的第一種情形:新用戶。
圖3 輔助社交網(wǎng)絡(luò)行為遷移的示例
3.2 跨社交網(wǎng)絡(luò)用戶行為整合
對輕量用戶和重度用戶,他們在目標網(wǎng)絡(luò)已經(jīng)有部分觀測到的行為。直接將估算得到的視頻偏好與目標網(wǎng)絡(luò)已觀測到的行為進行聚合往往不太現(xiàn)實,因為這兩個網(wǎng)絡(luò)上的行為可能存在不一致性甚至相互矛盾。因此,同時考慮已觀測到的YouTube用戶—視頻矩陣R和轉(zhuǎn)移得到的用戶興趣畫像UtW來更新輕量用戶和重度用戶的興趣畫像,作為他們的潛在用戶表示U。
筆者視Twitter轉(zhuǎn)移得到的用戶興趣畫像UtW為整合后的用戶興趣畫像U的先驗。這可以從兩方面進行解釋:對在目標網(wǎng)絡(luò)具有稀疏的觀測行為的用戶,Twitter轉(zhuǎn)移得到的用戶興趣畫像UtW可以作為整合用戶興趣畫像的一個很好的表示,即U應(yīng)該與UtW類似,這實際上對應(yīng)著冷啟動問題。求得的轉(zhuǎn)移矩陣W定義了用戶所在的一個潛在空間,這有助于計算用戶間的關(guān)聯(lián)性,并能被利用以減輕目標用戶—視頻矩陣R中的稀疏性問題。因此,需要利用輔助社交網(wǎng)絡(luò)行為遷移后得到的視頻潛在表示V和用戶興趣畫像UtW,正則化約束更新學到的視頻潛在因子V′和用戶興趣畫像U可以更好地擬合觀測到的用戶—視頻矩陣R,并且更新的視頻潛在因子V′盡可能接近已求得的視頻潛在因子V,而Twitter轉(zhuǎn)移得到的用戶興趣畫像UtW和更新后的用戶興趣畫像U之前的差也按照一定的權(quán)重進行約束,最終得到最優(yōu)的更新后的用戶興趣畫像U和視頻潛在表示V′。對每個測試的輕量用戶或者重度用戶,都可以計算其在YouTube視頻上的偏好。
在圖4中,接著圖3的示例,進一步展示了輕量用戶和重度用戶的用戶興趣畫像在整個過程中如何更新,可以看出根據(jù)YouTube上觀測到的視頻行為,轉(zhuǎn)移的用戶興趣畫像和視頻表示被進一步改進(修改的矩陣元素加粗突出)。最終得到的用戶視頻偏好既考慮了Twitter網(wǎng)絡(luò)的輔助信息,又很好地擬合了目標網(wǎng)絡(luò)已觀測到的用戶行為。因此,筆者解決了統(tǒng)一視頻推薦問題中的剩下的兩種情形:輕量用戶和重度用戶。
圖4 跨社交網(wǎng)絡(luò)用戶行為整合的示例
社交媒體中的異構(gòu)和多源問題是深度利用社交媒體大數(shù)據(jù)的關(guān)鍵。隨著人們對不同社交媒體服務(wù)的深入和跨網(wǎng)絡(luò)共同用戶發(fā)現(xiàn)技術(shù)的成熟,大量可獲得的共同用戶對應(yīng)關(guān)系可以作為跨社交媒體網(wǎng)絡(luò)分析的橋梁,有效地連接各社交媒體網(wǎng)絡(luò)中的獨立異構(gòu)數(shù)據(jù),并予以綜合利用。同時,用戶作為社交媒體服務(wù)的中心,為了更好地進行個性化信息服務(wù),迫切地需要進行用戶建模,達到全面準確地理解用戶的目的。
本文從跨社交媒體網(wǎng)絡(luò)用戶人口屬性建模和興趣屬性建模兩方面討論了對跨社交媒體網(wǎng)絡(luò)中多源異構(gòu)數(shù)據(jù)的綜合利用。因為用戶在不同社交媒體網(wǎng)絡(luò)中的行為都在一定程度上反映了其屬性,所以可以通過整合用戶在不同社交媒體網(wǎng)絡(luò)上的行為信息進行協(xié)同分析,有效地解決單網(wǎng)絡(luò)的行為稀疏性和內(nèi)容單一性等問題。未來,筆者將從以下幾個方面對跨社交媒體網(wǎng)絡(luò)工作展開進一步地研究:更進一步分析不同網(wǎng)絡(luò)之間的關(guān)聯(lián)和區(qū)別,充分挖掘數(shù)據(jù)所蘊含的信息;在用戶人口屬性建模和興趣屬性建?;A(chǔ)上,著眼于更多應(yīng)用,更好地利用大數(shù)據(jù)來服務(wù)于用戶。
[1] ZHELEVA E, GETOOR L.To join or not to join: the illusion of privacy in social networks with mixed public and private user profiles[C]//The 18th International Conference on World Wide Web, April 20-24, 2009, Madrid, Spain.New York: ACM Press, 2009: 531-540.
[2] RAO D, YAROWSKY D, SHREEVATS A, et al.Classifying latent user attributes in twitter[C]//The 2nd International Workshop on Search and Mining User-Generated Contents, October 30, 2010, Toronto, Canada.New York: ACM Press, 2010: 37-44.
[3] PENNACCHIOTTI M, POPESCU A M.Democrats, republicans and starbucks afficionados: user classification in twitter[C]//The 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 21-24, 2011, San Diego, CA, USA.New York: ACM Press, 2011: 430-438.
[4] FANG Q, SANG J, XU C, et al.Relational user attribute inference in social media[J].IEEE Transactions on Multimedia, 2015, 17(7): 1031-1044.
[5] CHEN X, WANG Y, AGICHTEIN E, et al.A comparative study of demographic attribute inference in twitter[C]//The 9th International AAAI Conference on Web and Social Media(ICWSM), May 26-29, 2015, Oxford, UK.[S.l.:s.n.], 2015: 590-593.
[6] HUANG Y, YU L, WANG X, et al.A multi-source integration framework for user occupation inference in social media systems[J].World Wide Web, 2015, 18(5): 1247-1267.
[7] SANG J, LU D, XU C.A probabilistic framework for temporal user modeling on Microblogs[C]//The 24th ACM International on Conference on Information and Knowledge Management, October 19-23, 2015, Melbourne, Australia.New York: ACM Press, 2015: 961-970.
[8] DAVIDSON J, LIEBALD B, LIU J, et al.The YouTube video recommendation system[C]//The Fourth ACM Conference on Recommender Systems, September 26-30, 2010, Barcelona, Spain.New York: ACM Press, 2010: 293-296.
[9] DEGEMMIS M, LOPS P, SEMERARO G.A content-collaborative recommender that exploits wordnet-based user profiles for neighborhood formation[J].User Modeling and User-Adapted Interaction, 2007, 17(3): 217-255.
[10] JANNACH D, ZANKER M, FELFERNIG A, et al.Recommender systems: an introduction[M].[S.l.]:Cambridge University Press, 2010.
[11] PAZZANI M J, BILLSUS D.Contentbased recommendation systems[M]//The Adaptive Web.Berlin: Springer Berlin Heidelberg, 2007: 325-341.
[12] ZHANG Z K, LIU C, ZHANG Y C, et al.Solving the cold-start problem in recommender systems with social tags[J].Europhysics Letters, 2010, 92(2): 28002-28007.
[13] DESHPANDE M, KARYPIS G.Item-based top-n recommendation algorithms[J].ACM Transactions on Information Systems (TOIS), 2004, 22(1): 143-177.
[14] KO R E N Y.Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]//The 14thACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 24-27, 2008, Las Vegas, Nevada, USA.New York: ACM Press, 2008: 426-434.
[15] HUANG Z, CHEN H, ZENG D.Applying as sociative retr ieval techniques to alleviate the sparsity problem in collaborative filtering[J].ACM Transactions on Information Systems (TOIS), 2004, 22(1): 116-142.
[16] SALAKHUTDINOV R, MNIH A.Probabilistic matrix factorization[C]// The 25th Annual Conference on Neural Information Processing Systems(NIPS), December 12-17, 2011, Granada, Spain.[S.l.:s.n.], 2011: 880-887.
[17] BALABANOVIM, SHOHAM Y.Fab: content-based, collaborative recommendation[J].Communications of the ACM, 1997, 40(3): 66-72.
Cross-OSN user modeling in big data
XIANG Liancheng1,2, SANG Jitao1,2, XU Changsheng1,2
1.Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
2.University of Chinese Academy of Sciences, Beijing 100049, China
Social media variety mainly concerns with the contents created and consumed in different online social network (OSN).Analyzing cross-OSN from the perspective of “variety” is beneficial to exerting the potential of big data, by integrally analyzing and exploiting the multi-sourced and multi-modal data.The problem of exploiting the cross-OSN data for comprehensive user modeling, which is fundamental in the context of multi-sourced social media big data was addressed.Inspired by the fact that the cross-OSN data shares unique user space, take the users as a bridge for associations mining between OSN was proposed.The discovered association patterns were then utilized in cross-OSN user demographic attribute inference and interest modeling in cross-OSN respectively, which can be further applied to personalized social media services.
cross-OSN, user modeling, demographic attribute, interest attribute
TP37
A
10.11959/j.issn.2096-0271.2016052
項連城(1992-),女,中國科學院自動化研究所碩士生,主要研究方向為社交多媒體分析與挖掘。
?;w(1985-),男,博士,中國科學院自動化研究所副研究員,主要研究方向為社會媒體分析、多媒體檢索、數(shù)據(jù)挖掘。
徐常勝(1969-),男,博士,中國科學院自動化研究所研究員,中國科學院大學博士生導(dǎo)師,主要研究方向為多媒體分析/索引/檢索、模式識別、計算機視覺。
2016-08-12
國家自然科學基金資助項目(No.61432019, No.61225009, No.61303176)
Foundation Items: The National Natural Science Foundation of China(No.61432019, No.61225009, No.61303176)