項(xiàng)連城,?;w,徐常勝
1.中國科學(xué)院自動(dòng)化研究所,北京 100190;2.中國科學(xué)院大學(xué),北京 100049
跨社交媒體網(wǎng)絡(luò)大數(shù)據(jù)下的用戶建模
項(xiàng)連城1,2,桑基韜1,2,徐常勝1,2
1.中國科學(xué)院自動(dòng)化研究所,北京 100190;2.中國科學(xué)院大學(xué),北京 100049
社交媒體大數(shù)據(jù)中的多源性體現(xiàn)在不同社交媒體網(wǎng)絡(luò)產(chǎn)生的內(nèi)容上,從多源的角度分析跨社交媒體網(wǎng)絡(luò)可以將獨(dú)立數(shù)據(jù)的價(jià)值通過整合其他來源和模態(tài)的數(shù)據(jù)充分挖掘和釋放出來,提高大數(shù)據(jù)的利用效率??缟缃幻襟w網(wǎng)絡(luò)的用戶建模是分析和應(yīng)用多源社交媒體大數(shù)據(jù)的重要體現(xiàn)。跨社交媒體網(wǎng)絡(luò)中的多源數(shù)據(jù)共享獨(dú)立用戶空間,提出以用戶為橋梁對(duì)多源數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘,將挖掘得到的關(guān)聯(lián)模式分別應(yīng)用于跨社交媒體網(wǎng)絡(luò)的用戶人口屬性建模和興趣建模中,并應(yīng)用到社交媒體應(yīng)用的個(gè)性化服務(wù)中。
跨社交媒體網(wǎng)絡(luò);用戶建模;人口屬性;興趣屬性
計(jì)算機(jī)、手機(jī)、相機(jī)等電子產(chǎn)品的問世和廣泛普及,不但使數(shù)據(jù)有了新的載體并擴(kuò)大了其內(nèi)涵,而且使人們可以更方便地產(chǎn)生數(shù)據(jù)、傳播數(shù)據(jù),極大地加快了數(shù)據(jù)的增長速度。2004年,以Facebook為代表的社交媒體網(wǎng)絡(luò)為人們提供了平臺(tái),供人們分享日常生活工作中的所感、所想并進(jìn)行交流。這些社交媒體網(wǎng)絡(luò)促使人們完成了從被動(dòng)接受數(shù)據(jù)到主動(dòng)產(chǎn)生并分享數(shù)據(jù)的一個(gè)重大革命,也帶來了真正的數(shù)據(jù)爆炸。據(jù)統(tǒng)計(jì),以社交媒體行為數(shù)據(jù)為主的非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)占到了人類數(shù)據(jù)總量的75%,達(dá)到600 EB,其中平均每個(gè)人貢獻(xiàn)的數(shù)據(jù)超過100 GB。人們已經(jīng)進(jìn)入社交媒體大數(shù)據(jù)時(shí)代,但是相比大數(shù)據(jù)的產(chǎn)生速度和獲取能力,大數(shù)據(jù)的價(jià)值提煉和挖掘能力仍然比較低,出現(xiàn)了“大數(shù)據(jù),小價(jià)值”的失衡狀況。
社交媒體表現(xiàn)出典型的大數(shù)據(jù)“4V”特征,即volume(體量巨大)、velocity(增長迅速)、variety(異構(gòu)多源)、veracity(價(jià)值密度低)。在這4個(gè)特征中,volume關(guān)注數(shù)據(jù)存取和索引的速度,velocity關(guān)注數(shù)據(jù)計(jì)算的效率,variety關(guān)注數(shù)據(jù)分析的復(fù)雜性,veracity關(guān)注數(shù)據(jù)質(zhì)量。社交媒體大數(shù)據(jù)的分析和應(yīng)用,需要重點(diǎn)研究variety這一維特征:即處理和利用不同來源、不同類型的用戶產(chǎn)生內(nèi)容(user-generated content)。variety有異構(gòu)和多源兩種解釋:異構(gòu)是指不同形式、不同類型的數(shù)據(jù),比如文本、圖像、語音、視頻等傳統(tǒng)多模態(tài)數(shù)據(jù)以及隨著社交媒體出現(xiàn)的圖片微博、語音圖片等新媒體數(shù)據(jù);多源是指不同來源的數(shù)據(jù),比如互聯(lián)網(wǎng)數(shù)據(jù)可能從桌面或者移動(dòng)編輯采集而來,可能由官方或者個(gè)人發(fā)布上傳,并存在于新聞、博客、播客、論壇等不同的網(wǎng)站上。異構(gòu)數(shù)據(jù)的分析和應(yīng)用在“小數(shù)據(jù)”時(shí)代已經(jīng)得到了充分的關(guān)注,在多媒體傳輸、存儲(chǔ)、特征學(xué)習(xí)、語義理解等方面取得了顯著成果。與之相比,多源數(shù)據(jù)的分析和應(yīng)用研究卻剛剛起步。實(shí)際上,異構(gòu)性和多源性都是挖掘社交媒體大數(shù)據(jù)價(jià)值的關(guān)鍵。跨社交媒體網(wǎng)絡(luò)同時(shí)具有這兩種性質(zhì),不同的社交媒體網(wǎng)絡(luò)是不同的數(shù)據(jù)來源,而每個(gè)社交媒體網(wǎng)絡(luò)都擁有大量的異構(gòu)數(shù)據(jù)。分析跨社交媒體網(wǎng)絡(luò)可以將獨(dú)立數(shù)據(jù)的價(jià)值通過混合其他來源和模態(tài)的數(shù)據(jù)充分挖掘和釋放出來,更加有效地提煉大數(shù)據(jù)的價(jià)值。
近年來,跨社交媒體網(wǎng)絡(luò)分析的優(yōu)勢(shì)逐漸被發(fā)現(xiàn)和重視,各種社交媒體網(wǎng)絡(luò)之間的合作相繼展開。同種類型的社交媒體網(wǎng)絡(luò)進(jìn)行橫向合作可以最大化壟斷利潤。僅2015年,國內(nèi)發(fā)生了滴滴打車和快的打車合并、58同城和趕集網(wǎng)合并、美團(tuán)和大眾點(diǎn)評(píng)網(wǎng)合并以及去哪兒網(wǎng)和攜程網(wǎng)合并,涵蓋了電召出行、生活服務(wù)平臺(tái)、O2O、在線旅游等各個(gè)方面。而不同類型的社交媒體網(wǎng)絡(luò)進(jìn)行縱向合作的目的是增強(qiáng)生態(tài)的上下游。如Google(谷歌)收購YouTube與國內(nèi)騰訊收購大眾點(diǎn)評(píng)網(wǎng)、百度收購糯米一樣,后者為前者的下游,前者向后者導(dǎo)入流量。此外,Amazon(亞馬遜)和Twitter也有合作,兩者關(guān)系類似于淘寶網(wǎng)和微博,后者為前者的上游,前者通過廣告等向后者導(dǎo)入流量。這些橫向或縱向的合作,目前仍停留在淺層,即分享不同社交媒體網(wǎng)絡(luò)的用戶集合,并沒有深入綜合利用各網(wǎng)絡(luò)中獨(dú)立、分散的數(shù)據(jù)。其實(shí),社交媒體網(wǎng)絡(luò)中的多源異構(gòu)數(shù)據(jù)共享獨(dú)立用戶空間,以用戶為橋梁進(jìn)行連接。以用戶為中心分析跨社交媒體網(wǎng)絡(luò)可以有效地連接各社交媒體網(wǎng)絡(luò)中的獨(dú)立異構(gòu)數(shù)據(jù),并予以綜合利用,充分釋放其潛在價(jià)值,從而實(shí)現(xiàn)各網(wǎng)絡(luò)的深層合作。
跨社交媒體網(wǎng)絡(luò)的用戶建模是分析和應(yīng)用社交媒體大數(shù)據(jù)的重要體現(xiàn)。社交媒體應(yīng)用的核心是信息服務(wù),在信息內(nèi)容和用戶數(shù)量都爆炸式增長的今天,通過用戶建模進(jìn)行個(gè)性化信息服務(wù),是高效地對(duì)接用戶和內(nèi)容、解決信息過載的有效途徑。由于不同的社交網(wǎng)絡(luò)應(yīng)用關(guān)注不同類型的服務(wù),同一個(gè)用戶會(huì)同時(shí)參與到不同社交網(wǎng)絡(luò)中。Global Web Index 2015的統(tǒng)計(jì)發(fā)現(xiàn),在調(diào)查的50個(gè)社交媒體網(wǎng)站中,每個(gè)人平均擁有5.54個(gè)賬號(hào),并定期活躍在2.82個(gè)網(wǎng)絡(luò)上。參與多個(gè)社交網(wǎng)絡(luò)的用戶的網(wǎng)絡(luò)足跡是其在不同社交網(wǎng)絡(luò)平臺(tái)行為數(shù)據(jù)的聚合,彼此關(guān)聯(lián)共同反映用戶的屬性和興趣。進(jìn)行跨社交媒體網(wǎng)絡(luò)的用戶建模就是整合用戶分散在不同社交網(wǎng)絡(luò)的行為數(shù)據(jù),從而準(zhǔn)確、全面地理解用戶。用戶建模包括了很多方面,包括人口屬性(如年齡、性別、婚姻狀況和職業(yè)等)、興趣屬性(如政治、技術(shù)、音樂和運(yùn)動(dòng)等)、社交網(wǎng)絡(luò)狀態(tài)、流動(dòng)模式、消費(fèi)模式及情感傾向等。其中,人口屬性記錄了基本和本質(zhì)的用戶信息,并構(gòu)成了最基礎(chǔ)的維度來建立一般的用戶模型,而興趣屬性有效直觀地反映了用戶喜好,二者都被廣泛地用在實(shí)際信息服務(wù)中?;诳缟缃幻襟w網(wǎng)絡(luò),筆者在用戶人口屬性建模和興趣屬性建模兩方面進(jìn)行了探索,下面逐一進(jìn)行介紹。
近些年,很多研究根據(jù)用戶的社交媒體行為對(duì)他們的人口屬性進(jìn)行了推斷[1-6],其中大部分研究關(guān)注提升特征性能和模型或者利用外部信息和知識(shí)。例如,Rao等人[2]利用社會(huì)語言學(xué)特征和n元模型,根據(jù)用戶在Twitter上的行為推斷他們的人口屬性,包括性別、年齡和籍貫。Fang等人[4]挖掘不同人口屬性之間的潛在關(guān)系,提出了一個(gè)多任務(wù)學(xué)習(xí)框架在Google+上進(jìn)行關(guān)聯(lián)屬性推斷。然而,據(jù)筆者所知,一個(gè)關(guān)鍵的問題被忽略且尚未解決:社交媒體行為的動(dòng)態(tài)性和相對(duì)穩(wěn)定的人口屬性之間的矛盾。如圖1左側(cè)所示,用戶社交媒體行為明顯是隨著時(shí)間變化而變化的。一方面,上述的人口屬性研究通常將用戶不同時(shí)間的動(dòng)態(tài)行為看作一個(gè)整體,這導(dǎo)致了用戶建模中的信息丟失,從而不能獲得動(dòng)態(tài)行為和穩(wěn)定人口屬性之間的潛在關(guān)系。另一方面,用戶興趣建模的研究已經(jīng)通過將用戶行為分成不同時(shí)間段來估計(jì)隨著時(shí)間變化的興趣以解決動(dòng)態(tài)問題[7]。在人口屬性推斷的背景下,考慮到人口屬性(如性別、年齡、婚姻狀況和職業(yè)等)是靜態(tài)的或者在很長一段時(shí)間里是不變的,動(dòng)態(tài)興趣建模的方法不能直接進(jìn)行應(yīng)用。
筆者通過尋找用戶在不同場景下的共享模式進(jìn)行推斷來解決這個(gè)問題。現(xiàn)今每個(gè)用戶都同時(shí)使用多個(gè)社交媒體網(wǎng)絡(luò),這為筆者提供了天然的測(cè)試網(wǎng)絡(luò)探索用戶共享行為模式來進(jìn)行人口屬性推斷。如圖1所示,假設(shè)存在唯一的穩(wěn)定人口屬性解釋和導(dǎo)致了在各種社交媒體網(wǎng)絡(luò)中不同的動(dòng)態(tài)社交媒體行為,筆者提出了一個(gè)跨社交媒體網(wǎng)絡(luò)的人口屬性推斷方法來實(shí)現(xiàn)上述假設(shè)。具體地,筆者考慮將Google+和Twitter作為本探索中的測(cè)試社交媒體網(wǎng)絡(luò)。用戶在每個(gè)網(wǎng)絡(luò)中都可以發(fā)布文本、圖片和視頻信息。具體來說,訓(xùn)練模型時(shí)包含兩個(gè)步驟。首先針對(duì)每個(gè)社交媒體網(wǎng)絡(luò),根據(jù)用戶社會(huì)多媒體行為建立每個(gè)用戶的特征表示。接著,將已知人口屬性作為監(jiān)督,利用對(duì)偶投影矩陣方法挖掘同一用戶不同社交媒體網(wǎng)絡(luò)之間的共享模式,獲得人口屬性空間和行為特征空間之間的關(guān)系。測(cè)試時(shí),給定在不同社交媒體網(wǎng)絡(luò)上的用戶行為,先提取用戶特征,然后通過得到的對(duì)偶投影矩陣進(jìn)行投影,最終得到用戶的人口屬性。
圖1 對(duì)用戶Rick Bakas根據(jù)其社會(huì)媒體行為進(jìn)行人口屬性推斷示意
2.1 用戶多媒體行為的特征提取
用戶行為中包含大量的文本內(nèi)容,可以反映用戶信息。這里筆者進(jìn)行了詞干提取和去除停用詞,并去掉了在整個(gè)文本中出現(xiàn)詞頻小于15次的詞。為了減少特征表示的維數(shù),進(jìn)一步采用了基于熵的方法對(duì)每種屬性選擇最具有識(shí)別力的詞。其基本的思路是計(jì)算每個(gè)詞的互信息熵,并選取熵值最高的10000個(gè)詞。最后采用TF-IDF方法對(duì)特征進(jìn)行重新加權(quán),得到了用戶的文本特征表示。
用戶的多媒體行為除了包含文本內(nèi)容外,還有很多的圖片內(nèi)容。同時(shí)考慮圖片特征,可以更進(jìn)一步地表示用戶行為。筆者采用了廣泛使用的在ImageNet(圖像識(shí)別最大數(shù)據(jù)庫)上訓(xùn)練的VGG16模型,對(duì)每一張圖片根據(jù)全連接層提取了1000維視覺特征。由于用戶通常發(fā)表超過一張的圖片,所以對(duì)圖片表示采用最大池的方法,得到了每個(gè)用戶的1000維聚合特征向量。
最后,筆者連結(jié)文本和圖片特征,獲得了每個(gè)用戶的社交行為特征表示。同時(shí),分別對(duì)每個(gè)社交媒體網(wǎng)絡(luò)都采取同樣的特征提取,最終獲得每個(gè)網(wǎng)絡(luò)的每個(gè)用戶的社交行為特征表示。
2.2 對(duì)偶投影矩陣提取
對(duì)于每個(gè)社交媒體網(wǎng)絡(luò),假設(shè)用戶行為特征空間和人口屬性空間的關(guān)聯(lián)可以用投影矩陣W表示。因此,用戶的人口屬性表示su可以通過其社交行為特征fu直接投影進(jìn)行推斷。這個(gè)假設(shè)可以用計(jì)算式表示為:fu=Wsu。筆者的工作是通過觀察訓(xùn)練集用戶的社交行為特征和他們相應(yīng)的人口屬性集學(xué)習(xí)投影矩陣W,可以通過解下面的優(yōu)化問題來實(shí)現(xiàn):
其中,F(xiàn)=[f1,f2,…,fN]、S=[s1,s2,…,sN]分別是訓(xùn)練集中所有N個(gè)用戶的社交行為特征和人口屬性表示。A=[a1,a2,…,aN]是用戶屬性的離散表示,通過直接擴(kuò)展用戶標(biāo)記屬性作為一個(gè)串聯(lián)的二值向量。在這里,將離散屬性表示A修正為連續(xù)形式S,可以更好地反映用戶不同屬性值的相對(duì)強(qiáng)弱。
然而,在這個(gè)模型中,觀察到的動(dòng)態(tài)社交行為和相對(duì)穩(wěn)定的人口屬性之間的矛盾并沒有被考慮。為了解決這個(gè)問題,筆者的方法最基本的前提是尋找不同社交網(wǎng)絡(luò)上的大量用戶行為的共享模式。因此,進(jìn)一步修正式(1)中連續(xù)屬性表示S為兩個(gè)社交網(wǎng)絡(luò)的一個(gè)共享因子,得到了下面的目標(biāo)函數(shù):
其中,F(xiàn)p、Fq分別是兩個(gè)社交網(wǎng)絡(luò)上所有N個(gè)用戶的社交行為特征,Wp、Wq分別是兩個(gè)社交網(wǎng)絡(luò)的對(duì)偶投影矩陣,λ1、λ2和λ3是3個(gè)正則化參數(shù)。這樣求出的屬性表示S利用了不同的社交網(wǎng)絡(luò),可以反映一些穩(wěn)定行為模式。
考慮到目標(biāo)函數(shù)中有很多變量,筆者采用一個(gè)等價(jià)的算法來尋找Wp、Wq和S的最優(yōu)解,主要思想是固定其他變量最小化目標(biāo)函數(shù)求一個(gè)變量,不斷迭代更新直到收斂或最大迭代次數(shù),最終獲得筆者所要求解的對(duì)偶投影矩陣。
2.3 用戶人口屬性推斷
根據(jù)求出的對(duì)偶投影矩陣Wp和Wq,給定一個(gè)新用戶,已知他的社交行為特征fp和fq,可以估計(jì)他唯一的人口屬性,過程如下:
除此之外,當(dāng)?shù)玫搅送队熬仃?,同樣可以通過一些用戶在單一社交網(wǎng)絡(luò)中的社交行為數(shù)據(jù)簡單地進(jìn)行人口屬性的粗略推斷。該過程的優(yōu)化函數(shù)如下:
其中,f和W分別是某個(gè)社交網(wǎng)絡(luò)的用戶社交行為特征和投影矩陣。
已知每個(gè)用戶推斷得到的用戶屬性表示s,它的每一項(xiàng)對(duì)應(yīng)了某種屬性的某一屬性值對(duì)應(yīng)的得分,將每種屬性的屬性值對(duì)應(yīng)的得分進(jìn)行排序,選擇得分最高的屬性值作為該種屬性的最終推斷結(jié)果。
將兩個(gè)流行的社交網(wǎng)絡(luò)Google+和Twitter作為測(cè)試網(wǎng)絡(luò)。通過Google+上用戶分享的其他網(wǎng)絡(luò)賬號(hào),筆者建立了包含1478個(gè)共同用戶的集合,并下載了他們最近發(fā)表的2000條帖子(包括文本和圖片)和用戶的資料。研究其性別、年齡、婚姻狀況和職業(yè)4個(gè)人口屬性,以準(zhǔn)確率為評(píng)價(jià)指標(biāo),比較了對(duì)偶投影矩陣提?。–PME)方法和投影矩陣(PME)方法、支持向量機(jī)(SVM)方法分別在兩個(gè)社交媒體網(wǎng)絡(luò)中的屬性推斷結(jié)果。表1為筆者所提方法在4個(gè)人口屬性推斷中與其他技術(shù)的對(duì)比結(jié)果,從表1可知,盡管在單網(wǎng)絡(luò)下的投影矩陣方法的推斷準(zhǔn)確率不如支持向量機(jī)方法的推斷準(zhǔn)確率,但是對(duì)偶投影矩陣提取方法利用了豐富的跨社交網(wǎng)絡(luò)用戶數(shù)據(jù),有效地提高了用戶人口屬性推斷準(zhǔn)確率。這同時(shí)說明了對(duì)偶投影矩陣提取方法可以有效地解決用戶動(dòng)態(tài)行為數(shù)據(jù)和相對(duì)穩(wěn)定的人口屬性之間的矛盾。
表2為對(duì)偶投影矩陣提取方法在4個(gè)人口屬性推斷過程中利用不同用戶數(shù)據(jù)的設(shè)置的推斷準(zhǔn)確率。分別給定用戶單獨(dú)在Google+上的數(shù)據(jù)、單獨(dú)在Twitter上的數(shù)據(jù)和兩個(gè)網(wǎng)絡(luò)上所有的數(shù)據(jù)。即使只有一個(gè)網(wǎng)絡(luò)的數(shù)據(jù),對(duì)偶投影矩陣提取方法的推斷準(zhǔn)確率仍要高于其他方法的推斷準(zhǔn)確率,因?yàn)樵趯?duì)偶投影矩陣提取的過程中已經(jīng)得到了潛在的不同平臺(tái)之間的穩(wěn)定關(guān)聯(lián)。同時(shí),給定更多的用戶數(shù)據(jù)可以得到更高的用戶屬性推斷準(zhǔn)確率。因此,基于跨社交媒體網(wǎng)絡(luò)的用戶人口屬性建模可以解決動(dòng)態(tài)的用戶行為和相對(duì)穩(wěn)定的人口屬性之間的矛盾,有效地提高人口屬性推斷的準(zhǔn)確率。
表1 不同方法的人口屬性推斷準(zhǔn)確率
表2 本方法不同設(shè)置下的屬性推斷準(zhǔn)確率
特定的社交媒體服務(wù)一般都是在單一社交媒體網(wǎng)絡(luò)進(jìn)行。例如,YouTube上的視頻推薦服務(wù)已經(jīng)成為引導(dǎo)用戶從大量的視頻中找到自己感興趣的視頻的一種重要方式[8]。但基于單一網(wǎng)絡(luò)的解決方法存在著一定的局限性:單個(gè)網(wǎng)絡(luò)上可以利用的用戶數(shù)據(jù)往往不足以全面地理解用戶興趣和有效地捕捉不斷改變的用戶喜好。因此,筆者利用了用戶分散在多個(gè)不同社交網(wǎng)絡(luò)的數(shù)據(jù),幫助預(yù)測(cè)用戶在YouTube上的興趣畫像和視頻偏好,并設(shè)計(jì)了一種統(tǒng)一的視頻推薦解決方案,提升個(gè)性化推薦服務(wù)的效果。
統(tǒng)一的視頻推薦方案致力于解決以下3個(gè)問題。
(1)新用戶問題
當(dāng)一個(gè)新用戶注冊(cè)到Y(jié)ouTube網(wǎng)站并且剛開始使用相應(yīng)推薦服務(wù)時(shí),系統(tǒng)沒有關(guān)于該用戶對(duì)視頻興趣的任何了解。一般而言,對(duì)新用戶是利用有限的注冊(cè)信息進(jìn)行用戶建模[9],或是直接作為平均用戶對(duì)待,并對(duì)其推薦最熱門的相關(guān)物品[10]。
(2)冷啟動(dòng)問題
冷啟動(dòng)問題是指由于缺乏足夠的用戶初始數(shù)據(jù),推薦系統(tǒng)無法提供精準(zhǔn)推薦的相關(guān)情形。筆者用輕量用戶表示那些僅有很少歷史行為記錄的用戶。目前對(duì)輕量用戶進(jìn)行個(gè)性化推薦的方法包括利用用戶的內(nèi)容信息(如用戶簡介資料以及標(biāo)注信息)進(jìn)行基于內(nèi)容的推薦[11,12]以及利用已知的社交關(guān)系數(shù)據(jù)預(yù)測(cè)用戶偏好并啟動(dòng)推薦系統(tǒng)[13]等。
(3)數(shù)據(jù)稀疏性問題
在典型的推薦系統(tǒng)中,絕大多數(shù)用戶沒有機(jī)會(huì)瀏覽或評(píng)價(jià)大部分物品,因此用戶—物品交互矩陣往往非常稀疏。這在具有較高物品—用戶比例的系統(tǒng)中尤為嚴(yán)重,如擁有超過20億視頻的YouTube網(wǎng)站。目前已經(jīng)有不少工作專門針對(duì)減輕數(shù)據(jù)稀疏性問題,如用默認(rèn)值填充缺失的用戶—物品記錄[13],利用潛在因子模型將用戶和物品投影到公共的低維子空間,可以捕捉用戶—物品交互行為背后的潛在結(jié)構(gòu)[14]以及通過傳播或者迭代模型發(fā)現(xiàn)用戶間的高階關(guān)聯(lián)[15]等。
這3個(gè)問題一直是推薦系統(tǒng)領(lǐng)域最經(jīng)典的問題,受到了廣泛的關(guān)注,但同時(shí)處理上述3種問題的統(tǒng)一解決框架還沒被研究過。不同于大多數(shù)工作致力于更好地利用目標(biāo)網(wǎng)絡(luò)中的數(shù)據(jù),筆者考慮利用其他輔助網(wǎng)絡(luò)上的豐富的用戶數(shù)據(jù)。筆者利用來自Twitter輔助網(wǎng)絡(luò)的更多用戶數(shù)據(jù),介紹一種簡單的解決框架同時(shí)處理所有上述提到的問題,有效地幫助3種典型的YouTube用戶。具體地說,對(duì)于新用戶,通過分析用戶在Twitter網(wǎng)絡(luò)上的推文活動(dòng),估算他們?cè)赮ouTube上的興趣畫像,基于此給出一個(gè)初始化的視頻推薦列表;對(duì)輕量用戶,通過整合來自Twitter輔助網(wǎng)絡(luò)的信息和用戶在YouTube網(wǎng)絡(luò)已有的部分信息來裝載推薦引擎;對(duì)重度用戶,通過進(jìn)一步降低數(shù)據(jù)稀疏性,可以提供給他們更有效的推薦。輔助信息有助于計(jì)算用戶間的關(guān)聯(lián)性。
筆者的整體解決框架如圖2所示,該框架由兩個(gè)階段構(gòu)成,即輔助社交網(wǎng)絡(luò)數(shù)據(jù)遷移與跨社交網(wǎng)絡(luò)用戶行為整合。在第一階段,輔助網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)用戶行為間的關(guān)聯(lián)被嵌入一個(gè)轉(zhuǎn)移矩陣中,通過該轉(zhuǎn)移矩陣,用戶Twitter上的推文活動(dòng)可以被映射到Y(jié)ouTube的一個(gè)潛在用戶空間。利用學(xué)習(xí)得到的轉(zhuǎn)移矩陣,可以通過轉(zhuǎn)移用戶的推文歷史行為大致估算用戶的興趣畫像,并得到該用戶在YouTube上的視頻偏好。對(duì)于新用戶,推薦系統(tǒng)已經(jīng)可以直接利用轉(zhuǎn)移得到的興趣畫像生成推薦結(jié)果。在第二階段,以轉(zhuǎn)移得到的興趣畫像為先驗(yàn),進(jìn)一步介紹一種基于正則約束的方法來整合兩種不同的用戶數(shù)據(jù)源。此外,加入一個(gè)權(quán)重矩陣,根據(jù)用戶可得到的YouTube行為數(shù)據(jù)自適應(yīng)地調(diào)節(jié)不同源的整合權(quán)重。以這種方式,得到的輕量用戶和重度用戶的興趣畫像同時(shí)考慮了Twitter上的用戶推文活動(dòng)以及歷史的YouTube視頻行為交互情況。然后得到的用戶模型可以直接用來生成相應(yīng)的推薦結(jié)果。
圖2 基于跨網(wǎng)絡(luò)用戶行為的統(tǒng)一視頻推薦整體解決框架示意
3.1 輔助社交網(wǎng)絡(luò)行為遷移
筆者通過測(cè)試共同用戶在Twitter上的輔助數(shù)據(jù)如何被轉(zhuǎn)移到其對(duì)YouTube上的興趣畫像來發(fā)現(xiàn)相應(yīng)的關(guān)聯(lián)模式。筆者提出的解決方案是基于有約束的矩陣分解方法的。在推薦系統(tǒng)中,矩陣分解模型將用戶和物品投影到一個(gè)潛在的因子空間,其中用戶—視頻交互被模擬為二者的內(nèi)積。因此,用戶在YouTube上的興趣畫像就是用戶的潛在因子表示u,已經(jīng)嵌入相應(yīng)的用戶—視頻交互矩陣R中。首先,為了表示用戶在Twitter上的推文活動(dòng),視每個(gè)用戶的推文歷史為一個(gè)文檔,將標(biāo)準(zhǔn)的LDA主題模型應(yīng)用到所有Twitter用戶構(gòu)成的文檔集上。結(jié)果,每個(gè)用戶可以被表示為一個(gè)主題分布ut。對(duì)每個(gè)跨網(wǎng)絡(luò)共同用戶,假設(shè)存在一個(gè)轉(zhuǎn)移矩陣W蘊(yùn)含著從該用戶的Twitter主題分布ut向其由交互矩陣中提取的YouTube用戶興趣畫像u進(jìn)行映射的映射關(guān)系。因此,轉(zhuǎn)移輔助數(shù)據(jù)的任務(wù)變?yōu)槔每缇W(wǎng)絡(luò)共同用戶在Twitter和YouTube上的以觀測(cè)行為學(xué)習(xí)相應(yīng)的轉(zhuǎn)移矩陣W。筆者利用用戶Twitter主題分布ut和轉(zhuǎn)移矩陣W替代用戶興趣畫像u,構(gòu)建有約束的矩陣分解模型。其中,為了防止過擬合,僅基于已觀測(cè)到的交互數(shù)據(jù)去發(fā)現(xiàn)潛在數(shù)據(jù)結(jié)構(gòu)[14,16]。同時(shí),筆者融合內(nèi)容信息作為正則約束[11,17],使得具有相似內(nèi)容信息的視頻在得到的潛在因子空間具有相似的表示,可以有效地減少數(shù)據(jù)稀疏性的影響。最終,通過求解該模型,可以得到相應(yīng)的轉(zhuǎn)移矩陣W和視頻的潛在因子表示V,捕捉到用戶在輔助網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)行為的關(guān)聯(lián)性。那么,給定任意測(cè)試用戶及其Twitter主題分布ut,就可以估算該用戶在YouTube上的興趣畫像及視頻的偏好。
在圖3中,筆者模擬了3類YouTube用戶,給出了相應(yīng)的簡單示例。通過W轉(zhuǎn)移,預(yù)測(cè)用戶在包含科技、游戲和體育等潛在視頻主題上的用戶興趣(×、√、√√分別表示“不喜歡”“喜歡”和“非常喜歡”)。進(jìn)一步與V相乘,可以發(fā)現(xiàn)用戶在特定視頻上的相關(guān)偏好。因此,即使在目標(biāo)網(wǎng)絡(luò)沒有任何可利用的行為記錄的情況下,仍然可以通過轉(zhuǎn)移輔助網(wǎng)絡(luò)的數(shù)據(jù)來建立一個(gè)初始化的用戶興趣畫像。這實(shí)際上解決了統(tǒng)一視頻推薦問題下的第一種情形:新用戶。
圖3 輔助社交網(wǎng)絡(luò)行為遷移的示例
3.2 跨社交網(wǎng)絡(luò)用戶行為整合
對(duì)輕量用戶和重度用戶,他們?cè)谀繕?biāo)網(wǎng)絡(luò)已經(jīng)有部分觀測(cè)到的行為。直接將估算得到的視頻偏好與目標(biāo)網(wǎng)絡(luò)已觀測(cè)到的行為進(jìn)行聚合往往不太現(xiàn)實(shí),因?yàn)檫@兩個(gè)網(wǎng)絡(luò)上的行為可能存在不一致性甚至相互矛盾。因此,同時(shí)考慮已觀測(cè)到的YouTube用戶—視頻矩陣R和轉(zhuǎn)移得到的用戶興趣畫像UtW來更新輕量用戶和重度用戶的興趣畫像,作為他們的潛在用戶表示U。
筆者視Twitter轉(zhuǎn)移得到的用戶興趣畫像UtW為整合后的用戶興趣畫像U的先驗(yàn)。這可以從兩方面進(jìn)行解釋:對(duì)在目標(biāo)網(wǎng)絡(luò)具有稀疏的觀測(cè)行為的用戶,Twitter轉(zhuǎn)移得到的用戶興趣畫像UtW可以作為整合用戶興趣畫像的一個(gè)很好的表示,即U應(yīng)該與UtW類似,這實(shí)際上對(duì)應(yīng)著冷啟動(dòng)問題。求得的轉(zhuǎn)移矩陣W定義了用戶所在的一個(gè)潛在空間,這有助于計(jì)算用戶間的關(guān)聯(lián)性,并能被利用以減輕目標(biāo)用戶—視頻矩陣R中的稀疏性問題。因此,需要利用輔助社交網(wǎng)絡(luò)行為遷移后得到的視頻潛在表示V和用戶興趣畫像UtW,正則化約束更新學(xué)到的視頻潛在因子V′和用戶興趣畫像U可以更好地?cái)M合觀測(cè)到的用戶—視頻矩陣R,并且更新的視頻潛在因子V′盡可能接近已求得的視頻潛在因子V,而Twitter轉(zhuǎn)移得到的用戶興趣畫像UtW和更新后的用戶興趣畫像U之前的差也按照一定的權(quán)重進(jìn)行約束,最終得到最優(yōu)的更新后的用戶興趣畫像U和視頻潛在表示V′。對(duì)每個(gè)測(cè)試的輕量用戶或者重度用戶,都可以計(jì)算其在YouTube視頻上的偏好。
在圖4中,接著圖3的示例,進(jìn)一步展示了輕量用戶和重度用戶的用戶興趣畫像在整個(gè)過程中如何更新,可以看出根據(jù)YouTube上觀測(cè)到的視頻行為,轉(zhuǎn)移的用戶興趣畫像和視頻表示被進(jìn)一步改進(jìn)(修改的矩陣元素加粗突出)。最終得到的用戶視頻偏好既考慮了Twitter網(wǎng)絡(luò)的輔助信息,又很好地?cái)M合了目標(biāo)網(wǎng)絡(luò)已觀測(cè)到的用戶行為。因此,筆者解決了統(tǒng)一視頻推薦問題中的剩下的兩種情形:輕量用戶和重度用戶。
圖4 跨社交網(wǎng)絡(luò)用戶行為整合的示例
社交媒體中的異構(gòu)和多源問題是深度利用社交媒體大數(shù)據(jù)的關(guān)鍵。隨著人們對(duì)不同社交媒體服務(wù)的深入和跨網(wǎng)絡(luò)共同用戶發(fā)現(xiàn)技術(shù)的成熟,大量可獲得的共同用戶對(duì)應(yīng)關(guān)系可以作為跨社交媒體網(wǎng)絡(luò)分析的橋梁,有效地連接各社交媒體網(wǎng)絡(luò)中的獨(dú)立異構(gòu)數(shù)據(jù),并予以綜合利用。同時(shí),用戶作為社交媒體服務(wù)的中心,為了更好地進(jìn)行個(gè)性化信息服務(wù),迫切地需要進(jìn)行用戶建模,達(dá)到全面準(zhǔn)確地理解用戶的目的。
本文從跨社交媒體網(wǎng)絡(luò)用戶人口屬性建模和興趣屬性建模兩方面討論了對(duì)跨社交媒體網(wǎng)絡(luò)中多源異構(gòu)數(shù)據(jù)的綜合利用。因?yàn)橛脩粼诓煌缃幻襟w網(wǎng)絡(luò)中的行為都在一定程度上反映了其屬性,所以可以通過整合用戶在不同社交媒體網(wǎng)絡(luò)上的行為信息進(jìn)行協(xié)同分析,有效地解決單網(wǎng)絡(luò)的行為稀疏性和內(nèi)容單一性等問題。未來,筆者將從以下幾個(gè)方面對(duì)跨社交媒體網(wǎng)絡(luò)工作展開進(jìn)一步地研究:更進(jìn)一步分析不同網(wǎng)絡(luò)之間的關(guān)聯(lián)和區(qū)別,充分挖掘數(shù)據(jù)所蘊(yùn)含的信息;在用戶人口屬性建模和興趣屬性建?;A(chǔ)上,著眼于更多應(yīng)用,更好地利用大數(shù)據(jù)來服務(wù)于用戶。
[1] ZHELEVA E, GETOOR L.To join or not to join: the illusion of privacy in social networks with mixed public and private user profiles[C]//The 18th International Conference on World Wide Web, April 20-24, 2009, Madrid, Spain.New York: ACM Press, 2009: 531-540.
[2] RAO D, YAROWSKY D, SHREEVATS A, et al.Classifying latent user attributes in twitter[C]//The 2nd International Workshop on Search and Mining User-Generated Contents, October 30, 2010, Toronto, Canada.New York: ACM Press, 2010: 37-44.
[3] PENNACCHIOTTI M, POPESCU A M.Democrats, republicans and starbucks afficionados: user classification in twitter[C]//The 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 21-24, 2011, San Diego, CA, USA.New York: ACM Press, 2011: 430-438.
[4] FANG Q, SANG J, XU C, et al.Relational user attribute inference in social media[J].IEEE Transactions on Multimedia, 2015, 17(7): 1031-1044.
[5] CHEN X, WANG Y, AGICHTEIN E, et al.A comparative study of demographic attribute inference in twitter[C]//The 9th International AAAI Conference on Web and Social Media(ICWSM), May 26-29, 2015, Oxford, UK.[S.l.:s.n.], 2015: 590-593.
[6] HUANG Y, YU L, WANG X, et al.A multi-source integration framework for user occupation inference in social media systems[J].World Wide Web, 2015, 18(5): 1247-1267.
[7] SANG J, LU D, XU C.A probabilistic framework for temporal user modeling on Microblogs[C]//The 24th ACM International on Conference on Information and Knowledge Management, October 19-23, 2015, Melbourne, Australia.New York: ACM Press, 2015: 961-970.
[8] DAVIDSON J, LIEBALD B, LIU J, et al.The YouTube video recommendation system[C]//The Fourth ACM Conference on Recommender Systems, September 26-30, 2010, Barcelona, Spain.New York: ACM Press, 2010: 293-296.
[9] DEGEMMIS M, LOPS P, SEMERARO G.A content-collaborative recommender that exploits wordnet-based user profiles for neighborhood formation[J].User Modeling and User-Adapted Interaction, 2007, 17(3): 217-255.
[10] JANNACH D, ZANKER M, FELFERNIG A, et al.Recommender systems: an introduction[M].[S.l.]:Cambridge University Press, 2010.
[11] PAZZANI M J, BILLSUS D.Contentbased recommendation systems[M]//The Adaptive Web.Berlin: Springer Berlin Heidelberg, 2007: 325-341.
[12] ZHANG Z K, LIU C, ZHANG Y C, et al.Solving the cold-start problem in recommender systems with social tags[J].Europhysics Letters, 2010, 92(2): 28002-28007.
[13] DESHPANDE M, KARYPIS G.Item-based top-n recommendation algorithms[J].ACM Transactions on Information Systems (TOIS), 2004, 22(1): 143-177.
[14] KO R E N Y.Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]//The 14thACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 24-27, 2008, Las Vegas, Nevada, USA.New York: ACM Press, 2008: 426-434.
[15] HUANG Z, CHEN H, ZENG D.Applying as sociative retr ieval techniques to alleviate the sparsity problem in collaborative filtering[J].ACM Transactions on Information Systems (TOIS), 2004, 22(1): 116-142.
[16] SALAKHUTDINOV R, MNIH A.Probabilistic matrix factorization[C]// The 25th Annual Conference on Neural Information Processing Systems(NIPS), December 12-17, 2011, Granada, Spain.[S.l.:s.n.], 2011: 880-887.
[17] BALABANOVIM, SHOHAM Y.Fab: content-based, collaborative recommendation[J].Communications of the ACM, 1997, 40(3): 66-72.
Cross-OSN user modeling in big data
XIANG Liancheng1,2, SANG Jitao1,2, XU Changsheng1,2
1.Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
2.University of Chinese Academy of Sciences, Beijing 100049, China
Social media variety mainly concerns with the contents created and consumed in different online social network (OSN).Analyzing cross-OSN from the perspective of “variety” is beneficial to exerting the potential of big data, by integrally analyzing and exploiting the multi-sourced and multi-modal data.The problem of exploiting the cross-OSN data for comprehensive user modeling, which is fundamental in the context of multi-sourced social media big data was addressed.Inspired by the fact that the cross-OSN data shares unique user space, take the users as a bridge for associations mining between OSN was proposed.The discovered association patterns were then utilized in cross-OSN user demographic attribute inference and interest modeling in cross-OSN respectively, which can be further applied to personalized social media services.
cross-OSN, user modeling, demographic attribute, interest attribute
TP37
A
10.11959/j.issn.2096-0271.2016052
項(xiàng)連城(1992-),女,中國科學(xué)院自動(dòng)化研究所碩士生,主要研究方向?yàn)樯缃欢嗝襟w分析與挖掘。
?;w(1985-),男,博士,中國科學(xué)院自動(dòng)化研究所副研究員,主要研究方向?yàn)樯鐣?huì)媒體分析、多媒體檢索、數(shù)據(jù)挖掘。
徐常勝(1969-),男,博士,中國科學(xué)院自動(dòng)化研究所研究員,中國科學(xué)院大學(xué)博士生導(dǎo)師,主要研究方向?yàn)槎嗝襟w分析/索引/檢索、模式識(shí)別、計(jì)算機(jī)視覺。
2016-08-12
國家自然科學(xué)基金資助項(xiàng)目(No.61432019, No.61225009, No.61303176)
Foundation Items: The National Natural Science Foundation of China(No.61432019, No.61225009, No.61303176)