王佳寧 國(guó)際關(guān)系學(xué)院
基于社交網(wǎng)絡(luò)的用戶行為分析
王佳寧 國(guó)際關(guān)系學(xué)院
在線社交網(wǎng)絡(luò)的興起引出了一個(gè)有趣的問(wèn)題:如何較好的鑒別不同的與用戶行為。一般來(lái)說(shuō),用戶行為的鑒別基于用戶的個(gè)人特征,但是這種方法不適用于在線社交網(wǎng)絡(luò)用戶。在這種情況下,用戶通過(guò)網(wǎng)站上傳或是瀏覽內(nèi)容,選擇交友,訂閱喜歡的咨詢或是其他一些交流活動(dòng)。不同的交流模式可以代表了不用的用戶群體。本文將提出一種分析鑒別在線社交網(wǎng)絡(luò)用戶行為的方法。分析鑒別不同的用戶行為具有巨大的商業(yè)價(jià)值,例如,可以用于改善在線廣告推薦系統(tǒng),從而獲得更大的收益。
在線社交網(wǎng)絡(luò) 群體 用戶行為
目前對(duì)于互聯(lián)網(wǎng)來(lái)說(shuō),一件至關(guān)重要的事就是鼓勵(lì)用戶之間的交流。像微信、微博,他們?cè)试S用戶創(chuàng)建他們自己的日志,包括圖片、文字或是視頻。用戶通常喜歡從其他人那里搜索、交換信息或是瀏覽內(nèi)容。鑒于人類的本性,用戶不愿意展現(xiàn)單一的行為。
對(duì)在線社交網(wǎng)絡(luò)用戶行為的理解有助于服務(wù)提供者合理分配資源。為了建立一個(gè)模型來(lái)描述用戶行為的種類,研究者必須了解如何區(qū)分和鑒別不同期望的用戶。為了實(shí)現(xiàn)這個(gè)目標(biāo),我們?cè)O(shè)計(jì)了網(wǎng)頁(yè)抓取工具來(lái)收集youtube的數(shù)據(jù),收集了標(biāo)題網(wǎng)絡(luò)、用戶關(guān)注、分享給他人的鏈接等。這些數(shù)據(jù)將用于構(gòu)建每個(gè)用戶的特征向量。
YouTube成立于2005年,是最大的視頻網(wǎng)站。同樣可以作為在線社交網(wǎng)站,通過(guò)用戶行為對(duì)用戶進(jìn)行分組。例如,將用戶作為節(jié)點(diǎn),如果一個(gè)用戶加了另一個(gè)用戶為好友、兩個(gè)用戶同時(shí)評(píng)論了一個(gè)視頻或是一個(gè)用戶評(píng)論了另一個(gè)用戶的視頻,我們都認(rèn)為他們之間就有直接聯(lián)系。這個(gè)設(shè)想就構(gòu)成了一個(gè)網(wǎng)絡(luò),稱作訂閱網(wǎng)絡(luò)?;趶V度優(yōu)先搜索這個(gè)網(wǎng)絡(luò),以一組用戶作為開(kāi)始,不斷添加她的訂閱以及該訂閱的最后一個(gè)用戶。
我們通過(guò)標(biāo)準(zhǔn)化向量的值計(jì)算距離,基于用戶行為可以對(duì)來(lái)對(duì)用戶進(jìn)行分組。將用戶表示為特征向量。我們將用戶特征向量定義為一維的長(zhǎng)度為9的矢量,定義如下:useri=[f1,f2,f3,f4,f5,f6,f7,f8,f9].其中前五個(gè)位置代表每個(gè)用戶的屬性,后四個(gè)位置代表與用戶交往的相關(guān)用戶的屬性。這九個(gè)位置的具體意義如下:
f1:代表用戶上傳視頻(或其他)的數(shù)量,這個(gè)數(shù)量能夠表示一個(gè)用戶作為生產(chǎn)者的潛力;
f2:代表不同視頻被用戶瀏覽的次數(shù),這個(gè)數(shù)量能夠表明一個(gè)用戶作為內(nèi)容消費(fèi)者的潛力;
f3:不同頻道被瀏覽次數(shù),這個(gè)數(shù)量能夠表示用戶在搜索時(shí)最有可能瀏覽的頻道;
f4:用戶在Youtube建立賬號(hào)的時(shí)間;
f5:用戶從創(chuàng)建賬號(hào)到最近一次登錄,在Youtube上花費(fèi)的時(shí)間;
f6:聚類系數(shù),用來(lái)衡量用戶與他的“鄰居”之間的聯(lián)系。
f7:相互關(guān)注的概率。
f8:代表用戶作為消費(fèi)者的潛力;
f9:代表用戶作為生產(chǎn)者的潛力。
這九個(gè)特征代表了不同的單元和維度??紤]到聚類算法所使用的的距離是基于每一個(gè)特征的值,必須將數(shù)據(jù)標(biāo)準(zhǔn)化以確保距離是以同樣權(quán)重的特征計(jì)算的,否則最大規(guī)模的特征就會(huì)掩蓋其他的。通過(guò)特征向量最大話來(lái)規(guī)范化數(shù)據(jù),每個(gè)特征的范圍從0到1。
為了對(duì)有相似行為的用戶進(jìn)行聚合,使用K-means算法作為聚類算法,歐幾里得距離作為距離測(cè)量方法。簡(jiǎn)言之,K-means就是選擇k個(gè)對(duì)象作為初始聚類中心,計(jì)算剩下的每個(gè)對(duì)象與這些中心對(duì)象的距離,重復(fù)計(jì)算的步驟直到滿足一定條件,如函數(shù)收斂時(shí),則算法終止。
那么K值是如何確定的?本文認(rèn)為應(yīng)該通過(guò)變異系數(shù)來(lái)解決這一問(wèn)題,最小化顆粒間CV和最大化簇間CV。這兩個(gè)CV值得比率我們記作βcv,當(dāng)βcv趨于穩(wěn)定時(shí),K取得了最好的值。為了取得最好的K值,我們要采取以下算法:
取兩個(gè)中心記作C1和C2,以d(C1,C2)=abs(∑Fi=1(C1[i]-C2[i])/F)來(lái)標(biāo)記他們的距離,其中abs(x)是未知量X的絕對(duì)值,F(xiàn)是特征向量的長(zhǎng)度或者特征向量的值。對(duì)K賦予初值2,執(zhí)行,然后不斷增加1.計(jì)算Ck,直到k,x|d(Ck,Cx)<T。
當(dāng)前形勢(shì)下,不同的用戶出于不同的目標(biāo),會(huì)聯(lián)合不同的用戶群體發(fā)生行為,如果能夠準(zhǔn)確的識(shí)別主導(dǎo)用戶行為的因素,就能夠更準(zhǔn)確的為用戶提供服務(wù)。本文將提出一種分析鑒別在線社交網(wǎng)絡(luò)用戶行為的方法。分析鑒別不同的用戶行為具有巨大的商業(yè)價(jià)值,例如,可以用于改善在線廣告推薦系統(tǒng),從而獲得更大的收益。
[1]楊善林,王佳佳,代寶,李旭軍,姜元春,劉業(yè)政.在線社交網(wǎng)絡(luò)用戶行為研究現(xiàn)狀與展望[J].中國(guó)科學(xué)院院刊
[2]吳信東,李毅,李磊.在線社交網(wǎng)絡(luò)影響力分析[J].計(jì)算機(jī)學(xué)報(bào)
[3]陳克寒,韓盼盼,吳健.基于用戶聚類的異構(gòu)社交網(wǎng)絡(luò)推薦算法[J].計(jì)算機(jī)學(xué)報(bào)
[4]王千,王成,馮振元,葉金鳳.K-means聚類算法研究綜述[J].電子設(shè)計(jì)工程