肖麗媛
(西北大學(xué)信息科學(xué)與技術(shù)學(xué)院,西安710217)
在互聯(lián)網(wǎng)技術(shù)快速發(fā)展的推動(dòng)下,社交網(wǎng)站的出現(xiàn)和發(fā)展為社交網(wǎng)絡(luò)用戶行為的分析提供了更加詳細(xì)的數(shù)據(jù)支持。通過對社交網(wǎng)絡(luò)進(jìn)行分析,一方面可以分析網(wǎng)絡(luò)中用戶的不同行為和特點(diǎn),另一方面可以挖掘出隱含的信息。在對用戶進(jìn)行分析的時(shí)候,要從最基本的關(guān)注、評論、主頁訪問等互動(dòng)功能方面分析,還要結(jié)合社交網(wǎng)絡(luò)圖的性質(zhì)、活躍用戶圖等進(jìn)行分析。
社交網(wǎng)絡(luò)結(jié)構(gòu)可以直觀地表示用戶社交行為的主要特征。分析點(diǎn)對應(yīng)相關(guān)的圖節(jié)點(diǎn)度分布、聚類系數(shù)、路徑長度、強(qiáng)連通分支。節(jié)點(diǎn)度對應(yīng)好友列表的數(shù)量分布,比如微博和Twitter 有向圖的出度和入度表示了粉絲和關(guān)注人的數(shù)量。聚類系數(shù)的取值在1~0,局部性質(zhì)顯示網(wǎng)絡(luò)用戶的聚集程度。而社交網(wǎng)絡(luò)中不同的社交圈和社交圈在罕見的相關(guān)節(jié)點(diǎn)的聚類系數(shù)大。路徑長度與六度分割理論想相關(guān)聯(lián),即真實(shí)世界中的任意兩人可以通過不超過六次社交關(guān)系的跳轉(zhuǎn)建立聯(lián)系[1]。
用戶行為是社交網(wǎng)絡(luò)的核心,點(diǎn)贊、評論、關(guān)注這些都是用戶在微觀上對社交網(wǎng)絡(luò)使用功能的反應(yīng)。通過分析可以深入了解分析用戶的特征,為社交網(wǎng)絡(luò)平臺(tái)的運(yùn)營提供理論支持。例如,開發(fā)流的應(yīng)用和維護(hù)升級服務(wù)等。從大學(xué)生使用的主流社交網(wǎng)絡(luò)QQ、微博、微信等平臺(tái)功能的使用上來看,發(fā)現(xiàn)最常用的社交功能有主頁查看、日志、狀態(tài)、相冊、分享等。對社交用戶單個(gè)個(gè)體的分析的局限性在于用戶的單向交互行為,不能全部地展示用戶之間的交互,所以對用戶功能活動(dòng)分析十分重要。目前,對社交網(wǎng)絡(luò)行為的分析涵蓋了用戶互相訪問的內(nèi)容、訪問的動(dòng)機(jī)和訪問內(nèi)容。分析出用戶產(chǎn)生交互行為的三大動(dòng)機(jī),即用戶之間的聯(lián)系、協(xié)同創(chuàng)造信息、分享信息。
Chi-square statisitic 即CHI 的概念來自Contingency Table Test,這種方式對于t、c 的關(guān)聯(lián)能夠給出明確的表示。在運(yùn)用這種方法的時(shí)候,要對照理論值和實(shí)驗(yàn)值,在此基礎(chǔ)上充分探究存在的差異,在識別網(wǎng)絡(luò)用戶時(shí),c 代替永不,而t 是代替yoghurt 的特征。t 與c 的關(guān)系是滿足CHI 分布的,使用數(shù)學(xué)規(guī)律計(jì)算,檢驗(yàn)最終的CHI 是否成正比。相關(guān)程度高則數(shù)值大,卡方統(tǒng)計(jì)量可以由以下的方式來表示,如X2(t、c)=(AD-BC)2(A+B)(C+D),其中A、B、C 表示不同的樣本數(shù),在這四個(gè)樣本之中,AC 表示用戶c,AB 則表示特征t,CHI 表示X2(t、c)意味著用戶c 與t 之間的關(guān)聯(lián)程度。當(dāng)X2(t、c)等于0 的時(shí)候,兩者屬于獨(dú)立的關(guān)系,當(dāng)X2(t、c)不等于0 的時(shí)候,兩者之間有關(guān)系,關(guān)聯(lián)性的程度隨著X2(t、c)增大而更強(qiáng),因此,X2(t、c)的大小決定了特征和用戶之間的關(guān)系[2]。
TF-IDE算法這種統(tǒng)計(jì)算法常見于評估工作,主要是評估一個(gè)字、文件或是重要程度。如果需要評估的字詞出現(xiàn)的次數(shù)多則顯示文章就更重要,在語料庫出現(xiàn)的頻率與出現(xiàn)的次數(shù)有很大的關(guān)系。TF-IDE算法主要包含兩個(gè)方面,term frequency 即TF,假設(shè)N 為需要查詢的關(guān)鍵詞,W1、W2 直到Wn,顯示在同一個(gè)網(wǎng)頁中的詞匯頻率是TF1、TF2直到TFn,那么最終的結(jié)果就是TF1+TF2+……TFn。但是需要注意的是term frequency 即單文本詞匯的漏洞,例如,“北郵的學(xué)生”這個(gè)詞的查詢無效,即停止詞,可以不考慮這個(gè)詞的度量相關(guān)性。另一方面是inverse document frequency 即IDF,逆文本詞匯,在信息檢索的過程中使用的權(quán)重最多就是IDF,利用IDF 來加權(quán)求和,即TF1×IDF1+TF2 ×IDF2+……TFn ×IDFn;其中TF-IDE 算法的經(jīng)典計(jì)算方式為weighTF-IDF(ti)=TF ti×IDF ti=tfi(d)×log(n+1/N),值得注意的是TFti表示ti 在文檔d 中的頻率TF,所以用tfi(d)進(jìn)行計(jì)算。
TF-IDE算法能夠很好地體現(xiàn)出相關(guān)的用戶行為特征,操作容易簡便,但是仍需要不斷更新算法,因?yàn)檫@種傳統(tǒng)的算法在特定的算法中存在缺陷??梢允褂眯畔z索的方式來對網(wǎng)絡(luò)用戶進(jìn)行分析,進(jìn)而分析網(wǎng)絡(luò)用戶的行為特征,使用特定的詞匯對網(wǎng)絡(luò)用戶進(jìn)行分類,采用TF-IDE 算法進(jìn)行加權(quán)運(yùn)算。但是這種分析方法存在一定的不足,需要不斷更新、改進(jìn)和完善,在以后的分析研究中,不斷提高數(shù)據(jù)的準(zhǔn)確性。