馬滿福,張凱旋,李 勇,王常青,張 強(qiáng)
(1.西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070;2.甘肅省物聯(lián)網(wǎng)工程研究中心,蘭州 730070;3.中國互聯(lián)網(wǎng)絡(luò)信息中心互聯(lián)網(wǎng)基礎(chǔ)技術(shù)開放實(shí)驗(yàn)室,北京 100190)
由于生物遺傳和變異,自然界中存在大量性狀相同的物種,其在進(jìn)化上或個(gè)體發(fā)育上因具有共同來源呈現(xiàn)出的相似性稱為同源性。這種同源性被廣泛應(yīng)用于醫(yī)療健康、生物制藥和遺傳研究等諸多領(lǐng)域[1-2],也為虛擬空間中在線用戶行為相似性研究提供了新思路。在虛擬空間中,不同用戶群體的行為特征通常存在不同程度的差異性[3-4]和相似性[5-6]。文獻(xiàn)[7]基于用戶主題感知和行為相似性分析動(dòng)態(tài)用戶的相關(guān)性,指出同種社區(qū)類型的用戶具有強(qiáng)相關(guān)性,不同社區(qū)類型的用戶具有弱相關(guān)性。文獻(xiàn)[8]對16 個(gè)國家微博用戶行為的差異性和相似性進(jìn)行研究,發(fā)現(xiàn)在人口少且凝聚力強(qiáng)的國家,用戶更關(guān)注微博的社會(huì)功能,而在人口較多的國家,用戶僅將微博作為新聞傳播平臺(tái)。
在證實(shí)虛擬空間中用戶行為特征具有差異性和相似性的基礎(chǔ)上,研究人員結(jié)合在線用戶的自身特征屬性給出部分應(yīng)用場景[9-11]。文獻(xiàn)[12]提出一種基于同義詞組的用戶行為匯聚方法,利用匯聚結(jié)果對用戶進(jìn)行性別預(yù)測,證明不同性別群體的興趣具有差異性,該方法能根據(jù)用戶性別進(jìn)行有效的個(gè)性化系統(tǒng)推薦。文獻(xiàn)[13]通過調(diào)查歐洲60 000 多名工人的收入、教育程度、職業(yè)類型、自治水平、時(shí)間壓力和社會(huì)互動(dòng)6 個(gè)維度的信息,提出雙變量有序概率計(jì)量經(jīng)濟(jì)模型以衡量互聯(lián)網(wǎng)對工人工作滿意度的影響,該研究對提高企業(yè)管理水平具有重要意義。
用戶點(diǎn)擊路徑反映出用戶在一段時(shí)間內(nèi)點(diǎn)擊的頁面和駐留時(shí)間[14],分析用戶的點(diǎn)擊行為是研究用戶行為相似性的有效方法[15]。目前關(guān)于用戶行為相似性缺乏統(tǒng)一量化標(biāo)準(zhǔn),對虛擬空間中在線同源用戶(根據(jù)同源理論,即點(diǎn)擊序列相似度超過30%的在線用戶)是否存在也未有驗(yàn)證。此外,關(guān)于不同特征屬性對在線同源用戶行為相似性影響程度的研究也較少。因此,本文提出一種虛擬空間中在線同源用戶識(shí)別算法。從在線用戶行為數(shù)據(jù)集中提取點(diǎn)擊流數(shù)據(jù),采用序列對齊方法處理點(diǎn)擊流數(shù)據(jù)以度量在線用戶的行為相似性。同時(shí)從數(shù)據(jù)集的人口統(tǒng)計(jì)信息中獲取在線用戶不同維度的特征屬性,研究各種特征屬性對在線同源用戶行為相似性的影響程度。
用戶的在線行為主要通過點(diǎn)擊流數(shù)據(jù)來體現(xiàn)。本文采用中國互聯(lián)網(wǎng)信息中心(China Internet Network Information Center,CNNIC)提供的在線行為日志作為數(shù)據(jù)集(以下稱為CNNIC 數(shù)據(jù)集)進(jìn)行研究,其中數(shù)據(jù)要素包含每個(gè)用戶的點(diǎn)擊路徑以及每個(gè)路徑對應(yīng)的點(diǎn)擊時(shí)刻,點(diǎn)擊時(shí)刻采用標(biāo)準(zhǔn)時(shí)間格式記錄。CNNIC 數(shù)據(jù)集中某用戶的部分點(diǎn)擊流數(shù)據(jù)如表1 所示。
表1 原始點(diǎn)擊流數(shù)據(jù)Table 1 Raw click stream data
本文主要研究在線同源用戶的識(shí)別及特征屬性對其行為的影響程度,因此用戶特征屬性提取是關(guān)鍵。利用上述數(shù)據(jù)集中的人口統(tǒng)計(jì)信息提取用戶的年齡、社會(huì)階層、教育程度、性別、戶籍和收入水平6 個(gè)維度的特征屬性,部分用戶的人口統(tǒng)計(jì)信息如表2 所示。對每個(gè)特征屬性進(jìn)一步分類,結(jié)果如表3 所示。
表2 部分用戶的人口統(tǒng)計(jì)信息Table 2 Demographic information of partial users
表3 特征屬性分類Table 3 Classification of feature attributes
本文提出基于序列對齊的在線同源用戶識(shí)別(Sequence Alignment-based Online Homologous User Recognition,SA-OHUR)算法,其主要包括以下步驟:1)處理點(diǎn)擊行為數(shù)據(jù);2)基于序列對齊思想計(jì)算在線用戶的行為相似度,并對其以相似度矩陣形式進(jìn)行量化;3)根據(jù)行為相似度矩陣對用戶進(jìn)行聚類驗(yàn)證并識(shí)別在線同源用戶。此外,采用基于特征屬性的方法計(jì)算聚類結(jié)果的熵值和純度,并由此分析在線用戶特征屬性對其行為的影響程度。
在線用戶行為由一系列點(diǎn)擊路徑及其對應(yīng)的點(diǎn)擊時(shí)刻構(gòu)成,若將每個(gè)點(diǎn)擊路徑看作用戶點(diǎn)擊序列中一個(gè)字符串,則在點(diǎn)擊流數(shù)據(jù)中點(diǎn)擊路徑和對應(yīng)路徑花費(fèi)的時(shí)間可反映用戶的點(diǎn)擊行為,其用包含時(shí)間的字符串序列表示。例如,表1 中點(diǎn)擊流數(shù)據(jù)對應(yīng)的該用戶點(diǎn)擊序列SF={(['explorer.exe'],08-01 20:29:57),(['AliIM.exe'],08-01 20:29:59),(['SohuNews.exe'],08-01 20:30:05,),(['360SE.exe'],08-01 20:30:23),(['AliIM.exe'],08-01 20:30:27),(['360SE.exe'],08-01 20:30:31),(['AliIM.exe'],08-01 20:30:59)}。用戶行為相似度計(jì)算問題可轉(zhuǎn)換為編輯距離的問題。
2.1.1 序列對齊方法
序列對齊也稱編輯距離,主要通過對齊的方法來度量兩個(gè)序列的相似性[16],其核心思想是利用一個(gè)序列轉(zhuǎn)換為另一個(gè)序列所花費(fèi)的最小代價(jià)衡量兩個(gè)序列的相似性。序列Q和序列C之間的編輯距離和相似度分別定義為:
其中,dSAM(Q,C)為序列Q和序列C之間的編輯距離,SSAM(Q,C)為序列Q和序列C之間的相似度,D、I和R分別為轉(zhuǎn)換過程中刪除、插入和重排的次數(shù),|Q|和|C|分別為序列Q和序列C的長度,ωd、ωi和μ分別為序列Q轉(zhuǎn)換為序列C過程中刪除、插入和重排操作的代價(jià),且均為用戶給定的正常數(shù)。
2.1.2 數(shù)據(jù)預(yù)處理
本文基于序列對齊思想處理持續(xù)點(diǎn)擊流數(shù)據(jù),具體步驟如下:
1)計(jì)算在線用戶在每個(gè)點(diǎn)擊路徑的持續(xù)時(shí)間,當(dāng)前點(diǎn)擊路徑的持續(xù)時(shí)間即為當(dāng)前點(diǎn)擊時(shí)刻與前一個(gè)點(diǎn)擊時(shí)刻之差,若某一個(gè)點(diǎn)擊路徑的持續(xù)時(shí)間超過30 min,則默認(rèn)為用戶已經(jīng)下線,并將該點(diǎn)擊路徑及其持續(xù)時(shí)間從用戶點(diǎn)擊序列中去除,即會(huì)話時(shí)間間隔閾值定義為30 min[17],處理后的持續(xù)點(diǎn)擊流數(shù)據(jù)如表4 所示。
表4 持續(xù)點(diǎn)擊流數(shù)據(jù)Table 4 Continuous click stream data
2)記錄用戶一個(gè)月內(nèi)的點(diǎn)擊路徑并計(jì)算其對應(yīng)的持續(xù)時(shí)間,處理后的累計(jì)點(diǎn)擊流數(shù)據(jù)如表5 所示,用戶累計(jì)點(diǎn)擊序列SU={(['explorer.exe'],2),(['AliIM.exe'],24),(['Sohu News.exe'],18),(['360SE.exe'],32)}。
表5 累計(jì)點(diǎn)擊流數(shù)據(jù)Table 5 Cumulative click stream data
2.1.3 在線用戶行為相似度算法
本文提出的SA-OHUR 算法是利用基于序列對齊的在線用戶行為相似度算法獲得用戶間相似度。由于該算法所用累計(jì)點(diǎn)擊序列的時(shí)間為累計(jì)時(shí)間,因此不考慮點(diǎn)擊路徑的先后順序,即轉(zhuǎn)換過程中重排操作代價(jià)為0。同時(shí),若兩個(gè)用戶點(diǎn)擊路徑相同但對應(yīng)路徑的累計(jì)時(shí)間不同,則可能造成點(diǎn)擊行為的差異,因此,增加兩個(gè)在線用戶點(diǎn)擊的相同路徑所對應(yīng)累計(jì)時(shí)間差值的絕對值作為補(bǔ)償操作。設(shè)在線用戶Ui的點(diǎn)擊序列,…,(ain,Tin)},在線用戶Uj的點(diǎn)擊序列,(aj2,Tj2),…,(ajm,Tjm)}。其中,(ai1,ai2,…,ain)與(aj1,aj2,…,ajm)分別為在線用戶Ui和Uj的點(diǎn)擊路徑集Ai和Aj。(Ti1,Ti2,…,Tin)與(Tj1,Tj2,…,Tjm)分別為在線用戶Ui和Uj的累計(jì)時(shí)間集Ti和Tj。在線用戶Ui和Uj基于序列對齊的編輯距離定義為:
其中,刪除和插入的代價(jià)分別為刪除和插入路徑所對應(yīng)的累計(jì)時(shí)間,|Tip-Tjq|為補(bǔ)償操作的代價(jià)。
兩個(gè)用戶基于序列對齊的行為相似度計(jì)算公式為:
其中,當(dāng)用戶點(diǎn)擊序列(點(diǎn)擊路徑及其對應(yīng)的累計(jì)時(shí)間)完全相同時(shí),用戶的相似度為1,當(dāng)點(diǎn)擊序列完全不同時(shí),相似度為0。在線用戶Ui和Uj的行為相似度計(jì)算如算法1 所示。
算法1基于序列對齊的用戶行為相似度算法
上述算法在用戶行為相似度計(jì)算過程中,主要利用用戶累計(jì)點(diǎn)擊流數(shù)據(jù),且無需考慮點(diǎn)擊順序。在處理點(diǎn)擊流數(shù)據(jù)時(shí),將點(diǎn)擊序列按照點(diǎn)擊路徑進(jìn)行掃描,可得到用戶之間的行為相似度。由于在數(shù)據(jù)處理階段已去除冗余點(diǎn)擊路徑,因此與傳統(tǒng)的序列對齊算法相比,算法1 復(fù)雜度大幅降低。
2.1.4 基于行為相似度矩陣的層次聚類
SA-OHUR 算法最后一步是根據(jù)相似度矩陣對在線用戶進(jìn)行聚類,以驗(yàn)證在線同源用戶的存在。為更直觀地區(qū)分出用戶在線行為并識(shí)別同源用戶群,該算法采用基于行為相似度矩陣的層次聚類。由于傳統(tǒng)層次聚類HC 算法每進(jìn)行一次簇間合并均需更新相似度矩陣,造成算法步驟重復(fù),因此為避免該問題,SA-OHUR 算法將相似度矩陣中在線用戶之間相似度值和用戶編號采用數(shù)組的形式按照相似度值進(jìn)行降序排列,根據(jù)相似度值在數(shù)組中的位置從大到小合并用戶,即引入優(yōu)先級隊(duì)列。
SA-OHUR 算法將在線用戶按照點(diǎn)擊行為劃分為不同類別,具體流程如下:1)初始化每個(gè)用戶作為單獨(dú)的簇;2)根據(jù)相似度矩陣將相似度值及其對應(yīng)的用戶存入已定義的數(shù)組并按照降序排列;3)合并數(shù)組中第1 個(gè)相似度值,將最大相似度值對應(yīng)的兩個(gè)用戶作為一個(gè)簇;4)從第二輪合并開始,若相似度值對應(yīng)的兩個(gè)用戶均未合并到某個(gè)簇中,則將這兩個(gè)用戶合并為一個(gè)簇;若其中一個(gè)用戶已合并到另外一個(gè)簇中,則將另一個(gè)用戶也合并到該簇中;若兩個(gè)用戶分別合并到不同簇中,則將這兩個(gè)用戶所在的兩個(gè)簇合并;5)按順序取數(shù)組N的相似度值,且在每輪合并時(shí)簇的個(gè)數(shù)減少1;6)重復(fù)步驟4 和步驟5 直到生成K個(gè)簇。
給定在線用戶集U={u1,u2,…,un},將其根據(jù)點(diǎn)擊行為相似性劃分K個(gè)類C1,C2,…,CK,要求每個(gè)類別不能為空且類與類之間用戶不相同,主要步驟如算法2 所示。
算法2基于行為相似度矩陣的層次聚類算法
在算法2中,先對n個(gè)用戶的n×(n-1)/2個(gè)相似度進(jìn)行快速降序排列,排序的時(shí)間復(fù)雜度為O(n2×lbn)[18],再對n個(gè)用戶根據(jù)相似度進(jìn)行聚類,該過程中聚類循環(huán)的時(shí)間復(fù)雜度為O(n)。因此,相較傳統(tǒng)層次聚類的時(shí)間復(fù)雜度O(n3),算法2 的時(shí)間復(fù)雜度降低為O(n2×lbn),算法運(yùn)行效率更高。
SA-OHUR 算法的關(guān)鍵是計(jì)算簇間相似度和簇內(nèi)相似度,進(jìn)而識(shí)別出在線同源用戶群。由于每個(gè)簇即為在線用戶集合,因此本文采用簇內(nèi)在線用戶與另一個(gè)簇內(nèi)在線用戶的平均相似度來表示。例如,給定聚類簇Ci和Cj,則兩個(gè)簇間的相似度定義為:
其中,Savg(Ci,Cj)為聚類簇Ci和Cj的相似度,x為屬于聚類簇Ci的用戶,z為屬于聚類簇Cj的用戶,為在線用戶x和z的行為相似度,|Ci|和|Cj|分別為聚類簇Ci和Cj的在線用戶個(gè)數(shù)。
采用SA-OHUR 算法對在線用戶進(jìn)行聚類時(shí),為更好地將在線用戶特征屬性與其行為相似性進(jìn)行結(jié)合,可用熵值和純度來衡量用戶特征屬性對其行為相似性的影響程度。熵值和純度可用來衡量某個(gè)指標(biāo)的混亂度[19],本文分別計(jì)算基于表3 中6 個(gè)不同特征屬性下點(diǎn)擊行為相似度聚類結(jié)果的熵值和純度,由此判定特征屬性對用戶行為相似性的影響程度。
給定n個(gè)在線用戶,根據(jù)在線用戶行為相似度將其分為K個(gè)簇,其中每個(gè)簇分別包含n1,n2,…,nK個(gè)用戶。假設(shè)某個(gè)特征屬性有M個(gè)類別,如教育程度分為初等教育水平、中等教育水平、高等教育水平3 個(gè)類別,則在該特征屬性下聚類簇i的熵值計(jì)算公式為:
在該特征屬性下聚類的整體熵值計(jì)算公式為:
在該特征屬性下聚類簇i的純度計(jì)算公式為:
在該特征屬性下聚類的整體純度計(jì)算公式為:
其中,nij表示聚類簇i中用戶屬于類別j的個(gè)數(shù),ni為聚類簇i中所有用戶個(gè)數(shù),n為參加聚類的所有用戶個(gè)數(shù)?;谔卣鲗傩缘撵刂岛图兌扔?jì)算如算法3 所示。
算法3基于特征屬性的熵值和純度算法
算法3 是通過聚類結(jié)果的熵值和純度衡量特征屬性對行為相似性的影響程度。若基于某一個(gè)特征屬性計(jì)算得到的聚類結(jié)果熵值越小,混亂程度越低,該特征屬性下類別分散程度越小,則基于該屬性聚類結(jié)果的綜合評價(jià)越好,即特征屬性對同源用戶行為相似性的影響程度越大。而純度相反,若基于某一個(gè)特征屬性計(jì)算得到的聚類結(jié)果純度越大,混亂程度越低,該特征屬性下的類別分散程度就越小,則基于該屬性聚類結(jié)果的綜合評價(jià)越好,即特征屬性對用戶行為相似性的影響程度越大。
本文抽取848 名用戶一個(gè)月內(nèi)約1.2 億條點(diǎn)擊流數(shù)據(jù)進(jìn)行分析,實(shí)驗(yàn)采用Windows 8 操作系統(tǒng)和8 GB 運(yùn)行內(nèi)存并通過Python3.6 實(shí)現(xiàn)。
按照SA-OHUR 算法流程,本文將點(diǎn)擊流數(shù)據(jù)進(jìn)行處理后得到在線用戶累計(jì)點(diǎn)擊行為序列。例如,在線用戶Ua的累計(jì)點(diǎn)擊行為序列SUa={(['explorer.exe'],2),(['AliIM.exe'],24),(['SohuNews.exe'],18),(['360SE.exe'],32)},在線用戶Ub的累計(jì)點(diǎn)擊行為序列SUb={(['explorer.exe'],2),(['AliIM.exe'],34),(['xmp.exe'],5)},并由式(4)計(jì)算得到用戶Ua與Ub的相似度如下:
采用算法1 得到848 名用戶間相似度并將結(jié)果以相似度矩陣A輸出,表達(dá)式如下:
相似度矩陣A是一個(gè)848×848 對稱矩陣,其中第i行第j列的數(shù)值表示第i個(gè)在線用戶和第j個(gè)在線用戶的點(diǎn)擊行為相似度,對角線元素表示每個(gè)在線用戶與自身行為的相似度,相似度值均為1,在該矩陣中相似度取值分布范圍為0~1。
由相似度矩陣A得到在線用戶不同相似度區(qū)間數(shù)量統(tǒng)計(jì)如圖1 所示。其中,x軸為相似度值,y軸為投影在該區(qū)間相似度值的個(gè)數(shù)。圖1 中相似度值主要分布在(0.00,0.60)區(qū)間內(nèi),表明虛擬空間中存在行為相似度超過30%的在線同源用戶,SA-OHUR 算法能有效驗(yàn)證在線同源用戶的存在。
圖1 不同區(qū)間相似度值統(tǒng)計(jì)情況Fig.1 Statistics of similarity values in different intervals
為進(jìn)一步識(shí)別在線同源用戶群,采用SA-OHUR算法基于相似度矩陣A和算法2 對用戶進(jìn)行聚類。不同聚類簇個(gè)數(shù)下的簇間相似度值和簇內(nèi)相似度值的對比如圖2 所示。可以看出,隨著聚類簇個(gè)數(shù)的增加,簇內(nèi)相似度值逐步上升并最終穩(wěn)定在(0.4,0.5)區(qū)間,而簇間相似度值雖然呈現(xiàn)上升趨勢但始終低于簇內(nèi)相似度值,且最大值不超過0.3。這表明屬于同一個(gè)簇的在線用戶即為在線同源用戶且其點(diǎn)擊行為相似度超過40%,而屬于不同簇的在線用戶即為在線非同源用戶,采用SA-OHUR 算法能有效識(shí)別在線同源用戶群。識(shí)別出在線同源用戶后,可根據(jù)表3中用戶特征屬性類別,采用SA-OHUR 算法將用戶分為2 個(gè)簇、3 個(gè)簇和4 個(gè)簇,并利用算法3 研究特征屬性對在線同源用戶行為相似性的影響程度。不同特征屬性下各個(gè)簇及聚類結(jié)果整體的熵值和純度如圖3 所示。
圖2 簇間相似度值和簇內(nèi)相似度值的對比Fig.2 Comparison of similarity values between clusters and similarity values within clusters
圖3 不同特征屬性下聚類結(jié)果的熵值和純度Fig.3 Entropy values and purity of clustering results under different feature attributes
由圖3 可以看出,基于性別、戶籍和教育程度的聚類結(jié)果整體熵值分別為0.541、0.754 和0.622,其結(jié)果低于基于收入水平、社會(huì)階層和年齡的聚類結(jié)果(熵值分別為1.689、1.259 和1.144),表明基于性別、戶籍和教育程度的聚類結(jié)果分散程度低且綜合評價(jià)較好,即該3 類特征屬性對在線同源用戶行為相似性影響較大?;谛詣e、戶籍和教育程度的聚類結(jié)果整體純度分別為0.890、0.872 和0.878,其結(jié)果高于基于收入水平、社會(huì)階層和年齡的聚類結(jié)果(純度分別為0.517、0.740 和0.732),表明基于性別、戶籍和教育程度的聚類結(jié)果純度較高且混亂度較低,這3類特征屬性對在線同源用戶行為相似性影響更大。綜上可知,性別、戶籍和教育程度3 種特征屬性對在線同源用戶行為相似性的影響程度大于收入水平、社會(huì)階層和年齡的影響程度,其中影響最高的特征屬性為性別,影響最低的特征屬性為收入水平。
為驗(yàn)證SA-OHUR 算法的時(shí)間復(fù)雜度,本文采用時(shí)間序列相似性度量(DTW)[18]和萊文斯坦相似性度量(Leven)[20]兩種經(jīng)典的相似性度量算法,分別計(jì)算點(diǎn)擊流數(shù)據(jù)中前200 名、400 名、600 名和800 名在線用戶的相似度,3 種算法運(yùn)行時(shí)間如表6 所示。
表6 3 種算法的運(yùn)行時(shí)間對比Table 6 Running time comparison of three algorithms s
由表6 可知,SA-OHUR 算法在一定程度上減少程序運(yùn)行時(shí)間,提升了程序運(yùn)行效率,在處理大批量數(shù)據(jù)時(shí)該算法有明顯優(yōu)勢。這是因?yàn)镾A-OHUR 算法采用累計(jì)點(diǎn)擊數(shù)據(jù)流進(jìn)行計(jì)算,無需考慮累計(jì)點(diǎn)擊數(shù)據(jù)流中序列的順序性,同時(shí)去除冗余序列,降低了算法復(fù)雜度。
相較傳統(tǒng)層次聚類HC 算法,SA-OHUR 算法降低了時(shí)間復(fù)雜度,提高了運(yùn)行效率,但其聚類效果還未知。因此,本文將采用傳統(tǒng)層次聚類HC 算法和SA-OHUR 算法所得聚類結(jié)果的熵值和純度進(jìn)行對比,結(jié)果分別如表7 和表8 所示。
表7 2 種算法不同特征屬性的熵值對比Table 7 Comparison of entropy values of different feature attributes of two algorithms
表8 2 種算法不同特征屬性的純度對比Table 8 Comparison of purity of different feature attributes of two algorithms
由表7 和表8 可知,SA-OHUR 算法得到的聚類結(jié)果整體熵值較低且純度較大,其中在社會(huì)階層屬性中較反常。從整體來看,年齡對行為相似性影響程度低于性別、教育程度、戶籍3 種屬性,對結(jié)果影響不大。因此,在分析特征屬性對在線同源用戶行為相似性影響程度時(shí),基于相似度矩陣的層次聚類整體效果更好。
利用海量的互聯(lián)網(wǎng)信息找出在線用戶行為的主要影響因素,并據(jù)此對不同用戶群體進(jìn)行分類具有重要意義。本文基于序列對齊技術(shù)提出一種在線同源用戶識(shí)別算法,提取在線用戶點(diǎn)擊流數(shù)據(jù)和特征屬性,采用序列對齊方法計(jì)算用戶行為相似度,識(shí)別具有相似行為的在線同源用戶,并分析不同特征屬性對用戶行為相似性的影響程度。實(shí)驗(yàn)結(jié)果表明,該算法能有效區(qū)分在線同源用戶,用戶行為相似性受性別、戶籍和教育程度3 種特征屬性影響較大。本文主要研究獨(dú)立的特征屬性,未考慮不同特征屬性組合對用戶行為的影響,后續(xù)將從用戶行為權(quán)值較大的部分特征屬性入手,進(jìn)一步研究包含該部分屬性不同組合的用戶行為。