白 昀,蔡皖東
(西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,陜西西安710072)
社交網(wǎng)絡(luò)平臺(tái)(如Twitter、Facebook、E-bay、Wikipedia、E-pinions、微博、微信、QQ等)在全球擁有數(shù)量眾多的用戶,用戶通過這些社交平臺(tái)獲取信息的同時(shí)也生成各種信息(如多媒體文件和博客文章等)。許多平臺(tái)開始使用用戶生成內(nèi)容的方式提供服務(wù),由于網(wǎng)絡(luò)的開放性,網(wǎng)絡(luò)用戶行為也存在復(fù)雜性和不確定性,這就使得偽造評(píng)論、刻意灌水或惡意詆毀的現(xiàn)象越來越明顯。目前,網(wǎng)民面對海量信息(如零售商家、轉(zhuǎn)發(fā)帖子、推薦文章和推薦用戶)大多采用查看信譽(yù)可信度的方式來進(jìn)行選擇,用戶可信度評(píng)估的準(zhǔn)確性就決定了網(wǎng)民選擇的正確度。研究用戶可信度有助于發(fā)現(xiàn)虛假評(píng)論發(fā)布者,及時(shí)處理發(fā)布虛假內(nèi)容,維護(hù)網(wǎng)站信譽(yù)并增強(qiáng)用戶使用信心。另外,通過用戶可信度的評(píng)估輔助用戶進(jìn)行信息獲取及交易,降低商業(yè)活動(dòng)中的風(fēng)險(xiǎn)。因此,如何判斷這些用戶的可信度是目前急需解決的問題。
國內(nèi)外學(xué)者對用戶可信度評(píng)估進(jìn)行了大量研究,目前主要有以下幾種網(wǎng)絡(luò)用戶可信度評(píng)價(jià)模型:①根據(jù)用戶評(píng)論的可信度來確定用戶的可信度。如:Shang等[1]采用拉格朗日算法計(jì)算用戶可信度。Mukherjee等人[2]提出GS-Rank算法可以對虛假評(píng)論發(fā)布者群進(jìn)行檢查。文獻(xiàn)[3]用Review Graph的方法對編造虛假評(píng)論信息進(jìn)行檢測,構(gòu)造出評(píng)論誠實(shí)度和評(píng)論者可信度的關(guān)系曲線來判斷評(píng)論者可信度。②通過加入用戶的社交關(guān)系[4-6](如:Facebook中的好友關(guān)系,Twitter中的追隨關(guān)系以及E-pinions中的信任關(guān)系)來計(jì)算出用戶的信任度,但這些算法不能缺少用戶個(gè)人信息提取或者評(píng)論內(nèi)容提取,特征選取和特征提取的準(zhǔn)確性對最終評(píng)價(jià)結(jié)果有明顯的影響。Ye和Akoglu[7]基于評(píng)價(jià)者與產(chǎn)品構(gòu)成的二分圖提出GroupStrainer算法,發(fā)現(xiàn)虛假評(píng)論發(fā)送者。Choo[8]通過對用戶交互做情感分析檢測虛假評(píng)論發(fā)送者群組,其對活躍群體檢測效果更佳。Wang等[9]通過二分圖投影方法解決某些產(chǎn)品無群組成員評(píng)論的問題,提出檢測虛假評(píng)論發(fā)送者群組的方法。Ayday[10]提出基于信任傳播的迭代信任和信譽(yù)管理模型(BP-ITRM),將信譽(yù)管理問題描述為從復(fù)雜的多變量全局函數(shù)中計(jì)算邊緣概率分布的問題,利用置信傳播算法對邊緣概率分布進(jìn)行計(jì)算,有效地評(píng)估了服務(wù)提供者的可信度。③利用稻田算法[11]和機(jī)器學(xué)習(xí)[12]的方法對用戶信任度進(jìn)行研究。例如:Gupta等[13]首先運(yùn)用回歸分析法找到預(yù)測可信度的有關(guān)特征,然后通過相關(guān)反饋與機(jī)器學(xué)習(xí)相結(jié)合的方式將微博中的信息進(jìn)行可信度得分排序。Josang等[14]提出了一種基于貝葉斯網(wǎng)絡(luò)的Beta聲譽(yù)信任模型,用二元評(píng)分(誠實(shí)的或不誠實(shí)的)來更新Beta概率密度分布函數(shù),以評(píng)估用戶的信任度。Wang[15]結(jié)合圖論知識(shí),分析每個(gè)用戶的出度和入度,來評(píng)估用戶的可信度值。Wang[16]利用途中節(jié)點(diǎn)間的交互提出基于圖的迭代模型來檢測虛假評(píng)論發(fā)布者。Chu等[17]利用隨機(jī)森林算法、構(gòu)造信息熵結(jié)合機(jī)器學(xué)習(xí)的方法,提出虛假用戶識(shí)別算法。Zhang等[18]提出構(gòu)建基于異構(gòu)產(chǎn)品評(píng)論網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)模型以此鑒別不可信評(píng)論。還有一些學(xué)者借助復(fù)雜網(wǎng)絡(luò)分析用戶評(píng)價(jià)的可信度。
目前常見的研究方法存在以下不足之處:①對于影響用戶評(píng)價(jià)可信性的決策因子考慮不全面;②對于用戶個(gè)人信息、用戶行為或評(píng)論內(nèi)容無法獲得的這種情況,評(píng)估結(jié)果的準(zhǔn)確性會(huì)大大下降;③特征選取和特征提取的準(zhǔn)確性往往對評(píng)估結(jié)果有很大的影響;④有標(biāo)注的數(shù)據(jù)相對較少,而大量無標(biāo)注的數(shù)據(jù)在算法中沒有得到有效利用。
針對現(xiàn)有評(píng)估方法不足,提出一種基于評(píng)論反饋信息和信任關(guān)系的用戶信任度因子圖模型。將用戶在社交網(wǎng)絡(luò)上發(fā)表的評(píng)論進(jìn)行分析,該模型利用大量未知標(biāo)簽的用戶數(shù)據(jù)進(jìn)行半監(jiān)督分類,充分挖掘社交網(wǎng)絡(luò)中隱藏的信任關(guān)系,同時(shí)考慮了評(píng)判者可信度,能有效避免灌水和惡意詆毀的現(xiàn)象,在缺少用戶個(gè)人信息和評(píng)論內(nèi)容的情況下有效地進(jìn)行用戶可信度評(píng)估。
可信度指對人或事物可以信賴的程度。用戶通過以往的歷史經(jīng)驗(yàn)對現(xiàn)在的特定事物或?qū)ο筚x予一定的信賴程度。在本文中,用戶可信度表示用戶在社交網(wǎng)絡(luò)中的真實(shí)性和其相應(yīng)行為的可信性大小,具有高可信度的用戶通常擁有真實(shí)的信息資料、高質(zhì)量發(fā)布內(nèi)容,并且與可信用戶具有社會(huì)關(guān)系。
解決用戶的可信度問題有利于發(fā)現(xiàn)領(lǐng)域?qū)<?,具有影響力的人物,還可以幫助人們找到真實(shí)可靠的評(píng)論信息。另外,電子商務(wù)網(wǎng)站通過用戶可信度的評(píng)估輔助用戶進(jìn)行交易,從而降低商業(yè)活動(dòng)中的風(fēng)險(xiǎn)。以下為相關(guān)術(shù)語的定義。
定義1虛假評(píng)論(opinion spam):Jindal等[19]首次提出虛假評(píng)論的概念。在本文中,將不真實(shí)的評(píng)論(具有夸大或詆毀現(xiàn)象的評(píng)論)認(rèn)為是虛假評(píng)論,而這樣的評(píng)論通常與大部分的其他評(píng)論相反。
定義2虛假評(píng)論發(fā)布者(review spammer):Jindal等[19]指出虛假評(píng)論一般由一個(gè)固定群體發(fā)出,這個(gè)群體的成員都是虛假評(píng)論發(fā)布者,即指做出虛假評(píng)論的人。而在這種群體中的成員彼此之間更容易有信任關(guān)系。
定義3評(píng)判者:社交網(wǎng)絡(luò)用戶對網(wǎng)中其他用戶發(fā)布的評(píng)論,依據(jù)中肯性、合理性和可信性進(jìn)行綜合評(píng)分,本文將這種給出綜合評(píng)分的用戶稱之為評(píng)判者。用戶不能對自己發(fā)布的評(píng)論進(jìn)行綜合評(píng)分。
定義4虛假評(píng)判者:指惡意詆毀或有意抬高評(píng)論真實(shí)性的評(píng)判者。
參考一個(gè)基于動(dòng)態(tài)連續(xù)的因子模型圖Mood Cast方法來建模和預(yù)測用戶可信度,有評(píng)論的發(fā)布者(以下簡稱用戶)集合U={u1,u2,…,un},共有n位評(píng)論發(fā)布者。用戶ui可信度記為yi,用戶可信度集合Y={y1,y2,…,yn},其中部分用戶的可信度已知yi=l或0,一些用戶的可信度未知,需求這些用戶的yi。用戶集中的每位用戶對應(yīng)發(fā)布的評(píng)論集V={V1,V2,…,Vn},其中用戶ui發(fā)布的評(píng)論集為Vi={v1,v2,…,vm},m為用戶ui發(fā)布評(píng)論的篇數(shù),V為所有評(píng)論的數(shù)據(jù)集,用戶ui發(fā)布的評(píng)論集Vi的可信度記為yV,i。評(píng)判者對評(píng)論的綜合評(píng)分矩陣R={rv1,p1,rv1,p2,…,rva,pb},其中rvi,pk表示評(píng)判者pk對評(píng)論vi給出的評(píng)分,評(píng)分分為5個(gè)等級(jí),其分值為1分、2分、3分、4分、5分。
有評(píng)論網(wǎng)絡(luò)圖G=(V,E),其中每個(gè)用戶的評(píng)論集作為節(jié)點(diǎn)V={V1,V2,...,Vn},用戶之間的信任關(guān)系作為邊,即用戶ui和用戶uj發(fā)布的評(píng)論集節(jié)點(diǎn)分別Vi和Vj,用戶ui信任用戶uj,則Vi和Vj之間存在邊eij,邊集E={eij}(i,j分別為1,2,…,n)。用戶被信任的頻次集合為C={c1,c2,...,cn}。
給定如上條件和定義,可以將研究的問題定義如下。
問題:給定具有評(píng)判信息的評(píng)論網(wǎng)絡(luò)圖G=(V,E,R)以及部分用戶具有信任標(biāo)簽yi=1或0,如何判斷未知信任標(biāo)簽用戶的信任標(biāo)簽yi。
本文目標(biāo)是通過對用戶的評(píng)論記錄和用戶之間的信任關(guān)系來評(píng)判用戶的可信度。在此提出一個(gè)基于評(píng)論和信任關(guān)系的用戶因子圖模型。
采用概率圖方法建立一個(gè)基于評(píng)論和信任關(guān)系的用戶因子圖模型(user credibility factor graph model based on comments feedback and trust relationships,UCFGM),將用戶信任度問題建模到一個(gè)統(tǒng)一的框架中。
提出一個(gè)基礎(chǔ)的因子模型如圖1所示,左圖包含了5個(gè)用戶{u1,u2,…u5}以及用戶之間的信任關(guān)系,圖中u1與u2之間的箭頭表示u1信任u2。右圖是將左圖作為輸入建立的用戶可信度因子圖模型,圖中觀察變量是網(wǎng)絡(luò)中給定的用戶所發(fā)表的評(píng)論集{V1,V2,…,V5},圖 中 隱 變 量 是 用 戶 可 信 度{y1,y2,…,y5},該圖中定義了2組因子:用戶可信度與用戶評(píng)論集的因子,用函數(shù)f(yi,Vi)表示;用戶可信度與信任關(guān)系的因子,用函數(shù)g(yi,yj)表示。本文圍繞這個(gè)模型圖開展進(jìn)一步研究。
圖1 用戶可信度因子圖模型的圖結(jié)構(gòu)Fig.1 Graphical representation of UCFGM
2.1.1 用戶可信度與評(píng)論反饋的因子函數(shù)
假設(shè)用戶的可信度與其發(fā)布的所有評(píng)論的可信度有關(guān),評(píng)價(jià)用戶的可信度是一個(gè)復(fù)雜的過程,需要借助復(fù)雜網(wǎng)絡(luò)模型,假設(shè)評(píng)論可信度越高那么用戶可信度越高。文獻(xiàn)[3]中提出評(píng)論可信度和用戶可信度符合邏輯斯蒂曲線。以此類推,一位用戶的可信度與其評(píng)論集的可信度也符合邏輯斯蒂曲線,即隨著用戶ui的總評(píng)論可信度不斷增高,用戶ui的可信度越增越慢,最終趨于一個(gè)穩(wěn)定的值,則有
式中:yV,i表示用戶ui發(fā)布的所有評(píng)論的可信度總和。
根據(jù)評(píng)分矩陣,可得評(píng)論的反饋信息。這些反饋信息體現(xiàn)了其他用戶對評(píng)論可信度的評(píng)價(jià),可直接作為評(píng)論可信度指標(biāo)依據(jù)。那么對某一用戶所發(fā)布的所有評(píng)論的整體可信度則是所有評(píng)論可信度的均值。評(píng)判者對評(píng)論的反饋反映出評(píng)論的可信度。當(dāng)然這些評(píng)判者當(dāng)中會(huì)有虛假評(píng)判者。依據(jù)常理,一個(gè)合理的評(píng)判者對評(píng)論給出的評(píng)分應(yīng)與其他評(píng)判者給出的評(píng)分相差不大,而虛假評(píng)判者所給出的評(píng)分往往與其他評(píng)判者給出的評(píng)分有較大差距。
假設(shè)有s位評(píng)判者{p1,p2,...,ps}對評(píng)論vi的評(píng)論合理性打分,對應(yīng)的評(píng)分(rvi,p1,rvi,p2,...,rvi,ps),其平均評(píng)分為,該評(píng)分均值aavg視為大多數(shù)的評(píng)判者認(rèn)為該評(píng)論應(yīng)具有的合理分值。評(píng)判者pk對評(píng)論vi給出的評(píng)分,其評(píng)分的合理性Qvi,pk可通過式(2)進(jìn)行判別。若Qvi,pk=1,則評(píng)判者pk對評(píng)論vi給出的評(píng)分rpk vi合理。反之,若Qvi,pk=0,則評(píng)分不合理。
評(píng)判者pk對t個(gè)評(píng)論進(jìn)行評(píng)判,即{v1,v2,...,vt},對應(yīng)的評(píng)分為(rv1,pk,rv2,pk,...,rvt,pk),其對應(yīng)的評(píng)分合理性(Qv1,pk,Qv2,pk,...,Qvt,pk),其中評(píng)分合理的個(gè)數(shù)為|QT|,評(píng)分不合理的個(gè)數(shù)為|QF|,則評(píng)判者可信度
由于評(píng)判者與評(píng)論之間存在關(guān)系:評(píng)判者的可信度越高,且對評(píng)論的評(píng)分越高,則評(píng)論的可信度越高。有s位評(píng)判者{p1,p2,...,ps}對評(píng)論vi的評(píng)論合理性打分,對應(yīng)的評(píng)分(rvi,p1,rvi,p2,...,rvi,ps),根據(jù)評(píng)判者與評(píng)論之間的關(guān)系,這s位評(píng)判者認(rèn)為評(píng)論vi的可信度yvi為
用戶ui發(fā)表了D篇評(píng)論,則用戶ui發(fā)布的所有評(píng)論的可信度總和,計(jì)算式如(5):
2.1.2 用戶可信度與信任關(guān)系的因子函數(shù)
用戶ui所信任的用戶集記為Ti={ui,1,ui,2,...,ui,l},其中l(wèi)是ui所信任的用戶數(shù)量。若用戶ui信任用戶uj,(其中uj∈Ti),ui對uj的信任與2個(gè)因素有關(guān):①ui對uj的信任程度wij。如果這2個(gè)用戶共同信任的用戶數(shù)比例高,則說明他們的信任相似度高(即同為可信用戶,或同為不可信用戶的概率高),則ui對uj的信任程度高,則其中Tj表示用戶uj所信任的用戶集。②ui的可信程度。簡化起見,表示為有多少人認(rèn)為uj是可信的,則可用uj的信任頻次(cj)表示uj的可信程度,信任頻次越高,則說明uj越值得信任?;谝陨纤枷耄啥xg(yi,yj)為
為了將所有的因子函數(shù)整合在一起,根據(jù)Hammersley-Clifford理論[20]可得目標(biāo)函數(shù)
式中:α和β分別是不同因子函數(shù)的權(quán)重;θ=({α},{β})是由訓(xùn)練數(shù)據(jù)得到的參數(shù)配置;Z是歸一化因子,確保概率和為1。
因子模型學(xué)習(xí)是尋找參數(shù)θ=({α},{β})的配置,使得目標(biāo)函數(shù)ο(θ)的值最大。即
為了求解目標(biāo)函數(shù),采用梯度下降法。以α為例介紹如何學(xué)習(xí)參數(shù)。先得參數(shù)α到關(guān)于目標(biāo)函數(shù)的梯度(式⑼),其中E[f(yi,Vi)]是在輸入網(wǎng)中給定數(shù)據(jù)分布下的因子函數(shù)f(yi,Vi)的期望,即訓(xùn)練集數(shù)據(jù)中因子函數(shù)f(yi,Vi)的 平 均 值。是在評(píng)估模型給定P(yi|G,R)分布下的因子函數(shù)f(yi,Vi)的期望。對于β也可以得到相似的梯度(式(10))。
由于輸入網(wǎng)絡(luò)含有環(huán)路,無法通過Junction Tree等方法直接計(jì)算邊緣分布P(yi|G,R)。采用Loopy Belief Propagation(LBP)[21]方法近似求解。理論上LBP不能保證收斂并且可能導(dǎo)致局部最大,但實(shí)踐效果良好。具體算法為,先用LBP算法近似求解邊緣分布P(yi|G,R),然后使用梯度下降法來求解目標(biāo)函數(shù)ο(θ)。該算法是一個(gè)半監(jiān)督學(xué)習(xí)算法。
參數(shù)學(xué)習(xí)算法為:
(1)輸入?;谠u(píng)論的用戶網(wǎng)絡(luò)G=(V,E)和評(píng)判者評(píng)分矩陣R,學(xué)習(xí)速率η。
(2)輸出。模型參數(shù)θ=({α},{β})。
(3)算法步驟。先初始化θ,然后重復(fù)如下步驟直至參數(shù)θ取值收斂。①根據(jù)LBP公式計(jì)算各個(gè)期望值;②根據(jù)式(9)和式(10),計(jì)算梯度(如式:;③使用學(xué)習(xí)效率η更新參數(shù)θ。以α為例,
通過已經(jīng)學(xué)習(xí)的參數(shù)θ=({α},{β}),可對未知信任度的用戶,通過尋找使目標(biāo)函數(shù)最大化的用戶信任度的配置,即:
在該項(xiàng)工作中,再次采用LBP算法來估算未知信任度標(biāo)簽用戶的信任標(biāo)簽。通過計(jì)算用戶的邊緣分布函數(shù)Pθ(yi|G,R),最后給每個(gè)用戶分配一個(gè)最大概率的標(biāo)簽。該邊緣分布函數(shù)最大值時(shí)的變量值yi*即是未知信任標(biāo)簽用戶的信任標(biāo)簽。
采用Extended Epinions數(shù)據(jù)集對所提方法進(jìn)行驗(yàn)證。數(shù)據(jù)是Massa從著名的產(chǎn)品評(píng)論網(wǎng)站Epinions.com上收集。該數(shù)據(jù)集中有用戶信息132 000條,有841 372條用戶信任關(guān)系信息(1代表可信,—1代表不可信),1 560 144條評(píng)論,其中755 722條評(píng)論進(jìn)行了評(píng)分,評(píng)論的評(píng)分?jǐn)?shù)據(jù)信息有13 668 320條。評(píng)判者對其他用戶發(fā)表的評(píng)論進(jìn)行評(píng)分,評(píng)分為1~5,表示評(píng)論的可靠性從低到高。數(shù)據(jù)集中還包括進(jìn)行評(píng)分的時(shí)間信息和評(píng)分是否公開的數(shù)據(jù)。
本文的問題是:基于信任關(guān)系以及評(píng)論的可靠性評(píng)分信息,對評(píng)論發(fā)布用戶的可信度進(jìn)行評(píng)估。在數(shù)據(jù)集中,14 701個(gè)用戶被評(píng)價(jià)為不可信用戶,即標(biāo)記為不可信用戶,69 900個(gè)用戶被標(biāo)記為可信用戶,剩余17 090個(gè)用戶既有可信標(biāo)記又有不可信標(biāo)記,是需要評(píng)估的用戶。從69 900個(gè)用戶中將被信任頻次c≥6的6 234個(gè)用戶標(biāo)記信任標(biāo)簽為yi=1,從14 701個(gè)用戶中將被認(rèn)為不信任頻次大于5的1 742個(gè)用戶標(biāo)記信任標(biāo)簽為yi=0。其余用戶為未標(biāo)記信任標(biāo)簽用戶。
通過綜合評(píng)價(jià)指標(biāo)F1、準(zhǔn)確率A、精確率P和召回率R作為評(píng)估所提出模型的標(biāo)準(zhǔn)。各指標(biāo)定義如下:
式中:tp表示正類判定為正類;fp表示負(fù)類判定為正類;fn表示正類判定為負(fù)類;tn表示負(fù)類判定為負(fù)類。
根據(jù)歷史評(píng)分?jǐn)?shù)據(jù),在Epinions數(shù)據(jù)集上應(yīng)用所提出的因子圖模型進(jìn)行用戶可信度預(yù)測。本文進(jìn)行10次交叉驗(yàn)證,在每個(gè)交叉驗(yàn)證中,分別在具有可信標(biāo)記和不可信標(biāo)記的用戶集中隨機(jī)選取10%的樣本作為測試集,其余90%的數(shù)據(jù)作為訓(xùn)練集,進(jìn)行用戶可信度預(yù)測。因此,就可以通過精確度來驗(yàn)證模型的有效性。圖2給出了每次的準(zhǔn)確率。平均預(yù)測準(zhǔn)確率達(dá)到0.91以上,最高時(shí)達(dá)到了0.93,因此,本文提出的因子圖方法在預(yù)測用戶可信度時(shí)是有效的。
圖2 因子圖預(yù)測用戶可信度的準(zhǔn)確率Fig.2 Accuracy of factor graph in predicting user credibility
在分析信任關(guān)系和評(píng)論的反饋評(píng)分在因子圖模型中所起的作用時(shí),分別從模型中移除這2個(gè)因子,將移除后的模型與原模型進(jìn)行對比。圖3顯示了原模型與分別移除部分因子后的F1值。由圖可知,移除任何一個(gè)因子都會(huì)造成F1評(píng)估指標(biāo)的顯著降低,但不同因子對評(píng)估指標(biāo)的影響力不同。這表示這些因素對用戶可信度的預(yù)測具有積極作用,與不考慮這些因素的方法相比獲得更好的預(yù)測效果。其中,移除信任關(guān)系因子后性能下降最大,說明相比于反饋信息,信任關(guān)系在用戶可信度預(yù)測中起到更重要的作用。這是因?yàn)樵u(píng)論反饋中的虛假評(píng)判者對預(yù)測效果產(chǎn)生一定負(fù)面影響,而用戶之間的信任關(guān)系在預(yù)測用戶可信度時(shí)更直接。
圖3 模型移除不同因子對性能的影響Fig.3 Removal of impact of different factors on performance
給定于評(píng)論的用戶網(wǎng)絡(luò)G=(V,E)和評(píng)判者評(píng)分矩陣R,可構(gòu)造訓(xùn)練數(shù)據(jù)集{(xi,yi)}i=1,...,n,其中n表示用戶數(shù),xi是關(guān)于用戶ui發(fā)布的評(píng)論集的特征向量,yi表示用戶ui是否可信,支持向量機(jī)(SVM)、邏輯斯特回歸(LR)和樸素貝葉斯方法(NB)來訓(xùn)練分類模型并將其用于預(yù)測用戶是否可信。SVM使用SVM-light。LR算法和NB算法使用weka工具包實(shí)現(xiàn)。與本文提出的因子圖方法不同的是,分類模型沒有考慮用戶之間的信任關(guān)系。同時(shí)本文與基于PageRank可信度評(píng)估算法[22]進(jìn)行比較。PageRank算法將每個(gè)用戶發(fā)布的信息可信度的平均值作為用戶初始可信度,然后基于用戶信任網(wǎng)計(jì)算PR值作為用戶可信度。在本文中設(shè)置PR>0.1為可信用戶,否則為不可信用戶。
圖4顯示不同方法在Epinions數(shù)據(jù)集上的用戶可信度評(píng)估性能。由圖可見,本文提出的因子圖模型優(yōu)于其他4種方法。對于F1,LR算法在F1評(píng)估指標(biāo)上的值明顯低于其他方法,這是因?yàn)長R算法一般適用線性分類,而依據(jù)用戶歷史評(píng)分?jǐn)?shù)據(jù)特征進(jìn)行分類屬于非線性分類,其效果較差。F1評(píng)估指標(biāo)上,因子圖模型和PageRank方法比SVM、LR和NB 3種方法要提高8.5%~24%,這是因?yàn)镾VM、LR和NB 3種方法均未考慮用戶之間的信任關(guān)系,由此可以說明信任關(guān)系是預(yù)測用戶可信度的決定因素之一;PageRank算法有效利用社交網(wǎng)絡(luò)中的信任關(guān)系,從而與SVM、LR和NB相比提高了預(yù)測性能,但PageRank算法不能從概率論角度挖掘隱含的關(guān)系,因此其F1評(píng)估指標(biāo)比因子圖方法低6.5%。又因?yàn)镻ageRank算法得到的是用戶的可信度排序,該方法應(yīng)用于用戶可信度預(yù)測時(shí)準(zhǔn)確度與其設(shè)置的可信度的閾值有關(guān),本文的閾值設(shè)置方式有效防止將不可信用戶判定為可信用戶,因此在精確率和召回率兩項(xiàng)指標(biāo)中優(yōu)于基準(zhǔn)方法。另外,真實(shí)世界的用戶之間的關(guān)聯(lián)在社交網(wǎng)絡(luò)中以用戶關(guān)系網(wǎng)的形式體現(xiàn),這種結(jié)構(gòu)信息用概率圖的形式表示更符合數(shù)據(jù)本身的結(jié)構(gòu),而其他4種算法雖能高效利用其他特征信息,但并不具備挖掘用戶潛在關(guān)系的能力。還有一個(gè)重要的原因是本文提出的模型可以利用未知標(biāo)簽的用戶數(shù)據(jù)進(jìn)一步考慮數(shù)據(jù)集中的一些潛在關(guān)系。
圖4 不同方法的用戶可信度預(yù)測性能Fig.4 Prediction performance of user credibility of different methods
研究了在社交網(wǎng)絡(luò)分析中長期關(guān)注的問題——用戶的可信度評(píng)估。當(dāng)前大部分的研究都聚焦在對用戶個(gè)人信息和評(píng)論內(nèi)容的特征提取上來評(píng)估用戶可信度,本文將社交網(wǎng)站中評(píng)論反饋信息和用戶信任關(guān)系對用戶可信度評(píng)估的影響形式化為一個(gè)概率模型——基于評(píng)論反饋信息和信任關(guān)系的用戶信任度因子圖模型,該模型構(gòu)建了評(píng)論反饋因子函數(shù)和信任關(guān)系因子函數(shù),可在沒有用戶個(gè)人信息和評(píng)論內(nèi)容的情況下對用戶可信度進(jìn)行評(píng)估。提出半監(jiān)督分類的學(xué)習(xí)方法構(gòu)建模型,充分利用大量未知標(biāo)簽的用戶數(shù)據(jù),并使用因子圖方法充分挖掘社交網(wǎng)絡(luò)中隱含的信任關(guān)系,同時(shí)對評(píng)判者與評(píng)論發(fā)布者的可信度進(jìn)行評(píng)估,避免灌水和惡意詆毀的現(xiàn)象,有效提高了用戶可信度評(píng)估精度。在Extended Epinions數(shù)據(jù)集上對所提出的模型進(jìn)行驗(yàn)證,平均預(yù)測準(zhǔn)確率達(dá)到0.91以上。通過實(shí)驗(yàn)發(fā)現(xiàn)移除任何一個(gè)因子都會(huì)降低用戶可信度預(yù)測的準(zhǔn)確性,且信任關(guān)系因子對用戶可信度預(yù)測的積極影響明顯高于評(píng)論反饋評(píng)分因子。
本文所提方法有效利用未知標(biāo)簽的用戶數(shù)據(jù),采用概率圖表示用戶之間的信息結(jié)構(gòu)更符合真實(shí)世界的用戶之間的關(guān)聯(lián),并且無需提供用戶個(gè)人信息和評(píng)論內(nèi)容即可有效預(yù)測用戶可信度,為用戶可信度研究提供了一個(gè)新思路。基于以上優(yōu)勢,將本文方法與其他4種傳統(tǒng)方法進(jìn)行性能對比,本文方法提出的用戶因子圖模型將用戶可信度評(píng)估性能提高了12%~29%。
作者貢獻(xiàn)說明:
白昀:負(fù)責(zé)模型的設(shè)計(jì)與實(shí)現(xiàn),并對模型的有效性進(jìn)行驗(yàn)證。
蔡皖東:負(fù)責(zé)模型設(shè)計(jì)的總體指導(dǎo)。