歐陽(yáng)純萍,陳湘龍,劉永彬
(南華大學(xué) 計(jì)算機(jī)學(xué)院,湖南 衡陽(yáng) 421001)
網(wǎng)絡(luò)新聞因其具有及時(shí)性、全面性等特點(diǎn)越來(lái)越受廣大網(wǎng)民的關(guān)注,國(guó)內(nèi)外發(fā)生的重大事件,大部分都是第一時(shí)間通過(guò)網(wǎng)絡(luò)新聞平臺(tái)發(fā)布,并引發(fā)了社會(huì)劇烈的反響和激烈的辯論。因此,在引導(dǎo)社會(huì)輿論的方面,網(wǎng)絡(luò)新聞平臺(tái)的大量言論發(fā)揮著難以估量的作用,為能正確引導(dǎo)網(wǎng)絡(luò)輿情的導(dǎo)向,在輿情監(jiān)控過(guò)程中需要對(duì)某些具有較高影響力的網(wǎng)絡(luò)新聞評(píng)論用戶采取特別措施。
近年來(lái)用戶影響力分析受到了大量的研究者的關(guān)注,許多影響力計(jì)算的方法相繼被提出,Cha等[1]通過(guò)從用戶的轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、粉絲數(shù)等靜態(tài)屬性排名來(lái)分析Twitter社交網(wǎng)絡(luò)中的用戶影響力,但是該方法在靜態(tài)屬性選擇上面存在局限性,并且沒(méi)有考慮用戶在社交網(wǎng)絡(luò)中的關(guān)系。Weng等[2]根據(jù)用戶之間的粉絲聯(lián)系形成的網(wǎng)絡(luò)關(guān)系,通過(guò)PageRank算法計(jì)算用戶的影響力排名,該方法實(shí)現(xiàn)簡(jiǎn)單、效果較好,但是僅使用粉絲作為影響力的評(píng)價(jià)指標(biāo)并不是很全面。吳慧等[3]使用用戶的活躍度和用戶所發(fā)微博質(zhì)量作為綜合指標(biāo)得到影響力權(quán)重,并結(jié)合網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)計(jì)算用戶在社交網(wǎng)絡(luò)中的影響力,該方法雖然關(guān)注用戶所發(fā)內(nèi)容的質(zhì)量,但是卻沒(méi)有關(guān)注內(nèi)容的情感傾向性。
在用戶影響力分析的研究中,采用靜態(tài)屬性排名的方法具有更加全面的特點(diǎn),但屬性的構(gòu)建在很大程度上依賴構(gòu)建者的主觀意識(shí)。傳統(tǒng)的基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的用戶影響力分析方法大部分是利用遍歷網(wǎng)絡(luò)結(jié)構(gòu)去分析用戶之間的影響力,而用戶節(jié)點(diǎn)本身的屬性信息較少考慮。由于表征用戶影響力的因素具有多樣性,但是針對(duì)不同的用戶評(píng)價(jià)對(duì)象,有效的特征又不盡相同。因此,本文針對(duì)新聞評(píng)論網(wǎng)絡(luò)的特點(diǎn),提取考慮表征網(wǎng)絡(luò)新聞評(píng)論網(wǎng)絡(luò)用戶影響力的4種主要因素,提出了面向新聞評(píng)論網(wǎng)絡(luò)用戶的四度影響力分析模型FDRank(four-degree influence rank),與國(guó)內(nèi)外前沿方法TwitterRank、PageRank、Brank、MDIR和RBrank比較,本文提出的方法能夠更準(zhǔn)確找出具有較高影響力的用戶。
從20世紀(jì)初到現(xiàn)在,影響力分析的研究受到了各個(gè)領(lǐng)域?qū)W者的研究和關(guān)注,上世紀(jì)50年代,Roshwalb等[4]發(fā)現(xiàn)在平時(shí)具有影響力的人,在工作、生活或政治選舉是都存在很大的優(yōu)勢(shì)。之后Triplett[5]通過(guò)研究動(dòng)力因素發(fā)現(xiàn),當(dāng)一個(gè)人受到更多的關(guān)注時(shí),他會(huì)表現(xiàn)的更為突出。近年來(lái),隨著微博、騰訊新聞、Twitter等網(wǎng)絡(luò)社交媒體的興起,對(duì)用戶影響力的研究也隨之增多,主要集中在以下3個(gè)方面:
(1)基于社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的度量。主要通過(guò)節(jié)點(diǎn)的出入度以及度的方向來(lái)度量用戶的影響力值。度的大小表明該節(jié)點(diǎn)受他人的影響程度或是受歡迎程度,而度的方向則表示信息傳遞的方向,這類方法的典型代表就是Page-Rank 算法[6],之后許多研究者在PageRank算法上進(jìn)行了深入研究,改進(jìn)。王鵬等[7]結(jié)合PageRank算法和社交網(wǎng)絡(luò)用戶的行為數(shù)據(jù)和質(zhì)量數(shù)據(jù),如利用網(wǎng)絡(luò)中用戶發(fā)布信息的轉(zhuǎn)發(fā)率、評(píng)論率以及用戶是否認(rèn)證情況等行為因素,綜合用戶自身質(zhì)量與追隨者質(zhì)量等,最終計(jì)算得到社交網(wǎng)絡(luò)中的用戶影響力。劉威等[8]借鑒PageRank算法思想,綜合考慮用戶話題信息傳播能力以及用戶與背景話題間關(guān)聯(lián)性對(duì)微博用戶影響力進(jìn)行排序。單純依靠網(wǎng)絡(luò)結(jié)構(gòu)分析來(lái)進(jìn)行影響力分析的方法雖然模型簡(jiǎn)單,計(jì)算資源耗費(fèi)較低,但是忽略了節(jié)點(diǎn)的屬性信息以及節(jié)點(diǎn)之間的互動(dòng)關(guān)系,這些能對(duì)用戶影響力有一定表征能力的因素。
(2)基于用戶行為的度量。通過(guò)分析在線社交用戶的行為軌跡數(shù)據(jù)(包括瀏覽/發(fā)布/轉(zhuǎn)發(fā)信息、點(diǎn)贊、話題評(píng)論和建立好友關(guān)系等),能夠評(píng)估用戶在社交網(wǎng)絡(luò)平臺(tái)上的影響力。Xiang等[9]利用社交網(wǎng)絡(luò)用戶之間的交互信息和話題相似性和信息交互情況,提出了一種潛在變分模型用以來(lái)評(píng)估計(jì)算用戶之間的影響強(qiáng)度。SAITO等[10]將用戶影響力模型轉(zhuǎn)化成一種最大似然問(wèn)題,并且利用期望最大化算法進(jìn)行求解。YANG等[11]基于影響力函數(shù)和信息的談?wù)摯螖?shù)建立了一種線性影響力模型對(duì)用戶的影響力進(jìn)行度量。魏杰明等[12]從用戶行為方式和互動(dòng)規(guī)律的角度出發(fā),系統(tǒng)研究了社交網(wǎng)絡(luò)中用戶行為和貼文特征。再采用PCA主成分分析法,將各組成因素進(jìn)行相關(guān)性研究,得到最終的用戶影響力。上述方法均是從用戶本身的屬性和行為特征出發(fā)來(lái)分析其影響力,并沒(méi)有考慮用戶所發(fā)布內(nèi)容的情感極性,用戶發(fā)布的新聞評(píng)論內(nèi)容是否具有情感傾向?qū)τ趦?nèi)容的傳播有一定的影響。
(3)結(jié)合網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和用戶的度量。單純從網(wǎng)絡(luò)結(jié)構(gòu)來(lái)分析用戶的影響力,容易丟失一些用戶本身的特征,而單純從用戶特征來(lái)分析用戶的影響力,又不能充分利用用戶所處社交網(wǎng)絡(luò)的結(jié)構(gòu)信息。因此,還有一些學(xué)者把網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和用戶自身特征進(jìn)行結(jié)合來(lái)度量用戶的影響力。學(xué)者們最初嘗試綜合使用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、用戶特征和用戶行為數(shù)據(jù)預(yù)測(cè)當(dāng)前時(shí)刻的用戶影響力[13,14]。后續(xù),學(xué)者們又對(duì)融合方法進(jìn)行了細(xì)粒度研究。王新勝等[15]首先對(duì)用戶的自身因素和用戶傳播能力進(jìn)行計(jì)算,得到用戶直接影響力。然后再計(jì)算基于用戶網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的用戶間接影響力,最后綜合用戶直接影響力和間接影響力,從而分析得到用戶的最終用戶影響力。羅芳等[16]把用戶基本屬性、交互行為和微博內(nèi)容3個(gè)維度因素融入PageRank算法中,基于網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)了一種多維度微博用戶影響力度量算法。上述研究成果為用戶影響力分析提供了可行的新思路,融合用戶自身特征與網(wǎng)絡(luò)結(jié)構(gòu)分析算法可以更好地綜合評(píng)價(jià)用戶的影響力。
鑒于當(dāng)前研究的可改進(jìn)之處以及新聞評(píng)論數(shù)據(jù)的特點(diǎn),本文提出一種融合用戶行為特征、評(píng)論內(nèi)容與問(wèn)題的相關(guān)性、評(píng)論的情感傾向性、網(wǎng)絡(luò)結(jié)構(gòu)的四度新聞評(píng)論用戶影響力分析算法??紤]用戶評(píng)論內(nèi)容與新聞文章的相似程度,避免不相關(guān)內(nèi)容的干擾;計(jì)算評(píng)論內(nèi)容的情感傾向性,通過(guò)分析數(shù)據(jù)發(fā)現(xiàn)當(dāng)所發(fā)內(nèi)容具有較強(qiáng)的情感極性時(shí),更容易獲得大家的關(guān)注;分析用戶的行為(包含評(píng)論和點(diǎn)贊兩種),當(dāng)用戶獲得越多的評(píng)論和點(diǎn)贊數(shù),表明該用戶所發(fā)表的評(píng)論具有較強(qiáng)的說(shuō)服力;分析用戶的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),表征用戶在社交網(wǎng)絡(luò)中與其他用戶的聯(lián)系強(qiáng)度,更全面地反映用戶的影響力;最后利用加權(quán)線性融合方法得到最終的新聞評(píng)論網(wǎng)絡(luò)的用戶影響力。
網(wǎng)絡(luò)新聞?dòng)脩艨梢酝ㄟ^(guò)評(píng)論發(fā)表自身的觀點(diǎn),通過(guò)點(diǎn)贊、關(guān)注和回復(fù)他人評(píng)論與其他用戶進(jìn)行互動(dòng)。本文通過(guò)分析用戶自身質(zhì)量、用戶網(wǎng)絡(luò)結(jié)構(gòu)、用戶發(fā)布評(píng)論內(nèi)容及評(píng)論情感值4個(gè)方面對(duì)用戶影響力進(jìn)行分析,提出了四度用戶影響力分析算法,如圖1所示。
圖1 四度用戶影響力分析算法流程
用戶可以通過(guò)PC端、手機(jī)移動(dòng)端等發(fā)布關(guān)于一篇新聞文章的評(píng)論,每個(gè)評(píng)論基本是由幾句話組成。當(dāng)評(píng)論內(nèi)容與新聞文章的相關(guān)程度低,則很有可能是一些垃圾評(píng)論,影響力較低。而評(píng)論內(nèi)容與新聞內(nèi)容相關(guān)程度較高的,則可能存在更大的影響力,并且通過(guò)內(nèi)容相關(guān)性計(jì)算,還能夠排除一些信息量低的評(píng)論的影響。
(1)
式中:tfki表示Vk在nai中出現(xiàn)的次數(shù),dfk表示文本集NA中含有Vk的文本總數(shù)。對(duì)于文本的相似度,本文利用余弦相似度來(lái)計(jì)算評(píng)論與新聞文章之間的相似,并使用其結(jié)果作為評(píng)論內(nèi)容影響力CI
CI=Sim(comment,article)=
(2)
根據(jù)新聞傳播規(guī)律,通常用戶如果發(fā)表的評(píng)論不帶任何情感色彩,這類新聞文本傳播范圍很有限。所以新聞評(píng)論文本的情感極性對(duì)于文本傳播有較強(qiáng)的影響,而文本傳播率又是評(píng)價(jià)用戶影響力的重要指標(biāo)。因此,在分析用戶影響力時(shí)有必要先分析評(píng)論內(nèi)容的情感極性。本文提出一個(gè)融合多個(gè)深度學(xué)習(xí)算法的模型來(lái)計(jì)算新聞評(píng)論的3類情感傾向性,即負(fù)面、中立、正面,模型如圖2所示。首先將文本通過(guò)word2vec轉(zhuǎn)換為向量表示,然后使用BIGRU和Attention機(jī)制增強(qiáng)上下文語(yǔ)義信息并獲取初步特征,再通過(guò)CNN獲取更深層次的特征,最后通過(guò)SoftMax進(jìn)行回歸最終獲得對(duì)應(yīng)情感的分類概率P=(P正,P中,P負(fù))。
圖2 基于多模型融合的情感分類模型
對(duì)最終獲得的分類概率,選取最大概率值所對(duì)應(yīng)的情感,作為情感分類的最終結(jié)果,并且通過(guò)之前的研究發(fā)現(xiàn),對(duì)于某一情感分類的概率值越大則證明該文本的情感傾向性越強(qiáng)即情感特征比較明顯,本研究采用情感分類的概率值作為情感值的結(jié)果,提出情感值的度量SI公式如下
Pi=max(P正,P中,P負(fù))
(3)
(4)
在新聞評(píng)論用戶中,表征用戶自身質(zhì)量的兩類因素包括用戶評(píng)論的回復(fù)率以及用戶評(píng)論的點(diǎn)贊率。因此,我們結(jié)合這兩大因素來(lái)計(jì)算新聞評(píng)論用戶的自身質(zhì)量。
(1)用戶評(píng)論的回復(fù)率
首先計(jì)算用戶評(píng)論的平均回復(fù)數(shù),即用戶每條評(píng)論的回復(fù)總數(shù)除以用戶發(fā)布評(píng)論的總數(shù);然后再用用戶評(píng)論的平均回復(fù)數(shù)除以總的用戶數(shù)計(jì)算得到用戶評(píng)論的回復(fù)率。用戶評(píng)論的回復(fù)率表示每一位新聞評(píng)論用戶在發(fā)布評(píng)論后平均被回復(fù)的數(shù)量,對(duì)體現(xiàn)用戶所發(fā)布信息的傳播能力具有較好的表征作用。本文使用Reply(z)表示用戶評(píng)論的回復(fù)率,具體定義如下
(5)
式中:z表示用戶,Sum(m)表示新聞評(píng)論用戶z發(fā)布評(píng)論被回復(fù)的總數(shù),Sum(a)表示用戶z發(fā)布評(píng)論的總數(shù),Sum(u)表示總用戶數(shù)。
(2)用戶評(píng)論的點(diǎn)贊率
在計(jì)算方法上,用戶評(píng)論的點(diǎn)贊率與用戶評(píng)論的回復(fù)率基本相同。首先計(jì)算用戶評(píng)論的平均點(diǎn)贊數(shù),即用戶發(fā)布評(píng)論獲得的總點(diǎn)贊數(shù)除以用戶發(fā)布評(píng)論的總數(shù),再使用用戶評(píng)論的平均點(diǎn)贊數(shù)除以總用戶數(shù)。本文使用Support(z)表示用戶z所發(fā)布評(píng)論的點(diǎn)贊率,具體定義如下
(6)
式中:Sum(s)表示用戶z發(fā)布的所有評(píng)論獲得的總點(diǎn)贊數(shù),其余符號(hào)與式(5)中的意義相同。由于用戶評(píng)論的回復(fù)率和用戶評(píng)論的點(diǎn)贊率對(duì)于表征用戶自身質(zhì)量的權(quán)重有所區(qū)別,因此,本文使用線性回歸模型將用戶評(píng)論的回復(fù)率以及點(diǎn)贊率結(jié)合起來(lái)計(jì)算用戶自身質(zhì)量評(píng)價(jià)值。定義如下,其中α,β分別表示兩種用戶行為所占的權(quán)重
Uquality(z)=α·Reply(z)+β·Support(z)
(7)
用戶在社交網(wǎng)絡(luò)中與其他用戶的聯(lián)系,也是反映用戶影響力的一個(gè)重要因素。PageRank算法是用來(lái)比較不同網(wǎng)頁(yè)的重要性的算法,而在社交網(wǎng)絡(luò)中用戶的關(guān)系模型和網(wǎng)頁(yè)的鏈接模型十分相似,用戶的粉絲數(shù)相當(dāng)于網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的入度,用戶的關(guān)注數(shù)相當(dāng)于網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的出度,所以可以利用PageRank算法來(lái)計(jì)算新聞評(píng)論網(wǎng)絡(luò)中的不同用戶之間的網(wǎng)絡(luò)結(jié)構(gòu)影響力,算法定義如下
PI(ui)=PageRank(ui)=
(8)
式中:ui和uj分別表示兩個(gè)不同的用戶,PageRank(ui)和PageRank(uj)則表示ui和uj所對(duì)應(yīng)的Rank值,N(ui)是指鏈入ui的用戶集合,Link(uj)是用戶uj所有鏈接出去的邊數(shù)量,即網(wǎng)絡(luò)節(jié)點(diǎn)出度,d=0.85表示阻尼系數(shù)。
在前述已構(gòu)建的用戶評(píng)論內(nèi)容影響力計(jì)算、用戶評(píng)論內(nèi)容的情感極性計(jì)算、用戶自身質(zhì)量評(píng)價(jià)和用戶的網(wǎng)絡(luò)結(jié)構(gòu)影響力計(jì)算4個(gè)維度的結(jié)果基礎(chǔ)上,最終的四度用戶影響力分析模型定義如下
UI(z)=ω·(CI(z)+SI(z)+Uquality(z))+θ·PI(z)
(9)
式中:UI(z)表示用戶z的影響力,CI(z),SI(z),Uquality(z),PI(z)分別表示用戶z評(píng)論內(nèi)容的影響力、評(píng)論的情感值、用戶自身質(zhì)量以及網(wǎng)絡(luò)結(jié)構(gòu)的影響力大小,ω,θ表示評(píng)價(jià)影響力各指標(biāo)的權(quán)重。
3.1.1 實(shí)驗(yàn)數(shù)據(jù)集
本文以騰訊新聞作為數(shù)據(jù)源,抓取了2019年5月至2019年6月兩個(gè)月內(nèi)發(fā)布的新聞及評(píng)論作為研究數(shù)據(jù)。由于爬取到的信息過(guò)于冗余,本文過(guò)濾粉絲數(shù)少于10的用戶、點(diǎn)贊數(shù)少于10的用戶,經(jīng)過(guò)篩選之后的數(shù)據(jù)統(tǒng)計(jì)見表1。
表1 騰訊新聞相關(guān)數(shù)據(jù)
3.1.2 實(shí)驗(yàn)評(píng)價(jià)方式
為了驗(yàn)證本文提出方法的有效性,實(shí)驗(yàn)選取目前較為流行或是經(jīng)典的用戶影響力分析算法作為對(duì)比,具體方法如下。
(1)經(jīng)典的PageRank算法;
(2)Weng等[2]提出的TwitterRank算法;
(3)Brank[10]算法:基于PageRank算法進(jìn)行的改進(jìn),從跟隨者和追隨者的角度雙向交互,通過(guò)轉(zhuǎn)發(fā)強(qiáng)度、評(píng)論強(qiáng)度、體積密度等方面來(lái)衡量用戶影響力;
(4)RBrank[15]:該方法通過(guò)將用戶活動(dòng)添加到Page-Rank 中獲得改進(jìn)的算法;
(5)MDIR[17]算法:該方法通過(guò)融合用戶基本屬性、用戶交互行為、用戶博文內(nèi)容多個(gè)維度來(lái)計(jì)算用戶影響力。
實(shí)驗(yàn)利用N折交叉驗(yàn)證方法,即最后的參考標(biāo)準(zhǔn)結(jié)果由多種算法投票結(jié)果確定。例如給定5個(gè)算法A,B,C,D,E計(jì)算得到Top-K個(gè)高影響力用戶集合分別為IA,IB,IC,ID,IE。此時(shí)取N=2,即2種算法都投票正確的結(jié)果為參考的正確結(jié)果,用I2表示,如下所示
I2=(IA∩IB)∪(IA∩IC)∪(IA∩ID)∪(IA∩IE)∪
(IB∩IC)∪(IB∩ID)∪(IB∩IE)∪(IC∩ID)∪
(IC∩IE)∪(ID∩IE)
(10)
對(duì)于算法A準(zhǔn)確率PA的計(jì)算公式如式(11)所示
(11)
算法A的召回率RA計(jì)算公式如式(12)所示
(12)
算法A的F1值FA計(jì)算公式如式(13)所示
(13)
本文初始化參數(shù)α,β,ω,θ分別為0.6、0.4、0.8、0.2,具體的參數(shù)選擇實(shí)驗(yàn)會(huì)在3.2.2節(jié)中進(jìn)行分析。實(shí)驗(yàn)分別在N=2,3,4,5時(shí)驗(yàn)證各個(gè)算法的準(zhǔn)確率和召回率,當(dāng)N=6時(shí),由于參考的正確結(jié)果集合為6種算法結(jié)果的交集,從而導(dǎo)致所有算法均具有相同的準(zhǔn)確率和召回率,所以N=6的實(shí)驗(yàn)不具備討論價(jià)值。因此,在本文中只針對(duì)N=2,3,4,5的4種情況,對(duì)6種算法分別計(jì)算Top-K(K取值為50,100,200,400,800,1600)影響力用戶的準(zhǔn)確率、召回率進(jìn)行比較。
3.2.1 算法準(zhǔn)確率與召回率驗(yàn)證
如圖3所示的實(shí)驗(yàn)結(jié)果可知,本文提出的FDRank算法在4組用戶規(guī)模為Top-K的情況下準(zhǔn)確率均取得了較優(yōu)的結(jié)果,但由于N折交叉驗(yàn)證所取參考標(biāo)準(zhǔn)的值不同,實(shí)驗(yàn)效果也有所不同。由于參考標(biāo)準(zhǔn)值N設(shè)置過(guò)小(N=2),參考標(biāo)準(zhǔn)集合I2中元素?cái)?shù)目過(guò)多,各算法與I2交集較為一致,導(dǎo)致準(zhǔn)確率相差不大;當(dāng)標(biāo)準(zhǔn)值N設(shè)置過(guò)大(N=5)時(shí),參考標(biāo)準(zhǔn)集合中I5存在的元素較少,各算法結(jié)果與標(biāo)準(zhǔn)集的交集相差較大,故準(zhǔn)確率整體偏低;參考標(biāo)準(zhǔn)值N設(shè)置為3,4時(shí),各個(gè)算法的準(zhǔn)確率區(qū)分度較大,能體現(xiàn)各個(gè)算法準(zhǔn)確性的優(yōu)劣。
圖3 在交叉驗(yàn)證中各算法的準(zhǔn)確率
實(shí)驗(yàn)同樣對(duì)比了6種算法在不同用戶規(guī)模下,使用N折交叉驗(yàn)證的召回率。由圖4所示,4組對(duì)比實(shí)驗(yàn)中,隨著參考標(biāo)準(zhǔn)值N的增加,所有算法的召回率也呈現(xiàn)上升趨勢(shì),這是因?yàn)閰⒖紭?biāo)準(zhǔn)值N的增加,導(dǎo)致多個(gè)參考標(biāo)準(zhǔn)的交集元素減少,從而使得整體召回率上升。同時(shí)在實(shí)驗(yàn)結(jié)果中FDRank的召回率均優(yōu)于其它算法,并且在參考標(biāo)準(zhǔn)值N設(shè)置為3,4時(shí),召回率的區(qū)分度較大。可見,在N=3,4時(shí),能夠更好表征不同算法之間的優(yōu)劣,因此,在后續(xù)的實(shí)驗(yàn)中,我們對(duì)N均取值為3和4。
圖4 在交叉驗(yàn)證中各算法的召回率
3.2.2 參數(shù)對(duì)比分析
本文提出方法中,有4個(gè)待確定的參數(shù)分別是α,β,ω,θ,通過(guò)賦予這些參數(shù)不同的數(shù)值,組成權(quán)值組,采用7組不同的權(quán)值組進(jìn)行對(duì)比,并分別采用3折和4折交叉驗(yàn)證,得到各權(quán)值組的準(zhǔn)確率和召回率。從圖5和圖6中可以看出,對(duì)于不同的權(quán)值組所得到的FDRank算法準(zhǔn)確率和召回率是不同的,總體準(zhǔn)確率在0.865~0.97之間,召回率在0.811~0.926之間,其中權(quán)值組參數(shù)α,β,ω,θ分別為0.6、0.5、0.8、0.2時(shí),F(xiàn)DRank算法能取得最優(yōu)結(jié)果。從權(quán)值組參數(shù)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)用戶影響力分析結(jié)果的影響小于用戶自身質(zhì)量和評(píng)論內(nèi)容,并且對(duì)于用戶自身質(zhì)量來(lái)說(shuō),用戶評(píng)論回復(fù)率的影響程度高于用戶評(píng)論點(diǎn)贊率。
圖5 各權(quán)值組準(zhǔn)確率比較
圖6 各權(quán)值組召回率比較
為了更進(jìn)一步驗(yàn)證本文提出方法的有效性,通過(guò)將FDRank算法的模塊進(jìn)行拆分,分別設(shè)計(jì)幾種不同的組合進(jìn)行實(shí)驗(yàn):
組合1:FDRank1為單獨(dú)使用網(wǎng)絡(luò)結(jié)構(gòu)影響力進(jìn)行分析;
組合2:FDRank2由網(wǎng)絡(luò)結(jié)構(gòu)影響力和評(píng)論內(nèi)容影響力組成;
組合3:FDRank3由網(wǎng)絡(luò)結(jié)構(gòu)影響力、評(píng)論內(nèi)容影響力以及評(píng)論的情感值組成。
將4種FDRank組合算法分別與3.1.2節(jié)中提及的5種對(duì)比算法進(jìn)行4折交叉驗(yàn)證,得到每種FDRank組合算法的F值,見表2。
表2 FDRank組合算法F值的比較結(jié)果
從表中可以發(fā)現(xiàn),F(xiàn)DRank3在不同Top-K用戶集獲得的F值比FDRank2平均高了0.035,而FDRank3相較于FDRank2添加了評(píng)論的情感值作為一個(gè)影響因素,這也驗(yàn)證在計(jì)算用戶影響力時(shí),通過(guò)分析用戶所發(fā)布評(píng)論的情感傾向有助于計(jì)算用戶的影響力。同時(shí)從表中可以發(fā)現(xiàn),在增加用戶自身質(zhì)量后,F(xiàn)值提升最為明顯,說(shuō)明用戶自身質(zhì)量是用戶影響力計(jì)算中非常關(guān)鍵的因素。
本文從新聞評(píng)論內(nèi)容的影響力、評(píng)論的情感值、用戶自身質(zhì)量以及用戶的網(wǎng)絡(luò)結(jié)構(gòu)4方面考慮,提出FDRank算法。將評(píng)論內(nèi)容的情感值作為用戶影響力分析的特征,實(shí)驗(yàn)結(jié)果表明,用戶評(píng)論內(nèi)容的情感極性是分析用戶影響力的有效特征。在與多個(gè)算法的對(duì)比實(shí)驗(yàn)中,F(xiàn)DRank算法均取得最優(yōu)結(jié)果,準(zhǔn)確率和召回率最高為97%和92.5%,相較于排名第二的MDIR算法,在不同的Top-K下準(zhǔn)確率和召回率平均提升了4.3%和2.9%。本文在參數(shù)對(duì)比分析實(shí)驗(yàn)中考慮的參數(shù)權(quán)值組合有限,未能更有效定位最優(yōu)參數(shù),下一步的工作考慮自動(dòng)化參數(shù)學(xué)習(xí)方式,探索采用Attention機(jī)制實(shí)現(xiàn)對(duì)模型參數(shù)的自動(dòng)學(xué)習(xí)。