楊瑞仙 黃書瑞 王彰奇
摘?要:[目的/意義]針對(duì)目前學(xué)術(shù)虛擬社區(qū)存在對(duì)核心用戶興趣變化關(guān)注不足的問題,本文基于艾賓浩斯遺忘曲線構(gòu)建用戶興趣遷移模型,以準(zhǔn)確描述核心用戶的興趣遷移,提升對(duì)核心用戶個(gè)性化推薦結(jié)果的準(zhǔn)確率。[方法/過程]以“小木蟲論壇”為研究對(duì)象,構(gòu)建用戶影響力評(píng)估指標(biāo)和問答網(wǎng)絡(luò),分別利用熵權(quán)法和PageRank算法識(shí)別核心用戶。在此基礎(chǔ)上,基于艾賓浩斯遺忘曲線構(gòu)建核心用戶興趣遷移模型,并對(duì)此模型的適用性進(jìn)行驗(yàn)證。[結(jié)果/結(jié)論]本文所構(gòu)建的核心用戶興趣遷移模型能更好地反映核心用戶的興趣遷移。
關(guān)鍵詞:學(xué)術(shù)虛擬社區(qū);用戶興趣遷移模型;小木蟲;熵權(quán)法;PageRank算法;核心用戶識(shí)別;艾賓浩斯遺忘曲線;協(xié)同過濾算法
DOI:10.3969/j.issn.1008-0821.2021.02.002
〔中圖分類號(hào)〕G203?〔文獻(xiàn)標(biāo)識(shí)碼〕A?〔文章編號(hào)〕1008-0821(2021)02-0010-09
Abstract:[Objective/Meaning]Aiming at the current academic virtual community's insufficient attention to changes in core user interest,this paper builds a user interest transfer model based on the Ebbinghaus forgetting curve to accurately describe the core user's interest transfer and improve the accuracy of personalized recommendations for core users.[Method/Process]The paper took the“emuch BBS”as the research object,constructed user influence evaluation indicators and question-and-answer network,and then respectively used entropy method and PageRank algorithm to identify core users.On this basis,the core user interest transfer model was constructed based on the Ebbinghaus Forgetting Curve,and the applicability of this model was verified.[Results/Conclusions]The core user interest transfer model constructed in this paper could better reflect the core user's interest transfer.
Key words:academic virtual community;user interest migration model;emuch BBS;entropy weight method;PageRank algorithm;core user identification;ebbinghaus forgetting curve;collaborative filtering algorithm
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)空間發(fā)展理念逐漸由面向數(shù)據(jù)轉(zhuǎn)變?yōu)槊嫦蛴脩?。如今,隨著社交媒體的出現(xiàn),經(jīng)管之家(原人大經(jīng)濟(jì)論壇)、科學(xué)網(wǎng)博客、小木蟲學(xué)術(shù)科研互動(dòng)平臺(tái)(以下簡稱“小木蟲論壇”)等學(xué)術(shù)虛擬社區(qū)逐漸成為科研人員涉足的非正式科研交流新場所。在學(xué)術(shù)虛擬社區(qū)中,用戶可以通過發(fā)文、點(diǎn)贊、回復(fù)以及轉(zhuǎn)發(fā)等形式發(fā)布與科研相關(guān)的知識(shí),社區(qū)內(nèi)的用戶可在短時(shí)間內(nèi)完成知識(shí)交流的過程,其時(shí)效性和交互性逐漸受到科研人員的青睞[1]。隨著用戶逐漸成為學(xué)術(shù)虛擬社區(qū)的核心,學(xué)術(shù)虛擬社區(qū)能夠吸引多少用戶成為該社區(qū)是否成功的一項(xiàng)重要衡量指標(biāo)。然而,信息的爆炸式增長使得用戶在海量數(shù)據(jù)中獲取其感興趣內(nèi)容的需求難以滿足,進(jìn)而導(dǎo)致用戶對(duì)社區(qū)的關(guān)注度缺失[2]。在此背景下,學(xué)者們開始關(guān)注從海量數(shù)據(jù)中挖掘具有潛在價(jià)值的信息和知識(shí)的研究,并提出了用戶個(gè)性化服務(wù)的概念。用戶個(gè)性化服務(wù)是以用戶為本,通過各種渠道收集、整理和分類用戶的歷史行為數(shù)據(jù),了解用戶的興趣,向用戶推薦相關(guān)信息,以滿足用戶的信息需求。對(duì)用戶興趣的研究是精準(zhǔn)化推薦的重要基礎(chǔ),用戶興趣模型的好壞直接影響著相關(guān)分析和服務(wù)的準(zhǔn)確度。
學(xué)術(shù)虛擬社區(qū)中的核心用戶指在人際傳播中為他人提供信息,同時(shí)也對(duì)他人施加影響的“活躍分子”[3],他們既是信息傳播過程中的主要擴(kuò)散者,也是權(quán)威起源者,由此形成了社交網(wǎng)絡(luò)中的信息級(jí)聯(lián)傳播,這在社交網(wǎng)絡(luò)的知識(shí)傳播交流過程中發(fā)揮著至關(guān)重要的作用。由于學(xué)術(shù)虛擬社區(qū)信息資源的極大豐富和核心用戶在知識(shí)交流過程中的關(guān)鍵地位,識(shí)別學(xué)術(shù)虛擬社區(qū)中的核心用戶,并根據(jù)他們的歷史行為信息了解他們的興趣偏好,以實(shí)現(xiàn)對(duì)核心用戶的個(gè)性化推薦,對(duì)社區(qū)的建設(shè)和發(fā)展而言顯得尤為重要。
協(xié)同過濾推薦算法可以根據(jù)用戶歷史行為數(shù)據(jù)挖掘用戶的興趣偏好,預(yù)測用戶可能感興趣的內(nèi)容并向其推薦,實(shí)現(xiàn)對(duì)用戶的個(gè)性化推薦,并在電子商務(wù)中得到了廣泛應(yīng)用[4]。本文通過協(xié)同過濾算法計(jì)算核心用戶興趣遷移模型推薦結(jié)果的準(zhǔn)確率,進(jìn)而評(píng)估模型性能。
在學(xué)術(shù)虛擬社區(qū)中,“小木蟲論壇”擁有良好的交流氛圍及豐富的學(xué)術(shù)資源,已成為最具影響力的學(xué)術(shù)虛擬社區(qū)之一。為此,本文主要以“小木蟲論壇”為研究對(duì)象,通過構(gòu)建用戶影響力評(píng)估指標(biāo)體系和問答網(wǎng)絡(luò)識(shí)別學(xué)術(shù)虛擬社區(qū)中的核心用戶;利用用戶的發(fā)帖相關(guān)信息構(gòu)建核心用戶興趣遷移模型;通過協(xié)同過濾算法驗(yàn)證該模型的合理性,為社區(qū)的建設(shè)和發(fā)展提供參考建議。
1?相關(guān)研究
相關(guān)學(xué)者通過文獻(xiàn)調(diào)研發(fā)現(xiàn),有關(guān)核心用戶興趣的研究是個(gè)性化信息服務(wù)的重要基礎(chǔ),深入分析核心用戶興趣是精準(zhǔn)化信息投放的有力保障。Koren Y和Liu J等[5-6]認(rèn)為用戶的興趣偏好可能隨時(shí)間變化,一些學(xué)者提出部分存儲(chǔ)模型描述用戶興趣隨時(shí)間變化的現(xiàn)象[7-8]。如于洪濤等[9]基于遺忘曲線提出了用戶興趣模型,認(rèn)為用戶所關(guān)注信息距離當(dāng)前時(shí)間越遠(yuǎn)越容易被遺忘,用戶關(guān)注某領(lǐng)域的信息越多,對(duì)該領(lǐng)域的興趣度越高;董晨露等[10]根據(jù)用戶評(píng)論將遺忘曲線引入傳統(tǒng)過濾算法中,利用遺忘曲線描述用戶興趣遷移;王占等[11]綜合用戶信任度、用戶相似度以及用戶興趣遷移,為目標(biāo)用戶推薦項(xiàng)目。相關(guān)研究表明,目前有關(guān)用戶興趣隨時(shí)間變化的研究大多從用戶在以往某個(gè)時(shí)刻與當(dāng)前時(shí)間的時(shí)間間隔角度計(jì)算用戶在不同主題方向的興趣度變化,有關(guān)用戶在相鄰時(shí)間窗興趣變化的研究尚顯不足,這不利于準(zhǔn)確把握用戶興趣隨時(shí)間的變化。此外,針對(duì)核心用戶興趣遷移的研究較為匱乏。
已有研究表明[12-14],用戶原創(chuàng)主題帖內(nèi)容豐富,能夠在很大程度上體現(xiàn)用戶的興趣方向,對(duì)用戶發(fā)帖信息進(jìn)行研究具有重要意義。由此,本文首先獲取“小木蟲論壇”的相關(guān)數(shù)據(jù)項(xiàng),利用熵權(quán)法計(jì)算用戶的影響力,構(gòu)建用戶問答網(wǎng)絡(luò),利用PageRank算法計(jì)算用戶在社交網(wǎng)絡(luò)中的重要性,進(jìn)而識(shí)別核心用戶;同時(shí)基于艾賓浩斯遺忘曲線建立核心用戶興趣遷移模型。此研究為提高學(xué)術(shù)虛擬社區(qū)用戶粘性,促進(jìn)學(xué)術(shù)虛擬社區(qū)的建設(shè)和發(fā)展具有一定參考意義。
2?研究方法
本文主要采用熵權(quán)法計(jì)算用戶影響力,在此基礎(chǔ)上構(gòu)建用戶問答網(wǎng)絡(luò),利用PageRank算法計(jì)算用戶在問答網(wǎng)絡(luò)中的重要性,進(jìn)而識(shí)別核心用戶。在此基礎(chǔ)上,采用艾賓浩斯遺忘曲線計(jì)算不同時(shí)刻用戶在各主題方向的興趣度,構(gòu)建核心用戶興趣遷移模型,并通過實(shí)驗(yàn)驗(yàn)證此模型的性能。
2.1?核心用戶識(shí)別方法
2.1.1?熵權(quán)法
熵權(quán)法是一種以信息熵為權(quán)重標(biāo)準(zhǔn),計(jì)算各指標(biāo)權(quán)重的方法。熵是表征系統(tǒng)無序程度的一個(gè)度量,香農(nóng)最早將其引入信息論中。根據(jù)信息論的基本原理,信息是系統(tǒng)有序程度的一個(gè)度量,因此稱熵的度量值為信息熵[15]。信息熵可用于度量隨機(jī)指標(biāo)的不確定程度,以解決信息量度量的問題。某一指標(biāo)的信息熵越小,該指標(biāo)提供的信息量越大,在綜合評(píng)價(jià)中的作用越大,權(quán)重越高[16]。因而,可利用熵權(quán)法確定各指標(biāo)的權(quán)重,以減少主觀因素對(duì)指標(biāo)權(quán)重的影響,進(jìn)而使評(píng)價(jià)結(jié)果更為客觀。
本文利用熵權(quán)法確定各指標(biāo)權(quán)重的過程如下:
1)原始數(shù)據(jù)標(biāo)準(zhǔn)化。對(duì)原始數(shù)據(jù)的標(biāo)準(zhǔn)化處理公式見式(1):
式(1)中,xij表示原始數(shù)據(jù)第i個(gè)評(píng)價(jià)對(duì)象的第j個(gè)評(píng)價(jià)指標(biāo);yij表示標(biāo)準(zhǔn)化后第i個(gè)評(píng)價(jià)對(duì)象在第j個(gè)指標(biāo)的值。
2)計(jì)算指標(biāo)j的熵值,見式(2):
3)計(jì)算指標(biāo)j的權(quán)重。ej值越小,表明指標(biāo)效用價(jià)值越高,在評(píng)價(jià)指標(biāo)體系中所起的作用越大,權(quán)重也就越高。指標(biāo)j的權(quán)重見式(3):
4)各指標(biāo)加權(quán)計(jì)算綜合得分。利用加權(quán)和公式計(jì)算樣本的得分或評(píng)價(jià)值,見式(4):
2.1.2?PageRank算法
PageRank算法是一種由搜索引擎根據(jù)網(wǎng)頁間的超鏈接計(jì)算網(wǎng)頁重要性的技術(shù)。近年來大量研究都致力于利用改進(jìn)的PageRank算法挖掘社交網(wǎng)絡(luò)中的核心用戶[17]。本文利用PageRank算法網(wǎng)頁排名的這一特性體現(xiàn)問答網(wǎng)絡(luò)中節(jié)點(diǎn)的相關(guān)性和重要性。
PageRank算法通過網(wǎng)絡(luò)的超鏈接關(guān)系確定一個(gè)頁面的等級(jí),把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,根據(jù)投票來源和投票目標(biāo)的等級(jí)確定新的等級(jí)。簡單地說,一個(gè)高等級(jí)頁面可以提升其他低等級(jí)頁面的等級(jí)。PageRank算法如下,假設(shè)有一個(gè)由A、B、C和D這4個(gè)頁面組成的小團(tuán)體,如果所有頁面均鏈向A,那么A的PageRank值(以下簡稱PR值)就是B、C、D的PR值之和,即PR(A)=PR(B)+PR(C)+PR(D)。假設(shè)B也有到C的鏈接,且D也有鏈接到包括A的3個(gè)頁面,由于一個(gè)頁面不能投票2次,所以B給每個(gè)頁面投半票。同理,D的投票只有1/3算到了A的PR值上,此時(shí)A的PR值為PR(A)=PR(B)2+PR(C)1+PR(D)3,即根據(jù)鏈出頁面的總數(shù)評(píng)估一個(gè)頁面的PR值,即如果L(X)表示從X鏈出頁面的數(shù)量,那么PR(A)=PR(B)L(B)+PR(C)L(C)+PR(D)L(D)。
為保證鏈出頁面的公平,本文規(guī)定阻尼系數(shù)(Damping Factoe)q為常規(guī)值0.85,其表示用戶在任意時(shí)刻達(dá)到某頁面后繼續(xù)向后瀏覽的概率。1-q表示用戶停止點(diǎn)擊,隨機(jī)跳轉(zhuǎn)到新頁面的概率。Google通過數(shù)學(xué)系統(tǒng)給每個(gè)頁面一個(gè)初始PR值,其計(jì)算過程如式(5)所示。
式(5)中,p1,p2,…,pN指被研究頁面,網(wǎng)絡(luò)中存在由頁面pj指向pi的鏈接,L(pj)是pj鏈出頁面的數(shù)量,N是所有頁面的數(shù)量,q為阻尼系數(shù)。
所有頁面的PR值是特殊矩陣中的特征向量,這個(gè)特征向量可表示為:
式(6)中,φ(pi,pj)=1L(pj),如果pj不鏈向pi,且對(duì)每個(gè)j都成立,那么φ(pi,pj)=0,且∑Ni=1φ(pi,pj)=1。
因此,一個(gè)頁面的PR值由其他頁面的PR值計(jì)算所得,如果每個(gè)頁面有一個(gè)隨機(jī)的PR值(非0),那么經(jīng)過不斷地重復(fù)計(jì)算,這些頁面的PR值會(huì)逐漸趨向于正常和穩(wěn)定。
2.2?遺忘曲線
在分析用戶興趣的背景下,遺忘曲線是指用戶興趣偏好程度隨時(shí)間逐漸衰減過程的數(shù)學(xué)函數(shù)[18]。德國心理學(xué)家Hermann E[19]通過對(duì)人類大腦接觸新事物時(shí)的遺忘規(guī)律進(jìn)行系統(tǒng)實(shí)驗(yàn)和深入分析,提出了反映人類中長期記憶的艾賓浩斯遺忘曲線,并對(duì)記憶時(shí)效隨時(shí)間的變化特征加以描述。艾賓浩斯遺忘曲線可以反映人們的興趣偏好或記憶隨時(shí)間增長慢慢減弱的變化[20],有學(xué)者采用負(fù)指數(shù)曲線對(duì)其進(jìn)行擬合,其量化函數(shù)如式(7)所示。
式(7)中,p0為初始記憶量,k為遺忘速率,用以反映遺忘曲線衰減速度的差異[21]。
2.3?協(xié)同過濾算法
協(xié)同過濾推薦算法是根據(jù)其他用戶的觀點(diǎn)對(duì)目標(biāo)用戶推薦其感興趣話題的算法,它基于這樣一個(gè)假設(shè)[22]:如果用戶對(duì)一些項(xiàng)目的評(píng)分較為相似,則他們對(duì)其他項(xiàng)目的評(píng)分也較為相似。協(xié)同過濾推薦算法使用統(tǒng)計(jì)技術(shù)搜索目標(biāo)用戶的若干最近鄰居,然后根據(jù)最近鄰居對(duì)項(xiàng)目的評(píng)分預(yù)測目標(biāo)用戶對(duì)項(xiàng)目的評(píng)分,并產(chǎn)生對(duì)應(yīng)的推薦列表。為找到目標(biāo)用戶的最近鄰居,首先度量用戶間的相似性,然后選擇相似性最高的若干用戶作為目標(biāo)用戶的最近鄰居。目標(biāo)用戶最近鄰居查詢的準(zhǔn)確性直接關(guān)系到整個(gè)推薦系統(tǒng)的推薦質(zhì)量。
在推薦系統(tǒng)中,用戶對(duì)所有產(chǎn)品評(píng)價(jià)的數(shù)據(jù)庫中包含s個(gè)用戶的集合U={U1,U2,…,Us}和t個(gè)產(chǎn)品的集合I={I1,I2,…,It}。用戶評(píng)分?jǐn)?shù)據(jù)集表示為一個(gè)s×t階的矩陣,如表1所示。本文主要研究不同時(shí)刻用戶在各主題方向的興趣度,故將用戶發(fā)帖的主題方向視為產(chǎn)品評(píng)價(jià)中的產(chǎn)品,將某一時(shí)刻用戶在不同主題方向的興趣度視為用戶評(píng)分,在此基礎(chǔ)上展開研究。
用戶—發(fā)帖主題方向興趣度矩陣中共有s行代表s個(gè)用戶,t列代表t個(gè)發(fā)帖主題方向。假設(shè)某一用戶Ua對(duì)發(fā)帖主題Ij(其中Ua∈U,Ij∈I)的興趣度為Ra,j,這個(gè)興趣度體現(xiàn)了用戶Ua對(duì)主題方向Ij的興趣和偏好程度。
2.3.1?相似性度量方法
相似性計(jì)算可以是在用戶間的相似性計(jì)算,也可以是產(chǎn)品間的計(jì)算[23]。本節(jié)中以用戶間的相似性研究為例,即基于用戶的協(xié)同過濾算法。余弦相似性可通過向量間的余弦夾角計(jì)算度量,其計(jì)算過程如式(8)所示。
式(8)中,Ra,k表示用戶Ua對(duì)主題方向Ik的興趣度,Sim(Ua,Ub)表示用戶間的相似性,它的取值范圍在[0,1]區(qū)間中,Sim(Ua,Ub)的值越大,表示用戶Ua和Ub間的相似性越大。
2.3.2?最近鄰(KNN)協(xié)同過濾算法
KNN協(xié)同過濾推薦算法是采用k個(gè)最相似的近鄰用戶預(yù)測興趣度的一種算法。通常推薦系統(tǒng)對(duì)某一用戶Ua主要有兩個(gè)任務(wù):
1)在用戶發(fā)帖主題集中,選擇某一用戶a未曾發(fā)過的主題方向Ij,Ij不屬于Ra,j。
2)在用戶未發(fā)過的主題帖中,預(yù)測用戶興趣度最大的N個(gè)主題方向(N≥1),選擇推薦給用戶。
通過計(jì)算用戶間的相似性,基于用戶的協(xié)同過濾算法為未知的Ij尋找k個(gè)近鄰,即與Ua最相似的k個(gè)用戶,定義為:S(Ua)且S(Ua)=k,以預(yù)測用戶在某個(gè)主題方向的興趣度,該算法的實(shí)現(xiàn)過程如式(9)所示。
式(9)中,a、b分別表示用戶Ua、Ub對(duì)其他主題方向興趣度的均值,Rb,j表示用戶Ub對(duì)主題方向Ib的預(yù)測興趣度。
3?核心用戶興趣遷移模型構(gòu)建
3.1?核心用戶識(shí)別
在識(shí)別核心用戶前,本文首先根據(jù)用戶在學(xué)術(shù)虛擬社區(qū)中的行為信息,從用戶積極性和權(quán)威性兩個(gè)維度構(gòu)建用戶影響力評(píng)估指標(biāo),然后采用熵權(quán)法計(jì)算用戶在學(xué)術(shù)虛擬社區(qū)中的影響力,并在此基礎(chǔ)上構(gòu)建用戶間的問答網(wǎng)絡(luò),利用PageRank算法計(jì)算用戶在社交網(wǎng)絡(luò)中的重要性,識(shí)別社區(qū)中的核心用戶。
3.1.1?用戶影響力評(píng)估指標(biāo)構(gòu)建
本文在進(jìn)行學(xué)術(shù)虛擬社區(qū)用戶影響力計(jì)算前,首先構(gòu)造學(xué)術(shù)虛擬社區(qū)用戶影響力的評(píng)估指標(biāo),用戶影響力包括用戶積極性和權(quán)威性兩個(gè)一級(jí)指標(biāo),其中用戶積極性包括用戶應(yīng)助數(shù)、散花數(shù)、發(fā)帖數(shù)、沙發(fā)數(shù)4個(gè)二級(jí)指標(biāo),用戶權(quán)威性包括聽眾人數(shù)、紅花數(shù)、貴賓值、金幣數(shù)4個(gè)二級(jí)指標(biāo),如表2所示。
3.1.2?問答網(wǎng)絡(luò)的構(gòu)建
在大多數(shù)識(shí)別核心用戶的文獻(xiàn)中,社交網(wǎng)絡(luò)分析法具有較為明顯的優(yōu)勢[24]。為了在學(xué)術(shù)虛擬社區(qū)中綜合性地識(shí)別核心用戶,本文借鑒郭博等的研究思路[25],結(jié)合“小木蟲論壇”的數(shù)據(jù)特征,利用學(xué)術(shù)虛擬社區(qū)中用戶間的問答互動(dòng)行為信息,構(gòu)建了一個(gè)基于用戶間問答關(guān)系的問答網(wǎng)絡(luò)結(jié)構(gòu)。根據(jù)已建立的學(xué)術(shù)虛擬社區(qū)網(wǎng)絡(luò)結(jié)構(gòu),本文首先計(jì)算問答網(wǎng)絡(luò)中每位用戶的影響力,在此基礎(chǔ)上結(jié)合用戶問答網(wǎng)絡(luò)結(jié)構(gòu)利用PageRank算法計(jì)算社交網(wǎng)絡(luò)中每位用戶的重要性,以挖掘?qū)W術(shù)虛擬社區(qū)中的核心用戶。該研究過程及其框架如圖1所示:
3.1.3?用戶PageRank綜合值計(jì)算
PageRank算法是數(shù)據(jù)挖掘領(lǐng)域較常見的一種算法,該算法利用每一頁面的權(quán)威值評(píng)估網(wǎng)頁在網(wǎng)站中的重要性。頁面的權(quán)威值被定義為指向該頁面的其他頁面平均分配給該頁面的權(quán)威值之和,通過迭代計(jì)算可以得到該網(wǎng)頁最終等級(jí)劃分[26]。假設(shè)用戶在問答網(wǎng)絡(luò)中均與其他用戶具有相應(yīng)的交互關(guān)系,本文將PageRank算法的思想用于計(jì)算社交網(wǎng)絡(luò)中每位用戶在社交網(wǎng)絡(luò)中的重要性。
學(xué)術(shù)虛擬社區(qū)中的問答網(wǎng)絡(luò)為加權(quán)有向網(wǎng)絡(luò),由于問答網(wǎng)絡(luò)需要考慮邊的權(quán)重,因此在計(jì)算時(shí)需要在每個(gè)頂點(diǎn)形成權(quán)威值的不對(duì)等傳遞,以真實(shí)地反映每位用戶的影響力。將兩個(gè)頂點(diǎn)之間的邊權(quán)重表示為式(10):
式(10)中,p(i)為利用熵權(quán)法根據(jù)用戶的積極性和權(quán)威性計(jì)算的用戶影響力,Nij為用戶i與用戶j在問答關(guān)系中出現(xiàn)的頻次。本文根據(jù)傳統(tǒng)的PageRank算法式(7)將每個(gè)頂點(diǎn)i在問答網(wǎng)絡(luò)中的綜合值QR(i)可以表示為式(11):
式(11)中,α為阻尼系數(shù),在大多數(shù)情況下α取值為0.85[27]。本文將控制迭代結(jié)束的參數(shù)e設(shè)定為10-7。
3.2?興趣遷移模型構(gòu)建
用戶興趣偏好隨時(shí)間的衰減過程與艾賓浩斯遺忘率的相關(guān)概念類似[18],當(dāng)用戶剛接觸某類別內(nèi)容時(shí),可認(rèn)為此刻用戶對(duì)該主題方向的興趣度最高,然而隨著時(shí)間的推移,若在一定時(shí)間內(nèi)沒有持續(xù)的刺激,用戶在該主題方向的興趣度將會(huì)持續(xù)衰減,直至用戶的整體興趣度保持在有效記錄時(shí)間窗外的長期興趣度水平。在用戶興趣偏好變化理論的基礎(chǔ)上,本文通過定義遺忘曲線、時(shí)間窗與衰減率將時(shí)間因子與用戶興趣建立聯(lián)系。參照式(7)用戶興趣衰減階段,本文將以上過程用數(shù)學(xué)公式進(jìn)行描述,則用戶興趣度的量化函數(shù)如式(12)所示。
式(12)中,Wtn-1為處理本條記錄前一刻用戶的興趣度,θ是衰減因子,t0是有效記錄的起始時(shí)間。
同時(shí),在用戶興趣衰減的過程中,若在對(duì)應(yīng)興趣類別下有新數(shù)據(jù)加入,即用戶在有效記錄時(shí)段多次發(fā)布此主題方向的內(nèi)容,根據(jù)式(12),用戶興趣度的變化情況如圖2所示。圖2中t1、t2、t3分別表示用戶3次發(fā)帖的主題方向內(nèi)容以及用戶興趣加入的時(shí)刻,整個(gè)興趣度變化呈現(xiàn)為分段函數(shù),每一階段均為1次新函數(shù)的衰減過程。以(t1,t2)和(t2,t3)的兩個(gè)衰減過程為例,兩衰減過程的主要區(qū)別是本階段的起始位置p1和p2,每次加入新條目后的增量h1和h2,以及衰減率θ,根據(jù)這些指標(biāo)即可計(jì)算任意時(shí)刻用戶的興趣度。
圖2?用戶興趣的變化趨勢圖
由圖2可知,在給定時(shí)間窗內(nèi),第n個(gè)衰減過程的起始位置pn是由上一衰減過程的剩余量rn-1與本次激勵(lì)下興趣度的增長量hn疊加而成,其起始位置的計(jì)算方法如式(13)所示。
對(duì)于每次激勵(lì)下用戶的興趣度增長量hn,因用戶在重復(fù)發(fā)表某一主題方向的內(nèi)容時(shí),每次提升的興趣度并不等量,隨著重復(fù)次數(shù)的增加,用戶在此方向的興趣度總量不斷增大,且這一增加過程逐漸趨于平緩,并最終收斂于某最大值。由此可知,在一定時(shí)間內(nèi),用戶所發(fā)布的特定主題方向的帖子記錄越多,每次興趣度的增量越少,可使用負(fù)指數(shù)函數(shù)對(duì)該過程進(jìn)行描述,則每次激勵(lì)下用戶興趣的增量如式(14)所示。
由式(7)、(12)~(14)可得用戶在任意衰減過程中的興趣度初始值,如式(15)所示。
用戶興趣度能體現(xiàn)出用戶對(duì)該主題方向的興趣程度,但從用戶發(fā)帖標(biāo)簽中提取的用戶興趣則需要考慮時(shí)效性。在實(shí)際分析過程中,研究人員通常以自分析時(shí)刻起,相鄰一段時(shí)間(如30天)的行為記錄作為用戶興趣偏好的分析目標(biāo)。p0為用戶興趣增量的初始值,衰減率θ設(shè)定為時(shí)間窗長度的倒數(shù)。
4?實(shí)證研究
4.1?數(shù)據(jù)來源
本文以“小木蟲論壇”為研究對(duì)象,首先利用Python程序分別獲取“小木蟲論壇”中“有機(jī)交流”“第一性原理”“微米和納米”“金融投資”4個(gè)版塊所有用戶的url;然后訪問獲取用戶的url,提取出用戶id、性別、生日、專業(yè)、分組等用戶背景信息,用戶應(yīng)助數(shù)、散花數(shù)、發(fā)帖數(shù)、沙發(fā)數(shù)等用戶積極性信息,用戶聽眾人數(shù)、紅花數(shù)、貴賓值、金幣數(shù)等用戶權(quán)威性信息,以及用戶發(fā)帖內(nèi)容、發(fā)帖標(biāo)簽等用戶發(fā)帖信息,并將所獲取的數(shù)據(jù)項(xiàng)存入Postgres數(shù)據(jù)庫中。其中,用戶發(fā)帖內(nèi)容可用于表征用戶的興趣方向,用戶發(fā)帖標(biāo)簽可用于概括用戶發(fā)帖信息的內(nèi)涵,且根據(jù)“小木蟲論壇”社區(qū)的版塊導(dǎo)航結(jié)構(gòu),可將發(fā)帖標(biāo)簽映射到16個(gè)主題方向上,用戶發(fā)帖標(biāo)簽在各主題方向的映射結(jié)構(gòu)(部分)如表3所示。為反映用戶的發(fā)帖信息特征,本文利用SQL腳本對(duì)所獲取的數(shù)據(jù)項(xiàng)進(jìn)行刪除殘缺項(xiàng)等清洗和整理操作,并將739名用戶在2015年1月1日—2020年1月1日的11 119條發(fā)帖信息作為本研究的數(shù)據(jù)集。
4.2?核心用戶識(shí)別
本文采用熵權(quán)法分別計(jì)算各級(jí)指標(biāo)的權(quán)重,分別得到用戶活躍性各指標(biāo)對(duì)應(yīng)的權(quán)重w和信息熵e如表4所示,用戶權(quán)威性各指標(biāo)對(duì)應(yīng)的權(quán)重w和信息熵e如表5所示,用戶影響力各指標(biāo)對(duì)應(yīng)的權(quán)重w和信息熵e如表6所示。
由表4可知,在用戶活躍性指標(biāo)中,用戶沙發(fā)數(shù)對(duì)用戶活躍性影響最大,權(quán)重為0.32,其次為應(yīng)助數(shù),權(quán)重為0.26,由此首先評(píng)論用戶發(fā)帖的用戶和主動(dòng)幫助他人解決問題的用戶對(duì)用戶活躍性的影響最大,因此,社區(qū)管理者可通過激勵(lì)用戶成為帖子的首位評(píng)論者、鼓勵(lì)用戶積極幫助解答他人的求助問題等方式提升學(xué)術(shù)虛擬社區(qū)用戶的積極性。由表5可知,用戶的貴賓值對(duì)用戶權(quán)威性影響最大,權(quán)重值為0.38,其次為聽眾人數(shù)和紅花數(shù),權(quán)重值均為0.22。由表6可知,相比于用戶活躍性,用戶權(quán)威性對(duì)用戶影響力的影響最大,權(quán)重為0.55,因此用戶若想提升自身在學(xué)術(shù)虛擬社區(qū)中的影響力,應(yīng)該著重提升自身的權(quán)威性。
根據(jù)表4、表5和表6的計(jì)算結(jié)果,計(jì)算用戶的影響力。本文參照式(11)計(jì)算用戶在問答網(wǎng)絡(luò)中的綜合值QR,進(jìn)而識(shí)別學(xué)術(shù)虛擬社區(qū)中的核心用戶。借鑒袁潤等[27]將用戶影響力前25%的用戶作為高互動(dòng)影響力群體的結(jié)論,本文根據(jù)用戶的QR值對(duì)739名用戶進(jìn)行倒序排序,將排名前25%的185名用戶作為學(xué)術(shù)虛擬社區(qū)內(nèi)的核心用戶,其影響力綜合值排名如表7所示。
其中這185名核心用戶在5年內(nèi)共計(jì)發(fā)文5 103條,平均每人每年發(fā)文5.5條。這一結(jié)果表明學(xué)術(shù)虛擬社區(qū)核心用戶的人均發(fā)文量較少,然而社區(qū)內(nèi)的核心用戶作為社區(qū)的中堅(jiān)力量,在鼓勵(lì)其他用戶積極參與社區(qū)活動(dòng)中發(fā)揮著至關(guān)重要的作用,因此對(duì)核心用戶興趣偏好的研究就顯得尤為重要。
4.3?核心用戶興趣遷移
根據(jù)3.2節(jié)基于艾賓浩斯遺忘曲線的用戶興趣建模結(jié)果,本文在計(jì)算用戶在不同時(shí)刻各主題方向的興趣度時(shí),將用戶興趣增量的初始值p0設(shè)置為0.8,時(shí)間窗口設(shè)置為180天,則用戶的衰減因子θ為1/180。因篇幅限制,本文從185名核心用戶中隨機(jī)挑選1名社區(qū)編號(hào)為“712283”的用戶,對(duì)其在不同時(shí)間節(jié)點(diǎn)的7條發(fā)帖信息興趣度進(jìn)行展示,如表8所示。
由表8可知,用戶在某主題方向的初始興趣度值均為0.8,用戶在2015年3月26日首次發(fā)表“論壇事務(wù)區(qū)”相關(guān)主題帖,與在2019年8月22日第2次發(fā)表“論壇事務(wù)區(qū)”相關(guān)主題帖的時(shí)間間隔1 610天,興趣度由0.8衰減為0.6551,而用戶首次發(fā)表“版塊孵化區(qū)”相關(guān)主題帖的時(shí)間為2016年3月23日,與第2次在2016年5月28日發(fā)表“版塊孵化區(qū)”相關(guān)主題帖的時(shí)間間隔66天,興趣度由0.8上升為1.2094,這一結(jié)果符合艾賓浩斯遺忘曲線的假設(shè)情況。
4.4?個(gè)性化推薦實(shí)現(xiàn)
1)數(shù)據(jù)集
本文以185名核心用戶的5 103條發(fā)帖信息作為實(shí)驗(yàn)數(shù)據(jù)集,整個(gè)實(shí)驗(yàn)需要將實(shí)驗(yàn)數(shù)據(jù)集劃分為訓(xùn)練集和測試集。本文引入變量x,表示訓(xùn)練集在整個(gè)數(shù)據(jù)集的占比,如x=0.8表示隨機(jī)地將數(shù)據(jù)集中的80%作為訓(xùn)練集,20%作為測試集。在本文的所有實(shí)驗(yàn)中,均采用x=0.8作為實(shí)驗(yàn)基礎(chǔ)。
2)評(píng)價(jià)指標(biāo)
評(píng)價(jià)指標(biāo)反映一種推薦算法在運(yùn)行過程中的效果,準(zhǔn)確率反映系統(tǒng)推薦的主題帖內(nèi)容中有多少是用戶真正想要的,這是評(píng)價(jià)推薦系統(tǒng)優(yōu)劣性的一個(gè)重要指標(biāo)。推薦結(jié)果的準(zhǔn)確率計(jì)算公式如式(16)所示。
式(16)中,Precision指推薦結(jié)果的準(zhǔn)確率,R(u)是根據(jù)用戶在訓(xùn)練集中的行為為用戶推薦的列表,而T(u)是用戶在測試集上的行為列表。
3)實(shí)驗(yàn)結(jié)果
在基于用戶的協(xié)同過濾的推薦算法中,本文使用被推薦用戶的最近鄰進(jìn)行推薦,在實(shí)驗(yàn)中,本文使用該算法將最近鄰數(shù)k從2取到20,間隔為2進(jìn)行測試,利用Precision指標(biāo)分析算法的運(yùn)行效果,運(yùn)行結(jié)果如圖3所示。
由圖3可知,當(dāng)k=2時(shí),推薦結(jié)果的準(zhǔn)確率最高,達(dá)到了96.4%。隨著k值的增加,推薦結(jié)果的準(zhǔn)確率逐漸降低,當(dāng)k≥14時(shí),推薦結(jié)果的準(zhǔn)確率逐漸趨于平緩,并穩(wěn)定在93.7%上下,高于Lan等學(xué)者所提出模型的推薦結(jié)果準(zhǔn)確率[5]。故本文所構(gòu)建的核心用戶興趣遷移模型能夠更好地預(yù)估核心用戶的興趣變化,為核心用戶推薦其可能感興趣的主題帖,提升學(xué)術(shù)虛擬社區(qū)的用戶粘度。
5?結(jié)?語
本文以“小木蟲論壇”為研究對(duì)象,獲取學(xué)術(shù)虛擬社區(qū)中的用戶信息數(shù)據(jù)項(xiàng),構(gòu)建學(xué)術(shù)虛擬社區(qū)用戶影響力的評(píng)估指標(biāo)體系,利用熵權(quán)法計(jì)算各級(jí)指標(biāo)的權(quán)重,計(jì)算用戶的影響力,在此基礎(chǔ)上構(gòu)建問答網(wǎng)絡(luò),利用PageRank算法計(jì)算用戶在社交網(wǎng)絡(luò)中的重要性,識(shí)別核心用戶。在此基礎(chǔ)上,本文基于艾賓浩斯遺忘曲線計(jì)算核心用戶在不同時(shí)刻各主題方向的興趣度,構(gòu)建核心用戶興趣遷移模型,利用協(xié)同過濾算法驗(yàn)證此模型的合理性。結(jié)果顯示,此模型能夠更好地評(píng)估用戶的興趣變化,推薦結(jié)果的準(zhǔn)確率高達(dá)93.7%,有助于社區(qū)更好地根據(jù)核心用戶的歷史行為信息提供精準(zhǔn)的個(gè)性化推薦服務(wù),對(duì)于社區(qū)的建設(shè)和發(fā)展具有重要意義。
參考文獻(xiàn)
[1]Dietrich S.Internet:New Scientific Research Establishments[EB/OL].http://www.newso.org/ITNews/Trade/Internet-new-scientific-research-establishments/29eafd05-7352-451a-89bb-3d7c98495f6c,2020-08-19.
[2]Simon H A.Designing Organizations for an Information-rich World[J].Martin Greenberger Computers Communication & the Public Interest the Johns,1971,70:37-72.
[3]劉媛媛,張璇.新媒介時(shí)代微博意見領(lǐng)袖研究[J].新聞界,2016,(20):63-68.
[4]榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過濾推薦算法[J].通信學(xué)報(bào),2014,(2):16-24.
[5]Koren Y.Collaborative Filtering with Temporal Dynamics[J].Communications of the ACM,2010,53(4):89.
[6]Liu J,Deng G.Link Prediction in a User-object Network Based on Time-weighted Resource Allocation[J].Physica A:Statistical Mechanics and its Applications,2009,388(17):3643-3650.
[7]Michalski R S,Maloof M A.Incremental Learning with Partial Instance Memory[J].Artificial Intelligence:An International Journal,2004,154(1/2):95-126.
[8]Maloof M A,Michalski R S.A Method for Partial-memory Incremental Learning and Its Application to Computer Intrusion Detection[M].1995:392-397.
[9]于洪濤,崔瑞飛,董芹芹.基于遺忘曲線的微博用戶興趣模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,(10):3367-3372,3379.
[10]董晨露,柯新生.基于用戶興趣變化和評(píng)論的協(xié)同過濾算法研究[J].計(jì)算機(jī)科學(xué),2018,45(3):213-217,246.
[11]王占,林巖.基于信任與用戶興趣變化的協(xié)同過濾方法研究[J].情報(bào)學(xué)報(bào),2017,36(2):197-205.
[12]扈維,張堯?qū)W,周悅芝.基于社會(huì)化標(biāo)注的用戶興趣挖掘[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2014,54(4):502-507.
[13]何炎祥,劉續(xù)樂,陳強(qiáng),等.社交網(wǎng)絡(luò)用戶興趣挖掘研究[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(11):2385-2389.
[14]Joachims T,F(xiàn)reitag D,Mitchell T.WebWatcher:A Tour Guide for the World Wide Web[M].Pollack M E.1997:770-775.
[15]王道平,王煦.基于AHP/熵值法的鋼鐵企業(yè)綠色供應(yīng)商選擇指標(biāo)權(quán)重研究[J].軟科學(xué),2010,24(8):117-122.
[16]程啟月.評(píng)測指標(biāo)權(quán)重確定的結(jié)構(gòu)熵權(quán)法[J].系統(tǒng)工程理論與實(shí)踐,2010,30(7):1225-1228.
[17]毛國君,謝松燕,胡殿軍.PageRank模型的改進(jìn)及微博用戶影響力挖掘算法[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(5):28-32,37.
[18]朱凱歌.面向個(gè)性化服務(wù)的用戶興趣挖掘方法研究與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2018.
[19]Ebbinghaus Hermann.Memory:A Contribution to Experimental Psychology[J].Annals of Neurosciences,2013,20(4).
[20]J.Bobadilla,F(xiàn).Ortega,A.Hernando,et al.Recommender systems survey.2013,46:109-132.
[21]曾東紅,汪濤,嚴(yán)水發(fā),等.一種基于指數(shù)遺忘函數(shù)的協(xié)同過濾算法[J].科技廣場,2013,(7):10-15.
[22]Breese J S,Heckerman D,Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C]//UAI'98,San Francisco,CA,USA,1998:43-52.
[23]黃創(chuàng)光,印鑒,汪靜,等.不確定近鄰的協(xié)同過濾推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1369-1377.
[24]Yoganarasimhan H.Impact of Social Network Structure on Content Propagation:A Study Using YouTube Data[J].Quantitative Marketing & Economics,2012,10(1):111-150.
[25]郭博,許昊迪,雷水旺.知乎平臺(tái)用戶影響力分析與關(guān)鍵意見領(lǐng)袖挖掘[J].圖書情報(bào)工作,2018,62(20):122-132.
[26]Xing W,Ghorbani A A.Weighted Page-Rank Algorithm[C]//Proceeding of the Second Annual Conference on Communication Networks and Services Research,2004.
[27]袁潤,王琦.學(xué)術(shù)博客用戶畫像模型構(gòu)建與實(shí)證——以科學(xué)網(wǎng)博客為例[J].圖書情報(bào)工作,2019,63(22):13-20.
(責(zé)任編輯:陳?媛)