趙文朋 丁艷輝 金連旭 張 駿
(1.山東師范大學(xué)信息科學(xué)與工程學(xué)院 濟(jì)南 250358)(2.山東省物流優(yōu)化與預(yù)測工程技術(shù)研究中心 濟(jì)南 250358)
隨著信息技術(shù)的發(fā)展,“信息過載現(xiàn)象”日益突出[1]。為了幫助用戶更好地找到自己所感興趣的信息,推薦系統(tǒng)通過對用戶偏好進(jìn)行理解和建模,評估待推薦產(chǎn)品或事物對于用戶的感興趣程度。因此,用戶興趣度的獲取成為推薦系統(tǒng)研究中的關(guān)鍵問題。
用戶興趣度(InterestDegree,ID)是用來衡量用戶對某一主題是否感興趣以及感興趣的程度的,常采用0~1之間的實(shí)數(shù)表示[2]。用戶興趣度的獲取有顯式反饋與隱式反饋兩種方式:出一種基于混合行為興趣度的興趣模型。李建廷[4]等提出通過神經(jīng)網(wǎng)絡(luò)擬合用戶訪問同一頁面次數(shù)和駐留時(shí)間來計(jì)算用戶興趣度。黃倩[5]等本文主要關(guān)注利用隱式反饋行為來獲取用戶興趣度。宋章浩[3]等在閱讀時(shí)間異常情況下提出利用K-means進(jìn)行主題聚類,并結(jié)合用戶興趣度衰減因子得到最終用戶主題興趣度?,F(xiàn)有的方法從不同角度對用戶興趣度計(jì)算進(jìn)行了研究,然而缺少對用戶頁面瀏覽率方面的考慮,并且沒有將用戶興趣度很好的融入興趣模型的構(gòu)建。針對以上問題,本文提出一種基于隱式反饋的興趣模型。首先,獲取用戶典型頁面瀏覽行為,定義基于頁面瀏覽率和瀏覽速度的興趣度度量函數(shù)。然后,提出主題興趣度,構(gòu)建基于用戶瀏覽行為的主題興趣度模型。最后,利用構(gòu)建好的興趣模型對用戶瀏覽行為進(jìn)行分析,獲得用戶興趣度。
定義1(瀏覽頁面)已瀏覽頁面集合,記為VP(ViewedPages),VP={v p1,vp2,…vpn} VPi代表用戶在指定時(shí)間段tij(即ti-tj時(shí)間段內(nèi))已瀏覽的頁面。
定義2(用戶頁面瀏覽行為)分析用戶瀏覽行為時(shí),用戶的瀏覽動作,以及用戶對同一頁面的訪問次數(shù)和用戶在網(wǎng)頁上的瀏覽速度這3類典型的瀏覽行為,用 InterestActive(vpi)、InterestUI(v pi)、InterestSpeed(v pi)計(jì)算相應(yīng)興趣度。
用戶興趣度的取值范圍為0~1,即Interest(vpi)∈[0 , 1] 。
本文關(guān)注基于用戶瀏覽行為的興趣度計(jì)算,以基于用戶瀏覽動作InterestActive(v pi)、頁面瀏覽率InterestUI(v pi)和瀏覽速度InterestSpeed(v pi) 3種興趣度相結(jié)合的方式計(jì)算用戶興趣度Interest(v pi)。
本方法主要包含以下四個(gè)步驟:
Step1:隱式反饋信息分類;
Step2:計(jì)算基于頁面瀏覽率的用戶興趣度;
Step3:計(jì)算基于頁面瀏覽停留時(shí)間的用戶興趣度;
Step4:計(jì)算基于用戶瀏覽動作的興趣度。
基于隱式反饋興趣度度量主要是基于用戶瀏覽日志挖掘用戶的行為及持續(xù)的時(shí)間。
表1 用戶典型動作分類
設(shè)用戶在某段時(shí)間內(nèi)對某一頁面vpi瀏覽次數(shù)為Freq(v pi),另設(shè)VPi為用戶在該段時(shí)間內(nèi)瀏覽頁面總和,則Freq(VPi)為在該時(shí)間段內(nèi)用戶共瀏覽所有頁面的總次數(shù),所以,用戶對頁面vpi的瀏覽率可表示為
為及時(shí)更新用戶興趣,準(zhǔn)確表達(dá)用戶當(dāng)前興趣信息,采用下述更新方法更新用戶興趣:
設(shè)置周為統(tǒng)計(jì)周期,每隔一周,進(jìn)行用戶瀏覽次數(shù)的統(tǒng)計(jì)和更新,分別用Freq(old ) 和Freq(new)表示用戶上一統(tǒng)計(jì)周期內(nèi)瀏覽次數(shù)和當(dāng)前周期內(nèi)瀏覽次數(shù),設(shè)置P為該頁面的瀏覽次數(shù)更新比例:
如果P<0.5,則說明用戶在當(dāng)前周期與上一統(tǒng)計(jì)周期內(nèi)對某一頁面瀏覽次數(shù)變化不大,則認(rèn)為用戶對該頁面的興趣隨著時(shí)間的推移變化不大,置
反之,則認(rèn)為該用戶對該頁面興趣已發(fā)生較大改變,置
用戶在瀏覽某一頁面vpi時(shí),速度越快,表明其對該頁面興趣度越低,反之,興趣度越高。瀏覽速度與頁面的內(nèi)容的多少Size(v pi)和在此頁面停留時(shí)間Time(v pi)都有密切聯(lián)系:
為避免一些時(shí)間異常問題的發(fā)生,對停留時(shí)間Time(vpi)規(guī)定如下:
此外,當(dāng)用戶在瀏覽頁面時(shí)有保存、打印和將頁面添加到書簽其中一個(gè)或多個(gè)動作時(shí)就認(rèn)為用戶對該頁面興趣非常大,即可認(rèn)為Interest(vpi)=1。
其中α,β為常數(shù),其值可利用樣本數(shù)據(jù)進(jìn)行估計(jì)。文獻(xiàn)[3]設(shè)置了參數(shù)α=18.55,β=0.89用于興趣度函數(shù)的計(jì)算,并且在實(shí)驗(yàn)?zāi)P椭斜3至溯^好的查準(zhǔn)率和查全率,所以本文默認(rèn)α,β取值如上。
本文在VSM模型基礎(chǔ)上引入主題興趣度themeInterest(v pi),對VSM模型進(jìn)行擴(kuò)展,當(dāng)用戶每瀏覽一個(gè)網(wǎng)頁后,都可以通過分析得到一個(gè)興趣向量來反應(yīng)本次瀏覽用戶的興趣。
構(gòu)建主題興趣度模型的主要步驟:Step1:網(wǎng)頁文本內(nèi)容表征處理;Step2:主題興趣度計(jì)算函數(shù);Step3:構(gòu)建主題興趣度模型。
由于VSM模型表征網(wǎng)頁文本內(nèi)容簡單可行,本文選擇用VSM模型對網(wǎng)頁文本進(jìn)行表征,最終將文本內(nèi)容轉(zhuǎn)化為低維的文本特征向量[4]:
主題興趣度的獲取主要對用戶瀏覽過的所有網(wǎng)頁文本進(jìn)行K-means聚類算法進(jìn)行聚類處理,得到經(jīng)過聚類算法下的每個(gè)興趣主題下的子興趣集合。然后根據(jù)每一個(gè)興趣集合中文本特征詞的興趣度分布,計(jì)算得到最終的主題興趣度:
其中,themeInteresti表示第i個(gè)主題的興趣度,j表示第i個(gè)主題的第個(gè) j網(wǎng)頁,l表示第i個(gè)主題總共的網(wǎng)頁數(shù),Interest(v pj)表示為第 j個(gè)網(wǎng)頁的興趣度,aj加權(quán)因子的值可以通過該文本和質(zhì)心之間的相似度來衡量。因此,可以將公式修改為
其中,Sim(dj,dc)為第i個(gè)主題中第 j個(gè)網(wǎng)頁dj與質(zhì)心dj之間的相似度,該相似度采用文本相似度歐幾里得距離公式[5]計(jì)算可得。由于興趣度值維持在0和1之間,為了避免網(wǎng)頁興趣度偏大,所以對主題興趣度進(jìn)行歸一化處理,得到主題興趣度函數(shù):
由于用戶的興趣是多方面的,即用戶對不同興趣主題的興趣度不同,所以為了表現(xiàn)用戶對不同主題感興趣的程度,引入了主題興趣度(themeInterest)的概念。引入主題興趣度后興趣模型可表征為
通過上述形式表示的用戶興趣模型不但能夠表示用戶的不同興趣度主題,同時(shí)也對不同興趣度之間做了較大程度的區(qū)分,能夠比較全面合理地表達(dá)用戶真實(shí)興趣情況。
本文采用 dynaTraceAJAX Edition 軟件[6]獲取用戶瀏覽行為,該軟件是一個(gè)前端性能分析工具。在軟件獲取的原始數(shù)據(jù)下選擇不同主題下具有代表性的頁面350張,對這350個(gè)代表頁面進(jìn)行挖掘,對用戶在頁面上的瀏覽行為數(shù)據(jù)進(jìn)行收集,結(jié)合本文提出的主題興趣度函數(shù),得出相應(yīng)網(wǎng)頁的主題興趣度,并將主題興趣度與頁面向量相結(jié)合,構(gòu)造用戶主題興趣度模型。
將本文基于用戶瀏覽行為的主題興趣度的興趣模型與普通的基于VSM興趣模型在查準(zhǔn)率、查全率、F-調(diào)和均值等方面進(jìn)行比較,從而衡量模型的性能。
本文收集用戶集合W1中任意一個(gè)用戶w感興趣的頁面列表,記為M(w),N(w)為給用戶w推薦的頁面集合。
查準(zhǔn)率(Precision)表示推薦出的用戶感興趣網(wǎng)頁與推薦結(jié)果網(wǎng)頁總量的比率:
查全率(Recall)表示推薦出的用戶感興趣網(wǎng)頁與推薦數(shù)據(jù)集中用戶感興趣網(wǎng)頁總數(shù)的比率:
F-調(diào)和均值能更好地反映出推薦系統(tǒng)的性能,取值在[0,1]之間,F(xiàn)-調(diào)和均值隨查準(zhǔn)率和查全率的增加而增加,其值越大表示模型性能越好:
實(shí)驗(yàn)對比發(fā)現(xiàn),本文模型推薦性能明顯優(yōu)于傳統(tǒng)的基于VSM的興趣模型。由圖1與圖2看出,融合單類興趣模型的F-調(diào)和均值較傳統(tǒng)模型有了些許提高,但是整體的提升效果并不理想,這是由于單類興趣度函數(shù)在判斷用戶興趣時(shí)數(shù)據(jù)類型太過單一,會造成一定的誤差,為此我們將多種興趣度融合進(jìn)行對比試驗(yàn)。
圖1 融合頁面瀏覽速度的興趣模型與傳統(tǒng)VSM模型對比
圖2 融合頁面瀏覽率的用戶興趣模型與傳統(tǒng)VSM模型對比
圖3表明融合了多種興趣度的主題興趣度模型隨著網(wǎng)頁數(shù)目的增加,F(xiàn)-調(diào)和均值穩(wěn)定增長且明顯大于傳統(tǒng)VSM向量模型的增長,當(dāng)推薦網(wǎng)頁數(shù)目超過250時(shí),傳統(tǒng)基于VSM模型F-調(diào)和均值開始下降,而本文模型依舊保持了良好的推薦性能,表明本文模型能更好地貼近用戶的真實(shí)興趣,從而提高了個(gè)性化推薦精度和用戶滿意度。
圖3 多類興趣融合下本模型與傳統(tǒng)VSM興趣模型實(shí)驗(yàn)對比
本文對興趣模型的構(gòu)造進(jìn)行了全面的介紹,提出了一種基于隱式反饋的用戶興趣度計(jì)算方法,并對傳統(tǒng)的VSM模型進(jìn)行擴(kuò)展,采用主題興趣度themeInterest衡量用戶對網(wǎng)頁的喜好程度,能夠準(zhǔn)確地評價(jià)用戶在瀏覽網(wǎng)頁時(shí)的興趣度。實(shí)驗(yàn)表明,本文構(gòu)建的興趣模型能夠有效提高個(gè)性化推薦質(zhì)量。
在未來工作中,將對興趣模型進(jìn)一步完善,考慮加入用戶興趣漂移策略,用以修正用戶興趣隨時(shí)間漂移而帶來的變化,從而進(jìn)一步提升模型的推薦準(zhǔn)確率。
[1]陸藝,曹健.面向隱式反饋的推薦系統(tǒng)研究現(xiàn)狀與趨勢[J].計(jì)算機(jī)科學(xué),2016,43(4):7-15.LU Yi,CAO Jian.Research Status and Future Trends of Recommender Systems for Implicit Feedback[J].Computer Science,2016,43(4):7-15.
[2]夏義國,劉友華.一種用戶興趣度計(jì)算與用戶興趣修正的改進(jìn)方法[J].現(xiàn)代情報(bào),2014,34(1):46-48.XIA Yiguo,LIU Youhua.An Improved Method to Calculate User's InterestDegree and Amend User's Interest[J].Modern Information,2014,34(1):46-48.
[3]宋章浩.基于Web瀏覽行為的用戶興趣模型研究[D].綿陽:西南科技大學(xué),2015.SONG Zhanghao,XING Ling.Research on User Interest Model based on Web Browsing behaviors[D].Mianyang:SouthwestUniversity of Science and Technology,2015.
[4]李峰,裴軍,游之洋.基于隱式反饋的自適應(yīng)用戶興趣模型[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(9):76-79.LI Feng,PEI Jun,YOU Zhiyang.Adaptive user interest model based on the implicit feedback[J].Computer Engineering and Applications,2008,44(9):76-79.
[5]李建廷,郭曄,湯志軍.基于用戶瀏覽行為分析的用戶興趣度計(jì)算[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(3):968-972.LI Jianting,GUO Ye,TANG Zhijun.User interest degree calculating based on analysis users'browsing behaviors[J].Computer Engineering and Design,2012,33(3):968-972.
[6]黃倩,謝穎華.一種基于網(wǎng)頁瀏覽行為的用戶興趣度計(jì)算方法[J].信息技術(shù),2015,39(5):184-186.HUANG Qian,XIE Yinghua.Method of computing for user interest degree based on user's browsing behaviors[J].Information Technology,2015,39(5):184-186.
[7]王智圣,李琪,汪靜,等.基于隱式用戶反饋數(shù)據(jù)流的實(shí)時(shí)個(gè)性化推薦[J].計(jì)算機(jī)學(xué)報(bào),2016,39(1):52-64.WANG ZhiSheng,LIQi,WANG Jing,et al.Real-Time Personalized Recommendation Based on Implicit User Feedback Data Stream[J].Chinese Journal of Computers,2016,39(1):52-64.
[8]Jawaheer G,Weller P,Kostkova P.Modeling User Preferences in Recommender Systems:A Classification Framework for Explicit and Implicit User Feedback[M].ACM,2014.
[9]印鑒,王智圣,李琪,等.基于大規(guī)模隱式反饋的個(gè)性化推薦[J].軟件學(xué)報(bào),2014,25(9):1953-1966.YIN Jian,WANG ZhiSheng,LIQi,etal.Personalized Recommendation Based on Large-Scale Implicit Feedback[J].Journalof Software,2014,25(9):1953-1966.
[10]許昕.基于用戶隱式反饋的個(gè)性化資訊推薦系統(tǒng)研究與實(shí)現(xiàn)[D].北京:北京工業(yè)大學(xué),2012.XU Xin.Personalized Recommednder Systerm Based on Implicit Feedback:Resaech and Implementation[D].Beijing:Beijing University of Technology,2012.
[11]崔昊旻.海量視頻節(jié)目的檢索、推薦與反饋學(xué)習(xí)[D].合肥:中國科學(xué)技術(shù)大學(xué),2014.CUIMinhao.Retrieval,Recommendation and Feedback Learning forMassive Video Program[D].Hefei:University of Science and Technology ofChina,2014.
[12]陳玉娥,梁永全.基于隱式反饋的用戶模型設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)雜志,2009,28(2):50-52.CHEN Yu-e,LIANG Yongquan.Design and Implementation of User Model Based on Implicit Feedback[J].Journalof Intelligence,2009,28(2):50-52.
[13]尹春暉,鄧偉.基于用戶瀏覽行為分析的用戶興趣獲?。跩].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18(5):37-39.YIN Chunhui,DENG Wei.Extracting User Interests Based on Analysis of User Behaviors[J].Computer Technology and Development,2008,18(5):37-39.
[14]伍大清,陽小華,馬家宇,等.基于隱式反饋的用戶興趣漂移方法[J].計(jì)算機(jī)應(yīng)用與軟件,2010,27(9):88-90.WU Daqing,YANG Xiaohua,MA Jiayu,et al.Method of Drifting User's Interests Based on Implicit Feedback[J].Computer Applications and Software,2010,27(9):88-90.
[15]王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(8):148-151.WANGWeiwei,XIA Xiufeng,LIXiaoming.Personal interest degree model based on consumer behavior.Computer Engineer-ing and Applications,2012,48(8):148-151.