李美佳,王玉環(huán),王菊韻
(中國(guó)傳媒大學(xué) 理學(xué)院,北京 100024)
?
基于Covisitation算法的新聞推薦
李美佳,王玉環(huán),王菊韻
(中國(guó)傳媒大學(xué) 理學(xué)院,北京 100024)
隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,電子閱讀已經(jīng)成為人們?nèi)粘I钪忻懿豢煞值囊徊糠?。網(wǎng)絡(luò)上的信息不計(jì)其數(shù),有明確目的的用戶可以迅速的找到自己想要的信息,而沒有明確目的的用戶想要在海量的信息中找到自己感興趣的內(nèi)容,無疑如同大海撈針。本文利用Covisitation算法對(duì)用戶進(jìn)行推薦,相比較傳統(tǒng)的算法,準(zhǔn)確率得到了有效地提高。
covisitation;推薦系統(tǒng);評(píng)價(jià)準(zhǔn)則
互聯(lián)網(wǎng)+時(shí)代的到來使得網(wǎng)絡(luò)普及到人們生活的方方面面,web網(wǎng)每天會(huì)發(fā)布海量的信息,這一方面滿足了人們接觸更多信息了解世界的愿望,另一方面也給人們的閱讀造成了負(fù)擔(dān)。不同的人有不同的閱讀愛好,比如有的人喜歡看娛樂新聞,有的人喜歡看經(jīng)濟(jì)新聞,有的人喜歡看運(yùn)動(dòng)新聞等。如何滿足不同的人的需要,及時(shí)有效的提供給用戶他們感興趣的內(nèi)容推動(dòng)了推薦系統(tǒng)的發(fā)展。有一類包羅萬象的web應(yīng)用涉及用戶對(duì)選項(xiàng)的喜好進(jìn)行預(yù)測(cè),這種系統(tǒng)稱為推薦系統(tǒng)[1]。推薦系統(tǒng)的定義很多,但是被大家廣泛熟知的是由Resnick和Varian在1997年提出的[2]:“推薦系統(tǒng)就是利用電子商務(wù)網(wǎng)站向用戶提供商品信息和建議,幫住用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助用戶完成購買過程?!?2005年Adomavicius等人給出了推薦系統(tǒng)的形式化定義[3]:設(shè)C表示所有用戶集合,S表示所有可能被推薦的項(xiàng)目集合(如書籍、電影、餐館等),u是一個(gè)用來度量項(xiàng)目s對(duì)用戶c的有效性的效用函數(shù),即u:C×S→R,R是一個(gè)全序集合(一定范圍內(nèi)的非負(fù)整數(shù)或?qū)崝?shù))。那么,對(duì)于每一個(gè)用戶c∈C,我們要找到項(xiàng)目s′∈S使得用戶的效用函數(shù)達(dá)到最大。即:
(1)
目前推薦系統(tǒng)在電子商務(wù)系統(tǒng)已經(jīng)得到了成功的應(yīng)用,但在新聞推薦方面仍然有些落后。
本文中我們從國(guó)內(nèi)某著名財(cái)經(jīng)新聞網(wǎng)站—財(cái)新網(wǎng)隨機(jī)選取了10000名用戶,并抽取了這10000名用戶在2014年3月的所有新聞瀏覽記錄,每條記錄包括用戶編號(hào)、新聞編號(hào)、瀏覽時(shí)間(精確到秒)以及新聞文本內(nèi)容,其中用戶編號(hào)已做匿名化處理,防止暴露用戶隱私。為了方便算法的介紹,我們將10000名用戶編號(hào)記作U={u1,u2,…,u10000},將6183條新聞編號(hào)按照發(fā)布的時(shí)間順序記作S={s1,s2,…,s6183},對(duì)于一個(gè)特定用戶u的新聞點(diǎn)擊歷史按照其瀏覽的時(shí)間順序排列,用集合Cu表示,其中Cu是由新聞編號(hào)si組成。
Covisitation的定義為[4]在一定的時(shí)間間隔(通常被設(shè)定為幾個(gè)小時(shí))內(nèi),同一用戶連續(xù)點(diǎn)擊兩條新聞的事件,我們假設(shè)用戶瀏覽了該條新聞接下來也會(huì)瀏覽第二條新聞。我們建立一個(gè)6183階方陣,方陣的橫縱向都表示新聞si。設(shè)定時(shí)間間隔(幾個(gè)小時(shí)或者幾天),對(duì)于新聞s1,讀取用戶u1的點(diǎn)擊歷史Cu1,如果用戶瀏覽了該條新聞且s1后面仍有瀏覽記錄,假設(shè)下一條新聞是sk,則在相應(yīng)位置上計(jì)數(shù)1,依次遍歷10000個(gè)用戶的瀏覽歷史。
4.1評(píng)價(jià)準(zhǔn)則
我們利用F值作為評(píng)價(jià)指標(biāo),F(xiàn)值是由VanRijsbergen[5]提出的,定義如下:
(2)
其中precision和recall的定義如下:
(3)
其中hit(ui)表示推薦給用戶ui的新聞中,確實(shí)在測(cè)試集中被該用戶瀏覽過的新聞的個(gè)數(shù),由于測(cè)試集中每個(gè)用戶僅有一條瀏覽記錄,因此hit(ui)要么為1,要么為0。L(ui)為推薦給用戶的新聞列表的長(zhǎng)度。
(4)
4.2實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)的結(jié)果如圖1所示:
圖1
其中藍(lán)色的線是運(yùn)用的Covisitation算法,紫色的線是運(yùn)用的經(jīng)典算法,可以看出Covisitation算法相比較經(jīng)典算法有很大的提高,大約把準(zhǔn)確率率從1.5%提高到6%,召回率從6%提高到11%。
從實(shí)驗(yàn)結(jié)果不難看出,Covisitation算法在新聞推薦上準(zhǔn)確率和召回率更高,對(duì)用戶的推薦更為精準(zhǔn),但是仍有需要提高的地方,比如當(dāng)用戶的瀏覽次數(shù)較少時(shí),Covisitation不能很準(zhǔn)確的對(duì)用戶進(jìn)行推薦,這就需要進(jìn)一步尋找別的算法在進(jìn)行混合推薦。
[1]AnandRajaraman,JeffreyDavidUllman.大數(shù)據(jù)-互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].北京:人民郵電出版社,2012,227.
[2]ResnickP,VarianHR.Recommendersystems[J].CommunicationsoftheACM,1997,40(3):56-58.
[3]AdomaviciusG,TuzhilinA.Towardthenextgenerationofrecommendersystems:Asurveyofthestate-of-the-artandpossibleextensions[J].IEEETransactionsonKnowledgeandDataEngineering,2005,17(6):734-749.
[4]ADas,MDatar,AGrag,andSRaiatam.GoogleNewspersonalization:ScalableOnlineCollaborativefiltering[J].IndustrialPracticeandException,2007(5):276.
[5]CJVanRijsbergen.InformationRetrieval[M].London:Butterworths,1979.
(責(zé)任編輯:馬玉鳳)
NewsRecommendationsBasedontheCovisitationModel
LIMei-jia,WANGYu-huan,WANGJu-yun
(SchoolofScience,CommunicationUniversityofChina,Beijing100024)
Withtherapiddevelopmentofnetworktechnology,electronicreadinghasbecomepartofpeople’sdailylives.Onthenetwork,therearecountlessmessages,theuserswhohavetheclearpurposescanquicklyfindtheinformationtheywant,butthosewhowithouttheclearpurposewanttofindthecontenttheyinterested,nodoubtitwaslikefishingforaneedleintheocean.Inthispaper,weusethecovisitationalgorithmtorecommend,comparedwiththetraditionalalgorithm,itimprovedtheaccuracyoftherecommendation.
covisitation;recommendersystem;evaluationcriterion
2016-02-10
李美佳(1989-),女(漢族),山東濰坊人,中國(guó)傳媒大學(xué)碩士研究生.E-mail:1069204410@qq.com
TP18
A
1673-4793(2016)03-0056-03