吳海霞,連 瑋,李慧芳
(長(zhǎng)治學(xué)院計(jì)算機(jī)系,山西長(zhǎng)治046011)
基于海量數(shù)據(jù)和Web挖掘的個(gè)性化推薦系統(tǒng)研究
吳海霞,連 瑋,李慧芳
(長(zhǎng)治學(xué)院計(jì)算機(jī)系,山西長(zhǎng)治046011)
推薦系統(tǒng)是學(xué)術(shù)界和工業(yè)界研究熱門的課題,能有效解決互聯(lián)網(wǎng)海量數(shù)據(jù)中“信息過載”.首先介紹個(gè)性化推薦技術(shù)的發(fā)展、應(yīng)用和相關(guān)問題,重點(diǎn)分析多種經(jīng)典的推薦算法及其特點(diǎn),并給出推薦系統(tǒng)的性能評(píng)價(jià)方法與指標(biāo),最后對(duì)個(gè)性化推薦的未來發(fā)展做出展望。
個(gè)性化推薦;海量數(shù)據(jù);Web挖掘;推薦算法
互聯(lián)網(wǎng)加速了電子商務(wù)的應(yīng)用和推廣,促進(jìn)了商業(yè)模式的變化。傳統(tǒng)商業(yè)認(rèn)為,抓住20%主流市場(chǎng)的產(chǎn)品或服務(wù)就能占據(jù)絕大部分市場(chǎng),但根據(jù)Chris的長(zhǎng)尾理論[1-2],被忽略和輕視的80%反而更加重要。如果匯聚大量市場(chǎng)價(jià)值較小的部分,有效開發(fā)“長(zhǎng)尾市場(chǎng)”,將會(huì)創(chuàng)造極大的經(jīng)濟(jì)和社會(huì)價(jià)值,也能更好滿足不同用戶群的個(gè)性化需求。
Web2.0的出現(xiàn)促進(jìn)了社會(huì)網(wǎng)絡(luò)的發(fā)展和社交媒體的成熟,用戶通過論壇、博客、微信、朋友圈等豐富的應(yīng)用產(chǎn)品積極參與各種在線活動(dòng):發(fā)表日志、上傳照片、轉(zhuǎn)載微博、分享鏈接或評(píng)論信息。在充滿海量數(shù)據(jù)的社交網(wǎng)絡(luò)中,用戶通過UGC(Us?er Generated Content)的信息資源創(chuàng)作模式,既是信息的分享者和消費(fèi)者,還是信息的生產(chǎn)者和創(chuàng)造者。作為世界上規(guī)模最大的公共數(shù)據(jù)源,Web文檔在以每天數(shù)十億的速度持續(xù)增長(zhǎng)。在電子資源極度豐富的數(shù)據(jù)時(shí)代,“信息過載”日益嚴(yán)重,用戶往往迷失其中而無法確定真正需求和選擇,即“選擇困難癥”日漸明顯,需要一種快速搜索和定位的機(jī)制。
Web數(shù)據(jù)挖掘基于信息檢索、人工智能、機(jī)器學(xué)習(xí)和知識(shí)管理技術(shù),分析大量文檔獲得隱含知識(shí)和模式,幫助人們搜索信息并制定決策[3]。近年出現(xiàn)的推薦技術(shù),如同善解人意的私人秘書,根據(jù)用戶興趣偏好和行為習(xí)慣自適應(yīng)地發(fā)現(xiàn)和挖掘,進(jìn)行分析和推薦。由于媒體的碎片性和文化的多樣性,用戶需求日趨個(gè)性化,推動(dòng)著高效能、高精度、高智能的推薦系統(tǒng)快速發(fā)展。
推薦是根據(jù)用戶資料信息、歷史行為記錄及物品的特征屬性來分析用戶對(duì)物品的偏好而生成個(gè)性化推薦列表,為用戶提供信息推薦的一種過濾和挖掘技術(shù)。推薦系統(tǒng)是一個(gè)綜合眾多學(xué)科的研究領(lǐng)域,涉及統(tǒng)計(jì)分析、信息檢索、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、自然語(yǔ)言處理、語(yǔ)義網(wǎng)、流數(shù)據(jù)、市場(chǎng)營(yíng)銷等[4]。
推薦系統(tǒng)與搜索引擎技術(shù)在處理對(duì)象、檢索方法、某些評(píng)測(cè)指標(biāo)等方面非常相似,但二者存在顯著區(qū)別。搜索引擎對(duì)數(shù)據(jù)和信息進(jìn)行連接,而推薦引擎對(duì)人與信息進(jìn)行精準(zhǔn)連接實(shí)現(xiàn)完備的服務(wù)。Google、Baidu、Yahoo等搜索引擎被動(dòng)地檢索文檔、商品、音樂等,側(cè)重于數(shù)據(jù)的查詢,結(jié)果固定而龐雜,與用戶對(duì)象無關(guān)聯(lián);推薦引擎主動(dòng)為顧客推薦好友、影片、服務(wù)等,注重知識(shí)的發(fā)現(xiàn),結(jié)果動(dòng)態(tài)變化,與興趣相匹配,充滿個(gè)性化。但推薦引擎開發(fā)難度大,不僅需要龐大的數(shù)據(jù)庫(kù)、快速的搜索算法,還需要合理的用戶模型和精準(zhǔn)的預(yù)測(cè)決策算法。
推薦系統(tǒng)的基本框架為信息獲取、用戶建模、模型學(xué)習(xí)、行業(yè)應(yīng)用、實(shí)驗(yàn)評(píng)測(cè)和模型優(yōu)化。系統(tǒng)以用戶為中心主動(dòng)獲取相關(guān)信息,一般為隱式獲取而無需用戶參與。利用機(jī)器學(xué)習(xí)等技術(shù)建立合理模型,判定用戶的興趣偏好和行為傾向,構(gòu)建支持用戶決策的系統(tǒng),進(jìn)行信息過濾和智能推薦,為大規(guī)模用戶提供高質(zhì)量服務(wù),甚至超越本領(lǐng)域?qū)<业慕?jīng)驗(yàn)和決策。個(gè)性化推薦服務(wù)具有很強(qiáng)的針對(duì)性、主動(dòng)性、智能性。
推薦系統(tǒng)追求過程的快捷性與智能化,推薦效果的精準(zhǔn)化、個(gè)性化和信任度。比如,系統(tǒng)從數(shù)十萬部影片中即時(shí)自動(dòng)抽取一批符合用戶口味的精彩作品,用戶輕松選擇之后獲得滿意體驗(yàn)和真誠(chéng)反饋。通過高匹配度和個(gè)性化的推薦,將瀏覽和訪問的潛在用戶轉(zhuǎn)變?yōu)橘?gòu)買者,迅速擴(kuò)大市場(chǎng),產(chǎn)生巨大價(jià)值。因此,推薦系統(tǒng)最大的目標(biāo)是基于合理的預(yù)測(cè)模型給出接近用戶真實(shí)度的推薦。
根據(jù)個(gè)性化程度分為非個(gè)性化、半個(gè)性化和完全個(gè)性化推薦系統(tǒng)。第一種基于手工推薦或統(tǒng)計(jì)分析技術(shù)為每個(gè)用戶提供相同的推薦,像專家推薦或銷量排行;第二種根據(jù)不同用戶當(dāng)前的瀏覽或購(gòu)物行為產(chǎn)生相應(yīng)推薦;第三種結(jié)合當(dāng)前用戶和其他用戶歷史信息及當(dāng)前行為推薦,個(gè)性化程度高。
推薦系統(tǒng)源于向消費(fèi)者推薦物品的真實(shí)場(chǎng)景,在電子商務(wù)領(lǐng)域應(yīng)用最為成熟。像谷歌、亞馬遜、阿里、淘寶、京東、唯品、eBay、CDNow、YouTuBe[3]等網(wǎng)站都部署了不同形式的推薦系統(tǒng),頁(yè)面動(dòng)態(tài)提供新品、暢銷商品和特價(jià)推薦等導(dǎo)購(gòu)服務(wù),顯示你可能感興趣的東西等推薦指導(dǎo),這些網(wǎng)站都以卓越的推薦技術(shù)取得了較大的經(jīng)濟(jì)效益和良好的用戶體驗(yàn)與反饋。有數(shù)據(jù)顯示,三分之一的用戶會(huì)根據(jù)網(wǎng)站推薦購(gòu)買商品。
互聯(lián)網(wǎng)企業(yè)越來越重視推薦系統(tǒng)對(duì)于自身業(yè)務(wù)的巨大提升作用。中國(guó)的高科技企業(yè)百度、華為、騰訊和百合網(wǎng)等都非常重視利用推薦技術(shù)構(gòu)建業(yè)務(wù)主干,展現(xiàn)出雄厚的技術(shù)實(shí)力,發(fā)揮著巨大影響力。如騰訊和新浪微博提供了“可能感興趣的人”的推薦服務(wù),牛贊網(wǎng)和今日頭條建立計(jì)算模型挖掘用戶“興趣DNA”以精準(zhǔn)推薦資訊?;谏缃痪W(wǎng)絡(luò)的主題檢測(cè)、信息檢索、好友推薦等都是學(xué)術(shù)界和工業(yè)界共同研究的重要課題,旅游宣傳和在線廣告等方面也有廣泛的應(yīng)用和豐富的成果。美國(guó)的Oren Etzioni對(duì)西雅圖餐館評(píng)論數(shù)據(jù)進(jìn)行整理和挖掘,開發(fā)關(guān)于餐館的推薦服務(wù)RevMiner[5]。
推薦技術(shù)在十多年間發(fā)展迅速,應(yīng)用廣泛,體現(xiàn)出巨大商業(yè)價(jià)值、文化價(jià)值和社會(huì)價(jià)值。如音樂、歌曲、視頻、電影、電視劇、游戲等多媒體或娛樂產(chǎn)品,餐飲、住宿、交通等社會(huì)服務(wù),網(wǎng)站、微博、論壇、社區(qū)等社交平臺(tái),職業(yè)推薦、學(xué)習(xí)資源推薦[6]、高考志愿推薦[7]等教育推薦,新聞資訊、旅游產(chǎn)品、會(huì)議推薦、移動(dòng)應(yīng)用,及各種知識(shí)管理等應(yīng)用。其中在搜索引擎、社交媒體、金融服務(wù)等領(lǐng)域應(yīng)用最廣。成功的推薦應(yīng)用包括Amazon的Kin?dle電子書、PanDoRa音樂電臺(tái)、Hulu視頻推薦、百度的“音樂隨心聽”私人頻道,“猜你喜歡”新聞資訊頻道等[8]。圖書、音樂和電影三個(gè)領(lǐng)域?qū)崿F(xiàn)了較高準(zhǔn)確度的推薦,NETFLIX的Cinematch電影推薦系統(tǒng)是最典型的智能預(yù)測(cè)系統(tǒng)。
當(dāng)前知名社交平臺(tái)很多,國(guó)外的Twitter、Face?book、Myspace、Epinions、Lindedin、Foursquare等,國(guó)內(nèi)的人人網(wǎng)、豆瓣網(wǎng)、開心網(wǎng)、騰訊和陌陌等。社交推薦利用社交網(wǎng)絡(luò)用戶屬性匹配來提高推薦精度。百合網(wǎng)能夠分析用戶行為,利用信息抽取和情感分析的雙向匹配算法實(shí)現(xiàn)自動(dòng)匹配,并非簡(jiǎn)單的單向推薦。建立有效的隱私保護(hù)機(jī)制,增加社會(huì)信任度是社交推薦的重點(diǎn)和難點(diǎn)。
個(gè)性化閱讀朝著個(gè)性化、移動(dòng)化和社會(huì)化的方向發(fā)展,個(gè)性化閱讀產(chǎn)品能按個(gè)人興趣推薦合適的新聞,主要有自主訂閱、算法推薦和基于協(xié)同發(fā)現(xiàn)的朋友推薦三種途徑。主流產(chǎn)品有Flipboard、Zite、網(wǎng)易云閱讀、今日頭條、Zaker、指閱、鮮果等。推薦算法對(duì)檢索出的大量?jī)?nèi)容做深度提取、摘要、去重和分類。此外,有的還嘗試精準(zhǔn)廣告投放,根據(jù)用戶閱讀興趣推薦廣告。
面向大規(guī)模定制的個(gè)性化推薦[9]利用智能化技術(shù)引導(dǎo)客戶,以動(dòng)態(tài)訂單贏得市場(chǎng),改變了原始大規(guī)模生產(chǎn)的產(chǎn)品單一、周期長(zhǎng)、費(fèi)用高、時(shí)間和成本不可控、顧客易流失等問題。電子商務(wù)、生產(chǎn)制造、加工服務(wù)等都趨于個(gè)性化定制這一新穎的生產(chǎn)和服務(wù)方式,助于企業(yè)進(jìn)入新的市場(chǎng),吸引優(yōu)質(zhì)顧客,取得客戶滿意度。
知識(shí)圖譜是智慧搜索和個(gè)性化推薦的基礎(chǔ),百度的知識(shí)圖譜推薦[5]引擎依托后臺(tái)強(qiáng)大的知識(shí)圖譜庫(kù),在推薦解釋、關(guān)聯(lián)挖掘、數(shù)據(jù)覆蓋等方面表現(xiàn)很好,2013年上線的“知心”是擁有著技術(shù)壁壘的知識(shí)圖譜產(chǎn)品。此外,移動(dòng)設(shè)備上應(yīng)用商店的推薦、移動(dòng)增殖業(yè)務(wù)的推薦等新的服務(wù)都已出現(xiàn)。
推薦系統(tǒng)開發(fā)過程中存在一些重要因素和問題,影響并推動(dòng)推薦技術(shù)的進(jìn)展。
(1)數(shù)據(jù)稀疏(data sparsity)用戶和項(xiàng)目數(shù)量級(jí)很大時(shí)交集會(huì)很小,較多用戶選擇和評(píng)價(jià)的項(xiàng)目極少,形成數(shù)據(jù)稀疏問題。如Netflix電影評(píng)分?jǐn)?shù)據(jù)集中有近99%數(shù)據(jù)缺失,盡管總評(píng)價(jià)率很高,但分散于大量用戶和項(xiàng)目中,平均每個(gè)項(xiàng)目和用戶評(píng)價(jià)率不高。因此需要有效辦法解決數(shù)據(jù)稀疏性。
(2)冷啟動(dòng)(cold start)也叫First Rater問題,當(dāng)新用戶進(jìn)入系統(tǒng)尚未選擇項(xiàng)目也無評(píng)價(jià)歷史,或新產(chǎn)品未被選擇和評(píng)價(jià)時(shí),相應(yīng)配置為空,系統(tǒng)沒有足夠信息做出推薦,即為冷啟動(dòng)?,F(xiàn)有許多解決方案,如某些混合推薦,結(jié)合簡(jiǎn)單的用戶信息(如年齡、民族、職業(yè)等),參考在其他網(wǎng)站的記錄,解決本網(wǎng)站的冷啟動(dòng)。社交推薦是幫助系統(tǒng)冷啟動(dòng)的重要因素。
(3)擴(kuò)展性(scalability)盡管數(shù)據(jù)稀疏,但大量信息使得計(jì)算成本很高。可以考慮設(shè)計(jì)并行性好的算法或使用增量推薦,推薦算法在已有基礎(chǔ)上僅計(jì)算數(shù)據(jù)增加的部分,類似于數(shù)學(xué)和物理中的微擾理論。
(4)動(dòng)態(tài)性(dynamic)大多用戶興趣廣泛且動(dòng)態(tài)變化,評(píng)分情緒也隨時(shí)間波動(dòng),而多數(shù)算法忽略時(shí)間戳因素。如何利用新舊偏好和評(píng)分信息合理預(yù)測(cè)規(guī)律并精確發(fā)現(xiàn)用戶口味顯得非常重要,推薦中要考慮時(shí)間和情緒等因素的影響,推薦結(jié)果符合用戶動(dòng)態(tài)興趣和最新需求,體現(xiàn)時(shí)效性。
(5)復(fù)雜性(complexity)推薦策略單一時(shí)個(gè)性化程度和用戶滿意度不高。譬如,用戶在網(wǎng)站收藏的音樂越多,獲得推薦越精準(zhǔn),在商城的購(gòu)買和評(píng)論數(shù)越多,推薦質(zhì)量越高,通過相關(guān)數(shù)據(jù)還可預(yù)計(jì)將走紅的明星、專輯、樂隊(duì)或作家;但如果顧客收藏過多的圖書或音樂,準(zhǔn)確性反而下降,因?yàn)轭櫩涂赡芟矚g不同類型和多元風(fēng)格,算法無法實(shí)現(xiàn)準(zhǔn)確匹配。若組合多種策略則會(huì)提高推薦結(jié)果的個(gè)性化和用戶滿意度。
個(gè)性化推薦系統(tǒng)利用物品信息、用戶資料、社交關(guān)系、人口統(tǒng)計(jì)信息、信任度、社會(huì)化標(biāo)簽[10]等不同信息源為用戶提供預(yù)測(cè)和推薦,推薦算法起到重要作用。不同的推薦方法在不同行業(yè)、場(chǎng)景和數(shù)據(jù)集中表現(xiàn)出各自特點(diǎn)。基于內(nèi)容的推薦和協(xié)同過濾應(yīng)用最廣,混合推薦是研究的熱點(diǎn)和趨勢(shì)。
關(guān)聯(lián)規(guī)則是在數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)中常用的技術(shù),以關(guān)聯(lián)規(guī)則為基礎(chǔ),把已購(gòu)商品作為規(guī)則頭,規(guī)則體為推薦對(duì)象,發(fā)現(xiàn)數(shù)據(jù)集中項(xiàng)之間可能相關(guān)性。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)算法有Apriori、FPTree、HP等[3],購(gòu)物籃中啤酒與尿布的關(guān)聯(lián)最為經(jīng)典。這種推薦的突出特點(diǎn)是不需領(lǐng)域知識(shí)就能發(fā)現(xiàn)用戶興趣,但規(guī)則提取較難、推薦效率和個(gè)性化較低。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)非常耗時(shí),一般離線進(jìn)行,當(dāng)規(guī)則數(shù)量累積到一定程度,不再大量出現(xiàn)新規(guī)則時(shí),即產(chǎn)生出較為準(zhǔn)確而高效的推薦。
基于內(nèi)容的推薦基于物品間的關(guān)聯(lián)相似性規(guī)則,不需用戶評(píng)價(jià)。主要思想是:抽取出推薦對(duì)象的內(nèi)容特征和用戶的興趣特征,根據(jù)其他用戶的歷史記錄,計(jì)算當(dāng)前用戶與候選項(xiàng)目間的匹配程度,為用戶推薦相似物品。即三個(gè)步驟:建立用戶興趣模型、建立項(xiàng)目特征向量、通過相似度和匹配度推薦項(xiàng)目。其中項(xiàng)目特征可采用基于tf-idf權(quán)重的向量空間模型(VSM)表示,用戶興趣模型可用決策樹、貝葉斯分類算法、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法來獲取。這一算法適于文本、新聞、日志和網(wǎng)頁(yè)等的推薦。優(yōu)點(diǎn)體現(xiàn)在:只要獲得物品屬性即可進(jìn)行新物品推薦,無需大規(guī)模用戶也可達(dá)到一定精度,推薦結(jié)果與用戶偏好較為吻合,但缺乏新穎度和驚喜度,有時(shí)存在數(shù)據(jù)稀疏、冷啟動(dòng)、過擬合、擴(kuò)展難的問題,對(duì)于視頻、音樂等多媒體信息的特征難以提取,推薦困難。
協(xié)同過濾是一種源于集體智慧的典型方法,推薦效果好,維護(hù)代價(jià)低。基本思想是:獲取用戶對(duì)物品偏好程度的信息,計(jì)算用戶間或物品間的相似度,進(jìn)行個(gè)性化推薦。相似度計(jì)算可采用Jaccard系數(shù)、cos夾角余弦相似度、Pealson關(guān)聯(lián)系數(shù)、向量空間模型、關(guān)聯(lián)性反饋(Rocchio)[2]等方法,根據(jù)效用矩陣的數(shù)據(jù)得到項(xiàng)目或用戶相似度。協(xié)同過濾分為基于內(nèi)存(memory-based)和基于模型(modelbased)的協(xié)同過濾,以及近來研究較多的基于圖的協(xié)同過濾。
(1)基于內(nèi)存的協(xié)同過濾
也稱為基于鄰居集(neighborhood)的協(xié)同過濾,分為基于項(xiàng)目(ItemCF)和基于用戶(UserCF)的協(xié)同過濾?;陧?xiàng)目的協(xié)同過濾通過分析項(xiàng)目間的相似性,以目標(biāo)用戶已購(gòu)買且評(píng)分較高的項(xiàng)目為參考,把相似項(xiàng)目推薦給目標(biāo)用戶。像Amazon和YouTuBe的推薦系統(tǒng),利用用戶評(píng)分離線計(jì)算商品相似度,根據(jù)購(gòu)物車商品列表找出關(guān)聯(lián)度最高的商品推薦給用戶。優(yōu)點(diǎn)是使用方便,結(jié)果易解釋,新的數(shù)據(jù)以增量更新的方式加入時(shí)不需考慮被推薦物品的內(nèi)容。缺點(diǎn)表現(xiàn)為較依賴用戶評(píng)價(jià),數(shù)據(jù)稀疏時(shí)表現(xiàn)差,不能處理新用戶和新產(chǎn)品。而基于用戶的協(xié)同過濾根據(jù)用戶相似性找到與目標(biāo)用戶有共同偏好的鄰居用戶集,再根據(jù)鄰居用戶的歷史信息給出對(duì)目標(biāo)用戶的推薦。其前提是假設(shè)相似用戶感興趣的項(xiàng)目,目標(biāo)用戶也有可能感興趣,即若A和B用戶對(duì)一些項(xiàng)目評(píng)分相似,視二者為鄰居用戶,對(duì)A未評(píng)分而B已評(píng)分的項(xiàng)目,可認(rèn)為A也會(huì)有相同評(píng)分。Top-N推薦和基于核方法[11]的推薦都屬這類協(xié)同過濾,并高于一般方法的推薦性能和質(zhì)量。
(2)基于模型的協(xié)同過濾
這類方法并不計(jì)算相似度,而是利用神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、聚類、線性回歸、基于最大熵、馬爾可夫決策過程[9]等機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法建立預(yù)測(cè)模型,采用LDA或SVD等降維技術(shù)[12],根據(jù)已有用戶評(píng)價(jià)數(shù)據(jù)建立模型并進(jìn)行評(píng)價(jià)預(yù)測(cè)。這種方法對(duì)稀疏數(shù)據(jù)的處理能力優(yōu)于基于內(nèi)存的方法,預(yù)測(cè)結(jié)果更好,缺點(diǎn)是建模耗時(shí),部分模型的預(yù)測(cè)結(jié)果不易解釋。
(3)基于圖的協(xié)同過濾
把用戶和項(xiàng)目作為頂點(diǎn)構(gòu)造二部圖(Bipartitegraph),利用隨機(jī)游走的方法計(jì)算頂點(diǎn)關(guān)聯(lián)情況和相似性。密集關(guān)聯(lián)圖比稀疏關(guān)聯(lián)圖表現(xiàn)要好。
總之,協(xié)同過濾的優(yōu)點(diǎn)是系統(tǒng)無需存儲(chǔ)和維護(hù)物品本身的內(nèi)容和屬性,能有效緩解數(shù)據(jù)稀疏,增強(qiáng)系統(tǒng)擴(kuò)展性,提高預(yù)測(cè)精度和推薦新穎性。不足在于建模復(fù)雜且需要周期性更新,降維易致信息損失,難以提供推薦解釋。人口統(tǒng)計(jì)推薦系統(tǒng)是協(xié)同過濾的變種,在沒有用戶評(píng)分?jǐn)?shù)據(jù)的初始階段,人口統(tǒng)計(jì)數(shù)據(jù)也可啟動(dòng)推薦。
基于知識(shí)的推薦旨在利用領(lǐng)域知識(shí)、物品功能和用戶興趣需求進(jìn)行邏輯推理,提供推薦信息,包括基于約束的推薦、基于實(shí)例的推薦、基于知識(shí)推理的推薦[13]。優(yōu)點(diǎn)是不依賴用戶的歷史行為數(shù)據(jù),能夠解決冷啟動(dòng)問題,可解釋性強(qiáng);缺點(diǎn)是推薦質(zhì)量取決于知識(shí)獲取和質(zhì)量,推薦是靜態(tài)的。
情境也稱情景,指實(shí)體的行為或上下文信息。用戶情境包括內(nèi)部和外部情境,內(nèi)部情境指性別、年齡、學(xué)歷、職業(yè)等與人有關(guān)的信息,而外部情境指可由物理設(shè)備提供的相關(guān)信息,如時(shí)間、位置、溫度、網(wǎng)速、設(shè)備參數(shù)等[14]。情景之間的聯(lián)系很大程度上反映了項(xiàng)目間的聯(lián)系[15]。根據(jù)用戶情境信息對(duì)歷史記錄中不相關(guān)的偏好信息過濾,可降低算法復(fù)雜度,減少計(jì)算時(shí)間,提高推薦準(zhǔn)確度。不足在于:當(dāng)存在較多情境信息時(shí),無法預(yù)判各屬性的效用和價(jià)值,因此不同屬性的權(quán)重不確定,各種情境信息之間界限模糊,可以根據(jù)情境間的距離構(gòu)建模糊相似矩陣,采用模糊聚類的方法進(jìn)行推薦。
推薦算法在不同應(yīng)用背景中會(huì)體現(xiàn)出不同的優(yōu)缺點(diǎn),實(shí)際應(yīng)用中大都采用多種推薦方法的組合?;趨f(xié)同過濾和基于內(nèi)容的組合最為常用,基于內(nèi)容方法可以解決協(xié)同過濾中的“新項(xiàng)目”問題,而協(xié)同過濾可降低基于內(nèi)容算法的過擬合問題[15]?;旌贤扑]的設(shè)計(jì)思路有整體式、并行式和流水線式[8],使用切換、交叉或加權(quán)等特別的策略把多種推薦方法的結(jié)果進(jìn)行整合。Netflix Prize競(jìng)賽也屬于混合推薦,GroupLens項(xiàng)目組創(chuàng)辦的MovieLens將協(xié)同過濾和基于關(guān)聯(lián)規(guī)則推薦相結(jié)合向用戶推薦感興趣的電影,作為在線計(jì)算系統(tǒng),復(fù)雜度隨著用戶增多而增大。
混合推薦最明顯的優(yōu)勢(shì)在于可以取長(zhǎng)補(bǔ)短,缺點(diǎn)是組合的條件和前提不易判斷,方法選取和組合順序較難確定,權(quán)重比例難以設(shè)置和優(yōu)化,但混合推薦的效果明顯優(yōu)于傳統(tǒng)或純粹的某種推薦。
推薦評(píng)測(cè)一般有在線(Online)和離線(Offline)兩種方法。離線實(shí)驗(yàn)一般采用交叉驗(yàn)證[16]按一定比例將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,前者用于構(gòu)造模型供學(xué)習(xí)和挖掘,后者用于驗(yàn)證和測(cè)試模型性能。該方法利用歷史數(shù)據(jù)測(cè)試,不需真正用戶參與,成本低,適于不同推薦算法的比較和過濾;由于批量方式處理對(duì)數(shù)據(jù)量和算法時(shí)間要求不多,沒有及時(shí)加入最新數(shù)據(jù),計(jì)算容易過時(shí),且缺乏用戶參與,預(yù)測(cè)質(zhì)量難以保證,在完成離線實(shí)驗(yàn)后還需進(jìn)行在線實(shí)驗(yàn)[13]。
在線實(shí)驗(yàn)是根據(jù)用戶實(shí)時(shí)反饋或事后問卷調(diào)查來衡量推薦系統(tǒng)的表現(xiàn),能響應(yīng)即時(shí)事件和用戶交互。優(yōu)點(diǎn)在于測(cè)試到系統(tǒng)對(duì)用戶行為的影響,根據(jù)相關(guān)指標(biāo)和用戶主觀感受對(duì)錯(cuò)誤進(jìn)行彌補(bǔ);但其成本高,測(cè)試范圍和次數(shù)、算法復(fù)雜性和數(shù)據(jù)量都受到限制。還有一種接近在線(Nearline)計(jì)算,類似在線計(jì)算,但不強(qiáng)求實(shí)時(shí)完成。
數(shù)據(jù)集(dataset)是推薦系統(tǒng)進(jìn)行訓(xùn)練和測(cè)試的對(duì)象,有真實(shí)數(shù)據(jù)集、模擬數(shù)據(jù)集和半模擬數(shù)據(jù)集三種。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)會(huì)發(fā)現(xiàn)有趣的現(xiàn)象,揭示隱藏的規(guī)律。各領(lǐng)域的數(shù)據(jù)可借助網(wǎng)絡(luò)爬蟲自動(dòng)收集,或從相關(guān)平臺(tái)下載,有的用戶和項(xiàng)目達(dá)數(shù)萬到上百萬數(shù)量級(jí)?,F(xiàn)有許多標(biāo)準(zhǔn)數(shù)據(jù)集,最為豐富的電影數(shù)據(jù)集包括GroupLens小組的Moviel?ens,HP/Compaq DEC研究中心的EachMovie,NET?FLIX網(wǎng)站競(jìng)賽數(shù)據(jù)NETFLIX,瑞典最大的電影推薦社區(qū)Filmtipset。其他還有Yahoo音樂數(shù)據(jù)集,Springer的文獻(xiàn)數(shù)據(jù)集CiteULike,用于KDD-CUP競(jìng)賽的騰訊微博數(shù)據(jù)集,Cai-Nicolas Ziegler的BookCrossing圖書數(shù)據(jù)集,加州大學(xué)伯克利分校Ken Goldberg的 JesterJoke笑話集,Usenet News?groups新聞組、亞馬遜在線商品的評(píng)分?jǐn)?shù)據(jù)集、UCI知識(shí)庫(kù)等,可供進(jìn)行實(shí)驗(yàn)預(yù)測(cè)和推薦。
數(shù)據(jù)集的使用可能存在一些問題,如數(shù)據(jù)規(guī)模對(duì)內(nèi)存開銷的要求、過多數(shù)據(jù)缺失給預(yù)測(cè)帶來困難、訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間的差異、諸多因素對(duì)評(píng)分的影響、訓(xùn)練數(shù)據(jù)中評(píng)分?jǐn)?shù)量的不平衡等。
利用Matlab、Java等軟件可以模擬和測(cè)試實(shí)驗(yàn)結(jié)果。信息檢索中的召回率可用于描述用戶喜歡的項(xiàng)目可以被系統(tǒng)發(fā)現(xiàn)并推薦給用戶的可能性。此外,常用的推薦評(píng)測(cè)指標(biāo)有推薦效率、預(yù)測(cè)準(zhǔn)確度、覆蓋率、多樣性、新鮮度、用戶滿意度等。
(1)推薦效率(Efficiency)
推薦系統(tǒng)對(duì)實(shí)時(shí)性有較高要求,但基于海量數(shù)據(jù)的復(fù)雜情況,推薦效率會(huì)受制約和影響,采用基于物品的關(guān)聯(lián)算法和多種降維方法可降低在線計(jì)算時(shí)間。
(2)準(zhǔn)確度(Accuracy)
在回學(xué)校的路上,阿孜姑老師悄悄告訴我:“張老師,真的謝謝你!這名學(xué)生前天哭著找我,說想請(qǐng)假回家看病,但我們這里比較落后、保守,她家里更是經(jīng)濟(jì)困難,我擔(dān)心她一個(gè)孩子回家也解決不了,怕再出什么問題。我想了很久都沒辦法,只好來找你幫忙。沒想到你能帶我們?nèi)フ以t(yī)生幫她看病,又買藥給她,又買水果給她,還安慰她,減輕了她生病的心理壓力。你對(duì)我們這么好,真不知怎么感謝你?!蔽倚χf:“感謝你們對(duì)我的信任,如果有什么我可以做的,你們盡管說,我會(huì)很高興的。”回到學(xué)校,這位一路沉默不語(yǔ)的女生竟也主動(dòng)開口,用并不標(biāo)準(zhǔn)的普通話對(duì)我說:“謝謝老師!我先把東西拿回宿舍,老師再見?!?/p>
準(zhǔn)確度即命中率,衡量系統(tǒng)預(yù)測(cè)用戶對(duì)項(xiàng)目興趣偏好的能力,包括分類準(zhǔn)確度、預(yù)測(cè)準(zhǔn)確度和排序準(zhǔn)確度等。準(zhǔn)確率、召回率、F指標(biāo)和ROC曲線都是度量分類準(zhǔn)確度的重要指標(biāo)[17]。量化預(yù)測(cè)準(zhǔn)確度的指標(biāo)有平均絕對(duì)偏差(MAE),均方根誤差(RMSE)、平均錯(cuò)誤方差(MSE)、平均預(yù)測(cè)誤差(MPE)。前兩種最常用,MAE的值越小,預(yù)測(cè)精度越高,推薦質(zhì)量越高;RMSE表明實(shí)際觀測(cè)值和預(yù)測(cè)值之間的平均誤差水平。
(3)覆蓋率(Coverage)
覆蓋率表征系統(tǒng)挖掘長(zhǎng)尾的能力,用推薦對(duì)象在推薦列表中出現(xiàn)次數(shù)的分布來描述,包括種類覆蓋率、用戶覆蓋率。種類覆蓋率即被推薦項(xiàng)目占所有候選項(xiàng)目的比例,用戶覆蓋率指獲得推薦結(jié)果的用戶比例。
(4)多樣性(Diversity)
多樣性衡量系統(tǒng)推薦內(nèi)容的差異。從單個(gè)用戶視角推薦項(xiàng)目應(yīng)具有多樣性,計(jì)算項(xiàng)目差異平均值可以獲得;從綜合角度來看系統(tǒng)給所有用戶推薦的項(xiàng)目應(yīng)該多元豐富,雷同度低,即用戶內(nèi)多樣性和用戶間多樣性。推薦列表多樣性指標(biāo)可用海明距離評(píng)價(jià)。
(5)新鮮度(Novelty)
新鮮度指系統(tǒng)為用戶推薦其從未見過但感興趣項(xiàng)目的能力。風(fēng)格相似的音樂或電影作品循環(huán)播放,用戶會(huì)產(chǎn)生疲勞,滿意度和忠誠(chéng)度會(huì)降低;推薦高評(píng)價(jià)或流行產(chǎn)品易被用戶接受,但推薦價(jià)值有限,因?yàn)槭軞g迎程度高的目標(biāo)無需系統(tǒng)推薦也易獲取。因此,好的推薦列表應(yīng)包含不太流行、不易找出、有價(jià)值的新穎物品,可用平均流行度來衡量,流行度越低,代表推薦項(xiàng)目越新穎。
RecSys2013大會(huì)提出推薦系統(tǒng)未來發(fā)展的四個(gè)方面[5]:異構(gòu)網(wǎng)絡(luò)上的推薦、社交網(wǎng)絡(luò)中推薦的隱私問題、移動(dòng)社會(huì)化網(wǎng)絡(luò)中的推薦、社交網(wǎng)絡(luò)與頂點(diǎn)內(nèi)容的整合。這些問題在不同的應(yīng)用中,既是機(jī)遇也是挑戰(zhàn)。
推薦系統(tǒng)具有豐富的應(yīng)用領(lǐng)域和場(chǎng)景,具有廣闊的研究方向。
(1)移動(dòng)終端信息推薦
隨著移動(dòng)計(jì)算和可穿戴設(shè)備的迅猛發(fā)展,個(gè)人終端日漸豐富,體積越來越小,承載的信息量卻逐漸增大,信息精度需求越來越高?;谝苿?dòng)應(yīng)用的標(biāo)簽推薦等終端推薦成為新的趨勢(shì)。
(2)個(gè)性化廣告推薦
網(wǎng)民覆蓋率空前攀高,但大眾化廣告對(duì)消費(fèi)者影響越來越低,大部分廣告相關(guān)性較差,推薦性能不佳,有的反而對(duì)正常的消費(fèi)和交易帶來干擾和誤導(dǎo),因此互聯(lián)網(wǎng)廣告與用戶體驗(yàn)處于對(duì)立的尷尬局面。推薦算法與計(jì)算廣告相結(jié)合,會(huì)為用戶帶來有價(jià)值且個(gè)性化的廣告,確保用戶體驗(yàn)和反饋?;邳c(diǎn)擊率預(yù)估的廣告推薦、針對(duì)廣告主優(yōu)化的維度推薦等都具有很大潛力。
(3)利用語(yǔ)義網(wǎng)和上下文感知
Web3.0為語(yǔ)義空間時(shí)代,基于社交網(wǎng)絡(luò)和上下文感知環(huán)境設(shè)計(jì)推薦系統(tǒng)成為必然。上下文信息包括時(shí)間、位置、情感、同伴和群組等,利用不同維度進(jìn)行多標(biāo)準(zhǔn)評(píng)分,可改進(jìn)推薦準(zhǔn)確性。
(4)混合推薦
每種算法都有不同版本變種,在何種場(chǎng)景采用何種組合策略混合推薦能夠取得優(yōu)化,怎樣對(duì)優(yōu)秀算法強(qiáng)強(qiáng)結(jié)合仍是活躍的方向,已有學(xué)者研究模糊推薦、面向群體的推薦、“推薦系統(tǒng)”的推薦[8]。
推薦系統(tǒng)已取得很大進(jìn)展和成果,但仍面臨許多技術(shù)難題和挑戰(zhàn)。
(1)結(jié)構(gòu)化數(shù)據(jù)抽取。用戶評(píng)論和網(wǎng)頁(yè)信息多為自然語(yǔ)言,非結(jié)構(gòu)化數(shù)據(jù)處理和信息抽取存在困難。如何進(jìn)行結(jié)構(gòu)化數(shù)據(jù)抽取,如何根據(jù)樣例標(biāo)注模板并挖掘更多樣例,也是推薦的難點(diǎn),利用特征工程結(jié)合傳統(tǒng)的手工標(biāo)注、包裝器歸納和自動(dòng)抽取方法[3]將利于解決這一難題。
(2)防范作弊和攻擊。推薦系統(tǒng)可能會(huì)遭強(qiáng)行促銷或抑制項(xiàng)目的惡意攻擊,通過簡(jiǎn)單工具可阻斷惡意評(píng)價(jià)進(jìn)入系統(tǒng),防止推薦引擎受到干擾,但攻擊策略越來越先進(jìn),防范作弊和攻擊是一項(xiàng)長(zhǎng)期的挑戰(zhàn)。
(3)實(shí)時(shí)性。海量數(shù)據(jù)、高速帶寬、移動(dòng)計(jì)算和流數(shù)據(jù)的發(fā)展對(duì)實(shí)時(shí)推薦提出更高要求,如新聞和微博的實(shí)時(shí)推薦[18]。離線推薦質(zhì)量較高,但往往不能滿足實(shí)際需求,而在線推薦會(huì)犧牲推薦精度。精準(zhǔn)度與實(shí)時(shí)性形成矛盾,如何權(quán)衡或取得雙提高仍待研究。
(4)隱私安全。推薦準(zhǔn)確性不斷提高的同時(shí),系統(tǒng)可能會(huì)挖掘出更多用戶需求和隱私信息,這種“讀書術(shù)”般的應(yīng)用使用戶產(chǎn)生畏懼和抵觸。NETF?LIX第二輪比賽數(shù)據(jù)集達(dá)1億條,包含顧客年齡、性別、居住地、郵編、已觀影片、評(píng)級(jí)分?jǐn)?shù)等,所有數(shù)據(jù)均匿名,但用戶仍對(duì)年齡、性別、郵編等隱私信息的公開頗有爭(zhēng)議,致使2010年的大賽被迫取消。推薦性能與隱私保護(hù)的折衷也是一個(gè)嚴(yán)峻挑戰(zhàn)。
(5)可解釋性。推薦系統(tǒng)對(duì)可解釋性和透明度的要求很高,交互方式和可視化效果等用戶體驗(yàn)直接或間接影響用戶心理變化、信任度及后續(xù)決策。解釋推薦產(chǎn)生的原因助于用戶理解推薦策略,對(duì)系統(tǒng)的建議和決策方案產(chǎn)生信任,但解釋的方式仍需探究。
隨著Wi-Fi的廣泛覆蓋,BYOD(Bring Your Own Device)時(shí)代已經(jīng)到來,互聯(lián)網(wǎng)也從搜索知識(shí)的時(shí)代進(jìn)入發(fā)現(xiàn)知識(shí)的時(shí)代。推薦系統(tǒng)將會(huì)和搜索引擎一樣成為互聯(lián)網(wǎng)產(chǎn)品的基礎(chǔ)應(yīng)用,成為大型網(wǎng)站的標(biāo)準(zhǔn)配置和基礎(chǔ)功能。
在云計(jì)算、海量數(shù)據(jù)挖掘和個(gè)性化服務(wù)的推動(dòng)下,推薦的應(yīng)用延伸至普適環(huán)境,推薦系統(tǒng)的架構(gòu)、方法和實(shí)踐將迅速發(fā)展,在人性化、準(zhǔn)確度、安全性諸方面發(fā)揮優(yōu)勢(shì),服務(wù)于人們的工作學(xué)習(xí)和生活。同時(shí),學(xué)術(shù)界與和工業(yè)界的結(jié)合愈加密切,推薦系統(tǒng)的研究與應(yīng)用將會(huì)取得更大突破和更優(yōu)成果。
[1]Chris Anderson.The Long tail[M].NewYork:Random House.2009.
[2]HongzhiYin,Bin Cui,Jing Li,et al.Challenging the Long Tail Recommendation[J].VLDB,2012:896-907.
[3]Bing Liu.Web數(shù)據(jù)挖掘[M].俞勇,譯.北京:清華大學(xué)出版社.2009.
[4]項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].北京:人民郵電出版社.2012.
[5]蔣凡.從RecSys2013大會(huì)看推薦系統(tǒng)發(fā)展新趨勢(shì)[EB/OL].(2013-10-21)[2014-01-20].http://www.csdn.net/article/2013-10-21/2817244-RecSys-2013-participants-interview2013-10-28.
[6]葉樹鑫,何聚厚.協(xié)作學(xué)習(xí)中基于協(xié)同過濾的學(xué)習(xí)資源推薦研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(10):63-66.
[7]崔彥曉.高考志愿的個(gè)性化推薦方法研究[D].石家莊:石家莊鐵道大學(xué),2013.
[8]Jannach D.推薦系統(tǒng)[M].蔣凡,譯.北京:人民郵電出版社,2013.
[9]劉暢,吳清烈.基于協(xié)同過濾的大規(guī)模定制個(gè)性化推薦方法[J].工業(yè)工程,2014,17(4):24-28.
[10]張艷梅,王璐.適應(yīng)用戶興趣變化的社會(huì)化標(biāo)簽推薦算法研究[J].計(jì)算機(jī)工程,2014,40(11):318-321.
[11]王鵬,王晶晶,俞能海.基于核方法的User-Based協(xié)同過濾算法[J].計(jì)算機(jī)研究與發(fā)展,2013,50(7):1444-1451.
[12]AnandRajaraman,Je ff rey D Ullman.Mining of Massive Datasets[M].Cambridge:Cambridge University Press,2011.
[13]陳潔敏,湯庸,李建國(guó),等.個(gè)性化推薦算法研究[J].華南師范大學(xué)學(xué)報(bào),2014,46(5):8-14.
[14]李薈,謝強(qiáng),秋林.一種基于情景的協(xié)同過濾推薦算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(10):42-46.
[15]楊博,趙鵬飛.推薦算法綜述[J].山西大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(3):337-350.
[16]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[17]劉建國(guó),周濤,郭強(qiáng),等.個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué).2009,6(3):1-10.
[18]高明,金澈清,錢衛(wèi)寧,等.面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):963-975.
〔責(zé)任編輯 高?!?/p>
Survey of Personalized Recommendation System Based on Massive Data and Web Mining
WU Hai-xia,LIAN Wei,LI Hui-fang
(Department of Computer Science,Changzhi University,Changzhi Shanxi,046011)
Recommendation system is a hot topic in industry and academic fields,which can effectively solve information-over?load in massive data on Internet.This paper introduces the development and applications of personalized recommendation technology,including several key problems.The different types of classical recommendation algorithms are analyzed in detail.It also lists the evalu?ation methods and criterions.In the end the future development of personalized recommendation are prospected.
personalized recommendation;massive data;web mining;recommendation algorithm
TP391
A
1674-0874(2015)03-0011-07
2015-03-24
山西省基礎(chǔ)研究青年科技研究基金項(xiàng)目[2012021015];長(zhǎng)治學(xué)院校級(jí)科研項(xiàng)目[201418]
吳海霞(1978-),女,山西晉城人,碩士,講師,研究方向:數(shù)據(jù)挖掘和信息處理。