• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)與推薦系統(tǒng)

    2015-03-17 02:53:30李翠平藍(lán)夢微鄒本友王紹卿趙衎衎
    大數(shù)據(jù) 2015年3期
    關(guān)鍵詞:物品算法用戶

    李翠平,藍(lán)夢微,鄒本友,王紹卿,趙衎衎

    中國人民大學(xué)數(shù)據(jù)工程與知識工程教育部重點(diǎn)實(shí)驗(yàn)室 北京 100872

    大數(shù)據(jù)與推薦系統(tǒng)

    李翠平,藍(lán)夢微,鄒本友,王紹卿,趙衎衎

    中國人民大學(xué)數(shù)據(jù)工程與知識工程教育部重點(diǎn)實(shí)驗(yàn)室 北京 100872

    隨著大數(shù)據(jù)時(shí)代的來臨,網(wǎng)絡(luò)中的信息量呈現(xiàn)指數(shù)式增長,隨之帶來了信息過載問題。推薦系統(tǒng)是解決信息過載最有效的方式之一,大數(shù)據(jù)推薦系統(tǒng)已經(jīng)逐漸成為信息領(lǐng)域的研究熱點(diǎn)。介紹了推薦系統(tǒng)的產(chǎn)生及其在大數(shù)據(jù)時(shí)代的發(fā)展現(xiàn)狀、推薦系統(tǒng)的領(lǐng)域需求和系統(tǒng)架構(gòu)、大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的挑戰(zhàn)及其關(guān)鍵技術(shù)、開源的大數(shù)據(jù)推薦軟件、大數(shù)據(jù)推薦系統(tǒng)研究面臨的問題,最后探討了大數(shù)據(jù)推薦系統(tǒng)的未來發(fā)展趨勢。

    大數(shù)據(jù);推薦系統(tǒng);協(xié)同過濾

    1 推薦系統(tǒng)與網(wǎng)絡(luò)大數(shù)據(jù)

    隨著科技與信息技術(shù)的迅猛發(fā)展,社會進(jìn)入了一個(gè)全新的高度信息化的時(shí)代,互聯(lián)網(wǎng)無處不在,影響了人類生活的方方面面,并徹底改變了人們的生活方式。尤其是進(jìn)入Web 2.0時(shí)代以來,隨著社會化網(wǎng)絡(luò)媒體的異軍突起,互聯(lián)網(wǎng)用戶既是網(wǎng)絡(luò)信息的消費(fèi)者,也是網(wǎng)絡(luò)內(nèi)容的生產(chǎn)者,互聯(lián)網(wǎng)中的信息量呈指數(shù)級增長。由于用戶的辨別能力有限,在面對龐大且復(fù)雜的互聯(lián)網(wǎng)信息時(shí)往往感到無從下手,使得在互聯(lián)網(wǎng)中找尋有用信息的成本巨大,產(chǎn)生了所謂的“信息過載”問題。

    搜索引擎和推薦系統(tǒng)的產(chǎn)生為解決“信息過載”問題提供了非常重要的技術(shù)手段。對于搜索引擎來說,用戶在搜索互聯(lián)網(wǎng)中的信息時(shí),需要在搜索引擎中輸入“查詢關(guān)鍵詞”,搜索引擎根據(jù)用戶的輸入,在系統(tǒng)后臺進(jìn)行信息匹配,將與用戶查詢相關(guān)的信息展示給用戶。但是,如果用戶無法想到準(zhǔn)確描述自己需求的關(guān)鍵詞,此時(shí)搜索引擎就無能為力了。和搜索引擎不同,推薦系統(tǒng)不需要用戶提供明確的需求,而是通過分析用戶的歷史行為來對用戶的興趣進(jìn)行建模,從而主動給用戶推薦可能滿足他們興趣和需求的信息。因此,搜索引擎和推薦系統(tǒng)對用戶來說是兩個(gè)互補(bǔ)的工具,前者是主動的,而后者是被動的。

    近幾年,電子商務(wù)蓬勃發(fā)展,推薦系統(tǒng)在互聯(lián)網(wǎng)中的優(yōu)勢地位也越來越明顯。在國際方面,比較著名的電子商務(wù)網(wǎng)站有Amazon和eBay,其中Amazon平臺中采用的推薦算法被認(rèn)為是非常成功的。在國內(nèi),比較大型的電子商務(wù)平臺網(wǎng)站有淘寶網(wǎng)(包括天貓商城)、京東商城、當(dāng)當(dāng)網(wǎng)、蘇寧易購等。在這些電子商務(wù)平臺中,網(wǎng)站提供的商品數(shù)量不計(jì)其數(shù),網(wǎng)站中的用戶規(guī)模也非常巨大。據(jù)不完全統(tǒng)計(jì),天貓商城中的商品數(shù)量已經(jīng)超過了4 000萬。在如此龐大的電商網(wǎng)站中,用戶根據(jù)自己的購買意圖輸入關(guān)鍵字查詢后,會得到很多相似的結(jié)果,用戶在這些結(jié)果中也很難區(qū)分異同,用戶也難于選擇合適的物品。于是,推薦系統(tǒng)作為能夠根據(jù)用戶興趣為用戶推薦一些用戶感興趣的商品,從而為用戶在購物的選擇中提供建議的需求非常明顯。目前比較成功的電子商務(wù)網(wǎng)站中,都不同程度地利用推薦系統(tǒng)在用戶購物的同時(shí),為用戶推薦一些商品,從而提高網(wǎng)站的銷售額。

    另一方面,智能手機(jī)的發(fā)展推動了移動互聯(lián)網(wǎng)的發(fā)展。在用戶使用移動互聯(lián)網(wǎng)的過程中,其所處的地理位置等信息可以非常準(zhǔn)確地被獲取?;诖?,國內(nèi)外出現(xiàn)了大量的基于用戶位置信息的網(wǎng)站。國外比較著名的有Meetup和Flickr。國內(nèi)著名的有豆瓣網(wǎng)和大眾點(diǎn)評網(wǎng)。例如,在大眾點(diǎn)評這種基于位置服務(wù)的網(wǎng)站中,用戶可以根據(jù)自己的當(dāng)前位置搜索餐館、酒店、影院、旅游景點(diǎn)等信息服務(wù)。同時(shí),可以對當(dāng)前位置下的各類信息進(jìn)行點(diǎn)評,為自己在現(xiàn)實(shí)世界中的體驗(yàn)打分,分享自己的經(jīng)驗(yàn)與感受。當(dāng)用戶使用這類基于位置的網(wǎng)站服務(wù)時(shí),同樣會遭遇“信息過載”問題。推薦系統(tǒng)可以根據(jù)用戶的位置信息為用戶推薦當(dāng)前位置下用戶感興趣的內(nèi)容,為用戶提供符合其真正需要的內(nèi)容,提升用戶對網(wǎng)站的滿意度。

    隨著社交網(wǎng)絡(luò)的興起,用戶在互聯(lián)網(wǎng)中的行為不再限于獲取信息,更多的是與網(wǎng)絡(luò)上的其他用戶進(jìn)行互動。國外著名的社交網(wǎng)絡(luò)有Facebook、LinkedIn、Twitter等,國內(nèi)的社交網(wǎng)絡(luò)有新浪微博、人人網(wǎng)、騰訊微博等。在社交網(wǎng)站中,用戶不再是單個(gè)的個(gè)體,而是與網(wǎng)絡(luò)中的很多人具有了錯(cuò)綜復(fù)雜的關(guān)系。社交網(wǎng)絡(luò)中最重要的資源就是用戶與用戶之間的這種關(guān)系數(shù)據(jù)。在社交網(wǎng)絡(luò)中,用戶間的關(guān)系是不同的,建立關(guān)系的因素可能是現(xiàn)實(shí)世界中的親人、同學(xué)、同事、朋友關(guān)系,也可能是網(wǎng)絡(luò)中的虛擬朋友,比如都是有著共同愛好的社交網(wǎng)絡(luò)成員。在社交網(wǎng)絡(luò)中,用戶與用戶之間的聯(lián)系反映了用戶之間的信任關(guān)系,用戶不單單是一個(gè)個(gè)體,用戶在社交網(wǎng)絡(luò)中的行為或多或少地會受到這些用戶關(guān)系的影響。因此,推薦系統(tǒng)在這類社交網(wǎng)站中的研究與應(yīng)用,應(yīng)該考慮用戶社交關(guān)系的影響。

    2 推薦系統(tǒng)的產(chǎn)生與發(fā)展

    “推薦系統(tǒng)”這個(gè)概念是1995年在美國人工智能協(xié)會(AAAI)上提出的。當(dāng)時(shí)CMU大學(xué)的教授Robert Armstrong提出了這個(gè)概念,并推出了推薦系統(tǒng)的原型系統(tǒng)——Web Watcher。在同一個(gè)會議上,美國斯坦福大學(xué)的Marko Balabanovic等人推出了個(gè)性化推薦系統(tǒng)LIRA1。隨后推薦系統(tǒng)的研究工作開始慢慢壯大。1996年,Yahoo網(wǎng)站推出了個(gè)性化入口My Yahoo,可以看作第一個(gè)正式商用的推薦系統(tǒng)。21世紀(jì)以來,推薦系統(tǒng)的研究與應(yīng)用隨著電子商務(wù)的快速發(fā)展而異軍突起,各大電子商務(wù)網(wǎng)站都部署了推薦系統(tǒng),其中Amazon網(wǎng)站的推薦系統(tǒng)比較著名。有報(bào)告稱,Amazon網(wǎng)站中35%的營業(yè)額來自于自身的推薦系統(tǒng)。2006年,美國的DVD租賃公司Netflix在網(wǎng)上公開設(shè)立了一個(gè)推薦算法競賽——Netflix Prize。Netflix公開了真實(shí)網(wǎng)站中的一部分?jǐn)?shù)據(jù),包含用戶對電影的評分[2]。Netflix競賽有效地推動了學(xué)術(shù)界和產(chǎn)業(yè)界對推薦算法的研究,期間提出了很多有效的算法。近幾年,隨著社會化網(wǎng)絡(luò)的發(fā)展,推薦系統(tǒng)在工業(yè)界廣泛應(yīng)用并且取得了顯著進(jìn)步。比較著名的推薦系統(tǒng)應(yīng)用有:Amazon和淘寶網(wǎng)的電子商務(wù)推薦系統(tǒng)、Netflix和MovieLens的電影推薦系統(tǒng)、Youtube的視頻推薦系統(tǒng)、豆瓣和Last.fm的音樂推薦系統(tǒng)、Google的新聞推薦系統(tǒng)以及Facebook和Twitter的好友推薦系統(tǒng)。

    推薦系統(tǒng)誕生后,學(xué)術(shù)界對其關(guān)注也越來越多。從1999年開始,美國計(jì)算機(jī)學(xué)會每年召開電子商務(wù)研討會(ACM Conference on Electronic Commerce,ACM EC),越來越多的與推薦系統(tǒng)相關(guān)的論文發(fā)表在ACM EC上。ACM信息檢索專業(yè)組(ACM Special Interest Group of Information Retrieval,ACM SIGIR)在2001年開始把推薦系統(tǒng)作為該會議的一個(gè)獨(dú)立研究主題。同年召開的人工智能聯(lián)合大會(The 17th International Joint Conference on Artificial Intelligence)也將推薦系統(tǒng)作為一個(gè)單獨(dú)的主題。最近的10年間,學(xué)術(shù)界對推薦系統(tǒng)越來越重視。目前為止,數(shù)據(jù)庫、數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)方面的重要國際會議(如SIGMOD、VLDB、ICDE、KDD、AAAI、SIGIR、ICDM、WWW、ICML等)都有大量與推薦系統(tǒng)相關(guān)的研究成果發(fā)表。同時(shí),第一個(gè)以推薦系統(tǒng)命名的國際會議ACM Recommender Systems Conference(ACM RecSys)于2007年首次舉辦。在近幾年的數(shù)據(jù)挖掘及知識發(fā)現(xiàn)國際會議(KDD)舉辦的KDD CUP競賽中,連續(xù)兩年的競賽主題都是推薦系統(tǒng)。在KDD CUP 2011年的競賽中,兩個(gè)競賽題目分別為“音樂評分預(yù)測”和“識別音樂是否被用戶評分”。在KDD CUP 2012年的競賽中,兩個(gè)競賽題目分別為“騰訊微博中的好友推薦”和“計(jì)算廣告中的點(diǎn)擊率預(yù)測”。

    3 推薦系統(tǒng)的領(lǐng)域需求和系統(tǒng)架構(gòu)

    如上所述,推薦系統(tǒng)在很多領(lǐng)域得到了廣泛的應(yīng)用,如新聞推薦、微博推薦、圖書推薦、電影推薦、產(chǎn)品推薦、音樂推薦、餐館推薦、視頻推薦等。不同領(lǐng)域的推薦系統(tǒng)具有不同的數(shù)據(jù)稀疏性,對推薦系統(tǒng)的可擴(kuò)展性以及推薦結(jié)果的相關(guān)性、流行性、新鮮性、多樣性和新穎性具有不同的需求。不同領(lǐng)域推薦系統(tǒng)的需求對比見表1。

    圖1 系統(tǒng)架構(gòu)

    盡管需求不盡相同,一個(gè)完整的推薦系統(tǒng)通常都包括數(shù)據(jù)建模、用戶建模、推薦引擎和用戶接口4個(gè)部分,如圖1所示。數(shù)據(jù)建模模塊負(fù)責(zé)對擬推薦的物品數(shù)據(jù)進(jìn)行準(zhǔn)備,將其表示成有利于分析的數(shù)據(jù)形式,確定要推薦給用戶的候選物品,并對物品進(jìn)行分類、聚類等預(yù)處理。用戶建模模塊負(fù)責(zé)對用戶的行為信息進(jìn)行分析,從而獲得用戶的潛在喜好。用戶的行為信息包括問答、評分、購買、下載、瀏覽、收藏、停留時(shí)間等。推薦引擎模塊利用后臺的推薦算法,實(shí)時(shí)地從候選物品集合中篩選出用戶感興趣的物品,排序后以列表的形式向用戶推薦。推薦引擎是推薦系統(tǒng)的核心部分,也是最耗系統(tǒng)資源和時(shí)間的部分。用戶接口模塊承擔(dān)展示推薦結(jié)果、收集用戶反饋等功能。用戶接口除了應(yīng)具有布局合理、界面美觀、使用方便等基本要求外,還應(yīng)有助于用戶主動提供反饋。主要有兩種類型的接口:Web端(Web-based)和移動端(mobilebased)。受篇幅限制,僅對用戶建模和推薦引擎這兩個(gè)重要模塊進(jìn)行詳細(xì)介紹。

    3.1 用戶建模

    用戶模型反映用戶的興趣偏好。用戶興趣的反饋可分為顯性反饋和隱性反饋。顯性反饋包含兩種方式:用戶定制和用戶評分。用戶定制是指用戶對系統(tǒng)所列問題的回答,如年齡、性別、職業(yè)等。評分又分為兩級評分和多級評分。例如,在Yahoo News中采用兩級評分:喜歡(more like this)和不喜歡(less like this)。多級評分可以更詳細(xì)地描述對某個(gè)產(chǎn)品的喜歡程度,如GroupLens中用戶對新聞的喜好程度可評價(jià)為1~5分。News Dude支持用戶的4級反饋:感興趣、不感興趣、已知道、想了解更多,然后進(jìn)行歸一化處理。

    表1 不同領(lǐng)域的推薦系統(tǒng)需求對比

    很多時(shí)候用戶不能夠準(zhǔn)確地提供個(gè)人偏好或者不愿意顯性提供個(gè)人偏好,更不愿意經(jīng)常維護(hù)個(gè)人的偏好。所以,隱性反饋往往能夠正確地體現(xiàn)用戶的偏好以及偏好的變化。常用的隱性反饋信息有:是否點(diǎn)擊、停留時(shí)間、點(diǎn)擊時(shí)間、點(diǎn)擊地點(diǎn)、是否加入收藏、評論內(nèi)容(可推測用戶的心情)、用戶的搜索內(nèi)容、社交網(wǎng)絡(luò)、流行趨勢、點(diǎn)擊順序等。在協(xié)同過濾推薦方法中,常常把用戶的隱性反饋轉(zhuǎn)化為用戶對產(chǎn)品的評分。例如,Google News中用戶閱讀過的新聞記為喜歡,評分為1;沒有閱讀過的評分為0。Daily Learner系統(tǒng)中用戶點(diǎn)擊了新聞標(biāo)題評分為0.8分,閱讀完全文則評分上升到1分;若用戶跳過了系統(tǒng)推薦的新聞,則從系統(tǒng)預(yù)測評分中減去0.2分作為最終評分。

    用戶的興趣可分為長期興趣和短期興趣。長期興趣反映用戶的真實(shí)興趣;短期興趣常與熱點(diǎn)話題相關(guān)聯(lián)且經(jīng)常改變,從最近的歷史行為中學(xué)習(xí)到的短期興趣模型可快速反映用戶興趣的變化。常用的模型有向量空間模型、語義網(wǎng)絡(luò)模型、基于分類器的模型等。由于用戶的興趣常受物品本身周期性、熱點(diǎn)事件、突發(fā)事件的影響,變化性很大。所以,需要經(jīng)常更新用戶模型。

    3.2 推薦引擎

    推薦引擎的基本推薦方法可分為基于內(nèi)容的推薦和基于協(xié)同過濾的推薦。

    基于內(nèi)容的推薦方法的基本原理是,根據(jù)用戶以往喜歡的物品,選擇其他類似的物品作為推薦結(jié)果[2]。例如,現(xiàn)在有一部新電影與用戶過去看過的某部電影有相同演員或者題材類似,則用戶可能就喜歡這部新電影。通常使用用戶模型的向量特征來描述用戶的興趣愛好,同樣對于每個(gè)物品進(jìn)行特征提取,作為物品模型的內(nèi)容特征。然后計(jì)算用戶模型的向量特征和候選物品模型的向量特征兩者之間的匹配度,匹配度較高的候選物品就可作為推薦結(jié)果推送給目標(biāo)用戶。

    協(xié)同過濾技術(shù)是由David Goldberg在1992年提出的,是目前個(gè)性化推薦系統(tǒng)中應(yīng)用最為成功和廣泛的技術(shù)。國外著名的商業(yè)網(wǎng)站Amazon,國內(nèi)比較著名的豆瓣網(wǎng)、蝦米網(wǎng)等網(wǎng)站,都采用了協(xié)同過濾的方法。其本質(zhì)是基于關(guān)聯(lián)分析的技術(shù),即利用用戶所在群體的共同喜好來向用戶進(jìn)行推薦。協(xié)同過濾利用了用戶的歷史行為(偏好、習(xí)慣等)將用戶聚類成簇,這種推薦通過計(jì)算相似用戶,假設(shè)被其他相似用戶喜好的物品當(dāng)前用戶也感興趣。協(xié)同過濾的推薦方法通常包括兩個(gè)步驟:根據(jù)用戶行為數(shù)據(jù)找到和目標(biāo)用戶興趣相似的用戶集合(用戶所在的群體或簇);找到這個(gè)集合中用戶喜歡的且目標(biāo)用戶沒有購買過的物品推薦給目標(biāo)用戶。

    在實(shí)際使用中,協(xié)同過濾技術(shù)面臨兩大制約:一是數(shù)據(jù)稀疏問題,二是冷啟動問題。協(xié)同過濾需要利用用戶和用戶或者物品與物品之間的關(guān)聯(lián)性進(jìn)行推薦。最流行的基于內(nèi)存的協(xié)同過濾方法是基于鄰居關(guān)系的方法。該方法首先找出與指定用戶評價(jià)歷史相近的該用戶的鄰居,根據(jù)這些鄰居的行為來預(yù)測結(jié)果或者找出與查詢物品類似的物品。這樣做的前提假設(shè)是,如果兩個(gè)用戶在一組物品上有相似的評價(jià),那么他們對其他的物品也將會有相似的評價(jià);或者如果兩物品在一組用戶上有相似的評價(jià),那么他們對于其他的用戶也將會有相似的評價(jià)。

    協(xié)同過濾算法的關(guān)鍵是找尋用戶(物品)的最近鄰居。當(dāng)數(shù)據(jù)稀疏時(shí),用戶購買過的物品很難重疊,協(xié)同推薦的效果就不好。改進(jìn)辦法之一是,除了直接鄰居之外,間接鄰居的行為也可以對當(dāng)前用戶的決策行為構(gòu)成影響。另外一些解決稀疏問題的方法是可以添加一些缺省值,人為地將數(shù)據(jù)變得稠密一些,或者采用迭代補(bǔ)全的方法,先補(bǔ)充部分?jǐn)?shù)值,在此基礎(chǔ)上再進(jìn)一步補(bǔ)充其他數(shù)值。此外,還有利用遷移學(xué)習(xí)的方法來彌補(bǔ)數(shù)據(jù)稀疏的問題。但這些方法只能在某種程度上部分解決數(shù)據(jù)稀疏的問題,并不能完全克服。在真實(shí)應(yīng)用中,由于數(shù)據(jù)規(guī)模很大,數(shù)據(jù)稀疏的問題更加突出。數(shù)據(jù)稀疏性使協(xié)同過濾方法的有效性受到制約。甄別出與數(shù)據(jù)稀疏程度相匹配的算法,以便能根據(jù)具體應(yīng)用情況做出正確選擇,是非常有價(jià)值的研究課題。

    常用的協(xié)同過濾方法有兩類:基于內(nèi)存的方法和基于模型的方法。前者主要是內(nèi)存算法,通過用戶與物品之間的關(guān)系來導(dǎo)出結(jié)果;后者需要找到一個(gè)合適的參數(shù)化的模型,然后通過這個(gè)模型來導(dǎo)出結(jié)果。

    基于用戶的協(xié)同過濾[4]鑒別出與查詢用戶相似的用戶,然后將這些用戶對物品評分的均值作為該用戶評分結(jié)果的估計(jì)值。與此類似,基于物品的協(xié)同過濾鑒別出與查詢物品類似的物品,然后將這些物品的評分均值作為該物品預(yù)測結(jié)果的估計(jì)值?;卩従拥姆椒S著計(jì)算加權(quán)平均值方法的不同而不同。常用的計(jì)算加權(quán)平均值的算法有皮爾遜系數(shù)、矢量余弦、MSD。

    基于模型的方法通過適合訓(xùn)練集的參數(shù)化模型來預(yù)測結(jié)果。它包括基于聚類的CF[5~7]、貝葉斯分類器[8,9]、基于回歸的方法[10]?;诰垲惙椒ǖ幕舅枷胧菍⑾嗨频挠脩簦ɑ蛭锲罚┙M成聚類,這種技術(shù)有助于解決數(shù)據(jù)稀疏性和計(jì)算復(fù)雜性問題。貝葉斯的基本思想是給定用戶A其他的評分和其他用戶評分情況下,計(jì)算每個(gè)可能評分值(比如電影推薦中的1~5分)的條件概率,然后選擇一個(gè)最大概率值的評分作為預(yù)測值?;诨貧w方法的基本思想是先利用線性回歸模型學(xué)習(xí)物品之間評分的關(guān)系,然后根據(jù)這些關(guān)系預(yù)測用戶對物品的評分。Slop-one算法[13]在評價(jià)矩陣上使用了線性模型,使之能夠快速計(jì)算出具有相對較好精確度的結(jié)果。

    最近一類成功的基于模型的方法是基于低秩矩陣分解的方法。例如,SVD[11]和SVD++[12]將評價(jià)矩陣分解為3個(gè)低秩的矩陣,這3個(gè)矩陣的乘積能對原始矩陣進(jìn)行某種程度的復(fù)原,從而可以評估出缺失值。另一種方法是非負(fù)矩陣分解[13],其不同之處在于,矩陣分解的結(jié)果不得出現(xiàn)負(fù)值?;诘椭染仃嚪纸獾姆椒◤脑u分矩陣中抽取一組潛在的(隱藏的)因子,并通過這些因子向量描述用戶和物品。在電影領(lǐng)域,這些自動識別的因子可能對應(yīng)一部電影的常見標(biāo)簽,比如風(fēng)格或者類型(戲劇片或者動作片),也可能是無法解釋的。

    矩陣分解能夠?qū)深愖兞窟M(jìn)行交互關(guān)系的預(yù)測。Tensor分解模型則能夠?qū)⑦@種不同類變量的交互預(yù)測擴(kuò)展到更高的維度。然而,如果將因子分解模型應(yīng)用到一個(gè)新的任務(wù),針對新問題往往需要在原有因子分解基礎(chǔ)上推導(dǎo)演化,實(shí)現(xiàn)新的模型和學(xué)習(xí)算法。例如SVD++、STE、FPMC、timeSVD++、BPTF等模型,都是針對特定問題在原有因子分解模型基礎(chǔ)上做的改進(jìn)。因此,普通的因子分解模型具有較差的泛化能力。在模型優(yōu)化學(xué)習(xí)算法方面,雖然對基本矩陣分解模型的學(xué)習(xí)已經(jīng)有很多算法,如(隨機(jī))梯度下降、交替最小二乘法、變分貝葉斯和MCMC(Markov chain Monto Carlo),但是對于更多的復(fù)雜分解模型而言,最多且最常用的方法是梯度下降算法。

    因子分解機(jī)(factorization machine)是Steffen Rendle于2010年提出的一個(gè)通用的模型[3]。憑借該模型,Rendle在KDD Cup 2012中分別取得Track1第2名和Track2第3名的成績。與原有的因子分解模型相比,該模型將特征工程的一般性與分解模型的優(yōu)越性融合。它能夠通過特征工程來模擬絕大多數(shù)的因子分解模型。LibFM是因子分解機(jī)的開源實(shí)現(xiàn),簡單易用,不需要太多專業(yè)知識,其中包括3類優(yōu)化學(xué)習(xí)算法:隨機(jī)梯度下降、交替最小二乘法和MCMC。

    這里提到的Tensor分解模型和因子分解機(jī)都屬于上下文感知推薦算法的范疇。上下文感知的推薦算法將二維協(xié)同擴(kuò)展到多維協(xié)同。從學(xué)科淵源來看,上下文感知推薦系統(tǒng)既是一種推薦系統(tǒng),也是一種上下文感知應(yīng)用系統(tǒng)。Adomavicius和Tuzhilin等人較早指出,把上下文信息融入推薦系統(tǒng)將有利于提高推薦精確度,并提出被廣泛引用的“上下文感知推薦系統(tǒng)(context-aware recommender systems,CARS)”的概念。他們將傳統(tǒng)的“用戶—項(xiàng)目”二維評分效用模型擴(kuò)展為包含多種上下文信息的多維評分效用模型。Sun等人首先將HOSVD的方法用于網(wǎng)頁搜索,提出了CubeSVD算法[14],算法將用戶的位置信息作為上下文信息,用于搜索引擎的結(jié)果排序,取得了比較好的結(jié)果。Renle等人提出RTF算法[15],與HOSVD不同,RTF算法根據(jù)用戶的排序進(jìn)行優(yōu)化,可以獲得比較好的準(zhǔn)確度。

    基于內(nèi)容的推薦方法和基于協(xié)同過濾的推薦方法各有其優(yōu)缺點(diǎn)。現(xiàn)有的系統(tǒng)大部分是一種混合系統(tǒng),它結(jié)合不同算法和模型的優(yōu)點(diǎn),克服它們的缺點(diǎn),從而得到了較好的推薦準(zhǔn)確度。

    4 大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)

    4.1 特點(diǎn)與挑戰(zhàn)

    雖然推薦系統(tǒng)己經(jīng)被成功運(yùn)用于很多大型系統(tǒng)及網(wǎng)站,但是在當(dāng)前大數(shù)據(jù)的時(shí)代背景下,推薦系統(tǒng)的應(yīng)用場景越來越多樣,推薦系統(tǒng)不僅面臨數(shù)據(jù)稀疏、冷啟動、興趣偏見等傳統(tǒng)難題,還面臨由大數(shù)據(jù)引發(fā)的更多、更復(fù)雜的實(shí)際問題。例如,用戶數(shù)目越來越多,海量用戶同時(shí)訪問推薦系統(tǒng)所造成的性能壓力,使傳統(tǒng)的基于單節(jié)點(diǎn) LVS 架構(gòu)的推薦系統(tǒng)不再適用。同時(shí)Web 服務(wù)器處理系統(tǒng)請求在大數(shù)據(jù)集下變得越來越多,Web服務(wù)器響應(yīng)速度緩慢制約了當(dāng)前推薦系統(tǒng)為大數(shù)據(jù)集提供推薦。另外,基于實(shí)時(shí)模式的推薦在大數(shù)據(jù)集下面臨著嚴(yán)峻考驗(yàn),用戶難以忍受超過秒級的推薦結(jié)果返回時(shí)間。傳統(tǒng)推薦系統(tǒng)的單一數(shù)據(jù)庫存儲技術(shù)在大數(shù)據(jù)集下變得不再適用,急需一種對外提供統(tǒng)一接口、對內(nèi)采用多種混合模式存儲的存儲架構(gòu)來滿足大數(shù)據(jù)集下各種數(shù)據(jù)文件的存儲。并且,傳統(tǒng)推薦系統(tǒng)在推薦算法上采取的是單機(jī)節(jié)點(diǎn)的計(jì)算方式,不能滿足大數(shù)據(jù)集下海量用戶產(chǎn)生的大數(shù)據(jù)集上的計(jì)算需求[16]。大數(shù)據(jù)本身具有的復(fù)雜性、不確定性和涌現(xiàn)性也給推薦系統(tǒng)帶來諸多新的挑戰(zhàn),傳統(tǒng)推薦系統(tǒng)的時(shí)間效率、空間效率和推薦準(zhǔn)確度都遇到嚴(yán)重的瓶頸。

    4.2 關(guān)鍵技術(shù)

    4.2.1 采用分布式文件系統(tǒng)管理數(shù)據(jù)

    傳統(tǒng)的推薦系統(tǒng)技術(shù)主要處理小文件存儲和少量數(shù)據(jù)計(jì)算,大多是面向服務(wù)器的架構(gòu),中心服務(wù)器需要收集用戶的瀏覽記錄、購買記錄、評分記錄等大量的交互信息來為單個(gè)用戶定制個(gè)性化推薦。當(dāng)數(shù)據(jù)規(guī)模過大,數(shù)據(jù)無法全部載入服務(wù)器內(nèi)存時(shí),就算采用外存置換算法和多線程技術(shù),依然會出現(xiàn)I/O上的性能瓶頸,致使任務(wù)執(zhí)行效率過低,產(chǎn)生推薦結(jié)果的時(shí)間過長。對于面向海量用戶和海量數(shù)據(jù)的推薦系統(tǒng),基于集中式的中心服務(wù)器的推薦系統(tǒng)在時(shí)間和空間復(fù)雜性上無法滿足大數(shù)據(jù)背景下推薦系統(tǒng)快速變化的需求[16]。

    大數(shù)據(jù)推薦系統(tǒng)采用基于集群技術(shù)的分布式文件系統(tǒng)管理數(shù)據(jù)。建立一種高并發(fā)、可擴(kuò)展、能處理海量數(shù)據(jù)的大數(shù)據(jù)推薦系統(tǒng)架構(gòu)是非常關(guān)鍵的,它能為大數(shù)據(jù)集的處理提供強(qiáng)有力的支持。 Hadoop 的分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)架構(gòu)是其中的典型。與傳統(tǒng)的文件系統(tǒng)不同,數(shù)據(jù)文件并非存儲在本地單一節(jié)點(diǎn)上,而是通過網(wǎng)絡(luò)存儲在多臺節(jié)點(diǎn)上。并且文件的位置索引管理一般都由一臺或幾臺中心節(jié)點(diǎn)負(fù)責(zé)[16]??蛻舳藦募褐凶x寫數(shù)據(jù)時(shí),首先通過中心節(jié)點(diǎn)獲取文件的位置,然后與集群中的節(jié)點(diǎn)通信,客戶端通過網(wǎng)絡(luò)從節(jié)點(diǎn)讀取數(shù)據(jù)到本地或把數(shù)據(jù)從本地寫入節(jié)點(diǎn)。在這個(gè)過程中由 HDFS 來管理數(shù)據(jù)冗余存儲、大文件的切分、中間網(wǎng)絡(luò)通信、數(shù)據(jù)出錯(cuò)恢復(fù)等,客戶端根據(jù) HDFS 提供的接口進(jìn)行調(diào)用即可,非常方便。

    4.2.2 采用基于集群技術(shù)的分布式計(jì)算框架

    集群上實(shí)現(xiàn)分布式計(jì)算的框架很多,Hadoop中的MapReduce 作為推薦算法并行化的依托平臺,既是一種分布式的計(jì)算框架,也是一種新型的分布式并行計(jì)算編程模型,應(yīng)用于大規(guī)模數(shù)據(jù)的并行處理,是一種常見的開源計(jì)算框架。MapReduce算法的核心思想是“分而治之”,把對大規(guī)模數(shù)據(jù)集的操作,分發(fā)給一個(gè)主節(jié)點(diǎn)管理下的各個(gè)分節(jié)點(diǎn)共同完成,然后通過整合各個(gè)節(jié)點(diǎn)的中間結(jié)果,得到最終結(jié)果。MapReduce 框架負(fù)責(zé)處理并行編程中分布式存儲、工作調(diào)度、負(fù)載均衡、容錯(cuò)均衡、容錯(cuò)處理以及網(wǎng)絡(luò)通信等復(fù)雜問題,把處理過程高度抽象為兩個(gè)函數(shù):map和reduce。map負(fù)責(zé)把任務(wù)分解成多個(gè)任務(wù),reduce負(fù)責(zé)把分解后多任務(wù)處理的結(jié)果匯總起來[16]。例如,2010 年,Zhao等人針對協(xié)同過濾算法的計(jì)算復(fù)雜性在大規(guī)模推薦系統(tǒng)下的局限性,在 Hadoop平臺上實(shí)現(xiàn)了基于物品的協(xié)同過濾算法。2011年,針對推薦系統(tǒng)無法在每秒內(nèi)給大量用戶進(jìn)行推薦的問題,Jiang等人將基于物品的協(xié)同過濾推薦算法的3個(gè)主要計(jì)算階段切分成4個(gè)MapReduce階段,切分后各階段可以并行運(yùn)行在集群的各個(gè)節(jié)點(diǎn)上。同時(shí)他們還提出了一種 Hadoop平臺下的數(shù)據(jù)分區(qū)策略,減少了節(jié)點(diǎn)間的通信開銷,提高了推薦系統(tǒng)的推薦效率。

    4.2.3 推薦算法并行化

    很多大型企業(yè)所需的推薦算法要處理的數(shù)據(jù)量非常龐大,從TB級別到PB級甚至更高,例如騰訊Peacock主題模型分析系統(tǒng)需要進(jìn)行高達(dá)十億文檔、百萬詞匯、百萬主題的主題模型訓(xùn)練,僅一個(gè)百萬詞匯乘以百萬主題的矩陣,其數(shù)據(jù)存儲量已達(dá)3 TB,如果再考慮十億文檔乘以百萬主題的矩陣,其數(shù)據(jù)量則高達(dá)3 PB[17]。面對如此龐大的數(shù)據(jù),若采用傳統(tǒng)串行推薦算法,時(shí)間開銷太大。當(dāng)數(shù)據(jù)量較小時(shí),時(shí)間復(fù)雜度高的串行算法能有效運(yùn)作,但數(shù)據(jù)量極速增加后,這些串行推薦算法的計(jì)算性能過低,無法應(yīng)用于實(shí)際的推薦系統(tǒng)中。因此,面向大數(shù)據(jù)集的推薦系統(tǒng)從設(shè)計(jì)上就應(yīng)考慮到算法的分布式并行化技術(shù),使得推薦算法能夠在海量的、分布式、異構(gòu)數(shù)據(jù)環(huán)境下得以高效實(shí)現(xiàn)。

    5 開源大數(shù)據(jù)典型推薦軟件

    5.1 Mahout

    Mahout1http://mahout. apache.org/是Apache Software Foundation(ASF)旗下的一個(gè)全新的開源項(xiàng)目,其主要目標(biāo)是提供一些可伸縮的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),供開發(fā)人員在 Apache 許可下免費(fèi)使用,旨在幫助開發(fā)人員更加方便、快捷地開發(fā)大規(guī)模數(shù)據(jù)上的應(yīng)用程序。除了常見的分類、聚類等數(shù)據(jù)挖掘算法外,還包括協(xié)同過濾(CF)、維縮減(dimensionality reduction)、主題模型(topic models)等。Mahout集成了基于Java的推薦系統(tǒng)引擎“Taste”,用于生成個(gè)性化推薦“Taste”支持基于用戶的、基于物品的以及基于slope-one的推薦系統(tǒng)。在Mahout的推薦類算法中,主要有基于用戶的協(xié)同過濾(user-based CF)、基于物品的協(xié)同過濾(item-based CF)、交替最小二乘法(ALS)、具有隱含反饋的ALS(ALS on implicit feedback)、加權(quán)矩陣分解(weighted MF)、SVD++、并行的隨機(jī)梯度下降(parallel SGD)等。

    5.2 Spark MLlib

    Spark MLlib2http://spark. apache.org/ docs/0.9.0/api/ mllib/index. html#org.apache. spark.mllib. recommendation. package對常用的機(jī)器學(xué)習(xí)算法進(jìn)行了實(shí)現(xiàn),包括邏輯回歸、支持向量機(jī)、樸素貝葉斯等分類預(yù)測算法,K-means聚類算法,各種梯度下降優(yōu)化算法以及協(xié)同過濾推薦算法。MLlib當(dāng)前支持的是基于矩陣分解的協(xié)同過濾方法,其函數(shù)優(yōu)化過程可采用其提供的交替最小二乘法或者梯度下降法來實(shí)現(xiàn),同時(shí)支持顯性反饋和隱性反饋信息。

    5.3 EasyRec

    EasyRec3http://easyrec. org/是SourceForge的一個(gè)開源項(xiàng)目。它針對個(gè)人用戶,提供低門檻的易集成、易擴(kuò)展、好管理的推薦系統(tǒng)。該開源產(chǎn)品包括了數(shù)據(jù)錄入、數(shù)據(jù)管理、推薦挖掘、離線分析等功能。它可以同時(shí)給多個(gè)不同的網(wǎng)站提供推薦服務(wù)。需要推薦服務(wù)的網(wǎng)站用戶只需配合著發(fā)送一些用戶行為數(shù)據(jù)到EasyRec,EasyRec則會進(jìn)行后臺的推薦分析,并將推薦結(jié)果以XML或JSON的格式發(fā)送回網(wǎng)站。用戶行為數(shù)據(jù)包括用戶看了哪些商品、買了哪些商品、對哪些商品進(jìn)行了評分等。EasyRec為網(wǎng)站用戶提供了訪問EasyRec全部功能的接口,可通過調(diào)用這些接口來實(shí)現(xiàn)推薦業(yè)務(wù)。

    5.4 Graphlab

    Graphlab4https://github. com/dato-code/ PowerGraph始于2009年,是由美國卡內(nèi)基梅隆大學(xué)開發(fā)的一個(gè)項(xiàng)目。它基于C++語言,主要功能是提供一個(gè)基于圖的高性能分布式計(jì)算框架。GraphLab能夠高效地執(zhí)行與機(jī)器學(xué)習(xí)相關(guān)的數(shù)據(jù)依賴性強(qiáng)的迭代型算法,為Boosted決策樹、深度學(xué)習(xí)、文本分析等提供了可擴(kuò)展的機(jī)器學(xué)習(xí)算法模塊,能對分類和推薦模型中的參數(shù)進(jìn)行自動調(diào)優(yōu),和SPARK、Hadoop、Apache Avro、OBDC connectors等進(jìn)行了集成。由于功能獨(dú)特,GraphLab在業(yè)界很有名氣。針對大規(guī)模的數(shù)據(jù)集,采用GraphLab來進(jìn)行隨機(jī)游走(random walk)或基于圖的推薦算法非常有效。另外,GraphLab還實(shí)現(xiàn)了交替最小二乘法ALS、隨機(jī)梯度下降法 SGD、SVD++、Weighted-ALS、Sparse-ALS、非負(fù)矩陣分解(non-negative matrix factorization)等算法。

    5.5 Duine

    Duine框架是一套以Java語言編寫的軟件庫,可以幫助開發(fā)者建立預(yù)測引擎。Duine提供混合算法配置,即算法可根據(jù)數(shù)據(jù)情況,在基于內(nèi)容的推薦和協(xié)同過濾中動態(tài)轉(zhuǎn)換。例如在冷啟動(比如尚無任何評價(jià)的時(shí)候)條件下,它側(cè)重基于內(nèi)容的分析法,推薦模塊主要通過算法,從用戶資料和商品信息中提取信息、計(jì)算預(yù)測值,主要包括以下幾種方法:協(xié)同過濾法、基于實(shí)例的推理(用戶給出相似評分的商品)和GenreLMS(對分類的推理)。Duine具有一個(gè)反饋處理器模塊,它以增強(qiáng)預(yù)測為目標(biāo),利用程序?qū)W習(xí)和獲取用戶的顯性和隱性反饋,用算法進(jìn)行處理后用以更新用戶的資料[18]。

    6 大數(shù)據(jù)推薦系統(tǒng)研究面臨的問題

    6.1 特征提取問題

    推薦系統(tǒng)的推薦對象種類豐富,例如新聞、博客等文本類對象,視頻、圖片、音樂等多媒體對象以及可以用文本描述的一些實(shí)體對象等。如何對這些推薦對象進(jìn)行特征提取一直是學(xué)術(shù)界和工業(yè)界的熱門研究課題。對于文本類對象,可以借助信息檢索領(lǐng)域己經(jīng)成熟的文本特征提取技術(shù)來提取特征。對于多媒體對象,由于需要結(jié)合多媒體內(nèi)容分析領(lǐng)域的相關(guān)技術(shù)來提取特征,而多媒體內(nèi)容分析技術(shù)目前在學(xué)術(shù)界和工業(yè)界還有待完善,因此多媒體對象的特征提取是推薦系統(tǒng)目前面臨的一大難題[19]。此外,推薦對象特征的區(qū)分度對推薦系統(tǒng)的性能有非常重要的影響。目前還缺乏特別有效的提高特征區(qū)分度的方法。

    6.2 數(shù)據(jù)稀疏問題

    現(xiàn)有的大多數(shù)推薦算法都是基于用戶—物品評分矩陣數(shù)據(jù),數(shù)據(jù)的稀疏性問題主要是指用戶—物品評分矩陣的稀疏性,即用戶與物品的交互行為太少。一個(gè)大型網(wǎng)站可能擁有上億數(shù)量級的用戶和物品,飆升的用戶評分?jǐn)?shù)據(jù)總量在面對增長更快的“用戶—物品評價(jià)矩陣”時(shí),仍然只占極少的一部分,推薦系統(tǒng)研究中的經(jīng)典數(shù)據(jù)集MovieLens的稀疏度僅4.5%,Netflix百萬大賽中提供的音樂數(shù)據(jù)集的稀疏度是1.2%。這些都是已經(jīng)處理過的數(shù)據(jù)集,實(shí)際上真實(shí)數(shù)據(jù)集的稀疏度都遠(yuǎn)遠(yuǎn)低于1%。例如,Bibsonomy的稀疏度是0.35%,Delicious的稀疏度是0.046%,淘寶網(wǎng)數(shù)據(jù)的稀疏度甚至僅在0.01%左右[19]。根據(jù)經(jīng)驗(yàn),數(shù)據(jù)集中用戶行為數(shù)據(jù)越多,推薦算法的精準(zhǔn)度越高,性能也越好。若數(shù)據(jù)集非常稀疏,只包含極少量的用戶行為數(shù)據(jù),推薦算法的準(zhǔn)確度會大打折扣,極容易導(dǎo)致推薦算法的過擬合,影響算法的性能。

    6.3 冷啟動問題

    冷啟動問題是推薦系統(tǒng)所面臨的最大問題之一。冷啟動問題總的來說可以分為3類:系統(tǒng)冷啟動問題、新用戶問題和新物品問題。系統(tǒng)冷啟動問題指的是由于數(shù)據(jù)過于稀疏,“用戶—物品評分矩陣”的密度太低,導(dǎo)致推薦系統(tǒng)得到的推薦結(jié)果準(zhǔn)確性極低。新物品問題是由于新的物品缺少用戶對該物品的評分,這類物品很難通過推薦系統(tǒng)被推薦給用戶,用戶難以對這些物品評分,從而形成惡性循環(huán),導(dǎo)致一些新物品始終無法有效推薦。新物品問題對不同的推薦系統(tǒng)影響程度不同:對于用戶可以通過多種方式查找物品的網(wǎng)站,新物品問題并沒有太大影響,如電影推薦系統(tǒng)等,因?yàn)橛脩艨梢杂卸喾N途徑找到電影觀看并評分;而對于一些推薦是主要獲取物品途徑的網(wǎng)站,新物品問題會對推薦系統(tǒng)造成嚴(yán)重影響。通常解決這個(gè)問題的途徑是激勵(lì)或者雇傭少量用戶對每一個(gè)新物品進(jìn)行評分。新用戶問題是目前對現(xiàn)實(shí)推薦系統(tǒng)挑戰(zhàn)最大的冷啟動問題:當(dāng)一個(gè)新的用戶使用推薦系統(tǒng)時(shí),他沒有對任何項(xiàng)目進(jìn)行評分,因此系統(tǒng)無法對其進(jìn)行個(gè)性化推薦;即使當(dāng)新用戶開始對少量項(xiàng)目進(jìn)行評分時(shí),由于評分太少,系統(tǒng)依然無法給出精確的推薦,這甚至?xí)?dǎo)致用戶因?yàn)橥扑]體驗(yàn)不佳而停止使用推薦系統(tǒng)[20]。當(dāng)前解決新用戶問題主要是通過結(jié)合基于內(nèi)容和基于用戶特征的方法,掌握用戶的統(tǒng)計(jì)特征和興趣特征,在用戶只有少量評分甚至沒有評分時(shí)做出比較準(zhǔn)確的推薦。

    6.4 可擴(kuò)展性問題

    擴(kuò)展性問題是推薦系統(tǒng)面臨的又一難題,特別是隨著大數(shù)據(jù)時(shí)代的到來,用戶數(shù)與物品數(shù)飛漲,傳統(tǒng)推薦系統(tǒng)會隨著問題規(guī)模的擴(kuò)大而效率大大降低?;ㄙM(fèi)大量時(shí)間才能得到推薦結(jié)果是難以接受的,特別是對于一些實(shí)時(shí)性要求較高的在線推薦系統(tǒng)。使用基于內(nèi)存的推薦系統(tǒng),用戶或者物品間的相似度計(jì)算會耗費(fèi)大量時(shí)間;使用基于模型的推薦系統(tǒng),利用機(jī)器學(xué)習(xí)算法學(xué)習(xí)模型參數(shù)同樣會耗費(fèi)大量時(shí)間,這里學(xué)習(xí)時(shí)間主要用在求解全局最優(yōu)問題上。解決擴(kuò)展性問題,工業(yè)界一般采取的方法是線下學(xué)習(xí)、線上使用:先通過離線數(shù)據(jù)事先算好用戶/物品間相似度或者模型參數(shù),然后線上只需要利用這些算好的數(shù)值進(jìn)行推薦[20]。但是這并沒有從根本上提高推薦算法的效率,Sarwar等人2002年提出了一種增量SVD協(xié)同過濾算法,當(dāng)評分矩陣中增加若干新分值時(shí),系統(tǒng)不用對整個(gè)矩陣重新計(jì)算,而只需要進(jìn)行少量計(jì)算對原模型進(jìn)行調(diào)整,因此大大加快了模型的更新速度。同時(shí),若干文獻(xiàn)提出使用聚類的方式解決擴(kuò)展性問題,通過聚類能有效減少用戶和物品規(guī)模,但是這樣會一定程度地降低推薦精度。在求解模型全局優(yōu)化問題上,學(xué)者也做了大量工作,希望能加快收斂速度,例如人們提出了并行的隨機(jī)梯度下降法和交替最小二乘法等。

    7 總結(jié)與展望

    隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們對于個(gè)性化的信息需求已經(jīng)非常急切,推薦系統(tǒng)的出現(xiàn)可以很好地解決用戶在使用互聯(lián)網(wǎng)和電子商務(wù)網(wǎng)站時(shí)的“信息爆炸”問題。本文主要針對互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代推薦系統(tǒng)的產(chǎn)生和發(fā)展現(xiàn)狀、領(lǐng)域需求和系統(tǒng)架構(gòu)、用戶建模和推薦引擎、大數(shù)據(jù)時(shí)代推薦系統(tǒng)的特點(diǎn)挑戰(zhàn)和關(guān)鍵技術(shù)、開源的大數(shù)據(jù)推薦軟件、大數(shù)據(jù)推薦系統(tǒng)研究面臨的問題等進(jìn)行了介紹。

    大數(shù)據(jù)推薦系統(tǒng)的未來研究方向主要在以下幾個(gè)方面。

    ● 從系統(tǒng)推薦到社會推薦,即在推薦的過程中,除了考慮用戶的歷史行為信息,還需要利用用戶的社會網(wǎng)絡(luò)信息來增強(qiáng)推薦的效果;同時(shí),在進(jìn)行社會網(wǎng)絡(luò)上的人與人之間的推薦時(shí),也要綜合利用用戶的歷史行為信息,做到社會網(wǎng)絡(luò)和歷史行為信息的互相利用和推薦效果的相互增強(qiáng)。

    ● 從以精確性為中心到綜合考慮精確性、多樣性和新穎性的評估體系。

    ● 從單一數(shù)據(jù)源到交叉融合數(shù)據(jù)平臺,比如依據(jù)用戶的跨網(wǎng)站行為數(shù)據(jù),解決某一網(wǎng)站上的冷啟動推薦問題。

    ● 從高速服務(wù)器到并行處理到云計(jì)算。

    ● 從靜態(tài)算法到動態(tài)增量算法、自適應(yīng)算法,從脆弱算法到頑健算法。

    [1] 曾春, 邢春曉, 周立柱. 個(gè)性化服務(wù)技術(shù)綜述.軟件學(xué)報(bào), 2002(10): 1952~1961 Zeng C, Xing C X, Zhou L Z. A survey of personalization technology. Journal of Software, 2002(10): 1952~1961

    [2] Bell R M, Koren Y. Lessons from the Netflix prize challenge. ACM SIGKDD Explorations Newsletter, 2007, 9(2): 75~79

    [3] Rendle S. Factorization machines with libFM. ACM Transactions on Intelligent Systems & Technology, 2012, 3(3): 451~458

    [4] Su X, Khoshgoftaar T M. A survey of collaborative filtering techniques. Advances in Artificial Intelligence, 2009: 421425

    [5] Chee S H S, Han J, Wang K. Rectree: an efficient collaborative filtering method. Proceedings of Data Warehousing and Knowledge Discovery: Third International Conference, Munich, Germany, 2001

    [6] Connor M, Herlocker J. Clustering items for collaborative filtering. Proceedings of ACM SIGIR Workshop on Recommender Systems, New Orleans, Louisiana, USA , 2001

    [7] Ungar L H, Foster D P. Clustering methods for collaborative filtering. Proceedings of AAAI Workshop on Recommendation Systems, Madison, Wisconsin, USA, 1998

    [8] Miyahara K, Pazzani M J. Collaborative filtering with the simple bayesian classifier. Proceedings of the 6th Pacific Rim International Conference on Artificial Intelligence, Melbourne, Australia, 2000: 679~689

    [9] Miyahara K, Pazzani M J. Improvement of collaborative filtering with the simple bayesian classifier. IPSJ Journal, 2002,43(11): 3429~3437

    [10] Vucetic S, Obradovic Z. Collaborative filtering using a regression-based approach. Knowledge and Information Systems, 2005, 7(1): 1~22

    [11] Paterek A. Improving regularized singular value decomposition for collaborative filtering. Statistics, 2007: 2~5

    [12] Koren Y. Factorization meets the neighborhood: a multifaceted collaborative filtering model. Proceedings of the 14th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Las Vegas, Nevada, USA,2008: 426~434

    [13] Lee D, Seung H. Algorithms for nonnegative matrix factorization. Proceedings of Neural Information Processing Systems, Denver, Colorado, USA, 2000

    [14] Sun J T, Zeng H J, Liu H,et al. CubeSVD: a novel approach to personalized Web search. Proceedings of the 14th International Conference on World Wide Web, Chiba, Japan, 2005: 382~390

    [15] Steffen R, Leandro B M, Alexandros N,et al. Learning optimal ranking with tensor factorization for tag recommendation. Proceedings of the 15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Paris, France, 2009: 727~736

    [16] 王俞翔. 面向大數(shù)據(jù)集的推薦系統(tǒng)研究(碩士學(xué)位論文). 秦皇島:燕山大學(xué), 2014 Wang Y X. Research on recommender system for big dataset (master dissertation). Qinhuangdao: Yanshan University, 2014

    [17] 黃宜華. 大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)研究進(jìn)展. 大數(shù)據(jù), 2015004 Huang Y H. Research progress on big data machine learning system. Big Data Research, 2015004

    [18] 米可菲, 張勇, 邢春曉等. 面向大數(shù)據(jù)的開源推薦系統(tǒng)分析. 計(jì)算機(jī)與數(shù)字工程, 2013, 41(10): 1563~1566 Feben T, Zhang Y, Xing C X,et al. An analysis of open source recommender systems in the big data era. Computer and Digital Engineering. 2013, 41(10): 1563~1566

    [19] 孫遠(yuǎn)帥. 基于大數(shù)據(jù)的推薦算法研究(碩士學(xué)位論文). 廈門:廈門大學(xué), 2014 Sun Y S. Recommendation algorithms in the big data era (master dissertation). Xiamen: Xiamen University, 2014

    [20] 劉士琛. 面向推薦系統(tǒng)的關(guān)鍵問題研究及應(yīng)用(博士學(xué)位論文). 合肥:中國科學(xué)技術(shù)大學(xué), 2014Liu S C. Research on the key issues for the recommender systems (doctor dissertation). Hefei: University of Science and Technology of China, 2014

    李翠平,女,中國人民大學(xué)信息學(xué)院教授、博士生導(dǎo)師,中國計(jì)算機(jī)學(xué)會杰出會員,中國計(jì)算機(jī)學(xué)會大數(shù)據(jù)專家委員會、數(shù)據(jù)庫專家委員會委員。目前研究方向?yàn)閿?shù)據(jù)倉庫、數(shù)據(jù)挖掘、社會網(wǎng)絡(luò)分析和社會媒體推薦等。主持和參與國家自然科學(xué)基金、“973”計(jì)劃、“863”計(jì)劃等10多項(xiàng)國家級和省部級項(xiàng)目,在國內(nèi)外重要期刊和國際會議上發(fā)表論文50多篇。

    藍(lán)夢微,女,中國人民大學(xué)信息學(xué)院博士生,CCF學(xué)生會員,主要研究領(lǐng)域?yàn)橥扑]系統(tǒng)、數(shù)據(jù)挖掘、大數(shù)據(jù)分析。

    鄒本友,男,中國人民大學(xué)信息學(xué)院博士生,CCF學(xué)生會員,主要研究領(lǐng)域?yàn)橥扑]系統(tǒng)、數(shù)據(jù)挖掘、大數(shù)據(jù)分析。

    王紹卿,男,中國人民大學(xué)信息學(xué)院博士生,CCF學(xué)生會員,主要研究領(lǐng)域?yàn)橥扑]系統(tǒng)、數(shù)據(jù)挖掘、大數(shù)據(jù)分析。

    趙衎衎,男,中國人民大學(xué)信息學(xué)院博士生,CCF學(xué)生會員,主要研究領(lǐng)域?yàn)橥扑]系統(tǒng)、數(shù)據(jù)挖掘、大數(shù)據(jù)分析。

    Li C P, Lan M W, Zou B Y,et al. Big data and recommendation system. Big Data Research, 2015026

    Big Data and Recommendation System

    Li Cuiping, Lan Mengwei, Zou Benyou, Wang Shaoqing, Zhao Kankan
    Key Laboratory of Data Engineering and Knowledge Engineering, Ministry of Education, Renmin University of China, Beijing 100872, China

    In big data era, recommendation system is the key means to tackle the issue of “information overload”. Recommendation system has been widely applied to many domains. The most typical and promising domain is the e-commence. Recently, with the rapid development of e-commence, recommendation system becomes more and more important and is promoted as a hot research field. The history and development of recommendation system, its domain requirements and system architecture, its characteristics and challenges under big data environment, its key techniques, open source big data recommendation systems were introduced. And at last, the open research problems and future trends of bid data recommendation system were discussed.

    big data, recommendation system, collaborative filtering

    10.11959/j.issn.2096-0271.2015026

    2015-08-11

    國家基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)基金資助項(xiàng)目(No.2014CB340402),國家高技術(shù)研究發(fā)展計(jì)劃(“863”計(jì)劃)基金資助項(xiàng)目(No.2014AA015204),國家自然科學(xué)基金資助項(xiàng)目(No.61272137, No. 61033010, No.61202114),國家社會科學(xué)基金資助項(xiàng)目(No.12&ZD220),國家高等學(xué)校學(xué)科創(chuàng)新引智計(jì)劃(“111”計(jì)劃)基金資助項(xiàng)目

    Foundation Items:National Basic Research Program of China (973 Program) (No.2014CB340402), National High Technology Research and Development Program of China (863 Program) (No.2014AA015204), The National Natural Science Foundation of China(No.61272137, No.61033010, No.61202114), The National Social Science of Foundation of China (No.12&ZD220),The Project of Attracting Talents of Discipline to National Universities (111 Project)

    李翠平, 藍(lán)夢微, 鄒本友等. 大數(shù)據(jù)與推薦系統(tǒng). 大數(shù)據(jù), 2015026

    猜你喜歡
    物品算法用戶
    稱物品
    “雙十一”,你搶到了想要的物品嗎?
    基于MapReduce的改進(jìn)Eclat算法
    Travellng thg World Full—time for Rree
    誰動了凡·高的物品
    進(jìn)位加法的兩種算法
    關(guān)注用戶
    商用汽車(2016年11期)2016-12-19 01:20:16
    關(guān)注用戶
    商用汽車(2016年6期)2016-06-29 09:18:54
    一種改進(jìn)的整周模糊度去相關(guān)算法
    關(guān)注用戶
    商用汽車(2016年4期)2016-05-09 01:23:12
    吉林省| 开化县| 遵义县| 昌都县| 定西市| 绥阳县| 乡城县| 曲靖市| 清水县| 南涧| 昌图县| 广饶县| 兴宁市| 德钦县| 台江县| 宾川县| 板桥市| 新平| 南阳市| 桂平市| 铜川市| 绿春县| 竹溪县| 遂溪县| 巫山县| 旺苍县| 宁国市| 高平市| 若尔盖县| 利津县| 清镇市| 二手房| 四川省| 华亭县| 肥东县| 阆中市| 左云县| 漾濞| 怀远县| 荔波县| 石楼县|