摘 要:信息技術(shù)和互聯(lián)網(wǎng)的迅猛發(fā)展把我們帶進(jìn)了信息過載的時(shí)代。海量信息的同時(shí)呈現(xiàn),一方面增大了用戶發(fā)現(xiàn)自己感興趣信息的難度,另一方面也使得大量信息無法被一般用戶獲取。個(gè)性化推薦系統(tǒng)是目前解決信息過載問題最有效的工具。本文簡單介紹了推薦系統(tǒng)的概念和組成要素,重點(diǎn)介紹了幾種重要的推薦技術(shù)和個(gè)性化推薦系統(tǒng)的應(yīng)用領(lǐng)域。
關(guān)鍵詞:個(gè)性化推薦;推薦技術(shù);關(guān)聯(lián)規(guī)則;協(xié)同過濾
隨著信息技術(shù)和互聯(lián)網(wǎng)的迅速發(fā)展,人們逐漸從信息匱乏時(shí)代進(jìn)入了信息過載時(shí)代。這個(gè)時(shí)代,對于信息生產(chǎn)者而言,如何讓自己生產(chǎn)的信息脫穎而出,收到廣大用戶的關(guān)注是一件很困難的事情。對于用戶而言,信息量的增大加重了找到感興趣信息的負(fù)擔(dān),從而降低了信息的使用效率。推薦系統(tǒng)正是在這一環(huán)境中誕生的,它是根據(jù)用戶的信息需求、興趣等,將用戶感興趣的信息、產(chǎn)品等推薦給用戶的個(gè)性化信息推薦系統(tǒng)。
1 推薦系統(tǒng)概念、組成要素
目前被廣泛接受的推薦系統(tǒng)的概念和定義是Resnick和Varian在1997年給出的:“它是利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程”。個(gè)性化推薦系統(tǒng)主要由三個(gè)要素組成,分別是:候選對象、用戶、推薦算法。推薦系統(tǒng)把用戶模型中興趣需求信息和推薦對象模型中的特征信息匹配,同時(shí)使用相應(yīng)的推薦算法進(jìn)行計(jì)算篩選,找到用戶可能感興趣的推薦對象,然后推薦給用戶。
2 推薦技術(shù)
推薦算法是整個(gè)推薦系統(tǒng)中核心的部分,在很大程度上決定了推薦系統(tǒng)的質(zhì)量。目前主要的推薦技術(shù)基本包括以下幾種:基于關(guān)聯(lián)規(guī)則的推薦技術(shù),基于內(nèi)容的推薦技術(shù),協(xié)同過濾推薦技術(shù)和混合推薦技術(shù)。
2.1 基于關(guān)聯(lián)規(guī)則的推薦技術(shù)
關(guān)聯(lián)規(guī)則是數(shù)據(jù)中所蘊(yùn)含的一類重要規(guī)律,對關(guān)聯(lián)規(guī)則進(jìn)行挖掘是數(shù)據(jù)挖掘中的一項(xiàng)根本任務(wù),關(guān)聯(lián)規(guī)則挖掘就是從數(shù)據(jù)項(xiàng)目中找出所有的并發(fā)關(guān)系,這種關(guān)系也稱為關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘的經(jīng)典應(yīng)用就是購物籃數(shù)據(jù)分析,目的是找出顧客在商場(或普通店鋪)所選購商品之間的關(guān)聯(lián)。
關(guān)聯(lián)規(guī)則可以這樣表述。設(shè)I={i1,i2,…,in}為所有項(xiàng)的集合,事務(wù)T表示事務(wù)集合。數(shù)據(jù)庫D為事務(wù)數(shù)據(jù)庫。關(guān)聯(lián)規(guī)則形如X→Y的蘊(yùn)含式,其中X、Y均為項(xiàng)目集,并且X、Y沒有交集。關(guān)聯(lián)規(guī)則的強(qiáng)度可以用支持度和置信度表示。支持度為同時(shí)包含X、Y 項(xiàng)集的事務(wù)在數(shù)據(jù)庫D中的百分比。置信度為包含X的事務(wù)同時(shí)也包含Y在數(shù)據(jù)庫D中的百分比。目前已有大量文獻(xiàn)提出關(guān)聯(lián)規(guī)則挖掘算法,在眾多算法中,最著名的是Apriori 算法。
Apriori算法是由Agrawal等人在1994年提出來的,是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。該算法分兩步進(jìn)行:第一步,生成所有繁瑣項(xiàng)目集,繁瑣項(xiàng)目集是支持度高于最小支持度的項(xiàng)目集;第二步,從繁瑣項(xiàng)目集中生成所有可信的關(guān)聯(lián)規(guī)則,可信關(guān)聯(lián)規(guī)則是置信度大于最小置信度的規(guī)則。
基于關(guān)聯(lián)規(guī)則的推薦技術(shù)其優(yōu)點(diǎn)是:簡單直接,領(lǐng)域通用性強(qiáng),規(guī)則的挖掘可以離線進(jìn)行,可以保證推薦算法的實(shí)時(shí)性要求。其缺點(diǎn)是:存在著嚴(yán)重的\"冷啟動(dòng)\"問題,新加入的項(xiàng)目由于缺少相關(guān)的用戶數(shù)據(jù),難以被系統(tǒng)中的規(guī)則發(fā)現(xiàn),從而得不到推薦,并且隨著系統(tǒng)項(xiàng)目數(shù)量的不斷增加,規(guī)則也會(huì)呈出相應(yīng)的增長趨勢,使得規(guī)則的管理成本相應(yīng)升高,降低了系統(tǒng)的運(yùn)行效率。
2.2 基于內(nèi)容的推薦技術(shù)
基于內(nèi)容的推薦算法重要的是建立項(xiàng)目特征屬性庫,系統(tǒng)通過用戶已關(guān)注項(xiàng)目的特征屬性值,來掌握目標(biāo)用戶興趣點(diǎn),依據(jù)用戶興趣點(diǎn)與待推薦項(xiàng)目屬性值的匹配程度進(jìn)行推薦。用戶興趣點(diǎn)的產(chǎn)生依賴于系統(tǒng)所采用的機(jī)器學(xué)習(xí)算法,如基于向量的表示、文本挖掘、判別樹、神經(jīng)網(wǎng)絡(luò)等技術(shù)。基于內(nèi)容的推薦結(jié)果直觀易理解,不需要過多的領(lǐng)域知識(shí),但是需要有足夠數(shù)據(jù)構(gòu)造分類器,一些例如稀疏問題、新用戶問題和復(fù)雜屬性等問題不易處理。
2.3 協(xié)同過濾推薦技術(shù)
基于協(xié)同過濾推薦技術(shù)是當(dāng)前主流的,應(yīng)用最為廣泛的一種推薦技術(shù)。該推薦技術(shù)可以分為兩種,一種是基于用戶的協(xié)同過濾推薦技術(shù);另一種是基于項(xiàng)目的協(xié)同過濾推薦技術(shù),這兩種協(xié)同過濾推薦技術(shù)的不同之處在于兩者針對的對象不同?;谟脩舻膮f(xié)同過濾推薦技術(shù)是給用戶推薦和他有共同興趣的用戶喜歡的物品;基于項(xiàng)目的協(xié)同過濾推薦技術(shù)是給用戶推薦和他之前喜歡的物品相似的物品。
2.3.1 基于用戶的協(xié)同過濾推薦技術(shù)
基于用戶的協(xié)同過濾技術(shù)是推薦系統(tǒng)中最古老的算法。該算法在1992年被提出,并應(yīng)用于郵件過濾系統(tǒng),1994年被GroupLens應(yīng)用于新聞過濾。該算法主要包括兩個(gè)步驟:第一步,找到和目標(biāo)用戶興趣相似的用戶集合;第二步,找到這個(gè)集合中用戶喜歡的,且目標(biāo)用戶還沒有聽說過的物品,將該物品推薦給目標(biāo)用戶。
2.3.2 基于項(xiàng)目的協(xié)同過濾推薦技術(shù)
基于項(xiàng)目的協(xié)同過濾技術(shù)是基于這樣一個(gè)假設(shè):用戶更傾向于選擇與用戶喜歡的項(xiàng)目相近的項(xiàng)目。該推薦過程分為兩個(gè)步驟,第一,計(jì)算物品之間的相似度;第二,根據(jù)物品的相似度和用戶的歷史行為為用戶生成推薦列表。
2.4 混合推薦技術(shù)
目前,推薦技術(shù)已經(jīng)發(fā)展出了很多種,但每種推薦技術(shù)都在不同程度上存在各自的缺點(diǎn),每種推薦技術(shù)在針對特定的用戶或者項(xiàng)目時(shí)才能發(fā)揮出自己的優(yōu)勢。因此人們提出了混合推薦來互補(bǔ)推薦技術(shù)各自的不足,已達(dá)到一個(gè)理想的推薦效果。在大部分的混合推薦技術(shù)研究當(dāng)中,是將基于內(nèi)容的推薦技術(shù)和基于協(xié)同過濾技術(shù)相結(jié)合。相對于使用單一途徑算法的推薦技術(shù),基于混合推薦技術(shù)往往表現(xiàn)出更高的推薦精度和更好的推薦質(zhì)量。
3 推薦系統(tǒng)的應(yīng)用
自推薦系統(tǒng)誕生近20年的時(shí)間里,推薦系統(tǒng)的應(yīng)用領(lǐng)域迅速擴(kuò)展。從電子商務(wù)、音樂視頻網(wǎng)站,到作為互聯(lián)網(wǎng)經(jīng)濟(jì)支柱的在線廣告和新穎的在線應(yīng)用推薦,到處都有推薦系統(tǒng)的身影。下面簡單介紹個(gè)性化推薦系統(tǒng)的應(yīng)用以及該領(lǐng)域較成功的網(wǎng)站。
3.1 電子商務(wù)
電子商務(wù)網(wǎng)站是個(gè)性化推薦系統(tǒng)的一大應(yīng)用領(lǐng)域。著名的電子商務(wù)網(wǎng)站亞馬遜是個(gè)性化推薦系統(tǒng)的積極應(yīng)用者和推廣者,被讀寫網(wǎng)稱為“推薦系統(tǒng)之王”。亞馬遜的推薦系統(tǒng)深入到了各類產(chǎn)品中,其中最主要的應(yīng)用有個(gè)性化商品推薦列表和相關(guān)商品的推薦列表。
3.2 電影和視頻網(wǎng)站
在電影和視頻網(wǎng)站中,個(gè)性化推薦系統(tǒng)能夠幫助用戶在大量視頻信息中找到令他們滿意的視頻。該領(lǐng)域較成功的一家公司就是Netflix。Netflix在2006年開始舉辦著名的Netflix Prize推薦系統(tǒng)比賽。該比賽對推薦系統(tǒng)的發(fā)展起到了重要的推動(dòng)作用。
3.3 個(gè)性化音樂網(wǎng)絡(luò)電臺(tái)
個(gè)性化推薦的成功應(yīng)用需要具備兩個(gè)條件。第一是存在信息過載的問題,第二是用戶大部分時(shí)候沒有明確的需求。在這兩個(gè)條件下,個(gè)性化網(wǎng)絡(luò)電臺(tái)無疑是最合適的個(gè)性化推薦產(chǎn)品。目前國際上著名的有Pandora和Last.fm,國內(nèi)的代表則是豆瓣電臺(tái)。
3.4 個(gè)性化閱讀
閱讀文章是很多互聯(lián)網(wǎng)用戶每天都會(huì)做的事情。目前互聯(lián)網(wǎng)上的個(gè)性化閱讀工具很多,國際知名的有Google Reader,國內(nèi)有鮮果網(wǎng)等。同時(shí),隨著移動(dòng)設(shè)備的流行,移動(dòng)設(shè)備上針對個(gè)性化閱讀的應(yīng)用也很多,其中具有代表性的有Zite和Flipboard。
[參考文獻(xiàn)]
[1]Resnick P.Varian HR Recommender systems[外文期刊].1997(03).
[2]許海玲.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009.20(2):350.362.
[3]王國霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7).
[4]劉興濤,石冰,解英文.挖掘關(guān)聯(lián)規(guī)則中Apriori算法的一種改進(jìn)[J]. 山東大學(xué)學(xué)報(bào),2008,43(11):67-71.
[5]胡斌.基于高階潛在語義分析的音樂推薦系統(tǒng)的研究,碩士論文.北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,2009.
[6]Schafer JB,Konstan J,Riedl J.Recommender systems in e-commerce[M].On Electronic Commerce,1999.P367-461.
[7]Deshpande M,Karypis G.Item-based top-N recommendation algorithms[J].ACM TransInformation Systems,22(1):143-177,2004.
[8]李濤.推薦系統(tǒng)中若干關(guān)鍵問題研究[D].南京航空航天大學(xué),2008.
[9]Wu L,Yu P.S,Ballman A.Speed Tracer:A Web usage mining and analysis tool [J].IBMSystems Journal,1998,37(1):89-105.