顧陽(yáng),李敏,李華
(廣西師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院,南寧 530023)
協(xié)同過(guò)濾在推薦系統(tǒng)中的應(yīng)用
顧陽(yáng),李敏,李華
(廣西師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院,南寧 530023)
互聯(lián)網(wǎng)的迅猛發(fā)展帶來(lái)信息超載問(wèn)題,用戶在面對(duì)海量信息時(shí)無(wú)法及時(shí)獲取有用信息,降低信息使用效率。推薦系統(tǒng)是解決信息超載問(wèn)題的一個(gè)有效辦法,它利用用戶數(shù)據(jù)并從中提取出用戶的需求、興趣等,再將用戶所需的信息、產(chǎn)品等推薦給用戶。推薦系統(tǒng)現(xiàn)已廣泛應(yīng)用于諸多領(lǐng)域,逐步形成一門獨(dú)立的學(xué)科。
隨著信息技術(shù)與互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時(shí)代走入信息過(guò)載(Information Overload)[1]的時(shí)代。在這樣的環(huán)境下,無(wú)論是信息的消費(fèi)者還是生產(chǎn)者都面臨極大的挑戰(zhàn)。對(duì)于信息的消費(fèi)者而言,如何能在短時(shí)間內(nèi)從海量信息中找到自己感興趣的或者需要的信息成為了一件非常困難的事情。而對(duì)于信息生產(chǎn)者而言,如何讓自己生產(chǎn)的信息獲得用戶的關(guān)注與青睞,也成為了一件非常困難的事情。推薦系統(tǒng)(Rec?ommender System)[2]就是解決這一矛盾的重要工具。推薦系統(tǒng)的任務(wù)在于把用戶和信息聯(lián)系起來(lái),一方面幫助用戶及時(shí)發(fā)現(xiàn)對(duì)自己有價(jià)值或感興趣的信息,另一方面幫助信息能有效呈現(xiàn)在對(duì)它有所需的用戶面前,以此來(lái)實(shí)現(xiàn)信息消費(fèi)者和信息生產(chǎn)者的共贏。
推薦系統(tǒng)通過(guò)采集用戶數(shù)據(jù),計(jì)算發(fā)現(xiàn)用戶的需求和興趣,從而幫助用戶得到有價(jià)值的信息。優(yōu)秀的推薦系統(tǒng)不僅能為用戶提供個(gè)性化推薦,還能和用戶建立密切關(guān)系,讓用戶對(duì)服務(wù)產(chǎn)生依賴。
推薦系統(tǒng)通常由3個(gè)重要的任務(wù)組成:對(duì)用戶數(shù)據(jù)建模、對(duì)推薦對(duì)象建模、選擇合適的推薦算法與策略。常見的推薦系統(tǒng)模型如圖1。
圖1 推薦系統(tǒng)模型
推薦系統(tǒng)先在用戶模型和物品模型中添加特征信息,依據(jù)特征信息比對(duì)并使用合適的推薦算法進(jìn)行計(jì)算,找到用戶可能需要的或者感興趣的信息或者物品等推薦給用戶。
推薦系統(tǒng)根據(jù)不同的指標(biāo)可以分成不同的類型。根據(jù)用戶群體可分為:基于大眾行為的推薦和個(gè)性化推薦;根據(jù)數(shù)據(jù)來(lái)源可分為:基于人口統(tǒng)計(jì)學(xué)的推薦(De?mographic-based Recommendation)、基于內(nèi)容的推薦(Content-based Recommendation)、基于協(xié)同過(guò)濾的推薦(Collaborative Filtering-based Recommendation);根據(jù)推薦模型的建立方式可分為:基于物品和用戶本身的推薦、基于關(guān)聯(lián)規(guī)則的推薦(Rule-based Recommendation)、基于模型的推薦(Model-based Recommendation)。
伴隨著網(wǎng)絡(luò)的發(fā)展,當(dāng)下的網(wǎng)站更加看重用戶的參與和貢獻(xiàn),于是基于協(xié)同過(guò)濾的推薦機(jī)制應(yīng)運(yùn)而生。它的基本原理是依據(jù)收集的用戶數(shù)據(jù),計(jì)算發(fā)現(xiàn)用戶對(duì)物品或者信息的需求以及偏好,通過(guò)尋找物品或者內(nèi)容本身的相關(guān)性,或是用戶的相關(guān)性,然后基于這些關(guān)聯(lián)生成推薦結(jié)果?;趨f(xié)同過(guò)濾的推薦可以分為三個(gè)子類:基于用戶的推薦(User-based Recommen?dation),基于物品的推薦(Item-based Recommendation)和基于模型的推薦。
基于用戶的協(xié)同過(guò)濾推薦原理是根據(jù)所有用戶對(duì)物品或者信息的偏好,發(fā)現(xiàn)與當(dāng)前用戶偏好相似的“鄰居”用戶群,然后基于鄰居們的歷史偏好信息,為當(dāng)前用戶進(jìn)行推薦。
基于物品的協(xié)同過(guò)濾推薦使用所有用戶對(duì)物品或者信息的偏好,發(fā)現(xiàn)物品或信息之間的相似度,然后根據(jù)用戶的歷史偏好信息,將相似的物品推薦給用戶。
基于模型的協(xié)同過(guò)濾推薦會(huì)基于樣本的用戶喜好信息,訓(xùn)練一個(gè)推薦模型,然后根據(jù)實(shí)時(shí)的用戶喜好的信息進(jìn)行預(yù)測(cè),計(jì)算推薦。
協(xié)同過(guò)濾的實(shí)現(xiàn)主要依賴幾個(gè)關(guān)鍵步驟:收集用戶偏好,找到相似的用戶或物品,計(jì)算推薦。
用戶偏好又分為顯性和隱性行為。顯性行為有:評(píng)分、投票、轉(zhuǎn)發(fā)、保存書簽、評(píng)論等。隱性行為有:點(diǎn)擊、購(gòu)買、頁(yè)面停留等。對(duì)不同行為進(jìn)行加權(quán),得到用戶對(duì)于物品的總體喜好。一般來(lái)說(shuō),顯式的用戶反饋比隱式的權(quán)值大,但比較稀疏;同時(shí)相對(duì)于查看,購(gòu)買行為反映用戶喜好的程度更大,但也因應(yīng)用而異。
有關(guān)相似度的計(jì)算,主流方法是計(jì)算兩個(gè)向量的距離,距離越近相似度越大。常用的計(jì)算方法有歐氏距離(Euclidean Distance):假設(shè) x,y是 n維空間的兩個(gè)點(diǎn),它們之間的歐幾里德距離是:
再用以下公式進(jìn)行轉(zhuǎn)換:
除此之外還有皮爾遜相關(guān)系數(shù)(Pearson Correla?tion Coefficient)。皮爾遜相關(guān)系數(shù)一般用于計(jì)算兩個(gè)定距變量間聯(lián)系的緊密程度,它的取值在[-1,+1]之間。sx,sy是x和y的樣品標(biāo)準(zhǔn)偏差。
計(jì)算推薦主要分為基于用戶和基于物品。從計(jì)算復(fù)雜度角度來(lái)說(shuō),對(duì)電子商務(wù)網(wǎng)站而言,用戶的數(shù)量往往大大超過(guò)物品的數(shù)量,同時(shí)物品的數(shù)據(jù)相對(duì)穩(wěn)定,因此計(jì)算物品的相似度不但計(jì)算量較小,同時(shí)也不必頻繁更新。但是對(duì)于新聞,博客類推薦系統(tǒng),情況往往相反,物品的數(shù)量是海量的,同時(shí)也是更新頻繁的,所以單從復(fù)雜度的角度,這兩個(gè)算法在不同的系統(tǒng)中各有優(yōu)勢(shì)。在適用場(chǎng)景上,當(dāng)今流行的社交網(wǎng)絡(luò)中,基于用戶的協(xié)同過(guò)濾是一個(gè)更好的選擇,結(jié)合社會(huì)關(guān)系網(wǎng)絡(luò),可以增加用戶對(duì)推薦解釋的信服度。
基于協(xié)同過(guò)濾的推薦機(jī)制是現(xiàn)今應(yīng)用最廣泛的推薦機(jī)制,有以下顯著優(yōu)點(diǎn):
(1)不需要對(duì)物品或用戶進(jìn)行嚴(yán)格建模。
(2)不要求物品的描述是機(jī)器可理解的。
(3)方法無(wú)關(guān)領(lǐng)域。
但是同時(shí)也存在一些不足:
(1)由于方法的核心是基于歷史數(shù)據(jù),所以對(duì)新物品和新用戶都有“冷啟動(dòng)”的問(wèn)題。
(2)推薦的效果依賴于用戶歷史偏好數(shù)據(jù)的多少和準(zhǔn)確性。在大部分的實(shí)現(xiàn)中,用戶歷史偏好是用稀疏矩陣進(jìn)行存儲(chǔ)的,而稀疏矩陣的計(jì)算會(huì)出現(xiàn)影響精確度的可能。
(3)由于以歷史數(shù)據(jù)為基礎(chǔ),在對(duì)用戶偏好進(jìn)行抓取和建模后,很難修改或者根據(jù)用戶的使用情況實(shí)時(shí)更新。
(4)對(duì)于一些特殊品味的用戶不能給予很好的推薦。
推薦系統(tǒng)幫助用戶在海量信息資源中搜尋有價(jià)值的信息,節(jié)約用戶的時(shí)間成本,同時(shí)提高了用戶對(duì)網(wǎng)站的忠誠(chéng)度,增加網(wǎng)站收益[3]。由于巨大的應(yīng)用需求,推薦系統(tǒng)得到學(xué)術(shù)界和企業(yè)界的廣泛關(guān)注[3]。推薦系統(tǒng)已經(jīng)在電子商務(wù)、社交網(wǎng)絡(luò)、圖書館、視頻和音樂(lè)點(diǎn)播等領(lǐng)域得到廣泛應(yīng)用,而協(xié)同過(guò)濾作為推薦系統(tǒng)當(dāng)下的主流技術(shù)將會(huì)在研究人員的共同努力下獲得更大的提升。
[1]Borchers A,Herlocker J,Konstan J,et al.Ganging up on Information Overload.Computer,1998,31(4):106-108
[2]Resnick P,Varian H R.Recommender Systems.Communications of the ACM,1997,40(3):56-58
[3]冷亞軍,陸青,梁昌勇.協(xié)同過(guò)濾推薦技術(shù)綜述.模式識(shí)別與人工智能,2014.8
Application of Collaborative Filtering in Recommender System
GU Yang,LI Min,LI Hua
(College of Computer and Information Engineering,Guangxi Teachers Education University,Nanning 530023)
The rapid development of the Internet has brought the problem of information overload.The failure of the user to obtain information timely leads to a reduction in efficiency.The recommender system is an effective way to solve the information overload problem.It can read the us?er data to recommend useful information or products.The recommender system is now widely used in many fields,and gradually formed an independent discipline.
信息超載;推薦系統(tǒng);協(xié)同過(guò)濾
1007-1423(2017)28-0065-03
10.3969/j.issn.1007-1423.2017.28.017
顧陽(yáng)(1991-),男,江蘇淮安人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)、推薦系統(tǒng)
李敏(1992-),男,廣西玉林人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)、大數(shù)據(jù)方向
李華(1993-),男,廣西玉林人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)、大數(shù)據(jù)方向
2017-08-25
2017-09-30
Information Overload;Recommender System;Collaborative Filtering