(華北電力大學 北京 102200)
在如今信息爆炸的時代,人們正面臨著被數(shù)據包圍,卻又饑渴于知識的困境。隨著互聯(lián)網技術的發(fā)展,數(shù)據正在以指數(shù)的形式爆發(fā)式增漲。一組名為“互聯(lián)網的一天”的數(shù)據是這樣說的,一天之中,互聯(lián)網的使用者們發(fā)送或接收2940億封郵件、發(fā)出200萬個社區(qū)帖子、上傳5億張圖片、分享28800小時時長的視頻,互聯(lián)網一天產生的全部數(shù)據能刻滿1.68億張DVD[1]。眾多的信息與知識蘊藏在這些數(shù)據之中,人們面對如此體量的數(shù)據想要獲取自己想要的信息是有難度的。如何有效的在海量數(shù)據中獲取用戶想要的信息具有重大的研究意義。對于上述問題,前人已經有個很好的解決思路,那就是搜索引擎和推薦系統(tǒng)。
搜索引擎指自動從因特網搜集信息,經過一定整理以后,提供給用戶進行查詢的系統(tǒng)。搜索對于用戶來說是一個主動的行為,用戶在執(zhí)行搜索操作之前需要對想要的信息有比較明確的認識,將關鍵詞或者有關信息的描述輸入搜索引擎,然后搜索引擎通過搜索算法收集到特定的信息,返回給用戶。搜索引擎能夠有效的幫助用戶高效率的獲取自己想要的信息,該技術的出現(xiàn)大大縮短了互聯(lián)網用戶獲取知識的時間。該技術如今被廣泛的應用在人類社會生活的方方面面,百度、谷歌、雅虎等公司都是搜索引擎巨頭,人們日常生活衣食住行所需的各類知識都能夠通過搜索引擎高效地獲取[2]。但是搜索引擎也存在著局限性,用戶在輸入類似的關鍵詞時得到的結果往往都是差別不大的,這樣的缺乏個性化的信息顯然是無法滿足所有用戶的需求,尤其是在音樂、電影、商品、圖書等領域。不同的用戶對于同一件物品很可能給出不同的描述,這樣搜索引擎是無法滿足用戶之間的差異性的需求。針對用戶個性化獲取信息的問題,推薦系統(tǒng)給出了一個可行的解決方案。與搜索引擎不同,推薦系統(tǒng)接受的信息一般是模糊的不明確的。推薦系統(tǒng)通過搜集用戶的行為特征,與推薦系統(tǒng)中的信息進行關聯(lián),然后形成推薦列表,將用戶有可能需要的信息推薦給用戶。如今大多數(shù)的應用或者服務都會兼顧以上兩種方法,來為用戶提供全面的、快速的、高效的、準確的信息獲取服務。本文將聚焦個性化推薦技術進行研究。
個性化推薦技術在如今被應用的越來越廣泛,幾乎遍布了人們生活中的每一個角落,包括音樂、電影、新聞、郵件、電子商務、醫(yī)療、飲食、出行等各個領域。隨著推薦技術和推薦系統(tǒng)的廣泛應用,產生了大量的推薦算法[3]。例如基于內容的推薦算法、基于關聯(lián)規(guī)則的推薦算法、基于協(xié)同過濾的推薦算法和混合推薦算法。這些都是比較經典的推薦算法,被許多人進行了深入的研究,并且被廣泛的應用在各個領域中。其中協(xié)同過濾算法是被使用和研究的最廣泛的,該算法具有眾多的優(yōu)點,例如它在推薦過程中是利用統(tǒng)計學的知識,而幾乎不需要任何其他領域的知識,因此非常容易將其運用在各種工程之中。但是該算法也具有很多缺點和不足,例如數(shù)據的稀疏性問題、冷啟動問題等。這些問題對于推薦算法的性能有很大的影響。
在數(shù)據爆炸信息過載的當今社會,個性化推薦技術作為人們獲取信息的手段正在扮演者越來越重要的角色。它既解決了信息過載難題,又解決了搜索引擎缺乏個性化和必須明確目的性的缺陷。推薦算法被廣泛的應用在各個領域,對推薦算法進行改進和優(yōu)化具有重大的現(xiàn)實與實際意義。
推薦系統(tǒng)的內核是推薦算法,推薦算法種類很多,通常被分為以下幾類:基于內容的推薦算法;基于關聯(lián)規(guī)則的推薦算法;基于協(xié)同過濾的推薦算法;混合推薦算法等。
基于內容的推薦算法出現(xiàn)較早,主要思想是根據物品的屬性特征,構建項目屬性向量,接著根據用戶歷史行為記錄,構建用戶興趣偏好向量,通過比較用戶興趣偏好向量與用戶未評價的各個項目的屬性向量的相似度,對目標用戶產生項目預測評分或 top-N 推薦。基于內容的推薦算法的優(yōu)點是易于實現(xiàn),推薦效果直觀。缺點是復雜的項目難以提取出項目屬性特征向量,有時需要人工進行提取,但是人的主觀性往往導致提取標準難以統(tǒng)一,導致推薦效率下降。
基于關聯(lián)規(guī)則的推薦算法的首要目標是挖掘出關聯(lián)規(guī)則,例如那些同時被很多用戶購買的物品之間的關聯(lián)關系,這些具有關聯(lián)關系的物品可以相互進行推薦?;陉P聯(lián)規(guī)則的推薦算法一般轉化率較高,因為當用戶購買了具有關聯(lián)關系的若干項目后,購買相同關聯(lián)關系的其他項目的可能性會變得更高。缺點是存在數(shù)據稀疏和冷啟動的問題,還有熱門物品容易被過度推薦。
基于協(xié)同過濾的推薦算法是個性化推薦算法中研究和應用最為廣泛的推薦算法。協(xié)同過濾推薦算法只需要用戶對項目進行評分,不需要用戶特征和項目屬性。主要分為以下兩種:基于內存的協(xié)同過濾推薦算法和基于模型的協(xié)同過濾推薦算法?;趦却娴膮f(xié)同過濾推薦又可以分為基于用戶的協(xié)同過濾和基于項目的協(xié)同過濾。
基于用戶的協(xié)同過濾算法主要有四個步驟:第一步,根據用戶—項目評分矩陣,進行用戶相似度計算,得到用戶相似度矩陣;第二步,通過用戶相似度,運用KN最近鄰居算法,通過用戶相似度大小選擇與目標用戶最近的K個鄰居;第三步,利用目標用戶的最近鄰居集合,計算出目標用戶的項目預測得分;第四步,選擇預測評分值較大的N個進行目標用戶的top-N推薦,基于項目的協(xié)同過濾和基于用戶的協(xié)同過濾的計算過程類似。
基于模型的協(xié)同過濾通過數(shù)據挖掘、機器學習等知識建立用戶-項目的評分預測模型,主要有以下兩種方法:(1)基于矩陣的奇異值分解模型。將整個數(shù)據集的用戶-項目評分矩陣,通過矩陣分解為用戶特征矩陣和項目特征矩陣,從而降低矩陣的維度,進行相似度的計算并推薦;(2)基于聚類模型。如通過Canopy 聚類,K 均值算法等算法,對用戶或項目進行聚類,從而對目標用戶所屬某一類的評分進行預測并推薦。
個性化推薦技術極大的影響了人們獲取信息的方式,極大的縮短了人們獲取信息的時間,提高了人們獲取信息的效率。研究的和發(fā)展推薦技術具有重要的意義。影響推薦算法性能最重要的兩個問題就是數(shù)據稀疏和冷啟動問題,這也是人們研究的重點。如何解決這兩個問題,是優(yōu)化推薦算法的重中之重。最常見的方案便是采用與其他算法結合,例如聚類或者矩陣分解,解決數(shù)據稀疏問題。挖掘數(shù)據中的隱式信息解決冷啟動問題。在此基礎上,不斷尋找新的算法與推薦算法結合,不斷挖掘新的隱式信息,是優(yōu)化推薦算法的思路之一。國內外學者提出了各種解決方案,比如矩陣分解方法既可以解決數(shù)據稀疏性問題,也可以解決算法擴展性問題。向算法中融入用戶的人口統(tǒng)計學信息、背景知識和信任關系可以緩解協(xié)同過濾技術的冷啟動問題。另外,新的社會網絡分析技術、大數(shù)據的并行技術,以及結合關鍵用戶分析技術給其帶來了新的契機,而如何利用這些技術提高系統(tǒng)的推薦精度和效率將會成為新的研究熱點。