徐 勇,趙俊杰,沈小玲
(安徽財經(jīng)大學 信息工程學院,安徽 蚌埠 233041)
查詢推薦技術綜述
徐 勇,趙俊杰,沈小玲
(安徽財經(jīng)大學 信息工程學院,安徽 蚌埠 233041)
文章介紹了用戶搜索中查詢推薦技術的相關概念、研究現(xiàn)狀;深入分析了目前常見的推薦算法及推薦系統(tǒng)中的隱私保護問題;最后,歸納了查詢推薦技術的研究熱點。
推薦系統(tǒng),協(xié)同過濾,數(shù)據(jù)挖掘
進入21世紀以來,信息網(wǎng)絡化正在延伸到社會的每一個角落,這種全球性的信息化進程深刻地改變了人類的生存方式,Internet技術的應用給人們生活和工作的各個層面帶來了深刻的影響。
由于Internet具有信息交流的雙向性,開放式信息傳輸以及范圍廣泛等特點,使得其中的信息量以指數(shù)規(guī)模迅速增長,形成“信息爆炸”,導致用戶在使用網(wǎng)絡過程中出現(xiàn)“信息過載”和“信息迷航”等問題?!靶畔⑦^載”指由于Internet提供的信息具有復雜性和廣泛性的特點,同時瀏覽者自身知識結構和認知能力等條件限制,導致瀏覽者無法正確理解和使用信息。信息迷航是瀏覽者在Internet極為復雜的網(wǎng)絡信息空間中迷失方向,無法確定自己現(xiàn)在所處信息空間的位置,進而無法進入目標節(jié)點,甚至于忘記搜索目標的一種現(xiàn)象[1]。
解決這一問題的有效途徑之一是將Internet從被動接受瀏覽者的請求轉(zhuǎn)化為主動感知瀏覽者的信息需求,實現(xiàn)網(wǎng)絡系統(tǒng)對瀏覽者的主動信息服務。“推薦系統(tǒng)”正是在這一背景下應運而生,成為解決大規(guī)模數(shù)據(jù)中有效信息檢索的重要技術手段之一,吸引了很多人的研究興趣。
推薦系統(tǒng)可以認為是一種基于網(wǎng)絡環(huán)境的專家系統(tǒng),它能夠從有限信息中學習用戶的偏好,進而從備選項目中向用戶做出個性化的推薦。隨著人工智能、數(shù)據(jù)挖掘等相關領域的發(fā)展,網(wǎng)絡上的資源信息規(guī)模急劇增長,網(wǎng)絡上的信息服務也逐漸向人性化、個性化、智能化等方向發(fā)展,推薦系統(tǒng)成為其中的一個研究熱點。
推薦系統(tǒng)的起源可以追溯到其他領域的工作,最早的推薦系統(tǒng)雛形可以認為是1979年在認知科學領域中Elaine Rich提出的Grundy系統(tǒng)[2],其中提出了所謂的stereotypes機制用于建立用戶的模型,并通過模型向用戶推薦相關書籍。此后,隨著信息檢索和信息過濾研究的發(fā)展,推薦系統(tǒng)成為其中的研究熱點之一,得到了許多著名研究機構和研究者的關注,出現(xiàn)了較多的研究組織和應用實例:由Xerox Palo Alto研究中心開發(fā)的實驗系統(tǒng)Typestry是目前公認的第一個真正意義上的推薦系統(tǒng),其中提供了電子文檔的存儲、用戶評價存儲和協(xié)同過濾推薦服務。但是,Typestry要求每個用戶自己確定與自己興趣愛好相似的其他用戶,使得用戶之間必須相互了解彼此的興趣愛好,所以,該推薦系統(tǒng)比較適合于用戶群體比較小的場合[3]。由美國Minnesota大學計算機科學與工程系的John Riedl教授領導的GroupLens研究小組于1996年開發(fā)出了使用自動協(xié)同過濾技術的新聞組信息推薦系統(tǒng),并提供在互聯(lián)網(wǎng)上公測;目前,該小組的研究范圍包括推薦算法設計與實現(xiàn)、協(xié)同過濾方法的應用等;部分技術已進入商業(yè)應用領域。INDIANA大學計算機科學系主持開發(fā)的PHOAKS系統(tǒng)項目主要用于幫助用戶在WWW上查找相關的信息。20世紀90年代中期,陸續(xù)出現(xiàn)了一些關于協(xié)同過濾方面的文章[4,5],推薦系統(tǒng)成為獨立的研究領域,得到廣泛關注。
1996年召開的協(xié)同工作會議CSCW’96、1998年召開的第十五屆國際人工智能會議AAAI-98等開始將電子商務推薦系統(tǒng)作為重要的會議主題。2006年9月12日-13日,ACM和SIGCHI在西班牙的Bilbao組織召開了名為“Recommender’06:The Present and Future of Recommender System”的研討會,對推薦系統(tǒng)的技術方法、應用領域、發(fā)展前景進行了深入的交流。2007年10月19日-20日ACM在美國的Minnesota組織召開了第一屆推薦系統(tǒng)國際會議Rec-Sys2007,為推薦系統(tǒng)相關研究人員提供了一個良好的交流平臺。RecSys2008于2008年10月23日-25日在瑞士Lausanne召開。
目前關于推薦系統(tǒng)方面的理論研究主要集中在以下幾個方面:
(1)推薦技術和算法,推薦技術主要包括基于內(nèi)容過濾、協(xié)同過濾推薦技術、基于知識的推薦技術。
基于內(nèi)容過濾是信息檢索領域的重要研究內(nèi)容[6],通過學習用戶已經(jīng)評價過的項目的特征來獲得對客戶興趣的描述,或者說:基于內(nèi)容過濾的推薦系統(tǒng)分析資源的內(nèi)容信息,根據(jù)用戶以往的興趣建立用戶特征(Profile),然后根據(jù)用戶特征與新的資源內(nèi)容之間的相似性,向用戶提供推薦。在基于內(nèi)容過濾的推薦系統(tǒng)中,Bayes模型、遺傳算法及其它一些機器學習技術也被用于用戶特征的建立。比較具體代表性的基于內(nèi)容過濾的推薦系統(tǒng)包括:Malone等人提出的電子郵件系統(tǒng)信息過濾系統(tǒng);Stanford大學提出的信息過濾工具SIFT;音樂過濾系統(tǒng)LyricTime等。
協(xié)同過濾推薦技術無須建立用戶特征,而是根據(jù)其他類似用戶對項目的喜好向用戶進行推薦。由于協(xié)同過濾方法無須分析資源的內(nèi)容信息,因而自誕生之后,就獲得了比基于內(nèi)容過濾方法的推薦技術更為廣泛的應用。目前關于協(xié)同過濾技術方面的研究主要集中在算法的改進方面。
基于知識的推薦技術:通過推斷用戶的需求來做出推薦,這種推薦系統(tǒng)具有特定項目滿足特定用戶需要的知識,由此推斷出用戶與推薦項目之間的關系。
(2)推薦質(zhì)量控制與度量。由于在網(wǎng)絡環(huán)境下,推薦系統(tǒng)處理的數(shù)據(jù)具有高維、稀疏等特點,因此一方面,如何有效地提高推薦質(zhì)量(如:推薦系統(tǒng)的實時性,推薦結果的準確性等)是目前的一個研究熱點;另一方面,推薦系統(tǒng)評價指標和體系也是重要的研究內(nèi)容。
(3)推薦系統(tǒng)中的隱私保護及安全問題。由于推薦系統(tǒng)需要分析用戶的偏好及行為特征,所以在提供推薦服務的同時如何有效地保護用戶隱私、如何有效地保障系統(tǒng)安全等問題是值得研究的。
推薦系統(tǒng)最早的應用領域是電子商務系統(tǒng)[7],這也是其最為成功的應用領域之一。推薦系統(tǒng)在電子商務系統(tǒng)中,模擬商家銷售人員向用戶提供商品推薦,提高用戶搜索商品的效率,商家也可以通過推薦系統(tǒng)保持有效客戶。目前幾乎所有的大型電子商務系統(tǒng),如Amazon.com,eBay等,都不同程度地使用了各種形式的推薦系統(tǒng)。
隨著推薦系統(tǒng)研究的深入,推薦系統(tǒng)的應用領域也得到了廣泛拓展[8],如圖書館的聯(lián)機數(shù)據(jù)檢索、網(wǎng)絡信息檢索、數(shù)字電視節(jié)目收看等各種信息服務都開始或已經(jīng)應用了相關推薦算法。
目前推薦系統(tǒng)研究雖然仍然存在一些不足:(1)缺乏個性化的推薦,很多的推薦結果是針對所有客房的,是非個性化的推薦。造成這種現(xiàn)象的原因是在網(wǎng)絡環(huán)境下沒有描述用戶的興趣偏好及其動態(tài)變化情況的有效機制和模型;(2)推薦系統(tǒng)的自動化、智能化程度較低,大多數(shù)的推薦系統(tǒng)都需要用戶與計算機的交互,由用戶輸入自己的興趣信息,推薦系統(tǒng)不能通過保存的客戶自動推理、學習用戶的興趣,從而在面對海量的文獻數(shù)據(jù),推薦系統(tǒng)無法高效、快捷地搜索出用戶真正感興趣的文獻等;(3)電子商務應用領域的推薦技術和理論研究成果較多,但網(wǎng)絡環(huán)境下科技文獻共享領域的推薦技術和理論研究成果尚不多見。本課題擬針對網(wǎng)絡環(huán)境下的文獻共享這一課題開展用戶偏好描述、文獻協(xié)同推薦等內(nèi)容開展深入的研究,以促進網(wǎng)絡環(huán)境下的文獻快速共享方法進一步走向?qū)嶋H。
目前下列幾個方面的內(nèi)容值得進一步開展更多的研究。(1)研究有效的基于數(shù)據(jù)挖掘技術的協(xié)同過濾推薦策略和方法——源于數(shù)據(jù)的高維、稀疏、海量特性。由于網(wǎng)絡上資源信息非常龐大、且呈指數(shù)規(guī)模在不斷增長,若采用傳統(tǒng)的協(xié)同過濾推薦方法,在整個用戶空間、資源信息空間進行搜索的話,這是非常耗時的,是無法滿足在線論文共享需求的。因此,考慮將數(shù)據(jù)挖掘技術(關聯(lián)分析、聚類)引入到推薦系統(tǒng)中,實現(xiàn)對用戶空間、資源信息空間進行降維和提高傳統(tǒng)的協(xié)同過濾推薦方法效率的目的,以提高推薦系統(tǒng)的實時性、針對性。第一種情況——盡可能準確,首先從用戶過去的行為數(shù)據(jù)中,提取出用戶行為模式(聚類、分類)、行為特征、偏好信息,然后在推薦過程中通過度量用戶偏好與項目之間的相似度,有針對性地推薦用戶真正感興趣的信息。第二種情況——盡可能完全,首先對用戶指定的搜索關鍵詞適當泛化,然后以泛化后的關鍵詞進行搜索。如:給定關鍵詞“中科大”,則應將“科大/中國科大/中國科技大學/中國科學技術大學”作為類似關鍵詞進行搜索,還比如關鍵詞“數(shù)據(jù)挖掘”,則“知識發(fā)現(xiàn)”也應該作為類似關鍵詞進行搜索,搜索結果同樣也可能是用戶感興趣的內(nèi)容。這種泛化,其本質(zhì)是將類似關鍵詞的搜索結果同時提供給用戶;另一種含義是將關鍵詞所屬的類作為新的搜索關鍵詞,如有關鍵詞“本田”,則可以將所有屬于“轎車”類別的信息提供給用戶。(2)實現(xiàn)基于語義的信息檢索及基于語義的推薦技術。(3)用戶隱性偏好挖掘。早期的推薦系統(tǒng)只需通過用戶的直接輸入的關鍵詞等獲取簡單的用戶信息,隨著推薦系統(tǒng)應用領域的不斷擴展,需要考慮用戶多興趣、用戶興趣的動態(tài)變化、特別是用戶的隱性偏好需求。(4)隱私保護問題。
[1]A.M.Rashid.Mining Influence in Recommender Systems[M].Minneapolis,Minnesota:University of Minnesota,2007.
[2]E.Rich.User Modeling via Stereotypes[J].Cognitive Science,1979,3(4).
[3]D.Goldberg,D.Nichols,B.M.Oki,et al.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35(12).
[4]W.Hill,L.Stead,M.Rosenstein,et al.Recommending and E-valuating Choices in a Virtual Community of Use[C].In:proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems(CHI95),Denver,Colorado,USA,ACM Press,1995.
[5]U.Shardanand,P.Maes.Social Information Filtering:Algorithms for Automating ‘word of Mouth’[C].In:Proceedings of ACM CHI’95 Conference on Human Factors in Computing Systems,Denver USA,ACM Press,1995.
[6]N.Belkin,B.W.Croft.Information Filtering and Information Retrieval:Two Sides of the Same Coin?[J].Communication of the ACM,1992,35(12).
[7]J.B.Schafer,J.A.Konstan,J.Riedl.E-Commerce Recommendation Applications[J].Data Mining and Knowledge Discovery,2001,5(1).
[8]B.P.S.Murthi,Sumit Sarkar.The Role of the Management Sciences in Research on Personalization.ManagementScience,2003,49(10).
C931.6
A
1002-6487(2011)09-0168-02
國家社會科學基金資助項目(09BTQ019);教育部人文社會科學研究青年項目基金資助(07JC870006,09YJC870001);安徽高校省級自然科學研究重大項目資助(KJ2010ZD01)
徐 勇(1978-),男,安徽涇縣人,博士,副教授,研究方向:數(shù)據(jù)庫技術、數(shù)據(jù)挖掘、信息安全。
(責任編輯/浩 天)