丁嵐
摘要:圖書館數(shù)字化研究對于提高圖書館的服務質(zhì)量有著非常重要的意義。本文從圖書推薦入手,介紹了協(xié)同過濾算法可以分為基于模型的協(xié)同過濾算法和基于記憶的協(xié)同過濾算法,著重介紹了基于記憶的協(xié)同過濾算法中的基于項目的協(xié)同過濾算法,闡述了算法的原理和基本步驟,為下一步的應用奠定了基礎。
關(guān)鍵詞:圖書推薦 協(xié)同過濾 相似度
中圖分類號: TP391.3 文獻標識碼:A 文章編號:1007-9416(2016)05-0000-00
1 引言
數(shù)字圖書館逐漸向自動化、智能化、個性化發(fā)展。數(shù)據(jù)資源豐富,屬性眾多,信息冗雜,但是有效利用率并不高,而且讀者接受的服務并不具有針對性。個性化圖書推薦可以根據(jù)個人圖書借閱歷史、用戶的瀏覽痕跡和用戶的資料,找出學生或者老師可能感興趣的圖書,由此向?qū)W生或者老師推薦相關(guān)的圖書,圖書推薦的方式有很多方法,例如基于內(nèi)容的推薦、基于關(guān)聯(lián)規(guī)則的推薦和基于協(xié)同過濾的推薦等。
協(xié)同過濾是分析用戶興趣,并找出與當前用戶有共同喜好的用戶,然后根據(jù)相似用戶對某一項目的喜好度,預測當前用戶是否喜歡此項目,由此作出推薦。算法的推薦原理非常的簡單。用戶的信息與項目在預測部分要事先預處理下,然后輸出推薦的結(jié)果。
2 協(xié)同過濾算法的分類
根據(jù)Breese等學者的研究,可將協(xié)同過濾算法分為兩大類:基于模型的協(xié)同過濾算法(Model.Based Collaborative Filtering)和基于記憶的協(xié)同過濾算法(Memory—Based Collaborative Filtering)。
基于模型算法的主要思想是根據(jù)機器學習或者統(tǒng)計方法對用戶的評分信息進行建模,通過建好的模型來預測用戶的喜好度,以此來作出推薦。常用的建模算法有潛在語義技術(shù)、聚類技術(shù)、Bayes算法以及支持向量機等算法。支持向量機算法具有實時性較好,穩(wěn)定性較高,但是需要建立大量的模型,并且費用較高。
基于記憶的協(xié)同過濾算法主要分為基于用戶的協(xié)同過濾算法(User-based Collaborative Filtering,UBCF)和基于項目的協(xié)同過濾算法 (Item-based Collaborative Filtering,IBCF)兩類。在本文中,將詳細介紹基于項目的協(xié)同過濾算法。
3 基于項目的協(xié)同過濾算法
基于用戶的協(xié)同過濾推薦算法㈣有擴展性和稀疏性問題,在2001年,Sarwar等人提出了基于項目的協(xié)同過濾算法[351。其基本原理用戶對項目進行喜好評分,根據(jù)這些評分計算項目之間的相似度,把相似的項目推薦給用戶。原理如圖1所示。
從圖1中可以看出學生A對圖書1和圖書,3感興趣,學生B對圖書1、圖書2和圖書3感興趣,學生C對圖書1感興趣,可以推出,圖書1和圖書3是比較相似的,對圖書1感興趣的學生可能也對圖書3感興趣。由此也可以推出學生C對圖書3也比較感興趣,可以考慮將圖書3推薦給學生C。
基于項目的協(xié)同過濾算法主要有三個步驟,先計算項目之間的相似度,然后選擇近鄰,最后作出推薦。
(1)項目之間相似度的計算。常見的計算相似度的算法有Pearson相關(guān)系數(shù)法 (Pearson Correlation Coefficient)、余弦相似度法 (Cosine Similarity)和調(diào)整余弦相似度法(Adjustment Cosine Similarity)。例如:Pearson相關(guān)系數(shù):計算兩個項目之間的線性關(guān)系,如式(1)所示
在上式中,表示項目u和v之間的相似度,是用戶u對項目i的評分,是用戶v對項目i的評分,是用戶u在已經(jīng)評價過的項目上的平均分,是用戶v在已經(jīng)評價過的項目上的平均分。
(2) 尋找相似鄰。計算了項目之間的相似度后,尋找相似近鄰。最常用的尋找相似近鄰有K均值方法和設閾值法。
(3)產(chǎn)生推薦。主要有兩種方法:Top-N推薦列表和預測當前用戶對項目的評分??紤]到求平均值是不太理想的,有人提出了使用加權(quán)平均值方法。主要兩種方法,具體如式(2.10)與式(2.11)所示。
其中,為項目間的相似度,項目間的相似度越大,則預測評分的影響就也越大。
4 算法實驗驗證
本文實驗評估仍然基于Book.Crossing數(shù)據(jù)集,學校圖書館中用戶對圖書的評分從2003年到2015年的評分有1e10條記錄,是由1e6個用戶對5e5的評分,這些評分是O~5,0表示用戶不喜歡,5表示用戶非常的喜歡該本圖書。對算法進行測試,測量真實評分與預測評分之間的平均絕對誤。算法運行5次,平均誤差小于0.5%,因此,說明算法具有很好的推薦效果。
5 結(jié)語
闡述了協(xié)同過濾推薦算法的相關(guān)理論,重點介紹基于項目的協(xié)同過濾算法,算法的步驟可以分為項目之間相似度的計算、尋找相似鄰和產(chǎn)生推薦三個方面。實驗結(jié)果表明,該算法具有一定的推薦效果。
參考文獻
[1]聶飛霞.高校圖書館個性化圖書推薦系統(tǒng)設計[J].情報探索,2014,1(195):115-118.