姜信景,齊小剛,劉立芳
隨著互聯(lián)網(wǎng)的迅速發(fā)展,海量的網(wǎng)絡信息大大超過用戶的想象。面對如此浩瀚的信息,用戶如何從中能夠閱讀到滿足其需求的信息是迫待解決的關鍵問題。個性化信息推薦主要處理消息和用戶的匹配問題,即對于一個信息而言,通過個性化推薦算法能夠從眾多用戶中找到需要了解它的用戶集;對于用戶而言,通過個性化信息推薦能夠從眾多的網(wǎng)絡消息中快速地發(fā)現(xiàn)其需求的信息集。目前,針對信息的推薦方法主要包括:基于內(nèi)容的推薦[1-3]、基于知識的推薦[4-5]、協(xié)同過濾推薦[6-7]、混合推薦[7-9]以及其他推薦[10-15]。
基于內(nèi)容的信息推薦算法[1]是根據(jù)對用戶的歷史行為分析進行建立用戶模型,并向用戶推薦與其模型比較匹配的信息。該推薦算法的核心就是挖掘用戶的歷史行為數(shù)據(jù),找到與其相似的信息進行推薦,所以基于內(nèi)容的推薦算法能夠準確捕獲用戶的興趣,能夠為其推薦新出現(xiàn)的信息。但是,由于用戶的興趣隨著時間快速變化,以及該方法僅僅推薦與其模型比較匹配的信息,所以該方法在獲取用戶的潛在興趣以及推薦列表多樣性方面存在不足?;谥R的推薦算法[5,16]是針對特定領域建立規(guī)則,利用基于實例和規(guī)則的推理,實現(xiàn)對用戶推薦。比如,效用知識是指一個項目為何滿足某一特定用戶的知識,其既能產(chǎn)生推薦也可以解釋產(chǎn)生該推薦的原因。該方法的優(yōu)點是把用戶的需求直接映射到產(chǎn)品上以及考慮非產(chǎn)品屬性,但是其缺點為知識難以獲得并且推薦是靜態(tài)的。協(xié)同過濾推薦算法[2,6–7]是推薦系統(tǒng)中最基本的算法,其包括基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法?;谟脩舻膮f(xié)同過濾算法的思想是根據(jù)目標用戶的歷史行為找到與其相似的用戶,然后將它們比較喜歡的但目標用戶沒有發(fā)現(xiàn)的東西推薦給目標用戶?;谖锲返膮f(xié)同過濾的思想與其類似。該方法的優(yōu)點在于不需要領域知識、推薦多樣性好以及可以挖掘用戶的潛在興趣,但是其缺點包括存在冷啟動問題、系統(tǒng)開始時推薦質(zhì)量差、可擴展性差以及質(zhì)量取決于歷史數(shù)據(jù)集等。
由于信息的實時性與用戶興趣的不固定性,在上述推薦方法的啟發(fā)下,論文提出了組合推薦算法——CR算法。該算法的基本思想是:首先是對目標用戶歷史行為日志進行發(fā)掘處理,根據(jù)基于內(nèi)容的推薦算法生成用戶的現(xiàn)存配置文件與當前興趣配置文件;然后,由基于用戶行為的協(xié)同過濾算法與基于用戶內(nèi)容的協(xié)同過濾算法共同生成用戶的潛在配置文件;緊接著由現(xiàn)存用戶配置文件與潛在配置文件共同產(chǎn)生用戶的混合配置文件;最后根據(jù)信息集中信息的發(fā)布時間決定其有哪種方法產(chǎn)生推薦。當信息發(fā)布時間與當前時間的差小于某個閾值時,采用混合推薦算法;當消息發(fā)布時間與當前時間的差不小于上述閾值時,采用基于用戶的協(xié)同過濾算法。
定義2 用戶現(xiàn)存配置文件:對于任何用戶,把其閱讀過的信息生成的文件稱為用戶現(xiàn)存配置文件,并將用戶現(xiàn)存配置文件表示成向量形式,其中表示在用戶現(xiàn)存配置文件中主要特征詞的權重。
定義4 用戶潛在配置文件:對于任何用戶,利用協(xié)同過濾的方法預測主要特征詞的權重,進而獲得用戶潛在配置文件,其能夠被表示為向量形式,其中表示在用戶潛在配置文件中主要特征詞的權重。
定義5 用戶混合配置文件:對于任何用戶,融合上述的用戶當前興趣配置文件和用戶潛在配置文件,獲得其用戶混合配置文件,其能夠被表示成向量形式,其中表示在用戶混合配置文件中主要特征詞的權重。
通過上面對一些概念的定義,下面給出論文的設計思路,如圖1所示。
圖1 方案框架Fig. 1 Scheme framework
由于信息時效性強與用戶的瀏覽興趣并不是永久的,而是跟隨社會流行和熱點話題變化而變化,所以在進行信息推薦時需要考慮到用戶的興趣偏好變化。為此,論文引進截取因子、時間因子以及對用戶的歷史數(shù)據(jù)進行處理。
1.2.1 向量空間模型
1.2.2 用戶現(xiàn)存配置文件、時間因子以及用戶當前興趣配置文件
鑒于用戶的興趣會隨著時間的變化而快速變化,而且用戶的瀏覽興趣往往和剛剛瀏覽過的前幾條信息有很大的關聯(lián)。所以論文在處理文本信息時首先對用戶已閱讀消息的瀏覽時間進行升序排序,進而生成現(xiàn)存用戶配置文件,然后選取最后瀏覽的s個信息用于生成用戶的當前興趣配置文件。設用戶已(閱讀的按瀏覽時間)降序排列的信息集表示為{,所}以最新瀏覽的s個信息集合為,是用戶閱讀信息的時間。時間因子能夠被定義為
算法1
輸入 Fu, Fus, 用戶u閱讀消息Fui的時間ti,α;
4) end for
其中,對用戶瀏覽的信息集從最早閱讀的消息開始,依次到最新閱讀的信息進行下述5)~13)的操作。
8) else
11) end for
12) end for
16) else
19) end if
20) end for
由于用戶的瀏覽興趣并不是永久的,是跟隨社會流行和熱點話題變化而變化,所以推薦信息的列表不應該僅僅包括用戶現(xiàn)存興趣,也應該包括用戶的潛在興趣??紤]到信息的特殊性,本文利用同時考慮行為相似和內(nèi)容相似的基于用戶的協(xié)同過濾方法來尋找目標用戶的相似用戶和潛在興趣。
1.3.1 混合相似性的計算
算法2
輸入 Fus、Fv、UCFus和 UCFV,系數(shù) β;
按2~2.5米分廂,以便于田間管理為度,將畦面整平。如畦面不平易造成播種深度和田間水層不均衡,影響種子出苗生長。
6) end if
7) end for
8) end for
14) end for
1.3.2 潛在用戶配置文件和相似用戶文件的生成
算法3
4) end for
7) end for
11) end for
12) end for
輸出 UMFu。
用戶混合配置文件UBF能夠在獲得目標用戶的當前興趣配置文件UCFs和潛在配置文件UMF后,通過對UCF,UMF上的每個主要特征詞加權得到。設用戶的,。利用式(7)計算。
算法4
5) end for
輸出 UBFu。
由于信息的時效性和用戶興趣不固定等問題,在推薦列表中,信息由兩部分組成:。
若不等式(8)成立,則檢查
實驗數(shù)據(jù)來源于財新網(wǎng)站2014年3月份的一萬個用戶的所有瀏覽記錄。每個瀏覽記錄由用戶編號、新聞編號、瀏覽時間、新聞標題、新聞內(nèi)容以及發(fā)表時間組成。從數(shù)據(jù)集中抽取閱讀超過25條的新聞用戶作為訓練集。令包含在網(wǎng)站給定的測試集中的訓練集用戶作為測試集,其中測試集中的用戶只有一個(測試記錄)。論文采(用值、召)回率、準確率和多樣性作為評價指標。值的定義為
表1 recall與的關系Table 1 Relationship between recall and
表1 recall與的關系Table 1 Relationship between recall and
0.0 0.607 0.1 0.657 0.2 0.723 0.3 0.745 0.4 0.7760.5 0.778 0.6 0.788 0.7 0.791 0.8 0.791 0.9 0.807
在圖2中,隨著推薦列表長度的增加,上述6種方法除CBR(基于內(nèi)容的推薦算法)外,F(xiàn)值都逐漸減少。在相同的推薦列表長度的情況下。CR(組合推薦)的F值最大,除個別點,ICFBBS(改進的基于行為相似的協(xié)同過濾)、ICFCBS(改進的基于內(nèi)容相似的協(xié)同過濾)、MR(混合推薦)、CFBBS(基于行為相似的協(xié)同過濾)、CFCBS(基于內(nèi)容相似的協(xié)同過濾)依次減少。CBR的F值最小。圖3為recall指標隨推薦列表長度變化的情況。隨著推薦列表長度的增加,6種方法的recall值都逐漸增加。在相同推薦列表長度的情況下,除個別點,CR、ICFBBS、ICFCBS、MR、CFBBS、CFCBS以及CBR的recall值依次減少。圖4為precision指標隨推薦列表長度變化的情況。隨著推薦列表長度增加,6種方法值都逐漸減少。在相同列表長度的情況下,除個別點,CR、ICFBBS、ICFCBS、MR、CFBBS、CFCBS以及CBR的Precision值依次減少。
圖2 F值比較Fig. 2 Comparison of F
圖3 召回率比較Fig. 3 Comparison of recall
圖4 精確度比較Fig. 4 Comparison of precision
而推薦系統(tǒng)的整體多樣性可以定義為所有用戶推薦列表多樣性的平均值如式(15):
圖5是上述7種方法在不同推薦長度下多樣性。從圖中可以看出,CBR算法是通過對用戶先前消息的內(nèi)容進行分析,然后推薦與其內(nèi)容相似的消息,所以在推薦列表中的消息內(nèi)容相似性特別高,進而多樣性很差。ICFBBS、ICFCBS、CFBBS、CFCBS是目標用戶通過找到與其行為相似或者內(nèi)容相似的用戶集,給目標用戶推薦用戶集中瀏覽最多的消息,所以多樣性比CBR好。CR是混合推薦和直接基于用戶的協(xié)同過濾算法的組合,所以多樣性比CBR 好,比 ICFBBS、ICFCBS、CFBBS、CFCBS 差。MR推薦的消息是與用戶的興趣模型相似度較高的消息,所以多樣性與CBR相似。
圖5 多樣性比較Fig. 5 Comparison of diversity
此外,CR方法在進行推薦時,由于對消息的分類推薦,所以推薦所用的時間遠遠小于基于內(nèi)容的算法和用戶的協(xié)同過濾混合推薦算法。
本文首先介紹了個性化信息推薦的傳統(tǒng)方法,對基于內(nèi)容推薦算法和基于協(xié)同過濾算法進行了簡單說明。針對信息的特點,本文提出了組合推薦算法(CR算法)。針對該算法設計實驗并分析了實驗結果。數(shù)據(jù)顯示CR方法顯著優(yōu)于其他同類方法。但是隨著信息屬性和用戶權限的細分,通用的推薦算法已不適應某些特殊的信息領域,下一步,可以試著通過改造上述算法的結構進行比較精準的推薦。
[1]李佳珊. 個性化新聞推薦引擎中新聞分組聚類技術的研究與實現(xiàn)[D]. 北京: 北京郵電大學, 2013.LI Jiashan. Research and implementation of text clustering for personalized news recommandation system[D]. Beijing:Beijing University of Posts and Telecommunications, 2013.
[2]項亮. 推薦系統(tǒng)實踐[M]. 北京: 人民郵電出版社, 2012.
[3]BALABANOVI? M, SHOHAM Y. Fab: content-based,collaborative recommendation[J]. Communications of the ACM, 1997, 40(3): 66–72.
[4]MANDL M, FELFERNIG A, TEPPAN E, et al. Consumer decision making in knowledge-based recommendation[J].Journal of intelligent information systems, 2011, 37(1):1–22.
[5]LI Xiaohui, MURATA T. A knowledge-based recommendation model utilizing formal concept analysis and association[C]//Proceedings of the 2nd International Conference on Computer and Automation Engineering. Singapore, 2010:221–226.
[6]GARCIN F, ZHOU Kai, FALTINGS B, et al. Personalized news recommendation based on collaborative filtering[C]//Proceedings of the 2012 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology. Washington, DC, USA: IEEE, 2012: 437–441.
[7]DARVISHY A, IBRAHIM H, MUSTAPHA A, et al. New attributes for neighborhood-based collaborative filtering in news recommendation[J]. Journal of emerging technologies in web intelligence, 2015, 7(1): 13–19.
[8]YANG Wu, TANG Rui, LU Ling. A fused method for news recommendation[C]//Proceedings of the 2016 International Conference on Big Data and Smart Computing (BigComp).Hong Kong, China, 2016: 341–344.
[9]LU Zhongqi, DOU Zhicheng, LIAN Jianxun, et al. Contentbased collaborative filtering for news topic recommendation[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin, Texas, USA, 2015: 217–223.
[10]LIU Y, BAO L, GAO L. Trust-based new recommendation algorithm of collaborative filtering combination[J]. Information Japan, 2013, 16(7): 4555–4576.
[11]WANG Jingjin, LIN Kunhui, LI Jia. A collaborative filtering recommendation algorithm based on user clustering and slope one scheme[C]//Proceedings of the 2013 8th International Conference on Computer Science & Education(ICCSE). Colombo, Sri Lanka, 2013: 1473–1476.
[12]CAPELLE M, FRASINCAR F, MOERLAND M, et al. Semantics-based news recommendation[J]//Proceedings of the 2nd International Conference on Web Intelligence,Mining and Semantics. Craiova, Romania, 2012: 27.
[13]CUI Limeng, SHI Yong. A Method based on one-class SVM for news recommendation[J]. Procedia computer sci-ence, 2014, 31: 281–290.
[14]REN Rui, ZHANG Lingling, CUI Limeng, et al. Personalized financial news recommendation algorithm based on ontology[J]. Procedia computer science, 2015, 55: 843–851.
[15]LOMMATZSCH A, KENTER T, DE VRIES A P, et al.Real-time news recommendation using context-aware ensembles[M]//DE RIJKE M. Advances in Information Retrieval. Cham, Germany: Springer, 2014.
[16]楊博, 趙鵬飛. 推薦算法綜述[J]. 山西大學學報: 自然科學版, 2011, 34(3): 337–350.YANG Bo, ZHAO Pengfei. Review of the art of recommendation algorithms[J]. Journal of Shanxi university: natural science edition, 2011, 34(3): 337–350.
[17]路永和, 李焰鋒. 改進TF—IDF算法的文本特征項權值計算方法[J]. 圖書情報工作, 2013, 57(3): 90–95.LU Yonghe, LI Yanfeng. Improvement of text feature weighting method based on TF-IDF algorithm[J]. Library and information service, 2013, 57(3): 90–95.