劉世杰+程齊凱
摘 要:網絡新聞是目前最重要的網絡應用之一,其巨大的信息量產生了信息過載問題。為有效緩解信息過載問題,通過網絡調查、文獻研究、對比分析等研究方法分析了網絡新聞推薦中的相關策略,并利用系統(tǒng)分析的方法研究推薦系統(tǒng)模型??偨Y出可應用于網絡新聞領域的個性化推薦系統(tǒng)的推薦策略,構建基于不同推薦策略的推薦系統(tǒng)模型,并分析了網絡新聞個性化推薦系統(tǒng)存在的問題和難點,提出其未來發(fā)展方向。
關鍵詞:網絡新聞;推薦策略;基于內容推薦;協(xié)同過濾;混合式推薦
DOIDOI:10.11907/rjdk.171364
中圖分類號:TP319
文獻標識碼:A 文章編號文章編號:1672-7800(2017)008-0146-03
0 引言
隨著互聯(lián)網的高速發(fā)展和移動設備的快速普及,網絡新聞已經成為最重要的網絡應用之一,根據(jù)CNNIC第38次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計,截至2016年6月,我國網絡新聞用戶規(guī)模為5.79億,網民的網絡新聞使用率達到了81.6%,而且,用戶規(guī)模還將持續(xù)高速增長。
與此同時,互聯(lián)網每天都會產生海量的信息,呈現(xiàn)幾何級數(shù)增長,網絡新聞亦是如此。海量的新聞信息在滿足用戶信息需求的同時,也產生了信息過載(Information Overlord)問題:受眾在將大量的信息轉化的過程中存在著“瓶頸”和“障礙”,無法將其內化為自己所需知識而加以有效吸納,導致了“過載”[1]。簡言之,過量的新聞信息使得人們選擇自己所需新聞的難度越來越大,嚴重影響了用戶對新聞信息的閱讀和獲取體驗。
針對信息過載問題,目前主要的解決方案是信息檢索技術和個性化推薦技術。以搜索引擎為代表的信息檢索技術,用戶可以通過關鍵字檢索獲取自己所需信息,但同一關鍵字搜索的結果是一致的,無法滿足個性化的信息需求。而個性化推薦系統(tǒng)很好地解決了這一問題,它依據(jù)用戶的個性化需求、興趣愛好等,使用不同的推薦算法,自動將用戶感興趣的信息和產品推薦給用戶,為用戶提供個性化的服務,同時也能增加用戶依賴,提高用戶忠誠度[2]。
個性化推薦系統(tǒng)最早起源于B2C電子商務,電商平臺通過推薦系統(tǒng)推送用戶感興趣的商品,進一步轉化為商品購買,從而提高銷售量。隨著互聯(lián)網的快速發(fā)展,個性化推薦系統(tǒng)從電子商務延伸到了音樂、電影、廣告以及網絡新聞等領域,為用戶提供更加個性化的信息和產品服務。
本文對網絡推薦系統(tǒng)做了調查和分析,從宏觀視角綜述了網絡新聞個性化推薦系統(tǒng)的策略,總結了推薦策略存在的問題和難點,提出了未來發(fā)展方向。
1 體系結構
一般而言,推薦系統(tǒng)由3個部分組成:用戶模塊、推薦對象模塊和推薦算法模塊(或叫推薦策略),這一系統(tǒng)的組成具有通用性[3]。在網絡新聞推薦系統(tǒng)中,與之對應的是新聞用戶建模模塊、網絡新聞模塊以及推薦算法模塊,這一推薦系統(tǒng)的模型如圖1。
新聞用戶建模模塊利用用戶偏好獲取系統(tǒng)收集用戶興趣愛好,建立用戶特征數(shù)據(jù)庫;網絡新聞建模模塊提取、描述、建立網絡新聞的內容特征;推薦算法模塊根據(jù)特定的模型,計算網絡新聞的內容特征與用戶閱讀興趣特征之間的相似性,將相似性較大的網絡新聞推薦給用戶。
2 推薦策略
討論網絡新聞的個性化推薦策略,要把通用推薦系統(tǒng)的一般性和網絡新聞推薦的特殊性相結合。網絡新聞的時效性很強,新聞的發(fā)布速度快,更新速度快,生命周期非常短,不同于音樂、電影等。此外,用戶的閱讀興趣也很容易受當前熱點事件的影響。
傳統(tǒng)的網絡新聞推薦策略主要是對熱門新聞的推送和RSS訂閱。熱門新聞推送方式下,所有用戶得到的推薦結果都是相同的,缺乏個性化,而RSS訂閱是一種被動的推送,兩者都不是很好的推薦方式。目前在網絡推薦中應用較多的推薦方式有4種:基于內容的推薦(Content-based Recommendation)、協(xié)同過濾推薦(Collaborative Filtering Recommendation)、混合式推薦策略(Hybrid Recommendation)以及近幾年興起的基于社會化網絡的推薦(Social Network-based Recommendation)。這些推薦策略在網絡新聞推薦中廣泛應用。
2.1 基于內容的推薦
基于內容的推薦方式借鑒了信息檢索的一些思想,根據(jù)用戶的歷史使用信息,檢索與用戶歷史使用信息相似度最大的產品和信息,將其推薦給用戶。這一推薦方式在網絡新聞的推薦中應用較為廣泛,根據(jù)用戶閱讀過、評論、分享或者收藏的新聞,提取共性,建立用戶新聞偏好文件,根據(jù)一定的計算方法,計算用戶的偏好特征與待推薦新聞內容特征的相似性,最后將相似性較大的網絡新聞推薦給用戶。
基于內容的推薦方式的系統(tǒng)模型如圖2,設用戶s對于對象c的效用度,即兩者的特征匹配度為函數(shù)u(s,c),用戶的偏好特征為函數(shù)Preference(s),新聞的內容特征為函數(shù)Content(c),則效用度u(s,c)是Preference(s)和Content(c)的函數(shù)[4],即:
u(s,c)=score(Preference(s),Content(c))
score的計算方法有很多種,較為簡單的有計算向量夾角的余弦方法[5]等。
新聞閱讀中,用戶關注的是網絡新聞的內容,因而,基于內容的推薦方式是目前網絡新聞個性化推薦的主流方式。譬如,在移動端網絡新聞推薦中廣為應用的基于新聞主題檢測和跟蹤的推薦方式,就是基于內容推薦的方式。目前,很多移動新聞客戶端都采用這一推薦方式,提供給用戶主題和內容相似度較高的新聞推薦。
2.2 協(xié)同過濾推薦
協(xié)同過濾推薦方式是較早出現(xiàn)的一種推薦策略,是目前較為成熟、且應用最為廣泛的一種推薦策略,在B2C電商中被大量應用,在網絡新聞推薦中也有著重要應用。endprint
協(xié)同過濾是一種基于興趣相同的用戶以及喜好相同的項目進行的推薦,它依據(jù)與目標用戶興趣相似的用戶(鄰居用戶)的偏好信息,依據(jù)一定的規(guī)則,提供對目標用戶的推薦信息[6]。具體到網絡新聞推薦,先根據(jù)新聞用戶的歷史閱讀、分享、評論以及評價等使用信息,計算出用戶相似度,找出與其興趣相似的鄰居用戶集,再利用鄰居用戶的興趣偏好來預測目標用戶可能喜歡的新聞,并將其推薦給目標用戶。
協(xié)同過濾的推薦系統(tǒng)的簡單模型如圖3,目標用戶為u,鄰居用戶為n,鄰居用戶集為N,其算法核心是通過用戶相似度計算,得到u的鄰居用戶集N,借助鄰居用戶ui(s,c),預測目標用戶u的效用值u(s,c)[6]。
協(xié)同過濾推薦的方式可進一步分為兩種:基于記憶(或叫啟發(fā)式)的協(xié)同推薦(Memory-based)、基于模型的協(xié)同推薦(Model-based)[4,7]。兩者的主要區(qū)別在于:基于記憶的協(xié)同推薦是先找出目標用戶u的鄰居用戶集N,然后根據(jù)鄰居用戶ui對推薦對象s的使用和評價信息,預測s對u的效用值,從而判斷是否把s推薦給u;而基于模型的協(xié)同推薦則是利用目標用戶u已知的興趣偏好數(shù)據(jù),訓練、學習一個新的模型unew[3],使用特定的計算模型,計算、預測模型unew對推薦對象s的效用值,從而判斷是否推薦。
新聞受眾的需求具有一定的穩(wěn)定性,即他們總是對特定主題和特定內容的新聞?chuàng)碛谐志玫呐d趣,比如追星族和軍迷,前者需求的新聞總是與特定明星相關的娛樂新聞,后者則對軍事新聞需求較為穩(wěn)定。協(xié)同過濾推薦的方式很好地滿足了新聞受眾需求穩(wěn)定性的特征。對于某一網絡用戶,通過用戶相似度計算,分析其所屬的新聞用戶群體,提供特定主題和內容的新聞,滿足用戶需求。
2.3 基于社會網絡的推薦
基于社會網絡的推薦是近幾年興起的一種推薦方式,Web2.0時代,網絡社交應用盛行,網民的行為越來越網絡化和社區(qū)化[8]。社會網絡分析(SNA)的研究表明,網絡社區(qū)中關系密切的群體往往會有相似的興趣愛好,社會化推薦系統(tǒng)正是基于這一研究成果,根據(jù)目標用戶的社會關系信息,構建用戶的社會關系網絡模型,根據(jù)這一模型和已知的用戶興趣模型,提供信息和產品推薦。
如圖4,社會化推薦系統(tǒng)可大致分為4個層次[8]:
(1)數(shù)據(jù)采集層。獲取用戶的社會網絡信息、使用和評價信息等。
(2)數(shù)據(jù)預處理層。篩選、處理數(shù)據(jù),建立社會化網絡模型等。
(3)推薦生成層。依據(jù)社會化網絡模型計算匹配數(shù)據(jù),提取推薦對象。
(4)用戶層。接受、評價和反饋推薦結果等。
隨著社交應用的盛行,社交應用和新聞類應用存在功能上的融合,在社交平臺閱讀新聞的用戶比率越來越高。企鵝智庫2016年的調查顯示:2015年,有70.2%的用戶比過去更頻繁地用社交應用看新聞,社交平臺逐漸成為網絡新聞的重要閱讀平臺之一,社會化推薦系統(tǒng)在社交平臺的網絡新聞推薦中的作用也將越來越大。
2.4 混合式推薦
混合式推薦,也叫組合推薦,將多種推薦方式結合使用,取長補短,彌補各自推薦技術的弱點,得到最佳推薦結果。組合推薦中應用較多的是內容推薦和協(xié)同過濾推薦的組合,以及協(xié)同過濾中基于記憶推薦和基于模型推薦的組合。
混合式推薦可以分為橫向和縱向組合。橫向組合是將多種推薦系統(tǒng)的推薦結果按照權重組合,提取最佳推薦結果。縱向組合是一種分層過濾方式,將一種推薦方式的推薦結果作為另一種推薦方式的推薦對象,過濾掉匹配度較低的推薦結果,獲取最佳推薦。
3 問題與難點
本文簡單介紹了4種不同的網絡新聞個性化推薦方式,雖然以這些推薦方式為基礎的推薦系統(tǒng)都已經廣泛應用,但它們依舊存在一些問題與難點,無法滿足網絡用戶和網絡新聞的高速增長需求,筆者總結了幾種典型問題。
(1)隱私和安全問題。個性化推薦系統(tǒng)需要利用用戶的使用記錄、興趣偏好等用戶信息,而很多用戶不愿意暴露自己的個人信息,因此推薦系統(tǒng)難以獲取完整的用戶行為和歷史記錄數(shù)據(jù)。再者,由于推薦系統(tǒng)中存在大量用戶的個人信息,一旦泄露和被竊取,極易形成犯罪,危害社會公共安全。
此外,推薦系統(tǒng)也會有推薦攻擊的安全問題,推薦攻擊是指攻擊者惡意制造虛假數(shù)據(jù),通過向推薦系統(tǒng)注入虛假用戶,以使系統(tǒng)的推薦結果產生偏差[9]。
(2)冷啟動問題。所謂冷啟動問題,即新用戶和新對象由于沒有歷史數(shù)據(jù),系統(tǒng)無法提供推薦,這是在協(xié)同過濾推薦中面臨的主要問題[10]。
在網絡新聞的個性化推薦中,新的用戶和最新的新聞加入推薦系統(tǒng)后,由于沒有歷史使用數(shù)據(jù),無法建立相關模型,直到新用戶有一定的使用信息,以及新的新聞有了閱讀、評論、分享等使數(shù)據(jù)時,推薦系統(tǒng)才有可能推薦它。
(3)稀疏性問題。 協(xié)同過濾推薦中也存在稀疏性問題,稀疏性問題是指:在推薦系統(tǒng)中,用戶已經評價的產品相比所有產品總量,數(shù)量要少得多,影響了推薦效果[11]。以網絡新聞推薦為例,海量的網絡新聞中,用戶閱讀、收藏和評價過的新聞十分有限,這就使得用戶-新聞評分矩陣的數(shù)據(jù)極端稀疏,導致用戶和新聞相似性計算結果的準確率比較低,降低了推薦系統(tǒng)的推薦精準度。
(4)擴展性問題。隨著網絡新聞用戶的日益增多,以及網絡新聞數(shù)據(jù)量的飛速增加,推薦系統(tǒng)的規(guī)模不斷擴大,推薦算法的數(shù)據(jù)壓力不斷增大,擴展性問題凸顯。推薦算法的擴展性問題不能得到很好的解決,將直接影響推薦系統(tǒng)的實時性和準確度,成為制約網絡新聞個性化推薦系統(tǒng)性能的技術瓶頸。
4 總結與展望
在互聯(lián)網的迅猛發(fā)展下,隨著信息過載問題的逐漸凸顯,用戶對推薦系統(tǒng)的需求越來越大,網絡新聞的個性化推薦也得到了廣泛的應用,但有很多問題尚待改善。除上文提到的問題有待解決外,筆者也列舉了網絡新聞個性化推薦的一些發(fā)展方向。endprint
(1)優(yōu)化推薦算法,提高推薦的效率和精準度。推薦的核心在于算法,未來需要進一步提高目前推薦算法的性能,探究高性能算法,比如基于上下文感知、基于復雜網絡和圖的理論等推薦方式應得到研究和應用,提高新聞推薦的精準度。
(2)增強用戶交互,提升用戶體驗。通過用戶交互的方式,讓用戶通過自身的體驗主動地調節(jié)和改善推薦系統(tǒng),激發(fā)用戶的參與性。目前已有部分移動新聞平臺開始嘗試這一方式,未來應當?shù)玫竭M一步推廣和優(yōu)化,既能提高推薦結果的準確度,也有助于提升用戶體驗。
(3)移動新聞推薦將是主流方向。隨著移動設備的快速普及和移動互聯(lián)網快速發(fā)展,移動端網絡新聞的閱讀量的占比越來越高,未來,移動新聞推薦將是網絡新聞推薦的主流方向。
參考文獻:
[1] 藺豐奇,劉益.信息過載問題研究述評[J].情報理論與實踐,2007,30(5):710-714.
[2] 王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應用,2012,48(7):66-76.
[3] 許海玲,吳瀟,李曉東,等.互聯(lián)網推薦系統(tǒng)比較研究[J].軟件學報,2009,20(2):350-362.
[4] ADOMAVICIUS G,TUZHILIN A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Transactions on Knowledge & Data Engineering,2005,17(6):734-749.
[5] 陳雅茜,劉韜,方詩虹.推薦系統(tǒng)及其相關技術研究[J].西南民族大學學報:自然科學版,2014,40(3):439-442.
[6] 馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計算機系統(tǒng),2009,30(7):1282-1288.
[7] 劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009,19(1):1-15.
[8] 孟祥武,劉樹棟,張玉潔,等.社會化推薦系統(tǒng)研究[J].軟件學報,2015,26(6):1356-1372.
[9] 余力,董斯維,郭斌.電子商務推薦攻擊研究[J].計算機科學,2007,34(5):134-138.
[10] RESNICK P,VARIAN H R.Recommender systems[J].Communications of the Acm,1997,40(3):56-58.
[11] 代金龍.協(xié)同過濾算法中數(shù)據(jù)稀疏性問題研究[D].重慶:重慶大學,2013.endprint