龔映梅, 侯玉寒, 楊紅娟
(昆明理工大學(xué) 管理與經(jīng)濟學(xué)院, 昆明 650093)
2019年8月30日,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在京發(fā)布第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》。截至2019年6月,中國網(wǎng)民規(guī)模達8.54億,互聯(lián)網(wǎng)普及率為61.2%,較2018年底提升1.6個百分點。并且中國網(wǎng)絡(luò)購物用戶規(guī)模達6.39億,較2018年底增長2 871萬,占網(wǎng)民整體的74.8%。可見互聯(lián)網(wǎng)和大數(shù)據(jù)平臺的影響力巨大,正在使消費者從傳統(tǒng)線下消費轉(zhuǎn)到線上消費。在當(dāng)前市場環(huán)境中,電子商務(wù)企業(yè)僅僅通過優(yōu)化傳統(tǒng)營銷決策變量已經(jīng)很難在競爭中取勝。信息技術(shù)的快速發(fā)展正推動著數(shù)據(jù)運算和存儲能力不斷提升,消費者需求也更加多元化。在此背景下,電子商務(wù)企業(yè)開始利用消費者行為數(shù)據(jù)來尋求提升利潤的新方法。因此,個性化推薦系統(tǒng)的應(yīng)用和研究開始被人們發(fā)現(xiàn)和重視。個性化推薦系統(tǒng)能夠通過關(guān)鍵性技術(shù)和方法將信息進行過濾和篩選,根據(jù)用戶偏好預(yù)測并推薦有用信息,從而緩解由信息過載帶來的成本浪費及其他復(fù)雜問題。
近年來,中外學(xué)者對于個性化推薦系統(tǒng)的研究主要集中在技術(shù)和應(yīng)用兩大方面。個性化推薦算法以及新模型構(gòu)建是推薦技術(shù)的主要研究內(nèi)容,例如對協(xié)同過濾推薦算法的改進,利用智能感知分析用戶行為從而進行個性化推薦,利用用戶畫像特性數(shù)據(jù)集構(gòu)建新推薦算法,對POI算法的研究,基于各種聚類算法的研究等。在大數(shù)據(jù)時代,個性化推薦已被應(yīng)用于很多行業(yè),例如旅游業(yè)、音樂領(lǐng)域、電子商務(wù)行業(yè)、電影業(yè)、新聞業(yè)、農(nóng)業(yè)等。隨著個性化推薦系統(tǒng)的提出,推薦算法或模型的效果檢驗研究也逐漸被重視,通過驗證效果指標(biāo)來檢驗推薦系統(tǒng)性能,進而推動個性化推薦系統(tǒng)發(fā)展。其中,仿真是使用項目模型將特定于某一具體層次的不確定性轉(zhuǎn)化為它們對目標(biāo)影響的一種方法。但是就目前相關(guān)文獻研究來看,個性化推薦系統(tǒng)的仿真研究相對較少。因此,針對現(xiàn)有個性化推薦領(lǐng)域的技術(shù)、應(yīng)用以及仿真研究進行了文獻綜述,并根據(jù)研究結(jié)果提出了未來研究方向的預(yù)測,以期能夠為個性化推薦及仿真領(lǐng)域帶來幫助。
文獻查找過程包括:在以“個性化推薦”為關(guān)鍵詞的數(shù)據(jù)庫檢索中,萬方數(shù)據(jù)庫包括5 386篇,CNKI中包括3 496篇,SCI數(shù)據(jù)庫中包括300篇,維普數(shù)據(jù)庫中2 295篇。其中有很多數(shù)據(jù)庫中的相關(guān)文獻存在重復(fù)情況,因此通過手動檢索,根據(jù)相關(guān)度選取74篇文獻進行參考,其中包含SCI數(shù)據(jù)庫19篇,萬方、維普、中國知網(wǎng)55篇。所有外文文獻均來自SCI數(shù)據(jù)庫,文獻大部分選自CSSCI、EI以及ISTIC。
對于個性化推薦算法和模型,前人研究主要涉及了基于內(nèi)容、協(xié)同過濾、知識、人口統(tǒng)計信息、效用、規(guī)則、二部圖、社交網(wǎng)絡(luò)的推薦算法以及混合推薦算法等。這些研究大多都要涉及模型構(gòu)建,吳麗花等[1]在個性化推薦系統(tǒng)建模技術(shù)研究中提到,個性化推薦系統(tǒng)相較于非個性化推薦系統(tǒng)能夠根據(jù)不同的用戶或群體進行定制推薦,而且對于信息過載問題的緩解,前者也遠遠優(yōu)于后者。因此,個性化推薦系統(tǒng)越來越受到大眾重視。他們將推薦系統(tǒng)用戶建模過程概括為數(shù)據(jù)收集、模型表示、模型學(xué)習(xí)和模型更新4部分,并且基于這些模塊對推薦系統(tǒng)中常用的模型技術(shù)做了總結(jié)。例如向量空間模型、神經(jīng)網(wǎng)絡(luò)表示、用戶-項目評價矩陣、本體模型、聚類技術(shù)、貝葉斯網(wǎng)絡(luò)以及決策樹歸納等,這些都為學(xué)者在推薦領(lǐng)域進行深入建模研究提供了借鑒。
前人研究表明,傳統(tǒng)協(xié)同過濾推薦算法存在新用戶冷啟動、數(shù)據(jù)高度稀疏以及擴展性問題,這些都會導(dǎo)致系統(tǒng)推薦準(zhǔn)確度降低,因此很多學(xué)者利用聚類等技術(shù)對傳統(tǒng)算法進行了改進。常見的聚類技術(shù)包括K-means聚類、MI聚類、模糊聚類以及CURE層次聚類等,它們各有優(yōu)缺點,但本質(zhì)上都是通過不斷分類迭代得到最優(yōu)結(jié)果的過程,有助于緩解推薦中的問題并且提高推薦精確度。如Ajoudanian等[2]提出了一種新的模糊c均值聚類方法,利用最稀疏子圖檢測算法來定義聚類的初始中心,發(fā)揮了模糊邏輯的適應(yīng)性,在精度、召回率和F-measure方面做出了更多進步。
矩陣分解技術(shù)有SVD分解、ASVD分解、概率矩陣分解、貝葉斯概率矩陣分解等。深度學(xué)習(xí)技術(shù)包括循環(huán)神經(jīng)網(wǎng)絡(luò)技術(shù)、卷積神經(jīng)網(wǎng)絡(luò)技術(shù)、受限玻爾茲曼機、深度信念網(wǎng)絡(luò)技術(shù)以及自編碼器等。例如,Zou等[3]運用貝葉斯個性化排序矩陣分解(BPR-MF)中的成對學(xué)習(xí)抽樣策略,將顯式反饋引入評分感知框架。然后在潛在因素模型理論基礎(chǔ)上,把潛在因素、偏好因素以及屬性因素融合進用戶評分矩陣,緩解了冷啟動問題。He等[4]為了改進基于用戶評分矩陣的推薦過程,將貝葉斯網(wǎng)絡(luò)與神經(jīng)網(wǎng)絡(luò)結(jié)合,提出了一種新的貝葉斯雙神經(jīng)網(wǎng)絡(luò)框架,兩個神經(jīng)網(wǎng)絡(luò),一個是從評價矩陣中學(xué)習(xí)用戶和物品的共同低維空間,另一個是將用戶和物品的屬性投射到另一個共享潛在空間。然后將兩個輸出結(jié)合起來,得到最終預(yù)測結(jié)果。Batmaz等[5]提到用戶對項目評分時可能會有不同標(biāo)準(zhǔn),而深度學(xué)習(xí)技術(shù)可以較好地提取用戶與條目之間的非線性關(guān)系,因此,為了在多準(zhǔn)則偏好下非線性地表示用戶關(guān)系,提出了一種新的基于自編碼的多準(zhǔn)則協(xié)同過濾算法,提高了推薦準(zhǔn)確性。
數(shù)據(jù)挖掘技術(shù)中的遺傳算法、Apriori算法、ART算法等也可以改善傳統(tǒng)算法的問題,Duma等[6]提出了一種基于遺傳算法(NNAISGA)的最近鄰人工免疫系統(tǒng),可通過快速輸入數(shù)據(jù)彌補數(shù)據(jù)稀疏問題。除了利用關(guān)鍵技術(shù)緩解問題外,有學(xué)者針對特定情況提出了解決辦法,如呂苗等[7]將情境重要度權(quán)重引入?yún)f(xié)同過濾算法,并且通過選擇預(yù)測評分精度最高的修正預(yù)測評價函數(shù)初步預(yù)測缺失商品評分值。Zhou等[8]提出了一種新型協(xié)同成對學(xué)習(xí)排序法,即BPLR,將項目分割成積極反饋、潛在反饋和負反饋,旨在從隱式反饋中提高個性化排序性能。Liu等[9]針對個性化服務(wù)推薦中某些客戶數(shù)據(jù)偏少問題提出了一種混合MPA-GSO-DNN模型來解決服務(wù)組合的個性化推薦問題,實驗證明比起單一服務(wù)推薦,該方法更有效。Huang等[10]提到現(xiàn)有的CF研究大多集中在離線算法上,這些算法的一個主要缺點是缺乏利用最新用戶反饋實時更新學(xué)習(xí)模型的能力,在互聯(lián)網(wǎng)時代,在線推薦算法研究不可或缺,因此他們提出基于層次生成模型,推導(dǎo)出預(yù)測目標(biāo)的一組局部和全局一致性約束,最終得到學(xué)習(xí)算法設(shè)計。實驗證明,該方法能夠在在線環(huán)境下提供推薦,并且執(zhí)行速度要快幾十甚至幾百倍。
相似度計算是很多推薦算法的關(guān)鍵步驟,很多學(xué)者會從相似度切入進行算法改進。大多數(shù)相似度度量方法都可以在聯(lián)合評價項的基礎(chǔ)上快速計算,但是在稀疏數(shù)據(jù)集情況下,它們的預(yù)測精度并不令人滿意。雖然充分利用所有評級信息可以有效提高推薦質(zhì)量,但由于所有評級都需要計算,這就降低了系統(tǒng)效率。傳統(tǒng)相似度計算方法包括歐式距離相似度、salton相似度、余弦相似度、皮爾遜相關(guān)系數(shù)、貼進度法等。還有在此基礎(chǔ)上為消除用戶評分主觀性提出的修正余弦相似性、約束Pearson相關(guān)系數(shù)等??紤]到上述方法的偏差,還可以將幾種相似度進行融合,如Guo等[11]等設(shè)計了一種混合商品相似度模型,在預(yù)測精度和效率之間權(quán)衡。既引入了谷歌相似度又采用了基于直覺模糊集的Kullback-Leibler (KL)相似度算法,保證了質(zhì)量和效率同在。
在進行個性化推薦時可能會面臨特殊情況,如移動數(shù)據(jù)推薦的處理、用戶興趣衰減或漂移問題以及跨領(lǐng)域推薦等。多Agent技術(shù)具有終端自適應(yīng)特征,可以很好地處理多終端或者數(shù)據(jù)移動問題。例如,危世民,戴牡紅[12]提出的多Agent協(xié)同電子商務(wù)推薦系統(tǒng)就改善了多終端情況下的推薦效率。李桃迎等[13]認為原Slope One算法沒有考慮用戶興趣變化,由于人的興趣變化符合艾賓浩斯遺忘曲線,因此在原有算法的基礎(chǔ)上加入了用戶興趣遺忘函數(shù),這也是改進后的Weighted Slope One算法的特點之一。用戶遺忘函數(shù)可以用指數(shù)函數(shù)等代替??珙I(lǐng)域推薦時,通過知識轉(zhuǎn)移可以將相關(guān)領(lǐng)域聯(lián)系起來,從而實現(xiàn)跨領(lǐng)域推薦。Huang等[14]提出了一種新的低秩稀疏跨域推薦算法。為了彌補傳統(tǒng)算法假定所有領(lǐng)域相關(guān)的不可實現(xiàn)性,通過區(qū)分不同域的特征來提高不相關(guān)域的推薦性能。Yu等[15]認為大多數(shù)推薦系統(tǒng)只利用來自用戶或項目側(cè)輔助域的信息。因此他們提出了一種利用輔助域的潛在因子空間擴展用戶和項特征的跨域協(xié)同過濾算法并通過實驗證明了該方案下系統(tǒng)性能指標(biāo)的優(yōu)越性。此外,在國外學(xué)者研究中還有一個比較新穎的方向,就是將人格特征與個性化推薦系統(tǒng)融合,然后預(yù)測消費者的購買行為。例如Baik等[16]通過分析用戶在社交網(wǎng)絡(luò)服務(wù)中的行為,為每個用戶自動構(gòu)建了用戶性格特征預(yù)測模型。他們驗證了公眾自我意識、獨特性、欲望和自尊四種人格特征的影響,并通過實驗證明該預(yù)測模型的確能夠更準(zhǔn)確地了解用戶。
在各行業(yè)的個性化推薦應(yīng)用中,電子商務(wù)行業(yè)的推薦相對更為成熟,也是學(xué)者們研究比較偏重的方向。下文對幾個重要應(yīng)用領(lǐng)域的個性化推薦研究相關(guān)文獻做了梳理。
孫雨生等[17-18]先是從電子商務(wù)個性化推薦的內(nèi)涵、內(nèi)容、框架等方向研究了電子商務(wù)個性化推薦在模型、應(yīng)用以及技術(shù)方面的進展。隨后,他們又接著從用戶的興趣建模、推薦機制及信息資源管理3方面做了闡述,總結(jié)了目前電子商務(wù)個性化推薦核心技術(shù)的發(fā)展趨勢。隨著移動通信設(shè)備的興起,移動電子商務(wù)也在不斷發(fā)展。因此,電子商務(wù)個性化推薦要順應(yīng)移動環(huán)境的變化。杜巍等[19]將情景因素加入推薦系統(tǒng),利用情景要素和項目推薦解決了移動電商環(huán)境下的個性化推薦問題。而黃逸珺等[20]則是以淘寶電商為例,從用戶自身感受的角度去考察了電商領(lǐng)域內(nèi)個性化推薦系統(tǒng)的應(yīng)用效果,利用情景訪談方式使用戶情感獲取更為真實,最后通過感知有用性、易用性、舒適安全性等效果指標(biāo)得出結(jié)論并提出了針對性建議。
情景因素是學(xué)者們經(jīng)常用來改進算法性能的工具,在旅游推薦方面也不例外。張亞明等[21]在研究移動情景下的旅游推薦時提到,可以將情景因素進行分類然后加入到推薦系統(tǒng)中,將五類用戶的情景信息進行分類并表示,在本體論基礎(chǔ)上構(gòu)建一個用戶情景興趣模型,利用云計算、Hadoop等分布式技術(shù)進行性能試驗,證明了系統(tǒng)可行性。住處舒適度一直是旅客比較關(guān)注的點,由于互聯(lián)網(wǎng)的發(fā)展,旅游業(yè)的線上房型推薦也趨于普遍,但傳統(tǒng)算法的問題仍亟待解決。黃金超等[22]對傳統(tǒng)基于內(nèi)容的推薦算法做了改進,在原來算法的基礎(chǔ)上,從用戶歷史信息和待推薦物品特征間的潛在關(guān)系角度出發(fā)進行推薦,減少了決策時間,提高了用戶滿意度。Ravi等[23]提出了一種新的基于位置的混合旅游推薦系統(tǒng),該系統(tǒng)利用了基于集合的協(xié)同訓(xùn)練方法和群智能算法,并且研究表明該系統(tǒng)在實景中具有良好的推薦效果。
丁永剛等[24]將學(xué)習(xí)者的社交網(wǎng)絡(luò)與傳統(tǒng)協(xié)同過濾算法結(jié)合,緩解了數(shù)據(jù)稀疏問題,很好地提高了推薦準(zhǔn)確度。在進行個性化推薦時,很多學(xué)者都提到了粒子群推薦算法,并且針對該算法的問題進行了優(yōu)化,李浩君等[25]認為基于二進制粒子群算法構(gòu)建的資源推薦模型并沒有很好地考慮到學(xué)習(xí)者和學(xué)習(xí)資源各自的特征,而且數(shù)據(jù)預(yù)測難度較大,因此他們提出將多維特征差異和協(xié)同過濾與粒子群算法結(jié)合,以此來滿足學(xué)習(xí)資源推薦的需要。在學(xué)習(xí)資源推薦研究中,最普遍的是對圖書館圖書推薦的研究,面對用戶興趣偏好漂移。劉海鷗等[26]針對多情境下用戶興趣變化特征提出了將蟻群算法與層次聚類技術(shù)結(jié)合共同進行圖書推薦的方法,該方法還同時緩解了數(shù)據(jù)稀疏問題。
在用戶打開一些電影播放軟件時,通過推送可以更快更準(zhǔn)確地找到自己所需要的電影。在電影個性化推薦方面,用戶評論很關(guān)鍵,人們熟知的豆瓣等網(wǎng)站都是用戶經(jīng)常使用的評論和推薦網(wǎng)站,影評也不例外。從評論中能夠獲取用戶的情感傾向,通過構(gòu)建影評的本體知識庫提取情感詞,來建立情感分析推薦模型。姜霖等[27]利用豆瓣影評對此模型進行了實驗,證明了推薦結(jié)果在合理性上的進步。袁仁進等[28]利用向量空間模型和聚類兩種方法對新聞個性化推薦系統(tǒng)做了改進,用向量空間模型將新聞的內(nèi)容進行量化,便于之后聚類分層,構(gòu)建用戶-新聞類別-新聞三層次興趣模型,改善了用戶新聞閱讀體驗。
通過查閱萬方數(shù)據(jù)庫、維普數(shù)據(jù)庫以及SCI數(shù)據(jù)庫等,發(fā)現(xiàn)前人學(xué)者對農(nóng)產(chǎn)品個性化推薦研究較少。傳統(tǒng)協(xié)同過濾推薦算法的問題具體到農(nóng)產(chǎn)品個性化推薦仍然存在,因此很多學(xué)者對此展開了針對性研究。鄭云飛等[29]為了緩解數(shù)據(jù)稀疏性問題,在傳統(tǒng)算法中加入了激勵評分機制,提高了用戶評分積極性,從而獲得更多有用數(shù)據(jù),更準(zhǔn)確地進行農(nóng)產(chǎn)品推薦。許貝貝等[30]利用用戶相似度與內(nèi)容相似度構(gòu)建了新的算法模型。由于相似用戶之間的興趣偏好一般也會接近,因此當(dāng)面臨新用戶時,可以通過分析與其相似的用戶偏好進行推薦,緩解了冷啟動問題。而內(nèi)容相似度方面,學(xué)者們通過時間評分、最近鄰、逆向最大匹配等一系列矩陣模塊,豐富了內(nèi)容向量模型,緩解了數(shù)據(jù)稀疏問題。裘進等[31]也是利用了基于內(nèi)容的協(xié)同過濾改進思想,提出了一種基于物品的協(xié)同過濾改進算法。Zhu等[32]強調(diào)了計算機算法在農(nóng)產(chǎn)品電商推薦中的重要性,構(gòu)建了農(nóng)產(chǎn)品特征模型和推薦算法,根據(jù)農(nóng)產(chǎn)品特點,對傳統(tǒng)的產(chǎn)品推薦流程進行優(yōu)化,提高了推薦準(zhǔn)確性。Li等[33]研究了Hadoop-based農(nóng)產(chǎn)品電子商務(wù)推薦系統(tǒng)平臺,指出Hadoop不僅可以解決大規(guī)模數(shù)據(jù)的存儲問題,而且能夠快速通過分布式計算分析用戶行為數(shù)據(jù)從而發(fā)現(xiàn)用戶興趣,實現(xiàn)目標(biāo)用戶的精準(zhǔn)營銷。也有學(xué)者通過利用聚類等思想改進協(xié)同過濾算法來實現(xiàn)推薦精確度的提高。例如,Xie等[34]針對經(jīng)典Apriori算法的不足,提出了一種新的加權(quán)模糊關(guān)聯(lián)規(guī)則挖掘算法,以保證頻繁項集的向下閉合。
再者,有學(xué)者對農(nóng)業(yè)信息服務(wù)方面的個性化推薦進行了探討。陳亞慧等[35]同時利用分類算法和個性化推薦算法,提出了一種針對農(nóng)產(chǎn)品移動信息的個性化推薦算法,該算法利用決策樹進行了農(nóng)產(chǎn)品分類,之后再利用協(xié)同過濾算法,查找興趣用戶,完成個性化推薦。吳達勝等[36]對大數(shù)據(jù)背景下“三農(nóng)”信息推送做了研究,由于了解這部分信息的一方為農(nóng)民,而農(nóng)產(chǎn)品銷售過程容易出現(xiàn)信息不對稱現(xiàn)象,因此為了更好地服務(wù)于農(nóng)產(chǎn)品生產(chǎn)者,構(gòu)建了“三農(nóng)”個性化服務(wù)平臺,保證為農(nóng)產(chǎn)品生產(chǎn)者及時地推薦有用信息。還有學(xué)者對具體到某一類農(nóng)產(chǎn)品的個性化推薦做了研究。吳國棟等[37]認為前人在研究茶產(chǎn)品的個性化推薦時并沒有將農(nóng)產(chǎn)品特征考慮進去,并且傳統(tǒng)的推薦算法本身也存在一系列問題,因此,他們提出將評分與產(chǎn)品類別結(jié)合起來進行推薦,該方法的確提高了茶產(chǎn)品的推薦精確度。
就目前能夠查閱到的文獻來看,前人學(xué)者對這部分的研究著重點主要在兩方面,一是改進傳統(tǒng)推薦算法的仿真研究,二是對個性化推薦具體應(yīng)用的仿真研究。
3.1.1 基于用戶多興趣與興趣漂移改進的算法仿真
余力等[38]指出傳統(tǒng)協(xié)同過濾推薦算法在面臨用戶多興趣情況時,并不能很好地完成推薦,因此提出融合運用基于項目和用戶的協(xié)同過濾推薦算法,先將項目進行相似度過濾,再基于用戶進行過濾推薦,研究利用EachMovie數(shù)據(jù)庫進行了仿真實驗,試驗表明該方法確實提高了推薦準(zhǔn)確率。楊芳等[39]提出了一種用戶多興趣下的改進算法,將聚類思想與仿真實驗結(jié)合,驗證了算法有效性。前人研究表明用戶興趣會隨時間推移而變化。胡偉健等[40]引入了一種增強的時間衰減模型,將其與改進后的歐氏距離相似度度量方法結(jié)合,保證了推薦時效性,并在不同數(shù)據(jù)集中進行了仿真測算,實驗證明該方法提高了推薦準(zhǔn)確度。王志虎等[41]根據(jù)用戶的歷史行為,將用戶興趣偏好進行初步分類,然后在每一個測算出用戶偏好的項目上加上相應(yīng)標(biāo)簽,最后計算項目相似度完成推薦,這種改進方法經(jīng)仿真實驗表明提高了推薦準(zhǔn)確度,也緩解了數(shù)據(jù)稀疏等問題。張世顯等[42]指出在計算用戶相似度和評分推薦指標(biāo)時,傳統(tǒng)協(xié)同過濾算法存在很多欠缺,利用決策樹策略和時間模型修正相似度計算方法,前者能夠提高相似度計算準(zhǔn)確性,后者則能夠避免遺漏用戶興趣變化情況。Song等[43]認為目前很多多元化戰(zhàn)略都在一個單一模式下運作,這也可能會導(dǎo)致忽略消費者偏好變化,使用了一個多類別實用程序模型,消費者對不同類別內(nèi)容的偏好、一個類別的滿意程度和希望用另一個類別替代它的速度,以及消費者如何發(fā)現(xiàn)新內(nèi)容推薦列表這些要素都能夠通過該模型獲得。使用了clickstream數(shù)據(jù)集進行了仿真,實驗表明該方法產(chǎn)生的建議平均比優(yōu)化方案準(zhǔn)確10%左右,比使用現(xiàn)有多樣化方案準(zhǔn)確25%左右。
3.1.2 加入信任因素的仿真改進
肖曉麗等[44]將用戶進行聚類,然后利用社交網(wǎng)絡(luò)中的信任關(guān)系創(chuàng)建相似度較高的鄰居集合,這種既利用用戶興趣又利用社交網(wǎng)絡(luò)進行過濾比單純用一種方法進行過濾在推薦精確度更上了一層。那么,在利用社交網(wǎng)絡(luò)進行個性化推薦時,對于如何使該方法效果更好。陸坤等[45]提出了一種融合隱式信任的協(xié)同過濾推薦算法,指出這種潛在信任關(guān)系既包含了用戶本身活躍度也反映了用戶間的喜好差異,經(jīng)數(shù)據(jù)集仿真實驗表明,該方法優(yōu)于傳統(tǒng)算法。廖列法等[46]利用隱式反饋數(shù)據(jù)提出了一種結(jié)合信任與相似度的排序模型,這種模型先通過受信度與相似度將新用戶融入原本的信任網(wǎng)絡(luò),然后再進行修正和模型重構(gòu),緩解了冷啟動問題,提高了推薦效率和準(zhǔn)確度。
3.1.3 加入情境因素的仿真改進
個性化推薦算法如果從數(shù)據(jù)形式上分類,可分為顯式反饋和隱式反饋數(shù)據(jù),隱式反饋數(shù)據(jù)如果能夠被很好地利用和挖掘,將會為個性化推薦做出不小的貢獻。在分析情境因素對個性化推薦算法的影響時,金淳等[47]通過分析移動商務(wù)環(huán)境下的推薦系統(tǒng),提出了一種基于Agent的顧客行為及個性化推薦仿真模型,通過仿真實驗證明考慮情境因素確實會提高推薦精確度。張佳琳[48]認為情境因素的加入能夠緩解傳統(tǒng)算法中的信息共享度低和資源不足等問題,提出多場景融合的分布式推薦模型,將客戶需求與服務(wù)場景進行雙向刻畫然后完成推薦,該模型在消費娛樂領(lǐng)域具有更高性價比。蔡海尼等[49]也在其提出的基于情境相似度和二次聚類的協(xié)同過濾推薦算法中強調(diào)了情境因素的重要性,通過數(shù)據(jù)集仿真實驗驗證了算法有效性。
3.1.4 其他
梅創(chuàng)社等[50]提出了一種改進的入侵野草優(yōu)化算法,針對傳統(tǒng)野草算法中的問題加入混合遺傳算法,利用計算機仿真證明了算法優(yōu)越性。高長元等[51]將CURE算法進行了改進,將原算法中數(shù)據(jù)處理部分改為用Map Reduce函數(shù)進行處理,在MIT Reality數(shù)據(jù)集上利用MATLAB進行仿真,得到的數(shù)據(jù)聚類效率和準(zhǔn)確率的確有所提高,為個性化推薦發(fā)展提供了數(shù)據(jù)處理支持。章訊等[52]提出了一種基于連通性的局部隨機游走重啟動模型來改進原來推薦技術(shù)中偏離目標(biāo)以及計算開銷大等問題。張強等[53]提出了一種MI聚類方法對傳統(tǒng)協(xié)同過濾算法進行了改進,經(jīng)仿真實驗表明該算法的準(zhǔn)確率和召回率要優(yōu)于傳統(tǒng)算法。上下文感知推薦系統(tǒng)通過添加上下文信息來觀察用戶對上下文的不同偏好,從而做出推薦,但是在傳統(tǒng)上下文感知算法中,所有上下文功能都賦予了相同權(quán)重,對此Li等[54]提出了一種基于改進隨機森林算法的多維上下文感知推薦方法。具體改進是從多個按特征重要性分類的特征子空間中隨機選擇特征,這能夠分解和減少用戶、項目、上下文的上下文特征維度。文獻中用LDOS-Comoda數(shù)據(jù)集和循環(huán)共享數(shù)據(jù)集進行了仿真,證明該方法能使兩組數(shù)據(jù)的平均絕對誤差和均方根誤差分別降低2%~16%和2%~13%。
3.2.1 學(xué)習(xí)資源推薦仿真
很多學(xué)者以圖書館為例進行了個性化推薦仿真研究。陳康[55]針對圖書館推薦提出了一種基于Eclat算法的系統(tǒng)仿真實驗,新算法利用了垂直數(shù)據(jù)表示和交叉計數(shù)優(yōu)勢,仿真結(jié)果證明了算法有效性。聶曉等[56]利用某高校數(shù)據(jù)庫作為仿真實驗研究對象,將改進ART算法應(yīng)用于數(shù)據(jù)庫知識自動推薦,發(fā)現(xiàn)該方法消耗資源較少并且效率較高。除了圖書館個性化推薦外。趙慧勤等[57]對泛在學(xué)習(xí)環(huán)境下的個人學(xué)習(xí)空間提出了一種基于情境感知的推薦模型,該模型采用了基于信息元組合的協(xié)同過濾推薦策略,并構(gòu)建基于Android的個性化學(xué)習(xí)空間推薦系統(tǒng)原型進行了仿真探究,該探究提高了學(xué)習(xí)者學(xué)習(xí)效率并推動了智慧學(xué)習(xí)空間的深入研究。黃鶴[58]針對線上教育極速發(fā)展帶來的海量學(xué)習(xí)資源推薦問題提出了一種基于 Mahout 的協(xié)同過濾算法,研究應(yīng)用在KDD2010比賽中,結(jié)合教育數(shù)據(jù)挖掘,利用Apache Mahout的Taste 組件等仿真教育數(shù)據(jù),實驗表明效果預(yù)測良好。樊凌等[59]針對MOOCs中采用傳統(tǒng)聚類方法造成的大數(shù)據(jù)聚類不準(zhǔn)確問題,利用非線性時間序列將相似度參數(shù)對與大數(shù)據(jù)聚類結(jié)合進行最優(yōu)聚類,仿真實驗表明該方法聚類精度較高。此外,解敏[60]也提出了一種分聚類的圖書館移動信息資源面向用戶推薦優(yōu)化方法,以上方法經(jīng)仿真實驗證明,在圖書推薦過程中都能取得良好效果。
3.2.2 網(wǎng)絡(luò)資源推薦仿真
網(wǎng)絡(luò)資源包括網(wǎng)絡(luò)服務(wù)資源、云平臺環(huán)境等。張靖[61]對網(wǎng)絡(luò)個性化服務(wù)資源的推薦模型進行了MATLAB計算機仿真研究,具體模型是用戶興趣和資源描述模型,仿真表明該模型切實可行。Web服務(wù)的個性化推薦是推薦系統(tǒng)在網(wǎng)絡(luò)服務(wù)環(huán)節(jié)的重要應(yīng)用之一,其中,服務(wù)質(zhì)量是一個關(guān)鍵點。江曉蘇等[62]針對提出的服務(wù)選擇函數(shù)進行了仿真研究,而用戶感知延時是影響服務(wù)質(zhì)量的因素。葉海琴等[63]對此提出了一種新的混合階Markov模型來減小用戶感知延時從而提高個性化推薦效率。目前,云服務(wù)提供商將越來越多的資源匯集起來然后發(fā)布到網(wǎng)絡(luò),使得云中海量資源庫越來越龐大,想要從中尋找符合自己需求的資源也越來越復(fù)雜。馬華等[64]提出了一種面向可信云服務(wù)的個性化推薦框架并通過實驗仿真證明了該框架在云環(huán)境下的可行性。這種基于云平臺的個性化推薦方法,應(yīng)用于其他領(lǐng)域也能夠為數(shù)據(jù)處理帶來優(yōu)化效果,在原本單種因素協(xié)同過濾推薦算法基礎(chǔ)上,加入云平臺算法進行改進,能夠更大幅度提高推薦精度。羅娜[65]針對云平臺與協(xié)同過濾算法提出了一種近鄰項目最優(yōu)臨界點優(yōu)化思路,通過優(yōu)化多個近鄰用戶和項目提高了推薦精度。
3.2.3 電子商務(wù)推薦仿真
韓建妙等[66]針對超市中商品種類復(fù)雜問題,研究了如何使人們花費更少時間行走最短的路線來完成自己的購物需求,該研究針對遺傳算法構(gòu)建的超市最短導(dǎo)購路徑進行了MATLAB計算機仿真實驗。鄭丹等[67]對林業(yè)產(chǎn)品個性化推薦做了仿真研究,提出一種weighted slope one用戶聚類推薦算法以解決評分矩陣高維稀疏問題,在大數(shù)據(jù)Mahout平臺進行了實際推薦。李聰?shù)萚68]提到在B2C電子商務(wù)網(wǎng)站上進行數(shù)據(jù)采集和分析時,傳統(tǒng)方法會造成時間跨度大而數(shù)據(jù)失效問題,如果能夠從多方面采集數(shù)據(jù),那么將會大大緩解這個問題并提高推薦精度,對4種智能Agent、3條排序規(guī)則以及7類用戶興趣數(shù)據(jù)進行了仿真實驗研究。在進行商品推薦時,利用隱式反饋能夠挖掘用戶潛在信息及其社交網(wǎng)絡(luò)信息。周巧扣等[69]針對隱式反饋數(shù)據(jù)中用戶購買商品的次數(shù)和時間在數(shù)據(jù)集上進行了多種隱式反饋數(shù)據(jù)仿真研究,進一步提高了推薦算法性能。
3.2.4 新聞業(yè)、雷達情報分發(fā)以及股票和手機應(yīng)用推薦仿真
張瑞華等[70]在北京晚報、新京報和京華時報3種報紙上對他們所提出的改進K-近鄰分類器個性化推薦算法進行了仿真測試,結(jié)果表明該模型推薦正確率可以達到70%。利用個性化推薦技術(shù)可以將情報進行過濾然后得到所需情報信息。余苗等[71]提出的TF-IDF算法和王相平等[72]提出的聚類技術(shù)都能夠?qū)崿F(xiàn)情報的個性化推薦,并且都在數(shù)據(jù)集上進行了仿真實驗證明了算法有效性。茅斯佳等[73]針對基金經(jīng)理為投資者進行股票個性化推薦問題做了仿真研究,提出了一種基于高階奇異分解的個性化股票推薦算法,對真實股票交易做了仿真實驗。現(xiàn)在智能手機發(fā)展迅速,涌現(xiàn)出了眾多手機應(yīng)用程序,對于移動應(yīng)用程序推薦服務(wù)方面,學(xué)者們研究較少,作為一個新穎的研究方向。Xu等[74]針對移動應(yīng)用程序中的用戶信任行為推薦和隱私保護問題提出了兩種基于信任評估的隱私保護移動應(yīng)用推薦方案。在方案中他們使用了安全協(xié)議和同態(tài)加密來保護用戶隱私數(shù)據(jù),與此同時,他們開發(fā)了兩個可應(yīng)用于不同場景的移動應(yīng)用程序,即集中式云服務(wù)和分布式社交網(wǎng)絡(luò)。經(jīng)仿真實驗表明,該方案具有良好的安全性、高效性、準(zhǔn)確性和魯棒性。
總結(jié)了國內(nèi)外有關(guān)個性化推薦系統(tǒng)的文獻研究,從個性化推薦系統(tǒng)的技術(shù)、應(yīng)用、仿真研究3方面進行了梳理。在總體技術(shù)與應(yīng)用方面,除了最基本的推薦算法以外,大多數(shù)學(xué)者都是在傳統(tǒng)算法基礎(chǔ)上做出了改進,來應(yīng)對在具體領(lǐng)域或者特定情況下的問題。個性化推薦發(fā)展到今天,從最初的電子郵件推薦擴展到了今天的電子商務(wù)、電影、學(xué)習(xí)資源、音樂、新聞娛樂以及旅游等行業(yè),此外,個性化推薦研究也逐漸開始應(yīng)用于一些鮮有人研究的領(lǐng)域,比如文化遺產(chǎn)、移動應(yīng)用程序、電視節(jié)目的個性化推薦等。應(yīng)用聚類技術(shù)、矩陣分解技術(shù)、深度學(xué)習(xí)技術(shù)等方法,從用戶、內(nèi)容、情境、社交網(wǎng)絡(luò)(信任關(guān)系)、相似度、興趣點等角度出發(fā)緩解冷啟動、數(shù)據(jù)稀疏及擴展性等問題,比如有學(xué)者通過融合多種相似度或者利用貝葉斯矩陣分解來改善數(shù)據(jù)稀疏問題等。
在個性化推薦仿真方面,算法改進仿真主要包括融合多種算法的仿真研究,通過引入函數(shù)解決用戶興趣變化的仿真研究,利用聚類或修正相似度改進算法的仿真研究,以及引入情境、信任等因素的推薦仿真研究等。而在應(yīng)用仿真方面,學(xué)習(xí)資源與電子商務(wù)推薦的仿真研究相對較多,旅游業(yè)以及其他有關(guān)國計民生的領(lǐng)域相對較少,比如農(nóng)產(chǎn)品領(lǐng)域等。將仿真與個性化推薦結(jié)合對推動個性化推薦研究的發(fā)展具有重要意義,而通過以往文獻來看,這方面的研究總體還是較少,因此本文根據(jù)梳理文獻所得到的個性化推薦仿真研究現(xiàn)狀一定程度揭示了下一步的研究方向,希望能夠為個性化推薦與仿真及營銷領(lǐng)域帶來借鑒。
區(qū)塊鏈?zhǔn)钱?dāng)前一大熱點問題,習(xí)近平主席在中央政治局第十八次集體學(xué)習(xí)時提到要把區(qū)塊鏈作為核心技術(shù)自主創(chuàng)新重要突破口,而區(qū)塊鏈技術(shù)中的點對點組網(wǎng)技術(shù)、時間戳技術(shù)、非對稱加密技術(shù)等都能夠?qū)€性化推薦過程中的數(shù)據(jù)采集及挖掘、數(shù)據(jù)保護、數(shù)據(jù)保存、用戶隱私保護問題提供幫助,從而有利于個性化推薦仿真過程的開展,將區(qū)塊鏈與仿真結(jié)合共同構(gòu)建系統(tǒng),模擬真實推薦場景,將會成為個性化推薦領(lǐng)域研究的創(chuàng)新點。
目前,由于移動通信設(shè)備和互聯(lián)網(wǎng)行業(yè)的蓬勃發(fā)展,移動數(shù)據(jù)充斥著我們的生活,現(xiàn)在不僅可以通過移動手機瀏覽新聞、隨時隨地購物以及訂閱酒店等,而且旅游業(yè)和餐飲業(yè)都開始發(fā)展移動業(yè)務(wù),比如移動餐廳等。此時,人們所處的具體環(huán)境對所偏好的推薦影響尤為重要,如果可以利用仿真實時模擬真實推薦環(huán)境,將實時變動的各類因素加入仿真模擬中,就能實現(xiàn)有效利用移動信息技術(shù)及大數(shù)據(jù)挖掘技術(shù)開展符合顧客需求的精準(zhǔn)實時推薦。
首先,通過梳理國內(nèi)外農(nóng)產(chǎn)品個性化推薦的相關(guān)文獻,發(fā)現(xiàn)在利用用戶相似度對農(nóng)產(chǎn)品進行推薦時,目前學(xué)者們?nèi)匀恢辉陉P(guān)注用戶本身的相似度或者內(nèi)容的相似度,很少考慮農(nóng)產(chǎn)品本身的特點,而且對農(nóng)產(chǎn)品進行個性化推薦仿真的研究極少,為了避免單一考慮相似度造成數(shù)據(jù)稀疏等問題,以及考慮到對于農(nóng)產(chǎn)品來說,用戶對其質(zhì)量安全的要求比起其他產(chǎn)品要更高的特點,提高用戶對于推薦的信任度很關(guān)鍵,將社交網(wǎng)絡(luò)中的信任關(guān)系加入用戶相似度計算并進行仿真模擬,通過仿真實驗?zāi)芨玫赜^察用戶信任相似度對整個推薦過程的影響。
其次,情境感知也是改進個性化推薦算法以及彌補傳統(tǒng)算法不足的重要角度。而且將情境中包括的天氣、時間、地點、季節(jié)、地域特征、物流條件等因素在推薦系統(tǒng)中進行仿真訓(xùn)練與實驗,更能直觀地反映推薦效果。但在農(nóng)產(chǎn)品個性化推薦的相關(guān)研究中很少提到情境因素的影響,對于農(nóng)產(chǎn)品來說,情境因素會影響用戶對農(nóng)產(chǎn)品的選擇,因此可以嘗試將情境因素加入農(nóng)產(chǎn)品個性化推薦系統(tǒng)中進行仿真建模研究或者仿真實驗觀察,有望促進農(nóng)產(chǎn)品銷售難及農(nóng)產(chǎn)品供需信息不對稱等有關(guān)國計民生重要問題的有效解決。