蔡清
(平頂山學(xué)院 藝術(shù)設(shè)計學(xué)院,河南 平頂山 467000)
截至2018年12月,森林旅游呈現(xiàn)出蓬勃發(fā)展的態(tài)勢,其倡導(dǎo)綠色健康理念[1]并且在減緩高血壓[2]、抑郁癥[3]、糖尿病[4]、調(diào)節(jié)情緒[5]等方面所具有一定的功效。因此,針對不同用戶需求進行個性化的森林旅游景點定制化服務(wù)成為了旅游行業(yè)(特別是在線旅游網(wǎng)站)的新興熱點和贏利點。推薦系統(tǒng)可以通過分析用戶的歷史行為數(shù)據(jù)來對其下一步的行為進行預(yù)測,進而達(dá)到提供個性化服務(wù)的目的[6-7]。推薦系統(tǒng)已被廣泛應(yīng)用于各種類型的互聯(lián)網(wǎng)服務(wù)中,如淘寶的商品推薦、騰訊視頻的影視推薦等[8-9]。關(guān)于旅游景點推薦的研究,國內(nèi)外已有相當(dāng)豐碩的研究成果。國內(nèi)學(xué)者分別從內(nèi)容的推薦[10]、知識的推薦[11]、域適應(yīng)的推薦[12]、位置感知的推薦[13]、人口統(tǒng)計的推薦[14]、協(xié)同過濾的推薦[15]及組合推薦[16]等角度對個性化旅游推薦方法進行了研究。國外學(xué)者則從融合地理圖片信息[17]、社交網(wǎng)絡(luò)數(shù)據(jù)[18]等角度對個性化旅游景點推薦方法進行了深入的研究。但是上述方法在定制個性化旅游方案時,并未考慮對備選景點的旅游熱度進行預(yù)測分析,往往導(dǎo)致推薦結(jié)果缺少個性化、實時性的特點[19]。因此,運用隱特征分析模型和旅游景點熱度分析模型相融合的個性化森林旅游景點推薦方法,不僅為游客提供一份專屬的個性化森林旅游景點推薦列表,而且在推薦準(zhǔn)確度方面有明顯的提升。
數(shù)據(jù)選取自雅虎旗下的圖片分享網(wǎng)站Flickr(https://www.flickr.com/)。Flickr是一家專注于提供免費/付費服務(wù)的數(shù)碼照片存儲、分享方案網(wǎng)上服務(wù),以及提供社群服務(wù)的互聯(lián)網(wǎng)平臺。在Flickr網(wǎng)站上,每張圖片中都會包含標(biāo)題、圖片介紹、用戶ID、上傳時間和Geo信息等內(nèi)容。因此,常被用來作為個性化旅游景點推薦、圖片識別、旅游線路規(guī)劃等研究的數(shù)據(jù)源。
研究設(shè)計了融合旅游景點熱度分析模型和隱特征分析模型的個性化森林旅游景點推薦框架(圖1)。該框架通過對用戶旅游偏好數(shù)據(jù)和旅游景點的訪問量進行分析,預(yù)測用戶對未去森林旅游景點感興趣程度,對下一個可能要去的森林旅游景點做出實時推薦。
圖 1 個性化森林旅游景點推薦框架圖Figure 1 Framework of personalized forest tourist attractions recommendation
1.2.1 隱特征分析模型
⑴
式中Rk表示測試集;λ為防止模型過擬合的正則化參數(shù),具體的求解過程可參考文獻(xiàn)[6]。
1.2.2 旅游景點熱度分析模型
雖然隱特征分析模型可以達(dá)到評分預(yù)測的目的,但是隱特征分析模型沒有考慮到森林旅游景點隨時間變化而產(chǎn)生的熱度變化的問題。比如某個森林旅游景點在過往的某個時刻熱度很高,而隨著人們森林旅游習(xí)慣的改變,其不再符合現(xiàn)代森林旅游消費的趨勢,那么該森林旅游景點的熱度就會迅速衰減;相反,某個以前未被大眾發(fā)現(xiàn)的森林旅游景點,通過互聯(lián)網(wǎng)或其他途徑的宣傳逐漸被人們認(rèn)知了解,該森林旅游景點的熱度可能會迅速暴漲。因此,提出一種基于用戶評論時間的旅游景點熱度分析模型,對森林旅游景點的實時熱度情況進行分析打分,以此彌補隱特征分析模型的不足,從而達(dá)到更好的個性化推薦效果。對于森林旅游景點i而言,熱度分析模型如下所示:
⑵
式中Ui表示去過森林旅游景點i的用戶集合;Ki表示森林旅游景點i的度,即為所有去過森林旅游景點i的用戶數(shù)|Ui|;tji表示用戶j去森林旅游景點i旅游的時間;t0表示森林旅游景點最早的評論時間。
根據(jù)式⑵所定義的熱度分析模型,如果一個存在很久的森林旅游景點近期旅游人數(shù)突然增加,那么它相對應(yīng)的熱度值就會增高;相反,某些過往游客人數(shù)很高的森林旅游景點近期旅游人數(shù)下降,那么它的整體熱度值也會降低。
1.2.3 融合旅游景點熱度分析和隱特征分析模型的推薦評分方法
通過隱特征分析模型對用戶評分行為的預(yù)測,以及旅游景點熱度分析模型對旅游景點熱度的分析預(yù)測,最終可以得到一個用戶對未知景點的綜合性評分(fu,i),其表達(dá)式如下:
⑶
1.2.4 評價方法
對于森林旅游景點推薦算法性能的評價,選擇均方根誤差(RMSE)作為衡量推薦算法評分預(yù)測性能的指標(biāo)。其中RMSE的值越小,說明推薦算法的預(yù)測評分性能越好。具體的表達(dá)式[6]如下所示:
⑷
為了對推薦算法所產(chǎn)生的推薦列表(即Top-K)的性能進行分析,可采用準(zhǔn)確率(precision)來對其進行評估,其具體的表達(dá)式如下所示[6]:
⑸
式中R(u)表示推薦算法產(chǎn)生的針對用戶u的推薦列表,T(u)表示用戶u在測試集Rk當(dāng)中的真實列表。U表示用戶集合;K表示推薦列表的長度。
研究使用文獻(xiàn)[17]的方法來獲得森林旅游景點相關(guān)的數(shù)據(jù)。首先,通過調(diào)用Fickr API接口來獲得Ficker相關(guān)數(shù)據(jù)集,F(xiàn)ickr API允許用戶通過景點名(place_id)來得到對應(yīng)的照片數(shù)據(jù)集。其次,通過照片的id信息可以找到照片的上傳者、評論內(nèi)容、拍攝時間等信息。最后,通過對照片數(shù)據(jù)集進行處理,整合得到研究所需要的森林景點照片集。該數(shù)據(jù)集包含的有用戶信息、景點位置信息以及相對應(yīng)的評價信息。數(shù)據(jù)集總共包含了14.761 2萬名用戶對4.879 4萬個景點的819.607 7萬條評論信息。同時把數(shù)據(jù)集按照8∶2的比例進行劃分,其中80%的數(shù)據(jù)用來做訓(xùn)練集建立模型,剩余20%的數(shù)據(jù)用來做測試集。
隱特征分析模型在不同λ下的RMSE值變化如表1所示。
表1 隱特征分析模型在不同λ下RMSE值變化Table 1 RMSE value of latent feature analysis model under different λ
首先,通過對收集到的14.761 2萬名用戶對4.879 4萬個景點的819.607 7萬條評論信息統(tǒng)計分析,研究發(fā)現(xiàn)平均每位旅客訪問的森林旅游景點的個數(shù)為46.99,每一個景點被不同旅客訪問的平均數(shù)為141.95。從統(tǒng)計的森林旅游訪問數(shù)據(jù)得出,相對于眾多的森林旅游景點,游客所訪問的景點只是占了少數(shù),同時也印證了森林旅游還是有很大的潛力挖掘。面對眾多的景點,游客很容易陷入信息爆炸的困境,而采用以機器學(xué)習(xí)為代表的推薦算法來對用戶智能推送感興趣的未去景點。這樣,顯然是一個不錯的選擇。其次,由于森林旅游數(shù)據(jù)的極度稀疏性(所構(gòu)造的游客-森林景點關(guān)系矩陣的稀疏度為0.1%),傳統(tǒng)的森林旅游推薦方法往往根據(jù)統(tǒng)計分析方法的進行,其原理是簡單的根據(jù)游客對景點訪問次數(shù)的統(tǒng)計而做出判斷,即游客訪問比較多的景點,容易被推薦給未去過該景點的游客,這樣容易造成熱門景點的人越來越多,而其他景點的人數(shù)卻越來越少。眾所周知,對于全部的森林景點而言,熱門景點所占的比例很小,長期以往難免可能會導(dǎo)致熱門森林景點旅游服務(wù)質(zhì)量下降,不利于該景點的長期健康發(fā)展。區(qū)別于根據(jù)統(tǒng)計分析的景點推薦方法,根據(jù)隱特征分析模型為代表的機器學(xué)習(xí)推薦方法,通過對高維稀疏的森林景點訪問數(shù)據(jù)采用低維映射的方法,在低維空間中解析特征向量來對游客未去的森林景點的感興趣程度進行預(yù)測打分。同時正則化項的加入可以有效解決隱特征分析模型在訓(xùn)練過程中由于數(shù)據(jù)稀少所導(dǎo)致的過擬合問題。為尋找最優(yōu)的正則化系數(shù),以此達(dá)到更精準(zhǔn)預(yù)測的效果。在這里采用常用的網(wǎng)格搜索的方法,參考文獻(xiàn)[7]將正則化系數(shù)λ的取值選擇同樣設(shè)定在[2-1,2-10],采用RMSE指標(biāo)對未去森林景點的評分預(yù)測效果進行分析(表1和表2)。結(jié)果表明:較少的森林旅游數(shù)據(jù)很容易使隱特征分析模型陷入過擬合或者欠擬合的狀態(tài),進而導(dǎo)致對森林旅游景點的評分預(yù)測精度下降;正則化參數(shù)對森林旅游景點的評分預(yù)測精度和模型的收斂速度都有明顯的調(diào)節(jié)作用;正則化參數(shù)的取值與最終的預(yù)測精度并不是成簡單的線性關(guān)系(即正比或者反比關(guān)系),用戶對森林景點的評分行為并不能簡單的采用線性模型來描述,因為用戶和森林景點之間是一個連續(xù)相互影響的非線性過程。
表2 隱特征分析模型在不同λ下的最優(yōu)RMSETable 2 Optimal RMSE of latent feature analysis model under different λ
數(shù)據(jù)集收集了14.761 2萬名用戶對4.879 4萬個景點的819.607 7萬條評論,其所構(gòu)成了用戶-森林景點關(guān)系矩陣的大小為147 612×48 794,因此該矩陣是一個典型的高維、稀疏矩陣。而對于這類高維稀疏矩陣的處理方法,一般都需對其進行降維,在低維空間用稠密向量表示形式進行分析。截至2018年12月,傳統(tǒng)的奇異值分解(SVD)在處理這類高維稀疏矩陣時,首先要對稀疏矩陣進行補全,用戶-森林景點關(guān)系矩陣是極度稀疏,稀疏度僅為0.1%(即矩陣中99.9%的元素值是缺失的),一旦將用戶-森林景點關(guān)系矩陣補全,其將導(dǎo)致存儲關(guān)系矩陣所需的空間成倍增長,將增加了額外的存儲開銷。其次,傳統(tǒng)的SVD分解方法只適用于稠密矩陣,而像用戶-森林景點關(guān)系矩陣一旦補全后,由于矩陣的維度很高,就會造成計算復(fù)雜度成倍增加,進而導(dǎo)致計算效率下降,因此不適應(yīng)對時效性有要求的個性化景點推薦。而同樣對于隱特征分析模型LFM而言,雖然其不需要對高維稀疏矩陣進行補全,但是低維特征空間的維度f會對模型的計算時間和精度造成一定的影響。為了尋找最合理的特征維度,對LFM在不同的特征維度f下的表現(xiàn)進行實驗,f的取值分別為20、40、60、80和100(表3)。結(jié)果表明:不同的特征縮減維度對最終的評分預(yù)測效果是有影響的。一般而言,特征維度f取值越大,表明所考慮到影響用戶-森林景點關(guān)系矩陣中評分值的因素越多,而這樣的LFM的預(yù)測效果也會越來越高。當(dāng)特征維度取值大于60時,LFM模型的預(yù)測精度反而在下降(表2)。這說明過多的考慮影響游客對森林景點打分的因素反而是無益的。因此,在森林景點推薦時,應(yīng)該考慮比較重要的因素,而不是考慮的因素越多越好。
表3 LFM性能隨不同特征維度的變化情況Table 3 The change of LFM performance with different feature dimensions
雖然LFM模型在森林景點評分預(yù)測方面具有很好的效果,但是LFM模型更多的是通過挖掘游客對森林景點評分信息中所隱藏的用戶和景點之間的關(guān)聯(lián)性而對用戶對景點的旅游偏好做出預(yù)測,但是其并未考慮到森林旅游所特有的特點,即它是一項戶外運動,很大程度上會受到季節(jié)、天氣等時間因素的影響。因此,研究提出了旅游景點熱度分析模型來考慮時間因素對景點推薦的影響,分別考慮了當(dāng)推薦列表長度為10和20時,不同推薦算法的性能表現(xiàn)。在推薦列表長度為10時,單純采用LFM模型的方法的準(zhǔn)確率為0.01,而采用融合景點熱度分析模型的LFM方法可以使準(zhǔn)確率提高27%。當(dāng)推薦列表長度為20時,準(zhǔn)確率的提升可以達(dá)到37%。結(jié)果表明:旅游景點推薦算法不僅要注重推薦結(jié)果的準(zhǔn)確性,而且要注重推薦結(jié)果的新穎性。像森林旅游景點推薦這類服務(wù),應(yīng)當(dāng)充分考慮到景點受季節(jié)和人們評論的影響,而融合景點熱度分析模型的個性化森林景點推薦方法通過計算旅游景點自設(shè)立之初和當(dāng)前時間(數(shù)據(jù)集中時間戳)不同用戶對景點的評價次數(shù)來評估該景點當(dāng)前或者未來的旅游熱度,正好充分考慮了森林景點的生命周期對推薦效果的影響作用,因此可以取得比較好的個性化森林旅游推薦效果。
針對森林旅游景點數(shù)據(jù)所特有的稀疏性和高維性,通過調(diào)整隱特征分析模型的正則化參數(shù)和設(shè)計合理的特征壓縮維度來得到很好的解決。同時,針對大部分個性化旅游景點推薦算法過分注重于推薦結(jié)果準(zhǔn)確性的問題,通過融合景點熱度分析模型的方法來提升推薦算法的新穎性和準(zhǔn)確性。
第一,加強森林旅游個性化推薦的新穎性。森林旅游景點受時間因素影響較大,針對森林旅游旅游景點的個性化推薦,充分考慮森林旅游景點的生命周期,融合旅游景點熱度分析提升森林旅游景點推薦的新穎性。第二,加強森林旅游個性化推薦算法的優(yōu)化。在采用根據(jù)機器學(xué)習(xí)的森林旅游景點個性化推薦算法研究時,針對森林景點數(shù)據(jù)的稀疏和高維性,應(yīng)當(dāng)充分考慮模型參數(shù)對推薦結(jié)果的敏感性,融合網(wǎng)絡(luò)搜索或者啟發(fā)式智能算法等方法來對模型的參數(shù)進行最優(yōu)化設(shè)計。