謝林基 趙鐵柱 柳 毅
1(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 廣東 廣州 510006) 2(東莞理工學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 廣東 東莞 523000)
隨著移動(dòng)設(shè)備的普及和社交網(wǎng)絡(luò)的發(fā)展,用戶普遍地在互聯(lián)網(wǎng)上分享自己的位置信息,以及對(duì)簽到位置進(jìn)行評(píng)論?;谶@些用戶數(shù)據(jù),基于位置社交網(wǎng)絡(luò)(Location-based social network,LBSN)的服務(wù)應(yīng)運(yùn)而生。利用這些用戶數(shù)據(jù),服務(wù)商可以分析用戶的行為,挖掘用戶感興趣的興趣點(diǎn)(Point-of-interest,POI),典型的服務(wù)如點(diǎn)評(píng)網(wǎng)站Yelp、Foursquare和大眾點(diǎn)評(píng)等。將用戶可能感興趣的興趣點(diǎn)推薦給用戶,既為用戶帶來(lái)了便利,也能夠?yàn)樯碳規(guī)?lái)可觀的利益。
基于興趣點(diǎn)推薦服務(wù)的商業(yè)價(jià)值,興趣點(diǎn)推薦成為了推薦系統(tǒng)的熱門(mén)研究領(lǐng)域之一。興趣點(diǎn)推薦面臨的首要問(wèn)題是標(biāo)簽數(shù)據(jù)稀疏問(wèn)題,該問(wèn)題在興趣點(diǎn)推薦中比起其他推薦系統(tǒng)嚴(yán)重。對(duì)此,已有研究者針對(duì)興趣點(diǎn)推薦的稀疏性問(wèn)題提出了解決方案。解貴龍等[1]利用矩陣分解附加商業(yè)地理信息,在數(shù)字標(biāo)牌廣告投放的推薦地點(diǎn)問(wèn)題上,解決了興趣點(diǎn)推薦中位置訪問(wèn)數(shù)據(jù)稀疏的問(wèn)題。任星怡等[2]通過(guò)融合興趣點(diǎn)的地理、文本、社會(huì)關(guān)系、分類(lèi)與流行度信息,提出一種上下文感知的概率矩陣分解的興趣點(diǎn)推薦算法。為了解決用戶遠(yuǎn)離常駐地而面對(duì)的數(shù)據(jù)稀疏問(wèn)題,盧露等[3]在推薦過(guò)程中同時(shí)融合用戶的偏好和興趣點(diǎn)的主題分布,提出了一種基于主題模型的興趣點(diǎn)推薦算法。李鑫等[4]利用社會(huì)關(guān)系作為規(guī)則化項(xiàng)來(lái)優(yōu)化矩陣分解模型,提出一種在社交網(wǎng)絡(luò)中基于興趣圈的社會(huì)關(guān)系挖掘推薦算法來(lái)解決冷啟動(dòng)帶來(lái)的簽到數(shù)據(jù)稀疏性問(wèn)題。李心茹等[5]利用狄利克雷分配主題模型挖掘用戶的興趣話題,然后融合標(biāo)簽數(shù)據(jù)來(lái)計(jì)算相似度來(lái)解決用戶-簽到矩陣稀疏問(wèn)題。
興趣點(diǎn)推薦面臨的第二個(gè)問(wèn)題是特征提取,該問(wèn)題具體表現(xiàn)在于對(duì)用戶行為的挖掘和從興趣點(diǎn)的圖文描述中提取出關(guān)于興趣點(diǎn)的特征。在該問(wèn)題上,也有不少研究者做出了研究。余永紅等[6]在用戶對(duì)興趣點(diǎn)訪問(wèn)的頻率數(shù)據(jù)的意義問(wèn)題上,利用泊松分布模型建模用戶的興趣點(diǎn)簽到行為,然后用貝葉斯個(gè)性化排序算法(Bayesian personalized ranking,BPR)擬合用戶對(duì)興趣點(diǎn)的偏愛(ài),最后通過(guò)低于影響力的正則化因子約束泊松矩陣的分解,提出一個(gè)基于Ranking的泊松矩陣分解興趣點(diǎn)推薦算法改善傳統(tǒng)推薦算法將訪問(wèn)頻率數(shù)據(jù)與評(píng)分?jǐn)?shù)據(jù)同一對(duì)待的問(wèn)題。吳海峰等[7]提出一種融合的算法模型,模型融合通過(guò)隱語(yǔ)義分析算法挖掘的用戶歷史行為和通過(guò)基于領(lǐng)域的方法結(jié)合社會(huì)關(guān)系和地理位置等因素挖掘出來(lái)的用戶行為,以實(shí)現(xiàn)對(duì)用戶行為更好的預(yù)測(cè)。為了改善興趣點(diǎn)推薦工作中信息挖掘不充分的情況,胡德敏等[8]利用分層狄利克雷過(guò)程主題模型學(xué)習(xí)用戶和興趣點(diǎn)相關(guān)的興趣話題,然后利用核密度估計(jì)法,融合個(gè)性化地理信息對(duì)用戶簽到行為的影響、用戶對(duì)興趣點(diǎn)訪問(wèn)序列的影響和社會(huì)關(guān)系的影響,基于聯(lián)合概率生成模型,提出了改進(jìn)的多類(lèi)型信息融合的聯(lián)合概率生成的興趣點(diǎn)推薦模型。邵長(zhǎng)城等[9]利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別興趣點(diǎn)圖像來(lái)改善興趣點(diǎn)特征缺失問(wèn)題。
另外,關(guān)于興趣點(diǎn)推薦的研究中,還面對(duì)著推薦結(jié)果多樣性等其他的問(wèn)題。文獻(xiàn)[10]通過(guò)興趣點(diǎn)的地理關(guān)系和社會(huì)關(guān)系計(jì)算興趣點(diǎn)的相關(guān)度,然后在此基礎(chǔ)上通過(guò)譜聚類(lèi)獲得興趣點(diǎn)的多樣性分類(lèi),最后通過(guò)基于概率因子模型的興趣點(diǎn)選取和個(gè)性化排序方法獲得滿足用戶的個(gè)性化推薦列表,解決了以往興趣點(diǎn)推薦中多樣性不足的問(wèn)題。由于興趣點(diǎn)推薦算法需要使用用戶的歷史行為記錄,為了避免推薦過(guò)程中用戶的隱私信息被泄露,文獻(xiàn)[11]通過(guò)差分隱私保護(hù)機(jī)制對(duì)用戶信息進(jìn)行了保護(hù)。
在推薦系統(tǒng)領(lǐng)域,大多數(shù)的算法都是基于內(nèi)容的推薦算法或者基于協(xié)同過(guò)濾的推薦算法。
1.1.1基于內(nèi)容的推薦算法
基于內(nèi)容推薦算法就是從用戶的歷史喜好項(xiàng)目中,提取項(xiàng)目的特征,以這些特征表示用戶的喜好,然后利用這些特征計(jì)算項(xiàng)目間的相似性,將鄰近相似項(xiàng)目推薦給用戶的一種算法。王光等[12]通過(guò)余弦相似度來(lái)匹配用戶的偏好和項(xiàng)目的特征,其計(jì)算式表示為:
(1)
式中:Ik表示第k個(gè)項(xiàng)目;wij表示第i個(gè)特征在第j個(gè)項(xiàng)目中的權(quán)重;Ij=(w1j,w2j,...,wnj)表示對(duì)于項(xiàng)目j,用戶對(duì)該項(xiàng)目每個(gè)特征的偏好所組成的向量。
基于內(nèi)容推薦最大的優(yōu)點(diǎn)是可以忽略用戶對(duì)項(xiàng)目的實(shí)際評(píng)分,減緩用戶對(duì)項(xiàng)目評(píng)分稀疏帶來(lái)的可靠性影響。但是,現(xiàn)有技術(shù)對(duì)項(xiàng)目特征提取的準(zhǔn)確程度造成了該算法發(fā)展的制約。
1.1.2基于協(xié)同過(guò)濾的推薦算法
協(xié)同過(guò)濾的概念最早由Goldberg等[13]提出。算法的核心概念是在相似用戶中,將相似用戶感興趣但目標(biāo)用戶還沒(méi)感興趣的項(xiàng)目推薦給目標(biāo)用戶。文獻(xiàn)[14]對(duì)協(xié)同過(guò)濾給出了如下描述。
m×n階矩陣W表示用戶-項(xiàng)目的連接矩陣,其中wik表示用戶i對(duì)項(xiàng)目k的執(zhí)行行為,wik=1表示用戶i執(zhí)行過(guò)項(xiàng)目k,wik=0表示用戶i沒(méi)有執(zhí)行過(guò)項(xiàng)目k。
用戶i和用戶j的相似度計(jì)算式表示為:
(2)
選擇與用戶i相似度最高的K個(gè)用戶構(gòu)成近鄰用戶集U′,則用戶i對(duì)未執(zhí)行項(xiàng)目a的偏好程度表示為:
(3)
由于協(xié)同過(guò)濾的計(jì)算方法是找出相似用戶,所以其具有項(xiàng)目?jī)?nèi)容無(wú)關(guān)的特點(diǎn)。而它推薦的項(xiàng)目不會(huì)涉及項(xiàng)目?jī)?nèi)容與用戶描述的相關(guān)性,所以,對(duì)于被推薦用戶來(lái)說(shuō),推薦皆具有新異性的特點(diǎn)。同時(shí)得益于其算法程序的簡(jiǎn)單,使得程序具有較好的擴(kuò)展性和易于實(shí)現(xiàn)。
在獲得良好推薦效果的同時(shí),協(xié)同過(guò)濾同時(shí)也面臨著一些問(wèn)題制約,如稀疏性、多內(nèi)容和可擴(kuò)展性[15]。
(1) 稀疏性。由于龐大的用戶數(shù)與項(xiàng)目數(shù),導(dǎo)致每一個(gè)用戶僅對(duì)一小部分的項(xiàng)目有評(píng)分,這導(dǎo)致計(jì)算用戶或項(xiàng)目的相似性時(shí)難以得到鄰近的用戶或項(xiàng)目,從而導(dǎo)致低效的推薦結(jié)果。
(2) 多內(nèi)容。大部分協(xié)同過(guò)濾算法專(zhuān)注于相似用戶的計(jì)算,而忽略了如何最大限度對(duì)項(xiàng)目進(jìn)行區(qū)分,從而導(dǎo)致推薦結(jié)果的多樣性欠佳。
(3) 可擴(kuò)展性。由于龐大的數(shù)據(jù)量,導(dǎo)致計(jì)算的時(shí)間增加,最終影響到了系統(tǒng)推薦的實(shí)時(shí)性。
興趣點(diǎn)推薦與商品推薦、視頻推薦等推薦既有相似之處,也有差異。一般的興趣點(diǎn)推薦算法主要基于協(xié)同過(guò)濾算法實(shí)現(xiàn),但興趣點(diǎn)推薦算法會(huì)更多地考慮時(shí)空和社交因素。文獻(xiàn)[16]歸納了現(xiàn)在用于興趣點(diǎn)推薦的因素有地理位置因素、分類(lèi)流行因素、情感傾向因素和社交關(guān)系因素,并給出了幾個(gè)興趣點(diǎn)推薦中的定量模型,各模型的具體定義如下:
(1) 基于地理位置因素的偏好計(jì)算模型。集合L表示所有興趣點(diǎn)的集合,集合Li={l1,l2,…,ln}表示第i個(gè)用戶的簽到記錄,Li∈L。則第i個(gè)用戶訪問(wèn)第j個(gè)興趣點(diǎn)的評(píng)分計(jì)算式表示為:
(4)
式中:dist(lj,li)表示第j個(gè)興趣點(diǎn)lj與興趣點(diǎn)li間的地理距離。然后將式(4)的評(píng)分進(jìn)行0-1規(guī)范化作為最終預(yù)測(cè)評(píng)分,計(jì)算式表示為:
(5)
(2) 基于情感傾向因素的偏好計(jì)算模型。用戶對(duì)興趣點(diǎn)的喜好可以從其評(píng)論中獲知,自然語(yǔ)言處理技術(shù)能夠?qū)τ脩舻脑u(píng)論進(jìn)行情感傾向分析,通過(guò)將評(píng)論中表達(dá)的感情進(jìn)行量化來(lái)體現(xiàn)用戶對(duì)興趣點(diǎn)的偏好程度,以此協(xié)助提高推薦效果。該模型的計(jì)算基于一個(gè)詞與極性詞匯表中的詞語(yǔ)的相關(guān)性強(qiáng)度,若與積極的詞語(yǔ)呈正相關(guān),則該詞為積極性詞匯,反之亦然。Turney等[18]提出了一種基于點(diǎn)互信息的方法來(lái)計(jì)算目標(biāo)詞與詞匯表中的感情詞匯之間的PMI,以此來(lái)確定目標(biāo)詞的情感極性。兩個(gè)詞wi和wj之間的PMI值定義為:
(6)
式中:p(wi)和p(wj)分別表示詞匯wi和wj在語(yǔ)料庫(kù)中出現(xiàn)的概率,p(wi,wj)表示wi和wj一起出現(xiàn)的概率。
那么目標(biāo)詞wk的情感極性SO可通過(guò)式(7)計(jì)算所得:
SO(wk)=PMI(wk,″e(cuò)xcellent″)-PMI(wk,″poor″)
(7)
最終,可以通過(guò)計(jì)算評(píng)論中所有情感詞匯的SO值的平均值來(lái)對(duì)用戶的評(píng)論進(jìn)行量化。所以,對(duì)于某個(gè)用戶uk對(duì)興趣點(diǎn)li的評(píng)論rki,該評(píng)論代表用戶對(duì)興趣點(diǎn)的偏好量化計(jì)算式表示為:
(8)
式中:m表示評(píng)論中情感詞匯的數(shù)量。
(3) 用戶間的社交關(guān)系強(qiáng)度計(jì)算模型。朋友會(huì)影響用戶對(duì)興趣點(diǎn)的選擇,越親近的朋友對(duì)用戶的選擇的影響就越重。因此,可以通過(guò)共同朋友的數(shù)量來(lái)對(duì)朋友間的親近程度進(jìn)行量化,而朋友間興趣的相似程度的量化以朋友間共有的興趣點(diǎn)訪問(wèn)數(shù)量來(lái)表示。所以,用戶和某個(gè)朋友間的社交關(guān)系強(qiáng)度計(jì)算式表示為:
(9)
式中:Fi和Fj分別代表用戶i和用戶j的朋友集合,Li和Lj分別表示用戶i和用戶j的簽到興趣點(diǎn)集合。
興趣點(diǎn)推薦作為推薦系統(tǒng)中的一個(gè)特殊領(lǐng)域,它有著自己特殊的發(fā)展難點(diǎn)。本文將這些問(wèn)題概括如下。
(1) 用戶標(biāo)簽數(shù)據(jù)稀疏。在興趣點(diǎn)推薦中,由于興趣點(diǎn)需要用戶實(shí)際到達(dá)該地理位置進(jìn)行簽到,而人的精力始終有限,因而在興趣點(diǎn)推薦比起其他的如商品推薦、視頻推薦、音樂(lè)推薦等推薦所用數(shù)據(jù)集面臨的稀疏性問(wèn)題更為嚴(yán)重。商品等這些東西,可以在單位時(shí)間內(nèi)由大量的用戶進(jìn)行體驗(yàn),并且提供反饋。但是,一個(gè)興趣點(diǎn)在單位時(shí)間內(nèi),其用戶容納是有限的,而且用戶進(jìn)行體驗(yàn)的成本往往會(huì)較電影、音樂(lè)等因素高,這同時(shí)造成了比起其他項(xiàng)目的推薦,對(duì)興趣點(diǎn)推薦的稀疏性問(wèn)題的解決會(huì)更為困難。
(2) 特征提取。興趣點(diǎn)推薦中,用戶偏好建模是一個(gè)重要環(huán)節(jié),而對(duì)于用戶的偏好除了用戶預(yù)選的標(biāo)簽,更多的是需要從用戶的歷史行為記錄中提取出可以表示用戶偏好的特征,常見(jiàn)的是從用戶評(píng)論中提取用戶的喜好。同時(shí),為了匹配用戶的喜好特征與興趣點(diǎn)特征,需要從興趣點(diǎn)的描述中提取出興趣點(diǎn)的特征,而興趣點(diǎn)往往是圖文結(jié)合描述的,因而會(huì)對(duì)興趣點(diǎn)的特征提取造成了一定的阻礙。
基于LBSN的特點(diǎn),興趣點(diǎn)推薦存在著其獨(dú)有的關(guān)鍵推擠技術(shù),如針對(duì)興趣點(diǎn)推薦的標(biāo)簽稀疏性問(wèn)題解決方案,跨模態(tài)的興趣點(diǎn)推薦技術(shù)和基于LBSN的興趣點(diǎn)推薦框架。本文將這些研究歸納如下:
標(biāo)簽稀疏性問(wèn)題除了來(lái)源于一個(gè)人不可能在有限時(shí)間內(nèi)到達(dá)大量物理位置外,還來(lái)源于用戶是否愿意共享位置信息等。借鑒了其他推薦系統(tǒng)對(duì)數(shù)據(jù)稀疏問(wèn)題的解決方案,當(dāng)前研究人員針對(duì)興趣點(diǎn)推薦也有了大量的解決方案,本文將這些解決方案分為3類(lèi):矩陣分解、建模預(yù)測(cè)和其他解決方法。
2.1.1矩陣分解
矩陣分解就是將用戶的簽到矩陣分解為幾個(gè)維度較小的子矩陣,其過(guò)程實(shí)質(zhì)上是對(duì)用戶和興趣點(diǎn)進(jìn)行聚類(lèi)的一個(gè)過(guò)程,因而最終減弱了模型所需的用戶-興趣點(diǎn)簽到數(shù)據(jù)的稀疏性。
對(duì)于興趣點(diǎn)推薦,矩陣分解在該領(lǐng)域的應(yīng)用中往往融合了諸如地理位置、社交關(guān)系和簽到上下文等額外信息。解貴龍等[1]融合矩陣分解算法和地理信息數(shù)據(jù)來(lái)解決數(shù)據(jù)稀疏性問(wèn)題。龔衛(wèi)華等[19]通過(guò)建立基于非負(fù)矩陣分解的聯(lián)合聚類(lèi)目標(biāo)函數(shù),函數(shù)同時(shí)融入用戶社交關(guān)系、用戶和位置的簽到關(guān)系以及興趣點(diǎn)特征等多維度的影響因素,通過(guò)利用這些因素分別對(duì)用戶和興趣點(diǎn)進(jìn)行聚類(lèi)來(lái)緩解數(shù)據(jù)稀疏問(wèn)題。李全等[20]提出了基于LBSN動(dòng)態(tài)異構(gòu)網(wǎng)絡(luò)的時(shí)間感知興趣點(diǎn)推薦算法,該算法在LBSN異構(gòu)網(wǎng)絡(luò)模式中增加會(huì)話節(jié)點(diǎn)類(lèi)型,設(shè)置用戶-興趣點(diǎn)之間的動(dòng)態(tài)元路徑集,計(jì)算動(dòng)態(tài)路徑的偏好度,通過(guò)矩陣分解模型對(duì)動(dòng)態(tài)偏好矩陣進(jìn)行矩陣分解來(lái)解決簽到數(shù)據(jù)稀疏性問(wèn)題。張進(jìn)等[21]提出了一種融合社交信任的矩陣分解算法,該算法利用BPR模型來(lái)優(yōu)化矩陣分解的過(guò)程,同時(shí)在相似度結(jié)合中融入信任度因子來(lái)解決用戶簽到矩陣稀疏問(wèn)題。廖國(guó)瓊等[22]利用高階奇異值分解算法對(duì)用戶-主題-時(shí)間三階張量進(jìn)行分解,計(jì)算用戶在不同時(shí)間段對(duì)不同主題的偏好評(píng)分來(lái)解決數(shù)據(jù)稀疏性問(wèn)題。任星怡等[2]提出一種上下文感知的概率矩陣分解興趣點(diǎn)推薦算法TGSC-PMF,該算法通過(guò)將地理、文本、社會(huì)、分類(lèi)與流行度信息融合來(lái)解決數(shù)據(jù)稀疏性問(wèn)題。高榕等[23]在基于矩陣分解的推薦模型上,融合關(guān)于興趣點(diǎn)的評(píng)論信息、用戶社交關(guān)系和地理信息來(lái)解決數(shù)據(jù)稀疏性問(wèn)題。
2.1.2建模預(yù)測(cè)
在興趣點(diǎn)推薦中,面對(duì)數(shù)據(jù)稀疏,不少研究者采取的策略是融合各種與用戶選取興趣點(diǎn)相關(guān)的信息,構(gòu)建用戶對(duì)興趣點(diǎn)的偏好模型,從而預(yù)測(cè)空白的評(píng)分。
(1) 基于單源信息的建模。許朝等[24]通過(guò)將2-度好友引入?yún)f(xié)同過(guò)濾算法中構(gòu)建社交影響模型,計(jì)算歷史記錄與好友相似度獲得2-度好友對(duì)用戶的社交影響來(lái)解決簽到數(shù)據(jù)稀疏問(wèn)題。蘇暢等[25]利用用戶簽到的相似性,結(jié)合興趣點(diǎn)的類(lèi)別信息和用戶信任度建模來(lái)解決數(shù)據(jù)稀疏性問(wèn)題。
(2) 多源信息融合建模。隨著融合信息進(jìn)行預(yù)測(cè)方法的深入研究,越來(lái)越多的研究者并不局限于某一個(gè)因素,而是一次性融合多個(gè)因素進(jìn)行建模預(yù)測(cè)。在文獻(xiàn)[26]中,提出了一種基于社區(qū)發(fā)現(xiàn)的興趣點(diǎn)推薦算法CBR(Community-Based Recommendation)。該算法先將興趣點(diǎn)的按主題聚類(lèi),并計(jì)算目標(biāo)用戶與主題的相似度,然后將地理位置聚類(lèi),計(jì)算用戶在地理位置簇上的隸屬度,最后融合用戶的社交關(guān)系來(lái)預(yù)測(cè)用戶對(duì)各個(gè)興趣點(diǎn)的偏好評(píng)分。彭宏偉等[27]除了用戶的簽到數(shù)據(jù),還利用興趣點(diǎn)的地理位置、社交網(wǎng)絡(luò)數(shù)據(jù)、興趣點(diǎn)類(lèi)別信息輔助對(duì)用戶簽到行為進(jìn)行建模來(lái)解決用戶簽到數(shù)據(jù)的稀疏性。Zhou等[28]將用戶對(duì)POI的預(yù)測(cè)評(píng)分建模為用戶偏好、朋友重要性和POI間的簽到相關(guān)性量化分?jǐn)?shù)的權(quán)重和。首先基于協(xié)同過(guò)濾算法,計(jì)算用戶訪問(wèn)某個(gè)POI的分?jǐn)?shù)作為用戶的偏好量化。然后將用戶訪問(wèn)POI的余弦相似度和以0/1表示的用戶社會(huì)關(guān)系的權(quán)重和作為朋友重要性的量化,在將朋友重要性與該朋友對(duì)應(yīng)的POI訪問(wèn)頻數(shù)之積作為用戶對(duì)POI訪問(wèn)的分?jǐn)?shù)。接著利用冪律分布,基于用戶的歷史記錄計(jì)算用戶訪問(wèn)某個(gè)POI的概率作為POI間簽到相關(guān)性在POI推薦中的分?jǐn)?shù)量化。最后將3個(gè)量的線性相加作為對(duì)用戶訪問(wèn)某個(gè)POI的預(yù)測(cè)分?jǐn)?shù)來(lái)消除數(shù)據(jù)稀疏問(wèn)題。Zhang等[29]將用戶對(duì)POI的評(píng)分建模為圖像影響力和地理影響力的權(quán)重和。該融合框架將圖像特征用于建模POI-POI和POI-群體間的關(guān)系,再基于這些關(guān)系進(jìn)行權(quán)重矩陣分解得到用戶和POI的隱向量,將這些隱向量用于圖像影響力的計(jì)算。同時(shí)利用冪律分布對(duì)用戶的地理偏好進(jìn)行建模得到地理影響力的量化。Lyu等[30]設(shè)計(jì)了名為iMCRec的框架融合用戶對(duì)POI的地理偏好、類(lèi)別偏好和屬性偏好進(jìn)行推薦。融合框架先基于用戶的歷史記錄,利用文獻(xiàn)[31]的二維KDE模型對(duì)地理偏好進(jìn)行建模;利用TF-IDF模型對(duì)類(lèi)別偏好進(jìn)行建模;利用TF-IDF和信息熵對(duì)屬性偏好進(jìn)行建模。之后利用其他用戶的歷史記錄,基于協(xié)同過(guò)濾算法對(duì)之前用戶的3種偏好添加權(quán)重。最后基于MCDM算法利用3種偏好的評(píng)分對(duì)POI進(jìn)行預(yù)測(cè)評(píng)分。
(3) 其他建模預(yù)測(cè)方法。李心茹等[5]利用最近鄰的興趣點(diǎn)預(yù)測(cè)簽到缺失的興趣點(diǎn)的訪問(wèn)概率,以此解決數(shù)據(jù)稀疏性問(wèn)題。鮮學(xué)豐等[32]將用戶周期性的行為作為上下文情景信息,融合用戶本身簽到的上下文情景信息來(lái)擴(kuò)大有效數(shù)據(jù)緩解數(shù)據(jù)稀疏性問(wèn)題。任星怡等[33]設(shè)計(jì)了名為GTSCP的聯(lián)合概率模型來(lái)模擬用戶的簽到行為決策過(guò)程,以此預(yù)測(cè)用戶簽到來(lái)解決數(shù)據(jù)稀疏性問(wèn)題。曹玖新等[34]提出了一種基于元路徑的興趣點(diǎn)推薦算法,該算法將LBSN構(gòu)建成一個(gè)帶權(quán)的異構(gòu)網(wǎng)絡(luò),該網(wǎng)絡(luò)的路徑用元路徑來(lái)表示。對(duì)于實(shí)例路徑中,首尾節(jié)點(diǎn)之間的關(guān)聯(lián)程度,算法通過(guò)利用隨機(jī)游走算法計(jì)算出的元路徑特征值來(lái)衡量。而對(duì)于各特征的權(quán)值,則通過(guò)監(jiān)督學(xué)習(xí)取得。最終利用這些參數(shù)預(yù)測(cè)用戶在各興趣點(diǎn)的簽到概率來(lái)緩解數(shù)據(jù)稀疏性問(wèn)題。
2.1.3其他解決方法
除了進(jìn)行矩陣分解和建模預(yù)測(cè)用戶偏好的方法外,還有諸如改善推薦模型等一些方法。
李丹霞等[35]提出了一種融合時(shí)空信息的連續(xù)興趣點(diǎn)推薦算法,該算法將用戶的簽到行為建模為用戶、當(dāng)前興趣點(diǎn)、下一個(gè)興趣點(diǎn)、時(shí)間段的四階張量,通過(guò)LBSN中的地理信息計(jì)算用戶對(duì)興趣點(diǎn)的地理距離的偏好,最后利用貝葉斯個(gè)性化排序算法BPR(Bayesian personalized ranking)優(yōu)化目標(biāo)函數(shù)來(lái)解決數(shù)據(jù)稀疏性問(wèn)題。單碩堂等[36]利用用戶專(zhuān)家的評(píng)分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練來(lái)緩解數(shù)據(jù)稀疏性問(wèn)題。盧露等[3]為了解決用戶遠(yuǎn)離常駐地時(shí)造成簽到數(shù)據(jù)稀疏,基于隱含主題模型融合了用戶的偏好分布和興趣點(diǎn)主題分布來(lái)解決該問(wèn)題。
2.1.4稀疏性問(wèn)題解決技術(shù)小結(jié)
矩陣分解方法降低了用戶-簽到矩陣的維度,降低了計(jì)算資源的需求,加快了推薦速度,提高推薦系統(tǒng)的實(shí)時(shí)性,這對(duì)于興趣點(diǎn)推薦是一個(gè)良好的解決方案。對(duì)于用戶來(lái)說(shuō),對(duì)興趣點(diǎn)的推薦需求往往是隨時(shí)間變化而變化的。所以,一個(gè)高效運(yùn)轉(zhuǎn)的興趣點(diǎn)推薦系統(tǒng)在時(shí)間性能方面可以很好地滿足用戶。但是這種方法的本質(zhì)是聚類(lèi)的一種方法,因而其最終結(jié)果會(huì)缺乏個(gè)性化。
建模預(yù)測(cè)方法可以有效填補(bǔ)用戶-簽到矩陣或者用戶-評(píng)分矩陣的空白,對(duì)數(shù)據(jù)稀疏性的改善比較直接。但是該值始終并非用戶的真實(shí)意愿,所以其預(yù)測(cè)偏差最終會(huì)影響推薦結(jié)果的準(zhǔn)確性。同時(shí)由于在興趣點(diǎn)推薦中一般會(huì)結(jié)合多種因素進(jìn)行預(yù)測(cè),這些因素除了可見(jiàn)的文本和圖像等,研究者更多考慮的是事物間的聯(lián)系這種抽象的信息,所以,對(duì)于其他信息的定量與融合是一個(gè)難點(diǎn)。
在LBSN中,圖片與文本是常見(jiàn)的兩種數(shù)據(jù)。文本主要承擔(dān)著用戶偏好和POI描述兩種角色。圖片主要承擔(dān)了用戶簽到和POI描述兩種角色。而從單獨(dú)的某種數(shù)據(jù)類(lèi)型來(lái)看,它們的特征也同樣呈現(xiàn)著多模態(tài)。而不同模態(tài)間的互補(bǔ)可以更好地對(duì)信息進(jìn)行表達(dá),因此,對(duì)多模態(tài)進(jìn)行融合的跨模態(tài)推薦方法是當(dāng)前POI推薦的研究課題之一。
2.2.1跨模態(tài)推薦
興趣點(diǎn)推薦有著不同模態(tài)的數(shù)據(jù)進(jìn)行推薦計(jì)算,而單獨(dú)某種類(lèi)型的數(shù)據(jù),從其特征來(lái)說(shuō),也會(huì)呈現(xiàn)不同的模態(tài),對(duì)于如何利用不同的模態(tài)進(jìn)行信息互補(bǔ),提高推薦結(jié)果的準(zhǔn)確性是當(dāng)前研究者熱衷研究的課題之一。
Li等[37]利用DCA模型取得從圖片中提取的HSV、LBP、SIFT、VGG16和RGB特征間的跨模態(tài)聯(lián)系,然后通過(guò)貝葉斯個(gè)性化排序算法獲得用戶對(duì)POI的預(yù)測(cè)評(píng)分。并且結(jié)合基于問(wèn)卷調(diào)查和分層采樣模型得到的POI預(yù)測(cè)評(píng)分對(duì)用戶進(jìn)行POI推薦。推薦結(jié)果比起基準(zhǔn)算法更加高效穩(wěn)定。Chen等[38]先利用LDA(Laten Dirichlet Allocation)模型對(duì)評(píng)論進(jìn)行軟聚類(lèi),然后將評(píng)論的TF-IDF特征和情感特征作為模態(tài),并利用這兩種模態(tài)構(gòu)造超級(jí)圖得到基于主題的跨模態(tài)超級(jí)圖。最后利用驗(yàn)證集中的評(píng)論與超級(jí)圖中頂點(diǎn)的相似性預(yù)測(cè)項(xiàng)目的評(píng)分進(jìn)行推薦。推薦結(jié)果對(duì)比基于樸素貝葉斯、最大信息熵、支持向量機(jī)和基于字典等方法對(duì)評(píng)論的情感分類(lèi)作出推薦的準(zhǔn)確率更高。為了更為準(zhǔn)確地匹配圖像與文字,Otto等[39]先提取圖像和文字的語(yǔ)義與實(shí)體特征,然后在CMI(Cross-modal Information)準(zhǔn)則、SC(Semantic Correlation)準(zhǔn)則和描述圖像與文本間關(guān)于相對(duì)重要性的層次關(guān)系的狀態(tài)準(zhǔn)則下,基于這兩種特征利用深度學(xué)習(xí)對(duì)圖像和文本的聯(lián)系進(jìn)行分類(lèi)。從而提高了推薦的準(zhǔn)確率。郭斌等[40]利用卷積神經(jīng)網(wǎng)絡(luò)CNN和循環(huán)-卷積神經(jīng)網(wǎng)絡(luò)CNN-RNN跨模態(tài)分析圖像與文本的聯(lián)合分類(lèi),最后基于分類(lèi)用關(guān)聯(lián)規(guī)則進(jìn)行旅游路線的推薦。
跨模態(tài)技術(shù)的研究對(duì)推薦系統(tǒng)的準(zhǔn)確性起到了積極的推進(jìn)效果,而在跨模態(tài)推薦中常用到的是圖片與文本及它們的特征。因而圖片與文本特征的提取是跨模態(tài)推薦的基礎(chǔ)。
2.2.2圖片特征提取
當(dāng)前圖片特征的提取中,常見(jiàn)的提取方法有CNN、EMK(Efficient Match Kernels)[41]、KDES(Kernel Descriptors)[42]、SC(Sparse Coding)[43]和RBM(Restricted Boltzman Machines)[44]等。其中以神經(jīng)網(wǎng)絡(luò)方法最為常用。
侯媛媛等[45]利用卷積神經(jīng)網(wǎng)絡(luò)多層特征融合提取出圖像特征。生龍等[46]利用卷積神經(jīng)網(wǎng)絡(luò)CNN特征提取的方法結(jié)合全卷積神經(jīng)網(wǎng)絡(luò)像素位置預(yù)測(cè)功能,將卷積神經(jīng)網(wǎng)絡(luò)卷積層提取出的特征圖與同類(lèi)標(biāo)簽特征圖交換,加強(qiáng)圖像的特征提取效果。Qing等[47]利用PCNN(Pulse Coupled Neural Networks)提取圖像的時(shí)間序列特征和熵序列特征。在眾多的研究基礎(chǔ)上,閆河等[48]通過(guò)從網(wǎng)絡(luò)架構(gòu)和內(nèi)部結(jié)構(gòu)兩方面對(duì)深度神經(jīng)網(wǎng)絡(luò)AlexNet進(jìn)行改進(jìn)和優(yōu)化,進(jìn)一步提升了特征的表達(dá)能力。郭文慧等[49]提出了名為提出3D多尺度特征融合殘差網(wǎng)絡(luò)的方法,該方法先對(duì)圖像的3D-HSI數(shù)據(jù)進(jìn)行自適應(yīng)降維,并將降維后的圖像作為網(wǎng)絡(luò)的輸入。然后,利用多尺度特征融合殘差塊依次提取光譜-空間特征,并且融合不同尺度的特征,最后通過(guò)特征共享增強(qiáng)信息流以此來(lái)獲得更豐富的特征。梁華剛等[50]通過(guò)將圖像中背景信息丟棄來(lái)減少干擾,然后建立一個(gè)由特征提取網(wǎng)絡(luò)、注意力區(qū)域定位網(wǎng)絡(luò)和特征融合網(wǎng)格組成的特征提取模型,利用模型的級(jí)聯(lián)結(jié)構(gòu)完成將特征由全局到局部的轉(zhuǎn)移,以此完成目標(biāo)在圖像中較細(xì)粒度的識(shí)別。Kim等[51]通過(guò)將圖像轉(zhuǎn)換的顏色轉(zhuǎn)換到Y(jié)UV顏色空間,然后利用YUV得到的像素的正信息和逆信息的權(quán)重和提出一個(gè)基于tone mapping的模型從低動(dòng)態(tài)圖片中提取更多的SIFT(Scale-invariant Feature Transform)特征。
除此之外,還有一些別的方法,如林克正等[52]為了取得較好的圖像HOG特征提取效果,提出了一種信息熵加權(quán)的HOG(Histogram of Oriented Gradients)特征提取方法,該方法先將圖像分成若干塊,然后分別對(duì)各子圖像進(jìn)行HOG特征提取,并且將每塊子圖像所含的信息熵作為權(quán)重系數(shù)加到這些HOG特征上,最后利用PCA算法對(duì)新的特征進(jìn)行降維得到信息熵加權(quán)的HOG特征。王曉華等[53]先通過(guò)Hessian矩陣行列式確定圖像中的特征點(diǎn),然后用梯度方向?qū)焖亵敯籼卣魉惴?SURF)中的主方向提取方法進(jìn)行改進(jìn),以提高特征點(diǎn)方向的準(zhǔn)確性,同時(shí)用二進(jìn)制特征描述子對(duì)特征點(diǎn)進(jìn)行描述。在此基礎(chǔ)上,再利用漢明距離對(duì)獲得的特征點(diǎn)進(jìn)行粗匹配,最后通過(guò)網(wǎng)格運(yùn)動(dòng)統(tǒng)計(jì)剔除誤匹配點(diǎn)來(lái)獲取較為精準(zhǔn)的圖像特征。
2.2.3文本特征提取
文本特征提取是將原文表達(dá)轉(zhuǎn)換到低維度的特征空間的簡(jiǎn)潔表達(dá)。當(dāng)前常見(jiàn)的文本特征提取方法有深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)、LDA和PCA(Principal Components Analysis)等。
韓建勝等[54]利用單向多層空洞因果卷積結(jié)構(gòu)分別對(duì)文本進(jìn)行前向和后向特征提取,然后將兩個(gè)方向的序列特征融合進(jìn)行情感分類(lèi)。馬慧芳等[55]根據(jù)詞語(yǔ)的共現(xiàn)構(gòu)建文本圖,該圖以詞匯為頂點(diǎn),以詞語(yǔ)間的相似度作為邊的權(quán)重。詞語(yǔ)間的相似度別基于語(yǔ)義耦合和基于結(jié)構(gòu)特征進(jìn)行計(jì)算,從而獲得兩個(gè)文本圖實(shí)例。最終利用隨機(jī)游走方法融合兩個(gè)文本圖,迭代計(jì)算出各節(jié)點(diǎn)的重要性以此獲取文本的重要特征。陳文實(shí)等[56]先通過(guò)LDA對(duì)文本的全局特征進(jìn)行建模,然后利用LSTM對(duì)文本的局部特征建模,最終結(jié)合有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),對(duì)文本進(jìn)行不同層次的特征提取。李平等[57]在基于CHI特征提取方法的基礎(chǔ)上,通過(guò)融入特征詞出現(xiàn)的頻率、特征詞的影響力和特征詞與文本類(lèi)別的相關(guān)性來(lái)提高特征詞提取的準(zhǔn)確性。韓慧等[58]基于深度森林算法BFDF(Boosting Feature of Deep Forest)建立了一個(gè)模型,該模型以文本的評(píng)價(jià)對(duì)象-評(píng)價(jià)詞極性特征對(duì)的二元特征和情感語(yǔ)義概率特征融合作為文本的特征。并用AdaBoost方法來(lái)獲得不同特征的重要性,以此計(jì)算評(píng)論文本的情感傾向。王偉等[59]先利用雙向門(mén)控循環(huán)(BiGRU)神經(jīng)網(wǎng)絡(luò)層對(duì)文本深層次的信息進(jìn)行特征提取。然后,利用注意力機(jī)制(attention)層對(duì)提取的文本深層次信息分配相應(yīng)的權(quán)重。最終對(duì)不同權(quán)重的文本特征利用softmax函數(shù)對(duì)文本進(jìn)行情感極性計(jì)算。Lei等[60]在神經(jīng)網(wǎng)絡(luò)的輸入層設(shè)計(jì)噪聲減弱機(jī)制,然后利用基于SVAE(Stacked Variational Autoencoder)模型的隱藏層進(jìn)行文本的特征提取,在Fudan和Reuters數(shù)據(jù)集上得到的提取結(jié)果的準(zhǔn)確性比PCA的更高。
2.2.4跨模態(tài)推薦技術(shù)小結(jié)
跨模態(tài)推薦技術(shù)能夠利用信息的不同模態(tài)進(jìn)行互補(bǔ)來(lái)更加完善地描述信息的主體對(duì)象,從而提高推薦結(jié)果的準(zhǔn)確性。而特征提取是跨模態(tài)推薦技術(shù)的基礎(chǔ)。在興趣點(diǎn)推薦中,圖像和文本是兩種主要模態(tài)。圖像特征提取和文本特征提取技術(shù)當(dāng)前主要使用的是神經(jīng)網(wǎng)絡(luò)算法,因此面臨著無(wú)法解釋提取結(jié)果的問(wèn)題。同時(shí)利用神經(jīng)網(wǎng)絡(luò)算法需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,但是當(dāng)前的文本數(shù)據(jù)集主要是常見(jiàn)的英文和中文等廣泛使用的語(yǔ)言,因此對(duì)于小語(yǔ)種的數(shù)據(jù)需求是一個(gè)挑戰(zhàn)。而在LBSN上的圖像很多都經(jīng)過(guò)用戶的修飾,因此對(duì)圖像特征提取算法的魯棒性也是圖像特征提取所面臨的一個(gè)挑戰(zhàn)。
興趣點(diǎn)推薦基于LBSN而生,所以它有著豐富的背景信息用于推薦。這些信息不僅解決了推薦系統(tǒng)面臨的數(shù)據(jù)稀疏性問(wèn)題和冷啟動(dòng)問(wèn)題,而且還提高了POI推薦的準(zhǔn)確性和使得推薦結(jié)果更具個(gè)性化。設(shè)計(jì)用于融合這些信息的興趣點(diǎn)推薦框架是當(dāng)前不少研究者熱衷的工作之一。
Yin等[61]基于LDA模型提出了一個(gè)ST-LDA的推薦框架??蚣茉跀?shù)據(jù)處理部分為基于時(shí)間的主題發(fā)現(xiàn)、地理區(qū)域建模、基于區(qū)域的用戶興趣建模、個(gè)人空間模式建模和基于角色的群體偏好建模5部分。它們利用狄利克雷模型分別對(duì)與主題相關(guān)的詞語(yǔ)和時(shí)間、興趣點(diǎn)在區(qū)域中的分布、用戶在區(qū)域內(nèi)的分布和用戶在各區(qū)域中訪問(wèn)主題的分布進(jìn)行統(tǒng)計(jì)建模。在興趣點(diǎn)推薦計(jì)算部分,首先利用數(shù)據(jù)處理得到的統(tǒng)計(jì)信息,基于多項(xiàng)分布和用戶的歷史記錄,計(jì)算用戶訪問(wèn)時(shí)選擇的區(qū)域、主題、興趣點(diǎn)、地理坐標(biāo)、主題相關(guān)詞和訪問(wèn)時(shí)間的概率。然后給定用戶當(dāng)前的時(shí)間、地點(diǎn)和角色,將之前得到用戶在各種信息下的概率分布作為條件概率的條件,計(jì)算每個(gè)興趣點(diǎn)的條件概率,然后將top-k個(gè)興趣點(diǎn)推薦給用戶。Wang等[62]提出了一個(gè)融合序列性信息和個(gè)人興趣的框架SPORE(Sequential Personalized Spatial Item Recommendation Framework)。序列性信息是指時(shí)間、地理的鄰近程度和人類(lèi)的偏好與POI類(lèi)型的內(nèi)在聯(lián)系(如為了健康著想,人們通常先運(yùn)動(dòng)再吃飯)等信息。在數(shù)據(jù)處理部分,首先利用文獻(xiàn)[63]中的方法對(duì)用戶的個(gè)人興趣進(jìn)行量化,同時(shí)用文獻(xiàn)[64]的SAGE模型量化之前訪問(wèn)過(guò)的項(xiàng)目的影響力,以及用背景模型量化大眾偏好。然后基于這3個(gè)參數(shù),用多項(xiàng)分布計(jì)算主題區(qū)域指標(biāo)z,以及z對(duì)應(yīng)的內(nèi)容詞匯和POI的分布。在推薦計(jì)算部分,對(duì)基于每個(gè)用戶的歷史記錄,對(duì)沒(méi)訪問(wèn)過(guò)的項(xiàng)目,分別計(jì)算z及其對(duì)應(yīng)的描述詞語(yǔ)和POI的出現(xiàn)概率,將這3個(gè)概率的乘積作為用戶沒(méi)訪問(wèn)過(guò)的POI的訪問(wèn)概率。Qiao等[65]提出了一個(gè)名為UP2VEC的表示學(xué)習(xí)框架對(duì)地理影響力、社會(huì)關(guān)系和時(shí)間信息進(jìn)行融合。在數(shù)據(jù)處理部分,在基于訪問(wèn)關(guān)系連接的用戶-POI圖的基礎(chǔ)上,對(duì)于有社交關(guān)系的用戶也相互連接、同一天內(nèi)訪問(wèn)過(guò)的POI間相連接,組成一個(gè)成分混雜的LBSN圖。然后將地理距離納入各頂點(diǎn)間的躍遷概率的計(jì)算中。最后通過(guò)文獻(xiàn)[66]中的模型Node2Vec學(xué)習(xí)用戶和POI的表示。在推薦階段,通過(guò)學(xué)到的用戶表示和POI表示的內(nèi)積產(chǎn)生推薦列表。Ankita等[67]提出了一個(gè)將社交網(wǎng)絡(luò)內(nèi)的地理特征、語(yǔ)義信息和時(shí)間信息融合用戶的社交關(guān)系進(jìn)行推薦,名為L(zhǎng)oCaTe的框架??蚣茉跀?shù)據(jù)處理部分首先用核心密度估計(jì)模型基于用戶的簽到記錄計(jì)算用戶對(duì)各POI的偏好PL。然后基于簽到記錄用隱藏狄利克雷分配模型計(jì)算用戶對(duì)POI主題的偏好PC。最后基于簽到記錄用指數(shù)分布計(jì)算時(shí)間相關(guān)系數(shù)T。推薦部分通過(guò)PL和PC的權(quán)重和乘以T作為用戶訪問(wèn)POI的概率。Baral等[68]提出了名為HiRecS的系統(tǒng)框架。系統(tǒng)在數(shù)據(jù)處理部分,先用主題、距上個(gè)簽到點(diǎn)的距離和簽到頻率構(gòu)建每個(gè)POI的特征檔案,并且基于Haversine公式進(jìn)行地理位置的聚類(lèi)。然后利用用戶的簽到頻數(shù)計(jì)算用戶對(duì)不同特征的偏好,以建立個(gè)人檔案。接著根據(jù)用戶的簽到偏好,在每個(gè)地理區(qū)域?qū)τ脩暨M(jìn)行聚類(lèi)。系統(tǒng)在推薦部分,給定目標(biāo)用戶和特定區(qū)域,在該區(qū)域找到與用戶相似的群體,以群體偏好表示用戶偏好,基于CMI(Conditional Mutual Information)標(biāo)準(zhǔn)和各群體的偏好特征對(duì)POI進(jìn)行分層。最后用PMD(Partition Membership Divergence)將各群體的POI分層樹(shù)融合成一棵樹(shù)。利用用戶的偏好特征,在每一層找到最匹配用戶偏好特征的節(jié)點(diǎn)直到達(dá)葉子節(jié)點(diǎn)并將該P(yáng)OI推薦給對(duì)應(yīng)用戶。
基于LBSN的興趣點(diǎn)推薦的技術(shù)框架的總體抽象如圖1所示。
圖1 基于LBSN的興趣點(diǎn)推薦框架
框架主要分為用戶和POI信息處理的數(shù)據(jù)處理層和推薦計(jì)算層兩層。在數(shù)據(jù)處理層,當(dāng)前使用比較普遍的信息有POI的地理位置、POI的主題、用戶的偏好、用戶的歷史記錄和用戶的社交關(guān)系。常用的處理方法是將各種信息量化或者基于這些信息構(gòu)造新的圖或樹(shù)。量化的常見(jiàn)方法是利用狄利克雷分布和多項(xiàng)分布進(jìn)行建模,得出各種信息條件下訪問(wèn)POI的概率。在推薦計(jì)算層,常見(jiàn)的推薦計(jì)算是對(duì)POI進(jìn)行評(píng)分或利用條件概率求在多種信息的條件下POI被訪問(wèn)的概率。而評(píng)分的計(jì)算方法常見(jiàn)的是基于權(quán)重和的計(jì)算公式。所以,在基于LBSN的興趣點(diǎn)推薦框架中,數(shù)據(jù)處理層是推薦計(jì)算層的基礎(chǔ)。契合的數(shù)據(jù)表示將會(huì)帶來(lái)高效的推薦過(guò)程和優(yōu)秀的推薦結(jié)果。
興趣點(diǎn)推薦作為一個(gè)特殊的推薦領(lǐng)域,其要求的數(shù)據(jù)集中較其他數(shù)據(jù)集多了時(shí)間和地理位置數(shù)據(jù),而且算法對(duì)數(shù)據(jù)集的地理、時(shí)間和社交關(guān)系等影響一個(gè)人出行的數(shù)據(jù)尤為敏感。當(dāng)前常見(jiàn)可用于興趣點(diǎn)推薦的數(shù)據(jù)集有Foursquare數(shù)據(jù)集、Yelp數(shù)據(jù)集、Gowalla數(shù)據(jù)集、GPS數(shù)據(jù)集、MIT數(shù)據(jù)集和DoubanEvent數(shù)據(jù)集等[69]。下面介紹幾種常用的數(shù)據(jù)集。
1) Foursquare數(shù)據(jù)集。Foursquare數(shù)據(jù)集來(lái)源于一個(gè)基于位置的社交網(wǎng)站Foursquare。Foursquare本身沒(méi)有提供API來(lái)訪問(wèn)用戶的簽到數(shù)據(jù),但其與Twitter的關(guān)聯(lián)導(dǎo)致可以從Twitter中尋找用戶利用Foursquare的簽到。Bao等[70]將收集到Foursquare數(shù)據(jù)劃分為用戶基本信息、興趣點(diǎn)基本信息、用戶歷史記錄和用戶社交關(guān)系4類(lèi)。其中,用戶基本信息包括了用戶的ID、姓名和住址等。興趣點(diǎn)的基本信息包括了地點(diǎn)的ID、名稱(chēng)、地址、坐標(biāo)和分類(lèi)標(biāo)簽等。用戶的歷史記錄包含了用戶的評(píng)論標(biāo)簽,每個(gè)評(píng)論標(biāo)簽與興趣點(diǎn)的ID、詳細(xì)評(píng)論和時(shí)間戳相關(guān)聯(lián)。用戶的社交信息由用戶的ID組成。
Foursquare數(shù)據(jù)集的不足之處在于其本身非公開(kāi)的性質(zhì),其出現(xiàn)來(lái)源于研究人員的自行收集,這造成了無(wú)法收集到?jīng)]有捆綁Twitter的用戶數(shù)據(jù),而且收集到數(shù)據(jù)會(huì)有一定的片面性。
2) Gowalla數(shù)據(jù)集。Gowalla數(shù)據(jù)集來(lái)源于基于位置的社交簽到應(yīng)用Gowalla。相應(yīng)的簽到數(shù)據(jù)由Stanford的Jure Leskovec收集,從2009年2月至2010年10月,該數(shù)據(jù)集包含了6 442 890條簽到信息。數(shù)據(jù)中每條記錄由用戶的ID、簽到時(shí)間、興趣點(diǎn)的坐標(biāo)和興趣點(diǎn)的ID組成。
Gowalla數(shù)據(jù)集雖然來(lái)源于社交應(yīng)用Gowalla,但是由于其并非由Gowalla直接公開(kāi),所以該數(shù)據(jù)集沒(méi)有明確的社交關(guān)系。同時(shí),該數(shù)據(jù)集已不再更新,而用戶對(duì)興趣點(diǎn)的選擇是具有時(shí)效性的,所以,從該數(shù)據(jù)集學(xué)得的模型可能會(huì)與用戶的實(shí)際選擇偏差較大。
3) Yelp數(shù)據(jù)集。Yelp數(shù)據(jù)集來(lái)源于美國(guó)最大點(diǎn)評(píng)網(wǎng)站Yelp,它由Yelp自行公開(kāi)。數(shù)據(jù)集由JSON格式記錄。該數(shù)據(jù)集截至2020年3月26日包含了4個(gè)國(guó)家共11個(gè)大城市的興趣點(diǎn)信息,含520 000 000條用戶點(diǎn)評(píng),174 000條興趣點(diǎn)信息。數(shù)據(jù)集由興趣點(diǎn)信息、簽到信息、評(píng)論信息、用戶評(píng)論標(biāo)簽、用戶信息和圖片信息組成。興趣點(diǎn)信息由興趣點(diǎn)ID、名稱(chēng)、地址、坐標(biāo)、評(píng)分、分類(lèi)、營(yíng)業(yè)時(shí)間和其他屬性信息組成。簽到信息由興趣點(diǎn)ID和該興趣點(diǎn)被簽到的時(shí)間戳集合組成。評(píng)論信息由評(píng)論ID、評(píng)論用戶的ID、興趣點(diǎn)ID、評(píng)論內(nèi)容和評(píng)論時(shí)間等組成。評(píng)論標(biāo)簽信息由標(biāo)簽文本、興趣點(diǎn)ID和用戶ID等組成。用戶信息由用戶ID、姓名、評(píng)論數(shù)、社交關(guān)系等組成。圖片信息由圖片ID、對(duì)應(yīng)興趣點(diǎn)的ID、描述文本和圖片分類(lèi)標(biāo)簽組成。
Yelp數(shù)據(jù)集的完善數(shù)據(jù)記錄可以使它完全滿足于現(xiàn)有的興趣點(diǎn)推薦算法,其信息之詳細(xì)可以有效地提高興趣點(diǎn)推薦結(jié)果的個(gè)性化、準(zhǔn)確性和多樣性。但是其僅面對(duì)著11個(gè)大城市,這就造成了這些城市以外的興趣點(diǎn)均無(wú)法被推薦。而且,從該數(shù)據(jù)集中學(xué)得的用戶行為,也僅適合于這11個(gè)地區(qū),對(duì)于這些地區(qū)以外的應(yīng)用,與用戶的實(shí)際偏差會(huì)較這11個(gè)地區(qū)的大。
4) DoubanEvent數(shù)據(jù)集。DoubanEvent數(shù)據(jù)集來(lái)源于中國(guó)的一個(gè)基于項(xiàng)目的社交網(wǎng)站DoubanEvent。用戶在該網(wǎng)站指定何時(shí)何地舉行某一個(gè)活動(dòng),然后其他用戶通過(guò)在線簽到表達(dá)對(duì)該活動(dòng)的偏好。它主要囊括了北京、上海、廣州和深圳4個(gè)城市的簽到記錄。其主要由用戶信息、活動(dòng)信息、用戶反饋信息和用戶社交關(guān)系信息組成。用戶信息包括了用戶ID、名稱(chēng)和用戶所在城市?;顒?dòng)信息包括了活動(dòng)ID、名稱(chēng)、發(fā)生地的坐標(biāo)、活動(dòng)總結(jié)和活動(dòng)分類(lèi)。用戶反饋信息包含了用戶ID和活動(dòng)ID。用戶社交關(guān)系的每條記錄由用戶ID及其相互關(guān)注的其他用戶ID組成。
DoubanEvent數(shù)據(jù)集是中國(guó)較大的一個(gè)公開(kāi)數(shù)據(jù)集,它可以較好地適應(yīng)中國(guó)國(guó)內(nèi)的興趣點(diǎn)推薦服務(wù)。但是其主要集中于北京、上海、廣州和深圳這4大城市造成了它的局限性。同時(shí),由于其來(lái)源豆瓣相對(duì)微博、微信等社交平臺(tái)來(lái)說(shuō),并非一個(gè)廣泛流行的社交應(yīng)用,所以依據(jù)該數(shù)據(jù)集學(xué)得的模型會(huì)存在一定的片面性。
對(duì)于推薦系統(tǒng)的效用評(píng)價(jià),可以分為評(píng)價(jià)方法和評(píng)價(jià)指標(biāo)兩方面。評(píng)價(jià)方法有在線評(píng)價(jià)、離線評(píng)價(jià)和混合評(píng)價(jià)3類(lèi)。
4.1.1在線評(píng)價(jià)
在線評(píng)價(jià)指的是通過(guò)直接詢問(wèn)用戶得到用戶對(duì)推薦系統(tǒng)的反饋,從而改善推薦方法的一種方式。其常見(jiàn)做法是進(jìn)行問(wèn)卷調(diào)查。
在線評(píng)價(jià)的優(yōu)點(diǎn)在于其對(duì)用戶需求的實(shí)時(shí)響應(yīng),頻繁的用戶交互可以最大限度地滿足用戶的需求。但該方法需要較大的成本投入。Bao等[70]在其設(shè)計(jì)的移動(dòng)推薦系統(tǒng)中使用了在線評(píng)測(cè),實(shí)驗(yàn)結(jié)果表明該方法可以帶來(lái)極高的用戶滿意度。
4.1.2離線評(píng)價(jià)
離線評(píng)價(jià)是指利用測(cè)試數(shù)據(jù)集,計(jì)算評(píng)價(jià)指標(biāo)來(lái)衡量推薦系統(tǒng)的質(zhì)量。常見(jiàn)的計(jì)算方法是k-折交叉驗(yàn)證法。而常見(jiàn)的衡量指標(biāo)有召回率、精確度、平均平方誤差等。
離線評(píng)價(jià)的優(yōu)點(diǎn)在于其可以獨(dú)立在線下完成,所需的資源投入較少。但是其缺乏了與用戶的直接互動(dòng),無(wú)法準(zhǔn)確地判斷是否滿足用戶的需求。
4.1.3混合評(píng)價(jià)
鑒于在線評(píng)價(jià)和離線評(píng)價(jià)的特點(diǎn),有研究者提出將兩種評(píng)價(jià)聯(lián)合使用,這就是所謂的混合評(píng)價(jià)。混合評(píng)價(jià)能同時(shí)兼具在線評(píng)價(jià)和離線評(píng)價(jià)的優(yōu)點(diǎn)。在文獻(xiàn)[71]中便使用了在線評(píng)價(jià)和離線評(píng)價(jià)作為推薦系統(tǒng)的效果評(píng)價(jià)方法,在得到較好的用戶滿意度的同時(shí)又不至于投入太大的成本。
除了評(píng)價(jià)方法,評(píng)價(jià)時(shí)還需要評(píng)價(jià)指標(biāo),常見(jiàn)的評(píng)價(jià)指標(biāo)有召回率Recall、準(zhǔn)確率Precision和平均平方誤差MSE等。以TP表示正類(lèi)數(shù),F(xiàn)P表示負(fù)類(lèi)被預(yù)測(cè)為正類(lèi)的數(shù)目,F(xiàn)N表示正類(lèi)被預(yù)測(cè)為負(fù)類(lèi)的數(shù)目,則幾個(gè)常見(jiàn)的評(píng)價(jià)指標(biāo)計(jì)算如下。
召回率的計(jì)算公式如下:
(10)
準(zhǔn)確率Precision的計(jì)算公式如下:
(11)
平均平方誤差MSE的計(jì)算公式如下:
(12)
推薦效果一般有著一系列的評(píng)價(jià)指標(biāo),但同一個(gè)算法在同一個(gè)數(shù)據(jù)集在不同的指標(biāo)上所得出的結(jié)果往往是不同的。所以推薦效果,其實(shí)是算法、數(shù)據(jù)集和評(píng)分模型三者共同作用的結(jié)果。文獻(xiàn)[69]給出常見(jiàn)數(shù)據(jù)集的基準(zhǔn)模型和基準(zhǔn)評(píng)價(jià)指標(biāo),如表1所示。
表1 常見(jiàn)數(shù)據(jù)集的基準(zhǔn)推薦模型和評(píng)價(jià)指標(biāo)
盡管現(xiàn)今對(duì)興趣點(diǎn)推薦的數(shù)據(jù)稀疏性問(wèn)題和特征提取問(wèn)題取得了一些成果,但是對(duì)興趣點(diǎn)推薦的研究還需不斷完善,今后的進(jìn)一步研究工作可從如下方面展開(kāi)。
興趣點(diǎn)推薦是對(duì)地理位置的推薦,推薦過(guò)程中會(huì)涉及用戶的活動(dòng)蹤跡、用戶的行為偏好等信息。而為了實(shí)時(shí)推薦,甚至?xí)?shí)時(shí)地獲取用戶的定位信息。而所有的這些信息都屬于用戶的個(gè)人隱私,尤其是這些隱私的泄露容易導(dǎo)致用戶遭受攻擊,從而出現(xiàn)意外。所以如何有效地保護(hù)用戶數(shù)據(jù)的隱私是興趣點(diǎn)推薦的必須要解決的問(wèn)題。
當(dāng)前興趣點(diǎn)推薦中,圖像特征提取、文本特征提取和文本情感分析成為了一個(gè)重要的環(huán)節(jié)。而當(dāng)前這些提取技術(shù)更多的是依靠神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的進(jìn)一步優(yōu)化??梢哉f(shuō),機(jī)器學(xué)習(xí)的發(fā)展嚴(yán)重影響了推薦效果的準(zhǔn)確性。同時(shí)當(dāng)前文本的處理只是停留在詞匯的處理上,對(duì)于文本語(yǔ)義的理解還有待發(fā)展。
另外,對(duì)于興趣點(diǎn)的推薦模型,其本質(zhì)同樣是從已有的數(shù)據(jù)中學(xué)習(xí)用戶的行為,應(yīng)用的是機(jī)器學(xué)習(xí)的方法。一個(gè)好的推薦模型可以帶來(lái)優(yōu)秀的推薦效果。因此,機(jī)器學(xué)習(xí)是興趣點(diǎn)推薦的一個(gè)重要研究方向。
雖然當(dāng)前有不少的公開(kāi)數(shù)據(jù)集可供使用,但是,數(shù)據(jù)集中的數(shù)據(jù)大多數(shù)呈地域性集中,即現(xiàn)有的數(shù)據(jù)主要是某幾部分地區(qū)的用戶活動(dòng)信息。而且數(shù)據(jù)集之間存在著互補(bǔ)關(guān)系,但不同數(shù)據(jù)集記錄的格式,字段均不一樣,這不僅為聯(lián)合使用帶來(lái)了不便,同時(shí)對(duì)推薦系統(tǒng)的建模與程序編寫(xiě)也帶來(lái)不便,因此,標(biāo)準(zhǔn)化的數(shù)據(jù)集格式是必需的。
隨著LBSN的普及與發(fā)展,興趣點(diǎn)推薦無(wú)論為商戶還是用戶都帶來(lái)了利益。面對(duì)興趣點(diǎn)推薦系統(tǒng),過(guò)去對(duì)于其他項(xiàng)目的推薦系統(tǒng)的解決方案已不再適用。本文總結(jié)歸納了面對(duì)數(shù)據(jù)稀疏性問(wèn)題時(shí),興趣點(diǎn)推薦領(lǐng)域獨(dú)有的解決方法、興趣點(diǎn)推薦面對(duì)特征提取問(wèn)題時(shí)的解決方案、適用于興趣點(diǎn)推薦的數(shù)據(jù)集以及如何對(duì)興趣點(diǎn)推薦的推薦效用進(jìn)行評(píng)價(jià)。通過(guò)整理分析得到的幾點(diǎn)結(jié)論如下。
(1) 興趣點(diǎn)推薦已有自己一套面對(duì)數(shù)據(jù)稀疏性問(wèn)題的解決方案,但是還有待改進(jìn)。當(dāng)前較為常見(jiàn)的方法是通過(guò)多源信息的融合來(lái)緩解數(shù)據(jù)稀疏問(wèn)題。通過(guò)融合其他諸如地理位置、社交關(guān)系等與用戶選取興趣點(diǎn)及其相關(guān)的因素進(jìn)行矩陣分解,或者將這些因素進(jìn)行量化來(lái)對(duì)用戶的行為進(jìn)行建模預(yù)測(cè)都可以有效緩解興趣點(diǎn)推薦上的稀疏性問(wèn)題。但是這無(wú)法更改矩陣分解的聚類(lèi)本質(zhì),所以,在采用矩陣分解算法的同時(shí),應(yīng)該采用其他方法來(lái)彌補(bǔ)推薦結(jié)果多樣性的缺失。對(duì)于建模預(yù)測(cè)用戶行為的方法盡管與實(shí)際結(jié)果會(huì)存在偏差,但是可以較好地緩解數(shù)據(jù)稀疏性問(wèn)題。但是,該方法在興趣點(diǎn)推薦中往往較其他推薦融合的信息多。對(duì)于多源信息在興趣點(diǎn)推薦中的量化與融合模型是該方法所面對(duì)的一個(gè)難點(diǎn)。
(2) 多模態(tài)數(shù)據(jù)是興趣點(diǎn)推薦的一個(gè)特色背景??缒B(tài)融合推薦可以提高推薦結(jié)果的準(zhǔn)確性。而特征提取是跨模態(tài)推薦的基礎(chǔ)技術(shù)。所以,其準(zhǔn)確性會(huì)直接影響到最終推薦結(jié)果的準(zhǔn)確性。當(dāng)前該技術(shù)所用的方法主要是基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法。而神經(jīng)網(wǎng)絡(luò)的方法會(huì)面臨結(jié)果的可解釋性問(wèn)題。同時(shí),機(jī)器學(xué)習(xí)方法除了解決特征提取問(wèn)題外,機(jī)器學(xué)習(xí)中的模型也是推薦模型建模的主流方法,因此,機(jī)器學(xué)習(xí)的研究是興趣點(diǎn)推薦的一個(gè)重要研究方向。
(3) 已經(jīng)有著不少可用于興趣點(diǎn)推薦的數(shù)據(jù)集,這些數(shù)據(jù)集大多都記錄著用戶的簽到行為、對(duì)興趣點(diǎn)的評(píng)論、用戶的社交關(guān)系以及興趣點(diǎn)的信息等。它們可以在一定程度上滿足科研的要求。當(dāng)前興趣點(diǎn)推薦所面臨的數(shù)據(jù)集問(wèn)題主要集中有2點(diǎn)。其一是用戶的隱私問(wèn)題。用戶的隱私涉及到用戶的安全問(wèn)題,因而,很多應(yīng)用都選擇不公開(kāi)其應(yīng)用所收集的用戶數(shù)據(jù)。這造成了用于興趣點(diǎn)推薦的數(shù)據(jù)集缺乏廣泛性。其二是當(dāng)前數(shù)據(jù)集面對(duì)著來(lái)源單一、格式不統(tǒng)一、地域性集中等問(wèn)題。該問(wèn)題造成了研究人員跨數(shù)據(jù)集使用數(shù)據(jù)的困難。
一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)加密處理方法和標(biāo)準(zhǔn)的數(shù)據(jù)記錄格式可以很好地解決其中大部分的問(wèn)題。標(biāo)準(zhǔn)的加密處理可以在一定程度上協(xié)助研究人員找出不同應(yīng)用中的同一個(gè)用戶,既減少了數(shù)據(jù)的重復(fù),同時(shí)又可以擴(kuò)展用戶的歷史記錄,減緩數(shù)據(jù)稀疏問(wèn)題。而標(biāo)準(zhǔn)的數(shù)據(jù)字段可以讓研究人員同時(shí)使用多個(gè)數(shù)據(jù)集,降低了建模與編程的難度,增加推薦結(jié)果的準(zhǔn)確性。
因此,針對(duì)興趣點(diǎn)推薦的數(shù)據(jù)標(biāo)準(zhǔn)化處理不僅是科研所需,同時(shí)也是商業(yè)的要求。
(4) 任何一個(gè)推薦系統(tǒng)的評(píng)價(jià),它都是由其算法、評(píng)價(jià)方案和使用的數(shù)據(jù)集所決定。盡管孟祥武等[69]給出了一套基于各數(shù)據(jù)集的標(biāo)準(zhǔn)模型和評(píng)價(jià)指標(biāo),但是,這些基準(zhǔn)所基于的數(shù)據(jù)集和推薦模型都是有著一定缺陷的。所以,縱使在某個(gè)基準(zhǔn)數(shù)據(jù)集上,依據(jù)評(píng)價(jià)指標(biāo)優(yōu)于某基準(zhǔn)推薦模型,但實(shí)際的應(yīng)用效果也不一定能夠由于基準(zhǔn)推薦模型。為此,推薦系統(tǒng)的評(píng)價(jià)這方面,一套標(biāo)準(zhǔn)的評(píng)價(jià)體系還有待制定。
綜上所述,對(duì)于興趣點(diǎn)推薦的研究還有待深入。本文介紹了一個(gè)相對(duì)完整的興趣點(diǎn)推薦技術(shù)的知識(shí)框架。希望本綜述對(duì)于興趣點(diǎn)推薦的研究脈絡(luò)的理清和興趣點(diǎn)推薦技術(shù)后續(xù)的研究能夠提供參考和幫助。