常亮,孫文平,張偉濤,賓辰忠,古天龍
(桂林電子科技大學(xué) 廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
在當(dāng)前穩(wěn)定的宏觀經(jīng)濟(jì)和社會(huì)環(huán)境下,國民旅游需求不斷增加,旅游活動(dòng)持續(xù)升溫,“全域旅游”的發(fā)展戰(zhàn)略突破了傳統(tǒng)景區(qū)與景點(diǎn)的資源觀念,延伸到農(nóng)耕民俗、工業(yè)遺產(chǎn)等社會(huì)資源,對(duì)旅游業(yè)的服務(wù)質(zhì)量也提出了更高的要求。然而,隨著可選地點(diǎn)的急劇增加,如何根據(jù)用戶需求幫助用戶快速進(jìn)行旅行路線規(guī)劃,成為全域旅游中亟待解決的難點(diǎn)問題,使得相關(guān)旅游路線規(guī)劃方法的研究成為當(dāng)前旅游領(lǐng)域的研究前沿。
目前,雖然旅行者在進(jìn)行旅行規(guī)劃時(shí)可以在互聯(lián)網(wǎng)上方便地查看相關(guān)信息,但仍然需要花費(fèi)大量時(shí)間和精力[1]。經(jīng)常出現(xiàn)的現(xiàn)象是,許多旅行者在事先花費(fèi)了很多時(shí)間制定旅行路線,但最終卻又不得不選擇跟團(tuán)的形式進(jìn)行旅行,因此旅行者對(duì)于旅行路線規(guī)劃相關(guān)服務(wù)的需求日益迫切。
科學(xué)的旅游路線規(guī)劃不僅有助于旅行者根據(jù)自己的時(shí)間和經(jīng)費(fèi)預(yù)算制定適合自己的游覽路線,還能夠提升旅行者的旅行體驗(yàn),使得旅行者在旅行中有更多的時(shí)間和精力放在游覽過程中。
在旅游路線規(guī)劃問題的研究工作中,較早的工作大多集中在利用OP問題(orienteering problem)作為基本問題,通過不同的變型對(duì)旅游路線規(guī)劃問題進(jìn)行建模求解。這類工作的重點(diǎn)是準(zhǔn)確建模旅游路線規(guī)劃問題中的多方面因素,比如用戶約束、景點(diǎn)開放時(shí)間和出行交通方式等,最終能得到一個(gè)或多個(gè)滿足用戶約束的精確路線規(guī)劃結(jié)果[2]。但是,這類工作無法對(duì)現(xiàn)實(shí)生活中旅游路線規(guī)劃問題的各種因素進(jìn)行完全建模。一方面,由于旅游活動(dòng)是一個(gè)動(dòng)態(tài)的過程,在這個(gè)過程中有很多不確定的因素;另一方面,當(dāng)興趣點(diǎn)的地理范圍較大時(shí),不能再將興趣點(diǎn)僅僅當(dāng)作一個(gè)點(diǎn)進(jìn)行建模,如一條觀光河道,興趣點(diǎn)的起點(diǎn)和終點(diǎn)可能相差很遠(yuǎn)。
隨著互聯(lián)網(wǎng)的飛速發(fā)展,與日常信息相關(guān)的各類用戶生成內(nèi)容迅速增多。在旅游領(lǐng)域中,形成了多種形式的旅游時(shí)空軌跡數(shù)據(jù),例如:GPS軌跡、北斗導(dǎo)航信息、簽到記錄等。 這些數(shù)據(jù)與用戶分享的大量旅游經(jīng)歷和旅行照片等數(shù)據(jù),共同形成了旅游大數(shù)據(jù)。合理地利用這些數(shù)據(jù)進(jìn)行旅游路線規(guī)劃,是近期研究工作的一個(gè)熱點(diǎn)。這類工作的優(yōu)點(diǎn)是能夠快速地得到符合現(xiàn)實(shí)情況的可行解,幫助用戶進(jìn)行旅行規(guī)劃,但難點(diǎn)在于合理利用多源數(shù)據(jù)準(zhǔn)確地挖掘用戶的歷史行為軌跡[3]。
游客到一個(gè)地方進(jìn)行旅行時(shí)通常面臨以下兩個(gè)問題:首先是決定訪問哪些景點(diǎn),從而使自己的旅行變得更加有趣;其次是確定每個(gè)旅行日的路線,即確定對(duì)每個(gè)景點(diǎn)的訪問順序。這個(gè)過程需要考慮到多個(gè)參數(shù)和約束,如門票價(jià)格、天氣條件等。
基于當(dāng)前用戶在進(jìn)行旅行規(guī)劃時(shí)所遇到的問題,旅游路線規(guī)劃問題便應(yīng)運(yùn)而生。其實(shí)旅游規(guī)劃問題并不是一個(gè)新的問題,最早可追溯到旅行商問題(traveling salesman problem,TSP)。由于TSP屬于NP-Complete問題,大量研究工作主要集中在如何進(jìn)行啟發(fā)式求解。
個(gè)性化旅游路線規(guī)劃問題比TSP問題更加復(fù)雜??傮w上是指游客在對(duì)多個(gè)興趣點(diǎn)(point of interest,POI)感興趣的情況下,如何按照游客的相關(guān)約束以及對(duì)POI的興趣度得到適合的旅行路線[4]。盡管現(xiàn)階段互聯(lián)網(wǎng)中存在大量與旅游相關(guān)的信息,但對(duì)于一個(gè)訪問陌生城市的游客來說,這仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù),尤其是其涉及的因素很多,例如每個(gè)景點(diǎn)所需的游覽時(shí)間、景點(diǎn)的開放時(shí)間和景點(diǎn)之間的旅行距離等。旅游路線規(guī)劃問題的關(guān)鍵是:在滿足游客時(shí)間和花費(fèi)的約束下選擇更多匹配游客偏好的POI進(jìn)行游覽,最大化游客的滿意度。在進(jìn)行旅行規(guī)劃時(shí),要得到高質(zhì)量的解決方案,除了需要考慮多方面的因素,還需要根據(jù)不同標(biāo)準(zhǔn)建立相應(yīng)的評(píng)價(jià)模型[5-6]。
本文將典型的旅游路線規(guī)劃問題定義為5元組P=〈 POIs,TrafficCost,Profit,TConstraint,F(xiàn)Constraint〉,其中:
1)POIs表示所有候選的POI,每個(gè)POI又具有多個(gè)屬性,包括類型、位置、門票價(jià)格、開放時(shí)間等;
2)TrafficCost表示在各個(gè)POI之間采用各種不同的交通方式所需要的旅行時(shí)間和費(fèi)用,主要的交通方式包括公共交通、騎行、步行等;
3)Profit表示游客游覽每個(gè)POI所能獲得的“收益”,通過對(duì)每個(gè)POI的客觀打分以及游客的主觀感受進(jìn)行加權(quán)計(jì)算而得,其中游客的主觀感受又主要取決于游客的個(gè)人偏好;
4)TConstraint表示游客用于該次旅行的時(shí)間預(yù)算,包括游客該次旅行的總天數(shù)以及每天用于游覽的時(shí)間數(shù)等;
5)FConstraint表示游客用于該次旅行的費(fèi)用預(yù)算。
對(duì)于天氣狀況這種影響旅行的因素,我們將其歸類到POI的開放時(shí)間這個(gè)屬性中。對(duì)于其他未考慮的因素,可以相應(yīng)地對(duì)5元組進(jìn)行擴(kuò)展。
給定一個(gè)旅游路線規(guī)劃問題之后,對(duì)該問題的求解是指找到關(guān)于各個(gè)POI訪問日程和訪問順序的一套或多套方案,使得在滿足游客的時(shí)間預(yù)算和費(fèi)用預(yù)算等約束的前提下,游客所能獲得的收益達(dá)到最大或者最佳。
目前,相關(guān)文獻(xiàn)中存在許多對(duì)旅游路線規(guī)劃問題進(jìn)行求解的方法。本文將這些方法分為兩大類:1)對(duì)旅游路線規(guī)劃問題進(jìn)行精確的數(shù)學(xué)建模,通過規(guī)劃求解得到較為精確的規(guī)劃方案;2)利用用戶生成內(nèi)容(user generated content,UGC)進(jìn)行路線挖掘,并結(jié)合用戶的喜好和相關(guān)約束得到一條或多條可行路線[7]。
從建模角度進(jìn)行求解時(shí),關(guān)鍵是對(duì)旅游路線規(guī)劃問題進(jìn)行精準(zhǔn)建模,可以通過對(duì)TSP模型加入不同參數(shù)和約束進(jìn)行擴(kuò)展得到不同的求解模型。這類工作又可以按照路線數(shù)量分為2類:1)求解出單條路線,找到能夠滿足用戶旅行約束和用戶對(duì)POI的偏好并且利潤最大化的單程旅游線路;2)求解出多條路線。
3.1.1 單路線求解方法
旅游路線規(guī)劃問題的單路線求解,可以利用單一目標(biāo)旅行商問題增加收益目標(biāo)進(jìn)行變型建模,將節(jié)點(diǎn)之間的連接與收益和旅行成本相關(guān)聯(lián)。其目標(biāo)是:在所有節(jié)點(diǎn)的子集上找到一條回路,使得收益最大化,同時(shí)旅行成本最小化[8]。
OP問題是上述模型的一個(gè)變型,通常用于尋找在給定旅行花費(fèi)的條件下使得總收益最大的路線。例如,Souffriau等[8]提出了OP問題在城市旅游中的應(yīng)用,給出了一個(gè)綜合人工智能和元啟發(fā)式的方法。在已有的關(guān)于旅游路線規(guī)劃的研究中絕大多數(shù)使用OP及其擴(kuò)展建模不同變型。
具有時(shí)間窗口的OP變型是目前的一個(gè)研究熱點(diǎn)。在該變型中考慮了對(duì)于圖中的每個(gè)節(jié)點(diǎn)可能在不同的時(shí)間窗口內(nèi)訪問的情況,因此能夠在建模時(shí)加入興趣點(diǎn)的開放時(shí)間因素。例如,Gunawan等[9-10]提出了一種迭代本地搜索算法,使用貪心方法生成初始可行解,基于輪盤選擇的方法插入非計(jì)劃節(jié)點(diǎn)。在之后的工作,Gunawan等[11]進(jìn)一步引入模擬退火算法,以較小的概率接受較差的解決方案,在一定程度上解決陷入局部最優(yōu)的問題。時(shí)間窗對(duì)傳統(tǒng)OP問題的性質(zhì)及其解決算法有很大的影響。然而,因?yàn)椴煌包c(diǎn)可能在開放時(shí)間上有所不同,例如,大型燈光演出時(shí)間為夜晚,公園開放時(shí)間在白天,所以傳統(tǒng)OP中通過重新對(duì)訪問點(diǎn)排序來減少旅行時(shí)間的方法在這里并不適用。
具有時(shí)間依賴的OP問題在進(jìn)行路線規(guī)劃時(shí)將時(shí)間因素加入邊的代價(jià)中,從而可以對(duì)旅行中在景點(diǎn)之間采用不同交通方式的情況進(jìn)行建模。在此基礎(chǔ)上,Verbeeck等[12]提出了一種基于蟻群算法的快速本地搜索元啟發(fā)式方法,將蟻群算法的原理與包含時(shí)間依賴的本地搜索方法相結(jié)合,快速給出有效解決方案。通過實(shí)驗(yàn)表明,該算法能夠在花費(fèi)很少計(jì)算時(shí)間的情況下獲得高質(zhì)量的路線規(guī)劃結(jié)果,保證在出現(xiàn)新的可用交通信息時(shí)快速更新路線,幫助游客快速到達(dá)目的地。
多目標(biāo)OP問題是OP的多目標(biāo)變型,每個(gè)節(jié)點(diǎn)(即POI)可以被分配給不同的類別,例如文化、歷史、休閑、購物等,并且為每個(gè)類別提供不同的收益,在不違反最大旅行成本限制的情況下找到所有的高效解決方案。Schilde等[13]通過對(duì)多目標(biāo)OP問題在城市旅游中的運(yùn)用進(jìn)行研究,開發(fā)和應(yīng)用了2種用于多目標(biāo)定向問題的啟發(fā)式解決方法,這2種方法考慮到了每個(gè)旅游者在選擇和訪問興趣點(diǎn)(例如博物館、教堂)時(shí)對(duì)不同的類別可能有不同偏好的情況,使用帕累托蟻群優(yōu)化算法將可變鄰域搜索方法擴(kuò)展到多目標(biāo)情況。通過來自現(xiàn)實(shí)世界中幾個(gè)城市的實(shí)例對(duì)2種算法進(jìn)行了測(cè)試,結(jié)果表明,2種方法對(duì)解決多目標(biāo)定向問題都有很好的效果,能夠根據(jù)不同游客對(duì)不同景點(diǎn)的偏好程度設(shè)計(jì)出使游客滿意度最大的個(gè)性化旅游路線。
弧定向問題將傳統(tǒng)OP中的收益不再放在節(jié)點(diǎn)中,而是放在邊上,其中每條邊只能訪問一次,用邊上的取值來表示景點(diǎn)的得分或者道路的狀況。Lu等[14]將目標(biāo)放在尋找風(fēng)景最優(yōu)美的路線上而不是距離最短的路線上,將道路網(wǎng)絡(luò)視為空間網(wǎng)絡(luò),利用空間數(shù)據(jù)領(lǐng)域中的橢圓修剪和空間索引技術(shù),提出了一系列元啟發(fā)式算法來解決大規(guī)模道路網(wǎng)絡(luò)中快速響應(yīng)的問題;實(shí)驗(yàn)表明,該方法在推薦結(jié)果的準(zhǔn)確性和效率上都有很大的提升。而在之后的工作中,該作者進(jìn)一步提出了具有時(shí)間依賴的弧定向問題模型,在道路網(wǎng)絡(luò)的邊中同時(shí)融合旅行花費(fèi)和吸引力值,在滿足用戶時(shí)間約束的前提下得到用戶最喜歡的路線規(guī)劃結(jié)果[15]。
通過上述工作可以發(fā)現(xiàn),在建模時(shí)考慮到多方面因素能夠提高路線規(guī)劃結(jié)果的準(zhǔn)確性,如表1所示。此外,還有一些OP變型可用于建模旅游路線規(guī)劃問題中更加具體的內(nèi)容[16-19],如可能需要多次訪問或長(zhǎng)時(shí)間訪問一個(gè)POI,這些變型對(duì)于提高具體問題推薦結(jié)果的準(zhǔn)確性有很大幫助。
表 1 建模因素對(duì)比Table 1 Modeling factors’ comparison
3.1.2 多路線求解方法
用雙目標(biāo)TSP求解多路線的擴(kuò)展變型被稱為帶利潤的車輛路由問題。該問題中,不再是強(qiáng)制性地訪問整個(gè)節(jié)點(diǎn)集合,而是在訪問節(jié)點(diǎn)時(shí)收集利潤,且利潤的收集分布在具有有限容量的幾輛車上。團(tuán)隊(duì)定向問題是該問題的一個(gè)變型,多用于旅游路線規(guī)劃問題的多路線求解,其目標(biāo)是找到在最大長(zhǎng)度限制條件下的k條路徑(其中每個(gè)節(jié)點(diǎn)最多訪問一次),并且具有最大的總收益。
帶時(shí)間窗口的團(tuán)隊(duì)定向問題中加入了對(duì)POI在特定的時(shí)間窗口進(jìn)行訪問的限制,從而可以適應(yīng)更多場(chǎng)景。Lin等[20]提出了一個(gè)基于模擬退火算法的啟發(fā)式算法,在每次迭代中,通過對(duì)當(dāng)前解以相等的概率應(yīng)用移動(dòng)交換,插入或倒置其中的一個(gè)節(jié)點(diǎn)來獲得相鄰解,如果它比當(dāng)前最佳找到的解決方案更具有收益,則新的解決方案被采用并成為當(dāng)前的解決方案,這個(gè)概率會(huì)隨著損失的增加而減少,應(yīng)用上述方法進(jìn)行一定數(shù)量的迭代之后,就會(huì)進(jìn)一步優(yōu)化用局部搜索方法找到目前最佳解。
帶時(shí)間依賴和時(shí)間窗口的團(tuán)隊(duì)定向問題是指:給出一組節(jié)點(diǎn)和每對(duì)節(jié)點(diǎn)之間的旅行時(shí)間,其中每個(gè)節(jié)點(diǎn)與利潤、訪問時(shí)間和時(shí)間窗口相關(guān)聯(lián),目的是找到從起始節(jié)點(diǎn)到目的節(jié)點(diǎn)間的固定數(shù)量且不相交的路徑,每條路徑不超過給定的時(shí)間限制,在不違反其時(shí)間窗口的情況下通過訪問所有路徑中的節(jié)點(diǎn)來最大化收集總利潤。Garcia等[21]提出了2種不同的方法來解決上述問題:1)利用預(yù)先計(jì)算,得到所有POI對(duì)之間的平均旅行時(shí)間,約減掉時(shí)間依賴限制;2)在旅行時(shí)間上加入時(shí)間依賴,但是該方法是基于周期性服務(wù)時(shí)間的簡(jiǎn)化假設(shè),不符合現(xiàn)實(shí)中城市的交通網(wǎng)絡(luò)。
此外還有一些用于模擬旅游路線規(guī)劃問題的TOP變型,考慮到問題的更多屬性或?qū)Σ煌瑢傩缘亩鄠€(gè)約束,Luo等[22]引入了一種用于TOP變型的啟發(fā)式算法,該方法在旅行中插入節(jié)點(diǎn)時(shí)應(yīng)用2種不同的優(yōu)先級(jí)規(guī)則,算法在解決方案的質(zhì)量和執(zhí)行時(shí)間方面優(yōu)于其他啟發(fā)式算法,能夠在較短時(shí)間內(nèi)得到由精確算法求解實(shí)例中的最優(yōu)解;Li等[23]制定了帶容量約束和時(shí)間窗口的團(tuán)隊(duì)定向問題,增加了服務(wù)節(jié)點(diǎn)在有限時(shí)間可用性的約束,并使用整數(shù)線性規(guī)劃求解方法獲得了精確的解,然而這種方法不適合進(jìn)行實(shí)時(shí)應(yīng)用。
綜上所述,利用OP的多種變型對(duì)旅游路線規(guī)劃問題進(jìn)行建模求解的方法,可以準(zhǔn)確建模旅游路線規(guī)劃問題中多方面的因素,如用戶約束、景點(diǎn)開放時(shí)間和出行交通方式等,能得到一個(gè)或多個(gè)滿足用戶約束的精確路線規(guī)劃結(jié)果,但是這種方法與現(xiàn)實(shí)生活中的旅游路線規(guī)劃問題還有很多不同。首先,由于旅游活動(dòng)是一個(gè)動(dòng)態(tài)的過程,有很多不確定的因素,無法進(jìn)行準(zhǔn)確建模,而恰是這些不確定因素可能對(duì)路線預(yù)測(cè)的準(zhǔn)確性起著決定性的作用[24]。此外,在對(duì)旅游路線規(guī)劃問題的建模求解時(shí),基于興趣點(diǎn)的考慮,只是將興趣點(diǎn)作為一個(gè)點(diǎn),并沒有考慮到興趣點(diǎn)的實(shí)際大小,因此這種方法只適用于博物館、公園、小廣場(chǎng)等有固定出口且范圍較小的景點(diǎn),對(duì)于相對(duì)較大的景點(diǎn),這種方法就會(huì)與實(shí)際情況有較大出入,如在游覽一條觀光河道時(shí),興趣點(diǎn)的起點(diǎn)和終點(diǎn)可能相差很遠(yuǎn),這時(shí)再從起點(diǎn)進(jìn)行路線規(guī)劃就變得不切實(shí)際。
近些年,由于信息的傳播和共享越來越便捷,互聯(lián)網(wǎng)上積累了大量的集體智慧相關(guān)數(shù)據(jù),影響著人類生活的許多領(lǐng)域,尤其是旅游業(yè)和旅游行為。研究表明,超過87%的客戶依靠集體智慧為旅行做出決定,例如旅行者在預(yù)訂住宿之前通常會(huì)查看相關(guān)的評(píng)分和評(píng)論[25]。雖然許多旅游網(wǎng)站提供關(guān)于目的地和旅行路線的信息,但是整合和比較來自海量用戶的不同類型信息需要大量時(shí)間和精力[26]。
在旅游領(lǐng)域中,用戶在進(jìn)行一次旅行后,通常會(huì)分享自己的經(jīng)驗(yàn)和評(píng)論,形成了包括用戶評(píng)論、照片、簽到數(shù)據(jù)、旅游游記和GPS軌跡等信息的大量用戶生成內(nèi)容,這些數(shù)據(jù)為便利行程計(jì)劃提供了極大的機(jī)會(huì)[27]。雖然一個(gè)單獨(dú)的評(píng)論或者旅游游記中可能存在噪聲或者偏見,但是將來自大量用戶的貢獻(xiàn)的內(nèi)容作為一個(gè)整體可以有效地抓住一個(gè)景點(diǎn)的本質(zhì)。因此,越來越多的研究利用空間分析和數(shù)據(jù)挖掘等技術(shù)對(duì)這些內(nèi)容進(jìn)行分析[28],得到用戶的相關(guān)偏好和歷史軌跡信息,發(fā)現(xiàn)游客間的相似性,實(shí)現(xiàn)旅游路線的推薦[29]。
3.2.1 利用用戶GPS軌跡進(jìn)行求解
隨著配備GPS功能的設(shè)備數(shù)量不斷增加,越來越多的軌跡被連續(xù)地產(chǎn)生和分享,也正在改變著人們與網(wǎng)絡(luò)的交互方式。基于這些軌跡信息,一些應(yīng)用問題變得可行,例如旅游路線規(guī)劃問題,GPS軌跡中包含豐富的信息,可以挖掘用戶在一個(gè)位置花費(fèi)的時(shí)間和對(duì)不同位置的訪問順序等,這些信息可以被用來挖掘指定區(qū)域中的熱門景點(diǎn)和一般的旅行路線,從而進(jìn)一步改進(jìn)路線推薦。
3.2.2 利用帶地理標(biāo)簽的照片進(jìn)行求解
目前,社交網(wǎng)站中存在大量帶地理標(biāo)簽的照片數(shù)據(jù),從這些照片數(shù)據(jù)中分析歷史用戶位置在地理空間中的分布特征和用戶位置隨時(shí)間的變化特征可以挖掘出用戶的行進(jìn)路線,這些路線可以加入到用于路線推薦的知識(shí)庫中,通過這些挖掘出的路線幫助新用戶進(jìn)行旅游路線規(guī)劃,可以提高路線規(guī)劃的準(zhǔn)確度和個(gè)性化程度。
利用帶地理標(biāo)簽的用戶照片進(jìn)行旅游路線規(guī)劃的工作是當(dāng)前旅游路線規(guī)劃問題研究領(lǐng)域中的一大熱點(diǎn)。其中一類工作的重點(diǎn)是從地理標(biāo)簽照片中挖掘出隱含信息,進(jìn)而得到用戶的旅行習(xí)慣、移動(dòng)模式或興趣偏好等信息為用戶進(jìn)行路線規(guī)劃。而另一類將重點(diǎn)放在從照片中挖掘序列特性,之后利用挖掘到的序列特性結(jié)合概率模型,得到從一個(gè)景點(diǎn)最有可能去往的下一個(gè)景點(diǎn)信息,最終生成路線規(guī)劃結(jié)果,這類工作的推薦結(jié)果更傾向于路線的流行程度。
Sun等[31]將重點(diǎn)放在挖掘旅游路線中的道路片段信息上,而不是挖掘用戶相關(guān)信息,通過計(jì)算得到道路片段的流行度進(jìn)行兩個(gè)景點(diǎn)間的道路推薦。首先利用空間聚類對(duì)照片進(jìn)行分類,而在噪音數(shù)據(jù)的處理上,提出一種熵過濾方法從照片數(shù)據(jù)中去除掉與旅行無關(guān)的照片,具體實(shí)現(xiàn)如式(1)、式(2):
式中:Di(u)是在目標(biāo)區(qū)域用戶u在第i個(gè)月的拍照天數(shù);Mon(u)是用戶u在目標(biāo)區(qū)域拍照的月數(shù),作者使用一個(gè)閾值E(u),當(dāng)超過這個(gè)值時(shí),就將該照片的拍攝者認(rèn)定為本地居民,否則認(rèn)為是游客拍攝的照片。最后利用DBSCAN算法從照片數(shù)據(jù)中識(shí)別出地標(biāo)建筑,并按照流行度進(jìn)行排序。實(shí)驗(yàn)數(shù)據(jù)表明,該方法能夠給用戶推薦一個(gè)包括合適景點(diǎn)且路線長(zhǎng)度適中的旅游路線,但這種方法存在一定的缺點(diǎn),主要體現(xiàn)在計(jì)算興趣點(diǎn)流行度時(shí)并沒有考慮游客的經(jīng)驗(yàn)和知識(shí)。
Wei等[32]提出了基于集體知識(shí)的路線推理框架。首先給定一個(gè)位置序列和時(shí)間跨度,通過以相互加強(qiáng)的方式聚合用戶照片數(shù)據(jù),得到流行的路線信息,之后路線算法根據(jù)用戶指定的查詢來構(gòu)造top-k路線。算法可以在0.5 s內(nèi)找到前3個(gè)路線,與其相應(yīng)的地理實(shí)況相比,距離誤差小于300 m。
Tai等[33]使用關(guān)聯(lián)規(guī)則挖掘和序列模式挖掘從用戶帶地理標(biāo)簽的照片中提取用戶對(duì)熱門景點(diǎn)的訪問序列,從而進(jìn)一步得到流行路線信息,之后基于用戶的歷史訪問信息,從這些路線中挑選出最適合該用戶的路線推薦給用戶;Lu等[34]使用從Panoramio中收集的大量帶地理標(biāo)簽的照片,提出一個(gè)旅行路線生成算法,該方法考慮到在每個(gè)位置花費(fèi)的時(shí)間、總旅行時(shí)間和用戶偏好。
上述工作并沒有將用戶行為習(xí)慣、興趣偏好和路線的流行度進(jìn)行結(jié)合,路線規(guī)劃結(jié)果的個(gè)性化程度不高。此外,在對(duì)用戶進(jìn)行路線規(guī)劃時(shí)并沒有過多地考慮上下文信息,如天氣、訪問時(shí)間、季節(jié)等,而這些因素往往影響了旅行者的訪問習(xí)慣,進(jìn)而使得推薦結(jié)果的準(zhǔn)確性大大降低。文獻(xiàn)[35-36]基于以上不足出發(fā),在利用用戶照片數(shù)據(jù)的同時(shí)加入更多的上下文信息來提高路線推薦結(jié)果的準(zhǔn)確性。例如,Arain等[37]利用帶地理標(biāo)簽的照片提取旅游景點(diǎn)語義信息的同時(shí)挖掘用戶喜好信息,在進(jìn)行推薦時(shí)考慮到用戶的當(dāng)前上下文信息,包括時(shí)空上下文信息、社交上下文信息和天氣上下文信息。Huang[38]基于游客對(duì)景點(diǎn)進(jìn)行訪問時(shí)在上下文存在相似性的原理出發(fā),提出一種基于啟發(fā)式的上下文相似度的計(jì)算方法,能夠準(zhǔn)確刻畫用戶間的上下文相似性,從而在對(duì)用戶進(jìn)行路線推薦的過程中加入上下文信息,給用戶提供更加準(zhǔn)確的推薦;這種方法不但能夠用于照片數(shù)據(jù),同樣可以在用戶GPS軌跡、簽到信息等數(shù)據(jù)中使用,提供具有上下文感知的推薦結(jié)果。
小禿子是一個(gè)神經(jīng)兮兮的小女孩兒,她的頭發(fā)稀而少,瞅人的眼神兒總是甜甜的,一副意味深長(zhǎng)的樣子。我只知道她的養(yǎng)母是一個(gè)有名的風(fēng)流娘們兒,其他情況就不得而知了。小禿子可能是因?yàn)樾袨檩p浮被校方留了下來。她負(fù)責(zé)搞教研室的衛(wèi)生。
3.2.3 利用用戶簽到數(shù)據(jù)進(jìn)行求解
隨著基于位置的服務(wù)的興起,F(xiàn)acebook等社交網(wǎng)絡(luò)提供了用戶“簽到”的服務(wù),用戶通過該服務(wù)可以將自己當(dāng)前的訪問地點(diǎn)與時(shí)間信息展現(xiàn)在自己的主頁上?;诤灥綌?shù)據(jù)進(jìn)行路線規(guī)劃是近年來基于位置服務(wù)中一個(gè)比較流行的研究領(lǐng)域。通過分析用戶連續(xù)的簽到數(shù)據(jù),分析用戶位置隨時(shí)間的變化和簽到位置在地理空間中的分布特征,挖掘簽到位置在時(shí)間周期內(nèi)的分布規(guī)律,從而可以得到用戶的歷史軌跡和訪問時(shí)間等信息。此外,通過對(duì)某個(gè)特定地點(diǎn)的簽到數(shù)據(jù)進(jìn)行分析,還能夠進(jìn)一步挖掘出熱門景點(diǎn)信息。
這類工作通?;谟脩舻某霭l(fā)點(diǎn)和目的地,并結(jié)合一些用戶限制為用戶進(jìn)行推薦行程;在具體推薦算法上主要使用了基于人口統(tǒng)計(jì)學(xué)的推薦和基于模型的推薦。宋曉宇等[39]基于用戶簽到數(shù)據(jù)提出了一種短時(shí)間體驗(yàn)式路線搜索算法,利用簽到數(shù)據(jù)中連續(xù)兩個(gè)景點(diǎn)簽到的時(shí)間間隔來代表兩個(gè)景點(diǎn)間的總時(shí)間代價(jià),能夠在短時(shí)間內(nèi)讓用戶體驗(yàn)到多種類別特點(diǎn)的景點(diǎn),得到一個(gè)滿足用戶要求且具有最大收益的路線作為推薦結(jié)果;然而,該方法會(huì)隨著景點(diǎn)個(gè)數(shù)增加而增大空間的消耗程度,且沒有考慮景點(diǎn)在不同時(shí)間段的流行程度問題。文獻(xiàn)[40]利用簽到數(shù)據(jù)針對(duì)旅游中常見的結(jié)伴出行現(xiàn)象,提出一種群體旅游路線推薦問題,通過分析聚合用戶偏好時(shí)通常采用的平均數(shù)策略與無痛苦策略在推薦結(jié)果方面存在的不足,針對(duì)搜索路線所具有的動(dòng)態(tài)性特點(diǎn),提出了一種動(dòng)態(tài)聚合用戶偏好的策略;基于該策略建立路線評(píng)價(jià)模型,對(duì)路線進(jìn)行滿意度評(píng)分,返回分值最高的路線,并驗(yàn)證了算法在不同參數(shù)設(shè)置下的有效性。
Cho等[41]基于用戶簽到行為的時(shí)間特征,利用人類運(yùn)動(dòng)的周期性原理,設(shè)計(jì)出了一個(gè)能夠基于當(dāng)前時(shí)間進(jìn)行位置推薦的路線推薦系統(tǒng),認(rèn)為短期出行在空間和時(shí)間上的周期性不受社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的影響,而長(zhǎng)途旅行則更多地受到來自社會(huì)網(wǎng)絡(luò)關(guān)系的影響。鑒于此,筆者借助時(shí)間概率分布函數(shù)和社會(huì)關(guān)系提出了一個(gè)人類流動(dòng)模型,相比現(xiàn)有的人類流動(dòng)模型具有更好的預(yù)測(cè)性能,從而可以預(yù)測(cè)用戶未來運(yùn)動(dòng)的位置和相關(guān)動(dòng)態(tài),提高了對(duì)用戶進(jìn)行路線規(guī)劃結(jié)果的準(zhǔn)確性。但該模型并沒有考慮突發(fā)狀況對(duì)于出行活動(dòng)的影響,在路線預(yù)測(cè)的可靠性上也還有待提高。
Rahimi等[42]通過研究用戶簽到數(shù)據(jù)中空間和時(shí)間的周期性進(jìn)一步擴(kuò)展了現(xiàn)有工作,提出了2種新的推薦算法,即基于用戶空間旅行行為的概率分類推薦方法和基于用戶歷史行為的概率分類推薦方法,然后使用時(shí)間概率分布對(duì)用戶推薦感興趣類別的位置。實(shí)驗(yàn)結(jié)果表明,該方法在召回率和準(zhǔn)確率上可以實(shí)現(xiàn)超過15%的提升。
3.2.4 利用多類型用戶生成內(nèi)容進(jìn)行求解
利用單一類型的用戶生成內(nèi)容進(jìn)行旅游路線規(guī)劃時(shí),往往存在很大的不確定性,需要加入多方面的限制進(jìn)行預(yù)測(cè)和判斷,很難保證所挖掘到的用戶軌跡的準(zhǔn)確性。因此,綜合利用多種類型的用戶生成內(nèi)容,更加準(zhǔn)確地挖掘用戶歷史軌跡對(duì)用戶進(jìn)行旅行路線推薦的方法成為當(dāng)下研究的熱點(diǎn)。
Guo等[43]利用一種多源社交媒體融合的方法從多方面整合零碎的旅游信息對(duì)用戶進(jìn)行路線推薦。利用信息熵的方法計(jì)算一個(gè)詞在一條評(píng)論中所占的比重,從而進(jìn)一步得到一條評(píng)論在所有評(píng)論所占的比重,去掉景點(diǎn)的無效評(píng)論信息,將游記中景點(diǎn)出現(xiàn)的順序作為用戶對(duì)于景點(diǎn)的訪問序列,之后利用序列模式挖掘算法從用戶游記中挖掘流行路線,最后基于用戶評(píng)論和景點(diǎn)圖片之間的相似性以及從游記中挖掘的流行路線,得到多源信息間的相關(guān)性,實(shí)現(xiàn)對(duì)用戶路線推薦。但是這種方法在進(jìn)行路線推薦時(shí),并沒有考慮到一條路線的時(shí)間和花費(fèi)約束,也沒有考慮到用戶的個(gè)性化偏好和需求,因此推薦結(jié)果的準(zhǔn)確性和個(gè)性化程度不高。
Chen等[44]利用基于地理位置的社交網(wǎng)絡(luò)中的地理標(biāo)簽圖像和用戶簽到信息,提出了一個(gè)名為Scenic Planner的新型框架用于旅行路線推薦。該框架包括風(fēng)景路網(wǎng)建模和景區(qū)路線規(guī)劃:首先,通過從地理標(biāo)簽圖像和簽到數(shù)據(jù)中提取相關(guān)信息,豐富道路網(wǎng)絡(luò),為每條路段分配適當(dāng)?shù)木坝^評(píng)分,為景區(qū)道路網(wǎng)建模;之后,應(yīng)用啟發(fā)式算法在滿足用戶指定約束(包括起點(diǎn)、目的地和總新行駛距離)的情況下迭代地添加路段使得總景點(diǎn)評(píng)分最大化;最后,通過現(xiàn)實(shí)世界中的3個(gè)數(shù)據(jù)集驗(yàn)證了框架的效率和效能。雖然該框架在一定程度上加速了道路網(wǎng)絡(luò)中節(jié)點(diǎn)距離的計(jì)算,但并未考慮時(shí)間因素,如在一天中的不同時(shí)間或者在不同季節(jié)的建模問題,不能完全整合用戶的旅游偏好。
Chen等[45]抽取多源信息的特征后利用機(jī)器學(xué)習(xí)的方法進(jìn)行訓(xùn)練,從而獲得用戶歷史行為習(xí)慣,對(duì)用戶進(jìn)行路線推薦。首先抽取出景點(diǎn)的分類、流行度、平均訪問時(shí)間和總訪問時(shí)間作為景點(diǎn)特征,使用K-means方法對(duì)景點(diǎn)進(jìn)行聚類,通過景點(diǎn)信息獲得興趣點(diǎn)的排名信息,來解決路線規(guī)劃中的起點(diǎn)和終點(diǎn)問題;在旅游游記中利用馬爾科夫鏈模型挖掘興趣點(diǎn)之間的轉(zhuǎn)移特性,最終結(jié)合景點(diǎn)排名和景點(diǎn)間的轉(zhuǎn)移特性推薦出一條路線。該方法與其他路線推薦方法相比在時(shí)間和準(zhǔn)確性上有很大提高,但是這種方法并沒有考慮到用戶的個(gè)性化需求和旅行路線規(guī)劃的動(dòng)態(tài)性。例如:一個(gè)用戶在一個(gè)景點(diǎn)花費(fèi)的時(shí)間過長(zhǎng)時(shí),去往下一個(gè)景點(diǎn)的概率可能會(huì)發(fā)生相應(yīng)的改變。
現(xiàn)階段越來越多的工作基于這些用戶生成內(nèi)容出發(fā),從中挖掘用戶的歷史行為習(xí)慣和出行軌跡、旅行路線等信息,其中一些具有代表性的工作如表2所示,這些工作的優(yōu)點(diǎn)是可以避免傳統(tǒng)基于建模方法的復(fù)雜度問題,在路線規(guī)劃結(jié)果上更貼近于現(xiàn)實(shí)生活,符合用戶行為習(xí)慣。然而,在處理用戶數(shù)據(jù)上也會(huì)花費(fèi)一定的時(shí)間,并且當(dāng)前存在的主要問題是,推薦的結(jié)果主要停留在熱門的景點(diǎn)和路線上,在推薦時(shí)并沒有過多地考慮到用戶的偏好和用戶所處地點(diǎn)和時(shí)間的上下文信息(如天氣、訪問季節(jié)等),推薦結(jié)果的個(gè)性化程度和準(zhǔn)確性方面有很大的提升空間。
表 2 基于UGC進(jìn)行旅游路線規(guī)劃工作對(duì)比Table 2 Comparison of UGC based tourism route-planning
在進(jìn)行旅游路線規(guī)劃問題求解時(shí),除了要對(duì)用戶建立詳細(xì)的用戶畫像以及挖掘用戶的行為習(xí)慣和相關(guān)偏好之外,還需要考慮用戶的上下文信息和相關(guān)旅游信息,以便進(jìn)一步提高推薦結(jié)果的準(zhǔn)確性。基于這種認(rèn)識(shí),在對(duì)3.1節(jié)、3.2節(jié)中相關(guān)工作進(jìn)行考察的基礎(chǔ)上,設(shè)計(jì)了圖1所示的旅游路線規(guī)劃系統(tǒng)整體架構(gòu)。
圖 1 旅游路線規(guī)劃系統(tǒng)整體架構(gòu)Fig. 1 Tourism route-planning system framework
3.3.1 貼近現(xiàn)實(shí)進(jìn)行精準(zhǔn)建模
在對(duì)旅游路線規(guī)劃問題進(jìn)行建模求解時(shí),現(xiàn)有的多數(shù)工作只考慮到以固定的起點(diǎn)和終點(diǎn)進(jìn)行規(guī)劃,用戶被限制在一組預(yù)定義的地點(diǎn)中,這與現(xiàn)實(shí)的場(chǎng)景相差較大,顯然使用固定集合中預(yù)定義的位置(例如POI和酒店)計(jì)算的旅行成本不能支持動(dòng)態(tài)的使用場(chǎng)景,因此應(yīng)該對(duì)研究的問題進(jìn)一步泛化,其中旅程的開始、結(jié)束位置可以是目的地城市中的任意位置,在運(yùn)行時(shí)才被確定。此外,在建模的過程中加入更多的用戶約束和用戶上下文信息,如天氣、位置和季節(jié)信息等,能夠在貼近用戶需求的同時(shí)極大地提高路線推薦的準(zhǔn)確性;在進(jìn)行精準(zhǔn)建模時(shí)還可以參照一些其他領(lǐng)域的研究工作,利用其中的一些優(yōu)化算法,捕獲旅游路線規(guī)劃問題中密切相關(guān)的約束,如建模參數(shù)等。
3.3.2 數(shù)據(jù)預(yù)處理
在利用用戶生成內(nèi)容進(jìn)行旅游路線規(guī)劃時(shí),數(shù)據(jù)的來源主要集中在相關(guān)網(wǎng)站和用戶的個(gè)人分享,得到的初始數(shù)據(jù)存在很多噪音信息或者數(shù)據(jù)缺失的現(xiàn)象,而數(shù)據(jù)的數(shù)量和準(zhǔn)確性直接關(guān)系到所生成推薦路線的質(zhì)量,因此如何對(duì)獲取到的數(shù)據(jù)進(jìn)行精確的預(yù)處理是此類工作的一個(gè)研究重點(diǎn)。噪音數(shù)據(jù)處理的結(jié)果會(huì)直接影響最終的推薦結(jié)果,例如,對(duì)常住居民拍攝的照片和游客拍攝的照片進(jìn)行區(qū)分,能夠更加準(zhǔn)確地挖掘出游客歷史旅行習(xí)慣[33];在使用用戶歷史GPS軌跡挖掘軌跡信息進(jìn)行路線規(guī)劃時(shí),由于受GPS精度和信號(hào)干擾等因素影響,導(dǎo)致原始GPS數(shù)據(jù)中可能存在一些異常點(diǎn),而這些異常點(diǎn)屬于噪音數(shù)據(jù),會(huì)影響后續(xù)用戶軌跡挖掘時(shí)的精度和準(zhǔn)確性,可以基于序列中相鄰點(diǎn)的移動(dòng)距離小于最大行進(jìn)距離的原理;利用軌跡點(diǎn)之間的歐式距離和游客最大移動(dòng)速度剔除掉序列中的異常點(diǎn)。
3.3.3 位置軌跡挖掘與用戶偏好特征提取
在利用用戶生成內(nèi)容對(duì)用戶進(jìn)行旅游路線規(guī)劃時(shí),用戶的位置移動(dòng)軌跡能夠在一定程度上反應(yīng)出用戶的旅行習(xí)慣和偏好行為,因此如何從這些數(shù)據(jù)中準(zhǔn)確地獲取到用戶的相關(guān)信息(歷史軌跡、偏好信息等)是此類工作關(guān)鍵問題之一,無論在應(yīng)用開發(fā)還是學(xué)術(shù)研究中,準(zhǔn)確挖掘用戶信息都起到至關(guān)重要的作用,在未來的研究工作中,應(yīng)該是重點(diǎn)關(guān)注的內(nèi)容之一。目前利用用戶生成內(nèi)容提取的用戶旅行活動(dòng)特征主要包括用戶旅行活動(dòng)的地理空間分布特性、用戶軌跡中訪問地點(diǎn)的挖掘和序列特征、用戶照片中地標(biāo)建筑和訪問次序的挖掘。在推薦時(shí)考慮到不同用戶可能有不同需求,為了給用戶推薦更高質(zhì)量旅游路線,挖掘到用戶的位置軌跡和偏好特征信息后結(jié)合更多的上下文信息,如用戶的當(dāng)前位置、景區(qū)實(shí)時(shí)流量、突發(fā)事件報(bào)告和用戶行為習(xí)慣等,能夠進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確性。此外,來源于社交網(wǎng)絡(luò)中的旅游數(shù)據(jù)在文本描述方面通常較為簡(jiǎn)短,所以語義稀疏性較高,因此如何有效解決旅游數(shù)據(jù)的語義稀疏問題以準(zhǔn)確獲取游客偏好也是此類工作的一個(gè)重點(diǎn)和難點(diǎn)問題,如近期Kou[48]、Cheng[49]等利用短文本中的空間和時(shí)間等特征提出了一些具有代表性的主題模型抽取方法。
3.3.4 路線快速生成與實(shí)時(shí)更新
在當(dāng)前大數(shù)據(jù)的時(shí)代背景和全域旅游的發(fā)展戰(zhàn)略下,用戶生成數(shù)據(jù)激增,可選擇的旅行地點(diǎn)和內(nèi)容也急劇增多,這些都為快速實(shí)現(xiàn)路線規(guī)劃帶來很大的困難。在旅游路線規(guī)劃的算法設(shè)計(jì)中最重要的目標(biāo)之一便是對(duì)用戶查詢的實(shí)時(shí)響應(yīng),目前解決這一問題的有效途徑之一是通過并行計(jì)算技術(shù),例如在啟發(fā)式和元啟發(fā)式算法中對(duì)好的相鄰解的局部搜索進(jìn)行并行計(jì)算或者在空間中劃分多個(gè)子空間,并行地在每一個(gè)子空間中運(yùn)行啟發(fā)算法,因此并行計(jì)算技術(shù)是未來快速旅游行程推薦的重要研究方向之一。此外,現(xiàn)有解決方案中沒有考慮到用戶偏離原始計(jì)劃路線情形,盡管這種偏離極有可能發(fā)生,例如用戶自身狀況改變、突發(fā)社會(huì)事件、景區(qū)流量控制等,因此需要加入動(dòng)態(tài)重調(diào)度功能實(shí)時(shí)檢測(cè)當(dāng)前路線是否偏離,若偏離則呈現(xiàn)新的路線調(diào)度。
3.3.5 融合多源信息實(shí)現(xiàn)精準(zhǔn)推薦
利用多源的用戶生成內(nèi)容進(jìn)行路線規(guī)劃,可以更加準(zhǔn)確地挖掘用戶歷史軌跡和偏好等信息,能夠有效提高對(duì)用戶進(jìn)行路線推薦時(shí)的時(shí)效率和精確性,例如:通過用戶的歷史GPS信息和用戶簽到信息挖掘用戶的歷史軌跡要比從用戶照片中挖掘相關(guān)信息具有更高的可靠性,而通過用戶照片挖掘用戶歷史訪問景點(diǎn)信息要比前兩者具有更高的可靠性。除了利用照片數(shù)據(jù)挖掘用戶歷史軌跡,還可以利用景點(diǎn)的文本描述信息,從中提取出景點(diǎn)的分類信息、流行程度,平均訪問時(shí)間和總訪問時(shí)間,將其作為景點(diǎn)特征信息進(jìn)行景點(diǎn)聚類來提高推薦結(jié)果的準(zhǔn)確性。
3.3.6 用戶隱私保護(hù)
伴隨信息時(shí)代的快速發(fā)展,用戶的隱私問題得到了越來越多的關(guān)注,在基于位置的服務(wù)中,用戶的隱私保護(hù)問題一直是領(lǐng)域內(nèi)的熱點(diǎn)問題,更是關(guān)系到用戶是否使用該服務(wù)的決定性因素。在對(duì)用戶進(jìn)行路線推薦時(shí),需要用戶主動(dòng)共享位置信息來獲取用戶的移動(dòng)特征或行為偏好,其中涉及用戶的隱私問題主要體現(xiàn)在2個(gè)方面:這些信息可能被非法使用,有些隱私信息是用戶不希望被獲取到的。此外,在位置信息的傳播過程中也可能會(huì)導(dǎo)致用戶隱私的泄露,這主要是因?yàn)榫W(wǎng)絡(luò)中位置信息的傳播是以明文的形式,容易被非法的第三方機(jī)構(gòu)獲取。因此,如何權(quán)衡用戶隱私的保護(hù)與利用,為用戶提供良好的路線規(guī)劃服務(wù)的同時(shí)保護(hù)好用戶的隱私是當(dāng)前基于用戶歷史軌跡進(jìn)行路線規(guī)劃的一個(gè)重點(diǎn)問題,在未來用戶在位置共享的選擇上,可能會(huì)更加趨于自主化,而位置信息的傳播也會(huì)進(jìn)行相應(yīng)的加密。
旅游業(yè)的快速發(fā)展和日益嚴(yán)重的“信息過載”問題,使得旅游路線規(guī)劃問題得到了廣泛關(guān)注和應(yīng)用。雖然在已有的路線規(guī)劃問題研究中存在很多求解方法,但傳統(tǒng)的旅游路線規(guī)劃在推薦結(jié)果的質(zhì)量和速度上都存在很多不足,而全域旅游和智慧旅游等戰(zhàn)略的提出以及用戶分享內(nèi)容的激增,給旅游路線規(guī)劃問題帶來更多機(jī)遇的同時(shí)也帶來了巨大挑戰(zhàn),基于用戶生成內(nèi)容進(jìn)行旅行路線規(guī)劃的方法成為當(dāng)前研究的熱點(diǎn),但仍有一些問題有待解決。本文從旅游路線規(guī)劃問題建模出發(fā),分析了當(dāng)前研究工作中對(duì)問題進(jìn)行建模求解的現(xiàn)狀和不足。在此基礎(chǔ)上,引出了基于用戶生成內(nèi)容進(jìn)行旅游路線規(guī)劃的研究,從求解方法的不同角度詳細(xì)綜述了目前旅游路線規(guī)劃問題的研究進(jìn)展。在深入、細(xì)致地進(jìn)行分類總結(jié)的基礎(chǔ)上,指出其中的問題或不足。圍繞旅游路線規(guī)劃系統(tǒng)整體架構(gòu),對(duì)面臨的重點(diǎn)和難點(diǎn)問題進(jìn)行了分析和討論,為下一步旅游路線規(guī)劃問題的研究提供理論支持,同時(shí)指出了未來該領(lǐng)域研究的重點(diǎn)方向。