艾楚涵
(普洱學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 云南 普洱 665000)
隨著現(xiàn)代社會(huì)的不斷發(fā)展,旅游業(yè)在全球范圍內(nèi)已經(jīng)成為發(fā)展勢(shì)頭最強(qiáng)勁和規(guī)模最龐大的產(chǎn)業(yè)之一。目前,互聯(lián)網(wǎng)與各產(chǎn)業(yè)正處于相互融合的大環(huán)境中,旅游業(yè)也搭上了“互聯(lián)網(wǎng)+”的順風(fēng)車(chē)。同時(shí),旅游類(lèi)網(wǎng)絡(luò)平臺(tái)的出現(xiàn)增加了城市的曝光機(jī)會(huì)。同許多邊境城市一樣,普洱市在發(fā)展旅游業(yè)上同樣面臨著一些問(wèn)題。其中,區(qū)域旅游發(fā)展不平衡、旅游資源向思茅市區(qū)的景點(diǎn)傾斜嚴(yán)重等問(wèn)題成為思茅區(qū)沒(méi)能積極帶動(dòng)周邊縣域聯(lián)動(dòng)發(fā)展的一大原因。從普洱市文化和旅游局在2021年統(tǒng)計(jì)的《2019—2020年各縣區(qū)旅游主要指標(biāo)情況》可以看出,受疫情影響,2020年,普洱全市的旅游總收入為211.91億元,其中思茅區(qū)的總收入為56.78億元,占全市旅游總收入的26.79%,排名最靠后的是擁有勐梭龍?zhí)?、木依吉神谷等旅游資源的西盟縣,僅為3.93億元,占全市收入的1.85%?,F(xiàn)階段,普洱市旅游資源可以按照金字塔式分開(kāi),思茅區(qū)以其方便的交通以及多樣的旅游資源穩(wěn)居金字塔尖,再往下一層是以瀾滄縣和孟連縣為代表的具有豐富民族特色的旅游區(qū)域,最后一層是以景谷縣為代表的具有特色休閑旅游資源的地區(qū)。雖然普洱市內(nèi)的旅游資源都各具特色,但是地理位置相對(duì)分散,如何整合普洱市內(nèi)的旅游資源,實(shí)現(xiàn)普洱市各地區(qū)更平衡、更充分的發(fā)展是目前普洱市旅游業(yè)面臨的重大考驗(yàn)。
對(duì)旅游路線(xiàn)進(jìn)行規(guī)劃不僅能夠讓游客合理的對(duì)旅游項(xiàng)目進(jìn)行安排,根據(jù)自身需求選擇游玩路線(xiàn),還能讓游客在花費(fèi)相對(duì)較低、耗時(shí)相對(duì)較少、路程相對(duì)較短的情況下,游覽更多的地區(qū)[1]。因此,國(guó)內(nèi)外眾多學(xué)者圍繞數(shù)學(xué)建模、用戶(hù)生成內(nèi)容、地理學(xué)等多個(gè)方面對(duì)旅游路線(xiàn)的設(shè)計(jì)展開(kāi)研究。Hang等[2]提出一種基于關(guān)聯(lián)規(guī)則的方法為游客推薦最佳旅游路線(xiàn),該方法考慮了游客出行的日期、季節(jié),以及曾到訪過(guò)的地點(diǎn),基于上下文信息為游客推薦旅游路線(xiàn),并通過(guò)遺傳算法的優(yōu)化方法來(lái)尋找最優(yōu)路徑。Bin等[3]通過(guò)智能電話(huà)和物聯(lián)網(wǎng)技術(shù),收集游客行為數(shù)據(jù),通過(guò)Tourist-Behavior PrefixSpan算法從生成的模式序列中發(fā)現(xiàn)頻繁的旅游路線(xiàn),并根據(jù)查詢(xún)游客的概況和約束條件對(duì)旅游路線(xiàn)進(jìn)行排序,給游客推薦最佳路線(xiàn)。Yu等[4]通過(guò)挖掘社交網(wǎng)絡(luò)中的照片軌跡,分析不同游客發(fā)送到社交網(wǎng)絡(luò)的定位照片,提取類(lèi)似游客和群體的偏好,基于DBSCAN對(duì)用戶(hù)軌跡進(jìn)行聚類(lèi),然后通過(guò)Cluster-Growth算法進(jìn)一步判別用戶(hù)軌跡,最后結(jié)合距離感知和一致性感知策略對(duì)旅游路線(xiàn)進(jìn)行推薦。陸百川等[5]考慮道路交通和旅游景點(diǎn)因素對(duì)游客的影響,基于游客游玩景點(diǎn)的順序規(guī)劃距離最短的旅游路線(xiàn)。李旭等[6]在考慮景點(diǎn)熱度、用戶(hù)偏好等因素的前提下為用戶(hù)推薦熱度最高的景點(diǎn),并融合時(shí)間、費(fèi)用等約束條件對(duì)旅游路線(xiàn)進(jìn)行規(guī)劃。潘曉等[7]根據(jù)用戶(hù)指定類(lèi)別關(guān)鍵字生成訪問(wèn)序列,并結(jié)合路線(xiàn)距離、路線(xiàn)熱度及訪問(wèn)可能性對(duì)用戶(hù)規(guī)劃具有個(gè)性化需求的旅游路線(xiàn)。
目前對(duì)于旅游路線(xiàn)規(guī)劃的研究方法及內(nèi)容十分多樣,但針對(duì)需要打造“高品質(zhì)品牌的旅游目的地”的普洱市來(lái)說(shuō),對(duì)于能突出普洱市多樣特色的、能帶動(dòng)邊緣地區(qū)的、能整合周邊資源的旅游路線(xiàn)規(guī)劃的探討還有待研究。將文本聚類(lèi)算法應(yīng)用到普洱市旅游路線(xiàn)的規(guī)劃中,不僅可以為游客提供特色鮮明的主題旅游路線(xiàn),還能為沿線(xiàn)的地區(qū)提供人氣,加速普洱地區(qū)旅游經(jīng)濟(jì)的發(fā)展。本文旨在通過(guò)文本聚類(lèi)技術(shù)提取普洱市各景點(diǎn)間的關(guān)鍵特征,將具有相同主題的景點(diǎn)作為普洱市旅游路線(xiàn)規(guī)劃的依據(jù),打造主題鮮明的旅游路線(xiàn)。
通過(guò)Python編程爬取國(guó)內(nèi)著名的旅游攻略網(wǎng)站攜程中關(guān)于普洱市旅游景點(diǎn)的數(shù)據(jù)作為樣本集。首先對(duì)樣本集從宏觀上進(jìn)行描述性分析,探討普洱市內(nèi)各旅游景點(diǎn)的特點(diǎn);接著利用jieba庫(kù)對(duì)樣本集進(jìn)行分詞、停用詞過(guò)濾等預(yù)處理,得到結(jié)構(gòu)化的景點(diǎn)文本數(shù)據(jù);利用wordCloud制作景點(diǎn)高頻詞云,進(jìn)一步提煉普洱市旅游景點(diǎn)特征;利用隱含狄利克雷分布(latent dirichlet allocation, LDA)對(duì)模型訓(xùn)練,通過(guò)樣本集中景點(diǎn)介紹的描述文本對(duì)景點(diǎn)特征進(jìn)行聚類(lèi),整合具有相同特征的景點(diǎn);最后依據(jù)聚類(lèi)結(jié)果及景點(diǎn)間的地理、文化等因素,開(kāi)發(fā)出不同主題的旅游路線(xiàn)??紤]到普洱市內(nèi)的旅游景點(diǎn)多樣性,所以采集的數(shù)據(jù)除了24個(gè)國(guó)家A級(jí)旅游景區(qū)外,還包括了各地區(qū)的特色旅游景點(diǎn)共42個(gè)。
在自然語(yǔ)言處理任務(wù)中,需要將文本表示成計(jì)算機(jī)能夠識(shí)別的數(shù)字或向量。文本表示的模型有很多,基于分類(lèi)速度的考慮,本文采用向量空間模型(vector space model, VSM)來(lái)對(duì)旅游景點(diǎn)的文檔進(jìn)行表示。VSM在布爾模型的基礎(chǔ)上,將每一特征項(xiàng)的最終輸出形式由原來(lái)的0和1轉(zhuǎn)換為一個(gè)具體的權(quán)重[8]。文檔的特征項(xiàng)為預(yù)處理后文本中的字或單詞,而特征項(xiàng)的權(quán)重表示該項(xiàng)對(duì)于整篇文本的重要程度,也就是其能夠代表該文本的程度。對(duì)于某篇景點(diǎn)文檔Di,其特征可表示為{t1,t2,t3,…,tn},權(quán)值向量可表示為{w1,w2,w3,…,wj},則該景點(diǎn)文本的最終輸出形式為每個(gè)文檔的特征項(xiàng)權(quán)值。當(dāng)特征項(xiàng)對(duì)文本的解釋能力更強(qiáng)時(shí),其被賦予的權(quán)值更大。通過(guò)詞頻-逆文檔頻率(term frequency-inverse document frequency, TF-IDF)計(jì)算權(quán)值。TF-IDF算法的計(jì)算公式為
(1)
TF-IDF算法由TF與IDF兩部分算法的結(jié)合,TF-IDF能夠有效防止算法選擇出現(xiàn)頻率較高,卻對(duì)區(qū)分文本貢獻(xiàn)較低的詞作為特征詞。根據(jù)公式可知IDF的值越大,則該詞對(duì)文本有越強(qiáng)的解釋能力。因此,使用TF-IDF能夠有效挖掘出對(duì)景點(diǎn)特征有很好區(qū)分能力的特征詞,這些特征詞能夠代表整個(gè)景點(diǎn)的特點(diǎn),從而將該景點(diǎn)與其他景點(diǎn)區(qū)分開(kāi)來(lái)。向量空間模型也因?yàn)槠湓砗?jiǎn)單、計(jì)算靈活、針對(duì)文本處理表現(xiàn)較好等特點(diǎn),目前仍被文本處理領(lǐng)域的研究人員廣泛使用。
LDA是一種無(wú)監(jiān)督的、可以用來(lái)挖掘文本中隱含的主題信息的概率統(tǒng)計(jì)模型。它事先無(wú)需對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,即無(wú)需手動(dòng)添加景區(qū)類(lèi)別標(biāo)簽,只需給出期望生成的主題數(shù)和主題詞數(shù)即可。LDA包含主題層、文檔層和詞匯層三層結(jié)構(gòu),其中,文檔通過(guò)概率選擇一定的主題來(lái)解釋?zhuān)黝}又通過(guò)概率選擇一定的詞匯來(lái)解釋。這樣的話(huà),LDA通過(guò)生成“文檔-主題”“主題-主題詞”的方式可以有效降低文檔的維度,同時(shí)也減少了問(wèn)題的復(fù)雜程度[9]。LDA的抽樣分布表達(dá)式為
(2)
式中:K代表主題的個(gè)數(shù);M代表文檔的數(shù)量;nm表示第m篇文檔中主題的數(shù)量;nk表示第k個(gè)主題中主題詞的數(shù)量;α代表每個(gè)主題的先驗(yàn)狄利克雷分布的參數(shù);β代表每個(gè)詞的先驗(yàn)狄利克雷分布的參數(shù)。整篇文檔通過(guò)不斷重復(fù)“文檔-主題”“主題-主題詞”分布的過(guò)程生成。
采用吉布斯采樣(Gibbs Sampling)對(duì)LDA進(jìn)行參數(shù)估計(jì),則一篇文檔的生成要經(jīng)過(guò)以下步驟:
1)通過(guò)經(jīng)驗(yàn)或算法確定合適的主題數(shù)K,以及主題先驗(yàn)參數(shù)α、詞匯先驗(yàn)參數(shù)β。
2)從主題的先驗(yàn)參數(shù)α中取樣生成文檔m的主題分布θm。
3)從主題分布θm中取樣生成文檔m中第n個(gè)詞的主題Zm,n。
4)從詞匯的先驗(yàn)參數(shù)β中取樣生成主題Zm,n的詞匯分布p(wn|zn,β)。
5)最終,從詞匯分布中p(wn|zn,β)采樣最終生成詞語(yǔ)Wm,n。
吉布斯采樣由于其原理簡(jiǎn)單、易實(shí)現(xiàn)的特點(diǎn)在對(duì)LDA進(jìn)行參數(shù)估計(jì)時(shí)應(yīng)用較廣泛,由此,本文采用吉布斯采樣對(duì)LDA進(jìn)行參數(shù)計(jì)算。具體過(guò)程如圖1所示。
圖1 LDA的文檔生成過(guò)程
在Python環(huán)境下,基于LDA主題模型對(duì)預(yù)處理后的景區(qū)數(shù)據(jù)進(jìn)行聚類(lèi),LDA需要的參數(shù)包括需生成的最優(yōu)主題數(shù)K、先驗(yàn)狄利克雷分布參數(shù)α和β。其中,主題數(shù)K的取值采用困惑度(perplexity)來(lái)確定[10]。困惑度用于測(cè)試模型的效果,它描述了某篇文檔屬于某個(gè)主題的不確定程度。簡(jiǎn)單來(lái)說(shuō),文檔的概率越大,模型的效果越好,困惑度越低。困惑度的計(jì)算公式為
(3)
式中:p(w)為每個(gè)詞出現(xiàn)的概率;Nd為每篇文章中詞的個(gè)數(shù)。從式(3)中可以看出,perplexity的值越小,p(w)的值越大,則期望出現(xiàn)的句子出現(xiàn)的概率越高,模型的效果越好。
實(shí)驗(yàn)數(shù)據(jù)是利用Selenium和Phantom JS兩種工具加載動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)方式采集到普洱市各地的特色景點(diǎn)。由于部分景點(diǎn)未被攜程收錄,故該部分景點(diǎn)不作為旅游路線(xiàn)規(guī)劃的依據(jù),每個(gè)景點(diǎn)的景點(diǎn)介紹即為一個(gè)樣本,并將樣本集保存到AttractionData.xls文件中備用。爬取到的樣本集數(shù)據(jù)格式見(jiàn)表1。
表1 景點(diǎn)數(shù)據(jù)集(部分)
2.2.1 人工標(biāo)注
為量化檢驗(yàn)聚類(lèi)的有效性,在聚類(lèi)前結(jié)合景點(diǎn)特征人工對(duì)景點(diǎn)進(jìn)行標(biāo)注并分類(lèi),最終得到自然保護(hù)區(qū)類(lèi)、歷史建筑類(lèi)、市政設(shè)施類(lèi)、民族文化類(lèi)、茶園類(lèi)5個(gè)類(lèi)別。
2.2.2 中文分詞
中文文本不像英文文本那樣有空格作為每個(gè)單詞的分隔符,因此要對(duì)中文文本進(jìn)行操作,將文本中連續(xù)的句子拆分為粒度更小的字或詞的形式,對(duì)中文文本進(jìn)行分詞是中文自然語(yǔ)言處理過(guò)程中的一個(gè)重要步驟。研究基于jieba庫(kù)的精確模式來(lái)對(duì)爬取到的數(shù)據(jù)集進(jìn)行分詞,精確模式能夠?qū)⑽谋咀顪?zhǔn)確的分隔開(kāi),因此受到許多研究者的使用[11]。分詞后的數(shù)據(jù)如圖2所示。
圖2 景點(diǎn)數(shù)據(jù)分詞結(jié)果
2.2.3 去停用詞
在對(duì)文本進(jìn)行分詞后,依然會(huì)存在一些影響文本分析的詞語(yǔ),這是由于中文文本的特性所導(dǎo)致的,所以還需過(guò)濾這類(lèi)會(huì)干擾文本分析的詞。去停用詞能夠在降低文本維度的基礎(chǔ)上去除文本的噪聲,還能夠有效保留能夠代表景點(diǎn)特征的特征詞[12]。如今在中文文本處理上較為常用的停用詞表包括哈工大停用詞、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞和百度停用詞。本文在結(jié)合成熟的中文停用詞表的基礎(chǔ)上,基于普洱市旅游景點(diǎn),向停用詞表中加入了一些出現(xiàn)頻率較高,但是會(huì)降低后續(xù)處理區(qū)分度的詞,如“普洱市”“位于”“云南”等。部分停用詞見(jiàn)表2。
表2 部分停用詞
對(duì)經(jīng)過(guò)預(yù)處理的景區(qū)數(shù)據(jù)進(jìn)行建模,采用1.4節(jié)提到的方法確定主題數(shù)量。根據(jù)普洱市旅游景區(qū)的實(shí)際情況設(shè)定主題數(shù)為2~10。為了避免出現(xiàn)迭代次數(shù)增加導(dǎo)致困惑度曲線(xiàn)不穩(wěn)定的情況,本文通過(guò)多次實(shí)驗(yàn)取平均值的方式得到一條較平穩(wěn)的困惑度曲線(xiàn),來(lái)達(dá)到減小誤差的目的。平均困惑度如圖3所示。
圖3 困惑度平均值折線(xiàn)圖
從折線(xiàn)圖中可以看出,當(dāng)主題數(shù)為5時(shí)出現(xiàn)了一個(gè)明顯的拐點(diǎn),也就是說(shuō),主題數(shù)繼續(xù)增加也不能明顯降低困惑度,因此,確定最優(yōu)主題數(shù)K=5。而文檔的先驗(yàn)狄利克雷分布參數(shù)α在文檔中起到控制主題稀疏程度的作用,α的值經(jīng)常被設(shè)置為主題數(shù)量的一小部分,在本文中α的值取1/K,即0.2。同樣,主題詞的先驗(yàn)狄利克雷分布參數(shù)β在主題詞的稀疏程度中起到控制作用,在本文中β取經(jīng)驗(yàn)值0.01,迭代次數(shù)設(shè)置為1 000。LDA輸出的模型結(jié)果見(jiàn)表3。
表3 主題-景點(diǎn)數(shù)量-特征詞
接著以數(shù)據(jù)集中的前5個(gè)景點(diǎn)為例,即“墨江北回歸線(xiàn)標(biāo)志園”“茶馬古道”“梅子湖公園”“普洱國(guó)家犀牛坪”“勐梭龍?zhí)丁?,分析LDA輸出的模型的準(zhǔn)確度。從圖4可以看出,“墨江北回歸線(xiàn)標(biāo)志園”即Document 0在topic1中的概率最大,topic1的主題詞主要有文化、廣場(chǎng)、休閑等?!澳被貧w線(xiàn)標(biāo)志園”是一個(gè)集園林藝術(shù)、民族文化、觀賞旅游為一體的國(guó)家級(jí)4A景區(qū)。容易看出,“墨江北回歸線(xiàn)標(biāo)志園”和topic1較為契合。
經(jīng)過(guò)文本預(yù)處理、文本表示、LDA聚類(lèi)后,42個(gè)景區(qū)最終被聚類(lèi)在了5個(gè)類(lèi)別下,將不同景區(qū)及其所屬類(lèi)別整理后見(jiàn)表4。
圖4 文檔-主題分布
表4 聚類(lèi)結(jié)果
通過(guò)精確率(P)、召回率(R)和F1值(F1-Measure)來(lái)評(píng)價(jià)聚類(lèi)效果,計(jì)算公式為
(4)
(5)
(6)
式中:TP表示正確分類(lèi)在標(biāo)注主題中的景點(diǎn)數(shù)量;FP表示誤分到該主題的景點(diǎn)數(shù)量;FN表示被誤分到其他主題的該主題景點(diǎn)數(shù)量。評(píng)價(jià)結(jié)果見(jiàn)表5。
表5 聚類(lèi)評(píng)價(jià)結(jié)果 %
本文在人工標(biāo)注時(shí)將景點(diǎn)根據(jù)景點(diǎn)名稱(chēng)及介紹信息事先劃分在5個(gè)小類(lèi)中,通過(guò)perplexity計(jì)算發(fā)現(xiàn)主題模型在主題數(shù)K=5時(shí)有最佳的聚類(lèi)效果,與人工分類(lèi)結(jié)果一致,說(shuō)明了使用LDA對(duì)普洱市景區(qū)進(jìn)行聚類(lèi)時(shí)可以很好地保留景點(diǎn)的特征信息。對(duì)表5進(jìn)行分析,造成topic4的F1值較低的原因是topic4的主題民族文化與topic3的主題歷史建筑有重合的景點(diǎn),如“孟連宣撫司署”從歷史角度來(lái)說(shuō),該景點(diǎn)可以歸為topic3,但其同時(shí)具有民族屬性,也可歸為topic4??傮w來(lái)說(shuō),聚類(lèi)效果較好,在沒(méi)有標(biāo)簽的情況下聚類(lèi)主題數(shù)與人工分類(lèi)效果一致,平均F1值可達(dá)76.6%,一些具有交叉主題的景點(diǎn)會(huì)對(duì)聚類(lèi)結(jié)果的精確率和召回率產(chǎn)生一定影響,但在后續(xù)旅游路線(xiàn)規(guī)劃時(shí)可以通過(guò)路線(xiàn)合并等方式消除這些影響。
根據(jù)各類(lèi)別的高頻詞匯生成詞云,如圖5~圖9所示。
topic0一共包含7個(gè)景點(diǎn),高頻詞為保護(hù)、自然保護(hù)區(qū)、森林等。該類(lèi)景點(diǎn)主要為一些以生態(tài)為主體、以森林為依托的保護(hù)區(qū)。在這類(lèi)景點(diǎn)中,游客可以很好地感受天人合一、人與自然和諧共融的氛圍,讓身心都得到充分放松。
topic1一共包含8個(gè)景點(diǎn),高頻詞為文化、廣場(chǎng)、歷史等。該類(lèi)景點(diǎn)主要為一些以民俗文化、科學(xué)文化為背景所打造的公園、廣場(chǎng)。在這類(lèi)景點(diǎn)中,游客既可以感受大自然的鬼斧神工,也具有一定的教育意義。
圖5 topic0詞云圖
圖6 topic1詞云圖
圖7 topic2詞云圖
圖8 topic3詞云圖
圖9 topic4詞云圖
topic2一共包含8個(gè)景點(diǎn),高頻詞為茶園、茶文化、建筑等。該類(lèi)景點(diǎn)主要為一些以茶文化為背景所打造的茶園和生態(tài)區(qū)以及極具特色且歷史悠久的文化村。在這類(lèi)景點(diǎn)中,游客既可以感受萬(wàn)畝茶園所帶來(lái)的視覺(jué)震撼,也能夠進(jìn)到村落中去感受當(dāng)?shù)厝伺c茶相伴相生的民族情懷。
topic3一共包含11個(gè)景點(diǎn),高頻詞為茶馬古道、溫泉、原始森林等。該類(lèi)景點(diǎn)主要為一些圍繞茶馬古道所打造的景點(diǎn)。在這類(lèi)景點(diǎn)中,游客能夠沿著之前馬幫走過(guò)的茶馬古道沿線(xiàn),探索當(dāng)時(shí)馬幫帶動(dòng)民族經(jīng)濟(jì)文化發(fā)展的軌跡,領(lǐng)略各民族和睦團(tuán)結(jié)發(fā)展的景象。
topic4一共包含8個(gè)景點(diǎn),高頻詞為古鎮(zhèn)、傣族、建筑群等。該類(lèi)景點(diǎn)主要為一些具有少數(shù)民族特色的景點(diǎn)。在這類(lèi)景點(diǎn)中,游客可以感受普洱市內(nèi)的少數(shù)民族風(fēng)情,游覽少數(shù)民族的特色建筑,到佛寺中祈福,“沉浸式”體驗(yàn)原生態(tài)的風(fēng)土人情。
通過(guò)LDA訓(xùn)練后將42個(gè)景點(diǎn)聚類(lèi)在了各具特色的5個(gè)類(lèi)別下。將景點(diǎn)特征結(jié)合景點(diǎn)的地理位置,充分考慮景點(diǎn)間的交通及實(shí)際發(fā)展情況,選取景點(diǎn)開(kāi)發(fā)成熟、交通較便利的景點(diǎn),最終設(shè)計(jì)“茶顏觀色,古道之旅”“親近自然,森林之旅”“民族團(tuán)結(jié),邊境之旅”“歷史古跡,文化之旅”4條各具特色的旅游路線(xiàn)如圖10~圖13所示。
圖10 路線(xiàn)1
圖11 路線(xiàn)2
圖12 路線(xiàn)3
圖13 路線(xiàn)4
路線(xiàn)主題:非遺文化體驗(yàn)、歷史文化名村、茶文化體驗(yàn)。
路線(xiàn)特色:該路線(xiàn)主要以茶文化及馬幫文化為依托,游客可以去中華普洱茶博覽苑體驗(yàn)品茶、斗茶、采茶、購(gòu)茶的樂(lè)趣;去梅子湖公園體驗(yàn)湖水清澈如鏡、野鴨鷺鷥展翅騰飛的如畫(huà)之境;去茶馬古道、那柯里小鎮(zhèn)體驗(yàn)完好的茶馬古道遺址,尋找馬幫的痕跡;去茶源廣場(chǎng)尋找中國(guó)最古老茶樹(shù)的源頭;去碧溪古鎮(zhèn)領(lǐng)略明代重要茶馬驛站往昔的繁榮。
路線(xiàn)主題:與野生動(dòng)植物親密接觸、戶(hù)外探險(xiǎn)、休閑觀光、親子游。
路線(xiàn)特色:該路線(xiàn)主要依托普洱市得天獨(dú)厚的自然景觀及氣候條件,游客可以去太陽(yáng)河國(guó)家森林公園發(fā)現(xiàn)神奇的野生動(dòng)植物;去小黑江森林公園拜訪藏在深山中的普賢寺;去哀牢山自然保護(hù)區(qū)與大自然親密互動(dòng);去芒卡溫泉放松身心、洗去一天的疲憊;去勐梭龍?zhí)扼w驗(yàn)佤族人民的特色民族文化;去柏聯(lián)景邁山莊園體驗(yàn)普洱茶從茶葉到茶杯的過(guò)程。
路線(xiàn)主題:民族音樂(lè)會(huì)、綠色康養(yǎng)、云海景觀、茶葉采摘、宗教特色。
路線(xiàn)特色:該路線(xiàn)依托于普洱市豐富的民族文化,游客可以去翁基布朗族老寨探訪這支中國(guó)最早種茶的民族,體驗(yàn)布朗族的村落的生態(tài)文化;去“景邁千年萬(wàn)畝古茶園”的核心芒景村,品鑒最正宗的景邁山茶;去酒井鄉(xiāng)達(dá)保老寨參加具有民族特色的拉祜族音樂(lè)會(huì),與各族同胞共舞;去木依吉神谷景區(qū)體驗(yàn)佤族人民崇拜自然、崇拜神靈、崇拜祖先的祭祀儀式;去阿佤山云海觀賞宛若仙境、如夢(mèng)如幻的云海;去孟連宣撫司署、孟連大金塔,體驗(yàn)傣族世襲土司的統(tǒng)治及特色的傣族文化。
路線(xiàn)主題:研學(xué)融合、歷史文化、文物古跡、祈福。
路線(xiàn)特色:該路線(xiàn)依托于普洱市豐富的歷史文化底蘊(yùn),游客可以到墨江北回歸線(xiàn)標(biāo)志園切身實(shí)地感受天文文化;去墨江文廟、景東文廟體驗(yàn)中國(guó)古代的文化建筑群;到鎮(zhèn)沅拉祜族歷史文化博物館體驗(yàn)苦聰人的歷史文化;到勐臥總佛寺體驗(yàn)“樹(shù)包塔”“塔包樹(shù)”這一自然與人文相結(jié)合的奇跡;到瀾滄縣博物館體驗(yàn)拉祜族悠久的人文歷史文化。
針對(duì)普洱市旅游路線(xiàn)設(shè)計(jì)的問(wèn)題,在考慮景點(diǎn)特色及距離、人文歷史等因素的情況下,采用LDA主題模型對(duì)普洱市的42個(gè)景點(diǎn)進(jìn)行聚類(lèi)。結(jié)果顯示,LDA能夠很好地提取景點(diǎn)特征,聚類(lèi)的平均精確率達(dá)77%?;诰垲?lèi)結(jié)果,選取部分交通便捷、開(kāi)發(fā)完善的景區(qū)設(shè)計(jì)出4條特色鮮明的旅游路線(xiàn)。
本文的工作還可以從以下兩個(gè)方面進(jìn)行改進(jìn)。①通過(guò)爬蟲(chóng)獲取互聯(lián)網(wǎng)中普洱市內(nèi)各旅游景點(diǎn)的信息,但局限于旅游景點(diǎn)文檔較少,以后的研究中可以進(jìn)一步考慮普洱市內(nèi)具有特色但在網(wǎng)上沒(méi)有詳細(xì)介紹的小眾景點(diǎn)規(guī)劃到旅游路線(xiàn)中。②在對(duì)旅游路線(xiàn)進(jìn)行設(shè)計(jì)時(shí)主要考慮的是景點(diǎn)間的相似性進(jìn)行規(guī)劃,可能會(huì)產(chǎn)生審美疲勞,在以后的研究中可以考慮在一條路線(xiàn)中穿插不同主題的景點(diǎn),為游客設(shè)計(jì)更人性化的路線(xiàn)。