摘 要:目前游客通過旅游平臺了解、評價(jià)旅游目的地,發(fā)表旅游感受已經(jīng)成為常態(tài),如果能有效挖掘這些游客留下的大量評論信息,對于改善旅游體驗(yàn)、提升旅游目的地品質(zhì)不無裨益。文章首先抓取2019年6月—2023年6月,攜程、同程、去哪兒關(guān)于宜賓興文石海的3175條評論信息;其次運(yùn)用LDA主題模型進(jìn)行文本挖掘,提取游玩內(nèi)容、交通狀況、設(shè)施服務(wù)、自然風(fēng)光4個(gè)主題;再利用Python中的SnowNLP庫對提取的關(guān)鍵詞進(jìn)行情感分析,判定游客的正面和負(fù)面情緒,了解景區(qū)需要改進(jìn)完善之處;最后從軟硬件提升、文化挖掘與展示等方面提出改進(jìn)建議。
關(guān)鍵詞:興文石海景區(qū);LDA主題模型;文本挖掘技術(shù);SnowNLP情感分析
中圖分類號:F592.7文獻(xiàn)標(biāo)識碼:A文章編號:1005-6432(2025)21-0106-04
DOI:10.13939/j.cnki.zgsc.2025.21.027
1 引言
興文石海景區(qū)位于四川省宜賓市興文縣石海鎮(zhèn)境內(nèi),是聯(lián)合國教科文組織批準(zhǔn)的第二批世界地質(zhì)公園,國家重點(diǎn)風(fēng)景名勝區(qū)、國家AAAA級旅游區(qū)??偯娣e約156平方千米,核心景區(qū)14平方千米范圍內(nèi)集中了石海景觀、地下溶洞群、世界級的大漏斗,被專家譽(yù)為喀斯特地貌博物館。文章旨在借助網(wǎng)絡(luò)文本挖掘技術(shù),通過分析游客在旅游網(wǎng)站上發(fā)布的對于興文石海的評論信息,了解游客關(guān)注的主題和他們的情感傾向,以期為興文石海景區(qū)管理者提供游客體驗(yàn)的數(shù)據(jù)及分析結(jié)論,有助于提升興文石海的旅游體驗(yàn),為其可持續(xù)發(fā)展提供支持。
2 研究方法
2.1 文本挖掘技術(shù)
文本挖掘(TM,text mining)是以計(jì)算語言學(xué)、數(shù)理統(tǒng)計(jì)為理論基礎(chǔ),結(jié)合信息檢索技術(shù)、機(jī)器學(xué)習(xí)從文本數(shù)據(jù)中發(fā)現(xiàn)和提取隱含信息。它是一個(gè)從文本信息描述到選取提取模式,最終形成用戶可理解的信息知識的過程。
2.2 LDA主題模型
主題模型是一種語言模型,是在機(jī)器學(xué)習(xí)和自然語言處理等領(lǐng)域用來在一系列文檔中發(fā)現(xiàn)隱含主題的一種統(tǒng)計(jì)模型,可以對文本進(jìn)行語義挖掘。LDA(latent dirichlet allocation)主題模型由Blei于2003年提出,包含詞項(xiàng)、主題和文檔三層結(jié)構(gòu),基本思想是把文檔看成其隱含主題的混合,而每個(gè)主題則表現(xiàn)為跟該主題相關(guān)的詞項(xiàng)的概率分布,文檔和單詞都是可交換的,忽略單詞在文檔中的順序和文檔在語料庫中的順序,從而將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息。
2.3 SnowNLP情感分析
SnowNLP是一個(gè)基于TextBlob的中文自然語言處理Python庫,其主要功能包括中文分詞、情感分析、文本分類等。SnowNLP使用的是樸素貝葉斯原理來訓(xùn)練和預(yù)測數(shù)據(jù),可以對中文文本進(jìn)行情感分析,操作簡單且容易實(shí)現(xiàn)。SnowNLP模塊會逐一計(jì)算每一條文本的正面情感概率。當(dāng)正面情感概率P≥0.5 時(shí)認(rèn)為該評論為正面情感評論,Plt;0.5時(shí)則為負(fù)面情感評論。
3 研究設(shè)計(jì)
首先,通過自行編寫的網(wǎng)絡(luò)爬蟲軟件,在去哪兒、攜程和同程等主流旅游平臺上以“興文石海”為關(guān)鍵詞,進(jìn)行評論文本數(shù)據(jù)的采集和抓?。黄浯?,對獲取的評論數(shù)據(jù)進(jìn)行去重、分詞和去停用詞等預(yù)處理;再次,對經(jīng)過預(yù)處理的文本數(shù)據(jù)使用Python的gensim庫來構(gòu)建 LDA主題模型,得到主題數(shù)量及主題關(guān)鍵詞;最后,運(yùn)用Python中的SnowNLP庫對主題及關(guān)鍵詞進(jìn)行情感分析,并基于上述研究結(jié)論提出了對策建議。研究流程詳見圖1。
4 數(shù)據(jù)獲取及預(yù)處理
4.1 在線評論數(shù)據(jù)來源
攜程、同程和去哪兒這三家旅游資訊平臺經(jīng)過多年的積累,擁有龐大的用戶群體,重視內(nèi)容生態(tài),支持用戶撰寫游記、攻略、評論打分。選擇攜程、同程和去哪兒作為文章數(shù)據(jù)獲取渠道,確保了評論數(shù)據(jù)的有效性、真實(shí)性和樣本數(shù)量的充足性。文章運(yùn)用 Python編寫的爬蟲程序,抓取了2019年6月至2023年6月,上述三大平臺上關(guān)于“興文石海”的3175條評論。每條評論數(shù)據(jù)都具有用戶評分、評論內(nèi)容、時(shí)間、年以及評論長度這5個(gè)特征。
4.2 數(shù)據(jù)預(yù)處理
4.2.1 數(shù)據(jù)去重
為了吸引到更多的游客,景區(qū)會選擇刷較多重復(fù)的高分好評,使景區(qū)的評分偏高;同時(shí),為了誘導(dǎo)游客對景區(qū)進(jìn)行評論,景區(qū)對參與評論的游客進(jìn)行回饋,此類游客為了省事,會直接復(fù)制好評的評論。對于以上行為,產(chǎn)生了較多的重復(fù)評論,并造成數(shù)據(jù)的失真,因此,這一類評論文本必須進(jìn)行去重處理。
4.2.2 去停用詞和分詞
抓取的評論文本屬于非結(jié)構(gòu)化數(shù)據(jù),存在大量的噪聲數(shù)據(jù),如各種表情符、特殊符號、網(wǎng)頁標(biāo)簽等;同時(shí)還有大量的高頻但無實(shí)際意義的詞,如各種語氣助詞、連接詞、介詞等。正式進(jìn)行文本挖掘前需要進(jìn)行去停用詞和分詞處理。文章停用詞庫的構(gòu)建主要是選取哈工大 、百度和四川大學(xué)停用詞庫進(jìn)行停用詞去重整合,再利用Python中Jieba包完成文本信息的分詞。
在經(jīng)過分詞和去停用詞后,查看輸出結(jié)果,對軟件分析不準(zhǔn)確或分詞錯誤的部分進(jìn)行人為修正,將修正的詞語加入到用戶自定義詞典中,與研究無關(guān)的詞匯添加到停用詞表中,不斷重復(fù)上述過程,直至隨機(jī)抽取評論展示的分詞效果良好。
5 LDA主題模型
5.1 詞頻分析
對抓取的數(shù)據(jù)做詞頻分析,為直觀地展現(xiàn)用戶評論所關(guān)注的重點(diǎn)與主題,摘取評論分詞后頻率最高的前40個(gè)詞語,利用Python中的Wordcloud繪制高頻詞詞云,圖中文字的大小對應(yīng)詞匯出現(xiàn)頻次的高低(詳見圖2)。
圖2 詞云
從表1的高頻詞分布來看,可以得出以下五點(diǎn)結(jié)論。
第一,游客最關(guān)注的是景區(qū)的風(fēng)景,“景點(diǎn)”“景色”“風(fēng)景”“景觀”“環(huán)境”等詞的詞頻數(shù)較多,排在詞頻統(tǒng)計(jì)表的前面,表現(xiàn)出游客對景區(qū)的期待中,風(fēng)景好的程度占比較高。
第二,高頻詞“溶洞”“天坑”“天泉”“燈光”“懸棺”等內(nèi)容是景區(qū)的主要游玩地點(diǎn),景區(qū)薈萃了中國南方最具代表性的喀斯特地質(zhì)景觀,著名景觀有天泉洞、地表石海、天下第一漏斗,與游客感受到的相契合。
第三,“停車場”“交通”“觀光車”“電梯”“走路”等詞的詞頻數(shù)表現(xiàn)出游客對景區(qū)的基礎(chǔ)設(shè)施要求,游客如何到達(dá)景區(qū)以及在景區(qū)內(nèi)往返的便捷性。
第四,“門票”“工作人員”“服務(wù)”“特色”“訂票”“價(jià)格”“優(yōu)惠”等詞反映出游客對景區(qū)收費(fèi)與服務(wù)的關(guān)心,買票的便捷性、工作人員的服務(wù)態(tài)度將會影響游客對景區(qū)的評價(jià)。
第五,“朋友”“夫妻”“家人”“孩子”“大家”等詞的出現(xiàn),反映出景區(qū)的游客人群比較廣泛,可以和孩子一起游玩,也可以和朋友們一起游玩,出游形式多樣。
5.2 主題提取
文章基于Python的Gensim庫構(gòu)建LDA主題模型,用于識別游客關(guān)注的景區(qū)主題特征。通過主題間距分析發(fā)現(xiàn),當(dāng)主題數(shù)量設(shè)置為4時(shí),模型表現(xiàn)出最優(yōu)的區(qū)分度:各主題在語義空間中的離散程度最大,且主題間重疊程度最低。這一結(jié)果表明,4個(gè)主題的設(shè)定能夠有效捕捉游客關(guān)注點(diǎn)的異質(zhì)性特征,同時(shí)保持主題間的獨(dú)立性和可解釋性。因此,本研究最終采用4個(gè)主題的模型架構(gòu)進(jìn)行后續(xù)分析。
將主題數(shù)4代入LDA 模型,在生成主題關(guān)鍵詞中選擇前10個(gè)關(guān)鍵詞,這10個(gè)關(guān)鍵詞確定了每個(gè)主題的核心特征。根據(jù)每個(gè)主題的主題關(guān)鍵詞表達(dá)的相似內(nèi)容為主題命名。根據(jù)主題一的關(guān)鍵詞內(nèi)容,大多為對于興文石海景區(qū)游玩內(nèi)容的描述,例如“石?!薄疤烊钡龋蕦⒅黝}一命名為“游玩內(nèi)容”;主題二的關(guān)鍵詞內(nèi)容大都為對于景區(qū)交通與路程的描述,例如“車位”“觀光車”等,故將主題二命名為“交通狀況”;主題三的關(guān)鍵詞內(nèi)容大都為景區(qū)服務(wù)內(nèi)容與基礎(chǔ)設(shè)施,例如“門票”“垃圾桶”等,故將主題三命名為“設(shè)施服務(wù)”;主題四的關(guān)鍵詞與主題一相近,但主要為對于景區(qū)風(fēng)景的描述,故將主題四命名為“自然風(fēng)光”。具體內(nèi)容如表2所示。
6 情感分析
借助Python中的SnowNLP情感分析器對在線評論進(jìn)行情感值計(jì)算,輸出結(jié)果范圍為0~1,所得結(jié)果分?jǐn)?shù)越高即表示情感傾向越積極,所得結(jié)果分?jǐn)?shù)越低即表示情感傾向越消極。
根據(jù)情感分析,游客對景區(qū)的積極情感傾向主要來源于。
第一,對于景區(qū)風(fēng)景秀麗,奇特景觀的贊嘆。評論中提到“國家級風(fēng)景名勝區(qū),中國最美的十大地質(zhì)公園,里面自然奇觀數(shù)不勝數(shù)”“嘆為觀止,大自然的鬼斧神工”“見證大自然的鬼斧神工,將自身融入大自然中,放松自我,享受生活”。景區(qū)特有的地質(zhì)條件,喀斯特地貌與地下溶洞等奇特景觀是興文石海的核心競爭力。
第二,對多元游玩方式的喜歡?!爸苣Ш⒆映鰜硗妗薄按笕撕⒆佣纪鎯旱煤荛_心”“和朋友一起出去玩”“景區(qū)游玩項(xiàng)目老少皆宜,并設(shè)有親子互動項(xiàng)目與戶外探險(xiǎn)項(xiàng)目,可用于家人、朋友們一起運(yùn)動,冒險(xiǎn)”“增長見聞,研學(xué)有收獲”。景區(qū)自然景觀、地質(zhì)遺跡與僰苗文化相融,有研學(xué)價(jià)值,值得深挖。
第三,對票價(jià)和購票便捷的滿意?!熬W(wǎng)上訂票要便宜20元,我們?nèi)齻€(gè)人就省掉了60元”“同程訂的9.9的門票,超值”“取票很方便,購票的二維碼或者訂票人的身份證”。景區(qū)在多種平臺上售票,聯(lián)合平臺設(shè)置優(yōu)惠套餐,對游客有一定吸引力。
游客對景區(qū)的消極情感傾向主要來源于:
第一,對景區(qū)管理水平的詬病?!芭涮滋?,住不好吃不好”“服務(wù)差,外面歪導(dǎo)游多,也沒有人管理。景區(qū)管理混亂”“配套差,特別是餐飲,宰客”。 景區(qū)內(nèi)外的住宿與餐飲好壞情況對游客是否選擇前來游玩有較大影響。
第二,對交通不方便的抱怨?!耙宦奉嶔まD(zhuǎn)了兩趟大巴花了將近四個(gè)小時(shí)終于進(jìn)入了石海。長途跋涉后讓人的興致頓時(shí)減少”“交通票現(xiàn)場買的,有點(diǎn)坑”“走了五個(gè)多小時(shí)”。自然風(fēng)光獨(dú)特的景區(qū)往往地處較偏遠(yuǎn),交通問題是個(gè)難題。
7 結(jié)論與建議
文章通過LDA模型對網(wǎng)絡(luò)平臺評價(jià)文本進(jìn)行情感挖掘分析,獲取文本信息中所表達(dá)的情感傾向,了解游客對興文石海景區(qū)自然風(fēng)光、旅游項(xiàng)目、設(shè)施服務(wù)的體驗(yàn),得出的研究結(jié)論有利于提高興文石海景區(qū)的管理、服務(wù)水平?;谝陨涎芯?,對興文石海景區(qū)提出以下建議。
第一,加大投入,優(yōu)化和完善旅游設(shè)施。包括提升交通設(shè)施,如增設(shè)停車場、優(yōu)化景區(qū)內(nèi)的交通線路;改善住宿條件,提供多樣化的住宿選擇,滿足不同游客的需求;完善餐飲設(shè)施,提供豐富多樣的地方特色美食;增設(shè)休息娛樂設(shè)施,如休息區(qū)、游客服務(wù)中心等,以提升游客的舒適度和滿意度。
第二,加強(qiáng)對石海文化的挖掘和研究,通過舉辦文化講座、展覽等形式,向游客展示石海文化的魅力和價(jià)值。同時(shí),結(jié)合地方歷史文化,開發(fā)具有特色的文化體驗(yàn)項(xiàng)目,使游客在游覽過程中能夠深入了解和體驗(yàn)石海文化。
第三,建立完善的游客服務(wù)管理體系,包括優(yōu)化游客導(dǎo)覽系統(tǒng)、加強(qiáng)安保措施、提高服務(wù)人員素質(zhì)等。同時(shí),建立游客反饋機(jī)制,及時(shí)了解游客的需求和意見,不斷改進(jìn)服務(wù)質(zhì)量,提升游客的滿意度和忠誠度。
第四,開展異業(yè)合作拓寬旅游項(xiàng)目。利用石海大溶洞空曠的場地、天然的混響效果,聯(lián)合音樂節(jié)主辦機(jī)構(gòu)舉辦一年一度的“溶洞音樂節(jié)”,借助新媒體進(jìn)行有效傳播,吸引更多的年輕人,打造成特色項(xiàng)目。
參考文獻(xiàn):
[1]司育.基于LDA主題模型的山西省熱門景區(qū)綜合評價(jià)體系研究[D].太原:山西財(cái)經(jīng)大學(xué),2023.
[2]孫正軒,馬海群.基于LDA主題模型的信息行為熱點(diǎn)主題及發(fā)展趨勢研究[J].情報(bào)探索,2023(11):35-43.
[3]張大釗,李顯正,趙振斌,等.基于LDA制圖分析的古鎮(zhèn)旅游地游客商業(yè)化體驗(yàn)及空間結(jié)構(gòu)——以大理古城為例[J].經(jīng)濟(jì)地理,2023,43(8):200-209.
[4]郝若琳,黃萍,何慧敏,等.四川省5A級旅游景區(qū)線上評論的文本情感分析[J].西部旅游,2022(12):1-3.
[5]張學(xué)民,趙明宇.基于LDA和情感分析的西塘古鎮(zhèn)旅游形象研究[J].河北工業(yè)大學(xué)學(xué)報(bào)(社會科學(xué)版),2020,12(3):23-30