廣州軟件學(xué)院 李慧斯 黃金鈺 吳培超 江陳發(fā)
在疫情防控期間,我國(guó)游客的旅游消費(fèi)方式已經(jīng)發(fā)生明顯的轉(zhuǎn)變,越來越多游客選擇短程旅游。大量旅游評(píng)論信息對(duì)旅游的發(fā)展產(chǎn)生重要的影響,然而,游客撰寫相關(guān)評(píng)論信息時(shí),存在極強(qiáng)主觀臆斷性且評(píng)論內(nèi)容的價(jià)值良莠不齊,大量冗余信息使得旅游企業(yè)無法分析游客旅游消費(fèi)需求行為的變化。因此,周邊游需求圖譜分析對(duì)開拓旅游市場(chǎng)具有重要的意義。首先基于TextRank模型提取產(chǎn)品名稱,然后通過使用情感詞典、高頻詞,從高頻詞、情感、服務(wù)、位置、設(shè)施、衛(wèi)生、價(jià)格7 個(gè)維度進(jìn)行周邊游產(chǎn)品熱度分析,并且使用One-Hot 編碼技術(shù)對(duì)旅游產(chǎn)品進(jìn)行關(guān)聯(lián)分析,最后用Neo4j 知識(shí)圖譜進(jìn)行可視化分析。
旅游業(yè)在疫情防控期間受到嚴(yán)重影響,同時(shí)使得游客的消費(fèi)方式也發(fā)生了明顯的轉(zhuǎn)變。在此背景下研究分析游客消費(fèi)需求行為的變化,對(duì)于旅游企業(yè)產(chǎn)品供給、資源優(yōu)化配置以及市場(chǎng)持續(xù)開拓具有長(zhǎng)遠(yuǎn)而積極的作用。隨著互聯(lián)網(wǎng)的不斷發(fā)展,文本形式的在線旅游(Online Travel Agency,OTA)和游客的用戶生成內(nèi)容(User Generated Content,UGC)數(shù)據(jù)成為了解旅游市場(chǎng)現(xiàn)狀的重要信息來源[1]。OTA 和UGC 數(shù)據(jù)的內(nèi)容較為分散和碎片化,要使用它們對(duì)某一特定旅游目的地進(jìn)行研究時(shí),迫切需要一種能夠從文本中抽取相關(guān)的旅游要素,并挖掘要素之間的相關(guān)性和隱含的高層概念的可視化分析工具。因此,本文將通過建立本地旅游圖譜的方式來分析疫情防控期間茂名市的周邊游發(fā)展。
近年來,隨著旅游經(jīng)濟(jì)的快速發(fā)展,游客評(píng)論成為一個(gè)待挖掘的寶藏,而大量冗余信息使得旅游企業(yè)難以分析游客旅游消費(fèi)需求行為的變化,及時(shí)做出適當(dāng)?shù)恼{(diào)整。而知識(shí)圖譜可視化分析在旅游領(lǐng)域上,已經(jīng)有了一定的應(yīng)用。張宇飛在2020年實(shí)現(xiàn)了基于構(gòu)建的知識(shí)圖譜,設(shè)計(jì)了一個(gè)集景點(diǎn)信息管理、景點(diǎn)信息搜索和搜索結(jié)果可視化為一體的應(yīng)用系統(tǒng)[2]。2021年吳杰針對(duì)既有傳統(tǒng)旅游知識(shí)圖譜的不足,有針對(duì)性的提出了以事件為中心的旅游知識(shí)圖譜[3]。原越于2022年時(shí)進(jìn)行針對(duì)現(xiàn)有搜索引擎提供的旅游景點(diǎn)信息缺乏關(guān)聯(lián)度和完整性,通過設(shè)計(jì)旅游景點(diǎn)本體、針對(duì)爬取語(yǔ)料的處理構(gòu)建旅游景點(diǎn)知識(shí)圖譜。在此基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)B/S 架構(gòu)的旅游景點(diǎn)應(yīng)用系統(tǒng)[1]。而徐春、李勝楠也在同年進(jìn)行針對(duì)旅游信息呈現(xiàn)出散亂、無序和關(guān)聯(lián)性不強(qiáng)的問題,提出一種融合BERT-WWM 和指針網(wǎng)絡(luò)的實(shí)體關(guān)系聯(lián)合抽取模型構(gòu)建旅游知識(shí)圖譜[4]。目前比較少的知識(shí)圖譜分析針對(duì)周邊游領(lǐng)域,而本文的研究將為其他地區(qū)使用基于知識(shí)圖譜的周邊游熱點(diǎn)分析提供參考。
本文收集了兩個(gè)數(shù)據(jù)集,分別為2018-2019 茂名(含自媒體)數(shù)據(jù)集和2020-2021(含自媒體)數(shù)據(jù)集,數(shù)據(jù)集中包含酒店評(píng)論、景區(qū)評(píng)論、游記攻略、餐飲評(píng)論和微信公眾號(hào)新聞數(shù)據(jù)集。其中酒店評(píng)論1093 條、景區(qū)評(píng)論1203 條、游記攻略294 條、餐飲評(píng)論6984 條和微信公眾號(hào)新聞6286 條。其中主要使用微信公眾號(hào)新聞數(shù)據(jù),該數(shù)據(jù)集中共有6286 條數(shù)據(jù),涉及的4 個(gè)指標(biāo)分別為“文章ID”“公眾號(hào)標(biāo)題”“發(fā)布時(shí)間”和“正文”。
由于原始數(shù)據(jù)集中缺乏“相關(guān)性”分類標(biāo)簽,因此本章在無標(biāo)注的數(shù)據(jù)中隨機(jī)抽取部分?jǐn)?shù)據(jù)進(jìn)行人工標(biāo)注。人工標(biāo)注時(shí)0 代表不相關(guān)、1 代表相關(guān)。最終共得到帶有人工標(biāo)注的數(shù)據(jù)4400 條。最后將數(shù)據(jù)以7∶3 的比例分為訓(xùn)練集和測(cè)試集,訓(xùn)練集包含4400 條數(shù)據(jù),測(cè)試集為2286 條。
在TextRank 模型[5]中將采用酒店評(píng)論、景區(qū)評(píng)論、游記攻略、餐飲評(píng)論和微信公眾號(hào)新聞數(shù)據(jù)集,具體實(shí)驗(yàn)步驟如下。
(1)繁簡(jiǎn)體轉(zhuǎn)化。通過預(yù)覽原始數(shù)據(jù),可觀察到正文中存在“繁體字”數(shù)據(jù),由于繁體字字符對(duì)后續(xù)分類會(huì)產(chǎn)生一定的影響,因此我們需要首先對(duì)評(píng)論進(jìn)行繁簡(jiǎn)體轉(zhuǎn)換。
(2)提取旅游產(chǎn)品。由于酒店評(píng)論、景區(qū)評(píng)論和餐飲評(píng)論數(shù)據(jù)集中有對(duì)應(yīng)的旅游產(chǎn)品,本文只需抽取其語(yǔ)料ID 號(hào)及對(duì)應(yīng)的旅游產(chǎn)品名稱,再按旅游產(chǎn)品名稱附加產(chǎn)品ID 號(hào)即可。因此,語(yǔ)料ID 號(hào)及產(chǎn)品名稱是一一對(duì)應(yīng)的關(guān)系。
然而,游記攻略和微信公眾號(hào)新聞數(shù)據(jù)集中沒有對(duì)應(yīng)的旅游產(chǎn)品,因此本文將通過TextRank 算法進(jìn)行抽取。具體流程為首先對(duì)無效評(píng)論進(jìn)行去除,通過使用TextRank 算法抽取每條評(píng)論的關(guān)鍵詞,每條評(píng)論可通過其內(nèi)部詞語(yǔ)間的共現(xiàn)信息抽取其中的關(guān)鍵詞,最后輸出每條評(píng)論出現(xiàn)次數(shù)前五的關(guān)鍵詞。由于抽取的產(chǎn)品名稱中出現(xiàn)部分停用詞及不符合旅游產(chǎn)品的旅游名稱,因此本文根據(jù)輸出結(jié)果,自定義停用詞表,從而篩選出不規(guī)范的旅游名稱,篩選后的部分?jǐn)?shù)據(jù)如表1所示。
表1 旅游產(chǎn)品提取部分?jǐn)?shù)據(jù)集Tab.1 Part of tourism product dataset
其次將基于情感詞典擴(kuò)充進(jìn)行熱度分析,將采用經(jīng)過預(yù)處理后的酒店評(píng)論、景區(qū)評(píng)論和餐飲評(píng)論新聞數(shù)據(jù)集,具體實(shí)驗(yàn)步驟如下。
(1)根據(jù)情感詞停用詞表去除數(shù)據(jù)集中每個(gè)句子的停用詞,然后進(jìn)行相應(yīng)的分詞,并對(duì)句子進(jìn)行切分。
(2)讀取情感詞典和程度副詞,將程度副詞乘以不同的權(quán)值,并處理情感得分防止出現(xiàn)負(fù)數(shù),最終計(jì)算出單條評(píng)論語(yǔ)句的情感傾向總得分。
(3)產(chǎn)品名稱計(jì)算熱度的公式如下所示。
熱度=單條評(píng)論語(yǔ)句的情感傾向總得分/全部評(píng)論語(yǔ)句的情感總得分中的最高得分
2.2.1 關(guān)聯(lián)度的計(jì)算和量化
在前階段的數(shù)據(jù)準(zhǔn)備和實(shí)體抽取后進(jìn)行關(guān)聯(lián)模式的定義,從根據(jù)當(dāng)?shù)氐慕?jīng)濟(jì)發(fā)展程度、地理位置等其他諸多客觀及衍生的主觀因素定義以下5 種關(guān)聯(lián)模式。從量化方法(如表2所示)中可以得知:
表2 關(guān)聯(lián)模式的量化方法Tab.2 Quantification method of correlation patterns
(1)互利關(guān)系是由產(chǎn)品A 對(duì)產(chǎn)品B、產(chǎn)品B 對(duì)產(chǎn)品A 的相對(duì)共現(xiàn)度加和得到,其計(jì)算的共現(xiàn)度可以反映當(dāng)?shù)貎蓛陕糜萎a(chǎn)品間聯(lián)系的緊密程度。
(2)近鄰關(guān)系是根據(jù)地理位置來計(jì)算的,而地理位置計(jì)算是根據(jù)經(jīng)緯度坐標(biāo)計(jì)算兩點(diǎn)球面距離,其中距離較近(<500m)的產(chǎn)品統(tǒng)一記作500m。
(3)散射關(guān)系是根據(jù)景區(qū)熱度、周圍同類產(chǎn)品密度及地理位置距離決定的,通過計(jì)算可進(jìn)一步分析產(chǎn)品間的競(jìng)爭(zhēng)力和變化趨勢(shì)等。
(3)競(jìng)爭(zhēng)關(guān)系主要建立在餐飲和酒店相似度較高基礎(chǔ)上的研究,主要影響因素包括經(jīng)濟(jì)距離和地理距離。經(jīng)濟(jì)距離及地理距離越小競(jìng)爭(zhēng)越大,經(jīng)濟(jì)距離是指餐飲間的熱度差。
(5)導(dǎo)流關(guān)系是主要利用影響因素中的景區(qū)熱度和景區(qū)距離,即為AB 熱度之和/AB 距離。
在對(duì)5 種關(guān)聯(lián)模式進(jìn)行定義和相關(guān)量化計(jì)算后,需要進(jìn)行進(jìn)一步的標(biāo)準(zhǔn)化,利用Z-Score 標(biāo)準(zhǔn)化方法[6]和Min-Max[7]標(biāo)準(zhǔn)化方法將指標(biāo)數(shù)值局限至[0,1],其中對(duì)部分集中在較小區(qū)間的數(shù)據(jù)取立方根,最終效果的部分展示如表3所示。
表3 部分關(guān)聯(lián)度計(jì)算結(jié)果Tab.3 Partial correlation degree calculation results
2.2.2 基于Neo4j 的圖譜可視化及分析
目前知識(shí)圖譜的存儲(chǔ)方式主要有關(guān)系型數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)和基于RDF 結(jié)構(gòu)的存儲(chǔ)方式[3]。Neo4j 圖數(shù)據(jù)庫(kù)以圖形結(jié)構(gòu)的形式存儲(chǔ)信息,關(guān)聯(lián)的數(shù)據(jù)本身就是它所包含的數(shù)據(jù),因此它可以直接顯示關(guān)聯(lián)數(shù)據(jù)特征以及數(shù)據(jù)之間的關(guān)系。首先,將旅游產(chǎn)品實(shí)體作為節(jié)點(diǎn)“Products”,并配置產(chǎn)品ID 和產(chǎn)品名稱屬性,生成旅游產(chǎn)品圖譜中的所有節(jié)點(diǎn),再將節(jié)點(diǎn)創(chuàng)建關(guān)聯(lián)類型屬性,得到旅游圖譜,局部旅游圖譜如圖1所示。
圖1 局部旅游圖譜Fig.1 Partial knowledge map of tourism
在關(guān)聯(lián)圖譜中,導(dǎo)流、輻射、互利關(guān)系出現(xiàn)頻率較高。餐飲風(fēng)格相似這一模式較為集中,其中酒店的競(jìng)爭(zhēng)關(guān)系較為明顯,例如在匯豐酒店同時(shí)與高州順得商務(wù)酒店和如家店·Neo(茂名人民路步行街中心店)存在競(jìng)爭(zhēng)關(guān)系,較少存在其他關(guān)系。
散射關(guān)系會(huì)跨領(lǐng)域出現(xiàn)在餐飲和景區(qū)中,例如金沙灣海濱浴場(chǎng)和茂名浪漫海岸溫德姆酒店望海餐廳存在散射關(guān)系;或者可以跨領(lǐng)域出現(xiàn)在酒店和景區(qū)中,例如金沙灣海濱浴場(chǎng)和喜來登酒店存在散射關(guān)系。通過對(duì)產(chǎn)品關(guān)聯(lián)模式、目的地?zé)岫冗M(jìn)行分析,發(fā)現(xiàn)了餐飲業(yè)迎來了較好的發(fā)展趨勢(shì)與旅游產(chǎn)品的互利關(guān)系越來越明顯。
目前,領(lǐng)域知識(shí)圖譜已經(jīng)應(yīng)用在許多領(lǐng)域,但是旅游領(lǐng)域的知識(shí)圖譜應(yīng)用仍然相對(duì)匱乏,這無疑抑制了智慧旅游的發(fā)展。為了進(jìn)一步應(yīng)用互聯(lián)網(wǎng)旅游數(shù)據(jù)資源為政府提供本地周邊游發(fā)展建議,通過對(duì)本地旅游相關(guān)的評(píng)價(jià)文本進(jìn)行分類挖掘,計(jì)算出關(guān)鍵詞的熱度,建立了關(guān)聯(lián)模型并進(jìn)行了量化,計(jì)算出關(guān)聯(lián)度并將其輸入Neo4j 進(jìn)行知識(shí)圖譜的可視化分析,完成了對(duì)周邊游熱點(diǎn)的分析。
數(shù)字技術(shù)與應(yīng)用2022年11期