耿凌頂 黃鑫萍
(1.大連大學國際學院,遼寧大連 116622;2.武漢輕工大學管理學院,湖北武漢 430048)
語義分析是通過對語言本身的文字、符號、語境等進行解析,發(fā)掘那些不能通過普通閱讀所掌握的深層意義。網絡語義分析是在語義分析的基礎之上,通過對人們在網絡上留下的語言進行深層分析,充分發(fā)掘網絡語言背后人們的觀點、立場以及情感等要素。武漢錦里溝是武漢市木蘭山5A旅游景區(qū)群的核心景區(qū)之一,本文主要運用“八爪魚”這一爬蟲軟件和武漢大學開發(fā)的ROSTCM6這一語義網絡分析軟件,以武漢錦里溝風景區(qū)為實證對象,利用游客對景區(qū)評價作為研究數(shù)據(jù)來源,探究游客的情感傾向和具體需求,為景區(qū)的建設發(fā)展提出可行的建議。
在互聯(lián)網大發(fā)展的背景下,游客可以在各種網絡平臺上發(fā)表自己對景區(qū)的評論,這些評論蘊含著游客最真實的情感,不僅影響其他游客對于該景區(qū)的印象以及消費決策,也是對景區(qū)進行整改完善的直接依據(jù)。本文以武漢錦里溝為研究對象,利用“八爪魚”軟件搜集了景區(qū)在美團、去哪兒、攜程以及飛豬四大在線旅游平臺8 126條游客評論(表1)。
表1 四大平臺游客評價統(tǒng)計表
由于互聯(lián)網平臺的開放性,游客評論語言在字數(shù)、語法、格式上都存在很大的隨意性,因此需要利用爬蟲軟件對收集到的這些評論文本進行預處理。數(shù)據(jù)的預處理主要包含三個環(huán)節(jié),首先是刪除諸如“好”“很好”“不行”等等只有一兩個字、過于簡短且不能產生語義關聯(lián)的游客評論。其次是去掉諸如“好好…”“差差…”“垃圾垃圾…”等將一個字或者一個詞多次復制粘貼,湊字數(shù)的評論。最后就是刪除那些為獲取平臺上的評價積分,直接復制粘貼其他游客的評價。
經過數(shù)據(jù)預處理后,已經得出有效數(shù)據(jù)。但是游客評價大多是較長的句子,為了挖掘景區(qū)游客評價的熱點,需要利用ROSTCM6軟件的分詞處理功能,將評論的長句子進行分詞處理,抽取出游客評價的高頻詞匯和熱點詞匯。
分詞處理以后就可以利用ROSTCM6軟件進行情感分析,也就是將文本分成正面、負面評價,進行二分化處理。其基本原理是根據(jù)每條的字、詞包含的情感積極性的高低打出不同的分數(shù),一條評論中正面評價詞匯越多,分數(shù)就越高,相反負面評價的分數(shù)為負數(shù),0分為中性評論。表2是表1進行預處理后,剩余7 124條評論二分化處理結果。
表2 二分化處理結果表
為了更加深入地了解景區(qū)哪些具體因素引發(fā)了游客的積極情感,以及這些積極因素之間的相互關系,將5 137條正面評價和ROSTCM6語言網絡分析功能,可以構建游客在線正面評價的語義網絡分析圖(圖1)。
圖1 武漢錦里溝景區(qū)游客正面評價語義網絡圖
通過圖1可以看出景區(qū)存在以下優(yōu)勢:
1)“錦里溝”和“景區(qū)”這兩個界定研究對象的節(jié)點同時指向了“風景”節(jié)點,而“風景”又指向了“很好”這一節(jié)點,說明大多數(shù)游客認為錦里溝景區(qū)“風景優(yōu)美、景色不錯”。
2)“工作人員”“服務”“態(tài)度”這幾個一二級節(jié)點與“很好”這個一級節(jié)點構成了一個封閉的四邊形,不難得出該景區(qū)內工作人員的服務態(tài)度很好是引發(fā)錦里溝景區(qū)的游客正面情感的一大因素。
3)一級節(jié)點“好玩”關聯(lián)了“山道”“滑車”“玻璃橋”“玻璃”“漂流”“項目”等多個次級節(jié)點,說明景區(qū)內項目較多,收獲了不少游客特別是小孩子們的喜愛。
4)“土家”“風情”“文化”這三個節(jié)點之間構成了一個封閉三角形,證明景區(qū)土家族的少數(shù)民族文化給較多游客留下了深刻的印象,事實上錦里溝景區(qū)是武漢市唯一的土苗文化風情區(qū),文化特色鮮明。
5)“網上”“劃算”這兩個一級節(jié)點與“買票”節(jié)點形成了一個封閉的三角形,表明了大多數(shù)游客認為錦里溝景區(qū)在網上購票十分劃算。實踐中武漢錦里溝是木蘭山5A旅游景區(qū)群中,最早“觸網”并推行團購的景區(qū)。
同理,為了挖掘導致錦里溝景區(qū)游客產生負面情緒的主要因素,以及這些因素之間的相互關系,可以通過1 423條負面評價,構建負面評價語義網絡圖(圖2)來完成。
圖2 錦里溝景區(qū)游客負面評價語義網絡圖
通過圖2可以看出景區(qū)存在以下問題:
1)景區(qū)收費混亂。圖2中“項目”“收費”“門票”都是高頻詞匯,并且“景區(qū)”“項目”“門票”“玩的”這四個節(jié)點都指向了“收費”節(jié)點。在負面評價文本中通過搜索“收費”,可以發(fā)現(xiàn)很多游客反映景區(qū)存在胡亂收費現(xiàn)象。
2)景區(qū)配套設施不完善。在負面評價語義圖中可以看到“配套”“設施”“不完善”節(jié)點之間形成了一個封閉的三角形,顯然游客認為景區(qū)配套設施不夠完善。通過在游客負面評價文本中搜索這三個詞語發(fā)現(xiàn),很多游客反映景區(qū)垃圾桶太少、沒有路標。
3)工作人員數(shù)量少、素質較低。圖2中,“服務”“人員”“態(tài)度”“管理”這四個節(jié)點構成了一個封閉的四邊形,可以看出游客十分看重景區(qū)內服務人員的態(tài)度及管理。除此之外,“景區(qū)”“工作人員”“太少”節(jié)點之間也構成了一個封閉的三角形。瀏覽景區(qū)負面評價文本,可以得知該景區(qū)內的工作人員很少,無法問路,還有部分游客認為景區(qū)工作人員態(tài)度不熱情。
4)景區(qū)環(huán)境衛(wèi)生問題突出。在負面評價語義分析圖中可以看到“垃圾”節(jié)點直接指向了“有點多”節(jié)點。在語義分析中,“垃圾”這一詞匯可以是形容詞,體現(xiàn)游客對景區(qū)的負面評價,同時也可以作為名詞,說明游客認為景區(qū)內的垃圾較多,污染了環(huán)境。結合負面評價文本分析,確實存在部分游客為了吐槽景區(qū)而形容其很“垃圾”,而更多的游客評論景區(qū)環(huán)境衛(wèi)生條件差,“垃圾很多”。
5)景區(qū)周邊道路設計不合理。從圖2中可以看到,“道路”節(jié)點上的連接弧較多,“不好走”以及“景區(qū)”節(jié)點直接指向了“道路”,說明游客認為該景區(qū)的道路不好走。通過結合所有的負面評價文本進行綜合分析,發(fā)現(xiàn)游客主要抱怨這些交通問題:首先是景區(qū)內部路況很差,山路、泥巴路多,景區(qū)外部道理路彎彎繞繞,道路不平整,安全隱患較大,其次是景區(qū)的路上路標很少,游客導入性不足,最后是景區(qū)周邊堵車嚴重,缺乏工作人員進行疏通。事實上,錦里溝景區(qū)位于武漢市邊遠的黃陂區(qū),屬于大別山南麓余脈,交通設施建設任重道遠。
在“互聯(lián)網+”時代,各大網絡平臺上已經形成了海量的游客評論數(shù)據(jù)。與此同時,隨著計算機科學的發(fā)展,人工智能改變了人類與計算機的交流方式,運用人工智能進行語義數(shù)據(jù)挖掘,可以在對現(xiàn)實世界中的事物進行描述的語言中探索出更多有用的數(shù)據(jù)和信息。本文以武漢市錦里溝景區(qū)的網絡評價為數(shù)據(jù)來源,運用相關的語義網絡分析工具,對這些文本正、負面評價進行了進一步挖掘,既為景區(qū)發(fā)展起到導向作用,也是對語義數(shù)據(jù)網絡分析的一次有益的探索。