吳清壽,張祎航,羅遠(yuǎn)華
(武夷學(xué)院數(shù)學(xué)與計(jì)算機(jī)學(xué)院,武夷山354300)
在線旅游網(wǎng)站上的游客評(píng)論能夠較好地反映旅游目的地的“吃住行娛購(gòu)游”等旅游六要素的真實(shí)情況。對(duì)游客在線評(píng)論進(jìn)行采集和可視化分析,可以給旅游行業(yè)管理部門(mén),旅游企業(yè)和其他游客提供有益的參考。
基于評(píng)論數(shù)據(jù)的挖掘分析研究中,郭麗環(huán)等人[1]等以廈門(mén)地區(qū)酒店的在線評(píng)論數(shù)據(jù)為研究對(duì)象,分析了游客在酒店選擇上的情感傾向。鮑珊珊等人[2]以國(guó)內(nèi)主題公園為研究對(duì)象,通過(guò)分析游客在線評(píng)論,對(duì)主題公園的發(fā)展提出了參考意見(jiàn)。王雨文等人[3]等采集了游客對(duì)湄洲島景區(qū)的評(píng)論內(nèi)容,從多個(gè)維度對(duì)相關(guān)要素進(jìn)行了滿意度分析。通過(guò)詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行各個(gè)領(lǐng)域相關(guān)熱點(diǎn)的研究也逐漸成為了一種趨勢(shì),如胡丹妮等人[4]基于詞共現(xiàn)網(wǎng)絡(luò)對(duì)國(guó)內(nèi)教育教育的專業(yè)建設(shè)現(xiàn)狀進(jìn)行了分析研究,趙麗梅等人[5]等分析了智慧圖書(shū)館中的四個(gè)主要研究熱點(diǎn)。
本文以針對(duì)武夷山景區(qū)的在線評(píng)論數(shù)據(jù)為研究?jī)?nèi)容,利用相關(guān)技術(shù)從評(píng)論數(shù)據(jù)中抽取關(guān)鍵詞,之后,利用詞云和詞共現(xiàn)網(wǎng)絡(luò)對(duì)高頻關(guān)鍵詞進(jìn)行可視化分析。
本研究以攜程網(wǎng)上游客對(duì)武夷山景區(qū)的在線評(píng)論數(shù)據(jù)為研究對(duì)象,采集內(nèi)容包括評(píng)論內(nèi)容、旅游目的地名稱和評(píng)論時(shí)間三個(gè)要素,本文主要對(duì)指定時(shí)間段內(nèi)的評(píng)論文本進(jìn)行分析。
數(shù)據(jù)采集步驟如下:
(1)從瀏覽器中獲取User-Agent,將爬蟲(chóng)腳本模擬成真實(shí)的瀏覽器請(qǐng)求;
(2)用Python中的requests庫(kù)模擬瀏覽器請(qǐng)求旅游目的地頁(yè)面的URL;
(3)用lxml庫(kù)對(duì)網(wǎng)站返回的信息進(jìn)行解析,并提取所需數(shù)據(jù);
(4)把獲取的評(píng)論數(shù)據(jù)內(nèi)容寫(xiě)入文件進(jìn)行保存。
評(píng)論文本需要經(jīng)過(guò)系列處理,最后得到每條評(píng)論的關(guān)鍵詞。其主要流程包括:中文分詞、停用詞處理、加入自定義詞庫(kù)和關(guān)鍵詞抽取等步驟。
游客評(píng)論數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),首先需要對(duì)其進(jìn)行分詞處理。本文采用jieba分詞工具包進(jìn)行分詞。jieba工具包包含多種分詞模式,如精確模式、全模式和搜索引擎模式等。其中,精確模式下,每個(gè)字符只會(huì)出現(xiàn)在一個(gè)詞語(yǔ)中,有利于后續(xù)的詞頻統(tǒng)計(jì)和數(shù)據(jù)分析。
分詞后的數(shù)據(jù)中仍包含一些無(wú)助于語(yǔ)義分析的詞語(yǔ),如“的”、“呢”、“了”等,所以對(duì)詞庫(kù)進(jìn)行停用詞刪除操作。停用詞庫(kù)采用文獻(xiàn)[6]中的詞庫(kù),其包括中文停用詞表、哈工大停用詞表、百度停用詞表和四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)。
jieba庫(kù)對(duì)于陌生的詞組不能準(zhǔn)確地識(shí)別為一個(gè)詞,如:“印象大紅袍演出真好看!”,默認(rèn)情況下,分詞結(jié)果為“印象/大紅袍/演出/真/好看!”。這個(gè)問(wèn)題對(duì)游客評(píng)論數(shù)據(jù)分析有較大的影響。因?yàn)槲湟纳接写蠹t袍景區(qū)和印象大紅袍劇場(chǎng),上述的分詞結(jié)果可能會(huì)分析為游客對(duì)大紅袍景區(qū)的印象為好看,這與游客評(píng)論的初衷相悖。
為解決這個(gè)問(wèn)題,本研究采用了人工標(biāo)注的方法,即對(duì)于一些表示評(píng)論主體的詞匯,如果jieba無(wú)法正確識(shí)別,就通過(guò)人工標(biāo)注的方法,將完整的詞匯加入到自定義詞庫(kù),并逐步將自定義詞庫(kù)加入到j(luò)ieba庫(kù)中。通過(guò)自定義詞庫(kù),能夠有效地識(shí)別出游客評(píng)論信息中的主體對(duì)象。如將“印象大紅袍”作為一個(gè)自定義詞,則最終的分詞結(jié)果為“印象大紅袍/演出/真/好看!”
由上述步驟得到的詞語(yǔ)中仍存在較多的冗余詞匯,需要用TextRank算法進(jìn)一步抽取關(guān)鍵詞,其主要步驟如下:
(1)首先進(jìn)行評(píng)論文本預(yù)處理?;谧远x詞庫(kù)和停用詞庫(kù),將文本劃分為預(yù)處理詞庫(kù);
(2)將預(yù)處理詞庫(kù)中的Word添加到圖(Graph)中,作為圖中的一個(gè)節(jié)點(diǎn);
(3)對(duì)處于同一窗口范圍內(nèi)的Word之間建立一條連邊;
(4)用PageRank算法計(jì)算圖中節(jié)點(diǎn)的pr值;
(5)選取topk個(gè)pr值最大的節(jié)點(diǎn)所對(duì)應(yīng)的Word作為關(guān)鍵詞。
其中,PageRank算法[7]計(jì)算網(wǎng)絡(luò)中節(jié)點(diǎn)的pr值,pri表示節(jié)點(diǎn)vi在的影響力值,其第t輪迭代的值定義如式(1):
在無(wú)向圖中,Γi表示vi的鄰居節(jié)點(diǎn)集合,N為網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù)量,參數(shù)α設(shè)為0.85。
本次采集游客評(píng)論數(shù)據(jù)30000條,經(jīng)分詞處理后和自定義詞庫(kù)處理后,最后得到詞頻最高的關(guān)鍵詞600個(gè),其中,詞頻最高的20個(gè)詞如表1所示。
表1 詞頻最大的20個(gè)詞語(yǔ)
可以看出,游客對(duì)于武夷山旅游中印象最深刻的景點(diǎn)就是“竹筏”、“天游峰”、“九曲溪”等主流景點(diǎn)。游客對(duì)武夷山旅游的情感也基本是正面的,如“值得”、“震撼”和“喜歡”。
為了更加直觀的觀測(cè)游客評(píng)論喜好,本部分選擇詞頻最大的30個(gè)和100個(gè)詞語(yǔ)進(jìn)行可視化,可視化工具選擇WordCloud??梢暬Y(jié)果如圖1所示。圖1(a)中的結(jié)果與表1較為接近,顯示“竹筏”和指代“竹筏”的“漂流”是游客關(guān)注的熱點(diǎn)。圖1(b)中展示了更多的信息,如“大王峰”、“水簾洞”和“虎嘯巖”等更小眾的景點(diǎn)也出現(xiàn)在游客的高頻次評(píng)論中。同時(shí),可以看到“表演”、“舞臺(tái)”、“旋轉(zhuǎn)”等詞語(yǔ),這些基本都是對(duì)印象大紅袍劇場(chǎng)的評(píng)價(jià)。
圖1 高頻詞的詞云圖
通過(guò)構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),可以更好地展示游客對(duì)評(píng)價(jià)主體的總體認(rèn)知。把一個(gè)關(guān)鍵詞(如“九曲溪”)當(dāng)做詞共現(xiàn)網(wǎng)絡(luò)中的一個(gè)結(jié)點(diǎn),以句子為計(jì)算單位,構(gòu)建詞共現(xiàn)關(guān)系。詞與詞的共現(xiàn)詞數(shù)是作為兩個(gè)節(jié)點(diǎn)的權(quán)重,權(quán)重越大,節(jié)點(diǎn)的語(yǔ)義相關(guān)性越強(qiáng)。此處選擇共現(xiàn)權(quán)重為50和300的關(guān)鍵詞構(gòu)建共現(xiàn)網(wǎng)絡(luò),得到結(jié)果如圖2所示。
圖2 詞共現(xiàn)網(wǎng)絡(luò)
圖2中,權(quán)重越小,則滿足條件的連邊越多,節(jié)點(diǎn)間的聯(lián)系越緊密。通過(guò)擴(kuò)大權(quán)重,稀疏化節(jié)點(diǎn)的連邊關(guān)系,可以更好地觀測(cè)游客評(píng)論中共同出現(xiàn)的詞匯情況。如圖2(b)中所示,提到武夷山,更多出現(xiàn)的是武夷山的相關(guān)景點(diǎn),如“大紅袍”、“玉女峰”等。另外,反映武夷山地理特征的“丹霞地貌”在大量出現(xiàn)在有關(guān)武夷山景區(qū)的相關(guān)評(píng)論中。
本文介紹了游客評(píng)論數(shù)據(jù)的采集、分析和可視化的主要技術(shù)和流程,并對(duì)數(shù)據(jù)可視化結(jié)果進(jìn)行了分析。基于詞云的可視化能夠更好地揭示游客的評(píng)論重點(diǎn)及對(duì)旅游目的地的情感傾向,而基于詞共現(xiàn)網(wǎng)絡(luò)的可視化能夠在更多細(xì)節(jié)上反映出游客對(duì)具體旅游要素的觀感。
在下一步的研究中,將繼續(xù)完善自定義詞庫(kù),以提高中文分詞中的主體識(shí)別準(zhǔn)確率。本文的詞共現(xiàn)網(wǎng)絡(luò)分析的主體還不夠精細(xì),要進(jìn)一步完善算法,以期能實(shí)現(xiàn)對(duì)單一主體的挖掘分析。