和澤海,張 峰,盧 曄
(1.江蘇師范大學(xué),江蘇 徐州221116;2.徐州醫(yī)科大學(xué),江蘇 徐州221004)
旅游業(yè)對自然資源、生態(tài)環(huán)境和氣候條件有著嚴(yán)重依賴性,空氣作為旅游目的地的重要自然資源,其質(zhì)量影響著游客的旅游行為選擇以及對旅游目的地的情感體驗(yàn)。方葉林等提出環(huán)境污染主要包括大氣污染、水污染以及固體廢棄物污染,其中游客對空氣污染感知度最強(qiáng)。Zhang等通過對北京潛在游客的問卷調(diào)查發(fā)現(xiàn)多數(shù)游客已感知到霧霾給健康帶來的風(fēng)險(xiǎn)。霧霾引起的空氣質(zhì)量問題對旅游目的地城市的影響不容小覷,程勵(lì)等采用網(wǎng)絡(luò)問卷的形式對霧霾天氣較為嚴(yán)重的城市進(jìn)行調(diào)查,獲知霧霾天氣對城市居民旅游目的地的選擇傾向產(chǎn)生了顯著的負(fù)面影響。和Pfister對曼谷的空氣污染和澳大利亞的臭氧消耗進(jìn)行研究發(fā)現(xiàn),在游客看來前者的風(fēng)險(xiǎn)與危害是遠(yuǎn)高于后者的。這些研究為本研究提供了重要的范式引導(dǎo),然而,當(dāng)前研究主要集中于空氣質(zhì)量對旅游者選擇旅游目的地的影響,研究所用的數(shù)據(jù)主要來自傳統(tǒng)的問卷形式,研究所應(yīng)用的對象主要是國家或單一的城市。
在社交媒體時(shí)代海量的線上數(shù)據(jù)為游客情感研究提供了數(shù)據(jù)資源,與此同時(shí),在線文本分析技術(shù)為文本的挖掘與分析提供了保證。對社交媒體數(shù)據(jù)進(jìn)行情感分析、提取公眾意見可為游客體驗(yàn)旅游環(huán)境的情感傾向性研究提供新的視角。情感分析(sentiment analysis,SA),又稱為傾向性分析或意見挖掘,是對帶有感情色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。目前,情感分析的方法主要是基于機(jī)器學(xué)習(xí)的方法和基于情感詞典的方法。已有研究認(rèn)為基于機(jī)器學(xué)習(xí)的方法比基于情感詞典的方法更可靠。此外,在常用的機(jī)器學(xué)習(xí)方法支持向量機(jī)(support vector machine,SVM)、樸素貝葉斯(naive Bayes,NB)和人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)中,被證實(shí)第三者的結(jié)果最為精確。
挖掘旅游大數(shù)據(jù)所包含的游客情感以探討游客感知環(huán)境質(zhì)量的專題研究已經(jīng)引起了學(xué)界高度的關(guān)注。張思豆和李君軼運(yùn)用詞典匹配方法分析微博大數(shù)據(jù),探究了游客情感與空氣質(zhì)量的關(guān)系。Saura等運(yùn)用Python開發(fā)的算法對瑞士酒店目的地環(huán)境的推特評論進(jìn)行探究,提出空氣質(zhì)量對目的地環(huán)境具有重要作用。Becken等運(yùn)用詞匯匹配方法測算了大堡礁旅游生態(tài)環(huán)境評論的情感值。然而,從認(rèn)知或情感的角度分析游客對空氣質(zhì)量風(fēng)險(xiǎn)感知的成果仍較少。鑒于此,論文以赴國家中心城市5A景區(qū)的游客為例,以微博數(shù)據(jù)為素材,運(yùn)用人工神經(jīng)網(wǎng)絡(luò)這一機(jī)器學(xué)習(xí)方法進(jìn)行情感分析,探究游客對空氣質(zhì)量的情感傾向,歸納和揭示出游客對國家中心城市空氣質(zhì)量的情感特征。
國家中心城市是具備空間、人口、資源和政策優(yōu)勢,且在政治、經(jīng)濟(jì)、文化等方面具備輻射和集散功能,能夠引領(lǐng)區(qū)域發(fā)展的城市。目前為止,已經(jīng)確定了北京、上海、天津、廣州、重慶、成都、武漢、鄭州、西安9個(gè)國家中心城市。選擇九大國家中心城市為案例地,主要原因包括:①國家中心城市是中國城市旅游的典型代表,對研究游客對我國城市旅游目的地空氣質(zhì)量的情感感知具有重要意義。②九大國家中心城市分布于國家東、南、西、北、中不同區(qū)域,有助于研究游客情感空間動(dòng)態(tài)變化特征。③國家中心城市5A景區(qū)數(shù)量多,游客量大,評論數(shù)據(jù)豐富。④國家中心城市空氣質(zhì)量較差,且國家中心城市作為城市群和區(qū)域內(nèi)的核心城市,游客對其空氣質(zhì)量的關(guān)注度較高。表1列出了九大國家中心城市2018年空氣質(zhì)量狀況及城市概況。
表1 九大國家中心城市2018年空氣質(zhì)量狀況及城市概況
續(xù)表
論文首先利用ROST EA對數(shù)據(jù)進(jìn)行輔助處理,計(jì)算出文本句子的極性比例。ROST EA是武漢大學(xué)沈陽教授團(tuán)隊(duì)研發(fā)的用于情感分析的軟件,此軟件基于情感詞典抽取文本情感詞,對文本情感值進(jìn)行計(jì)算,根據(jù)情感值的正負(fù)判斷文本情感傾向,可將情感劃分為積極情緒、中性情緒和消極情緒3種類型。
其次,通過編輯Python3.0程序調(diào)用Boson平臺的基于中文語料的半監(jiān)督的ANN這一機(jī)器學(xué)習(xí)方法測算篇章文本情感值。使用該方法的原因如下:一方面,Boson平臺的語義語料庫是根據(jù)微博、論壇等渠道的數(shù)據(jù)自動(dòng)構(gòu)建的,且在分析時(shí)設(shè)置URL參數(shù)語料庫為微博語料庫,因此可以實(shí)現(xiàn)與微博數(shù)據(jù)的無縫對接;另一方面,該方法不僅能有效識別一般性詞匯的情感,還能識別特殊的專有名詞、俚語、網(wǎng)絡(luò)用語的情感來挖掘出文本隱藏的情感,且該方法的訓(xùn)練語料庫規(guī)模宏大,因此基于人工智能算法的ANN方法具有較高的準(zhǔn)確率。表2為Kirilenko等給出的情感分析評估準(zhǔn)則的含義,公式(1)~(4)為根據(jù)表擬定的評估準(zhǔn)則的計(jì)算公式。其中,準(zhǔn)確率(A)表示檢測結(jié)果中正確的話題數(shù)量與檢測結(jié)果的總話題數(shù)量的比率。精度(P)表示檢測結(jié)果中正確的某類極性的話題數(shù)量與檢測結(jié)果為同類極性的話題數(shù)量的比例。召回率(R)表示檢測結(jié)果中正確的話題數(shù)量與被測試集中應(yīng)有的話題數(shù)量的比率。F1值集合了精度和召回率這兩個(gè)評價(jià)參數(shù)描述了算法的總體優(yōu)劣。
表2 三元情感分類結(jié)果混淆矩陣
通過Python 3.0編寫計(jì)算機(jī)編程語言處理時(shí),先是調(diào)用Boson平臺上ANN方法分析篇章級評論文本,最后再批量輸出景區(qū)的情感數(shù)據(jù)。情感值在0和1之間且正負(fù)形象臨界值為0.5,根據(jù)等距原則擬定等級標(biāo)準(zhǔn)如下:非常差(0~0.100)、很差(0.101~0.200)、差(0.201~0.300)、較差(0.301~0.400)、稍差(0.401~0.500)、稍好(0.501~0.600)、較好(0.601~0.700)、好(0.701~0.800)、很好(0.801~0.900)、非常好(0.901~1)。
微博數(shù)據(jù)具有規(guī)模巨大、更新速度極快、形式多種多樣以及價(jià)值性高的特點(diǎn),為情感分析提供了重要研究數(shù)據(jù)源。論文以“空氣”+“景區(qū)名稱”為關(guān)鍵詞,通過八爪魚網(wǎng)絡(luò)爬蟲工具在微博社交平臺上對全國5A景區(qū)進(jìn)行旅游評論搜集,并進(jìn)行人工去噪,最終獲得2011年1月1日至2018年12月31日232個(gè)5A級景區(qū)的36737條評論,共計(jì)2886457字。去噪過程如下:首先,刪除重復(fù)評論;其次,考慮到微博賬戶除個(gè)人外,還包括政府機(jī)構(gòu)、企業(yè)、媒體等組織機(jī)構(gòu),而網(wǎng)絡(luò)輿情傳播的觀點(diǎn)是來自公眾的,故剔除來自組織機(jī)構(gòu)的信息;然后,刪除沒有情感特征以及無意義的評論;最后,統(tǒng)一數(shù)據(jù)格式。
ROST EA采用情感詞典方法可對所有評論句子的三元極性占比給出一個(gè)總體性判斷,而Boson平臺上的ANN這一機(jī)器學(xué)習(xí)方法則可測算帶有時(shí)空信息標(biāo)簽的每條評論的情感值。故采用ROST EA為輔、ANN為主的混合研究方法進(jìn)行情感分析。
采用ROST EA對九大國家中心城市的所有評論進(jìn)行情感傾向性比例測算,結(jié)果表明:積極情緒、消極情緒、中性情緒的評論分別占總評論數(shù)的77.99%、17.82%、4.19%,積極傾向評論數(shù)約為消極傾向評論數(shù)的5.5倍??煽闯觯慰蛯抑行某鞘械脑u論總體情感傾向?yàn)榉e極傾向。對具有積極情緒的評論進(jìn)行分段統(tǒng)計(jì),結(jié)果顯示,一般、中度、高度強(qiáng)度的評論數(shù)分別占總評論數(shù)的26.12%、22.97%、28.90%。由此可知,游客對國家中心城市的積極情緒略微偏高。對具有消極情緒的評論進(jìn)行分段統(tǒng)計(jì),一般、中度、高度強(qiáng)度的評論數(shù)分別占總評論數(shù)的9.60%、3.17%、0.45%。可見,游客對國家中心城市的消極情緒強(qiáng)度偏低,主要以輕度的負(fù)面情緒為主,極端負(fù)面評價(jià)較少。
1.九大中心城市情感值對比分析
通過編寫Python代碼調(diào)用Boson平臺上基于人工智能算法的ANN方法,測算篇章級文本的情感值。國家中心城市的情感值統(tǒng)計(jì)結(jié)果見圖1,結(jié)果顯示:整體的波動(dòng)范圍在“較好”與“很好”之間,游客情感值波動(dòng)范圍較小,最高情感值與最低情感值僅相差0.175,游客對九個(gè)國家中心城市的情感傾向差異較小,屬于“好”等級的城市有5個(gè)。此外,游客對國家中心城市的平均情感值為0.751,屬于正面中間的“好”等級,其結(jié)果與上文ROST EA計(jì)算出的情感傾向大體相吻合,均為好中略微偏上的程度。由此可知,總體上,游客對國家中心城市的情感傾向以正面為主,對國家中心城市空氣質(zhì)量的情感體驗(yàn)度相對較高。
空間上,九大國家中心城市分布于國家東南西北中不同區(qū)域,東部地區(qū)(上海、廣州)的平均情感值低于西部地區(qū)(成都、重慶)的平均情感值,北部地區(qū)(北京、天津、西安)的平均情感值低于南部地區(qū)(上海、成都、重慶、廣州)的平均情感值,總體呈現(xiàn)出“東低西高、北低南高”的特點(diǎn)。該特點(diǎn)與全國城市空氣污染表現(xiàn)出的“東重西輕、北重南輕”空間格局相一致。此外,中部地區(qū)城市(武漢、鄭州)平均情感值略高于東部地區(qū)(上海、廣州),也與東部和中部地區(qū)空氣質(zhì)量低于西部地區(qū)的實(shí)際情況相符??梢姡慰偷那楦畜w驗(yàn)在一定程度上能夠反映出真實(shí)的生態(tài)環(huán)境質(zhì)量。同時(shí)也反映出國家中心城市作為城市群和區(qū)域內(nèi)的核心城市,在區(qū)域內(nèi)具有極強(qiáng)的代表性。(圖1)
圖1 九大國家中心城市情感值排名
時(shí)間上,游客對國家中心城市5A景區(qū)的微博評論數(shù)除2013年出現(xiàn)爆發(fā)性增長外,整體呈穩(wěn)定增長趨勢。該趨勢與微博用戶的持續(xù)增長有關(guān),也說明了游客對空氣質(zhì)量的關(guān)注度日益提升。自2013年1月PM2.5首次成為氣象部門霾預(yù)警指標(biāo),“霧霾”一詞一度成為網(wǎng)絡(luò)熱搜,空氣質(zhì)量問題引發(fā)了人們大量的關(guān)注,由此推斷出2013年有關(guān)空氣質(zhì)量微博評論數(shù)的爆發(fā)性增長與其有較強(qiáng)的相關(guān)性。
2011~2018年游客對國家中心城市5A景區(qū)空氣質(zhì)量的情感值分別為0.790、0.721、0.743、0.776、0.780、0.748、0.752、0.739,均為“好”等級。考慮到2011年評論數(shù)量過少,僅有219條,且出現(xiàn)了異常興奮值,故剔除。圖2顯示,2012~2018年游客對國家中心城市5A景區(qū)空氣質(zhì)量的情感值整體呈波動(dòng)上升趨勢,但上升幅度較小,僅為2.5%。其中,2015年的情感值最高,2012年的情感值最低,最高值比最低值高8.2%。生態(tài)環(huán)境部發(fā)布的中國環(huán)境狀況公報(bào)顯示,除2016年外,2012~2018年間全國空氣質(zhì)量都較前一年總體向好,這一實(shí)際情況與2012~2015年情感值呈上升趨勢,而2016年情感值較2015年明顯下降相吻合。然而,游客的情感值并沒有伴隨著空氣質(zhì)量的改觀而穩(wěn)步上升,不僅上升幅度小,且在2018年情感值又一次出現(xiàn)下降。據(jù)中華人民共和國生態(tài)環(huán)境部官方網(wǎng)站(http:∥www.mee.gov.cn/)統(tǒng)計(jì),2018年全國338個(gè)地級以上城市中,空氣質(zhì)量達(dá)標(biāo)的僅占35.8%。雖然2012~2018年中國空氣質(zhì)量有一定的提升,但我國空氣污染問題仍面臨著嚴(yán)峻挑戰(zhàn)。霧霾的出現(xiàn)、紀(jì)錄片《柴靜霧霾調(diào)查:穹頂之下》的播出、國家有關(guān)生態(tài)保護(hù)政策的出臺……使人們對空氣污染更加敏感。此外,伴隨著大眾旅游的興起,人們更加追求高質(zhì)量的旅游經(jīng)歷,因而對空氣質(zhì)量的標(biāo)準(zhǔn)也愈加嚴(yán)格。由此可知,游客情感與空氣質(zhì)量具有一定的相關(guān)性,但空氣質(zhì)量的略微改善并不能夠引起游客滿意度質(zhì)的飛躍,伴隨著游客對生態(tài)環(huán)境的日益關(guān)注,人們對空氣質(zhì)量提出了更高的要求與期望。
圖2 2012~2018年國家中心城市空氣質(zhì)量情感值和評論數(shù)
2.九大中心城市情感值在全國的位置分析
通過上述方法測算全國省份的情感值以及評論數(shù)。游客對全國5A景區(qū)的微博總評論數(shù)為36737條,其中對國家中心城市5A景區(qū)的微博評論數(shù)為5802條,占全國評論數(shù)的15.8%。在全國省份(自治區(qū)、直轄市)評論數(shù)中四個(gè)直轄市北京、上海、重慶、天津的評論數(shù)分別排在第7、第22、第25、第30位。剩余五個(gè)中心城市武漢、廣州、西安、成都、鄭州的評論數(shù)分別占其所在省份湖北、廣東、陜西、四川、河南的55.4%、50.9%、49.7%、28.6%、2.1%??芍慰蛯抑行某鞘?A景區(qū)的空氣質(zhì)量關(guān)注度較高。
從全國范圍看,游客對國家中心城市的空氣質(zhì)量情感體驗(yàn)度相對較低。游客對國家中心城市5A景區(qū)空氣質(zhì)量的平均情感值為0.751,比對全國5A景區(qū)空氣質(zhì)量的平均情感值低0.034。四個(gè)直轄市天津、重慶、北京、上海的情感值在省份(自治區(qū)、直轄市)排名中分別排第7、第10、第26、第31位,北京和上海的情感值均低于全國平均值,且上海的情感值在所統(tǒng)計(jì)的31個(gè)省份(自治區(qū)、直轄市)中為倒數(shù)第一。剩余五個(gè)中心城市武漢、廣州、西安、成都、鄭州的情感值均低于所在省的情感值。
3.九大中心城市景區(qū)情感值比較分析
從景區(qū)維度對國家中心城市5A級景區(qū)的情感值進(jìn)行對比分析發(fā)現(xiàn):游客對空氣質(zhì)量的感知與景區(qū)類型具有相關(guān)性。總體上,自然景觀類景區(qū)的情感值高于人文景觀類景區(qū)的情感值。在30個(gè)5A級景區(qū)中,人文景觀類景區(qū)有18個(gè),自然景觀類景區(qū)有12個(gè)。其中,人文景觀類景區(qū)的平均情感值為0.731,屬于“好”等級,自然景觀類景區(qū)的平均情感值為0.807,屬于“很好”等級。人文景觀類景區(qū)中,上??萍拣^和東方明珠廣播電視塔的情感值最低,分別為0.578和0.630,導(dǎo)致上海整體的情感值較低。自然景觀類景區(qū)中,重慶占7個(gè),且排名前四的景區(qū)均位于重慶,使重慶整體的情感值較高。
圖3 人文景觀類5 A級景區(qū)情感值
圖4 自然景觀類5A級景區(qū)情感值
首先,情感分析表明,游客感知到的空氣質(zhì)量以正面形象為主,隨著時(shí)間的推移,這種形象呈波動(dòng)上升趨勢,在空間上則表現(xiàn)出“東低西高、北低南高”的特點(diǎn)。時(shí)間上,2012~2015年情感值呈上升趨勢,2016年情感值較2015年明顯下降與實(shí)際空氣質(zhì)量年變化相吻合,此外,2016~2018年情感值呈波動(dòng)下降的趨勢表明游客對空氣質(zhì)量愈發(fā)嚴(yán)格;空間上,游客對國家中心城市的情感體驗(yàn)呈現(xiàn)出“東低西高、北低南高”的特點(diǎn),與全國空氣污染特征相吻合,表現(xiàn)出九大中心城市在區(qū)域內(nèi)極強(qiáng)的代表性;總體上,游客對國家中心城市的情感值在全國范圍內(nèi)較低與城鎮(zhèn)化程度較高的地區(qū)大氣污染程度明顯高于城鎮(zhèn)化水平較低的地區(qū)情況相吻合。綜上,從不同層面研究游客對空氣質(zhì)量的感知對揭示游客的情感特征具有有效性。
其次,景區(qū)類型是影響游客情感值的重要因素。從景區(qū)維度研究游客情感體驗(yàn),發(fā)現(xiàn)自然類景區(qū)比人文類景區(qū)更能夠激發(fā)游客的積極情緒。本研究認(rèn)為多維度分析游客情感影響因素對了解游客情感體驗(yàn)和目的地建設(shè)具有重要意義。
最后,中國九大中心城市的空氣質(zhì)量已成為游客的重要關(guān)注對象,對游客體驗(yàn)滿意度的提升具有重要意義。然而,從全國范圍看,游客對國家中心城市的空氣質(zhì)量體驗(yàn)感相對較差,因此,旅游供給雙方均需保護(hù)空氣環(huán)境。具體來說,在供給側(cè)方面,可通過制定大氣環(huán)境治理等方面的措施來改善空氣質(zhì)量,進(jìn)而提升城市旅游形象,促進(jìn)目的地的良性發(fā)展;對需求側(cè)的游客而言,則需培養(yǎng)環(huán)境風(fēng)險(xiǎn)感知意識,減少對空氣質(zhì)量帶來負(fù)面影響的不良行為。需要指出的一個(gè)重點(diǎn)是,在景區(qū)層面,情感值的高低可比較準(zhǔn)確地反映目的地的空氣質(zhì)量,所以在方法上除傳統(tǒng)意義的物理監(jiān)測之外,可發(fā)揮情感值的感應(yīng)器作用,利用社會監(jiān)測方法以監(jiān)督環(huán)境,通過以人為本的服務(wù)方式達(dá)到人類與自然環(huán)境和諧共處的目的。
第一,真實(shí)的空氣質(zhì)量與游客的情感體驗(yàn)具有相關(guān)性,游客對國家中心城市空氣質(zhì)量的關(guān)注度較高,但從全國看游客對國家中心城市空氣質(zhì)量的體驗(yàn)卻不盡如人意。國家中心城市是我國城市群的核心,也是我國對外開放的“名片”,提升空氣質(zhì)量進(jìn)而增強(qiáng)游客對國家中心城市的情感體驗(yàn)具有重要意義。
第二,在運(yùn)用ROST EA進(jìn)行情感傾向性測算時(shí),由于運(yùn)用的不是有關(guān)空氣質(zhì)量評價(jià)的詞庫,故在測算情感值時(shí)有一定的偏差,論文只進(jìn)行了文本情感比例分析,后續(xù)研究若能構(gòu)建有關(guān)空氣質(zhì)量評價(jià)的詞庫,將有助于提升從詞匯角度進(jìn)行情感分析的準(zhǔn)確率。
第三,結(jié)果分析方面,游客情感體驗(yàn)受多方面因素的影響,論文僅考慮了空氣質(zhì)量和景區(qū)類型因素,未來可對游客情感因素進(jìn)行多維度分析。