隋 潔
(宣城職業(yè)技術(shù)學(xué)院,安徽 宣城 242000)
隨著旅游行業(yè)的互聯(lián)網(wǎng)程度加深,游客在旅游過(guò)程中產(chǎn)生的數(shù)據(jù)也逐漸完整,并且數(shù)據(jù)規(guī)模龐大,這些有利條件的出現(xiàn),為大數(shù)據(jù)技術(shù)應(yīng)用到該領(lǐng)域打下基礎(chǔ)[1]。另一方面,游客評(píng)價(jià)被普遍看作影響旅游行業(yè)發(fā)展的重要因素之一,一個(gè)景點(diǎn)的發(fā)展前景與其在互聯(lián)網(wǎng)上的評(píng)價(jià)狀態(tài)息息相關(guān)[2-3]。因此,能否更加精準(zhǔn)、高效地從游客對(duì)旅游景觀評(píng)論中提取有建設(shè)性的反饋信息,對(duì)于景區(qū)的長(zhǎng)期發(fā)展具有重要意義[4]。國(guó)內(nèi)專家學(xué)者針對(duì)該問(wèn)題,提出了多種解決方案,但其中多數(shù)研究使用的數(shù)據(jù)處理系統(tǒng)對(duì)評(píng)價(jià)文本的量化處理效果不夠理想,且運(yùn)算較為緩慢,因此該研究選擇結(jié)合SD法(全稱Semantic Differential,即語(yǔ)義差異法)與情感分析等大數(shù)據(jù)技術(shù),構(gòu)建景觀評(píng)價(jià)數(shù)據(jù)的分析模型。
該研究設(shè)計(jì)的基于多種大數(shù)據(jù)技術(shù)的園林景觀評(píng)價(jià)模型,主要計(jì)算步驟有,數(shù)據(jù)收集與清洗、自然語(yǔ)言分詞與標(biāo)注、詞頻統(tǒng)計(jì)、情感量化評(píng)分等等。模型計(jì)算流程見(jiàn)圖1。
觀察圖1可知,景觀的評(píng)價(jià)指標(biāo)構(gòu)建步驟在整個(gè)模型中屬于前期工作,并且相對(duì)獨(dú)立,因此該步驟的具體構(gòu)建將在1.1節(jié)完成,剩余步驟設(shè)計(jì)在1.2節(jié)完成。
該節(jié)在大量收集整理相關(guān)文獻(xiàn)的基礎(chǔ)上,參考自然語(yǔ)言情感分析、園林學(xué)的景觀空間等理論,以消費(fèi)者對(duì)景觀的評(píng)論為原始數(shù)據(jù),構(gòu)建出園林景觀評(píng)價(jià)指標(biāo)體系。SD法是一種心理測(cè)定的方法,其通過(guò)語(yǔ)言信息來(lái)反推語(yǔ)言使用者的心理狀態(tài),從而獲得語(yǔ)言提供者關(guān)于研究對(duì)象的感受定量數(shù)據(jù)[5-7]。在SD法計(jì)算步驟中,首先需要收集與研究對(duì)象高相關(guān)性的向榮詞對(duì),再根據(jù)評(píng)價(jià)數(shù)據(jù)進(jìn)行歸納縮減。收集向榮詞對(duì)時(shí),需考慮以下篩選條件[8]。首先,無(wú)法或者很難找到反義詞的形容詞應(yīng)剔除,以免出現(xiàn)失真片面的評(píng)價(jià)。其次,在中心點(diǎn)兩翼難以形成對(duì)稱的形容詞也應(yīng)去掉,以確保評(píng)價(jià)量化數(shù)據(jù)的可展示性。最后,旅游者不常用的形容詞也需剔除。從相關(guān)文獻(xiàn)中收集整理出的形容詞中去掉語(yǔ)義表達(dá)重復(fù)、模糊,或符合上述三條件的形容詞,留下131組形容詞對(duì)。按照形容詞對(duì)描述對(duì)象,將其劃分為景觀管理、景觀內(nèi)涵、景觀生態(tài)、景觀感知、景觀形象、景觀空間六類??紤]到部分詞對(duì)在評(píng)價(jià)數(shù)據(jù)中出現(xiàn)頻率較低,對(duì)131組詞對(duì)按其在園林景觀評(píng)價(jià)數(shù)據(jù)中出現(xiàn)頻率進(jìn)行排序,取出最常見(jiàn)、最具代表性的26組形容詞構(gòu)成景觀評(píng)價(jià)指標(biāo)體系,見(jiàn)表1.
表1 景觀評(píng)價(jià)指標(biāo)體系信息
如表1所示,表中第二列為指標(biāo)類別的解釋,各項(xiàng)景觀評(píng)價(jià)指標(biāo)的詞對(duì)內(nèi)形容詞順序與后續(xù)SD評(píng)分圖中展示的內(nèi)容一致。
該研究設(shè)計(jì)的語(yǔ)義分析模型所需原始數(shù)據(jù)形式為,單個(gè)用戶對(duì)單個(gè)景觀的評(píng)價(jià)文本。初步選定美團(tuán)、途牛、攜程、去哪兒、馬蜂窩等包含旅游數(shù)據(jù)的平臺(tái)作為景觀評(píng)價(jià)數(shù)據(jù)來(lái)源。分析發(fā)現(xiàn),美團(tuán)平臺(tái)數(shù)據(jù)主要屬于電商與外賣領(lǐng)域,途牛與馬蜂窩平臺(tái)的數(shù)據(jù)主要屬于旅游攻略類型,而同程平臺(tái)數(shù)據(jù)規(guī)模較小??紤]到數(shù)據(jù)清洗方便程度與景觀評(píng)論數(shù)據(jù)規(guī)模,最后決定選擇攜程和去哪兒兩大平臺(tái)作為評(píng)價(jià)數(shù)據(jù)來(lái)源。
確定數(shù)據(jù)來(lái)源后,使用Python爬蟲(chóng)技術(shù)收集評(píng)價(jià)數(shù)據(jù),并應(yīng)用Python程序語(yǔ)言、SPSS軟件、Excel軟件輔助處理評(píng)價(jià)數(shù)據(jù)。下面設(shè)計(jì)數(shù)據(jù)清洗環(huán)節(jié),爬蟲(chóng)收集到的數(shù)據(jù),由于網(wǎng)頁(yè)布局多變、數(shù)據(jù)來(lái)源不同、網(wǎng)絡(luò)狀況改變、評(píng)論方式自由度高等原因,會(huì)混雜多種臟數(shù)據(jù)和無(wú)效數(shù)據(jù)。所以,為保證模型計(jì)算結(jié)果的有效性與計(jì)算效率,在開(kāi)始計(jì)算數(shù)據(jù)前,需要先對(duì)原始評(píng)論文本進(jìn)行數(shù)據(jù)清洗,數(shù)據(jù)清洗的代碼較為繁雜,不做展示。數(shù)據(jù)清洗原則如下,首先,字?jǐn)?shù)過(guò)少的評(píng)價(jià)大多數(shù)屬于無(wú)效評(píng)價(jià),若對(duì)其進(jìn)行篩選,計(jì)算較為復(fù)雜,且計(jì)算價(jià)值不大,考慮到該研究收集的原始數(shù)據(jù)規(guī)模足夠大,因此直接去掉少于6字符的評(píng)價(jià)數(shù)據(jù),比如“感覺(jué)還行”、“一般般吧”這種評(píng)價(jià)。然后,去掉連續(xù)重復(fù)字符數(shù)大于4個(gè)的評(píng)論,如“好好好好”。最后,表達(dá)含義特別相似的評(píng)論也應(yīng)刪除。
完成數(shù)據(jù)清洗后,即開(kāi)始數(shù)據(jù)處理與建模過(guò)程,一方面需要從文獻(xiàn)中提取出評(píng)論數(shù)據(jù)的評(píng)價(jià)指標(biāo),其形式為一對(duì)含義相反的形容詞對(duì),采用jieba分詞功能,將文獻(xiàn)與評(píng)論數(shù)據(jù)中的語(yǔ)句分詞并標(biāo)注詞性。jieba分詞是Python語(yǔ)言中的一個(gè)用于中文分詞的接口。其先使用前綴詞典對(duì)待分詞文本進(jìn)行詞圖掃描,以生成各語(yǔ)句中所有漢字組成的各種無(wú)環(huán)有向圖(簡(jiǎn)稱DAG)。然后根據(jù)詞典尋找DAG中的最短路徑,并按照最短路徑對(duì)句子進(jìn)行分詞,不存在于詞典中的詞,則使用隱馬爾科夫模型發(fā)現(xiàn)。分詞并標(biāo)注步驟完成后,應(yīng)用counter函數(shù)統(tǒng)計(jì)全部數(shù)據(jù)中各詞的出現(xiàn)頻率。再使用stopwords列表功能,刪除包括代詞、介詞、連詞等所有的停用詞。按照文獻(xiàn)剩余形容詞在評(píng)論數(shù)據(jù)中的出現(xiàn)頻率選出數(shù)量合適的形容詞對(duì),即1.1節(jié)最終取出的26組形容詞對(duì)。
另一方面,選出總評(píng)價(jià)數(shù)據(jù)大于1000條的景點(diǎn),為每個(gè)景點(diǎn)創(chuàng)建一個(gè)文檔,將每個(gè)評(píng)價(jià)數(shù)據(jù)存入相應(yīng)的景點(diǎn)文檔之中,并對(duì)所有數(shù)據(jù)使用snowNLP中的sentiment()函數(shù)進(jìn)行情感分析。在大數(shù)據(jù)技術(shù)中,主要使用jieba功能庫(kù)和snowNLP功能庫(kù)處理情感分析任務(wù),前者雖然計(jì)算復(fù)雜度低,計(jì)算速度較快,但對(duì)詞庫(kù)的依賴性較大,在待處理文本信息豐富的情況下,情感分析效果較差。而snowNLP功能庫(kù)通過(guò)貝葉斯分類模型進(jìn)行運(yùn)算,分析結(jié)果更為準(zhǔn)確,但其對(duì)訓(xùn)練語(yǔ)料與待處理數(shù)據(jù)之間的相關(guān)性要求較高。試驗(yàn)后發(fā)現(xiàn),采用snowNLP功能庫(kù)的處理結(jié)果準(zhǔn)確率更高,因此選用snowNLP功能庫(kù)進(jìn)行情感分析。然后,為使輸出的量化評(píng)論情感值數(shù)據(jù)離散程度增加,同時(shí)也為匹配SD法的七段評(píng)價(jià)尺度法,對(duì)情感值使用公式(1)進(jìn)行變換處理。
Trans_senti=(senti-0.5)*3/0.5
(1)
式(1)中,senti為上一步驟輸出的評(píng)論情感值,Trans_senti為變換后的評(píng)論情感值,可見(jiàn),經(jīng)過(guò)式(1)處理,情感值的取值范圍被映射到區(qū)間[-3,3]。
然后根據(jù)26項(xiàng)評(píng)價(jià)指標(biāo)和變換后的評(píng)論情感數(shù)值計(jì)算出各景點(diǎn)的SD評(píng)分?jǐn)?shù)據(jù)表,計(jì)算流程見(jiàn)圖2。
如圖2所示,對(duì)于每處景點(diǎn),遍歷其26項(xiàng)評(píng)價(jià)指標(biāo),找出具有與評(píng)價(jià)詞相關(guān)的關(guān)鍵詞的所有評(píng)論,對(duì)這些評(píng)論的變換后情感值求均值,以該均值作為該景點(diǎn)在此項(xiàng)評(píng)價(jià)指標(biāo)上的得分,依次計(jì)算得出各景點(diǎn)的SD評(píng)分?jǐn)?shù)據(jù)表。最后,根據(jù)各景點(diǎn)SD評(píng)分?jǐn)?shù)據(jù)表,可以繪制出各景點(diǎn)的評(píng)價(jià)曲線圖,用以分析景點(diǎn)的特點(diǎn)與優(yōu)缺點(diǎn)。
選取我國(guó)某市的景點(diǎn)為實(shí)例,以驗(yàn)證該語(yǔ)義分析模型的應(yīng)用效果。具體來(lái)說(shuō),從攜程、去哪兒平臺(tái)爬取該市共543個(gè)景點(diǎn)的文本評(píng)價(jià)數(shù)據(jù),共19255條。選取出其中累計(jì)評(píng)論2000條以上的三個(gè)景點(diǎn)作為研究對(duì)象。對(duì)這三大旅游景點(diǎn)的評(píng)論文本進(jìn)行數(shù)據(jù)清洗,和斷句處理,處理后的脫敏信息統(tǒng)計(jì)如表2所示。
表2 實(shí)例景點(diǎn)評(píng)論數(shù)據(jù)統(tǒng)計(jì)
將表2中列示的數(shù)據(jù)集輸入語(yǔ)義分析模型,得到關(guān)于三大景點(diǎn)的SD評(píng)分?jǐn)?shù)據(jù)表,由于該表規(guī)模較大,此處直接展示由它們制成的各景點(diǎn)評(píng)價(jià)曲線圖,下面先分析S1景點(diǎn),圖3為其評(píng)分曲線圖。
如圖3所示,從景點(diǎn)類型來(lái)看,其屬于自然風(fēng)景美麗、環(huán)境較安靜且有一定歷史文化氣息的景點(diǎn)。這也和從游客評(píng)論中提取的高頻關(guān)鍵詞“風(fēng)景不錯(cuò)”、“環(huán)境安靜”等一致。另一方面,S1景點(diǎn)的缺點(diǎn)也比較明顯,其景觀維護(hù)、性價(jià)比、安全感、衛(wèi)生度、交通便利度SD評(píng)分較低,分別為-2.02,1.53,1.69,-1.42,-1.17,說(shuō)明景點(diǎn)的管理工作有待加強(qiáng),特別是景區(qū)的衛(wèi)生安保工作急需改善,而且管理方可以考慮改善其交通條件,以吸引更多旅客前來(lái)游玩。再分析S2景點(diǎn),圖4為其評(píng)價(jià)曲線圖。
如圖4所示,該景點(diǎn)景觀管理類指標(biāo)、景觀內(nèi)涵類指標(biāo)、景觀空間類指標(biāo)評(píng)分明顯高于平均,說(shuō)明其管理良好,屬于景觀文化內(nèi)涵豐富、空間開(kāi)闊雄偉的景點(diǎn)。但S2景點(diǎn)的景觀生態(tài)指標(biāo),植物覆蓋率、生態(tài)性以及景觀形象指標(biāo)中的活力度、色彩豐富度評(píng)分較低,分別為-1.86,-1.51,-2.24,-1.83,也即表明該景點(diǎn)綠化較少,屬于人類建筑偏多的景點(diǎn),而且S3景點(diǎn)的熟悉度與知名度指標(biāo)評(píng)分也較低,分別為-1.62,-1.45,建議景點(diǎn)管理方可以適當(dāng)增加S2景點(diǎn)的植被綠化,并且從該景點(diǎn)的歷史文化內(nèi)涵與空間美感等優(yōu)勢(shì)著手,加大對(duì)它的宣傳力度,以進(jìn)一步提升景點(diǎn)旅游收入。最后分析S3景點(diǎn),圖5為其評(píng)價(jià)曲線圖
觀察圖5可知,S3景點(diǎn)的景觀管理與景觀生態(tài)類指標(biāo)衛(wèi)生度、安全感、性價(jià)比、景觀維護(hù)、植物覆蓋率、生態(tài)性的SD評(píng)分明顯高于平均,分別為1.15,1.16,1.24,1.46,1.68,1.95,景觀內(nèi)涵與景觀空間類指標(biāo)歷史感、文化性、形體感、體積感、層次感、空間感的SD評(píng)分則明顯低于樣本平均值,分別為-1.92,-2.13,-1.42,-1.50,-1.28,-1.31,說(shuō)明其管理良好,屬于自然風(fēng)景美麗,較為小巧的特色景點(diǎn)類型。另一方面,其交通便利度、趣味性指標(biāo)評(píng)分較低,分別為-2.08,-2.57,說(shuō)明該景點(diǎn)交通條件有待改進(jìn),景區(qū)娛樂(lè)設(shè)施也較為不足。
為更精準(zhǔn)地獲取游客對(duì)園林景觀的反饋信息,該研究應(yīng)用分詞、情感分析等大數(shù)據(jù)處理技術(shù)構(gòu)建出景觀評(píng)論數(shù)據(jù)的語(yǔ)義分析模型。為驗(yàn)證該模型的分析效果,選取國(guó)內(nèi)某市景點(diǎn)為實(shí)例,從旅游網(wǎng)站獲得游客評(píng)價(jià)文本數(shù)據(jù),輸入該模型。分析結(jié)果顯示,S1景點(diǎn)景觀維護(hù)、性價(jià)比、安全感、衛(wèi)生度、交通便利度SD評(píng)分較低,分別為-2.02,1.53,1.69,-1.42,-1.17,說(shuō)明景點(diǎn)的管理工作有待加強(qiáng)。S2景點(diǎn)的植物覆蓋率、生態(tài)性、活力度、色彩豐富度、熟悉度、知名度較低,分別為-1.86,-1.51,-2.24,-1.83,-1.62,-1.45,表明該景點(diǎn)綠化較少,屬于人類建筑偏多的景點(diǎn),而且知名度較低。S3景點(diǎn)交通便利度、趣味性指標(biāo)評(píng)分較低,分別為-2.08,-2.57,說(shuō)明該景點(diǎn)交通條件有待改進(jìn),景區(qū)娛樂(lè)設(shè)施也較為不足。研究結(jié)果表明,該模型能有效提取出游客對(duì)園林景觀的反饋信息。
佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年5期