白剛,莫雅蘭
(桂林旅游學(xué)院旅游管理學(xué)院,桂林541006)
隨著互聯(lián)網(wǎng)和通信技術(shù)的高速發(fā)展,社交網(wǎng)絡(luò)已逐步成為人們?nèi)粘I钪胁豢苫蛉钡牟糠諿1]。在大數(shù)據(jù)時代,每天用戶都在社交網(wǎng)絡(luò)上創(chuàng)造海量的數(shù)據(jù),這些基礎(chǔ)數(shù)據(jù)為社會經(jīng)濟(jì)發(fā)展提供了可靠的研究樣本。
微博,作為起步早、用戶量龐大的社交平臺,匯聚了大量的針對城市旅游點(diǎn)的信息,該信息包括地理位置、用戶點(diǎn)評信息、點(diǎn)位標(biāo)簽等數(shù)據(jù)。對例如桂林等旅游城市來說,用戶點(diǎn)評的內(nèi)容聚焦與旅游點(diǎn)本身傳達(dá)的定位是否相符,可以從大量的點(diǎn)評數(shù)據(jù)中可以分析出來,進(jìn)而為旅游點(diǎn)提供決策參考。
微博的數(shù)據(jù)具有空間非連續(xù)、數(shù)據(jù)離散以及數(shù)據(jù)量大等特點(diǎn),其中的點(diǎn)評數(shù)據(jù)僅占總體數(shù)據(jù)的小部分,且相對分散,需要利用數(shù)據(jù)采集方法對數(shù)據(jù)進(jìn)行采集。
本研究中微博點(diǎn)評內(nèi)容的獲取采用爬蟲爬取的方式,獲取對象為微博位置的相關(guān)地理標(biāo)簽,如桂林漓江風(fēng)景區(qū)、獨(dú)秀峰王城、蘆笛巖等。本文進(jìn)行對比分析采用的樣本標(biāo)簽為“桂林·桂林漓江風(fēng)景區(qū)”。采集時間段為2019 年7 月12 日至2019 年7 月17 日,該時間段為桂林旅游旺季,游客類型涵蓋面寬,樣本代表性強(qiáng)。
爬蟲采集結(jié)果存入Excel 文件中,包含多個字段,格式如圖1 所示。
由于本次研究為詞頻對比分析,所以僅使用微博正文內(nèi)容,也就是評論部分。評論部分采集的內(nèi)容包含一些固有的對采集過程有用但無分析價值的信息,例如“桂林·桂林漓江風(fēng)景區(qū)”此類的地點(diǎn)標(biāo)簽。
刪除掉地點(diǎn)標(biāo)簽等固有內(nèi)容,最終可用的條目為959 條,共計(jì)119412 字。用戶來源地包括澳門、北京、福建、廣西、重慶等32 個省市地區(qū),地理覆蓋滿足分析要求。用戶微博數(shù)量從37734 到1 篇,粉絲數(shù)從34 萬到15,說明采集到信息的微博用戶活躍度高低不等,樣本用戶網(wǎng)絡(luò)行為多樣性較高,能夠?yàn)檠芯刻峁┹^好的代表性。
表1
在自然語言中,詞是最小的能夠獨(dú)立活動的有意義的語言成分,分詞,就是將句或段的自然語言切分成最小的有研究意義的單位。
本研究中的樣本內(nèi)容基本都是中文,所以涉及到中文分詞。中文分詞具有一些英文分詞不具有的難點(diǎn),包括漢語是以字為單位,不像西方語言,詞與詞之間沒有空格之類的標(biāo)志指示詞的邊界,分詞規(guī)范、詞的定義還不明確,歧義切分問題,交集型切分問題,多義組合型切分歧義等。
目前主流的漢語的分詞方法主要有三種。
(1)基于字典、詞庫匹配的分詞方法(基于規(guī)則)[2]
基于字符串匹配分詞,機(jī)械分詞算法。
(2)基于詞頻度統(tǒng)計(jì)的分詞方法(基于統(tǒng)計(jì))[2]
相鄰的字同時出現(xiàn)的次數(shù)越多,越有可能構(gòu)成一個詞語,對語料中的字組頻度進(jìn)行統(tǒng)計(jì),基于詞的頻度統(tǒng)計(jì)的分詞方法是一種全切分方法。
(3)基于知識理解的分詞方法[2]
該方法主要基于句法、語法分析,并結(jié)合語義分析,通過對上下文內(nèi)容所提供信息的分析對詞進(jìn)行定界,它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。
本研究采用的分詞方法囊括以上三種,使用Python 的第三方中文分詞庫jieba。算法流程如下。
圖1 算法流程圖
(1)切詞算法實(shí)現(xiàn)代碼主要部分
(2)代碼應(yīng)用
以上算法的使用需要帶參數(shù),格式為:
其中,-i 后為輸入文件,內(nèi)容為格式化后的點(diǎn)評文本,result.txt 為輸出結(jié)果文件。
最終對微博評論數(shù)據(jù)的分詞結(jié)果,總計(jì)字?jǐn)?shù)68743個,詞8225 個。
使用該分詞結(jié)果對微博評論數(shù)據(jù)進(jìn)行頻次分析,得到最終詞頻結(jié)果。
詞頻分析結(jié)果輸出為文本文件,格式為第一列是分詞,第二列是該詞在點(diǎn)評中出現(xiàn)的頻次數(shù)。共切分出詞2994 個,頻次從900 次到1 次排列。
對桂林漓江風(fēng)景區(qū)的旅游形象定位詞條,選擇從桂林漓江風(fēng)景名勝區(qū)旅游官網(wǎng)(http://www.liriver.com.cn/)的宣傳文字材料獲取,共包括大美漓江、生態(tài)漓江、歷史漓江等共計(jì)45552 字。
對定位詞條進(jìn)行分詞及詞頻分析后,共切分出詞1128 個,頻次從16 次到1 次排列。
對對比結(jié)果文本進(jìn)行升序排序,發(fā)現(xiàn)相同詞共有15 個,一起、不同、以上、全部、回來、展開、感謝、我們、桂林、桂林山水、漓江、獨(dú)秀峰、甲天下、畫家、西湖,其中以上、全部、展開、感謝、我們等詞不具有實(shí)際對比分析意義,忽略,對其余詞的兩組詞頻進(jìn)行對比,結(jié)果如下。
微博點(diǎn)評詞條中,以上詞出現(xiàn)的頻次如表2:
表2
旅游點(diǎn)形象定位詞條中,以上詞出現(xiàn)的頻次如表3:
表3
由于“桂林”和“漓江”為旅游點(diǎn)固有名稱詞,微博詞條和官方詞條中詞頻都占據(jù)首次位,而兩者由于樣本數(shù)量不同出現(xiàn)差異很大,對其他詞對此有顯著影響,故先刪除這兩個詞,再進(jìn)行對比。
圖2 相同詞詞頻對比
其中,“西湖”一詞在微博詞條中原文為“桂林疊彩山,燈光效果真的很‘疊彩’。關(guān)于自然風(fēng)景名勝區(qū)的燈飾工程設(shè)計(jì),大家覺得全國哪個景區(qū)做的最好呀?我個人感覺還是杭州西湖,保俶山寶石山,燈光設(shè)計(jì)蠻匹配西湖的?!保黠@可以看出是作為對比詞出現(xiàn)。在漓江風(fēng)景區(qū)的定位詞條中,“西湖”一詞出現(xiàn)在“元代的石刻多為楷書,其中以郭思誠行楷《新開西湖記》為代表?!币痪渲?,此處的西湖為桂林西湖。
微博點(diǎn)評詞條中,剔除無對比意義的名詞例如“微博”和有重復(fù)意義的詞后,排序前10 的詞如表4:
表4
旅游點(diǎn)形象定位詞條中,剔除類似“陽朔”“太白金星”等特殊地域或故事名詞等,排序前10 的詞如表5:
表5
桂林漓江風(fēng)景區(qū)的官方詞條中,除了固有地點(diǎn)名詞外,包含了畫廊、工程、時刻、文化、整治等詞語,與官方宣傳的大美、歷史、文化、生態(tài)等關(guān)鍵詞意義相符。微博點(diǎn)評詞條中的視頻、先鋒、音樂含有較明顯的新媒體傳播意義,更符合互聯(lián)網(wǎng)思維。另外,我要、分享兩詞結(jié)合對比原文整句,意義集中在心情分享、情感表達(dá)方面。
相同詞詞頻對比發(fā)現(xiàn),旅游點(diǎn)官方導(dǎo)向與微博點(diǎn)評詞條的分析結(jié)果基本相符,切合桂林漓江風(fēng)景區(qū)的山水大美、歷史文化等定位,另一方面,“一起”、“回來”等詞表達(dá)了清晰的群體旅游和重復(fù)旅游概念,既有官方推薦,同時游客也自發(fā)表達(dá)了意愿。旅游點(diǎn)的形象定位和游客的感知大體符合。
但是,結(jié)合排序前十的詞可以發(fā)現(xiàn),旅游點(diǎn)官方的營銷定位更趨于傳統(tǒng)化,而游客在微博詞條中的表達(dá)則趨向于新旅游吸引物的感知,例如視頻、音樂等新媒體表達(dá)物,這些事物同時具有很強(qiáng)的分享屬性,與“分享”一詞的出現(xiàn)頻次吻合。
旅游點(diǎn)的形象定位是由旅游供給方傳達(dá)的,而游客的感知來自于各種渠道,傳達(dá)與感知是否吻合,決定了營銷是否達(dá)到了預(yù)想的效果。傳統(tǒng)上該測度主要依靠旅游人數(shù)的變化來反映。
詞頻的對比分析提供了一個新穎的方法來研究傳達(dá)與感知之間的異同,結(jié)果能夠?yàn)槁糜喂┙o方提供有價值的營銷參考依據(jù)。