張超群,郝小芳,王大睿,李曉翔,完顏兵
(1.廣西民族大學(xué)人工智能學(xué)院,南寧 530006;2.廣西民族大學(xué)電子信息學(xué)院,南寧 530006)
隨著大數(shù)據(jù)時(shí)代的到來(lái),各類(lèi)網(wǎng)絡(luò)大數(shù)據(jù)百花齊放,信息量大、可獲取性強(qiáng)、傳播力廣已成為網(wǎng)絡(luò)大數(shù)據(jù)不可替代的優(yōu)勢(shì)。國(guó)家《“十三五”旅游業(yè)發(fā)展規(guī)劃》專門(mén)提到“全面建成小康社會(huì)后對(duì)旅游業(yè)發(fā)展提出更高要求,為旅游發(fā)展提供重大機(jī)遇,旅游業(yè)將迎來(lái)新一輪黃金發(fā)展期。”旅游業(yè)順應(yīng)時(shí)代發(fā)展趨勢(shì),不斷向前發(fā)展。游客滿意度是游客在到達(dá)旅游地之前的期望與游客在目的地實(shí)際體驗(yàn)相對(duì)比,依據(jù)期望與實(shí)際體驗(yàn)的比較結(jié)果形成的愉快或失望的狀態(tài)。目的地美譽(yù)度則是由多個(gè)因素影響,而游客對(duì)目的地的感知信任直接影響目的地美譽(yù)度。鑒于游客滿意度直接影響目的地美譽(yù)度,國(guó)內(nèi)外學(xué)者對(duì)此進(jìn)行了相關(guān)研究。例如,有些研究者通過(guò)遺傳算法支持向量回歸、基于經(jīng)驗(yàn)?zāi)P头纸夂蜕窠?jīng)網(wǎng)絡(luò)模型、上下文知識(shí)方法和在線數(shù)據(jù)來(lái)預(yù)測(cè)目的地旅游需求;有些研究者使用決策樹(shù)分析入境游客的行為,并從社會(huì)大數(shù)據(jù)中提取有用信息用于制定目的地管理策略;有些研究者運(yùn)用多元回歸分析、結(jié)構(gòu)化方程建模、分析搜索引擎和運(yùn)用SPSS等軟件技術(shù)進(jìn)行頻數(shù)、方差、因子、相關(guān)性及回歸分析獲取游客目的地形象感知,從而了解游客的行為特征。這些研究主要分析游客的行為特征,以此預(yù)測(cè)游客的偏好。
在信息化時(shí)代,游客傾向于查閱各種旅游攻略來(lái)制定個(gè)人旅游計(jì)劃,而如何從海量的網(wǎng)評(píng)文本數(shù)據(jù)中獲得游客的旅游偏好,成為我們的研究目標(biāo)。有別于已有的相關(guān)研究重點(diǎn)關(guān)注行為分析,本文側(cè)重于主題分析,主要是對(duì)在線網(wǎng)評(píng)文本運(yùn)用數(shù)據(jù)挖掘技術(shù)提取高頻詞匯,來(lái)分析游客的旅游趨向,從而了解游客的總體需求,進(jìn)而優(yōu)化旅游資源配置,提高游客滿意度,提升目的地美譽(yù)度,促進(jìn)旅游業(yè)的可持續(xù)發(fā)展。
本文需要分析的數(shù)據(jù)來(lái)源有兩個(gè):①由2021年第九屆“泰迪杯”全國(guó)數(shù)據(jù)挖掘挑戰(zhàn)賽官(https://www.tipdm.org:10010/#/competition/1354705811842195456/question)提供的數(shù)據(jù);②爬取窮游網(wǎng)(https://place.qyer.com/china/citylist-0-0-1)獲得的在線網(wǎng)評(píng)數(shù)據(jù)。這兩個(gè)網(wǎng)站均提供不同類(lèi)別的網(wǎng)評(píng)文本數(shù)據(jù),也都包含游客對(duì)旅游目的地的印象評(píng)價(jià)。
對(duì)源數(shù)據(jù)進(jìn)行處理的總體流程如圖1所示,主要包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)篩選。首先,對(duì)網(wǎng)評(píng)文本主要進(jìn)行re去重和Jieba分詞的預(yù)處理。然后用詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)算法提取關(guān)鍵字,通過(guò)K-means算法找出聚類(lèi)中心,結(jié)合K最近鄰(K-Nearest Neighbor,KNN)算法對(duì)其分類(lèi)。最后,統(tǒng)計(jì)數(shù)據(jù)并將其按詞頻排序,在構(gòu)建專業(yè)語(yǔ)料庫(kù)的基礎(chǔ)上,計(jì)算高頻詞與語(yǔ)料庫(kù)長(zhǎng)度,篩選出符合隱含狄利克雷分布(latent dirichlet allocation,LDA)主題模型分析的數(shù)據(jù),并將其映射為特征需求,從而獲得游客的旅游偏好。
圖1 數(shù)據(jù)處理總體流程
1.2.1 數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)清理。數(shù)據(jù)清理一般是指清除噪聲、補(bǔ)充缺失信息和刪除離群點(diǎn)等過(guò)程。由于“泰迪杯”數(shù)據(jù)存在一定的單一性,在“泰迪杯”數(shù)據(jù)基礎(chǔ)上,為了更好地對(duì)游客目的地印象進(jìn)行分析,從窮游網(wǎng)爬取172個(gè)網(wǎng)評(píng)文本頁(yè)面作為分析的基礎(chǔ)語(yǔ)料庫(kù),該語(yǔ)料庫(kù)包含中國(guó)全部城市、區(qū)域名稱及相關(guān)評(píng)論。由于兩者數(shù)據(jù)包含大量的標(biāo)簽信息、圖片、視頻以及一些特殊字符等無(wú)效信息,本文通過(guò)Python語(yǔ)言及re正則表達(dá)式,對(duì)網(wǎng)評(píng)文本進(jìn)行數(shù)據(jù)清理,其處理過(guò)程如下:
1)清理原始數(shù)據(jù)中的特殊字符,如空格、標(biāo)點(diǎn)符號(hào)等。
2)在大規(guī)模數(shù)據(jù)中將數(shù)據(jù)逐條讀入,清理重復(fù)出現(xiàn)的字段、格式不正確、時(shí)間不匹配等記錄。
3)利用re正則表達(dá)式清理每條記錄中的屬性和標(biāo)簽等其他與數(shù)據(jù)分析無(wú)關(guān)的特殊符號(hào)。
4)將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)能夠識(shí)別的結(jié)構(gòu)化數(shù)據(jù),并將結(jié)構(gòu)化數(shù)據(jù)按UTF-8編碼格式逐條寫(xiě)入CSV文件中。
(2)中文分詞與停用詞過(guò)濾。中文分詞是指以空格作為分隔詞來(lái)分割出構(gòu)成文本的單詞。中文文本是按單詞連字的,并且單詞之間沒(méi)有間隙。因此,在處理中文文本消息時(shí),首先需要做的一件事情是拆分單詞,稱其對(duì)應(yīng)的技術(shù)為自動(dòng)分詞技術(shù)。中文分詞技術(shù)主要分為如圖2所示的四類(lèi)。
圖2 中文分詞技術(shù)分類(lèi)
本文采用Python Jieba庫(kù)對(duì)中文進(jìn)行分詞。Jieba庫(kù)采用基于前綴詞典實(shí)現(xiàn)高效詞圖掃描,獲取每個(gè)詞的詞頻,用正則表達(dá)式切分語(yǔ)句并對(duì)其分詞,生成所有可能成詞情況的有向無(wú)環(huán)圖,采用動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;對(duì)于未登錄詞,采用基于漢字成詞能力的隱馬爾科夫模型(hidden markov model,HMM),使得中文分詞效果最優(yōu)化。
在對(duì)文本數(shù)據(jù)分詞后,仍然存在很多對(duì)數(shù)據(jù)分析無(wú)意義的詞,這些詞統(tǒng)稱為停用詞。為了進(jìn)一步減輕數(shù)據(jù)分析難度和提高建模分析效果,需要對(duì)網(wǎng)評(píng)文本去停用詞。本文中的停用詞主要來(lái)源于網(wǎng)絡(luò)中通用的停用詞,通過(guò)過(guò)濾掉文檔中的停用詞,可以大大減少內(nèi)存的占比并降低停用詞帶來(lái)的噪聲,從而有效提高分詞的精確性。
1.2.2 數(shù)據(jù)分析
(1)TF-IDF算法。在對(duì)網(wǎng)評(píng)文本數(shù)據(jù)分詞后,需要把這些詞語(yǔ)轉(zhuǎn)化為向量,以供挖掘分析使用,這里采用TF-IDF算法,把網(wǎng)評(píng)信息轉(zhuǎn)換為權(quán)重向量。TF-IDF算法的具體原理如下:
1)計(jì)算詞頻,即TF權(quán)重(term frequency)。
2)計(jì)算逆文檔頻率(inverse document frequency),即IDF權(quán)重。
建立一個(gè)語(yǔ)料庫(kù),用于模擬文本的使用情景。若文本中的詞條與語(yǔ)料庫(kù)吻合度低,則IDF越大,表明該詞條類(lèi)別區(qū)分能力較強(qiáng)。
TD-IDF與詞條在文本中出現(xiàn)的次數(shù)成正比,與在整個(gè)語(yǔ)言中出現(xiàn)的次數(shù)成反比。求文本中每個(gè)詞的TF-IDF值,并進(jìn)行排序,詞頻較高的即為特征詞。
生成TF-IDF向量的具體步驟如下:
1)運(yùn)用TF-IDF算法,找出每個(gè)網(wǎng)評(píng)信息中與服務(wù)、位置、設(shè)施、衛(wèi)生、性價(jià)比相關(guān)的關(guān)鍵詞。
2)從網(wǎng)評(píng)文本中提取1)得到的關(guān)鍵詞,組成集合,計(jì)算每個(gè)集合分詞的詞頻,若無(wú),則記為0。
3)按公式(3)計(jì)算每個(gè)網(wǎng)評(píng)信息的TF-IDF權(quán)重向量。
(2)特征提取。特征提取的流程如圖3所示,文本處理一般是將詞語(yǔ)作為特征項(xiàng),如果直接使用分詞后的數(shù)據(jù)不僅會(huì)造成“維數(shù)災(zāi)難”,而且會(huì)給后續(xù)的評(píng)分預(yù)測(cè)模型的構(gòu)建與分析帶來(lái)很大困難。若將無(wú)關(guān)詞語(yǔ)提取出來(lái),將會(huì)對(duì)模型評(píng)分預(yù)測(cè)造成干擾,影響最后結(jié)果,因此,需要根據(jù)詞語(yǔ)在評(píng)論文本中的重要性,賦予其權(quán)重值,特征詞權(quán)重越大就越能表示評(píng)論文本的情感,對(duì)最后結(jié)果影響越大。根據(jù)特征詞的權(quán)重將影響評(píng)分預(yù)測(cè)的詞語(yǔ)特征選出,運(yùn)用TF-IDF過(guò)濾掉在網(wǎng)評(píng)文本中出現(xiàn)次數(shù)較少的詞并計(jì)算特征詞的權(quán)重。
圖3 特征提取流程
(3)K-means聚類(lèi)。通過(guò)去重后對(duì)文本進(jìn)行分詞,運(yùn)用K-means算法提取五個(gè)關(guān)鍵詞的聚類(lèi)中心。根據(jù)“少數(shù)服從多數(shù)”判定聚類(lèi)中心所屬類(lèi)別。K-means算法的大致步驟如圖4所示。
圖4 K-means算法步驟
(4)KNN算法。由K-means分類(lèi)得到聚類(lèi)中心,并結(jié)合KNN算法得出中心相似元素,從而判斷其類(lèi)別。KNN算法是一種簡(jiǎn)單的無(wú)參數(shù)的文本分類(lèi)方法,不需要給定額外數(shù)據(jù),即使存在噪聲也可以對(duì)給定實(shí)驗(yàn)樣本數(shù)據(jù)通過(guò)比較進(jìn)行有效的分類(lèi),其處理流程如圖5所示。
圖5 KNN算法處理流程
1.2.3 數(shù)據(jù)篩選
對(duì)網(wǎng)評(píng)文本進(jìn)行數(shù)據(jù)預(yù)處理后,統(tǒng)計(jì)每一條評(píng)論內(nèi)容的中文字符數(shù),并和爬取窮游網(wǎng)得到的語(yǔ)料庫(kù)進(jìn)行比較來(lái)區(qū)分評(píng)論文本的有效性。對(duì)數(shù)據(jù)分類(lèi),將其區(qū)分為有效評(píng)論和無(wú)效評(píng)論兩類(lèi)。其中,有效評(píng)論是指大于5個(gè)詞且符合語(yǔ)料庫(kù)的評(píng)論;而無(wú)效評(píng)論是指小于5個(gè)詞且不符合語(yǔ)料庫(kù)的評(píng)論。對(duì)網(wǎng)評(píng)文本進(jìn)行分類(lèi)處理的流程如圖6所示。
圖6 網(wǎng)評(píng)文本分類(lèi)處理流程
圖7、圖8分別是對(duì)景區(qū)、酒店的評(píng)論數(shù)據(jù)進(jìn)行處理前后的數(shù)據(jù)量變化對(duì)比圖,這說(shuō)明對(duì)網(wǎng)評(píng)文本進(jìn)行數(shù)據(jù)處理可以有效減少后續(xù)分析要處理的數(shù)據(jù)量。
圖7 景區(qū)評(píng)論數(shù)據(jù)數(shù)量變化對(duì)比
圖8 酒店評(píng)論數(shù)據(jù)數(shù)量變化對(duì)比
通過(guò)對(duì)網(wǎng)評(píng)文本進(jìn)行詞頻分析,從文本中提取出排名在前20名的熱門(mén)旅游目的地,其結(jié)果如表1所示,詞頻越高表示游客對(duì)其關(guān)注度越高。用詞云圖對(duì)游客目的地進(jìn)行可視化,其結(jié)果如圖9所示,詞頻越高,詞語(yǔ)呈現(xiàn)越大;反之,詞頻越低,詞語(yǔ)呈現(xiàn)越小。
表1 排名前20的旅游目的地?zé)衢T(mén)詞
圖9 游客目的地詞云圖
由表1和圖9可知,頻次較高的旅游目的地景點(diǎn)有溫泉、公園、過(guò)山車(chē)、動(dòng)物園、樂(lè)園、沙灘、瀑布、峽谷等,說(shuō)明游客在業(yè)余時(shí)間喜歡戶外游玩,偏向于去景點(diǎn)放松和參加集體游玩項(xiàng)目,體現(xiàn)當(dāng)代廣大人民群眾的休閑旅游的特征。此外,頻次較高的旅游目的地有廣州、深圳、珠海等,說(shuō)明游客傾向于去南方城市游玩。
利用LDA主題模型進(jìn)行景區(qū)及酒店主題挖掘,并對(duì)聚類(lèi)的結(jié)果進(jìn)行可視化展示,呈現(xiàn)出聚類(lèi)主題和每個(gè)主題中的關(guān)鍵詞。根據(jù)主題中體現(xiàn)的游客評(píng)論的關(guān)注點(diǎn),整理、歸納并總結(jié)出游客關(guān)注指標(biāo),對(duì)用戶關(guān)注差異進(jìn)行分析。
由于網(wǎng)評(píng)數(shù)據(jù)量大,從海量文本中直接獲取有用的信息較為困難。在網(wǎng)評(píng)文本挖掘的過(guò)程中,對(duì)網(wǎng)評(píng)文本預(yù)處理后,用LDA模型對(duì)其進(jìn)行主題識(shí)別,以挖掘網(wǎng)評(píng)語(yǔ)料中隱藏的用戶需求,獲得的主題識(shí)別圖如圖10—圖14所示。
圖10—圖14是對(duì)網(wǎng)評(píng)文本數(shù)據(jù)進(jìn)行主題分析,根據(jù)高頻詞的分布情況,將其從5個(gè)維度進(jìn)行可視化。在主題識(shí)別圖的左側(cè),每個(gè)圓圈代表海量文本的一個(gè)主題;圓圈之間的距離體現(xiàn)主題之間的相似度,如果距離越近,則說(shuō)明兩個(gè)主題越相似;圓圈的大小表示主題出現(xiàn)的概率,越大說(shuō)明其所代表的主題核心度越高,小圓圈代表次要主題。在主題識(shí)別圖右側(cè)的條形圖中,每列對(duì)應(yīng)的主題詞與文本詞語(yǔ)的關(guān)聯(lián)度表示為:
圖10 評(píng)論數(shù)據(jù)識(shí)別主題1(服務(wù))
圖14 評(píng)論數(shù)據(jù)識(shí)別主題5(衛(wèi)生)
圖11 評(píng)論數(shù)據(jù)識(shí)別主題2(位置)
圖12 評(píng)論數(shù)據(jù)識(shí)別主題3(設(shè)施)
圖13 評(píng)論數(shù)據(jù)識(shí)別主題4(性價(jià)比)
主題和文本詞語(yǔ)間的關(guān)聯(lián)度由詞頻和詞語(yǔ)表現(xiàn),并且可以通過(guò)調(diào)節(jié)參數(shù)λ(0≤λ≤1)來(lái)調(diào)節(jié)關(guān)聯(lián)度。若λ越趨近于1,則認(rèn)為該主題下詞頻越高的詞與主題越相關(guān),但這些出現(xiàn)次數(shù)較多的詞可能同時(shí)出現(xiàn)在其他主題中。若λ越趨近于0,則表明該主題下特征詞與主題越相關(guān),這些詞通常僅趨向于該主題。
本文取λ=1,對(duì)于圖10—圖14,圖中5個(gè)圓圈的大小表示主題出現(xiàn)的概率大小,每個(gè)圓圈之間的距離為不同主題之間的關(guān)聯(lián)度,條形圖為每個(gè)主題的可視化展示,不同的主題對(duì)應(yīng)不同的條形圖,每個(gè)條形圖中標(biāo)紅部分為該主題詞在對(duì)應(yīng)的主題中出現(xiàn)的頻次,即為游客特征需求。從圖10—圖14中可知,主題1(服務(wù))和主題5(衛(wèi)生)清晰分明,與其他主題沒(méi)有重疊和交叉現(xiàn)象;而主題2(位置)、主題3(設(shè)施)和主題4(性價(jià)比)之間有交叉重疊現(xiàn)象,說(shuō)明這幾個(gè)主題之間有重復(fù)的主題詞。
通過(guò)LDA模型對(duì)網(wǎng)評(píng)文本進(jìn)行主題識(shí)別,將圖10—圖14中條形圖的每個(gè)主題映射為特征需求,根據(jù)每個(gè)主題的分類(lèi)屬性,可將所有的評(píng)論數(shù)據(jù)集識(shí)別為“服務(wù)”“位置”“設(shè)施”“性價(jià)比”“衛(wèi)生”這5個(gè)主題,根據(jù)公式(4)可計(jì)算出每個(gè)主題詞與文本詞語(yǔ)之間的關(guān)聯(lián)度分別為23.6%、23.3%、22.9%、15.6%和14.5%,關(guān)聯(lián)度表示主題詞與文本詞語(yǔ)間的關(guān)聯(lián)關(guān)系,具體關(guān)聯(lián)程度由詞頻和詞語(yǔ)表現(xiàn),詞頻越高則表示與該主題的關(guān)聯(lián)度越高,具體實(shí)驗(yàn)結(jié)果如表2所示。由表2可知,游客對(duì)服務(wù)的關(guān)聯(lián)度最大,有酒店、溫泉、早餐、房間、適合、感覺(jué)、體驗(yàn)等特征需求,這表明游客更關(guān)注對(duì)目的地服務(wù)的評(píng)價(jià)。
表2 游客特征主題需求映射
在旅游過(guò)程中,游客最關(guān)注景區(qū)及酒店的特征需求,游客通過(guò)對(duì)旅途的真實(shí)反饋,在一定程度上能將自身需求傳遞給旅游企業(yè),以便企業(yè)對(duì)旅游方案做出針對(duì)性調(diào)整。表2正是將游客網(wǎng)評(píng)數(shù)據(jù)映射為企業(yè)最關(guān)注的特征需求,以此來(lái)挖掘游客更深層次的需求,有助于企業(yè)將未來(lái)規(guī)劃與游客的旅游偏好密切聯(lián)系起來(lái)。
網(wǎng)評(píng)文本數(shù)據(jù)已成為旅游企業(yè)獲取游客需求的主要渠道。隨著經(jīng)濟(jì)的不斷發(fā)展,人們開(kāi)始追求更高質(zhì)量的生活,對(duì)旅游也有更高的要求。為了精準(zhǔn)定位目標(biāo)游客,旅游企業(yè)應(yīng)充分了解游客喜好,提供大眾喜聞樂(lè)見(jiàn)的服務(wù)?;谏衔牡姆治鼋Y(jié)果,對(duì)旅游企業(yè)的健康持續(xù)發(fā)展建議如下:
(1)針對(duì)服務(wù)方面,了解游客真正需求,提供精準(zhǔn)個(gè)性化服務(wù)。針對(duì)不同客戶群體,推出多種特色旅游服務(wù)套餐。例如,針對(duì)親子旅游,可選擇成人和小孩游樂(lè)設(shè)施并存的景區(qū),并提供家庭式的酒店客房;針對(duì)青年游客,可選擇當(dāng)下熱門(mén)刺激、性價(jià)比高的游樂(lè)項(xiàng)目,并提供現(xiàn)代化簡(jiǎn)約風(fēng)格的酒店客房;針對(duì)情侶游客,可為其提供浪漫的情侶套房,個(gè)性化定制浪漫景區(qū)的旅游路線,還提供旅行拍攝的服務(wù);針對(duì)老年游客,可為其制定紅色或自然景區(qū)路線,選擇環(huán)境舒適、價(jià)格實(shí)惠的酒店。
(2)針對(duì)位置、設(shè)施和性價(jià)比方面,借助大數(shù)據(jù)分析與預(yù)測(cè),開(kāi)發(fā)旅游景區(qū)流量監(jiān)控系統(tǒng),為游客提供最佳的旅游路線,并且大力加強(qiáng)基礎(chǔ)設(shè)施建設(shè),建立智慧景區(qū)和智慧酒店,保證旅游服務(wù)和價(jià)值付出成正比。
近年來(lái),旅游需求猛增和時(shí)空分布不均,熱門(mén)景區(qū)高度集中,資源供不應(yīng)求。對(duì)此應(yīng)該充分利用交通、地理位置、社交媒體、氣候、住宿等大數(shù)據(jù),開(kāi)發(fā)流量檢測(cè)系統(tǒng),提前對(duì)游客流量進(jìn)行有效監(jiān)控。同時(shí)應(yīng)該推動(dòng)旅游的信息化發(fā)展,如提供景區(qū)電子門(mén)票售票、進(jìn)出口電子檢票、智能排隊(duì)、電子導(dǎo)游、二維碼識(shí)別語(yǔ)音講解、酒店自助入住等,不斷提高景區(qū)和酒店基礎(chǔ)設(shè)施建設(shè),提高性價(jià)比。
(3)針對(duì)衛(wèi)生方面,應(yīng)該加強(qiáng)對(duì)酒店和景區(qū)的衛(wèi)生監(jiān)管,加大衛(wèi)生的宣傳力度。
隨著景區(qū)的游客量增大,景區(qū)也面臨著衛(wèi)生問(wèn)題,因此,在景區(qū)應(yīng)該修建適量的衛(wèi)生區(qū),方便游客處理旅途中產(chǎn)生的垃圾。與此同時(shí),應(yīng)設(shè)立相應(yīng)的監(jiān)管部門(mén),對(duì)破壞景區(qū)衛(wèi)生的行為做出相應(yīng)處罰。同時(shí),政府加強(qiáng)保護(hù)環(huán)境的宣傳力度,增強(qiáng)公民的衛(wèi)生環(huán)保意識(shí)。
隨著大數(shù)據(jù)時(shí)代的到來(lái)及人民生活水平不斷提高,旅游業(yè)發(fā)展也應(yīng)順勢(shì)而為。有別于已有的相關(guān)研究重點(diǎn)關(guān)注游客的行為分析,本文主要根據(jù)文本分析理論,對(duì)“泰迪杯”挑戰(zhàn)賽官網(wǎng)、窮游網(wǎng)的網(wǎng)評(píng)文本數(shù)據(jù)先用正則表達(dá)式等方法進(jìn)行數(shù)據(jù)清理,再用Jieba庫(kù)分詞,接著用TF-IDF算法提取關(guān)鍵詞,根據(jù)K-means聚類(lèi)得出聚類(lèi)中心,結(jié)合KNN算法將其分類(lèi),用LDA模型進(jìn)行主題分析,并將主題詞映射為特征需求。實(shí)驗(yàn)結(jié)果表明,游客主要關(guān)注目的地的服務(wù)、位置、設(shè)施、性價(jià)比、衛(wèi)生,并根據(jù)分析得到這五個(gè)方面的特征需求對(duì)旅游企業(yè)健康持續(xù)發(fā)展提出三條有益建議,有助于旅游企業(yè)將游客的旅游偏好與企業(yè)的未來(lái)規(guī)劃結(jié)合起來(lái),優(yōu)化旅游資源配置,不斷提高游客滿意度,從而提升目的地美譽(yù)度,盡量滿足游客多元化的旅游需求。
由于數(shù)據(jù)的安全性和保密性,獲取數(shù)據(jù)難度較大,本文僅對(duì)“泰迪杯”挑戰(zhàn)賽官網(wǎng)和窮游網(wǎng)的網(wǎng)評(píng)文本數(shù)據(jù)進(jìn)行分析。下一步將通過(guò)多渠道方式獲取形式多樣的數(shù)據(jù)進(jìn)行全面深入的研究,使研究成果更具有普適性。