張小妹 梁佩
摘 要:本文爬取了大眾點評網(wǎng)2017 年6 月份的上海周邊游景點評論數(shù)據(jù),篩選出四個變量,運用R及其它統(tǒng)計軟件對其進行分析,分別采用"最長距離法"、"類平均法"、"重心法"、"Ward法"對總分、環(huán)境評分、服務評分三個變量進行聚類分析,分析結果與該景點星級進行比較,探究聚類后的數(shù)據(jù)與星級之間分類有無一致性。最后利用決策樹進行分類,得到景點星級,總分評分,服務評分的分類,分析了游客最關注的景點指標,得到景點的旅游建議和改進措施。
關鍵詞:上海景點評論、聚類分析;決策樹
一、模型建立與分析
本文選取了上海周邊游數(shù)據(jù)集中的score、enrironment、service這三個變量,其中的缺失值用樣本均值代替,首先利用歐式距離生成三個變量的距離函數(shù),然后用最長距離法,類平均法,重心法和Ward法分別繪出繪出譜系圖和聚類情況,對四種方法進行對比,選擇一種輸出它的分類結果,最后利用決策樹建立了一個關于上海周邊游景點的游客選擇模型。
二、聚類分析
通過上面四幅圖發(fā)現(xiàn),最長距離法和Ward法聚類產(chǎn)生的分類比較均勻,分別輸出他們的分類情況如下:
最長距離法的分類情況:
group
1 2 3 4
157 537 52 4
Ward法的分類情況:
group
1 2 3 4
59 180 170 341
在實際數(shù)據(jù)中,上海五星級景點數(shù)為79個,準五星景點數(shù)為114個,四星級景點數(shù)為239個,準四星級景點數(shù)為318個,通過對比發(fā)現(xiàn)用Ward法分類產(chǎn)生的聚類與我們的實際數(shù)據(jù)更相符,因此選用Ward法分類輸出具體的分類情況。
第1類星級
> max(第1類星級)
[1] 5
> min(第1類星級)
[1] 3.5
結果顯示,第一類含有59個景點,他們的星級為3.5-5;
第2類星級
> max(第2類星級)
[1] 5
> min(第2類星級)
[1] 3.5
結果顯示,第二類含有180個景點,他們的星級為3.5-5;
第3類星級
> max(第3類星級)
[1] 5
> min(第3類星級)
[1] 3.5
結果顯示,第三類含有170個景點,他們的星級為3.5-5;
第4類星級
> max(第4類星級)
[1] 5
> min(第4類星級)
[1] 3.5
結果顯示,第四類含有341個景點,他們的星級為3.5-5。
最后發(fā)現(xiàn)用Ward法分類產(chǎn)生四個類的星級都在3.5-5之間,說明依據(jù)score、environment、service來評價上海景點的星級是不太合理的。
三、利用決策樹建立游客選擇模型
通過決策樹發(fā)現(xiàn),第一層是依據(jù)score變量來劃分,第二層是依據(jù)service變量來劃分,第三層是依據(jù)star變量來劃分,對于score<8分,service>=6.8分并且star為3.5分的占了51%,對于score<7分,service>=5.8分并且star為3.5分的占了8%,對于service<7分,score <5.8分并且star為4分的占了17%,對于service<6.8分,service>=7分并且star為4分的占了10%,對于service>8分,score<8.9分,并且star為4.5分的占了10%,對于service>8分,score>=8.9分,并且star為5分的占了4%,對于總分又高,星級又高的景點,建議游客去旅游,但這類景點數(shù)量比較可觀。
四、結論與建議
通過對上海總評評分,環(huán)境評分,服務評分進行聚類,發(fā)現(xiàn)星級分類與聚類產(chǎn)生的類別所包含的景點數(shù)不太一致,說明星級高的景點不一定各變量評分高,各變量評分高的景點不一定星級高,故在選擇景點進行旅游時,不應該只看星級、總評評分、環(huán)境評分、服務評分,而應該關注評論的具體內(nèi)容來選擇適合的景點進行旅游。
通過對星級、總評評分、服務評分進行決策樹分類發(fā)現(xiàn),對于總分和星級都高的景點,建議游客去旅游。
參考文獻:
[1]崔雷.專題文獻高頻主題詞的公司聚類分析[J].情報哦理論與實踐,1996,19(4):49—51.
[2] Metha M, Rissanen J, Agrawal R. SLIQ: A Fast Sealable Classifier for Data Mining[C]//Proc. of EDBT96. Avignon, France: [s. n.], 1996.
[3] 楊學兵,張俊.決策樹算法及其核心技術[J].計算機應用與發(fā)展,2007.17:43-45.
[4]馮少榮,尚文俊.基于樣本選取的決策樹改進算法[J].西南交通大學學報,2009,44(5):643-647.