[摘 要] 沈陽世博園旅游業(yè)的發(fā)展,取決于其營銷戰(zhàn)略制定的正確與否,而制定的正確的營銷戰(zhàn)略的基礎(chǔ)是對旅游業(yè)中旅游客源的研究。因此,我們可以利用數(shù)據(jù)挖掘技術(shù),挖掘出詳細(xì)有效的游客行為特征信息,從而制定正確的營銷戰(zhàn)略。
[關(guān)鍵詞] 旅游業(yè) 數(shù)據(jù)挖掘 分類 決策樹 SAS
隨著世界經(jīng)濟的發(fā)展,旅游在全球范圍內(nèi)已成為當(dāng)代人重要的生活方式和社會經(jīng)濟活動之一,因此,旅游業(yè)逐漸發(fā)展成為許多國家的重要支柱產(chǎn)業(yè)。在我國發(fā)展老工業(yè)基地的號召下,作為重工業(yè)城市之一的沈陽,如何通過發(fā)展旅游業(yè)以帶動相關(guān)產(chǎn)業(yè)的發(fā)展就成為我市經(jīng)濟發(fā)展的又一新途徑,而2006年受世人矚目的“沈陽世界園藝博覽會”的成功舉辦,為沈陽的旅游業(yè)提供了良好的發(fā)展契機,并對經(jīng)濟和社會起到了明顯的促進(jìn)作用世園會期間,世博園內(nèi)客流如潮,其中大部分為省外游客,國際游客主要為日本、韓國、東南亞等周邊國家和地區(qū)的游客。據(jù)報道:“世園會的舉辦使周邊地區(qū)的土地價格升值了五倍,拉動沈陽GDP新增長100多億以上,城市建設(shè)水平提高5年~10年。但是,當(dāng)沈陽世園會結(jié)束后,世博園熱逐漸降溫,外地游客將會銳減,本地去世博園休閑的人數(shù)也將在平穩(wěn)中逐步下降,如何繼續(xù)打造“世園會”這一旅游品牌以發(fā)揮“后世園會時代”的旅游貿(mào)易帶動作用,解決客源不足這一迫在眉睫的問題就成了世博園今后的營銷策略中的重中之重,而數(shù)據(jù)挖掘技術(shù)己經(jīng)成為數(shù)據(jù)庫和信息決策領(lǐng)域的前沿研究力一向之一,受到國內(nèi)外學(xué)術(shù)界的廣泛關(guān)注,在商業(yè)經(jīng)濟和企業(yè)管理領(lǐng)域都得到了較為廣泛的應(yīng)用,取得了顯著的社會及經(jīng)濟效益。因此,應(yīng)用數(shù)據(jù)挖掘技術(shù)的理論和方法,以2006年~2007年間沈陽世博園的旅游問卷調(diào)查所產(chǎn)生的數(shù)據(jù)為依據(jù),基于數(shù)據(jù)挖掘的分類技術(shù),利用數(shù)據(jù)挖掘工具,從兩個方面進(jìn)行分類挖掘,即影響游客消費的因素以及影響游客對沈陽世博園綜合評價的因素,來解決世博園所面臨的客源不足問題。
一、數(shù)據(jù)挖掘技術(shù)
近年來數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。數(shù)據(jù)挖掘,簡單的說就是從大量的不完整的,有噪音的,模糊的,隨機的實際應(yīng)用的數(shù)據(jù)集中“提取”或“挖掘”出有效的,新穎的,潛在有用的,以及最終可理解模式的高級處理過程。
數(shù)據(jù)挖掘一開始就是面向應(yīng)用的,它不僅面向特定數(shù)據(jù)庫的簡單查詢調(diào)用,而且要對這些從微觀到宏觀進(jìn)行統(tǒng)計、分析、綜合和推理,以及指導(dǎo)實際問題的求解,祈求發(fā)現(xiàn)數(shù)據(jù)間的相互關(guān)系。這樣一來就把人們對數(shù)據(jù)的應(yīng)用從低層的末端查詢操作,提高到為高級決策者提供決策支持,因此它比數(shù)據(jù)庫的功能更強大。
人們常把數(shù)據(jù)挖掘(DM)與另一個常用的數(shù)語——知識發(fā)現(xiàn)(KDD——Knowledge Discovery from Database)相混淆。相對來講,數(shù)據(jù)挖掘(DM)主要用于統(tǒng)計界、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界;而知識發(fā)現(xiàn)(KDD)主要流行于人工智能和機器學(xué)習(xí)。
因此,應(yīng)用數(shù)據(jù)挖掘技術(shù),對旅游貿(mào)易中的已有數(shù)據(jù)提供全面、深入地分析,成為了解游客及其行為特征的重要助臂。也正是由于其創(chuàng)造客戶價值的能力,目前數(shù)據(jù)挖掘技術(shù)已經(jīng)被許多國外旅游行業(yè),作為一個重要的競爭工具在使用。
二、數(shù)據(jù)挖掘在沈陽世博園旅游業(yè)中的運用
第一,沈陽世博園每年都會向游客發(fā)調(diào)查問卷,因此積累了大量的數(shù)據(jù),但是對這些數(shù)據(jù)的處理還停留在初級的數(shù)據(jù)備份,簡單的查詢統(tǒng)計階段,使得這些數(shù)據(jù)還不能很好的發(fā)揮它的作用,而數(shù)據(jù)挖掘是一種決策支持過程,是深層次的數(shù)據(jù)信息分析方法。第二,挖掘出的信息的價值在于為沈陽世博園的決策人提供決策依據(jù),因此,挖掘出的信息必須是決策人容易理解的。這樣,信息最終才能轉(zhuǎn)化為沈陽世博園的優(yōu)勢競爭力。
正是由于上述原因,我們在數(shù)據(jù)挖掘技術(shù)中選擇了結(jié)構(gòu)和生成規(guī)則易于理解的決策樹分類算法,利用SAS Enterprise Miner為挖掘工具,全面分析沈陽世博園旅游信息數(shù)據(jù)中隱藏的規(guī)律性的東西,來解決世博園所面臨的問題。
1.數(shù)據(jù)挖掘的過程和方法。在數(shù)據(jù)挖掘過程中,將大量的數(shù)據(jù)轉(zhuǎn)化為分類規(guī)則,從而可以更好的分析這些數(shù)據(jù)。圖1為數(shù)據(jù)挖掘?qū)嵤┝鞒虉D,具體過程如下:
第一步,明確目標(biāo)和確定挖掘?qū)ο?。首先,清晰地定義出問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。其次,不但從建模的角度強調(diào)定義目標(biāo)的重要性,而且從實際需要的角度強調(diào)清晰定義該目標(biāo)的重要性。
第二步,數(shù)據(jù)采樣、數(shù)據(jù)預(yù)處理。我們必須收集支持模型的有關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)采樣,在有了建模所需的完整數(shù)據(jù)集以后,下一步就需要對數(shù)據(jù)進(jìn)行預(yù)處理。在預(yù)處理的過程中,首先,為了使后面的挖掘工作易于進(jìn)行,我們需要進(jìn)行數(shù)據(jù)集成。其次,在擁有明確的目標(biāo)和干凈、準(zhǔn)確的數(shù)據(jù)之后,還需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換(將數(shù)據(jù)轉(zhuǎn)換為適于挖掘的形式),使數(shù)據(jù)能夠發(fā)揮最佳效果。這一數(shù)據(jù)模型是針對算法而準(zhǔn)備的,不同的算法可能需要不同的分析數(shù)據(jù)模型。
第三步,數(shù)據(jù)分類挖掘,訓(xùn)練生成決策樹。分類挖掘的目的是為了建立一個分類模型。首先要選擇合適的挖掘算法,并使用合適的程序設(shè)計軟件實現(xiàn)這一算法,接著對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘,訓(xùn)練生成決策樹。
第四步,分類規(guī)則結(jié)果分析。這一步主要解釋和評估分類結(jié)果,是整個數(shù)據(jù)挖掘的核心部分,實現(xiàn)數(shù)據(jù)挖掘的目的,為決策提供證據(jù)支持。
第五步,規(guī)則的應(yīng)用。這一步是希望將分析所得到的規(guī)則運用到實際工作當(dāng)中去。
2.沈陽世博園使用數(shù)據(jù)挖掘技術(shù)的案例應(yīng)用。基于沈陽世博園實例的研究,旨在說明數(shù)據(jù)挖掘技術(shù)在沈陽世博園旅游業(yè)中的有效性和實用性,并借此案例進(jìn)一步簡要闡明在沈陽世博園旅游業(yè)中使用數(shù)據(jù)挖掘技術(shù)的具體實施過程。
(1)本案例的研究的目標(biāo)和挖掘?qū)ο笫菐椭蜿柺啦﹫@決策者建立游客的行為模式,并以此作為沈陽世博園制定可行營銷戰(zhàn)略的依據(jù),來解決世博園所面臨的客源不足問題。
(2)為了獲取游客的行為模式,選擇了2006年~2007間沈陽世博園的旅游問卷調(diào)查所產(chǎn)生的數(shù)據(jù)為依據(jù)。首先,對收集的數(shù)據(jù)進(jìn)行了清理,因為數(shù)據(jù)不準(zhǔn)確必然導(dǎo)致數(shù)據(jù)挖掘模型實施的失敗。其次,還對一些計算機難以識別的數(shù)據(jù)進(jìn)行處理,把部分游客屬性數(shù)據(jù)轉(zhuǎn)化為簡單、便于處理的數(shù)字形式。最后,為了便于決策樹模型的建立,根據(jù)實際情況,選擇與游客的花費和游客對旅游目的地評價顯著相關(guān)性較大的屬性作為建立分類決策樹模型的依據(jù)。這些相關(guān)屬性包括:游客個人資料數(shù)據(jù)(年齡、性別、家庭月收入、是否城鎮(zhèn)居民、職業(yè));游客的行為數(shù)據(jù)(旅行方式,出行目的,出行天數(shù)、支付方式);游客態(tài)度數(shù)據(jù)(交通、購物環(huán)境、景點人文、景點秩序、景點景觀、旅游總花、餐飲)等。
(3)在本案例中,使用決策樹算法,主要從二方面分析了沈陽世博園旅游市場,一方面,選擇游客的花費作為決策樹的分類對象。把這一屬性范化為離散屬性,共有0=低、1=中、2=高三個屬性值。表1給出了不同消費檔次的樣本數(shù)和分布情況。另一方面,選擇游客對旅游目的地的綜合評價作為決策樹的分類對象,這一屬性有2=好,1=一般,0=差,三個屬性值。表2給出了游客對旅游地綜合評價的樣本數(shù)和分布情況。
最后,根據(jù)各種工具性能分析,并且結(jié)合本項目的實際情況,使用SAS Enterprise Miner為數(shù)據(jù)挖掘工具,進(jìn)行數(shù)據(jù)挖掘,具體決策樹算法采用C4.5,即根據(jù)信息增益率的大小選擇屬性。信息增益率Gainration(x)算法如下:
其中,Gain(x)為信息增益,,它表示把訓(xùn)練集T分成n部分而生成的潛在信息。
四、挖掘結(jié)果分析
通過使用SAS Enterprise Miner為數(shù)據(jù)挖掘工具,在沈陽世博園的案例中挖掘出了70多條有關(guān)規(guī)則,在挖掘出的這70多條規(guī)則中,有一些規(guī)則是比較明顯的,是有經(jīng)驗的決策人在管理工作中已經(jīng)發(fā)現(xiàn)或是可以察覺的規(guī)則;而另一些規(guī)則卻是潛在的、是決策人不易察覺或無法察覺的。同時,挖掘出來的這多條規(guī)則并不一定都是有用的或是有意義的,在管理者具體把這些規(guī)則用于實踐中時,不同的目標(biāo)往往需要不同的規(guī)則作為基礎(chǔ)。
例如,在這個案例中,由于決策屬性較多,只列出了生成的部分決策樹模型如圖2所示,從決策樹模型所示的規(guī)則可以看出:對于游客來說景點再好,如果購物環(huán)境差,也會給游客造成不好的印象,這里的購物環(huán)境就包括園內(nèi)商品價格一般是園外同類商品價格的3倍~4倍,也存在有些游客被導(dǎo)游強迫到處處購物等現(xiàn)象。
我們還可以從決策樹模型所示的規(guī)則分析出,發(fā)現(xiàn)如下規(guī)則,只有少數(shù)游客在沈陽世博園旅游超過8小時,絕大多數(shù)的游客在沈陽世博園游園的時間不超過5小時,這就自然造成游客總花費降低,進(jìn)而影響世博園內(nèi)一些商業(yè)設(shè)施的盈利,而要使游客愿意停留更長的時間,進(jìn)一步突出世博園的特點,改善購物環(huán)境就顯得極為重要。另外,通過規(guī)則集中,發(fā)現(xiàn)還有一些規(guī)則因為較復(fù)雜而難以理解,所以有待專家做進(jìn)一步的分析和研究。
通過對挖掘出的規(guī)則的分析,對解決世博園所面臨的嚴(yán)重的客源不足問題的解決提出以下幾點建議:
1.改善世博園的整體環(huán)境,吸引更多的國內(nèi)外游客前來觀光,發(fā)掘其文化內(nèi)涵、提升其產(chǎn)品品位,使得世博園能夠可持續(xù)發(fā)展。
2.管理者可以深入挖掘沈陽園藝旅游項目,結(jié)合沈陽固有的歷史底蘊,突出北方旅游的特色,以帶動沈陽整個旅游業(yè)的發(fā)展。
3.打造世博園文化產(chǎn)業(yè)品牌,將世博園從“會展地”轉(zhuǎn)型成“旅游主題公園”,借鑒其他國家的先進(jìn)經(jīng)驗,如美國的“迪斯尼”、“環(huán)球影城”等主題公園。
4.加大對沈陽世博園乃至沈陽的宣傳,與國際國內(nèi)政府、組織及社會各界的全面接觸,為世博園積累豐富的人脈資源以吸引更多地海內(nèi)外游客的關(guān)注,促進(jìn)沈陽的旅游業(yè)的發(fā)展。
五、結(jié)論
本文利用決策樹分類方法對沈陽世博園旅游業(yè)的旅游信息數(shù)據(jù)庫進(jìn)行挖掘,得到了一些有意義的規(guī)則。實踐證明,數(shù)據(jù)挖掘技術(shù)對于希望了解和預(yù)測游客行為的旅游區(qū)來說,是十分有用的工具。但是,數(shù)據(jù)挖掘僅僅是許多幫助旅游區(qū)尋求決策支持的許多方法中的一種,也必然有它的局限;我們也不能說數(shù)據(jù)挖掘就是旅游區(qū)成功營銷策略的保證。在實際的運作中,如果能夠有旅游專家的參與,那么對數(shù)據(jù)挖掘的針對性,準(zhǔn)確性,對這個研究方向的發(fā)展將具有更大的促進(jìn)。因此,我們還常常需要把數(shù)據(jù)挖掘技術(shù)和其他一些方法結(jié)合起來使用,以便旅游區(qū)能夠根據(jù)挖掘出來的信息,做出相對最優(yōu)的營銷決策。
參考文獻(xiàn):
[1]羅海蛟等:數(shù)據(jù)挖掘中分類算法的研究及其應(yīng)用[J].微機發(fā)展,2003, 13
[2]J.W.Han, M.Kamber.Data Mining:Concepts and Techniques[M].2001