孫 燕,王偉偉,張志恒
(1.北京大學城市與環(huán)境學院,北京 100871;2.蘭州大學資源環(huán)境學院,甘肅蘭州 730000)
基于PCA+GRNN+SOFM的入境旅游空間分布研究
孫燕1,王偉偉2,張志恒2
(1.北京大學城市與環(huán)境學院,北京100871;2.蘭州大學資源環(huán)境學院,甘肅蘭州730000)
摘要:選取2011年中國31個省級行政區(qū)的入境旅游數(shù)據(jù),先采用GRNN,SOFM方法對原始數(shù)據(jù)進行系統(tǒng)聚類,初步分析其空間分布特征,并基于GRNN網(wǎng)絡得出合適步長,在此基礎上采用主成分分析(PCA)方法實現(xiàn)變量關系的正交,以排除變量間共線性對分析結(jié)果的干擾,然后結(jié)合GRNN,SOFM方法對數(shù)據(jù)進行系統(tǒng)聚類.結(jié)果表明,采用PCA+GRNN+SOFM的方法可以較好地解釋中國入境旅游的空間分布格局,并且空間分布呈現(xiàn)明顯的“人”字形格局特征.
關鍵詞:入境旅游;GRNN;SOFM;PCA;系統(tǒng)聚類;空間分布
入境旅游是指非本國居民基于愉悅、商務或其他目的,離開慣常環(huán)境到訪某一特定地區(qū)持續(xù)時間不超過一年的訪問活動[1].當前,對入境旅游的研究主要集中在入境旅游的空間分布格局,入境人口在時空上的流動過程,入境旅游集聚和分散過程以及危機事件或者重大節(jié)日、活動對入境旅游的影響效應[2-16].同時,一些學者對不同國籍的游客在旅游過程中的行為進行了研究,還有一些研究者集中于探究入境旅游發(fā)展變化的影響因素[17,18].
對中國入境旅游空間、時間上的變化特征進行分析,目前采用的方法多種多樣,主要集中于集中指數(shù)、擴散指數(shù)、社會網(wǎng)絡分析方法、空間場、位序-規(guī)模分布、Theil系數(shù)、優(yōu)勢度、改進熵值法、重心法等方法.文中選取了中國31個省級行政區(qū)的入境旅游人數(shù)(人次)、停留天數(shù)(d)、國際旅游收入(萬元)數(shù)據(jù),結(jié)合利用主成分分析方法(PCA)、徑向基函數(shù)方法(RBFN)和自組織特征映射方法(SOFM),來解釋入境旅游的空間分布特征.
1研究背景、數(shù)據(jù)來源與研究方法
1978年以來,統(tǒng)計數(shù)據(jù)顯示來我國旅游的外國游客人數(shù)躥升,同時國際旅游收入也不斷增加.1978年,過夜入境旅游人數(shù)71.6萬人次,國際旅游收入2.63億美元,這個時候我國的入境旅游發(fā)展狀況在世界上還很靠后,基本榜上無名.1980年,我國過夜入境人數(shù)已經(jīng)達到350萬人次,排世界18位;國際旅游收入6.17億美元,排世界34位.2011年,我國的入境旅游人數(shù)達到了5 758.07萬人次,國際旅游收入達到484.64億美元,分別排世界第3位和第4位.統(tǒng)計數(shù)據(jù)表明,1978—2011年,我國的入境旅游人數(shù)翻了80倍,同時國際旅游收入翻了200多倍.在全球國際合作和交流不斷加強的時代,研究入境旅游的發(fā)展規(guī)律和空間分布特征具有重要的現(xiàn)實意義.
文中從《中國統(tǒng)計年鑒2011》中摘取了31個省級行政區(qū)的入境旅游人數(shù)(人次)、停留天數(shù)(d)和國際旅游收入(萬美元)的統(tǒng)計數(shù)據(jù),在數(shù)據(jù)結(jié)果分析中用自組織特征映射神經(jīng)網(wǎng)絡(SOFM)對原始數(shù)據(jù)進行聚類,再采用徑向基函數(shù)神經(jīng)網(wǎng)絡(RBFN)對數(shù)據(jù)進行分析,并采用主成分分析方法(PCA)對數(shù)據(jù)進行聚類,最后采用主成分分析(PCA)、徑向基函數(shù)的神經(jīng)網(wǎng)絡(RBF)與自組織特征映射(SOFM)相結(jié)合的方法進行分析.其中在SPSS 19.0中聚類的時候,采用系統(tǒng)聚類法中的類平均法或者組間鏈接法(between linkage groups),并且采用歐式距離平方(square Euclid distance)的方法.
2原始數(shù)據(jù)的分析
2.1基于SOFM網(wǎng)絡的入境旅游空間分布特征
自組織特征映射網(wǎng)絡(SOFM)是一種無監(jiān)督類的學習網(wǎng)絡[19],當不能獲得外部數(shù)據(jù)和評判指令時,網(wǎng)絡只要輸入樣本數(shù)據(jù)就可以進行無監(jiān)督機制的學習.SOFM網(wǎng)絡在輸入樣本之后進行無監(jiān)督的競爭學習,使得功能相同的輸入靠得比較近,而功能不同的輸入靠得比較遠.因此基于SOFM的格局分類的自組織特征,輸入原始的入境旅游人數(shù)、停留天數(shù)、國際旅游收入數(shù)據(jù),在MATLAB(R2009a)中運用newsom函數(shù)構建網(wǎng)絡,最大訓練次數(shù)達到1 000,誤差達到MATLAB(R2009a)中默認的值.由于MATLAB(R2009a)中定義的網(wǎng)絡結(jié)構不同,可能的分類結(jié)果會呈現(xiàn)一些差異,因此對31個省級行政區(qū)入境旅游的空間分布格局進行了大體的判斷之后,認為分為6種或者5種類型比較符合研究的實際,所以構建隱含層的網(wǎng)絡結(jié)構為3×2,6×1,5×1的形式,最終輸出結(jié)果如圖1~3所示.
圖1采用SOFM(3×2)分析圖2采用SOFM(6×1)分析圖3采用SOFM(5×1)分析
Fig 1The SOFM(3×2) analysisFig 2The SOFM(6×1) analysisFig 3The SOFM(5×1) analysis
從圖1~3可以看出,東中西3大地帶之間具有明顯的地帶性特征,東部分布差異最大,中西部的差異則比較小,這與汪德根等的結(jié)論相一致[9].從總體上看,采用SOFM分析入境旅游空間分布特征具有一定的借鑒意義.
2.2基于GRNN的入境旅游空間分布特征
圖4GRNN步長=0.5的聚類結(jié)果圖5GRNN步長=1的聚類結(jié)果圖6GRNN步長=1.5的聚類結(jié)果
Fig 4Clustering results of GRNN (0.5)Fig 5Clustering results of GRNN (1)Fig 6Clustering results of GRNN (1.5)
徑向基函數(shù)(Radial basis function, RBF)是沿著某種徑向?qū)ΨQ的標量函數(shù),通常定義為空間中的任意一點到中心點之間的歐式距離的單調(diào)函數(shù)[20].GRNN是RBF中的一種,一般情況下包含3層:輸入層、隱藏層、輸出層.在MATLAB(R2009a)中編寫程序前,需要對原始數(shù)據(jù)進行歸一化,使歸一化的數(shù)據(jù)在0~1,并且通過歸一化的數(shù)據(jù)求出每一變量對應的最大值和最小值,構建權重矩陣,由于數(shù)據(jù)只有3×31個,所以只能建構3×3的權重矩陣.GRNN的輸出層是31維的向量,其實是31個省級行政區(qū)入境旅游的評價值.GRNN網(wǎng)絡在MATLAB(R2009a)默認環(huán)境下的步長(spread)為1,已有研究結(jié)果表明,不同的步長值會使輸出的評價值變得平滑或者尖銳,步長值越大輸出結(jié)果越平滑,步長值越小輸出結(jié)果越尖銳.文中為了得到更好的結(jié)果,選取了步長=0.5,1,1.5分別進行研究.為了找出省級行政區(qū)之間的相似性和差異性,將GRNN人工神經(jīng)網(wǎng)絡的輸出結(jié)果導入SPSS中,并且采用系統(tǒng)聚類的方法.分析結(jié)果如圖4~6所示.
總體來看,采用徑向基函數(shù)的方法不能較好地反映入境旅游在空間分布上的差異性和相似性.在步長為0.5和1.5的時候,只有東部少數(shù)幾個省級行政區(qū)呈現(xiàn)出了合理的空間分布的異同.但是對于所有的中部和西部省級行政區(qū)來說,基本是一個一樣化的特征.在步長為1的時候,分析的結(jié)果與前面采用原始數(shù)據(jù)進行SOFM分析的結(jié)果相似.
研究表明,選取步長為1的GRNN網(wǎng)絡對中國31省級行政區(qū)進行研究,可以得到比較好的結(jié)論.
3加入主成分分析的結(jié)果
前面的研究中,并沒有考慮數(shù)據(jù)之間的相關性,只是將入境旅游人數(shù)、停留天數(shù)、國際旅游收入全部作為變量代入所選用的方法中進行空間格局的研究.為了避免數(shù)據(jù)相關性對研究結(jié)果的影響,文中采用主成分分析方法(PCA)對原始數(shù)據(jù)進行降維、壓縮,使變量之間呈現(xiàn)正交的關系.
首先對數(shù)據(jù)進行主成分分析,分析數(shù)據(jù)的相關性,并且分別提取3個主因子和2個主因子,其數(shù)據(jù)之間的相關性如表1所示,累計百分比和特征根如表2所示.
表1 數(shù)據(jù)之間的相關系數(shù)
表2 總的方差解釋
從表1,2可以看出,人數(shù)與停留天數(shù)或者國際旅游收入與停留天數(shù)之間的相關性很小,但是人數(shù)與國際旅游收入之間的相關性很大,達到了0.90以上.從表2可以看出,當提取1個因子時,保留了原始變量的64.802%的信息;當提取2個因子的時候,保留了原始變量的97.074%的信息.
接下來對主成分的因子得分(1個主成分、2個主成分、3個主成分)直接在SPSS中進行系統(tǒng)聚類,然后提取2個主成分進行GRNN+SFOM聚類,進而分析31省級行政區(qū)在空間上的分布特征.
3.1基于PCA的入境旅游空間分布特征
在SPSS中首先進行主成分分析,保留因子得分,然后再進行系統(tǒng)聚類,結(jié)果如圖7~9所示.
從圖7,8可以看出,提取1個或者2個因子進行系統(tǒng)聚類來分析中國各省市入境旅游的變化是無能為力的.從圖9可以看出,即使提取3個因子,也不能解釋空間格局的分布規(guī)律,這與對原始數(shù)據(jù)直接進行系統(tǒng)聚類相比,并沒有多大的差別.
對比發(fā)現(xiàn),采用PCA的方法進行系統(tǒng)聚類,在變量比較少的情況下,試圖揭示入境旅游空間分布格局,局限性比較大.
3.2基于PCA+GRNN+SOFM的入境旅游空間分布特征
圖7提取1個因子時的聚類結(jié)果圖8提取2個因子時的聚類結(jié)果圖9提取3個因子時的聚類結(jié)果
Fig 7Clustering results of extracting 1Fig 8Clustering results of extracting 2Fig 9Clustering results of extracting 3
在第2節(jié)中,當GRNN網(wǎng)絡隱藏層的步長定義為1時,會得到比較穩(wěn)定的結(jié)果,而且效果比較好.前面已經(jīng)表明,選取2個主成分時可以解釋原始變量的97%的信息,并且可以消除變量共線性的影響,所以本研究中默認GRNN網(wǎng)絡的步長為1,選取2個主成分.具體思路是先采用2個主成分在GRNN神經(jīng)網(wǎng)絡中進行評價,當然首先必須對2個主成分進行歸一化處理,再根據(jù)歸一化的數(shù)據(jù)定義權重矩陣.由于歸一化的數(shù)據(jù)最大值是1,最小值是0,因此在定義權重矩陣時進行了一些技術上的處理,定義第二大的歸一化值和次最小歸一化數(shù)據(jù)作為權重矩陣的初始值,將其分2級,定義2×2的權重矩陣,再在MATLAB(R2009a)中進行編程分析,得出評價值.最后根據(jù)評價值構建SOFM網(wǎng)絡,對31省級行政區(qū)的入境旅游進行分類,以便分析空間格局的變化特征,如圖10~12所示.
圖103×2聚類結(jié)果圖116×1聚類結(jié)果圖125×1聚類結(jié)果
Fig 10Clustering results of 3×2Fig 11Clustering results of 6×1Fig 12Clustering results of 5×1
從圖10~12可以看出,采用PCA+GRNN+SOFM的方法研究中國31省級行政區(qū)入境旅游空間變化的特征,無論是采用SOFM網(wǎng)絡中隱藏層的結(jié)構為3×2,6×1還是5×1,空間分布格局基本明確,均形成了以河北、內(nèi)蒙古、黑龍江、河南、湖北、湖南、廣西、海南、青海、新疆構成的“人”字形空間分布格局;以北京、天津、上海、廣東為熱點集聚省級行政區(qū),并且遼寧、浙江、江蘇的空間格局可分為一類.還可以看出,中國入境旅游呈現(xiàn)明顯的地帶性特征,空間分布東部省級行政區(qū)之間的差異比較大,西部省級行政區(qū)次之,中部省級行政區(qū)最小.這種空間分布格局可能是經(jīng)濟發(fā)展水平、地理區(qū)位因素、旅游資源稟賦差異及外向性因素和交通基礎設施等作用的結(jié)果.
采用這種方法進行研究,可以較好地解釋中國入境旅游在空間上的集聚和分散特征,同時可以找到區(qū)域之間的異同.
無論是分為5類還是6類,無論采取SFOM隱藏層結(jié)構是線狀的還是網(wǎng)狀的,最終分布格局是確定的.稍微的變化或許是網(wǎng)絡隱藏層結(jié)構的變化在尋求集聚核的時候的擾動所致.
4結(jié)論與討論
通過以上分析可知,在對原始數(shù)據(jù)進行分析時,采用SOFM分析入境旅游的空間分布特征,有一定的借鑒意義.采用徑向基函數(shù)的方法不能較好地反映入境旅游在空間分布上的差異性和相似性.考慮到變量之間的相關性,為了消除變量之間的共線性,對數(shù)據(jù)進行主成分分析以達到數(shù)據(jù)正交、降維,由于2個主成分時可以解釋原始變量97%的信息,所以選取2個主成分對31個省級行政區(qū)入境旅游空間分布格局進行研究.研究結(jié)果表明,PCA+GRNN+SOFM的方法,可以明顯地反映出中國入境旅游空間分布格局,可以看出中國入境旅游呈現(xiàn)“人”字形的格局,以北京、天津、上海、廣東為熱點集聚區(qū),并且遼寧、浙江、江蘇的空間格局可分為一類;入境旅游空間分布呈現(xiàn)明顯的地帶性特征,東部省級行政區(qū)之間的差異比較大,西部省級行政區(qū)次之,中部省級行政區(qū)最?。@種空間分布格局可能是經(jīng)濟發(fā)展水平、地理區(qū)位因素、旅游資源稟賦差異及外向性因素和交通基礎設施等作用的結(jié)果.
無論分為5類還是6類,對最終的空間格局的影響不是很大,關鍵在于GRNN網(wǎng)絡中步長的確定以及消除變量之間的共線性.
參考文獻:
[1]保繼剛,項怡嫻,吳永瑩.北京奧運會對非舉辦地入境旅游的影響——以桂林陽朔為例[J].人文地理,2009,24(2):1-6.
[2]陳剛強,李映輝,劉娟.中國入境旅游規(guī)模分布特征及其變化[J].地理研究,2011,30(6):1044-1054.
[3]陳剛強,許學強.中國入境旅游規(guī)??臻g分布變化及因素分析[J].地理科學,2011,31(5):613-619.
[4]李創(chuàng)新,馬耀峰,張穎,等.時空二元視角的入境旅游流集散空間場效應與地域結(jié)構——以絲路東段典型區(qū)為例[J].地理科學,2012,32(2):176-185.
[5]李創(chuàng)新,馬耀峰,張穎,等.1993—2008年區(qū)域入境旅游流優(yōu)勢度時空動態(tài)演進模式——基于改進熵值法的實證研究[J].地理研究,2012,31(2):257-268.
[6]李創(chuàng)新,馬耀峰,鄭鵬,等.基于STSM的入境旅游流集散地域結(jié)構特征分析——以中國入境旅游六大典型區(qū)域為例[J].地理科學,2011,31(5):620-626.
[7]劉軍勝,馬耀峰,李振亭.1997—2010年中部六省入境旅游流集散時空動態(tài)分析[J].地理科學,2013,33(4):450-456.
[8]馬耀峰,林志慧,劉憲鋒,等.中國主要城市入境旅游網(wǎng)絡結(jié)構演變分析[J].地理科學,2014,34(1):25-31.
[9]汪德根,陳田.中國旅游經(jīng)濟區(qū)域差異的空間分析[J].地理科學,2011,31(5):528-536.
[10]王兆峰.入境旅游流與航空運輸網(wǎng)絡協(xié)同演化及差異分析——以西南地區(qū)為例[J].地理研究,2012,31(7):1328-1338.
[11]吳晉峰,潘旭莉.京滬入境旅游流網(wǎng)絡結(jié)構特征分析[J].地理科學,2010,30(3):370-376.
[12]楊國良,張捷,劉波,等.旅游流流量位序-規(guī)模分布變化及其機理——以四川省為例[J].地理研究,2007,26(4):662-672.
[13]張郴,張捷.中國入境旅游需求預測的神經(jīng)網(wǎng)絡集成模型研究[J].地理科學,2011,31(10):1208-1212.
[14]馬燕.近10年來新疆入境旅游市場時空動態(tài)變化研究[J].西北師范大學學報:自然科學版,2012,48(5):109-114.
[15]孫根年,周瑞娜,馬麗君,等.2008年五大事件對中國入境旅游的影響——基于本底趨勢線模型高分辨率的分析[J].地理科學,2011,31(12):1437-1446.
[16]孫根年,舒鏡鏡,馬麗君,等.五大危機事件對美國出入境旅游的影響——基于本底線模型的高分辨率分析[J].地理科學進展,2010,29(8):987-996.
[17]肖星,李文兵,伍延基.絲綢之路入境旅游者空間行為淺析與旅游開發(fā)建議[J].甘肅社會科學,2002(2):115-117.
[18]趙東喜.中國省際入境旅游發(fā)展影響因素研究——基于分省面板數(shù)據(jù)分析[J].旅游學刊,2008,23(1):41-45.
[19]DISTANTE C,SICILIAN P,PERSAUD K C.Dynamic cluster recognition with multiple self-organising maps[J].PatternAnalysis&Applications,2002,5(3):306-315.
[20]盧艷秋,張公一,崔巍.基于RBF網(wǎng)絡的TBT預警模型[J].情報科學,2007,25(10):1588-1592.
(責任編輯惠松騏)
E-mail:wangww13@lzu.cn
The inbound tourism spatial distribution based
on PCA+GRNN+SOFM
SUN Yan1,WANG Wei-wei2,ZHANG Zhi-heng2
(1.College of Urban and Environmental Sciences,Peking University,Beijing 100871,China;
2.College of Earth and Environmental Sciences,Lanzhou University,Lanzhou 730000,Gansu,China)
Abstract:This paper selected the 2011 inbound tourism data of 31 provincial level administrative regions in China to analyse the spatial distribution characteristics of inbound tourism through the GRNN,SOFM and hierarchical clustering method.Firstly,the suitable step length from the GRNN network is fixed,and then the principal component analysis(PCA) method is used to achieve orthogonal variable so that overcome the collinearity between the variables.In addition,the GRNN,SOFM and hierarchical clustering methods are applied to study the spatial pattern of Chinese 31 provinces.The results show that using PCA,GRNN and SOFM methods can explain the spatial distribution pattern of Chinese inbound tourism better.And the inbound tourism present obvious“human”glyph structure characteristics.
Key words:inbound tourism;GRNN;SOFM;PCA;hierarchical cluster;spatial distribution
中圖分類號:F 592
文獻標志碼:A
文章編號:1001-988Ⅹ(2015)02-0099-06
作者簡介:孫燕(1985—),女,甘肅蘭州人,碩士研究生.主要研究方向為城市與區(qū)域規(guī)劃.
基金項目:環(huán)保公益性行業(yè)科研專項(201209034)
收稿日期:2014-11-26;修改稿收到日期:2014-12-10