陳 俊 蔡付斌 肖碧云
(景德鎮(zhèn)陶瓷學(xué)院,江西 景德鎮(zhèn)333403)
聚類分析(Cluster Analysis)是根據(jù)事物本身的特性來定量研究分類問題的一種多元統(tǒng)計分析方法。其基本思想是同一類中的個體有較大的相似性,不同類中的個體差異較大,于是根據(jù)一批樣品的多個測量指標(biāo),找出能夠度量樣品(或變量)之間相似度的統(tǒng)計量,并以此為依據(jù),采用某種聚類法(Method),將所有的樣品(或變量)分別聚合到不同的類中。
聚類分析使用的方法大致分為兩類:系統(tǒng)聚類法(Hierarchical Clustering)和非系統(tǒng)聚類法(Non - hierarchical Clustering),前者用于所給數(shù)據(jù)所分類別數(shù)目未知的情形,后者用于所給數(shù)據(jù)所分類別數(shù)目已知的情形。本文選擇系統(tǒng)聚類法。
在實際應(yīng)用中,根據(jù)分類對象的不同有樣品(Case)聚類(又稱Q 型聚類)和變量(Variable)聚類(或稱R 型聚類)之分。前者對樣品(或事件)進(jìn)行分類,后者以變量為單位進(jìn)行聚類。本文選擇前者進(jìn)行聚類。
目前進(jìn)行聚類分析的軟件很多,SPSS、SAS、R、S -plus、Matlab 等,本文采用SPSS18.0 測試版進(jìn)行聚類分析,其基本步驟如下:
第一步,選擇分析變量,生成變量矩陣X =(xij),i =1,2,…,n,j=1,2,…,p,n、p 分別為樣本數(shù)和變量數(shù)。
第二步,數(shù)據(jù)標(biāo)準(zhǔn)化。本文采用標(biāo)準(zhǔn)化變換來消除各變量間的量綱。具體做法如下,通過標(biāo)準(zhǔn)化公式
將原始數(shù)據(jù)X=(xij)變換為X*=(x*ij),其中,Sj為第j 個變量的樣本標(biāo)準(zhǔn)差。經(jīng)過這樣標(biāo)準(zhǔn)化變換后的數(shù)據(jù),每個變量的樣本均值為0,標(biāo)準(zhǔn)差為1,與變量的量綱無關(guān)。
第三步,選擇距離或相似系數(shù)的計算公式,生成距離矩陣或相似矩陣作為相應(yīng)的聚類統(tǒng)計量,距離主要用于樣品分類,相似系數(shù)主要用于變量的分類。本文是對樣品進(jìn)行分類,所以選擇歐氏距離平方作為聚類統(tǒng)計量,其矩陣表達(dá)形式為:
其中,p 為變量個數(shù),i=1,2,…,n 為樣品數(shù)目。
第四步,選擇聚類方法,將距離最近的兩個樣品合成一類。本文選擇離差平方和法(WARD 法)進(jìn)行聚類,WARD 法必須采用歐式距離計算。當(dāng)Gp和Gq合并為Gr后,Gr與其他類Gk的距離遞推公式為:
其中,nk、np、nr和nq分別為Gk、Gp、Gr和Gq各類中樣品的數(shù)目。
第五步,重復(fù)上述步驟,直至所有樣品歸為一類。
第六步,輸出聚類結(jié)果和系統(tǒng)聚類圖,并根據(jù)實際情況、分類準(zhǔn)則等得出最終分類結(jié)果。
數(shù)據(jù)的收集一般分為一手資料和二手資料兩大類,一手資料是指研究者本身為了其研究目的經(jīng)過自身搜集整理或直接經(jīng)驗所得,一手資料是經(jīng)過研究者實地考察、親身走訪搜集的實證研究資料;二手資料是指某些特定研究組織受企業(yè)、政府等機構(gòu)委托,對于一手資料進(jìn)行調(diào)查統(tǒng)計的資料。二手資料包括各地年鑒、企業(yè)統(tǒng)計報表、產(chǎn)業(yè)統(tǒng)計便覽、地圖等。
本文考慮二手資料的可得性以及年鑒的可靠性,選擇《江西省統(tǒng)計年鑒》中的數(shù)據(jù),選取2007—2009年(整理)江西省各地市旅游多種指標(biāo)作為本文分析數(shù)據(jù),經(jīng)過多種變量組合聚類分析的結(jié)果比較,最終采用X·1=國內(nèi)游客數(shù)(人次),X·2=外國游客數(shù)(人次),X·3=香港游客數(shù)(人次),X·4=澳門游客數(shù)(人次),X·5=臺灣游客數(shù)(人次),X·6=旅游收匯(萬美元),X·7=星級飯店數(shù)目這7 個指標(biāo)進(jìn)行聚類,得到11 ×7 矩陣X:
該矩陣的行向量的分量分別表示江西省各地級市,具體X1·=南昌市,X2·=景德鎮(zhèn)市,X3·=萍鄉(xiāng)市,X4·=九江市,X5·=新余市,X6·=鷹潭市,X7·= 贛州市,X8·=吉安市,X9·=宜春市,X10·=撫州市,X11·=上饒市。
在SPSS 軟件中實現(xiàn)聚類過程時,系統(tǒng)聚類共輸入11個樣本,有效樣本為11 個,且沒有缺失值的存在,所得到聚類統(tǒng)計量用如下距離矩陣D 表示:
與原始矩陣X 的行向量相對應(yīng),元素d11表示南昌與南昌的距離,d12表示南昌與景德鎮(zhèn)的距離,d13表示南昌與萍鄉(xiāng)的距離,以此類推。由距離矩陣,我們發(fā)現(xiàn)萍鄉(xiāng)和宜春的相似性最大(即距離d39最小),其次是宜春和撫州,接著是撫州和新余,以此類推,新余和九江之間的差距最大。
值得注意的是,根據(jù)距離矩陣只是將11 個樣本分成10 類,隨后在新的10 類中SPSS 將再次根據(jù)離差平方和法計算新的類間距離矩陣D10×10,并根據(jù)D10×10將10 類分成9 類,在此基礎(chǔ)上重復(fù)前述方法計算聚類統(tǒng)計量,直將11 個地級市按照WARD 距離法一步一步分類的過程可以如圖1 所示的譜系聚類圖看出,圖中橫軸表示距離,縱軸表示樣品,即11 個地級市。
圖1 江西各地區(qū)譜系聚類到將所有樣本分為一類,SPSS 便會輸出最終聚類結(jié)果。
從譜系圖中,我們不難看出,萍鄉(xiāng)和宜春首先歸為一類,此后撫州也被歸為這一類,然后贛州和吉安歸為一類,景德鎮(zhèn)和上饒歸為一類,依次類推,最終將這11 個城市歸為四類:萍鄉(xiāng)、宜春、撫州和新余屬于綜合以上7 項指標(biāo)相對較低的一類,景德鎮(zhèn)、上饒、鷹潭和南昌為次低的一類,贛州和吉安為相對較高的一類,九江屬于相對最高的一類。
在對江西各市發(fā)展旅游產(chǎn)業(yè)制定區(qū)域?qū)Σ邥r,可以根據(jù)這種聚類,對同一類中的城市建立聯(lián)盟,共同發(fā)展,對不同類型的城市,采取高一級的帶動低一級的城市發(fā)展的整體區(qū)域規(guī)劃。具體而言:在處于同一類的城市中,一方面,在發(fā)展目標(biāo)上,共同以高一級的城市旅游發(fā)展現(xiàn)狀為目標(biāo);另一方面,各城市旅游業(yè)的各類資源實現(xiàn)共享和互補,旅游產(chǎn)品及市場的開發(fā)與推廣策略,可以互相參照,以聯(lián)盟的方式形成規(guī)模,達(dá)到縮減成本、創(chuàng)造共同收益的目的。在處于不同類型的城市中,較低發(fā)展水平的以較高發(fā)展水平為目標(biāo),較高發(fā)展水平以“手拉手”的形式帶動較低發(fā)展水平的城市,呈現(xiàn)鏈條反應(yīng),以縮小差距。具體來看,要從以下幾點來做:
1. 萍鄉(xiāng)、宜春、新余以及撫州四市旅游業(yè)發(fā)展?fàn)顩r相似度較高,且同位于江西省中部,故而在制定旅游發(fā)展規(guī)劃或政策時就應(yīng)該在基礎(chǔ)設(shè)施建設(shè)、旅游線圖設(shè)計、旅游產(chǎn)品開發(fā)、信息共享方面協(xié)同考慮。
2. 景德鎮(zhèn)、上饒、鷹潭以及南昌四市旅游業(yè)發(fā)展?fàn)顩r相似度較高,而且這四個地區(qū)均位于江西省第一個國家戰(zhàn)略“環(huán)鄱陽湖生態(tài)經(jīng)濟區(qū)”,因而在制定旅游業(yè)發(fā)展規(guī)劃時,要充分考慮國家對該區(qū)“生態(tài)文明與經(jīng)濟社會發(fā)展協(xié)調(diào)統(tǒng)一、人與自然和諧相處的生態(tài)經(jīng)濟示范區(qū)和中國低碳經(jīng)濟發(fā)展先行區(qū)”的要求,并結(jié)合該地區(qū)所具有的自然生態(tài)資源稟賦,大力發(fā)展綠色生態(tài)家園旅游業(yè)。
3. 贛州、吉安與九江旅游業(yè)發(fā)展?fàn)顩r相似度較高,且位于江西省北部與南部,因此要注重以旅游業(yè)發(fā)展程度相對較高的九江旅游業(yè)的發(fā)展經(jīng)驗指導(dǎo)規(guī)劃贛州、吉安的旅游業(yè)發(fā)展,并且在江西省南北部的旅游業(yè)基礎(chǔ)設(shè)施建設(shè)、旅游業(yè)空間布局等方面加強協(xié)作,以期貫穿整個江西省全景,進(jìn)而帶動江西省旅游業(yè)的發(fā)展壯大。
江西省在其11 個地級市的旅游區(qū)域規(guī)劃方面,應(yīng)注意聯(lián)系九江旅游業(yè)發(fā)展的先進(jìn)經(jīng)驗,注重聯(lián)系贛州及吉安的旅游業(yè)發(fā)展,并結(jié)合南昌、景德鎮(zhèn)、上饒及鷹潭旅游業(yè)資源的區(qū)位及政策優(yōu)勢,而萍鄉(xiāng)、宜春、撫州及新余旅游業(yè)的發(fā)展則要緊密跟隨其他地級市旅游業(yè)發(fā)展進(jìn)行科學(xué)規(guī)劃與發(fā)展。
此外,以上分類僅從市場數(shù)據(jù)入手,只能從整體上對江西省旅游業(yè)發(fā)展給出區(qū)域?qū)Σ?,每個城市旅游的特色不應(yīng)被這些市場數(shù)據(jù)所表現(xiàn)出的共性所掩蓋。
[1]高惠璇. 實用統(tǒng)計方法與SAS 系統(tǒng)[M]. 北京:北京大學(xué)出版社,2001.
[2]張立軍,任英華. 多元統(tǒng)計分析實驗[M]. 北京:中國統(tǒng)計出版社,2008.
[3]李仲來. 系統(tǒng)聚類分析中應(yīng)注意的兩類問題[J].數(shù)理統(tǒng)計與管理,1993(6).
[4]于春燕. 吉林省海外旅游流統(tǒng)計分析[M]. 東北師范大學(xué),2006.
[5]李曉丹,吳楊偉. 構(gòu)建環(huán)鄱陽湖旅游圈旅游業(yè)增長極的實證研究[J].改革與戰(zhàn)略,2009(11).
[6]劉勇. 基于資源整合提升的江西省旅游發(fā)展戰(zhàn)略創(chuàng)新研究[J]. 江西農(nóng)業(yè)大學(xué)學(xué)報(社會科學(xué)版) ,2012(3).
[7]邱榮飛,林坤. 江西旅游發(fā)展現(xiàn)狀分析與策略探討[J].企業(yè)經(jīng)濟,2011(9).