陳望學(xué),魯春林,王連文,錢文舒
(1.吉首大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖南吉首416000;2.華中師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北武漢430079)
聚類分析的一個(gè)基本應(yīng)用
陳望學(xué)1,魯春林1,王連文2,錢文舒1
(1.吉首大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖南吉首416000;2.華中師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北武漢430079)
作為聚類分析的一個(gè)基本應(yīng)用,利用該統(tǒng)計(jì)方法研究了湖南省14個(gè)地州市的發(fā)展水平.最后結(jié)合分類結(jié)果,提出了相應(yīng)的發(fā)展建議.
發(fā)展水平;SAS;聚類分析
1999年9月,中共十五屆四中全會(huì)明確提出:國家要實(shí)施中西部大開發(fā)戰(zhàn)略,國家發(fā)改委2000年開始分類推進(jìn)中西部地區(qū)區(qū)域發(fā)展來支持中西部少數(shù)民族地區(qū)經(jīng)濟(jì)發(fā)展,并于當(dāng)年出臺(tái)《深入推進(jìn)西部大開發(fā)戰(zhàn)略若干意見》來指導(dǎo)中西部的開發(fā)工作.作為連接中西部橋梁的湖南省,研究其各地區(qū)發(fā)展水平不僅對(duì)湖南省各地區(qū)的發(fā)展有著重要意義,而且對(duì)全國同類地區(qū)實(shí)現(xiàn)快速發(fā)展同樣具有重要指導(dǎo)意義.
圖1 湖南省地區(qū)生產(chǎn)總值Fig.1 GDP of the regions from hunan province
自改革開放以來,湖南省經(jīng)濟(jì)得到了長足發(fā)展,GDP快速增長,但和發(fā)達(dá)省市相比經(jīng)濟(jì)指標(biāo)仍偏低.從圖1中可以看出湖南省地區(qū)生產(chǎn)總值從1978年146.99億元增加到2013年的24501.67億元,增加了進(jìn)167倍.
隨著湖南省經(jīng)濟(jì)的快速發(fā)展,各地州市的面貌發(fā)生了很大的變化.但是,由于各地州市的經(jīng)濟(jì)發(fā)展不平衡及原有經(jīng)濟(jì)基礎(chǔ)的差異,各地區(qū)的發(fā)展水平有著明顯的區(qū)別.為了進(jìn)一步加快湖南各地州市的發(fā)展,從宏觀上指導(dǎo)湖南各地州市的發(fā)展,對(duì)其14個(gè)地州市發(fā)展水平進(jìn)行研究有著重大意義.
本文對(duì)湖南省14個(gè)地州市以2013年數(shù)據(jù)[1](湖南省統(tǒng)計(jì)局公布)為基礎(chǔ),考慮旅游總?cè)藬?shù)、高速公路里程、平均房價(jià)、機(jī)動(dòng)車擁有量(私家車、農(nóng)用車、貨車、摩托車)、年末常住人口、GDP這6個(gè)指標(biāo)進(jìn)行SAS軟件聚類分析,數(shù)據(jù)詳見表1.
2.1 聚類分析
聚類分析是一種客觀的分類方法,是根據(jù)研究對(duì)象或?qū)ο蟮闹笜?biāo)進(jìn)行分類的數(shù)據(jù)分析方法[2-6],將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性[7-9].本文采用譜系聚類進(jìn)、距離用類平均距離行分析.
類平均距離的計(jì)算為[10]:
表1 原始數(shù)據(jù)Tab.1 Initia1 data
表2 標(biāo)準(zhǔn)化后數(shù)據(jù)Tab.2 Standard data
其中i,j表示樣本xi,xj;dij表示xi與xj的距離d(xi,xj);Gp,Gq分別表示兩個(gè)類,分別含有np,nq個(gè)樣本.
遞推公式為:
2.2 結(jié)果
為了消除量綱的影響,首先對(duì)原始數(shù)據(jù)應(yīng)用以下的公式(3)進(jìn)行標(biāo)準(zhǔn)化處理:
標(biāo)準(zhǔn)化后的數(shù)據(jù)見表2,用SAS編程得到譜系圖如圖2.
從圖2中可以看出,湖南省的14個(gè)地州市大致可以分為5類,具體見表3.
表3 湖南省14個(gè)地州市分類結(jié)果Tab.3 The c1assification resu1t of the 14 regions from hunan province
圖2 譜系聚類圖Fig.2 The c1uster tree
根據(jù)聚類結(jié)果,將湖南省14個(gè)地州市分為4類,各類包含的地州市數(shù)量不盡相同,這正好說明了聚類分析的科學(xué)性.
第一類只有長沙市,該市作為湖南省的省會(huì)城市,是湖南省的政治、經(jīng)濟(jì)、文化中心,其發(fā)展水平在湖南省遙遙領(lǐng)先.
第二類包含有株洲市、湘潭市、岳陽市和常德市,這幾個(gè)地州市發(fā)展水平較強(qiáng),經(jīng)濟(jì)水平較高,但與長沙市還有著較大的差距,旅游業(yè)發(fā)展較好,生產(chǎn)總值岳陽、常德比株洲、湘潭要高,株洲、湘潭要大力發(fā)展工業(yè)及第三產(chǎn)業(yè),岳陽的第一產(chǎn)業(yè)發(fā)展較好,但也要大力發(fā)展第三產(chǎn)業(yè).這些地區(qū)經(jīng)濟(jì)基礎(chǔ)較好,要加快發(fā)展縮小與長沙之間的差距.
第三類包含有衡陽市、邵陽市、永州市和懷化市,這幾個(gè)地州市交通比較發(fā)達(dá),GDP比較高,其中邵陽、永州這連個(gè)地區(qū)旅游業(yè)有待加強(qiáng).這幾個(gè)地區(qū)人口較多,要做好基礎(chǔ)設(shè)施建設(shè),同時(shí)密切關(guān)注人民的需求,大力發(fā)展第三產(chǎn)業(yè).
第四類有郴州市、益陽市和婁底市,這幾個(gè)地州市交通相對(duì)于其他的地區(qū)欠發(fā)達(dá),GDP總量不高,旅游業(yè)除郴州外其他幾個(gè)地區(qū)有待進(jìn)一步提升,加強(qiáng)交通建設(shè),大力發(fā)展支柱產(chǎn)業(yè).
第五類有張家界和湘西州,這兩個(gè)地方處于湖南最西部,盡管近幾年建設(shè)很多高速公路,但交通運(yùn)輸業(yè)依然有待發(fā)展,尤其是湘西州.
綜上,本文用聚類分析法綜合評(píng)價(jià)湖南14個(gè)地州市的發(fā)展水平情況的結(jié)果是合理的,事實(shí)上也與湖南省的實(shí)際情況基本一致.但由于指標(biāo)選擇的原因,有些地州市的分類不是十分準(zhǔn)確.但從總體上說,大致反映了湖南省各地州市的發(fā)展水平和綜合實(shí)力.
這樣在制定湖南省發(fā)展規(guī)劃時(shí),根據(jù)各類的特點(diǎn)進(jìn)行,可以達(dá)到高效快捷,同時(shí)以類為單位,可以整合每個(gè)類中的地州市的資源,取長補(bǔ)短,形成區(qū)域優(yōu)勢,增強(qiáng)競爭力.
[1] 湖南省統(tǒng)計(jì)局.湖南統(tǒng)計(jì)年鑒[M].北京:中國統(tǒng)計(jì)出版社,2015.
[2] 朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014,31(2):10-19.
[3] 陳世敏.大數(shù)據(jù)分析與高速數(shù)據(jù)更新[J].計(jì)算機(jī)研究與發(fā)展,2015,35(1):29-36.
[4] 呂勁松,王忠.金融審計(jì)中的數(shù)據(jù)分析[J].審計(jì)研究,2014(5):26-31.
[5] 張堯庭,方開泰.多元統(tǒng)計(jì)分析引論[M].北京:科學(xué)出版社,1982.
[6] 鄭兵云.多指標(biāo)面板數(shù)據(jù)的聚類分析及其應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2008,27(2):265-271.
[7] 王政霞,黃大榮.基于統(tǒng)計(jì)方法的數(shù)據(jù)挖掘算法研究[J].湖北民族學(xué)院學(xué)報(bào)(自然科學(xué)版),2005,23(1):42-44.
[8] 王駿,王士同,鄧趙紅.聚類分析研究中的若干問題[J].控制與決策,2008,27(3):321-329.
[9] 王德青,朱建平,謝邦昌.主成分聚類分析有效性的思考[J].統(tǒng)計(jì)研究,2012,29(11):84-87.
[10] 梅長林,范金城.數(shù)據(jù)分析方法[M].北京:高等教育出版社,2006.
責(zé)任編輯:高 山
A Basic APPlication of the Cluster AnalYsis
CHEN Wangxue1,LU Chun1in1,WANG Lianwen2,QIAN Wenshu1
(1.Co11ege of Mathematics and Statistics,Jishou University,Jishou 416000,China;2.Department of Mathematics and Statistics,Centra1 China Norma1 University,Wuhan 430079,China)
As a simp1e app1ication of the c1uster ana1ysis,in this paper,the c1uster ana1ysis is used to study the deve1opment 1eve1 of the 14 regions from Hunan Province.According to the ana1ysis resu1ts,some corresponding suggestions are proposed.
deve1opment 1eve1;SAS;c1uster ana1ysis
TP182
A
1008-8423(2016)02-0170-03
10.13501/j.cnki.42-1569/n.2016.06.015
2016-05-28.
國家自然科學(xué)基金項(xiàng)目(11461027);湖南省研究生科研創(chuàng)新項(xiàng)目(CX2016B616);湖南省大學(xué)生研究性學(xué)習(xí)和創(chuàng)新性實(shí)驗(yàn)項(xiàng)目;吉首大學(xué)新開課程建設(shè)項(xiàng)目.
陳望學(xué)(1985-),男,博士,講師,主要從事抽樣設(shè)計(jì)和統(tǒng)計(jì)計(jì)算的研究.