李 賢,徐常青,王明月,吳 田
(蘇州科技大學(xué) 數(shù)理學(xué)院,江蘇 蘇州 215009)
基于加權(quán)主成分聚類分析探究地方經(jīng)濟(jì)發(fā)展?jié)摿?/p>
李 賢,徐常青*,王明月,吳 田
(蘇州科技大學(xué) 數(shù)理學(xué)院,江蘇 蘇州 215009)
應(yīng)用加權(quán)主成分聚類分析法探究江蘇省13個(gè)地級(jí)市2014年第三產(chǎn)業(yè)發(fā)展?jié)摿ΑO葘?duì)樣本點(diǎn)數(shù)據(jù)進(jìn)行主成分分析,以消除指標(biāo)過(guò)多造成的共線性問(wèn)題;再通過(guò)對(duì)主成分進(jìn)行加權(quán);最后進(jìn)行聚類分析,實(shí)現(xiàn)樣本點(diǎn)的分類與分析。與傳統(tǒng)的聚類分析相比,此方法既不會(huì)改變分類結(jié)果,又減少聚類過(guò)程中的計(jì)算量。
主成分分析;加權(quán)主成分分析;聚類分析;最短距離法
在中國(guó)經(jīng)濟(jì)發(fā)展的高速快車(chē)道上,第二產(chǎn)業(yè)發(fā)展始終起引領(lǐng)作用。但隨著第三產(chǎn)業(yè)的興起,第二產(chǎn)業(yè)逐漸被第三產(chǎn)業(yè)趕超。據(jù)統(tǒng)計(jì),我國(guó)第二產(chǎn)業(yè)在1990年總值占全年GDP總量約40%,1990-2010年期間該比例始終保持在45%上下;而第三產(chǎn)業(yè)所占比重則從1990年的30%逐年上漲,到2013年達(dá)46.1%,比第二產(chǎn)業(yè)比重43.9%高2.2%,這是第三產(chǎn)業(yè)比重首次超過(guò)第二產(chǎn)業(yè),而到2014年比重更是達(dá)到了48.2%,所占比重進(jìn)一步提高。這表明,盡管第二產(chǎn)業(yè)仍然是經(jīng)濟(jì)增長(zhǎng)的主導(dǎo)產(chǎn)業(yè),其霸主地位已出現(xiàn)被撼動(dòng)的跡象。這種現(xiàn)象與目前發(fā)達(dá)國(guó)家的發(fā)展?fàn)顩r完全一致。第三產(chǎn)業(yè)對(duì)經(jīng)濟(jì)發(fā)展影響較大的行業(yè)主要集中在批發(fā)零售業(yè)、房地產(chǎn)業(yè)和金融服務(wù)業(yè)等。經(jīng)濟(jì)的增長(zhǎng)在得益于第二產(chǎn)業(yè)的強(qiáng)勁拉動(dòng)的同時(shí),第三產(chǎn)業(yè)對(duì)全國(guó)經(jīng)濟(jì)發(fā)展的作用也基本與第二產(chǎn)業(yè)相當(dāng)。但與世界發(fā)達(dá)國(guó)家的產(chǎn)業(yè)結(jié)構(gòu)相比,還是有較大的不同。與我國(guó)第三產(chǎn)業(yè)占比45%相比,發(fā)達(dá)國(guó)家第三產(chǎn)業(yè)占比達(dá)70%以上。
江蘇省位于我國(guó)東部沿海長(zhǎng)三角地區(qū),經(jīng)濟(jì)發(fā)展位于我國(guó)前列,其第二產(chǎn)業(yè)的強(qiáng)勁帶動(dòng)了第三產(chǎn)業(yè)的發(fā)展。據(jù)2014年《江蘇統(tǒng)計(jì)年鑒》,江蘇省2014年地區(qū)GDP為65 088.3億元,比上年增長(zhǎng)8.7%,其中第三產(chǎn)業(yè)增加值30 396.5億元,增長(zhǎng)9.3%,占GDP比重46.7%,比上年提高1.2%;全省規(guī)模以上第三產(chǎn)業(yè)單位實(shí)現(xiàn)營(yíng)業(yè)收入9 860億元,比上年增長(zhǎng)12%,增速比上年提高1.1%;營(yíng)業(yè)利潤(rùn)1 091.5億元,增長(zhǎng)8.4%。
主成分分析是特征提取和數(shù)據(jù)降維的主要方法之一。主成分分析法可用于多元統(tǒng)計(jì)分析模型中的因子分析[1],它在經(jīng)濟(jì)預(yù)測(cè)[2-3]、區(qū)域經(jīng)濟(jì)分析[4]、經(jīng)濟(jì)指標(biāo)綜合評(píng)價(jià)[5-7]等方面有廣泛應(yīng)用。找出第三產(chǎn)業(yè)發(fā)展的一些主要因素,同時(shí)也可以對(duì)不同地區(qū)的經(jīng)濟(jì)發(fā)展?fàn)顩r進(jìn)行比對(duì)剖析[5]。
筆者首先利用主成分分析法對(duì)江蘇省13個(gè)地級(jí)市第三產(chǎn)業(yè)14個(gè)領(lǐng)域2013、2014年度經(jīng)濟(jì)增長(zhǎng)數(shù)據(jù)進(jìn)行分析,找出第三產(chǎn)業(yè)發(fā)展對(duì)該14個(gè)領(lǐng)域的依賴程度,通過(guò)加權(quán)主成分分析和系統(tǒng)聚類給出13個(gè)地市的第三產(chǎn)業(yè)發(fā)展相似度分布和差距。
為探究江蘇各地級(jí)市第三產(chǎn)業(yè)發(fā)展?jié)摿?,收集了江蘇省13個(gè)地級(jí)市2013、2014年度第三產(chǎn)業(yè)中14個(gè)重點(diǎn)行業(yè)的數(shù)據(jù),通過(guò)計(jì)算得出2014年度各行業(yè)增長(zhǎng)比。記第三產(chǎn)業(yè)中的14個(gè)主要行業(yè)依次為X1,X2,…,X14(見(jiàn)表1)。表1反映2013、2014年江蘇省第三產(chǎn)業(yè)14個(gè)行業(yè)生產(chǎn)總值與增長(zhǎng)比情況。表2反映13個(gè)地市第三產(chǎn)業(yè)各行業(yè)增長(zhǎng)比情況。
表1 第三產(chǎn)業(yè)中分行業(yè)生產(chǎn)總值(單位:億元)及增長(zhǎng)比
表2 區(qū)域第三產(chǎn)業(yè)各行業(yè)增長(zhǎng)比/%
由于受地理環(huán)境、政策和已有經(jīng)濟(jì)發(fā)展水平等因素影響,省內(nèi)不同地區(qū)第三產(chǎn)業(yè)發(fā)展存在較大差異,主要體現(xiàn)在第三產(chǎn)業(yè)基礎(chǔ)總量和發(fā)展速度方面[8-10]。
多元統(tǒng)計(jì)分析可用于處理多指標(biāo)問(wèn)題。一般情況下,這些指標(biāo)間存在一定相關(guān)性。主成分分析法用少量指標(biāo)代替較多的相關(guān)性指標(biāo),避免了指標(biāo)的重疊性。傳統(tǒng)的主成分分析方法[1]首先將原始數(shù)據(jù)標(biāo)準(zhǔn)化,以消除量綱影響,并生成數(shù)據(jù)矩陣
其中X的每行對(duì)應(yīng)一個(gè)樣本點(diǎn)(n為樣本點(diǎn)個(gè)數(shù)),列向量Xj對(duì)應(yīng)第j個(gè)指標(biāo)(p為指標(biāo)個(gè)數(shù))。文中每個(gè)城市的數(shù)據(jù)為一個(gè)樣本點(diǎn),每個(gè)行業(yè)為一個(gè)指標(biāo),因此,有 n=13,p=14。令 Xi*=σ(Xi)-1[Xi-E(Xi)],i=1,…,p。 E(Xi)為第i個(gè)指標(biāo)的均值,這里為第i個(gè)指標(biāo)的平均狀況。為第i個(gè)指標(biāo)標(biāo)準(zhǔn)偏差,反映第i個(gè)指標(biāo)發(fā)展均衡狀況。記X*=(X1*,…,Xp*)∈Rn×p。稱矩陣
為指標(biāo)相關(guān)矩陣,R為對(duì)稱半正定,其p個(gè)特征根λ1,λ2,…,λp非負(fù)。對(duì)特征值排序
公式(3)反映了p個(gè)指標(biāo)的重要性情況。若λi1=max{λj:1,2,…,p},那么發(fā)展最快的為第i1個(gè)行業(yè)。給定足夠小ε>0,若有正整數(shù)k:1<k≤p,使λik<ε,那么認(rèn)為指標(biāo)ik,ik+1,…,ip在第三產(chǎn)業(yè)總體發(fā)展中可忽略不計(jì)。
以上衡量指標(biāo)重要性方法簡(jiǎn)單,但不夠合理,在ε選取方面也缺乏好的策略。一種更加科學(xué)且常用的方法是通過(guò)累積方差貢獻(xiàn)率來(lái)確定主成分個(gè)數(shù),即重要指標(biāo)數(shù)k。定義為第i個(gè)成分貢獻(xiàn)率,ψk=為主成分Y1,…,Yk的累積貢獻(xiàn)率。
經(jīng)主成分分析處理后得到的主成分因子一般不具有相關(guān)性,但由于主成分為原因子的線性組合,一般不具備可解釋性。加權(quán)主成分分析對(duì)主成分分析后的數(shù)據(jù)再次降維得一維數(shù)據(jù)(單指標(biāo)數(shù)據(jù))[9]。這種降維得到的加權(quán)數(shù)據(jù)并沒(méi)有實(shí)際意義,只是主成分的一種線性組合,目的是再次優(yōu)化數(shù)據(jù)處理過(guò)程,為系統(tǒng)聚類帶來(lái)方便。令是主成分。這樣,多指標(biāo)的樣本數(shù)據(jù)已“簡(jiǎn)化”為單指標(biāo)的一維數(shù)據(jù),根據(jù)大小對(duì)樣本點(diǎn)進(jìn)行排序,Z(1),…,Z(n)。
加權(quán)主成分聚類。假設(shè)樣本點(diǎn)集合為π={X1,…,Xn}。令Gj(1)={Xj},j=1,2,…,n。記第k步產(chǎn)生Nk個(gè)類,且分別為Gj(k),j=1,…,Nk。定義類間距為,其中dij=||Xi-Xj||為Xi,Xj間距離。若有1≤p<q≤Nk,d(Gi(k),Gj(k)),則令Gp(k+1)=Gp(k)∪Gq(k)。第k+1步類數(shù)Nk+1=Nk-1。即除了合并的兩類Gp(k)和Gq(k)生成一類外,其余類不發(fā)生變化。重復(fù)該過(guò)程,直至所有類合為一類,聚類結(jié)束。畫(huà)出譜系聚類圖并進(jìn)行分類分析。
上述過(guò)程中,由于一維數(shù)據(jù)可排序,在用最短距離法時(shí),無(wú)需計(jì)算類間所有樣本點(diǎn)對(duì)的距離,只需計(jì)算類間相鄰樣本點(diǎn)距離,不僅降低了多維數(shù)據(jù)的計(jì)算量,同時(shí)簡(jiǎn)化了處理過(guò)程。
對(duì)式(2)定義的實(shí)對(duì)稱陣R,由MATLAB指令eig(R)計(jì)算其特征值,按式(3)排列,依次為:56.694 4,31.468 8,21.863 3,16.221 8,11.993 7,11.723 7,8.225 7,5.577 2,2.544 7,0.887 3,0.536 0,0.263 5,0,0。
按累計(jì)貢獻(xiàn)率 θ=0.85計(jì)算,得主成分主成分個(gè)數(shù) m=7,貢獻(xiàn)率依次為:φ1=33.75%、φ2=18.73%、φ3=13.01%、φ4=9.66%、φ5=6.98%、φ6=6.98%、φ7=4.90%累積貢獻(xiàn)率ψ7=94.01%,故已包含原數(shù)據(jù)大部分信息,7個(gè)主成分相應(yīng)特征向量為
T1=[-0.181 0 0.034 3 0.015 2 0.027 0-0.005 1-0.241 6 0.334 3-0.168 8 0.171 7-0.415 9 0.359 8 -0.431 6-0.429 4 0.252 6]
T2=[0.195 3 0.308 4 0.326 6 0.416 2 0.341 7 0.347 0 0.196 8 0.289 9 0.251 7 -0.0984 -0.074 1 0.021 2 0.142 6 0.357 2]
T3=[-0.256 1 0.168 2 0.491 6 -0.350 3 0.1561 -0.261 5 0.240 9 0.062 7 -0.528 9 0.057 2 0.037 5 0.211 6 0.104 2 0.216 7]
T4=[0.5361 -0.5224 0.1701 -0.059 5 0.397 6 -0.1093 0.240 0 -0.3051 -0.0713 -0.212 1 -0.160 4-0.012 6 0.071 5-0.139 2]
T5=[0.059 0-0.500 5 0.031 7 -0.3321 -0.1363 -0.001 8 0.058 2 0.596 8 0.289 0 0.019 7 0.334 0 0.105 6 0.112 6 0.193 3]
T6=[0.398 0-0.096 5 0.323 2 0.212 2-0.628 0 0.005 7-0.197 4-0.150 7-0.239 0 0.087 7 0.043 9 -0.089 2-0.069 3 0.383 7]
T7=[0.068 3 0.019 4-0.333 5 0.171 7-0.173 9-0.442 8 0.195 8 0.421 4-0.168 4 -0.252 1-0.550 4 -0.036 5 0.033 4 0.121 4]
得第一主成分
Y1=-0.181 0X1+0.034 3X2+0.015 2X3+0.027 0X4-0.005 1X5-0.241 6X6+0.334 3X7-0.168 8X8+0.171 7X9-0.415 9X10+0.359 8X11-0.431 6X12-0.429 4X13+0.252 6X14
第二主成分
Y2=0.195 3X1+0.308 4X2+0.326 6X3+0.416 2X4+0.341 7X5+0.347 0X6+0.196 8X7+0.289 9X8+0.251 7X9-0.098 4X10-0.074 1X11+0.021 2X12+0.142 6X13+0.357 2X14
第三主成分
Y3=-0.256 1X1+0.168 2X2+0.491 6X3-0.350 3X4+0.156 1X5-0.261 5X6+0.240 9X7+0.062 7X8-0.528 9X9+ 0.057 2X10+0.037 5X11+0.211 6X12+0.104 2X13+0.216 7X14
第四主成分
Y4=0.536 2X1-0.522 4X2+0.170 1X3-0.059 5X4+0.397 6X5-0.109 3X6+0.240 0X7-0.305 1X8-0.071 3X9-0.212 1X10-0.160 4X11-0.012 6X12+0.071 5X13-0.139 2X14
第五主成分
Y5=0.059 0X1-0.500 5X2+0.031 7X3-0.332 1X4-0.136 3X5-0.001 8X6+0.058 2X7+0.596 8X8+0.289 0X9+ 0.019 7X10+0.334 0X11+0.105 6X12+0.112 6X13+0.193 3X14
第六主成分
Y6=0.398 0X1-0.096 5X2+0.323 2X3+0.212 2X4-0.628 0X5+0.005 7X6-0.197 4X7-0.150 7X8-0.239 0X9+ 0.087 7X10+0.043 9X11-0.089 2X12-0.069 3X13+0.383 7X14
第七主成分
Y7=0.068 3X1+0.019 4X2-0.333 5X3+0.171 7X4-0.173 9X5-0.442 8X6+0.195 8X7+0.421 4X8-0.168 4X9-0.252 1X10-0.550 4X11-0.036 5X12+0.033 4X13+0.121 4X14
由加權(quán)主成分知:Z=0.337 5Y1+0.187 3Y2+0.130 1Y3+0.096 6Y4+0.069 8Y5+0.069 8Y6+0.049 0Y7。經(jīng)MATLAB計(jì)算,得各市加權(quán)主成分值 Z1-Z14依次為:0.532 8,-0.956 6,1.235 3,-0.252 7,-0.198 5,-2.097 2,0.094 7,-0.123 8,0.180 4,0.551 0,-0.078 6,0.503 5,0.609 7。
將Zi從大到小排列,根據(jù)系統(tǒng)聚類法,對(duì)地級(jí)市進(jìn)行排序,得譜系聚類圖(見(jiàn)圖1)。
圖1 譜系聚類圖
筆者基于加權(quán)主成分聚類分析對(duì)江蘇省13個(gè)地級(jí)市的第三產(chǎn)業(yè)進(jìn)行了聚類分析,這種聚類法既有分類作用,又有排序作用。所以從圖1中可以看出,如果根據(jù)第三產(chǎn)業(yè)的發(fā)展情況把13個(gè)地級(jí)市分為四類,則徐州是第一類,增長(zhǎng)速度較快;宿遷、揚(yáng)州、南京、泰州、鹽城、連云港、鎮(zhèn)江、淮安、蘇州和常州可以歸為第二類,增長(zhǎng)速度第二;無(wú)錫是第三類,增長(zhǎng)速度第三;南通是第四類,增長(zhǎng)速度第四。文中僅僅只是對(duì)江蘇13個(gè)地級(jí)市的第三產(chǎn)業(yè)在2014年的增長(zhǎng)情況作了聚類分析,并沒(méi)有考慮第三產(chǎn)業(yè)發(fā)展的動(dòng)力,所以還有待進(jìn)一步的研究。
[1]高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2005:265-276.
[2]王淑芝,紀(jì)躍芝.經(jīng)濟(jì)預(yù)測(cè)方法及應(yīng)用[J].現(xiàn)代情報(bào),2004,12:184-185.
[3]王德青,朱建平,謝邦昌.主成分聚類分析有效性的思考[J].統(tǒng)計(jì)研究,2012,11:84-87.
[4]李雪梅,張素琴.主成分分析在區(qū)域經(jīng)濟(jì)分析中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(19):204-206.
[5]吳殿廷,吳迪.用主成分分析法作多指標(biāo)綜合評(píng)價(jià)應(yīng)該注意的問(wèn)題[J].數(shù)學(xué)的實(shí)踐與識(shí),2015(20):143-150.
[6]黃炎磊.主成分聚類分析在區(qū)域經(jīng)濟(jì)評(píng)價(jià)中的應(yīng)用——以廣東省城鎮(zhèn)居民可支配收入為例[J].福建電腦,2009,25(9):108-109.
[7]魏煒,隋祎.聚類分析法在區(qū)域經(jīng)濟(jì)劃分中的應(yīng)用——以江蘇省作實(shí)證研究[J].市場(chǎng)周刊(理論研究),2008(10):46-47.
[8]劉旭霞.基于主成分分析法的江蘇經(jīng)濟(jì)發(fā)展研究[J].陜西農(nóng)業(yè)科學(xué),2011,57(2):174-176.
[9]王宏建,易柱新.主成分方法用于聚類分析[J].經(jīng)濟(jì)數(shù)學(xué),1996,13(1):93-96.
[10]姚澤清,趙世玲.江蘇省13城市國(guó)民經(jīng)濟(jì)主要指標(biāo)聚類分析[J].解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,4(3):91-94.
Exploration of local economic potential based on weighted principal component cluster analysis
LI Xian,XU Changqing*,Wang Mingyue,WU Tian
(School of Mathematics and Physics,SUST,Suzhou 215009,China)
In this paper we applied the weighted principal component cluster analysis method to explore the third industry development potential of thirteen cities in Jiangsu Province in 2014.Firstly,we made the principal component analysis of the sample points to eliminate colinearity caused by too many indexes.Then we weighted the principal components.Finally,we did the cluster analysis of the sample points.Compared with the traditional cluster analysis,this method does not change the classification effect but reduces the amount of calculation in the process of clustering.
principal component analysis;weighted principal component analysis;cluster analysis;the shortest distance method
責(zé)任編輯:謝金春
O212MR(2010)Subject Classification:62H25;62H30
A
:2096-3289(2017)02-0028-05
2016-03-14
國(guó)家自然科學(xué)基金資助項(xiàng)目(11171373);蘇州科技大學(xué)研究生科研創(chuàng)新資助項(xiàng)目(SKYCX16_002)
李 賢(1990-),男,安徽亳州人,碩士研究生,研究方向:應(yīng)用統(tǒng)計(jì)。
*通信作者:徐常青(1966-),男,博士,教授,碩士生導(dǎo)師,E-mail:cqxurichard@mail.usts.edu.cn。