何芳麗(桂林電子科技大學,廣西 桂林 541004)
城市化是經(jīng)濟發(fā)展及社會進步的必然趨勢,城市化發(fā)展水平是一個國家或地區(qū)經(jīng)濟發(fā)展水平和人們物質(zhì)文化生活水平的綜合體現(xiàn)。作為社會進步的重要標志之一的城市化,正成為中國區(qū)域經(jīng)濟不斷增長的動力和源泉。然而,不同城市的經(jīng)濟基礎(chǔ)、人口狀況、自然資源及政府規(guī)劃等許多方面是存在差異的,所以其城市化的發(fā)展水平是不同的,從而正確地評價我國城市現(xiàn)有的發(fā)展水平,并從中找出導致城市化水平差異的原因,是有利于我國經(jīng)濟的進一步快速增長,也能為國家制定相關(guān)宏觀政策提供依據(jù)。
針對城市化發(fā)展問題,國內(nèi)很多學者做了相關(guān)的研究,主要是先建立城市化發(fā)展水平的評價指標體系,然后利用橫截面數(shù)據(jù)做相應(yīng)的實證分析。例如,吳永保(2001) 構(gòu)建了城市現(xiàn)代化的指標體系,并將該指標體系用來對幾個城市的對比分析[1];程如軒,李澄清(2005) 構(gòu)建了我國城市化水平的評價指標體系,并利用聚類分析、因子分析等統(tǒng)計方法對城市的現(xiàn)代化發(fā)展水平進行研究,為城市化的發(fā)展提供建議和依據(jù)[2],等等.另外,張馨文,劉長凱(2007)也建立了評價城市化發(fā)展水平的指標體系,并利用面板數(shù)據(jù),結(jié)合模糊數(shù)學的聚類分析方法對城市化發(fā)展水平進行定量分析[3]。但是在張馨文的文章中,直接利用加權(quán)處理的方式將面板數(shù)據(jù)轉(zhuǎn)成橫截面數(shù)據(jù),這樣抹殺了指標的發(fā)展速度及其動態(tài)趨勢。
綜上所述,就城市化發(fā)展問題方面,學者們要么就是用橫截面數(shù)據(jù)做分析,要么就是直接利用加權(quán)處理的方式將面板數(shù)據(jù)轉(zhuǎn)成橫截面數(shù)據(jù)再做分析,其分析結(jié)果抹殺了指標的發(fā)展速度及其動態(tài)趨勢。為此,本文在已有研究成果的基礎(chǔ)上構(gòu)建了我國城市化發(fā)展水平的評價指標體系,然后再運用面板數(shù)據(jù)聚類方法,找到了一種能體現(xiàn)指標的水平值、發(fā)展速度及其動態(tài)趨勢的面板數(shù)據(jù)聚類方法,并將其用于實證分析。
1.指標體系
我國城市化發(fā)展水平的評價指標體系可以從5個方面去考慮:經(jīng)濟城市化水平、人口城市化水平、生活方式的城市化水平、環(huán)境狀態(tài)城市化水平以及醫(yī)療普及的城市化水平[2]。
綜合前人的指標體系,本文選取的評價體系見表1。
表1 指標體系
注:除人口自然增長率外,其他指標都是正向指標.
2.面板數(shù)據(jù)的特征
面板數(shù)據(jù)(Panel Data)是橫截面數(shù)據(jù)和時間序列數(shù)據(jù)的組合,從橫截面上看,是由N個個體在某一個時刻的m個指標上構(gòu)成的截面觀測值,從縱剖面上看則是一個時間序列。面板數(shù)據(jù)可以用三個下標變量表示,如xijt,i=1,2,…,N,j=1,2,…,m,t=1,2,…,T(T為時間序列的長度)。
經(jīng)典的聚類分析(橫截面數(shù)據(jù)的聚類分析)的方法很多,有系統(tǒng)聚類、動態(tài)聚類和有序聚類等,其中系統(tǒng)聚類法是最常見的聚類分析法。而且目前的很多統(tǒng)計軟件都可以進行經(jīng)典的聚類分析,如:SPSS、SAS、MINTAB、R等 ,但是對于面板數(shù)據(jù)來說卻沒有這么方便,目前沒有相應(yīng)的分析軟件可供使用,所以面板數(shù)據(jù)在聚類分析方面的研究是很少的.當然,我們可以做些處理,如鄭兵云(2008)通過對不同時間的加權(quán),可以將面板數(shù)據(jù)轉(zhuǎn)換成橫截面數(shù)據(jù),然后利用經(jīng)典的方法去做分析,但這樣的處理只能表現(xiàn)指標平均變動情況,卻不能反映發(fā)展速度和動態(tài)趨勢。也可以設(shè)計一些能反映水平值、發(fā)展速度和動態(tài)趨勢的相似性指標的距離距離測度公式,然后利用Ward方法的分類思想,進行編程分析,如李因果,何曉群(2010),但這樣做的話編程麻煩,而且全時“綜合”距離中的權(quán)重比較難確定。
為了說明本文的聚類方法,我們引用李因果,何曉群(2010)的距離測度公式。
1.相似性指標的距離距離測度定義
定義1:個體i和個體j之間的全時“絕對量”距離(Absolute Quantity Euclidean Distance),簡記:dij(AQED)。
(1)
dij(AQED)刻畫了個體和個體之間在整個時期T內(nèi)的距離遠近程度。
定義2:個體i和個體j之間的全時“增長速度”距離(Increment Speed Euclidean Distance),簡記:dij(ISED)。
(2)
其中,Δxikt=xikt-xikt-1,Δxjit-xjkt-xjkt-1,Δxikt和Δjkt表示指標兩個相鄰時期的絕對量差異。dij(ISED)刻畫了指標增量隨著時間變化的趨勢差異,若兩個指標隨著時間都呈同方向變化,這種變化越協(xié)調(diào),則兩者越相似,距離也較小;若兩者反向變化,則距離一般較大,兩者相似性也差。
定義3:個體i和個體j之間的全時“變異”距離(Variance Coefficient Euclidean Distance),簡記:dij(VCED)。
(3)
2.聚類方法
從前面的三個定義可以看出,分別反映水平值、發(fā)展速度和波動程度的三個距離已經(jīng)消除了時間維度,而且三個距離都是歐氏距離,所以稍稍再處理下就可以用經(jīng)典聚類分析法了。具體處理方法是這樣的,先選個個體作為參考個體(實際上相當于一個原點),不妨設(shè)為第j0個體,然后計算第i個個體與第j0個體的三個距離,i=1,2,…,N,即分別得到了N個個體相對于第j0個體的三個距離,并將它們稱為三個“相對”距離;最后為了消除量綱的影響,把三個“相對”距離標準化,利用標準化的三個“相對”距離做經(jīng)典的聚類分析。同時,還可以結(jié)合SAS軟件中的統(tǒng)計量SPRSQ(半偏R平方)、ccc、psf(偽F)和pst2的值來確定分類的個數(shù),其具體的判斷方法是:SPRSQ表示每一次合并對信息的損失程度,它的值突然變大時,所對應(yīng)的前一類的分類較合適;ccc和psf出現(xiàn)峰值時所對應(yīng)的分類較合適; pst2出現(xiàn)峰值的前一類所對應(yīng)的分類較合適。
為了更好地評價我國城市化現(xiàn)有的發(fā)展情況,本文按照前面的指標體系,收集了2005~2009年中國30個省會城市(拉薩市的數(shù)據(jù)不全而被排除)的統(tǒng)計數(shù)據(jù),并利用前面提出的面板數(shù)據(jù)聚類方法,對中國30個省會城市進行聚類分析。數(shù)據(jù)來源于《中國城市統(tǒng)計年鑒》及各個省會城市的統(tǒng)計年鑒。
1.數(shù)據(jù)的預處理
2.數(shù)據(jù)的預分析
為了能夠找到一個合適的參考個體,也為了后面能更準確的找出導致城市化水平差異的原因,本文先按照不同的年份,對城市化發(fā)展水平指標體系中的10個指標做了因子分析,并以因子的貢獻率為權(quán)數(shù),求出每個個體(即每個省會城市)的綜合得分,得到的排名情況見表2。
表2 五年的綜合排名
從表2可看出,五年中城市化發(fā)展水平綜合排名靠前的有廣州、北京、上海、長沙、杭州、福州、呼和浩特;排名靠后的有天津、哈爾濱、南昌、南寧、??凇①F陽、西安、蘭州;排名最差的就是重慶,而且重慶的排名情況沒有變動。
3.30個省會城市的聚類分析
由前面的預分析發(fā)現(xiàn),重慶的排名是最差的,而且它的排名情況在四年中都沒有變動,所以我們將重慶作為參考個體,然后得到每個個體的三個“相對”距離及其相應(yīng)的標準化距離,見表3。
表3 “相對”距離
其中,da 、di 和dv分別表示“絕對量”距離、“增長速度”距離和“變異”距離,zda 、zdi 和zdv分別為da 、di 和dv的標準化值。
利用SAS軟件編程,按照zda 、zdi 和zdv三個指標對我國30個省會城市進行系統(tǒng)聚類。
分析得到的聚類過程圖和聚類結(jié)果的樹狀圖分別為圖1和圖2所示。
圖2 聚類結(jié)果的樹狀圖
從圖1中的統(tǒng)計量值,確定分類的個數(shù):
由SPRSQ這列值知:從4類合并成3類時,信息損失突然變大,為0.4159,此時表明聚成4類較合適;由于PSF在當NCL=12,8,3時三次出現(xiàn)峰值,但NCL=3時峰值更陡,此時表明聚成3類較合適; 由于CCC在當NCL=3時出現(xiàn)唯一峰值,表明聚成3類較合適; 由于PST2在NCL=6,2時多處出現(xiàn)峰值,表明聚成7,3等類較合適。綜合前面的分析得到: 聚成3類較合適
從圖2,可以得到具體的分類情況為:
第一類:北京,上海,長沙,廣州;第二類:石家莊;其余各城市為一類。
4.各類城市化發(fā)展水平的特點
相對來講,各類城市化發(fā)展水平具有如下特點:
第一類城市:北京,上海,長沙,廣州,該類城市化水平很高、增長速度較慢、波動大。
第二類城市:石家莊,該城市單獨作為一類,城市化增長速度非???。石家莊在5年的時間中,其城市化水平由偏低水平飛躍到偏高水平。
其余各城市聚為一類,除呼和浩特、沈陽、杭州、福州和南京的城市化發(fā)展水平比較高外,其他20個城市化的發(fā)展水平是中等偏下。另外,該類城市化的增長速度較慢、波動較小。
面板數(shù)據(jù)比單純的橫截面數(shù)據(jù)和時間序列數(shù)據(jù)擁有更多的信息,因而如果分析方法合適的話,其分析結(jié)果也會更加準確。本文利用面板數(shù)據(jù)對我國省會城市進行了聚類分析,不僅將30個省會城市進行了分類,而且還得到了每類的城市化發(fā)展的水平情況、發(fā)展速度情況以及波動情況,結(jié)果表明石家莊城市化增長速度非常快,其發(fā)展模式對其他城市具有借鑒意義;北京、上海、長沙、廣州城市化增長速度較慢,但由于其城市化基礎(chǔ)比較好,所以該類城市的城市化水平還是位于全國前列;在其他的城市中,大部分是處于中下水平且增長速度較慢,國家可對這類城市給予重視,并實施相應(yīng)的政策以提高這類城市的城市化發(fā)展水平和速度。
[1]吳永保.城市現(xiàn)代化及其指標體系的構(gòu)建與應(yīng)用[J].城市發(fā)展研究,2001,(1):9-14.
[2]程如軒,李澄清.我國城市化水平的評價及預期分析[J].經(jīng)濟問題探索,2005,(1):15-18.
[3]張馨文,劉長凱.城市化水平的模糊聚類分析[J].寶雞文理學院學報(自然科學版),2007,(3):190-193.
[4]朱建平,陳民懇.面板數(shù)據(jù)的聚類分析及其應(yīng)用[J].統(tǒng)計研究,2007,(4):11-14.
[5]鄭兵云.多指標面板數(shù)據(jù)的聚類分析及其應(yīng)用[J].數(shù)理統(tǒng)計與管理,2008,(2):265-270.
[6]李因果,何曉群.面板數(shù)據(jù)聚類方法及應(yīng)用[J].統(tǒng)計研究,2010,(9):73-79.