摘 要:運用數理統(tǒng)計方法對全國29個省份的綜合發(fā)展水平進行綜合評價,建立評價指標體系,運用主成分方法對原始數據進行數學處理,得出省份綜合發(fā)展水平的綜合指標,再用聚類分析方法進行指標聚類分析,找出影響城市發(fā)展的主要因素,并對如何提高城市發(fā)展提出合理性建議。
關鍵詞:主成分分析;聚類分析;綜合發(fā)展
中圖分類號:C81 文獻標志碼:A 文章編號:1002-2589(2013)12-0062-03
引言
如今,一句“你幸福嗎?”已是全中國老百姓最常被問到的話題,然而現在人們的幸福感已經不單單是幾十年前的吃得飽、穿得暖,人們對待幸福的定義更加注重于民生,醫(yī)療、教育、經濟、環(huán)境、食品等等,已成為人們判定幸福的新標準。據統(tǒng)計,浙江杭州連續(xù)7年蟬聯“最幸福感城市”桂冠,其次是成都、長沙,相反對于中國的頂級城市上海和北京卻很少入圍,近10年中僅一次入圍“最幸福感城市”,因此一個城市發(fā)展得好壞已從從前單一的經濟時期過渡到了如今的綜合發(fā)展階段,為全面具體地了解一個省份的發(fā)展水平,現我們將從6個方面來綜合地分析全國29個省份的綜合發(fā)展情況,并根據得出的客觀結果提出可行性建議。
一、方法介紹
(一)主成分分析
主成分分析也稱主分量分析,旨在利用降維的思想,是把多指標轉化為少數幾個綜合指標的一種多元統(tǒng)計分析方法。在用統(tǒng)計分析方法研究多變量的課題時,變量個數太多會增加課題的復雜性,因此,人們自然希望用較少的綜合變量來代替。在很多情形下,變量之間是有一定的相關關系的,當兩個變量之間有一定相關關系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息[1]。
主成分分析是設法將原來眾多具有一定相關性的(比如p個)指標,重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來p個指標做線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表全體數據信息,則可逐步增加第二、第三等主成分,共同表示總體信息。
(二)聚類分析
1.聚類分析的概念
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。
聚類是將數據分類到不同的類或者簇這樣的一個過程[2],所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析的目的是把類對象按照一定的規(guī)則分成若干類,這些類不是事先給定的,而是根據數據的征確定的,對類的數目和類的結構不必做任何假定。聚類分析依賴于對觀測間的近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量度就可以產生不同的聚類結果。聚類分析的內容十分豐富,按其聚類的方法可分為:系統(tǒng)聚類法,動態(tài)聚類法,有序樣品聚類法,模糊聚類法,圖論聚類法,聚類預報法。
2.系統(tǒng)聚類法
系統(tǒng)聚類又稱譜系聚類,是一種逐次合并類的聚類分析方法,最后得到一個聚類的譜系圖,可以把系統(tǒng)聚類的過程形象地表示出來。系統(tǒng)聚類法是目前在實際應用中使用最多的一類方法。
二、實例分析
(一)指標選取
根據綜合評價的代表性原則、綜合性原則、系統(tǒng)性原則以及我國各地區(qū)經濟發(fā)展的實際,選取以下6個指標:x1為人均gdp(元)反映區(qū)域經濟平均發(fā)展水平;x2為建設總規(guī)模(億元),反映區(qū)域內設施建設能力;x3為平均工資income(元),反映職工工資水平的主要指標;x5為教育經費(萬元),反映區(qū)域文化教育資金投入;x6為城鎮(zhèn)人均醫(yī)療保健支出(元),數據匯總如下表所示:
(二)主成分分析
將上述數據整理后運用SAS軟件進行主成分分析后得到方差分解主成分提取表(如表2)。
相關系數的特征值及各主成分的方差,可以看出第一主成分的方差為55.4%,第二主成分的方差為29.8%,第三主成分的方差為8.21%,前兩個主成分的累計貢獻率為85.26%,可見前兩個主成分已經具有足夠多的方差貢獻率來概括該組數據。
根據所選主成分所代表的主軸長度之和占了所有主軸長度之和的大部分的原則我們選取了4個主成分,分別用prin1,prin2,prin3,prin,4表示。
可見第一主成分中NETINC最高gdp、income、capital系數相對較高,且系數均為正數,第二主成分中eduheal具有較高的整系數,由此可以把第一主成分看成由gdp、capital、income、netinc所刻畫的反映經濟發(fā)展水平的綜合指標;將第二主成分看成由education、healcare所刻畫的人民生活水平有關的綜合指標。
前兩個主成分的表達式為:
prin1=0.456x1+0.40166x2+0.42775x3+0.49016x4+
0.37929x5+0.25201x6
prin2=-0.36478x1+0.3218x2+0.32456x3+0.30117x4+
0.45361x5+0.60129x6
其次,計算出各成分的因子得分。
可以得出第一主成分中上海得分為5.4317,以絕對的優(yōu)勢高于其他城市,其次北京、江蘇、廣東也分別位于前列,說明這些城市的經濟綜合發(fā)展水平要高于其他城市,而相反甘肅、寧夏、青海第一主成分最低,說明這些城市的經濟發(fā)展水平明顯落后于上海、北京等城市,國家應該加大對這些城市的經濟建設,改善其經濟環(huán)境。
第二主成分中上海的主成分得分反而最少,為-2.347,說明上海市對于教育和醫(yī)療的關注度較其他方面偏低;四川對于教育和醫(yī)療的投入力度最大,其次是江蘇、山東、河南、河北;江蘇對于第一第二主成分而言,均在前列,說明江蘇省綜合全面發(fā)展水平要好于其他省份。
盡管各主成分綜合信息的能力較強,分別從經濟水平和人民生活水平分析了全國29個城市的發(fā)展情況,但是單獨使用某個主成分并不能對各省份整體綜合發(fā)展水平做出一個綜合評價,因此,我們按主成分和的方差貢獻率占個因子總方差貢獻率的比重作為權重進行加權匯總,得出各省份綜合發(fā)展水平的綜合得分。且綜合得分表示如下:
Y=0.5541prin1+0.2984prin2
(三)聚類分析
為了驗證上述指標的劃分是否合理,我們采用層次分析中的系統(tǒng)聚類方法來對29個省份的主成分因子進行聚類分析,分類表如下:
(四)分類結果分析
第一類為綜合發(fā)展水平最高的地區(qū),包括北京、上海、浙江、廣東、天津,多位于沿海地區(qū)。是我國經濟、文化中心,也是我國目前綜合實力最強的區(qū)域??萍寄芰姡萍汲晒D化成現實生產力的水平高,北京、浙江等地財政科技撥款占該地區(qū)財政總支出的比例在全國省際區(qū)域排名中名列前茅,同時,這些區(qū)域注重教育,民生政策落實比較好,因而其循環(huán)經濟發(fā)展水平在國內相對最高,即綜合發(fā)展水平最高。
第二類為統(tǒng)籌可持續(xù)發(fā)展水平較高的地區(qū),包括河北、湖北、河南、黑龍江,安徽、湖南、遼寧、山東、江蘇、四川,其中江蘇的部分地區(qū)處在“長三角”黃金地帶,“珠三角”外向型經濟發(fā)展迅速,遼寧的鐵礦石資源儲量豐富,但由于科技成果轉化能力相對較弱,加之對環(huán)保不夠重視,因而其循環(huán)經濟發(fā)展水平相對稍遜一籌。四川、湖南、安徽則更注重發(fā)展教育、文化、醫(yī)療衛(wèi)生和社會保障事業(yè),對外開放越來越積極,以上省區(qū)是我國經濟發(fā)展較快和很有潛力的地區(qū),教育水平較高,是中國人才集聚、科技發(fā)展的窗口[4]。
第三類為綜合發(fā)展水平很低的地區(qū),包括海南,貴州、云南、甘肅、青海,新疆、山西、內蒙古、江西、吉林、陜西、福建、廣西、寧