[摘要] 采用模糊聚類分析方法,利用主成分分析對(duì)聚類的特征變量降維,依據(jù)2005年和2006年的有關(guān)數(shù)據(jù),對(duì)西部12省區(qū)的經(jīng)濟(jì)發(fā)展?fàn)顩r進(jìn)行模糊分類,初步劃分具有不同經(jīng)濟(jì)發(fā)展?fàn)顩r特征的類型,這有助于對(duì)各類省區(qū)的發(fā)展?fàn)顩r做深入分析及制定相應(yīng)的發(fā)展對(duì)策。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 主成分分析 模糊聚類 西部經(jīng)濟(jì)
自從實(shí)施西部大開(kāi)發(fā)戰(zhàn)略以來(lái),西部經(jīng)濟(jì)得到了快速發(fā)展。但是,西部地區(qū)內(nèi)部各省區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r是不平衡的。因此,對(duì)西部各省區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r進(jìn)行合理分類,有針對(duì)性地促進(jìn)西部各省區(qū)經(jīng)濟(jì)發(fā)展,具有重要的現(xiàn)實(shí)意義。
但是,現(xiàn)有關(guān)于西部各省區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r的分類方法尚存在一些缺陷和不足。這主要表現(xiàn)在對(duì)西部各省區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r的分類無(wú)法用精確的度量來(lái)表示,因此,采用模糊聚類的方法對(duì)西部各省區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r進(jìn)行分類就顯得更客觀合理。
一、原始數(shù)據(jù)的預(yù)處理
1.評(píng)價(jià)指標(biāo)的選取
綜合有關(guān)文獻(xiàn)的研究,本文選取7項(xiàng)指標(biāo)以反映西部各省區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r,即地區(qū)生產(chǎn)總值(R1)、人均地區(qū)生產(chǎn)總值(R2)、固定資產(chǎn)投資(R3)、居民消費(fèi)價(jià)格指數(shù)(l4)、城鎮(zhèn)居民人均消費(fèi)性支出(R5)、人均財(cái)政收入(R6)、海關(guān)進(jìn)出口總額(R7)。根據(jù)所研究問(wèn)題的性質(zhì),在上述指標(biāo)中,指標(biāo)l4是逆指標(biāo),其他均為正指標(biāo)。對(duì)于逆指標(biāo),直接求其倒數(shù)為正指標(biāo),即R4=l/l4。對(duì)于轉(zhuǎn)換后的指標(biāo)向量,為分析方便統(tǒng)一定義為:R=(R1,R2,R3,R4,R5,R6,R7)。樣本集用X表示,樣本對(duì)象數(shù)為12省區(qū),即內(nèi)蒙古、廣西、重慶、四川、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆,分別表示為X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11、X12。
2.基于主成份分析法的數(shù)據(jù)預(yù)處理
本文根據(jù)2006年~2007年《中國(guó)統(tǒng)計(jì)年鑒》,選取了主要反映西部12個(gè)省區(qū)2005年~2006年的7個(gè)經(jīng)濟(jì)指標(biāo)的平均值數(shù)據(jù)[4-5]。即2005年~2006年西部各省區(qū)的地區(qū)生產(chǎn)總值(當(dāng)年價(jià))、人均地區(qū)生產(chǎn)總值(當(dāng)年價(jià))、固定資產(chǎn)投資、城鎮(zhèn)居民人均消費(fèi)性支出、人均財(cái)政收入、海關(guān)進(jìn)出口總額的平均值,2005年~2006年西部各省區(qū)居民消費(fèi)價(jià)格指數(shù)的幾何平均值。
首先求出數(shù)據(jù)矩陣的特征值、特征值的方差貢獻(xiàn)率和累積貢獻(xiàn)率。由于各指標(biāo)的量綱和單位不同,本文采用最小最大法對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。將數(shù)據(jù)輸入MATLAB7.0進(jìn)行主成分分析[6],由于前四個(gè)主成分的方差貢獻(xiàn)率可達(dá)96.5569%,故可選取前四個(gè)主成分作為反映經(jīng)濟(jì)發(fā)展實(shí)力的綜合指標(biāo)。設(shè)Y1、Y2、Y3、Y4分別代表第一、第二、第三、第四主成份,其線性組合為:
Y1=-0.4563*R1-0.2196* R2-0.5179* R3-0.2984* R4+ 0.2918* R5-0.2026* R6-0.5101* R7
Y2=0.2702* R1-0.5486* R2+0.1365* R3-0.6631* R4-0.4027* R5-0.0635* R6+0.0386* R7
Y3=-0.1955* R1+0.1268* R2-0.0822* R3+0.1352* R4-0.6773* R5+0.4994* R6-0.4611* R7
Y4=0.0076* R1-0.3136* R2+0.0360* R3-0.0859 * R4+0.4648* R5+0.8186* R6+0.0828* R7
二、西部各省區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r模糊聚類分析
在獲得Y1、Y2、Y3、Y4作為模糊聚類的聚類變量后,可以采用最大樹(shù)法,由模糊相似矩陣R求出最大樹(shù)T,然后將T剪枝產(chǎn)生連通子樹(shù),最后完成聚類。
1.建立模糊相似矩陣R
以絕對(duì)值減數(shù)法建立相似關(guān)系矩陣,方法易懂且明確,其公式如下:
式中,為第i行第k列的屬性值,為第j行第k列的屬性值,其中c為適當(dāng)選取數(shù),使。本文令屬性個(gè)數(shù) ,計(jì)算得到的R矩陣如表所示。
表 模糊相似矩陣R
2.求最大樹(shù)T
最大樹(shù)T可利用Prim算法得出,T中各頂點(diǎn)遍歷所有樣本對(duì)象,每一條邊被賦以某一權(quán)值,取值為R中的元素rij,如圖1所示。
3.將T剪枝產(chǎn)生連通子樹(shù)
設(shè)定一個(gè)合適的λ值,λ∈[0,1],設(shè)T中某邊e的權(quán)值為T(e),若T(e)<λ,則將邊e去掉,如此這樣就將T截成互不連通的幾棵子樹(shù),這些子樹(shù)就是基于λ的分類。
取λ=0.78,由連通子樹(shù)可得X分為兩類(簇):{X1,X2, X4, X5, X6, X7, X8, X9, X10, X11, X12},{X3}。
取λ=0.82,由連通子樹(shù)可得X分為三類(簇):{X2, X4, X5, X6, X7, X8, X9, X10, X11 , X12},{ X1},{ X3}。
取λ=0.83,由連通子樹(shù)可得X分為五類(簇):{X2, X5, X6, X7, X8, X9, X10, X11},{ X1},{ X3},{X4},{X12}。
其他同理可求。當(dāng)取λ=0.83時(shí)連通子樹(shù)如圖2所示。
圖1 最大樹(shù)T圖2 連通子樹(shù)
三、結(jié)語(yǔ)
利用結(jié)合主成分分析的模糊聚類技術(shù)實(shí)現(xiàn)了西部各省區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r的分類,獲得具有不同的經(jīng)濟(jì)發(fā)展?fàn)顩r特征的西部各省區(qū)類型,這有助于對(duì)西部各類省區(qū)的經(jīng)濟(jì)狀況做進(jìn)一步分析,并根據(jù)不同的具體情況制定針對(duì)性的發(fā)展政策,提供有效的激勵(lì)或扶持措施,更合理地開(kāi)發(fā)西部,為西部實(shí)現(xiàn)經(jīng)濟(jì)騰飛創(chuàng)造條件,并最終達(dá)到西部大發(fā)展的目的。
參考文獻(xiàn):
[1]溫家寶:開(kāi)拓創(chuàng)新,扎實(shí)工作,不斷開(kāi)創(chuàng)西部大開(kāi)發(fā)的新局面 [N].人民日?qǐng)?bào),2005~02~05(2)
[2]蔣志華顧振海:西部12省經(jīng)濟(jì)發(fā)展?fàn)顩r對(duì)比研究——基于聚類因子分析法的實(shí)證分析[J].經(jīng)濟(jì)體制改革,2006,(12):138~141