韋艷玲
(柳州職業(yè)技術(shù)學(xué)院,廣西 柳州 545006)
20世紀(jì)90年代以來,涉及各層級的中國區(qū)域經(jīng)濟(jì)發(fā)展差異問題一直是研究熱點(diǎn),其中常見的傳統(tǒng)數(shù)量研究方法包括變差系數(shù)(加權(quán)變差系數(shù))、錫爾系數(shù)、基尼系數(shù)、量圖分析、標(biāo)準(zhǔn)差、熵指數(shù)等.[1-6]國內(nèi)運(yùn)用數(shù)據(jù)挖掘技術(shù)測度區(qū)域經(jīng)濟(jì)發(fā)展差異方面的研究剛剛起步,用數(shù)據(jù)挖掘技術(shù)來分析經(jīng)濟(jì)發(fā)展差異一般采用聚類方法.聚類方法很多,常用的研究分析方法包括K-均值聚類法、模糊聚類、層次聚類、神經(jīng)網(wǎng)絡(luò)等.[7-11]準(zhǔn)確度較高的有FCM、K-means,層次聚類準(zhǔn)確度最差,神經(jīng)網(wǎng)絡(luò)算法則耗時(shí)最長;[12]而一般聚類是硬劃分,不合適解決多因素、界限模糊的分類問題.有學(xué)者用神經(jīng)網(wǎng)絡(luò)進(jìn)行經(jīng)濟(jì)發(fā)展?fàn)顩r分類,但沒有考慮到樣本各變量的相互影響,而且沒有進(jìn)一步優(yōu)化參數(shù),這會使預(yù)測精度下降、效率降低.有關(guān)模糊分類方法也需要進(jìn)一步研究,如消除原有數(shù)據(jù)的相關(guān)性和降維,以及分類的合理性等.
模糊聚類是解決多因素、不清晰界限的一個(gè)有效辦法,而模糊C-均值聚類算法(FCM)[13]是其他的模糊聚類方法的理論和應(yīng)用的基礎(chǔ).但是,F(xiàn)CM算法屬于局部搜索優(yōu)化算法,初始值選擇不當(dāng)會引發(fā)結(jié)果達(dá)不到全局最優(yōu),而用遺傳算法可以有效解決初始值選擇不當(dāng)問題,遺傳算法的早熟問題可由模擬退火算法有效解決.[14]在筆者前期研究中,采用遺傳模擬退火算法應(yīng)用于西部省區(qū)經(jīng)濟(jì)發(fā)展分類和服務(wù)業(yè)分類取得了較好的效果.[15-16]
經(jīng)濟(jì)指標(biāo)之間一般存在相關(guān)性,主成分分析法可以消除相關(guān)性,得到新的主成分作為聚類的初始數(shù)據(jù),而采用主成分距離加權(quán)聚類分析法能使聚類效果更好.[17]
從聚類準(zhǔn)確度方面和地區(qū)經(jīng)濟(jì)發(fā)展差異研究的特點(diǎn)考查多種方法,本文提出一種區(qū)域經(jīng)濟(jì)發(fā)展差異分析智能混合算法:擬先采用FCM算法對西部各省份經(jīng)濟(jì)發(fā)展水平進(jìn)行分類,再采用主成分分析法給西部各省份經(jīng)濟(jì)發(fā)展水平進(jìn)行綜合評分.為了得到更好的分類效果,使用本文提出的基于主成分距離加權(quán)的遺傳模擬退火優(yōu)化FCM算法進(jìn)行聚類.
本文以西部省份經(jīng)濟(jì)發(fā)展差異為例,依據(jù)所提出的區(qū)域經(jīng)濟(jì)發(fā)展差異分析智能混合算法,對西部省份經(jīng)濟(jì)發(fā)展差異進(jìn)行綜合分析.
FCM算法是一種基于目標(biāo)函數(shù)的模糊聚類算法,其思想是該分類使目標(biāo)函數(shù)J值最小,[13]同一簇對象之間的相似度最大.
FCM算法表示:
其中U為其相似分類矩陣,V是各類別的聚類中心點(diǎn),c為要?jiǎng)澐值念悇e數(shù),d ij為第i個(gè)數(shù)據(jù)樣本與第j類中心點(diǎn)之間的歐氏距離,μij∈ [0,1]是樣本x i對于j類的隸屬度,β∈[1,∞)是一個(gè)加權(quán)參數(shù),當(dāng)β∈[1.5,2.5]效果最好.[18]
由于主成分因子的貢獻(xiàn)率不一樣,第一主成分貢獻(xiàn)率最大,其次為第二主成分,再次為第三主成分,以此類推.它們在分類時(shí)的重要性是有主次之分的,主成分因子直接代替原始數(shù)據(jù)的后果是使分類失真,所以在計(jì)算樣本之間距離時(shí)要給出不同的權(quán)重,以達(dá)到自適應(yīng)樣本數(shù)據(jù)的目的.
設(shè)G1,G2,…,G d是所提取的各主成分因子列向量,I1,I2,…,I n為提取主成分后新的行向量,所對應(yīng)的貢獻(xiàn)率為α1,α2,…,αd,d為新屬性個(gè)數(shù).則樣本I i與樣本I j距離表示為:
根據(jù)公式(2),對FCM算法進(jìn)行改進(jìn),得到新的基于主成分距離加權(quán)的FCM聚類算法表示如下.
其中d為新屬性個(gè)數(shù).
根據(jù)拉格朗日乘數(shù)法,上面的算法可轉(zhuǎn)化為下列式子:
τi是拉格朗日乘子.
對式(4)中的目標(biāo)函數(shù)J(U,V)求極值,則可對參數(shù)τi、μij求偏導(dǎo)數(shù),取值為0,得到下列式子:
求得隸屬度μij的值為:
式(7)是目標(biāo)函數(shù)最小化的充分條件,是使目標(biāo)函數(shù)最小化的隸屬度μij值的迭代式.
聚類中心值的迭代式為:
公式(7)和公式(8)用于迭代修改數(shù)據(jù)隸屬度、聚類中心,當(dāng)算法收斂時(shí),確定了各聚類中心,也確定了各樣本對于各類的隸屬度,完成了分類工作.
本文優(yōu)化的FCM算法流程如圖1所示.圖1中i為遺傳進(jìn)化次數(shù)循環(huán)計(jì)數(shù)變量,T為當(dāng)前溫度,K為溫度衰減系數(shù).
(1)采用本文優(yōu)化的FCM算法對區(qū)域經(jīng)濟(jì)各經(jīng)濟(jì)體進(jìn)行聚類,分析不同類別經(jīng)濟(jì)體的特征.
(2)采用主成分分析法給各經(jīng)濟(jì)體經(jīng)濟(jì)發(fā)展水平進(jìn)行綜合評分,得到各經(jīng)濟(jì)體的經(jīng)濟(jì)發(fā)展排名.
(3)依據(jù)分類和評分情況,對區(qū)域經(jīng)濟(jì)發(fā)展差異進(jìn)行研究分析.
圖1 本文優(yōu)化的FCM算法Fig.1 The optimized FCM algorithm in this paper
參考相關(guān)文獻(xiàn),選取3類10項(xiàng)指標(biāo)以反映西部12省份經(jīng)濟(jì)發(fā)展?fàn)顩r,即規(guī)模指標(biāo)(2個(gè))為GDP(X1)、固定資產(chǎn)投資總額(X2),結(jié)構(gòu)指標(biāo)(3個(gè))為第二產(chǎn)業(yè)增加值比重(X3)、服務(wù)業(yè)增加值比重(X4)、常住人口城鎮(zhèn)化率(X5),質(zhì)量指標(biāo)(5個(gè))為人均GDP(X6)、地均GDP(X7)、人均社會消費(fèi)品零售額(X8)、居民人均可支配收入(X9)、每萬人口國內(nèi)專利申請授權(quán)量(X10),這10項(xiàng)指標(biāo)在很大程度上反映了基礎(chǔ)設(shè)施建設(shè)、產(chǎn)業(yè)結(jié)構(gòu)調(diào)整、創(chuàng)新能力提升、社會事業(yè)進(jìn)步等西部大開發(fā)戰(zhàn)略中的重要方面.
采用的原始數(shù)據(jù)均來源于2016年《中國統(tǒng)計(jì)年鑒》及西部各省份統(tǒng)計(jì)年鑒.
下面以2015年的西部省份經(jīng)濟(jì)發(fā)展?fàn)顩r分類為例詳細(xì)說明聚類的具體過程和步驟.
3.1.1 數(shù)據(jù)預(yù)處理
采用Z-score標(biāo)準(zhǔn)化方法對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理.
3.1.2 確定主成分和方差貢獻(xiàn)率
由主成分分析得到前3個(gè)主成分的方差貢獻(xiàn)率88.1%>85%,如表1所示,每個(gè)主成分由各原始指標(biāo)線性組合,設(shè)新的綜合指標(biāo)為F1、F2、F3,主軸(對應(yīng)主成分)信息表如表1所示.
表1 主軸(對應(yīng)主成分)信息表Tab.1 The spindle(corresponding principal component)information table
3.1.3 實(shí)驗(yàn)參數(shù)選擇
算法參數(shù)設(shè)定如表2所示.
表2 參數(shù)設(shè)定表Tab.2 The parameter setting table
實(shí)驗(yàn)說明:
加權(quán)參數(shù)β試取1.5、2、2.5等數(shù)值分別做試驗(yàn),結(jié)果顯示,對于2015年的相關(guān)數(shù)據(jù),選擇加權(quán)參數(shù)β=2能使樣本的劃分更分明.
3.1.4 聚類分析
當(dāng)劃分模糊度越小時(shí),樣本集的劃分越分明,則分類越好,因此,對于給定的加權(quán)參數(shù)β,如果劃分模糊度最小時(shí),便得到最好分類.
劃分模糊度的定義為:
其中:n為樣本個(gè)數(shù),c是聚類個(gè)數(shù),U是模糊劃分矩陣,
采用本文優(yōu)化的FCM算法進(jìn)行聚類后,當(dāng)分為6類時(shí),劃分模糊度PFβ(U,c)為最小值,目標(biāo)值在多次重復(fù)運(yùn)行中一直穩(wěn)定,劃分模糊度PFβ(U,c)均為最小,故最好分類定為6類.分為6類時(shí)模糊劃分矩陣U對應(yīng)的西部各省份隸屬度值如表3所示.
表3 西部各省份隸屬度值Tab.3 The membership value of western provinces
表2中元素U ij表示j省屬于i類的隸屬度.為了進(jìn)一步分辨隸屬強(qiáng)度,以利于分析,用稍弱、較弱等在其后標(biāo)注.例如:如果最大隸屬度的值小于0.9且大于等于0.8,說明屬于這類的程度是稍微弱的,在其后標(biāo)明“稍弱”;如果最大隸屬度的值小于0.8且大于等于0.6,說明屬于這類的程度是比較弱的,在其后標(biāo)明“較弱”.由以上分析得到2015年西部省份的初步分類如表4所示,表中的類別排序大體按照經(jīng)濟(jì)發(fā)展?fàn)顩r綜合評分的高低排序.下同.
表4 經(jīng)濟(jì)發(fā)展?fàn)顩r分類Tab.4 The classification of economic development
由3.1.2節(jié)中得到三個(gè)主成分和對應(yīng)的方差貢獻(xiàn)率,把三個(gè)主成分與對應(yīng)的方差貢獻(xiàn)率相乘并累加,得到2015年西部省份經(jīng)濟(jì)發(fā)展?fàn)顩r綜合得分,并且對其進(jìn)行排名.綜合得分及排名如表5所示.
表5 經(jīng)濟(jì)發(fā)展?fàn)顩r綜合得分及排名Tab.5 The comprehensive score and order of economic development
2015年,受全球經(jīng)濟(jì)不景氣的影響,全國絕大部分省份經(jīng)濟(jì)增速減緩,但重慶仍以GDP增速11%與西藏并列第一.重慶是中西部唯一的直轄市,也是西部大開發(fā)重要的戰(zhàn)略支點(diǎn),是 “一帶一路”和長江經(jīng)濟(jì)帶的重要聯(lián)結(jié)點(diǎn),在中國宏觀經(jīng)濟(jì)下行壓力的背景下,重慶卻以GDP增速連續(xù)3年逾10%領(lǐng)跑全國,成為中國經(jīng)濟(jì)快速轉(zhuǎn)型發(fā)展的樣板之一,綜合實(shí)力名列西部第一,在西部各省份中獨(dú)立為一類.內(nèi)蒙古2015年經(jīng)濟(jì)總量為西部第三,人均GDP為第一,而內(nèi)蒙古所走的資源型經(jīng)濟(jì)發(fā)展道路與其他省份區(qū)別明顯,所以分類時(shí)單獨(dú)為一類.陜西是西北地區(qū)經(jīng)濟(jì)發(fā)展較好的省份,經(jīng)濟(jì)總量為西部第二,其經(jīng)濟(jì)結(jié)構(gòu)與四川、廣西較為相似,故與四川、廣西分為一類.廣西雖然經(jīng)濟(jì)總量2015年名列全國第17位,2016年名列全國第18位,但與作為西部重要增長極的四川、陜西分為同一類,說明廣西具有與四川、陜西類似的經(jīng)濟(jì)結(jié)構(gòu)特征,發(fā)展?jié)摿艽?,有望發(fā)展為西部的重要增長極.西藏從始至終都分為單獨(dú)的一類.由于歷史及地理原因,西藏交通不便,本土人才少,經(jīng)濟(jì)基礎(chǔ)薄弱,大大限制了發(fā)展,是全國經(jīng)濟(jì)總量最小的省份.西藏在2015年GDP增速引領(lǐng)全國,2016年GDP增速10%名列全國第三,但并不代表其具有經(jīng)濟(jì)快速增長的內(nèi)生動力,而更多是由于落后,國家加大投資項(xiàng)目傾斜.青海、寧夏缺乏國家級新區(qū)、城市群、支邊援邊等區(qū)域政策扶持,經(jīng)濟(jì)發(fā)展緩慢,有邊緣化危險(xiǎn).
從對西部各省份經(jīng)濟(jì)發(fā)展差異的應(yīng)用分析來看,本文所提出來的區(qū)域經(jīng)濟(jì)發(fā)展差異分析智能混合算法應(yīng)用較好,同時(shí)探索、檢驗(yàn)了數(shù)據(jù)挖掘等新型技術(shù)在經(jīng)濟(jì)研究中的應(yīng)用有效性,在區(qū)域經(jīng)濟(jì)發(fā)展差異分析上有廣闊的應(yīng)用前景.