摘 要:城市發(fā)展分析已成為當(dāng)代社會關(guān)注和研究的焦點。如今許多城市的經(jīng)濟(jì)發(fā)展不僅處于一種非平衡的狀態(tài),而且地域差異性也日趨明顯。對原始數(shù)據(jù)進(jìn)行無量綱化和線性化的改進(jìn),運用改進(jìn)的主成分分析對城市綜合發(fā)展實力進(jìn)行分析,指出各城市間的差異和經(jīng)濟(jì)地位。
關(guān)鍵詞:主成分分析 聚類分析 城市發(fā)展差異
一、引言
主成分分析法通過降維技術(shù)運用部分具有代表性的綜合指標(biāo)代表原始的多個變量指標(biāo)的統(tǒng)計分析方法。但在實際應(yīng)用中,主成分分析法存在很多不足,很多學(xué)者從不同角度提出了改進(jìn)方法。白雪梅、趙松山提出了解決數(shù)據(jù)無量綱化處理方法。徐雅靜、汪遠(yuǎn)征提出數(shù)據(jù)均值化的處理方法。閻慈琳認(rèn)為不同的特征向量組合影響綜合評價的結(jié)果而采用第一主成分進(jìn)行評價。童新安、許超采用中心標(biāo)準(zhǔn)化進(jìn)行無量綱化的處理。陳述云、張崇甫認(rèn)為主成分分析所采用的線性分析有礙于對定量綜合評價做出定性分析,并提出非線性主成分分析的方法。以上研究均未解決第一主成分貢獻(xiàn)率不足對評優(yōu)排序所帶來的影響,并且對原始數(shù)據(jù)采取不同的處理方法,根據(jù)第一主成分分值進(jìn)行評優(yōu)排序的結(jié)果也會不同。文章在以上研究基礎(chǔ)上先對原始數(shù)據(jù)進(jìn)行均值化、對數(shù)化、對數(shù)中心化、傳統(tǒng)標(biāo)準(zhǔn)化處理,將以上幾種方法的主成分得分再次進(jìn)行主成分分析,然后選取第一主成分進(jìn)行聚類分析,在很大程度上減少了因原始數(shù)據(jù)處理方法的不同所造成的誤差。
二、傳統(tǒng)主成分-聚類分析
主成分-聚類就是先對原始數(shù)據(jù)進(jìn)行處理,然后進(jìn)行主成分分析,再進(jìn)行聚類分析,具體操作如下:
1.將原始數(shù)據(jù)按照傳統(tǒng)標(biāo)準(zhǔn)化進(jìn)行相關(guān)處理;
2.計算相關(guān)系數(shù)矩陣為原始系數(shù)的相關(guān)系數(shù),,其中
3.計算系數(shù)矩陣的特征值與特征向量。根據(jù)特征方程,求出矩陣的特征值,將特征值按大小排序;求出特征值對應(yīng)的特征向量,要求。
4.計算累計貢獻(xiàn)率并確定主成分個數(shù)。第個主成分的累積貢獻(xiàn)率:,若前個特征值的累積貢獻(xiàn)率達(dá)到了85%-95%,則這前個特征值所對應(yīng)的新變量為原始變量的第、第、…、第個主成分。
5.計算原始變量在個主成分上的得分。計算出前個主成分的載荷矩陣,將載荷代入下列方程組,即可計算得到前個主成分的得分。
6.根據(jù)第一主成分得分進(jìn)行聚類分析。
三、改進(jìn)的主成分-聚類分析
1.原始數(shù)據(jù)無量綱化的改進(jìn)。主成分分析的關(guān)鍵是依據(jù)協(xié)方差矩陣求出主成分,但是協(xié)方差矩陣容易受原始數(shù)據(jù)的量綱和數(shù)量級的影響。事實上,協(xié)方差矩陣能完整的反映原始數(shù)據(jù)指標(biāo)的全部信息。而“均值化”后得到的協(xié)方差矩陣能夠完全反映原始數(shù)據(jù)指標(biāo)所包含的全部信息,因此,可以把“均值化”作為一種新的無量綱化方法。設(shè)原始數(shù)據(jù),令,,得到數(shù)據(jù)矩陣。設(shè)的協(xié)方差矩陣,由于中每個列向量的均值都為1,則:
其中為原始數(shù)據(jù)的協(xié)方差矩陣,特別地當(dāng)時,。
2.原始數(shù)據(jù)的線性化。在實際應(yīng)用中,原始數(shù)據(jù)各指標(biāo)之間往往呈現(xiàn)出非線性相關(guān)的關(guān)系。如果采取傳統(tǒng)的主成分分析,就會導(dǎo)致評價結(jié)果與事實之間的誤差很大,所以必須對傳統(tǒng)主成分線性降維的方法進(jìn)行改進(jìn)。常用方法有“對數(shù)中心化”、“對數(shù)化”,這里主要對“對數(shù)中心化”方法進(jìn)行介紹。
設(shè)有個指標(biāo)的原始數(shù)據(jù),對原始數(shù)據(jù)作對數(shù)中心化變換;計算對數(shù)中心化數(shù)據(jù)的樣本協(xié)方差矩陣,。從出發(fā)求主成分:設(shè)是的個特征根,是相應(yīng)的標(biāo)準(zhǔn)化特征向量,則第個非線性主成分為:,余下步驟和傳統(tǒng)主成分分析一樣。
3.改進(jìn)的主成分-聚類分析。首先對原始數(shù)據(jù)分別進(jìn)行均值化、對數(shù)化、對數(shù)中心化、傳統(tǒng)標(biāo)準(zhǔn)化處理,然后進(jìn)行對應(yīng)的主成分分析。由于不同的數(shù)據(jù)處理方法對評價結(jié)果有一定的誤差,由此將以上幾種方法的主成分得分再次進(jìn)行主成分分析,然后選取第一主成分得分進(jìn)行聚類分析,在很大程度上減少了因原始數(shù)據(jù)處理方法的方不同所造成的誤差。
四、應(yīng)用與實例
1.經(jīng)濟(jì)指標(biāo)的選取。根據(jù)合理性、科學(xué)性原則選取了由以下11個經(jīng)濟(jì)指標(biāo)組成的指標(biāo)體系(數(shù)據(jù)來源于《河南省統(tǒng)計年鑒-2014》):-地區(qū)生產(chǎn)總值/億元;-人均生產(chǎn)總值(GDP)/元;-第三產(chǎn)業(yè)增加值/億元 ;-規(guī)模以上工業(yè)增加值/億元;-全社會固定資產(chǎn)投資/億元;-公共財政預(yù)算收入/萬元;-進(jìn)出口總額/萬美元;-城鎮(zhèn)單居民人均可支配收入/元;-農(nóng)村居民人均純收入/元;-社會消費品零售額/億元;-各市居民消費水平/元。
2.城市綜合發(fā)展差異分析。將原始數(shù)據(jù)運用MATLAB和SPSS進(jìn)行處理,然后運用SPSS軟件分別進(jìn)行主成分分析,得到各個方法的城市排名。從結(jié)果中發(fā)現(xiàn)鶴壁、漯河、商丘、周口、濟(jì)源在傳統(tǒng)標(biāo)準(zhǔn)化排名中與其他三種方法的結(jié)果出入較大。從原始數(shù)據(jù)中觀察商丘、漯河在地區(qū)生產(chǎn)總值、第三產(chǎn)業(yè)增加值、規(guī)模以上工業(yè)增加值、全社會固定資產(chǎn)投資、公共財政預(yù)算收入、社會消費品零售額方面比濟(jì)源高出很多,周口在地區(qū)生產(chǎn)總值、規(guī)模以上工業(yè)增加值,全社會固定資產(chǎn)投資、公共財政預(yù)算收入、進(jìn)出口總額、社會消費品零售額方面很突出,所以傳統(tǒng)標(biāo)準(zhǔn)化主成分分析存在不足。為此我們根據(jù)均值化主成分分析、對數(shù)中心化主成分分析、對數(shù)化主成分分析的得分再一次進(jìn)行主成分分析,以第一主成分得分重新排名。
計算發(fā)現(xiàn)第一主成分累積貢獻(xiàn)率達(dá)到了95.406%,充分說明第一主成分幾乎能夠包含原始數(shù)據(jù)的所有信息。第一主成分計算公式:,其中分別表示以上三種主成分分析的得分。最后得到如下排名:鄭州、洛陽、南陽、焦作、許昌、新鄉(xiāng)、安陽、平頂山、周口、開封、信陽、三門峽、商丘、駐馬店、濮陽、漯河、濟(jì)源、鶴壁。運用SPSS軟件進(jìn)行聚類分析,對河南省的18個城市的經(jīng)濟(jì)發(fā)展程度進(jìn)行排序。根據(jù)聚類分析系譜圖,對河南省各地市的發(fā)展程度分四類,第一類綜合發(fā)展程度高的城市:鄭州市;第二類綜合發(fā)展程度較高的城市:洛陽、南陽、焦作、許昌、新鄉(xiāng)、安陽;第三類綜合發(fā)展程度一般的城市:平頂山、周口、開封、信陽、三門峽、商丘、駐馬店、濮陽;第四類綜合發(fā)展程度低的城市:漯河、濟(jì)源、鶴壁。
3.發(fā)展建議。鄭州總體發(fā)展較快,要加快高新技術(shù)工業(yè)、信息業(yè)的發(fā)展,注重整合優(yōu)化各種資源,在全省范圍內(nèi)發(fā)揮引領(lǐng)和帶動作用。洛陽應(yīng)當(dāng)利用其歷史文化和旅游資源的優(yōu)勢加快經(jīng)濟(jì)發(fā)展,努力成為省內(nèi)的經(jīng)濟(jì)先導(dǎo)城市和旅游名城。南陽、平頂山等其他城市加強與大城市之間的經(jīng)濟(jì)交流和合作,發(fā)展新興工業(yè),引進(jìn)外商投資。漯河、鶴壁、濟(jì)源經(jīng)濟(jì)發(fā)展緩慢,今后首先應(yīng)先發(fā)展城市基礎(chǔ)設(shè)施建設(shè),努力發(fā)展自身優(yōu)勢產(chǎn)業(yè),優(yōu)化資源配置。
五、結(jié)語
通過對原始數(shù)據(jù)進(jìn)行無量綱化和線性化的改進(jìn),解決了按照不同數(shù)據(jù)處理方法而影響各個指標(biāo)的排名的問題。而改進(jìn)的主成分-聚類分析方法綜合了以上四種方法的主成分得分進(jìn)行主成分分析再聚類分析,在很大程度上減少了由于計算方法的不同所造成的誤差,使主成分分析法的應(yīng)用得到深入。
參考文獻(xiàn):
[1]白雪梅,趙松山.對主成分分析綜合評價方法若干問題的探討[J].統(tǒng)計研究,1995.68(16):47-51.
[2]徐雅靜,汪遠(yuǎn)征.主成分分析應(yīng)用方法的改進(jìn)[J].數(shù)學(xué)實踐與認(rèn)識,2006,6(36):69-71.
[3]閻慈琳.關(guān)于主成分分析作綜合評價的若干問題[J].數(shù)理統(tǒng)計與管理,1998,17(2):22-25.
[4]童新安,許超.基于非線性主成分和聚類分析的綜合評價方法[J].統(tǒng)計與信息論壇,2008,23(2):37-46.
[5] 陳述云,張崇甫.多元指標(biāo)綜合評價的主成分分析方法的改進(jìn)[J].統(tǒng)計研究,1995.63(1):35-39.
[6] 葉雙峰.關(guān)于主成分分析做綜合評價的改進(jìn)[J].數(shù)據(jù)統(tǒng)計與管理,2001,02(20):52-54. [7] 河南省統(tǒng)計局.河南統(tǒng)計年鑒[M].北京:中國統(tǒng)計出版社,2014.