【摘要】探討對應(yīng)分析方法在市政建設(shè)特征分析中的應(yīng)用,以及運用對應(yīng)分析時應(yīng)注意的幾個問題。用對應(yīng)分析方法對全國全國31個省市的市政基礎(chǔ)設(shè)施建設(shè)狀況情況進行分析。從對應(yīng)分析的因子負荷圖中可以看出城市建設(shè)水平和地區(qū)的經(jīng)濟發(fā)展水平具有一定的對應(yīng)關(guān)系。
【關(guān)鍵詞】對應(yīng)分析 市政建設(shè) 方法特征
市政基礎(chǔ)設(shè)施建設(shè)是城市賴以生存和發(fā)展的根本,是實現(xiàn)城市功能定位和提高城市綜合競爭力的重要基礎(chǔ)。城市基礎(chǔ)設(shè)施的建設(shè)和完善程度決定了一個城市的現(xiàn)代化水平,進而影響到這個城市的影響力和競爭力等各個方面。研究國內(nèi)城市發(fā)展和建設(shè)水平,可以發(fā)現(xiàn)城市建設(shè)水平和地區(qū)的經(jīng)濟發(fā)展水平具有一定的對應(yīng)關(guān)系,而且,處在不同經(jīng)濟發(fā)展階段的地區(qū),其城市基礎(chǔ)設(shè)施建設(shè)的重點也有所不同。通過評價城市基礎(chǔ)設(shè)施的建設(shè)水平,可以有針對性地提出今后進一步建設(shè)的建議。
一、對應(yīng)分析的主要特點
對應(yīng)分析又稱為相應(yīng)分析,也稱R—Q分析,是在因子分子基礎(chǔ)發(fā)展起來的一種多元統(tǒng)計分析方法。它主要通過分析定性變量構(gòu)成的列聯(lián)表來揭示變量之間的關(guān)系。在因子分析中人們通常只是分析原始變量的因子結(jié)構(gòu),找出決定原始變量的公共因子,從而使問題的分析簡化和清晰。這種研究對象是變量的因子分析稱為R型因子分析。但是對于有些問題來說,我們還需要研究樣品的結(jié)構(gòu),若對于樣品進行因子分析,稱為Q型因子分析。當我們對同一觀測數(shù)據(jù)施加R和Q型因子分析,并分別保留兩個公共因子,則是對應(yīng)分析的初步。對應(yīng)分析的基本思想是將一個聯(lián)列表的行和列中各元素的比例結(jié)構(gòu)以點的形式在較低維的空間中表示出來。它最大特點是能把眾多的樣品和眾多的變量同時做到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。另外,它還省去了因子選擇和因子軸旋轉(zhuǎn)等復雜的數(shù)學運算及中間過程,可以從因子載荷圖上對樣品進行直觀的分類,而且能夠指示分類的主要參數(shù)(主因子)以及分類的依據(jù),是一種直觀、簡單、方便的多元統(tǒng)計方法。
二、實例
采用spss軟件對全國31個省市的市政建設(shè)狀況進行對應(yīng)分析,數(shù)據(jù)來源于《中國統(tǒng)計年鑒2010》.共紀錄了31個省、市、自治區(qū)當年的城市市政工程建設(shè)狀況,具體有如下6個指標:
road:年末實有道路長度;area:年末實有道路面積;bridge:城市橋梁數(shù);
under:城市下水道長度;water:城市污水處理能力;lamp:城市路燈數(shù)。
考察各省市城市設(shè)施水平的建設(shè)情況差異,特別是各地區(qū)在這6個指標上分別存在著哪些優(yōu)勢和不足之處。
(一)數(shù)據(jù)處理
對應(yīng)分析的第一步是進行數(shù)據(jù)的標準化,將數(shù)據(jù)轉(zhuǎn)換為代表行、列變量問類別聯(lián)系的數(shù)據(jù)陣。由于本例采用的數(shù)據(jù)不是頻數(shù),不存在行列合計頻數(shù),所以不能像交叉表那樣基于無效假設(shè)計算標準化殘差,此處需要使用歐式距離來表示關(guān)聯(lián)程度。首先需要考慮應(yīng)當采用何種距離標準化方法。顯然,6項指標的均數(shù)大不相同,而這并不是我們所要關(guān)心的,同時它們的量綱也相差較大,最大、最小值的倍數(shù)在數(shù)十到上千不等;另一方面,各省市發(fā)展水平的差異是我們希望考察的內(nèi)容,即上海的平均發(fā)展水平是否高于北京,諸如此類。因此,本例中使用Column Totals are Equalized and Column Means Removed這一標化方法,它可以消除各指標均數(shù)和量綱不同的影響,同時又保留了地區(qū)發(fā)展水平的差異。
(二)數(shù)據(jù)分析結(jié)果
運用spss對原始數(shù)據(jù)進行分析得到對應(yīng)分析的最終匯總結(jié)果,如表1。
有表1中的數(shù)據(jù)我們可以看到,前兩個維度工攜帶了總信息量的94.8%,因此可以利用二維空間進行分析結(jié)果的解釋。
表1 Summary
把31個省市樣本和6個市政建設(shè)衡量指標繪制在一張二維平面圖上,并將分布相當集中的地級市樣本和指標歸為一類,如圖1所示:
位置臨近的指標點表示他們密切相關(guān),我們首先來看指標的分布,在指標散點中,6個散點并未完全分開,其中橋梁指標與其他5個指標遠遠分離,但是其他5個指標基本重疊,顯然從常識看道路長度,道路面積,下水道長度,污水處理和路燈數(shù)著5個指標是緊密相關(guān)的。
臨近的樣本點則表示它們的發(fā)展狀況相似,根據(jù)這種分布,可以將31個省市分類,然后結(jié)合指標的分布來分析全國各地區(qū)的市政建設(shè)狀況。
根據(jù)原始數(shù)據(jù)和樣本及指標在二維坐標圖中的分布情況,31個省市和6各指標可以分為以下幾類:
圖1 基于均數(shù)的對應(yīng)分析圖
第一類:10(江蘇),11(浙江),15(山東),19(廣東)幾個沿海發(fā)展較好省市,雖然這四個省被歸為一類,但是從二維圖中可以看到:江蘇和浙江比較接近處于第一象限,而山東和廣東則處于第四象限。這也與事實比較接近,山東和廣東的發(fā)展較為相似,而其他兩個較為相似。由二維圖可以看到這四個省與橋梁指標放射方向基本一致,查看原始數(shù)據(jù)也可以發(fā)現(xiàn)這四個省的橋梁建設(shè)處于全國前四,其中江蘇省散點橋梁散點的放射方向一致,在原始數(shù)據(jù)中江蘇的橋梁指標也是最高的;在道路面積和道路道路長度指標中,廣東、山東兩省基本均處于全國前兩名,這在圖中則表現(xiàn)為它們正好位于相應(yīng)兩個指標散點的放射線上。另外,這四個省的散點與所有指標散點分布都較為接近,這說明這四個省在市政建設(shè)的各個指標上均處于較為領(lǐng)先水平,此結(jié)果從原始數(shù)據(jù)中也可以得到驗證。
第二類:包括1(北京),2(天津),9(上海)三個發(fā)展水平較好的直轄市,這三個城市的散點與除橋梁以外的5個指標放射方向大體一致,這說明這三個城市的在這5個指標的建設(shè)狀況都比較好。其中上海的污水處理水平也處于全國較為領(lǐng)先的地位,這在二維圖中表現(xiàn)為兩個散點位于相應(yīng)的放射線上。
第三類:3(河北),6(遼寧),8(黑龍江),12(安徽),13(福建),16(河南),17(湖北),18(湖南),20(廣西),23(四川)發(fā)展程度中等省市,由二維圖中的位置與原始數(shù)據(jù)我們都可以發(fā)現(xiàn)這些省市的市政建設(shè)裝況均處于中上水平。endprint
第四類:其他則是欠發(fā)達省市,包括邊遠落后地區(qū),這類散點位于最遠離各個指標的左上方,市政建設(shè)狀況較為落后。這一狀況由原始數(shù)據(jù)可以得到驗證。
三、小結(jié)
由以上實例分析我們可以看到,對應(yīng)分析的結(jié)果比較簡單直觀,它最主要的結(jié)果就是對應(yīng)分析圖,非常容易理解,這也是對應(yīng)分析比對數(shù)線性模型這些專業(yè)建模方法更受應(yīng)用統(tǒng)計人員歡迎的原因。它不僅可以同時對指標和樣本進行聚類,而且可以分析指標和樣本的關(guān)系,這是因子分析和聚類分析都無法單獨實現(xiàn)的。對應(yīng)分析適于研究較多分類變量:多重對應(yīng)分析可以將多個分類變量的關(guān)聯(lián)在一張圖形中表現(xiàn)出來,當變量數(shù)較多時,該優(yōu)勢非常明顯。當分類變量的類別數(shù)越多時,對應(yīng)分析圖形化結(jié)果的優(yōu)勢就越明顯。它省去了復雜的建模和檢驗過程,可以直接觀察到最為主要的關(guān)聯(lián)特征。
對應(yīng)分析也存在自身的劣勢:首先,對應(yīng)分析不能進行具體聯(lián)系的檢驗:對應(yīng)分析在本質(zhì)上仍然只是一種統(tǒng)計描述方法,他無法對所觀察到的變量類別間的聯(lián)系進行檢驗,從而在統(tǒng)計上加以確認。因此,對應(yīng)分析在結(jié)果解釋上要小心,特別是多重對應(yīng)分析,事先一定要采用卡方檢驗等統(tǒng)計方法進行預分析,篩除掉實際上無聯(lián)系的變量。在得到圖形結(jié)果后也要將圖形和原始數(shù)據(jù)反復對照,以確保結(jié)論的正確性。其次,無法自動判斷最佳維度數(shù):對應(yīng)分析只能根據(jù)研究者指定的數(shù)量進行相應(yīng)維度的提取,而不能自動判斷最合適的維度數(shù)。最后,分析結(jié)果對極端值敏感:由于對應(yīng)分析的第一步是對數(shù)據(jù)進行標準化變換,對于罕見類別或者小樣本,變換后非常容易出現(xiàn)極端值,這使得分析結(jié)果嚴重受這些類別的影響。
參考文獻
[1]中國統(tǒng)計年鑒2011,國家統(tǒng)計局出版
[2]何曉群.多元統(tǒng)計分析.中國人民大學出版社.2008(7):242-263.
[3]張文彤.SPSS統(tǒng)計分析高級教程.高等教育出版社.2004(15):299-303.
[4]許人杰.廣東省區(qū)域經(jīng)濟發(fā)展的對應(yīng)分析[A].中國商界.2010年第七期.
[5]毛騰飛.中國城市基礎(chǔ)設(shè)施建設(shè)投融資模式創(chuàng)新研究[M].北京:中國社會科學出版社,2007:5-8.
[6]段娟,文余源.中國城市化進程中基礎(chǔ)設(shè)施建設(shè)和管理的問題與對策探討[J].云南地理環(huán)境研究,2007(1).
作者簡介:霍煒紅(1986-),女,河北人,經(jīng)濟學碩士,研究方向:數(shù)據(jù)挖掘與抽樣統(tǒng)計。endprint
第四類:其他則是欠發(fā)達省市,包括邊遠落后地區(qū),這類散點位于最遠離各個指標的左上方,市政建設(shè)狀況較為落后。這一狀況由原始數(shù)據(jù)可以得到驗證。
三、小結(jié)
由以上實例分析我們可以看到,對應(yīng)分析的結(jié)果比較簡單直觀,它最主要的結(jié)果就是對應(yīng)分析圖,非常容易理解,這也是對應(yīng)分析比對數(shù)線性模型這些專業(yè)建模方法更受應(yīng)用統(tǒng)計人員歡迎的原因。它不僅可以同時對指標和樣本進行聚類,而且可以分析指標和樣本的關(guān)系,這是因子分析和聚類分析都無法單獨實現(xiàn)的。對應(yīng)分析適于研究較多分類變量:多重對應(yīng)分析可以將多個分類變量的關(guān)聯(lián)在一張圖形中表現(xiàn)出來,當變量數(shù)較多時,該優(yōu)勢非常明顯。當分類變量的類別數(shù)越多時,對應(yīng)分析圖形化結(jié)果的優(yōu)勢就越明顯。它省去了復雜的建模和檢驗過程,可以直接觀察到最為主要的關(guān)聯(lián)特征。
對應(yīng)分析也存在自身的劣勢:首先,對應(yīng)分析不能進行具體聯(lián)系的檢驗:對應(yīng)分析在本質(zhì)上仍然只是一種統(tǒng)計描述方法,他無法對所觀察到的變量類別間的聯(lián)系進行檢驗,從而在統(tǒng)計上加以確認。因此,對應(yīng)分析在結(jié)果解釋上要小心,特別是多重對應(yīng)分析,事先一定要采用卡方檢驗等統(tǒng)計方法進行預分析,篩除掉實際上無聯(lián)系的變量。在得到圖形結(jié)果后也要將圖形和原始數(shù)據(jù)反復對照,以確保結(jié)論的正確性。其次,無法自動判斷最佳維度數(shù):對應(yīng)分析只能根據(jù)研究者指定的數(shù)量進行相應(yīng)維度的提取,而不能自動判斷最合適的維度數(shù)。最后,分析結(jié)果對極端值敏感:由于對應(yīng)分析的第一步是對數(shù)據(jù)進行標準化變換,對于罕見類別或者小樣本,變換后非常容易出現(xiàn)極端值,這使得分析結(jié)果嚴重受這些類別的影響。
參考文獻
[1]中國統(tǒng)計年鑒2011,國家統(tǒng)計局出版
[2]何曉群.多元統(tǒng)計分析.中國人民大學出版社.2008(7):242-263.
[3]張文彤.SPSS統(tǒng)計分析高級教程.高等教育出版社.2004(15):299-303.
[4]許人杰.廣東省區(qū)域經(jīng)濟發(fā)展的對應(yīng)分析[A].中國商界.2010年第七期.
[5]毛騰飛.中國城市基礎(chǔ)設(shè)施建設(shè)投融資模式創(chuàng)新研究[M].北京:中國社會科學出版社,2007:5-8.
[6]段娟,文余源.中國城市化進程中基礎(chǔ)設(shè)施建設(shè)和管理的問題與對策探討[J].云南地理環(huán)境研究,2007(1).
作者簡介:霍煒紅(1986-),女,河北人,經(jīng)濟學碩士,研究方向:數(shù)據(jù)挖掘與抽樣統(tǒng)計。endprint
第四類:其他則是欠發(fā)達省市,包括邊遠落后地區(qū),這類散點位于最遠離各個指標的左上方,市政建設(shè)狀況較為落后。這一狀況由原始數(shù)據(jù)可以得到驗證。
三、小結(jié)
由以上實例分析我們可以看到,對應(yīng)分析的結(jié)果比較簡單直觀,它最主要的結(jié)果就是對應(yīng)分析圖,非常容易理解,這也是對應(yīng)分析比對數(shù)線性模型這些專業(yè)建模方法更受應(yīng)用統(tǒng)計人員歡迎的原因。它不僅可以同時對指標和樣本進行聚類,而且可以分析指標和樣本的關(guān)系,這是因子分析和聚類分析都無法單獨實現(xiàn)的。對應(yīng)分析適于研究較多分類變量:多重對應(yīng)分析可以將多個分類變量的關(guān)聯(lián)在一張圖形中表現(xiàn)出來,當變量數(shù)較多時,該優(yōu)勢非常明顯。當分類變量的類別數(shù)越多時,對應(yīng)分析圖形化結(jié)果的優(yōu)勢就越明顯。它省去了復雜的建模和檢驗過程,可以直接觀察到最為主要的關(guān)聯(lián)特征。
對應(yīng)分析也存在自身的劣勢:首先,對應(yīng)分析不能進行具體聯(lián)系的檢驗:對應(yīng)分析在本質(zhì)上仍然只是一種統(tǒng)計描述方法,他無法對所觀察到的變量類別間的聯(lián)系進行檢驗,從而在統(tǒng)計上加以確認。因此,對應(yīng)分析在結(jié)果解釋上要小心,特別是多重對應(yīng)分析,事先一定要采用卡方檢驗等統(tǒng)計方法進行預分析,篩除掉實際上無聯(lián)系的變量。在得到圖形結(jié)果后也要將圖形和原始數(shù)據(jù)反復對照,以確保結(jié)論的正確性。其次,無法自動判斷最佳維度數(shù):對應(yīng)分析只能根據(jù)研究者指定的數(shù)量進行相應(yīng)維度的提取,而不能自動判斷最合適的維度數(shù)。最后,分析結(jié)果對極端值敏感:由于對應(yīng)分析的第一步是對數(shù)據(jù)進行標準化變換,對于罕見類別或者小樣本,變換后非常容易出現(xiàn)極端值,這使得分析結(jié)果嚴重受這些類別的影響。
參考文獻
[1]中國統(tǒng)計年鑒2011,國家統(tǒng)計局出版
[2]何曉群.多元統(tǒng)計分析.中國人民大學出版社.2008(7):242-263.
[3]張文彤.SPSS統(tǒng)計分析高級教程.高等教育出版社.2004(15):299-303.
[4]許人杰.廣東省區(qū)域經(jīng)濟發(fā)展的對應(yīng)分析[A].中國商界.2010年第七期.
[5]毛騰飛.中國城市基礎(chǔ)設(shè)施建設(shè)投融資模式創(chuàng)新研究[M].北京:中國社會科學出版社,2007:5-8.
[6]段娟,文余源.中國城市化進程中基礎(chǔ)設(shè)施建設(shè)和管理的問題與對策探討[J].云南地理環(huán)境研究,2007(1).
作者簡介:霍煒紅(1986-),女,河北人,經(jīng)濟學碩士,研究方向:數(shù)據(jù)挖掘與抽樣統(tǒng)計。endprint