【摘要】采用SPSS多元統(tǒng)計(jì)軟件中的聚類分析法把我國(guó)大陸28個(gè)省市地區(qū)建筑業(yè)水平按企業(yè)單位數(shù)、從業(yè)人員、建筑業(yè)總產(chǎn)值、技術(shù)裝備率劃分為5類進(jìn)行聚類分析,并對(duì)聚類結(jié)果做相關(guān)研究,結(jié)果表明:在中國(guó)大陸地區(qū)的建筑業(yè)水平與四項(xiàng)因素息息相關(guān)。
Abstract:By using SPSS statistical software multivariate cluster analysis method to the mainland of China Construction levels 28 provinces and cities by number of business units, employees, construction output, technical equipment rates are divided into five categories of cluster analysis,and also do reserach in result。The results show that: in the construction level in mainland China and four factors are closely related。
【關(guān)鍵詞】聚類分析;聚類結(jié)果;SPSS;
Keywords:Cluster analysis;Clustering results;SPSS;
0 引言
隨著時(shí)代的進(jìn)步,我國(guó)國(guó)民經(jīng)濟(jì)逐漸增強(qiáng),而建筑業(yè)是我國(guó)國(guó)民經(jīng)濟(jì)的基礎(chǔ)。預(yù)計(jì)到2015年,我國(guó)建筑業(yè)總產(chǎn)值將超過10萬(wàn)億元,約占我國(guó)生產(chǎn)總值的7%。在重要機(jī)遇的同時(shí),我國(guó)建筑業(yè)也會(huì)面臨相應(yīng)的問題。我國(guó)各個(gè)地方的GDP發(fā)展的水平都不一樣,例如北京市,上海市經(jīng)濟(jì)發(fā)展的快,建筑業(yè)發(fā)展水平高,而內(nèi)蒙古、西藏、新疆等省市則明顯的建筑業(yè)水平不高,大多還在建設(shè)當(dāng)中。一個(gè)省市的建筑業(yè)水平和四個(gè)因素相關(guān),省市的企業(yè)單位數(shù)、從業(yè)人員、建筑業(yè)總產(chǎn)值、技術(shù)裝備率。
1 參數(shù)選取和聚類分析方法
1.1 參數(shù)選取及數(shù)據(jù)來源
目前國(guó)內(nèi)對(duì)建筑業(yè)統(tǒng)計(jì)的數(shù)據(jù)參數(shù)主要是4個(gè),企業(yè)單位數(shù)(個(gè))、從業(yè)人員(人)、建筑業(yè)總產(chǎn)值(萬(wàn)元)、技術(shù)裝備率(元\人)。本文系統(tǒng)聚類分析選取這四個(gè)方面的數(shù)據(jù)。研究地區(qū)為我國(guó)28個(gè)省市自治區(qū)。數(shù)據(jù)來源為中國(guó)建筑業(yè)2010年統(tǒng)計(jì)年鑒,詳情見表1。
1.2聚類分析方法
聚類分析是數(shù)理統(tǒng)計(jì)中重要的數(shù)據(jù)分析方法。主要兩種聚類法,分別是分層聚類法和迭代聚類法。聚類分析的目的就是在一些相似的基礎(chǔ)上手機(jī)不同的數(shù)據(jù)進(jìn)行分類。比如說聚類分析可以用來記錄不同的客戶群的特征,從而有利于銷售者更好推銷出產(chǎn)品。聚類分析還可以被應(yīng)用到對(duì)動(dòng)植物的基因進(jìn)行分類,從而可以讓我們對(duì)種群了解的更深。
聚類分析是由以下幾個(gè)步驟組成,首先我們先尋找出所研究樣品之間的相似性。由于在各個(gè)樣品之間會(huì)存在一些聯(lián)系彼此的指標(biāo),這些指標(biāo)的量稱為統(tǒng)計(jì)量。通過這些統(tǒng)計(jì)量,把相似程度高的歸為一類,把另外一些相似程度大的分為第二類,直到把所有的樣品都聚類完畢。
根據(jù)分類對(duì)象可以分為Q型聚類分析和R型聚類分析。Q型聚類分析主要是對(duì)樣本進(jìn)行分類處理,而R型聚類分析則是對(duì)變量進(jìn)行分類處理。
系統(tǒng)聚類分析的基本思想是:設(shè)有n個(gè)樣品,每個(gè)樣品有m項(xiàng)指標(biāo)。首先定義樣品間的距離。先將這n個(gè)樣品當(dāng)做n個(gè)類別,由于兩個(gè)類別之間都存在距離,將距離最近的兩類合并成為新類,并計(jì)算新類與其它類的距離,再按最小距離準(zhǔn)則并類。這樣每次縮小一類,直到并成一類為止。
系統(tǒng)聚類方法:
(1)最短距離法:類與類之間距離為兩類最近樣品的距離。在原來的距離矩陣的非對(duì)角元素中找出,把分類對(duì)象歸并為新的一類并計(jì)算各類與新類之間的距離,這樣就能得到一個(gè)新的距離矩陣;再?gòu)男碌木仃囍羞x出最小的歸為新類,再計(jì)算距離,一直反復(fù),直到各個(gè)分類對(duì)象被歸為一類。
(2)最長(zhǎng)距離法:則是賀最短距離法相反,最遠(yuǎn)距離聚類法所用的是最遠(yuǎn)距離來衡量樣本之間的距離;
(3)直接聚類法:先把各個(gè)分類對(duì)象單獨(dú)看作一類,根據(jù)距離最小原則,依次選出一對(duì)分類對(duì)象,并成新類。如果分類對(duì)象中有一個(gè)已經(jīng)是其中一類,那么把另一個(gè)也歸為此類;每一次歸類都劃掉該對(duì)象所在的列和對(duì)應(yīng)的行。經(jīng)過m-1次就可以把全部分類對(duì)象歸為一類。
(4)重心法:以兩類重心之間的距離作為兩類間的距離。重心法測(cè)量的是兩個(gè)類的重心(均值)之間的歐氏距離。每合并一次類,都要重新計(jì)算新類的重心
(5)類平均法:以兩類元素兩兩之間距離平方的平均作為類間距離的平方。
2 系統(tǒng)聚類分析成
3缺失數(shù)據(jù)及判別分析
調(diào)查中經(jīng)常遇到缺失數(shù)據(jù)的現(xiàn)象。產(chǎn)生缺失數(shù)據(jù)的原因有多種,不同背景下的缺失數(shù)據(jù)對(duì)統(tǒng)計(jì)分析會(huì)帶來不同的影響。提高統(tǒng)計(jì)調(diào)查數(shù)據(jù)的質(zhì)量,一方面要采取有效措施減少數(shù)據(jù)缺失,提高調(diào)查的回答率;另一方面,當(dāng)出現(xiàn)缺失數(shù)據(jù)時(shí),可以對(duì)不完整的數(shù)據(jù)集進(jìn)行處理,以減小由于缺失數(shù)據(jù)帶來的影響。對(duì)缺失值有不同的調(diào)整方法,不同的方法各有特點(diǎn)。在上述的28個(gè)省市數(shù)據(jù)里面中,沒有包括江西省、山東省、河南省三個(gè)省份?,F(xiàn)在是已知三個(gè)省份的四項(xiàng)相關(guān)因素的指標(biāo),要求得到底三個(gè)省份歸類于哪類。
判別分析是用于判斷個(gè)體所屬類別的一種統(tǒng)計(jì)方法。判別分析是根據(jù)已知觀測(cè)對(duì)象的分類和若干表明觀測(cè)對(duì)象特征的變量值,建立判別函數(shù)和判別準(zhǔn)則,并使其錯(cuò)判率最小。
判別分析即“分辨法”,是指的已經(jīng)分類確定了,根據(jù)某個(gè)研究對(duì)象的特征值來確定類型歸屬問題。判別分析的基本原理是根據(jù)一定的準(zhǔn)則,建立單獨(dú)的或者是好幾個(gè)判別函數(shù),然后確定函數(shù)中的待定系數(shù),計(jì)算出指標(biāo)最后判別類別。
判別分析與聚類分析的區(qū)別:判別分析是已知研究對(duì)象分類,根據(jù)樣本數(shù)據(jù)推導(dǎo)出判別函數(shù),再根據(jù)判別準(zhǔn)則,確定待判樣品的所屬類別,使錯(cuò)判率最小。聚類分析預(yù)先不知道分類,它要解決的問題,正是對(duì)給定的未知分類的樣品進(jìn)行分類,它是一種純統(tǒng)計(jì)技術(shù),只要有多指標(biāo)存在,就能根據(jù)各觀測(cè)的變量值近似程度排序,只是描述性的統(tǒng)計(jì),而判別分析能對(duì)未知分類觀測(cè)判別分類,帶有預(yù)測(cè)性質(zhì)。
分析的結(jié)果可知。江西省、山東省、河南省分別歸為三類,五類,五類。在輸入缺少數(shù)據(jù)之前,根據(jù)前面的聚類分析已經(jīng)可以得知北京、河北、遼寧、上海、安徽、福建、湖北、湖南、廣東、重慶、陜西為一類,天津?yàn)槎?,山西、?nèi)蒙古、吉林、黑龍江、廣西、海南、貴州、云南、西藏、甘肅、青海、寧夏、新疆為三類,江蘇、浙江為四類,四川為五類。
4 結(jié)論
通過對(duì)四項(xiàng)影響因素聚類,把28個(gè)省市自治區(qū)劃分為五類,先確定了28個(gè)省市的類別,運(yùn)用SPSS軟件,從樹狀圖當(dāng)中也可以看出哪幾個(gè)省市為一類。再者有缺失數(shù)據(jù)江西省、山東省、河南省三個(gè)省。把缺失的三個(gè)省的四個(gè)影響因素的數(shù)據(jù)分別列入表中,根據(jù)前面已經(jīng)劃分好得28個(gè)省市的類別,最終確定了三個(gè)缺失數(shù)據(jù)的類別。本文采用SPSS多元統(tǒng)計(jì)軟件中的聚類分析法把我國(guó)大陸28個(gè)省市地區(qū)建筑業(yè)水平按企業(yè)單位數(shù)、從業(yè)人員、建筑業(yè)總產(chǎn)值、技術(shù)裝備率劃分為5類進(jìn)行聚類分析,并對(duì)聚類結(jié)果做相關(guān)研究,結(jié)果表明在中國(guó)大陸地區(qū)的建筑業(yè)水平與四項(xiàng)因素息息相關(guān),依據(jù)該分析結(jié)果,可以針對(duì)不同地區(qū)房地產(chǎn)業(yè)和房地產(chǎn)市場(chǎng)發(fā)展的現(xiàn)狀,采取促進(jìn)各區(qū)域房地產(chǎn)業(yè)及房地產(chǎn)市場(chǎng)。在探討建筑水平相關(guān)因素的同時(shí)也忽略了一些問題。比如說本文中只對(duì)單個(gè)指標(biāo)的時(shí)間序列進(jìn)行分析,相對(duì)來說比較片面,如果是針對(duì)多個(gè)指標(biāo)的時(shí)間序列進(jìn)行分析則還需要進(jìn)一步探討。
參考文獻(xiàn):
[1]衛(wèi)海燕.郎玉泉《陜西區(qū)域經(jīng)濟(jì)建筑業(yè)水平的聚類分析》 2007第1期
[2]向東進(jìn). 實(shí)用多元統(tǒng)計(jì)方法 [ M ] . 武漢 : 中國(guó)地質(zhì)大學(xué)出版社 , 2005 .
[3]茆詩(shī)松.王靜龍:《數(shù)理統(tǒng)計(jì)》,華東師范大學(xué)出版社1990年版。
[4]Anderson T W,張潤(rùn)楚、程軼 等譯:《多元統(tǒng)計(jì)分析導(dǎo)論》,人民郵電出版社,2010年版。
[5]Chatfield C,Collins A J.1980.Introduction to Multivariate Analysis, Chapman and Hall Ltd.
[6]Krzanowski W J.1988.Principles of Multivariate Analysis,A User's
[7]Dallas E. Johnson:《應(yīng)用多元統(tǒng)計(jì)分析方法》,高等教育出版社,2005年版。