李澤 付偉翔
摘要:本文基于因子分析法對長春市的住宅小區(qū)進行水平評級。從房天下、安居客等網(wǎng)站采集到關(guān)于房子、小區(qū)的具體信息。再將信息導(dǎo)入excel中,使用excel相關(guān)函數(shù)對數(shù)據(jù)進行刪除(刪除缺失60%以上的指標,刪除重要指標缺失三個及三個以上的小區(qū))、合并,得到關(guān)于小區(qū)及其參數(shù)的信息。經(jīng)過手動查找填補缺失的參數(shù)數(shù)據(jù),再使用spss中的線性插補填補剩余空缺。將小區(qū)各指標數(shù)據(jù)標準化使之在同一量綱下。應(yīng)用因子分析法對小區(qū)的參數(shù)指標進行降維,得到因子及因子得分,將因子與因子得分相乘再相加可得到小區(qū)分數(shù)。應(yīng)用k-均值聚類法對小區(qū)進行分類,小區(qū)的分類結(jié)果,即小區(qū)的級別。
關(guān)鍵詞:小區(qū)評級;因子分析;k-means聚類
本項目擬使用客觀的科學方法對長春市與吉林市各區(qū)的住宅小區(qū)進行評級,收集居民住宅小區(qū)的房價、戶型、綠化率、容積率、物業(yè)費用等小區(qū)本身信息,使用線性插補法填補缺失數(shù)據(jù),運用因子分析等方法對影響居民住宅小區(qū)分級的各種因素進行分析,給出各個住宅小區(qū)的綜合評價指數(shù),使用k均值聚類法對住宅小區(qū)進行聚類,得到住宅小區(qū)的評級結(jié)果,對購房租房者提供科學客觀的參考指導(dǎo)。
1指標體系的構(gòu)建
1.1數(shù)據(jù)的采集
從房天下、安居客、五八同城、諸葛找房、房產(chǎn)超市、趕集網(wǎng)等網(wǎng)站收集數(shù)據(jù)。
1.2數(shù)據(jù)的預(yù)處理
1.2.1剔除指標。剔除缺失率在60%以上的指標。
1.2.2指標的轉(zhuǎn)化。由于存在房屋指標而本文是對小區(qū)進行評級所以需要將房屋指標轉(zhuǎn)化為小區(qū)指標。將同一小區(qū)的房屋指標的平均值作為該小區(qū)的指標。再與小區(qū)的指標合并,得到了指標齊全的數(shù)據(jù)。
1.2.3小區(qū)的刪除。存在著一些小區(qū)缺失過多重要指標,將缺失指標三個及以上的小區(qū)刪除。
1.2.4數(shù)據(jù)的填補。運用線性插補方法對缺失數(shù)據(jù)進行填補。將以有數(shù)據(jù)進行擬合處理找到線性函數(shù),計算對應(yīng)缺失值。部分如下圖。
1.2.5數(shù)據(jù)的標準化。由于價格、面積、室、廳在不同維度上的特征尺度不一致,所以需要對上面四分數(shù)據(jù)進行標準化處理,使得不同類型的指標在同一量綱下。套用公式:。
1.3指標構(gòu)建
2因子分析
2.1檢驗是否適用因子分析法
在運用因子分析法進行統(tǒng)計分析前,需要對標準化后的指標進行檢驗,其目的是判斷該研究對象是否適合運用因子分析法進行研究。本文采用 KMO 及 Bartlett 球度檢驗。
通過 SPSS 軟件分析發(fā)現(xiàn),KMO 的值為 0.672>0.5,Bartlett球度檢驗的近似卡方值是2187.109,自由度是 55,顯著性是0.000。表明各變量間存在著相關(guān)性,所選指標適合進行因子分析。
2.2因子提取
使用主成分分析法對數(shù)據(jù)降維。在累計方差貢獻率在80%左右情況下提取因子。通過主成分分析法提取主因子,計算出提取因子的總方差解釋分析,由表可以得出,模型從11個因子中提取七個因子,特征值分別為2.998、1.387、1.118、1.035、0.991、0.923、0.859,提取的七個主因子的累計貢獻率達到84.653%,覆蓋了大部分信息,能夠反映出小區(qū)的綜合素質(zhì)水平。
2.3解釋因子
因子1解釋為小區(qū)的結(jié)構(gòu)。因子2解釋為小區(qū)的規(guī)模。因子3解釋為小區(qū)的價格。因子4解釋為小區(qū)的密度。因子5解釋為小區(qū)的服務(wù)。因子6解釋為小區(qū)的裝修情況。因子7解釋為小區(qū)的自然環(huán)境。
2.4計算因子得分
對于每個因子,把系數(shù)和對應(yīng)的指標名稱相乘后再求和,可以得到最終的因子得分公式,利用它就能夠?qū)λ袠颖具M行因子評分。得到公因子得分矩陣,再與對取得的7個公因子的得分進行加權(quán)求和就可以對學生進行綜合評分。這7個因子的權(quán)數(shù)可取方差貢獻值。
設(shè)各指標為X1、X2…Xm,
成分得分系數(shù)矩陣為,方差貢獻值矩陣為,各因子得分為,n為因子數(shù),m為指標數(shù)
小區(qū)分數(shù)為
設(shè)總價為X1、均價為X2、面積為X3、室為X4、廳為X5、總樓層為X6、裝修狀態(tài)為X7、房子數(shù)量為X8、綠化率為X9、容積率為X10、物業(yè)費為X11。
由上兩表可知第一類的聚類中心是86.96949428,有36個小區(qū);第二類的聚類中心是20.49633943,有284個小區(qū);第三類的聚類中心是-19.25131403,有785個小區(qū);
結(jié)論
通過因子分析及聚類,我們得出結(jié)論——長春市在售一級小區(qū)有36個、二級小區(qū)有284個、三級小區(qū)有465個。
參考文獻:
[1]王杰,閆軍,徐旦.基于因子分析法的“一帶一路”沿線省市物流能力比較研究*[J].科技與創(chuàng)新,2019(04):26-30.
[2]張少杰,林紅.“金磚五國”服務(wù)業(yè)國際競爭力評價與比較研究[J].中國軟科學,2016(01):154-164.
[3]王湃,南玉范.SPSS在區(qū)域科技綜合實力評價中的應(yīng)用[J].中國管理信息化,2006,9(11):86-87.
作者簡介:
李澤(1990— ),男,漢族,吉林省通化市輝南縣人,本科,研究方向:計算數(shù)學。