蔡 波、程順森、趙智群
(國家統(tǒng)計(jì)局上海調(diào)查總隊(duì),上海 200003)
網(wǎng)絡(luò)大數(shù)據(jù)在自有住房折算租金推算上的應(yīng)用
蔡 波、程順森、趙智群
(國家統(tǒng)計(jì)局上海調(diào)查總隊(duì),上海 200003)
城鄉(xiāng)一體化住戶調(diào)查改革后,自有住房折算租金計(jì)入居民可支配收入和消費(fèi)支出。但房屋市場價(jià)估計(jì)值變化大,由調(diào)查員輔助調(diào)查戶填報(bào),在實(shí)際過程中存在調(diào)查困難現(xiàn)象,而且隨意性較大,從而影響居民可支配收入和消費(fèi)支出計(jì)算的精確度。本文利用網(wǎng)絡(luò)大數(shù)據(jù)結(jié)合房屋的側(cè)面客觀數(shù)據(jù)信息,建立回歸樹、隨機(jī)森林等數(shù)據(jù)挖掘模型,擬合小區(qū)房屋的均價(jià),并對(duì)住戶調(diào)查數(shù)據(jù)中的部分小區(qū)樣本進(jìn)行了實(shí)證測算并作評(píng)估比較。
自有住房折算租金;大數(shù)據(jù);回歸樹;隨機(jī)森林
自有住房折算租金又被稱為虛擬租金、歸算租金、估算租金等,是指對(duì)居民自己擁有并使用的住 房 (Owner-Occupied Housing(Dwelling),OOH 或OOD),計(jì)算該自有房的租賃價(jià)格,即虛擬的租賃成本。
(一)自有住房折算租金的研究意義
2012年4季度,國家統(tǒng)計(jì)局實(shí)施了城鄉(xiāng)一體化住戶調(diào)查改革,統(tǒng)一了城鄉(xiāng)居民收入名稱、分類和統(tǒng)計(jì)標(biāo)準(zhǔn),實(shí)施全新的《住戶收支與生活狀況調(diào)查方案》。為了更好地進(jìn)行世界各國經(jīng)濟(jì)規(guī)模的國際比較,新方案中加入了自有住房折算租金?!蹲羰罩c生活狀況調(diào)查方案》中,自有住房折算凈租金計(jì)入城鎮(zhèn)居民可支配收入,自有住房折算租金計(jì)入城鄉(xiāng)居民消費(fèi)支出。
在我國現(xiàn)行住戶調(diào)查體系中,自有住房折算租金中占一定的比例。以上海為例,2015年,自有住房折算凈租金在全市居民人均可支配收入中占比為13%左右,自有住房折算租金在全市居民人均消費(fèi)支出中占比為25%左右。美國GDP中,城市居民自有住房服務(wù)的貢獻(xiàn)率約8%,其占個(gè)人消費(fèi)支出的比例約11%。在日本,上述兩者比例分別約為10%和17%。因此,計(jì)算自有住房折算租金對(duì)衡量經(jīng)濟(jì)發(fā)展趨勢和居民福利狀況至關(guān)重要。
(二)國際上關(guān)于自有住房折算租金的主要估算方法
由于自有住房折算租金是計(jì)算并沒有發(fā)生的現(xiàn)金交易,只能通過虛擬估算,假設(shè)該自有住房參與市場交易,得到虛擬的市場價(jià)格。因此,其估算方法的選擇直接決定了自有住房折算租金的結(jié)果。聯(lián)合國SNA給出推薦方法有兩種,主要是等值租金法(rental-equivalence approach,也稱為市場租金法)和使用者成本法(user-cost approach)。等值租金法適用于房屋租賃市場比較完善的國家,以真實(shí)的市場交易價(jià)格作為估算標(biāo)準(zhǔn)。當(dāng)該方法在本國不適用時(shí),即無法得到合理的、具有代表性的市場租金價(jià)格時(shí),可采用第二種使用者成本法。
(三)我國住戶調(diào)查中自有住房折算租金調(diào)查方法
考慮到國內(nèi)很多地區(qū)還不存在規(guī)范和成熟的房屋租賃市場,目前我國住戶調(diào)查中,自有住房折
算租金采用折舊法計(jì)算。具體方法是:
自有住房折算租金=自有住房市場現(xiàn)價(jià)估值×年折舊率(城鎮(zhèn)地區(qū)2%,農(nóng)村地區(qū)3.03%)
自有住房折算凈租金=自有住房折算租金–購建房分?jǐn)偝杀?/p>
目前,我國住戶調(diào)查體系中,自有住房購買價(jià)調(diào)查數(shù)據(jù)較準(zhǔn),但房屋市場價(jià)估計(jì)值采用調(diào)查員輔助調(diào)查戶填報(bào),由于房屋市場價(jià)估計(jì)值變化大,在實(shí)際操作過程中存在調(diào)查困難現(xiàn)象,而且隨意性較大,從而影響居民可支配收入和消費(fèi)支出計(jì)算的精確度。
(四)網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用的構(gòu)想
在政府統(tǒng)計(jì)調(diào)查之外,當(dāng)前互聯(lián)網(wǎng)上有多個(gè)專業(yè)房產(chǎn)網(wǎng)站對(duì)城市房屋價(jià)格進(jìn)行實(shí)時(shí)公布。盡管這些價(jià)格為估算價(jià)格而非實(shí)際價(jià)格,但由于其和大眾的感受較趨一致,而逐漸被接受認(rèn)可甚至具有了權(quán)威性。其中最典型的代表是房價(jià)網(wǎng)(www.fangjia.com)。房價(jià)網(wǎng)數(shù)據(jù)主要利用爬蟲技術(shù),實(shí)時(shí)抓取新房和二手房成交記錄數(shù)據(jù),并利用數(shù)據(jù)模型推算出具體房屋市場價(jià)估計(jì)值,涉及包含住宅地址、板塊、建筑年份、建筑面積、小區(qū)物業(yè)費(fèi)、容積率和綠化率等信息,具有大數(shù)據(jù)特征。
當(dāng)然由于網(wǎng)絡(luò)數(shù)據(jù)數(shù)出多門,每家網(wǎng)站的估價(jià)不盡相同。實(shí)際研究中也發(fā)現(xiàn)存在部分?jǐn)?shù)據(jù)誤差較大或更新不及時(shí)。如某區(qū)域板塊如果一段時(shí)間零交易,則基于爬蟲技術(shù)的模型就無法擬合出最新的實(shí)際估值而造成數(shù)據(jù)失真。所以網(wǎng)絡(luò)大數(shù)據(jù)只能作為參考數(shù)據(jù),并不適合直接拿來使用。
本文設(shè)計(jì)目標(biāo)是通過利用取得房價(jià)網(wǎng)的部分?jǐn)?shù)據(jù)來建立模型,測算出上海某區(qū)域(小區(qū))的房屋市場估值,返回住戶調(diào)查系統(tǒng)中,對(duì)原有填報(bào)值進(jìn)行測算和評(píng)估(甚至替代),從而保證住戶調(diào)查中自有住房折算租金計(jì)算的精確度,進(jìn)而提高居民可支配收入及消費(fèi)支出數(shù)據(jù)的準(zhǔn)確性。
值得一提的是,本文模型并非為精確測算個(gè)案房價(jià)而建(事實(shí)上由于房價(jià)影響因素較多,很難有精確測算模型),而是致力于推算總體均值為目標(biāo)。
(一)數(shù)據(jù)預(yù)處理
1.數(shù)據(jù)源及字段描述
本文研究數(shù)據(jù)源為房價(jià)網(wǎng)(www.fangjia.com)提供的部分上海住房數(shù)據(jù),包含全部17個(gè)區(qū)縣,每個(gè)區(qū)縣各60個(gè)小區(qū),每個(gè)小區(qū)10條記錄。每條記錄為到戶的房屋信息,其中部分?jǐn)?shù)據(jù)有缺失(見表1)。
表1 數(shù)據(jù)源字段描述表
2.字段選取分析
房價(jià)網(wǎng)提供的數(shù)據(jù)字段共23個(gè),但其中一部分字段無法或者較難用于建模處理,因此需要對(duì)字段進(jìn)行分析并做篩選,選取適宜字段用于建模。
(1)放棄字段/數(shù)據(jù)
內(nèi)部或房價(jià)網(wǎng)自定義字段:房源ID、小區(qū)ID、板塊;難以數(shù)據(jù)化的字段:小區(qū)名、小區(qū)地址;數(shù)據(jù)散亂、帶有主觀因素的字段:朝向、裝修;數(shù)據(jù)量少、分布極為分散的字段:所在樓層、總樓層、室、廳、衛(wèi)。
另外因住戶調(diào)查主要針對(duì)普通住宅,因此選取物業(yè)類型字段為普通住宅的數(shù)據(jù),刪去其他兩類物業(yè)類型對(duì)應(yīng)的數(shù)據(jù);因目標(biāo)是能應(yīng)用于住戶調(diào)查,而最近能用于比較的住戶調(diào)查數(shù)據(jù)為2015年年報(bào)數(shù)據(jù)。故放棄2014-12、2016-3兩個(gè)字段,保留2015-12字段。
觀察發(fā)現(xiàn),各小區(qū)10個(gè)房屋的均價(jià)是相同的,為了后續(xù)數(shù)據(jù)處理節(jié)省資源與空間,故將每個(gè)小區(qū)只提取一個(gè)記錄,刪去其他數(shù)據(jù)。
(2)保留字段/數(shù)據(jù)
區(qū)域、建筑年份、容積率、綠化率、車位比、物業(yè)費(fèi)、面積、2015-12
3.利用網(wǎng)絡(luò)爬蟲技術(shù)新增學(xué)區(qū)房字段
學(xué)校教育資源越來越成為買房的一個(gè)重要考慮因素,因此是否是學(xué)區(qū)房,對(duì)于房價(jià)是有顯著影響的。中原地產(chǎn)上海網(wǎng)站中有根據(jù)學(xué)區(qū)房來進(jìn)行小區(qū)分類的搜索條件,我們采用網(wǎng)絡(luò)爬蟲獲取了709所網(wǎng)站所列的幼兒園及小學(xué)對(duì)應(yīng)的小區(qū),用于和現(xiàn)有房價(jià)網(wǎng)提供的小區(qū)數(shù)據(jù)比對(duì),建立了新字段學(xué)區(qū)房,數(shù)值1代表小區(qū)內(nèi)房屋屬于學(xué)區(qū)房,數(shù)值0代表小區(qū)內(nèi)房屋不屬于學(xué)區(qū)房(受限于網(wǎng)站分類是否科學(xué)準(zhǔn)確詳盡,以及學(xué)校也有優(yōu)劣之分等因素,該字段只能算是建模的一次嘗試)。
4.字段數(shù)據(jù)清理及插補(bǔ)過程
區(qū)域字段:根據(jù)上海市實(shí)際情況,對(duì)17個(gè)區(qū)縣進(jìn)行分類處理,分為4檔并賦值(離散型):數(shù)值4代表金山、崇明,數(shù)值3代表奉賢、青浦、松江、嘉定,數(shù)值2代表閔行、寶山以及浦東除去源深、碧云、陸家嘴的地區(qū),數(shù)值1代表剩下的區(qū)域。
建筑年份字段:本身為日期型數(shù)據(jù),部分?jǐn)?shù)據(jù)存在月份,如2015-12,處理為只包含年份信息的數(shù)值型數(shù)據(jù)。建筑年份數(shù)據(jù)存在空值170個(gè),占總數(shù)據(jù)10200的1.67%,且年份數(shù)據(jù)分布較廣不宜采用插補(bǔ)等方式補(bǔ)全,故刪除空值數(shù)據(jù)。
容積率字段:本身為數(shù)值型,將所有數(shù)據(jù)直接處理為保留兩位小數(shù)。容積率數(shù)據(jù)存在空值90個(gè),占總數(shù)據(jù)10200的0.89%,占比較小,故刪除空值數(shù)據(jù)。
綠化率字段:本身為數(shù)值型,直接保留原數(shù)據(jù)。綠化率數(shù)據(jù)存在空值70個(gè),占總數(shù)據(jù)10200的0.69%,占比較小,故刪除空值數(shù)據(jù)。
車位比字段:因本身為比值型,需要處理為數(shù)值型,根據(jù)定義和數(shù)據(jù)觀察,將該字段重新定義為每一戶可用車位數(shù),如原數(shù)據(jù)為1∶0.7,則處理后應(yīng)為0.7,代表該小區(qū)每一戶有0.7個(gè)車位。
物業(yè)費(fèi)字段:本身為數(shù)值型,將所有數(shù)據(jù)直接處理為保留兩位小數(shù)。物業(yè)費(fèi)數(shù)據(jù)存在空值450個(gè),采用區(qū)域物業(yè)費(fèi)均值補(bǔ)全法,用已有物業(yè)費(fèi)數(shù)據(jù)分17個(gè)區(qū)縣求出均值,然后根據(jù)空值所在區(qū)縣補(bǔ)全。
面積、2015-12兩個(gè)字段:因房價(jià)一般討論均價(jià),故將這兩個(gè)字段合并處理為2015年12月均價(jià)一個(gè)字段,利用2015年12月總價(jià)除以面積得到該字段的值。
最終得到數(shù)據(jù)預(yù)處理結(jié)果,共保留910個(gè)記錄。
(二)模型擬合過程
1.回歸樹建模
數(shù)據(jù)準(zhǔn)備工作結(jié)束后,根據(jù)預(yù)期目標(biāo),擬建立小區(qū)房屋均價(jià)預(yù)測模型。這里的小區(qū)房屋均價(jià)作為預(yù)測變量為連續(xù)型數(shù)值變量,而相關(guān)因素變量中既包括了區(qū)域、學(xué)區(qū)房等離散型變量,也有容積率、綠化率等連續(xù)型變量,故首先采用回歸樹模型擬合。執(zhí)行R程序后,擬合結(jié)果的圖示如下:
由上圖可以明顯發(fā)現(xiàn)qy(區(qū)域)字段為最重要的分類指標(biāo)。qy=1的市中心板塊和qy=2,3,4,的其他板塊為第一節(jié)點(diǎn)分類指標(biāo)。在左側(cè)樹的進(jìn)一步細(xì)分節(jié)點(diǎn)上也主要根據(jù)qy指標(biāo)進(jìn)行分類。這是符合實(shí)際的。
考慮到住戶調(diào)查的收入測算為城鎮(zhèn)自有住房
折算凈租金,范圍實(shí)際主要集中在中心城區(qū)板塊,這值得我們重點(diǎn)分析。同時(shí)也能進(jìn)一步研究分析除去區(qū)域字段后,其他因素對(duì)房價(jià)的影響。
2.中心城區(qū)板塊建模
選取中心城區(qū)板塊即qy=1的小區(qū)進(jìn)一步做模型擬合,這里涉及的變量為建筑年份、容積率、綠化率、車位比、物業(yè)費(fèi)和學(xué)區(qū)房等指標(biāo)。模型擬合結(jié)果如下:
從樹節(jié)點(diǎn)分類看,去除區(qū)域因素影響后,物業(yè)費(fèi)影響程度較高,其次為建筑年份。平均相對(duì)誤差(rel error)0.505,交叉驗(yàn)證估計(jì)誤差(xerror)0.695,標(biāo)準(zhǔn)誤差(xstd)0.083。
3.隨機(jī)森林模型建模
一般來說在連續(xù)型變量的預(yù)測上隨機(jī)森林模型優(yōu)于回歸樹模型,同時(shí)也能更好的分析變量重要性。故也嘗試采用此方法擬合模型。各變量的重要性如圖:
這里也分別計(jì)算了加入學(xué)區(qū)房字段前后,隨機(jī)森林的模型變量解釋度(%Var explained:),分別為38.88和40.64??梢?,是否學(xué)區(qū)房字段的加入增強(qiáng)了模型的有效性。
(三)模型結(jié)論
1.房屋所在的位置區(qū)域即板塊地段是影響房屋價(jià)格的首要因素。模型很清晰地反映了中心城區(qū)和近遠(yuǎn)郊的房價(jià)區(qū)別,和實(shí)際情況相符。
2.一般認(rèn)為物業(yè)費(fèi)只和維護(hù)成本有關(guān),同房價(jià)并無直接聯(lián)系。但同地段下,物業(yè)費(fèi)越高的小區(qū),房型質(zhì)量越好,房屋價(jià)格越高。物業(yè)費(fèi)也是影響房屋價(jià)格的重要參考因素。同理,建筑年份即房齡,房屋新舊顯然也是影響房屋價(jià)格的重要指標(biāo)。
3.雖然在小區(qū)指標(biāo)上,容積率是比較重要的衡量指標(biāo)。但相對(duì)來說,由于高層住宅小區(qū)容積率較低,而房齡卻較新。而越市中心的區(qū)域“寸土寸金”,這項(xiàng)指標(biāo)的影響度被模糊,對(duì)房屋價(jià)格的影響不及上述指標(biāo)。
4.學(xué)區(qū)房預(yù)想應(yīng)當(dāng)是較為重要的影響因素。但由于學(xué)區(qū)房的影響程度很難量化,本文僅作是否是的處理。每個(gè)學(xué)校的名氣不一,影響程度自然也不同,可能使其對(duì)房屋價(jià)格的影響度弱化。在本模型中的影響程度和容積率等同處第二類別。同時(shí)通過模型解釋得出,學(xué)區(qū)房字段的加入對(duì)模型有完善作用。
5.至于車位比,雖就追求品質(zhì)來說是小區(qū)車位越多越好,但在市中心區(qū)域房價(jià)較高的地方,車位極其緊張。另市中心板塊小區(qū)的綠化率基本集中在30%-50%的區(qū)間,區(qū)分度并不是很大,實(shí)際上人們也不太會(huì)優(yōu)先關(guān)注這一指標(biāo)。從模型結(jié)構(gòu)看,這兩指標(biāo)對(duì)小區(qū)房價(jià)的影響度相對(duì)不高,屬第三類別。
本文模型經(jīng)過了自身的驗(yàn)證,但最終具體的成果是將應(yīng)用到住戶調(diào)查中,故應(yīng)嘗試實(shí)證測算住戶調(diào)查數(shù)據(jù)。這里利用2015年上海住戶調(diào)查的部分樣本數(shù)據(jù)進(jìn)行模型的實(shí)證測算。
(一)樣本數(shù)據(jù)準(zhǔn)備
首先,我們從住戶樣本中對(duì)市中心各區(qū)及浦東中心地區(qū)共8個(gè)區(qū)域內(nèi)各抽取2個(gè)小區(qū),共16個(gè)小區(qū)。通過2015年住戶調(diào)查年報(bào)數(shù)據(jù)中的自有住房市場價(jià)估計(jì)值和建筑面積指標(biāo)計(jì)算得到這些小區(qū)的房屋均價(jià)。同時(shí)提取住戶調(diào)查數(shù)據(jù)中的房屋
建筑年份數(shù)據(jù)字段。
因本文模型的建立其他所需的其他相關(guān)字段,住戶調(diào)查數(shù)據(jù)中并沒有現(xiàn)成存在,我們通過在網(wǎng)上查詢?nèi)〉?,包括容積率、綠化率、車位比和物業(yè)費(fèi)等指標(biāo),是否學(xué)區(qū)房指標(biāo)通過地址匹配小區(qū)后獲得。實(shí)際操作中發(fā)現(xiàn),由于這些指標(biāo)是相對(duì)確定的客觀指標(biāo),在專業(yè)的房產(chǎn)網(wǎng)上可以較容易地獲得。同時(shí),我們也在搜房網(wǎng)上查詢到這些小區(qū)的網(wǎng)站評(píng)估價(jià)格作為參考數(shù)據(jù)。
(二)測算結(jié)果比較分析
將多來源收集的指標(biāo)數(shù)據(jù)輸入上述建立的預(yù)測模型中進(jìn)行測算,將測算結(jié)果與其他來源數(shù)據(jù)進(jìn)行比較。比較結(jié)果如下(見表2):
表2 模型測算結(jié)果比較表 (單位:元)
從測算結(jié)果看,這些小區(qū)搜房網(wǎng)的均價(jià)為60356元,住戶調(diào)查得到的數(shù)據(jù)均值為33235元,差異較大。而采用回歸樹和隨機(jī)森林模型擬合的小區(qū)均價(jià)分別為58466元和61503元,與搜房網(wǎng)較為接近,差異分別僅為-3.1%和1.9%。
當(dāng)然網(wǎng)上評(píng)估價(jià)并非完全就等同于真實(shí)價(jià)格,但目前專業(yè)網(wǎng)站的評(píng)估價(jià)格一般更讓公眾承認(rèn)與接受,可認(rèn)為更貼合實(shí)際。由此看來,住戶調(diào)查數(shù)據(jù)存在低估的概率較大,而本文模型擬合的總體均值則更接近實(shí)際。
(一)本文有待改進(jìn)的地方
1.數(shù)據(jù)源獲取需進(jìn)一步建立溝通機(jī)制
由于此次使用的數(shù)據(jù)來源只是選取小部分的房源信息,而非全部。相比大數(shù)據(jù)來說,數(shù)據(jù)量顯得有所欠缺。在和相關(guān)網(wǎng)站溝通并達(dá)成協(xié)議的前提下,取得更全面的數(shù)據(jù)信息,顯然對(duì)模型的精度提升會(huì)有相當(dāng)大的幫助。
本文建模旨在提供思路想法,也考慮到與同時(shí)期住戶調(diào)查數(shù)據(jù)比較,故采用2015年末時(shí)點(diǎn)的數(shù)據(jù)建模。如要實(shí)際投入正式應(yīng)用則需要建立從網(wǎng)站取得即時(shí)數(shù)據(jù)的溝通機(jī)制,以便隨時(shí)根據(jù)最新數(shù)據(jù)擬合模型,測算結(jié)果,以達(dá)到利用大數(shù)據(jù)的時(shí)效性特點(diǎn)。
2.房屋地址信息有待充分利用
對(duì)于房屋均價(jià)來說,地段永遠(yuǎn)是第一位的決定因素。雖然本文結(jié)合了區(qū)域指標(biāo),但只是粗略的大塊區(qū)分。如果能進(jìn)一步充分利用地址信息,建立地塊的細(xì)分法,也必將進(jìn)一步提高模型的精度。如開發(fā)商、交通便利程度、購物便利程度等都可能是影響房價(jià)的重要因素。如何取得這些指標(biāo)并量化結(jié)合到模型中,是值得將來繼續(xù)深入研究的。當(dāng)然,這一工作需要大量的數(shù)據(jù)和經(jīng)驗(yàn)積累才能逐步達(dá)成。
(二)未來構(gòu)想
通過本文研究,在充分利用大數(shù)據(jù)的情況下,有望通過較為準(zhǔn)確的客觀指標(biāo)建立數(shù)據(jù)挖掘模型來間接測算房屋市場價(jià)估計(jì)值,進(jìn)而推算出自有住房折算租金,而不需要讓調(diào)查對(duì)象做誤差較大的主觀估算。這樣做既降低調(diào)查成本,也能減少調(diào)查誤差,同時(shí)還具備時(shí)效性。
(責(zé)任編輯:曹家樂)
統(tǒng)計(jì)科學(xué)與實(shí)踐2016年10期