摘要:針對我國住房租賃市場存在的信息不對稱、租金不夠透明問題,提出基于互聯(lián)網(wǎng)數(shù)據(jù)和機器學(xué)習(xí)的住房租金預(yù)測方法。以深圳市居住小區(qū)租金為例,系統(tǒng)比較了支持向量回歸、前饋神經(jīng)網(wǎng)絡(luò)、XGBoost、隨機森林、K近鄰5種機器學(xué)習(xí)回歸算法的預(yù)測績效,并采用集成學(xué)習(xí)理論對模型有效性進行了增強,同時從機器學(xué)習(xí)的角度對住房租金影響因素進行了分析。結(jié)果顯示:隨機森林和XGBoost在住房租金預(yù)測問題上的預(yù)測性能優(yōu)于其他機器學(xué)習(xí)模型,而基于集成學(xué)習(xí)理論構(gòu)建的組合預(yù)測模型則優(yōu)于個體機器學(xué)習(xí)模型。進一步地,基于樹集成方法的特征重要性分析發(fā)現(xiàn),交通、教育以及區(qū)位條件是影響住房租金的關(guān)鍵影響要素。
關(guān)鍵詞:互聯(lián)網(wǎng)數(shù)據(jù);住房租金預(yù)測;機器學(xué)習(xí);集成學(xué)習(xí);組合模型
中圖分類號:F293 文獻標(biāo)識碼:A
文章編號:1001-9138-(2021)09-0053-61 收稿日期:2021-08-05
作者簡介:譚靜,中國科學(xué)院深圳先進技術(shù)研究院&深圳市房地產(chǎn)評估發(fā)展中心,博士后。
基金項目:中國博士后科學(xué)基金第68批面上資助項目“新時代背景下區(qū)位導(dǎo)向性政策‘內(nèi)卷化困境及突破路徑研究”(2020M682958)。
在人口城市化進程不斷加快、大城市“房價高企”以及“租購并舉”的背景下,住房租賃市場發(fā)揮作為住房買賣市場重要補充的角色越來越迫切。其中,住房租金是影響住房租賃市場能否健康平穩(wěn)發(fā)展的關(guān)鍵因素。當(dāng)前,住房租賃市場普遍存在信息不對稱、租金不透明問題。部分大中城市由于住房租金漲幅過快或波動較大,增加了居民租房壓力,不利于住房消費穩(wěn)定,同時透支城市居民未來消費能力,成為國內(nèi)擴大需求的障礙之一。2020年中央經(jīng)濟工作會議提出要“解決好大城市住房突出問題”“對租賃價格水平進行合理調(diào)控”。構(gòu)建一套科學(xué)合理、可操作性強的住房租金預(yù)測體系,掌握精細化尺度的住房租金水平及其空間分布,對規(guī)范和發(fā)展城市住房租賃市場具有重要意義。
互聯(lián)網(wǎng)和大數(shù)據(jù)的發(fā)展為不動產(chǎn)交易或房屋出租等帶來了越來越多便利,互聯(lián)網(wǎng)房租數(shù)據(jù)可以為研究提供大規(guī)模的住房信息。房屋租金通常由住房租賃市場供需等宏觀因素以及位置地段等房屋商品特征因素綜合決定,但是對于租房這個相對傳統(tǒng)的行業(yè)來說,信息嚴(yán)重不對稱一直存在。因此,利用實時更新的互聯(lián)網(wǎng)大數(shù)據(jù),構(gòu)建一種低成本、高效率、準(zhǔn)確性高且可推廣的住房租金預(yù)測模型,就顯得十分重要。既有關(guān)于住房租賃市場的研究主要集中于住房租賃制度和租金影響因素,住房租金預(yù)測相關(guān)的研究較少。機器學(xué)習(xí)是人工智能領(lǐng)域的新興研究方向,對建模數(shù)據(jù)的分布無嚴(yán)格限制,具有適用性強的優(yōu)勢。國內(nèi)外不少研究將機器學(xué)習(xí)引入到房地產(chǎn)預(yù)測領(lǐng)域,但研究對象主要集中于房價,在住房租金預(yù)測領(lǐng)域研究中的應(yīng)用仍然非常有限。
本文基于互聯(lián)網(wǎng)數(shù)據(jù)和機器學(xué)習(xí)相關(guān)方法,構(gòu)建組合預(yù)測模型實現(xiàn)對城市住房租金的精細化預(yù)測。為了驗證所提出方法和模型的準(zhǔn)確性,以深圳市居住小區(qū)租金為對象,采用在線房地產(chǎn)網(wǎng)站掛牌租賃數(shù)據(jù)對模型進行了實證檢驗。進一步地,基于機器學(xué)習(xí)模型的特征重要性,對影響住房租金的關(guān)鍵因素進行了分析和討論。本研究為城市住房租金批量預(yù)測提供了可借鑒、操作性強的思路和方法,可為政府制定房屋政策提供重要的決策依據(jù)。
1 相關(guān)理論基礎(chǔ)
1.1 特征價格理論
特征價格理論是研究異質(zhì)性產(chǎn)品價格形成的一種經(jīng)典理論,主要包含Lancaster 1966年提出的消費者理論和Rosen 1974年提出的市場供需均衡模型兩方面內(nèi)容。其核心思想是異質(zhì)產(chǎn)品是由大量內(nèi)在屬性構(gòu)成的,消費者對產(chǎn)品的需求是基于產(chǎn)品本身的各種屬性或特征,而非產(chǎn)品本身,這些屬性的組合影響了消費者的效用,進而影響消費者的支付意愿?;谠摾碚摚康禺a(chǎn)價格相關(guān)研究往往將住房價格或住房租賃價格的影響因素劃分為建筑特征、鄰里特征以及區(qū)位特征三大類。特征價格理論為確定住房租賃價格的影響因素提供了理論指導(dǎo)。
1.2 集成學(xué)習(xí)理論
集成學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域的一個龐大的分支,也是當(dāng)前的研究熱點之一。但嚴(yán)格意義上,集成學(xué)習(xí)(Ensemble Learning, EL)并非機器學(xué)習(xí)的一種算法,而是集成不同模型的一種策略或框架。根據(jù)學(xué)習(xí)理念的不同,集成學(xué)習(xí)可以大致分為裝袋法(Bagging)、提升法(Boosting)和堆棧法(Stacking)。三種集成學(xué)習(xí)策略的共同點在于:通過對多個弱學(xué)習(xí)器(基礎(chǔ)學(xué)習(xí)模型)進行集成實現(xiàn)知識融合以提升預(yù)測性能。區(qū)別在于,裝袋法通常考慮的是同質(zhì)弱學(xué)習(xí)器,且不同學(xué)習(xí)器之間的訓(xùn)練或?qū)W習(xí)是并行的,不存在互相依賴,模型最終結(jié)果按照某種確定性平均過程給出,代表性算法為隨機森林;提升法面向的通常也是同質(zhì)弱學(xué)習(xí)器,但不同學(xué)習(xí)器之間的學(xué)習(xí)是有序進行的,后一個弱學(xué)習(xí)器重點關(guān)注在前一個學(xué)習(xí)器中誤差較大的樣本,代表性算法為XGBoost;堆棧法則通常集成的是異質(zhì)弱學(xué)習(xí)器,不同學(xué)習(xí)器之間并行學(xué)習(xí),并通過一個元學(xué)習(xí)器(元學(xué)習(xí)模型)將弱學(xué)習(xí)器加以組合,根據(jù)不同弱學(xué)習(xí)器的預(yù)測結(jié)果輸出集成模型的最終結(jié)果。受大數(shù)定律啟發(fā)的集成學(xué)習(xí)被驗證為一種可有效提升機器學(xué)習(xí)模型性能的有效途徑,在解決不同領(lǐng)域的實際問題中顯示出了明顯優(yōu)勢,但其在住房租賃市場的應(yīng)用還相當(dāng)有限。
2 研究設(shè)計
本文選擇K近鄰、支持向量回歸、前饋神經(jīng)網(wǎng)絡(luò)、隨機森林和XGBoost 5種常見的機器學(xué)習(xí)回歸算法來構(gòu)建住房租金組合預(yù)測模型。在系統(tǒng)比較個體機器學(xué)習(xí)模型預(yù)測績效的基礎(chǔ)上,基于集成學(xué)習(xí)理論中的堆棧法構(gòu)建集成學(xué)習(xí)模型,試圖說明集成學(xué)習(xí)模型在住房租金預(yù)測問題上的優(yōu)勢。
2.1 數(shù)據(jù)來源及預(yù)處理
2.1.1 數(shù)據(jù)來源
本文選擇用于實證分析的目標(biāo)城市是我國四大一線城市之一——廣東省深圳市,它是國內(nèi)最發(fā)達、最活躍的住房租賃市場之一,也是全球住房租賃占比最高的城市之一。以深圳市的居住小區(qū)作為基本分析單元,以小區(qū)住房租金作為被解釋變量(模型輸出),以影響住房租金的影響因素作為解釋變量(模型輸入)訓(xùn)練租金預(yù)測模型。數(shù)據(jù)主要來源于兩方面:
一是在線房地產(chǎn)網(wǎng)站租賃清單。住房租金數(shù)據(jù)以及小區(qū)層面的特征數(shù)據(jù),從樂有家(leyoujia.com)、鏈家(lianjia.com)、房天下(fang.com)、Q房網(wǎng)(qfang.com)四家最受歡迎和規(guī)模最大的在線房地產(chǎn)市場網(wǎng)站獲取。主要字段包括出租房屋“所在區(qū)域”“小區(qū)名稱”“建成年代”“容積率”“總樓層”“租賃價格(總租金)”“出租建筑面積”“項目總戶數(shù)”“朝向”等,時間跨度為2020年8-12月。
二是POI數(shù)據(jù)。本文基于POI數(shù)據(jù)構(gòu)建空間變量集合以增強住房租金模型的預(yù)測性能。POI(Point of Information)是一種附帶名稱、地址以及類別屬性的點位置數(shù)據(jù),可以提供特定位置的關(guān)鍵社會經(jīng)濟信息。本文POI數(shù)據(jù)來源于高德地圖開放平臺(http://lbs.amap.com/),包括交通站點(地鐵站、公交站)、商業(yè)場所(購物中心、大型連鎖超市)、教育設(shè)施(大學(xué)、高中、初中、小學(xué))、醫(yī)療設(shè)施和風(fēng)景名勝區(qū)等。
2.1.2 變量選擇
本文依據(jù)特征價格理論并借鑒住房租金影響因素相關(guān)研究成果,選擇建筑特征、鄰里特征和區(qū)位特征三大類因素作為構(gòu)建住房租金預(yù)測模型的輸入變量,具體指標(biāo)見表1。關(guān)于指標(biāo)體系的簡要說明如下:
①建筑特征。是房屋自身的屬性,本文選取“小區(qū)建筑年齡”“項目規(guī)模”“建筑類型”以及“容積率”來體現(xiàn)小區(qū)本身的特征或品質(zhì),代理指標(biāo)基于在線房地產(chǎn)網(wǎng)站小區(qū)信息構(gòu)造。
②鄰里特征。居住小區(qū)周邊的配套或服務(wù)情況。本文選取交通、醫(yī)療、教育、商業(yè)、文體、金融、環(huán)境七類配套設(shè)施的數(shù)量或距離來體現(xiàn)房屋周邊配套設(shè)施或服務(wù)的可及性和便利性,代理指標(biāo)主要基于POI數(shù)據(jù)構(gòu)造。對于教育分類中的初中和小學(xué),本文認(rèn)為采取初中/小學(xué)學(xué)校的教育水平優(yōu)質(zhì)程度來反映其對住房租金的影響更為適合,代理指標(biāo)選擇學(xué)校在上一年度的全市排名來構(gòu)造。
③區(qū)位特征。房屋所處地理位置的優(yōu)劣程度。例如距離市中心的距離、距離海岸線的距離等。由于區(qū)位特征過于寬泛不好量化(例如許多城市具有多中心結(jié)構(gòu)、海岸線通常很狹長等),本文采取間接的方式,通過在模型中納入小區(qū)所在街道行政區(qū)這一變量來捕捉因區(qū)位特征差異導(dǎo)致的對住房租金的影響。由于建筑本身具有位置固定性,這一度量方式具有合理性。
2.1.3 數(shù)據(jù)預(yù)處理
原始數(shù)據(jù)存在大量雜質(zhì),需要對其進一步處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、特征組合或編碼及數(shù)據(jù)歸一化。
①數(shù)據(jù)清洗。識別并去除重復(fù)記錄,刪除關(guān)鍵字段如“總租金”或“出租面積”缺失的樣本;以“總租金”除以“出租面積”得到“月租單價”字段,剔除面積對租金的影響,根據(jù)“月租單價”排除虛假租賃記錄或信息明顯登記錯誤的情況。最后將“月租單價”聚合到小區(qū)層面作為該居住小區(qū)的平均租金,即被解釋變量。最終一共獲得2643條居住小區(qū)層面的數(shù)據(jù)。
②特征編碼。主要針對類別型(分類)特征進行,采用獨熱編碼(One–Hot)方式將類別型變量轉(zhuǎn)換為啞變量,數(shù)值型變量直接采用其數(shù)值。
③數(shù)據(jù)歸一化。歸一化可以消除不同量綱的影響,同時提高模型預(yù)測精度。經(jīng)歸一化后的數(shù)據(jù)分布在0到1之間。數(shù)據(jù)歸一化的計算公式如式(1):
2.1.4 特征約簡
在機器學(xué)習(xí)問題上,當(dāng)變量維度過高時,并不是所有的變量與預(yù)測結(jié)果都是相關(guān)的,一些不相關(guān)變量可能會形成噪音,對模型預(yù)測精度產(chǎn)生負(fù)面影響。因此,需要通過特征選擇篩選對住房租金真正有影響的特征以提高模型精度,規(guī)避過擬合的現(xiàn)象。本文采用套索法(Lasso)進行特征選擇。套索法與傳統(tǒng)普通最小二乘(OLS)方法相當(dāng)接近,不同于OLS通過最小化殘差平方和求解系數(shù)值,套索法求解的目標(biāo)方程(式2)在殘差平方和的基礎(chǔ)上加上了系數(shù)的絕對值之和(L1范數(shù)),后者迫使重要性較低的變量系數(shù)取值為0。因此,套索法天然地是進行特征選擇的一種方法。按照Lasso回歸的結(jié)果,系數(shù)為0的變量則被剔出建模過程中輸入模型的影響因素集合。
其中? 是系數(shù)向量的一階范數(shù),是常數(shù),控制對冗余變量的懲罰度力度。
2.2 模型構(gòu)建流程
本文住房租金預(yù)測模型的理論架構(gòu)是首先應(yīng)用套索法作為前置模型對輸入預(yù)測模型的特征集合進行預(yù)處理,在保證信息完整的情況下刪除冗余屬性;然后以約簡后的、解釋能力強的關(guān)鍵特征作為機器學(xué)習(xí)模型的輸入,對模型進行訓(xùn)練和預(yù)測;最后基于堆棧法集成學(xué)習(xí)策略對個體機器學(xué)習(xí)模型進行融合,得到組合模型。在數(shù)據(jù)預(yù)處理后,具體建模步驟如下:
(1)輸入輸出變量確定。以居住小區(qū)租金作為模型輸出,以套索法約簡后的特征集合作為模型輸入。
(2)數(shù)據(jù)集拆分。按一定比例將數(shù)據(jù)集拆分為訓(xùn)練集和測試集,同時訓(xùn)練集再次拆分為學(xué)習(xí)集和驗證集。其中,訓(xùn)練集用于訓(xùn)練模型,測試集用于驗證模型的預(yù)測性能。
(3)機器學(xué)習(xí)模型設(shè)計。超參數(shù)的選擇對機器學(xué)習(xí)模型的結(jié)構(gòu)乃至預(yù)測結(jié)果有著較大的影響,本文采用網(wǎng)格搜索結(jié)合K折交叉驗證方法自動尋優(yōu)確定超參數(shù),完成每一個機器學(xué)習(xí)模型的建立。交叉驗證將訓(xùn)練集分為k個子集(稱為折),對訓(xùn)練的模型進行訓(xùn)練和評估k次。每次選擇k-1折進行訓(xùn)練,剩余1折用來評估模型。K折交叉驗證結(jié)果表示為包含k個評估分?jǐn)?shù)的數(shù)組。
(4)組合模型構(gòu)建。①對于步驟(3)確定的每一個具有最優(yōu)超參數(shù)的機器學(xué)習(xí)模型(個體學(xué)習(xí)模型),基于訓(xùn)練集對模型進行訓(xùn)練并采用測試集對模型預(yù)測能力進行打分,按照預(yù)測性能高低進行降序排序;②從具有最優(yōu)預(yù)測性能的模型開始,依次選擇兩個或多個個體學(xué)習(xí)模型,采用堆棧法集成學(xué)習(xí)策略構(gòu)建組合模型,按照上述組合方法,5種個體學(xué)習(xí)模型最終形成4個組合模型,可記為stack #1~stack #4;③以個體學(xué)習(xí)模型的輸出作為組合模型的輸入,居住小區(qū)租金作為組合模型輸出,訓(xùn)練并評價不同組合模型的預(yù)測性能,得到最優(yōu)組合模型。
2.3 模型評價指標(biāo)
本文采用均方根誤差(Root Mean Squared Error,RMSE)、平均絕對百分比誤差 (Mean Absolute Percentage Error,MAPE)、可決系數(shù)R2來比較不同模型的預(yù)測性優(yōu)劣。RMSE和MAPE的計算過程如公式(3)至(5):
其中,N是測試數(shù)據(jù)集的樣本數(shù)量,yi,true是第i個樣本租賃價格的真實值,yi,pred是模型對第i樣本的租賃價格預(yù)測值。是樣本平均值。
3 實證結(jié)果分析與討論
實證過程采用Python語言下的skicit-learn庫進行模型構(gòu)建和實現(xiàn)。樣本拆分環(huán)節(jié)訓(xùn)練集和測試集的比例設(shè)定為7:3。為保證公平評價,應(yīng)用K折交叉驗證檢驗預(yù)測模型的性能,模型得分以交叉驗證的結(jié)果為準(zhǔn)。考慮到計算時間,k設(shè)定為10。下文首先對5種機器學(xué)習(xí)模型的預(yù)測性能進行評價,接著討論組合模型的預(yù)測性能相對單個機器學(xué)習(xí)模型是否有所提升,最后根據(jù)隨機森林和XGBoost的特征重要性排序結(jié)果對住房租金的關(guān)鍵影響因素進行分析和討論。
3.1 個體機器學(xué)習(xí)模型預(yù)測分析
表2匯集了5種經(jīng)典機器學(xué)習(xí)算法的關(guān)鍵參數(shù)設(shè)置和預(yù)測性能評估指標(biāo),也匯集了特征價格模型的預(yù)測結(jié)果,作為性能對比的基準(zhǔn)以便比較。結(jié)果顯示,無論是哪一種評估指標(biāo)進行評判,機器學(xué)習(xí)模型的預(yù)測性能均優(yōu)于特征價格模型(RMSE=17.88,MAPE=16.97%,R2=0.59)??赡艿脑蛟谟?,住房租金和各種影響因素之間存在非線性關(guān)系,而特征價格模型為線性模型,不如機器學(xué)習(xí)模型在處理多變量和非線性特征方面有優(yōu)勢,因此其預(yù)測性能略遜一籌。
從RMSE來看,各個機器學(xué)習(xí)模型的RMSE從小到大排序為XGBoost (5.63) XGBoost和RF本質(zhì)上都是基于決策樹的集成模型。決策樹算法容易過擬合,泛化能力不強,樣本發(fā)生輕微改動就可能導(dǎo)致樹結(jié)構(gòu)的劇烈改變。理論上,經(jīng)過集成的XGBoost和RF可改善決策樹的缺陷。就本實證得到的結(jié)果來看,以Boosting策略構(gòu)建的XGBoost性能略優(yōu)于以Bagging策略構(gòu)建的RF。相比決策樹,XGBoost在特征粒度上實現(xiàn)并行優(yōu)化,并且采取正則化項防止過擬合,不僅降低了過擬合,而且提高了計算效率。 由于對數(shù)據(jù)維度不敏感,既有實踐傾向于認(rèn)為SVR相比其它機器學(xué)習(xí)算法更穩(wěn)健和精確,本文的實證結(jié)論一定程度上與既有研究吻合,SVR取得相對較好的預(yù)測績效,排序第三,其RMSE為8.78,MAPE為6.57%,R2為0.90。 至于神經(jīng)網(wǎng)絡(luò),理論上具有三層網(wǎng)絡(luò)結(jié)構(gòu)的BPNN模型已經(jīng)可以無限逼近任何非線性函數(shù)。然而在實際應(yīng)用方面,由于網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計可能導(dǎo)致梯度下降算法陷入局部最優(yōu)解,導(dǎo)致泛化能力低。本文實證中采取了一些策略(例如Early_Stopping)防止模型過擬合,取得一定效果,但BPNN的整體預(yù)測性能處于5種算法的中等水平(RMSE=9.38,MAPE=7.98%,R2=0.89)。 KNN作為一種懶惰學(xué)習(xí)算法,沒有一般意義上的學(xué)習(xí)過程。研究表明,在數(shù)據(jù)質(zhì)量好的情況下,KNN也能取得令人滿意的結(jié)果。但當(dāng)存在樣本不平衡問題(即有些類別的樣本數(shù)量很多,而其它樣本的數(shù)量很少)時可能效果不佳。KNN在本文對5種機器學(xué)習(xí)模型的比較分析中表現(xiàn)最差(RMSE=17.15,MAPE=13.25%,R2=0.62)。 3.2 組合模型預(yù)測分析 5種個體機器學(xué)習(xí)模型存在多種構(gòu)建組合模型的方式。根據(jù)各個模型的RMSE對其進行升序排列(則預(yù)測性能降序):XGBoost 對于每一種個體學(xué)習(xí)模型組合,我們循環(huán)SVR、BPNN、XGBoost、RF和KNN作為元模型構(gòu)建組合模型,結(jié)果發(fā)現(xiàn)BPNN作為元模型能得到最高預(yù)測精度。本文以效果最好的BPNN作為stack #1到 #4的元模型。4種組合模型的預(yù)測評價指標(biāo)值匯集于表3。通過結(jié)合XGBoost和RF (stack #1),預(yù)測誤差(擬合優(yōu)度)減少(提高)到小于(大于)兩個個體學(xué)習(xí)模型中的任何一個(RMSE =5.49,MAPE =5.43%,R2 =0.89)。當(dāng)進一步增加模型,即SVR,stack #2 的RMSE和MAPE進一步減小,R2進一步提高;同樣地,BPNN的加入改善了stack #3模型的預(yù)測性能,此時組合模型的RMSE達到了4.57,MAPE 4.19%,R2提高到0.93。然而,第4個模型KNN加入?yún)s不能促使組合模型的性能進一步改善,stack #4的RMSE (7.72)和MAPE (7.13%)均高于stack #3,R2 (0.88)則低于stack #3,意味著stack #4相比stack #3性能更弱了。總體而言,XGBoost、RF、SVR和BPNN集成的模型stack #3預(yù)測性能最優(yōu),高于任一個體機器學(xué)習(xí)模型。盡管 stack #4的預(yù)測性能相對其他組合較差,其預(yù)測性能依舊高于大部分個體學(xué)習(xí)模型,包括BPNN和KNN,說明組合模型比個體機器學(xué)習(xí)模型有效。
3.3 特征重要性分析
通過特征重要度可以識別影響住房租金的關(guān)鍵特征?;跊Q策樹的機器學(xué)習(xí)算法,包括XGBoost和隨機森林,具有自然的變量選擇結(jié)構(gòu)。本文模型實現(xiàn)基于Python的skicit-learn庫,該庫已內(nèi)置了樹模型的特征重要性排序函數(shù)。在模型訓(xùn)練完成后,基于對應(yīng)函數(shù)提取了各個特征對于預(yù)測模型的重要度,依據(jù)隨機森林模型和XGBoost模型得到的重要性排名(從大到?。┘皩?yīng)權(quán)重如表4所示。
結(jié)合表4中的隨機森林模型和XGBoost模型的特征重要性排序結(jié)果,可以識別影響深圳市居住小區(qū)租金的關(guān)鍵影響因素為交通、教育、醫(yī)療、小區(qū)品質(zhì)以及區(qū)位等,以下根據(jù)重要性依次進行分析。
交通配套方面,X7 (小區(qū)附近地鐵站點的數(shù)量)在兩個模型中重要性均排前列。地鐵站點數(shù)量/密度衡量了小區(qū)居民對地鐵的總體可用性和機會,豐富的地鐵配套提高了出行便利度,大大縮短了通勤時間。教育配套方面,X12 (小區(qū)至高中學(xué)校的最短距離)和X16 (小區(qū)附帶初中學(xué)位全市排名)均排在前列,說明小區(qū)周邊的教育資源對住房租金有顯著影響,這與現(xiàn)實情況相符合。其他配套方面,X10 (小區(qū)距離最近三甲/綜合醫(yī)院的距離)和X17 (小區(qū)附近商業(yè)配套數(shù)量)也體現(xiàn)了一定重要性,醫(yī)療和商業(yè)與居民生活密切相關(guān)。對居民而言,住宅周邊是否存在醫(yī)院,喜憂參半。醫(yī)院的存在可能導(dǎo)致小區(qū)周邊人口流動性大,產(chǎn)生交通擁堵且可能存在病菌感染威脅,而距離醫(yī)院過遠則在必要時難以享受到便利的醫(yī)療服務(wù)。因此,居住小區(qū)租金與其到醫(yī)院的距離之間可能體現(xiàn)為非線性關(guān)系,例如住房租金隨距離的增加先上升后下降。
另一個值得注意的特征是度量地理位置優(yōu)劣度的小區(qū)所在街道行政區(qū),可以看到Street27、Street33、Street45、Street31和Street32出現(xiàn)在了排名前十五的位次,其中Street27、Street33排到了前五。小區(qū)所在街道行政區(qū)本質(zhì)上屬于區(qū)位因素,好的區(qū)位往往意味著各種優(yōu)勢資源,其中有些是難以通過具體指標(biāo)一一量化或列舉的,這些潛在的優(yōu)勢資源顯然會影響租金。建筑特征中,X1 (小區(qū)建筑年齡)以及X3 (建筑類型)對租金也有一定影響。小區(qū)越老舊,裝修情況以及相應(yīng)的配套設(shè)施往往越差,同樣地段的情況下,租房者對老舊小區(qū)的租賃支付意愿更低。建筑類型對租金的影響邏輯體現(xiàn)在高層建筑通常配置電梯,年代較新,居住狀況較好,自然影響租金。
4 結(jié)語和啟示
針對我國大城市住房租賃市場的租金預(yù)測問題,本研究收集了2020年8月至12月深圳市在線房地產(chǎn)網(wǎng)站租賃數(shù)據(jù)和POI等相關(guān)數(shù)據(jù),結(jié)合特征價格理論、機器學(xué)習(xí)方法以及集成學(xué)習(xí)理論,系統(tǒng)對比了不同機器學(xué)習(xí)回歸算法在住房租賃市場租金預(yù)測這一問題中的實證績效,并基于機器學(xué)習(xí)中的集成學(xué)習(xí)理論構(gòu)建組合模型嘗試增強預(yù)測模型的有效性。同時,基于隨機森林和XGBoost模型,從機器學(xué)習(xí)的視角識別了各個影響因素在住房租金預(yù)測問題中的重要性。本研究證實了通過互聯(lián)網(wǎng)數(shù)據(jù)和機器學(xué)習(xí)相關(guān)方法實現(xiàn)高效率、低成本的城市住房租金預(yù)測的可行性,為住房租賃管理部門制定政策提供了技術(shù)參考。
參考文獻:
1.顧建發(fā) 王烽.探索房地產(chǎn)市場基礎(chǔ)性制度和長效機制——以發(fā)展住房租賃市場為重點.上海房地.2017.06
2.黃燕芬 王淳熙 張超 陳翔云.建立我國住房租賃市場發(fā)展的長效機制——以“租購?fù)瑱?quán)”促“租售并舉”.價格理論與實踐.2017.10
3.崔娜娜 崔丹 肖亮.城市住房租金價格影響因素的空間計量分析——基于GWR模型對北京市數(shù)據(jù)的分析.價格理論與實踐.2020.05
4.Jerez J M , Molina I , P J García-Laencina, et al. Missing data imputation using statistical and machine learning approaches in a real breast cancer problem.Artificial Intelligence in Medicine.2010
5.王阿忠 李倩.基于粗糙集神經(jīng)網(wǎng)絡(luò)的房產(chǎn)稅基批量評估研究.福州大學(xué)學(xué)報(哲學(xué)社會科學(xué)版).2019.33 (05)
6.陳詩沁 王洪偉.基于機器學(xué)習(xí)的房地產(chǎn)批量評估模型.統(tǒng)計與決策.2020.36 (09)
7.Lancaster, Kelvin J.A New Approach to
Consumer Theory.Journal of Political Economy.
1966.74 (2)
8.Rosen S.Hedonic Prices and Implicit Markets: Product Differentiation in Pure Competition.Journal of Political Economy.1974.82 (1)
9.Montero J M, Mínguez R, Fernández-Avilés G. Housing price prediction: parametric versus semi-parametric spatial hedonic models.Journal of Geographical Systems.2018.20 (1)