樸春慧, 武旭晨,2, 蔣學(xué)紅, 李玉紅
(1.石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043;2.中國(guó)銀行河北省分行 信息科技部,河北 石家莊 050000;3.河北省住房和城鄉(xiāng)建設(shè)廳 信息中心,河北 石家莊 050051;4.石家莊鐵道大學(xué) 經(jīng)濟(jì)管理學(xué)院,河北 石家莊 050043)
一個(gè)國(guó)家或地區(qū)的經(jīng)濟(jì)發(fā)展與房地產(chǎn)業(yè)的運(yùn)行狀況息息相關(guān)。但當(dāng)前與房地產(chǎn)價(jià)格相關(guān)的理論研究不成熟,評(píng)估方法較為依賴對(duì)過(guò)去的經(jīng)驗(yàn),一定程度上影響了房地產(chǎn)評(píng)估行業(yè)的發(fā)展[1]。當(dāng)前對(duì)房地產(chǎn)價(jià)格的預(yù)測(cè)存在著幾點(diǎn)不足。第一,由于我國(guó)房地產(chǎn)市場(chǎng)起步較晚,數(shù)據(jù)不完整,現(xiàn)有研究大都以年度數(shù)據(jù)對(duì)模型進(jìn)行實(shí)證研究,數(shù)據(jù)量不夠充足,影響了模型的準(zhǔn)確率[2];第二,以往的研究表明,民眾對(duì)于房地產(chǎn)市場(chǎng)的預(yù)計(jì)期望是決定房地產(chǎn)市場(chǎng)價(jià)格的重要因素[3],而現(xiàn)有的價(jià)格預(yù)測(cè)中少有考慮民眾預(yù)期這一指標(biāo);第三,現(xiàn)有研究大多使用房?jī)r(jià)作為房地產(chǎn)市場(chǎng)熱度的度量指標(biāo),但是由于房地產(chǎn)開(kāi)發(fā)周期較長(zhǎng),加之土地供給量對(duì)其價(jià)格的約束較大,且與銀行信貸關(guān)系密切,因此用房?jī)r(jià)作為整個(gè)房地產(chǎn)市場(chǎng)的度量指標(biāo)有一定的局限性[4]。
住宅銷售價(jià)格指數(shù)是綜合反映住宅商品價(jià)格水平總體變化趨勢(shì)和變化幅度的相對(duì)數(shù)。它通過(guò)百分?jǐn)?shù)的形式來(lái)反應(yīng)房?jī)r(jià)在不同時(shí)期的漲跌幅度。其優(yōu)點(diǎn)是同質(zhì)可比,這種方法反映的是排除房屋質(zhì)量、建筑結(jié)構(gòu)、地理位置、銷售結(jié)構(gòu)因素影響之后,由供求關(guān)系及成本波動(dòng)等因素帶來(lái)的價(jià)格波動(dòng)。北京市統(tǒng)計(jì)局給出了房?jī)r(jià)指數(shù)的具體計(jì)算說(shuō)明[5],具體操作是在住宅價(jià)格的基礎(chǔ)上,依據(jù)同質(zhì)可比的原則,按月調(diào)查每處住宅的價(jià)格變動(dòng),對(duì)其漲跌幅度進(jìn)行加權(quán)平均,最終得到全市住宅價(jià)格的變動(dòng)幅度。假設(shè)某市3、4月份住宅交易情況如表1所示, 房?jī)r(jià)指數(shù)編制原理可以簡(jiǎn)化為以下計(jì)算過(guò)程:
表1 某市3、4月份住宅交易情況
按交易面積加權(quán)計(jì)算的環(huán)比價(jià)格指數(shù)為:
按交易金額加權(quán)計(jì)算的環(huán)比價(jià)格指數(shù)為:
當(dāng)月價(jià)格環(huán)比指數(shù)為上述環(huán)比指數(shù)的算術(shù)平均數(shù)103.5%。由此可知,房?jī)r(jià)指數(shù)剔除了住宅之間的品質(zhì)差異,能夠更加準(zhǔn)確反映全市住宅價(jià)格的總體變化程度[5]。
住宅銷售價(jià)格指數(shù)分為城鎮(zhèn)新建住宅銷售價(jià)格指數(shù)和二手住宅銷售價(jià)格指數(shù)兩部分。其中,城鎮(zhèn)新建住宅銷售價(jià)格指數(shù)的統(tǒng)計(jì)范圍是所有進(jìn)入房地產(chǎn)市場(chǎng)第一次進(jìn)行產(chǎn)權(quán)交易及網(wǎng)上簽約的住宅交易價(jià)格,分為保障性住房和新建商品住宅兩部分[5]。本文主要研究的是影響因素對(duì)于新建商品住宅的非線性映射關(guān)系,從而預(yù)測(cè)其發(fā)展趨勢(shì),因此本文將國(guó)家統(tǒng)計(jì)局公布的新建商品房住宅銷售價(jià)格指數(shù)作為房地產(chǎn)價(jià)格的度量指標(biāo)。
針對(duì)房地產(chǎn)價(jià)格與其影響因素之間復(fù)雜的非線性關(guān)系,本文使用了兩種常用的機(jī)器學(xué)習(xí)算法來(lái)預(yù)測(cè)房地產(chǎn)價(jià)格的發(fā)展趨勢(shì),旨在有效降低由于評(píng)估人員主觀因素所造成的評(píng)估結(jié)果的偏差。在實(shí)證研究中參照住房和城鄉(xiāng)建設(shè)部門的政務(wù)數(shù)據(jù),收集整合了房產(chǎn)市場(chǎng)供求數(shù)據(jù)、宏觀經(jīng)濟(jì)調(diào)控政策、人們對(duì)當(dāng)前房?jī)r(jià)的預(yù)期和當(dāng)前本市房產(chǎn)經(jīng)濟(jì)發(fā)展情況等多源異構(gòu)數(shù)據(jù),建立了兩種房地產(chǎn)價(jià)格預(yù)測(cè)模型,并以華北某城市的月度數(shù)據(jù)為基礎(chǔ),結(jié)合ARIMA模型和經(jīng)典BP神經(jīng)網(wǎng)絡(luò)模型對(duì)兩種房地產(chǎn)價(jià)格評(píng)估模型進(jìn)行了對(duì)比分析。
房地產(chǎn)市場(chǎng)與社會(huì)經(jīng)濟(jì)聯(lián)系密切,同時(shí)受國(guó)家經(jīng)濟(jì)政策和預(yù)期計(jì)劃影響,也與民眾對(duì)當(dāng)前房地產(chǎn)價(jià)格的預(yù)期緊密相關(guān)[3]。莫連光[6]使用經(jīng)濟(jì)、行政、區(qū)域等因素來(lái)估算房地產(chǎn)市場(chǎng)價(jià)格;王筱欣[7]使用供給因素、需求因素以及經(jīng)濟(jì)發(fā)展因素對(duì)重慶市房?jī)r(jià)進(jìn)行了驗(yàn)證與預(yù)測(cè)。劉佼[1]以成都市為例引入了國(guó)民經(jīng)濟(jì)和房地產(chǎn)內(nèi)部協(xié)調(diào)等指標(biāo)組成了房地產(chǎn)市場(chǎng)警兆指標(biāo)體系。本文在全面參考房地產(chǎn)價(jià)格評(píng)估研究成果和數(shù)據(jù)挖掘模型性能的基礎(chǔ)之上,結(jié)合實(shí)驗(yàn)數(shù)據(jù)結(jié)構(gòu),參照政府部門數(shù)據(jù),選定了一種房地產(chǎn)價(jià)格評(píng)估指標(biāo)體系。以房地產(chǎn)供求關(guān)系、社會(huì)宏觀經(jīng)濟(jì)指標(biāo)、國(guó)家貨幣政策、民眾對(duì)房?jī)r(jià)的預(yù)期和房地產(chǎn)價(jià)格現(xiàn)狀作為一級(jí)指標(biāo),共17項(xiàng)二級(jí)指標(biāo)組成房地產(chǎn)價(jià)格評(píng)估指標(biāo)體系(表2)。為保證預(yù)測(cè)模型的超前性,本文使用上一個(gè)月的指標(biāo)數(shù)據(jù)來(lái)預(yù)測(cè)當(dāng)前月的房地產(chǎn)價(jià)格指數(shù)。
表2 房地產(chǎn)價(jià)格評(píng)估指標(biāo)體系
表2中,市商品房銷售成交面積/商品房批準(zhǔn)預(yù)售面積(月)、月新開(kāi)工面積增長(zhǎng)率(%)、月實(shí)際成交面積增長(zhǎng)率(%)、住宅實(shí)際成交面積/商品房實(shí)際成交面積(月)、商品房均價(jià)(元)來(lái)自住房和城鄉(xiāng)建設(shè)部門信息中心大數(shù)據(jù)分析平臺(tái);市固定資產(chǎn)投資_累計(jì)增長(zhǎng)(%)來(lái)自市統(tǒng)計(jì)局大數(shù)據(jù)平臺(tái);二手住宅銷售價(jià)格指數(shù)(上年=100)、城市居民消費(fèi)價(jià)格指數(shù)(上年同期=100)(%)、新建商品住宅銷售價(jià)格指數(shù)(上年=100)來(lái)自國(guó)家統(tǒng)計(jì)局;市月度GDP是影響房地產(chǎn)價(jià)格的重要影響因素,但當(dāng)前發(fā)布的GDP為季度數(shù)據(jù),月度數(shù)據(jù)缺失,但市規(guī)模以上工業(yè)增加值_累計(jì)值(億元)月度數(shù)據(jù)與市月度累計(jì)GDP關(guān)聯(lián)度較大,是GDP統(tǒng)計(jì)中的重要參考,本文使用市規(guī)模以上工業(yè)增加值_累計(jì)值(億元)近似表示當(dāng)月GDP;存款基準(zhǔn)利率(調(diào)整后)(%)、貸款基準(zhǔn)利率(調(diào)整后)(%)、大型金融機(jī)構(gòu)存款準(zhǔn)備金率(調(diào)整后)(%)、中小型金融機(jī)構(gòu)存款準(zhǔn)備金率(調(diào)整后)(%)、貨幣供應(yīng)量(億元)、貨幣供應(yīng)量同比增長(zhǎng)來(lái)自中國(guó)人民銀行官方網(wǎng)站;上階段預(yù)期本階段房?jī)r(jià)上漲的人數(shù)占比(%)來(lái)自中國(guó)人民銀行儲(chǔ)戶問(wèn)卷調(diào)查報(bào)告。
BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)是一種使用誤差逆向傳播算法訓(xùn)練得到的多層前饋型神經(jīng)網(wǎng)絡(luò)。其對(duì)應(yīng)算法為BP算法(誤差反向傳播算法),是一種經(jīng)典的監(jiān)督學(xué)習(xí)算法,其優(yōu)化目標(biāo)是使所有樣本經(jīng)過(guò)計(jì)算后的輸出結(jié)果與目標(biāo)輸出之間的均方誤差最小。算法主要分為兩個(gè)階段:信息前饋傳遞階段和誤差反向傳播階段[8-9]。在信息前饋傳遞階段,每層的輸入信息首先通過(guò)連接權(quán)值進(jìn)行計(jì)算,通過(guò)相應(yīng)的激活函數(shù)進(jìn)行變換得到輸出信號(hào),再將輸出信號(hào)作為輸入傳入下一層繼續(xù)進(jìn)行信息變換,最終得到網(wǎng)絡(luò)輸出;在誤差反向傳播階段,計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出與真實(shí)標(biāo)簽間的誤差,通過(guò)連接權(quán)值從輸出層反向傳播至輸入層,最后依據(jù)梯度值更新連接權(quán)值。信息前饋傳遞階段和誤差反向傳播階段構(gòu)成了一個(gè)迭代過(guò)程,循環(huán)不斷地更新神經(jīng)網(wǎng)絡(luò)中的權(quán)值和閾值,達(dá)到預(yù)先設(shè)置的迭代終止條件后結(jié)束,最終實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)中權(quán)值和閾值的最優(yōu)。
Boosting方法是一種用來(lái)提高弱分類算法準(zhǔn)確度的算法,基本思想是不斷使用基礎(chǔ)分類模型對(duì)數(shù)據(jù)進(jìn)行分析建模,在建模過(guò)程中通過(guò)不斷改變錯(cuò)分樣品的權(quán)重,建立一系列基礎(chǔ)分類模型,最后對(duì)其進(jìn)行線性加權(quán)組合得到一個(gè)強(qiáng)分類器[10]。1995年,F(xiàn)reundandSchapire提出的Adaboost算法是Boosting算法的一個(gè)典型代表[11]。其主要流程為:首先給出弱學(xué)習(xí)算法和樣本空間(x,y),從樣本空間中找出n組訓(xùn)練數(shù)據(jù),每組訓(xùn)練數(shù)據(jù)的權(quán)重都為1/n。然后用弱學(xué)習(xí)算法迭代運(yùn)算K次,每次運(yùn)算后按照分類結(jié)果更新訓(xùn)練數(shù)據(jù)的權(quán)重分布,對(duì)于分類失敗的訓(xùn)練個(gè)體賦予較大權(quán)重,下一次迭代運(yùn)算時(shí)更加關(guān)注這些訓(xùn)練個(gè)體。弱學(xué)習(xí)算法通過(guò)反復(fù)迭代得到一個(gè)分類函數(shù)序列f1,f2,… ,fK,每個(gè)分類函數(shù)賦予一個(gè)權(quán)重,分類結(jié)果越好的函數(shù),其對(duì)應(yīng)權(quán)重越大。K次迭代之后,由弱分類函數(shù)加權(quán)得到最終的強(qiáng)分類函數(shù)F[12-13]。
本文使用BP-Adaboost預(yù)測(cè)器作為房地產(chǎn)價(jià)格指數(shù)的預(yù)測(cè)模型之一。BP-Adaboost預(yù)測(cè)器是以BP神經(jīng)網(wǎng)絡(luò)作為模型的弱預(yù)測(cè)器,通過(guò)Adaboost算法得到的由多個(gè)BP神經(jīng)網(wǎng)絡(luò)組成的一種強(qiáng)預(yù)測(cè)器。
支持向量機(jī) (SupportVectorMachine,SVM)[14-15]是在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的基礎(chǔ)上發(fā)展起來(lái)的一種機(jī)器學(xué)習(xí)方法。支持向量回歸是支持向量機(jī)在回歸問(wèn)題上的擴(kuò)展,Vapnik在ε不敏感損失函數(shù)的基礎(chǔ)上提出了ε支持向量回歸機(jī)(ε-SVR),它要解決一個(gè)原始優(yōu)化問(wèn)題:
對(duì)于非線性回歸問(wèn)題,引入變換φ,將樣本映射到高維空間,再引入Lagrange函數(shù),將凸二次規(guī)劃問(wèn)題轉(zhuǎn)化為下面的對(duì)偶問(wèn)題[16]:
回歸估計(jì)模型轉(zhuǎn)化為:
式中,K(ui,uj)為核函數(shù);C為懲罰參數(shù);α(*)=為L(zhǎng)angrangec乘子向量,αi和為向量中的元素。
本文以支持向量回歸機(jī)作為房地產(chǎn)市場(chǎng)價(jià)格指數(shù)預(yù)測(cè)的模型之一,通過(guò)之后的調(diào)參工作確定相對(duì)參數(shù),使得模型的預(yù)測(cè)性能最優(yōu)。
本文以華北某市的房地產(chǎn)市場(chǎng)為示例對(duì)象,驗(yàn)證房地產(chǎn)價(jià)格指數(shù)預(yù)測(cè)模型的優(yōu)劣。本文收集了2010年1月開(kāi)始至2017年6月關(guān)于此市的各類月度指標(biāo)數(shù)據(jù)90條(如表3所示)。數(shù)據(jù)集中,固定資產(chǎn)投資、規(guī)模以上工業(yè)增加值缺失一月份數(shù)據(jù),由于其值為累計(jì)數(shù)據(jù),本文使用每月的平均增長(zhǎng)值得到其一月份的估計(jì)值。預(yù)期下季房?jī)r(jià)上漲的人數(shù)占比指標(biāo)數(shù)據(jù)頻率較低,需要將低頻數(shù)據(jù)轉(zhuǎn)換為高頻月度數(shù)據(jù),本文假設(shè)當(dāng)前月度的房?jī)r(jià)預(yù)期與當(dāng)前季的預(yù)期數(shù)據(jù)相同。
表3 華北某市房地產(chǎn)市場(chǎng)評(píng)估指標(biāo)數(shù)據(jù)
由于各影響因素指標(biāo)的表現(xiàn)形式不同,個(gè)別輸入分量差距較大,不能體現(xiàn)各分量的同等地位。且輸入過(guò)大時(shí),網(wǎng)絡(luò)容易進(jìn)入S型函數(shù)的包河區(qū),導(dǎo)致網(wǎng)絡(luò)無(wú)法收斂[12]。因此在網(wǎng)絡(luò)計(jì)算之前需要對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以提高網(wǎng)絡(luò)的訓(xùn)練速度。結(jié)合樣本數(shù)據(jù)的特點(diǎn)及量化標(biāo)準(zhǔn)與房地產(chǎn)價(jià)格成正比的特性,本文采用了歸一化的標(biāo)準(zhǔn)化方法。
為了準(zhǔn)確比較兩種預(yù)測(cè)模型的預(yù)測(cè)性能,本文按照8∶1的比例將數(shù)據(jù)集隨機(jī)地劃分成訓(xùn)練集和測(cè)試集,使用訓(xùn)練集分別訓(xùn)練兩種預(yù)測(cè)模型,使用測(cè)試集驗(yàn)證模型的預(yù)測(cè)性能。為了排除隨機(jī)劃分?jǐn)?shù)據(jù)集可能造成的偶然性結(jié)果,本文將上述實(shí)驗(yàn)進(jìn)行了6次,以6次實(shí)驗(yàn)的均值作為判斷模型預(yù)測(cè)性能的數(shù)據(jù)依據(jù)。
BP-Adaboost算法的參數(shù)主要分為強(qiáng)預(yù)測(cè)器Adaboost的訓(xùn)練誤差、訓(xùn)練次數(shù),和弱預(yù)測(cè)器BP神經(jīng)網(wǎng)絡(luò)中訓(xùn)練誤差、隱含層數(shù)、節(jié)點(diǎn)個(gè)數(shù)和傳遞函數(shù)與訓(xùn)練函數(shù)。Adaboost中訓(xùn)練誤差的設(shè)置不可太小,否則容易出現(xiàn)過(guò)擬合,也不能太大,容易出現(xiàn)欠擬合。本文借助MatlabR2016a中的神經(jīng)網(wǎng)絡(luò)工具箱,建立了BP-Adaboost預(yù)測(cè)模型。
經(jīng)過(guò)多次重復(fù)實(shí)驗(yàn)后,本文設(shè)置Adaboost的訓(xùn)練誤差為2,訓(xùn)練次數(shù)為20。使用3層BP神經(jīng)網(wǎng)絡(luò)作為弱預(yù)測(cè)器,根據(jù)訓(xùn)練樣本設(shè)置輸入層節(jié)點(diǎn)數(shù)14個(gè),輸出層1個(gè)。根據(jù)Hornik公式,隱層節(jié)點(diǎn)](其中,n為輸入層節(jié)點(diǎn)個(gè)數(shù),m為輸出層節(jié)點(diǎn)個(gè)數(shù)),設(shè)置隱含層節(jié)點(diǎn)數(shù)為20。設(shè)定弱預(yù)測(cè)器BP神經(jīng)網(wǎng)絡(luò)的誤差精度為0.0001,隱含層傳遞函數(shù)采用正切Sigmoid函數(shù)tansig(),輸出層傳遞函數(shù)采用S型激發(fā)函數(shù)logsig(),網(wǎng)絡(luò)訓(xùn)練函數(shù)采用tringlm(),設(shè)置最大訓(xùn)練次數(shù)為1000次,學(xué)習(xí)率為0.1,目標(biāo)誤差為0.0001。
Adaboost組合預(yù)測(cè)模型具體建模步驟如下:
(1)樣本數(shù)據(jù)權(quán)重初始化。首次迭代時(shí)設(shè)置每個(gè)樣本數(shù)據(jù)的權(quán)重相等,為D1(k)=1/n(k=1,2,…,n)。
(2)弱預(yù)測(cè)器預(yù)測(cè)。每次迭代前將當(dāng)前的BP網(wǎng)絡(luò)權(quán)值初始化為0,通過(guò)訓(xùn)練集訓(xùn)練n個(gè)弱預(yù)測(cè)器。若某一樣本數(shù)據(jù)預(yù)測(cè)誤差大于設(shè)定的閾值,表示產(chǎn)生了較大誤差,則將其累計(jì)權(quán)值相加得到這一弱預(yù)測(cè)器的權(quán)值之和:
式中,Errorj代表第j個(gè)弱預(yù)測(cè)器權(quán)值累加和;Di代表超過(guò)誤差閾值的數(shù)據(jù)的權(quán)值。
(3)更新樣本數(shù)據(jù)權(quán)重。若當(dāng)前BP網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果對(duì)此樣本誤差較小,未超過(guò)閾值,則其權(quán)值Di不變。若超過(guò)誤差閾值,則權(quán)值相對(duì)增加:
(4)弱預(yù)測(cè)器權(quán)值計(jì)算。根據(jù)弱預(yù)測(cè)器權(quán)值累加和Errorj計(jì)算當(dāng)前BP網(wǎng)絡(luò)的權(quán)值:
(5)構(gòu)建強(qiáng)預(yù)測(cè)器。經(jīng)過(guò)n次迭代后得到強(qiáng)預(yù)測(cè)器:
本文借助Python中的Scikit-Learn模塊建立了基于支持向量回歸算法的價(jià)格指數(shù)預(yù)測(cè)模型。Scikit-Learn模塊使用了SVR和NuSVR兩種回歸方式,相對(duì)于傳統(tǒng)SVR,NuSVR增加了一個(gè)參數(shù)nu來(lái)控制支持向量的百分比,在使用時(shí)與SVR中的參數(shù)ε等價(jià)。為獲得最優(yōu)的預(yù)測(cè)效果,本文比較了兩種回歸方式的優(yōu)劣,選擇性能最佳的回歸方式作為最優(yōu)預(yù)測(cè)模型。
核函數(shù)是支持向量機(jī)的核心,核函數(shù)的選擇直接影響支持向量歸回模型的準(zhǔn)確度。本文對(duì)常用的Linear核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)和Poly核函數(shù)做了對(duì)比分析。結(jié)合兩種回歸算法,共需要28個(gè)參數(shù)進(jìn)行優(yōu)化。具體需要優(yōu)化的參數(shù)如表4所示。
表4中,需要優(yōu)化的參數(shù)用√表示。核函數(shù)參數(shù)degree對(duì)應(yīng)多項(xiàng)式核函數(shù)中的參數(shù)d;參數(shù)gamma分別對(duì)應(yīng)多項(xiàng)式核函數(shù)、高斯核函數(shù)和sigmoid核函數(shù)中的參數(shù)γ;參數(shù)coef0分別對(duì)應(yīng)多項(xiàng)式核函數(shù)和sigmoid核函數(shù)中的參數(shù)r。
表4 不同核函數(shù)中需要優(yōu)化的參數(shù)
由于支持向量回歸模型的參數(shù)較多,手工調(diào)參工作量較大。為簡(jiǎn)化調(diào)參工作,本文設(shè)計(jì)了一個(gè)調(diào)參算法對(duì)回歸模型進(jìn)行參數(shù)優(yōu)化。由于本文提出的指標(biāo)體系為時(shí)間序列數(shù)據(jù),部分指標(biāo)數(shù)據(jù)在一段時(shí)間內(nèi)沒(méi)有改變(如貸款利率),所以在訓(xùn)練集和測(cè)試集的劃分時(shí)需要考慮這種數(shù)據(jù)對(duì)模型的影響。我們將全部數(shù)據(jù)隨機(jī)地劃分了50次,其中以80條數(shù)據(jù)作為訓(xùn)練集,10條數(shù)據(jù)為測(cè)試集對(duì)模型進(jìn)行調(diào)參工作。以模型在50次不同劃分方式下對(duì)測(cè)試集的擬合優(yōu)度作為回歸模型性能優(yōu)劣的評(píng)判標(biāo)準(zhǔn)。算法流程如圖1所示。
圖1 支持向量回歸機(jī)參數(shù)優(yōu)化流程圖
本文使用決定系數(shù)R2對(duì)模型的擬合優(yōu)度進(jìn)行評(píng)價(jià)[17],R2越接近于1表示模型對(duì)數(shù)據(jù)集的擬合優(yōu)度越好,其表達(dá)式為
圖2給出了NuSVR-Rbf模型的參數(shù)優(yōu)化結(jié)果,黃色實(shí)線表示模型對(duì)訓(xùn)練集的擬合優(yōu)度及其方差,藍(lán)色虛線表示對(duì)測(cè)試集的擬合優(yōu)度及其方差。根據(jù)圖2中顯示,參數(shù)C的最優(yōu)值在3.0附近。圖3給出了不同回歸方式下8種模型的性能優(yōu)劣。其中,圖3(a)表示模型對(duì)測(cè)試集的擬合優(yōu)度,圖3(b)表示模型對(duì)訓(xùn)練集的擬合優(yōu)度,點(diǎn)為均值,線為方差。實(shí)驗(yàn)結(jié)果顯示,NuSVR-Rbf模型的性能最優(yōu),可作為支持向量回歸的最優(yōu)預(yù)測(cè)模型。
圖2 NuSVR-Rbf中參數(shù)C的優(yōu)化示意圖
圖3 8種模型預(yù)測(cè)性能比較
為準(zhǔn)確判斷兩種預(yù)測(cè)模型的預(yù)測(cè)性能,本文使用ARIMA模型和經(jīng)典BP神經(jīng)網(wǎng)絡(luò)與本文模型做對(duì)比。由于ARIMA模型具有不直接考慮其他相關(guān)隨機(jī)變量變化的特點(diǎn),對(duì)未知時(shí)間的預(yù)測(cè)只與時(shí)間序列有關(guān),且只能預(yù)測(cè)未來(lái)連續(xù)一段時(shí)間內(nèi)價(jià)格指數(shù)的趨勢(shì),而經(jīng)典BP神經(jīng)網(wǎng)絡(luò)與本文所提出的支持向量回歸模型和BP_Adaboost模型可隨機(jī)預(yù)測(cè)不同時(shí)間的價(jià)格指數(shù)。為了排除實(shí)驗(yàn)過(guò)程中隨機(jī)劃分?jǐn)?shù)據(jù)集可能造成的偶然性結(jié)果,本文按8∶1的比例將90個(gè)月的數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,并重復(fù)劃分了6次,從而得到不同的數(shù)據(jù)集6組(Dataset1~Dataset6),以判斷經(jīng)典BP神經(jīng)網(wǎng)絡(luò)與本文所提模型的預(yù)測(cè)性能。為判斷連續(xù)型時(shí)間序列作為訓(xùn)練集所得的模型對(duì)未來(lái)較長(zhǎng)時(shí)間段的預(yù)測(cè)精度,本文以數(shù)據(jù)集中前80個(gè)月的數(shù)據(jù)為訓(xùn)練集,后10個(gè)月的數(shù)據(jù)為測(cè)試集組成數(shù)據(jù)集Dateset7,以判斷ARIMA模型和經(jīng)典BP神經(jīng)網(wǎng)絡(luò)模型與本文所提模型在連續(xù)型時(shí)間序列條件下預(yù)測(cè)性能的優(yōu)劣。表5~表7分別展示了6組數(shù)據(jù)集下支持向量回歸模型、BP-Adaboost模型和BP神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果,表8展示了連續(xù)型時(shí)間序列下4種模型的實(shí)驗(yàn)結(jié)果。
表5 支持向量回歸模型實(shí)驗(yàn)結(jié)果
Dataset 1Dataset 2Dataset 3Dataset 4Dataset 5Dataset 6 y_predy_ture 104.380105.4110.305110.1104.982103.7101.345102.199.78499.8101.ture y_predy_ture y_predy_ture y_predy_ture y_predy_ture y_predy_841101 103.913104.4 95.69495.2105.580105.3116.789116.8110.262110.1100.787101 100.57899.6106.592105.3102.687101.3102.586102.198.87597.8 95.293 95.5 107.115107.8102.496103.1 96.51496.7110.018111.6111.436111.8110.718110.3 117.381116.8102.748103.4108.256108.4109.389109.9102.136101.7104.847105.4 97.18097.5106.767107.5103.594104.6106.612106.7110.365109.6 99.581100 95.84095.2106.604106.3106.156106.8 99.984101.2102.687103.1110.700109.9 109.362109.9107.292107.8 95.58895.2110.768109.898.88599.6117.391119 107.180108.2120.026119 104.161105.4107.471107.8100.786101.1107.743108.2 100.186100.6117.298118 108.754109.1101.719101.5117.587116.8 96.784 97.1
表7 BP神經(jīng)網(wǎng)絡(luò)模型實(shí)驗(yàn)結(jié)果
表8 連續(xù)時(shí)間序列下四種模型的實(shí)驗(yàn)結(jié)果
考慮到房地產(chǎn)價(jià)格指數(shù)是一個(gè)反映價(jià)格變化趨勢(shì)和變化幅度的相對(duì)數(shù),本文使用平均絕對(duì)誤差MAE[18]對(duì)模型性能進(jìn)行評(píng)價(jià),如式(9)所示。模型在6個(gè)隨機(jī)數(shù)據(jù)集下的預(yù)測(cè)精度如表9所示。
表9 四種模型的平均絕對(duì)誤差
由表9可知,使用隨機(jī)劃分的數(shù)據(jù)集訓(xùn)練得到的預(yù)測(cè)模型,其平均絕對(duì)誤差均比使用連續(xù)時(shí)間序列數(shù)據(jù)集訓(xùn)練得到的預(yù)測(cè)模型小。在所有數(shù)據(jù)集中,BP-Adaboost模型對(duì)測(cè)試集數(shù)據(jù)預(yù)測(cè)的平均絕對(duì)誤差最小。
考慮到房地產(chǎn)市場(chǎng)與其影響因素的非線性映射關(guān)系,本文結(jié)合房地產(chǎn)供求關(guān)系、社會(huì)宏觀經(jīng)濟(jì)指標(biāo)、國(guó)家貨幣政策、民眾對(duì)房?jī)r(jià)的預(yù)期和上月房地產(chǎn)價(jià)格現(xiàn)狀等多源異構(gòu)數(shù)據(jù)提出了一套房地產(chǎn)價(jià)格評(píng)估指標(biāo)體系。分別使用BP-Adaboost算法和支持向量回歸算法建立了兩個(gè)房地產(chǎn)價(jià)格指數(shù)預(yù)測(cè)模型,以華北某市為對(duì)象對(duì)預(yù)測(cè)模型做了示例研究,并與ARIMA模型和經(jīng)典BP神經(jīng)網(wǎng)絡(luò)模型作對(duì)比。實(shí)驗(yàn)結(jié)果表明,使用隨機(jī)劃分的數(shù)據(jù)集訓(xùn)練得到的預(yù)測(cè)模型比使用連續(xù)時(shí)間序列數(shù)據(jù)集訓(xùn)練得到的預(yù)測(cè)模型誤差小。推測(cè)可能是由于預(yù)測(cè)時(shí)間段內(nèi)房地產(chǎn)市場(chǎng)出現(xiàn)了變化,過(guò)去的預(yù)測(cè)模型不再適用。同時(shí),相較于其他三種模型,BP-Adaboost模型的預(yù)測(cè)誤差最小,使用BPAdaboost模型預(yù)測(cè)房地產(chǎn)價(jià)格指數(shù)具有可行性。