曾 雙
(蘭州財(cái)經(jīng)大學(xué),蘭州 730030)
房地產(chǎn)價(jià)值的影響因素眾多且關(guān)系復(fù)雜,運(yùn)用傳統(tǒng)的評估方法具有一定的局限性。各影響因素對房價(jià)的影響不盡相同,運(yùn)用傳統(tǒng)的特征價(jià)格模型進(jìn)行簡單的線性回歸或非一般的線性回歸得出的評估結(jié)果缺乏可靠性。
隨機(jī)森林模型在特征價(jià)格模型的基礎(chǔ)之上進(jìn)行變量的選取,再進(jìn)行模型的建立,輸入變量得到評估結(jié)果。隨機(jī)森林模型常用于生態(tài)、醫(yī)藥及經(jīng)濟(jì)等方面。由于在研究過程中發(fā)現(xiàn)房地產(chǎn)評估中房價(jià)影響因素并非簡單的線性關(guān)系,傳統(tǒng)的方法存在局限性,得出的結(jié)果并不夠準(zhǔn)確,學(xué)者開始嘗試將隨機(jī)森林模型應(yīng)用于房地產(chǎn)評估中。本文對傳統(tǒng)評估方法進(jìn)行了梳理總結(jié),闡述隨機(jī)森林模型在房地產(chǎn)評估中的適用性,期望為隨機(jī)森林模型應(yīng)用于房地產(chǎn)評估提供理論支持。
Breiman(2001)在建立分類和預(yù)測模型時(shí),首次使用了隨機(jī)森林算法。隨機(jī)森林算法具有容易實(shí)現(xiàn)、分類速度快、可以處理大樣本數(shù)據(jù)的優(yōu)勢,在各個(gè)領(lǐng)域得到了快速的發(fā)展。
隨機(jī)森林算法的提出,在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用。在生態(tài)方面,張文強(qiáng)和羅格平(2021)等以北山北坡中段為例,運(yùn)用多元線性回歸和隨機(jī)森林模型對氣候變化和具體的人類活動(dòng)對北山北坡中段歸一化植被指數(shù)的影響進(jìn)行了分析,以此對內(nèi)陸干旱區(qū)植被指數(shù)變化與驅(qū)動(dòng)力進(jìn)行研究。在經(jīng)濟(jì)管理方面,何文琴和楊仕曉(2021)收集了3213 個(gè)網(wǎng)貸平臺的樣本數(shù)據(jù),從信息透明度、品牌影響力、平臺標(biāo)的特點(diǎn)、用戶點(diǎn)評、平臺安全系數(shù)五個(gè)維度,構(gòu)建P2P 網(wǎng)貸平臺違約風(fēng)險(xiǎn)量化評價(jià)體系,運(yùn)用隨機(jī)森林模型對評價(jià)體系進(jìn)行實(shí)證分析,從而量化P2P 網(wǎng)貸平臺的違約風(fēng)險(xiǎn),提高預(yù)測能力。在醫(yī)學(xué)上,耿曉斌和程云章(2021)分別構(gòu)建四種模型,使用重癥患者的血糖變異情況和基本病例信息構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行訓(xùn)練,預(yù)測患者能否在72h 內(nèi)轉(zhuǎn)出ICU 病房。結(jié)果表明,血糖變異情況對患者在重癥監(jiān)護(hù)時(shí)常有重要的影響,隨機(jī)森林模型相比其他的模型能較好地預(yù)測ICU 患者的重癥監(jiān)護(hù)時(shí)長。
近年來,由于隨機(jī)森林模型自身的優(yōu)勢較突出,其在我國房地產(chǎn)評估中有了一定的應(yīng)用。楊沐晞(2012)用廣州市某調(diào)查地區(qū)298 個(gè)二手房的特征價(jià)格數(shù)據(jù),進(jìn)行建模與預(yù)測,建立隨機(jī)森林回歸模型,并將傳統(tǒng)線性回歸模型與隨機(jī)森林回歸方法建立的模型的預(yù)測能力進(jìn)行了比較,得到結(jié)論:運(yùn)用隨機(jī)森林建立二手房評估模型,其預(yù)測結(jié)果具有較高的準(zhǔn)確性。黃蓉(2020)將隨機(jī)森林模型引入學(xué)區(qū)房的研究,運(yùn)用重慶市渝中區(qū)重點(diǎn)小學(xué)的260 個(gè)樣本數(shù)據(jù),進(jìn)行建模與預(yù)測,并將特征價(jià)格模型的半對數(shù)函數(shù)形式與隨機(jī)森林回歸方法建立的預(yù)測模型進(jìn)行對比,表明以隨機(jī)森林建立的學(xué)區(qū)房評估模型,其預(yù)測結(jié)果有較高的準(zhǔn)確性。
隨機(jī)森林模型在很多領(lǐng)域都有廣泛的應(yīng)用,在房地產(chǎn)評估領(lǐng)域也有一定的發(fā)展,但并未得到普遍的認(rèn)可。為了更好地說明隨機(jī)森林模型在房地產(chǎn)評估中的適用性,現(xiàn)將隨機(jī)森林模型與三大傳統(tǒng)評估方法進(jìn)行對比分析。
市場法、收益法和成本法三大傳統(tǒng)方法經(jīng)過長期的實(shí)踐與發(fā)展,擁有堅(jiān)實(shí)的理論基礎(chǔ)和較多的實(shí)踐經(jīng)驗(yàn),在各個(gè)評估工作中被廣泛的應(yīng)用。但是,在三大方法的發(fā)展過程中,也發(fā)現(xiàn)每一種方法都存在一定的局限性,其使用都受到一些條件的限制。
市場法也叫市場比較法,在房地產(chǎn)評估中廣泛應(yīng)用。市場法應(yīng)用的前提條件是:有活躍的房地產(chǎn)交易市場;交易對象數(shù)量滿足條件;能夠找到與被評估資產(chǎn)相同或類似的可比參照案例。
市場法的使用簡單有效,直接從市場上收集所需資料,過程簡單。但是市場法的應(yīng)用受到一些條件的限制。市場法的應(yīng)用要求有完整的數(shù)據(jù),房地產(chǎn)價(jià)值的影響因素包含各個(gè)方面且關(guān)系復(fù)雜,影響因素不僅包含內(nèi)部因素,也包含外部因素,收集起來十分繁瑣且不易收集完整,會對結(jié)果造成一定的偏差。在對可比案例的價(jià)格進(jìn)行修正的過程中,很多系數(shù)的確定需要依靠評估人員的經(jīng)驗(yàn),具有較強(qiáng)的主觀性。
在房地產(chǎn)評估中,收益法也是常用的方法之一。收益法的使用同樣需要滿足一定的前提條件。收益法適用于有收益性,或者未來可能有收益的房地產(chǎn)的評估。
收益法的應(yīng)用過分依賴假設(shè)環(huán)境,收益額的預(yù)測要根據(jù)歷史數(shù)據(jù)來進(jìn)行,但是外部經(jīng)濟(jì)環(huán)境,政策變化等都會對收益額產(chǎn)生影響,使預(yù)期收益不夠準(zhǔn)確,也會對評估結(jié)果產(chǎn)生影響。
成本法估價(jià)的理論基礎(chǔ)是商品價(jià)格的生產(chǎn)費(fèi)用理論。成本法的運(yùn)用就是在評估時(shí)點(diǎn),將估價(jià)對象的重置成本或重新構(gòu)建成本計(jì)算出來,然后扣減折價(jià)貶值以后的價(jià)值結(jié)果。成本法適用于沒有收益性不適用于收益法或缺乏交易案例不能采用市場法評估的房地產(chǎn)。
成本法計(jì)算的成本未包含房地產(chǎn)成本價(jià)值以外的價(jià)值,例如區(qū)位價(jià)值和權(quán)益價(jià)值。區(qū)位因素對房地產(chǎn)價(jià)格的影響巨大,運(yùn)用成本法評估出的價(jià)值因?yàn)楹雎粤送獠恳蛩貢陀谑袌鰞r(jià)值。
隨機(jī)森林模型就是首先建立多個(gè)決策樹,然后將他們?nèi)诤掀饋淼玫揭粋€(gè)更加準(zhǔn)確和穩(wěn)定的模型。
決策樹+Bagging=隨機(jī)森林。
分類樹是一種分類器,它的結(jié)構(gòu)為樹狀。它的每個(gè)內(nèi)部節(jié)點(diǎn)代表了一個(gè)基于特征的測試,樹枝描述測試結(jié)果,葉子節(jié)點(diǎn)指明了最后的分類結(jié)果。隨機(jī)森林構(gòu)造了多個(gè)決策樹,如果要對其中某個(gè)樣本進(jìn)行預(yù)測,那么就需要統(tǒng)計(jì)森林中的每棵樹對該樣本的預(yù)測結(jié)果,然后通過投票法選擇眾數(shù)作為最后的預(yù)測結(jié)果。
隨機(jī)森林中的每棵樹都是獨(dú)立的。幾乎所有的樹做出的預(yù)測結(jié)果都可以包含所有可能的情況,這些預(yù)測結(jié)果將會相互抵消。少數(shù)優(yōu)秀的樹的預(yù)測會忽略“噪音”,做出一個(gè)較好的預(yù)測結(jié)果。隨機(jī)森林Bagging 的思想就是將眾多的分類結(jié)果進(jìn)行投票選擇,從而組成一個(gè)強(qiáng)分類器。
簡單來說,隨機(jī)森林算法就是由眾多的單顆分類回歸樹(CART)進(jìn)行組合而得到隨機(jī)森林,然后通過投票的方法得到最后的分類結(jié)果。
變量的選取。隨機(jī)森林模型變量的選取是在特征價(jià)格理論的基礎(chǔ)之上進(jìn)行的。特征價(jià)格理論在國外房地產(chǎn)評估領(lǐng)域的研究已經(jīng)比較成熟,由于地理位置、文化、市場環(huán)境等因素的不同,國外學(xué)者假設(shè)的特征價(jià)格因素并不適用于我國。根據(jù)中國房地產(chǎn)市場的實(shí)際情況,國內(nèi)學(xué)者在運(yùn)用特征價(jià)格理論研究房地產(chǎn)價(jià)值評估時(shí),一般將影響房地產(chǎn)價(jià)格的因素分為三大類特征,建筑特征、區(qū)位特征、鄰里特征。
隨機(jī)森林模型的建立。房地產(chǎn)評估為不動(dòng)產(chǎn)評估,因此其屬于回歸預(yù)測問題。隨機(jī)森林回歸的基本思想是:首先進(jìn)行抽樣,采用自助抽樣方式,從原始數(shù)據(jù)中抽取B 個(gè)樣本,分別建立B 棵樹,得到B 個(gè)結(jié)果。最后,取這B 個(gè)結(jié)果的平均值得到最終的預(yù)測結(jié)果。
(1)房地產(chǎn)價(jià)格影響因素與房地產(chǎn)價(jià)格之間的影響形式并非簡單的線性關(guān)系。隨機(jī)森林模型的應(yīng)用不需要提前設(shè)定函數(shù)形式,利用隨機(jī)森林來建立模型??梢院芎玫?cái)M合復(fù)雜的非線性關(guān)系。傳統(tǒng)的多元回歸就需要提前設(shè)定函數(shù)形式,然后輸入變量進(jìn)行驗(yàn)證,會產(chǎn)生擬合優(yōu)度不高,模型不合適等情況,而隨機(jī)森林模型就可以克服這一問題。
(2)隨機(jī)森林可以處理具有多個(gè)種類的分類變量,比如在參數(shù)回歸中,定性變量數(shù)量的增加會使估計(jì)參數(shù)的數(shù)量也大量的增加,這可能會導(dǎo)致回歸結(jié)果的過度擬合。在隨機(jī)森林中就可以避免由上面大量分類變量所造成的問題。
(3)房地產(chǎn)評估中,房地產(chǎn)價(jià)格影響因素一般都是較多的,運(yùn)用隨機(jī)森林模型,對樣本數(shù)據(jù)的處理速度更快,自動(dòng)化程度較高。隨機(jī)森林模型可以在建模的過程中,用輸入的變量對輸出的結(jié)果的重要性進(jìn)行評估。在傳統(tǒng)的特征變量模型中,我們判斷一個(gè)變量對輸出結(jié)果的重要性,一般是直接看回歸方程中變量的回歸系數(shù)。系數(shù)大就表明該變量對結(jié)果影響較大,系數(shù)小就表明該變量對輸出結(jié)果的影響較小。傳統(tǒng)特征價(jià)格模型評估中,判斷變量的影響程度比較便捷,也很直觀。但是,這種判斷重要性的方式比較粗糙,不夠準(zhǔn)確。隨機(jī)森林模型中對變量重要性的判斷,是在輸入的變量中挑選一個(gè)特征,然后加入噪聲和干擾因素,觀察對模型的計(jì)算結(jié)果是否有影響。在判斷因素的重要性的過程中,會使用節(jié)點(diǎn)的不純度來判斷。對每一個(gè)輸入的變量都加入一個(gè)噪聲,然后觀察隨機(jī)森林的準(zhǔn)確率的變化來判斷該變量的重要性。如果,隨機(jī)森林準(zhǔn)確率隨著該噪聲的降低而升高,說明該變量對輸出結(jié)果的重要性比較高。反之,隨機(jī)森林的準(zhǔn)確率隨著該特征噪聲的降低而降低,說明該變量對輸出結(jié)果的重要性較低。
房地產(chǎn)評估中,相比于傳統(tǒng)的特征價(jià)格模型,隨機(jī)森林模型更具優(yōu)勢,可以在一定的程度上彌補(bǔ)傳統(tǒng)方法的一些不足之處。本文的研究說明在房地產(chǎn)評估領(lǐng)域,隨機(jī)森林模型具有較大的適用性,在與傳統(tǒng)的評估方法進(jìn)行對比的基礎(chǔ)之上,隨機(jī)森林模型的預(yù)測精度都比傳統(tǒng)方法更高。期望對隨機(jī)森林模型在房地產(chǎn)評估領(lǐng)域中的使用提供理論支持。