陸曉炘
(廣西師范大學(xué),桂林 541000)
廣州作為超一線城市擁有大量的外來(lái)定居人口,買房成為了許多人關(guān)心的事情。二手樓價(jià)影響因素錯(cuò)綜復(fù)雜,吸引了不少學(xué)者對(duì)其進(jìn)行研究,溫海珍等通過(guò)HPM 得出杭州市房?jī)r(jià)的主要影響因素是建筑面積、樓齡等9 個(gè)因素。文獻(xiàn)[1-2]從影響樓價(jià)的微觀因素入手,得出事實(shí)上教育和娛樂(lè)的便利程度也是人們買房時(shí)不得不考慮的因素的結(jié)論;哈巍等探究了學(xué)區(qū)房的溢價(jià)問(wèn)題,表明附近的學(xué)校數(shù)量對(duì)樓價(jià)有一定的影響;繆格等得出了地鐵、商圈、教育都是武漢二手房?jī)r(jià)格的影響因素的結(jié)論。
隨著二手樓價(jià)研究的發(fā)展,其影響因素包括宏觀、微觀加起來(lái)有很多,這時(shí)普通的回歸方法很容易造成過(guò)擬合,使得分析效果不佳,此外,由于真模型不一定為線性,所以需要考慮更一般的模型。神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)中用于對(duì)函數(shù)進(jìn)行估計(jì)和近似計(jì)算的模型,不局限于線性模型,在樓價(jià)預(yù)測(cè)上有較好的估計(jì)效果。文獻(xiàn)[6-8]的研究對(duì)樓價(jià)建立BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,所建模型均為適用于維度不高情形的全連接神經(jīng)網(wǎng)絡(luò),但并沒(méi)有對(duì)樓價(jià)的影響因素作詳細(xì)分析。高鳳偉等建立神經(jīng)網(wǎng)絡(luò)模型并使用擾動(dòng)法識(shí)別各影響因素的重要程度,但由于該方法計(jì)算復(fù)雜且無(wú)法提供可靠的參數(shù)變化,不適用于高維稀疏問(wèn)題;Glorot等表明稀疏神經(jīng)網(wǎng)絡(luò)通常可以改善DNN 的訓(xùn)練和預(yù)測(cè)性能;FENG等提出在輸入權(quán)重上擬合一個(gè)帶有Lasso 懲罰的神經(jīng)網(wǎng)絡(luò),表明了稀疏輸入神經(jīng)網(wǎng)絡(luò)優(yōu)于現(xiàn)有的非參數(shù)高維估計(jì)方法;YE 等提出了利用懲罰神經(jīng)網(wǎng)絡(luò)逼近復(fù)雜系統(tǒng)的方法,并通過(guò)測(cè)量解釋變量對(duì)響應(yīng)變量方差的解釋效用來(lái)選擇解釋變量,證明了該方法在樣本容量趨于無(wú)窮大時(shí),能夠以概率1選擇相關(guān)變量并排除不相關(guān)變量;MA 等將變換后的正則化器應(yīng)用于網(wǎng)絡(luò)權(quán)值矩陣空間,提出了一種有效的隨機(jī)近端梯度算法求解新模型,并證實(shí)了該方法的有效性; SUN 等提出用頻率方法學(xué)習(xí)稀疏DNN,并在貝葉斯框架下證明其后驗(yàn)一致性,變量選擇一致性和漸近最優(yōu)泛化。
稀疏神經(jīng)網(wǎng)絡(luò)是有效用于解決模型過(guò)參數(shù)化的方法,因此,本文以廣州市二手樓價(jià)為例,結(jié)合爬蟲(chóng)和高德地圖API 獲取包括微觀因素與宏觀因素的二手樓信息,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后建立稀疏神經(jīng)網(wǎng)絡(luò),并對(duì)所獲取的因素作變量選擇,分析廣州市二手樓價(jià)的主要影響因素。
神經(jīng)網(wǎng)絡(luò)模型包含輸入層、隱藏層、輸出層3部分,假設(shè)模型為U層神經(jīng)網(wǎng)絡(luò),輸入層為變量矩陣=(,,…,X),第1 層的神經(jīng)元個(gè)數(shù)為,則個(gè)樣本通過(guò)激活函數(shù)進(jìn)入第一層神經(jīng)元的函數(shù)如下:
從第層神經(jīng)網(wǎng)絡(luò)輸出矩陣的計(jì)算中不難發(fā)現(xiàn),第層神經(jīng)網(wǎng)絡(luò)的輸出矩陣是由第- 1層神經(jīng)網(wǎng)絡(luò)的輸出矩陣迭代而來(lái),既第層神經(jīng)網(wǎng)絡(luò)的輸出矩陣的計(jì)算表達(dá)式可以改寫(xiě)為=( ),其中為神經(jīng)網(wǎng)絡(luò)第層的激活函數(shù),使用激活函數(shù)是為了加入非線性因素,使得模型可以近似到非線性函數(shù),全神經(jīng)網(wǎng)絡(luò)的運(yùn)行算式表達(dá)為:
(,,)為最終的輸出層。
神經(jīng)網(wǎng)絡(luò)的反向傳播是通過(guò)計(jì)算總誤差達(dá)到權(quán)重更新的過(guò)程,常用的優(yōu)化算法是梯度降法。均方誤差是用于度量估計(jì)值與真實(shí)值之間差異程度的指標(biāo)。
在高維情況下,響應(yīng)變量通常滿足稀疏性假設(shè),本文選用加正則化均方誤差函數(shù)作為神經(jīng)網(wǎng)絡(luò)反向傳播的損失函數(shù),通過(guò)懲罰權(quán)重的方式達(dá)到變量選擇效果。
本文從房天下網(wǎng)站(https://gz.esf.fang.com/)爬取廣州市二手樓數(shù)據(jù)樣本共15854個(gè),每個(gè)樣本數(shù)據(jù)有14 條信息,同時(shí)考慮到宏觀因素的影響,本文通過(guò)連接高德地圖API 來(lái)獲取房屋周邊信息變量共6個(gè),所獲取的變量如表1所示。
表1 變量
大量的數(shù)據(jù)中容易出現(xiàn)數(shù)據(jù)缺失的情況,本文采用平均值填補(bǔ)缺失的方式對(duì)物業(yè)費(fèi),綠化率,容積率中的缺失數(shù)據(jù)進(jìn)行填補(bǔ),用數(shù)據(jù)剔除的方式對(duì)其余缺失數(shù)據(jù)進(jìn)行處理,最后剩下15796個(gè)有用的樣本。
對(duì)二手房屋的價(jià)格進(jìn)行描述分析后,從圖1可看出廣州市二手樓價(jià)呈偏態(tài)分布,所以本文在建立神經(jīng)網(wǎng)絡(luò)前先對(duì)樓價(jià)變量進(jìn)行對(duì)數(shù)化,所得結(jié)果如圖2所示呈正態(tài)分布。
圖1 二手樓價(jià)分布圖
圖2 對(duì)數(shù)化后二手樓價(jià)分布圖
將數(shù)據(jù)打亂后按8.7∶0.7∶0.6 的比例把數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,建立20-5-1 神經(jīng)網(wǎng)絡(luò)模型,選用relu 函數(shù)() = max(0,)作為第一個(gè)隱藏層的激活函數(shù),tanh 函數(shù)作為輸出層的激活函數(shù),反向傳播使用梯度下降法進(jìn)行100 次迭代,分別對(duì)參數(shù)為= 0.01,=0.005,= 0.002,= 0.001,= 0 的神經(jīng)網(wǎng)路進(jìn)行20 次建模,在= 0.001 的情況下,計(jì)算剔除概率大于90%的變量個(gè)數(shù),所得預(yù)測(cè)誤差情況與變量剔除情況如表2所示。
表2 不同正則化參數(shù)下預(yù)測(cè)效果對(duì)比
從表2的平均均方誤差和均方誤差極差可以看出,正則化參數(shù)為0.002 時(shí)模型估計(jì)效果與穩(wěn)定性最好,而且對(duì)于本文例子而言,= 0.002的稀疏神經(jīng)網(wǎng)絡(luò)模型與普通神經(jīng)網(wǎng)絡(luò)模型相比有在剔除冗余變量的同時(shí)能降低預(yù)測(cè)誤差的優(yōu)點(diǎn),所以最終建立= 0.002 的稀疏神經(jīng)網(wǎng)絡(luò)并對(duì)數(shù)據(jù)進(jìn)行50 次建模,對(duì)每一次第一層網(wǎng)絡(luò)的權(quán)重絕對(duì)值求和,權(quán)重和∑| |≤0.001 的變量則為不入選變量,其中10 次建模剔除變量情況如表3所示。
表3 其中10次剔除變量的下標(biāo)
其中最近地鐵距離,1500 米內(nèi)三甲醫(yī)院數(shù)量,500 米內(nèi)市場(chǎng)、便利店數(shù)量,房間數(shù),客廳數(shù),衛(wèi)生間數(shù),樓齡,物業(yè)費(fèi),綠化率的剔除概率均大于90%,面積,裝修風(fēng)格的剔除概率均大于80%,最后認(rèn)為500 米內(nèi)地鐵數(shù)量,1000 米內(nèi)中小學(xué)數(shù)量,1000米內(nèi)商場(chǎng)數(shù)量,所屬地區(qū),朝向,樓層,有無(wú)電梯,容積率,建筑類型為影響廣州市二手樓價(jià)的主要影響因素,面積,裝修風(fēng)格為影響廣州市二手樓價(jià)的次要影響因素,其中500 米內(nèi)地鐵數(shù)量,1000 米內(nèi)中小學(xué)數(shù)量,朝向,有無(wú)電梯的權(quán)重絕對(duì)值和以10 倍數(shù)量大于其余變量,可以認(rèn)為這4個(gè)變量為影響廣州市二手樓價(jià)的最主要因素。
從稀疏神經(jīng)網(wǎng)絡(luò)變量選擇的結(jié)果可看出,交通便利、教育便利、購(gòu)物便利是許多人買二手房時(shí)的主要考慮因素,也側(cè)面說(shuō)明了學(xué)區(qū)房導(dǎo)致樓價(jià)泡沫并非無(wú)稽之談。房屋朝向和有無(wú)電梯則直接影響買家的入住體驗(yàn),買家在這方面的強(qiáng)調(diào)符合現(xiàn)代人尤其是年輕人一切效率至上又注重養(yǎng)生的特點(diǎn)。其中面積不再成為廣州市二手樓價(jià)的主要影響因素,反而二手樓房附近的交通情況、學(xué)校數(shù)量、商業(yè)發(fā)展情況、所屬區(qū)更能反映樓價(jià)高低,這點(diǎn)說(shuō)明了二手樓房所在區(qū)域的發(fā)展對(duì)當(dāng)?shù)貥莾r(jià)的影響之大。
本文利用二手樓房網(wǎng)絡(luò)數(shù)據(jù),對(duì)廣州市二手樓價(jià)建立稀疏神經(jīng)網(wǎng)絡(luò)模型,在給定閾值的情況下得出500 米內(nèi)地鐵數(shù)量,1000 米內(nèi)中小學(xué)數(shù)量,朝向,有無(wú)電梯為廣州市二手樓價(jià)的最主要影響因素,結(jié)論符合時(shí)代特點(diǎn)。其中所屬區(qū)域發(fā)展情況對(duì)二手樓價(jià)的影響比房屋面積大這點(diǎn)值得引起我們的思考,亦可以從中得到一些啟發(fā),比如可以引入不同區(qū)域的人均GDP作為變量代表該區(qū)域的經(jīng)濟(jì)發(fā)展?fàn)顟B(tài),引入不同區(qū)域10年內(nèi)是否有政府發(fā)展項(xiàng)目作為變量代表該區(qū)域房屋的升值空間,這樣把更多宏觀因素考慮在內(nèi),可以得出更具地域特點(diǎn)的分析結(jié)果。