王 華,羅 平,張 杰
(1.國(guó)土資源部城市土地資源監(jiān)測(cè)與仿真重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518034;2.鄭州輕工業(yè)學(xué)院計(jì)算機(jī)與通信工程學(xué)院,河南 鄭州 450002)
城鎮(zhèn)基準(zhǔn)地價(jià)是指在城市特定區(qū)域內(nèi),根據(jù)土地用途、利用條件相似原則劃分均質(zhì)區(qū)域,并評(píng)估出各地價(jià)區(qū)段在某一時(shí)點(diǎn)的平均水平價(jià)格[1]。城鎮(zhèn)基準(zhǔn)地價(jià)成果能夠反映土地市場(chǎng)的時(shí)空演變格局,并且對(duì)于土地資源優(yōu)化配置及土地利用效益最大化具有重要意義[2]。
城鎮(zhèn)基準(zhǔn)地價(jià)與其影響因素之間存在著復(fù)雜的非線性映射關(guān)系,很難通過(guò)某種確定的數(shù)據(jù)模型來(lái)準(zhǔn)確描述和表達(dá)。中國(guó)在基準(zhǔn)地價(jià)評(píng)估工作實(shí)踐當(dāng)中常用的方法包括算術(shù)平均模型[3]、線性、指數(shù)等回歸統(tǒng)計(jì)模型[4-7],算數(shù)平均模型的缺陷在于其計(jì)算結(jié)果嚴(yán)重依賴于均質(zhì)區(qū)域內(nèi)樣點(diǎn)的空間及數(shù)量分布情況,回歸模型直接模擬土地級(jí)別與樣點(diǎn)地價(jià)之間的數(shù)學(xué)關(guān)系進(jìn)而確定某一級(jí)別基準(zhǔn)地價(jià),但該模型需要預(yù)先人為確定影響因素權(quán)值,具有很大的主觀性、經(jīng)驗(yàn)性與不確定性,導(dǎo)致其預(yù)測(cè)精度受到一定限制[8]。有研究人員嘗試?yán)媚:龜?shù)學(xué)[9-10]以及云模型[11]等方法來(lái)改進(jìn)傳統(tǒng)回歸模型,但上述方法更為關(guān)注定性因素的評(píng)估量化,仍忽略了地價(jià)因素權(quán)值確定問(wèn)題。部分學(xué)者認(rèn)為地價(jià)樣本空間分布不均衡,聚集或者稀缺現(xiàn)象均會(huì)出現(xiàn),導(dǎo)致數(shù)據(jù)存在一定空間相關(guān)性,為消除變量本身的空間自相關(guān)對(duì)回歸結(jié)果的影響,引入了Kriging空間分析法[12-14]來(lái)構(gòu)建地價(jià)求解方程,但該方法也未考慮影響因素權(quán)重取值主觀性這一問(wèn)題。人工神經(jīng)網(wǎng)絡(luò)模型具有自主學(xué)習(xí)地價(jià)樣本特征的優(yōu)勢(shì),近十幾年來(lái)在基準(zhǔn)地價(jià)評(píng)估研究中獲得廣泛應(yīng)用[15-18]。它不需要確定權(quán)重,克服了多因素權(quán)重確定主觀性強(qiáng)的缺陷,并可利用多層神經(jīng)網(wǎng)絡(luò)建立地價(jià)與影響因素之間的映射關(guān)系。還有學(xué)者將支持向量機(jī)(Support Vector Machine, SVM)模型用于確定城鎮(zhèn)基準(zhǔn)地價(jià)評(píng)估,通過(guò)與傳統(tǒng)回歸模型及人工神經(jīng)網(wǎng)絡(luò)對(duì)比表明該方法在基準(zhǔn)地價(jià)測(cè)算方面具有優(yōu)越性[19]。無(wú)論是人工神經(jīng)網(wǎng)絡(luò)模型或者支持向量機(jī)都屬于淺層學(xué)習(xí)算法,在訓(xùn)練樣本及計(jì)算單元受限的情況下對(duì)城市地價(jià)及其影響因素之間的復(fù)雜函數(shù)的表示能力會(huì)受到一定制約[20]。
近些年興起的深度學(xué)習(xí)技術(shù)由于擁有多層非線性映射網(wǎng)絡(luò)層,使其獲得較強(qiáng)的復(fù)雜函數(shù)擬合能力,在復(fù)雜分類、識(shí)別、預(yù)測(cè)等問(wèn)題的解決中獲得了廣泛應(yīng)用,并取得良好的效果和效率[21-22]。深度學(xué)習(xí)可以看作神經(jīng)網(wǎng)絡(luò)的發(fā)展,Hinton等[23]認(rèn)為深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以學(xué)習(xí)到對(duì)象更深刻更本質(zhì)的特征。因此本文嘗試選擇深度學(xué)習(xí)的經(jīng)典算法深度置信網(wǎng)絡(luò)[24](Deep Belief Network, DBN)來(lái)構(gòu)建城鎮(zhèn)基準(zhǔn)地價(jià)評(píng)估模型,并以湖北省武漢市基準(zhǔn)地價(jià)評(píng)估為實(shí)例,對(duì)基于深度學(xué)習(xí)的城鎮(zhèn)基準(zhǔn)地價(jià)評(píng)估模型的建立流程及模型優(yōu)化方法進(jìn)行了探討和研究。
1.1.1 深度置信網(wǎng)絡(luò)結(jié)構(gòu)
深度學(xué)習(xí)是一類新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,通過(guò)多隱層感知器來(lái)組合低層特征形成更加抽象的高層表示,自動(dòng)地學(xué)習(xí)得到層次化的特征表示,從而有助于提高分類和預(yù)測(cè)的準(zhǔn)確性。DBN是由若干層受限玻爾茲曼機(jī)(Restricted Boltz-mann Machine,RBM)及一層反向傳播網(wǎng)絡(luò)(Back-propagation, BP)組成的一種深層神經(jīng)網(wǎng)絡(luò),其基本思想是采用無(wú)監(jiān)督學(xué)習(xí)方法逐層訓(xùn)練每一個(gè)RBM,最后對(duì)整個(gè)網(wǎng)絡(luò)采用有監(jiān)督學(xué)習(xí)進(jìn)行微調(diào)。
1.1.2 受限玻爾茲曼機(jī)
受限玻爾茲曼機(jī)(RBM)是一種特殊的玻爾茲曼機(jī),由一個(gè)可視層(v)和一個(gè)隱含層(h)組成,可以看作為一個(gè)二部圖,兩層之間通過(guò)權(quán)重w連接,同層單元之間無(wú)連接。
由圖2中可以看出,可視層中任一可見(jiàn)節(jié)點(diǎn)vi和隱含層中隱含節(jié)點(diǎn)hj之間都存在一條權(quán)值為wij的連接,且wij=wji,0<i<m,0<j<n。令b表示可視層偏置量、c表示隱含層偏置量。RBM網(wǎng)絡(luò)是對(duì)稱結(jié)構(gòu),因此可利用式(1)、式(2)互相計(jì)算可視層及隱含層節(jié)點(diǎn)值。
對(duì)于一個(gè)二值化信號(hào)(v1,v2,…,vm),利用式(1)可以計(jì)算得到一個(gè)相應(yīng)的隱含特征信號(hào)(h1,h2,…,hm),對(duì)于給定的狀態(tài)(v,h),RBM的節(jié)點(diǎn)狀態(tài)滿足玻爾茲曼分布,其能量函數(shù)可以定義為:
那么,狀態(tài)(v,h)的聯(lián)合概率分布為:
RBM進(jìn)行無(wú)監(jiān)督學(xué)習(xí)的目的就是通過(guò)吉布斯抽樣不斷調(diào)節(jié)θ= (w,b,c)參數(shù),最終使得聯(lián)合概率P(v,h|θ)最大,即使得隱含特征信號(hào)h還原重建成v′后與v之間誤差最小。為使?fàn)顟B(tài)(v,h)趨向平穩(wěn),需要通過(guò)計(jì)算最大P(v,h|θ)與初始狀態(tài)的聯(lián)合概率的斜率Δθ來(lái)引導(dǎo)參數(shù)θ更新,其計(jì)算公式如下所示:
式(5)中:τ表示最大迭代次數(shù);η為學(xué)習(xí)速率。由于難以確定概率變化斜率計(jì)算的步長(zhǎng),對(duì)比散度(Contrastive Divergence, CD)算法[25]被提出用于加速RBM訓(xùn)練過(guò)程并保持了精度。
1.2.1 城市基準(zhǔn)地價(jià)評(píng)估問(wèn)題描述
城市基準(zhǔn)地價(jià)受自然、經(jīng)濟(jì)、區(qū)位等多種因素影響,評(píng)估結(jié)果既能夠表現(xiàn)出自然經(jīng)濟(jì)因素影響土地價(jià)值的區(qū)域結(jié)構(gòu)性特征,也能反映人文活動(dòng)及其他因素對(duì)地價(jià)的隨機(jī)性擾動(dòng)。城市基準(zhǔn)地價(jià)評(píng)估問(wèn)題實(shí)質(zhì)就是在對(duì)自然經(jīng)濟(jì)影響因素作用量化的基礎(chǔ)之上,利用評(píng)估模型構(gòu)建起地價(jià)與多維特征之間的復(fù)雜映射關(guān)系。
對(duì)于城市基準(zhǔn)地價(jià)評(píng)估問(wèn)題,樣本特征即為評(píng)估模型的輸入,將樣本特征數(shù)據(jù)集X表示為
式(6)中:L為樣本數(shù)據(jù)集數(shù)量(1≤l≤L);D為每個(gè)樣本數(shù)據(jù)的特征個(gè)數(shù)(1≤d≤D),每一個(gè)擁有D個(gè)特征的數(shù)據(jù)都可以看做是空間RD中的一個(gè)向量,即X中的一行;xdl為第l個(gè)樣本的第d個(gè)特征值,表示第l個(gè)樣本地塊在某一個(gè)屬性特征上的量化值;Y為與樣本特征數(shù)據(jù)集對(duì)應(yīng)的樣本標(biāo)簽數(shù)據(jù)集,可以表示為式(7);yl表示第l個(gè)樣本地塊對(duì)應(yīng)的實(shí)際市場(chǎng)價(jià)格。
城市地價(jià)評(píng)估的核心即為尋找映射X→Y的問(wèn)題。由于特征維數(shù)較高,映射關(guān)系通常會(huì)非常復(fù)雜,通過(guò)機(jī)器學(xué)習(xí)方法,特別是深度學(xué)習(xí)方法能夠?qū)@類問(wèn)題進(jìn)行較為準(zhǔn)確的求解?;谠撚成渚W(wǎng)絡(luò)可以將各級(jí)別評(píng)估單元的特征向量分別輸入獲取到評(píng)估單元地價(jià),再通過(guò)加權(quán)或者取平均值的方法即可求取某一級(jí)別的平均地價(jià)即基準(zhǔn)地價(jià)。
1.2.2 模型的建立
選擇DBN網(wǎng)絡(luò)來(lái)建立城市地價(jià)評(píng)估模型,它由輸入層、多層RBM和BP微調(diào)層構(gòu)成,輸入層為土地價(jià)格影響因素xl,輸出層為評(píng)估地價(jià)yl。城市地價(jià)評(píng)估DBN模型的建立流程如圖1所示。
圖1 城市地價(jià)評(píng)估模型的構(gòu)建Fig.1 Construction of appraisal model for urban land benchmark price
(1)采用z-score方法對(duì)樣本集特征數(shù)據(jù)進(jìn)行歸一化預(yù)處理,如式(8)。
式(8)中:z為歸一化后的數(shù)據(jù)特征值;x為某一具體分?jǐn)?shù);φ為平均數(shù);σ為標(biāo)準(zhǔn)差。
歸一化的目的:一是為滿足DBN算法對(duì)輸入特征數(shù)據(jù)格式的要求;二是消除不同量綱的影響從而避免部分特征無(wú)法有效參與地價(jià)評(píng)估。
(2)將原始樣本集合按照設(shè)定比例隨機(jī)拆分為訓(xùn)練樣本集合(Xtrain,Ytrain)和測(cè)試樣本集合(Xtest,Ytest),并給定所有樣本的地價(jià)標(biāo)簽Y。
(3)樣本預(yù)訓(xùn)練。以全體訓(xùn)練樣本數(shù)據(jù)集的D維特征向量作為輸入,采用逐層的無(wú)監(jiān)督貪婪學(xué)習(xí)的方法來(lái)訓(xùn)練模型中的RBM。在每一層,可視層H及隱含層V單元的狀態(tài)按照式(1)和式(2)進(jìn)行計(jì)算,參數(shù)空間(w,b,c)可按照式(5)進(jìn)行更新。
(4)微調(diào)?;诒O(jiān)督學(xué)習(xí)機(jī)制對(duì)最后一層的BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將最后一層RBM的隱含輸出作為BP網(wǎng)絡(luò)的輸入向量,基于BP的反向傳播機(jī)制利用誤差反饋信息對(duì)整個(gè)DBN網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),直到迭代次數(shù)達(dá)到設(shè)定值為止。
(5)測(cè)試及評(píng)估。將測(cè)試樣本數(shù)據(jù)集輸入到訓(xùn)練好的DBN,利用模型的輸出地價(jià)與樣本標(biāo)簽地價(jià)計(jì)算得到平均評(píng)估誤差率λ(式(9)),并將其作為衡量DBN評(píng)估性能的標(biāo)準(zhǔn)。
式(9)中:ytest表示測(cè)試樣本的實(shí)際地價(jià);Ntest表示測(cè)試樣本集合的數(shù)量;y′表示模型的輸出地價(jià)。
(6)計(jì)算評(píng)估單元地價(jià)。繼續(xù)對(duì)評(píng)估單元進(jìn)行特征量化,并同樣按照式(8)進(jìn)行歸一化,并輸入到訓(xùn)練好的DBN網(wǎng)絡(luò)之中,可計(jì)算得到每一個(gè)評(píng)估單元的地價(jià)。
(7)計(jì)算基準(zhǔn)地價(jià)。本模型選用面積加權(quán)法,利用每一級(jí)別內(nèi)的評(píng)估單元的地價(jià)及對(duì)應(yīng)的面積權(quán)重進(jìn)行基準(zhǔn)地價(jià)計(jì)算,如式(10)。
式(10)中:BValuem表示第m級(jí)別的基準(zhǔn)地價(jià);Arean表示m級(jí)別內(nèi)第n個(gè)評(píng)估單元的面積;TotalAream表示級(jí)別m的所有單元的面積之和;ZValuen表示利用模型求取的第n個(gè)評(píng)估單元的地價(jià)。
本文以湖北省武漢市主城區(qū)土地定級(jí)及基準(zhǔn)地價(jià)更新項(xiàng)目為依托,以商業(yè)用地基準(zhǔn)地價(jià)評(píng)估為例,利用多因素綜合評(píng)定法劃定商業(yè)用地評(píng)估單元2 110個(gè),并將單元?jiǎng)澐譃?個(gè)土地級(jí)別。課題組收集商業(yè)地價(jià)樣本點(diǎn)共12 386個(gè),通過(guò)對(duì)樣本點(diǎn)的異常檢驗(yàn),對(duì)其異常數(shù)據(jù)進(jìn)行糾正或剔除,經(jīng)整理后保留有效樣點(diǎn)共9 568個(gè),然后對(duì)修改后的樣點(diǎn)進(jìn)行統(tǒng)一編號(hào)和規(guī)范化處理并入庫(kù)備用,按樣點(diǎn)的具體位置落實(shí)到定級(jí)單元圖上。在利用樣本點(diǎn)評(píng)估基準(zhǔn)地價(jià)之前,根據(jù)交易情況、交易期日、使用年期、容積率等因素對(duì)樣點(diǎn)地價(jià)進(jìn)行修正。
一般而言,影響城市商業(yè)用地價(jià)格的因素有交通條件、繁華程度、人口狀況、地形、城市規(guī)劃、基礎(chǔ)公用設(shè)施、環(huán)境質(zhì)量等特征因子。本文在武漢市基準(zhǔn)地價(jià)評(píng)估成果基礎(chǔ)之上,以主導(dǎo)性、定量化等為指導(dǎo)原則,并結(jié)合現(xiàn)有研究[4,17]最終確定武漢市商業(yè)用地評(píng)估因素體系,共計(jì)18個(gè)評(píng)價(jià)因子,如表1所示。將上述評(píng)價(jià)因子作為DBN網(wǎng)絡(luò)的輸入因子,其量化后的作
用分值作為網(wǎng)絡(luò)輸入,經(jīng)過(guò)修正后的樣點(diǎn)地價(jià)作為網(wǎng)絡(luò)輸出。
為衡量特征因子對(duì)樣本點(diǎn)的影響程度,本文需要搜集土地利用、地形、交通條件、區(qū)位條件、基礎(chǔ)設(shè)施配置、環(huán)境狀況等方面的資料及空間圖件來(lái)進(jìn)行空間量化分析,因子作用分值計(jì)算及對(duì)評(píng)估單元的空間量化方法均參考《城鎮(zhèn)土地分等定級(jí)規(guī)程》。土地利用數(shù)據(jù)及地形數(shù)據(jù)來(lái)源于武漢市國(guó)土資源局提供的土地變更調(diào)查數(shù)據(jù)、土地利用更新調(diào)查和第二次土地調(diào)查數(shù)據(jù)庫(kù);道路通達(dá)、汽車站等交通數(shù)據(jù)主要參考交通部門提供的道路等級(jí)圖、道路分布圖、交通圖等資料;大氣污染、綠地覆蓋等數(shù)據(jù)來(lái)源于環(huán)保部門;醫(yī)院、電訊、供排水等數(shù)據(jù)來(lái)源于市政部門。
表 1 商業(yè)用地評(píng)估指標(biāo)體系Tab.1 Index system for urban commercial land appraisal
將樣本點(diǎn)集合中的9 568個(gè)地價(jià)樣本點(diǎn)全部進(jìn)行標(biāo)注,隨機(jī)抽取其中8 000個(gè)樣本作為估價(jià)模型的訓(xùn)練樣本,剩余的1 568個(gè)作為測(cè)試樣本驗(yàn)證模型性能。為驗(yàn)證DBN模型的評(píng)估性能,本文還實(shí)現(xiàn)了兩種不同網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的BP神經(jīng)網(wǎng)絡(luò)評(píng)估模型,分別定義為BPANN1和BPANN2,此外將SVM模型也設(shè)置為對(duì)照試驗(yàn)。DBN 隱含層數(shù)目設(shè)置為3,即總層數(shù)為5層,每層的神經(jīng)單元數(shù)依次為18、15、8、4、1,將特征信號(hào)逐層壓縮,最后形成4 維特征向量進(jìn)行擬合。DBN模型無(wú)監(jiān)督訓(xùn)練階段學(xué)習(xí)率為 0.6,迭代次數(shù)為 200,為動(dòng)態(tài)調(diào)整學(xué)習(xí)率設(shè)置初始動(dòng)量項(xiàng)參數(shù)為0.5,中后期調(diào)整為0.9。BP神經(jīng)網(wǎng)絡(luò)考慮兩種情況,BPANN1設(shè)置為單隱層結(jié)構(gòu),隱含層神經(jīng)單元個(gè)數(shù)采用遍歷法確定,遍歷區(qū)間為[1,25],經(jīng)搜尋后將隱層單元設(shè)定為12個(gè)。BPANN2則采用和 DBN一樣的網(wǎng)絡(luò)結(jié)構(gòu)即18-15-8-4-1;DBN的監(jiān)督學(xué)習(xí)階段和兩個(gè)ANN的訓(xùn)練方式一致,均采用梯度下降算法,學(xué)習(xí)率為0.4,迭代 200 次。SVM取核函數(shù)為高斯徑向基核,利用6折交叉驗(yàn)證和網(wǎng)格法遍歷尋找到最優(yōu)的懲罰因子C為100,徑向基核函數(shù)參數(shù)σ為6.4。
考慮到多層神經(jīng)網(wǎng)絡(luò)參數(shù)的隨機(jī)性,將上述3種算法各運(yùn)行20次,并統(tǒng)計(jì)對(duì)應(yīng)的輸出誤差及相對(duì)誤差,結(jié)果見(jiàn)表2。
表2 不同評(píng)估模型的測(cè)試結(jié)果Tab.2 Test results of different appraisal models
由表2的結(jié)果可以看出DBN模型的平均相對(duì)誤差比BPANN1、BPANN2、SVM三個(gè)模型分別要低2.13%,4.36%,1.05%。相比于BPANN1、SVM模型,DBN的深層架構(gòu)明顯能夠更好地挖掘地價(jià)樣本集的深層特征,其將原始的22維特征抽象成了4維高階特征進(jìn)行評(píng)估,能夠獲得比淺層結(jié)構(gòu)更好的擬合精度。此外,DBN與BPANN2模型的網(wǎng)絡(luò)結(jié)構(gòu)及監(jiān)督訓(xùn)練階段的參數(shù)設(shè)置雖然均保持一致,但兩者的擬合精度卻相差較多,這是由于DBN模型利用其無(wú)監(jiān)督貪心算法有效地對(duì)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行了預(yù)訓(xùn)練,顯著提高了模型的擬合精度。BPANN2的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)一般是通過(guò)隨機(jī)化方法來(lái)進(jìn)行初始化,然后通過(guò)該網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其參數(shù)未經(jīng)過(guò)有效優(yōu)化,所以對(duì)樣本集合的地價(jià)擬合精度較差,DBN與BPANN2的監(jiān)督訓(xùn)練過(guò)程如圖2所示。此外,BPANN2的網(wǎng)絡(luò)結(jié)構(gòu)雖然要復(fù)雜于BPANN1,但由于傳統(tǒng)訓(xùn)練及反饋系統(tǒng)的誤差傳播效應(yīng)導(dǎo)致其復(fù)雜參數(shù)系統(tǒng)影響整體網(wǎng)絡(luò)系統(tǒng)的擬合功能,所以其擬合精度反而要比BPANN1低2.23%。SVM的目標(biāo)函數(shù)是一個(gè)凸函數(shù),可以保證得到問(wèn)題的全局最優(yōu)解,避免了人工神經(jīng)網(wǎng)絡(luò)優(yōu)化頻繁陷入局部最優(yōu)的困擾,所以其擬合精度要比BPANN1高1.08%。
傳統(tǒng)的淺層學(xué)習(xí)方法一般僅依靠監(jiān)督訓(xùn)練來(lái)優(yōu)化模型參數(shù),當(dāng)訓(xùn)練樣本不足時(shí),模型評(píng)估性能不夠理想。但本文DBN模型包括RBM無(wú)監(jiān)督訓(xùn)練和BP有監(jiān)督訓(xùn)練兩個(gè)訓(xùn)練階段,理論上來(lái)講可以在樣本較少時(shí)依然獲得較高的擬合精度。本文通過(guò)從樣本集合中抽取少量訓(xùn)練樣本來(lái)測(cè)試各個(gè)模型在訓(xùn)練樣本數(shù)量不足時(shí)的評(píng)估性能。在各模型參數(shù)設(shè)置同上的情況下,從9 568個(gè)標(biāo)注樣本中分別抽取400、800、1 200、1 600、2 000個(gè)樣本作為訓(xùn)練樣本,剩余的作為測(cè)試樣本,各模型的測(cè)試相對(duì)誤差如表3所示。
表3 不同訓(xùn)練樣本數(shù)目的測(cè)試結(jié)果Tab.3 Test results of appraisal models for training with different numbers
圖2 DBN和BPANN2的監(jiān)督訓(xùn)練過(guò)程Fig.2 Supervised process of DBN and BPANN2
根據(jù)表3測(cè)試結(jié)果可以看出,在訓(xùn)練樣本數(shù)量較少的情況下,DBN模型顯示出了比BPANN1、BPANN2、SVM模型明顯更優(yōu)越的評(píng)估性能。當(dāng)訓(xùn)練樣本數(shù)量?jī)H為400時(shí),DBN的相對(duì)誤差值比上述三個(gè)模型低了7.99、14.47、6.71個(gè)百分點(diǎn)。隨著訓(xùn)練樣本數(shù)量的遞增,各個(gè)模型的評(píng)估精度都增長(zhǎng)明顯,DBN模型在訓(xùn)練樣本數(shù)量為1 600時(shí),擬合精度提高到91.52%,而樣本數(shù)量為2 000時(shí),擬合精度已經(jīng)可以達(dá)到95.69%,仍然比其他模型的擬合精度高出2.86~8.93。SVM模型的評(píng)估精度雖然低于DBN但卻顯著高于BPANN1和BPANN2,這是由于其基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的訓(xùn)練框架能夠在一定程度上客服訓(xùn)練樣本不足的問(wèn)題,但是BP神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的模型,在訓(xùn)練樣本數(shù)量不足時(shí),網(wǎng)絡(luò)參數(shù)無(wú)法得到有效優(yōu)化,因此其評(píng)估精度較低。DBN通過(guò)對(duì)無(wú)標(biāo)簽城市樣本數(shù)據(jù)的非監(jiān)督訓(xùn)練來(lái)進(jìn)一步抽象樣本集合特征,使得網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)盡量靠近最優(yōu)區(qū)域,因此在有監(jiān)督訓(xùn)練階段即使通過(guò)少量標(biāo)注樣本的訓(xùn)練也可使模型獲得較高的評(píng)估精度。綜上述所,DBN模型在訓(xùn)練樣本數(shù)量不足時(shí)依然可獲得較為理想的評(píng)估精度。
上述實(shí)驗(yàn)一定程度上說(shuō)明了DBN的無(wú)監(jiān)督訓(xùn)練過(guò)程對(duì)于模型評(píng)估性能的重要性,本文繼續(xù)通過(guò)改變參與無(wú)監(jiān)督訓(xùn)練的地價(jià)樣本數(shù)量來(lái)探討DBN地價(jià)模型評(píng)估精度的變化規(guī)律。首先固定有監(jiān)督訓(xùn)練微調(diào)階段的標(biāo)注樣本數(shù)量為1 000,然后分別設(shè)置RBM無(wú)監(jiān)督訓(xùn)練段的無(wú)標(biāo)簽訓(xùn)練樣本數(shù)量為500、1 000、1 500、…、5 000,每一種參數(shù)設(shè)置的模型分別運(yùn)行5次然后求取平均相對(duì)誤差如圖3所示。
圖3 DBN相對(duì)誤差Fig.3 Relative error of DBN
由圖3可以看出,隨著無(wú)標(biāo)簽地價(jià)樣本數(shù)量的增加,DBN模型的測(cè)試相對(duì)誤差逐漸降低,即評(píng)估精度越來(lái)越高,當(dāng)加入3 000個(gè)無(wú)標(biāo)簽樣本時(shí),評(píng)估精度達(dá)到了97.92%。從曲線變化趨勢(shì)來(lái)看,在無(wú)標(biāo)簽訓(xùn)練樣本數(shù)從500到2 500的過(guò)程中,DBN的評(píng)估準(zhǔn)確率上升較快,之后的增加趨勢(shì)較為平緩。總體來(lái)看,充分的無(wú)監(jiān)督訓(xùn)練可以有效改善深層網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),為監(jiān)督訓(xùn)練微調(diào)提供優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)而提高模型整體的評(píng)估精度。
表4 各級(jí)別基準(zhǔn)地價(jià)Tab.4 Different classes of urban land benchmark prices
在因子作用體系下,構(gòu)建各級(jí)別評(píng)估單元的特征向量矩陣,并將其輸入DBN的深層網(wǎng)絡(luò)結(jié)構(gòu),可輸出所有評(píng)估單元對(duì)應(yīng)的地價(jià),然后運(yùn)用式(10)可計(jì)算得到各級(jí)別的基準(zhǔn)地價(jià),計(jì)算結(jié)果見(jiàn)表4。
本文針對(duì)城市基準(zhǔn)地價(jià)評(píng)估問(wèn)題,提出一種基于深度置信網(wǎng)絡(luò)的城市地價(jià)評(píng)估方法。以湖北省武漢市基準(zhǔn)地價(jià)評(píng)估為實(shí)例,得出以下結(jié)論:
(1)與BPANN1、SVM這類淺層學(xué)習(xí)模型相比,DBN的深層網(wǎng)絡(luò)結(jié)構(gòu)明顯能夠更好地挖掘城市地價(jià)樣本集的深層特征,通過(guò)將原始的22維特征抽象成4維高階特征進(jìn)行評(píng)估,獲得了比淺層學(xué)習(xí)方法更好的評(píng)估精度。
(2)DBN比具有同樣網(wǎng)絡(luò)結(jié)構(gòu)的BPANN2地價(jià)評(píng)估精度要高出4.36%,本模型借助其無(wú)監(jiān)督貪心算法能夠有效對(duì)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行預(yù)訓(xùn)練,而B(niǎo)PANN2采用隨機(jī)化方法生成網(wǎng)絡(luò)參數(shù),所以其評(píng)估精度較差。
(3)在訓(xùn)練樣本不足時(shí),DBN對(duì)于城市地價(jià)評(píng)估任務(wù)仍然能夠獲得較為滿意的評(píng)估精度,相比于其他模型其評(píng)估優(yōu)勢(shì)更為明顯,這得益于DBN的非監(jiān)督訓(xùn)練階段能夠盡量?jī)?yōu)化網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),此外實(shí)驗(yàn)還證明了DBN 的無(wú)監(jiān)督學(xué)習(xí)方法使其能夠利用大量無(wú)標(biāo)注樣本顯著提升評(píng)估精度。
本文首次將深度學(xué)習(xí)方法與城市基準(zhǔn)地價(jià)評(píng)估問(wèn)題相結(jié)合,為地價(jià)評(píng)估課題的研究提供了新思路。但由于深度置信網(wǎng)絡(luò)算法的參數(shù)較為復(fù)雜,本文主要參考已有研究通過(guò)經(jīng)驗(yàn)式的實(shí)驗(yàn)仿真選定的模型參數(shù),但是并未能保證達(dá)到該算法求解地價(jià)評(píng)估問(wèn)題的最大性能。其次在DBN訓(xùn)練網(wǎng)絡(luò)下進(jìn)一步求取了各級(jí)別均質(zhì)區(qū)域的基準(zhǔn)地價(jià),但和現(xiàn)有研究[5,19]一樣還缺少進(jìn)一步論證的方法來(lái)證明該基準(zhǔn)地價(jià)的準(zhǔn)確性。