潘巍 晉松
摘? ?要:文章對房地產(chǎn)估價方法進行分析,研究房地產(chǎn)價格時變性的估價系統(tǒng),并提出一種新型的房地產(chǎn)動態(tài)估價系統(tǒng)的設(shè)計方案,在方案中將分布式爬蟲技術(shù)和基于回歸的增量學習方法相結(jié)合,為構(gòu)建房地產(chǎn)動態(tài)估價系統(tǒng)奠定了良好的基礎(chǔ)。
關(guān)鍵詞:房地產(chǎn)估價;動態(tài)估價;分布式爬蟲;增量學習
1? ? 房地產(chǎn)估價方法的研究現(xiàn)狀
房地產(chǎn)估價方法的研究起源于歐美國家,并應(yīng)用到銀行和信托等金融機構(gòu)的抵押貸款和房屋貸款中,但在中國起步較晚,因近年來房產(chǎn)交易的火爆使得房地產(chǎn)估價成為必要的金融行業(yè)避險手段。近年來,在黨中央國務(wù)院為防止房產(chǎn)過熱和保持健康合理的房地產(chǎn)市場秩序,下發(fā)了一系列的個人房屋貸款政策。得到合理的房產(chǎn)價格,將對金融機構(gòu)的運營的風險產(chǎn)生巨大的影響并產(chǎn)生極其深遠的意義?,F(xiàn)有的機器學習方法,如模糊修正方法、神經(jīng)網(wǎng)絡(luò)、SVM等都沒有考慮到房地產(chǎn)數(shù)據(jù)的時變性,無法對房地產(chǎn)數(shù)據(jù)進行動態(tài)估價。
2? ? 房地產(chǎn)動態(tài)估價系統(tǒng)的數(shù)據(jù)需求
房地產(chǎn)動態(tài)估價系統(tǒng)是為銀行房地產(chǎn)評估師研制的一款對房地產(chǎn)價格預測分析的系統(tǒng),使其在對房地產(chǎn)進行估價時得到有效的參考。房產(chǎn)抵押貸款中的房產(chǎn)價格隨時間和市場供求關(guān)系的動態(tài)變化而變化,從而房地產(chǎn)動態(tài)估價系統(tǒng)使銀行評估師評估出的房產(chǎn)價格更符合當前市場的價格。
2.1? 系統(tǒng)數(shù)據(jù)構(gòu)成
數(shù)據(jù)采集是本項目的重要組成部分,其為系統(tǒng)提供外部數(shù)據(jù)的接口,是信息系統(tǒng)與外部世界的橋梁。數(shù)據(jù)采集將外部相關(guān)的房產(chǎn)數(shù)據(jù)采集到數(shù)據(jù)采集服務(wù)器上,然后在采集服務(wù)器中實現(xiàn)數(shù)據(jù)存儲、數(shù)據(jù)整合和數(shù)據(jù)備份功能,最終將整合后的數(shù)據(jù)寫人數(shù)據(jù)庫服務(wù)器,以備房地產(chǎn)估價算法所用。
2.2? 系統(tǒng)數(shù)據(jù)來源
對于房產(chǎn)數(shù)據(jù)的來源,本系統(tǒng)中數(shù)據(jù)采集系統(tǒng)主要通過人工采集、購買和Web數(shù)據(jù)3種方式進行數(shù)據(jù)采集。人工采集的數(shù)據(jù)是通過工作人員到實際的房產(chǎn)地去調(diào)研而得到的房產(chǎn)數(shù)據(jù)。購買數(shù)據(jù)是指從房地產(chǎn)經(jīng)紀公司購買的交易數(shù)據(jù)。Web數(shù)據(jù)主要是指存在于Internet上的房產(chǎn)交易信息數(shù)據(jù),如安居網(wǎng)、58同城網(wǎng)上提供的房產(chǎn)交易數(shù)據(jù)。
3? ? 房地產(chǎn)動態(tài)估價系統(tǒng)的設(shè)計
3.1? 房地產(chǎn)動態(tài)估價系統(tǒng)的業(yè)務(wù)數(shù)據(jù)流程設(shè)計
根據(jù)系統(tǒng)數(shù)據(jù)需求,我們可以得到系統(tǒng)的業(yè)務(wù)數(shù)據(jù)流圖。本系統(tǒng)的工作流程:首先管理員通過配置分布式網(wǎng)絡(luò)爬蟲系統(tǒng)分配任務(wù),每個爬蟲節(jié)點收到任務(wù)后連接Internet上的URL地址進行HTML數(shù)據(jù)的采集,采集完成后將爬取的HTML數(shù)據(jù)進行網(wǎng)頁分析處理(正則表達式來匹配HTML數(shù)據(jù)),得到整理提煉后的信息,將這些信息存儲到指定格式的TXT文件中,然后將TXT文件傳輸?shù)綌?shù)據(jù)采集服務(wù)器中;其次通過數(shù)據(jù)暫存服務(wù)器中的TXT數(shù)據(jù)進行入庫操作,并且也可以對人工數(shù)據(jù)進行數(shù)據(jù)導入到數(shù)據(jù)庫,將其裝入到系統(tǒng)的數(shù)據(jù)庫中;之后將系統(tǒng)的數(shù)據(jù)庫的數(shù)據(jù)進行數(shù)據(jù)清理和數(shù)據(jù)集成處理并建立數(shù)據(jù)倉庫的數(shù)據(jù)集市,最后通過房地產(chǎn)估價系統(tǒng)中的算法來得到最終的結(jié)果,并展現(xiàn)給最終用戶。
3.2? 房地產(chǎn)動態(tài)估價系統(tǒng)的功能模塊設(shè)計
房地產(chǎn)動態(tài)估價系統(tǒng)的功能模塊(見圖1)。本系統(tǒng)分為數(shù)據(jù)采集子系統(tǒng)和房地產(chǎn)估價子系統(tǒng)。數(shù)據(jù)采集子系統(tǒng)是采用分布式網(wǎng)絡(luò)爬蟲來實現(xiàn)采集HTML格式的房產(chǎn)數(shù)據(jù),人工數(shù)據(jù)導入是系統(tǒng)自動將購買和調(diào)研得到的房產(chǎn)數(shù)據(jù)導入到數(shù)據(jù)庫中,而采集數(shù)據(jù)導入是將采集來的Web數(shù)據(jù)寫入到數(shù)據(jù)庫中。
在房產(chǎn)估價子系統(tǒng)中主要包括數(shù)據(jù)查詢、數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)去噪和價格預測等核心模塊。數(shù)據(jù)查詢模塊是用戶給出查詢的條件,在數(shù)據(jù)集市中選取出符合詢的條件的記錄,在其上進行房地產(chǎn)價格回歸預測得到最終的房地產(chǎn)價格的結(jié)果。數(shù)據(jù)清洗是對數(shù)據(jù)進行去除二義性的操作。數(shù)據(jù)去噪模塊采用DBCAN聚類算法對數(shù)據(jù)進行去噪處理[1]。數(shù)據(jù)變換模塊首先將不同格式的數(shù)據(jù)屬性值變換成統(tǒng)一的呈現(xiàn)格式,在此基礎(chǔ)上對數(shù)據(jù)進行規(guī)范化處理。價格預測是負責隨市場供求關(guān)系和時間變化的房地產(chǎn)數(shù)據(jù)回歸預測算法的核心模塊,它實現(xiàn)房地產(chǎn)估價的時變,本系統(tǒng)采用了LS-SVM的增量學習方法[2-3]。
數(shù)據(jù)采集子系統(tǒng)可劃分為兩個部分:爬行節(jié)點模塊和控制節(jié)點模塊,如圖2所示。其中設(shè)備管理模塊、任務(wù)分配模塊、節(jié)點通信模塊實現(xiàn)了分布式網(wǎng)絡(luò)爬蟲中控制爬蟲節(jié)點的運行和任務(wù)下發(fā)。爬蟲節(jié)點模塊由接受任務(wù)模塊、HTML頁面數(shù)據(jù)采集模塊和數(shù)據(jù)上傳模塊組成,是爬蟲節(jié)點的核心部分,它直接與控制節(jié)點進行通信。任務(wù)分配模塊是指,在本項目的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)工作時,由于是所有節(jié)點協(xié)同工作,因此很容易訪問到重復的URL頁面,同時將龐大的爬行任務(wù)分配給爬蟲系統(tǒng),需要保證每個節(jié)點的負載平衡。首先任務(wù)分配模塊將采集任務(wù)寫入數(shù)據(jù)庫中的站點任務(wù)表,然后節(jié)點通信模塊由采集站點任務(wù)表中的信息來下發(fā)任務(wù)給爬蟲節(jié)點,之后爬蟲節(jié)點接到任務(wù)后進行HTML頁面采集,最后爬蟲節(jié)點將采集到的房產(chǎn)數(shù)據(jù)通過數(shù)據(jù)上傳模塊將數(shù)據(jù)FTP到數(shù)據(jù)庫服務(wù)器。
控制節(jié)點在爬行系統(tǒng)中不參與爬行過程,它主要負責整個系統(tǒng)管理工作,該節(jié)點對爬行節(jié)點信息維護主要是通過設(shè)備管理模塊來完成的。它可動態(tài)地調(diào)整爬行節(jié)點的數(shù)量,使得系統(tǒng)具有良好的可擴展性。
[參考文獻]
[1]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008(1):48-61.
[2]夏文靜,陳耿,范麗亞.八種最小二乘SVM型學習算法的優(yōu)勢比較[J].聊城大學學報(自然科學版),2016(2):33-41.
[3]張浩然,汪曉東.回歸最小二乘支持向量機的增量和在線式學習算法[J].計算機學報,2006(3):400-406.