董睿琳 董楠
摘 要:大數(shù)據(jù)顛覆了人們對吃、穿、行的思考方式與習(xí)慣。而在“住”的方面,房地產(chǎn)一直以來都和金融業(yè)有著千絲萬縷的聯(lián)系,房地產(chǎn)大數(shù)據(jù)對于金融業(yè)來說有著至關(guān)重要的意義。依托于房地產(chǎn)大數(shù)據(jù)的自動股價平臺可以為銀行等金融機(jī)構(gòu)帶來決策性的意義,降低自身持有抵押品的風(fēng)險。本項(xiàng)目是在物聯(lián)網(wǎng)、大數(shù)據(jù)、下一代互聯(lián)網(wǎng)的背景下提出的房地產(chǎn)評估系統(tǒng)。大規(guī)模發(fā)展IPv6下一代互聯(lián)網(wǎng),將會給互聯(lián)網(wǎng)核心技術(shù)及大數(shù)據(jù)帶來歷史性發(fā)展機(jī)遇。當(dāng)前房地產(chǎn)行業(yè)面臨轉(zhuǎn)型,要通過科技智慧化手段實(shí)現(xiàn)管理增效、技術(shù)增收,而物聯(lián)網(wǎng)能夠給地產(chǎn)行業(yè)轉(zhuǎn)型升級提供有力支撐。
關(guān)鍵詞: 房地產(chǎn)大數(shù)據(jù);金融業(yè);網(wǎng)絡(luò)爬蟲;自動估價
文章編號: 2095-2163(2019)03-0276-04 中圖分類號: TP311 文獻(xiàn)標(biāo)志碼: A
0 引 言
隨著網(wǎng)絡(luò)信息技術(shù)的不斷進(jìn)步,大數(shù)據(jù)時代已悄然來臨,大數(shù)據(jù)也在各行各業(yè)中陸續(xù)得到廣泛的應(yīng)用,而且正在逐漸改變著人們的社會生活[1]。
IPv6下一代互聯(lián)網(wǎng)的大規(guī)模發(fā)展,將會給互聯(lián)網(wǎng)核心技術(shù)及大數(shù)據(jù)帶來歷史性發(fā)展機(jī)遇。物聯(lián)網(wǎng)、大數(shù)據(jù)與房地產(chǎn)密不可分,未來數(shù)據(jù)資產(chǎn)在房地產(chǎn)中的價值體現(xiàn)也越來越重要。當(dāng)前房地產(chǎn)行業(yè)面臨轉(zhuǎn)型,要通過科技智慧化手段實(shí)現(xiàn)管理增效、技術(shù)增收,而物聯(lián)網(wǎng)能夠給地產(chǎn)行業(yè)轉(zhuǎn)型升級提供有力支撐。
房地產(chǎn)業(yè)因其運(yùn)轉(zhuǎn)周期長、融資量大離不開金融業(yè)的支持,而金融業(yè)則將房地產(chǎn)業(yè)視為一種安全性和收益性都很高的優(yōu)良資產(chǎn)和黃金業(yè)務(wù)。房貸業(yè)務(wù)幾乎成為大部分銀行信貸板塊中的主推項(xiàng)目。由于國內(nèi)社會信用制度尚不規(guī)范,整個社會的商業(yè)信用體系也有待完善,導(dǎo)致銀行在很大程度上將可能面對一定的商業(yè)風(fēng)險。因此銀行需要對押品進(jìn)行估價,實(shí)時掌握押品的價值。數(shù)據(jù)是前瞻性的,收集歷史數(shù)據(jù),目的是為了預(yù)知未來[2],為可能到來的金融風(fēng)險做準(zhǔn)備。
1 房地產(chǎn)大數(shù)據(jù)現(xiàn)狀及存在問題
1.1 國內(nèi)現(xiàn)狀
作為國內(nèi)知名的房產(chǎn)經(jīng)紀(jì)公司,鏈家很早之前就已開始了大數(shù)據(jù)探索嘗試,在大數(shù)據(jù)的構(gòu)建、應(yīng)用上已取得了初步成就。
禧泰房地產(chǎn)數(shù)據(jù)有限公司是國內(nèi)最早設(shè)立的專業(yè)房地產(chǎn)大數(shù)據(jù)公司,早在2005就開始從事房地產(chǎn)數(shù)據(jù)的收集、整理和研究應(yīng)用。該公司于2017年度提供房產(chǎn)自動估價服務(wù)8 000萬筆、服務(wù)房產(chǎn)交易用戶超過1億人次(以上數(shù)字來源自禧泰官網(wǎng))。自動估價系統(tǒng)已經(jīng)逐漸替代傳統(tǒng)的房地產(chǎn)評估公司的人工估價業(yè)務(wù)。
1.2 國外現(xiàn)狀
CoreLogic公司是全世界最大的房地產(chǎn)數(shù)據(jù)分析服務(wù)商。該公司將政府公開信息、客戶特供和第三方數(shù)據(jù)構(gòu)建成復(fù)雜而又龐大的大數(shù)據(jù)庫,就美國而言,覆蓋了99.8%以上人口,超過1.47億人的財(cái)產(chǎn)記錄,搜羅了超過930萬人的按揭貸款申請,超過美國99%縣、市及特殊稅收管轄權(quán)的納稅記錄,超過7.95億次房地產(chǎn)交易歷史數(shù)據(jù),占據(jù)租賃市場約70%的23萬活躍的租戶/業(yè)主記錄,每年可提供超過2 500萬的信用報(bào)告,甚至包括空間地理與國家防汛數(shù)據(jù)(以上數(shù)據(jù)源自鏈家研究院)。
1.3 中國房地產(chǎn)大數(shù)據(jù)存在的問題
目前,中國對房地產(chǎn)大數(shù)據(jù)的管理是匱乏的,沒有專門的機(jī)構(gòu)來整理記錄房地產(chǎn)大數(shù)據(jù),房地產(chǎn)大數(shù)據(jù)仍處于雜亂無章的狀態(tài),具有真實(shí)性低、規(guī)范性差等特點(diǎn),這給房地產(chǎn)大數(shù)據(jù)的應(yīng)用造成了巨大的困難。網(wǎng)絡(luò)中的掛牌和出售數(shù)據(jù)需經(jīng)過去重、清洗后才能在日常實(shí)際生活中投付使用。本項(xiàng)目在清洗與去重中采用了時間與空間相結(jié)合的方法,并在數(shù)據(jù)中根據(jù)不同屬性采用了取極值的操作,去重率在80%以上。
2 房地產(chǎn)大數(shù)據(jù)將改變傳統(tǒng)房地產(chǎn)業(yè)
隨著下一代互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,以及房地產(chǎn)大數(shù)據(jù)的日趨完備,人們居住的房子將會被賦予更多的網(wǎng)絡(luò)屬性,智慧生活,智能家居就目前而言已是觸手可及??梢赃@樣說,未來優(yōu)秀的企業(yè)都是大數(shù)據(jù)公司,都將基于大數(shù)據(jù)生態(tài)環(huán)境讓自己更高效、更智慧地參與現(xiàn)代市場競爭。所以在現(xiàn)如今的金融業(yè)、房地產(chǎn)行業(yè)中,必須擁有卓越的大數(shù)據(jù)體系和平臺整合能力,而不是如同當(dāng)下僅僅關(guān)注的只是銷售排名的數(shù)字。
如果說傳統(tǒng)工業(yè)代表著過往,互聯(lián)網(wǎng)科技代表著現(xiàn)在,那么以大數(shù)據(jù)為代表的智慧科技則代表著未來。金融業(yè)與大數(shù)據(jù)的深度融合是大勢所趨。
目前,傳統(tǒng)房地產(chǎn)估價行業(yè)中大多數(shù)公司依然采用傳統(tǒng)的人工方式進(jìn)行評估,這種方式不僅費(fèi)時、費(fèi)力,而且在操作上也不具備公開透明性。通過基于房地產(chǎn)大數(shù)據(jù)的自動評估系統(tǒng)能夠?qū)崟r批量地對房產(chǎn)進(jìn)行評估,能夠給銀行減少時間成本,同時還可降低金錢成本。
3 通過網(wǎng)絡(luò)爬蟲抓取地產(chǎn)大數(shù)據(jù)
本次項(xiàng)目研究中,獲取數(shù)據(jù)的方法主要為網(wǎng)絡(luò)爬取。網(wǎng)絡(luò)爬蟲,又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外,一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲[3]。通用爬蟲的設(shè)計(jì)架構(gòu)如圖1所示。
在各種以數(shù)據(jù)作為設(shè)計(jì)運(yùn)行基礎(chǔ)的實(shí)驗(yàn)中,數(shù)據(jù)重要性是不言而喻的。不僅需要數(shù)據(jù)作為各種模型的基本計(jì)算和訓(xùn)練依據(jù),產(chǎn)生更多、更準(zhǔn)確的特征來構(gòu)建和模擬構(gòu)建效用相當(dāng)?shù)姆抡婺P?,通過這些模型對新產(chǎn)生的數(shù)據(jù)進(jìn)行預(yù)估和處理,從而提高模型的利用效果。隨著網(wǎng)絡(luò)的迅速發(fā)展,互聯(lián)網(wǎng)成為大量信息的載體,如何有效地找到自己需要的信息,并加以提取和利用即成為一個巨大的挑戰(zhàn)。
定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲可以幫助研究者解決這一問題。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,可根據(jù)既定的抓取目標(biāo),有選擇地訪問互聯(lián)網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(general purpose web crawler)不同,聚焦爬蟲并不追求大范圍的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。
4 房地產(chǎn)大數(shù)據(jù)的清洗加工
分布式的數(shù)據(jù)抓取系統(tǒng),散布在不同位置的數(shù)據(jù)中心,若干臺抓取服務(wù)器,若干套爬蟲程序,構(gòu)成了一個分布式的抓取系統(tǒng),用于存儲各個階段的歷史數(shù)據(jù)。借助于成熟的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop開發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲?;贗Pv6的部署實(shí)現(xiàn),進(jìn)一步推動IPv6在研發(fā)實(shí)踐中的普及應(yīng)用。最終結(jié)合本次研發(fā)需求制定一套適合該項(xiàng)目的自動估價模型,相對傳統(tǒng)估價模式對高成本的估價方式,自動估價技術(shù)的運(yùn)營成本明顯降低。Hadoop架構(gòu)圖如圖2所示。
研究中,建立了房地產(chǎn)數(shù)據(jù)倉庫,將海量的原始數(shù)據(jù)存放于數(shù)據(jù)倉庫中,通過自動化的腳本流程自動整理與清洗數(shù)據(jù)。并依托于清洗后的結(jié)果進(jìn)行統(tǒng)計(jì)分析,將分析后的結(jié)果以準(zhǔn)實(shí)時的方式存放于應(yīng)用數(shù)據(jù)庫中。
數(shù)據(jù)倉庫可以存儲各個階段的歷史數(shù)據(jù),為房地產(chǎn)價格的分析起到事半功倍的作用。
爬蟲抓取到的數(shù)據(jù)經(jīng)過格式化處理后送至數(shù)據(jù)倉庫的增量層,然后經(jīng)過清洗去重處理后送入到全量層。在全量層對其進(jìn)行統(tǒng)計(jì),再將統(tǒng)計(jì)后的結(jié)果傳送到應(yīng)用服務(wù)層。整個過程的執(zhí)行周期為一天。做到數(shù)據(jù)的準(zhǔn)實(shí)時。整個處理流程如圖3所示。
5 自動估價系統(tǒng)的實(shí)現(xiàn)
在數(shù)據(jù)日漸開放、并已全面進(jìn)入大數(shù)據(jù)時代的背景下,審時度勢的實(shí)踐者可以利用自動估價技術(shù)對中國的房地產(chǎn)估價和經(jīng)紀(jì)行業(yè)帶來變革。事實(shí)證明,AVM[4]并沒有使估價機(jī)構(gòu)丟失了原有的業(yè)務(wù)而受到威脅,反而使其可通過利用AVM技術(shù)為客戶提供更加豐富全面的估價服務(wù),同時也保證了自己的收益,創(chuàng)造了良好的客戶關(guān)系。
大數(shù)據(jù)是房地產(chǎn)估價方法的基礎(chǔ)。房地產(chǎn)估價方法包括比較法、收益法、成本法、假設(shè)開發(fā)法。例如,比較法中交易實(shí)例的搜集、房地產(chǎn)狀況調(diào)整,收益法中的資本化率的確定,全部需要大數(shù)據(jù)[5]。本項(xiàng)目實(shí)質(zhì)為一個垂直搜索模型,通過輸入房屋的具體地址信息,評估房子的價格,展示房子的屬性?;诖耍@里給出了研發(fā)系統(tǒng)的首頁設(shè)計(jì)效果見圖4。繼而,關(guān)于房地產(chǎn)小區(qū)詳情頁和小區(qū)其它信息頁的界面效果則分別如圖5和圖6所示。
基于房地產(chǎn)大數(shù)據(jù)的自動估價可以為房地產(chǎn)實(shí)現(xiàn)更為精確的自動估價,可以解決各級信貸審批人員缺乏便捷全面的房地產(chǎn)綜合全景信息工具的問題。自動估價在提供房地產(chǎn)自動估價、人工估價和價格走勢等多維度分析的同時,還可呈現(xiàn)相關(guān)的樓盤綜合信息、市場動態(tài)和周邊設(shè)施配置,可以有效地提高信貸審批業(yè)務(wù)的工作效率。
6 結(jié)束語
房地產(chǎn)行業(yè)產(chǎn)業(yè)鏈長、生產(chǎn)周期長、不確定因素多、涉及內(nèi)容廣、產(chǎn)品地域性強(qiáng)、文化背景差異大等,導(dǎo)致新技術(shù)應(yīng)用相對困難。一方面,應(yīng)該支持參與政府大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃,大力推進(jìn)政府部門數(shù)據(jù)共享,積極響應(yīng)與推動公共數(shù)據(jù)資源開放,實(shí)現(xiàn)資源整合。另一方面,提升自身獲取數(shù)據(jù)的方法與途徑,企業(yè)與企業(yè)之間形成戰(zhàn)略合作,企業(yè)利用自己的資源庫,開展科研工作,利用自身的數(shù)據(jù)庫與大學(xué)、科研機(jī)構(gòu)等共同合作,開發(fā)與豐富房地產(chǎn)大數(shù)據(jù)。房地產(chǎn)大數(shù)據(jù)資源的核心是開放和共享。
參考文獻(xiàn)
[1]維克多·邁爾-舍恩伯格,肯尼思·庫克耶. 大數(shù)據(jù)時代—生活、工作與思維的大變革[M]. 盛楊燕,周濤,譯. 杭州:浙江人民出版社,2013.
[2] 金宗澤,馮亞麗,紀(jì)博,等. 大數(shù)據(jù)分析中的關(guān)聯(lián)挖掘[J]. 計(jì)算機(jī)與數(shù)字工程,2014,42(10):1924-1928.
[3] 羅剛 王振東. 自己動手寫網(wǎng)絡(luò)爬蟲[M]. 北京:清華大學(xué)出版社,2010.
[4] IAAO. Standard on automated valuation models(AVMS)[J].Assesment Journal,2003,10(4):109.
[5] LEE C W. Vibration analysis of rotors [M]. Dordrecht: Springer, 1993.