黃云康
(1.廣東省國土資源技術中心,廣東 廣州 510075)
基于ETL技術的不動產(chǎn)數(shù)據(jù)整合策略研究
黃云康1
(1.廣東省國土資源技術中心,廣東 廣州 510075)
開展不動產(chǎn)統(tǒng)一登記業(yè)務,保障不動產(chǎn)統(tǒng)一登記平穩(wěn)、全面、快速推進,需要建立不動產(chǎn)統(tǒng)一登記應用數(shù)據(jù)庫體系。以房、地存量登記數(shù)據(jù)整合為例,通過對分散登記時代的多源異構房、地登記數(shù)據(jù)的分析,結(jié)合數(shù)據(jù)庫ETL技術,建立ETL數(shù)據(jù)整合模型,以地籍數(shù)據(jù)為基礎、宗地統(tǒng)一編碼為索引,對存量不動產(chǎn)登記數(shù)據(jù)進行整理、清洗、轉(zhuǎn)換編碼、裝載入庫,建立內(nèi)容完整、邏輯一致的不動產(chǎn)登記數(shù)據(jù)庫,支撐不動產(chǎn)統(tǒng)一登記業(yè)務和不動產(chǎn)登記信息依法查詢。
不動產(chǎn)統(tǒng)一登記;數(shù)據(jù)整合;ETL;存量數(shù)據(jù)
我國自2015年3月起施行不動產(chǎn)統(tǒng)一登記制度,2015年8月國土資源部發(fā)布《關于做好不動產(chǎn)登記信息管理基礎平臺建設工作的通知》(國土資發(fā)〔2015〕103號)明確指出數(shù)據(jù)整合是信息平臺建設的基礎。按照《不動產(chǎn)登記信息管理基礎平臺建設總體方案》和相關技術標準,堅持“完整、一致、規(guī)范”的原則,以不動產(chǎn)登記簿為核心,以宗地(宗海)為基礎,以不動產(chǎn)單元為基本單位,開展數(shù)據(jù)整合及數(shù)據(jù)庫建設,最終形成空間參考一致、數(shù)據(jù)關聯(lián)關系正確、歷史信息完整的不動產(chǎn)登記數(shù)據(jù)庫,力爭2016年底前基本完成存量不動產(chǎn)登記數(shù)據(jù)的整合建庫工作,為不動產(chǎn)登記業(yè)務和信息共享查詢服務提供信息保障。存量不動產(chǎn)登記數(shù)據(jù)整合建庫的主要任務包括:
1)對土地、房產(chǎn)、森林林木、海域等已有的登記信息按現(xiàn)行的數(shù)據(jù)標準和技術規(guī)范進行梳理與規(guī)范,形成符合相關技術標準的數(shù)據(jù)集。
2)依據(jù)《不動產(chǎn)登記數(shù)據(jù)庫標準(試行)》通過抽取、轉(zhuǎn)換、補錄、整合等方法,建立不動產(chǎn)登記數(shù)據(jù)庫。
本文將重點以房地存量數(shù)據(jù)整合為例探討基于ETL技術進行不動產(chǎn)存量數(shù)據(jù)整合的方法和策略。建立ETL不動產(chǎn)登記統(tǒng)一數(shù)據(jù)模型,經(jīng)抽取、轉(zhuǎn)換、裝載等ETL過程,對房地存量數(shù)據(jù)進行關聯(lián)、整合、編碼、落宗,建成不動產(chǎn)登記存量數(shù)據(jù)庫,為不動產(chǎn)登記信息平臺提供數(shù)據(jù)支撐,保障不動產(chǎn)統(tǒng)一登記業(yè)務的平穩(wěn)進行。
1.1 多時點、多業(yè)務是難點
在分散登記背景下的多種業(yè)務數(shù)據(jù)來源、多種介質(zhì)來源的數(shù)據(jù)分別遵循各自相關的行業(yè)標準,有時同一種業(yè)務在不同時期,會對應不同的業(yè)務標準,無疑給數(shù)據(jù)整合造成了非常大的難度,主要表現(xiàn)為標準不一、數(shù)據(jù)精度不一、數(shù)據(jù)要素不齊全、沒有關聯(lián)、歷史數(shù)據(jù)復雜[1]。因此,不動產(chǎn)登記數(shù)據(jù)整合的一個關鍵是對各類不動產(chǎn)業(yè)務數(shù)據(jù)的梳理,保證其邏輯正確、關聯(lián)正確。
1.2 數(shù)據(jù)分散于各類業(yè)務系統(tǒng),無業(yè)務獨立性
目前各地在土地調(diào)查、土地登記、房產(chǎn)調(diào)查測繪、房屋產(chǎn)權管理等業(yè)務中所生產(chǎn)的基礎數(shù)據(jù)庫類數(shù)據(jù)多數(shù)情況下是依賴于某個特定應用系統(tǒng),所生成的數(shù)據(jù)高度依賴于特定的軟件應用系統(tǒng),只能在特定軟件中或特定的業(yè)務系統(tǒng)中才能使用,無法供外部應用,導致數(shù)據(jù)喪失了其本該具有的獨立于業(yè)務的特性。
綜上,因不動產(chǎn)的多源異構、多業(yè)務多時點、無業(yè)務獨立性等特點,在房產(chǎn)和土地登記數(shù)據(jù)整合過程中,必然涉及數(shù)據(jù)模式不匹配、數(shù)據(jù)內(nèi)容不唯一、語義沖突等問題。為解決這些問題,本文基于ETL技術,搭建ETL數(shù)據(jù)模型,通過抽取、轉(zhuǎn)換、裝載實現(xiàn)對不動產(chǎn)登記存量數(shù)據(jù)的整合入庫。
ETL(extract transform load)描述了將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程[2-3]。在不動產(chǎn)的數(shù)據(jù)整合過程中,ETL過程包括從數(shù)據(jù)源中抽取出所需要的相應數(shù)據(jù),經(jīng)過清洗后加上一系列分類、篩選、拆分、組合、轉(zhuǎn)換等整理加工,最終按照提前定義好的數(shù)據(jù)倉庫模型將數(shù)據(jù)裝載至數(shù)據(jù)倉庫中,使得數(shù)據(jù)實現(xiàn)從數(shù)據(jù)源向目標數(shù)據(jù)倉庫的轉(zhuǎn)化。
2.1 基于ETL技術的不動產(chǎn)登記存量數(shù)據(jù)整合
2.1.1 不動產(chǎn)登記存量數(shù)據(jù)整合思路
不動產(chǎn)登記數(shù)據(jù)整合建庫工作是依據(jù)土地、房產(chǎn)、林權及草原等現(xiàn)行數(shù)據(jù)庫標準規(guī)范和《不動產(chǎn)登記數(shù)據(jù)庫標準(試行)》規(guī)范化原始數(shù)據(jù)庫,再根據(jù)《不動產(chǎn)登記數(shù)據(jù)庫標準(試行)》整合建成中間庫,最終建成可以支撐不動產(chǎn)登記信息管理基礎平臺運行的成果數(shù)據(jù)庫。與此同時,數(shù)據(jù)整合過程中的各個環(huán)節(jié)都要進行質(zhì)量控制。
不動產(chǎn)登記數(shù)據(jù)整合分為4個階段,不動產(chǎn)登記數(shù)據(jù)整合技術路線見圖1。
圖1 不動產(chǎn)登記數(shù)據(jù)整合技術路線圖
1)數(shù)據(jù)采集階段。根據(jù)項目的建設目標制定數(shù)據(jù)采集方案,對收集的不動產(chǎn)數(shù)據(jù)進行電子化處理和格式統(tǒng)一化處理入庫形成原始數(shù)據(jù)庫,并根據(jù)數(shù)據(jù)庫建設文檔對數(shù)據(jù)進行數(shù)據(jù)結(jié)構和數(shù)據(jù)內(nèi)容進行分析。
2)數(shù)據(jù)整理階段。根據(jù)原有土地、房屋、林權、草原建設規(guī)范對歷史數(shù)據(jù)進行質(zhì)量檢查,包括數(shù)據(jù)完整性質(zhì)量檢查和數(shù)據(jù)邏輯性檢查,并根據(jù)檢查結(jié)果對數(shù)據(jù)進行去重、修改和補錄等數(shù)據(jù)處理工作,最終形成標準規(guī)范的數(shù)據(jù)集。
3)數(shù)據(jù)抽取轉(zhuǎn)換維護階段。運用數(shù)據(jù)抽取和轉(zhuǎn)換的工具將標準規(guī)范數(shù)據(jù)集中的分類抽取轉(zhuǎn)換到不動產(chǎn)中間庫中,并根據(jù)不動產(chǎn)數(shù)據(jù)庫標準對數(shù)據(jù)進行質(zhì)量檢查,形成多個符合不動產(chǎn)數(shù)據(jù)規(guī)范的中間庫。在本階段借助ETL技術通過抽取、轉(zhuǎn)換、映射將存量不動產(chǎn)登記數(shù)據(jù)裝載到不動產(chǎn)中間庫,本階段工作依據(jù)房、地數(shù)據(jù)依賴的行業(yè)技術規(guī)范和《不動產(chǎn)登記數(shù)據(jù)庫標準(試行)》進行。
4)數(shù)據(jù)整合關聯(lián)入庫階段。通過ETL工具進行抽取、轉(zhuǎn)換映射、裝載將各不動產(chǎn)中間庫與不動產(chǎn)登記發(fā)證系統(tǒng)中的數(shù)據(jù)庫整合,形成統(tǒng)一的數(shù)據(jù)庫,建立房地關聯(lián)關系,經(jīng)過質(zhì)量檢查與修改后,形成最終統(tǒng)一規(guī)范的不動產(chǎn)正式數(shù)據(jù)庫。
2.2 不動產(chǎn)登記存量數(shù)據(jù)ETL整合步驟
不動產(chǎn)登記存量數(shù)據(jù)ETL整合步驟如下:
1)數(shù)據(jù)采集。通過對當前房屋、土地登記信息的現(xiàn)狀調(diào)查,搜集土地、房屋等登記執(zhí)行的數(shù)據(jù)庫標準、技術規(guī)程和原來的房、地登記圖、表、卡、冊等紙質(zhì)資料和電子數(shù)據(jù)。
2)數(shù)據(jù)整理。依據(jù)土地、房產(chǎn)等現(xiàn)行的相關標準,借助ETL技術,通過對統(tǒng)一登記前已有的登記信息提取、轉(zhuǎn)換、補錄等。建成符合土地、房產(chǎn)等現(xiàn)行標準的數(shù)據(jù)集,進而依據(jù)《不動產(chǎn)登記數(shù)據(jù)庫標準(試行)》建立規(guī)范的不動產(chǎn)登記數(shù)據(jù)中間庫。
不動產(chǎn)登記存量數(shù)據(jù)ETL整合入庫部分從過程和內(nèi)容來講,包括了數(shù)據(jù)抽取、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載4個階段。整合集成建庫主要涉及以下問題:①數(shù)據(jù)來源多樣化,包括基礎層、專業(yè)層、業(yè)務層、監(jiān)管層等4類數(shù)據(jù)具有數(shù)據(jù)種類多、數(shù)據(jù)關系復雜、數(shù)據(jù)量大、標準不統(tǒng)一、整合難度高等特點。②數(shù)據(jù)格式多樣化,涵蓋業(yè)務辦理過程中產(chǎn)生的業(yè)務審批的圖屬數(shù)據(jù)、測繪階段產(chǎn)生的空間格式數(shù)據(jù),以及現(xiàn)有的不同信息系統(tǒng)數(shù)據(jù)庫,需對各種格式的數(shù)據(jù)抽取整合,建立數(shù)據(jù)關系。③空間拓撲關系建立,在集成過程中不僅要描述空間實體對象的空間位置和屬性,還要體現(xiàn)各實體對象之間的空間拓撲關系。
3)數(shù)據(jù)抽取。根據(jù)相關標準規(guī)范,充分分析實際情景數(shù)據(jù),針對多種異構的數(shù)據(jù)來源,建立ETL規(guī)則。梳理土地登記、房屋登記的歷史數(shù)據(jù)。因各地的信息化程度不同,常見的土地、房屋的歷史登記的源數(shù)據(jù)格式為Oracle、CAD、Excel等。結(jié)合實際數(shù)據(jù),分析不動產(chǎn)登記數(shù)據(jù)庫以及其他相關數(shù)據(jù)庫、歷史數(shù)據(jù)之間的對應關系,依據(jù)《城鎮(zhèn)地籍數(shù)據(jù)庫標準》、《房屋登記簿管理試行辦法》、《房地產(chǎn)市場信息系統(tǒng)技術規(guī)范》、《不動產(chǎn)登記數(shù)據(jù)庫標準》等相關登記數(shù)據(jù)標準、規(guī)范建立抽取規(guī)則。
4)數(shù)據(jù)清洗。逐項檢查土地、房屋等已有不動產(chǎn)登記資料,剔除登記簿、權籍圖中已注銷的權利數(shù)據(jù),把不合業(yè)務規(guī)則的數(shù)據(jù)以及冗余數(shù)據(jù)過濾掉,并把相應的信息轉(zhuǎn)入檔案庫管理。數(shù)據(jù)清洗需要人工干預,并且需要業(yè)務人員進行確認。不符合規(guī)則的數(shù)據(jù)常見的有以下幾種情形:①信息不完整,缺失坐落、權利人等必填的重要信息的記錄。②錯誤數(shù)據(jù),邏輯不一致數(shù)據(jù),比如日期里填的不是日期,還有其他文字信息的情形。③冗余信息,比如已經(jīng)注銷的、重復錄入的,但是沒有被刪除的無效信息。
5)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)抽取中取得的數(shù)據(jù)來自不同的數(shù)據(jù)源,通常存在語義不一致的問題,需要對語義不一致的數(shù)據(jù)進行檢測,將數(shù)據(jù)轉(zhuǎn)化成集成的、一致的數(shù)據(jù)[4]。
數(shù)據(jù)源中的數(shù)據(jù)經(jīng)常存在重復和缺失問題,這些數(shù)據(jù)會影響到數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量,并最終影響決策的準確性。因此要檢測重復數(shù)據(jù)、缺失數(shù)據(jù)并制定相對應的規(guī)則消除重復數(shù)據(jù),填充缺失數(shù)據(jù)。
理清轉(zhuǎn)換關系后,構建不動產(chǎn)領域的統(tǒng)一數(shù)據(jù)模型,建立異構數(shù)據(jù)源與核心數(shù)據(jù)庫之間的字段映射關系、數(shù)據(jù)抽取規(guī)則、轉(zhuǎn)換規(guī)則。利用數(shù)據(jù)抽取引擎將原有系統(tǒng)中的業(yè)務數(shù)據(jù)抽取到不動產(chǎn)統(tǒng)一登記數(shù)據(jù)庫中的對應業(yè)務表單中,以中間庫的形式存放。根據(jù)轉(zhuǎn)換規(guī)則建立數(shù)據(jù)模型,核心部分如圖2。
5)數(shù)據(jù)裝載。依照統(tǒng)一數(shù)據(jù)模型對原來分布在各個應用系統(tǒng)中的業(yè)務數(shù)據(jù)完成抽取、轉(zhuǎn)換整合后,載入至符合《不動產(chǎn)登記數(shù)據(jù)庫標準(試行)》標準的中間庫中。因為很多地市是先發(fā)證,再進行的不動產(chǎn)登記歷史數(shù)據(jù)整合,隨著日常登記業(yè)務的辦理已經(jīng)對數(shù)據(jù)庫進行了實時動態(tài)更新,在歷史數(shù)據(jù)入庫的時候,還需要考慮與增量不動產(chǎn)登記業(yè)務數(shù)據(jù)的關聯(lián),建立不動產(chǎn)登記數(shù)據(jù)庫動態(tài)擴展機制。
6)數(shù)據(jù)的校驗。通過抽取、清洗、轉(zhuǎn)換的ETL過程基本實現(xiàn)了數(shù)據(jù)重構與規(guī)范化整合。為保證來源于原分散在各行各業(yè)、各部門的數(shù)據(jù)在整合后的一致性、完整性,需要對其進行相互校驗、檢核。通過采用一定的程序校驗、人機對話等方法,對轉(zhuǎn)換前后數(shù)據(jù)結(jié)構、屬性信息統(tǒng)計、對比分析,分別校驗空間數(shù)據(jù)的空間位置和屬性值在轉(zhuǎn)換前后是否一致、完整,以及各類空間數(shù)據(jù)的拓撲關系、屬性數(shù)據(jù)的邏輯關系是否正確等。
7)數(shù)據(jù)的整合。通過對整理后的空間數(shù)據(jù)集進行圖層合并、冗余數(shù)據(jù)剔除、信息補錄等操作,形成符合《不動產(chǎn)登記數(shù)據(jù)庫標準(試行)》要求的空間數(shù)據(jù)以及與之關聯(lián)的屬性數(shù)據(jù),并以此為基礎進行地籍區(qū)、地籍子區(qū)、宗地以及建筑物、構筑物等空間數(shù)據(jù)統(tǒng)一編碼。通過對整理后的非空間數(shù)據(jù)進行數(shù)據(jù)歸并、冗余數(shù)據(jù)剔除、信息補錄等操作,形成與不動產(chǎn)登記相關技術要求以及《不動產(chǎn)登記數(shù)據(jù)庫標準(試行)》要求相符的不動產(chǎn)登記簿。
將整合后的空間數(shù)據(jù)和非空間數(shù)據(jù)進行關聯(lián)[5],用宗地編號把宗地和不動產(chǎn)單元進行關聯(lián),用不動產(chǎn)單元編號把不動產(chǎn)和不動產(chǎn)權利關聯(lián),用業(yè)務號實現(xiàn)不動產(chǎn)權利和登記過程的關聯(lián),最終形成空間數(shù)據(jù)、非空間數(shù)據(jù)關聯(lián),歷史和現(xiàn)狀信息清晰完整的不動產(chǎn)登記信息。將整理后的不動產(chǎn)登記信息按照《不動產(chǎn)登記數(shù)據(jù)庫標準(試行)》對基礎地理信息、宗地數(shù)據(jù)、自然幢數(shù)據(jù)、權利數(shù)據(jù)、權利人數(shù)據(jù)、登記業(yè)務等進行數(shù)據(jù)組織、編碼、入庫,建成支撐不動產(chǎn)登記信息管理基礎平臺運行的不動產(chǎn)登記數(shù)據(jù)庫(成果數(shù)據(jù)庫),并按照元數(shù)據(jù)的要求填寫所建數(shù)據(jù)庫的元數(shù)據(jù)。
8)解決的關鍵問題和創(chuàng)新點。本文在ETL技術的基礎上對存量不動產(chǎn)登記數(shù)據(jù)的整合策略主要解決的問題和創(chuàng)新點有以下兩點: ①構建不動產(chǎn)登記領域的統(tǒng)一數(shù)據(jù)模型,通過分析不同業(yè)務種類的異構數(shù)據(jù)源與核心數(shù)據(jù)庫之間的字段映射關系建立了不動產(chǎn)登記領域的統(tǒng)一數(shù)據(jù)模型,解決了從原分散登記的土地、房屋等各領域登記業(yè)務數(shù)據(jù)到不動產(chǎn)統(tǒng)一登記數(shù)據(jù)庫的融合關聯(lián)問題,實現(xiàn)房、地信息互聯(lián)互通和房地一體化。②建立基于ETL的轉(zhuǎn)換規(guī)則,實現(xiàn)多種異構數(shù)據(jù)源與核心數(shù)據(jù)庫之間的轉(zhuǎn)換,解決了不同的數(shù)據(jù)類型、不同的數(shù)據(jù)結(jié)構、不同的入庫對象的整合入庫問題。
數(shù)據(jù)整合整體思路按照尊重歷史、充分繼承的原則,統(tǒng)一按照目前的有關要求和方法開展[6]。以地籍數(shù)據(jù)為基礎和宗地統(tǒng)一編碼為索引進行不動產(chǎn)數(shù)據(jù)整合[7]。完整、規(guī)范和準確的不動產(chǎn)登記數(shù)據(jù)是開展不動產(chǎn)統(tǒng)一登記工作的基礎,數(shù)據(jù)整合質(zhì)量的好壞直接關系到不動產(chǎn)能否順利按照國家有關技術標準和要求進行規(guī)范化登記,而土地登記數(shù)據(jù)和房屋登記數(shù)據(jù)整合是不動產(chǎn)登記數(shù)據(jù)整合的主要內(nèi)容。針對不動產(chǎn)登記數(shù)據(jù)的多源、異構、多時點、多業(yè)務、數(shù)據(jù)量大等特點,
圖2 不動產(chǎn)登記數(shù)據(jù)整合ETL數(shù)據(jù)模型(核心部分)
本文使用ETL技術建立不動產(chǎn)統(tǒng)一登記數(shù)據(jù)模型,對業(yè)務數(shù)據(jù)和空間數(shù)據(jù)進行抽取、清洗、轉(zhuǎn)換、裝載實現(xiàn)對存量不動產(chǎn)登記數(shù)據(jù)的再組織和加工,建立了統(tǒng)一的不動產(chǎn)登記數(shù)據(jù)庫,為不動產(chǎn)統(tǒng)一登記發(fā)證提供支撐。
[1] 武東海.不動產(chǎn)登記信息管理基礎平臺建設研究[J].國土資源,2014(6):42-43
[2] 田揚戈,邊馥苓.空間數(shù)據(jù)倉庫的ETL研究[J].武漢大學學報(信息科學版),2007, 32(4):362-365
[3] 田芳,劉震.數(shù)據(jù)倉庫清洗技術討論[J].青海師范大學學報(自然科學版), 2005(4):50-53
[4] 姚志鵬.數(shù)據(jù)抽取、轉(zhuǎn)換、加載描述規(guī)范的研究與運用[D].青島:青島大學,2013:10-11
[5] 中華人民共和國國土資源行業(yè)標準.不動產(chǎn)登記數(shù)據(jù)整合建庫技術規(guī)范:TD/T[S].2016:26-27
[6] 秦力.不動產(chǎn)數(shù)據(jù)整合初探[J].工程技術,2016(10):2-3
[7] 王履華,孫在宏,彭英,等.不動產(chǎn)登記信息數(shù)據(jù)整合及管理基礎平臺建設研究[J].地理信息世界,2014(4):76-82
P208
B文章編號:1672-4623(2017)06-0022-04
10.3969/j.issn.1672-4623.2017.06.006
2017-03-13。
黃云康,高級工程師,主要從事國土測繪工作。