■吳國華
(福州市勘測(cè)院 福建福州 350108)
數(shù)據(jù)庫ETL在房產(chǎn)信息系統(tǒng)數(shù)據(jù)遷移整合中的應(yīng)用
■吳國華
(福州市勘測(cè)院 福建福州 350108)
本文通過對(duì)房產(chǎn)信息系統(tǒng)中多源異構(gòu)數(shù)據(jù)現(xiàn)狀分析,接合數(shù)據(jù)庫ETL,提出了借助ETL工具FME Suite,通過對(duì)多種格式數(shù)據(jù)的提取、轉(zhuǎn)換,在轉(zhuǎn)換過程中重新構(gòu)造數(shù)據(jù)以及屬性的掛接,從而實(shí)現(xiàn)數(shù)據(jù)無損轉(zhuǎn)換、遷移。[關(guān)鍵詞]數(shù)據(jù)庫ETL無損遷移圖屬合一
房地產(chǎn)管理信息化是我國當(dāng)前數(shù)字城市建設(shè)的一項(xiàng)重要內(nèi)容,房地產(chǎn)管理信息化的發(fā)展與我國數(shù)字城市的發(fā)展密切相關(guān)。數(shù)字城市的發(fā)展,為房地產(chǎn)管理信息化發(fā)展奠定了良好的基礎(chǔ),一大批數(shù)字城市基礎(chǔ)設(shè)施可以為房地產(chǎn)管理信息化所直接使用。數(shù)字城市的建設(shè)也需要房地產(chǎn)信息化的發(fā)展和支持,因此房地產(chǎn)管理信息化是數(shù)字城市建設(shè)不可缺少的重要組成部分。為推動(dòng)福州市房產(chǎn)信息化的發(fā)展,實(shí)現(xiàn)房地產(chǎn)業(yè)務(wù)審批環(huán)節(jié)圖形信息、權(quán)屬信息、檔案信息一體化管理和“以圖管房、以圖管證、以圖搜房、以圖發(fā)布”的目標(biāo)。福州市房屋登記中心在信息化建設(shè)過程中特別強(qiáng)調(diào)了 “數(shù)據(jù)先行”的原則,以測(cè)繪圖形數(shù)據(jù)和產(chǎn)權(quán)產(chǎn)籍?dāng)?shù)據(jù)整理為先導(dǎo),對(duì)歷史各分散數(shù)據(jù)庫中分布的異構(gòu)數(shù)據(jù)進(jìn)行整理,利用數(shù)據(jù)庫ETL技術(shù)構(gòu)建全市統(tǒng)一房產(chǎn)數(shù)據(jù)庫。
福州市房屋登記中心原系統(tǒng)是基于空間庫、檔案庫、登記庫搭建的,由于系統(tǒng)是陸續(xù)建設(shè)起來的,因此系統(tǒng)間缺乏統(tǒng)一的規(guī)劃,各系統(tǒng)相對(duì)獨(dú)立且數(shù)據(jù)格式不一,致使管理系統(tǒng)不僅數(shù)據(jù)準(zhǔn)確性無法得到保證,也無法在系統(tǒng)內(nèi)形成統(tǒng)一的信息采集、上報(bào)機(jī)制、數(shù)據(jù)共享等,嚴(yán)重影響到業(yè)務(wù)的辦理效率與數(shù)據(jù)質(zhì)量。
而房產(chǎn)測(cè)繪與房產(chǎn)GIS、MIS一體化集成是房地產(chǎn)行業(yè)現(xiàn)在和將來的發(fā)展趨勢(shì),用空間數(shù)據(jù)庫技術(shù)正確存儲(chǔ)和表達(dá)測(cè)繪數(shù)據(jù)成果,以精準(zhǔn)的測(cè)繪成果關(guān)聯(lián)各管理系統(tǒng)房產(chǎn)業(yè)務(wù)數(shù)據(jù),是真正建立以圖管房、圖屬合一的房產(chǎn)GIS系統(tǒng)的意義所在。為了實(shí)現(xiàn)數(shù)據(jù)的一體化集成存儲(chǔ)管理,就必須完成對(duì)原有分散數(shù)據(jù)庫的遷移整合。
ETL(Extract-Transform-Load的縮寫,是數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程)能夠按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。整個(gè)數(shù)據(jù)遷移過程將從原有數(shù)據(jù)的分析、數(shù)據(jù)規(guī)劃與設(shè)計(jì)、數(shù)據(jù)遷移主體間關(guān)系、數(shù)據(jù)遷移的技術(shù)手段和數(shù)據(jù)遷移的措施、數(shù)據(jù)模擬遷移等六個(gè)方面對(duì)整個(gè)遷移過程進(jìn)行設(shè)計(jì)。
3.1 原有數(shù)據(jù)的分析
通過對(duì)原有數(shù)據(jù)的結(jié)構(gòu)和質(zhì)量分析,可以預(yù)估在實(shí)際數(shù)據(jù)遷移的過程中將會(huì)遇到的難點(diǎn)問題,并且提前對(duì)這些可能出現(xiàn)的難點(diǎn)問題優(yōu)先和重點(diǎn)解決。
3.2 數(shù)據(jù)的規(guī)劃與設(shè)計(jì)
針對(duì)目前數(shù)據(jù)方面存在的問題,提出新的信息庫應(yīng)包括:基礎(chǔ)數(shù)據(jù)庫、從業(yè)主體數(shù)據(jù)庫、業(yè)務(wù)數(shù)據(jù)庫、統(tǒng)計(jì)數(shù)據(jù)庫和發(fā)布數(shù)據(jù)庫。新的數(shù)據(jù)庫設(shè)計(jì)將有效避免原來數(shù)據(jù)的冗余和關(guān)聯(lián)異常問題,為房產(chǎn)測(cè)繪與房產(chǎn)GIS、MIS一體化集成提供數(shù)據(jù)層面的保證,從而為構(gòu)建圖檔一體化和以圖管房的業(yè)務(wù)系統(tǒng)奠定基礎(chǔ)。
3.3 數(shù)據(jù)遷移主體間關(guān)系
進(jìn)行數(shù)據(jù)遷移的主要任務(wù)是分析清楚遷移主體間的關(guān)系,即原數(shù)據(jù)庫(空間庫、檔案庫、登記庫)與目前規(guī)劃建設(shè)的房地產(chǎn)市場(chǎng)信息庫之間的關(guān)系。根據(jù)數(shù)據(jù)規(guī)劃與設(shè)計(jì)思想得出如下對(duì)應(yīng)關(guān)系:原空間庫與現(xiàn)基礎(chǔ)數(shù)據(jù)庫對(duì)應(yīng);原檔案庫主要與現(xiàn)業(yè)務(wù)庫和從業(yè)主體庫對(duì)應(yīng);原登記庫主要與現(xiàn)基礎(chǔ)庫中房地產(chǎn)權(quán)屬數(shù)據(jù)和業(yè)務(wù)庫中的數(shù)據(jù)對(duì)應(yīng)。
3.4 數(shù)據(jù)遷移的技術(shù)手段
傳統(tǒng)的數(shù)據(jù)轉(zhuǎn)換工具只能支持?jǐn)?shù)據(jù)格式級(jí)別的轉(zhuǎn)換,難以控制轉(zhuǎn)換過程的細(xì)節(jié),因此多數(shù)情況下不能達(dá)到數(shù)據(jù)轉(zhuǎn)換遷移的目的;而采用FME平臺(tái)的SETL(空間數(shù)據(jù)的ETL),是基于語義轉(zhuǎn)換的GIS互操作無損遷移技術(shù),通過對(duì)多種格式空間數(shù)據(jù)的提取、轉(zhuǎn)換,以及對(duì)轉(zhuǎn)換的空間數(shù)據(jù)進(jìn)行操作和模型變換及屬性的掛接,可從根本上達(dá)到對(duì)原數(shù)據(jù)無損轉(zhuǎn)換、遷移。
3.5 數(shù)據(jù)遷移的措施
由于原數(shù)據(jù)庫和新數(shù)據(jù)庫在設(shè)計(jì)的結(jié)構(gòu)差異,從原數(shù)據(jù)庫到新數(shù)據(jù)庫數(shù)據(jù)遷移極具挑戰(zhàn)性,一旦措施不當(dāng),珍貴的數(shù)據(jù)資源將面臨丟失的危險(xiǎn),要成功地實(shí)現(xiàn)數(shù)據(jù)庫數(shù)據(jù)平滑遷移,需要周密計(jì)劃、充分準(zhǔn)備和安全備份,并按照一定的步驟來完成。
3.6 數(shù)據(jù)模擬遷移
根據(jù)數(shù)據(jù)遷移方案,建立一個(gè)模擬的數(shù)據(jù)遷移環(huán)境,它既能仿真實(shí)際環(huán)境又不影響實(shí)際數(shù)據(jù),在數(shù)據(jù)模擬遷移環(huán)境中測(cè)試數(shù)據(jù)遷移的效果。數(shù)據(jù)模擬遷移前也應(yīng)按備份策略備份模擬數(shù)據(jù),以便數(shù)據(jù)遷移后能按恢復(fù)策略進(jìn)行恢復(fù)測(cè)試。根據(jù)數(shù)據(jù)遷移測(cè)試方案檢測(cè)模擬遷移后數(shù)據(jù)成果和應(yīng)用軟件是否正常,以及數(shù)據(jù)一致性測(cè)試、應(yīng)用軟件執(zhí)行功能測(cè)試、數(shù)據(jù)備份和恢復(fù)測(cè)試等。
根據(jù)ETL的流程設(shè)計(jì)及房產(chǎn)信息數(shù)據(jù)庫的特點(diǎn),整個(gè)數(shù)據(jù)遷移實(shí)施工藝流程分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)過濾、數(shù)據(jù)處理、數(shù)據(jù)加載、數(shù)據(jù)校驗(yàn)等七個(gè)主要部分。具體遷移實(shí)施流程圖如下圖。
4.1 數(shù)據(jù)準(zhǔn)備
原數(shù)據(jù)整理是對(duì)空間庫、檔案庫、登記庫等進(jìn)行依據(jù)國家統(tǒng)一標(biāo)準(zhǔn)的規(guī)范性整理、補(bǔ)齊數(shù)據(jù)內(nèi)容的完整性整理和保持與檔案同步的一致性整理。并在整理過程中按照國家統(tǒng)一標(biāo)準(zhǔn)及本地需求,建
立結(jié)構(gòu)規(guī)范的臨時(shí)數(shù)據(jù)庫(簡(jiǎn)稱為整理庫),將原生產(chǎn)數(shù)據(jù)轉(zhuǎn)換導(dǎo)入該庫。
4.2 數(shù)據(jù)抽取
根據(jù)原數(shù)據(jù)庫接口及系統(tǒng)業(yè)務(wù)特點(diǎn),數(shù)據(jù)抽取按年份以項(xiàng)目為單位進(jìn)行分批,通過項(xiàng)目關(guān)聯(lián)樓、樓關(guān)聯(lián)戶、戶關(guān)聯(lián)權(quán)屬信息和業(yè)務(wù)流程數(shù)據(jù)等將對(duì)應(yīng)樓盤所關(guān)聯(lián)的所有屬性信息、權(quán)屬信息,全部提取放入備份數(shù)據(jù)庫。增量數(shù)據(jù)的抽取采用時(shí)間戳方式進(jìn)行增量抽取,時(shí)間戳方式是基于快照比較的變化數(shù)據(jù)捕獲方式,在源表增加一個(gè)時(shí)間戳字段,在系統(tǒng)變更表數(shù)據(jù)的時(shí)候,同時(shí)修改時(shí)間戳字段值。當(dāng)進(jìn)行增量數(shù)據(jù)抽取時(shí),通過比較系統(tǒng)時(shí)間與時(shí)間戳字段的值來決定是否需要抽取數(shù)據(jù)。
4.3 數(shù)據(jù)清洗
在數(shù)據(jù)遷移過程中需對(duì)各類數(shù)據(jù)庫做一些必要的清洗操作,即把原先分散在不同環(huán)境中各種空間信息和屬性信息數(shù)據(jù)進(jìn)行規(guī)范化、標(biāo)準(zhǔn)化,并去除其中錯(cuò)誤數(shù)據(jù)。針對(duì)數(shù)據(jù)庫中數(shù)據(jù)的重復(fù)、錯(cuò)漏等不規(guī)范情況,數(shù)據(jù)清洗的思路以樓盤表為核心展開,通過數(shù)據(jù)清洗確保數(shù)據(jù)庫中樓盤表的唯一性,并使樓盤表關(guān)聯(lián)的地塊、樓和單元合理準(zhǔn)確、單元的辦證情況沒有重復(fù)且前后手?jǐn)?shù)據(jù)不相互矛盾、房產(chǎn)抵押登記情況與樓盤上狀態(tài)一致、房產(chǎn)限制條目信息與樓盤上狀態(tài)一致同時(shí)清除各類表垃圾記錄、關(guān)鍵字段空值、房產(chǎn)樹信息無關(guān)聯(lián)等。
4.4 數(shù)據(jù)過濾
由于現(xiàn)狀數(shù)據(jù)庫存在遷移變更、系統(tǒng)變換、數(shù)據(jù)統(tǒng)計(jì)等原因,使得現(xiàn)狀數(shù)據(jù)庫的屬性庫數(shù)據(jù)表格存在大量臨時(shí)表、冗余表,經(jīng)統(tǒng)計(jì)現(xiàn)狀庫數(shù)據(jù)表個(gè)數(shù)達(dá)493個(gè),通過與新系統(tǒng)模板對(duì)照,把現(xiàn)狀庫中的屬性數(shù)據(jù)設(shè)定過濾條件把表分類為如下三類:
村長知道不能跟他一本正經(jīng),反正就是嘻嘻哈哈,說對(duì)了就當(dāng)敲打他,說錯(cuò)了也只當(dāng)開玩笑打哈哈。動(dòng)不動(dòng)找什么鎮(zhèn)長書記,我還不曉得你。如今人家還說你呢。你上次去縣里找趙書記,說是趙書記還跟你說了話。人家問你,趙書記說什么,你說趙書記叫你滾開些。
與新系統(tǒng)有對(duì)照關(guān)聯(lián)關(guān)系的屬性表;
有參考價(jià)值而與新系統(tǒng)無對(duì)照關(guān)聯(lián)關(guān)系的屬性表;
沒有使用價(jià)值的臨時(shí)表和統(tǒng)計(jì)表等。
然后針對(duì)三類數(shù)據(jù)分別制定相應(yīng)處理方案,重點(diǎn)遷移與新系統(tǒng)有對(duì)照關(guān)聯(lián)關(guān)系的屬性表數(shù)據(jù);把有參考價(jià)值而與新系統(tǒng)無對(duì)照關(guān)聯(lián)關(guān)系的屬性表打包遷移到參考數(shù)據(jù)庫;把沒有使用價(jià)值的臨時(shí)表和統(tǒng)計(jì)表打包遷移到歷史數(shù)據(jù)庫。
4.5 數(shù)據(jù)處理4.5.1數(shù)據(jù)補(bǔ)錄
數(shù)據(jù)補(bǔ)錄主要是對(duì)住建部 《房地產(chǎn)市場(chǎng)基礎(chǔ)信息數(shù)據(jù)標(biāo)準(zhǔn)》所要求的以及新系統(tǒng)中需要擴(kuò)充的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)多數(shù)是非電子格式或非結(jié)構(gòu)數(shù)據(jù),或者原系統(tǒng)中已收錄但數(shù)據(jù)結(jié)構(gòu)和格式與需求相差太大無法通過數(shù)據(jù)整理工具整合,則必須人工補(bǔ)錄或補(bǔ)錄工具軟件轉(zhuǎn)換補(bǔ)錄到新系統(tǒng)中。
由于新舊系統(tǒng)數(shù)據(jù)庫的各對(duì)應(yīng)屬性表結(jié)構(gòu)及其關(guān)聯(lián)方式各異,因此數(shù)據(jù)遷移工作的關(guān)鍵就是對(duì)新舊系統(tǒng)數(shù)據(jù)庫各對(duì)應(yīng)屬性表字段建立一一對(duì)照關(guān)系,從原數(shù)據(jù)庫到目標(biāo)庫的數(shù)據(jù)遷移近似于把原數(shù)據(jù)庫屬性表各字段重新打亂后關(guān)聯(lián)對(duì)照到目標(biāo)庫對(duì)應(yīng)屬性表中,同時(shí)通過原關(guān)聯(lián)關(guān)系重新建立起新的關(guān)聯(lián)關(guān)系。
4.5.3 數(shù)據(jù)融合
數(shù)據(jù)融合是把多源異構(gòu)、格式不一的信息通過合適的方法結(jié)合起來得到一個(gè)更滿意的綜合信息的過程。原數(shù)據(jù)包含空間庫、檔案庫、登記庫等空間數(shù)據(jù)和非空間屬性數(shù)據(jù),通過數(shù)據(jù)融合把不同的數(shù)據(jù)整合到統(tǒng)一的框架下。把非空間的屬性融合和空間幾何位置的融合結(jié)合起來進(jìn)行,在幾何位置融合的同時(shí)從多種數(shù)據(jù)源中抽取所需的屬性組成新的屬性結(jié)構(gòu),按照語義轉(zhuǎn)換方法對(duì)屬性值進(jìn)行轉(zhuǎn)換,從而把各類屬性信息與空間樓盤信息建立有機(jī)關(guān)聯(lián)。融合后新數(shù)據(jù)不僅改變了屬性結(jié)構(gòu),也從多個(gè)數(shù)據(jù)集中繼承了屬性內(nèi)容。充分利用已有數(shù)據(jù),降低成本,實(shí)現(xiàn)信息資源的共享,改進(jìn)多源異構(gòu)數(shù)據(jù)的可靠性和可維護(hù)性。
4.5.4 數(shù)據(jù)轉(zhuǎn)換
本項(xiàng)目數(shù)據(jù)庫基礎(chǔ)軟件平臺(tái)采用SQL server、轉(zhuǎn)換軟件采用基于語義轉(zhuǎn)換技術(shù)的空間數(shù)據(jù)處理軟件FME(Feature Manipulate Engineering)Suite。FME優(yōu)點(diǎn)是不再將數(shù)據(jù)轉(zhuǎn)換看作是從一種格式到另一種格式的變換,而是將GIS要素同構(gòu)化并提供組件能夠?qū)?shù)據(jù)處理為所需的表達(dá)方式,在轉(zhuǎn)換過程中重新構(gòu)造數(shù)據(jù)及操縱數(shù)據(jù)。FME所執(zhí)行的整個(gè)數(shù)據(jù)轉(zhuǎn)換過程都通過語義映射文件來控制,實(shí)現(xiàn)了不同空間數(shù)據(jù)格式(模型)之間的轉(zhuǎn)換,為進(jìn)行大批量、快速度、高質(zhì)量、多需求的數(shù)據(jù)轉(zhuǎn)換遷移提供了高效、可靠的手段和支持。
4.6 數(shù)據(jù)加載
本項(xiàng)目在數(shù)據(jù)整理、數(shù)據(jù)遷移過程中均以數(shù)據(jù)的穩(wěn)定性、生產(chǎn)高效合理性、成本節(jié)約等多方面綜合考慮,采用基于語義轉(zhuǎn)換的GIS互操作數(shù)據(jù)無損轉(zhuǎn)換遷移技術(shù),將各類異構(gòu)數(shù)據(jù)裝載到目標(biāo)數(shù)據(jù)倉庫中去,數(shù)據(jù)加載方式主要采用如下兩種方式進(jìn)行裝載:
基本裝載:按照裝載的目標(biāo)表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到目標(biāo)表中。
追加裝載:主要是增量數(shù)據(jù)的裝載采用此種方式。即目標(biāo)表中已經(jīng)存在數(shù)據(jù),在保存已有數(shù)據(jù)的基礎(chǔ)上增加新數(shù)據(jù)。當(dāng)一個(gè)輸入的數(shù)據(jù)記錄與已經(jīng)存在的記錄重復(fù)時(shí),輸入記錄可能會(huì)作為副本增加進(jìn)去,或者丟棄。
4.7 數(shù)據(jù)校驗(yàn)
數(shù)據(jù)校驗(yàn)是為保證數(shù)據(jù)遷移的一致性、完整性,用一種指定的算法對(duì)轉(zhuǎn)換前后的數(shù)據(jù)進(jìn)行對(duì)比校驗(yàn)的過程。通過對(duì)轉(zhuǎn)換前后數(shù)據(jù)結(jié)構(gòu)和屬性進(jìn)行統(tǒng)計(jì)、對(duì)比分析,分別校驗(yàn)空間數(shù)據(jù)的幾何位置和非空間數(shù)據(jù)的屬性值在轉(zhuǎn)換前后是否一致、完整,以及各類空間數(shù)據(jù)和信息數(shù)據(jù)的拓?fù)潢P(guān)系和邏輯關(guān)系是否正確等。并將目標(biāo)數(shù)據(jù)庫中各類數(shù)據(jù)重新組合和關(guān)聯(lián)回遷到臨時(shí)庫與原數(shù)據(jù)庫進(jìn)行字段校驗(yàn),確保整個(gè)數(shù)據(jù)遷移過程的質(zhì)量。
一直以來房屋登記中心各類數(shù)據(jù)分散在不同業(yè)務(wù)處室,各自獨(dú)立管理,投入大量的人員及空間用于日常管理維護(hù)。通過數(shù)據(jù)庫ETL技術(shù),把原有屬性數(shù)據(jù)、圖形數(shù)據(jù)以及空間基礎(chǔ)地理信息數(shù)據(jù)整合在統(tǒng)一數(shù)據(jù)平臺(tái)內(nèi),使得業(yè)務(wù)信息與圖形信息得以實(shí)時(shí)關(guān)聯(lián)與互訪。真正實(shí)現(xiàn)了房地產(chǎn)業(yè)務(wù)審批環(huán)節(jié)圖形信息、權(quán)屬信息、檔案信息一體化管理和“以圖管房、以圖管證、以圖搜房、以圖發(fā)布”。
數(shù)據(jù)整理遷移消除了大量冗余數(shù)據(jù)提高了管理效率,而統(tǒng)一標(biāo)準(zhǔn)的一體化集中管理則大大降低了日常管理維護(hù)成本。中心數(shù)據(jù)庫就像一臺(tái)交換機(jī),有各種數(shù)據(jù)接口專門負(fù)責(zé)數(shù)據(jù)的采集與交換。某一房產(chǎn)應(yīng)用子系統(tǒng)只需要和這個(gè)交換機(jī)建立數(shù)據(jù)通路,就可以和其他應(yīng)用系統(tǒng)進(jìn)行數(shù)據(jù)交換,而不必在兩個(gè)需要交換的部門之間建立一條單獨(dú)的數(shù)據(jù)通道。這樣極大地減少了數(shù)據(jù)交換通道的數(shù)量,節(jié)省了數(shù)據(jù)交換的花費(fèi)。
[1]田揚(yáng)戈空間數(shù)據(jù)倉庫的ETL研究 武漢大學(xué)學(xué)報(bào) 2007年4月.
[2]蒙迪 (Joy Mundy)Microsoft數(shù)據(jù)倉庫工具箱 (第2版):使用SQL Server 2008 R2和Microsoft BI工具集2012-05.
[3]蔣海琴 房產(chǎn)管理信息系統(tǒng) 科學(xué)出版社 2007年4月.
[4]房地產(chǎn)市場(chǎng)基礎(chǔ)信息數(shù)據(jù)標(biāo)準(zhǔn) 中國建筑工業(yè)出版社JGJ/T 252-2011.
P208[文獻(xiàn)碼]B
1000-405X(2015)-10-278-2