李磊,鄭錦娜,孫義偉,王心華,李敏
(中國地質(zhì)調(diào)查局天津地質(zhì)調(diào)查中心,天津300170)
多源異構(gòu)空間數(shù)據(jù)庫整合技術(shù)探討與實踐
——以1/5萬區(qū)域地質(zhì)圖空間數(shù)據(jù)庫為例
李磊,鄭錦娜,孫義偉,王心華,李敏
(中國地質(zhì)調(diào)查局天津地質(zhì)調(diào)查中心,天津300170)
本文在1/5萬區(qū)域地質(zhì)圖空間數(shù)據(jù)庫兩種不同標(biāo)準(zhǔn)數(shù)據(jù)的基礎(chǔ)上,開展多源異構(gòu)空間數(shù)據(jù)整合研究實例性探索,基于空間數(shù)據(jù)應(yīng)用轉(zhuǎn)換模型及相關(guān)標(biāo)準(zhǔn),實現(xiàn)了兩類空間數(shù)據(jù)庫向應(yīng)用模型的整合,取得了良好的整合效果,為下一步開展空間數(shù)據(jù)一體化管理與共享服務(wù)提供了理論與實踐基礎(chǔ)。
空間數(shù)據(jù)庫;數(shù)字填圖;數(shù)據(jù)整合;一體化管理
隨著地質(zhì)大調(diào)查工作的開展,積累了大量的國家級基礎(chǔ)地質(zhì)數(shù)據(jù)庫,為政府部門決策、礦產(chǎn)資源評價以及經(jīng)濟社會建設(shè)等方面提供了數(shù)據(jù)資源保障。隨著互聯(lián)網(wǎng)大數(shù)據(jù)時代的來臨,社會對于地理空間信息的精細(xì)化需求日益增加,對數(shù)據(jù)信息的分析挖掘也越來越迫切,然而在實際應(yīng)用中,由于技術(shù)、資金與管理方面的原因,各個機構(gòu)與部門間形成了大量的“信息孤島”[1],并且由于數(shù)據(jù)采集方式、標(biāo)準(zhǔn)規(guī)范與管理平臺的不同,導(dǎo)致大量空間數(shù)據(jù)在數(shù)據(jù)標(biāo)準(zhǔn)與格式方面存在很大的差異性,造成數(shù)據(jù)共享與一體化管理十分困難。因此,研究數(shù)據(jù)整合技術(shù)是實現(xiàn)網(wǎng)絡(luò)環(huán)境下空間數(shù)據(jù)無縫集成與共享應(yīng)用的關(guān)鍵技術(shù)問題[2]。
1/5萬區(qū)域地質(zhì)圖空間數(shù)據(jù)庫建設(shè)是地質(zhì)調(diào)查成果信息化及國家基礎(chǔ)地質(zhì)數(shù)據(jù)庫的重要組成部分,目前數(shù)據(jù)庫基于兩類標(biāo)準(zhǔn)建立,兩種數(shù)據(jù)在數(shù)據(jù)模型、數(shù)據(jù)格式、表達(dá)方式與命名存儲上都存在很大的差異性,本文在此數(shù)據(jù)基礎(chǔ)上開展數(shù)據(jù)整合研究,基于空間數(shù)據(jù)應(yīng)用轉(zhuǎn)換模型及相關(guān)標(biāo)準(zhǔn),實現(xiàn)兩類數(shù)據(jù)一體化管理與集成實踐,為多源異構(gòu)數(shù)據(jù)整合提供實例依據(jù)。
由于多源異構(gòu)空間數(shù)據(jù)很難直接滿足空間數(shù)據(jù)網(wǎng)絡(luò)共享與服務(wù)的要求,需要解決的問題是對數(shù)據(jù)庫中存在的數(shù)據(jù)格式差異、坐標(biāo)體系差異、時空尺度差異和屬性定義等差異進(jìn)行整合。為此需建立有別于兩類數(shù)據(jù)庫的應(yīng)用數(shù)據(jù)模型,最大限度的保持兩類數(shù)據(jù)的原本性,按照一定的數(shù)據(jù)標(biāo)準(zhǔn)、空間與屬性數(shù)據(jù)轉(zhuǎn)換模型對兩類空間數(shù)據(jù)庫進(jìn)行提取、轉(zhuǎn)換、加載與整合,使其形成一個有機整體,最大程度上實現(xiàn)數(shù)據(jù)源的完全轉(zhuǎn)換與共享服務(wù)。
首先需要制定完善的數(shù)據(jù)整合方案與技術(shù)流程,在嚴(yán)格的質(zhì)量監(jiān)控措施保障下對兩類數(shù)據(jù)庫進(jìn)行數(shù)據(jù)整合,保證數(shù)據(jù)成果的正確、規(guī)范、有效。本文將數(shù)據(jù)整合流程劃分為數(shù)據(jù)抽取,數(shù)據(jù)清洗與數(shù)據(jù)轉(zhuǎn)換[3-5]三個主要步驟,同時數(shù)據(jù)質(zhì)量控制伴隨整個流程的各個周期,多源異構(gòu)數(shù)據(jù)整合流程如圖1所示。
本文以1/5萬區(qū)域地質(zhì)圖空間數(shù)據(jù)庫作為數(shù)據(jù)整合數(shù)據(jù)源,1/5萬區(qū)域地質(zhì)圖空間數(shù)據(jù)庫建設(shè)分為兩類標(biāo)準(zhǔn)的數(shù)據(jù)。一類為回溯性建庫數(shù)據(jù),是針對二十世紀(jì)六十年代以來我國傳統(tǒng)填圖開展的1/5萬區(qū)域地質(zhì)調(diào)查工作中所獲取的海量基礎(chǔ)地質(zhì)成果資料,應(yīng)用現(xiàn)代計算機技術(shù)、空間數(shù)據(jù)管理技術(shù)和信息共享技術(shù),進(jìn)行全面系統(tǒng)地數(shù)字化、匯總、建庫和管理。主要是以地質(zhì)圖與地質(zhì)報告為建庫數(shù)據(jù)源,采用數(shù)字化的方法采集數(shù)據(jù)的建庫工作。其建庫流程包括地質(zhì)圖數(shù)字化、屬性數(shù)據(jù)錄入與掛接、圖面整飾和投影變換等步驟。另一類為數(shù)字填圖數(shù)據(jù),其基于數(shù)字填圖系統(tǒng),采用面向?qū)ο髷?shù)據(jù)庫技術(shù),全面實現(xiàn)野外數(shù)據(jù)采集、存儲、管理、描述、分析和成果數(shù)據(jù)庫的建立等一體化組織與管理[6]。主要以DGSInfo采集整理的野外地質(zhì)路線、實測地質(zhì)剖面、實際材料圖和地理底圖為基礎(chǔ),采用點-點、線-線、面-面屬性自動復(fù)制技術(shù)實現(xiàn)部分繼承,使空間數(shù)據(jù)庫部分繼承實際材料圖庫的空間數(shù)據(jù)結(jié)構(gòu)及屬性。
圖1 多源異構(gòu)數(shù)據(jù)整合流程圖Fig.1 Multi-source heterogeneous spatial data Integrating flow diagram
兩類數(shù)據(jù)庫主要差異如下:
(1)數(shù)據(jù)模型標(biāo)準(zhǔn)不同
回溯性數(shù)據(jù)庫以《數(shù)字地質(zhì)圖空間數(shù)據(jù)庫建設(shè)工作指南2.0》為基礎(chǔ),而數(shù)字填圖以《數(shù)字地質(zhì)圖空間數(shù)據(jù)庫(DD206-06)》為依據(jù),兩類標(biāo)準(zhǔn)所規(guī)定的數(shù)據(jù)組織模型、圖層數(shù)據(jù)屬性結(jié)構(gòu),以及數(shù)據(jù)采集軟件都不盡相同。
例如回溯性地質(zhì)圖空間數(shù)據(jù)庫地質(zhì)體按地質(zhì)屬性分層管理,斷層按獨立圖層管理;數(shù)字填圖成果數(shù)據(jù)庫空間地質(zhì)體未分層,無斷層圖層,各單位以不同的子類型標(biāo)識碼區(qū)分。
(2)屬性結(jié)構(gòu)與內(nèi)容不同
由于采用的標(biāo)準(zhǔn)不一致,使兩類數(shù)據(jù)庫的屬性數(shù)據(jù)項的數(shù)目、名稱和字段長度基本不相同。在屬性內(nèi)容方面,回溯性數(shù)據(jù)庫使用了GB/T 9649系列地質(zhì)礦產(chǎn)術(shù)語分類代碼匯編作為統(tǒng)一代碼表示,空間數(shù)據(jù)庫的屬性與空間實體一一對應(yīng),并直接關(guān)聯(lián);數(shù)字填圖成果數(shù)據(jù)庫中多數(shù)數(shù)據(jù)項內(nèi)容采用漢字填寫,部分采用代碼,其中圖元的屬性只包括基本的屬性項,其它屬性需通過子類碼及圖元編號等主鍵與外接數(shù)據(jù)表進(jìn)行關(guān)聯(lián)。
例如在地質(zhì)體代號表示方面差異明顯,在回溯性建庫中,上標(biāo)用↑表示,下標(biāo)用↓表示,還原用→表示;如J3Z?則表示為J↓3→Z^,而數(shù)字填圖則規(guī)定“$”表示上標(biāo),“@”表示下標(biāo),每個標(biāo)識只對緊鄰后的一個字母或標(biāo)識有效,同樣J3Z?在數(shù)字填圖中表示為J@3Z^。
(3)系統(tǒng)庫不一致
回溯性1/5萬區(qū)域地質(zhì)圖數(shù)據(jù)庫建設(shè)統(tǒng)一采用全國1/5萬區(qū)域地質(zhì)圖空間數(shù)據(jù)庫系統(tǒng)庫。數(shù)字填圖成果數(shù)據(jù)庫在2008年后全國使用了統(tǒng)一的系統(tǒng)庫。
(4)其他
兩類數(shù)據(jù)庫在拓?fù)潢P(guān)系要求,投影方式,文件組織命名方面都不盡相同,在此不再贅述。
在數(shù)據(jù)整合整體流程的基礎(chǔ)上,結(jié)合中國地質(zhì)調(diào)查局發(fā)展中心提供的GeoModel數(shù)據(jù)整合軟件①劉榮梅,鄧勇.傳統(tǒng)填圖和數(shù)字填圖數(shù)據(jù)庫成果綜合集成轉(zhuǎn)換技術(shù)方案,2015.實現(xiàn)了兩類數(shù)據(jù)的全自動轉(zhuǎn)換,結(jié)合相關(guān)空間數(shù)據(jù)質(zhì)量檢查軟件與人工抽檢,最終完成了兩類數(shù)據(jù)庫向應(yīng)用模型數(shù)據(jù)庫的無損轉(zhuǎn)換。主要技術(shù)方法如下:
(1)數(shù)據(jù)抽取
根據(jù)數(shù)據(jù)轉(zhuǎn)換模型映射關(guān)系表,對數(shù)據(jù)庫所需的數(shù)據(jù)項目設(shè)計抽取規(guī)則,實現(xiàn)數(shù)據(jù)項全自動數(shù)據(jù)抽取,完成對應(yīng)用模型數(shù)據(jù)的映射,實現(xiàn)圖層與數(shù)據(jù)項數(shù)據(jù)結(jié)構(gòu)的規(guī)范化,應(yīng)用模型中基本涵蓋了兩類數(shù)據(jù)庫的所有數(shù)據(jù)項,保證兩類數(shù)據(jù)向應(yīng)用模型轉(zhuǎn)換后圖層與屬性結(jié)構(gòu)的一致性。
關(guān)鍵技術(shù)包括:1)應(yīng)用模型的建立,以兩類標(biāo)準(zhǔn)數(shù)據(jù)為基礎(chǔ),各取所長,地質(zhì)內(nèi)容數(shù)據(jù)項命名、長度以數(shù)字填圖標(biāo)準(zhǔn)為基礎(chǔ),擴充回溯性數(shù)據(jù)庫圖層及數(shù)據(jù)項。地理部分屬性數(shù)據(jù)項參照國家測繪地理信息中心相關(guān)標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu)定義。2)空間與屬性關(guān)系綜合處理,確定主要地質(zhì)內(nèi)容圖層數(shù)據(jù)的合并或分離,并對處理后的數(shù)據(jù)重新建立拓?fù)潢P(guān)系,補充相應(yīng)的屬性內(nèi)容。
(2)數(shù)據(jù)清洗
針對數(shù)據(jù)項用代碼表示的數(shù)據(jù)內(nèi)容,需要對抽取得到的數(shù)據(jù)進(jìn)行清洗,定義清洗規(guī)則,按照標(biāo)準(zhǔn)代碼字典庫、數(shù)字填圖要素分類及相關(guān)標(biāo)準(zhǔn)等對數(shù)據(jù)代碼進(jìn)行翻譯①,以漢字形式統(tǒng)一表達(dá),實現(xiàn)兩類數(shù)據(jù)轉(zhuǎn)換為應(yīng)用模型數(shù)據(jù)后的屬性內(nèi)容表達(dá)的統(tǒng)一。
關(guān)鍵技術(shù)如下:屬性內(nèi)容統(tǒng)一與補充工作,按應(yīng)用數(shù)據(jù)模型重新整理或關(guān)聯(lián)相應(yīng)屬性,確定要素及對象的標(biāo)識號規(guī)則、地質(zhì)年代代號與地質(zhì)體代號編碼規(guī)則、上下標(biāo)的規(guī)定、數(shù)據(jù)項下屬詞規(guī)定、數(shù)據(jù)項及數(shù)據(jù)項長度規(guī)定、屬性數(shù)據(jù)項代碼或漢字表達(dá)規(guī)定,按照統(tǒng)一要求漢化表達(dá),同時對重要的屬性內(nèi)容進(jìn)行補充完善。
(3)數(shù)據(jù)轉(zhuǎn)換
定義兩類數(shù)據(jù)符號庫與應(yīng)用模型符號庫的映射關(guān)系,建立識別關(guān)系模型,完成符號庫的統(tǒng)一,同時利用軟件對數(shù)據(jù)進(jìn)行格式類型轉(zhuǎn)換,組織形式轉(zhuǎn)換,對清洗好的數(shù)據(jù)實現(xiàn)投影變換,整理歸并,然后按照應(yīng)用模型規(guī)范要求命名,實現(xiàn)兩類數(shù)據(jù)庫整合轉(zhuǎn)換后整飾表達(dá)與組織結(jié)構(gòu)的統(tǒng)一。
關(guān)鍵技術(shù)包括:1)應(yīng)用模型系統(tǒng)庫與轉(zhuǎn)換關(guān)系表建立,基于回溯性空間數(shù)據(jù)庫MapGIS系統(tǒng)庫,并進(jìn)行補充擴展,建立起統(tǒng)一的應(yīng)用模型系統(tǒng)庫,同時建立回溯性數(shù)據(jù)庫和數(shù)字填圖數(shù)據(jù)庫兩類數(shù)據(jù)系統(tǒng)庫與模型數(shù)據(jù)庫的對應(yīng)關(guān)系表,包括符號形狀、編號、大小、角度等參數(shù),基于此實現(xiàn)對空間數(shù)據(jù)庫符號庫轉(zhuǎn)換。2)投影變換,空間數(shù)據(jù)庫投影統(tǒng)一為高斯(北京、西安)投影與經(jīng)緯度投影。3)數(shù)據(jù)存儲和組織、圖層命名、元數(shù)據(jù)庫命名規(guī)則的統(tǒng)一和轉(zhuǎn)換,以數(shù)字填圖數(shù)據(jù)組織形式為基礎(chǔ),補充回溯性數(shù)據(jù)庫圖層。
(4)數(shù)據(jù)檢查
貫穿整個數(shù)據(jù)整合流程,數(shù)據(jù)預(yù)處理階段和轉(zhuǎn)換完成階段分別要對數(shù)據(jù)進(jìn)行質(zhì)量檢查,結(jié)合Geo-Map數(shù)據(jù)生產(chǎn)軟件、GeoCheck數(shù)據(jù)檢查軟件以及DGSInfo數(shù)字填圖軟件對空間數(shù)據(jù)與屬性數(shù)據(jù)的準(zhǔn)確性進(jìn)行計算機自動檢查,同時與人工抽檢相結(jié)合,保證轉(zhuǎn)換前后數(shù)據(jù)的精確性。
圖2 數(shù)字填圖轉(zhuǎn)換為應(yīng)用模型前后空間信息對比圖Fig.2 Spatial information of Digital Mapping before and after integration
本文研究選取工作區(qū)相鄰的1/5萬回溯性數(shù)據(jù)庫建設(shè)和數(shù)字填圖數(shù)據(jù)作為應(yīng)用示范,經(jīng)過對比,轉(zhuǎn)換后的數(shù)據(jù)與源數(shù)據(jù)在文件組織、空間數(shù)據(jù)和屬性信息方面都保持了良好的一致性(圖2),取得了良好的整合效果,為下一步開展空間數(shù)據(jù)一體化管理與共享服務(wù)提供了理論與實踐依據(jù)。
通過對多源異構(gòu)空間數(shù)據(jù)開展整合研究,結(jié)合1/5萬區(qū)域地質(zhì)圖空間數(shù)據(jù)庫兩類標(biāo)準(zhǔn)數(shù)據(jù)的整合探索性實踐,最終形成了一套行之有效的數(shù)據(jù)整合技術(shù)方法。整合后的試驗數(shù)據(jù)精度良好,分類編碼正確,數(shù)據(jù)完整性好,屬性數(shù)據(jù)完整,圖面整飾統(tǒng)一,數(shù)據(jù)質(zhì)量符合數(shù)據(jù)庫建設(shè)要求[7]。該數(shù)據(jù)整合技術(shù)有效的保證了兩類數(shù)據(jù)庫的原始性,同時又兼顧應(yīng)用模型,便于下一步開展數(shù)據(jù)集成與共享研究,提高空間數(shù)據(jù)庫的使用效率與服務(wù)水平,為地質(zhì)找礦、災(zāi)害環(huán)境與地質(zhì)科研提供基礎(chǔ)數(shù)據(jù)支撐。
[1]李軍,馮永玉,等.國土資源數(shù)據(jù)集成與應(yīng)用[M].北京:科學(xué)出版社,2015,1-12.
[2]張梅蘭,肖桂榮.區(qū)域地理空間數(shù)據(jù)整合技術(shù)研究[J].計算機與數(shù)字工程,2011,39(1):48-52.
[3]戴騰,張亮,等.多源空間數(shù)據(jù)整合在“數(shù)字城市”中的實現(xiàn).地理空間信息[J],2013,11(3):17-19
[4]李廣建,汪語宇,等.數(shù)字資源整合的實現(xiàn)機制及關(guān)鍵技術(shù)-對國外數(shù)字資源整合系統(tǒng)的實例研究[J].中國圖書館學(xué)報,2007,33(168):75-80.
[5]黎小紅,田富鵬.異構(gòu)數(shù)據(jù)庫中的數(shù)據(jù)集成技術(shù)研究[J].西北民族大學(xué)學(xué)報,2006,(4):61-64.
[6]李豐丹,李超嶺,等.大數(shù)據(jù)環(huán)境下數(shù)字填圖數(shù)據(jù)集成服務(wù)技術(shù)[J].地質(zhì)通報,2015,34(7):1300-1308.
[7]陳志強.城市基礎(chǔ)地理數(shù)據(jù)整合與建庫技術(shù)方案研究[J].城市勘測,2008,28-32.
更正
本刊2016第二期95頁“河北沽源一帶不同時代巖漿巖地球化學(xué)特征”一文的第三作者姓名“申宗”改為“申宗義”,特此聲明。
本刊編輯部
Discussion and Practice on multi-source heterogeneous spatial data Integrating Technology,taking 1/50000 regional geologic map spatial database as an example
LI lei,ZHENG Jin-na,SUN Yi-wei,WANG Xin-hua,LI Min
(Tianjin Survey Center of China Geological Survey,TianJin 300170,China)
Based on the 1/50 000 regional geologic map spatial database divided in two different standards,we have taken the multi-source heterogeneous spatial data Integrating Technology practice and exploration.With the database Transformation Model and other standards,we established the integration between the two spatial databases,the good result will provide useful reference for spatial database integrated management and sharing service.
spatial database;digital mapping;data integrating;integrated management
P208
A
1672-4135(2016)03-0237-04
2016-06-25
地質(zhì)大調(diào)查項目:區(qū)域地質(zhì)圖數(shù)據(jù)庫建設(shè)(華北)(1212011220342)
李磊(1985-),工程師,中國地質(zhì)大學(xué)(武漢)地球信息與探測技術(shù)在讀博士,長期從事地質(zhì)數(shù)據(jù)庫建設(shè),地質(zhì)信息軟件開發(fā),地質(zhì)資料社會化服務(wù)工作,Email:cuglilei@126.com。