魏紅雨,路來君,郝 滿,郝琳琳
(1.吉林大學a.地球科學學院,長春 130061;b.計算機科學與技術(shù)學院,長春 130012;2.黃河水利職業(yè)技術(shù)學院水資源工程系,河南開封 475003)
基于數(shù)據(jù)倉庫的4G 地學空間數(shù)據(jù)集成技術(shù)研究
魏紅雨1a,路來君1a,郝 滿2,郝琳琳1b
(1.吉林大學a.地球科學學院,長春 130061;b.計算機科學與技術(shù)學院,長春 130012;2.黃河水利職業(yè)技術(shù)學院水資源工程系,河南開封 475003)
針對多源、海量、異構(gòu)分布的4G地學空間數(shù)據(jù)集成難題,在分析聯(lián)邦數(shù)據(jù)庫、中間件集成、數(shù)據(jù)倉庫等常用數(shù)據(jù)集成方法優(yōu)劣的基礎上,提出基于數(shù)據(jù)倉庫與中間件的地學數(shù)據(jù)集成管理模式;以JB地區(qū)2005年度礦區(qū)及所屬礦山的10種礦產(chǎn)作為數(shù)據(jù)源,構(gòu)建基于SQL(Structured Query Language)Server的面向服務的體系結(jié)構(gòu)進行驗證。結(jié)果表明,該模式既能滿足4G地學空間數(shù)據(jù)異構(gòu)分布、網(wǎng)絡化傳輸?shù)奶攸c,又能滿足數(shù)據(jù)更新快、實時一致性高的要求,便于在云平臺上實現(xiàn)。
4G地學空間數(shù)據(jù);數(shù)據(jù)集成技術(shù);數(shù)據(jù)倉庫
4 G地學空間數(shù)據(jù)是指地質(zhì)學(Geology)、地理學(Geography)、地球化學(Geochemistry)、地球物理學(Geophysics)數(shù)據(jù)。4G地學空間數(shù)據(jù)集成是以分布式網(wǎng)絡為傳輸手段和平臺,以實現(xiàn)用戶應用需求為集成目標,利用數(shù)據(jù)轉(zhuǎn)換技術(shù)或工具,把多來源、多尺度、多格式、多性質(zhì)和海量的4G數(shù)據(jù),有機集成為用戶可識別應用的數(shù)據(jù)格式,便于數(shù)據(jù)存儲、共享和傳輸?shù)膭討B(tài)處理。常用數(shù)據(jù)集成方法處理海量數(shù)據(jù)各有優(yōu)缺點,難以滿足用戶網(wǎng)絡共享、實時一致以及高質(zhì)量、高安全等多層次需要。
典型數(shù)據(jù)集成方法有模式集成方法和數(shù)據(jù)復制方法。模式集成方法基本思想是為異構(gòu)數(shù)據(jù)提供一個全局模式的虛擬視圖,使用戶可以透明地訪問各異構(gòu)數(shù)據(jù)源的數(shù)據(jù)。模式集成過程關(guān)鍵步驟是將異構(gòu)數(shù)據(jù)源數(shù)據(jù)做適當?shù)霓D(zhuǎn)換,映射為全局模式,便于依據(jù)全局模式規(guī)則查詢和讀取數(shù)據(jù)。數(shù)據(jù)復制方法是在保持數(shù)據(jù)源數(shù)據(jù)整體一致性的基礎上將各數(shù)據(jù)源數(shù)據(jù)復制到指定數(shù)據(jù)源上。數(shù)據(jù)復制方法保證了數(shù)據(jù)源的數(shù)據(jù)一致性,因此,該方法可提高信息共享利用的效率。
在實際應用中常見的方法有聯(lián)邦數(shù)據(jù)庫法、基于中間件的集成方法和數(shù)據(jù)倉庫集成方法。
1 )聯(lián)邦數(shù)據(jù)庫方法[1,2]屬于模式集成方法,是由相互協(xié)作而又相互獨立的源數(shù)據(jù)庫組成的集合體。聯(lián)邦數(shù)據(jù)庫管理系統(tǒng)控制組成系統(tǒng)的各個源數(shù)據(jù)庫協(xié)同操作,并對其進行管理,以提高系統(tǒng)整體操作性能,形成聯(lián)邦模式(見圖1)。
2 )按集成度大小可分為緊耦合集成系統(tǒng)和松耦合集成系統(tǒng)兩類。緊耦合集成系統(tǒng),使用統(tǒng)一的全局模式,用戶參與少,集成度較高;但構(gòu)建全局模式算法復雜,擴展性差。松耦合集成系統(tǒng),不使用全局模式,數(shù)據(jù)源的自治性強,動態(tài)性能好,但數(shù)據(jù)的集成度不高,解決異構(gòu)性問題的能力不強。
圖1 典型聯(lián)邦數(shù)據(jù)庫系統(tǒng)Fig.1 Classical federated database system
3 )中間件集成方法[3]也是模式集成法,其相對于聯(lián)邦數(shù)據(jù)庫系統(tǒng)集成法在集成非數(shù)據(jù)庫形式的數(shù)據(jù)源具有更明顯的優(yōu)勢。中間件主要功能是為異構(gòu)數(shù)據(jù)源提供高層次的檢索服務,注重于全局查詢的處理和優(yōu)化,有很好的查詢性能和較強的自治性,可以提高查詢處理的并發(fā)性,減少響應時間(見圖2)。但中間件集成法只能處理只讀操作,在數(shù)據(jù)讀寫能力上稍有欠缺。
4 )數(shù)據(jù)倉庫方法[4]是典型的數(shù)據(jù)復制方法,是包含大量來自各種不同數(shù)據(jù)源并且在數(shù)據(jù)類型、格式、精度和編碼等方式存在很大差異的復雜數(shù)據(jù)集合體。應用數(shù)據(jù)倉庫處理數(shù)據(jù)優(yōu)勢在于分析決策功能,可以幫助使用者更好更快地進行決策。典型數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)源、數(shù)據(jù)源庫和映射復制規(guī)則組成。數(shù)據(jù)源分別由其各自的事務性數(shù)據(jù)庫管理,數(shù)據(jù)倉庫將來自各事務性數(shù)據(jù)庫的數(shù)據(jù)按照映射規(guī)則進行集成和存儲,為用戶提供無縫透明的數(shù)據(jù)操作服務;但由于在數(shù)據(jù)復制過程中存在延時,因此,難以保障數(shù)據(jù)源之間數(shù)據(jù)的實時一致性(見圖3)。
圖2 基于中間件的典型數(shù)據(jù)集成系統(tǒng)Fig.2 Classical data integration system based on middleware
圖3 典型數(shù)據(jù)倉庫系統(tǒng)Fig.3 Classical data warehouse system
模式集成方法應用全局數(shù)據(jù)視圖為用戶提供數(shù)據(jù)訪問和操作的統(tǒng)一接口,數(shù)據(jù)對用戶透明度高,查詢等操作簡單,但數(shù)據(jù)源間的交互少,不適合網(wǎng)絡化條件下的分布傳輸和查詢。因此,模式集成法適用于被集成的系統(tǒng)規(guī)模大、數(shù)據(jù)更新頻繁、數(shù)據(jù)實時一致性要求高或用戶查詢需求很難預測的情況。
數(shù)據(jù)復制方法是先將異構(gòu)數(shù)據(jù)源數(shù)據(jù)通過一定的規(guī)則映射復制到數(shù)據(jù)倉庫或數(shù)據(jù)容器中,用戶通過數(shù)據(jù)倉庫界面訪問數(shù)據(jù),提高數(shù)據(jù)訪問效率,實現(xiàn)數(shù)據(jù)對用戶的透明。主要適用于數(shù)據(jù)源相對穩(wěn)定、用戶查詢模式已知或有限、數(shù)據(jù)分布性較廣、網(wǎng)絡延遲較大、需要很短的處理時間且數(shù)據(jù)需要備份的場合。
根據(jù)4G地學空間數(shù)據(jù)的多源、異構(gòu)和分布等特點,以及用戶查詢模式已知、數(shù)據(jù)需要備份等實際情況,比較3種集成方法的特點,融合數(shù)據(jù)倉庫和中間件技術(shù),做到長短互補,為用戶提供更為高效可靠的數(shù)據(jù)管理(見圖4)。
圖4中,ETL(Extraction Transformation Loading)過程為數(shù)據(jù)的整理轉(zhuǎn)換和映射復制過程[5,6]。用戶通過數(shù)據(jù)倉庫與中間件進行交互,中間件在全局模式基礎上,通過ETL過程將用戶指令交付給數(shù)據(jù)源,數(shù)據(jù)源將返回指令通過ETL過程交付給中間件。這種數(shù)據(jù)集成的方法設計既能滿足數(shù)據(jù)更新頻繁、數(shù)據(jù)實時一致性要求高的情況,又能滿足數(shù)據(jù)異構(gòu)分布,網(wǎng)絡延遲較大,同時又需要快速處理和進行備份的場合。
基于改進數(shù)據(jù)倉庫技術(shù)的4G地學空間數(shù)據(jù)倉庫體系,包括數(shù)據(jù)轉(zhuǎn)換層、數(shù)據(jù)倉庫存儲區(qū)、應用服務層、元數(shù)據(jù)層和監(jiān)測管理層(見圖5)。
圖4 改進的數(shù)據(jù)倉庫方法Fig.4 Improved data warehousemethod
圖5 4G地學空間數(shù)據(jù)倉庫結(jié)構(gòu)體系Fig.5 4G geological spatial data warehouse operating system
數(shù)據(jù)轉(zhuǎn)換層是將原始數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)倉庫數(shù)據(jù)的決定性步驟,相當于中間件方法。數(shù)據(jù)在數(shù)據(jù)轉(zhuǎn)換層的操作過程為:源數(shù)據(jù)從源數(shù)據(jù)庫被抽取出來存于數(shù)據(jù)處理準備區(qū)。
數(shù)據(jù)倉庫存儲層是4G地學空間數(shù)據(jù)倉庫系統(tǒng)的核心部分。數(shù)據(jù)轉(zhuǎn)換層數(shù)據(jù)進行ETL操作后轉(zhuǎn)換為標準數(shù)據(jù)裝載到4G地學空間數(shù)據(jù)倉庫中。其中ETL操作過程按照實體映射、域映射、格式轉(zhuǎn)換等規(guī)則完成,以保證數(shù)據(jù)質(zhì)量和標準。
應用服務層為數(shù)據(jù)用戶提供應用服務,包括對數(shù)據(jù)的查詢、搜索、瀏覽服務,對數(shù)據(jù)進行挖掘融合,以便做進一步?jīng)Q策,以及對數(shù)據(jù)進行可視化處理等服務。
元數(shù)據(jù)層為數(shù)據(jù)倉庫提供元數(shù)據(jù)服務。數(shù)據(jù)倉庫中不僅存儲數(shù)據(jù)還存儲各種轉(zhuǎn)換算法、規(guī)則及標準等操作,元數(shù)據(jù)對數(shù)據(jù)倉庫中的數(shù)據(jù)及操作進行描述。
監(jiān)測管理層包括數(shù)據(jù)倉庫的監(jiān)測工具和管理工具。監(jiān)控工具主要是對各個數(shù)據(jù)倉庫、數(shù)據(jù)庫及數(shù)據(jù)集的服務器運行狀態(tài)進行監(jiān)視、分析和管理。數(shù)據(jù)管理工具是管理空間數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程,數(shù)據(jù)的查詢、服務和備份等操作為數(shù)據(jù)倉庫服務。
4 G地學空間數(shù)據(jù)倉庫為4G地學空間數(shù)據(jù)存儲、挖掘和分析決策提供了一種新的理念,通過對源數(shù)據(jù)的抽取、清理和轉(zhuǎn)換等操作實現(xiàn)對分散、獨立、多類的4G地學空間源數(shù)據(jù)庫進行集成和管理[7,8]。構(gòu)建4G地學空間數(shù)據(jù)倉庫應滿足下列條件:1)數(shù)據(jù)倉庫中的數(shù)據(jù)與數(shù)據(jù)源無關(guān),但集成數(shù)據(jù)中載有原始數(shù)據(jù)的全部數(shù)據(jù)特征;2)數(shù)據(jù)倉庫中的數(shù)據(jù)具有邏輯規(guī)范,一致性強的特點;3)數(shù)據(jù)存儲管理集中;4)數(shù)據(jù)處理過程和數(shù)據(jù)存儲的關(guān)聯(lián)性小;5)數(shù)據(jù)含義與數(shù)據(jù)表達沒有必然相關(guān)性;6)應用擴展性和組件重用性好;7)數(shù)據(jù)存儲能力強;8)數(shù)據(jù)對用戶透明;9)數(shù)據(jù)質(zhì)量有保障;10)與編程語言和應用平臺無關(guān);11)具有完整的、作用明顯的元數(shù)據(jù)。
4 G地學空間數(shù)據(jù)倉庫總體結(jié)構(gòu)如圖6所示(其中實線框為4G地學空間數(shù)據(jù)倉庫研究內(nèi)容,虛線框為其他系統(tǒng)研究內(nèi)容)。
圖6中,構(gòu)建4G地學空間數(shù)據(jù)倉庫的重要步驟為數(shù)據(jù)倉庫的ETL分步操作。
采用Java數(shù)據(jù)庫連接技術(shù)(JDBC:Java Data Base Connectivity)針對多種異構(gòu)數(shù)據(jù)源建立跨平臺,便于網(wǎng)絡數(shù)據(jù)訪問的接口[9,10]。根據(jù)用戶提出的需求將所需數(shù)據(jù)從相應源數(shù)據(jù)庫抽取出來,轉(zhuǎn)換為XML文件后導入SQL(Structured Query Language)Server數(shù)據(jù)庫,實現(xiàn)了不同網(wǎng)絡、不同操作平臺和不同數(shù)據(jù)庫之間異構(gòu)數(shù)據(jù)的抽取轉(zhuǎn)換[11]。
在數(shù)據(jù)集成構(gòu)建數(shù)據(jù)倉庫的各個環(huán)節(jié)設置相應的數(shù)據(jù)檢查、清洗步驟和程序,對數(shù)據(jù)進行智能數(shù)據(jù)檢查和清洗,以保證各環(huán)節(jié)數(shù)據(jù)質(zhì)量。根據(jù)數(shù)據(jù)庫內(nèi)已有的數(shù)據(jù)記錄和相應元數(shù)據(jù)的內(nèi)容自動檢查要錄入的數(shù)據(jù)。檢查內(nèi)容包括域名、查詢命令、記錄重復、記錄缺損、異常記錄和數(shù)據(jù)質(zhì)量等。對發(fā)現(xiàn)的數(shù)據(jù)錯誤能自動更正或提示用戶進行檢查修改,并給出修改參考意見。
異構(gòu)數(shù)據(jù)集成入庫后,首先將原數(shù)據(jù)表進行拆分,按照規(guī)定的形式存儲在4G地學空間數(shù)據(jù)表中,再按照數(shù)據(jù)來源、時間、空間和屬性等層次進行聚合,生成數(shù)據(jù)匯總統(tǒng)計信息。在此基礎上,可依據(jù)數(shù)據(jù)的概念層次和抽取轉(zhuǎn)換規(guī)則生成相應的維表,以滿足數(shù)據(jù)用戶對各種專題數(shù)據(jù)的需求(見圖7)。
圖6 4G地學空間數(shù)據(jù)倉庫系統(tǒng)總體結(jié)構(gòu)設計圖Fig.6 4G geological spatial datawarehouse system framework design
圖7 4G地學空間數(shù)據(jù)倉庫中ETL過程Fig.7 ETL operation of4G geological spatial data warehouse
以JB地區(qū)2005年鐵、銅、銻、水泥灰?guī)r、石膏、膨潤土、鎳、泥灰?guī)r、耐火粘土、鉬10種稀有礦產(chǎn)的年儲量為源數(shù)據(jù),選取時間特性為集成特性,建立JB地區(qū)年度礦產(chǎn)管理系統(tǒng)。
建立礦物表,設置序號,礦物名稱,礦物類別,礦物儲量,礦物產(chǎn)地(細分到具體地址)字段,實現(xiàn)對數(shù)據(jù)的抽象。數(shù)據(jù)庫層次關(guān)系圖如圖8所示。
圖8 JB礦區(qū)數(shù)據(jù)庫層次關(guān)系圖Fig.8 Hierarchical diagram of JB mining area data warehouse
在比較模式集成法、數(shù)據(jù)復制集成法兩種數(shù)據(jù)集成模式和聯(lián)邦數(shù)據(jù)庫、中間件、數(shù)據(jù)倉庫3種數(shù)據(jù)集成方法優(yōu)缺點的基礎上,針對4G地學空間數(shù)據(jù)多源、多維、多屬性、異構(gòu)和分布性等特點,提出基于數(shù)據(jù)倉庫與安全中間件的地學數(shù)據(jù)集成管理模式,并以JB地區(qū)2005年度礦區(qū)及所屬礦山查明的10種礦產(chǎn)作為數(shù)據(jù)源構(gòu)建基于SQL Server的數(shù)據(jù)倉庫管理系統(tǒng),進行實例驗證。試驗證明,利用改進的數(shù)據(jù)倉庫方法,既能滿足4G地學空間數(shù)據(jù)更新快、實時一致性高的要求,又適合數(shù)據(jù)異構(gòu)分布、網(wǎng)絡化傳輸?shù)奶攸c,確保了4G地學空間數(shù)據(jù)集成的完整性、準確性和一致性。
[1]程驕杰.聯(lián)邦數(shù)據(jù)庫系統(tǒng)的原理和實現(xiàn)研究[D].上海:上海交通大學航空航天學院,2004.
CHENG Jiaojie.Research on Principle and Implementation of Federated Database System [D].Shanghai:Institute of Aeronautics and Astronautics,Shanghai Jiaotong University,2004.
[2]周娜娜.基于聯(lián)邦數(shù)據(jù)庫的信息集成[D].重慶:重慶大學動力工程學院,2006:101-103.
ZHOU Nana.Information Integration Based on Federated Database [D].Chongqing:College of Power Engineering,Chongqing University,2006:101-103.
[3]王永志,高光大,楊毅恒,等.地學空間數(shù)據(jù)倉庫的構(gòu)建技術(shù)[J].地質(zhì)通報,2001,27(5):713-718.
WANG Yongzhi,GAO Guangda,YANG Yiheng,et al.Construction Technology of Spatial Data Warehouse [J].Geological Bulletin of China,2001,27(5):713-718.
[4]袁長河,吳永明.基于數(shù)據(jù)倉庫的決策支持系統(tǒng)研究與建設[J].計算機工程與應用,2001,27(14):101-103.
YUAN Changhe,WU Yongming.Research and Construction on Decision Support System Based on Data Warehouse[J].Computer Engineering and Applications,2001,27(14):101-103.
[5]田揚戈,邊馥苓.空間數(shù)據(jù)倉庫的ETL研究[J].武漢大學學報,2007,32(4):362-365.
TIAN Yangge,BIAN Fuling.Research on ETL of Spatial DataWarehouse[J].Journal ofWuhan University,2007,32(4):362-365.
[6]谷赫.電信業(yè)務數(shù)據(jù)倉庫平臺中借口的設計和ETL開發(fā)[J].吉林大學學報:信息科學版,2008,26(6):652-656.
HAO He.Interface Design and Developmentof ETL in Telecommunications Business DataWarehouse Paltform[J].Journalof Jilin University:Information Science Edition,2008,26(6):652-656.
[7]陳細謙.空間數(shù)據(jù)倉庫關(guān)鍵技術(shù)的研究與實現(xiàn)[D].大連:大連理工大學計算機應用技術(shù)學院,2005.
CHEN Xiqian.Research and Implementation on Key Technology of Spatial DataWarehouse[D].Dalian:College of Computer Application Technology,Dalian University of Technology,2005.
[8]葛詠.地學數(shù)據(jù)集成及空間決策支持的方法與應用[J].地球信息科學,2006,8(1):16-20.
GE Yong.Application of Geological Data Integration and Spatial Decision Support Method[J].Journal of Geo-Information Science,2006,8(1):16-20.
[9]王永志,張道勇,潘懋.基于SOA和GIS的石油潛力數(shù)據(jù)庫系統(tǒng)[J].吉林大學學報:信息科學版,2009,27(4):371-376.
WANG Yongzhi,ZHANG Daoyong,PAN Mao.Petroleum Potential Database System Based on SOA and GIS[J].Journal of Jilin University:Information Science Edition,2009,27(4):371-376.
[10]劉威,路來君,徐昊,等.基于云計算的G4ICCS系統(tǒng)結(jié)構(gòu)設計[J].吉林大學學報:信息科學版,2013,31(2):187-190.
LIUWei,LU Laijun,WU Hao,et al.G4ICCS System Structure Design Based on Cloud Computing [J].Journal of Jilin University:Information Science Edition,2013,31(2):187-190.
[11]王梅,周嬌玲,樂嘉錦.一種列存儲數(shù)據(jù)倉庫中的數(shù)據(jù)復用策略[J].計算機學報,2013,36(8):1626-1635.
WANG Mei,ZHOU Jiaoling,LE Jiajin.A Data Reusing Strategy in Column-Store Data Warehouse[J].Chinese Journal of Computers,2013,36(8):1626-1635.
Research on 4G Geological Spatial Data Integration Technology Based on Data Warehouse
WEIHongyu1a,LU Laijun1a,HAO Man2,HAO Linlin1b
(1a.College of Earth Sciences,Jilin University,Changchun 130061;1b.College of Computer Sciences and Technology,Jilin University,Changchun 130012,China;2.Department ofWater Resources Engineering,Yellow River Conservancy Technical Institute,Kaifeng 475003,China)
According to the integration difficulties of the multi-sources mass isomerism and distribution 4G geological spatial data,the merits of three commonly used technologies of federated-database middleware and data-warehouse is demenstrated,geoscience data integration and managementmodel based on data warehouse and middleware is proposed;with 10 minerals of baishan mining area in Jilin province in 2005 year as data sources,the SOA(Service-Oriented Architecture)is designed based on SQL(Structured Query Language)Server to verify.The results show that the architecture is suitable for heterogeneous distribution and network transmission condition,can satisfy the requirementof data update fastand real-time consistency condition,and is easy to implement on cloud platform.
4G geological spatial data;data integration technology;data warehouse
TP392
A
1671-5896(2014)03-0293-05
2014-03-13
國家自然科學基金資助項目(41272360)
魏紅雨(1981— ),男,江蘇徐州人,吉林大學博士研究生,主要從事地質(zhì)大數(shù)據(jù)集成分析研究,(Tel)86-15107297768(E-mail)why4008@163.com;路來君(1956— ),男,吉林德惠人,吉林大學教授,博士生導師,主要從事數(shù)字地學地理信息系統(tǒng)和地學空間信息技術(shù)研究,(Tel)86-18604402821(E-mail)Lulj1956@163.com。
何桂華)