奧勇,李美麗,趙永華,孫佳佳,付泉
分布式數(shù)據(jù)庫中數(shù)據(jù)集成與共享的研究進(jìn)展*
奧勇,李美麗,趙永華,孫佳佳,付泉
(長安大學(xué) 地球科學(xué)與資源學(xué)院/土地工程學(xué)院,陜西 西安 710054;陜西省土地污染整治重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710054)
分布式數(shù)據(jù)庫是地理信息系統(tǒng)(GIS)發(fā)展的重要的研究熱點(diǎn)和難點(diǎn),數(shù)據(jù)集成與共享是其研究核心。從分布式數(shù)據(jù)庫數(shù)據(jù)集成與共享的角度出發(fā),基于國內(nèi)外研究現(xiàn)狀,對現(xiàn)有的分布式數(shù)據(jù)庫、數(shù)據(jù)集、數(shù)據(jù)共享的典型模式進(jìn)行了綜合分析,總結(jié)其在研究技術(shù)方面存在的問題。結(jié)合計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)及分布式數(shù)據(jù)庫管理方式的優(yōu)化升級,論述了如何提高空間數(shù)據(jù)集成與共享的效率結(jié)合及使用率這一問題,并對地理空間數(shù)據(jù)集成與共享的應(yīng)用前景進(jìn)行了展望。
分布式數(shù)據(jù)庫;地理信息系統(tǒng)(GIS);空間數(shù)據(jù);數(shù)據(jù)集成
隨著GIS技術(shù)自身的發(fā)展及社會應(yīng)用的需要,不同系統(tǒng)之間數(shù)據(jù)的共享和互操作受到人們越來越多的關(guān)注[1]。然而,GIS的迅速發(fā)展和廣泛應(yīng)用積累了大量的地理數(shù)據(jù)資源,它們分別以不同的格式存儲在不同地理位置的不同系統(tǒng)中,給數(shù)據(jù)綜合利用共享帶來了很大不便,特別是給數(shù)據(jù)在網(wǎng)絡(luò)環(huán)境下的集成和共享構(gòu)成了障礙[2]。同時(shí),大數(shù)據(jù)、云技術(shù)、時(shí)態(tài)GIS的發(fā)展,以及人工智能和智慧城市的提出,GIS服務(wù)的要求不僅僅局限于數(shù)據(jù)表層,更是對數(shù)據(jù)深層含義的挖掘。地理空間數(shù)據(jù)的分布性、復(fù)雜性、變長記錄、載體多樣性、海量數(shù)據(jù)、多尺度性和時(shí)空、多語義等特性造成空間數(shù)據(jù)的管理混亂和使用效率較低,數(shù)據(jù)的重復(fù)采集和無組織分布都是對地理空間數(shù)據(jù)的極大浪費(fèi)。空間數(shù)據(jù)的集成和共享是提高數(shù)據(jù)利用率達(dá)的有效途徑。因此,數(shù)據(jù)集成和共享技術(shù)的更新及優(yōu)化,盡可能提高空間數(shù)據(jù)的管理和使用效率是GIS當(dāng)前和今后研究的熱點(diǎn)和重點(diǎn)之一,分布式數(shù)據(jù)庫中數(shù)據(jù)集成和共享為數(shù)據(jù)的高效利用提供更多的思路和解決方法。本文分析了分布式數(shù)據(jù)庫與傳統(tǒng)集中式數(shù)據(jù)庫的優(yōu)缺點(diǎn)、當(dāng)前存在的數(shù)據(jù)集成與共享的優(yōu)勢和不足;總結(jié)現(xiàn)有數(shù)據(jù)集成與共享方法存在的問題,并對其存在問題提出了合理改進(jìn)意見,對其應(yīng)用前景提出展望。
分布式數(shù)據(jù)庫系統(tǒng)是數(shù)據(jù)庫技術(shù)與計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)相結(jié)合的產(chǎn)物[3-4],是解決地理數(shù)據(jù)、軟件及硬件等資源共享和進(jìn)行遠(yuǎn)程互操作及互運(yùn)算的有效途徑,是當(dāng)前地理信息系統(tǒng)領(lǐng)域研究的熱點(diǎn)和前沿[5]。其主要技術(shù)涉及并行計(jì)算、分布策略、數(shù)據(jù)分片、查詢優(yōu)化以及分布式數(shù)據(jù)庫系統(tǒng)的并發(fā)控制[6]、事務(wù)處理與恢復(fù)技術(shù)等。簡而言之,分布式數(shù)據(jù)庫是用計(jì)算機(jī)網(wǎng)絡(luò)將物理上分散的多個(gè)數(shù)據(jù)庫單元連接起來組成的一個(gè)邏輯統(tǒng)一的數(shù)據(jù)庫。數(shù)據(jù)分布的主要目的是就地訪問,而不是分布訪問,只是有時(shí)為了提高可用性或者達(dá)到各個(gè)節(jié)點(diǎn)的負(fù)載均衡,才分布數(shù)據(jù)[7]。即通過數(shù)據(jù)的合理分布,盡可能使更多的數(shù)據(jù)能夠就地存放,以減少遠(yuǎn)距離的數(shù)據(jù)訪問,但在任何分布式數(shù)據(jù)庫中,所有數(shù)據(jù)的局部化訪問是不可能的,即使多復(fù)本也只能達(dá)到讀取的完全局部化。
信息量和用戶的增多,給分布式數(shù)據(jù)庫的信息查詢、計(jì)算和事務(wù)處理等方面都帶來了極大的挑戰(zhàn)。要想實(shí)現(xiàn)空間地理數(shù)據(jù)的集成與共享,前提是必須保證數(shù)據(jù)的一致性和完整性[8],這就要求分布式數(shù)據(jù)庫不僅要對網(wǎng)絡(luò)系統(tǒng)相關(guān)功能進(jìn)行分析,還要對各個(gè)節(jié)點(diǎn)上獨(dú)立存在的數(shù)據(jù)庫系統(tǒng)進(jìn)行有針對性的分析和解剖,才可以有效解決在不同站點(diǎn)上數(shù)據(jù)的相互訪問與交流問題,從而實(shí)現(xiàn)數(shù)據(jù)的一致性與完整性。針對維護(hù)分布式多源異構(gòu)空間數(shù)據(jù)的完整性與一致性這一亟待解決的問題,從技術(shù)層面研究了分布式空間數(shù)據(jù)庫的同步更新技術(shù),馬東波提供了一種可行的解決方法,并得到實(shí)驗(yàn)驗(yàn)證[9]。徐愛萍等人以水文及水環(huán)境數(shù)據(jù)交換架構(gòu)和數(shù)據(jù)共享平臺的構(gòu)建為基礎(chǔ),采用異構(gòu)多源數(shù)據(jù)庫引擎中間件解決了不同種類數(shù)據(jù)庫之間的數(shù)據(jù)交換問題,使用數(shù)據(jù)目錄注冊的方式使得集成平臺的管理和使用便捷通用[10]?;诙鄬傩詻Q策的分布式多空間數(shù)據(jù)信息快速融合方法利用模糊理論、歐氏距離、測熵值等來確定各信息屬性的局部融合權(quán)重,得到各個(gè)空間信息源的全局融合權(quán)重,以此為依據(jù)完成對分布式多源空間數(shù)據(jù)庫數(shù)據(jù)的快速融合[11]。鄔倫等人通過對空間數(shù)據(jù)分布特征的分析,提出了多空間數(shù)據(jù)庫系統(tǒng)集成的基本思路——異構(gòu)同化,同構(gòu)整體化,提出建立分布式多空間數(shù)據(jù)庫系統(tǒng)來實(shí)現(xiàn)異構(gòu)空間數(shù)據(jù)源的互操作,以達(dá)到空間信息共享的目的[12]。
按數(shù)據(jù)庫對數(shù)據(jù)管理的集中程度可以分為分布式數(shù)據(jù)庫和集中式數(shù)據(jù)庫。分布式數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫比較如表1所示。
表1 分布式數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫比較
數(shù)據(jù)庫類型優(yōu)點(diǎn)缺點(diǎn) 傳統(tǒng)集中式數(shù)據(jù)庫系統(tǒng)運(yùn)行成本低,應(yīng)用軟件和數(shù)據(jù)庫表結(jié)構(gòu)的更新與升級優(yōu)越性高,利于數(shù)據(jù)的集中查詢中心主機(jī)的建設(shè)成本高,網(wǎng)絡(luò)完全性和主機(jī)安全性低、可擴(kuò)展性有限,數(shù)據(jù)安全性不高 分布式數(shù)據(jù)庫數(shù)據(jù)的讀取速率高,可擴(kuò)展性強(qiáng),提供更大的用戶并發(fā)訪問量系統(tǒng)運(yùn)行成本高,不能共享全部的數(shù)據(jù),數(shù)據(jù)的安全性不高
綜上所述,集中式數(shù)據(jù)庫可以對數(shù)據(jù)進(jìn)行集中式管理,減少各級計(jì)算機(jī)機(jī)房和服務(wù)器建設(shè)的費(fèi)用,但其中心節(jié)點(diǎn)的網(wǎng)絡(luò)故障將導(dǎo)致整個(gè)數(shù)據(jù)庫系統(tǒng)不能正常運(yùn)轉(zhuǎn),而且數(shù)據(jù)的安全性也不高。分布式數(shù)據(jù)庫雖然要維護(hù)多個(gè)節(jié)點(diǎn)的服務(wù)器機(jī)器操作系統(tǒng)正常運(yùn)行,但是,這種組織數(shù)據(jù)庫的方法克服了物理中心數(shù)據(jù)庫組織的弱點(diǎn),降低了數(shù)據(jù)傳送的代價(jià),在很大程度上還提高了系統(tǒng)的可靠性和數(shù)據(jù)的安全性,而且便于系統(tǒng)的擴(kuò)展。分布式數(shù)據(jù)庫為了保證數(shù)據(jù)的高可靠性和高訪問速度,往往采用備份的策略實(shí)現(xiàn)容錯(cuò),所以,在讀取數(shù)據(jù)的時(shí)候,客戶端可以并發(fā)地從多個(gè)備份服務(wù)器中同時(shí)讀取,從而提高數(shù)據(jù)的訪問速度。
更重要的是,分布式數(shù)據(jù)庫的發(fā)展對數(shù)據(jù)的集成與共享提供了很大的便利,提高了數(shù)據(jù)的使用效率,為地理信息服務(wù)提供了廣闊的應(yīng)用前景。
分布式地理信息系統(tǒng)是政府辦公、企業(yè)及部門生產(chǎn)管理、國家空間信息基礎(chǔ)設(shè)施、全球空間數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)字地球、智慧城市等一切信息系統(tǒng)的技術(shù)支撐。網(wǎng)絡(luò)和科學(xué)技術(shù)的飛速發(fā)展,地理信息系統(tǒng)的發(fā)展趨勢要求GIS數(shù)據(jù)的來源更加多樣化,同時(shí)也將改變其數(shù)據(jù)的獲取、管理、分析和輸出的形式。最突出的變化就是空間信息將從“地表空間”向“全空間”發(fā)展。空間數(shù)據(jù)的高效存取將是GIS設(shè)計(jì)者和使用者的共同需求。分布式GIS的出現(xiàn)為解決地理數(shù)據(jù)的復(fù)雜操作、數(shù)據(jù)的保密性和完整性這些問題提供新的思路和解決方法。
空間數(shù)據(jù)集成是將具有某種或多種異質(zhì)性的數(shù)據(jù)集通過重新建模整合到統(tǒng)一框架下,對數(shù)據(jù)形式特征(如格式、單位、分辨率、精度等)和內(nèi)部特征(屬性、內(nèi)容等)作全部或部分調(diào)整、轉(zhuǎn)化、合成、分解等操作,旨在提供數(shù)據(jù)分布式高效使用和數(shù)據(jù)共享的數(shù)據(jù)深加工范式[13]。數(shù)據(jù)共享可以使更多部門使用非己有的數(shù)據(jù),更加充分、有效地利用數(shù)據(jù),減少重復(fù)勞動(dòng)和數(shù)據(jù)采集的費(fèi)用以及數(shù)據(jù)的維護(hù)和管理費(fèi)用,使GIS系統(tǒng)更容易集成,能夠使GIS開發(fā)重點(diǎn)集中在新的應(yīng)用方面。采用數(shù)據(jù)引擎思想實(shí)現(xiàn)空間數(shù)據(jù)的集成與共享,類似于ODBC中驅(qū)動(dòng)程序提供動(dòng)態(tài)鏈接庫的方式,通過數(shù)據(jù)引擎,驅(qū)動(dòng)程序接到請求后,動(dòng)態(tài)地把請求轉(zhuǎn)換成其數(shù)據(jù)源可以處理的命令格式,從而獲取所需數(shù)據(jù)信息[14]。
傳統(tǒng)的數(shù)據(jù)集成所采用的方法基本可以分為兩大類:數(shù)據(jù)復(fù)制方法和模式映射方法[15]??臻g數(shù)據(jù)集成之間存在的語法、模式和語義異質(zhì)性[16]相應(yīng)地存在3個(gè)層次,即語法、模式和語義層次上的空間數(shù)據(jù)集成。
早期空間數(shù)據(jù)集成研究受系統(tǒng)數(shù)據(jù)結(jié)構(gòu)和邏輯模型不同的驅(qū)使,集中在語法和模式層次上,發(fā)展了數(shù)據(jù)轉(zhuǎn)換、互操作和直接訪問3種語法集成方法[17-20]及半自動(dòng)模式集成方法[21]。斯坦福大學(xué)DB Group的數(shù)據(jù)集成方案是以數(shù)據(jù)復(fù)制方式進(jìn)行數(shù)據(jù)集成的代表性方案。然而在應(yīng)用領(lǐng)域中,信息源數(shù)據(jù)通常含有企業(yè)商業(yè)機(jī)密信息或政府部門公眾機(jī)密信息,不能讓數(shù)據(jù)集成系統(tǒng)訪問這些信息或基表[22]。
模式集成(Schema Integration)是人們最早采用的數(shù)據(jù)集成方法,也是其他數(shù)據(jù)集成方法的基礎(chǔ)。其基本思想是,在構(gòu)建集成系統(tǒng)時(shí),將各數(shù)據(jù)源共享的數(shù)據(jù)視圖集成為全局模式(Global Schema),供用戶按照全局模式透明地訪問各數(shù)據(jù)源的數(shù)據(jù)。該方法不需要重復(fù)存儲大量數(shù)據(jù),能保證查詢到最新的數(shù)據(jù),比較適合集成數(shù)據(jù)多、更新變化快的異構(gòu)數(shù)據(jù)源集成[15]。崔鐵軍等人針對用戶對于地理空間數(shù)據(jù)的迫切需求,提出地理數(shù)據(jù)模型的融合、地理要素語義的融合和地理數(shù)據(jù)投影和坐標(biāo)系的統(tǒng)一是多源地理空間矢量數(shù)據(jù)集成與融合基本理論與方法。給出了實(shí)現(xiàn)多源數(shù)據(jù)集成的數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)互操作和直接數(shù)據(jù)訪問方法[23]。劉云漢通過研究數(shù)據(jù)集成的相關(guān)技術(shù),采用基于Web Service的技術(shù)構(gòu)建了包括數(shù)據(jù)層、業(yè)務(wù)邏輯層和應(yīng)用層的異構(gòu)數(shù)據(jù)集成平臺。其中數(shù)據(jù)采用通用的數(shù)據(jù)訪問接口,業(yè)務(wù)邏輯層以Web服務(wù)的形式發(fā)布,降低了層間耦合,實(shí)現(xiàn)了局部數(shù)據(jù)源的自治性、業(yè)務(wù)邏輯接口的通用性、響應(yīng)的實(shí)時(shí)性和平臺的易維護(hù)性[24]。基于JAVA/XML的松耦合的數(shù)據(jù)同步集成關(guān)系,以XML作為數(shù)據(jù)交換集成的載體,允許使用非常規(guī)的編程進(jìn)行快速的商業(yè)系統(tǒng)集成,具有開放性、可伸縮性、可移植性和靈活性,可以高效實(shí)現(xiàn)數(shù)據(jù)的共享[25]。陳超等人提出了使用NoSQL存儲地圖瓦片數(shù)據(jù)的方法,解決了傳統(tǒng)關(guān)系數(shù)據(jù)應(yīng)對多發(fā)訪問的瓶頸問題[26]。于小洋等人針對Web Service數(shù)據(jù)的多源異構(gòu)性,提出基于本體和Karma建模的快速集成方法,并將其應(yīng)用于天氣信息的領(lǐng)域中[27]。YAN提出對NoSQL數(shù)據(jù)庫的兩種設(shè)計(jì)理念和五種不同的優(yōu)化查詢方法,為地理空間數(shù)據(jù)集成與共享提供了很好的數(shù)據(jù)庫基礎(chǔ)。李紹俊等人結(jié)合GIS領(lǐng)域空間大數(shù)據(jù)存儲對數(shù)據(jù)庫存儲能力的可擴(kuò)展性及數(shù)據(jù)處理和訪問的高并發(fā)要求,提出基于內(nèi)存數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫的空間大數(shù)據(jù)分布式存儲與綜合處理策略,并開發(fā)了原型系統(tǒng),對提出的存儲策略的可行性和有效性進(jìn)行了驗(yàn)證[28]。
大數(shù)據(jù)環(huán)境為傳統(tǒng)的科技服務(wù)提供了新的環(huán)境,面向區(qū)域共享平臺復(fù)雜化、個(gè)性化的服務(wù)需求,探索大數(shù)據(jù)環(huán)境下區(qū)域共享平臺的云服務(wù)模式,對提升平臺集成服務(wù)能力,豐富平臺管理方法具有重要的現(xiàn)實(shí)意義[29-30]。當(dāng)前典型的分布式數(shù)據(jù)庫有以下幾大類。分布式數(shù)據(jù)庫數(shù)據(jù)集成方法的對比分析如表2所示。
表2 分布式數(shù)據(jù)庫數(shù)據(jù)集成方法的對比分析
數(shù)據(jù)庫優(yōu)點(diǎn)缺點(diǎn) NoSQL存儲空間大數(shù)據(jù)的成本低、高可擴(kuò)展、高可用性;高通量I/O的持久化存儲和數(shù)據(jù)提?。患葷M足了大數(shù)據(jù)存儲的需要,又保證了整個(gè)系統(tǒng)對外提供的GIS功能不退化[28]操作方式、查詢方式有局限性,單一空間索引算法的局限[31-39] Mongo DB支持動(dòng)態(tài)查詢,支持完全索引,模式自由、支持復(fù)制和故障恢復(fù),數(shù)據(jù)存儲高效,自動(dòng)處理碎片,支持云計(jì)算的擴(kuò)展不支持SQL查詢,自身分片技術(shù)的限制,數(shù)據(jù)在各點(diǎn)分布不均勻 基于Haodoop的SQL數(shù)據(jù)庫有效減少數(shù)據(jù)的檢索時(shí)間,提高系統(tǒng)的整體性能,可以對海量數(shù)據(jù)進(jìn)行存儲和處理[40-41],高并發(fā)、低成本、高可靠性[42]不適合低延遲數(shù)據(jù)訪問,無法高效存儲大量小文件,不支持多用戶寫入及任意修改文件 Apache HBase節(jié)省存儲空間、支持非結(jié)構(gòu)化的存儲;列動(dòng)態(tài)增加且列為空就不存儲數(shù)據(jù);自動(dòng)切分?jǐn)?shù)據(jù);提高海量數(shù)據(jù)的處理能力和速度,系統(tǒng)可靠性高;有效降低數(shù)據(jù)共享中出現(xiàn)的障礙對整個(gè)系統(tǒng)的影響[43]不支持條件查詢、只支持按照Row Key來查詢,不支持Master Server的障切換 Apache CouchB節(jié)點(diǎn)之間的數(shù)據(jù)增量復(fù)制數(shù)據(jù)格式無限制;系統(tǒng)擴(kuò)展便利;支持云計(jì)算;可存儲半結(jié)構(gòu)化數(shù)據(jù);支持海量數(shù)據(jù)存儲;支持分區(qū)容忍性和數(shù)據(jù)可用性;支持?jǐn)?shù)據(jù)一致性;提供rest數(shù)據(jù)訪問API,簡化開發(fā)過程;數(shù)據(jù)格式為json,更開放、貼切移動(dòng)開發(fā);提供andorid和ios版客戶端數(shù)據(jù)庫沒有DB2簡單 Riak數(shù)據(jù)模型靈活;沒有主節(jié)點(diǎn)的概念,用Erlang編寫Erlang沒有使用共享內(nèi)存 hypertable可處理海量數(shù)據(jù);實(shí)現(xiàn)高效查詢,高可用性;免受傳統(tǒng)文件存儲系統(tǒng)無法避免的失敗影響不支持SQL查詢空間數(shù)據(jù)運(yùn)算
從各種集成方法的優(yōu)缺點(diǎn)、適用情況及數(shù)據(jù)操作難度幾個(gè)方面分析可知,Apache HBase數(shù)據(jù)庫雖然在一定程度上可以節(jié)省數(shù)據(jù)的存儲空間,但是它只支持按照Row Key來查詢;Apache CouchB數(shù)據(jù)庫技術(shù)很復(fù)雜,僅適用于專業(yè)用戶;Mongo DB數(shù)據(jù)庫系統(tǒng)靈活性高、擴(kuò)展性強(qiáng)、容錯(cuò)性好、數(shù)據(jù)存儲高效,但其自身數(shù)據(jù)分布方式的不均衡,導(dǎo)致后期數(shù)據(jù)的利用和共享不順利[44];Riak數(shù)據(jù)庫用Erlang適用于開發(fā)NoSQL數(shù)據(jù)存儲等應(yīng)用程序,只能通過發(fā)送/接受異步消息進(jìn)行相互合作,數(shù)據(jù)的使用效率較低,會造成后期數(shù)據(jù)遷移耗費(fèi)大量的資金;hypertable數(shù)據(jù)庫可處理海量數(shù)據(jù),具有較高的可靠性和較高的查詢效率,但查詢模式單一、產(chǎn)品還不成熟、應(yīng)用不廣泛?;贜oSQL進(jìn)行二次開發(fā)的是目前用到最廣泛的數(shù)據(jù)庫,其成本低、可用性高、適用于大數(shù)據(jù),符合各行各業(yè)的發(fā)展需求。
分布式數(shù)據(jù)庫數(shù)據(jù)共享的解決方法有:直接訪問模式、數(shù)據(jù)格式轉(zhuǎn)換模式、數(shù)據(jù)互操作模式、數(shù)據(jù)標(biāo)準(zhǔn)化模式、空間數(shù)據(jù)共享平臺模式、元數(shù)據(jù)庫訪問等??臻g數(shù)據(jù)共享模式對比如表3所示。
綜上分析,不同的數(shù)據(jù)集成與共享模式有其自身的優(yōu)勢和局限性,目前并不存在“通用”的數(shù)據(jù)集成與共享方法。
任何一種數(shù)據(jù)集成和共享的方法都不能滿足所有用戶的需求,但每種方法有其自身的優(yōu)勢和適用領(lǐng)域,要想提高數(shù)據(jù)的集成和共享效率,必須在清楚使用目的和應(yīng)用領(lǐng)域的基礎(chǔ)上綜合考慮所用數(shù)據(jù)類型及其特點(diǎn),選擇合適的數(shù)據(jù)集成和共享方法。
直接數(shù)據(jù)訪問模式和數(shù)據(jù)轉(zhuǎn)換模式雖然很難達(dá)到高要求和大面積的數(shù)據(jù)共享,但是如果在某領(lǐng)域內(nèi)有通用的數(shù)據(jù)模型和格式,這兩種方法也可以繼續(xù)得到很好的應(yīng)用;空間數(shù)據(jù)標(biāo)準(zhǔn)模式雖然提出很多年,但一直沒有制訂一個(gè)公認(rèn)的標(biāo)準(zhǔn),如果某些相近行業(yè)之間可以建立公用的數(shù)據(jù)共享標(biāo)準(zhǔn),也會對數(shù)據(jù)的集成與共享帶來很大的推動(dòng)作用。
互聯(lián)網(wǎng)+時(shí)空大數(shù)據(jù)平臺構(gòu)建的背景下,基于本體的數(shù)據(jù)集成與共享模式雖然是最理想的數(shù)據(jù)共享模式,但它也不是完全獨(dú)立的,需要綜合利用其他數(shù)據(jù)共享模式的優(yōu)勢,揚(yáng)長避短,最大程度提高數(shù)據(jù)的使用率??梢栽诂F(xiàn)有存儲系統(tǒng)共享模式的基礎(chǔ)上開發(fā)圖像和語音識別系統(tǒng),再結(jié)合深度學(xué)習(xí)和機(jī)器學(xué)習(xí)來訓(xùn)練模型,更好地將非結(jié)構(gòu)費(fèi)寓意的信息進(jìn)行存儲和共享,提高空間數(shù)據(jù)的使用效率。
表3 空間數(shù)據(jù)共享模式對比
數(shù)據(jù)共享模式優(yōu)點(diǎn)缺點(diǎn)適用領(lǐng)域 直接訪問模式無需轉(zhuǎn)換數(shù)據(jù)模式易造成空間數(shù)據(jù)的丟失、精度損失,數(shù)據(jù)類型不能完全對應(yīng),數(shù)據(jù)一致性差,轉(zhuǎn)換后存在數(shù)據(jù)冗余、亂碼等情況局域內(nèi)的數(shù)據(jù)共享 數(shù)據(jù)格式轉(zhuǎn)換模式間接使用模式有局限性、過程復(fù)雜、工作量大、轉(zhuǎn)換時(shí)間長、數(shù)據(jù)管理很難做到連續(xù)性,容易造成數(shù)據(jù)流失對數(shù)據(jù)精度要求不高的行業(yè) 數(shù)據(jù)互操作模式通過數(shù)據(jù)庫之間穩(wěn)定的接口動(dòng)態(tài)地進(jìn)行數(shù)據(jù)的調(diào)用和共享,數(shù)據(jù)的完整性高無統(tǒng)一的技術(shù)規(guī)范和轉(zhuǎn)換機(jī)制,OGC成員效率和積極性不確定,不能處理非OpenGIS數(shù)據(jù)企業(yè)的各部門或者分公司之間的數(shù)據(jù)交流及政府辦公 數(shù)據(jù)標(biāo)準(zhǔn)化模式在很大程度上推動(dòng)了地理數(shù)據(jù)的集成和共享數(shù)據(jù)存在不兼容的問題,模式不成熟有相同標(biāo)準(zhǔn)或數(shù)據(jù)規(guī)范的行業(yè)、部門 空間數(shù)據(jù)共享平臺模式采用C/S服務(wù)器體系結(jié)構(gòu),數(shù)據(jù)的一致性高技術(shù)體系不夠完整,沒有足夠強(qiáng)大的公共平臺可以支持部分領(lǐng)域、部門 元數(shù)據(jù)庫訪問模式可以有效定位、評價(jià)、比較,可以高效查詢、獲取和使用相關(guān)地理數(shù)據(jù)必須建立在數(shù)據(jù)互操作模式和數(shù)據(jù)標(biāo)準(zhǔn)化模式基礎(chǔ)之上,元數(shù)據(jù)自身的標(biāo)準(zhǔn)定制還不完善部分領(lǐng)域、部門 基于本體的數(shù)據(jù)共享通過語義因子分解和建立概念來集成不同地理本體,有效解決數(shù)據(jù)的多語義問題,應(yīng)用廣泛,過程本體的有關(guān)研究成果有助于過程地理信息系統(tǒng)的研究與發(fā)展[45]目前只能根據(jù)輔助信息或由經(jīng)驗(yàn)知識豐富或熟悉研究區(qū)的專家,根據(jù)經(jīng)驗(yàn)知識進(jìn)行人機(jī)交互細(xì)化各領(lǐng)域和部門
[1]梅士員,江南.GIS數(shù)據(jù)共享技術(shù)[J].遙感信息,2002(4):46-49,64.
[2]艾海濱,孟令奎,林志勇.基于XML的分布式異構(gòu)地理數(shù)據(jù)集成與共享[J].遙感信息,2002(4):50-56.
[3]劉威.分布式數(shù)據(jù)庫及其技術(shù)[J].長春大學(xué)學(xué)報(bào),2000(1):27-30.
[4]楊東,謝菲,楊曉剛,等.分布式數(shù)據(jù)庫技術(shù)的研究與實(shí)現(xiàn)[J].電子科學(xué)技術(shù),2015,2(1):87-94.
[5]周國義.分布式GIS的研究[J].測繪科學(xué),2003(3):43-45,85.
[6]ASTROM K J,WITTWNMARK B.Computer-controlled systems:theory and design[J].Iee Review,1997,31(31):237–248.
[7]馬東波.分布式數(shù)據(jù)庫的研究新趨勢[J].產(chǎn)業(yè)與科技論壇,2017,16(18):79-80.
[8]陳靜,向隆剛,朱欣焰.分布式異構(gòu)柵格數(shù)據(jù)的集成管理研究[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2011,36(9):1094-1096.
[9]馬東波.分布式數(shù)據(jù)庫系統(tǒng)的安全機(jī)制[J].產(chǎn)業(yè)與科技論壇,2017,16(16):45-46.
[10]徐愛萍,宋先明,徐武平.分布式異構(gòu)數(shù)據(jù)庫集成系統(tǒng)研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2015,37(10):1909-1916.
[11]江洲,李琦,王凌云.空間信息融合與地理編碼數(shù)據(jù)庫的開發(fā)[J].計(jì)算機(jī)工程,2004(5):1-2,153.
[12]鄔倫,張毅.分布式多空間數(shù)據(jù)庫系統(tǒng)的集成技術(shù)[J].地理學(xué)與國土研究,2002(1):6-10.
[13]李軍,費(fèi)川云.地球空間數(shù)據(jù)集成研究概況[J].地理科學(xué)進(jìn)展,2000(3):203-211.
[14]吳小芳,蔡忠亮,鄔國鋒,等.基于數(shù)據(jù)引擎思想的GIS數(shù)據(jù)集成與共享[J].測繪工程,2003(3):14-17.
[15]鐘秋燕.數(shù)據(jù)集成技術(shù)綜述[J].電腦知識與技術(shù),2008(24):1120-1122.
[16]BISHR Y.Overcoming the semantic and other barriers to GIS interoperability[J].International Journal of GeographicalInformation Science,1998,12(4):299-314.
[17]閭國年,張書亮,龔敏霞,等.地理信息系統(tǒng)集成原理與方法[M].北京:科學(xué)出版社,2003.
[18]宋關(guān)福,鐘耳順,劉紀(jì)遠(yuǎn),等.多源空間數(shù)據(jù)無縫集成研究[J].地理科學(xué)進(jìn)展,2000,19(2):110-115.
[19]劉占偉,劉厚泉.基于GML的多源異構(gòu)空間數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(8):1962-1965.
[20]曠建中,馬勁松,蔣民鋒.基于GML的多源空間數(shù)據(jù)集成模型研究[J].計(jì)算機(jī)應(yīng)用研究,2005,22(6):105-107.
[21]DEVOGELE T,PARENT C,SPACCAPIETRA S.On spatial database integration[J].International Journal of Geographical Information Science,1998,12(4):335-352.
[22]HAMMER J,GARCIA-MOLINA H,WIDOM J,et al.The stanford data warehousing project[J].In IEEE Data Engineering Bulletin,1995,18(2):41- 48.
[23]崔鐵軍,郭黎.多源地理空間矢量數(shù)據(jù)集成與融合方法探討[J].測繪科學(xué)技術(shù)學(xué)報(bào),2007(1):1-4.
[24]劉云漢.基于Web Service的異構(gòu)數(shù)據(jù)集成平臺設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識與技術(shù),2017,13(30):19-22.
[25]董永峰,侯向丹,袁超,等.分布式異構(gòu)數(shù)據(jù)庫同步集成的研究與應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(6):122-124.
[26]陳超,王亮,閆浩文,等.一種基于NoSQL的地圖瓦片數(shù)據(jù)存儲技術(shù)[J].測繪科學(xué),2013,38(1):142-143,159.
[27]于小洋,云紅艷,賀英,等.利用語義技術(shù)實(shí)現(xiàn)Web Service數(shù)據(jù)的快速集成[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,30(1):79-84.
[28]李紹俊,楊海軍,黃耀歡,等.基于NoSQL數(shù)據(jù)庫的空間大數(shù)據(jù)分布式存儲策略[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2017,42(2):163-169.
[29]程淑娥.大數(shù)據(jù)環(huán)境下區(qū)域科技資源共享平臺云服務(wù)模式研究[D].哈爾濱:哈爾濱理工大學(xué),2017.
[30]王宏起,李力,李玥.區(qū)域科技資源共享平臺集成服務(wù)流程與管理研究[J].情報(bào)理論與實(shí)踐,2014,37(8):69-73.
[31]ZHONG Y,HAN J,ZHANG T,et al.A distributed geospatial data storage and processing framework for Large-scale webGIS[C]//The 20th International Conference on Geoinformatics,2012.
[32]HAN D,STROULIA E.HGrid:a data model for Large geospatial data sets in HBASE[C]//Proceedings of the 2013 IEEE Sixth International Conference on Cloud Computing,2013.
[33]WEI L Y,HSU Y T,PENGeng W C,et al.Indexing spatial data in cloud data managements[J].pervasive and Mobile Computing,2014(15):48-61.
[34]陳崇成,林劍鋒,吳小竹,等.基于NoSQL的海量空間數(shù)據(jù)云存儲與服務(wù)方法[J].地球信息科學(xué)學(xué)報(bào),2013,15(2):166-174.
[35]CHANG F,DEAN J,GHEMAWAT S,et al.Bigtable:a distributed storage system for structured data[J].ACM Transactions on Computer System,2008,26(2):1-26.
[36]GHEMAWAT S,GOBIOFF H,LEUNG S T.The google file system[C]//19th ACM Symposium on Operating System Principles,2006.
[37]BURROWS M.The chubby Lock service for loosely- coupled distributed system[C]//Proceedings of the 7th Symposium on Operating System Design and Implementation,2006.
[38]陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J].計(jì)算機(jī)工程與科學(xué),2013,35(10):25-35.
[39]HECHT R,JABLONSKI S.NoSQL evaluation:a use case oriented survey[C]//2011 International Conference on Cloud and Service Computing,2011.
[40]陳紅.基于Hadoop的分布式SQL數(shù)據(jù)庫索引設(shè)計(jì)與實(shí)踐[J].艦船電子工程,2018,38(4):73-77.
[41]王凌暉,解云月,周美華.Hadoop分布式存儲架構(gòu)的性能分析[J].現(xiàn)代電子技術(shù),2018,41(18):92-95.
[42]張振猛.基于Hadoop的海量文件存儲系統(tǒng)的分析與設(shè)計(jì)[D].北京:北京工業(yè)大學(xué),2015.
[43]陸文星,涂竹松,梁焱.基于HBase的數(shù)據(jù)共享模型研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(4):36-40,45.
[44]李崇欣.分布式數(shù)據(jù)庫HBase快照的設(shè)計(jì)與實(shí)現(xiàn)[D].杭州:浙江大學(xué),2011.
[45]蘇奮振,周成虎.過程地理信息系統(tǒng)框架基礎(chǔ)與原型構(gòu)建[J].地理研究,2006,25(3):477-484.
TP311
A
10.15913/j.cnki.kjycx.2020.01.009
2095-6835(2020)01-0031-05
國家自然基金項(xiàng)目“秦嶺火地塘森林景觀土壤微生物空間格局”(編號:31670549);陜西省土地整治重點(diǎn)實(shí)驗(yàn)室開放基金“污損土地遙感調(diào)查與評估研究”(編號:2018-JC08);自然資源部退化及未利用土地整治工程重點(diǎn)實(shí)驗(yàn)室開放基金(編號:SXDJ2019-8)
奧勇,男,長安大學(xué)地球科學(xué)與資源學(xué)院副教授,碩士研究生導(dǎo)師,陜西土地整治重點(diǎn)實(shí)驗(yàn)室信息室主任。
李美麗(1992—),女,碩士研究生。
〔編輯:嚴(yán)麗琴〕