王延倉(cāng)+莊連英+趙子輝+楊秀峰+曹歡+孫世奎
摘要:隨著遙感數(shù)據(jù)空間、時(shí)間以及光譜分辨率的不斷提高為地理信息系統(tǒng)提供豐富的數(shù)據(jù)的來(lái)源,數(shù)據(jù)量增加的同時(shí)也給地理信息系統(tǒng)數(shù)據(jù)的存儲(chǔ)與組織帶來(lái)了挑戰(zhàn),Spatial Hadoop技術(shù)的出現(xiàn)在一定程度上解決了空間數(shù)據(jù)的存儲(chǔ)與組織的問(wèn)題,對(duì)spatial Hadoop云平臺(tái)下空間數(shù)據(jù)的存儲(chǔ)方式進(jìn)行了研究,對(duì)spatial Hadoop云平臺(tái)的應(yīng)用和推廣具有十分現(xiàn)實(shí)的意義。
關(guān)鍵詞:Spatial Hadoop;存儲(chǔ);地理信息系統(tǒng);矢量數(shù)據(jù);柵格數(shù)據(jù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)25-0012-02
1 概述
隨著我國(guó)地理信息技術(shù)的不斷發(fā)展,各種數(shù)據(jù)的來(lái)源不斷增加隨之而來(lái)的是空間數(shù)據(jù)的種類以及空間數(shù)據(jù)量上的大量的增加。以柵格數(shù)據(jù)的代表遙感數(shù)據(jù)的數(shù)據(jù)了近些年更是呈現(xiàn)出快速增長(zhǎng)的趨勢(shì)。大量的空間數(shù)據(jù)所帶來(lái)的一個(gè)顯著的問(wèn)題就是空間數(shù)據(jù)的存儲(chǔ)問(wèn)題以及空間數(shù)據(jù)的分析與處理,而空間數(shù)據(jù)的存儲(chǔ)是空間數(shù)據(jù)處理的基礎(chǔ)。當(dāng)前以Hadoop空間數(shù)據(jù)庫(kù)為主的數(shù)據(jù)存儲(chǔ)的形式存在很多的問(wèn)題與弊端,在數(shù)據(jù)存儲(chǔ)量日益增大的情況越來(lái)越難以對(duì)當(dāng)前的空間數(shù)據(jù)進(jìn)行有效的存儲(chǔ)以及處理,Spatial Hadoop空間數(shù)據(jù)庫(kù)的出現(xiàn)有效地解決了這一問(wèn)題。
Spatial Hadoop是一個(gè)開源的MapReduce擴(kuò)展來(lái)源于Hadoop,專門用于處理Apache Hadoop上空間數(shù)據(jù)的巨大數(shù)據(jù)集。 Spatial Hadoop具有內(nèi)置的空間高級(jí)語(yǔ)言,空間數(shù)據(jù)類型,空間索引和高效的空間操作。并且Spatial Hadoop的安裝配置以及操作十分的方面支持多種較為常用的高級(jí)語(yǔ)言,通過(guò)內(nèi)置的高級(jí)語(yǔ)言以及高效的數(shù)據(jù)組織形式能夠?qū)崿F(xiàn)對(duì)空間數(shù)據(jù)十分高效的存儲(chǔ),GIS與Spatial Hadoop的結(jié)合將有力地推進(jìn)地理信息系統(tǒng)對(duì)數(shù)據(jù)的存儲(chǔ)管理能力為空間數(shù)據(jù)的處理提供基礎(chǔ)。
2 基于Hadoop的空間數(shù)據(jù)存儲(chǔ)關(guān)鍵技術(shù)問(wèn)題
在Hadoop 空間數(shù)據(jù)庫(kù)下,矢量數(shù)據(jù)存儲(chǔ)的方式一般可以分為分布式文件存儲(chǔ)方式以及分布式數(shù)據(jù)庫(kù)矢量數(shù)據(jù)存儲(chǔ)方式。其中分布式文件存儲(chǔ)的方式能夠保證矢量數(shù)據(jù)的完整性,實(shí)現(xiàn)對(duì)空間地理數(shù)據(jù)的并行處理加快其處理速度。但是這種分布式的文件存儲(chǔ)的方式也存在一定的局限性,其對(duì)地理空間數(shù)據(jù)的修改以及刪除操作實(shí)現(xiàn)起來(lái)較為復(fù)雜,所以效率較為低下。而采用分式數(shù)據(jù)庫(kù)的矢量數(shù)據(jù)的存儲(chǔ)方式則不具備分布式文件矢量數(shù)據(jù)存儲(chǔ)方式所具有的優(yōu)點(diǎn),但是其能夠較好的對(duì)地理空間數(shù)據(jù)進(jìn)行修改或者是刪除操作,當(dāng)前采用Hadoop來(lái)存儲(chǔ)和處理地理空間數(shù)據(jù)主要存在以下幾個(gè)方面的主要問(wèn)題。
2.1 地圖投影
地理空間數(shù)據(jù)的一致化處理需要考慮到空間參考坐標(biāo)系、大地以及地心坐標(biāo)系等各種坐標(biāo)系之間的轉(zhuǎn)換,雖然在地理信息系統(tǒng)中有所涉及但不是研究重點(diǎn)。如何選取空間參考系統(tǒng)以及投影,各種空間參考以及投影之間的轉(zhuǎn)換關(guān)系和多源多尺度的空間數(shù)據(jù)之間的轉(zhuǎn)換以及一致化處理或者是空間拼接以及疊加等是地理信息系統(tǒng)中的主要研究問(wèn)題,如果要解決空間數(shù)據(jù)的存儲(chǔ)必須合理的處理好空間數(shù)據(jù)的地圖投影問(wèn)題。
2.2 空間索引
建立針對(duì)海量空間數(shù)據(jù)的高效的檢索和查詢的空間索引是空間數(shù)據(jù)庫(kù)的關(guān)鍵技術(shù)之一,是空間數(shù)據(jù)實(shí)現(xiàn)高效的存儲(chǔ)與檢索的關(guān)鍵所在。雖然當(dāng)前的空間索引技術(shù)以及面向可視化的LOD空間索引技術(shù)已經(jīng)相對(duì)較為成熟,然而在Hadoop環(huán)境中還存在著不足。
2.3 矢量要素標(biāo)識(shí)
在矢量數(shù)據(jù)組織的過(guò)程中矢量要素的標(biāo)識(shí)是關(guān)鍵,是矢量數(shù)據(jù)實(shí)現(xiàn)有效的組織存儲(chǔ)與檢索能功能實(shí)現(xiàn)的關(guān)鍵。常用的FID編碼技術(shù)包括命名與分配兩種方法。其中第一種方法可以在較小的范圍內(nèi)保證其FID的唯一性,并且加入了人為的因素,難以反映空間實(shí)體的位置以及空間實(shí)體的相互關(guān)系。分配方式是通過(guò)計(jì)算機(jī)隨機(jī)為實(shí)體分配編碼,這種方式雖然也能夠保證其命名唯一性卻也難以表現(xiàn)空間實(shí)體的位置特征與相互關(guān)系。因而上述方式均難以解決命名的唯一性與反應(yīng)空間實(shí)體的位置與相互關(guān)系的問(wèn)題,很多時(shí)候?yàn)榱诉m應(yīng)HBase 的 Row Key,在矢量要素標(biāo)識(shí)設(shè)置的過(guò)程中還需要考慮其長(zhǎng)度以及順序等。
2.4 屬性查詢
HBase主要用于大表的存儲(chǔ),可以對(duì)大表中的屬性進(jìn)行查詢,但是屬性查詢需要借助Hive、Pig等對(duì)全表進(jìn)行Map Reduce 計(jì)算,這種方式會(huì)嚴(yán)重浪費(fèi)計(jì)算機(jī)的資源,并且所具有的高延時(shí)也使得后續(xù)的數(shù)據(jù)處理與分析應(yīng)用效率低下。因而需要通過(guò)一種方法,來(lái)高效的對(duì)表格數(shù)據(jù)進(jìn)行屬性查詢,這是空間數(shù)據(jù)庫(kù)必須要解決的一個(gè)很現(xiàn)實(shí)的問(wèn)題。
3 基于spatial Hadoop云平臺(tái)下的數(shù)據(jù)存儲(chǔ)方式
3.1 基于Mercator投影的層次剖分空間索引
為了對(duì)多尺度以及多分辨率的多維度的數(shù)據(jù)進(jìn)行統(tǒng)一化的處理,需要確定統(tǒng)一的空間基準(zhǔn)。合理的利用空間數(shù)據(jù)的分層以及分塊的技術(shù)可以在高效的對(duì)地理空間數(shù)據(jù)進(jìn)行組織和管理。因而在spatial Hadoop中用到了Mercator 金字塔四叉樹來(lái)對(duì)地理空間數(shù)據(jù)進(jìn)行分層和分塊處理。
Mercator投影金字塔四叉樹剖分方法是一種采用空間格網(wǎng)對(duì)數(shù)據(jù)進(jìn)行剖分的方法。實(shí)施過(guò)程非常的簡(jiǎn)單且可靠,在spatial Hadoop空間數(shù)據(jù)庫(kù)中的Mercator投影金字塔四叉樹層次剖分是空間數(shù)據(jù)組織和存儲(chǔ)的基礎(chǔ)。雖然這種數(shù)據(jù)的存儲(chǔ)和組織方法在兩極投影變換等方面存在缺陷,但是其優(yōu)勢(shì)在于海量數(shù)據(jù)處理過(guò)程中的空間數(shù)據(jù)的索引機(jī)制,目前很多種我們較為熟悉的地圖軟件如Google Maps、Google Earth等都是采取的這種數(shù)據(jù)組織和存儲(chǔ)的方式,尤其在遙感數(shù)據(jù)的組織和可視化方面具有優(yōu)勢(shì),能夠較好的解決空間數(shù)據(jù)的可視化對(duì)真實(shí)世界的表示。采用該種方式對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和組織能夠有效的對(duì)各種空間數(shù)據(jù)實(shí)現(xiàn)統(tǒng)一化的管理能夠?qū)崿F(xiàn)不同分辨率下的索引以及對(duì)數(shù)據(jù)的瀏覽。可以根據(jù)瀏覽的要求來(lái)選擇特定分辨率以及特定的區(qū)域的圖像進(jìn)行顯示,能夠有效地降低空間數(shù)據(jù)量大所帶來(lái)的負(fù)擔(dān),同時(shí)也有助于地理空間數(shù)據(jù)的存儲(chǔ)、組織、查詢與顯示。
3.2 基于MPPQT的矢量數(shù)據(jù)的分布式存儲(chǔ)
目前矢量數(shù)據(jù)結(jié)構(gòu)包括拓?fù)涫噶繑?shù)據(jù)結(jié)構(gòu)與無(wú)拓?fù)浣Y(jié)構(gòu)的矢量數(shù)據(jù)。拓?fù)淇臻g矢量數(shù)據(jù)結(jié)構(gòu)主要是通過(guò)點(diǎn)線面等空間實(shí)體來(lái)描述空間對(duì)象。而無(wú)空間拓?fù)潢P(guān)系的矢量數(shù)據(jù)則沒(méi)有上述關(guān)系,而是每個(gè)空間對(duì)象都用一個(gè)表來(lái)表示,表中含有對(duì)空間對(duì)象描述的坐標(biāo)序列。拓?fù)鋽?shù)據(jù)結(jié)構(gòu)較為復(fù)雜,但是非常有利于后續(xù)的空間分析且存儲(chǔ)空間相對(duì)于非拓?fù)鋽?shù)據(jù)結(jié)構(gòu)較小,能夠顯著的降低存儲(chǔ)的數(shù)據(jù)量。但是對(duì)于拓?fù)鋽?shù)據(jù)的管理以及維護(hù)的成本較大,顯示過(guò)程中所消耗的時(shí)間較長(zhǎng)。因而在Spatial Hadoop云平臺(tái)下注重了矢量數(shù)據(jù)的分布式存儲(chǔ)且在這個(gè)過(guò)程中注重了負(fù)載的均衡,并且需要注意矢量數(shù)據(jù)的相關(guān)運(yùn)算。在Spatial Hadoop中采用了非拓?fù)浣Y(jié)構(gòu)的數(shù)據(jù)模型來(lái)對(duì)矢量數(shù)據(jù)進(jìn)行存儲(chǔ)。對(duì)于不同圖層以及比例尺的圖像,按 MPPQT的方法來(lái)對(duì)矢量數(shù)據(jù)進(jìn)行剖分存儲(chǔ)和組織,矢量數(shù)據(jù)中包含矢量數(shù)據(jù)的元數(shù)據(jù)以及多個(gè)圖層。每個(gè)圖層都包括多個(gè)點(diǎn)線面的結(jié)構(gòu)。在每個(gè)圖層中都包括了定性與定量等屬性數(shù)據(jù),矢量要素跨越相應(yīng)層次格網(wǎng)然后根據(jù)比例尺對(duì)其進(jìn)行格網(wǎng)劃分。每一級(jí)的格網(wǎng)都包括很多的格網(wǎng)單元,每一個(gè)格網(wǎng)單元分割后都存在相應(yīng)的矢量分割片段。采用MPPQT層次進(jìn)行剖分后的格網(wǎng)單元的編碼來(lái)對(duì)數(shù)據(jù)的比例尺進(jìn)行區(qū)分,在相同的格網(wǎng)單元中采用矢量要素的標(biāo)識(shí)來(lái)區(qū)別不同的矢量要素。
4 結(jié)束語(yǔ)
通過(guò)對(duì)Spatial Hadoop云平臺(tái)下空間數(shù)據(jù)存儲(chǔ)方式的研究,其對(duì)柵格數(shù)據(jù)的存儲(chǔ)采用的是Mercator投影金字塔四叉樹的空間數(shù)據(jù)的剖分方法來(lái)對(duì)柵格數(shù)據(jù)進(jìn)行存儲(chǔ)和組織,對(duì)矢量數(shù)據(jù)采用的是無(wú)拓?fù)浣Y(jié)構(gòu)的MPPQT方法對(duì)矢量空間數(shù)據(jù)進(jìn)行存儲(chǔ)和組織,相對(duì)于存儲(chǔ)方式具有相對(duì)較高的數(shù)據(jù)存儲(chǔ)、組織和管理的效率,能夠有效解決當(dāng)前海量數(shù)據(jù)的存儲(chǔ)、組織與管理的問(wèn)題。
參考文獻(xiàn):
[1] 彭成. 基于Hadoop的GIS空間分析平臺(tái)關(guān)鍵技術(shù)研究[D].江西理工大學(xué),2014.
[2] 范建永,龍明,熊偉. 基于Hadoop的云GIS體系結(jié)構(gòu)研究[J]. 測(cè)繪通報(bào),2013(11):93-97.endprint