林雅萍,杜震洪,張豐,劉仁義
(1. 浙江大學(xué) 浙江省資源與環(huán)境信息系統(tǒng)重點實驗室, 浙江 杭州 310028; 2. 浙江大學(xué) 地理信息科學(xué)研究所, 浙江 杭州 310027)
“格網(wǎng)索引+MapReduce”策略下的地理國情統(tǒng)計分析研究
林雅萍1,2,杜震洪1,2,張豐1,2*,劉仁義1,2
(1. 浙江大學(xué) 浙江省資源與環(huán)境信息系統(tǒng)重點實驗室, 浙江 杭州 310028; 2. 浙江大學(xué) 地理信息科學(xué)研究所, 浙江 杭州 310027)
地理國情統(tǒng)計分析是深度研究地理國情普查數(shù)據(jù)的首要前提.針對現(xiàn)有單機集中式數(shù)據(jù)存儲與處理方式存在耗時長、效率低甚至不支持的問題,設(shè)計了“格網(wǎng)索引+MapReduce”策略,基于規(guī)則格網(wǎng)設(shè)計普查數(shù)據(jù)文件的分塊組織與分布式存儲方式,研制了格網(wǎng)索引與空間分析相結(jié)合的雙層過濾機制,構(gòu)建基于MapReduce的地理國情并行統(tǒng)計算法.最后,與無索引MapReduce、ArcGIS平臺進行性能對比測試,結(jié)果表明:“格網(wǎng)索引+MapReduce”方法的統(tǒng)計效率遠(yuǎn)高于ArcGIS平臺,對無索引MapReduce方法亦有明顯的效率優(yōu)勢,研究擬為地理國情普查數(shù)據(jù)的高性能、多類型、大批量統(tǒng)計分析提供優(yōu)選方案.
地理國情統(tǒng)計分析;地理國情普查數(shù)據(jù);格網(wǎng)索引;MapReduce
地理國情統(tǒng)計分析是將普查數(shù)據(jù)轉(zhuǎn)化為地理國情信息,再提升為國家決策服務(wù)的必要手段,有助于深化普查成果的全面應(yīng)用,發(fā)揮普查成果對社會、經(jīng)濟的推動作用,提升各相關(guān)領(lǐng)域、專業(yè)的創(chuàng)新能力[1].地理國情統(tǒng)計分析的基本對象是地理國情普查數(shù)據(jù),主要包括地表覆蓋分類和重要國情要素兩大類,具有體量龐大、來源多樣、信息豐富、空間精度高、時效性強、應(yīng)用層面廣等典型的大數(shù)據(jù)特征.
當(dāng)前,地理國情統(tǒng)計分析工作的開展主要依靠各類統(tǒng)計分析軟件或應(yīng)用系統(tǒng)[2-5],大多采用單機模式獨立完成大規(guī)模普查數(shù)據(jù)的存儲與統(tǒng)計分析.但是,由于單機CPU資源性能有限,在耗費大量存儲空間的情況下,其執(zhí)行統(tǒng)計分析任務(wù)則普遍存在耗時長、效率低下的問題,在數(shù)據(jù)量過大時甚至?xí)霈F(xiàn)宕機的情況.近年來,Hadoop云計算技術(shù)的發(fā)展逐漸成熟,在空間大數(shù)據(jù)領(lǐng)域尤其是柵格數(shù)據(jù)的高效存儲和處理方面已有大量應(yīng)用[6-8],但在矢量數(shù)據(jù)處理方面仍處于探索階段,利用Hadoop進行矢量數(shù)據(jù)存儲、索引構(gòu)建、空間查詢、空間分析等探索是目前云GIS領(lǐng)域研究的熱點[9-11].
為改善現(xiàn)有普查數(shù)據(jù)在單機集中管理和統(tǒng)計分析處理性能上的局限性,有效提高地理國情統(tǒng)計分析效率,本研究基于Hadoop云平臺,提出“格網(wǎng)索引+MapReduce”策略,設(shè)計基于HDFS的數(shù)據(jù)分塊組織方式,并采用粗粒度格網(wǎng)過濾與細(xì)粒度空間分析相結(jié)合的雙層數(shù)據(jù)過濾機制,最終應(yīng)用統(tǒng)計分析的并行算法模型,實現(xiàn)對地理國情統(tǒng)計的大批量、準(zhǔn)實時、高效并行化處理,旨在為地理國情普查數(shù)據(jù)的后續(xù)深度研究提供基礎(chǔ).
HDFS[12]是Hadoop云計算平臺中的分布式文件系統(tǒng),具有多副本冗余備份、數(shù)據(jù)完整性校驗、訪問權(quán)限控制、負(fù)載均衡等機制.HDFS系統(tǒng)遵循主/從式架構(gòu),由1個NameNode和若干DataNode服務(wù)器協(xié)同組成HDFS集群,數(shù)據(jù)文件由DataNode負(fù)責(zé)存儲,由NameNode統(tǒng)一調(diào)度.HDFS能夠為超大規(guī)模數(shù)據(jù)提供分布式文件存儲和管理服務(wù).
MapReduce[13]是Hadoop云計算平臺中的分布式計算基本框架,采用“分而治之,大而化小”的思想,通過定義可高度并行的map和reduce函數(shù),基于本地計算原則,將大規(guī)模數(shù)據(jù)的復(fù)雜計算任務(wù)分發(fā)至對應(yīng)或靠近數(shù)據(jù)的存儲節(jié)點并行執(zhí)行,由于其“遷移計算”代替“遷移數(shù)據(jù)”,降低了數(shù)據(jù)在網(wǎng)絡(luò)傳輸過程中對并行處理效率的影響,能夠支持大規(guī)?;虺笠?guī)模數(shù)據(jù)的大批量高效并行處理.
借助HDFS的高可靠、高可擴的大數(shù)據(jù)存儲系統(tǒng),和MapReduce模型的高吞吐、高容錯并行計算框架,能夠為地理國情普查大數(shù)據(jù)的高效處理提供支撐.但MapReduce訪問HDFS數(shù)據(jù)的常規(guī)方式是面向數(shù)據(jù)文件的,只能讀取整個數(shù)據(jù)文件,無法根據(jù)所需提取數(shù)據(jù)文件內(nèi)的特定要素記錄,導(dǎo)致讀取的數(shù)據(jù)量增加,尤其是無效數(shù)據(jù)讀取量較大,數(shù)據(jù)有效提取性能較低.因此需要設(shè)計合適的數(shù)據(jù)組織和過濾機制才能有效支持地理國情統(tǒng)計分析的并行處理.
2.1 地理國情普查數(shù)據(jù)的統(tǒng)一文本化表達
地理國情普查數(shù)據(jù),是地理國情統(tǒng)計分析的基本對象,采用基于Geodatabase模型的矢量數(shù)據(jù)集形式存儲.而Hadoop MapReduce框架默認(rèn)采用文本行的訪問方式讀取數(shù)據(jù)記錄,因此本研究首先對現(xiàn)有基于Geodatabase模型的國普矢量數(shù)據(jù)進行文本化處理,再采用統(tǒng)一的文本方式表達要素記錄的屬性信息與空間信息,并以文本行描述完整的普查數(shù)據(jù)要素記錄信息,降低數(shù)據(jù)的空間復(fù)雜度,以提高數(shù)據(jù)讀取與操作的便捷性.
首先,將一條要素記錄O包含的屬性信息文本O.Attributes按照順序排列,空間信息和拓?fù)湫畔.Geometry則選用OGC(open geospatial consortium)簡單要素模型中的WKT(well-known text)編碼進行文本化,列于屬性文本之后組成文本行,一個文本行包含一個要素記錄的所有信息,最后形成TSV(tab-separated values,用制表符tab分隔值的文件)文本格式的國普數(shù)據(jù)文件.本文設(shè)計的國普數(shù)據(jù)文本格式為:
基于地理國情統(tǒng)計分析需求,將地表覆蓋分類數(shù)據(jù)文本化為LCRA.tsv文件,將重要國情要素數(shù)據(jù)文本化后整合為GNCF.tsv文件.
2.2 基于規(guī)則格網(wǎng)的地理國情普查數(shù)據(jù)文件分塊組織
規(guī)則格網(wǎng)是構(gòu)建空間索引時廣泛使用的一種索引方式,其原理是將數(shù)據(jù)空間劃分為具有一定間隔的網(wǎng)格,通過網(wǎng)格與數(shù)據(jù)的包含關(guān)系,建立兩者之間的映射,并以網(wǎng)格作為數(shù)據(jù)之間空間關(guān)系的載體[14].為有效提高數(shù)據(jù)文件的訪問性能,避免過多無效數(shù)據(jù)讀取帶來的磁盤I/O消耗,本研究基于規(guī)則格網(wǎng)索引理念設(shè)計了普查數(shù)據(jù)文件的分塊組織方式.
首先,采用基于數(shù)據(jù)集要素對象數(shù)量的空間網(wǎng)格預(yù)估方法[15]確定劃分的網(wǎng)格數(shù)量,其算法模型為
(1)
式(1)中,P為劃分網(wǎng)格的數(shù)目,‖R‖為數(shù)據(jù)集R的數(shù)據(jù)對象基數(shù),‖S‖為數(shù)據(jù)集S的數(shù)據(jù)對象基數(shù),M為主存儲器的字節(jié)大小,Sizekp則表示平均單個數(shù)據(jù)對象大小.
其次,根據(jù)普查數(shù)據(jù)全空間范圍(Xmin,Xmax,Ymin,Ymax),獲取格網(wǎng)單元大小w×l,并對數(shù)據(jù)空間進行格網(wǎng)劃分,共有((Xmax-Xmin)/w)×((Ymax-Ymin)/l)個網(wǎng)格,根據(jù)網(wǎng)格的行列號x和y設(shè)置網(wǎng)格的唯一標(biāo)識編碼xy,并創(chuàng)建對應(yīng)的物理存儲文件夾xy.根據(jù)每個網(wǎng)格的空間范圍,判斷國普數(shù)據(jù)文件中各要素所屬的網(wǎng)格編碼,將擁有相同編碼的要素文本放進對應(yīng)編碼命名的文件夾中,如圖1所示.
圖1 地理國情普查數(shù)據(jù)分塊組織Fig.1 Blocking file structure of geographical condition survey data
國普矢量數(shù)據(jù)包含點、線、面3種幾何要素.點要素數(shù)據(jù)只會存儲在一個對應(yīng)網(wǎng)格編碼命名的文件夾中,將邊界上的點要素劃分至其左側(cè)或左上側(cè)網(wǎng)格內(nèi).因線和面要素在空間中占據(jù)一定的區(qū)域范圍,通??缭蕉鄠€網(wǎng)格.為保留要素的完整性,保證地理國情普查數(shù)據(jù)的客觀性和權(quán)威性,本研究采用冗余存儲策略,將跨越網(wǎng)格單元的多邊形要素數(shù)據(jù)劃分至其覆蓋的多個網(wǎng)格內(nèi),并冗余存儲在網(wǎng)格編碼集合所對應(yīng)的若干文件夾中.如圖2所示,多邊形LCRA1跨越了格網(wǎng)00,10,01,02,12,也即00,10,01,02,12編碼命名的文件夾中均存儲有此多邊形數(shù)據(jù).
圖2 數(shù)據(jù)冗余存儲機制Fig.2 Mechanism of data redundancy storage
地理國情統(tǒng)計分析,是根據(jù)所需的統(tǒng)計單元和統(tǒng)計對象,通過相應(yīng)的統(tǒng)計指標(biāo)計算、匯總得到成果的過程.針對單機資源與性能難以有效支撐數(shù)據(jù)的有效提取和大規(guī)模要素統(tǒng)計效率低下甚至無法完成的問題,本研究設(shè)計了“格網(wǎng)索引+MapReduce”策略,采用規(guī)則格網(wǎng)索引與精確分析相結(jié)合的雙層過濾機制,利用規(guī)則格網(wǎng)索引實現(xiàn)對普查數(shù)據(jù)的粗粒度空間過濾,在MapReduce的map任務(wù)階段對數(shù)據(jù)進行精確的空間分析和要素類型過濾,既利用了規(guī)則格網(wǎng)索引快速檢索的優(yōu)勢,又避免了其他無用數(shù)據(jù)參與統(tǒng)計分析指標(biāo)的計算.
3.1 基于規(guī)則格網(wǎng)索引與精確分析的雙層過濾機制
基于規(guī)則格網(wǎng)索引與精確分析的國普數(shù)據(jù)雙層過濾機制建立在數(shù)據(jù)分塊組織方式的基礎(chǔ)上.
基于規(guī)則格網(wǎng)索引的國普數(shù)據(jù)粗粒度過濾,根據(jù)當(dāng)前統(tǒng)計單元的空間范圍R及其最小外包矩形(minimum bounding rectangle,MBR)RMBR,獲取rMBR覆蓋的網(wǎng)格集合GLst1,再獲取GLst1中與R存在拓?fù)湎嘟魂P(guān)系的網(wǎng)格集合GLst,然后根據(jù)GLst中每個網(wǎng)格的空間位置Xgmin,Xgmax,Ygmin,Ygmax計算其編碼xy,網(wǎng)格編碼計算公式如式(2)(3)所示.最后,獲取GLst內(nèi)網(wǎng)格編碼集合,并確定所需數(shù)據(jù)文件的路徑集合.
(2)
(3)
基于空間分析和要素類型判斷的精確分析機制為利用MapReduce框架讀取文件路徑集合中的各數(shù)據(jù)文件,通過map函數(shù)并行讀取數(shù)據(jù)文件中的要素記錄O,根據(jù)O.Attributes要素屬性過濾無效數(shù)據(jù),再通過O.Geometry與R的疊加分析,過濾不相交的要素、提取相交的部分.對冗余存儲的要素采用參考點法[16]來規(guī)避重復(fù)計算問題,參考點表示如下:
pr=(max(oR.xl,oS.xl),min(oR.yh,oS.yh)),
(4)
式中,pr參考點為O與R重疊區(qū)域的左上角邊界點,只有當(dāng)參考點與當(dāng)前要素位于同一網(wǎng)格內(nèi)時,才對要素進行提取.
3.2 基于MapReduce的地理國情統(tǒng)計分析并行化處理
地理國情統(tǒng)計分析處理過程中數(shù)據(jù)的空間分析處理和基本指標(biāo)的計算匯總過程可并行化實現(xiàn).以個數(shù)、面積、長度等基本要素指標(biāo)的統(tǒng)計過程為例,以說明基于MapReduce的地理國情統(tǒng)計分析并行統(tǒng)計算法的基本思想.
將要素分類編碼所屬統(tǒng)計單元要素標(biāo)識碼組裝為key值,要素各指標(biāo)值拼裝成規(guī)則的字符串作為value值,輸出key-value鍵值對,reduce方法負(fù)責(zé)對相同單元和相同分類要素的value值集合進行各基本指標(biāo)值的歸并,最終得到統(tǒng)計分析任務(wù)的基本指標(biāo)結(jié)果.下面詳細(xì)描述基于MapReduce的地理國情統(tǒng)計分析并行算法的實現(xiàn)機制.
(1) 獲取研究區(qū)域范圍R、統(tǒng)計單元RList,利用基于規(guī)則格網(wǎng)索引的粗粒度數(shù)據(jù)過濾方法,向MapReduce框架輸入所需數(shù)據(jù)文件,啟動MapReduce并行統(tǒng)計任務(wù).
(2) 采用map函數(shù)逐行讀取數(shù)據(jù)文件的要素記錄,基于要素屬性及其空間信息,利用精確分析方法判斷要素是否在研究區(qū)域內(nèi)并屬于統(tǒng)計對象.接著計算參考點,若參考點與該要素位于同一網(wǎng)格,則對要素進行提取和裁切以獲取所需的有效數(shù)據(jù),并對有效部分的面積、長度指標(biāo)進行計算,將其分類編碼和所屬統(tǒng)計單元的標(biāo)識碼組裝為key值,統(tǒng)計指標(biāo)數(shù)值之間以“,”間隔組成value值,向reduce函數(shù)輸出key-value鍵值對.具體算法如下:
算法1地理國情統(tǒng)計Map算法
MapObject
1{
2 if Object.CC is in CCList
3 for eachr∈RList do
4 oG=Object.Geometry;
5 rG=r.Geometry;
6 if oG and rG intersect then
7 RP=reference point of oG and rG;
8 if RP in the grid then
9 p=overlay(oG,rG);
10 area=p.getArea();
11 length=p.getLength();
12 cc=p.getCC();
13 id=Object.ID;
14 index=id +“,”+area+“,”+length;
15 OID=cc+“,”+r.ID;
16 emit (OID, index);
17}
(3) reduce函數(shù)并行讀取map函數(shù)輸出的鍵值對集合,并按照相同key值進行歸并.對統(tǒng)一key值的value集合,按其拼裝規(guī)則進行分解和統(tǒng)計,得到一個分類對象的指標(biāo)匯總結(jié)果,仍以分類編碼和所屬統(tǒng)計單元標(biāo)識碼組裝為key值,指標(biāo)統(tǒng)計值之間以“,”間隔組成value值,輸出key-value鍵值對.
算法2地理國情統(tǒng)計Reduce算法
Reduce(OID,list(index))
1{
2Sumarea=0.00;
3Sumlength=0.00;
4Sumcount=0;
5 for each index∈ list(index) do
6 if index.ID not repeat
7 Sumarea= Sumarea+index.area;
8 Sumlength=Sumlength+index.length;
9 Sumcount++;
10 emit (CC,List(Sumarea, Sumlength, Sumcount));
11}
(4) 輸出基本指標(biāo)的統(tǒng)計結(jié)果,得到最終統(tǒng)計數(shù)據(jù).
研究了 “格網(wǎng)索引+MapReduce”策略下的地理國情統(tǒng)計方法,基于規(guī)則格網(wǎng)進行數(shù)據(jù)分塊組織,設(shè)計了粗粒度空間過濾和細(xì)粒度空間分析相結(jié)合的雙層數(shù)據(jù)過濾機制,最終通過分布式統(tǒng)計算法模型實現(xiàn)統(tǒng)計分析處理的并行化,擬為大批量、準(zhǔn)實時的地理國情統(tǒng)計分析提供優(yōu)選方案.
對本研究的“格網(wǎng)索引+MapReduce”策略、無索引的MapReduce框架以及傳統(tǒng)ArcGIS平臺的集中統(tǒng)計方式進行性能對比實驗.為此搭建了擁有6個處理節(jié)點的分布式集群,軟硬件配置相同,其中1臺為主節(jié)點,5臺為子節(jié)點,另外選擇一臺與主節(jié)點相同配置的單機進行ArcGIS平臺實驗.設(shè)備參數(shù)如下:
硬件環(huán)境: DELL PowerEdge R730 服務(wù)器,配有14核2.0 GHz CPU處理器、4×16 G DDR4內(nèi)存、2×256 G SSD硬盤、3×300 G SAS硬盤和2 G緩存,并集成4 000 Mb網(wǎng)卡.
軟件環(huán)境: Suse Linux Enterprise Server 12 SP1(x64)操作系統(tǒng),JDK版本為1.8.0_11,Hadoop版本為2.7.3.客戶端配置為Intel core i7-6700處理器,配有4核3.4 GHz CPU、8 G內(nèi)存、1 TB硬盤,ArcGIS版本為10.3.
實驗數(shù)據(jù)選擇浙江省地理國情普查地表覆蓋分類數(shù)據(jù)和重要的地理國情要素數(shù)據(jù),要素總量約705.6萬和82.2萬.實驗采用25×25規(guī)則格網(wǎng)對普查數(shù)據(jù)進行分塊組織.
圖3 3種策略的性能對比Fig.3 Time comparison of three strategies
圖3為“格網(wǎng)索引+MapReduce”策略、MapReduce框架以及ArcGIS 10.3平臺下,對4種不同體量的地表覆蓋分類數(shù)據(jù)集進行的基本統(tǒng)計性能對比.從圖3中可以看出,隨著統(tǒng)計范圍的不斷擴大,數(shù)據(jù)體量不斷增加,基于“格網(wǎng)索引+MapReduce”策略的統(tǒng)計方式較傳統(tǒng)ArcGIS平臺集中處理方式在性能上有較大的提升,較無索引的MapReduce方法也有較明顯的提升.
圖4 節(jié)點數(shù)與統(tǒng)計性能關(guān)系Fig.4 Relationship between number of nodes and performance of statistic
圖4為“格網(wǎng)索引+MapReduce”策略下節(jié)點數(shù)量對統(tǒng)計性能影響的實驗對比圖,通過測試300萬地表覆蓋分類數(shù)據(jù)的并行統(tǒng)計效率,得到當(dāng)節(jié)點數(shù)量較少時,并行統(tǒng)計處理時間較長,節(jié)點數(shù)量較多時,耗時較短,并行統(tǒng)計處理性能較高.
針對地理國情普查數(shù)據(jù)統(tǒng)計分析中集中式存儲與處理方式存在效率低下的問題,提出了“格網(wǎng)索引+MapReduce”策略,利用規(guī)則格網(wǎng)對數(shù)據(jù)進行空間劃分和組織,并進行分布式存儲,設(shè)計了結(jié)合規(guī)則格網(wǎng)索引與精確屬性分析的雙層過濾機制,以保證數(shù)據(jù)讀取的高效性和有效性,同時設(shè)計了地理國情基本指標(biāo)統(tǒng)計并行處理算法,并與無索引MapReduce分布式處理以及基于ArcGIS 10.3平臺的集中式處理方法進行了對比實驗.結(jié)果表明,本文提出的統(tǒng)計算法的效率要高于其他兩種方法.由于本文采用的是冗余存儲方式,一定程度上會增加數(shù)據(jù)的存儲量和讀取數(shù),對并行處理的性能產(chǎn)生一定程度的影響.格網(wǎng)的大小也會影響數(shù)據(jù)存儲的冗余量,出現(xiàn)數(shù)據(jù)傾斜問題,從而影響并行處理效率.后續(xù)工作將對格網(wǎng)劃分方式以及冗余存儲策略等的優(yōu)化進行更深入的研究.
[1] 吳桐,王小華,兀偉. 基于地理國情普查的格網(wǎng)統(tǒng)計分析研究[J].測繪標(biāo)準(zhǔn)化,2016,32(1): 8-11.
WU T, WANG X H, WU W. Grid statistical research based on national geographical conditions census[J].StandardizationofSurveyingandMapping, 2016, 32(1): 8-11.
[2] 劉耀林,何力,何青松,等. 地理國情統(tǒng)計分析系統(tǒng)設(shè)計與應(yīng)用[J].地理信息世界, 2015, 22(6): 56-59.
LIU Y L, HE L, HE Q S,et al. Design and achivement of a statistical analysis system for geographic national conditions surveying and monitoring[J].GeomaticsWorld, 2015, 22(6): 56-59.
[3] 林富明,李雁楠,劉恒飛. 基于天地圖的地理國情統(tǒng)計分析信息發(fā)布服務(wù)系統(tǒng)設(shè)計[J].測繪與空間地理信息,2014, 37(6): 23-25.
LIN F M, LI Y N, LIU H F. Design of information publication and service system of national geographical condition statistical and analysis based on Tianditu[J].Geomatics&SpatialInformationTechnology, 2014,37 (6): 23-25.
[4] 王軍,楊東岳,張梁. 地理國情成果在線發(fā)布系統(tǒng)開發(fā)與應(yīng)用研究[J].測繪與空間地理信息,2014, 37(10): 114-116.
WANG J, YANG D Y, ZHANG L. Geographic conditions the results published online system development and applied research[J].Geomatics&SpatialInformationTechnology, 2014, 37(10): 114-116.
[5] 肖提榮,吳玉婷,何照攀. 縣域地理國情信息管理及統(tǒng)計分析監(jiān)測系統(tǒng)的設(shè)計與實現(xiàn)——以華寧縣為例[J].測繪通報, 2016(4): 121-123.
XIAO T R, WU Y T, HE Z P. Design and realization of monitoring system for management and statistical analysis of county geographic condition information: A case study of Huaning county[J].BulletinofSurveyingandMapping, 2016(4): 121-123.
[6] CAO K.CloudComputingandItsApplicationsinGIS[D]. Worcester: Clark University, 2011.
[7] ASTSATRYAN H, HAYRAPETYAN A, NARISISIAN W, et al. An interoperable web portal for parallel geoprocessing of satellite image vegetation indices[J].EarthScienceInformatics, 2015, 8(2): 453-460.
[8] LYU Z, HU Y, ZHONG H, et al. Parallel K-means clustering of remote sensing images based on mapreduce[J].LectureNotesinComputerScience, 2010, 6318: 162-170.
[9] ELDAWY A, MOKBEL M. A demonstration of Spatial Hadoop: An efficient mapreduce framework for spatial data[J].ProceedingsoftheVldbEndowment, 2013, 6(12): 1230-1233.
[10] ELDAWY A, MOKBEL M F. Spatial Hadoop: A MapReduce Framework for spatial data[C]//201531stIEEEInternationalConferenceonDataEngineering(ICDE). Seoul: IEEE Computer Society, 2015: 1352-1363.
[11] AJI A.HighPerformanceSpatialQueryProcessingforLargeScaleSpatialDataWarehousing[D]. Atlanta: Emory University, 2014.
[12] WANG J, LU C, WANG L Z. Concentric layout, a new scientific data layout for matrix data-set in Hadoop file system[J].InternationalJournalofParallelEmergent&DistributedSystems, 2013, 28(5): 407-433.
[13] DEAN J, GHEMAWAT S. MapReduce: Simplified data processing on large clusters[J].CommunicationsoftheACM, 2008, 51(1): 107-113.
[14] 余勁松弟,吳升. 面向大數(shù)據(jù)的地理格網(wǎng)分析操作模型比較[J].地球信息科學(xué)學(xué)報, 2013, 15(6): 862-870.
YU J S D, WU S. Research progress of array analytics towards big data[J].JournalofGeo-InformationScience, 2013, 15(6): 862-870.
[15] PATEL J M, DEWITT D J. Partition based spatial-merge join[J].ACMSigmodRecord, 2001, 25(2): 259-270.
[16] DITTRICH J P, SEEGER B. Data redundancy and duplicate detection in spatial join processing[J].IEEEComputerSociety, 2000: 535-546.
LIN Yaping1,2,DU Zhenhong1,2,ZHANG Feng1,2,LIU Renyi1,2
(1.ZhejiangProvincialKeyLabofGIS,ZhejiangUniversity,Hangzhou310028,China;2.DepartmentofGeographicInformationScience,ZhejiangUniversity,Hangzhou310027,China)
Researchontheanalysisandstatisticofgeographicalconditionsbasedonthestrategyof“GridIndex+MapReduce”.Journal of Zhejiang University (Science Edition), 2017,44(6): 660-665
The statistic of geographical conditions is the primary premise for the deep excavation and application of geographical data. However, the traditional centralized data storage and processing method based on a single computer are time-consuming, inefficient and even unsupported. This paper creates a strategy called “Grid Index + MapReduce” to solve these problems. Firstly, we design a blocking file organization and distributed storage mode of the census data of geographical situation based on the regular square grid, and then make a double layer filtering method which combines the grid index and the accurate analysis. Lastly, we build a parallel processing algorithm of statistic of the geography conditions based on MapReduce. The test results of performance comparison of the strategy of “Grid Index + MapReduce”, the indexless MapReduce and ArcGIS software show that the method of “Grid Index + MapReduce” is much more efficient than the ArcGIS software, and also has obvious efficiency advantages for the indexless MapReduce method. The study tries to provide an optimal scheme for the high-performance, multi-type and high-volume statistic and analysis method for the data of geographical condition survey.
the statistic and analysis of geographical conditions; the data of geographical condition survey; grid index; MapReduce
2016-12-08.
國家自然科學(xué)基金資助項目(41471313,41671391);國家科技基礎(chǔ)性工作專項(2012FY112300);國家海洋公益性行業(yè)科研專項(201505003);浙江省科技攻關(guān)計劃項目(2015C33021).
林雅萍(1992—),ORCID: http://orcid.org/0000-0002-9324-7293,女,碩士,主要從事地理國情與云計算相關(guān)研究.
*通信作者,ORCID: http://orcid.org/0000-0003-1475-8480,E-mail:zfcarnation@zju.edu.cn.
10.3785/j.issn.1008-9497.2017.06.004
P 208
A
1008-9497(2017)06-660-06