程承旗,童曉沖,陳波
(1.北京大學(xué)航空航天信息工程研究所,北京 100871;2.信息工程大學(xué)地理空間信息學(xué)院,鄭州 450001)
關(guān)于建立我國環(huán)境大數(shù)據(jù)網(wǎng)格組織標(biāo)準(zhǔn)的若干思路
程承旗1*,童曉沖2,陳波1
(1.北京大學(xué)航空航天信息工程研究所,北京 100871;2.信息工程大學(xué)地理空間信息學(xué)院,鄭州 450001)
摘 要環(huán)保應(yīng)用是一種典型的多行業(yè)、多類型的大數(shù)據(jù)綜合業(yè)務(wù)應(yīng)用。當(dāng)前,僅我國環(huán)保應(yīng)用的數(shù)據(jù)類型就高達幾十種,來源于不同的數(shù)據(jù)生產(chǎn)部門,其組織管理的方式、標(biāo)準(zhǔn)、參考體系也各不相同,給環(huán)境大數(shù)據(jù)的快速形成與綜合應(yīng)用提出了挑戰(zhàn)。本文從環(huán)境大數(shù)據(jù)的概念和需求開始,結(jié)合國內(nèi)外技術(shù)發(fā)展的現(xiàn)狀,討論了發(fā)展建立我國環(huán)境大數(shù)據(jù)網(wǎng)格組織標(biāo)準(zhǔn)的必要性與優(yōu)勢;基于國家973項目的 理論研究成果,提出了建立我國統(tǒng)一的空、天、地一體化環(huán)境大數(shù)據(jù)網(wǎng)格組織標(biāo)準(zhǔn)的框架體系,并研究了基于網(wǎng)格框架的環(huán)境大數(shù)據(jù)形成制、應(yīng)用思路、關(guān)鍵技術(shù)及實現(xiàn)方法; 最后,結(jié)合我國環(huán)境大數(shù)據(jù)與 信息技術(shù)發(fā)展的現(xiàn)狀,提出了建立我國環(huán)境大數(shù)據(jù)網(wǎng)格組織標(biāo)準(zhǔn)體系的幾點發(fā)展建議。
關(guān)鍵詞環(huán)境大數(shù)據(jù);剖分網(wǎng)格;網(wǎng)格編碼;組織標(biāo)準(zhǔn)
隨著我國環(huán)境問題的日益嚴(yán)峻,國家為此投入了大量的人力、物力和財力,各方面的工作均取得了長足進步,特別是環(huán)境大數(shù)據(jù)工程的提出,各種類型的環(huán)境數(shù)據(jù)及相關(guān)數(shù)據(jù)大量產(chǎn)生,數(shù)據(jù)量正在呈幾何階數(shù)增長,日益成為環(huán)境保護工程的一項重要的戰(zhàn)略性資源。隨著環(huán)保應(yīng)用的逐步開展,環(huán)境數(shù)據(jù)在實際應(yīng)用中的管理要求也不斷提高,如何有效組織這些爆炸式增長的大數(shù)據(jù),確保用戶需要時能快速從“環(huán)境大數(shù)據(jù)全集”中獲取有價值的信息,已成為環(huán)境大數(shù)據(jù)應(yīng)用領(lǐng)域亟待解決的問題。
環(huán)保應(yīng)用是一種典型的多行業(yè)、多類型的大數(shù)據(jù)綜合業(yè)務(wù)應(yīng)用。當(dāng)前,僅我國環(huán)保應(yīng)用的空間數(shù)據(jù)類型就高達幾十種,來源于不同的數(shù)據(jù)生產(chǎn)部門,其組織管理的方式、標(biāo)準(zhǔn)、參考體系也各不相同,給環(huán)境大數(shù)據(jù)的快速形成與綜合應(yīng)用提出了挑戰(zhàn)。在環(huán)境大數(shù)據(jù)的形成過程中,首先需要明確一個重要概念:數(shù)據(jù)多不是大數(shù)據(jù),數(shù)據(jù)集中在一起不是大數(shù)據(jù)。大數(shù)據(jù)的核心是指需要時能快速地從“全的數(shù)據(jù)”中獲取有用的信息,這種數(shù)據(jù)集稱為大數(shù)據(jù)。例如,某部門7個專題數(shù)據(jù)庫,都匯集到了數(shù)據(jù)中心,但仍然難以快速查詢出某一區(qū)域所有“全”的數(shù)據(jù),更難以綜合應(yīng)用,原因之一是欲整合的這些數(shù)據(jù)庫來自不同部門,它們大多采用不同的數(shù)據(jù)組織標(biāo)準(zhǔn),其中網(wǎng)格組織標(biāo)準(zhǔn)的不同是主要制約瓶頸。這些各異的網(wǎng)格標(biāo)準(zhǔn)包括智慧城市的城市網(wǎng)格、遙感網(wǎng)格(景、瓦片等)、地理網(wǎng)格、測繪網(wǎng)格(圖幅網(wǎng)格等)、氣象網(wǎng)格、水文網(wǎng)格等,這些網(wǎng)格在各自行業(yè)內(nèi)部的空間數(shù)據(jù)組織管理上發(fā)揮了積極作用,但由于它們劃分方式不同,數(shù)據(jù)間尺度不統(tǒng)一,位置不統(tǒng)一,編碼不統(tǒng)一,給環(huán)境大數(shù)據(jù)的跨部門檢索、整合與共享帶來了困難,對建立統(tǒng)一的環(huán)境大數(shù)據(jù)網(wǎng)格組織標(biāo)準(zhǔn)提出了迫切需求。
另外,由于所有的信息都可以關(guān)聯(lián)到某一具體的地域,且地域存在多種形態(tài)和尺度,使用現(xiàn)有的基于經(jīng)緯度位置碼的點、線、面組織方法也存在標(biāo)識不統(tǒng)一及檢索復(fù)雜等問題,而利用全球剖分網(wǎng)格的全球唯一性、多尺度性和規(guī)則性來對大數(shù)據(jù)進行組織也將是一種技術(shù)發(fā)展的必然。因此,深入研究更為有效的多源異構(gòu)環(huán)境大數(shù)據(jù)的一體化組織方法,特別是發(fā)展高效的環(huán)境大數(shù)據(jù)組織網(wǎng)格標(biāo)準(zhǔn),是環(huán)境大數(shù)據(jù)組織亟待解決的瓶頸問題之一。
合理的數(shù)據(jù)組織管理模式與方法是數(shù)據(jù)高效應(yīng)用的基礎(chǔ)。國內(nèi)外許多研究部門與行業(yè)都已采用網(wǎng)格方式進行空間大數(shù)據(jù)的統(tǒng)一組織、管理與應(yīng)用服務(wù)。其中,比較有代表性的就有NASAEOSDIS的影像大數(shù)據(jù)網(wǎng)格組織技術(shù)、Google的全球海量空間大數(shù)據(jù)網(wǎng)格組織技術(shù)和ArcSDE的空間數(shù)據(jù)網(wǎng)格索引技術(shù)等。
2.1 NASA EOSDIS的影像大數(shù)據(jù)網(wǎng)格組織技術(shù)
美國航空航天局(NASA)啟動的對地觀測系統(tǒng)(earth observing system,EOS)是目前民間最大的對地觀測系統(tǒng)工程,也是全球數(shù)據(jù)量最大的民間科學(xué)數(shù)據(jù)庫系統(tǒng),是值得借鑒的現(xiàn)實參考系統(tǒng)之一。其中,EOSDIS是NASA提供的存取訪問全部EOS數(shù)據(jù)的解決方案。在數(shù)據(jù)范圍上,EOS數(shù)據(jù)涵蓋了大氣、土地利用、植被覆蓋、雪冰、海洋等多個地學(xué)領(lǐng)域的不同分辨率、不同時間周期的衛(wèi)星影像數(shù)據(jù)和野外觀測數(shù)據(jù),具有全球性、多源性、多尺度性。在數(shù)據(jù)規(guī)模上,EOSDIS目前管理著24種EOS儀器測量數(shù)據(jù),超過2000個數(shù)據(jù)集,總數(shù)據(jù)量達上千TB,而且數(shù)據(jù)量每天都在大幅增長。在空間大數(shù)據(jù)組織與管理的方法上,EOSDIS采用統(tǒng)一的數(shù)據(jù)存儲組織格式與交換標(biāo)準(zhǔn):為了有效地管理地理定位數(shù)據(jù),并為各種類型的EOS數(shù)據(jù)產(chǎn)品在EOSDIS分布式系統(tǒng)環(huán)境中提供一個統(tǒng)一的訪問接口,以便用于整體搜索服務(wù)、互操作與共享,EOSDIS采用一種擴展的網(wǎng)格數(shù)據(jù)格式,作為NASA存儲和發(fā)布EOS數(shù)據(jù)產(chǎn)品的標(biāo)準(zhǔn)格式(圖1)[1,2]。
圖1 NASA EOSDIS的網(wǎng)格數(shù)據(jù)模型
EOSDIS為海量對地觀測信息的分布式網(wǎng)格化組織管理與一體化共享提供了可借鑒的解決方案,其涉及的需求與任務(wù)目標(biāo)與環(huán)境大數(shù)據(jù)中影像數(shù)據(jù)組織也非常相近,值得借鑒。
2.2 Google的全球海量空間大數(shù)據(jù)網(wǎng)格組織技術(shù)
Google采用網(wǎng)格瓦片數(shù)據(jù)層疊加技術(shù)(tile overlays)來組織空間數(shù)據(jù),最底層(level 0)采用一個瓦片來表達整個球面,其中心位于經(jīng)度0°與緯度0°,然后每個瓦片按因子4依次等級細分地球表面。每個瓦片的坐標(biāo)由所在放大層級下的行列號來確定,列的順序從左到右,行的順序從上到下;每個瓦片文件采用列序來命名。在數(shù)據(jù)組織時,系統(tǒng)采用墨卡托投影(Spherical Web Mercator projection),每個瓦片按照固定大小對應(yīng)一個固定的全球網(wǎng)格,按照“瓦片集名稱放大層級行序列序”方式組織(圖2)[3]。
圖2 Google瓦片文件目錄結(jié)構(gòu)
在數(shù)據(jù)索引方面,Google 集群利用分布式服務(wù)器集群形成虛擬索引數(shù)據(jù)庫,即索引大表BigTable,實現(xiàn)了PB級數(shù)據(jù)索引[4]。BigTable是一種稀疏的、分布式的、穩(wěn)定的多維排序表,提供半結(jié)構(gòu)化數(shù)據(jù)的分布存儲與訪問接口,其數(shù)據(jù)模型由行、列族和時間戳構(gòu) 成(圖3)。在對空間大數(shù)據(jù)存儲管理時,BigTable中的每一行對應(yīng)一個地理區(qū)域,并將在地理位置上鄰接的區(qū)域存儲為相鄰的行,行關(guān)鍵字表示連續(xù)的地塊;每一行包含多個列族,列族記錄每個區(qū)域的空間數(shù)據(jù)源,列族中的每一列對應(yīng)一幅空間數(shù)據(jù);時間戳用來標(biāo)識不同時期的數(shù)據(jù)版本(時間戳的類型為64位整型),例如,在數(shù)據(jù)查找和維護時,可以通過時間戳檢索“最新的K個數(shù)據(jù)”或“在某個時間段內(nèi)的所有數(shù)據(jù)”,“保留最新的K個數(shù)據(jù)”或“將一個數(shù)據(jù)保留若干時間”。
Google將不同分辨率、多源空間數(shù)據(jù)在“縱向”上組織在不同的層級,但在“橫向”上沒有考慮同一層級中多源空間數(shù)據(jù)的組織問題。因此,空間數(shù)據(jù)的組織管理需要根據(jù)空間數(shù)據(jù)的空間特性建立相應(yīng)的數(shù)據(jù)組織管理模型。
2.3 ArcSDE的空間數(shù)據(jù)網(wǎng)格索引技術(shù)
ArcSDE(SDE即Spatial Database Engine,空間數(shù)據(jù)庫引擎)是ArcGIS與關(guān)系數(shù)據(jù)庫之間的GIS通道。它允許用戶在多種數(shù)據(jù)管理系統(tǒng)中管理地理信息,并使所有的ArcGIS應(yīng)用程序都能夠使用這些數(shù)據(jù)。ArcSDE采用多層次網(wǎng)格對多源數(shù)據(jù)建立局部網(wǎng)格索引,可以較方便地存儲、索引和訪問DBMS中的矢量、柵格、元數(shù)據(jù)及其他空間數(shù)據(jù);同時能保證所有的GIS功能可用,而無須考慮底層的DBMS[5]。
圖3 Google BigTable索引數(shù)據(jù)組織模型
圖4 ArcSDE局部網(wǎng)格索引示意圖
Google、NASA EOSDIS等采用網(wǎng)格體系組織全球海量空間數(shù)據(jù),取得了非常好的應(yīng)用效果,但其網(wǎng)格與我國現(xiàn)有的空間數(shù)據(jù)組織框架的繼承與銜接不太方便。ArcSDE采用多層次局部網(wǎng)格索引(圖4),具有較好的數(shù)據(jù)檢索性能,但其網(wǎng)格體系為局部網(wǎng)格,不具備全球性,導(dǎo)致數(shù)據(jù)入庫或更新每次都需重建索引。
2.4 國內(nèi)研究現(xiàn)狀
網(wǎng)格理論方面,武漢大學(xué)的李德仁院士提出了“空間信息多級格網(wǎng)”(spatial information multi-grid,SIMG)的概念[6,7]。中國科學(xué)院地理所的周成虎研究員從地圖設(shè)計的角度,提出了地理網(wǎng)格數(shù)據(jù)模型的研究思路[8]。中國礦業(yè)大學(xué)(北京)趙學(xué)勝教授研究了全球空間網(wǎng)格QTM的層次索引機制和層次拓撲推理等問題[9,10]。解放軍信息工程大學(xué)的張永生教授等人研究了全球六邊形離散網(wǎng)格系統(tǒng)的單元編碼與索引、空間數(shù)據(jù)整合、三維可視化等問題[11,12]。在國家973計劃的支持下,北京大學(xué)程承旗教授等提出了2n一維整型數(shù)組經(jīng)緯度全球剖分網(wǎng)格(Geographical coordinate grid Subdivision by One dimension integer and Two to nthpower,GeoSOT),通過三次地球擴展,實現(xiàn)整度、整分的四叉樹剖分,形成一個上至地球(0級)、下至厘米級面元(32級)的多尺度四叉樹剖分網(wǎng)格,并以GeoSOT網(wǎng)格為基礎(chǔ),開發(fā)了由預(yù)處理系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、查詢系統(tǒng)、表達系統(tǒng)與分發(fā)系統(tǒng)等組成的技術(shù)原型系統(tǒng),為海量多源異構(gòu)高分大數(shù)據(jù)統(tǒng)一組織提供新的理論方法和技術(shù)手段[13-16]。
本文設(shè)計的環(huán)境大數(shù)據(jù)組織網(wǎng)格是基于GeoSOT地球剖分網(wǎng)格進行的,主要原因在于與國際上同類地球空間剖分網(wǎng)格方法相比,GeoSOT剖分網(wǎng)格具有下面幾個主要優(yōu)點:
(1)GeoSOT網(wǎng)格符合我國CGCS2000大地坐標(biāo)基準(zhǔn)。
(2)GeoSOT網(wǎng)格全球覆蓋、無縫無疊、尺度完整,與國內(nèi)外測繪、氣象、海洋、國家地理網(wǎng)格等現(xiàn)有網(wǎng)格是繼承與擴展關(guān)系;網(wǎng)格編碼將度、分、秒及秒以下網(wǎng)格進行分段編碼,使得整度、整分、整秒的規(guī)格數(shù)據(jù)在區(qū)位標(biāo)識過程中,不存在舍入誤差,數(shù)據(jù)可以精確表示。
(3)GeoSOT網(wǎng)格較好地解決了兩極地區(qū)的網(wǎng)格剖分問題,兩極劃分近似均勻。
(4)GeoSOT網(wǎng)格實現(xiàn)了地球空間二維、三維的一體化,形成了立體空間的真三維剖分框架,對環(huán)境大數(shù)據(jù)彌漫整個地球空間的情況非常適合。
(5)GeoSOT網(wǎng)格發(fā)展了一套基于二進制位運算機制的編碼代數(shù)計算方法,實現(xiàn)了空間信息組織、存儲、傳輸、分發(fā)、服務(wù)等應(yīng)用的高效“編碼化操作”。
(6)基于GeoSOT網(wǎng)格形成的空間搜索引擎技術(shù),充分利用了整型編碼的特性,結(jié)合列數(shù)據(jù)庫的特點,可以高效提供空間搜索服務(wù),國產(chǎn)數(shù)據(jù)庫系統(tǒng)通過實驗,較現(xiàn)有各類方法可以提高2~3倍。
基于GeoSOT網(wǎng)格形成的環(huán)境大數(shù)據(jù)組織網(wǎng)格GeoSOT-EP(environmental protection)利用GeoSOT32級中的某些特定層級,經(jīng)過一次6°×4°劃分,一次16′劃分,一次十六分及4次八分后,得到上至全球,下至1/16″的八級網(wǎng)格,其中除了第一層是1:100萬地形圖分幅劃分,其余皆是GeoSOT網(wǎng)格,下面是具體的方案:
第一步劃 分:如圖5所示,按照1:100萬圖幅劃分,經(jīng)度方向用1~60編碼,緯度方向分南北半球(N,S),按照A~V編碼,大小為6°×4°。
第二步劃分:如圖6所示將1:100萬6°×4°網(wǎng)格,從左下角劃分(東北半球)分成16×24個網(wǎng)格,兩個方向分別用A~P、A~X表示,相當(dāng)于GeoSOT第12 層16′×16′、12′×16′、16′×12′、12′×12′網(wǎng)格,相當(dāng)于約32km×32km網(wǎng)格。
第三步劃分:如圖7所示,將GeoSOT 16′×16′、12′×16′、16′×12′、12′×12′網(wǎng)格,分成4×4個網(wǎng)格,一個方向分別用A~P表示,相當(dāng)于GeoSOT第14層4′×4′網(wǎng)格,相當(dāng)于約8km×8km網(wǎng)格。
第四步劃分:如圖8所示,將GeoSOT 4′×4′網(wǎng)格,分成8×8個網(wǎng)格,兩個方向分別用0~7表示,相當(dāng)于GeoSOT第16層32″×32″、32″×28″、28″×32″、28″×28″網(wǎng)格,相當(dāng)于約1024m×1024m網(wǎng)格。
第五步劃分:如圖9所示,將GeoSOT 32″×32″、32″×28″、28″×32″、28″×28″網(wǎng)格,分成8×8個網(wǎng)格,兩個方向分別用0~7表示,相當(dāng)于GeoSOT第19層4″×4″網(wǎng)格,相當(dāng)于約128m×128m網(wǎng)格。
圖5 GeoSOT-EP第一步劃分
圖6 GeoSOT-EP第二步劃分
圖7 GeoSOT-EP第三步劃分
第六步劃分:如圖10所示,將4″×4″網(wǎng)格,分成8×8個網(wǎng)格,兩個方向分別用0~7表示,相當(dāng)于GeoSOT第22層1/2″×1/2″網(wǎng)格,相當(dāng)于約16m×16m網(wǎng)格。
第七步劃分:如圖11所示,將1/2″×1/2″網(wǎng)格,分成8×8個網(wǎng)格,兩個方向分別用0~7表示,相當(dāng)于GeoSOT第25層1/16″×1/16″網(wǎng)格,相當(dāng)于約2m×2m網(wǎng)格。
圖8 GeoSOT-EP第四步劃分
圖9 GeoSOT-EP第五步劃分
圖10 GeoSOT-EP第六步劃分
圖11 GeoSOT-EP第七步劃分
通過以上七步劃分與編碼,可得15位GeoSOTEP位置編碼,最高編碼精度1/16″×1/16″。前七位分別代表半球標(biāo)識及第一級、第二級、第三級網(wǎng)格編碼,后八位先記錄第四級至第七級的經(jīng)向編碼,再記錄第四級至第七級的緯向編碼。
考慮到環(huán)境數(shù)據(jù)是彌漫整個地球空間的情況,GeoSOT-EP需要考慮真三維的環(huán)境,GeoSOT-EP真三維網(wǎng)格是在GeoSOT-3D網(wǎng)格基礎(chǔ)上進行設(shè)計的。GeoSOT-3D是在二維平面剖分框架GeoSOT的基礎(chǔ)上擴展高度維編碼而形成的立體剖分網(wǎng)格,即將高度維剖分無縫嵌入二維平面剖分,共同組成GeoSOT-3D立體剖分網(wǎng)格模型。在空間高度上,設(shè)定高度單位是度、分、秒。根據(jù)與參考橢球參數(shù),可以將空間高度單位轉(zhuǎn)換為千米、米。空間高度以參考橢球中心為0,最大為512°,對應(yīng)高度為[0km,56 931 km]。在該高度空間中,地球表面在高度為180°/π附近,最大高度離地面為50 560公里。
GeoSOT-3D剖分0級網(wǎng)格定義為:在基于經(jīng)緯度坐標(biāo)的地球立體空間中,與其原點重合的512°方格,0級網(wǎng)格對應(yīng)信息體區(qū)域位置是整個地球立體空間,如圖12所示。GeoSOT-3D剖分1級網(wǎng)格定義為:在0級網(wǎng)格基礎(chǔ)上平均分為8份,每個1級網(wǎng)格大?。?56?;1級網(wǎng)格編碼:Gd,其中d為0、1、2、3、4、5、6或7。例如,G0對應(yīng)信息體區(qū)域位置:東北半球、高程大于0?、小于256?的地球空間;G4對應(yīng)信息體區(qū)域位置:東北半球、高程大于256?、小于512?的地球空間。依此類推,可依次定義2級、3級直至32級網(wǎng)格[17]。GeoSOT-3D不同層級立體部分網(wǎng)格示意圖如圖13所示。
圖12 GeoSOT-3D立體剖分0級網(wǎng)格示意圖
圖13 GeoSOT-3D不同層級立體剖分網(wǎng)格示意圖
4.1 大數(shù)據(jù)形成的機制
地球上所有數(shù)據(jù)均可剖分(邏輯剖分),均可以賦予一個適宜的剖分網(wǎng)格編碼,由此形成了空間大數(shù)據(jù)的剖分組織體系,應(yīng)用時只需點擊某一網(wǎng)格,通過搜索,就可以獲得該網(wǎng)格上的所有標(biāo)識有網(wǎng)格碼的數(shù)據(jù),從而較容易獲得某一網(wǎng)格中的“全數(shù)據(jù)”。它的好處在于在開展環(huán)境大數(shù)據(jù)資源整合時,對現(xiàn)有系統(tǒng)不必推倒重來,實現(xiàn)方便,低成本,效率高。例如,上面提到的某部門七大數(shù)據(jù)庫,在不推倒重來的基礎(chǔ)上,只在每個數(shù)據(jù)庫增加一個編碼字段,通過編碼自動生成工具,一周時間,就可完成包括遙感數(shù)據(jù)在內(nèi)的相關(guān)數(shù)據(jù)庫的整合,形成統(tǒng)計意義上的空間大數(shù)據(jù)。
4.2 應(yīng)用思路
針對環(huán)境大數(shù)據(jù)高效組織與應(yīng)用的業(yè)務(wù)需求,將網(wǎng)格技術(shù)貫穿于從數(shù)據(jù)預(yù)處理到查詢檢索、共享與交換、分發(fā)、整合等一系列環(huán)境大數(shù)據(jù)組織與應(yīng)用業(yè)務(wù)流程??傮w研究思路是:依托全球剖分網(wǎng)格及其編碼體系,建立統(tǒng)一的環(huán)境大數(shù)據(jù)空間網(wǎng)格編碼模型,對環(huán)境大數(shù)據(jù)進行剖分預(yù)處理,使得每一個環(huán)境大數(shù)據(jù)都具備全球統(tǒng)一的空間網(wǎng)格編碼;將每個環(huán)境大數(shù)據(jù)的空間網(wǎng)格編碼都納入剖分索引大表中,建立起環(huán)境大數(shù)據(jù)與剖分網(wǎng)格的空間索引結(jié)構(gòu),使得環(huán)境大數(shù)據(jù)都與網(wǎng)格形成強關(guān)聯(lián)關(guān)系,由此形成統(tǒng)一的共享交換基礎(chǔ),并在此基礎(chǔ)上實現(xiàn)環(huán)境大數(shù)據(jù)的快速查詢檢索、共享交換及整合;用戶的位置亦可轉(zhuǎn)換為導(dǎo)航定位網(wǎng)格編碼,并與網(wǎng)格進行對應(yīng),利用剖分網(wǎng)格的多尺度特性,可針對用戶實際需求,分發(fā)用戶關(guān)心區(qū)域網(wǎng)格的數(shù)據(jù),實現(xiàn)環(huán)境大數(shù)據(jù)的多尺度分發(fā)。最終實現(xiàn)環(huán)境大數(shù)據(jù)“打上編碼、按編碼查詢、按編碼交換、按編碼分發(fā)、按編碼整合、按編碼計算”,以統(tǒng)一的網(wǎng)格編碼貫穿環(huán)境大數(shù)據(jù)應(yīng)用全過程。
4.3 關(guān)鍵技術(shù)
本項研究涉及的關(guān)鍵技術(shù)主要包括以下幾方面:
(1)環(huán)境大數(shù)據(jù)全球網(wǎng)格碼編碼實現(xiàn)模型及編碼計算技術(shù);
(2)環(huán)境大數(shù)據(jù)全球網(wǎng)格碼自動生成技術(shù);
(3)環(huán)境大數(shù)據(jù)全球網(wǎng)格碼地理信息平臺中間件技術(shù);
(4)環(huán)境大數(shù)據(jù)全球網(wǎng)格碼數(shù)據(jù)庫索引大表中間件技術(shù);
(5)環(huán)境大數(shù)據(jù)全球網(wǎng)格碼空天地立體數(shù)據(jù)球技術(shù)。
4.4 實現(xiàn)方法
(1)前端:將環(huán)境大數(shù)據(jù)網(wǎng)格碼作為終端環(huán)境數(shù)據(jù)采集的直接位置代碼。
(2)后端:在后臺環(huán)境大數(shù)據(jù)的數(shù)據(jù)庫中增加一個編碼字段,每個數(shù)據(jù)均賦予剖分網(wǎng)格碼,包括所有新生成的數(shù)據(jù)自動賦予位置碼,完成環(huán)境大數(shù)據(jù)組織預(yù)處理流程。
(2)在現(xiàn)有環(huán)保信息平臺上增加一個剖分網(wǎng)格碼相關(guān)的網(wǎng)格管理中間件,實現(xiàn)基于全球剖分網(wǎng)格碼的環(huán)境大數(shù)據(jù)統(tǒng)一網(wǎng)格化查詢與匯集。
(3)建立一系列基于剖分網(wǎng)格碼的環(huán)境大數(shù)據(jù)時空計算或信息挖掘算法(時間、空間與事件)。
(4)建立面向服務(wù)業(yè)務(wù)或公眾的環(huán)境大數(shù)據(jù)剖分網(wǎng)格碼服務(wù)體系(特別有利于建立眾籌的環(huán)境大數(shù)據(jù)匯集機制)。
4.5 應(yīng)用基礎(chǔ)
目前,基于地球剖分網(wǎng)格編碼的大數(shù)據(jù)組織方法及其衍生技術(shù)正在國家“北斗”二代導(dǎo)航專項、高分專項、地名地址、減災(zāi)系統(tǒng)、互聯(lián)網(wǎng)位置尋址,停車牌、戶籍門牌等系統(tǒng)的大數(shù)據(jù)建設(shè)中發(fā)揮積極作用。大數(shù)據(jù)建設(shè)涉及領(lǐng)域多、部門多、來源多、數(shù)據(jù)格式多、數(shù)據(jù)量大、信息稀疏分散、模型復(fù)雜、分析要求高,全球剖分網(wǎng)格碼形成的大數(shù)據(jù)組織技術(shù),已初步顯示出應(yīng)用前景,可為國家環(huán)境大數(shù)據(jù)組織標(biāo)準(zhǔn)建設(shè)提供一定的技術(shù)借鑒。
(1)政府主導(dǎo),環(huán)保部門在考察成熟技術(shù)及成功應(yīng)用實踐的基礎(chǔ)上,開展環(huán)境大數(shù)據(jù)網(wǎng)格碼組織技術(shù)局部應(yīng)用試驗。
(2)在局部應(yīng)用試驗基礎(chǔ)上,提前開展相關(guān)標(biāo)準(zhǔn)研究,涉及環(huán)境大數(shù)據(jù)相關(guān)的云平臺操作系統(tǒng)、網(wǎng)絡(luò)協(xié)議、數(shù)據(jù)庫、GIS平臺、移動終端改進標(biāo)準(zhǔn),也涉及各種業(yè)務(wù)模型及大數(shù)據(jù)分析算法改進標(biāo)準(zhǔn)。
(3)開展基于全球網(wǎng)格標(biāo)準(zhǔn)的典型環(huán)境大數(shù)據(jù)服務(wù)試點,為進一步推廣奠定基礎(chǔ)。
參考文獻
[1] Esfandiari M, Ramapriyan H, Behnke J, et al. Evolving a ten year old data system[C]//Proceedings of 2nd IEEE International Conference on Space Mission Challenges for Information Technology (SMC- IT'06). Pasadena, California: IEEE, 2006:243-250.
[2] Lü X F, Cheng C Q, Gong J Y, et al. Review of data storage and management technologies for massive remote sensing data[J]. Science China Technological Sciences, 2011, 54(12): 3220-3232.
[3] Sample J T, Loup E. Tile-Base Geospatial Information System: Principle and Practices[M]. New York: Springer, 2010:23-200.
[4] Chang F, Dean J, Ghemawat S, et al. Bigtable: a distributed storage system for structured data[J]. ACM Transactions on Computer Systems, 2008, 26(2): 1-14.
[5] 崔鐵軍. 地理空間數(shù)據(jù)庫原理[M].北京: 科學(xué)出版社, 2007.
[6] 李德仁, 朱欣焰, 龔健雅. 從數(shù)字地圖到空間信息網(wǎng)格——空間信息多級網(wǎng)格理論思考[J]. 武漢大學(xué)學(xué)報: 信息科學(xué)版, 2003, 28(6): 642-650.
[7] 李德仁, 邵振峰. 空間信息多級網(wǎng)格及其功能[J]. 地理空間信息, 2005, 3(4): 1-3, 3-5.
[8] 周成虎, 歐陽, 馬廷. 地理格網(wǎng)模型研究進展[J]. 地理科學(xué)進展, 2009, 28(5): 657-662.
[9] 趙學(xué)勝. 基于QTM的球面Voronoi數(shù)據(jù)模型[M]. 北京: 測繪出版社, 2004.
[10] 趙學(xué)勝, 侯妙樂, 白建軍. 全球離散格網(wǎng)的空間數(shù)字建模[M]. 北京: 測繪出版社, 2007.
[11] 張永生, 賁進, 童曉沖. 地球空間信息球面離散網(wǎng)格—理論、算法及應(yīng)用[M]. 北京: 科學(xué)出版社, 2007.
[12] Tong X C, Ben J, Wang Y, et al. Efficient encoding and spatial operation scheme for aperture 4 hexagonal discrete global grid system[J]. International Journal of Geographical Information Science, 2013, 27(5): 898-921.
[13] 程承旗, 關(guān)麗. 基于地圖分幅拓展的全球剖分模型及其地址編碼研究[J]. 測繪學(xué)報, 2010, 39(3): 295-302.
[14] 程承旗, 任伏虎, 濮國梁, 等. 空間信息剖分組織導(dǎo)論[M]. 北京: 科學(xué)出版社, 2012.
[15] 宋樹華, 程承旗, 濮國梁, 等. 全球遙感數(shù)據(jù)剖分組織的GeoSOT網(wǎng)格應(yīng)用[J]. 測繪學(xué)報, 2014, 43(8): 869-876.
[16] 程承旗, 郭輝. 基于剖分?jǐn)?shù)據(jù)模型的影像信息表達研究[J]. 測繪通報, 2009, (10): 12-14, 17-17.
[17] 程承旗, 童曉沖, 翟衛(wèi)欣. 一種基于地球空間立體剖分的空間目標(biāo)索引方法: 中國, CN201410374109.1[P]. 2014-11-26.
Some Thoughts on Establishing the Organization Standard of Environmental Big Data Grid in China
Cheng Chengqi1*, Tong Xiaochong2, Chen Bo1
(1. Institute for Aeronautics and Astronautics Information Engineering, Peking University, Beijing 100871; 2. Institute of Surveying and Mapping, Information Engineering University, Zhengzhou 450001)
Abstract:Environmental application is a typical multi-industrial and types integrated services application of big data. Currently, there are dozens of environmental application data types in China, which comes from different data production departments. And their organization management methods, standards and reference systems are not the same either. This phenomenon challenges the environmental big data’s fast formation and integrated applications. In this paper, we fi rstly discussed the defi nition and different demands of environmental big data, and then detailed the necessity and superiority of developing the national environmental big data organization standard in the light of present technology at home and abroad. Based on the the oretical research of National 973 Project, a standard frame and application methods of the national organization standard was proposed for the trinity of space, sky and earth environmental big data. On account of the grid frame, this paper also studied the environmental big data formation mechanism, application thoughts, key technology and application methods. Considered the current status of the environmental big data and information technology, some proposals for establishing the standard based on the global subdivision grid we re put forward at last.
Keywords:environmental big data; subdivision grid; grid coding; organization standard
中圖分類號:P208
文獻標(biāo)識碼:A
文章編號:1674-6252(2015)06-0031-07
基金項目:國家973項目(61399):全球空天信息剖分組織機理與應(yīng)用方法研究,國家自然科學(xué)基金項目(41201392):全球六邊形離散格網(wǎng)上的空間度量與誤差分析。
*責(zé)任作者: 程承旗(1961—),理學(xué)博士,北京大學(xué)工學(xué)院教授,博士生導(dǎo)師,主要研究方向為遙感與地理信息系統(tǒng)、地球剖分組織理論、衛(wèi)星導(dǎo)航應(yīng)用等。