盧彥科 張偉
(1.河南省自然資源綜合保障中心,河南 鄭州 450016;2.河南省政務(wù)大數(shù)據(jù)中心,河南 鄭州 450016)
隨著自然資源業(yè)務(wù)現(xiàn)代化建設(shè)的深入,自然資源已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,主要表現(xiàn)在數(shù)據(jù)體量大,數(shù)據(jù)呈爆發(fā)式增長(zhǎng),不斷增加的數(shù)據(jù)量要求存儲(chǔ)支持動(dòng)態(tài)擴(kuò)展;數(shù)據(jù)種類繁多,包括基礎(chǔ)地理數(shù)據(jù)、遙感影像數(shù)據(jù)、土地?cái)?shù)據(jù)、礦權(quán)數(shù)據(jù)、地災(zāi)數(shù)據(jù)、地質(zhì)環(huán)境數(shù)據(jù)等;數(shù)據(jù)的產(chǎn)生和處理速度要求快,能夠從大量數(shù)據(jù)中快速獲取有效信息是自然資源業(yè)務(wù)的迫切要求。傳統(tǒng)的數(shù)據(jù)庫(kù)已經(jīng)無(wú)法滿足需求,數(shù)據(jù)云存儲(chǔ)技術(shù)通過(guò)其分布式存儲(chǔ)和并行化處理海量數(shù)據(jù)的能力,為自然資源海量數(shù)據(jù)的存儲(chǔ)和處理提供了良好支撐。本文結(jié)合河南省國(guó)土空間基礎(chǔ)信息平臺(tái)的“一張圖”對(duì)數(shù)據(jù)存儲(chǔ)及應(yīng)用的要求,對(duì)數(shù)據(jù)云存儲(chǔ)技術(shù)進(jìn)行研究和探索,用以提升自然資源數(shù)據(jù)的存儲(chǔ)、檢索、分析性能,為實(shí)現(xiàn)自然資源工作的信息化快速發(fā)展提供保障。
大數(shù)據(jù)處理的關(guān)鍵技術(shù)基本分為大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)與管理、大數(shù)據(jù)統(tǒng)計(jì)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)5 個(gè)步驟。在大數(shù)據(jù)環(huán)境下實(shí)現(xiàn)地址數(shù)據(jù)的采集、存儲(chǔ)、管理、共享、應(yīng)用,其核心主要是明確自然資源數(shù)據(jù)的存儲(chǔ)類型,以便選擇相應(yīng)的數(shù)據(jù)庫(kù)存儲(chǔ)模式。同時(shí),解決自然資源數(shù)據(jù)的分布式存儲(chǔ)與并行計(jì)算。大數(shù)據(jù)處理的關(guān)鍵技術(shù)如表1 所示。
表1 大數(shù)據(jù)處理的關(guān)鍵技術(shù)
研究自然資源大數(shù)據(jù),就是充分利用數(shù)字化自然資源數(shù)據(jù),以大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)為指導(dǎo),深入挖掘自然資源信息,在數(shù)據(jù)采集、數(shù)據(jù)整合、信息提取和數(shù)據(jù)分析等方面開(kāi)展相關(guān)技術(shù)研發(fā)和應(yīng)用。
河南省自然資源數(shù)據(jù)目前已涵蓋全省測(cè)繪、地政、礦政、地質(zhì)環(huán)境等4 大類、27 個(gè)專題、3243 個(gè)數(shù)據(jù)集、36818 個(gè)圖層,數(shù)據(jù)總量達(dá)40TB。這些數(shù)據(jù)來(lái)自全省各級(jí)自然資源管理相關(guān)部門(mén)及其相關(guān)單位不同領(lǐng)域,其中現(xiàn)狀類、規(guī)劃類數(shù)據(jù)要通過(guò)逐級(jí)匯交方式實(shí)現(xiàn)數(shù)據(jù)匯聚,數(shù)據(jù)在本地存儲(chǔ);自然資源管理類數(shù)據(jù)通過(guò)實(shí)時(shí)備案、在線業(yè)務(wù)協(xié)同等方式實(shí)現(xiàn)數(shù)據(jù)匯聚;其他行業(yè)數(shù)據(jù)通過(guò)交換、協(xié)議、共享等方式實(shí)現(xiàn)數(shù)據(jù)匯聚;互聯(lián)網(wǎng)類等數(shù)據(jù)通過(guò)網(wǎng)上接口、下載等方式實(shí)現(xiàn)數(shù)據(jù)匯聚;離線匯交、在線調(diào)用、服務(wù)接入多種方式共用,保障數(shù)據(jù)同步與更新??紤]到自然資源數(shù)據(jù)自身的特點(diǎn)以及能夠被快速訪問(wèn)的需求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)在小規(guī)模數(shù)據(jù)量時(shí)可以達(dá)到很好的效應(yīng)。但隨著數(shù)據(jù)量與應(yīng)用范圍的增加,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)性能會(huì)快速下降。因此,數(shù)據(jù)分布式存儲(chǔ)是必然的選擇。
云數(shù)據(jù)存儲(chǔ)技術(shù)的出現(xiàn),憑借其分布式存儲(chǔ)和并行化處理海量數(shù)據(jù)的能力,為自然資源海量空間數(shù)據(jù)的存儲(chǔ)與處理提供了解決方案。
河南省國(guó)土空間基礎(chǔ)信息平臺(tái)的“一張圖”通過(guò)GIS 數(shù)據(jù)中心集成開(kāi)發(fā)、網(wǎng)絡(luò)通信以及信息化技術(shù),建設(shè)自然資源云存儲(chǔ)管理系統(tǒng),實(shí)現(xiàn)體系內(nèi)的國(guó)土空間基礎(chǔ)信息縱橫聯(lián)通、共建共享、深度融合。
河南省自然資源三維立體資源“一張圖”基于虛擬化、云計(jì)算、多租戶等技術(shù)建設(shè),實(shí)現(xiàn)參建體系內(nèi)的河南省國(guó)土空間基礎(chǔ)信息縱橫聯(lián)通、共建共享、深度融合,呈現(xiàn)統(tǒng)一基礎(chǔ)架構(gòu)的云資源。各級(jí)用戶實(shí)體以虛擬資源,而不是物理設(shè)備方式獲得可用資源,并能夠?qū)⑷〉玫奶摂M資源根據(jù)需求搭建虛擬業(yè)務(wù)系統(tǒng)及數(shù)據(jù)庫(kù),相對(duì)獨(dú)立地在權(quán)限范圍內(nèi)運(yùn)維管理,實(shí)現(xiàn)按需分配的自然資源云服務(wù)?;谠品植际酱鎯?chǔ)技術(shù)的數(shù)據(jù)庫(kù)存儲(chǔ)解決海量自然資源數(shù)據(jù)存儲(chǔ)和大規(guī)模數(shù)據(jù)處理問(wèn)題,提高用戶的訪問(wèn)效率。云存儲(chǔ)平臺(tái)整體架構(gòu)可以劃分為四個(gè)層次:數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)管理層、數(shù)據(jù)服務(wù)層與用戶訪問(wèn)層,如圖1 所示。
圖1 云存儲(chǔ)平臺(tái)架構(gòu)設(shè)計(jì)
(1)數(shù)據(jù)存儲(chǔ)層
數(shù)據(jù)存儲(chǔ)層是云存儲(chǔ)系統(tǒng)的最基礎(chǔ)部分,由存儲(chǔ)協(xié)議(滿足FC 協(xié)議、iSCSI 協(xié)議、NAS 協(xié)議等)構(gòu)成,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理。它主要包括計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源以及安全設(shè)備等。各種類型的數(shù)據(jù)統(tǒng)一存放在存儲(chǔ)系統(tǒng)中,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理。
弓閑置不用時(shí)會(huì)松弛,弓的強(qiáng)度減弱,弓輔就是用來(lái)固定弓的形狀使弓不變形,保持弓的彎度強(qiáng)度,所以可引申出安定的意義。
(2)數(shù)據(jù)管理層
數(shù)據(jù)管理層是云存儲(chǔ)系統(tǒng)的核心,也是云存儲(chǔ)中最難以實(shí)現(xiàn)的部分,主要包括大規(guī)模的分布式計(jì)算系統(tǒng),擔(dān)負(fù)著管理集群系統(tǒng)資源及資源的虛擬化、控制分布式程序運(yùn)行、數(shù)據(jù)加密,分發(fā)以及容災(zāi)備份等工作。數(shù)據(jù)管理層可實(shí)現(xiàn)空間大數(shù)據(jù)的快速存取與高效計(jì)算,滿足空間時(shí)空信息瀏覽、高效分析處理與應(yīng)用的需要。
(3)數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層是采用云分布式服務(wù)技術(shù),根據(jù)不同的用戶,開(kāi)發(fā)出不同的應(yīng)用服務(wù)接口,并提供相應(yīng)服務(wù),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的存儲(chǔ)共享、查詢及處理服務(wù)。
(4)用戶訪問(wèn)層
用戶訪問(wèn)層通過(guò)授權(quán)、認(rèn)證等機(jī)制使用戶登錄、享受特定權(quán)限范圍內(nèi)的云服務(wù)。該層具體包括一些數(shù)據(jù)搜索服務(wù)、地圖操作以及其他第三方服務(wù)。
河南省自然數(shù)據(jù)縱向貫穿省、市、縣三級(jí),按照數(shù)據(jù)類型分為現(xiàn)狀數(shù)據(jù)、規(guī)劃管控?cái)?shù)據(jù)、管理數(shù)據(jù)、社會(huì)經(jīng)濟(jì)數(shù)據(jù),其中現(xiàn)狀數(shù)據(jù)包含基礎(chǔ)地理、遙感影像、土地利用現(xiàn)狀、礦產(chǎn)資源、三維數(shù)據(jù)等,為掌握國(guó)土空間的真實(shí)現(xiàn)狀和國(guó)土空間的開(kāi)發(fā)利用與變化狀況提供數(shù)據(jù)基礎(chǔ);規(guī)劃管控?cái)?shù)據(jù)包含基本農(nóng)田保護(hù)紅線、生態(tài)保護(hù)紅線、城鄉(xiāng)規(guī)劃、土地規(guī)劃、控制性詳細(xì)規(guī)劃、交通規(guī)劃等專項(xiàng)規(guī)劃,為行政審批和國(guó)土空間規(guī)劃編制提供管控?cái)?shù)據(jù)依據(jù);管理數(shù)據(jù)是行政審批過(guò)程中產(chǎn)生的數(shù)據(jù),包含地政管理數(shù)據(jù)、測(cè)繪管理數(shù)據(jù)等,為實(shí)施批后監(jiān)管提供數(shù)據(jù)基礎(chǔ);社會(huì)經(jīng)濟(jì)數(shù)據(jù)包含宏觀經(jīng)濟(jì)、人口數(shù)量、消費(fèi)物價(jià)指數(shù)、社會(huì)輿情等,為了解經(jīng)濟(jì)、社會(huì)運(yùn)行情況提供數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)資源分類體系結(jié)構(gòu)如圖2 所示。
圖2 自然資源數(shù)據(jù)體系
要將這些數(shù)據(jù)標(biāo)準(zhǔn)、模型、格式、精度、存儲(chǔ)形態(tài)等差異甚大的各類數(shù)據(jù)集成到自然資源“一張圖”數(shù)據(jù)庫(kù)中,需要建立一套統(tǒng)一的數(shù)據(jù)格式和標(biāo)準(zhǔn),使各類數(shù)據(jù)能夠在統(tǒng)一空間基準(zhǔn)下進(jìn)行空間定位、相互疊加和套合。“一張圖”數(shù)據(jù)庫(kù)根據(jù)數(shù)據(jù)結(jié)構(gòu)的差異,將結(jié)構(gòu)化離散數(shù)據(jù)和非結(jié)構(gòu)化網(wǎng)格數(shù)據(jù)、柵格數(shù)據(jù)的信息數(shù)據(jù)進(jìn)行統(tǒng)一格式和標(biāo)準(zhǔn),導(dǎo)入分布式文件系統(tǒng)HDFS 中,非結(jié)構(gòu)化數(shù)據(jù)在分布式文件系統(tǒng)中按照特定的約定方式被提取出來(lái),并存放到HBase 構(gòu)建的內(nèi)容庫(kù)中,結(jié)構(gòu)化數(shù)據(jù)被發(fā)布到GIS 服務(wù)集群中,便于數(shù)據(jù)管理的提取和訪問(wèn)[2,3],以此模式形成全省覆蓋、內(nèi)容完整、準(zhǔn)確權(quán)威、動(dòng)態(tài)鮮活的統(tǒng)一國(guó)土空間基礎(chǔ)數(shù)據(jù)資源。
河南省國(guó)土空間基礎(chǔ)信息平臺(tái)的“一張圖”以二、三維一體化GIS 技術(shù)為基礎(chǔ)框架,在組織和關(guān)系上進(jìn)行優(yōu)化設(shè)計(jì),支持分布式的數(shù)據(jù)存儲(chǔ),使得數(shù)據(jù)可存儲(chǔ)在不同的物理位置,在數(shù)據(jù)管理平臺(tái)中,將三維同現(xiàn)狀、規(guī)劃、管理、社會(huì)經(jīng)濟(jì)等業(yè)務(wù)要素相結(jié)合,以邏輯統(tǒng)一的方式進(jìn)行數(shù)據(jù)信息的展示,形成自然資源三維立體“一張圖”,如圖3 所示。
圖3 三維立體自然資源“一張圖”
“一張圖”數(shù)據(jù)存儲(chǔ)充分考慮數(shù)據(jù)庫(kù)與業(yè)務(wù)庫(kù)之間關(guān)系,采用了數(shù)據(jù)庫(kù)與業(yè)務(wù)庫(kù)隔離、省及各地市數(shù)據(jù)庫(kù)松耦合的方式,獨(dú)立存儲(chǔ)。同時(shí)根據(jù)存儲(chǔ)數(shù)據(jù)類型的不同,從確保數(shù)據(jù)穩(wěn)定可靠、擴(kuò)展性強(qiáng)、安全性強(qiáng)等角度考慮,分別選用國(guó)產(chǎn)關(guān)系型數(shù)據(jù)庫(kù)、Elasticsearch、非關(guān)系型數(shù)據(jù)庫(kù)、HDFS 以及HBase數(shù)據(jù)庫(kù)進(jìn)行物理數(shù)據(jù)庫(kù)搭建。
按數(shù)據(jù)類型定義數(shù)據(jù)存儲(chǔ)方案,每個(gè)數(shù)據(jù)類型可自行定義數(shù)據(jù)存儲(chǔ)位置,一旦有新的數(shù)據(jù)類型需要納入管理,“一張圖”數(shù)據(jù)庫(kù)依據(jù)數(shù)據(jù)結(jié)構(gòu)的差異,按照現(xiàn)有的統(tǒng)一格式和標(biāo)準(zhǔn),分類別進(jìn)行結(jié)構(gòu)化和非結(jié)構(gòu)化存儲(chǔ)和管理,導(dǎo)入分布式文件系統(tǒng)HDFS 中,做到不同類別數(shù)據(jù)完全隔離,互不影響。
云數(shù)據(jù)庫(kù)是被優(yōu)化或部署到虛擬計(jì)算環(huán)境中的數(shù)據(jù)庫(kù),在云數(shù)據(jù)庫(kù)應(yīng)用中,客戶端無(wú)需了解數(shù)據(jù)庫(kù)的底層細(xì)節(jié),底層硬件都已經(jīng)被虛擬化[4]。對(duì)用戶來(lái)說(shuō),云數(shù)據(jù)庫(kù)就像運(yùn)行在單一服務(wù)器上的數(shù)據(jù)庫(kù)一樣,但數(shù)據(jù)的存儲(chǔ)、處理能力與傳統(tǒng)意義上的數(shù)據(jù)庫(kù)相比有了質(zhì)的飛躍[5,6]。
考慮到自然資源數(shù)據(jù)自身的特點(diǎn)以及能夠被快速訪問(wèn)的需求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)在小規(guī)模數(shù)據(jù)量時(shí)可以達(dá)到很好的效應(yīng),但隨著數(shù)據(jù)量與應(yīng)用范圍的增加,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)性能會(huì)快速下降,因此,多類型、數(shù)據(jù)分布式存儲(chǔ)是必然的選擇。
選擇自主可控、國(guó)產(chǎn)化核心技術(shù),通過(guò)整合人工智能技術(shù),實(shí)現(xiàn)數(shù)據(jù)庫(kù)的自我檢測(cè)、自主運(yùn)維,在降低數(shù)據(jù)庫(kù)運(yùn)維成本的同時(shí),提高計(jì)算能力,使數(shù)據(jù)庫(kù)獲得更快的響應(yīng)速度。SuperMap GIS 系列產(chǎn)品與其需無(wú)縫對(duì)接,將人工智能技術(shù)融入分布式數(shù)據(jù)庫(kù),實(shí)現(xiàn)了大數(shù)據(jù)空間查詢與分析從性能到算力的全方位優(yōu)化,主要存儲(chǔ)現(xiàn)狀類、管理類、綜合分析類等結(jié)構(gòu)化數(shù)據(jù)。
非關(guān)系型數(shù)據(jù)庫(kù)即NoSQL 數(shù)據(jù)庫(kù),以塊為單元操作數(shù)據(jù),使用非結(jié)構(gòu)化查詢語(yǔ)言(UNQL)。NoSQL 數(shù)據(jù)庫(kù)采用了鍵值(Key-Value)存儲(chǔ)模式[7],該結(jié)構(gòu)主要分為主鍵、屬性和值三部分,基于值存儲(chǔ)的數(shù)據(jù)相對(duì)較大的特點(diǎn)就是對(duì)數(shù)據(jù)進(jìn)行切分與壓縮的技術(shù)處理后,按照特定的約定方式被提取出來(lái),并存放到HBase構(gòu)建的內(nèi)容庫(kù)中,可以大幅提升數(shù)據(jù)傳輸能力[8],同樣也是因?yàn)榛阪I值對(duì),數(shù)據(jù)之間沒(méi)有耦合性,所以非常容易水平擴(kuò)展。該數(shù)據(jù)庫(kù)主要存儲(chǔ)平臺(tái)運(yùn)行日志、三維地圖緩存數(shù)據(jù)等事務(wù)性不強(qiáng)、數(shù)據(jù)模型比較簡(jiǎn)單的數(shù)據(jù)類型。
ElasticSearch 是一個(gè)分布式可擴(kuò)展的實(shí)時(shí)搜索和分析引擎,一個(gè)建立在全文搜索引擎 Apache Lucene(TM)基礎(chǔ)上的搜索引擎。ElasticSearch 不僅包括了全文搜索功能,還可以進(jìn)行分布式實(shí)時(shí)文件存儲(chǔ),并將每一個(gè)字段都編入索引,使其可以被搜索。實(shí)時(shí)分析的分布式搜索引擎,可以擴(kuò)展到上百臺(tái)服務(wù)器,處理PB 級(jí)別的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),主要存儲(chǔ)社會(huì)經(jīng)濟(jì)數(shù)據(jù)中實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)。
HDFS(Hadoop Distributed File System) 是Hadoop 分布式系統(tǒng)體系結(jié)構(gòu)中的核心,主要實(shí)現(xiàn)了分布式文件系統(tǒng)。HDFS 在處理超大文件上非常有優(yōu)勢(shì),而且支持流式的訪問(wèn)數(shù)據(jù),它的設(shè)計(jì)建立在“一次寫(xiě)入、多次讀取”任務(wù)的基礎(chǔ)上。HDFS 中,一個(gè)數(shù)據(jù)集如果由數(shù)據(jù)源生成,就會(huì)被復(fù)制分發(fā)到不同的存儲(chǔ)節(jié)點(diǎn)中,響應(yīng)不同的數(shù)據(jù)請(qǐng)求,主要存儲(chǔ)現(xiàn)狀數(shù)據(jù)中海量影像以及文本數(shù)據(jù)。
HBase(Hadoop database)是一種構(gòu)建在HDFS 之上的分布式、面向列和提供高可靠性、高性能、可伸縮、實(shí)時(shí)讀寫(xiě)的開(kāi)源數(shù)據(jù)庫(kù)系統(tǒng),適用于需要實(shí)時(shí)讀寫(xiě)、隨機(jī)訪問(wèn)超大規(guī)模數(shù)據(jù)的場(chǎng)景。HBase 是分布式空間數(shù)據(jù)存儲(chǔ)和管理首選,既能支持多種數(shù)據(jù)格式的存儲(chǔ),包括柵格數(shù)據(jù)(如GeoTIFF)、矢量數(shù)據(jù)(如UDB/UDBX、Shapefile、GDB 等)和各種文件數(shù)據(jù),又具有較強(qiáng)的數(shù)據(jù)查詢與讀寫(xiě)能力,基于HBase 數(shù)據(jù)庫(kù)可以實(shí)現(xiàn)矢量數(shù)據(jù)15 億條線+28 億個(gè)面的迅速存儲(chǔ)與讀取,主要存儲(chǔ)海量矢量數(shù)據(jù)。
本文提出的理論與方法在河南省國(guó)土空間基礎(chǔ)信息平臺(tái)“一張圖”建設(shè)中得到了部分應(yīng)用,解決了超大規(guī)模海量自然資源數(shù)據(jù)存儲(chǔ)和實(shí)時(shí)更新的一些難題,為自然資源數(shù)據(jù)的高效存儲(chǔ)與實(shí)時(shí)共享提供了一定思路。河南省自然資源“一張圖”建設(shè)完成后,目前已覆蓋全省18 個(gè)市、100 多個(gè)縣的自然資源管理部門(mén)。
自然資源信息是重要的基礎(chǔ)國(guó)情,自然資源管理關(guān)系國(guó)計(jì)民生,落實(shí)自然資源“兩統(tǒng)一”職責(zé),全面深化“放管服”改革,必須依靠信息化的引導(dǎo)和驅(qū)動(dòng),自然資源海量數(shù)據(jù)存儲(chǔ)管理又是自然資源信息化的關(guān)鍵,因此研究云存儲(chǔ)技術(shù)在自然資源數(shù)據(jù)存儲(chǔ)中的應(yīng)用,提高自然資源信息化管理和應(yīng)用水平是自然資源信息化事業(yè)發(fā)展的必然要求。