楊學(xué)軍++夏正清
作者簡(jiǎn)介:(1971—),男,工程師,主要從事測(cè)量工程、地理信息系統(tǒng)等相關(guān)工作與研究。
摘要:當(dāng)前,我省正全面推進(jìn)各行業(yè)的大數(shù)據(jù)系統(tǒng)建設(shè),旨在打造西南地區(qū)大數(shù)據(jù)中心。本文在此背景下,探討了我省測(cè)繪地理信息大數(shù)據(jù)的現(xiàn)狀,簡(jiǎn)要闡述了我省測(cè)繪地理信息大數(shù)據(jù)建設(shè)的目標(biāo)和原則,并概略講述了測(cè)繪地理信息大數(shù)據(jù)系統(tǒng)的設(shè)計(jì)目標(biāo)進(jìn)行闡述,對(duì)該系統(tǒng)的邏輯架構(gòu)進(jìn)行了討論。通過建設(shè)本省測(cè)繪地理信息大數(shù)據(jù)系統(tǒng),可為全省綜合大數(shù)據(jù)庫(kù)系統(tǒng)的建設(shè)提供技術(shù)積累和數(shù)據(jù)積累;也使我省測(cè)繪地理信息數(shù)據(jù)這一重要“金礦”得到充分的挖掘與應(yīng)用,從而也帶動(dòng)了我省測(cè)繪地理信息產(chǎn)業(yè)的跨越式發(fā)展。
關(guān)鍵字:測(cè)繪地理信息 大數(shù)據(jù) 系統(tǒng)設(shè)計(jì) 大數(shù)據(jù)系統(tǒng)
中圖分類號(hào): P208 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-3791(2015)01(c)0000-00
2014年3月1日在北京中關(guān)村舉行的貴州· 北京大數(shù)據(jù)產(chǎn)業(yè)推介會(huì)上,貴州省省長(zhǎng)陳敏爾說到:“大數(shù)據(jù)是大產(chǎn)業(yè)、大紅利、大變革、大機(jī)遇,貴州省委、省政府高度重視大數(shù)據(jù)發(fā)展,將大數(shù)據(jù)作為全省產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的戰(zhàn)略重點(diǎn)之一,促進(jìn)就業(yè)增長(zhǎng)、形成新的經(jīng)濟(jì)增長(zhǎng)極”[1]。中國(guó)移動(dòng)、中國(guó)聯(lián)通和中國(guó)電信將投資150億元在貴安新區(qū)建立云計(jì)算基地,總規(guī)模將超過10萬個(gè)機(jī)柜、200萬臺(tái)服務(wù)器[2]。在這樣一個(gè)機(jī)遇與挑戰(zhàn)并存的時(shí)代下,作為測(cè)繪地理信息產(chǎn)業(yè)如何在大數(shù)據(jù)產(chǎn)業(yè)中發(fā)揮效益是當(dāng)代測(cè)繪人應(yīng)該思考一個(gè)重要內(nèi)容。
測(cè)繪地理信息部門提供了用于各種工程建設(shè)的基礎(chǔ)資料,如1:5萬及1:1萬基礎(chǔ)地理信息數(shù)據(jù)、大比例尺地形圖;今年全省又在開展地理國(guó)情普查,這項(xiàng)工作將產(chǎn)生更多的數(shù)據(jù),如覆蓋全省的0.5米分辨率衛(wèi)星影像、部分地區(qū)0.2米航空影像、各行業(yè)的專題數(shù)據(jù)等。如何充分利用和挖掘這些數(shù)據(jù)是測(cè)繪地理信息部門未來發(fā)展的關(guān)鍵,今后測(cè)繪地理信息部門將在不斷更新現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,加強(qiáng)大數(shù)據(jù)的開發(fā)與應(yīng)用。
1 測(cè)繪地理信息大數(shù)據(jù)現(xiàn)狀
1.1 大數(shù)據(jù)概念
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過現(xiàn)有主流軟件工具在合理時(shí)間內(nèi)達(dá)到收集、管理、處理,并整理為幫助決策層提供積極的信息[3]。
1.2 測(cè)繪地理信息大數(shù)據(jù)來源
對(duì)于測(cè)繪地理信息大數(shù)據(jù)有以下三種來源:互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、各種測(cè)繪成果。
互聯(lián)網(wǎng)數(shù)據(jù)主要來自于數(shù)字城市項(xiàng)目中公眾服務(wù)平臺(tái)產(chǎn)生的各種數(shù)據(jù),如日志、留言、圖片標(biāo)注等非結(jié)構(gòu)化的數(shù)據(jù);
物聯(lián)網(wǎng)主要來自于具有信息采集功能的電子設(shè)備所產(chǎn)生的數(shù)據(jù),如CORS(連續(xù)運(yùn)行衛(wèi)星定位服務(wù)綜合系統(tǒng))系統(tǒng)提供的定位數(shù)據(jù)、遙感衛(wèi)星提供的影像數(shù)據(jù)、測(cè)量機(jī)器人或各類監(jiān)測(cè)設(shè)備提供的監(jiān)測(cè)數(shù)據(jù),物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)可以是非結(jié)構(gòu)化的、也可以使半結(jié)構(gòu)化的,其數(shù)據(jù)量龐大、且其價(jià)值密度低,如何存儲(chǔ)和快速處理這些數(shù)據(jù)是目前面臨的挑戰(zhàn);
各種測(cè)繪成果主要指基礎(chǔ)測(cè)繪成果和其它測(cè)繪成果。基礎(chǔ)測(cè)繪成果為1:5萬和1:1萬的3D產(chǎn)品(即DOM、DEM、DLG),這是測(cè)繪地理信息管理部門最為重要,也是較難獲取的數(shù)據(jù),這些數(shù)據(jù)大都為結(jié)構(gòu)化的數(shù)據(jù),隨著更新周期的頻繁其數(shù)據(jù)量也在不斷增大。貴州省現(xiàn)有6000余幅1萬圖幅和400余幅5萬圖幅,按照每幅3D產(chǎn)品數(shù)據(jù)量平均200MB來計(jì)算,現(xiàn)有基礎(chǔ)測(cè)繪資料也有1.3TB。其它測(cè)繪成果包括如大比例尺地形圖、地理國(guó)情普查數(shù)據(jù)、地籍圖等。
隨著測(cè)繪技術(shù)手段不斷創(chuàng)新,利用高分辨率航片生產(chǎn)不同比例尺的基礎(chǔ)測(cè)繪成果已稱為必然,但這伴隨而來的是海量航片數(shù)據(jù)的存儲(chǔ)與快速加工,這將是測(cè)繪地理信息大數(shù)據(jù)的有一重要來源,也勢(shì)必會(huì)帶動(dòng)我省測(cè)繪地理信息大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。
1.3 測(cè)繪地理信息大數(shù)據(jù)的特征[3][4]
測(cè)繪地理信息大數(shù)據(jù)和其它大數(shù)據(jù)一樣,除具有數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜、數(shù)據(jù)種類多等共有特性外,與其它大數(shù)據(jù)最本質(zhì)的區(qū)別就是其具有空間信息,而其它大數(shù)據(jù)僅有屬性信息,數(shù)據(jù)的處理就沒有測(cè)繪地理信息大數(shù)據(jù)那么復(fù)雜。
1.3.1 數(shù)據(jù)量大(Volume)
通過1.2中的分析可以看出,測(cè)繪地理信息大數(shù)據(jù)既有柵格數(shù)據(jù)、也有矢量數(shù)據(jù)、還有多媒體數(shù)據(jù),特別是定期或不定期的航拍形成的高分辨率航空影像,目前1000KM2的數(shù)據(jù)量就可達(dá)1TB。如定期更新,歷史數(shù)據(jù)與現(xiàn)有數(shù)據(jù)共同存儲(chǔ),數(shù)據(jù)量將可達(dá)PB、甚至EB級(jí)別。
1.3.2 數(shù)據(jù)多樣化(Variety)
有以關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù),此類數(shù)據(jù)在大數(shù)據(jù)類型中定義為結(jié)構(gòu)化數(shù)據(jù),如全國(guó)第二次土地調(diào)查數(shù)據(jù)庫(kù)、全國(guó)礦業(yè)權(quán)核查數(shù)據(jù)庫(kù)、全國(guó)地理國(guó)情普查數(shù)據(jù)庫(kù)等;有半結(jié)構(gòu)化的數(shù)據(jù),如CORS系統(tǒng)產(chǎn)生數(shù)據(jù)、基于位置的服務(wù)(LBS)產(chǎn)生的數(shù)據(jù)、各類監(jiān)測(cè)傳感器傳回的數(shù)據(jù)等;有非結(jié)構(gòu)化的數(shù)據(jù),如原始航空影像、在公眾服務(wù)系統(tǒng)中產(chǎn)生的日志、文字等。
1.3.3 數(shù)據(jù)高速更新(Velocity)
作為衛(wèi)星影像獲取平臺(tái),QuickBird可1-6天就可更新當(dāng)前地點(diǎn)的影像,WorldView2為1-3天;作為航空影像獲取平臺(tái),可根據(jù)用戶需求,數(shù)小時(shí)就可更新;數(shù)據(jù)高速更新的同時(shí)勢(shì)必帶動(dòng)數(shù)據(jù)的高速處理,這將與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有本質(zhì)不同。
1.3.4 低密度(Veracity)
在大量的數(shù)據(jù)中,有價(jià)值的信息是很少的,這些有用信息是通過分析處理才能發(fā)現(xiàn)的,雖然價(jià)值密度低,但其體檢的價(jià)值極高,如用衛(wèi)片進(jìn)行土地執(zhí)法,一景數(shù)百平方公里的影像中僅能提供幾平方公里或更少的圖斑數(shù)據(jù)。
1.4 我省測(cè)繪地理信息大數(shù)據(jù)現(xiàn)狀
隨著數(shù)字城市在我省陸續(xù)開始建設(shè),CORS系統(tǒng)的穩(wěn)步推進(jìn),地理國(guó)情普查及監(jiān)測(cè)項(xiàng)目的開展,基礎(chǔ)測(cè)繪的定期更新,全省高分辨率航空影像的覆蓋,測(cè)繪地理信息大數(shù)據(jù)在我省已經(jīng)稱為重要的大數(shù)據(jù)組成部分。
現(xiàn)在我省測(cè)繪地理管理部門面臨最大的困難就是日益增長(zhǎng)的數(shù)據(jù)量與數(shù)據(jù)處理及應(yīng)用速度跟不上的矛盾,一方面全省每天都有新的數(shù)據(jù)產(chǎn)生,另一方面我們還在使用幾年前的數(shù)據(jù)。這就是我省如今測(cè)繪地理信息大數(shù)據(jù)的現(xiàn)狀,建設(shè)本省測(cè)繪地理信息大數(shù)據(jù)系統(tǒng)既符合行業(yè)發(fā)展需求,也符合省政府將貴州省打造為全國(guó)數(shù)據(jù)中心的戰(zhàn)略目標(biāo)。
2 測(cè)繪地理信息大數(shù)據(jù)系統(tǒng)設(shè)計(jì)
2.1 概念
測(cè)繪地理信息大數(shù)據(jù)系統(tǒng)就是將所有測(cè)繪地理信息大數(shù)據(jù)聚集起來,加以綜合分析和處理,挖掘出對(duì)大眾及政府關(guān)注的有價(jià)值信息,以供人們了解過去與現(xiàn)在,并能預(yù)測(cè)未來變化趨勢(shì)的系統(tǒng)。主要由以下幾個(gè)部分組成:大數(shù)據(jù)、集群計(jì)算機(jī)、分布式數(shù)據(jù)庫(kù)、分布式文件系統(tǒng)、高速網(wǎng)絡(luò)、用戶。
2.2 與現(xiàn)有系統(tǒng)的關(guān)系
現(xiàn)有系統(tǒng)指不同大數(shù)據(jù)系統(tǒng)的系統(tǒng),如OA辦公系統(tǒng)、各種管理系統(tǒng)、公眾服務(wù)平臺(tái)等。
大數(shù)據(jù)系統(tǒng)與現(xiàn)有系統(tǒng)的關(guān)系有:
1、協(xié)同關(guān)系
現(xiàn)有系統(tǒng)為大數(shù)據(jù)系統(tǒng)提供結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),沒有這些數(shù)據(jù)的支撐,大數(shù)據(jù)系統(tǒng)就是個(gè)空殼。
2、依賴關(guān)系
現(xiàn)有系統(tǒng)目前對(duì)某個(gè)小領(lǐng)域內(nèi)的數(shù)據(jù)還算得心應(yīng)手,但對(duì)大數(shù)據(jù)確是無力應(yīng)對(duì),所以現(xiàn)有系統(tǒng)需要大數(shù)據(jù)系統(tǒng)的支持,以最大效益化地挖掘和利用各種數(shù)據(jù)。
3、并列關(guān)系
就目前而言,現(xiàn)有系統(tǒng)提供了大數(shù)據(jù)所需的各種數(shù)據(jù),大數(shù)據(jù)基于這些數(shù)據(jù)進(jìn)行了有用信息的提取,兩者是并列關(guān)系,同時(shí)并存。
2.3 系統(tǒng)設(shè)計(jì)目標(biāo)和原則[3]
2.3.1 系統(tǒng)設(shè)計(jì)目標(biāo)
1、可以存儲(chǔ)海量數(shù)據(jù)
存儲(chǔ)海量數(shù)據(jù)主要有三個(gè)方面的內(nèi)容:首先是系統(tǒng)能夠存儲(chǔ)隨著時(shí)間變化不斷增長(zhǎng)的數(shù)據(jù);其次為系統(tǒng)能夠存儲(chǔ)各種不同結(jié)構(gòu)、不同格式的數(shù)據(jù);最后系統(tǒng)應(yīng)具有靈活性,即既可以存儲(chǔ)單個(gè)很小的數(shù)據(jù),也可以存儲(chǔ)單個(gè)很大的數(shù)據(jù)。
2、可以進(jìn)行高速處理
系統(tǒng)要保證數(shù)據(jù)量激增而不影響其處理速度,仍能夠滿足用戶對(duì)請(qǐng)求的響應(yīng)速度。
3、可快速開發(fā)出并行服務(wù)
系統(tǒng)應(yīng)提供并行服務(wù)的開發(fā)框架,讓開發(fā)人員能依此框架快速開發(fā)出面向大數(shù)據(jù)的程序代碼。
4、可運(yùn)行在計(jì)算機(jī)集群上
這是系統(tǒng)的重要目標(biāo),為了節(jié)約成本,提高效率,系統(tǒng)可以安裝并運(yùn)行在廉價(jià)的計(jì)算機(jī)上,并有管理協(xié)調(diào)數(shù)百萬臺(tái)計(jì)算機(jī)集群工作的功能。
5、有強(qiáng)大的空間數(shù)據(jù)處理能力
這是測(cè)繪地理信息大數(shù)據(jù)系統(tǒng)的獨(dú)有特征,系統(tǒng)能充分利用位置數(shù)據(jù)、路徑數(shù)據(jù)、屬性數(shù)據(jù)在三維空間進(jìn)行分析,以為用戶提供意想不到的信息。
2.3.2 系統(tǒng)建設(shè)原則
1、實(shí)用性
實(shí)用性體現(xiàn)在以下幾個(gè)方面:一是系統(tǒng)既可以滿足幾個(gè)節(jié)點(diǎn)構(gòu)成的小規(guī)模集群,也可以滿足上百萬個(gè)節(jié)點(diǎn)組成的大規(guī)模集群;二是系統(tǒng)必須支持多種協(xié)議格式,允許用戶基于這些協(xié)議與系統(tǒng)進(jìn)行交互;三是系統(tǒng)在一個(gè)節(jié)點(diǎn)上安裝后,可以快速將其復(fù)制到多個(gè)節(jié)點(diǎn)上。
2、可靠性
當(dāng)核心節(jié)點(diǎn)出現(xiàn)故障時(shí),系統(tǒng)能快速切換到備份節(jié)點(diǎn);當(dāng)計(jì)算節(jié)點(diǎn)出現(xiàn)故障,相應(yīng)的任務(wù)會(huì)自動(dòng)分發(fā)到鄰近節(jié)點(diǎn)上繼續(xù)處理,而不會(huì)對(duì)數(shù)據(jù)造成任何損失。
3、安全性
數(shù)據(jù)是整個(gè)系統(tǒng)的核心,安全性主要體現(xiàn)在兩個(gè)方面,一是節(jié)點(diǎn)故障不能造成數(shù)據(jù)破壞和損失;二是數(shù)據(jù)自生的防護(hù),系統(tǒng)應(yīng)有超強(qiáng)的防火墻,避免數(shù)據(jù)被非法獲取。
4、可擴(kuò)展性
系統(tǒng)應(yīng)支持熱插拔,主控節(jié)點(diǎn)可隨時(shí)感知節(jié)點(diǎn)的增加和減少,并做出重新分發(fā)任務(wù)的工作;節(jié)點(diǎn)的增加和減少應(yīng)不影響系統(tǒng)的可靠性和安全性。
5、完整性
系統(tǒng)應(yīng)具有數(shù)據(jù)采集、存儲(chǔ)、管理、分析、顯示等全生命周期的子系統(tǒng),能讓用戶基于該系統(tǒng)完成其應(yīng)用,而不在借助別的任何軟件或系統(tǒng)。
3 測(cè)繪地理信息大數(shù)據(jù)系統(tǒng)架構(gòu)
系統(tǒng)架構(gòu)的總體思想是“分層分域,主從模式”,具體的架構(gòu)邏輯圖見圖1。
圖1 測(cè)繪地理信息大數(shù)據(jù)系統(tǒng)邏輯架構(gòu)圖
Fig1. Surveying and mapping geographic information data system logic structure diagram
3.1 外部系統(tǒng)層
該層主要由現(xiàn)有系統(tǒng)組成,該層可為數(shù)據(jù)處理層提供數(shù)據(jù)輸入,也可使用數(shù)據(jù)處理層中的數(shù)據(jù)處理子系統(tǒng)處理大數(shù)據(jù)并使用數(shù)據(jù)顯示子系統(tǒng)顯示其處理結(jié)果。
3.2 數(shù)據(jù)處理層
數(shù)據(jù)處理層作為大數(shù)據(jù)處理系統(tǒng)的窗口,可喻為大數(shù)據(jù)系統(tǒng)的感官系統(tǒng),既能接收外部系統(tǒng)層提供的各種數(shù)據(jù)并顯示,也能接收數(shù)據(jù)分系層中對(duì)大數(shù)據(jù)進(jìn)行分析挖掘后的數(shù)據(jù)并顯示。數(shù)據(jù)采集系統(tǒng)完成將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的采集,并以分布式文件管理方式和分布式數(shù)據(jù)庫(kù)管理方式進(jìn)行存儲(chǔ);數(shù)據(jù)處理系統(tǒng)主要完成數(shù)據(jù)格式轉(zhuǎn)換、坐標(biāo)系統(tǒng)轉(zhuǎn)換等簡(jiǎn)單數(shù)據(jù)處理,以提供統(tǒng)一的大數(shù)據(jù)處理服務(wù),如需更多的數(shù)據(jù)處理功能,可將數(shù)據(jù)傳入數(shù)據(jù)分析層中進(jìn)行處理;數(shù)據(jù)顯示系統(tǒng)將數(shù)據(jù)處理系統(tǒng)的結(jié)果以頁面方式提供給外部系統(tǒng)層。
3.3 數(shù)據(jù)分析層
數(shù)據(jù)分析層是大數(shù)據(jù)處理的核心部分,可喻為大數(shù)據(jù)系統(tǒng)的大腦,它主要完成大數(shù)據(jù)的分析挖掘任務(wù),提供結(jié)果數(shù)據(jù)給數(shù)據(jù)顯示系統(tǒng)以便進(jìn)行結(jié)果輸出。數(shù)據(jù)管理系統(tǒng)旨在完成結(jié)構(gòu)化數(shù)據(jù)的各種分析和挖掘任務(wù);數(shù)據(jù)分析系統(tǒng)主要完成半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的分析和挖掘任務(wù);數(shù)據(jù)計(jì)算系統(tǒng)完成網(wǎng)絡(luò)分析、空間分析、位置分析等高級(jí)分析功能。
3.4 運(yùn)維管理層
該層是大數(shù)據(jù)系統(tǒng)的中樞神經(jīng),負(fù)責(zé)大數(shù)據(jù)系統(tǒng)各項(xiàng)任務(wù)的分配與協(xié)作,保證數(shù)據(jù)的可靠性、安全性與完整性。作業(yè)節(jié)點(diǎn)子系統(tǒng)是對(duì)作業(yè)的任務(wù)進(jìn)行調(diào)度分配和運(yùn)行狀態(tài)的管理;名稱節(jié)點(diǎn)子系統(tǒng)提供目錄和文件的元數(shù)據(jù)管理,是分布式文件系統(tǒng)讀寫的統(tǒng)一入口;數(shù)據(jù)庫(kù)幾點(diǎn)子系統(tǒng)是分布式數(shù)據(jù)庫(kù)系統(tǒng)讀寫的統(tǒng)一入口;備份節(jié)點(diǎn)子系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)備份與相關(guān)日志的生成;統(tǒng)一系統(tǒng)節(jié)點(diǎn)子系統(tǒng)提供各種共享信息的統(tǒng)一協(xié)同服務(wù),從而避免數(shù)據(jù)共享沖突引起的數(shù)據(jù)不一致。
4 結(jié)論
當(dāng)前,我省正在大力發(fā)展大數(shù)據(jù)產(chǎn)業(yè),測(cè)繪地理信息行業(yè)也將作為全省大數(shù)據(jù)中的一小朵云納入到全省大數(shù)據(jù)的建設(shè)中,但是為了更加及時(shí)、更加有效地使用測(cè)繪地理信息現(xiàn)有的大數(shù)據(jù),建設(shè)全省測(cè)繪地理信息大數(shù)據(jù)系統(tǒng)是有必要的,與全省綜合大數(shù)據(jù)系統(tǒng)的建設(shè)并不相悖,相反可起到試驗(yàn)田的作用,以此可幫助建設(shè)全省綜合大數(shù)據(jù)庫(kù)系統(tǒng)提供技術(shù)積累和數(shù)據(jù)積累;另一方面,也使我省測(cè)繪地理信息數(shù)據(jù)這一重要“金礦”得到充分的挖掘與應(yīng)用,從而也帶動(dòng)了我省測(cè)繪地理信息產(chǎn)業(yè)的跨越式發(fā)展。
參考文獻(xiàn):
[1] 中國(guó)日?qǐng)?bào)貴州記者站. 貴州力爭(zhēng)成為全國(guó)大數(shù)據(jù)中心,中國(guó)日?qǐng)?bào),2014.3.3,
http://www.chinadaily.com.cn/dfpd/gz/bwzg/2014-03/03/content_17317898.htm
[2] 呂慎. 大數(shù)據(jù) 看貴州,光明日?qǐng)?bào),2014.3.1 07版
[3] 大數(shù)據(jù)技術(shù)全解 基礎(chǔ)、設(shè)計(jì)、開發(fā)與實(shí)踐[M].北京:電子工業(yè)出版社,2014
[4] 尤文辰、徐躍通等.淺析GIS大數(shù)據(jù)[J].電腦知識(shí)與技術(shù),2013(9):5399-5402
[5] 喬朝飛.大數(shù)據(jù)及其對(duì)測(cè)繪地理信息工作的啟示[J].測(cè)繪通報(bào),2013(1):107-109
[6] 林媛媛、林川等.淺談大數(shù)據(jù)時(shí)代下的GIS發(fā)展[J].江西測(cè)繪,2013(3):15-16