薛勇
大數(shù)據(jù)是一個無形的東西,在2020年,全世界約有59ZB(zetta bytes)的數(shù)據(jù)產(chǎn)生、復(fù)制、被訪問,據(jù)權(quán)威機構(gòu)估計,這個數(shù)字到2024年將達(dá)到149 ZB。
大數(shù)據(jù)是什么?是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的定義可以是四維或五維,目前,國際上還沒有準(zhǔn)確的定義,但大量、多樣、高速、價值、真實性等五方面基本是被認(rèn)可的。數(shù)據(jù)量的大小與價值沒有直接的關(guān)系,大數(shù)據(jù)是海量資料,這些巨量資料來自世界各地隨時產(chǎn)生的數(shù)據(jù),在大數(shù)據(jù)時代,任何微小的數(shù)據(jù)都可能產(chǎn)生不可思議的價值。
科學(xué)大數(shù)據(jù)與普通用的大數(shù)據(jù)是有差距的,科學(xué)大數(shù)據(jù)代表了自然科學(xué)與社會科學(xué)之間復(fù)雜的關(guān)系。一般來說,這些自然現(xiàn)象或科學(xué)過程的外部表現(xiàn),具有高度相關(guān)性和多重數(shù)據(jù)屬性。大數(shù)據(jù)的維度概念已超出我們認(rèn)知中的維度,超出了四維的范圍。大數(shù)據(jù)有幾個特性,一是高復(fù)雜性,定義大數(shù)據(jù)的邊緣范圍是很困難的;二是高不確定性,科學(xué)大數(shù)據(jù)來自對自然過程的獲取,有非常高的不確定性;三是高價值。
大數(shù)據(jù)的技術(shù)包括大數(shù)據(jù)接入、大數(shù)據(jù)存儲、大數(shù)據(jù)分析挖掘、大數(shù)據(jù)共享交換、大數(shù)據(jù)展示等五方面。這些技術(shù)都是在使用中,也在發(fā)展過程中。
“數(shù)字地球”是一個可以嵌入海量地理數(shù)據(jù)的、多分辨率的、真實地球的三維表示。
地球大數(shù)據(jù)是第四范式(數(shù)據(jù)密集范式,即科學(xué)大數(shù)據(jù))的典型示例,數(shù)據(jù)密集范式是繼實驗科學(xué)、歸納總結(jié)、計算機仿真后的第四代范式。
地球大數(shù)據(jù)作為大數(shù)據(jù)的一種特殊類型,在Volume(大量)、Variety(多樣性)、Velocity(高速)、Veracity(真實性)方面具有自己的特點。
大量:PB級(PB指petabyte,它是較高級的存儲單位,1PB=1024TB)的遙感影像數(shù)據(jù)檔案,不斷增加的實時傳感器觀測數(shù)據(jù)和基于地理位置的社交媒體數(shù)據(jù),海量的VGI(志愿者地理信息)數(shù)據(jù)等,以及這些數(shù)據(jù)的不斷增加,不僅帶來了數(shù)據(jù)存儲問題,也帶來了海量的分析問題。
多樣性:地圖數(shù)據(jù)、圖像數(shù)據(jù)、帶地理標(biāo)簽的文本數(shù)據(jù)、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、柵格數(shù)據(jù)和矢量數(shù)據(jù),所有這些不同類型的數(shù)據(jù)都需要更高效的模型、結(jié)構(gòu)、索引和數(shù)據(jù)管理策略和技術(shù)。
高速:頻繁更新的高分辨率圖像數(shù)據(jù)、傳感器連續(xù)觀測數(shù)據(jù)、物聯(lián)網(wǎng)、實時的全球?qū)Ш叫l(wèi)星系統(tǒng)軌跡和社交媒體數(shù)據(jù)都需要與之相匹配的數(shù)據(jù)生成速度和數(shù)據(jù)處理速度來滿足需求。
真實性:許多地理空間大數(shù)據(jù)的來源未經(jīng)驗證,準(zhǔn)確性不高或不清楚,其準(zhǔn)確性因數(shù)據(jù)源的不同而不同,這就對源數(shù)據(jù)的質(zhì)量評估以及如何“統(tǒng)計化”地提高分析結(jié)果的質(zhì)量提出了問題。
地球大數(shù)據(jù)處理包括:數(shù)據(jù)收集、數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)建模和結(jié)構(gòu)化、數(shù)據(jù)可視化和可視化分析、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。
下面介紹遙感大數(shù)據(jù),遙感大數(shù)據(jù)是地球大數(shù)據(jù)的一個方向。遙感大數(shù)據(jù)是指以海量遙感數(shù)據(jù)集為主、綜合其他多種來源的輔助數(shù)據(jù),運用大數(shù)據(jù)思維與手段,從海量遙感數(shù)據(jù)集中獲取行業(yè)價值信息的理論、方法、技術(shù)與活動的統(tǒng)稱。隨著遙感衛(wèi)星、導(dǎo)航衛(wèi)星、地球物理衛(wèi)星和各種平臺以及各種觀測儀器和傳感器的使用增加,來自太空的地球大數(shù)據(jù)正成為大數(shù)據(jù)研究的主流。它呈現(xiàn)出了大數(shù)據(jù)的科學(xué)特征,例如海量數(shù)據(jù)、多種來源、異構(gòu)性、多時間性、多種規(guī)模和非平穩(wěn)性。來自太空的地球大數(shù)據(jù)涉及地球觀測技術(shù)、通信技術(shù)和計算機技術(shù),為地球科學(xué)研究帶來了新的機遇。 它可以促進(jìn)地球科學(xué)的深入發(fā)展,并有助于獲得重要的科學(xué)發(fā)現(xiàn)。
遙感大數(shù)據(jù)發(fā)展包括數(shù)據(jù)獲取、數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用等方面的發(fā)展。遙感大數(shù)據(jù)的來源包括衛(wèi)星、無人機等多元載體;有光學(xué)、影像等多種類型;全譜段、全天域覆蓋等多種數(shù)據(jù)覆蓋。遙感大數(shù)據(jù)具有大容量、多樣性、高效性、難以識別、高價值等外部特點和高維度、多尺度、不穩(wěn)定性等內(nèi)部特點。遙感大數(shù)據(jù)具有復(fù)雜性,包括數(shù)據(jù)復(fù)雜性、計算復(fù)雜性、系統(tǒng)復(fù)雜性等。
遙感大數(shù)據(jù)對我們的挑戰(zhàn):我們要進(jìn)行定位、識別和分析不同空間尺度的地理目標(biāo)的多層次分析,比如對生態(tài)中山體滑坡的分析,比如數(shù)據(jù)分類和不同的分析方法可以得出不同的角度和結(jié)論,不同的分析方法、多時相方法、高頻率觀測、背景知識、專業(yè)知識缺乏、擴展、數(shù)據(jù)和知識質(zhì)量等都形成挑戰(zhàn)。當(dāng)然,針對各方面的挑戰(zhàn),我們均在探索不同的解決方案。
遙感大數(shù)據(jù)未來的發(fā)展方向包括遙感大數(shù)據(jù)多類不確定性建模、大數(shù)據(jù)環(huán)境下的多源遙感信息融合、遙感大數(shù)據(jù)的機器學(xué)習(xí)方法、用于遙感大數(shù)據(jù)分析和可視化的統(tǒng)一架構(gòu)、基于知識驅(qū)動的定量遙感的大數(shù)據(jù)挖掘等方面。
總結(jié)一句話,最大挑戰(zhàn)就是“遙感大數(shù)據(jù)對定量遙感如何挖掘出全新的知識,以便更好地為用戶服務(wù)”。
(本文錄音由實習(xí)生崔鴻青整理,并經(jīng)發(fā)言專家本人審核)