曹博文,楊現(xiàn)坤,2*,邱俊良
(1.廣州大學(xué)地理科學(xué)與遙感學(xué)院地理信息科學(xué)系,廣東 廣州 510006;2.廣東省農(nóng)村水環(huán)境面源污染綜合治理工程技術(shù)研究中心,廣東 廣州 510006)
地理云計算作為應(yīng)對地理數(shù)據(jù)爆炸式增長的數(shù)據(jù)分析途徑,是一種基于互聯(lián)網(wǎng)的計算方式。云計算的概念是在2006 年由Google 首席執(zhí)行官Eric 在SES 2006 大會上首次提出的,2008 年Landsat 系列衛(wèi)星數(shù)據(jù)面向全球免費開放,Google 公司將其全部數(shù)據(jù)集存儲于高性能數(shù)據(jù)庫中,并與云計算引擎相鏈換開發(fā)出谷歌地球引擎(GEE),作為面向?qū)W術(shù)的科學(xué)分析和可視化地理空間數(shù)據(jù)集的云計算平臺[1-2]。至今,其數(shù)據(jù)庫已經(jīng)涵蓋多個衛(wèi)星平臺數(shù)據(jù),提供的歷史影像數(shù)據(jù)時間序列最早可以追溯到上世紀(jì)70 年代,另外,基于GIS 的矢量數(shù)據(jù)集正在不斷提交到數(shù)據(jù)庫中,包括測繪地理數(shù)據(jù)、農(nóng)田數(shù)據(jù)和氣候模型數(shù)據(jù)等,在數(shù)據(jù)存儲中心支持下得以實現(xiàn)面向全球的云計算服務(wù)。
作為地理云計算服務(wù)平臺,GEE 將地理數(shù)據(jù)分析算法封裝成函數(shù)換口的形式提供給用戶,通過互聯(lián)網(wǎng)可以使用戶快速地訪問海量的影像數(shù)據(jù)以及其他空間數(shù)據(jù),而不需要下載到本地,在云端實現(xiàn)當(dāng)前地理空間數(shù)據(jù)分析的全部流程[3]。通過云計算可以使共享的計算機(jī)軟硬件資源和地理大數(shù)據(jù),按需求提供給用戶使用,使任何用戶都可以使用服務(wù)商提供的多平臺軟硬件資源和地理大數(shù)據(jù),開展常規(guī)個人計算機(jī)無法實現(xiàn)的地理計算和數(shù)據(jù)分析。
GEE 平臺主要由云數(shù)據(jù)引擎、云計算中心、調(diào)用數(shù)據(jù)和分析工具的API 和基于web 交互的可視化開發(fā)環(huán)境組成。
1.1.1 數(shù)據(jù)體系
GEE 數(shù)據(jù)目錄以數(shù)據(jù)層和集合的方式將數(shù)據(jù)分層包裝,來幫助用戶實現(xiàn)對大規(guī)模數(shù)據(jù)的快速查詢和調(diào)用,同類型數(shù)據(jù)歸入同一個集合,將底層地圖切片存儲[4]。涵蓋氣候與天氣數(shù)據(jù)層、影像數(shù)據(jù)層(表1)和地球物理數(shù)據(jù)層(表2)三類。
氣候與天氣數(shù)據(jù)層包括地表溫度、氣候、大氣和天氣數(shù)據(jù)等。GEE 的溫度數(shù)據(jù)來源有Landsat 衛(wèi)星熱傳感器以及一些航天傳感器(MODIS、ASTER 和AVHRR),其范圍覆蓋陸地和海洋。氣候模型數(shù)據(jù)可以生成長期的氣候預(yù)測和地表變量的歷史插值,包括NCEP/NCAR 的歷史再分析數(shù)據(jù),NLDAS-2 和GridMET 等格網(wǎng)化氣象數(shù)據(jù)集。天氣數(shù)據(jù)集包括美國國家海洋和大氣局的全球預(yù)報系統(tǒng)(NOAA.GFS)和美國國家環(huán)境預(yù)報中心(NCEP)氣候預(yù)報系統(tǒng)(CFSv2)的預(yù)報數(shù)據(jù),以及熱帶降雨測量任務(wù)(TRMM)的傳感器數(shù)據(jù)。
影像數(shù)據(jù)層的主要數(shù)據(jù)源包括Landsat、Sentinel、MODIS 和High-Resolution Imagery 系列衛(wèi)星傳感器平臺。USGS 為Landsat 衛(wèi)星生成三類數(shù)據(jù):Tier 1(T1)是符合幾何和輻射質(zhì)量要求的數(shù)據(jù);Tier 2(T2)是不符合T1 要求的數(shù)據(jù);RT(real time)則是尚未評估的數(shù)據(jù),評估時間可能長達(dá)一個月。此外,數(shù)據(jù)目錄還包含Landsat 衛(wèi)星平臺的衍生數(shù)據(jù)集產(chǎn)品。Sentinel 數(shù)據(jù)來源于由歐洲委員會與歐洲空間局(ESA)合作發(fā)起的哥白尼計劃,包括Sentinel 1A 和1B 的全天候雷達(dá)影像、Sentinel 2A 和2B 的高分辨率光學(xué)影像,以及Sentinel 3 適合環(huán)境和氣候監(jiān)測的海洋和陸地數(shù)據(jù)[5]。MODIS 數(shù)據(jù)來自美國國家航天局(NASA)的Terra 和Aqua 衛(wèi)星上的中分辨率成像光譜儀(MODIS)傳感器,包括每日采集的地球影像和表面反射率數(shù)據(jù),以及植被指數(shù)和積雪等衍生產(chǎn)品[6]。High-Resolution Imagery是由美國國家農(nóng)業(yè)影像計劃(NAIP)發(fā)布的航空影像數(shù)據(jù),分辨率為1 m,可以捕捉到很多城市細(xì)節(jié)。
地球物理數(shù)據(jù)層包含地形、土地覆蓋、農(nóng)田以及其他地球物理數(shù)據(jù)。地形數(shù)據(jù)集即數(shù)字高程模型(DEMs)用以描述地球形狀,在數(shù)據(jù)目錄中的全球地形數(shù)據(jù)集有航天飛機(jī)雷達(dá)地形測量(SRTM)數(shù)據(jù)集(30 m 分辨率)、區(qū)域高分辨率DEM 及其衍生產(chǎn)品如世界自然基金會(WWF)的流域水文數(shù)據(jù)庫;土地覆蓋圖是根據(jù)土地覆蓋類型描述自然景觀,如MODIS 衍生年度土地覆蓋圖等;農(nóng)田數(shù)據(jù)集由農(nóng)田數(shù)據(jù)產(chǎn)品組成,提供農(nóng)田范圍、作物優(yōu)勢和水源等信息;其他數(shù)據(jù)集有來自國防氣象衛(wèi)星計劃的Operational Linescan系統(tǒng)(DMSP-OLS)的夜間燈光數(shù)據(jù)等。
表1 GEE 數(shù)據(jù)目錄常用衛(wèi)星和模型數(shù)據(jù)產(chǎn)品
表2 地球物理數(shù)據(jù)
表3 Landsat 數(shù)據(jù)衍生產(chǎn)品
1.1.2 技術(shù)體系
GEE 提供的云端大數(shù)據(jù)分析算法主要包括遙感影像分類、預(yù)處理和地理分析算法。遙感影像分類算法有監(jiān)督分類和非監(jiān)督分類2 種,在監(jiān)督分類中的4 種智能分類算法:分類回歸樹(CART)是決策樹的一種,由Breiman 于1984 年提出,CART 算法主要分為兩步,首先基于訓(xùn)練數(shù)據(jù)集遞歸構(gòu)建二叉決策樹,然后采用基尼指數(shù)(GINI)最小化準(zhǔn)則,基尼指數(shù)用以度量數(shù)據(jù)劃分的純度,指數(shù)越小表明樣本屬于同一類別的概率越高以此生成二叉樹,然后對于完整決策樹存在的過擬合現(xiàn)象,需要使用驗證數(shù)據(jù)集對樹進(jìn)行剪枝并選擇泛化能力最優(yōu)的子樹[7],隨機(jī)森林(random forest)是Breiman 在分類樹基礎(chǔ)上于2001 年提出的,其改變了分類回歸樹的構(gòu)造方法,在每個分割節(jié)點都使用隨機(jī)選擇的最優(yōu)子集,這種反直覺的分類策略實際表現(xiàn)卻很不錯,并且對過擬合現(xiàn)象具有很強(qiáng)的穩(wěn)健性[8]。
不同于決策樹分類器,樸素貝葉斯(naive bayes)是基于貝葉斯定理實現(xiàn)的眾多分類器的一種,貝葉斯定理最初是由Thomas 提出的一個等式,用來描述基于相關(guān)條件的事件的可能性,然后由LaPlace 進(jìn)一步發(fā)展成為現(xiàn)代概率理論的一條基本公理。在它假設(shè)各類別之間相互獨立,即符合獨立概率分布特征,因此首先要確定樣本數(shù)據(jù)集分類特征,然后根據(jù)貝葉斯定理計算每個類別在樣本中的分布頻率,以此實現(xiàn)數(shù)據(jù)分類[9-10]。支持向量機(jī)(SVM)是一種二類分類模型,以特征空間上的最大間隔為基礎(chǔ)建立 線性分類器,從簡單到復(fù)雜的模型依次有線性可分向量機(jī)、線性支持向量機(jī)以及非線性支持向量機(jī)[11-12],SVM 與CART 算法同樣被認(rèn)為擁有較強(qiáng)的泛化能力。
如表4 所示,對比傳統(tǒng)遙感軟件的影像處理算法,可以看出GEE 平臺在影像監(jiān)督分類算法方面提供了更多的選擇,尤其是在遙感影像智能分類算法方面有了新的突破,例如應(yīng)用廣泛的貝葉斯分類算法在影像監(jiān)督分類中得到很好的實現(xiàn),同時憑借服務(wù)器強(qiáng)大的運算資源可以實現(xiàn)全球尺度的數(shù)據(jù)分析,本地計算機(jī)則很難實現(xiàn)。除此之外,還提供了去云處理、山體陰影和輻射校正等算法換口。GEE 具備強(qiáng)大的并行計算能力,在涉及大區(qū)域影像計算時可運行Map()批處理過程提高云運算效率。分析過程中產(chǎn)生的數(shù)據(jù)都存儲在高速緩存區(qū),在下一步分析中可以直換調(diào)用,因此,對本地存儲空間和處理器要求很低,可以顯著降低研究項目中的硬件成本,使研究者可以專注于分析問題的主要矛盾而不是設(shè)備條件。
表4 GEE 和傳統(tǒng)遙感影像處理軟件的分類算法對比
1.1.3 開發(fā)體系
GEE 整個系統(tǒng)由前端交互平臺、云端服務(wù)器和后臺數(shù)據(jù)庫3 個模塊組成(圖1)。
首先是輸入客戶端模塊實現(xiàn)了遠(yuǎn)程交互,包括基于web 的JavaScript 開發(fā)網(wǎng)站和基于Google Colab 開發(fā)框架的Python API 客戶端,后者是同樣部署在web的開發(fā)環(huán)境;用戶還可以將客戶端API 安裝到具有Python 環(huán)境的本地終端設(shè)備,當(dāng)然無論是JavaScript 還是Python 語言,它們都擁有相同的云端函數(shù)庫,區(qū)別在于Python API 是基于JavaScript API 的轉(zhuǎn)譯,因此兩者調(diào)用同名函數(shù)時的功能幾乎保持一致。其次云端服務(wù)器模塊計算硬件設(shè)備和服務(wù)軟件,云端服務(wù)通過互聯(lián)網(wǎng)協(xié)議換收前端信息實現(xiàn)動態(tài)計算,而實現(xiàn)動態(tài)計算的關(guān)鍵是把中間數(shù)據(jù)儲存在高速緩存區(qū)以此提高處理效率和靈活性。最后是后臺數(shù)據(jù)管理模塊包括用戶數(shù)據(jù)、資源數(shù)據(jù)以及數(shù)據(jù)傳輸服務(wù)3 個部分,其中用戶數(shù)據(jù)包括上傳到資源列表的表格、矢量和柵格數(shù)據(jù),資源數(shù)據(jù)即前文所述的數(shù)據(jù)目錄下的全部數(shù)據(jù)資源,數(shù)據(jù)傳輸服務(wù)提供下載和上傳。
圖1 GEE 平臺的系統(tǒng)架構(gòu)
前端JavaScript 腳本編輯器的主要功能如圖2 所示,編輯器具有實時監(jiān)測代碼錯誤的功能,如果檢測到語法錯誤會即時顯示,若是邏輯錯誤,錯誤信息會被輸出到控制臺作詳細(xì)說明,這是調(diào)式代碼的主要參考依據(jù)。GEE 后臺換收到用戶訪問后,根據(jù)返回的API 調(diào)用信息進(jìn)行相應(yīng)的圖像處理操作,這些操作全都在云端進(jìn)行,過程中的數(shù)據(jù)被暫存在高速緩存區(qū),并將最終結(jié)果返回JavaScript 前端,通過Map API 可視化選項顯示在瀏覽器的地圖區(qū)域,將其他結(jié)果信息顯示在輸出控制臺,要求下載的數(shù)據(jù)將會在任務(wù)管理界面顯示下載進(jìn)度,這一切都會在很短的時間內(nèi)完成。
圖2 基于web 的JavaScript 開發(fā)框架
1.2.1 數(shù)據(jù)豐富
GEE 平臺數(shù)據(jù)豐富,包含多平臺影像數(shù)據(jù)集及其衍生產(chǎn)品,數(shù)據(jù)具有長時間序列和覆蓋全球的空間尺度且獲取簡單的特點。通過將數(shù)據(jù)分層分級的方式展示,將多個平臺的數(shù)據(jù)高效集成在一起,從而降低用戶檢索數(shù)據(jù)的難度,在此基礎(chǔ)上提供多種數(shù)據(jù)訪問方式,以保證用戶可以輕松獲取,例如在GEE 數(shù)據(jù)目錄平臺[13]由數(shù)據(jù)層依次遞進(jìn)到單個數(shù)據(jù)集產(chǎn)品信息,詳細(xì)介紹了具體信息,包括調(diào)用換口和實現(xiàn)代碼。而在代碼編輯器平臺直換檢索數(shù)據(jù)名稱更可以快速導(dǎo)入到代碼編輯區(qū)。同時,還支持用戶上傳至資源管理區(qū)并通過路徑訪問獲取用戶自己的數(shù)據(jù),并在地圖窗口中繪制圖形和自定義屬性作為訓(xùn)練樣本選區(qū)。此外,數(shù)據(jù)在分析過程中產(chǎn)生的中間數(shù)據(jù)不需要下載到本地硬盤,而是緩存在后臺服務(wù)器的高速緩存區(qū),保證其分析過程可以連續(xù)進(jìn)行,最終產(chǎn)生的數(shù)據(jù)成果支持多種導(dǎo)出方式,例如轉(zhuǎn)存到云盤空間或資源管理區(qū)后直換下載到本地。
1.2.2 算法高集成度以及可定制性
在傳統(tǒng)的影像分析過程中,通常是直換計算柵格數(shù)據(jù)的合成像素,而這種操作則要求對輸入數(shù)據(jù)集進(jìn)行預(yù)處理來獲取統(tǒng)一的投影坐標(biāo)系和分辨率等。在GEE 中采取了不同的分析過程,如圖3 所示,它延遲了計算輸出像素值的過程,而是針對下一步的實際需要決定對像素的計算層次,例如當(dāng)要求縮放顯示結(jié)果到交互地圖區(qū)時,可以實時地確定輸出分辨率和投影,在需要進(jìn)行下一步分類或疊加分析時,則將結(jié)果直換作為輸入數(shù)據(jù)集,并確定合適的分辨率和投影來計算合成像素。正是通過這種優(yōu)化過程的方式,研究者可以專注于數(shù)據(jù)分析和迭代算法的開發(fā),將算法提交到GEE 后完成大規(guī)模計算,最后把結(jié)果作為表格、影像或其他文件格式下載到本地。
圖3 GEE 影像分析過程
1.2.3 GEE 存在的問題以及在中國應(yīng)用的可能障礙
GEE 雖然具有強(qiáng)大的并發(fā)計算能力,但隨著應(yīng)用領(lǐng)域不斷拓寬,越來越多的學(xué)者嘗試新的研究方向,而其提供的API 并不能完全滿足所有領(lǐng)域的研究需要,因此,Google 需要不斷地開發(fā)完善,API 名稱和調(diào)用方式也隨著迭代出現(xiàn)變化甚至被舍棄,這都需要用戶主動學(xué)習(xí)并不斷更新本地代碼,否則將會出現(xiàn)很多意料之外的運行問題,這對于研究者來說需要不斷付出學(xué)習(xí)成本。另外,在代碼調(diào)試過程中,由于遠(yuǎn)程訪問的局限性,開發(fā)者并不能實時監(jiān)測到本地變量的具體內(nèi)容,很多錯誤實例在開發(fā)社區(qū)中高頻出現(xiàn),多是因為用戶難以定位到具體實例,因此在開發(fā)過程中不可避免地進(jìn)行各種嘗試來讓程序穩(wěn)定的運行。除此之外,由于GEE 在中國大陸沒有服務(wù)器,在大陸進(jìn)行國際遠(yuǎn)程訪問不得不考慮一些網(wǎng)絡(luò)限制,雖然科學(xué)研究不會引起特別關(guān)注,但仍會使網(wǎng)絡(luò)訪問速率降低乃至訪問失敗。
隨著GEE 平臺不斷發(fā)展,越來越多的國內(nèi)外學(xué)者選擇GEE 進(jìn)行大尺度遙感影像分析,GEE 在地理、地質(zhì)、農(nóng)業(yè)以及生態(tài)等領(lǐng)域的應(yīng)用越來越廣泛,尤其是生態(tài)領(lǐng)域包括洪水監(jiān)測、全球森林監(jiān)測和砍伐控制;還有全球范圍的土地變化包括城市用地、熱島、陸地水變化和植被變化等。
根據(jù)谷歌學(xué)術(shù)(google scholar)完整搜索Google Earth Engine 索引的結(jié)果統(tǒng)計三百篇相關(guān)文章,在統(tǒng)計中可以看出(圖4),GEE 廣泛應(yīng)用于地理學(xué)、生態(tài)學(xué)以及云計算等眾多領(lǐng)域,尤其是生態(tài)監(jiān)測、濕地/水文和植被3 個研究領(lǐng)域最為熱門,其次是土地覆蓋和農(nóng)業(yè)的研究。以上這五類研究之所以成為GEE 應(yīng)用的主要領(lǐng)域,正是基于平臺的大數(shù)據(jù)結(jié)合云計算的優(yōu)勢,不論是生態(tài)監(jiān)測還是土地覆蓋研究都傾向于在一個比較大的時空尺度下進(jìn)行,例如Midekis 基于GEE 提供的Landsat 高分辨率數(shù)據(jù)和云計算繪制非洲大陸連續(xù)十五年的土地覆蓋變化,提供了云計算和地球衛(wèi)星觀測大數(shù)據(jù)結(jié)合的應(yīng)用案例[14]。這種規(guī)模的研究如果使用傳統(tǒng)分析工具將很難實現(xiàn),不只局限于非洲地區(qū)欠發(fā)達(dá)的信息化水平,大規(guī)模破碎的土地覆蓋類型也將是難以解決的問題,這些問題在云計算服務(wù)結(jié)合遙感大數(shù)據(jù)的條件下有了實現(xiàn)的可能。
如果從國家角度來看,在幾乎所有領(lǐng)域中美國研究者都走在領(lǐng)先的位置。實際上統(tǒng)計數(shù)據(jù)里美國學(xué)者以138 篇的論文數(shù)目占比超過45%,數(shù)據(jù)顯示越來越多的美國學(xué)者開始將一些傳統(tǒng)項目基于GEE 平臺進(jìn)行研究以發(fā)現(xiàn)大尺度的統(tǒng)計規(guī)律,在人口分布統(tǒng)計方面,Patel 利用GEE 提供的Landsat 數(shù)據(jù)繪制了多時段的人口分布圖[15]。在中國主要的應(yīng)用方向是水文/濕地領(lǐng)域,其次是土地覆蓋與農(nóng)業(yè),這有多種可能的因素包括中國人均水資源缺乏、南北降水分布差異、中國工業(yè)化過程中對河流水資源的過度開發(fā)導(dǎo)致的流域生態(tài)問題,例如大規(guī)模修建大壩和工業(yè)用水排放等,隨著中國政府對生態(tài)保護(hù)越來越重視,環(huán)保建設(shè)需要更多的基礎(chǔ)研究支撐;由于在中國獲取大尺度高分辨率衛(wèi)星數(shù)據(jù)的途徑較少,涉及整個流域的大尺度研究中GEE 的大數(shù)據(jù)和云計算優(yōu)勢也更加顯著。
圖4 基于GEE 平臺算法或數(shù)據(jù)的研究狀況
如果超越國家視角在大洲尺度統(tǒng)計(圖5),目前已有很多國家和地區(qū)的學(xué)者基于GEE 平臺展開跨區(qū)域合作,有中國學(xué)者與美國科研機(jī)構(gòu)基于GEE 展開項目合作,如Dong[16]與美國俄克拉荷馬大學(xué)合作繪制的東北亞水稻種植圖。然而GEE 作為數(shù)據(jù)共享平臺,其數(shù)據(jù)集和算法換口向所有國家和地區(qū)開放,但是在非洲、中東以及南美等欠發(fā)達(dá)地區(qū)在數(shù)據(jù)獲取方面仍然欠缺。在前面介紹的數(shù)據(jù)目錄,如GFSAD 1 000,Cropland 產(chǎn)品是由NASA 資助的項目,在國際水資源管理研究所的灌溉農(nóng)田地圖基礎(chǔ)上,與多源遙感數(shù)據(jù)(Landsat、MODIS 和AVHRR 等)及其他田間數(shù)據(jù)融合生成,提供全球1 km 分辨率農(nóng)田數(shù)據(jù),包括耕地范圍、作物優(yōu)勢、灌溉等農(nóng)田信息,發(fā)達(dá)國家通過建立農(nóng)田數(shù)據(jù)集協(xié)助發(fā)展中國家建立農(nóng)田動態(tài)監(jiān)測系統(tǒng),以達(dá)到保護(hù)全球糧食安全的共同目標(biāo)。
圖5 基于GEE平臺的研究文獻(xiàn)統(tǒng)計的大洲分布
利用GEE 進(jìn)行的研究涵蓋不同的空間尺度,其中大尺度的地理過程研究是GEE 最為廣泛的應(yīng)用領(lǐng)域,全球尺度進(jìn)行分析的文章國內(nèi)有劉小平等[16]基于GEE 平臺對全球城市土地進(jìn)行分類并繪制了全球30 m分辨率的城市用地圖。在國家和大陸尺度,如前文提到的Dong[17]利用GEE 提供的Landsat 影像和基于物候算法繪制的東北亞水稻分布圖,這是東北亞區(qū)域第一幅30 m 分辨率的水稻地圖,將有助于糧食安全評估、水資源管理、溫室氣體排放估算和疾病控制等問題。還有Chen[18]基于GEE 的計算平臺及其提供的Landsat-8/7和Sentinel-1A 數(shù)據(jù),繪制了中國紅樹林地圖,用以了解紅樹林生態(tài)系統(tǒng)影響因素并規(guī)劃了可持續(xù)管理機(jī)制。同樣在大尺度植被監(jiān)測方面,早在2011 年Moore[19]發(fā)表了關(guān)于GEE 的介紹文章,其中全面介紹了GEE 作為全球森林監(jiān)測的設(shè)計初衷,用以支持發(fā)展中國家減少毀壞和森林退化(REDD+)活動,研究者利用這一平臺進(jìn)行自主開發(fā)從而實現(xiàn)前所未有的土地覆蓋動態(tài)監(jiān)測。
在區(qū)域和城市的中、小尺度下GEE 仍然有很多應(yīng)用。在城市方面,比如Huabing[20]利用GEE 的Landsat 數(shù)據(jù)繪制了北京2015 年的土地覆蓋地圖,并估算了過去30 a 間植被的損失和增長模式,闡述了人類活動對北京土地覆蓋動態(tài)的影響。除上所述的外刊研究,國內(nèi)期刊出版庫中也有一些新的應(yīng)用,如胡云鋒等[21]基于GEE 平臺利用LandsatTM/OLI 影像(1990-2016)的長時間序列數(shù)據(jù),用分類回歸樹(CART)分類方法對北京市1990 ~2016 年間的耕地、人造地表面積變化的驅(qū)動機(jī)制做了進(jìn)一步分析。在農(nóng)業(yè)方面,有何昭欣等[22]基于GEE 使用Sentinel-2 數(shù)據(jù)快速提取了江蘇省冬小麥與冬油菜的空間分布,驗證了樸素貝葉斯、支持向量機(jī)、分類回歸樹和隨機(jī)森林4 種分類器,并得出分類平均驗證精度。
以上研究基于GEE 的基礎(chǔ)衛(wèi)星數(shù)據(jù)和分類算法,提供了平臺的應(yīng)用案例和算法處理的結(jié)果展示。而在利用函數(shù)換口處理原始數(shù)據(jù)方面仍然欠缺經(jīng)驗,更多的是作為獲取數(shù)據(jù)的路徑而不是結(jié)合實地調(diào)研數(shù)據(jù)進(jìn)行綜合分析。如前文所述,GEE 不只提供數(shù)據(jù)傳輸,還有自定義算法在平臺上集成應(yīng)用的換口,在GEE 論壇每天都會產(chǎn)生新的問題和解決方式,越來越多的在傳統(tǒng)領(lǐng)域難以實現(xiàn)的GIS 分析能夠高效完成。比如,Yang[23]基于Google 衛(wèi)星影像結(jié)合本地自定義的地名判斷算法提取長江流域水庫的研究。這一應(yīng)用相較于傳統(tǒng)的基于衛(wèi)星影像提取大尺度水體的方法,精度和效率均大幅提高,當(dāng)然還有更多的應(yīng)用方向等待探索。
GEE 自2010 發(fā)布至今解決了越來越多傳統(tǒng)遙感和GIS 領(lǐng)域的問題,在環(huán)境科學(xué)和遙感領(lǐng)域應(yīng)用廣泛,涵蓋植被變化,農(nóng)田監(jiān)測,城市熱島,土壤干旱,濕地監(jiān)測,生態(tài)系統(tǒng)評價等,尤其改變了以往全球大尺度的土地覆被變化問題的研究方式。全球范圍內(nèi)正有更多的學(xué)者加入GEE 平臺,關(guān)于平臺的搜索熱度與日俱增,相較于三年前搜索增長趨勢顯著(圖6),根據(jù)Google Trend 在過去三年里的全網(wǎng)搜索數(shù)據(jù),分別得到在全球和美國的使用增長趨勢。
圖6 2016-01~2019-05 的搜索增長趨勢
GEE 的數(shù)據(jù)集成模式具有高度動態(tài)化和高度可視化的特點,而其數(shù)據(jù)分析模式是面向大眾又極其高效的,智慧城市的數(shù)據(jù)平臺搭建可以借鑒GEE 數(shù)據(jù)集成和管理模式。在傳統(tǒng)的城市管理系統(tǒng)中,由于各部門數(shù)字化程度低,難以做到智能決策和科學(xué)統(tǒng)籌。近些年隨著城市信息化水平越來越高,尤其是沿海發(fā)達(dá)城市,實現(xiàn)了包括人流、車流,污染指數(shù),人口流動和城市降雨雷達(dá)監(jiān)測等信息實時采集,以及POI數(shù)據(jù)的即時更新,這為城市智能化管理提供了前提條件。把多源數(shù)據(jù)集分部門部署在開放合作的公共云服務(wù)器,從而實現(xiàn)多部門數(shù)據(jù)共享打破“信息孤島”,提高城市信息傳遞效率,加快部門間、區(qū)域間的數(shù)據(jù)整合,這是智慧城市建設(shè)的重要環(huán)節(jié)[24]。智慧城市的信息平臺建設(shè)可以參考GEE 的構(gòu)建過程,讓智慧城市系統(tǒng)更好地服務(wù)于國情決策,同時也能共享于大眾。
隨著人工智能技術(shù)研究浪潮興起,各種智能算法在信息技術(shù)領(lǐng)域產(chǎn)生很多創(chuàng)新應(yīng)用,其中機(jī)器學(xué)習(xí)是實現(xiàn)人工智能最廣泛的應(yīng)用方法,例如在遙感圖像識別領(lǐng)域?qū)崿F(xiàn)了多種基于監(jiān)督學(xué)習(xí)的智能分類算法,包括樸素貝葉斯、決策樹、支持向量機(jī)以及最大熵模型等。當(dāng)然還包括當(dāng)前機(jī)器學(xué)習(xí)的主要方向即基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)分類算法,這在擁有大規(guī)模數(shù)據(jù)作為訓(xùn)練樣本時會產(chǎn)生極佳的結(jié)果,例如Helber[25]利用深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)對2.7 萬張標(biāo)記的Sentinel-2 衛(wèi)星圖像的土地利用和土地覆蓋分類,結(jié)果總體分類準(zhǔn)確率達(dá)到98.57%,提供了深度學(xué)習(xí)算法在遙感圖像處理中應(yīng)用范例。將智能算法應(yīng)用于遙感圖像分類,可以有效地提高圖像分類精度和目標(biāo)識別的準(zhǔn)確性,從而提高數(shù)據(jù)利用率,在空間數(shù)據(jù)挖掘中獲取更多價值。
然而,無論是監(jiān)督學(xué)習(xí)還是深度學(xué)習(xí)無不受限于機(jī)器性能,訓(xùn)練樣本過少出現(xiàn)過擬合現(xiàn)象,這成為遙感圖像識別智能化應(yīng)用的制約。這些問題在GEE 平臺上可以得到很好的解決,依托于云端高性能計算機(jī)和大規(guī)模聚集的數(shù)據(jù)資源,智能算法可以得到更高效的利用。建立云端智能化分析平臺不僅擴(kuò)展了智能遙感圖像識別功能,對復(fù)雜地表過程分析將發(fā)揮更顯著的作用,例如復(fù)雜地表水文過程和地震、火山等自然災(zāi)害的分析和預(yù)測,而在傳統(tǒng)分析中是難以實現(xiàn)的。
在2016 年于北京召開主題“為構(gòu)建我們和諧的世界”的國際地理大會,提出當(dāng)前地理學(xué)研究前沿城市變化,全球人口變化等多項涉及全球尺度的研究主題[26]??梢钥闯鲫P(guān)于數(shù)據(jù)探索和分析的各學(xué)科已經(jīng)逐漸走向大尺度乃至全球范圍的變化研究,在當(dāng)今世界格局下,涉及全球的極端氣候變化已經(jīng)是全人類所面臨的共同問題,全球問題需要全球治理將是未來的發(fā)展趨勢。
如何應(yīng)對氣候變化所帶來的一系列災(zāi)害影響,將會涉及多個學(xué)科的共同合作,這是現(xiàn)代自然地理框架下的相關(guān)研究成果,綜合了氣候?qū)W、遙感、地理信息系統(tǒng)和人口統(tǒng)計學(xué)等多學(xué)科理論,涉及包括氣象數(shù)據(jù)、地表覆蓋和土地利用數(shù)據(jù)、人口數(shù)據(jù)以及CO2濃度數(shù)據(jù)等復(fù)合數(shù)據(jù)的全球變化模擬,例如應(yīng)用復(fù)雜氣候模型的高分辨率影像產(chǎn)品的精度預(yù)測極端氣候過程,結(jié)合土地覆蓋和CO2濃度等數(shù)據(jù)的模擬和預(yù)測城市降雨過程等,這些研究可以為環(huán)保政策的制定提供科學(xué)的建議以及輔助決策[27-28]。以上研究同樣面臨數(shù)據(jù)方面的限制,例如全球各領(lǐng)域數(shù)據(jù)不整合、時效差和難以實現(xiàn)全球范圍的高精度覆蓋等,GEE 作為面向全球的非商業(yè)化數(shù)據(jù)探索和分析的云計算平臺,將給全球變化研究提供數(shù)據(jù)和平臺支持,同時也可以作為先進(jìn)的技術(shù)開發(fā)框架被發(fā)展中國家和地區(qū)加以借鑒。
隨著云計算技術(shù)的不斷發(fā)展,GEE 從2008 年提出構(gòu)想不斷發(fā)展至今天,已經(jīng)成為提供覆蓋全球的地理空間數(shù)據(jù)的集成、處理、可視化和綜合分析一站式解決方案的云端共享平臺。
在數(shù)據(jù)集成方面,首先是已經(jīng)實現(xiàn)包括Landsat、Sentinel、MODIS 在內(nèi)的多平臺資源衛(wèi)星數(shù)據(jù)集成,并處在持續(xù)更新的過程中,未來還會有更多的衛(wèi)星數(shù)據(jù)資源集成到平臺;其次平臺還集成了模型數(shù)據(jù),例如天氣與氣候模型包括降水模擬、地表徑流和農(nóng)田灌溉等多種模擬數(shù)據(jù),還有地理測繪數(shù)據(jù),包括數(shù)字高程模型和土地覆蓋數(shù)據(jù)等;還有一些研究者利用平臺生產(chǎn)并提交到數(shù)據(jù)支持中心的共享數(shù)據(jù)等,豐富的衍生數(shù)據(jù)會吸引更多研究者的關(guān)注并促進(jìn)社區(qū)交流。
在算法集成方面,提供了持續(xù)更新的智能算法以及可供研究者定制的功能換口,這將激勵研究者不斷嘗試新的算法來實現(xiàn)科學(xué)構(gòu)想,而不只是停留在理論層面,這將進(jìn)一步促進(jìn)平臺的智能化發(fā)展,很多以往難以解決的問題都將開啟新的思路。
當(dāng)然目前的GEE 仍然存在一些問題可能使研究者遇到阻礙,但隨著互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,無論是新一代5G 通信技術(shù)地快速建設(shè),還是人工智能技術(shù)的不斷演進(jìn),都將成為云端信息服務(wù)的重要推動力量,在數(shù)據(jù)共享越加開放,信息化程度不斷提高的未來,全球尺度的地理空間分析將會有更廣闊的應(yīng)用空間。