于龍龍,羅 澤,閻保平
1(中國科學(xué)院 計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190)
2(中國科學(xué)院大學(xué),北京 100049)
太陽誘導(dǎo)葉綠素?zé)晒?Solar-Induced chlorophyll Fluorescence,SIF)信號是當(dāng)陽光被葉綠素吸收之時(shí)所產(chǎn)生的,屬于光合作用生化過程中釋放的光學(xué)信號.綠色植物特有的葉綠素?zé)晒庑盘栆虼顺蔀榱朔磻?yīng)光合作用強(qiáng)度的一個(gè)極為重要的的指標(biāo).在生態(tài)學(xué)中,SIF 信號已成為目前大時(shí)空尺度或全球尺度下反應(yīng)總初級生產(chǎn)力以及碳循環(huán)的最主要的數(shù)據(jù)源之一[1-4].如今全球氣候及生態(tài)變化引起越來越多的關(guān)注,葉綠素?zé)晒鈹?shù)據(jù)對于監(jiān)測興趣區(qū)域生態(tài)以及植物生產(chǎn)力的動(dòng)態(tài)具有重要的意義,可以為生態(tài)學(xué),水文學(xué)或農(nóng)業(yè)相關(guān)研究提供關(guān)鍵的數(shù)據(jù)支撐.近年來一些衛(wèi)星或者航空飛行器被用來檢測SIF 信號,在相關(guān)領(lǐng)域引發(fā)了一系列不同時(shí)空尺度上的研究[5-8],如Global Ozone Monitoring Experiment-2 (GOME-2)衛(wèi)星提供的全球覆蓋的SIF遙感數(shù)據(jù).然而GOME-2 現(xiàn)有產(chǎn)品的較低的時(shí)空分辨率阻礙了細(xì)粒度上SIF 的研究,如使用地表觀測來研究SIF 與GPP 之間的耦合關(guān)系.從2017年10月開始,TROPO spheric Monitoring Instrument (TROPOMI)衛(wèi)星產(chǎn)品開始投入使用[9],其空間分辨率約為7×3.5 公里,并且為逐天的數(shù)據(jù).這套SIF 衛(wèi)星數(shù)據(jù)可以顯著的改善由于較低的空間分辨率或者時(shí)間分辨率所帶來的限制,但其樣點(diǎn)式的觀測仍然無法提供感興趣區(qū)域內(nèi)高分辨率的連續(xù)數(shù)據(jù),而且尚無法提供長期歷史SIF 記錄來耦合特定興趣區(qū)域GPP 數(shù)值.
美國國家航空航天局的軌道碳觀測者2 號衛(wèi)星OCO-2 (Orbiting Carbon Observatory-2)在很大程度上改善了這一現(xiàn)狀[10,11].該衛(wèi)星自2014年9月發(fā)射之后就持續(xù)提供其軌道上的每天的葉綠素?zé)晒鈹?shù)據(jù)觀測值.OCO-2 衛(wèi)星的Footprint 大小為1.3×2.25 km2,其空間分辨率上是截至目前為止可用的SIF 遙感產(chǎn)品中最高的,這樣的高分辨率更有利于理解景觀的格局和異質(zhì)性對SIF 的影響以及SIF和GPP 的關(guān)系[12-17].但是由于OCO-2 衛(wèi)星的軌道是條帶狀的OCO-2 SIF 數(shù)據(jù)并非全球覆蓋,因此之前的研究主要針對恰好落于OCO-2 軌道之下的有限的區(qū)域,而且其軌道條帶之間具有很大的間隙.對于某一特定的感興趣區(qū)域而言,在特定時(shí)間內(nèi)僅有較少比例的研究區(qū)域有可利用的OCO-2 數(shù)據(jù),極端情況下甚至無數(shù)據(jù)可用.OCO-2 衛(wèi)星的巡回周期為16 天,為了得到感興趣區(qū)域內(nèi)空間覆蓋范圍盡可能大的數(shù)據(jù)集產(chǎn)品,OCO-2 原始葉綠素?zé)晒膺b感數(shù)據(jù)集常被整合成某個(gè)時(shí)間周期內(nèi)的空間分辨率為1 度的產(chǎn)品,但是這樣使得OCO-2 SIF 產(chǎn)品的高空間分辨率優(yōu)勢不復(fù)存在,顯著地影響了OCO-2 SIF 在相關(guān)研究之中的充分利用.
為了嘗試解決全球遙感SIF 數(shù)據(jù)集的空間不連續(xù)性,近來一些全球SIF 數(shù)據(jù)集重建研究開始著力解決這一問題[18-20].但對于區(qū)域或景觀尺度上的的研究來講,一般只關(guān)注特定的興趣區(qū)域,全球尺度的數(shù)據(jù)構(gòu)建體系尺度過大,其通用的數(shù)據(jù)重建模型對于特定的興趣區(qū)域來說,葉綠素?zé)晒鈹?shù)據(jù)的區(qū)域特異性或針對性不夠,從而一定程度上影響研究的數(shù)據(jù)質(zhì)量.本研究的思路為利用機(jī)器學(xué)習(xí)方法,遙感影像處理技術(shù),在景觀生態(tài)學(xué)專家知識系統(tǒng)指導(dǎo)下,為興趣區(qū)域內(nèi)的每一種植被類型在每個(gè)16 天的時(shí)間步長上建立有效模型,這些模型整合在一起形成了特定興趣區(qū)域在特定時(shí)間段的葉綠素?zé)晒鈹?shù)據(jù)重建框架.本論文以華北平原為例,作為感興趣區(qū)域范圍.目標(biāo)重建數(shù)據(jù)集的分辨率選為0.05 度,時(shí)間周期選為2018年生長峰季(6,7,8月,每16 天).在本實(shí)驗(yàn)中用于重建SIF 數(shù)據(jù)的特征源數(shù)據(jù)是MODIS 地面反照率數(shù)據(jù).
本論文的實(shí)驗(yàn)流程包括數(shù)據(jù)預(yù)處理,訓(xùn)練集生成,在生態(tài)學(xué)原理控制之下的多層感知機(jī)人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練,興趣區(qū)域內(nèi)預(yù)測與補(bǔ)全,空間連續(xù)高分辨率數(shù)據(jù)集的生成.具體如圖1所示.
OCO-2 SIF 為條帶狀數(shù)據(jù),其一個(gè)條帶上Footprint的形狀及分布如圖2所示.其Footprint 為不規(guī)則的四邊形.原始數(shù)據(jù)集提供了每個(gè)Footprint 的中心點(diǎn)和四個(gè)角點(diǎn)的地理坐標(biāo).由此可以完全確定每個(gè)Footprint的位置.
OCO-2 SIF 數(shù)據(jù)集提供的其他重要屬性還有:觀測時(shí)間,太陽入射角的值,觀測模式,757 nm 波段SIF數(shù)值(SIF757),771 nm 波段SIF 數(shù)值(SIF771),日均矯正因子(daily_corrector),國際陸屆生物圈方案(IGBP)土地覆蓋類型等.
圖1 興趣區(qū)域空間連續(xù)的高分辨率葉綠素?zé)晒鈹?shù)據(jù)集構(gòu)建框架
圖2 OCO-2 衛(wèi)星條帶狀軌道局部及其Footprint 示意圖
根據(jù)OCO-2 數(shù)據(jù)集提供的屬性說明,其觀測模式共有三種:Nadir,Target,以及Glint.其中Nadir 觀測模式為衛(wèi)星傳感器近似垂直觀測,本模式的數(shù)據(jù)受測量角度的影像可以忽略不計(jì).因此本研究的采用的目標(biāo)值為Nadir 觀測模式下的葉綠素?zé)晒鈹?shù)值.另外,原始數(shù)據(jù)集提供了757 nm 以及771 nm 上的葉綠素?zé)晒鈹?shù)據(jù)的瞬時(shí)值.本實(shí)驗(yàn)采用757 nm 波段的數(shù)據(jù).由于SIF 瞬時(shí)值受觀測時(shí)間影響較大,在本研究中,具體采用各波段的日均矯正值,而不是瞬時(shí)值.SIF 的日均矯正值可以由瞬時(shí)值乘以日均校正因子得到.由于OCO-2 Footprint 尺度上的葉綠素?zé)晒鈹?shù)據(jù)的觀測本身具有一定的誤差,為了獲得更加穩(wěn)定的目標(biāo)值,從而在訓(xùn)練中取得更好的效果,對于某個(gè)中心Footprint,我們采用“5 最近鄰”Footprint 的平均值作為最后的訓(xùn)練目標(biāo)值.
這種空間整合實(shí)質(zhì)為空間重采樣,經(jīng)過“5 最近鄰”的處理,參考Footprint 的空間分辨率大小,總體來講可以將源數(shù)據(jù)的空間分辨率調(diào)整至5 公里的平均精度級別上,在中緯度地區(qū)折算成緯度跨度約為0.05 度,與目標(biāo)重建數(shù)據(jù)集的空間分辨率一致.這種空間整合在犧牲較小幅度的空間分辨率的代價(jià)下,對OCO-2 SIF 原始數(shù)據(jù)較大的噪聲誤差起到了減弱的作用,更有利于得到更高質(zhì)量的訓(xùn)練目標(biāo)數(shù)據(jù).根據(jù)Frankenberg 等人的研究,當(dāng)空間重采樣過程中單個(gè)像元整合的Footprint個(gè)數(shù)為n時(shí),隨機(jī)誤差或噪聲會被減少至原來的n(-1/2),因此5 個(gè)最近鄰footprint 的整合會將誤差大概降至原來的0.4 左右.0.05 度的空間分辨率對于區(qū)域性空間連續(xù)的葉綠素?zé)晒鈹?shù)據(jù)來講,已屬于高分辨率級別,完全可以滿足與SIF 相關(guān)研究的需要.
接下來的數(shù)據(jù)預(yù)處理步驟為地表反照率特征數(shù)據(jù)源的預(yù)處理.MODIS 地表反照率數(shù)據(jù)有多個(gè)系列.數(shù)據(jù)集MCD43A4 系列產(chǎn)品提供每天的全球覆蓋的地表反照率數(shù)據(jù),其分辨率為500 米,可以為逐天的OCO-2 Footprint 提供對應(yīng)的反照率特征數(shù)據(jù).MCD43C4 系列產(chǎn)品的空間分辨率為0.05 度,來源于MCD43A4 逐天的數(shù)據(jù),經(jīng)MODIS 質(zhì)量控制體系整合到0.05 度的空間分辨率.MCD43C4 產(chǎn)品可以很方便的整合到時(shí)間分辨率為16 天的數(shù)據(jù),為模型建立之后,生產(chǎn)時(shí)間分辨率為16 天,空間分辨率為0.05 度的數(shù)據(jù)集提供特征數(shù)據(jù)源.
本研究基于MODIS 衛(wèi)星地表反照率數(shù)據(jù)提取模型的訓(xùn)練特集.OCO-2 衛(wèi)星的分辨率為1.3×2.25 km2,而MODIS 影像的分辨率為500 m,因此會有一定數(shù)量的MODIS 像元落在OCO-2 的Footprint 之中.這也為我們建立基于MODIS 反照率的訓(xùn)練特征提供了可能性.
由于OCO-2 SIF 原始條帶狀的數(shù)據(jù)為逐天的數(shù)據(jù),因此我們采用了MODIS 反照率產(chǎn)品系列中的MCD43A4,該數(shù)據(jù)為全球覆蓋的逐天數(shù)據(jù)集,可以滿足實(shí)驗(yàn)要求.
對于每一個(gè)Footprint,我們?nèi)∷兄行狞c(diǎn)落在其中的MODIS 像元作為對應(yīng)像元群體,然后取該群體的七個(gè)波段各自的均值和方差作為特征集,以此來獲取每個(gè)MODIS 波段的反照率的平均水平以及方差.因此,該特征集的特征維度為14.該特征集可以反應(yīng)MODIS 反照率個(gè)波段的平均強(qiáng)度和變異性.
為了生成OCO-2 SIF 對應(yīng)的特征數(shù)據(jù)集,我們設(shè)計(jì)了如下算法:
算法1.OCO-2 SIF 特征集構(gòu)建算法1) 讀取某一天的SIF 序列,從文件中讀取SIF757 瞬時(shí)值,日均值校正因子,中心點(diǎn)坐標(biāo),四個(gè)角點(diǎn)坐標(biāo),土地覆蓋類型,將這些變量分別存儲為等長向量.2) 讀取該日的所有全球MODIS 影像,取出MODIS 左上角頂點(diǎn)坐標(biāo),像元長度,以及像元寬度.計(jì)算出影像四個(gè)角點(diǎn)的范圍.建立MODIS 該日的影像地理信息詞典,以日期作為詞典名,以影像的文件名作為詞典的索引,上述提到的其他變量作為詞條內(nèi)容.3) 依次讀取讀取OCO-2 SIF 向量中的footprint,根據(jù)其日期獲取對應(yīng)的MODIS 詞典.遍歷詞典中的詞條,判定OCO-2 SIF footprint 的四個(gè)角點(diǎn)是否均落在該MODIS 影像之中,如果是,跳出循環(huán),進(jìn)行下一步.4) 根據(jù)MODIS 影像的地理信息,將MODIS 像元的坐標(biāo)轉(zhuǎn)換為與OCO-2 Footprint 相一致的坐標(biāo)系(WCG1984).計(jì)算出該影像中所有落入Footprint 之中的MODIS 像元的行列號.5) 讀取并在訓(xùn)練集中保存目標(biāo)值日均SIF、Footprint 土地覆蓋類型,MODIS 像元土地覆蓋類型眾數(shù)以及相對應(yīng)的MODIS 波段平均值.
在訓(xùn)練集的生成過程中,我們通過OCO-2 的地理信息查詢到與其對應(yīng)的MODIS 影像的ID,滿足要求的MODIS 影像完全覆蓋Footprint,如果出現(xiàn)一個(gè)Footprint 跨越多幅影像的情況,該Footprint 會被忽略.另外,為了增強(qiáng)對Footprint 土地覆蓋類型的判斷信心,我們會選擇OCO-2 土地覆蓋信息和MODIS 像元土地覆蓋類型的眾數(shù)相一致的作為訓(xùn)練樣本.這種處理方式適用于空間分辨率不一致的情況,可以有效增加判斷信心.
為了建立MODIS 地表反照率與OCO-2 SIF 數(shù)值之間的關(guān)系,我們建立了多層感知機(jī)作為數(shù)據(jù)擬合和重建的算法.多層感知機(jī)是典型的前饋人工神經(jīng)網(wǎng)絡(luò),在多種機(jī)器學(xué)習(xí)任務(wù)中得到廣泛的應(yīng)用[21-24].以2018年生長峰季華北地區(qū)OCO-2 SIF 數(shù)值的全覆蓋、高分辨率數(shù)據(jù)集的重建為例,為了有針對性的完成該任務(wù),我們采取了生態(tài)學(xué)原理控制下的訓(xùn)練方法.具體的為僅采用華北地區(qū)所在的亞洲生物地理分區(qū)內(nèi)的有效訓(xùn)練樣本.即2018年生長峰季6月,7月,8月的SIF 數(shù)值作為訓(xùn)練目標(biāo)值,這樣可以確保訓(xùn)練得到的SIF 與MODIS 的關(guān)系是建立在相應(yīng)的時(shí)空條件下的,從而保證了預(yù)測效果與數(shù)據(jù)的準(zhǔn)確性.在進(jìn)行模型訓(xùn)練的同時(shí),我們采用了MODIS 與OCO-2 同時(shí)使用的IGBP 土地覆蓋數(shù)據(jù)劃分訓(xùn)練樣本,為每種植被類型建立特異化的模型.
本研究所采用的多層感知機(jī)的具體的訓(xùn)練策略為通過5 折交叉驗(yàn)證來選取多層感知機(jī)神經(jīng)網(wǎng)絡(luò)的各個(gè)參數(shù),包括激活函數(shù),最大迭代次數(shù),神經(jīng)網(wǎng)絡(luò)的層數(shù)以及每層的神經(jīng)元數(shù)目,從而在設(shè)定的參數(shù)空間內(nèi)尋求最優(yōu)的參數(shù)組合,建立相對最優(yōu)的模型,用于數(shù)據(jù)的重建任務(wù),以求盡可能達(dá)到更好的效果,保持原有數(shù)據(jù)的時(shí)空分布特征.其中激活函數(shù)的尋優(yōu)空間包含logistic、tanh、以及relu 函數(shù);網(wǎng)絡(luò)層數(shù)的尋優(yōu)空間為1 至5 層,每層的神經(jīng)元數(shù)目的尋優(yōu)范圍為3 至21之間的奇數(shù),具體如表1所示.由空間分辨率為0.05 度的MODIS 反照率數(shù)據(jù)集MCD43C4 生成的每16 天的特征數(shù)據(jù),提供給訓(xùn)練好的模型用于預(yù)測,從而完成目標(biāo)數(shù)據(jù)集重建.
表1 多層感知機(jī)參數(shù)尋優(yōu)范圍
本文設(shè)置的參數(shù)尋優(yōu)組合數(shù)量眾多,受篇幅所限不可能展示每一類植被類型在每種參數(shù)組合下的表現(xiàn),為了直觀的展示參數(shù)尋優(yōu)的過程,我們以農(nóng)田(IGBP index=CROP)類型在激活函數(shù)為relu,網(wǎng)絡(luò)層數(shù)為3 時(shí)的神經(jīng)網(wǎng)絡(luò)為例,選取了幾個(gè)參數(shù)組合,展示模型在不同配置下的表現(xiàn).示例結(jié)果如表2所示.
表2 多層感知機(jī)在不同參數(shù)組合上的表現(xiàn)示例
為了評價(jià)數(shù)據(jù)重建模型的數(shù)據(jù)擬合效果,我們利用訓(xùn)練集以及預(yù)留的驗(yàn)證數(shù)據(jù)進(jìn)行了典型的機(jī)器學(xué)習(xí)的驗(yàn)證,將所有的土地覆蓋類型融合到一起后呈現(xiàn)驗(yàn)證結(jié)果,可以反映出模型的綜合表現(xiàn).圖3展示了本模型在訓(xùn)練集上的表現(xiàn).采用預(yù)測值與原始值的擬合線的斜率,相關(guān)系數(shù)R2與均方根誤差RMSE 的值來進(jìn)行評價(jià).可以從中看到,擬合線的斜率為0.95,相關(guān)系數(shù)R2的數(shù)值達(dá)到了0.72,均方根誤差RMSE 的數(shù)值低至0.081,顯示出了該模型在訓(xùn)練集上的良好表現(xiàn).
圖3 數(shù)據(jù)重建模型在訓(xùn)練集上的表現(xiàn)
本實(shí)驗(yàn)所建立的多層感知機(jī)神經(jīng)網(wǎng)絡(luò)模型在驗(yàn)證數(shù)據(jù)集上的表現(xiàn)如圖4所示,擬合線的斜率為0.95,相關(guān)系數(shù)R2的數(shù)值達(dá)到了0.7,均方根誤差RMSE 的數(shù)值低至0.084,基本與模型在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)處在同一水平線上,顯示出了該模型在驗(yàn)證集上的依然具有比較穩(wěn)定的表現(xiàn).
圖4 數(shù)據(jù)重建模型在訓(xùn)練集上的表現(xiàn)
從圖3及圖4可以看出,SIF 預(yù)測值與真實(shí)值之間具有很高的相關(guān)性,而且在整個(gè)值域上具有良好的跟隨關(guān)系.
華北地區(qū)最終的葉綠素?zé)晒庵亟〝?shù)據(jù)集如圖5所示.重建后的葉綠素?zé)晒鈹?shù)據(jù)覆蓋整個(gè)興趣區(qū)域,具有空間連續(xù)性.同時(shí)模型的良好表現(xiàn)說明了其預(yù)測數(shù)值的有效性.對比原始OCO-2 葉綠素?zé)晒鈹?shù)據(jù)集空間重采樣到1 度的數(shù)據(jù)集,興趣區(qū)域內(nèi)重建后的葉綠素?zé)晒鈹?shù)據(jù)集具有遠(yuǎn)高于原有1 度數(shù)據(jù)集的分辨率.基于我們在生態(tài)原理控制下建立的多層感知機(jī)模型,重建數(shù)據(jù)集保留了原有數(shù)據(jù)集的空間分布規(guī)律,同時(shí)由于其空間連續(xù)性,該數(shù)據(jù)集的可用性遠(yuǎn)大于原有的OCO-2 SIF 數(shù)據(jù)集.新的葉綠素?zé)晒鈹?shù)據(jù)集的空間分辨率為0.05 度,也遠(yuǎn)高于現(xiàn)有的空間連續(xù)的葉綠素?zé)晒庠歼b感數(shù)據(jù)集,如GOME-2,其空間分辨率約為40 公里.從圖五中的生長峰季三個(gè)月6月,7月,8月的SIF 高值分布及變化來看,基本反映出了如下規(guī)律:1) 7月作為華北地區(qū)降水量以及月均溫最高的月份,植被的生產(chǎn)力水平,或者光合作用強(qiáng)度達(dá)到頂峰;2)從6月到8月,該地區(qū)SIF 平均水平經(jīng)歷了先上升后下降的過程,而且在下降的時(shí)候,反映出了高緯度或者高海拔先下降,大型農(nóng)業(yè)種植區(qū)所在的低緯度低海拔地區(qū)SIF 峰值維持時(shí)間較長等趨勢.這些結(jié)論與先驗(yàn)生態(tài)學(xué)知識基本相符,進(jìn)一步證明了重建數(shù)據(jù)集的有效性.
本論文以華北地區(qū)2018年的生長峰季為例,通過人工神經(jīng)網(wǎng)絡(luò),基于MODIS 地表反照率與軌道碳觀測者二號所提供的葉綠素?zé)晒庑盘栠b感數(shù)據(jù)建立模型,并用于高分辨率、空間連續(xù)的數(shù)據(jù)集的重建任務(wù).本研究展示了一種獲取興趣區(qū)域特定時(shí)間段內(nèi)高質(zhì)量葉綠素?zé)晒膺b感監(jiān)測數(shù)據(jù)集的生成方法,并通過驗(yàn)證證明了該方法的有效性.該方法可以與葉綠素?zé)晒饣蚩偝跫壣a(chǎn)力相關(guān)的交叉學(xué)研究提供相應(yīng)的數(shù)據(jù)支撐.由于軌道碳觀測者2 號的葉綠素?zé)晒鈹?shù)據(jù)以及MODIS 反照率數(shù)據(jù)均具有數(shù)據(jù)缺失或者質(zhì)量較低的情況,該框架在特殊地區(qū)特殊時(shí)間,如熱帶雨林生長峰季,會面臨較多的源數(shù)據(jù)缺失問題,這屬于一種不可控因素.基于各相關(guān)學(xué)科專家知識系統(tǒng)或者經(jīng)驗(yàn)?zāi)P偷臄?shù)據(jù)補(bǔ)全方案或具備一定的可行性,也可能是未來潛在的一個(gè)研究方向.
圖5 華北地區(qū)2018年生長峰季SIF 重建數(shù)據(jù)集以及1 度分辨率原始數(shù)據(jù)集對比圖(第一行為重建數(shù)據(jù)集,第二行為原始數(shù)據(jù)集重采樣到1 度;第一列為6月數(shù)據(jù),第二列為7月數(shù)據(jù),第三列為8月數(shù)據(jù))