凌從高, 穆 溪, 許 敏, 王思晨, 趙秋雨, 江 鵬, 2*
濕地生態(tài)系統(tǒng)實際蒸散發(fā)數(shù)據(jù)驅動估算模型研究
凌從高1, 穆 溪1, 許 敏1, 王思晨1, 趙秋雨1, 江 鵬1, 2*
(1. 安徽大學資源與環(huán)境工程學院,合肥 230601;2. 安徽大學信息材料與智能感知安徽省實驗室,合肥 230601)
利用Fluxnet2015全球通量塔觀測數(shù)據(jù)集,研究了隨機森林(RF)、梯度增強回歸分析(GBR)、支持向量回歸(SVR)和深度學習神經(jīng)網(wǎng)絡(DNN)預測濕地生態(tài)系統(tǒng)的實際蒸散發(fā)(Evaporation,ET)。通過對比研究,確定了預測實際蒸散發(fā)的最佳特征變量組合,包括短波輻射、凈輻射、初級生產(chǎn)總值、氣溫、土壤溫度、風速、降水、經(jīng)度、緯度和時間。以此為模型輸入,利用Fluxnet2015站點測試數(shù)據(jù)集和ERA5-Land再分析資料提供的輸入特征,對比分析了不同模型的實際蒸散發(fā)估計精度,結果表明:以站點數(shù)據(jù)為輸入,SVR算法精度相對較高,其2可達0.896,RPE最小為31.5%;以ERA5-Land再分析資料為輸入,除了GBR算法以外,其余3種方法2高于0.820,RPE小于57%。另外,模型算法估計的ET精度要明顯高于ERA5-Land再分析資料提供的ET產(chǎn)品。
濕地;蒸散發(fā);機器學習;深度學習;ERA5-Land
水是濕地生態(tài)環(huán)境的基本要素之一,濕地在調節(jié)氣候、涵養(yǎng)水源和降低環(huán)境污染方面都發(fā)揮著極其重要的作用,具有巨大的環(huán)境功能和環(huán)境效益[1]。濕地的蒸散發(fā)是水循環(huán)中重要的組成部分之一。實際蒸散發(fā)(ET)包括植物的蒸騰作用和地表蒸發(fā),在水平衡和地表能量平衡中起著關鍵作用[2],可以直接反映區(qū)域的濕度條件和水資源的利用[3-4]。因此,準確估算濕地蒸散量是一項重要的任務[5]。然而,濕地蒸散發(fā)很難精準估算[6]。傳統(tǒng)的ET監(jiān)測方法通?;谠粺嵬空竟浪鉡7]。最近,眾多新的方法被提出來以估計不同空間尺度上陸地ET[8]。隨著遙感數(shù)據(jù)產(chǎn)品的增加,遙感已經(jīng)成為研究大尺度區(qū)域中實際ET的重要技術手段[9]?;谶b感數(shù)據(jù)的ET反演模型有很多,包括基于溫度的Hargreaves模型[10]、Priestley-Taylor模型等[11]。在許多研究中,F(xiàn)AO-56 Penman-Monteith模型被視為估算ET的標準方法[12]。這些模型具有復雜的計算過程,且深受輸入遙感數(shù)據(jù)和氣象數(shù)據(jù)質量的影響。地表ET的另一種量化方法是地表能量平衡模型[13]。然而,地表模型需要了解復雜的水文過程,這需要獲取與蒸騰和蒸發(fā)過程相關的各種參數(shù),這些參數(shù)通常很難獲得。
近年來,機器學習(ML)算法正在蓬勃發(fā)展[14]。它具有強大的學習能力,能夠發(fā)現(xiàn)復雜數(shù)據(jù)中變量之間的潛在關系。與傳統(tǒng)建模方法相比,機器學習算法的計算過程一般更簡單,輸入變量的類型也更靈活[15-16]。Wu等利用新型的K-means聚類極限學習機和螢火蟲算法對鄱陽湖盆地26個氣象站的平均日ET進行了預測[17]。Fan等利用支持向量機和深度神經(jīng)網(wǎng)絡對西北地區(qū)夏玉米ET進行估計,得到了較好的預測結果[18]。然而,在濕地實際蒸散發(fā)預測中,機器學習方法的應用還很有限。因此,利用機器學習建模方法估算濕地生態(tài)系統(tǒng)的蒸散量受到越來越多的關注[19]。機器學習算法的主要挑戰(zhàn)是模型和輸入模型變量的最優(yōu)選擇。比較不同機器學習算法估計ET的性能也是相關研究領域的一個研究熱點[20-21]。
本研究基于前人少有選擇的全球分布的Fluxnet2015數(shù)據(jù)集和ERA5-Land全球再分析資料,評估了4種機器學習方法估算ET的表現(xiàn),包括隨機森林(RF)、梯度增強回歸樹(GBR)、支持向量回歸(SVR)和深度學習(DNN)。本研究的主要目的如下:(1)優(yōu)化估算ET模型輸入變量;(2)研究濕地生態(tài)系統(tǒng)ET估算機器學習模型的精度。首先介紹了本研究所用的數(shù)據(jù)來源以及4種估算ET的方法。其次,確定了4種方法最優(yōu)的特征變量組合,對4種模型預測ET精度進行了對比分析。最后,綜合評價了4種模型的優(yōu)缺點。
本研究采用了Fluxnet2015數(shù)據(jù)集(http:// fluxnet.fluxdata.org/)的18個通量塔站點2000年—2014年數(shù)據(jù),根據(jù)站點日志,這些通量塔所處生態(tài)系統(tǒng)均為濕地生態(tài)系統(tǒng)。所選站點的位置分布信息如表1所示,可以看到,所選站點分布范圍較廣,有較好的代表性。其中,18個站點2000年到2013年的數(shù)據(jù)作為機器學習模型訓練數(shù)據(jù)集,而2014年的數(shù)據(jù)則作為模型精度評估的參考值,用以計算機器學習模型測試結果的精度指標。Fluxnet2015數(shù)據(jù)集各年份數(shù)據(jù)量圖1顯示,各年份的數(shù)據(jù)量差異較為明顯,主要是由于在數(shù)據(jù)處理過程中剔除了有缺失變量日期的數(shù)據(jù)。
表1 本研究濕地站點信息
圖1 本研究所選Fluxnet2015站點逐年數(shù)據(jù)量
Figure 1 Annual data volume of Fluxnet2015 site selected in this paper
Fluxnet2015數(shù)據(jù)集提供了逐時、逐日、逐周、逐月和逐年合計5個標準時間尺度數(shù)據(jù)集。在本研究中,使用了Fluxnet2015數(shù)據(jù)集提供的每日數(shù)據(jù)。Fluxnet站點單日ET的參考值(mm·d-1)可通過公式(1)計算[22]
其中,LE是每日潛熱通量,可以直接從Fluxnet2015數(shù)據(jù)集獲得;λ為水的蒸發(fā)潛熱;ρw為水密度。
Figure 2 Correlation coefficients between ET and multiple characteristic variables
為訓練估算ET機器學習模型,首先從Fluxnet2015數(shù)據(jù)集中選擇了觀測數(shù)據(jù)缺失較少的特征量;然后計算ET與這些特征量間的相關系數(shù),結果如圖2所示??紤]到變量的可用性及先驗知識,選擇了7種特征作為模型的候選輸入特征,包括短波輻射(SW,W·m-2)、凈輻射(NR,W·m-2)、初級生產(chǎn)力(GPP,gC/·(m2·d-1) )、氣溫(TA,℃)、土壤溫度(TS,℃)、風速(WS,m·s-1)、降水(P,mm)。
考慮到Fluxnet站點分布有限,為更好地驗證本研究算法的適用性,在測試評估算法精度時,采用更易獲取的面覆蓋特征數(shù)據(jù)用以替代站點特征數(shù)據(jù),其中,ERA5-Land再分析資料包含SW、NR、TA、TS、WS、P等特征,而GPP數(shù)據(jù)由地理空間數(shù)據(jù)云(http://www.gscloud.cn/search)提供的1 km總初級生產(chǎn)力8天合成產(chǎn)品。ERA5-Land為ECMWF第5代全球大氣再分析數(shù)據(jù)集(https://cds. climate.copernicus.eu/cdsapp#!/home),時間覆蓋從1950年1月至今,時間分辨率為逐小時,空間分辨率為9 km(約為0.1°×0.1°)。
為構建ET估算模型,本研究基于scikit-learn庫(https://scikit-learn.org/)開發(fā)了RF、GBR和SVR 3種算法模型,并基于Keras庫(https://keras.io/)構建并優(yōu)化了一種深度神經(jīng)網(wǎng)絡DNN,Keras是用Python編寫的高級神經(jīng)網(wǎng)絡API,能夠在TensorFlow、CNTK或Theano上運行,4種算法的基本原理如下。
式(2)中:為自變量;為決策樹個數(shù);為隨機變量。
1.2.2 梯度提升回歸樹(GBR) GBR廣泛應用于各個領域,如中長期徑流預報研究[26]。該方法也被應用于生態(tài)研究中,Song等基于GBR預測了水合物相平衡條件[27]。GBR的原理是通過反復修正數(shù)據(jù)的權重來訓練一系列弱學習者[28]。將這些弱學習者的預測結果與加權或加權求和相結合,就可以生成最終的預測結果。該方法在回歸問題中得到了廣泛應用,然而,當遇到大量和更復雜的數(shù)據(jù)集時,這種方法的能力受到了挑戰(zhàn)[29]。根據(jù)本研究實驗,發(fā)現(xiàn)模型學習率取決于數(shù)據(jù)量并且弱學習器的迭代次數(shù)為500,可以獲得較好的預測。
1.2.3 支持向量回歸(SVR) 支持向量機方法是一種經(jīng)典的數(shù)據(jù)驅動方法,在很多回歸問題中也被廣泛應用[30-31]。尤其在高維空間中有效[32]。即使數(shù)據(jù)維數(shù)大于樣本數(shù),SVR仍然有效。該模型是通用的,因為內核可以定制。但是,需要注意的是,如果特征的數(shù)量遠遠大于樣本的數(shù)量,模型的過擬合可能會產(chǎn)生錯誤的預測。這一問題可以通過選擇合適的核函數(shù)和正則化項來解決。因此,本研究中采用徑向基函數(shù)作為核函數(shù),發(fā)現(xiàn)懲罰參數(shù)C的最優(yōu)值為1。
1.2.4 深度神經(jīng)網(wǎng)絡(DNN) DNN可以被描述為一個具有許多隱藏層的神經(jīng)網(wǎng)絡。根據(jù)不同層的位置,DNN中的神經(jīng)網(wǎng)絡層可以分為3種類型:輸入層、隱含層和輸出層[33]。由于其強大的信息提取能力,已被廣泛應用于各個領域。如Sam等利用DNN解決涉及隱私的圖像分類問題[34];Ahamad等對地表水水質的研究表明DNN在回歸擬合問題上具有優(yōu)勢[35]。然而,DNN在ET估算中的應用研究還不夠多。
DNN模型的估計精度與網(wǎng)絡結構密切相關。根據(jù)估計精度,可以優(yōu)化網(wǎng)絡的層數(shù)和神經(jīng)元數(shù)量。本研究訓練了不同結構的DNN模型。優(yōu)化后的DNN模型最終結構如圖3所示。DNN有4個全連接層,每層神經(jīng)元數(shù)量逐漸減少,從512個減少到64個。為了克服訓練過程中的過擬合問題,加入了dropout層[36]。如圖3所示,特征數(shù)據(jù)被標準化并輸入到模型和測試數(shù)據(jù)中。上層神經(jīng)元的輸出由式(3)加權,再由式(4)計算激活函數(shù),最后由式(5)估計ET預測。采用反向傳播優(yōu)化算法對神經(jīng)元的權值進行學習、調整和更新,最終得到最優(yōu)的預測結果[37]。
其中n為第個隱藏層的第個神經(jīng)元,為第層的神經(jīng)元數(shù),為兩層之間的權值,為激活計算過程后的值,為偏差,為估計的目標值。
圖3 DNN模型結構
Figure 3 DNN model structure
本研究使用決定系數(shù)(2)和相對誤差()作為模型精度評估指標。2是一個歸一化統(tǒng)計量,計算方法如下[38]:
其中,為測試數(shù)據(jù)總量,T為的參考值,T為測試數(shù)據(jù)集中的日平均ET,P為第個日ET的模型預測。式中分子部分表示實數(shù)和預測值的平方和。分母部分表示真值與均值之差的平方和。2的取值范圍是0~1。一般來說,2越大,模型的預測效果越好。
為預測值與參考值之間均方根誤差[39],定義為:
式中各符號含義同式(6)。此外,本研究中所有指標均在<0.01的顯著性水平下計算。
如1.1節(jié)所述,根據(jù)相關性及先驗知識選擇了7種特征作為候選輸入特征。為了最佳地確定每個算法的輸入變量,使用了Fluxnet2015數(shù)據(jù)集中2000年至2013年18個站點的14 890條記錄訓練不同的機器學習方法模型。對于每個模型,80%的數(shù)據(jù)用于訓練模型,20%數(shù)據(jù)用于模型測試。對輸入特征進行標準化是關鍵的一步,在對每個模型進行訓練之前,必須對所有的輸入變量進行標準化,否則非標準化的數(shù)據(jù)會產(chǎn)生較差的預測。
分別評估不同輸入特征組合下的4種模型測試數(shù)據(jù)的2和,結果如表2所示。對于SW、NR雙變量組合,盡管這兩個參數(shù)與ET是高度相關的,但是其訓練的模型2總是低于0.71,并且RPE都大于39%;而在輸入變量中加入GPP、TA和TS可以顯著提高4種方法的預測精度;WS、P特征對于模型精度提高的貢獻相對較小;還添加了經(jīng)緯度(Lon、Lat)和年積日(D)變量作為輸入特征,進一步改進模型精度。最后本研究確定模型最優(yōu)輸入特征為SW、NR、GPP、TA、TS、WS、P、Lon、Lat和D組合。
試驗結果表明,無論選擇哪種輸入特征,SVR方法的預測結果相對來說都是最差的,DNN在多項實驗中表現(xiàn)較好。在不同的輸入變量組合下,GBR和SVR方法表現(xiàn)的2和都很接近。而這兩種方法的結果都低于DNN。另外,不同的訓練方法,訓練時間也不同。例如,輸入變量為10個時,GBR方法訓練和預測需要十幾分鐘,而DNN只需要幾分鐘,SVR大約需要0.5 h。
數(shù)據(jù)集的大小也是模型預測的一個重要因素。本節(jié)研究了不同訓練數(shù)據(jù)量下4種算法的性能。根據(jù)3.1節(jié)的結果,所有方法均采用SW、 NR、 GPP、 TA、 TS、 WS、 P、 Lon、 Lat和D作為輸入特征。選取訓練數(shù)據(jù)量分別為3 000、6 000、10 000和全部數(shù)據(jù)(14 890)。4種不同訓練數(shù)據(jù)集大小的方法效果如圖4所示。
可以看到,訓練數(shù)據(jù)量的增加對模型的整體性能有積極的影響。隨著訓練數(shù)據(jù)量的增加,4種方法的2基本都呈現(xiàn)遞增的趨勢,基本呈現(xiàn)遞減的趨勢??偠灾?,訓練數(shù)據(jù)量的增加將改善模型的性能,但是,隨著訓練數(shù)據(jù)量的增加,數(shù)據(jù)量變化對模型的積極作用將減弱。同時,增加數(shù)據(jù)量可能帶來更多的時間成本。隨著訓練數(shù)據(jù)量的增加,使用SVR方法進行模型訓練的時間將會顯著增加。當使用全部數(shù)據(jù)量訓練模型時,其模型訓練效果如圖5所示。4個模型對于濕地蒸散發(fā)的預測效果存在著差異??梢钥吹?,DNN深度學習模型和RF機器學習算法的訓練效果最優(yōu),其次是GBR機器學習算法。
表2 不同輸入變量組合對應4種方法的R2和RMSE
圖4 不同數(shù)據(jù)量模型的R2和RPE
Figure 42andof different data volume models
圖5 模型的預測值與觀測值之間的比較
Figure 5 A comparison between the predicted and observed values of the model
ET受氣候因素(例如氣溫,風速等)以及人類活動的影響。更重要的是,它對子葉的葉區(qū)非常敏感,因此影響了冠層的蒸騰和截留區(qū)[40]。在濕地生態(tài)系統(tǒng)中,4種機器學習方法在預測ET的性能是不同的。
為進一步論證各模型性能,使用了2014年站點觀測值作為驗證數(shù)據(jù),而模型訓練采用的是這些站點2000—2013年的觀測數(shù)據(jù),因此本次實驗保證了驗證數(shù)據(jù)時間上的獨立性。驗證結果如圖6所示??梢钥吹?,4種方法的驗證效果有較大差異,其中,SVR模型的效果最好,預測的2能達到0.896,RPE只有31.5%。RF次之,GBR模型的效果最差。為了更好地驗證模型精度,驗證了站點實際ET與SVR模型預測的ET在時間上的連續(xù)性,結果如圖7所示。
圖6 2014年18個站點測試效果
Figure 6 18 sites were tested in 2014
圖7 站點ET與SVR預測ET時間序列圖
Figure 7 Site ET and SVR prediction ET time series diagram
站點分布有限,觀測范圍也有限,ERA5-Land資料覆蓋全球,能夠有效彌補站點在觀測空間上的缺陷。所以,基于本研究訓練的4種機器學習模型,在前述站點位置處,提取了2014年ERA5-Land資料中的特征變量,用以評估本研究機器學習模型對于ERA5-Land數(shù)據(jù)集的適用性,并且與ERA5-Land直接提供的ET結果進行了對比,結果如圖8和圖9所示。結果顯示RF模型的預測效果是最好的,SVR和DNN略差,而GBR在不同數(shù)據(jù)上的表現(xiàn)有明顯差異。另外,ERA5-Land資料中提供的ET與站點觀測ET相關性較低(2=0.134),且RPE明顯偏大(=90%)。數(shù)據(jù)驅動的4種ET估算模型在預測濕地ET精度方面,要明顯優(yōu)于ERA5-Land數(shù)據(jù)集提供的ET產(chǎn)品。
圖8 2014年18個站點ERA5-Land測試效果
Figure 8 ERA5-Land was tested on 18 sites in 2014
圖9 ERA5-Land ET與站點ET相關性比較
Figure 9 Comparison of correlation between ERA5-Land ET and site ET
濕地對于調節(jié)氣候和維護生態(tài)系統(tǒng)的穩(wěn)定性具有不可替代的作用,保護濕地顯得尤為重要,濕地的保護還需要了解生態(tài)系統(tǒng)中水平衡動態(tài)的相關知識。因此,準確估算濕地生態(tài)系統(tǒng)的蒸散發(fā)也是至關重要的。相關文獻證明,在濕地生態(tài)系統(tǒng)蒸散發(fā)估算中,傳統(tǒng)的基于經(jīng)驗公式估算方法的精度存在一定的缺陷。若提供足夠的數(shù)據(jù)量,機器學習方法是一種最為常見的替代方法。
本研究采用了4種數(shù)據(jù)驅動的機器學習算法來預測濕地生態(tài)系統(tǒng)的單日ET。闡述了利用深度學習、隨機森林、梯度提升回歸樹和支持向量回歸建立有效的濕地實際蒸散發(fā)預測模型。之所以選擇前述算法,是因為它們非常擅長學習復雜的、高度非線性的關系。此外,這幾種方法很少被用于專門研究濕地蒸散發(fā)。實驗結果表明,輸入特征和訓練數(shù)據(jù)量會明顯影響4種方法估算ET的性能,四種建模方法的性能隨著輸入變量和數(shù)據(jù)量的增加而提高。這一結果與Granata利用機器學習方法估算佛羅里達州印第安河縣藍柏沼澤濕地蒸散發(fā)相一致。本研究確定了SW、NR、GPP、TA、TS、WS、P、Lon、Lat和D組成的最佳輸入特征變量組合,使得4種模型的訓練結果2均高于0.8。由表1中的實驗結果可知,如果模型的輸入變量不添加經(jīng)緯度和日期信息,所選擇的算法模型精度會有降低,但是降低的幅度不大。通過測量與蒸散發(fā)相關的必須變量,例如短波輻射、凈輻射、總初級生產(chǎn)力、氣溫、土壤溫度、風速和降水等,可以得到足夠精確的估算模型。因此,結合上述變量,建立可靠的機器學習模型來預測濕地實際蒸散發(fā)是完全可能的。另外,隨著數(shù)據(jù)量的增加,數(shù)據(jù)量的變化對于模型的積極作用將會減弱。在今后的研究中,選擇最優(yōu)模型時,尤其是在訓練數(shù)據(jù)量比較大的情況下,應平衡訓練時間與訓練精度。
利用多種獨立數(shù)據(jù)集(包括站點獨立時間段數(shù)據(jù)和ERA5-Land氣象資料數(shù)據(jù))提供的輸入變量對4種模型的精度進行了評估。結果表明,SVR和RF模型精度與可靠性相對較高,而數(shù)據(jù)驅動的ET估算模型精度明顯優(yōu)于ERA5-Land資料中提供的ET產(chǎn)品。這表明相較于通量塔觀測數(shù)據(jù)和傳統(tǒng)的再分析資料,本研究的高精度數(shù)據(jù)驅動模型能夠為濕地生態(tài)系統(tǒng)蒸散發(fā)相關研究提供更好的大范圍的蒸散發(fā)估算產(chǎn)品。
致謝:這項工作使用了來自FLUXNET2015數(shù)據(jù)集的渦流相關數(shù)據(jù)和ERA5-Land再分析數(shù)據(jù)集,該數(shù)據(jù)集分別由FLUXNET官網(wǎng)和ECMWF官網(wǎng)獲取并共享。
[1] 宮兆寧, 陸麗, 金點點, 等. 土地利用/覆被變化扎龍濕地蒸散發(fā)量及生態(tài)需水量的遙感估算[J]. 生態(tài)學報, 2021, 41(9): 3572-3587.
[2] XU S Q, YU Z B, YANG C G, et al. Trends in evapotranspiration and their responses to climate change and vegetation greening over the upper reaches of the Yellow River Basin[J]. Agric For Meteorol, 2018, 263: 118-129.
[3] 尹劍, 歐照凡. 基于地表能量平衡的大尺度流域蒸散發(fā)遙感估算研究[J]. 南水北調與水利科技, 2019, 17(3): 79-88.
[4] 高黎輝, 陳寧, 朱啟林. 基于遙感的區(qū)域蒸散發(fā)研究[J]. 水利科技與經(jīng)濟, 2009, 15(5): 412-413,416.
[5] 漢光昭, 曹廣超, 曹生奎, 等. 基于Shuttleworth- Wallace模型的小泊湖和沙柳河河源區(qū)濕地蒸散發(fā)模擬研究[J]. 濕地科學, 2019, 17(5): 519-526.
[6] ZHAO N N, GOU S, ZHANG B B, et al. Changes in pan evaporation and their attribution to climate factors in the zoige alpine wetland, the eastern edge of the Tibetan Plateau (1969–2014)[J]. Water, 2017, 9(12): 971.
[7] 宋立生, 劉紹民, 徐同仁, 等. 土壤蒸發(fā)和植被蒸騰遙感估算與驗證[J]. 遙感學報, 2017, 21(6): 966-981.
[8] GUZINSKI R, NIETO H, SANDHOLT I, et al. Modelling high-resolution actual evapotranspiration through sentinel-2 and sentinel-3 data fusion[J]. Remote Sens, 2020, 12(9): 1433.
[9] 鄭超磊, 胡光成, 陳琪婷, 等. 遙感土壤水分對蒸散發(fā)估算的影響[J]. 遙感學報, 2021, 25(4): 990-999.
[10] 嚴坤, 王玉寬, 徐佩, 等. 岷江源區(qū)Hargreaves法適用性與未來參考作物蒸散量預測[J]. 農業(yè)機械學報, 2018, 49(4): 273-281.
[11] 趙玲玲, 王中根, 夏軍, 等. Priestley-Taylor公式的改進及其在互補蒸散模型中的應用[J]. 地理科學進展, 2011, 30(7): 805-810.
[12] 馮禹, 崔寧博, 龔道枝. 機器學習算法和Hargreaves模型在四川盆地ET0計算中的比較[J]. 中國農業(yè)氣象, 2016, 37(4): 415-421.
[13] LIOU Y A, KAR S. Evapotranspiration estimation with remote sensing and various surface energy balance algorithms:A review[J]. Energies, 2014, 7(5): 2821-2849.
[14] CRISCI C, GHATTAS B, PERERA G. A review of supervised machine learning algorithms and their applications to ecological data[J]. Ecol Model, 2012, 240: 113-122.
[15] YASEEN Z M, AL-JUBOORI A M, BEYAZTAS U, et al. Prediction of evaporation in arid and semi-arid regions: a comparative study using different machine learning models[J]. Eng Appl Comput Fluid Mech, 2020, 14(1): 70-89.
[16] MOHAMADI S, EHTERAM M, EL-SHAFIE A. Correction to: accuracy enhancement for monthly evaporation predicting model utilizing evolutionary machine learning methods[J]. Int J Environ Sci Technol, 2020, 19(5): 3373- 3396.
[17] WU L F, PENG Y W, FAN J L, et al. A novel kernel extreme learning machine model coupled with K-means clustering and firefly algorithm for estimating monthly reference evapotranspiration in parallel computation[J]. Agric Water Manag, 2021, 245: 106624.
[18] FAN J L, ZHENG J, WU L F, et al. Estimation of daily maize transpiration using support vector machines, extreme gradient boosting, artificial and deep neural networks models[J]. Agric Water Manag, 2021, 245: 106547.
[19] GRANATA F, GARGANO R, DE MARINIS G. Artificial intelligence based approaches to evaluate actual evapotranspiration in wetlands[J]. Sci Total Environ, 2020, 703: 135653.
[20] YANG Y, SUN H W, XUE J, et al. Estimating evapotranspiration by coupling Bayesian model averaging methods with machine learning algorithms[J]. Environ Monit Assess, 2021, 193(3): 156.
[21] 楊晉云, 張莎, 白雲(yún), 等. 基于機器學習融合多源遙感數(shù)據(jù)模擬SPEI監(jiān)測山東干旱[J]. 中國農業(yè)氣象, 2021, 42(3): 230-242.
[22] ZHANG Y Y, ZHAO W Z, HE J H, et al. Energy exchange and evapotranspiration over irrigated seed maize agroecosystems in a desert-oasis region, northwest China[J]. Agric For Meteorol, 2016, 223: 48-59.
[23] DONG L M, ZENG W Z, WU L F, et al. Estimating the pan evaporation in northwest China by coupling CatBoost with bat algorithm[J]. Water, 2021, 13(3): 256.
[24] 方秀琴, 郭曉萌, 袁玲, 等. 隨機森林算法在全球干旱評估中的應用[J]. 地球信息科學學報, 2021, 23(6): 1040-1049.
[25] 程朋根, 岳琛, 危小建, 等. 尺度變化對城市生態(tài)環(huán)境與人類活動關系的影響研究[J]. 測繪通報, 2020(3): 56-63.
[26] 許斌, 楊鳳根, 酈于杰. 兩類集成學習算法在中長期徑流預報中的應用[J]. 水力發(fā)電, 2020, 46(4): 21-24, 34.
[27] SONG Y C, ZHOU H, WANG P F, et al. Prediction of clathrate hydrate phase equilibria using gradient boosted regression trees and deep neural networks[J]. J Chem Thermodyn, 2019, 135: 86-96.
[28] PERSSON C, BACHER P, SHIGA T, et al. Multi-site solar power forecasting using gradient boosted regression trees[J]. Sol Energy, 2017, 150: 423-436.
[29] FAN C, LIU D W, HUANG R, et al. PredRSA: a gradient boosted regression trees approach for predicting protein solvent accessibility[J]. BMC Bioinformatics, 2016, 17(Suppl 1): 8.
[30] 薛同來, 趙冬暉, 韓菲. 基于GA優(yōu)化的SVR水質預測模型研究[J]. 環(huán)境工程, 2020, 38(3): 123-127.
[31] 邢曉語, 楊秀春, 徐斌, 等. 基于隨機森林算法的草原地上生物量遙感估算方法研究[J]. 地球信息科學學報, 2021, 23(7): 1312-1324.
[32] CORTES C, VAPNIK V. Support-vector networks[J]. Mach Learn, 1995, 20(3): 273-297.
[33] SCHMIDHUBER J. Deep learning in neural networks: an overview[J]. Neural Netw, 2015, 61: 85-117.
[34] LEROUX S, VERBELEN T, SIMOENS P, et al. Privacy aware offloading of deep neural networks[EB/OL]. 2018: arXiv: 1805.12024. https://arxiv.org/abs/1805.12024.
[35] AHAMAD K U, RAJ P, BARBHUIYA N H, et al. Surface water quality modeling by regression analysis and artificial neural network[M]//Advances in Waste Management. Singapore: Springer Singapore, 2018: 215-230.
[36] BOUTHILLIER X, KONDA K, VINCENT P, et al. Dropout as data augmentation[J]. Comput Sci, arXiv: 1506.08700v3, 2015.
[37] BENGIO Y. Learning Deep Architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1):1-127.
[38] PARTAL T. Modelling evapotranspiration using discrete wavelet transform and neural networks[J]. Hydrol Process, 2009, 23(25): 3545-3555.
[39] DEO R C, SAMUI P, KIM D. Estimation of monthly evaporative loss using relevance vector machine, extreme learning machine and multivariate adaptive regression spline models[J]. Stoch Environ Res Risk Assess, 2016, 30(6): 1769-1784.
[40] WANG Y, LIU Y B, JIN J X. Contrast effects of vegetation cover change on evapotranspiration during a revegetation period in the Poyang Lake Basin, China[J]. Forests, 2018, 9(4): 217.
The actual evapotranspiration data-driven of wetland ecosystem the estimation model research
LING Conggao1, MU Xi, XU Min1, WANG Sichen1, ZHAO Qiuyu1, JIANG Peng1, 2
(1. School of Resources and Environmental Engineering, Anhui University, Hefei 230601;2. Information Materials and Intelligent Sensing Laboratory of Anhui Province, Hefei 230601)
In this study, random forest (RF), gradient enhanced regression analysis (GBR), support vector regression (SVR) and deep learning neural network (DNN) were used to predict the actual evapotranspiration(Evaporation, ET) of wetland ecosystems using Fluxnet2015 global flux tower observation dataset. Through comparative study, we found that the optimal combination of input features for predicting ET including shortwave radiation, net radiation, gross primary product, air temperature, soil temperature, wind speed, precipitation, longitude, latitude and time. Furthermore, the estimation accuracy of different models was compared and analyzed using independent input datasets extracted from Fluxnet2015 datasets and ERA5-land reanalysis data. The results showed that: taking Fluxnet site data as input, SVR algorithm has a relatively high accuracy, with2 up to 0.896 and minimum RPE of 31.5%. Using ERA5-Land reanalysis data as input, except GBR algorithm, the2 of the other three methods was higher than 0.820, RPE was less than 57%. In addition, the accuracies of ET estimated by data-driven algorithms were significantly higher than the ET products in the ERA5-Land reanalysis data.
wetland; evapotranspiration; machine learning; deep learning; ERA5-Land
S181
A
1672-352X (2022)05-0771-09
10.13610/j.cnki.1672-352x.20221111.004
2022-11-14 11:34:29
[URL] https://kns.cnki.net/kcms/detail/34.1162.S.20221111.1111.008.html
2021-11-04
國家自然科學基金(41604028)和安徽省自然科學基金(1708085QD83)共同資助。
凌從高,碩士研究生。E-mail:1099658908@qq.com
江 鵬,博士,副教授。E-mail:jiangpeng@ahu.edu.cn