張薇 韋群 吳天傲 林潔 邵光成 丁鳴鳴
摘要:選取江蘇省6個(gè)氣象站點(diǎn)1997-2016年的逐日氣象資料,建立了3種基于樹(shù)型算法的參考作物蒸散量(ET0)預(yù)測(cè)模型,包括梯度提升決策樹(shù)(Gradient boosting decision tree,GBDT)、隨機(jī)森林(Random forest,RF)和回歸樹(shù)(Regression tree)模型,以FAO-56 Penman-Monteith公式計(jì)算所得的ET0值作為標(biāo)準(zhǔn)值,對(duì)GBDT、RF、Regresssion tree模型和3種經(jīng)驗(yàn)?zāi)P停‥I-Sebail、Irmak、Hargreaves-Samani模型)的預(yù)測(cè)結(jié)果進(jìn)行比較分析。結(jié)果表明:在相同氣象因子輸入組合下,GBDT、RF模型能取得較高的模擬精度,且明顯高于Regression tree模型和經(jīng)驗(yàn)?zāi)P?,其中,氣象參?shù)組合為最高氣溫、最低氣溫和輻射的GBDT模型具有最高的模擬精度[全局評(píng)價(jià)指標(biāo)(GPI)排名第1];通過(guò)敏感性分析發(fā)現(xiàn),輻射是對(duì)江蘇省逐日ET0影響最為顯著的氣象因子,其直接通徑系數(shù)為0.512,對(duì)決定系數(shù)(R2)的貢獻(xiàn)度為0.740,顯著高于其他氣象因子;通過(guò)可移植性分析發(fā)現(xiàn),氣象因子組合為最高氣溫、最低氣溫和輻射的GBDT、RF模型在江蘇省內(nèi)6個(gè)站點(diǎn)相互交叉驗(yàn)證下仍具有較高的預(yù)測(cè)精度。因此,可以將GBDT、RF模型應(yīng)用于江蘇省氣象資料缺乏時(shí)的ET0預(yù)測(cè),為農(nóng)業(yè)灌溉提供可靠依據(jù)。
關(guān)鍵詞:參考作物蒸散量;梯度提升決策樹(shù)(GBDT)算法;隨機(jī)森林(RF)算法;可移植性分析;敏感性分析
中圖分類號(hào):S16文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-4440(2020)05-1169-12
Abstract:Daily meteorological data from 1997 to 2016 in six meteorological stations of Jiangsu province were selected to establish three prediction models of reference crop evapotranspiration (ET0) based on tree algorithm, including gradient boosting decision tree (GBDT) model, random forest (RF) model and regression tree model. Taking ET0 value calculated by formula of FAO-56 Penman-Monteith as standard value, the prediction results of GBDT model, RF model, regression tree model and three empirical models (EI-Sebail model, Irmak model and Hargreaves-Samani model) were compared. The results showed that GBDT model and RF model could get high simulation accuracies under the combination of the same meteorological factor inputs, and the accuracies of GBDT model and RF model were significantly higher than regression tree model and empirical model. Among them, GBDT model with the meteorological parameters of maximum temperature, minimum temperature and radiation had the highest simulation accuracy (global performance indicator ranked No.1). Through sensitivity analysis, it was found that radiation was the most significant meteorological factor affecting the daily ET0 of Jiangsu province, its direct path coefficient was 0.512 and its contribution to the determination coefficient (R2) was 0.740, which were significantly higher than other meteorological factors. Through portability analysis, it was found that GBDT model and RF model with the meteorological parameters of maximum temperature, minimum temperature and radiation still had high prediction accuracies under cross-validation of six stations in Jiangsu province. Therefore, GBDT model and RF model can be applied for ET0 prediction in Jiangsu province when the meteorological data are absent and provide reliable evidence for agricultural irrigation.
Key words:reference crop evapotranspiration;gradient boosting decision tree(GBDT) algorithm;random forest(RF) algorithm;portability analysis;sensitivity analysis
參考作物蒸散量(ET0)是作物需水量計(jì)算、灌溉制度制定、水資源配置以及節(jié)水灌溉管理的核心參數(shù),因此,ET0的精確計(jì)算對(duì)作物的生長(zhǎng)發(fā)育以及智能化灌溉的實(shí)現(xiàn)和精準(zhǔn)農(nóng)業(yè)的發(fā)展至關(guān)重要[1]。
目前參考作物蒸散量的計(jì)算方法大致分為實(shí)驗(yàn)測(cè)定法、經(jīng)驗(yàn)公式法和數(shù)值模擬法[2]。實(shí)驗(yàn)測(cè)定法能夠直接測(cè)算參考作物蒸散量,但由于設(shè)備昂貴、操作繁瑣和地區(qū)限制性而難以推廣[3]?;诳諝鈩?dòng)力學(xué)和能量平衡原理建立的FAO-56 Penman-Monteith (FAO56-PM)模型被公認(rèn)為計(jì)算半干旱地區(qū)和濕潤(rùn)地區(qū)ET0最為權(quán)威的方法[4]。然而,F(xiàn)AO56-PM計(jì)算ET0所需的氣象參數(shù),包括最高氣溫、最低氣溫、總輻射、相對(duì)濕度和2 m高風(fēng)速,在大多數(shù)地區(qū)不易獲取或不能夠完全獲取,使得通過(guò)FAO56-PM準(zhǔn)確計(jì)算ET0變得較為困難[5-8]。經(jīng)驗(yàn)公式法能夠基于較少的氣象參數(shù)得到相對(duì)可靠的計(jì)算結(jié)果[9-10]。Priestley和Taylor對(duì)Penman-Monteith模型進(jìn)行簡(jiǎn)化而提出了基于輻射的Priestley-Taylor模型[11],Hargreaves和Samani提出了基于溫度的Hargreaves-Samani模型[12]。Priestley-Taylor模型和Hargreaves-Samani模型具有較高的ET0估算精度,同時(shí)只需要最高氣溫、最低氣溫和天頂輻射3個(gè)氣象參數(shù),但是它們的缺點(diǎn)是區(qū)域限制性較強(qiáng)、可移植性較差[13-15]。
近年來(lái),憑借現(xiàn)代信息技術(shù)和人工智能的發(fā)展,利用多種人工智能算法擬合分析氣象參數(shù)與ET0之間的非線性關(guān)系從而得到最優(yōu)擬合參數(shù)完成建模的數(shù)值模擬法,具有用時(shí)短、精度高、泛化能力良好的優(yōu)點(diǎn)[16-19],因此在ET0的計(jì)算和預(yù)測(cè)中得到了更為廣泛的應(yīng)用與研究。Kumar在2002年首次將人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)引入到ET0計(jì)算中[20]。隨后基于ANN算法和基于其他算法的各種模型被迅速應(yīng)用到ET0的計(jì)算和預(yù)測(cè)中[21-22]。Tabari等利用自適應(yīng)神經(jīng)模糊推理系統(tǒng)(Adaptive neuro-fuzzy inference system,ANFIS)和支持向量機(jī)(Support vector machine,SVM)能夠精確擬合非線性關(guān)系的特點(diǎn),將它們應(yīng)用于氣象因子和ET0的映射模擬中并精確擬合了兩者的非線性關(guān)系[23]。Abdullah等引入了基于極限學(xué)習(xí)機(jī)(Extreme learning machine,ELM)的ET0預(yù)測(cè)模型,該模型不僅可以有效提高模擬計(jì)算ET0的速度和精度,同時(shí)還具有較好的泛化性能[24]。
然而,目前大多數(shù)人工智能模型結(jié)構(gòu)都比較復(fù)雜,需要進(jìn)行大量調(diào)試且計(jì)算成本較高[25]。基于樹(shù)型算法的機(jī)器學(xué)習(xí)方法具有良好的模式識(shí)別和趨勢(shì)檢測(cè)性能并且結(jié)構(gòu)相對(duì)簡(jiǎn)單,因而在作物ET0估算中越來(lái)越受歡迎[26-31]。Feng等將隨機(jī)森林(Random forest,RF)模型應(yīng)用于中國(guó)西南地區(qū)的ET0預(yù)測(cè),并與廣義回歸神經(jīng)網(wǎng)絡(luò)(Generalized regression neural network,GRNN)模型進(jìn)行了比較,結(jié)果表明,兩種模型均能很好地預(yù)測(cè)ET0且有較高的精度,而RF模型的預(yù)測(cè)效果略好于GRNN模型[32]。王升等建立了基于RF和基因表達(dá)式編程(Gene expression programming, GEP)算法的ET0模型,并與傳統(tǒng)Hargreaves模型的計(jì)算結(jié)果進(jìn)行了比較,結(jié)果表明,該模型在不同氣象參數(shù)輸入組合條件下均能較好地反映氣象因子與ET0之間的非線性關(guān)系[33]。梯度提升決策樹(shù)(Gradient boosting decision tree,GBDT)算法因結(jié)構(gòu)簡(jiǎn)單且具有較高的計(jì)算效率和較強(qiáng)的過(guò)擬合處理能力,在許多其他領(lǐng)域得到了廣泛的應(yīng)用[34-36]。然而,基于GBDT算法的模型在ET0預(yù)測(cè)上的應(yīng)用和研究還較少,因此,本研究利用江蘇省6個(gè)氣象站點(diǎn)1997-2016年的逐日氣象數(shù)據(jù),通過(guò)建立基于梯度提升決策樹(shù)(GBDT)算法、隨機(jī)森林(RF)算法以及回歸樹(shù)(Regression tree)算法的ET0模型對(duì)江蘇省ET0的預(yù)測(cè)進(jìn)行研究,對(duì)比和分析基于以上3種樹(shù)型算法的ET0預(yù)測(cè)模型的性能,獲得精度更高、更加適用于江蘇省ET0預(yù)測(cè)的模型,為該地區(qū)作物需水量計(jì)算和灌溉決策提供科學(xué)依據(jù)。
1材料與方法
1.1研究區(qū)域與數(shù)據(jù)來(lái)源
江蘇省地處中國(guó)大陸東部沿海地區(qū)中部,位于長(zhǎng)江、淮河下游,經(jīng)緯度為116°18′~121°57′ E,30°45′~35°20′ N,全省地形以平原為主,土地總面積1.067×105 km2,耕地面積4.58×106 hm2。多年平均氣溫 13~16 ℃,年均降水量 800~1 200 mm,氣候溫和,雨量適中。江蘇省屬暖溫帶向亞熱帶過(guò)渡性氣候,通常以淮河、蘇北灌溉總渠一線為界。
本研究中選取江蘇省徐州、淮安、射陽(yáng)、南京、常州和南通氣象站資料作為研究對(duì)象,其中徐州、淮安、射陽(yáng)屬于暖溫帶半濕潤(rùn)季風(fēng)氣候,南通、南京、常州屬于亞熱帶濕潤(rùn)季風(fēng)氣候(圖1)。氣象資料序列起止時(shí)間為1997年至2016年,氣象參數(shù)包括逐日最高氣溫(Tmax)、最低氣溫(Tmin)、相對(duì)濕度(RH)、2 m高風(fēng)速(U2)和輻射(Rs)的連續(xù)數(shù)據(jù)(表1)。
為了提高模型收斂的速度和減少變量尺度范圍的影響,將所有輸入的氣象數(shù)據(jù)歸一化至0到1之間,公式如下:
式中,xnorm為歸一化后的值,x0、xmin和xmax分別為原始數(shù)據(jù)的真實(shí)值、最小值和最大值。
1.2研究方法
1.2.1FAO-56 Penman-Monteith 模型由于研究區(qū)域各站點(diǎn)實(shí)測(cè)ET0資料很難獲得,因此將FAO56-PM計(jì)算所得的ET0值作為模型訓(xùn)練和測(cè)試的標(biāo)準(zhǔn)值進(jìn)行模型模擬精度的對(duì)比分析[4]。公式如下:
式中,ET0為參考作物蒸散量(mm/d),Rn為凈輻射[MJ/( m2· d)],G為土壤熱通量[MJ/( m2· d)],Tmean為2 m高處日平均氣溫(℃),U2為2 m高處的風(fēng)速(m/s),es為飽和水汽壓(kPa),ea為實(shí)際水汽壓(kPa),es -ea為飽和水汽壓差(kPa),△為飽和水汽壓曲線的斜率,γ為濕度計(jì)常數(shù)(kPa/℃)。
1.2.2回歸樹(shù)(Regression tree)算法分類與回歸樹(shù)(Classification and regression trees,CART)算法是應(yīng)用廣泛的決策樹(shù)方法。CART將特征空間劃分為若干單元,然后根據(jù)特征向量來(lái)決定對(duì)應(yīng)的每一個(gè)劃分單元的輸出。它使用最大均方差劃分節(jié)點(diǎn),將每個(gè)節(jié)點(diǎn)樣本的均值作為測(cè)試樣本的回歸預(yù)測(cè)值。和分類樹(shù)(Classification tree)算法通過(guò)分類進(jìn)行決策不同,回歸樹(shù)(Regression tree)算法針對(duì)的是連續(xù)性問(wèn)題,輸出結(jié)果是一個(gè)具體的值。回歸樹(shù)算法計(jì)算簡(jiǎn)單,易于理解,可解釋性強(qiáng),但有較高的方差,容易過(guò)度擬合。關(guān)于回歸樹(shù)算法的具體原理和代碼參見(jiàn)文獻(xiàn)[37]、[38]。
1.2.3隨機(jī)森林(RF)算法隨機(jī)森林(Random forest,RF)算法是一種基于集成學(xué)習(xí)“Bagging”思想的樹(shù)型算法。隨機(jī)森林算法通過(guò)自主抽樣法(Bootstrap)從原始數(shù)據(jù)里集中有放回地抽取多個(gè)樣本,然后使用弱學(xué)習(xí)器(決策樹(shù))對(duì)抽取的樣本進(jìn)行訓(xùn)練,再把這些決策樹(shù)組合,一起投票得出最終的分類或預(yù)測(cè)結(jié)果。弱學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系,能夠并行訓(xùn)練數(shù)據(jù)。RF算法易于使用,超參數(shù)數(shù)量少,不易過(guò)擬合,因此被廣泛應(yīng)用于回歸和分類問(wèn)題中。關(guān)于RF算法的具體原理和代碼參見(jiàn)文獻(xiàn)[39]。
1.2.4梯度提升決策樹(shù)(GBDT)算法
梯度提升決策樹(shù)(Gradient boosting decision tree,GBDT)算法是一種基于集成學(xué)習(xí)“Boosting”思想的迭代決策樹(shù)算法。GBDT算法通過(guò)訓(xùn)練多個(gè)弱學(xué)習(xí)器(回歸樹(shù))得出基于每個(gè)樣本的殘差,再基于所有的殘差訓(xùn)練回歸樹(shù)并且根據(jù)回歸樹(shù)的權(quán)重更新得出新的模型——強(qiáng)學(xué)習(xí)器,即所有回歸樹(shù)的結(jié)論累加起來(lái)獲得最終預(yù)測(cè)結(jié)果(圖2)。和RF算法不同,GBDT算法的弱學(xué)習(xí)器間存在很強(qiáng)的依賴關(guān)系,難以并行訓(xùn)練數(shù)據(jù)。GBDT算法對(duì)數(shù)據(jù)字段缺失不敏感并且可以減少偏差,而RF算法可以減少方差。因此,在過(guò)度擬合和計(jì)算成本方面,GBDT算法優(yōu)于RF算法。GBDT算法的詳細(xì)信息和計(jì)算程序詳見(jiàn)文獻(xiàn)[40]。
1.2.5經(jīng)驗(yàn)?zāi)P瓦x取EI-Sebail(E-S)、 Irmak(IR)和Hargreaves-Samani(H-S)等3種常用ET0計(jì)算經(jīng)驗(yàn)?zāi)P团c基于集成學(xué)習(xí)的模型進(jìn)行對(duì)比分析,具體模型和計(jì)算公式見(jiàn)表2。為確保以上經(jīng)驗(yàn)?zāi)P湍軌蚋玫赜?jì)算研究區(qū)域的逐日參考作物蒸散量,以上經(jīng)驗(yàn)?zāi)P途訤AO56-PM計(jì)算值為標(biāo)準(zhǔn)值,通過(guò)多元線性回歸進(jìn)行本地化處理,處理方法如下:
式中,ETPM0為FAO56-PM公式計(jì)算的ET0值,ETempirical0為經(jīng)驗(yàn)公式計(jì)算的ET0值,a、b為回歸系數(shù)。
1.2.6輸入組合與10折交叉驗(yàn)證本研究考慮了4種氣象因子輸入組合(表3),以評(píng)估模型在氣象參數(shù)缺失和在不同組合下對(duì)ET0預(yù)測(cè)的影響。同時(shí)使用 10 折交叉驗(yàn)證方法,將初始數(shù)據(jù)集分割成10個(gè)子樣本,每次將其中1個(gè)子樣本單獨(dú)保留用于驗(yàn)證,其他9個(gè)子樣本用于訓(xùn)練,以最終10 折交叉驗(yàn)證所得的平均誤差指標(biāo)作為模型最終表現(xiàn),從而更好地驗(yàn)證模型精度,提高模型的穩(wěn)定性和減少隨機(jī)性。此外,以不同于10折交叉驗(yàn)證階段的數(shù)據(jù)比例,即以1997-2011年的氣象數(shù)據(jù)作為訓(xùn)練集,2012-2016年的氣象數(shù)據(jù)作為測(cè)試集,對(duì)模型日尺度上的精度進(jìn)行評(píng)估。
1.2.7結(jié)果評(píng)價(jià)
選用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、可釋方差分(EVS)、納什系數(shù)(NSE)、決定系數(shù)(R2)作為評(píng)價(jià)模型模擬精度的指標(biāo),并將其統(tǒng)一到全局評(píng)價(jià)指標(biāo)GPI (Global performance indicator)中,作為描述模型綜合表現(xiàn)的評(píng)價(jià)指標(biāo)。公式如下:
式中,ETMi為其他模型模擬的第i個(gè)日值,ETPMi為FAO56-PM模型計(jì)算的第i個(gè)標(biāo)準(zhǔn)日值,N為測(cè)試集樣本數(shù)量,ET0,mean為標(biāo)準(zhǔn)日值的總平均值,ETM,mean為其他模型計(jì)算的總平均值,Ti為上述5個(gè)評(píng)價(jià)指標(biāo)歸一化后的值,Ti,median為對(duì)應(yīng)參數(shù)的中位數(shù)。當(dāng)Ti為RSME和MEA時(shí),αi等于-1,其他情況等于1。RMSE和MAE越接近于0,說(shuō)明模型偏差越小,模型精度越高;EVS、NSE和R2越接近1,說(shuō)明吻合度越高,模型質(zhì)量越好,可信度越高;GPI越高,說(shuō)明模型的總體預(yù)測(cè)表現(xiàn)越佳。
2結(jié)果與分析
2.1基于參考作物蒸散量日值模型比較
對(duì)比基于ET0日值的3種樹(shù)型算法模型和3種經(jīng)驗(yàn)?zāi)P椭g的模擬精度(表4)發(fā)現(xiàn),在氣象因子缺失的情況下,采用輸入組合為T(mén)max、Tmin和Rs的GBDT2、RF2、T2、IR模型在6個(gè)站點(diǎn)表現(xiàn)均較好。其中GBDT2模型表現(xiàn)最佳,GPI排名在6個(gè)站點(diǎn)均為第1;RF2模型表現(xiàn)次之,GPI排名均為第2,具有相對(duì)高的模擬精度。GBDT2和RF2模型在各站點(diǎn)的RMSE基本小于0.5 mm/d(除徐州站點(diǎn)RF3的RMSE=0.506 7 mm/d外),MAE均小于0.3 mm/d,EVS、NSE和R2均大于0.9。同時(shí),T2、IR模型也取得了較高的模擬精度。T2模型的RMSE在 0.48 mm/d至0.67 mm/d之間,MAE在 0.35 mm/d至 0.48 mm/d之間,EVS、NSE和R2在0.84至 0.89之間;經(jīng)驗(yàn)?zāi)P虸R的RMSE在 0.46 mm/d至 0.66 mm/d之間,MAE在 0.36 mm/d至 0.51 mm/d之間,EVS、NSE和R2在0.85至0.90之間。
輸入組合為T(mén)max、Tmin、RH、Ra時(shí),GBDT1、RF1模型均取得了相對(duì)較高的模擬精度,而RF1模型的GPI排名略高于GBDT1模型。其中,GBDT1模型的RMSE在0.48 mm/d至 0.58 mm/d之間,MAE在0.30 mm/d至0.36 mm/d之間,EVS、NSE和R2在0.86 至 0.89之間;RF1模型的RMSE在 0.47 mm/d至 0.57 mm/d之間,MAE在 0.29 mm/d至 0.35 mm/d之間,EVS、NSE和R2在0.86 至 0.90之間;T1模型的RMSE在 062 mm/d至 0.78 mm/d之間,MAE在 0.39 mm/d至 0.47 mm/d之間,EVS、NSE和R2在0.72 至 0.83之間。經(jīng)驗(yàn)?zāi)P虴-S的GPI排名在6個(gè)站點(diǎn)均為第15名,在所有模型中排最低,其RMSE在 0.88 mm/d至1.01 mm/d之間,MAE在 0.67 mm/d至 0.75 mm/d之間,EVS、NSE和R2在0.56至0.65之間。
輸入組合為T(mén)max、Tmin、Ra時(shí),GBDT4模型的RMSE在0.65 mm/d至0.72 mm/d之間,MAE在0.43 mm/d至0.50 mm/d之間,EVS、NSE和R2在0.76至0.83之間;RF4模型的RMSE在0.65 mm/d至0.73 mm/d之間,MAE在0.43 mm/d至 0.50 mm/d之間,EVS、NSE和R2在0.76至 0.83之間;T4模型的RMSE在0.80 mm/d至0.93 mm/d,MAE在0.56 mm/d至0.64 mm/d之間,EVS、NSE和R2在0.64 至0.70之間;經(jīng)驗(yàn)?zāi)P虷-S在6個(gè)站點(diǎn)的RMSE在0.68 mm/d至0.75 mm/d之間,MAE在0.53 mm/d至0.56 mm/d之間,EVS、NSE和R2在0.73至0.81之間。可見(jiàn),GBDT4、RF4模型的模擬精度明顯高于T4模型和經(jīng)驗(yàn)?zāi)P虷-S。
輸入組合為T(mén)max、Tmin、U2時(shí),GBDT3、RF3、T3模型均表現(xiàn)欠佳,模擬精度較低。其中,GBDT3模型的RMSE略大于0.7 mm/d,在0.70 mm/d至0.74 mm/d之間,MAE在0.48 mm/d至0.52 mm/d之間,EVS、NSE和R2在0.72至0.82之間;RF3模型的RMSE在0.71 mm/d至0.93 mm/d之間,MAE在0.49 mm/d至0.67 mm/d之間,EVS、NSE和R2在0.64至0.82之間;T3模型的RMSE在0.89 mm/d至 0.97 mm/d之間,MAE在0.63 mm/d至0.70 mm/d之間,EVS、NSE和R2在0.55至0.68之間。
表5顯示,4種不同氣象因子輸入組合下的GBDT模型中,GBDT2模型(輸入組合為T(mén)max、Tmin和Rs)表現(xiàn)最佳,具有最高的模擬精度,其GPI在6個(gè)站點(diǎn)均排在第1位,GBDT1模型(輸入組合為T(mén)max、Tmin、RH、Ra)的GPI在6個(gè)站點(diǎn)均排在第2位,GBDT4模型(輸入組合為T(mén)max、Tmin、Ra)的GPI排在第3位,而GBDT3模型(輸入組合為T(mén)max、Tmin、U2)的GPI排名最低。同樣地,對(duì)比4種不同氣象因子輸入組合下RF模型的模擬精度,在6個(gè)站點(diǎn)中,RF2模型(輸入組合為T(mén)max、Tmin和Rs)表現(xiàn)最佳,其GPI在6個(gè)站點(diǎn)均排于第1位,RF1模型(輸入組合為T(mén)max、Tmin、RH、Ra)的GPI排于第2位,RF4模型(輸入組合為T(mén)max、Tmin、Ra)的GPI排名位于第3位,RF3模型(輸入組合為T(mén)max、Tmin、U2)的GPI排名最低。對(duì)比4種不同氣象因子輸入組合下Regression Tree模型的模擬精度,在6個(gè)站點(diǎn)中,T2模型(輸入組合為T(mén)max、Tmin和Rs) 同樣地表現(xiàn)最佳,GPI排名第1,T1模型(輸入組合為T(mén)max、Tmin、RH、Ra)的GPI排在第2位,T4模型(輸入組合為T(mén)max、Tmin、Ra)的GPI排在第3位,T3模型(輸入組合為T(mén)max、Tmin、U2)的GPI排名最低。3種經(jīng)驗(yàn)?zāi)P椭?,IR模型(輸入組合為T(mén)max、Tmin、Rs)的GPI排名最高,H-S模型(輸入組合為T(mén)max、Tmin、Ra)的GPI排名第2,E-S模型(輸入組合為T(mén)max、Tmin、RH、Ra)排名最低。因此可知,采用輸入組合為T(mén)max、Tmin和Rs 的模型模擬精度最高,采用輸入組合為T(mén)max、Tmin、RH、Ra的模型模擬精度次之,采用輸入組合為T(mén)max、Tmin、Ra的模型模擬精度較差,而輸入組合為T(mén)max、Tmin、U2的模型模擬精度最差。
由于各模型在6個(gè)氣象站點(diǎn)的表現(xiàn)非常類似,本研究?jī)H以江蘇省省會(huì)南京市的模擬結(jié)果為例進(jìn)行詳細(xì)分析。圖3是在不同氣象因子輸入組合下GBDT、RF、Regression Tree模型以及經(jīng)驗(yàn)?zāi)P停‥-S、IR和H-S)在南京站點(diǎn)預(yù)測(cè)的ET0值與以FAO56-PM值為參考標(biāo)準(zhǔn)值的散點(diǎn)圖。圖3顯示,采用輸入組合為T(mén)max、Tmin和Rs的GBDT2、RF2、T2模型以及IR模型離散度最小,與FAO56-PM值的相關(guān)性最好。
可以看出,GBDT、RF模型在各個(gè)站點(diǎn)的相同氣象因子輸入組合下都能達(dá)到較高的模擬精度,兩種模型的模擬精度非常接近,但GBDT模型總體表現(xiàn)比RF模型更好。Regression Tree模型和3種經(jīng)驗(yàn)?zāi)P偷哪M精度相對(duì)較低且變動(dòng)較大。并且,氣象因子輸入組合為T(mén)max、Tmin、Rs時(shí)各模型的模擬表現(xiàn)均高于其他氣象因子輸入組合。因此,在氣象資料缺乏的情況下,可以選用氣象因子輸入組合為T(mén)max、Tmin和Rs的GBDT2模型作為江蘇省ET0的預(yù)測(cè)模型。
2.2ET0對(duì)氣象因子的敏感性分析
以南京站為例,使用SPSS對(duì)Tmax、Tmin、U2、RH和Rs進(jìn)行ET0的通徑分析(表6)。由表6可知,輻射(Rs)對(duì)ET0的直接通徑系數(shù)為0.512,對(duì)決定系數(shù)(R2)的貢獻(xiàn)度達(dá)到0.740,顯著高于其他各氣象因子,因此輻射Rs是對(duì)江蘇省逐日ET0影響最為顯著的氣象因子。此結(jié)論與本研究基于ET0日值模型比較中,采用氣象因子輸入組合為T(mén)max、Tmin、Rs的模型模擬精度高于采用其他氣象因子輸入組合的模型的結(jié)論相一致。最高氣溫(Tmax)對(duì)ET0的直接通徑系數(shù)為0.286,對(duì)決定系數(shù)(R2)的貢獻(xiàn)達(dá)到0.150,說(shuō)明最高氣溫(Tmax)也對(duì)逐日ET0具有較大的影響。最低氣溫(Tmin)對(duì)ET0直接通徑系數(shù)和對(duì)決定系數(shù)(R2)的貢獻(xiàn)度分別為0.265和0.004,對(duì)逐日ET0的影響最小。相對(duì)濕度(RH)對(duì)ET0的直接通徑系數(shù)和對(duì)決定系數(shù)(R2)的貢獻(xiàn)度分別為 -0.301和0.038,而風(fēng)速(U2)對(duì)ET0的直接通徑系數(shù)和對(duì)決定系數(shù)(R2)的貢獻(xiàn)度分別為0.142和0.019,這與本研究中基于相對(duì)濕度(RH)的模型模擬精度高于基于風(fēng)速(U2)的模型模擬精度結(jié)果相一致,表明在江蘇省相對(duì)濕度(RH)比風(fēng)速(U2)對(duì)ET0的影響更大,此結(jié)論與西北地區(qū)[41]和川中丘陵區(qū)[42]風(fēng)速是ET0變化主導(dǎo)因子的結(jié)論有明顯差異。
2.3GBDT2、RF2模型在各站點(diǎn)間的可移植性分析
本研究中GBDT2、RF2模型(輸入組合為T(mén)max、Tmin和Rs)能在較少參數(shù)輸入下取得較高的ET0預(yù)測(cè)精度。為檢驗(yàn)GBDT2、RF2模型在江蘇省的普適性和泛用程度,通過(guò)不同站點(diǎn)之間數(shù)據(jù)的交叉驗(yàn)證對(duì)GBDT2、RF2進(jìn)行可移植性分析。結(jié)果(表7、表8)表明,除了在以徐州為訓(xùn)練站和射陽(yáng)為驗(yàn)證站的組合中,RF2模型的決定系數(shù)(R2)為0.891 7,略小于0.9,其余不同站點(diǎn)組合的GBDT2模型和RF2模型的R2均大于0.9,模型預(yù)測(cè)精度均達(dá)到較高水平。與不同站點(diǎn)組合前的預(yù)測(cè)精度相比,不同站點(diǎn)組合后GBDT2模型的下降比例在5.17% 至 8.26%之間,RF2模型的下降比例在5.51% 至 9.90%之間,預(yù)測(cè)精度下降相對(duì)較小。由此可知GBDT2模型和RF2模型在江蘇省各站點(diǎn)之間的可移植性較強(qiáng),因此當(dāng)缺乏氣象資料時(shí),可利用GBDT2模型或RF2模型使用臨近氣象站點(diǎn)的數(shù)據(jù)預(yù)測(cè)ET0。
RMSE、MAE、EVS、NSE和R2分別表示均方根誤差、平均絕對(duì)誤差、可釋方差分、納什系數(shù)和決定系數(shù),GPI排名表示綜合排名。RMSE和MAE越接近于0,說(shuō)明模型模擬偏差越小,模型模擬精度越高;EVS、NSE和R2越接近1,說(shuō)明吻合度越高,模型模擬質(zhì)量越好,可信度越高。Tmax、Tmin、RH、U2和Rs分別表示最高氣溫、最低氣溫、相對(duì)濕度、2 m高風(fēng)速和輻射。GBDT1、GBDT2、GBDT3、GBDT4、RF1、RF2、RF3、RF4、T1、T2、T3、T4、E-S、IR、H-S分別表示不同氣象因子輸入組合的ET0模型。
3結(jié)論
通過(guò)對(duì)GBDT、RF和Regression Tree模型以及經(jīng)驗(yàn)?zāi)P停‥-S、IR、H-S)的模擬結(jié)果對(duì)比分析發(fā)現(xiàn),在4種氣象因子輸入組合中GBDT、RF模型的預(yù)測(cè)精度非常接近,而GBDT模型總體表現(xiàn)略優(yōu)于RF模型,同時(shí)GBDT、RF模型的預(yù)測(cè)精度均明顯高于同種氣象因子輸入組合的Regression Tree模型和經(jīng)驗(yàn)?zāi)P停℉-S、IR和E-S)。其中,氣象因子輸入組合為T(mén)max、Tmin和Rs的GBDT2模型在所有站點(diǎn)的預(yù)測(cè)精度最高,可作為江蘇省在氣象資料缺乏時(shí)獲得ET0的最佳預(yù)測(cè)模型。
敏感性分析結(jié)果表明輻射Rs對(duì)ET0的直接通徑系數(shù)為0.512,對(duì)決定系數(shù)(R2)的貢獻(xiàn)度為0.740,顯著高于其他氣象因子,因此輻射Rs是對(duì)江蘇省逐日ET0影響最為顯著的氣象因子。其次是最高氣溫(Tmax)和相對(duì)濕度(RH),風(fēng)速(U2)對(duì)ET0的影響較小,最低氣溫(Tmin)對(duì)ET0的影響最小。
GBDT2、RF2模型的可移植性分析結(jié)果表明,江蘇省各氣象站點(diǎn)間相互預(yù)測(cè)ET0時(shí)精度較高,除RF2模型在徐州-射陽(yáng)站點(diǎn)組合的決定系數(shù)(R2)略小于0.9(R2=0.891 7)外,其余站點(diǎn)組合的決定系數(shù)(R2)均大于0.9??梢?jiàn)GBDT2、RF2模型可移植性和泛化能力強(qiáng)。因此在站點(diǎn)氣象資料缺失情況下可使用臨近站點(diǎn)的氣象資料建立GBDT2模型或RF2模型進(jìn)行ET0預(yù)測(cè)。
參考文獻(xiàn):
[1]徐俊增,彭世彰,丁加麗,等. 基于蒸滲儀實(shí)測(cè)數(shù)據(jù)的日參考作物蒸發(fā)騰發(fā)量計(jì)算方法評(píng)價(jià)[J]. 水利學(xué)報(bào), 2010, 41(12):1497-1505.
[2]馮禹,崔寧博,龔道枝,等. 基于極限學(xué)習(xí)機(jī)的參考作物蒸散量預(yù)測(cè)模型[J].農(nóng)業(yè)工程學(xué)報(bào),2015,31(S1):153-160.
[3]李晨,崔寧博,馮禹,等. 四川省不同區(qū)域參考作物蒸散量計(jì)算方法的適用性評(píng)價(jià)[J].農(nóng)業(yè)工程學(xué)報(bào),2016,32(4):127-134,316.
[4]ALLEN R G, PEREIRA L S, RAES D, et al. Crop evapotranspiration:Guidelines for computing crop water requirements[M]. Rome:FAO Irrigation and Drainage Paper 56,1998:1-15.
[5]FAN J L, YUE W J, WU L F, et al. Evaluation of SVM, ELM and four tree-based ensemble models for predicting daily reference evapotranspiration using limited meteorological data in different climates of China[J]. Agricultural and Forest Meteorology, 2018,263: 225-241.
[6]WU L F, FAN J L. Comparison of neuron-based, kernel-based, tree-based and curve-based machine learning models for predicting daily reference evapotranspiration [J]. PLoS One,2019,14(5): e0217520.
[7]KISI O. Applicability of Mamdani and Sugeno fuzzy genetic approaches for modeling reference evapotranspiration[J]. Journal of Hydrology, 2013, 504: 160-170.
[8]SHIH S F, SNYDER G H. Leaf area index and evapotranspiration of taro[J]. Agronomy Journal, 1985, 77(4):554-556.
[9]彭世彰,徐俊增. 參考作物蒸發(fā)蒸騰量計(jì)算方法的應(yīng)用比較[J]. 灌溉排水學(xué)報(bào), 2004,23(6):5-9.
[10]IRMAK S, IRMAK A, ALLEN R G, et al. Solar and net radiation-based equations to estimate reference evapotranspiration in humid climates[J]. Journal of Irrigation and Drainage Engineering, 2003, 129(5): 336-347.
[11]PRIESTLEY C H B, TAYLO R J. On the assessment of surface heat flux and evaporation using large-scale parameters[J]. Mon Weather Rev, 1972,100:81-92.
[12]HARGREAVES G H, SAMANI Z A. Reference crop evapotranspiration from temperature[J]. Appl Eng Agric, 1985,1:96-99.
[13]KISI O. Pan evaporation modeling using least square support vector machine, multivariate adaptive regression splines and M5 model tree[J]. J Hydrol,2015,528: 312-320.
[14]WANG L, KISI O, Zounemat-Kermani M, et al. Pan evaporation modeling using six different heuristic computing methods in different climates of China[J]. J Hydrol, 2017,544: 407-427.
[15]JOVIC S, NEDELJKOVIC B, GOLUBOVIC Z, et al. Evolutionary algorithm for reference evapotranspiration analysis[J]. Comput Electron Agric,2018,150: 1-4.
[16]LANDERAS G, ORTIZ-BARREDO A, LO′PEZ J J. Comparison of artificial neural network models and empirical and semi-empirical equations for daily reference evapotranspiration estimation in the Basque Country (Northern Spain) [J]. Agric Water Manag,2008,95: 553-565.
[17]FENG Y, CUI N B, ZHAO L, et al. Comparison of ELM, GANN, WNN and empirical models for estimating reference evapotranspiration in humid region of Southwest China[J]. Journal of Hydrology, 2016, 536: 376-383.
[18]MOUSAVI R, SABZIPARVAR A A, MAROFI S, et al. Calibration of the Angstrm-Prescott solar radiation model for accurate estimation of reference evapotranspiration in the absence of observed solar radiation[J]. Theoretical and Applied Climatology, 2015, 119(1/2):43-54.
[19]LADLANI I, HOUICHI L, DJEMILI L, et al. Estimation of daily reference evapotranspiration (ET0) in the North of Algeria using adaptive neuro-fuzzy inference system (ANFIS) and multiple linear regression (MLR) models: A comparative study[J]. Arabian Journal for Science and Engineering, 2014, 39(8):5959-5969.
[20]KUMAR M, RAGHUWANSHI N S, SINGH R, et al. Estimating evapotranspiration using artificial neural networks[J]. Journal of Irrigation and Drainage Engineering, 2002, 128(4): 224-233.
[21]張皓杰,崔寧博,徐穎,等. 基于ELM的西北旱區(qū)參考作物蒸散量預(yù)報(bào)模型[J]. 排灌機(jī)械工程學(xué)報(bào), 2018, 36 (8):140-145.
[22]TRAORE S, WANG Y M, KERH T. Artificial neural network for modeling reference evapotranspiration complex process in Sudano-Sahelian zone[J]. Agricultural Water Management, 2010, 97(5): 707-714.
[23]TABARI H, KISI O, EZANI A, et al. SVM, ANFIS, regression and climate based models for reference evapotranspiration modeling using limited climatic data in a semi-arid highland environment[J]. Journal of Hydrology, 2012, 777: 78-89.
[24]ABDULLAH S S, MALEK M A, ABDULLAH N S, et al. Extreme learning machines: A new approach for prediction of reference evapotranspiration[J]. Journal of Hydrology, 2015, 527:184-195.
[25]HASSAN M A, KHALIL A, KASEB S, et al. Potential of four different machine-learning algorithms in modeling daily global solar radiation[J]. Renewable Energy, 2017, 111:52-62.
[26]FAN J, WANG X, WU L, et al. Comparison of support vector machine and extreme gradient boosting for predicting daily global solar radiation using temperature and precipitation in humid subtropical climates: A case study in China[J]. Energy Conversion & Management, 2018, 164:102-111.
[27]于玲,吳鐵軍. 集成學(xué)習(xí):Boosting算法綜述[J]. 模式識(shí)別與人工智能, 2004, 17(1):52-59.
[28]HASTIE T, TIBSHIRANI R, FRIEDMAN J. Ensemble Learning[M]//HASTIE T, TIBSHIRANI R, FRIEDMAN J. The Elements of Statistical Learning. Springer Series in Statistics. New York, NY: Springer, 2009: 605-624.
[29]BAUER E, KOHAVI R. An Empirical comparison of voting classification algorithms: Bagging, Boosting, and Variants[J]. Machine Learning, 1999, 36(1/2):105-139.
[30]DIETTERICH T G. An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, Boosting, and Randomization[J]. Machine Learning, 2000, 40(2):139-157.
[31]MANIKUMARI N, MURUGAPPAN A, VINODHINI G. Time series forecasting of daily reference evapotranspiration by neural network ensemble learning for irrigation system[J]. IOP Conference Series: Earth and Environmental Science, 2017, 80:012069.
[32]FENG Y, CUI N, GONG D, et al. Evaluation of random forests and generalized regression neural networks for daily reference evapotranspiration modelling[J]. Agric Water Manage,2017, 193:163-173.
[33]王升,付智勇,陳洪松,等.基于隨機(jī)森林算法的參考作物蒸發(fā)蒸騰量模擬計(jì)算[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(3):302-309.
[34]韓啟迪,張小桐,申維.基于梯度提升決策樹(shù)(GBDT)算法的巖性識(shí)別技術(shù)[J].礦物巖石地球化學(xué)通報(bào),2018,37(6):1173-1180.
[35]鄭凱文,楊超.基于迭代決策樹(shù)(GBDT)短期負(fù)荷預(yù)測(cè)研究[J].貴州電力技術(shù),2017,20(2):82-84,90.
[36]蔡文學(xué),羅永豪,張冠湘,等.基于GBDT與Logistic回歸融合的個(gè)人信貸風(fēng)險(xiǎn)評(píng)估模型及實(shí)證分析[J].管理現(xiàn)代化,2017,37(2):1-4.
[37]GORDON R B A D. Classification and regression trees[J]. Biometrics, 1984, 40(3):874.
[38]EVERITT B S. Classification and regression trees[M]//GOLDBERG J, FISCHER M. Encyclopedia of Statistics in Behavioral Science. Hoboken, NJ, USA:John Wiley& Sons, Ltd., 2005.
[39]BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1):5-32.
[40]FRIEDMAN J H. Stochastic gradient boosting[J].Computational Statistics and Data Analysis,2002,38(4):367-378.
[41]汪彪,曾新民,劉正奇,等. 中國(guó)西北地區(qū)參考作物蒸散量的估算與變化特征[J]. 干旱氣象, 2016, 34(2):243-251.
[42]馮禹,崔寧博,魏新平,等. 川中丘陵區(qū)參考作物蒸散量時(shí)空變化特征與成因分析[J].農(nóng)業(yè)工程學(xué)報(bào), 2014,30(14):78-86,339.
(責(zé)任編輯:張震林)