摘要:為有效降低作物模擬所需數(shù)據(jù)量,提高計算效率,基于機(jī)器學(xué)習(xí)建立冬小麥光溫產(chǎn)量潛力估算模型。以中國冬麥區(qū)129個農(nóng)業(yè)氣象站點(diǎn)1980—2009年光溫產(chǎn)量潛力為研究對象,選擇影響光溫產(chǎn)量潛力模擬較大的溫度、日照時數(shù)、經(jīng)緯度等構(gòu)建特征變量。選擇生長季與月份2個時間范圍,基于WheatGrow模型輸入輸出數(shù)據(jù)建立生長季變量的隨機(jī)森林模型(RF_GS)與月份變量的隨機(jī)森林模型(RF_Mon),最后利用均方根誤差(RMSE)評價隨機(jī)森林模型的性能。結(jié)果表明,隨機(jī)森林模型可在保證模擬精度的前提下降低數(shù)據(jù)需求量,且RF_GS精度優(yōu)于RF_Mon;變量重要性檢驗(yàn)與部分依賴圖分析結(jié)果表明,緯度、生長季日照時數(shù)、5月日照時數(shù)、3月最低溫度對光溫產(chǎn)量潛力模擬影響較大;若模型驗(yàn)證數(shù)據(jù)的范圍超出訓(xùn)練數(shù)據(jù)的范圍,利用隨機(jī)森林模型無法保證建模精度。
關(guān)鍵詞:作物模型; WheatGrow模型; 隨機(jī)森林; 光溫產(chǎn)量潛力; 模擬優(yōu)化方法
中圖分類號:S512.1;S127" " " " "文獻(xiàn)標(biāo)識碼:A
文章編號:0439-8114(2024)08-0132-08
DOI:10.14088/j.cnki.issn0439-8114.2024.08.023 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
The crop light temperature yield potential simulation optimization method
based on random forest
XU Hao1, SONG Hua-lu1, ZHANG Hai-bo2, ZHANG Xiao-hu3, WANG Shuai1
(1.Institute of Agricultural Information and Economics, Shandong Academy of Agricultural Sciences, Jinan" 250100,China;2.Agricultural Economic Service Center of Zhaoyuan Agricultural and Rural Bureau, Zhaoyuan" 265400, Shandong,China;3.National Engineering and Technology Center for Information Agriculture, Nanjing Agricultural University, Nanjing" 210095,China)
Abstract: In order to effectively reduce the amount of data required for crop simulation and improve computing efficiency, a model for estimating the light-temperature yield potential of winter wheat was established based on machine learning. Taking 129 agro-meteorological stations in the winter wheat region of China from 1980 to 2009 as the research object, the characteristic variables of temperature, sunshine hours, latitude and longitude, etc., which had a great influence on the simulation of photoperiod yield potential were selected. Based on the input and output data of WheatGrow model, the random forest model (RF_GS) and the random forest model (RF_Mon) with the variables of growing season and month were established. Finally, the performance of the random forest model was evaluated by root mean square error (RMSE). The results showed that the random forest model could reduce the data requirement under the premise of ensuring the simulation accuracy, and the accuracy of RF_GS was better than that of RF_Mon. The results of the variable importance test and partial dependence plots showed that latitude, sunshine duration in the growing season, sunshine duration in May and minimum temperature in March had a great influence on photoperiod yield potential simulation. If the range of model validation data exceeded the range of training data, the random forest model’s accuracy could not be guaranteed.
Key words: crop model; WheatGrow model; random forest model; light temperature yield potential; simulation optimization method
作物光溫產(chǎn)量潛力模擬可探明產(chǎn)量上限變化規(guī)律,為優(yōu)化種植制度、提高農(nóng)業(yè)氣候資源利用效率提供科學(xué)參考[1,2]。基于機(jī)理與過程的作物模型通過解析氣象、土壤、品種及管理措施與作物生長之間的關(guān)系,已廣泛應(yīng)用于作物光溫產(chǎn)量潛力模擬[3,4]。但作物模型一般以天為步長,對氣象數(shù)據(jù)時間精度要求較高,且存在過程參數(shù)多、計算量大等問題[3,5]。通過作物產(chǎn)量與環(huán)境數(shù)據(jù)建立統(tǒng)計模型可提供簡便合理的預(yù)測,且可以使用空間聚合的氣候變量在較大空間范圍建立關(guān)系,以預(yù)測大面積作物平均產(chǎn)量[6,7]。但現(xiàn)有統(tǒng)計模型先驗(yàn)假設(shè)為作物生長過程線性依賴于環(huán)境數(shù)據(jù),與作物-環(huán)境復(fù)雜的交互作用不符,且統(tǒng)計模型訓(xùn)練樣本存在地域性,模型泛化能力較弱[8]。而基于遞歸、抽樣、平均值和隨機(jī)化等計算密集型的機(jī)器學(xué)習(xí)方法可以發(fā)現(xiàn)數(shù)據(jù)潛在規(guī)則和模式,且可以處理復(fù)雜非線性關(guān)系,已逐步應(yīng)用于作物分類、病蟲害監(jiān)測、氮素管理、產(chǎn)量限制因子分析及產(chǎn)量預(yù)測等領(lǐng)域[9,10]。
機(jī)器學(xué)習(xí)作為一種黑箱系統(tǒng),通過建立環(huán)境變量與目標(biāo)變量之間的非線性關(guān)系,弱化模型內(nèi)部機(jī)理,提高模型開發(fā)效率。作物模型構(gòu)建常用的機(jī)器學(xué)習(xí)方法包括支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等[10-12]。其中,隨機(jī)森林作為典型的基于bagging框架的模型,從訓(xùn)練數(shù)據(jù)中進(jìn)行抽樣組成每個樹模型所需要的子訓(xùn)練數(shù)據(jù),對所有樹模型預(yù)測的結(jié)果進(jìn)行綜合產(chǎn)生最終的預(yù)測結(jié)果,具有抗噪能力強(qiáng)、訓(xùn)練速度快的優(yōu)點(diǎn),是目前作物產(chǎn)量預(yù)測應(yīng)用最為廣泛的方法[13]。同時,作物生長作為一種復(fù)雜非線性系統(tǒng),涉及眾多環(huán)境變量及社會經(jīng)濟(jì)因素的共同影響,隨機(jī)森林可處理高維數(shù)據(jù),具有對變量共線性不敏感的優(yōu)勢[13]。且通過變量重要性檢驗(yàn)可識別對產(chǎn)量預(yù)測影響較大的變量,使用部分依賴圖可視化預(yù)測結(jié)果和特征變量的函數(shù)形式以發(fā)現(xiàn)其中的線性和非線性響應(yīng),對模型預(yù)測結(jié)果具有很好的解釋作用[9,11,14]。利用隨機(jī)森林建立作物模型,可有效降低光溫產(chǎn)量潛力模擬所需數(shù)據(jù)量,發(fā)現(xiàn)對模擬過程影響較大的環(huán)境變量,有效提高作物模型的解釋性[6,14,15]。
本研究以冬小麥光溫產(chǎn)量潛力為模擬情景,基于作物模型WheatGrow計算數(shù)據(jù)提取隨機(jī)森林所需特征變量,并通過變量重要性檢驗(yàn)識別對光溫產(chǎn)量潛力影響較大的變量,利用部分依賴圖表現(xiàn)特征變量與光溫產(chǎn)量潛力之間非線性關(guān)系以提高模型的解釋性。以期得出隨機(jī)森林模型預(yù)測光溫產(chǎn)量潛力的可行性與局限性,為利用隨機(jī)森林優(yōu)化作物模擬相關(guān)研究提供科學(xué)參考。
1 材料與方法
1.1 研究區(qū)域
以中國冬麥區(qū)為研究區(qū)域,中國冬麥區(qū)(102°46′—122°11′E,28°13′—41°10′N)是冬小麥的主產(chǎn)區(qū),包括北部冬麥區(qū)(North winter wheat subregion,NS)、黃淮冬麥區(qū)(Huang-Huai winter wheat subregion,HHS)、長江中下游冬麥區(qū)(Middle-lower reaches of Yangzi River winter wheat subregion,MYS)和西南冬麥區(qū)(Southwest winter wheat subregion,SWS)4個亞區(qū),以及本研究使用的129個農(nóng)業(yè)氣象站點(diǎn)如圖1所示[16]。氣候類型包括中溫帶半干旱區(qū)、中溫帶半濕潤區(qū)、暖溫帶半濕潤區(qū)、暖溫帶半干旱區(qū)、北亞熱帶濕潤區(qū)、中亞熱帶濕潤區(qū)。溫度、降水差異較為明顯[16]。其中,北部冬麥區(qū)與黃淮冬麥區(qū)年平均氣溫在9~15 ℃,全年降水量為440~980 mm;而長江中下游冬麥區(qū)與西南冬麥區(qū)年平均氣溫在16~25 ℃,全年降水量多在1 000 mm以上。冬麥區(qū)地貌包括平原、丘陵、山地、盆地等,海拔高度差異明顯,最高海拔5 174 m,最低海拔-142 m。
1.2 WheatGrow模型
WheatGrow模型已廣泛應(yīng)用于冬小麥光溫產(chǎn)量潛力模擬[16,17]。該模型包括5個子模型:頂端發(fā)育與物候期,光合作用與干物質(zhì)生產(chǎn),物質(zhì)分配與器官建成,產(chǎn)量與品質(zhì)形成,土壤水分與養(yǎng)分平衡[18,19]??赡M光溫產(chǎn)量潛力、水分限制和氮素限制3種生長水平下小麥的生長發(fā)育狀況。WheatGrow模型產(chǎn)量模擬值與實(shí)測值的均方根誤差(RMSE)在1 000 kg/hm2左右,歸一化的均方根誤差(NRMSE)在10%~20%,表明WheatGrow模型[17,20,21]具有較好的預(yù)測性(圖2)。
1.3 數(shù)據(jù)描述
氣象數(shù)據(jù)來源于國家氣象科學(xué)數(shù)據(jù)中心,包括冬麥區(qū)129個農(nóng)業(yè)氣象站點(diǎn)1980—2010年每日監(jiān)測數(shù)據(jù),主要有日最高溫(Tmax)、日最低溫(Tmin)、平均溫度(aveTEM)及日照時數(shù)(SSD)。農(nóng)業(yè)氣象站點(diǎn)監(jiān)測數(shù)據(jù)還包括小麥播期、品種等數(shù)據(jù)。本研究利用WheatGrow模型中的頂端發(fā)育與物候期模塊中的生理發(fā)育時間(PDT)模擬小麥物候期,同時選擇每個農(nóng)業(yè)氣象站點(diǎn)種植次數(shù)最多的品種為代表性品種,結(jié)合各年份小麥開花期、成熟期及產(chǎn)量的模擬值與實(shí)測值,利用試錯法對品種參數(shù)進(jìn)行調(diào)試獲取各農(nóng)業(yè)氣象站點(diǎn)代表性品種參數(shù)。
本研究利用未來氣候數(shù)據(jù)來驗(yàn)證不同模擬情景下隨機(jī)森林模型的泛化能力。驗(yàn)證數(shù)據(jù)來源于全球氣候模型(Global climate models,GCMs)中的MIROC5模式在全球升溫2 ℃的氣象數(shù)據(jù)[22]。同時,本研究主要關(guān)注溫度與光照對光溫產(chǎn)量潛力的影響,且植物對二氧化碳濃度上升響應(yīng)存在不確定性,參考前人研究方法[23],二氧化碳濃度保持在2000年水平(367 μg/mL)。
1.4 技術(shù)路線
光溫產(chǎn)量潛力模擬僅受溫度、日照、品種及管理措施中播期的影響[16,24]。首先利用WheatGrow模型模擬1980—2009年129個農(nóng)業(yè)氣象站點(diǎn)的光溫產(chǎn)量潛力及物候期。通過WheatGrow模型輸入輸出數(shù)據(jù)提取隨機(jī)森林訓(xùn)練數(shù)據(jù)所需特征。通過播期與成熟期確定小麥生長季氣象數(shù)據(jù),用以反映作物生長氣候條件的平均狀況,同時為探討生長季內(nèi)部的氣候條件變化對作物生長的影響,本研究還選擇了3月、4月、5月的數(shù)據(jù),代表小麥生殖生長與營養(yǎng)生長的關(guān)鍵生育期(返青期、拔節(jié)期、孕穗期及開花期)作為特征進(jìn)行建模。最終利用生長季與月份2種時間范圍數(shù)據(jù)建立隨機(jī)森林模型RF_GS與RF_Mon。并利用RMSE與P檢驗(yàn)評價隨機(jī)森林模型性能(圖3)。
1.5 隨機(jī)森林
選擇氣象數(shù)據(jù)中的日最高溫、日最低溫、平均溫度與日照時數(shù)作為特征變量建立本研究的特征。根據(jù)農(nóng)業(yè)氣象站點(diǎn)播期及WheatGrow模型模擬的成熟期,計算每年冬小麥生育期特征變量的平均值和每年特征變量在3月、4月、5月的平均值。并利用模擬年份(Simulated Year,簡稱SY)作為特征變量來代表30年氣候變化對光溫產(chǎn)量潛力模擬的影響[11]。由于對特征變量進(jìn)行選擇可刪除不相關(guān)變量以提高模型解釋性,本研究使用R語言的“Boruta”包進(jìn)行特征選擇,置信水平設(shè)置為0.99[11,25]。最終本研究選擇的特征變量見表1,其中,基于生長季變量建立的隨機(jī)森林模型(RF_GS)與基于月份變量建立的隨機(jī)森林模型(RF_Mon)都用到了模擬年份、經(jīng)度與緯度。
本研究使用R語言的“randomForest”包實(shí)現(xiàn)隨機(jī)森林[26]。為保證隨機(jī)森林精度的前提下防止過擬合,需確定隨機(jī)森林所包含的決策樹數(shù)目(ntree,默認(rèn)為500)與節(jié)點(diǎn)中用于二叉樹的特征個數(shù)(mtry,默認(rèn)為特征個數(shù)的1/3)[11,26]。對數(shù)據(jù)隨機(jī)抽樣,取70%為訓(xùn)練數(shù)據(jù),共2 709條,30%為測試數(shù)據(jù),共" 1 161條。利用驗(yàn)證數(shù)據(jù)的RMSE隨mtry與ntree數(shù)目的變化確定參數(shù),最終RF_GS與RF_Mon的mtry均為5,ntree均為500。
變量重要性檢驗(yàn)可確定對光溫產(chǎn)量潛力模擬影響較大的特征[6]。本研究利用“%IncMSE”衡量特征的重要性,即將其中一個特征變?yōu)殡S機(jī)數(shù)后,隨機(jī)森林準(zhǔn)確性的降低程度越大表示該變量的重要性越大[6,9]。同時,使用隨機(jī)森林部分依賴圖可視化單個特征與光溫產(chǎn)量潛力之間的非線性函數(shù)形式,以表明單個特征影響隨機(jī)森林模型預(yù)測結(jié)果的趨勢與幅度[10,27,28]。
1.6 模型性能評價
本研究以WheatGrow模擬的光溫產(chǎn)量潛力作為參考值,利用RMSE計算隨機(jī)森林模型預(yù)測結(jié)果與參考值誤差,RMSE越小,隨機(jī)森林模型預(yù)測結(jié)果誤差越小。并利用決定系數(shù)(R2)表現(xiàn)隨機(jī)森林模型預(yù)測光溫產(chǎn)量潛力與參考值的擬合效果,R2越大,擬合效果越好。公式如下。
[RMSE=i=1n(Yref,i-Ypre,i)2n] (1)
[R2=1-i=1n(Yref,i-Ypre,i)2i=1n(Yref,i-Yref)2] (2)
式中,[Yref] 是WheatGrow模擬的光溫產(chǎn)量潛力,本研究作為參考;[Ypre] 為隨機(jī)森林模型預(yù)測的光溫產(chǎn)量潛力;[n]為站點(diǎn)數(shù)目,本研究為129個;[Yref] 為WheatGrow模擬的所有站點(diǎn)光溫產(chǎn)量潛力均值。
2 結(jié)果與分析
2.1 模型表現(xiàn)
以WheatGrow模擬結(jié)果為參考,RF_GS與RF_Mon在測試數(shù)據(jù)上均表現(xiàn)出良好的擬合效果(Plt;0.05),并沒有出現(xiàn)預(yù)測值過高或過低的現(xiàn)象(圖4)。其中,RF_GS的擬合直線更接近1∶1(圖4a),其擬合效果略優(yōu)于RF_Mon(圖4b),R2達(dá)0.94,RMSE為300.4 kg/hm2。
利用GCMs未來氣候數(shù)據(jù)驗(yàn)證隨機(jī)森林模型模擬精度,結(jié)果表明,當(dāng)光溫產(chǎn)量潛力小于4 000 kg/hm2或大于10 000 kg/hm2時,隨機(jī)森林與WheatGrow模型模擬的光溫產(chǎn)量潛力擬合效果較差(圖5)。通過擬合直線可以看出,訓(xùn)練數(shù)據(jù)光溫產(chǎn)量潛力在3 600~11 000 kg/hm2,在未來氣候條件下,利用WheatGrow模擬的光溫產(chǎn)量潛力在1 400~12 000 kg/hm2,而RF_GS(圖5a)與RF_Mon(圖5b)預(yù)測光溫產(chǎn)量潛力在4 000~10 000 kg/hm2,隨機(jī)森林模型的預(yù)測光溫產(chǎn)量潛力范圍在訓(xùn)練數(shù)據(jù)光溫產(chǎn)量潛力范圍內(nèi)。
2.2 變量重要性
利用隨機(jī)森林建立光溫生產(chǎn)潛力模擬模型,日照時數(shù)與模擬年份的重要性較高,RF_GS模型變量重要性檢驗(yàn)顯示,GS_SSD為最有影響力的變量(圖6a)。RF_Mon模型變量重要性檢驗(yàn)表明,經(jīng)度為最有影響力的變量,其次為5月與3月的日照時數(shù)(圖6b)。
2.3 部分依賴圖
通??梢园巡糠忠蕾噲D解釋為目標(biāo)響應(yīng)與特征的函數(shù),即光溫產(chǎn)量潛力與特征變量的函數(shù)。不論是生長季變量(圖7)還是月份變量(圖8),隨日照時數(shù)增加,光溫產(chǎn)量潛力均表現(xiàn)出顯著增加的趨勢(圖7a,圖8c)。例如生長季平均日照時數(shù)從0增加到6 h,光溫產(chǎn)量潛力從6 500 kg/hm2增加到9 000 kg/hm2(圖7a)。但不同月份平均日照時數(shù)對光溫產(chǎn)量潛力影響程度不同,由大到小分別為5月(圖8c)、3月(圖8l)與4月(圖8h),且當(dāng)5月日照時數(shù)達(dá)8 h之后,光溫產(chǎn)量潛力仍不斷增加(圖8c),而對于3月,當(dāng)日照時數(shù)達(dá)8 h之后,光溫產(chǎn)量潛力已達(dá)到飽和(圖8l)。隨溫度升高,不論是日最高溫、日最低溫還是平均溫度,光溫產(chǎn)量潛力均表現(xiàn)出減少的趨勢(圖7c至圖7d,圖8e至圖8g)。生長季的溫度數(shù)據(jù)中,日最低溫對光溫產(chǎn)量潛力影響較大,隨日最低溫從0到15 ℃,光溫產(chǎn)量潛力變化范圍在1 000 kg/hm2左右,其次為平均溫(圖7g)與日最高溫(圖7d)。但月份的溫度數(shù)據(jù)變化對光溫產(chǎn)量潛力影響較大(圖8),其中,影響力最大的為Tmin3,當(dāng)Tmin3高于2 ℃以后,光溫產(chǎn)量潛力大約從8 350 kg/hm2下降到" " " 7 650 kg/hm2(圖8j),其次為aveTEM3與aveTEM5。而月份最高溫度對光溫產(chǎn)量潛力影響較小,光溫產(chǎn)量潛力變化范圍在200 kg/hm2左右。SY對RF_GS與RF_Mon的影響較小。
3 討論
3.1 隨機(jī)森林模型性能
由于作物模型的結(jié)構(gòu)復(fù)雜性,數(shù)據(jù)缺乏一直是作物模型在不同區(qū)域不同應(yīng)用情景中需要解決的問題,隨著大數(shù)據(jù)及物聯(lián)網(wǎng)技術(shù)的發(fā)展,為簡化作物模型帶來契機(jī)[4,15]。本研究在站點(diǎn)尺度上,將作物模型模擬光溫產(chǎn)量潛力所需日值數(shù)據(jù)轉(zhuǎn)換為隨機(jī)森林特征變量,結(jié)合WheatGrow光溫產(chǎn)量潛力模擬結(jié)果建立隨機(jī)森林模型,兼顧了模擬過程中作物生長與環(huán)境要素的機(jī)理性及非線性關(guān)系,有效減少了光溫產(chǎn)量潛力模擬所需數(shù)據(jù)量,在測試數(shù)據(jù)上展現(xiàn)出較高的精度。而在區(qū)域尺度上,利用機(jī)器學(xué)習(xí)結(jié)合作物模型在不同空間范圍及尺度下具有適用性[6]。前人利用格網(wǎng)化的EPIC-IIASA模型,在全球尺度上建立空間分辨率為0.5°的特征,通過極端梯度增強(qiáng)和隨機(jī)森林2種方法與EPIC-IIASA模型光溫產(chǎn)量潛力建立混合模型,并在空間分辨率為0.25°的研究區(qū)域進(jìn)行驗(yàn)證,表明可在訓(xùn)練數(shù)據(jù)的范圍內(nèi)提供穩(wěn)健估計。此外,前人還通過隨機(jī)森林建立甘蔗生物量模擬模型,結(jié)合分類與回歸2種方法可提高模型預(yù)測能力,為農(nóng)場決策提供指導(dǎo)[14]。同時前人研究還指出,在未來幾十年中診斷氣候變化對作物生產(chǎn)力的潛在影響至關(guān)重要,應(yīng)使農(nóng)業(yè)系統(tǒng)適應(yīng)漸進(jìn)的氣候變化,所以應(yīng)確保在未來氣候變化條件下隨機(jī)森林仍是作物產(chǎn)量預(yù)測建模的有效方法[14]。
與前人研究類似,由于隨機(jī)森林輸出數(shù)據(jù)并非連續(xù)性數(shù)據(jù),利用隨機(jī)森林回歸建模容易出現(xiàn)對極大值預(yù)測較低與極小值預(yù)測較高的現(xiàn)象,特別是在局部區(qū)域氣象條件差別較大,導(dǎo)致驗(yàn)證數(shù)據(jù)超出訓(xùn)練數(shù)據(jù)范圍的情況[6,9]。雖然研究提出擴(kuò)大訓(xùn)練數(shù)據(jù)集可解決此問題,但主觀性較強(qiáng),特別是在未來氣候不同增溫條件下,尋找更優(yōu)的機(jī)器學(xué)習(xí)方法也許可提供更完善的預(yù)測,比如以樣條函數(shù)的張量積作為基函數(shù)的多元自適應(yīng)回歸樣條(MARS)可提供超出訓(xùn)練數(shù)據(jù)范圍的預(yù)測,在水文學(xué)已得到廣泛應(yīng)用[29-32]。利用多種機(jī)器學(xué)習(xí)方法提升作物模型模擬能力是將來需進(jìn)一步研究的問題。
3.2 變量重要性與部分依賴圖
由于作物生長周期較長,研究表明,獲取不同時間范圍特征,可有效捕獲生長季內(nèi)氣候指數(shù)變化對作物各生長階段的影響[6,14]。此外,對不同特征的評估表明,即使是氣象數(shù)據(jù)中非常基本的特征,只要這些特征包含足夠的信息,在涉及一般回歸度量時也能提供可靠的結(jié)果[6,11]。由于本研究模擬情景為光溫產(chǎn)量潛力,干物質(zhì)積累及產(chǎn)量形成受日照條件影響較大,所以日照時數(shù)的重要性程度較高。5月是作物小麥子粒形成與灌漿的重要時期,與最終模擬產(chǎn)量密切相關(guān),所以5月日照時數(shù)重要性程度較高。
通過作物模型與歷史氣象數(shù)據(jù)發(fā)現(xiàn)氣候條件對產(chǎn)量的影響規(guī)律,對實(shí)踐新型管理措施及品種選育等具有指導(dǎo)作用[4]。氣象條件變化的負(fù)面影響主要來自溫度,溫度升高會縮短作物生長周期,減少作物干物質(zhì)積累時間,且會加快蒸騰增加水分脅迫的風(fēng)險,最終導(dǎo)致產(chǎn)量下降,特別是在低海拔區(qū)域;而在高海拔地區(qū),產(chǎn)量可能會隨著溫度的升高而增加[3,33]。這在WheatGrow模型中表現(xiàn)為溫度升高,導(dǎo)致生長度日(GDD)累計時間縮短,熱效應(yīng)與熱敏感性增大,而生理發(fā)育時間是這3個變量積累的結(jié)果,最終導(dǎo)致生育期縮短。所以通過部分依賴圖可以看出,溫度升高導(dǎo)致光溫產(chǎn)量潛力降低。此外,通過月份特征本研究還發(fā)現(xiàn),3月日最低溫超過3.5 ℃對光溫產(chǎn)量潛力影響較大。而日照時數(shù)直接轉(zhuǎn)化為作物冠層的光合有效輻射量,所以增加日照時數(shù)光溫產(chǎn)量潛力顯著升高。
3.3 研究局限性
由于本研究模擬情景為光溫產(chǎn)量潛力,并未考慮土壤、降水量等因素的影響。研究表明,在雨養(yǎng)潛力下,生長季總降水量重要性程度最高,溫度及土壤為中等至次要的變量,水分條件是造成產(chǎn)量空間變異的主要原因[6]。此外,本研究利用氣象數(shù)據(jù)均值建立特征,表明使用空間或時間平均的氣候數(shù)據(jù)可能導(dǎo)致數(shù)據(jù)異質(zhì)性消失并引入偏差,對隨機(jī)森林這種非參數(shù)方法的影響尚未研究[11]。本研究僅是站點(diǎn)尺度建立隨機(jī)森林模型,結(jié)合作物光溫產(chǎn)量潛力、產(chǎn)量統(tǒng)計數(shù)據(jù)、種植面積、歸一化植被指數(shù)等監(jiān)測數(shù)據(jù)建立區(qū)域應(yīng)用模型是將來需要研究的重要內(nèi)容[9,14]。
4 小結(jié)
基于生長季或月份數(shù)據(jù),利用隨機(jī)森林建模可降低光溫產(chǎn)量潛力模擬數(shù)據(jù)需求量;利用隨機(jī)森林可以得出對光溫產(chǎn)量潛力模擬較大的環(huán)境變量,包括緯度、生長季日照時數(shù)、5月日照時數(shù)、3月最低溫度;若驗(yàn)證數(shù)據(jù)范圍超出訓(xùn)練數(shù)據(jù)范圍,利用隨機(jī)森林建模誤差較大,模型泛化能力存在局限性。
參考文獻(xiàn):
[1] 朱 艷,湯 亮,劉蕾蕾,等.作物生長模型(CropGrow)研究進(jìn)展[J].中國農(nóng)業(yè)科學(xué),2020,53(16):3235-3256.
[2] ABELEDO L G,SAVIN R,SLAFER G A. Wheat productivity in the Mediterranean Ebro Valley: Analyzing the gap between attainable and potential yield with a simulation model[J].European journal of agronomy,2008,28(4):541-550.
[3] 彭慧文,趙俊芳,謝鴻飛,等.作物模型應(yīng)用與遙感信息集成技術(shù)研究進(jìn)展[J].中國農(nóng)業(yè)氣象,2022,43(8):644-656.
[4] KEATING B A,THORBURN P J. Modelling crops and cropping systems—Evolving purpose, practice and prospects[J]. European journal of agronomy,2018,100:163-176.
[5] MORELL F J,YANG H S,CASSMAN K G,et al. Can crop simulation models be used to predict local to regional maize yields and total production in the U.S. Corn Belt?[J].Field crops research,2016,192:1-12.
[6] 孫少杰,吳門新,莊立偉,等.基于CNN卷積神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)的冬小麥縣級產(chǎn)量預(yù)測[J].農(nóng)業(yè)工程學(xué)報,2022, 38(11):151-160.
[7] 甘 甜,李 雷,李紅葉,等.基于多源遙感數(shù)據(jù)和機(jī)器學(xué)習(xí)算法的冬小麥產(chǎn)量預(yù)測研究[J].麥類作物學(xué)報,2022, 42(11):1419-1428.
[8] SCHLENKER W H,ROBERTS M J. Nonlinear temperature effects indicate severe damages to US crop yields under climate change[J].Proceedings of the national academy of sciences,2009,106(37):15594-15598.
[9] JEONG J H,RESOP J P,MUELLER N D,et al. Random forests for global and regional crop yield predictions[J].Plos one,2016," " " " 11(6):e0156571.
[10] 牛乾坤,劉 瀏,黃冠華,等.基于GEE和機(jī)器學(xué)習(xí)的河套灌區(qū)復(fù)雜種植結(jié)構(gòu)識別[J].農(nóng)業(yè)工程學(xué)報,2022,38(6):165-174.
[11] HOFFMAN A L,KEMANIAN A R,F(xiàn)OREST C E. Analysis of climate signals in the crop yield record of sub-Saharan Africa[J].Global change biology,2018,24(1):143-157.
[12] DAI X,HUO Z,WANG H. Simulation for response of crop yield to soil moisture and salinity with artificial neural network[J].Field crops research,2011,121(3):441-449.
[13] BREIMAN L. Random forests[J].Machine learning,2001,45(1):5-32.
[14] EVERINGHAM Y,SEXTON J,SEXTON D,et al. Accurate prediction of sugarcane yield using a random forest algorithm[J].Agronomy for sustainable development,2016,36(2):27.
[15] REICHSTEIN M,CAMPS-VALLS G,STEVENS B,et al. Deep learning and process understanding for data-driven Earth system science[J].Nature,2019,566:195-204.
[16] ZHANG X,XU H,JIANG L,et al. Selection of appropriate spatial resolution for the meteorological data for regional winter wheat potential productivity simulation in China based on WheatGrow model[J].Agronomy,2018,8(10):198.
[17] 呂尊富,劉小軍,湯 亮,等.基于WheatGrow和CERES模型的區(qū)域小麥生育期預(yù)測與評價[J].中國農(nóng)業(yè)科學(xué),2013, 46(6):1136-1148.
[18] LIU B,LIU L,ASSENG S,et al. Modelling the effects of heat stress on post-heading durations in wheat: A comparison of temperature response routines[J].Agricultural and forest meteorology,2016,222:45-58.
[19] CAO W,LIU T,LUO W,et al. Simulating organ growth in wheat based on the organ–weight fraction concept[J].Plant production science,2002,5(3):248-256.
[20] 趙揚(yáng)輝,湯 亮,曹衛(wèi)星,等.小麥生長模擬模型(WheatGrow)的適應(yīng)性評價[J].麥類作物學(xué)報,2010,30(3):443-448.
[21] 肖瀏駿,劉蕾蕾,邱小雷,等.小麥生長模型對拔節(jié)期和孕穗期低溫脅迫響應(yīng)能力的比較[J].中國農(nóng)業(yè)科學(xué),2021,54(3):504-521.
[22] WATANABE M,SUZUKI T,O’ISHI R,et al. Improved climate simulation by MIROC5: Mean states, variability, and climate sensitivity[J].Journal of climate 2010,23(23):6312-6335.
[23] KONZMANN M,GERTEN D,HEINKE J. Climate impacts on global irrigation requirements under 19 GCMs, simulated with a vegetation and hydrology model[J].Hydrological sciences journal,2013,58(1):88-105.
[24] 文新亞,陳 阜.基于DSSAT模型模擬氣候變化對不同品種冬小麥產(chǎn)量潛力的影響[J].農(nóng)業(yè)工程學(xué)報, 2011,27(S2):74-79.
[25] KURSA M B,RUDNICKI W R. Feature selection with the Boruta package[J].Journal of statistical software,2010,36(11):1-13.
[26] LIAW A,WIENER M. Classification and regression by randomForest[J].R news,2002,2(3):18-22.
[27] VINCENZI S,ZUCCHETTA M,F(xiàn)RANZOI P,et al. Application of a random forest algorithm to predict spatial distribution of the potential yield of Ruditapes philippinarum in the Venice lagoon, Italy[J].Ecological modelling,2011, 222(8):1471-1478.
[28] OSBORNE T,ROSE G,WHEELER T. Variation in the global-scale impacts of climate change on crop productivity due to climate model uncertainty and adaptation[J].Agricultural and forest meteorology,2013,170:183-194.
[29] MCCUEN R H,KNIGHT Z,CUTTER A G. Evaluation of the Nash-Sutcliffe efficiency index[J].Journal of hydrologic engineering,2006,11(6):597-602.
[30] NAGY A,F(xiàn)EHéR J,TAMáS J. Wheat and maize yield forecasting for the Tisza river catchment using MODIS NDVI time series and reported crop statistics[J].Computers and electronics in agriculture,2018,151:41-49.
[31] FUKUDA S,SPREER W,YASUNAGA E,et al. Random Forests modelling for the estimation of mango (Mangifera indica L. cv. Chok Anan) fruit yields under different irrigation regimes[J].Agricultural water management,2013,116, 142-150.
[32] HEDDAM S,KISI O. Modelling daily dissolved oxygen concentration using least square support vector machine, multivariate adaptive regression splines and M5 model tree[J].Journal of hydrology,2018,559:499-509.
[33] THORNTON P K,JONES P G,ALAGARSWAMY G,et al. Spatial variation of crop yield response to climate change in East Africa[J].Global environmental change,2009,19(1):54-65.
基金項(xiàng)目:山東省自然科學(xué)基金項(xiàng)目(ZR2021QC183);山東省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)科技創(chuàng)新工程項(xiàng)目(CXGC2023A34)
作者簡介:徐 浩(1989-),男,山東泰安人,助理研究員,博士,主要從事農(nóng)業(yè)數(shù)據(jù)分析與建模研究,(電子信箱)haoxu1989@hotmail.com;通信作者,王 帥(1984-),男,山東濟(jì)南人,副研究員,碩士,主要從事農(nóng)業(yè)軟件系統(tǒng)研發(fā),(電子信箱)wangs1984@163.com。