摘要:玉米作為河南省主要種植作物之一,作物產(chǎn)量預(yù)測對區(qū)域貿(mào)易和糧食安全具有重要意義。為建立簡單、及時、準(zhǔn)確的作物葉面積指數(shù)LAI和產(chǎn)量預(yù)測模型,采用多元線性回歸MLR、偏最小二乘回歸PLSR和決策樹DT機(jī)器學(xué)習(xí)技術(shù),結(jié)合玉米生理參數(shù)因子(P1)、光譜特征波段(P2)、土壤性質(zhì)參數(shù)(P3)和氣象參數(shù)(P4)進(jìn)行多因子組合構(gòu)建玉米LAI和產(chǎn)量的估測模型。研究結(jié)果表明,在3種機(jī)器學(xué)習(xí)方法中,籽粒形成期的LAI估測精度顯著優(yōu)于其他生育時期,而成熟期的產(chǎn)量模型估測精度顯著優(yōu)于其他時期;在5種多因子組合中,PLSR算法結(jié)合P1+P2+P3+P4多因子組合構(gòu)建的模型達(dá)到最高精度,其中LAI估測最高為Rv2=0.84,RMSEv=0.38,產(chǎn)量估測最高為Rv2=0.79,RMSEv=982 kg/hm2。為我國北方玉米種植區(qū)的玉米生長和產(chǎn)量預(yù)測提供技術(shù)支持和理論依據(jù),提高預(yù)測的準(zhǔn)確性和效率,對農(nóng)業(yè)生產(chǎn)管理和決策制定具有重要意義。
關(guān)鍵詞:玉米;機(jī)器學(xué)習(xí);高光譜;生理指標(biāo);葉面積指數(shù);產(chǎn)量
中圖分類號:S513" " " 文獻(xiàn)標(biāo)識碼:A" " " 文章編號:2095?5553 (2024) 10?0206?09
Research on maize yield estimation based on machine learning combined with multi?factor combination
Jia Jinbao1, Zhu Chengjuan2, Wang Jiaquan1, Zhou Peng3
(1. Xinyang Vocational College of Aart, Xinyang, 464000, China; 2. School of Traffic and Transportation Engineering,
Dalian Jiaotong University, Dalian, 116028, China; 3. College of Information and Management Science, Henan Agricultural University, Zhengzhou, 450003, China)
Abstract: As one of the main crops in Henan Province, maize yield prediction holds significant importance for regional trade and food security. In order to establish a simple, timely, and accurate model for predicting crop LAI and yield, this study employs multiple linear regression (MLR), partial least squares regression (PLSR), and decision tree (DT) machine learning techniques. These techniques are combined with multi?factor data, including maize physiological parameters (P1), spectral characteristic bands (P2), soil property parameters (P3), and meteorological parameters (P4), to construct estimation models for maize LAI and yield. The study results indicate that among the three machine learning methods, the LAI estimation accuracy during the grain filling stage is significantly higher than in other growth stages, while the yield estimation accuracy during the maturity stage is significantly higher than in other stages. Among the five multi?factor combinations, the PLSR algorithm combined with the P1+P2+P3+P4 multi?factor combination has achieved the highest accuracy, with the highest LAI estimation at Rv2=0.84 and RMSEv = 0.38, and the highest yield estimation at Rv2=0.79 and RMSEv = 982 kg/hm2. These findings provide technical support and theoretical basis for regional maize growth and yield prediction in the maize?growing areas of northern China, enhancing prediction accuracy and efficiency, and are of great significance for agricultural production management and decision?making.
Keywords: maize; machine learning; hyperspectral; physiological indicators; LAI; yield
0 引言
玉米(maize)作為一種重要的糧食、飼料和生物能源作物,在世界范圍內(nèi)具有廣泛的種植面積和消費群體。河南省作為我國玉米的主產(chǎn)區(qū)之一,其玉米的生長和產(chǎn)量直接影響著我國農(nóng)業(yè)生產(chǎn)的效益和安全。因此,深入研究玉米生長過程對于探索和預(yù)測玉米葉面積指數(shù)和產(chǎn)量具有重要的理論和實踐意義。
針對玉米生物量監(jiān)測的傳統(tǒng)研究方法主要通過人工采樣,但此方法耗時費力,且無法滿足大面積玉米生物量實時、精確監(jiān)測的需求[1, 2]。目前,通過經(jīng)驗統(tǒng)計模型和基于機(jī)器學(xué)習(xí)算法估測模型來改進(jìn)作物產(chǎn)量預(yù)測越來越來受人們重視[3]。傳統(tǒng)的統(tǒng)計模型通過建立天氣變量(溫度、降水、太陽輻射等)與作物田間生理參數(shù)變量,包括:株高、SPAD(Soil and Plant Analyzer Development,一種衡量植物葉片中葉綠素相對含量的指標(biāo))、葉綠素含量、鮮重和干重等)之間的回歸方程來預(yù)測產(chǎn)量,并在不同時間和空間尺度上進(jìn)行預(yù)測[4]。這種回歸結(jié)果清楚地顯示了氣候因子或作物生理參數(shù)等單一因子對產(chǎn)量的影響,但它們因相對較低的解釋能力而存在較大爭議,而控制產(chǎn)量的主要因素往往是多種影響因子共同決定的,且隨著生長階段的變化而變化[5]。因此,這些單一因子構(gòu)建估測模型的精度往往達(dá)到一定的數(shù)值后較難再有提升,很難應(yīng)用于更大的區(qū)域[6]。
機(jī)器學(xué)習(xí)的廣泛應(yīng)用已經(jīng)證明了其在數(shù)據(jù)挖掘和農(nóng)業(yè)分析中的強(qiáng)大性能,從而更有效地進(jìn)行作物生長監(jiān)測和產(chǎn)量預(yù)測[7]。玉米生長受到土壤條件、氣候和各種變量因子的影響,這些因子之間的相互作用對作物產(chǎn)量的形成起著重要作用[8]。然而,在許多研究中選擇的變量都是基于整個生長季節(jié)的生理參數(shù)或者單一影響因子,這意味著最終的產(chǎn)量直到收獲時才能被估計出來[9]。根據(jù)研究調(diào)查可知,多因子組合同時作為變量結(jié)合機(jī)器學(xué)習(xí)估測玉米產(chǎn)量的研究尚少。確定最佳的多因子組合,可以更好地融合多因子對玉米產(chǎn)量的估測優(yōu)勢,具有提高玉米產(chǎn)量預(yù)測模型精度的潛力[10]。
隨著科技的進(jìn)步和研究方法的創(chuàng)新,多因子結(jié)合機(jī)器學(xué)習(xí)成為了當(dāng)前作物生長研究的熱點領(lǐng)域之一[11]。其中,部分研究主要集中在氣候因子和栽培管理策略對玉米生長的影響,如溫度、光照、水分、施肥等[12];同時,機(jī)器學(xué)習(xí)方法也被應(yīng)用于玉米生長模型的構(gòu)建和預(yù)測[13]。另外,研究以農(nóng)業(yè)區(qū)域化特征為主,主要關(guān)注玉米的栽培管理、根系發(fā)育和產(chǎn)量等方面,但在機(jī)器學(xué)習(xí)的應(yīng)用方面仍然相對較少[3, 14]。越來越多的學(xué)者基于利用遙感數(shù)據(jù)、氣象數(shù)據(jù)、土壤信息等多源數(shù)據(jù)進(jìn)行作物產(chǎn)量估測,并運用機(jī)器學(xué)習(xí)方法構(gòu)建預(yù)測模型,取得了較好的結(jié)果。彭慧文[15]、劉帥兵[16]等利用氣候參數(shù)和土壤環(huán)境因子的相互作用,結(jié)合機(jī)器學(xué)習(xí)和作物生長模型對玉米地上生物量和產(chǎn)量的模擬結(jié)果得到有效改善。吳永清等[17]采用MLR和PLSR算法對小麥、玉米等谷物的產(chǎn)量進(jìn)行估測,系統(tǒng)的研究了不同算法預(yù)測玉米產(chǎn)量方面的能力。
為了優(yōu)化當(dāng)前玉米產(chǎn)量預(yù)測的準(zhǔn)確性與時效性不足的問題。本研究旨在利用機(jī)器學(xué)習(xí)技術(shù)結(jié)合多因子組合,構(gòu)建及時、準(zhǔn)確的玉米葉面積指數(shù)和產(chǎn)量的預(yù)測模型。整合玉米的生理參數(shù)因子(P1)、光譜特征波段(P2)、土壤性質(zhì)參數(shù)(P3)和氣象參數(shù)(P4)等多源數(shù)據(jù),探究參數(shù)因子對玉米LAI和產(chǎn)量擬合結(jié)果的影響;探索多元線性回歸(MLR)、偏最小二乘回歸(PLSR)和決策樹(DT)算法在玉米生長和產(chǎn)量預(yù)測中的適用性,并分析不同生長時期對玉米葉面積指數(shù)和產(chǎn)量預(yù)測的影響程度;探尋多種機(jī)器學(xué)習(xí)算法結(jié)合多因子組合的最優(yōu)玉米LAI和產(chǎn)量預(yù)測模型。
1 材料和方法
1.1 研究區(qū)概況
研究區(qū)位于我國華北平原河南省許昌市(113°54′E,33°57′N)。農(nóng)作物種類主要為玉米和冬小麥,耕作分為夏、秋兩季。許昌市屬暖溫帶大陸性季風(fēng)氣候,降水集中于夏末秋初,多年平均降水量約為700 mm,平均氣溫15.1 ℃,雨熱同季,光照時間充足,農(nóng)業(yè)發(fā)展地理條件優(yōu)越。研究區(qū)種植45個玉米小區(qū),每個小區(qū)長8 m,寬5 m,且采用相同的水肥管理,試驗期間采集了2022年4—9月的玉米生理指標(biāo)參數(shù)和其他各類數(shù)據(jù),圖1為研究區(qū)的概況圖。
1.2 多源數(shù)據(jù)收集
1.2.1 生理指標(biāo)參數(shù)
測定多個玉米生長發(fā)育指標(biāo)參數(shù),主要測定玉米的指標(biāo)參數(shù)有株高、SPAD(葉綠素相對含量)[18]、葉綠素含量、鮮重、干重和葉面積指數(shù)[19],采集的玉米生育時期分別為苗期(S1)、抽雄期(S2)、籽粒形成期(S3)和成熟期(S4),將以上指標(biāo)統(tǒng)一為一類影響因子,即生理指標(biāo)參數(shù)(P1),最后在玉米收獲期測定每個小區(qū)的產(chǎn)量。
1.2.2 光譜參數(shù)及特征選取
玉米冠層光譜采用FieldSpec 4地物光譜儀測定,光譜范圍為350~2 500 nm,350~1 000 nm和1 000~2 500 nm的光譜分辨率分別為3 nm和10 nm。本研究是在玉米的四個關(guān)鍵生育時期(中午11:00—13:00)利用光譜儀垂直于地面照射玉米冠層獲得的光譜反射率數(shù)據(jù),每個小區(qū)采集5條光譜數(shù)據(jù),經(jīng)過S-G(Savitzky-Golay)平滑預(yù)處理[20],并取平均值,再利用連續(xù)投影算法(Successive Projections Algorithm,SPA)篩選出對玉米冠層響應(yīng)良好的特征波段反射率參數(shù)(P2)。
1.2.3 土壤參數(shù)
土壤的特性對植物的生長發(fā)育至關(guān)重要,并對作物產(chǎn)量有重大影響,本研究的樣本在同一個試驗田中,從整個試驗田中在玉米播種之前隨機(jī)選取5個點的耕層土(0~20 cm)的平均值作為本試驗田的土壤參數(shù)來源。獲取的土壤物理和化學(xué)參數(shù)(P3)主要包括土壤pH、土壤容重、有機(jī)碳含量、總氮含量、速效磷、有效鉀、物理砂性和物理粘性(表1),各項指標(biāo)均測定3次并取平均值,詳細(xì)的指標(biāo)測定方法見參考文獻(xiàn)[21?23]。
1.2.4 氣象參數(shù)
氣象參數(shù)是從國家氣象科學(xué)中心獲取,該數(shù)據(jù)為2022年4—9月河南省許昌市氣象站點的逐日氣象數(shù)據(jù)(P4),覆蓋了玉米生長發(fā)育的整個周期,本研究使用的主要氣象變量包括最高溫、最低溫和降水量(圖2)。
1.3 研究方法
本文按照圖3所示的步驟方法建立研究區(qū)2022年的玉米產(chǎn)量估算模型,總共45個種植小區(qū),隨機(jī)將小區(qū)分為兩部分,即建模集([n=30])和驗證集([n=15])。
本研究采用S-G平滑[23]與連續(xù)投影算法(Successive Projections Algorithm,SPA),對光譜數(shù)據(jù)進(jìn)行預(yù)處理以及特征光譜的篩選[24],從而達(dá)到降維、提取重要特征、去除冗余信息和可視化光譜特征分布等要求。隨后,采用多元線性回歸(Multiple Linear Regression,MLR)[24]、偏最小二乘回歸(Partial Least Squares Regression,PLSR)[24]和決策樹(Decision Tree,DT)[25],三種機(jī)器學(xué)習(xí)算法分別構(gòu)建針對玉米產(chǎn)量的估測模型,其中建模集與校正集的比例為2∶1。
1.4 數(shù)據(jù)組合
考慮到多種影響因子的相互作用和實際因子之間的內(nèi)在聯(lián)系性,根據(jù)影響因子的重要程度組合出5組多因子組合,分別是單因子(P1、P2),雙因子組合(P1+P2、P3+P4),多因子組合(P1+P2+P3+P4)。選擇P1和P2作為單因子是因為其在預(yù)測玉米LAI和產(chǎn)量模型中最具代表性和重要性。P1+P2和P3+P4的雙因子組合則是考慮到數(shù)據(jù)類型的共線性且需要評估重要因子間的相互作用和覆蓋面。多因子組合(P1+P2+P3+P4)則綜合考慮所有重要因子及其交互作用,這種選擇方法確保了在構(gòu)建玉米LAI和產(chǎn)量模型時,能夠全面、平衡地考慮各因子的影響,從而探索不同多因子組合對構(gòu)建玉米LAI和產(chǎn)量的模型精度影響。
本文在運用三種機(jī)器學(xué)習(xí)模型進(jìn)行擬合時,參數(shù)選擇是通過交叉驗證方法確定的,以確保模型的最佳性能和穩(wěn)定性。
1.5 模型評估
為了評價玉米產(chǎn)量估計的準(zhǔn)確性,研究采用決定系數(shù)R2、均方根誤差RMSE和相對誤差RE作為定量指標(biāo)。其中RMSE是預(yù)測值與真實觀測值之間的差異的平方和的平均值的平方根,它衡量了模型的預(yù)測誤差的大小,數(shù)值越小表示預(yù)測精度越高。RE是用來衡量預(yù)測值與真實觀測值之間的相對差異。R2的取值范圍在0~1之間,越接近1表示模型能更好地解釋因變量的變異性,而越接近0表示模型的解釋能力較低。定量指標(biāo)的計算方法如式(1)~式(3)所示。
[R2=1-i=1nyi-oi2i=1nyi-y2] (1)
[RMSE=i=1nyi-oi2n] (2)
[RE=|yi-oi|yi] (3)
式中: n ——訓(xùn)練或者驗證集的樣本個數(shù);
[y] ——實測平均值;
yi ——第i個實測值;
oi ——預(yù)測值[26]。
2 結(jié)果與分析
2.1 玉米生長期生理指標(biāo)表現(xiàn)
選取玉米的4個關(guān)鍵生育時期的多個生理指標(biāo)組合作為玉米產(chǎn)量估測的一個影響因子,記為生理參數(shù)(P1),獲取的生理參數(shù)分布范圍如圖4所示。
由圖4可知,S1、S2、S3、S4分別對應(yīng)的生育時期為苗期、抽雄期、籽粒形成期和成熟期。株高隨著玉米生長呈現(xiàn)先增高后平穩(wěn)的趨勢,其他5個生理指標(biāo)(SPAD、葉綠素含量、鮮重、干重和LAI)均呈現(xiàn)先增高后在成熟期有略微下降的趨勢,這個趨勢是符合玉米各項生理指標(biāo)在生育時期的規(guī)律。
2.2 特征波段的選取
利用ASD光譜儀獲取了玉米冠層連續(xù)非成像的光譜反射率數(shù)據(jù),由于光譜波段之間的波長相近,使得其光譜反射率的共線性較強(qiáng),表征的光譜信息存在較多的冗余,所以本文通過連續(xù)投影算法(Successive Projections Algorithm,SPA)[27],減少光譜數(shù)據(jù)的共線性,篩選出有效的特征波段,通過連續(xù)投影算法篩選的結(jié)果如圖5所示。提取的特征波段如表2所示。
其中,光譜反射率在波長1 340~1 410 nm空白的原因是這個范圍內(nèi)光譜反射率受到水汽和環(huán)境噪聲的干擾,導(dǎo)致光譜信號反射率發(fā)生無規(guī)律的上下波動,對于特征波長的提取無意義,且影響呈現(xiàn)效果,故去除了該范圍的波長反射率。最終利用SPA算法,獲取12個關(guān)鍵光譜特征中心波段(圖5(e)和5(f)),獲得的特征波段是對于玉米生長發(fā)育有較強(qiáng)的光譜響應(yīng),是監(jiān)測玉米生長發(fā)育的重要光譜波段,包括可見光波段和近紅外波段。
2.3 機(jī)器學(xué)習(xí)估測玉米LAI和產(chǎn)量
2.3.1 估測不同生育時期玉米LAI和產(chǎn)量
利用三種機(jī)器學(xué)習(xí)算法(MLR,PLSR和DT),結(jié)合玉米生理指標(biāo)參數(shù)(P1),構(gòu)建玉米LAI和產(chǎn)量的估測模型,如表3所示。
注:S1~S4為玉米的生育時期,分別為苗期、抽雄期、籽粒形成期和成熟期;Rv2為驗證集的決定系數(shù),RMSEv為驗證集的均方根誤差,RE為樣本的相對誤差,下同。
由表3可知,三個模型算法對于玉米LAI的估測精度整體優(yōu)于對于玉米產(chǎn)量的估產(chǎn)精度,研究表明,PLSR-P1模型在估測玉米LAI和產(chǎn)量方面的精度優(yōu)于MLR-P1和DT-P1,其中在籽粒形成期(S3)估測LAI的精度達(dá)到最高(Rv2=0.77,RMSEv=0.38,RE=6.9%);對于玉米產(chǎn)量的Rv2,RMSEv和RE分別達(dá)到了0.72、1 233 kg/hm2和8.9%。此外,研究還發(fā)現(xiàn)MLR-P1模型估測精度的穩(wěn)定性優(yōu)于PLSR-P1和DT-P1。
2.3.2 多因子組合構(gòu)建玉米LAI估測模型
使用三種機(jī)器學(xué)習(xí)方法結(jié)合玉米生理參數(shù)(P1)、光譜特征波段(P2)、土壤性質(zhì)參數(shù)(P3)和氣象參數(shù)(P4)4種因子數(shù)據(jù),構(gòu)建了玉米LAI估測模型,多因子組合的方法總共分為5種,分別為P1、P2、P1+P2、P3+P4和P1+P2+P3+P4。選擇四因素組合(P1+P2+P3+P4)而不是三因素組合是考慮到四因素能夠更全面地覆蓋影響玉米生長和產(chǎn)量的各個方面,包括生理參數(shù)、光譜特征、土壤性質(zhì)和氣象參數(shù),確保模型具有更高的信息完整性和代表性。同時,四因素組合能夠更好地捕捉復(fù)雜的交互作用,提高模型的預(yù)測精度和穩(wěn)定性,在前期驗證支持的基礎(chǔ)上,直接采用四因素組合也能節(jié)省研究資源并保證模型的泛化能力。
由表4可知,建模集的估測決定性系數(shù)優(yōu)于校正集的決定性系數(shù),且可以發(fā)現(xiàn)一般在建模方法不變的情況下,隨著預(yù)測因子的增加玉米LAI的估測精度也隨之增大,即P1和P2單個的決定系數(shù)略低于P1+P2的決定系數(shù)。其中,PLSR模型結(jié)合P1+P2因子組合模型對LAI的估測精度優(yōu)于MLR和DT的建模精度,Rc2和Rv2分別達(dá)到0.84和0.81。預(yù)測因子達(dá)到4個時,各個模型的LAI估測精度均有略微提高,其中,利用PLSR結(jié)合P1+P2+P3+P4預(yù)測因子的組合建模使得玉米LAI的估測精度達(dá)到最高,校正集Rv2達(dá)到0.84,RMSEv為0.38,RE為7.2%。
然而由表4進(jìn)一步發(fā)現(xiàn)并非總是隨著預(yù)測因子的增加估測精度一定會增大,其中,土壤性質(zhì)參數(shù)和氣象參數(shù)(P3+P4)預(yù)測因子組合構(gòu)建LAI估測模型的估測精度明顯低于P1和P2的估測精度。表明,土壤性質(zhì)參數(shù)與氣象參數(shù)組合構(gòu)建的LAI估測模型對于LAI的影響權(quán)重低于玉米的生理參數(shù)和光譜特征波段。
2.3.3 多因子組合構(gòu)建玉米產(chǎn)量估測模型
利用三種建模方法結(jié)合玉米生理參數(shù)(P1)、光譜特征波段(P2)、土壤性質(zhì)參數(shù)(P3)和氣象參數(shù)(P4)因子數(shù)據(jù),構(gòu)建得到多因子組合的玉米產(chǎn)量估測模型,如表5所示。
建模集的Rc2優(yōu)于校正集的Rv2,在相同建模方法的情況下,隨著預(yù)測因子的增加,玉米產(chǎn)量的估測精度也增大。單獨考慮P1和P2的決定系數(shù)略低于考慮P1+P2的決定系數(shù)。且通過結(jié)合P1+P2因子的PLSR模型的估測精度優(yōu)于MLR和DT模型的建模精度,其中Rc2和Rv2分別達(dá)到0.77和0.73。當(dāng)預(yù)測因子增加到4個時,各模型的產(chǎn)量估測精度略微提高,其中利用PLSR結(jié)合P1+P2+P3+P4預(yù)測因子的組合模型使得玉米產(chǎn)量的估測精度最高,校正集Rv2達(dá)到0.79,RMSEv為982 kg/hm2,RE為7.7%。然而,從表5可知,估測精度并非總是隨著預(yù)測因子的增加就一定增大。特別是土壤性質(zhì)參數(shù)和氣象參數(shù)(P3+P4)的預(yù)測因子組合建模所得到的產(chǎn)量估測模型的精度明顯低于P1和P2的估測精度。這說明對玉米產(chǎn)量的預(yù)測中土壤性質(zhì)參數(shù)和氣象參數(shù)對產(chǎn)量的影響權(quán)重顯著低于玉米的生理參數(shù)和光譜特征波段。
2.3.4 最優(yōu)建模結(jié)果
根據(jù)表4和表5得到的三種機(jī)器學(xué)習(xí)結(jié)合多因子組合構(gòu)建的玉米LAI和產(chǎn)量估測模型,研究結(jié)果顯示MLR、PLSR和DT結(jié)合P1+P2+P3+P4多因子組合的模型估測精度優(yōu)于其他4種多因子組合。圖6為三種機(jī)器學(xué)習(xí)對玉米LAI和產(chǎn)量分別構(gòu)建的最優(yōu)建模擬合圖。
由圖6可知,三種機(jī)器學(xué)習(xí)算法整體對于玉米LAI的估測精度優(yōu)于對玉米產(chǎn)量的估測精度,其中,利用PLSR算法結(jié)合P1+P2+P3+P4多因子組合的估測精度達(dá)到最高(Rv2=0.84,RMSEv=0.38)。除此之外,PLSR建模方法對于玉米產(chǎn)量的估測精度(Rv2=0.79,RMSEv=982 kg/hm2)同樣優(yōu)于MLR和DT的玉米產(chǎn)量估測精度。研究結(jié)果表明,通過MLR與DT構(gòu)建的玉米LAI和產(chǎn)量模型,在驗證圖中,預(yù)測值和實測值樣點分布較為分散,有近1/4的驗證樣點分布在95%置信區(qū)間外,這樣的結(jié)果會降低模型模擬的精度,使得估測精度低于驗證樣點集中于置信區(qū)間的PLSR建模方法。
3 討論
3.1 機(jī)器學(xué)習(xí)在各生育時期的表現(xiàn)
玉米的關(guān)鍵生育時期包括苗期、莖葉生長期、抽雄期、籽粒形成期和成熟期,各個時期的LAI和產(chǎn)量對于玉米自身的生理指標(biāo)參數(shù)(P1)響應(yīng)程度差異較大。本文選取三種機(jī)器學(xué)習(xí)方法結(jié)合生理參數(shù)因子,構(gòu)建了四個關(guān)鍵生育時期的LAI和產(chǎn)量估測模型,研究結(jié)果表明,玉米生長發(fā)育前期(苗期和抽雄期)機(jī)器學(xué)習(xí)對于LAI和生物量的估測效果較差,而在籽粒形成期,LAI的估測精度最高。賀佳等[28]研究發(fā)現(xiàn),利用無人機(jī)光譜數(shù)據(jù)構(gòu)建的植被指數(shù)在玉米抽雄期與成熟期之間估測精度較高,結(jié)果表明,所構(gòu)建的NDRE指數(shù)的決定系數(shù)達(dá)到了0.75,表明玉米籽粒形成期是估測玉米LAI較為可靠的生育時期。在構(gòu)建玉米產(chǎn)量估測模型時,苗期、抽雄期和籽粒形成期的估測精度低于機(jī)器學(xué)習(xí)在玉米成熟期產(chǎn)量估測精度。本文研究結(jié)果的原因可能在于,玉米生長發(fā)育前期的各項生理指標(biāo)無法直接反映產(chǎn)量信息,且在生育前期表現(xiàn)出的指標(biāo)特性與產(chǎn)量影響權(quán)重較小[29]。
3.2 多因子選取和組合對估測的影響
為了提高估測的準(zhǔn)確性,本文采用三種機(jī)器學(xué)習(xí)方法,并結(jié)合多個因子的選取和組合,對玉米的LAI和產(chǎn)量構(gòu)建模型并對其進(jìn)行估測。在估測過程中,多個預(yù)測因子會對結(jié)果產(chǎn)生影響。這些因子包括植株生理參數(shù)(P1)、冠層特征波段(P2)、土壤性質(zhì)(P3)和氣象參數(shù)(P4)。組成單影響因子(P1、P2)、雙影響因子(P1+P2、P3+P4)和多影響因子(P1+P2+P3+P4)共5種多因子組合。不同因子之間的組合對估測結(jié)果產(chǎn)生影響,機(jī)器學(xué)習(xí)算法通過多個因子之間的相互作用和影響,以更好地捕捉因子之間的復(fù)雜關(guān)系。例如,土壤性質(zhì)參數(shù)和氣溫可能存在交互作用,對玉米的生長影響會相互疊加[30]。通過機(jī)器學(xué)習(xí),可以利用這樣的組合關(guān)系,提高估測的準(zhǔn)確性??偹苤谘芯糠椒ù_定的情況下,隨著添加的因子增加估測指標(biāo)的精度也會隨之增大,本研究在一定范圍內(nèi)是符合這項規(guī)律的。然而本研究結(jié)果也出現(xiàn)具有反差性的結(jié)果,由表4表明P3+P4多因子組合獲得的決定系數(shù)明顯低于P1和P2單因子估測玉米LAI和產(chǎn)量的決定系數(shù)。出現(xiàn)此結(jié)果的原因可能是土壤性質(zhì)參數(shù)(P3)和氣象參數(shù)(P4)是間接影響玉米生長發(fā)育的條件因子,它們之間不是直接關(guān)系,中間可能還存在轉(zhuǎn)換條件,例如,土壤中的pH值最先是對玉米的根系生長環(huán)境產(chǎn)生影響,影響到根系蛋白質(zhì)活性,進(jìn)而間接對玉米地上部LAI和籽粒形成產(chǎn)生影響[31]。
3.3 機(jī)器學(xué)習(xí)結(jié)合多因子組合的表現(xiàn)
不同機(jī)器學(xué)習(xí)方法有其各自的適用條件和要求,本文分別采用MLR、PLSR和DT三種機(jī)器學(xué)習(xí)方法結(jié)合多因子組合對玉米的LAI和產(chǎn)量進(jìn)行估測研究。在預(yù)測因子數(shù)目一致的情況下,PLSR算法構(gòu)建的玉米LAI和產(chǎn)量估測模型精度優(yōu)于MLR和DT估測精度。表明在同等數(shù)據(jù)條件下,PLSR算法能夠充分利用輸入特征之間的相關(guān)性,并且通過對輸入特征因子進(jìn)行線性組合,能夠同時考慮多個輸入特征之間的相互作用,從而具有更強(qiáng)的表達(dá)能力[32]。張亞倩[33]、譚先明[34]等研究發(fā)現(xiàn),分別采用機(jī)器學(xué)習(xí)算法結(jié)合激光雷達(dá)和高光譜參數(shù)構(gòu)建得到玉米LAI和產(chǎn)量估測精度較高的模型,結(jié)果表明,采用PLSR算法構(gòu)建玉米LAI和產(chǎn)量估測精度達(dá)到最高,R2分別為0.88和0.51,通過PLSR建立的預(yù)測模型,可以更好地估計玉米產(chǎn)量,為間作玉米的田間管理和生長監(jiān)測提供理論和技術(shù)參考。歐陽玲等[35]基于NDVI、EVI和GNDVI構(gòu)建的MLR為玉米產(chǎn)量估算最優(yōu)模型(R2=0.82,RMSE=1 354.5 kg/hm2),精度達(dá)到了80.55%,為精準(zhǔn)農(nóng)業(yè)的發(fā)展提供了參考。
在未來的研究中,可以進(jìn)一步探索其他機(jī)器學(xué)習(xí)算法,如隨機(jī)森林(RF)、支持向量機(jī)(SVM)、反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、遺傳算法(GA-BP)神經(jīng)網(wǎng)絡(luò)[36]等,以提高模型的預(yù)測精度。此外,還可以考慮引入更多的因子和特征參數(shù),進(jìn)一步提高模型的表達(dá)能力和泛化能力。綜上所述,結(jié)合多因子組合的機(jī)器學(xué)習(xí)方法在玉米LAI和產(chǎn)量估測中具有巨大的潛力,可以為農(nóng)業(yè)生產(chǎn)提供精準(zhǔn)的決策支持。
4 結(jié)論
1) 通過SPA篩選得到玉米冠層光譜的12個特征波段(P2),一定程度上減少了光譜數(shù)據(jù)的冗余性,且在利用PLSR算法構(gòu)建的玉米LAI和產(chǎn)量模型中模型估測效果有較好的表現(xiàn)(LAI:Rv2=0.62,RMSEv=0.54;產(chǎn)量:Rv2=0.64,RMSEv=1 520 kg/hm2)。
2) 利用三種機(jī)器學(xué)習(xí)算法結(jié)合玉米生理參數(shù)因子(P1)構(gòu)建玉米LAI和產(chǎn)量的估測模型中,籽粒形成期生理參數(shù)構(gòu)建的LAI估測精度顯著優(yōu)于苗期、抽雄期和成熟期,其中,采用PLSR算法結(jié)合P1估測精度達(dá)到最高(PLSR+P1,Rv2=0.77,RMSEv=0.38)。
3) 成熟期的生理參數(shù)構(gòu)建的產(chǎn)量估測精度顯著優(yōu)于其他三個生育時期,其中,采用PLSR算法結(jié)合P1估測精度達(dá)到最高(PLSR+P1,Rv2=0.72,RMSEv=1 233 kg/hm2)。采用4種影響因子組成5種多因子組合結(jié)合機(jī)器學(xué)習(xí)算法構(gòu)建的玉米LAI和產(chǎn)量估測模型中,PLSR算法結(jié)合P1+P2+P3+P4多因子組合構(gòu)建的估測模型精度達(dá)到最高,其中玉米LAI估測最高為Rv2=0.84,RMSEv=0.38,玉米產(chǎn)量估測精度最高為Rv2=0.79,RMSEv=982 kg/hm2。
這項研究的結(jié)果為中國北方玉米種植區(qū)的區(qū)域性玉米生理指標(biāo)和產(chǎn)量的預(yù)測提供技術(shù)支持和理論依據(jù)。此外,通過整合多源數(shù)據(jù)結(jié)合利用機(jī)器學(xué)習(xí)方法,可以提高玉米產(chǎn)量預(yù)測的準(zhǔn)確性和效率,對于農(nóng)業(yè)生產(chǎn)管理和決策制定具有重要意義。
參 考 文 獻(xiàn)
[ 1 ] 陳上, 竇子荷, 蔣騰聰, 等. 基于聚類法篩選歷史相似氣象數(shù)據(jù)的玉米產(chǎn)量DSSAT-CERES-Maize預(yù)測[J]. 農(nóng)業(yè)工程學(xué)報, 2017, 33(19): 147-155.
Chen Shang, Dou Zihe, Jiang Tencong, et al. Maize yield forecast with DSSAT-CERES-Maize model driven by historical meteorological data of analogue years by clustering algorithm [J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(19): 147-155.
[ 2 ] 競霞, 鄒琴, 白宗璠, 等. 基于反射光譜和葉綠素?zé)晒鈹?shù)據(jù)的作物病害遙感監(jiān)測研究進(jìn)展[J]. 作物學(xué)報, 2021, 47(11): 2067-2079.
[ 3 ] 岑海燕, 朱月明, 孫大偉, 等. 深度學(xué)習(xí)在植物表型研究中的應(yīng)用現(xiàn)狀與展望[J]. 農(nóng)業(yè)工程學(xué)報, 2020, 36(9): 1-16.
Cen Haiyan, Zhu Yueming, Sun Dawei, et al. Current status and future perspective of the application of deep learning in plant phenotype research [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(9): 1-16.
[ 4 ] Cai Y, Guan K, Lobell D, et al. Integrating satellite and climate data to predict wheat yield in Australia using machine learning approaches [J]. Agricultural and forest meteorology, 2019, 274: 144-159.
[ 5 ] Filippi P, Jones J E, Wimalathunge S N, et al. An approach to forecast grain crop yield using multi?layered, multi?farm data sets and machine learning [J]. Precision Agriculture, 2019, 20(5): 1015-1029.
[ 6 ] 張穎, 趙寬遼, 路燕. 我國玉米生產(chǎn)要素貢獻(xiàn)率和地區(qū)差異實證分析——基于21個玉米主產(chǎn)?。▍^(qū)、市)的面板數(shù)據(jù)[J]. 河南農(nóng)業(yè)科學(xué), 2013, 42(8): 182-185.
[ 7 ] 李靜, 陳桂芬, 安宇. 基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的玉米螟蟲害圖像識別[J]. 華南農(nóng)業(yè)大學(xué)學(xué)報, 2020, 41(3): 110-116.
[ 8 ] Crane?Droesch A. Machine learning methods for crop yield prediction and climate change impact assessment in agriculture [J]. Environmental Research Letters, 2018, 13(11): 114003.
[ 9 ] Chen Y, Zhang Z, Tao F. Improving regional winter wheat yield estimation through assimilation of phenology and leaf area index from remote sensing data [J]. European Journal of Agronomy, 2018, 101: 163-173.
[10] 崔穎, 藺宏宏, 謝云, 等. AquaCrop模型在東北黑土區(qū)作物產(chǎn)量預(yù)測中的應(yīng)用研究[J]. 作物學(xué)報, 2021, 47(1): 159-168.
[11] 王國棟, 姜明, 盛春蕾, 等. 濕地生態(tài)學(xué)的研究進(jìn)展與展望[J]. 中國科學(xué)基金, 2022, 36(3): 364-375.
[12] 楊艷昭, 楊玲, 張偉科, 等. 西遼河流域玉米水分平衡時空分布格局[J]. 干旱區(qū)資源與環(huán)境, 2014, 28(4): 147-152.
[13] Kuradusenge M, Hitimana E, Hanyurwimfura D, et al. Crop yield prediction using machine learning models: Case of Irish potato and maize [J]. Agriculture, 2023, 13(1): 225.
[14] 杜兆輝, 和賢桃, 楊麗, 等. 玉米精準(zhǔn)變量播種技術(shù)與裝備研究進(jìn)展[J]. 農(nóng)業(yè)工程學(xué)報, 2023, 39(9): 1-16.
Du Zhaohui, He Xiantao, Yang Li, et al. Research progress on precision variable?rate seeding technology and equipment for maize [J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(9): 1-16.
[15] 彭慧文, 趙俊芳, 謝鴻飛, 等. 作物模型應(yīng)用與遙感信息集成技術(shù)研究進(jìn)展[J]. 中國農(nóng)業(yè)氣象, 2022, 43(8): 644-656.
[16] 劉帥兵, 楊貴軍, 景海濤, 等. 基于無人機(jī)數(shù)碼影像的冬小麥氮含量反演[J]. 農(nóng)業(yè)工程學(xué)報, 2019, 35(11): 75-85.
Liu Shuaibing, Yang Guijun, Jing Haitao, et al. Retrieval of winter wheat nitrogen content based on UAV digital image [J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(11): 75-85.
[17] 吳永清, 李明, 張波, 等. 高光譜成像技術(shù)在谷物品質(zhì)檢測中的應(yīng)用進(jìn)展[J]. 中國糧油學(xué)報, 2021, 36(5): 165-173.
[18] 馬紅雨, 李仙岳, 孫亞楠, 等. 基于無人機(jī)遙感的不同控釋肥夏玉米SPAD差異性[J]. 排灌機(jī)械工程學(xué)報, 2023, 41(12): 1261-1267.
[19] 郭占強(qiáng), 肖國舉, 李秀靜, 等. 不同土壤有機(jī)碳含量對玉米光合生理及生長發(fā)育的影響[J]. 干旱地區(qū)農(nóng)業(yè)研究, 2022, 40(1): 238-246.
[20] 王玉娜, 李粉玲, 王偉東, 等. 基于無人機(jī)高光譜的冬小麥氮素營養(yǎng)監(jiān)測[J]. 農(nóng)業(yè)工程學(xué)報, 2020, 36(22): 31-39.
Wang Yuna, Li Fenling, Wang Weidong, et al. Monitoring of winter wheat nitrogen nutrition based on UAV hyperspectral images [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(22): 31-39.
[21] 張孟豪, 吳玲, 陳靜, 等. 蚯蚓對廢紙屑再利用及養(yǎng)分貧瘠土壤綜合質(zhì)量的影響[J]. 生態(tài)學(xué)報, 2022, 42(12): 5034-5044.
[22] 李百云, 李慧, 郭鑫年, 等. 基于最小數(shù)據(jù)集的寧夏耕地土壤質(zhì)量評價[J]. 江蘇農(nóng)業(yè)科學(xué), 2021, 49(9): 195-201.
[23] 陳蒙蒙, 蘭玉彬, 王國賓, 等. 基于土壤多參數(shù)監(jiān)測系統(tǒng)的田間持水量試驗研究[J]. 中國農(nóng)機(jī)化學(xué)報, 2021, 42(1): 130-135, 244.
Chen Mengmeng, Lan Yubin, Wang Guobin, et al. Experimental study on field capacity based on soil multi?parameter monitoring system [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(1): 130-135, 244.
[24] 趙金龍, 張學(xué)藝, 李陽. 機(jī)器學(xué)習(xí)算法在高光譜感知作物信息中的應(yīng)用及展望[J]. 中國農(nóng)業(yè)氣象, 2023, 44(11): 1057-1071.
[25] 周培誠, 程塨, 姚西文, 等. 高分辨率遙感影像解譯中的機(jī)器學(xué)習(xí)范式[J]. 遙感學(xué)報, 2021, 25(1): 182-197.
[26] 王敏鈺, 羅毅, 張正陽, 等. 植被物候參數(shù)遙感提取與驗證方法研究進(jìn)展[J]. 遙感學(xué)報, 2022, 26(3): 431-455.
[27] Feng X, Yu C, Chen Y, et al. Non?destructive determination of shikimic acid concentration in transgenic maize exhibiting glyphosate tolerance using chlorophyll fluorescence and hyperspectral imaging [J]. Frontiers in plant science, 2018, 9: 468.
[28] 賀佳, 王來剛, 郭燕, 等. 基于無人機(jī)多光譜遙感的玉米LAI估算研究[J]. 農(nóng)業(yè)大數(shù)據(jù)學(xué)報, 2021, 3(4): 20-28.
[29] 韓文霆, 彭星碩, 張立元, 等. 基于多時相無人機(jī)遙感植被指數(shù)的夏玉米產(chǎn)量估算[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2020, 51(1): 148-155.
Han Wenting, Peng Xingshuo, Zhang Liyuan, et al. Summer maize yield estimation based on vegetation index derived from multi?temporal UAV remote sensing [J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(1): 148-155.
[30] 袁玉琦, 陳瀚閱, 張黎明, 等. 基于多變量與RF算法的耕地土壤有機(jī)碳空間預(yù)測研究——以福建亞熱帶復(fù)雜地貌區(qū)為例[J]. 土壤學(xué)報, 2021, 58(4): 887-899.
[31] 潘根興, 丁元君, 陳碩桐, 等. 從土壤腐殖質(zhì)分組到分子有機(jī)質(zhì)組學(xué)認(rèn)識土壤有機(jī)質(zhì)本質(zhì)[J]. 地球科學(xué)進(jìn)展, 2019, 34(5): 451-470.
[32] Liu T, Xu T, Yu F, et al. A method combining ELM and PLSR (ELM-P) for estimating chlorophyll content in rice with feature bands extracted by an improved ant colony optimization algorithm [J]. Computers and Electronics in Agriculture, 2021, 186: 106177.
[33] 張亞倩, 駱社周, 王成, 等. 聯(lián)合無人機(jī)激光雷達(dá)和高光譜數(shù)據(jù)反演玉米葉面積指數(shù)[J]. 遙感技術(shù)與應(yīng)用, 2022, 37(5): 1097-1108.
[34] 譚先明, 張佳偉, 王仲林, 等. 基于PLS的不同水氮條件下帶狀套作玉米產(chǎn)量預(yù)測[J]. 中國農(nóng)業(yè)科學(xué), 2022, 55(6): 1127-1138.
[35] 歐陽玲, 毛德華, 王宗明, 等. 基于GF-1與Landsat8 OLI影像的作物種植結(jié)構(gòu)與產(chǎn)量分析[J]. 農(nóng)業(yè)工程學(xué)報, 2017, 33(11): 147-156, 316.
Ouyang Ling, Mao Dehua, Wang Zongming, et al. Analysis crops planting structure and yield based on GF-1 and Landsat8 OLI images [J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(11): 147-156, 316.
[36] 王宏軒, 于珍珍, 李海亮, 等. 基于GA-BP神經(jīng)網(wǎng)絡(luò)的鮮食玉米產(chǎn)量預(yù)測[J]. 中國農(nóng)機(jī)化學(xué)報, 2024, 45(6): 156-162.
Wang Hongxuan, Yu Zhenzhen, Li Hailiang, et al. Fresh corn yield prediction based on GA-BP neural network [J]. Journal of Chinese Agricultural Mechanization, 2024, 45(6): 156-162.