關鍵詞:Stacking集成算法;糧食產量;中國南方;預測
中圖分類號:F326.11;S126 文獻標識碼:A
文章編號:0439-8114(2025)05-0155-05
DOI:10.14088/j.cnki.issn0439-8114.2025.05.024 開放科學(資源服務)標識碼(OSID):
Grain yield prediction in southern China based on Stacking ensemble algorithm
MADian-jing',ZHAO Jia-song1,YAN Wei-yu1,DUANGuang-jun1,LIU Zhen-yang2,WU Shao-tian’ (1.School of Big Data,Yunnan Agricultural University,Kunming 65O2O1,China; 2.School of Data Science and Engineering,Kunming City College,Kunming 65Oo32,China)
Abstract:Basedonthe grainyielddataand11-dimensionalrelevantactorsfromAnhui,Hubei,Hunan,Jiangsu,andSichuanprov inces insoutherChinabetwen1998and2O22,theBP-SVR-Stacking grainyieldpredictionmodelbasedonthe Stacking ensemble algorithmwasdevelopedandcomparativelyanalyzedwiththeBPneuralnetwork modelandSVRmodel.Theresultsindicatedthatthe mean absolute error ( MAE )and mean absolute percentage error ( MAPE )of the BP-SVR-Stacking model were significantly lower than thoseof theBPneuralnetworkmodelandSVRmodel,hichdemonstratedthesuperiorpredictioncapabilityoftheBP-SVR-tacking modeloversingle machinelearningmodels.ComparedwiththeBPneuralnetworkmodelandSRmodel,thecoeficientofdetermination ( R2 )of the BP-SVR-Stacking modelincreasedby0.124and0.122 respectively,suggesting thatthe BP-SVR-Stacking model possessed excellent fiting capability and prediction performance.
Key Words:Stacking ensemble algorithm;grain yield;southern China;prediction
糧食產量是一個涉及生態(tài)學、社會學、經濟學和統(tǒng)計學的復雜問題,其產量受環(huán)境、科技、經濟、政策和勞動力等多重因素的影響[1。近年來,中國存在糧食生產重心不斷北移,區(qū)域性供需矛盾凸顯,耕地數(shù)量減少,政府抓糧動力不足和農民種糧積極性減弱等問題2。中國南方作為主要糧食生產區(qū),其氣候條件復雜多樣,農業(yè)生產的集約化程度較高,降水量和溫度變化劇烈,因此,提升南方地區(qū)糧食產量預測的準確性對農業(yè)決策具有重要的參考價值。
國內外在糧食產量預測方面的方法及研究成果較為豐富,主要包括回歸模型、灰色預測模型及神經網絡模型等。蔡承智等3運用ARIMA模型對中國水稻單產水平進行預測,通過時間序列反映影響因素及投入變量的變化趨勢,提出改良中低產稻田的建議。李修華等4利用遺傳算法優(yōu)化BP神經網絡模型,并對廣西某地的甘蔗產量進行預測,GA-BP模型的預測精度明顯優(yōu)于BP神經網絡模型。趙桂芝等5采用混沌理論進行相空間重構優(yōu)化輸入,結合粒子群算法優(yōu)化支持向量機(SVM),實現(xiàn)對某省糧食產量的精準預測,該方法與傳統(tǒng)的灰色GM(1,1)模型相比有較大改進。Khaki等使用卷積神經網絡和循環(huán)神經網絡構建CNN-RNN模型,對美國的玉米和大豆產量進行預測。劉峻明等7采用隨機森林算法結合長時間序列的氣象數(shù)據(jù),對冬小麥的產量進行早期預測,以氣象產量和相對氣象產量為目標變量構建組合模型,其預測效果優(yōu)于單一模型。
上述研究為糧食產量預測提供了重要的理論和實踐基礎,但仍存在一些問題。由于南方地區(qū)農業(yè)生產的特點和氣候環(huán)境的復雜性,單一模型難以有效應對多個省份不同地理環(huán)境及生產條件的挑戰(zhàn);雖然BP神經網絡和SVR模型可以解決一些多維、非線性映射及小樣本數(shù)據(jù)的問題,但也存在一些缺點,如過擬合、容易陷入局部最優(yōu)解及收斂速度慢等問題[8]。因此,將多種模型進行集成,構建新的預測模型。Stacking模型具有異質組合優(yōu)勢和K折交叉驗證的自適應性,能夠大幅提高預測性能,尤其在處理復雜、高維度的數(shù)據(jù)集時效果更為明顯[9]。
近年來,基于Stacking集成的模型被用于電力負荷預測[10.]交通流量預測[12]、火災預測[13]、圖像識別4等領域,取得較好的效果,但該模型在糧食產量預測領域中的應用較少。因此,本研究綜合考慮中國統(tǒng)計年鑒以及南方地區(qū)的產糧情況,以1998—2022年安徽省、湖北省、湖南省、江蘇省和四川省5個省份的糧食產量及影響產量的11個特征變量為數(shù)據(jù)源,基于Stacking集成算法建立BP-SVR-Stack-ing模型,分析對比BP神經網絡模型、SVR模型和BP-SVR-Stacking模型在南方地區(qū)糧食產量預測方面的精度及預測誤差,以期為糧食生產的整體管理措施調整及決策提供技術支撐。
肥料施用數(shù)據(jù) 氣象數(shù)據(jù) 農業(yè)生產數(shù)據(jù)特征變量 → 4 L 5 1V V氮肥 磷 鉀 復合肥 降水量 濕度 水庫 機械 水土 播種肥 肥 溫 總動 流失 面積力 治理面積
1.2 數(shù)據(jù)預處理
使用最小-最大歸一化方法將所有數(shù)據(jù)轉換為0\~1。通過歸一化公式將數(shù)據(jù)集中的最小值映射為0,最大值映射為1,其他數(shù)據(jù)點則根據(jù)其相對位置進行線性映射,從而消除量綱差異,確保各特征處于同一尺度,便于后續(xù)分析與建模。
1.3 預測模型構建
1.3.1BP神經網絡模型BP神經網絡因具有良好的非線性映射能力、自學習和自適應能力,成為目前應用最多的神經網絡之一。BP神經網絡是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,能夠模擬生物神經系統(tǒng)真實世界與環(huán)境之間的交互反應,計算過程由正向計算和反向計算組成[15]。通過正向傳播將信號從輸入層傳輸?shù)诫[藏層,并在隱藏層中計算。將隱藏層計算的結果傳輸?shù)捷敵鰧硬⑤敵?。將結果與期望值進行比較,通過反向傳播(即回溯)對誤差進行修正[16]。BP神經網絡結構如圖2所示[17],輸入層為 X1~X11 ,輸出層為Y。
1 數(shù)據(jù)與方法
1.1 數(shù)據(jù)來源
研究區(qū)位于中國南方糧食的主產區(qū),包括安徽省、湖北省、湖南省、江蘇省和四川省。數(shù)據(jù)來源于1998一2022中國統(tǒng)計年鑒的肥料施用數(shù)據(jù)、氣象數(shù)據(jù)及農業(yè)生產數(shù)據(jù)。選取氮肥、磷肥、鉀肥、復合肥、氣溫、降水量、濕度、水庫、機械總動力、水土流失治理面積和播種面積11個指標作為影響糧食產量的特征變量,如圖1所示。以1998—2019年的數(shù)據(jù)作為訓練集,用于模型的訓練,以2020一2022年的數(shù)
1.3.2SVR模型SVR是一種基于結構風險最小化原理的用于解決小樣本、非線性及高維問題的機器學習方法,其核心思想是利用核函數(shù)將非線性函數(shù)從低維空間映射到高維空間,使其變?yōu)榫€性函數(shù),然后進行線性擬合[18]。支持向量機回歸旨在通過構建多元回歸函數(shù),基于給定數(shù)據(jù)集預測未知對象的輸出屬性[19]。神經網絡模型的訓練結構由輸入層、隱藏層和輸出層組成,通過輸入層與隱藏層之間的非線性變換,最終在輸出空間實現(xiàn)線性回歸。因此,當隱藏層維度足夠大時,支持向量回歸能夠逼近任意非線性映射關系,其基礎模型[20]如下。
f(x)=ωTφ(x)+b
式中 ?,f(x) 為線性回歸函數(shù); φ(x) 為映射函數(shù);ωT 為 ω 的轉置; ω 與 b 為未確定的參數(shù)。支持向量回歸原理如圖3所示。
1.3.3Stacking集成模型Stacking是目前機器學習領域熱門研究方向,是一種把初級預測器的預測結果作為第二層學習器輸入的方法,稱為學習法。主要包括兩種學習器,分別為初級學習器(又稱基學習器)與次級學習器(又稱元學習器),此算法能將多個模型的規(guī)則進行結合并使用某種規(guī)則將初級學習器的結果進行再訓練?;鶎W習器的質量和多樣性非常重要,直接影響最終集成模型的性能。不同學習器可使用多折交叉檢驗拆分訓練集,在訓練數(shù)據(jù)上進行訓練并使用多個預測器來做預測,得到多個預測結果。集成模型的測試過程分為兩層,第一層中訓練好的模型用于對測試數(shù)據(jù)進行預測,以獲取測試集的預測特征;第二層中利用這些預測特征進行預測,獲得最終的預測結果[21]。不同學習算法的假設空間和模型能力可能存在差異,而Stacking集成學習方法通過組合異構弱學習器來提升模型性能[22]。集成模型具有效果好、可解釋性強、適應復雜數(shù)據(jù)等特點,是模型融合領域中最實用的方法之一。它能夠自動整合不同模型的優(yōu)勢,有效提升模型性能、準確性及泛化能力,同時避免過擬合問題[23]
BP神經網絡憑借其強大的非線性映射能力,能夠有效實現(xiàn)時間序列數(shù)據(jù)的建模與預測;SVR模型適合處理小樣本及高維數(shù)據(jù)。本研究樣本數(shù)據(jù)較少,但數(shù)據(jù)維度較多,因而選取BP神經網絡模型和SVR模型作為基學習器。由于第二層特征源自對第一層數(shù)據(jù)的學習,因此應避免在第二層中包含原始特征,以降低過擬合風險。因此,通常選擇簡單的回歸模型作為元學習器。Stacking集成學習的算法框架如圖4所示。首先,將原始數(shù)據(jù)集按年份劃分為若干子集,分別輸入到第一層預測模型中,通過各基學習器進行訓練得到第一層模型的輸出結果。然后,將該預測結果再輸入到第2層模型,并利用該層的元學習器模型進行訓練,得到最終的預測結果。
訓練Stacking集成模型主要包括3個步驟[24]
1)原始數(shù)據(jù)集的劃分和學習器的確定。對于糧食數(shù)據(jù)集,其中 X1~X11 代表樣本的特征向量,Y為樣本對應的預測值,采取自主劃分的方式,將數(shù)據(jù)集劃分為訓練集(Traindata)和測試集(Testdata),同時確定基學習器個數(shù)為2,元學習器個數(shù)為1。
2)基學習器訓練。首先,將訓練集數(shù)據(jù)通過交叉驗證分成 K 個子集。將其中1個子集作為驗證集,剩余的 K-1 個子集合并為訓練集,進行模型訓練,并生成子集對應的預測值,重復這個過程直到每個子集生成相應的預測值。其次,將基學習器的預測值合并成新的訓練集,把合并后的訓練集作為元學習器的訓練集,并將基學習器中的 K 組測試集取平均值,將其作為元學習器的測試集。為避免過擬合且生成更穩(wěn)定的元特征,本研究采用5折交叉驗證方法,將訓練集劃分為5個子集來訓練BP神經網絡模型和SVR模型,如圖5所示。
3)元學習器訓練。把第一層學習器的預測值作為元學習器LR模型的輸人訓練元學習器,得到融合模型,并對元學習器進行檢驗和判斷評價。
Stacking融合方式的最大特征在于充分考慮第1層算法的特征,并通過第2層的結合策略發(fā)現(xiàn)第1層模型中各類算法的預測誤差并及時糾正,從而對模型的整體預測精度進行改善。
2 結果與分析
2.1 模型評估指標
用平均絕對誤差 (MAE) )、平均絕對百分比誤差(MAPE)和決定系數(shù) (R2)3 個指標來評價模型的估產性能,計算式如下。
式中, yi 為實際值; 為預測值;
為實際值的平均值; n 為樣本總數(shù)。
R2 越大, MAE 和MAPE越小,說明模型預測性能越好。
2.2 模型預測性能對比分析
本研究基于中國南方地區(qū)安徽省、湖北省、湖南省、江蘇省和四川省1998—2019年的糧食產量數(shù)據(jù)進行建模,分別構建BP神經網絡模型、SVR模型和BP-SVR-Stacking模型。為了評估BP-SVR-Stack-ing模型的預測精度,以2020年、2021年和2022年作為驗證年份。由圖6可知,3種模型的預測值均與真實值的走勢相似,且BP-SVR-Stacking模型的預測結果與真實值最為貼近,整體效果最優(yōu)。
南方地區(qū)受季風氣候影響顯著,水資源利用壓力大,病蟲害頻發(fā),同時由于不同省份在生產投入、土壤條件等方面存在差異,導致各地區(qū)模型的預測精度有所不同??傮w來說,BP-SVR-Stacking模型的預測精度均較高,3種模型對5個糧食主產區(qū)糧食產量預測結果的平均絕對百分比誤差如圖7所示。BP-SVR-Stacking模型在5個省份中的表現(xiàn)存在一定的差異,其中安徽省和湖北省預測的平均絕對百分比誤差較大,而模型在湖南省、江蘇省和四川省的預測中表現(xiàn)出較高的精度和穩(wěn)定性,其預測誤差均小于0.03。
3種模型在糧食產量預測中的性能如表1所示。BP-SVR-Stacking模型的MAE和MAPE均明顯低于BP神經網絡模型和SVR模型,說明BP-SVR-Stack-ing模型的預測能力優(yōu)于單一的機器學習模型。從R2 可以看出,BP-SVR-Stacking模型相較于BP神經網絡模型和SVR模型分別提高了0.124和0.122,說明BP-SVR-Stacking模型具有良好的擬合能力和預測性能。
3小結與討論
準確、及時的糧食產量預測對于確保國家糧食安全和促進農業(yè)可持續(xù)發(fā)展至關重要。本研究選取
南方地區(qū)5個省份25年的糧食產量數(shù)據(jù),為模型訓練提供了準確且充足的數(shù)據(jù)支持。根據(jù)BP神經網絡、SVR和BP-SVR-Stacking這3種模型在南方地區(qū)5個省份糧食產量的預測結果,BP-SVR-Stacking模型的預測性能優(yōu)于BP神經網絡模型和SVR模型,體現(xiàn)在較小的平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE),以及更高的決定系數(shù) (R2) 。BP神經網絡模型在數(shù)據(jù)量較大且特征是非線性關系的情況下表現(xiàn)較好,適用于需要深度學習模型捕捉微妙變化的場景。然而,其對噪聲的敏感性可能導致在實際應用中的預測失準,尤其是在數(shù)據(jù)質量不高或特征選擇不當?shù)那闆r下。SVR模型在處理高維特征和小樣本數(shù)據(jù)時能夠有效應對數(shù)據(jù)中的異常值和噪聲,但在數(shù)據(jù)量較大時,它的計算復雜性和訓練時間將會增加。BP-SVR-Stacking模型融合了BP神經網絡和SVR的優(yōu)勢,在處理復雜的非線性關系和高維特征時,能夠更有效捕捉數(shù)據(jù)中的潛在模式,該模型在面對復雜的農業(yè)環(huán)境時,能夠更好地適應特征變化,實現(xiàn)更穩(wěn)定的預測性能。
然而,模型也存在一些局限性。從數(shù)據(jù)層面分析,僅從部分天氣和肥料施用的角度考慮了輸入變量,未使用糧食種植產區(qū)的土壤數(shù)據(jù)和近年來糧食產量預測中流行的遙感數(shù)據(jù)。土壤理化性質是糧食產量的關鍵因素。遙感數(shù)據(jù)具有概要視圖、多時間覆蓋、易獲取和成本效益等優(yōu)點,非常適合大空間區(qū)域的糧食產量預測。未來的研究可引入土壤和遙感數(shù)據(jù),以進一步豐富和完善糧食產量預測的信息[25]。數(shù)據(jù)僅以年份為單位進行處理,因而其樣本數(shù)量有限,在未來研究中可以擴充數(shù)據(jù)量以提高集成模型的預測精度。從模型層面來看,未來在集成模型中選擇基學習器時,可通過全面的數(shù)據(jù)分析篩選更適配的基模型,并引入高效的優(yōu)化算法,進一步提升模型的預測精度。同時,BP-SVR-Stacking模型雖然結合了BP神經網絡和SVR模型的優(yōu)點,但在實際應用中仍可能受到樣本數(shù)據(jù)質量、模型參數(shù)設置等因素的影響。為了進一步提高模型的預測性能,未來研究可以加強對樣本數(shù)據(jù)的預處理和特征選擇工作,同時優(yōu)化模型參數(shù)設置方法,以充分發(fā)揮集成模型的優(yōu)勢。
參考文獻:
[1]劉浩然,吳克寧,宋文,等.黑龍江糧食產能及其影響因素研究[J].中國農業(yè)資源與區(qū)劃,2019,40(7):164-170.
[2]宋洪遠,江帆.基于穩(wěn)產視角的糧食安全:現(xiàn)實基礎、主要問題和對策建議[J].中國工程科學,2024,24(5):178-189.
[3]蔡承智,楊春曉,莫洪蘭,等.基于ARIMA模型的中國水稻單產預測分析[J].雜交水稻,2018,33(2):62-66.
[4]李修華,李婉,張木清,等.基于田間環(huán)境及氣象數(shù)據(jù)的甘蔗產量預測方法[J].農業(yè)機械學報,2019,50(S1):233-236.
[5]趙桂芝,趙華洋,李理,等.基于混沌-SVM-PSO的糧食產量預測方法研究[J].中國農機化學報,2019,40(1):179-183.
[6]KHAKIS,WANGLZ,ARCHONTOULISSV.ACNN-RNNframe-work for crop yield prediction[J].Frontiersinplant science,2019,10:1750.
[7]劉峻明,和曉彤,王鵬新,等.長時間序列氣象數(shù)據(jù)結合隨機森林法早期預測冬小麥產量[J].農業(yè)工程學報,2019,35(6):158-166.
[8]于珍珍,鄒華芬,于德水,等.融合田間水熱因子的甘蔗產量GA-BP預測模型[J].農業(yè)機械學報,2022,53(10):277-283.
[9]鄭穎穎,李鑫,陳延旭,等.基于Stacking多模型融合的極端天氣短期風電功率預測方法[J].高電壓技術,2024,50(9):3871-3882.
[10」史佳琪,張建華.基于多模型融合Stacking集成學習方式的負荷預測方法[J].中國電機工程學報,2019,39(14):4032-4042.
[11]HEYY,XIAOJL,ANXL,etal.Short-termpowerload proba-bility density forecasting based on GLRQ-Stacking ensemblelearning method[J]. International journal of electrical power andenergysystems,2022,142:108243.
[12]HANKGODO,OMAIRMS.CARD-B:A stacked ensemblelearn-ingtechnique forclassificationofencrypted network traffic[J].Computercommunications,2022,190:110-125.
[13]QUN,LIZZ,LIXX,etal.Multi-parameter firedetection meth-od based on feature extraction and stacking ensemble learningmodel[J].Fire safety journal,2022,128:103541.
[14]KARTHIKR,MENAKAR,KATHIRESANGS,etal.Gaussiandropout based stacked ensembleCNN forclassification ofbreast tu-morinultrasound images[J].IRBM,2022,43(6):715-733.
[15]李想,戴維,高紅菊,等.基于BP神經網絡的糧食產量與化肥用量相關性研究[J].農業(yè)機械學報,2017,48(S1):186-192.
[16]曾慶揚,丁楚衡,谷戰(zhàn)英,等.基于BP神經網絡的油茶產量預測模型構建[J].經濟林研究,2022,40(3):87-95.
[17]竇文豪,孫三民,徐鵬翔.基于Stacking集成學習的棗樹智能灌溉系統(tǒng)設計與試驗[J].中國農機化學報,2024,45(6):270-276.
[18]張海洋,張瑤,李民贊,等.基于BSO-SVR的香蕉遙感時序估產模型研究[J].農業(yè)機械學報,2021,52(S1):98-107.
[19]孟春陽,謝劭峰,魏朋志,等.利用AO-SVR模型預測 PM2.5"濃度[J].大地測量與地球動力學,2023,43(3):269-274.
[20]李晉澤,趙素娟,李寧,等.基于主成分分析的果蠅算法優(yōu)化支持向量機回歸的紅棗產量預測[J].科學技術與工程,2024,24(4):1425-1432.
[21]YUJH,PANRS,ZHAOYM.High-dimensional,small-sam-pleproduct quality prediction method based on MIC-Stacking en-semblelearning[J].Applied sciences,2022,12(1):23.
[22]WUTA,ZHANGW,JIAOXY,etal.Evaluation of stackingandblendingensemblelearningmethodsforestimatingdailyrefer-enceevapotranspirationJ].Computersand electronicsin agricul-ture,2021,184:106039.
[23]王德營,胡威,吳通,等.基于Stacking集成學習的CANDU堆通道功率預測研究[J].核動力工程,2024,45(S1):72-77.
[24]史佳琪.區(qū)域綜合能源系統(tǒng)供需預測及優(yōu)化運行技術研究[D].北京:華北電力大學,2019
[25]姜 宇,馬廷淮.基于CNN-LSTM-Attention網絡的河南省冬小麥產量預測[J].麥類作物學報,2024,44(10):1352-1359.
(責任編輯 雷霄飛)