摘要:構(gòu)建基于智能算法的甘蔗產(chǎn)量預(yù)測模型,對云南省8個甘蔗產(chǎn)區(qū)甘蔗產(chǎn)量進(jìn)行預(yù)測。選取云南省臨滄市、德宏傣族景頗族自治州、普洱市、文山壯族苗族自治州、紅河哈尼族彝族自治州、保山市、西雙版納傣族自治州、玉溪市2000—2020年每日的氣象、土壤數(shù)據(jù)及產(chǎn)量數(shù)據(jù),通過專家打分法初步篩選對甘蔗產(chǎn)量影響較大的氣象、土壤因子,應(yīng)用逐步回歸分析算法篩選甘蔗生長周期內(nèi)的氣候、土壤關(guān)鍵影響因子。在數(shù)據(jù)集劃分和篩選關(guān)鍵影響因子的基礎(chǔ)上,以每年氣象、土壤因子作為輸入變量,以每年甘蔗產(chǎn)量為輸出變量,建立了BP神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測模型。以每日和每年的氣象、土壤因子作為輸入向量,以甘蔗產(chǎn)量為輸出變量,建立了長短期記憶網(wǎng)絡(luò)(LSTM)神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測模型。測試集結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)模型決定系數(shù)(R2)為0.916、平均絕對誤差(MAE)為28.65萬t、均方根誤差(RMSE)為40.83萬t,LSTM神經(jīng)網(wǎng)絡(luò)模型R2為0.978、MAE為16.04萬t、RMSE為20.72萬t。LSTM神經(jīng)網(wǎng)絡(luò)模型預(yù)測精度高,模型性能優(yōu)良,能較好地預(yù)測云南省甘蔗產(chǎn)量。
關(guān)鍵詞:智能算法; 甘蔗; BP神經(jīng)網(wǎng)絡(luò); 長短期記憶網(wǎng)絡(luò)(LSTM)神經(jīng)網(wǎng)絡(luò); 產(chǎn)量預(yù)測; 云南省
中圖分類號:S566.1;TP183" " " " "文獻(xiàn)標(biāo)識碼:A
文章編號:0439-8114(2024)08-0126-06
DOI:10.14088/j.cnki.issn0439-8114.2024.08.022 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
Yunnan sugarcane yield prediction based on intelligent algorithm
WANG Yong-zhia, TIAN Penga, LI Fu-shengb, SUN Ji-hongb,c, SUN Chena, LIU Zhen-yanga, LIU Niand, QIAN Yea,c,e
(a. College of Big Data (College of Information Engineering); b. College of Agronomy and Biotechnology; c. The Key Laboratory for Crop Production and Smart Agriculture of Yunnan Province; d. College of Landscape and Horticulture; e. Yunnan Agricultural Big Data Engineering and Technology Research Center,Yunnan Agricultural University, Kunming" 650201,China)
Abstract: A sugarcane yield prediction model based on intelligent algorithm was constructed to predict sugarcane yield in eight sugarcane production areas in Yunnan Province. Daily meteorological and soil data and yield data of Lincang, Dehong, Pu’er, Wenshan, Honghe, Baoshan, Xishuangbanna, and Yuxi of Yunnan Province for the period of 2000 to 2020 were selected, and the meteorological and soil factors that had a greater impact on the yield of sugarcane were preliminarily screened by the expert scoring method. Stepwise regression analysis algorithm was applied to screen the key influence factors of climate and soil during the growth cycle of sugarcane. Based on the division of the data set and the screening of the key influencing factors, a BP neural network yield prediction model was established with the annual meteorological and soil factors as the input variables and the annual sugarcane yield as the output variable. A Long Short-Term Memory (LSTM) neural network yield prediction model was developed using daily and annual meteorological and soil factors as input vectors and sugarcane yield as the output variable. The results of the test set showed that the coefficient of determination (R2) of the BP neural network model was 0.916, the mean absolute error (MAE) was 286 500 tons, and the root mean square error (RMSE) was 408 300 tons, and the R2 of the LSTM neural network model was 0.978, the MAE was 160 400 tons, and the RMSE was 207 200 tons. The prediction accuracy of the LSTM neural network model was high, and the model performance was excellent and could better predict the sugarcane yield in Yunnan.
Key words: intelligent algorithm; sugarcane; BP neural network; long and short term memory network (LSTM) neural network; yield prediction; Yunnan Province
甘蔗(Saccharum officinarum L.)是重要的糖料作物和經(jīng)濟(jì)作物,甘蔗產(chǎn)量的高低直接影響著國民經(jīng)濟(jì)的發(fā)展和蔗區(qū)農(nóng)民的根本利益。云南是中國的產(chǎn)糖大省,占有20%的蔗糖產(chǎn)量,在全國糖業(yè)有著舉足輕重的作用[1]。云南省16個市(州)中,有10個市(州)從事甘蔗種植,主要分布在臨滄市、德宏傣族景頗族自治州(德宏州)、保山市、普洱市、文山壯族苗族自治州(文山州)、西雙版納傣族自治州(西雙版納州)、玉溪市和紅河哈尼族彝族自治州(紅河州)[2]。蔗糖產(chǎn)業(yè)是云南省鄉(xiāng)村振興的重要基石,對云南省甘蔗產(chǎn)量的研究有助于振興地方經(jīng)濟(jì)的發(fā)展,促進(jìn)區(qū)域農(nóng)業(yè)和農(nóng)村經(jīng)濟(jì)發(fā)展,為云南省鄉(xiāng)村振興提供重要支撐。
甘蔗生長易受氣候、土壤、植被等自然條件的影響,其中受氣候和土壤因素的影響最為突出[3]。因此,應(yīng)更好地利用農(nóng)業(yè)氣象資源,了解并掌握氣象、土壤因素在甘蔗生長發(fā)育及產(chǎn)量積累過程中的影響,降低自然災(zāi)害對甘蔗產(chǎn)量造成的影響,為政府、企業(yè)決策提供參考。隨著人工智能技術(shù)的不斷革新,機(jī)器學(xué)習(xí)已經(jīng)越來越多地運(yùn)用到甘蔗產(chǎn)量預(yù)測領(lǐng)域。同時隨著遙感技術(shù)和統(tǒng)計(jì)技術(shù)的不斷發(fā)展,數(shù)據(jù)的準(zhǔn)確性也越來越高。在此基礎(chǔ)上,構(gòu)建氣象、土壤因子的甘蔗產(chǎn)量預(yù)測模型,對推動云南省糖業(yè)健康發(fā)展、增加蔗區(qū)農(nóng)民收入具有重要的現(xiàn)實(shí)意義[4]。
1 材料與方法
1.1 數(shù)據(jù)來源
1.1.1 氣象數(shù)據(jù)來源 氣象數(shù)據(jù)獲取自美國國家海洋和大氣管理局(NOAA)和MERRA-2(Modern-Era retrospective analysis for research and applications, Version 2)的氣象數(shù)據(jù)集,包括云南省2000—2020年臨滄市、德宏州、普洱市、文山州、紅河州、保山市、西雙版納州、玉溪市各氣象站每天的氣象觀測數(shù)據(jù)。數(shù)據(jù)集具體為平均氣溫、降水量、相對濕度、10 m高處風(fēng)速、日照時數(shù)等氣象因子,氣象數(shù)據(jù)(以臨滄市為例)見表1。
1.1.2 土壤數(shù)據(jù) 土壤數(shù)據(jù)獲取自美國航空航天局(NASA)GLDAS-2.0數(shù)據(jù)集,包括云南省2000—2020年臨滄市、德宏州、普洱市、文山州、紅河州、保山市、西雙版納州、玉溪市各氣象站每日的土壤數(shù)據(jù)。數(shù)據(jù)集具體為日均10 cm處土壤溫度、日均40 cm處土壤溫度、日均10 cm處土壤濕度、日均40 cm處土壤濕度、土壤蒸發(fā)量、蒸騰量6個土壤因子,具體土壤數(shù)據(jù)(以臨滄市為例)見表2。
1.1.3 產(chǎn)量數(shù)據(jù) 產(chǎn)量數(shù)據(jù)獲取自云南省統(tǒng)計(jì)局編著的《云南統(tǒng)計(jì)年鑒》,數(shù)據(jù)集包括云南省2000—2020年臨滄市、德宏州、普洱市、文山州、紅河州、保山市、西雙版納州、玉溪市每年的甘蔗產(chǎn)量和種植面積。甘蔗的產(chǎn)量數(shù)據(jù)分布如圖1所示。甘蔗產(chǎn)量均值為2 128 853.56 t,產(chǎn)量在1 000 000 t以下的樣本數(shù)據(jù)有34條,在1 000 001~2 000 000 t的樣本數(shù)據(jù)有72條,在2 000 001~3 000 000 t的樣本數(shù)據(jù)有23條,在3 000 001~4 000 000 t的樣本數(shù)據(jù)有14條,在4 000 001 t以上的樣本數(shù)據(jù)有25條。
1.2 數(shù)據(jù)預(yù)處理
獲取的氣象、土壤數(shù)據(jù)集是從2000年1月1日至2020年12月31日的逐日數(shù)據(jù),為剔除非生長周期內(nèi)的無關(guān)數(shù)據(jù),需要根據(jù)甘蔗的生長期劃分?jǐn)?shù)據(jù)集,劃分1月1日至2月28日為非生長期,3月1日至12月31日為生長期。由于本研究的云南省8個市(州)的氣象、土壤部分?jǐn)?shù)據(jù)存在缺失,缺失的數(shù)據(jù)使用均值填補(bǔ)法預(yù)處理,通過甘蔗生長期內(nèi)對應(yīng)數(shù)據(jù)的平均值來補(bǔ)全,保證數(shù)據(jù)集的精確度[5]。
1.3 模型構(gòu)建
1.3.1 模型算法 本研究旨在探究與甘蔗產(chǎn)量的關(guān)聯(lián)因素,基于智能算法構(gòu)建甘蔗的產(chǎn)量預(yù)測模型以滿足實(shí)際生產(chǎn)需求。為此使用逐步回歸分析算法、BP神經(jīng)網(wǎng)絡(luò)算法、長短期記憶網(wǎng)絡(luò)(LSTM)神經(jīng)網(wǎng)絡(luò)算法構(gòu)建甘蔗產(chǎn)量預(yù)測模型。
逐步回歸分析模型能篩選出對因變量y有顯著影響的自變量x。在回歸方程中,所有自變量均對因變量有顯著影響,而對因變量無顯著影響的自變量則被剔除。用逐步回歸模型建立的回歸方程能較好地?cái)M合因變量y,從而提高模型預(yù)測的準(zhǔn)確度[6]。
BP神經(jīng)網(wǎng)絡(luò)是典型的前饋神經(jīng)網(wǎng)絡(luò)模型,通過反向傳播誤差算法,不斷地調(diào)整網(wǎng)絡(luò)權(quán)值,使得網(wǎng)絡(luò)輸出與真實(shí)輸出之間的誤差最?。?]。BP神經(jīng)網(wǎng)絡(luò)是當(dāng)前應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)模型,它可以學(xué)習(xí)并儲存大量的輸入模式和輸出模式之間的映射關(guān)系,而不需要在學(xué)習(xí)和存儲之前揭示輸入與輸出間的數(shù)學(xué)映射關(guān)系[8]。在產(chǎn)量預(yù)測中,反向傳播算法可能面臨梯度消失或梯度爆炸的問題。
長短期記憶神經(jīng)網(wǎng)絡(luò)最初的設(shè)計(jì)目的是實(shí)現(xiàn)長期記憶,并且其成功地解決了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)梯度消失和梯度爆炸的問題[9]。LSTM網(wǎng)絡(luò)模型是RNN的一個分支,其優(yōu)勢在于可以更好地存儲和訪問歷史數(shù)據(jù)信息。當(dāng)前,LSTM已經(jīng)廣泛應(yīng)用于許多序列建模領(lǐng)域,例如語音識別、自然語言處理等。近幾年,研究人員開始將LSTM應(yīng)用于農(nóng)作物產(chǎn)量預(yù)測,但由于應(yīng)用時間不長,仍有大量的進(jìn)步空間。
1.3.2 甘蔗產(chǎn)量影響因子初篩 甘蔗的生長過程可分為種苗下種、成苗、分蘗、莖伸長和成熟5個階段[10]。甘蔗的生長速度、產(chǎn)量以及含糖量與氣候和土壤條件息息相關(guān),在前期研究的基礎(chǔ)上,選取氣象、土壤這2個影響因子,考慮到影響甘蔗產(chǎn)量的指標(biāo)數(shù)量比較多,同時與實(shí)際情況可能有所出入,若要增強(qiáng)其對甘蔗產(chǎn)量的代表性和解釋性,就需對氣象、土壤影響因子進(jìn)行初步篩選[11]。本研究采取專家打分法,邀請甘蔗生長種植領(lǐng)域的6位專家對29項(xiàng)影響指標(biāo)打分。其中氣象指標(biāo)有海平面氣壓、平均氣溫、降水量、降雪量、積雪深度、露點(diǎn)溫度、相對濕度、10 m高處風(fēng)速、經(jīng)向風(fēng)速、緯向風(fēng)速、總云量、云底高度、總太陽輻射、日照時數(shù)、紫外強(qiáng)度、徑流、地表徑流、地下徑流、對流可用位能。土壤指標(biāo)有植被指數(shù)、地下水含量、10 cm處土壤濕度、40 cm處土壤濕度、10 cm處土壤溫度、40 cm處土壤溫度、蒸騰量、土壤蒸發(fā)量、熱通量、根區(qū)濕度。根據(jù)打分結(jié)果對指標(biāo)進(jìn)行篩選,具體標(biāo)準(zhǔn)如表3所示。
對專家打分結(jié)果進(jìn)行統(tǒng)計(jì)后,其中,有3個指標(biāo)顯示非常重要,8個指標(biāo)顯示重要,18個指標(biāo)顯示一般。本研究選取非常重要和重要的11個指標(biāo)作為初步篩選的氣象、土壤影響因子,分別為平均氣溫、降水量、相對濕度、10 m高處風(fēng)速、日照時數(shù)、10 cm處土壤濕度、40 cm處土壤濕度、10 cm處土壤溫度、40 cm處土壤溫度、蒸騰量、土壤蒸發(fā)量。
1.3.3 基于逐步回歸分析的影響因子篩選 根據(jù)專家打分法初步篩選11個影響因子,采用逐個引入法再次篩選甘蔗生長周期內(nèi)的關(guān)鍵影響因子??紤]到影響甘蔗產(chǎn)量的氣象、土壤因子之間可能存在一定的重疊和關(guān)聯(lián)現(xiàn)象,逐個引入法能夠逐一引入研究的影響因子,并在回歸方程中逐個檢查已選入的影響因子,以避免重疊現(xiàn)象和保證每個氣象、土壤因子的顯著性[12]。將影響甘蔗產(chǎn)量中的11個影響因子作為自變量,甘蔗產(chǎn)量作為因變量,采用逐個引入法,使用SPSS軟件建立逐步回歸分析模型,具體分析結(jié)果如表4所示。
以Y(產(chǎn)量)為因變量,以X1(平均氣溫)、X2(降水量)等12個影響因子為自變量,使用逐步回歸分析,首先引入了X12(種植面積),隨后引入了X11(蒸騰量)、X4(10 m高處風(fēng)速)、X5(日照時數(shù))、X2(降水量)、X1(平均氣溫)共6個變量,建立回歸模型6,剔除了6個變量。模型共線性診斷中VIFlt;10,不存在共線性問題,且模型通過F檢驗(yàn)(F=830.833,P=0.000lt;0.05)說明模型具有顯著性和相互獨(dú)立性,具有統(tǒng)計(jì)學(xué)意義。
上述信息說明,逐步回歸篩選的影響因子符合甘蔗實(shí)際生產(chǎn)情況并具有生物學(xué)意義,因此所建立的甘蔗產(chǎn)量預(yù)測模型具有較高的可信度。
1.3.4 基于BP神經(jīng)網(wǎng)絡(luò)的甘蔗產(chǎn)量預(yù)測模型 BP神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱含層和輸出層構(gòu)成,模型的預(yù)測精度取決于隱含層的結(jié)構(gòu)[13]。模型的輸入層為逐步回歸分析篩選出的6個變量,隱含層神經(jīng)元個數(shù)通過試湊法確定隱含層神經(jīng)元個數(shù)為10個。在產(chǎn)量預(yù)測模型中,預(yù)測目標(biāo)為甘蔗產(chǎn)量,所以輸出層只有1個神經(jīng)元,其輸出值是預(yù)測的甘蔗產(chǎn)量。使用MATLAB的神經(jīng)網(wǎng)絡(luò)工具箱對BP神經(jīng)元網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練參數(shù)如表5所示,其中輸入層有6個神經(jīng)元,隱含層有10個神經(jīng)元,輸出層有1個神經(jīng)元,模型訓(xùn)練數(shù)據(jù)樣本隨機(jī)分割,選擇了列文伯格-馬夸爾特(L-M)算法作為訓(xùn)練算法,使用MSE作為模型的性能度量指標(biāo),模型最大的訓(xùn)練次數(shù)為1 000。
1.3.5 基于改進(jìn)的LSTM神經(jīng)網(wǎng)絡(luò)甘蔗產(chǎn)量預(yù)測模型 傳統(tǒng)產(chǎn)量預(yù)測模型大多僅能使用逐年數(shù)據(jù)構(gòu)建模型,訓(xùn)練中存在數(shù)據(jù)量不足的情況[14]。但種植環(huán)境中氣象、土壤影響因子每日都在實(shí)時變化,逐年數(shù)據(jù)較難反映真實(shí)的種植條件。鑒于上述情況,本研究對影響因子的時間維度進(jìn)行了深度的擴(kuò)充,同時使用逐年數(shù)據(jù)和逐日數(shù)據(jù)作為模型輸入,通過onehot向量映射8個甘蔗產(chǎn)區(qū)的地點(diǎn)信息,減少因種植技術(shù)、種植品種等對甘蔗產(chǎn)量造成的影響,使用L2正則化和早停參數(shù)防止模型出現(xiàn)過擬合,使用Python程序構(gòu)建多輸入、單輸出的LSTM神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測模型。
1)輸入層的確定。根據(jù)上文逐步回歸模型篩選出的6個甘蔗關(guān)鍵影響因子,選取云南省8個市(州)(臨滄市、德宏州、普洱市、文山州、紅河州、保山市、西雙版納州、玉溪市)每日的平均氣溫、降水量、10 m高處風(fēng)速、日照時數(shù)、蒸騰量作為日數(shù)據(jù)輸入,共計(jì)61 368條數(shù)據(jù)。選取每年的平均氣溫、降水量、平均10 m高處風(fēng)速、日照時數(shù)、蒸騰量、種植面積作為年數(shù)據(jù)輸入,共計(jì)168條數(shù)據(jù)。
2)輸出層的確定。在LSTM模型中,輸出層神經(jīng)元個數(shù)的確定取決于預(yù)測的目標(biāo)。在甘蔗產(chǎn)量預(yù)測中,輸出層只需要1個神經(jīng)元來輸出甘蔗產(chǎn)量,因此輸出層的神經(jīng)元個數(shù)為1,且該神經(jīng)元輸出的值為預(yù)測的甘蔗產(chǎn)量。
3)地點(diǎn)特征映射。不同地區(qū)的種植技術(shù)、種植模式、種植品種等會對甘蔗產(chǎn)量造成一定的影響。為了能更好地預(yù)測甘蔗產(chǎn)量,使用onehot(獨(dú)熱)編碼的方式,編碼8個地名長度是8的onehot向量,如表6所示。同時在模型中用2個全連接層學(xué)習(xí)其地名onehot與產(chǎn)量的映射關(guān)系,從而提高模型的預(yù)測性能。
4)正則化。在LSTM神經(jīng)網(wǎng)絡(luò)模型中,過擬合問題通常會在很大程度上影響模型預(yù)測性能,為了解決過擬合問題,采用正則化技術(shù)減少模型的復(fù)雜度,提高模型的泛化能力。在模型中,采用L2正則化技術(shù),將L2正則化懲罰項(xiàng)添加到模型損失函數(shù)中,L2參數(shù)設(shè)置為0.000 1,同時設(shè)置Early Stopping,避免模型出現(xiàn)過擬合現(xiàn)象。
5)多輸入單輸出模型。多輸入單輸出模型可以顯著提高預(yù)測模型的準(zhǔn)確性和魯棒性[15]。在本模型中輸入數(shù)據(jù)有每日的氣象、土壤數(shù)據(jù)和每年的氣象、土壤數(shù)據(jù)及地址映射onehot編碼,利用多輸入單輸出模型學(xué)習(xí)多個輸入特征之間的相關(guān)性,從而更好地捕捉氣象、土壤數(shù)據(jù)中的信息,提高產(chǎn)量預(yù)測準(zhǔn)確性。
2 結(jié)果與分析
2.1 模型構(gòu)建結(jié)果
2.1.1 BP神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測模型測試集結(jié)果 BP神經(jīng)網(wǎng)絡(luò)模型經(jīng)過訓(xùn)練后,將2016—2020年的數(shù)據(jù)作為測試集代入模型進(jìn)行預(yù)測,以此檢測模型效果,測試集預(yù)測結(jié)果(圖2)顯示,R2(決定系數(shù))=0.916,RMSE(均方根誤差)=40.83萬t,MAE(平均絕對誤差)=28.65萬t。
預(yù)測值經(jīng)過反歸一化后如表7(以臨滄市、普洱市、保山市為例,結(jié)果保留3位小數(shù))所示。由表7可以看出,臨滄市2016—2020年甘蔗產(chǎn)量預(yù)測誤差為-2.927萬~-126.806萬t,相對誤差為-0.007~
-0.266。普洱市2016—2020年甘蔗產(chǎn)量預(yù)測誤差為-1.226萬~-32.249萬t,相對誤差為-0.005~-0.148。保山市2016—2020年甘蔗預(yù)測誤差為-32.716萬~138.680萬t,相對誤差為-0.098~0.436。由此可得模型預(yù)測誤差率較小,BP神經(jīng)網(wǎng)絡(luò)模型可以較好地預(yù)測甘蔗產(chǎn)量。
2.1.2 LSTM神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測模型測試集結(jié)果 LSTM神經(jīng)網(wǎng)絡(luò)模型經(jīng)過訓(xùn)練后,將2016—2020年的數(shù)據(jù)作為測試集代入模型進(jìn)行預(yù)測,以此檢測模型效果,測試集預(yù)測結(jié)果(圖3)顯示,R2=0.978,RMSE=20.72萬t,MAE=16.04萬t。
預(yù)測值經(jīng)過反歸一化后結(jié)果如表8(以臨滄市、普洱市、保山市為例,結(jié)果保留3位小數(shù))所示。由表8可以看出,臨滄市2016—2020年甘蔗產(chǎn)量預(yù)測誤差為-71.282萬~14.844萬t,相對誤差為-0.150~0.033。普洱市2016—2020年甘蔗產(chǎn)量預(yù)測誤差為-10.705萬~-27.735萬t,相對誤差為-0.045~-0.105。保山市2016—2020年甘蔗預(yù)測誤差為-17.279萬~23.599萬t,相對誤差為-0.046~0.074,LSTM神經(jīng)網(wǎng)絡(luò)模型擬合效果顯著,有更優(yōu)的預(yù)測能力。
2.2 模型分析
為了比較模型預(yù)測效果,回歸預(yù)測通常使用均方根誤差(RMSE)、平均絕對誤差(MAE)、決定系數(shù)(R2)來衡量模型預(yù)測結(jié)果與真實(shí)值之間的差異程度[16]。RMSE是產(chǎn)量預(yù)測值與真實(shí)值之差的平方和與次數(shù)(n)的平方根。平均絕對誤差是預(yù)測值與真實(shí)值之差的絕對值的平均值,它衡量的是模型預(yù)測結(jié)果的平均誤差大小。RMSE和MAE越小,代表模型的預(yù)測能力越好。R2用來評價模型對樣本數(shù)據(jù)的擬合程度。R2越接近1,代表模型的預(yù)測能力越好,說明模型能很好地解釋觀測到的變化,而R2越接近0,代表模型的預(yù)測能力越差,無法解釋觀測到的變化。采用BP神經(jīng)網(wǎng)絡(luò)模型和LSTM神經(jīng)網(wǎng)絡(luò)模型預(yù)測2016—2020年云南省8個市(州)甘蔗產(chǎn)量的RMSE、MAE、R2,結(jié)果如表9所示,BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測云南省甘蔗產(chǎn)量的RMSE、MAE都較小,而LSTM神經(jīng)網(wǎng)絡(luò)模型預(yù)測云南省甘蔗產(chǎn)量的RMSE、MAE較BP神經(jīng)網(wǎng)絡(luò)模型小,且其R2比BP神經(jīng)網(wǎng)絡(luò)模型更接近1,說明LSTM神經(jīng)網(wǎng)絡(luò)模型擬合效果好,有更優(yōu)秀的預(yù)測能力。
3 小結(jié)
云南省的蔗糖產(chǎn)量占全國的20%,甘蔗產(chǎn)量的高低直接影響其經(jīng)濟(jì)的發(fā)展和蔗區(qū)農(nóng)民的根本利益。甘蔗生長過程中易受氣象、土壤等因素的影響造成甘蔗減產(chǎn),因此建立云南省甘蔗產(chǎn)量預(yù)測模型對甘蔗種植生產(chǎn)具有重要的指導(dǎo)意義。
本研究從氣象、土壤關(guān)鍵影響因子準(zhǔn)確預(yù)測甘蔗產(chǎn)量的角度出發(fā),介紹了逐步回歸分析、BP神經(jīng)網(wǎng)絡(luò)、LSTM神經(jīng)網(wǎng)絡(luò)的算法。由于甘蔗是以年為單位,而且年份的數(shù)據(jù)又比較少,所以采用橫向擴(kuò)展數(shù)據(jù)量,增加采集數(shù)據(jù)的地區(qū)數(shù)量,選取云南省8個甘蔗產(chǎn)區(qū)的數(shù)據(jù),同時對特征維度在時間上進(jìn)行縱向擴(kuò)充,收集逐日時間尺度的數(shù)據(jù)。通過專家打分法初步篩選對甘蔗產(chǎn)量影響較大的氣象、土壤因子,應(yīng)用逐步回歸分析算法篩選甘蔗生長周期內(nèi)的氣候、土壤關(guān)鍵影響因子,保證影響因子的顯著性,為模型準(zhǔn)確性奠定基礎(chǔ)。
以每年氣象、土壤因子作為輸入變量,每年甘蔗產(chǎn)量作為輸出變量,建立了BP神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測模型。以每日和每年的氣象、土壤因子作為輸入向量,以甘蔗產(chǎn)量作為輸出變量,通過onehot向量映射8個甘蔗產(chǎn)區(qū)的地點(diǎn)信息,減少因地區(qū)原因?qū)Ω收岙a(chǎn)量造成的影響,使用L2正則化和早停參數(shù),構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)多輸入單輸出的產(chǎn)量預(yù)測模型。
通過模型評價參數(shù)對以上2種甘蔗產(chǎn)量預(yù)測模型進(jìn)行性能對比,選出最優(yōu)預(yù)測模型。結(jié)果表明,LSTM神經(jīng)網(wǎng)絡(luò)模型預(yù)測精度高,預(yù)測效果顯著,模型性能優(yōu)良,能較好地預(yù)測云南省8個產(chǎn)區(qū)的甘蔗產(chǎn)量。
參考文獻(xiàn):
[1] 秦樂駒.云南甘蔗糖業(yè)發(fā)展研究[D].廣東湛江:廣東海洋大學(xué),2021.
[2] 鄧 軍,武晉宇,朱建榮,等.2018年云南甘蔗產(chǎn)業(yè)損害監(jiān)測預(yù)警分析[J].中國糖料,2018,40(6):77-80.
[3] 歐釗榮,譚宗琨,何 燕,等.影響我國甘蔗主產(chǎn)區(qū)甘蔗產(chǎn)量的關(guān)鍵氣象因子及其豐欠指標(biāo)[J].安徽農(nóng)業(yè)科學(xué),2008,36(24):10407-10410,10415.
[4] 于珍珍,鄒華芬,于德水,等.融合田間水熱因子的甘蔗產(chǎn)量GA-BP預(yù)測模型[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(10):277-283.
[5] 劉振洋,趙家松,胡仁傑,等.基于關(guān)聯(lián)規(guī)則與多元線性回歸的云南省甘蔗產(chǎn)量預(yù)測模型[J].廣東農(nóng)業(yè)科學(xué),2022,49(12):160-166.
[6] 游士兵, 嚴(yán) 研. 逐步回歸分析法及其應(yīng)用[J]. 統(tǒng)計(jì)與決策, 2017(14):31-35.
[7] GREENFIELD V,SHINAR D,BLUM Y. In-vehicle information systems to improve traffic safety in road tunnels[J]. Transportation research part F traffic psychology amp; behaviour,2008,11(1):61-74.
[8] 李友坤.BP神經(jīng)網(wǎng)絡(luò)的研究分析及改進(jìn)應(yīng)用[D].安徽淮南:安徽理工大學(xué),2012.
[9] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.
[10] 謝 平,張 羽,陳圣南.影響湛江甘蔗產(chǎn)量與糖分的氣候因子變化特征[J].中國農(nóng)業(yè)氣象,2007(2):136-139.
[11] 于珍珍,鄒華芬,于德水,等.融合田間水熱因子的甘蔗產(chǎn)量GA-BP預(yù)測模型[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(10):277-283.
[12] 陳春煥,張興祥,黃可立,等.甘蔗高產(chǎn)栽培模式研究[J].華南農(nóng)業(yè)大學(xué)學(xué)報(bào),1991(4):45-51.
[13] 于珍珍,鄒華芬,于德水,等.融合田間水熱因子的甘蔗產(chǎn)量GA-BP預(yù)測模型[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(10):277-283.
[14] 徐永春,張森文.改進(jìn)遺傳神經(jīng)網(wǎng)絡(luò)在甘蔗產(chǎn)量預(yù)測中的應(yīng)用[J].華南農(nóng)業(yè)大學(xué)學(xué)報(bào),2010,31(3):102-104.
[15] 謝家興,高 鵬,孫道宗,等.基于長短期記憶的柑橘園蒸散量預(yù)測模型[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(S2):351-356.
[16] 陳志浩,王建華,龍擁兵,等.基于Spark的WOA-BP水稻產(chǎn)量預(yù)測[J].華南農(nóng)業(yè)大學(xué)學(xué)報(bào),2023,44(4):613-618.
基金項(xiàng)目:云南省作物生產(chǎn)與智慧農(nóng)業(yè)重點(diǎn)實(shí)驗(yàn)室開放基金項(xiàng)目(2021ZHNY02);云南主要糧經(jīng)作物全智慧產(chǎn)業(yè)鏈關(guān)鍵技術(shù)研究與示范項(xiàng)目(202202AE090021)
作者簡介:王泳智(1997-),男,云南昆明人,在讀碩士研究生,研究方向?yàn)檗r(nóng)業(yè)信息化,(電子信箱)wyz_ynau@163.com;通信作者,錢 曄,副教授,主要從事人工智能算法研究,(電子信箱)qy198403@163.com。