陳曉玲 張聰 黃曉宇
摘要:目前用于糧食產(chǎn)量預(yù)測(cè)模型如灰色關(guān)聯(lián)模型普遍存在訓(xùn)練速度較慢、預(yù)測(cè)精度較低等問(wèn)題。為解決該問(wèn)題,以輕量級(jí)梯度提升機(jī)(LightGBM)模型為基礎(chǔ),將其損失函數(shù)修正為Huber損失函數(shù),同時(shí)引入貝葉斯優(yōu)化算法確定出最優(yōu)超參數(shù)組合并輸入該模型。以廣西的早、晚水稻產(chǎn)量及16個(gè)糧食產(chǎn)量影響因素為數(shù)據(jù)集進(jìn)行仿真試驗(yàn),結(jié)果表明:基于線性回歸的預(yù)測(cè)模型的平均絕對(duì)值誤差為1.255,基于決策樹(shù)的預(yù)測(cè)模型的平均絕對(duì)值誤差為0.426,基于隨機(jī)森林的預(yù)測(cè)模型的平均值誤差為0.315,基于Bayesian-LightGBM的預(yù)測(cè)模型的平均絕對(duì)值誤差為0.049。相比其他預(yù)測(cè)模型,Bayesian-LightGBM糧食產(chǎn)量預(yù)測(cè)模型能夠更有效地實(shí)現(xiàn)糧食產(chǎn)量預(yù)測(cè),預(yù)測(cè)精度更高。
關(guān)鍵詞:糧食產(chǎn)量預(yù)測(cè);糧食安全;輕量級(jí)梯度提升機(jī);貝葉斯優(yōu)化
中圖分類號(hào):S126; TP18
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553 (2024) 06-0163-07
收稿日期:2022年8月1日
修回日期:2022年9月29日
*基金項(xiàng)目:湖北省重大科技專項(xiàng)(2018ABA099);教育部科技發(fā)展中心重點(diǎn)項(xiàng)目(2018A01038)
第一作者:陳曉玲,女,1996年生,廣東汕頭人,碩士研究生;研究方向?yàn)槿斯ぶ悄芗夹g(shù)及其應(yīng)用。E-mail: cxl9612@163.com
通訊作者:張聰,男,1968年生,上海人,博士,教授;研究方向?yàn)榛谵r(nóng)業(yè)和糧油食品領(lǐng)域的人工智能技術(shù)。E-mail: hb_wh_zc@163.com
Research on grain yield prediction based on Bayesian-LightGBM model
Chen Xiaoling1, Zhang Cong2, Huang Xiaoyu1
(1. School of Mathematics & Computer Science, Wuhan Polytechnic University, Wuhan, 430023, China;2. School of Electrical and Electronic Engineering, Wuhan Polytechnic University, Wuhan, 430023, China)
Abstract: At present, the grain yield prediction models, such as the grey relational model, generally have problems such as slow training speed and low prediction accuracy. In order to solve the above problems, this paper is based on the Lightweight Gradient Boosting Machine (LightGBM) model, and its loss function is modified to a Huber loss function, and a Bayesian optimization algorithm is introduced to determine the optimal hyperparameter combination and input into the model. Simulation experiments were carried out on the data sets of early and late rice yields and 16 grain yield influencing factors in Guangxi. The results showed that the average absolute error of the prediction model based on linear regression was 1.255, the average absolute error of the prediction model based on decision tree was 0.426, the average absolute error of the prediction model based on random forest was 0.315, and the average absolute error of the prediction model based on Bayesian LightGBM was 0.049. Compared with other prediction models, Bayesian LightGBM grain yield prediction model can realize grain yield prediction more effectively, with higher prediction accuracy.
Keywords: grain yield prediction; food security; Lightweight Gradient Boosting Machine; Bayesian optimization
0 引言
近年來(lái),糧食安全問(wèn)題已引起了世界各國(guó)的廣泛關(guān)注,中國(guó)作為世界人口第一大國(guó),確保糧食產(chǎn)量充足是國(guó)家發(fā)展的頭等大事。為保證中國(guó)人口糧食供給充足,更好地規(guī)劃糧食產(chǎn)量,科學(xué)有效預(yù)測(cè)糧食產(chǎn)量從而合理安排糧食的生產(chǎn)是解決糧食安全問(wèn)題的關(guān)鍵手段[1-3]。
從現(xiàn)有文獻(xiàn)來(lái)看,越來(lái)越多的學(xué)者開(kāi)始圍繞農(nóng)業(yè)糧食產(chǎn)量問(wèn)題展開(kāi)探究。早期的糧食產(chǎn)量的預(yù)測(cè)模型效果不佳,如Donohue等[4]根據(jù)遙感農(nóng)作物的吸收光合有效輻射、總太陽(yáng)輻照度、漫射太陽(yáng)輻照度和氣溫,建立C-Crop模型預(yù)測(cè)油菜和小麥的產(chǎn)量,但數(shù)據(jù)采集成本極高,且農(nóng)作物識(shí)別精度不穩(wěn)定,模型泛化能力差。韓書(shū)成等[5]利用線性模型和三點(diǎn)滑動(dòng)平均發(fā)對(duì)糧食產(chǎn)量進(jìn)行預(yù)測(cè),但不足處是不能考慮其后要素突變對(duì)產(chǎn)量的影響,導(dǎo)致不能客觀地反映氣候變化對(duì)糧食產(chǎn)量的影響。孫東升等[6]運(yùn)用HP濾波分析法將糧食產(chǎn)量數(shù)據(jù)分離為時(shí)間趨勢(shì)序列和波動(dòng)序列,并對(duì)趨勢(shì)序列建立關(guān)于時(shí)間的趨勢(shì)模型,提出由時(shí)間序列影響變動(dòng)的因素構(gòu)建的時(shí)間序列法,但時(shí)間序列法在建模過(guò)程中,不適合用在數(shù)據(jù)復(fù)雜的環(huán)境。Li等[7]提出一種灰色關(guān)聯(lián)分析和BP神經(jīng)網(wǎng)絡(luò)結(jié)合的變量?jī)?yōu)化選擇算法,采用灰色關(guān)聯(lián)分析方法對(duì)輸入變量的重要性排序,然后通過(guò)BPNN模型的多次訓(xùn)練和學(xué)習(xí),得到關(guān)鍵變量和最佳BPNN模型結(jié)構(gòu),但缺點(diǎn)是模型結(jié)構(gòu)復(fù)雜,存在大量的計(jì)算,模型訓(xùn)練速度慢。
為解決上述問(wèn)題,本文采用LightGBM為基礎(chǔ)模型,通過(guò)修正損失函數(shù)優(yōu)化LightGBM模型,同時(shí)引入貝葉斯優(yōu)化算法確定改進(jìn)模型的超參數(shù),以此建立Bayesian-LightGBM模型。以廣西省早、晚水稻產(chǎn)量數(shù)據(jù)作為研究對(duì)象,將Bayesian-LightGBM模型應(yīng)用于水稻產(chǎn)量預(yù)測(cè)中,并與機(jī)器學(xué)習(xí)領(lǐng)域常用的回歸模型對(duì)比,驗(yàn)證Bayesian-LightGBM模型的有效性。
1 LightGBM模型
梯度提升決策樹(shù)[8](Gradient Boosting Decision Tree,GBDT)是一種決策樹(shù)[9]的算法,在各種領(lǐng)域的預(yù)測(cè)業(yè)務(wù)上發(fā)揮了重要的作用,但也存在訓(xùn)練時(shí)間過(guò)長(zhǎng)、泛化能力弱等問(wèn)題。針對(duì)這些問(wèn)題,Ke等[10]對(duì)該算法做出了一系列的改進(jìn),并于2017年提出了一個(gè)支持高效率的并行訓(xùn)練GBDT算法框架——輕量級(jí)梯度提升機(jī)(LightGBM)。LightGBM因其高準(zhǔn)確性、低內(nèi)耗、運(yùn)行速率快等優(yōu)勢(shì)被廣泛應(yīng)用于工業(yè)界。LightGBM模型通過(guò)使用直方圖算法和帶深度限制的按葉子分裂生長(zhǎng)策略,提高了面對(duì)高緯度數(shù)據(jù)集的訓(xùn)練速度,解決了過(guò)擬合問(wèn)題和預(yù)測(cè)精度低的問(wèn)題。同時(shí),LightGBM模型通過(guò)互斥特征捆綁算法,降低了特征維度,提高了了創(chuàng)建直方圖的效率。
1.1 直方圖算法
直方圖算法將數(shù)據(jù)離散化,算法思路是把連續(xù)的浮點(diǎn)特征值離散化成K個(gè)整數(shù),構(gòu)造出一個(gè)寬帶為K的直方圖。直方圖算法如圖1所示。將遍歷的數(shù)據(jù)根據(jù)離散化后的整數(shù)值作為索引在直方圖中累計(jì)統(tǒng)計(jì)量,然后遍歷直方圖的離散值,找出決策樹(shù)的最優(yōu)的分割點(diǎn)。
特征值被離散化后,找出的分割點(diǎn)并不精確。由于決策樹(shù)屬于弱模型,分割點(diǎn)不精確并不影響最終模型訓(xùn)練的結(jié)果,但能減少大量的運(yùn)算,降低內(nèi)存的占用,提高訓(xùn)練的速度。
1.2 帶深度限制的按葉子分裂生長(zhǎng)策略
決策樹(shù)的生長(zhǎng)策略分為兩類,一類是按層分裂生長(zhǎng)策略;另一類是按葉子分裂生長(zhǎng)策略。
1) 按層分裂的生長(zhǎng)策略是分裂時(shí)將決策樹(shù)中當(dāng)前層的所有節(jié)點(diǎn)都進(jìn)行分裂。該生長(zhǎng)策略容易進(jìn)行多線程優(yōu)化,方便控制模型的復(fù)雜度,不容易過(guò)擬合,但有些分裂的節(jié)點(diǎn)增益很小,對(duì)這些節(jié)點(diǎn)分裂會(huì)導(dǎo)致該生長(zhǎng)策略的效率不高。按層分裂生長(zhǎng)策略如圖2所示。
2) 按葉子分裂的生長(zhǎng)策略是分裂時(shí)每次只選擇增益最大的節(jié)點(diǎn)進(jìn)行分裂。在分裂次數(shù)相同的情況,雖然按葉子分裂的生長(zhǎng)策略比按層分裂的生長(zhǎng)策略能降低更多的誤差,獲得更好的精度,但缺點(diǎn)是可能生長(zhǎng)成深度較大的決策樹(shù),產(chǎn)生過(guò)擬合。因此LightGBM在選擇按葉子分裂的生長(zhǎng)策略時(shí)加上了最大深度的限制,通過(guò)最大深度來(lái)避免過(guò)擬合,按葉子分裂的生長(zhǎng)策略如圖3所示。
1.3 互斥特征捆綁
互斥特征捆綁(Exclusive Feature Bundling,EFB)算法目的是將數(shù)據(jù)集中互斥的特征捆綁一起,形成低維的特征集合,減少特征個(gè)數(shù)使數(shù)據(jù)規(guī)模進(jìn)一步變小,有效地降低創(chuàng)建直方圖的時(shí)間復(fù)雜度。通常為了不丟失信息,被捆綁特征都是互斥的,若兩個(gè)特征不完全互斥,則用沖突比率衡量特征不互斥程度。當(dāng)沖突比率較小時(shí),可以把不完全互斥的兩個(gè)特征捆綁,算法步驟具體如下:(1)將特征按非零值的個(gè)數(shù)進(jìn)行排序;(2)計(jì)算不同特征之間得沖突比率;(3)遍歷每個(gè)特征并嘗試合并特征,使沖突比率最小化。
2 Bayesian-LightGBM模型
傳統(tǒng)的LightGBM模型存在兩點(diǎn)局限性,第一,真實(shí)場(chǎng)景下的糧食產(chǎn)量數(shù)據(jù)集含離群值,使用傳統(tǒng)的回歸模型損失函數(shù)會(huì)導(dǎo)致模型訓(xùn)練精度低等問(wèn)題;第二,LightGBM模型在進(jìn)行糧食產(chǎn)量預(yù)測(cè)時(shí),需要確定最優(yōu)超參數(shù)組合。不同的超參數(shù)對(duì)模型的性能有不同的影響。為增強(qiáng)模型對(duì)糧食產(chǎn)量預(yù)測(cè)的能力,具體改進(jìn)如下。
2.1 修正損失函數(shù)
損失函數(shù)表示預(yù)測(cè)值與真實(shí)值的差距程度。傳統(tǒng)的回歸模型常用的損失函數(shù)有平均絕對(duì)值誤差函數(shù)(MAE)、均方誤差函數(shù)(MSE)。
1) 平均絕對(duì)值誤差是指模型預(yù)測(cè)值f(x)與樣本真實(shí)值y之間距離的平均值。
MAE=1m∑mi=1yi-f(xi)(1)
式中:m——樣本數(shù)量;
yi——第i個(gè)樣本真實(shí)值;
f(xi)——第i個(gè)樣本預(yù)測(cè)值。
使用平均絕對(duì)值誤差作為損失函數(shù)的優(yōu)點(diǎn)是平均絕對(duì)誤差對(duì)離群點(diǎn)不敏感,更有包容性,但是當(dāng)梯度值較大時(shí),該損失函數(shù)收斂性能較差且不利于模型的學(xué)習(xí)。
2) 均方誤差是指預(yù)測(cè)值f(x)與樣本真實(shí)值y直接距離平方的平均值。
MSE=1m∑mi=1[yi-f(xi)]2(2)
使用均方誤差作為損失函數(shù)的優(yōu)點(diǎn)是隨著誤差的減小,梯度也減小,有利于函數(shù)的收斂,但缺點(diǎn)是如果樣本存在離群點(diǎn),MSE會(huì)給離群點(diǎn)賦予更高的權(quán)重,這一方式犧牲了其他正常數(shù)據(jù)點(diǎn)的預(yù)測(cè)效果,導(dǎo)致模型整體性能降低。
3) Huber函數(shù)。針對(duì)數(shù)據(jù)存在離群點(diǎn)的問(wèn)題[11, 12],上述傳統(tǒng)回歸模型常用的損失函數(shù)都存在一定的不足,因此,本文通過(guò)引入Huber損失函數(shù),降低離群點(diǎn)的影響,增強(qiáng)模型的穩(wěn)定性。Huber損失函數(shù)如式(3)所示。
Lδ(y,f(x))=12[y-f(x)]2y-f(x)≤δδy-f(x)-12δ2y-f(x)>δ(3)
式中:δ——Huber函數(shù)超參數(shù)。
δ值的大小決定了Huber損失函數(shù)側(cè)重MAE還是MSE。當(dāng)δ趨于0,Huber損失函數(shù)趨向于MAE;當(dāng)δ趨于∞,Huber損失函數(shù)趨向于MSE。Huber損失函數(shù)同時(shí)具備了MSE和MAE的優(yōu)點(diǎn),降低了對(duì)離散值的敏感度,更有利于函數(shù)的收斂。
2.2 貝葉斯優(yōu)化算法
在使用LightGBM模型進(jìn)行訓(xùn)練的過(guò)程中需要確定出最優(yōu)超參數(shù)組合。模型的超參數(shù)設(shè)定會(huì)直接影響模型性能。傳統(tǒng)的自動(dòng)調(diào)參方法有網(wǎng)格搜索、隨機(jī)網(wǎng)格搜索與Halving網(wǎng)格搜索。網(wǎng)格優(yōu)化超參數(shù)的本質(zhì)都是在一個(gè)大參數(shù)空間中,盡量對(duì)所有點(diǎn)進(jìn)行驗(yàn)證,再返回最優(yōu)損失函數(shù)值,顯然這種方法無(wú)法滿足復(fù)雜模型的效率快和精度高的要求,且會(huì)耗費(fèi)大量的計(jì)算資源和時(shí)間。貝葉斯優(yōu)化算法[13]被認(rèn)為是當(dāng)前最為先進(jìn)的優(yōu)化框架,針對(duì)未知黑盒函數(shù),貝葉斯優(yōu)化[14]能夠有效地利用歷史信息,效率明顯高于其他尋優(yōu)方法。貝葉斯優(yōu)化算法有兩個(gè)很重要的組成部分,分別是概率代理模型和采集函數(shù)[15]。因此本文引入貝葉斯優(yōu)化算法,對(duì)改進(jìn)后的LightGBM模型參數(shù)尋優(yōu)。
2.2.1 概率代理模型
概率代理模型包含先驗(yàn)概率模型和觀測(cè)模型,其計(jì)算公式如式(4)所示。
p(f|D1:t)=p(D1:t|f)p(f)p(D1:t)(4)
式中:f——未知目標(biāo)函數(shù);
D1:t——已觀測(cè)集合;
p(f)——先驗(yàn)概率模型;
p(D1:t|f)——觀測(cè)模型。
當(dāng)樣本數(shù)據(jù)x為一維數(shù)據(jù)時(shí),x服從高斯分布,其概率密度函數(shù)如式(5)所示。
p(x|θ)=12πσexp-(x-μ)22σ2(5)
式中:x——樣本值;
μ——數(shù)據(jù)期望;
σ——數(shù)據(jù)標(biāo)準(zhǔn)差。
當(dāng)樣本數(shù)據(jù)x為多維數(shù)據(jù)時(shí),x服從高斯分布,其概率密度函數(shù)如式(6)所示。
p(x|θ)=1(2π)D2|∑|12
exp-(x-μ)T∑-1(x-μ)2(6)
式中:D——數(shù)據(jù)維度;
∑——協(xié)方差。
高斯混合模型由k個(gè)單高斯模型構(gòu)成,如式(7)所示。
p(x)=∑Kk=1αkp(x|k)(7)
式中:k——高斯模型的個(gè)數(shù);
αk——第k個(gè)高斯模型的權(quán)重;
p(x|k)——第k個(gè)高斯模型的概率密度函數(shù)。
2.2.2 采集函數(shù)
采集函數(shù)則是根據(jù)后驗(yàn)概率分布p(f|D1:t)構(gòu)造的,是確定下一個(gè)評(píng)估點(diǎn)的基準(zhǔn),本文選擇置信度上界算法(Upper Confidence Bound,簡(jiǎn)稱UCB)作為采集函數(shù)。具體如式(8)所示。
xt+1=argmax{μλ(x)+βσλ(x)}(8)
式中:μλ(x)——x的期望;
σλ(x)——x的標(biāo)準(zhǔn)差;
β——使在樣本空間的開(kāi)發(fā)和探索保持平衡[12]。
2.3 Bayesian-LightGBM模型訓(xùn)練過(guò)程
經(jīng)優(yōu)化損失函數(shù)的LightGBM模型,隨機(jī)生成一組超參數(shù),將訓(xùn)練集數(shù)據(jù)代入模型訓(xùn)練,使用貝葉斯優(yōu)化算法調(diào)整模型的超參數(shù)。通過(guò)貝葉斯優(yōu)化算法得到了最優(yōu)超參數(shù)組合,將最優(yōu)超參數(shù)輸入模型得到Bayesian-LightGBM模型。具體過(guò)程如下:(1)隨機(jī)生成一組超參數(shù)輸入模型計(jì)算損失函數(shù)數(shù)值作為觀測(cè)點(diǎn);(2)通過(guò)觀測(cè)點(diǎn)和混合高斯過(guò)程得到不同的置信區(qū)間;(3)用采集函數(shù)UCB計(jì)算概率密度估計(jì),選取最大的置信度為新的超參數(shù)數(shù)值,將新超參數(shù)重新代入模型訓(xùn)練;(4)重復(fù)步驟2和步驟3,直到迭代次數(shù)達(dá)到預(yù)設(shè)值。選擇模型預(yù)測(cè)準(zhǔn)確率最高的超參數(shù)組合;(5)將最優(yōu)超參數(shù)組合代入優(yōu)化后的LightGBM模型,得到Bayesian-LightGBM模型。Bayesian-LightGBM模型流程如圖4所示。
3 試驗(yàn)與分析
本研究采用的樣本數(shù)據(jù)為2015—2018年廣西壯族自治區(qū)的81縣早、晚稻產(chǎn)量相關(guān)數(shù)據(jù)。本文運(yùn)用平臺(tái)為Intel(R) Core(TM) i7-6700HQ CPU,運(yùn)用編程語(yǔ)言Python對(duì)數(shù)據(jù)進(jìn)行處理、模型的構(gòu)建和數(shù)據(jù)預(yù)測(cè)。試驗(yàn)過(guò)程中,采用線性回歸、決策樹(shù)、隨機(jī)森林、XGboost、LightGBM作為對(duì)比模型,驗(yàn)證改進(jìn)后的LightGBM模型的優(yōu)越性。
3.1 試驗(yàn)數(shù)據(jù)
數(shù)據(jù)來(lái)源于廣西壯族自治區(qū)大數(shù)據(jù)發(fā)展局提供的最新數(shù)據(jù),由廣西壯族自治區(qū)農(nóng)業(yè)農(nóng)村廳、廣西壯族自治區(qū)氣象局協(xié)助完成的數(shù)據(jù)特征采樣。影響水稻耕作產(chǎn)量的因素眾多,普遍認(rèn)為生產(chǎn)措施、種子品種、灌溉施肥是影響水稻產(chǎn)量的因素,鮮有人研究氣象對(duì)水稻產(chǎn)量的影響,因廣西地塊相對(duì)破碎,種植結(jié)構(gòu)復(fù)雜,農(nóng)業(yè)統(tǒng)計(jì)調(diào)查工作量大,通過(guò)預(yù)測(cè)天氣和農(nóng)作物生長(zhǎng)的關(guān)系,為三農(nóng)提供服務(wù),對(duì)產(chǎn)業(yè)收割期意義重大。因此選取2015年1月—2018年12月總共132 951組檢測(cè)的數(shù)據(jù)為原始樣本,數(shù)據(jù)包含16個(gè)字段,其字段含義和數(shù)據(jù)類型具體如表1所示。
3.2 試驗(yàn)流程
原始數(shù)據(jù)劃分為99 736個(gè)樣本的訓(xùn)練集和33 215個(gè)樣本的測(cè)試集。因原始數(shù)據(jù)存在數(shù)值差異較大和非數(shù)值型數(shù)據(jù)的情況,需經(jīng)過(guò)預(yù)處理才能輸入模型使用。對(duì)日照時(shí)數(shù)、日均風(fēng)速、日降水量、日最高溫度、日平均溫度、日相對(duì)濕度和日平均氣壓用最大-最小標(biāo)準(zhǔn)化來(lái)歸一化連續(xù)的特征處理,避免出現(xiàn)數(shù)據(jù)差較大的數(shù)據(jù),使數(shù)據(jù)更平滑。區(qū)縣id做獨(dú)熱編碼處理。對(duì)4個(gè)時(shí)間段的風(fēng)向特征數(shù)據(jù)做二維向量映射處理,由于風(fēng)向一共有17種風(fēng)向,如果對(duì)風(fēng)向特征數(shù)據(jù)做獨(dú)熱編碼處理會(huì)導(dǎo)致計(jì)算量太大,并弱化模型對(duì)其他特征的學(xué)習(xí)能力,因此按照每個(gè)風(fēng)向?qū)?yīng)的角度用正弦值和余弦值表示,4個(gè)時(shí)間段的風(fēng)向特征經(jīng)處理后統(tǒng)一為8個(gè)正余弦風(fēng)向特征。年份、月份和日期三個(gè)特征的數(shù)據(jù)轉(zhuǎn)用歸一化的索引代表數(shù)據(jù),將其合并成一個(gè)時(shí)間特征。為對(duì)比本文模型與其他機(jī)器學(xué)習(xí)模型在數(shù)據(jù)維度較高的情況下,能達(dá)到更好的預(yù)測(cè)效果,本文選取了數(shù)據(jù)集的16個(gè)特征作為原始數(shù)據(jù)集,經(jīng)數(shù)據(jù)處理后為18個(gè)特征的數(shù)據(jù)。處理好的數(shù)據(jù)輸入到Bayesian-LightGBM模型中,再通過(guò)貝葉斯優(yōu)化算法對(duì)模型的超參數(shù)調(diào)優(yōu)得出最優(yōu)超參數(shù)組合,得到水稻產(chǎn)量預(yù)測(cè)最終模型。試驗(yàn)流程如圖5所示。
3.3 評(píng)估指標(biāo)
為驗(yàn)證糧食產(chǎn)量預(yù)測(cè)模型的有效性,選取平均絕對(duì)誤差MAE、均方根誤差RMSE、平均絕對(duì)百分比誤差MAPE和決定系數(shù)R24個(gè)指標(biāo)對(duì)模型評(píng)估,如式(9)~式(11)所示。
RMSE=1m∑mi=1(fi-yi)2(9)
MAPE=∑mi=1fi-yiyi×100m(10)
R2=1-∑mi=1(fi-yi)2∑mi=1(yi-yi)2(11)
式中:yi——水稻產(chǎn)量真實(shí)值;
yi——水稻產(chǎn)量真實(shí)值的平均值;
fi——模型輸出水稻產(chǎn)量預(yù)測(cè)值。
3.4 模型性能對(duì)比分析
3.4.1 不同損失函數(shù)對(duì)比
在模型訓(xùn)練的過(guò)程,使用了不同的函數(shù)作為L(zhǎng)ightGBM的損失函數(shù),試驗(yàn)結(jié)果如表2所示。
由表2可知,在迭代次數(shù)都是100次的情況下,MSE函數(shù)和Huber函數(shù)效果較好。在早水稻數(shù)據(jù)集下比較MAE指標(biāo),Huber函數(shù)比MSE函數(shù)要高0.9%,在RMSE指標(biāo)中,Huber函數(shù)效果最好,為0.161。MAE函數(shù)作為L(zhǎng)ightGBM模型的損失函數(shù),在水稻數(shù)據(jù)集的MAE指標(biāo)和RMSE指標(biāo)中都高達(dá)14以上,因MAE函數(shù)沒(méi)有二階導(dǎo)數(shù),不合適作為L(zhǎng)ightGBM模型的損失函數(shù)。
3.4.2 不同超參數(shù)尋優(yōu)方法對(duì)比
在模型訓(xùn)練的過(guò)程,使用了貝葉斯優(yōu)化算法和網(wǎng)格搜索法進(jìn)行對(duì)比,對(duì)模型的葉子節(jié)點(diǎn)數(shù)和樹(shù)的最大深度進(jìn)行優(yōu)化。從表3可知,在優(yōu)化方法迭代次數(shù)相同的情況下,早水稻數(shù)據(jù)集的MAE指標(biāo)對(duì)比,貝葉斯優(yōu)化方法為4.1%,網(wǎng)格搜索方法為5.6%。RMSE指標(biāo)中,貝葉斯優(yōu)化方法為6.1%,網(wǎng)格搜索為7.4%。綜合來(lái)看,貝葉斯優(yōu)化方法比傳統(tǒng)的網(wǎng)格搜索方法在優(yōu)化模型超參數(shù)上效果更好。
為驗(yàn)證本文提出的Bayesian-LightGBM模型的泛化能力和性能,將Bayesian-LightGBM模型與當(dāng)前研究領(lǐng)域的經(jīng)典的機(jī)器學(xué)習(xí)模型作對(duì)比試驗(yàn)。
對(duì)比圖6與圖7可知,圖7中真實(shí)值與預(yù)測(cè)值的走勢(shì)圖比圖6更接近,部分線是重合的,說(shuō)明決策樹(shù)模型預(yù)測(cè)的結(jié)果比線性模型預(yù)測(cè)的效果好,但真實(shí)值與預(yù)測(cè)值之間仍存在較大差距。
再將圖7和圖8對(duì)比觀察,圖8真實(shí)值與預(yù)測(cè)值的重合度比圖7高,說(shuō)明隨機(jī)森林模型預(yù)測(cè)效果比決策樹(shù)模型有所提高,但部分預(yù)測(cè)值與真實(shí)值存在差距,有待提高預(yù)測(cè)效果。將圖9與圖8對(duì)比,可以看到Bayesian-LightGBM模型預(yù)測(cè)點(diǎn)的真實(shí)值與預(yù)測(cè)值基本重合,說(shuō)明Bayesian-LightGBM模型在預(yù)測(cè)時(shí),預(yù)測(cè)點(diǎn)的真實(shí)值與預(yù)測(cè)值的差值比隨機(jī)森林模型小。把圖6~圖9對(duì)比,可以看到在這4個(gè)圖中水稻產(chǎn)量真實(shí)值與預(yù)測(cè)值重復(fù)度最高的是圖9,說(shuō)明Bayesian-LightGBM模型與另外3個(gè)對(duì)比試驗(yàn)?zāi)P偷念A(yù)測(cè)效果更好,預(yù)測(cè)值更接近真實(shí)值。
為更清楚地說(shuō)明4個(gè)模型預(yù)測(cè)效果,根據(jù)試驗(yàn)評(píng)估指標(biāo),分別得到4個(gè)模型在早水稻數(shù)據(jù)集和晚水稻數(shù)據(jù)集的評(píng)估結(jié)果,具體如表4、表5所示。由表4可看出,在早水稻數(shù)據(jù)集的結(jié)果中,對(duì)比MAE值,Bayesian-LightGBM模型的MAE指標(biāo)值最低為0.049,其次是隨機(jī)森林模型0.315,最大值為線性回歸模型,值為1.255。對(duì)于RMSE指標(biāo),Bayesian-LightGBM是4個(gè)模型中的最低值0.072。MAPE指標(biāo)中,線性回歸模型高達(dá)10.023,效果最好的模型是Bayesian-LightGBM,值為0.389。除了線性回歸模型,其余3個(gè)模型在決定系數(shù)指標(biāo)的值處于0.9~0.998之間,Bayesian-LightGBM模型高達(dá)0.998,其余模型均在0.96以下。根據(jù)表5的數(shù)據(jù)也可以得出與表4相似的結(jié)論。綜合對(duì)比早晚水稻數(shù)據(jù)集的模型預(yù)測(cè)結(jié)果,Bayesian-LightGBM模型的預(yù)測(cè)性能最好,其次是隨機(jī)森林模型,線性回歸在4個(gè)模型中的預(yù)測(cè)能力最差。
3.5 水稻產(chǎn)量特征重要性分析
為了探究不同特征變量對(duì)模型的影響,以廣西水稻數(shù)據(jù)作為數(shù)據(jù)集,使用18個(gè)特征變量作為特征集訓(xùn)練Bayesian-LightGBM水稻產(chǎn)量模型。由表6可知,水稻產(chǎn)量特征重要性的分布。在Bayesian-LightGBM模型利用特征訓(xùn)練過(guò)程中,區(qū)縣id和日平均氣壓的重要度數(shù)值較高,說(shuō)明這區(qū)縣id特征和日平均氣壓特征對(duì)于水稻產(chǎn)量影響程度很大,其次是日平均風(fēng)壓特征和日最低溫度特征。而日照時(shí)數(shù)特征和日均降水量特征的重要性相對(duì)較低,說(shuō)明日照時(shí)數(shù)特征和日均降水量特征對(duì)于預(yù)測(cè)水稻產(chǎn)量的貢獻(xiàn)較小。每個(gè)時(shí)間段的風(fēng)向的特征重要性差距不大,說(shuō)明各個(gè)風(fēng)向?qū)τ谒井a(chǎn)量的影響程度相差不大。
4 結(jié)論
1) 針對(duì)糧食產(chǎn)量數(shù)據(jù)規(guī)模大、影響因子眾多導(dǎo)致糧食產(chǎn)量預(yù)測(cè)模型訓(xùn)練速度慢、預(yù)測(cè)效果不佳,為了合理高效的規(guī)劃糧食生產(chǎn),本文以LightGBM模型為基礎(chǔ)模型,采用Huber函數(shù)作為模型的損失函數(shù),引進(jìn)貝葉斯算法對(duì)模型進(jìn)行優(yōu)化,構(gòu)建Bayesian-LightGBM糧食產(chǎn)量預(yù)測(cè)模型。
2) LightGBM模型存在超參數(shù)尋優(yōu)問(wèn)題,因此本文通過(guò)超參優(yōu)化算法,改進(jìn)LightGBM模型存在超參數(shù)的問(wèn)題,具體作為是使用貝葉斯優(yōu)化算法對(duì)LightGBM模型進(jìn)行超參數(shù)尋優(yōu),得到最優(yōu)超參數(shù)組合,試驗(yàn)結(jié)果表明,該方法提升模型的預(yù)測(cè)精度。
3) 結(jié)合實(shí)際數(shù)據(jù)驗(yàn)證,Bayesian-LightGBM模型預(yù)測(cè)效果良好,該模型的預(yù)測(cè)平均絕對(duì)誤差為0.049,均方根誤差為0.072,預(yù)測(cè)水稻產(chǎn)量結(jié)果與真實(shí)值比較接近,體現(xiàn)了其工程應(yīng)用的價(jià)值。本文模型對(duì)比線性回歸、決策樹(shù)和隨機(jī)森林模型,預(yù)測(cè)水稻產(chǎn)量的平均絕對(duì)誤差分別降低1.206、0.377和0.266,證明Bayesian-LightGBM模型有效性,為糧食產(chǎn)量預(yù)測(cè)提供新的途徑和方法。
參 考 文 獻(xiàn)
[1]趙桂芝, 趙華洋, 李理, 等. 基于混沌-SVM-PSO的糧食產(chǎn)量預(yù)測(cè)方法研究[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2019, 40(1): 179-183.
Zhao Guizhi, Zhao Huayang, Li Li, et al. Study on method for food yield prediction based on chaotic Theory-SVM-PSO [J]. Journal of Chinese Agricultural Mechanization, 2019, 40(1): 179-183.
[2]胡程磊, 劉永華, 高菊玲. 基于IPSO-BP模型的糧食產(chǎn)量預(yù)測(cè)方法研究[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2021, 42(3): 136-141.
Hu Chenglei, Liu Yonghua, Gao Juling. Research on prediction method of grain yield based on IPSO-BP model [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(3): 136-141
[3]施瑤, 陳昭. 基于SAFA優(yōu)化LSSVM的糧食產(chǎn)量預(yù)測(cè)[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2019, 40(3): 144-148.
Shi Yao, Chen Zhao. Prediction of grain yield based on LSSVM optimized by SAFA [J]. Journal of Chinese Agricultural Mechanization, 2019, 40(3): 144-148.
[4]Donohue R J, Lawes R A, Mata G, et al. Towards a national, remote-sensing-based model for predicting field-scale crop yield [J]. Field Crops Research, 2018, 227: 79-90.
[5]韓書(shū)成, 李丹, 熊建華, 等. 廣州市耕地資源數(shù)量變化及其對(duì)糧食安全的影響[J]. 農(nóng)林經(jīng)濟(jì)管理學(xué)報(bào), 2016, 15(6): 648-654.
Han Shucheng, Li Dan, Xiong Jianhua, et al. Changes in cultivated land amount and their impacts on food security in Guangzhou [J]. Journal of Agro-Forestry Economics and Management, 2016, 15(6): 648-654.
[6]孫東升, 梁仕瑩. 我國(guó)糧食產(chǎn)量預(yù)測(cè)的時(shí)間序列模型與應(yīng)用研究[J]. 農(nóng)業(yè)技術(shù)經(jīng)濟(jì), 2010(3): 97-106.
Sun Dongsheng, Liang Shiying. Research on time series model and application of grain yield prediction in my country [J]. Journal of Agrotechnical Economics, 2010(3): 97-106.
[7]Li Bingjun, Zhang Yifan, Zhang Shuhua, et al. Prediction of grain yield in Henan Province based on Grey BP Neural Network Model [J]. Discrete Dynamics in Nature and Society, 2021, 2021.
[8]Friedman J H. Greedy function approximation: A gradient boosting machine [J]. Annals of Statistics, 2001: 1189-1232.
[9]Quinlan J R. Induction of decision trees [J]. Machine Learning, 1986, 1: 81-106.
[10]Ke G, Meng Q, Finley T, et al. LightGBM: A highly efficient gradient boosting decision tree [J]. Advances in Neural Information Processing Systems, 2017, 30.
[11]Liang J, Gan Y, Song W, et al. Thermal-Electrochemical simulation of electrochemical characteristics and temperature difference for a battery module under two-stage fast charging [J]. Journal of Energy Storage, 2020, 29: 101307.
[12]Li X, Zhang L, Wang Z, et al. Remaining useful life prediction for lithium-ion batteries based on a hybrid model combining the long short-term memory and Elman neural networks [J]. Journal of Energy Storage, 2019, 21: 510-518.
[13]李亞茹, 張宇來(lái), 王佳晨. 面向超參數(shù)估計(jì)的貝葉斯優(yōu)化方法綜述[J]. 計(jì)算機(jī)科學(xué), 2022, 49(S1): 86-92.
Li Yaru, Zhang Yulai, Wang Jiachen. Survey on Bayesian optimization methods for hyper-parameter tuning [J]. Computer Science, 2022, 49(S1): 86-92.
[14]Mockus J B, Mockus L J. Bayesian approach to global optimization and application to multiobjective and constrained problems [J]. Journal of Optimization Theory and Applications, 1991, 70: 157-172.
[15]崔佳旭, 楊博. 貝葉斯優(yōu)化方法和應(yīng)用綜述[J]. 軟件學(xué)報(bào), 2018, 29(10): 3068-3090.
Cui Jiaxu, Yang Bo. Survey on Bayesian optimization methodology and applications [J]. Journal of Software, 2018, 29(10): 3068-3090.
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2024年6期