張向君 陳優(yōu)良 肖鋼
摘 要:人口的持續(xù)增長對農業(yè)系統(tǒng)的壓力越來越大,產量預測能夠為農作物的合理規(guī)劃與種植提供指導。隨著數(shù)據(jù)科學與計算機軟硬件的發(fā)展,機器學習憑借其對復雜性、非線性問題的處理能力,在數(shù)據(jù)分析、農業(yè)病蟲害識別、模式識別中表現(xiàn)良好,被逐漸應用于農作物產量預測中。該文以當前農作物產量預測為背景,概述了機器學習的主要算法,在歸納國內外研究進展的基礎上,綜合分析當前基于機器學習的農作物產量預測方法,并討論了不同方法特點和精度。
關鍵詞:農作物;產量預測;機器學習;智能優(yōu)化算法;神經(jīng)網(wǎng)絡
中圖分類號 S126文獻標識碼 A文章編號 1007-7731(2021)03-0117-04
A Review of Crop Yield Prediction based on Machine Learning
ZHANG Xiangjun1 et al.
(1School of Civil and Surveying & Mapping Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China)
Abstract: With the growth of the population, the pressure on agriculture becomes more and more enormous. Crop yield prediction plays a more important role in reasonable planning and planting in agriculture. With the development of data science and computer hardware, machine learning has performed well in data analysis, agricultural pests , disease recognition, and pattern recognition, and is gradually applied to crop yield prediction. At the background of current crop yield prediction methods, the main machine learning algorithms are comprehensively analyzed, and the characteristics of different methods are discussed and the accuracy is compared. Finally, it looks forward to the possible future development direction of this research field.
Key words: Cropl; Yield prediction; Machine learning; Intelligent optimization algorithm; Neural network
農作物與人們的生活息息相關,它是人類生存的最基本保障。糧食安全是國家政治、經(jīng)濟、社會安全的重要組成部分[1],隨著全球人口增長,農業(yè)系統(tǒng)承受的壓力也越來越大[2]。作物產量預測是國家制定農業(yè)政策、發(fā)展農業(yè)生產、計劃作物種植的重要依據(jù),作物產量預測已成為農業(yè)領域的研究熱點之一。作物產量的形成過程受到自然及社會因素[3]的影響,因而作物產量預測是一個復雜的非線性過程。
傳統(tǒng)的農作物產量預測方法以數(shù)據(jù)為基礎,應用統(tǒng)計模型預測,主要分析方法有ARIMA[4]、灰色預測模型、逐步回歸模型[6]等。楊立凡等[5]利用灰色關聯(lián)分析篩選了云南省糧食產量的重要經(jīng)濟影響因素,使用GM(1,N)模型實現(xiàn)了云南省糧食產量預測。劉曉宇等[7]根據(jù)氣候因素與煙草生長因素相結合,使用逐步回歸方法預測了黑龍江省的煙葉產量。上述方法只考慮了影響作物生長的部分因素,模型精度有待提高。隨著大數(shù)據(jù)與計算機軟硬件的發(fā)展,物聯(lián)網(wǎng)技術的支持,多元化、精細化的農業(yè)數(shù)據(jù)獲取也更加方便。當前,機器學習在圖像識別[8]、自然語言處理[9]、植物病害檢測[10]及農業(yè)領域[11]中發(fā)揮了重要作用。
本文闡述了基于機器學習的農作物產量預測方法,分析了預測模型的數(shù)據(jù)與方法,概述了主要模型實現(xiàn)的一般思路、優(yōu)化方法以及結果精度,并對機器學習在農作物產量預測中的發(fā)展進行總結與展望。
1 機器學習
1.1 概述 機器學習(machine learning)是一門多領域交叉學科,涉及概率論、統(tǒng)計學、算法復雜度等多門學科。機器學習自動處理輸入變量和輸出變量之間的關系,從示例樣本中挖掘隱含規(guī)律,以達到“學習”這些數(shù)據(jù)的結構描述[12]。機器學習算法的特點在于能自動解決大型非線性問題,支持在真實場景中更好地決策和操作,而不需要人工干預[13]。算法很大程度上依賴數(shù)據(jù)的質量、模型代表性以及所收集的數(shù)據(jù)集中輸入變量與目標之間的依賴關系。常見的機器學習算法有多元線性回歸(MLR)、BP神經(jīng)網(wǎng)絡(BPNN)、隨機森林[14](RF)、支持向量機(SVM)、極限學習機[15](ELM)等。
1.2 常見算法 支持向量機于1995年提出[16],該方法根據(jù)結構風險最小化原理,設計最大決策邊界的線性分類器,以確保最壞情況下的泛化誤差最小。該算法的特點在于通過引入核函數(shù)將數(shù)據(jù)映射到高維空間,使其在高維空間中線性可分,避免訓練陷入局部最小值的情況。但是支持向量機模型訓練的復雜度高,難以適應多分類問題,且核函數(shù)選擇也沒有較好的方法論。決策樹(decision tree)是一種逼近離散值目標函數(shù)的方法,學習到的函數(shù)被表示為一棵決策樹,如圖1(a)所示,每個內部節(jié)點上先用1個屬性進行分割,每個分叉對應1個屬性值,每個葉子節(jié)點代表1個分類。(a)中A1為根節(jié)點,包含全部訓練樣本;c1為葉子結點,表示決策結果。決策樹支持自頂向下分而治之的策略,對每個內部節(jié)點重復決策過程,直到全部都是葉子結點為止。隨機森林通過引入隨機性提升了抗噪能力,而且提高了模型的預測準確性和魯棒性。隨機森林在對數(shù)據(jù)進行分類的同時,還能給出各個變量的重要性評分,評估各個變量在分類中所起的作用。
神經(jīng)網(wǎng)絡由輸入層、隱藏層和輸出層構成,輸入層輸入數(shù)據(jù),1層或多層的隱藏層實現(xiàn)學習任務,輸出層輸出最終結果。激活函數(shù)會綜合輸入信號轉換為輸出信號,以閾值為界,一旦超過閾值就切換輸出,實現(xiàn)“學習”過程。神經(jīng)網(wǎng)絡的特點在于算法構建靈活多變且計算能力強,能從海量數(shù)據(jù)中挖掘深層次關系。與其他機器學習算法相比,神經(jīng)網(wǎng)絡通常需要更多的數(shù)據(jù),模型也會出現(xiàn)過擬合問題。除此之外隱藏層的數(shù)量、學習率等超參數(shù)的設置,對模型精度也有很大的影響。
2 機器學習在農作物產量預測中的應用
2.1 常用機器學習算法 李曉東[17]構建基于最小二乘法的支持向量機模型(LS_SVM)預測全國糧食產量。向昌盛[18]利用1978—2007年全國糧食產量數(shù)據(jù),使用SVM方法預測并驗證全國糧食產量。Alberto[19]選取10種作物,綜合農業(yè)數(shù)據(jù)和氣象數(shù)據(jù),使用5種機器學習模型:多元線性回歸(MLR)、M5素數(shù)回歸(M5-Prime)、支持向量機(SVM)、多層神經(jīng)網(wǎng)絡(ANN)以及K近鄰法(KNN),使用窮舉法,匹配每一種算法最佳屬性集構建作物產量預測模型(見表1)。
氣象對作物產量的影響較大。針對上述方法中忽略氣象因素對產量預測造成的偏差,許多學者提出了不同的解決辦法。程偉[20]收集了1982—1999年安徽某縣的產量、氣候數(shù)據(jù),以氣候因子為樣本屬性,采用商空間理論重構SVM方法預測該縣糧食產量。劉峻明[21]對河南省冬小麥劃分不同生長期,結合氣象及空間要素,構建了隨機森林產量預測模型,結果表明,相對氣象產量預測模型效果最優(yōu)。Patrick Filippi[22]結合多屬性數(shù)據(jù),將氣象、土壤及遙感數(shù)據(jù)構建多維時空數(shù)據(jù)集,劃分生長期構建隨機森林產量預測模型,發(fā)現(xiàn)隨著時間序列的延展,模型預測精度更高。
農作物的生長受到多種因素的影響,綜合時間、空間等不同分辨率的多維時空數(shù)據(jù)集,更能構建精準的產量預測模型。Sami Khanal[23]選取土壤樣本共18個變量,結合多光譜影像數(shù)據(jù)計算植被指數(shù),將遙感數(shù)據(jù)與機器學習算法相結合,構建了玉米產量預測模型,發(fā)現(xiàn)隨機性的引入使其具有更好的抗噪能力,提高了模型的穩(wěn)定性。
2.2 優(yōu)化組合機器學習算法 機器學習算法應用于農作物產量預測時,不可避免地會受到算法的限制而影響預測模型的精度。人工神經(jīng)網(wǎng)絡能夠處理復雜的非線性問題,但過擬合問題、超參數(shù)設置問題處理較難。支持向量機的核函數(shù)機制以及懲罰因子能較好地處理模型的過擬合問題,但在高維數(shù)據(jù)分析時模型的表現(xiàn)力常受限制。因此,通過優(yōu)化算法以弱化或突破機器學習算法自身的限制,亦能提高模型的預測精度。
2.2.1 權重初始化和參數(shù)設置 Gopal[24]利用多元線性回歸的截距和系數(shù)初始化人工神經(jīng)網(wǎng)絡,對比K-Means和隨機森林算法,取得了更好的結果。李修華[25]根據(jù)田間環(huán)境數(shù)據(jù)以及氣象和土壤數(shù)據(jù),使用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡初始值,改變由于隨機初始權值閾值而導致訓練結果不理想的情況,實現(xiàn)遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡。P. Murali[26]對于區(qū)域尺度的甘蔗產量以及降水時間序列數(shù)據(jù),發(fā)揮鯨魚算法設計初始化遞歸神經(jīng)網(wǎng)絡的權值和閾值,再結合廣義自回歸條件異方差模型增強模型數(shù)據(jù)波動性的分析和預測,有效地提高了模型的預測精度。
2.2.2 群智能算法優(yōu)化 群智能算法的基本思想是模仿自然界中生物的種群行為來構造隨機優(yōu)化算法,將優(yōu)化和搜索過程模擬成種群或個體中優(yōu)勝劣汰或覓食過程[27]。高心怡[28]采用遺傳算法融合粒子群算法和人工與群算法得到混合智能算法,通過發(fā)揮群智能算法的優(yōu)勝劣汰競爭機制,快速高效得到SVM最優(yōu)參數(shù)組合。Esfandiarpour[29]對田間尺度杏產量進行了定量分析預測,使用粒子群算法混合帝國主義算法尋找最優(yōu)特征子集,優(yōu)化支持向量機構建產量預測模型。Maimaitiyiming[30]通過混合雙激活函數(shù)優(yōu)化極限學習機模型,對小區(qū)域的葡萄產量進行建模。該模型據(jù)高光譜影像獲得葡萄植被指數(shù),首次將高光譜遙感和機器學習應用于立地植物漿果產量和品質的研究,引入正則化參數(shù)緩解極限學習機易過擬合問題,提高了模型的預測精度。
2.3 其他方法 深度學習因卷積神經(jīng)網(wǎng)絡特征提取功能在圖像識別、目標識別領域大放異彩。Nevavuori P[31]使用無人機采集大麥和小麥約90hm2的多光譜圖像數(shù)據(jù),獲取NDVI和RGB圖像數(shù)據(jù),使用卷積神經(jīng)網(wǎng)絡,將NDVI和RGB圖像分別作為輸入,構建了產量預測模型,結果表明,CNN模型能夠對RGB圖像進行合理準確的產量估計。熊雄[32]通過對水稻小區(qū)高分辨率圖像分割并提取稻穗特征,基于多種特征自變量組合情況下的回歸模型構建方法,最終結果顯示給予圖像的無損水稻估產方法,為精準地早期稻田估產提供了可能。
3 小結與展望
機器學習在產量預測中應用的主要優(yōu)點是能夠基于復雜的、非線性的農業(yè)數(shù)據(jù),建立一種低成本的、無損的農作物產量預測模型。綜合上述分析,機器學習算法在農作物產量中表現(xiàn)較一般的統(tǒng)計法精度較高,優(yōu)化后的機器學習算法模型能突破機器學習算法自身的局限性,提升了機器學習的預測精度。
農作物產量預測的意義在于如何應用當前的科學技術與知識經(jīng)驗,實現(xiàn)資源的合理利用與規(guī)劃,既能滿足人們的生存需求,又能減少資源的浪費,實現(xiàn)資源的可持續(xù)發(fā)展。因此,今后可以從以下2個方面開展進一步的研究:(1)結合農業(yè)大數(shù)據(jù),研究更高精度與更易推廣的算法模型;(2)在研究尺度上,實現(xiàn)從田間尺度向區(qū)域尺度的過度,實現(xiàn)更便捷、高精度的作物產量預測將成為研究方向之一。
參考文獻
[1]胡岳岷,中國未來糧食安全論[M].北京:科學出版社,1990.
[2]穆光宗.轉折中的中國人口——《國家人口發(fā)展規(guī)劃(2016-2030)》解讀[J].中國社會工作,2017(05):24-27.
[3]崔媛.基于大數(shù)據(jù)分析的農業(yè)氣候與農作物產量變化研究[J].中國農業(yè)資源與區(qū)劃,2017,38(02):112-117.
[4]陳威,祁偉彥,袁福香,等.基于時間序列與橫截面數(shù)據(jù)的吉林省水稻產量預測對比分析[J].中國農業(yè)信息,2018,30(05):91-101.
[5]楊立凡,佘思,劉紅艷,等.基于灰色理論的云南省糧食產量預測[J].農業(yè)工程,2017,7(06):157-161.
[6]林紹森,唐永金.幾種作物產量預測模型及其特點分析[J].西南科技大學學報(自然科學版),2005(03):55-60.
[7]劉曉宇,孟軍.基于逐步回歸的黑龍江省煙葉產量預測[J].中國農學通報,2012,28(07):223-227.
[8]范麗麗,趙宏偉,趙浩宇,等.基于深度卷積神經(jīng)網(wǎng)絡的目標檢測研究綜述[J].光學精密工程,2020,28(05):1152-1164.
[9]王飛,陳立,易綿竹,等.新技術驅動的自然語言處理進展[J].武漢大學學報(工學版),2018,51(08):669-678.
[10]M. Nagaraju,Priyanka Chawla. Systematic Review of Deep Learning Techniques in Plant Disease Detection[J]. International Journal of System Assurance Engineering and Management,2020,11(12):1-14.
[11]Liakos K G,Busato P,Moshou D,et al. Machine Learning in Agriculture:A Review[J]. Sensors,2018,18(8):2674.
[12]McQueen RJ,Garner SR,Nevill-Manning CG,et al. Applying Machine Learning to Agricultural Data. Comput Electron Agr.,1995,12(4):275-293.
[13]Anna C,Salah S,Brett W. Machine Learning Approaches for Crop Yield Prediction and Nitrogen Status Estimation in Precision Agriculture:A review[J]. Computers and Electronics in Agriculture,2018,151:61-69.
[14]Breiman L. Random forests[J]. Machine Learning,2001,45(1):5-32.
[15]Huang,G.,Huang,G. B.,Song,S.,et al. Trends in Extreme Learning Machines:A review[J]. Neural Networks,2015,61:32-48.
[16]Cortes,C., Vapnik,V. Support Vector Networks[J]. Machine Learning,1995,20:273-297.
[17]李曉東,席升陽,潘立.基于最小二乘支持向量機的中國糧食產量預測模型研究[J].水土保持研究,2007,14(6):329-331.
[18]向昌盛,周子英,武麗娜.糧食產量預測的支持向量機模型研究[J].湖南農業(yè)大學學報:社會科學版,2010,11(1):6-10.
[19]Alberto González-Sanchez,F(xiàn)rausto-Solis J,Ojeda-Bustamante W. Predictive ability of machine learning methods for massive crop yield prediction[J]. SPANISH JOURNAL OF AGRICULTURAL RESEARCH,2014,12(2):313-328.
[20]程偉,張燕平,趙姝.商空間理論框架下的SVM產量預測模型研究[J].中國農業(yè)大學學報,2009,14(05):135-139.
[21]劉峻明,和曉彤,王鵬新,等.長時間序列氣象數(shù)據(jù)結合隨機森林法早期預測冬小麥產量[J].農業(yè)工程學報,2019,35(06):158-166.
[22]Filippi P,Jones E J,Wimalathunge N S,et al. An Approach to Forecast Grain Crop Yield using Multi-layered,Multi-farm Data Sets and Machine learning[J]. Precision Agriculture,2019,20:1015-1029.
[23]Sami Khanal,John Fulton,Andrew Klopfenstein,et al. Integration of High Resolution Remotely Sensed Data and Machine Learning Techniques for Spatial Prediction of Soil Properties and Corn Yield[J].Computers and Electronics in Agriculture,2018,153:213-225.
[24]Gopal P S M,Bhargavi R. A Novel Approach for Efficient Crop Yield Prediction[J]. Computers and Electronics in Agriculture,2019,165:104968.
[25]李修華,李婉,張木清,等.基于田間環(huán)境及氣象數(shù)據(jù)的甘蔗產量預測方法[J].農業(yè)機械學報,2019,50(S1):233-236.
[26]Murali,P.,Revathy,R.,Balamurali,S.,et al. Integration of RNN with GARCH Refined by Whale Optimization Algorithm for Yield Forecasting:A Hybrid Machine Learning Approach[J].Ambient Intell Human Comput,2020,3(4):1-6.
[27]李素,袁志高,王聰,等.群智能算法優(yōu)化支持向量機參數(shù)綜述[J].智能系統(tǒng)學報,2018,13(01):70-84.
[28]高心怡,韓飛.基于混合智能算法的支持向量機的糧食產量預測[J].江蘇大學學報(自然科學版),2020,41(3):301-306.
[29]Esfandiarpour-Boroujen,I. Yield Prediction of Apricot using a Hybrid Particle Swarm Optimization Imperialist Competitive Algorithm- Support Vector Regression (PSO-ICA-SVR) Method[J]. Scientia Horticulturae,2019(257):108756.
[30]Maimaitiyiming M,Sagan V,Sidike P,et al. Dual Activation Function-Based Extreme Learning Machine (ELM) for Estimating Grapevine Berry Yield and Quality[J]. Remote Sensing,2019,11(7):740.
[31]Sa I,Chen Z,Popovic M,et al. weedNet:Dense Semantic Weed Classification Using Multispectral Images and MAV for Smart Farming[J]. IEEE Robotics & Automation Letters, 2017,3(1):588-595.
[32]熊雄.基于深度學習的大田水稻稻穗分割及無損產量預估研究[D].武漢:華中科技大學,2018.
(責編:張宏民)
作者簡介:張向君(1995—),女,河南洛陽人,在讀碩士,研究方向:機器學習在農業(yè)方面的應用,目標識別的。? 收稿日期:2020-12-04