周小紅
(北京農(nóng)業(yè)職業(yè)學(xué)院基礎(chǔ)部,北京 102442)
農(nóng)業(yè)種植一直是中國賴以生存的根本,糧食對中國長遠(yuǎn)發(fā)展至關(guān)重要,關(guān)系到國家安定。據(jù)統(tǒng)計中國糧食產(chǎn)量已經(jīng)連續(xù)6年超6.5億t,生產(chǎn)量超過消費(fèi)量,糧食達(dá)成了供過于求目標(biāo),人民的溫飽問題得以解決。然而,受到中國地理環(huán)境和自然氣候的影響,中國糧食生產(chǎn)呈現(xiàn)嚴(yán)重的不均衡現(xiàn)象,因此為了解決上述問題,滿足所有人需要,農(nóng)作物產(chǎn)量估測成為國家糧食局每年都會進(jìn)行的重要工作[1]。對范圍內(nèi)糧食作物的種植面積、產(chǎn)量等進(jìn)行監(jiān)測,獲取調(diào)查年度內(nèi)各樣本點(diǎn)種植用地上分品種糧食作物的種植面積和單產(chǎn)情況,農(nóng)作物產(chǎn)量估測不僅可以更好地實(shí)現(xiàn)糧食調(diào)度,平衡糧食市場價格,同時也能有效地調(diào)整農(nóng)業(yè)結(jié)構(gòu),增加農(nóng)民收入。
農(nóng)作物產(chǎn)量估測是確保糧食安全的前提和基礎(chǔ),關(guān)于這方面的研究已經(jīng)很多。如張卓[2]等基于氮肥施用條件冬小麥氣體交換和高光譜田間試驗(yàn),獲取不同葉位葉片的最大凈光合速率,PSⅡ有效光化學(xué)量子產(chǎn)量,光化學(xué)猝滅系數(shù)和高光譜反射率,并對原始高光譜進(jìn)行倒數(shù),對數(shù)和一階微分變換。根據(jù)3種光合參數(shù)和4種光譜的相關(guān)性分析結(jié)果,篩選顯著性水平優(yōu)于0.01的波段作為輸入變量,采用偏最小二乘,支持向量機(jī),多元線性回歸和人工神經(jīng)網(wǎng)絡(luò)等方法建立冬小麥葉片光合參量反演模型,以建模和驗(yàn)證的決定系數(shù)和均方根誤差為依據(jù),對不同模型的模擬精度進(jìn)行比較分析。郭霞霞[3]等通過線性回歸模型利用菜花三維模型特征屬性得到菜花重量的方法。利用Kinect獲得菜花三維模型,再通過獲取的菜花三維模型的長、寬、高、最大橫截面積和體積等屬性建立重量預(yù)測模型。引用相對誤差、決策系數(shù)作為模型預(yù)測精度的評價指標(biāo),對線性回歸模型正則化得到的嶺回歸,LASSO模型進(jìn)行比較分析。韓文霆[4]等利用自主研發(fā)的多旋翼無人機(jī)多光譜遙感平臺,對夏玉米進(jìn)行多時相的遙感監(jiān)測。采用牛頓-梯形積分和最小二乘法,構(gòu)建了基于多種植被指數(shù)和多種生育期對應(yīng)的夏玉米實(shí)測產(chǎn)量的6種線性模型,并采用閾值濾波法減少土壤噪聲對模型精度的影響。
本研究結(jié)合前人經(jīng)驗(yàn),在基于多元回歸分析的基礎(chǔ)上構(gòu)建農(nóng)作物產(chǎn)量估測模型。該模型分為3部分,首先利用灰度模型找出影響農(nóng)作物產(chǎn)量的主要因素,然后以此作為輸入,建立多元回歸方程,最后進(jìn)行實(shí)例分析,證明該模型的有效性。
中國是人口大國,每年對糧食的需求量都很大,因此農(nóng)作物種植成為中國生存和發(fā)展的根本。中國糧食種類多,種植面積廣,但是分布并不均勻,總體呈現(xiàn)南多北少、東多西少的分布局勢[5]。在此情況下,為保證糧食安全和穩(wěn)定,糧食需要進(jìn)行調(diào)度,以維持糧食不足地區(qū)的糧食供給?;诖?,進(jìn)行農(nóng)作物產(chǎn)量估測是十分重要的。本研究結(jié)合多元回歸分析模型,進(jìn)行農(nóng)作物產(chǎn)量估測模型構(gòu)建。
受到主觀、客觀等眾多不確定因素的影響,農(nóng)作物產(chǎn)量并不是完全固定不變的,因此為了提高后期多元回歸建模的準(zhǔn)確性,通過灰度關(guān)聯(lián)分析影響農(nóng)作物產(chǎn)量的主導(dǎo)因素[6]。
灰度關(guān)聯(lián)分析是通過度量指標(biāo)之間的灰色關(guān)聯(lián)度,以此來判斷因素之間關(guān)系強(qiáng)弱、大小以及次序的一種方法[7]。該方法基本流程如下。
步驟1:根據(jù)研究主題(農(nóng)作物產(chǎn)量預(yù)測)收集資料,確定指標(biāo)因素。
步驟2:對指標(biāo)因素進(jìn)行清洗和約簡,提高指標(biāo)質(zhì)量。
步驟3:將指標(biāo)因素進(jìn)行重新排列組合,組成具有n個數(shù)據(jù)序列的矩陣形式。矩陣形式見公式(1)。
式(1)中,m為指標(biāo)的個數(shù)。
步驟4:基于上述公式(1)建立所要分析的數(shù)據(jù)序列,包括一個母序列(參考數(shù)列)和若干個子序列(比較數(shù)列)。其中,前者是一個理想化的標(biāo)準(zhǔn)數(shù)據(jù)序列,所有子序列都需要以其作為標(biāo)準(zhǔn),進(jìn)行對比[8]。母序列由于是理想序列,因此選取的組成因素需要具有明顯的特征,一般選取因素最優(yōu)值或最劣值組成,其形式見公式(2)。
后者若干個子數(shù)列是由實(shí)際選出的指標(biāo)因素構(gòu)成的數(shù)列,見公式(3)。
步驟5:指標(biāo)因素?zé)o量綱化處理。不同的指標(biāo)因素所攜帶的量綱單位不同,而不同量綱單位的指標(biāo)因素是無法進(jìn)行比較運(yùn)算的,因此需要對指標(biāo)因素進(jìn)行無量綱化處理[9]。常用的無量綱化方法有初值化法和均值化法,初值化法見公式(4),均值化法見公式(5)。
無量綱化后的數(shù)據(jù)序列見公式(6)。
步驟6:將上述公式(3)若干個子數(shù)列與公式(2)母序列進(jìn)行一一對比,然后計算二者之間差值,最后對差值進(jìn)行絕對化,得到公式(7)。
式中,i=1,2,...,n,k=1,2,...,m,p為絕對差值;n為被評價對象的個數(shù)[10]。
步驟7:基于上述步驟,選出p的最大值和p的最小值,見公式(8)和公式(9)。
步驟8:根據(jù)p的最大值和p的最小值,計算子數(shù)列和目數(shù)列中每個對應(yīng)指標(biāo)因素的關(guān)聯(lián)系數(shù)fi(k),見公式(10)。
式中,q為分辨系數(shù),0<q<1,一般情況下,取中間值0.5。
步驟9:根據(jù)計算出來的每個對應(yīng)指標(biāo)因素的關(guān)聯(lián)系數(shù),計算數(shù)列整體之間的關(guān)聯(lián)度,即計算所有對應(yīng)指標(biāo)因素關(guān)聯(lián)系數(shù)的平均值e0i[11]。見公式(11)。
每個指標(biāo)因素對農(nóng)作物產(chǎn)量影響程度不同,可以通過賦予權(quán)重的方法來調(diào)節(jié)[12],見公式(12)。
式中,wk是各指標(biāo)權(quán)重。
步驟10:關(guān)聯(lián)度排序。根據(jù)上述步驟計算出來的關(guān)聯(lián)度值進(jìn)行大小排序,然后選取聯(lián)度值前z個指標(biāo)因素作為農(nóng)作物產(chǎn)量影響的主導(dǎo)因素[13]。
回歸分析的作用是通過輸入自變量來預(yù)測因變量[14]?;貧w分析有很多種,其中多元回歸是最常用的一種。多元回歸,顧名思義,存在多個自變量,即解釋多個自變量與因變量質(zhì)量的線性關(guān)系[15]。多元回歸模型一般表達(dá)式見公式(13)。
多元線性樣本回歸方程見公式(14)。
式中,Y為因變量;X1,X2,...,Xk為自變量;β0,β1,β2,...,βk為回歸系數(shù);e為誤差項[16]。
基于1.1中灰度關(guān)聯(lián)分析,得到10個因素對農(nóng)作物產(chǎn)量影響最大,其中X1、X2、X3為自然影響因素,X4~X10為人為影響因素,由此建立農(nóng)作物產(chǎn)量的多元線性回歸估測模型[17],見公式(15)。
式中,Y為農(nóng)作物產(chǎn)量;X1代表溫度;X2代表播種面積;X3代表受災(zāi)面積;X4代表降水量;X5代表農(nóng)用塑料薄膜;X6代表農(nóng)村用電量;X7代表農(nóng)業(yè)機(jī)械總動力;X8代表農(nóng)業(yè)勞動力;X9代表農(nóng)藥施用量;X10代表化肥施用量。β0,β1,β2,…βk,為待定的回歸系數(shù),可以選擇普通最小二乘估計方法來確定[18]。
在確定下來回歸系數(shù)后,就可以列出相應(yīng)的回歸方程,接著進(jìn)入多元回歸模型的檢驗(yàn)環(huán)節(jié)[19-20]。通過檢驗(yàn)來判定估計值是否可靠?;貧w模型的檢驗(yàn)主要包括3個方面,3種檢驗(yàn)對比如下表1所示。
表1 多元回歸模型檢驗(yàn)表
為測試所構(gòu)建的基于多元回歸分析的農(nóng)作物產(chǎn)量估測模型的有效性,在MATLAB 2015b平臺上進(jìn)行仿真實(shí)驗(yàn)分析。
中國農(nóng)作物種類眾多,其中玉米在中國分布最廣。玉米對環(huán)境的要求性不高,適應(yīng)性很強(qiáng),且種植成本低廉,因此在全國各地都有種植,但是分布并不均勻,主要集中在東北、華北和西南地區(qū),如下圖1所示。
圖1 中國玉米產(chǎn)區(qū)分布圖
在圖1各個玉米種植區(qū)中,北方是玉米的主要產(chǎn)地之一,因此在本研究中選擇其中3個省作為研究區(qū),以這3省玉米歷年產(chǎn)量數(shù)據(jù)為基礎(chǔ),對未來玉米產(chǎn)量進(jìn)行估算。
從《中國統(tǒng)計年鑒》《東北統(tǒng)計年鑒》中調(diào)取2007—2016年東北3個省農(nóng)作物產(chǎn)量信息,得到數(shù)據(jù)如下表2所示。
表2 2007—2016年東北3個省農(nóng)作物產(chǎn)量
利用灰度關(guān)聯(lián)分析方法計算影響東北3個省農(nóng)作物產(chǎn)量各因素的關(guān)聯(lián)度。根據(jù)關(guān)聯(lián)度,得到10個因素對農(nóng)作物產(chǎn)量影響最大,其中X1、X2、X3為自然影響因素,X4~X10為人為影響因素。各影響因素數(shù)據(jù)如下表3和表4所示。
表3 農(nóng)作物產(chǎn)量影響因素-自然影響因素表
表4 農(nóng)作物產(chǎn)量影響因素-人為影響因素表
基于上述表3和表4數(shù)據(jù),利用統(tǒng)計軟件SPSS20.0計算得到回歸方程回歸系數(shù),并進(jìn)行檢驗(yàn),得到檢驗(yàn)結(jié)果,如下表5所示。
表5 回歸系數(shù)及其模型檢驗(yàn)結(jié)果
由表5,建立玉米產(chǎn)量的多元線性回歸估測模型,見公式(16)。
利用建立好的農(nóng)作物產(chǎn)量的多元線性回歸估測模型,對2017—2019年3年間的東北3個省玉米總產(chǎn)量進(jìn)行估測,并與實(shí)際值進(jìn)行對比。實(shí)際值來自《中國統(tǒng)計年鑒》、《東北統(tǒng)計年鑒》。結(jié)果如下表6所示。
表6 估測準(zhǔn)確性檢驗(yàn)結(jié)果
從表6中可以看出,所構(gòu)建的基于多元回歸分析的估測模型所預(yù)測出的東北3個省玉米總產(chǎn)量與實(shí)際產(chǎn)量之間的誤差均小于1%,說明該模型的估測準(zhǔn)確性較高,具有廣泛的應(yīng)用前景。
綜上所述,糧食是維持一個國家安定和發(fā)展的基礎(chǔ)。中國作為國土面積位居世界第三的國家,農(nóng)作物種植范圍廣泛,因此糧食產(chǎn)量巨大。在此背景下,為保證糧食安全,平衡糧食市場價格,對農(nóng)作物的產(chǎn)量進(jìn)行估測具有重要的現(xiàn)實(shí)意義。為此,結(jié)合多元回歸分析方法,建立農(nóng)作物產(chǎn)量估測模型。該模型通過灰度關(guān)聯(lián)分析確定的影響農(nóng)作物產(chǎn)量的主要因素,并以此作為多元回歸估測模型的輸入,得出預(yù)測結(jié)果。通過仿真實(shí)驗(yàn),該模型的估測精度得到的了驗(yàn)證,因此具有廣泛的應(yīng)用前景。然而,本研究還是存在一定的不足,有一些突發(fā)事件的發(fā)生,因此在構(gòu)建的模型中還要引入那些模糊因子,進(jìn)一步提高估算模型的精度。