崔日鮮,劉亞東,付金東
1. 青島農(nóng)業(yè)大學(xué)農(nóng)學(xué)與植物保護(hù)學(xué)院/山東省旱作農(nóng)業(yè)技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 青島 266109 2. 中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,北京 100081
基于機(jī)器學(xué)習(xí)和可見光光譜的冬小麥葉片氮積累量估算
崔日鮮1,劉亞東1,付金東2*
1. 青島農(nóng)業(yè)大學(xué)農(nóng)學(xué)與植物保護(hù)學(xué)院/山東省旱作農(nóng)業(yè)技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 青島 266109 2. 中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,北京 100081
在拔節(jié)期分4次采集了6個施氮水平下的冬小麥冠層圖像,同步進(jìn)行取樣并以凱氏定氮法測定葉片含氮量,進(jìn)而計算葉片氮積累量。利用隨機(jī)森林算法分割冠層圖像之后提取冠層覆蓋度、可見光波段(R, G和B)三個分量及其衍生的5個色彩指數(shù)。以冠層覆蓋度外加色彩指數(shù)、色彩分量的兩種非線性回歸,以及人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸、隨機(jī)森林3種機(jī)器學(xué)習(xí)算法建立了冬小麥葉片氮積累量的估算模型。結(jié)果表明利用色彩指數(shù)的非線性回歸模型的估算精度稍低于其他方法,而隨機(jī)森林算法的擬合精度最高,但存在明顯的過擬合現(xiàn)象。其他三種方法,即以冠層覆蓋度及色彩分量為輸入變量的非線性回歸、支持向量回歸和人工神經(jīng)網(wǎng)絡(luò)方法,均具有較高的擬合精度和泛化性能。
冬小麥; 機(jī)器學(xué)習(xí); 可見光; 色彩指數(shù); 冠層覆蓋度; 葉片氮積累量
適量增施氮肥能提高作物產(chǎn)量及品質(zhì),而過量施氮會造成產(chǎn)量及品質(zhì)的下降,同時由于更多的氮素進(jìn)入大氣、水體會加劇氣候變暖和水體富營養(yǎng)化。Rockstr?m等[1]指出全球氮循環(huán)通量已經(jīng)遠(yuǎn)超其安全邊界,其中很大一部分來源于農(nóng)業(yè)生產(chǎn)消耗。獲取作物營養(yǎng)狀態(tài)是精準(zhǔn)農(nóng)業(yè)進(jìn)行施肥管理的關(guān)鍵步驟。傳統(tǒng)的植物組織分析法需要進(jìn)行破壞性取樣和大量的實(shí)驗(yàn)室分析?;诠庾V學(xué)原理的地面遙感技術(shù)中,葉綠素計(SPAD儀)的測量面積較小,且對過量施肥不敏感,而GreenSeeker和Yara N-sensor等則對氮飽和狀態(tài)不敏感,而且價格較高[2]?;谧魑锕趯痈吖庾V反射率的航空、衛(wèi)星遙感技術(shù)則適合于大尺度的作物長勢和氮素營養(yǎng)狀態(tài)監(jiān)測。
近年來,數(shù)碼相機(jī)作為可見光光譜地面遙感工具的一種,因其高效、經(jīng)濟(jì)等特點(diǎn),被廣泛應(yīng)用于作物生長狀況監(jiān)測研究領(lǐng)域。Lee等[3]利用逐步回歸方法擬合了基于冠層覆蓋度和色彩指數(shù)的水稻地上部氮積累量估算模型,表現(xiàn)出較高的估算精度。Li等[4]和Jia等[5]分別發(fā)現(xiàn)小麥、棉花冠層中提取的冠層覆蓋度與從GreenSeeker和Yara N-sensor遙感器獲取的歸一化差異植被指數(shù)NDVI顯著相關(guān),與地上部氮素含量呈非線性相關(guān)。Tewari等[6]利用水稻冠層圖像提取的多個色彩指數(shù)分別擬合了地上部含氮量的非線性回歸方程。張立周等[7]發(fā)現(xiàn)六葉期夏玉米多個冠層圖像指數(shù)與葉片全氮含量存在極顯著相關(guān)關(guān)系。陳積山等[8]研究得出苜?,F(xiàn)蕾期冠層圖像的綠光值與葉片SPAD值、植株全氮量呈極顯著相關(guān)。多數(shù)研究利用冠層圖像的可見光波段R,G,B分量構(gòu)建色彩指數(shù),然后與葉片SPAD值、地上部氮含量、氮積累量等擬合回歸方程并從中選擇最敏感的色彩指數(shù)。
隨著計算機(jī)的計算能力提升和數(shù)據(jù)挖掘技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)方法在作物農(nóng)學(xué)參數(shù)反演研究中的應(yīng)用逐漸增多[9-13]。王大成等[10]和夏天等[11]利用高光譜數(shù)據(jù)分別比較了傳統(tǒng)回歸模型與人工神經(jīng)網(wǎng)絡(luò)估算生物量和葉面積指數(shù)的效果,發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)較回歸分析顯著提高了估算精度。梁亮等[12]和梁棟等[13]分別利用支持向量回歸方法實(shí)現(xiàn)了小麥冠層葉綠素含量、葉面積指數(shù)的遙感反演。前人大多利用機(jī)器學(xué)習(xí)方法進(jìn)行作物農(nóng)學(xué)參數(shù)的高光譜反演,而基于作物冠層圖像R,G,B分量和色彩指數(shù)的農(nóng)學(xué)參數(shù)估算方面的研究報道較少。另外,有關(guān)機(jī)器學(xué)習(xí)算法,如人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸、隨機(jī)森林算法等的泛化性能方面的報道也較少。
以冬小麥為研究對象,利用拔節(jié)期葉片氮積累量和由同步采集的冠層圖像獲取的冠層覆蓋度、色彩分量及色彩指數(shù)的相關(guān)性,以非線性回歸方法、人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸和隨即森林算法分別建立冬小麥拔節(jié)期葉片氮積累量的估算模型,并比較估算精度及泛化性能,以期為基于冠層圖像分析的冬小麥及其他作物長勢監(jiān)測提供理論依據(jù)和方法上的借鑒。
1.1 田間試驗(yàn)
試驗(yàn)于2013年10月—2014年5月在青島農(nóng)業(yè)大學(xué)科技示范園試驗(yàn)站進(jìn)行,試驗(yàn)站位于青島市膠萊鎮(zhèn)。試驗(yàn)地土壤有機(jī)質(zhì)含量15.2 g·kg-1,堿解氮72.67 mg·kg-1,有效磷26.38 mg·kg-1,有效鉀116.95 mg·kg-1。供試品種為濟(jì)麥22; 試驗(yàn)設(shè)6個施氮水平,分別為0,60,120,180,240,300 kg N·hm-2。磷肥、鉀肥施用量分別為100 kg·hm-2P2O5和120 kg·hm-2K2O,氮、磷、鉀肥全部用作基肥施入。小麥行距18 cm,基本苗3.5×106·hm-2。小區(qū)面積為80 m2(10 m×8 m),隨機(jī)區(qū)組設(shè)計,重復(fù)3次。
1.2 測定項(xiàng)目
分別在2014年3月27日、4月6日、4月13日、4月20日進(jìn)行四次田間取樣。將樣本按莖、葉部位分開,并于105 ℃下殺青30 min后于72 ℃下烘干至恒重,稱葉片干重后粉碎,用凱氏定氮法測定葉片含氮量,進(jìn)而計算葉片氮積累量(leaf nitrogen accumulation,LNA)。
1.3 小麥冠層圖像采集與分割
1.3.1 小麥冠層圖像采集
田間取樣前,用數(shù)碼相機(jī)(佳能60D)拍攝小麥冠層圖像,拍攝時間為11: 00—13: 00。設(shè)定相機(jī)ISO感光度為400,采用自動曝光模式,自動白平衡,多點(diǎn)自動對焦。拍攝時將自制的72.5 cm×45 cm的方格置于小麥冠層頂部,方格內(nèi)有4行小麥(見圖1),相機(jī)垂直于地面,距冬小麥冠層頂部約1 m,取景范圍對準(zhǔn)方格。用遮陽傘遮住直射太陽光以保證取景框內(nèi)小麥冠層受光均勻。圖像記錄像素設(shè)置為S-RAW,約450萬(2 592×1 728),以RAW格式存儲,共72張。圖像每個像素點(diǎn)的亮度值是以14位存儲的,對它的解碼采用dcraw v9.22軟件[14],設(shè)定如下選項(xiàng): 白平衡采用拍攝時設(shè)置的自動白平衡; 去馬賽克采用AHD算法; RGB值轉(zhuǎn)換為sRGB色彩空間并以16位TIFF格式保存。
1.3.2 小麥冠層圖像分割
圖像的分割采用隨機(jī)森林算法。從圖像中復(fù)制并拼接出兩張400×400像素的小麥和土壤圖像,讀取其紅光亮度值(R,redness intensity)、綠光亮度值(G,greenness intensity)、藍(lán)光亮度值(B,blueness intensity)分量并轉(zhuǎn)換為CIEL*a*b*色彩空間的L*,a*,b*值,將其作為自變量用R軟件中的RandomForest包[15]訓(xùn)練一個含100棵分類樹的隨機(jī)森林對圖像進(jìn)行分割,其分割效果見圖1。
1.3.3 冠層圖像色彩指數(shù)
分割后的圖像中提取冠層覆蓋度(CC, Canopy Cover)及小麥所占像素R,G,B分量平均值,然后計算表1中所示的各指數(shù)。方便起見,將R,G,B分量稱為色彩分量,由R,G,B分量所構(gòu)造的各個指數(shù)稱為色彩指數(shù)。
圖1 冬小麥冠層數(shù)碼圖像及分割后的冬小麥圖像
(a): 處理N120的冠層圖像,拍攝時間為3月27日; (a’): (a)圖像的冬小麥分割圖像; (b): 處理N180的冠層圖像,拍攝時間為4月6日; (b’): (b)圖像的冬小麥分割圖像
Fig.1 Digital camera images of winter wheat canopy,and segmented winter wheat plant images
(a): Image of treatment N120 taken on March 27; (a’): Segmented image of the image (a); (b): Image of treatment N180 taken on April 6; (b’): Segmented image of the image (b)
表1 冠層覆蓋及色彩指數(shù)的計算方法
1.4 模型的構(gòu)建
共獲取72組數(shù)據(jù),其中,剔除1組明顯離群點(diǎn)數(shù)據(jù)后,根據(jù)葉片氮積累量分層選取21組數(shù)據(jù)用于模型驗(yàn)證,其余50組數(shù)據(jù)用于模型構(gòu)建。模型的構(gòu)建利用R軟件中的caret包進(jìn)行。caret 包提供了一個統(tǒng)一的接口,在模型訓(xùn)練時可以調(diào)用對應(yīng)的函數(shù)包,同時具有數(shù)據(jù)預(yù)處理、模型參數(shù)優(yōu)選、變量重要性估計等功能[20]。為驗(yàn)證模型的泛化性能,訓(xùn)練時分別對模型參數(shù)的各個候選值進(jìn)行20次5折交叉驗(yàn)證,具體為,首先將數(shù)據(jù)集等分為5個子集,將其中的4/5作為訓(xùn)練集,1/5作為測試集,重復(fù)20次,記錄共100次測試的均方根誤差數(shù)據(jù)。最后選擇平均均方根誤差最小的待選值作為模型參數(shù)擬合全部的數(shù)據(jù)集。利用擬合模型的均方根誤差(RMSE)、相對均方根誤差(RRMSE)及決定系數(shù)(R2)的大小來評估模型擬合程度,模型的交叉驗(yàn)證及外部測試的均方根誤差評估模型的泛化性能。
1.4.1 非線性回歸
選用高斯-牛頓法[21]進(jìn)行非線性最小二乘回歸,該法通過多次迭代來修正模型回歸系數(shù)使殘差平方和達(dá)到最小。利用不同的自變量擬合兩個系列非線性回歸模型,各參數(shù)的初始值均由線性變換后最小二乘回歸的回歸系數(shù)計算得到。兩個系列非線性回歸模型為: (1)色彩指數(shù)回歸: 所構(gòu)造的色彩指數(shù)包含2個或3個可見光波段(R,G,B色彩分量)的信息,將其分別與冠層覆蓋度CC一起作為5個自變量組合; (2)色彩分量回歸: 將R,G,B色彩分量與冠層覆蓋度CC作為自變量,先用最優(yōu)子集法進(jìn)行變量選擇以消除自變量間的共線性,選擇調(diào)整R2最大的組合CC,G,B進(jìn)行非線性最小二乘擬合(NLS)。
1.4.2 機(jī)器學(xué)習(xí)算法
共采用三種不同的機(jī)器學(xué)習(xí)算法,分別為人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸、隨機(jī)森林進(jìn)行擬合。建模時直接用CC,R,G,B作為自變量。
人工神經(jīng)網(wǎng)絡(luò)通常含輸入層、一個或多個隱含層和輸出層。通過把輸入層的值加權(quán)平均傳送到隱含層,由輸出層輸出,然后將誤差反向傳播以修正權(quán)重,如此反復(fù)進(jìn)行直至誤差在可接受范圍內(nèi),從而實(shí)現(xiàn)變量的分類或回歸。利用caret調(diào)用nnet包[22]訓(xùn)練單隱含層人工神經(jīng)網(wǎng)絡(luò)(ANN)。設(shè)定最大迭代次數(shù)為1 000,為避免過擬合采用權(quán)重衰減方法,權(quán)值衰減常量和隱含層神經(jīng)元數(shù)通過交叉驗(yàn)證確定,候選值分別設(shè)為{0.002,0.003,0.004,0.005,0.006},{1,2,3,4,5}。
支持向量機(jī)通過引入核函數(shù)將變量映射到高維空間可以實(shí)現(xiàn)非線性分類和回歸。調(diào)用kernlab包[23]訓(xùn)練支持向量回歸機(jī)(SVR)。訓(xùn)練前對自變量進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,使其均值為0,方差為1。核函數(shù)選用多項(xiàng)式函數(shù), 其中offset設(shè)為1。參數(shù)degree、scale以及懲罰系數(shù)cost通過交叉驗(yàn)證確定,候選值分別為{1,2,3},{0.001,0.01,0.1},{0.25,0.5,1}。
隨機(jī)森林算法[24-25]是Leo Breiman和Adele Cutler在2001年提出的,可用于分類和回歸,比它以前所有的方法都精確[26]。隨機(jī)森林用于回歸時用戶自行設(shè)定回歸樹數(shù)目n,用bootstrap重抽樣法從訓(xùn)練集中抽取n個樣本,每個樣本訓(xùn)練出一棵回歸樹,在回歸樹的每個節(jié)點(diǎn)從m個(小于自變量個數(shù))隨機(jī)抽取的自變量中選擇分割點(diǎn)對變量空間進(jìn)行遞歸二叉分割。訓(xùn)練好的模型用于預(yù)測時,每棵回歸樹單獨(dú)進(jìn)行預(yù)測,以n個預(yù)測值的平均值作為最終結(jié)果。調(diào)用RandomForest包[15]訓(xùn)練隨機(jī)森林(RF)?;貧w樹數(shù)目n設(shè)為500。m通過交叉驗(yàn)證確定,候選值設(shè)為{1,2,3}。
2.1 冬小麥拔節(jié)期葉片氮積累量與冠層覆蓋度、色彩參數(shù)的相關(guān)性分析
表2為冬小麥拔節(jié)期葉片氮積累量與冠層覆蓋度等變量的相關(guān)分析結(jié)果。由表2可知: 拔節(jié)期葉片氮積累量與冠層覆蓋度(CC)呈極顯著正相關(guān); 與可見光波段的紅光亮度值(R)、綠光亮度值(G)呈極顯著負(fù)相關(guān),而與藍(lán)光亮度值(B)呈正相關(guān),但未達(dá)到顯著水平; 葉片氮積累量與冠層圖像色彩指數(shù)間均呈極顯著相關(guān),其中,與差值指數(shù)(GMR)、比值指數(shù)(GTR)和歸一化差值指數(shù)(NDI)呈正相關(guān),而與過綠化指數(shù)(GTR)和標(biāo)準(zhǔn)化綠光指數(shù)(g)呈負(fù)相關(guān)。相關(guān)程度來看,與CC的相關(guān)性最高,相關(guān)系數(shù)為0.889; 與R,G,GTR,EXG和NDI的相關(guān)系數(shù)也均大于0.55,達(dá)到極顯著水平。上述結(jié)果表明,由冠層圖像分析獲取的CC,R,NDI,EXG等能較準(zhǔn)確地反映冬小麥拔節(jié)期葉片氮積累量的變化,即,以冠層覆蓋度等為自變量的冬小麥拔節(jié)期葉片氮積累量估算模型的構(gòu)建具有一定的可行性。
表2 葉片氮積累量與冠層覆蓋度、色彩分量和色彩指數(shù)的相關(guān)系數(shù)
**: Significant at 0.01 level
2.2 葉片氮積累量估算模型的構(gòu)建及驗(yàn)證
表3為以冠層覆蓋度和色彩指數(shù)及色彩分量為自變量的非線性回歸模型的構(gòu)建、交叉驗(yàn)證及模型驗(yàn)證結(jié)果。由表3可知,模型構(gòu)建和交叉驗(yàn)證的決定系數(shù)均大于0.85,模型驗(yàn)證的決定系數(shù)也均大于0.75,說明基于冠層覆蓋度及色彩分量、色彩指數(shù)的非線性回歸模型能準(zhǔn)確地估算拔節(jié)期葉片氮積累量。六種非線性回歸估算模型中,基于冠層覆蓋度及可見光波段G和B分量的估算模型的估算精度稍高于基于冠層覆蓋度及五種色彩指數(shù)的估算模型的估算精度。這可能與本研究中色彩指數(shù)的計算是由分割后的冠層圖像色彩分量有關(guān),色彩指數(shù)的構(gòu)建有消除背景影響及突出特定(目標(biāo))信息方面的考慮[27],而本研究的圖像色彩指數(shù)是由分割后的小麥圖像可見光波段R,G,B分量計算得到,即已經(jīng)排除了土壤背景的影響。
以冠層覆蓋度CC和可見光R,G,B色彩分量作為自變量,采用三種機(jī)器學(xué)習(xí)算法,即人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量回歸(SVR)和隨機(jī)森林算法(RF)構(gòu)建冬小麥拔節(jié)期葉片氮積累量的估算模型。通過交叉驗(yàn)證確定的人工神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元個數(shù)為2,支持向量回歸的degree,scale及懲罰系數(shù)cost的組合為{3,0.1,1},隨機(jī)森林的m值為3。表4為模型構(gòu)建、交叉驗(yàn)證及外部測試的結(jié)果,為便于比較將估算精度最高的非線性回歸(NLS)模型的結(jié)果也列于表4。圖2為四種估算模型的交叉驗(yàn)證RMSE的密度曲線,圖3為四種模型的預(yù)測值與實(shí)測值的1∶1關(guān)系圖。
由表4可知,基于隨機(jī)森林算法的估算模型RMSE和RRMSE最小,R2最大,但其交叉驗(yàn)證和外部測試的RMSE和RRMSE最大,R2最小,表明基于隨機(jī)森林算法的估算模型的構(gòu)建存在過擬合現(xiàn)象。四種估算模型交叉驗(yàn)證RMSE的密度曲線(圖2)也反映了這一特征,即隨機(jī)森林算法交叉驗(yàn)證RMSE的分布較其他三種相比明顯在右側(cè)。
表3 基于非線性回歸的葉片氮積累量估算模型的建立、交叉驗(yàn)證及模型驗(yàn)證結(jié)果
表4 基于非線性回歸和機(jī)器學(xué)習(xí)算法的葉片氮積累量估算模型的建立、交叉驗(yàn)證及模型驗(yàn)證結(jié)果
圖2 基于非線性回歸和機(jī)器學(xué)習(xí)算法的葉片氮積累量估算模型的交叉驗(yàn)證均方根誤差的相對頻率
Fig.2 Relative frequency of root mean square error (RMSE) of cross-validation for the methods of NLS, ANN, SVR, and RF
其他三種估算模型(NLS,ANN和SVR)的模型構(gòu)建及交叉驗(yàn)證方面,基于ANN的估算模型建模集的RMSE和RRMSE最小,R2最大; NLS的交叉驗(yàn)證RMSE最小,R2最大; 基于SVR估算模型的交叉驗(yàn)證RMSE,R2最大,但三種方法間的差異較小。模型驗(yàn)證方面,由表4的模型驗(yàn)證結(jié)果和1∶1關(guān)系圖(圖3)可知,基于SVR的模型驗(yàn)證的RMSE、RRMSE最小,決定系數(shù)最大,但三種方法的差異也較小。模型擬合、交叉驗(yàn)證和模型驗(yàn)證結(jié)果表明三種方法(NLS, ANN和SVR)均具有較高的估算精度和泛化性能。另外,機(jī)器學(xué)習(xí)算法的部分參數(shù)支持自行調(diào)試以獲得更好的估算效果,本研究中的部分參數(shù)采用了軟件默認(rèn)值,因此ANN和SVR的估算精度還有提升的空間。
(1)冬小麥拔節(jié)期葉片氮積累量與由冠層數(shù)碼圖像分析獲取的冠層覆蓋度及部分色彩分量、色彩指數(shù)呈顯著相關(guān),其中與冠層覆蓋度的相關(guān)性最強(qiáng)。
圖3 基于非線性回歸和機(jī)器學(xué)習(xí)算法的葉片氮積累量估算模型的預(yù)測值與實(shí)測值之間的關(guān)系
Fig.3 Relationship between predicted leaf nitrogen accumulation based on the methods of NLS with CC, G,and B, ANN, SVR, and RF and measured leaf nitrogen accumulation during elongation stage
(2)基于冠層覆蓋度及色彩分量的非線性估算模型較基于冠層覆蓋度及色彩指數(shù)的非線性估算模型具有更高的估算精度,且兩種方法均具有較高的泛化性能。
(3)基于隨機(jī)森林算法的葉片氮積累量的估算存在明顯的過擬合現(xiàn)象; 基于NLS,ANN和SVR的葉片氮積累量的估算均具有較高的估算精度和泛化性能,均可用來構(gòu)建基于冠層覆蓋度和色彩分量的拔節(jié)期冬小麥葉片氮積累量的估算模型,或反演拔節(jié)期冬小麥葉片氮積累量。
線性回歸模型中,利用變量選擇方法在一定程度上能消除變量間的多重共線性,從而獲得較為穩(wěn)定的回歸方程,但同時也會損失部分信息。這些是在處理高維數(shù)據(jù)時所采取的折中的辦法,而現(xiàn)代數(shù)據(jù)挖掘的很多算法能應(yīng)對高維數(shù)據(jù)的非線性擬合問題,與傳統(tǒng)方法相比具有相近或者更高的精度,而且魯棒性也很強(qiáng),不必對變量進(jìn)行組合或剔除。但其缺點(diǎn)是有些機(jī)器算法無法生成顯性的數(shù)學(xué)方程或規(guī)則,而是將變量之間的關(guān)系直接體現(xiàn)在算法當(dāng)中,因此模型的可解釋性較弱[9]。
[1] Rockst?m J, Steffen W, Noone K, et al. Ecology & Society, 2009, 14(2): 32.
[2] Mu?oz-Huerta R F, Guevara-Gonzalez R G, Contreras-Medina L M, et al. Sensors, 2013, 13(8): 10823.
[3] Lee K J, Lee B W. European Journal of Agronomy, 2013, 48: 57.
[4] Li Y, Chen D, Walker C N, et al. Field Crops Research, 2010, 118(3): 221.
[5] Jia B, He H, Ma F, et al. The Scientific World Journal, 2014. 2014: doi: 10.1155/2014/602647.
[6] Tewari V K, Arudra A K, Kumar S P, et al. Agricultural Engineering International: CIGR Journal, 2013, 15(2): 78.
[7] ZHANG Li-zhou, WANG Dian-wu, ZHANG Yu-ming, et al(張立周, 王殿武, 張玉銘, 等). Chinese Journal of Eco-Agriculture(中國生態(tài)農(nóng)業(yè)學(xué)報), 2010, 18 (6): 1340.
[8] CHEN Ji-shan, ZHU Rui-fen, GAO Chao, et al(陳積山, 朱瑞芬, 高 超, 等). Acta Agrestia Sinica(草地學(xué)報), 2013, 21(3): 576.
[9] Breiman L. Statistical Science, 2001, 16(3): 199.
[10] WANG Da-cheng, WANG Ji-hua, JIN Ning, et al(王大成,王紀(jì)華,靳 寧,等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報), 2008, 24(S2): 196.
[11] XIA Tian, WU Wen-bin, ZHOU Qing-bo, et al(夏 天,吳文斌,周清波,等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報), 2013, 29(3): 139.
[12] LIANG Liang, YANG Min-hua, ZHANG Lian-peng, et al(梁 亮,楊敏華,張連蓬,等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報), 2012, 28(20): 162,294.
[13] LIANG Dong, GUAN Qing-song, HUANG Wen-jiang, et al(梁 棟,管青松,黃文江,等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報), 2013, 29(7): 117.
[14] LI Feng, YIN Wei-wei(李 峰,印蔚蔚). Computer Engineering(計算機(jī)工程),2011,37(17): 211.
[15] Liaw A, Wiener M R. News, 2002, 2: 18.
[16] WANG Yuan, WANG De-jian, ZHANG Gang, et al(王 遠(yuǎn),王德建,張 剛,等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報),2012,28(17): 131.
[17] Adamsen F G, Pinter P J, Barnes E M, et al. Crop Science, 1999, 39(3): 719.
[18] Woebbecke D M, Meyer G E, Von Bargen K, et al. Transactions of the ASAE, 1995, 38(1): 259.
[19] ZHANG Li-zhou, HOU Xiao-yu, ZHANG Yu-ming, et al(張立周, 侯曉宇, 張玉銘, 等). Chinese Journal of Eco-Agriculture(中國生態(tài)農(nóng)業(yè)學(xué)報), 2011, 19(5): 1168.
[20] Kuhn M, Johnson K. Applied Predictive Modeling. New York: Springer, 2013.
[21] Ritz C, Streibig J C. Nonlinear regression with R. Springer, 2008.
[22] Venables W N, Ripley B D. Modern Applied Statistics with S. 4th ed. New York: Springer, 2002.
[23] Karatzoglou A, Smola Am, Hornik K, et al. Journal of Statistical Software, 2004, 11(9): 1.
[24] James G, Witten D, Hastie T, et al. An Introduction to Statistical Learning. New York: Springer, 2013.
[25] Hastie T, Tibshirani R, Friedman J, et al. The Elements of Statistical Learning. New York: Springer, 2009.
[26] WU Xi-zhi(吳喜之). Statistics(統(tǒng)計學(xué)). Beijing: Higher Education Press(北京: 高等教育出版社), 2008.
[27] LIU Ji-ping (劉吉平). Remote Sensing Principle and Remote Sensing Information Analysis(遙感原理及遙感信息分析基礎(chǔ)). Wuhan: Wuhan University Press(武漢: 武漢大學(xué)出版社), 2012.
(Received Apr. 2, 2015; accepted Aug. 18, 2015)
*Corresponding author
Estimation of Winter Wheat Leaf Nitrogen Accumulation using Machine Learning Algorithm and Visible Spectral
CUI Ri-xian1, LIU Ya-dong1, FU Jin-dong2*
1. College of Agronomy and Plant Protection, Qingdao Agricultural University, Shandong Provincial Key Laboratory of Dryland Farming Techniques, Qingdao 266109, China 2. Institute of Crop Science, Chinese Academy of Agricultural Sciences, Beijing 100081, China
In order to study the feasibility of using digital image analysis and machine learning algorithm to estimate leaf nitrogen accumulation (LNA) of winter wheat at canopy level, digital images of winter wheat canopies grown under six levels of nitrogen application rate were taken for four times during the elongation stage. Meanwhile, wheat plants were sampled to measure LNA. The random forest method using CIEL*a*b* components was used to segment wheat plant from soil background and then extract canopy cover, RGB components of sRGB color space and compute five color indices derived from RGB components. Correlation analysis was carried out to identify the relationship between LNA and canopy cover (CC), RGB components, and five color indices. Two kinds of nonlinear least squares regression models (NLS) with different independent variables of color components and color indices, and three machine learning algorithmic of artificial neural network (ANN), support vector regression (SVR), and random forests method (RF) were used to estimate winter wheat leaf nitrogen accumulation. All three machine learning algorithm had four input variables of CC, R, G, and B. The results showed that, CC, R and G component of sRGB color space, and five color indices derived from RGB components showed significant correlations with LNA during the elongation stage. CC revealed the highest correlation with LNA. The lowest accuracy in estimation LNA was achieved by using nonlinear least square model with CC and color indices, and RF had showed the problem of overfitting. The other three methods of LNA with CC and RGB components, ANN, and SVR had showed good performance with higherR2(0.851, 0.845, and 0.862) and lower RMSE (19.440, 19.820, and 18.698) for model calibration and validation, revealing good generalization ability.
Winter wheat; Machine learning algorithm; Visible spectrum; Color indices; Canopy cover; Leaf nitrogen accumulation
2015-04-02,
2015-08-18
農(nóng)業(yè)部(948)項(xiàng)目(2012-Z5)和山東省旱地作物水分高效利用科研創(chuàng)新團(tuán)隊(duì)項(xiàng)目資助
崔日鮮,1963年生,青島農(nóng)業(yè)大學(xué)農(nóng)學(xué)與植保學(xué)院博士 e-mail: chis@qau.edu.cn *通訊聯(lián)系人 e-mail: fujindong@caas.cn
S126; S512.1
A
10.3964/j.issn.1000-0593(2016)06-1837-06