李 莉 藍(lán) 天 趙奇慧 孟繁佳
(1.中國農(nóng)業(yè)大學(xué)農(nóng)業(yè)信息獲取技術(shù)農(nóng)業(yè)農(nóng)村部重點(diǎn)實(shí)驗(yàn)室, 北京 100083;2.中國農(nóng)業(yè)大學(xué)現(xiàn)代精細(xì)農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100083)
基質(zhì)栽培番茄的氮元素含量直接影響番茄生長狀況和果實(shí)品質(zhì)。番茄苗期、花期、果期3個(gè)時(shí)期的正常生長對氮元素含量有不同的需求[1-4]。其中花期最容易產(chǎn)生氮元素缺乏現(xiàn)象,原因是這一階段既需要完成第1花序開花坐果,又需要保證植株莖干和葉片生長以及第2、3花序開花,因此需要在花期進(jìn)行實(shí)時(shí)監(jiān)測以保障番茄的正常生長[5-10]。
通過葉綠素含量、葉片光譜數(shù)據(jù)等參數(shù)結(jié)合葉片顏色、形狀特征能很好地判別氮元素缺乏程度[11-18]。胡昊等[19]利用手持式GreenSeeker型作物傳感器和SPAD-502型葉綠素儀分析不同氮處理?xiàng)l件下冬小麥葉片SPAD和冠層NDVI,結(jié)果表明三者相關(guān)系數(shù)均很高。鄭一力等[20]采用波段為350~2 500 nm的地物光譜儀獲取金鑲玉竹葉片光譜數(shù)據(jù),對比4種估測模型校驗(yàn),結(jié)果表明在光譜反射率的對數(shù)一階微分變化下,采用拓?fù)浣Y(jié)構(gòu)為6-10-1的基于主成分分析的BP神經(jīng)網(wǎng)絡(luò)估測模型,校驗(yàn)環(huán)節(jié)決定系數(shù)為0.838,均方根誤差為0.045 2。王遠(yuǎn)等[21]利用數(shù)碼相機(jī)依據(jù)水稻數(shù)字圖像綠色通道和紅色通道差值設(shè)定閾值對圖像進(jìn)行分割,分割后圖像中提取的紅光標(biāo)準(zhǔn)化NRI與SPAD值、葉片含氮量相關(guān)系數(shù)達(dá)到-0.87和-0.65。基于光譜學(xué)判斷植物組織氮含量設(shè)備價(jià)格昂貴,測量過程易受環(huán)境光線因素制約。
CHEN等[22]基于靜態(tài)掃描技術(shù)獲取稻米葉片和鞘的圖像顏色和形狀特征,通過支持向量機(jī)(SVM)鑒定水稻氮含量4個(gè)不同生長階段準(zhǔn)確率分別為94%、98%、96%和100%,使用不同年份數(shù)據(jù)進(jìn)行驗(yàn)證,識別準(zhǔn)確率分別為88%、98%、90%和100%。提取的形狀特征雖然增加了識別準(zhǔn)確率,但是采集過程過于繁瑣且僅能在實(shí)驗(yàn)室環(huán)境采集。
上述研究只關(guān)注信息獲取和處理本身,并未考慮葉片本身生理特征對圖像信息的影響。經(jīng)研究發(fā)現(xiàn),春季育苗、夏季種植的番茄幼苗半數(shù)以上會(huì)在表面覆蓋有粘質(zhì)腺毛。若采取原有的顏色特征建模判別會(huì)降低模型準(zhǔn)確率。本文以溫室番茄葉片為研究對象,基于形狀特征和顏色特征采用隨機(jī)森林機(jī)器學(xué)習(xí)算法,開展番茄葉片氮含量差異分析,建立氮含量缺乏分級預(yù)測模型,以指導(dǎo)科學(xué)施肥。
2020年3—7月在中國農(nóng)業(yè)大學(xué)精細(xì)農(nóng)業(yè)研究中心的日光溫室進(jìn)行了番茄氮元素缺乏程度判別試驗(yàn)。所用氮肥為四水合硝酸鈣和硝酸鉀。采集不同氮離子濃度施肥策略下番茄葉片表面RGB圖像和SPAD-502型葉綠素儀測定的番茄葉片氮含量。
灌溉系統(tǒng)采用中國農(nóng)業(yè)大學(xué)日光溫室封閉式栽培水肥智能調(diào)控系統(tǒng)。利用JZH-0xx型集成傳感器采集溫室內(nèi)光照強(qiáng)度、空氣相對濕度、空氣溫度。采集時(shí)間為每天07:00—21:00,采集間隔為1 h。連續(xù)采集番茄花期開始前至結(jié)束后共40 d(包含花期30 d)環(huán)境參數(shù)數(shù)據(jù)。2020年春季,溫室內(nèi)部平均溫度保持在(23.7±0.3)℃(白天)/(19.7±0.1)℃(夜晚),相對濕度為52%。2020年夏季,溫室保持平均溫度為(28.3±0.2)℃(白天)/(23.5±0.4)℃(夜晚),相對濕度為69%。白天光照強(qiáng)度在1 125~9 543 lx范圍內(nèi)變化。
番茄幼苗高度為15~20 cm(包含根系長度),兩個(gè)品種幼苗區(qū)別是植株表面是否覆蓋粘質(zhì)腺毛(白色絨毛)。盆栽容量為7 L,基質(zhì)配比按體積分?jǐn)?shù)分別為20%珍珠巖、20%蛭石、60%泥炭。
當(dāng)植株生長至第一花序開花即番茄花期開始時(shí),將所有植株分成3個(gè)試驗(yàn)組,使用質(zhì)量濃度70、140、210 mg/L營養(yǎng)溶液分別對3組植株進(jìn)行施肥灌溉。質(zhì)量濃度210 mg/L氮營養(yǎng)溶液配方見表1。每周在固定時(shí)間用新配置肥料溶液對番茄植株施肥,其余時(shí)間每隔1 d用去離子水灌溉保證植株水分供需。依據(jù)以上施肥灌溉策略,可保證不同試驗(yàn)組番茄植株中組織氮水平具備明顯差異。
表1 營養(yǎng)溶液各物質(zhì)種類和含量Tab.1 Types and dosages of various substances in nutrient solution
現(xiàn)場圖像數(shù)據(jù)采集使用樹莓派3b+微處理器,樹莓派官方8×106像素?cái)z像模塊,樹莓派鋰電池?cái)U(kuò)展模塊以及塑料樹莓派外殼共同組成RGB圖像采集單元。通過直徑41 mm的圓形云臺和三腳架調(diào)節(jié)圖像采集單元的高度和角度。樹莓派上安裝Apache Web服務(wù)器用來為RPi-Cam-Web-Interface提供服務(wù),使其通過唯一的地址連接樹莓派。智能手機(jī)使用RPi-Cam-Web-Interface控制樹莓派捕獲番茄植株RGB彩色圖像。智能手機(jī)與圖像采集單元和本地計(jì)算機(jī)使用WiFi或4G網(wǎng)絡(luò)進(jìn)行交互連接。圖像獲取系統(tǒng)結(jié)構(gòu)如圖1所示。
為了盡量消除環(huán)境光線對RGB彩色圖像的影響,在番茄開花期30 d內(nèi)固定每日11:00采集不同氮濃度處理下番茄主干中部枝杈上生長的葉片圖像。采集圖像中至少包括該枝杈最前端葉片在內(nèi)6片葉子。調(diào)節(jié)三腳架高度保證RGB圖像采集攝像頭清晰聚焦,拍攝位置保持在植物斜側(cè)方距目標(biāo)葉片約0.3 m處,圖像分辨率為3 648像素×2 736像素。為了準(zhǔn)確提取葉片形狀特征,拍攝時(shí)需要使用厚度為3 mm長方形透明亞克力板置于葉片背面使葉片盡可能平整展開。采集的圖像以特定文件名傳輸至云平臺存儲(chǔ)。
整個(gè)番茄花期,每日16:00使用SPAD-502型葉綠素儀分別對番茄植株的目標(biāo)葉片進(jìn)行葉綠素含量測定。每棵植株至少選取主干中部的兩個(gè)枝杈上各5個(gè)葉片,總計(jì)10個(gè)葉片進(jìn)行采集。重復(fù)測量每個(gè)葉片3次取平均值以降低因儀器操作帶來的誤差,最大程度保證葉綠素含量準(zhǔn)確測量。
分割植物前需要消除采集圖像時(shí)因陰天、多云、少云等天氣原因造成環(huán)境光線過暗對圖像亮度的影響,使用直方圖均衡化或?qū)?shù)變化方法只提高圖像亮度,不改變圖像色度。從背景中分割植物分為2個(gè)步驟:①使用OpenCV中的TenenGrad評價(jià)函數(shù)實(shí)現(xiàn)圖像分割。②使用“2g-r-b”算法[23]得到背景為黑色僅含有目標(biāo)葉片的RGB彩色圖像。圖像預(yù)處理流程如圖2所示。
覆蓋粘質(zhì)腺毛的番茄葉片單個(gè)葉面積、周長均小于未覆蓋粘質(zhì)腺毛的番茄葉片,并且前者葉片在整個(gè)花期因組織氮素缺乏產(chǎn)生顏色變化程度明顯低于后者。若將二者提取出的輸入特征共同放入判別模型會(huì)極大降低模型準(zhǔn)確率,因此需要在輸入特征中添加形狀特征(葉面積和葉片周長)進(jìn)行種類區(qū)分。此處選取單個(gè)枝葉(尖端葉片)提取形狀特征。形狀特征提取分為4個(gè)步驟:①高斯模糊消除圖像中的噪點(diǎn)。②二值化得到葉片對象。③形態(tài)學(xué)閉操作(先腐蝕后膨脹)填充葉片中間的小洞。④RETR_EXTERNAL函數(shù)確定葉片輪廓后,用contourArea函數(shù)和arcLength函數(shù)分別計(jì)算葉片像素面積和像素周長。
顏色特征通過RGB彩色圖像獲取,分別使用minMaxLoc函數(shù)、mean函數(shù)、meanStdDev函數(shù)獲得R、G、B三通道各自最大值、平均值、標(biāo)準(zhǔn)差共9個(gè)變量顏色特征作為模型輸入特征參數(shù)。獲取葉片紋理特征同樣僅使用尖端葉片,過程見圖3。
番茄花期圖像采集時(shí)間為2020年3月14日—4月15日(共32 d);夏季番茄花期圖像采集時(shí)間為2020年5月15日—6月17日(共32 d)。整個(gè)番茄花期共獲得576幅不同氮元素濃度的RGB彩色圖像。其中覆蓋粘質(zhì)腺毛和未覆蓋粘質(zhì)腺毛番茄植株圖像分別為192幅和384幅,包含3個(gè)不同營養(yǎng)液離子梯度。整個(gè)圖像采集周期內(nèi)不同營養(yǎng)液離子梯度下兩種番茄葉片圖像如圖4所示。
由圖4可知,營養(yǎng)溶液中所含氮元素減少,葉片黃化過程加快,反之葉片逐漸變成深綠。同時(shí)能夠看出植株表面是否覆蓋粘質(zhì)腺毛對其產(chǎn)生的影響。
隨機(jī)森林屬于集成學(xué)習(xí)的一個(gè)重要分支,特點(diǎn)是將各個(gè)沒有依賴關(guān)系的弱學(xué)習(xí)器(CART決策樹)并行擬合以提升整體模型分級判別準(zhǔn)確率,如圖5所示。
對于一個(gè)樣本,它在含m個(gè)樣本的訓(xùn)練集隨機(jī)采樣中,每次被采集到的概率為1/m。不被采集到的概率是1-1/m。m次采樣都沒有被采集到的概率是(1-1/m)m。當(dāng)m趨近于無窮大時(shí),(1-1/m)m趨近于1/e,約等于0.368。Bagging每輪隨機(jī)采樣中,數(shù)據(jù)集中約有36.8%的數(shù)據(jù)沒有被采樣集采集到。對于這部分約36.8%的沒有被采樣到的數(shù)據(jù),稱之為袋外數(shù)據(jù)(Out of bag, OOB)。這些數(shù)據(jù)沒有參與訓(xùn)練集模型的擬合,因此可以用來檢測模型的泛化能力。
傳統(tǒng)隨機(jī)森林模型每棵決策樹投票權(quán)重相等,低分級準(zhǔn)確率的單棵決策樹會(huì)影響整個(gè)森林分級準(zhǔn)確率。解決這一問題的方法是提前確定每棵樹的權(quán)重,投票時(shí)每棵樹均乘以對應(yīng)權(quán)重。獲得對應(yīng)權(quán)重需要將訓(xùn)練樣本分為兩部分,即訓(xùn)練集和測試集。訓(xùn)練完成后對每棵樹進(jìn)行測試,分類正確率計(jì)算式為
式中Xright,i——第i棵樹分類正確樣本數(shù)
Xi——測試部分樣本數(shù)
分類正確率即為對應(yīng)權(quán)重。基于傳統(tǒng)窮舉搜索的網(wǎng)格尋優(yōu)無法匹配機(jī)器學(xué)習(xí)種類愈發(fā)繁多的超參數(shù),而基于隨機(jī)搜索的貝葉斯優(yōu)化恰好可解決這一問題。本文使用其優(yōu)化模型參數(shù),使判別準(zhǔn)確率達(dá)到最優(yōu)[24-27]。使用2020年春季試驗(yàn)數(shù)據(jù)集中的384幅未覆蓋粘質(zhì)腺毛番茄圖像構(gòu)成第1類數(shù)據(jù)集,并依據(jù)葉面顏色特征進(jìn)行氮元素缺乏分級建模。再將2020年夏季試驗(yàn)數(shù)據(jù)集中192幅覆蓋粘質(zhì)腺毛番茄圖像和192幅未覆蓋粘質(zhì)腺毛番茄圖像組成第2類數(shù)據(jù)集,使用同樣方式建模。分別使用真正率和假正率作為縱坐標(biāo)和橫坐標(biāo)繪制ROC曲線,計(jì)算ROC曲線下面積(Area under the curve,AUC)作為模型評價(jià)標(biāo)準(zhǔn)。
ROC曲線越接近縱坐標(biāo)軸點(diǎn)(0,1)且AUC越接近1,則模型分級效果越好。SVM是機(jī)器學(xué)習(xí)經(jīng)典分級算法,將其作為對照模型。使用準(zhǔn)確率對兩種數(shù)據(jù)模型進(jìn)行多次測試,結(jié)果如圖6所示。
由圖6可以得出,圖6a整體ROC曲線面積遠(yuǎn)高于圖6b且ROC曲線更加靠近點(diǎn)(0,1)。圖6a模型測試準(zhǔn)確率均值0.82,圖6b測試準(zhǔn)確率均值僅0.65。
氮含量通過葉片中葉綠素含量可間接反映,見圖7。葉綠素含量作為監(jiān)督學(xué)習(xí)模型的響應(yīng)變量確定判別準(zhǔn)確率。其中,SPAD值大于33時(shí)定義為高氮輸出變量,SPAD值在28~33內(nèi)定義為中氮輸出變量,SPAD值小于28定義為低氮輸出變量。
同第2類數(shù)據(jù)集相同的384幅圖像構(gòu)成第3類數(shù)據(jù)集,依據(jù)訓(xùn)練集和測試集7∶3比例劃分。訓(xùn)練集包含269幅圖像,測試集115幅圖像,將訓(xùn)練集269幅圖像按照7∶3再次劃分得到加權(quán)隨機(jī)森林模型相應(yīng)權(quán)重。將反映該組特征的11個(gè)參數(shù)(顏色特征9個(gè),形狀特征2個(gè))作為模型的自變量,依據(jù)葉綠素儀判別出的植物組織氮缺乏程度作為響應(yīng)變量,建立番茄花期組織氮含量缺乏程度加權(quán)隨機(jī)森林判別模型,并將加權(quán)模型判別結(jié)果同隨機(jī)森林模型及SVM模型判別結(jié)果進(jìn)行對比。使用sklearn庫中RandomForestClassifier函數(shù),乘以相應(yīng)權(quán)重實(shí)現(xiàn)加權(quán)隨機(jī)森林分類算法。為了確保模型分類準(zhǔn)確率,需要進(jìn)行貝葉斯參數(shù)(n_estimators、max_depth、max_features、min_samples_leaf)調(diào)優(yōu)。加權(quán)隨機(jī)森林模型輸入特征參數(shù)調(diào)整后ROC曲線如圖8所示。SVM模型、隨機(jī)森林模型、加權(quán)隨機(jī)森林模型在3類數(shù)據(jù)集上的AUC如圖9所示。
由圖8、9可知,SVM模型、隨機(jī)森林模型和加權(quán)隨機(jī)森林模型在添加形狀參數(shù)后模型整體ROC曲線和AUC都有提高;加權(quán)隨機(jī)森林模型在3類數(shù)據(jù)集上表現(xiàn)優(yōu)于SVM和隨機(jī)森林模型。加權(quán)隨機(jī)森林模型訓(xùn)練集判別準(zhǔn)確率為0.84~0.88,測試集判別準(zhǔn)確率為0.80~0.83。比第2類數(shù)據(jù)集單獨(dú)使用顏色特征作為模型自變量提升判別準(zhǔn)確率近0.2。
(1)建立了一種基于樹莓派攝像模塊、RPi-Cam-Web-Interface軟件以及云平臺的溫室番茄葉片圖像采集單元,圖像采集單元可以通過智能手機(jī)控制樹莓派攝像模塊采集所需圖像。試驗(yàn)結(jié)果表明,該圖像采集單元能夠適用溫室環(huán)境,操作簡便易學(xué)。相比基于光譜學(xué)圖像采集單元受環(huán)境光線影響較小。
(2)番茄因?yàn)橹仓瓯砻娓采w粘質(zhì)腺毛會(huì)對不同氮離子濃度營養(yǎng)溶液產(chǎn)生不同的葉片形狀和顏色特征變化。原因是覆蓋粘質(zhì)腺毛番茄對氮元素需求量較少,整個(gè)缺素試驗(yàn)期內(nèi)葉片葉綠素含量相對未覆蓋粘質(zhì)腺毛葉片更高。通過增加葉片周長和葉面積兩個(gè)形狀參數(shù)有效解決覆蓋粘質(zhì)腺毛番茄葉片影響整體模型判別準(zhǔn)確率的問題,加權(quán)隨機(jī)森林判別模型測試集準(zhǔn)確率可達(dá)0.80~0.83。