郝子源, 楊 瑋*, 李 浩, 于 滈, 李民贊, 2
1. 中國(guó)農(nóng)業(yè)大學(xué)“智慧農(nóng)業(yè)系統(tǒng)集成研究”教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100083 2. 中國(guó)農(nóng)業(yè)大學(xué)農(nóng)業(yè)農(nóng)村部“農(nóng)業(yè)信息獲取技術(shù)”重點(diǎn)實(shí)驗(yàn)室, 北京 100083
葉面積指數(shù)(leaf area index, LAI)是表征與跟蹤作物生長(zhǎng)狀態(tài)的一個(gè)重要參數(shù), 其定義為單位土地面積上植物葉片總面積占土地面積的倍數(shù)[1]。 快速、 準(zhǔn)確和低成本獲取LAI對(duì)于農(nóng)業(yè)生產(chǎn)具有重要意義, 其獲取方法主要分為直接測(cè)量法和間接測(cè)量法[2]。 直接測(cè)量法通常是通過破壞性的方法測(cè)量作物L(fēng)AI, 該方法費(fèi)時(shí)費(fèi)力, 會(huì)對(duì)作物造成損傷。 因此, 間接測(cè)量法得到了更加廣泛的應(yīng)用, 其主要包括反演法和圖像處理法。 反演法又可以分為物理模型反演和植被指數(shù)反演[3]。 其中, 物理模型反演對(duì)植被類型依賴程度小, 適用范圍廣, 然而用于反演LAI的先驗(yàn)知識(shí)卻難以獲取。 與此相比, 通過提取植被指數(shù)反演LAI則更受研究者的歡迎[4], 此類方法建模簡(jiǎn)單, 而植被指數(shù)的獲取過程往往較為復(fù)雜, 尤其對(duì)于遙感圖像, 通常需要使用專業(yè)軟件進(jìn)行復(fù)雜的預(yù)處理才能提取植被指數(shù), 因此難以實(shí)時(shí)反演作物L(fēng)AI。 隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展, 基于圖像處理的LAI測(cè)量方法也逐漸成為研究的熱點(diǎn)。 目前已有部分研究通過獲取和處理作物圖像, 建立線性或非線性測(cè)量模型實(shí)現(xiàn)LAI的快速獲取[5-7]。 與傳統(tǒng)遙感反演方法相比, 對(duì)遙感圖像進(jìn)行圖像處理獲取作物L(fēng)AI的方法具有較好的實(shí)時(shí)性, 測(cè)量準(zhǔn)確性尚可。 然而過去的研究多是只將圖像作為模型輸入只針對(duì)同一作物建模, 本工作為了使所建立的LAI預(yù)測(cè)模型更加準(zhǔn)確且普適性更好, 選取了四種作物的無人機(jī)低空多光譜圖像融合相關(guān)一維數(shù)據(jù)進(jìn)行建模分析。
考慮到LAI預(yù)測(cè)模型的輸入信息包含圖像以及一維信息, 需要進(jìn)行圖像特征提取、 多源信息融合以及LAI回歸預(yù)測(cè)。 而卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)算法是用于圖像特征提取的最常用的方法之一。 該算法可以對(duì)輸入的圖像進(jìn)行卷積運(yùn)算, 從而獲得圖像的深層特征, 目前廣泛應(yīng)用于植物種類識(shí)別[8], 作物病害檢測(cè)[9]和作物長(zhǎng)勢(shì)監(jiān)測(cè)[10]等農(nóng)業(yè)領(lǐng)域, 并表現(xiàn)出了卓越的特征提取能力。 由于CNN的網(wǎng)絡(luò)卷積層數(shù)較多, 而本研究還需要融合一維數(shù)據(jù), 一維數(shù)據(jù)在較深的網(wǎng)絡(luò)中易出現(xiàn)梯度消失的問題。 因此, LAI預(yù)測(cè)模型在CNN算法提取圖像特征的基礎(chǔ)上, 還需增加用于信息融合和回歸預(yù)測(cè)的算法。 而以隨機(jī)梯度提升算法(gradient boosting decision tree, GBDT)為代表的決策樹模型可以很好地實(shí)現(xiàn)數(shù)據(jù)特征融合以及回歸分析。 GBDT的核心思想是在不斷學(xué)習(xí)預(yù)測(cè)殘差的過程中降低損失函數(shù), 通常會(huì)對(duì)決策樹的參數(shù)進(jìn)行優(yōu)化以提高預(yù)測(cè)能力, 但也會(huì)導(dǎo)致過擬合。 改進(jìn)的GBDT即LightGBM(light gradient boosting machine method)則具有更高的預(yù)測(cè)率和更好的穩(wěn)健性。 在農(nóng)業(yè)領(lǐng)域, 已有研究將LightGBM算法用在農(nóng)業(yè)環(huán)境和作物參數(shù)的回歸預(yù)測(cè)研究中。 文獻(xiàn)[11]通過溫室環(huán)境因素預(yù)測(cè)溫室溫度, 并與多種機(jī)器學(xué)習(xí)算法對(duì)比, 證明了LightGBM算法在回歸預(yù)測(cè)中的優(yōu)秀性能。 有研究應(yīng)用LightGBM算法預(yù)測(cè)作物損傷, 也取得了較好的結(jié)果。
為了針對(duì)多種作物建立通用的基于多源信息的LAI預(yù)測(cè)模型, 本研究采用了組合型網(wǎng)絡(luò)構(gòu)架的解決方案。 該組合型網(wǎng)絡(luò)結(jié)構(gòu)可以分為兩部分: (1)基于CNN的圖像特征提取和分類模型; (2)基于LightGBM的LAI回歸預(yù)測(cè)模型。 本工作使用CNN算法對(duì)無人機(jī)拍攝的低空多光譜圖片的特征進(jìn)行提取, 采用幾種網(wǎng)絡(luò)結(jié)構(gòu), 先提取圖像特征, 建立作物分類模型對(duì)輸入圖像的適用性進(jìn)行分析。 然后將提取的圖像特征進(jìn)行回歸預(yù)測(cè)分析, 與一維數(shù)據(jù)進(jìn)行融合, 使用LightGBM算法最終建立了基于多源信息的LAI預(yù)測(cè)模型。 本研究貢獻(xiàn)了一種新的快速、 準(zhǔn)確和低成本獲取多種作物L(fēng)AI的建模思路, 為L(zhǎng)AI現(xiàn)場(chǎng)監(jiān)測(cè)設(shè)備的開發(fā)奠定基礎(chǔ)。
2020年10月-2021年11月在中國(guó)山東省泰安市的商業(yè)農(nóng)場(chǎng)進(jìn)行研究, 為了建立適合于多種作物的LAI預(yù)測(cè)模型, 選擇了四種作物進(jìn)行數(shù)據(jù)采集。 實(shí)驗(yàn)在4個(gè)地塊進(jìn)行, 分別種植了大豆、 小麥、 花生、 玉米[圖1(a-d)]。 每個(gè)地塊的作物種植信息和實(shí)驗(yàn)時(shí)期如表1所示, 對(duì)于每種作物, 均選擇了6個(gè)生長(zhǎng)狀態(tài)存在差異的時(shí)期進(jìn)行實(shí)驗(yàn), 生長(zhǎng)時(shí)期依據(jù)BBCH(Biologische Bundesanstalt, Bundessortenamt, and Chemical Industry)標(biāo)準(zhǔn)表示。
表1 作物種植信息和實(shí)驗(yàn)時(shí)期Table 1 Crop planting information and experimental period
圖1 實(shí)驗(yàn)位置和試驗(yàn)地塊(a): 大豆地塊航拍圖; (b): 小麥地塊航拍圖; (c): 花生地塊航拍圖; (d): 玉米地塊航拍圖Fig.1 Experimental site and plots(a): Aerial image of the soybean plot; (b): Aerial image of the wheat plot; (c): Aerial image of the peanut plot; (d): Aerial image of the maize plot
使用Phantom 4無人機(jī)拍攝四種作物的多光譜圖像, 無人機(jī)搭載的相機(jī)集成了RGB鏡頭[藍(lán)(B): (450±16) nm; 綠(G): (560±16) nm; 紅(R): (650±16) nm], 紅邊[(730±16) nm]鏡頭和近紅外[(840±26) nm]鏡頭。 RGB圖像中自帶無人機(jī)三維坐標(biāo)(經(jīng)度, 緯度和無人機(jī)飛行高度)和無人機(jī)姿態(tài)信息(俯仰角、 橫滾角和偏航角), 可通過解析圖像的POS數(shù)據(jù)獲得這些數(shù)據(jù)。 Tetila等在研究中已經(jīng)證明了無人機(jī)在不同高度下拍攝的圖片會(huì)影響模型的特征提取能力[12], 考慮到這一情況, 選擇了10、 20、 30、 40、 50和60 m六個(gè)高度進(jìn)行照片采集, 每個(gè)高度下拍攝100張圖片。 Flavia等指出無人機(jī)的姿態(tài)會(huì)對(duì)圖像視場(chǎng)角造成影響[13], 在航空?qǐng)D像采集過程中, 無人機(jī)姿態(tài)會(huì)因?yàn)楹骄€規(guī)劃和無人機(jī)震動(dòng)的影響發(fā)生改變, 使圖片之間存在差異。 因此, 在后續(xù)建立LAI預(yù)測(cè)模型時(shí), 需要考慮姿態(tài)信息。
關(guān)于地面獲取的信息包括環(huán)境光照和作物高度, 有研究表明, 獲取圖像時(shí)的光照變化會(huì)對(duì)深度學(xué)習(xí)的預(yù)測(cè)準(zhǔn)確性造成影響[14]。 在建立模型時(shí), 考慮了光照對(duì)于預(yù)測(cè)準(zhǔn)確性的影響, 使用光照度傳感器獲取試驗(yàn)環(huán)境中的光照度信息(單位為L(zhǎng)UX)。
在預(yù)測(cè)LAI時(shí), 作物高度是常被考慮的一個(gè)因素。 Scotford等指出高度更高的作物會(huì)因?yàn)橛懈嗷蚋蟮娜~子而具有更大的LAI[15]。 為了快速獲取作物高度, 通過手機(jī)拍攝的作物的側(cè)視圖[圖2(a)], 使用圖像處理獲取作物的高度。 在拍攝圖像時(shí), 一根長(zhǎng)為60 cm的紅色圓棒作為參照物。 在HSV顏色空間模型中的H通道使用最大類間方差法分別得到參照物二值圖像[圖2(b)]和去除參照物二值圖像[圖2(c)]。 作物高度的計(jì)算公式為
圖2 作物高度測(cè)量圖像處理步驟(以玉米為例)(a): 原始圖像; (b): 參照物二值圖像; (c): 作物二值圖像Fig.2 Image processing for measuring plant height (taking maize as an example)(a): Original image; (b): Binary image of reference object; (c): Binary image of crop
(1)
式(1)中,Hcrop為作物高度(cm),Hpx_crop為作物平均像素高度,Hpx_refer為參照物的像素高度。
在建立模型時(shí), 需要考慮作物種植信息的影響, 本研究主要分析了作物的生長(zhǎng)天數(shù)和種植行距。 作物的LAI會(huì)隨著作物的生長(zhǎng)發(fā)生變化[16], 因此在模型輸入中加入作物生長(zhǎng)天數(shù)可以使LAI更準(zhǔn)確地被預(yù)測(cè)。 種植行距的不同會(huì)使一個(gè)地塊的LAI有明顯差異。 Weber等指出, 較小的種植行距會(huì)使作物徒長(zhǎng), 使LAI過高[17]。 這些信息在作物播種時(shí)已經(jīng)被確定, 可以直接從種植管理者處獲取。
LAI實(shí)測(cè)值的常用測(cè)量方法為直接測(cè)量和基于間接光學(xué)方法的儀器測(cè)量, 儀器測(cè)量的原理為測(cè)量穿過冠層的輻射進(jìn)而推測(cè)LAI, 其結(jié)果依賴輻射傳輸模型的反演能力, 相比較直接測(cè)量可以獲得相對(duì)準(zhǔn)確的LAI實(shí)測(cè)值[18]。 為了提供每幅圖像對(duì)應(yīng)的LAI實(shí)測(cè)值, 本研究采用了直接測(cè)量方法。 在每個(gè)地塊中, 每隔10 m選擇5 m×5 m的小區(qū)域采集5株長(zhǎng)勢(shì)標(biāo)準(zhǔn)的作物。 對(duì)于小麥, 大豆, 花生三種作物, 由于其單片葉子面積較小, 將葉片裁剪平鋪在白色紙板上, 放置刻度尺作為參考。 拍攝照片, 使用ImageJ軟件測(cè)量葉片面積。 對(duì)于玉米, 測(cè)量葉片的最大寬度和長(zhǎng)度, 使用式(2)計(jì)算玉米的葉片面積。
LAsingle=L×W×f
(2)
式(2)中, LAsingle為單個(gè)葉片的葉片面積,L為葉片長(zhǎng)度,W為最大寬度,f為形狀因子, 有研究證明對(duì)于玉米,f設(shè)為0.75[19]。 記錄每個(gè)采樣區(qū)域邊界點(diǎn)的GPS數(shù)據(jù), 用于匹配無人機(jī)圖像, 通過式(3)獲取LAI。
(3)
式(3)中, LAIimage為每張圖像對(duì)應(yīng)的地塊的LAI,n為無人機(jī)圖像中包含的小區(qū)域數(shù)量,i為每個(gè)小區(qū)采集的植株數(shù), LAni為第n個(gè)小區(qū)域第i個(gè)植株的總?cè)~片面積。ρn為第n個(gè)小區(qū)域的種植密度, 通過統(tǒng)計(jì)每平方米的植株數(shù)獲得。
1.6.1 模型構(gòu)建
通過建立模型處理作物的無人機(jī)多光譜圖像和相關(guān)一維數(shù)據(jù), 實(shí)現(xiàn)作物圖像的分類和LAI的預(yù)測(cè)。 研究一共有14 400(單次實(shí)驗(yàn)100張圖片×4種作物×6個(gè)生長(zhǎng)時(shí)期×6種拍攝高度)組樣本, 其中隨機(jī)將10 400組劃分為訓(xùn)練集, 2 500組劃分為驗(yàn)證集, 1 500組劃分為測(cè)試集。 模型構(gòu)建如圖3所示, 為了實(shí)現(xiàn)圖像信息與一維數(shù)據(jù)的融合, 需要將圖像信息進(jìn)行特征提取, 將提取到的特征進(jìn)行張量扁平化操作, 將圖像特征轉(zhuǎn)化為向量數(shù)據(jù)。 因此, 在建立組合架構(gòu)模型時(shí), 首先使用了4種經(jīng)典的CNN模型結(jié)構(gòu), 并根據(jù)無人機(jī)多光譜圖像特點(diǎn)對(duì)模型的輸出層進(jìn)行調(diào)整, 完成圖像的特征向量提取和分類, 將CNN模型提取的圖像深度特征向量與一維數(shù)據(jù)進(jìn)行均值歸一化處理, 輸入LightGBM模型中進(jìn)行回歸分析。 基于TensorFlow深度學(xué)習(xí)框架對(duì)模型進(jìn)行訓(xùn)練和調(diào)試。 計(jì)算機(jī)的CPU型號(hào)為Intel Core i7-9700K, 內(nèi)存為16GB, 顯卡型號(hào)為NVIDIA GeForce RTX 2080Ti。
圖3 模型構(gòu)建示意圖Fig.3 Construction of the models
1.6.2 CNN模型
CNN模型存在許多變種, 使用了四種在圖像特征提取中應(yīng)用較廣泛的結(jié)構(gòu), 分別為VGG19, ResNet50, Inception V3和DenseNet201。
本研究使用的VGG19模型包括16個(gè)卷積核尺寸為3×3的卷積層和3個(gè)全連接層, 16個(gè)卷積層被分為5個(gè)block, 使用5個(gè)最大池化層進(jìn)行分隔。 VGG19模型使用較小的卷積核對(duì)圖像進(jìn)行卷積, 在增加網(wǎng)絡(luò)深度的過程中, 可以避免卷積的參數(shù)數(shù)量過多, 有助于提高網(wǎng)絡(luò)性能。 ResNet50模型為了解決增加網(wǎng)絡(luò)深度時(shí)容易出現(xiàn)的梯度消失、 收斂困難, 加入了殘差學(xué)習(xí)的思想。 ResNet50模型將卷積核尺寸為1×1、 3×3和1×1的卷積層串聯(lián), 形成一個(gè)殘差模塊, 模型中共有16個(gè)殘差模塊, 還包括最初始的1個(gè)卷積層和最后的1個(gè)全連接層。 Inception V3模型不同于上述模型對(duì)于增加網(wǎng)絡(luò)深度的研究偏向, 該模型將卷積核橫向疊加形成Inception模塊, 以此增加網(wǎng)絡(luò)的寬度, 通過并行卷積計(jì)算, 可以更好地提取圖像中不同尺寸的特征。 Inception V3模型的網(wǎng)絡(luò)結(jié)構(gòu)較復(fù)雜, 包含11個(gè)Inception模塊以及額外的卷積層, 最大池化層, 平均池化層, Dropout層和全連接層。 DenseNet201模型的不同于上述三種模型, 其沒有一味地增加網(wǎng)絡(luò)的深度或?qū)挾? 而是在兼顧了深度和寬度的研究之后, 通過特征重用使特征得到充分地利用。 DenseNet網(wǎng)絡(luò)結(jié)構(gòu)中包含4個(gè)Dense模塊, 模塊中每一層的輸入都來自前面所有層的輸出, 這樣的設(shè)計(jì)可以使特征和梯度得到更有效的傳遞, 同時(shí)減輕梯度消失的問題, 使網(wǎng)絡(luò)更容易加深以提高模型性能。
將RGB圖像、 紅邊圖像和近紅外圖像的尺寸壓縮為224×224作為CNN模型的輸入。 經(jīng)過多次調(diào)參對(duì)比, 模型的超參數(shù)設(shè)置為: 基礎(chǔ)學(xué)習(xí)率為0.000 1, 訓(xùn)練周期為100次, 單次訓(xùn)練使用的樣本數(shù)為16個(gè), 衰減常數(shù)為0.1。
1.6.3 LightGBM模型
為了建立預(yù)測(cè)精度更加準(zhǔn)確的模型, 除了二維圖像數(shù)據(jù), 還引入了一維數(shù)據(jù)。 在模型的輸入中, 無人機(jī)姿態(tài)信息(俯仰角、 橫滾角和偏航角), 無人機(jī)高度, 光照度, 作物行距, 作物株高和作物生長(zhǎng)天數(shù)信息均為一維數(shù)據(jù)。 一維數(shù)據(jù)輸入模型之后, 如果通過較深的網(wǎng)絡(luò), 容易丟失特征, 難以發(fā)揮作用。 因此, 除了使用較深的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取多光譜圖像特征之外, 還加入LightGBM算法用于建立回歸預(yù)測(cè)模型, 將圖像特征向量與一維數(shù)據(jù)融合預(yù)測(cè)采樣點(diǎn)LAI。
LightGBM算法是一種改進(jìn)的梯度提升決策樹, 其思想是利用決策樹迭代訓(xùn)練獲得最優(yōu)的模型。 LightGBM算法的改進(jìn)之處在于引入了基于直方圖的決策樹算法, 在合并了特征的直方圖上尋找最優(yōu)分割點(diǎn), 降低數(shù)據(jù)分割的復(fù)雜度, 提高訓(xùn)練效率。 在本研究中, 經(jīng)過調(diào)參將LightGBM模型的超參數(shù)設(shè)置為: 學(xué)習(xí)率為0.1, 葉子節(jié)點(diǎn)數(shù)為30, 線程數(shù)為6, 其余選擇默認(rèn)值。
使用CNN模型進(jìn)行特征提取后, 為了直觀地觀察模型對(duì)于圖像的特征提取能力, 先將提取到的特征用于圖像分類, 分類準(zhǔn)確度越高則說明模型的特征提取能力越好。 首先將RGB圖像作為CNN模型輸入, 模型分類的結(jié)果如表2所示, 將分類概率大于50%的類別作為圖像的最終分類結(jié)果。 分類準(zhǔn)確度如表4所示, 表4顯示了每種模型分類獲得的最高絕對(duì)準(zhǔn)確度。 對(duì)于RGB圖像, 四個(gè)CNN模型的分類準(zhǔn)確度從高到低分別為DenseNet201(99.67%), Inception V3(98.60%), ResNet50(96.07%)和VGG19(88.13%)。 表5中給出了四種模型在進(jìn)行模型訓(xùn)練和測(cè)試時(shí)所花費(fèi)的時(shí)間, 其中時(shí)間以本研究中的硬件配置為參考。 在四個(gè)CNN模型中, 訓(xùn)練時(shí)間最短的是Inception V3, 訓(xùn)練時(shí)間最長(zhǎng)的為DenseNet201。 同樣地, DenseNet201的單組圖片樣本的測(cè)試時(shí)間也是四個(gè)模型中耗時(shí)最多的。 僅使用RGB圖像建立模型的分類準(zhǔn)確度已經(jīng)令人滿意, 為了獲得更全面的作物冠層信息, 還獲取了低空條件下作物冠層的紅邊波段圖像和近紅外波段圖像, 將兩種圖像與RGB圖像結(jié)合, 多段光譜的圖像共同作為CNN模型的輸入。 得到分類結(jié)果如表3所示、 分類準(zhǔn)確度如表4所示, 準(zhǔn)確度從高到低分別為DenseNet201(99.93%), Inception V3(99.73%), ResNet50(97.60%)和VGG19(90.33%), 四種模型的分類準(zhǔn)確度都達(dá)到了90%以上, 說明使用CNN模型可以提取出有效的圖像特征。 如表5所示, 四個(gè)模型的單組圖片樣本的訓(xùn)練時(shí)間和測(cè)試測(cè)試時(shí)間最長(zhǎng)的依舊為DenseNet201, 而ResNet50和Inception V3耗費(fèi)了相同的測(cè)試時(shí)間。
表2 CNN模型分類結(jié)果: 輸入為RGB圖像Table 2 Classification results for CNN models: RGB images as inputs
表3 CNN模型分類結(jié)果: 輸入為多光譜圖像Table 3 Classification results for CNN models: multispectral images as inputs
表4 模型分類準(zhǔn)確度Table 4 Classification accuracy values of models
表5 模型時(shí)間指標(biāo)Table 5 Time consuming indexes of models
根據(jù)結(jié)果分析, 加入紅邊圖像和近紅外圖像之后, 四種模型的分類準(zhǔn)確度均得到提高, 然而由于輸入圖片增加, 使得模型的訓(xùn)練時(shí)間和測(cè)試時(shí)間也隨之延長(zhǎng)。 在四種模型中, DenseNet201模型的層數(shù)較多, 可以提取到更多的圖像特征, 因此始終具有最高的分類準(zhǔn)確度, 但是訓(xùn)練和測(cè)試的耗時(shí)也是最長(zhǎng)的。 由此可見, 在處理本研究中的分類問題時(shí), 獲得高的分類精度會(huì)犧牲模型的運(yùn)行效率。 Inception V3模型的整體分類準(zhǔn)確度也較高, 尤其是輸入為多光譜圖像時(shí), 其分類準(zhǔn)確度與DenseNet201模型接近, 均達(dá)到99%以上, 而模型的訓(xùn)練時(shí)間和測(cè)試時(shí)間是最短的, 整體表現(xiàn)令人滿意。 ResNet50模型的分類準(zhǔn)確度更低一些, 在耗時(shí)上也沒明顯優(yōu)勢(shì)。 VGG模型的分類準(zhǔn)確度是最低的, 可能是與其網(wǎng)絡(luò)層數(shù)較少有關(guān), 然而在耗時(shí)上, 尤其是在對(duì)多光譜圖像分類時(shí), 時(shí)間還要長(zhǎng)于ResNet50模型和Inception V3模型, 可見VGG模型并不適合處理本研究中作物低空冠層圖像的分類問題。 在本研究中, VGG模型和ResNet50模型更加注重加深網(wǎng)絡(luò)的層數(shù), 然而所得到的分類效果不如Inception V3模型和DenseNet201模型。 Inception V3模型偏向于加寬網(wǎng)絡(luò)的寬度, 而DenseNet201模型兼顧了網(wǎng)絡(luò)深度和寬度的, 因此, 本研究中的圖片特征可能更容易被加寬的網(wǎng)絡(luò)提取到。 在本研究的圖像分類問題上, Inception V3模型既保證了較高的分類準(zhǔn)確度, 也能損耗較少的訓(xùn)練和測(cè)試時(shí)間, 因此該模型是最佳的選擇。
通過經(jīng)典的ResNet50, Inception V3和DenseNet201模型提取圖像的特征后, 使用LightGBM模型進(jìn)行特征融合和LAI的回歸處理, 最終建立LAI的回歸預(yù)測(cè)模型。 為了探討了不同輸入對(duì)于模型回歸準(zhǔn)確性的影響, 將LightGBM模型的輸入分為四組: (1)無人機(jī)低空RGB圖像數(shù)據(jù)集; (2)無人機(jī)低空RGB圖像融合紅邊圖像和近紅外圖像形成的無人機(jī)低空多光譜圖像數(shù)據(jù)集; (3)僅有相關(guān)一維數(shù)據(jù)的數(shù)據(jù)集; (4)無人機(jī)低空多光譜圖像加入相關(guān)一維數(shù)據(jù)后組合成的多源信息數(shù)據(jù)集。
首先, 分析了僅有無人機(jī)低空RGB圖像輸入情況下的回歸預(yù)測(cè)結(jié)果, 如圖4(a, b, c)所示。 在三種模型中, DenseNet201模型的預(yù)測(cè)值和實(shí)測(cè)值的R2相較于ResNet50和Inception V3模型分別提升20.20%和3.48%。 說明DenseNet201模型提取出的圖像特征在處理回歸預(yù)測(cè)問題時(shí), 也最具優(yōu)勢(shì)。 然而, 在該輸入下, 三種的模型提取出的特征在輸入LightGBM模型之后,R2最大也僅為0.711 1, 總體預(yù)測(cè)準(zhǔn)確性較低。
模型的輸入使用無人機(jī)低空多光譜圖像數(shù)據(jù)集。 結(jié)果如圖5(a, b, c)所示, 當(dāng)輸入信息從無人機(jī)低空RGB圖像拓展到多光譜圖像時(shí), 基于ResNet50, Inception V3和DenseNet201三種模型提取的特征在輸入LightGBM模型后, LAI的預(yù)測(cè)值和實(shí)測(cè)值的RMSE分別降低42.44%、 39.10%和35.44%,R2分別提升26.10%, 14.64%和15.20%。 另外, DenseNet201模型的LAI預(yù)測(cè)值和實(shí)測(cè)值的RMSE相較于基于ResNet50和Inception V3模型的RMSE分別降低31.81%, 29.21%,R2分別提升7.23%和3.99%。 總體加入紅邊圖像和近紅外圖像, 三種CNN模型提取的特征向量輸入LightGBM模型后, 回歸預(yù)測(cè)效果都得到了提高, 而DenseNet201模型依舊具有最好的預(yù)測(cè)準(zhǔn)確性。
僅將一維數(shù)據(jù)作為輸入時(shí), 如圖6所示, 所建立回歸模型的預(yù)測(cè)值與實(shí)測(cè)值的RMSE為0.460 9,R2為0.790 8。 當(dāng)輸入信息為多源信息數(shù)據(jù)集, 如圖7(a, b, c)所示, 基于ResNet50, Inception V3和DenseNet201的回歸模型的LAI預(yù)測(cè)值和實(shí)測(cè)值的RMSE相比較僅輸入一維數(shù)據(jù)時(shí)均有明顯降低, 且R2均有明顯提高。 相比較無人機(jī)低空多光譜圖像數(shù)據(jù)集, RMSE分別降低62.80%, 71.50%和62.55%,R2分別提升26.06%, 22.62%和18.45%。 基于DenseNet201模型的預(yù)測(cè)值和實(shí)測(cè)值的RMSE相較于基于ResNet50和Inception V3模型的RMSE分別降低31.34%,6.97%,R2分別提升3.19%和0.45%。 總體使用多元信息數(shù)據(jù)集作為回歸模型的輸入后, 三種模型的回歸預(yù)測(cè)精度均得到了顯著的提高, 而且R2均達(dá)到了0.9以上, 尤其是基于DenseNet201和Inception V3的模型在此輸入下,R2和RMSE的值沒有特別顯著的差異, 均在0.95以上。
圖7 以多源信息為輸入的回歸預(yù)測(cè)模型(a): ResNet50; (b): Inception V3; (c): DenseNet201Fig.7 Regression prediction models based on multi-source information(a): ResNet50; (b): Inception V3; (c): DenseNet201
綜上所述, 當(dāng)輸入信息包含無人機(jī)低空RGB圖像、 紅邊圖像、 近紅外圖像和相關(guān)一維數(shù)據(jù)時(shí), 基于三種CNN模型的回歸模型效果均可以達(dá)到最好, 說明多光譜圖像和一維數(shù)據(jù)與輸出的LAI值之間有著很高的關(guān)聯(lián)性, 通過增加輸入信息可以顯著提升模型的預(yù)測(cè)性能。 尤其是當(dāng)圖像信息結(jié)合一維數(shù)據(jù)后, 模型預(yù)測(cè)性能得到明顯的改善, 考慮到回歸系數(shù)R2的邊際效益遞減的原因, 一維數(shù)據(jù)對(duì)于模型輸出值LAI的關(guān)聯(lián)性要高于紅邊圖像和近紅外圖像的關(guān)聯(lián)性, 考慮到可能無人機(jī)低空RGB圖像已經(jīng)很大程度反映圖像與輸出之間的對(duì)應(yīng)關(guān)系, 而紅邊圖像和近紅外圖像也只能反映作物的冠層俯視信息, 對(duì)于模型特征信息的補(bǔ)充有限。 在一維信息中除了一部分信息(無人機(jī)姿態(tài)信息、 無人機(jī)高度信息和光照度信息)可以對(duì)圖像進(jìn)行修正[12-14], 另有一部分重要的信息(作物行距、 作物株高和作物生長(zhǎng)天數(shù))是獨(dú)立于圖像的額外信息, 根據(jù)文獻(xiàn)可知[15-17], 這些與作物生長(zhǎng)相關(guān)的一維信息也可以在一定程度反應(yīng)作物L(fēng)AI的值, 而本實(shí)驗(yàn)結(jié)果也證明了這一點(diǎn)。 一維信息在本研究的模型建立中起到重要作用, 但是也不能忽視圖像信息的貢獻(xiàn), 僅使用一維數(shù)據(jù)進(jìn)行建模, LAI的預(yù)測(cè)精度相比多源信息仍有較大的差距, 說明了圖像特征信息在LAI預(yù)測(cè)中的必要性。 隨著輸入信息的逐漸增多, 模型之間的預(yù)測(cè)性能的差異性也在逐漸變小, 但使用網(wǎng)絡(luò)結(jié)構(gòu)更深的DenseNet201總可以在各種輸入中取得最好的預(yù)測(cè)結(jié)果, 可以說明DenseNet201在提取數(shù)據(jù)集特征時(shí)有更好性的適用性, 但綜合考慮算法的訓(xùn)練時(shí)間以及后續(xù)嵌入式系統(tǒng)的模型應(yīng)用時(shí), 應(yīng)當(dāng)權(quán)衡準(zhǔn)確度與模型效率的平衡。 當(dāng)輸入信息較少時(shí), 可以選擇準(zhǔn)確度較高網(wǎng)絡(luò)結(jié)構(gòu)更深的CNN網(wǎng)絡(luò)作為圖像特征提取部分的主干網(wǎng)絡(luò), 而當(dāng)輸入信息逐漸增多, 以及包括一維數(shù)據(jù)時(shí), 可以選擇更加輕量化的CNN網(wǎng)絡(luò)作為圖像特征提取部分的主干網(wǎng)絡(luò)。 雖然基于DenseNet201的模型在分類和回歸的準(zhǔn)確度上均取得了最好的效果, 但由于其特征提取時(shí)間較長(zhǎng), 網(wǎng)絡(luò)結(jié)構(gòu)較深, 且模型輸入信息多源, 信息種類較多, 因此, 準(zhǔn)確度僅次于其基于Inception V3的模型是預(yù)測(cè)LAI的最佳選擇。
為了建立適用于多種作物的通用LAI預(yù)測(cè)模型, 降低LAI獲取成本, 提高獲取速度, 采用多源信息和深度學(xué)習(xí)研究了LAI預(yù)測(cè)的建模方法。 LAI預(yù)測(cè)模型由CNN算法和LightGBM算法設(shè)計(jì)而成, CNN模型主要實(shí)現(xiàn)了圖像特征向量提取和作物圖像分類, LightGBM模型負(fù)責(zé)多源信息融合和LAI回歸預(yù)測(cè)。 研究了不同輸入對(duì)建模的影響, 具體結(jié)果如下:
(1)為了驗(yàn)證CNN模型對(duì)于RGB圖像和多光譜圖像的特征提取能力, 分別應(yīng)用VGG19, ResNet50, Inception V3和DenseNet201四種CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)了作物分類模型。 在兩種輸入下DenseNet201模型均取得了最好的分類準(zhǔn)確度, 當(dāng)輸入為多光譜圖像時(shí), Inception V3模型的分類準(zhǔn)確度接近DenseNet201, 兩者均在99%以上, 且Inception V3模型的訓(xùn)練和測(cè)試時(shí)間均少于DenseNet201的一半, Inception V3模型在該研究中更適合進(jìn)行圖像特征提取和完成分類任務(wù)。
(2)將CNN模型提取到的圖像特征向量分別輸入到LightGBM模型中, 發(fā)現(xiàn)僅使用RGB圖像特征預(yù)測(cè)LAI時(shí), 預(yù)測(cè)值和實(shí)測(cè)值的R2最大為0.711 1, 當(dāng)使用多光譜圖像特征時(shí),R2的最大值增加到0.819 2。 而在輸入中加入一維數(shù)據(jù)信息之后, 回歸預(yù)測(cè)模型的R2均高于0.9, 這說明一維數(shù)據(jù)在LAI預(yù)測(cè)中發(fā)揮了重要作用, 將多光譜圖像信息和一維數(shù)據(jù)等多源信息融合建??梢杂行岣週AI預(yù)測(cè)模型的準(zhǔn)確度。
本研究所提出的LAI預(yù)測(cè)模型可以預(yù)測(cè)多種作物的LAI, 同時(shí)可以給出作物種類的判別結(jié)果, 本研究中模型的輸入信息均容易獲取, 無人機(jī)多光譜圖像和相關(guān)一維數(shù)據(jù)可以直接作為模型的輸入信息, 無需復(fù)雜的處理過程, 具有快速、 低成本獲取多作物L(fēng)AI的優(yōu)勢(shì)。 本研究還為無人機(jī)平臺(tái)下LAI的監(jiān)測(cè)研究提供了一種可現(xiàn)場(chǎng)獲取監(jiān)測(cè)結(jié)果的解決思路, 本研究中的模型可以嵌入到硬件設(shè)備中幫助開發(fā)LAI監(jiān)測(cè)設(shè)備。