葉文超, 羅水洋, 李金豪, 李釗榮, 范志文, 徐海濤, 趙 靜,蘭玉彬, 2, 鄧海東*, 龍擁兵, 2, 3*
1. 華南農(nóng)業(yè)大學(xué)電子工程學(xué)院(人工智能學(xué)院), 國家精準(zhǔn)農(nóng)業(yè)航空施藥技術(shù)國際聯(lián)合研究中心, 廣東 廣州 510642
2. 嶺南現(xiàn)代農(nóng)業(yè)科學(xué)與技術(shù)廣東省實(shí)驗(yàn)室, 廣東 廣州 510642
3. 農(nóng)業(yè)農(nóng)村部華南智慧農(nóng)業(yè)公共研發(fā)中心, 廣東 廣州 510520
水稻是我國主要糧食作物之一, 日益增長的糧食需求促進(jìn)了雜交水稻技術(shù)的快速發(fā)展。 由于目前市場上的雜交水稻種子品種繁多, 質(zhì)量參差不齊, 其品質(zhì)將直接影響我國水稻產(chǎn)量[1-2], 如何有效的對(duì)雜交水稻種子進(jìn)行品質(zhì)鑒定、 分級(jí)成為目前水稻產(chǎn)業(yè)領(lǐng)域急需解決的關(guān)鍵技術(shù)問題。 目前我國對(duì)于雜交水稻品種的分類沒有明確的檢測(cè)標(biāo)準(zhǔn), 農(nóng)業(yè)人員常通過目測(cè)等傳統(tǒng)方法進(jìn)行識(shí)別, 而科研人員通常采用化學(xué)成分檢測(cè)等方法進(jìn)行分類[3], 這些分類方法不僅費(fèi)時(shí)費(fèi)力、 分類精度低而且只能用于少量樣品檢測(cè), 無法得到廣泛的應(yīng)用。 以多光譜及高光譜為代表的近紅外光譜技術(shù)作為一種檢測(cè)方法具有快速、 無損、 檢測(cè)精度高等特點(diǎn)[4-6], 在農(nóng)作物品質(zhì)檢測(cè)、 病蟲害早期診斷與識(shí)別、 農(nóng)田肥度檢測(cè)以及農(nóng)藥殘留等方面得到了廣泛的應(yīng)用[7-8]。 Zhang等利用高光譜成像技術(shù)結(jié)合判別分析模型對(duì)6類不同玉米種子的光譜信息進(jìn)行分類鑒別, 其分類精度可達(dá)到98.89%[9]。 楊思成等采集5種不同稻谷種子高光譜圖像作為研究對(duì)象, 利用PCA方法選取特定波長下的圖像信息, 基于紋理特征和形態(tài)特征等圖像特征參數(shù)建立了ANN分類模型, 其分類正確率可達(dá)98%[10]。 Li等采集不同年齡段陳皮的近紅外光譜數(shù)據(jù), 利用主成分分析(PCA)結(jié)合不同光譜預(yù)處理方法構(gòu)建Fisher線性判別分類模型, 對(duì)不同年齡陳皮的分類精度可達(dá)100%[11]。 王承琨等利用Segnet與BIGD方法提取樹木的圖像信息與光譜信息, 并構(gòu)建基于SVM分類模型實(shí)現(xiàn)對(duì)樹木品種的分類, 其最高正確率可達(dá)98%[12]。
通過上述研究發(fā)現(xiàn), 基于光譜信息和圖像信息均可以構(gòu)建精度較高的分類模型, 然而對(duì)于外形相似度極高的雜交水稻種子的分類還鮮有報(bào)道[13-14]。 針對(duì)上述研究均采用單一特征(光譜或者圖像)來建立分類模型這一問題, 本論文結(jié)合基于光譜的1D-CNN和基于圖像的2D-CNN, 構(gòu)建圖譜融合的二分支卷積神經(jīng)網(wǎng)絡(luò)(2Branch-CNN)分類模型, 實(shí)現(xiàn)對(duì)雜交水稻種子的分類, 利用多特征融合來提高雜交水稻種子的分類精度。
采用的高光譜成像系統(tǒng)如圖1所示。 為了避免外部環(huán)境光對(duì)光譜測(cè)量的干擾, 整套光譜采集設(shè)備置于封閉的暗箱內(nèi)。 其中, 高光譜相機(jī)為四川雙利合普公司生產(chǎn)的近紅外高光譜相機(jī)(型號(hào): GaiaField-N17E), 該相機(jī)內(nèi)置微型計(jì)算機(jī), 通過外置推掃獲取樣品的高光譜圖像數(shù)據(jù)。 在光譜采集過程中, 高光譜相機(jī)的采集參數(shù)設(shè)定為: 單幀光譜圖像包含350×320像素, 光譜拍攝波長范圍為900~1 700 nm, 光譜采樣間隔為5 nm。
圖1 高光譜成像系統(tǒng)結(jié)構(gòu)示意圖
用于分類的雜交水稻種子樣品均為秈型三系雜交水稻, 具體包括: 荃兩優(yōu)0861(qly0861)、 優(yōu)華占(yhz)、 晶兩優(yōu)1212(jly1212)、 兩優(yōu)821(ly821)、 兩優(yōu)887(ly887)、 兩優(yōu)898(ly898)、 兩優(yōu)8601(ly8601)、 荃兩優(yōu)1606(qly1606)、 荃兩優(yōu)1822(qly1822)、 荃兩優(yōu)851(qly851)共10個(gè)品種。
為提高數(shù)據(jù)采集效率, 在采集圖像前, 將水稻種子按照55的陣列規(guī)則擺放在樣品臺(tái)上, 相鄰樣本間留有一定間隔, 以便在后期數(shù)據(jù)處理過程中能夠通過圖像分割的方法得到每個(gè)樣本的光譜信息。 實(shí)驗(yàn)中, 每一品種雜交水稻種子的數(shù)量均為250粒, 總共獲取了2 500粒雜交水稻種子的高光譜圖像, 采集樣品的高光譜圖像如圖2所示。 針對(duì)某一特定波長高光譜圖像, 采用閾值分割法獲取水稻種子在圖像中對(duì)應(yīng)的像素區(qū)域(ROI區(qū)域)。 將選取的ROI區(qū)域映射到所有波長對(duì)應(yīng)的灰度圖, 然后計(jì)算每個(gè)波長ROI區(qū)域內(nèi)所有像素的反射率的平均值, 將計(jì)算得到的平均光譜定義為每粒雜交水稻種子的反射率光譜。
圖2 雜交水稻種子高光譜圖像
高光譜相機(jī)采集到的原始光譜數(shù)據(jù)不僅包含光源光譜特征, 而且包含微弱環(huán)境光及暗電流等噪聲, 無法真實(shí)反應(yīng)待測(cè)樣品的反射光譜。 在樣品測(cè)試之前, 分別采集了白板和黑板的反射光譜, 用以消除光源光譜特征、 微弱環(huán)境光及暗電流等噪聲對(duì)樣品光譜的影響, 其校正公式如式(1)
(1)
式(1)中,R為校正后的反射率,Iraw為原始光譜,Iwhite為白板反射譜,Iblack為黑板反射光譜。
對(duì)校正后的散射光譜進(jìn)行預(yù)處理能夠進(jìn)一步抑制背景噪聲等對(duì)光譜數(shù)據(jù)的影響, 并改善模型的分類精度。 采用Savitzky-Golay(SG)平滑算法[15]、 多元散射校正(MSC)[16]以及兩種算法結(jié)合(SG+MSC)三種預(yù)處理方法對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。
對(duì)于特征波長下圖像數(shù)據(jù)集的構(gòu)建, 首先利用隨機(jī)森林(FR)算法對(duì)光譜數(shù)據(jù)中所有波長的重要性進(jìn)行評(píng)分(variable importance measures, VTM), 然后按重要性評(píng)分來排序, 通過排序即可選取重要性最高的特征波長[17-20]。 波長重要性評(píng)分的計(jì)算方法如下:
(2)
式(2)中,k值表示類別,pmk為在節(jié)點(diǎn)m中類別k所占的比例, 也可以看作隨機(jī)從節(jié)點(diǎn)m中抽取兩個(gè)樣本, 其類別標(biāo)記不一致的概率。
(3)
式(3)中, Ginil和Ginir分別表示隨機(jī)森林節(jié)點(diǎn)m分支后兩個(gè)新節(jié)點(diǎn)的Gini指數(shù)。
(4)
假設(shè)該特征波長xj在隨機(jī)森林中共有n顆樹, 其最終的重要性評(píng)估計(jì)算公式為式(5)
(5)
最后, 將計(jì)算得的所有特征波長重要性評(píng)分做歸一化處理并排序。
對(duì)于水稻種子的近紅外光譜數(shù)據(jù)集, 采用一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)[21-22]構(gòu)建分類模型; 針對(duì)單波長圖像數(shù)據(jù)集和3波長偽彩色圖像數(shù)據(jù)集, 分別采用卷積神經(jīng)網(wǎng)絡(luò)VGG[23-24]和殘差網(wǎng)絡(luò)ResNet[25-26]構(gòu)建分類模型, 并比較兩者的分類精確度。 為進(jìn)一步改善模型分類精度, 提出基于圖譜融合的分類模型, 將光譜維度與空間維度的特征進(jìn)行融合, 構(gòu)建2Branch-CNN 分類模型(如圖3所示)。 該算法中, 1D-CNN用于提取光譜特征, 二維卷積神經(jīng)網(wǎng)絡(luò)(2D-CNN)用于提取空間維度特征, 最后將獲得的特征數(shù)據(jù)連接融合后送入分類器進(jìn)行分類。 神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)均采用交叉熵?fù)p失函數(shù), 其函數(shù)計(jì)算公式為
圖3 二分支卷積神經(jīng)網(wǎng)絡(luò)模型
(6)
式(6)中,K為雜交水稻種子種類數(shù)量,y為標(biāo)簽,i指代的是類別的序號(hào), 即當(dāng)類別為i時(shí)yi=1, 否則為yi=0; Out是卷積神經(jīng)網(wǎng)絡(luò)每個(gè)樣本的類別概率, 即類別為i的概率。
由于近紅外探測(cè)器在測(cè)量波長范圍的短波邊和長波邊響應(yīng)度不高, 容易受到背景噪聲的影響。 為此, 在數(shù)據(jù)預(yù)處理之前先截去背景噪聲影響明顯的波段, 剩下光譜數(shù)據(jù)的波長范圍為950.9~1 527.1 nm, 總共180個(gè)波長的光譜數(shù)據(jù), 10個(gè)品種的雜交水稻種子的平均反射光譜如圖4所示。 由圖4可知, 10類雜交水稻種子的光譜趨勢(shì)相同, 其波峰、 波谷位置基本一致, 但不同種類水稻種子間反射率大小不同, 這可能由于不同水稻種子的化學(xué)成分以及分子結(jié)構(gòu)差異所造成的。 在950.9~1 527.1 nm波長范圍, 包含多數(shù)有機(jī)物分子中含氫基團(tuán)X—H(X為N、 O、 C、 S等)的光譜信息, 包括N—H基團(tuán)(1 000及1 400~1 800 nm附近)以及C—H基團(tuán)(1 050~1 200 nm附近; 1 300~1 500 nm附近)等光譜信息, 可有效反映不同品種間水稻種子光譜信息差異。 在分類過程中, 使用Sklearn庫中的隨機(jī)劃分方法將2 500粒雜交水稻種子的圖像數(shù)據(jù)與光譜數(shù)據(jù)按8∶1∶1的比例劃分為訓(xùn)練集、 驗(yàn)證集和測(cè)試集, 即訓(xùn)練集樣本數(shù)量為2 000個(gè), 驗(yàn)證集樣本數(shù)量為250個(gè), 測(cè)試集樣本數(shù)量為250個(gè)。
圖4 10種雜交水稻種子的平均光譜曲線
對(duì)校正過的散射光譜進(jìn)行預(yù)處理能夠進(jìn)一步抑制背景噪聲對(duì)光譜數(shù)據(jù)的影響, 并改善模型的分類精度。 用SG平滑, MSC和SG+MSC三種方法預(yù)處理后的光譜曲線如圖5(a—d)所示。 通過比較可以看出, SG平滑算法可以有效減少對(duì)采集的光譜數(shù)據(jù)中的隨機(jī)噪聲, 如圖5(b)所示。 利用MSC算法進(jìn)行預(yù)處理可以消除散射對(duì)光譜的影響, 提高了光譜數(shù)據(jù)的信噪比, 此外, 通過圖5(c)可以看出MSC預(yù)處理方法能夠有效地抑制光譜基線漂移和背景噪聲干擾, 能提高光譜的分辨率。 通過圖5(d)可以看出, SG+MSC方法結(jié)合了SG和MSC的優(yōu)點(diǎn), 在抑制背景噪聲影響和光譜數(shù)據(jù)信噪比等方面都有明顯的提升。
圖5 10種雜交水稻種子的原始光譜(a)和預(yù)處理后近紅外光譜(b)SG平滑預(yù)處理, (c)MSC預(yù)處理, (d)SG+MSC
2.2.1 不同預(yù)處理方法對(duì)1D-CNN模型分類效果的影響
表1為近紅外光譜數(shù)據(jù)經(jīng)不同預(yù)處理方法后采用1D-CNN模型進(jìn)行分類的結(jié)果。 由表1可以看出, 未經(jīng)過預(yù)處理的原始光譜數(shù)據(jù)驗(yàn)證集與測(cè)試集精度分別為70%與63%。 而采用MSC、 SG與SG+MSC 3種方法對(duì)原始光譜進(jìn)行預(yù)處理之后, 1D-CNN模型的分類精度都獲得不同程度的提升。 其中采用SG平滑預(yù)處理后, 模型的分類效果最佳, 驗(yàn)證集與測(cè)試集精度分別提升至95.4%和92.9%。 采用MSC預(yù)處理后, 1D-CNN模型的分類效果沒有明顯的改善, 進(jìn)一步采用SG和MSC兩種算法同時(shí)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理, 模型驗(yàn)證集和測(cè)試集的精度可增加到85.2%和78.4%, 但其結(jié)果仍低于單獨(dú)采用SG算法預(yù)處理后的精度。 因此利用MSC預(yù)處理方法對(duì)1D-CNN分類模型精度提高有限, 將采用SG算法對(duì)高光譜數(shù)據(jù)進(jìn)行預(yù)處理。
表1 不同預(yù)處理方法下1D-CNN模型的分類精度
為了進(jìn)一步探討其內(nèi)在機(jī)制, 采用基于T分布的隨機(jī)近鄰嵌入算法(T-distributed stochastic neighbor embedding, T-SNE)對(duì)不同預(yù)處理方法下的光譜數(shù)據(jù)集進(jìn)行可視化降維, 結(jié)果如圖6(a—d)所示。 通過比較不同預(yù)處理方法下的T-SNE圖可以明顯看到, 采用SG平滑預(yù)處方法比MSC具有更好的區(qū)分度, 如圖6(b)和(c)所示。 而SG+MSC預(yù)處理方法的區(qū)分效果次之[見圖6(d)]。 該結(jié)果表明, 利用SG平滑預(yù)處理能夠有效的改善樣本的區(qū)分度, 而采用SG+MSC兩種預(yù)處理方法對(duì)數(shù)據(jù)集進(jìn)行多次預(yù)處理并沒有獲得更優(yōu)的樣本區(qū)分度。
圖6 光譜數(shù)據(jù)的T-SNE可視化結(jié)果
2.2.2 基于波長重構(gòu)圖像數(shù)據(jù)集的分類
采用隨機(jī)森林(random forest, RF)特征選擇算法對(duì)180個(gè)特征波長的重要性評(píng)分進(jìn)行排序, 只展示了重要性評(píng)分最高的9個(gè)特征波長, 其重要性評(píng)分排序如圖7所示。 為了比較特征波長個(gè)數(shù)對(duì)模型分類效果的影響, 選擇重要性評(píng)分最高的特征波長(950.9 nm)構(gòu)建單一特征波長下10種雜交水稻樣品的灰度圖像數(shù)據(jù)集以及選擇重要性評(píng)分最高的3個(gè)特征波長(950.9、 976.5、 966.9 nm)構(gòu)建3特征波長偽彩色圖像數(shù)據(jù)集。
圖7 重要性評(píng)分最高的9個(gè)特征波長
為了比較不同模型的分類效果, 分別采用VGG和ResNet模型對(duì)10種雜交水稻種子進(jìn)行分類。 考慮到網(wǎng)絡(luò)層數(shù)對(duì)模型分類精度的影響, 還比較了上述兩種模型在不同網(wǎng)絡(luò)層數(shù)下的分類效果, 各種模型的分類結(jié)果如表2所示。 通過比較可以看出, 無論是基于單波長的灰度圖像數(shù)據(jù)集還是基于3波長的偽彩圖數(shù)據(jù)集, VGG模型的分類精確度都優(yōu)于ResNet模型。 相對(duì)于單波長灰度圖像數(shù)據(jù)集, 采用基于3波長重構(gòu)的偽彩圖像數(shù)據(jù)集來進(jìn)行分類不僅具有更優(yōu)的分類效果, 還能有效地抑制分類模型的過擬合現(xiàn)象。 對(duì)于VGG模型, 網(wǎng)絡(luò)層數(shù)為11, 13, 16, 19時(shí), 對(duì)于3波長重構(gòu)的偽彩圖像數(shù)據(jù)集的分類都能獲得較好的分類精度, 當(dāng)網(wǎng)絡(luò)層數(shù)為16時(shí), VGG模型分類效果最佳, 驗(yàn)證集與測(cè)試集的精度分別達(dá)到92.8%和92.8%。 而對(duì)于ResNet網(wǎng)絡(luò)模型, 為了避免過高的網(wǎng)絡(luò)層數(shù)對(duì)模型分類精度的影響, 只給出了該模型的最佳網(wǎng)絡(luò)層數(shù), 即網(wǎng)絡(luò)層數(shù)為18時(shí)的分類效果, 其驗(yàn)證集與測(cè)試集的分類精度分別為89.2%和87.2%, 分類效果要低于VGG模型。
表2 基于圖像數(shù)據(jù)的分類模型分類精度
2.2.3 基于光譜與圖像數(shù)據(jù)融合的分類模型
通過上述基于特征波長重構(gòu)的圖像數(shù)據(jù)集的分類效果可以看出, 將多個(gè)特征進(jìn)行(3個(gè)特征波長)融合能夠有效提高模型的分類精確度, 其內(nèi)在機(jī)制是多特征(3波長)相對(duì)于單一特征(單波長)而言能夠進(jìn)一步提高樣本間的差異, 從根本上提升模型的分類效果。 為了進(jìn)一步提高精度, 在基于3波長圖像數(shù)據(jù)集的基礎(chǔ)再融入光譜維數(shù)據(jù), 構(gòu)建基于圖譜融合的2Branch-CNN分類模型, 該模型的分類結(jié)果如表3所示。 為了獲得最優(yōu)的分類效果, 對(duì)圖像數(shù)據(jù)集分支網(wǎng)絡(luò), 分別采用了VGG模型和ResNet模型, 并調(diào)整了網(wǎng)絡(luò)層數(shù)。 通過表3可以看出, 無論是采用VGG模型還是ResNet模型, 利用圖譜融合后模型的分類效果都獲得了不同程度的提升。 對(duì)于VGG+1DCNN二分支網(wǎng)絡(luò)模型, 當(dāng)VGG模型的網(wǎng)絡(luò)層數(shù)增加到16層時(shí), 二分支網(wǎng)絡(luò)獲得最優(yōu)分類結(jié)果, 其驗(yàn)證集與測(cè)試集的分類精度為98%和96.7%。 相比于1D-CNN分類模型的最優(yōu)分類效果, 驗(yàn)證集與測(cè)試集的分類精度分別提升了2.6%和3.8%; 相對(duì)于基于3波長重構(gòu)偽彩圖數(shù)據(jù)集的VGG模型的最佳分類精度, 驗(yàn)證集與測(cè)試集分類精度分別提升了5.2%和3.9%。 而對(duì)于由ResNet+1DCNN構(gòu)成的二分支網(wǎng)絡(luò)-模型的分類精度能夠獲得更顯著的提升, 其驗(yàn)證集與測(cè)試集的分類精度分別達(dá)到96.5%和94.7%, 相對(duì)于基于3波長重構(gòu)的圖像數(shù)據(jù)集的ResNet模型的最佳分類效果, 驗(yàn)證集和測(cè)試集的分類精度分別提升7.3%和6.8%。
表3 基于光譜與圖像數(shù)據(jù)融合的2branch-CNN模型分類精度
以上討論了基于圖譜融合的分類模型對(duì)10種雜交水稻種子的整體分類效果。 而不同種類被錯(cuò)誤分類的概率也是衡量分類模型有效性的重要指標(biāo), 為進(jìn)一步驗(yàn)證2branch-CNN分類模型對(duì)不同種類雜交水稻種子的分類效果, 本文構(gòu)建混淆矩陣(confusion matrix)對(duì)樣本的真實(shí)類別和預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證, 結(jié)果如圖8所示。 從圖8可以看出對(duì)于圖譜融合的2branch-CNN分類模型, 雜交水稻品種ly898、 qly1822的測(cè)試集分類精度相對(duì)較低, 分別93%和88%, 而對(duì)于其他水稻品種, 其驗(yàn)證集和測(cè)試集的分類精度均可以達(dá)到95%以上。 該結(jié)果不僅再次表明光譜數(shù)據(jù)與圖像信息融合能夠進(jìn)一步提高大部分種類雜交水稻種子間區(qū)分度, 進(jìn)而提升模型的整體分類精度, 而且直接證明本論文提出的2Branch-CNN網(wǎng)絡(luò)具有更好的泛化能力與分類效果。
圖8 驗(yàn)證集和測(cè)試集的混淆矩陣
在基于光譜數(shù)據(jù)集的1D-CNN和圖像數(shù)據(jù)集的2D-CNN的基礎(chǔ)上, 構(gòu)建基于光譜與圖像融合的2Branch-CNN模型。 研究結(jié)果表明, 通過光譜與圖像數(shù)據(jù)融合能夠有效提升模型的分類精度, 其驗(yàn)證集和測(cè)試集的分類精度分別達(dá)到98%和96.7%, 與基于光譜數(shù)據(jù)集的1D-CNN相比, 驗(yàn)證集和測(cè)試集的分類精度分別提高了2.6%和3.8%, 與基于圖像數(shù)據(jù)集的2D-CNN分類模型相比, 驗(yàn)證集和測(cè)試集的分類精度分別提高了5.2%和3.9%。 本研究結(jié)果表明, 構(gòu)建圖譜信息融合的分類模型, 能夠有效提升對(duì)雜交水稻種子品種的分類精度, 該研究方法對(duì)農(nóng)業(yè)育種中的種子快速篩選及分級(jí)具有重要的參考價(jià)值。