張 伏, 王新月, 崔夏華, 禹 煌, 曹煒樺, 張亞坤, 熊 瑛, 付三玲
1. 河南科技大學(xué)農(nóng)業(yè)裝備工程學(xué)院, 河南 洛陽(yáng) 471003
2. 機(jī)械裝備先進(jìn)制造河南省協(xié)同創(chuàng)新中心, 河南 洛陽(yáng) 471003
3. 河南科技大學(xué)農(nóng)學(xué)院/牡丹學(xué)院, 河南 洛陽(yáng) 471023
4. 河南科技大學(xué)物理工程學(xué)院, 河南 洛陽(yáng) 471023
玉米是我國(guó)重要的糧食作物之一, 黃淮海玉米生產(chǎn)區(qū)在我國(guó)糧食生產(chǎn)方面占有重要地位。 在玉米種植過(guò)程中選擇合適的玉米品種是實(shí)現(xiàn)高產(chǎn)的關(guān)鍵環(huán)節(jié)。 在農(nóng)業(yè)實(shí)際生產(chǎn)中, 玉米品種很難通過(guò)肉眼觀察進(jìn)行準(zhǔn)確區(qū)分[1]。 因此, 對(duì)玉米品種的準(zhǔn)確高效、 快速鑒別具有重要的研究意義和應(yīng)用價(jià)值。
傳統(tǒng)種子鑒別包括人工鑒別、 田間種植鑒別、 電泳檢測(cè)、 生理和化學(xué)鑒定等方法, 鑒別過(guò)程冗雜且費(fèi)時(shí)費(fèi)力[2], 高光譜圖像無(wú)損檢測(cè)技術(shù)具有圖譜合一特點(diǎn), 廣泛用于農(nóng)作物種子品種、 品質(zhì)、 活力等無(wú)損檢測(cè)研究[3-5]。 Huang等[6]基于高光譜圖像技術(shù)對(duì)玉米品種鑒別, 其SPA-(LS-SVM)模型準(zhǔn)確率為90%; Xia等[7]基于高光譜圖譜特征對(duì)17個(gè)玉米品種鑒別, 其MLDA-(LS-SVM)模型準(zhǔn)確率為99.13%; Chivasa等[8]基于多時(shí)相高光譜數(shù)據(jù)建立PLS-DA模型對(duì)25個(gè)玉米品種區(qū)分; Zhou等[9]基于高光譜圖像技術(shù)對(duì)玉米品種鑒別, 結(jié)合次區(qū)域投票建立的CNN模型效果較好; Sun等[10]基于高光譜圖像技術(shù)對(duì)大麥品種鑒別, 其SPA-KNN模型準(zhǔn)確率為93.71%; Singh等[11]基于近紅外高光譜技術(shù)對(duì)大麥品種鑒別, 其CNN模型效果較好; 邵琦等[12]基于高光譜圖像技術(shù)對(duì)3個(gè)玉米品種鑒別, 其Boruta-RF模型準(zhǔn)確率為78.3%; 吳翔等[13]基于近紅外高光譜技術(shù)對(duì)4個(gè)玉米品種鑒別, 其SPA-PLS-DA模型訓(xùn)練集、 測(cè)試集準(zhǔn)確率分別為78.5%、 70.8%; 黃敏等[14]基于高光譜圖像技術(shù)對(duì)9個(gè)玉米品種鑒別, 其PCA-BP模型準(zhǔn)確率為94.44%; 黃敏等[15]基于高光譜圖像技術(shù)對(duì)小麥品種鑒別, 其SPA-MS-3DCNN模型準(zhǔn)確率為96.72%; 吳永清等[16]基于高光譜圖像技術(shù)對(duì)小麥品種鑒別, 其CARS-LDA模型訓(xùn)練集、 測(cè)試集準(zhǔn)確率分別為91.8%、 86.0%; 張航等[5]基于高光譜圖像技術(shù)對(duì)3個(gè)小麥品種鑒別, 其PCA-SVM模型準(zhǔn)確率為95%; 鄧小琴[17]等基于高光譜圖像技術(shù)對(duì)水稻品種鑒別, 其(MP-UVE-PLS)-PLSDA模型準(zhǔn)確率為96%。
已有大量國(guó)內(nèi)外學(xué)者開(kāi)展農(nóng)作物種子品種鑒別研究, 其中, 提取特征波長(zhǎng)多采用SPA單一提取方法, 由于提取數(shù)目較少, 易出現(xiàn)部分有效信息缺失問(wèn)題; 模型多采用LS-SVM, 只實(shí)現(xiàn)局部最優(yōu), 缺乏稀疏性且魯棒性較低。 基于此, 提出一種基于高光譜圖像技術(shù)的玉米品種快速無(wú)損鑒別方法, 8個(gè)品種玉米種子的高光譜數(shù)據(jù)經(jīng)SG平滑和最大歸一化預(yù)處理后, 選用CARS、 SPA單一提取和CARS+SPA、 CARS-SPA組合篩選方法提取特征波長(zhǎng), 分別建立極限學(xué)習(xí)機(jī)模型對(duì)玉米品種鑒別, 以期獲得較佳鑒別效果, 為玉米及其他農(nóng)作物種子品種鑒別提供新思路和新方法。
試驗(yàn)所用玉米種子樣本均來(lái)自河南省洛陽(yáng)市河南科技大學(xué)農(nóng)學(xué)院的外觀完好且顏色相近的8個(gè)品種玉米種子, 分別標(biāo)號(hào)為類(lèi)別1、 2、 3、 4、 5、 6、 7、 8, 如圖1所示, 其中, 類(lèi)別1、 7、 8為常規(guī)種子, 其他為雜交種子, 每個(gè)品種60粒, 共480粒玉米種子樣本。
圖1 玉米種子樣本
高光譜圖像采集系統(tǒng)主要包括高光譜成像儀(SPECIMFX17e, Specim, 芬蘭)、 自穩(wěn)定掃描平臺(tái)(SPECIMLabScanner 40×20 cm)、 2組150 W的鹵素?zé)絷嚵泄庠础?光纖、 暗箱和計(jì)算機(jī)等, 如圖2所示。 高光譜成像儀的掃描范圍是935.61~1 720.23 nm, 共224個(gè)光譜波段, 視場(chǎng)角為38°, 采樣間隔為3.5 nm, 光學(xué)分辨率為8 nm。 利用SPECIM配套的LumoScanner軟件獲取玉米種子高光譜圖像。 研究中數(shù)據(jù)處理軟件為ENVI5.3、 The Unscrambler X10.4、 Excel 2019、 Origin 2018、 Matlab 2016b。
圖2 高光譜圖像采集系統(tǒng)
為獲得穩(wěn)定的光譜數(shù)據(jù), 先將高光譜成像儀預(yù)熱30 min, 并設(shè)置曝光時(shí)間6.50 ms、 數(shù)據(jù)采集頻率50 Hz、 平臺(tái)移動(dòng)速度25.11 mm·s-1、 高光譜相機(jī)鏡頭與自穩(wěn)定掃描平臺(tái)間距32 cm等參數(shù)。
在種子成熟階段胚芽?jī)?chǔ)存大量蛋白質(zhì)、 脂肽等有機(jī)物供其生長(zhǎng)和發(fā)育[18]。 因此, 采集樣本胚芽面圖像信息, 樣本整齊排列擺放在自穩(wěn)定掃描平臺(tái)上, 每次掃描一個(gè)樣本類(lèi)別。
為避免雜光干擾, 圖像采集全程在暗箱中進(jìn)行, 采集后通過(guò)LumoScanner軟件將采集的樣本高光譜圖像信息及黑板、 白板圖像信息導(dǎo)入計(jì)算機(jī)中, 用ENVI5.3軟件對(duì)高光譜圖像黑白校正, 校正公式如式(1)。
(1)
式(1)中,R表示樣本校正后圖像,I表示樣本原始圖像,IAN表示黑板圖像,IB表示白板圖像。
選取玉米種子胚芽部位大小為10 pixel×10 pixel的ROI區(qū)域, 如圖3所示, 將ROI區(qū)域的光譜信息導(dǎo)出得到每粒種子ROI區(qū)域的平均光譜值, 處理后得到935.6~1 700.0 nm波長(zhǎng)范圍的平均光譜反射率曲線, 如圖4所示。 為提高光譜測(cè)量精度, 增強(qiáng)光譜信噪比, 剔除935.6~949.4 nm光譜信號(hào)噪聲較大的區(qū)域, 所以本試驗(yàn)實(shí)際有效波長(zhǎng)范圍是949.4~1 700.0 nm。 圖像采集過(guò)程中, 每隔10 min采集一次白板圖像信息重新進(jìn)行校正, 以確保采集準(zhǔn)確性。
圖3 選取ROI區(qū)域示意圖
圖4 原始平均光譜反射率曲線圖
競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adapative reweighted sampling, CARS)與連續(xù)投影算法(successive projections algorithm, SPA)可實(shí)現(xiàn)對(duì)原始數(shù)據(jù)降維處理; 極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)用于定性分類(lèi)和預(yù)測(cè), 通過(guò)訓(xùn)練單隱藏層前饋神經(jīng)網(wǎng)絡(luò), 隨機(jī)選取輸入層權(quán)重和隱藏層偏置, 輸出層權(quán)重通過(guò)最小化損失函數(shù)計(jì)算解析, 具有訓(xùn)練參數(shù)少、 學(xué)習(xí)速度快、 泛化能力強(qiáng)等優(yōu)點(diǎn)。
光譜數(shù)據(jù)預(yù)處理后, 對(duì)其提取有效特征波長(zhǎng)作為模型輸入變量, 8種不同類(lèi)別種子作為輸出變量, 建立ELM品種鑒別模型, 通過(guò)鑒別準(zhǔn)確率(Accuracy)對(duì)模型性能進(jìn)行評(píng)價(jià)。
將480個(gè)樣本按照2∶1的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集, 其中, 每個(gè)類(lèi)別訓(xùn)練集和測(cè)試集分別為40和20個(gè), 八個(gè)類(lèi)別訓(xùn)練集和測(cè)試集分別為320和160個(gè), 以此分析訓(xùn)練集和測(cè)試集平均鑒別準(zhǔn)確率(Accuracy)。
由于光譜數(shù)據(jù)除含被測(cè)樣本待測(cè)信息外, 易受雜散光、 噪聲等無(wú)關(guān)信息的干擾, 故在建立模型前對(duì)光譜數(shù)據(jù)預(yù)處理, 以減弱各種非目標(biāo)因素對(duì)檢測(cè)信號(hào)的影響, 以期提高模型精度。 首先選擇平滑點(diǎn)數(shù)為3的SG平滑法(Savitzky-Golay smoothing)對(duì)ROI區(qū)域內(nèi)光譜數(shù)據(jù)平滑去噪, 再采用最大歸一化法(maximum normalization, MN)將光譜數(shù)據(jù)映射到[0, 1]區(qū)間內(nèi), 消除由于量綱不同而引起的誤差。 所使用的數(shù)據(jù)處理軟件是The Unscrambler X 10.4, 預(yù)處理后的光譜平均反射率曲線圖, 如圖5所示。
圖5 預(yù)處理后的光譜平均反射率曲線圖
2.3.1 競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)優(yōu)選特征波長(zhǎng)
設(shè)置蒙特卡洛采樣次數(shù)為50, 采用5折交叉驗(yàn)證法提取特征波長(zhǎng), 如圖6所示。 圖6(a)表示CARS優(yōu)選特征波長(zhǎng)變量數(shù)目隨采樣次數(shù)增加而減少, 在第23次采樣前, 優(yōu)選特征波長(zhǎng)變量數(shù)目急劇下降, 第23次采樣后, 優(yōu)選特征波長(zhǎng)變量數(shù)目緩慢下降, 說(shuō)明CARS優(yōu)選特征波長(zhǎng)是從粗選到細(xì)選的過(guò)程; 圖6(b)表示交叉驗(yàn)證均方根誤差(RMSECV)隨采樣次數(shù)增加先緩慢減小后逐漸增大, 表明在第30次采樣后CARS出現(xiàn)了篩選過(guò)度的情況, 以至于剔除了含有有效信息的敏感波長(zhǎng)變量, 導(dǎo)致模型預(yù)測(cè)精度下降, RMSECV值陡然增大; 圖6(c)表示在第23、 24次采樣時(shí)RMSECV值最小, 此時(shí)優(yōu)選出26個(gè)特征波長(zhǎng)變量。
圖6 CARS算法提取特征波長(zhǎng)過(guò)程
2.3.2 連續(xù)投影算法(SPA)優(yōu)選特征波長(zhǎng)
設(shè)置優(yōu)選最大波長(zhǎng)數(shù)目為20, 共優(yōu)選出10個(gè)波長(zhǎng)變量, 如圖7所示。 由圖7(a), 隨變量個(gè)數(shù)增加, 均方根誤差(RMSE)整體呈現(xiàn)先急速下降后緩慢減小趨勢(shì)。 當(dāng)變量數(shù)為10時(shí), RMSE變化不再顯著, 此時(shí)RMSE為1.294 9。 由于變量過(guò)多會(huì)增加模型的運(yùn)算量和復(fù)雜度, 因此選取10個(gè)變量作為最終特征變量數(shù)目。
圖7 SPA算法提取特征波長(zhǎng)過(guò)程
2.3.3 組合篩選特征波長(zhǎng)
為解決CARS和SPA單一篩選特征波長(zhǎng)變量出現(xiàn)共線性等問(wèn)題, 采用CARS+SPA組合篩選方法及CARS-SPA二次篩選方法, 不同提取特征波長(zhǎng)方法結(jié)果對(duì)比如表1所示。
表1 不同提取特征波長(zhǎng)方法結(jié)果
CARS-SPA二次篩選結(jié)果如圖8所示, 共優(yōu)選出18個(gè)特征波長(zhǎng)變量, 分別是949.4、 952.8、 956.3、 1 039.5、 1 140.4、 1 168.4、 1 199.8、 1 220.8、 1 234.8、 1 319.1、 1 336.7、 1 375.5、 1 410.7、 1 435.5、 1 495.7、 1 573.8、 1 645.1和1 698.7 nm。
圖8 SPA算法二次提取特征波長(zhǎng)過(guò)程
分別將全光譜波段共217個(gè)特征波長(zhǎng)、 CARS算法提取的26個(gè)特征波長(zhǎng)、 SPA算法提取的10個(gè)特征波長(zhǎng)、 CARS和SPA算法組合提取的共34個(gè)特征波長(zhǎng)、 CARS算法一次提取、 SPA算法二次篩選的18個(gè)特征波長(zhǎng)作為輸入變量建立(SG+MN)-ELM、 (SG+MN)-CARS-ELM、 (SG+MN)-SPA-ELM、 (SG+MN)-(CARS+SPA)-ELM、 (SG+MN)-(CARS-SPA)-ELM模型, 訓(xùn)練集和測(cè)試集平均鑒別準(zhǔn)確率分別為96.56%和94.38%、 95.94%和94.38%、 83.75%和81.25%、 97.5%和95%、 98.13%和98.13%。 模型預(yù)測(cè)結(jié)果如表2所士, 單個(gè)類(lèi)別準(zhǔn)確率對(duì)比如圖9所示, 五種模型平均鑒別準(zhǔn)確率對(duì)比如圖10所示。
表2 模型預(yù)測(cè)結(jié)果
圖9 品種鑒別準(zhǔn)確率對(duì)比
圖10 模型平均準(zhǔn)確率對(duì)比
根據(jù)圖10可知訓(xùn)練集和測(cè)試集模型的鑒別精度排序是: 組合篩選>全波段>單一提取, 說(shuō)明組合篩選特征波長(zhǎng)避免了單一提取的弊端。 根據(jù)圖9, 類(lèi)別7鑒別效果最佳, 類(lèi)別5最差, 類(lèi)別6次之。 推測(cè)類(lèi)別5與類(lèi)別2、 4、 6有內(nèi)在本質(zhì)聯(lián)系, 可能與其父系或母系相關(guān)。 而CARS-SPA組合篩選特征波長(zhǎng)法恰好提升了雜交種子的鑒別精度, 其中, 類(lèi)別5、 6效果最為顯著, 表明CARS-SPA組合篩選的特征波長(zhǎng)更敏感, 能代表全波段光譜信息。
綜上, (SG+MN)-(CARS-SPA)-ELM較(SG+MN)-ELM、 (SG+MN)-CARS-ELM、 (SG+MN)-SPA-ELM、 (SG+MN)-(CARS+SPA)-ELM模型訓(xùn)練集和測(cè)試集平均鑒別準(zhǔn)確率分別提高了1.57%、 2.19%、 14.38%、 0.63%和3.75%、 3.75%、 16.88%、 3.13%, 結(jié)果表明(SG+MN)-(CARS-SPA)-ELM模型對(duì)玉米品種具有較好的鑒別效果, 組合篩選的特征波長(zhǎng)較全波段及單一方法提取的更具代表性。
為鑒別優(yōu)良的玉米品種, 實(shí)現(xiàn)玉米高產(chǎn), 對(duì)8個(gè)不同玉米品種進(jìn)行了鑒別試驗(yàn)和分析。
(1)利用SG+MN預(yù)處理方法對(duì)所采集的光譜數(shù)據(jù)平滑降噪并歸一化, 確定949.4~1 700.0 nm范圍的光譜波段信息為有效光譜;
(2)分別采用CARS、 SPA單一提取法和CARS+SPA、 CARS-SPA組合篩選法對(duì)SG+MN預(yù)處理后的樣本降維, 得到26、 10、 34、 18個(gè)特征波長(zhǎng)變量;
(3)基于上述4種提取特征波長(zhǎng)方法建立ELM定性鑒別模型, 并與全波段建模效果對(duì)比分析, 發(fā)現(xiàn)組合篩選法>全波段法>單一提取法。 其中, (CARS-SPA)-ELM模型效果最佳, 訓(xùn)練集共320個(gè)樣本, 預(yù)測(cè)正確數(shù)目為314, 預(yù)測(cè)平均鑒別準(zhǔn)確率為98.13%, 較ELM、 CARS-ELM、 SPA-ELM、 (CARS+SPA)-ELM分別提升了1.57%、 2.19%、 14.38%、 0.63%; 測(cè)試集共160個(gè)樣本, 預(yù)測(cè)正確數(shù)目為157, 預(yù)測(cè)平均鑒別準(zhǔn)確率為98.13%, 較ELM、 CARS-ELM、 SPA-ELM、 (CARS+SPA)-ELM分別提升了3.75%、 3.75%、 16.88%、 3.13%。
結(jié)果表明, CARS-SPA組合篩選的特征波長(zhǎng)較單一法及全波段法更敏感, 能代表全波段光譜信息, ELM定性模型有較好的鑒別性能, 可實(shí)現(xiàn)玉米種子快速準(zhǔn)確鑒別, 該研究為玉米種子及其他農(nóng)作物種子快速準(zhǔn)確鑒別提供了新的思路和方法。