張 伏, 禹 煌, 熊 瑛, 張方圓, 王新月, 呂慶豐, 武一戈, 張亞坤, 付三玲
1. 河南科技大學(xué)農(nóng)業(yè)裝備工程學(xué)院, 河南 洛陽(yáng) 471003
2. 機(jī)械裝備先進(jìn)制造河南省協(xié)同創(chuàng)新中心, 河南 洛陽(yáng) 471003
3. 河南科技大學(xué)農(nóng)學(xué)院/牡丹學(xué)院, 河南 洛陽(yáng) 471023
4. 河南平安種業(yè)有限公司, 河南 焦作 454881
5. 河南科技大學(xué)物理工程學(xué)院, 河南 洛陽(yáng) 471023
玉米是世界三大糧食作物之一, 同時(shí)也是我國(guó)重要的糧食作物[1]。 玉米種子質(zhì)量直接影響作物產(chǎn)量, 特別是劣質(zhì)種子在外形、 顏色等方面與正常種子難以分辨, 但其種子發(fā)芽率, 含水率均不符合國(guó)家標(biāo)準(zhǔn), 嚴(yán)重?fù)p害了種植戶的經(jīng)濟(jì)效益[2]。 因此, 對(duì)玉米種子準(zhǔn)確高效、 快速鑒別具有重要研究意義和應(yīng)用價(jià)值。
除摻雜不同品種種子肉眼可區(qū)分外, 劣質(zhì)玉米種子難以用肉眼區(qū)分, 傳統(tǒng)方法是將玉米種子送至專門鑒定機(jī)構(gòu), 通過現(xiàn)代生物技術(shù)手段鑒別, 但鑒別成本較高, 鑒定過程費(fèi)時(shí)費(fèi)力[3]。 高光譜圖像技術(shù)是將光譜與圖像相結(jié)合, 常被用于農(nóng)產(chǎn)品種子品種分類、 內(nèi)部物質(zhì)識(shí)別、 活性檢測(cè)等研究[4-6]。 Xia等[7]利用高光譜對(duì)17個(gè)玉米品種鑒別, 其中MLDA-(LS-SVM)模型的準(zhǔn)確率最高為99.13%。 Zhou等[8]基于高光譜圖像技術(shù)鑒別玉米品種, 其中最佳模型是結(jié)合次區(qū)域投票算法的CNN模型, 其胚狀形態(tài)和非胚狀形態(tài)的準(zhǔn)確率為97.78%和98.15%。 Chivasa等[9]利用多時(shí)相高光譜對(duì)25個(gè)玉米品種鑒別, 采用不同的預(yù)處理方法處理數(shù)據(jù), 與未預(yù)處理模型對(duì)比, 采用自標(biāo)度法使花期和衰老期的PLS-DA模型準(zhǔn)確率分別提升52%和63%, 采用廣義最小二乘加權(quán)使花期和衰老期的PLS-DA模型分別提高55%和62%。 楊欣等[10]基于高光譜成像技術(shù)結(jié)合MSC預(yù)處理方法和CARS、 IRIV特征波段選取方法建立支持向量機(jī)和線性判別分析模型, MSC-IRIV-LDA模型的訓(xùn)練集和測(cè)試集識(shí)別率分別為0.960和0.933。 田喜等[11]建立PLSR模型預(yù)測(cè)玉米種子的水分含量, 預(yù)測(cè)最高效模型為SPA-PLS模型, 其相關(guān)系數(shù)(Rp)為0.922 7, 預(yù)測(cè)均方根誤差為0.336 6。 吳靜珠等[12]基于高光譜技術(shù)結(jié)合改進(jìn)RF算法建立玉米種子胚面朝上和胚面朝下兩種水分檢測(cè)模型, 胚面朝上模型精度較高, 訓(xùn)練集和測(cè)試集相關(guān)系數(shù)R分別為0.969和0.881, 均方根誤差分別為0.094%和0.404%。 Ashabahebwa等[13]基于高光譜成像技術(shù)結(jié)合PLS-DA算法建模, 模型訓(xùn)練集和預(yù)測(cè)集的準(zhǔn)確率分別為97.6%和95.6%。 Cui等[14]采用高光譜成像技術(shù)采集甜玉米種子光譜, 采用PLS、 PCR和KPCR建立回歸模型, 應(yīng)用特征選擇算法后以KPCR建立的根長(zhǎng)和苗長(zhǎng)預(yù)測(cè)模型結(jié)果為0.780 5和0.607 4。 Feng等[15]采用高光譜成像技術(shù)鑒定人工老化玉米種子活力, 采用PCA定性分析不同老化時(shí)間條件下的玉米籽粒, 通過二階導(dǎo)數(shù)選擇特征波長(zhǎng), 分別建立基于全光譜和最佳波長(zhǎng)的SVM分類模型。 孫俊等[16]基于高光譜圖像技術(shù)與深度學(xué)習(xí)建立檢測(cè)水稻種子活力等級(jí)的SAE-SVM模型, 其準(zhǔn)確率達(dá)到96.47%, GWO算法優(yōu)化后準(zhǔn)確率提升至98.75%。 彭彥昆等[17]提出一種基于高光譜的番茄種子分級(jí)算法, 其模型校正集和驗(yàn)證集的正確率分別為93.75%和90.48%。
國(guó)內(nèi)外學(xué)者對(duì)玉米種子的品種、 物質(zhì)含量、 活力已有大量相關(guān)研究, 但對(duì)玉米種子受熱損傷和劣質(zhì)種子的研究較少。 本研究利用高光譜成像技術(shù), 快速獲取玉米種子的光譜信息, 通過多元散射校正(multiplicative scatter correction, MSC)、 標(biāo)準(zhǔn)正態(tài)變換(standard normal variation, SNV)對(duì)光譜預(yù)處理, 與連續(xù)投影算法(successive projections algorithm, SPA)和競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling, CARS)兩種特征波段提取, 以發(fā)芽試驗(yàn)結(jié)果評(píng)價(jià)種子生活力建立支持向量機(jī)(support vector machine, SVM)模型, 以此實(shí)現(xiàn)劣質(zhì)種子的快速無(wú)損識(shí)別, 為無(wú)損快速檢測(cè)熱損傷玉米種子提供新方法。
試驗(yàn)材料選取900?!霸グ踩?hào)”玉米種子并分別編號(hào), 樣品來(lái)自于河南平安種業(yè)有限公司, 選取樣品時(shí)應(yīng)盡量保證樣品種子表面平整、 無(wú)霉變、 無(wú)損傷, 將樣品放置在恒溫恒濕環(huán)境下, 后續(xù)用于種子熱損傷試驗(yàn)、 光譜采集和種子發(fā)芽試驗(yàn)。
采用的高光譜圖像采集系統(tǒng)包括高光譜成像儀(SPECIM FX17e, Specim, 芬蘭)、 自穩(wěn)定掃描平臺(tái)(SPECIM LabScanner 40×20 cm)、 2組150 W的鹵素?zé)絷嚵泄庠础?光纖、 暗箱和計(jì)算機(jī)等, 如圖1所示。 高光譜成像儀范圍為900~1 700 nm, 共224個(gè)光譜波段, 視場(chǎng)角為38°, 采樣間隔為3.5 nm, 光學(xué)分辨率為8 nm, 利用高光譜圖像系統(tǒng)配套的Lumo Scanner軟件獲取玉米種子高光譜圖像。 研究中數(shù)據(jù)處理軟件為ENVI 5.3、 Excel 2021、 Origin 2022、 Matlab 2021a。
“豫安三號(hào)”玉米種子均分為9份, 每份100粒, 共9組樣品, 其中一組為對(duì)照組, 不做熱損傷處理, 其余8組在60、 70和80 ℃置于電鼓風(fēng)烘干箱中做不同時(shí)長(zhǎng)的熱損傷處理, 獲得9組不同損傷程度的玉米種子樣品。
為獲穩(wěn)定的光譜數(shù)據(jù), 試驗(yàn)前將高光譜成像儀預(yù)熱30 min, 曝光時(shí)間為6.50 ms、 數(shù)據(jù)采集頻率為50 Hz、 平臺(tái)移動(dòng)速度為25.11 mm·s-1、 高光譜相機(jī)鏡頭與自穩(wěn)定掃描平臺(tái)間距為32 cm。
玉米胚芽?jī)?nèi)含大量蛋白質(zhì)、 脂肪及維生素等營(yíng)養(yǎng)物質(zhì)。 因此, 采集試驗(yàn)樣本的胚芽側(cè)圖像信息。 為提高試驗(yàn)效率, 將種子試驗(yàn)樣本均勻放置于黑色卡紙, 每次掃描一個(gè)樣本類別。
為減少雜光干擾, 光譜采集全程在暗箱中, 采集后使用Lumo Scanner軟件將樣本的高光譜圖像信息及黑暗、 白板圖像信息導(dǎo)入計(jì)算機(jī)中, 用ENVI 5.3軟件對(duì)高光譜圖像黑白校正, 校正公式如式(1)。
(1)
式(1)中,R為樣本校正光譜圖像,I為樣本原始光譜圖像,IB為暗光譜圖像,IW為白光譜圖像。
玉米種子胚芽部位ROI區(qū)域選取大小為10×10 pixel, 如圖2所示, 將ROI區(qū)域光譜信息導(dǎo)出, 即可得到每粒種子在ROI區(qū)域的平均光譜值和光譜反射率曲線, 波長(zhǎng)范圍為935.61~1 720.23 nm, 如圖3所示。 為提高光譜測(cè)量精度, 增強(qiáng)光譜信噪比, 剔除935.61~959.81和1 702.33~1 720.23 nm信號(hào)噪聲較大的兩段光譜, 故實(shí)際有效波長(zhǎng)范圍為963.27~1 698.75 nm。 為確保采集準(zhǔn)確性, 每隔10 min采集一次白板(重新校正)圖像信息。
圖2 ROI區(qū)域選取示意圖
圖3 樣本原始光譜數(shù)據(jù)曲線圖
根據(jù)GB/T 3543.4—1995, 采用紙培法進(jìn)行發(fā)芽試驗(yàn), 如圖4所示。
圖4 發(fā)芽試驗(yàn)
第7天測(cè)定發(fā)芽率, 按照式(2)計(jì)算發(fā)芽率
(2)
式(2)中,G為發(fā)芽率,M1為全部發(fā)芽種子數(shù)目。M為試驗(yàn)種子總數(shù)。
采用多元散射校正(MSC)與標(biāo)準(zhǔn)正態(tài)變換(SNV)對(duì)數(shù)據(jù)預(yù)處理, 連續(xù)投影算法(SPA)和競(jìng)爭(zhēng)性自適應(yīng)加權(quán)算法(CARS) 實(shí)現(xiàn)數(shù)據(jù)降維, 支持向量機(jī)(SVM)用于定性分析和預(yù)測(cè), 遺傳算法(genetic algorithm, GA)尋找支持向量機(jī)中懲罰系數(shù)c和核函數(shù)參數(shù)g的最優(yōu)解。 SVM通過確定決策面, 使正例和負(fù)例間的距離邊最大化, 具有概括及預(yù)測(cè)能力。
9種損傷程度種子處理方法和發(fā)芽率如表1所示。
表1 9種損傷程度處理方法和種子發(fā)芽率
從發(fā)芽試驗(yàn)結(jié)果可以發(fā)現(xiàn): 同一溫度下, 隨干燥時(shí)間增加, 玉米種子發(fā)芽率均下降; 相同時(shí)間下, 隨溫度增加, 玉米種子發(fā)芽率下降; 組別②(60 ℃/10 min)下玉米種子發(fā)芽率達(dá)91%。 其他種子發(fā)芽率均低于正常種子, 表明玉米種子受到熱損傷。
本次試驗(yàn)將采樣的900個(gè)樣本按照3∶2的比例劃分為訓(xùn)練集(540個(gè))和測(cè)試集(360個(gè)), 其中每個(gè)類別的訓(xùn)練集與測(cè)試集個(gè)數(shù)為60個(gè)和40個(gè), 分析訓(xùn)練集與測(cè)試集的平均鑒別準(zhǔn)確率(Accuracy)。
由于光譜數(shù)據(jù)易受噪聲、 雜散光等無(wú)關(guān)信息干擾, 因此建立模型前需對(duì)光譜數(shù)據(jù)預(yù)處理, 提高模型精度。 本研究選擇多元散射校正(MSC)及標(biāo)準(zhǔn)正態(tài)變換(SNV)對(duì)ROI區(qū)域內(nèi)光譜數(shù)據(jù)去噪。 預(yù)處理后光譜平均反射率曲線圖, 如圖5和圖6所示。
圖5 MSC處理后光譜
圖6 SNV處理后光譜
為選擇最佳的預(yù)處理方法和模型組合, 將原始光譜數(shù)據(jù)和經(jīng)過SNV、 MSC預(yù)處理后的光譜數(shù)據(jù)分別輸入SVM模型進(jìn)行比較。 結(jié)果發(fā)現(xiàn): 經(jīng)過MSC處理后的光譜數(shù)據(jù)建模精度最高, 其測(cè)試集準(zhǔn)確率高于95%, 明顯優(yōu)于SNV預(yù)處理的建模結(jié)果, 如圖7所示。
圖7 MSC、 SNV和原數(shù)據(jù)建模對(duì)比圖
由高光譜全波段建立的SVM模型的結(jié)果可以發(fā)現(xiàn), 模型對(duì)熱損傷種子具有較好的識(shí)別能力, 但是因其數(shù)據(jù)量龐大, 存在較多的特征冗余, 影響最終模型準(zhǔn)確率, 因此采用SPA算法和CARS算法對(duì)MSC預(yù)處理后光譜數(shù)據(jù)進(jìn)行特征波段篩選。
2.5.1 連續(xù)投影算法(SPA)
首先, SPA選擇最小的串聯(lián)變量和最小冗余變量及最大投影矢量。 其次, 根據(jù)多元線性回歸(MLR)校正的驗(yàn)證集中最小的驗(yàn)證均方根誤差(RMSEV)來(lái)確定特征變量。 最后, 根據(jù)相關(guān)度的大小來(lái)安排所選的特征變量[18]。 SPA設(shè)置最大波長(zhǎng)數(shù)為210。
SPA提取特征波段如圖8所示, 隨變量數(shù)目增加, RMSE先急劇下降, 隨后減緩下降趨勢(shì), 當(dāng)變量數(shù)為64時(shí), 此時(shí)RMSE為1.327, 表明該數(shù)量波段包含熱損傷玉米種子最佳特征, 隨變量數(shù)目持續(xù)增加, 其特征波段包含過多冗余, 故選擇特征波段數(shù)目為64。
圖8 SPA算法提取特征波段
2.5.2 競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)
CARS算法提取特征波段如圖9所示。 蒙特卡洛采樣次數(shù)設(shè)置為50, 使用5折交叉驗(yàn)證法提取特征波段。
圖9 CARS算法提取特征波段
圖9(a)中, 特征波段變量數(shù)目隨著采樣次數(shù)逐步增加而減少, 在第21次采樣之后, 特征波段變量數(shù)目下降變緩; 圖9(b)表示交叉驗(yàn)證的均方根誤差在第21次時(shí)達(dá)到最小, 之后逐步上升, 在第45次時(shí)急劇上升, 說(shuō)明45次采樣后CARS篩選過度, 使有效特征變量數(shù)目減少, 導(dǎo)致最終預(yù)測(cè)模型精度下降, RMSECV上升。 圖9(c)表示在第21次采樣時(shí), RMSECV最小, 此時(shí)特征波段變量數(shù)目為31, 表明該采樣的特征波段數(shù)目包含熱損傷玉米種子的有效波段。 因此, CARS選出的特征波段數(shù)目為31。
分別將SPA提取出的64個(gè)特征波段及CARS提取31個(gè)特征波段建立SVM模型, 模型準(zhǔn)確率如表2所示。 Kappa值越高, 分類效果越好, 模型越穩(wěn)定。 如式(3)所示
(3)
表2 基于特征波段的建模準(zhǔn)確率
式(3)中,po為每類分類正確的樣本數(shù)之和除以總樣本數(shù)。
(4)
式(4)中,a為每類樣本總數(shù),b為每類樣本預(yù)測(cè)正確個(gè)數(shù),m為樣本類型數(shù),n為總樣本個(gè)數(shù)。
MSC-SPA-SVM模型的訓(xùn)練集和測(cè)試集的平均鑒別準(zhǔn)確率為96.30%和95.45%, 其Kappa系數(shù)為0.956; 而MSC-CARS-SVM模型的訓(xùn)練集和測(cè)試集的平均鑒別準(zhǔn)確率為96.48%和96.38%, 其Kappa系數(shù)為0.970, 因此MSC-CARS-SVM模型性能最佳, 故選擇其為最佳分類模型。
采用SVM建立分類模型, 需合理設(shè)置懲罰參數(shù)c和核函數(shù)參數(shù)g才能得到理想的預(yù)測(cè)準(zhǔn)確率, 因此本研究采用遺傳算法對(duì)SVM模型參數(shù)尋優(yōu), 設(shè)置迭代次數(shù)為200。 種群數(shù)量為20, 得到MSC-SPA-SVM模型最佳懲罰系數(shù)c為1.939, 最佳核函數(shù)參數(shù)g為5.561; MSC-CARS-SVM模型中最佳懲罰系數(shù)c為14.019, 最佳核函數(shù)參數(shù)g為1.698; 全波段模型最佳懲罰系數(shù)c為1.597, 最佳核函數(shù)參數(shù)g為2.925。 如表3所示三個(gè)模型的平均識(shí)別準(zhǔn)確率均提升至100%, 結(jié)果表明使用優(yōu)化算法對(duì)SVM模型參數(shù)尋優(yōu), 選出最佳參數(shù)建模能提升模型識(shí)別準(zhǔn)確率。
表3 GA算法參數(shù)尋優(yōu)結(jié)果
為鑒別劣質(zhì)種子, 使用鼓風(fēng)式烘干箱對(duì)玉米種子完成熱損傷試驗(yàn), 獲得不同熱損傷程度的玉米種子, 利用高光譜成像技術(shù), 通過預(yù)處理、 特征波段提取、 建模分析, 構(gòu)建熱損傷玉米種子的高光譜無(wú)損檢測(cè)模型。
(1)利用MSC與SNV兩種預(yù)處理方式對(duì)光譜原始數(shù)據(jù)降噪處理, 建立未處理光譜、 MSC為和SNV的三種SVM全波段模型, 最后以MSC為預(yù)處理方式的模型準(zhǔn)確率最高, 其訓(xùn)練集與預(yù)測(cè)集分別是93.89%和96.10%, 故選擇MSC預(yù)處理。
(2)采用SPA和CARS對(duì)用MSC處理后的光譜數(shù)據(jù)特征波段的提取, 通過建模結(jié)果識(shí)別準(zhǔn)確率分析, 發(fā)現(xiàn)CARS>全波段>SPA, CARS的訓(xùn)練集和預(yù)測(cè)集準(zhǔn)確率分別為98.89%和98.33%, 較全波段與SPA分別提升了5%和2.88%、 2.59%和2.23%。
(3)使用遺傳算法優(yōu)化選擇SVM中懲罰系數(shù)c和核函數(shù)參數(shù)g, 使得SVM最終模型識(shí)別率達(dá)到100%, 可實(shí)現(xiàn)對(duì)熱損傷劣質(zhì)玉米種子的快速準(zhǔn)確鑒別。