吳靜珠 張 樂(lè) 李江波 劉翠玲 孫曉榮 余 樂(lè)
(1.北京工商大學(xué)食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100048;2.北京農(nóng)業(yè)智能裝備技術(shù)研究中心, 北京 100097)
隨著機(jī)械化的提升,玉米播種方式從傳統(tǒng)的“一穴多?!敝饾u轉(zhuǎn)變?yōu)閱瘟>坎シN[1]。而單粒精量播種技術(shù)的關(guān)鍵核心之一是高質(zhì)量種子的篩選。根據(jù)GB 4404.1—2008,水分是我國(guó)農(nóng)作物種子質(zhì)量四大必檢項(xiàng)目之一[2]。當(dāng)玉米種子含水率高于14%時(shí)會(huì)導(dǎo)致種子呼吸增大、養(yǎng)分消耗過(guò)多、引起種子活力下降[3]。因此單粒玉米種子水分檢測(cè)對(duì)于單粒精量播種技術(shù)具有重要的實(shí)際意義。傳統(tǒng)的種子水分檢測(cè)方法如烘干法等,雖然檢測(cè)精度較高,但存在試樣破壞性、耗時(shí)長(zhǎng)以及無(wú)法進(jìn)行單粒檢測(cè)等弊端。近年來(lái)高光譜技術(shù)以其“圖譜合一”的技術(shù)優(yōu)點(diǎn),在單粒種子水分快速、無(wú)損檢測(cè)領(lǐng)域表現(xiàn)出極大的應(yīng)用潛力[3-9]。
我國(guó)在2010年發(fā)布了GB/T 24900—2010[10]用于玉米種子批水分測(cè)定,表明近紅外光譜技術(shù)在玉米種子批水分檢測(cè)領(lǐng)域具有實(shí)際應(yīng)用可行性。田喜等[11]在波長(zhǎng)1 000~2 500 nm范圍內(nèi)分別提取了玉米籽粒全表面結(jié)構(gòu)和胚結(jié)構(gòu)區(qū)域的高光譜信息,采用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)變量選擇算法、遺傳算法、連續(xù)投影算法篩選特征波段,建立并比較偏最小二乘回歸模型對(duì)水分含量的預(yù)測(cè)效果。結(jié)果表明,提取玉米籽粒胚結(jié)構(gòu)的圖譜信息較全表面光譜信息更高效。COGDILL等[12]在波長(zhǎng)750~1 090 nm范圍內(nèi)建立了一種基于高光譜成像預(yù)測(cè)單粒玉米種子的水分和油脂含量的模型。采用偏最小二乘回歸和主成分回歸作為建模算法,并比較了標(biāo)準(zhǔn)正態(tài)變換、去趨勢(shì)項(xiàng)、多元散射校正、遺傳算法和不經(jīng)過(guò)預(yù)處理對(duì)模型預(yù)測(cè)性能的影響。結(jié)果表明,基于主成分回歸的水分預(yù)測(cè)模型性能遠(yuǎn)優(yōu)于偏最小二乘回歸法,最佳交叉驗(yàn)證標(biāo)準(zhǔn)誤差為1.20%,相對(duì)性能決定因子為2.74。
上述研究表明高光譜技術(shù)檢測(cè)單粒玉米種子水分具有較好的理論基礎(chǔ)和可行性,但是由于現(xiàn)有的光譜檢測(cè)模型大都為單一模型,模型易受光譜采集引入的噪聲、樣本表面差異帶來(lái)的光譜信息偏差,以及水分檢測(cè)結(jié)果異常等敏感樣本擾動(dòng),模型缺乏穩(wěn)健性。集成學(xué)習(xí)是通過(guò)組合多個(gè)弱監(jiān)督模型來(lái)得到更全面的強(qiáng)監(jiān)督模型[13]的一種代表性機(jī)器學(xué)習(xí)方法,可以有效提升模型的穩(wěn)健性。因此本文重點(diǎn)探索將高光譜檢測(cè)技術(shù)與集成學(xué)習(xí)相結(jié)合建立預(yù)測(cè)精度高、穩(wěn)健性好的單粒玉米種子水分檢測(cè)模型,以期為玉米精量播種技術(shù)提供高效的種子質(zhì)量檢測(cè)方法。
玉米種子品種為鄭單958,去掉蟲(chóng)蛀孔洞、霉變、破損顆粒,選取完整飽滿的種子,100粒為一份樣本,共80份樣本,均分為A、B、C、D 4組。為了擴(kuò)大樣本含水率范圍,將樣本放入高溫(40~50℃)、高濕(相對(duì)濕度100%)實(shí)驗(yàn)箱中,并在第0、1、2、3天后分批次取出,再分別對(duì)每份樣本晾曬0、2、4、6、8 h,充分混合、密封后放置在冷柜內(nèi)保存。
采用芬蘭Specim公司的SisuCHEMA高光譜成像系統(tǒng),相機(jī)型號(hào)為SWIR。高光譜成像系統(tǒng)參數(shù)設(shè)置如下:波長(zhǎng)范圍為968.05~2 575.05 nm;空間分辨率384像素/行;波段數(shù)288個(gè);幀頻39.06 Hz;曝光時(shí)間1.89 ms。將樣本排列整齊,尖端方向一致,保證行列對(duì)齊。由于玉米種子組織結(jié)構(gòu)在種子表面兩側(cè)存在明顯差異,且高光譜成像系統(tǒng)采用的是反射式,為建立精細(xì)化的種子水分預(yù)測(cè)模型,分別采集了種子胚朝上、胚朝下的高光譜圖像,并分別建立種子水分模型進(jìn)行分析比較。
依據(jù)GB/T 10362—2008《糧油檢驗(yàn) 玉米水分測(cè)定》[14]中“整粒試樣”方法對(duì)樣本進(jìn)行含水率測(cè)定,以質(zhì)量分?jǐn)?shù)表示,計(jì)算式為
(1)
式中S——玉米含水率,%
m2——干燥前質(zhì)量,g
m1——干燥后質(zhì)量,g
1.4.1數(shù)據(jù)預(yù)處理
利用Evince軟件進(jìn)行黑白板校正,對(duì)原始光譜圖像上所有像素點(diǎn)光譜矩陣進(jìn)行主成分分析,圖1為原始高光譜圖像PCA分布圖,由于背景像素點(diǎn)和種子樣本像素點(diǎn)的光譜具有顯著差異,因此在主成分空間存在完全不同的分布聚集。選擇主成分空間中的種子像素點(diǎn),將背景剔除以減小干擾,如圖2所示,得到單粒玉米種子RGB圖像,從而獲得單粒玉米種子的平均光譜信息。
圖1 原始高光譜圖像PCA分布圖Fig.1 PCA distribution of raw hyperspectral image
圖2 通過(guò)PCA獲取單粒玉米種子RGB圖像Fig.2 RGB image of single maize seed by PCA
采用合適的光譜預(yù)處理方法可以提取有效的光譜信息,提升光譜質(zhì)量[15]。多元散射校正可以有效消除近紅外漫反射光譜中由于樣品的鏡面反射及不均勻造成的噪聲[16],消除光譜的基線漂移現(xiàn)象及光譜的不重復(fù)性,經(jīng)過(guò)散射測(cè)試后得到的光譜數(shù)據(jù)可以有效地消除散射的影響, 增強(qiáng)了與成分含量相關(guān)的光譜吸收信息。因此本研究采用多元散射校正(Multiplicative scatter correction,MSC)方法對(duì)單粒玉米種子的光譜進(jìn)行預(yù)處理。
1.4.2集成學(xué)習(xí)
集成學(xué)習(xí)通過(guò)組合多個(gè)弱監(jiān)督模型以得到一個(gè)更全面的強(qiáng)監(jiān)督模型,彌補(bǔ)了單一模型受敏感樣本擾動(dòng)大,缺乏穩(wěn)健性的缺陷。集成學(xué)習(xí)分為兩類:bagging和boosting[17]。其中bagging代表算法是隨機(jī)森林(Random forest,RF),boosting特點(diǎn)是自適應(yīng)加權(quán),代表算法是AdaBoost。
RF采用Bootstrap抽樣的方式保證了每棵決策樹(shù)的訓(xùn)練集不同且具有隨機(jī)性,使得RF模型不易陷入過(guò)擬合,并且具有較好的抗噪能力,比單個(gè)模型具有更穩(wěn)定的預(yù)測(cè)能力[18]。最終將所有決策樹(shù)的預(yù)測(cè)結(jié)果取均值后作為模型的輸出,但是由于訓(xùn)練集通常不平衡,對(duì)某些貢獻(xiàn)度較大的樣本數(shù)據(jù),通常需要有小的訓(xùn)練誤差,某些對(duì)集成模型貢獻(xiàn)度較大的決策樹(shù)無(wú)法發(fā)揮更大的作用。
AdaBoost根據(jù)弱學(xué)習(xí)器誤差率的表現(xiàn)自適應(yīng)地更新訓(xùn)練樣本的權(quán)重,最后通過(guò)集合策略整合[19],提高模型的精度。與RF不同的是,AdaBoost每一輪訓(xùn)練集相同,容易受敏感樣本的擾動(dòng)。
結(jié)合RF的Bootstrap抽樣,以及AdaBoost自適應(yīng)加權(quán)的特點(diǎn)對(duì)隨機(jī)森林的預(yù)測(cè)模塊進(jìn)行改進(jìn),改進(jìn)RF模型總體流程如圖3所示。
圖3 改進(jìn)RF流程圖Fig.3 Improved random forest flow chart
對(duì)待測(cè)的單粒玉米種子水分含量進(jìn)行預(yù)測(cè)的具體步驟如下:
(1)首先根據(jù)歐氏距離公式計(jì)算待測(cè)的單粒玉米種子樣本光譜與隨機(jī)森林模型中第i棵決策樹(shù)樣本集光譜中心的距離di,計(jì)算式為
(2)
式中PX——待測(cè)樣本的光譜信息
(2)根據(jù)歐氏距離確定在待測(cè)單粒玉米種子樣本時(shí)每棵決策樹(shù)的權(quán)重,第i棵決策樹(shù)的權(quán)重ai為
(3)
式中N——樣本個(gè)數(shù)
(3)對(duì)步驟(2)的每棵決策樹(shù)的權(quán)重進(jìn)行加權(quán),輸出待測(cè)單粒玉米種子樣本水分含量的預(yù)測(cè)值Y,即
(4)
式中yi——第i棵決策樹(shù)對(duì)待測(cè)單粒玉米種子樣本水分含量的預(yù)測(cè)值
80份單粒玉米種子樣本胚朝上、胚朝下的光譜數(shù)據(jù)如圖4所示,圖像數(shù)據(jù)如圖5所示??梢钥闯?,玉米種子的近紅外光譜分布較寬,胚朝上和胚朝下的光譜趨勢(shì)基本一致,波長(zhǎng)1 190、1 450、1 940 nm附近有明顯的特征峰。水分子由2個(gè)氫原子和1個(gè)氧原子結(jié)合而成的結(jié)構(gòu)使得水分子具有多個(gè)原子鍵振動(dòng)能級(jí),其中波長(zhǎng)1 190 nm處的特征峰為氫氧鍵伸縮振動(dòng)的一級(jí)倍頻和合頻,1 450 nm處的特征峰主要為氫氧鍵伸縮振動(dòng)的一級(jí)倍頻,1 940 nm處的特征峰也為氫氧鍵伸縮振動(dòng)的合頻[20],這些特征峰均明顯地反映了玉米種子中的水分子對(duì)不同波長(zhǎng)的近紅外光的吸收程度。
圖4 樣本光譜數(shù)據(jù)Fig.4 Sample spectral data
圖5 樣本高光譜圖像數(shù)據(jù)Fig.5 Sample hyperspectral image
將A、B、C組作為訓(xùn)練集,共60份樣本;D組作為測(cè)試集,共20份樣本。表1為模型數(shù)據(jù)集的含水率統(tǒng)計(jì)信息。訓(xùn)練集和測(cè)試集的含水率整體分布較為合理,保證了建模樣本具有較好的代表性,滿足了建立定量分析模型的條件。
表1 玉米種子含水率統(tǒng)計(jì)信息Tab.1 Corn seed moisture content
利用Matlab 2018b軟件對(duì)單粒玉米種子樣本的胚朝上和胚朝下的原始光譜數(shù)據(jù)進(jìn)行多元散射校正,處理后的光譜如圖6所示,可以看出,原始光譜曲線的噪聲、基線漂移、共線性現(xiàn)象消除效果較好。
圖6 經(jīng)多元散射校正預(yù)處理后的樣本光譜Fig.6 Spectra of sample pretreated by MSC
利用Pycharm軟件,基于偏最小二乘回歸(Partial least squares regression,PLSR)、決策樹(shù)建立的單一模型與RF、AdaBoost和改進(jìn)RF 3種集成學(xué)習(xí)算法分別對(duì)原始光譜數(shù)據(jù)以及經(jīng)過(guò)多元散射校正后的數(shù)據(jù)進(jìn)行建模分析,根據(jù)經(jīng)驗(yàn)及多次實(shí)驗(yàn),確定RF和改進(jìn)RF模型中ntree、mtry均分別取10和2。以相關(guān)系數(shù)R和訓(xùn)練集均方根誤差(Root mean square error of correction set,RMSEC)、測(cè)試集均方根誤差(Root mean square error of prediction set,RMSEP)作為模型性能評(píng)價(jià)指標(biāo),模型性能統(tǒng)計(jì)結(jié)果見(jiàn)表2和圖7,并觀察單一模型(決策樹(shù))以及集成模型(改進(jìn)RF模型)測(cè)試集RMSEP隨著運(yùn)行次數(shù)增加的變化情況,結(jié)果見(jiàn)圖8。
從表2和圖7可以看出,光譜經(jīng)過(guò)多元散射校正處理后,模型的預(yù)測(cè)結(jié)果更好,進(jìn)一步證明多元散射校正有效地提升了單粒玉米種子樣本的光譜質(zhì)量。
表2 基于單一模型與不同集成學(xué)習(xí)算法的定量模型性能比較Tab.2 Comparison of quantitative models based on different ensemble learning algorithms
圖7 MSC處理后的光譜數(shù)據(jù)集成模型預(yù)測(cè)效果Fig.7 Prediction effects of spectral data integration model after MSC processing
圖8 基于決策樹(shù)和改進(jìn)RF模型預(yù)測(cè)效果Fig.8 Prediction effect of decision tree and improved RF model
從圖8可以看出,相比基于決策樹(shù)建立的單一模型,基于改進(jìn)RF算法建立的集成模型不僅顯著提升了預(yù)測(cè)準(zhǔn)確性,并且具有更好的穩(wěn)定性。證明集成學(xué)習(xí)通過(guò)構(gòu)建多個(gè)學(xué)習(xí)模型的方法在處理單粒玉米種子含水率回歸問(wèn)題上具有可行性,比單一模型具有更強(qiáng)的穩(wěn)健性。
在3種集成模型中,基于AdaBoost建立的模型在訓(xùn)練集上效果最好,通過(guò)自適應(yīng)地改變訓(xùn)練樣本的權(quán)重,學(xué)習(xí)多個(gè)模型,并將這些模型進(jìn)行線性的組合,提供了預(yù)測(cè)精度。但是在測(cè)試集上AdaBoost的表現(xiàn)卻最差,這是因?yàn)锳daBoost每輪訓(xùn)練時(shí)樣本集相同,對(duì)異常樣本敏感,異常樣本在迭代中可能獲得較大權(quán)重,影響強(qiáng)學(xué)習(xí)器的預(yù)測(cè)準(zhǔn)確性,新數(shù)據(jù)集樣本間的差異性將很難保證。而RF采用Bootstrap抽樣的方式反復(fù)地進(jìn)行模擬原小樣本數(shù)據(jù)集,用重復(fù)的計(jì)算提升小樣本的精度,構(gòu)建滿足分析與建模需要的新數(shù)據(jù)集。因此在測(cè)試集上RF比AdaBoost預(yù)測(cè)效果好。
改進(jìn)RF結(jié)合了RF的Bootstrap抽樣以及AdaBoost的自適應(yīng)權(quán)重策略,并考慮到光譜信息的波長(zhǎng)變量之間的相關(guān)性,在胚朝上、胚朝下的訓(xùn)練集和測(cè)試集上預(yù)測(cè)效果都較好,其中利用胚朝上光譜信息建立的模型測(cè)試集R達(dá)到0.881,在RF基礎(chǔ)上提升了11.7%;RMSEP為0.404%,在RF基礎(chǔ)上降低了5.39%。
利用單粒玉米種子胚朝上的光譜信息建立的改進(jìn)RF模型訓(xùn)練集R為0.969,RMSEC為 0.094%,測(cè)試集R為0.881,RMSEP為0.404%;利用單粒玉米種子胚朝下的光譜信息建立的改進(jìn)RF模型訓(xùn)練集R為0.966,RMSEC為0.100%,測(cè)試集R為0.793,RMSEP為0.544%。比較分析可知,使用胚朝上光譜信息建立的含水率檢測(cè)模型效果優(yōu)于使用胚朝下建立的含水率檢測(cè)模型。由于玉米種子的胚部處于整個(gè)種子的凹面,當(dāng)掃描胚朝上時(shí),種子表面凹凸不平,使得光譜反射信息更加豐富,當(dāng)掃描胚朝下時(shí),種子表面較為光滑平整,光譜反射率差異性小,說(shuō)明單粒玉米種子的含水率與胚部區(qū)域光譜關(guān)系顯著。
(1)分別采集了單粒玉米種子胚朝上和胚朝下的高光譜圖像并提取單粒種子平均光譜信息,采用多元散射校正法消除單粒種子采集高光譜時(shí)由于顆粒形態(tài)等引起的噪聲干擾,然后對(duì)隨機(jī)森林算法進(jìn)行了改進(jìn),利用加權(quán)策略取代傳統(tǒng)集成算法常用的取多個(gè)弱學(xué)習(xí)器的平均值,使與被測(cè)樣本光譜波長(zhǎng)變量相關(guān)性更大的決策樹(shù)能夠?qū)δP推鸬礁P(guān)鍵的作用,使得集成模型的準(zhǔn)確率有了大幅提升。
(2)建立并比較了基于PLSR、決策樹(shù)的單一模型和基于RF、AdaBoost、改進(jìn)RF的集成模型針對(duì)單粒玉米種子水分含量的檢測(cè)效果。使用胚朝上光譜信息建立基于改進(jìn)RF模型性能最優(yōu),訓(xùn)練集R為0.969,RMSEC為0.094%,測(cè)試集R為0.881,RMSEP為0.404%。實(shí)驗(yàn)結(jié)果表明:相比單一模型,集成學(xué)習(xí)有效提升了模型的穩(wěn)健性,受敏感樣本擾動(dòng)小。利用胚朝上的光譜信息相比胚朝下的光譜信息對(duì)檢測(cè)單粒玉米種子含水率更高效。基于Bootstrap抽樣和自適應(yīng)加權(quán)的改進(jìn)RF對(duì)單粒玉米種子含水率檢測(cè)效果較好,有助于提升單粒玉米種子水分高光譜快速無(wú)損檢測(cè)實(shí)際應(yīng)用可行性,有望為玉米精量播種技術(shù)的推廣和發(fā)展提供可行的檢測(cè)手段。
農(nóng)業(yè)機(jī)械學(xué)報(bào)2022年5期