楊 東,王舒卉,吳建華,姜俊伊,宋 凱,石天玉
(國家糧食和物資儲備局科學(xué)研究院糧食儲運(yùn)國家工程研究中心1,北京 100037) (沈陽理工大學(xué)2,沈陽 110159)
玉米霉變籽粒是指玉米表面發(fā)霉,且傷及玉米胚部和胚乳致其變色變味,無食用價值的玉米顆粒。它會侵染健康的玉米籽粒,給農(nóng)民造成嚴(yán)重的經(jīng)濟(jì)損失,如不小心食用還會危害身體健康。因此,檢驗(yàn)玉米霉變籽粒是一項(xiàng)非常重要的工作,我國一直使用傳統(tǒng)的質(zhì)檢方法,即專業(yè)質(zhì)檢員隨機(jī)抽取100 g玉米籽粒樣品,肉眼判斷玉米籽粒是否發(fā)生霉變,若一份樣品中的霉變籽粒個數(shù)占比少于2%,則認(rèn)為該份樣品是合格品。使用該方法判定樣品是否合格存在一定滯后性,而且人工檢測對于質(zhì)檢員要求較高,長時間工作難免出現(xiàn)誤檢。因此,我國急需研發(fā)一種快速準(zhǔn)確的玉米籽粒檢測裝置,提高糧食檢測效率,同時也能對糧食行業(yè)的發(fā)展起到一定的促進(jìn)作用。
國外已有將高光譜成像技術(shù)[1](HSI)應(yīng)用于農(nóng)作物病變檢測的研究,Mahlein等[2]利用HSI分別對甜菜褐斑病、白粉病和葉銹病的不同發(fā)育階段葉片特征和光譜反射率進(jìn)行研究,研究結(jié)果表明病原菌對葉片反射率的影響與病害發(fā)展階段和癥狀有關(guān)。Williams等[3]利用HSI探究感染輪狀鐮刀菌的玉米籽粒表面受真菌侵染的變化程度與真菌活性之間的關(guān)系,研究結(jié)果表明真菌引起了玉米籽粒中淀粉和蛋白質(zhì)的變化,進(jìn)而導(dǎo)致玉米表面出現(xiàn)變化。Daniel等[4]利用HSI對不同地區(qū)的玉米籽粒表面黃曲霉毒素進(jìn)行分類,研究結(jié)果表明玉米籽粒品種的差異對分類沒有影響,且玉米霉變籽粒的分類準(zhǔn)確率可達(dá)96%。Gonzalez等[5]利用HSI對受二斑葉螨侵害的柑橘葉片進(jìn)行檢測,識別準(zhǔn)確率可達(dá)92.5%,未受侵染的葉片均被正確識別。
國內(nèi)相關(guān)研究也陸續(xù)開展。孫鈺瑩等[6]利用HSI識別小麥霉變籽粒,并確定預(yù)測小麥霉變粒最優(yōu)模型為SPA-OSC-SVM。袁瑞瑞等[7]利用HSI對損傷長棗進(jìn)行分類,對比了不同預(yù)處理方法和不同分類器下的模型識別準(zhǔn)確率,最終確定偏最小二乘判別分析的模型是最優(yōu)的分類模型。陳子涵等[8]利用HSI識別雙孢蘑菇早期病害,確定最優(yōu)識別模型為MSC-DT-ELM,其測試集和預(yù)測集識別準(zhǔn)確率分別為92.39%和91.32%??蝶惖萚9]利用HSI檢測水稻早期稻瘟病害,確定最優(yōu)識別模型為CARS-PCA-SVM,其對各等級樣本識別準(zhǔn)確率均高于94.29%。
HSI在農(nóng)作物的無損檢測方面具有一定潛力,可以為農(nóng)作物病害早期防治、精準(zhǔn)施藥及檢測儀器開發(fā)提供理論依據(jù)。但多數(shù)研究都僅針對樣品整體進(jìn)行特征提取,沒有針對某一特征最顯著的區(qū)域進(jìn)行分析探究?;诖?,本實(shí)驗(yàn)運(yùn)用HSI結(jié)合機(jī)器學(xué)習(xí)算法,針對玉米籽粒胚部進(jìn)行感興趣區(qū)域劃分、特征提取、模型構(gòu)建,開展玉米籽粒早期霉變快速識別方法的研究。
實(shí)驗(yàn)中的玉米籽粒樣品由地方糧庫提供,同時依據(jù)LS/T 6132—2018《糧油檢驗(yàn)儲糧真菌的檢測孢子計數(shù)法》測定其真菌孢子數(shù)量,以真菌孢子實(shí)測值為基準(zhǔn)將玉米籽粒霉變等級劃分為4個等級,即等級1、等級2、等級3和等級4,分別對應(yīng)玉米安全籽粒(孢子數(shù)<1.0×105)、輕度霉變籽粒(1.0×105<孢子數(shù) <9.9×105)、中度霉變籽粒(1.0×106<孢子數(shù)<9.9×106)和重度霉變籽粒(孢子數(shù)>1.0×107)。經(jīng)數(shù)據(jù)統(tǒng)計,共有285個符合標(biāo)準(zhǔn)的玉米籽粒樣品,其中,72個樣本被劃分為等級1;66個樣本被劃分為等級2;剩余75個和72個樣本被分別劃分為等級3和等級4。隨機(jī)選取2/3的樣品(190個)作為訓(xùn)練集,剩下1/3的樣品(95個)作為測試集,進(jìn)行分類建模研究。
圖1 高光譜成像系統(tǒng)
實(shí)驗(yàn)中所使用的高光譜成像采集系統(tǒng)設(shè)備如圖1所示。其主要由精密步進(jìn)電機(jī)(EZHR17EN),1套150 W3900-ER穩(wěn)定輸出鹵素?zé)艄庠矗琁mSpector V10E-QE成像光譜儀,Andor Luca DL-604M面陣EMCCD相機(jī)和1臺Dell E6520計算機(jī)組成[10],各部件均放置在暗箱中,避免外部因素影響實(shí)驗(yàn)結(jié)果。
在進(jìn)行高光譜圖像采集前,需要對儀器進(jìn)行校正,去除噪聲、電流等因素對玉米籽粒圖像的影響[11]。首先采集黑、白板圖像各1組,分別記為Rw和Rd,其次運(yùn)用式(1)對采集到的圖像進(jìn)行校正。
(1)
式中:RC為校正后的玉米籽粒高光譜圖像;Ri為玉米籽粒原始光譜圖像。
玉米籽粒圖像采集主要依靠Spectral Image-VNIR軟件。在軟件中設(shè)置相機(jī)曝光時間為6 ms、位移平臺速度為1.2 mm/s,將預(yù)先準(zhǔn)備好的玉米籽粒樣品放置在高光譜成像儀的位移平臺上,掃描得到實(shí)驗(yàn)所需的樣品圖像。
以單個玉米籽粒為例進(jìn)行說明,首先從圖2a中分別選擇反射強(qiáng)度較高和較低的2幅單一波段圖像(715 nm和517 nm)進(jìn)行差運(yùn)算形成灰度圖,見圖2b,經(jīng)過二值化處理后得到掩膜圖像(圖2c),圖2a和圖2c進(jìn)行掩膜處理后得到去除背景的玉米籽粒圖像(圖2d),接著對該圖像做主成分分析,選取其中最能體現(xiàn)玉米籽粒胚部和其他部分差異的圖像,即PC1和PC2(圖2e),對這2幅圖像中的像素點(diǎn)進(jìn)行分類,生成散點(diǎn)圖(如圖2f所示),使用淺色和深色分別表示玉米胚部和其他部分,具有相似光譜特性的像素點(diǎn)會聚集在某個區(qū)域,自動形成一類(圖2g),再分別提取2個區(qū)域中的平均光譜,如圖2h所示,玉米胚部光譜數(shù)據(jù)呈較穩(wěn)定的上升趨勢,在950~1 000 nm區(qū)間內(nèi)略有下降,玉米籽粒健康部分也呈上升趨勢,在0~500 nm和550~880 nm區(qū)間內(nèi)上升幅度較緩,在500~550 nm區(qū)間上升幅度最快,在880~1 000 nm區(qū)間內(nèi)呈下降趨勢。在0~515 nm區(qū)間內(nèi),玉米胚部的平均光譜數(shù)據(jù)略高于玉米籽粒健康部分,在515~1 000 nm區(qū)間內(nèi)兩者差距較大。這些差異可能是由于霉菌侵入玉米籽粒胚部后,將其營養(yǎng)物質(zhì)吸收轉(zhuǎn)化,改變了原有的內(nèi)部成分。因此,通過分析可再次使用掩膜,將玉米籽粒的胚部單獨(dú)提取出來,用于后續(xù)圖像特征提取及挖掘。
圖2 玉米籽粒圖像預(yù)處理
使用高光譜成像系統(tǒng)采集的玉米籽粒光譜數(shù)據(jù)是1個立方體,其上波段數(shù)目眾多,信息量龐大,數(shù)據(jù)之間存在大量冗余,不但會降低計算機(jī)的運(yùn)行效率,還會使模型精度不佳[12]。因此,在進(jìn)行光譜特征提取前需要對原始數(shù)據(jù)進(jìn)行降維,這樣能在最大程度保留原始信息的同時降低數(shù)據(jù)量,提高建模效率。本文選取主成分分析[13](PCA)的方式對光譜數(shù)據(jù)進(jìn)行降維,PCA是一種常見的數(shù)據(jù)降維方法,它是將原始變量進(jìn)行排列組合,生成一組互不相關(guān)的變量,該方法不但能解決數(shù)據(jù)量過多的問題,還能簡化計算,減少模型運(yùn)算時間。然后使用隨機(jī)蛙跳[14](RF)算法對降維后的光譜數(shù)據(jù)進(jìn)行特征提取,優(yōu)選出能表征玉米籽粒光譜特征的最佳波長,建立最優(yōu)識別模型。
因玉米籽粒受霉菌侵染后表面會出現(xiàn)發(fā)黑發(fā)暗的現(xiàn)象,進(jìn)而影響其表面紋理的分布狀況,故本文分別提取玉米籽粒圖像的顏色特征和紋理特征用于模型建立。顏色特征采用顏色矩[15]的方式進(jìn)行提取,由于圖像中的顏色信息通常都集中在低階矩中,因此只需提取圖像的一階矩、二階矩和三階矩就足以表達(dá)一幅圖像中的顏色分布。紋理特征采用Tamura算法[16]進(jìn)行提取,分別提取圖像的粗糙度、線性度和對比度進(jìn)行紋理特征表達(dá)。
本研究分別采用支持向量機(jī)[17](SVM)、極限學(xué)習(xí)機(jī)[18](ELM)和偏最小二乘回歸[19](PLSR)3種算法探究能夠識別不同等級玉米籽粒的最優(yōu)模型。模型評價準(zhǔn)則為混淆矩陣法,即通過模型識別準(zhǔn)確率Acc的高低來判定模型的優(yōu)劣,混淆矩陣分類結(jié)果如表1所示。
表1 混淆矩陣分類結(jié)果
表中,TP為真正例,即真樣本被判別為真樣本的數(shù)量;FN為假反例,即真樣本被判別為假樣本的數(shù)量;FP為假正例,即假樣本被判別為真樣本是數(shù)量;TN為真反例,即假樣本被判別為假樣本數(shù)量。則Acc的計算公式見式(2)。
(2)
在本實(shí)驗(yàn)中,選取400~1 000 nm范圍內(nèi)的玉米籽粒光譜數(shù)據(jù)進(jìn)行分析,如圖3所示,其上共有824條光譜數(shù)據(jù)曲線,光譜曲線整體走勢趨于一致,無明顯差異。在400~500 nm和500~900 nm范圍內(nèi)光譜反射強(qiáng)度呈上升趨勢,在500 nm處左右出現(xiàn)光譜反射率低谷,在900~1 000 nm范圍內(nèi)呈略下降趨勢。但不同等級玉米籽粒的平均光譜數(shù)據(jù)存在顯著差別,如圖4所示,隨著玉米籽粒霉變程度的增加,光譜反射強(qiáng)度逐漸減小,由此可知,受霉菌侵染的玉米籽粒對光的吸收能力有所增強(qiáng)。除此之外,400~600 nm范圍內(nèi)的光譜反射率較低,可能與玉米籽粒中的色素對光的高強(qiáng)度吸收有關(guān),在500 nm出現(xiàn)的低谷可能與玉米籽粒的顏色變化有關(guān)。
圖3 玉米籽粒原始光譜數(shù)據(jù)
圖4 不同等級玉米籽粒平均光譜數(shù)據(jù)
利用RF算法優(yōu)選出的特征波長變量結(jié)果為428、444、454、469、477、488、520、545、576、579、716、907、913、924、949、960、976 nm。將被選擇頻次設(shè)置為20,如圖5所示,17個特征波長集中分布在400~1 000 nm波段兩端,其中454、469、576、716、913、924、960 nm處7個特征波長被選擇的概率較高,作為優(yōu)選的特征變量。
圖5 RF算法中特征波長被選擇的頻次
基于2.2中提取出的7個特征波長變量所對應(yīng)的玉米籽粒圖像,分別使用顏色矩和Tamura算法提取每幅圖像的顏色特征和紋理特征。其結(jié)果如表2、表3所示。不同等級玉米籽粒在顏色特征值上均存在差異。安全籽粒的一階矩明顯高于霉變籽粒;二階矩和三階矩明顯低于霉變籽粒。而不同等級玉米籽粒在紋理特征值上也存在差異。安全籽粒在粗糙度和線性度上明顯低于霉變籽粒,而在對比度上則明顯高于霉變籽粒,由此可知,圖像顏色特征和紋理特征可作為區(qū)分不同等級玉米籽粒的依據(jù)。
表2 不同等級玉米籽粒顏色特征值統(tǒng)計
表3 不同等級玉米籽粒紋理特征值統(tǒng)計
2.4.1 基于光譜全波段的玉米籽粒鑒別
基于原始全波段光譜數(shù)據(jù)(824個),結(jié)合SVM、ELM和PLSR 3種分類器分別建立不同等級玉米籽粒識別模型,其結(jié)果如表4所示。基于原始光譜波段所建模型Acc均不理想,其中結(jié)合ELM算法所建模型精度最高,其訓(xùn)練集和測試集Acc分別為84.73%和83.15%,結(jié)合SVM和PLSR算法所建模型Acc均未達(dá)到80%,模型精度有待提高。
2.4.2 基于特征波段的玉米籽粒鑒別
利用RF算法提取出的7個特征波長變量,結(jié)合SVM、ELM和PLSR算法分別建立RF-SVM、RF-ELM和RF-PLSR模型,用于判別不同等級玉米籽粒霉變程度,其結(jié)果如表5所示。
相比于全波段光譜數(shù)據(jù)所建模型來說,使用7個光譜特征變量所建模型的波段數(shù)更少,計算量更小,模型精度反而更高,這說明使用光譜特征建立模型是有效的,可以降低計算難度,提升模型精度。在表5所建立的3個模型中,表現(xiàn)最好的是RF-ELM模型,其訓(xùn)練集和測試集Acc可以達(dá)到91.05%和89.47%,模型精度和模型穩(wěn)定性較好;其次是RF-SVM模型,其訓(xùn)練集和測試集Acc分別為88.94%和85.26%,模型精度和模型穩(wěn)定性均不如RF-ELM模型;表現(xiàn)最不理想的是RF-PLSR模型,其訓(xùn)練集和測試集Acc均未達(dá)到84.00%,模型精度較差。
2.4.3 基于圖像特征的玉米籽粒鑒別
針對提取出的7個光譜特征變量,找到每個變量所對應(yīng)的玉米籽粒圖像,在每幅圖像中提取3個顏色特征(即一階矩、二階矩和三階矩)和3個紋理特征(即粗糙度、線性度和對比度),即共有42個圖像特征變量,并結(jié)合SVM、ELM和PLSR算法分別建立不同等級玉米籽粒分類模型,其結(jié)果如表6所示。
從總體上看,結(jié)合圖像特征所建立的不同等級玉米籽粒分類模型識別結(jié)果并不理想,各模型訓(xùn)練集和測試集的Acc均低于90.00%。其中,識別效果最佳的模型為結(jié)合ELM算法的分類模型,相比于結(jié)合SVM和PLSR算法的模型來說,其精度較高,訓(xùn)練集和測試集的Acc分別可達(dá)88.42%和87.36%。相較于原始光譜數(shù)據(jù)所建模型,結(jié)合圖像特征所建模型的Acc均有所提升,說明利用圖像特征識別不同等級玉米籽粒是可行的,可以在一定程度上提升模型精度。而相較于光譜特征所建模型,利用圖像特征所建模型的Acc效果不及前者,這可能是由于圖像特征主要表征玉米籽粒的外部特性,而光譜特征可以深入探究玉米籽粒內(nèi)部成分的變化,對比兩者結(jié)果可得,使用內(nèi)部特征所建模型要優(yōu)于使用外部特征所建模型。
表4 基于全波段光譜特征的模型識別結(jié)果
表5 基于特征波段的模型識別結(jié)果
2.4.4 基于圖像特征和光譜特征的玉米籽粒鑒別
基于提取的圖像特征和光譜特征,結(jié)合SVM、ELM和PLSR算法,分別建立不同等級玉米籽粒的識別模型,其結(jié)果如表7所示。結(jié)合圖像特征和光譜特征所建的模型相較于只結(jié)合圖像特征或光譜特征其中之一的模型識別精度都要高。其中,表現(xiàn)最好的模型是ELM模型,其訓(xùn)練集和測試集的Acc均超過了93.00%,分別為94.21%和93.68%,模型精度達(dá)到預(yù)期,模型穩(wěn)定性較好;其次是SVM模型,其訓(xùn)練集和測試集的Acc分別為91.57%和89.47%,模型精度和模型穩(wěn)定性還有一定上升空間,PLSR模型Acc有所提高,但依然比不上另外2個模型。因此,本研究選用結(jié)合圖像特征和光譜特征的ELM模型作為識別不同等級玉米籽粒的最佳模型。
為了便于區(qū)分和觀察玉米籽粒的健康部分和霉變部分,本文分別基于像素級和對象級對玉米籽粒不同霉變程度進(jìn)行可視化表達(dá),利用偽彩色表示不同等級玉米籽粒的霉變程度,即深藍(lán)色表示等級1,綠色表示等級2,紅色表示等級3,淺藍(lán)色表示等級4。并利用最優(yōu)模型預(yù)測玉米籽粒圖像上各個像素點(diǎn),預(yù)測結(jié)果如圖7所示。從玉米籽粒原始圖像中可以看出,隨著玉米籽粒霉變程度的加深,玉米籽粒表面的反射強(qiáng)度越來越弱,圖像整體變暗。在像素級的可視化圖像中,有部分像素點(diǎn)被誤判為其他等級,例如在等級2(綠色)中存在等級1(深藍(lán)色)和等級3(紅色),在等級3中存在等級2和等級4(淺藍(lán)色),在等級4中存在等級3。在對象級的可視化圖像中同樣也存在誤判的現(xiàn)象,例如將等級2識別為等級1和等級3,將等級3識別為等級1、等級2和等級3。以上情況說明玉米籽粒在發(fā)生霉變的過程中,各個部分的變化程度是不均勻的,但可視化技術(shù)可以將抽象的霉變程度轉(zhuǎn)化為直觀的顏色變化,使對玉米籽粒各個部分是否發(fā)生霉變有直接的展示。
表6 基于圖像特征的模型識別結(jié)果
表7 光譜信息與圖像特征結(jié)合識別結(jié)果
注:圖片從上到下分別為原始圖像、像素級可視化分類圖、對象級可視化分類圖。圖7 不同霉變等級玉米籽粒可視化圖像
利用400~1 000 nm的高光譜成像技術(shù)分別從光譜信息和圖像信息對不同等級玉米籽粒進(jìn)行識別檢測,通過研究可得:
通過建立的全波段光譜模型,對各等級玉米籽粒的識別精度在75%~85%范圍內(nèi),在一定程度上說明采用高光譜成像技術(shù)可以實(shí)現(xiàn)對玉米霉變粒的有效檢測,為了提升模型精度,采用RF算法進(jìn)行波段選擇,通過研究結(jié)果可知,利用選擇的7個特征波段建立模型的Acc在82%~92%范圍內(nèi),模型精度不夠理想,因此在提取特征波段光譜信息的基礎(chǔ)上,提取波段的圖像信息。采用圖像顏色信息和紋理信息建立鑒別模型,研究結(jié)果表明,使用提取的圖像特征建立模型的Acc在82%~89%范圍內(nèi),識別精度不如利用特征波段建立的模型。
由于分別采用特征波段的光譜信息和圖像信息的識別精度均不夠理想,因此將光譜信息與圖像信息相結(jié)合進(jìn)行玉米籽粒的鑒別,研究結(jié)果可知,結(jié)合光譜信息和圖像信息建立的ELM模型識別精度最高,其訓(xùn)練集和測試集的Acc可達(dá)到94.21%和93.86%。因此,本研究中最佳的檢測模型為結(jié)合圖像特征的RF-ELM模型。