李凱楠,沈廣輝,葉文武*,鄭小波,王源超
(1.南京農(nóng)業(yè)大學(xué)植物保護(hù)學(xué)院,江蘇 南京 210095;2.江蘇省農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品質(zhì)量安全與營養(yǎng)研究所,江蘇 南京 210014)
真菌病害不僅在大豆生產(chǎn)中造成產(chǎn)量損失,也對種子質(zhì)量和食品安全造成許多負(fù)面影響。大豆種子受病原真菌侵染后,經(jīng)常出現(xiàn)色斑或霉變,不僅影響外觀,而且影響其營養(yǎng)品質(zhì),并攜帶對人畜有害的真菌毒素。例如,引起大豆紫斑病的菊池尾孢菌(Cercosporakikuchii)可產(chǎn)生尾孢毒素,致使種皮甚至整顆豆粒呈紫色,嚴(yán)重影響大豆外觀品質(zhì),并導(dǎo)致發(fā)芽率下降[1];大豆擬莖點(diǎn)種腐病菌(Phomopsislongicolla)[2]能夠侵染種皮、子葉及胚,消耗種子的蛋白質(zhì)和脂肪等營養(yǎng)物質(zhì),種子常出現(xiàn)皺縮、延長或開裂,受潮后易霉變和腐爛[3-5];黃曲霉(Aspergillusflavus)和鐮孢菌(Fusariumspp.)分別能夠產(chǎn)生赭曲霉毒素A(ochratoxin A,OTA)和嘔吐毒素(deoxynivalenol,DON)及伏馬菌素(Fumonisin FB)等真菌毒素,對人畜具有重大安全隱患[6-8]。帶菌種子不僅萌發(fā)率低,而且在播種后容易造成新一輪的病害和產(chǎn)量損失,調(diào)運(yùn)播種未篩查的帶菌種子是病害傳播蔓延的重要途徑之一。因此,快速識別和篩查帶菌特別是病變的種子對大豆生產(chǎn)與品質(zhì)安全均具有重要意義。
傳統(tǒng)的農(nóng)作物質(zhì)量檢測手段包括感官評價(jià)與理化分析等,存在處理時(shí)間長、對鑒定人員的經(jīng)驗(yàn)要求較高、鑒定的準(zhǔn)確性易受到主觀因素影響等問題。近年來,基于近紅外光譜技術(shù)(near infrared reflectance spectroscopy,NIRS)的植物化學(xué)組分檢測分析方法得到越來越普遍的應(yīng)用[9]。例如,Lim等[10]使用NIRS實(shí)現(xiàn)了對小麥、脫殼大麥和裸大麥中鐮刀菌污染麥粒的快速無損鑒別;齊星煒[11]使用傅里葉變換近紅外光譜儀,探索基于NIRS結(jié)合主成分分析對不同活力水平大豆種子進(jìn)行分類的可行性;耿立格等[12]和Al-Amery等[13]分別利用NIRS結(jié)合偏最小二乘法模型(PLS)的方法,對大豆種子的活力進(jìn)行了預(yù)測與鑒別。此外,近紅外高光譜成像技術(shù)(near infrared hyperspectral imaging,NIR-HSI)把近紅外光譜與成像技術(shù)相結(jié)合,不但可以同時(shí)獲取樣品內(nèi)部和外部的信息,還可以分析不同組分在樣品中的空間分布,被廣泛應(yīng)用到各個(gè)領(lǐng)域[14-20]。在大豆研究中,王海龍等[21]研究了使用NIR-HSI結(jié)合化學(xué)計(jì)量學(xué)對轉(zhuǎn)基因大豆的鑒別方法,其構(gòu)建的偏最小二乘判別分析模型(PLS-DA)對驗(yàn)證集的識別準(zhǔn)確率在80%以上;Zhu等[22]基于NIR-HSI對3個(gè)大豆品種進(jìn)行分類識別,建立了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模型,識別準(zhǔn)確率均達(dá)90%;李亞婷[23]將NIR-HSI與多種數(shù)據(jù)降維方法和建模算法相結(jié)合,對大豆種子活力進(jìn)行了準(zhǔn)確鑒別和高精度的定量檢測;柴玉華等[24]利用高光譜圖像技術(shù),采取1 000~2 500 nm的波長建立了對大豆5個(gè)分類等級的識別模型,預(yù)測準(zhǔn)確率達(dá)92%。相較于傳統(tǒng)的檢測識別技術(shù),NIR-HSI在檢測分析大豆種子的化學(xué)組分方面具有快速、靈敏和準(zhǔn)確等技術(shù)優(yōu)勢,適用于種子活力分析和品種鑒別。然而,目前尚未見對大豆病變種子進(jìn)行鑒別的相關(guān)報(bào)道。
本研究針對大豆種子常見的紫斑和霉變2種病變類型,采用主成分分析(principal component analysis,PCA)結(jié)合最大類間方差法(Otsu)對采集的種子高光譜圖像進(jìn)行背景分割,通過提取指紋圖譜,結(jié)合化學(xué)計(jì)量學(xué)算法構(gòu)建判別分析模型,探究基于NIR-HSI對大豆正常粒、紫斑粒和霉變粒進(jìn)行鑒別的可行性,旨在為后續(xù)開發(fā)大豆病變種子的自動(dòng)識別與分選設(shè)備提供技術(shù)和理論支撐。
供試大豆種子(品種‘南農(nóng)50’)保存于南京農(nóng)業(yè)大學(xué)真菌與卵菌分子實(shí)驗(yàn)室。共采集了983粒種子,其中正常粒365粒、霉變粒381粒和紫斑粒237粒,均經(jīng)過經(jīng)驗(yàn)豐富的實(shí)驗(yàn)員視覺區(qū)分確認(rèn)。通過隨機(jī)采樣的方法將樣品分為校正集(用于模型構(gòu)建)和驗(yàn)證集(用于模型評估),2個(gè)分集中正常粒、霉變粒和紫斑粒的粒數(shù)分別為279和86、297和84、163和74。
所用設(shè)備為近紅外高光譜成像系統(tǒng)(Gaiafield-N17E,四川雙利合譜有限公司),由光源、光譜相機(jī)、電控移動(dòng)平臺(tái)、計(jì)算機(jī)及控制軟件等組成。光源為2個(gè)鹵素?zé)赳讽敼庠?光譜采集范圍為900~1 700 nm,光譜和相機(jī)分辨率分別為5 nm和320×256像素,鏡頭高度為30 cm,樣品臺(tái)移動(dòng)速度設(shè)為0.6 cm·s-1,曝光時(shí)間是20.6 ms。圖像采集時(shí)將大豆種子隨機(jī)單層平鋪到樣品臺(tái)上,獲取其圖像。為消除暗電流和光源強(qiáng)度不均勻的影響,需要對原始圖像進(jìn)行黑白校正。校正公式:I=(I0-B)/(W-B)。式中:I為經(jīng)校正后的圖像;I0為原始的高光譜圖像;B為黑色標(biāo)定背景的信息;W為白板(聚四氟乙烯材料)標(biāo)定圖像信息[25]。
使用ENVI 5.3軟件裁剪黑白校正后的圖像,在去除969~1 620 nm外的非必要波段后,使用基于PCA得分的Otsu算法進(jìn)行圖像分割和背景去除,提取只含有種子信息的圖像[25]。使用MATLAB 2017a軟件中的Bwlabel函數(shù)對圖像中的種子進(jìn)行編號,實(shí)現(xiàn)單粒種子指紋圖譜的自動(dòng)提取,并計(jì)算每粒種子的平均近紅外光譜,用于后續(xù)判別分析。
為了消除系統(tǒng)噪聲并增強(qiáng)化學(xué)成分對光譜信號的貢獻(xiàn),分別比較了Autoscale、Savitzky-Golay多項(xiàng)式卷積平滑、一階和二階導(dǎo)數(shù)處理、多元散射校正(multiplicative scatter correction,MSC)、基線法(Baseline)和去趨勢的標(biāo)準(zhǔn)正態(tài)方差(standard normal variance with de-trending,SNV-D)等算法,從中選擇最優(yōu)的算法進(jìn)行光譜預(yù)處理。
為實(shí)現(xiàn)對正常粒、紫斑粒和霉變粒的快速區(qū)分,首先通過二階導(dǎo)數(shù)譜解析了3類種子之間的光譜差異,并采用PCA探究其聚類趨勢;然后使用判別分析結(jié)合特征波長篩選方法,探究基于NIR-HSI對每類種子進(jìn)行區(qū)分的可行性;最后探討同步快速識別3類種子的可行性。
利用PCA[26]從多變量數(shù)據(jù)集中提取主要信息,對3類種子的數(shù)據(jù)進(jìn)行聚類及初步檢驗(yàn)。使用PLS-DA和SVM-DA 2種判別分析方法,前者是一種雙線性建模方法,用于分析一組獨(dú)立的光譜變量和單個(gè)因變量之間的關(guān)系[27],后者是一種化學(xué)計(jì)量學(xué)技術(shù),對每個(gè)分類模型創(chuàng)建一個(gè)超平面,當(dāng)?shù)途S輸入空間中的線性邊界不能實(shí)現(xiàn)適當(dāng)分類時(shí),可在高維度特征空間中進(jìn)行線性分離[28]。核函數(shù)的選擇對SVM-DA算法的性能至關(guān)重要,本研究選擇徑向基核函數(shù)(radial basis function,RBF)[29]。在全譜判別分析的基礎(chǔ)上選擇合適的特征選取方法,包括連續(xù)投影法(SPA)[30]和競爭性自適應(yīng)權(quán)重取樣法(CARS)[31]。
將279粒正常粒和460粒病變粒(含紫斑粒與霉變粒)2組樣品設(shè)為校正集,分別基于全譜段和CARS選取的特征波長,采用留一交互驗(yàn)證(leave-one-out cross validation)的方式構(gòu)建PLS-DA和SVM-DA 2種模型,并對外部驗(yàn)證集(86粒正常粒和158粒病變粒)進(jìn)行預(yù)測,判斷模型的識別正確率。再將279粒正常粒、297粒霉變粒和163粒紫斑粒3組樣品設(shè)為校正集,基于全譜段和SPA特征波長分別構(gòu)建PLS-DA和SVM-DA 2種模型,并對外部驗(yàn)證集(86粒正常粒、84粒霉變粒和74粒紫斑粒)進(jìn)行預(yù)測,判斷模型的識別正確率。上述模型的構(gòu)建均在MATLAB 2017a軟件中實(shí)現(xiàn)。
正常粒、霉變粒和紫斑粒3類種子樣品的原始圖像如圖1-A所示。為了自動(dòng)扣除背景和提取種子光譜,以經(jīng)過裁剪后的高光譜圖像為對象進(jìn)行PCA,提取第1主成分的得分并結(jié)合Otsu算法,對圖像進(jìn)行雙閾值(two-threshold)分割。處理后的二值化圖像如圖1-B所示。
圖1 3類種子樣品的原始圖(A)和閾值分割后的二值化圖(B)Fig.1 Original image(A)and two-threshold segmentation binarization image(B)of the three types of seed samples
使用MATLAB 2017a軟件的Bwlabel函數(shù)對983粒種子的光譜信息分別進(jìn)行了提取(圖2-A)。比較3類種子的平均光譜,發(fā)現(xiàn)霉變粒的光譜反射率普遍高于正常粒,紫斑粒與正常粒的光譜重疊程度高,不易區(qū)分(圖2-B)。對樣品平均光譜進(jìn)行二階導(dǎo)數(shù)處理,發(fā)現(xiàn)3類種子在1 004、1 085、1 170、1 246、1 362和1 416 nm波長附近存在較大差異(圖2-C)。經(jīng)比對,發(fā)現(xiàn)這些波長的吸收峰主要與種子的蛋白質(zhì)和脂肪含量相關(guān)[32],這可能與病原菌侵染過程中消耗了種子中的一些營養(yǎng)物質(zhì)有關(guān)。
圖2 3類種子的光譜特性比較Fig.2 Comparison of the spectra data among the three types of seed samplesA. 全部光譜All spectra;B. 平均光譜Average spectra;C. 二階導(dǎo)數(shù)處理后的結(jié)果 Result after second derivative processing.
對3類種子的光譜進(jìn)行PCA,前3個(gè)主成分(PC1、PC2和PC3)的三維聚類結(jié)果如圖3所示,霉變粒和其他2類種子間具有明顯的區(qū)分度,而紫斑粒與正常粒的重合度較高,區(qū)分不明顯,這可能是由于霉變粒(與紫斑粒相比)受真菌侵染程度較重,內(nèi)部品質(zhì)變化較為明顯。
圖3 3類種子光譜的主成分分析結(jié)果Fig.3 PCA result of the three types of seed samples
2.4.1 基于全譜段的判別分析基于全譜構(gòu)建了PLS-DA和SVM-DA 2種模型。PLS-DA模型中,根據(jù)交互驗(yàn)證均方根誤差確定最佳潛變量數(shù)為15,結(jié)果如表1所示。校正集中正常粒和病變粒的識別正確率均大于94.00%,總識別正確率為95.81%;驗(yàn)證集的總識別正確率為96.31%,僅有7粒正常粒和2粒病變粒被誤判。SVM-DA 模型中,懲罰系數(shù)(c)為100,核函數(shù)參數(shù)(g)為3.16×10-2,校正集中正常粒的識別正確率為 94.72%,而驗(yàn)證集中對正常粒存在較多誤判,導(dǎo)致總識別正確率僅為85.25%。與PLS-DA模型的判別結(jié)果相比,SVM-DA模型對2類種子的識別正確率相對偏低。
2.4.2 基于CARS特征波長的判別分析使用CARS算法對全波段光譜數(shù)據(jù)提取特征波長,以減少冗余信息。經(jīng)多次試驗(yàn)后,設(shè)置蒙特卡羅采樣次數(shù)為50、交互驗(yàn)證的組數(shù)為5,按照交叉驗(yàn)證誤差(cross-validated error)最小的原則篩選最優(yōu)的特征變量,選擇了15個(gè)最優(yōu)特征波長(985、1 004、1 010、1 070、1 073、1 085、1 114、1 167、1 221、1 340、1 350、1 378、1 381、1 453和1 479 nm)作為變量集(圖4)。
表1 基于全譜和CARS特征波長對正常和病變種子的判別分析結(jié)果Table 1 Discriminant analysis results for the normal and diseased seeds based on full spectrum and CARS characteristic wavelength
圖4 使用CARS算法對全波段光譜數(shù)據(jù)的分析結(jié)果Fig.4 Analysis results of full band spectral data using CARS algorithm A. 每次抽樣的特征變量數(shù)Number of characteristic variables per sampling;B. 每次抽樣的交互驗(yàn)證誤差Cross-validated error per sampling;C. 篩選出的特征波長Filtered characteristic wavelength.
基于CARS所篩選的特征波長構(gòu)建了CARS-PLS-DA和CARS-SVM-DA兩種模型(表1)。CARS-PLS-DA模型與基于全譜的PLS-DA模型結(jié)果相似,校正集和驗(yàn)證集的總識別正確率均在93.00%以上;CARS-SVM-DA模型與基于全譜的SVM-DA模型結(jié)果相似,對正常粒的識別正確率略有提升,在驗(yàn)證集中達(dá)到65.12%,但仍遠(yuǎn)低于使用PLS方法構(gòu)建的模型。上述結(jié)果表明,基于全譜和CARS特征波長分別構(gòu)建的PLS-DA和CARS-PLS-DA模型可有效識別病變粒,其中基于全譜的PLS-DA模型具有更好的識別效果,但是基于特征波長的CARS-PLS-DA模型,去除了無用信息變量,為便攜式多光譜設(shè)備的開發(fā)提供了基礎(chǔ)。
2.5.1 基于全譜段的判別分析基于全譜構(gòu)建了PLS-DA和SVM-DA兩種模型。PLS-DA模型中,潛變量數(shù)設(shè)為12,對校正集中3類種子的識別正確率均大于91.00%,其中霉變粒最高(96.97%),總識別正確率為93.50%;外部驗(yàn)證集的總識別正確率為90.16%。SVM-DA模型中,對校正集中正常粒、霉變粒和紫斑粒的識別正確率分別為93.19%、95.96%和87.12%,與PLS-DA模型的判別結(jié)果相比略有下降;外部驗(yàn)證集的總識別正確率也均低于PLS-DA模型的相應(yīng)結(jié)果(表2)。
表2 基于全譜和SPA特征波長3類大豆的判別分析結(jié)果Table 2 Discriminant analysis results for the three types of seeds based on full spectrum and SPA characteristic wavelength
2.5.2 基于SPA特征波段的判別分析使用SPA算法挑選特征波長,最大選定波長數(shù)設(shè)為30,共篩選到17個(gè)特征波長(985、988、994、1 010、1 013、1 029、1 032、1 067、1 095、1 164、1 202、1 315、1 353、1 378、1 419、1 479和1 538 nm)作為變量集(圖5)。
圖5 使用SPA算法對全波段光譜數(shù)據(jù)的分析結(jié)果Fig.5 Analysis results of full band spectral data using SPA algorithm
基于SPA篩選的特征波段構(gòu)建了SPA-PLS-DA和SPA-SVM-DA兩種模型。SPA-PLS-DA模型下,校正集的總識別正確率為93.91%,與PLS-DA結(jié)果相比略有提高;驗(yàn)證集的總識別正確率也與PLS-DA結(jié)果相近。SPA-SVM-DA模型的結(jié)果與SVM-DA模型相似,對正常粒的識別正確率均低于PLS-DA模型,在驗(yàn)證集中僅為61.63%。上述結(jié)果表明,基于SPA特征波長構(gòu)建的SPA-PLS-DA模型可有效實(shí)現(xiàn)對3類種子的識別,而SPA-SVM-DA對正常粒的誤判現(xiàn)象較多(表2)。
綜上所述,4種模型均可實(shí)現(xiàn)對3類種子的識別,其中基于全譜段的PLS-DA模型和基于SPA特征波長的SPA-PLS-DA模型對霉變粒和紫斑粒的識別正確率更高,SPA-PLS-DA可在保證模型識別正確率基本不變的情況下大幅降低變量數(shù),更有利于便攜式多光譜設(shè)備的開發(fā)。
本研究探索了基于近紅外高光譜成像技術(shù)對大豆紫斑粒和霉變粒進(jìn)行快速識別的方法。通過分析比較正常粒、霉變粒和紫斑粒3類種子的原始光譜可知,正常粒和紫斑粒的原始光譜相似,霉變粒光譜反射率明顯高于前兩者,其主要原因可能是霉變種子(受真菌侵染后)出現(xiàn)皺縮和顏色發(fā)白;進(jìn)一步對3類種子的原始光譜進(jìn)行二階導(dǎo)數(shù)處理,發(fā)現(xiàn)6個(gè)存在較大差異的波長。大豆種子霉變后蛋白質(zhì)和脂肪等營養(yǎng)成分的含量顯著下降,而大豆紫斑病只影響種皮結(jié)構(gòu),對內(nèi)部物質(zhì)的影響較小。近紅外光譜主要是反映含氫基團(tuán)(C—H、N—H、O—H)的吸收,這些特征波長可能與種子中營養(yǎng)成分的差異有關(guān)[33]。
本研究采用CARS和SPA兩種算法進(jìn)行光譜的變量篩選,前者適用于正常粒和病變粒2類種子的判別,后者被用于正常粒、霉變粒和紫斑粒3類種子的判別。CARS法篩選的特征波長與二階導(dǎo)數(shù)處理后發(fā)現(xiàn)的差異波長以及SPA法篩選的特征波長基本一致,其主要原因是近紅外區(qū)域的吸收多為寬峰且重疊嚴(yán)重,無法直接分辨是哪一種物質(zhì)的吸收峰,需要借助化學(xué)計(jì)量學(xué)對光譜信息進(jìn)行解析。
為了準(zhǔn)確區(qū)分正常粒與病變粒,本研究分別基于全譜和CARS法篩選的特征波長構(gòu)建了4種模型,發(fā)現(xiàn)SVM-DA和CARS-SVM-DA模型對正常粒的誤判率較高,而PLS-DA和CARS-PLS-DA模型對校正集和驗(yàn)證集的識別正確率都在93%以上,其中PLS-DA模型達(dá)到95%,說明所建立的PLS-DA和CARS-PLS-DA模型能較好地識別病變種子。
為了進(jìn)一步探究區(qū)分正常粒、紫斑粒和霉變粒3類種子的可行性,本研究基于全譜和SPA法篩選的特征波長構(gòu)建了4種模型,發(fā)現(xiàn)所有模型對校正集和驗(yàn)證集的識別正確率都在80%以上,其中正常粒與霉變粒均可以有效區(qū)分,而紫斑粒存在誤判為正常粒的問題,尤其是在基于特征波長的判別模型中。這可能是因?yàn)樽习吡I习唿c(diǎn)的大小與位置不均一,當(dāng)采集的光譜信息來自無斑點(diǎn)一側(cè)時(shí)容易將之誤判為正常粒。此外,實(shí)際材料中的紫斑粒和正常粒也具有霉變的情況,導(dǎo)致這些種子被判定為霉變粒。因此,需要進(jìn)一步對不同病變程度的大豆進(jìn)行精準(zhǔn)分析。趙丹婷[34]基于圖像處理技術(shù)構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)模型對正常、病斑、霉變、蟲蝕和破碎的大豆進(jìn)行識別,平均正確率為90.33%;侯升飛[35]基于高光譜成像技術(shù)構(gòu)建的人工神經(jīng)網(wǎng)絡(luò)對不同質(zhì)量等級的大豆進(jìn)行識別,準(zhǔn)確率為92%。這說明高光譜成像技術(shù)相較于圖像處理技術(shù)可能在大豆判別分析中更優(yōu),而本研究所構(gòu)建的模型,在準(zhǔn)確識別大豆的前提下,對高光譜數(shù)據(jù)進(jìn)行了降維,篩選到與大豆病變相關(guān)的特征波長,因此更利于光譜設(shè)備的開發(fā)。
本研究只使用單一的大豆品種進(jìn)行研究,尚不清楚在不同品種之間判別情況的差異。下一步研究應(yīng)使用不同遺傳背景和地域來源的大豆材料探索不同病變程度大豆之間的廣譜特征差異,以驗(yàn)證所建模型的穩(wěn)定性和方法的可行性,最終構(gòu)建一套行之有效的、高通量快速無損識別病變大豆的理論和技術(shù)體系。
南京農(nóng)業(yè)大學(xué)學(xué)報(bào)2022年4期