楊 波,段明磊,楊 童
(1. 重慶對(duì)外經(jīng)貿(mào)學(xué)院,重慶 401520;2. 南方農(nóng)業(yè)機(jī)械與裝備關(guān)鍵技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510642;3. 華南農(nóng)業(yè)大學(xué) 工程學(xué)院,廣東 廣州 510642)
種子是最小的胚胎植物,結(jié)構(gòu)上種仁被種皮包裹。種仁活力是確保作物高產(chǎn)的重要因素,部分種子因存放時(shí)間久導(dǎo)致種子休眠不萌芽,種子休眠使種子內(nèi)部化學(xué)成分發(fā)生了變化,但外觀上并未發(fā)生任何改變,即使是經(jīng)驗(yàn)豐富的作物培育者也難以判斷種子是否能萌芽[1?2]。在種子播種前必須知道種子的發(fā)芽能力,以確保幼苗數(shù)量[3?4]。當(dāng)前西瓜種子種植缺乏有效的精選技術(shù),種子品質(zhì)不一,依靠傳統(tǒng)經(jīng)驗(yàn)選種無(wú)法滿足生產(chǎn)需要,大量的不法商販以次充好出售種子,獲取高額利潤(rùn),同時(shí)也浪費(fèi)了種植成本,降低了優(yōu)質(zhì)西瓜的生產(chǎn)率[5?6]。
目前國(guó)內(nèi)外學(xué)者對(duì)種子質(zhì)量檢測(cè)做了相關(guān)研究,并取得較好的研究結(jié)果。LYDIA 等[7]采用X 射線評(píng)價(jià)沿海植物種子鹽濃度對(duì)種子發(fā)芽率的影響,實(shí)現(xiàn)鹽濃度分布下種子耐鹽性的可視化。JANNAT等[8]利用傅里葉近紅外光譜篩選不同活力西瓜種子,有效區(qū)分出不同老化程度的西瓜種子。YU 等[9]研究了近紅外光譜特性與水稻種子淀粉、蛋白質(zhì)含量的關(guān)系,建立了基于近紅外光譜的水稻種子成分快速檢測(cè)模型。WANG等[10]研究了單粒玉米種子含水率和成熟度的識(shí)別方法。孫俊等[11]采用人工加速老化的方式得到水稻種子樣本,利用深度學(xué)習(xí)對(duì)不同活力等級(jí)的水稻種子進(jìn)行分類。相比以上技術(shù),高光譜成像技術(shù)具有指紋圖譜特性,可以多維度地分析種子內(nèi)部質(zhì)量[12?14]。針對(duì)西瓜種子外殼硬度高、種仁被包裹、內(nèi)部信息分析難等問(wèn)題,利用高光譜圖譜信息的優(yōu)勢(shì)對(duì)西瓜種子活力等級(jí)進(jìn)行判別,為選購(gòu)水果種子提供有效參考。
西瓜種子品種為景路7 號(hào),將在常溫下貯存1、2、3 a的種子設(shè)為3組,每組取100顆進(jìn)行發(fā)芽試驗(yàn)。試驗(yàn)在智能恒溫恒濕箱中進(jìn)行,西瓜種子被鋪上3層浸濕的濾紙,噴灑少量清水,并保證每天8 h 的光照時(shí)間。另外,利用高光譜成像裝置采集完整西瓜種子的圖像信息,供試西瓜種子樣品信息如表1所示。發(fā)芽試驗(yàn)結(jié)果顯示,種子的貯存時(shí)間越短,發(fā)芽率越高。貯存期超過(guò)3 a 的種子發(fā)芽率非常低。因此,將貯存1、2、3 a 的西瓜種子分別設(shè)置為高活力、中等活力和低活力種子。
表1 供試西瓜種子樣品信息Tab.1 Information on watermelon seed samples for testing
高光譜成像裝置如圖1 所示,將樣品放置在電動(dòng)移動(dòng)平臺(tái),通過(guò)白板校正后,電腦點(diǎn)擊圖像采集按鈕,將高光譜相機(jī)采集的圖像保存至電腦。因CCD 相機(jī)采用動(dòng)態(tài)線掃描方式,為保證相機(jī)準(zhǔn)確穩(wěn)定的線掃描,需選擇相機(jī)波段范圍的穩(wěn)定光源,故選擇2 盞獨(dú)立的12 V、20 W 鹵素?zé)?,光譜范圍400~1 100 nm,分辨率為3.5 nm,相機(jī)像素為320×256。
圖1 高光譜成像裝置Fig.1 Hyperspectral imaging device
高光譜成像裝置在采集樣品信息前先預(yù)熱0.5 h,可以消除基線漂移對(duì)數(shù)據(jù)的影響。鹵素?zé)粽樟梁螅鞴戏N子的圖像被相機(jī)捕獲,得到三維立方體數(shù)據(jù),三維立方體數(shù)據(jù)中包含了特定像素的光譜信息和特定波長(zhǎng)下的圖像信息。圖像分割與光譜提取流程如圖2 所示,利用ENVI 軟件打開(kāi)圖像,手動(dòng)選擇感興區(qū)域(Region of interest,ROI),提取代表性光譜,同時(shí)借助軟件,獲取西瓜種子在685、790、826、855 nm 4 個(gè)通道下的圖像,發(fā)現(xiàn)這些通道下的圖像最接近原始圖片。為了消除光源強(qiáng)度分布不均勻和相機(jī)暗電流的影響,需要對(duì)高光譜原始圖像進(jìn)行黑白校正,校正公式為公式(1)。
圖2 圖像分割與光譜提取流程Fig.2 Image segmentation and spectral extraction process
式中,Rλ為標(biāo)定后的數(shù)據(jù),Hλ為全黑數(shù)據(jù),Bλ為全白數(shù)據(jù),Iλ為原始數(shù)據(jù)[15]。
數(shù)據(jù)分析利用化學(xué)計(jì)量學(xué)方法在MATLAB 中實(shí)現(xiàn),其中多元分析模型偏最小二乘判別(PLSDA)在不同類別數(shù)據(jù)判別中處理效果較好,適合不同活力等級(jí)的西瓜種子分類。PLS-DA 模型表達(dá)式為Y=X×b+E,式中X是每個(gè)類別的光譜矩陣,b是回歸系數(shù)[16]。Y=1、4、7 時(shí),分別表示貯存1、2、3 a 的西瓜種子。
極限學(xué)習(xí)機(jī)(ELM)模型同樣適用于不同類別物質(zhì)的定性分析,計(jì)算如公式(2)[17?18]所示,輸入變量為x,激勵(lì)函數(shù)為G(x),連接隱含節(jié)點(diǎn)和輸入節(jié)點(diǎn)權(quán)值變量為w,b為隱含節(jié)點(diǎn)的偏置,β為連接隱含節(jié)點(diǎn)和輸出節(jié)點(diǎn)的權(quán)值變量。
隨著貯存時(shí)間的增加,西瓜種子內(nèi)部結(jié)構(gòu)發(fā)生變化,在光譜的照射下,西瓜種子特定的物質(zhì)信息會(huì)發(fā)生光譜響應(yīng),利用光譜特征可以判斷西瓜種子的活力。從西瓜種子高光譜圖像中選取感興區(qū)域,然后提取平均光譜。圖3是不同活力西瓜種子的平均光譜,在750~900 nm 處西瓜種子譜峰信息豐富,出現(xiàn)波峰和波谷,可能是由于C-H 的伸縮振動(dòng)、C=H 吸收振動(dòng)、O-H 伸縮振動(dòng)以及OH-O 的彎曲振動(dòng)造成。西瓜種子活力高低主要由亞油酸、軟脂酸、油酸、硬脂酸等內(nèi)部成分決定[19?20]。高活力西瓜種子光譜反射率明顯高于低活力西瓜種子,高活力種子與低活力種子光譜上存在差異,可能是因?yàn)榈突盍ΨN子貯藏時(shí)間久,體內(nèi)的酸揮發(fā),留在種子內(nèi)部的酸含量降低。784 nm和865 nm出現(xiàn)波峰和波谷,可能是因?yàn)榇瞬ǘ蔚墓馔高^(guò)種殼,穿透到西瓜種子內(nèi)部的果肉,檢測(cè)到果肉中的含酸量,這一特征可以作為判別西瓜種子不同活力的依據(jù)[21?22]。
圖3 不同活力等級(jí)西瓜種子代表性光譜Fig.3 Representative spectra of watermelon seeds of different vigor levels
圖4 是不同活力等級(jí)的西瓜種子分類散點(diǎn)圖,圖中的黑色、紅色和藍(lán)色圓點(diǎn)分別表示存放1、2、3 a的西瓜種子,可以明顯看出,存放3 a 的西瓜種子與2 a 的西瓜種子出現(xiàn)聚類現(xiàn)象,這表明,西瓜種子的活力等級(jí)可以通過(guò)光譜或者圖像檢測(cè)出。此外,不同顏色的點(diǎn)有交叉現(xiàn)象,1 a 和2 a 的種子很難區(qū)分等級(jí),需要做進(jìn)一步的數(shù)據(jù)分析。
圖4 不同活力等級(jí)西瓜種子分類散點(diǎn)圖Fig.4 Scatter diagram of watermelon seeds of different vigor levels
2.2.1 特征變量篩選 由于高光譜數(shù)據(jù)包含的信息量巨大,光譜變量中包含著許多無(wú)用信息,在建模過(guò)程中容易降低模型的預(yù)測(cè)精度。為了提取光譜變量的有效信息,采用連續(xù)投影算法(Successive projections algorithm,SPA)、遺 傳 算 法(Genetic algorithm,GA)、無(wú) 信 息 變 量 消 除(Uniformative variable elimination,UVE)等方法進(jìn)行特征變量篩選,提高種子活力等級(jí)鑒別精度與建模效率。
圖5 為利用特征變量篩選方法SPA 和GA 篩選的波長(zhǎng)變量圖,全光譜波長(zhǎng)變量數(shù)為255 個(gè),經(jīng)過(guò)SPA篩選出14個(gè)特征變量,GA挑選31個(gè)特征變量,GA 在400~600 nm 波段挑選變量較多,而SPA 算法所選變量的波長(zhǎng)大部分分布在800~1 000 nm。采用UVE對(duì)原始光譜數(shù)據(jù)進(jìn)行波段篩選,UVE篩選出148個(gè)特征變量(圖6)。
圖5 SPA與GA算法篩選的變量Fig.5 Variables screened by SPA and GA algorithms
圖6 UVE算法篩選的變量Fig.6 Variables screened by UVE algorithm
2.2.2 西瓜種子活力等級(jí)定性判別 表2是采用不同特征變量篩選方法結(jié)合ELM 算法建立的活力判別模型結(jié)果,利用Sin、Sig、Hardlim 等3 種激勵(lì)函數(shù)分別對(duì)120 條光譜數(shù)據(jù)進(jìn)行建模,其中預(yù)測(cè)集30個(gè),建模集90個(gè),經(jīng)過(guò)程序多次運(yùn)行,統(tǒng)計(jì)最佳結(jié)果,Hardlim 函數(shù)分類正確率偏低,UVE 特征變量篩選結(jié)合ELM 模型的Sig函數(shù),分類正確率最高,相關(guān)系數(shù)達(dá)到0.83,僅有1 個(gè)發(fā)生了誤判,誤判率為3.33%。
表2 特征變量篩選方法結(jié)合ELM預(yù)測(cè)結(jié)果Tab.2 Prediction results of method of screening characteristic variables combined with ELM
用相同的建模數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)輸入PLS-DA 模型中,對(duì)西瓜種子活力等級(jí)進(jìn)行判別,設(shè)2.5 和5.5為閾值,判別結(jié)果如表3 所示,特征變量篩選方法UVE 結(jié)合建模方法PLS-DA 模型效果最佳,預(yù)測(cè)集均方根誤差(RMSEP)為0.88,預(yù)測(cè)集相關(guān)系數(shù)(Rp)為0.86,分類正確率為100.00%。
表3 特征變量篩選方法結(jié)合PLS-DA預(yù)測(cè)結(jié)果Tab.3 Prediction results of method of screening characteristic variables combined with PLS-DA
圖7 是在UVE 結(jié)合PLS-DA 情況下得到的最佳建模效果圖。圖8是活力等級(jí)定性判別主成分因子數(shù)決定圖,隨著主成分因子數(shù)的增加預(yù)測(cè)集均方根誤差先降低后上升,當(dāng)主成分因子數(shù)為6時(shí),有最小的均方根誤差。
圖7 UVE結(jié)合PLS-DA模型判別結(jié)果Fig.7 Discriminant results of UVE combined with PLSDA model
圖8 活力等級(jí)定性判別主成分因子數(shù)決定圖Fig.8 Decision chart of vitality level qualitative discriminant principal component factor number
2.3.1 特征圖像的獲取 高光譜采集的每幅原始圖像都包含了288 個(gè)波長(zhǎng)對(duì)應(yīng)的子圖像,288 個(gè)圖像中有的不具備完整的樣品信息,甚至有可能找不到樣品信息。3 種活力等級(jí)的西瓜種子共120 個(gè),逐個(gè)樣品處理時(shí)間長(zhǎng)、效率低,因此,采用主成分分析法對(duì)西瓜種子圖像數(shù)據(jù)進(jìn)行降維,使得不同類別數(shù)據(jù)達(dá)到差異最大化。首先將西瓜種子每1幅圖像壓縮成5 幅主成分圖像,主成分圖像是按照信息量的大小進(jìn)行排序,既PC1>PC2>PC3>PC4>PC5,所以5 個(gè)主成分圖像能夠清晰反映西瓜種子的基本信息[17?18]。從圖9可以看出,從PC1、PC2圖像能清晰看出西瓜種子信息,PC1圖像最清晰,適合本次樣品的信息提取。PC2 圖像邊沿出現(xiàn)模糊痕跡,從PC3—PC5 圖像則只能看出樣品輪廓,所以不適合圖像信息的提取。圖10 是對(duì)應(yīng)的RGB 圖像,其中R(紅)、G(綠)、B(藍(lán))的取值分別為662、554、450 nm,該真彩圖像為校正后的原始高光譜圖像,最接近種子實(shí)際圖像。
圖9 西瓜種子不同PC圖像Fig.9 Different PC images of watermelon seeds
圖10 西瓜種子RGB圖像Fig.10 RGB image of watermelon seeds
從PC1 圖像中提取權(quán)重系數(shù),尋找權(quán)重系數(shù)曲線包含波峰、波谷對(duì)應(yīng)的波長(zhǎng)點(diǎn),從而找到圖像的特征波長(zhǎng)。從圖11 可以看出,貯存1、2、3 a 種子的權(quán)重系數(shù)曲線變化規(guī)律基本一致,通常認(rèn)為權(quán)重系數(shù)曲線中的峰和谷所對(duì)應(yīng)的波長(zhǎng)點(diǎn)就是特征波長(zhǎng)[14],其中在波長(zhǎng)685、790、826、836、855 nm 處出現(xiàn)波峰和波谷,權(quán)重系數(shù)曲線的峰和谷為敏感波長(zhǎng),用來(lái)衡量變量的重要程度,圖中箭頭標(biāo)記是挑選的敏感波長(zhǎng)。圖12 是不同活力等級(jí)的西瓜種子5 個(gè)特征波長(zhǎng)點(diǎn)下對(duì)應(yīng)的5幅特征圖像。
圖11 不同活力等級(jí)西瓜種子各波長(zhǎng)權(quán)重系數(shù)Fig.11 Weight coefficients of watermelon seeds of different vigor levels
圖12 不同活力等級(jí)西瓜種子特征圖像Fig.12 Feature images of watermelon seeds of different vigor levels
2.3.2 西瓜種子活力等級(jí)定性判別 利用ELM 模型和PLS-DA 模型分別對(duì)西瓜種子圖像特征進(jìn)行判別分析,試驗(yàn)數(shù)據(jù)一共120 個(gè),90 個(gè)數(shù)據(jù)用于建模,30 個(gè)數(shù)據(jù)用于預(yù)測(cè),表4 是基于圖像特征的西瓜種子不同活力等級(jí)ELM 定性判別結(jié)果,ELM 模型判別時(shí),Sin 函數(shù)和Hardlim 函數(shù)的誤判率均為13.30%,建模相關(guān)系數(shù)分別為0.76和0.68,而Sig函數(shù)的建模效果優(yōu)于以上2 種函數(shù),誤判率為10.00%,建模相關(guān)系數(shù)為0.83。
表4 基于圖像特征的不同活力等級(jí)西瓜種子ELM定性判別結(jié)果Tab.4 ELM qualitative discrimination results of different vigor levels of watermelon seeds based on image features
將相同的90 個(gè)樣品作為建模集、30 個(gè)樣品作為預(yù)測(cè)集建立PLS-DA 判別模型,模型建立時(shí),以每個(gè)樣品圖像平均灰度值為自變量,貯存年限為因變量,圖13 是該模型定性判別結(jié)果,活力等級(jí)為1、2 a的閾值為2.5,活力等級(jí)為2、3 a的閾值設(shè)為5.5。當(dāng)預(yù)測(cè)值小于2.5 判定為1 a,當(dāng)預(yù)測(cè)值在2.5~5.5,判定為2 a,當(dāng)預(yù)測(cè)值在5.5 以上,判定為3 a。結(jié)果表明,有2 個(gè)預(yù)測(cè)樣品發(fā)生了誤判,誤判率為6.67%,建模集均方根誤差為0.78,相關(guān)系數(shù)為0.89,預(yù)測(cè)集均方根誤差為0.95,相關(guān)系數(shù)為0.85。
本試驗(yàn)利用高光譜成像技術(shù)提取西瓜種子感興區(qū)域的平均光譜,建立基于光譜和圖像信息的西瓜種子活力判別模型,并對(duì)比ELM 和PLS-DA 2 種判別結(jié)果?;诠庾V信息建立的檢測(cè)模型結(jié)果表明,特征變量篩選方法UVE 結(jié)合PLS-DA 檢測(cè)模型表現(xiàn)出較好的預(yù)測(cè)能力,分類正確率為100.00%,相關(guān)系數(shù)高達(dá)0.86。基于圖像信息判別西瓜種子活力等級(jí)過(guò)程中主成分分析法生成的PC1 圖像可以準(zhǔn)確地反映西瓜種子大部分信息,活力判別模型PLS-DA 的誤判率為6.67%,相關(guān)系數(shù)為0.85,優(yōu)于ELM 檢測(cè)模型的誤判率(10.00%)和預(yù)測(cè)集相關(guān)系數(shù)(0.83)。西瓜種子的光譜和圖像信息都能夠較好地區(qū)分活力等級(jí),但是基于光譜信息所建立的檢測(cè)模型優(yōu)于圖像信息建立的檢測(cè)模型,原因可能是在貯存過(guò)程中西瓜種子種仁發(fā)生生理變化,導(dǎo)致內(nèi)部差異較大,這種變化僅僅通過(guò)圖像處理技術(shù)很難觀察。另外,特征波長(zhǎng)點(diǎn)選擇的個(gè)數(shù)以及選擇區(qū)域也會(huì)影響建模結(jié)果。以上研究可為實(shí)際的水果種子在線檢測(cè)提供有力依據(jù)。