尤 佳, 李景彬, 黃 勇, 黃蒂云, 彭順正
(1.石河子大學(xué)機械電氣工程學(xué)院,新疆石河子 832000; 2.石河子大學(xué)信息科學(xué)與技術(shù)學(xué)院,新疆石河子 832000)
棉種是棉花生產(chǎn)的基礎(chǔ)[1],棉種質(zhì)量直接影響棉花的產(chǎn)量和纖維品質(zhì)。棉種質(zhì)量是指種子凈度、發(fā)芽率、活力和品種純度等指標(biāo)所表示的綜合特性[2]。選用優(yōu)良的棉種可以顯著增產(chǎn),研究表明,作物增產(chǎn)中優(yōu)質(zhì)良種所起的作用約占1/3以上,而棉種活力是保障棉花高產(chǎn)的關(guān)鍵因素[3]。高活力種子具有明顯的生長優(yōu)勢,對其活力測定對農(nóng)業(yè)生產(chǎn)具有重要意義,播種前須要對種子活力進(jìn)行測定,選用高活力種子確保田間苗齊、壯,且活力較高的種子抗逆性強,貯藏價值大[4]。
目前常規(guī)測定棉種活力主要方法有發(fā)芽試驗[3]、高溫燜種法[5]、四唑染色法[6]、電導(dǎo)率測定法[7]、介電常數(shù)法[8]、機器視覺[9]等。這些方法應(yīng)用于棉種活力檢測,但存在對樣品造成損害、耗時、檢測結(jié)果不準(zhǔn)確、速度慢、使用的化學(xué)試劑易造成環(huán)境污染等缺點。因此研究出一種快速、準(zhǔn)確、無損、高效的棉種活力檢測方法是目前市場需求。
高光譜圖像應(yīng)用于農(nóng)產(chǎn)品檢測是近些年興起的一項新技術(shù),它在獲取研究對象空間信息和光譜信息時,也可以更大范圍獲取樣本的內(nèi)外部信息,能夠更加全面地對樣本進(jìn)行分析研究。高光譜圖像技術(shù)已廣泛應(yīng)用于農(nóng)畜產(chǎn)品檢測[10-12]及水果品質(zhì)檢測[13-16],基于高光譜圖像技術(shù)檢測種子品質(zhì)、產(chǎn)地等近些年也開始新興于國內(nèi)外。Cogdill等采用高光譜圖像技術(shù)對玉米種子的含油率和含水率進(jìn)行檢測,得到了較好的成果[17];Wallays等基于高光譜圖像技術(shù)建立了小麥、大麥、玉米雜質(zhì)檢測系統(tǒng)[18];Singh等利用近紅外高光譜成像系統(tǒng)對小麥進(jìn)行檢測,對正常小麥與受損小麥進(jìn)行了區(qū)分[19];Nansen等利用高光譜圖像技術(shù)對澳大利亞本地樹種萌發(fā)進(jìn)行分類預(yù)測,其效果良好[20]。國內(nèi)也有許多學(xué)者進(jìn)行了相關(guān)研究,朱啟兵等研究了快速識別種子純度,把熵信息作為分類特征實現(xiàn)玉米種子的準(zhǔn)確識別分類[21];王國慶等提出了用高光譜圖像技術(shù)對玉米種子年份和產(chǎn)地鑒別,其模型訓(xùn)練集和測試集精度分別為99.11%和98.3%[22];張初等采用高光譜圖像技術(shù)結(jié)合化學(xué)計量學(xué)方法實現(xiàn)了黑豆品種的鑒別,得出利用小波分析提取光譜特征信息建立的極限學(xué)習(xí)機模型效果最好[23];李美凌等研究了水稻種子不同活力水平之間的差異,初步說明了利用高光譜圖像技術(shù)檢測種子活力的可行性[24]。
目前利用高光譜圖像技術(shù)對種子活力檢測的研究很少,且針對脫絨棉種活力進(jìn)行檢測未見相關(guān)研究。本研究基于高光譜圖像技術(shù)對脫絨棉種活力進(jìn)行檢測,為脫絨棉種活力測定提供了一種新方法,同時也為其他種子的活力檢測奠定了理論基礎(chǔ)。
試驗采用由新疆棉種加工廠提供的新陸早50、新陸早57、新陸早62脫絨棉種為研究對象篩選出新陸早50、新陸早57和新陸早62各270粒。
試驗前將脫絨棉種按照不同品種依次編號,同時為了避免種子之間的差異性,用于電導(dǎo)率和高光譜成像系統(tǒng)采集的脫絨棉種保持一致。
采用人工老化方法,將脫絨棉種分成不同老化程度。將新陸早50、新陸早57、新陸早62分別各選取180粒,分成2組,每組90粒,并對每組進(jìn)行編號,編號如表1所示。將6組脫絨棉種放在溫度為45 ℃、濕度為100%條件的LH-250S老化箱內(nèi),對新陸早50、新陸早57、新陸早62的1組進(jìn)行 24 h 的老化處理,對新陸早50、新陸早57、新陸早62的2組進(jìn)行48 h的老化處理,由此得到2種不同老化程度的種子。
表1 脫絨棉種老化數(shù)據(jù)編號
注:1代表人工老化24 h的脫絨棉種,2代表人工老化48 h的脫絨棉種。
試驗采用如圖1高光譜成像系統(tǒng)。整個系統(tǒng)由圖像采集部分、光源、輸送裝置3個部分組成。其中,圖像采集部分包括光譜儀(ImSpector V10E-QE,Spectral Imaging Ltd,Oulu,F(xiàn)inland)、鏡頭、CCD相機(C8484-05G,Hamamatsu Photonics,Japan);光源由光源控制器(3900ER,Illumination Technologies,Inc,USA) 和150 W鹵素?zé)艚M成; 輸送裝置由電移平臺(PSA200-11-X,Zolix)和電移平臺控制器(SC300-1A,Zolix)組成。為了減少外界對圖像采集影響,采集樣本在密封的遮光柜中進(jìn)行,為了保證圖像采集質(zhì)量,物距、光心距離和光源角度可調(diào)節(jié)。高光譜測量的光譜分辨率為 2.8 nm,成像光譜校正后范圍408~1 013 nm。
在進(jìn)行高光譜圖像采集前,須要對平臺移動速度、平臺移動行程、物距、曝光時間進(jìn)行調(diào)整,從而獲得圖像大小合適、不失真、清晰的圖像。經(jīng)過對此調(diào)試及參數(shù)優(yōu)化,確定采集參數(shù):物距高度設(shè)置為34 cm,曝光時間15.5 ms,圖像采集速度為1.25 mm/s。
在光照度分布弱的波長下獲得的圖像含有較大噪聲,因此在高光譜圖像采集前須要對圖像進(jìn)行黑白校正,以消除部分噪聲影響。高光譜進(jìn)行白板校正所得到的圖像為W,在關(guān)閉攝像頭全黑狀態(tài)下,采集的全黑圖像為B,得到校正后的圖像為Ic,見式(1)。
(1)
式中:Ic為校正后的圖像;Io為高光譜成像系統(tǒng)采集的原始圖像。
將采集完高光譜圖像的脫絨棉種進(jìn)行電導(dǎo)率試驗。從上述3個品種共810粒種子按分組編號單粒放入4 mL的試管中,加入2 mL蒸餾水,在溫度為30 ℃的恒溫箱中靜置12 h。利用電導(dǎo)率儀分別對單粒種子進(jìn)行測量,并記錄數(shù)據(jù),得到對應(yīng)的電導(dǎo)率如圖2至圖4所示。
高光譜儀提取波長范圍為408~1 013 nm的脫絨棉種圖像。高光譜圖像含有數(shù)據(jù)量大、冗雜,而光譜信息反映樣品的化學(xué)成分、物理結(jié)構(gòu),本研究只提取光譜信息作為研究對象,并且選取感興趣區(qū)(RIO)提取樣本的光譜數(shù)據(jù)。
為了消除多余背景對樣品影響,把單粒脫絨棉種全區(qū)域作為1個感興趣區(qū)域,提取單粒種子的光譜數(shù)據(jù)。3種脫絨棉種提取810個感興趣區(qū)域,并通過感興趣區(qū)域獲得單粒種子的光譜平均反射光強,得到平均反射光強如圖5所示。
采集的光譜范圍為408~1 013 nm,光譜圖顯示,在408~450、1 000~1 013 nm之間存在明顯噪音,因此選取450~1 000 nm 范圍的光譜反射率作為研究對象。為了消除儀器自身噪聲和隨機誤差,須要對光譜反射光照度進(jìn)行濾波處理,本研究采用Savitzky-Golay平滑法。在高光譜圖像的獲取過程中,光譜信息受到環(huán)境因素以及種子顆粒大小不均等因素的影響,須要對光譜進(jìn)行多元散射校正(MSC),校正種子顆粒因散射引起的光譜差異。
對光譜數(shù)據(jù)集進(jìn)行歸一化處理。x、y∈Rn,xmin=min(x),xmax=max(x)將原始數(shù)據(jù)歸一到[-1,1]之間,區(qū)間為[-1,1]的映射函數(shù)為:
(2)
高光譜數(shù)據(jù)信息冗余多、相關(guān)性大,對數(shù)據(jù)處理、計算及存儲都極為不方便,對光譜數(shù)據(jù)預(yù)處理后須要對其進(jìn)行降維處理,去除冗余信息。本研究采用主成分分析(PCA)處理,生成互不相關(guān)的輸出波段,用于隔離噪音和減少數(shù)據(jù)集的維數(shù)。高光譜多波段數(shù)據(jù)是高度相關(guān),主成分變換找到一個原點為數(shù)據(jù)均值的新坐標(biāo),通過旋轉(zhuǎn)坐標(biāo)軸使數(shù)據(jù)的方差達(dá)到最大,從而生成互不相關(guān)的波段。對脫絨棉種高光譜圖像進(jìn)行主成分分析,得出新陸早50、新陸早57、新陸早62的前10個主成分分析及10個主成分(PC)圖像。如圖6所示,新陸早50的PC1、PC2、PC3圖像幾乎代表了原始光譜數(shù)據(jù)的大部分?jǐn)?shù)據(jù),且主成分累積貢獻(xiàn)率達(dá)到98%以上,PC1圖像接近于原始圖像包含了脫絨棉種大部分信息,但主要體現(xiàn)脫絨棉種表皮信息;PC2圖像中,棉種周圍邊緣和下端為白色,PC2包含部分棉種內(nèi)部信息;PC3含有大量的背景信息,棉種中心區(qū)域為黑色,邊緣部分為白色,黑色部分為反光現(xiàn)象造成。PC4~PC10包含了少量的信息,PC10的累積貢獻(xiàn)率達(dá)到了99%左右,為了盡可能保證信息的丟失量較少,故選取10個主成分進(jìn)行分析。
判別分析(discriminant analysis,DA)根據(jù)測量或觀察的變量值判斷研究樣本如何正確分類[25]。通過已知數(shù)量的1個分組變量及其特征變量,確定分組變量和特征變量的數(shù)量關(guān)系,建立判別函數(shù),利用其數(shù)量關(guān)系對其未知分組類型的樣本進(jìn)行判別分組。支持向量機(support vector machine,SVM)是一個凸二次規(guī)劃問題,在模式分類問題上具有很好的范化性。SVM是通過一個非線性映射P,將樣本空間映射到一個高位的特征空間中,使樣本空間的非線性問題轉(zhuǎn)化為特征空間的線性可分問題,應(yīng)用核函數(shù)的展開定力在某種程度上避免了“維數(shù)災(zāi)難”。對脫絨棉種的光譜數(shù)據(jù)進(jìn)行預(yù)處理及主成分分析后,分別對3個品種的脫絨棉種進(jìn)行判別分析,其判別結(jié)果如表2所示。根據(jù)主成分圖像結(jié)合貢獻(xiàn)率分別選取前10個主成分對脫絨棉種進(jìn)行建模分析, 3個品種的脫絨棉種PC10累積貢獻(xiàn)率都達(dá)到99%以上;采用10個主成分進(jìn)行判別分析,新陸早50、新陸早57、新陸早62的分類精度達(dá)到88.3%以上,分別對應(yīng)找出每個品種的誤判樣本,與電導(dǎo)率試驗所測數(shù)據(jù)進(jìn)行對比,發(fā)現(xiàn)部分誤判樣本劃分類別與其實際測量的電導(dǎo)率值相匹配。其中,新陸早50未處理1號、新陸早50人工老化24 h的13號、新陸早50人工老化48 h的11號、新陸早57人工老化48 h的33號、新陸早62人工老化24 h的29號、33號由于種子自身原因或光譜采集問題為異常樣本分類錯誤。
每個樣本的光譜信息預(yù)處理后,將3個品種各240個樣本的75%作為訓(xùn)練集,其余的25%作為測試集,采用支持向量機(SVM)建立分類模型。用10個主成分作為輸入變量,選擇線性核函數(shù),采用粒子群優(yōu)化算法對懲罰參數(shù)c和核函數(shù)參數(shù)g尋求最優(yōu)值。新陸早50、新陸早57、新陸早62的測試集鑒別率達(dá)到78%、82%、80%。
表2 脫絨棉種的判別模型分類結(jié)果
主成分1、主成分2和主成分3包含了大部分信息,其累計貢獻(xiàn)率達(dá)到了97%以上,大部分脫絨棉種能夠在3個主成分下較好地分類,采用各個波長對3個主成分權(quán)重值大小的方法尋求特征波長,權(quán)重系數(shù)絕對值越大,對主成分圖像影響越大,包含的信息也就越多;反之,權(quán)重系數(shù)絕對值越小,對主成分圖像影響越小,包含的信息也就相對較少。綜合考慮,選取505.22~509.54、677.57~682.64、1 007.81~1 013.13 nm等3個波段為特征波段。從選取特征波長分析,其中2個波段位于可見光范圍,而另外1個位于近紅外范圍。對特征波長建模分析,判別分析中新陸早50、新陸早57、新陸早62測試集判別率為98.3%、98.3%、96.6%;采用SVM對特征波長分析,得出新陸早50、新陸早57、新陸早62的測試集鑒別率為81.67%、85%、85%(圖7)。
對采集的脫絨棉種光譜圖像經(jīng)過預(yù)處理、主成分分析,并且對光譜數(shù)據(jù)進(jìn)行預(yù)處理、主成分分析、特征波段提取等工作后,分別對處理后的數(shù)據(jù)進(jìn)行距離判別和SVM建模分析。以10個主成分為輸入量的判別分析模型的鑒別率最高可達(dá)到100%,SVM模型的鑒別率最高可達(dá)到82%;經(jīng)過特征波段提取建立的距離判別和SVM模型鑒別最高可達(dá)到98.3%和85%。結(jié)果表明,采用距離判別模型對脫絨棉種活力檢測精度更高,且基于特征波段下對3個品種的脫絨棉種建立的距離判別和SVM模型比基于主成分下建立的更為穩(wěn)定可靠、鑒別率差異小、鑒別效果良好。
本試驗采用高光譜圖像技術(shù)對脫絨棉種的活力檢測進(jìn)行初步研究。采用Savitzky-Golay平滑法,多元散射校正和歸一化對數(shù)據(jù)進(jìn)行預(yù)處理,并利用主成分分析法對采集的光譜圖像進(jìn)行分析,根據(jù)貢獻(xiàn)率及圖像所包含信息量選取10個主成分進(jìn)行分析,采用10個主成分建立不同老化程度下的判別模型和支持向量模型。結(jié)果表明,判別模型分類效果略優(yōu)于支持向量機模型,其測試集分類精度達(dá)到88%以上,說明基于高光譜圖像技術(shù)檢測脫絨棉種活力方法是可行的,為脫絨棉種活力無損快速檢測提供了一種新方法。
采用權(quán)重法提取3個特征波段,建立判別模型和支持向量機模型,其中判別分析模型測試集分類精度可以達(dá)到96%左右。結(jié)果表明,采用主成分法建立的判別分析模型鑒別率略高,但利用特征波段建模法較為穩(wěn)定,更具有可靠性,同時為了適應(yīng)現(xiàn)實需求,以盡可能少的波段獲得最優(yōu)的品種識別精度,波段選擇還須要進(jìn)一步研究。