尤 佳, 李景彬, 黃 勇, 黃蒂云, 彭順正
(1.石河子大學(xué)機(jī)械電氣工程學(xué)院,新疆石河子 832000; 2.石河子大學(xué)信息科學(xué)與技術(shù)學(xué)院,新疆石河子 832000)
棉種是棉花生產(chǎn)的基礎(chǔ)[1],棉種質(zhì)量直接影響棉花的產(chǎn)量和纖維品質(zhì)。棉種質(zhì)量是指種子凈度、發(fā)芽率、活力和品種純度等指標(biāo)所表示的綜合特性[2]。選用優(yōu)良的棉種可以顯著增產(chǎn),研究表明,作物增產(chǎn)中優(yōu)質(zhì)良種所起的作用約占1/3以上,而棉種活力是保障棉花高產(chǎn)的關(guān)鍵因素[3]。高活力種子具有明顯的生長(zhǎng)優(yōu)勢(shì),對(duì)其活力測(cè)定對(duì)農(nóng)業(yè)生產(chǎn)具有重要意義,播種前須要對(duì)種子活力進(jìn)行測(cè)定,選用高活力種子確保田間苗齊、壯,且活力較高的種子抗逆性強(qiáng),貯藏價(jià)值大[4]。
目前常規(guī)測(cè)定棉種活力主要方法有發(fā)芽試驗(yàn)[3]、高溫燜種法[5]、四唑染色法[6]、電導(dǎo)率測(cè)定法[7]、介電常數(shù)法[8]、機(jī)器視覺[9]等。這些方法應(yīng)用于棉種活力檢測(cè),但存在對(duì)樣品造成損害、耗時(shí)、檢測(cè)結(jié)果不準(zhǔn)確、速度慢、使用的化學(xué)試劑易造成環(huán)境污染等缺點(diǎn)。因此研究出一種快速、準(zhǔn)確、無損、高效的棉種活力檢測(cè)方法是目前市場(chǎng)需求。
高光譜圖像應(yīng)用于農(nóng)產(chǎn)品檢測(cè)是近些年興起的一項(xiàng)新技術(shù),它在獲取研究對(duì)象空間信息和光譜信息時(shí),也可以更大范圍獲取樣本的內(nèi)外部信息,能夠更加全面地對(duì)樣本進(jìn)行分析研究。高光譜圖像技術(shù)已廣泛應(yīng)用于農(nóng)畜產(chǎn)品檢測(cè)[10-12]及水果品質(zhì)檢測(cè)[13-16],基于高光譜圖像技術(shù)檢測(cè)種子品質(zhì)、產(chǎn)地等近些年也開始新興于國(guó)內(nèi)外。Cogdill等采用高光譜圖像技術(shù)對(duì)玉米種子的含油率和含水率進(jìn)行檢測(cè),得到了較好的成果[17];Wallays等基于高光譜圖像技術(shù)建立了小麥、大麥、玉米雜質(zhì)檢測(cè)系統(tǒng)[18];Singh等利用近紅外高光譜成像系統(tǒng)對(duì)小麥進(jìn)行檢測(cè),對(duì)正常小麥與受損小麥進(jìn)行了區(qū)分[19];Nansen等利用高光譜圖像技術(shù)對(duì)澳大利亞本地樹種萌發(fā)進(jìn)行分類預(yù)測(cè),其效果良好[20]。國(guó)內(nèi)也有許多學(xué)者進(jìn)行了相關(guān)研究,朱啟兵等研究了快速識(shí)別種子純度,把熵信息作為分類特征實(shí)現(xiàn)玉米種子的準(zhǔn)確識(shí)別分類[21];王國(guó)慶等提出了用高光譜圖像技術(shù)對(duì)玉米種子年份和產(chǎn)地鑒別,其模型訓(xùn)練集和測(cè)試集精度分別為99.11%和98.3%[22];張初等采用高光譜圖像技術(shù)結(jié)合化學(xué)計(jì)量學(xué)方法實(shí)現(xiàn)了黑豆品種的鑒別,得出利用小波分析提取光譜特征信息建立的極限學(xué)習(xí)機(jī)模型效果最好[23];李美凌等研究了水稻種子不同活力水平之間的差異,初步說明了利用高光譜圖像技術(shù)檢測(cè)種子活力的可行性[24]。
目前利用高光譜圖像技術(shù)對(duì)種子活力檢測(cè)的研究很少,且針對(duì)脫絨棉種活力進(jìn)行檢測(cè)未見相關(guān)研究。本研究基于高光譜圖像技術(shù)對(duì)脫絨棉種活力進(jìn)行檢測(cè),為脫絨棉種活力測(cè)定提供了一種新方法,同時(shí)也為其他種子的活力檢測(cè)奠定了理論基礎(chǔ)。
試驗(yàn)采用由新疆棉種加工廠提供的新陸早50、新陸早57、新陸早62脫絨棉種為研究對(duì)象篩選出新陸早50、新陸早57和新陸早62各270粒。
試驗(yàn)前將脫絨棉種按照不同品種依次編號(hào),同時(shí)為了避免種子之間的差異性,用于電導(dǎo)率和高光譜成像系統(tǒng)采集的脫絨棉種保持一致。
采用人工老化方法,將脫絨棉種分成不同老化程度。將新陸早50、新陸早57、新陸早62分別各選取180粒,分成2組,每組90粒,并對(duì)每組進(jìn)行編號(hào),編號(hào)如表1所示。將6組脫絨棉種放在溫度為45 ℃、濕度為100%條件的LH-250S老化箱內(nèi),對(duì)新陸早50、新陸早57、新陸早62的1組進(jìn)行 24 h 的老化處理,對(duì)新陸早50、新陸早57、新陸早62的2組進(jìn)行48 h的老化處理,由此得到2種不同老化程度的種子。
表1 脫絨棉種老化數(shù)據(jù)編號(hào)
注:1代表人工老化24 h的脫絨棉種,2代表人工老化48 h的脫絨棉種。
試驗(yàn)采用如圖1高光譜成像系統(tǒng)。整個(gè)系統(tǒng)由圖像采集部分、光源、輸送裝置3個(gè)部分組成。其中,圖像采集部分包括光譜儀(ImSpector V10E-QE,Spectral Imaging Ltd,Oulu,F(xiàn)inland)、鏡頭、CCD相機(jī)(C8484-05G,Hamamatsu Photonics,Japan);光源由光源控制器(3900ER,Illumination Technologies,Inc,USA) 和150 W鹵素?zé)艚M成; 輸送裝置由電移平臺(tái)(PSA200-11-X,Zolix)和電移平臺(tái)控制器(SC300-1A,Zolix)組成。為了減少外界對(duì)圖像采集影響,采集樣本在密封的遮光柜中進(jìn)行,為了保證圖像采集質(zhì)量,物距、光心距離和光源角度可調(diào)節(jié)。高光譜測(cè)量的光譜分辨率為 2.8 nm,成像光譜校正后范圍408~1 013 nm。
在進(jìn)行高光譜圖像采集前,須要對(duì)平臺(tái)移動(dòng)速度、平臺(tái)移動(dòng)行程、物距、曝光時(shí)間進(jìn)行調(diào)整,從而獲得圖像大小合適、不失真、清晰的圖像。經(jīng)過對(duì)此調(diào)試及參數(shù)優(yōu)化,確定采集參數(shù):物距高度設(shè)置為34 cm,曝光時(shí)間15.5 ms,圖像采集速度為1.25 mm/s。
在光照度分布弱的波長(zhǎng)下獲得的圖像含有較大噪聲,因此在高光譜圖像采集前須要對(duì)圖像進(jìn)行黑白校正,以消除部分噪聲影響。高光譜進(jìn)行白板校正所得到的圖像為W,在關(guān)閉攝像頭全黑狀態(tài)下,采集的全黑圖像為B,得到校正后的圖像為Ic,見式(1)。
(1)
式中:Ic為校正后的圖像;Io為高光譜成像系統(tǒng)采集的原始圖像。
將采集完高光譜圖像的脫絨棉種進(jìn)行電導(dǎo)率試驗(yàn)。從上述3個(gè)品種共810粒種子按分組編號(hào)單粒放入4 mL的試管中,加入2 mL蒸餾水,在溫度為30 ℃的恒溫箱中靜置12 h。利用電導(dǎo)率儀分別對(duì)單粒種子進(jìn)行測(cè)量,并記錄數(shù)據(jù),得到對(duì)應(yīng)的電導(dǎo)率如圖2至圖4所示。
高光譜儀提取波長(zhǎng)范圍為408~1 013 nm的脫絨棉種圖像。高光譜圖像含有數(shù)據(jù)量大、冗雜,而光譜信息反映樣品的化學(xué)成分、物理結(jié)構(gòu),本研究只提取光譜信息作為研究對(duì)象,并且選取感興趣區(qū)(RIO)提取樣本的光譜數(shù)據(jù)。
為了消除多余背景對(duì)樣品影響,把單粒脫絨棉種全區(qū)域作為1個(gè)感興趣區(qū)域,提取單粒種子的光譜數(shù)據(jù)。3種脫絨棉種提取810個(gè)感興趣區(qū)域,并通過感興趣區(qū)域獲得單粒種子的光譜平均反射光強(qiáng),得到平均反射光強(qiáng)如圖5所示。
采集的光譜范圍為408~1 013 nm,光譜圖顯示,在408~450、1 000~1 013 nm之間存在明顯噪音,因此選取450~1 000 nm 范圍的光譜反射率作為研究對(duì)象。為了消除儀器自身噪聲和隨機(jī)誤差,須要對(duì)光譜反射光照度進(jìn)行濾波處理,本研究采用Savitzky-Golay平滑法。在高光譜圖像的獲取過程中,光譜信息受到環(huán)境因素以及種子顆粒大小不均等因素的影響,須要對(duì)光譜進(jìn)行多元散射校正(MSC),校正種子顆粒因散射引起的光譜差異。
對(duì)光譜數(shù)據(jù)集進(jìn)行歸一化處理。x、y∈Rn,xmin=min(x),xmax=max(x)將原始數(shù)據(jù)歸一到[-1,1]之間,區(qū)間為[-1,1]的映射函數(shù)為:
(2)
高光譜數(shù)據(jù)信息冗余多、相關(guān)性大,對(duì)數(shù)據(jù)處理、計(jì)算及存儲(chǔ)都極為不方便,對(duì)光譜數(shù)據(jù)預(yù)處理后須要對(duì)其進(jìn)行降維處理,去除冗余信息。本研究采用主成分分析(PCA)處理,生成互不相關(guān)的輸出波段,用于隔離噪音和減少數(shù)據(jù)集的維數(shù)。高光譜多波段數(shù)據(jù)是高度相關(guān),主成分變換找到一個(gè)原點(diǎn)為數(shù)據(jù)均值的新坐標(biāo),通過旋轉(zhuǎn)坐標(biāo)軸使數(shù)據(jù)的方差達(dá)到最大,從而生成互不相關(guān)的波段。對(duì)脫絨棉種高光譜圖像進(jìn)行主成分分析,得出新陸早50、新陸早57、新陸早62的前10個(gè)主成分分析及10個(gè)主成分(PC)圖像。如圖6所示,新陸早50的PC1、PC2、PC3圖像幾乎代表了原始光譜數(shù)據(jù)的大部分?jǐn)?shù)據(jù),且主成分累積貢獻(xiàn)率達(dá)到98%以上,PC1圖像接近于原始圖像包含了脫絨棉種大部分信息,但主要體現(xiàn)脫絨棉種表皮信息;PC2圖像中,棉種周圍邊緣和下端為白色,PC2包含部分棉種內(nèi)部信息;PC3含有大量的背景信息,棉種中心區(qū)域?yàn)楹谏?,邊緣部分為白色,黑色部分為反光現(xiàn)象造成。PC4~PC10包含了少量的信息,PC10的累積貢獻(xiàn)率達(dá)到了99%左右,為了盡可能保證信息的丟失量較少,故選取10個(gè)主成分進(jìn)行分析。
判別分析(discriminant analysis,DA)根據(jù)測(cè)量或觀察的變量值判斷研究樣本如何正確分類[25]。通過已知數(shù)量的1個(gè)分組變量及其特征變量,確定分組變量和特征變量的數(shù)量關(guān)系,建立判別函數(shù),利用其數(shù)量關(guān)系對(duì)其未知分組類型的樣本進(jìn)行判別分組。支持向量機(jī)(support vector machine,SVM)是一個(gè)凸二次規(guī)劃問題,在模式分類問題上具有很好的范化性。SVM是通過一個(gè)非線性映射P,將樣本空間映射到一個(gè)高位的特征空間中,使樣本空間的非線性問題轉(zhuǎn)化為特征空間的線性可分問題,應(yīng)用核函數(shù)的展開定力在某種程度上避免了“維數(shù)災(zāi)難”。對(duì)脫絨棉種的光譜數(shù)據(jù)進(jìn)行預(yù)處理及主成分分析后,分別對(duì)3個(gè)品種的脫絨棉種進(jìn)行判別分析,其判別結(jié)果如表2所示。根據(jù)主成分圖像結(jié)合貢獻(xiàn)率分別選取前10個(gè)主成分對(duì)脫絨棉種進(jìn)行建模分析, 3個(gè)品種的脫絨棉種PC10累積貢獻(xiàn)率都達(dá)到99%以上;采用10個(gè)主成分進(jìn)行判別分析,新陸早50、新陸早57、新陸早62的分類精度達(dá)到88.3%以上,分別對(duì)應(yīng)找出每個(gè)品種的誤判樣本,與電導(dǎo)率試驗(yàn)所測(cè)數(shù)據(jù)進(jìn)行對(duì)比,發(fā)現(xiàn)部分誤判樣本劃分類別與其實(shí)際測(cè)量的電導(dǎo)率值相匹配。其中,新陸早50未處理1號(hào)、新陸早50人工老化24 h的13號(hào)、新陸早50人工老化48 h的11號(hào)、新陸早57人工老化48 h的33號(hào)、新陸早62人工老化24 h的29號(hào)、33號(hào)由于種子自身原因或光譜采集問題為異常樣本分類錯(cuò)誤。
每個(gè)樣本的光譜信息預(yù)處理后,將3個(gè)品種各240個(gè)樣本的75%作為訓(xùn)練集,其余的25%作為測(cè)試集,采用支持向量機(jī)(SVM)建立分類模型。用10個(gè)主成分作為輸入變量,選擇線性核函數(shù),采用粒子群優(yōu)化算法對(duì)懲罰參數(shù)c和核函數(shù)參數(shù)g尋求最優(yōu)值。新陸早50、新陸早57、新陸早62的測(cè)試集鑒別率達(dá)到78%、82%、80%。
表2 脫絨棉種的判別模型分類結(jié)果
主成分1、主成分2和主成分3包含了大部分信息,其累計(jì)貢獻(xiàn)率達(dá)到了97%以上,大部分脫絨棉種能夠在3個(gè)主成分下較好地分類,采用各個(gè)波長(zhǎng)對(duì)3個(gè)主成分權(quán)重值大小的方法尋求特征波長(zhǎng),權(quán)重系數(shù)絕對(duì)值越大,對(duì)主成分圖像影響越大,包含的信息也就越多;反之,權(quán)重系數(shù)絕對(duì)值越小,對(duì)主成分圖像影響越小,包含的信息也就相對(duì)較少。綜合考慮,選取505.22~509.54、677.57~682.64、1 007.81~1 013.13 nm等3個(gè)波段為特征波段。從選取特征波長(zhǎng)分析,其中2個(gè)波段位于可見光范圍,而另外1個(gè)位于近紅外范圍。對(duì)特征波長(zhǎng)建模分析,判別分析中新陸早50、新陸早57、新陸早62測(cè)試集判別率為98.3%、98.3%、96.6%;采用SVM對(duì)特征波長(zhǎng)分析,得出新陸早50、新陸早57、新陸早62的測(cè)試集鑒別率為81.67%、85%、85%(圖7)。
對(duì)采集的脫絨棉種光譜圖像經(jīng)過預(yù)處理、主成分分析,并且對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理、主成分分析、特征波段提取等工作后,分別對(duì)處理后的數(shù)據(jù)進(jìn)行距離判別和SVM建模分析。以10個(gè)主成分為輸入量的判別分析模型的鑒別率最高可達(dá)到100%,SVM模型的鑒別率最高可達(dá)到82%;經(jīng)過特征波段提取建立的距離判別和SVM模型鑒別最高可達(dá)到98.3%和85%。結(jié)果表明,采用距離判別模型對(duì)脫絨棉種活力檢測(cè)精度更高,且基于特征波段下對(duì)3個(gè)品種的脫絨棉種建立的距離判別和SVM模型比基于主成分下建立的更為穩(wěn)定可靠、鑒別率差異小、鑒別效果良好。
本試驗(yàn)采用高光譜圖像技術(shù)對(duì)脫絨棉種的活力檢測(cè)進(jìn)行初步研究。采用Savitzky-Golay平滑法,多元散射校正和歸一化對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,并利用主成分分析法對(duì)采集的光譜圖像進(jìn)行分析,根據(jù)貢獻(xiàn)率及圖像所包含信息量選取10個(gè)主成分進(jìn)行分析,采用10個(gè)主成分建立不同老化程度下的判別模型和支持向量模型。結(jié)果表明,判別模型分類效果略優(yōu)于支持向量機(jī)模型,其測(cè)試集分類精度達(dá)到88%以上,說明基于高光譜圖像技術(shù)檢測(cè)脫絨棉種活力方法是可行的,為脫絨棉種活力無損快速檢測(cè)提供了一種新方法。
采用權(quán)重法提取3個(gè)特征波段,建立判別模型和支持向量機(jī)模型,其中判別分析模型測(cè)試集分類精度可以達(dá)到96%左右。結(jié)果表明,采用主成分法建立的判別分析模型鑒別率略高,但利用特征波段建模法較為穩(wěn)定,更具有可靠性,同時(shí)為了適應(yīng)現(xiàn)實(shí)需求,以盡可能少的波段獲得最優(yōu)的品種識(shí)別精度,波段選擇還須要進(jìn)一步研究。