陳彩虹,張淑娟,孫海霞,李成吉,邢書海
(山西農(nóng)業(yè)大學 工學院,山西 太谷 030801)
核桃位居世界四大堅果之首,是我國主要栽培的果樹種類之一。核桃富含蛋白質(zhì)、脂肪、維生素及微量元素以及多種營養(yǎng)物質(zhì),具有補氣養(yǎng)血、潤肺強腎、預(yù)防冠心病、降低血脂、烏發(fā)健腦等功效[1,2]。核桃貿(mào)易主要有核桃仁和帶殼核桃兩種,核桃殼仁分選是帶殼核桃到核桃仁的主要環(huán)節(jié),但目前核桃的殼仁分離主要靠人工分選,即耗時又費力,生產(chǎn)率低,且衛(wèi)生狀況差。因此,對核桃殼仁進行快速、準確的鑒別分選是核桃仁生產(chǎn)加工中的一項亟待解決的問題。
近年來,隨著光譜技術(shù)及計算機技術(shù)的不斷發(fā)展,高光譜成像技術(shù)因其可將圖像和光譜信息結(jié)合,且具有分析速度快、無損、適合在線處理等特點,在農(nóng)產(chǎn)品品質(zhì)檢測、分級等方面得到了廣泛的運用。楊一等[3]利用可見/近紅外光譜技術(shù)對產(chǎn)自同一地區(qū)的板棗、雞心棗和相棗進行動態(tài)分類判別,正確判別率達100%。賈昌路等[4]利用近紅外光譜技術(shù)對不同核桃進行品種鑒定及品質(zhì)比較,結(jié)果表明利用近紅外光譜分析技術(shù)可以快速區(qū)別核桃品質(zhì)的優(yōu)劣。高攀等[5]利用近紅外高光譜成像技術(shù)對微破損棉種進行可視化識別,取得了較好的識別結(jié)果,微破損棉種的識別率達90%以上。張初等[6]利用近紅外高光譜圖像技術(shù)對西瓜種子品種進行鑒別,并基于特征波長建立反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)判別模型和極限學習機(Extreme Learning Machine,ELM)判別模型,結(jié)果表明建模集和預(yù)測集的判別正確率均為100%。
就目前的研究狀況來看,近紅外高光譜成像技術(shù)主要用于樣本內(nèi)外部品質(zhì)的檢測,在核桃殼仁分選檢測方面的應(yīng)用鮮有報道。因此,本研究采用高光譜成像技術(shù)對核桃殼仁進行檢測,根據(jù)殼仁的光譜差異進行分類判別,為進一步開發(fā)核桃殼仁在線分選裝備提供理論依據(jù)。
樣品采購于山西太谷縣農(nóng)貿(mào)市場,挑選60個大小、形狀、顏色相似的禮品2號核桃作為樣本。運回實驗室后,對其進行破殼處理。由于分心木是殼仁分離中的關(guān)鍵影響因素,且具有藥用價值,因此從破殼后的混合物中隨機挑選204個殼,102個分心木及94個仁作為試驗樣本。依據(jù) Kennard-Stone 算法,將3類樣本分為校正集300個和預(yù)測集 100個,如表1所示。
表1 Kennard-Stone法的樣本劃分結(jié)果
Table1 Sample partition results of the Kennard-Stone method
樣本類型Sample 樣本總數(shù)Total校正集樣本數(shù)Correction 預(yù)測集樣本數(shù)Prediction核桃殼20415351分心木1027725核桃仁947024總數(shù)400300100
本試驗采用北京卓立公司開發(fā)的“蓋亞”高光譜分選儀(見圖1),主要有Image-λ-N17E光譜相機、4個35 W的溴鎢燈、計算機、電移動平臺、暗箱組成,波長范圍為900~1 700 nm。試驗樣本采集中需先調(diào)節(jié)曝光時間及平臺移動速度以防止采集的信息過度飽和出現(xiàn)失真現(xiàn)象。設(shè)置曝光時間為20 ms,平臺移動速度為2 cm·s-1,樣本與鏡頭的距離為22 cm。
圖1 高光譜分選儀Fig.1 Hyperspectral Sorting System
為了消除光強變化和鏡頭中暗流對采后數(shù)據(jù)的影響以及計算掃描物體的相對反射光譜值,在光譜數(shù)據(jù)采集前先采集黑白板,并對高光譜采集后的數(shù)據(jù)進行黑白校正,計算公式為:
(1)
式(1)中,I為原始的高光譜圖像,B為全黑的標定圖像,W為全白的標定圖像,R為校正后的高光譜圖像。
為尋找最佳光譜預(yù)處理方法,通過決定系數(shù)和均方根誤差對所建立的偏最小二乘(PLS)模型進行比較分析。采用競爭自適應(yīng)重加權(quán)算法(CARS)、回歸系數(shù)法(RC)和連續(xù)投影法(SPA)三種方法對預(yù)處理后的光譜進行特征波長的提取,消除光譜數(shù)據(jù)中的冗余信息,提高建模的準確率。
使用ENVI軟件分別提取核桃殼、分心木及核桃仁感興趣區(qū)域的光譜數(shù)據(jù),并計算每個樣本的平均光譜(圖2)。核桃殼、仁及分心木的平均光譜曲線有很大差別,在1 000~1 200 nm范圍內(nèi),核桃仁的反射率最高,這是由于核桃仁中含有大量的蛋白質(zhì)。在1 200 nm附近的曲線均為波谷,這是由于C-H基團二級倍頻吸收[7]。
圖2 核桃殼、仁及分心木的平均光譜圖Fig.2 Average spectrum of walnut shells、kernels、and distracted wood
采集到的原始光譜數(shù)據(jù)中包含因樣本背景、環(huán)境雜光及暗電流等產(chǎn)生的與樣本本身性質(zhì)無關(guān)的冗余信息,因此需要對原始光譜數(shù)據(jù)進行預(yù)處理以減弱或消除冗余信息,降低無關(guān)信息對后續(xù)建模的影響。本研究中采用一階微分處理(1stDer),基線校正(Baseline)、標準歸一化(SNV),多元散射校正(MSC)對原始光譜進行預(yù)處理。為了比較不同預(yù)處理方法對建模精度的影響,對處理后的光譜數(shù)據(jù)建立PLS模型比較建模效果(表2)。決定系數(shù)越大,均方根誤差越小,建模精度越高。
表2不同光譜預(yù)處理方法對PLS建模結(jié)果的影響
Table2 Effect of PLS models results after different spectral pretreatment methods
預(yù)處理方法Pretreatment method校正集Correction預(yù)測集PredictionR2cRMSECR2pRMSEPRaw0.815 50.360 00.839 30.333 61stDer0.846 60.328 40.856 50.315 2SNV0.736 10.430 60.854 00.317 9MSC0.764 00.407 20.851 80.320 3Baseline0.805 20.369 90.879 50.288 8
2.3.1 CARS特征波長提取
競爭自適應(yīng)重加權(quán)算法[8](CARS)模仿達爾文生物進化理論中的“適者生存”基本原理。在波長變量優(yōu)選過程中,各波長變量作為單一個體,通過優(yōu)選出PLS模型中回歸系數(shù)絕對值大的波長變量,剔除模型中絕對值較小的波長變量,并通過十折交互檢驗優(yōu)選出交互驗證均方根誤差(RMSECV)最小的優(yōu)選變量子集,確定為最優(yōu)變量子集。
本研究中,首先設(shè)定蒙特卡羅采樣次數(shù)N=50,選擇變量個數(shù)由建立的PLS模型中RMSECV最小值確定,篩選結(jié)果如圖3所示。由圖3a可以看出,隨著采樣次數(shù)的增加,篩選出的波長變量個數(shù)不斷下降,由最初的254個減少到19個,且下降速度由快到慢;由圖3b可以看出,隨著采樣次數(shù)的增加,RMSECV的值呈現(xiàn)由大變小再變大的趨勢。在前26次采樣過程中,高光譜中與核桃殼仁分選無關(guān)的大量信息被剔除,從第27次采樣后RESECV的值開始上升;圖3c表示254個變量在每次采樣中自生回歸系數(shù)的變化趨勢。對模型貢獻量大的變量,其回歸系數(shù)會被放大和保留,根據(jù)最優(yōu)變量選擇原則,第27次采樣所得的RESECV最小,為0.263 5,所以第27次采樣保留下來的變量即為所提取的特征波長,共19個,分別為966、1 122、1 128、1 141、1 147、1 170、1 259、1 361、1 418、1 431、1 567、1 577、1 596、1 647、1 653、1 656、1 675、1 685、1 691 nm。
圖3 CARS關(guān)鍵變量選擇Fig.3 Key variables selection results of CARS
2.3.2 RC特征波長提取
回歸系數(shù)法[9](RC)是通過對預(yù)處理之后的樣本建立PLS判別模型并提取模型中的回歸系數(shù),根據(jù)局部極值作為特征波長值的原則,本研究選取了11個特征波長值(圖4),分別為927、963、1 138、1 186、1 237、1 354、1 389、1 434、1 462、1 516、1 653 nm。
圖4 RC提取的特征波長Fig.4 Key variables selection results of RC
2.3.3 SPA特征波長提取
連續(xù)投影法(SPA)是一種使矢量空間共線性最小化的前向變量選擇算法。它的優(yōu)勢在于提取全波段的幾個特征波長,不僅能消除光譜信息中含有的冗余信息變量間的共線性問題,而且能夠最大限度的避免有效信息的重疊。當校正模型的交互驗證均方根誤差達到最小值時,其對應(yīng)的波段組合為優(yōu)選出的有效特征波長。針對一階微分處理后的樣本進行特征波長的優(yōu)選。優(yōu)選過程和所有選出的特征波長如圖5和圖6所示。由圖5可知,特征波長數(shù)為6時,RMSE值達到最小,為0.399 01。由圖6可知,所優(yōu)選到的6個特征波長,分別為1 443、1 466、1 272、1 313、1 475、1 653 nm,其重要程度依次遞減。
圖5 波長數(shù)量與均方根分誤差關(guān)系Fig.5 Wavelength number and root mean square error relationship
圖6 特征波長分布圖Fig.6 Characteristic wavelength distribution map
對用3種方法提取特征波長后的光譜數(shù)據(jù)分別建立PLS模型比較建模效果,所得結(jié)果見表3。
由表3可知,用CARS提取特征波長后所建立的模型精度相對較好,建模后更可靠。
支持向量機[10](Support Vector Machine, SVM)是一種比較高效的算法, 且泛化能力很強,能避免神經(jīng)網(wǎng)絡(luò)復雜的結(jié)構(gòu), 在模式識別、回歸分析等方面有著廣泛用途。最小二乘支持向量機(LS-SVM)是一種改進的支持向量機算法, 該方法收斂精度有所提高, 且減少了訓練時間,提升了運行速度,簡化了計算復雜度。
表3不同特征波長提取方法對PLS建模效果的影響
Table3 Effect of Different Feature Wavelength Extraction Methods on PLS Modeling Results
特征波長提取法Characteristic wavelength extractionR2RMSECARS0.764 00.407 2RC0.751 70.417 6SPA0.709 90.451 4
本研究用CARS、RC、SPA法提取特征波長后的特征值作為樣本值輸入分別建立LS-SVM 模型。然后將樣本分別賦值作為判別依據(jù),核桃殼賦值為1,核桃仁賦值為2,分心木賦值為3。對預(yù)測集樣本進行判別,圖7~圖9為3種樣本在不同特征波長提取下的模型判別結(jié)果圖。
從圖7~圖9可以看出,用LS-SVM建立的預(yù)測模型準確率高,建模效果好。用CARS和RC提取的特征波長所建的LS-SVM預(yù)測模型,其正確識別率均達到了100%,SPA提取的特征波長建立的LS-SVM預(yù)測模型,其正確識別率為99%。這是因為SPA 算法在提取特征變量降低原始波長冗余度的同時,也將一些有用信息剔除了,而CARS算法提取的19個最優(yōu)變量及RC算法提取的11個最優(yōu)變量更能代替原始光譜信息。
圖7 CARS-LS-SVM判別結(jié)果Fig.7 CARS-LS-SVM discrimination result
圖8 RC-LS-SVM判別結(jié)果Fig.8 RC-LS-SVM discrimination result
圖9 SPA-LS-SVM判別結(jié)果Fig.9 SPA-LS-SVM discrimination result
本文以核桃殼、核桃仁、分心木為研究對象,選取最佳預(yù)處理方法,對經(jīng)過最佳預(yù)處理后的光譜數(shù)據(jù)用CARS、RC、SPA 法提取的特征波長分別作為輸入,并建立LS-SVM模型比較判別效果。結(jié)果表明經(jīng)過一階微分預(yù)處理后的光譜數(shù)據(jù),對這三類樣本有更好的判別能力,所建的LS-SVM模型對核桃殼、核桃仁、分心木的判別準確率分別達到了100%、100%、99%。因此,高光譜成像技術(shù)可用于核桃的殼仁分選中,為核桃深加工和相關(guān)設(shè)備的開發(fā)提供了理論基礎(chǔ)。