許建東,張淑娟*,鄭小南,薛建新,孫海霞
1(山西農業(yè)大學 農業(yè)工程學院,山西 晉中,030801)2(山西農業(yè)大學 軟件學院,山西 晉中,030801)
凍害[1-3]是造成甘薯腐爛的重要因素,常常由于收獲過晚或貯藏中未做好防寒措施而發(fā)生,及時發(fā)現(xiàn)并剔除凍害甘薯是降低生產損失的關鍵。由于甘薯凍害表現(xiàn)的滯后性,凍害發(fā)生后不會立即腐爛,一般到貯藏15 d左右才會出現(xiàn)腐爛。在甘薯凍害發(fā)生早期,凍害甘薯與完好甘薯在外表皮上并無顯著差異,從視覺角度無法區(qū)分識別。為了完成對甘薯早期凍害檢測研究,需要尋求一種快速、高效的無損檢測方法來實現(xiàn)凍害甘薯的識別檢測。
高光譜技術(hyperspectral imaging,HSI)是一種無創(chuàng)質量評價技術,能夠快速獲取大量的樣本表面結構信息和內部特征信息,對待測物進行分析,已被廣泛應用在蘋果[4-6]、梨[7-10]、馬鈴薯[11]等水果和蔬菜的內外部品質的無損檢測[12-13]。由于待測物中水分等化學成分對光譜的吸收特性,凍害果肉中水分子由游離態(tài)向結晶態(tài)逐漸變化,會引起光譜吸收峰的偏移,利用高光譜技術對甘薯凍害特征的識別檢測具有一定的可行性。同時光譜無損檢測技術也已經在甘薯及其加工制品的水分、淀粉、蛋白質、莖葉色素、黃酮以及重金屬等化學成分測定等方面獲得應用。國內外已存在一些利用光譜技術對農產品凍害檢測相關的研究[14-18]。但利用光譜無損檢測技術對甘薯凍害的檢測研究還未見相關報道。
本研究以山西太谷黃心甘薯為研究對象,分析凍害甘薯的光譜特性,利用一階導數(shù)(first derivative,FD)對原始光譜預處理,研究競爭性自適應重加權算法(competitive adaptive reweighted sampling,CARS)、迭代保留信息變量算法(iteratively retains informative variables,IRIV)以及結合連續(xù)投影算法(successive projections algorithm,SPA)的CARS-SPA和IRIV-SPA共4種不同的篩選變量方法,并結合偏最小二乘法和最小二乘支持向量機得到甘薯凍害檢測的優(yōu)選特征變量以及檢測模型,并對預測模型的識別正確率、靈敏度及特異性指標進行分析。
本研究以黃心甘薯為研究對象,全部甘薯樣本均是采自山西太谷豐農城西農產品批發(fā)市場的同一批甘薯樣本。挑選無損傷且大小均一的甘薯樣本,實驗前對樣本簡單清潔處理。一共選取全部甘薯實驗樣本696個,其中從全部樣本中隨機挑選348個樣本作為完好樣本,放置于常溫條件下不做任何處理。將剩余的348個完好甘薯先放置于-2 ℃低溫條件下處理48 h,然后再放置于常溫條件下貯藏24 h以上獲得凍害甘薯樣本。
樣本的高光譜圖像獲取應用北京卓立漢光有限公司生產的“Gaia Sorter”型高光譜分選儀,配備相應的高光譜采集軟件,如圖1所示,主要組成為Image-λ-N17E光譜相機、電移動平臺、計算機、暗箱和4個35 W溴鎢燈等。儀器光譜波段為900~1 700 nm,分辨率為5 nm,像素為320×256,曝光時間為0.13 s。本試驗設置平臺移動速度為7.0 mm/s,鏡頭距樣本的距離為220 mm。試驗中樣本置于全黑背景上且采集全程均在暗室內完成。樣本的原始高光譜圖像信息需要黑白校正,校正公式如公式(1)所示:
(1)
式中:R,校正后樣本圖像;Iraw,樣本原始圖像;Idark,全黑標定圖像;Iwhite,全白標定圖像。
1-電移動平臺;2-暗箱;3-光譜相機;4-計算機;5-甘薯樣本; 6-溴鎢燈圖1 高光譜圖像采集平臺Fig.1 Hyperspectral image acquisition platform
以樣本質心為坐標,提取圖像中完好和凍害區(qū)域(200~250個像素)的平均光譜作為2組(完好組和凍害組)樣本光譜,共獲得樣本光譜819個,其中完好組樣本光譜343個,凍害組樣本光譜476個。去除噪聲較大的邊緣波段,本文保留930~1 700 nm波段(共243個波長變量)作為有效光譜進一步研究。如圖2所示為2組甘薯樣本的平均光譜,總體上2組樣本的平均光譜曲線具有較高的相似性,在局部存在反射率低于0.05的微弱差異。其中960~1 140 nm為強反射區(qū),1 410~1 570 nm為低反射區(qū)。2組樣本光譜的波峰與波谷位置相對一致,在1 075和1 290 nm附近有兩處明顯波峰,兩處波谷在1 205和1 470 nm附近主要由水分和碳水化合物的吸收引起[19]。
圖2 930~1 700 nm波段的有效光譜Fig.2 Original reflectance spectral of 930~1 700 nm
合理劃分樣本集,將光譜差異大的樣本劃分為訓練集,所建立的模型更加穩(wěn)健且具備更好的泛化性能。利用Kennard-Stone算法以3∶1的比例將819個總樣本集光譜(343個完好和476個凍害)隨機分配到訓練集和預測集,共計614個訓練集樣本(257個完好和357個凍害),共計205個預測集樣本(86個完好和119個凍害)。
一階導數(shù)預處理能夠去除光譜曲線基線漂移,并減少背景干擾使光譜曲線變化更顯著。變量標準化(standard normalize variate, SNV)算法通過對假定滿足正態(tài)分布的各波長變量進行標準化處理,去除光散射、固體顆粒大小帶來的的噪聲影響。多元散射校正(multiplicative scatter correction, MSC)假定全部樣本的平均光譜為基準光譜,利用每一條光譜與基準光譜間的線性關系完成光譜校正,排除樣品大小、裝載方式等的干擾。Savitzky-Golay卷積平滑法利用卷積平滑處理結合合適的平滑移動窗口數(shù),對移動窗口內的光譜變量進行數(shù)據(jù)擬合,排除噪聲干擾。
競爭性自適應重加權算法[20-22]是以偏最小二乘法(pertial least squares,PLS)模型回歸系數(shù)作為變量重要性指標,采用評價權重的方式篩選變量,去除無關變量并減少變量間的共線性。迭代保留信息變量算法[23-25]是基于模型集群分析方法的特征選擇算法,注重變量間的聯(lián)合效應,利用變量的隨機組合建立PLS模型,逐個計算變量重要性,經過迭代分析去除無效及干擾變量,最后基于剩余變量反向消除保留最佳波長變量。連續(xù)投影算法計算波長變量的正交投影,基于不同波長的向量投影篩選變量,消除波長變量之間的共線性問題,獲得相關性較小的波長變量組。
PLS是較為經典的線性擬合方法,結合了多元線性回歸、相關分析和主成分的優(yōu)點,在考慮目標變量的前提下通過提取主成分降維,能夠較好解決變量間的多重相關性問題和小樣本問題。最小二乘支持向量機(least squares support vector machines, LS-SVM)[26-27]是SVM的一種改進算法,可以較好地解決輸入變量與輸出變量間復雜的非線性關系,通過升維將非線性不可分問題轉化為線性可分,利用一次求解線性組來替代支持向量機中復雜二次優(yōu)化問題,提高了模型的運算速率并降低模型復雜度。本文參考文獻[28]定義3個指標(即識別正確率、靈敏度、特異性)來分析評價模型性能。其中,靈敏度為完好組中被正確識別樣本的比率,特異性為凍害組中被正確識別樣本的比率。若識別正確率、靈敏度、特異性越接近于100%,則表明所建立模型預測準確度越高。
高光譜圖像采集及黑白校正在Specview軟件完成,光譜信息數(shù)據(jù)提取采用ENVI 4.7 (ITT Visual Informagtion Solutions, Boudler, USA)軟件,預處理、波長提取及模型建立和分析在The Unscrambler X 10.1 (CAMO AS, Oslo, Norway)和Matlab R2012a (The Math Works, Natick, USA)軟件中運行完成,平均光譜圖及預測結果圖在Origin 8.5 (Origin Lab, USA)軟件中繪制。
表1 不同預處理下建立的PLS模型結果Table 1 Result of PLS models based on different preprocessing methods
圖3 經一階導數(shù)預處理后的光譜Fig.3 Reflectance spectral after FD processing
由于高光譜波段較多,且相鄰波段間存在較多共線性及冗余信息變量,建立的模型復雜且精度較低,采用變量篩選方法能有效挑選與甘薯凍害信息相關的特征波段,壓縮波長變量數(shù),簡化模型結構并提高模型性能。采用CARS、IRIV算法以及結合SPA算法的CARS-SPA和IRIV-SPA特征提取方法篩選凍害甘薯的特征波長。
利用CARS算法篩選與甘薯凍害特征信息相關的波長變量。設定蒙特卡羅抽樣次數(shù)為50次,利用5折交叉驗證的RMSECV最小值判定最佳變量。如圖4-a所示,前20次采樣過程中變量數(shù)減少速度較快,隨后逐漸減緩。由圖4-b可知,隨著采樣次數(shù)的增加,RMSECV值先減小后增大,在第18次采樣時RMSECV值達到最小,此時各變量的回歸系數(shù)位于圖4-c中豎線位置,最終CARS算法篩選得到46個特征變量(圖4-d),僅占全波段的18.9%。
利用IRIV算法篩選凍害甘薯的特征波長變量。設定IRIV算法的最大主成分為15,交叉驗證次數(shù)為5,IRIV提取特征變量過程如圖5所示。由圖5-a可知IRIV算法一共迭代了6輪,隨著迭代次數(shù)的增加,變量數(shù)逐漸減少,其中前2輪迭代過程中變量數(shù)減少最快,從243個變量減少到100個,之后變量數(shù)下降逐漸平緩,在第5輪迭代移除無效和干擾變量后,進入反向消除。經過5輪迭代分析加反向消除,從全部243個波長變量中篩選出與甘薯凍害相關的特征波長變量65個(圖5-b),僅占全波段的26.7%。
a-波長數(shù)目的變化;b-均方根誤差的變化; c-回歸系數(shù)趨勢圖;d-CARS優(yōu)選變量分布圖圖4 CARS提取特征變量過程Fig.4 Process of CARS variable selection
a-IRIV迭代保留變量數(shù);b-IRIV優(yōu)選變量分布圖圖5 IRIV提取特征變量過程Fig.5 Process of IRIV variable selection
由于CARS、IRIV 2種特征選擇方法篩選的特征變量數(shù)目依然較多,本文利用SPA算法對CARS和IRIV篩選出的46和65個特征變量進行二次篩選[29-30]。如圖6-a、6-c所示,均方根誤差RMSE變化趨于穩(wěn)定為0.160 98、0.154 14時,CARS-SPA和IRIV-SPA結合算法分別篩選出24和35個特征波長變量,變量分布圖如圖6-b、6-d所示,僅占全波段光譜變量的9.9%和14.4%。
本研究中完好組樣本類別被賦值為1,凍害組樣本類別被賦值為2?;贑ARS、IRIV以及CARS-SPA和IRIV-SPA算法的波長變量篩選結果,采用PLS與LS-SVM方法分別建立對甘薯凍害特征的識別預測模型,描述甘薯凍害特征與波長變量間的關系,并與未經變量選擇的識別模型進行比較。由于模型的預測值非整數(shù),依據(jù)定義的完好組和凍害組樣本分類賦值1和2,選取0.5為模型預測值的樣本分類閾值,所以0.5~1.5被判定為完好樣本,1.5~2.5被判定為凍害樣本,進一步求得模型的識別正確率、靈敏度以及特異性指標來分析所建立模型的優(yōu)劣。
表2為基于不同變量選擇方法建立的模型預測結果。由表2可知,根據(jù)預測集判別結果,各模型的識別準確率均較高,識別準確率均在94.63%以上。CARS-PLS和CARS-LS-SVM模型預測準確率均高于IRIV-PLS和IRIV-LS-SVM模型,說明CARS算法篩選的46個特征波長變量能夠更全面的反映與甘薯凍害特征相關的信息,是優(yōu)于IRIV算法的特征波長提取方法。進一步分析,經過SPA方法二次篩選特征波長變量建立的CARS-SPA-PLS、IRIV-SPA-PLS、CARS-SPA-LS-SVM和IRIV-SPA-LS-SVM模型預測精度均較CARS-PLS、IRIV-PLS、CARS-LS-SVM和IRIV-LS-SVM模型有一定程度的下降,說明在進行特征波長的二次篩選過程中,SPA方法移除了部分對建模有用的特征變量,導致模型精度降低。由此可見,CARS方法為有效的變量選擇方法,且CARS方法優(yōu)于IRIV、CARS-SPA和IRIV-SPA 3種方法。此外,對比10種建模方法,發(fā)現(xiàn)CARS-PLS及RAW-LS-SVM所建立的分類模型性能均優(yōu)于相應的其他方法所建立的分類模型。其中以RAW-LS-SVM模型預測結果最優(yōu),其預測集的識別正確率、靈敏度及特異性分別為98.54%、97.67%和99.16%。但是RAW-LS-SVM的波長變量未經過篩選,模型較為復雜。相比之下經CARS變量篩選后,建立的CARS-PLS模型的識別正確率、靈敏度及特異性分別為98.05%、98.84%和97.48%,預測準確率與RAW-LS-SVM模型差異較小,且建模所用的波長變量數(shù)減少了81.1%,表明CARS方法在全波段光譜變量中去除了自相關性高的波段,簡化了模型結構,縮小了模型運算時間,不僅保持模型精度而且極大降低了模型復雜度,所以選擇CARS-PLS模型作為最優(yōu)模型。如圖7所示為CARS-PLS所建立的分類模型對預測集樣本的預測結果。由圖7可知,誤判樣本共有4個,其中1個完好樣本被誤判為凍害,3個凍害樣本被誤判為完好。
a-不同變量數(shù)目下CARS-SPA算法的RMSE分布;b-CARS-SPA優(yōu)選變量分布圖;c-不同變量數(shù)目下IRIV-SPA算法的RMSE分布; d-IRIV-SPA優(yōu)選變量分布圖圖6 SPA提取特征變量過程Fig.6 Process of SPA variable selection
表2 不同變量選擇方法及建模方法的預測結果Table 2 Predicted results of different variable selection and methods
圖7 CARS-PLS判別模型對預測樣本的預測結果Fig.7 Predicted results of prediction samples by CARS-PLS classification model
本研究利用高光譜技術結合變量選擇方法對甘薯凍害特征進行定性識別研究,采用CARS、IRIV以及CARS-SPA和IRIV-SPA算法分別篩選出46、65、24和35個特征波長變量,基于全波段光譜變量和特征波長變量建立凍害甘薯的PLS和LS-SVM識別模型。結果表明,基于CARS特征波長變量的模型識別性能優(yōu)于其他模型。10種預測模型中,CARS-PLS模型對甘薯凍害特征識別結果最優(yōu),預測集樣本的識別正確率、靈敏度及特異性分別為98.05%、98.84%和97.48%。CARS算法篩選的特征波長能夠更加全面地反映與甘薯凍害相關的信息,是優(yōu)于IRIV、CARS-SPA和IRIV-SPA算法的特征波長提取方法。本研究從光譜維度實現(xiàn)了對甘薯凍害特征的識別,為后續(xù)甘薯品質在線檢測設備的開發(fā)奠定了理論基礎。