張 伏, 張方圓, 崔夏華, 王新月, 曹煒樺, 張亞坤, 付三玲
1. 河南科技大學(xué)農(nóng)業(yè)裝備工程學(xué)院, 河南 洛陽 471003
2. 機械裝備先進制造河南省協(xié)同創(chuàng)新中心, 河南 洛陽 471003
3. 河南科技大學(xué)物理工程學(xué)院, 河南 洛陽 471023
銀杏果為銀杏果實, 富含脂肪、 蛋白質(zhì)、 維生素、 銀杏萜內(nèi)酯和銀杏黃酮等成分, 具有抗氧化、 抗腫瘤、 抗菌、 預(yù)防心血管病等功能[1-2]。 我國銀杏品種約有40余種, 由于產(chǎn)地不同, 不同品種銀杏果主要成分含量各異, 其品質(zhì)差異明顯。 另外, 銀杏果成分對其貯藏和加工工藝要求不盡相同[3-4]。 因此, 如何實現(xiàn)銀杏果高效無損品種鑒別亟待解決。
目前, 常用果實鑒別主要包括近紅外光譜、 分子標記、 化學(xué)成分分析和計算機視覺等方法[5-8]。 近紅外光譜鑒別的數(shù)據(jù)采集多為點光源采樣, 從而導(dǎo)致采集數(shù)據(jù)量有限, 未完全反映整體情況, 故鑒別精度低[9]; 分子標記鑒別是基于群體間生物特性的檢測方法, 但結(jié)果易受環(huán)境、 年限、 生物差異性等因素影響, 具有不確定性[10]; 化學(xué)成分分析鑒別采樣過程具有破壞性且技術(shù)要求較高, 應(yīng)用難度較大[11]; 計算機視覺鑒別在識別圖像典型特征時, 圖像背景噪聲對檢測精度存有干擾, 且識別算法局限性明顯[12]。
高光譜成像技術(shù)集光譜和成像技術(shù)優(yōu)點, 對于不同物質(zhì)表現(xiàn)出不同輻射強度, 可用于檢測和區(qū)分不同物質(zhì)間細微差異[13]。 張初等[14]應(yīng)用高光譜成像技術(shù), 通過提取西瓜種子的光譜反射率并結(jié)合3種不同預(yù)處理方法, 建立相應(yīng)的鑒別分類模型, 實現(xiàn)西瓜種子品種的高光譜鑒別。 張璐等[15]利用高光譜成像技術(shù)采集酸棗仁光譜和圖像信息, 選用5種預(yù)處理方法和3種判別模型, 并結(jié)合分水嶺算法實現(xiàn)酸棗仁鑒別。 章林忠等[16]應(yīng)用近紅外高光譜圖像結(jié)合主成分分析法, 實現(xiàn)不同品種板栗、 蟲害果的快速識別。 鮑一丹等[17]利用高光譜成像技術(shù)結(jié)合5種判別分析模型實現(xiàn)4類咖啡豆品種鑒別, 其分類正確率達93.50%。 周聰?shù)萚18]利用高光譜成像技術(shù)結(jié)合5種預(yù)處理方法和3種分類算法鑒別8個梔子品種, 其融合波段-FD-LinearSVC模型識別準確率達100%。 Zou等[19]基于高光譜成像技術(shù)結(jié)合分類算法鑒別不同年份和品種的帶殼花生成熟度, 達到不破殼鑒別不同成熟度花生目的。 Ríos-Reina等[20]應(yīng)用高光譜成像技術(shù)結(jié)合化學(xué)計量學(xué), 選用主成分分析和多變量曲線分辨率研究松子成分差異, 實現(xiàn)2種松子無損鑒別。 Tan等[21]基于高光譜成像技術(shù)結(jié)合BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)對大豆種子的品種鑒別, 判別準確率93.88%。 Moscetti等[22]應(yīng)用高光譜成像技術(shù)采集4類榛果光譜圖像, 結(jié)合偏最小二乘判別模型, 鑒別榛果準確率達90%以上。 隨高光譜成像技術(shù)發(fā)展, 其農(nóng)業(yè)檢測領(lǐng)域運用廣泛, 將其應(yīng)用到銀杏果種類鑒別卻鮮有報道。
本研究提出一種基于高光譜成像技術(shù)的銀杏果種類快速無損鑒別方法, 3個品種銀杏果經(jīng)SNV預(yù)處理后, 選用SPA和CARS兩種方法提取特征波長, 分別建立SVM模型, 并利用遺傳算法和粒子群算法優(yōu)化其模型參數(shù), 以提高分類正確率獲得較佳鑒別效果, 為銀杏果及相關(guān)果實的品種鑒別提供了新思路。
試驗樣本為市售的3個銀杏果品種, 人工挑選外形完好、 色澤均勻, 無機械損傷的銀杏果果實, 分別標為類別1、 2、 3, 每類品種210個, 共630個試驗樣本。 銀杏果試驗樣本如圖1所示。
圖1 銀杏果試驗樣本
高光譜成像系統(tǒng)包括高光譜攝像機(SPECIM FX17, 芬蘭)、 計算機(戴爾)、 電控位移平臺、 樣品托盤(40 cm×20 cm)和鹵素?zé)?6個), 如圖2所示。
圖2 高光譜成像系統(tǒng)
高光譜成像系統(tǒng)參數(shù)設(shè)置如下: 波長范圍900~1 700 nm, 光譜分辨率8 nm, 波段數(shù)224個, 空間采樣分辨率640 px·line-1, 曝光時間6.5 ms, 幀頻50 Hz, 平臺移動速度18.28 mm·s-1。 采用Lumo Scanner軟件獲得銀杏果高光譜數(shù)據(jù)。 數(shù)據(jù)分析軟件包括ENVI 5.3、 The Unscrambler X10.4、 Excel 2019、 Origin 2018、 MATLAB R2018b等。
為保證采集數(shù)據(jù)準確, 防止銀杏果在電控移動載物臺上移動, 將待測樣本放置于粘性黑色工具紙上, 每次采集30個銀杏果, 每個品種采集7組圖像, 試驗共計采集630個單個銀杏果樣本高光譜圖像, 如圖3所示。
圖3 銀杏果擺放位置示意圖
高光譜圖像采集時易受光源分布不均和暗電流等非線性因素影響。 為增強圖像穩(wěn)定性和可靠性, 對高光譜圖像黑白校正[23-24]。 高光譜系統(tǒng)需預(yù)熱30 min, 掃描白板(反射率99%)記為全白標定圖像Iw, 裝上鏡頭蓋采集全黑圖像Id, 最后拍攝銀杏果樣品原始圖像Iraw, 校正公式如式(1), 利用ENVI 5.3軟件黑白校正, 獲得校正后的圖像I。
(1)
銀杏果圖像校正后, 利用ENVI軟件在每顆銀杏果中心位置選取25×25 pixel感興趣區(qū)域, 如圖4所示, 感興趣區(qū)域內(nèi)所有像素點光譜平均值作為樣本的平均光譜[25-26]。 處理后得到935.61~1 720.23 nm波長范圍的原始光譜平均反射率曲線如圖5所示。 由于采集的光譜兩端信噪比低, 剔除光譜信號噪聲較大區(qū)域, 故選取945.98~1 698.75 nm波長的光譜數(shù)據(jù)分析建模。
圖4 銀杏果圖像感興趣區(qū)域選取
圖5 原始光譜平均反射率曲線圖
采用連續(xù)投影算法(successive projections algorithm, SPA)和競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling, CARS)提取特征變量降低數(shù)據(jù)維度; 支持向量機(support vector machine, SVM)[27]廣泛用于樣本數(shù)量有限情況下高光譜數(shù)據(jù)處理與建模, 在模型對訓(xùn)練集的學(xué)習(xí)精度和對任意樣本精確識別間尋找最優(yōu)平衡點, SVM模型中核函數(shù)選擇對模型性能影響顯著, 采用性能較穩(wěn)定的RBF徑向基函數(shù)作為SVM核函數(shù), 其中, 懲罰因子c和核函數(shù)參數(shù)g為重要參數(shù); 遺傳算法(genetic algorithm, GA)[28]是一種模擬自然界生物進化現(xiàn)象的全局隨機搜索參數(shù)方法, 具有高效啟發(fā)式搜索、 并行計算等特點, 利用GA優(yōu)化SVM參數(shù)(懲罰系數(shù)c和核函數(shù)參數(shù)g)時, 設(shè)置最大進化代數(shù)為200, 種群規(guī)模為20; 粒子群優(yōu)化算法(particle swarm optimization, PSO)[29]與GA相比, PSO無選擇、 交叉、 變異等復(fù)雜進化操作, 而采用在整個全局移動搜索, 因其搜索時所有粒子均在移動變化, 可根據(jù)當前情況隨時調(diào)整搜索策略, 優(yōu)勢明顯。 設(shè)置粒子群最大進化代數(shù)為200, 種群規(guī)模為20, 加速因子c1為1.5,c2為1.7。
光譜數(shù)據(jù)預(yù)處理后, 選取945.98~1 698.75 nm波段內(nèi)數(shù)據(jù)提取特征波長作為模型輸入變量, 三種銀杏果類別作為模型輸出變量建立SVM分類模型, 發(fā)現(xiàn)分類效果較差, 于是采用GA和PSO優(yōu)化SVM模型尋找最優(yōu)參數(shù)c和g, 對訓(xùn)練集樣本訓(xùn)練, 建立銀杏果種類鑒別模型, 通過分類正確率(Accuracy)對模型性能評價。
本次試驗將采樣的630個樣本按照2∶1隨機劃分為訓(xùn)練集和測試集, 其中, 每個類別訓(xùn)練集和測試集分別為140個和70個, 三個類別訓(xùn)練集和測試集分別為420個和210個。
光譜采集過程中, 混入的噪聲、 背景和色散光等無用信息會使光譜分析過程中建立的模型產(chǎn)生偏差, 因此需在建模前對數(shù)據(jù)預(yù)處理, 以減少無關(guān)信息干擾, 提高模型分類精度。 基于The Unscrambler X 10.4軟件采用標準正態(tài)變量變換法(standard normal variable transformation, SNV)對光譜數(shù)據(jù)預(yù)處理, 經(jīng)SNV預(yù)處理的光譜曲線如圖6所示。
圖6 預(yù)處理后的光譜平均反射率曲線圖
2.3.1 連續(xù)投影算法(SPA)
提取最大波長數(shù)目設(shè)置為20, 共提取出11個波長變量, 如圖7所示。 隨變量數(shù)增加, 均方根誤差(RMSE)值整體呈現(xiàn)先急降后緩減趨勢。 當變量數(shù)為11時, RMSE不再大幅降低, 此時RMSE值為0.437 94, 之后RMSE值雖有減小, 但因變量過多將增加模型運算量和復(fù)雜度, 因此選取11個變量作為最終特征波長數(shù)目。
圖7 SPA提取特征波段長
2.3.2 競爭性自適應(yīng)重加權(quán)算法(CARS)
蒙特卡洛采樣次數(shù)設(shè)置為50, 采用5折交叉驗證法提取特征波長, 如圖8所示。
圖8 CARS算法提取特征波長過程
圖8(a)表示CARS提取特征波長數(shù)目隨采樣次數(shù)增加呈現(xiàn)先急降后緩減趨勢, 表現(xiàn)出CARS提取特征波長從粗選到細選過程; 圖8(b)可知開始迭代時, 由于無用信息波段被消除, 故交叉驗證均方根誤差(RMSECV)快速減小, 當采樣次數(shù)到第13時RMSECV達到最小值, 后由于部分有效信息被剔除, RMSECV值又整體呈上升趨勢; 圖8(c)表示在第12、 13次采樣時RMSECV值最小, 此時提取出68個特征波長。
將SPA算法提取的11個特征波長、 CARS算法提取的68個特征波長作為輸入變量建立SNV-SPA/CARS-(GA/PSO)-SVM模型, 各模型分類正確率如表1所示。
表1 模型分類結(jié)果
模型分類正確率對比如圖9所示。 相同分類模型中, CARS提取波段建模效果優(yōu)于SPA, 說明CARS提取特征波段方法在剔除干擾信息的同時保留了較完善的有效信息, 篩選的特征波長更敏感, 且代表全波段光譜信息; 對SNV預(yù)處理的光譜數(shù)據(jù)建模分析得知, GA-SVM模型分類正確率相較于SVM平均提高13.37%, 可見GA-SVM模型鑒別效果優(yōu)于SVM; PSO-SVM模型分類正確率相較于GA-SVM平均提高0.88%, 較SVM平均提高14.32%, 可見PSO-SVM模型分類效果明顯優(yōu)于SVM模型。 結(jié)果表明, SNV-CARS-PSO-SVM模型對銀杏果品種具有較好的鑒別效果, CARS提取的特征波長較SPA提取的特征波長更具有代表性。
圖9 模型分類正確率對比
(1)利用SNV預(yù)處理方法對測得的光譜數(shù)據(jù)預(yù)處理, 選用945.98~1 698.75 nm范圍的光譜波段信息為有效光譜;
(2)基于SPA、 CARS提取特征波長方法建立銀杏果種類鑒別模型。 相同分類模型中, CARS提取波段的建模效果優(yōu)于SPA;
(3)經(jīng)SNV預(yù)處理光譜數(shù)據(jù)的PSO-SVM模型分類效果明顯優(yōu)于SVM模型;
(4)SNV-CARS-PSO-SVM模型對銀杏果品種具有較好鑒別效果, 分類正確率為96.67%, 為銀杏果及相關(guān)果實品種鑒別提供新思路。