葉榮珂,孔慶辰,李道亮,2,陳英義,2,張玉泉,劉春紅,2*
1.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083 2.國家數(shù)字漁業(yè)創(chuàng)新中心,北京 100083
蝦含有豐富的鋅、硒、銅等物質(zhì),維生素B12含量高,質(zhì)地細(xì)膩易消化,受到消費(fèi)者的歡迎,由于蝦含有豐富的水分和營養(yǎng)物質(zhì),隨著冷藏時間的延長蝦的品質(zhì)會迅速劣變[1]。王素華[2]等發(fā)現(xiàn)對蝦在5 ℃的保質(zhì)期為4 d。凌萍華[3]等研究發(fā)現(xiàn)南美白對蝦置于4 ℃條件下貯藏貨架期僅為4 d。傳統(tǒng)蝦新鮮度評定方法多采用儀器分析和人工感官評定的方法,這些方法可靠性差,花費(fèi)時間長且不可重復(fù),不能精確、實(shí)時地反映全部產(chǎn)品的新鮮度[4]。
近年來,大量研究利用高光譜成像技術(shù)對各類農(nóng)產(chǎn)品進(jìn)行新鮮度的檢測。與儀器分析和感官評價的方法相比較,高光譜成像技術(shù)具有預(yù)測精確、價格較低和無損等特點(diǎn),在食物新鮮度檢測領(lǐng)域得到廣泛應(yīng)用[5]。Yu等[6]采用高光譜成像技術(shù)結(jié)合基于堆棧式自動編碼器的邏輯回歸模型(SAEs-LR),對蝦仁冷藏保鮮過程中的鮮度進(jìn)行判別。Zhang等[7]采用近紅外高光譜成像系統(tǒng)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)測定了黑枸杞中總酚,總黃酮和總花色苷含量。Xin等[8]將高光譜技術(shù)和堆棧卷積自動編碼器(SCAE)相結(jié)合用于檢測生菜中的重金屬。然而,上述研究都是基于深度學(xué)習(xí)算法,而深度學(xué)習(xí)存在樣本需求量大、參數(shù)多且不易設(shè)置等問題,導(dǎo)致其在小樣本量的檢測中的應(yīng)用受到了限制。寬度學(xué)習(xí)(BLS)是近年來在IEEE會議上提出的新算法,該算法為扁平結(jié)構(gòu),且具有泛化性能好,迭代收斂快等優(yōu)點(diǎn),使其在解決中小樣本的問題上有獨(dú)特的優(yōu)勢。目前,寬度學(xué)習(xí)用于光譜檢測領(lǐng)域的研究較少。經(jīng)過充分的理論研究與前期調(diào)研,我們將寬度學(xué)習(xí)引入到高光譜成像技術(shù)檢測蝦新鮮度的研究中。
采用高光譜成像技術(shù)與寬度學(xué)習(xí)相結(jié)合鑒別蝦新鮮度;以白對蝦為研究對象。首先將經(jīng)過不同預(yù)處理后的光譜數(shù)據(jù)進(jìn)行可視化,從而判別出最佳預(yù)處理方法,之后采用多種算法對最佳預(yù)處理的光譜數(shù)據(jù)提取特征波長,最后將寬度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行比較與分析,最終獲得對白對蝦新鮮度檢測的最優(yōu)模型。
實(shí)驗用白對蝦購買于北京市朝陽區(qū)海鮮市場,共420只,平均每只重15 g左右。所有樣本置于4 ℃的恒溫箱中冷藏,每天測定60個樣本,共測試7 d。
Gaia Sorter近紅外高光譜儀。其主要配置為:電控平移臺、56 mm定焦近紅外鏡頭、4個200 W溴鎢燈組成的均勻光源、計算機(jī)箱、遮光罩等;光譜范圍為:866.4~1 701.0 nm;采集軟件:SpecVIEW software (SpecView Ltd,Uckfield,UK);曝光時間:0.09 s;采樣間隔:3.37 nm;電控移動平臺速度:0.55 cm·s-1。
1.3.1 光譜數(shù)據(jù)預(yù)處理
在數(shù)據(jù)采集過程中可能會由于一些干擾因素而引入噪聲,導(dǎo)致后續(xù)的建模相對較慢且魯棒性低[9]。為消除噪聲的影響,使用多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量校正(SNV)和直接正交信號校正(DOSC)三種方法預(yù)處理原始光譜數(shù)據(jù)。
1.3.2 特征波長選擇
所有樣本被隨機(jī)分成3∶1的校正集和預(yù)測集,由于部分高光譜數(shù)據(jù)的全波段光譜信息和空間信息是冗余共線的,這些干擾信息會影響后續(xù)建模過程中模型的魯棒性、準(zhǔn)確性和計算速度。因此,分別采用隨機(jī)森林(RF)[10]、主成分分析(PCA)[11]和二維相關(guān)光譜(2D-COS)[12]進(jìn)行特征波長選擇。
1.3.3 判別模型
偏最小二乘判別分析(PLS-DA)是基于偏最小二乘回歸的高維線性識別多元分類模型[13];極限學(xué)習(xí)機(jī)(ELM)是一類基于前饋神經(jīng)網(wǎng)絡(luò)(FNN)構(gòu)建的機(jī)器學(xué)習(xí)方法,適用于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)問題[14];寬度學(xué)習(xí)系統(tǒng)(BLS)是基于隨機(jī)向量函數(shù)鏈神經(jīng)網(wǎng)絡(luò)(RVFLNN)提出的新型替代方案[15],其結(jié)構(gòu)如圖1所示。BLS的輸入矩陣是由兩部分組成的:映射節(jié)點(diǎn)(mapped feature)和增強(qiáng)節(jié)點(diǎn)(enhancement nodes),映射節(jié)點(diǎn)由光譜數(shù)據(jù)經(jīng)過線性映射和激活函數(shù)變換得到,增強(qiáng)節(jié)點(diǎn)由映射節(jié)點(diǎn)經(jīng)過線性映射和激活函數(shù)變換得到。
圖1 寬度學(xué)習(xí)系統(tǒng)結(jié)構(gòu)Fig.1 Architecture of the broad learning system
通過白對蝦樣本高光譜圖像上感興趣區(qū)域(ROI)提取光譜數(shù)據(jù)。圖2為白對蝦在不同冷藏天數(shù)的平均光譜曲線及其標(biāo)準(zhǔn)差。可以看出,在相同的冷藏天數(shù)下,樣品分散度較小,數(shù)據(jù)準(zhǔn)確。不同冷藏天數(shù)的白對蝦光譜曲線趨勢相似,在一些波段難以區(qū)分。但在1 150~1 300 nm范圍內(nèi),可以看出不同冷藏天數(shù)的白對蝦光譜反射率不同。隨著冷藏天數(shù)的延長,反射率逐漸增大??偟膩碚f,第1天和第7天的平均光譜曲線差異最大,而第2,3,4,5天的平均光譜曲線差異很小。
圖2 平均光譜曲線及其標(biāo)準(zhǔn)差Fig.2 Average spectral curves with standard deviation
t分布隨機(jī)鄰域嵌入(t-SNE)方法可對不同組別樣品之間的差異進(jìn)行可視化分析[16]。t-SNE是由SNE衍生出來的一種算法,它將高維映射到低維,并試圖確保分布概率在它們之間是恒定的。在本研究中,t-SNE用于將原始光譜和經(jīng)三種方法(MSC,SNV,DOSC)預(yù)處理的光譜的可視化,并將這些高維光譜還原到二維平面進(jìn)行分析和比較。圖3為原始光譜和經(jīng)過不同預(yù)處理的光譜曲線及其相應(yīng)的t-SNE可視化結(jié)果。其中RAW代表原始光譜,從圖3(h)中可以直觀地看出經(jīng)DOSC預(yù)處理后的光譜顯示出較好的聚類效果,雖然仍有交叉重疊,但與經(jīng)過MSC和SNV處理的光譜以及原始光譜相比聚類效果更佳。因此選擇經(jīng)DOSC處理后的光譜進(jìn)行特征波長的建模分析。
圖3 可視化分析(a),(b),(c),(d):不同預(yù)處理方法的光譜曲線;(e),(f),(g),(h):t-SNE可視化Fig.3 Visualization analysis(a),(b),(c),(d):Spectral curves by using different preprocessing methods;(e),(f),(g),(h):Visualization using t-SNE
2.3.1 隨機(jī)森林
隨機(jī)森林(RF)是由多棵決策樹組成的機(jī)器學(xué)習(xí)算法,具有分析復(fù)雜交互分類特征的能力。當(dāng)隨機(jī)森林算法作為高維數(shù)據(jù)的特征選擇工具時,可以得到所有變量的重要性及其排序。圖4為使用RF后的波長重要性排序,設(shè)置波長變量重要性閾值為0.15,高于閾值的變量被選中作為新鮮度特征,最終通過RF選擇了15個特征波長。
圖4 使用隨機(jī)森林的波長變量重要性分析Fig.4 Analysis of the importance of wavelength variables by RF
2.3.2 主成分分析
主成分分析(PCA)可提供頻譜分析中對不同數(shù)據(jù)點(diǎn)之間方差的解釋。PC1與PC2組合的2D得分圖如圖5(a)所示,一般來說,同一冷藏天數(shù)的數(shù)據(jù)點(diǎn)傾向于聚集在一起,隨著冷藏天數(shù)的持續(xù)上升,相應(yīng)的樣品趨向于沿著PC1軸正方向移動。圖5(b)為PC1和PC2負(fù)載線,顯著峰谷處的波長被認(rèn)為是識別冷藏天數(shù)的重要信息,應(yīng)加以選擇,通過PCA最終提取了7個特征波長。
圖5 有效PC得分和負(fù)載分析(a):PC1與PC2的PCA得分圖;(b):PC1和PC2負(fù)載線上的選擇出來的波長Fig.5 Analysis of effective PC scores and loading(a):PCA score plot of PC1vs. PC2;(b):Wavelength selection on PC1 and PC2 loading lines
2.3.3 二維相關(guān)光譜
二維相關(guān)光譜(2D-COS)是一種常用的數(shù)學(xué)分析形式。
所獲得的不同冷藏天數(shù)2D-COS分析如圖6所示。在圖6(a)同步等高線圖中的對角線觀察到914.6和1 058.0 nm這兩個主要的自相關(guān)峰,另一個弱的自相關(guān)峰1 249.1 nm也在圖6(b)相應(yīng)的自相關(guān)峰強(qiáng)度曲線圖可以清楚地看到。這些頻段的強(qiáng)度隨冷藏天數(shù)的不同而有很大差異,因此,通過這3個波長可有效識別冷藏天數(shù)。最終通過2D-COS選擇了3個特征波長。
圖6 不同冷藏天數(shù)樣品的2D-COS光譜(a):同步等高線圖;(b):自相關(guān)峰強(qiáng)度曲線Fig.6 The 2D-COS spectrum of samples with different days of refrigeration(a):Synchronous contourmap plot;(b):Autocorrelation peak intensity curve
為了進(jìn)一步選擇最佳的模型組合,將特征波長光譜數(shù)據(jù)與判別模型相結(jié)合,以獲得最佳的模型組合。表1為不同特征選擇算法結(jié)合判別模型建模分析的結(jié)果。PLS-DA參數(shù)為潛在變量個數(shù)。ELM參數(shù)為隱含層層數(shù)。BLS參數(shù)為正則化參數(shù)、增強(qiáng)節(jié)點(diǎn)的收縮尺度。具體分析來說:(1)不同特征選擇算法(RF,PCA,2D-COS)與相同的判別模型中,RF算法與判別模型相結(jié)合的校正集和預(yù)測集的精度最高(校正集和預(yù)測集準(zhǔn)確率都超過90%),表明RF可以最大程度地消除冗余并保留有用信息。(2)特征選擇算法結(jié)合了3個判別模型(PLS-DA,ELM,BLS),其中,BLS模型結(jié)合特征選擇算法可實(shí)現(xiàn)最佳分類精度(校正集和預(yù)測集準(zhǔn)確率都超過89%)。綜上所述,將RF-BLS作為新鮮度最佳判別模型(校正集和預(yù)測集準(zhǔn)確率分別為98.41%和97.14%)。
表1 基于特征波長的建模結(jié)果分析Table 1 Analysis of modeling results based on feature wavelengths
將寬度學(xué)習(xí)引入對白對蝦新鮮度的檢測研究。采用3種預(yù)處理方法(MSC,SNV,DOSC),3種特征選擇算法(RF,PCA,2D-COS),2種經(jīng)典機(jī)器學(xué)習(xí)算法(PLS-DA,ELM)和寬度學(xué)習(xí)模型(BLS)建立了蝦新鮮度的檢測方法。經(jīng)過實(shí)驗與結(jié)果分析,DOSC聚類效果最佳,RF算法在3種特征選擇算法中消除冗余信息性能最好,而BLS與線性機(jī)器學(xué)習(xí)算法(PLS-DA)以及非線性機(jī)器學(xué)習(xí)算法(ELM)相比獲得了更高的分類精度,因此RF-BLS模型效果最好(校正集和預(yù)測集準(zhǔn)確率分別為98.41%和97.14%),驗證了寬度學(xué)習(xí)用于光譜檢測領(lǐng)域的可行性。實(shí)驗結(jié)果表明高光譜成像技術(shù)結(jié)合寬度學(xué)習(xí)識別蝦的新鮮度是可行的,方法可以為在線檢測蝦新鮮度系統(tǒng)的開發(fā)提供理論依據(jù)。