段宇飛,王巧華
(1.湖北工業(yè)大學(xué)農(nóng)機(jī)工程研究設(shè)計(jì)院,湖北 武漢 430068;2.華中農(nóng)業(yè)大學(xué)工學(xué)院,湖北 武漢 430070;3.國家蛋品加工技術(shù)研發(fā)分中心,湖北 武漢 430070)
雞蛋新鮮度為雞蛋運(yùn)輸、加工以及銷售等環(huán)節(jié)中所需要考察的重要指標(biāo)[1]。隨著雞蛋新鮮度越來越受重視,新鮮度檢測水平亟待提高,其中優(yōu)化新鮮度檢測模型、提高檢測效率至關(guān)重要。
近年來,國內(nèi)外學(xué)者運(yùn)用光譜分析[2-3]、介電特性[4-5]、電子鼻[6-7]、機(jī)器視覺[8-11]等檢測技術(shù)對雞蛋新鮮度無損檢測進(jìn)行了相關(guān)理論研究。其中光譜分析技術(shù)因其具有采樣速度快、操作方便等特點(diǎn)一直都是雞蛋新鮮度常用且有效的檢測手段,通過采集雞蛋光譜數(shù)據(jù)結(jié)合數(shù)學(xué)運(yùn)算處理方法獲取新鮮度信息。為了提高雞蛋新鮮度光譜分析速率,減少光譜噪聲信息的影響,通過對光譜數(shù)據(jù)進(jìn)行相關(guān)處理以優(yōu)化模型,例如楊曉玉等[12]獲取400~1 000 nm波長范圍雞蛋高光譜信息,運(yùn)用遺傳偏最小二乘法對光譜數(shù)據(jù)進(jìn)行特征選擇,建立的最小二乘支持向量機(jī)預(yù)測模型相關(guān)系數(shù)為83.2%,研究表明高光譜技術(shù)可以應(yīng)用于雞蛋新鮮度檢測。王巧華等[13]分別利用無信息變量消除法和多模式共識法進(jìn)行雞蛋光譜波長特征選擇,通過比較發(fā)現(xiàn),多模式共識選擇出的39 個特征點(diǎn)結(jié)合偏最小二乘判別分析法建立雞蛋新鮮度預(yù)測模型效果更佳,識別準(zhǔn)確率為91.23%。Lin Hao等[14]嘗試獨(dú)立成分分析和主成分分析對雞蛋近紅外光譜進(jìn)行特征提取,并結(jié)合遺傳算法的人工神經(jīng)網(wǎng)絡(luò)分別建立雞蛋新鮮度回歸預(yù)測模型,得出通過獨(dú)立成分分析提取特征后光譜數(shù)據(jù)所建立的模型性能最佳,預(yù)測集的相關(guān)系數(shù)達(dá)到87.9%。Saman等[15]采集400~1 100 nm雞蛋透射光譜,分別使用主成分分析特征提取和遺傳算法特征選擇兩種方法處理光譜數(shù)據(jù),分析結(jié)果表明遺傳算法選擇的特征波長結(jié)合人工神經(jīng)網(wǎng)絡(luò)建立模型得到的雞蛋新鮮度識別率優(yōu)于其他方法。
通過上述研究表明,特征選擇和特征提取方法常用于光譜數(shù)據(jù)分析[16-20],不僅降低了光譜運(yùn)算數(shù)據(jù)量提高雞蛋新鮮度檢測速率,而且盡可能消除無用干擾信息以取得較好的預(yù)測效果。雖然特征選擇或者特征提取在一定程度上降低了數(shù)據(jù)運(yùn)算量、提高了檢測效率,但是使用中仍可能出現(xiàn)以下問題,一方面特征提取是將光譜數(shù)據(jù)從高維度空間通過運(yùn)算映射到一個低維度空間中,再利用低維數(shù)據(jù)進(jìn)行建模,其光譜數(shù)據(jù)參與運(yùn)算的數(shù)量本質(zhì)并沒有減少;另一方面特征選擇法獲得的波長個數(shù)可能出現(xiàn)較多的情況。因此,針對上述問題,本研究結(jié)合特征選擇和特征提取方法的優(yōu)勢,將兩者進(jìn)行有機(jī)融合,首先運(yùn)用競爭性自適應(yīng)重加權(quán)(competitive adaptive reweighted sampling,CARS)算法特征選擇獲取一階微分處理后雞蛋光譜的特征波長,然后利用非線性特征提取方法中的局部切空間排列(local tangent space alignment,LTSA)算法對特征波長進(jìn)行有效信息再提取,結(jié)合支持向量回歸(support vector regression,SVR)建立雞蛋新鮮度定量預(yù)測模型,以期達(dá)到良好的檢測效果,方法融合后進(jìn)一步提升雞蛋新鮮度光譜檢測效率,提高預(yù)測精度,優(yōu)化檢測模型。
隨機(jī)挑選蛋殼完好的1 日齡新鮮雞蛋220 枚,將表面擦拭干凈后共同放置于溫度25 ℃、相對濕度70%的恒溫恒濕培養(yǎng)箱中。
USB2000+微型光纖光譜儀(LS-3000系列高功率鹵素?zé)簦?美國Ocean Optics公司。
1.2.1 雞蛋光譜數(shù)據(jù)采集
為了獲得不同新鮮程度的雞蛋樣本,每3 d從恒溫恒濕箱中隨機(jī)選取30 枚雞蛋,使用采集裝置(圖1)獲取每個雞蛋的透射光譜數(shù)據(jù)。
圖1 雞蛋透射光譜采集系統(tǒng)Fig. 1 Schematic representation of the acquisition system of transmittance spectra for eggs
采集軟件設(shè)置積分時間50 ms、平滑寬度5、平均次數(shù)3、光譜采集范圍550~950 nm,獲取的雞蛋樣本原始透射光譜如圖2所示。
圖2 雞蛋樣本透射率光譜曲線Fig. 2 Transmittance spectra of egg samples
1.2.2 雞蛋新鮮度測定
每當(dāng)采集完光譜,使用電子秤對雞蛋稱質(zhì)量,然后破殼并水平放置于托盤中,將蛋白高度測定儀校正,測量離蛋黃1 cm左右3 處不同位置的蛋白高度取平均值,根據(jù)雞蛋質(zhì)量和蛋白高度計(jì)算出哈夫單位值,以其表征雞蛋新鮮度。
1.2.3 樣本集劃分
表1 樣本集哈夫單位相關(guān)參數(shù)值Table 1 Haugh unit values of training and prediction sets
隨著貯藏時間的延長,雞蛋蛋白在實(shí)驗(yàn)后期稀化嚴(yán)重,導(dǎo)致部分雞蛋的濃蛋白含量極低甚至少量雞蛋出現(xiàn)散黃現(xiàn)象,無法準(zhǔn)確測量其哈夫單位值,因此本實(shí)驗(yàn)共獲取了211 個有效的雞蛋樣本數(shù)據(jù),利用光譜-理化值共生距離SPXY算法按照3∶1比例劃分為訓(xùn)練集和預(yù)測集樣本。從表1可以看出,訓(xùn)練集和預(yù)測集兩者的哈夫單位平均值以及標(biāo)準(zhǔn)差相對比較接近,說明實(shí)驗(yàn)樣本集劃分合理,適用于模型建立與檢驗(yàn)。
1.2.4 LTSA算法
LTSA是流形學(xué)習(xí)方法中的一種非線性特征提取方法,其基本思想是通過將數(shù)據(jù)鄰近點(diǎn)轉(zhuǎn)化到切空間坐標(biāo)表示流形局部幾何空間結(jié)構(gòu),再由局部切空間映射尋求低維嵌入坐標(biāo)[21-24]。
設(shè)雞蛋光譜篩選特征變量后所構(gòu)成的樣本數(shù)據(jù)集X=[x1,x2,x3,…,xN],xm∈RC,d為變換矩陣映射后的光譜數(shù)據(jù)維數(shù),其中d<C,其算法的實(shí)現(xiàn)計(jì)算過程如下:
1)針對每個雞蛋光譜樣本點(diǎn)xm,通過K鄰近算法獲取包含自身的雞蛋光譜樣本點(diǎn)鄰域,每個光譜樣本點(diǎn)構(gòu)建一個鄰域矩陣XNm=[xm1,xm2,xm3,…,xmn],其中n=1,2,3,…,k(k為近鄰點(diǎn)數(shù))。
2)求解每個雞蛋樣本點(diǎn)xm所在d維切空間的非零正交向量組Am以及鄰域矩陣中xmn點(diǎn)切空間中的正交投影矩為k鄰域平均值,Am選擇XNm-
矩陣中前d個最大左奇異向量,得到XNm局部坐標(biāo)矩陣為
3)通過仿射變換將p個局部坐標(biāo)轉(zhuǎn)化到全局坐標(biāo)[φm1,φm2,φm3,…,φmk],計(jì)算全局空間重構(gòu)誤差最小值獲取低維坐標(biāo),得到雞蛋光譜的低維空間數(shù)據(jù)。
通常在光譜采集過程中,環(huán)境、人為等因素的影響導(dǎo)致光譜數(shù)據(jù)存在大量隨機(jī)噪聲信息,不利于預(yù)測模型準(zhǔn)確性的提高,光譜預(yù)處理對于建立穩(wěn)定可靠模型必不可少[25]。前期研究中已經(jīng)比較了不同光譜預(yù)處理數(shù)據(jù)建立的預(yù)測模型效果,確定了一階微分是雞蛋新鮮度光譜檢測相對較優(yōu)的預(yù)處理方式,有利于消除基線漂移對雞蛋光譜數(shù)據(jù)的影響[26],因此以下研究中的雞蛋光譜處理與分析均基于一階微分處理后的光譜數(shù)據(jù)。
由于全光譜中存在的部分無效干擾信息降低了定量模型預(yù)測精度,同時數(shù)據(jù)量較多也增加了模型復(fù)雜度和運(yùn)算時間,通過特征選擇方法能夠有效獲取光譜特征波長,提升模型檢測效率[27]。
CARS是一種以進(jìn)化論“適者生存”為依據(jù)的特征變量篩選方法,結(jié)合衰減函數(shù)和自適應(yīng)加權(quán)采樣對變量進(jìn)行逐步保留與剔除,最終找出交叉驗(yàn)證均方根誤差(root mean square error of cross validation,RMSECV)最小的光譜數(shù)據(jù)子集作為最優(yōu)變量組合[28-30]。本研究利用CARS算法對訓(xùn)練集中的雞蛋光譜數(shù)據(jù)進(jìn)行波長優(yōu)選,其中蒙特卡洛采樣次數(shù)設(shè)置為50,CARS算法選擇特征波長的運(yùn)算過程見圖3。
表2 CARS選取的特征波長組合Table 2 Combinations of characteristic wavelengths selected by CARS
圖3 CARS特征波長選擇過程Fig. 3 Selection of characteristic wavelengths by CARS
由圖3a可知,伴隨著采樣次數(shù)的增加,參與運(yùn)算的變量個數(shù)逐步減少,在采樣初期變量個數(shù)迅速遞減;由圖3b可以得出,由于每次采樣時光譜數(shù)據(jù)子集合發(fā)生變化,因此RMSECV會得到不同的結(jié)果,并呈現(xiàn)先下降后上升的變化趨勢,誤差值先下降說明采樣初期剔除了一些無用的光譜信息從而提高了模型精度,誤差值隨后上升說明隨著采樣次數(shù)的增加,變量個數(shù)逐步減少導(dǎo)致部分有效的光譜波長被消除,降低了模型精度;由圖3c所示,當(dāng)采樣運(yùn)行次數(shù)為21 次時,RMSECV達(dá)到最小值,說明此時采樣所得到的光譜數(shù)據(jù)子集合為最優(yōu)波長組合,共選取了45 個光譜波長變量,表2為通過CARS算法最終選取的具體特征波長點(diǎn)分布。
利用SVR對CARS算法選取的特征波長變量建立雞蛋新鮮度定量模型,其中SVR的核函數(shù)采用徑向基函數(shù),懲罰因子和核參數(shù)通過十折交叉驗(yàn)證尋優(yōu)。模型得到訓(xùn)練集交叉驗(yàn)證相關(guān)系數(shù)(Rcv)為0.880 5,RMSECV為8.59,預(yù)測集相關(guān)系數(shù)(Rp)為0.888 9,預(yù)測集均方根誤差(root mean square error of prediction,RMSEP)為8.42,其模型預(yù)測效果如圖4所示。
圖4 基于特征波長建立的SVR模型預(yù)測效果Fig. 4 Prediction performance of SVR model based on characteristic wavelengths
如表3所示,通過SVR結(jié)合特征選擇后的光譜數(shù)據(jù)建立雞蛋新鮮度定量模型結(jié)果相比于波長特征選擇前全光譜建模得到的RMSECV值減少了1.09,表明CARS特征選擇算法有效地篩選了雞蛋光譜變量,提高了模型精度,同時光譜數(shù)據(jù)量減少了355 個,簡化了檢測模型,每個雞蛋樣本平均檢測時間為0.053 s。
表3 CARS特征選擇前后的模型預(yù)測效果Table 3 Model prediction results before and after characteristic wavelength selection by CARS
雖然與全光譜相比數(shù)據(jù)量大幅減少,很大程度上提高了光譜檢測效率和精度,但是可以看出變量個數(shù)仍然相對較多,進(jìn)一步提取有效光譜特征,減少參模數(shù)據(jù)量對于優(yōu)化模型、提升檢測效率有利。
利用特征提取法對特征選擇獲取的波長變量進(jìn)行再次提取,分析二者融合算法得到的雞蛋新鮮度檢測模型效果。
在LTSA對雞蛋光譜數(shù)據(jù)進(jìn)行特征提取中,低維空間目標(biāo)維數(shù)d和近鄰點(diǎn)數(shù)k是需要調(diào)節(jié)的兩個重要參數(shù),不同參數(shù)對于提取結(jié)果以及模型精度會產(chǎn)生不同影響。為了得到最佳的參數(shù)組合,利用網(wǎng)格遍歷法對一定范圍內(nèi)的參數(shù)進(jìn)行逐個選取,通過SVR對不同參數(shù)組合特征提取后數(shù)據(jù)建模得到的RMSECV評價參數(shù)優(yōu)劣??紤]k過小會導(dǎo)致構(gòu)建的鄰域圖不連通,無法準(zhǔn)確獲取低維嵌入坐標(biāo)[31],因此d選取1~35,k選取45~100,d和k的步長都設(shè)置為1,對兩個參數(shù)的所有取值進(jìn)行組合形成“網(wǎng)格”,結(jié)合不同參數(shù)組合進(jìn)行LTSA特征提取,并分別建立比較特征提取后的多個檢測模型,其結(jié)果顯示,當(dāng)d=31、k=88時,模型得到的RMSECV達(dá)到最小值。
通過選取d 29~32為例說明LTSA算法中k值對提取特征的影響,從圖5A觀察固定d時結(jié)合不同k值的結(jié)果,發(fā)現(xiàn)RMSECV值均變化平穩(wěn),說明k值選取的約束較小,確定d后k值對模型的影響不大;選取k 86~89為例說明LTSA算法中d值對提取特征的影響,從圖5B觀察固定k時結(jié)合不同d值的結(jié)果,發(fā)現(xiàn)RMSECV隨d值變化較大,得出在d較小時,RMSECV值較大,且大于特征提取前得到的模型誤差值,說明在提取維數(shù)較低時,部分有用信息被弱化導(dǎo)致模型精度差;隨著d值的增加,由于有用特征信息被有效提取出來,RMSECV值逐步變小,模型精度隨之提高,在d為31時RMSECV值達(dá)到最低;繼續(xù)增加提取維數(shù),RMSECV值開始增大,表明提取的過大維數(shù)中存在干擾不利信息導(dǎo)致模型精度反而降低。
圖5 LTSA中d(A)和k(B)變化的影響Fig. 5 Effects of number of dimensions d (A) and nearest neighbors k (B)in LTSA on RMSECV
本實(shí)驗(yàn)選取RMSECV最小時的d和k值作為LTSA算法最優(yōu)參數(shù),結(jié)合特征提取的光譜數(shù)據(jù)建立SVR新鮮度定量模型得到Rcv=0.896 0,RMSECV=8.04,Rp=0.898 3,RMSEP=8.18,其模型預(yù)測效果如圖6所示。將CARSSVR模型與CARS-LTSA-SVR模型分析比較,后者相比前者RMSECV值減少了0.55,RMSEP值減少了0.24,Rcv和Rp均有所提升,參模維數(shù)減少了14 個,可知CARSLTSA-SVR模型預(yù)測效果更好,每個雞蛋樣本平均檢測時間為0.032 s,模型運(yùn)行時間更短,表明單一使用CARS特征選擇的波長中可能還是存在部分冗余信息,融合LTSA特征提取算法能夠進(jìn)一步消除不利影響,不僅減少了模型復(fù)雜度,而且提高了模型運(yùn)行效率,增強(qiáng)了模型穩(wěn)定性與適用性。
圖6 基于CARS-LTSA光譜處理建立的SVR模型預(yù)測效果Fig. 6 Prediction performance of SVR model based on CARS-LTSA processing
本實(shí)驗(yàn)將CARS算法特征選擇與LTSA算法特征提取相結(jié)合共同用于雞蛋光譜數(shù)據(jù)的處理加工中,再利用SVR建立雞蛋新鮮度(哈夫單位值)定量模型,獲得以下結(jié)論:1)采用CARS特征選擇對一階微分預(yù)處理后的雞蛋光譜進(jìn)行特征變量選擇,使光譜維數(shù)相比于特征選擇前的預(yù)處理數(shù)據(jù)減少了355 個,RMSECV值相比于變量提取前的模型減少了1.09,表明CARS特征選擇在一定程度上有效地消除了無用信息的影響;2)利用LTSA對CARS選擇的特征波長數(shù)據(jù)進(jìn)行特征再提取,與僅使用CARS算法處理后建模相比,光譜維數(shù)繼續(xù)減少14 個,模型精度再次提高,表明LTSA特征提取法能夠進(jìn)一步在CARS特征選擇的數(shù)據(jù)中獲取有效信息,減少了冗余,簡化了模型,其模型精度及速率均高于先前的研究[26];3)CARS-LTSA融合算法共同處理雞蛋可見-近紅外光譜數(shù)據(jù)有效,所建立SVR定量模型用于雞蛋新鮮度光譜快速無損檢測可行,表明將特征選擇與特征提取方法綜合利用,在光譜數(shù)據(jù)分析處理中盡可能地減少光譜數(shù)據(jù)量、增強(qiáng)模型穩(wěn)定性以及提高光譜檢測效率具有一定的優(yōu)勢,可為光譜檢測模型的優(yōu)化提供一定的參考依據(jù)。