張 旭,白雪冰,汪學(xué)沛,李新武,李志剛,張小栓,4*
1.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083 2.中國農(nóng)業(yè)大學(xué)工學(xué)院,北京 100083 3.石河子大學(xué)信息科學(xué)與技術(shù)學(xué)院,新疆 石河子 832003 4.食品質(zhì)量與安全北京實驗室,北京 100083
中國的羊肉產(chǎn)量及羊肉消費量均居世界首位。保證儲存期內(nèi)羊肉的新鮮度和防范質(zhì)量安全問題愈發(fā)緊要。在羊肉的貯藏過程中,在微生物和內(nèi)外源酶的作用下,羊肉中的脂肪和蛋白質(zhì)分解產(chǎn)生有毒的氨(NH3)和胺類(R-NH2)[1],并與腐敗產(chǎn)生的有機酸結(jié)合生成揮發(fā)性鹽基氮(total volatile basic nitrogen,TVB-N),因此TVB-N濃度是評估羊肉質(zhì)量安全的關(guān)鍵參數(shù)。
食品安全國家標(biāo)準(zhǔn)中規(guī)定的TVB-N濃度的檢測方法包括自動凱氏定氮儀法、半微量定氮法、微量擴散法。這些化學(xué)檢測方法需要破壞樣品,操作過程復(fù)雜,耗時費力,且結(jié)果易受操作水平影響,不能滿足快速、非破壞的質(zhì)量安全檢測要求。
近紅外光譜(near infrared spectroscopy,NIR)檢測技術(shù)具有分析快速、操作簡便、無破壞性等特點,在肉品質(zhì)檢測領(lǐng)域已有大量研究。被應(yīng)用于新鮮度分級[2]、摻假識別[3]、等級劃分[4]、鮮凍肉鑒別等定性分析,以及化學(xué)組成(包括膽固醇[5]、脂肪[6]、水分[7])分析、感官品質(zhì)(包括肉色[8]、系水力、嫩度[8])評價等定量分析。
原始近紅外光譜數(shù)據(jù)中雖然包含與特定成分相關(guān)的有效信息,但也受到噪聲及散射等因素的干擾,這些干擾會降低光譜模型的預(yù)測性能。因此,應(yīng)用適當(dāng)?shù)墓庾V預(yù)處理方法(散射校正、平滑處理、尺度縮放)和變量篩選方法可有效消除與被測指標(biāo)無關(guān)的噪聲、散射等干擾,提高光譜與被測指標(biāo)間的相關(guān)性。將競爭性自適應(yīng)重加權(quán)法(competitive adaptive reweighted sampling,CARS)[9]、無信息變量消除法(uninformative variable elimination,UVE)[9]和連續(xù)投影算法(successive projections algorithm,SPA)等方法應(yīng)用于簡化和優(yōu)化近紅外光譜預(yù)測模型已有報道。
在回歸預(yù)測分析中,偏最小二乘(partial least squares,PLS)是被廣泛應(yīng)用的線性回歸方法,當(dāng)被測指標(biāo)與光譜數(shù)據(jù)間存在非線性關(guān)系時,采用線性的回歸方法無法實現(xiàn)光譜信息的充分提取,影響模型準(zhǔn)確性。為解決光譜數(shù)據(jù)的非線性問題,非線性算法包括支持向量機(support vector machine,SVM)和偏最小二乘支持向量機(least squares-support vector machine,LS-SVM)已被用于近紅外光譜預(yù)測模型的構(gòu)建。為此,探討近紅外光譜的線性及非線性預(yù)測模型對穩(wěn)定可靠的定量分析非常必要。
本研究以反映生鮮羊肉質(zhì)量安全的TVB-N濃度為預(yù)測對象,采集樣品680~2 600 nm的近紅外光譜數(shù)據(jù),經(jīng)2種方法剔除離散程度大的異常樣本后,對比多種預(yù)處理方法對預(yù)測模型性能的影響,以不同變量篩選方法優(yōu)選特征波長,探討線性及非線性建模方法的預(yù)測性能,建立優(yōu)化的生鮮羊肉儲存期TVB-N預(yù)測模型,為實現(xiàn)快速無損檢測生鮮羊肉中的TVB-N濃度提供參考和技術(shù)支持。
在江蘇省東臺市華東山羊市場購買當(dāng)天屠宰的綿羊,取背最長肌,切除其脂肪和肌膜,整形切成3 cm×3 cm×1 cm(長×寬×高)的塊狀150個,置入無菌袋并以4 ℃冷鏈運輸車在24 h內(nèi)運抵中國農(nóng)業(yè)大學(xué)工學(xué)院實驗室,將樣品置于生化培養(yǎng)箱(LRH-250,上海一恒儀器公司)中,分組后在0,4,8和20 ℃溫度下儲藏。低溫試驗時每隔24 h各取出3個樣品進行測試,20 ℃下每隔12 h取2塊樣本進行測試,共測試11 d,共獲得121份樣本。
采用SpectraStar 2600 XT-R型近紅外光譜儀(美國Unity Scientific公司)采集羊肉樣本光譜,掃描次數(shù)為12次,掃描范圍為680~2 600 nm,分辨率為1 nm。
根據(jù)GB 5009.228—2016《食品安全國家標(biāo)準(zhǔn)食品中揮發(fā)性鹽基氮的測定》中的微量擴散法測定樣品的TVB-N濃度。
通過MATLAB R2018b軟件(美國Mathworks公司)完成數(shù)據(jù)處理和模型構(gòu)建。
1.4.1 異常值剔除方法
利用蒙特卡洛采樣(Monte-Carlo sampling,MCS)法消除異常樣本。異常剔除閾值設(shè)置為式(1)和式(2)所示,超過閾值之一的即為異常樣本。
Mthreshold=μM+3σM
(1)
Sthreshold=μS+3σS
(2)
其中,Mthreshold為各樣本預(yù)測誤差均值的閾值,μM和σM為各樣本預(yù)測誤差均值的均值和標(biāo)準(zhǔn)差;Sthreshold為各樣本預(yù)測誤差標(biāo)準(zhǔn)差的閾值,μS和σS為各樣本預(yù)測誤差標(biāo)準(zhǔn)差的均值和標(biāo)準(zhǔn)差。
同時利用馬氏距離法(Mahalanobis distance,MD)剔除MD過大的樣本,閾值設(shè)置為
MDthreshold=μ+3δ
(3)
式(3)中,MDthreshold為各樣本MD的閾值,μ和δ為各樣本MD的均值和標(biāo)準(zhǔn)差。
1.4.2 樣本集劃分方法
剔除異常樣本之后,運用光譜-理化值共生距離(sample set partitioning based on joint x-y distance,SPXY)算法劃分出75%的樣本為校正集,其余為驗證集樣本。
1.4.3 光譜預(yù)處理方法
根據(jù)處理效果預(yù)處理方法可分為散射校正、平滑處理、尺度縮放等。散射校正包括多元散射校正(multiple scattering correction,MSC)和標(biāo)準(zhǔn)正態(tài)變換(standard normal variate,SNV),用于消除樣品顆粒尺寸差異和分布差異對漫反射光的影響。平滑處理可有效提高信噪比,常用的有Savitzky-Golay卷積平滑(S-G smoothing,SGS)、移動平均平滑(moving average smoothing,MAS)等方法。尺度縮放包括歸一化(Normalization)、中心化(Centering)、標(biāo)準(zhǔn)化(Autoscaling)等,用來消除數(shù)據(jù)尺度差異的影響。分別采用這7種方法對樣本進行光譜預(yù)處理,以找到最佳預(yù)處理方法。
1.4.4 特征波長篩選方法
所采集羊肉光譜共1 921個波長,存在冗余和多重共線性信息,篩選特征波長取代全光譜可提高模型簡潔性和計算效率。
CARS選擇波數(shù)的方法是基于回歸系數(shù)的權(quán)重,權(quán)重值越大則代表該變量對模型建立的貢獻越大,被選取的概率越大。
UVE以輸入變量及等量的隨機噪聲建立PLS模型得到回歸系數(shù)矩陣,計算各變量的穩(wěn)定性并篩選穩(wěn)定性大的變量,閾值設(shè)為隨機變量穩(wěn)定性最大絕對值的0.99倍。UVE選出的波長呈局部連續(xù)分布,波段之間仍存在嚴(yán)重的多重共線性問題,嶺回歸(ridge regression,RR)法是解決此類問題的有效方法,但是鮮有研究將嶺回歸用于光譜檢測中的特征波長篩選,由此在UVE法的基礎(chǔ)上引入嶺回歸法得到改進的無信息變量消除(improved uninformative variable elimination,IUVE)法,以進一步簡化模型和提高預(yù)測精度。
SPA以正交投影分析全部波長變量,并保留對TVB-N敏感的特征變量,使變量之間共線性達到最小,降低模型輸入量。
1.4.5 預(yù)測建模方法
PLS在主成分分析的基礎(chǔ)上,對光譜和理化值同時進行分解,保留對光譜貢獻大的主成分,進而構(gòu)建誤差最小化的最佳線性回歸模型。
SVM模型利用核函數(shù)將低維輸入映射到高維特征空間,并在高維特征空間進行線性回歸,適于處理小樣本、非線性以及高維數(shù)等問題。LS-SVM是SVM的改進方法,進一步降低計算復(fù)雜性和提高計算速度。設(shè)定徑向基函數(shù)(radial basis function,RBF)為SVM模型及LS-SVM模型的核函數(shù),以具備交互驗證的網(wǎng)格搜索(grid-search)法對SVM模型的關(guān)鍵參數(shù)(C,γ),以及LS-SVM模型的關(guān)鍵參數(shù)(γ,σ2)進行尋優(yōu)。
圖1為121個羊肉樣本的原始近紅外漫反射吸光度光譜。由于水分子中O—H鍵伸縮振動的二級倍頻和一級倍頻吸收,在980,1 440和1 940 nm附近呈現(xiàn)出吸收峰,在1 200和2 400 nm附近則是與C—H鍵拉伸和伸縮振動相關(guān)的波峰[8]。樣本的光譜曲線趨勢相似,但不同波段的上升和下降的趨勢不同,說明其內(nèi)部化學(xué)成分存在差異。
圖1 羊肉樣本近紅外光譜圖
采用MCS法識別異常樣本,主成分個數(shù)設(shè)置為11,預(yù)處理方法為Centering,抽樣次數(shù)1000次。異常樣本檢測結(jié)果見圖2,得到閾值Mthreshold為6.4,Sthreshold為2.198,第47,89,94,103和121個樣本被判定為異常樣本。
圖2 蒙特卡洛采樣法異常值檢測結(jié)果
圖3是121個光譜樣本到平均光譜的MD分布圖,由MD的均值和標(biāo)準(zhǔn)偏差得到閾值為5.596,超出此閾值的異常樣本為47號,89號,94號,103號,與MCS法的檢測結(jié)果重合度較高。
圖3 羊肉樣本的馬氏距離分布
將剔除異常值后的116個樣本,采用SPXY算法劃分校正集和驗證集樣本。羊肉TVB-N濃度的統(tǒng)計分析結(jié)果如表1所示。
表1 羊肉樣品TVB-N濃度的統(tǒng)計結(jié)果
分別使用原始光譜及經(jīng)過7種方法預(yù)處理的光譜建立全波段的PLS預(yù)測模型,建模結(jié)果見表2。與原始光譜所建立的PLS模型相比,由SNV,MSC,Autoscaling處理的光譜數(shù)據(jù)建立的模型性能均下降,經(jīng)Normalization,Centering,MAS處理的光譜數(shù)據(jù)所建立模型的性能沒有明顯改善,而以SGS預(yù)處理的數(shù)據(jù)建模效果最好,確定SGS為最優(yōu)預(yù)處理方法。
表2 不同預(yù)處理方式的PLS預(yù)測模型比較
2.3.1 應(yīng)用CARS篩選特征波長
采用CARS提取特征波長,設(shè)置蒙特卡洛采樣次數(shù)為50,采用7折交叉驗證計算。隨著采樣次數(shù)增加,圖4(a)曲線呈指數(shù)衰減,在運行次數(shù)1~5次,變量選擇個數(shù)曲線快速下降,對應(yīng)粗選過程,之后進入緩慢遞減的細(xì)選過程。圖4(b)為交互驗證均方根誤差的變化趨勢圖,在運行次數(shù)1~36,交互驗證均方根誤差緩慢波動降低,隨后逐漸升高。從圖4(c)回歸系數(shù)曲線中的“*”標(biāo)出了交互驗證誤差的最低點,在采樣次數(shù)為36次時,達到最小值2.206。此時變量篩選個數(shù)為14個,分別為720,725,823,834,925,1 162,1 230,1 278,1 441,1 473,1 867,1 981,2 484和2 554 nm。
圖4 基于CARS的變量選擇過程
2.3.2 應(yīng)用IUVE篩選特征波長
運行IUVE算法計算1 921個光譜波長和等量隨機噪聲的穩(wěn)定性,閾值設(shè)為±11.76,將超過閾值的輸入變量進行嶺回歸分析,以嶺跡法確定嶺回歸參數(shù)k值為0.2,變量篩選的原則參考文獻[10]。嶺回歸分析的結(jié)果如圖5所示,可以看出各回歸系數(shù)的嶺估計在k=0.2時基本穩(wěn)定,根據(jù)回歸系數(shù)隨k值的變化趨勢結(jié)合誤差選擇變量。IUVE與未改進的UVE的波長選擇結(jié)果如圖6所示,藍(lán)色的曲線為未改進的UVE法計算出的各變量穩(wěn)定性曲線,超過閾值的波長達到703個,占總波長的36.60%,洋紅色豎線為結(jié)合嶺回歸分析的IUVE法最終選擇出的144個有效變量,占總波長的比值降至7.50%,因此改進后的UVE可有效地消除各波長變量間的共線性。
圖5 嶺回歸分析嶺跡圖
圖6 基于IUVE的特征波長篩選
2.3.3 應(yīng)用SPA篩選特征波長
在變量個數(shù)1~28的范圍內(nèi)優(yōu)選波長,SPA算法以RMSE的大小為依據(jù)確定特征波長數(shù)量。隨著特征波長數(shù)量的增加,RMSE的變化過程如圖7所示。當(dāng)波長數(shù)量由1增加到7時,RMSE迅速下降,表明此類波長變量為與羊肉TVB-N相關(guān)的重要波長變量。當(dāng)波長數(shù)量由7個增加到15個時RMSE呈波動式下降,此類波長為有用信息變量。隨著波長數(shù)量由15個繼續(xù)增加,RMSE繼續(xù)緩慢下降。因此以15個特征波長作為輸入的特征變量。圖8為15個特征波長在全光譜中的位置分布,分別為680,798,1 067,1 266,1 497,1 498,1 901,1 920,1 936,2 009,2 263,2 386,2 391,2 575和2 583 nm。
圖7 基于SPA的波長個數(shù)選擇
圖8 基于SPA的特征波長選擇
2.4.1 PLSR模型
圖9 CARS-PLS模型對羊肉TVB-N濃度的預(yù)測結(jié)果
表3 不同波長提取方法的PLS預(yù)測模型比較
2.4.2 SVM模型
圖10 CARS-SVM模型對羊肉TVB-N濃度的預(yù)測結(jié)果
2.4.3 LS-SVM模型
表4 不同波長提取方法的SVM預(yù)測模型比較
圖11 CARS-LS-SVM模型對羊肉TVB-N濃度的預(yù)測結(jié)果
表5 不同波長提取方法的LS-SVM預(yù)測模型比較
利用近紅外光譜對羊肉TVB-N濃度進行預(yù)測,主要結(jié)論如下:
(1)以MCS法和MD法剔除了羊肉的光譜數(shù)據(jù)的5個異常值,且2種方法的檢測結(jié)果重合度和可信度較高。
(2)以原始光譜和6種不同方法預(yù)處理的光譜建立了PLS預(yù)測模型,SGS處理的光譜建模效果最好,平滑處理、尺度縮放方法的建模效果整體上好于散射校正方法。
(3)利用CARS,UVE,IUVE,SPA提取特征光譜得到的波長個數(shù)分別為14,703,144,15,占全光譜1921個波長的0.73%,36.60%,7.50%,0.78%。對比全光譜和各方法提取的特征波長所建立的預(yù)測模型,CARS提取的波長建立的模型性能最優(yōu)。對比UVE法,IUVE可消除波長間的共線性和提高模型性能。
(4)對提取的特征波長建立了儲存期生鮮羊肉TVB-N的PLS,SVM和LS-SVM預(yù)測模型,最好的校正集預(yù)測結(jié)果由SVM模型取得,最好的驗證集預(yù)測效果由LS-SVM模型得到,這兩種方法的建模效果與模型參數(shù)和建模樣本密切相關(guān)。