陳亦凡,李蕓婧,彭苗苗,楊春勇,侯 金,陳少平
智能無線通信湖北省重點實驗室,中南民族大學電子信息工程學院,湖北 武漢 430074
根據(jù)我國鮮凍畜肉的國家標準(GB/T 5009.44—2003),揮發(fā)性鹽基氮(TVB-N)是衡量肉品新鮮度的一項重要理化指標。傳統(tǒng)標定新鮮度的方法費時、繁瑣、破壞性大,難以滿足快速檢測TVB-N含量的需求。近年來,可見/近紅外(VIS/NIR)光譜檢測憑借快捷、簡便和無損等優(yōu)勢,成為檢測領域的熱點[1-3],也已應用在TVB-N含量的檢測。
在光譜分析檢測領域,預測模型屬于研究重點[4]。關于預測模型,目前大致分為線性預測模型和非線性預測模型兩類。為了發(fā)展肉質(zhì)中TVB-N含量快速檢測法,針對這兩類模型,國內(nèi)外學者就光譜預測模型進行了深入研究。意大利的Alamprese等[5]利用偏最小二乘回歸(partial least squares regression,PLSR)引入12個主成分, 建立了942~2 667 nm的NIR全譜線性預測模型,模型預測相關系數(shù)(RP)為0.95,預測均方根誤差(root mean square error of prediction,RMSEP)為6.47 mg/100 g,初步滿足了對牛肉TVB-N定量分析的需求。國內(nèi)的蔡健榮等學者[6]對1 000~2 500 nm的豬肉NIR光譜數(shù)據(jù),建立了基于波長篩選的聯(lián)合偏最小二乘回歸(siPLSR)預測模型,RP為0.82,RMSEP為4.17 mg/100 g,進一步提高了線性預測模型PLSR的準確性。此后,Huang等[7]使用主成分分析(principal component analysis,PCA)降維相同波段的豬肉光譜數(shù)據(jù)作為反向神經(jīng)網(wǎng)絡(back propagation neural network,BPNN)的輸入,建立了NIR全譜非線性預測模型,RP為0.94,RMSEP為3.63 mg/100 g。相對于線性預測模型,NIR全譜非線性預測模型準確性更高。對比相關典型文獻,大多數(shù)全譜線性預測模型可用于肉質(zhì)TVB-N含量的定量分析,盡管其結(jié)合波長篩選一定程度上提升了模型性能,但總體性能與全譜非線性預測模型BPNN相比仍有差距。然而,全譜非線性預測模型BPNN的全譜信息中含有大量無關信息變量,嚴重影響模型性能,建模過程使用波長篩選仍然必不可少[8-9]。另據(jù)可查閱文獻,波長篩選改良BPNN預測模型在VIS/NIR光譜檢測領域鮮有研究。雖然,Dombi[10]等在1995年提出平均影響值(mean impact value, MIV)方法對剔除無關變量有顯著優(yōu)勢,但是這一方法主要用于質(zhì)譜分析、圖像處理和生物醫(yī)學,鮮見涉及光譜分析領域的應用[11-13]。
為了構(gòu)建基于波長篩選的豬肉TVB-N含量的BPNN預測模型,首先利用PCA對豬肉光譜數(shù)據(jù)進行降維,構(gòu)建TVB-N含量的PCA-BPNN預測模型; 再進一步引入MIV方法對VIS/NIR全譜波長變量進行強相關特征優(yōu)選,獲得改良預測模型MIV-PCA-BPNN。最后,從準確性和穩(wěn)健性兩個方面評估MIV-PCA-BPNN預測模型。
豬肉樣本購于周邊農(nóng)貿(mào)市場,取自不同豬個體的背最長肌部位。參考文獻[5]的做法,將樣本切割成30 mm×30 mm×20 mm尺寸塊,進行編號排序,共得51個樣本。將樣本用密封袋封裝冷藏于4 ℃環(huán)境。測量時,每間隔24 h按編號大小依次取出5~7個樣品,靜置于25 ℃室溫環(huán)境約20 min,再分別對其進行光譜數(shù)據(jù)采集和TVB-N含量測定。
光譜采集系統(tǒng)包括海洋光學的光譜儀QE65pro,鹵鎢光源HL-2000,載物臺和計算機等部件; 光譜儀采集范圍為200~1 000 nm,光學分辨率為0.14~7.7 nm,光源波長范圍為360~2 400 nm; 通過計算機和光譜儀配套采集軟件SpectraSuit,以反射模式實施檢測, 光譜采集系統(tǒng)如圖1所示。在檢測過程中,保證光源探頭垂直向下并距離樣品1.5 cm,在視場覆蓋樣品時應避開其邊緣和反光區(qū)。
圖1 近紅外光譜檢測系統(tǒng)示意圖Fig.1 Diagram of spectral acquisition system
據(jù)文獻[14],豬肉中TVB-N在波段200~450和900~1 000 nm區(qū)間的光譜信噪比較低,嚴重干擾模型的建立。因此,選取450~900 nm的數(shù)據(jù)用于后續(xù)建模。51個樣品的反射光譜如圖2所示。
圖2 51個豬肉樣本的原始反射光譜Fig.2 Raw reflectance spectra of 51 pork samples
國家標準(GB/T 5009.44—2003)規(guī)定對肉質(zhì)TVB-N含量的檢測采用半微量定氮法,據(jù)此方法測定結(jié)果如圖3所示。從圖中可看出,TVB-N含量總體上隨著時間推移而不斷增加,從第5日起TVB-N含量加速增加。該結(jié)果表明,TVB-N含量是肉品腐敗程度的反映,存放第5日后,肉品表面的微生物污染逐步向深層蔓延,蛋白質(zhì)分解加劇,導致肉品理化性質(zhì)改變。
圖3 TVB-N含量隨天數(shù)變化情況(4 ℃冷藏環(huán)境)
Fig.3 The TVB-N content of pork varies with days (4 ℃ in a refrigerated environment)
為了建立TVB-N含量的預測模型,從51個樣本中隨機選取10個樣本作為驗證集,其余的41個樣本作為校正集,TVB-N值統(tǒng)計結(jié)果如表1所示。
構(gòu)建的PCA-BPNN工作流程如圖4所示。圖中的X1,X2,X3, …,Xn是經(jīng)PCA降維的光譜數(shù)據(jù),也是BPNN模型的輸入節(jié)點;ωij和ωjk代表光譜數(shù)據(jù)在神經(jīng)元之間傳遞的權(quán)重,體現(xiàn)BPNN的網(wǎng)絡權(quán)值;Y1表示TVB-N預測值,是BPNN的輸出節(jié)點。
表1 校正集和驗證集TVB-N值(mg/100 g)統(tǒng)計結(jié)果Table 1 Statistics of pork TVB-N value (mg/100 g)in calibration and prediction sets
圖4 PCA-BPNN流程圖Fig.4 Flow chart of PCA-BPNN
每一個樣本所攜帶的光譜信息含有近600個波長變量,如直接作為BPNN的輸入節(jié)點,必將延長其收斂時間。為此,先用PCA對標準化后的樣本光譜數(shù)據(jù)進行降維處理。選定占原始光譜信息量99.99%的11個主成分作為BPNN的輸入節(jié)點。通過以校正相關系數(shù)(RC)、預測相關系數(shù)、校正均方根誤差(root mean square error of calibration,RMSEC)和預測均方根誤差為評價指標的訓練與優(yōu)化,確定BPNN參數(shù)如表2所示。
表2 BPNN參數(shù)設定Table 2 BPNN parameters setting
MIV在神經(jīng)網(wǎng)絡應用中是評價變量對結(jié)果影響較為有效的指標之一。根據(jù)MIV數(shù)值的相對大小,可以精確地定位到與TVB-N含量強相關的波長變量。MIV波長篩選原理與流程如圖5所示,操作步驟為:
(1) 訓練出RC和RP均大于0.9的PCA-BPNN模型。
(2) 先將訓練集T的第i個波長的反射強度數(shù)值分別增減10%,得到新數(shù)據(jù)集Xi和Yi,隨后將Xi和Yi經(jīng)PCA降維后作為仿真樣本。
圖5 MIV方法波長篩選流程圖Fig.5 Flow chart of wavelength selection in MIV
(1)
(2)
利用MIV方法獲得優(yōu)選波長,最終建立MIV-PCA-BPNN預測模型,以此提高預測模型的準確性和穩(wěn)健性。建模流程如圖6所示。
圖6 MIV-PCA-BPNN流程圖Fig.6 Flow chart of MIV-PCA-BPNN
MIV-PCA-BPNN工作流程包括波長優(yōu)選與建模兩個步驟。波長優(yōu)選把原始光譜數(shù)據(jù)中的無關波長變量剔除,將優(yōu)選的特征波長作為PCA-BPNN模型的輸入以構(gòu)建MIV-PCA-BPNN預測模型。建模完成后,用驗證集對模型準確性和穩(wěn)健性進行驗證,得到其評價指標。在上述流程中,利用MIV去除光譜數(shù)據(jù)中的冗余信息,提高模型準確性和穩(wěn)健性,而PCA則用于簡化網(wǎng)絡規(guī)模,縮短模型收斂時間。
預測模型以RC,RP,RMSEC和RMSEP作為評價性能的指標。
(3)
(4)
式(3)與式(4)中n同式(2)的定義,為樣本組數(shù),yi, actual表示第i組樣品的TVB-N測定值,yi, predicted表示所建模型的第i組樣品TVB-N預測值。
評價預測模型性能時,先考慮其準確性,隨后再評估其穩(wěn)健性。通常,RC數(shù)值越接近1,RMSEC的數(shù)值越低,預測模型的擬合精度越高;RP數(shù)值越接近1,RMSEP的數(shù)值越低,預測值與測定值的誤差越小,預測模型的預測精度越高。模型的準確性主要取決于擬合精度和預測精度。衡量預測模型穩(wěn)健性的指標是RMSEP/RMSEC,其數(shù)值越低,模型的穩(wěn)健性越好。通常,一個具有優(yōu)良穩(wěn)健性的模型RMSEP/RMSEC≤1.2[15]。
對450~900 nm的光譜數(shù)據(jù)進行MIV波長篩選,波長分布結(jié)果如圖7所示。從圖中可以看出,在全光譜波段不同波長變量的MIV數(shù)值有較大差異,為了減少無關信息的影響,將MIV數(shù)值小于平均值0.034且與TVB-N含量相關性較弱的373個波長變量全部剔除,從而得到優(yōu)選的221個波長變量。
圖7 MIV篩選出特征波長的分布Fig.7 Distribution of characteristic wavelength selected by MIV
由圖7可見,MIV數(shù)值較大的波段集中分布在7個波峰附近。在VIS波段(450~780 nm),第一個波峰出現(xiàn)在471 nm,即以波長471 nm為中心,左右兩側(cè)20 nm內(nèi)有452,455,461,480和491 nm特征波長, 這些波長為肉品中高鐵肌紅蛋白的吸收峰區(qū)。第二個波峰出現(xiàn)在544 nm,即以波長544 nm為中心,左右兩側(cè)各20 nm內(nèi)有527,530,533,540和541~555 nm特征波長,這些波段為肉品中氧合肌紅蛋白的吸收峰區(qū)。第三和第四個波峰出現(xiàn)在588和613 nm,這兩個波峰兩側(cè)各有578~600和613~625 nm特征波段,分別為高鐵肌紅蛋白和硫肌紅蛋白的吸收區(qū)。第五個波峰出現(xiàn)在740 nm,以波長740 nm為中心,左右20 nm內(nèi)有745,757和762 nm特征波長,這些波長為肉品O—H鍵的第三倍頻的吸收峰區(qū)[16]。在NIR波段(780~950 nm),第六個波峰出現(xiàn)在832 nm,以832 nm為中心波長,左右20 nm內(nèi)有828和847nm特征波長,這三處特征波長為氨中N—H鍵第三倍頻的吸收峰。最后一個波峰出現(xiàn)在894 nm,其兩側(cè)的特征波長863,895和896 nm為肉品C—H鍵第三倍頻吸收峰[17]。
TVB-N是豬肉存儲過程中由于蛋白質(zhì)分解而產(chǎn)生氨以及胺類等堿性含氮物質(zhì)[14, 19],這些堿性含氮物質(zhì)中的含氫基團(C—H,O—H,S—H,N—H等化學鍵)的特征吸收峰與MIV方法所篩選出來的特征波長表現(xiàn)出高度一致性,由此為利用MIV方法篩選光譜的波長變量提供了理論依據(jù)。
基于所構(gòu)建的MIV-PCA-BPNN預測模型獲得的樣本預測值與測定值之間的散點圖如圖8(a)所示。與圖8(b)中的基于全譜的TVB-N預測模型PCA-BPNN的結(jié)果相比較,圖8(a)中校正集和驗證集的數(shù)據(jù)點明顯匯聚于斜線附近,且誤差大的極端數(shù)據(jù)點較少??梢姴ㄩL優(yōu)選獲得了更好的模型擬合和預測效果,在準確性和穩(wěn)健性方面有較大提升。
MIV-PCA-BPNN模型的變量數(shù)較少,但主成分數(shù)較多。究其原因,MIV波長篩選剔除了大部分非線性和不相關的波長變量,使得變量之間相關性得到了增強,PCA降維光譜數(shù)據(jù)時,所提取的主成分包含了大量的與TVB-N含量相關的信息,因此主成分數(shù)增加,結(jié)果與文獻[9]結(jié)論一致。
為了進一步比較非線性預測模型與線性預測模型的性能,參考文獻[18]的做法,組合多種常見的算法對樣本光譜信息進行預處理,其中包括: 標準正態(tài)變量變換(SNV)、多元散射矯正(MSC)、Savitzky-Golay(S-G)平滑,窗口參數(shù)為3~21(間隔為2),擬合次數(shù)為1~5,求導階數(shù)為一階或二階(1D,2D)、均值中心化、標準化等。通過反復調(diào)整上述算法的參數(shù)與輸入的主成分數(shù),構(gòu)建了優(yōu)化的PLSR和PCR模型,結(jié)果如圖9所示。
圖8 MIV-PCA-BPNN (a)和PCA-BPNN模型的 (b)預測值和測定值散點圖Fig.8 Scatter plots of predicted and actual values(a): MIV-PCA-BPNN; (b): PCA-BPNN
圖9 PCR (a)和PLSR (b)模型的預測值和測定值散點圖Fig.9 Scatter plots of predicted and actual values(a): PCR; (b): PLSR
表3 對應不同預測模型的TVB-N含量分析結(jié)果Table 3 Analysis results of TVB-N content for different prediction models
如表3所示,PCR預測模型使用了10個主成分,與表中的其他建模方式相比其RMSEP/RMSEC值最低,模型穩(wěn)健性最強,但由圖9(a)可以看出,其樣本預測值和測定值數(shù)據(jù)點分布散亂,沒有出現(xiàn)明顯匯聚。PCR預測模型的性能指標RC=0.76,RMSEC=3.67 mg/100 g,RMSEP-RMSEC<0,對校正集擬合誤差較大,出現(xiàn)嚴重的欠擬合,模型準確性表現(xiàn)最差,因此不能滿足對TVB-N的定量分析。同為線性預測模型的PLSR模型性能相較于PCR有較大提升。雖然PLSR預測模型使用較少主成分降低了模型的擬合誤差,擬合精度相較于PCR模型也有了較大提升,但其預測精度低于前者,且RMSEP/RMSEC=1.27,略大于要求的1.20,因此模型穩(wěn)健性不足。
從表3還可以看出,在構(gòu)建的PLSR,PCR和BPNN三種基于全譜的預測模型中,PCA-BPNN的RMSEC和RMSEP最小,RC和RP最大,模型準確性最高。因此,在本研究顯示,非線性預測模型比線性預測模型具備更好準確性和穩(wěn)健性。究其原因,光譜信息與待測組分TVB-N含量之間不僅存在線性關系,而且存在非線性關系,本工作所檢測的TVB-N正好表現(xiàn)出較強的非線性效應。
另由表3可知,使用MIV波長優(yōu)選的221個波長變量所建立的MIV-PCA-BPNN預測模型, 使用了13個主成分,與基于全譜的PCA-BPNN預測模型相比,RC從0.96變?yōu)?.98,RP從0.93上升到0.96,并且其RMSEC和RMSEP為最小,分別為1.12 mg/100 g和1.21 mg/100 g,在所有構(gòu)建的預測模型中,準確性和穩(wěn)健性最佳。
以豬肉背最長肌為研究對象,依據(jù)選定的450~900 nm VIS/NIR光譜數(shù)據(jù),構(gòu)建了PLSR,PCR和BPNN三種TVB-N含量預測模型,開展了TVB-N含量的定量分析研究。結(jié)果表明,非線性預測模型BPNN優(yōu)于線性模型PCR和PLSR,其中改進的MIV-PCA-BPNN預測模型性能最佳。MIV-PCA-BPNN性能指標RC和RMSEC分別為0.98和1.21 mg/100 g,RP和RMSEP分別為0.96和1.12 mg/100 g,RMSEP/RMSEC=1.08,相比全譜BPNN預測模型,其準確性和穩(wěn)健性有較大提升。經(jīng)MIV數(shù)值分析,獲得了與TVB-N吸收峰一致的優(yōu)選特征波長,表明MIV方法可有效篩選光譜波長變量。本工作改進了TVB-N預測模型,為利用神經(jīng)網(wǎng)絡剔除無關波長變量提供了新思路。