匡靜云, 管 驍*, 劉 靜
(1.上海理工大學(xué)醫(yī)療器械與食品學(xué)院,上海 200093;2.上海海事大學(xué)信息工程學(xué)院,上海 200135)
隨著生活水平不斷提高,人們對(duì)乳制品的需求量日益增加。而隨著我國(guó)乳業(yè)的迅速發(fā)展,乳制品的質(zhì)量及安全也越來越受到重視。原料乳作為乳制品的基本原料,對(duì)乳制品的質(zhì)量有重要影響。因此,原料乳的質(zhì)量檢測(cè)是控制乳制品質(zhì)量中最為重要的環(huán)節(jié)。蛋白質(zhì)與脂肪是牛奶中最主要的營(yíng)養(yǎng)成分,根據(jù)最新的國(guó)家標(biāo)準(zhǔn),鮮奶中蛋白質(zhì)與脂肪含量應(yīng)分別高于2.9%和3.1%[1,2]。
近紅外光譜(NIRS)是近年來迅速發(fā)展起來的一項(xiàng)快速無損檢測(cè)技術(shù),該技術(shù)所含信息極其豐富,但由于有機(jī)物分子在近紅外區(qū)的倍頻與合頻的吸收較弱、譜帶復(fù)雜、重疊嚴(yán)重,因此準(zhǔn)確提取有效的光譜信息存在一定難度。隨著現(xiàn)代化學(xué)計(jì)量學(xué)方法的發(fā)展,為較好解決上述問題帶來轉(zhuǎn)機(jī)[3]?;瘜W(xué)計(jì)量學(xué)方法可提取復(fù)雜且譜峰重疊的光譜信息,結(jié)合適當(dāng)?shù)墓庾V預(yù)處理及建模方法,可以有效除去噪聲,解決光譜共線問題,得到準(zhǔn)確可信的預(yù)測(cè)模型[4]。已有研究對(duì)原料乳中某單項(xiàng)指標(biāo)建立了近紅外光譜模型,并得到較高的準(zhǔn)確度,但由于原料乳受產(chǎn)地、環(huán)境以及人為操作等因素影響,其組成成分存在差異。目前,很少有研究對(duì)原料乳中不同成分指標(biāo)同時(shí)建立預(yù)測(cè)模型,這是近紅外光譜技術(shù)在實(shí)際運(yùn)用中的主要障礙之一[5 - 7]。
在近紅外光譜分析中,合理地運(yùn)用化學(xué)計(jì)量學(xué)手段可以有效提高模型質(zhì)量。目前運(yùn)用最多的方法是偏最小二乘法(Partial Least Squares,PLS)以及神經(jīng)網(wǎng)絡(luò)算法(Neural Networks)[8]。本文通過對(duì)采集的大量含有不同濃度蛋白質(zhì)與脂肪的原料乳近紅外漫反射光譜進(jìn)行馬氏距離(Mahalanobis Distance)剔除異常光譜,并結(jié)合主成分分析(Principal Component Analysis,PCA)提取得到有效特征變量,進(jìn)一步利用反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neutral Network,BPNN)對(duì)蛋白質(zhì)與脂肪的含量同時(shí)建模,結(jié)果表明該方法可以快速有效地預(yù)測(cè)不同原料乳樣品中的多種成分含量。
MPA型傅里葉變換漫反射近紅外光譜儀(德國(guó),BRUKER公司);RH-SC-10精密恒溫水槽(南京潤(rùn)鴻實(shí)驗(yàn)設(shè)備有限公司);XHF-D高速分散器(寧波新芝生物科技股份有限公司)。
本實(shí)驗(yàn)獲得的原料乳共50份,分別來自上海、江蘇等地的5個(gè)牧場(chǎng),各樣本的蛋白質(zhì)、脂肪含量測(cè)定均在本實(shí)驗(yàn)室分別通過凱氏定氮法與蓋勃法測(cè)定。為獲取蛋白質(zhì)與脂肪含量變化范圍更廣的樣本,通過對(duì)不同批次原料乳中摻入不同含量的去離子水,共獲得250組含有不同含量的蛋白與脂肪的原料乳樣本,其蛋白與脂肪的含量分別在0.525%~3.58%和0.688%~3.95%范圍內(nèi)。
實(shí)驗(yàn)環(huán)境溫度穩(wěn)定在25 ℃,環(huán)境相對(duì)濕度為45%。采集樣本光譜前,將樣本通過高速分散器均質(zhì)60 s。近紅外光譜儀預(yù)熱10 min,設(shè)定分辨率為8 cm-1,掃描次數(shù)為64次,每次實(shí)驗(yàn)均通過內(nèi)部系統(tǒng)校檢,以保證獲得光譜可靠性,完成后用光纖探頭伸入樣本中下部,每組樣本采集光譜10次,取10次光譜作為原始光譜數(shù)據(jù)。原始光譜譜區(qū)范圍4 000~12 501 cm-1,共有2 203個(gè)數(shù)據(jù)點(diǎn)。數(shù)據(jù)采集軟件為OPUS 6.5,數(shù)據(jù)處理分析軟件為Matlab R2009b和SPSS17.0。
圖1 代表性原料乳近紅外光譜圖Fig.1 Near infrared spectrum of representative raw milk samples
部分原料乳的代表性近紅外光譜圖如圖1所示。由圖可知,原料乳在4 000~5 500 cm-1、6 000~7 600 cm-1、7 800~8 800 cm-1、9 200~10 500 cm-1等波數(shù)區(qū)間均有較強(qiáng)的特征吸收。
為防止各樣本的光譜采集存在偶然誤差,對(duì)每個(gè)樣本均進(jìn)行了10次重復(fù)采集光譜,不可避免地出現(xiàn)了異常光譜。本實(shí)驗(yàn)采用馬氏距離剔除異常光譜。它是一種有效計(jì)算兩個(gè)未知樣本集的相似度的方法。光譜的馬氏距離是指樣本光譜與平均光譜樣本集的距離,計(jì)算公式如式(1):
(1)
對(duì)光譜數(shù)據(jù)標(biāo)準(zhǔn)化處理后,每個(gè)樣本的馬氏距離大小由式(2)決定:
(2)
馬氏距離可用來衡量一個(gè)樣本對(duì)于整個(gè)標(biāo)準(zhǔn)樣品集的影響。在近紅外光譜分析中,hii表達(dá)了樣本i對(duì)模型影響的大小,如果hii太大,對(duì)模型穩(wěn)定性不利,說明i樣本可能異常。
本實(shí)驗(yàn)中每組樣本共采集光譜10次,將hii的閾值定為平均值的2倍,將超出范圍的數(shù)據(jù)剔除后,再取每組光譜數(shù)據(jù)的平均值,作為該樣本的最終圖譜。隨后對(duì)得到的光譜進(jìn)行平滑處理,達(dá)到減低噪音對(duì)光譜影響的目的,最后將處理后的光譜作為進(jìn)行下一步分析的最終圖譜[9]。
建立定量分析模型時(shí),光譜信息的主因子數(shù)關(guān)系到模型的穩(wěn)定性,主因子數(shù)太小模型會(huì)出現(xiàn)擬合不充分,主因子數(shù)太多會(huì)出現(xiàn)過擬合的現(xiàn)象[10]。因此本實(shí)驗(yàn)對(duì)不同光譜區(qū)間分別進(jìn)行主成分分析,以主成分?jǐn)?shù)與主成分累積比例為指標(biāo)選擇最佳主成分。假若某光譜區(qū)間主成分信息難以提取,則說明該區(qū)間不適合分析,由此逐步縮小光譜區(qū)間范圍,篩選出最具代表性的主成分值,確定最佳預(yù)測(cè)光譜區(qū)間。最終本實(shí)驗(yàn)共確定出7個(gè)主成分因子,來自4個(gè)區(qū)間。如表1所示,其中在12 501~10 511 cm-1范圍內(nèi),有多個(gè)蛋白與脂肪的吸收峰與反射峰,因此主成分提取率較高,而在6 600~7 000 cm-1范圍內(nèi)水的吸收峰影響嚴(yán)重,提取主成分相對(duì)困難[11]。
表1 主成分分析結(jié)果
人工神經(jīng)網(wǎng)絡(luò)有多種模型,其中誤差反向傳播模型目前應(yīng)用最為廣泛。該網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、隱含層和輸出層,每層由若干個(gè)神經(jīng)元(又稱節(jié)點(diǎn))組成,每個(gè)神經(jīng)元均包含一定信息量,各層次神經(jīng)元之間由連接權(quán)重實(shí)現(xiàn)相互聯(lián)接,但層次內(nèi)神經(jīng)元之間無連接,神經(jīng)元的信息經(jīng)輸入輸出轉(zhuǎn)換函數(shù)實(shí)現(xiàn)信息輸出[12]。本實(shí)驗(yàn)首先將250組樣本隨機(jī)劃分為訓(xùn)練集以及測(cè)試集,其中訓(xùn)練集225組,測(cè)試集25組,隨后分別采用不同的隱含層數(shù)、隱含層節(jié)點(diǎn)個(gè)數(shù)、中間函數(shù)以及建立模型,并采用檢驗(yàn)集樣品來對(duì)模型的預(yù)測(cè)效果進(jìn)行評(píng)定,評(píng)價(jià)參數(shù)選用預(yù)測(cè)相關(guān)系數(shù)R2、預(yù)測(cè)均方根差(RMSEP)。結(jié)果如表2所示。由表2中數(shù)據(jù)不難發(fā)現(xiàn),在節(jié)點(diǎn)個(gè)數(shù)相同,傳遞函數(shù)固定的情況下,預(yù)測(cè)準(zhǔn)確度與迭代次數(shù)成正比,而節(jié)點(diǎn)個(gè)數(shù)和中間函數(shù)與預(yù)測(cè)結(jié)果并無明顯規(guī)律。由表2發(fā)現(xiàn),當(dāng)節(jié)點(diǎn)個(gè)數(shù)為8,傳遞函數(shù)為trainrp,迭代參數(shù)700次時(shí),模型預(yù)測(cè)的準(zhǔn)確度最高,其中對(duì)蛋白質(zhì)與脂肪的預(yù)測(cè)模型R2分別為0.9883、0.9878,預(yù)測(cè)均方根差(RMSEP)為1.83%、1.85%。這表明此時(shí)預(yù)測(cè)值與化學(xué)測(cè)定值之間相關(guān)性最大,說明了該模型同時(shí)對(duì)蛋白與脂肪的預(yù)測(cè)能力非常優(yōu)秀。
表2 BP模型對(duì)蛋白質(zhì)與脂肪預(yù)測(cè)結(jié)果
本文利用近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)方法對(duì)原料乳中蛋白質(zhì)與脂肪進(jìn)行定量分析,經(jīng)過光譜異常值剔除、平滑預(yù)處理以及選擇最有效的光譜區(qū)間和最適合的主成分因子數(shù),通過反向傳播神經(jīng)網(wǎng)絡(luò)建立模型,所得模型對(duì)蛋白質(zhì)與脂肪預(yù)測(cè)相關(guān)系數(shù)R2分別為0.9883、0.9878,預(yù)測(cè)均方根差(RMSEP)為1.83%、1.85%,表明該方法可以對(duì)原料乳中蛋白質(zhì)與脂肪含量進(jìn)行準(zhǔn)確的預(yù)測(cè)。下一步工作將圍繞獲取更多樣本光譜作為建模數(shù)據(jù),以進(jìn)一步提高模型的預(yù)測(cè)能力以及穩(wěn)定性,使該方法可實(shí)際運(yùn)用于對(duì)原料乳的質(zhì)量在線檢測(cè)。