盛曉慧,李宗朋,李子文,朱婷婷,王健*,尹建軍,宋全厚
1(中國食品發(fā)酵工業(yè)研究院有限公司,北京,100015)2(北京順鑫農(nóng)業(yè)股份有限公司牛欄山酒廠,北京,103101)
果味啤是一種混合啤酒飲料,因?yàn)榧婢咂【频臓I養(yǎng)物質(zhì),較低的苦味和酒精度以及果汁的甜香,近幾年逐漸流行起來,深受廣大青少年以及女性消費(fèi)者的喜愛[1-3]。添加果汁來進(jìn)行菠蘿啤的發(fā)酵,既能完整地保留果汁的香味又使得風(fēng)味物質(zhì)比例均衡,使菠蘿啤具有更加獨(dú)特的口味[4-6]。近幾年,一些黑心生產(chǎn)廠家為了追求高額利潤采用人工合成香精代替原果汁,導(dǎo)致營養(yǎng)價(jià)值極大降低,因此需要重視對其果汁含量的測定。目前我國對于果味啤中的果汁含量的測定還沒有相應(yīng)的國家標(biāo)準(zhǔn)[7],一般采用推算法測定其果汁含量,雖然這種方法檢測結(jié)果較準(zhǔn)確,但存在檢測時(shí)間長、方法復(fù)雜,同時(shí)化學(xué)試劑消耗多、對環(huán)境污染嚴(yán)重的缺點(diǎn)。因此不適用于快速驗(yàn)證大批量樣品中的果汁含量是否符合標(biāo)識[8-9]。因此研究果味啤中果汁含量的快速檢驗(yàn)方法具有深遠(yuǎn)意義。
近紅外光譜(near-infrared spectroscopy, NIR)分析技術(shù)作為一種無損檢測方法,具有操作簡單、分析效率高等優(yōu)點(diǎn),由于和化學(xué)計(jì)量學(xué)結(jié)合得以廣泛使用,目前已經(jīng)被應(yīng)用于食品、藥品和釀造等行業(yè)中[10-17]。張嚴(yán)等[18]研究了近紅外結(jié)合化學(xué)計(jì)量學(xué)方法在油脂快速檢測中的應(yīng)用,并分析比較了模型的預(yù)測效果。樊雙喜等[19]采用近紅外光譜技術(shù)對黃酒進(jìn)行了無損測定,利用偏最小二乘法分別建立黃酒中的酒精度、總糖等含量的校正模型,模型的準(zhǔn)確性較高。然而,目前尚未有采用近紅外光譜分析技術(shù)對果啤中的果汁含量快速檢測的研究。而且大部分的研究采用的均是在全光譜范圍內(nèi)建立偏最小二乘模型,但是由于全光譜中難免包含過多的噪聲和無用信息,會對建模的精確度和穩(wěn)定性造成較大的影響,因此對于有效波長的提取在建模過程中顯得尤其重要[14]。
本文以菠蘿啤為研究對象,采用NIR分析技術(shù)對菠蘿啤進(jìn)行快速檢測,并采用特征波長選擇方法來提高模型性能,同時(shí)探討向后間隔偏最小二乘(backward interval partial least squares, Bi-PLS)、組合間隔偏最小二乘(synergy interval partial least squares, Si-PLS)、遺傳算法(genetic algorithm, GA)優(yōu)化的偏最小二乘(partial least squares, PLS)回歸模型對其果汁含量的預(yù)測效果,從而為檢測菠蘿啤中果汁含量提供一種新方法。
從超市采購的某品牌5個(gè)不同批次的菠蘿啤(乙醇體積分?jǐn)?shù)0.6%~2.5%、果汁含量0.8%~3.2%)。
NIRMaster傅立葉變換(FT)近紅外光譜儀,Buchi(中國)有限公司;光譜光源為鹵鎢燈,檢測器為溫控InGaAs。光譜為4 000~10 000 cm-1,分辨率為8 cm-1。
依據(jù)GB/T 16771—1997測定果汁含量。
以透射方式采集菠蘿啤樣品在近紅外光譜區(qū)域4 000~10 000 cm-1的光譜信息,共計(jì)1 501個(gè)波長點(diǎn)。
本實(shí)驗(yàn)從全部樣品中隨機(jī)選擇出35個(gè)樣品作為獨(dú)立測試集,用來檢測最終建立的模型效果。采用Kennard-Stone (K-S)方法將剩余的110個(gè)菠蘿啤樣品的光譜進(jìn)行主成分分析(PCA)之后,選用主成分得分為特征變量選擇樣品[20]按照2∶1的比例對剩下的110個(gè)樣品進(jìn)行校正集和驗(yàn)證集的劃分,其中校正集包含76個(gè)樣品,驗(yàn)證集包含34個(gè)樣品。
對采集的光譜數(shù)據(jù)進(jìn)行預(yù)處理以后建立PLS模型,以交叉驗(yàn)證的均方根誤差(RMSECV)為目標(biāo)確定最佳的預(yù)處理方法,采用的預(yù)處理方法包括一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、標(biāo)準(zhǔn)歸一化(SNV)、多元散射校正(MSC)。
采用全光譜建模難免會包含一些與待測組分無關(guān)的光譜波段,會增加模型計(jì)算的復(fù)雜度和光譜噪音,波長選擇一方面可以簡化模型,同時(shí)能剔除掉不相關(guān)的光譜變量,從而達(dá)到增加校正模型預(yù)測能力和穩(wěn)定性的目的,擬采用向后間隔偏最小二乘、組合間隔偏最小二乘、遺傳算法3種波長選擇算法。
110個(gè)菠蘿啤的光譜如圖1所示,從圖中可以看出,NIR在4 000、4 458、5 164、6 895 cm-1附近存在較強(qiáng)的吸收,同時(shí)5 600和5 915 cm-1附近存在2個(gè)較弱的吸收峰。其中4 000、4 458 cm-1附近的吸收峰主要是由C-H鍵和O-H鍵的伸縮振動所產(chǎn)生的;5 164、6 895 cm-1處的吸收峰主要是由水分和乙醇中的O-H鍵伸縮振動的一級倍頻吸收產(chǎn)生的,因此這2個(gè)吸收峰與待測組分無關(guān)。5 600和5 915 cm-1處的吸收峰主要來源于CH3中的一級倍頻和糖類中的C-H鍵的組合頻和O-H鍵的伸縮振動。不同菠蘿啤樣品的光譜沒有明顯差異,趨勢一致,整個(gè)4 000~10 000 cm-1區(qū)域內(nèi)光譜的吸光度之間差異較小,但是又不完全重合,這說明樣本整體保持一致,而不同樣本之間又存在差異。
圖1 110個(gè)菠蘿啤的原始近紅外光譜Fig.1 Original near-infrared spectrum of 110 pineapple beer
由于沒有異常樣品,因此無須剔除樣品。樣本集的劃分結(jié)果如表1所示,其中校正集和驗(yàn)證集分布均勻,體現(xiàn)K-S方法選取樣品的隨機(jī)性和代表性。校正集樣品完全囊括了驗(yàn)證集,且校正集的偏差與驗(yàn)證集的偏差相差較小,所以符合近紅外光譜檢測的要求。
表1 校正集與驗(yàn)證集統(tǒng)計(jì)結(jié)果Table 1 Calibration set and validation set statistics
圖2是經(jīng)過一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、標(biāo)準(zhǔn)歸一化(SNV)、多元散射校正(MSC)這4種預(yù)處理方法處理以后的光譜圖。
a-一階導(dǎo)數(shù)光譜圖;b-二階導(dǎo)數(shù)光譜圖;c-SNV光譜圖;d-MSC光譜圖圖2 各種預(yù)處理光譜圖Fig.2 Pretreatment spectra.
將原始光譜進(jìn)行一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、SNV、MSC這4種預(yù)處理以后建立PLS模型,模型的效果如表2所示。
表2 不同預(yù)處理方法后建立的PLS模型效果Table 2 Effect of PLS model established after differentpretreatment methods
注:PC代表主成分(下同)
2.4.1 Si-PLS的特征波長提取
對原始光譜進(jìn)行SNV預(yù)處理之后所建的PLS模型預(yù)測效果要比其他預(yù)處理更好,因此最終選擇SNV作為預(yù)處理方法。Si-PLS是利用不同的頻譜區(qū)間的組合參與建立PLS回歸模型[22-23]。在原始光譜4 000~10 000 cm-1共采集到1 501個(gè)光譜波點(diǎn),因?yàn)殚g隔數(shù)量過多過少均會影響到模型效果[24],所以擬將原始光譜分割為20、25、30、35個(gè)區(qū)間,分別在組合區(qū)間上建模,模型和波長篩選效果如表3所示。
表3 Si-PLS的波段篩選結(jié)果Table 3 Si-PLS band screening results
由表3可知現(xiàn),當(dāng)全光譜被分割為25個(gè)間隔時(shí),模型的RMSECV為0.15,篩選出的區(qū)間組合為[3,4,17],對應(yīng)的波段為(4 484~4 960、5 600~6 051、7 844~8 080) cm-1。
2.4.2 Bi-PLS的特征波長提取
和Si-PLS類似[25],將原始光譜分割為20、25、30、35個(gè)間隔,采用Bi-PLS對應(yīng)不同區(qū)間數(shù)進(jìn)行PLS回歸,效果如表4所示。
選擇最小RMSECV對應(yīng)的30個(gè)區(qū)間來分割全光譜,獲得的Bi-PLS模型效果最好,RMSECV達(dá)到0.19%,優(yōu)選的最佳的波長區(qū)間為[3-5,7,11-13,16,21],對應(yīng)的波段為(4 404~5 000, 5 204~5 400, 6 004~6 100, 7 004~7 200, 8 004~8 200) cm-1。
表4 Bi-PLS的波段篩選結(jié)果Table 4 Band screening results for Bi-PLS
2.4.3 GA的特征波長提取
GA的參數(shù)設(shè)置為初始種群數(shù)50,迭代次數(shù)為100、交叉率0.6和變異率分別為0.08,傳代結(jié)束后,頻次較多的波點(diǎn)會作為輸入變量用來建立PLS模型,以RMSECV值大小確定最優(yōu)特征波長。由于遺傳算法初始群體是隨機(jī)挑選的,每次篩選的結(jié)果都會有差異[26-28, 29-31],因此為了降低這種情況對結(jié)果的影響,進(jìn)行4次計(jì)算,選擇模型效果最好的變量作為最優(yōu)變量。4次計(jì)算結(jié)果如表5所示,選取83個(gè)變量時(shí),RMSECV最小為0.19。圖3顯示的是第2次計(jì)算時(shí)各個(gè)波點(diǎn)被選用的頻率次數(shù),頻次最多的區(qū)域主要在4 328~9 964 cm-1,其中4 600 cm-1被選用的頻次最高。這說明此波段的變量與菠蘿啤中果汁信息之間存在較高的相關(guān)性。
表5 4次GA計(jì)算和選擇的變量Table 5 Four times GA calculation and selected variables
圖3 各個(gè)波長被選用頻次圖Fig.3 Frequency spectrca is selected for each wavelength
圖4顯示的分別是GA、Si-PLS、Bi-PLS三種方法提取出的特征波長,3種方法篩選得到的特征波段都有重疊的區(qū)域,并且6 160、8 080 cm-1左右的波長點(diǎn)均被篩選出來,這說明了這些波長變量都與菠蘿啤中果汁含量的特征信息之間存在相關(guān)性。
A-GA;B-Si-PLS;C-BiPLS圖4 不同方法挑選的波長變量分布Fig.4 Wavelength variable distribution selected by different methods
表6 不同算法特征波長的提取Table 6 Extraction of characteristic wavelengths of different algorithms
GA篩選的波長變量雖然遠(yuǎn)遠(yuǎn)少于其他2種算法,但是校正集和預(yù)測集的精度低于Si-PLS算法的結(jié)果,說明篩選波長能夠去除一些無用和多余的信息、極大減少建模的復(fù)雜程度,但同時(shí)也有可能消除一部分有效的信息使得預(yù)測精度降低,所以并不是波長變量越少越好。
圖5是Si-PLS提取特征變量在9個(gè)因子時(shí)的回歸系數(shù)圖,由圖5可見,在4 484、4 840、6 044、7 924 cm-1處的回歸系數(shù)更高,說明這些變量處的光譜信號與菠蘿啤果汁含量的線性相關(guān)性更好,同時(shí)證明Si-PLS篩選出的兩個(gè)波長區(qū)間:4 484~4 960、5 600~6 051、7 844~8 080 cm-1,與Si-PLS篩選的特征波段基本相符。再一次驗(yàn)證了Si-PLS算法提取菠蘿啤果汁特征波長的準(zhǔn)確性好。
將剩余的35個(gè)獨(dú)立測試集樣品導(dǎo)入Si-PLS模型之中,對模型的預(yù)測性能進(jìn)行檢驗(yàn)。結(jié)果如圖6所示,菠蘿啤中果汁含量的實(shí)測值與預(yù)測值線性相關(guān)較好,其中R2為0.85,RMSEP為0.19,RPD為3.08,說明Si-PLS模型的預(yù)測效果優(yōu)良。為了進(jìn)一步驗(yàn)證方法的準(zhǔn)確性,通過成對t檢驗(yàn),在置信水平為95%時(shí),P值為0.971 4高于a(0.05),表明預(yù)測值與測量值之間沒有顯著差異。
圖5 Si-PLS篩選波數(shù)的回歸系數(shù)圖Fig.5 Regression coefficient graph of Si-PLS screening characteristic variables
圖6 測試集樣品的線性回歸Fig.6 Linear regression of test set samples