李宜聰,樊雙喜,吉鑫,李春揚,辛鵬,諶松強,張澤輝,劉鳳暉,鐘其頂*
1(中國食品發(fā)酵工業(yè)研究院有限公司,北京,100015)2(全國食品發(fā)酵標準化中心,北京,100015) 3(酒鬼酒股份有限公司,湖南 吉首,416000)
馥郁香型白酒秉承了湘西傳統(tǒng)小曲酒的生產基礎,將中國傳統(tǒng)大曲酒生產工藝精髓與小曲酒生產工藝巧妙融合,香氣優(yōu)雅,諸香馥郁[1],具有“前濃、中清、后醬”的香味[2]。年份酒一直以來是我國白酒市場的暢銷產品,深得消費者喜歡,但檢測技術體系尚不健全。因此,通過科學技術手段鑒定年份酒產品標注的真實性,建立白酒年份酒真實性檢測體系,成為規(guī)范行業(yè)和市場的迫切要求。
目前,國內在白酒年份鑒別技術方面研究很多。例如,徐占成通過頂空與氣相色譜聯(lián)用技術測定出年份酒中微量香味成分的揮發(fā)系數(shù),并根據(jù)揮發(fā)系數(shù)與貯存時間之間的關系繪制出標準曲線,研究發(fā)現(xiàn)年份酒的貯存時間越長,其揮發(fā)系數(shù)越來越小[3]。莊名[4]利用原子吸收光譜儀測定酒體中的金屬元素含量來鑒定年份酒的貯存年份,研究發(fā)現(xiàn)酒體中對酒質產生影響的金屬元素隨著貯存時間的增長,其含量增加,且成正相關。楊濤等[5]采用紫外光譜法測定年份酒中共軛體系化合物含量,并發(fā)現(xiàn)白酒的紫外吸收度隨貯存時間加長而增強。王國祥[6]采用Raman光譜技術對古井貢系列年份酒進行鑒別分析,建立基于支持向量機回歸的白酒年份與年份指數(shù)對應關系,實現(xiàn)了白酒年份識別及預測。徐瑞煜[7]采用熒光光譜技術測得濃香型白酒樣品的三維熒光光譜,結合非負矩陣分解-支持向量機算法,可以實現(xiàn)濃香型白酒年份的分類預測。李彪[8]通過近紅外光譜技術檢測白云邊年份酒樣品(兼香型),可以建立稀疏主成分-支持向量機白云邊年份酒酒齡分類鑒別模型,模型正確率為96%。
目前,已開發(fā)的關于白酒的年份真實性鑒定技術研究,主要集中在探索濃香型、清香型等典型香型白酒基酒的年份預測方面,對馥郁香型白酒尤其是瓶貯年份(瓶貯年份指的是白酒在原包裝瓶中實際貯存的年數(shù))預測、瓶貯年份與其香氣成分之間關系的研究未見報道,同時也未見報道研究明確馥郁香型瓶貯年份白酒特征標記物。
常規(guī)的多元線性回歸模型不能有效解決變量間的多重共線性問題。偏最小二乘回歸(partial least squares regression, PLSR)集成了主成分分析、典型相關分析、線性回歸分析的優(yōu)點[9],可以清晰、靈活地闡述自變量與因變量之間的關系,有效避免了自由度過小造成的影響,解決了樣本量少、自由度低、變量間相關性強等問題,可以充分提取樣本有效信息[10]。留一交叉驗證法(leave one out cross validation, LOOCV)是將N個樣本單獨作為驗證集,其余的N-1個樣本作為訓練集進行驗證[11]。由于LOOCV的訓練集最接近原始樣本的分布,用該方法建立的模型可信度高、不容易受隨機因素的影響,在處理小樣本數(shù)據(jù)上有較大優(yōu)勢。本研究以馥郁香型白酒為研究對象,采用氣相色譜直接進樣內標測定馥郁香型白酒樣品中48 種主要風味組分的含量,建立PLSR模型,預測馥郁香型白酒的甁貯年份,用LOOCV驗證PLSR模型,篩選瓶貯年份特征標記物,解決當下瓶貯年份白酒產業(yè)高質量健康發(fā)展缺乏有效市場監(jiān)管的技術難題。
37個馥郁香型白酒樣本,包括8個52%vol內參酒樣本、7個42%vol酒鬼酒樣本、7個52%vol酒鬼酒樣本、6個42%vol湘泉酒樣本、9個54%vol湘泉酒樣本。
GC-2010氣相色譜儀,配備FID檢測器,日本Shimadzu公司;色譜柱:CP-Wax 57 CB Acidic石英毛細管柱(50 m×0.25 mm×0.2 μm),美國安捷倫J&W公司。
1.2.1 白酒風味特征組分含量測定
采用氣相色譜直接進樣內標[12]測定馥郁香型白酒樣品中主要風味組分的含量。
1.2.2 數(shù)據(jù)預處理
建模前對數(shù)據(jù)進行標準化處理(中心化和無量綱化),具體處理如公式(1)、公式(2)所示:
(1)
(2)
1.2.3 偏最小二乘回歸法
將通過氣相色譜直接進樣內標測定馥郁香型白酒樣品中48 種主要風味組分的含量(mg/L)(已進行數(shù)據(jù)預處理)作為自變量X矩陣,將相應馥郁香型白酒樣品瓶貯年份/年作為因變量Y矩陣。對自變量X矩陣和因變量Y矩陣進行矩陣分解,如公式(3)、公式(4)所示:
X=TP+E
(3)
Y=UQ+F
(4)
式中:T、X矩陣的得分矩陣;P,相應的載荷矩陣;E、殘差矩陣;U、Y矩陣的得分矩陣;Q,相應的載荷矩陣;F,殘差矩陣。T與U滿足關系如公式(5)所示:
U=TB+G
(5)
式中:B為回歸系數(shù)矩陣,G為誤差矩陣。
結合公式(3)、公式(4)可得公式(6)、公式(7):
Y=TBQ
(6)
Y=XBQP-1
(7)
1.2.4 偏最小二乘回歸模型評價
采用LOOCV驗證PLSR模型。模型預測的質量通常需要通過建立預測值與實際值之間的關系進行評價,常用的模型評價參數(shù)為相關系數(shù)(R2)、預測標準偏差(root mean square error of prediction,RMSEP)、校正標準偏差(root mean square error of calibration, RMSEC)和相對分析誤差(residual predictive deviation, RPD)[14],相關計算如公式(8)~公式(11)所示:
(8)
(9)
(10)
(11)
1.2.5 回歸系數(shù)顯著性檢驗原理
偏最小二乘法不同于一般最小二乘法,其回歸系數(shù)方差無法得到準確的無偏估計,本實驗采用jack-knife方法進行方差估計[15],如公式(12)所示:
(12)
直接進樣氣相色譜內標法測定37 個馥郁香型白酒樣品的風味特征指紋圖譜,共定量出易揮發(fā)風味組分48 種,其中包括酯類物質13種、醇類物質15 種、有機酸9 種、羰基化合物(醛、酮)8 種、縮醛類化合物3 種,其描述性統(tǒng)計結果如表1所示。由表1中48 種馥郁香型白酒風味組分含量的均值、中位數(shù)、標準差、偏度系數(shù)等描述性統(tǒng)計量可知,馥郁香型白酒中風味組分含量不同且差別較大,存在量綱的影響,因此,在建模之前需要對數(shù)據(jù)進行標準化和中心化預處理,消除量綱對所建模型的不良影響。
表1 風味組分含量描述性統(tǒng)計 單位:mg/L
采用Pearson相關系數(shù)法[16]計算48 種風味組分的相關系數(shù)。其中,乙醛、甲酸乙酯、乙縮醛等24種風味組分相關性極強,其相關系數(shù)R表現(xiàn)為0.90 (13) 式中:Ri,第i個變量Xi與其余變量Xj(i=1,2,…,k;i≠j)的復相關系數(shù)。 24種馥郁香型白酒風味組分的VIF值如表2所示。一般情況下,當VIF>10時,認為模型中自變量存在較強的共線性問題。由表2可知,17 種馥郁香型白酒風味組分VIF均大于10,其余7 種風味組分的VIF值在2.47~9.73,最大值為49.52(丁酸乙酯),說明24 種風味組分的共線性問題仍較嚴重。這可能是由于白酒在長期發(fā)酵、蒸餾、勾調過程中,同一前體物質接連發(fā)生一系列化學反應,生成眾多風味成分,這些風味成分間存在嚴重的共線性問題。例如乙醇氧化生成乙醛、乙醛縮合生成乙縮醛等物質[17]。多元線性回歸模型中,若變量共線性問題嚴重,會破壞模型的穩(wěn)定性,增大誤差,不適宜直接建立回歸模型。 表2 24種風味組分多重共線性診斷結果Table 2 Diagnosis results of multicollinearity of 24 flavor components 逐步回歸是避免多重共線性的一種有效方法,它將向前選擇和向后選擇的2種變量選擇方法結合起來篩選自變量。對上述24 種馥郁香型白酒風味組分進行逐步回歸,最終選擇出10 種風味組分,并建立馥郁香型白酒甁貯年份多元線性回歸模型。 篩選出的10種風味組分VIF值在1.62~9.56,如表3所示。 表3 10種風味組分多重共線性診斷結果Table 3 Diagnosis results of multicollinearity of 10 flavor components 建立的馥郁香型白酒甁貯年份多元線性回歸表達式為Y=-1.744 2+0.377 8X1+0.004 6X2-0.007 6X3-0.002 5X4-0.153 5X5+0.047X6+0.509 1X7-0.339 3X8+0.002 4X9+0.744 2X10;Y表示馥郁香型白酒瓶貯年份,年;X1,……,X10表示氣相色譜測得的各風味組分含量(具體組分名稱參考表3),mg/L。 (14) 式中:R2,多元線性回歸的多重決定系數(shù);n,樣本量;k,變量個數(shù)。 2.3.1 模型參數(shù)的選擇 主成分數(shù)的選擇是PLSR建模的關鍵,選取成分個數(shù)過多,會將冗余信息帶入模型,導致過擬合,預測準確性降低;選取成分個數(shù)過少,不能充分反映樣品的變量信息,導致欠擬合,預測準確性降低[18]。 本實驗根據(jù)各成分建模時的累計貢獻率和RMSEP綜合選取參與建模的主成分數(shù)。選取1到累計貢獻率為100%的35個主成分分別進行PLSR建模,觀察不同主成分數(shù)參與建模的RMSEP值變化趨勢(圖1、圖2),各個主成分對變量的貢獻率變化趨勢(圖3),不同主成分數(shù)對變量的貢獻率變化趨勢(圖4)。 圖1 不同主成分數(shù)參與建模的RMSEP值Fig.1 RMSEP values in models with different principal component numbers 圖2 不同主成分數(shù)參與建模的RMSEP值(局部放大圖)Fig.2 RMSEP values in models with different principal component numbers (partial enlarged) 圖3 各個主成分對變量的貢獻率Fig.3 The contribution of each principal component to the variable 綜合圖1、圖2可知,當參與建模主成分數(shù)增加至3時,RMSEP值下降至0.844 3,繼而在其周圍上下波動,待主成分數(shù)為9時,RMSEP值達到最低0.830 5,隨后,RMSEP值隨主成分數(shù)增加而迅速增大。由圖3可知,第一主成分、第二主成分、第三主成分對變量(自變量和因變量)的貢獻率較大,貢獻率均超過10%。然而,觀察圖4不難發(fā)現(xiàn),前3個主成分對變量的累計貢獻率較低(對自變量的累計貢獻率為71.95%,對因變量的累計貢獻率為55.07%),均小于75%。 圖4 不同主成分數(shù)對變量的貢獻率Fig.4 The contribution of different principal components to the variable 綜合考慮,選擇RMSEP相對較小且對變量(自變量和因變量)累計貢獻率大于85%的主成分數(shù)建立PLSR模型。當提取9個主成分建立PLSR模型時,RMSEP值取得最小值0.830 5,對自變量的累計貢獻率為89.17%,對因變量的累計貢獻率為95.34%,樣本信息得到了充分的提取。因此,綜合RMSEP值與主成分對變量的累計貢獻率,選取前9個主成分建立PLSR模型。 2.3.2 模型建立與評價 綜上,本研究從馥郁香型白酒樣品中48種風味組分含量數(shù)據(jù)中抽提出9個主成分參與建立PLSR模型,得出馥郁香型白酒瓶貯年份與風味組分含量的回歸方程,進行馥郁香型白酒瓶貯年份的預測?;貧w方程為Y=-0.475 4X1+0.048 4X2+0.290 7X3+……+0.279 1X46+0.229 1X47+0.312 3X48;Y表示馥郁香型白酒瓶貯年份,年;X1,……,X48表示氣相色譜測得的各風味組分含量,mg/L。 以馥郁香型白酒瓶貯年份實際值為橫坐標,馥郁香型白酒瓶貯年份PLSR模型預測值為縱坐標,做馥郁香型白酒瓶貯年份預測圖。如圖5所示,瓶貯年份實際值與PLSR模型預測值數(shù)據(jù)點總體呈對角線分布,同時通過成對T檢驗,瓶貯年份預測值與實際值間無明顯差異(P>0.95)。 圖5 馥郁香型白酒瓶貯年份預測圖Fig.5 Prediction graph of storage year of bottle storage year of fragrant Baijiu 采用馥郁香型白酒瓶貯年份預測值與實際值間相關系數(shù)R2、RPD和RMSEC值作為評價PLSR模型擬合效果的重要指標。R2越接近1,表明PLSR模型預測值與實際值間的誤差越小[19]。若RMSEC<1,RMSEP <1,RPD > 3,表明模型預測精度較高[20]。 本實驗所建PLSR模型的R2為0.953 4,RMSEC值為0.215 9,RMSEP值為0.838 4,RPD值為4.631 3,表明馥郁香型白酒瓶貯年份實際值與預測值間線性關系良好,該模型擬合性較好,預測精度較高。 馥郁香型白酒瓶貯年份預測模型的回歸系數(shù)如圖6、圖7所示。23個風味組分的含量與馥郁香型白酒瓶貯年份呈正相關,25個風味組分的含量與馥郁香型白酒瓶貯年份呈負相關。采用jack-knife方法[12]對各風味物質的回歸系數(shù)進行顯著性 檢驗,結果發(fā)現(xiàn),己酸乙酯(P<0.001)、乙醛(P<0.01)、辛酸乙酯(P<0.05)、正丁醇(P<0.05)在預測馥郁香型白酒瓶貯年份上影響顯著。 圖6 馥郁香型白酒瓶貯年份預測模型回歸系數(shù)圖Fig.6 Regression coefficient graph of prediction model of bottle storage year of fragrant Baijiu 辛酸乙酯對馥郁香酒風味貢獻很大,是馥郁香型白酒特有的風味物質。醇是酯和酸的前驅物質,可增加白酒的甜味,并讓香氣濃郁且持久,部分高級醇還具有特殊的風味。研究表明,正丁醇是馥郁香型白酒區(qū)別于其他香型白酒的主要醇類組分[21]。 程嬌嬌[22]發(fā)現(xiàn),不同年份的賒店酒(濃香型)中,己酸和乙酸的含量隨貯藏年份的增加呈現(xiàn)先降低后平緩的趨勢,己酸乙酯的含量隨貯藏年份的增加而增加。白酒的pH值為4~5,在酸性條件下,己酸和白酒的主體物質乙醇發(fā)生酯化反應,生成己酸乙酯,最終達到動態(tài)平衡。研究發(fā)現(xiàn),馥郁香型白酒中己酸乙酯含量明顯高于醬香型白酒、濃香型白酒和清香型白酒[21]。 圖7 馥郁香型白酒瓶貯年份預測模型回歸系數(shù)圖Fig.7 Regression coefficient graph of prediction model of bottle storage year of fragrant Baijiu 乙醛是白酒中主要呈味物質,濃度低時有水果香,濃度高時會產生辛辣的刺激性氣味[23]。研究發(fā)現(xiàn),老酒中的乙醛和乙縮醛的含量都比新酒多。新酒貯存一段時間后,酒中檢測出的乙醛和乙縮醛含量均顯著升高[24]。白酒的陳釀是一系列的氧化過程,乙醇是白酒中的重要組成成分,在白酒老熟的過程中,乙醇在酸性條件下不斷被氧化為乙醛,乙醛與醇類縮合生產乙縮醛,隨著老熟的推進,白酒中乙醛和乙縮醛的含量不斷增加,上下波動,最終達到穩(wěn)定地動態(tài)平衡[14]。 綜上,通過對馥郁香型白酒瓶貯年份預測模型回歸系數(shù)進行顯著性檢驗,結合白酒自然老熟機制,尋找出4個馥郁香型白酒瓶貯年份預測的特征標記物:己酸乙酯、乙醛、辛酸乙酯、正丁醇。其中,辛酸乙酯、正丁醇預測馥郁香型白酒瓶貯年份的機制尚不清晰,有待后續(xù)深入研究。 本文通過氣相色譜直接進樣內標測定馥郁香型白酒樣品中48 種主要風味組分的含量,建立PLSR模型,預測馥郁香型白酒的甁儲年份,并用LOOCV法驗證PLSR模型。通過累計貢獻率和RMSEP綜合選取出9個主成分參與建立偏最小二乘回歸模型,所建立的模型R2為0.953 4,RMSEC為0.215 9,RMSEP為0.838 4,RPD為4.631 3,回歸擬合效果好,預測精度高。此外,本文還用jack-knife方法對所建模型的回歸系數(shù)顯著性進行檢驗,結合白酒自然老熟機制,尋找出4個對馥郁香型白酒瓶貯年份預測有顯著影響的特征標記物:己酸乙酯、乙醛、辛酸乙酯和正丁醇,為馥郁香型白酒瓶貯年份鑒定提供了新思路,為馥郁香型白酒貯存機理的研究奠定基礎。2.3 PLSR模型的建立
2.4 馥郁香型白酒瓶貯年份特征標記物的篩選
3 結論