劉洋,余天星,李明璽,王敏,黃瑩捷,郭桂義,王子浩,萬春鵬
(1.江西農(nóng)業(yè)大學農(nóng)學院,茶學與茶文化研究中心,江西南昌 330045)(2.河南省豫南茶樹資源綜合開發(fā)重點實驗室,信陽農(nóng)林學院,河南信陽 464000)
信陽毛尖是主產(chǎn)于河南省信陽市的中國名優(yōu)綠茶,屬中國地理標志產(chǎn)品,也是河南省著名的土特產(chǎn)之一,素來以“圓、細、直、緊、多白毫,味濃、香高、色綠”的獨特風格而享譽中外[1]。目前對信陽毛尖的研究較多,主要集中在香氣成分檢測[2],烘焙制茶工藝[3],微量營養(yǎng)成分[4]和茶文化等方面,近紅外光譜無損檢測方面僅見其對信陽毛尖茶中茶多酚含量的測定報道[5]。信陽毛尖茶葉等級、品質(zhì)判別主要是通過茶藝師的感官評審及常規(guī)理化分析,而茶葉的感官評審主要是依靠人的視覺、嗅覺、觸覺和味覺等綜合信息判斷,往往受評審者的經(jīng)驗、心理與生理等多種因素的影響。為了使信陽毛尖茶在生產(chǎn)、流通等過程中有一套一致的、準確的評價方法,需要使用快速無損檢測新技術(shù)、新儀器對其進行輔助檢測。近紅外光是指波長在780~2526 nm范圍內(nèi)的電磁波,其記錄的主要是含氫基團CH、NH、OH等振動的倍頻和合頻吸收帶。近紅外光譜技術(shù)(NIRS)是無損檢測技術(shù)中一類重要的檢測技術(shù),具有無需前處理、快速、無損、多組分同時測定等優(yōu)點。NIRS在許多領(lǐng)域均有應用,尤其是近幾年在食品研究領(lǐng)域應用廣泛,可用于食品微生物檢測[6]、食品新鮮度預測等[7]。目前,利用近紅外光譜分析技術(shù)在茶葉品質(zhì)上的研究主要在定量分析與定性分析,一方面是對茶葉品質(zhì)成分的快速定量分析測定,另一方面是對茶葉等級、品種和產(chǎn)地等進行定性分類判別[8,9]。
Schulz等[10]采用 NIRS技術(shù)結(jié)合偏最小二乘法(PLS)分析了韓國綠茶中茶多酚和生物堿含量,沒食子酸(GA),表兒茶素(EC),表沒食子兒茶素(EGC),表兒茶素沒食子酸酯(ECG),表沒食子酸兒茶素沒食子酸酯(EGCG),咖啡因,可可堿,均獲得了較好的校正模型,相關(guān)系數(shù)R2>0.850,近紅外光譜可用于綠茶中茶多酚和生物堿含量預測。陳全勝[11]等采用凈分析物預處理法(NAP)對提取的近紅外光譜進行預處理、利用偏最小二乘法(PLS)建立了綠茶中三種兒茶素(EGCG、ECG和EGC)含量的定量模型,考察了利用NAP法進行光譜預處理對建模的影響。三種兒茶素單體定量模型校正時的相關(guān)系數(shù)分別達到 0.951,0.967和 0.968,預測時的相關(guān)系數(shù)則達到 0.930,0.940,0.946,模型效果良好,NAP預處理可以有效簡化綠茶中兒茶素含量預測模型。
NIRS技術(shù)在茶葉理化成分模型的簡化與優(yōu)化上的研究也比較多,采用其他光譜預處理方法(相關(guān)分析、正交信號、凈分析和小波消噪等)和特征譜區(qū)選擇方法(遺傳算法、移動窗口PLS、間隔PLS、聯(lián)合區(qū)間PLS等)并結(jié)合線性(PLS、MPLS)、非線性的建模方法(人工神經(jīng)網(wǎng)絡、支持向量機等)建立模型[12~15]。Chen Q[16]將應用最多的三種不同的線性和非線性回歸分析工具,偏最小二乘(PLS)、反向傳播神經(jīng)網(wǎng)絡(BP)和支持向量機(SVM)研究快速和有效地測量綠茶中的抗氧化活性,通過所建模型,根均方預測誤差和相關(guān)系數(shù)的比較,發(fā)現(xiàn)SVM 構(gòu)建的模型最優(yōu)。
NIRS技術(shù)在茶葉理化成分測定應用中的研究也已經(jīng)越來越成熟,涉及的指標有:水分、游離氨基酸、咖啡堿、茶多酚、全氮量、水溶性蛋白質(zhì)、纖維素、主要兒茶素(EGC,EC,EGCG和ECG)、茶多糖、總抗氧化能力(TAC)等十幾種,模型的精確度也較高??梢越⒛P蛠硗瑫r檢測茶葉中的多種有效成分并應用到茶葉生產(chǎn)與流通過程中,實現(xiàn)快速檢測的目的。本文以不同等級的河南省名茶信陽毛尖為研究對象,應用近紅外光譜偏最小二乘法(NIRS-PLS)建立其茶葉等級品質(zhì)的識別模型,為其快速識別提供一種方法。
試驗采用的所有樣品于2017年11月購買河南省信陽市浉河區(qū)茶葉市場,均為2017年浉河區(qū)產(chǎn)的信陽毛尖茶。將每個樣品各20 g經(jīng)粉碎機粉碎處理1 min,過50目篩,取篩下茶樣用于后續(xù)實驗。所有樣品均裝于密封袋中置于冰箱中,0 ℃左右冷藏保存?zhèn)溆?。樣本采集信息如?所示。
表1 實驗用茶樣品的來源信息Table 1 The information of tea samples used in the experiment
所有茶樣的近紅外光譜數(shù)據(jù)均采集于 U-4100紫外/可見/近紅外分光光度計(日本日立公司生產(chǎn)),隨機附帶的軟件UV Solutions 2.1程序(日立公司,東京)操作,漫反射旋轉(zhuǎn)掃描模式采集數(shù)據(jù)。采集時室溫控制在25 ℃左右,濕度保持穩(wěn)定,所有數(shù)據(jù)當天采集完畢。精確稱取0.500 g茶樣于石英樣品槽中(直徑=22 mm,深度=2.5 mm),用石英玻璃蓋片輕輕壓緊,使樣品形成平整的表面,光譜掃描波長范圍為800~2500 nm,分辨率2 nm,掃描次數(shù)32次,共采集851個數(shù)據(jù)點,同一樣品每次采集光譜3次,平均光譜用做后續(xù)數(shù)據(jù)分析。反射吸光度A的計算參照下述公式[17](R為樣品相對漫反射率,光路參照標準為硫酸鋇)。
A=log[1/R]=-log[R]
茶多酚含量測定采用酒石酸亞鐵顯色法(GB/T 8313-2008《茶-茶多酚的測定》);咖啡堿含量測定采用紫外分光光度計法(GB/T 8312-2013《茶-咖啡堿測定》);氨基酸含量測定采用茚三銅比色法(GB/T 8314-2013《茶-游離氨基酸總量測定》)。
在Matlab R2006a軟件平臺上自編腳本,對光譜信息進行方差分析(ANOVA),選取特征波長。利用SIMCA14.1軟件(Umetrics),進行數(shù)據(jù)預處理、正交偏最小二乘法-判別分析(OPLS-DA),并采用偏最小二乘法(PLS)預測茶葉的產(chǎn)地,以交叉驗證均方根誤差(RMSECV)和相關(guān)系數(shù)評價預測的準確程度。
圖1 所有茶葉樣品800-2500 nm近紅外光譜圖Fig.1 Near-infrared spectrum of all tea samples with wavelength range from 800 nm to 2500 nm
近紅外光譜對茶樣的無損檢測模型的準確率與樣品數(shù)量關(guān)系較大,張正竹等[18]基于近紅外光譜技術(shù)對不同產(chǎn)地的紅茶樣品進行了產(chǎn)地溯源研究,對產(chǎn)自安徽(14個樣)、湖北(26個樣)、云南(30個樣)、印度(25個樣)、肯尼亞(11個樣)、斯里蘭卡(17個樣)和緬甸(17個樣)的紅茶樣品進行了準確的溯源。圖1為61個茶葉樣品波長范圍為 800~2500 nm的近紅外光譜原始圖,長波長一端吸收峰較為集中,延伸至短波長方向,吸收峰則相對發(fā)散。不同的波長吸收反映的是樣品中化學組成官能團的特征吸收。選擇特定的波長,實際上是選擇分析特定的功能團。不同種類的樣品均含有對分類鑒定有重要貢獻的物質(zhì),其特征吸收峰因樣品類型不同而有差異,因此選擇波長范圍,對于建立預測模型非常重要。孫耀國等[19]將綠茶近紅外光譜圖劃分為Ⅲ個波段(Ⅰ:800~1400 nm,Ⅱ:1400~1860 nm,Ⅲ:1860~2500 nm),這與本研究得到的信陽毛尖茶近紅外光譜圖類似。其中波段Ⅰ是近紅外光譜的二級倍頻譜區(qū),信息相對為最弱,它主要反映的是茶葉樣品中分子結(jié)構(gòu)相對簡單的一些有機小分子化合物結(jié)構(gòu)信息,主要為茶葉中的香氣成分結(jié)構(gòu)信息;波段Ⅱ是近紅外譜的一級倍頻譜區(qū),較波段Ⅰ信息稍強,它主要反映的是茶葉樣品中單糖、寡糖、纖維素等的分子結(jié)構(gòu)信息;波段Ⅲ是近紅外譜的合頻譜區(qū),信息最強,它主要反映蛋白質(zhì)、氨基酸、多糖等的分子結(jié)構(gòu)信息。
通常選擇波長的范圍的方法,是通過肉眼觀察,憑直覺選擇,然后建立模型,根據(jù)不同的預測結(jié)果對所選波長范圍進行評價,以確定波長范圍。
圖2 波長與相伴概率的關(guān)系圖Fig.2 The relationship of wavelength and concomitant probability
本文在波長選擇方式上進行了改進,對三個不同等級的茶葉的所有波長的響應進行單因素方差分析,結(jié)果如圖2所示:橫坐標為近紅外光譜的波長,縱坐標為相伴概率P,P小于0.05,說明不同等級樣品間有顯著性差異。800~1800 nm的近紅外光譜數(shù)據(jù)P值遠小于1800~2500 nm波段數(shù)據(jù),因而選擇800~1800 nm作為后續(xù)分析波長。
圖3 所有茶葉樣品800-1800 nm近紅外光譜圖(a),一階導數(shù)圖(b)Fig.3 Near-infrared spectrum of all tea samples with wavelength range from 800 nm to 1800 nm (a) first derivative spectra (b)
圖3a為61個茶葉樣品波長范圍為800~1800 nm的近紅外光譜原始圖,所有樣品經(jīng)過一階導數(shù)預處理的光譜如圖3b所示。在波長1164 nm和1416 nm處的峰,他們分別與水的伸縮一彎曲組合模式和茶多酚物質(zhì)的 OH鍵一級泛頻振動有關(guān)[20];在1522 nm和1600 nm處的峰可能由于茶葉中氨基酸NH2官能團和葡萄糖的泛頻振動帶[21];在波長為1702 nm處的波帶對應于CH鍵伸縮的一級泛頻振動[22],而位于1562 nm和1762 nm波帶分別對應于茶多酚OH鍵和茶氨酸C=O鍵的二級倍頻振動[23]。
不同等級信陽毛尖茶的化學成分測定結(jié)果見表2。茶葉中富含20多種氨基酸,尤其是茶氨酸含量最高,是構(gòu)成綠茶茶湯鮮爽滋味的主要成分,綠茶等級越高,氨基酸含量就越高;除了氨基酸,茶多酚及咖啡堿也是綠茶滋味的重要物質(zhì)。信陽毛尖的茶多酚含量相對較高,為25.97%~27.87%,且咖啡堿含量也均高于4%,這與我們之前研究結(jié)果一致[24]。
表2 不同等級信陽毛尖茶的氨基酸、茶多酚和咖啡堿含量Table 2 The contents of amino acids, tea polyphenols and caffeine of three grades Maojian tea
在NIRS漫反射光譜中,存在各種干擾,如光散射等,必須對NIRS光譜進行數(shù)據(jù)預處理,以消除基線漂移及噪聲,提高所建立模型的預測精度。實驗采用SIMCA 14.1軟件對800~1800 nm的所有樣品進行小波變換去噪,母基函數(shù)為Daubechies,分解水平為4級,將預處理后的數(shù)據(jù)進行OPLS-DA分析。
OPLS-DA是有監(jiān)督的模式識別方法,目前廣泛應用于代謝組學分析,其優(yōu)點是可以通過散點圖和t檢驗確定差異顯著的變量或參數(shù)。圖4為OPLS-DA的散點圖,圖中所有樣品均置于置信區(qū)間為0.050%的橢圓內(nèi),表明無異常數(shù)據(jù),如果有樣品處于橢圓之外,則為異常值,分析時需要剔除。圖4結(jié)果顯示:一芽二葉、一芽一葉和單芽信陽毛尖茶在X軸方向順序排列,明顯分開,均得到了正確分類。其中單芽茶葉在圖中更集中,另兩個等級的茶葉略分散,這也進一步說明了信陽毛尖單芽等級茶樣本間的差異較小,而一芽二葉、一芽一葉等級茶樣本間的差異較大。本實驗中,OPLS-DA 的 R2X(cum)為 1,R2Y(cum)為0.738,Q2(cum)為0.582。R2越接近1,說明樣品受噪聲干擾越小,組內(nèi)重復性越好,所建模型越穩(wěn)健。Q2大于 0.500,則說明該模型的預測能力好。由上可知,本實驗所建立的數(shù)學模型穩(wěn)健,具有良好的預測性。
圖4 三個等級信陽毛尖茶的OPLS-DA散點圖Fig.4 OPLS-DA scores plot of three different grades of maojian tea
OPLS-DA載荷分析中,VIP值(Variable Importance)大于 1的變量被認為對樣品正確分類有顯著的貢獻。本實驗選取VIP值最大的前39個變量(VIP值>1.081)如表3所示。1706~1774 nm對樣品正確分類的貢獻最大,表明CH鍵伸縮的一級泛頻振動,茶多酚OH鍵和茶氨酸C=O鍵的二級倍頻振動信號有顯著的貢獻。1568~1602 nm茶多酚OH鍵的二級倍頻振動信號;800 nm左右信號為茶葉中氨基酸NH的四級倍頻振動信號。因此,結(jié)果表明茶多酚和茶氨酸對樣品正確分類的貢獻最大。不同等級的信陽毛尖,其茶多酚、氨基酸、生物堿、葉綠素及水浸出物等內(nèi)含物差異較大,研究表明隨著茶葉等級的降低,葉綠素含量會升高,而茶多酚、氨基酸和生物堿含量會降低[25],說明茶多酚、氨基酸和生物堿等成分對茶葉等級分類具有重要的作用,這與本研究生化成分測定結(jié)果一致。
表3 OPLS-DA載荷VIP值大于1的波長變量Table 3 The Variable of VIP value greater than 1 by OPLS-DA loading
圖5 PLS預測值和理論值回歸圖Fig.5 Partial Regression Leverage Plots of theoretical values and predicted values analyzed by PLS
PLS在化學計量學中應用廣泛,其結(jié)合了多元線性回歸和主成分回歸,預測能力強,能夠應用于復雜的樣品體系。本實驗通過偏最小二乘法建立信陽毛尖茶等級的判別分析模型,留一法交叉驗證。以單芽茶葉為1,預測值在0.500~1.500范圍內(nèi)正確分類;一芽一葉茶葉為2,預測值在1.500~2.500范圍內(nèi)正確分類;一芽二葉茶葉為3,預測值在2.500~3.500范圍內(nèi)正確分類。圖5為理論值和預測值的回歸圖,樣品預測正確率為100%,RMSECV為0.090,相關(guān)系數(shù)為0.994。
分別從三個等級茶樣中任意選取二個樣品作為預測集,其余樣品為訓練集(單芽茶樣18個。一芽一葉茶樣品19個,一芽二葉樣品18個),利用SIMCA14.1軟件中的PLS模塊進行訓練,所建PLS模型的R2X(cum)為1,R2Y(cum)為0.904,Q2(cum)為0.755,該模型具有較好的預測性。對預測集進行預測,理論值同上,預測值分別為0.84,1.07(單芽);2.04,1.92(一芽一葉);2.61,2.72(一芽二葉);預測準確率為100%,均方誤差(RMSE)為0.21。
本文建立了NIRS光譜結(jié)合PLS快速無損檢測河南信陽毛尖茶不同等級品質(zhì)的方法。通過方差分析,選擇了數(shù)據(jù)分析的波長范圍,采用小波變換濾噪,對光譜進行預處理。OPLS-DA分析表明三個不同等級信陽毛尖茶可以有效區(qū)分,茶多酚和茶氨酸對樣品正確分類的貢獻最大。進行數(shù)據(jù)預處理后,所建立的PLS預測模型中,理論值和預測值之間具有良好的相關(guān)性,相關(guān)系數(shù)為0.994,預測準確率為100%,交叉驗證均方根誤差RMEV為0.090,表明模型預測準確、可靠。本實驗所建立的近紅外光譜檢測方法,檢測速度快,可用于大批量茶葉的快速無損檢測及現(xiàn)場測定,滿足生產(chǎn)企業(yè)現(xiàn)場收購的質(zhì)檢質(zhì)控要求,對監(jiān)督部門進行質(zhì)量監(jiān)督有重要意義。