吳彥紅,艾施榮,嚴霖元*,楊紅飛,胡 琪
(1.江西農業(yè)大學 工學院,江西 南昌 330045;2.江西農業(yè)大學 軟件學院,江西 南昌 330045)
茶葉內含有茶多酚、氨基酸、咖啡堿等多種對人體有益的成分,既是一種具有營養(yǎng)性和風味性的飲品,又是一種具有降血脂、防輻射、抗癌等藥理功效的功能性飲品[1]。隨著生活水平的提高,生活節(jié)奏的加快,液態(tài)茶飲料以其具有方便、消暑解渴、保健療效、開瓶即飲等特點越來越受到人們的喜愛,目前“即開型”茶飲料已占了茶葉產業(yè)的絕大部分市場[2]。而據國家質量監(jiān)督檢驗檢疫總局對市場上38家企業(yè)的茶飲料產品質量抽檢結果,發(fā)現大部分產品中內含成分低于茶飲料標準或根本不含有茶成分[3]。加強茶飲料質量檢測力度,已是茶飲料行業(yè)迫切需要解決的問題。
茶葉中的氨基酸是構成其鮮爽味的主要物質,也是人體所需的主要營養(yǎng)物質,具有預防疾病等保健功效[4]。而茶葉中的氨基酸含量較少,只占干物質含量的3%左右,在茶飲料中,氨基酸含量更是甚少。氨基酸常規(guī)檢測方法主要有茚三酮比色法[5]、高效液相色譜法等[6],這些方法檢測精度高,但屬于化學方法,檢測步驟繁瑣、耗時長、費用高,無法滿足茶飲料加工和貿易過程中的質量快速檢測需要。
近紅外光譜技術具有簡單、快速、成本低和重現性好等優(yōu)點,已被廣泛應用于液態(tài)樣品品質的快速檢測中[7-9],目前在茶湯的茶多酚成分檢測中也得到了廣泛應用[10-11],但用于茶湯中氨基酸含量檢測還未見相關報道。氨基酸組分復雜,導致了其近紅外光譜的復雜性,另外,茶飲料的近紅外譜峰中含有水的強吸收峰。因此,如何通過一些數據挖掘方法從復雜的液體光譜信息中提取特征信息,以建立精確、穩(wěn)定的定量分析模型是必須要解決的關鍵問題。本研究分別采用間隔偏最小二乘法(interval partial least square,iPLS)和聯合區(qū)間偏最小二乘法(Synergy interval partial least square,siPLS)從茶湯的近紅外光譜中提取氨基酸光譜信息,建立氨基酸的近紅外光譜定量分析模型,文中由iPLS方法建立的模型簡稱iPLS模型,由siPLS方法建立的模型簡稱siPLS模型。
從茶葉市場收集綠茶、紅茶、烏龍茶種類90個茶樣,茶樣原產地為江西、江蘇、福建、云南、安微、浙江等國內重要產區(qū),將茶樣編號后置于4℃冰柜中保存。試驗時,從每個茶樣中分別稱取3 g,在室溫下放置12 h達到室溫平衡后,用150 mL沸蒸餾水加蓋沖泡5 min,倒出茶湯,用濾紙過濾,將濾液迅速冷卻到室溫。
使用AntarisⅡ傅里葉變換近紅外光譜儀(Thermo Scientific,USA)采集茶湯光譜,光譜儀帶有透射樣品池附件。光譜采集條件為:光譜波數范圍10 000~4 000 cm-1,分辨率為3.856-1,掃描次數為32次。采集光譜時,將備用茶湯注入5 mm光程的樣品池中,每個樣本采集光譜后旋轉大約60°重復采集3次,求其平均值作為原始光譜。
為防止因茶湯濃度過高而導致吸光度值過大,用吸管分別從每個樣本的茶湯中吸取10 mL到25 mL容量瓶中,用蒸餾水稀釋到刻度。根據酒石酸亞鐵比色法 (GB/T 8314—2002)測量各稀釋后茶湯中的氨基酸含量。從原始樣本中隨機選出60個組成校正集,用來建立校正模型;余下30個組成預測集,用來檢驗模型性能。
間隔偏最小二乘法(iPLS)是一種有效的波長篩選方法[12],其原理是將整個光譜區(qū)等分為若干個子區(qū)間,然后在全光譜區(qū)和每個子區(qū)間內分別建立偏最小二乘回歸模型,比較各模型的精度,取精度最高的模型所在的子區(qū)間為最終優(yōu)選的特征波長區(qū)間。聯合區(qū)間偏最小二乘法(siPLS)已廣泛應用于光譜數據的特征波長優(yōu)選上[13-14],其原理是將整個光譜區(qū)等分為多個子區(qū)間,再聯合其中的2個、3個或更多的子區(qū)間建立模型,比較各模型的預測誤差,誤差最小的模型所對應的聯合子區(qū)間即是被優(yōu)選的特征光譜區(qū)間。
在校正集中采用交互驗證法(leave-one-out cross-validation)優(yōu)化模型參數,以氨基酸含量的實測值與模型預測值的相關系數Rc、校正集交互驗證均方根誤差(root mean square error of cross-validation,RMSECV)和預測集均方根誤差(root mean squared error of prediction,RMSEP)作為模型性能的評價指標,所有數據分析基于Matlab V7.8.0平臺完成。
圖1為茶湯近紅外原始光譜圖,從圖1可看出,各樣本茶湯的光譜信息幾乎沒有差 異,且 在 6 900 ~7 140 cm-1和5 155 cm-1附近存在強吸收峰,這是茶湯中水的O-H伸縮振動的合頻和一級倍頻吸收[15],因此必須從整個光譜信息中提取與氨基酸相關的特征信息,消除水峰及其他無關信息對模型性能的影響。另外,因原始光譜中夾帶有噪聲信息及其他無關信息,文獻研究表明標準正態(tài)變量變換(Standard Normal Variate Transformation,SNV)能有效去除光譜中的噪音信息[16],本研究采用SNV方法預處理原始光譜圖。
圖1 茶湯原始光譜圖Fig.1 NIR original spectra of tea infusion
為考察子區(qū)間數劃分對優(yōu)選結果的影響,試驗將整個光譜區(qū)分別等分為11~25個子區(qū)間,在校正集中用交互驗證法優(yōu)化模型參數,模型性能衡量標準由交互驗證均方根誤差值(RMSECV)決定,優(yōu)選結果見圖2。從圖中可看出,當整個光譜區(qū)等分為15子區(qū)間時,所建模型的RMSECV值最小,因此研究將整個光譜區(qū)等分為15個子區(qū)間來優(yōu)選特征光譜區(qū)間。圖3是在15個子區(qū)間上優(yōu)選的區(qū)間結果圖,當選擇第12個子區(qū)間,使用前5個主成分建立模型時,其RMSECV最小,對應的波數范圍為8 412.0 ~8 809.2 cm-1。模型對校正集的相關系數(Rc)和交互驗證均方根誤差(RMSECV)分別為0.788 和0.278;預測集的中相關系數(Rp)和預測均方根誤差(RMSEP)分別為 0.724 和0.299。圖中表明,用iPLS優(yōu)選出來的特征變量不在水的強吸收峰內,從而避免了水峰的影響。
圖2 各劃分子區(qū)間上所建最優(yōu)模型的交互驗證均方根誤差Fig.2 RMSECV of the optimal models based on all divided interval numbers
圖3 iPLS優(yōu)選的間隔數Fig.3 The selected interval by iPLS
由上述結果可知,建立的iPLS模型性能較差,研究采用另一種特征變量篩選方法(聯合區(qū)間偏最小二乘法,siPLS)優(yōu)選特征變量,試驗將整個光譜區(qū)分別等分為11~25個子區(qū)間,在各等分的子區(qū)間內,又分別聯合其中的2、3和4個子區(qū)間建立模型。在校正集中交互驗證法優(yōu)化模型參數,由最小的交互驗證均方根誤差值(RMSECV)作為衡量標準,優(yōu)選結果見表1。從表中結果可知,當整個光譜區(qū)被劃分成21個子區(qū)間,聯合其中的第7、13和第17個子區(qū)間,使用前7個主成分數時建立模型的RMSECV值最小。圖4是優(yōu)選結果圖,圖中的灰色區(qū)是篩選出的3個特征子區(qū)間,各子區(qū)間對應的波數范圍分 別 為 5 723.7 ~ 6 005.2 cm-1、7 436.2 ~ 7 717.7 cm-1和 8 577.8 ~8 859.4 cm-1,共 222 個變量。由圖也可看出,優(yōu)選的特征變量不在水的強吸收峰內。
表1 由siPLS方法在不同子區(qū)間劃分的特征光譜區(qū)間優(yōu)選結果Tab.1 Results of feature spectral regions selected by siPLS
由優(yōu)選的222個變量建立PLS模型,模型對校正集樣本的相關系數(Rc)和交互驗證均方根誤差(RMSECV)分別
為0.912和0.185;預測集的中相關系數(Rp)和預測均方根誤差(RMSEP)分別為0.887和0.202。圖5
校正集和預測集中樣本的實測值與模型預測值之間的散點圖。
圖4 由siPLS篩選的特征光譜區(qū)間[7 1317]Fig.4 Optimal spectral regions[7 1317]selected by siPLS
本研究比較經典偏最小二乘(PLS)模型、iPLS模型和siPLS模型性能,比較結果見表2。從表2可看出,siPLS模型性能最好,經典PLS模型較差。這是因為經典PLS模型是利用茶湯的近紅外全光譜變量建模,全光譜區(qū)內含有大量與氨基酸成分無關的信息,尤其是水的吸收峰,這些信息參與模型建立必然會嚴重影響模型的精度和穩(wěn)定性。而利用iPLS建模時,優(yōu)選出與氨基酸成分最相關的特征變量建立模型,且優(yōu)選得到的特征變量不在水的強吸收峰內,因此其模型性能要好于全光譜區(qū)的PLS模型性能;但僅優(yōu)選其中的一個子區(qū)間來建立模型,其他子區(qū)間中也含有一些與氨基酸成分最相關的信息。SiPLS模型是通過優(yōu)選出幾個與氨基酸成分最相關的光譜子區(qū)間建立的模型,其性能明顯要好于iPLS模型。
表2 不同模型結果比較Tab.2 Results and comparison from different models
圖5 校正集和預測集中實測值與模型預測值之間的散點圖Fig.5 Reference measurement versus NIR prediction in the calibration and prediction sets
本文研究利用近紅外光譜技術結合特征變量篩選方法快速測定茶湯中的氨基酸含量。研究結果發(fā)現,利用iPLS方法篩選的特征變量建立模型避開了水的強吸收峰影響,但模型精度較差,而利用siPLS方法篩選的特征變量建立模型同樣避開了水的強吸收峰影響,但模型性能明顯好于iPLS的。研究表明利用近紅外光譜技術結合siPLS方法測定茶湯中的氨基酸含量是可行的。
茶湯中含有大量水分,由于水分子的強吸收使茶湯近紅外原始光譜在6 900~7 140 cm-1波段產生吸收峰飽和現象;另外,氨基酸在茶湯中的含量很低,相對于水的強吸收,氨基酸的近紅外光譜非常微弱,其吸收信息容易被水的強吸收信號掩蓋和干擾。姜禮義等[10]探討利用合適的光程來減少水溶液干擾所產生的誤差,得出使用1 mm光程的透射附件所建立模型是可行的。但透射附件的光程太小,在清洗、制作工藝等方面會存在一些相應的負面問題。本文探討使用化學計量學方法從茶湯近紅外光譜中提取氨基酸的微弱光譜信息,茶湯原始光譜使用5 mm光程石英比色皿采集,其中有部分光譜區(qū)產生飽和現象,嚴重影響模型精度。而siPLS方法通過將整個光譜區(qū)等分成多個子區(qū)間,再分別聯合其中的幾個精度較高的子區(qū)間建立模型,這些精度較高子區(qū)間內的變量跟待測成分最相關,直接剔除了一些無關信息且避開了水峰影響。與利用小光程的近紅外光譜分析方法相比,該方法只使用了全光譜變量(1 557個變量)中的222個變量建立模型,模型更簡潔,且避免利用小光程來減少水的強吸收影響所帶來的缺陷。
[1]Bettuzzi S,Brausi M,Rizzi F.Chemoprevention of human prostate cancer by oral administration of green tea catechins in volunteers with high-grade prostate intraepithelial neoplasia:a preliminary report from a one-year proof-of-principle study[J].Cancer Research,2006,66(2):1234 -1240.
[2]艾施榮,吳瑞梅,吳燕.基于神經網絡近紅外光譜鑒別茶飲料的研究[J].安徽農業(yè)科學,2010,38(14):7658-7662.[3]谷曉君.來自茶飲料的困惑[J].上海標準化,2004,5:36 -38.
[4]郭志明.近紅外光譜法測定茶葉中游離氨基酸的研究[J].光譜儀器與分析,2011(1):105-109.[5]張正竹.茶葉生物化學實驗教程[M].北京:中國農業(yè)出版社,2009:42-43.
[6]郭升平.高效液相色譜法測定茶葉中氨基酸的研究[J].色譜,1996,14(6):464-466.
[7]Yu H Y,Ying Y B,Fu X P,et al.Quality determination of Chinese rice wine based on Fourier transform near infrared spectroscopy[J].Journal of Near Infrared Spectroscopy,2006,14(1):37 -44.
[8]Cozzolino D,Kwiatlowski M J,Waters E J,et al.A feasibility study on the use of visible and short wavelengths in the near- infrared region for the nondestructive measurement of wine composition[J].Analytical and Bioanalytical Chemistry,2007,387(6):2289-2295.
[9]Galtier N,Dupuy Y,Le D,et al.Geographic origins and compositions of virgin olive oils determinated by chemometric analysis of NIR spectra[J].Analytica Chimica Acta,2007,595(1):136 – 144.
[10]姜禮義,劉福莉,陳華才,等.綠茶湯中茶多酚近紅外定量分析的光程選擇[J].中國計量學院學報,2009,20(2):135-138.
[11]吳瑞梅,趙杰文,陳全勝,等.特征變量篩選在綠茶湯中茶多酚近紅外光譜定量分析中的應用[J].農業(yè)機械學報,2011,42(12):173 -176.
[12]Norgaard L,Saudland A,Wagner J,et al.Interval partial least- squares regression(iPLS):a comparative chemometric study with an example from near- infrared spectroscopy[J].Applied Spectroscopy,2000,54(3):413 -419.
[13]Chen Q S,Zhao J W,Liu M H,et al.Determination of total polyphenols content in green tea using FT-NIR spectroscopy and different PLS algorithms[J].Journal of Pharmaceutical and Biomedical Analysis,2008,46(3):568 -573.
[14]朱向榮,李娜,史新元,等.近紅外光譜與組合的間隔偏最小二乘法測定清開靈四混液中總氮和梔子苷的含量[J].高等學校化學學報,2008,29(5):906 -911.
[15]Chen Q S,Zhao J W,Huang X Y,et al.Simultaneous determination of total polyphenols and caffeine contents of green tea by near- infrared reflectance spectroscopy[J].Microchemical Journal,2006,83(1):42 -47.
[16]Liu F,He Y,Wang L,et al.Detection of organic acids and pH of fruit vinegars using near- infrared spectroscopy and multivariate calibration[J].Food and Bioprocess Technology,2011,4(8):1331-1340.