梁建華,郭嘉明,夏紅玲,馬成英,胡海濤,喬小燕
基于近紅外光譜的英紅九號(hào)紅茶快速定級(jí)方法
梁建華1,2,郭嘉明2,夏紅玲1,馬成英1,胡海濤3,喬小燕1
(1.廣東省農(nóng)業(yè)科學(xué)院 茶葉研究所/廣東省茶樹資源創(chuàng)新利用重點(diǎn)實(shí)驗(yàn)室,廣州 510640; 2.華南農(nóng)業(yè)大學(xué) 工程學(xué)院,廣州 510642;3.廣東鴻雁茶業(yè)有限公司,廣東 英德 513042)
以英紅九號(hào)紅茶為研究對(duì)象,提出一種基于近紅外光譜的紅茶質(zhì)量快速定級(jí)方法。首先使用濕化學(xué)法對(duì)英紅九號(hào)紅茶進(jìn)行內(nèi)質(zhì)成分含量檢測(cè),并通過感官審評(píng)對(duì)參試紅茶進(jìn)行定級(jí),基于內(nèi)質(zhì)成分含量建立英紅九號(hào)紅茶定級(jí)模型,然后利用近紅外光譜構(gòu)建紅茶內(nèi)質(zhì)成分的定量模型,以快速預(yù)測(cè)英紅九號(hào)紅茶的內(nèi)質(zhì)成分含量。將內(nèi)質(zhì)成分含量預(yù)測(cè)值輸入定級(jí)模型,以預(yù)測(cè)英紅九號(hào)紅茶的質(zhì)量等級(jí)。建立了紅茶茶多酚、可溶性糖、游離氨基酸和咖啡堿4個(gè)內(nèi)質(zhì)成分的偏最小二乘法定量模型,其測(cè)試集的決定系數(shù)分別為0.974 5、0.887 6、0.963 6、0.860 6,基于感官審評(píng)和內(nèi)質(zhì)成分的隨機(jī)森林定級(jí)模型測(cè)試集的準(zhǔn)確率為90.48%。為紅茶質(zhì)量快速定級(jí)提供了一種可行方案,增強(qiáng)了基于近紅外光譜的紅茶定級(jí)方法的解釋力。
近紅外光譜;紅茶;定級(jí);內(nèi)質(zhì)成分
英德是廣東的傳統(tǒng)優(yōu)勢(shì)紅茶產(chǎn)區(qū),截至2021年底,英德市的茶園面積為113.5 km2,全市全年干茶產(chǎn)量超過1.35萬t。英德紅茶產(chǎn)業(yè)一直向著標(biāo)準(zhǔn)化、規(guī)?;l(fā)展,以英紅九號(hào)紅茶為主要產(chǎn)品。企業(yè)通常會(huì)根據(jù)芽葉比例確定茶青等級(jí),但不同批次的同等級(jí)茶青間有所差異,且在實(shí)際生產(chǎn)過程中溫濕度等環(huán)境因素對(duì)生產(chǎn)有著重要影響。在內(nèi)外諸多因素的干擾下,同一等級(jí)茶青在標(biāo)準(zhǔn)化生產(chǎn)線上生產(chǎn)的茶葉質(zhì)量參差不齊,生產(chǎn)加工后茶葉的質(zhì)量評(píng)定成為一項(xiàng)重要生產(chǎn)要求。通過有效地對(duì)生產(chǎn)質(zhì)量進(jìn)行把控,為后續(xù)的茶葉精制、定價(jià)包裝等流程提供依據(jù)。目前,生產(chǎn)線所用評(píng)定茶葉質(zhì)量的方法為人工感官審評(píng),感官審評(píng)極度依賴人工,且具有較強(qiáng)的主觀性和模糊性[1],并不適應(yīng)當(dāng)前茶葉生產(chǎn)規(guī)模化發(fā)展的要求。茶葉現(xiàn)有的快速質(zhì)量評(píng)價(jià)方法主要圍繞光譜、機(jī)器視覺、電化學(xué)等技術(shù)手段展開[2-3]。其中,近紅外光譜技術(shù)具有無損和快捷的優(yōu)點(diǎn),最早應(yīng)用于內(nèi)質(zhì)成分的檢測(cè),可有效克服傳統(tǒng)成分理化分析方法費(fèi)時(shí)、耗力的缺點(diǎn),廣泛應(yīng)用于茶葉的品質(zhì)研究,如茶葉的真實(shí)性判別及產(chǎn)地溯源等[4-6]。目前,已開展基于近紅外光譜對(duì)茶葉質(zhì)量定級(jí)的研究,部分學(xué)者通過選擇近紅外光譜中的特征變量建立定性模型,實(shí)現(xiàn)茶葉的質(zhì)量定級(jí),如Ren等[7]建立了祁門紅茶不同等級(jí)的模型。也有學(xué)者通過近紅外光譜與感官審評(píng)得分建立定量模型,以確定茶葉的質(zhì)量得分,如Zuo等[8]建立了貴州不同海拔綠茶感官審評(píng)得分的定量模型;周小芬等[9]建立了大佛龍井茶的品質(zhì)評(píng)價(jià)定量模型。這些模型基于近紅外光譜對(duì)茶葉進(jìn)行快速質(zhì)量評(píng)價(jià),但越過了決定茶葉質(zhì)量的內(nèi)質(zhì)成分,未能充分解釋茶葉內(nèi)質(zhì)成分、茶葉質(zhì)量和近紅外光譜三者間的關(guān)系。在實(shí)際生產(chǎn)中,茶企業(yè)會(huì)控制茶鮮葉的品種、芽葉比例、嫩度等因素,以確保茶鮮葉的質(zhì)量相對(duì)穩(wěn)定,進(jìn)而在很大程度上減小了所產(chǎn)茶葉質(zhì)量的區(qū)分度。已有研究表明,針對(duì)不同品種、不同海拔、不同等級(jí)原料的茶葉,樣本的組間區(qū)分度遠(yuǎn)大于生產(chǎn)線上所加工的不同質(zhì)量等級(jí)茶葉區(qū)分度。
有研究[10]表明,游離氨基酸、茶多酚、可溶性糖和咖啡堿作為紅茶的主要成分,其含量與紅茶的感官品質(zhì)顯著相關(guān),并且這些內(nèi)質(zhì)成分可使用近紅外光譜技術(shù)進(jìn)行準(zhǔn)確檢測(cè)[11],因此選用這些對(duì)紅茶品質(zhì)具有重要影響的內(nèi)質(zhì)成分作為評(píng)價(jià)同一等級(jí)茶鮮葉所加工紅茶品質(zhì)的變量。由此,文中提出以英紅九號(hào)紅茶所制茶葉為研究對(duì)象,利用近紅外光譜儀收集茶葉樣品的光譜,建立近紅外光譜與紅茶中內(nèi)質(zhì)成分間的定量模型,通過感官審評(píng)確認(rèn)紅茶的質(zhì)量等級(jí),并建立感官審評(píng)定級(jí)結(jié)果與內(nèi)質(zhì)成分間的定級(jí)模型,利用近紅外光譜預(yù)測(cè)紅茶內(nèi)的內(nèi)質(zhì)成分信息,并基于此信息通過定級(jí)模型獲知英紅九號(hào)紅茶的質(zhì)量等級(jí)。此方法解釋了茶葉內(nèi)質(zhì)成分、茶葉品質(zhì)和近紅外光譜三者間的直接關(guān)系,擬為生產(chǎn)線上的茶葉質(zhì)量定級(jí)提供科學(xué)依據(jù)。
實(shí)驗(yàn)所用茶葉由廣東省英德市廣東鴻雁茶業(yè)有限公司、廣東英九莊園綠色產(chǎn)業(yè)發(fā)展有限公司、廣東石門山生態(tài)科技茶業(yè)有限公司3家企業(yè)提供,每份約250 g。茶葉的生產(chǎn)時(shí)間為4—5月,在生產(chǎn)前已確認(rèn)茶青等級(jí)。其中,一級(jí)、二級(jí)、三級(jí)茶青均為以一芽二葉為主的茶鮮葉,詳細(xì)情況如表1所示,各樣品為企業(yè)不同批次所制茶葉。
表1 樣本詳情
Tab.1 Sample details
實(shí)驗(yàn)旨在通過近紅外光譜技術(shù)獲知紅茶的內(nèi)質(zhì)成分信息,并根據(jù)獲知信息實(shí)現(xiàn)紅茶的質(zhì)量定級(jí),具體流程如圖1所示。
參照茚三酮比色法檢測(cè)試驗(yàn)材料的游離氨基酸含量[12],采用福林酚法檢測(cè)試驗(yàn)材料中的茶多酚含量[13],采用蒽酮比色法檢測(cè)試驗(yàn)材料中的可溶性糖[14],采用HPLC法檢測(cè)試驗(yàn)材料的咖啡堿含量[15]。每個(gè)樣品重復(fù)測(cè)定3次。
按照《茶葉感官審評(píng)方法》[16],邀請(qǐng)5位熟悉茶葉市場(chǎng)的專業(yè)品茶師,根據(jù)內(nèi)質(zhì)評(píng)審法對(duì)紅茶品質(zhì)進(jìn)行質(zhì)量綜合等級(jí)評(píng)定。
采用二級(jí)茶青制作紅茶樣本,每份制作3個(gè)子樣本,制作紅茶子樣本共計(jì)63份。將各紅茶樣本研磨成粉末,并通過網(wǎng)格篩,每次稱量13 g茶粉,均勻鋪于檢測(cè)容器中。利用傅里葉光譜儀(Thermo Fisher Scientific inc 5225 Verona Rd, Madison,WI)掃描粉末樣本,以獲取樣本的光譜數(shù)據(jù)。設(shè)置儀器光譜的掃描范圍為4 000~10 000 cm–1,分辨率為8 cm–1,掃描64次,采點(diǎn)數(shù)量為1 557。近紅外光譜儀采用積分球采樣模式,每份樣本掃描3遍,使用平均光譜作為樣本光譜,一共采集84份光譜。
使用Origin 2021對(duì)內(nèi)質(zhì)成分含量進(jìn)行分析。使用Matlab R2021a軟件建立近紅外定量模型和定級(jí)模型。
為了減小光譜數(shù)據(jù)受外界因素干擾而產(chǎn)生的噪聲,對(duì)光譜數(shù)據(jù)統(tǒng)一采用卷積平滑(Savitzky-Golay,SG)算法進(jìn)行降噪,平滑窗口的寬度為17,多項(xiàng)式的階數(shù)為3[17]。同時(shí),為了去除光譜收集時(shí)因散射光、顆粒不勻等因素導(dǎo)致的光譜漂移,以及增加樣本間的差異性[18],在實(shí)驗(yàn)中對(duì)不同茶葉的內(nèi)質(zhì)成分進(jìn)行建模前,采用不同的數(shù)據(jù)校正和標(biāo)準(zhǔn)化組合進(jìn)行預(yù)處理,盡量減小預(yù)處理弱化關(guān)鍵變量的可能性。其中,數(shù)據(jù)校正方法包括多元散射校正(Multiplicative Scatter Correction,MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(Standard Normal Variate Transformation,SNV)和迭代自適應(yīng)加權(quán)懲罰最小二乘法(Adaptive Iterative Re-weighted Penalized Least Squares,airPLS)[19]。標(biāo)準(zhǔn)化方法包括自標(biāo)度化(autoscaling)、中心化(center)、最小?最大歸一化(minmax),各標(biāo)準(zhǔn)化的定義見式(1)—(3)。
圖1 實(shí)驗(yàn)流程
Autoscaling=(–mean())/std()(1)
Center=–mean()(2)
Minmax=(–min())/(max()–min()) (3)
式中:為樣本某波長(zhǎng)對(duì)應(yīng)的吸收度;mean()為訓(xùn)練集某波長(zhǎng)對(duì)應(yīng)吸收度的均值;std()為訓(xùn)練集某波長(zhǎng)對(duì)應(yīng)吸收度的標(biāo)準(zhǔn)差;max()、min()分別為訓(xùn)練集某波長(zhǎng)對(duì)應(yīng)吸收度的最大值、最小值。測(cè)試集的標(biāo)準(zhǔn)化處理調(diào)用訓(xùn)練集中的、參數(shù),而非以測(cè)試集自身產(chǎn)生的、參數(shù)。
采用KS(Kennard-Stone)算法[20],將樣本光譜集以7∶3的比例劃分為訓(xùn)練集與測(cè)試集。采用KS算法,先計(jì)算在維空間中任意2個(gè)樣本之間的真實(shí)距離,即歐氏距離,選擇歐氏距離最遠(yuǎn)的2個(gè)樣本進(jìn)入訓(xùn)練集。然后,通過計(jì)算剩下的每個(gè)樣品到訓(xùn)練集內(nèi)每個(gè)已知樣品的歐式距離,找到擁有最大距離的待選樣本,并放入訓(xùn)練集,反復(fù)此操作,直到訓(xùn)練集數(shù)目滿足要求。該方法使得訓(xùn)練集中的樣本按照空間距離分布均勻,能有效提高訓(xùn)練樣本的代表性。
由于光譜的數(shù)據(jù)維度較高,其中包含了大量無關(guān)信息,不僅極大地延長(zhǎng)了數(shù)據(jù)分析時(shí)間,還可能出現(xiàn)數(shù)據(jù)過擬合、模型泛化能力極差、維數(shù)災(zāi)難等問題[21]。文中采用特征選擇的方式,獲取優(yōu)選波長(zhǎng)變量。特征選擇變量基于偏最小二乘法(Partial Least Squares,PLS)擬合評(píng)價(jià)效果獲取,在此次實(shí)驗(yàn)中使用的特征選擇算法包括區(qū)間偏最小二乘法(interval PLS,iPLS)、連續(xù)投影法(Successive Projections Algorithm, SPA)[22]、遺傳算法(Genetic Algorithm,GA)、迭代變量子集優(yōu)化(Iteratively Variable Subset Optimization,IVSO)、隨機(jī)霧化法(Randomfog),以及基于GA、迭代的保持信息變量(Iteratively Retaining Informative Variables,IRIV)的變量組合總體分析(Variable Combination Population Analysis,VCPA— GA、VCPA–IRIV)[23-24]。各方法選擇變量迭代的方式不同,如iPLS是將尋找的最佳變量區(qū)間作為特征變量;GA是從全集中挑選若干個(gè)最適波長(zhǎng)段作為特征變量。針對(duì)不同的內(nèi)質(zhì)成分,需要選擇合適的特征選擇方式,以獲取關(guān)鍵的優(yōu)選特征。
基于特征選擇采用PLS作為評(píng)價(jià)函數(shù),利用PLS將訓(xùn)練集選擇的特征變量和其對(duì)應(yīng)的內(nèi)質(zhì)成分建立多元線性回歸模型。使用K-fold驗(yàn)證方式進(jìn)行交叉驗(yàn)證,=5,防止PLS模型過擬合[25-26]。針對(duì)測(cè)試集,采用與訓(xùn)練集相同的預(yù)處理方式獲取優(yōu)選特征變量,然后代入回歸模型,得到測(cè)試集的對(duì)應(yīng)內(nèi)質(zhì)成分預(yù)測(cè)含量。以濕化學(xué)法檢測(cè)的4個(gè)內(nèi)質(zhì)成分含量為特征,以感官審評(píng)定級(jí)結(jié)果為輸出,建立紅茶質(zhì)量定級(jí)模型。將測(cè)試樣本光譜通過4個(gè)定量模型,得到測(cè)試樣本的4個(gè)內(nèi)質(zhì)成分含量,進(jìn)而通過定級(jí)模型獲取預(yù)測(cè)等級(jí)。
定量模型評(píng)價(jià)指標(biāo)主要有決定系數(shù)2、測(cè)試集決定系數(shù)p2、建模集的均方差(Root Mean Square Error of Cross Validation, RMSECV)、測(cè)試集的均方差(Root Mean Square Error of Prediction, RMSEP),定級(jí)模型的評(píng)價(jià)指標(biāo)為測(cè)試集的預(yù)測(cè)正確率。最終模型的性能依據(jù)測(cè)試集的預(yù)測(cè)結(jié)果決定[27]。
采用各等級(jí)茶青所制紅茶的內(nèi)質(zhì)成分含量檢測(cè)結(jié)果如圖2所示,每個(gè)分布框內(nèi)的橫線表示該等級(jí)茶青的內(nèi)質(zhì)成分含量(質(zhì)量分?jǐn)?shù))均值。特級(jí)茶青,即一芽一葉所制紅茶的游離氨基酸和咖啡堿含量分布于3.0%~4.0%、2.0%~2.5%,含量均值分別為3.37%、2.16%,高于以一芽二葉為主的加工紅茶(一級(jí)、二級(jí)、三級(jí));可溶性糖的含量(質(zhì)量分?jǐn)?shù))較低,均值為4.26%,比一芽二葉所制紅茶低約25%;茶多酚含量相當(dāng)。在以一芽二葉為主的加工紅茶中,茶多酚、咖啡堿、游離氨基酸含量分布總體隨茶青等級(jí)的升高而逐級(jí)增加,各級(jí)茶青所制紅茶的可溶性糖含量較接近,約為5.7%。所述4種內(nèi)質(zhì)成分在4個(gè)等級(jí)茶青所制紅茶中的含量有較大差異,而實(shí)際生產(chǎn)中茶青等級(jí)在廠商收購茶青時(shí)已確定,因此茶葉的質(zhì)量定級(jí)通常建立在特定等級(jí)茶青的基礎(chǔ)上。
感官審評(píng)的結(jié)果如表2所示,絕大部分樣品的質(zhì)量等級(jí)基于茶青等級(jí)(特級(jí)、一級(jí)、二級(jí)、三級(jí))決定,僅一級(jí)茶青出現(xiàn)了越級(jí)(降級(jí))現(xiàn)象。英德生產(chǎn)的茶葉產(chǎn)品以二級(jí)茶青所制茶葉為主,占全年英德紅茶產(chǎn)量的90%以上,對(duì)二級(jí)茶青所制茶葉的質(zhì)量定級(jí)具有產(chǎn)業(yè)意義。由此,從二級(jí)茶青所制茶葉出發(fā),研究基于特定茶青等級(jí)所制茶葉的快速質(zhì)量定級(jí)方法。
圖2 不同等級(jí)茶青所制紅茶內(nèi)質(zhì)成分箱線圖
表2 樣品感官審評(píng)定級(jí)結(jié)果
Tab.2 Sensory evaluation grading results of samples
觀測(cè)圖3中的原始光譜可以發(fā)現(xiàn),各樣本光譜間具有高度的相似性,且光譜在吸收度上存在漂移。通過放大觀測(cè)發(fā)現(xiàn),光譜在不同區(qū)間均存在較嚴(yán)重的噪聲,因此需對(duì)原始光譜進(jìn)行預(yù)處理,圖3展示了部分預(yù)處理后的光譜。如圖3b所示,在采用MSC校正預(yù)處理后,光譜漂移現(xiàn)象明顯減少,但樣本光譜間仍存在高度相似性。為了突出樣本間的差異,對(duì)光譜進(jìn)行了標(biāo)準(zhǔn)化處理。圖3c顯示了MSC+autoscaling處理后的光譜,經(jīng)處理后光譜間的差異將顯著放大,但光譜中攜帶的噪聲同樣會(huì)被放大,因此在進(jìn)行數(shù)據(jù)校正和標(biāo)準(zhǔn)化前,需進(jìn)行降噪處理,這里采用SG卷積平滑方法。經(jīng)過SG+SMC+autoscaling處理后,光譜噪聲明顯降低,對(duì)比圖3c、d中的局部放大圖可知,經(jīng)平滑處理后光譜噪聲被抑制,且光譜主成分信息被有效保留。
考慮到各算法之間相互影響的不確定性,選擇全局試驗(yàn)。通過將預(yù)處理方式(卷積平滑+校正+標(biāo)準(zhǔn)化)與特征選擇算法自由組合,并基于PLS建立回歸模型,針對(duì)每類內(nèi)質(zhì)成分分別建立63(3×3×7)個(gè)預(yù)測(cè)模型。為了觀測(cè)預(yù)處理對(duì)模型的影響,開展不進(jìn)行預(yù)處理的建模實(shí)驗(yàn)。同時(shí),為了考量特征選擇的作用,進(jìn)行了基于全光譜的建模實(shí)驗(yàn)。各內(nèi)質(zhì)成分最佳預(yù)測(cè)模型的方法及實(shí)驗(yàn)結(jié)果如表3所示,對(duì)比了不進(jìn)行預(yù)處理但進(jìn)行特征選擇,以及進(jìn)行預(yù)處理但不進(jìn)行特征選擇(ALL)建模的結(jié)果。
圖3 原始光譜圖與預(yù)處理光譜
表3 部分定量模型及其結(jié)果
Tab.3 Partial quantitative models and their results
由實(shí)驗(yàn)結(jié)果可知,茶多酚采用SG+MSC+minmax+ iPLS+PLS算法建立預(yù)測(cè)模型的效果較佳,RMSEP值為0.880 5,p2為0.947 5,相較于不進(jìn)行預(yù)處理,2和p2均有所提高,均方殘差也有所下降,這表明經(jīng)過預(yù)處理,此模型的綜合性能得到提高。采用各預(yù)處理方式后,可溶性糖的結(jié)果(最佳p2為0.858 9)比不進(jìn)行預(yù)處理的結(jié)果(p2為0.887 6)稍差,可能因?qū)嶒?yàn)中采用的預(yù)處理方式并不能很好地去除變量中的噪聲等無關(guān)信息,或是在預(yù)處理過程中有效信息被弱化。游離氨基酸采用SG+SNV+autoscaling+ VPCA_GA +PLS建立的預(yù)測(cè)模型性能比采用其他算法組合建立的模型具有更高的穩(wěn)定級(jí)和預(yù)測(cè)性能,對(duì)比不進(jìn)行預(yù)處理進(jìn)行特征選擇后建模,p2和2更穩(wěn)定,p2更高,這意味著此模型的泛化能力比不進(jìn)行預(yù)處理的高,且預(yù)測(cè)性能更好。在實(shí)驗(yàn)中,建立咖啡堿的預(yù)測(cè)模型的最佳算法組合為SG+SNV+autoscaling+ SPA,p2為0.860 6,對(duì)比不進(jìn)行預(yù)處理模型,其性能得到巨大提升。在建模時(shí),采用正確的預(yù)處理方式很大程度地提升了預(yù)測(cè)模型的綜合性能,不匹配的預(yù)處理方式會(huì)導(dǎo)致有效信息被弱化,以致特征選擇效率降低。
在不進(jìn)行特征選擇而將完整的光譜作為有效特征建立的全光譜模型中,可溶性糖、游離氨基酸、咖啡堿3種內(nèi)含物模型在訓(xùn)練時(shí)驗(yàn)證得到的2較高,且RMSECV值較小,但使用測(cè)試集測(cè)試得到的p2遠(yuǎn)低于訓(xùn)練集,RMSEP值也明顯增大,出現(xiàn)了過擬合現(xiàn)象。說明利用全光譜模型的泛化能力較弱,這并非意味著全光譜建模具有不可行性。在茶多酚建模實(shí)驗(yàn)中,利用PLS基于全光譜建立的模型,其預(yù)測(cè)表現(xiàn)相較于SG+MSC+minmax +iPLS+PLS模型,其測(cè)試集的RMSEP值降低了約28%,相關(guān)系數(shù)提升了約3%。綜上分析,茶葉內(nèi)質(zhì)成分的預(yù)測(cè)模型采用的方案如表4所示。
表4 各內(nèi)質(zhì)成分選用建模方法
Tab.4 Modelling method selected for each biochemistry component
基于內(nèi)質(zhì)成分(化學(xué)法測(cè)定)與感官審評(píng)定級(jí)結(jié)果,在Matlab軟件的分類學(xué)習(xí)器中尋找合適的分級(jí)模型,驗(yàn)證方法為?折交叉驗(yàn)證,設(shè)定=5。在該分類器中的分類模型包括決策樹、判別分析、支持向量機(jī)、邏輯回歸、最近鄰、樸素貝葉斯、核逼近、集成和神經(jīng)網(wǎng)絡(luò)分類等分類器,通過執(zhí)行自動(dòng)訓(xùn)練搜索最佳分類模型類型。最終選擇隨機(jī)森林法[28]建立樹的數(shù)量為35的紅茶質(zhì)量定級(jí)模型,定級(jí)模型驗(yàn)證集的正確預(yù)測(cè)率為85.71%。
利用隨機(jī)抽樣方法,從二級(jí)茶青所制紅茶子樣本光譜中挑選21個(gè)光譜作為測(cè)試集,將測(cè)試集數(shù)據(jù)通過定量模型,獲取樣品內(nèi)質(zhì)成分預(yù)測(cè)含量。將內(nèi)質(zhì)成分預(yù)測(cè)含量輸入定級(jí)模型,得到測(cè)試集樣本的質(zhì)量等級(jí),其準(zhǔn)確率為90.48%,測(cè)試集的定級(jí)結(jié)果如表5所示,錯(cuò)誤定級(jí)樣品的內(nèi)質(zhì)成分信息如表6所示。
表5 感官審評(píng)與模型定級(jí)結(jié)果
Tab.5 Grading Result of sensory evaluation and our model
注:1、2、3分別表示二級(jí)一等、二級(jí)二等、二級(jí)三等;*表示錯(cuò)誤預(yù)測(cè)樣本。
表6 錯(cuò)誤定級(jí)樣本的內(nèi)質(zhì)成分信息
Tab.6 Biochemistry component information for mis-graded samples
由表6可知,錯(cuò)誤的2個(gè)樣本在使用光譜進(jìn)行定量預(yù)測(cè)時(shí),其茶多酚預(yù)測(cè)值與化學(xué)法測(cè)量值的偏差約為11%,其他內(nèi)質(zhì)成分的測(cè)量值與真實(shí)值較接近,偏差小于3%。預(yù)測(cè)結(jié)果表明,茶多酚對(duì)茶葉質(zhì)量等級(jí)具有較大影響,也證明基于感官審評(píng)和內(nèi)質(zhì)成分的紅茶定級(jí)方法具有可行性。
紅茶中的有效成分多種多樣,影響紅茶品質(zhì)的內(nèi)質(zhì)成分遠(yuǎn)不止4種。有研究者認(rèn)為茶多酚中的酯型兒茶素與非酯型兒茶素間的含量比值也可作為評(píng)價(jià)紅茶茶湯滋味的重要指標(biāo)[29],今后可進(jìn)一步完善該方法,通過近紅外光譜檢測(cè)紅茶或其他茶類中的有效成分,提高此方法的準(zhǔn)確性和適用性。此外,對(duì)茶進(jìn)行人工感官審評(píng)定級(jí)時(shí),除內(nèi)質(zhì)成分外,還需考慮茶葉外觀等因素[30],這些因素?zé)o法采用近紅外光譜表征。后續(xù)可進(jìn)一步利用近紅外光譜技術(shù)與其他技術(shù)(如機(jī)器視覺)相結(jié)合,以識(shí)別茶葉的外觀質(zhì)量,通過數(shù)據(jù)融合實(shí)現(xiàn)紅茶快速精準(zhǔn)的質(zhì)量定級(jí)[31]。
以英紅九號(hào)紅茶為研究對(duì)象,根據(jù)紅茶規(guī)模化發(fā)展的要求,從研究近紅外光譜、內(nèi)質(zhì)成分與茶葉等級(jí)的關(guān)系出發(fā),提出一種基于近紅外光譜的紅茶質(zhì)量快速定級(jí)方法。利用近紅外光譜儀收集紅茶樣品的光譜,通過卷積平滑與校正、標(biāo)準(zhǔn)化對(duì)光譜進(jìn)行預(yù)處理后,對(duì)光譜進(jìn)行特征選擇,建立優(yōu)選特征波長(zhǎng)變量與紅茶中內(nèi)質(zhì)成分間的定量模型。通過實(shí)驗(yàn)得到內(nèi)質(zhì)成分定量模型驗(yàn)證集的決定系數(shù):茶多酚為0.974 5,可溶性糖為0.887 6,游離氨基酸為0.963 6,咖啡堿為0.860 6。通過感官審評(píng)確定紅茶的質(zhì)量等級(jí),建立基于內(nèi)質(zhì)成分含量的紅茶質(zhì)量定級(jí)模型,其中使用隨機(jī)森林算法搭建模型的性能較好。將光譜預(yù)測(cè)的紅茶內(nèi)質(zhì)成分含量輸入定級(jí)模型,其輸出準(zhǔn)確率超過85%,測(cè)試集中誤判的2個(gè)樣本說明,定級(jí)模型對(duì)定量模型的精度要求較高。此方法有效統(tǒng)一了近紅外光譜、內(nèi)質(zhì)成分、感官審評(píng)定級(jí)之間的關(guān)系,為紅茶加工的質(zhì)量定級(jí)提供了一種可行方案。
[1] CHEN Quan-sheng, ZHANG Dong-liang, PAN Wen-xiu, et al. Recent Developments of Green Analytical Techniques in Analysis of Tea's Quality and Nutrition[J]. Trends in Food Science & Technology, 2015, 43(1): 63-82.
[2] 劉奇, 歐陽建, 劉昌偉, 等. 茶葉品質(zhì)評(píng)價(jià)技術(shù)研究進(jìn)展[J]. 茶葉科學(xué), 2022, 42(3): 316-330.
LIU Qi, OUYANG Jian, LIU Chang-wei, et al. Research Progress of Tea Quality Evaluation Technology[J]. Journal of Tea Science, 2022, 42(3): 316-330.
[3] HIDAYAT S N, TRIYANA K, FAUZAN I, et al. The Electronic Nose Coupled with Chemometric Tools for Discriminating the Quality of Black Tea Samples in Situ[J]. Chemosensors, 2019, 7(3): 29.
[4] 宋彥, 汪小中, 趙磊, 等. 基于近紅外光譜技術(shù)的眉茶拼配比例預(yù)測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2022, 38(2): 307-315.
SONG Yan, WANG Xiao-zhong, ZHAO Lei, et al. Predicting the Blending Ratio of Mee Tea Based on near Infrared Spectroscopy[J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(2): 307-315.
[5] 王淑賢, 肖航, 楊振發(fā), 等. 香精摻假普洱茶的近紅外光譜檢測(cè)[J]. 激光與光電子學(xué)進(jìn)展, 2020, 57(23): 392-397.
WANG Shu-xian, XIAO Hang, YANG Zhen-fa, et al. Detection of Flavor Adulterated Pu’er Tea by Near- Infrared Spectroscopy[J]. Laser & Optoelectronics Progress, 2020, 57(23): 392-397.
[6] 陳琦, 潘天紅, 李魚強(qiáng), 等. 基于卷積神經(jīng)網(wǎng)絡(luò)和近紅外光譜的太平猴魁茶產(chǎn)地鑒別分析[J]. 光譜學(xué)與光譜分析, 2021, 41(9): 2776-2781.
CHEN Qi, PAN Tian-hong, LI Yu-qiang, et al. Geographical Origin Discrimination of Taiping Houkui Tea Using Convolutional Neural Network and Near-Infrared Spectroscopy[J]. Spectroscopy and Spectral Analysis, 2021, 41(9): 2776-2781.
[7] REN Guang-xin, WANG Yu-jie, NING Jing-ming, et al. Highly Identification of Keemun Black Tea Rank Based on Cognitive Spectroscopy: Near Infrared Spectroscopy Combined with Feature Variable Selection[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2020, 230: 118079.
[8] ZUO Ya-min, TAN Gao-hao, XIANG Di, et al. Development of a Novel Green Tea Quality Roadmap and the Complex Sensory-Associated Characteristics Exploration Using Rapid Near-Infrared Spectroscopy Technology[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2021, 258: 119847.
[9] 周小芬, 葉陽, 周竹定, 等. 基于近紅外光譜法的大佛龍井茶品質(zhì)評(píng)價(jià)研究[J]. 光譜學(xué)與光譜分析, 2012, 32(11): 2971-2975.
ZHOU Xiao-fen, YE Yang, ZHOU Zhu-ding, et al. Study on Quality Evaluation of Dafo Longjing Tea Based on near Infrared Spectroscopy[J]. Spectroscopy and Spectral Analysis, 2012, 32(11): 2971-2975.
[10] 吳英. 萬州燕山紅茶鮮葉產(chǎn)量及品質(zhì)動(dòng)態(tài)變化研究[D]. 重慶: 重慶三峽學(xué)院, 2021: 46-50.
WU Ying. Study on Dynamic Change of Fresh Leaf Yield and Quality of Yanshan Black Tea in Wanzhou[D], Chongqing: Chongqing Three Gorges University, 2021: 46-50.
[11] LIN Xiao-hui, SUN Da-wen. Recent Developments in Vibrational Spectroscopic Techniques for Tea Quality and Safety Analyses[J]. Trends in Food Science & Technology, 2020, 104: 163-176.
[12] GB/T 8314—2013, 茶游離氨基酸總量的測(cè)定[S].
[12]GB/T 8314-2013, Tea—Determination of Free Amino Acids Content[S].
[13] GB/T 8313—2018, 茶葉中茶多酚和兒茶素類含量的檢測(cè)方法[S].
[13]GB/T 8313-2018, Determination of Total Polyphenols and Catechins Content in Tea[S].
[14] 傅博強(qiáng), 謝明勇, 聶少平, 等. 茶葉中多糖含量的測(cè)定[J]. 食品科學(xué), 2001, 22(11): 69-73.
FU Bo-qiang, XIE Ming-yong, NIE Shao-ping, et al. Method Simplified in Assaying Tea Polysaccharide[J]. Food Science, 2001, 22(11): 69-73.
[15] GB/T 8312—2013, 茶咖啡堿測(cè)定[S].
[15]GB/T 8312-2013, Tea—Determination of Caffeine Content[S].
[16] GB/T 23776—2018, 茶葉感官審評(píng)方法[S].
GB/T 23776-2018, Methodology for Sensory Evaluation of Tea[S].
[17] DING Yu-han, YAN Yu-li, LI Jun, et al. Classification of Tea Quality Levels Using Near-Infrared Spectroscopy Based on CLPSO-SVM[J]. Foods, 2022, 11(11): 1658.
[18] HUANG Yi-feng, DONG Wen-tao, SANAEIFAR A, et al. Development of Simple Identification Models for Four Main Catechins and Caffeine in Fresh Green Tea Leaf Based on Visible and Near-Infrared Spectroscopy[J]. Computers and Electronics in Agriculture, 2020, 173: 105388.
[19] WEI Jia-jin, ZHU Chen, ZHANG Zhi-min, et al. Two-Stage Iteratively Reweighted Smoothing Splines for Baseline Correction[J]. Chemometrics and Intelligent Laboratory Systems, 2022, 227: 104606.
[20] KENNARD R W, STONE L A. Computer Aided Design of Experiments[J]. Technometrics, 1969, 11(1): 137- 148.
[21] YUN Yong-huan, LI Hong-dong, DENG Bai-chuan, et al. An Overview of Variable Selection Methods in Multivariate Analysis of Near-Infrared Spectra[J]. TrAC Trends in Analytical Chemistry, 2019, 113: 102-115.
[22] ARAúJO M C U, SALDANHA T C B, GALV?O R K H, et al. The Successive Projections Algorithm for Variable Selection in Spectroscopic Multicomponent Analysis[J]. Chemometrics and Intelligent Laboratory Systems, 2001, 57(2): 65-73.
[23] LI Peng, MA Jun-chao, ZHONG Nan. Fourier Transform Near-Infrared Spectroscopy Coupled with Variable Selection Methods for Fast Determination of Salmon Fillets Storage Time[J]. Journal of Molecular Structure, 2022, 1264: 133223.
[24] YUN Yong-huan, BIN Jun, LIU Dong-li, et al. A Hybrid Variable Selection Strategy Based on Continuous Shrinkage of Variable Space in Multivariate Calibration[J]. Analytica Chimica Acta, 2019, 1058: 58-69.
[25] GEISSER S. The Predictive Sample Reuse Method with Applications[J]. Journal of the American Statistical Association, 1975, 70(350): 320-328.
[26] DENG Bai-chuan, YUN Yong-huan, LIANG Yi-zeng, et al. A New Strategy to Prevent Over-Fitting in Partial Least Squares Models Based on Model Population Analysis[J]. Analytica Chimica Acta, 2015, 880: 32-41.
[27] ERICKSON B. Basic Artificial Intelligence Techniques: Machine Learning and Deep Learning[J]. Radiologic Clinics of North America, 2021, 59(6): 933-940.
[28] DENG Xun-fei, LIU Zhi, ZHAN Yu, et al. Predictive Geographical Authentication of Green Tea with Protected Designation of Origin Using a Random Forest Model[J]. Food Control, 2020, 107: 106807.
[29] 盧丹敏, 歐陽建, 熊一帆, 等. 湖南紅茶品質(zhì)特征分析及其等級(jí)判別模型的構(gòu)建[J]. 食品工業(yè)科技, 2021, 42(10): 255-260.
LU Dan-min, OUYANG Jian, XIONG Yi-fan, et al. Analysis of the Quality Characteristics of Hunan Black Tea and the Establishment of Its Grade Discrimination Model[J]. Science and Technology of Food Industry, 2021, 42(10): 255-260.
[30] 徐立恒, 呂進(jìn), 林敏, 等. 茶葉中3類主要組分的近紅外光譜分析作為茶葉質(zhì)量的快速評(píng)定方法[J]. 理化檢驗(yàn)-化學(xué)分冊(cè), 2006, 42(5): 334-336.
XU Li-heng, LYU Jin, LIN Min, et al. NIR Spectrometric Analysis of 3 Kinds of Main Components in Tea as a Rapid Method of Qualification of Tea[J]. Physical Testing and Chemical Analysis (Part B (Chemical Analysis)), 2006, 42(5): 334-336.
[31] 金山峰, 王冬欣, 黃俊仕, 等. 基于計(jì)算機(jī)視覺的茶葉品質(zhì)在線評(píng)價(jià)系統(tǒng)[J]. 食品工業(yè)科技, 2021, 42(14): 219-225.
JIN Shan-feng, WANG Dong-xin, HUANG Jun-shi, et al. Online Evaluation System of Tea Quality Based on Computer Vision[J]. Science and Technology of Food Industry, 2021, 42(14): 219-225.
Rapid Grading Method of Black Tea 'Yinghong 9' Based on Near-infrared Spectroscopy
LIANG Jian-hua1,2,GUO Jia-ming2,XIA Hong-ling1,MA Cheng-ying1,HU Hai-tao3,QIAO Xiao-yan1
(1. Tea Research Institute, Guangdong Academy of Agricultural Science/Guangdong Provincial Key Laboratory of Tea Plant Resources Innovation & Utilization, Guangzhou 510640, China; 2. College of Engineering, South China Agricultural University, Guangzhou 510642, China; 3. Guangdong Hongyan Tea Industry Co., Ltd., Guangdong Yingde513042, China)
The tea production is developing towards large-scale currently, and the quality evaluation of tea after processing still relies on highly subjective artificial sensory evaluation, which is not suitable for the large-scale development of tea. Near-infrared spectroscopy (NIRS) has rich structural and compositional information, which is suitable for the detection of physicochemical parameters of hydrogen-containing organic substances. So it is widely used in the detection of biochemistry components of tea and the classification, such as authenticity discrimination and origin traceability. The work aims to take 'Yinghong 9' black tea as the research object, and propose a rapid grading method for tea quality based on NIRS. Firstly, a total of 42 samples of black tea processed from the fresh tea leaves of various grades were collected, a sub-sample was taken from each sample and ground into powder. A NIR spectrometer was used to scan tea powder to collect the spectrum of each sample. Secondly, quantitative models for the biochemistry components were constructed based on NIRSto gain the biochemistry component information of black tea. Thirdly, 5 professional tea tasters were invited to conduct sensory evaluation on all samples. Based on the opinions of the tea tasters, the quality grade of tea samples were determined. Finally, the relationship between sensory evaluation results and biochemistry components were established to achieve the quality grading of 'Yinghong 9' black tea. In particular, when establishing the grading model, only the black tea processed from the second grade fresh leaves was selected and divided into three grades according to the sensory evaluation results. The quantitative models of four biochemistry components including tea polyphenol, soluble sugar, free amino acid and caffeine in black tea were established while these four quantitative models were preprocessed by combination data correction and normalization to reduce noise, drift as well as other interference and improve the difference between samples. These quantitative models were uniformly built using Partial Least Squares algorithm after using Genetic Algorithm, Successive Projections Algorithm, Variable Combination Population Analysis combined with Genetic Algorithm and other algorithms respectively to extract features. In order to ensure the reliability and stability of the model, Kennard-Stone algorithm was used to divide the samples into calibration set and test set before modeling, and K-fold verification was used in the modeling process. The principal components of the four quantitative models were all less than 10. The coefficients of determination on calibration set were tea polyphenol 0.974 5, soluble sugar 0.887 6, free amino acid 0.963 6 and caffeine 0.860 6 and the Root Mean Squared Error were 0.630 0, 0.298 3, 0.045 6, 0.162 6, respectively. The grading model based on sensory evaluation and biochemistry components had an accuracy of over 85%, which was built using Random Forest algorithm with 35 trees. The research results provide a feasible scheme for rapid grading of processed black tea based on specially graded fresh tea leaves, and effectively improve the interpretability of black tea grading.
near-infrared spectroscopy; black tea; grade; biochemistry components
TS207.3;O657.33
A
1001-3563(2023)13-0157-09
10.19554/j.cnki.1001-3563.2023.13.019
2023?02?02
廣東省鄉(xiāng)村振興戰(zhàn)略專項(xiàng)資金(農(nóng)業(yè)科技能力提升)(403?2018?XMZC?0002?90);廣東省農(nóng)業(yè)科學(xué)院“中青年學(xué)科帶頭人”培養(yǎng)項(xiàng)目(R2020PY?JX016)
梁建華(1997—),碩士生,主攻農(nóng)業(yè)機(jī)械。
喬小燕(1982—),女,博士,副研究員,主要研究方向?yàn)椴枞~加工。
責(zé)任編輯:彭颋