段丹丹, 劉仲華, 趙春江, 趙 鈺, 王 凡
1. 湖南農(nóng)業(yè)大學(xué)園藝學(xué)院, 湖南 長沙 410128
2. 國家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097
3. 北京市農(nóng)林科學(xué)院智能裝備技術(shù)研究中心, 北京 100097
茶鮮葉內(nèi)含物質(zhì)的豐富程度, 直接影響到成品茶品質(zhì)的上限。 因此從源頭開始監(jiān)測茶樹生長態(tài)勢, 尤其茶鮮葉中茶多酚含量, 是茶產(chǎn)業(yè)發(fā)展的重要環(huán)節(jié)。 影響紅茶品質(zhì)的理化成分有茶多酚、 咖啡堿及氨基酸, 茶黃素、 芳香物質(zhì)等在紅茶品質(zhì)的評定中也發(fā)揮著重要作用[1]。 目前茶葉品質(zhì)的評定只能在茶葉采摘、 加工之后進(jìn)行, 存在嚴(yán)重的滯后性, 所以利用遙感數(shù)據(jù)從源頭監(jiān)測茶樹不同生長時(shí)期生長態(tài)勢, 探究不同時(shí)期的茶鮮葉內(nèi)含物, 對于實(shí)時(shí)指導(dǎo)茶業(yè)生產(chǎn)、 及時(shí)實(shí)施精細(xì)化和科學(xué)化的管理等具有重要意義。
關(guān)于茶葉品質(zhì)量化評估的研究主要有以下2個(gè)方面: (1)實(shí)驗(yàn)室理化分析量化茶葉品質(zhì)[2-3]是傳統(tǒng)的茶品質(zhì)監(jiān)測方法, 時(shí)效性差且需要大量的人力物力。 (2)無損檢測技術(shù)以高效、 便捷且成本低等優(yōu)勢在茶品質(zhì)監(jiān)測方面得到了廣泛的關(guān)注。 利用茶光譜信息為自變量, 結(jié)合不同的估測方法快速對茶多酚、 茶氨酸、 茶葉氮磷鉀、 葉綠素含量等進(jìn)行了大量的測試。 Wang等[4]利用HSI與化學(xué)計(jì)量學(xué)相結(jié)合, 預(yù)測了五個(gè)栽培品種的茶葉中的P和K含量, 預(yù)測相關(guān)系數(shù)R達(dá)到0.942 3(P)和0.916 8(K)。 Lin等[5]揭示了近紅外光譜在茶葉質(zhì)量評價(jià)中的主導(dǎo)地位, 回歸模型在茶葉的定量分析中得到了廣泛的應(yīng)用, 如酚類、 黃酮類物質(zhì)、 色素、 感官評價(jià)和農(nóng)藥殘留, 而分類模型則有助于區(qū)分地理產(chǎn)地、 品種和發(fā)酵程度。 Jia等[6]基于近紅外光譜技術(shù)建立了岳州龍井茶不同品質(zhì)等級(jí)的感官品質(zhì)評分、 總兒茶素和咖啡因的定量預(yù)測模型, 感官評分、 總兒茶素和咖啡因的最佳預(yù)測模型為VCPA-IRIV+SVR、 VCPA-IRIV+RF和CARS+SVR, 相對百分比偏差(RPD)分別為2.485、 2.584和2.873。 Ren等[7]采用偏最小二乘(partial least squares, PLS)算法對不同地理來源的紅茶咖啡因、 水提取物、 總多酚和游離氨基酸水平的模型進(jìn)行校準(zhǔn)成功地用于快速確定紅茶的主要化學(xué)成分和地理起源。 Wang等[8]結(jié)合高光譜成像(HSI)使用變量選擇算法預(yù)測在不同氮處理水平下茶葉中的葉綠素a(Chl a), 葉綠素b(Chl b), 總?cè)~綠素(總Chl)和類胡蘿卜素(Car)含量。 Yamashita等[9]研究發(fā)現(xiàn)在1 325~1 575 nm處可用于葉片氮和葉綠素(Chl)含量的無損估計(jì)。 茶葉近紅外光譜[10]、 熒光高光譜[11]、 高光譜[12]等信息已被用于不同種類茶葉品質(zhì)與等級(jí)及產(chǎn)地的量化判別模型。 光譜監(jiān)測技術(shù)在大田作物上已經(jīng)得到廣泛應(yīng)用, 茶葉因其結(jié)構(gòu)特性以及采摘部位與大田作物有著較大區(qū)別。 目前, 基于遙感技術(shù)在茶葉內(nèi)含物質(zhì)方面的研究以單個(gè)生育期的葉片作為檢測對象為主, 葉片光譜特性被廣泛應(yīng)用于茶葉品質(zhì)監(jiān)測, 但葉片尺度遙感信息將限制大區(qū)域茶品質(zhì)監(jiān)測研究。 茶樹主要采茶季(春茶、 夏茶、 秋茶)茶樹冠層結(jié)構(gòu)以及茶葉內(nèi)含物質(zhì)的含量均存在較大差異, 且對冠層尺度和葉片尺度光譜響應(yīng)上具有較大差異。 不同尺度光譜特征在不同生育時(shí)期茶品質(zhì)監(jiān)測方面仍缺乏系統(tǒng)、 全面的研究。
本研究以茶鮮葉為研究對象, 基于葉片和冠層光譜特征對5個(gè)茶園不同生育時(shí)期茶鮮葉茶多酚含量進(jìn)行監(jiān)測, 并利用不同的深度學(xué)習(xí)算法[偏最小二乘法(partial least squares, PLS)、 隨機(jī)森林(random forest, RF)和多元線性回歸(multiple linear regression, MLR)]構(gòu)建了基于光譜特征的茶鮮葉原位茶多酚估算模型, 最后用于獨(dú)立樣本驗(yàn)證。
本實(shí)驗(yàn)于2020年3月—11月在廣東省英德市茶葉生產(chǎn)示范基地進(jìn)行。 該區(qū)域位于北緯24.24°, 東經(jīng)113.79°, 平均海拔為181 m(見圖1)。 英德市處于南亞熱帶向中亞熱帶的過渡地區(qū), 屬亞熱帶季風(fēng)氣候, 夏季盛行偏南的暖濕氣流, 冬季盛行干冷的偏北風(fēng)。 全年平均氣溫變化在20.10~22.00 ℃之間。 實(shí)驗(yàn)品種涵蓋英紅九號(hào)、 金萱、 鴻雁十二號(hào)、 黃旦、 金牡丹、 英州一號(hào)、 梅占、 云南大葉、 黃玫瑰和軟枝烏龍共計(jì)10個(gè)品種, 均為10年樹齡。 春茶從立春開始進(jìn)行春茶觀測周期, 選取清明節(jié)前一周、 谷雨前一周。 夏茶采摘期在小滿前一周、 芒種前一周。 從立秋開始, 選取秋分前一周、 寒露前一周, 每組樣本設(shè)置5個(gè)重復(fù)。 共抽取了198個(gè)樣本點(diǎn), 獲取春茶共計(jì)82個(gè)樣本, 夏茶共計(jì)67個(gè)樣本, 秋茶共計(jì)49個(gè)樣本。
圖1 研究區(qū)域
將檢測過高光譜信息的茶鮮葉, 采用國標(biāo)法GB/T8305—2013測茶多酚的含量。 采用70%的甲醇水溶液在70 ℃水浴上進(jìn)行提取, 福林酚試劑氧化茶多酚中—OH基團(tuán)并顯藍(lán)色, 在波長765 nm處測得吸收值, 同時(shí)用沒食子酸作校正標(biāo)準(zhǔn)定量茶多酚。
1.3.1 冠層光譜測定
實(shí)驗(yàn)包含5個(gè)茶園, 每個(gè)茶園選取約10個(gè)樣本點(diǎn)進(jìn)行測量, 每個(gè)樣本點(diǎn)測量10次獲取茶鮮葉冠層光譜數(shù)據(jù), 10次光譜的平均值作為該樣點(diǎn)的最終光譜曲線。 本研究光譜測量采用美國ASD的光譜儀FieldSpec4, 波段范圍為350~2 500 nm, 在350~1 000 nm光譜區(qū)的分辨率為1.40 nm, 在1 000~2 500 nm間分辨率為2 nm, 采樣間隔為1 nm。 測定選擇在天氣晴朗、 無風(fēng)或風(fēng)速很小的天氣條件下, 10:00—14:00進(jìn)行。 每次測量前用標(biāo)準(zhǔn)白板校正, 將傳感器探頭垂直向下, 距樹冠層頂垂直高度約1 m, 傳感器視場角為25°, 如圖2(a)。
圖2 茶鮮葉冠層光譜數(shù)據(jù)獲取(a), 茶鮮葉葉片光譜數(shù)據(jù)獲取(b)
1.3.2 葉片光譜測定
在對應(yīng)取樣位置測定整體冠層光譜信息之后采摘一芽二葉茶鮮葉, 在實(shí)驗(yàn)室采用葉片夾和光譜儀測量葉片光譜信息[同步采摘每份樣品約200 g, 在每份樣品中取10片茶葉(約3 g)進(jìn)行光譜測量]。 每個(gè)葉片樣本進(jìn)行10次光譜重復(fù)測量, 將測得的葉片反射光譜異常值剔除后, 取其平均值作為該樣本的反射率, 如圖2(b)。
對于冠層反射光譜, 剔除水分噪音較大的1 400~1 500、 1 800~2 000以及2 300~2 500 nm之間的波段。 葉片光譜的獲取因?yàn)樵诳刂骗h(huán)境下, 因此沒有進(jìn)行波段刪除。 利用標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate transformation, SNV)算法主要是用來消除因固體顆粒大小不均、 物體表面散射、 光程改變等一些因素產(chǎn)生的對光譜的不利影響。 采用SNV對茶鮮葉葉片和冠層的光譜反射率進(jìn)行預(yù)處理, 結(jié)果如圖3(a—d)所示。
圖3 基于SNV預(yù)處理的冠層和葉片光譜反射率
1.5.1 特征波段篩選方法
擬運(yùn)用連續(xù)投影算法(successive projections algorithm, SPA)和競爭性自適應(yīng)加權(quán)采樣算法(competitive adaptive weighted sampling algorithm, CARS)篩選出有效光譜信息。 連續(xù)投影算法(SPA)作為一種變量選擇技術(shù), 通過最小化校準(zhǔn)數(shù)據(jù)集中的共線性優(yōu)化模型構(gòu)建條件。 競爭性自適應(yīng)重加權(quán)采樣算法(CARS)基于頻譜的應(yīng)用中用于關(guān)鍵變量篩選的新開發(fā)算法。 基于自適應(yīng)加權(quán)采樣(CARS)和達(dá)爾文進(jìn)化論中的“適者生存”的原理。 這兩種方法是選擇基于全光譜波長中存在的最佳特征變量的有效方法, 并展示出良好的性能[13]。 基于SPA和CARS從茶鮮葉的光譜數(shù)據(jù)中提取具有最小共線性冗余度和最大投影矢量的波段變量, 以減少變量的數(shù)量并提高模型的速度和效率。
1.5.2 建模方法
偏最小二乘回歸(partial least squares, PLS)主要研究多因變量或單因變量對多自變量的回歸建模, 最簡單的形式是因變量y與自變量x之間的線性回歸模型。
隨機(jī)森林(random forest, RF)是一個(gè)包含多個(gè)決策樹的分類器, 其輸出類別是由個(gè)別樹輸出的類別的眾數(shù)而定, 采用袋外數(shù)據(jù)集(out-of-bag data, OOB)重要性原則, 對數(shù)據(jù)進(jìn)行降維。
多元線性回歸(multiple linear regression, MLR)是包括兩個(gè)或兩個(gè)以上自變量對一個(gè)因變量的回歸模型。
所有的實(shí)驗(yàn)數(shù)據(jù)隨機(jī)按照2∶1選擇出需要的校正集樣本數(shù)目。 根據(jù)茶多酚含量估算模型的構(gòu)建, 選取決定系數(shù)(coefficient of determination,R2)、 均方根誤差(root mean squared error, RMSE)作為模型精度的驗(yàn)證。R2反映模型建立和驗(yàn)證的穩(wěn)定性,R2越接近于1, 說明模型的穩(wěn)定性越好、 擬合程度越高。 RMSE用來檢驗(yàn)?zāi)P偷恼`差, RMSE越小模型估算能力越好。
如圖4所示, 通過實(shí)驗(yàn)室理化分析檢測以上10種茶樹鮮葉的茶多酚含量(干重15%~20%), 不同季節(jié)茶多酚含量存在較大差異。 (1)秋茶的茶多酚含量顯著高于春茶和夏茶。 春茶茶多酚平均含量最低(15.40%), 夏茶茶多酚平均含量次之(18.37%), 秋茶茶多酚平均含量最高(20.63%)。 (2)春茶、 夏茶和秋茶茶多酚平均含量分別為8.84%~21.87%, 13.22%~23.71%和13.55%~23.36%。
圖4 不同生育時(shí)期茶多酚含量(%)
特征波段的選擇是建立茶鮮葉品質(zhì)成分預(yù)測模型的關(guān)鍵, 冠層尺度光譜特征和葉片尺度光譜特征篩選結(jié)果見表1。 茶多酚的特征波段主要集中在短波近紅外波段(2 100~2 200 nm附近)、 近紅外(1 300~1 400 nm附近)、 紅波-紅邊波段及綠波段。
表1 茶多酚的特征波段篩選結(jié)果
表1葉片與冠層兩種尺度不同的波段篩選結(jié)果, 分別采用偏最小二乘回歸(PLS), 隨機(jī)森林回歸(RF)以及多元線性回歸(MLR)方法對春茶、 夏茶、 秋茶的鮮葉的茶多酚含量進(jìn)行估算。 茶多酚含量估算模型結(jié)果如表2所示。
表2 茶多酚含量估算模型
表2中, 基于葉片光譜特征構(gòu)建的茶多酚模型普遍高于基于冠層尺度構(gòu)建的模型, 且PLS和MLR模型的精度普遍高于RF模型精度。 以春茶、 夏茶和秋茶葉片尺度運(yùn)用SPA篩選的特征波段所建模型為例, MLR建模精度最高,R2分別為0.53、 0.42和0.42, RMSE分別為1.25、 1.70和1.66。 在于春茶、 夏茶和秋茶冠層光譜特征構(gòu)建的茶多酚模型中CARS-MLR、 SPA-MLR和CARS-MLR模型精度最高,R2分別為0.57、 0.45和0.57, RMSE分別為1.34、 1.68和1.69。
利用驗(yàn)證集數(shù)據(jù)對所構(gòu)建的模型進(jìn)行驗(yàn)證, 茶多酚含量驗(yàn)證結(jié)果如表3所示。 基于春茶、 夏茶和秋茶葉片光譜特征的驗(yàn)證模型中SPA-PLS模型、 SPA-MLR和SPA-MLR模型精度較高,R2分別為0.43、 0.36和0.38, RMSE分別為1.44、 1.96和2.49。 在春茶、 夏茶和秋茶冠層光譜特征的驗(yàn)證模型中CARS-MLR模型、 SPA-MLR和CARS-MLR模型精度較高,R2分別為0.39、 0.40和0.23, RMSE分別為1.91、 1.91和2.25。
表3 茶多酚含量驗(yàn)證模型
結(jié)果如圖5(a—f)所示, 展示了葉片和冠層兩個(gè)尺度, 兩種波段提取方法下三種模型的預(yù)測效果, 春、 夏、 秋茶三個(gè)季節(jié)的最優(yōu)茶多酚預(yù)測模型1∶1擬合圖。
圖5 茶多酚最優(yōu)模型1∶1擬合圖
采用葉片與冠層兩個(gè)尺度的光譜特征對春、 夏、 秋三個(gè)生長時(shí)期的10個(gè)品種進(jìn)行茶多酚含量監(jiān)測。 不同季節(jié)茶多酚含量存在明顯差異, 并呈現(xiàn)出從春茶到秋茶顯著遞增的趨勢。 茶多酚是光合作用等一系列生理活動(dòng)的產(chǎn)物, 隨著光合作用累積的同化產(chǎn)物的增加, 茶多酚的含量也逐步增加。 同時(shí), 春茶滋味鮮爽, 苦澀味少, 秋茶風(fēng)味醇厚, 經(jīng)久耐泡也從側(cè)面反映了不同季節(jié)茶多酚對茶葉風(fēng)味的影響。 所篩選的茶多酚的重要光譜區(qū)域主要集中在1 300~1 400和2 100~2 200 nm附近, 主要?dú)w因于O—H拉伸的第二泛音和第三泛音, 與王凡等[14]研究也得到了相同的結(jié)果。 該結(jié)果區(qū)別與作物在生物量、 葉綠素及葉面積指數(shù)等方面以紅波段和近紅外波段為主的敏感波段, 由于茶多酚屬于微量礦物質(zhì)。 在研究過程中發(fā)現(xiàn): (1)SPA已被證實(shí)為一種非常有效的變量選擇方法, 可以將變量之間的共線性降到最低。 與之相比, CARS作為一種較新的變量選擇理論, 研究證明該方法在變量選擇的過程中, 可以同時(shí)對共線性變量進(jìn)行有效壓縮以及無信息變量進(jìn)行有效的去除, SPA篩選出來的波段總體比CARS數(shù)量少, 說明原始波段中可能存在大量共線性變量; (2)盡管CARS可以有效壓縮共線性變量, 但壓縮后的變量仍然存在部分集中共線性; (3)較少的特征波段, 有利于降低開發(fā)在線檢測設(shè)備的成本, 更有利于儀器的開發(fā)。 SPA更適宜茶多酚的敏感波段的篩選。
基于三種建模方法(PLS、 RF、 MLR)得到的實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn), 通過MLR進(jìn)行建模精度較好, 而RF實(shí)驗(yàn)結(jié)果均較差, 與陶惠林等[15]研究結(jié)果相似。 可能RF模型對小樣本數(shù)據(jù), 雖然學(xué)習(xí)能力強(qiáng), 但預(yù)測能力弱, 并且在驗(yàn)證模型中表現(xiàn)出欠擬合的現(xiàn)象。 綜合模型的適用性, 以及空間尺度和時(shí)間尺度, MLR方法模型更適合茶多酚含量的估算。 相比冠層尺度的茶多酚模型, 本工作在葉片尺度構(gòu)建的模型具有更高的精度。 一方面, 葉片光譜是直接對茶葉樣本進(jìn)行的測定, 而冠層光譜測定范圍比樣本采集范圍更大; 另一方面, 冠層光譜受非觀測茶葉目標(biāo)及土壤等因素影響。 冠層尺度的茶多酚模型的精度雖然低于葉片尺度的模型精度, 但其為大尺度進(jìn)行茶葉品質(zhì)監(jiān)測提供了科學(xué)依據(jù)。
相比于傳統(tǒng)的茶葉品質(zhì)的感官評審和化學(xué)檢測, 本研究進(jìn)行的原位、 快速、 大面積、 無損傷性品質(zhì)分析避免主觀判斷的影響。 另外, 將高光譜數(shù)據(jù)有效降維, 可降低檢測茶多酚含量儀器的開發(fā)成本。 對于茶農(nóng)進(jìn)行茶園精準(zhǔn)化栽培, 茶企針對茶青品質(zhì)進(jìn)行標(biāo)準(zhǔn)化加工, 提高成品茶的質(zhì)量具有重要意義。
(1)采用國標(biāo)法對茶樹葉片與冠層兩個(gè)尺度春茶、 夏茶、 秋茶三個(gè)關(guān)鍵生育期的連續(xù)實(shí)驗(yàn)室理化檢測。 檢測到從春茶到秋茶鮮葉茶多酚含量逐步增加的變化趨勢(春茶茶多酚含量占干重15.37%<夏茶茶多酚含量占干重18.29%<秋茶茶多酚含量占干重20.77%)。
(2)茶多酚的特征波段主要集中在2 100~2 200 nm附近、 1 300~1 400 nm附近以及紅波-紅邊波段及綠波段。
(3)在春茶、 夏茶和秋茶冠層光譜特征構(gòu)建的茶多酚模型中CARS-PLS、 SPA-MLR和CARS-PLS模型精度最高, 建模集R2分別為0.56、 0.45和0.52, RMSE分別為1.15、 1.68和1.77; 驗(yàn)證集R2分別為0.43、 0.40和0.41, RMSE分別為1.60、 1.91和1.91; 對春茶、 夏茶和秋茶冠層葉片光譜特征構(gòu)建的茶多酚模型中SPA-PLS、 CARS-PLS和SPA-MLR模型精度最高, 建模集R2分別為0.50、 0.42和0.42, RMSE分別為1.25、 1.70和1.66; 驗(yàn)證集R2分別為0.43、 0.36和0.38, RMSE分別為1.44、 1.96和2.49。
(4)綜合比較, 基于冠層的光譜數(shù)據(jù)來源構(gòu)建的茶多酚預(yù)測模型精度較高, 可以有效預(yù)測茶多酚含量。