楊寶華,高 遠(yuǎn),王夢(mèng)玄,齊 麟,寧井銘
1. 安徽農(nóng)業(yè)大學(xué)信息與計(jì)算機(jī)學(xué)院,安徽 合肥 230036 2. 安徽農(nóng)業(yè)大學(xué)茶樹(shù)生物與利用國(guó)家重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230036
黃茶是一種微發(fā)酵茶葉,因其獨(dú)特的風(fēng)味和品質(zhì)而受到消費(fèi)者的喜愛(ài)。有研究表明香氣是影響茶葉風(fēng)味和品質(zhì)的重要因子[1],茶多酚(tea polyphenols,TP)又是決定茶葉香氣的主要成分。因此,檢測(cè)茶多酚含量是評(píng)價(jià)黃茶品質(zhì)的關(guān)鍵。然而,傳統(tǒng)檢測(cè)茶多酚含量大部分通過(guò)化學(xué)方法,由于實(shí)驗(yàn)繁瑣導(dǎo)致茶葉的功能難以深入挖掘,因此快速、準(zhǔn)確估測(cè)茶多酚含量,對(duì)黃茶品質(zhì)鑒定和定量分析具有重要意義。
目前,隨著光譜儀器和數(shù)據(jù)處理技術(shù)的發(fā)展,利用光譜檢測(cè)茶葉中茶多酚含量的相關(guān)研究較為廣泛。Ren等對(duì)不同產(chǎn)地的紅茶進(jìn)行識(shí)別,結(jié)果表明近紅外光譜可以快速確定紅茶的茶多酚含量[2]。Dutta等對(duì)印度茶進(jìn)行分析,結(jié)果表明光譜可以準(zhǔn)確估測(cè)茶多酚含量[3]。Hazarika等對(duì)新鮮茶葉進(jìn)行檢測(cè),結(jié)果表明近紅外反射(NIR)光譜可以快速估算新鮮茶葉中的茶多酚含量[4]。然而,由于近紅外光譜缺乏空間信息,從而限制了茶多酚的深入研究。
高光譜成像技術(shù)因具有同時(shí)獲取被測(cè)物的空間信息和光譜信息的優(yōu)勢(shì),已經(jīng)成功被用于檢測(cè)茶葉的主要成分。Tu根據(jù)茶葉的高光譜圖像分析光譜特征,預(yù)測(cè)茶多酚含量[5]。Yang利用高光譜成像系統(tǒng)預(yù)測(cè)黃茶的氨基酸成分[6]。Sohara利用高光譜圖像估測(cè)綠茶中兒茶素濃度[7]。盡管高光譜圖像已經(jīng)成功用于估測(cè)茶葉成分,由于缺乏有效的空間信息和光譜信息導(dǎo)致估測(cè)模型的精確度不高。蔡慶空等提出基于光譜信息和空間信息的模型用于茶葉分類[8],證明了融合特征的有效性。因此,有必要融合空間-光譜特征,提高茶多酚含量的檢測(cè)能力。
小波變換由于具有多分辨率分析的優(yōu)勢(shì)而被廣泛應(yīng)用,在高光譜特征提取中,小波變換不僅表示多尺度多分辨率的輪廓信息,而且能夠提取更多的細(xì)節(jié)特征信息,Li等結(jié)合小波變換和灰度共生矩陣(gray level co-occurrence matrix,GLCM)從多光譜圖像中提取特征并估計(jì)茶葉色素,取得了良好的效果[9]。但是,很少有關(guān)于黃茶高光譜圖像的小波變換的相關(guān)研究報(bào)道。因此,本研究利用小波變換提出一種融合光譜和空間特征的茶多酚含量估測(cè)模型,克服光譜特征的易飽和性,為黃茶的品質(zhì)檢測(cè)提供技術(shù)支持。
從當(dāng)?shù)厥袌?chǎng)購(gòu)買五種來(lái)自不同產(chǎn)地的黃茶作為實(shí)驗(yàn)材料,包括平陽(yáng)黃湯(浙江省平陽(yáng)縣產(chǎn))、莫干黃芽(浙江省德清縣產(chǎn))、霍山黃芽(安徽省霍山縣產(chǎn))、蒙頂黃芽(四川省蒙頂山產(chǎn))、君山銀針(湖南岳陽(yáng)產(chǎn)),這五種茶是中國(guó)著名的黃茶,用錫箔袋包裝成50 g·袋-1,避光低溫貯藏。
試驗(yàn)用的高光譜圖像采集系統(tǒng)包括光譜成像儀(Imspector V17E,Spectral Imaging Ltd.,Oulu,Finland)、CCD相機(jī)(IPX-2M30,ImperxInc.,Boca Raton,FL,USA),2個(gè)150 W的鹵素?zé)?3900,Illumination Technologies Inc.,New York,USA),數(shù)據(jù)采集暗箱,反射式線性光道管和電控位移平臺(tái)(MTS120,北京光學(xué)儀器廠,中國(guó))以及圖像采集和分析軟件(Spectral Image Software,Isuzu Optics Corp.,Taiwan,China)組成。反射光源的四個(gè)4個(gè)鹵鎢燈均勻分布在暗箱內(nèi)的環(huán)形支架上,光源照射方向與豎直方向呈45°。
1.2.1 數(shù)據(jù)采集
實(shí)驗(yàn)在暗室中進(jìn)行,每個(gè)品種選取20個(gè)樣本,分別稱取(20±0.5) g黃茶樣品均勻平鋪在規(guī)格為φ9 cm×1 cm 黑色的培養(yǎng)皿中,共得到100組大小為636×814×508的高光譜數(shù)據(jù),波長(zhǎng)范圍是908~1 735 nm。曝光時(shí)間和物鏡的高度為2 ms和28 cm,移動(dòng)平臺(tái)的輸送速度為8.0 mm·s-1。其中光譜成像儀的光譜分辨率為5 nm。為了消除暗電流的影響,原始獲得的高光譜圖像進(jìn)行校正。選擇高光譜圖像中間50×50像素范圍為感興趣區(qū)域(region of interest,ROI),提取ROI所有像素的光譜值,計(jì)算其平均值作為這個(gè)樣本的光譜值。茶多酚含量依據(jù)GB/T 31740.2—2015標(biāo)準(zhǔn)進(jìn)行測(cè)定。
1.2.2 空間特征獲取
連續(xù)小波變換(continuous wavelet transform,CWT)是高光譜信息中弱特征提取的重要技術(shù)手段,它可以將光譜信號(hào)分解成不同頻率的子信號(hào),有效利用光譜信息的整體結(jié)構(gòu)特征,提取光譜信號(hào)中隱藏的弱信息。用高光譜系統(tǒng)掃描五種黃茶,獲取100個(gè)樣品的高光譜圖像,從感興趣的區(qū)域提取黃茶的反射率,并利用連續(xù)小波變換將其變換到不同尺度下的小波系數(shù)。同時(shí),利用小波系數(shù)能量之和篩選敏感波長(zhǎng)。
設(shè)Xi為CWT處理光譜后的小波系數(shù),i代表不同的尺度因子(i=21,22,23,…),則小波系數(shù)能量為各尺度下小波系數(shù)的平方,設(shè)Ei為小波系數(shù)能量,S代表小波系數(shù)能量之和[10]。
(1)
(2)
小波變換對(duì)圖像進(jìn)行不同尺度的分解,從而獲得不同層次的輪廓信息和細(xì)節(jié)信息。通常,一幅圖像經(jīng)過(guò)一次小波變換后產(chǎn)生3個(gè)高頻子帶圖像,包括HL、LH和HH,分別表示水平高頻分量、垂直高頻分量和對(duì)角線高頻分量,反映圖像信號(hào)水平方向、垂直方向與對(duì)角線方向邊緣、輪廓和紋理。按照式(3)—式(7),利用小波系數(shù)計(jì)算的統(tǒng)計(jì)值作為小波紋理特征,包括能量(energy)和熵(entropy)。
(3)
(4)
(5)
(6)
(7)
其中,∧=|LH,HL,HH|,l(i)(i=0,1,2,…,Nl-1),h(j)(j=0,1,2,…,Nh-1)分別為低通和高通濾波器的脈沖響應(yīng),x=0,2,4,…,M,y=0,1,2,…,N,Nl和Nh分別為低通和高通濾波器的長(zhǎng)度。
灰度共生矩陣是一種有效的紋理分析的統(tǒng)計(jì)技術(shù),本研究通過(guò)二階概率統(tǒng)計(jì)濾波的方式提取特征波長(zhǎng)對(duì)應(yīng)的高光譜圖像的紋理特征[11],包括平均值(mean)、方差(variance)、協(xié)同性(homogeneity)、對(duì)比度(contrast)、相異性(dissimilarity)、熵(entropy)、角二階矩(angular second moment)和相關(guān)性(correlation)。
1.2.3 回歸算法
偏最小二乘回歸(partial least squares regression,PLSR)已成為非常流行的預(yù)測(cè)方法[12],PLSR結(jié)合了主成分分析和多元回歸的功能,通過(guò)大量原始描述到少量潛在變量的線性過(guò)渡,從而提供了可預(yù)測(cè)性方面的最佳線性模型。支持向量回歸(support vector regression,SVR)的原理[13]是將原本復(fù)雜的低維非線性回歸問(wèn)題利用映射關(guān)系轉(zhuǎn)化為高維空間的線性回歸。隨機(jī)森林(random forest,RF)是一種回歸樹(shù)技術(shù),通過(guò)集成學(xué)習(xí)的思想將多棵樹(shù)集成的一種算法,它使用引導(dǎo)程序聚合和預(yù)測(cè)變量的隨機(jī)化來(lái)實(shí)現(xiàn)高度的預(yù)測(cè)準(zhǔn)確性[14]。
1.2.4 模型評(píng)價(jià)
為了使建立的模型具有普適性,在試驗(yàn)中將數(shù)據(jù)按照7∶3劃分為校正集和驗(yàn)證集。使用決定系數(shù)(coefficient of determination,R2)和均方根誤差(root mean squared error,RMSE)作為模型精度的評(píng)價(jià)指標(biāo)[6]。所有利用回歸技術(shù)構(gòu)建模型、驗(yàn)證和評(píng)估均使用基于Windows 10的MATLAB R2017b(The MathWorks Inc.,Natick,MA,USA)進(jìn)行。
利用小波變換技術(shù)提高黃茶的茶多酚估測(cè)效果,具體數(shù)據(jù)處理流程如圖1所示。通過(guò)對(duì)黃茶高光譜圖像的多尺度小波系數(shù)特征的分析,進(jìn)一步提取光譜特征和空間特征,包括小波系數(shù)特征、灰度共生矩陣和小波紋理,基于融合的光譜-空間特征構(gòu)建黃茶多酚含量的偏最小二乘回歸(PLSR)、支持向量回歸(SVR)和隨機(jī)森林(RF)估測(cè)模型。
圖1 數(shù)據(jù)處理流程Fig.1 Data processing flow
2.2.1 光譜數(shù)據(jù)獲取
圖2所示為不同樣本的光譜曲線,由圖2看出不同品種的黃茶反映的光譜曲線趨勢(shì)是一致的,大部分反射率都在0.2~0.6之間。另外,在波長(zhǎng)1 102和1 139 nm處反射率有較大幅度的增大; 在波長(zhǎng)1 450~1 650 nm處各品種樣本的反射率相對(duì)平穩(wěn)。由于外界條件的影響,如光線強(qiáng)弱、氧氣濃度和儀器的誤差等,光譜曲線首尾兩端比較雜亂。因此,為了提高模型的穩(wěn)定性和精準(zhǔn)性,刪除光譜數(shù)據(jù)中908~943和1 689~1 735 nm 的波段,保留943~1 689 nm作為后續(xù)分析。
圖2 黃茶樣本的光譜響應(yīng)曲線Fig.2 Spectra of yellow tea sample
2.2.2 小波系數(shù)特征提取
為了揭示所收集的光譜與黃茶茶多酚含量的相關(guān)性,利用連續(xù)小波變換分析每個(gè)尺度光譜信息的潛在預(yù)測(cè)能力,選取Daubechies函數(shù)作為小波基函數(shù),對(duì)黃茶樣本的高光譜反射率進(jìn)行小波分解,分解的尺度根據(jù)經(jīng)驗(yàn)值預(yù)先設(shè)置為8個(gè)尺度,分別為21,22,23,24,25,26,27和28。將變換后的8個(gè)尺度的小波系數(shù)與茶多酚含量進(jìn)行相關(guān)性分析,相關(guān)系數(shù)的熱力圖如圖3所示,各尺度小波系數(shù)與黃茶茶多酚含量的相關(guān)系數(shù)具有較大的差異,總體變化趨勢(shì)是先增加后減小,尤其是,第6尺度的相關(guān)系數(shù)熱力圖表明整體相關(guān)性達(dá)到最大。分解尺度在7~8之間時(shí),相關(guān)系數(shù)呈下降趨勢(shì)。因此,不同尺度的小波系數(shù)反映光譜信息的不同特征,低尺度系數(shù)反映小波變換可以平滑噪聲,高尺度系數(shù)反映原始光譜的特定基團(tuán)的吸收特征和茶葉的空間結(jié)構(gòu)變化。
圖3 不同尺度的相關(guān)系數(shù)圖(a): 小波系數(shù)與茶多酚的相關(guān)分析;(b): 小波系數(shù)能量與茶多酚的相關(guān)分析Fig.3 Correlation coefficients of different scales
(a): Correlation analysis between wavelet coefficient and tea polyphenols; (b): Correlation analysis between wavelet coefficient energy and tea polyphenols
為了突出小波系數(shù)特征,將小波系數(shù)能量與茶多酚進(jìn)行相關(guān)分析,結(jié)果如圖3(b)所示,相關(guān)性較高的波段集中在第4尺度的959和1 561 nm,第5尺度的1 321,1 520和1 540 nm,以及第6尺度的1 202和1 228 nm,一共7個(gè)小波系數(shù)特征。
2.3.1 敏感波長(zhǎng)優(yōu)選
由于小波變換后的能量仍然與原始光譜信號(hào)的能量保持一致,通過(guò)式(2)計(jì)算不同品種茶葉樣本不同尺度的小波系數(shù)能量之和,再取平均值作為該品種黃茶的小波能量特征,發(fā)現(xiàn)不同品種的黃茶對(duì)應(yīng)的小波系數(shù)能量之和在947~1 696 nm范圍內(nèi)變化規(guī)律一致,其小波系數(shù)能量之和按照從大到小依次為平陽(yáng)黃湯、莫干黃芽、霍山黃芽、蒙頂和君山銀針。實(shí)際上,光譜反射率會(huì)隨著物質(zhì)含量的變化而變化,并且茶多酚的光譜吸收特性主要由分子中的O—H和C—H等基本化學(xué)鍵的倍頻和合頻引起的[15]。在1 006~1 102 nm附近,茶多酚中O—H鍵拉伸,在二級(jí)倍頻區(qū)附近強(qiáng)烈振動(dòng),所以吸收能力逐漸增強(qiáng)。另外,由于CH2基團(tuán)的影響,茶多酚在1 309 nm附近反射能力開(kāi)始增加,因此,選取1 102和1 309 nm作為茶多酚含量的敏感波長(zhǎng)。
2.3.2 灰度共生矩提取
利用ENVI從1 102和1 309 nm的灰度圖像,分別提取灰度共生矩陣作為紋理特征。利用灰度共生矩陣分別與茶多酚進(jìn)行相關(guān)分析,結(jié)果如圖4(a)所示,由圖可知很多紋理特征之間的相關(guān)系數(shù)較高,為了避免特征間的共線性,針對(duì)16個(gè)灰度共生矩陣特征進(jìn)行主成分分析,結(jié)果如圖4(b)所示,當(dāng)提取前三個(gè)主成分時(shí)KMO (Kaiser-Meyer-Olkin)檢驗(yàn)統(tǒng)計(jì)量為0.674,累計(jì)貢獻(xiàn)率達(dá)到97.52%,因此,選取共生矩陣特征的前三個(gè)主成分作為新的特征向量。
圖4 灰度共生矩陣的提取及優(yōu)選(a): 不同尺度的小波系數(shù)與茶多酚的相關(guān)系數(shù);(b): 灰度共生矩陣的主成分分析Fig.4 Extraction and optimization of gray levelco-occurrence matrix
2.3.3 小波紋理特征提取
通過(guò)對(duì)特征波長(zhǎng)的高光譜圖像進(jìn)行小波分解,獲取的結(jié)果作為黃茶樣本的小波紋理特征。針對(duì)1 102和1 309 nm對(duì)應(yīng)的高光譜圖像進(jìn)行二層小波分解,如圖5所示,HL1,LH1和HH1分別表示小波分解的水平方向、垂直方向和對(duì)角方向的第一層高頻子圖,HL2,LH2和HH2分別表示第二層高頻子圖。特征高光譜圖像的第一層小波子圖表示輪廓紋理,第二層表示細(xì)節(jié)紋理。同一種茶葉對(duì)應(yīng)的不同特征高光譜圖,它們的小波紋理是有區(qū)別的,而且,不同品種茶葉的小波紋理也不相同,尤其第二層的高頻子圖的區(qū)別比較明顯,體現(xiàn)不同樣本之間茶多酚含量的區(qū)別。因此,通過(guò)小波分解獲得的多尺度信息表明黃茶光譜-空間的總體一致性和細(xì)節(jié)差異性。
圖5 高光譜圖像的小波分解結(jié)果Fig.5 Wavelet decomposition results of hyperspectral images
為了進(jìn)一步評(píng)估小波變換對(duì)估測(cè)模型的影響,將小波系數(shù)特征、小波紋理、優(yōu)選的灰度共生矩陣及融合所有特征分別作為模型輸入的變量,模型的主要參數(shù)通過(guò)調(diào)試設(shè)置為最優(yōu)參數(shù),PLSR模型的主成分個(gè)數(shù)為5,SVR模型的核函數(shù)為RBF,懲罰參數(shù)C為15,隨機(jī)森林的子樹(shù)為1 000棵。構(gòu)建偏最小二乘法回歸(PLSR)、支持向量回歸(SVR)和隨機(jī)森林(RF)模型,結(jié)果如圖6所示,從圖6中發(fā)現(xiàn)基于不同特征的三種回歸模型都取得良好的預(yù)測(cè)效果。SVR模型比PLSR模型和RF模型的結(jié)果都有所改善,其中,基于小波系數(shù)的SVR模型分別提高7.5%和11.5%,基于GLCM紋理的SVR模型分別提高3.2%和7.4%,基于小波紋理的SVR模型分別提高9.2%和6.2%,基于融合所有特征的SVR模型分別提高8.2%和17.3%??梢?jiàn),SVR的估測(cè)效果最好。另外,校正集模型是經(jīng)過(guò)多次參數(shù)尋優(yōu)的結(jié)果,測(cè)試集模型的數(shù)據(jù)是隨機(jī)的,因此校正集模型的精度要高于驗(yàn)證集模型,但二者的預(yù)測(cè)效果是一致的。
從圖6中還可以看出,同一個(gè)模型中基于不同特征的預(yù)測(cè)效果存在一定的差異,尤其是,基于融合特征比基于小波系數(shù)、GLCM和小波紋理的估測(cè)效果更出色。其中,基于融合特征的PLSR模型提高11.9%,14%和29.8%,基于融合特征的SVR模型提高12.5%,18.5%和29%,基于融合特征的RF模型提高6.4%,8.8%和19.6%。因此,融合小波系數(shù)特征、小波紋理和灰度共生矩陣可以有效提高估測(cè)模型的精度。
圖6 不同模型的估測(cè)結(jié)果對(duì)比Fig.6 Comparison of estimation results of different models
針對(duì)5個(gè)品種100個(gè)樣本的黃茶近紅外高光譜圖像,首先從感興趣區(qū)域提取黃茶的反射光譜,通過(guò)連續(xù)小波變換將其轉(zhuǎn)化為不同尺度的小波系數(shù)。然后,從小波系數(shù)能量獲得小波系數(shù)特征和特征波長(zhǎng),分別從特征波長(zhǎng)對(duì)應(yīng)的高光譜圖像中獲得GLCM和小波紋理。最后,基于小波系數(shù)特征、小波紋理、優(yōu)選的灰度共生矩陣及融合特征,分別構(gòu)建PLSR,SVR及RF的茶多酚預(yù)測(cè)模型。主要結(jié)論如下:
(1)通過(guò)小波變換提取黃茶高光譜圖像的小波系數(shù)特征和小波紋理,說(shuō)明小波變換具有提取和表達(dá)空間特征和光譜特征的能力。
(2)基于融合小波系數(shù)、GLCM及小波紋理的模型比基于單一特征的模型精度高,說(shuō)明基于融合光譜-空間特征比單一的光譜特征或者空間特征的估測(cè)效果更有效。
(3)基于融合多特征的SVR模型估測(cè)效果在三種模型中表現(xiàn)最好,決定系數(shù)達(dá)到0.933,比PLSR和RF模型的精度提高8.2%和17.3%。
因此,基于光譜-空間特征的估算模型。可以快速、準(zhǔn)確地預(yù)測(cè)黃茶中茶多酚含量。下一步研究將利用其他品種的茶葉進(jìn)行模型驗(yàn)證,提高模型的普適性,為茶葉的無(wú)損檢測(cè)提供參考。