范婷婷,陸江明,康志龍,牛新環(huán),穆青爽
(河北工業(yè)大學(xué)電子信息工程學(xué)院,天津 300401)
茶是世界上最有價值和最流行的飲品之一[1],茶葉不僅可以提高機(jī)體免疫力,而且可以對抗疾病[2]。紅茶在世界茶產(chǎn)品中是主流的消費(fèi)產(chǎn)品,中國生產(chǎn)的祁門紅茶是世界三大高香紅茶之一,它具有獨特的果香氣味,受到很多人的青睞。隨著人們對紅茶需求的不斷增加,紅茶的品質(zhì)越來越受到重視[3]。目前,茶葉市場存在以次充好的現(xiàn)象,但僅憑感官評價正確分辨茶葉品質(zhì)好壞是比較困難的,而無損檢測具有快速、精確和評價標(biāo)準(zhǔn)穩(wěn)定的特點,因此實現(xiàn)茶葉的快速無損鑒別是十分必要的[4]。傳統(tǒng)的鑒別方法是感官評價和化學(xué)試驗法,這些方法主觀性強(qiáng)、消耗時間、成本高昂、破壞性大和不易推廣[5]。電子鼻和電子舌是一種用于茶葉工藝分析和質(zhì)量監(jiān)測的無損檢測技術(shù)[6?7],但它們的缺點是會受到環(huán)境條件的影響,從而導(dǎo)致傳感器漂移[8]。視覺圖像技術(shù)[9]可以通過外部特征進(jìn)行茶葉識別,但該方法不能得到茶葉的內(nèi)部品質(zhì)特征[10]。傳統(tǒng)光譜技術(shù)已廣泛用于茶產(chǎn)品的鑒別[11?12]、鑒定[13?15]和質(zhì)量評價[16],其中近紅外光譜技術(shù)具有快速、無損和多成分同時檢測特點,但缺少空間信息。因此,結(jié)合各種鑒別手段,實現(xiàn)茶葉的快速、無損識別是一個新的研究方向[17]。
高光譜圖像同時包含光譜特征和圖像特征,可以對研究對象的內(nèi)外品質(zhì)進(jìn)行快速、無損檢測。目前,已有學(xué)者使用高光譜成像技術(shù)對茶葉的成分測定[18?20]、質(zhì)量鑒別[21?22]和地理來源進(jìn)行研究。Hong等[23]利用光譜范圍為380~1030 nm和874~1734 nm的高光譜成像系統(tǒng)對龍井茶的6種地理來源進(jìn)行鑒別,建立基于全光譜的支持向量機(jī)(Support Vector Machine,SVM)和偏最小二乘判別分析(Partial Least Squares Discrimination Analysis,PLS-DA)模型,校準(zhǔn)集和預(yù)測集的準(zhǔn)確率超過84%。Zhuang等[24]利用近紅外光譜對兩個地理來源的綠茶進(jìn)行分類,結(jié)果表明偏最小二乘法(Partial Least Squares,PLS)的性能優(yōu)于反向傳播人工神經(jīng)網(wǎng)絡(luò)(Back Propagation-Artificial Neural Network,BP-ANN)和支持向量機(jī),PLS的訓(xùn)練集和測試集準(zhǔn)確率都為100%。目前,利用高光譜技術(shù)對紅茶品質(zhì)的研究較少,因此對紅茶內(nèi)外品質(zhì)的快速、無損檢測具有十分重要的意義。
本文利用近紅外高光譜成像系統(tǒng)(900~1700 nm)對祁門紅茶的6個等級進(jìn)行分類,比較分析了PCA、MDS、t-SNE和Sammon四種不同降維技術(shù),建立SVM和極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)模型并生成高光譜圖像像素空間分類圖。
祁門紅茶 某大型茶市場,參考中國官方標(biāo)準(zhǔn)方法(DB34/T 1086-2009)選取了祁門紅茶6個等級,分別為一級(G1)、二級(G2)、三級(G3)、四級(G4)、五級(G5)和六級(G6)。每個等級的茶葉采集80個樣本,共480個樣本,每個樣本5 g。放在直徑為5 cm,深度為2 cm的黑色圓形塑料容器中。
近紅外高光譜成像儀(主要包括4個鹵素?zé)簦β蕿?5 W,光強(qiáng)度可調(diào)范圍是0~100%)、ImSpector N17光柵光譜儀 光譜成像有限公司(芬蘭奧盧);Zelos-258GV線陣CCD相機(jī) 卡帕光電股份有限公司;PSA200-11-X移動平臺Zolix有限公司(中國北京);數(shù)據(jù)采集軟件V 10E五鈴光學(xué)有限公司(中國臺灣)。
1.2.1 數(shù)據(jù)采集 近紅外高光譜采集儀的光譜范圍為900~1700 nm,光譜分辨率為3 nm,共256個波段。在實驗中將茶葉樣本均勻的平鋪在直徑為5 cm,高為2 cm的圓形容器中,放在前進(jìn)速度為1.68 cm/s的移動臺上進(jìn)行圖像采集,曝光時間為20 ms,鏡頭與樣本之間的距離為32 cm。
為避免外部光線影響,高光譜圖像的采集過程在暗箱中進(jìn)行。原始高光譜圖像噪聲較大,故對其進(jìn)行圖像校正。本文采用黑白校正和最小噪聲分離變換(Minimum Noise Fraction,MNF)方法對原始數(shù)據(jù)進(jìn)行去噪處理。使用ENVI 5.3軟件,提取50×50像素中心區(qū)域作為感興趣區(qū)域(Region of Interest,ROI),計算其平均光譜作為樣本的原始光譜。
各等級的茶葉樣本按照3:2分為訓(xùn)練集和測試集,訓(xùn)練集包含288個樣本,測試集包含192個樣本。
1.2.2 數(shù)據(jù)處理
1.2.2.1 數(shù)據(jù)預(yù)處理 圖像采集過程中受到暗電流噪聲、探測器靈敏度和光學(xué)傳輸特性等因素影響,導(dǎo)致采集的圖像質(zhì)量受到影響,需要對采集圖片進(jìn)行黑白校正。在相同的采集條件下,分別采集反射率接近100%的白幀圖像和反射率接近為0%的黑幀圖像。最后根據(jù)式(1),對采集的原始高光譜圖像進(jìn)行黑白校正。
式中,W為黑幀圖像強(qiáng)度;B為白幀圖像強(qiáng)度;為I0原 始的高光譜圖像強(qiáng)度;I為校正后的高光譜圖像強(qiáng)度。本文中使用ENVI5.3和Matlab(R2018b)軟件進(jìn)行高光譜圖像處理。
1.2.2.2 多維尺度變換 多維尺度變換(Multi-Dimensional Scaling,MDS)是線性的高維數(shù)據(jù)可視化方法[25],通過保持高維空間到低維空間的距離來執(zhí)行轉(zhuǎn)換,利用計算多維空間中每個數(shù)據(jù)點的歐氏距離來捕獲轉(zhuǎn)換模式。歐式距離被定義為一個對稱矩陣(D),多維尺度變換嘗試尋找指定空間中的數(shù)據(jù)點,使數(shù)據(jù)點(D^)之間的歐氏距離與高維空間中的距離相似。最小化函數(shù)表達(dá)式為:
1.2.2.3 主成分分析 主成分分析(Principal Component Analysis,PCA)是一種線性的高維數(shù)據(jù)可視化方法。它構(gòu)造了數(shù)據(jù)集的低維表示,保留了對方差貢獻(xiàn)最大的數(shù)據(jù)特征。假設(shè)X 是m行n列的數(shù)據(jù)矩陣(即有m個樣本,n個特征),主成分分析中試圖找到一個使TTCOVX?XˉTT 最大化的線性變換T,其中,COVX?Xˉ是數(shù)據(jù) X 的零均值協(xié)方差矩陣。該線性映射是由零均值數(shù)據(jù)協(xié)方差矩陣的d 個主特征向量構(gòu)成(即d 個主成分),其數(shù)學(xué)表達(dá)式為:
通過對d個主特征值的求解,特征值對應(yīng)的特征向量構(gòu)成了線性變換矩陣T的列。數(shù)據(jù)點xi映射到線性基T,得到低維數(shù)據(jù)yi其數(shù)學(xué)表達(dá)式為:
1.2.2.4 t分布隨機(jī)鄰域嵌入t分布隨機(jī)鄰域嵌入(t-Distributed Stochastic Neighbour Embedding,t-SNE)是一種非線性降維算法,用于可視化高維數(shù)據(jù)二維或三維散點圖[26]。t-SNE的主要目標(biāo)是使用較近點的成對距離來建模相似點,使用較遠(yuǎn)點的成對距離來建模不相似點。為了表示相似性,t-SNE使用高斯分布將數(shù)據(jù)點之間的高維歐氏距離轉(zhuǎn)換為條件概率。Pj/i正 比于數(shù)據(jù)點xi與 xj之間的相似度,條件概率公式為:
式中,參數(shù)σi對于不同的點 xi取值不同,通常取以數(shù)據(jù)點xi為中心的高斯均方差。此外,通過設(shè)置條件概率對稱性可減少數(shù)據(jù)異常值的影響,公式為:
在低維空間下,t-SNE使用了重尾學(xué)生t分布的聯(lián)合概率分布,它的優(yōu)點是使高維度下中低等的距離在映射到低維空間后能夠有較大的距離,估計的聯(lián)合概率的公式為:
t-SNE最小化高維空間中的聯(lián)合概率分布P和低維空間中的聯(lián)合概率分布Q之間的Kull-leibler(KL)散度,公式為:
該算法通過梯度下降算法最小化KL散度,得到最終收斂結(jié)果。
1.2.2.5 Sammon非線性映射 Sammon是一種非線性映射的降維技術(shù),它是一種尋找高維空間(D維)到低維(m=2或3維)非線性子空間(其中m Sammon映射算法的本質(zhì)是尋找映射: 該映射通過梯度迭代算法對目標(biāo)函數(shù)進(jìn)行最小化處理,來得到數(shù)據(jù)映射后的低維表示: 1.2.2.6 分類模型 采用支持向量機(jī)(Support Vector Machine,SVM)和極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)兩種方法建立分類模型。SVM是一種監(jiān)督的機(jī)器學(xué)習(xí)模型,它利用超平面來定義執(zhí)行分類的決策邊界[27]。SVM基于優(yōu)化后關(guān)鍵參數(shù)懲罰系數(shù)c 和核函數(shù) g 實現(xiàn)準(zhǔn)確的預(yù)測結(jié)果,采用懲罰參數(shù)c 最小化訓(xùn)練誤差,簡化模型復(fù)雜度。核函數(shù)系數(shù)g 表征輸入空間到某一高維特征空間的非線性映射。該方法的主要步驟簡述如下:使用RBF核函數(shù),通過交叉驗證優(yōu)化核心參數(shù)(c, g);采用網(wǎng)格搜索法確定最佳參數(shù)對(c, g);根據(jù)預(yù)測集中精確度輸出的最高值,建立最優(yōu)的SVM分類模型。 極限學(xué)習(xí)機(jī)(ELM)是一種用于訓(xùn)練單層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)的算法。在ELM中,需要學(xué)習(xí)隱含層和輸出層之間的參數(shù)。 本文中所有算法均使用Matlab(R2018b)軟件建立模型。 由于鹵素?zé)粼诔跏茧A段光照強(qiáng)度不均勻以及儀器噪聲影響,為了保證數(shù)據(jù)的準(zhǔn)確性和實驗結(jié)果的可靠性,剔除900~980 nm和1650~1700 nm,選取光譜范圍在980~1650 nm的203條光譜帶作為祁門紅茶的原始光譜數(shù)據(jù)。所有樣本的原始光譜曲線如圖1所示,光譜數(shù)據(jù)受到隨機(jī)噪聲和散射效應(yīng)的干擾,需要對其進(jìn)行預(yù)處理。本文對原始光譜分別采用SG平滑濾波(Savitzky-Golay Filtering,SG)、標(biāo)準(zhǔn)正交變換(Standard Normal Variate,SNV)、多元散射校正(Multiplicative Scatter Correction,MSC)、SG-SNV和SG-MSC等算法對數(shù)據(jù)進(jìn)行預(yù)處理。SG可以消除或減弱隨機(jī)噪聲,SNV和MSC用來校正散射現(xiàn)象,SG-SNV和SG-MSC對原始算法進(jìn)行了優(yōu)化。實驗結(jié)果表明,SG-SNV預(yù)處理效果優(yōu)于其他算法。該算法有效地修正了光散射引起的光譜基線漂移問題,使光譜的吸收峰位置更加突出,光譜曲線如圖2所示。祁門紅茶6個等級的平均光譜曲線如圖3所示,不同等級的茶葉在三個峰處反射率差別較明顯。由此可知,高光譜成像技術(shù)可建立分類模型對6個等級的祁門茶葉進(jìn)行識別。 圖1 樣本的原始光譜曲線Fig.1 Raw spectra of samples 圖2 SG-SNV預(yù)處理光譜曲線Fig.2 SG-SNV preprocessing spectral curves 圖3 樣本的平均光譜曲線Fig.3 Mean spectral curvesof tea samples 利用MDS、Sammon、t-SNE和PCA等算法對高光譜圖像進(jìn)行高維數(shù)據(jù)的低維可視化。實驗結(jié)果如圖4所示,不同顏色的聚類代表不同的茶葉等級,只有t-SNE可以將6個等級的茶葉明確區(qū)分。如圖4(a)、圖4(b)、圖4(d)所示,MDS和PCA不能將G1和G4完全區(qū)分開,Sammon不能將G5、G6以及G1、G3完全區(qū)分開,主要原因是該樣本具有相似的光譜特征。與PCA和MDS相比,Sammon對6個等級祁門紅茶的可視化效果較差。由于Sammon映射沒有顯式地表示轉(zhuǎn)換函數(shù),該算法只是提供了一種度量方法來衡量轉(zhuǎn)換結(jié)果,故分離簇的能力不強(qiáng)。PCA和MDS無法保持高維空間的數(shù)據(jù)結(jié)構(gòu),因其只利用了遠(yuǎn)處數(shù)據(jù)點的信息,所以分離簇能力較弱。如圖4(c)所示,與其他算法相比,t-SNE能夠捕獲數(shù)據(jù)的非線性和鄰域信息,故可呈現(xiàn)較好的可視化效果。由實驗結(jié)果可知,t-SNE識別最大分離簇數(shù)的能力優(yōu)于PCA、MDS和Sammon。 圖4 高維數(shù)據(jù)可視化Fig.4 Visualising high dimensional data 本文采用SVM和ELM建立判別模型,表1展示了SVM和ELM模型對經(jīng)過預(yù)處理與未預(yù)處理光譜數(shù)據(jù)進(jìn)行判別的實驗結(jié)果。其中,SVM模型懲罰系數(shù) c 為1.2,核函數(shù)系數(shù)g 為2.8,ELM模型的隱層節(jié)點數(shù)為5。由實驗結(jié)果知,SVM和SG-SNVSVM模型,訓(xùn)練集和測試集的準(zhǔn)確率分別為100%。ELM模型的識別效果較差,ELM模型的訓(xùn)練集和測試集準(zhǔn)確率分別為90.27%和85.93%,SG-SNV-ELM模型的訓(xùn)練集和測試集識別率分別為98.61%和96.35%。預(yù)處理之后的SVM模型分類精度沒有發(fā)生變化,而經(jīng)過預(yù)處理的ELM模型分類精度顯著提高。由此可知,SG-SNV預(yù)處理對ELM得到有效應(yīng)用。 表1 預(yù)處理前后模型結(jié)果Table 1 Model results before and after pretreatment 圖5是不同模型的混淆矩陣結(jié)果。圖5(a)混淆矩陣結(jié)果存在較多識別錯誤,G2中10個樣本和3個樣本被分別識別為G1和G4,G3中3個樣本被識別為G4,G4中3個樣本被識別為G3,G5中1個樣本和3個樣本被分別識別為G4和G6,G6中4個樣本被識別為G5。圖5(b)混淆矩陣結(jié)果出現(xiàn)少量識別錯誤,G3中1個樣本被識別為G1,G4中4個樣本被識別為G2,G6中1個樣本被識別為G5。圖5(c)和圖5(d)的混淆矩陣結(jié)果完全正確。 圖5 混淆矩陣結(jié)果Fig.5 Confusion matrix result 為了可視化6個等級祁門紅茶的差異,對不同等級茶葉的像素光譜信息建立SVM和ELM識別模型,實驗結(jié)果如圖6示。如圖6(a)所示,提取灰度圖像,如圖6(b)、圖6(c),祁門紅茶等級分類圖由上到下依次為一級、二級、三級、四級、五級和六級。由圖6(b)所示,SVM模型將6個等級的祁門紅茶識別為各自相應(yīng)的等級,但也存在一些像素點分類錯誤,特別是圓形容器邊緣的誤分類尤為明顯。由圖6(c)所示,ELM模型的分類圖中不僅邊緣像素存在誤分類,而且各等級之間存在嚴(yán)重誤分類。除去邊緣分類錯誤,造成不同等級茶葉誤分類的主要原因是光譜的相似性。誤分類的另一個原因可能是茶葉的純度,例如,將低等級的茶葉摻入高等級茶葉中進(jìn)行混合售賣盈利。SVM模型的識別結(jié)果優(yōu)于ELM模型。因此,SVM有較好的識別效果和性能。 圖6 祁門紅茶識別預(yù)測圖Fig.6 Prediction map of Keemun black tea recognizing 本文利用近紅外高光譜成像技術(shù),結(jié)合SNV-SG、PCA、MDS、Sammon及t-SNE算法,基于光譜特征,分別建立祁門紅茶等級快速無損識別的SVM模型和ELM模型。結(jié)果顯示,t-SNE能更好地分離不同等級的祁門紅茶,其高維空間鄰近數(shù)據(jù)點的信息可以保持低維空間中的數(shù)據(jù)結(jié)構(gòu)?;诠庾V特征的SVM模型和ELM模型的測試集識別率分別為100%和96.35%。因此,近紅外高光譜成像技術(shù)結(jié)合機(jī)器學(xué)習(xí)在茶葉產(chǎn)品分類的應(yīng)用領(lǐng)域具有很大潛力。2 結(jié)果與分析
2.1 樣本光譜特征
2.2 高維數(shù)據(jù)可視化
2.3 分類結(jié)果驗證
3 結(jié)論