武 斌,崔艷海,武小紅,賈紅雯,李 敏
1. 滁州職業(yè)技術(shù)學(xué)院信息工程系,安徽 滁州 239000
2. 江蘇大學(xué)京江學(xué)院, 江蘇 鎮(zhèn)江 212013
3. 江蘇大學(xué)電氣信息工程學(xué)院,江蘇 鎮(zhèn)江 212013
4. 樂山師范學(xué)院物理與電子工程學(xué)院,四川 樂山 614000
一種廣義噪聲聚類的紅外光譜茶葉品種鑒別研究
武 斌1,崔艷海2,武小紅3*,賈紅雯1,李 敏4
1. 滁州職業(yè)技術(shù)學(xué)院信息工程系,安徽 滁州 239000
2. 江蘇大學(xué)京江學(xué)院, 江蘇 鎮(zhèn)江 212013
3. 江蘇大學(xué)電氣信息工程學(xué)院,江蘇 鎮(zhèn)江 212013
4. 樂山師范學(xué)院物理與電子工程學(xué)院,四川 樂山 614000
茶葉品種鑒別在茶葉的生產(chǎn)和銷售中起著十分重要的作用。深入研究一種方法簡(jiǎn)單、易于操作、檢測(cè)速度快的茶葉品種的鑒別方法,對(duì)于茶葉產(chǎn)品品種的鑒別有著十分重要的意義。利用紅外光譜檢測(cè)技術(shù)結(jié)合模糊聚類算法對(duì)茶葉品種進(jìn)行快速鑒別是茶葉品種檢測(cè)中最有效的和最實(shí)用的技術(shù)之一。為實(shí)現(xiàn)茶葉品種的快速分類,以快速廣義噪聲聚類(FGNC)為基礎(chǔ),提出一種新的廣義噪聲聚類(NGNC)。NGNC將FGNC目標(biāo)函數(shù)中的歐式距離的平方擴(kuò)展為歐式距離的p次方,提高了FGNC的聚類準(zhǔn)確率。試驗(yàn)以優(yōu)質(zhì)樂山竹葉青、劣質(zhì)樂山竹葉青和峨眉山毛峰三種茶葉為研究對(duì)象,采用FTIR-7600型傅里葉紅外光譜儀檢測(cè)茶葉樣本的紅外漫反射光譜。首先用主成分分析(PCA)對(duì)茶葉的高維紅外光譜進(jìn)行降維處理,然后用線性判別分析(LDA)進(jìn)行茶葉光譜數(shù)據(jù)的品種類別信息的提取,最后分別運(yùn)行FGNC和NGNC兩種聚類算法進(jìn)行茶葉紅外光譜的聚類分析。實(shí)驗(yàn)結(jié)果表明,同F(xiàn)GNC相比較,NGNC具有更高的聚類準(zhǔn)確率,更快的收斂速度和更逼近真實(shí)的聚類中心??傮w而言,采用紅外光譜技術(shù)檢測(cè)茶葉樣本,同時(shí)結(jié)合PCA,LDA和NGNC可實(shí)現(xiàn)快速、準(zhǔn)確地聚類茶葉的紅外光譜,能有效地實(shí)現(xiàn)茶葉品種的鑒別分析,為實(shí)現(xiàn)基于紅外光譜和模糊聚類的茶葉品種鑒別分析提供了一種新方法和新思路。
紅外光譜; 茶葉; 主成分分析; 線性判別分析; 廣義噪聲聚類
茶葉是世界三大飲品之一,它含有茶多酚、蛋白質(zhì)和氨基酸等有機(jī)物質(zhì)[1],也含有鉀、鈣和鎂等無機(jī)物質(zhì),具有安神,明目和清熱等功效,常飲茶有益于人的身體健康。樂山竹葉青是樂山地區(qū)特有的茶葉品牌,但是在茶葉市場(chǎng)上存在以次充好現(xiàn)象,而普通消費(fèi)者無法辨認(rèn)優(yōu)質(zhì)名茶和劣質(zhì)茶葉,往往會(huì)受騙上當(dāng)。另外,以次充好的劣質(zhì)茶葉損害了名優(yōu)茶的品牌信譽(yù),侵害了消費(fèi)者權(quán)益,給名優(yōu)茶的市場(chǎng)推廣帶來困擾。為此研究一種方法簡(jiǎn)單、易于操作、檢測(cè)速度快的茶葉品種的鑒別方法非常必要。
紅外光譜作為一種快速無損檢測(cè)技術(shù),近年來已應(yīng)用于茶葉品質(zhì)的檢測(cè)分析中。張龍等用近紅外光譜技術(shù),主成分分析和典則判別分析對(duì)非發(fā)酵茶,半發(fā)酵茶和發(fā)酵茶進(jìn)行分類研究[2]。寧井銘等用近紅外光譜技術(shù)和神經(jīng)網(wǎng)絡(luò)區(qū)分三種不同發(fā)酵程度的普洱茶[3]。Huang等用近紅外光譜技術(shù)和蟻群優(yōu)化模型檢測(cè)花茶的總花青素含量[4]。Ren等用近紅外光譜技術(shù)檢測(cè)紅茶的化學(xué)組成成分和識(shí)別茶葉的溯源地[5]。He等用近紅外光譜技術(shù),偏最小二乘判別分析和歐式距離法檢測(cè)茶葉的溯源地[6]。Xiong等用近紅外光譜技術(shù)和多光譜圖像系統(tǒng)檢測(cè)鐵觀音茶的總多酚含量[7]。
模糊C-均值聚類(FCM)是著名的模糊聚類算法,其應(yīng)用非常廣泛,但是FCM對(duì)噪聲數(shù)據(jù)敏感[8]。廣義噪聲聚類(GNC)是一種模糊聚類算法[9],適用于處理含噪聲數(shù)據(jù)的聚類分析,GNC將噪聲數(shù)據(jù)看做一個(gè)類別進(jìn)行處理,但是GNC對(duì)參數(shù)具有依賴性,為解決這個(gè)問題曾提出了一種快速廣義噪聲聚類(FGNC)[10]。GNC和FGNC的目標(biāo)函數(shù)均是建立在樣本到類中心矢量的歐式距離的平方基礎(chǔ)上,為了進(jìn)一步擴(kuò)展FGNC的距離測(cè)度,本研究引進(jìn)歐式距離的p次方代替歐式距離的平方以提高FGNC的模糊聚類性能,在此基礎(chǔ)上提出了一種新的廣義噪聲聚類(NGNC)。
采用紅外光譜分析儀采集三種茶葉的紅外漫反射光譜,用主成分分析進(jìn)行茶葉紅外光譜的維數(shù)壓縮,應(yīng)用線性判別分析提取茶葉品種的鑒別信息,并分別用FGNC和NGNC進(jìn)行聚類分析,分析聚類的結(jié)果,建立快速、準(zhǔn)確的茶葉品種紅外光譜鑒別模型。
采集優(yōu)質(zhì)樂山竹葉青、劣質(zhì)樂山竹葉青和峨眉山毛峰三種茶葉,每種茶葉的樣本數(shù)為32,合計(jì)96個(gè)樣本。所有茶葉樣本被研磨粉粹后經(jīng)40目篩過濾,每個(gè)樣本取0.5 g分別與溴化鉀按1∶100均勻混合后取混合物1 g進(jìn)行壓膜處理。采集紅外光譜時(shí)實(shí)驗(yàn)室溫度約25 ℃,相對(duì)濕度在50%,F(xiàn)TIR-7600型傅里葉紅外光譜分析儀開機(jī)預(yù)熱1 h。光譜分析儀掃描每個(gè)茶葉樣本32次,光譜掃描的波數(shù)范圍為4 001.569~401.121 1 cm-1,掃描間隔為1.928 5 cm-1,每個(gè)茶葉樣本的紅外光譜是1 868維的高維數(shù)據(jù)。每個(gè)樣本采樣3次,取其平均值作為后續(xù)模型建立的實(shí)驗(yàn)數(shù)據(jù)。茶葉樣本的紅外光譜圖如圖1所示。
圖1 茶葉樣本的紅外光譜
若含有n個(gè)數(shù)據(jù)樣本的數(shù)據(jù)集X={x1,x2, …,xn}?Rq,將數(shù)據(jù)集X劃分為c(2≤c (1) 式(1)中的uik是第k(k=1,2,…,n)個(gè)樣本隸屬于第i(i=1,2,…,c)類的模糊隸屬度值,n為樣本數(shù),c為樣本的類別數(shù)。Dik=‖xk-vi‖是xk-vi的歐式距離,xk為第k個(gè)樣本,νi為第i類的類中心矢量。m和p為權(quán)重指數(shù), +∞>m>1,+∞≥p≥2。參數(shù)αik定義如式(2) (2) 式(2)中的σ2是樣本的方差,以式(3)計(jì)算如下 (3) (4) (5) 則新的廣義噪聲聚類(NGNC)的迭代運(yùn)算描述如下: (1) 初始化 設(shè)置茶葉紅外光譜樣本數(shù)目n(+∞>n>1),樣本類別數(shù)目c(n>c>1),權(quán)重指數(shù)m和p,初始迭代數(shù)r=1,最大迭代數(shù)rmax,誤差上限值ε,初始化類中心νi, 0; (2) 根據(jù)式(2)和式(3)計(jì)算參數(shù)αik; (3) 根據(jù)式(4)計(jì)算第r次迭代時(shí)的模糊隸屬度值uik, r; (4) 根據(jù)式(5)計(jì)算第r次迭代時(shí)的類中心νi, r; 當(dāng)maxi‖νi, r-νi, r-1‖<ε或者r=rmax時(shí),迭代終止; 否則,r=r+1,返回步驟(2)繼續(xù)迭代計(jì)算。 3.1 茶葉紅外光譜的主成分分析和線性判別分析 茶葉紅外光譜數(shù)據(jù)為1 868維的高維數(shù)據(jù),數(shù)據(jù)中包含了大量冗余信息,為了解決這個(gè)問題,常采用主成分分析紅外光譜數(shù)據(jù)的壓縮處理[11]。本文采用主成分分析將96個(gè)樣本的紅外光譜數(shù)據(jù)壓縮為20維的數(shù)據(jù)。線性判別分析(LDA)常用于提取數(shù)據(jù)中包含的鑒別信息,經(jīng)過LDA處理后能顯著提高后續(xù)分類器的分類準(zhǔn)確率[12]。從每種茶葉樣本中選取13個(gè)樣本組成茶葉樣本訓(xùn)練集,則訓(xùn)練集樣本總數(shù)為39個(gè),剩余的樣本組成茶葉樣本測(cè)試集,則測(cè)試集樣本 圖2 LDA的得分圖 總數(shù)為57個(gè)。通過運(yùn)行LDA計(jì)算20維的訓(xùn)練集樣本的鑒別向量,并取前2個(gè)鑒別向量,將20維的測(cè)試集樣本投影到這2個(gè)鑒別向量上,其LDA的得分圖如圖2所示。在圖2中,點(diǎn)“·”表示“峨眉山毛峰”,點(diǎn)“°”表示“劣質(zhì)樂山竹葉青”和點(diǎn)“*”表示“優(yōu)質(zhì)樂山竹葉青”。由圖2可知,“峨眉山毛峰”與其余兩個(gè)茶葉的數(shù)據(jù)幾乎沒有重疊,這給聚類分析帶來方便; 而“優(yōu)質(zhì)樂山竹葉青”與“劣質(zhì)樂山竹葉青”的數(shù)據(jù)存在少量的重疊。重疊的數(shù)據(jù)會(huì)導(dǎo)致錯(cuò)誤的聚類結(jié)果,降低聚類準(zhǔn)確率。 3.2 計(jì)算初始聚類中心 運(yùn)行模糊C均值聚類(FCM)得到FCM的類中心矢量作為FGNC和NGNC的初始類中心矢量。設(shè)置FCM的權(quán)重指數(shù)m=2.0,最大迭代數(shù)rmax=100,誤差上限值ε=0.000 01,F(xiàn)CM的初始類中心矢量為圖2的測(cè)試數(shù)據(jù)的前3個(gè)數(shù)據(jù)。計(jì)算所得的FCM的類中心矢量為 3.3 FGNC和NGNC的模糊聚類分析 設(shè)置FGNC和NGNC的初始參數(shù)值: 測(cè)試集樣本數(shù)目n=96,樣本類別數(shù)c=3,權(quán)重指數(shù)m=2.0和p≥2,最大迭代數(shù)rmax=100,誤差上限值ε=0.000 01,初始類中心矢量如3.2節(jié)所述。 3.3.1 聚類準(zhǔn)確率 運(yùn)行FGNC和NGNC算法對(duì)茶葉紅外光譜測(cè)試集樣本進(jìn)行聚類分析。當(dāng)NGNC的權(quán)重指數(shù)p=2時(shí),NGNC算法等同于FGNC算法,所以兩者聚類準(zhǔn)確率相同且均為89.47%。當(dāng)NGNC的權(quán)重指數(shù)p=3時(shí),其聚類準(zhǔn)確率為92.98%。當(dāng)NGNC的權(quán)重指數(shù)p=4~13時(shí),其聚類準(zhǔn)確率為94.74%。當(dāng)NGNC的權(quán)重指數(shù)p取不同值時(shí)其聚類準(zhǔn)確率如圖3所示。所以,當(dāng)NGNC的權(quán)重指數(shù)p=3~13時(shí),NGNC的聚類準(zhǔn)確率高于FGNC的聚類準(zhǔn)確率。 圖3 NGNC的聚類準(zhǔn)確率 3.3.2 聚類中心分析 NGNC的權(quán)重指數(shù)p=6時(shí),對(duì)測(cè)試樣本集運(yùn)行FGNC和NGNC算法至迭代終止,NGNC的聚類中心矩陣VNGNC為 FGNC的聚類中心矩陣VFGNC為 將測(cè)試樣本的每類均值設(shè)置為真實(shí)的類中心矩陣VTrue[13] 通過計(jì)算聚類中心矩陣V*(*表示FGNC/NGNC)到真實(shí)聚類中心矩陣VTrue的Frobenius范數(shù)來衡量V*逼近VTrue的程度 E*越小則表示V*越逼近真實(shí)聚類中心VTrue。計(jì)算結(jié)果:ENGNC=0.225 7,EFGNC=0.237 0。所以,ENGNC 3.3.3 聚類收斂狀況分析 FGNC和NGNC經(jīng)過有限次迭代計(jì)算后最終都能收斂,迭代循環(huán)計(jì)算的次數(shù)和收斂速度密切相關(guān),次數(shù)越少則收斂速度越快。FGNC和NGNC對(duì)測(cè)試樣本集進(jìn)行迭代計(jì)算直至收斂,它們的收斂狀況如圖4所示。由圖4可知,F(xiàn)GNC經(jīng)過18次迭代計(jì)算實(shí)現(xiàn)了收斂,而NGNC只要經(jīng)過7次迭代計(jì)算就可以實(shí)現(xiàn)收斂。所以,NGNC的收斂速度要明顯快于FGNC。 圖4 NGNC和FGNC的收斂狀況 在快速廣義噪聲聚類(FGNC)的基礎(chǔ)上提出了一種新的廣義噪聲聚類(NGNC),NGNC擴(kuò)展了FGNC中的歐式距離測(cè)度,提高了模糊聚類的準(zhǔn)確率。同時(shí),將NGNC和FGNC應(yīng)用于紅外光譜茶葉品種的鑒別分析。將三個(gè)品種的茶葉紅外光譜經(jīng)過主成分分析壓縮后再提取其品種鑒別信息,最后用NGNC和FGNC進(jìn)行模糊聚類分析,比較兩者的聚類準(zhǔn)確率,收斂狀況和聚類中心。實(shí)驗(yàn)結(jié)果表明: 用紅外光譜技術(shù)檢測(cè)茶葉,采用主成分分析,線性判別分析和NGNC能快速,有效地實(shí)現(xiàn)茶葉品種的鑒別分析,且鑒別準(zhǔn)確率比FGNC更高,為實(shí)現(xiàn)基于紅外光譜和模糊聚類的茶葉品種鑒別分析提供了一種新方法和新思路。 [1] Chen Q, Zhang D, Pan W, et al. Trends in Food Science & Technology, 2015, 43(1): 63. [2] ZHANG Long, PAN Jia-rong, ZHU Cheng(張 龍,潘家榮,朱 誠). Food Science(食品科學(xué)), 2012, 33(20): 149. [3] NING Jing-ming, WAN Xiao-chun, ZHANG Zheng-zhu, et al(寧井銘,宛曉春,張正竹, 等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報(bào)), 2013, 29(11): 255. [4] Huang X, Zou X, Zhao J, et al. Food Chemistry, 2014, 164: 536. [5] Ren G, Wang S, Ning J, et al. Food Research International, 2013, 53(2): 822. [6] He W, Zhou J, Cheng H, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2012, 86: 399. [7] Xiong C, Liu C, Pan W, et al. Food Chemistry, 2015, 176(1): 130. [8] Kannan S R, Devi R, Ramathilagam S, et al. Computers in Biology and Medicine, 2013, 43(2): 73. [9] HE Guang-pu, LI Min, WU Bin, et al(何光普,李 敏,武 斌,等). Journal of Beijing Jiaotong University(北京交通大學(xué)學(xué)報(bào)), 2008, 32(6): 98. [10] WU Bin, WU Xiao-hong, JIA Hong-wen(武 斌,武小紅,賈紅雯). Computer Engineering and Applications(計(jì)算機(jī)工程與應(yīng)用), 2013, 49(13): 145. [11] Sirisomboon P, Tanaka M, Kojima T, et al. Journal of Food Engineering, 2012, 112(3): 218. [12] Brito A L B, Brito L R, Honorato F A, et al. Food Research International, 2013, 51(2): 924. [13] Wu X H, Wu B, Sun J, et al. Applied Mathematical Modelling, 2011, 35: 4790. *Corresponding author (Received May 5, 2015; accepted Sep. 12, 2015) Discrimination of Tea Varieties by Using Infrared Spectroscopy with a Novel Generalized Noise Clustering WU Bin1, CUI Yan-hai2, WU Xiao-hong3*, JIA Hong-wen1, LI Min4 1. Department of Information Engineering, Chuzhou Vocational Technology College, Chuzhou 239000, China 2. Jingjiang College, Jiangsu University, Zhenjiang 212013, China 3. School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China 4. School of Physics and Electronic Engineering of Leshan Normal University, Leshan 614000, China The discrimination of tea varieties plays very important role in the production and sale of tea. It is of great significance for the study of a fast, easy and simple method for the identification of tea varieties. The combination of infrared spectroscopy detection technology and fuzzy clustering algorithm is one of the most effective and practical techniques in the detection of tea varieties. To realize the rapid discrimination of tea varieties, a novel generalized noise clustering (NGNC) was proposed based on fast generalized noise clustering (FGNC). Euclidean distance in the objective function of FGNC was replaced with the pth power of Euclidean distance and clustering accuracy was being improved. Emeishan Maofeng; high quality Leshan trimeresurus and low quality Leshan trimeresurus were prepared as the research object and the infrared reflectance (IR) spectra of tea samples were collected with FTIR-7600 infrared spectrometer. Firstly, the high-dimensional IR spectra of tea samples were reduced by principal component analysis (PCA). Secondly, linear discriminant analysis (LDA) was used to extract the discriminant information from the low-dimensional data. Finally, FGNC and NGNC were performed to identify tea varieties. The experimental results showed that in comparision with FGNC, NGNC has higher clustering accuracy, better cluster centers and faster convergence speed. Infrared spectroscopy coupled with NGNC, PCA and LDA could cluster IR spectra of tea samples quickly and correctly, which provided a new method and new idea for identifying tea varieties based on infrared spectroscopy and fuzzy clustering. Infrared spectroscopy; Tea; Principal component analysis; Linear discriminant analysis; Generalized noise clustering 2015-05-05, 2015-09-12 國家自然科學(xué)基金項(xiàng)目(31101082),安徽省高等教育振興計(jì)劃人才項(xiàng)目“高校優(yōu)秀青年人才支持計(jì)劃”(皖教秘人[2014]181號(hào)),樂山市科技局項(xiàng)目(14NZD017)資助 武 斌,1978年生,滁州職業(yè)技術(shù)學(xué)院講師 e-mail: wubind2003@163.com *通訊聯(lián)系人 e-mail: wxh_www@163.com O657.3 A 10.3964/j.issn.1000-0593(2016)07-2094-043 結(jié)果與討論
4 結(jié) 論