陳 勇,郭云柱,王 威,武小紅*,賈紅雯,武 斌
1.江蘇大學(xué)電氣信息工程學(xué)院, 江蘇 鎮(zhèn)江 212013 2.江蘇省農(nóng)業(yè)裝備與智能化高技術(shù)研究重點(diǎn)實(shí)驗(yàn)室, 江蘇 鎮(zhèn)江 212013 3.浙江大學(xué)臺(tái)州研究院,浙江 臺(tái)州 317700 4.滁州職業(yè)技術(shù)學(xué)院信息工程系,安徽 滁州 239000
傅里葉變換紅外光譜技術(shù)具有方便,快捷,適用范圍廣等優(yōu)點(diǎn)。中紅外光譜的波數(shù)范圍在4 000~400 cm-1之間,大多數(shù)的無(wú)機(jī)化合物和有機(jī)化合物的化學(xué)鍵振動(dòng)的基頻均在此區(qū)域。不同的分子中官能團(tuán)、化合物的類(lèi)別和化合物的立體結(jié)構(gòu),其中紅外吸收光譜不盡相同。不同品種的食品和農(nóng)產(chǎn)品,其組分及含量往往存在差別,那么它們的中紅外光譜存在差異。根據(jù)這個(gè)原理,可以用中紅外光譜技術(shù)進(jìn)行食品品種的準(zhǔn)確分類(lèi)[1-3]。
近年來(lái),國(guó)內(nèi)外研究人員在應(yīng)用傅里葉變換紅外光譜進(jìn)行農(nóng)產(chǎn)品/食品檢測(cè)的應(yīng)用方面已經(jīng)取得了一些成果。例如:Cai等用傅里葉變換紅外光譜結(jié)合偏最小二乘-自組織映射實(shí)現(xiàn)茶葉品種分類(lèi),準(zhǔn)確率達(dá)100%[4]。Krahmer等利用ATR-FTIR光譜的聚類(lèi)分析成功地將洋蔥分為鮮市場(chǎng)洋蔥、貯藏洋蔥和脫水洋蔥[5]。Cebi等利用傅里葉變換紅外光譜(Fourier transform infrared spectroscopy, FTIR)、拉曼光譜等結(jié)合化學(xué)計(jì)量學(xué)成功鑒別出真實(shí)的大黃精油樣品和虛假的商業(yè)樣品[6]。Freitas等建立了用FTIR法直接測(cè)定奶粉中泰樂(lè)菌素殘留量的方法[7]。Ciursa等采用支持向量機(jī)和偏最小二乘判別分析對(duì)FTIR進(jìn)行了不同的光譜預(yù)處理,以提高真假蜂蜜的鑒別能力[8]。Silva等利用FTIR分析法對(duì)填充乳液的水凝膠進(jìn)行化學(xué)和物理結(jié)構(gòu)評(píng)價(jià),并對(duì)水凝膠模擬消解后的形態(tài)進(jìn)行評(píng)價(jià)[9]。Labaky等通過(guò)原位FTIR的創(chuàng)新技術(shù)和流變儀以及結(jié)合顆粒尺寸測(cè)量、小變形流變學(xué),對(duì)芒果泥及其分散相的粒徑和流變性能進(jìn)行了廣泛的研究[10]。Wang等利用FTIR和化學(xué)計(jì)量測(cè)量相結(jié)合的方法來(lái)區(qū)分牛奶熱處理程度的新方法[11]。以上的研究結(jié)果表明,利用傅里葉變換紅外光譜技術(shù)能夠有效地對(duì)農(nóng)產(chǎn)品或者食品的品質(zhì)進(jìn)行檢測(cè)和分類(lèi)[12-13]。
模糊C-均值聚類(lèi)(fuzzy c-means, FCM)是一種十分常用的聚類(lèi)算法,在農(nóng)產(chǎn)品檢測(cè)方面有著十分廣泛的應(yīng)用。例如Wu等利用模糊C-均值聚類(lèi)算法結(jié)合模糊線(xiàn)性判別分析算法對(duì)蘋(píng)果的品種進(jìn)行分類(lèi)[14]。但是,由于FCM存在著對(duì)初始聚類(lèi)中心敏感問(wèn)題而導(dǎo)致聚類(lèi)結(jié)果不穩(wěn)定。即使是將FCM引入到Kohonen聚類(lèi)網(wǎng)絡(luò)的學(xué)習(xí)速率和更新策略中后而得到的模糊Kohonen聚類(lèi)網(wǎng)絡(luò)(fuzzy Kohonen clustering network, FKCN),同樣也存在著與FCM相同的問(wèn)題。K調(diào)和均值聚類(lèi)(K-harmonic means, KHM)是一種基于中心的迭代聚類(lèi)方法[15]。KHM將所有數(shù)據(jù)點(diǎn)到每個(gè)聚類(lèi)中心的調(diào)和平均值的和作為聚類(lèi)的目標(biāo)函數(shù)。由于提升函數(shù)的作用使KHM降低了對(duì)初始聚類(lèi)中心敏感程度。模糊K調(diào)和均值聚類(lèi)(fuzzy K-harmonic means, FKHM)是在KHM基礎(chǔ)上引入模糊概念。本工作在FKCN和FKHM的基礎(chǔ)上,提出了模糊K-Harmonic-Kohonen網(wǎng)絡(luò)(fuzzy K-Harmonic Kohonen clustering network, FKHKCN)算法。FKHKCN根據(jù)模糊隸屬度計(jì)算學(xué)習(xí)速率,以FKHM的聚類(lèi)中心為基礎(chǔ)計(jì)算FKHKCN的聚類(lèi)中心,在聚類(lèi)過(guò)程中降低了對(duì)初始聚類(lèi)中心敏感程度,提高了聚類(lèi)準(zhǔn)確率。
首先分別采用多元散射校正和Savitzky-Golay對(duì)茶葉,肉類(lèi)和咖啡的FTIR光譜數(shù)據(jù)進(jìn)行預(yù)處理,以消除散射影響和濾除噪聲,再用主成分分析(principal component analysis, PCA)壓縮光譜數(shù)據(jù),用線(xiàn)性判別分析(linear discriminant analysis, LDA)對(duì)茶葉數(shù)據(jù)進(jìn)行鑒別信息提取,最后分別運(yùn)行FCM,F(xiàn)KCN和FKHKCN對(duì)光譜數(shù)據(jù)聚類(lèi)分析。由實(shí)驗(yàn)結(jié)果表明:傅里葉變換紅外光譜和FKHKCN可以準(zhǔn)確快速地鑒別三種數(shù)據(jù)集的品種。
該實(shí)驗(yàn)共使用了三個(gè)光譜數(shù)據(jù)集。第一個(gè)數(shù)據(jù)集來(lái)自茶葉樣本[16],包含了優(yōu)質(zhì)和劣質(zhì)的樂(lè)山竹葉青以及峨眉山毛峰三種茶葉。該數(shù)據(jù)集是在室溫下利用傅里葉變換紅外光譜分析儀采集的96個(gè)茶葉樣本的光譜數(shù)據(jù),每種茶葉各32個(gè)樣本,波數(shù)范圍設(shè)定為4 001~401 cm-1。
第二個(gè)數(shù)據(jù)集來(lái)自咖啡樣本[17],它是通過(guò)漫反射傅里葉變換紅外光譜法采集的56個(gè)樣本的光譜數(shù)據(jù),其中兩種咖啡Robusta和Arabica分別為27個(gè)樣本和29個(gè)樣本,每個(gè)光譜包含范圍為5 233~12 338 nm的286個(gè)變量。
第三個(gè)數(shù)據(jù)集來(lái)自肉類(lèi)樣本[17],包含了雞肉、豬肉和火雞三種類(lèi)型。是利用衰減總折光率和傅里葉變換紅外光譜采集的60個(gè)樣本的光譜數(shù)據(jù),每種類(lèi)型各20個(gè)樣本。每個(gè)光譜包含448個(gè)變量,范圍在5 353~11 123 nm之間。
步驟一:初始化過(guò)程,確定類(lèi)別數(shù)k,測(cè)試樣本數(shù)n和權(quán)重指數(shù)m0的值,且滿(mǎn)足n>k>1,+∞>m0>1;初始循環(huán)次數(shù)值r=1、最大循環(huán)次數(shù)值設(shè)為rmax,誤差參數(shù)為ε;初始類(lèi)中心設(shè)置為cj, 0。
步驟二:計(jì)算第r次循環(huán)計(jì)算時(shí)的模糊隸屬度值uij, r。
(1)
式(1)中:mr為第r次循環(huán)計(jì)算時(shí)的權(quán)重指數(shù),mr=m0-rΔm,Δm=(m0-1)/rmax;uij, r為第r次循環(huán)計(jì)算時(shí)第j個(gè)樣本隸屬于第i類(lèi)的模糊隸屬度值,其中dij=‖xi-cj, r-1‖,xi為第i個(gè)樣本數(shù)據(jù),cj, r-1為第r-1次循環(huán)計(jì)算時(shí)第j類(lèi)的類(lèi)中心,dit=‖xi-ct, r-1‖,ct, r-1為第r-1次循環(huán)計(jì)算時(shí)第t類(lèi)的類(lèi)中心。
步驟三:計(jì)算第r次循環(huán)計(jì)算時(shí)的學(xué)習(xí)速率αij, r
αij,r=(uij,r)mr
(2)
步驟四:計(jì)算第r次循環(huán)計(jì)算時(shí)的類(lèi)中心cj, r
(3)
式(3)中,dil=‖xi-cl, r-1‖,cl, r-1為第r-1次循環(huán)計(jì)算時(shí)第l類(lèi)的類(lèi)中心;αil, r為第r次循環(huán)計(jì)算時(shí)的學(xué)習(xí)速率αil, r=(uil, r)mr,uil, r為第r次循環(huán)計(jì)算時(shí)第l個(gè)樣本隸屬于第i類(lèi)的模糊隸屬度值。
步驟五:r+1后賦值給變量r。
當(dāng)‖cj, r-cj, r-1‖<ε或者r>rmax則計(jì)算終止,否則從步驟二計(jì)算第r次循環(huán)計(jì)算時(shí)的模糊隸屬度值uij, r開(kāi)始重新計(jì)算。
用紅外光譜分析儀采集茶葉樣本的光譜數(shù)據(jù)時(shí),由于實(shí)驗(yàn)環(huán)境以及茶葉樣本之間形狀和顆粒大小的差異,采集到的光譜數(shù)據(jù)會(huì)存在一定的散射影響。故而采用多元散射校正對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,以盡可能地減少散射效應(yīng)的影響。
在使用光譜儀采集咖啡和肉類(lèi)樣本光譜數(shù)據(jù)時(shí),實(shí)驗(yàn)外界環(huán)境的光照條件和光譜儀自身器件原因等因素的影響,會(huì)使得光譜在采集的過(guò)程中產(chǎn)生隨機(jī)噪聲。因此使用Savitzky-Golay來(lái)平滑這兩個(gè)樣本數(shù)據(jù)集的光譜數(shù)據(jù),最大程度上減少噪聲影響。
程序設(shè)計(jì)和數(shù)據(jù)處理采用軟件Matlab2014b。
使用FTIR-7600型傅里葉紅外光譜分析儀采集得到的茶葉樣本的紅外光譜數(shù)據(jù)的維數(shù)達(dá)到1 868維,需要用PCA對(duì)光譜數(shù)據(jù)的維數(shù)進(jìn)行壓縮。茶葉的傅里葉光譜數(shù)據(jù)從原始數(shù)據(jù)的1 868維降至14維,PCA的累計(jì)貢獻(xiàn)率為99.74%。PCA處理后的數(shù)據(jù)重疊嚴(yán)重不利于茶葉樣本的準(zhǔn)確聚類(lèi),因此需要再使用LDA對(duì)降維后茶葉傅里葉紅外光譜數(shù)據(jù)進(jìn)行特征提取。茶葉樣本的訓(xùn)練集總數(shù)為30個(gè),由每種茶葉樣本中隨機(jī)抽取的10個(gè)樣本所構(gòu)成,剩余的66個(gè)樣本作為茶葉的測(cè)試集。利用LDA對(duì)14維的訓(xùn)練集計(jì)算求取LDA的鑒別向量,然后將測(cè)試集樣本投影到這些鑒別向量上實(shí)現(xiàn)數(shù)據(jù)空間的變換,獲得投影后的兩維光譜數(shù)據(jù)。
通過(guò)漫反射傅里葉變換紅外光譜法采集的咖啡樣本的維數(shù)較高,為了提高計(jì)算機(jī)的運(yùn)行速率,利用PCA將光譜數(shù)據(jù)的維數(shù)從268維降至10維,PCA的累計(jì)貢獻(xiàn)率91.12%。
利用衰減全發(fā)射(ATR)技術(shù)和傅里葉變換紅外光譜采集的肉類(lèi)的光譜數(shù)據(jù)維數(shù)為448維,通過(guò)使用PCA將樣本光譜數(shù)據(jù)的維數(shù)降至15維,PCA的累計(jì)貢獻(xiàn)率為99.55%。
FCM的初始聚類(lèi)中心取自樣本數(shù)據(jù),而FKCN和FKHKCN的初始類(lèi)中心均為FCM聚類(lèi)收斂后得到的聚類(lèi)中心。
FCM,F(xiàn)KCN和FKHKCN的初始參數(shù)設(shè)置:(1)茶葉和肉類(lèi)數(shù)據(jù):權(quán)重指數(shù)m=2,類(lèi)別數(shù)c=3,rmax=100,循環(huán)計(jì)算最大誤差參數(shù)設(shè)置為ε=0.000 01。(2)咖啡數(shù)據(jù):權(quán)重指數(shù)m=4,類(lèi)別數(shù)c=2,rmax=100,循環(huán)計(jì)算最大誤差參數(shù)設(shè)置為ε=0.001。
2.4.1 聚類(lèi)準(zhǔn)確率
對(duì)三種FTIR光譜數(shù)據(jù)上運(yùn)行FCM,F(xiàn)KCN和FKHKCN聚類(lèi)算法實(shí)施模糊聚類(lèi)分析,聚類(lèi)準(zhǔn)確率如表1所示。FKCN無(wú)法對(duì)肉類(lèi)數(shù)據(jù)集進(jìn)行聚類(lèi)分析,F(xiàn)KHKCN的聚類(lèi)準(zhǔn)確率要高于FCM和FKCN的聚類(lèi)準(zhǔn)確率。
表1 FCM,F(xiàn)KCN和FKHKCN的聚類(lèi)準(zhǔn)確率
2.4.2 聚類(lèi)收斂狀況分析
表2顯示了FCM,F(xiàn)KCN和FKHKCN的聚類(lèi)循環(huán)迭代次數(shù)。收斂速度和聚類(lèi)循環(huán)計(jì)算次數(shù)相關(guān),循環(huán)迭代次數(shù)越多則聚類(lèi)收斂速度越慢。從表2中可以看出,除了meat數(shù)據(jù)集外,F(xiàn)KCN的循環(huán)迭代次數(shù)最少,而FCM在meat數(shù)據(jù)集中循環(huán)迭代次數(shù)最少。總體而言,F(xiàn)KHKCN的循環(huán)迭代次數(shù)適中。
表2 FCM,F(xiàn)KCN和FKHKCN的聚類(lèi)循環(huán)迭代次數(shù)
2.4.3 品種判別方法
利用以下方法來(lái)確定三個(gè)數(shù)據(jù)集中的品種:首先計(jì)算訓(xùn)練樣本中不同品種的平均值與測(cè)試樣本中未知類(lèi)別的聚類(lèi)中心之間的歐式距離。某聚類(lèi)中心離數(shù)據(jù)集品種中哪一類(lèi)的歐式距離最小,則可以認(rèn)為該聚類(lèi)中心所屬的類(lèi)別與該類(lèi)品種屬于同一類(lèi)別。鑒別第k個(gè)測(cè)試樣本xk所述類(lèi)別的方法是:若樣本xk的模糊隸屬度uik最大,則認(rèn)為xk屬于第i類(lèi)。圖1顯示了FKHKCN在肉類(lèi)數(shù)據(jù)集的模糊隸屬度。
圖1 FKHKCN在肉類(lèi)數(shù)據(jù)集的模糊隸屬度
將模糊K調(diào)和聚類(lèi)和Kohonen聚類(lèi)網(wǎng)絡(luò)兩種聚類(lèi)算法結(jié)合起來(lái),提出了模糊K-Harmonic-Kohonen網(wǎng)絡(luò)(FKHKCN)算法。FKHKCN對(duì)于初始類(lèi)中心不敏感。相比于FCM和FKCN,F(xiàn)KHKCN的聚類(lèi)準(zhǔn)確率更高,循環(huán)迭代次數(shù)適中。從實(shí)驗(yàn)運(yùn)行結(jié)果來(lái)看:經(jīng)過(guò)光譜預(yù)處理,PCA和LDA的維數(shù)壓縮和特征提取,F(xiàn)KHKCN能夠準(zhǔn)確地實(shí)現(xiàn)三種數(shù)據(jù)集的品種聚類(lèi),其聚類(lèi)準(zhǔn)確率高,聚類(lèi)速度快。