譚 陽(yáng), 武小紅, 武 斌, 沈硯君, 劉錦茂
1. 江蘇大學(xué)卓越學(xué)院, 江蘇 鎮(zhèn)江 212013
2. 江蘇大學(xué)電氣信息工程學(xué)院, 江蘇 鎮(zhèn)江 212013
3. 江蘇省農(nóng)業(yè)裝備與智能化高技術(shù)研究重點(diǎn)實(shí)驗(yàn)室, 江蘇 鎮(zhèn)江 212013
4. 滁州職業(yè)技術(shù)學(xué)院信息工程學(xué)院, 安徽 滁州 239000
民以食為天, 食以安為先。 我國(guó)自古以來(lái)就是一個(gè)人口數(shù)量龐大的農(nóng)業(yè)大國(guó), 對(duì)于食品質(zhì)量的重視程度從未放松。 為了保證糧食的產(chǎn)量與營(yíng)養(yǎng)價(jià)值, 往往需要對(duì)作物定期噴灑定量的農(nóng)藥, 以消滅害蟲(chóng)。 然而, 農(nóng)藥的殘留對(duì)人類健康與自然環(huán)境卻有所危害[1-3]。 當(dāng)農(nóng)作物流入市場(chǎng)時(shí), 所施加的農(nóng)藥總會(huì)或多或少地殘留在農(nóng)作物的表面, 其濃度由于初始濃度, 噴灑周期, 貯存時(shí)間等因素而各不相同。 我國(guó)有嚴(yán)格的進(jìn)口食品安全管理體制和進(jìn)口蔬菜農(nóng)藥標(biāo)準(zhǔn), 故準(zhǔn)確有效的蔬菜農(nóng)藥殘留檢測(cè)分類與國(guó)計(jì)民生息息相關(guān), 具有重要的研究?jī)r(jià)值。
國(guó)內(nèi)外學(xué)者在農(nóng)藥殘留檢測(cè)方面做了很多的研究, 較為常見(jiàn)的方法有傳統(tǒng)的化學(xué)檢測(cè)與紅外光譜分析等。 紅外光譜分析的獨(dú)特優(yōu)勢(shì), 推動(dòng)了農(nóng)藥殘留檢測(cè)方法的進(jìn)一步發(fā)展, 實(shí)現(xiàn)了快速無(wú)損化; Jiang等借助氣相色譜法, 使用近紅外高光譜成像系統(tǒng)預(yù)測(cè)桑葉中農(nóng)藥殘留的分布[4]; Zhou等采用偏振光譜檢測(cè)技術(shù)收集偏振光信息, 使用BP神經(jīng)網(wǎng)絡(luò), K近鄰和支持向量機(jī)建立分類模型, 最后得到不同農(nóng)藥殘留的校準(zhǔn)識(shí)別率為100%, 預(yù)測(cè)識(shí)別率為97.78%[5]; Sun等提出了一種結(jié)合化學(xué)分子結(jié)構(gòu)和小波變換的方法提取特征波長(zhǎng), 通過(guò)提取的特征光譜數(shù)據(jù)建立支持向量機(jī)模型, 校準(zhǔn)與預(yù)測(cè)精度達(dá)到100%[6]; Wu等提出深簡(jiǎn)網(wǎng)絡(luò)和近紅外透射光譜相結(jié)合的檢測(cè)方法, 通過(guò)支持向量機(jī)、 PLS-DA和K近鄰法建立分類模型, 訓(xùn)練與測(cè)試的準(zhǔn)確率分別達(dá)到了98.89%和95.00%[7]; Sun等基于生菜葉片的高光譜數(shù)據(jù), 將競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣與連續(xù)投影算法應(yīng)用于最小二乘支持向量回歸模型, 對(duì)生菜葉片中混合農(nóng)藥殘留進(jìn)行定量檢測(cè)[8]。
聚類分析是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法, 廣泛應(yīng)用于模式識(shí)別領(lǐng)域[9], 例如K均值聚類算法[10]。 模糊聚類分析將模糊理論[11]與聚類算法結(jié)合, 每一個(gè)數(shù)據(jù)樣本可同時(shí)隸屬于多個(gè)聚類, 以數(shù)據(jù)特征相似性度量來(lái)識(shí)別類群。 例如: 為了解決模糊C-均值聚類算法(fuzzy c-means clustering, FCM)[12]對(duì)噪聲環(huán)境的敏感問(wèn)題, 引入可能性的概念代替模糊隸屬度, 修改目標(biāo)函數(shù)約束條件的可能C均值聚類算法[13]; 基于模糊馬氏距離的自適應(yīng)改進(jìn)可能C均值聚類算法[14]; 使用馬氏距離測(cè)度預(yù)測(cè)非橢球形數(shù)據(jù)的GK(gustafson-kessel clustering)算法[15]; Wu等提出的結(jié)合模糊協(xié)方差矩陣的可能性模糊C均值聚類算法[16]。 為了得到更適合含農(nóng)藥殘留的白菜的中紅外光譜聚類分析算法, 并在已有的算法上進(jìn)一步提高分類的準(zhǔn)確率且保持算法的優(yōu)良特性, 本文結(jié)合GK算法與改進(jìn)的可能C均值聚類算法(improved possibilistic c-means clustering, IPCM), 提出一種GK可能C均值聚類算法(gustafson-kesselimproved possibilistic c-means clustering, GKIPCM)。
首先使用中紅外光譜儀采集白菜的中紅外光譜數(shù)據(jù), 其次依次使用多元散射矯正, 主成分分析, 線性判別分析對(duì)數(shù)據(jù)進(jìn)行預(yù)處理, 然后應(yīng)用GKIPCM對(duì)數(shù)據(jù)進(jìn)行聚類分析, 最后對(duì)比GK聚類與IPCM聚類的分類準(zhǔn)確率得出結(jié)論: GKIPCM算法可以完成對(duì)不同濃度農(nóng)藥殘留的定性分析。
1.1.1 材料
本實(shí)驗(yàn)對(duì)象為采購(gòu)于菜市場(chǎng)的新鮮小白菜, 將其以45 ℃溫水洗凈后作為施以農(nóng)藥的原材料。 選取高效氯氟氰菊酯為實(shí)驗(yàn)農(nóng)藥, 使用噴霧方式確保農(nóng)藥噴灑均勻。 將實(shí)驗(yàn)原材料分為四組, 第一組不噴灑農(nóng)藥, 作為對(duì)照實(shí)驗(yàn)組; 第二、 三、 四組的農(nóng)藥配比分別為1∶500, 1∶100, 1∶20。 陰干后將白菜分解成小塊, 便于進(jìn)行中紅外光譜數(shù)據(jù)的收集。
1.1.2 光譜儀器與分析軟件
儀器選用安捷倫Cary 630 FTIR光譜儀, 調(diào)至ATR衰減全反射光譜采集模式。 掃描背景與樣本各64次, 分辨率調(diào)整為8 cm-1。 配合Microlab PC、 Resolutions Pro軟件, 每組樣品采集40組數(shù)據(jù), 共計(jì)160組, 每組數(shù)據(jù)有971維, 波數(shù)變化范圍為4 300~590 cm-1。 白菜傅里葉中紅外光譜(Fourier transform mid-infrared spectroscopy, FT-MIR)如圖1所示, 采用Matlab R2016b對(duì)該光譜數(shù)據(jù)進(jìn)行定性分析。
圖1 原始傅里葉變換中紅外光譜數(shù)據(jù)圖
(1)參數(shù)初始化
(2)計(jì)算第r次迭代時(shí)的模糊散射矩陣Sfi, r
(1)
式(1)中,uik, r-1為第r-1次迭代后第k個(gè)測(cè)試樣本對(duì)第i類的模糊隸屬度;n為樣本總量;xk為第k個(gè)白菜中紅外光譜測(cè)試樣本;vi, r-1為第r-1次迭代后第i類的類中心(i=1, 2, 3, 4);Sfi, r是第r次迭代后第i類樣本的模糊散射矩陣。
(3)計(jì)算第r次迭代后第i個(gè)聚類中心的范數(shù)矩陣Ai, r
(2)
(4)由式(3)計(jì)算第r次迭代后測(cè)試樣本xk到類中心vi, r-1的距離范數(shù)Dik, r
(3)
(5)計(jì)算第r次迭代后第k個(gè)測(cè)試樣本隸屬于第i類的典型值tik, r
(4)
(6)計(jì)算第r次迭代后的模糊隸屬度矩陣Ur, 其各元素值計(jì)算公式為:
(5)
式(5)中,c為樣本類別數(shù)。
(7)計(jì)算第r次迭代后第i類的類中心vi, r
(6)
(8)計(jì)算相鄰兩次迭代后兩聚類中心的距離范數(shù)Dr
Dr=‖vi, r-vi, r-1‖
(7)
(9)對(duì)已計(jì)算數(shù)據(jù)進(jìn)行如下判斷:
若Dr<ε或r≥rmax, 則停止運(yùn)行, 記錄迭代結(jié)束時(shí)模糊聚類中心Vend, 模糊隸屬度矩陣Uend以及典型值矩陣Tend; 否則令vi, r-1=vi, r,uik, r-1=uik, r, 回到步驟(2)繼續(xù)迭代計(jì)算。
(10)根據(jù)模糊隸屬度矩陣與典型值矩陣對(duì)樣本進(jìn)行分類:
對(duì)于模糊隸屬度, 若uij為uj中的最大值, 則判斷第j個(gè)樣本屬于第i類; 對(duì)于典型值, 若tij為tj中的最大值, 則認(rèn)為第j個(gè)樣本有更大的可能性屬于第i類。
將樣本數(shù)據(jù)分為訓(xùn)練集與測(cè)試集。 其中訓(xùn)練集共4類, 每類22個(gè)樣本; 測(cè)試集共4類, 每類18個(gè)樣本。 在光譜數(shù)據(jù)采集的過(guò)程中, 散射水平的差異往往造成白菜表面實(shí)際農(nóng)藥的殘留量與光譜波長(zhǎng)的數(shù)據(jù)相關(guān)性的下降。 為了減小此類差異且提高信噪比, 首先使用多元散射矯正(multiplicative scattering correction, MSC)對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。 圖2為使用多元散射矯正后傅里葉中紅外光譜數(shù)據(jù)圖。
圖2 多元散射矯正后傅里葉中紅外光譜數(shù)據(jù)圖
為觀察不同農(nóng)藥殘留程度的光譜數(shù)據(jù)的吸光度有所差異, 計(jì)算了每一類光譜數(shù)據(jù)的平均值并截取了波數(shù)介于800與1 500之間的部分如圖3所示。
圖3 多元散射矯正后白菜平均中紅外光譜圖
不同農(nóng)藥濃度樣品的中紅外光譜吸光度有著明顯差值, 直接保證了不同類光譜數(shù)據(jù)的可分性。
盡管MSC將基線平移并且消除了偏移量, 但數(shù)據(jù)依然達(dá)到了971維。 為減小運(yùn)算量, 采用主成分分析(principal component analysis, PCA)對(duì)數(shù)據(jù)實(shí)現(xiàn)降維并提高分類準(zhǔn)確率。 通過(guò)訓(xùn)練數(shù)據(jù)集的協(xié)方差矩陣得到前23個(gè)主成分, 累計(jì)貢獻(xiàn)率高達(dá)99.60%。 故通過(guò)該23個(gè)主成分將光譜數(shù)據(jù)縮小至23維。 為了提取樣本數(shù)據(jù)的相關(guān)特征信息并進(jìn)一步降維, 使用線性判別分析(linear discriminant analysis, LDA)處理訓(xùn)練樣本。 此處求取了3個(gè)判別向量與特征值。 其中特征值的計(jì)算結(jié)果為:λ1=7.371 3,λ2=3.932 0,λ3=1.931 7。 將PCA處理后的訓(xùn)練數(shù)據(jù)投影到判別向量構(gòu)成的特征空間, 得到線性判別分析得分圖, 見(jiàn)圖4。
圖4 線性判別分析得分圖
圖中, “·”, “*”, “○”, “×”分別表示農(nóng)藥配比為無(wú)農(nóng)藥, 1∶500, 1∶100, 1∶20的光譜數(shù)據(jù)。 無(wú)農(nóng)藥的樣本與配比為1∶20的樣本區(qū)分度最高, 相比之下農(nóng)藥配比為1∶100和1∶500的兩類樣本區(qū)分度稍弱。 盡管如此, 四類樣本整體的區(qū)分度較強(qiáng), 說(shuō)明線性判別分析的特征提取結(jié)果是可取的。 于是將PCA的23組線性變換(主成分)與LDA的3個(gè)鑒別向量應(yīng)用于測(cè)試集, 為模糊聚類做準(zhǔn)備。
2.2.1 模糊聚類相關(guān)參數(shù)的初始化
設(shè)置權(quán)重指數(shù)m=2.0(m≥1), 測(cè)試樣本的維數(shù)d=3; 由于FCM, GK, IPCM, GKICPM算法都屬于迭代算法, 設(shè)置迭代次數(shù)初始值r=1, 最大迭代次數(shù)rmax=100; 當(dāng)?shù)`差小于ε=0.000 01或r≥rmax時(shí)停止迭代。 FCM的初始聚類中心如式(8)
(8)
對(duì)于GK, IPCM, GKIPCM, 將FCM的最終聚類中心與模糊隸屬度作為算法的初始值。
2.2.2 模糊聚類算法的迭代時(shí)長(zhǎng)
運(yùn)行GK, IPCM, GKIPCM, 對(duì)比迭代次數(shù)與收斂時(shí)間: GK迭代了100次, 運(yùn)行時(shí)間為0.093 8 s; IPCM迭代了13次, 運(yùn)行時(shí)間為0.062 5 s; GKIPCM迭代了87次, 運(yùn)行時(shí)間為0.218 8 s。 處理器: Inter(R) Core(TM) i5-8300H CPU @ 2.30GHz(8 CPUs); 內(nèi)存: 8192MB RAM。
2.2.3 模糊隸屬度分類結(jié)果
參照2.2.1將各參數(shù)初始化后, 分別運(yùn)行GK, IPCM與GKIPCM。 得到GK, IPCM, GKIPCM對(duì)應(yīng)的模糊隸屬度分別為uik, GK, uik, IPCM, uik, GKIPCM, 表示第k個(gè)測(cè)試樣本對(duì)第i類的模糊隸屬度; 同時(shí), IPCM與GKIPCM還具有典型值tik, IPCM, tik, GKIPCM, 表示第k個(gè)測(cè)試樣本屬于第i類的可能性, 其中GKIPCM算法的典型值分布如圖5所示。 典型值取消了測(cè)試樣本xk對(duì)各類的隸屬度之和為1的約束條件, 減弱了聚類過(guò)程中噪聲對(duì)分類的影響。
圖5 GKIPCM典型值
對(duì)于模糊隸屬度uik與典型值tik, 若uik為uk中的最大值或tik為tk中的最大值則認(rèn)為第k個(gè)測(cè)試樣本可以被劃分到第i個(gè)類別當(dāng)中。 最終根據(jù)模糊隸屬度與典型值得到GK, IPCM, GKIPCM的分類精度分別為: 63.89%, 91.67%, 97.22%。
2.3.1 權(quán)重指數(shù)m
在模糊聚類算法中, 權(quán)重指數(shù)m對(duì)算法的準(zhǔn)確程度有著重要影響。 對(duì)于GKIPCM, 當(dāng)m≥2時(shí), 模糊隸屬度矩陣在迭代過(guò)程中有著較好的收斂性; 但由于同一樣本對(duì)不同類的典型值沒(méi)有和為1這一約束條件,m過(guò)大時(shí)式(5)的計(jì)算結(jié)果會(huì)受到干擾, 甚至使下一次迭代時(shí)式(1)計(jì)算的模糊散射矩陣Sfi, r接近奇異值, 影響分類準(zhǔn)確度。 此處固定主成分個(gè)數(shù)為23, 研究權(quán)重指數(shù)m在區(qū)間[2, 6]上時(shí), 各算法的聚類準(zhǔn)確率, 結(jié)果如表1所示。
由表1可見(jiàn),m在有限范圍內(nèi), GKIPCM聚類準(zhǔn)確率高于GK聚類與IPCM聚類。
表1 不同參數(shù)m的GK, GKIPCM,IPCM算法聚類準(zhǔn)確率
2.3.2 主成分個(gè)數(shù)
在PCA降維過(guò)程中, 通常使得主成分的累積貢獻(xiàn)率達(dá)到一個(gè)較高的百分比(80%~90%), 否則樣本數(shù)據(jù)維度降低的同時(shí)也會(huì)損失大量的特征鑒別信息。 此處固定m=2, 通過(guò)調(diào)整主成分的個(gè)數(shù)從而調(diào)整累計(jì)貢獻(xiàn)率, 觀察對(duì)聚類準(zhǔn)確率的影響, 結(jié)果如表2所示。
表2 不同主成分的個(gè)數(shù)下GK, GKIPCM,IPCM算法的準(zhǔn)確率
由表2知: 隨著主成分個(gè)數(shù)的增加, GK, GKIPCM, IPCM的準(zhǔn)確率都呈現(xiàn)上升趨勢(shì), GK的準(zhǔn)確率相較其他算法對(duì)參數(shù)敏感一些, GKIPCM聚類的準(zhǔn)確率在主成分個(gè)數(shù)為23時(shí)高達(dá)到97.22%。 綜合表1、 表2, 該GKIPCM算法適合處理農(nóng)藥殘留程度的定性分析問(wèn)題。
將GK的馬氏距離測(cè)度與IPCM的模糊隸屬度和聚類中心更新方程結(jié)合, 提出了一種新型GKIPCM算法。 實(shí)驗(yàn)證明, 對(duì)農(nóng)藥殘留的白菜傅里葉中紅外光譜數(shù)據(jù)采用GKIPCM算法進(jìn)行分析, 準(zhǔn)確率達(dá)到了97.22%(例如:m=2, 主成分個(gè)數(shù)等于23), 分類效果優(yōu)于GK與IPCM聚類算法, 具有較高的實(shí)際應(yīng)用價(jià)值。