董鵬凱 趙上勇 鄭柯鑫 王冀? 高勛? 郝作強(qiáng) 林景全
1) (長(zhǎng)春理工大學(xué)理學(xué)院, 長(zhǎng)春 130022)
2) (山東師范大學(xué)物理與電子科學(xué)學(xué)院, 濟(jì)南 250358)
利用激光誘導(dǎo)擊穿光譜技術(shù)結(jié)合機(jī)器學(xué)習(xí)算法, 對(duì)東北5 個(gè)產(chǎn)地(大興安嶺、集安、恒仁、石柱、撫松)的人參進(jìn)行產(chǎn)地識(shí)別, 建立了主成分分析算法分別結(jié)合反向傳播(BP)神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法的人參產(chǎn)地識(shí)別模型.實(shí)驗(yàn)采集了5 個(gè)產(chǎn)地人參共657 組在200—975 nm 的激光誘導(dǎo)擊穿光譜, 經(jīng)光譜數(shù)據(jù)預(yù)處理后, 對(duì)C, Mg, Ca, Fe, H, N, O 等元素的8 條特征譜線進(jìn)行主成分分析, 原光譜數(shù)據(jù)的前3 個(gè)主成分累積貢獻(xiàn)率達(dá)到92.50%, 且樣品在主成分空間中呈現(xiàn)良好的聚集分類.降維后的前3 個(gè)主成分以2∶1 進(jìn)行隨機(jī)抽取,分別作為分類算法的訓(xùn)練集和測(cè)試集.實(shí)驗(yàn)結(jié)果表明主成分分析結(jié)合BP 神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)的平均識(shí)別率分別為99.08%和99.5%.發(fā)生誤判的原因是集安和石柱兩地地理環(huán)境的接近而導(dǎo)致的H, O 兩元素在Ca 元素離子發(fā)射譜線下的歸一化強(qiáng)度相似.本研究為激光誘導(dǎo)擊穿光譜技術(shù)在人參產(chǎn)地的快速識(shí)別提供了方法和參考.
人參(panax ginseng)是五加科多年生草本植物, 在中國(guó)已有4000 多年的藥用和食用歷史.人參中主要有效成分為人參皂苷和多糖, 還含有維生素類、酶類、有機(jī)酸及其酯、蛋白質(zhì)、甾醇及其苷、多肽類、含氮化合物、木質(zhì)素、黃酮類和無(wú)機(jī)元素等多種成分, 具有滋補(bǔ)強(qiáng)身、預(yù)防疲勞、抗衰老、抗腫瘤、提高免疫功能等多種功效, 被廣泛應(yīng)用于制藥、保健產(chǎn)品、美容產(chǎn)品、飲料等領(lǐng)域, 對(duì)內(nèi)分泌系統(tǒng)、心血管疾病和中樞神經(jīng)系統(tǒng)等方面有突出療效[1,2].研究發(fā)現(xiàn), 人參皂苷、多糖等主要有效成分在人參內(nèi)形成、轉(zhuǎn)化與積累等過(guò)程與人參產(chǎn)地的土壤環(huán)境、日照環(huán)境和氣候環(huán)境有關(guān), 因此不同人參產(chǎn)地的相同品種人參在臨床療效上存在著較大的差異.目前, 中國(guó)人參產(chǎn)地眾多, 同一品種人參質(zhì)量參差不齊, 質(zhì)量監(jiān)控困難.東北三省是我國(guó)重要的人參產(chǎn)地, 目前不法商人借“長(zhǎng)白山人參”等噱頭出售人參來(lái)牟取利益, 導(dǎo)致人參市場(chǎng)充斥大量偽品及混淆品, 嚴(yán)重影響人參的有效使用以及國(guó)際市場(chǎng)的推廣.所以人參產(chǎn)地的識(shí)別對(duì)人參質(zhì)量品牌保護(hù)非常重要, 并且對(duì)提高中藥制劑的臨床療效均一性和穩(wěn)定性及人參市場(chǎng)的發(fā)展具有重要研究意義.
傳統(tǒng)的“五行”“六體”識(shí)別方法對(duì)人參種類和質(zhì)量的判斷易受人為因素影響.隨著現(xiàn)代科技的發(fā)展, 通過(guò)對(duì)藥效成分含量的測(cè)定來(lái)確定不同產(chǎn)地藥材的差異是重要的中草藥識(shí)別方法.光譜技術(shù)因能客觀地反映藥材內(nèi)在質(zhì)量從而被廣泛應(yīng)用于中草藥鑒定中, 常用的光譜檢測(cè)方法主要有近紅外光譜(near infrared spectroscopy, NIR)技術(shù)、拉曼光譜(Raman spectroscopy)技術(shù)、熒光光譜(fluorescence spectroscopy)技術(shù)等[3?6].常規(guī)的光譜技術(shù)由于光譜信號(hào)微弱很容易受到背景光的影響, 且檢測(cè)樣品時(shí)處理時(shí)間長(zhǎng)且復(fù)雜, 無(wú)法實(shí)現(xiàn)實(shí)時(shí)、在線和快速檢測(cè).因此, 亟需一種快速可靠的人參產(chǎn)地檢測(cè)方法.
激光誘導(dǎo)擊穿光譜技術(shù)(laser inducted breakdown spectroscopy, LIBS)是一種原子發(fā)射光譜技術(shù)[7?9], 適用于所有物質(zhì)(氣態(tài)、液態(tài)、固態(tài)), 具有快速、微損、樣品準(zhǔn)備簡(jiǎn)單和多元素同時(shí)探測(cè)等優(yōu)點(diǎn), 廣泛地應(yīng)用于爆炸物檢測(cè)[10]、文化遺產(chǎn)[11]、生物醫(yī)學(xué)分析[12]、土壤重金屬檢測(cè)[13]、地質(zhì)分析[14]、食品安全[15]等領(lǐng)域.利用LIBS 技術(shù)和化學(xué)計(jì)量學(xué)方法結(jié)合可實(shí)現(xiàn)待測(cè)樣品的分類識(shí)別.Junjuri和Gundawar[16]利用主成分分析(principal component analysis, PCA)方法和人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)兩種算法結(jié)合LIBS 技術(shù),采用PCA 方法對(duì)樣品進(jìn)行分析, 以主成分?jǐn)?shù)據(jù)作為ANN 的輸入量實(shí)現(xiàn)了對(duì)5 種消費(fèi)塑料進(jìn)行鑒定, 最終識(shí)別精確度為97%—99%; Velioglu 等[17]利用LIBS 結(jié)合PCA 實(shí)現(xiàn)了純下腳料和混合下腳料摻假牛肉樣品的識(shí)別; Lin 等[18]使用LIBS 技術(shù)結(jié)合偏最小二乘(PLS-LDA)及支持向量機(jī)(support vector machines, SVM)方法實(shí)現(xiàn)了鋼種的識(shí)別,采用偏最小二乘支持向量機(jī)算法(LSSVM)將識(shí)別精度由96.25%和95%提高到了100%; Wang 等[19]利用LIBS 結(jié)合PCA 算法和ANN 算法對(duì)不同產(chǎn)地、不同部位的當(dāng)歸、黨參、川芎3 種中藥材進(jìn)行分析鑒定, 達(dá)到99.89%的識(shí)別精度; 鄭培超等[20]利用隨機(jī)森林分類模型結(jié)合LIBS 技術(shù)對(duì)石斛進(jìn)行價(jià)格等級(jí)分類, 利用袋外數(shù)據(jù)誤差率估計(jì)隨機(jī)森林在不同的決策樹個(gè)數(shù)和分裂屬性集中屬性個(gè)數(shù)下的分類效果, 選取最優(yōu)參數(shù), 將平均識(shí)別率提高到了96.46%.
目前關(guān)于LIBS 結(jié)合機(jī)器學(xué)習(xí)算法對(duì)人參產(chǎn)地分類還有待研究.本文基于LIBS 技術(shù)結(jié)合機(jī)器學(xué)習(xí)算法對(duì)人參產(chǎn)地快速識(shí)別, 首先通過(guò)PCA 提取人參樣品的LIBS 光譜數(shù)據(jù)的特征量, 分別采用BP 神經(jīng)網(wǎng)絡(luò)(back propagation artificial neural network, BP-ANN)算法、SVM 算法建立人參產(chǎn)地識(shí)別模型, 對(duì)東北5 個(gè)產(chǎn)地的同種人參(白參)進(jìn)行聚類分析, 實(shí)現(xiàn)了人參產(chǎn)地的識(shí)別.結(jié)果表明,LIBS結(jié)合機(jī)器學(xué)習(xí)方法是實(shí)現(xiàn)人參產(chǎn)地快速識(shí)別的有效方法.
激光誘導(dǎo)擊穿光譜技術(shù)用于人參產(chǎn)地識(shí)別的實(shí)驗(yàn)裝置如圖1 所示.激光光源為輸出波長(zhǎng)1064 nm,脈寬10 ns, 重復(fù)頻率10 Hz 的Nd:YAG 激光器(Continuum, surellite II), 激光光束直徑為6 mm,激光光束通過(guò)由半波片和格蘭棱鏡組成的能量調(diào)節(jié)系統(tǒng)對(duì)誘導(dǎo)擊穿人參等離子體的脈沖能量進(jìn)行調(diào)控, 激光光束經(jīng)焦距為120 mm 的熔石英玻璃平凸透鏡聚焦在人參樣品表面誘導(dǎo)擊穿產(chǎn)生等離子體.激光光束聚焦焦點(diǎn)位于人參樣品表面內(nèi)0.8 mm, 目的為避免誘導(dǎo)擊穿空氣等離子體, 減少對(duì)人參光譜分析帶來(lái)干擾.在與人參等離子體膨脹軸向方向成45°的人參等離子體發(fā)射光譜方向上,用焦距為75 mm 的熔石英透鏡收集耦合人參等離子體發(fā)射光譜耦合到配有ICCD 探測(cè)器(1024 ×1024 pixel, DH334)的中階梯光柵光譜儀(Andor,Me5000)的光纖探頭, 光譜儀焦距為195 mm, 光譜分辨率為 λ /?λ ≈5000 , 一次光譜探測(cè)范圍為200—975 nm.激光器和ICCD 探測(cè)器均由數(shù)字脈沖延時(shí)發(fā)生器(Standoff, DG645)同步觸發(fā)工作,通過(guò)優(yōu)化激光脈沖與ICCD 探測(cè)器間的時(shí)間延時(shí)和ICCD 探測(cè)器的探測(cè)時(shí)間門寬, 設(shè)定延時(shí)和門寬分別為1 和5 s, 獲得高信背比的人參LIBS 光譜信號(hào).為避免人參樣品過(guò)度燒蝕, 人參樣品固定在三維平移臺(tái)上, 使每個(gè)激光脈沖作用在人參樣品表面新的位置.實(shí)驗(yàn)中人參LIBS 光譜為100 個(gè)脈沖進(jìn)行平均, 降低脈沖能量抖動(dòng)對(duì)人參LIBS 光譜的穩(wěn)定性影響.實(shí)驗(yàn)均在標(biāo)準(zhǔn)大氣壓、室內(nèi)溫度為22 ℃、空氣相對(duì)濕度為25%的條件下開(kāi)展.
圖1 激光誘導(dǎo)擊穿光譜實(shí)驗(yàn)裝置示意圖Fig.1.Schematic diagram of the experimental setup of LIBS.
實(shí)驗(yàn)所用的人參樣品均為生長(zhǎng)年限15 年的白參, 產(chǎn)地分別為遼寧省石柱(SZ)、恒仁(HR), 黑龍江省大興安嶺(DXAL), 吉林省撫松(FS)、集安(JA).LIBS 光譜信號(hào)受樣品密度、干燥度及研磨均勻性等物理屬性的影響, 在實(shí)驗(yàn)前先對(duì)5 個(gè)產(chǎn)地的人參樣品進(jìn)行純凈、干燥處理, 取干燥后的人參中間支干部位, 使用振動(dòng)研磨機(jī)(安合盟(天津)科技發(fā)展有限公司, PrepM-01)研磨至粉末, 分別經(jīng)50 目和100 目過(guò)篩, 取1.5 mg 樣品過(guò)篩人參粉末, 使用機(jī)械壓片機(jī)(安合盟(天津)科技發(fā)展有限公司,FW-40)在25 MPa 壓力下壓制25 min, 制成直徑30 mm、厚度為2 mm 的圓形人參樣品, 用于人參產(chǎn)地識(shí)別實(shí)驗(yàn)樣品.
主成分分析(principal component analaysis,PCA)算法是一種數(shù)據(jù)降維的高效信息處理方法,它采用特征分解獲得最大方差的主成分代替原來(lái)變量, 可以消除原變量的相關(guān)性, 降低數(shù)據(jù)的維數(shù),提高建模速度和穩(wěn)定性.PCA 分析方法為將人參樣品LIBS 光譜的采樣值整理并代入向量Xi=(xi1,xi2,···,xin) 中( n 為光譜特征值), m 為進(jìn)行降維的m 組光譜數(shù)據(jù), 對(duì)樣本標(biāo)準(zhǔn)化: 標(biāo)準(zhǔn)化采用P維隨機(jī)變量, 選取m 個(gè)樣品, 構(gòu)造樣本陣, 對(duì)樣本陣進(jìn)行標(biāo)準(zhǔn)變換:
其中, λ 稱為 R 的特征值, 非零向量 R 稱為A 對(duì)應(yīng)于特征值 λ 的特征向量; 根據(jù)主成分貢獻(xiàn)率選擇主成分, 計(jì)算主成分得分, 將所得主成分作為分類算法的輸入?yún)⒘? 對(duì)人參進(jìn)行產(chǎn)地識(shí)別.
誤差反向傳播(back-propagation algorithm,BP)神經(jīng)網(wǎng)絡(luò)[21]是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò), 它利用大量的數(shù)據(jù)進(jìn)行訓(xùn)練獲得輸入與輸出間的映射關(guān)系, 再通過(guò)梯度下降法不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值, 使網(wǎng)絡(luò)的誤差達(dá)到最小.圖2為典型的BP 人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖.網(wǎng)絡(luò) N 個(gè)輸入節(jié)點(diǎn), L 個(gè)輸出節(jié)點(diǎn), 隱含層包含 Z 個(gè)神經(jīng)元.x1,x2,··· ,xN為網(wǎng)絡(luò)的實(shí)際輸入, y1,y2,··· ,yL為網(wǎng)絡(luò)的實(shí)際輸出.
圖2 BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2.Structure of BP neural network.
BP 神經(jīng)網(wǎng)絡(luò)通常由輸入層(input layer)、輸出層(output layer)、一個(gè)或多個(gè)隱含層(hidden layer)組成.傳遞函數(shù)對(duì)誤差和訓(xùn)練時(shí)間會(huì)有很大的影響, 合理地選擇傳遞函數(shù)能夠降低網(wǎng)絡(luò)誤差, 四種傳遞函數(shù)為trainlm, trainda, traindm, Traindx.激活函數(shù)以及傳遞函數(shù)的確定需要根據(jù)訓(xùn)練數(shù)據(jù)來(lái)進(jìn)行測(cè)試、對(duì)比與篩選.在進(jìn)行BP 神經(jīng)網(wǎng)絡(luò)仿真前, 還需要先進(jìn)行LIBS 光譜數(shù)據(jù)的訓(xùn)練集和測(cè)試集選擇, 從而能夠快速實(shí)現(xiàn)人參產(chǎn)地鑒定識(shí)別.
支持向量機(jī)[22](support vector machine, SVM)實(shí)現(xiàn)分類的本質(zhì)是找一條分割線, 將所有樣本點(diǎn)盡可能遠(yuǎn)離分割線, 即最優(yōu)超平面.設(shè)訓(xùn)練樣本集{(xi,yi),i=1,2,··· ,l} , xi對(duì)應(yīng)樣本屬性值, yi對(duì)應(yīng)屬性值標(biāo)簽.對(duì)于非線性訓(xùn)練集, 通過(guò)一個(gè)非線性函數(shù)將訓(xùn)練數(shù)據(jù) x 映射到一個(gè)高維特征空間, 映射在高維空間中的不同產(chǎn)地人參屬性值向量?(xi)變?yōu)榫€性可分問(wèn)題.此時(shí)需構(gòu)造最優(yōu)分類超平面并得到?jīng)Q策函數(shù).
其中 C 為識(shí)別參數(shù), ξi,i=1,··· ,l 為引入的非負(fù)松弛變量.采用拉格朗日(Lagrangian)乘子法求解該問(wèn)題, 得到對(duì)偶形式.
其中 K (Xi,Xj)=?(Xi)T?(Xj) 為核函數(shù), 本實(shí)驗(yàn)采用徑向基函數(shù)(radial basis function, RBF)作為 核函數(shù), 即
式 中, σ 表示高斯核函數(shù)寬度.最終, 決策函數(shù)
SVM 核心問(wèn)題是優(yōu)化懲罰因子 C 及核函數(shù)g( g =1/σ2).懲罰因子控制對(duì)大間隔和最小訓(xùn)練錯(cuò)誤率之間的平衡, 用于核空間上非線性可分?jǐn)?shù)據(jù).本實(shí)驗(yàn)基于交叉驗(yàn)證和網(wǎng)格搜索對(duì) C 與 g 進(jìn)行訓(xùn)練, 獲得最佳參數(shù) C , g 進(jìn)行訓(xùn)練支持向量機(jī)算法 , 從而能夠快速實(shí)現(xiàn)人參產(chǎn)地鑒定識(shí)別.
進(jìn)行人參產(chǎn)地識(shí)別, 需要考慮實(shí)驗(yàn)待測(cè)產(chǎn)地人參的LIBS 全光譜信息, 但LIBS 全光譜信息量很大, 進(jìn)而導(dǎo)致機(jī)器學(xué)習(xí)算法計(jì)算量過(guò)大, 從而人參產(chǎn)地的識(shí)別快速性不能得到保證.為此, 選取合適的特征譜線代表人參樣品的全光譜信息, 從而實(shí)現(xiàn)快速人參產(chǎn)地識(shí)別尤為重要.激光誘導(dǎo)人參的等離子體發(fā)射光譜由線狀光譜疊加在連續(xù)光譜上組成,連續(xù)背景光譜的存在, 導(dǎo)致了LIBS 光譜的信背比變低, 本文采用窗口平移平滑法降低背景連續(xù)光譜, 5 個(gè)產(chǎn)地人參的激光誘導(dǎo)擊穿光譜如圖3 所示.根據(jù)美國(guó)NIST 原子光譜數(shù)據(jù)庫(kù)對(duì)人參LIBS 光譜進(jìn)行了元素標(biāo)記, LIBS 光譜中存在Mg, Ca, Fe 等礦質(zhì)營(yíng)養(yǎng)元素以及C, H, N, O 等人參組成元素的原子發(fā)射光譜.不同產(chǎn)地人參中元素含量不同, 對(duì)應(yīng)的LIBS 特征譜線強(qiáng)度有一定的差異, 因而通過(guò)多條元素特征光譜強(qiáng)度可對(duì)人參產(chǎn)地進(jìn)行識(shí)別.特征光譜的選擇應(yīng)滿足光譜線的重疊少、自吸收現(xiàn)象弱、譜線強(qiáng)度大(信背比高)等條件, 最終選取Mg,Ca, Fe, C, H, N, O 共7 個(gè)元素8 條特征譜線進(jìn)行人參產(chǎn)地識(shí)別(特征譜線信息如表1 所列).
圖3 人參LIBS 光譜(產(chǎn)地分別為大興安嶺、集安、恒仁、石柱、撫松)Fig.3.LIBS spectra of ginseng(the ginseng origins are DXAL, JA, HR, SZ and FS).
表1 人參特征譜線及波長(zhǎng)Table 1.Characteristic line and wavelength of ginseng.
在LIBS 實(shí)驗(yàn)過(guò)程中, LIBS 光譜強(qiáng)度受到外部氣體流動(dòng)、激光脈沖能量抖動(dòng)及樣品表面元素含量的變化等因素影響, 從而導(dǎo)致在給定實(shí)驗(yàn)條件下的LIBS 光譜強(qiáng)度存在一定的起伏, 這將對(duì)依據(jù)LIBS 光譜譜線強(qiáng)度作為元素定量分析產(chǎn)生一定的誤差.因此, 選取LIBS 光譜中多次重復(fù)性實(shí)驗(yàn)較為穩(wěn)定且光譜強(qiáng)度值較大的特征譜線進(jìn)行LIBS光譜強(qiáng)度歸一化處理, 能夠有效降低外部實(shí)驗(yàn)環(huán)境等因素造成的LIBS 光譜強(qiáng)度起伏對(duì)定量分析的影響.本文人參樣品LIBS 光譜中Ca I 393.40 nm特征譜線強(qiáng)度最大, 且多次重復(fù)實(shí)驗(yàn)的光譜強(qiáng)度穩(wěn)定, 因此選取譜線強(qiáng)度最大的Ca I 393.40 nm 作為歸一化標(biāo)準(zhǔn).為降低譜線強(qiáng)度波動(dòng)對(duì)分類結(jié)果的影響, 每個(gè)LIBS 光譜中的8 條特征譜線強(qiáng)度均以Ca:393.40 nm 光譜強(qiáng)度作歸一化處理, 最終得到5 個(gè)產(chǎn)地人參的657 組數(shù)據(jù)(DXAL 117 組、JA 150組、HR 153 組、SZ 96 組、FS 141 組), 每組數(shù)據(jù)有8 個(gè)屬性, 作為PCA 的輸入: Xi=(xi1,xi2,··· ,xi8).
由PCA 分析出人參LIBS 光譜中Mg, Ca,Fe, C, H, N, O 共7 個(gè)元素8 條特征譜線對(duì)LIBS全譜的主成分貢獻(xiàn)情況, 得到前10 個(gè)主成分的貢獻(xiàn)率和主成分的累計(jì)貢獻(xiàn)率如圖4(a)所示, PC1,PC2 和 PC3 主成分累計(jì)貢獻(xiàn)率為92.5%, 可認(rèn)為PC1, PC2, PC3 包含了原始人參LIBS 光譜的大量信息.PC1, PC2 和 PC3 3 個(gè)主成分向量組成的三維散點(diǎn)圖如圖4(b)所示.圖4 中每個(gè)散點(diǎn)代表一個(gè)人參樣本, 可以看出同產(chǎn)地人參樣品的特征LIBS 光譜經(jīng)PCA 處理后存在特定的聚集區(qū)域,顯示了良好的聚類效果.結(jié)果表明結(jié)合PCA 處理后的LIBS 光譜數(shù)據(jù)能夠表征人參的產(chǎn)地特征信息, 且能將不同產(chǎn)地人參間的差異進(jìn)行有效區(qū)分.由圖4(b)可知, HR, FS 和DXAL 等產(chǎn)地人參的聚類性較好, 相互之間區(qū)分度高, JA 和SZ 產(chǎn)地人參樣品也可聚在一起, 但存在部分重疊.
通過(guò)PCA 算法對(duì)5 個(gè)人參產(chǎn)地、共657 組LIBS數(shù)據(jù)進(jìn)行光譜數(shù)據(jù)降維處理, 優(yōu)化PCA 算法參量,實(shí)現(xiàn)PC1, PC2 和 PC3 前3 個(gè)主成分累計(jì)貢獻(xiàn)率為92.5%, 就以PC1, PC2 和 PC3 主成分代替人參的LIBS 特征光譜, 從而構(gòu)建出人參樣品LIBS光譜的特征空間向量, 特征向量構(gòu)成的 6 57×3 的數(shù)據(jù)矩陣分別作為BP 神經(jīng)網(wǎng)絡(luò)與SVM 產(chǎn)地識(shí)別算法的輸入量, 進(jìn)而依據(jù)PCA-BP 和PCA-SVM算法實(shí)現(xiàn)人參產(chǎn)地分類識(shí)別.BP 神經(jīng)網(wǎng)絡(luò)人參產(chǎn)地識(shí)別算法按產(chǎn)地以2:1 隨機(jī)選取經(jīng)主成分降維處理的657 組數(shù)據(jù), 分為438 組測(cè)試集(Test)和219 組訓(xùn)練集(Train).訓(xùn)練集構(gòu)成的 4 38×3 維數(shù)據(jù)矩陣作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練輸入量.網(wǎng)絡(luò)的輸入向量為三維數(shù)據(jù), 因此BP 神經(jīng)網(wǎng)絡(luò)的輸入層和輸出層的神經(jīng)元分別為3 和5.運(yùn)行經(jīng)多次訓(xùn)練, 最佳隱含層神經(jīng)元個(gè)數(shù)為11, 輸入層激勵(lì)函數(shù)為tansig,輸出層激勵(lì)函數(shù)為purlin.網(wǎng)絡(luò)初始化參數(shù)的迭代數(shù)設(shè)為1000, 學(xué)習(xí)率為0.1, 誤差目標(biāo)為0.0001.
圖4 (a)各主成分貢獻(xiàn)率和主成分累積貢獻(xiàn)率; (b)前3 個(gè)主成分的三維散點(diǎn)圖Fig.4.(a) Contribution rate of each principal component and cumulative contribution rate of principal component; (b) three-dimensional scatter plot of first three principal components.
圖5 (a)為BP 神經(jīng)網(wǎng)絡(luò)最佳驗(yàn)證性能圖, 訓(xùn)練誤差隨訓(xùn)練次數(shù)不斷減小, 測(cè)試均方差(MSE)也趨于平緩, 驗(yàn)證曲線MSE 不再變化時(shí)網(wǎng)絡(luò)訓(xùn)練截止, 網(wǎng)絡(luò)性能最佳坐標(biāo)為(28, 0.03), 達(dá)到了最佳網(wǎng)絡(luò)識(shí)別精度.在此基礎(chǔ)上, 以BP 神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)對(duì)人參產(chǎn)地分類結(jié)果如圖5(b)所示, 圖中“*”表示測(cè)試標(biāo)簽, “○”表示實(shí)際標(biāo)簽.當(dāng)“*”和“○”重合時(shí)表明預(yù)測(cè)準(zhǔn)確, 結(jié)果顯示有2 個(gè)JA 產(chǎn)地的人參被誤判為SZ 產(chǎn)地, 其他產(chǎn)地100%識(shí)別, 平均識(shí)別精度達(dá)到99.08%, 人參產(chǎn)地識(shí)別算法模型運(yùn)行時(shí)間為2.48 s, 同時(shí)結(jié)果表明神經(jīng)網(wǎng)絡(luò)收斂性良好, 誤差個(gè)數(shù)穩(wěn)定, 高質(zhì)量地實(shí)現(xiàn)了人參產(chǎn)地判別.
人參產(chǎn)地識(shí)別的SVM 算法的數(shù)據(jù)選取經(jīng)主成分降維處理的657 組數(shù)據(jù), 建立與BP 神經(jīng)網(wǎng)絡(luò)算法相同的訓(xùn)練集和測(cè)試集, 使用交互檢驗(yàn)法優(yōu)化參數(shù), 得到PCA-SVM 的網(wǎng)格參數(shù)優(yōu)化如圖6(a)所示.圖6(a)的x, y 軸分別表示C, g 取以2 為底的對(duì)數(shù)的值, 使用網(wǎng)格搜索方法的分類(SVC)參數(shù)計(jì)算出最佳懲罰因子 C 為0.14, 最優(yōu)核函數(shù)g 為36.76, 此時(shí)交叉驗(yàn)證準(zhǔn)確率為99.09%, 訓(xùn)練集準(zhǔn)確率為99.07%.經(jīng)參數(shù)優(yōu)化后SVM 算法對(duì)人參產(chǎn)地識(shí)別的預(yù)測(cè)運(yùn)行結(jié)果如圖6(b)所示.圖6(b)中“△”表示預(yù)測(cè)標(biāo)簽, “○”表示實(shí)際標(biāo)簽.結(jié)果表明, 1 個(gè)JA 產(chǎn)地的人參被誤判為SZ, 識(shí)別精度為99.8%.其他產(chǎn)地的識(shí)別精度均為100%, 平均識(shí)別精度為99.5%, 人參產(chǎn)地識(shí)別算法模型運(yùn)行時(shí)間為14.03 s.
圖5 (a) BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練性能曲線; (b) 分類結(jié)果圖Fig.5.(a) BP neural network training performance curve; (b) classification results.
圖6 (a) PCA-SVM 網(wǎng)格參數(shù)優(yōu)化; (b)分類識(shí)別結(jié)果圖Fig.6.(a) PCA-SVM grid parameter optimization; (b) classification recognition result graph.
表2 人參產(chǎn)地識(shí)別結(jié)果對(duì)比Table 2.Comparison of ginseng origin identification results.
PCA-BP, PCA-SVM 分類算法對(duì)人參產(chǎn)地的識(shí)別結(jié)果如表2 所列.由LIBS 技術(shù)結(jié)合機(jī)器學(xué)習(xí)的研究結(jié)果可知, PCA-BP 和PCA-SVM 兩種分類算法的分類精度均達(dá)到了99%以上, 實(shí)現(xiàn)了目標(biāo)分類精度, 但在JA 人參產(chǎn)地的識(shí)別上均發(fā)生了一定數(shù)量的誤判.在算法模型運(yùn)行時(shí)間上, PCABP 算法和PCA-SVM 算法的人參產(chǎn)地識(shí)別運(yùn)算時(shí)間分別為2.48 和14.03 s, PCA-BP 算法相對(duì)于PCA-SVM 算法的建模速度快了11.545 s, 有明顯優(yōu)勢(shì).主要原因可能為BP 神經(jīng)網(wǎng)絡(luò)算法具有自主學(xué)習(xí)能力, 而SVM 算法需通過(guò)核函數(shù)將非線性問(wèn)題實(shí)現(xiàn)線性的轉(zhuǎn)化, 識(shí)別能力依靠分類超平面的劃分, 需尋找最優(yōu)的核函數(shù)以滿足識(shí)別精度要求, 因而建模時(shí)間較BP 神經(jīng)網(wǎng)絡(luò)算法慢.
人參的品質(zhì)主要由人參皂苷及人參多糖的含量決定, 人參皂苷是固醇類化合物, 人參中皂苷和多糖主要由C, H, O 等元素決定.通過(guò)分析5 個(gè)產(chǎn)地人參C I 247.8 nm, H I 656.39 nm, O I 777.42 nm元素在Ca II 394.2 nm 元素譜線強(qiáng)度下的歸一化強(qiáng)度結(jié)果如圖7 所示.可以看出, JA 和SZ 兩地人參在組成成分上雖因產(chǎn)地的不同導(dǎo)致金屬元素的原子發(fā)射譜線強(qiáng)度存在差異, 但其H I 656.39 nm與O I 777.42 nm 兩條譜線強(qiáng)度的歸一化強(qiáng)度幾乎相同, 從而導(dǎo)致JA 和SZ 人參產(chǎn)地分類時(shí)發(fā)生誤判.
圖7 人參LIBS 譜中C, H, O 元素譜線的歸一化強(qiáng)度比Fig.7.Normalized intensity ratios of C, H and O element lines in the LIBS spectrum.
基于激光誘導(dǎo)擊穿光譜技術(shù)結(jié)合機(jī)器學(xué)習(xí)算法對(duì)5 個(gè)產(chǎn)地的人參進(jìn)行了產(chǎn)地的分類識(shí)別, 測(cè)試集219 組光譜中, PCA-BP 算法和PCA-SVM 算法分別正確識(shí)別了217 組和218 組, 兩種算法的識(shí)別精度分別為99.08%和99.5%.但在分類速度上,主成分分析結(jié)合神經(jīng)網(wǎng)絡(luò)(PCA-BP)算法明顯優(yōu)于主成分分析結(jié)合支持向量機(jī)(PCA-SVM)算法.JA和SZ 兩種人參樣本LIBS 譜線中的H I 656.39 nm和O I 777.42 nm 譜線在以Ca:393.40 nm 光譜強(qiáng)度作歸一化處理后的強(qiáng)度幾乎相同, 最終導(dǎo)致兩產(chǎn)地發(fā)生誤判.實(shí)驗(yàn)結(jié)果證明, PCA-BP 算法較PCASVM 算法訓(xùn)練速度快, 訓(xùn)練結(jié)果較為穩(wěn)定, 對(duì)5 個(gè)產(chǎn)地人參的分類精度較高, 因此利用LIBS 技術(shù)結(jié)合機(jī)器學(xué)習(xí)算法可實(shí)現(xiàn)人參產(chǎn)地的快速識(shí)別.