孫成玉,焦 龍*,閆娜瑩,閆春華,屈 樂,張晟瑞,馬 羚
1. 西安石油大學(xué)化學(xué)化工學(xué)院,陜西 西安 710065 2. 陜西省非常規(guī)油氣勘探開發(fā)協(xié)同創(chuàng)新中心,陜西 西安 710065 3. 陜西理工大學(xué)化學(xué)與環(huán)境科學(xué)學(xué)院,陜西 漢中 723000
丹參是目前治療心血管疾病的常用藥物,具有多種顯著的醫(yī)學(xué)作用[1-3],如抗氧化、抗動(dòng)脈粥樣硬化、抗腫瘤、預(yù)防腦卒中、降低血糖等。不同地區(qū)丹參因生長環(huán)境、栽培措施、采收時(shí)間、加工方法等各不相同,導(dǎo)致藥材質(zhì)量差異較大。傳統(tǒng)上對丹參來源的鑒定主要根據(jù)其形狀、顏色和活性成分含量進(jìn)行,但當(dāng)?shù)⒌男螒B(tài)或活性成分含量相似時(shí),這些方法的鑒定結(jié)果常常不夠準(zhǔn)確。因此,需要構(gòu)建一種可靠、準(zhǔn)確、能夠?qū)Σ煌貐^(qū)種植的丹參進(jìn)行鑒別的標(biāo)準(zhǔn)化方法。
不同產(chǎn)地丹參的分類可以通過其化學(xué)成分(如活性成分、毒性元素和營養(yǎng)元素)的差異來完成。丹參的常規(guī)分析技術(shù)主要有高效液相色譜(high performance liquid chromatography,HPLC)[4]、電感耦合等離子體發(fā)射光譜(inductively coupled plasma-atomic emission spectrometry,ICP-OES)[5]和電感耦合等離子體質(zhì)譜(inductively coupled plasma mass spectrometry,ICP-MS)[6]等。雖然可以實(shí)現(xiàn)丹參有效成分或微量元素的準(zhǔn)確分析,然而通常需要經(jīng)過復(fù)雜的樣品預(yù)處理和較長的分析時(shí)間,致使分析效率下降;此外,上述分析技術(shù)在檢測過程中通常需要有機(jī)溶劑,且具有毒性及致癌性,進(jìn)而對操作人員的身心健康產(chǎn)生一定的影響。因此,建立一種快速有效的分析方法是對丹參產(chǎn)地進(jìn)行鑒別和分類的必要條件。激光誘導(dǎo)擊穿光譜(laser induced breakdown spectroscopy,LIBS)[7-8]具有快速、實(shí)時(shí)、原位、微破壞分析、遠(yuǎn)程檢測和多元素同時(shí)分析等優(yōu)點(diǎn)[9],已被應(yīng)用于地質(zhì)勘查[10]、工業(yè)過程分析[11-12]、科學(xué)考古[13]、醫(yī)學(xué)診斷[14]、環(huán)境監(jiān)測[15]等領(lǐng)域。在中藥研究方面,LIBS技術(shù)已被應(yīng)用于中藥(如三七、葛根、當(dāng)歸、川芎)的產(chǎn)地劃分、營養(yǎng)元素和毒性元素的檢測[16-18],然而,關(guān)于LIBS技術(shù)應(yīng)用于丹參分析的報(bào)道卻鮮有報(bào)道。
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)方法源自生物學(xué),結(jié)合數(shù)學(xué)和物理方法從信息處理的角度對人腦神經(jīng)網(wǎng)絡(luò)進(jìn)行抽象,建立自適應(yīng)非線性動(dòng)態(tài)系統(tǒng),具有強(qiáng)大的輸入輸出非線性映射能力、自我適應(yīng)能力和學(xué)習(xí)能力[19]。采用LIBS技術(shù)結(jié)合ANN方法對物質(zhì)進(jìn)行定性分類,具有良好的可行性,并被應(yīng)用于多種研究領(lǐng)域。宋海聲[20]等利用LIBS技術(shù)結(jié)合人工神經(jīng)網(wǎng)絡(luò)法對常見的9種塑料進(jìn)行分類識別,識別準(zhǔn)確率為99.72%;在中醫(yī)藥方面,Wang[21]等采用激光誘導(dǎo)擊穿光譜、主成分分析(PCA)和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,對兩種不同產(chǎn)地或不同部位的中草藥——黨參和川芎進(jìn)行了分析和鑒定,識別準(zhǔn)確率分別為95.83%和99.85%。由此推測,可以使用人工神經(jīng)網(wǎng)絡(luò)結(jié)合LIBS技術(shù)對丹參產(chǎn)地進(jìn)行分類鑒別。
將反向傳播-人工神經(jīng)網(wǎng)絡(luò)(BP-ANN)方法與LIBS光譜技術(shù)相結(jié)合。首先,采集六個(gè)產(chǎn)地的丹參LIBS光譜,通過NIST數(shù)據(jù)庫對LIBS光譜中元素特征峰進(jìn)行比對,對光譜進(jìn)行初步的分析;其次,從最大最小歸一化(MMN)、標(biāo)準(zhǔn)正態(tài)變換(SNV)、均值中心化(MC)、Savitzky-Golay平滑濾波(SG)以及多元散射校正(MSC)五種方法中選擇出最佳的光譜預(yù)處理方法,基于BP-ANN方法搭建分類模型。實(shí)驗(yàn)流程如Scheme 1所示。
Scheme 1 研究流程圖Scheme 1 LIBS coupled with ANN for identification of Salvia miltiorrhiza
所用丹參樣品均以干根的形式從中國西安醫(yī)藥超市購買。選取陜西、山西、山東、河南、甘肅、安徽6個(gè)產(chǎn)地共18種丹參樣品,每個(gè)產(chǎn)地分別有3種不同丹參樣品,其中1—3號樣品來自安徽省、4—6號來自甘肅省、7—9號來自河南省、10—12號來自山東省、13—15號來自山西省、16—18號來自陜西省。將所有樣品首先進(jìn)行烘干和粉碎處理,使用球磨機(jī)對粉碎后的樣品進(jìn)行研磨,粉末通過200目不銹鋼篩子,最后使用壓片機(jī)(PC-24,Pinchuang Technology,China)對丹參粉末進(jìn)行壓片處理,壓力為40 MPa,時(shí)間為5 min,壓制成直徑為20 mm,厚度為3 mm的薄片。
采用Q-switched Nd∶YAG激光器(Dawa 300,Beijing Beamtech,China),波長為1 064 nm,本實(shí)驗(yàn)脈沖能量經(jīng)過優(yōu)化設(shè)置為150 mJ,持續(xù)時(shí)間約為8 ns,重復(fù)頻率為5 Hz。將丹參粉末樣品薄片直接放置在X-Y-Z手動(dòng)測微臺上。利用焦距為100 mm的平凸透鏡將激光束垂直聚焦到樣品表面,對樣品進(jìn)行燒蝕,形成直徑為100 μm的光斑。為了提高發(fā)射強(qiáng)度的再現(xiàn)性,將焦點(diǎn)放置在目標(biāo)表面以下2 mm處。等離子體輻射利用7 mm聚焦熔融二氧化硅準(zhǔn)直透鏡耦合到光纖上,然后傳輸?shù)饺ǖ拦饫w光譜儀(MX2500+,Ocean Optics,USA,波長范圍:200~500 nm,分辨率:0.07 nm)。光譜儀的門寬設(shè)置為1 ms。探測器的延遲時(shí)間設(shè)置為3 μs,避免了脈沖激光軔致輻射的探測,提高了信噪比。在進(jìn)行LIBS實(shí)驗(yàn)之前,利用Hg-Ar燈對LIBS光譜的波長進(jìn)行了標(biāo)定。光譜采集時(shí),對每個(gè)產(chǎn)地丹參薄片樣品隨機(jī)采集120次光譜,為了減少激光波動(dòng)的影響,每條光譜是通過10個(gè)激光脈沖累積得到的,六個(gè)產(chǎn)地丹參樣品光譜總數(shù)為720。
BP-ANN是單向傳播的多層前向網(wǎng)絡(luò),由輸入層、隱含層和輸出層組成,采用該網(wǎng)絡(luò)可以實(shí)現(xiàn)輸入-輸出的非線性映射。網(wǎng)絡(luò)的隱含層數(shù)量決定了網(wǎng)絡(luò)的性能和效率,當(dāng)隱含層數(shù)較多時(shí),雖然可以提高學(xué)習(xí)精度,但是會增加神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度,延長訓(xùn)練時(shí)間;當(dāng)隱含層數(shù)和節(jié)點(diǎn)數(shù)較少時(shí),學(xué)習(xí)效率較高,精度較好。選擇單隱含層的三層BP網(wǎng)絡(luò)。
BP-ANN模型的學(xué)習(xí)過程由正向傳播和反向傳播組成,正向傳播計(jì)算如式(1)、式(2)所示
(1)
(2)
其中,i,j,k分別代表輸入層、隱含層、輸出層的神經(jīng)元個(gè)數(shù);yh為隱含層的輸出;f1表示輸入層到隱含層的Sigmoid傳遞函數(shù);wij表示輸入層與隱含層間的權(quán)值;li為輸入層的數(shù)值,即為丹參LIBS光譜;Cj表示輸出層的輸出值,即為丹參產(chǎn)地;f2為隱含層到輸出層的線性傳遞函數(shù);wjk為隱含層與輸出層的權(quán)值。
反向傳播公式為
Ep=(tpj-ypj)2
(3)
式(3)中,Ep表示輸出值的誤差,tpj為期望輸出值,ypj為實(shí)際輸出值。輸入數(shù)據(jù)li通過隱含層Sigmoid函數(shù)f1的非線性變換處理,再經(jīng)過線性變換傳入輸出層,如果輸出層沒有達(dá)到期望值,則把Ep反向傳播回去,以此對各層神經(jīng)元之間的權(quán)值進(jìn)行迭代調(diào)整,直至Ep減小到設(shè)定的范圍內(nèi),然后即可按照新的權(quán)值來完成神經(jīng)網(wǎng)絡(luò)的測定。
BP-ANN建模采用Matlab(2019b)中的Neural Network Pattern Recognition工具箱。全部計(jì)算在配置為Intel(R) Core(TM) i7-6500U CPU的計(jì)算機(jī)中進(jìn)行。
表1為分類任務(wù)的混淆矩陣,其中TP(true positive)表示真實(shí)正例樣本被正確分類為正例樣本的數(shù)目,TN(true negatives)表示真實(shí)負(fù)例樣本被正確分類為負(fù)例樣本的數(shù)目,FP(false positives)表示真實(shí)負(fù)例樣本被錯(cuò)誤分類為正例樣本的數(shù)目,FN(false negatives)表示真實(shí)正例樣本被錯(cuò)誤分類為負(fù)例樣本的數(shù)目。
表1 混淆矩陣Table 1 Confusion matrix
表1中獲得的TP,TN,FP和FN,分類任務(wù)的準(zhǔn)確率(Accuracy)、敏感性(Sensitivity)、精確率(Precision)和特異性(Specificity)可分別表示為式(4)—式(7)
(4)
(5)
(6)
(7)
圖1(a—d)分別顯示了不同產(chǎn)地丹參藥材的LIBS光譜,光譜特征譜線主要集中在波長為220~390 nm的范圍內(nèi),因此根據(jù)波長范圍將原始光譜圖分為3段(b:220~270 nm;c:270~330 nm;d:330~390 nm),根據(jù)美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)數(shù)據(jù)庫[22]確定丹參光譜中具有代表性物質(zhì)元素的發(fā)射譜線,并在圖1中標(biāo)出。
圖1中識別了丹參LIBS中Fe、Co、B、C、Al、Ti、Mn、Mg、Pb、Si、Ca、和Sc元素的特征發(fā)射譜線,通過比對可以看出,不同產(chǎn)地丹參樣品的元素的發(fā)射譜線強(qiáng)度存在著差異,如Fe元素(238.20,373.71 nm),B元素(239.50 nm),Al元素(308.22,309.27 nm),Ca元素(315.89,317.93 nm)和Ti元素(334.94,336.12,337.28 nm)等。這可能是由于不同產(chǎn)地丹參藥材的種植環(huán)境因素(如氣候、土壤、水和光照等),以及人為因素(如植栽培技術(shù)、采收方法及時(shí)間、加工及炮制技術(shù)等)的影響,導(dǎo)致不同產(chǎn)地的丹參藥材樣品中各種元素含量存在一些差異,同時(shí),丹參中各種元素含量的差異也導(dǎo)致了丹參藥材不同產(chǎn)地的質(zhì)量存在差異。通過以上分析可以看出,不同產(chǎn)地丹參的LIBS光譜確實(shí)存在差異,但是僅憑人眼很難區(qū)分差異,同時(shí)對于光譜中各個(gè)元素特征譜線的標(biāo)注工作量繁重,可以采用人工神經(jīng)網(wǎng)絡(luò)方法結(jié)合LIBS光譜來對丹參藥材產(chǎn)地進(jìn)行鑒別。
對于LIBS光譜,除了丹參樣品的特征信息外,還有激光誘導(dǎo)過程中產(chǎn)生的背景噪聲輻射,光纖探頭采集到的噪聲,模擬/數(shù)字、數(shù)字/模擬轉(zhuǎn)換等過程產(chǎn)生的附加噪聲[23]。因此,通常需要使用光譜預(yù)處理方法來消除不相關(guān)信息,改善光譜數(shù)據(jù)之間的差異,從而提高ANN模型的訓(xùn)練效果。本工作選擇最大最小歸一化(MMN)、標(biāo)準(zhǔn)正態(tài)變換(SNV)、均值中心化(MC)、Savitzky-Golay平滑濾波(SG)以及多元散射校正(MSC)五種方法對LIBS光譜進(jìn)行預(yù)處理。五種預(yù)處理方法結(jié)合ANN建立分類模型,通過對比1.5節(jié)中的各項(xiàng)評價(jià)指標(biāo),選擇最佳模型。
以丹參樣品的LIBS光譜作為ANN模型的輸入層,隱含層為神經(jīng)網(wǎng)絡(luò)模型的神經(jīng)元,輸出層為丹參產(chǎn)地標(biāo)簽。采用隨機(jī)劃分的方法,將LIBS光譜按70%∶15%∶15%的比例劃分訓(xùn)練集、驗(yàn)證集及測試集。訓(xùn)練集用于訓(xùn)練模型;驗(yàn)證集用于參數(shù)調(diào)優(yōu),得出最佳模型;測試集用于評價(jià)模型。
使用Matlab(2019b)中自帶的Scaled conjugate gradient backpropagation(trainscg)算法對BP-ANN模型進(jìn)行學(xué)習(xí)訓(xùn)練。Trainscg算法根據(jù)縮放共軛梯度法更新權(quán)重和偏差值,同時(shí)占用更少的內(nèi)存,適用于LIBS光譜數(shù)據(jù)等一維數(shù)據(jù),trainscg算法中迭代次數(shù)(epoch)閾值為1 000,交叉熵?fù)p失值(performance)范圍為0.000~0.410,梯度(gradient)范圍為1~2.50,驗(yàn)證檢查(validation check)的范圍為0~6。BP-ANN模型的訓(xùn)練流程如圖2所示。
圖2 BP-ANN訓(xùn)練流程圖Fig.2 The flow chart of BP-ANN training
以10~20作為隱含層節(jié)點(diǎn)數(shù)變量選擇范圍,以原始光譜ANN模型為例,探究不同隱含層節(jié)點(diǎn)數(shù)對ANN模型分類準(zhǔn)確率影響,驗(yàn)證集分類準(zhǔn)確率如表2所示。從表2可以看出,當(dāng)隱含層節(jié)點(diǎn)數(shù)設(shè)置為15時(shí),ANN模型的性能達(dá)到最優(yōu),驗(yàn)證集分類準(zhǔn)確率為93.76%,且具有較少的迭代次數(shù),即訓(xùn)練時(shí)間較短,因此后續(xù)實(shí)驗(yàn)選擇15為ANN模型的隱含層節(jié)點(diǎn)數(shù)。
表2 不同隱含層節(jié)點(diǎn)數(shù)對ANN模型的影響Table 2 Influence of different number of hidden layer nodes on ANN model
基于原始光譜數(shù)據(jù)和五種預(yù)處理后的光譜數(shù)據(jù)建立了六個(gè)ANN鑒別模型,探究不同預(yù)處理方法對ANN模型分類準(zhǔn)確率影響,隱含層節(jié)點(diǎn)數(shù)設(shè)置為15,測試集分類準(zhǔn)確率如表3所示。表3可以看出,基于LIBS原譜的ANN模型已經(jīng)取得了不錯(cuò)的分類效果,測試集分類準(zhǔn)確率為94.24%;較原譜相比,SNV、MC兩種預(yù)處理方法并沒有提升ANN模型的分類效果,準(zhǔn)確率分別為93.34%和92.46%;MMN、SG及MSC三種預(yù)處理方法提升了ANN模型的分類能力,其中,SG-ANN模型效果最佳,測試集分類準(zhǔn)確率為98.15%。
表3 不同產(chǎn)地丹參樣品的鑒別結(jié)果(敏感性、精確率和特異性)Table 3 The discriminant results of Salvia miltiorrhiza samples from different production areas obtained by different preprocessing methods (Sensitivity,Precision and Specificity)
每個(gè)產(chǎn)地的敏感性(Sensitivity)、精確率(Precision)和特異性(Specificity)也在表3中標(biāo)出。敏感性表示模型預(yù)測正確的產(chǎn)地占真實(shí)丹參產(chǎn)地的比例;精確率表示模型預(yù)測正確的產(chǎn)地占模型預(yù)測產(chǎn)地的比例;特異性表示模型預(yù)測正確的其他產(chǎn)地占模型預(yù)測的其他產(chǎn)地比例。三者均是ANN模型分類效果的判別指標(biāo),數(shù)值越高,表示模型的分類效果越好。從表3可以看出,與其他五種判別模型相比,SG-ANN模型對每個(gè)產(chǎn)地的丹參樣品都取得了較好的判別結(jié)果,其中,安徽和河南兩地丹參樣品的判別結(jié)果最好,敏感性、精確率及特異性均達(dá)到100.00%,其余四種產(chǎn)地丹參樣品的敏感性、精確率及特異性也在95.00%以上。結(jié)果表明,SG-ANN模型對不同產(chǎn)地丹參樣品具有良好的鑒別性能,且對于各個(gè)產(chǎn)地均具有不錯(cuò)的分類效果。
提出了一種基于人工神經(jīng)網(wǎng)絡(luò)的丹參LIBS光譜產(chǎn)地分類模型,實(shí)現(xiàn)了對中藥材丹參產(chǎn)地的定性鑒別。采用LIBS光譜儀對丹參進(jìn)行光譜采集,并通過NIST數(shù)據(jù)庫對LIBS光譜中元素特征峰進(jìn)行識別,發(fā)現(xiàn)僅憑人眼分辨難以識別產(chǎn)地,同時(shí)元素特征譜線的標(biāo)注工作量繁重;通過五種不同的光譜預(yù)處理方法對比,選擇Savitzky-Golay平滑濾波方法為最佳預(yù)處理方法,并基于ANN方法搭建分類模型,優(yōu)化網(wǎng)絡(luò)參數(shù)權(quán)重,完成模型訓(xùn)練;SG-ANN模型對于丹參產(chǎn)地鑒別效果顯著,外部測試集分類準(zhǔn)確率為98.15%,同時(shí)具有較高的敏感性、精確率和特異性。由此可見,LIBS技術(shù)結(jié)合人工神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于丹參藥材的產(chǎn)地判別具有良好的可行性,同時(shí)更加簡便、準(zhǔn)確、高效,為中藥材定性分類研究提供了一種新的方法。