李 慶,許 莉,彭善貴,羅 霄,張蓉琴,嚴鑄云,文永盛*
1.成都市藥品檢驗研究院,四川 成都 610045 2.國家藥品監(jiān)督管理局中藥材質(zhì)量監(jiān)測評價重點實驗室,四川 成都 610045 3.成都中醫(yī)藥大學(xué),四川 成都 611137
中藥材產(chǎn)地識別是中醫(yī)藥界保證臨床用藥安全有效的重要手段,《神農(nóng)本草經(jīng)》明確提出“土地所出,真?zhèn)侮愋隆?;《本草衍義》謂:“用藥必擇州土所宜者,則藥力具,用之有據(jù)”;李時珍在《本草綱目》中謂:“性從地變,質(zhì)與物遷”。丹參為唇形科植物丹參SalviamiltiorrhizaBge.的干燥根和根莖,常用于治療心血管疾病[1]。丹參除河南、山東、四川傳統(tǒng)產(chǎn)地外,陜西、湖北、河北、安徽、山西、江蘇、云南和貴州等地也在栽培,不同產(chǎn)地的丹參質(zhì)量差異大[2]。常規(guī)的性狀鑒別、顯微鑒別和薄層色譜鑒別難以識別丹參產(chǎn)地。雖然液相色譜[3]、質(zhì)譜聯(lián)用[4]和分子標記[5]也用于丹參產(chǎn)地研究,但這些方法耗時、消耗化學(xué)試劑,不能滿足市場中藥材、尤其是貴細中藥材的快速無損傷鑒定需要。
顯微聚焦拉曼技術(shù)是一種微區(qū)分析技術(shù),具快速、無損、結(jié)果直觀等優(yōu)點,已在文物、寶石和生物醫(yī)學(xué)等多個領(lǐng)域得到應(yīng)用,也用于中藥質(zhì)量分析[6-7]。但樣品在無損傷條件下,增加掃描位點以獲取樣品整體光譜信息,再結(jié)合化學(xué)計量學(xué)建立中藥材產(chǎn)地鑒別模型的研究鮮有報道。本文以丹參為研究對象,利用顯微聚焦拉曼技術(shù)對不同產(chǎn)地丹參樣品每根藥材表面隨機掃描1~n次,獲取每份樣品1~n次的平均光譜數(shù)據(jù),經(jīng)數(shù)據(jù)前處理后用偏最小二乘判別分析(partial least squares-discriminant analysis,PLS-DA)和隨機森林分類算法[不篩選(random forest,RF)或篩選重要變量(RF-VS)]建立不同掃描次數(shù)的丹參產(chǎn)地識別模型,為該技術(shù)應(yīng)用于中藥材產(chǎn)地鑒別提供參考。
2020年9月至12月自7個省采集150份栽培丹參樣品,除雜后于50 ℃烘干備用。所有樣品均經(jīng)成都中醫(yī)藥大學(xué)嚴鑄云教授鑒定為丹參(Salviamiltiorrhizaeradix et rhizoma)正品,樣品詳細信息見圖1和附表1。
圖1 丹參產(chǎn)地及其代表性樣品圖
附表1 150份丹參樣品信息
根據(jù)各采集地的地理位點遠近、土壤類型及丹參外觀性狀歸納丹參產(chǎn)地。由圖1可知,河北、四川和山東在區(qū)位上較為獨立,分別可歸為產(chǎn)地a,e和d。圖中亮綠色采樣點分布于河南、山西、陜西,區(qū)位上彼此非常接近,將這些采樣點歸為產(chǎn)地c。但河南兩個采樣點溫縣、禹州及安徽亳州采樣點(圖藍色位點)均位于黃河下游沖擊平原,土壤為沙質(zhì)(見附表1),這三個樣點所產(chǎn)丹參外觀表面土灰色,明顯不同于產(chǎn)地c和d的外觀暗棕紅色的丹參(見圖1),且含量測定結(jié)果(待發(fā)表)發(fā)現(xiàn)該三個樣點的丹參樣品丹參酮類含量整體明顯低于產(chǎn)地c和d,因此,將該三個采樣點歸為產(chǎn)地b。
隱丹參酮(110852—201807)、丹參酮ⅡA(110766—202022,TA2)和丹參酮Ⅰ(110867—201607)購自中國食品藥品檢定研究院,純度均高于97%。二氫丹參酮Ⅰ(MUST-15020102)購自成都曼斯特生物科技有限公司,純度高于98%。
DXR顯微聚焦拉曼光譜儀(美國,賽默飛世爾科技公司)。
顯微聚焦拉曼光譜儀檢測時激光波長780 nm;激光功率5 mW;波數(shù)范圍50~3 350 cm-1;采集曝光時間3 s;檢測精度1 cm-1。考慮到測試成本,在無損傷條件下,本文僅對每份樣品的每根藥材表面隨機掃描1~3次,對不同掃描次數(shù)所得光譜數(shù)據(jù)求平均,得到每份樣品掃描1次、2次、3次的平均光譜數(shù)據(jù)。四個丹參酮類對照品分別掃描一次即得拉曼光譜數(shù)據(jù)。
1.5.1 數(shù)據(jù)預(yù)處理和樣本集的劃分
為消除基線漂移,降低隨機噪音,提取光譜有效信息,本文使用常用的標準正態(tài)變換(standard normal variable transformation,SNV)、多元散射校正(multiplicative scatter correction, MSC)、1ST-D、二階導(dǎo)數(shù)(second derivative,2ND-D)、三階導(dǎo)數(shù)(third derivative, 3RD-D)對原始光譜進行前處理[8]。
隨機選取三分之二的樣本作為訓(xùn)練集,剩余三分之一的樣本作為測試集。
1.5.2 模型建立
(1)PLS-DA模型:在全波段條件下,利用PLS-DA建立丹參產(chǎn)地識別模型。采用7折交叉驗證的交叉驗證均方根誤差(RMSECV)的最小值確定最適隱變量數(shù)(LVs)。使用Simca(Version 13.0, Umetrics, Sweden)軟件完成PLS-DA模型的建立。
(2)RF和RF-VS模型:應(yīng)用RF建立丹參產(chǎn)地識別模型。對兩個重要參數(shù)決策樹數(shù)量(n-estimator)和最大特征數(shù)量(Max-feature)分別在0~500和0~120范圍進行優(yōu)化,選取袋外誤差(out-of-bag score,Oob_score)最小的參數(shù)作為建模參數(shù)。
在全波段條件下建立RF模型。同時,隨機選取訓(xùn)練集的五分之四樣本用來計算變量的重要性,重復(fù)500次,使用基尼指數(shù)評價變量的重要性;再根據(jù)變量的重要性范圍,篩選重要變量,篩選幅度為變量重要性范圍的1/40,使用五折交叉驗證尋找不同的界值,各界值對應(yīng)的重要變量建立不同的模型;根據(jù)模型平均預(yù)測準確率篩選出最優(yōu)RF-VS模型和相應(yīng)的最優(yōu)界值。使用Python語言完成RF和RF-VS模型。
(3)模型評價:采用訓(xùn)練集的預(yù)測準確率(accuracy, ACC)和測試集的預(yù)測準確率來評價模型區(qū)分能力,ACC值越大,模型性能越好。
圖2(a),(b)和(c)分別為掃描1、2和3次所得原始光譜圖,圖2(d)為丹參酮類成分丹參酮ⅡA、隱丹參酮、二氫丹參酮和丹參酮Ⅰ的原始光譜圖,波段范圍均為50~3 350 cm-1。
圖2 丹參表面不同掃描次數(shù)和丹參酮類成分的原始光譜
由圖2(a)可知,不同產(chǎn)地丹參的拉曼光譜圖彼此之間既有重疊區(qū)又有各自的聚集區(qū),如2 100~2 800 cm-1范圍明顯重疊;而在1 570~1 630 cm-1范圍內(nèi),由上至下依次為產(chǎn)地b,產(chǎn)地e部分樣品,產(chǎn)地d,產(chǎn)地c,產(chǎn)地a和產(chǎn)地e的部分樣品;處于高波數(shù)(大于3 000 cm-1)和低波數(shù)(小于250 cm-1)范圍的不同產(chǎn)地樣品同樣存在各自聚集區(qū)。需要指出的是,產(chǎn)自a和b的樣品丹參酮類成分含量明顯低于其他產(chǎn)地樣品,但在圖2(a)中,產(chǎn)地a和b丹參樣品的拉曼光譜吸收強度并不弱,反而產(chǎn)地b丹參樣品的光譜吸收最強,這可能是由于丹參樣品表面除了丹參酮類成分,還含有其他雜質(zhì)成分,其所產(chǎn)生的熒光信號占主導(dǎo),導(dǎo)致丹參酮類成分含量低的產(chǎn)地b的丹參樣品表面光譜信號反而更強。
由圖2(a),(b)和(c)可知,不同測定次數(shù)下所得平均原始光譜圖十分接近,但也存在細微差異。以1 570~1 630 cm-1范圍為例,圖2(a)和(b)中各產(chǎn)地樣品的光譜曲線由上至下的分布較一致,但圖2(c)中產(chǎn)地d, c和a三者重疊在一起,表明從原始數(shù)據(jù)看,增加掃描次數(shù)可能不能改善產(chǎn)地識別效果。將圖2(a),(b),(c)與(d)對比,盡管丹參樣品表面與丹參酮類成分的拉曼光譜圖較相似,但圖2(d)中丹參酮類對照品吸收峰更強更尖銳;另一個差異是在高波數(shù)和低波數(shù)區(qū),丹參樣品的吸收強度明顯大于丹參酮類成分(除丹參酮ⅡA外),原因同樣是丹參樣品表面雜質(zhì)產(chǎn)生的熒光效應(yīng),減弱或增強了丹參樣品表面光譜信號。綜上,雜質(zhì)改變了丹參樣品表面的拉曼光譜信號,不同產(chǎn)地的雜質(zhì)成分不同,這有利于丹參表面光譜數(shù)據(jù)用于產(chǎn)地溯源。
6個PLS-DA模型的詳細結(jié)果見附表2所示,詳細的結(jié)果分析見下文。
對隨機森林的兩個重要參數(shù)n_estimators和max_features進行優(yōu)化。最終僅提供掃描一次、1ST-D預(yù)處理后獲得的RF-VS模型的參數(shù)優(yōu)化圖(見附圖1)。如附圖1所示,最佳參數(shù)為300棵樹、最大特征為32時的Oob_score最小。
附圖1 隨機森林模型參數(shù)優(yōu)化結(jié)果圖
由附表2可知,使用1ST-D預(yù)處理隨機掃描1次所得光譜數(shù)據(jù),經(jīng)RF-VS計算可得最適模型(訓(xùn)練集和測試集的準確率分別為88%和87%)。以該模型為例,計算1ST-D預(yù)處理后的原始光譜數(shù)據(jù)的3 215個變量重要性,見附圖2,可知變量重要性范圍在0.000 009和0.009 775之間,表明不同變量對模型的產(chǎn)地預(yù)測效果存在貢獻差異,需提取出重要特征建模變量。由附表2可知,經(jīng)交叉驗證篩選,最適界值為0.009 207,其對應(yīng)的變量為167個,即可建立最優(yōu)模型。
附圖2 經(jīng)1ST-D處理后的光譜變量的重要性與波數(shù)的關(guān)系圖
附表2列出了隨機掃描1次、2次和3次所得原始數(shù)據(jù)和五種數(shù)據(jù)前處理方法所得數(shù)據(jù),經(jīng)PLS-DA,RF和RF-VS計算的訓(xùn)練集和測試集準確率。
2.5.1 掃描一次條件下各分類模型的比較
由附表2可知,在PLS-DA建立的模型中,原始數(shù)據(jù)經(jīng)五種數(shù)據(jù)預(yù)處理后所得模型的準確率較原始數(shù)據(jù)建立的模型準確率并沒有得到較好的改善,這表明數(shù)據(jù)的前處理過程可能丟失了更為重要的信息。僅MSC預(yù)處理后所得模型的準確率有輕微改善,其訓(xùn)練集準確率74%,預(yù)測集準確率68%,表明該模型性能一般。由該模型的測試集混淆矩陣表可知(見附表3),該模型對質(zhì)量差的產(chǎn)地b樣本能100%區(qū)分,但對質(zhì)量差的產(chǎn)地a的4個樣本和質(zhì)量好的產(chǎn)地e的4個樣本的預(yù)測準確率均為0,需進一步用其他分類算法建立區(qū)分性能更好的模型。
附表2 不同測定次數(shù)條件下所建模型結(jié)果
附表3 MSC處理后的建立PLS-DA模型的測試集混淆矩陣表
同樣地,由附表2可知,原始數(shù)據(jù)經(jīng)五種光譜預(yù)處理方法處理后,僅MSC所得RF模型性能(訓(xùn)練集和預(yù)測集準確率分別為86%和87%)較原始數(shù)據(jù)所得模型性能(訓(xùn)練集和預(yù)測集準確率分別為83%和87%)有所改善。表明經(jīng)MSC處理后所建立的RF模型最優(yōu),該模型對產(chǎn)地a和b樣本總的預(yù)測準確率為50%,優(yōu)于PLS-DA模型的33%預(yù)測準確率[見附圖3(a)和附表3]。同時RF模型的整體性能要明顯優(yōu)于PLS-DA模型。但RF模型變量過多,運行耗時,需進一步選擇重要建模變量以改善模型性能。
經(jīng)重要變量篩選所建立的RF-VS模型中,應(yīng)用1ST-D對原始數(shù)據(jù)進行處理后所得模型性能最佳,其訓(xùn)練集和測試集準確率分別為88%和87%,重要變量數(shù)為167個,最佳界值為0.009 207(見附表2)。盡管最優(yōu)RF-VS模型性能較RF模型性能(訓(xùn)練集和預(yù)測集準確率分別為86%和87%)僅得到輕微改善,但最優(yōu)RF-VS模型產(chǎn)地a和b樣本總的預(yù)測準確率83%,明顯優(yōu)于模型RF的50%和PLS-DA的33%,同時對質(zhì)量差的來自產(chǎn)地a和b的丹參樣本與產(chǎn)地c、d和e的樣本之間區(qū)分準確率高達97%,高于最優(yōu)RF模型的90%和最優(yōu)PLS-DA模型的81%區(qū)分準確率(見附圖3和附表3)。另一方面,建模變量降至167個,增加了模型的運行速率。但總的準確率不變,經(jīng)重要變量篩選后的RF-VS模型對其他三產(chǎn)地質(zhì)量較好樣本的測試集準確率低于RF模型。
圖3 最優(yōu)RF模型(a)和最優(yōu)RF-VS模型(b)的測試集的混淆矩陣
綜上,選擇經(jīng)1ST-D處理后,由RF-VS建立的模型為最終模型。
2.5.2 不同測定次數(shù)下分類模型的比較
掃描1次、2次和3次所得原始數(shù)據(jù)和五種數(shù)據(jù)前處理方法所得數(shù)據(jù),經(jīng)PLS-DA,RF,RF-VS運算所得最優(yōu)模型見表1。由表1可知,掃描2次和3次的最優(yōu)模型均經(jīng)3RD-D處理后由RF-VS計算所得,其訓(xùn)練集的準確率和測試集的準確率均分別為89%和87%,但與掃描1次的最優(yōu)模型(訓(xùn)練集和預(yù)測集準確率分別為88%和87%)相比,性能改善輕微,再根據(jù)每份樣品隨機掃描1次、2次、3次所需時間分別大致為150,300和450 min,最終選擇每份樣品每根藥材隨機掃描1次所得數(shù)據(jù),經(jīng)1ST-D預(yù)處理,RF-VS計算所得模型為最終模型。
表1 不同掃描次數(shù)條件下所建最優(yōu)模型結(jié)果
顯微聚焦拉曼光譜技術(shù)具快速、無損、樣本需求少等優(yōu)點,本文嘗試利用該技術(shù)對不同產(chǎn)地丹參樣品每根藥材的表面在無損傷條件下進行隨機取點,所得原始光譜既包含了樣本本身表面丹參酮類成分的信息,也包含了不同產(chǎn)地雜質(zhì)的信息,這有利于該技術(shù)用于丹參產(chǎn)地鑒別。比較了不同掃描次數(shù)下,不同分類算法建立的丹參產(chǎn)地鑒別模型,結(jié)果樣品的每根藥材表面隨機掃描一次所得光譜數(shù)據(jù)經(jīng)1ST-D處理,由RF-VS計算的丹參產(chǎn)地識別模型性能優(yōu)良,其訓(xùn)練集和測試集預(yù)測準確率分別為88%和87%;掃描次數(shù)增加為2次和3次,所得最優(yōu)模型訓(xùn)練集和測試集預(yù)測準確率分別為89%和87%,模型性能輕微改善,但測試時間成倍增加,因此選擇每份樣品每根藥材隨機掃描一次所得光譜數(shù)據(jù)建立的最優(yōu)RF-VS模型為最終模型。本研究為顯微聚焦拉曼光譜技術(shù)應(yīng)用于中藥材尤其是貴細中藥材的產(chǎn)地溯源和真?zhèn)舞b別提供了重要依據(jù)。