張 嬌,王元忠,楊維澤,張金渝*
1.云南省農(nóng)業(yè)科學(xué)院藥用植物研究所,云南 昆明 650200 2.云南中醫(yī)藥大學(xué)中藥學(xué)院,云南 昆明 650500
滇黃精Polygonatumkingianumcoll.et Hemsl是百合科(Liliaceae)黃精屬藥食同源植物,主要分布于我國云南、貴州、四川等西南地區(qū)和越南、緬甸、日本等國家[1]。其干燥根莖具有補(bǔ)氣養(yǎng)陰、健脾、潤肺和益腎之功效,是中藥黃精的主要來源之一[2]。滇黃精主要藥效成分是多糖和甾體皂苷,此外還含有黃酮、生物堿、氨基酸等成分,現(xiàn)代藥理學(xué)研究表明其具有降血糖、抗衰老、抗腫瘤等作用[3]。調(diào)查發(fā)現(xiàn),滇黃精栽培范圍逐年擴(kuò)大,不同產(chǎn)地的氣候、土壤條件等均影響其藥材質(zhì)量。李婧等[4]以4種黃酮類成分含量為指標(biāo)篩選影響其含量的環(huán)境因子,結(jié)果表明降水量、年平均溫度、黏土量等環(huán)境因子對黃酮類成分影響最大。研究發(fā)現(xiàn)不同產(chǎn)地黃精中的多糖、薯蕷皂苷元[5]和揮發(fā)性成分[6]等均存在顯著差異。為保證黃精質(zhì)量的有效性和一致性,產(chǎn)地鑒別研究是其中的關(guān)鍵環(huán)節(jié)和重要前提條件。目前,可進(jìn)行準(zhǔn)確定量的色譜技術(shù)、液(氣)質(zhì)聯(lián)用技術(shù)及電化學(xué)指紋圖譜技術(shù)廣泛應(yīng)用于其產(chǎn)地溯源研究[7],但這些技術(shù)存在操作復(fù)雜、成本高和耗時(shí)長等缺點(diǎn),因此找到一種快速、簡便且可靠的方法顯得尤為重要。
衰減全反射-傅里葉變換紅外-光譜(attenuated total reflection-Fourier transform infrared spectra,ATR-FTIR)和紫外-可見光光譜(ultraviolet-visible spectra,UV-Vis)技術(shù)具有方便、快速、無損等特點(diǎn),已被廣泛應(yīng)用于食品與中藥的產(chǎn)地鑒別。Zhao等[8]利用FTIR技術(shù)和化學(xué)計(jì)量學(xué)方法鑒別滇龍膽產(chǎn)地,結(jié)果顯示正確率達(dá)到97.22%,為滇黃精產(chǎn)地鑒別提供參考。但單一指紋圖譜通常不能全面反映樣品化學(xué)信息,采用數(shù)據(jù)融合策略能夠彌補(bǔ)此方面的不足。Yao等[9]采用FTIR和UV-Vis技術(shù)對7個(gè)產(chǎn)地牛肝菌進(jìn)行鑒別,訓(xùn)練集和預(yù)測集正確率(accuracy,ACC)分別為80.18%和94.14%,使用中級數(shù)據(jù)融合策略后達(dá)到99%。Wu等[10]采集ATR-FTIR和UV-Vis信息結(jié)合高級數(shù)據(jù)融合策略鑒別6個(gè)產(chǎn)地野生滇重樓,分類正確率為98.88%。由以上研究結(jié)果可知,數(shù)據(jù)融合策略可有效提高產(chǎn)地鑒別正確率,能夠?qū)崿F(xiàn)中藥產(chǎn)地的快速、方便和無損鑒別。
本研究擬采集9個(gè)產(chǎn)地共133份滇黃精根莖樣品的ATR-FTIR和UV-Vis光譜信息,經(jīng)預(yù)處理及特征變量篩選后,建立單一(ATR-FTIR,UV-Vis)和數(shù)據(jù)融合(低級、中級和高級)隨機(jī)森林(random forest,RF)模型,通過比較其靈敏度、特異性和分類正確率參數(shù),最終確定快速鑒別滇黃精產(chǎn)地的最佳模型和方法,為其藥用資源評價(jià)提供理論依據(jù)。
采集于云南、四川和廣西9個(gè)產(chǎn)地的133份樣品,由云南省農(nóng)業(yè)科學(xué)院藥用植物研究所張金渝研究員鑒定為滇黃精Polygonatumkingianumcoll.et Hemsl的根莖[圖1(a,b,c)和表1]。樣品去除須根,用去離子水將附著的雜質(zhì)和泥土清洗干凈,切片,于55 ℃烘箱中干燥至恒重。粉碎過篩(100目)后保存于自封袋中備用。
表1 滇黃精樣品信息Table 1 Information of P.kingianum samples
圖1 滇黃精樣品和采集地圖片(a):全株植物;(b):根莖;(c):樣品采集地Fig.1 Collectionorigins of P.kingianum samples(a):The whole plant;(b):Rhizome;(c):Samples collection area
1.2.1 ATR-FTIR采集
ATR-FTIR光譜通過配備ZnSe衰減全反射附件及氘化硫酸三甘氨酸(DTGS)檢測器的FTIR光譜儀(frontier perkin elmer,USA)采集。掃描范圍為4 000~550 cm-1,掃描信號累加16次,分辨率為4 cm-1。每個(gè)樣品重復(fù)3次,取平均光譜。
1.2.2 UV-Vis采集
UV-Vis光譜通過配有積分球檢測器的UV2700紫外-可見分光光度計(jì)(Shimadzu,Japan)采集。使用石英容器壓片,壓制成1 mm薄片進(jìn)行光譜采集。樣品測試前使用BaSO4進(jìn)行背景掃描。掃描范圍220~850 nm,采樣間隔為1,狹縫寬度為5.0 nm。每個(gè)樣品重復(fù)3次,取平均光譜。
RF是以決策樹為基礎(chǔ)的有監(jiān)督學(xué)習(xí)算法[11]。建模前使用Kennard-Stone算法[12]將每個(gè)產(chǎn)地樣品的2/3劃分為為訓(xùn)練集,1/3劃分為預(yù)測集。采用訓(xùn)練集樣品建立模型,預(yù)測集樣品用來驗(yàn)證模型的性能。建模時(shí)從原始訓(xùn)練集中使用自助法隨機(jī)且有放回地取出m個(gè)樣品,共進(jìn)行n次取樣,得到n個(gè)訓(xùn)練集并對每一個(gè)訓(xùn)練集訓(xùn)練,根據(jù)袋外-誤差率(out-of-bag error,OOB)最小來選擇最優(yōu)的ntree棵決策樹(classification and regression tree,CART)。在CART分類過程中沒有進(jìn)行剪枝處理。每個(gè)樣品有M個(gè)變量,隨機(jī)變量數(shù)(mtry)決定每棵樹的分類性能,在建模過程中使用±10來尋找最優(yōu)mtry。最后根據(jù)找到的最優(yōu)參數(shù)ntree和mtry建立最終鑒別模型。通過集成多個(gè)CART的分類結(jié)果進(jìn)行投票獲得最后的分類結(jié)果,即使數(shù)據(jù)分布不平衡或有多個(gè)缺失值,也能提供穩(wěn)定、準(zhǔn)確度高的分類模型[13]。采用靈敏度(sensitivity,SEN)、特異性(specificity,SPE)和正確率ACC來衡量模型是否穩(wěn)定。ACC,SEN和SPE值越接近于1,模型的性能越好。計(jì)算公式見式(1)和式(2)
(1)
(2)
數(shù)據(jù)融合屬于化學(xué)計(jì)量學(xué)方法之一,是將不同來源數(shù)據(jù)有效結(jié)合后再建立分類模型的一種策略[13],通常分為低級、中級和高級融合。低級融合是指將不同來源的數(shù)據(jù)合并成一個(gè)新數(shù)據(jù)矩陣再建立分類模型。中級融合是分別提取單一光譜、色譜或者波譜的特征變量串聯(lián)形成一個(gè)新數(shù)據(jù)矩陣來建立分類模型。主成分?jǐn)?shù)(principal components,PCs)、潛在變量(latent variables,LVs)、變量投影重要性等,是數(shù)據(jù)融合中常用的特征變量提取方法。高級融合是在中級融合的基礎(chǔ)上,用特征變量分別建立單一模型,融合單一模型結(jié)果,根據(jù)模糊集合論的最大值(maximum,Max)、最小值(minimum,Min)、乘積(product,Pro)和平均值(average,Ave)進(jìn)行投票得到最終結(jié)果。為了使數(shù)據(jù)處理方便在數(shù)據(jù)融合前進(jìn)行歸一化處理。
通過OMNIC 9軟件將ATR-FTIR透光率轉(zhuǎn)化為吸光度。使用SIMCA 14.1軟件對光譜數(shù)據(jù)進(jìn)行預(yù)處理。用ORIGIN 9.1軟件作圖。R studio軟件用于建立RF模型。光譜易受噪音和樣品性質(zhì)的影響,對其進(jìn)行適當(dāng)?shù)念A(yù)處理是必要的。采用一階導(dǎo)數(shù)(first derivative,FD)、二階導(dǎo)數(shù)(second derivative,SD)和標(biāo)準(zhǔn)正態(tài)變量(standard normal variable,SNV)對光譜進(jìn)行預(yù)處理,根據(jù)決定系數(shù)(determination coefficient,R2)、交叉驗(yàn)證均方根誤差(root mean square error of cross validation,RMSEcv)和校正均方根誤差(root mean square error of estimation,RMSEE)及ACC來選擇最佳預(yù)處理方式。UV-Vis波長在700~850 nm范圍內(nèi)受噪音影響較大,在建立RF模型時(shí)去除這一波段。ATR-FTIR在建模分析時(shí)去除4 000~3 700 cm-1的基線區(qū)、682~653 cm-1的CO2光譜區(qū)和2 500~1 799 cm-1的ZnSe晶體光譜區(qū)[14]。當(dāng)Q2(模型預(yù)測能力)第一次達(dá)到最大值時(shí),提取相應(yīng)特征變量[15]。從ATR-FTIR的133×1 775個(gè)變量中分別提取133×17個(gè)PCs和133×13個(gè)LVs,從UV-Vis的133×467個(gè)變量中分別提取133×9個(gè)PCs和133×5個(gè)LVs用于建立模型。
2.1.1 ATR-FTIR分析
2.1.2 UV-Vis分析
圖2(b)為9個(gè)產(chǎn)地滇黃精原始UV-Vis平均圖。其特征峰波長為272和327 nm,推測與滇黃精中黃酮類物質(zhì)有關(guān)[18]。部分樣品在668 nm處的可見光區(qū)存在吸收峰。整體而言,UV-Vis吸收峰較少,主要反映芳香族和含有共軛體系的黃酮類物質(zhì)信息。此外,產(chǎn)自大理的滇黃精UV-Vis吸光度次之,與ATR-FTIR顯示產(chǎn)自鎮(zhèn)雄的滇黃精吸光度結(jié)果不一致,因此使用不同性質(zhì)和原理的指紋圖譜來評價(jià)或鑒別滇黃精產(chǎn)地是必要的。
圖2 9個(gè)產(chǎn)地滇黃精的平均光譜圖(a):ATR-FTIR;(b):UV-VisFig.2 Average spectra of 9 origins in P.kingianum(a):ATR-FTIR;(b):UV-Vis
兩種光譜經(jīng)FD,SD,SNV預(yù)處理(表2),UV-Vis在預(yù)處理(除SD)后建模不成功,SD為兩種光譜的最佳預(yù)處理方式,鑒別能力較差,選擇非線性的RF算法對滇黃精產(chǎn)地進(jìn)行鑒別分析。ATR-FTIR的RF模型最優(yōu)ntree為1 140,mtry為35。UV-Vis的RF模型最優(yōu)ntree為1 041,mtry為42。結(jié)果如表3所示,ATR-FTIR光譜結(jié)果顯示訓(xùn)練集ACC=76.34%,預(yù)測集ACC=95.00%,訓(xùn)練集的SEN為0.77(<0.8),訓(xùn)練模型時(shí)對樣品識別能力較差,模型存在不穩(wěn)健現(xiàn)象;UV-Vis的RF模型SEN和SPC值分別為0.8和0.98,訓(xùn)練集ACC=80.65%,預(yù)測集ACC=95.00%,對產(chǎn)地鑒別效果較差。采用數(shù)據(jù)融合策略建立RF模型對這9個(gè)產(chǎn)地的滇黃精進(jìn)行鑒別。
表2 單一光譜預(yù)處理結(jié)果Table 2 Single spectral pretreatment results
2.3.1 低級融合
將ATR-FTIR的133×1775個(gè)變量和UV-Vis的133×467個(gè)變量串聯(lián)起來形成一個(gè)新的數(shù)據(jù)矩陣建立RF模型,其最優(yōu)ntree和mtry值如圖3(a)所示。模型的靈敏度和特異性大于0.83,訓(xùn)練集和預(yù)測集的正確率(表3)分別為83.87%和100.00%,訓(xùn)練模型時(shí)對樣品的識別能力較弱,表明光譜含有一些對產(chǎn)地鑒別冗余的波段,需要挖掘?qū)Ξa(chǎn)地鑒別有用的信息。
表3 數(shù)據(jù)融合的結(jié)果Table 3 The results of data fusion
圖3 數(shù)據(jù)融合的最佳ntree和mtry值(a):低級融合;(b):中級融合;(c):高級融合(a1):ntree值,(a2):mtry值;(b1):ntree值,(b2):mtry值;(c1):ATR-FTIR的ntree值,(c2):ATR-FTIR的mtry值,(c3):UV-Vis的ntree值,(c4):UV-Vis的mtry值Fig.3 Optimal ntree and mtry values for data fusion(a):Low-level data fusion;(b):Mid-level data fusion;(c):High-level data fusion(a1):ntree,(a2):mtry;(b1):ntree,(b2):mtry;(c1):the ntree values of ATR-FTIR;(c2):the mtry values of ATR-FTIR;(c3):the ntree values of UV-Vis;(c4):the mtry values of UV-Vis
2.3.2 中級融合
在中級融合中,使用PCs和LVs來建立RF產(chǎn)地鑒別模型,比較兩種特征變量融合對產(chǎn)地鑒別的能力。提取特征變量結(jié)果如圖4所示,ATR-FTIR的133×17個(gè)PCs和UV-Vis的133×9個(gè)PCs被提取建立RF模型,ATR-FTIR的133×13個(gè)LVs和UV-Vis的133×5個(gè)LVs提取建立RF模型。結(jié)果如表3所示,LVs建立中級融合(中級融合LVs)的RF模型中3個(gè)樣品被分類錯誤;PCs建立中級融合(中級融合PCs)的RF模型中8個(gè)樣品被分類錯誤?;贚Vs建立的中級融合RF模型訓(xùn)練集和預(yù)測集的靈敏度、特異性和ACC均高于PCs結(jié)果,其分類正確率均大于97.85%,因此在中級融合中LVs選擇為產(chǎn)地鑒別的特征變量。從原始的133×2 242個(gè)降到133×17個(gè)變量,明顯縮短模型擬合時(shí)間,提高了產(chǎn)地鑒別能力。LVs建立的RF模型的參數(shù)優(yōu)化如圖3(b1,b2)所示,最優(yōu)的ntree為267,mtry為2。
圖4 特征變量提取結(jié)果(a):ATR-FTIR的主成分?jǐn)?shù);(b):UV-Vis的主成分?jǐn)?shù);(c):ATR-FTIR的潛在變量數(shù);(d):UV-Vis的潛在變量數(shù)Fig.4 Feature variable selection results(a):PCs of ATR-FTIR;(b):PCs of UV-Vis;(c):LVs of ATR-FTIR;(d):LVs of UV-Vis
2.3.3 高級融合
高級融合的結(jié)果如表4所示,PCs的高級融合RF模型(高級融合PCs)訓(xùn)練集和預(yù)測集的SEN,SPC和ACC分別為0.80,0.97,77.42%和0.95,0.89和95.00%,其鑒別能力較差。LVs的高級融合(高級融合LVs)RF模型對9個(gè)產(chǎn)地鑒別進(jìn)行鑒別,其RF模型最優(yōu)ntree和mtry結(jié)果如圖3(c)所示,圖3(c1)和(c2)是ATR-FTIR的RF模型最優(yōu)ntree和mtry結(jié)果,圖3(c3)和(c4)是UV-Vis的RF模型最優(yōu)ntree和mtry結(jié)果。在高級融合中的133個(gè)樣品中有42個(gè)樣品需根據(jù)CART進(jìn)行投票。42個(gè)樣品中有37個(gè)樣品經(jīng)投票后分類正確,有1個(gè)樣品分類出現(xiàn)分歧(No.74,文山薄竹),其余4個(gè)樣品分類錯誤。分類錯誤及分歧樣品的投票結(jié)果如表4所示。No.74樣品被UV-Vis分類到Class4,被ATR-FTIR分類到Class8,最后獲得相同票數(shù)。4個(gè)被誤分的樣品中有2個(gè)(No.21、106)是ATR-FTIR投票結(jié)果正確,而UV-Vis投票錯誤導(dǎo)致分類錯誤,1個(gè)(No.51)是ATR-FTIR投票錯誤,UV-Vis投票正確,最終被分類錯誤,剩余1個(gè)(No.122)樣品的ATR-FTIR和UV-Vis投票結(jié)果均錯誤。高級融合LVs和中級融合LVs鑒別能力較好,訓(xùn)練集和預(yù)測集的SEN和SPC均高于0.93,其鑒別能力比低級融合和單光譜的鑒別能力增強(qiáng),但高級融合LVs模型存在過擬合現(xiàn)象。中級和高級融合結(jié)果表明:中級融合LVs建立不同產(chǎn)地滇黃精鑒別模型,其訓(xùn)練集ACC為97.85%,預(yù)測集ACC為97.50%,鑒別能力最好。
表4 高級數(shù)據(jù)融合分類錯誤的樣品投票結(jié)果Table 4 Voting results of misclassified samples in high-level data fusion
續(xù)表4
滇黃精的UV-Vis光譜在紫外-可見光區(qū)吸收峰是芳香族和含有共軛體系黃酮類成分的化學(xué)信息,其ATR-FTIR光譜的吸收峰顯示的是官能團(tuán)和化學(xué)鍵信息。兩種指紋圖譜反映不同的化學(xué)成分信息,融合兩種光譜的化學(xué)信息可以更加全面的反映其化學(xué)信息,可對滇黃精實(shí)現(xiàn)更加全面的質(zhì)量評價(jià)。
探討了ATR-FTIR和UV-Vis及數(shù)據(jù)融合策略結(jié)合RF算法對9個(gè)產(chǎn)地滇黃精鑒別的可行性。通過兩種光譜對滇黃精產(chǎn)地鑒別分析表明,單一光譜對產(chǎn)地評價(jià)不夠全面,可以利用數(shù)據(jù)融合策略來彌補(bǔ)不足,提取光譜的兩種特征值結(jié)合RF方法提高了對產(chǎn)地的鑒別效果。采用SEN和SPE和模型分類正確率篩選出最佳模型,其鑒別能力為中級融合LVs>中級融合PCs>低級融合>UV-Vis >ATR-FTIR>高級融合PCs;提取LVs對產(chǎn)地鑒別的方法優(yōu)于PCs;中級融合LVs建立的RF模型分類正確率最高,SEN和SPE大于0.98,模型性能最佳,為黃精藥用資源的科學(xué)評價(jià)提供理論依據(jù)和技術(shù)支撐,同時(shí)為其它中藥材鑒別新方法的建立有借鑒作用。