田珺宏,周俊,鄭瀟瀟,蔣桂華,馬逾英
1.電子科技大學(xué) 電子科學(xué)與工程學(xué)院,四川 成都 610054;2.成都中醫(yī)藥大學(xué) 藥學(xué)院,四川 成都 611137
中藥材的質(zhì)量控制包括原材料的識(shí)別、鑒定、有效成分確認(rèn)等多個(gè)方面,其中原材料識(shí)別一直備受醫(yī)家重視。原材料質(zhì)量低劣或者摻假會(huì)影響藥品生產(chǎn)和臨床療效,既造成經(jīng)濟(jì)損失,又耽誤治病救人。原材料的真?zhèn)?、加工方式等因素也顯著影響中藥材的質(zhì)量。
在前人的長期實(shí)踐之上,現(xiàn)有中藥材鑒別的方法多種多樣。經(jīng)典的方法包括傳統(tǒng)的經(jīng)驗(yàn)鑒別、顯微鑒別、一般理化鑒別[1],這類方法雖然實(shí)用但主觀性和經(jīng)驗(yàn)依賴性較強(qiáng),尤其是在指標(biāo)性成分鑒別方面具有局限性?,F(xiàn)代方法包括色譜類鑒別、光譜類鑒別、電化學(xué)、生物類鑒別方法等[1-3]。色譜類鑒別方法有薄層色譜法、氣相色譜法、高效液相色譜法等。其中薄層色譜法快速靈敏、易于普及但分離機(jī)制復(fù)雜、易受環(huán)境干擾,氣相色譜法適用于分析氣體以及一些具有揮發(fā)性的液體和固體,高效液相色譜法具有高效快速的優(yōu)勢,但成本較高。光譜類方法包括紫外光譜法、紅外光譜法、近紅外光譜法、質(zhì)譜聯(lián)用、X射線法等。這類方法依賴于中藥材在不同頻段的電磁特性,目前已經(jīng)相對(duì)成熟,且應(yīng)用范圍廣泛。其他的方法還有電泳法、免疫分析法、分析生物法等。這些方法中基于光譜的方法通常具有檢測時(shí)間短、成本低的優(yōu)勢,而且是無損檢測。
太赫茲波是頻率介于0.1~10 THz的電磁波,具有低能量、寬頻譜、強(qiáng)穿透和強(qiáng)吸收的特征[4]。太赫茲波的單光子能量只有4.1 meV不及X射線的百萬分之一,與物質(zhì)作用不會(huì)導(dǎo)致光損傷。寬頻譜的特點(diǎn)使得許多生物大分子的震動(dòng)和轉(zhuǎn)動(dòng)能級(jí)都落在太赫茲波段。太赫茲波對(duì)大部分非極性材料沒有明顯的的吸收,呈強(qiáng)穿透特性,但是對(duì)大多數(shù)極性分子,例如水,有非常強(qiáng)的吸收作用。這些特點(diǎn),使得太赫茲適合生物類樣品檢測[5]?;谔掌澒庾V的鑒別具有識(shí)別率高、耗時(shí)短、操作簡單的優(yōu)勢,是一種無損檢測方式。
本文首先簡要介紹太赫茲中藥鑒定技術(shù),接著以典型川產(chǎn)道地藥材為例,介紹我們近期的研究工作,最后給出總結(jié)與展望。
中藥成分非常復(fù)雜,通常有機(jī)分子內(nèi)化學(xué)鍵的振動(dòng)吸收頻率主要在紅外波段,但有機(jī)分子之間較弱的相互作用(如氫鍵)及大分子的骨架振動(dòng)(構(gòu)型彎曲)、偶極子的旋轉(zhuǎn)和振動(dòng)躍遷以及晶體中晶格的低頻振動(dòng)吸收頻率對(duì)應(yīng)于太赫茲波段范圍[6],這些振動(dòng)所反映的分子結(jié)構(gòu)及相關(guān)環(huán)境信息都與太赫茲波段的頻譜相對(duì)應(yīng),使得太赫茲光譜技術(shù)鑒別中藥中化合物結(jié)構(gòu)、構(gòu)型與狀態(tài)成為可能。
國外對(duì)中藥材的太赫茲鑒定工作較少。但是相關(guān)的太赫茲在藥品或混合物體系的物質(zhì)鑒別方法方面做了大量工作。如,美國新澤西理工學(xué)院(New Jersey Institute of Technology)的Huang等[7]采用FTIR光譜法探測了爆炸物黑索金(RDX)在特征吸收譜,并借助SPARTAN軟件采用密度泛函理論(Density Functional Theory,DFT)對(duì)RDX的THz光譜進(jìn)行了模擬計(jì)算,討論了RDX吸收峰的形成原因。Slingerland等[8]對(duì)硝基甲烷(Nitromethane)在2~6 m光程變化范圍的THz吸收系數(shù)譜進(jìn)行了分析研究。Kurabayashi等[9]利用Lambert-Beer定律定量研究了混合物纖維的太赫茲吸收譜。這些研究,從計(jì)算模擬和成分分析的角度,為太赫茲中藥材鑒別和分析提供了借鑒。
國內(nèi)利用太赫茲光譜技術(shù)對(duì)中藥進(jìn)行檢測,開展了大量工作。如,首都師范大學(xué)研究者們測量了當(dāng)歸、茯苓、枳實(shí)、板藍(lán)根,表明太赫茲光譜和色散特性反映了不同藥材間的差異[10-12]。首都師范大學(xué)也對(duì)青蒿素及其衍生物進(jìn)行了測量,表明太赫茲光譜可以探測到藥材在分子結(jié)構(gòu)上的差異[10];陳艷江等[13]在對(duì)中藥炙甘草和生甘草、南柴胡和北柴胡、山豆根和北豆根的太赫茲光譜測量中,采用支持向量機(jī)分類器實(shí)現(xiàn)了藥材間光譜數(shù)據(jù)的分類;郭昌盛[14]對(duì)生長于海水和淡水環(huán)境的珍珠粉的測定,表明太赫茲時(shí)域光譜技術(shù)能夠識(shí)別某種生長環(huán)境對(duì)藥材的影響;汪景榮等[15]結(jié)合偏最小二乘法對(duì)正品和非正品大黃的中草藥鑒別模型進(jìn)行了研究,能夠快速、準(zhǔn)確的對(duì)大黃的真?zhèn)芜M(jìn)行鑒別;馬品等[16]將太赫茲時(shí)域光譜技術(shù)運(yùn)用于測定天麻中水分的含量,表明太赫茲波適合測定中藥飲片的水分含量。這些研究中,研究者從不同種類的中藥材識(shí)別、中藥材產(chǎn)地鑒別、中藥材成分分析和成分定量測定、中藥材的光譜數(shù)據(jù)處理等角度,運(yùn)用太赫茲時(shí)域光譜技術(shù),解決了部分問題。經(jīng)過多年實(shí)踐,已經(jīng)進(jìn)行太赫茲光譜檢測的中藥材有:當(dāng)歸、茯苓、枳實(shí)、板藍(lán)根、銀杏葉提取物、青蒿素及其衍生物(雙氫青蒿素、蒿甲醚、青蒿琥酯)、玫瑰花、月季花、南柴胡、北柴胡、銀柴胡、山豆根、北豆根、地骨皮、五加皮、香加皮、阿膠、鹿角膠、龜甲膠、生大黃、熟大黃、酒大黃、紅參、高麗參、炙甘草、生甘草、珍珠粉等等。這些研究大都進(jìn)行了光譜測定,或是對(duì)關(guān)注的某一指標(biāo)如產(chǎn)地、種類、特定成分等進(jìn)行了分類或測定,為繼續(xù)深入研究并形成太赫茲光譜數(shù)據(jù)庫積累了豐富的成果。
本文以幾種典型川產(chǎn)道地藥材的真?zhèn)舞b別為例,介紹我們近期的工作。分別從中藥材加工的角度鑒別川白芷是否熏硫,以解決市場上為保存白芷而熏硫往往超出藥典規(guī)定的質(zhì)量問題;從中藥材原材料真?zhèn)蔚慕嵌葏^(qū)分川芎和撫芎,以解決市場上常見的以撫芎冒充川芎的問題。
1.1.1 樣品來源
白 芷(Angelicae Dahuricae Radix)、 川 芎(Ligusticum chuanxiong hort)、撫芎(Ligusticum sinense Oliv.cv.Chaxiong)。樣品均由成都中醫(yī)藥大學(xué)藥學(xué)院提供,樣本來源,見表1~2。
表1 川產(chǎn)白芷產(chǎn)地來源 (個(gè))
表2 川產(chǎn)川芎、扶芎產(chǎn)地來源
白芷樣品的采集和熏硫加工均由成都中醫(yī)藥大學(xué)藥學(xué)院課題組完成,較好地確保了樣品來源的可靠性。川芎樣品和撫芎樣品也均由成都中醫(yī)藥大學(xué)采集完成,其樣品均在同一時(shí)節(jié)采收和在相同環(huán)境下保存,每個(gè)產(chǎn)地均取樣12次。
1.1.2 樣品制備
光譜儀用實(shí)驗(yàn)樣品制備方法分為研磨、過篩和壓片。由于樣品內(nèi)部含有揮發(fā)油,部分成分遇高溫變質(zhì),故采用低溫研磨,保持研磨時(shí)溫度不超過60℃。研磨后過200目篩,保持粒度相近并干燥保存。綜合考慮了樣品吸收信號(hào)的強(qiáng)度且樣品材料不至于易碎而影響測試,本實(shí)驗(yàn)選取每個(gè)樣片時(shí)都取過篩后的粉末200 mg,壓片機(jī)壓力設(shè)置在4 t,壓片時(shí)長均為5 min,最終制得厚度在1.13 mm左右,直徑12 mm的圓柱體白芷樣品片120枚,川芎樣片108枚,扶芎樣片108枚,所有用于測試的樣品片兩表面平行。
太赫茲時(shí)域光譜系統(tǒng)(Terahertz Time-Domain Spectroscopy,TDS)是一種成熟的太赫茲產(chǎn)生和探測系統(tǒng)[17],利用TDS可以獲得太赫茲時(shí)域光譜信號(hào)。常見的透射式時(shí)域光譜系統(tǒng),見圖1。其組成單元包括飛秒激光器、分束鏡、光學(xué)延遲線、太赫茲脈沖發(fā)生裝置和太赫茲探測裝置等。測試時(shí),將樣品放在離軸拋面鏡之間的光路上,獲得樣品的時(shí)域光譜信號(hào)。
圖1 太赫茲時(shí)域光譜系統(tǒng)組成
本實(shí)驗(yàn)儀器為英國Teraview公司的TPS3000光譜儀。將制備好的樣品放在透射樣品池中直接測量,以不加樣品的信號(hào)為背景參考并加以扣除。其他測試條件有,溫度24℃ ~25℃,濕度 1.4%~2.0% RH。
依據(jù)Dorney等[18]和Dragoman等[19]提出的光學(xué)參數(shù)提取方法,有透過率、折射率、吸收系數(shù),這些參數(shù)描述了固體樣品在具有一定厚度且兩表面平行且在透射測試條件下對(duì)太赫茲波的吸收特性。
將樣品和參考的時(shí)域信號(hào)分別作傅里葉變換得到對(duì)應(yīng)頻域信號(hào),記為Esample(ω)和Ereference(ω),其比值為透過率H(ω)且:
其中n為折射率,ω為頻率,A為振幅,Φ為相位差。若又知樣品厚度d,則可導(dǎo)出折射率n(ω)及吸收系數(shù)α (ω):
本實(shí)驗(yàn)將吸收系數(shù)或透過率作為后續(xù)光譜分析的參數(shù)。
預(yù)處理[20]:本實(shí)驗(yàn)的預(yù)處理過程微分、標(biāo)準(zhǔn)化、歸一化。
主成分分析[20](Principal Component Analysis,PCA):是一種數(shù)學(xué)降維的方法,通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。即找出少數(shù)幾個(gè)綜合變量來代替原來眾多的變量,使這些綜合變量能盡可能地代表原來變量的信息量,而且彼此之間互不相關(guān)。
支持向量機(jī)[20](Support Vector Machine,SVM):20世紀(jì)90年代,vapnik提出了支持向量機(jī)方法。該方法基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,在解決小樣本、非線性和高維模式識(shí)別問題中具有優(yōu)勢。對(duì)于如式(4)的分類面:
其中C是懲罰因子,起控制對(duì)錯(cuò)分樣本懲罰程度,實(shí)現(xiàn)在錯(cuò)分樣本與算法復(fù)雜度之間的折中。在核函數(shù)空間,采用Lagrange乘子法求w,b等價(jià)于求一個(gè)凸二次規(guī)劃問題的對(duì)偶問題的最大值,如式(6):
如果采用高斯核函數(shù)的SVM分類,有兩個(gè)參數(shù)需要優(yōu)化,即懲罰因子C和核參數(shù)g,兩個(gè)參數(shù)影響著分類器的分類效果。
K折交叉驗(yàn)證法:即將數(shù)據(jù)分成K組,得k個(gè)子集,將各子集的數(shù)據(jù)分別充當(dāng)一次驗(yàn)證集。剩余的K-1組子集數(shù)據(jù)作訓(xùn)練集,可得到K個(gè)模型,再用這K個(gè)模型所得的驗(yàn)證集的分類準(zhǔn)確的平均數(shù)作本驗(yàn)證方法下評(píng)價(jià)分類器的性能指標(biāo)。根據(jù)原始數(shù)據(jù)集合的大小,通常每個(gè)子集的數(shù)目不小于2,否則等價(jià)于留一驗(yàn)證法。該驗(yàn)證法能有效的避免過學(xué)習(xí)和欠學(xué)習(xí)狀態(tài)的發(fā)生,適合檢驗(yàn)?zāi)P偷姆夯芰Α?/p>
白芷樣品均測量3次取平均,實(shí)驗(yàn)所得原始的熏硫和未熏硫的樣品選取0.2~2 THz的信號(hào)用于建立光譜模型,圖2顯示了其中兩條光譜示。從圖2可以看出熏硫和未熏硫的樣品在時(shí)域的差別不大,通過傅里葉變換將時(shí)域信號(hào)轉(zhuǎn)化到頻域并提取吸收系數(shù),見圖3~4。
圖2 川產(chǎn)白芷樣品的太赫茲時(shí)域信號(hào)譜圖
圖3 川白芷樣品的吸收系數(shù)信號(hào)譜圖
由圖3可以看出,熏硫和未熏硫的白芷樣品數(shù)據(jù)的吸收系數(shù)在0.2~1.7 THz左右沒有直觀的峰,但重復(fù)性較好。從基線趨勢和出現(xiàn)的峰的個(gè)數(shù)的角度上看,1.7~2 THz的測試結(jié)果也具有重復(fù)性。主成分分析結(jié)果,見圖4。
圖4 熏硫和未熏硫川白芷樣品在第三到第五個(gè)主成分視圖
太赫茲波譜中,樣品的波譜不僅僅包括熏硫與未熏硫白芷的有效成分,還包括中藥白芷的其他成分,如纖維素等,而這些部分質(zhì)量占比最大。對(duì)于本次實(shí)驗(yàn),從實(shí)驗(yàn)方法上看是對(duì)不同產(chǎn)地的樣品直接壓片,所以無法保證藥材中質(zhì)量占比較大的非有效成分之間的變化是規(guī)律的,加之樣本量有限,所以在結(jié)果上我們于前兩個(gè)主成分中沒有找到很好的聚類效果,卻在第三到第五個(gè)主成分中發(fā)現(xiàn)了這種規(guī)律性(圖4)。從圖4的結(jié)果中可以看出,熏硫和白芷和未熏硫的白芷盡管來自5個(gè)不同的產(chǎn)地,但是其兩類樣本在第三到第五個(gè)主成分所表示的三維空間中明顯分成了兩部分,這說明熏硫和不熏硫的川產(chǎn)白芷之間具有較顯著的差異。
支持向量機(jī)分類結(jié)果:用前20個(gè)主成分作為訓(xùn)練特征(累計(jì)可信度95.53%),隨機(jī)選取80個(gè)樣品為訓(xùn)練集其余為預(yù)測集。支持向量機(jī)采用高斯核函數(shù),依據(jù)5折交叉驗(yàn)證的結(jié)果計(jì)算正確率,使用網(wǎng)格搜索法確定支持向量機(jī)的參數(shù)C和g。尋得C=0.37,g=0.96。最后利用這些參數(shù)來對(duì)預(yù)測集進(jìn)行分類,分類正確率達(dá)到了100%。
在樣品質(zhì)量一定的情況下,也可選擇透過率譜作為分類依據(jù)。川芎、撫芎透過率譜圖,見圖5,測試中每個(gè)樣本重復(fù)測量9次,每個(gè)樣片轉(zhuǎn)動(dòng)3次,每轉(zhuǎn)動(dòng)一個(gè)位置測量3次,以便減小位置帶來的誤差,選取0.1~0.8 THz波段用于建模。
圖5 太赫茲波段下的川芎與扶芎的透過率譜
如同白芷一樣,我們于第1個(gè)主成分上沒有觀察到兩類樣品呈現(xiàn)出最好的聚類,卻在第2到第4個(gè)主成分中發(fā)現(xiàn)了較好的聚類結(jié)果,見圖6。由圖5~6可以看出,透過率的數(shù)據(jù)具有重復(fù)性。透過率信號(hào)在基線上具有差異,在實(shí)驗(yàn)上可解釋為太赫茲波并非完全垂直地通過了被測樣品,但是卻也攜帶了除了基線以外的有效信息,這個(gè)信息包含了川芎與扶芎的本質(zhì)差異。
圖6 川芎、撫芎樣品在第二到第四個(gè)主成分視圖
從圖5看,在統(tǒng)計(jì)角度上川芎和扶芎樣品數(shù)據(jù)的透過率在0.1~0.8 THz左右盡管沒有直觀的特征峰,其波形波動(dòng)的形狀也受到了環(huán)境因數(shù)因素的影響,但是圖6的結(jié)果卻表明了差異的規(guī)律性。使用透過率作為建模參數(shù),將主成分分析后的前12個(gè)主成分作為特征(累計(jì)可信度96.96%)。支持向量機(jī)采用高斯核函數(shù),依據(jù)5折交叉驗(yàn)證的正確率,使用網(wǎng)格搜索法確定支持向量機(jī)的懲罰因子C和g,尋得C=0.37,g=0.96,最后利用這些參數(shù)來對(duì)預(yù)測集進(jìn)行分類,在模型建立后計(jì)算5折交叉驗(yàn)證的正確率。如果采用其他分類方法并計(jì)算正確率,見表3,其中采用高斯核函數(shù)優(yōu)化后的分類正確可達(dá)99.9%。
本研究以川產(chǎn)道地藥材白芷和川產(chǎn)道地藥材川芎扶芎為例,介紹和分析了太赫茲時(shí)域光譜技術(shù)在中藥才鑒別中的應(yīng)用。在對(duì)太赫茲時(shí)域譜提取的吸收系數(shù)求一階導(dǎo)數(shù),減小譜線基線漂移的影響。對(duì)一階導(dǎo)數(shù)作標(biāo)準(zhǔn)化和歸一化,凸顯譜線之間的差異。采用主成分分析提取特征。再用支持向量機(jī)對(duì)提取的特征進(jìn)行分類。結(jié)果為對(duì)熏硫和未熏硫白芷的鑒別正確率達(dá)到了100%。依據(jù)透過率建模,采用相似方法對(duì)川芎和撫芎鑒別的分類正確率為99.9%。這表明雖然太赫茲波段存在譜峰重疊、基線重合等缺點(diǎn),但經(jīng)過合理的預(yù)處理,太赫茲時(shí)域光譜可很好的從加工和原材料種類的角度區(qū)分中藥材真?zhèn)?,本研究具有維護(hù)食品藥品安全和規(guī)范市場的實(shí)際意義,也為其他中藥材的太赫茲鑒別提供了借鑒。