紀(jì)徐維晟,梁浩,劉淑明,王獻(xiàn)瑞,王耘*
1.北京中醫(yī)藥大學(xué) 中藥學(xué)院 中藥信息工程研究中心,北京 102488;
2.北京中醫(yī)藥大學(xué) 生命科學(xué)學(xué)院,北京 102488
在傳統(tǒng)中藥中,平性藥是極其重要的一類,數(shù)量占比為20%~33%,功效甚多,有廣泛的應(yīng)用。對(duì)于中藥平性的認(rèn)識(shí)自古以來頗有爭議,有人認(rèn)為平性是相對(duì)而言的,表現(xiàn)在寒、熱偏向不明顯但并未超出四性范圍,不過歷代大多數(shù)醫(yī)家是肯定平性藥的獨(dú)立存在的[1]。然而由于寒熱偏性不顯著、作用相對(duì)和緩且周期過長,以及作用的雙向性和復(fù)平性[2],針對(duì)平性中藥的生物、藥理、藥效等研究難以證實(shí)平性的客觀、實(shí)際及實(shí)現(xiàn)中藥平性的準(zhǔn)確辨識(shí)。因此,為證明平性的客觀存在、可入性味,并解決中藥平性辨識(shí)問題,研究學(xué)者從多角度開展研究,如有研究基于“平性自古以來便存在”“歷代醫(yī)家承認(rèn)平性存在”及“平性藥臨床上的廣泛應(yīng)用”3 點(diǎn)論據(jù),論證了平性的客觀性[2-3]。在此基礎(chǔ)上,張亞超等[4]基于模式識(shí)別和定量構(gòu)效關(guān)系開展了平性藥有效成分與平性的關(guān)聯(lián)分析,為“平性可入性味”在物質(zhì)基礎(chǔ)方面提供了理論依據(jù)。劉進(jìn)等[5]則基于36 味平性藥的紅外光譜檢測探討了平性與中藥紅外光譜的相關(guān)性,其所建支持向量機(jī)(SVM)模型對(duì)平性識(shí)別正確率高達(dá)83.3%,為平性的客觀存在、可入性味提供了實(shí)驗(yàn)證明。
上述研究均為平性的客觀存在、可入性味提供了一定的依據(jù),豐富了藥性內(nèi)涵,但依然存在局限性:首先,研究分析的樣本量偏小;其次,以中藥不同溶劑提取成分的紅外光譜或有效成分開展平性研究,在一定程度上忽視了中醫(yī)藥的整體觀念。本研究從中藥的宏觀整體性出發(fā),秉承整體論的觀念,結(jié)合大樣本量的中藥拉曼譜圖對(duì)平性開展研究,以達(dá)到更加準(zhǔn)確、可靠的平性辨識(shí)分析,為平性的客觀存在、可入性味之說提供更為充分的依據(jù)。
拉曼光譜作為分子振動(dòng)散射光譜,與分子極化率和能級(jí)相關(guān),可呈現(xiàn)分子結(jié)構(gòu)或化學(xué)基團(tuán)信息。而絕大多數(shù)的中藥可看作是由分子所構(gòu)成的集合體系,因此,中藥拉曼譜圖是在分子層面對(duì)中藥的整體反映,與中醫(yī)藥整體觀念相契合,能夠在分子水平作為中藥的整體表征[6-7]?;谥兴幚V圖的整體性表征,對(duì)平性的藥性基礎(chǔ)進(jìn)行探討將為平性的客觀存在、平性可入性味之說提供更為充分的依據(jù),且建立高效精準(zhǔn)的平性辨識(shí)模型,有利于豐富藥性理論的內(nèi)涵。為此,從中藥的拉曼檢測、特征拉曼數(shù)據(jù)的篩選到模型預(yù)測的應(yīng)用,本研究基于拉曼譜圖將中藥與《中華人民共和國藥典》(以下簡稱《中國藥典》)2020 年版[8]所記載藥性的屬性對(duì)應(yīng)關(guān)系轉(zhuǎn)變?yōu)檎w性表征下可量化的中藥拉曼譜圖與藥性的相關(guān)關(guān)系,證明平性的客觀存在,并利用模型解決平性辨識(shí)問題。
SEED 型近紅外拉曼光譜儀(Seabreeze Laser 型激光器,XS11639-B40090157 型光譜儀系統(tǒng),上海如海光電公司);YP-2TS 型壓片機(jī)(天津中世沃克有限公司);RS-FS1801 型中藥材超微粉碎機(jī)(廣州榮事達(dá)有限公司)。
阿膠、赤小豆、白果、茯苓、合歡皮、靈芝、蘇木、太子參、毛冬青、莪術(shù)、藿香、華山參等中藥共計(jì)150 種(平性75 種、寒涼藥性42 種、溫?zé)崴幮?3 種)由安國市桓榮中藥材有限公司提供,經(jīng)北京中醫(yī)藥大學(xué)中藥學(xué)院王耘團(tuán)隊(duì)鑒定,所有藥材均符合《中國藥典》2020 年版規(guī)定,并出具鑒定報(bào)告;超純水(屈臣氏有限公司,貨號(hào):hs6303)。
所有中藥材采用屈臣氏超純水洗凈,去除表面灰塵等雜質(zhì),放置于真空干燥箱中26 ℃恒溫干燥1 h。所有中藥材利用超微粉碎機(jī)打成粉末[9],再利用小型不銹鋼壓片模具壓片得到待測樣品以備檢測。
激光器類型為板載激光器;中心波長785 nm;功率120 mW;積分時(shí)間7000 ms;平均采集3次;平均模式為硬件平均;拉曼位移200~3200 cm-1;基線處理?xiàng)l件為lambda:10 000,order:2;平滑濾鏡lambda:20,order:2。
中藥材待測樣品放置于樣品臺(tái)依次進(jìn)行檢測,采用連續(xù)掃描收集、激光自動(dòng)模式,共計(jì)采集10次[10]。以每味中藥10 次檢測的平均拉曼譜圖作為該中藥最終表征譜圖[11],并以1 cm-1為單位進(jìn)行數(shù)字量化處理。
以山藥、蘇合香、合歡花、茯苓、枸杞子為例進(jìn)行專屬性考察,功率調(diào)至0 mW 采集特征拉曼位移(cm-1)及其所對(duì)應(yīng)的峰強(qiáng)(I)得到空白譜圖(圖1),表明不同中藥因性質(zhì)的差異表現(xiàn)出各異的拉曼譜圖,峰形良好,對(duì)中藥進(jìn)行拉曼檢測無明顯熒光干擾。
圖1 中藥拉曼譜圖專屬性考察
以部分中藥如柏子仁、赤小豆、桃仁、蘇合香進(jìn)行儀器精密度考察。經(jīng)樣品預(yù)處理后,每味中藥分別制備6 份待測樣品,先后放置于樣品臺(tái)上進(jìn)行拉曼光譜檢測,記錄中藥拉曼譜圖的特征拉曼位移(cm-1)及其所對(duì)應(yīng)的I,并計(jì)算RSD。同時(shí),對(duì)拉曼譜圖進(jìn)行逆峰位匹配檢索,計(jì)算譜圖相似度。RSD 均小于2.90%,相似度均大于90.1%,結(jié)果表明儀器精密度良好。
以取自山東、河北、寧夏、江蘇、湖南的桃仁、山藥、枸杞及薏苡仁進(jìn)行重現(xiàn)性考察。經(jīng)樣品預(yù)處理后,每味中藥待測樣品先后進(jìn)行5 次拉曼檢測(圖2),記錄中藥拉曼譜圖的特征拉曼位移(cm-1)及其所對(duì)應(yīng)的I,并計(jì)算RSD。同時(shí)進(jìn)行逆峰位匹配檢索,計(jì)算譜圖相似度。RSD 均小于3.00%,相似性均大于87.3%,結(jié)果表明重復(fù)性良好,且不同產(chǎn)地的同種中藥拉曼譜圖整體上基本一致。
圖2 中藥拉曼重復(fù)性考察譜圖
按2.3項(xiàng)下數(shù)據(jù)采集方式,得到平性與非平性中藥的拉曼譜圖,并以1 cm-1為單位進(jìn)行譜圖量化處理。首先,基于平均基尼指數(shù)降低度(MDG)進(jìn)行特征篩選,得到對(duì)于平性與非平性分類辨識(shí)重要性排名靠前1000 的拉曼特征數(shù)據(jù);然后,利用非參統(tǒng)計(jì)檢驗(yàn)對(duì)平性與非平性中藥經(jīng)篩選后排名前1000的拉曼特征數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析;最后,為了提高分類模型的性能,對(duì)基于MDG特征篩選得到的重要性排名前1000 的拉曼數(shù)據(jù)進(jìn)一步篩選,分別篩選排名前100、200、300、400、500、600、700、800、900、1000 的特征拉曼數(shù)據(jù),基于篩選得到與平性密切相關(guān)的特征拉曼數(shù)據(jù),進(jìn)一步結(jié)合隨機(jī)森林(RF)、SVM、邏輯回歸(LR)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、貝葉斯網(wǎng)絡(luò)(NN)算法對(duì)平性進(jìn)行建模判別以開展相關(guān)性研究。
通過MDG 對(duì)中藥拉曼數(shù)據(jù)進(jìn)行初步特征篩選,選取重要性排名靠前1000 的拉曼位移及其峰強(qiáng)數(shù)據(jù)如2623、2553、2210、2818、2212 cm-1的I等,重要性排名前30 的結(jié)果見圖3。經(jīng)特征篩選出的拉曼位移主要集中在2000~3000 cm-1,在此范圍內(nèi),非平性中藥相較于平性中藥,表現(xiàn)出更強(qiáng)的拉曼散射。
圖3 基尼指數(shù)的特征篩選部分結(jié)果
為證實(shí)平性與篩選得到中藥拉曼數(shù)據(jù)的相關(guān)性,基于拉曼數(shù)據(jù)非正態(tài)、非齊性、非連續(xù)等特點(diǎn),利用SPSS 18.0 對(duì)特征篩選得到的前1000 的拉曼數(shù)據(jù)進(jìn)行非參數(shù)統(tǒng)計(jì)檢驗(yàn),平性藥組與非平性藥組均表現(xiàn)出顯著性差異,部分結(jié)果見表1。結(jié)果表明在拉曼位移2000~3000 cm-1范圍內(nèi),非平性中藥與平性中藥的拉曼散射差異有統(tǒng)計(jì)學(xué)意義。
表1 特征拉曼位移處峰強(qiáng)的非參數(shù)檢驗(yàn)結(jié)果
為進(jìn)一步提高分類模型的性能,以RF模型為框架,分別以特征篩選得到MDG 排名前100~1000 的拉曼數(shù)據(jù)分別進(jìn)行建模。經(jīng)縱向比較發(fā)現(xiàn),隨著建模拉曼數(shù)據(jù)的增加,模型的準(zhǔn)確性整體呈下降趨勢(shì)(圖4)。當(dāng)以MDG 前100 拉曼數(shù)據(jù)建立RF 模型時(shí),其準(zhǔn)確度最高(表2)?;诖?,可實(shí)現(xiàn)對(duì)平性與非平性的高效、準(zhǔn)確評(píng)判。
圖4 RF模型準(zhǔn)確性趨勢(shì)
表2 MDG排名前100拉曼數(shù)據(jù)所建模型的評(píng)價(jià)參數(shù)
中藥可量化的拉曼譜圖可看作是在分子層面對(duì)中藥的整體性表征。另外,從哲學(xué)的認(rèn)知來講,藥性之于中藥,正如人之脾氣秉性,是整體與部分的關(guān)系,而藥性的量化表征與中藥整體性表征亦是部分與整體的范疇。并非所有拉曼數(shù)據(jù)均與平性表現(xiàn)出顯著相關(guān)性,這也不切實(shí)際。正如在DNA 序列結(jié)構(gòu)中存在編碼區(qū)與非編碼區(qū)[12],僅編碼區(qū)進(jìn)行轉(zhuǎn)錄、翻譯。因此,我們?cè)谥兴幙闪炕w性表征的前提下,結(jié)合平性與非平性的分類整理,利用信息學(xué)特征篩選技術(shù),從中篩選出與平性具有強(qiáng)相關(guān)性的數(shù)據(jù)信息,以此建立評(píng)判模型。
在數(shù)據(jù)分析軟件Orange 3.29.3 中,基于3.1項(xiàng)下特征篩選得到的拉曼數(shù)據(jù),以MDG 排名前100 的拉曼數(shù)據(jù),結(jié)合RF、SVM、LR、ANN、NN算法建立針對(duì)平性與非平性的評(píng)判模型開展相關(guān)性分析,為平性的客觀存在、可入性味提供可靠依據(jù)。此外,經(jīng)參數(shù)自動(dòng)尋優(yōu)在十折交叉驗(yàn)證基礎(chǔ)上繪制受試者工作特征曲線(ROC),通過準(zhǔn)確率、受試者工作特征曲線下面積(AUC)和精確度等進(jìn)行模型評(píng)價(jià),結(jié)果發(fā)現(xiàn)以MDG 排名前100 拉曼數(shù)據(jù)所建各模型均表現(xiàn)出良好的判別效果(圖5,表2)。
圖5 RF、SVM、ANN、LR、NN模型的ROC曲線
以AUC、準(zhǔn)確度、精確度為首要評(píng)價(jià)標(biāo)準(zhǔn),其值越高,代表該模型對(duì)平性分類效果越顯著,準(zhǔn)確率和精確度越高。由表1 可知各模型的AUC 均大于0.91,表明基于篩選出的中藥拉曼數(shù)據(jù),各模型均可高效區(qū)分平性與非平性;RF 模型準(zhǔn)確率和精確度均大于0.93,優(yōu)于其他模型的準(zhǔn)確度和精確度,對(duì)于平性判別表現(xiàn)出最佳效果,為最優(yōu)模型。
因此,在以中藥可量化的拉曼譜圖作為中藥整體性表征的研究體系下,本研究經(jīng)特征篩選出的拉曼數(shù)據(jù)可高效、準(zhǔn)確地實(shí)現(xiàn)平性與非平性的辨識(shí)分析,說明平性中藥與其拉曼譜圖具有顯著相關(guān)性。
中藥拉曼光譜檢測是基于光量子與分子的非彈性碰撞,是多個(gè)分子振動(dòng)和轉(zhuǎn)動(dòng)能級(jí)反映的疊加,能夠在分子層面反映樣品的整體效應(yīng)[7,13]。因此,可以作為中藥在分子層面上的整體性表征,與中醫(yī)藥的整體觀念十分契合。但在進(jìn)行拉曼光譜檢測過程中,會(huì)受到熒光效應(yīng)的干擾[14]。為避免熒光干擾,樣品處理時(shí),采用屈臣氏純水清洗,去除表面灰塵等雜質(zhì),以避免表面雜質(zhì)熒光效應(yīng)的干擾;檢測條件選定中心波長785 nm 和連續(xù)掃描采集模式。熒光波長一般大多產(chǎn)生在紫外區(qū)域,采用近紅外785 nm,可在一定程度上減少熒光干擾。延長對(duì)樣品的照射時(shí)間,利用光致漂白效應(yīng)最大程度降低熒光干擾[14-15]。
量化的中藥拉曼圖譜包含大量數(shù)據(jù)信息,具有高維度、非正態(tài)、非線性、整體統(tǒng)計(jì)分布不明確等特點(diǎn)[16]。而流行的特征提取方法——線性判別(LDA)和主成分分析(PCA)受限于分析數(shù)據(jù)的正態(tài)分布,掩蓋原有的數(shù)據(jù)信息,是對(duì)得到的全新指標(biāo)進(jìn)行探索分析,難以實(shí)現(xiàn)本研究的目標(biāo)[17-18]。MDG 指標(biāo)可以識(shí)別重要變量,其描述的是一個(gè)變量對(duì)分類樹上每個(gè)節(jié)點(diǎn)分類效果的貢獻(xiàn),值越大表示該變量的分類效果越好[19]。而且基于MDG的特征篩選不受高斯分布影響,可有效、大幅度降低數(shù)據(jù)維度,篩選得到與平性密切相關(guān)的特征拉曼數(shù)據(jù),同時(shí)去除冗雜數(shù)據(jù),保留數(shù)據(jù)的原有信息,不易產(chǎn)生過擬合的結(jié)果[20]。綜上,考慮選擇該方法進(jìn)行特征篩選。
本研究在中藥整體性表征和特征篩選的基礎(chǔ)上所建立的相關(guān)模型均表現(xiàn)出良好的評(píng)判效果,尤以MDG 前100 拉曼數(shù)據(jù)所建隨機(jī)森林模型最佳,優(yōu)于已報(bào)道平性與非平性的評(píng)判模型[4-5,11],且研究是在大批量中藥拉曼光譜檢測基礎(chǔ)上進(jìn)行的,其結(jié)果更具有說服力。此外,基于平性與非平性的評(píng)判模型和非參數(shù)檢驗(yàn)均表明平性和非平性與中藥拉曼譜圖具有顯著的相關(guān)性,而中藥拉曼譜圖則是中藥的真實(shí)、客觀反映。以上均可為平性的客觀存在、可入性味之說提供有力依據(jù)。