劉淑明 ,梁浩 ,程虹 ,紀(jì)徐維晟, ,王耘
1.北京中醫(yī)藥大學(xué)中藥學(xué)院中藥信息工程研究中心,北京 102488;2.北京中醫(yī)藥大學(xué)生命科學(xué)學(xué)院,北京 102488
升降浮沉是指藥物對(duì)人體作用的不同趨向性[1]。作為中藥藥性特征之一,升降浮沉在指導(dǎo)臨床用藥與方劑配伍過(guò)程中具有重要作用。目前,升降浮沉理論相關(guān)研究主要集中在古籍溯源研究[1-3]、方劑內(nèi)涵原理探討[4-6]、藥性考證或藥效比較[7-9]。藥理研究表明,中藥升降浮沉藥性對(duì)人體特定方向或病勢(shì)的疾病起著顯著或特殊的調(diào)節(jié)作用[10]。如藥性“升”具有催吐、發(fā)汗、升陽(yáng)、開竅、清頭目、通鼻竅、聰耳明目、生津止渴的功效,藥理作用表現(xiàn)為興奮嘔吐中樞、催吐、發(fā)汗、解熱等[11]。
升與降、浮與沉對(duì)立統(tǒng)一,對(duì)具有相同作用趨勢(shì)的中藥進(jìn)行共有特征探索與辨識(shí)研究,有望揭示升降浮沉的科學(xué)內(nèi)涵。油雨忻等[12]提出“中藥升降浮沉藥性的物質(zhì)基礎(chǔ)是中藥成分”假說(shuō),利用紫外指紋圖譜表征中藥成分,結(jié)合支持向量機(jī)(SVM)算法初步構(gòu)建了中藥升降浮沉判別模型,為中藥藥性物質(zhì)基礎(chǔ)與升降浮沉理論研究提供了新思路。然而,中藥指紋圖譜的優(yōu)勢(shì)體現(xiàn)在對(duì)已知化學(xué)成分的準(zhǔn)確鑒定,無(wú)法整體表征中藥這一復(fù)雜體系。樣品制備的要求也增加了研究的復(fù)雜性。中藥物質(zhì)基礎(chǔ)的復(fù)雜性使草本中藥可看作由分子構(gòu)成的整體集合體系,拉曼光譜為分子散射光譜,能夠?qū)χ兴庍M(jìn)行直接檢測(cè)分析,即可以在保留中藥整體特性的情況下得到量化表征數(shù)據(jù),進(jìn)而開展后續(xù)研究。因此,本研究基于中醫(yī)藥整體觀,以“升降浮沉”為研究對(duì)象,測(cè)定中藥拉曼圖譜,經(jīng)特征篩選獲取不同藥性拉曼光譜特征,結(jié)合機(jī)器學(xué)習(xí)方法建立中藥升降浮沉特性辨識(shí)模型并開展評(píng)價(jià),以期得到基于拉曼光譜的升降浮沉藥性量化表征精準(zhǔn)數(shù)據(jù)和辨識(shí)模型,揭示中藥升浮與沉降的科學(xué)內(nèi)涵,促進(jìn)升降浮沉理論的現(xiàn)代化發(fā)展。
SEED型近紅外拉曼光譜儀(Seabreeze Laser激光器,XS11639-B40090157光譜儀系統(tǒng),上海如海光電公司),YP-2TS型壓片機(jī)(天津中世沃克有限公司),RS-FS1801型中藥材超微粉碎機(jī)(廣州榮事達(dá)有限公司)。
白芷、薄荷、蒼術(shù)、細(xì)辛、生姜、旋覆花、阿膠、枇杷葉、紫蘇子、大黃等藥材共239種(升浮藥101種,沉降藥138種),安國(guó)市桓榮中藥材有限公司提供(送貨號(hào)Q010246),經(jīng)北京中醫(yī)藥大學(xué)中藥學(xué)院王耘團(tuán)隊(duì)鑒定,所有藥材均符合2020年版《中華人民共和國(guó)藥典》[13]規(guī)定;超純水(屈臣氏有限公司,貨號(hào)hs6303)。
中藥材用超純水洗凈,去除表面灰塵等雜質(zhì),置于真空干燥箱中,26 ℃恒溫干燥1 h。用超微粉碎機(jī)打成粉末,過(guò)3號(hào)篩,利用小型不銹鋼壓片模具壓片,即得待測(cè)樣品。
激光器類型為板載激光器;中心波長(zhǎng)785 nm;功率120 mW;積分時(shí)間7 000 ms;平均采集3次;平均模式為硬件平均;拉曼位移200~3 200 cm-1;基線處理?xiàng)l件為lambda 10 000,order 2;平滑濾鏡lambda 20,order 2。
將待測(cè)藥材粉末壓片或器皿放置于樣品臺(tái)上,隨機(jī)選取10個(gè)不同的部分依次進(jìn)行檢測(cè),采用連續(xù)掃描收集、激光自動(dòng)模式,共采集10次,以10次檢測(cè)的平均拉曼譜圖作為該藥材最終表征譜圖。
2.4.1 專屬性考察
以枸杞子、山藥、茯苓、刺五加、冰片5味藥進(jìn)行專屬性考察,按上述條件進(jìn)行檢測(cè)。功率調(diào)至0 mW,采集特征拉曼位移(cm-1)及其所對(duì)應(yīng)的峰強(qiáng)(I),得到空白譜圖。結(jié)果見圖1。表明不同中藥因性質(zhì)的差異表現(xiàn)出各異的拉曼譜圖,峰形良好,無(wú)明顯熒光干擾。
圖1 中藥材拉曼譜圖專屬性考察
2.4.2 精密度考察
以柏子仁、西洋參、蘇合香、土木香、天花粉5味藥進(jìn)行儀器精密度考察。經(jīng)樣品預(yù)處理后,每味藥分別制備6份待測(cè)樣品,先后放置于樣品臺(tái)上進(jìn)行拉曼光譜檢測(cè),記錄中藥拉曼譜圖的特征拉曼位移及其所對(duì)應(yīng)的峰強(qiáng),并計(jì)算RSD。同時(shí),對(duì)拉曼譜圖進(jìn)行逆峰位匹配檢索,計(jì)算譜圖相似度。結(jié)果RSD均小于4.12%,相似度均大于86.0%,表明儀器精密度良好。
2.4.3 重復(fù)性考察
以取自不同產(chǎn)地(山東、河北、寧夏、江蘇、湖南)的當(dāng)歸、黃柏、山藥3味藥進(jìn)行重復(fù)性考察。經(jīng)樣品預(yù)處理后,每味中藥待測(cè)樣品先后進(jìn)行5次拉曼光譜檢測(cè),記錄中藥拉曼譜圖的特征拉曼位移及其所對(duì)應(yīng)的峰強(qiáng),并計(jì)算RSD。同時(shí)進(jìn)行逆峰位匹配檢索,計(jì)算譜圖相似度。結(jié)果RSD均小于3.62%,相似度均大于85.7%,表明重復(fù)性良好,且不同產(chǎn)地的同種中藥拉曼譜圖整體上基本一致。
按“2.3”項(xiàng)下方法得到101味升浮藥與138味沉降藥的拉曼譜圖數(shù)據(jù),以1 cm-1為單位進(jìn)行量化處理,每味藥得到3 000個(gè)拉曼指標(biāo),建立239味中藥的拉曼數(shù)據(jù)集。“升降浮沉”數(shù)據(jù)依據(jù)2020年版《中華人民共和國(guó)藥典》[13]和《中藥大辭典(第二版)》[14]的中藥功效作用趨向結(jié)合判定標(biāo)準(zhǔn)分析:具有解表、透疹、祛風(fēng)(濕)、升陽(yáng)舉陷、開竅、醒神、溫陽(yáng)補(bǔ)火、行氣、解郁、涌吐等功效的中藥,作用趨向?yàn)椤吧 ?,如薄荷、柴胡、升麻、蒼術(shù)等;具有清熱、瀉下、利濕、安(養(yǎng))神、止嘔、抑肝陽(yáng)、息風(fēng)止痙、止咳、平喘、收斂固澀、止血等功效的中藥,作用趨向?yàn)椤俺两怠?,如白芍、葶藶子、苦杏仁、牡蠣等[2,15-16]。
本研究采用帶有交叉驗(yàn)證的遞歸特征消除(RFECV)對(duì)拉曼譜圖數(shù)據(jù)進(jìn)行特征篩選。該方法分為兩部分:遞歸特征消除(recursive feature elimination,RFE)[17]通過(guò)一個(gè)基模型進(jìn)行模型訓(xùn)練,對(duì)3 000個(gè)拉曼波段進(jìn)行特征重要性排序,刪除重要性最低的特征,利用新特征集進(jìn)行下一輪訓(xùn)練,循環(huán)往復(fù)直至達(dá)到所需的特征數(shù)量;再通過(guò)交叉驗(yàn)證(cross validation,CV)篩選出最優(yōu)特征子集。本研究使用輕量級(jí)梯度提升機(jī)(LGBM)集成算法[18]作為RFE的基模型。以LGBM_RFE作為特征篩選算法篩選出與升降浮沉顯著相關(guān)的拉曼波段,交叉驗(yàn)證次數(shù)為5,每次刪除的特征個(gè)數(shù)為1,最終保留126個(gè)最優(yōu)拉曼波段進(jìn)行中藥升降浮沉特性辨識(shí)模型的訓(xùn)練。
為得到良好的辨識(shí)模型,本研究基于特征篩選后的中藥拉曼譜圖數(shù)據(jù)結(jié)合SVM、隨機(jī)森林(RF)、極度梯度提升(XGBoost)和自適應(yīng)提升(AdaBoost)分類器建立中藥升浮沉降辨識(shí)模型,將數(shù)據(jù)集按7∶3比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,使用不同模型進(jìn)行訓(xùn)練與預(yù)測(cè),并用曲線下面積(AUC)、準(zhǔn)確率、精確度、召回率及F1值作為模型的評(píng)價(jià)指標(biāo)。以上4種分類器均通過(guò)隨機(jī)網(wǎng)格搜索十折交叉驗(yàn)證進(jìn)行參數(shù)調(diào)試和優(yōu)化,最優(yōu)超參數(shù)設(shè)置見表1,模型比較見表2。
表1 4種分類器的最優(yōu)超參數(shù)設(shè)置
表2 4種辨識(shí)模型評(píng)價(jià)指標(biāo)比較(%)
4種辨識(shí)模型的AUC均達(dá)到80%以上,其中XGBoost模型AUC達(dá)90%以上,說(shuō)明該模型的分類效果極佳。相較于其他模型,XGBoost模型的準(zhǔn)確率更高,整體效果更好;精確度和召回率更高,說(shuō)明對(duì)升浮中藥和沉降中藥的區(qū)分能力更強(qiáng);F1值更高說(shuō)明模型更加穩(wěn)健。明顯優(yōu)于已報(bào)道模型(AUC為0.831 6,準(zhǔn)確率為80.00%)[12]。綜上,XGBoost模型表現(xiàn)最優(yōu),可以實(shí)現(xiàn)對(duì)升浮中藥和沉降中藥的準(zhǔn)確辨識(shí)。
為深入了解126個(gè)最優(yōu)拉曼波段與升降浮沉中藥辨識(shí)結(jié)果之間的關(guān)系,選用SHAP(SHapley Additive exPlanations)方法[19]對(duì)基于XGBoost構(gòu)建的升浮沉降辨識(shí)模型的識(shí)別結(jié)果進(jìn)行解釋,以此反映最優(yōu)拉曼波段對(duì)藥性識(shí)別結(jié)果的影響及其正負(fù)性,可視化部分結(jié)果見圖2。模型中最重要的前10個(gè)拉曼波段分別位于I2289、I2105、I1066、I2343、I2415、I2425、I1140、I2591、I458、I2291。圖中每個(gè)點(diǎn)代表1個(gè)樣本,點(diǎn)的顏色代表拉曼波段強(qiáng)度。如波段I2105,紅色點(diǎn)主要集中于橫坐標(biāo)正值,藍(lán)色點(diǎn)主要集中于橫坐標(biāo)負(fù)值,表明此波段拉曼強(qiáng)度越高其藥性辨識(shí)結(jié)果越趨于升浮,拉曼強(qiáng)度越低其藥性辨識(shí)結(jié)果越趨于沉降;波段I1140,紅色點(diǎn)主要集中于橫坐標(biāo)負(fù)值區(qū)域,表明此波段拉曼強(qiáng)度越高其藥性辨識(shí)結(jié)果越趨于沉降。
圖2 最優(yōu)拉曼波段對(duì)模型預(yù)測(cè)的影響正負(fù)性
歷代醫(yī)書、歷年版《中華人民共和國(guó)藥典》及各版《中藥學(xué)》教材對(duì)中藥性、味、歸經(jīng)大多有明確記載,但均未從升降浮沉角度對(duì)單味中藥性能進(jìn)行明確論述。其原因之一是升降浮沉概念較為抽象,會(huì)根據(jù)醫(yī)家個(gè)人經(jīng)驗(yàn)發(fā)生改動(dòng)。另一重要原因在于,中藥的升降浮沉特性受性、味、歸經(jīng)、用藥部位、藥材質(zhì)地、炮制、配伍等因素影響。從性味來(lái)看,性熱、溫,味甘、辛、淡屬陽(yáng),多為升浮之性;性寒、涼,味酸、苦、咸屬陰,多為沉降之性。若藥物的性味陰陽(yáng)屬性不同,該藥便具有升浮沉降雙重特性。氣味厚薄升降浮沉理論同樣闡述了這一原理,氣屬陽(yáng)、味屬陰,中藥氣味陰陽(yáng)共存,使一味中藥存在升中有降、降中有升的可能。如從四氣五味、氣味厚薄、主治功效、方劑配伍四方面對(duì)桔梗藥性進(jìn)行考證,發(fā)現(xiàn)其不僅具有顯著的升浮之性,亦有苦泄沉降之功[20]。大黃峻下,酒制后具備清上焦血分熱毒功效。牛膝引血下行,配伍柴胡、桔梗后具有上升之力。一般來(lái)說(shuō),方劑的升降趨勢(shì)取決于方劑中具有相同趨勢(shì)的大部分藥味[21]。因此,中藥的升降浮沉特性受多種因素的影響并存在轉(zhuǎn)化關(guān)系,這在一定程度上導(dǎo)致該理論發(fā)展緩慢。
由于升降浮沉特性的復(fù)雜性,探尋不同藥性對(duì)應(yīng)的物質(zhì)基礎(chǔ)與科學(xué)內(nèi)涵尤為重要。中藥是典型的復(fù)雜體系,藥性中性、味、歸經(jīng)、升降浮沉、有毒無(wú)毒分別從不同維度對(duì)中藥整體特點(diǎn)進(jìn)行描述,每個(gè)維度必然對(duì)應(yīng)著各自的物質(zhì)基礎(chǔ)。在探索各藥性科學(xué)內(nèi)涵的過(guò)程中,應(yīng)秉持整體觀思想。拉曼光譜屬分子振動(dòng)散射光譜,其形成與分子極化率和能級(jí)相關(guān)。本研究中,中藥的檢測(cè)過(guò)程保持了中藥完整性,拉曼光譜從分子層面實(shí)現(xiàn)了中藥的整體表征。
拉曼光譜檢測(cè)中噪聲較大,經(jīng)常受到熒光效應(yīng)的干擾[22-25]。為抑制熒光效應(yīng),本研究采取如下方法:①選定激發(fā)光中心波長(zhǎng)785 nm。中藥熒光檢測(cè)激發(fā)光波長(zhǎng)大多位于紫外-可見光區(qū),如山藥330 nm、沙苑子410 nm、熟地黃470 nm等[26],而中心波長(zhǎng)785 nm的激發(fā)光為近紅外激光(760~830 nm),可在一定程度上抑制樣品的熒光效應(yīng);②采用屈臣氏超純水、甲醇、甲醇水輕微沖洗藥材,去除表面灰塵、沾染物等雜質(zhì),避免雜質(zhì)熒光效應(yīng)的干擾;③儀器采取連續(xù)掃描采集模式,延長(zhǎng)照射時(shí)間,利用“光致漂白”效應(yīng)以最大程度達(dá)到抑制熒光干擾的效果[27]。
LGBM集成算法具有訓(xùn)練速度快、高準(zhǔn)確度、適用于高維度數(shù)據(jù)等優(yōu)點(diǎn),可以高效、準(zhǔn)確的對(duì)拉曼波段進(jìn)行重要性排名。RFE算法通過(guò)迭代運(yùn)算來(lái)選擇最重要的拉曼波段子集,從而減少特征數(shù)量,提高模型的準(zhǔn)確度。兩者聯(lián)用的LGBM_RFE特征篩選算法可從3 000個(gè)拉曼波段中去除冗余數(shù)據(jù),保留重要信息,篩選得到與升浮沉降相關(guān)性最強(qiáng)的拉曼波段子集。得到的126個(gè)最優(yōu)拉曼波段是拉曼光譜在升降浮沉維度對(duì)中藥的表征。拉曼位移主要集中在1 000~3 200 cm-1,此范圍內(nèi)升浮中藥的拉曼強(qiáng)度普遍高于沉降中藥。同時(shí),采用SHAP方法對(duì)單味中藥升降浮沉特征拉曼波段進(jìn)行可視化,以此反映最優(yōu)拉曼波段對(duì)升降浮沉藥性識(shí)別結(jié)果的重要程度及正負(fù)向影響。拉曼譜圖反映的不單是中藥中的某一成分或某一元素,而是某一藥性在中藥本體的整體特征,是對(duì)藥性進(jìn)行科學(xué)內(nèi)涵探索的必要選擇。通過(guò)中藥拉曼光譜圖結(jié)合辨識(shí)模型,前期已經(jīng)實(shí)現(xiàn)對(duì)中藥寒熱藥性、平性、甘味的辨識(shí)[28-30]。
本研究基于大宗中藥材進(jìn)行拉曼光譜檢測(cè),以拉曼光譜整體表征中藥升降浮沉藥性,結(jié)合LGBM_RFE算法篩選得到126個(gè)拉曼波段,在此基礎(chǔ)上建立升降浮沉辨識(shí)模型,闡釋升降浮沉的科學(xué)內(nèi)涵,為客觀識(shí)別中藥的“升浮”和“沉降”趨勢(shì)提供一種新方法。