楊 巍,文小平,郭晶磊
(上海中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院,上海 201203)
“方證量化模型”是一種基于中醫(yī)方證對(duì)應(yīng)理論結(jié)合機(jī)器學(xué)習(xí)對(duì)中醫(yī)基本概念進(jìn)行量化研究的方法。以往中醫(yī)數(shù)據(jù)挖掘研究往往多集中于專(zhuān)藥、專(zhuān)方、專(zhuān)法、專(zhuān)病或?qū)H说呐R床運(yùn)用領(lǐng)域[1],而在中醫(yī)基本概念領(lǐng)域的基礎(chǔ)性研究較少,尤其缺乏量化研究的方法。本研究方法著眼于2個(gè)中醫(yī)基本概念的比較,即其分別對(duì)應(yīng)的不同方劑數(shù)據(jù)集之間的量化比較。
“方證量化模型”的基本原理是基于方證對(duì)應(yīng)理論將2個(gè)中醫(yī)概念的比較轉(zhuǎn)化為2個(gè)方劑集合的比較,再通過(guò)機(jī)器學(xué)習(xí)模型對(duì)2個(gè)方劑集合進(jìn)行量化比較。
方證對(duì)應(yīng)也稱(chēng)方證相應(yīng),是指方劑的主治病證范疇及該方組方之理法與病人所表現(xiàn)出來(lái)的主要病癥或病機(jī)相符合[2],是中醫(yī)臨床體現(xiàn)“理法方藥”一致性的基本原則。筆者認(rèn)為,其在數(shù)據(jù)挖掘領(lǐng)域的本質(zhì)是對(duì)于病、證、癥、病因病機(jī)等中醫(yī)概念與方劑組成關(guān)聯(lián)數(shù)據(jù)集的研究。
通過(guò)方證對(duì)應(yīng),在給定樣本總體范圍內(nèi),可以將2個(gè)中醫(yī)概念的比較問(wèn)題轉(zhuǎn)化為其所代表的2個(gè)方劑集合的比較。以消渴異名為例,其中“上消”和“消渴”2個(gè)中醫(yī)概念的比較,可以轉(zhuǎn)化為上消方劑集合和消渴方劑集合的比較V上消/V消渴。
圖1示,隨機(jī)森林是機(jī)器學(xué)習(xí)中的一種高級(jí)分類(lèi)技術(shù),它由Breiman在2001年提出[3],通過(guò)隨機(jī)放回抽樣[3]來(lái)削弱數(shù)據(jù)間的相關(guān)性,構(gòu)建大量的規(guī)則樹(shù),進(jìn)而通過(guò)簡(jiǎn)單投票判斷類(lèi)別,實(shí)現(xiàn)對(duì)學(xué)習(xí)樣本集合規(guī)則的較優(yōu)擬合。隨機(jī)森林有適用性廣泛的特點(diǎn),尤其是對(duì)離散數(shù)據(jù)的擬合[4],比較適合方劑集合之間的比較。在給定樣本總體范圍內(nèi),比較2個(gè)方劑集合的問(wèn)題,通過(guò)隨機(jī)森林轉(zhuǎn)化為以1個(gè)方劑集合建模,另一個(gè)方劑集合應(yīng)用模型的形式量化比較2個(gè)方劑集合的相似性。以“上消”方劑集合(V上消)和“消渴”方劑集合(V消渴)兩者比較為例,由V消渴生成判定模型F消渴,則V上消/V消渴=F消渴(V上消)/ F消渴(V消渴)=F消渴(V上消)。通俗地說(shuō),就是近似地建立一個(gè)含有幾百個(gè)消渴方證專(zhuān)家的辨別模型系統(tǒng),通過(guò)投票來(lái)量化“上消”方劑集合(V上消)和“消渴”方劑集合(V消渴)的相似性,即異名“上消”相對(duì)于“消渴”病名的準(zhǔn)確性。
圖1 基本邏輯圖
“消渴”是中醫(yī)常見(jiàn)的疾病名,以多飲、多食、多尿、身體消瘦或尿濁、尿有甜味為特征的病證[5]?!跋省币辉~最早出現(xiàn)于《黃帝內(nèi)經(jīng)》,但是由于中醫(yī)古籍浩如煙海又歷經(jīng)不同朝代的變遷,歷代醫(yī)家創(chuàng)造和發(fā)展了眾多與“消渴”相似或相關(guān)的信息,其表現(xiàn)形式之一就是消渴的異名。這樣的消渴異名多以數(shù)十計(jì)[6-10],以《中醫(yī)方劑大辭典》出現(xiàn)5首及以上對(duì)應(yīng)治療方劑為常見(jiàn)異名條件,消渴的常見(jiàn)異名多達(dá)17種(見(jiàn)表1)。通過(guò)方證對(duì)應(yīng)基于隨即森林量化消渴異名,可以量化這些消渴相關(guān)或者相似的異名,判斷他們指代“消渴”病名的準(zhǔn)確性。這樣的量化研究,可以確定消渴病的研究范圍,量化不同異名在消渴研究中的重要程度,清除古代研究相關(guān)文獻(xiàn)的學(xué)習(xí)障礙,更全面地理解歷代醫(yī)家對(duì)消渴范圍的認(rèn)識(shí)。
本例采用《中醫(yī)方劑大辭典》的消渴方劑組成數(shù)據(jù),基于隨機(jī)森林構(gòu)建消渴方辨別模型F消渴(圖2),運(yùn)用模型方證對(duì)應(yīng)判別消渴異名對(duì)應(yīng)方劑是否用于治療消渴。通過(guò)其被判別為應(yīng)用于消渴治療(消渴方)的比例F消渴(V異名),分析消渴異名的準(zhǔn)確性(圖3)。
圖2 建立模型圖
圖3 模型應(yīng)用圖
以《中醫(yī)方劑大辭典》電子版為數(shù)據(jù)來(lái)源并導(dǎo)入數(shù)據(jù)庫(kù),采用“消渴”為關(guān)鍵詞,在主治字段進(jìn)行檢索,選取主治字段包含消渴的方劑463首;在排除消渴方和消渴異名方后的80699首方劑中,以0.5%隨機(jī)選取方劑443首作為非消渴方,兩者構(gòu)成學(xué)習(xí)集。以表1中消渴常見(jiàn)異名(出現(xiàn)5首方劑及以上對(duì)應(yīng)異名)檢索主治字段,共獲得方劑310首構(gòu)成應(yīng)用集。
3.2.1 排除數(shù)據(jù) 表1示,人工排查主治字段,排除“非”病名、“似”病名等與消渴無(wú)關(guān)的數(shù)據(jù),獲得各檢索條件下篩選后方劑數(shù)量。
3.2.2 標(biāo)準(zhǔn)化 提取方劑組成字段的中藥,剔除劑量、炮制和服藥方法等信息,根據(jù)《中華人民共和國(guó)藥典》《中華本草》《中藥大辭典》《中藥學(xué)》《中藥別名速查大辭典》對(duì)藥名進(jìn)行規(guī)范。
3.3.1 參數(shù)選擇 表1示,從隨機(jī)森林調(diào)參效率角度,本次研究將在學(xué)習(xí)集中出現(xiàn)次數(shù)12次以上的中藥(共99味)作為隨機(jī)森林的構(gòu)成參數(shù),各檢索條件下篩選后方劑數(shù)量。
3.3.2 模型訓(xùn)練 使用R 語(yǔ)言,調(diào)用randomForest包,參數(shù)設(shè)置try=11,nodesizes=8,ntree=300,其他參數(shù)使用默認(rèn)值。
通過(guò)set.seed保證隨機(jī)模型的可重復(fù)性,以學(xué)習(xí)集正確率0.96、袋外錯(cuò)誤率[4]0.16選擇為“異名識(shí)別模型”。
其中學(xué)習(xí)集正確率反映模型對(duì)學(xué)習(xí)集的學(xué)習(xí)程度,正確771條,錯(cuò)誤31條,正確率0.96。袋外錯(cuò)誤率是一種取代測(cè)試集的誤差泛估計(jì)[4],其中消渴TF值0.12、FT值0.20。
3.3.3 模型應(yīng)用 表1示,使用“異名識(shí)別模型”對(duì)應(yīng)用集進(jìn)行判斷,獲得各異名對(duì)應(yīng)方屬于消渴方的比例。
表1 不同異名、不同篩選條件下對(duì)應(yīng)方劑數(shù)量及準(zhǔn)確性比較
準(zhǔn)確性在85%以上的異名有“膈消、肺消、上消、下消、消中、三消、腎消、消腎、強(qiáng)中”9個(gè),這些異名與消渴在方劑組成中的相似程度很高,準(zhǔn)確性較高,可以認(rèn)為是消渴的專(zhuān)有異名。
準(zhǔn)確性在85%以下65%以上的異名為“中消、渴利、消癉、消谷”4個(gè),通過(guò)研究被判斷為非消渴方的主治、功用和組成,能夠發(fā)現(xiàn)它們多數(shù)與其他疾病同時(shí)出現(xiàn)。由此推斷,這些異名可能是作為癥狀出現(xiàn)在其他病種中,將這些異名納入消渴進(jìn)行分析時(shí),應(yīng)考慮排除作為其他病種癥狀出現(xiàn)的情況。
準(zhǔn)確性在65%以下的異名有“脾癉、熱中、食亦、風(fēng)消”4個(gè),準(zhǔn)確性較低,可以認(rèn)為是與消渴類(lèi)似或者有關(guān)聯(lián)的單獨(dú)病種。
表2示,隨機(jī)森林相對(duì)其他簡(jiǎn)單分類(lèi)方法難以解釋?zhuān)荒軓慕Y(jié)果進(jìn)行逆向推測(cè),且調(diào)參困難,面對(duì)失衡分布學(xué)習(xí)集效果不佳。本研究在構(gòu)建學(xué)習(xí)集時(shí),應(yīng)盡量平衡數(shù)據(jù),采用隨機(jī)抽樣的方式構(gòu)建非消渴方學(xué)習(xí)集。隨機(jī)森林結(jié)果具有隨機(jī)性,本研究通過(guò)set.seed保證其可重復(fù)性。不同模型結(jié)果的不穩(wěn)定問(wèn)題,改進(jìn)方法為建立5個(gè)同參數(shù)不同隨機(jī)數(shù)(不同seed)的模型,各模型結(jié)果基本與原模型的結(jié)果分析無(wú)差異。
本次研究?jī)H僅是涉及到方劑的組成,如果對(duì)藥物劑量、味數(shù)、炮制和服用方法也納入分析,數(shù)據(jù)分析模型將會(huì)使結(jié)果更加全面和準(zhǔn)確。
本研究舉例的方法可以直接運(yùn)用于各種中醫(yī)疾病異名準(zhǔn)確性研究,以及現(xiàn)代病名與古代病名的對(duì)應(yīng)關(guān)系研究,如骨質(zhì)疏松癥對(duì)應(yīng)的古代病名是什么。
表2 不同Seed情況下各異名準(zhǔn)確性比較
運(yùn)用本方法可以量化類(lèi)比方劑功效,如以清熱方劑集構(gòu)成學(xué)習(xí)集,瀉火方劑集構(gòu)成應(yīng)用集,可以量化瀉火功效與清熱功效的相似度。
本研究方法經(jīng)過(guò)一定變換可以廣泛應(yīng)用于基于對(duì)應(yīng)方劑的各種中醫(yī)基本概念量化比較,如以五臟方劑集構(gòu)成學(xué)習(xí)集,三焦方劑集構(gòu)成應(yīng)用集,可以量化判斷三焦從方劑組成角度與五臟哪一臟更有相關(guān)性。
綜上所述,本研究以量化消渴異名準(zhǔn)確性為例,結(jié)合方證對(duì)應(yīng)和機(jī)器學(xué)習(xí),將方劑集合量化比較問(wèn)題轉(zhuǎn)換為隨機(jī)森林的建模和應(yīng)用,進(jìn)而為反映與方劑集合關(guān)聯(lián)的中醫(yī)概念之間量化關(guān)系提供一種新的中醫(yī)基本概念量化研究方法,即“方證量化模型”。目前本方法還不十分成熟,對(duì)于中醫(yī)概念轉(zhuǎn)化為方劑集合、方劑集合變換為隨機(jī)森林模型的過(guò)程中,如何更好地進(jìn)行數(shù)據(jù)信息的取舍、最終結(jié)果的參數(shù)評(píng)估,還需要進(jìn)一步大量積累實(shí)踐經(jīng)驗(yàn)和教訓(xùn)。