馮天保,劉 梅,譚定英,陳平平
(廣州中醫(yī)藥大學(xué),廣州 510405)
藥對,又稱“對藥”,是臨床上常用的、相對固定的2味藥物的配伍形式。藥對是集中醫(yī)之理、法、藥為一體的數(shù)據(jù)集合,體現(xiàn)交叉錯綜的關(guān)聯(lián)與對應(yīng)。數(shù)據(jù)挖掘正是通過對數(shù)據(jù)特征、關(guān)系、聚類、趨向、偏差和特例現(xiàn)象的深層多維分析,來揭示數(shù)據(jù)間復(fù)雜和特殊的關(guān)系,發(fā)現(xiàn)其隱含的規(guī)則、模式和規(guī)律。本研究以《張仲景藥對集》[1]、《中藥藥對大全》[2]中外感疾病相關(guān)的藥對為數(shù)據(jù)源,利用SQL Server 2005建立數(shù)據(jù)挖掘模型,應(yīng)用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法,對藥對作“藥物-藥對-病證”對應(yīng)關(guān)系進行分析。
數(shù)據(jù)挖掘(Data Mining)是用于開發(fā)信息資源的1種新的數(shù)據(jù)處理技術(shù),主要用于海量數(shù)據(jù)的分析與研究。數(shù)據(jù)挖掘技術(shù)已被廣泛地應(yīng)用于經(jīng)濟管理以及社會生產(chǎn)的各個領(lǐng)域,并逐漸滲入到中醫(yī)藥研究領(lǐng)域中,取得了一定的階段性成果。關(guān)聯(lián)規(guī)則指描述數(shù)據(jù)之間存在關(guān)系的規(guī)則,是從給定的數(shù)據(jù)中,挖掘出事物特征之間滿足一定支持度和置信度的關(guān)聯(lián)現(xiàn)象[3]。關(guān)聯(lián)規(guī)則相關(guān)術(shù)語如下:(1)項集:項集是1組值,每個項都是1個屬性值。每個項集都有一個大小,該大小表示項集中包含的項的數(shù)目。如項集{葶藶子、麻黃/杏仁、咳嗽}的大小是3;(2)支持度:支持度用于度量1個項集的出現(xiàn)頻率。最小支持度是1個閾值參數(shù),必須在處理關(guān)聯(lián)模型之前指定該參數(shù);(3)概率:也稱置信度,是關(guān)聯(lián)規(guī)則的屬性。最小概率是1個閾值參數(shù),必須在運行算法之前指定該參數(shù),它表示用戶只對某些規(guī)則感興趣,這些規(guī)則擁有比較高的概率;(4)重要性:重要性用于衡量項集和規(guī)則[4],重要性用下面的公式來定義:Importance({A,B})=probability(A,B)/(probability(A)×probability(B))。計算結(jié)果,如果importance=1,則表示 A和 B是2個獨立的事件。如果importance<1,則 A和 B是負(fù)相關(guān),它表示 A發(fā)生,B也不太可能發(fā)生。如果 importance>1,則A和B是正相關(guān),表示A、B很有可能發(fā)生。
數(shù)據(jù)來源于《張仲景藥對集》及《中藥藥對大全》,主要采用其中解表類、溫里類、清熱類、瀉下類、祛濕類和止咳類藥對。將篩選后的數(shù)據(jù)進行標(biāo)化、量化、錄入,并創(chuàng)建中藥藥對數(shù)據(jù)庫,使之易于管理、分析與查詢。
2.2.1 藥名的預(yù)處理 《張仲景藥對集》、《中藥藥對大全》中的數(shù)據(jù)幾乎都是文字性的描述,需要作歸類和數(shù)據(jù)屬性數(shù)據(jù)化。書中藥名幾乎每1種藥物都存在一物多名的情況,處理這一類藥名的時候,根據(jù)《中藥配伍應(yīng)用》與《常用中藥配伍與名方精要》兩書進行規(guī)范化處理,統(tǒng)一藥名。
2.2.2 用量的預(yù)處理 在《張仲景藥對集》和《中藥藥對大全》中藥物所用劑量基本上都是以“克”為單位做計算的,所以不存在單位轉(zhuǎn)換的問題。在用量中如果是1個連續(xù)值的話,分2種方法轉(zhuǎn)化;若劑量小于30g則取最大值;反之,取平均值。如白術(shù)用量為6g~15g,最大劑量小于30g,那么取最大劑量15g;綠豆用量為30g~70g,那么就用平均值(30+70)/2=50g。
單味藥物本身具有的屬性包括功用、四性、五味、升降浮沉、歸經(jīng)和藥物毒性等,為本數(shù)據(jù)取藥物的基本屬性,包括四性五味、歸經(jīng)和功用。
2.3.1 四性的數(shù)字化 表1顯示,藥物的四性包括寒、熱、溫、涼、平,如果藥物具有相應(yīng)的屬性,就在相應(yīng)的屬性上編碼為“1”,反之為“0”。如某藥具有熱性,則編碼。
表1 藥物四性表
2.3.2 五味的數(shù)字化 表2顯示,藥物的五味包括酸、苦、甘、辛、咸、淡、澀,如果藥物具有相應(yīng)的屬性,就在相應(yīng)的屬性上編碼為“1”,反之為“0”。如某藥具有辛味,則編碼。
表2 藥物五味表
2.3.3 歸經(jīng)的數(shù)字化 表3顯示,藥物的歸經(jīng)包括肝、心、脾、肺、腎、胃、膽、大腸、小腸、膀胱、心包、三焦經(jīng)等幾類,如果藥物具有相應(yīng)的屬性,就在相應(yīng)的屬性上編碼“1”,反之為“0”。
表3 藥物歸經(jīng)表
2.3.4 藥物功效屬類數(shù)字化 表4顯示,將藥物功效屬類分為解表藥、清熱藥、瀉下藥、祛濕藥、溫里藥、理氣藥、消食藥、止血藥、活血化瘀藥、化痰止咳平喘藥、安神藥、平肝息風(fēng)藥、補虛藥、收澀藥、殺蟲藥等共17大類,如果藥物具有相應(yīng)的屬性,就在相應(yīng)的屬性上編碼“1”,反之為“0”。
2.4.1 屬性表的建立 在數(shù)據(jù)庫中建立了3個藥物屬性表,包括藥物性味表、藥物歸經(jīng)表、藥物功用表。性味包括寒、熱、溫、涼、平、酸、苦、甘、辛、咸、淡、澀,歸經(jīng)包括肝、心、脾、肺、腎、胃、膽、大腸、小腸、膀胱、心包、三焦,功用表包括解表、清熱等17種。這些屬性表既是藥物的基本屬性,也作為藥物數(shù)據(jù)挖掘的依據(jù)。
表4 藥物功效屬類表
2.4.2 事實表的建立 事實表中的事實是指描述1種物體的詳細(xì)情況并能體現(xiàn)物體特征。事實表的建立可以發(fā)現(xiàn)物體之間的異同,也有利于信息的查詢,主要有藥對表(藥對ID、藥對組成、功效、主治等)、藥物表(藥物 ID、藥物名、藥物功能、用量(g)等)、藥對-藥物表(藥對 ID、藥物 ID、藥對功用ID、病證 ID等)。
經(jīng)過數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)錄入、數(shù)據(jù)清洗,數(shù)據(jù)庫正式完成并可以導(dǎo)入Microsoft SQL Server2005進行挖掘模型的創(chuàng)建。采用關(guān)聯(lián)分析方法,試圖預(yù)測藥對-藥物-病證三者之間的關(guān)系,發(fā)現(xiàn)頻繁項集。(1)創(chuàng)建Analysis Services項目;(2)創(chuàng)建數(shù)據(jù)源和數(shù)據(jù)源視圖;(3)選取關(guān)聯(lián)規(guī)則算法,建立數(shù)據(jù)挖掘模型;(4)利用關(guān)聯(lián)規(guī)則進行藥對數(shù)據(jù)的挖掘。下面選取2個選項卡數(shù)據(jù)作為藥對挖掘結(jié)果展示,其中項集是指該選項卡能顯示被模型識別為經(jīng)常發(fā)現(xiàn)一起出現(xiàn)項集的列表,網(wǎng)格中有“支持”、“大小”和“項集”項目,而規(guī)則是指該選項卡顯示關(guān)聯(lián)算法發(fā)現(xiàn)的規(guī)則。
選擇藥對-藥物表為事例表,藥物表和藥對表作為嵌套表(見圖2)。
①項集選項卡的數(shù)據(jù),在此選擇了其中之一作為數(shù)據(jù)展示(見圖3);②規(guī)則選項卡數(shù)據(jù),在此選擇了部分?jǐn)?shù)據(jù)展示(見圖4)。
圖2 挖掘模型
圖3 項集選項卡
圖4 規(guī)則選項卡
本文主要研究治療傷寒疾病的藥物-藥對-病證之間的關(guān)系,利用 SQL Server 2005作為數(shù)據(jù)庫,通過關(guān)聯(lián)規(guī)則算法對傷寒疾病藥對進行挖掘。筆者只選取了部分?jǐn)?shù)據(jù)進行歸納分析如下。
表5顯示,數(shù)據(jù)信息包括藥物和藥對關(guān)聯(lián)規(guī)則、置信度和重要性,反映出藥物與藥對之間是可以互相預(yù)測的,具有雙向關(guān)聯(lián)。如“陳皮→麻黃/附子”與“麻黃/附子→陳皮”等,這些規(guī)則提示前者比后者更有用,可以理解為臨床上若以陳皮治療寒咳痰多,加入溫陽平喘的藥對麻黃/附子效果會更加好;若以麻黃/附子溫陽平喘,加入陳皮增效的作用可能沒那么顯著,而要考慮與其他藥物配伍。從表中還可以看出,有些藥物與藥對和藥對與藥物之間的關(guān)系具有相同的置信度和重要性,表明這些規(guī)則的可用性是一樣的。如“竹葉→茵陳/梔子/大黃”與“茵陳/梔子/大黃→竹葉”等。
表5 項集大小為2的藥物-藥對關(guān)聯(lián)規(guī)則表
在表6的各組合中,大部分是藥物與藥對之間是互相獨立的,可以看成這些藥物的重新組合對相關(guān)病證的治療起到更好的協(xié)同或相反相成的作用,即組成一個新的藥串。藥串[5]是指相對固定的3味或3味以上的藥物組合,作為中藥配伍的獨立單元,是針對一定病證,從歷代醫(yī)家用藥經(jīng)驗中提煉出來行之有效的、符合一定的理論依據(jù)和法度的固定配伍。如表中的“葶藶子,麻黃/杏仁 → 咳嗽;細(xì)辛,麻黃/附子→感冒,水腫”等多數(shù)組合均屬這種情況。麻黃、杏仁均有宣肺平喘之功,加入瀉肺平喘、行水消腫之葶藶子作為組合,則對咳嗽痰多者療效更佳。但對于“烏頭,旋覆花/代赭石→嘔逆,嘔吐,咳嗽”這類組合,加入有回陽逐冷、祛風(fēng)濕功效的烏頭,從醫(yī)理藥理上很難解析其對嘔逆、嘔吐、咳嗽等癥的治療效果,故此時還要結(jié)合臨床、古文獻及現(xiàn)代中藥藥理研究來綜合分析與行取舍挖掘的規(guī)律。
表6 項集大小為3的藥物-藥對-病證關(guān)聯(lián)規(guī)則表
本實驗利用數(shù)據(jù)挖掘技術(shù)對中藥藥對進行研究,在一定程度上揭示了中藥藥對的應(yīng)用特點,發(fā)現(xiàn)了一些新的用藥規(guī)律及藥物組合規(guī)律,如單味藥與藥對的對應(yīng)關(guān)系,以及出現(xiàn)了一些新的藥物配伍組合——“藥串”,此將有助于指導(dǎo)臨床科學(xué)用藥,提高藥對治療的效果。筆者在挖掘過程中也發(fā)現(xiàn),對挖掘出來的所有結(jié)果不一定都可用,此需結(jié)合臨床、古文獻及現(xiàn)代中藥藥理研究結(jié)果來綜合分析,遵循“人機結(jié)合、以人為主”的原則進行取舍。目前所研究的“藥物-藥對-病證”關(guān)聯(lián)分析方法較為簡單,而中藥藥對、證、癥、病等信息形成的多維關(guān)聯(lián)關(guān)系的深入揭示,還需在今后工作中進一步研究。
[1]王玉芝,呂昌寶.張仲景藥對集[M].長治:山西省晉東南醫(yī)學(xué)??茖W(xué)校,1984.
[2]胥慶華,中藥藥對大全[M].北京:中國中醫(yī)藥出版社,2001.
[3]李虹,蔡之華.關(guān)聯(lián)規(guī)則在醫(yī)療數(shù)據(jù)分析中的應(yīng)用[J].微機發(fā)展,2003,13(6):94.
[4]Jiawei Han,Micheline Kamber著,范明,孟小峰,譯.數(shù)據(jù)挖掘概念與技術(shù)[M].2版.北京:機械工業(yè)出版社,2007.
[5]趙進喜,肖永華,傅強.呂仁和用藥經(jīng)驗舉隅[J].中醫(yī)雜志,2009,50(4):300-301.