張好霞,侯 鈺,楊建明,陳 浩,李天泉△
(1.重慶康洲醫(yī)藥大數(shù)據(jù)開發(fā)應(yīng)用研究院,重慶 404100; 2.重慶康洲大數(shù)據(jù)有限公司,重慶 404100)
在現(xiàn)代科學(xué)技術(shù)推動中醫(yī)藥理研究快速發(fā)展的背景下,藥性、藥味理論的研究已逐漸成為國內(nèi)學(xué)者關(guān)注的熱點(diǎn),促進(jìn)了中藥性、味、歸經(jīng)、功能間關(guān)系數(shù)據(jù)探究方法的創(chuàng)新[1-4]。目前,數(shù)據(jù)挖掘已成為中醫(yī)藥研究的重要技術(shù),主要是用于發(fā)現(xiàn)數(shù)據(jù)中的隱含規(guī)律和潛在的信息及知識等。關(guān)聯(lián)規(guī)則挖掘則是數(shù)據(jù)挖掘技術(shù)中較活躍的技術(shù),一般用來發(fā)現(xiàn)研究對象的關(guān)聯(lián)性和相互依存性。其中Apriori算法是關(guān)聯(lián)規(guī)則挖掘中較典型的算法[5],也是挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集最有影響的算法,已被廣泛用于中藥數(shù)據(jù)挖掘的研究中[6-8]。關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法多用于藥物屬性間的關(guān)系挖掘,郭小磊[8]、于紅艷等[9]報(bào)道了部分四性-五味間的緊密關(guān)系,以及寒-解毒、寒-清熱、溫-止痛、寒-涼血、微寒-清熱、寒-消腫、涼-清熱等的關(guān)聯(lián)關(guān)系;尚爾鑫等[10]報(bào)道了部分中藥屬性四性-歸經(jīng)、歸經(jīng)-歸經(jīng)的關(guān)聯(lián)性。本研究中在現(xiàn)有理論研究的基礎(chǔ)上,運(yùn)用數(shù)據(jù)挖掘方法進(jìn)行樣本分析、處理,并參考Apriori算法,結(jié)合關(guān)聯(lián)數(shù)據(jù)技術(shù)[10-11],分析中藥的性、味、歸經(jīng)及藥用功能間的聯(lián)系,探討中藥性能和傳統(tǒng)經(jīng)驗(yàn)之間的區(qū)別和聯(lián)系,為中藥性能研究提供科學(xué)、有效的論證方式?,F(xiàn)報(bào)道如下。
本研究中涉及的數(shù)據(jù)來源于藥智網(wǎng)數(shù)據(jù)庫的中藥基本信息數(shù)據(jù)表,表中信息主要來源于《中國藥典(一部)》及全國各省市自治區(qū)藥材標(biāo)準(zhǔn)信息,且詳細(xì)記錄了中藥材加工、規(guī)范、歸類等操作,信息權(quán)威,可直接利用度高(數(shù)據(jù)加工規(guī)范等過程有內(nèi)部標(biāo)準(zhǔn),統(tǒng)一性強(qiáng))。同時(shí),中醫(yī)藥數(shù)據(jù)挖掘過程中需要針對性強(qiáng)、數(shù)據(jù)規(guī)范、數(shù)據(jù)量相對完備的專業(yè)數(shù)據(jù)庫,而藥智網(wǎng)數(shù)據(jù)庫中的中藥基本信息數(shù)據(jù)表收錄了1 690種常見中藥,記錄了其名稱、藥性、藥味、歸經(jīng)、功效、炮制等基本信息,現(xiàn)抽取其中性、味、歸經(jīng)、功能作為研究對象進(jìn)行數(shù)據(jù)挖掘。
研究中需涉及中藥藥性、功效等信息,由于其記錄不統(tǒng)一、各種信息的名稱不規(guī)范等原因,造成數(shù)據(jù)顯示的內(nèi)在規(guī)律會呈過度分散狀態(tài),使得現(xiàn)有數(shù)據(jù)庫不能直接按研究目的進(jìn)行數(shù)據(jù)分析或數(shù)據(jù)挖掘,所以很有必要在數(shù)據(jù)分析前對數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理一般包括數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成等步驟[12]。
數(shù)據(jù)清洗:主要包括初步清洗和深度清洗兩部分。初步清洗主要是指除去數(shù)據(jù)當(dāng)中冗余、無關(guān)的標(biāo)點(diǎn)符號、空格等部分,這類錯誤常由人工錄入造成,規(guī)律性差,需人工逐一查找、規(guī)范并加以改善。深度清洗主要是指對中藥的性、味、歸經(jīng)、功能進(jìn)行清洗,去掉“有小毒”等無關(guān)成分;將屬性“微寒”變換為“寒”;將歸經(jīng)的名詞簡化,如“大腸經(jīng)”簡化為“大”,“脾經(jīng)”簡化為“脾”,“膀胱經(jīng)”簡化為“膀”等。數(shù)據(jù)清洗過程需提高數(shù)據(jù)的準(zhǔn)確性、完整性和簡化性,盡可能地提高數(shù)據(jù)的質(zhì)量。
數(shù)據(jù)變換:是指對某些信息描述中屬性值數(shù)目不唯一且有一定多樣性的數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,將其簡化。原數(shù)據(jù)中每味中藥的某個屬性可能有多個值,且數(shù)目不相同,如漏蘆的介紹為“味苦性寒,歸胃經(jīng),有清熱解毒之功效,可消癰,下乳,舒筋通脈”;薤白的介紹為“味辛、苦,性溫,歸心、肺、胃、大腸經(jīng),有通陽散結(jié)、行氣導(dǎo)滯的功效”。分析發(fā)現(xiàn),漏蘆藥味屬性有1種、歸經(jīng)有1種,而薤白藥味屬性有2種、歸經(jīng)有4種,而數(shù)據(jù)庫中的數(shù)據(jù)無明顯規(guī)律,且組合種類繁多,不易于算法識別。故極有必要將原始數(shù)據(jù)分割、展開,以變換為簡單的數(shù)據(jù)形式。變換后保留2種主要藥味、1種主要藥性、3種主要?dú)w經(jīng)、3種主要功能,按一一對應(yīng)原則分別將其展開,共得2×1×3×3=18項(xiàng)。經(jīng)過處理后的數(shù)據(jù)形式簡潔明了。數(shù)據(jù)處理的難點(diǎn)還在于藥物功效的分類。一般藥物有主要功效和次要功效,但原有數(shù)據(jù)的功效多而雜。若僅將功效進(jìn)行分割和初步清洗,所得功效將超過600種,需將其合并帶入Apriori算法中,然后將功能分類后的數(shù)據(jù)帶入算法。此種數(shù)據(jù)處理方式可降低項(xiàng)集絕對支持度,對于含有項(xiàng)較多的項(xiàng)集,其相對支持度基本無改變,對于含有項(xiàng)較少的項(xiàng)集,其相對支持度和絕對支持度均有改變。故對于最后的結(jié)果,項(xiàng)數(shù)越多的頻繁項(xiàng)集越可靠。在進(jìn)行算法分析時(shí),可將功效設(shè)為目標(biāo),設(shè)置其他3項(xiàng)為輸入項(xiàng)。
數(shù)據(jù)集成:主要是將來源、格式、特點(diǎn)性質(zhì)不同的數(shù)據(jù)在不同的系統(tǒng)定義數(shù)據(jù)元素,并將這些數(shù)據(jù)元素在結(jié)構(gòu)化的模式上有效協(xié)調(diào)存在的差異,同時(shí)保持一致的數(shù)據(jù)視圖,最終使得數(shù)據(jù)共享更加便捷化。
中醫(yī)理論中對“藥對”在七情、性、味、歸經(jīng)、功效等多個角度的組成方法及形式均有涉及,但均僅對部分藥對進(jìn)行了闡述,其間還存在部分信息交叉。雖合乎中醫(yī)藥臨床的實(shí)際操作,但與藥對組成結(jié)構(gòu)的現(xiàn)代理論研究之間還存在一定的距離[5]。從藥對組成藥物的屬性入手,利用基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,可以探究中藥性、味、歸經(jīng)、功能屬性間的關(guān)系,并可描述每兩個屬性間的關(guān)聯(lián)性強(qiáng)弱。
Apriori算法是關(guān)聯(lián)規(guī)則算法中最常用的算法。關(guān)聯(lián)規(guī)則的原理是,在數(shù)據(jù)集中,若大量記錄具有特征屬性A的同時(shí),也頻繁出現(xiàn)特征屬性B,則稱特征屬性A和B構(gòu)成模式,這些模式可以用關(guān)聯(lián)規(guī)則來觀察和分析,從而表現(xiàn)A和B之間的關(guān)聯(lián)性[4]。關(guān)聯(lián)規(guī)則的質(zhì)量一般由規(guī)則的支持度(support)和置信度(confidence)來度量,它們分別反映所發(fā)現(xiàn)規(guī)則的有用性和確定性[11]。規(guī)則XY在數(shù)據(jù)庫D中的支持度是交易集中同時(shí)包含X和Y的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為support(XY)=support(X∪Y),可簡化表示為P(A∪B)。支持度描述了X和Y項(xiàng)集在所有事務(wù)集D中同時(shí)出現(xiàn)的概率。規(guī)則X和Y在事務(wù)集中的置信度是指同時(shí)包含X和Y項(xiàng)集的事務(wù)數(shù)與包含X項(xiàng)集的事務(wù)數(shù)之比,它用來衡量關(guān)聯(lián)規(guī)則的可信程度,記為confidence(XY)=support(X∪Y)support(X),可簡化表示為P(B|A),即在事務(wù)集D中出現(xiàn)項(xiàng)集A的同時(shí),也出現(xiàn)項(xiàng)集B的概率[13-14]。本研究中采用MySQL和Excel作為數(shù)據(jù)處理工具,R語言、SPSS作為算法挖掘工具。
采用樣本分析法,隨機(jī)抽取一定數(shù)量的數(shù)據(jù)樣本,設(shè)置合理的參數(shù),將不同樣本數(shù)據(jù)帶入算法模型運(yùn)行,直到得出最理想的結(jié)果,則該模型為成功的預(yù)測模型。
隨機(jī)抽取700種中藥,根據(jù)性、味、歸經(jīng)進(jìn)行展開,得到最終數(shù)據(jù)1 767條。數(shù)據(jù)以csv格式儲存,并帶入SPSS運(yùn)行算法。設(shè)置性、味、歸經(jīng)、功能作為關(guān)聯(lián)規(guī)則算法模型項(xiàng)集的屬性,設(shè)置算法模型最低支持度為0.5%,置信度為60%,調(diào)用R關(guān)聯(lián)分析規(guī)則包中的算法進(jìn)行調(diào)試,詳見圖1。
圖1 700種中藥性、味、歸經(jīng)、功效網(wǎng)絡(luò)圖Fig.1 Network diagram of the nature,flavour,channel tropism and medicinal fundion of 700 kinds of traditional Chinese medicinal herbs
通過網(wǎng)絡(luò)節(jié)點(diǎn),可直觀顯示各屬性間的關(guān)聯(lián)程度,其中每個原點(diǎn)各表示1種屬性,其間的直線表示原點(diǎn)間有關(guān)聯(lián),直線越粗,關(guān)聯(lián)程度越強(qiáng)[15-16]。由圖1可知,苦-寒、辛-溫、寒-清熱間關(guān)聯(lián)性很強(qiáng),其次,苦-清熱、甘-補(bǔ)益、苦-肝間的關(guān)聯(lián)性較強(qiáng),表明補(bǔ)益功能與溫、甘、腎,利水滲透功能與寒,理氣功能與溫有關(guān)聯(lián)。
利用模型對功能的預(yù)測結(jié)果可得關(guān)聯(lián)規(guī)則頻繁項(xiàng)集(見表1),分析可知,設(shè)置支持度為0.01%,置信度為55%時(shí),預(yù)測結(jié)果最多為148項(xiàng),其中預(yù)測準(zhǔn)確數(shù)目為0。因此,樣本量為1 767建立的模型無法得到理想的效果,需進(jìn)一步擴(kuò)大樣本量對模型進(jìn)行調(diào)試。
抽取全部1690種中藥,總數(shù)據(jù)量為4637條,以8∶2的比例選取其中80%為訓(xùn)練集,20%為預(yù)測集。設(shè)置中藥性、味、歸經(jīng)、功能為關(guān)聯(lián)規(guī)則算法模型項(xiàng)集的屬性,將算法模型的最低支持度設(shè)置為0.2%,置信度設(shè)置為60%,先調(diào)用R關(guān)聯(lián)分析規(guī)則包中的算法模型,將訓(xùn)練集數(shù)據(jù)帶入算法進(jìn)行調(diào)試,詳見圖2??芍?,關(guān)聯(lián)強(qiáng)度較強(qiáng)的是清熱-苦、清熱-寒、溫-辛、肝-苦。同時(shí),補(bǔ)虛與溫、肝、腎間有一定關(guān)聯(lián),祛風(fēng)濕與溫、苦、辛、平、肝有一定關(guān)聯(lián),行(理)氣與溫有輕微關(guān)聯(lián),利水滲透與寒的關(guān)聯(lián)較弱。
表1 樣本1關(guān)聯(lián)規(guī)則頻繁項(xiàng)集Tab.1 Frequent item sets of association rules for sampleⅠ
圖2 1 690種中藥性、味、歸經(jīng)、功效網(wǎng)絡(luò)圖Fig.2 Network diagram of the nature,flavour,channel tropism and medicinal fundion of 1 690 kinds of traditional Chinese medicinal herbs
利用模型的預(yù)測功能預(yù)測訓(xùn)練集,對比結(jié)果得出準(zhǔn)確率,預(yù)測準(zhǔn)確率作為模型評估選擇依據(jù)。通過改變支持度和置信度來實(shí)現(xiàn)對模型的調(diào)試,直至出現(xiàn)最大準(zhǔn)確率和預(yù)測的最大數(shù)量,該模型即為最優(yōu)模型。預(yù)測結(jié)果見表2,基于準(zhǔn)確率和預(yù)測的數(shù)量,考慮采用支持度為0.2%、置信度為65%的模型。將預(yù)測集數(shù)據(jù)帶入模型,對數(shù)據(jù)進(jìn)行運(yùn)算,所得頻繁項(xiàng)集見表3。
中藥的藥性以平性最多,溫性、寒性次之。關(guān)聯(lián)分析結(jié)果顯示,藥效清熱與藥味苦,藥效清熱與藥性寒,藥性溫與藥味辛,藥入肝經(jīng)與藥味苦有很強(qiáng)的關(guān)聯(lián);藥效補(bǔ)虛與藥性溫及藥入肝、腎經(jīng),藥效祛風(fēng)濕與藥性溫、甘有較強(qiáng)的關(guān)聯(lián),驗(yàn)證了中醫(yī)中的“辛味和甘味屬溫,苦味屬寒涼”的理論知識。
表2 模型預(yù)測結(jié)果Tab.2 Prediction results of model
表3 樣本2關(guān)聯(lián)規(guī)則頻繁項(xiàng)集Tab.3 Frequent item sets of association rules for sampleⅡ
根據(jù)關(guān)聯(lián)規(guī)則分析,置信度超過80%的關(guān)聯(lián)節(jié)點(diǎn)有平、辛、腎-祛風(fēng)濕,溫、咸、腎-補(bǔ)虛,涼、淡-清熱,淡、膽-清熱,熱、苦-祛風(fēng)濕。這表明藥性為平、藥味為辛的易入腎經(jīng),且多用于祛風(fēng)濕;藥性為溫、藥味為咸的易入腎,用于補(bǔ)虛;涼性、清淡的可清熱;藥性為熱、藥味為苦的可祛風(fēng)濕等。上述分析結(jié)果有效地驗(yàn)證了中醫(yī)古籍理論。
苦味藥在傳統(tǒng)中醫(yī)理論中藥性寒涼,本研究中發(fā)現(xiàn),藥味苦與藥性熱有很強(qiáng)的關(guān)聯(lián)性,且這些藥物主要為祛風(fēng)濕藥,這與中醫(yī)常識“苦味屬寒涼”有明顯不同,證明了中醫(yī)藥中味苦藥材并非全部屬寒涼藥性。這一結(jié)論有待中醫(yī)藥專業(yè)人員進(jìn)一步研究和論證,并期待發(fā)現(xiàn)有創(chuàng)新、全新的中醫(yī)藥應(yīng)用。
在大數(shù)據(jù)技術(shù)日益成熟的時(shí)代,中醫(yī)藥數(shù)據(jù)不斷聚合匯總,形成完整海量的大數(shù)據(jù)中醫(yī)藥平臺,將挖掘模型應(yīng)用于這些具有極高價(jià)值的數(shù)據(jù)中,研究者不但可挖掘出更多、更有價(jià)值的信息,而且對于具有缺陷的中藥信息記錄書籍或資料,合適的數(shù)據(jù)挖掘模型也可發(fā)揮預(yù)測作用加以補(bǔ)全,從而提高中藥學(xué)資料的完整性。
當(dāng)下,數(shù)據(jù)挖掘技術(shù)突飛猛進(jìn),并在諸多領(lǐng)域發(fā)揮作用。中醫(yī)藥領(lǐng)域有極其龐大的數(shù)據(jù)資源,且中藥資料或書籍里的數(shù)據(jù)之間也存在各種關(guān)聯(lián),這種關(guān)聯(lián)恰好是數(shù)據(jù)價(jià)值的核心所在。使用關(guān)聯(lián)規(guī)則挖掘能將分散的中藥數(shù)據(jù)關(guān)聯(lián)起來,發(fā)掘性、味、歸經(jīng)與功能的關(guān)聯(lián)性和數(shù)據(jù)之間的依存性。該方法僅需分析人員利用自己的經(jīng)驗(yàn)及知識結(jié)構(gòu)對數(shù)據(jù)進(jìn)行一定規(guī)范,并帶入模型分析即可得出結(jié)果,可大幅降低人為主觀因素的影響。同時(shí),該分析方法使用線將點(diǎn)與點(diǎn)進(jìn)行連接,并用線的粗細(xì)程度來顯示點(diǎn)與點(diǎn)間的關(guān)聯(lián)強(qiáng)度,線條較粗的可用于驗(yàn)證經(jīng)典書籍或資料中理論的準(zhǔn)確性,線條較細(xì)的可用于探究目前研究較淺或未知的歸經(jīng)、功能,可能會更便利、有效地獲得新的信息。并且,此方法可直觀、生動、形象地展現(xiàn)性、味、歸經(jīng)、功能間的關(guān)聯(lián)程度。
利用大數(shù)據(jù)挖掘方法研究中醫(yī)藥學(xué),建立模型,規(guī)避研究人員本身的經(jīng)驗(yàn)或知識結(jié)構(gòu)固化的限制,可挖掘出現(xiàn)有中醫(yī)藥學(xué)之外的潛在信息,大幅提高研究思路的創(chuàng)新性和多樣性,從而更快、更優(yōu)地挖掘出分散的傳統(tǒng)中藥數(shù)據(jù)背后潛藏的價(jià)值,推動創(chuàng)新中醫(yī)藥發(fā)展,傳承中醫(yī)精神。