馬夢羽 沈璐 文天才 夏勇
摘要:經(jīng)過中華民族幾千年的傳承和發(fā)展,中醫(yī)學(xué)形成了特有的理論體系,其療效受到廣泛認可,但因中醫(yī)理論更關(guān)注有關(guān)疾病的癥、治、效之間的關(guān)聯(lián)關(guān)系,而不是現(xiàn)代自然科學(xué)所探究的因果關(guān)系,導(dǎo)致其科學(xué)性屢遭質(zhì)疑。近年來,基于真實世界的臨床研究模式和“大數(shù)據(jù)”理念日益受到重視,因此,越來越多的研究人員開始將研究重點放在疾病干預(yù)措施與結(jié)局指標(biāo)的相關(guān)關(guān)系上,這一轉(zhuǎn)變以及計算機數(shù)據(jù)挖掘與分析技術(shù)的進步,無疑給中醫(yī)理論與實踐的進一步發(fā)展帶來重大契機。本文歸納總結(jié)了近年來中醫(yī)診療中用到的數(shù)據(jù)挖掘技術(shù),如聚類分析、決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)和多示例學(xué)習(xí)等,展示了如何運用這些方法從大量中醫(yī)病癥數(shù)據(jù)中揭示中醫(yī)診療規(guī)律,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的知識,以數(shù)據(jù)為支撐而顯示中醫(yī)學(xué)的有效性。
關(guān)鍵字:中醫(yī)診療;數(shù)據(jù)挖掘;聚類分析;決策樹;多示例學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);述評
DOI:10.3969/j.issn.1005-5304.2016.07.037
中圖分類號:R2-05 文獻標(biāo)識碼:A 文章編號:1005-5304(2016)07-0132-05
Application of Data Mining Technology for Data Analysis of TCM Diagnosis and Treatment MA Meng-yu1, SHEN Lu2, WEN Tian-cai1,3, XIA Yong1 (1. School of Computer Science, Northwestern Polytechnical University, Xian 710072, China; 2. Shaanxi Provincial Hospital of Traditional Chinese Medicine, Xian 710003, China; 3. China Academy of Chinese Medical Sciences, Beijing 100700, China)
Abstract: Through several thousand years inheritance and development by Chinese people, traditional Chinese medicine (TCM) has formed its unique theoretic system, whose efficacy has been widely accepted. However, because TCM theory focuses on the relationships among syndromes, treatment and efficacy, instead of the cause-and-effect relationship explored by modern natural science, the scientificity of TCM has always been questioned. In recent years, because virtual-world clinical research mode and the concept of “big data” were emphasized, increasing researchers began to put their research emphasis on the correlativity between intervening measures of diseases and outcome indicators. This change and the advancement of computer data mining and analysis technology, bring great opportunities for the further development of TCM theory and practice. This article concluded data mining technology used in TCM diagnosis and treatment in recent years, such as clustering analysis, decision tree, Bayesian network, neural network and multi-instance learning, which showed how to apply these methods to reveal rules of TCM diagnosis and treatment from a large number of TCM syndrome data, find knowledge hidden in data, and show TCM effectiveness supported by data.
Key words: traditional Chinese medicine diagnosis and treatment; data mining; cluster analysis; decision tree; multi-instance learning; neural network; review
中醫(yī)學(xué)是以中醫(yī)藥理論與實踐經(jīng)驗為主體,研究人類生命活動中健康與疾病轉(zhuǎn)化規(guī)律及其預(yù)防、診斷、治療、康復(fù)和保健的綜合性科學(xué)[1]。傳統(tǒng)的中醫(yī)辨證診治過程主要依靠醫(yī)生的望、聞、問、切等主觀手段來獲取疾病資料,以取象比類的方法對病因病機進行認識,依據(jù)中藥的性味歸經(jīng)并進行配伍來達到治
通訊作者:夏勇,E-mail:yxia@nwpu.edu.cn
療疾病的目的。由此可以看出,傳統(tǒng)中醫(yī)更關(guān)注有關(guān)疾病的癥、治、效之間關(guān)聯(lián)關(guān)系,而不是現(xiàn)代生物醫(yī)學(xué)所討論的因果關(guān)系。因此,中醫(yī)研究的范式與現(xiàn)代自然科學(xué)并不相同,由此導(dǎo)致中醫(yī)辨證論治的科學(xué)性屢遭質(zhì)疑。
然而,盡管現(xiàn)代生物醫(yī)學(xué)取得巨大的成功,但因人體是一套復(fù)雜巨系統(tǒng),即使運用現(xiàn)代生物醫(yī)學(xué)也無法完全解釋疾病發(fā)生發(fā)展及診斷治療的全過程。近年來發(fā)展起來的基于真實世界的臨床研究模式和“大數(shù)據(jù)”理念,使研究者不需要再去刻意尋求疾病發(fā)生發(fā)展全過程的原理,而是將重點放在疾病干預(yù)措施與結(jié)局指標(biāo)的相關(guān)關(guān)系研究上,這無疑給中醫(yī)藥發(fā)展帶來重大契機[2]。而且,隨著各種新興觸感器,如舌診議、脈診儀、可穿戴設(shè)備等出現(xiàn)和應(yīng)用,以及醫(yī)院信息系統(tǒng)的普及,極大豐富了中醫(yī)數(shù)據(jù)。從數(shù)據(jù)入手,運用智能計算機技術(shù),以“大數(shù)據(jù)”的思想分析挖掘中醫(yī)數(shù)據(jù)進行中醫(yī)臨床研究已成為必然趨勢。
現(xiàn)代中醫(yī)醫(yī)院的診療數(shù)據(jù)具有明顯的“全數(shù)據(jù)”特點,它不僅包括傳統(tǒng)中醫(yī)的望、聞、問、切信息,還包括各類理化生物學(xué)指標(biāo),包括本質(zhì)、現(xiàn)象、穩(wěn)定的、不穩(wěn)定的,形成全面的描述[3]。但與此同時,中醫(yī)病例數(shù)據(jù)可能混雜有不規(guī)范描述、缺少定量的癥狀分析,往往以癥狀程度的輕、中、重來形容,造成數(shù)據(jù)清洗困難,具有系統(tǒng)性、整體性、復(fù)雜性、不確定性等特點,難以適用于傳統(tǒng)的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘通過統(tǒng)計分析、信息檢索、機器學(xué)習(xí)和模式識別等諸多方法,尋找大數(shù)據(jù)下的隱藏知識和規(guī)律,現(xiàn)已廣泛用于處理醫(yī)學(xué)數(shù)據(jù)研究。常見的數(shù)據(jù)挖掘方法包括決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、聚類、多示例學(xué)習(xí)和多標(biāo)記學(xué)習(xí)等。筆者現(xiàn)對上述數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用情況總結(jié)如下。
1 聚類分析
聚類分析(cluster analysis),是在沒有先驗知識的情況下,對無類別標(biāo)記的數(shù)據(jù)資料進行分類,根據(jù)物以類聚的樸素道理,認為同類的樣本之間距離小,不同類的樣本之間距離大,分類后使類間的相似性最小,而盡可能增大類內(nèi)的相似性。聚類分析常用于分析中醫(yī)診療中癥狀組合規(guī)律、用藥規(guī)律等,現(xiàn)已表明聚類分析在中醫(yī)診療領(lǐng)域具有一定推動作用。
有研究收集國家級名老中醫(yī)治療腫瘤處方和肝病處方,采用關(guān)聯(lián)規(guī)則Apriori算法和復(fù)雜系統(tǒng)熵聚類方法計算得到處方中各單味藥物頻次、藥物組合頻次、藥物之間的關(guān)聯(lián)規(guī)則和核心組合等[4-5]。張氏[6]對350例肺癌患者癥狀、體征和舌脈象等臨床資料進行聚類分析,將肺癌患者中醫(yī)證候分為痰濁阻肺證、氣虛證、肝郁化火證和瘀血阻絡(luò)證4類,結(jié)果解釋比例為71.58%,并初步確定了各證候的診斷要點。楊氏等[7]收集365例肝癌患者62項四診信息并量化計分,運用聚類分析歸納出肝癌的中醫(yī)辨證分型為肝郁證、脾虛證、濕熱證、血瘀證及陰虛證,其中以脾虛證多見,肝郁證、陰虛證、血瘀證、濕熱證次之,由此認為聚類分析結(jié)果有利于中醫(yī)證型規(guī)范化。盧氏等[8]通過制定“中醫(yī)證候臨床觀察表”,對106例兒童中間型β地中海貧血患者進行中醫(yī)證候調(diào)查,采用聚類分析等統(tǒng)計學(xué)方法得出廣州地區(qū)中間型β地中海貧血患兒中醫(yī)證候分布順序為氣血兩虛證>肝腎陰虛證>脾腎陽虛證>陰陽兩虛證。
當(dāng)然,中醫(yī)癥候錯綜復(fù)雜,使用聚類分析可能存在一些問題。首先,在聚類分析中,每個樣本只能被聚到某一類,而現(xiàn)實往往有許多患者屬于錯雜體質(zhì),應(yīng)屬于多種證候。其次,聚類分析需要研究者憑借經(jīng)驗及相關(guān)知識判定分為幾類,而不能根據(jù)數(shù)據(jù)自身結(jié)構(gòu)特點自主的判定分類數(shù)量。所以,研究者需要多次嘗試、反復(fù)分析如何定義聚類的數(shù)量及樣本間的距離才是最優(yōu)的。
2 決策樹
決策樹(decision tree)是一個樹形結(jié)構(gòu)的預(yù)測模型,樹中每個節(jié)點表示某個樣本屬性,每個分支則代表對該屬性的判斷,而每個葉子結(jié)點則對應(yīng)最終的類別。決策樹的學(xué)習(xí)速度很快,且不需要研究者學(xué)習(xí)與數(shù)據(jù)相關(guān)的背景知識,產(chǎn)生的分類規(guī)則簡單直觀,分類準(zhǔn)確率較高,是數(shù)據(jù)挖掘中常用的分類方法。最早的決策樹算法有ID3,后又發(fā)展形成C4.5、C5.0和CART算法,常用于歸納名老中醫(yī)辨證過程、論證中醫(yī)的診療準(zhǔn)則。
查氏等[9]收集397例已確診活動期類風(fēng)濕性關(guān)節(jié)炎患者癥狀及檢查結(jié)果,構(gòu)造決策樹實現(xiàn)了證病信息和療效的相關(guān)關(guān)系探索,得出可從證候信息的角度獲得藥物治療的最佳適應(yīng)證,從而實現(xiàn)個體化治療。肖氏[10]收集了一位名老中醫(yī)的慢性胃炎臨床診斷醫(yī)案,構(gòu)造決策樹反映其辨證規(guī)律,并用“IF AND THEN”語句表示,如:IF喜熱喜暖=“正?!盇ND舌苔=“舌苔薄白”AND脈象=“脈細弦”AND性情=“性情急躁”,THEN分類證型=“肝胃不和證”,說明決策樹直觀有效。史氏等[11]收集了411例不穩(wěn)定性心絞痛病例,采用卡方自動交互檢測決策樹方法從89個臨床常規(guī)檢測指標(biāo)中提取痰瘀互阻證的識別規(guī)律。結(jié)果顯示,該決策樹模型靈敏度為72.46%,特異度為81.29%,檢驗正確率為79.81%。說明決策樹模型直觀簡潔,便于歸納識別規(guī)律有用信息,適用于研究總結(jié)癥狀與證型的對應(yīng)模式。
3 貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)(Bayesian networks)是一種概率圖模型,可用于預(yù)測,其結(jié)構(gòu)為一個有向無環(huán)圖(DAG),由節(jié)點和連接這些節(jié)點有向邊構(gòu)成。一般而言,節(jié)點表示隨機變量,可以是已知或未知參數(shù);節(jié)點間的有向邊記錄了兩節(jié)點間條件概率,以此類推表示所有節(jié)點間的關(guān)系。這種概率模型結(jié)構(gòu)能充分利用先驗知識,可以處理有噪聲、不完全、不精確的知識,所以被多次運用到中醫(yī)診療問題上。運用貝葉斯網(wǎng)絡(luò)可以揭示癥狀之間及癥狀與證型之間的關(guān)系,定量評判各癥狀對準(zhǔn)確辨證的影響,從而歸納出該證型具有代表性的癥狀,不僅有助于確定證候診斷的標(biāo)準(zhǔn)和規(guī)范,還可作為輔助診療的參考[12]。但是,貝葉斯網(wǎng)絡(luò)的建造是一個復(fù)雜的任務(wù),需要該領(lǐng)域?qū)<业膮⑴c并不斷完善;其次,如果各節(jié)點之間關(guān)系復(fù)雜,那么條件概率表就會變得難以計算且不便使用。
吳氏等[13]收集了115例名老中醫(yī)的冠心病醫(yī)案,運用貝葉斯網(wǎng)絡(luò)提取常見癥候要素,如血瘀、痰濁、氣虛、陽虛等8個,貝葉斯網(wǎng)絡(luò)以條件概率形式表示出各種癥狀在中醫(yī)診療中的貢獻度,將名老中醫(yī)的辨證經(jīng)驗轉(zhuǎn)化成定量表示,對中醫(yī)經(jīng)驗的傳承發(fā)展有十分重大的意義。徐氏等[14]收集了835例冠心病患者信息,構(gòu)造貝葉斯網(wǎng)絡(luò)對四診證候信息進行分類識別,其中心氣虛、心陽虛、心陰虛、血瘀、痰濁5個證型的識別率分別為69.34%、84.85%、65.12%、83.87%和65.12%。張氏等[15]對287例肝炎后肝硬化的癥狀、體征,利用樹增廣的樸素貝葉斯分類算法,構(gòu)建了肝炎后肝硬化中醫(yī)證候分類模型,結(jié)果這種模型對肝炎后肝硬化的5種主要證候分類的符合率達83%。龔氏等[16]以2501例2型糖尿病的臨床數(shù)據(jù)為基礎(chǔ),運用貝葉斯網(wǎng)絡(luò)的方法進行分析。結(jié)果發(fā)現(xiàn),空腹血糖異常的患者以陰虛熱盛多見,餐后2 h血糖異常的患者以陰虛多見,糖化血紅蛋白異常的患者以陰虛熱盛多見,血脂異常者以氣虛為主,血壓異常者伴見血瘀。該結(jié)果基本符合中醫(yī)理論和臨床實際。
4 粗糙集理論
粗糙集理論(rough set)可以處理分析不精確或有噪聲的數(shù)據(jù),適用于特征變量是離散化的數(shù)據(jù),對不完整的知識進行推理,識別并評估數(shù)據(jù)之間的依賴關(guān)系。粗糙集理論的特點是利用已知的樣本中的信息,近似粗糙地表示不精確或不確定的信息,從而達到分類預(yù)測的效果。該理論的一大優(yōu)勢在于其無需先驗信息,如隸屬度函數(shù)和變量的概率統(tǒng)計分布,而這些先驗知識往往比較難得到。粗糙集是一種優(yōu)秀的機器學(xué)習(xí)方法,貼近中醫(yī)信息中時有混雜的噪聲及不確定描述的特點,所以利用其分析中醫(yī)數(shù)據(jù),歸納診療規(guī)則,有望獲得成功。
陳氏等[17]收集450例老年細菌性肺炎患者在就診過程中的285項指標(biāo),采用粗糙集方法分析得到7種中老年肺炎的證候診斷標(biāo)準(zhǔn),為療效評價指標(biāo)提供了客觀依據(jù)。孫氏等[18]采用粗糙集與支持向量機(SVM)結(jié)合的方法對293例中醫(yī)肝硬化患者臨床信息建立證候決策信息表,提取出代表性癥狀輸入SVM進行分類學(xué)習(xí),準(zhǔn)確率約為84.4%。陳氏等[19]從古今醫(yī)案中收集與原發(fā)性高血壓相關(guān)的237例病案,運用粗糙集理論進行數(shù)據(jù)分析,獲得了原發(fā)性高血壓肝陽上亢證的專家知識。
5 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)是模仿生物神經(jīng)系統(tǒng)中神經(jīng)元的一種數(shù)學(xué)處理方法,無需考慮各變量之間是否獨立及是否滿足正態(tài)分布等條件,而且也不像傳統(tǒng)統(tǒng)計分析那樣給出明確的方程,但它能給出結(jié)構(gòu)參數(shù)。從某種意義上說,神經(jīng)網(wǎng)絡(luò)能更有效地表述實際問題,特別是當(dāng)有些問題并不需要明確的數(shù)學(xué)表達式或根本無法找到明確的數(shù)學(xué)公式表達時,神經(jīng)網(wǎng)絡(luò)就更顯示其優(yōu)越性。但因ANN采用梯度下降算法調(diào)節(jié)參數(shù),可能陷入局部最優(yōu),所以常需多次設(shè)置不同初始值,多次嘗試迭代求得可能的最優(yōu)結(jié)果會增加額外開銷。運用ANN進行中醫(yī)數(shù)據(jù)分析,尋找癥狀與證型的關(guān)系,可將癥狀作為輸入單元,證型為最終的輸出結(jié)果,建立癥狀與證型的非線性映射函數(shù),常見的神經(jīng)網(wǎng)絡(luò)有誤差反向傳播(BP)網(wǎng)絡(luò)和Hopfiled網(wǎng)絡(luò)等。
燕氏等[20]運用ANN實驗對脈象識別和分類,結(jié)合脈象特點選取特征值設(shè)計多種分類器。結(jié)果顯示,運用ANN實現(xiàn)的脈象識別,有助于深入開展脈象形成機制的研究工作。白氏等[21]運用ANN建立糖尿病腎病證候診斷模型,采用改進的共軛梯度學(xué)習(xí)算法,結(jié)果神經(jīng)網(wǎng)絡(luò)模型預(yù)測證候的平均單證特異性為81.32%,平均單證準(zhǔn)確率為96.25%,平均診斷準(zhǔn)確率為92.21%。說明ANN技術(shù)是中醫(yī)證候非線性建模的可行方法。
6 多示例學(xué)習(xí)和多標(biāo)記學(xué)習(xí)
在多示例學(xué)習(xí)(multi-instance learning,MIL)中,樣本由若干個具有概念標(biāo)記的包(bag)組成,每個包含有若干無概念標(biāo)記的示例。若一個包中至少有1個正例,則該包被標(biāo)記為正(positive);若一個包中所有示例都是反例,則該包被標(biāo)記為反(negative)。MIL屬于以往機器學(xué)習(xí)研究的一個盲區(qū),被認為是一種新的學(xué)習(xí)框架。而且由于其包的定義與中醫(yī)“全數(shù)據(jù)”的概念非常相似,因此,將MIL用于中醫(yī)數(shù)據(jù)分析受到越來越廣泛的重視。
多標(biāo)記學(xué)習(xí)(multi-label learning,MLL)方法中每個樣本并不只對應(yīng)一個類別,而是和多個類別相關(guān)聯(lián),所以很好地解決了分類問題的歧義性。這與真實世界中的現(xiàn)象十分接近,現(xiàn)實生活中的某一對象往往不只具有單一含義,而是可能具有多義性的。MLL技術(shù)是數(shù)據(jù)挖掘、模式識別等領(lǐng)域的一個新的研究熱點,為提高分類精度,特征降維成為改善MLL方法的又一研究方向。將MLL用于中醫(yī)數(shù)據(jù)處理,將會有效解決中醫(yī)病例數(shù)據(jù)中多語義的特點。
沈氏[22]將MIL和MLL方法應(yīng)用在聲診中,采集臨床包括氣虛、陰虛和氣陰兩虛患者的五音作為示例,患者證型作為類別標(biāo)記,使用MIL和MLL框架得到較好的分類模型。王氏[23]以慢性胃炎患者中醫(yī)問診數(shù)據(jù)為研究樣本,采用MLL方法建立分類模型,實驗結(jié)果顯示MLL方法分類準(zhǔn)確率達到83%。邵氏等[24]運用MLL結(jié)合混合優(yōu)化的特征選擇算法,用于冠心病中醫(yī)問診數(shù)據(jù)分析,建立中醫(yī)冠心病數(shù)據(jù)模型,并獲得了冠心病問診癥狀的最優(yōu)特征子集。
7 多種方法結(jié)合
上述方法雖能取得良好的實驗結(jié)果,啟發(fā)了之后的研究方向,但每種方法依然存在自身的缺陷。如神經(jīng)網(wǎng)絡(luò)中隱層的含義難以解釋,且不能從模型中提取分類規(guī)則,不便于理解,這是ANN的較大缺陷。目前,已有學(xué)者將粗糙集理論與神經(jīng)網(wǎng)絡(luò)結(jié)合,有較好的實驗結(jié)果。秦氏等[25]利用粗糙集技術(shù)對ANN進行預(yù)處理,求取核屬性,構(gòu)造粗糙ANN,并應(yīng)用到中醫(yī)類風(fēng)濕病分型診斷建模,計算機仿真結(jié)果證明了用粗糙集輔助設(shè)計ANN,改善了網(wǎng)絡(luò)的學(xué)習(xí)能力,并在實踐中取得了滿意的效果。
SVM是以結(jié)構(gòu)風(fēng)險最小化為原則的機器學(xué)習(xí)方法,巧妙地通過核函數(shù)將低維輸入空間的特征整向量投射到高維數(shù)據(jù)空間,使樣本在高維空間線性可分,由此求得最優(yōu)分類的超平面,解決非線性分類問題。SVM不僅可以處理高維的特征向量,而且,即便在樣本數(shù)較少時也能獲得較好分類效果,這使SVM成為近年來應(yīng)用十分火熱的分類方式,在處理中醫(yī)臨床數(shù)據(jù)時也被大量使用。王氏等[26]收集115例名醫(yī)診治冠心病典型醫(yī)案,運用SVM提取出8個主要證候要素并確定其定量診斷。楊氏等[27]收集1個家系虛寒證的相關(guān)基因信息,選取5例虛寒證和5例正常人差異表達基因的表達值作為分類的正負樣本,使用SVM、K近鄰分類法等方法建立二分類模型,得到較好結(jié)果?,F(xiàn)已有研究將多種數(shù)據(jù)挖掘技術(shù)對中醫(yī)臨床數(shù)據(jù)的分析處理結(jié)果進行對比,希望尋找到更合適中醫(yī)數(shù)據(jù)特點的研究方法。如許氏等[28]采集臨床心血管疾病的病例,根據(jù)癥狀的“有”和“無”分別賦值為“1”和“0”,將癥狀作為輸入樣本,證型作為輸出類別,使用SVM和ANN進行分析,結(jié)果對心氣虛、心陽虛、心陰虛、痰濁、氣滯、血瘀等心血管疾病常見中醫(yī)證型,ANN的識別準(zhǔn)確率較高,均在60%以上,其中心氣虛和心陽虛證分別高達92.4%、82.9%。
8 展望
基于上述分析,筆者提出以下幾點建議:
首先,在“大數(shù)據(jù)”時代,通過對大量數(shù)據(jù)的研究挖掘漸漸替代了對模型的研究,從大量的現(xiàn)象中尋找隱藏的規(guī)律,中醫(yī)學(xué)有望據(jù)此證明自身的有效性。然而,現(xiàn)如今大量的中醫(yī)數(shù)據(jù)未得到很好的應(yīng)用,是因數(shù)據(jù)較為雜亂,缺失完整病例信息,并且中醫(yī)病例描述常有一詞多義或語義不清等問題。但數(shù)據(jù)挖掘技術(shù)對于數(shù)據(jù)的規(guī)范性要求較高,如何規(guī)范化中醫(yī)數(shù)據(jù)信息也成為中醫(yī)信息化、現(xiàn)代化的熱點問題。所以,加強計算機學(xué)科、數(shù)學(xué)學(xué)科、信息學(xué)科與中醫(yī)理論體系的交叉合作,建立普遍適用的中醫(yī)醫(yī)療大數(shù)據(jù)庫,是現(xiàn)在中醫(yī)實現(xiàn)信息化、現(xiàn)代化發(fā)展的當(dāng)務(wù)之急。
其次,現(xiàn)階段數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療領(lǐng)域的應(yīng)用,往往局限于某一名老專家的行醫(yī)經(jīng)驗或某一疾病的辨證施治,如何對各種數(shù)據(jù)挖掘方法的結(jié)果進行科學(xué)合理的評估也將是很有意義的一個研究方向。
最后,如何集各種數(shù)據(jù)挖掘方法之長于一體,若能找到一種或幾種最適合中醫(yī)數(shù)據(jù)特點的算法以對某一數(shù)據(jù)庫進行挖掘分析,將為中醫(yī)學(xué)的繼承發(fā)展帶來不可估量的貢獻。
參考文獻:
[1] 中醫(yī)藥學(xué)名詞審定委員會.中醫(yī)藥學(xué)名詞[M].北京:科學(xué)出版社,2005:1-4.
[2] 劉保延.真實世界的中醫(yī)臨床科研范式[J].中醫(yī)雜志,2013,54(6):451-455.
[3] 崔蒙,李海燕,雷蕾,等.“大數(shù)據(jù)”時代與中醫(yī)藥“知識密集型”數(shù)據(jù)[J].中國中醫(yī)藥圖書情報雜志,2013,37(3):1-3.
[4] 宋京美,吳嘉瑞,姜迪.基于數(shù)據(jù)挖掘的國家級名老中醫(yī)治療腫瘤用藥規(guī)律研究[J].中國中醫(yī)藥信息雜志,2015,22(6):50-53.
[5] 吳嘉瑞,宋京美,張冰,等.基于數(shù)據(jù)挖掘的國家級名老中醫(yī)治療肝病用藥規(guī)律研究[J].中國中醫(yī)藥信息雜志,2014,21(6):30-33.
[6] 張月.中晚期肺癌患者中醫(yī)證候的聚類分析研究[D].北京:北京中醫(yī)藥大學(xué),2008.
[7] 楊素芳,林永廉.基于聚類分析的原發(fā)性肝癌介入治療前中醫(yī)證型特點研究[J].中國中醫(yī)藥信息雜志,2012,19(10):11-10.
[8] 盧焯明,錢新華.以聚類分析法研究兒童中間型β地中海貧血的中醫(yī)證候分布規(guī)律[J].中華中醫(yī)藥雜志,2012,27(3):607-611.
[9] 查青林,何羿婷,喻建平,等.基于決策樹分析方法探索類風(fēng)濕性關(guān)炎證病信息與療效的相關(guān)關(guān)系[J].中國中西醫(yī)結(jié)合雜志,2006,26(10):871-873.
[10] 肖光磊.名老中醫(yī)經(jīng)驗傳承中的數(shù)據(jù)挖掘技術(shù)研究[D].南京:南京理工大學(xué),2008.
[11] 史琦,王偉,陳建新,等.基于決策樹的冠心病痰瘀互阻證識別模式研究[J].中華中醫(yī)藥雜志,2013,28(12):3523-3526.
[12] 李志更,王天芳,任婕,等.中醫(yī)科研中幾種常用數(shù)據(jù)挖掘方法淺析[J].中醫(yī)藥學(xué)報,2008,36(2):29-32,83.
[13] 吳榮,聶曉燕,王階,等.基于貝葉斯網(wǎng)絡(luò)的名老中醫(yī)治療冠心病辨證規(guī)律研究[J].中國中醫(yī)藥信息雜志,2010,17(5):98-99.
[14] 徐璡,許朝霞,許文杰,等.基于貝葉斯網(wǎng)絡(luò)原理的835例冠心病病例中醫(yī)證候分類研究[J].上海中醫(yī)藥雜志,2014,48(1):10-13.
[15] 張躍宏,劉平,張琴,等.基于粗糙集與廣義關(guān)聯(lián)度系數(shù)的貝葉斯中醫(yī)證候分類模型[J].統(tǒng)計與決策,2008(12):159-161.
[16] 龔燕冰,倪青,高思華,等.2型糖尿病主要理化指標(biāo)與中醫(yī)證候相關(guān)性的貝葉斯網(wǎng)絡(luò)分析[J].中華中醫(yī)藥雜志,2010,25(1):31-33.
[17] 陳楚湘,沈建京,陳冰,等.運用粗糙集理論建立中老年肺炎中醫(yī)癥候診斷標(biāo)準(zhǔn)[C]//中國自動化學(xué)會控制理論專業(yè)委員會.第二十九屆中國控制會議論文集.上海,2010:40-42.
[18] 孫繼佳,蘇式兵,陸奕宇,等.基于粗糙集與支持向量機的中醫(yī)辨證數(shù)據(jù)挖掘方法研究[J].數(shù)理醫(yī)藥學(xué)雜志,2010,23(3):261-265.
[19] 陳素玲,付爽,高云,等.基于飛粗糙集理論的原發(fā)性高血壓肝陽上亢證辨證系統(tǒng)的建立[J].山東中醫(yī)藥大學(xué)學(xué)報,2010,34(3):201-203.
[20] 燕海霞,王憶勤,宮愛民,等.人工神經(jīng)網(wǎng)絡(luò)在中醫(yī)脈象識別分類研究中的應(yīng)用概況[J].世界科學(xué)技術(shù)—中醫(yī)藥現(xiàn)代化,2009,11(4):522- 526.
[21] 白云靜,孟慶剛,申洪波,等.基于改進的BP神經(jīng)網(wǎng)絡(luò)的糖尿病腎病中醫(yī)證候非線性建模研究[J].北京中醫(yī)藥大學(xué)學(xué)報,2008,31(5):308- 311.
[22] 沈慶韡.數(shù)字化中醫(yī)聲診五臟五音信息提取和識別研究[D].上海:華東理工大學(xué),2012.
[23] 王立文.基于深度學(xué)習(xí)與條件隨機場的多標(biāo)記學(xué)習(xí)方法的中醫(yī)問診建模研究[D].上海:華東理工大學(xué),2013.
[24] 邵歡,李國正,劉國萍,等.多標(biāo)記中醫(yī)問診數(shù)據(jù)的癥狀選擇[J].中國科學(xué):信息科學(xué),2011,41(11):1372-1387.
[25] 秦中廣,毛宗源.粗糙神經(jīng)網(wǎng)絡(luò)及其在中醫(yī)智能診斷系統(tǒng)中的應(yīng)用[J].計算機工程與應(yīng)用,2001,37(18):34-35,74.
[26] 王階,吳榮,周雪忠.基于支持向量機的名老中醫(yī)治療冠心病證候要素研究[J].北京中醫(yī)藥大學(xué)學(xué)報,2008,31(8):540-543,560.
[27] 楊麗萍,黃睿,張洛欣,等.用特征功能模塊法挖掘一個虛寒證家系的基因表達譜[J].中華中醫(yī)藥雜志,2010,25(5):683-685.
[28] 許朝霞,王憶勤,顏建軍,等.基于支持向量機和人工神經(jīng)網(wǎng)絡(luò)的心血管疾病中醫(yī)證候分類識別研究[J].北京中醫(yī)藥大學(xué)學(xué)報,2011,34(8):539-543.
(收稿日期:2015-07-11)
(修回日期:2016-02-16;編輯:梅智勝)