張勝男+車立娟+李明
摘要:大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘作為有效地信息處理技術(shù),可以在中醫(yī)文獻(xiàn)中提煉出潛在的、有用的信息。數(shù)據(jù)挖掘廣泛應(yīng)用于特定疾病、方劑、醫(yī)案、名老專家臨床經(jīng)驗(yàn)與針灸的文獻(xiàn)研究中。本文簡要介紹了關(guān)聯(lián)規(guī)則分析、聚類分析、決策樹算法和神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,以及在中醫(yī)文獻(xiàn)研究中的應(yīng)用情況。
關(guān)鍵詞:中醫(yī);數(shù)據(jù)挖掘;文獻(xiàn)研究
中圖分類號(hào):R2-03 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-1959(2017)13-0022-03
Abstract:The era of big data,data mining as an effective information processing technology,in the literature of traditional Chinese medicine extract potential and useful information.Data mining is widely applied to specific diseases,prescriptions,medical records,literature research and clinical experience of senior experts of acupuncture.This paper briefly introduces the association rules analysis,cluster analysis,decision making tree algorithm and neural network data mining method,and application in TCM literature research.
Key words:Traditional Chinese medicine;Data mining;Literature research
“大數(shù)據(jù)”已成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。大數(shù)據(jù)時(shí)代,人們不再追求精準(zhǔn)和因果關(guān)系,而是更為關(guān)注相關(guān)關(guān)系[1]。中醫(yī)學(xué)也迎來了大數(shù)據(jù)時(shí)代,從海量中醫(yī)數(shù)據(jù)中提取有用的信息也變得更加困難,數(shù)據(jù)挖掘作為有效地信息處理技術(shù),可以幫助中醫(yī)研究者挖掘海量數(shù)據(jù)中有用的信息。數(shù)據(jù)挖掘(Data Mining,DM)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中、不為人知但又是潛在有用的信息和知識(shí)的過程[2],數(shù)據(jù)挖掘也被稱為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn),即從一個(gè)大的數(shù)據(jù)堆中找出有用的知識(shí),從數(shù)據(jù)中挖掘知識(shí)[3]。這是一個(gè)從大量不完整的數(shù)據(jù)中發(fā)現(xiàn)、抽取有意義數(shù)據(jù)的過程。數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)技術(shù)最早是在1989年的美國人工智能協(xié)會(huì)第11屆年會(huì)上提出的[4],而后漸漸成為人們在海量數(shù)據(jù)中尋找有效知識(shí)的一個(gè)必備方法。在中醫(yī)文獻(xiàn)研究中,常用的數(shù)據(jù)挖掘方法有關(guān)聯(lián)規(guī)則分析、聚類分析、決策樹算法和神經(jīng)網(wǎng)絡(luò),尤其是關(guān)聯(lián)規(guī)則分析和聚類分析最為常用。也有很多中醫(yī)文獻(xiàn)研究需要綜合應(yīng)用多種數(shù)據(jù)挖掘方法。
1 關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則分析又稱為購物籃分析,目的是在一定的支持度和置信度限制下尋找事務(wù)之間的內(nèi)在的聯(lián)系。它是由Agrawal等人于1993年提出來的。關(guān)聯(lián)規(guī)則里的重要概念[5]:項(xiàng)集、支持度、頻繁項(xiàng)集、置信度。支持度是度量一個(gè)項(xiàng)集出現(xiàn)的頻率,例如項(xiàng)集{A,B}的支持度是由同時(shí)包含A和B的事務(wù)總數(shù)組成的。頻繁項(xiàng)集是在數(shù)據(jù)集中出現(xiàn)頻率高的那些項(xiàng)集,利用這些頻繁集創(chuàng)建描述關(guān)聯(lián)關(guān)系的規(guī)則[6],這是關(guān)聯(lián)規(guī)則的核心部分。頻率的閾值是用支持度來定義的。概率(Probability)是關(guān)聯(lián)規(guī)則的屬性,規(guī)則A=>B的概率是使用{A}的支持度除項(xiàng)集{A,B}的支持度計(jì)算的,該概率在數(shù)據(jù)挖掘研究領(lǐng)域中也稱置信度。關(guān)聯(lián)規(guī)則分析是數(shù)據(jù)挖掘領(lǐng)域中最活躍和成熟的方法之一,在中醫(yī)文獻(xiàn)研究中,關(guān)聯(lián)規(guī)則分析常用在組方用藥規(guī)律研究、病機(jī)的研究、針灸用穴規(guī)律的研究中,值得關(guān)注的是,關(guān)聯(lián)規(guī)則分析在方證研究領(lǐng)域中也有所發(fā)展。關(guān)聯(lián)規(guī)則在用藥規(guī)律研究中旨在尋找有用的藥對、藥組、藥癥,甚至可以發(fā)現(xiàn)新方;關(guān)聯(lián)規(guī)則在癥候病機(jī)的研究中著重挖掘病機(jī)與病機(jī)之間、癥候與病機(jī)之間的關(guān)聯(lián);關(guān)聯(lián)規(guī)則在針灸用穴研究中,著重發(fā)現(xiàn)特定疾病選穴與經(jīng)絡(luò)之間的聯(lián)系;關(guān)聯(lián)規(guī)則在方證研究中,旨在尋找經(jīng)方里的規(guī)律,幫助臨床更好的應(yīng)用經(jīng)方。
1.1組方用藥規(guī)律的研究
甘永康等[7]應(yīng)用數(shù)據(jù)挖掘方法對葉天士《臨證指南醫(yī)案》治療泄瀉方劑的組方規(guī)律進(jìn)行分析,得到葉天士治療泄瀉常用的藥物、核心組合及發(fā)現(xiàn)新方,這為臨床選方用藥提供了新思路。
有些學(xué)者采用古今文獻(xiàn)對比的思路研究了某病用藥規(guī)律,沈劼等[8]運(yùn)用關(guān)聯(lián)規(guī)則分析并對比了古今醫(yī)家治療卵巢早衰的用藥規(guī)律。挖掘出古代中醫(yī)治療卵巢早衰的核心藥物是當(dāng)歸、川芎、白芍、茯苓、熟地黃等,為八珍湯基礎(chǔ)方加減。得到關(guān)聯(lián)度比較好的藥對為當(dāng)歸-川芎、當(dāng)歸-白芍等?,F(xiàn)代中醫(yī)治療卵巢早衰的核心藥物是當(dāng)歸、熟地黃、菟絲子、枸杞子、山藥等。得到關(guān)聯(lián)度較好的藥對為當(dāng)歸-熟地黃、熟地黃-菟絲子等;古代中醫(yī)和現(xiàn)代中醫(yī)治療卵巢早衰共同選擇的核心藥物為當(dāng)歸、熟地黃、白芍、茯苓,核心藥對為當(dāng)歸-熟地黃。在分析古今醫(yī)家治療卵巢早衰時(shí),得到支持度最高的藥物為當(dāng)歸,可以認(rèn)為古今醫(yī)家均視陰血虧虛為本病的一個(gè)病理基礎(chǔ),但用藥有一定區(qū)別,古代方用藥立足于補(bǔ)益氣血,現(xiàn)代方用藥以滋補(bǔ)肝腎陰血為主。
1.2 癥候病機(jī)的研究
簡維雄等[9]在基于現(xiàn)代文獻(xiàn)研究高血壓的證型病機(jī)特征時(shí),運(yùn)用了關(guān)聯(lián)規(guī)則方法,得出高血壓病機(jī)以肝腎陰虛為本,痰濁,瘀血為標(biāo),風(fēng)陽內(nèi)動(dòng)為像。瘀血與痰濁、陽亢、肝陽化風(fēng)、肝腎陰虛、陰虛陽亢、肝火上炎等病機(jī)關(guān)聯(lián);痰濁與瘀血、肝陽化風(fēng)、肝火上炎、肝腎陰虛、陽亢、陰虛陽亢、氣虛、陰虛等病機(jī)關(guān)聯(lián);肝腎陰虛證與病機(jī)瘀血傾向關(guān)聯(lián);肝腎陰虛證和肝陽上亢證時(shí)與病機(jī)痰濁、肝陽化風(fēng)、瘀血傾向關(guān)聯(lián);血瘀證與瘀血傾向關(guān)聯(lián)。
1.3針灸用穴規(guī)律研究
章薇等[10]運(yùn)用關(guān)聯(lián)規(guī)則探析古代針灸治療尿失禁的用穴規(guī)律,得出治療尿失禁多選陰經(jīng),重視手足三陰經(jīng)腧穴偏重特定穴,陰經(jīng)又以足厥陰肝經(jīng)取穴最多,五輸穴與其他特定穴配伍最為常用,原穴配伍五輸穴支持度最高;而且發(fā)現(xiàn)古代醫(yī)家治療尿失禁不取膀胱經(jīng)募穴中極。這說明數(shù)據(jù)挖掘技術(shù)也可以用來研究針灸的用穴規(guī)律。
1.4方證研究
在方證研究領(lǐng)域中,徐建虎等[11]運(yùn)用數(shù)據(jù)挖掘技術(shù)分析古今醫(yī)案專著、臨床經(jīng)驗(yàn)專著及期刊雜志中的小柴胡湯醫(yī)案,發(fā)現(xiàn)小柴胡湯證臨床病證規(guī)律。子午二個(gè)時(shí)辰定時(shí)發(fā)作的病變常采用小柴胡湯治療;少陽提綱證(口苦、咽干、目眩) 和小柴胡湯四大主癥(往來寒熱、胸脅苦滿、嘿(mo)嘿不欲飲食、心煩喜嘔) 具有診斷小柴胡湯證的指標(biāo)意義;“但見一證”指往來寒熱、胸脅苦滿、心煩喜嘔、嘿嘿不欲飲食四者之一;小柴胡湯證主脈是弦脈。
2 聚類分析
聚類是指將物理或抽象對象集合構(gòu)成為由類似的對象組成的多個(gè)類的過程[12],聚類分析是將數(shù)據(jù)進(jìn)行類似對象組的劃分,從而實(shí)現(xiàn)類的分析過程。在人類的行為中是一項(xiàng)非常重要的分析方法,也是一種常見的數(shù)據(jù)挖掘方法。聚類分析可分為R型聚類和Q型聚類。R型聚類可以把有線性關(guān)系的變量歸到一類,然后讓研究者自己去根據(jù)變量的情況判斷選擇代表性指標(biāo)。而Q型聚類主要根據(jù)對象相似度,把整體分成若干類別,研究者在不同類別中尋找共同規(guī)律。無論是R型還是Q型聚類分析,都僅僅歸類而不呈現(xiàn)結(jié)論,需要完成下一步分析,屬于探索性分析[4]。多用于疾病的中醫(yī)證候分類,為中醫(yī)臨床辨證論治依據(jù)提供分型的方法學(xué)[13],也應(yīng)用于方劑中的用藥規(guī)律、用藥方案篩選等相關(guān)研究中。
劉嘉輝等[14]探討名老中醫(yī)治療原發(fā)性肝癌的用藥規(guī)律,搜集首屆國醫(yī)大師及首批國家級(jí)名老中醫(yī)的醫(yī)案提取方藥信息,應(yīng)用聚類分析和關(guān)聯(lián)規(guī)則分析進(jìn)行數(shù)據(jù)挖掘。聚類分析顯示名老中醫(yī)治療原發(fā)性肝癌的藥物可歸為5類:補(bǔ)益氣血類、理氣活血類、解毒軟堅(jiān)類、利水滲濕類和健脾消食類。關(guān)聯(lián)規(guī)則分析顯示:關(guān)聯(lián)性強(qiáng)的主要為益氣健脾藥和理氣藥、活血藥、清熱解毒藥、消食藥的配伍組合。名老中醫(yī)治療原發(fā)性肝癌謹(jǐn)守“正虛邪實(shí)”的病機(jī)本質(zhì),在扶正健脾基礎(chǔ)上辨證運(yùn)用清熱解毒、疏肝理氣、活血散結(jié)等治法。陳欣然[15]利用聚類分析和關(guān)聯(lián)規(guī)則對近15年的反流性食管炎中醫(yī)臨床期刊文獻(xiàn)進(jìn)行了用藥規(guī)律和證候研究。藥物聚類組得出7種證型,與《實(shí)用中醫(yī)消化病學(xué)》中該病的5種分類證型比較,少1種脾虛胃熱型,多出4種證型脾胃濕熱證、氣郁痰阻證、痰熱互結(jié)證和脾虛痰濕證,證明臨床用藥的趨向已經(jīng)改變。在藥物的研究中發(fā)現(xiàn)大部分排名靠前的藥對中藥物功能相近,如穿山甲、桃仁,穿山甲、紅花均可活血化瘀、通絡(luò)止痛;還有沿用經(jīng)典用藥配伍,如石青、寒水石出自《素問病機(jī)氣宜保命集》中的雙玉散等等。對于藥癥研究,大便艱難與玉竹相關(guān)性最高,白花蛇舌草、太子參、丁香、大棗、檳榔、黃芪、竹茹均與燒心相關(guān)聯(lián),說明主癥燒心的用藥多選擇扶正祛邪、清熱解毒、軟堅(jiān)散結(jié)的藥物。
3 決策樹算法
決策樹算法是利用信息論中的信息增益,以尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立一個(gè)決策樹的節(jié)點(diǎn),而后根據(jù)字段不同取之建立分支[4]。這種方法以樹狀結(jié)構(gòu)表示模型,容易理解。國際上最早的最有影響的決策樹算法是ID3算法。決策樹算法在基于臨床病例數(shù)據(jù)探索辨證規(guī)則的研究中使用較多,可以是研究專家的辨證規(guī)律,也可以是臨床專病的辨證規(guī)則研究。決策樹算法可用于中醫(yī)臨床疾病辨證的輔助診斷。
余學(xué)杰等[16]使用決策樹算法將中醫(yī)專家的臨床診斷數(shù)據(jù)逐步分類以獲得專家的辯證規(guī)律,研究者成功獲取了多種證名與證候的規(guī)則,這說明利用決策樹算法研究專家的辯證規(guī)律是可行的。黃嘉韻等[17]收集臨床鼻鼽病例資料,建立了鼻鼽辯證分型決策樹模型,并且獲得了較高的準(zhǔn)確率。通過決策樹算法探索專病辨證規(guī)律具有可行性,在中醫(yī)臨床辨證過程中將會(huì)起到輔助診斷的作用。
4 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)路又稱為人工神經(jīng)網(wǎng)絡(luò),是模仿人腦神經(jīng)元而產(chǎn)生的一種仿生物技術(shù)類數(shù)據(jù)挖掘方法[4]。神經(jīng)網(wǎng)絡(luò)的目的在于提取規(guī)則,在證候分類、證候診斷規(guī)則以及預(yù)測研究中經(jīng)常使用,神經(jīng)網(wǎng)絡(luò)對已知證候與癥狀的關(guān)系或者對于建立專家系統(tǒng)都是有益的,但對某一個(gè)疾病的證候規(guī)律研究往往有局限性。有學(xué)者將神經(jīng)網(wǎng)絡(luò)運(yùn)用在診斷學(xué)中四診的研究,例如張康等[18]通過神經(jīng)網(wǎng)絡(luò)對舌圖像進(jìn)行胖舌,瘦舌和正常舌的自動(dòng)歸類。
5 總結(jié)與展望
數(shù)據(jù)挖掘技術(shù)在中醫(yī)文獻(xiàn)研究中已經(jīng)得到廣泛應(yīng)用,在某一項(xiàng)研究中可以使用多種挖掘技術(shù),這些挖掘技術(shù)不僅相互交叉又相互補(bǔ)充。其中關(guān)聯(lián)規(guī)則在中醫(yī)文獻(xiàn)研究中使用較多,也趨漸成熟。聚類分析在中醫(yī)文獻(xiàn)研究中的使用頻率也慢慢增多,然而在數(shù)據(jù)挖掘軟件中,聚類分析呈現(xiàn)出的結(jié)果僅僅是歸類而無結(jié)論,這就需要研究者深入探索再分析。在數(shù)據(jù)預(yù)處理方面,數(shù)據(jù)首先要規(guī)范化才能進(jìn)行數(shù)據(jù)挖掘,其中癥狀的標(biāo)準(zhǔn)化一直是一個(gè)難點(diǎn),需要我們研究人員深入探索,在癥狀標(biāo)準(zhǔn)化方面作進(jìn)一步的研究。數(shù)據(jù)挖掘已經(jīng)在中醫(yī)文獻(xiàn)研究領(lǐng)域中有很大的嘗試,但有些數(shù)據(jù)量不夠大,隨著時(shí)代的進(jìn)步,數(shù)據(jù)挖掘在中醫(yī)文獻(xiàn)研究領(lǐng)域中有更深的探索。
參考文獻(xiàn):
[1]張華敏,王永炎.高概念大數(shù)據(jù)時(shí)代中醫(yī)理論研究的機(jī)遇[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)志,2015,21(1):4-6.
[2]劉興方,韓學(xué)杰.數(shù)據(jù)挖掘技術(shù)在醫(yī)案研究中的應(yīng)用與討論[J].中國實(shí)驗(yàn)方劑學(xué)志,2014,20(9):247-250.
[3]JiaweiHan,MichelineKamber,JianPei,等.數(shù)據(jù)挖掘:概念與技術(shù)[M].機(jī)械工業(yè)出版社,2012.
[4]郝峰.消化性潰瘍近15年中醫(yī)文獻(xiàn)研究[D].北京中醫(yī)藥大學(xué),2012.
[5]JamieMacLennan,ZhaohuiTang,BogdanCrivat,等.數(shù)據(jù)挖掘原理與應(yīng)用(第2版):SQL Server 2008數(shù)據(jù)庫[M].清華大學(xué)出版社,2010.
[6]陳文偉,黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:人民郵電出版社,2004.
[7]甘永康,劉華一,劉惠.基于數(shù)據(jù)挖掘的《臨證指南醫(yī)案》治療泄瀉用藥規(guī)律分析[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2016,22(1):115-116,130.
[8]沈劼,王旭東,李新霞,等.卵巢早衰古今用藥規(guī)律探析[J].中國中醫(yī)藥現(xiàn)代遠(yuǎn)程教育,2016,14(21):42-45.
[9]簡維雄,陳偶英,張穩(wěn),等.基于高血壓病中醫(yī)藥現(xiàn)代文獻(xiàn)證型、病機(jī)特征研究[J].中華中醫(yī)藥學(xué)刊,2015,33(12):2871-2874.
[10]章薇,譚志高,曹卷舒,等.基于數(shù)據(jù)挖掘技術(shù)探析古代針灸治療尿失禁的用穴規(guī)律[J].中國針灸,2015,35(12):1299-1303.
[11]徐建虎,陳甲秀,張琦,等.基于2898則古今醫(yī)案的數(shù)據(jù)挖掘探討小柴胡湯病證規(guī)律[J].時(shí)珍國醫(yī)國藥,2014,25(8):2026-2029.
[12]王欣,徐騰飛,唐連章.SQL Server 2005數(shù)據(jù)挖掘?qū)嵗治鯷M].中國水利水電出版社,2008:185.
[13]蘇曉宇.數(shù)據(jù)挖掘聚類分析方法在中醫(yī)臨床中的運(yùn)用[J].實(shí)用中西醫(yī)結(jié)合臨床,2010,10(6):90-93.
[14]劉嘉輝,韋志輝,呂東勇,等.基于數(shù)據(jù)挖掘的名老中醫(yī)治療原發(fā)性肝癌用藥規(guī)律研究[J].中華中醫(yī)藥雜志,2016,31(1):58-61.
[15]陳欣然.基于數(shù)據(jù)挖掘技術(shù)的近15年反流性食管炎中醫(yī)臨床期刊文獻(xiàn)研究[D].北京中醫(yī)藥大學(xué),2014.
[16]余學(xué)杰,李書珍,李曉燕,等.基于決策樹提取中醫(yī)專家辨證規(guī)律初探[J].遼寧中醫(yī)雜志,2015,42(1):19-24.
[17]黃嘉韻,郭宏,鄺艷萍.基于決策樹算法的鼻鼽辨證規(guī)律初步研究[J].中華中醫(yī)藥雜志,2016,31(11):4770-4773.
[18]張康,張鶴林,金石,等.基于神經(jīng)網(wǎng)絡(luò)的舌體胖瘦分析[J].中華中醫(yī)藥雜志,2014,29(10):3111-3114.
編輯/成森