基于證候要素定向文本挖掘類*風濕性關節(jié)炎中藥配伍規(guī)律
王敏智1、2,郭洪濤2、3,鄭 光2、4,姜 淼2,呂 誠2,王 興1,楊 帆5,呂愛平2△
(1.西南交通大學生命科學與工程學院,成都 610031;2.中國中醫(yī)科學院中醫(yī)臨床基礎醫(yī)學研究所,北京 100700;3.上海中醫(yī)藥大學,上海 201203;4.蘭州大學信息學院,蘭州 730000;5.九江職業(yè)大學護理學院,江西 九江 332000)
目的:以類風濕性關節(jié)炎證候要素為關鍵詞,定向文本挖掘中藥配伍規(guī)律。方法:在數(shù)據(jù)庫中收集治療類風濕性關節(jié)炎文獻數(shù)據(jù),格式化后,以“寒”、“熱”、“虛”、“瘀”為挖掘詞挖掘,結合人工降噪,分析配伍規(guī)律。結果:寒證、熱證用藥對比鮮明,虛證、瘀證用藥相似,各證型均涉及桂枝芍藥知母湯。結論:以證候定向文本挖掘方法,可總結中藥配伍規(guī)律,為臨床提供參考。
類風濕性關節(jié)炎;證候要素;文本挖掘;中藥配伍
類風濕關節(jié)炎(Rheumatoid Arthritis,RA)是一類以關節(jié)炎為主要臨床表現(xiàn)的系統(tǒng)性自身免疫病。RA屬于中醫(yī)“痹證”范疇,中醫(yī)認為是由于風、寒、濕、熱等外邪侵襲人體、痹阻經(jīng)絡、氣血運行不暢所導致的以肌肉、筋骨、關節(jié)發(fā)生酸痛、麻木、重著、屈伸不利甚或關節(jié)腫大灼熱等為主要臨床表現(xiàn)的疾病。中醫(yī)藥辨證治療RA療效肯定,副反應少,其臨床報道大量存在于現(xiàn)有數(shù)據(jù)庫,而這些文獻可以作為數(shù)據(jù)挖掘的重要素材。
辨證論治是中醫(yī)理論的核心,是中醫(yī)臨床醫(yī)學的精髓。證候體現(xiàn)了中醫(yī)學理論特色與優(yōu)勢,是中醫(yī)學認識疾病和處方用藥的主要依據(jù)[1]。證候要素是指組成證候的主要元素,所有的證候都可以由證候要素組成,復合證候可以分解為病位、病性類等證候要素[2]。RA涉及的主要病位類證候要素有經(jīng)絡、腎、肝、脾;病性類證候要素主要有濕邪、寒邪、熱邪、風邪、痰、血瘀、精虧、氣虛、血虛、陰虛、陽虛[3],同時參照中醫(yī)內(nèi)科學教材中有關痹證的論述[4],歸納 RA的證候要素大致為“寒”、“熱”、“風”、“濕”、“虛”、“瘀”、“寒濕”、“濕熱”等。結合數(shù)據(jù)挖掘的特點,本研究選擇“寒”、“熱”、“虛”、“瘀”4個證候要素作為挖掘詞,對RA數(shù)據(jù)集嘗試定向文本挖掘,流程示意圖如下。
文本挖掘是從非結構化的文本數(shù)據(jù)中,抽取有意義的數(shù)據(jù)[5~7]。具體說,文本挖掘應用到生物、醫(yī)學上可以分為文本數(shù)據(jù)收集、處理、結構化分析、可視化以及評價5個步驟[8]。
首先,登錄中國生物醫(yī)學文獻數(shù)據(jù)庫(英文全稱:ChineseBioMedical LiteratureDatabase,簡 稱CBM,網(wǎng)址 http:∥sinomed.cintcm.a(chǎn)c.cn/index.jsp)在缺省狀態(tài)下檢索關鍵詞“類風濕關節(jié)炎 OR類風濕性關節(jié)炎”。經(jīng)過檢索,出現(xiàn)款目詞、主題詞、命中文獻數(shù),合并檢索主題詞,共得到文獻14435篇(檢索日期:2011年9月15日)。為了能看到每篇文獻的流水號、標題、摘要、主題詞等信息,在顯示格式中選擇“詳細”和“顯示全部”。
將收集的數(shù)據(jù),按照現(xiàn)在的先后順序整合到一個平面文件(后綴TXT)中,以ANSI編碼格式保存。然后,利用專有的文本提取工具(軟件著作權,軟著登字第0261882號,登記號 2010SR073409),對 1.1中下載的非結構化的TXT文本數(shù)據(jù)進行信息提取,保存成格式化的、便于數(shù)據(jù)庫(Access)和大型數(shù)據(jù)庫(Microsoft SQL Server,以下簡稱 SQL)處理的格式。提取出來的信息,主要是機標關鍵詞(包括核心和非核心2種類型,以下簡稱關鍵詞)。提取出來的數(shù)據(jù)首先存入Access數(shù)據(jù)庫,作為下一步數(shù)據(jù)處理的材料,然后導入SQL中進行挖掘分析。
根據(jù)1.2中生成的 Access數(shù)據(jù)庫,我們將“結果”數(shù)據(jù)表導入SQL中,以“Table_Initial”為表名稱,針對“序號”和“機標關鍵詞”進行處理。為了方便處理,我們將“序號”和“機標關鍵詞”2個字段分別用 PMID(類似于 PubMed里面的字段名)和DescriptorName(類似于 PubMed里面的字段名)來表示。
經(jīng)過對原文獻的分析發(fā)現(xiàn),相同的關鍵詞在1篇文獻的標題和摘要中存在重復出現(xiàn)的問題。對于文本挖掘來說,假設每1篇文獻的貢獻度是相同的,按照這個假設,對于1篇文獻中重復出現(xiàn)的關鍵詞只需要計算1次。據(jù)此,進行數(shù)據(jù)清洗工作。
通過返查原文獻,發(fā)現(xiàn)在同一篇文章中出現(xiàn)的關鍵詞,在關鍵詞這一抽象層面上部分反映整篇文章的信息。并且就某一篇具體的文獻來說,相關的關鍵詞之間存在著“共同出現(xiàn)”這一基本事實。這種共同出現(xiàn)不是隨機的,而是蘊含有一定的意義[6、7、9、10],尤其對于高頻協(xié)同出現(xiàn)的關鍵詞對,在一定的程度上,這些詞對反映了科研工作者的重視程度。更重要的是,針對目前的文本挖掘技術來說[5、8、9],這些協(xié)同出現(xiàn)的關鍵詞也是很好的分析素材。
基于上面的分析,第一步構造針對每一篇文獻共同出現(xiàn)的關鍵詞對并設計算法,經(jīng)過該計算得到名為DN_pairs的數(shù)據(jù)表。經(jīng)過觀察發(fā)現(xiàn),數(shù)據(jù)表DN_pairs存在大量相同的關鍵詞對,這些冗余的數(shù)據(jù),對于數(shù)據(jù)分析來說大部分屬于噪音,對此將相同的關鍵詞對進行合并處理,只保留它們出現(xiàn)的頻數(shù)。針對這一工作,構造了關鍵詞對頻數(shù)算法來實現(xiàn)。經(jīng)過頻數(shù)算法的處理,得到了名為 DN_pairs_frqcy的數(shù)據(jù)表,在這個數(shù)據(jù)表內(nèi)所有的關鍵詞對都只出現(xiàn)1次,并都有1個對應的頻數(shù)(Frequency)。
經(jīng)過專業(yè)知識對頻數(shù)數(shù)據(jù)進行評估,發(fā)現(xiàn)針對特定的疾病其中仍存在噪音問題。這些噪音不再是關鍵詞的簡單重復,而是相對于專業(yè)只是來說的噪音問題。對此,針對特定的問題對數(shù)據(jù)進行二次清洗。到此為止,可以得到治療RA中藥的配伍規(guī)律。然而根據(jù)中醫(yī)理論,RA可以分為不同的證型且證型不同,臨床使用的藥物也會有相應的調(diào)整。因此,設計定向文本挖掘的方法,分析中醫(yī)治療RA不同證型的中藥配伍規(guī)律。
基于中醫(yī)證候要素特點,在1.1中下載的 RA數(shù)據(jù)集內(nèi),按照“寒”、“熱”、“虛/補”、“瘀”為關鍵詞對文獻的主題詞進行檢索,將數(shù)據(jù)集分為寒、熱、虛和瘀4個子集。然后,針對這4個數(shù)據(jù)子集,分別執(zhí)行1.3、1.4以及 1.5三步的計算。經(jīng)過這三步的計算,可以得到中醫(yī)治療RA寒、熱、虛和瘀4個證候要素的中藥配伍規(guī)律。
根據(jù)1.3中得到的數(shù)據(jù)表 DN_pairs_frqcy,我們抽出不同頻數(shù)的關鍵詞對,用Cytoscape 2.8進行可視化處理,結果如下圖 A、B、C、D(各藥物之間頻數(shù)均大于等于2)。
圖A為“寒”挖掘結果,圖中包含桂枝芍藥知母湯、麻黃附子細辛湯、烏頭湯等方劑的組成成分;圖B為“熱”挖掘結果,圖中包含桂枝芍藥知母湯、四妙勇安湯、二妙散加減,回溯原文獻,牛黃、三七是中成藥新潢片的主要成分。
圖C、D分別為“虛”、“瘀”挖掘結果,圖中共同包含獨活寄生湯的主要成分有獨活、桑寄生、秦艽、防風、當歸、川芎、地黃等;其中,圖 C包含桂枝芍藥知母湯成分,圖D包含麻黃附子細辛湯。
近年來,隨著生物及醫(yī)學文獻數(shù)量的急驟增長,通過數(shù)據(jù)挖掘?qū)ふ乙?guī)律和新知成了生物學和醫(yī)學研究的熱點[11]。運用文本挖掘技術能對海量數(shù)據(jù)進行整合處理,獲得的結果可重復,因此更具有客觀性。
本研究中RA數(shù)據(jù)集包含14435篇文獻,如果使用人工分類是難以想象的。定向文本挖掘結果,均由RA數(shù)據(jù)集文獻的關鍵詞、主題詞產(chǎn)生,同時選取高頻結果,因此具有更高的可信度。定向文本挖掘從RA數(shù)據(jù)集中挖掘的中藥配伍規(guī)律,體現(xiàn)了中醫(yī)臨床用藥情況。
由以上各圖可知,寒證藥用麻黃附子細辛湯、烏頭湯等以溫陽散寒為主,熱證藥用四妙勇安湯、二妙散加減等,以清熱解毒祛濕為主,寒熱用藥對比涇渭鮮明。虛證、瘀證用藥存在很大相似性,以溫補活瘀為主,兩者均涉及獨活寄生湯。獨活寄生湯具有益肝腎、補氣血、祛風濕的作用,多用于疾病后期肝腎虧虛、氣血不足者,這說明虛、瘀可能多發(fā)生在 RA后期。寒證、瘀證挖掘結果均涉及麻黃附子細辛湯,該方助陽解表,適用于陽虛感寒者。挖掘結果提示,麻黃附子細辛湯對于RA陽虛寒凝、因寒致瘀者,臨床可參考使用。
在“寒”、“熱”、“虛”挖掘結果中,均涉及桂枝芍藥知母湯,而在“瘀”證低頻結果中也涉及桂枝芍藥知母湯。桂枝芍藥知母湯為張仲景《金匱要略》中所載治療歷節(jié)病的名方,清·李彣在《金匱要略廣注》中稱贊桂枝芍藥知母湯:“此一方而數(shù)方俱焉,精義備焉,誠治歷節(jié)病之圣方?!爆F(xiàn)代醫(yī)家臨床也多有報道。該方通陽行痹、祛風逐濕、和營止痛,具有清熱、散寒、通絡、活血、補虛之功效。方用桂枝湯去大棗調(diào)和營衛(wèi)、防風祛風,白術健脾除濕,麻黃宣陽通痹而散寒濕,附子溫經(jīng)助陽、祛寒濕痹以止痛;佐以知母,引諸藥而達病所,合芍藥清熱養(yǎng)陰,利溺散腫。從定向挖掘結果來看,桂枝芍藥知母湯對各證型的RA均可加減運用,值得進一步深入研究。
綜上,結合RA證候要素對現(xiàn)有數(shù)據(jù)庫文獻進行定向文本挖掘,其結果反映了RA臨床研究現(xiàn)狀,是一種新的經(jīng)驗總結方法,它可以快捷、客觀、全面系統(tǒng)地總結RA臨床實踐中的用藥情況與規(guī)律,為臨床醫(yī)生提供客觀參考依據(jù)。同時,挖掘結果所形成的藥物配伍網(wǎng)絡圖,可能形成新的組方,為中醫(yī)臨床用藥及進一步的科研提供思路和參考。另外,本研究方法也為進一步探索中醫(yī)藥治療RA機理,并且對治療其他疾病用藥規(guī)律的探索有一定的啟迪和示范作用。
[1]郭 蕾,張啟明,王永炎,等.證候規(guī)范化研究的思路和方法探討[J].中國中西醫(yī)結合雜志,2006,26(3):258-261.
[2]張志斌,王永炎,呂愛平,等.論證候要素與證候靶點應證組合辨證 [J].中醫(yī)雜志,2006,47(7):483-485.
[3]杜彩鳳,趙 勇,鄒小娟.基于現(xiàn)代文獻的類風濕性關節(jié)炎證候、證候要素分布特點的研究[J].世界中西醫(yī)結合雜志,2011,6(2):161-163.
[4]周仲瑛主編.中醫(yī)內(nèi)科學[M].北京:中國中醫(yī)藥出版社,2009:463-468.
[5]Jeffrey W Seifert(2004)Data mining:An overview.CRS Report RL31798.
[6]Guang Zheng,Miao Jiang,Xiaojuan He,Jing Zhao,Hongtao Guo,Gao Chen,Qinglin Zha,Aiping Lu.Discrete Derivative:A Data Slicing Algorithm for Exploration of Sharing Biological Networks between Rheumatoid Arthritisand CoronaryHeart Disease[J].BioData Mining,2011,4:18 oi:10.1186/1756-0381-4-18.
[7]Nathan Harmston,Wendy Filsell,and Michael P.H.Stumpf.What the papers say:text mining for genomics and systems biology[J].Human Genomics,2010,October:5(1):17-29.
[8]Brigitte Mathiak,and Silke Eckstein(2004)Five steps to text mining in biomedical literature.In Proceedings of the Second European Workshop on DataMiningand TextMiningfor Bioinformatics,held in Conjunction with ECML/PKDD in Pisa,Italy 24:47-50.
[9]Andrea Campagna,Rasmus Pagh(2009)Finding associations and computing similarity via biased pair sampling.2009 Ninth IEEE International Conference on Data Mining:61-70.
[10]Guang Zheng,Miao Jiang,Yusheng Xu,Gao Chen,and Aiping Lu,Discrete Derivative Algorithm of Frequency Analysis in Data Mining for Commonly-existed Biological Networks,CNMT,2010:5-10.
[11]Tari L,Anwar S,Liang S,Cai J,Baral C.Discovering drugdrug interactions:a text-mining and reasoning approach based on properties of drug metabolism[J].Bioinformatics,2010,26(18):1547-1553.
Exploring combing rules of Chinese herbal medicines on rheumatoid arthritis based on syndrome element-directed text mining
WANG Min-zhi1、2,GUO Hong-tao3、2,ZHENG Guang2、4,JIANG Miao2,LV Cheng2,WANG Xing1,YANG Fang5,LV Ai-ping2△
(1.Southwest Jiaotong University,Chengdu,610031;2.China Academy of Chinese Medicine Science,Beijing,100700;3.Shanghai University of T.C.M,Shanghai,201203;4.Lanzhou University,Lanzhou,730000;5.Jiujiang Vocational University,Jiujiang,332000)
Objective:Based on the keywords of patterns in traditional Chinese medicine on rheumatoid arthritis,we applied the syndrome element directed mining algorithm and got the rules of Chinese herbal medicines according to these patterns.Method:The original data set on term“rheumatoid arthritis”was downloaded from SinoMed.Then,the data set was formatted.Based on the keywords of cold,heat,deficiency,and stasis,together with noises taken away manually,we mined the rules of Chinese herbal medicines.Results:Rules of Chinese herbal medicines have significant differences between hot and cold pattern,patterns of deficiency and stasis are similar,another interesting fact is that decoction of guizhi-shaoyao-zhimu is associated with all the syndromes in our mining process.Conclusion:Our approach of patterndirected text mining can get the rules of Chinese herbal medicines.What’s more,the mining results can be taken as references in clinical practices.
rheumatoid arthritis;syndrome element;text mining;Chinese herbal medicine combing
R593.22
A
1006-3250(2012)02-0207-03
“重大新藥創(chuàng)制”科技重大專項(2009ZX09502-019);國家自 然 科 學 基 金 資 助 項 目 (30825047,30902000,81072982,81001676)
王敏智(1987-),男,湖南衡陽人,在讀碩士,從事病證關聯(lián)研究。
△通訊作者:呂愛平,Tel:010-64067611,E-mail:lap64067611@126.com。
2011-08-10