張志華,姜 淼,鄭 光、3,呂 誠,郭洪濤,呂愛平△
(1.鄭州市中醫(yī)院腫瘤血液科,鄭州 450007;2.中國中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所,北京 100700;3.蘭州大學(xué)信息學(xué)院,蘭州 730000)
再生障礙性貧血(aplastic anemia,AA,以下簡稱“再障”)是血液系統(tǒng)中較為常見的難治性疾病,病因尚不明確,主要以骨髓造血功能衰竭、外周血全血細(xì)胞減少為特征,屬中醫(yī)學(xué)“血證”、“血虛”、“虛勞”范疇。中醫(yī)藥配合西藥治療再障為臨床常用方案,中西醫(yī)治療再障的文獻(xiàn)在醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫中已經(jīng)大量存在。本文利用課題組逐漸成熟的文本挖掘技術(shù)[1],探索再生障礙性貧血證藥相應(yīng)規(guī)律。
在中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(Chinese Bio Medical Literature Database,CBM,http:∥sinomed.cintcm.ac.cn/index.jsp)中以“缺省[智能]:”狀態(tài)下檢索“再生障礙性貧血”,共得到文獻(xiàn)6715篇(2011年12月19日檢索),依次下載所有文獻(xiàn)并保存。
將收集來的數(shù)據(jù),按照下載的先后順序整合到一個(gè)平面文件(后綴txt)中,以ANSI編碼格式保存。然后,利用專有的文本提取工具(軟件著作權(quán),軟著登字第0261882號,登記號2010SR073409),對下載的非結(jié)構(gòu)化txt文本數(shù)據(jù)進(jìn)行信息提取,保存成格式化的、便于大型關(guān)系型數(shù)據(jù)庫(Microsoft SQL Server,以下簡稱SQL)處理的格式,然后導(dǎo)入SQL中進(jìn)行下一步的挖掘分析。假設(shè)每篇文獻(xiàn)的貢獻(xiàn)度是相同的,1篇文獻(xiàn)中重復(fù)出現(xiàn)的關(guān)鍵詞只需要計(jì)算1次,據(jù)此構(gòu)建基于敏感關(guān)鍵詞頻數(shù)統(tǒng)計(jì)的數(shù)據(jù)分層算法進(jìn)行數(shù)據(jù)清洗工作[1]。清洗完畢后的數(shù)據(jù),既可以提取挖掘?qū)ο蟮囊痪S頻次,也可以得到挖掘?qū)ο蟮亩S關(guān)系,并進(jìn)行可視化呈現(xiàn)。抽出不同頻次的關(guān)鍵詞對,用Cytoscape 2.8免費(fèi)軟件(http://www.cytoscape.org/)進(jìn)行可視化處理,形成可視化的網(wǎng)絡(luò)圖,然后結(jié)合專業(yè)知識進(jìn)行解析。一旦發(fā)現(xiàn)不合理的結(jié)果,即回溯原文獻(xiàn)數(shù)據(jù)集,如果是噪音,仍按算法進(jìn)行噪音清洗,直至噪音降到滿意為止。最后的結(jié)果可視化成圖,結(jié)合專業(yè)知識進(jìn)行解析。
文本挖掘共提取到45個(gè)證型,選擇前15個(gè)列出(括號內(nèi)為文獻(xiàn)篇數(shù),以下同):腎陽虛(77)、腎陰虛(67)、脾腎陽虛(22)、陰陽兩虛(22)、腎陰陽兩虛(15)、肝腎陰虛(12)、肝血虛(7)、肝血虛證(7)、血虛證(7)、腎陽虛證(6)、氣血兩虛(6)、陽虛證(6)、陰虛證(5)、脾腎虧虛(4)、腎陰虛證(4)。由于構(gòu)建詞表及挖掘詞的包含關(guān)系,出現(xiàn)以上結(jié)果重復(fù)的現(xiàn)象,挖掘詞越短,挖掘到的頻次越高。結(jié)果基本反映了再障證候的特征,腎陽虛、腎陰虛最多,其次為肝陰虛、肝血虛。
進(jìn)而構(gòu)建再障證候兩兩之間網(wǎng)絡(luò)關(guān)系圖(圖1):圖中圓圈內(nèi)為證型名稱,連線代表證候兩兩之間的聯(lián)系。證候的連線愈多,代表該證型與疾病的關(guān)聯(lián)程度越高,越處于核心的位置;圓圈越大,代表該證型在文獻(xiàn)中出現(xiàn)的頻次越高,其權(quán)重越大。
圖1 再生障礙性貧血中醫(yī)證候網(wǎng)絡(luò)圖
文本挖掘共提取到84項(xiàng)證候組合,圖1為所有證候參與構(gòu)建的網(wǎng)絡(luò)圖。圖1顯示,腎陰虛、腎陽虛、陰陽兩虛的圓圈最大,其相應(yīng)的文獻(xiàn)頻次最高。其中腎陽虛-腎陰虛的頻次為61。左側(cè)橢圓外側(cè)為陽虛證候,包括腎陽虛、脾腎陽虛及重復(fù)的證候;右側(cè)橢圓為陰虛證候,包括腎陰虛、肝腎陰虛、心腎陰虛及重復(fù)的證候。兩個(gè)橢圓交匯于陰陽兩虛等證候。綜合來看,再障主要與虛證相關(guān),涉及陰、陽;相關(guān)臟腑以腎為主,涉及心、脾、肝。
文本挖掘再障得到的癥狀,既包含西醫(yī)臨床,也包含中醫(yī)臨床報(bào)告的癥狀。結(jié)果共提取到癥狀92項(xiàng),選擇前15項(xiàng)列出:發(fā)熱(152)、乏力(77)、功能障礙(33)、頭暈(30)、惡心(29)、嘔吐(24)、皰疹(24)、畸形(22)、潰瘍(21)、瘀斑(21)、面色蒼白(20)、納差(17)、頭痛(16)、壓痛(16)、咳嗽(15)?;厮菰墨I(xiàn),發(fā)現(xiàn)其中“功能障礙”為凝血或造血功能障礙;“皰疹”為皰疹病毒,與發(fā)病原因相關(guān);“畸形”大多與先天遺傳相關(guān)性軀體畸形有關(guān);“潰瘍”多與口腔、消化道潰瘍相關(guān);“壓痛”多與胸骨壓痛的陽性或陰性相關(guān),是一項(xiàng)診斷性指標(biāo)。分析以上癥狀可知,再障是一種以發(fā)熱、乏力等消耗性癥狀為主的疾病。
進(jìn)一步文本挖掘共提取到603項(xiàng)癥狀組合,構(gòu)建癥狀網(wǎng)絡(luò)圖如下。
圖2顯示,發(fā)熱、乏力、頭暈(頭昏、頭痛)等為頻次較高的癥狀。其他主要涉及惡心、嘔吐、納差、腹脹、腹痛等消化系統(tǒng)癥狀(橢圓內(nèi)),回溯原文獻(xiàn),發(fā)現(xiàn)消化系統(tǒng)癥狀多為治療再障的副反應(yīng)或者無此癥狀,因此該系統(tǒng)的癥狀大部分應(yīng)視為噪音;循環(huán)系統(tǒng)(左上方框內(nèi))多出現(xiàn)心慌、心悸、胸悶等供血不足的癥狀;出血癥狀(右中方框內(nèi))以瘀斑、咯血、鼻衄、潰瘍等為主;關(guān)節(jié)癥狀(左下方框內(nèi))以關(guān)節(jié)的腫、痛為主,如果出現(xiàn)“(胸骨)壓痛”與本病相關(guān)性大;呼吸系統(tǒng)(右上方框內(nèi))以咽痛為常見癥狀,回溯原文獻(xiàn)發(fā)現(xiàn)咳嗽、咳痰等為少見癥狀;中醫(yī)望診、舌診(右下方框內(nèi))主要表現(xiàn)為面白、顏面(或下肢)浮腫、舌淡、苔膩等。
圖2 再生障礙性貧血癥狀網(wǎng)絡(luò)圖
綜上,再障發(fā)病過程中發(fā)熱、乏力、頭暈為核心癥狀,瘀斑、鼻衄出血、面色蒼白、關(guān)節(jié)疼痛等為常見癥狀。
圖3 再生障礙性貧血中藥網(wǎng)絡(luò)圖
文本挖掘共提取到相關(guān)中藥名稱102個(gè),選擇前15個(gè)排序:皂礬(41)、黃芪(36)、當(dāng)歸(29)、人參(23)、生地黃(23)、熟地黃(16)、阿膠(15)、雷公藤(12)、雞血藤(9)、川芎(9)、菟絲子(9)、薏苡仁(8)、枸杞子(8)、白術(shù)(7)、補(bǔ)骨脂(7)。其中皂礬、雷公藤為異常項(xiàng),回溯原文獻(xiàn)發(fā)現(xiàn),“皂礬”大多為中成藥復(fù)方皂礬丸,很少作為中藥飲片使用;“雷公藤”大多為中成藥雷公藤多苷(甙)片,其應(yīng)用既有治療再障的文獻(xiàn)報(bào)道,又有導(dǎo)致再障的案例報(bào)告,因此雷公藤制劑是把雙刃劍,在使用時(shí)應(yīng)謹(jǐn)慎。通過降噪,再障中藥以黃芪、當(dāng)歸、人參、生(熟)地黃、阿膠、雞血藤等為核心藥物,這些藥物以補(bǔ)氣補(bǔ)血益腎為主。
文本挖掘共提取到中藥組合591項(xiàng),構(gòu)建中藥網(wǎng)絡(luò)圖如下。圖3顯示,黃芪、當(dāng)歸、生(熟)地黃頻次最高,為治療再障的核心藥物,其他阿膠、白術(shù)、枸杞子、菟絲子、女貞子、茯苓次之。挖掘到的藥物按功能區(qū)分:(1)血分藥:補(bǔ)血活血藥(左上橢圓)最多,補(bǔ)血藥以當(dāng)歸、熟地黃、阿膠為核心,活血藥以雞血藤、桃仁、紅花為核心;止血藥(左下橢圓)以仙鶴草、三七、茜草、白茅根、側(cè)柏葉常用;清熱涼血藥(右中橢圓)以生地黃、玄參為常見;(2)補(bǔ)氣藥(下中方框):黃芪、白術(shù)、黨參、太子參為核心,茯苓健脾;(3)補(bǔ)陽藥(右上方框):以菟絲子、補(bǔ)骨脂、鹿角膠為核心;(4)補(bǔ)陰藥:以枸杞子、女貞子、墨旱蓮、黃精為核心。歸納以上用藥,再障的中藥治療以補(bǔ)血補(bǔ)氣為主,補(bǔ)陰補(bǔ)陽為輔,總之以補(bǔ)虛為再障治療的主線。
文本挖掘(Text Mining)技術(shù)是以統(tǒng)計(jì)數(shù)理分析、計(jì)算語言學(xué)為理論基礎(chǔ),服務(wù)于醫(yī)藥、生物、文獻(xiàn)研究等學(xué)科的新興交叉學(xué)科[2]。應(yīng)用于中醫(yī)藥領(lǐng)域,文本挖掘能從海量的中醫(yī)藥文獻(xiàn)中發(fā)現(xiàn)知識,以促進(jìn)中醫(yī)臨床研究和中藥復(fù)方研發(fā)等多個(gè)方面。根據(jù)中醫(yī)理論或?qū)I(yè)知識,計(jì)算機(jī)挖掘中醫(yī)藥文獻(xiàn)庫與生物醫(yī)學(xué)信息庫的非關(guān)聯(lián)知識為中西醫(yī)結(jié)合研究提供了新的思路和途徑,其結(jié)果更加客觀、可重復(fù)性強(qiáng)[3]。
本研究針對從CBM收集到相關(guān)再障的6715篇文獻(xiàn),采用課題組逐漸成熟的文本挖掘技術(shù)[1],結(jié)合回溯原文獻(xiàn),人工閱讀降噪,對再障從證候、癥狀、中藥規(guī)律方面進(jìn)行挖掘,挖掘的結(jié)果既看到它們在文獻(xiàn)中的頻次,又可以發(fā)現(xiàn)它們各自在關(guān)聯(lián)網(wǎng)絡(luò)中的分布規(guī)律。從挖掘的結(jié)果來看,再障是一種主要與虛證相關(guān),涉及陰、陽,相關(guān)臟腑以腎為主,涉及心、脾、肝為主的疾病;其發(fā)病過程中,發(fā)熱、乏力、頭暈為核心癥狀,常見瘀斑、鼻衄出血、面白、關(guān)節(jié)疼痛或浮腫等癥狀;其中藥治療以補(bǔ)虛為核心,包括補(bǔ)血補(bǔ)氣為主,補(bǔ)陰補(bǔ)陽為輔。證候-癥狀-中藥3個(gè)方面互相呼應(yīng)和印證,基本反映了再障這種疾病的證藥相應(yīng)規(guī)律。
文本挖掘的結(jié)果全部參與網(wǎng)絡(luò)關(guān)系圖的構(gòu)建,更加全面地反映了臨床研究的現(xiàn)狀?;厮菰墨I(xiàn)和人工閱讀評價(jià),使得結(jié)果更加客觀。如圖3左下角的金銀花、黃柏、艾葉、苦參、花椒形成1個(gè)小的子網(wǎng)絡(luò),回溯再障數(shù)據(jù)集發(fā)現(xiàn),該文獻(xiàn)是研究者對白血病及再生障礙性貧血伴發(fā)肛周感染患者在全身治療的同時(shí),應(yīng)用該方熏洗肛門局部,治療痔、慢性肛裂、肛周膿腫等感染[4]。一維頻次和二維網(wǎng)絡(luò)圖,從不同角度顯示挖掘?qū)ο笤谖墨I(xiàn)數(shù)據(jù)集中的分布,均有不同的意義。如中藥結(jié)果中,一維頻次中皂礬最高,文獻(xiàn)溯源發(fā)現(xiàn)其大多為復(fù)方皂礬丸;而在二維網(wǎng)絡(luò)中就很低,這是因?yàn)樵淼\很少參與二維網(wǎng)絡(luò)圖的構(gòu)建。因此,通過這種優(yōu)化的文本挖掘組合,能夠比較客觀地總結(jié)中醫(yī)病、證、藥的規(guī)律,也為中醫(yī)客觀化以及中醫(yī)臨床提供有益的參考。
[1]G Zheng,M Jiang,X He,et al.Discrete derivative:a data slicing algorithm for exploration of sharing biological networks between rheumatoid arthritis and coronary heart disease[J].BioData Min,2011,4:18.
[2]薛為民,陸玉昌.文本挖掘技術(shù)研究[J].北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,19(4):59-63.
[3]S Li,ZQ Zhang,LJ WU,et al.Understanding ZHENG in traditional Chinese medicine in the context of neuro-endocrineimmune network[J].IET Syst Biol,2007,1(1):51-60.
[4]祝頌,李長陽.中西醫(yī)結(jié)合治療血液病伴發(fā)肛周感染[J].實(shí)用中西醫(yī)結(jié)合雜志,1997,10(7):657-658.