李夢(mèng)箐,朱友澤,馬 利,胡 芳
(湖北中醫(yī)藥大學(xué)信息工程學(xué)院 武漢 430065)
基于二分圖的疾病與中藥關(guān)聯(lián)性研究*
李夢(mèng)箐,朱友澤,馬 利,胡 芳**
(湖北中醫(yī)藥大學(xué)信息工程學(xué)院 武漢 430065)
目的:本研究基于二分圖對(duì)疾病和中藥之間的關(guān)聯(lián)性進(jìn)行分析,構(gòu)成“疾病-中藥”的復(fù)雜網(wǎng)絡(luò)模型。 方法:首先,根據(jù)每種疾病對(duì)應(yīng)方劑中的中藥分別構(gòu)建疾病數(shù)據(jù)庫(kù)與中藥數(shù)據(jù)庫(kù),計(jì)算出每種疾病和中藥所對(duì)應(yīng)的度數(shù);其次,運(yùn)用Jaccard相似度函數(shù)建立中藥關(guān)聯(lián)性,并根據(jù)中藥關(guān)聯(lián)性推斷出疾病關(guān)聯(lián)性;最后,利用二分圖和復(fù)雜網(wǎng)絡(luò)方法對(duì)疾病與中藥之間的關(guān)系進(jìn)行分析,并用PAJEK軟件進(jìn)行仿真實(shí)驗(yàn)。結(jié)果:得出疾病與中藥、疾病與疾病、中藥與中藥、證候與中藥之間的二分圖關(guān)系。結(jié)論:通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,得出藥物和疾病相關(guān)性結(jié)論,并進(jìn)一步提出在以后研究中采用二叉樹(shù)建立“疾病-中藥”數(shù)據(jù)庫(kù),以便后期對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析。
疾病 方劑 中藥 二分圖 數(shù)據(jù)建模
21世紀(jì)已進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘的重要性日益顯現(xiàn)[1]。在中醫(yī)藥研究領(lǐng)域,很多研究方法都用到了數(shù)據(jù)挖掘。楊銘等[2]將復(fù)雜系統(tǒng)熵網(wǎng)絡(luò)方法應(yīng)用到中醫(yī)腫瘤臨床數(shù)據(jù)中。沈洪等[3]提出了基于數(shù)據(jù)挖掘的潰瘍性結(jié)腸炎核心中藥和配伍分析,林基偉等[4]用數(shù)據(jù)挖掘的方法總結(jié)名老中醫(yī)黃春林治療慢性腎炎的用藥經(jīng)驗(yàn)。將疾病看作方劑組成事務(wù)項(xiàng),并在此基礎(chǔ)上進(jìn)行分類(lèi)、聚類(lèi)、關(guān)聯(lián)等分析,挖掘出的潛在信息對(duì)中醫(yī)藥研究具有非常重要的意義[5]。
二分圖又稱(chēng)作二部圖,是圖論中的一種特殊模型。目前二分圖的應(yīng)用非常廣泛,例如工業(yè)制造、農(nóng)產(chǎn)品生產(chǎn)、航空航天工業(yè)等等,應(yīng)用最廣泛于人際關(guān)系網(wǎng),應(yīng)用二分圖匹配法對(duì)大數(shù)據(jù)集進(jìn)行分析[6]。Cui Y Z等[7]提出了一種在二分圖中發(fā)現(xiàn)重疊社團(tuán)結(jié)構(gòu)的算法,Li K等[8]提出了一種基于模塊度值的二分圖劃分算法。目前,通常有兩種二分圖研究方法,一種是基于原始的二分圖進(jìn)行網(wǎng)絡(luò)分析,一種是投影的方式,將二分圖投影到單層網(wǎng),然后進(jìn)行網(wǎng)絡(luò)分析[9-12]。由于方劑是疾病與中藥之間的橋梁,因此本研究通過(guò)對(duì)方劑中藥構(gòu)成的研究,采用確定性二分圖投影的方式,構(gòu)建疾病與中藥之間關(guān)聯(lián)性的二分圖網(wǎng)絡(luò),并在此基礎(chǔ)上進(jìn)行分析和探討,深入挖掘疾病和中藥之間的潛在聯(lián)系。
1.1 疾病和中藥數(shù)據(jù)
方劑學(xué)運(yùn)用實(shí)驗(yàn)研究的手段,從實(shí)證的角度認(rèn)識(shí)疾病與方劑中藥之間的配伍關(guān)系[13],中醫(yī)辯證治療是中醫(yī)學(xué)的核心,在基礎(chǔ)理論指導(dǎo)下按照中藥配伍原則辯證施治,選擇合適中藥并斟酌用量。方劑共有19種劑型,參照汪氏分類(lèi)法共可以分21類(lèi),具體數(shù)目不確定,因?yàn)楦鶕?jù)不同的中藥加減配伍會(huì)有不同的變化,也就有了不同的方劑。生物谷數(shù)據(jù)中心提供的數(shù)據(jù)表明,方劑數(shù)據(jù)庫(kù)信息列表共有84 449種方劑,所治療的疾病近萬(wàn)種[14]。本研究通過(guò)對(duì)疾病對(duì)應(yīng)方劑中的中藥原始數(shù)據(jù)進(jìn)行整理解決中藥同名異物、同物異名等術(shù)語(yǔ)不規(guī)范問(wèn)題,并構(gòu)建“疾病-中藥”矩陣。本研究的研究數(shù)據(jù)來(lái)源于三大科室(外科、內(nèi)科、皮膚科)中常見(jiàn)的28種疾?。òǜ尾〉南嚓P(guān)數(shù)據(jù))和治療這些疾病所需要的常用185種中藥。
1.2 二分網(wǎng)絡(luò)投影方法介紹
用二分圖G=(X,Y)來(lái)表示一個(gè)二分網(wǎng)絡(luò),其投影方法也分為兩類(lèi):加權(quán)和無(wú)權(quán)投影。例如,對(duì)一類(lèi)節(jié)點(diǎn),比如X類(lèi)節(jié)點(diǎn),無(wú)權(quán)投影的規(guī)則是:如果兩個(gè)X類(lèi)節(jié)點(diǎn)有至少一個(gè)公共的鄰居(Y類(lèi)節(jié)點(diǎn)),那么這兩個(gè)節(jié)點(diǎn)之間有連邊,無(wú)權(quán)投影所得網(wǎng)絡(luò)只能給出一類(lèi)節(jié)點(diǎn)之間是否存在邊(是否合作過(guò)),無(wú)法描述節(jié)點(diǎn)之間的合作強(qiáng)度,也就是說(shuō)無(wú)權(quán)單頂點(diǎn)網(wǎng)絡(luò)無(wú)法給出兩個(gè)同類(lèi)節(jié)點(diǎn)之間的合作強(qiáng)度,造成了信息的丟失,兩類(lèi)二分圖如圖1所示。
圖1可簡(jiǎn)單定義為G(V,E),其中,V、E分別表示點(diǎn)和邊的集合,二分圖亦可以理解為因果圖的一個(gè)特例[15]。二分圖中所有節(jié)點(diǎn)按照各自屬性分為兩類(lèi)節(jié)點(diǎn),本研究中分別是疾病類(lèi)和中藥類(lèi)。權(quán)值不同二分圖也可以分為確定性二分圖和非確定性二分圖兩類(lèi)[16]。根據(jù)對(duì)確定性二分圖的定義,原因與結(jié)果之間因果關(guān)系即疾病與中藥之間的關(guān)系,只有兩種:若為1表示具有必然導(dǎo)致關(guān)系;若為0表示因果沒(méi)有聯(lián)系。
1.3 疾病與中藥的度計(jì)算
圖1 兩類(lèi)二分圖
疾病與中藥的關(guān)聯(lián)性主要根據(jù)中藥之間的關(guān)聯(lián)進(jìn)行連接。由于中醫(yī)和西醫(yī)具有很大的區(qū)別,用中藥治療西醫(yī)分類(lèi)的疾病需要具體看臨床反應(yīng)。如一些病人雖然疾病相同,但是體質(zhì)不同,所需要的中藥也會(huì)有所區(qū)別。本研究重點(diǎn)針對(duì)三大科室(外科、內(nèi)科、皮膚科)中常見(jiàn)的28種疾病所需要的常用185種中藥數(shù)據(jù)進(jìn)行分析,通過(guò)這些中藥去深入挖掘疾病之間的隱性關(guān)聯(lián)性。在數(shù)據(jù)建模過(guò)程中,對(duì)疾病和中藥關(guān)聯(lián)性分析都是建立在無(wú)中藥加減、無(wú)藥引的情況下建立的。疾病的度的計(jì)算是根據(jù)與之關(guān)聯(lián)的中藥多少來(lái)計(jì)算的,例如疾病節(jié)點(diǎn)“痛風(fēng)”與“大川烏、黑豆、全蟲(chóng)、地龍、麝香”等5種中藥關(guān)聯(lián),因此該節(jié)點(diǎn)的度是5;中藥節(jié)點(diǎn)“桔?!迸c“冠心病、偏頭痛、急性肺炎、肩周炎、黃褐斑”等5種疾病關(guān)聯(lián),因此該節(jié)點(diǎn)的度是5,依次方式,分別計(jì)算出28種疾病和185種中藥的度,分別如圖2和3所示。
從圖2可以看出,不同的疾病對(duì)應(yīng)中藥的度相差較大,其中腳氣對(duì)應(yīng)的中藥最多。大多數(shù)疾病對(duì)應(yīng)的中藥數(shù)量集中在8-16之間。
圖2 疾病的度計(jì)算結(jié)果圖
圖3 中藥的度計(jì)算結(jié)果圖
從圖3看出,大多數(shù)的中藥只對(duì)應(yīng)一種疾病,只有少數(shù)幾種常用中藥可以對(duì)應(yīng)多種疾病甚至超過(guò)10種疾病如枳殼、丹參、當(dāng)歸等。
2.1 疾病-中藥關(guān)聯(lián)性二分網(wǎng)絡(luò)圖構(gòu)建思想
由于疾病與中藥之間的關(guān)系,符合構(gòu)建二分圖的構(gòu)建的條件,即疾病之間不連接,中藥之間不連接,疾病與中藥之間連接等特點(diǎn)。因此,為了研究疾病之間及中藥之間的這種潛在的關(guān)聯(lián)性,選擇二分圖投影方法,構(gòu)建疾病-中藥關(guān)聯(lián)性二分網(wǎng)絡(luò)圖。并在此基礎(chǔ)上,深入分析中藥之間及疾病之間的隱形關(guān)聯(lián),雖然疾病節(jié)點(diǎn)之間雖然沒(méi)有直接相連,但通過(guò)中藥節(jié)點(diǎn)之間的聯(lián)系可以建立疾病之間的隱性關(guān)聯(lián)。同理,可以建立中藥之間的隱形關(guān)聯(lián)。在構(gòu)建疾病-中藥關(guān)聯(lián)性二分網(wǎng)絡(luò)圖過(guò)程中,采用無(wú)權(quán)投影方法,即兩個(gè)疾病中至少有一個(gè)中藥相同,則兩個(gè)疾病節(jié)點(diǎn)有連邊。
本研究將西醫(yī)中分類(lèi)的科室和疾病,找到所治療的方劑和包含中藥,挖掘兩者之間潛在關(guān)系,算出閾值。采用二分圖分類(lèi)分析,將疾病和中藥分為兩類(lèi),首先,分別計(jì)算出它們的度,其次,采用基于Jaccard相似度的算法[17]計(jì)算各中藥之間的關(guān)聯(lián)度。Jaccard相似度用來(lái)比較樣本集中的相似性和分散性的一個(gè)概率。在本研究中,其中X、Y表示兩種中藥,|X∩Y|表示X和Y共同方出現(xiàn)的次數(shù),|X∩Y|表示X組方次數(shù)和Y組方次數(shù)之和。Jaccard相似度能夠很好地描述個(gè)體相似性。
2.2 疾病-中藥關(guān)聯(lián)性二分網(wǎng)絡(luò)構(gòu)建步驟
以下是疾病與中藥關(guān)聯(lián)性二分網(wǎng)絡(luò)構(gòu)建步驟:
步驟1:疾病和中藥的關(guān)聯(lián)式性是確定性的,疾病發(fā)生中藥肯定使用,概率為1,所以本研究使用確定性二分圖進(jìn)行研究,該確定性二分圖有3種元素組成:
①疾病發(fā)生源集合T=(t1, t2, ……, tm),T中元素取值為1表示疾病假定發(fā)生,取值為0表示疾病假定未發(fā)生。
②中藥使用集合C=(c1, c2, ……, cn),C中元素取值為1表示相應(yīng)的中藥假定使用,取值為0表示中藥假定未使用。
③按照二分圖定義,疾病集合T=(t1, t2, ……, tm),中藥集合C=(c1, c2, ……, cn),關(guān)系矩陣rij表示疾病和中藥之間的因果關(guān)系。矩陣關(guān)系如下:
c1c2…cnt1r11r12…r1nt2r21r22…r2n……………tmrm1rm2…rmn
m×n的關(guān)系舉證R表示疾病和中藥之間的因果關(guān)系。R中元素rij=1表示疾病ti發(fā)生將導(dǎo)致中藥cj的使用;rij=0表示疾病ti不發(fā)生不會(huì)導(dǎo)致中藥cj的使用。
步驟2:求解T集合中2個(gè)元素關(guān)系,設(shè)關(guān)系值為a,b,c,d:
T2 1 0 T1 1 a b 0 c d
疾病-中藥關(guān)聯(lián)二分網(wǎng)絡(luò)如圖4所示,其中,黃色節(jié)點(diǎn)代表中藥(185個(gè)),綠色節(jié)點(diǎn)代表疾?。?8個(gè)),藍(lán)色直線連接中藥和疾病之間的直接作用關(guān)系。
二分圖中節(jié)點(diǎn)度是指該節(jié)點(diǎn)連邊的數(shù)量,中藥節(jié)點(diǎn)的度表示與其相關(guān)的疾病個(gè)數(shù),疾病節(jié)點(diǎn)的度表示與其相關(guān)的中藥個(gè)數(shù)。從圖4可以看出來(lái),疾病節(jié)點(diǎn)(腳氣)度最大為23,表示該疾病共引用中藥23種,中藥節(jié)點(diǎn)(枳殼)度最大為40。統(tǒng)計(jì)圖4中節(jié)點(diǎn)的度發(fā)現(xiàn),度數(shù)為1的中藥占總數(shù)的64.86%(120/185),度數(shù)為2的占總數(shù)的37.84%(70/185)。說(shuō)明大部分的中藥被引用1次或者2次。只有少數(shù)中藥被引用多次,如枳殼和丹參。
圖5包含185個(gè)節(jié)點(diǎn)(中藥),1 421條邊,其中,有4孤立節(jié)點(diǎn),分別是大川烏、麝香、黑豆、全蟲(chóng)。
圖6包含28個(gè)節(jié)點(diǎn)(疾?。?42條邊,其中,有1孤立節(jié)點(diǎn)“痛風(fēng)”,說(shuō)明此疾病和其他疾病在中藥治療上沒(méi)有任何關(guān)聯(lián)。網(wǎng)絡(luò)的平均度為24.43,說(shuō)明一個(gè)疾病與多個(gè)疾病存在潛在相關(guān)性。
圖4 疾病-中藥關(guān)聯(lián)網(wǎng)絡(luò)示意圖
圖5 185種中藥關(guān)聯(lián)圖
圖6 28種疾病關(guān)聯(lián)圖
圖7 中藥-證候關(guān)聯(lián)網(wǎng)絡(luò)示意圖
證候-中藥關(guān)聯(lián)二分網(wǎng)絡(luò)如圖7所示,其中,和T2之間的簡(jiǎn)化公式:黃色節(jié)點(diǎn)代表中藥(14個(gè)),綠色節(jié)點(diǎn)代表證候(144個(gè)),藍(lán)色直線連接中藥和證候之間的直接作用關(guān)系。
從圖7可以看出來(lái),中藥(大黃)度最大為16,表示該中藥可對(duì)應(yīng)16種證候。統(tǒng)計(jì)圖7中節(jié)點(diǎn)的度發(fā)現(xiàn),度數(shù)為11的中藥占總數(shù)的50%(7/14),度數(shù)為10的占總數(shù)的21. 43%(3/14)。
本研究針對(duì)外科、內(nèi)科和皮膚科的常見(jiàn)疾病和對(duì)癥中藥之間的關(guān)聯(lián)性進(jìn)行研究,構(gòu)建28種疾病和185種中藥的二分圖網(wǎng)絡(luò)模型,歸類(lèi)算出疾病和中藥的節(jié)點(diǎn)度;根據(jù)節(jié)點(diǎn)關(guān)聯(lián)度算出集聚系數(shù),疾病之間通過(guò)中藥的關(guān)聯(lián)進(jìn)行聯(lián)系,計(jì)算出關(guān)聯(lián)度較強(qiáng)的幾種疾病,并對(duì)疾病-中藥關(guān)聯(lián)網(wǎng)絡(luò)圖進(jìn)行深入分析,預(yù)測(cè)或挖掘疾病之前潛在的關(guān)聯(lián)性和中藥之間的關(guān)聯(lián)性。
在未來(lái)的研究工作中,可進(jìn)一步將中藥名進(jìn)行規(guī)范化處理,可以嘗試用二叉樹(shù)來(lái)建立中藥名數(shù)據(jù)庫(kù)。后期如若增加節(jié)點(diǎn),可以在原模型上增刪、擇優(yōu),“疾病-中藥”擴(kuò)展圖上挖掘更多的信息或者進(jìn)行更多的算法研究,可以嘗試中藥社團(tuán)和疾病社團(tuán)劃分,中藥性質(zhì)作用機(jī)制等方面的研究。
1 孟凡紅,萬(wàn)芳,張?jiān)缛A,等.關(guān)于中醫(yī)藥信息化建設(shè)與發(fā)展的思考.世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化, 2011, 13 (3): 461-465.
2 楊銘,焦麗靜,陳佩奇,等.復(fù)雜系統(tǒng)熵網(wǎng)絡(luò)方法及其在中醫(yī)腫瘤臨床數(shù)據(jù)挖掘中的應(yīng)用.世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化, 2012, 14(2): 1376-1383.
3 沈洪,葉柏,張露,朱磊,等.基于數(shù)據(jù)挖掘的潰瘍性結(jié)腸炎核心中藥及配伍分析.世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化, 2013, 15(5): 926-931.
4 林基偉,鄒川,劉旭生.基于數(shù)據(jù)挖掘方法總結(jié)黃春林名老中醫(yī)治療慢性腎炎的用藥經(jīng)驗(yàn).世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化, 2015, 17(2): 382-388.
5 李明,佟琳,張維娜,等.漢唐止痛方劑的復(fù)雜網(wǎng)絡(luò)方法分析.中醫(yī)藥信息, 2012, 29(3): 22-24.
6 Wasseraman S, Faust K. Social Network Analysis: methods and applications. Cambridge:Cambridge University Press. 1994: 188-194.
7 Cui Y Z, Wang X Y. Uncovering overlapping community structures by the key bi-community and intimate degree in bipartite networks. Physica A: Statistical Mechanics and its Applications, 2014, 407: 7-14.
8 Li K, Pang Y. An unified community detection algorithm in complex network. Neurocomputing, 2014, 130: 36-43.
9 BaraAsi A L, Albert R. Emergence of scaling in random networks. Science, 1999, 286(5439): 509-512.
10 Newman M E. Scientific collaboration network.Network construction and fundamental results. Phys Rev E Stat Nonlin Soft Matter Phys, 2001, 64(1 Pt 2): 016131.
11 王進(jìn)良,張鵬,遞增如,等.北京師范大學(xué)圖書(shū)借閱系統(tǒng)的網(wǎng)絡(luò)分析.情報(bào)學(xué)報(bào), 2009, 28(1): 137-141.
12 Lambiotte R, Ausioos M. Uncovering collective listening habits and music genres in bipatite networks. Phys Rev E Stat Nonlin Soft Matter Phys, 2005, 72(6 Pt 2): 066107.
13 何閱,張培培,唐繼英.中藥方劑的合作網(wǎng)絡(luò)描述.科技導(dǎo)報(bào), 2005, 23(11): 36-39.
14 孫正.基于藥物屬性的中藥方劑組網(wǎng)及藥物社團(tuán)發(fā)現(xiàn)研究.南京:南京大學(xué)碩士學(xué)位論文, 2013: 18-29.
15 李楠楠,張寧.圖書(shū)館借閱網(wǎng)的二分圖研究.復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2009, 6(2): 33-39.
16 蔡瑩瑩.基于二分圖的應(yīng)急預(yù)案體系有效性研究. 大連:大連理工大學(xué)碩士學(xué)位論文, 2012: 8-10.
17 劉正.基于MapReduce的中藥數(shù)據(jù)網(wǎng)絡(luò)化及挖掘. 南京:南京大學(xué)碩士學(xué)位論文, 2012: 23-26.
An Association Study on the Correlation Between Diseases and Herbal Medications Based on Bipartite Graph
Li Mengqing, Zhu Youze, Ma Li, Hu Fang
(Information Engineering Institute, Hubei University of Chinese Medicine, Wuhan 430065,China)
Bipartite graph is a special model in the graph theory with the characteristics of clustering andassociativity. In this study, the analysis of the correlation between diseases and herbal medications was performed based on bipartite graph before constructing the “Disease-Herb” complex network model. Firstly, the disease database and herb database were established in which the diseases and their prescriptions were involved. After that, the degrees of diseases and herbs were calculated separately. Secondly, the correlation among herbs was analyzed through the “Jaccard” similarity function, and so was the correlation of diseases. Finally, the correlation between diseases and herbal medications was deduced via the methods of bipartite graph and complex network; and the simulate experiment was implemented by “Pajek” software. As a result, the correlations of diseases and herbal medications, diseases and diseases, herbs and herbs, and syndromes and herbs were obtained. It was concluded that the correlation between diseases and herbal medications can be drove through data analysis. The binary tree method should be reasonably used to establish a “Disease-Herb” database in the future to analyze the correlations conveniently.
Disease, prescription, herb, bipartite graph, data modeling
10.11842/wst.2016.04.004
R283.6
A
(責(zé)任編輯:馬雅靜,責(zé)任譯審:朱黎婷)
2015-09-28
修回日期:2015-10-09
* 2014年湖北中醫(yī)藥大學(xué)校級(jí)教學(xué)研究項(xiàng)目(2014B17):醫(yī)學(xué)信息工程專(zhuān)業(yè)學(xué)生數(shù)據(jù)建模能力培養(yǎng)模式研究,負(fù)責(zé)人:胡芳;2014湖北省教育廳科學(xué)研究計(jì)劃項(xiàng)目(D20152003):基于肝病的中醫(yī)臨床術(shù)語(yǔ)本體構(gòu)建研究,負(fù)責(zé)人:馬利。
** 通訊作者:胡芳,講師,博士,主要研究方向:醫(yī)學(xué)信息學(xué),復(fù)雜網(wǎng)絡(luò)與復(fù)雜系統(tǒng)。