馬 猛 汪 洋 汝 穎 王澤鋒*
1(北卡羅來納大學教堂山分校藥理學系,教堂山27599-7365,美國)
2(安徽大學計算機科學技術(shù)學院,合肥 230039)
3(安徽省立醫(yī)院內(nèi)分泌科,合肥 230001)
RNA剪接調(diào)控元件在RNA剪接過程中起著重要的調(diào)控作用,正確識別RNA剪接調(diào)控元件對深刻理解RNA剪接過程、認識人基因組生物復雜性具有重要意義。目前已有數(shù)種不同的計算[1-3]和生物[4]方法可用來識別外顯子中的RNA剪接元件,這些方法雖具有較低的假陽性率,但其假陰性率難以確定,所以不排除還有部分剪接元件未被識別,如何發(fā)現(xiàn)這些未被識別的剪接元件是個有趣的問題,序列分類方法可被用于分析解決該問題。
目前已有多種分類方法被用于各種生物序列數(shù)據(jù)的分析:決策樹[5-6]、神經(jīng)網(wǎng)絡[7]、支持向量機[8-9]、樸素貝葉斯[10]、隱馬爾可夫模型[11]、k-近鄰法[12]、PSSM[13]等。本研究設(shè)計了一個新的基于序列特征的分類方法,并將該方法用于剪接調(diào)控元件的分析。外顯子剪接增強子(ESE)和沉默子(ESS)是兩類重要的基因剪接調(diào)控元件,針對已知ESE和ESS八聯(lián)體,該方法首先從已知剪接元件中抽取序列特征,查找未知元件滿足的序列特征,計算未知元件的剪接分值,最后對未知元件的剪接功能進行預測,該方法不僅可以給出預測結(jié)果,還可以給出預測依據(jù),即元件中包含的序列特征以及共享這些序列特征的已知剪接元件,透明的預測結(jié)構(gòu)利于進行生物解釋。該方法也可以被用于分析其他類型的生物序列數(shù)據(jù),如蛋白質(zhì)序列數(shù)據(jù)等。
將基于八聯(lián)體剪接調(diào)控元件構(gòu)建分類器。數(shù)據(jù)來源于文獻[2],其中包含2060個 ESE、1016個ESS,每個剪接元件都是一個含有八個核苷酸的順序序列,如表1所示的 ESE八聯(lián)體數(shù)據(jù),每行分別表示從第一位到第八位的核苷酸。
表1 ESE八聯(lián)體數(shù)據(jù)Tab.1 Trusted ESE 8mers
具有相似剪接功能且為同類剪接因子識別的RNA剪接元件往往表現(xiàn)出類似的序列特征,而具有不同剪接功能的剪接元件則表現(xiàn)出較大差異的序列特征,這提示剪接元件中的序列特征含有豐富的分類信息,可用來分類剪接元件、預測未知元件的剪接功能。
下面將以ESE八聯(lián)體數(shù)據(jù)為例介紹如何從剪接元件中抽取序列特征。為了便于形式化描述,參考關(guān)聯(lián)規(guī)則挖掘[14-15],給出剪接元件序列特征挖掘的相關(guān)定義。
定義1.項目集I
項目ip,n表示在八聯(lián)體的第 p個位置出現(xiàn)了核苷酸n。項目集I共包含32個項目。
定義2.包含k個項目的I的非空子集稱為 k項集。任何一個八聯(lián)體o都是滿足如下約束的八項集:
例如表示 ESE八聯(lián)體 aaaaagga的 8項集是{i1,a,i2,a,i3,a,i4,a,i5,g,i6,a,i7,g,i8,a},可簡寫為 i1ai2ai3ai4ai5gi6ai7gi8a。
定義3.對 ESE八聯(lián)體數(shù)據(jù)集 DESE和項集 is,DESE中包含項集 is的八聯(lián)體數(shù)目記為 ris,則定義 is在DESE中支持度如下:
式中,|DESE|表示數(shù)據(jù)集 DESE中包含的八聯(lián)體個數(shù)。
定義4.對DESE和項集is,給定最小支持度閾值minsup,如果supportDESE(is)≥minsup,則稱is為頻繁項集,在文中也將其稱為序列特征,如果 is中包含k個項目,則稱is為頻繁k項集或k項序列特征。這些序列特征可看作是ESE或ESS的保守模式,當一個元件中包含這些序列特征時,則它具有較大概率可以表現(xiàn)出ESE或ESS功能,但有時,即使包含這些保守模式,元件也沒有表現(xiàn)出某種剪接調(diào)控功能,為了解釋這個問題,引入擴展序列特征。
不同類別RNA剪接元件具有不同的序列特征,序列特征支持度的大小可理解為該序列特征對剪接功能類別標記作用的強弱。例如ESE序列特征i1ti2ti3t的支持度為 12.01%,而 i1ai2ai3a的支持度為5.02%,則稱i1ti2ti3t對ESE剪接類別的標記作用強于i1ai2ai3a。
序列特征指出了在八聯(lián)體中的某些特定位置上出現(xiàn)的核苷酸,這些特定位置稱為該序列特征的保守位置,其余的稱為靈活位置,那么靈活位置上核苷酸的出現(xiàn)頻率是否有差異呢?下面我們以ESE序列特征i1ti2ti3t為例,從 DESE中統(tǒng)計該序列特征的靈活位置(4、5、6、7、8)上 4 種核苷酸的出現(xiàn)頻率結(jié)果如表2所示。
表2 在 i1ti2ti3t的靈活位置(4,5,6,7,8)上核苷酸的出現(xiàn)頻率(%)Tab.2 The nucleotide frequencies(%)in the flexible positions of i1ti2ti3t
如果靈活位置上的核苷酸與元件的剪接調(diào)控功能無關(guān),則該位置上的核苷酸分布應該是隨機的,即每種核苷酸出現(xiàn)頻率期望值應該為25%,但從表2中可以看到,4種核苷酸在i1ti2ti3t的靈活位置上的分布表現(xiàn)出明顯差異,例如在位置7,核苷酸 t的頻率為57.38%,而c的頻率只有6.56%,這提示序列特征靈活位置上核苷酸的分布也包含有豐富的分類信息可以利用。所以對一個八聯(lián)體,不僅要考察它是否滿足序列特征,還要考察它在靈活位置上出現(xiàn)的核苷酸以及相應的概率。
基于以上觀察,下面將給出擴展序列特征的相關(guān)定義。
定義5.ESE序列特征sf包含m個保守位置、k個靈活位置,可采用類似正則表達式的形式,將該序列特征靈活位置上的核苷酸分布信息與該序列特征連接,得到擴展序列特征esf,例如ESE序列特征i1ti2ti3t的擴展序列特征為:
i1ti2ti3t[a:28.69、c:18.85、g:9.84、t:42.62][a:27.87、c:18.03、g:9.84、t:44.26][a:28.69、c:11.48、g:7.38、t:52.46][a:26.23、c:6.56、g:9.84、t:57.38][a:27.87、c:7.38、g:11.48、t:53.28]
定義6.定義擴展序列特征esf與序列特征sf具有相同支持度,即:
如果某八聯(lián)體o包含序列特征sf的所有項目,則稱o滿足序列特征sf及其擴展esf。
定義7.給定八聯(lián)體o及包含m個保守位置k個靈活位置的 ESE擴展序列特征 esf,如果 o滿足esf,則o滿足esf的概率計算如下:
其中,{pf1,pf2,…,pfk}為 esf的靈活位置集合,esf靈活位置上核苷酸出現(xiàn)頻率保存在數(shù)列FP中,oi表示八聯(lián)體o第 i個位置上出現(xiàn)的核苷酸,F(xiàn)Pi,oi表示核苷酸oi在靈活位置i上的出現(xiàn)頻率。
在得到ESE和ESS的擴展序列特征之后,可將未知元件與不同類別的擴展序列特征進行比較以來推斷該元件的剪接功能。如果一個元件滿足某個剪接功能類別的特征,則可解釋為該元件具有表現(xiàn)出此類剪接功能的潛在能力,但實驗中,發(fā)現(xiàn)很多元件同時滿足多個不同剪接功能類別的特征,此時該如何判斷該元件的剪接功能呢?解決該問題的基本想法是判斷在該元件滿足的特征中,哪種類別的特征更強,然后依此推斷該元件更傾向表現(xiàn)出的剪接功能?;谠撍枷?,下一節(jié)引入剪接分值的概念,由此來推斷未知元件的剪接功能。
本節(jié)中,將基于元件中蘊含的擴展序列特征,計算元件的剪接分值,推測其剪接功能強弱。
定義8.給定ESE八聯(lián)體數(shù)據(jù)集DESE,八聯(lián)體o所滿足的全部ESE擴展序列特征記為ESEF(o),則o的ESE剪接分值計算如下:
ESE剪接分值的計算考慮到了八聯(lián)體o滿足的序列特征數(shù)、序列特征的支持度和序列特征靈活位置上核苷酸分布的差異。八聯(lián)體 o的ESE剪接分值越高,則表現(xiàn)出ESE剪接功能的概率越大。類似的方法可計算出ESS剪接分值。
下一節(jié)將介紹傾向指數(shù)的概念用于預測未知元件的剪接功能。
目前已有多種計算或生物的方法被用來識別RNA剪接元件,這些方法雖然都具有較低的假陽性率,但不排除還有剪接元件未被發(fā)現(xiàn),本研究利用剪接分值將ESE和ESS分成兩簇,而對于那些落于ESE或ESS簇內(nèi)的未知八聯(lián)體,說明該元件包含ESE或ESS的序列特征,有理由懷疑它們具有某種程度的ESE或者ESS的剪接功能。本節(jié)將介紹如何基于剪接分值預測未知八聯(lián)體的剪接功能
首先定義傾向指數(shù)。對八聯(lián)體 o,計算得到ESE和ESS剪接分值,則o的傾向指數(shù)為
o傾向指數(shù) TR的變化范圍是[-1,+1],如果TR是個正小數(shù),則提示八聯(lián)體 o傾向表現(xiàn)為 ESE剪接功能,如果TR是個負數(shù),則提示八聯(lián)體o傾向表現(xiàn)為ESS剪接功能。
采用的2060個ESE和1016個ESS八聯(lián)體實驗數(shù)據(jù)來自文獻[2]。ESE和ESS中的序列特征挖掘類似關(guān)聯(lián)規(guī)則分析中的頻繁項集挖掘。Agrawal等于1993年提出關(guān)聯(lián)規(guī)則挖掘問題[15],并設(shè)計出Apriori算法以解決該問題[14]。產(chǎn)生頻繁項集是Apriori算法的核心步驟。將基于 Apriori算法從剪接元件數(shù)據(jù)中挖掘出全部序列特征。定義最小支持度閾值為5%,對ESE八聯(lián)體數(shù)據(jù)集而言,任何支持度計數(shù)大于103(2060×0.05)的項集都認為是ESE序列特征,最后挖掘得2375個ESE序列特征。將該方法應用于 ESS八聯(lián)體數(shù)據(jù)集,得到1515個ESS序列特征。由于不同長度的序列特征是重疊的,例如i1ti2ti3t與 i1ti2t重疊,所以,僅基于長度為 2的序列特征計算已知元件的ESE和ESS剪接分值。如果某八聯(lián)體剪接分值小于10-7,則定義其剪接分值為10-7。圖1是對數(shù)刻度下已知八聯(lián)體的 ESE和ESS剪接分值分布圖。如圖1所示,98%的可信ESE八聯(lián)體的ESE剪接分值大于10-7,94.5%的可信ESS八聯(lián)體的ESS剪接分值大于10-7,從圖1剪接分值的分布可以看到,ESE和 ESS被清晰分開,剪接分值顯示出了良好的剪接元件分類能力。
圖1 已知八聯(lián)體ESE和ESS剪接分值分布Fig.1 Splicing score distribution for known ESE and ESS octamers
計算所有ESE和ESS的TR指數(shù),并分區(qū)統(tǒng)計分布,結(jié)果見圖2。從圖2可以看出,95.5%的 ESE的TR指數(shù)大于0.6,85.5%的 ESS的TR指數(shù)小于-0.6,這表明TR指數(shù)對ESE和ESS有明確的標記功能。根據(jù)以上結(jié)果,可以構(gòu)建一個簡單的分類器如下:基于可信的ESE和ESS八聯(lián)體,對任一未知八聯(lián)體o,計算其TR指數(shù)。這里采取一個較寬松的閾值0.5,如果 TR>0.5,則預測 o傾向表現(xiàn)為 ESE剪接功能;如果 TR<-0.5,則預測 o傾向表現(xiàn)為ESS剪接功能;否則,難以斷定o的剪接功能。為了驗證該分類器的有效性,獲得對分類錯誤率的可靠估計,采用了3種方法進行驗證實驗。
圖2 ESE和ESS的TR指數(shù)統(tǒng)計直方圖Fig.2 Histogram ofTR forESE and ESS octamers
1)將ESE和ESS八聯(lián)體數(shù)據(jù)集混合,在混合數(shù)據(jù)集上采用留一法進行樣本類別預測,即從數(shù)據(jù)集上每次保留一個不同的八聯(lián)體作為測試樣本,其余作為訓練樣本,然后基于訓練樣本構(gòu)建分類器,對測試樣本進行類別預測,重復該過程,直到所有ESE和ESS都被作為一次測試樣本為止。
2)從ESE和ESS數(shù)據(jù)集中分別隨機抽取20%的數(shù)據(jù)作為測試集,有615個樣本,其余作為訓練集,基于訓練集構(gòu)建分類器,對測試集中的每個樣本進行類別預測,該過程稱為獨立測試實驗。
3)將混合數(shù)據(jù)集分成10個子集,其中的9個子集,每個子集有307個八聯(lián)體,包含206個 ESE和101個ESS,第10個子集包含206個 ESE和107個ESS。選擇一個子集作為測試集,其余作為訓練集,重復該過程,直到所有的子集均被用作一次測試集。這個過程稱為分層十折交叉驗證實驗。每個子集上錯誤分類數(shù)之和為實驗總的錯誤分類數(shù)。
還采取了另外3種方法對ESE和ESS的實驗數(shù)據(jù)進行了上述驗證實驗:k-近鄰[16]、決策樹[17]和樸素貝葉斯方法[18],實驗結(jié)果見表3。從實驗結(jié)果來看,k-近鄰方法的預測精度最高,在留一法、獨立測試和分層十折交叉驗證實驗中,預測精度均高于97%,其次是本方法,3個驗證實驗的預測精度都在93%左右,樸素貝葉斯方法預測精度最低。這3個驗證實驗說明本方法具有較好的預測精度和健壯性。從基于元件距離進行預測的角度來看,本方法與k-近鄰法具有相似的預測思想,即相似者具有相似功能。這里k-近鄰方法采用的是海明距離來度量元件間的距離,而本方法采用的是序列特征,將元件中包含的不同功能的序列特征的多少和強弱量化為剪接分值,來預測元件功能。利用本方法對未知元件的剪接功能進行預測時,不僅可以給出預測結(jié)果,還可以給出預測的依據(jù),即該元件中包含的序列特征和共享該特征的已知剪接元件,這有助于對未知元件的剪接功能進行生物解釋。
表3 本方法與k近鄰,決策樹和樸素貝葉斯方法的實驗結(jié)果比較Tab.3 Comparision of the experiment results of the k-nearest neighour,decision treee,naive Bayes and the method of this paper
圖3 PESE和PESS的剪接分值的統(tǒng)計直方圖。(a)PESE的 ESEscore的統(tǒng)計直方圖;(b)PESS的ESSscore的統(tǒng)計直方圖Fig.3 Histogram for the splicing score of PESE and PESS.(a)Histogram for ESEscore of PESE;(b)Histogram for ESSscore of PESS
基于已知的ESE和ESS八聯(lián)體,利用本方法計算所有未知八聯(lián)體的傾向指數(shù),從圖2中,可以看到TR對ESE和ESS具有明確的標記功能,但在預測未知元件的剪接功能時,單獨使用 TR也有不足。例如,一個未知元件具有高TR值,但是其ESEscore卻較低,則其高 TR值的出現(xiàn)可能僅是由于其ESSscore更低造成的,因此,為了更準確地預測元件剪接功能,可以將TR值和剪接分值聯(lián)合作為預測的依據(jù)。圖3a和3b分別是 PESE的 ESEscore和PESS的ESSscore的統(tǒng)計直方圖,從圖中可以看出,超過 50%的 PESE的 ESEscore大于 0.002,超過50%的PESS的 ESSscore大于0.004。利用復合條件(TR>0.9 and ESEscore>0.002)和(TR<-0.9 and ESSscore>0.004)去預測高置信度的未知調(diào)控元件ESE和ESS,共獲得555個新ESE和519個新ESS。表4和表5給出了部分預測結(jié)果。表4給出了部分具有高傾向指數(shù)和ESEscore的未知八聯(lián)體,預測其具有ESE剪接功能,表5給出了部分具有低傾向指數(shù)和高ESSscore的未知八聯(lián)體,預測其具有ESS剪接功能。本方法基于序列特征,計算未知元件的剪接分值,度量未知元件與已知元件的距離,從而預測未知元件的剪接功能,同時本方法具有透明的預測結(jié)構(gòu),還可以給出預測的依據(jù),例如表4中,未知元件ccggagga的ESE剪接分值較高,而ESS剪接分值較低,則說明該元件更接近已知ESE,遠離已知ESS,表現(xiàn)出較高的傾向指數(shù),并且該元件包含多個ESE序列特征,與該未知元件具有相同序列特征的ESE八聯(lián)體有ccggaggt和ccggacct等,這些都提供了預測未知元件剪接功能的生物依據(jù)。另外,比較表4和表5中所列出的部分ESE和ESS序列特征可以發(fā)現(xiàn),ESE和ESS序列特征明顯不同,從根本上來說,這種ESE和ESS序列特征的差異是由 ESE和ESS元件單核苷酸堿基成分構(gòu)成的差異造成的。
表4 預測的具有ESE功能的未知八聯(lián)體Tab.4 Unkonwn octamers predicted with ESE function
表5 預測的具有ESS功能的未知八聯(lián)體Tab.5 Unkonwn octamers predicted with ESS function
上面實驗說明了本方法分類識別剪接元件的有效性,但采用該方法進行分析時,其結(jié)果也會受其他因素的影響,這里考察不同的數(shù)據(jù)集規(guī)模以及采用不同的最小支持度時對數(shù)據(jù)分析結(jié)果的影響。
首先考察數(shù)據(jù)集規(guī)模對分析結(jié)果的影響。產(chǎn)生4對隨機八聯(lián)體數(shù)據(jù)集,仿照文中采用的ESS和ESE比例,每對數(shù)據(jù)集的規(guī)模比為1∶2,4對數(shù)據(jù)集規(guī)模分別為 (50∶100、150∶300、250∶500、750∶1500)。利用本方法求出這4對數(shù)據(jù)集的分值,分布結(jié)果如圖4所示。由圖4可以看出,隨著數(shù)據(jù)集規(guī)模不斷增大,其數(shù)據(jù)分類效果逐漸變差,究其原因,當兩隨機數(shù)據(jù)集規(guī)模較小時,其包含的序列特征差異較大,可以很容易將其分開,隨著數(shù)據(jù)集規(guī)模增大,其共享的相似序列特征增多,兩數(shù)據(jù)集的分值空間分布出現(xiàn)較大重疊,難以分開。從圖4(d)可以看出,當隨機數(shù)據(jù)集規(guī)模上千時,其分值空間分布幾乎完全重疊,相較于圖1,已知ESE和ESS清晰分開,這說明ESE和ESS包含著顯著差異的序列特征。
采用不同的最小支持度,對同一序列數(shù)據(jù)計算所得的剪接分值不同,為了考察最小支持度對剪接分值計算的影響,這里本研究分別采用了四個不同的最小支持度:1%、4%、7%和10%,針對采用的ESE和ESS數(shù)據(jù),計算剪接分值,空間分布結(jié)果如圖5所示。由圖5可以看出,當支持度取1%時,ESE和ESS清晰地聚為兩簇,隨著支持度增大,兩簇逐漸發(fā)散,重疊區(qū)域增加,分類精度下降。當取較小支持度時,雖然數(shù)據(jù)分類效果較好,但易出現(xiàn)數(shù)據(jù)過擬合,為了獲得較好的分類精度,同時避免數(shù)據(jù)過擬合問題,本研究采用了最小支持度5%。
圖4 不同數(shù)據(jù)規(guī)模的隨機八聯(lián)體數(shù)據(jù)集對剪接分值分布。(a)分別包含50和100個元件的兩隨機數(shù)據(jù)集;(b)分別包含150和300個元件的兩隨機數(shù)據(jù)集;(c)分別包含250和500個元件的兩隨機數(shù)據(jù)集;(d)分別包含750和1500個元件的兩隨機數(shù)據(jù)集Fig.4 Splicing score distribution for random octamers datasets with different scale.(a)Ttwo random datasets respectively including 50 and 100 elements;(b)Two random datasetsrespectively including 150 and 300 elements;(c)Two random datasetsrespectively including 250 and 500 elements;(d)Two random datasets respectively including 750 and 1500 elements
圖5 基于不同的最小支持度時,已知ESE和ESS剪接分值分布。(a)基于最小支持度1%,已知ESE和 ESS剪接分值分布;(b)基于最小支持度4%,已知 ESE和ESS剪接分值分布;(c)基于最小支持度7%,已知 ESE和ESS剪接分值分布;(d)基于最小支持度10%,已知ESE和ESS剪接分值分布Fig.5 Splicing score distribution for the known ESE and ESS based on the different minsup.(a)Splicing score distribution for the known ESE and ESS based on minusp 1%;(b)Splicing score distribution for the known ESE and ESS based on minusp 4%;(c)Splicing score distribution for the known ESE and ESS based on minusp 7%;(d)Splicing score distribution for the known ESE and ESS based on minusp 10%
本方法也可被用于其他生物問題的研究。例如,SNP或突變對RNA剪接的影響。當某剪接元件內(nèi)發(fā)生突變時,則該元件的剪接功能很可能會受到影響,或者增強,或者減弱,利用本方法,通過計算突變前后相應元件的剪接分值,可對突變的剪接影響進行定量分析。目前正在進行相關(guān)工作。
RNA選擇性剪接是導致人基因組生物復雜性的重要因素,與癌癥、心血管疾病等發(fā)生密切相關(guān)。RNA剪接元件在RNA剪接過程中起著重要的調(diào)控作用,正確識別RNA剪接元件對深刻理解RNA剪接過程有著重要作用。本研究提供了一種基于已知剪接元件中的序列特征,計算未知元件的剪接分值,預測其剪接功能的方法,該方法簡捷,具有良好的數(shù)理基礎(chǔ),計算驗證實驗結(jié)果表明,所提出的預測未知元件剪接功能的方法是可行的和有效的。
[1]Fairbrother WG,Yeh RF,Sharp PA,etal. Predictive identification of exonic splicing enhancers in human genes[J].Science,2002,297(5583):1007-1013.
[2]Zhang XH,Chasin LA.Computational definition of sequence motifs governing constitutive exon splicing[J]. Genes &Development,2004,18(11):1241 - 1250.
[3]Goren A.,Ram O,AmitM,etal. Comparativeanalysis identifies exonic splicing regulatory sequences--The complex definition of enhancers and silencers[J].Molecular Cell,2006,22(6):769-781.
[4]Wang Zefeng,Rolish ME,Yeo G,etal. Systematic identification and analysis of exonic splicing silencers[J].Cell,2004,119(6):831 -845.
[5]Arikawa S,Miyano S,Shinohara A,et al.A machine discovery from amino acid sequences by decision trees over regular patterns[J].New Generation Computing,1993,11(3):361 -375.
[6]Chuzhanova NA,Jones AJ,Margetts S.Feature selection for genetic sequence classification[J].Bioinformatics,1998,14(2):139-143.
[7]Blekas K,F(xiàn)otiadis D,Likas A.Motif-based protein sequence classification using neural networks[J]. Journal of Computational Biology,2005,12(1):64 -82.
[8]Ratsch G,Sonnenburg S Schafer C.Learning Interpretable SVMs for BiologicalSequence Classification[J]. BMC Bioinformatics,2006,7(Suppl 1):S9.
[9]Leslie C,Kuang R.Fast string kernels using inexact matching for protein sequences[J].The Journal of Machine Learning Research,2004,5:1435 -1455.
[10]Sandberg R,Winberg G,Branden CI,et al.Capturing wholegenome characteristics in short sequences using a naive Bayesianclassifier[J].Genome Research,2001,11(8):1404 - 1409.
[11]Baldi P,Chauvin Y,Hunkapiller T,et al.Hidden Markov models of biological primary sequence information[J].Proceedings of the National Academy of Sciences of the United States of America,1994,91(3):1059 -1063.
[12]Li Haiquan,Dai Xinbin,Zhao Xuechun.A nearest neighbor approach for automated transporter prediction and categorization from protein sequences[J].Bioinformatics,2008,24(9):1129-1136.
[13]Wrzodek C,Schroder A,Drager A,et al.ModuleMaster:A new tool to decipher transcriptional regulatory networks.Biosystems,2010,99(1):79-81.
[14]Agrawal R,Srikant R.Fast algorithms for mining association rules[C] //Proceedings of 20thInternatinal Conference Cery Large Data Bases,VLDB.San Francisco:Morgan Kaufmann Publishers Inc,1994:487-499.
[15]Agrawal R,Imieli ski T,Swami A.Mining association rules between sets of items in large databases[C].Proceedings of the 1993 ACM Conference.Washington DC:ACM,1993:1-10.
[16]Aha DW,Kibler D,and Albert MK,Instance-based learning algorithms[J].Machine Learning,1991,6(1):37 - 66.
[17]Quinlan JR.C4.5:Programs for Machine Learning[M].SanMateo:Morgan Kaufmann Publishers,1993.
[18]John GH,Langley P.Estimating continuous distributions in Bayesian classifiers[C]// Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence.San Mateo:Citesser,1995,1:338 -345.