李 彬,欒悉道,王 鑫,李學(xué)勇
(長(zhǎng)沙大學(xué)信息與計(jì)算科學(xué)系,湖南長(zhǎng)沙410022)
近期的實(shí)驗(yàn)發(fā)展,如酵母雙雜交實(shí)驗(yàn)[1]、串聯(lián)親和純化[2]以及質(zhì)譜法[3]已導(dǎo)致經(jīng)產(chǎn)生了許多高質(zhì)量、大規(guī)模的PPI(蛋白質(zhì)相互作用)數(shù)據(jù).這些數(shù)據(jù)對(duì)于識(shí)別蛋白質(zhì)復(fù)合物奠定了基石.蛋白質(zhì)復(fù)合物對(duì)于了解細(xì)胞的功能組織,從而執(zhí)行其生物學(xué)功能具有非常重要的作用.
然而,由于相關(guān)實(shí)驗(yàn)技術(shù)的局限性和蛋白質(zhì)相互作用匹配的動(dòng)態(tài)自然性質(zhì),從這些高通量的生物實(shí)驗(yàn)得到的PPI網(wǎng)絡(luò)中,相當(dāng)一部分相互作用包含假陽性[4].研究[5]表明,經(jīng)過篩選的酵母雙雜交數(shù)據(jù)集中,假陽性相互作用的比例達(dá)到50%.這些實(shí)驗(yàn)數(shù)據(jù)中產(chǎn)生的錯(cuò)誤將對(duì)進(jìn)一步研究PPI網(wǎng)絡(luò)帶來負(fù)面影響.為減少PPI網(wǎng)絡(luò)中的假陽性,現(xiàn)已提出了幾種計(jì)算方法預(yù)測(cè)蛋白質(zhì)間的相互作用.其中大部分方法借助多種生物信息[6,7],有些方法則依靠統(tǒng)計(jì)評(píng)分功能[8,9]來計(jì)算的蛋白質(zhì)系譜概要文件的上下文相似性,采用機(jī)器學(xué)習(xí)技術(shù)[10]預(yù)測(cè)蛋白質(zhì)相互作用網(wǎng)絡(luò)或使用支持向量機(jī)方法[11]構(gòu)建監(jiān)督分類來識(shí)別相互作用的蛋白質(zhì).
為評(píng)估高通量蛋白質(zhì)相互作用的可靠性,現(xiàn)已提出許多計(jì)算方法.一些方法被設(shè)計(jì)用于評(píng)估酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)的整體誤差率[12,13].相互作用數(shù)據(jù)的比較顯得尤為困難,因?yàn)樗麄兺鶃碜圆煌臈l件,呈現(xiàn)出不同的形式.因此,我們采用一些更為復(fù)雜的方法來評(píng)估單個(gè)相互作用的可靠性[14,15].一些基因組信息,如基因??注釋,基因表達(dá)等已被用于該方法中,而另一些僅使用PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu).
盡管這些計(jì)算方法和實(shí)驗(yàn)技術(shù)取得了長(zhǎng)足的進(jìn)步,我們?nèi)圆豢赡軜?gòu)建一個(gè)絕對(duì)可靠的PPI網(wǎng)絡(luò).所以,對(duì)于PPI網(wǎng)絡(luò)的應(yīng)用,如復(fù)合物的識(shí)別、蛋白的功能預(yù)測(cè)、關(guān)鍵蛋白質(zhì)的識(shí)別以及蛋白質(zhì)復(fù)合物的檢測(cè)等,相比評(píng)估可靠性或減少假陽性,允許假陽性的存在顯得更具有必要性和重要性.為了提高預(yù)測(cè)精度,一些算法考慮到PPI網(wǎng)絡(luò)的可靠性,并對(duì)PPI網(wǎng)絡(luò)中的相互作用進(jìn)行加權(quán).例如,CDdistance[16]和 FSWeight[17]兩種加權(quán)方式,權(quán)值根據(jù)相互作用的兩個(gè)蛋白質(zhì)的共同鄰居數(shù)量計(jì)算.他們已被證實(shí)具有較好的性能.即使對(duì)于加權(quán)PPI網(wǎng)絡(luò)上運(yùn)行的這些算法,相互作用的權(quán)重通常代表蛋白質(zhì)相互作用的優(yōu)先級(jí),描述的一個(gè)子圖或者蛋白質(zhì)仍與非加權(quán)網(wǎng)絡(luò)中相同,一些方法引入了加權(quán)度.然而,當(dāng)大量的蛋白質(zhì)相互作用數(shù)據(jù)出現(xiàn)時(shí),這些方法不足以得到令人滿意的結(jié)果.
本文考慮PPI網(wǎng)絡(luò)中相互作用的可靠性,構(gòu)建一個(gè)非確定性的PPI網(wǎng)絡(luò),其中每個(gè)相互的可靠性通過一個(gè)存在概率表示.我們提出了一種改良的蛋白質(zhì)復(fù)合物識(shí)別方法.我們將改良的方法和有代表性的最先進(jìn)的復(fù)合物識(shí)別方法作比較.這些方法包括 MCL[18],CMC[16],COACH[19]和 Cluste rONE[20].實(shí)驗(yàn)結(jié)果表明,我們提出的方法在準(zhǔn)確性和統(tǒng)計(jì)意義上明顯優(yōu)于這些算法.
Gavin[21]等已對(duì)復(fù)合物組織結(jié)構(gòu)做了深入研究.研究結(jié)果顯示,一個(gè)復(fù)合物應(yīng)該由一個(gè)核心組成部分和附件構(gòu)成.核心蛋白質(zhì)是高度共表達(dá)的,每個(gè)附件綁定到核,從而形成具有生物特性的復(fù)合物.因此,本文提出的改良的蛋白質(zhì)復(fù)合物識(shí)別方法基于核-附件的思想.方法主要包括四個(gè)步驟:
(1)計(jì)算PPI網(wǎng)絡(luò)中每組相互作用間的概率及每個(gè)蛋白質(zhì)在其鄰居圖(即某一蛋白質(zhì)的所有鄰接蛋白質(zhì)構(gòu)成的子圖,包括這些蛋白質(zhì)間存在的相互作用)內(nèi)的支持度,所有蛋白質(zhì)根據(jù)支持度降序排列.
對(duì)于任意一組相互作用ei,其相應(yīng)的存在概率計(jì)算如下:
pi=Nic/Nimax其中Nic是相互作用ei的兩個(gè)蛋白質(zhì)共同鄰居數(shù)量,Nimax是兩個(gè)蛋白質(zhì)共同鄰居數(shù)量的最大值.Nimax等于兩個(gè)蛋白質(zhì)度的最小值減1.
蛋白質(zhì)在某一相互作用網(wǎng)絡(luò)內(nèi)的支持度定義為:
給定一個(gè)蛋白質(zhì)相互作用網(wǎng)絡(luò)G=(V,E,P)及蛋白質(zhì)va∈V,其中V={v1,v2,…,vn}是蛋白質(zhì)構(gòu)成的集合,E={e1,e2,…,em}是蛋白質(zhì)相互作用構(gòu)成的集合,P={p(e1),p(e2),…,p(em)}是相互作用對(duì)應(yīng)的概率值.蛋白質(zhì)va在相互作用網(wǎng)絡(luò)G內(nèi)的支持度定義為:,其中|V|是G中蛋白質(zhì)的個(gè)數(shù).
在本步驟中,相互作用網(wǎng)絡(luò)G是某一蛋白質(zhì)及其所有鄰接蛋白質(zhì)構(gòu)成的子圖,包括這些蛋白質(zhì)間存在的相互作用.
所有蛋白質(zhì)在其鄰居圖內(nèi)的支持度的平均值A(chǔ)vg_RD被計(jì)算,作為步驟3中判定附件蛋白質(zhì)能否加入核的閾值.
(2)從第一個(gè)蛋白質(zhì)開始,逐漸增加鄰居蛋白質(zhì)來形成具有高凝聚力和低耦合性的候選核.這一過程對(duì)所有的蛋白質(zhì)不斷重復(fù)直到產(chǎn)生了不重復(fù)的核心集.
該方法中,所有蛋白質(zhì)都享有成為種子的機(jī)會(huì).對(duì)于每一個(gè)選定的種子蛋白質(zhì),初始核僅包括種子蛋白質(zhì).對(duì)于該種子蛋白質(zhì)的鄰接蛋白質(zhì),嘗試將其加入核,若核的稠密度超過設(shè)定的閾值CT,則保留該鄰接蛋白質(zhì),否則,將該鄰接蛋白質(zhì)從候選核中移除.候選核的稠密度為所有相互作用的概率值總和.種子蛋白質(zhì)的所有鄰居蛋白質(zhì)都被訪問之后,就可以形成一個(gè)高內(nèi)聚的候選核,其內(nèi)部各個(gè)蛋白質(zhì)間聯(lián)系比較緊密.
本方法中,每一個(gè)核不僅要求內(nèi)部比較稠密,同時(shí)要求核中蛋白質(zhì)與外部蛋白質(zhì)間的聯(lián)系應(yīng)該比較松散.為此,對(duì)于候選核中的蛋白質(zhì),若某一蛋白質(zhì)與核外其他蛋白質(zhì)的聯(lián)系相比內(nèi)部蛋白質(zhì)間的聯(lián)系更加緊密,則移除該蛋白質(zhì),同時(shí)被標(biāo)記為DISCARD狀態(tài).候選核中所有蛋白質(zhì)均被處理之后所保留的蛋白質(zhì)便形成一個(gè)真正意義上的核.
(3)添加附件蛋白質(zhì)到核形成蛋白質(zhì)復(fù)合物,其中附件蛋白質(zhì)與核的期望支持度大于指定的閾值.
只有步驟2中被標(biāo)記為DISCARD的蛋白質(zhì)才有可能成為附件蛋白質(zhì)被添加到核.
對(duì)于選定的附件蛋白質(zhì),步驟3會(huì)將其與所有核做比較,若附件蛋白質(zhì)在某核內(nèi)的支持度超過步驟1中得到的閾值A(chǔ)vg_RD,則將附件蛋白質(zhì)添加到該核中.
(4)計(jì)算產(chǎn)生的復(fù)合物相互間的重疊率,當(dāng)重疊率超過指定的閾值時(shí),移除那些具有更低的稠密度或者更小尺寸的復(fù)合物.
對(duì)于識(shí)別的兩個(gè)復(fù)合物A和B,兩者的重疊率的計(jì)算公式如下[19]:
本方法中重疊率的閾值設(shè)為0.8[21].
本文數(shù)據(jù)集采用酵母PPI網(wǎng)絡(luò),因?yàn)榻湍窹PI網(wǎng)絡(luò)是所有物種中最完整和可靠的.本文在DIP[22]數(shù)據(jù)集上運(yùn)行本方法和其他四種算法:MCL,CMC,COACH和 ClusterONE.DIP數(shù)據(jù)集發(fā)布日期為2012年8月18號(hào),包含4895個(gè)蛋白質(zhì)和21776組蛋白質(zhì)間的相互作用.為了評(píng)估識(shí)別的蛋白質(zhì)復(fù)合物,本文采用CYC2008作為已知復(fù)合物集,CYC2008包含408個(gè)通過生物方法預(yù)測(cè)得到的復(fù)合物.本文主要從準(zhǔn)確率、召回率和P-Value值分析對(duì)幾種算法進(jìn)行對(duì)比分析.為了公平對(duì)比,在運(yùn)行其他四種算法時(shí),相應(yīng)的參數(shù)均按照作者的建議設(shè)定為最優(yōu)值.本次實(shí)驗(yàn)設(shè)定CT=0.05.
為評(píng)估識(shí)別方法有效性,將從酵母蛋白質(zhì)網(wǎng)絡(luò)中識(shí)別出來的復(fù)合物與已知復(fù)合物進(jìn)行比較分析.算法識(shí)別出來的復(fù)合物與已知復(fù)合物的匹配程度OS根據(jù)公式(1)計(jì)算得到.
對(duì)于已知復(fù)合物數(shù)據(jù)集中的復(fù)合物KC,若識(shí)別出的復(fù)合物PC與之匹配程度OS(PC,KC)超過給定閾值,則稱該已知復(fù)合物被標(biāo)識(shí),一般地,該閾值設(shè)置為0.2[19].
算法的準(zhǔn)確率(Precision)和召回率(Recall)是用來評(píng)估復(fù)合物識(shí)別方法的兩個(gè)重要指標(biāo).準(zhǔn)確率是指識(shí)別的復(fù)合物中被標(biāo)識(shí)的數(shù)量與識(shí)別的復(fù)合物總量的比值;召回率是指已知復(fù)合物中被標(biāo)識(shí)的復(fù)合物數(shù)量與已知復(fù)合物總數(shù)的比值.
綜合準(zhǔn)確率和召回率兩個(gè)方面,提出了F-Score,它是準(zhǔn)確率和召回率的調(diào)和平均值,計(jì)算公式如(2)所示
表1給出了各種方法識(shí)別的復(fù)合物的基本信息.其中,Number表示各種識(shí)別的復(fù)合物總數(shù),MKC是指識(shí)別的復(fù)合物中被標(biāo)識(shí)的復(fù)合物數(shù)量,MPC是指已知復(fù)合物中被標(biāo)識(shí)的復(fù)合物數(shù)量,PerfectNumber是完美匹配的復(fù)合物數(shù)量,即OS=1.
表1 各方法識(shí)別的復(fù)合物基本信息
從表1可見,本文提出的方法識(shí)別的復(fù)合物中被標(biāo)識(shí)的數(shù)量及完美匹配數(shù)量均居榜首.本方法與COACH方法均能使已知復(fù)合物中被標(biāo)識(shí)的復(fù)合物數(shù)量達(dá)到最大值(221).對(duì)比識(shí)別的復(fù)合物總數(shù),COACH方法和MCL方法識(shí)別的復(fù)合物總數(shù)均超過本方法.這說明我們的方法具有更高的效率.
圖1顯示各種方法在DIP數(shù)據(jù)集中識(shí)別的復(fù)合物計(jì)算的Precision、Recall和F-Score對(duì)比分析.
圖1 各方法的結(jié)果對(duì)比分析
圖1顯示,在DIP數(shù)據(jù)集中,我們的方法能得到最高的準(zhǔn)確率、召回率和F-sccore值,這是我們的方法識(shí)別的復(fù)合物具有最高的MKC和MPC,而識(shí)別的復(fù)合物總數(shù)并非最多.我們方法的F-Score值分別比COACH、MCL、CMC和ClusterONE 提高了 23.59%,42.31%,53.09%和 92.88%.
本文采用GO功能富集分析評(píng)價(jià)識(shí)別的復(fù)合物的統(tǒng)計(jì)和生物特性.GO注釋是一種非常有效的評(píng)估蛋白質(zhì)相互作用可靠性的資源.GO::TermFinder是一個(gè)軟件模塊集合,決定共享的一組基因的統(tǒng)計(jì)學(xué)顯著特性.為了確定是否任意的GO條目能以一種超過偶然機(jī)會(huì)的頻率注釋特定領(lǐng)域的基因列表,GO::TermFinder通過一種超幾何分布計(jì)算P-value值.如果P-value越小,越接近0,則說明復(fù)合物能夠隨機(jī)出現(xiàn)這種功能的概率就越低,當(dāng)然可能更有生物學(xué)意義.同一個(gè)復(fù)合物內(nèi)的蛋白質(zhì)通常具有相同或相似的功能.一般將P-value的最小值對(duì)應(yīng)的功能作為該復(fù)合物的主要功能.通過給每個(gè)識(shí)別的復(fù)合物賦予其P-value最小時(shí)對(duì)應(yīng)的功能,可以識(shí)別未知蛋白質(zhì)的功能.一般地,若一個(gè)復(fù)合物的P-value<0.01,則認(rèn)為這個(gè)復(fù)合物是顯著的.研究指出,顯著的復(fù)合物數(shù)量在識(shí)別的復(fù)合物總數(shù)中所占的比例可以用于評(píng)價(jià)各個(gè)算法的整體性能.另外,P-score值也是另外一種有效的評(píng)價(jià)手段,其定義如下所示:
表2顯示各種方法在DIP數(shù)據(jù)集上識(shí)別的復(fù)合物的顯著性統(tǒng)計(jì)信息.
表2 各方法預(yù)測(cè)的復(fù)合物的顯著性統(tǒng)計(jì)信息
其中,#PM表示算法識(shí)別的復(fù)合物總數(shù),#SC表示顯著的復(fù)合物數(shù)量,即P-value<0.01的復(fù)合物數(shù)量.表2顯示,我們的方法識(shí)別的復(fù)合物具有最高的顯著性復(fù)合物比例和最大的P-score值.我們方法的 P-score值相比 COACH、CMC、ClusterONE 和 MCL,分別提高了25.15%、45.11%、26.09%和77.82%.這說明我們的方法識(shí)別的復(fù)合物具有最強(qiáng)生物統(tǒng)計(jì)意義.
從表2中,我們還可以發(fā)現(xiàn)一個(gè)有趣的事實(shí):CMC方法的Proportion高于COACH和ClusterONE方法,然而,CMC的P-score確低于 COACH和 ClusterONE.原因在于,雖然COACH和ClusterONE識(shí)別的復(fù)合物中顯著性復(fù)合物的比例不如CMC,但是兩種方法得到的顯著性復(fù)合物具有更小的P-value值.
表3 方法識(shí)別的復(fù)合物的實(shí)例
表3是識(shí)別的復(fù)合物實(shí)例.OS表示復(fù)合物匹配率,#SC表示正確匹配的蛋白質(zhì)個(gè)數(shù),第四列列舉了組成復(fù)合物的所有蛋白質(zhì),其中,加粗部分表示被匹配的蛋白質(zhì).
步驟(2)中,為了對(duì)候選核進(jìn)行篩選,本文引入自定義參數(shù)CT描述子圖的稠密度.圖2顯示了CT取不同值,F(xiàn)-score變化情況.
從圖2可以看出,當(dāng)CT=0.1時(shí),算法得到最高的FScore值.綜合考慮完全匹配的復(fù)合物數(shù)量和F-Score值,本文設(shè)定 CT=0.05.
圖2 參數(shù)CT的影響
基于蛋白質(zhì)間的相互作用存在不可靠性,本文構(gòu)建一個(gè)非確定蛋白質(zhì)相互作用網(wǎng)絡(luò),相互作用的可靠性通過概率值表示,從而盡量消除假陽性或者降低假陽性帶來的負(fù)面.提出了一種改良的蛋白質(zhì)復(fù)合物識(shí)別方法.通過準(zhǔn)確率、召回率和P-value幾個(gè)方面對(duì)比分析改良的方法和幾種經(jīng)典的復(fù)合物識(shí)別方法.實(shí)驗(yàn)結(jié)果表明,提出的改良方法具有更高的預(yù)測(cè)準(zhǔn)確率,算法識(shí)別的復(fù)合物具有更強(qiáng)的生物統(tǒng)計(jì)特性.
[1]Ito T,Chiba T,Ozawa R,et al.A comprehensive two-h(huán)ybrid analysis to explore the yeast protein interactome[J].PNAS,2001,(8):4569-4574.
[2]Rigaut G,Shevchenko A,Rutz B,et al.A generic protein purification method for protein complex characterization and proteome exploration[J].Nature Biotechnology,1999,(10):1030-1032.
[3]Ho Y,Gruhler A,Heilbut A,et al.Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry[J].Nature,2002,(6868):180-183.
[4]Mrowka R,Patzak A,Herzel H.Is there a bias in proteome research?[J].Genome research,2001,(12):1971-1973.
[5]Mering C V,Krause R,Snel B,et al.Comparative assessment of large-scale data sets of protein-protein interactions[J].Nature,2002,(6887):399-403.
[6]Tsoka S,Ouzounis C A.Prediction of protein interactions:metabolic enzymes are frequently involved in gene fusion[J].Nature Genetics,2000,(2):141-142.
[7]Wojcik J,Schchter V.Protein– protein interaction map inference using interacting domain profile pairs[J].Bioinformatics,2001,(1):296-305.
[8]Yamada T,Kanehisa M,Goto S.Extraction of phylogenetic network modules from the metabolic network[J].BMC Bioinformatics,2006,(1):130.
[9]Wu J,Kasif S,DeLisi C.Identification of functional links between genes using phylogenetic profiles[J].Bioinformatics,2003,(12):1524-1530.
[10]Albert I,Albert R.Identification of functional links between genes using phylogenetic profiles[J].Bioinformatics,2004,(12):3346-3352.
[11]Lo S,Cai C,Chen Y,et al.Effect of training datasets on support vector machine prediction of protein ‐ protein interactions[J].Proteomics,2005,(4):876-884.
[12]Deane C M,Salwiński L,Xenarios I,et al.:Protein interactions two methods for assessment of the reliability of high throughput observations[J].Molecular& Cellular Proteomics,2002,(5):349-356.
[13]D'haeseleer P,Church G M.Estimating and improving protein interaction error rates[A].Proceedings of Computational Systems Bioinformatics Conference[C].IEEE,2004:216-223.
[14]Gilchrist M A,Salter L A,Wagner A.A statistical framework for combining and interpreting proteomic datasets[J].Bioinformatics,2004,(5):689-700.
[15]Mering V C,Krause R,Snel B,et al.Comparative assessment of large-scale data sets of protein– protein interactions[J].Nature,2002,(6887):399-403.
[16]Liu G,Wong L,Chua H N.Complex discovery from weighted PPI networks[J].Bioinformatics,2009,(15):1891-1897.
[17]Chua H N,Sung W K,Wong L.Exploiting indirect neighbours and topological weight to predict protein function from protein–protein interactions[J].Bioinformatics,2006,(3):1623-1630.
[18]Enright A J,Dongen S V,Ouzounis C A.An efficient algorithm for large-scale detection of protein families[J].Nucleic Acids Research,2002,(7):1575-1584.
[19]Wu M,Li X,.Chee-Keong K,et al.A core-attachment based method to detect protein complexes in ppi networks[J].BMC Bioinformatics,2009,(1):169.
[20]Nepusz T,Yu H,Paccanaro A.Detecting overlapping protein complexes in protein-protein interaction networks[J].Nature Methods,2012,(5):471-475.
[21]Gavin A,Aloy P,Grandi P,et al.Proteome survey reveals modularity of the yeast cell machinery[J].Nature,2006,(7084):631-636.
[22]Xenarios I,Salwinski L,Duan X J,et al.DIP,the database of interacting proteins:A research tool for studying cellular networks of protein interactions[J].Nucleic acids research,2002,(1):303-305.