趙碧海 李學(xué)勇 胡 賽 張 帆 田清龍 楊品紅 劉 臻
由于蛋白質(zhì)在不同生物過程中扮演重要角色,注釋功能未知的蛋白質(zhì)是后基因時(shí)代的重要任務(wù)之一.生物實(shí)驗(yàn)確定蛋白質(zhì)功能存在耗時(shí)多和費(fèi)用高的問題[1].因此,基于計(jì)算的功能預(yù)測(cè)成為非常重要的替代方法.然而,這種方法需要準(zhǔn)確而可靠的自動(dòng)功能預(yù)測(cè)器.現(xiàn)有的基于計(jì)算的功能預(yù)測(cè)方法都是建立在數(shù)據(jù)庫中已經(jīng)注釋的蛋白質(zhì)的功能之上.雖然相互作用數(shù)據(jù)、序列數(shù)據(jù)和蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)等都已用于蛋白質(zhì)功能預(yù)測(cè)算法,但是設(shè)計(jì)一種有效的方法充分利用各種不同的生物信息依然是一個(gè)巨大的挑戰(zhàn),源于這些生物數(shù)據(jù)的異構(gòu)性、復(fù)雜性和多樣性.根據(jù)整合這些不同數(shù)據(jù)源的方式不同,這些基于計(jì)算的預(yù)測(cè)方法可以分為四類:基于多特征向量方法、基于多分類器方法、基于核的方法和基于網(wǎng)絡(luò)的方法.網(wǎng)絡(luò)是一種很好的描述蛋白質(zhì)之間關(guān)系的途徑,而且大量基于網(wǎng)絡(luò)的方法為我們提供了有效的工具從網(wǎng)絡(luò)中挖掘信息,這也有助于我們理解細(xì)胞生命活性物的復(fù)雜機(jī)制.
大部分基于網(wǎng)絡(luò)的蛋白質(zhì)功能預(yù)測(cè)方法都是從蛋白質(zhì)相互作用(Protein-protein interaction,PPI)網(wǎng)絡(luò)提取信息.這些方法都建立在一個(gè)發(fā)現(xiàn)的基礎(chǔ)上:大約70%~80%的蛋白質(zhì)與它們?cè)赑PI網(wǎng)絡(luò)的相互作用伙伴至少共享一項(xiàng)功能[2].一些方法通過PPI網(wǎng)絡(luò)中的直接或間接鄰居節(jié)點(diǎn)預(yù)測(cè)未注釋的蛋白質(zhì)功能.上述的這些方法獨(dú)立地為每一個(gè)蛋白質(zhì)預(yù)測(cè)功能.還有一些方法將PPI網(wǎng)絡(luò)中的蛋白質(zhì)分成多個(gè)功能模塊,并為相同的模塊注釋相同的功能[3].這類方法聚類形成模塊或復(fù)合物的方式存在差異.由于相互作用數(shù)據(jù)中存在假陽性和假陰性,一些研究者結(jié)合相互作用網(wǎng)絡(luò)和異構(gòu)生物數(shù)據(jù),提高功能預(yù)測(cè)的準(zhǔn)確率,例如基因表達(dá)數(shù)據(jù)[4]、同源數(shù)據(jù)[5]、蛋白質(zhì)復(fù)合物數(shù)據(jù)[6]、結(jié)構(gòu)域數(shù)據(jù)[7]等.
另一種流行的基于網(wǎng)絡(luò)并利用生物信息資源的方法是基于GO term的功能相似性建立功能關(guān)聯(lián)網(wǎng)絡(luò).蛋白質(zhì)功能描述為結(jié)構(gòu)化的標(biāo)準(zhǔn)詞匯,并存儲(chǔ)在基因本體數(shù)據(jù)庫.GO term之間的父親–孩子關(guān)系可以表達(dá)為有向無環(huán)圖.考慮到兩個(gè)相似的功能共同注釋一個(gè)共同的蛋白質(zhì)以及兩個(gè)相互作用的蛋白質(zhì)傾向于共享同一功能,一些研究者結(jié)合PPI網(wǎng)絡(luò)和功能相似性,從而提高功能預(yù)測(cè)的準(zhǔn)確率.由于PPI網(wǎng)絡(luò)的不完整性,其他的異構(gòu)數(shù)據(jù)也被整合進(jìn)來.Peng等[8]結(jié)合PPI網(wǎng)絡(luò)和Domain信息,利用蛋白質(zhì)的功能相似性,提出名為DCS的蛋白質(zhì)功能預(yù)測(cè)方法.進(jìn)一步,加入蛋白質(zhì)復(fù)合物信息,提出了改進(jìn)的DSCP方法.大部分整合異構(gòu)數(shù)據(jù)的方法基本采取如下思路:1)生成各種功能相關(guān)網(wǎng)絡(luò)(每一個(gè)數(shù)據(jù)源對(duì)應(yīng)一個(gè)或多個(gè)網(wǎng)絡(luò));2)這些單獨(dú)的網(wǎng)絡(luò)通過加權(quán)匯總的方式形成一個(gè)復(fù)合網(wǎng)絡(luò).這些方法的區(qū)別在于單個(gè)網(wǎng)絡(luò)形成復(fù)合網(wǎng)絡(luò)時(shí),不同方法權(quán)值比例和優(yōu)化方式存在差異.
綜上所述,整合多元生物數(shù)據(jù)能夠有效彌補(bǔ)相互作用網(wǎng)絡(luò)不完整性和噪聲的問題,提高基于網(wǎng)絡(luò)的蛋白質(zhì)功能預(yù)測(cè)方法的準(zhǔn)確率.但是,引入其他生物信息后,使得蛋白質(zhì)之間的聯(lián)系更加復(fù)雜,更加多元化.現(xiàn)有的方法基本都采取合并多種類型的相互作用的處理方式,這雖然能夠一定程度增加正確匹配的功能數(shù)量,但也會(huì)同時(shí)引入更多的噪聲功能,最終使得整體預(yù)測(cè)性能提升不大.上述提及的某些方法先構(gòu)建多種功能關(guān)聯(lián)網(wǎng)絡(luò),然后再采取加權(quán)匯總的方式將多個(gè)單獨(dú)網(wǎng)絡(luò)構(gòu)成一個(gè)復(fù)合網(wǎng)絡(luò).不同網(wǎng)絡(luò)在加權(quán)匯總時(shí)的比重各不相同,而每個(gè)網(wǎng)絡(luò)的比重參數(shù)成為影響功能預(yù)測(cè)方法的重要因素.參數(shù)的設(shè)置一般會(huì)根據(jù)經(jīng)驗(yàn)值設(shè)置.即便是通過優(yōu)化的方式獲取,也存在不同數(shù)據(jù)集有不同設(shè)置的問題.從這些問題出發(fā),本文在原有研究基礎(chǔ)之上,結(jié)合PPI網(wǎng)絡(luò)、蛋白質(zhì)復(fù)合物數(shù)據(jù)和蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)建立多關(guān)系網(wǎng)絡(luò).考慮到蛋白質(zhì)功能與模塊之間的緊密聯(lián)系,提出一種基于多關(guān)系網(wǎng)絡(luò)中關(guān)鍵功能模塊挖掘的蛋白質(zhì)功能預(yù)測(cè)方法(Prediction of functions based on essential functional modules mining from a multi-relational network,PEFM).蛋白質(zhì)的功能不是由單個(gè)蛋白質(zhì)獨(dú)立完成,而是與其他蛋白質(zhì)相互作用共同執(zhí)行機(jī)體功能,蛋白質(zhì)功能與功能模塊之間存在緊密聯(lián)系.關(guān)鍵功能模塊是指相互間緊密聯(lián)系的蛋白質(zhì)組成的功能模塊或復(fù)合物.移除關(guān)鍵功能模塊會(huì)使得生物體喪失許多重要分子功能.因此,通過挖掘關(guān)鍵功能模塊有助于提高蛋白質(zhì)功能預(yù)測(cè)算法的準(zhǔn)確率.PEFM方法依次遍歷多關(guān)系網(wǎng)絡(luò)分解得到的每一個(gè)簡單網(wǎng)絡(luò),挖掘高內(nèi)聚、低耦合的稠密子圖形成不同網(wǎng)絡(luò)層次的關(guān)鍵功能模塊集合.模塊中節(jié)點(diǎn)的全部功能用于注釋測(cè)試蛋白質(zhì).多個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果驗(yàn)證了PEFM算法的有效性.
細(xì)胞功能不是由單個(gè)蛋白質(zhì)完成,而是通過多個(gè)緊密聯(lián)系的蛋白質(zhì)構(gòu)成模塊,共同執(zhí)行.蛋白質(zhì)功能與模塊之間存在緊密聯(lián)系,模塊劃分為蛋白質(zhì)功能預(yù)測(cè)提供了途徑.本文通過聚類,形成高內(nèi)聚、低耦合的功能模塊,進(jìn)而實(shí)現(xiàn)蛋白質(zhì)功能預(yù)測(cè).
受實(shí)驗(yàn)條件限制,高通量方法獲得的蛋白質(zhì)相互作用數(shù)據(jù)具有不完整性,限制了蛋白質(zhì)功能預(yù)測(cè)算法的性能.結(jié)合多元的生物信息和蛋白質(zhì)相互作用網(wǎng)絡(luò),降低相互作用數(shù)據(jù)的實(shí)驗(yàn)錯(cuò)誤帶來的負(fù)面影響,是當(dāng)今基于相互作用網(wǎng)絡(luò)的功能預(yù)測(cè)算法的發(fā)展趨勢(shì).多元異構(gòu)數(shù)據(jù)包括基于時(shí)間序列的基因表達(dá)信息、蛋白質(zhì)結(jié)構(gòu)域信息、復(fù)合物信息、亞細(xì)胞定位信息等.在原有研究基礎(chǔ)之上,本文結(jié)合蛋白質(zhì)相互作用網(wǎng)絡(luò)的拓?fù)涮匦?、蛋白質(zhì)結(jié)構(gòu)域信息和蛋白質(zhì)復(fù)合物信息構(gòu)建適合功能預(yù)測(cè)的多關(guān)系網(wǎng)絡(luò)[7].相比之前構(gòu)建的研究基礎(chǔ),本文在建立多關(guān)系網(wǎng)絡(luò)時(shí),增加了蛋白質(zhì)復(fù)合物數(shù)據(jù).由于實(shí)驗(yàn)方法獲得的蛋白質(zhì)相互作用數(shù)據(jù)和結(jié)構(gòu)域數(shù)據(jù)存在假陰性,存在某些蛋白質(zhì)執(zhí)行共同功能,卻沒有在前期構(gòu)建的網(wǎng)絡(luò)中體現(xiàn)的情況.通過融入復(fù)合物數(shù)據(jù),能夠?yàn)楦嗟牡鞍踪|(zhì)預(yù)測(cè)功能.
蛋白質(zhì)結(jié)構(gòu)域是分子的一個(gè)特別區(qū)域,具有獨(dú)立的功能.有的蛋白質(zhì)僅僅包含一個(gè)結(jié)構(gòu)域,有的蛋白質(zhì)可能包含多個(gè)不同類型的結(jié)構(gòu)域.一個(gè)結(jié)構(gòu)域也可能出現(xiàn)在多個(gè)不同的蛋白質(zhì)當(dāng)中.蛋白質(zhì)的新功能常常利用結(jié)構(gòu)域重組完成.蛋白質(zhì)執(zhí)行生物功能離不開結(jié)構(gòu)域,由此可見,蛋白質(zhì)功能與結(jié)構(gòu)域之間存在緊密的聯(lián)系.學(xué)者們開始嘗試?yán)媒Y(jié)構(gòu)域信息,提高功能預(yù)測(cè)算法的準(zhǔn)確率.
本文首先針對(duì)蛋白質(zhì)結(jié)構(gòu)域信息與蛋白質(zhì)功能之間的關(guān)聯(lián)開展統(tǒng)計(jì)分析.本次實(shí)驗(yàn)選定的蛋白質(zhì)相互作用網(wǎng)絡(luò)包含5093個(gè)蛋白質(zhì),其中具有功能注釋的蛋白質(zhì)數(shù)量是2894,至少包含1個(gè)結(jié)構(gòu)域的蛋白質(zhì)數(shù)量是3056,既有功能注釋又有包含結(jié)構(gòu)域的蛋白質(zhì)數(shù)量為1887個(gè),如圖1所示.從圖1不難看出,具有結(jié)構(gòu)域的蛋白質(zhì)中,61.75%的蛋白質(zhì)至少具有1項(xiàng)功能;2894個(gè)被注釋的蛋白質(zhì)中,有65.2%的蛋白質(zhì)包含結(jié)構(gòu)域.
圖1 結(jié)構(gòu)域與蛋白質(zhì)功能關(guān)系綜合統(tǒng)計(jì)Fig.1 Statistics of relationship between domains and protein functions
進(jìn)一步地,本文統(tǒng)計(jì)分析2894個(gè)功能已知的蛋白質(zhì)之間共享功能和共享結(jié)構(gòu)域的情況,其中42%的蛋白質(zhì)與其他蛋白質(zhì)共享功能的同時(shí)還共享相同的結(jié)構(gòu)域.表1詳細(xì)列出了蛋白質(zhì)功能數(shù)量分布與共享結(jié)構(gòu)域之間的關(guān)系.
表1 蛋白質(zhì)功能數(shù)量統(tǒng)計(jì)Table 1 Quantity statistics of protein functions
從表1不難看出,1512個(gè)蛋白質(zhì)僅有1項(xiàng)功能,其中34.59%的蛋白質(zhì)與其他蛋白質(zhì)共享功能的同時(shí)還共享結(jié)構(gòu)域.而當(dāng)功能數(shù)量增多時(shí),共享結(jié)構(gòu)域的蛋白質(zhì)比例明顯增高.由此可見,蛋白質(zhì)間共享結(jié)構(gòu)域的特性有助于提升蛋白質(zhì)功能預(yù)測(cè)性能,尤其適用于功能數(shù)量較多的蛋白質(zhì).
本文構(gòu)建的多關(guān)系網(wǎng)絡(luò)中,蛋白質(zhì)之間相互作用的第一種類型為共享結(jié)構(gòu)域.為提高預(yù)測(cè)的性能,我們依據(jù)上述的統(tǒng)計(jì)分析結(jié)論對(duì)該種類型的相互作用加權(quán).統(tǒng)計(jì)表明,兩個(gè)蛋白質(zhì)包含相同結(jié)構(gòu)域的比例越高,它們之間存在聯(lián)系的可能性越大.本文提出的PEFM算法中,若兩個(gè)蛋白質(zhì)包含共同類型的結(jié)構(gòu)域,則它們之間存在相互作用.相互作用的權(quán)值通過共同結(jié)構(gòu)域的數(shù)量所占比重刻畫,加權(quán)計(jì)算方式如下:
其中,W(vi,vj)表示蛋白質(zhì)vi和vj共享結(jié)構(gòu)域的可能性.Di和Dj分別表示蛋白質(zhì)vi和vj的不同類型結(jié)構(gòu)域構(gòu)成的集合,Di∩Dj是兩個(gè)蛋白質(zhì)相同結(jié)構(gòu)域類型構(gòu)成的集合.若Di或Dj為空集,則權(quán)值簡單地設(shè)置為0.
蛋白質(zhì)復(fù)合物由多個(gè)緊密聯(lián)系的蛋白質(zhì)組成,并共同執(zhí)行某些生物功能.很多蛋白質(zhì)只有聚合成復(fù)合物,并與其他蛋白質(zhì)相互作用才能體現(xiàn)出某種功能,由此可見,蛋白質(zhì)復(fù)合物與功能之間存在緊密聯(lián)系.圖2顯示了蛋白質(zhì)功能數(shù)量與共享蛋白質(zhì)復(fù)合物之間的關(guān)系.
圖2 蛋白質(zhì)功能與共享復(fù)合物統(tǒng)計(jì)分析Fig.2 Statistics of relationship between proteincomplexes and functions
從圖2可以看出,對(duì)于僅包含1項(xiàng)功能的蛋白質(zhì),30%左右的蛋白質(zhì)與其他有功能注釋的蛋白質(zhì)包含在相同的復(fù)合物中.隨著功能數(shù)量的增多,這個(gè)比例明顯增高.包含12項(xiàng)功能的蛋白質(zhì)僅1個(gè),此時(shí)比例為0,可以認(rèn)為是偶然事件.兩個(gè)蛋白質(zhì)共享相同的復(fù)合物是本文構(gòu)建的多關(guān)系網(wǎng)絡(luò)中的第二種類型.這種類型的相互作用加權(quán)類似于第一種類型.
對(duì)于網(wǎng)絡(luò)中的兩個(gè)蛋白質(zhì)vi和vj,Ci和Cj分別表示包含vi和vj的復(fù)合物組成的集合,共享復(fù)合物的相互作用加權(quán)計(jì)算方式如下所示:
其中,Ci∩Cj表示同時(shí)包含vi和vj的復(fù)合物形成的集合.若vi或vj沒有出現(xiàn)在任何復(fù)合物中,則W(vi,vj)=0.
多關(guān)系網(wǎng)絡(luò)中的最后一種類型來源于相互作用網(wǎng)絡(luò)拓?fù)涮匦缘姆治?眾所周知,蛋白質(zhì)相互作用網(wǎng)絡(luò)具有小世界特性和稀疏性,且存在假陽性.如果兩個(gè)蛋白質(zhì)都同時(shí)與第三個(gè)蛋白質(zhì)發(fā)生相互作用,則這兩個(gè)蛋白質(zhì)間相互作用假陽性的可能性比較小,共同參與模塊執(zhí)行相同功能的可能性比較大.因此,一對(duì)蛋白質(zhì)之間相互作用的概率可以通過他們共有的鄰居節(jié)點(diǎn)數(shù)量確定.本文采用ECC計(jì)算蛋白質(zhì)之間連接的權(quán)值.計(jì)算公式如下:
其中,Ni和Nj分別表示vi和vj的鄰居集合.圖3是本文結(jié)合PPI網(wǎng)絡(luò)拓?fù)涮匦?、蛋白質(zhì)結(jié)構(gòu)域信息和復(fù)合物信息構(gòu)建的多關(guān)系網(wǎng)絡(luò)的可視化展示.
圖3中,第一層表示蛋白質(zhì)間因?yàn)殡`屬同一復(fù)合物而發(fā)生相互作用,第二層表示蛋白質(zhì)間因?yàn)榘餐慕Y(jié)構(gòu)域而相互作用,第三層則是在相互作用網(wǎng)絡(luò)的基礎(chǔ)上,通過拓?fù)涮卣鞣治鼋?圖中虛線將各層相同的蛋白質(zhì)相連,也就是說三層包含相同的蛋白質(zhì)集合,不同的是蛋白質(zhì)間的相互作用.
細(xì)胞的功能是由多個(gè)緊密聯(lián)系的蛋白質(zhì)通過形成功能模塊執(zhí)行.Zotenko等提出關(guān)鍵復(fù)合物生物模塊(Essential complex biological modules,ECOBIMs)[9],它是一組緊密聯(lián)系且共享生物功能的蛋白質(zhì)組成.Nepusz等[10]指出,子圖能夠表示為復(fù)合物應(yīng)該滿足兩點(diǎn):1)子圖內(nèi)包含許多可靠的相互作用;2)子圖能夠與網(wǎng)絡(luò)的剩余部分很好地區(qū)分.受此啟發(fā),考慮到蛋白質(zhì)功能與模塊之間的緊密聯(lián)系,本文通過從多關(guān)系網(wǎng)絡(luò)中挖掘關(guān)鍵功能模塊,實(shí)現(xiàn)蛋白質(zhì)功能預(yù)測(cè).在介紹關(guān)鍵功能模塊挖掘算法前,先簡要介紹算法所涉及的幾個(gè)定義.
圖3 多關(guān)系網(wǎng)絡(luò)可視化顯示Fig.3 Visualization of a multi-relationship network
定義1.加權(quán)度(Weighted degree,WD).給定加權(quán)網(wǎng)絡(luò)G=(V,E,W),節(jié)點(diǎn)u∈V,V={v1,v2,···,vn},E={e1,e2,···,em},W={w(e1),w(e2),···,w(em)},w(ei)表示邊ei的權(quán)值.WD(u,G)表示u在G內(nèi)的加權(quán)度,定義如下:
加權(quán)度描述了節(jié)點(diǎn)與子圖之間的耦合程度.加權(quán)度越大,節(jié)點(diǎn)與子圖內(nèi)節(jié)點(diǎn)之間的聯(lián)系越緊密.本文采用加權(quán)度描述子圖與網(wǎng)絡(luò)剩余部分的區(qū)分度.
定義2.加權(quán)稠密度(Weighted density degree,WDD).給定加權(quán)子網(wǎng)絡(luò)G=(V,E,W),V={v1,v2,···,vn},E={e1,e2,···,em},W={w(e1),w(e2),···,w(em)},w(ei)表示邊ei的權(quán)值.WDD(G)表示子網(wǎng)G內(nèi)的加權(quán)稠密度,定義如下:
加權(quán)稠密度用以描述子圖內(nèi)部節(jié)點(diǎn)之間的連接緊密程度.本文通過加權(quán)稠密度衡量子圖能否表示為高內(nèi)聚的功能模塊.
在PEFM方法中,若子圖的加權(quán)稠密度超過給定閾值,且內(nèi)部節(jié)點(diǎn)與子圖的加權(quán)度大于節(jié)點(diǎn)與鄰居子圖的加權(quán)度,則該子圖可以表示為一個(gè)高內(nèi)聚、低耦合的關(guān)鍵功能模塊.鄰居子圖由子圖內(nèi)部節(jié)點(diǎn)的鄰居節(jié)點(diǎn)組成,并且這些鄰居節(jié)點(diǎn)不出現(xiàn)在子圖內(nèi).
關(guān)鍵功能模塊挖掘的基本思路是:對(duì)于待注釋功能的蛋白質(zhì)v,PEFM算法每次遍歷同種類型的相互作用,從而得到不同類型相互作用對(duì)應(yīng)的關(guān)鍵功能模塊.本文中,從v出發(fā),通過3次遍歷,最多可以得到3個(gè)關(guān)鍵生物模塊.每次遍歷時(shí),v的鄰居節(jié)點(diǎn)根據(jù)與v的連接緊密程度從大到小的順序進(jìn)入隊(duì)列.初始的關(guān)鍵功能模塊集合S={v},算法依次從隊(duì)列中取出一個(gè)鄰居節(jié)點(diǎn)并嘗試加入集合S,若加入鄰居節(jié)點(diǎn)后,S對(duì)應(yīng)的子圖加權(quán)稠密度超過設(shè)定的閾值T,則保留該節(jié)點(diǎn),否則將鄰居節(jié)點(diǎn)從S中移除,得到一個(gè)高內(nèi)聚的稠密功能模塊.考慮到模塊中某些節(jié)點(diǎn)可能與外部子圖存在更加緊密的聯(lián)系,需要對(duì)子圖S做進(jìn)一步的篩選.NS是由S中所有節(jié)點(diǎn)的鄰居節(jié)點(diǎn)形成的子圖,若S中某一節(jié)點(diǎn)u在NS中加權(quán)度超過其在S中的加權(quán)度,則從S中移除u.若S的尺寸超過2個(gè),則形成一個(gè)高內(nèi)聚、低耦合的關(guān)鍵功能模塊.我們通過一個(gè)實(shí)例描述算法在某一網(wǎng)絡(luò)中關(guān)鍵功能模塊的挖掘過程.如圖4所示,A節(jié)點(diǎn)為待注釋功能的測(cè)試蛋白質(zhì),加權(quán)稠密度閾值T=0.2.首先將A的鄰居節(jié)點(diǎn)根據(jù)連接緊密程度依次放入隊(duì)列Q={C,B,D,E},初始關(guān)鍵功能模塊集合S={A}.依次從隊(duì)列Q中取出節(jié)點(diǎn)嘗試放入S中,并計(jì)算S的加權(quán)稠密度.依次將C,B,D,E放入S中后,得到的關(guān)鍵功能模塊集合分別是{A,C},{A,C,B},{A,C,B,D}和{A,C,B,D,E},對(duì)應(yīng)的加權(quán)稠密度分別是0.5,0.42,0.24,0.16.由于加入鄰居節(jié)點(diǎn)E后,模塊的加權(quán)稠密度低于設(shè)定的閾值,因此從模塊中移除節(jié)點(diǎn)E,形成高內(nèi)聚的關(guān)鍵功能模塊集合S={A,C,B,D}.C,B和D的鄰居節(jié)點(diǎn)形成鄰居子圖NS={H,F,G,K}.由于D在NS中的加權(quán)度為0.7,大于其在S中的加權(quán)度0.2,從S中移除D.最終得到關(guān)鍵功能模塊S={A,C,B}.
以下是關(guān)鍵功能模塊挖掘偽代碼描述:
圖4 關(guān)鍵功能模塊挖掘?qū)嵗鼺ig.4 Example of an essential functional module mining
算法的最后一個(gè)階段是根據(jù)挖掘的關(guān)鍵功能模塊形成候選功能列表,并注釋測(cè)試蛋白質(zhì).在上一階段,已經(jīng)產(chǎn)生每一種類型聯(lián)系對(duì)應(yīng)的關(guān)鍵功能模塊.然而,不同類型的聯(lián)系對(duì)于蛋白質(zhì)功能預(yù)測(cè)的重要性各不相同.為此,我們?yōu)椴煌愋偷穆?lián)系設(shè)置不同的重要性系數(shù).重要性系數(shù)的計(jì)算如下:
其中,P(i)表示第i種類型聯(lián)系的優(yōu)先級(jí).優(yōu)先級(jí)的設(shè)置源于統(tǒng)計(jì)分析的結(jié)果.本文分別在每種類型聯(lián)系構(gòu)成的簡單網(wǎng)絡(luò)上運(yùn)行經(jīng)典的功能預(yù)測(cè)算法–鄰居計(jì)數(shù)法(Neighbour counting,NC),預(yù)測(cè)蛋白質(zhì)功能,并計(jì)算每種情形下NC法的預(yù)測(cè)性能,包括敏感性、特異性和F-measure(相關(guān)定義見第2.2節(jié)),實(shí)驗(yàn)結(jié)果如圖5所示.當(dāng)NC方法運(yùn)行在僅包含共享復(fù)合物類型的網(wǎng)絡(luò)時(shí),能獲得最高的敏感性和綜合性能指標(biāo)F-measure.共享結(jié)構(gòu)域類型的性能次之,PPI拓?fù)涮卣黝愋偷男阅茏畹?因此,共享復(fù)合物類型的優(yōu)先級(jí)設(shè)置為1,共享結(jié)構(gòu)域類型的優(yōu)先級(jí)設(shè)置為2,而PPI拓?fù)涮卣黝愋偷膬?yōu)先級(jí)為3.
對(duì)于功能未知的測(cè)試蛋白質(zhì)u,假設(shè)挖掘的關(guān)鍵功能模塊集合FM={fm1,fm2,fm3},fmi={pi1,pi2,···,pin}(i∈[1,3])表示第fmi個(gè)模塊包含的蛋白質(zhì)集合,WDD={wdd1,wdd2,wdd3}表示關(guān)鍵功能模塊的加權(quán)稠密度,F={f1,f2,···,fm}是三個(gè)關(guān)鍵功能模塊中所有蛋白質(zhì)的全部已知功能形成的集合.對(duì)于fi中某一功能,可根據(jù)下式計(jì)算其排名得分:
其中,w(u,pij)表示蛋白質(zhì)u和pij通過第i種聯(lián)系時(shí)的權(quán)值.若關(guān)鍵功能模塊fmi內(nèi)的蛋白質(zhì)pij包含功能fk,則tijk=1,否則tijk=0.
圖5 不同類型聯(lián)系對(duì)預(yù)測(cè)的影響Fig.5 Impact of diあerent types of connection
由于預(yù)測(cè)得到的候選功能比較多,有的功能是噪聲,不宜注釋測(cè)試蛋白質(zhì).為此,PEFM算法將所有候選功能按照得分降序排列,然后從中選取前N項(xiàng)功能作為u的預(yù)測(cè)功能.N是關(guān)鍵功能模塊中與測(cè)試蛋白質(zhì)u聯(lián)系最為緊密的蛋白質(zhì)的功能數(shù)量.聯(lián)系的緊密程度可以用相互作用的權(quán)值表示.
本次實(shí)驗(yàn)將采用酵母蛋白質(zhì)相互作用網(wǎng)絡(luò).因?yàn)樵撐锓N的相互作用數(shù)據(jù)和功能數(shù)據(jù)較為完整,并被用于現(xiàn)有的功能預(yù)測(cè)算法實(shí)驗(yàn)分析.我們將詳細(xì)介紹和分析DIP[11]數(shù)據(jù)集的結(jié)果,也將簡要分析BioGrid[12]數(shù)據(jù)集、Gavin[13]數(shù)據(jù)集和Krogan[14]數(shù)據(jù)集.DIP數(shù)據(jù)包含5093個(gè)蛋白質(zhì)和24743組相互作用,Krogan數(shù)據(jù)集則包括了3672個(gè)蛋白質(zhì)和14317個(gè)相互作用,Gavin數(shù)據(jù)庫由1855蛋白質(zhì)及7669蛋白質(zhì)間相互作用組成,BioGrid包括5616個(gè)蛋白質(zhì)和52833組相互作用.蛋白質(zhì)功能數(shù)據(jù)為最新版本,從GO官方網(wǎng)站獲取[15].本次實(shí)驗(yàn)去除了注釋蛋白質(zhì)數(shù)量小于10個(gè)或者大于200的功能條目,旨在提高算法的公平性.處理完畢后,注釋文件包含267個(gè)不同的GO條目.下載的GO文件進(jìn)行了格式轉(zhuǎn)換,原始的GO文件為UniProtKB[16]格式,轉(zhuǎn)換后的格式為Ensemble Genomes Protein.用于構(gòu)建多關(guān)系網(wǎng)絡(luò)的Domain數(shù)據(jù)從Pfam[17]數(shù)據(jù)庫獲取.Domain文件包含1107種不同類型的結(jié)構(gòu)域,覆蓋相互作用網(wǎng)絡(luò)的3056個(gè)蛋白質(zhì).另一種異構(gòu)數(shù)據(jù),蛋白質(zhì)復(fù)合物數(shù)據(jù)采用基準(zhǔn)集CYC2008[18].CYC2008通過高通量的生物實(shí)驗(yàn)獲得,由408個(gè)Benchmark復(fù)合物組成.為了檢驗(yàn)PEFM算法的有效性和預(yù)測(cè)準(zhǔn)確率,我們選取了FPM[7],Zhang[19],D-PIN[4],DCS[8], NC[2],PON[20]作為對(duì)比算法.本文將從多方面對(duì)比PEFM算法和競(jìng)爭(zhēng)算法的性能.
在測(cè)試蛋白質(zhì)功能預(yù)測(cè)算法性能時(shí),通常采用交叉驗(yàn)證法.蛋白質(zhì)集合被劃分為測(cè)試集和訓(xùn)練集.訓(xùn)練集中的蛋白質(zhì)用于幫助功能預(yù)測(cè)算法實(shí)現(xiàn)對(duì)未知功能的蛋白質(zhì)注釋.測(cè)試集中蛋白質(zhì)的功能被人為剝離,利用預(yù)測(cè)算法得到其預(yù)測(cè)功能.預(yù)測(cè)結(jié)束后,對(duì)比預(yù)測(cè)的功能與真實(shí)的蛋白質(zhì)功能的匹配情況,從而計(jì)算功能預(yù)測(cè)算法的預(yù)測(cè)準(zhǔn)確率.交叉驗(yàn)證進(jìn)一步可以劃分為留一法驗(yàn)證和留部分法驗(yàn)證.留一法驗(yàn)證是指每一輪預(yù)測(cè)時(shí),僅保留一個(gè)功能已知的蛋白質(zhì)在測(cè)試集中,剩余的蛋白質(zhì)全部進(jìn)入訓(xùn)練集.留部分法驗(yàn)證是指隨機(jī)地選取一定比例的蛋白質(zhì)放入測(cè)試集,例如10%,20%,50%.剩下的功能已知的蛋白質(zhì)放入訓(xùn)練集.然后根據(jù)預(yù)測(cè)算法設(shè)定的功能選取策略選取一定數(shù)量的功能.算法的預(yù)測(cè)準(zhǔn)確率由預(yù)測(cè)的功能與實(shí)際功能之間的匹配率決定.
在計(jì)算功能預(yù)測(cè)算法的預(yù)測(cè)準(zhǔn)確率時(shí),一般采用Speci fi city(特異性)和Sensitivity(敏感性)兩種評(píng)價(jià)指標(biāo).Speci fi city主要針對(duì)預(yù)測(cè)功能集,指預(yù)測(cè)集合中被真實(shí)功能匹配的功能所占比例.Sensitivity主要針對(duì)標(biāo)準(zhǔn)集,指標(biāo)準(zhǔn)集中被預(yù)測(cè)的功能匹配的功能所占比例.Speci fi city和Sensitivity的形式化定義如下:
其中,TP(True positive)指預(yù)測(cè)集合中被標(biāo)準(zhǔn)集合中匹配的功能數(shù)量.FP(False positive)指預(yù)測(cè)集合中沒有被任何真實(shí)功能匹配的數(shù)量.換句話說, FP等于預(yù)測(cè)的功能數(shù)量減去TP.FN(False negative)指標(biāo)準(zhǔn)集合中沒有被任何預(yù)測(cè)功能匹配的真實(shí)功能數(shù)量.由于真實(shí)功能數(shù)量是固定的,在預(yù)測(cè)蛋白質(zhì)功能時(shí),提高候選功能數(shù)量,可以提高TP值,從而提高Sensitivity值.同時(shí)導(dǎo)致FP增長更快,導(dǎo)致Speci fi city明顯下降.F-measure是一項(xiàng)綜合衡量預(yù)測(cè)算法性能的指標(biāo),是Speci fi city和Sensitivity的調(diào)和平均值.
PEFM算法中,為評(píng)估子圖加權(quán)稠密度,我們引入自定義參數(shù)T.本節(jié)將分析T對(duì)算法性能的影響,并確定T的合適取值.根據(jù)定義2可知,T的取值范圍在區(qū)間[0,1].圖6顯示了在四個(gè)數(shù)據(jù)集(DIP,Krogan,Gavin和BioGrid)上,PEFM算法的F-measure值隨著T值變化的情況.
圖6 參數(shù)T的影響Fig.6 The eあect of threshold T
從圖6可以看出,在DIP數(shù)據(jù)集上,參數(shù)T取值0.15時(shí),PEFM算法獲得最高的F-measure值0.423.對(duì)于Krogan和Gavin數(shù)據(jù)集,T取值0.2時(shí),綜合性能指標(biāo)F-measure最大,分別是0.418和0.469.對(duì)于BioGrid數(shù)據(jù)集,T=0.25時(shí),F-measure達(dá)到最大值0.44.
本次實(shí)驗(yàn)選定的PPI網(wǎng)絡(luò)中,共有5093個(gè)蛋白質(zhì),其中2894個(gè)蛋白質(zhì)有功能注釋.我們首先分析PEFM和其他六種方法對(duì)這2894個(gè)蛋白質(zhì)預(yù)測(cè)功能的整體性能.圖7顯示了各種方法的特異性、敏感性和F-measure的平均值.2894個(gè)蛋白質(zhì)中被PEFM,D-PIN,FPM,Zhang,DCS,NC和PON至少正確預(yù)測(cè)一個(gè)功能的蛋白質(zhì)數(shù)量分別為1546,1506,1407,801,1118,1626和566.PEFM覆蓋蛋白質(zhì)數(shù)量比D-PIN,FPM,Zhang,DCS和PON分別提高2.67%,9.88%,93.01%,38.28%和173.14%.
從圖7可以看出,PEFM具有最高的特異性(Speci fi city),這意味著PEFM 算法預(yù)測(cè)的功能中錯(cuò)誤(噪聲)功能所占比例最少.敏感性(Sensitivity)方面,PEFM比FPM、Zhang、DCS和PON分別提高了15.37%,95.63%,37.03%和206.7%.這說明,相比這四種功能預(yù)測(cè)算法,PEFM算法在不增加噪聲功能比例的前提下能夠注釋更多的蛋白質(zhì).PEFM算法的敏感性明顯低于NC.這是因?yàn)镻EFM算法只選擇了排名靠前的部分功能用于注釋功能未知的蛋白質(zhì),而NC方法是將鄰居的所有功能全部賦予測(cè)試的蛋白質(zhì).但是這種策略導(dǎo)致NC方法預(yù)測(cè)的功能中包含大量的噪聲功能,使得特異性急劇下降.本次實(shí)驗(yàn)中,雖然NC方法的敏感性比PEFM提高了12.93%,但是特異性卻比PEFM下降了236.3%.因此,就綜合性能而言,PEFM方法的F-measure值分別比D-PIN,FPM,Zhang, DCS,NC和PON提高1.71%,20.72%,90.43%, 35.28%,114.53%和192.33%.由此可見,PEFM方法具有最高綜合性能.
圖7 各種算法綜合性能對(duì)比Fig.7 Overall performance comparison of various algorithms
為了更加全面、客觀地對(duì)比分析各種方法的性能,我們將盡可能地為各種方法選擇相同的功能數(shù)量選取策略,對(duì)每一個(gè)蛋白質(zhì),分別選取各種方法預(yù)測(cè)的前K項(xiàng)功能進(jìn)行預(yù)測(cè).針對(duì)Zhang方法和DCS方法,選取前M(M≤K)個(gè)最相似的蛋白質(zhì),從這M個(gè)蛋白質(zhì)的功能列表中選取前K項(xiàng)功能作為預(yù)測(cè)的功能.功能根據(jù)蛋白質(zhì)的相似值的最大值降序排列(例如,有多個(gè)蛋白質(zhì)具有某項(xiàng)功能Fi,則取這些蛋白質(zhì)中與待預(yù)測(cè)的蛋白質(zhì)最相似的蛋白質(zhì)的相似值作為功能Fi的排序得分);對(duì)于D-PIN, FPM,PEFM,NC和PON方法,我們分別選取各自方法預(yù)測(cè)的前K個(gè)GO Term對(duì)功能未知的蛋白質(zhì)進(jìn)行功能注釋.K的取值從1~50,對(duì)于不同的K值,分別計(jì)算各種方法的平均F-measure值,對(duì)比結(jié)果如圖8所示.
圖8清晰地顯示,當(dāng)K從1增長到50時(shí), PEFM始終具有最高的平均F-measure值.隨著K值的增長,PEFM方法的F-Measure值雖然略微有所波動(dòng),但基本能維持在0.33左右,Zhang方法和DCS方法的F-Measure值則下降非常明顯,這說明K的選取對(duì)于PEFM算法的影響不大.
圖8 不同K值時(shí)各種算法的F-measure對(duì)比Fig.8 Comparison of average F measure of various algorithms under diあerent K values
我們已經(jīng)采用留一法測(cè)試了PEFM算法的性能,實(shí)驗(yàn)結(jié)果表明,PEFM方法確實(shí)在現(xiàn)有方法的基礎(chǔ)上提高了預(yù)測(cè)準(zhǔn)確率.實(shí)際應(yīng)用中,很多蛋白質(zhì)的功能是缺失的.本節(jié)將采用留部分法測(cè)試PEFM方法是否能在部分蛋白質(zhì)功能缺失的情形下依然保持較高的準(zhǔn)確率.圖9是留部分法實(shí)驗(yàn)結(jié)果.
我們隨機(jī)移除10%、20%、50%和80%蛋白質(zhì)的功能信息,這部分蛋白質(zhì)作為測(cè)試集,剩余蛋白質(zhì)為訓(xùn)練集,用于對(duì)這部分蛋白質(zhì)進(jìn)行功能注釋.為盡量降低隨機(jī)性對(duì)實(shí)驗(yàn)結(jié)果造成的誤差,我們對(duì)每個(gè)方法運(yùn)行1000次,取平均值作最終結(jié)果.
從圖9不難發(fā)現(xiàn),即便是移除10%,20%,50%和80%的蛋白質(zhì)后,PEFM方法依然獲得最高的F-Measure值,且優(yōu)勢(shì)比較明顯.即便部分蛋白質(zhì)的功能信息缺失,該方法依然能夠取得優(yōu)于現(xiàn)有功能預(yù)測(cè)方法的性能.
為了全面對(duì)比各種功能預(yù)測(cè)算法,我們還采用留一法在其他三個(gè)不同的酵母相互作用網(wǎng)絡(luò)(Krogan數(shù)據(jù)集、Gavin數(shù)據(jù)集和BioGrid數(shù)據(jù)集)測(cè)試了PEFM方法和其他六種對(duì)比方法.表2列出了不同方法在三個(gè)網(wǎng)絡(luò)上預(yù)測(cè)功能的實(shí)驗(yàn)結(jié)果.
圖9 留部分法實(shí)驗(yàn)結(jié)果Fig.9 Results of leave-percent-out cross validation
從表2可以看出,采用留一法在三個(gè)網(wǎng)絡(luò)進(jìn)行功能預(yù)測(cè)時(shí),PEFM依然取得最高特異性和F-measure值.在不同數(shù)據(jù)集上的測(cè)試結(jié)果也證明了特異性算法的有效性.綜合上述分析,相比其他幾種功能預(yù)測(cè)算法,PEFM算法具有最高的預(yù)測(cè)準(zhǔn)確率.
現(xiàn)有的蛋白質(zhì)功能預(yù)測(cè)方法整合PPI網(wǎng)絡(luò)和多元生物信息數(shù)據(jù),從而提高功能預(yù)測(cè)性能.而融入多元信息后,蛋白質(zhì)之間的相互作用變得多樣化.不同類型的相互作用在功能預(yù)測(cè)中的作用各不相同.將兩個(gè)蛋白質(zhì)間的多種相互作用進(jìn)行簡單合并,雖然能有效地降低假陰性的影響,增加預(yù)測(cè)的功能數(shù)量,但同時(shí)也增加了假陽性功能的數(shù)量,使得功能預(yù)測(cè)的整體性能提高不大.本文利用網(wǎng)絡(luò)拓?fù)涮匦浴⒔Y(jié)構(gòu)域信息和復(fù)合物信息構(gòu)造多關(guān)系的蛋白質(zhì)相互作用網(wǎng)絡(luò).鑒于蛋白質(zhì)功能與模塊之間的緊密聯(lián)系,本文從多關(guān)系網(wǎng)絡(luò)中挖掘關(guān)鍵功能模塊,利用關(guān)鍵功能模塊的功能對(duì)蛋白質(zhì)進(jìn)行功能注釋.四個(gè)酵母的PPI網(wǎng)絡(luò)上的實(shí)驗(yàn)結(jié)果驗(yàn)證了方法的有效性.
1 Zhao B H,Wang J X,Li M,Li X Y,Li Y H,Wu F X,Pan Y.A new method for predicting protein functions from dynamic weighted interactome networks.IEEE Transactions on NanoBioscience,2016,15(2):131?139
2 Schwikowski B,Uetz P,Fields S.A network of proteinprotein interactions in yeast.Nature Biotechnology,2000, 18(12):1257?1261
3 Dutkowski J,Ideker T.Protein networks as logic functions in development and cancer.PLoS Computational Biology, 2011,7(9):e1002180
4 Hu Sai,Xiong Hui-Jun,Zhao Bi-Hai,Li Xue-Yong,Wang Jing.Construction of dynamic-weighted protein interactome network and its application.Acta Automatica Sinica,2015, 41(11):1893?1900
(胡賽,熊慧軍,趙碧海,李學(xué)勇,王晶.動(dòng)態(tài)加權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建及其應(yīng)用研究.自動(dòng)化學(xué)報(bào),2015,41(11):1893?1900)
5 Zhao B H,Wang J X,Li X Y,Wu F X.Essential protein discovery based on a combination of modularity and conservatism.Methods,2016,110:54?63
6 Li X Y,Wang J X,Zhao B H,Wu F X,Pan Y.Identi fication of protein complexes from multi-relationship protein interaction networks.Human Genomics,2016,10(S2):17
7 Hu Sai,Xiong Hui-Jun,Li Xue-Yong,Zhao Bi-Hai,Ni Wen-Yin,Yang Pin-Hong,Liu Zhen.Construction of multirelation protein networks and its application.Acta Automatica Sinica,2015,41(12):2155?2163
(胡賽,熊慧軍,李學(xué)勇,趙碧海,倪問尹,楊品紅,劉臻.多關(guān)系蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建及其應(yīng)用研究.自動(dòng)化學(xué)報(bào),2015,41(12):2155?2163)
8 Peng W,Wang J X,Cai J,Chen L,Li M,Wu F X.Improving protein function prediction using domain and protein complexes in PPI networks.BMC Systems Biology,2014, 8(1):35
9 Zotenko E,Mestre J,O′Leary D P,Przytycka T M.Why do hubs in the yeast protein interaction network tend to be essential:reexamining the connection between the network topology and essentiality.PLoS Computational Biology,2008,4(8):e1000140
10 Nepusz T,Yu H Y,Paccanaro A.Detecting overlapping protein complexes in protein-protein interaction networks.Nature Methods,2012,9(5):471?472
11 Xenarios I,Rice D W,Salwinski L,Baron M K,Marcotte E M,Eisenberg D.DIP:the database of interacting proteins.Nucleic Acids Research,2000,28(1):289?291
12 Stark C,Breitkreutz B J,Chatr-Aryamontri A,Boucher L, Oughtred R,Livstone M S,Nixon J,Van Auken K,Wang X D,Shi X Q,Reguly T,Rust J M,Winter A,Dolinski K, Tyers M.The BioGRID interaction database:2011 update.Nucleic Acids Research,2011,39(S1):D698?D704
13 Gavin A C,Aloy P,Grandi P,Krause R,Boesche M, Marzioch M,Rau C,Jensen L J,Bastuck S,D¨umpelfeld B, Edelmann A,Heurtier M A,Hoあman V,Hoefert C,Klein K,Hudak M,Michon A M,Schelder M,Schirle M,Remor M,Rudi T,Hooper S,Bauer A,Bouwmeester T,Casari G, Drewes G,Neubauer G,Rick J M,Kuster B,Bork P,Russell R B,Superti-Furga G.Proteome survey reveals modularity of the yeast cell machinery.Nature,2006,440(7084):631?636
14 Krogan N J,Cagney G,Yu H Y,Zhong G Q,Guo X H, Ignatchenko A,Li J,Pu S Y,Datta N,Tikuisis A P,Punna T,Peregr′?n-Alvarez J M,Shales M,Zhang X,Davey M, Robinson M D,Paccanaro A,Bray J E,Sheung A,Beattie B,Richards D P,Canadien V,Lalev A,Mena F,Wong P,Starostine A,Canete M M,Vlasblom J,Wu S,Orsi C, Collins S R,Chandran S,Haw R,Rilstone J J,Gandi K, Thompson N J,Musso G,Onge P S,Ghanny S,Lam M H Y,Butland G,Altaf-Ul A M,Kanaya S,Shilatifard A, O′Shea E,Weissman J S,Ingles C J,Hughes T R,Parkinson J,Gerstein M,Wodak S J,Emili A,Greenblatt J F. Global landscape of protein complexes in the yeast Saccharomyces cerevisiae.Nature,2006,440(7084):637?643
15 Martin D M A,Berriman M,Barton G J.GOtcha:a new method for prediction of protein function assessed by the annotation of seven genomes.BMC Bioinformatics,2004, 5(1):178
16 Lima T,Auchincloss A H,Coudert E,Keller G,Michoud K,Rivoire C,Bulliard V,de Castro E,Lachaize C,Baratin D,Phan I,Bougueleret L,Bairoch A.HAMAP:a database of completely sequenced microbial proteome sets and manually curated microbial protein families in UniProtKB/Swiss-Prot.Nucleic Acids Research,2009,37(S1):D471?D478
17 Hawkins T,Chitale M,Luban S,Kihara D.PFP:automated prediction of gene ontology functional annotations with confidence scores using protein sequence data.Proteins:Struc-ture,Function,and Bioinformatics,2009,74(3):566?582
18 Pu S Y,Wong J,Turner B,Cho E,Wodak S J.Up-todate catalogues of yeast protein complexes.Nucleic Acids Research,2009,37(3):D825?D831
19 Zhang S,Chen H,Liu K,Sun Z R.Inferring protein function by domain context similarities in protein-protein interaction networks.BMC Bioinformatics,2009,10(1):395
20 Liang S D,Zheng D D,Standley D M,Guo H R,Zhang C. A novel function prediction approach using protein overlap networks.BMC Systems Biology,2013,7(1):61