• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的蛋白質(zhì)復(fù)合物和功能模塊預(yù)測算法研究進(jìn)展*

      2022-06-10 03:22:04張錦雄
      廣西科學(xué) 2022年2期
      關(guān)鍵詞:功能模塊結(jié)點(diǎn)復(fù)合物

      張錦雄,鐘 誠**

      (1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,廣西南寧 530004;2.廣西高校并行分布式計(jì)算技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣西南寧 530004)

      蛋白質(zhì)是組成生物有機(jī)體細(xì)胞、組織的重要成分,是生命的物質(zhì)基礎(chǔ),也是生命活動(dòng)的執(zhí)行者。雖然有些蛋白質(zhì)是以單體的形式發(fā)揮作用,但是大部分生物有機(jī)體蛋白質(zhì)是和伴侶分子或與其他蛋白質(zhì)一起發(fā)揮作用。在生命活動(dòng)中,蛋白質(zhì)及其相互作用是必不可少的,它們是細(xì)胞進(jìn)行一切代謝活動(dòng)的基礎(chǔ)。蛋白質(zhì)組學(xué)從整體角度分析細(xì)胞內(nèi)動(dòng)態(tài)變化的蛋白質(zhì)組分、表達(dá)水平與修飾狀態(tài),了解蛋白質(zhì)相互作用與聯(lián)系,揭示蛋白質(zhì)功能與細(xì)胞生命活動(dòng)規(guī)律。在后基因組時(shí)代,揭示蛋白質(zhì)相互作用關(guān)系、建立相互作用關(guān)系網(wǎng)絡(luò)圖,并從中挖掘功能子結(jié)構(gòu)和預(yù)測蛋白質(zhì)功能,已成為蛋白質(zhì)組學(xué)研究的熱點(diǎn)。

      隨著酵母雙雜交(Y2H)[1]技術(shù)、串聯(lián)親和純化-質(zhì)譜(TAP-MS)[2]技術(shù)和蛋白質(zhì)芯片(Protein Chip)[3]技術(shù)等高通量實(shí)驗(yàn)技術(shù)的飛速發(fā)展,研究人員掌握了大量的蛋白質(zhì)相互作用(Protein-Protein Interaction,PPI)數(shù)據(jù)。同時(shí),基于上述濕式實(shí)驗(yàn)室技術(shù)產(chǎn)生的PPI數(shù)據(jù),研究人員利用計(jì)算機(jī)手段進(jìn)一步推斷出更多的PPI數(shù)據(jù),這些推斷出來的PPI數(shù)據(jù)和經(jīng)實(shí)驗(yàn)核實(shí)的PPI數(shù)據(jù)共同被收錄在開放數(shù)據(jù)庫中。目前,收錄PPI數(shù)據(jù)的開放數(shù)據(jù)庫有酵母蛋白質(zhì)組數(shù)據(jù)庫(YPD)[4]、慕尼黑蛋白質(zhì)序列信息數(shù)據(jù)庫(MIPS)[5]、分子交互數(shù)據(jù)庫(MINT)[6]、相互作用數(shù)據(jù)庫(IntAct)[7]、相互作用蛋白質(zhì)數(shù)據(jù)庫(DIP)[8]、生物分子交互網(wǎng)絡(luò)數(shù)據(jù)庫(BIND)[9]、生物網(wǎng)格數(shù)據(jù)庫(BioGRID)[10]、人類蛋白質(zhì)參考數(shù)據(jù)庫(HPRD)[11]、人類蛋白質(zhì)交互數(shù)據(jù)庫(HPID)[12]和果蠅蛋白質(zhì)交互數(shù)據(jù)庫(DroID)[13]等。此外,數(shù)據(jù)庫Stitch[14]和 STRING[15]還提供文本挖掘分析服務(wù)。這些開放數(shù)據(jù)庫收錄的PPI數(shù)據(jù)為分析挖掘蛋白質(zhì)復(fù)合物及功能模塊提供了基礎(chǔ)。

      蛋白質(zhì)及其相互作用可用蛋白質(zhì)相互作用網(wǎng)絡(luò)PPIN表示。而PPIN可用無向簡單圖(Graph)來建模。一個(gè)無向簡單圖可表示為G=(V,E),其中V表示結(jié)點(diǎn)集,E表示結(jié)點(diǎn)間連接的邊集,即E={(i,j)|i,j∈V}。蛋白質(zhì)相互作用網(wǎng)絡(luò)圖的結(jié)點(diǎn)表示蛋白質(zhì),邊表示蛋白質(zhì)相互作用。將PPI數(shù)據(jù)建模為蛋白質(zhì)相互作用網(wǎng)絡(luò)后,則可利用圖理論對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行深入分析,以揭示生物過程中蛋白質(zhì)復(fù)合物、功能模塊的拓?fù)浣Y(jié)構(gòu)特征和功能組織機(jī)理。

      蛋白質(zhì)復(fù)合物是在細(xì)胞內(nèi)生物過程中同時(shí)同地物理綁定彼此的蛋白質(zhì)組,它對(duì)應(yīng)蛋白質(zhì)相互作用網(wǎng)絡(luò)中具有生物學(xué)意義的功能子圖。蛋白質(zhì)功能模塊則是參與某一特定生物過程的全體蛋白質(zhì),其中的蛋白質(zhì)可以在不同時(shí)間不同場所相互作用[16]。在過去二十多年里,基于蛋白質(zhì)相互作用網(wǎng)絡(luò)預(yù)測蛋白質(zhì)復(fù)合物和功能模塊的算法層出不窮。隨著AI技術(shù)的發(fā)展和注入,蛋白質(zhì)復(fù)合物和功能模塊預(yù)測必將迎來新一輪的研究熱潮。

      1 蛋白質(zhì)復(fù)合物和功能模塊預(yù)測算法

      按照歷史發(fā)展脈絡(luò),蛋白質(zhì)復(fù)合物和功能模塊預(yù)測算法的研究先后形成兩個(gè)并存發(fā)展方向:靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)(SPIN)方向和動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)(DPIN)方向。隨著研究的深入,蛋白質(zhì)復(fù)合物和功能模塊的生物特性及其在蛋白質(zhì)相互作用網(wǎng)絡(luò)中的拓?fù)涮卣鞑粩啾挥糜陬A(yù)測算法中。稠密連接和核心-附件結(jié)構(gòu)是蛋白質(zhì)復(fù)合物和功能模塊在蛋白質(zhì)相互作用網(wǎng)絡(luò)中呈現(xiàn)出的基本拓?fù)涮卣?,而蛋白質(zhì)復(fù)合物和功能模塊預(yù)測算法所利用的生物特性有基因共表達(dá)、蛋白質(zhì)共定位、基因本體(GO)相似性、互斥相互作用、結(jié)構(gòu)域相互作用等。下面將圍繞拓?fù)涮卣骱蜕锾匦曰仡櫥陟o態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)的復(fù)合物預(yù)測算法。

      1.1 基于SPIN的蛋白質(zhì)復(fù)合物預(yù)測算法

      在靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中,蛋白質(zhì)復(fù)合物呈現(xiàn)稠密連接的特征,這是其在靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中的基本特征。因此,早期預(yù)測蛋白質(zhì)復(fù)合物的算法大多數(shù)依靠蛋白質(zhì)復(fù)合物的拓?fù)涮匦酝诰虺砻苓B接子圖,并以此作為蛋白質(zhì)復(fù)合物。為進(jìn)一步提高預(yù)測的準(zhǔn)確性,不同的生物學(xué)特征陸續(xù)被引入預(yù)測算法設(shè)計(jì)策略中。

      1.1.1 基于復(fù)合物拓?fù)涮卣鞯腟PIN蛋白質(zhì)復(fù)合物預(yù)測算法

      有研究基于“團(tuán)”的概念設(shè)計(jì)算法,在蛋白質(zhì)相互作用網(wǎng)絡(luò)中預(yù)測蛋白質(zhì)復(fù)合物[16-21]。為發(fā)現(xiàn)蛋白質(zhì)網(wǎng)絡(luò)中稠密連接子圖,Spirin等[16]利用極大團(tuán)枚舉、超順磁性聚類(Super Paramagnetic Clustering,SPC)和蒙特卡洛(Monte Carlo,MC)等方法來預(yù)測蛋白質(zhì)復(fù)合物/功能模塊。由于缺少時(shí)空信息,Spirin等[16]預(yù)測的結(jié)果無法區(qū)分復(fù)合物和功能模塊。Liu等[17]基于極大團(tuán)的概念提出聚類算法CMC,該方法首先使用深度優(yōu)先搜索DFS策略枚舉所有的極大團(tuán),然后對(duì)搜索得到的團(tuán)打分并按降序排列,最后將兩個(gè)重疊團(tuán)中的低分團(tuán)合并到高分團(tuán)中,以獲得稠密連接的大子圖來生成復(fù)合物。CMC的打分機(jī)制使得算法對(duì)隨機(jī)噪聲交互具魯棒性,從而提高其預(yù)測蛋白質(zhì)復(fù)合物的能力。眾所周知,搜索極大團(tuán)是NP-難(Non-deterministic Polynomial time-Hard,NP-hard)問題,所以枚舉極大團(tuán)的算法僅適用于小規(guī)模且稀疏的蛋白質(zhì)相互作用網(wǎng)絡(luò)。為獲得可靠的蛋白質(zhì)相互作用網(wǎng)絡(luò),Chua等[18]提出蛋白質(zhì)復(fù)合物預(yù)測算法PCP,該算法利用功能相似度(Functional Similarity,F(xiàn)S)過濾低權(quán)值直接相互作用并引入高權(quán)值間接相互作用,以改善蛋白質(zhì)相互作用網(wǎng)絡(luò),并在以這種方式修改的蛋白質(zhì)相互作用網(wǎng)絡(luò)中獲得較好的復(fù)合物預(yù)測精度。與上述算法不同的是,局部團(tuán)合并算法LCMA基于稠密連接圖搜索局部團(tuán),然后合并局部團(tuán)以預(yù)測蛋白質(zhì)復(fù)合物,該方法對(duì)不完整交互數(shù)據(jù)不敏感,并能平衡查全率(Recall)和查準(zhǔn)率(Precision),可以獲得較高的F值(F-Measure)和效率[19]。考慮交互的不完整,DECAFF算法將搜索極大團(tuán)松弛為搜索局部稠密鄰域[20]。相比而言,DECAFF算法的整體性能優(yōu)于LCMA算法。PE-WCC算法以最大團(tuán)作為復(fù)合物的核心,添加與核心蛋白質(zhì)連接數(shù)達(dá)自身連接度一半以上的蛋白質(zhì),最后形成復(fù)合物[21]。雖然該算法能以較高準(zhǔn)確度預(yù)測更多新復(fù)合物,但是對(duì)交互數(shù)據(jù)的可靠性評(píng)估會(huì)帶來額外的時(shí)間開銷。

      基于功能關(guān)聯(lián)的思想,可以使用種子擴(kuò)展策略設(shè)計(jì)算法來預(yù)測蛋白質(zhì)復(fù)合物。MCODE算法始于高權(quán)重結(jié)點(diǎn),以頂點(diǎn)權(quán)百分率VWP擴(kuò)展結(jié)點(diǎn)來形成初始聚類,并刪掉密度低的子圖以生成重疊聚類[22],但MCODE算法產(chǎn)生的重疊聚類數(shù)量較少且規(guī)模較大。DPClus算法同樣選擇高權(quán)重結(jié)點(diǎn)作為種子,擴(kuò)展能維持一定稠密度水平的外部高連接度結(jié)點(diǎn)以形成聚類,從而在蛋白質(zhì)相互作用網(wǎng)絡(luò)中預(yù)測蛋白質(zhì)復(fù)合物[23]。與MCODE算法類似,ClusterONE算法[24]始于選定的種子蛋白質(zhì)并采用貪心策略擴(kuò)張分組,以獲得內(nèi)連接比例高的聚類,在合并高度重疊的分組后產(chǎn)生蛋白質(zhì)復(fù)合物。由于考慮重疊復(fù)合物,ClusterONE算法獲得的結(jié)果質(zhì)量比MCODE算法更好。同樣地,為維持一定的稠密度水平,SPICi算法以邊為種子,按貪心策略擴(kuò)展高支持度頂點(diǎn)以形成聚類。SPICi算法的快速性使其能很好地適應(yīng)規(guī)模漸增的稠密功能性生物網(wǎng)絡(luò),但缺點(diǎn)是不能檢測重疊聚類[25]。PROCODE算法采用貪心策略擴(kuò)展最大共鄰邊以產(chǎn)生初始聚類,然后合并初始聚類以產(chǎn)生維持一定稠密度水平的蛋白質(zhì)復(fù)合物[26]。Wang等[27]在提出的ClusterM算法中考慮拓?fù)涮匦院退惴蓴U(kuò)展性,整合網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和蛋白質(zhì)序列相似性信息,以識(shí)別多物種蛋白質(zhì)相互作用網(wǎng)絡(luò)中的保守蛋白質(zhì)復(fù)合物。

      馬爾可夫聚類(MCL)算法以模擬網(wǎng)絡(luò)流的隨機(jī)游走方式,對(duì)網(wǎng)絡(luò)轉(zhuǎn)換概率矩陣交替地執(zhí)行擴(kuò)張和膨脹操作,以強(qiáng)化稠密連接區(qū)域的網(wǎng)絡(luò)流,弱化稀疏連接區(qū)域的網(wǎng)絡(luò)流,從而實(shí)現(xiàn)網(wǎng)絡(luò)流隨機(jī)游走概率的分配與分化,最終根據(jù)不同的概率完成圖的劃分并達(dá)到聚類的目的[28]。Brohee等[29]指出,MCL算法因?qū)D變化具有顯著魯棒性且使用參數(shù)相對(duì)較少而廣為流行。Vlasblom等[30]、R-MCL[31,32]、SR-MCL[33]和F-MCL[34]對(duì)PPI網(wǎng)絡(luò)的(加權(quán))鄰接矩陣交替地執(zhí)行擴(kuò)張和膨脹操作,以實(shí)現(xiàn)PPI網(wǎng)絡(luò)的劃分,從而預(yù)測蛋白質(zhì)復(fù)合物和功能模塊。

      酵母復(fù)合物在蛋白質(zhì)相互作用網(wǎng)絡(luò)中呈現(xiàn)核心-附件結(jié)構(gòu)(Core-attachment structure)特征,其核心是指構(gòu)成復(fù)合物中心單元的稠密連接功能性蛋白質(zhì),而附件則是指圍繞在核心蛋白質(zhì)周圍并協(xié)助參與相應(yīng)生物過程的蛋白質(zhì)[35]。Ahmed等[36]提出一個(gè)與“核心-附件結(jié)構(gòu)”同義的術(shù)語“核心-外圍結(jié)構(gòu)”,并指出蛋白質(zhì)復(fù)合物由核心和外圍兩部分組成:核心部分是一個(gè)稠密連接區(qū)域,該區(qū)域的蛋白質(zhì)彼此高度連接,而外圍部分則是與核心連接較弱的蛋白質(zhì)。文獻(xiàn)[37-41]根據(jù)核心-附件結(jié)構(gòu)特性預(yù)測蛋白質(zhì)復(fù)合物。Leung等[37]提出的CORE算法按兩蛋白質(zhì)共鄰數(shù)確定共核心概率并形成雙蛋白核心,隨后迭代地合并雙蛋白核心、三蛋白核心等,依次類推以生成相互不重疊的蛋白質(zhì)核心集,最后將與半數(shù)核心蛋白質(zhì)交互的附件蛋白質(zhì)添加到核心中以形成復(fù)合物。COACH算法首先確定高連接度結(jié)點(diǎn),并從其稠密鄰域中選定結(jié)點(diǎn)作為蛋白質(zhì)復(fù)合物核心,然后用類似于CORE算法的方式將附件添加到核心中,從而獲得蛋白質(zhì)復(fù)合物[38]。不同于CORE算法,COACH算法產(chǎn)生的不同復(fù)合物核心存在重疊。MCL-CAw算法利用MCL能劃分網(wǎng)絡(luò)的特點(diǎn),將MCL檢測到的稠密區(qū)域作為蛋白質(zhì)核心,然后選擇與核心連接度高的結(jié)點(diǎn)作為附件進(jìn)行添加,以生成蛋白質(zhì)復(fù)合物[39,40]。由于不同蛋白質(zhì)核心的外圍存在相同的蛋白質(zhì),所以MCL-CAw算法有可能將相同的附件蛋白質(zhì)添加到不同的蛋白質(zhì)核心中,從而允許形成重疊復(fù)合物。Peng等[41]提出的WPNCA算法根據(jù)核心-附件結(jié)構(gòu)并采用加權(quán)頁序-蠶食策略,首先選擇排序靠前的m個(gè)頂點(diǎn)來形成稠密連接子圖,然后以形成的稠密連接子圖作為核心,繼而添加與核心有足夠強(qiáng)相互作用的附件蛋白質(zhì),最終獲得可能重疊的蛋白質(zhì)復(fù)合物。通過利用核心-附件結(jié)構(gòu),上述幾種蛋白質(zhì)復(fù)合物預(yù)測算法在F-Measure指標(biāo)上獲得不同程度的提高。

      1.1.2 基于生物學(xué)特征加權(quán)的SPIN蛋白質(zhì)復(fù)合物預(yù)測算法

      復(fù)合物在蛋白質(zhì)相互作用網(wǎng)絡(luò)中對(duì)應(yīng)于具有生物功能的拓?fù)渥咏Y(jié)構(gòu),因此在算法中可以融合基因本體(GO)[42]功能標(biāo)注、基因表達(dá)和蛋白質(zhì)亞細(xì)胞定位等生物學(xué)數(shù)據(jù)以預(yù)測蛋白質(zhì)復(fù)合物。

      RNSC算法用基于GO功能標(biāo)注的功能同質(zhì)度、聚類規(guī)模和密度3個(gè)指標(biāo),對(duì)被劃分的子網(wǎng)進(jìn)行篩選,并預(yù)測蛋白質(zhì)復(fù)合物[43]。但由于策略過于簡化且不完善,RNSC算法無法預(yù)測功能同質(zhì)程度低的已知復(fù)合物。相互作用蛋白質(zhì)間基于GO功能標(biāo)注的相似性和共鄰數(shù)在OIIP算法中被用于加權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò),從而使得蛋白質(zhì)復(fù)合物預(yù)測算法具有較高的精確度,并獲得較高的F-Measure指標(biāo)[44]。Price等[45]分析比較6種預(yù)測算法在基于GO功能標(biāo)注相似性加權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò)中預(yù)測蛋白質(zhì)復(fù)合物的優(yōu)劣,結(jié)果表明絕大多數(shù)算法在經(jīng)GO相似性加權(quán)后的蛋白質(zhì)相互作用網(wǎng)絡(luò)中能較準(zhǔn)確地預(yù)測蛋白質(zhì)復(fù)合物。

      編碼相互作用的蛋白質(zhì)的基因有著相似的基因表達(dá)譜。同樣地,編碼復(fù)合物中蛋白質(zhì)的基因更可能有相似的基因表達(dá)譜[46]。因此,根據(jù)基因表達(dá)數(shù)據(jù)的相似性可以推斷蛋白質(zhì)功能,也可用于預(yù)測蛋白質(zhì)-蛋白質(zhì)交互[47-49]。Feng等[50]和Tang等[51]利用基因表達(dá)數(shù)據(jù)研究復(fù)合物預(yù)測算法。GFA算法使用微陣列基因表達(dá)數(shù)據(jù)加權(quán)蛋白質(zhì),并保持一定的密度水平預(yù)測蛋白質(zhì)復(fù)合物[50]。但GFA算法為提高預(yù)測性能而采用的多微陣列樣本措施,使得算法在規(guī)模大而稠密的蛋白質(zhì)相互作用網(wǎng)絡(luò)中運(yùn)行比較耗時(shí)。CMBI算法使用基因表達(dá)數(shù)據(jù)計(jì)算蛋白質(zhì)間的皮爾森相關(guān)系數(shù),再組合邊聚類系數(shù)加權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò),然后采用種子擴(kuò)展策略檢測蛋白質(zhì)復(fù)合物,所預(yù)測的蛋白質(zhì)復(fù)合物具有均衡的查準(zhǔn)率和查全率,并有較高的F-Measure[51]。

      在細(xì)胞中,蛋白質(zhì)是在特定的亞細(xì)胞定位中發(fā)揮其生物學(xué)功能[52,53],而UniProt數(shù)據(jù)庫存儲(chǔ)有蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)[54,55]。SMILE算法[56]利用蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)構(gòu)造亞細(xì)胞蛋白質(zhì)相互作用子網(wǎng),在檢測出蛋白質(zhì)功能模塊后與蛋白質(zhì)復(fù)合物對(duì)比,在敏感度Sn、陽性預(yù)測值PPV及精度Acc指標(biāo)上勝過ClusterONE算法[24]和MCL算法[28]。Cheng等[57]則把蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)集成至SPIN中以構(gòu)造共定位蛋白質(zhì)網(wǎng)絡(luò)CLPIN,并進(jìn)一步結(jié)合拓?fù)渲丿B特征構(gòu)造局部拓?fù)渲丿B蛋白質(zhì)網(wǎng)絡(luò)LTOPIN,隨后在LTOPIN上取得優(yōu)越的蛋白質(zhì)復(fù)合物預(yù)測性能。蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)提供蛋白質(zhì)及其相互作用的空間信息,在設(shè)計(jì)蛋白質(zhì)復(fù)合物和功能模塊預(yù)測算法時(shí)使用該數(shù)據(jù)是必要且值得深入研究的[58]。

      此外,Rehman等[59]分析計(jì)算氨基酸的出現(xiàn)頻度來提取復(fù)合物中蛋白質(zhì)的生物學(xué)特征,并結(jié)合13個(gè)拓?fù)浣Y(jié)構(gòu)特征來預(yù)測蛋白質(zhì)復(fù)合物。Liu等[60]運(yùn)用GO功能標(biāo)注、結(jié)構(gòu)域相互作用、基因共表達(dá)和STRING數(shù)據(jù)庫的蛋白質(zhì)相互作用可靠性得分來分析6個(gè)蛋白質(zhì)相互作用網(wǎng)絡(luò)的生物學(xué)特征,并比較這些生物學(xué)特征對(duì)6個(gè)復(fù)合物檢測算法的影響。Abdulateef等[61]基于基因表達(dá)數(shù)據(jù)和GO功能標(biāo)注構(gòu)造局部微調(diào)策略,提出優(yōu)化的輔助啟發(fā)模型來搜索邊界內(nèi)外局部空間,以提高進(jìn)化算法檢測復(fù)合物的可靠性,并收斂獲得更多的可靠解,以提高復(fù)合物預(yù)測準(zhǔn)確性。蛋白質(zhì)復(fù)合物由多個(gè)蛋白質(zhì)組成,其中蛋白質(zhì)間的關(guān)系是一種群體關(guān)系,因此Zhang等[62]利用GO功能標(biāo)注、基因表達(dá)和蛋白質(zhì)亞細(xì)胞定位等生物特征數(shù)據(jù),從群體關(guān)系的角度量化判定復(fù)合物中蛋白質(zhì)的功能相似、聯(lián)合共定位和聯(lián)合共表達(dá),并在精確匹配數(shù)、綜合得分及生物顯著性上優(yōu)于對(duì)比算法。Younis等[63]提出一個(gè)新的序列前向特征選擇算法SFFS,該算法提取13個(gè)在蛋白質(zhì)相互作用網(wǎng)絡(luò)中呈現(xiàn)出的拓?fù)涮卣骱?50個(gè)氨基酸序列特征以預(yù)測蛋白質(zhì)復(fù)合物,并在查準(zhǔn)率、查全率及F-Measure上勝過對(duì)比算法。

      在蛋白質(zhì)相互作用網(wǎng)絡(luò)中僅利用拓?fù)涮卣鞑蛔阋詼?zhǔn)確預(yù)測蛋白質(zhì)復(fù)合物。前述融合的方法利用GO功能標(biāo)注、基因表達(dá)和蛋白質(zhì)亞細(xì)胞定位等生物特征數(shù)據(jù)加權(quán)蛋白質(zhì)間二元關(guān)系,在一定程度上提高了預(yù)測精度。但是,針對(duì)蛋白質(zhì)復(fù)合物的群體關(guān)系特性,更應(yīng)從群體關(guān)系的角度量化判定復(fù)合物中蛋白質(zhì)的功能相似、聯(lián)合共定位和聯(lián)合共表達(dá)等特征。

      1.1.3 融合蛋白質(zhì)結(jié)構(gòu)域相互作用的SPIN蛋白質(zhì)復(fù)合物預(yù)測算法

      蛋白質(zhì)物理地相互作用是通過蛋白質(zhì)結(jié)構(gòu)域相互作用DDI (Domain-Domain Interaction)來實(shí)現(xiàn)的[64]。Jung等[64,65]使用蛋白質(zhì)結(jié)構(gòu)域交互界面殘基數(shù)據(jù),根據(jù)蛋白質(zhì)結(jié)構(gòu)域相互作用的互斥性或競爭性提出蛋白質(zhì)互斥相互作用MEIs (Mutually Exclusive Interactions)的概念,在排除互斥或競爭的蛋白質(zhì)相互作用后構(gòu)造同時(shí)相互作用蛋白質(zhì)網(wǎng)絡(luò),從而在預(yù)測蛋白質(zhì)復(fù)合物時(shí)排除互斥相互作用。 Jung等[64,65]利用蛋白質(zhì)相互作用的相容性確保復(fù)合物中蛋白質(zhì)相互作用是同時(shí)發(fā)生而不是分時(shí)出現(xiàn)的。如果預(yù)測復(fù)合物中蛋白質(zhì)的每一個(gè)結(jié)構(gòu)域僅為一個(gè)蛋白質(zhì)相互作用所使用,那么所預(yù)測的復(fù)合物很可能形成一個(gè)真的蛋白質(zhì)復(fù)合物[66,67]。因此,Ozawa等[68]在排除結(jié)構(gòu)域競爭的基礎(chǔ)上,基于一個(gè)DDI支持一個(gè)PPI的假設(shè),運(yùn)用二元整數(shù)規(guī)劃搜索DDIs的最佳組合來核實(shí)預(yù)測的蛋白質(zhì)復(fù)合物是否為真復(fù)合物,并將來源于公共數(shù)據(jù)庫的高置信DDI數(shù)據(jù)用于蛋白質(zhì)復(fù)合物預(yù)測算法的后處理階段,使復(fù)合物預(yù)測算法獲得兩倍精度的提高和超過25%的性能改善?;谕瑯拥募僭O(shè)和復(fù)合物預(yù)測流程,Ma等[69]增加DDI預(yù)測階段,然后按最大匹配問題求解DDI的最佳組合,從而獲得比Ozawa等[68]更多的DDI和更高的查全率、查準(zhǔn)率。由此可見,從結(jié)構(gòu)域競爭引起的蛋白質(zhì)互斥相互作用MEIs到最佳組合或最大匹配實(shí)現(xiàn)DDI支持的PPI,無論是預(yù)處理還是后處理,結(jié)構(gòu)域相互作用DDI數(shù)據(jù)都對(duì)蛋白質(zhì)復(fù)合物的準(zhǔn)確預(yù)測起促進(jìn)作用。

      綜上所述,從靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)來看,蛋白質(zhì)復(fù)合物具有稠密連接、核心-附件結(jié)構(gòu)等特征;從生物學(xué)角度來看,復(fù)合物的形成需要相互作用的蛋白質(zhì)滿足共定位、共表達(dá)、DDI支持和GO功能標(biāo)注等基本條件。

      1.2 基于SPIN的蛋白質(zhì)功能模塊預(yù)測算法

      蛋白質(zhì)功能模塊預(yù)測算法的研究也經(jīng)歷著豐富的發(fā)展過程,采用了與復(fù)合物預(yù)測算法類似的策略。與蛋白質(zhì)復(fù)合物不同的是,構(gòu)成功能模塊的蛋白質(zhì)及其相互作用沒有同一時(shí)空約束。預(yù)測蛋白質(zhì)功能模塊的算法主要有基于圖聚類的算法、基于層次聚類的算法、基于流模擬的算法和基于群智能聚類算法等。

      1.2.1 基于圖聚類預(yù)測SPIN蛋白質(zhì)功能模塊算法

      為發(fā)現(xiàn)蛋白質(zhì)相互作用網(wǎng)絡(luò)中稠密連接子圖,Spirin等[16]提出3種經(jīng)典算法。使用團(tuán)枚舉的算法受到蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)不完整的限制,超順磁性聚類SPC算法和蒙特卡洛MC算法則可用于預(yù)測功能模塊。Adamcsek等[70]在所提的Cfinder算法中首先定義k-團(tuán)和雙k-團(tuán)的概念,并進(jìn)一步定義k-團(tuán)鏈,然后利用團(tuán)滲透預(yù)測k-團(tuán),最后組合鄰接k-團(tuán)形成雙k-團(tuán)繼而形成k-團(tuán)鏈,最終實(shí)現(xiàn)功能模塊檢測。該算法能準(zhǔn)確檢測出重疊功能模塊,但過高的緊密連接條件導(dǎo)致某些符合條件的功能模塊無法被檢測。Jia等[71]利用團(tuán)松弛技術(shù)和2-club結(jié)構(gòu)[72]對(duì)功能模塊進(jìn)行建模,然后按功能模塊拓?fù)浣Y(jié)構(gòu)的屬性與作用之間的關(guān)系預(yù)測功能模塊。SCAN算法將大于指定閾值的兩個(gè)蛋白質(zhì)共鄰相似性定義為結(jié)構(gòu)可達(dá),然后將多個(gè)彼此結(jié)構(gòu)可達(dá)的蛋白質(zhì)結(jié)點(diǎn)稱為核心結(jié)點(diǎn),最后反復(fù)添加可達(dá)結(jié)點(diǎn)到核心結(jié)點(diǎn)來擴(kuò)展聚類以形成功能模塊[73]。Abdullah等[74]將功能模塊檢測分?jǐn)?shù)據(jù)預(yù)處理、團(tuán)預(yù)測和最近鄰搜索3個(gè)階段進(jìn)行:數(shù)據(jù)預(yù)處理階段刪除蛋白質(zhì)相互作用網(wǎng)絡(luò)中的自環(huán)和冗余交互;團(tuán)預(yù)測階段運(yùn)用擴(kuò)展方法獲得功能富集蛋白質(zhì)團(tuán);最近鄰搜索階段基于聚類系數(shù)計(jì)算模塊密度,搜索與團(tuán)相連且最近鄰的蛋白質(zhì)并加以添加,從而獲得功能模塊。該算法能查找到數(shù)量相當(dāng)?shù)闹丿B模塊。Chen等[75]運(yùn)用社區(qū)模塊度遞增策略擴(kuò)展蛋白質(zhì)結(jié)點(diǎn)來形成初始社區(qū),然后以功能性內(nèi)聚測量為指標(biāo),合并初始社區(qū)形成聚類,從而獲得結(jié)構(gòu)模塊化和功能性內(nèi)聚兼具的蛋白質(zhì)功能模塊。NCMine算法按照核心-外圍結(jié)構(gòu),對(duì)經(jīng)加權(quán)的結(jié)點(diǎn)使用結(jié)點(diǎn)度中心性指標(biāo)提取近似完全子圖作為功能模塊[76]。Manners等[77]提出一個(gè)基于種子擴(kuò)展策略的聚類算法,該算法使用相對(duì)關(guān)聯(lián)得分量化基因功能同形度,構(gòu)造加權(quán)共表達(dá)網(wǎng)絡(luò),并檢測阿茲海默癥共表達(dá)網(wǎng)絡(luò)中本質(zhì)重疊的功能富集調(diào)控模塊。TICONE算法使用基因表達(dá)數(shù)據(jù)分析計(jì)算皮爾森相關(guān)系數(shù),然后聚類蛋白質(zhì)相互作用網(wǎng)絡(luò)中基因表達(dá)模式相似的蛋白質(zhì)結(jié)點(diǎn),以預(yù)測功能富集的功能模塊[78]。Shen等[79]用密度模塊度取代全局模塊度以評(píng)估一個(gè)功能模塊內(nèi)的緊密程度,并提出ADM算法。該算法克服模塊屏障在模塊間移動(dòng)結(jié)點(diǎn),并分析計(jì)算移動(dòng)結(jié)點(diǎn)與模塊的內(nèi)外關(guān)聯(lián)度來決定被移動(dòng)結(jié)點(diǎn)的模塊歸屬,然后以最大化密度模塊度為目標(biāo)劃分網(wǎng)絡(luò),最終檢測蛋白質(zhì)功能模塊。He等[80]基于核心-附件結(jié)構(gòu)提出一個(gè)貪心搜索算法GSM-CA,該算法基于邊權(quán)值和核心結(jié)點(diǎn)-附件結(jié)點(diǎn)判斷準(zhǔn)則,以最高權(quán)值邊為種子并采用貪心策略添加核心結(jié)點(diǎn),然后添加附件結(jié)點(diǎn)以形成功能模塊。GSM-CA算法雖然具有高檢測精度但是耗時(shí),為此He等[80]進(jìn)一步提出改進(jìn)算法GSM-FC,該算法僅需對(duì)邊遍歷一次以劃分功能模塊,使得其在保持與GSM-CA算法同樣高預(yù)測精度的同時(shí)顯著減少計(jì)算時(shí)間。Jeong等[81]運(yùn)用的圖熵GE算法按照種子擴(kuò)張過程,采用貪心策略最小化熵以優(yōu)化子圖模塊來搜索局部最優(yōu)聚類,最終形成功能模塊。GE算法獨(dú)立搜索聚類的過程能獲得重疊功能模塊,且在功能模塊的預(yù)測精度和同質(zhì)性的比較中優(yōu)于對(duì)比算法。Zhao等[82]提出進(jìn)化算法ECTG,通過組合拓?fù)湎禂?shù)和基因表達(dá)模式相似性,將蛋白質(zhì)相互作用網(wǎng)絡(luò)分解為緊密連接的子圖以識(shí)別功能模塊。Ying等[83]基于解旅行商問題算法LKH組合GO功能標(biāo)注提出一個(gè)新預(yù)測模型LKHM,該模型首先用基于鄰域的CD-distance加權(quán)PPI網(wǎng)絡(luò),然后用分治法求最短周游路徑形成模塊,最后合并GO相似模塊并刪除低密度模塊以檢測功能模塊。模型LKHM繼承了LKH低時(shí)間復(fù)雜度、高精度和高魯棒性的優(yōu)點(diǎn),以最大化內(nèi)聚度和分離度為目標(biāo)檢測功能內(nèi)聚模塊。

      從團(tuán)、團(tuán)鏈、團(tuán)松弛到聚集系數(shù)、功能內(nèi)聚、結(jié)點(diǎn)度中心性、密度模塊度、圖熵、種子擴(kuò)展等概念、指標(biāo)及策略,上述算法將網(wǎng)絡(luò)局部拓?fù)涮卣饔糜诰垲愐詫?shí)現(xiàn)功能模塊預(yù)測。

      1.2.2 基于層次聚類預(yù)測SPIN蛋白質(zhì)功能模塊算法

      基于層次聚類的預(yù)測算法可對(duì)給定SPIN中的蛋白質(zhì)結(jié)點(diǎn)集按拓?fù)淠K性和生物功能性進(jìn)行層次分解,直至實(shí)現(xiàn)功能內(nèi)聚的模塊化聚類為止,其具體實(shí)施過程可分為凝聚[84]和分裂[85]兩種方案。MINE算法是一個(gè)凝聚式層次聚類的預(yù)測算法,它使用修正頂點(diǎn)加權(quán)策略并考慮網(wǎng)絡(luò)模塊度,通過在聚類擴(kuò)張過程中避免偽鄰結(jié)點(diǎn)的干擾,以確定模塊邊界[86]。UVCluster是基于距離的凝聚式層次聚類的預(yù)測算法,它基于最短路徑計(jì)算兩個(gè)蛋白質(zhì)之間的距離,然后通過逐漸凝聚過程迭代地合并蛋白質(zhì)以形成聚類并預(yù)測蛋白質(zhì)功能模塊[87]。Jerarca套件是UVCluster的擴(kuò)展版,它融合RCluster算法和SCluster算法計(jì)算加權(quán)距離,并采用系統(tǒng)進(jìn)化樹算法UPGMA[88]和Neighbor-Joining[89]構(gòu)建樹狀層次圖,在蛋白質(zhì)相互作用網(wǎng)絡(luò)轉(zhuǎn)換成樹狀層次圖后,根據(jù)連接分布給出樹狀層次圖的最優(yōu)劃分[90]。Wang等[91]提出的快速層次聚類算法HC-PIN按凝聚方案聚類以發(fā)現(xiàn)蛋白質(zhì)相互作用網(wǎng)絡(luò)的功能模塊,該算法針對(duì)無/加權(quán)的SPIN計(jì)算邊聚類值,按貪心策略檢查聚類值高的邊,根據(jù)內(nèi)聚度將邊關(guān)聯(lián)的結(jié)點(diǎn)以凝聚方式聚類。HC-PIN算法對(duì)假陽性交互不敏感,所發(fā)現(xiàn)的功能模塊層次與GO層次大致對(duì)應(yīng),且能發(fā)現(xiàn)低密度的功能模塊,因此能適應(yīng)較大規(guī)模的蛋白質(zhì)相互作用網(wǎng)絡(luò)。

      1.2.3 基于流模擬聚類預(yù)測SPIN蛋白質(zhì)功能模塊算法

      TRIBE-MCL算法是一個(gè)以MCL原型為基礎(chǔ)的功能模塊檢測算法,它使用序列相似度計(jì)算隨機(jī)游走概率,利用交替執(zhí)行的擴(kuò)張和膨脹操作,增強(qiáng)密集連接區(qū)域內(nèi)網(wǎng)絡(luò)流的分布,并削弱跨密集連接區(qū)域網(wǎng)絡(luò)流,以劃分蛋白質(zhì)相互作用網(wǎng)絡(luò),從而實(shí)現(xiàn)蛋白質(zhì)功能模塊預(yù)測[92]。Gu等[93]提出的MLS算法采用連接相似度矩陣量化蛋白質(zhì)相互作用的關(guān)聯(lián)強(qiáng)度,并利用馬爾可夫聚類機(jī)制分化關(guān)聯(lián)強(qiáng)度,從而劃分連接相似度矩陣以預(yù)測功能模塊。Hwang等[94]首先對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)中每個(gè)蛋白質(zhì)擾動(dòng)后的信號(hào)傳導(dǎo)行為建模為動(dòng)態(tài)信號(hào)傳導(dǎo)模型,該模型合理集成了反應(yīng)率、蛋白質(zhì)濃度和交互化學(xué)當(dāng)量,隨后組合動(dòng)態(tài)信號(hào)傳導(dǎo)模型和圖拓?fù)湓O(shè)計(jì)STM算法。該算法基于簇的相似性迭代地合并高度互連的蛋白質(zhì)簇以形成聚類,從而以較低的放棄率兼顧檢測小而稠密或大而稀疏的生物學(xué)相關(guān)功能Gu模塊。CASCADE算法用蛋白質(zhì)之間的準(zhǔn)全路徑取代最短路徑從而發(fā)展了STM的思想,繼而在整個(gè)蛋白質(zhì)相互作用網(wǎng)絡(luò)中傳播分配結(jié)點(diǎn)的出現(xiàn)概率[95]。CASCADE算法繼承STM算法的優(yōu)點(diǎn):以較少的放棄率檢測小而稠密或大而稀疏的生物學(xué)相關(guān)功能Gu模塊。Inoue等[96]提出的ADMSC算法將蛋白質(zhì)相互作用網(wǎng)絡(luò)聚類作為擴(kuò)散過程中的隨機(jī)游走問題來分析求解,該算法使用幾何映射后的結(jié)點(diǎn)間角度距離來度量結(jié)點(diǎn)間相似度,為適應(yīng)網(wǎng)絡(luò)異構(gòu)性引入冪因子構(gòu)造可調(diào)整擴(kuò)散矩陣,并利用矩陣分解劃分蛋白質(zhì)相互作用網(wǎng)絡(luò),以預(yù)測蛋白質(zhì)功能模塊。

      1.2.4 基于群智能聚類預(yù)測SPIN蛋白質(zhì)功能模塊算法

      基于以下事實(shí)——具有短距離的兩個(gè)蛋白質(zhì)靠近的可能性很大,Sallim等[97]提出一個(gè)蟻群聚類預(yù)測算法ACOPIN,該算法首次將蟻群算法運(yùn)用于蛋白質(zhì)相互作用網(wǎng)絡(luò)的功能模塊檢測。Ji等[98]運(yùn)用蟻群算法結(jié)合功能信息和拓?fù)涮卣?,以檢測蛋白質(zhì)相互作用網(wǎng)絡(luò)中的功能模塊。然而,蟻群算法易陷于早熟的缺點(diǎn)會(huì)影響功能模塊檢測的結(jié)果。因此,在Ji等[98]的研究基礎(chǔ)上,Ji等[99]組合蟻群優(yōu)化策略和多智能體進(jìn)化策略提出ACO-MAE算法,該算法在搜索可行解空間時(shí)自適應(yīng)擴(kuò)展子空間以刪除局部最優(yōu)解,從而在檢測功能模塊過程中克服早熟的不足。Ji等[100]提出的ACC-FMD算法以高聚類系數(shù)蛋白質(zhì)為蟻群種子結(jié)點(diǎn),基于蟻群概率模型將蛋白質(zhì)添加到相應(yīng)聚類中,通過更新相似度函數(shù)對(duì)每次迭代的最佳聚類結(jié)果進(jìn)行信息遺傳。Yang等[101]提出的BFO-FMD算法利用細(xì)菌覓食的5個(gè)優(yōu)化機(jī)制:趨化、結(jié)合、繁殖、消除和分散,以檢測蛋白質(zhì)相互作用網(wǎng)絡(luò)中的功能模塊,且在確保收斂速度的同時(shí)獲得較高的準(zhǔn)確性。基于蛋白質(zhì)相互作用網(wǎng)絡(luò)結(jié)點(diǎn)間的最短路徑,Zheng等[102]在一個(gè)簡化的群體優(yōu)化算法SSO中分割和過濾搜索最短路徑,以生成功能模塊。Lei等[103]基于傳播機(jī)制提出一個(gè)人工蜂群聚類算法ABC以檢測蛋白質(zhì)相互作用網(wǎng)絡(luò)中的蛋白質(zhì)模塊。HFADE-FMD是一個(gè)差分進(jìn)化策略與煙花算法相結(jié)合的混合算法,它基于標(biāo)簽傳播機(jī)制并按拓?fù)浜凸δ苄畔⒊跏蓟療熁▊€(gè)體為候選功能模塊,然后運(yùn)用煙花算法的爆炸操作和差分進(jìn)化算法的變異、交叉、選擇策略迭代地搜索較佳的功能模塊劃分[104]。

      綜上所述,基于圖聚類功能模塊預(yù)測算法側(cè)重于利用拓?fù)浣Y(jié)構(gòu)的稠密特征發(fā)現(xiàn)功能模塊;基于層次聚類算法以蛋白質(zhì)間相似性度量為基礎(chǔ),迭代合并相似蛋白質(zhì)形成功能模塊;基于流模擬聚類算法以流的分布差異來發(fā)現(xiàn)拓?fù)浣Y(jié)構(gòu)的稠密區(qū)域,通過劃分SPIN來生成功能模塊;基于群智能聚類算法模擬群智能體行為搜索可行解空間,以檢測功能模塊。以上幾種聚類算法都在各自理論模型下預(yù)測結(jié)構(gòu)性模塊,但蛋白質(zhì)功能模塊并不完全遵循拓?fù)浣Y(jié)構(gòu)模塊化的特點(diǎn)。這些聚類算法提出不同的蛋白質(zhì)相似性度量方法,并以不同的方式融入蛋白質(zhì)功能信息,以提高功能模塊的預(yù)測精度,但如何預(yù)測生物相關(guān)性顯著的蛋白質(zhì)功能模塊尚待深入研究。

      如圖1所示,按編年史方式,可將基于靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)SPIN預(yù)測算法的研究劃分為3條并行時(shí)間線:預(yù)測SPIN中的蛋白質(zhì)復(fù)合物(PPC-SPIN)、預(yù)測SPIN中的蛋白質(zhì)功能模塊(PFM-SPIN)、預(yù)測SPIN中的蛋白質(zhì)復(fù)合物/功能模塊(PPC/FM-SPIN)。

      圖1 靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)復(fù)合物和功能模塊預(yù)測算法研究的3條并行時(shí)間線Fig.1 Three parallel time lines of algorithms study on predicting protein complexes and functional modules in static protein interaction network

      1.3 基于DPIN的復(fù)合物和功能模塊預(yù)測算法

      細(xì)胞周期或細(xì)胞響應(yīng)環(huán)境刺激都會(huì)引發(fā)不同的生物過程,在此過程中蛋白質(zhì)會(huì)根據(jù)功能的需要參與蛋白質(zhì)復(fù)合物的裝配和解配[105]。當(dāng)前開放數(shù)據(jù)庫中的蛋白質(zhì)相互作用數(shù)據(jù)是在不同的時(shí)間、地點(diǎn)、條件下產(chǎn)生的,這些蛋白質(zhì)相互作用數(shù)據(jù)僅說明蛋白質(zhì)之間存在相互作用,卻沒有說明這些相互作用在何時(shí)何地發(fā)生。事實(shí)上,蛋白質(zhì)之間的相互作用是隨時(shí)空環(huán)境變化而呈動(dòng)態(tài)性[106]。

      大量的PPI數(shù)據(jù)集由于缺乏時(shí)空信息而無法反映蛋白質(zhì)相互作用的動(dòng)態(tài)性。如何描述蛋白質(zhì)相互作用網(wǎng)絡(luò)的動(dòng)態(tài)行為以及同時(shí)出現(xiàn)的蛋白質(zhì)交互,成為蛋白質(zhì)復(fù)合物和功能模塊預(yù)測算法首要解決的問題。眾多研究者將時(shí)序基因表達(dá)數(shù)據(jù)與蛋白質(zhì)相互作用網(wǎng)絡(luò)組合,從而引入時(shí)間因素;而蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)與蛋白質(zhì)相互作用網(wǎng)絡(luò)組合則使空間因素得以引入[58]。De Lichtenberg等[107]使用這兩類數(shù)據(jù)研究釀酒酵母細(xì)胞周期內(nèi)蛋白質(zhì)復(fù)合物的變化,結(jié)果發(fā)現(xiàn)蛋白質(zhì)復(fù)合物具有即時(shí)裝配、即時(shí)合成、動(dòng)態(tài)調(diào)控等瞬時(shí)行為,且?guī)缀跛械牡鞍踪|(zhì)復(fù)合物均包含動(dòng)態(tài)和靜態(tài)亞基。Han等[108]在酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)中發(fā)現(xiàn)兩種中心蛋白質(zhì):party hub蛋白質(zhì)和date hub蛋白質(zhì),其中party hub蛋白質(zhì)在模塊內(nèi)同時(shí)與大多數(shù)蛋白質(zhì)交互而起作用,而date hub蛋白質(zhì)為實(shí)現(xiàn)特定生物過程在不同時(shí)間或地點(diǎn)與蛋白質(zhì)綁定并形成蛋白質(zhì)組。 Mucha等[109]介紹一個(gè)可用于時(shí)間相關(guān)、多尺度且含任意多幅網(wǎng)絡(luò)的動(dòng)態(tài)網(wǎng)絡(luò)社區(qū)預(yù)測流程,其中每幅網(wǎng)絡(luò)代表一個(gè)特定時(shí)間點(diǎn)的網(wǎng)絡(luò)。Party hub蛋白質(zhì)可從每幅蛋白質(zhì)相互作用網(wǎng)絡(luò)中預(yù)測出來,而通過考慮時(shí)序多幅蛋白質(zhì)相互作用網(wǎng)絡(luò)可預(yù)測出date hub蛋白質(zhì)。因此,通過檢查被檢測出來的社區(qū)是否在某幅蛋白質(zhì)相互作用網(wǎng)絡(luò)中,則有可能從蛋白質(zhì)相互作用網(wǎng)絡(luò)中區(qū)分出蛋白質(zhì)復(fù)合物和功能模塊[108]。

      綜上所述,構(gòu)建動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)DPIN能在一定程度上反映細(xì)胞系統(tǒng)中蛋白質(zhì)及其相互作用的動(dòng)態(tài)性,所以基于DPIN預(yù)測蛋白質(zhì)復(fù)合物和功能模塊比基于SPIN更具優(yōu)勢。構(gòu)建DPIN為設(shè)計(jì)蛋白質(zhì)復(fù)合物和功能模塊預(yù)測算法開辟了新的思路與方向。

      基于DPIN預(yù)測蛋白質(zhì)復(fù)合物和功能模塊的算法研究分為兩個(gè)步驟:第一步是構(gòu)建動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)DPIN,第二步是設(shè)計(jì)從構(gòu)建的DPIN中預(yù)測蛋白質(zhì)復(fù)合物和功能模塊的算法。

      1.3.1 動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)DPIN構(gòu)建算法

      在一個(gè)細(xì)胞生命周期內(nèi),隨著基因表達(dá)的時(shí)序關(guān)停,基因編碼的蛋白質(zhì)也時(shí)序地表現(xiàn)活性[110]。因此確定蛋白質(zhì)表現(xiàn)活性的時(shí)間,即所謂的活躍時(shí)間點(diǎn),是構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)的關(guān)鍵。Tang等[111]在構(gòu)造時(shí)間過程蛋白質(zhì)相互作用網(wǎng)絡(luò)(Time Course Protein Interaction Network,TC-PIN)時(shí),采用全局閾值過濾3個(gè)連續(xù)代謝周期中的非活躍酵母蛋白質(zhì)。相比于靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)SPIN和偽隨機(jī)網(wǎng)絡(luò),在TC-PIN上運(yùn)用MCL算法[28]識(shí)別出的蛋白質(zhì)復(fù)合物數(shù)量更多、生物意義更顯著。針對(duì)采用全局閾值難以適應(yīng)不同物種表達(dá)水平差異的問題,Wang等[112]提出3-sigma閾值原則以確定每個(gè)蛋白質(zhì)的活躍時(shí)間點(diǎn),構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)DPIN,然后運(yùn)用算法MCL[28]、CPM[113]和Core[37]從DPIN中識(shí)別蛋白質(zhì)復(fù)合物。Shen等[114]指出3-sigma閾值原則的過高閾值將有可能過濾基因表達(dá)水平不低的蛋白質(zhì),于是通過使用偏差度方法,構(gòu)造(加權(quán))時(shí)間演進(jìn)蛋白質(zhì)相互作用網(wǎng)絡(luò)TEPIN和WTEPIN,然后運(yùn)用算法ClusterONE[24]、MCL[28]和CAMSE[115]檢測時(shí)序蛋白質(zhì)復(fù)合物。Xiao等[116]提出使用k-sigma閾值原則過濾基因表達(dá)譜噪聲數(shù)據(jù),以確定蛋白質(zhì)活躍時(shí)間點(diǎn),繼而構(gòu)造噪聲過濾活躍蛋白質(zhì)相互作用網(wǎng)絡(luò)NF-APIN,最后運(yùn)用MCL算法[28]從NF-APIN中檢測蛋白質(zhì)復(fù)合物。

      上述研究均提出構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)的方法,但是這些方法有可能會(huì)忽略一些蛋白質(zhì)相互作用。王希等[117]在不丟失蛋白質(zhì)相互作用的前提下,刪除那些表達(dá)水平低的活躍時(shí)間點(diǎn),從而構(gòu)造蛋白質(zhì)相互作用全覆蓋的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)。這種方法不需要設(shè)置閾值,使蛋白質(zhì)相互作用數(shù)據(jù)得以最大限度地保留,但有可能丟失多次出現(xiàn)的蛋白質(zhì)相互作用。無論如何,構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)是建模細(xì)胞系統(tǒng)中蛋白質(zhì)動(dòng)態(tài)的有效手段。關(guān)于動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)DPIN的構(gòu)建方法及應(yīng)用可參閱文獻(xiàn)[58,118,119]。

      1.3.2 基于DPIN的蛋白質(zhì)復(fù)合物預(yù)測算法

      針對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)的動(dòng)態(tài)性,一些學(xué)者首先研究動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)造,然后設(shè)計(jì)基于動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)的蛋白質(zhì)復(fù)合物預(yù)測算法。Li等[120]構(gòu)建時(shí)間序列子網(wǎng)TSNs并運(yùn)用所提出的TSN-PCD算法從中識(shí)別蛋白質(zhì)復(fù)合物,然后基于識(shí)別的復(fù)合物構(gòu)建復(fù)合物-復(fù)合物交互網(wǎng)絡(luò),最后設(shè)計(jì)DFM-CIN算法檢測功能模塊。該算法不僅能區(qū)分蛋白質(zhì)復(fù)合物和功能模塊,而且能揭示蛋白質(zhì)復(fù)合物和功能模塊之間的關(guān)系。通過融合時(shí)序基因表達(dá)數(shù)據(jù)和蛋白質(zhì)交互數(shù)據(jù)構(gòu)建動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),Ou-yang等[121]提出一個(gè)時(shí)間平滑重疊復(fù)合物檢測模型TS-OCD來預(yù)測時(shí)序蛋白質(zhì)復(fù)合物,并利用基于非負(fù)矩陣分解的算法來合并那些在不同時(shí)間點(diǎn)預(yù)測出的相似蛋白質(zhì)復(fù)合物。通過以基因表達(dá)譜的平均值為活性閾值來構(gòu)造時(shí)序蛋白質(zhì)相互作用網(wǎng)絡(luò),Lakizadeh等[122]提出一種基于核心-附件模式、加權(quán)聚類系數(shù)和最大加權(quán)密度等方法并能從時(shí)序蛋白質(zhì)相互作用網(wǎng)絡(luò)中檢測蛋白質(zhì)復(fù)合物的PCD-GED算法?;趉-sigma閾值原則,Zhang等[123,124]通過計(jì)算不同時(shí)間點(diǎn)每個(gè)蛋白質(zhì)的活性概率以確定蛋白質(zhì)活躍時(shí)間點(diǎn),構(gòu)造動(dòng)態(tài)概率蛋白質(zhì)相互作用網(wǎng)絡(luò),并進(jìn)一步疊加PPI皮爾森相關(guān)系數(shù)構(gòu)造新的動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),然后基于核心-附件結(jié)構(gòu)分別在這兩種動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中檢測蛋白質(zhì)復(fù)合物。Lei等[125-127]和Zhao等[128]利用3-sigma閾值原則構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),設(shè)計(jì)基于群智能體行為的算法以識(shí)別蛋白質(zhì)復(fù)合物。此外,Lei等[129]運(yùn)用3-sigma閾值原則構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),基于核心-附件結(jié)構(gòu),按種子擴(kuò)張策略先后生成蛋白質(zhì)核心和附件,以檢測蛋白質(zhì)復(fù)合物。Shen等[130]構(gòu)建鄰近親和度動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),選擇高聚類系數(shù)蛋白質(zhì)及其鄰居構(gòu)成初始簇,通過迭代擴(kuò)展鄰居蛋白質(zhì)到簇中來檢測蛋白質(zhì)復(fù)合物。為處理不確定數(shù)據(jù),Zhang等[131]利用k-sigma閾值原則計(jì)算結(jié)點(diǎn)活性概率,針對(duì)PPI拓?fù)浣Y(jié)構(gòu)計(jì)算邊的存在概率,依據(jù)結(jié)點(diǎn)和邊的存在性概率構(gòu)造動(dòng)態(tài)不確定蛋白質(zhì)相互作用網(wǎng)絡(luò),進(jìn)而依照核心-附件結(jié)構(gòu)開發(fā)蛋白質(zhì)復(fù)合物預(yù)測算法。Lei等[132]依據(jù)3-sigma閾值原則構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),組合皮爾森相關(guān)系數(shù)、邊聚類系數(shù)、GO功能標(biāo)注和區(qū)室共定位,對(duì)所構(gòu)造的網(wǎng)絡(luò)進(jìn)行加權(quán),在此基礎(chǔ)上提出一個(gè)基于拓?fù)鋭菽艿姆N子擴(kuò)展算法以識(shí)別蛋白質(zhì)復(fù)合物。為獲得更多的動(dòng)態(tài)信息,Zhang等[133]按基因表達(dá)波動(dòng)幅度來確定蛋白質(zhì)活躍時(shí)間點(diǎn),并構(gòu)造時(shí)間區(qū)間動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)TI-PINs,然后設(shè)計(jì)算法ICJointLE-DPN并從TI-PINs中精確預(yù)測出相對(duì)多的蛋白質(zhì)復(fù)合物。Xie等[134]按3-sigma閾值原則構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),以模塊緊密度和啟發(fā)式蟻群優(yōu)化算法獲得聚類,通過過濾合并聚類以形成蛋白質(zhì)復(fù)合物。Lei等[135]通過組合共必要、共定位、共標(biāo)注和共聚類4種關(guān)系,重構(gòu)多關(guān)系動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),按稠密度發(fā)現(xiàn)候選蛋白質(zhì)核心,并給出改進(jìn)的鮮花授粉算法以發(fā)現(xiàn)外圍蛋白質(zhì),進(jìn)而實(shí)現(xiàn)蛋白質(zhì)復(fù)合物的預(yù)測。Wang等[136]同樣根據(jù)3-sigma閾值原則確定蛋白質(zhì)活躍時(shí)間點(diǎn)和概率,通過組合基因表達(dá)、GO功能標(biāo)注和高階共鄰測量構(gòu)造動(dòng)態(tài)網(wǎng)絡(luò),然后運(yùn)用貪心啟發(fā)搜索檢測蛋白質(zhì)復(fù)合物。上述報(bào)道的研究特點(diǎn)是,組合基因表達(dá)數(shù)據(jù)和蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),然后設(shè)計(jì)從動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中識(shí)別復(fù)合物的算法。值得注意的是,有些靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)預(yù)測復(fù)合物的算法可以向動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)移植。

      1.3.3 基于DPIN的蛋白質(zhì)功能模塊預(yù)測算法

      由于動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)有望區(qū)分復(fù)合物和功能模塊,因此一些學(xué)者以預(yù)測功能模塊為目標(biāo)而構(gòu)建動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)。Lin等[137]在靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中集成生物學(xué)標(biāo)注和基因表達(dá)譜,以構(gòu)造擴(kuò)張型心肌病共表達(dá)動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),并揭示心肌收縮階段和器官形態(tài)建成階段的蛋白質(zhì)功能模塊的動(dòng)態(tài)變化。Jin等[138]指出動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)功能模塊中蛋白質(zhì)具有兩個(gè)特點(diǎn):一是蛋白質(zhì)在靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)中是連通的,二是結(jié)點(diǎn)的表達(dá)譜在時(shí)域形成特定結(jié)構(gòu)。通過使用時(shí)序基因表達(dá)數(shù)據(jù)構(gòu)建網(wǎng)絡(luò),Tang等[111]提出一個(gè)時(shí)序PPI模型以預(yù)測功能模塊。Zhang等[139]組合蛋白質(zhì)活性、基因共表達(dá)和PPI數(shù)據(jù),構(gòu)造動(dòng)態(tài)共調(diào)控蛋白質(zhì)相互作用網(wǎng)絡(luò),并基于非負(fù)矩陣分解的貝葉斯圖模型檢測功能模塊。Lei等[140]按3-sigma閾值原則構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)DPIN,并將螢火蟲算法FA分別與算法MCL、R-MCL和SR-MCL融合,提出算法F-MCL、FR-MCL和FSR-MCL以檢測動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)DPIN中的蛋白質(zhì)功能模塊。

      基于動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)預(yù)測復(fù)合物和功能模塊的算法研究起步相對(duì)較晚,報(bào)道的成果相對(duì)較少,但基于動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)的研究方向已掀起新熱潮,并將與基于靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)的研究一起促進(jìn)預(yù)測算法的發(fā)展。如圖2所示,動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)復(fù)合物和功能模塊預(yù)測算法研究有3條并行時(shí)間線:構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)(C-DPIN),預(yù)測動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)復(fù)合物(PPC-DPIN)和預(yù)測動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)功能模塊(PFM-DPIN)。

      圖2 動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)復(fù)合物和功能模塊預(yù)測算法研究的3條并行時(shí)間線Fig.2 Three parallel time lines of algorithms study on predicting protein complexes and functional modules in dynamic protein interaction networks

      2 數(shù)據(jù)集

      本節(jié)介紹基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的蛋白質(zhì)復(fù)合物和功能模塊預(yù)測算法研究所涉及的PPI數(shù)據(jù)集、復(fù)合物數(shù)據(jù)集、功能模塊數(shù)據(jù)集、基因表達(dá)數(shù)據(jù)集和蛋白質(zhì)共定位數(shù)據(jù)集。

      PPI數(shù)據(jù)是蛋白質(zhì)復(fù)合物和功能模塊預(yù)測算法研究的基礎(chǔ)數(shù)據(jù),表1列出一些常用于預(yù)測復(fù)合物和功能模塊的PPI數(shù)據(jù)集。

      表1 常用的PPI數(shù)據(jù)集Table 1 Commonly used PPI data sets

      高通量蛋白質(zhì)組和生物信息學(xué)算法方面的進(jìn)展,使得不少高質(zhì)量的蛋白質(zhì)復(fù)合物數(shù)據(jù)集得以建立,這些復(fù)合物數(shù)據(jù)集可作為金標(biāo)準(zhǔn)數(shù)據(jù)集。表2列出一部分包含蛋白質(zhì)復(fù)合物組成的常用數(shù)據(jù)庫。

      表2 蛋白質(zhì)復(fù)合物數(shù)據(jù)庫Table 2 Protein complex database

      蛋白質(zhì)功能模塊是按照生物功能進(jìn)行劃分的蛋白質(zhì)集合,因此功能模塊是根據(jù)功能分類進(jìn)行界定的。功能目錄FunCat[151]提供層次化的功能分類,一些全世界開放的數(shù)據(jù)庫存儲(chǔ)有典型模式生物蛋白質(zhì)的FunCat功能類別標(biāo)注。例如,模式生物釀酒酵母的蛋白質(zhì)功能類別標(biāo)注可從MIPs數(shù)據(jù)庫(http://mips.gsf.de/proj/funcatDB)中獲取[151],而人類的蛋白質(zhì)功能類別標(biāo)注可從Corum數(shù)據(jù)庫(http://mips.helmholtz-muenchen.de/genre/proj/corum)中獲得[152]。研究者們將具有相同F(xiàn)unCat功能類別標(biāo)注的蛋白質(zhì)分為一類,從而形成基于FunCat功能類別的蛋白質(zhì)類,這些蛋白質(zhì)分類可為各種蛋白質(zhì)功能模塊預(yù)測算法提供金標(biāo)準(zhǔn)數(shù)據(jù)集。

      基因表達(dá)數(shù)據(jù)是一組基因在若干時(shí)間點(diǎn)上的mRNA豐度采樣值,它可以反映一組基因在整個(gè)采樣過程的動(dòng)態(tài)表達(dá)模式。由于包含時(shí)間信息,基因表達(dá)數(shù)據(jù)成為構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)必不可少的重要數(shù)據(jù),同時(shí)可用于分析相互作用蛋白質(zhì)之間表達(dá)相關(guān)性和疾病基因的差異表達(dá)等。表3給出來源于Omnibus的常用基因表達(dá)數(shù)據(jù)集。

      表3 常用的基因表達(dá)數(shù)據(jù)集Table 3 Commonly used gene expression data sets

      蛋白質(zhì)定位數(shù)據(jù)記錄細(xì)胞周期中蛋白質(zhì)組在不同亞細(xì)胞區(qū)室的出現(xiàn)情況,反映一個(gè)細(xì)胞周期中蛋白質(zhì)為發(fā)揮生物功能而曾經(jīng)出現(xiàn)的亞細(xì)胞場所。顯然,蛋白質(zhì)定位數(shù)據(jù)為構(gòu)造動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)提供了空間信息。表4給出常用的蛋白質(zhì)亞細(xì)胞定位標(biāo)注數(shù)據(jù)集。

      表4 常用的蛋白質(zhì)亞細(xì)胞定位標(biāo)注數(shù)據(jù)集Table 4 Commonly used subcellular localization-annotated protein data sets

      3 展望

      對(duì)蛋白質(zhì)組學(xué)數(shù)據(jù)的正確預(yù)測可以揭示蛋白質(zhì)在不同生物學(xué)背景下的新功能。相互作用組學(xué)進(jìn)一步揭示了真正參與生物過程的蛋白質(zhì)復(fù)合物和功能模塊,以及它們的改變?nèi)绾螌?dǎo)致功能障礙,因此相互作用組學(xué)的研究對(duì)于解密蛋白質(zhì)復(fù)合物的分子功能尤為重要[165]。然而,在細(xì)胞周期或響應(yīng)外界刺激時(shí),一個(gè)蛋白質(zhì)可與數(shù)個(gè)宏分子復(fù)合物裝配,這使得根據(jù)PPI數(shù)據(jù)庫中相互作用結(jié)果的解釋變得復(fù)雜[166]。為提取更多的功能信息,進(jìn)一步開發(fā)和實(shí)現(xiàn)系統(tǒng)生物學(xué)工具預(yù)測蛋白質(zhì)復(fù)合物和功能模塊,將有助于理解生物過程的結(jié)構(gòu)組織和作用機(jī)理,從而在臨床上促進(jìn)和疾病過程相關(guān)的研究和靶向藥物設(shè)計(jì)的發(fā)展。因此,基于蛋白質(zhì)相互作用網(wǎng)絡(luò)研究預(yù)測蛋白質(zhì)復(fù)合物和功能模塊算法具有深遠(yuǎn)的意義。

      當(dāng)前,基于蛋白質(zhì)相互作用網(wǎng)絡(luò)研究蛋白質(zhì)復(fù)合物和功能模塊預(yù)測算法需要解決以下問題。

      第一,實(shí)驗(yàn)技術(shù)的局限性使得PPI數(shù)據(jù)集存在一定程度的假陽性和假陰性數(shù)據(jù)。假陽性數(shù)據(jù)的存在給準(zhǔn)確預(yù)測蛋白質(zhì)復(fù)合物和功能模塊帶來干擾,基因共表達(dá)、蛋白質(zhì)共定位和結(jié)構(gòu)域相互作用的競爭性可以在一定程度上排除假陽性交互的干擾。假陰性則需要借助其他類型的生物學(xué)數(shù)據(jù)間接推斷來排除。因此,在濕式實(shí)驗(yàn)方法之外,利用生物學(xué)數(shù)據(jù)建立計(jì)算模型并設(shè)計(jì)算法,以排除假陽性交互、減少假陰性交互并預(yù)測蛋白質(zhì)真交互是一個(gè)有待深入研究的課題。

      第二,復(fù)合物中蛋白質(zhì)的共定位、共表達(dá)特性以及蛋白質(zhì)相互作用的相容性是復(fù)合物形成的必要條件。蛋白質(zhì)翻譯后修飾和空間構(gòu)象的形成決定蛋白質(zhì)所發(fā)揮的生物功能,生物過程中蛋白質(zhì)物理地綁定彼此形成復(fù)合物以實(shí)施相應(yīng)功能是受內(nèi)在生化機(jī)理所驅(qū)動(dòng)。因此,基于蛋白質(zhì)相互作用網(wǎng)絡(luò)設(shè)計(jì)算法預(yù)測復(fù)合物有待融入更有力的生物學(xué)數(shù)據(jù),在缺乏直接有力的生物學(xué)數(shù)據(jù)的情況下,設(shè)計(jì)準(zhǔn)確有效的蛋白質(zhì)復(fù)合物預(yù)測算法仍然是一個(gè)開放的問題。

      第三,涉及同一生物過程的蛋白質(zhì)及其相互作用表現(xiàn)出級(jí)聯(lián)信號(hào)轉(zhuǎn)導(dǎo)的時(shí)序性,即執(zhí)行生物過程的功能模塊中的蛋白質(zhì)及其相互作用并不局限于同一時(shí)間、同一空間。因此,在缺少時(shí)間信息的蛋白質(zhì)相互作用網(wǎng)絡(luò)中檢測功能模塊將難以獲得較高的準(zhǔn)確性。在已知蛋白質(zhì)功能的前提下,采用基于主題的社區(qū)發(fā)現(xiàn)算法可以檢測已知功能模塊,但卻失去了預(yù)測蛋白質(zhì)功能的作用。雖然相互作用的兩個(gè)蛋白質(zhì)是共表達(dá)的,但是時(shí)序相互作用的多個(gè)蛋白質(zhì)卻不是集體共表達(dá)的。因此,預(yù)測蛋白質(zhì)功能模塊要解決蛋白質(zhì)表達(dá)及其相互作用的時(shí)序相關(guān)性分析問題。

      第四,基因表達(dá)數(shù)據(jù)和蛋白質(zhì)定位數(shù)據(jù)的引入使蛋白質(zhì)交互滿足時(shí)空約束,因此,基于動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)預(yù)測復(fù)合物或功能模塊,相比于基于靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)具有一定的優(yōu)勢。但動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)造首先要解決蛋白質(zhì)活躍時(shí)間點(diǎn)的問題,也就是蛋白質(zhì)活躍的判定問題。另外,當(dāng)前動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)造方法僅考慮共表達(dá)的蛋白質(zhì)及其正相關(guān)互調(diào)控的相互作用,對(duì)于反相關(guān)負(fù)調(diào)控的抑制作用無法反映。存在相互作用的蛋白質(zhì)在某兩個(gè)時(shí)刻同時(shí)活躍并不意味著兩個(gè)時(shí)刻都相互作用,但目前已有的動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)造方法卻無法區(qū)別該情況而導(dǎo)致假陽性交互的增加。因此,針對(duì)這些問題設(shè)計(jì)新的動(dòng)態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)造方法也是一個(gè)有待解決的課題。

      第五,已有的大多數(shù)預(yù)測算法忽略了只由2個(gè)蛋白質(zhì)構(gòu)成的復(fù)合物和功能模塊,對(duì)于準(zhǔn)確識(shí)別規(guī)模較大復(fù)合物和功能模塊也存在較大的難度。在實(shí)際中,由2個(gè)蛋白質(zhì)構(gòu)成的蛋白質(zhì)復(fù)合物和功能模塊大量存在,因此準(zhǔn)確預(yù)測規(guī)模為2的復(fù)合物和功能模塊具有重要意義[167]。對(duì)于規(guī)模較大復(fù)合物和功能模塊的準(zhǔn)確預(yù)測目前尚無公認(rèn)的有效算法,這表明設(shè)計(jì)開發(fā)兼顧規(guī)模為2和規(guī)模較大的蛋白質(zhì)復(fù)合物/功能模塊預(yù)測算法仍然是一個(gè)挑戰(zhàn)。

      猜你喜歡
      功能模塊結(jié)點(diǎn)復(fù)合物
      BeXY、MgXY(X、Y=F、Cl、Br)與ClF3和ClOF3形成復(fù)合物的理論研究
      柚皮素磷脂復(fù)合物的制備和表征
      中成藥(2018年7期)2018-08-04 06:04:18
      黃芩苷-小檗堿復(fù)合物的形成規(guī)律
      中成藥(2018年3期)2018-05-07 13:34:18
      Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
      基于ASP.NET標(biāo)準(zhǔn)的采購管理系統(tǒng)研究
      輸電線路附著物測算系統(tǒng)測算功能模塊的研究
      M市石油裝備公服平臺(tái)網(wǎng)站主要功能模塊設(shè)計(jì)與實(shí)現(xiàn)
      功能模塊的設(shè)計(jì)與應(yīng)用研究
      基于Raspberry PI為結(jié)點(diǎn)的天氣云測量網(wǎng)絡(luò)實(shí)現(xiàn)
      鐵氧化物-胡敏酸復(fù)合物對(duì)磷的吸附
      安化县| 饶阳县| 新乡县| 武川县| 阿拉尔市| 庆安县| 郧西县| 武川县| 武安市| 平山县| 盐源县| 吉木萨尔县| 上犹县| 青神县| 大化| 集安市| 治县。| 南康市| 沙坪坝区| 娄烦县| 海盐县| 攀枝花市| 商南县| 商都县| 英德市| 自治县| 日喀则市| 达日县| 馆陶县| 枞阳县| 金寨县| 鄢陵县| 义乌市| 衡东县| 郴州市| 镇雄县| 江城| 安顺市| 桑植县| 连云港市| 化德县|