孫晶京
(山西農(nóng)業(yè)大學(xué) 文理學(xué)院,山西 太谷 030801)
蛋白質(zhì)是生物大分子,可以與其他各種分子相互作用,如DNA、RNA、小的配體和其他蛋白質(zhì)。這些相互作用是促進(jìn)細(xì)胞中大多數(shù)生物學(xué)過程的主力,包括基因表達(dá),細(xì)胞生長、增殖,營養(yǎng)吸收,形態(tài),運(yùn)動性,細(xì)胞間通訊以及細(xì)胞凋亡。在分子水平上了解這些相互作用對于開發(fā)新的治療方案,注釋蛋白質(zhì)功能,研究疾病的分子機(jī)制以及描述蛋白質(zhì)相互作用網(wǎng)絡(luò)非常重要。因此蛋白質(zhì)的相互作用 (PPI)預(yù)測得到了研究人員的廣泛關(guān)注,并提出了很多方法,包括物理化學(xué)實(shí)驗(yàn)方法和計(jì)算方法。物理化學(xué)實(shí)驗(yàn)技術(shù)可以識別蛋白質(zhì)之間的物理化學(xué)相互作用,進(jìn)而可以預(yù)測蛋白質(zhì)之間的功能關(guān)系。這些技術(shù)包括基于酵母雙雜交的方法、免疫共沉淀、串聯(lián)親和純化、蛋白質(zhì)芯片和混合方法等。盡管這些技術(shù)已經(jīng)成功地鑒定了幾種物種的幾種重要的相互作用蛋白,如酵母和擬南芥等,但是,實(shí)驗(yàn)方法在檢測PPI方面存在費(fèi)時費(fèi)力、檢測效率低、難以識別弱相互作用等缺點(diǎn)。因此,人們開始尋求一些新的計(jì)算方法來驗(yàn)證實(shí)驗(yàn)結(jié)果并加速對未知蛋白質(zhì)相互作用的預(yù)測。
近年來,已提出許多用于預(yù)測蛋白質(zhì)相互作用的計(jì)算方法。這些方法可以分為兩類:基于結(jié)構(gòu)的預(yù)測和基于序列的預(yù)測?;诮Y(jié)構(gòu)的預(yù)測方法受到由實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)相對較少的約束,相反,基于序列的預(yù)測方法只需要蛋白質(zhì)序列即可預(yù)測蛋白質(zhì)相互作用。因此,本文主要介紹基于序列的PPI預(yù)測方法的研究進(jìn)展。
基于序列的PPI預(yù)測方法主要是利用氨基酸(AA)特性,比如疏水性,理化特性,進(jìn)化譜,AA組成,AA平均值或滑動窗口上的加權(quán)平均值等。可以分為統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)的方法。
1.1.1 鏡像樹
Pazos和Valencia[1]提出的鏡像樹是一種基于統(tǒng)計(jì)的方法,基于相關(guān)蛋白質(zhì)家族序列之間進(jìn)化距離的比較和系統(tǒng)樹的拓?fù)湎嗨菩詠眍A(yù)測PPI。其距離來自McLachlan氨基酸同源性矩陣的殘基相似性的平均值。將樹之間的相似度用于構(gòu)建樹的距離矩陣之間的相關(guān)性。鏡像樹方法不需要創(chuàng)建系統(tǒng)樹,而僅分析基礎(chǔ)距離矩陣,因此,此方法獨(dú)立于樹的構(gòu)建方法。盡管鏡像樹方法不需要完全測序的基因組,但要求在考慮的所有物種中都存在直系同源蛋白。所以,當(dāng)更多的物種基因組可用時,可以應(yīng)用的蛋白質(zhì)就更少了。此外,由于距離矩陣不是系統(tǒng)樹的最佳表示,因此基于對距離矩陣的比較可能引入一些誤差。
1.1.2 共同進(jìn)化差異
Liu等[2]提出了一種共同進(jìn)化差異 (CD)的方法來預(yù)測人類蛋白質(zhì)的相互作用。該方法基于兩個假設(shè),一個是PPI對可能具有相似的替代率,另一個是,PPI更可能在相關(guān)物種之間保存。CD定義為兩個蛋白質(zhì)之間取代率差異的絕對值。CD方法結(jié)合了來自許多物種的相互作用蛋白對的共同進(jìn)化信息。該方法未使用多元比對,因此比其他比對方法(如鏡像樹)花費(fèi)時間更少。該方法不要求所研究物種具有直系同源性的蛋白質(zhì),但增加物種數(shù)量有利于提高方法的準(zhǔn)確性。盡管此方法可以確定給定蛋白質(zhì)對相互作用的可能性,但它不能推斷相互作用的特定特征,如界面中的相互作用殘基。
1.2.1 自協(xié)方差
Guo等[3]提出了一種使用自協(xié)方差 (AC)和支持向量機(jī) (SVM)來預(yù)測PPI的方法。其中用AC來表征序列中相距一定距離的殘基之間的相互作用。這樣蛋白質(zhì)序列則由一系列AC表征,然后使用AC向量作為輸入,構(gòu)建SVM模型。實(shí)驗(yàn)表明,一個AA殘基與其30個鄰位AA的相互作用將有助于表征PPI信息。該方法的優(yōu)點(diǎn)是AC包含了AA殘基的遠(yuǎn)程相互作用信息,這在PPI識別中很重要。
1.2.2 相似比對
Zaki等[4]提出了一種基于蛋白質(zhì)一級結(jié)構(gòu)成對相似性比較的PPI預(yù)測方法。每個蛋白質(zhì)序列通過滑動窗口創(chuàng)建的AA子序列的相似值來表示。然后使用這些值作為輸入,構(gòu)建SVM模型。因此,蛋白質(zhì)序列的相似性暗示了其同源性,也揭示了結(jié)構(gòu)和功能的相似性。
1.2.3 氨基酸組分
Roy等[5]研究了氨基酸組分 (AAC)在PPI預(yù)測中的作用及其常見特征 (例如域、元組特征和標(biāo)識產(chǎn)物特征)的性能。每個蛋白質(zhì)對用AAC和域特征來表示。AAC以單體和二聚體特征來表示。單體特征是由單個AA特征組成,而二聚體特征是由連續(xù)AA對的特征組成。然后將這些特征離散化為二進(jìn)制特征。域特征是由離散化的域名標(biāo)識來表示。為了將AAC與其他基于非域序列的特征進(jìn)行比較,創(chuàng)建了元組特征和標(biāo)識產(chǎn)物特征。并使用三個機(jī)器學(xué)習(xí)分類器 (邏輯回歸,SVM和樸素貝葉斯)對提出的方法進(jìn)行了評估。結(jié)果表明,AAC在不同數(shù)據(jù)集和分類器中所做的貢獻(xiàn)幾乎等同,這表明AAC包含了識別PPI的重要信息。AAC適用于任何蛋白質(zhì)序列,尤其在缺乏域信息時非常有用。AAC也可以結(jié)合其他特征來提高PPI預(yù)測的能力。
1.2.4 蛋白質(zhì)相互作用的通用計(jì)算機(jī)模擬預(yù)測器(UNISPPI)
Valente等[6]提出了UNISPPI方法。該方法使用20種AA理化性質(zhì)的頻率和組成,用于訓(xùn)練決策樹分類器。頻率特征集包括20個AA在蛋白質(zhì)序列中的百分比。每個AA歸入與理化性質(zhì)相關(guān)的三個不同組之一,并計(jì)算每個特征的每個組的百分比,最終得到共21個組成特征,從而構(gòu)建了組成特征集。結(jié)果表明,僅使用AA頻率就足以預(yù)測PPI。另外,天冬酰胺,半胱氨酸和異亮氨酸的AA頻率是區(qū)分相互作用和非相互作用蛋白對的重要特征。UNISPPI的主要優(yōu)點(diǎn)是簡單和計(jì)算成本低,因?yàn)樯倭刻卣饔糜谟?xùn)練決策樹分類器。但是,決策樹分類器通常會出現(xiàn)過度擬合的問題。
1.2.5 ETB-Viterbi
Kern[7]提出的ETB-Viterbi是ipHMMs中的一種具有早期追溯機(jī)制的解碼算法 (“交互特征隱馬爾可夫模型”),該算法旨在最佳地將輸入序列中相互作用的AA殘基之間的長距離相關(guān)性納入其中。它能夠捕獲長距離相關(guān)性以提高預(yù)測精度,且不受序列方向的影響。但是,Viterbi算法在內(nèi)存和計(jì)算時間上是非常昂貴的。因?yàn)殡[馬爾可夫模型訓(xùn)練涉及Viterbi算法的重復(fù)迭代,且可能無法收斂到給定訓(xùn)練集的真正最佳參數(shù)集,也可能會出現(xiàn)過度擬合現(xiàn)象。
本文對基于序列的蛋白質(zhì)相互作用預(yù)測的計(jì)算技術(shù)進(jìn)行了回顧,總結(jié)了幾種相關(guān)的現(xiàn)有方法,并對它們進(jìn)行了分類和比較。顯然,為了達(dá)到合理的預(yù)測精度,PPI預(yù)測仍然需要大量的研究工作。在現(xiàn)有PPI預(yù)測方法中的特征更多關(guān)注AA理化性質(zhì),而忽略了蛋白質(zhì)的生物學(xué)特性。在未來工作中,應(yīng)更加關(guān)注將生物學(xué)知識納入預(yù)測方法中。