王芳,李洪進(jìn),李虎陽
(遵義醫(yī)科大學(xué) 醫(yī)學(xué)信息工程學(xué)院,貴州 遵義 563000)
蛋白質(zhì)舊稱“朊”,是一種復(fù)雜的有機(jī)化合物,是生命的物質(zhì)基礎(chǔ),約占人體重量的16%~20%,是人體一切細(xì)胞、組織的重要組成部分。
氨基酸是構(gòu)成蛋白質(zhì)的基本單位,在脫水縮合的方式下形成連接兩個(gè)氨基酸分子的肽鍵,進(jìn)而連接形成肽鏈,如圖1所示。氨基酸按照不同的比例組合成種類繁多的蛋白質(zhì),且不同蛋白質(zhì)的性質(zhì)和功能各不相同。
圖1 氨基酸脫水后形成肽鍵
蛋白質(zhì)結(jié)構(gòu)的不同決定了蛋白質(zhì)之間的功能差異。一般而言,蛋白質(zhì)具有一到四級結(jié)構(gòu),如圖2所示。
圖2 蛋白質(zhì)的結(jié)構(gòu)示意圖
(1)一級結(jié)構(gòu)(primary structure)。該結(jié)構(gòu)屬于一維空間結(jié)構(gòu),是指氨基酸的殘基在肽鏈中的排列順序?yàn)榫€性氨基酸序列,該定義僅適用于簡單的蛋白質(zhì),其形態(tài)千變?nèi)f化。(2)二級結(jié)構(gòu)(secondary structure)。常用來描述肽鏈按一定的規(guī)律卷曲或折疊的特定空間結(jié)構(gòu),是一種穩(wěn)定且有限的結(jié)構(gòu),比如α-螺旋結(jié)構(gòu)和β-折疊結(jié)構(gòu)。(3)三級結(jié)構(gòu)(tertiary structure)。是指蛋白質(zhì)分子中的肽鏈在二級結(jié)構(gòu)的基礎(chǔ)上發(fā)展形成更為復(fù)雜的三維結(jié)構(gòu),是蛋白質(zhì)的高級結(jié)構(gòu),通過二級結(jié)構(gòu)預(yù)測三級結(jié)構(gòu)是目前研究的重點(diǎn)課題。(4)四級結(jié)構(gòu)(quaternary structure)。是指具有獨(dú)立三級結(jié)構(gòu)的多肽鏈通過相互作用組合而成的聚集體結(jié)構(gòu),由于其可分離,所以屬于一種不穩(wěn)定的結(jié)構(gòu),是蛋白質(zhì)最高級的結(jié)構(gòu)。
迄今已有約一千種蛋白質(zhì)的一級結(jié)構(gòu)被研究確定,如胰島素、胰核糖核酸酶、胰蛋白酶等。由于蛋白質(zhì)只有在折疊成特定結(jié)構(gòu)之后才能行使其生物學(xué)功能,如若蛋白質(zhì)折疊錯誤,則會導(dǎo)致蛋白質(zhì)行使錯誤的功能,比如阿爾茲海默癥病患者的顯微病理呈現(xiàn)的神經(jīng)纖維纏結(jié)主要由高度磷酸化的微管相關(guān)的Tau 蛋白異常折疊聚集而成。
了解蛋白質(zhì)的結(jié)構(gòu)有助于我們更好地認(rèn)識蛋白質(zhì)的功能、功能機(jī)制和執(zhí)行方式,充分發(fā)掘其生物信息,因此正確預(yù)測蛋白質(zhì)結(jié)構(gòu)對于生物學(xué)、醫(yī)藥學(xué)等領(lǐng)域的研究發(fā)揮著至關(guān)重要的作用。
蛋白質(zhì)的折疊并非全是自發(fā)折疊,其還會受很多外在因素(作用力)的影響。雖然對蛋白質(zhì)折疊機(jī)理的研究是生命科學(xué)領(lǐng)域的前沿課題,吸引了很多物理學(xué)家和生物學(xué)家的廣泛關(guān)注,但由于蛋白質(zhì)結(jié)構(gòu)的復(fù)雜性,我們對蛋白質(zhì)的折疊過程仍然知之甚少。一些理論研究和實(shí)驗(yàn)結(jié)果使得我們對蛋白質(zhì)的折疊過程有了更加深入的了解,但仍然存在很多懸而未決的問題。
由于蛋白質(zhì)序列數(shù)目的快速增長,隨之而來的龐大數(shù)據(jù)使得傳統(tǒng)的試驗(yàn)方法無法與之更新速度相匹配,所以新理論新方法的誕生,為研究蛋白質(zhì)結(jié)構(gòu)和功能之間的關(guān)系提供了廣闊的平臺。隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,對蛋白質(zhì)結(jié)構(gòu)的預(yù)測與計(jì)算機(jī)科學(xué)之間也產(chǎn)生了密不可分的聯(lián)系。近年來,基于計(jì)算機(jī)理論來預(yù)測蛋白質(zhì)二級結(jié)構(gòu)的方法迅猛發(fā)展,比如模糊聚類分析、貝葉斯分類方法、馬爾科夫鏈、支持向量機(jī)(SVM)、K 近鄰、人工神經(jīng)網(wǎng)絡(luò)(ANN)等,其中部分分析方法的預(yù)測精度較好。
采用PseAA方法提取蛋白質(zhì)序列特征,彌補(bǔ)了常用方法AAC信息易丟失的弊端,并在引入近似熵、疏水性模式以及圖像處理方法進(jìn)行提取的基礎(chǔ)上,張安勝等人提出一種基于深度學(xué)習(xí)的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方法。在蛋白質(zhì)序列特征的提取中,用一個(gè)30-D 特征向量來表示一條蛋白質(zhì)序列,利用近似熵、疏水模式以及圖像處理方法等獲取蛋白質(zhì)序列的特征向量,其中近似熵用來估算蛋白質(zhì)序列的復(fù)雜度,并給出了近似熵的計(jì)算方法。在對二級結(jié)構(gòu)進(jìn)行預(yù)測時(shí),使用四個(gè)限制玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)堆疊而成的深度玻爾茲曼機(jī)(DBM),該DBM 結(jié)構(gòu)包括一個(gè)輸入層(由一個(gè)30-D 蛋白質(zhì)特征向量構(gòu)成)、一個(gè)輸出層(由一個(gè)4-D 向量構(gòu)成,用來表示蛋白質(zhì)所屬類別)、4 個(gè)隱藏層。通過樣本對RBM 逐層訓(xùn)練,在訓(xùn)練中采用Hinton 提出的逐層貪婪優(yōu)化訓(xùn)練的策略(快速近似算法,CD)得到與輸入的30-D蛋白質(zhì)特征向量類似分布的輸出作為微調(diào)(采用BP 算法)的權(quán)值。
采用k 維交叉驗(yàn)證法對Z498 和FC699 數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),結(jié)果表明這種蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方法的預(yù)測準(zhǔn)確率較好,在Z498 上可達(dá)92.78%,且在FC699 上的預(yù)測精度(63.4%)高于傳統(tǒng)的預(yù)測方法(貝葉斯55.8%、K 近鄰
56.9%、SVM62.5%、ANN63.1%)。
通過融合蛋白質(zhì)序列的多種信息,利用多維尺度分析對位置特異性得分矩陣的自協(xié)方差轉(zhuǎn)換(ACCPSSM)提取的進(jìn)化信息進(jìn)行降維,以減少機(jī)器學(xué)習(xí)的計(jì)算成本。利用PseAAC 方法提取蛋白質(zhì)序列信息,通過二維小波降噪去除冗余,采用SVM 分類算法處理高維數(shù)據(jù),提出一種有效提高蛋白質(zhì)結(jié)構(gòu)類預(yù)測準(zhǔn)確性的新方法,該方法通過PORTER 在線服務(wù)進(jìn)行二級結(jié)構(gòu)信息的提取,如圖3所示。
圖3 基于PseAAC 方法的蛋白質(zhì)結(jié)構(gòu)類預(yù)測流程圖
在蛋白質(zhì)結(jié)構(gòu)的預(yù)測中,特征的提取和分類是兩個(gè)關(guān)鍵環(huán)節(jié)。為提高預(yù)測的準(zhǔn)確性,在蛋白質(zhì)的特征提取中采用最基礎(chǔ)的特征提取方法——氨基酸組分法,即通過計(jì)算20 種天然氨基酸的頻率來標(biāo)記其位置信息,在多信息融合的基礎(chǔ)上使融合后的信息代表性更強(qiáng),預(yù)測效果更好。
預(yù)測分類使用了SVM 算法,主要是通過非線性變換完成輸入的樣本空間變量到高維的希爾伯特空間的轉(zhuǎn)換,以獲取最優(yōu)線性分類面。在三個(gè)標(biāo)準(zhǔn)低相似蛋白質(zhì)結(jié)構(gòu)類數(shù)據(jù)集25PDB、640、1189 上總體預(yù)測準(zhǔn)確度分別為93.1%、89.5%、90.8%,與近十年的預(yù)測方法相比,該算法的預(yù)測效果較好。
進(jìn)化算法(Evolutionary Computation,EC)以達(dá)爾文的進(jìn)化論為基礎(chǔ),是一種基于自然選擇和遺傳變異的全局性搜索算法,廣泛應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的預(yù)測中。信息熵的概念抽象,在數(shù)學(xué)建模中用來描述事物的不確定性,也常被理解為某種特定信息出現(xiàn)的概率。在進(jìn)化算法的基礎(chǔ)上,謝騰宇等人提出的基于接觸圖殘基對距離約束的蛋白質(zhì)結(jié)構(gòu)預(yù)測法和基于信息熵的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,將蛋白質(zhì)結(jié)構(gòu)的預(yù)測過程分為探索階段和增強(qiáng)階段,如圖4所示,在一定程度上降低了蛋白質(zhì)空間隨氨基酸序列長度指數(shù)增加而帶來的計(jì)算差異性,并創(chuàng)建了基于接觸圖的預(yù)測模型評價(jià)體系,從而反應(yīng)該算法的預(yù)測能力。該方法通過殘基位的二面角分布信息來構(gòu)建信息熵,利用得到的歸一化因子反映種群的多樣性。
圖4 核心算法示意圖
在對PDB 數(shù)據(jù)庫中30 個(gè)測試蛋白的實(shí)驗(yàn)結(jié)果顯示,探索階段的迭代次數(shù)高于2 000 時(shí),該測試方法的預(yù)測精度更高,某些蛋白質(zhì)的預(yù)測結(jié)構(gòu)更接近于天然結(jié)構(gòu);迭代次數(shù)小于2 000 時(shí),與傳統(tǒng)預(yù)測方法相比效果無顯著差異,該測試方法在某些蛋白質(zhì)區(qū)域中的預(yù)測優(yōu)勢不明顯。
遺傳算法起源于對生物系統(tǒng)進(jìn)行的計(jì)算機(jī)模擬研究,是計(jì)算數(shù)學(xué)中用于實(shí)現(xiàn)最佳化的搜索算法,且不依賴于某一具體問題,能夠用于極其復(fù)雜的優(yōu)化計(jì)算,是進(jìn)化算法中的一種。近年來,遺傳算法廣泛應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的預(yù)測模擬中,且取得了較好的預(yù)測結(jié)果。楊瑤提出的基于改進(jìn)遺傳算法的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測研究,采用懲罰函數(shù)和海明距離優(yōu)化了蛋白質(zhì)結(jié)構(gòu)預(yù)測的思路和方法。該方法彌補(bǔ)了傳統(tǒng)遺傳算法中搜索范圍逐漸變窄的弊端,協(xié)調(diào)了變異率與收斂速度的取舍等問題。通過改變交叉運(yùn)算的隨機(jī)性,進(jìn)行獨(dú)立的選擇、交叉和變異運(yùn)算,引入小生境技術(shù)輔助遺傳算法實(shí)現(xiàn)真正的全局最優(yōu)解。通過對PDB 數(shù)據(jù)庫中11 條真實(shí)蛋白質(zhì)進(jìn)行實(shí)驗(yàn)對比,與傳統(tǒng)的算法(禁忌搜索法和PERM 算法)相比,改進(jìn)的遺傳算法在運(yùn)算速度和最優(yōu)解精度上均較優(yōu),尤其是在長序列蛋白質(zhì)結(jié)構(gòu)的預(yù)測上優(yōu)勢明顯。
蛋白質(zhì)數(shù)據(jù)庫中大量已被標(biāo)識的蛋白質(zhì)序列、結(jié)構(gòu)和功能為諸多研究者提供了更為廣闊和便利的科研平臺。常見的蛋白質(zhì)數(shù)據(jù)庫包括蛋白質(zhì)序列數(shù)據(jù)庫、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫和蛋白質(zhì)分類數(shù)據(jù)庫。
SWISS-PROT(https://beta.uniprot.org/)是一個(gè)高質(zhì)量的人工注釋和非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,匯集了實(shí)驗(yàn)結(jié)果、計(jì)算特征和科學(xué)結(jié)論。創(chuàng)建于1986年,由瑞士生物信息學(xué)研究所和歐洲生物信息學(xué)研究所協(xié)同維護(hù),截至2022年5月25日的2022_02 版中共收錄567 483 個(gè)序列條目,包含204 940 973 個(gè)氨基酸,數(shù)據(jù)量逐年增加。此數(shù)據(jù)庫中所提供的蛋白質(zhì)序列信息十分詳細(xì),涵蓋了蛋白質(zhì)的功能、二級和四級結(jié)構(gòu)、蛋白質(zhì)翻譯后修飾、蛋白質(zhì)缺陷等信息,避免了序列的冗余,與其他數(shù)據(jù)庫的交叉引用較為便利,方便用戶檢索。SWISS-PROT 數(shù)據(jù)庫的增長如圖5所示。
圖5 SWISS-PROT 數(shù)據(jù)庫的增長情況(圖片來源于https://web.expasy.org/docs/relnoted/relstat.html)
布魯克海文蛋白質(zhì)數(shù)據(jù)庫(PDB,https://www.rcsb.org/)創(chuàng)建于1973年,由美國國家科學(xué)基金等組織提供資助,是經(jīng)實(shí)驗(yàn)測定的生物大分子三維結(jié)構(gòu)數(shù)據(jù)庫,利用Mol* 3D Viewer 可進(jìn)行結(jié)構(gòu)查看,如圖6所示,其內(nèi)容主要包括生物大分子的原子坐標(biāo)、參考文獻(xiàn)、一級和二級結(jié)構(gòu)信息等。截至2022年,PDB 中可使用的蛋白質(zhì)條目總數(shù)為190 404,每年發(fā)布的結(jié)構(gòu)數(shù)量為4 917 條。
圖6 4Z35 的3-D 結(jié)構(gòu)信息(圖片來源于PDB 數(shù)據(jù)庫)
SCOP(https://scop.mrc-lmb.cam.ac.uk/)數(shù)據(jù)庫由人工檢查創(chuàng)建并由一系列自動化方法支持,旨在提供所有結(jié)構(gòu)已知蛋白質(zhì)之間的結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述。因此,它提供了對所有已知蛋白質(zhì)折疊的廣泛調(diào)查、任何特定蛋白質(zhì)近親的詳細(xì)信息,以及未來研究和分類的框架。截至2022-04-29的最新更新包括代表849 788 個(gè)蛋白質(zhì)結(jié)構(gòu)的72 082 個(gè)非冗余結(jié)構(gòu)域。
CATH(https://www.cathdb.info/)數(shù)據(jù)庫是一個(gè)免費(fèi)、公開的在線資源,提供有關(guān)蛋白質(zhì)結(jié)構(gòu)域進(jìn)化關(guān)系的信息,是蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫。CATH 數(shù)據(jù)庫版本眾多,最新的CATH-Plus(v4.3)在CATH 中可用的核心分類信息基礎(chǔ)上添加了大量數(shù)據(jù)。CATH-Plus 發(fā)布過程除了添加大量結(jié)合蛋白質(zhì)結(jié)構(gòu)、序列和功能的信息外,還包括許多手動注釋檢查,包括500 238 個(gè)域、5 481 個(gè)超家族、150 885 個(gè)帶注釋的PDB、82 665 284 個(gè)蛋白質(zhì)序列。因此,在CATH-Plus 中可以獲得更深入的信息。
目前,蛋白質(zhì)結(jié)構(gòu)的預(yù)測方法呈現(xiàn)出多樣化,尤其是在計(jì)算機(jī)理論飛速發(fā)展的背景下,蛋白質(zhì)結(jié)構(gòu)的預(yù)測理論和技術(shù)取得了很大的進(jìn)步,但在預(yù)測精度和序列信息的提取等方面仍存在不足。
若要提高蛋白質(zhì)結(jié)構(gòu)的預(yù)測性能,需要在以下幾個(gè)方面進(jìn)行深入的研究:(1)降低蛋白質(zhì)序列中信息的冗余度;(2)隨著蛋白質(zhì)氨基酸序列長度的急劇增加,蛋白質(zhì)結(jié)構(gòu)預(yù)測的精度有所下降,提高預(yù)測方法對數(shù)據(jù)處理速度和預(yù)測精度的重要性日益凸顯;(3)目前的蛋白質(zhì)數(shù)據(jù)庫能否提供足夠的有關(guān)結(jié)構(gòu)的信息;(4)面對蛋白質(zhì)結(jié)構(gòu)與序列數(shù)據(jù)間的巨大差距,如何設(shè)計(jì)更高效的算法;(5)有些算法仍停留在理論研究層面,預(yù)測精度還無法達(dá)到實(shí)際應(yīng)用的水平,更無法解答蛋白質(zhì)結(jié)構(gòu)中的折疊現(xiàn)象;(6)對分類算法的挖掘還不夠深入,需要尋找更普遍適用的機(jī)器學(xué)習(xí)算法。
蛋白質(zhì)結(jié)構(gòu)預(yù)測在蛋白質(zhì)功能研究中具有舉足輕重的地位,現(xiàn)代科學(xué)技術(shù)的飛速發(fā)展使得蛋白質(zhì)結(jié)構(gòu)的預(yù)測仍然是一個(gè)值得深入探討的重要課題。