近日,谷歌訓(xùn)練出一種名為ProtCNN的深度學(xué)習(xí)模型,其可以用于準(zhǔn)確預(yù)測(cè)蛋白質(zhì)序列的功能,使更多未知蛋白質(zhì)序列得到注釋。據(jù)了解,這些注釋是基于主流蛋白質(zhì)家族數(shù)據(jù)庫Pfam構(gòu)建的嚴(yán)格基準(zhǔn)所進(jìn)行的評(píng)估,Pfam數(shù)據(jù)庫記錄了一系列蛋白質(zhì)家族及其功能注釋。
該研究的成功,令Pfam數(shù)據(jù)庫中蛋白質(zhì)序列的覆蓋范圍擴(kuò)大了9.5%,超越了過去十年里科學(xué)家在此方面的成果,并預(yù)測(cè)了360種Pfam數(shù)據(jù)庫未注釋過的人類蛋白質(zhì)的功能。
相關(guān)論文以《使用深度學(xué)習(xí)來注釋蛋白質(zhì)宇宙》為題發(fā)表在Nature Biotechnology上。
相關(guān)論文
伴隨DNA測(cè)序成本的降低和宏基因組測(cè)序項(xiàng)目的興起,具有蛋白質(zhì)序列功能注釋作用的高效工具對(duì)生物技術(shù)的發(fā)展愈加重要。
此前,常用的蛋白質(zhì)序列功能的注釋方法是,在大型標(biāo)記序列集合上進(jìn)行成對(duì)比對(duì)的BLASTp查詢方法和基于signature構(gòu)建的profile隱馬爾可夫模型。
這些方法雖然是有用的,效率卻相對(duì)較低。過去5年里,使用這些方法僅讓Pfam數(shù)據(jù)庫中蛋白質(zhì)序列數(shù)量增長了不到5%。
為此,谷歌的研究人員對(duì)深度學(xué)習(xí)模型是否可以補(bǔ)充現(xiàn)有方法進(jìn)行探究,并提供了能夠更廣泛覆蓋蛋白質(zhì)宇宙的蛋白質(zhì)序列功能預(yù)測(cè)模型ProtCNN。
ProtCNN模型性能的表現(xiàn)
在蛋白質(zhì)序列的比對(duì)過程中,測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)之間會(huì)存在相似性,這意味著模型性能必須根據(jù)每個(gè)保留的測(cè)試序列與訓(xùn)練序列之間的相似性作分層。
通過分析蛋白質(zhì)序列中的隨機(jī)和聚類分裂,這里的序列是使用基于相似性的聚類成員而分配給測(cè)試或訓(xùn)練分裂的,研究人員發(fā)現(xiàn),在注釋保留的測(cè)試序列時(shí),ProtCNN模型比當(dāng)前方法在隨機(jī)和聚類分裂中產(chǎn)生的錯(cuò)誤更少。
為確認(rèn)模型捕捉到了未對(duì)齊蛋白質(zhì)序列的結(jié)構(gòu),研究人員使用跨蛋白質(zhì)家族學(xué)習(xí)的聯(lián)合表示法,一次性學(xué)習(xí)注釋模型未訓(xùn)練蛋白質(zhì)家族的序列。
此外,要為更多蛋白質(zhì)序列集帶來注釋,還須進(jìn)行遠(yuǎn)程同源性檢測(cè)。遠(yuǎn)程同源性檢測(cè)是指準(zhǔn)確分類訓(xùn)練數(shù)據(jù)集中并不相似的蛋白質(zhì)序列。
而將ProtCNN模型與現(xiàn)有方法相結(jié)合,則大大提高了遠(yuǎn)程同源性檢測(cè)的準(zhǔn)確性,這對(duì)擴(kuò)大蛋白質(zhì)宇宙的覆蓋范圍至關(guān)重要。
ProtCNN模型的架構(gòu)
研究結(jié)果證實(shí),今后,類似ProtCNN的深度學(xué)習(xí)模型將是蛋白質(zhì)序列功能注釋研究中的核心支撐技術(shù)。
作為一個(gè)以蛋白質(zhì)序列為研究對(duì)象的計(jì)算生物學(xué)者,來自美國德克薩斯大學(xué)西南醫(yī)學(xué)中心的助理教授叢倩評(píng)價(jià)該研究道,“我很高興看到優(yōu)秀的生物科學(xué)和計(jì)算機(jī)科學(xué)工作者在這個(gè)領(lǐng)域做出的嘗試和貢獻(xiàn)?!?/p>
她表示,該研究主要探討了通過序列預(yù)測(cè)蛋白質(zhì)功能,相比于當(dāng)下正在創(chuàng)造歷史的三維結(jié)構(gòu)預(yù)測(cè),這一問題對(duì)人工智能來說更有挑戰(zhàn)性,并總結(jié)了具體原因。
對(duì)于蛋白質(zhì)功能預(yù)測(cè)困難的原因,叢倩進(jìn)行了如下總結(jié)。
首先,蛋白質(zhì)功能的可靠數(shù)據(jù)量并不大,且功能不像結(jié)構(gòu)那樣容易被量化。其次,一般來說相似序列的蛋白質(zhì)在三維結(jié)構(gòu)上也區(qū)別不大,但其功能卻很有可能大相徑庭。最后也是最重要的一點(diǎn),即嚴(yán)格來講,在AlphaFold問世之前,已經(jīng)沒有嚴(yán)格意義上的全新三維結(jié)構(gòu)了。所謂的“新”蛋白質(zhì)結(jié)構(gòu)都是已知結(jié)構(gòu)的簡(jiǎn)單組合,如果人工智能算法掌握了所有已知結(jié)構(gòu),其將有能力推導(dǎo)出任何一個(gè)“新”蛋白質(zhì)序列的結(jié)構(gòu)。
另外,叢倩補(bǔ)充說,自然界中的蛋白質(zhì)應(yīng)該還有很多未發(fā)現(xiàn)的新功能,而人工智能算法很難在現(xiàn)有技術(shù)框架下預(yù)知這類從未見過的功能。
叢倩
不過在谷歌的這項(xiàng)新研究中,其并非在解決預(yù)測(cè)新功能的問題,而是想要更廣泛、更精確地發(fā)現(xiàn)同樣具有某種已知功能的其他蛋白質(zhì),這有助于人類快速了解一個(gè)新物種中絕大多數(shù)蛋白質(zhì)的作用,如跟人類疾病相關(guān)或是具有潛在工業(yè)價(jià)值的蛋白質(zhì)。
叢倩稱,她對(duì)蛋白質(zhì)領(lǐng)域的這些研究相當(dāng)感興趣,但對(duì)于人工智能是否在這個(gè)領(lǐng)域比傳統(tǒng)方法更可靠的問題,其仍存有疑慮。
她表示,“我曾經(jīng)有幾個(gè)夢(mèng)想。第一,通過序列準(zhǔn)確的預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu);第二,通過序列準(zhǔn)確預(yù)測(cè)蛋白質(zhì)之間的相互作用;第三,通過序列準(zhǔn)確預(yù)測(cè)蛋白質(zhì)的功能?!钡靡嬗谌斯ぶ悄艿娘w速發(fā)展,其夢(mèng)想或是已經(jīng)實(shí)現(xiàn),或是在不久的將來即將實(shí)現(xiàn)。
目前,叢倩所在實(shí)驗(yàn)室的主要目標(biāo)正是通過解決第二個(gè)問題來輔助解決第三個(gè)問題。她說,事實(shí)上,第三個(gè)問題才是真能帶來全新科學(xué)發(fā)現(xiàn),也是像她這樣的科學(xué)工作者最感興趣的問題,其將會(huì)在其項(xiàng)目上嘗試這方面的研究。
叢倩表示,希望未來有更多科學(xué)家把注意力放到類似更有挑戰(zhàn)性的問題上,帶領(lǐng)人工智能去探索更難定義、更難量化的領(lǐng)域是我們這代人的歷史使命。(綜合整理報(bào)道)(編輯/多洛米)
海外星云 2022年7期