• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    人工智能輔助的蛋白質(zhì)工程

    2022-07-15 11:51:16卞佳豪楊廣宇
    合成生物學(xué) 2022年3期
    關(guān)鍵詞:描述符氨基酸蛋白質(zhì)

    卞佳豪,楊廣宇

    (上海交通大學(xué) 生命科學(xué)技術(shù)學(xué)院,微生物代謝國(guó)家重點(diǎn)實(shí)驗(yàn)室,上海 200240)

    合成生物學(xué)是一個(gè)廣泛的研究領(lǐng)域,通過(guò)將生物學(xué)和工程學(xué)相結(jié)合來(lái)設(shè)計(jì)和創(chuàng)建具有新穎功能的生物系統(tǒng)[1-2]。這一過(guò)程需要功能各異、形式多樣并且能夠良好實(shí)現(xiàn)預(yù)期功能的生物元件,特別是蛋白質(zhì)功能元件(催化酶、轉(zhuǎn)錄因子、轉(zhuǎn)運(yùn)蛋白、蛋白支架等)[3]。但是,天然來(lái)源蛋白質(zhì)元件大部分都不能滿足人工生物系統(tǒng)的需要,實(shí)際應(yīng)用中往往表現(xiàn)出折疊錯(cuò)誤、細(xì)胞毒性、功能不適宜等缺陷[4-5]。蛋白質(zhì)從頭設(shè)計(jì)或?qū)μ烊坏鞍踪|(zhì)進(jìn)行分子改造,成為解決這一問(wèn)題的重要途徑。對(duì)于蛋白質(zhì)或酶的分子改造,已經(jīng)成為合成生物學(xué)的重要研究領(lǐng)域[6-9]。

    在天然蛋白質(zhì)分子改造方面,主要包括定向進(jìn)化(directed evolution)和理性設(shè)計(jì)(rational design)兩種策略[10-12],見(jiàn)圖1。前者通過(guò)模擬自然選擇過(guò)程,對(duì)目標(biāo)基因進(jìn)行多輪突變和篩選實(shí)驗(yàn),直至獲得所需水平的優(yōu)良變體,但是該技術(shù)受限制于較低的篩選速率和序列空間中龐大的變體數(shù)量[13]。后者依據(jù)序列和結(jié)構(gòu)信息,選擇較少的關(guān)鍵位點(diǎn)進(jìn)行精準(zhǔn)改造,從而構(gòu)建較小的突變文庫(kù),但是需要對(duì)結(jié)構(gòu)功能信息有深入了解,并且需要巨大的計(jì)算資源[14]。

    圖1 理性設(shè)計(jì),定向進(jìn)化和人工智能輔助的蛋白質(zhì)工程策略示意圖(理性設(shè)計(jì)依賴(lài)序列和結(jié)構(gòu)信息,精準(zhǔn)設(shè)計(jì)突變體文庫(kù),但難以應(yīng)用于缺少結(jié)構(gòu)功能信息的蛋白質(zhì)。定向進(jìn)化中對(duì)目標(biāo)基因進(jìn)行多輪突變和篩選實(shí)驗(yàn),不受結(jié)構(gòu)功能信息限制,但是需要進(jìn)行高通量的篩選方法。人工智能輔助的蛋白質(zhì)工程則需要大量的序列-功能數(shù)據(jù),可以來(lái)源于實(shí)驗(yàn)、計(jì)算和數(shù)據(jù)庫(kù)等多方面,通過(guò)構(gòu)建的預(yù)測(cè)模型,能夠更有效地探索蛋白質(zhì)突變體序列空間)Fig.1 Schematic diagram for rational design,directed evolution and artificial intelligence-assisted protein engineering(Rational design relies on sequence and structural information to design mutant libraries accurately.However, it is difficult for being applied to pro‐teins lacking structural and functional information.In the directed evolution strategy,multiple rounds of mutation and screening experiments are per‐formed on target genes,which are not limited by structural and functional information,but high-throughput screening methods are required.Artificial intelligence-assisted protein engineering requires a large amount of sequence-function data,which can be derived from experiments,calculations,and databases.Through the predictive model,the sequence space of protein mutants can be explored more effectively)

    人工智能輔助的蛋白質(zhì)工程策略是一種由數(shù)據(jù)驅(qū)動(dòng)的新策略[15]。該策略通過(guò)學(xué)習(xí)已有數(shù)據(jù)中的信息,建立起輸入屬性(如序列)到輸出屬性(如功能)的映射關(guān)系,不需要詳細(xì)的物理或生物層面的基礎(chǔ)信息[16]。一旦得到足夠準(zhǔn)確的映射關(guān)系(或者說(shuō)預(yù)測(cè)模型),就能夠通過(guò)實(shí)驗(yàn)中容易得到的輸入值來(lái)預(yù)測(cè)輸出值,從而免除大量的重復(fù)性實(shí)驗(yàn)。目前,該策略已經(jīng)成功應(yīng)用在蛋白質(zhì)工程的很多方面,包括蛋白分子結(jié)構(gòu)預(yù)測(cè)[17-18]、蛋白分子功能預(yù)測(cè)[19-20]、蛋白分子溶解度預(yù)測(cè)[21-22]和指導(dǎo)設(shè)計(jì)智能組合文庫(kù)[23-26]等。

    目前已有多篇綜述詳細(xì)介紹了有關(guān)機(jī)器學(xué)習(xí)的基礎(chǔ)概念[27-31]。這些文章多從數(shù)據(jù)和算法的角度來(lái)對(duì)人工智能的主要進(jìn)展進(jìn)行了介紹,但是對(duì)于非生物信息學(xué)背景的研究人員而言,這類(lèi)綜述讀起來(lái)較為深?yuàn)W。為了使更多實(shí)驗(yàn)生物學(xué)背景的人員理解人工智能蛋白設(shè)計(jì)的進(jìn)展,本文將主要介紹人工智能輔助蛋白分子設(shè)計(jì)的應(yīng)用實(shí)例、已開(kāi)發(fā)的數(shù)據(jù)庫(kù)和平臺(tái)工具等幾個(gè)方面,為希望進(jìn)入人工智能蛋白質(zhì)工程領(lǐng)域的入門(mén)者提供幫助。

    1 人工智能輔助的蛋白質(zhì)工程應(yīng)用實(shí)例

    人工智能算法由于準(zhǔn)確度高、計(jì)算速度快、不受蛋白質(zhì)結(jié)構(gòu)功能信息限制等優(yōu)點(diǎn),近年來(lái)被大量應(yīng)用于蛋白質(zhì)工程領(lǐng)域,包括蛋白質(zhì)的結(jié)構(gòu)、功能、熱穩(wěn)定性、對(duì)映體選擇性、光敏性及指導(dǎo)設(shè)計(jì)智能組合文庫(kù)等多個(gè)方面。其中除了經(jīng)典的機(jī)器學(xué)習(xí)算法(決策樹(shù)、支持向量機(jī)和高斯過(guò)程回歸等)外,多種深度學(xué)習(xí)算法和基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)也獲得了成功的應(yīng)用。在下文中,我們重點(diǎn)集中于近幾年在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、功能預(yù)測(cè)、溶解度預(yù)測(cè)和指導(dǎo)設(shè)計(jì)智能組合文庫(kù)四個(gè)方面的成功案例,系統(tǒng)地分析人工智能算法在蛋白質(zhì)工程中應(yīng)用的優(yōu)勢(shì)。

    1.1 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

    截至2018 年,蛋白質(zhì)數(shù)據(jù)庫(kù)中發(fā)布了超過(guò)145 000 個(gè)蛋白質(zhì)結(jié)構(gòu),但與目前已知的超過(guò)2 億條蛋白質(zhì)序列相比,仍?xún)H占很小的比例[32],因此蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是生物學(xué)中經(jīng)久不衰的熱點(diǎn)問(wèn)題。早在1992 年,機(jī)器學(xué)習(xí)算法就被用于預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)[33]。近幾年,利用深度學(xué)習(xí)算法和蛋白質(zhì)序列的三維結(jié)構(gòu)預(yù)測(cè)模型取得了不小的進(jìn)展[34]。首先是在2018 年第13 屆全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)上,AlphaFold 模型結(jié)合深度殘差卷積神經(jīng)網(wǎng)絡(luò)和快速Rosetta 模型,獲得了預(yù)測(cè)43 種蛋白中的25 種蛋白結(jié)構(gòu)的最高分,實(shí)現(xiàn)了預(yù)測(cè)成功率的 突 破[17]。2019 年 底,David Baker 團(tuán) 隊(duì) 發(fā) 表 了trRosetta 方案,綜合了深度學(xué)習(xí)和Rosetta 的優(yōu)勢(shì)和進(jìn)展,具有良好預(yù)測(cè)精度的同時(shí),能夠在本地電腦上就可以完成計(jì)算,使得預(yù)測(cè)蛋白結(jié)構(gòu)的門(mén)檻 大 大 降 低[18]。 在2020 年 的CASP14 中,AlphaFold 2 再次獲得冠軍。根據(jù)DeepMind 官方的信息,AlphaFold 2 在無(wú)模板的自由建模任務(wù)中,拿 到 了87.0 的GDT_TS 分 數(shù)(global distance test[35]),在常規(guī)項(xiàng)目中拿到了92.4 分,這意味著該系統(tǒng)預(yù)測(cè)的均方根偏差(即預(yù)測(cè)數(shù)據(jù)與實(shí)驗(yàn)數(shù)據(jù)在原子位置上的偏差)大約為0.16 nm,已經(jīng)達(dá)到了常規(guī)蛋白質(zhì)晶體結(jié)構(gòu)的實(shí)驗(yàn)精度。盡管AlphaFold 目前最好的成績(jī)是針對(duì)單鏈蛋白質(zhì)分子,但這種成績(jī)本身就足以證明人工智能算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的巨大潛力,例如減少繁瑣的結(jié)晶條件探索工作,以及提供以常規(guī)實(shí)驗(yàn)方法難以獲得的蛋白質(zhì)結(jié)構(gòu)等。

    1.2 蛋白質(zhì)功能預(yù)測(cè)

    天然蛋白的功能表征實(shí)驗(yàn)需要大量工作,其速度遠(yuǎn)遠(yuǎn)低于新蛋白序列的獲取速度[36-37]。借助人工智能算法來(lái)預(yù)測(cè)蛋白質(zhì)的功能是另外一個(gè)研究熱點(diǎn)。2018 年,研究者通過(guò)收集來(lái)自擬南芥的54 種GT1 家族糖基轉(zhuǎn)移酶的序列信息和它們91 種底物的物理化學(xué)特性(如疏水常數(shù)lgP、分子表面積)和結(jié)構(gòu)信息(如官能團(tuán)拷貝數(shù)、框架類(lèi)型),建立了初始的數(shù)據(jù)集,并以多種基于決策樹(shù)的算法來(lái)構(gòu)建酶功能的預(yù)測(cè)模型(圖2)[19]。在不需要進(jìn)行任何實(shí)驗(yàn)的條件下,該預(yù)測(cè)模型利用酶序列,就能夠準(zhǔn)確地預(yù)測(cè)其他植物中(苜蓿和燕麥)GT1糖基轉(zhuǎn)移酶的活性,對(duì)來(lái)自細(xì)菌的GT1 酶活性的預(yù)測(cè)準(zhǔn)確率也在70%以上。這表明能夠利用高通量數(shù)據(jù)進(jìn)行學(xué)習(xí)的人工智能算法在底物混雜、已解析結(jié)構(gòu)少的酶的功能注釋中具有巨大潛力。此外,人工智能算法也被應(yīng)用于預(yù)測(cè)酶的EC 編號(hào)(enzyme commission number),幫助對(duì)酶分子進(jìn)行分 類(lèi)。先 后 發(fā) 展 出 的PRIAM[38]、CatFam[39]、EFICAz2.5[40]、 SVM-prot[41]、 COFACTOR[42]、DEEPre[36]、 DETECT v2[43]、 ECPred[44]和DeepEC[20]等多種預(yù)測(cè)工具,在計(jì)算時(shí)間、計(jì)算精度和覆蓋范圍等預(yù)測(cè)性能方面逐漸改進(jìn),簡(jiǎn)要內(nèi)容見(jiàn)表1。其中,DeepEC 方法包括三個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò),利用氨基酸序列,就能對(duì)氨基酸序列是否為酶分子、酶分子EC 編號(hào)的三位和四位數(shù)值進(jìn)行預(yù)測(cè)。與CatFam、DETECT v2、ECPred、EFICAz2.5 和PRIAM 五種代表性的酶EC 編號(hào)預(yù)測(cè)工具相比,在Swiss-Prot 數(shù)據(jù)庫(kù)中選取的201 個(gè)酶進(jìn)行驗(yàn)證時(shí), DeepEC 表現(xiàn)最佳, 準(zhǔn)確率(accuracy)和召回率(recall)分別為0.920和0.455。即45.5%的陽(yáng)性樣本能被預(yù)測(cè)模型準(zhǔn)確識(shí)別,這其中92.0%樣本的預(yù)測(cè)值與真實(shí)值是一致的。

    表1 EC編號(hào)預(yù)測(cè)工具匯總表Tab.1 Forecast tools for EC numbers

    圖2 GT1家族糖基轉(zhuǎn)移酶預(yù)測(cè)模型(GT-Predict)的工作流程[19](基于功能的算法學(xué)習(xí)方法GT-Predict,使用來(lái)源于酶、親電試劑和親核試劑的多種訓(xùn)練集來(lái)創(chuàng)建基于物理化學(xué)和局部序列的分類(lèi)器,從而預(yù)測(cè)GT1糖基轉(zhuǎn)移酶的催化活性和功能信息。Nuc表示親核基團(tuán)的數(shù)量/類(lèi)型)Fig.2 Workflow for predicting the GT1 glycosyltransferase model(GT-Predict)[19](The function-based algorithmic learning approach,GT-Predict,uses a diverse training set of enzymes,electrophiles,and nucleophiles to create a physicochemical and local-sequence-based classifier for predicting the novel transformations and functional annotation of GT group-transfer enzymes.)

    1.3 蛋白質(zhì)溶解度預(yù)測(cè)

    蛋白質(zhì)的溶解度對(duì)于其行使功能起到重要作用。溶解度過(guò)低是蛋白質(zhì)大規(guī)模生產(chǎn)中常見(jiàn)的主要瓶頸[45-46],而溶解度的測(cè)量費(fèi)時(shí)費(fèi)力,因此非常需要能夠準(zhǔn)確對(duì)蛋白質(zhì)溶解度進(jìn)行預(yù)測(cè)的生物信息學(xué)工具。新加坡國(guó)立大學(xué)的Han 等[21]測(cè)試了邏輯回歸、決策樹(shù)、支持向量機(jī)、樸素貝葉斯、條件隨機(jī)森林、XGboost和人工神經(jīng)網(wǎng)絡(luò)等七種算法構(gòu)建基于序列的溶解度預(yù)測(cè)模型,其中支持向量機(jī)算法構(gòu)建的模型在此預(yù)測(cè)任務(wù)中顯示出最高的準(zhǔn)確性。在預(yù)測(cè)結(jié)果為代表“可溶”和“不溶”的二分值“1”和“0”時(shí),該模型的預(yù)測(cè)準(zhǔn)確率為0.7628。除此之外,該模型還可以預(yù)測(cè)蛋白質(zhì)連續(xù)的溶解度值(離心后上清液的蛋白質(zhì)質(zhì)量與總蛋白質(zhì)質(zhì)量之比)。但這種情況下,模型預(yù)測(cè)的準(zhǔn)確性有所降低,決定系數(shù)為0.41。最近,中山大學(xué)的Chen Jianwen 等[22]利用蛋白質(zhì)接觸圖(contact map)和圖神經(jīng)網(wǎng)絡(luò)算法(GCN)開(kāi)發(fā)了一種新的利用氨基酸序列預(yù)測(cè)蛋白質(zhì)溶解的模型GraphSol,在同樣利用eSOL 數(shù)據(jù)庫(kù)中的蛋白質(zhì)溶解度數(shù)據(jù)進(jìn)行驗(yàn)證時(shí),進(jìn)一步提升了預(yù)測(cè)模型的性能,其決定系數(shù)為0.48。在蛋白質(zhì)工程中,輸出結(jié)果為簡(jiǎn)單的二分值時(shí),重要的氨基酸突變對(duì)溶解度的貢獻(xiàn)無(wú)法分析。例如,“不溶”和“可溶”的群體中,不同突變對(duì)蛋白質(zhì)溶解度的貢獻(xiàn)無(wú)法分辨。并且,當(dāng)存在大量“可溶”的預(yù)測(cè)變體時(shí),無(wú)法從中選出表現(xiàn)最佳的少數(shù)變體進(jìn)行實(shí)驗(yàn)驗(yàn)證[21]。因此,能夠預(yù)測(cè)蛋白質(zhì)連續(xù)的溶解度的模型更適用于輔助蛋白質(zhì)工程。隨著可用數(shù)據(jù)集的擴(kuò)大和算法框架的優(yōu)化,基于序列的蛋白質(zhì)溶解度預(yù)測(cè)模型將能夠有越來(lái)越高的準(zhǔn)確率。

    1.4 指導(dǎo)設(shè)計(jì)智能組合文庫(kù)

    人工智能策略在酶定向進(jìn)化中也具有重要的應(yīng)用潛力。依靠人工智能算法,可以基于已有的序列/結(jié)構(gòu)信息,直接建立起序列/結(jié)構(gòu)-功能的映射關(guān)系,因此理論上可以極大減少篩選工作量,并且更加有效地探索整個(gè)組合突變體的序列空間[26,47]。例如,在指導(dǎo)綠色熒光蛋白向黃色熒光蛋白進(jìn)化的研究中,研究者們對(duì)選定的四個(gè)關(guān)鍵位點(diǎn)構(gòu)建了單點(diǎn)飽和突變庫(kù)和隨機(jī)誘變庫(kù),共包含218 個(gè)變體。但將所有變體篩選之后,沒(méi)有發(fā)現(xiàn)比參考黃色熒光蛋白性能更好的突變體。隨后,他們選擇其中的155 個(gè)變體的序列-功能數(shù)據(jù)作為初始數(shù)據(jù)集,以高斯過(guò)程回歸算法來(lái)構(gòu)建預(yù)測(cè)模型。通過(guò)預(yù)測(cè)模型,遍歷了整個(gè)四點(diǎn)組合序列空間中的近16 萬(wàn)個(gè)變體,并對(duì)其性能打分。在僅僅對(duì)預(yù)測(cè)突變體文庫(kù)中排名靠前的78 個(gè)變體進(jìn)行驗(yàn)證的情況下,就找到了12 個(gè)黃色熒光強(qiáng)度高于參考蛋白的突變體[23]。

    此外,在Frances H.Arnold 團(tuán)隊(duì)[24]的研究中,他們從對(duì)S-對(duì)映體有76%ee 一氧化氮雙加氧酶出發(fā),利用455個(gè)突變體來(lái)構(gòu)建從序列預(yù)測(cè)功能的模型。通過(guò)該模型對(duì)涵蓋了七個(gè)位置(兩個(gè)區(qū)域)的組合序列空間中約168 000 個(gè)變體的性能進(jìn)行預(yù)測(cè),再進(jìn)行兩輪篩選,共驗(yàn)證了360個(gè)變體后,就獲得了對(duì)S-對(duì)映體有93%ee和對(duì)R-對(duì)映體有79%ee的兩種優(yōu)良變體。

    在2018 年,Manfred T.Reetz 團(tuán)隊(duì)[25]利用一種innov’SAR 的人工智能方法來(lái)指導(dǎo)在環(huán)氧水解酶的對(duì)映體選擇性的進(jìn)化過(guò)程中組合突變文庫(kù)的設(shè)計(jì),在僅使用了38 個(gè)突變體的序列-功能數(shù)據(jù)的情況下,預(yù)測(cè)模型對(duì)九個(gè)位點(diǎn)上共512 種突變體的功能進(jìn)行了預(yù)測(cè),經(jīng)過(guò)簡(jiǎn)單驗(yàn)證后就找到了多個(gè)優(yōu)于經(jīng)隨機(jī)突變文庫(kù)篩選得到的最佳突變體的酶分子。

    2019年,為了解決視紫紅質(zhì)通道蛋白篩選通量太低,并且要同時(shí)保留其多種特性的問(wèn)題,F(xiàn)rances H.Arnold團(tuán)隊(duì)[26]使用了人工智能輔助的蛋白質(zhì)工程策略(圖3)。其方法為首先利用實(shí)驗(yàn)表征的和文獻(xiàn)報(bào)道得到的183個(gè)序列-功能數(shù)據(jù),構(gòu)建一個(gè)分類(lèi)模型,從而有效排除重組文庫(kù)120 000 條序列中絕大多數(shù)的非功能序列。然后根據(jù)已經(jīng)表征的視紫紅質(zhì)通道蛋白的特性信息,針對(duì)不同的目標(biāo)屬性來(lái)建立不同的回歸模型,例如電流強(qiáng)度、關(guān)閉動(dòng)力學(xué)(即曝光后通道關(guān)閉所需的時(shí)間)和激活的波長(zhǎng)敏感度等,對(duì)所有具有功能的序列進(jìn)行特性的得分的預(yù)測(cè)。最后從預(yù)測(cè)庫(kù)中選擇少部分排名靠前的突變體(28個(gè))進(jìn)行實(shí)驗(yàn)驗(yàn)證,并得到了目標(biāo)屬性都優(yōu)于現(xiàn)有的視紫紅質(zhì)通道蛋白的三個(gè)變體ChRger1、ChRger2和ChRger3。

    圖3 人工智能輔助的視紫紅質(zhì)通道蛋白改造的工作流程[26][在重組文庫(kù)中表征的102種ChR蛋白和文獻(xiàn)中報(bào)道的61種變體,共同構(gòu)成了(1)分類(lèi)模型的訓(xùn)練集。然后,使用經(jīng)過(guò)訓(xùn)練的分類(lèi)模型來(lái)預(yù)測(cè)12000個(gè)未表征的ChR序列變體是否具有功能。接下來(lái),構(gòu)建了三個(gè)(2)回歸模型,分別針對(duì)不同的ChR光電流特性:光電流強(qiáng)度,關(guān)閉動(dòng)力學(xué)和光電流的波長(zhǎng)敏感性]Fig.3 Workflow for machine learning-guided channelrhodopsin engineering[26][102 ChR proteins characterized in the recombinant library,together with 61 variants reported in the literature,constitute the training set of theclassification model(1).Then the trained classification model was used to predict whether 12000 uncharacterized ChR sequence variants are functional,and three regression models(2)were trained,one for each of the ChR photocurrent properties of interest:photocurrent strength,off-kinetics and wavelength sensitivity of the photocurrents.]

    2 人工智能輔助的蛋白分子設(shè)計(jì)策略概述

    在人工智能輔助的蛋白分子設(shè)計(jì)策略中,本質(zhì)是基于已有的數(shù)據(jù),引入不同的機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行“輸入特征-輸出特征”的映射關(guān)系的構(gòu)建。根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息(即規(guī)定的輸出值),機(jī)器學(xué)習(xí)大致可劃分為監(jiān)督學(xué)習(xí)(supervised learning)和無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)。由于在蛋白質(zhì)工程中,最終目的是獲得或者優(yōu)化目標(biāo)蛋白的一個(gè)或多個(gè)屬性,因此至少會(huì)有一個(gè)屬性值作為標(biāo)記信息,屬于監(jiān)督學(xué)習(xí)[48]。

    圖4描述了監(jiān)督學(xué)習(xí)的工作流程,主要可以分為三個(gè)步驟[27]。步驟1: 通過(guò)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)和文獻(xiàn)等方式收集初始數(shù)據(jù),將序列作為輸入特征,將蛋白質(zhì)的功能信息(如對(duì)某種目標(biāo)底物的活性)作為標(biāo)記信息(如1 代表該序列對(duì)底物有活性,0 代表該序列無(wú)活性),轉(zhuǎn)為計(jì)算機(jī)能夠識(shí)別的數(shù)字格式,并拆分為訓(xùn)練集和測(cè)試集。步驟2:選用合適的算法,利用訓(xùn)練集進(jìn)行預(yù)測(cè)模型的訓(xùn)練,建立起“序列-活性”的映射關(guān)系。步驟3:利用訓(xùn)練的模型,輸入測(cè)試集的序列,得到預(yù)測(cè)值(0或1),通過(guò)比較測(cè)試集中的真實(shí)值和預(yù)測(cè)值之間的差異,評(píng)估預(yù)測(cè)模型的性能。在整個(gè)流程中,有兩個(gè)關(guān)鍵點(diǎn)對(duì)預(yù)測(cè)模型的性能至關(guān)重要:數(shù)據(jù)、分子描述符和算法,人工智能方法的開(kāi)發(fā)重點(diǎn)也是集中于這兩個(gè)方面。

    圖4 監(jiān)督學(xué)習(xí)的流程示意圖[27](a)準(zhǔn)備數(shù)據(jù):來(lái)源于實(shí)驗(yàn),計(jì)算或數(shù)據(jù)庫(kù)的數(shù)據(jù)通常會(huì)轉(zhuǎn)換成計(jì)算機(jī)可以識(shí)別的格式,并拆分為訓(xùn)練集和測(cè)試集;(b)構(gòu)建預(yù)測(cè)模型:利用訓(xùn)練集訓(xùn)練不同的算法以找到?jīng)Q策邊界,構(gòu)建預(yù)測(cè)模型,例如隨機(jī)森林,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī);(c)驗(yàn)證模型:對(duì)于分類(lèi)問(wèn)題或者回歸問(wèn)題,應(yīng)選擇合適的評(píng)估方法Fig.4 Schematic diagram of the supervised learning process[27]Step(a):Preparing data.The data from experiments,calculations or databases are usually converted to a format that the computer can recognize and split into the training and test parts.Step(b):Constructing a predictive model.Using the training set to train different algorithms to find decision boundaries,such as random forests,neural networks and support vector machines,so as to build predictive models.Step(c):Validating the model.An appropriate evaluation method should be selected for tasks with classification or regression.

    2.1 數(shù)據(jù)

    由于人工智能算法嚴(yán)重依賴(lài)數(shù)據(jù),初始數(shù)據(jù)的數(shù)量和質(zhì)量決定了訓(xùn)練得到的模型的泛化性能[49-50]。數(shù)據(jù)集的數(shù)量不足或者質(zhì)量過(guò)低會(huì)導(dǎo)致模型出現(xiàn)過(guò)擬合或者欠擬合的問(wèn)題,往往會(huì)進(jìn)行交叉驗(yàn)證來(lái)檢測(cè)模型中是否存在該問(wèn)題,例如k折交叉驗(yàn)證(即將整個(gè)數(shù)據(jù)集平均拆分為k份,每一份輪流作為測(cè)試集,其余作為訓(xùn)練集,如圖5),因此數(shù)據(jù)收集是重要且耗時(shí)的步驟。一般來(lái)說(shuō),人工智能輔助策略很適合與其他蛋白質(zhì)改造策略聯(lián)用,利用在隨機(jī)突變或(半)理性設(shè)計(jì)后生成的數(shù)據(jù)作為初始數(shù)據(jù)[51]。但是,一方面,就來(lái)自單輪實(shí)驗(yàn)的數(shù)據(jù)而言,數(shù)據(jù)集通常僅包括數(shù)十種到數(shù)百種變體,這在人工智能算法框架中屬于較小的樣本量[52]。另一方面,從實(shí)驗(yàn)中以及部分?jǐn)?shù)據(jù)庫(kù)中的數(shù)據(jù)是存在一定偏差的,特別是針對(duì)蛋白質(zhì)某項(xiàng)屬性進(jìn)行改造時(shí),表現(xiàn)不好的突變體通常直接被丟棄掉,因此導(dǎo)致初始數(shù)據(jù)集中數(shù)據(jù)不均勻。因此,如果采用人工智能輔助的蛋白質(zhì)工程策略,應(yīng)當(dāng)注意收集陰性數(shù)據(jù)來(lái)保證數(shù)據(jù)的無(wú)偏性。針對(duì)訓(xùn)練數(shù)據(jù)的數(shù)量偏少的問(wèn)題,一方面許多數(shù)據(jù)庫(kù)一直在收集、整理來(lái)源于文獻(xiàn)或?qū)嶒?yàn)的數(shù)據(jù),涵蓋蛋白質(zhì)的序列、結(jié)構(gòu)、功能和溶解度等多個(gè)屬性,可以為人工智能算法提供許多優(yōu)質(zhì)的數(shù)據(jù);另一方面,隨著超高通量篩選和二代測(cè)序等高通量生物學(xué)實(shí)驗(yàn)技術(shù)的逐漸成熟,可以相信在不遠(yuǎn)的未來(lái)可用數(shù)據(jù)的數(shù)量和質(zhì)量都會(huì)得到大幅度的提升,為更精準(zhǔn)的人工智能算法提供充足的資源。

    圖5 k折交叉驗(yàn)證示意圖(將訓(xùn)練數(shù)據(jù)進(jìn)一步細(xì)分為k個(gè)子集,并且將訓(xùn)練工作流程重復(fù)k次,同時(shí)保留k個(gè)子集中的一個(gè)用于評(píng)估,其余k-1個(gè)子集用于訓(xùn)練)Fig.5 Schematic diagram for k-fold cross-validation(The training data is further subsplit into k subsets,and the training workflow is repeated k times with each of the k subsets holding for evaluation and the remaining k-1 subsets used for training)

    2.2 分子描述符

    分子描述符(molecular descriptors),就是將分子的化學(xué)信息(例如結(jié)構(gòu)特征)轉(zhuǎn)換成有用的數(shù)字形式的工具。算法,即學(xué)習(xí)算法(learning algorithm),是機(jī)器學(xué)習(xí)中用于幫助計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)中產(chǎn)生模型(model)、總結(jié)“經(jīng)驗(yàn)”的方法[53]。但計(jì)算機(jī)系統(tǒng)僅能理解數(shù)字向量,所以算法不能直接作用于蛋白質(zhì)序列[16]。因此,在獲得序列之后,一般還需要利用合適的分子描述符將氨基酸序列處理為計(jì)算機(jī)能夠識(shí)別的格式。以最簡(jiǎn)單的獨(dú)熱編碼描述符為例,對(duì)于N個(gè)長(zhǎng)度為L(zhǎng)的多個(gè)蛋白質(zhì)突變體序列,它們?nèi)粼谀骋幌嗤稽c(diǎn)上包含S種不同的氨基酸(S≤N,S≤20),則該位置的所有氨基酸都可以用一個(gè)S維向量表示,每一個(gè)S維向量都包括S?1 個(gè)0 和一個(gè)1,其中1 的位置表明該氨基酸的身份,如圖6。氨基酸序列也可以根據(jù)物理性質(zhì)進(jìn)行編碼,每種氨基酸可以由其電荷、體積或疏水性等特性或者這些特性的組合來(lái)表示,如AAindex[54]中就包含了大量類(lèi)似的描述符。目前常用到的描述符有4 種類(lèi)型,包括基于氨基酸序列特征的描述符、結(jié)構(gòu)信息描述符、嵌入式表示描述符以及突變指示描述符,在綜述[16,30,55]中均有詳細(xì)描述,本文不再贅述。

    圖6 獨(dú)熱編碼示意圖(N個(gè)蛋白質(zhì)突變體序列中L個(gè)氨基酸中某一相同位置包含S種不同的氨基酸,獨(dú)熱編碼將這S個(gè)氨基酸都表示為包括S-1個(gè)0和一個(gè)1的S維向量,其中1的位置表示該位置的氨基酸的種類(lèi))Fig.6 Schematic diagram for one-hot encoding(A certain position of the L amino acids in the N protein mutant sequence contains S different amino acids.The one-hot encoding represents all S amino acids as an S-dimensional vector including S-1 zeros and one 1.The position of 1 indicates the type of amino acid at that position.)

    2.3 算法

    除此之外,人工智能領(lǐng)域也已經(jīng)提出了大量算法。從模型復(fù)雜度角度, 機(jī)器學(xué)習(xí)分為經(jīng)典機(jī)器學(xué)習(xí)和深度學(xué)習(xí)[56]。前者中的偏最小二乘回歸[57]、支持向量機(jī)[58]、決策樹(shù)/隨機(jī)森林[59]和貝葉斯網(wǎng)絡(luò)[60]等常見(jiàn)算法以及后者中的變分自編碼器[61]、卷積神經(jīng)網(wǎng)絡(luò)[62]和循環(huán)神經(jīng)網(wǎng)絡(luò)[63]等都已用于輔助蛋白分子設(shè)計(jì)。

    經(jīng)典機(jī)器學(xué)習(xí)和深度學(xué)習(xí)二者的不同在于,經(jīng)典機(jī)器學(xué)習(xí)算法強(qiáng)烈依賴(lài)于人工提取的特征,一般與基于氨基酸特征或序列整體特征的分子描述符配套使用,但可能會(huì)受限于定義好的特征值而忽略數(shù)據(jù)中隱藏的信息[64]。而深度學(xué)習(xí)是通過(guò)深度神經(jīng)網(wǎng)絡(luò),將數(shù)據(jù)進(jìn)行分層抽象處理,能有效排除噪聲、發(fā)現(xiàn)隱藏信息,因此非常適用于從高維數(shù)據(jù)發(fā)現(xiàn)復(fù)雜結(jié)構(gòu)[56]。各個(gè)算法的入門(mén)介紹可以參考綜述[16,28,31,55]。

    在選擇算法時(shí),一般會(huì)以線性模型作為基線。如果線性模型的準(zhǔn)確性不足,并且初始數(shù)據(jù)集中數(shù)據(jù)小于10 000 時(shí),偏最小二乘回歸、隨機(jī)森林和支持向量機(jī)都可能構(gòu)建出最佳的預(yù)測(cè)模型,而神經(jīng)網(wǎng)絡(luò)則通常在更大的數(shù)據(jù)集上表現(xiàn)出最佳性能[16]。在計(jì)算速度方面,由于復(fù)雜程度和所需訓(xùn)練集大小等因素影響,深度學(xué)習(xí)往往也需要花費(fèi)更多時(shí)間[55]。因此,如何選擇合適的算法,需要研究者在具體的預(yù)測(cè)任務(wù)中仔細(xì)衡量準(zhǔn)確率、計(jì)算速度和實(shí)現(xiàn)難度等因素。

    在人工智能輔助的酶定向進(jìn)化策略中,選擇合適的分子描述符和機(jī)器學(xué)習(xí)算法對(duì)構(gòu)建準(zhǔn)確的預(yù)測(cè)模型而言至關(guān)重要。沒(méi)有一種分子描述符和算法能夠滿足所有的學(xué)習(xí)任務(wù)[65],研究人員必須結(jié)合專(zhuān)業(yè)知識(shí)或者同時(shí)構(gòu)建多個(gè)模型進(jìn)行比較。Frances H.Arnold 團(tuán)隊(duì)使用高斯過(guò)程算法,嵌入式表示、蛋白質(zhì)指數(shù)和獨(dú)熱編碼等氨基酸編碼方式進(jìn)行了未知功能蛋白的功能預(yù)測(cè),結(jié)果發(fā)現(xiàn),使用嵌入式表示描述符訓(xùn)練的模型預(yù)測(cè)能力與其他模型的預(yù)測(cè)能力相當(dāng),甚至超過(guò)它們[66];而在Jennifer M.Johnston 等人的研究中,使用多種描述符和卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了蛋白質(zhì)序列/活性關(guān)系預(yù)測(cè)模型,結(jié)果發(fā)現(xiàn),基于序列的氨基酸特性相關(guān)描述符的卷積神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)較好,而嵌入式表示描述符表現(xiàn)不佳[55]。這恰恰證明了沒(méi)有一種分子描述符和算法能夠滿足所有的學(xué)習(xí)任務(wù)。

    3 相關(guān)的數(shù)據(jù)庫(kù)和線上平臺(tái)

    3.1 數(shù)據(jù)庫(kù)

    除了與其他分子改造策略聯(lián)用之外,隨著高通量篩選和二代測(cè)序技術(shù)的不斷發(fā)展,越來(lái)越多的蛋白質(zhì)信息被挖掘,目前已經(jīng)有許多優(yōu)秀的數(shù)據(jù)庫(kù)收集并整理了多種可作為該策略初始數(shù)據(jù)的信息,是優(yōu)良的數(shù)據(jù)來(lái)源。即便數(shù)據(jù)庫(kù)中大量蛋白質(zhì)序列信息沒(méi)有功能注釋?zhuān)部梢杂糜跇?gòu)建預(yù)測(cè)模型,即通過(guò)人工智能算法從這些序列中學(xué)習(xí)、提取特征,然后作為下一步從“已知特征”到“目的屬性”的頂層預(yù)測(cè)模型的輸入數(shù)據(jù)。例如,在2019 年George M.Church 團(tuán)隊(duì)利用了大約2400 萬(wàn)條蛋白質(zhì)序列訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建了一個(gè)UniRep 模型[67]。該模型能夠預(yù)測(cè)氨基酸序列中下一個(gè)氨基酸是什么,以此來(lái)提取氨基酸序列中不可見(jiàn)的特征。這些特征可以作為其他算法(如隨機(jī)森林、稀疏線性回歸等)的輸入信息,來(lái)構(gòu)建頂層特征(圖7)。在應(yīng)用方面,基于UniRep 模型的預(yù)測(cè)模型在預(yù)測(cè)蛋白質(zhì)穩(wěn)定性和熒光蛋白序列優(yōu)化任務(wù)中,性能都明顯優(yōu)于Frances H.Arnold 團(tuán)隊(duì)曾報(bào)道的Doc2Vec 模型[66]。該研究說(shuō)明人工智能算法能夠深度挖掘蛋白質(zhì)序列中隱藏信息,為提高蛋白質(zhì)工程的效率、解決蛋白質(zhì)表征實(shí)驗(yàn)費(fèi)時(shí)費(fèi)力問(wèn)題提供了一個(gè)全新的方法。

    圖7 UniRep模型的工作流程[67][在訓(xùn)練部分,UniRep模型使用了2400萬(wàn)個(gè)氨基酸序列作為訓(xùn)練集。然后使用訓(xùn)練好的模型來(lái)預(yù)測(cè)下一個(gè)氨基酸(使交叉熵?fù)p失最小化),從而學(xué)會(huì)如何正確表示氨基酸。在應(yīng)用部分中,訓(xùn)練后的模型通過(guò)提取和平均各個(gè)氨基酸的數(shù)字向量,從而生成輸入序列的單個(gè)固定長(zhǎng)度矢量表示。這些向量可以用于訓(xùn)練頂級(jí)模型,從而應(yīng)用于多種序列-功能預(yù)測(cè)任務(wù)]Fig.7 Workflow for the UniRep model[67][In the training part,24 million amino acid sequences are used to train the UniRep model.Then the trained model is used to predict the next amino acid(minimizing the cross-entropy loss),so as to learn how to correctly represent the amino acid.In the application part,by extracting and assessing the numerical vector associated with the amino acid,the trained model is used to generate a single fixed-length vector representing the input sequence.Next,these vectors can be used to train top models,which can be applied to various sequence-function prediction tasks.]

    除了最常見(jiàn)的蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)庫(kù)外,越來(lái)越多的數(shù)據(jù)庫(kù)在自動(dòng)或手動(dòng)收集整理蛋白質(zhì)突變穩(wěn)定性、溶解度等信息,表2對(duì)部分比較常見(jiàn)的數(shù)據(jù)庫(kù)的類(lèi)型、大小和特點(diǎn)進(jìn)行了介紹。

    表2 常見(jiàn)數(shù)據(jù)庫(kù)匯總表Tab.2 Commonly used database

    3.2 線上平臺(tái)

    事實(shí)上,學(xué)者們已經(jīng)開(kāi)發(fā)了許多線上平臺(tái)或者工具包來(lái)幫助人們獲得蛋白質(zhì)序列中的特征信息以及使用人工智能算法的工具,匯總信息見(jiàn)表3。大多數(shù)工具包和線上平臺(tái)都只關(guān)注于完成整個(gè)生物序列分析任務(wù)的一部分,例如,大多數(shù)工具都只能利用不同類(lèi)型的分子描述符從序列中生成特征。但是其中BioSeq-Analysis2.0 和iLearn 兩個(gè)平臺(tái)可以自動(dòng)執(zhí)行整個(gè)蛋白序列分析任務(wù)的步驟,SOLart 平臺(tái)則額外引入了結(jié)構(gòu)信息來(lái)預(yù)測(cè)目標(biāo)蛋白質(zhì)溶解度,下面進(jìn)行詳細(xì)闡述。

    表3 基于蛋白質(zhì)序列的特征生成工具匯總表Tab.3 Feature generation tools based on protein sequences

    3.2.1 Protein-Analysis2.0

    Protein-Analysis2.0 是服務(wù)器BioSeq-Analysis2.0的線上蛋白質(zhì)服務(wù)器,可以通過(guò)三個(gè)主要步驟完成蛋白序列分析任務(wù):特征提取,預(yù)測(cè)模型構(gòu)建以及性能評(píng)估[91]。其中在特征提取方面,包括13 種基于氨基酸殘基水平的分子描述符和39 種基于氨基酸序列水平的分子描述符。為了避免某些分子描述符導(dǎo)致編碼后向量維度爆炸的情況,該平臺(tái)還添加了兩種特征選擇方法。在人工智能算法方面,該平臺(tái)僅整合兩種分類(lèi)算法(支持向量機(jī)和隨機(jī)森林)和一種序列標(biāo)記算法(條件隨機(jī)場(chǎng))。在性能評(píng)估方面,該平臺(tái)支持5 折交叉驗(yàn)證或獨(dú)立數(shù)據(jù)集兩種方式。同時(shí),作者利用文獻(xiàn)[94]中的數(shù)據(jù)作為基準(zhǔn)數(shù)據(jù),預(yù)測(cè)蛋白質(zhì)的無(wú)序區(qū)域,其中,其中條件隨機(jī)場(chǎng)-One-hot(6-bit)預(yù)測(cè)模型表現(xiàn)最佳,與文獻(xiàn)中的方法高度可比,證明了該平臺(tái)的實(shí)用性。平臺(tái)地址為:

    http://bliulab.net/BioSeq-Analysis2.0/home/

    3.2.2 iLearn

    iLearn線上平臺(tái)與BioSeq-Analysis2.0類(lèi)似,不同之處在于:①iLearn平臺(tái)中包含更多種分子描述;②擁有更豐富的特征分析功能,支持聚類(lèi)、特征向量歸一化、降維和5種特征選擇方法;③支持更多的機(jī)器學(xué)習(xí)算法和更多的評(píng)估指標(biāo);④選擇一種或多種機(jī)器學(xué)習(xí)算法進(jìn)行提交,可以返回具有最佳性能的模型等[93]。在應(yīng)用方面,作者從文獻(xiàn)[95]中收集初始數(shù)據(jù)集和獨(dú)立測(cè)試數(shù)據(jù)集,利用BLOSUM62、CKSAAP、Binary、Z-scales、AAindex、AAC 和EAAC其中不同的分子描述符來(lái)進(jìn)行蛋白質(zhì)丙二?;稽c(diǎn)預(yù)測(cè)模型的構(gòu)建,最終EAAC編碼模型的AUC值為0.73,與原始工作中報(bào)告的AUC 值為0.739 相當(dāng),表明iLearn可以作為一種方便有效的工具來(lái)構(gòu)建相關(guān)的預(yù)測(cè)模型。平臺(tái)地址為:

    https://ilearn.erc.monash.edu/

    3.2.3 SOLart

    SOLart線上平臺(tái)要求的輸入信息僅僅是蛋白質(zhì)結(jié)構(gòu),該結(jié)構(gòu)可以由用戶手動(dòng)上傳,也可以從Protein Data Bank 自動(dòng)上傳,無(wú)需其他額外操作。其原理是在基于序列的特征(如蛋白長(zhǎng)度和氨基酸組成)之外,引入了溶解度依賴(lài)距離電位、溶劑可及表面積和二級(jí)結(jié)構(gòu)等結(jié)構(gòu)特征,并以此訓(xùn)練隨機(jī)森林算法構(gòu)建預(yù)測(cè)模型。在交叉驗(yàn)證中,實(shí)驗(yàn)和預(yù)測(cè)的溶解度值之間的皮爾森相關(guān)系數(shù)幾乎達(dá)到0.7,表現(xiàn)出了較好的預(yù)測(cè)能力[93]。平臺(tái)地址為:

    http://babylone.ulb.ac.be/SOLART/index.php

    4 總結(jié)

    目前人工智能策略在蛋白質(zhì)工程領(lǐng)域的應(yīng)用范圍主要包括蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、酶功能預(yù)測(cè)、蛋白質(zhì)溶解度預(yù)測(cè)以及指導(dǎo)智能組合文庫(kù)設(shè)計(jì)等。在短短數(shù)年中,人工智能策略已經(jīng)在蛋白質(zhì)工程領(lǐng)域展現(xiàn)了顯而易見(jiàn)的應(yīng)用潛力和價(jià)值。要進(jìn)一步挖掘人工智能在蛋白質(zhì)工程領(lǐng)域的潛能,提升預(yù)測(cè)模型的性能,還需解決許多問(wèn)題。首先,目前數(shù)據(jù)庫(kù)中自動(dòng)注釋的蛋白質(zhì)的信息質(zhì)量難以讓人信服,手動(dòng)管理的高質(zhì)量數(shù)據(jù)庫(kù)中數(shù)據(jù)量的大小又遠(yuǎn)不如前者,缺少大量可用于訓(xùn)練和驗(yàn)證的標(biāo)準(zhǔn)化的數(shù)據(jù)。在后續(xù)工作中,應(yīng)該構(gòu)建更加高質(zhì)量的基礎(chǔ)性蛋白質(zhì)序列-結(jié)構(gòu)-功能數(shù)據(jù)庫(kù),有助于更加高效地構(gòu)建人工智能預(yù)測(cè)模型。其數(shù)據(jù)集應(yīng)該是相關(guān)的、有代表性的、非冗余的,并且包含通過(guò)實(shí)驗(yàn)確定的陽(yáng)性和陰性數(shù)據(jù),具有統(tǒng)一的標(biāo)準(zhǔn)格式等[50]。其次,在早期的實(shí)驗(yàn)中,更容易被表征或者具有更好表型的蛋白質(zhì)往往會(huì)在后續(xù)工作中進(jìn)行表征和確認(rèn),而表現(xiàn)不佳的蛋白質(zhì)則會(huì)被丟棄,導(dǎo)致數(shù)據(jù)出現(xiàn)偏差,模型的預(yù)測(cè)性能下降[96]。此外,人工智能輔助的蛋白質(zhì)工程策略還處于早期階段,大多數(shù)例子中的預(yù)測(cè)模型可能無(wú)法直接推廣應(yīng)用到其他學(xué)習(xí)任務(wù)中,需要重新進(jìn)行訓(xùn)練和驗(yàn)證。最后,隨著越來(lái)越多的復(fù)雜的人工智能算法被用于蛋白質(zhì)工程,難以對(duì)預(yù)測(cè)模型的原理進(jìn)行解釋等等。

    隨著相關(guān)研究的逐漸深入,最近已經(jīng)有一些針對(duì)這些問(wèn)題的研究。如今,基因功能注釋領(lǐng)域中的自動(dòng)功能預(yù)測(cè)(automatic function prediction,AFP)飛速發(fā)展,雖然還不足以解決上面提到的新蛋白質(zhì)序列表征的問(wèn)題,但是也已經(jīng)提出一些類(lèi)似于CASP 競(jìng)賽性質(zhì)的比賽,如CAFA[97]、EFI[98]和COMBREX[99]等。相信在未來(lái),會(huì)出現(xiàn)具有足夠精度的人工智能算法能準(zhǔn)確預(yù)測(cè)新蛋白質(zhì)序列的功能,為人工智能輔助的蛋白質(zhì)工程提供大量?jī)?yōu)質(zhì)的數(shù)據(jù)。除此之外,隨著微流控篩選、熒光激活的細(xì)胞分選、噬菌體輔助連續(xù)進(jìn)化等超高通量篩選技術(shù)的突破與二代測(cè)序技術(shù)的成熟,二者聯(lián)用產(chǎn)生的蛋白質(zhì)深度突變掃描技術(shù)應(yīng)運(yùn)而生[100-102],應(yīng)用它們來(lái)獲得大量更全面、更均勻的實(shí)驗(yàn)數(shù)據(jù)是未來(lái)重要的發(fā)展方向之一。并且,近幾年人工智能算法仍在飛速發(fā)展,遷移學(xué)習(xí)模型取得了一些進(jìn)展,除了Frances H.Arnold 團(tuán)隊(duì)和George M.Church 團(tuán)隊(duì)所采用的自然語(yǔ)言算法模型外,自動(dòng)編碼器和變分自編碼器神經(jīng)網(wǎng)絡(luò)算法也可以從輸入的蛋白質(zhì)序列中生成、提取深層的特征,從而基于序列就可以執(zhí)行多種預(yù)測(cè)任務(wù)。例如Debora S.Marks 團(tuán)隊(duì)開(kāi)發(fā)的DeepSequence 僅基于序列就可以預(yù)測(cè)突變帶來(lái)的影響[103]。最后,人工智能算法的可解釋性也是重要研究方向。相信在未來(lái),能夠清晰明了地解析預(yù)測(cè)模型內(nèi)部原理。隨著數(shù)據(jù)和人工智能算法的不斷發(fā)展,性能更好的人工智能預(yù)測(cè)模型將會(huì)成為蛋白質(zhì)工程的強(qiáng)大工具。

    猜你喜歡
    描述符氨基酸蛋白質(zhì)
    蛋白質(zhì)自由
    肝博士(2022年3期)2022-06-30 02:48:48
    基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
    人工智能與蛋白質(zhì)結(jié)構(gòu)
    海外星云(2021年9期)2021-10-14 07:26:10
    月桂酰丙氨基酸鈉的抑菌性能研究
    Linux單線程并發(fā)服務(wù)器探索
    UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
    中成藥(2018年1期)2018-02-02 07:20:05
    利用CNN的無(wú)人機(jī)遙感影像特征描述符學(xué)習(xí)
    蛋白質(zhì)計(jì)算問(wèn)題歸納
    一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
    氨基酸分析儀測(cè)定玉米漿中17種游離氨基酸的不確定度評(píng)定
    阳高县| 巴彦淖尔市| 平凉市| 柳江县| 达孜县| 三原县| 临沭县| 磐安县| 吉木萨尔县| 昂仁县| 桃源县| 康定县| 开原市| 新田县| 渝中区| 武清区| 聂拉木县| 资兴市| 全州县| 富川| 土默特右旗| 西乡县| 团风县| 出国| 镇康县| 兴山县| 拜泉县| 龙泉市| 特克斯县| 东乌珠穆沁旗| 普安县| 常宁市| 聂拉木县| 玉环县| 安平县| 丹寨县| 来安县| 栖霞市| 板桥市| 赤峰市| 茌平县|