• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    人工智能輔助的蛋白質(zhì)工程

    2022-07-15 11:51:16卞佳豪楊廣宇
    合成生物學(xué) 2022年3期
    關(guān)鍵詞:描述符氨基酸蛋白質(zhì)

    卞佳豪,楊廣宇

    (上海交通大學(xué) 生命科學(xué)技術(shù)學(xué)院,微生物代謝國(guó)家重點(diǎn)實(shí)驗(yàn)室,上海 200240)

    合成生物學(xué)是一個(gè)廣泛的研究領(lǐng)域,通過(guò)將生物學(xué)和工程學(xué)相結(jié)合來(lái)設(shè)計(jì)和創(chuàng)建具有新穎功能的生物系統(tǒng)[1-2]。這一過(guò)程需要功能各異、形式多樣并且能夠良好實(shí)現(xiàn)預(yù)期功能的生物元件,特別是蛋白質(zhì)功能元件(催化酶、轉(zhuǎn)錄因子、轉(zhuǎn)運(yùn)蛋白、蛋白支架等)[3]。但是,天然來(lái)源蛋白質(zhì)元件大部分都不能滿足人工生物系統(tǒng)的需要,實(shí)際應(yīng)用中往往表現(xiàn)出折疊錯(cuò)誤、細(xì)胞毒性、功能不適宜等缺陷[4-5]。蛋白質(zhì)從頭設(shè)計(jì)或?qū)μ烊坏鞍踪|(zhì)進(jìn)行分子改造,成為解決這一問(wèn)題的重要途徑。對(duì)于蛋白質(zhì)或酶的分子改造,已經(jīng)成為合成生物學(xué)的重要研究領(lǐng)域[6-9]。

    在天然蛋白質(zhì)分子改造方面,主要包括定向進(jìn)化(directed evolution)和理性設(shè)計(jì)(rational design)兩種策略[10-12],見(jiàn)圖1。前者通過(guò)模擬自然選擇過(guò)程,對(duì)目標(biāo)基因進(jìn)行多輪突變和篩選實(shí)驗(yàn),直至獲得所需水平的優(yōu)良變體,但是該技術(shù)受限制于較低的篩選速率和序列空間中龐大的變體數(shù)量[13]。后者依據(jù)序列和結(jié)構(gòu)信息,選擇較少的關(guān)鍵位點(diǎn)進(jìn)行精準(zhǔn)改造,從而構(gòu)建較小的突變文庫(kù),但是需要對(duì)結(jié)構(gòu)功能信息有深入了解,并且需要巨大的計(jì)算資源[14]。

    圖1 理性設(shè)計(jì),定向進(jìn)化和人工智能輔助的蛋白質(zhì)工程策略示意圖(理性設(shè)計(jì)依賴(lài)序列和結(jié)構(gòu)信息,精準(zhǔn)設(shè)計(jì)突變體文庫(kù),但難以應(yīng)用于缺少結(jié)構(gòu)功能信息的蛋白質(zhì)。定向進(jìn)化中對(duì)目標(biāo)基因進(jìn)行多輪突變和篩選實(shí)驗(yàn),不受結(jié)構(gòu)功能信息限制,但是需要進(jìn)行高通量的篩選方法。人工智能輔助的蛋白質(zhì)工程則需要大量的序列-功能數(shù)據(jù),可以來(lái)源于實(shí)驗(yàn)、計(jì)算和數(shù)據(jù)庫(kù)等多方面,通過(guò)構(gòu)建的預(yù)測(cè)模型,能夠更有效地探索蛋白質(zhì)突變體序列空間)Fig.1 Schematic diagram for rational design,directed evolution and artificial intelligence-assisted protein engineering(Rational design relies on sequence and structural information to design mutant libraries accurately.However, it is difficult for being applied to pro‐teins lacking structural and functional information.In the directed evolution strategy,multiple rounds of mutation and screening experiments are per‐formed on target genes,which are not limited by structural and functional information,but high-throughput screening methods are required.Artificial intelligence-assisted protein engineering requires a large amount of sequence-function data,which can be derived from experiments,calculations,and databases.Through the predictive model,the sequence space of protein mutants can be explored more effectively)

    人工智能輔助的蛋白質(zhì)工程策略是一種由數(shù)據(jù)驅(qū)動(dòng)的新策略[15]。該策略通過(guò)學(xué)習(xí)已有數(shù)據(jù)中的信息,建立起輸入屬性(如序列)到輸出屬性(如功能)的映射關(guān)系,不需要詳細(xì)的物理或生物層面的基礎(chǔ)信息[16]。一旦得到足夠準(zhǔn)確的映射關(guān)系(或者說(shuō)預(yù)測(cè)模型),就能夠通過(guò)實(shí)驗(yàn)中容易得到的輸入值來(lái)預(yù)測(cè)輸出值,從而免除大量的重復(fù)性實(shí)驗(yàn)。目前,該策略已經(jīng)成功應(yīng)用在蛋白質(zhì)工程的很多方面,包括蛋白分子結(jié)構(gòu)預(yù)測(cè)[17-18]、蛋白分子功能預(yù)測(cè)[19-20]、蛋白分子溶解度預(yù)測(cè)[21-22]和指導(dǎo)設(shè)計(jì)智能組合文庫(kù)[23-26]等。

    目前已有多篇綜述詳細(xì)介紹了有關(guān)機(jī)器學(xué)習(xí)的基礎(chǔ)概念[27-31]。這些文章多從數(shù)據(jù)和算法的角度來(lái)對(duì)人工智能的主要進(jìn)展進(jìn)行了介紹,但是對(duì)于非生物信息學(xué)背景的研究人員而言,這類(lèi)綜述讀起來(lái)較為深?yuàn)W。為了使更多實(shí)驗(yàn)生物學(xué)背景的人員理解人工智能蛋白設(shè)計(jì)的進(jìn)展,本文將主要介紹人工智能輔助蛋白分子設(shè)計(jì)的應(yīng)用實(shí)例、已開(kāi)發(fā)的數(shù)據(jù)庫(kù)和平臺(tái)工具等幾個(gè)方面,為希望進(jìn)入人工智能蛋白質(zhì)工程領(lǐng)域的入門(mén)者提供幫助。

    1 人工智能輔助的蛋白質(zhì)工程應(yīng)用實(shí)例

    人工智能算法由于準(zhǔn)確度高、計(jì)算速度快、不受蛋白質(zhì)結(jié)構(gòu)功能信息限制等優(yōu)點(diǎn),近年來(lái)被大量應(yīng)用于蛋白質(zhì)工程領(lǐng)域,包括蛋白質(zhì)的結(jié)構(gòu)、功能、熱穩(wěn)定性、對(duì)映體選擇性、光敏性及指導(dǎo)設(shè)計(jì)智能組合文庫(kù)等多個(gè)方面。其中除了經(jīng)典的機(jī)器學(xué)習(xí)算法(決策樹(shù)、支持向量機(jī)和高斯過(guò)程回歸等)外,多種深度學(xué)習(xí)算法和基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)也獲得了成功的應(yīng)用。在下文中,我們重點(diǎn)集中于近幾年在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、功能預(yù)測(cè)、溶解度預(yù)測(cè)和指導(dǎo)設(shè)計(jì)智能組合文庫(kù)四個(gè)方面的成功案例,系統(tǒng)地分析人工智能算法在蛋白質(zhì)工程中應(yīng)用的優(yōu)勢(shì)。

    1.1 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

    截至2018 年,蛋白質(zhì)數(shù)據(jù)庫(kù)中發(fā)布了超過(guò)145 000 個(gè)蛋白質(zhì)結(jié)構(gòu),但與目前已知的超過(guò)2 億條蛋白質(zhì)序列相比,仍?xún)H占很小的比例[32],因此蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是生物學(xué)中經(jīng)久不衰的熱點(diǎn)問(wèn)題。早在1992 年,機(jī)器學(xué)習(xí)算法就被用于預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)[33]。近幾年,利用深度學(xué)習(xí)算法和蛋白質(zhì)序列的三維結(jié)構(gòu)預(yù)測(cè)模型取得了不小的進(jìn)展[34]。首先是在2018 年第13 屆全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)上,AlphaFold 模型結(jié)合深度殘差卷積神經(jīng)網(wǎng)絡(luò)和快速Rosetta 模型,獲得了預(yù)測(cè)43 種蛋白中的25 種蛋白結(jié)構(gòu)的最高分,實(shí)現(xiàn)了預(yù)測(cè)成功率的 突 破[17]。2019 年 底,David Baker 團(tuán) 隊(duì) 發(fā) 表 了trRosetta 方案,綜合了深度學(xué)習(xí)和Rosetta 的優(yōu)勢(shì)和進(jìn)展,具有良好預(yù)測(cè)精度的同時(shí),能夠在本地電腦上就可以完成計(jì)算,使得預(yù)測(cè)蛋白結(jié)構(gòu)的門(mén)檻 大 大 降 低[18]。 在2020 年 的CASP14 中,AlphaFold 2 再次獲得冠軍。根據(jù)DeepMind 官方的信息,AlphaFold 2 在無(wú)模板的自由建模任務(wù)中,拿 到 了87.0 的GDT_TS 分 數(shù)(global distance test[35]),在常規(guī)項(xiàng)目中拿到了92.4 分,這意味著該系統(tǒng)預(yù)測(cè)的均方根偏差(即預(yù)測(cè)數(shù)據(jù)與實(shí)驗(yàn)數(shù)據(jù)在原子位置上的偏差)大約為0.16 nm,已經(jīng)達(dá)到了常規(guī)蛋白質(zhì)晶體結(jié)構(gòu)的實(shí)驗(yàn)精度。盡管AlphaFold 目前最好的成績(jī)是針對(duì)單鏈蛋白質(zhì)分子,但這種成績(jī)本身就足以證明人工智能算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的巨大潛力,例如減少繁瑣的結(jié)晶條件探索工作,以及提供以常規(guī)實(shí)驗(yàn)方法難以獲得的蛋白質(zhì)結(jié)構(gòu)等。

    1.2 蛋白質(zhì)功能預(yù)測(cè)

    天然蛋白的功能表征實(shí)驗(yàn)需要大量工作,其速度遠(yuǎn)遠(yuǎn)低于新蛋白序列的獲取速度[36-37]。借助人工智能算法來(lái)預(yù)測(cè)蛋白質(zhì)的功能是另外一個(gè)研究熱點(diǎn)。2018 年,研究者通過(guò)收集來(lái)自擬南芥的54 種GT1 家族糖基轉(zhuǎn)移酶的序列信息和它們91 種底物的物理化學(xué)特性(如疏水常數(shù)lgP、分子表面積)和結(jié)構(gòu)信息(如官能團(tuán)拷貝數(shù)、框架類(lèi)型),建立了初始的數(shù)據(jù)集,并以多種基于決策樹(shù)的算法來(lái)構(gòu)建酶功能的預(yù)測(cè)模型(圖2)[19]。在不需要進(jìn)行任何實(shí)驗(yàn)的條件下,該預(yù)測(cè)模型利用酶序列,就能夠準(zhǔn)確地預(yù)測(cè)其他植物中(苜蓿和燕麥)GT1糖基轉(zhuǎn)移酶的活性,對(duì)來(lái)自細(xì)菌的GT1 酶活性的預(yù)測(cè)準(zhǔn)確率也在70%以上。這表明能夠利用高通量數(shù)據(jù)進(jìn)行學(xué)習(xí)的人工智能算法在底物混雜、已解析結(jié)構(gòu)少的酶的功能注釋中具有巨大潛力。此外,人工智能算法也被應(yīng)用于預(yù)測(cè)酶的EC 編號(hào)(enzyme commission number),幫助對(duì)酶分子進(jìn)行分 類(lèi)。先 后 發(fā) 展 出 的PRIAM[38]、CatFam[39]、EFICAz2.5[40]、 SVM-prot[41]、 COFACTOR[42]、DEEPre[36]、 DETECT v2[43]、 ECPred[44]和DeepEC[20]等多種預(yù)測(cè)工具,在計(jì)算時(shí)間、計(jì)算精度和覆蓋范圍等預(yù)測(cè)性能方面逐漸改進(jìn),簡(jiǎn)要內(nèi)容見(jiàn)表1。其中,DeepEC 方法包括三個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò),利用氨基酸序列,就能對(duì)氨基酸序列是否為酶分子、酶分子EC 編號(hào)的三位和四位數(shù)值進(jìn)行預(yù)測(cè)。與CatFam、DETECT v2、ECPred、EFICAz2.5 和PRIAM 五種代表性的酶EC 編號(hào)預(yù)測(cè)工具相比,在Swiss-Prot 數(shù)據(jù)庫(kù)中選取的201 個(gè)酶進(jìn)行驗(yàn)證時(shí), DeepEC 表現(xiàn)最佳, 準(zhǔn)確率(accuracy)和召回率(recall)分別為0.920和0.455。即45.5%的陽(yáng)性樣本能被預(yù)測(cè)模型準(zhǔn)確識(shí)別,這其中92.0%樣本的預(yù)測(cè)值與真實(shí)值是一致的。

    表1 EC編號(hào)預(yù)測(cè)工具匯總表Tab.1 Forecast tools for EC numbers

    圖2 GT1家族糖基轉(zhuǎn)移酶預(yù)測(cè)模型(GT-Predict)的工作流程[19](基于功能的算法學(xué)習(xí)方法GT-Predict,使用來(lái)源于酶、親電試劑和親核試劑的多種訓(xùn)練集來(lái)創(chuàng)建基于物理化學(xué)和局部序列的分類(lèi)器,從而預(yù)測(cè)GT1糖基轉(zhuǎn)移酶的催化活性和功能信息。Nuc表示親核基團(tuán)的數(shù)量/類(lèi)型)Fig.2 Workflow for predicting the GT1 glycosyltransferase model(GT-Predict)[19](The function-based algorithmic learning approach,GT-Predict,uses a diverse training set of enzymes,electrophiles,and nucleophiles to create a physicochemical and local-sequence-based classifier for predicting the novel transformations and functional annotation of GT group-transfer enzymes.)

    1.3 蛋白質(zhì)溶解度預(yù)測(cè)

    蛋白質(zhì)的溶解度對(duì)于其行使功能起到重要作用。溶解度過(guò)低是蛋白質(zhì)大規(guī)模生產(chǎn)中常見(jiàn)的主要瓶頸[45-46],而溶解度的測(cè)量費(fèi)時(shí)費(fèi)力,因此非常需要能夠準(zhǔn)確對(duì)蛋白質(zhì)溶解度進(jìn)行預(yù)測(cè)的生物信息學(xué)工具。新加坡國(guó)立大學(xué)的Han 等[21]測(cè)試了邏輯回歸、決策樹(shù)、支持向量機(jī)、樸素貝葉斯、條件隨機(jī)森林、XGboost和人工神經(jīng)網(wǎng)絡(luò)等七種算法構(gòu)建基于序列的溶解度預(yù)測(cè)模型,其中支持向量機(jī)算法構(gòu)建的模型在此預(yù)測(cè)任務(wù)中顯示出最高的準(zhǔn)確性。在預(yù)測(cè)結(jié)果為代表“可溶”和“不溶”的二分值“1”和“0”時(shí),該模型的預(yù)測(cè)準(zhǔn)確率為0.7628。除此之外,該模型還可以預(yù)測(cè)蛋白質(zhì)連續(xù)的溶解度值(離心后上清液的蛋白質(zhì)質(zhì)量與總蛋白質(zhì)質(zhì)量之比)。但這種情況下,模型預(yù)測(cè)的準(zhǔn)確性有所降低,決定系數(shù)為0.41。最近,中山大學(xué)的Chen Jianwen 等[22]利用蛋白質(zhì)接觸圖(contact map)和圖神經(jīng)網(wǎng)絡(luò)算法(GCN)開(kāi)發(fā)了一種新的利用氨基酸序列預(yù)測(cè)蛋白質(zhì)溶解的模型GraphSol,在同樣利用eSOL 數(shù)據(jù)庫(kù)中的蛋白質(zhì)溶解度數(shù)據(jù)進(jìn)行驗(yàn)證時(shí),進(jìn)一步提升了預(yù)測(cè)模型的性能,其決定系數(shù)為0.48。在蛋白質(zhì)工程中,輸出結(jié)果為簡(jiǎn)單的二分值時(shí),重要的氨基酸突變對(duì)溶解度的貢獻(xiàn)無(wú)法分析。例如,“不溶”和“可溶”的群體中,不同突變對(duì)蛋白質(zhì)溶解度的貢獻(xiàn)無(wú)法分辨。并且,當(dāng)存在大量“可溶”的預(yù)測(cè)變體時(shí),無(wú)法從中選出表現(xiàn)最佳的少數(shù)變體進(jìn)行實(shí)驗(yàn)驗(yàn)證[21]。因此,能夠預(yù)測(cè)蛋白質(zhì)連續(xù)的溶解度的模型更適用于輔助蛋白質(zhì)工程。隨著可用數(shù)據(jù)集的擴(kuò)大和算法框架的優(yōu)化,基于序列的蛋白質(zhì)溶解度預(yù)測(cè)模型將能夠有越來(lái)越高的準(zhǔn)確率。

    1.4 指導(dǎo)設(shè)計(jì)智能組合文庫(kù)

    人工智能策略在酶定向進(jìn)化中也具有重要的應(yīng)用潛力。依靠人工智能算法,可以基于已有的序列/結(jié)構(gòu)信息,直接建立起序列/結(jié)構(gòu)-功能的映射關(guān)系,因此理論上可以極大減少篩選工作量,并且更加有效地探索整個(gè)組合突變體的序列空間[26,47]。例如,在指導(dǎo)綠色熒光蛋白向黃色熒光蛋白進(jìn)化的研究中,研究者們對(duì)選定的四個(gè)關(guān)鍵位點(diǎn)構(gòu)建了單點(diǎn)飽和突變庫(kù)和隨機(jī)誘變庫(kù),共包含218 個(gè)變體。但將所有變體篩選之后,沒(méi)有發(fā)現(xiàn)比參考黃色熒光蛋白性能更好的突變體。隨后,他們選擇其中的155 個(gè)變體的序列-功能數(shù)據(jù)作為初始數(shù)據(jù)集,以高斯過(guò)程回歸算法來(lái)構(gòu)建預(yù)測(cè)模型。通過(guò)預(yù)測(cè)模型,遍歷了整個(gè)四點(diǎn)組合序列空間中的近16 萬(wàn)個(gè)變體,并對(duì)其性能打分。在僅僅對(duì)預(yù)測(cè)突變體文庫(kù)中排名靠前的78 個(gè)變體進(jìn)行驗(yàn)證的情況下,就找到了12 個(gè)黃色熒光強(qiáng)度高于參考蛋白的突變體[23]。

    此外,在Frances H.Arnold 團(tuán)隊(duì)[24]的研究中,他們從對(duì)S-對(duì)映體有76%ee 一氧化氮雙加氧酶出發(fā),利用455個(gè)突變體來(lái)構(gòu)建從序列預(yù)測(cè)功能的模型。通過(guò)該模型對(duì)涵蓋了七個(gè)位置(兩個(gè)區(qū)域)的組合序列空間中約168 000 個(gè)變體的性能進(jìn)行預(yù)測(cè),再進(jìn)行兩輪篩選,共驗(yàn)證了360個(gè)變體后,就獲得了對(duì)S-對(duì)映體有93%ee和對(duì)R-對(duì)映體有79%ee的兩種優(yōu)良變體。

    在2018 年,Manfred T.Reetz 團(tuán)隊(duì)[25]利用一種innov’SAR 的人工智能方法來(lái)指導(dǎo)在環(huán)氧水解酶的對(duì)映體選擇性的進(jìn)化過(guò)程中組合突變文庫(kù)的設(shè)計(jì),在僅使用了38 個(gè)突變體的序列-功能數(shù)據(jù)的情況下,預(yù)測(cè)模型對(duì)九個(gè)位點(diǎn)上共512 種突變體的功能進(jìn)行了預(yù)測(cè),經(jīng)過(guò)簡(jiǎn)單驗(yàn)證后就找到了多個(gè)優(yōu)于經(jīng)隨機(jī)突變文庫(kù)篩選得到的最佳突變體的酶分子。

    2019年,為了解決視紫紅質(zhì)通道蛋白篩選通量太低,并且要同時(shí)保留其多種特性的問(wèn)題,F(xiàn)rances H.Arnold團(tuán)隊(duì)[26]使用了人工智能輔助的蛋白質(zhì)工程策略(圖3)。其方法為首先利用實(shí)驗(yàn)表征的和文獻(xiàn)報(bào)道得到的183個(gè)序列-功能數(shù)據(jù),構(gòu)建一個(gè)分類(lèi)模型,從而有效排除重組文庫(kù)120 000 條序列中絕大多數(shù)的非功能序列。然后根據(jù)已經(jīng)表征的視紫紅質(zhì)通道蛋白的特性信息,針對(duì)不同的目標(biāo)屬性來(lái)建立不同的回歸模型,例如電流強(qiáng)度、關(guān)閉動(dòng)力學(xué)(即曝光后通道關(guān)閉所需的時(shí)間)和激活的波長(zhǎng)敏感度等,對(duì)所有具有功能的序列進(jìn)行特性的得分的預(yù)測(cè)。最后從預(yù)測(cè)庫(kù)中選擇少部分排名靠前的突變體(28個(gè))進(jìn)行實(shí)驗(yàn)驗(yàn)證,并得到了目標(biāo)屬性都優(yōu)于現(xiàn)有的視紫紅質(zhì)通道蛋白的三個(gè)變體ChRger1、ChRger2和ChRger3。

    圖3 人工智能輔助的視紫紅質(zhì)通道蛋白改造的工作流程[26][在重組文庫(kù)中表征的102種ChR蛋白和文獻(xiàn)中報(bào)道的61種變體,共同構(gòu)成了(1)分類(lèi)模型的訓(xùn)練集。然后,使用經(jīng)過(guò)訓(xùn)練的分類(lèi)模型來(lái)預(yù)測(cè)12000個(gè)未表征的ChR序列變體是否具有功能。接下來(lái),構(gòu)建了三個(gè)(2)回歸模型,分別針對(duì)不同的ChR光電流特性:光電流強(qiáng)度,關(guān)閉動(dòng)力學(xué)和光電流的波長(zhǎng)敏感性]Fig.3 Workflow for machine learning-guided channelrhodopsin engineering[26][102 ChR proteins characterized in the recombinant library,together with 61 variants reported in the literature,constitute the training set of theclassification model(1).Then the trained classification model was used to predict whether 12000 uncharacterized ChR sequence variants are functional,and three regression models(2)were trained,one for each of the ChR photocurrent properties of interest:photocurrent strength,off-kinetics and wavelength sensitivity of the photocurrents.]

    2 人工智能輔助的蛋白分子設(shè)計(jì)策略概述

    在人工智能輔助的蛋白分子設(shè)計(jì)策略中,本質(zhì)是基于已有的數(shù)據(jù),引入不同的機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行“輸入特征-輸出特征”的映射關(guān)系的構(gòu)建。根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息(即規(guī)定的輸出值),機(jī)器學(xué)習(xí)大致可劃分為監(jiān)督學(xué)習(xí)(supervised learning)和無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)。由于在蛋白質(zhì)工程中,最終目的是獲得或者優(yōu)化目標(biāo)蛋白的一個(gè)或多個(gè)屬性,因此至少會(huì)有一個(gè)屬性值作為標(biāo)記信息,屬于監(jiān)督學(xué)習(xí)[48]。

    圖4描述了監(jiān)督學(xué)習(xí)的工作流程,主要可以分為三個(gè)步驟[27]。步驟1: 通過(guò)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)和文獻(xiàn)等方式收集初始數(shù)據(jù),將序列作為輸入特征,將蛋白質(zhì)的功能信息(如對(duì)某種目標(biāo)底物的活性)作為標(biāo)記信息(如1 代表該序列對(duì)底物有活性,0 代表該序列無(wú)活性),轉(zhuǎn)為計(jì)算機(jī)能夠識(shí)別的數(shù)字格式,并拆分為訓(xùn)練集和測(cè)試集。步驟2:選用合適的算法,利用訓(xùn)練集進(jìn)行預(yù)測(cè)模型的訓(xùn)練,建立起“序列-活性”的映射關(guān)系。步驟3:利用訓(xùn)練的模型,輸入測(cè)試集的序列,得到預(yù)測(cè)值(0或1),通過(guò)比較測(cè)試集中的真實(shí)值和預(yù)測(cè)值之間的差異,評(píng)估預(yù)測(cè)模型的性能。在整個(gè)流程中,有兩個(gè)關(guān)鍵點(diǎn)對(duì)預(yù)測(cè)模型的性能至關(guān)重要:數(shù)據(jù)、分子描述符和算法,人工智能方法的開(kāi)發(fā)重點(diǎn)也是集中于這兩個(gè)方面。

    圖4 監(jiān)督學(xué)習(xí)的流程示意圖[27](a)準(zhǔn)備數(shù)據(jù):來(lái)源于實(shí)驗(yàn),計(jì)算或數(shù)據(jù)庫(kù)的數(shù)據(jù)通常會(huì)轉(zhuǎn)換成計(jì)算機(jī)可以識(shí)別的格式,并拆分為訓(xùn)練集和測(cè)試集;(b)構(gòu)建預(yù)測(cè)模型:利用訓(xùn)練集訓(xùn)練不同的算法以找到?jīng)Q策邊界,構(gòu)建預(yù)測(cè)模型,例如隨機(jī)森林,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī);(c)驗(yàn)證模型:對(duì)于分類(lèi)問(wèn)題或者回歸問(wèn)題,應(yīng)選擇合適的評(píng)估方法Fig.4 Schematic diagram of the supervised learning process[27]Step(a):Preparing data.The data from experiments,calculations or databases are usually converted to a format that the computer can recognize and split into the training and test parts.Step(b):Constructing a predictive model.Using the training set to train different algorithms to find decision boundaries,such as random forests,neural networks and support vector machines,so as to build predictive models.Step(c):Validating the model.An appropriate evaluation method should be selected for tasks with classification or regression.

    2.1 數(shù)據(jù)

    由于人工智能算法嚴(yán)重依賴(lài)數(shù)據(jù),初始數(shù)據(jù)的數(shù)量和質(zhì)量決定了訓(xùn)練得到的模型的泛化性能[49-50]。數(shù)據(jù)集的數(shù)量不足或者質(zhì)量過(guò)低會(huì)導(dǎo)致模型出現(xiàn)過(guò)擬合或者欠擬合的問(wèn)題,往往會(huì)進(jìn)行交叉驗(yàn)證來(lái)檢測(cè)模型中是否存在該問(wèn)題,例如k折交叉驗(yàn)證(即將整個(gè)數(shù)據(jù)集平均拆分為k份,每一份輪流作為測(cè)試集,其余作為訓(xùn)練集,如圖5),因此數(shù)據(jù)收集是重要且耗時(shí)的步驟。一般來(lái)說(shuō),人工智能輔助策略很適合與其他蛋白質(zhì)改造策略聯(lián)用,利用在隨機(jī)突變或(半)理性設(shè)計(jì)后生成的數(shù)據(jù)作為初始數(shù)據(jù)[51]。但是,一方面,就來(lái)自單輪實(shí)驗(yàn)的數(shù)據(jù)而言,數(shù)據(jù)集通常僅包括數(shù)十種到數(shù)百種變體,這在人工智能算法框架中屬于較小的樣本量[52]。另一方面,從實(shí)驗(yàn)中以及部分?jǐn)?shù)據(jù)庫(kù)中的數(shù)據(jù)是存在一定偏差的,特別是針對(duì)蛋白質(zhì)某項(xiàng)屬性進(jìn)行改造時(shí),表現(xiàn)不好的突變體通常直接被丟棄掉,因此導(dǎo)致初始數(shù)據(jù)集中數(shù)據(jù)不均勻。因此,如果采用人工智能輔助的蛋白質(zhì)工程策略,應(yīng)當(dāng)注意收集陰性數(shù)據(jù)來(lái)保證數(shù)據(jù)的無(wú)偏性。針對(duì)訓(xùn)練數(shù)據(jù)的數(shù)量偏少的問(wèn)題,一方面許多數(shù)據(jù)庫(kù)一直在收集、整理來(lái)源于文獻(xiàn)或?qū)嶒?yàn)的數(shù)據(jù),涵蓋蛋白質(zhì)的序列、結(jié)構(gòu)、功能和溶解度等多個(gè)屬性,可以為人工智能算法提供許多優(yōu)質(zhì)的數(shù)據(jù);另一方面,隨著超高通量篩選和二代測(cè)序等高通量生物學(xué)實(shí)驗(yàn)技術(shù)的逐漸成熟,可以相信在不遠(yuǎn)的未來(lái)可用數(shù)據(jù)的數(shù)量和質(zhì)量都會(huì)得到大幅度的提升,為更精準(zhǔn)的人工智能算法提供充足的資源。

    圖5 k折交叉驗(yàn)證示意圖(將訓(xùn)練數(shù)據(jù)進(jìn)一步細(xì)分為k個(gè)子集,并且將訓(xùn)練工作流程重復(fù)k次,同時(shí)保留k個(gè)子集中的一個(gè)用于評(píng)估,其余k-1個(gè)子集用于訓(xùn)練)Fig.5 Schematic diagram for k-fold cross-validation(The training data is further subsplit into k subsets,and the training workflow is repeated k times with each of the k subsets holding for evaluation and the remaining k-1 subsets used for training)

    2.2 分子描述符

    分子描述符(molecular descriptors),就是將分子的化學(xué)信息(例如結(jié)構(gòu)特征)轉(zhuǎn)換成有用的數(shù)字形式的工具。算法,即學(xué)習(xí)算法(learning algorithm),是機(jī)器學(xué)習(xí)中用于幫助計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)中產(chǎn)生模型(model)、總結(jié)“經(jīng)驗(yàn)”的方法[53]。但計(jì)算機(jī)系統(tǒng)僅能理解數(shù)字向量,所以算法不能直接作用于蛋白質(zhì)序列[16]。因此,在獲得序列之后,一般還需要利用合適的分子描述符將氨基酸序列處理為計(jì)算機(jī)能夠識(shí)別的格式。以最簡(jiǎn)單的獨(dú)熱編碼描述符為例,對(duì)于N個(gè)長(zhǎng)度為L(zhǎng)的多個(gè)蛋白質(zhì)突變體序列,它們?nèi)粼谀骋幌嗤稽c(diǎn)上包含S種不同的氨基酸(S≤N,S≤20),則該位置的所有氨基酸都可以用一個(gè)S維向量表示,每一個(gè)S維向量都包括S?1 個(gè)0 和一個(gè)1,其中1 的位置表明該氨基酸的身份,如圖6。氨基酸序列也可以根據(jù)物理性質(zhì)進(jìn)行編碼,每種氨基酸可以由其電荷、體積或疏水性等特性或者這些特性的組合來(lái)表示,如AAindex[54]中就包含了大量類(lèi)似的描述符。目前常用到的描述符有4 種類(lèi)型,包括基于氨基酸序列特征的描述符、結(jié)構(gòu)信息描述符、嵌入式表示描述符以及突變指示描述符,在綜述[16,30,55]中均有詳細(xì)描述,本文不再贅述。

    圖6 獨(dú)熱編碼示意圖(N個(gè)蛋白質(zhì)突變體序列中L個(gè)氨基酸中某一相同位置包含S種不同的氨基酸,獨(dú)熱編碼將這S個(gè)氨基酸都表示為包括S-1個(gè)0和一個(gè)1的S維向量,其中1的位置表示該位置的氨基酸的種類(lèi))Fig.6 Schematic diagram for one-hot encoding(A certain position of the L amino acids in the N protein mutant sequence contains S different amino acids.The one-hot encoding represents all S amino acids as an S-dimensional vector including S-1 zeros and one 1.The position of 1 indicates the type of amino acid at that position.)

    2.3 算法

    除此之外,人工智能領(lǐng)域也已經(jīng)提出了大量算法。從模型復(fù)雜度角度, 機(jī)器學(xué)習(xí)分為經(jīng)典機(jī)器學(xué)習(xí)和深度學(xué)習(xí)[56]。前者中的偏最小二乘回歸[57]、支持向量機(jī)[58]、決策樹(shù)/隨機(jī)森林[59]和貝葉斯網(wǎng)絡(luò)[60]等常見(jiàn)算法以及后者中的變分自編碼器[61]、卷積神經(jīng)網(wǎng)絡(luò)[62]和循環(huán)神經(jīng)網(wǎng)絡(luò)[63]等都已用于輔助蛋白分子設(shè)計(jì)。

    經(jīng)典機(jī)器學(xué)習(xí)和深度學(xué)習(xí)二者的不同在于,經(jīng)典機(jī)器學(xué)習(xí)算法強(qiáng)烈依賴(lài)于人工提取的特征,一般與基于氨基酸特征或序列整體特征的分子描述符配套使用,但可能會(huì)受限于定義好的特征值而忽略數(shù)據(jù)中隱藏的信息[64]。而深度學(xué)習(xí)是通過(guò)深度神經(jīng)網(wǎng)絡(luò),將數(shù)據(jù)進(jìn)行分層抽象處理,能有效排除噪聲、發(fā)現(xiàn)隱藏信息,因此非常適用于從高維數(shù)據(jù)發(fā)現(xiàn)復(fù)雜結(jié)構(gòu)[56]。各個(gè)算法的入門(mén)介紹可以參考綜述[16,28,31,55]。

    在選擇算法時(shí),一般會(huì)以線性模型作為基線。如果線性模型的準(zhǔn)確性不足,并且初始數(shù)據(jù)集中數(shù)據(jù)小于10 000 時(shí),偏最小二乘回歸、隨機(jī)森林和支持向量機(jī)都可能構(gòu)建出最佳的預(yù)測(cè)模型,而神經(jīng)網(wǎng)絡(luò)則通常在更大的數(shù)據(jù)集上表現(xiàn)出最佳性能[16]。在計(jì)算速度方面,由于復(fù)雜程度和所需訓(xùn)練集大小等因素影響,深度學(xué)習(xí)往往也需要花費(fèi)更多時(shí)間[55]。因此,如何選擇合適的算法,需要研究者在具體的預(yù)測(cè)任務(wù)中仔細(xì)衡量準(zhǔn)確率、計(jì)算速度和實(shí)現(xiàn)難度等因素。

    在人工智能輔助的酶定向進(jìn)化策略中,選擇合適的分子描述符和機(jī)器學(xué)習(xí)算法對(duì)構(gòu)建準(zhǔn)確的預(yù)測(cè)模型而言至關(guān)重要。沒(méi)有一種分子描述符和算法能夠滿足所有的學(xué)習(xí)任務(wù)[65],研究人員必須結(jié)合專(zhuān)業(yè)知識(shí)或者同時(shí)構(gòu)建多個(gè)模型進(jìn)行比較。Frances H.Arnold 團(tuán)隊(duì)使用高斯過(guò)程算法,嵌入式表示、蛋白質(zhì)指數(shù)和獨(dú)熱編碼等氨基酸編碼方式進(jìn)行了未知功能蛋白的功能預(yù)測(cè),結(jié)果發(fā)現(xiàn),使用嵌入式表示描述符訓(xùn)練的模型預(yù)測(cè)能力與其他模型的預(yù)測(cè)能力相當(dāng),甚至超過(guò)它們[66];而在Jennifer M.Johnston 等人的研究中,使用多種描述符和卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了蛋白質(zhì)序列/活性關(guān)系預(yù)測(cè)模型,結(jié)果發(fā)現(xiàn),基于序列的氨基酸特性相關(guān)描述符的卷積神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)較好,而嵌入式表示描述符表現(xiàn)不佳[55]。這恰恰證明了沒(méi)有一種分子描述符和算法能夠滿足所有的學(xué)習(xí)任務(wù)。

    3 相關(guān)的數(shù)據(jù)庫(kù)和線上平臺(tái)

    3.1 數(shù)據(jù)庫(kù)

    除了與其他分子改造策略聯(lián)用之外,隨著高通量篩選和二代測(cè)序技術(shù)的不斷發(fā)展,越來(lái)越多的蛋白質(zhì)信息被挖掘,目前已經(jīng)有許多優(yōu)秀的數(shù)據(jù)庫(kù)收集并整理了多種可作為該策略初始數(shù)據(jù)的信息,是優(yōu)良的數(shù)據(jù)來(lái)源。即便數(shù)據(jù)庫(kù)中大量蛋白質(zhì)序列信息沒(méi)有功能注釋?zhuān)部梢杂糜跇?gòu)建預(yù)測(cè)模型,即通過(guò)人工智能算法從這些序列中學(xué)習(xí)、提取特征,然后作為下一步從“已知特征”到“目的屬性”的頂層預(yù)測(cè)模型的輸入數(shù)據(jù)。例如,在2019 年George M.Church 團(tuán)隊(duì)利用了大約2400 萬(wàn)條蛋白質(zhì)序列訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建了一個(gè)UniRep 模型[67]。該模型能夠預(yù)測(cè)氨基酸序列中下一個(gè)氨基酸是什么,以此來(lái)提取氨基酸序列中不可見(jiàn)的特征。這些特征可以作為其他算法(如隨機(jī)森林、稀疏線性回歸等)的輸入信息,來(lái)構(gòu)建頂層特征(圖7)。在應(yīng)用方面,基于UniRep 模型的預(yù)測(cè)模型在預(yù)測(cè)蛋白質(zhì)穩(wěn)定性和熒光蛋白序列優(yōu)化任務(wù)中,性能都明顯優(yōu)于Frances H.Arnold 團(tuán)隊(duì)曾報(bào)道的Doc2Vec 模型[66]。該研究說(shuō)明人工智能算法能夠深度挖掘蛋白質(zhì)序列中隱藏信息,為提高蛋白質(zhì)工程的效率、解決蛋白質(zhì)表征實(shí)驗(yàn)費(fèi)時(shí)費(fèi)力問(wèn)題提供了一個(gè)全新的方法。

    圖7 UniRep模型的工作流程[67][在訓(xùn)練部分,UniRep模型使用了2400萬(wàn)個(gè)氨基酸序列作為訓(xùn)練集。然后使用訓(xùn)練好的模型來(lái)預(yù)測(cè)下一個(gè)氨基酸(使交叉熵?fù)p失最小化),從而學(xué)會(huì)如何正確表示氨基酸。在應(yīng)用部分中,訓(xùn)練后的模型通過(guò)提取和平均各個(gè)氨基酸的數(shù)字向量,從而生成輸入序列的單個(gè)固定長(zhǎng)度矢量表示。這些向量可以用于訓(xùn)練頂級(jí)模型,從而應(yīng)用于多種序列-功能預(yù)測(cè)任務(wù)]Fig.7 Workflow for the UniRep model[67][In the training part,24 million amino acid sequences are used to train the UniRep model.Then the trained model is used to predict the next amino acid(minimizing the cross-entropy loss),so as to learn how to correctly represent the amino acid.In the application part,by extracting and assessing the numerical vector associated with the amino acid,the trained model is used to generate a single fixed-length vector representing the input sequence.Next,these vectors can be used to train top models,which can be applied to various sequence-function prediction tasks.]

    除了最常見(jiàn)的蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)庫(kù)外,越來(lái)越多的數(shù)據(jù)庫(kù)在自動(dòng)或手動(dòng)收集整理蛋白質(zhì)突變穩(wěn)定性、溶解度等信息,表2對(duì)部分比較常見(jiàn)的數(shù)據(jù)庫(kù)的類(lèi)型、大小和特點(diǎn)進(jìn)行了介紹。

    表2 常見(jiàn)數(shù)據(jù)庫(kù)匯總表Tab.2 Commonly used database

    3.2 線上平臺(tái)

    事實(shí)上,學(xué)者們已經(jīng)開(kāi)發(fā)了許多線上平臺(tái)或者工具包來(lái)幫助人們獲得蛋白質(zhì)序列中的特征信息以及使用人工智能算法的工具,匯總信息見(jiàn)表3。大多數(shù)工具包和線上平臺(tái)都只關(guān)注于完成整個(gè)生物序列分析任務(wù)的一部分,例如,大多數(shù)工具都只能利用不同類(lèi)型的分子描述符從序列中生成特征。但是其中BioSeq-Analysis2.0 和iLearn 兩個(gè)平臺(tái)可以自動(dòng)執(zhí)行整個(gè)蛋白序列分析任務(wù)的步驟,SOLart 平臺(tái)則額外引入了結(jié)構(gòu)信息來(lái)預(yù)測(cè)目標(biāo)蛋白質(zhì)溶解度,下面進(jìn)行詳細(xì)闡述。

    表3 基于蛋白質(zhì)序列的特征生成工具匯總表Tab.3 Feature generation tools based on protein sequences

    3.2.1 Protein-Analysis2.0

    Protein-Analysis2.0 是服務(wù)器BioSeq-Analysis2.0的線上蛋白質(zhì)服務(wù)器,可以通過(guò)三個(gè)主要步驟完成蛋白序列分析任務(wù):特征提取,預(yù)測(cè)模型構(gòu)建以及性能評(píng)估[91]。其中在特征提取方面,包括13 種基于氨基酸殘基水平的分子描述符和39 種基于氨基酸序列水平的分子描述符。為了避免某些分子描述符導(dǎo)致編碼后向量維度爆炸的情況,該平臺(tái)還添加了兩種特征選擇方法。在人工智能算法方面,該平臺(tái)僅整合兩種分類(lèi)算法(支持向量機(jī)和隨機(jī)森林)和一種序列標(biāo)記算法(條件隨機(jī)場(chǎng))。在性能評(píng)估方面,該平臺(tái)支持5 折交叉驗(yàn)證或獨(dú)立數(shù)據(jù)集兩種方式。同時(shí),作者利用文獻(xiàn)[94]中的數(shù)據(jù)作為基準(zhǔn)數(shù)據(jù),預(yù)測(cè)蛋白質(zhì)的無(wú)序區(qū)域,其中,其中條件隨機(jī)場(chǎng)-One-hot(6-bit)預(yù)測(cè)模型表現(xiàn)最佳,與文獻(xiàn)中的方法高度可比,證明了該平臺(tái)的實(shí)用性。平臺(tái)地址為:

    http://bliulab.net/BioSeq-Analysis2.0/home/

    3.2.2 iLearn

    iLearn線上平臺(tái)與BioSeq-Analysis2.0類(lèi)似,不同之處在于:①iLearn平臺(tái)中包含更多種分子描述;②擁有更豐富的特征分析功能,支持聚類(lèi)、特征向量歸一化、降維和5種特征選擇方法;③支持更多的機(jī)器學(xué)習(xí)算法和更多的評(píng)估指標(biāo);④選擇一種或多種機(jī)器學(xué)習(xí)算法進(jìn)行提交,可以返回具有最佳性能的模型等[93]。在應(yīng)用方面,作者從文獻(xiàn)[95]中收集初始數(shù)據(jù)集和獨(dú)立測(cè)試數(shù)據(jù)集,利用BLOSUM62、CKSAAP、Binary、Z-scales、AAindex、AAC 和EAAC其中不同的分子描述符來(lái)進(jìn)行蛋白質(zhì)丙二?;稽c(diǎn)預(yù)測(cè)模型的構(gòu)建,最終EAAC編碼模型的AUC值為0.73,與原始工作中報(bào)告的AUC 值為0.739 相當(dāng),表明iLearn可以作為一種方便有效的工具來(lái)構(gòu)建相關(guān)的預(yù)測(cè)模型。平臺(tái)地址為:

    https://ilearn.erc.monash.edu/

    3.2.3 SOLart

    SOLart線上平臺(tái)要求的輸入信息僅僅是蛋白質(zhì)結(jié)構(gòu),該結(jié)構(gòu)可以由用戶手動(dòng)上傳,也可以從Protein Data Bank 自動(dòng)上傳,無(wú)需其他額外操作。其原理是在基于序列的特征(如蛋白長(zhǎng)度和氨基酸組成)之外,引入了溶解度依賴(lài)距離電位、溶劑可及表面積和二級(jí)結(jié)構(gòu)等結(jié)構(gòu)特征,并以此訓(xùn)練隨機(jī)森林算法構(gòu)建預(yù)測(cè)模型。在交叉驗(yàn)證中,實(shí)驗(yàn)和預(yù)測(cè)的溶解度值之間的皮爾森相關(guān)系數(shù)幾乎達(dá)到0.7,表現(xiàn)出了較好的預(yù)測(cè)能力[93]。平臺(tái)地址為:

    http://babylone.ulb.ac.be/SOLART/index.php

    4 總結(jié)

    目前人工智能策略在蛋白質(zhì)工程領(lǐng)域的應(yīng)用范圍主要包括蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、酶功能預(yù)測(cè)、蛋白質(zhì)溶解度預(yù)測(cè)以及指導(dǎo)智能組合文庫(kù)設(shè)計(jì)等。在短短數(shù)年中,人工智能策略已經(jīng)在蛋白質(zhì)工程領(lǐng)域展現(xiàn)了顯而易見(jiàn)的應(yīng)用潛力和價(jià)值。要進(jìn)一步挖掘人工智能在蛋白質(zhì)工程領(lǐng)域的潛能,提升預(yù)測(cè)模型的性能,還需解決許多問(wèn)題。首先,目前數(shù)據(jù)庫(kù)中自動(dòng)注釋的蛋白質(zhì)的信息質(zhì)量難以讓人信服,手動(dòng)管理的高質(zhì)量數(shù)據(jù)庫(kù)中數(shù)據(jù)量的大小又遠(yuǎn)不如前者,缺少大量可用于訓(xùn)練和驗(yàn)證的標(biāo)準(zhǔn)化的數(shù)據(jù)。在后續(xù)工作中,應(yīng)該構(gòu)建更加高質(zhì)量的基礎(chǔ)性蛋白質(zhì)序列-結(jié)構(gòu)-功能數(shù)據(jù)庫(kù),有助于更加高效地構(gòu)建人工智能預(yù)測(cè)模型。其數(shù)據(jù)集應(yīng)該是相關(guān)的、有代表性的、非冗余的,并且包含通過(guò)實(shí)驗(yàn)確定的陽(yáng)性和陰性數(shù)據(jù),具有統(tǒng)一的標(biāo)準(zhǔn)格式等[50]。其次,在早期的實(shí)驗(yàn)中,更容易被表征或者具有更好表型的蛋白質(zhì)往往會(huì)在后續(xù)工作中進(jìn)行表征和確認(rèn),而表現(xiàn)不佳的蛋白質(zhì)則會(huì)被丟棄,導(dǎo)致數(shù)據(jù)出現(xiàn)偏差,模型的預(yù)測(cè)性能下降[96]。此外,人工智能輔助的蛋白質(zhì)工程策略還處于早期階段,大多數(shù)例子中的預(yù)測(cè)模型可能無(wú)法直接推廣應(yīng)用到其他學(xué)習(xí)任務(wù)中,需要重新進(jìn)行訓(xùn)練和驗(yàn)證。最后,隨著越來(lái)越多的復(fù)雜的人工智能算法被用于蛋白質(zhì)工程,難以對(duì)預(yù)測(cè)模型的原理進(jìn)行解釋等等。

    隨著相關(guān)研究的逐漸深入,最近已經(jīng)有一些針對(duì)這些問(wèn)題的研究。如今,基因功能注釋領(lǐng)域中的自動(dòng)功能預(yù)測(cè)(automatic function prediction,AFP)飛速發(fā)展,雖然還不足以解決上面提到的新蛋白質(zhì)序列表征的問(wèn)題,但是也已經(jīng)提出一些類(lèi)似于CASP 競(jìng)賽性質(zhì)的比賽,如CAFA[97]、EFI[98]和COMBREX[99]等。相信在未來(lái),會(huì)出現(xiàn)具有足夠精度的人工智能算法能準(zhǔn)確預(yù)測(cè)新蛋白質(zhì)序列的功能,為人工智能輔助的蛋白質(zhì)工程提供大量?jī)?yōu)質(zhì)的數(shù)據(jù)。除此之外,隨著微流控篩選、熒光激活的細(xì)胞分選、噬菌體輔助連續(xù)進(jìn)化等超高通量篩選技術(shù)的突破與二代測(cè)序技術(shù)的成熟,二者聯(lián)用產(chǎn)生的蛋白質(zhì)深度突變掃描技術(shù)應(yīng)運(yùn)而生[100-102],應(yīng)用它們來(lái)獲得大量更全面、更均勻的實(shí)驗(yàn)數(shù)據(jù)是未來(lái)重要的發(fā)展方向之一。并且,近幾年人工智能算法仍在飛速發(fā)展,遷移學(xué)習(xí)模型取得了一些進(jìn)展,除了Frances H.Arnold 團(tuán)隊(duì)和George M.Church 團(tuán)隊(duì)所采用的自然語(yǔ)言算法模型外,自動(dòng)編碼器和變分自編碼器神經(jīng)網(wǎng)絡(luò)算法也可以從輸入的蛋白質(zhì)序列中生成、提取深層的特征,從而基于序列就可以執(zhí)行多種預(yù)測(cè)任務(wù)。例如Debora S.Marks 團(tuán)隊(duì)開(kāi)發(fā)的DeepSequence 僅基于序列就可以預(yù)測(cè)突變帶來(lái)的影響[103]。最后,人工智能算法的可解釋性也是重要研究方向。相信在未來(lái),能夠清晰明了地解析預(yù)測(cè)模型內(nèi)部原理。隨著數(shù)據(jù)和人工智能算法的不斷發(fā)展,性能更好的人工智能預(yù)測(cè)模型將會(huì)成為蛋白質(zhì)工程的強(qiáng)大工具。

    猜你喜歡
    描述符氨基酸蛋白質(zhì)
    蛋白質(zhì)自由
    肝博士(2022年3期)2022-06-30 02:48:48
    基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
    人工智能與蛋白質(zhì)結(jié)構(gòu)
    海外星云(2021年9期)2021-10-14 07:26:10
    月桂酰丙氨基酸鈉的抑菌性能研究
    Linux單線程并發(fā)服務(wù)器探索
    UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
    中成藥(2018年1期)2018-02-02 07:20:05
    利用CNN的無(wú)人機(jī)遙感影像特征描述符學(xué)習(xí)
    蛋白質(zhì)計(jì)算問(wèn)題歸納
    一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
    氨基酸分析儀測(cè)定玉米漿中17種游離氨基酸的不確定度評(píng)定
    国产亚洲精品久久久com| 亚洲无线观看免费| 精品人妻熟女av久视频| 国产高清有码在线观看视频| 亚洲欧洲日产国产| 精华霜和精华液先用哪个| 免费大片黄手机在线观看| 内地一区二区视频在线| 国产高清有码在线观看视频| 九九久久精品国产亚洲av麻豆| 亚洲av日韩在线播放| 日本熟妇午夜| 国产一级毛片在线| 观看美女的网站| 最新中文字幕久久久久| 老司机影院毛片| av专区在线播放| 国产视频内射| 淫秽高清视频在线观看| 男女啪啪激烈高潮av片| 久久亚洲国产成人精品v| 日本黄色片子视频| 一夜夜www| 日韩制服骚丝袜av| 身体一侧抽搐| 久久久久免费精品人妻一区二区| 嘟嘟电影网在线观看| 久久99蜜桃精品久久| 国产伦在线观看视频一区| 91精品国产九色| 卡戴珊不雅视频在线播放| 亚洲av男天堂| 国产高潮美女av| 高清视频免费观看一区二区 | 亚洲人成网站高清观看| 简卡轻食公司| 久久综合国产亚洲精品| 国产精品无大码| 精品少妇黑人巨大在线播放| 亚洲国产精品国产精品| 久久精品夜色国产| 老司机影院成人| 大香蕉97超碰在线| 亚洲综合精品二区| 插阴视频在线观看视频| 久久精品夜夜夜夜夜久久蜜豆| 老司机影院毛片| 九草在线视频观看| 国产一区二区三区综合在线观看 | 亚洲av一区综合| 亚洲综合色惰| 日产精品乱码卡一卡2卡三| 久久久亚洲精品成人影院| 三级男女做爰猛烈吃奶摸视频| 国产综合懂色| 亚洲不卡免费看| 国产精品嫩草影院av在线观看| 日本av手机在线免费观看| 床上黄色一级片| 丰满人妻一区二区三区视频av| 亚洲欧美精品自产自拍| 国产又色又爽无遮挡免| 特大巨黑吊av在线直播| 在现免费观看毛片| 听说在线观看完整版免费高清| 亚洲怡红院男人天堂| 国内少妇人妻偷人精品xxx网站| 特级一级黄色大片| 真实男女啪啪啪动态图| 97精品久久久久久久久久精品| 国产黄色小视频在线观看| 最近最新中文字幕免费大全7| 亚洲精品久久久久久婷婷小说| 欧美最新免费一区二区三区| 国产久久久一区二区三区| 亚洲综合精品二区| 91在线精品国自产拍蜜月| 亚洲精品久久午夜乱码| 嫩草影院新地址| 嫩草影院新地址| 色播亚洲综合网| 午夜福利网站1000一区二区三区| 亚洲天堂国产精品一区在线| 亚洲久久久久久中文字幕| 亚洲精品乱码久久久v下载方式| 99久国产av精品国产电影| 在线观看美女被高潮喷水网站| 日韩欧美三级三区| 一级毛片 在线播放| 爱豆传媒免费全集在线观看| 国内揄拍国产精品人妻在线| 热99在线观看视频| 婷婷六月久久综合丁香| 久久久亚洲精品成人影院| 日本-黄色视频高清免费观看| 国产精品.久久久| 亚洲人成网站在线观看播放| 精品久久久久久成人av| 精品久久国产蜜桃| 亚洲精品成人久久久久久| 午夜福利高清视频| 汤姆久久久久久久影院中文字幕 | 免费观看av网站的网址| 国产高清不卡午夜福利| 一级爰片在线观看| 成人亚洲精品av一区二区| 51国产日韩欧美| 性色avwww在线观看| 校园人妻丝袜中文字幕| 又粗又硬又长又爽又黄的视频| eeuss影院久久| 久久综合国产亚洲精品| 国产不卡一卡二| 欧美日韩精品成人综合77777| 亚洲精品日韩在线中文字幕| 亚洲精品aⅴ在线观看| 亚洲欧美一区二区三区黑人 | 在线 av 中文字幕| 大片免费播放器 马上看| 毛片一级片免费看久久久久| 国产免费视频播放在线视频 | 亚洲欧美成人精品一区二区| 啦啦啦韩国在线观看视频| 久久精品夜色国产| 2021少妇久久久久久久久久久| 一个人观看的视频www高清免费观看| 六月丁香七月| 久久久久九九精品影院| 99久久精品国产国产毛片| 国产精品美女特级片免费视频播放器| 精品人妻熟女av久视频| 国产在视频线精品| 超碰av人人做人人爽久久| 国产成人精品婷婷| 一级片'在线观看视频| 激情 狠狠 欧美| 一个人免费在线观看电影| av在线播放精品| 久久久久久国产a免费观看| 菩萨蛮人人尽说江南好唐韦庄| av免费观看日本| 日产精品乱码卡一卡2卡三| 午夜福利高清视频| 国内精品美女久久久久久| av福利片在线观看| 国产毛片a区久久久久| 尾随美女入室| 国产伦精品一区二区三区四那| 男女那种视频在线观看| 日本三级黄在线观看| 亚洲av不卡在线观看| 欧美丝袜亚洲另类| 在线免费十八禁| 大香蕉97超碰在线| 久久久久九九精品影院| 亚洲婷婷狠狠爱综合网| 最近中文字幕高清免费大全6| 美女xxoo啪啪120秒动态图| a级毛片免费高清观看在线播放| 我的女老师完整版在线观看| 看非洲黑人一级黄片| 日韩欧美精品v在线| 久久99精品国语久久久| 亚洲精品乱码久久久久久按摩| 全区人妻精品视频| 精品国产一区二区三区久久久樱花 | 欧美激情在线99| 大香蕉97超碰在线| 国产精品一区www在线观看| 国产成人a∨麻豆精品| 亚洲国产最新在线播放| 免费黄色在线免费观看| 国产精品伦人一区二区| 别揉我奶头 嗯啊视频| 久久久久久久国产电影| 欧美3d第一页| 如何舔出高潮| 国产精品麻豆人妻色哟哟久久 | ponron亚洲| 亚洲精品日韩av片在线观看| 日韩三级伦理在线观看| 淫秽高清视频在线观看| 国产综合精华液| 91久久精品国产一区二区成人| 六月丁香七月| 国产精品熟女久久久久浪| 日韩一区二区三区影片| 精品人妻一区二区三区麻豆| 赤兔流量卡办理| 欧美高清成人免费视频www| 大又大粗又爽又黄少妇毛片口| 成人美女网站在线观看视频| 亚洲最大成人中文| www.av在线官网国产| 麻豆久久精品国产亚洲av| 国内精品一区二区在线观看| 少妇熟女aⅴ在线视频| 2022亚洲国产成人精品| 一边亲一边摸免费视频| 欧美激情在线99| 国产精品蜜桃在线观看| kizo精华| 午夜久久久久精精品| 成人亚洲精品av一区二区| 亚洲美女搞黄在线观看| 在线免费十八禁| 两个人视频免费观看高清| 亚洲精品影视一区二区三区av| 最近视频中文字幕2019在线8| 久久韩国三级中文字幕| 中文字幕亚洲精品专区| 高清视频免费观看一区二区 | 国产精品爽爽va在线观看网站| 日韩亚洲欧美综合| 国产久久久一区二区三区| 伦理电影大哥的女人| 汤姆久久久久久久影院中文字幕 | 嫩草影院新地址| 久久久久网色| 狠狠精品人妻久久久久久综合| 日韩电影二区| 国产精品.久久久| 午夜福利在线在线| 亚洲av免费在线观看| a级毛片免费高清观看在线播放| 高清欧美精品videossex| 韩国高清视频一区二区三区| 极品教师在线视频| 亚洲,欧美,日韩| 午夜福利在线在线| 国产精品女同一区二区软件| 国产精品伦人一区二区| 国产午夜精品论理片| 黄片无遮挡物在线观看| 国产精品日韩av在线免费观看| 一级毛片我不卡| 内地一区二区视频在线| 三级经典国产精品| 街头女战士在线观看网站| av又黄又爽大尺度在线免费看| 99九九线精品视频在线观看视频| 国产免费视频播放在线视频 | 九草在线视频观看| 一级毛片黄色毛片免费观看视频| 午夜福利在线观看免费完整高清在| 亚洲精品乱码久久久久久按摩| 五月伊人婷婷丁香| 乱人视频在线观看| 国产中年淑女户外野战色| 日本一本二区三区精品| 少妇熟女aⅴ在线视频| 国产av在哪里看| 日韩av免费高清视频| 亚洲va在线va天堂va国产| 99热这里只有精品一区| 一个人看视频在线观看www免费| 国产精品综合久久久久久久免费| 亚洲av福利一区| videossex国产| 乱码一卡2卡4卡精品| 人人妻人人看人人澡| 欧美三级亚洲精品| 精品午夜福利在线看| 午夜精品在线福利| 女人被狂操c到高潮| 久久久久久久久中文| 日本黄大片高清| 精品一区二区免费观看| 日日摸夜夜添夜夜爱| 人妻系列 视频| 日韩欧美一区视频在线观看 | 一级爰片在线观看| 一个人看视频在线观看www免费| 永久免费av网站大全| 精品人妻视频免费看| 久久久久久久久久黄片| 男女视频在线观看网站免费| 成人鲁丝片一二三区免费| 成年女人在线观看亚洲视频 | 十八禁网站网址无遮挡 | 国产伦一二天堂av在线观看| 成人毛片a级毛片在线播放| 久久久久久久久久黄片| 亚洲国产精品成人综合色| 免费看日本二区| 国产成人午夜福利电影在线观看| 国产精品一区二区性色av| 美女国产视频在线观看| 91久久精品国产一区二区成人| 久久97久久精品| 色播亚洲综合网| 精品久久久精品久久久| 国产老妇伦熟女老妇高清| 午夜激情欧美在线| 亚洲精品国产av蜜桃| 在线观看人妻少妇| 天堂av国产一区二区熟女人妻| 九草在线视频观看| 国产精品福利在线免费观看| 国产亚洲午夜精品一区二区久久 | 一级毛片我不卡| 丝瓜视频免费看黄片| 一个人看的www免费观看视频| 国产免费一级a男人的天堂| 日韩大片免费观看网站| 国产在视频线精品| 久久久久久久亚洲中文字幕| 国产av码专区亚洲av| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 伦理电影大哥的女人| 亚洲国产高清在线一区二区三| 少妇人妻一区二区三区视频| 久久久精品94久久精品| 99热这里只有是精品50| 人人妻人人澡人人爽人人夜夜 | 久久久成人免费电影| 听说在线观看完整版免费高清| 国产精品嫩草影院av在线观看| 欧美极品一区二区三区四区| 中文资源天堂在线| 成人毛片a级毛片在线播放| 七月丁香在线播放| 91久久精品国产一区二区成人| 日本黄色片子视频| 尾随美女入室| 汤姆久久久久久久影院中文字幕 | 好男人视频免费观看在线| 亚洲精品乱码久久久v下载方式| 99久久九九国产精品国产免费| av播播在线观看一区| 淫秽高清视频在线观看| 大片免费播放器 马上看| 好男人在线观看高清免费视频| 水蜜桃什么品种好| a级毛片免费高清观看在线播放| 水蜜桃什么品种好| 最近最新中文字幕大全电影3| 在线天堂最新版资源| 亚洲欧洲国产日韩| 爱豆传媒免费全集在线观看| 激情 狠狠 欧美| 精品人妻熟女av久视频| 亚洲国产精品国产精品| 亚洲,欧美,日韩| av在线蜜桃| av国产免费在线观看| 青春草亚洲视频在线观看| 在线免费十八禁| 18禁动态无遮挡网站| 国产白丝娇喘喷水9色精品| 久久99蜜桃精品久久| 国产国拍精品亚洲av在线观看| 激情五月婷婷亚洲| 国内精品宾馆在线| 国产久久久一区二区三区| 特级一级黄色大片| 免费高清在线观看视频在线观看| 精品久久国产蜜桃| 偷拍熟女少妇极品色| 男人和女人高潮做爰伦理| 国产精品一区www在线观看| 韩国高清视频一区二区三区| 嘟嘟电影网在线观看| 直男gayav资源| 亚洲精品一二三| 国产探花极品一区二区| 亚洲欧美精品自产自拍| 国产欧美另类精品又又久久亚洲欧美| 91在线精品国自产拍蜜月| 成年免费大片在线观看| 黄色一级大片看看| 黄片无遮挡物在线观看| 狂野欧美激情性xxxx在线观看| 99热6这里只有精品| 亚洲av中文字字幕乱码综合| 亚洲av日韩在线播放| 成人国产麻豆网| 久久久久九九精品影院| 中文字幕免费在线视频6| 成人欧美大片| 一级毛片黄色毛片免费观看视频| 亚洲av免费在线观看| 免费大片18禁| 一个人免费在线观看电影| 国产美女午夜福利| 欧美高清性xxxxhd video| 亚洲丝袜综合中文字幕| 国产精品1区2区在线观看.| 国产黄频视频在线观看| 在线观看美女被高潮喷水网站| 亚洲国产精品成人久久小说| 国产在视频线在精品| 免费大片黄手机在线观看| 又大又黄又爽视频免费| 成人漫画全彩无遮挡| 好男人在线观看高清免费视频| 中文字幕亚洲精品专区| 成人亚洲欧美一区二区av| 久久精品久久久久久噜噜老黄| 国产精品精品国产色婷婷| 99久国产av精品国产电影| 午夜免费观看性视频| 精品一区二区三区人妻视频| 777米奇影视久久| 国产精品一二三区在线看| 中国美白少妇内射xxxbb| 男女啪啪激烈高潮av片| 啦啦啦中文免费视频观看日本| 久久99热6这里只有精品| 免费大片黄手机在线观看| 免费高清在线观看视频在线观看| 精品久久久久久久久av| 久久精品夜色国产| 亚洲丝袜综合中文字幕| 亚洲精品aⅴ在线观看| 日韩制服骚丝袜av| av女优亚洲男人天堂| 国产淫语在线视频| 男女边摸边吃奶| 午夜福利在线观看吧| 午夜久久久久精精品| 夫妻性生交免费视频一级片| 国产成年人精品一区二区| 亚洲av免费高清在线观看| 天堂网av新在线| 国产黄频视频在线观看| 偷拍熟女少妇极品色| 99热这里只有是精品在线观看| www.av在线官网国产| 亚洲欧洲国产日韩| 亚洲成人久久爱视频| 亚洲无线观看免费| 免费电影在线观看免费观看| 一级二级三级毛片免费看| 99热全是精品| 国产又色又爽无遮挡免| 全区人妻精品视频| 美女大奶头视频| 国产免费视频播放在线视频 | 成人二区视频| 日本一本二区三区精品| 国产精品福利在线免费观看| 亚洲av一区综合| 非洲黑人性xxxx精品又粗又长| 欧美变态另类bdsm刘玥| 黄片无遮挡物在线观看| 亚洲精品国产av成人精品| 亚洲av成人精品一区久久| 人人妻人人澡欧美一区二区| 午夜爱爱视频在线播放| 国产人妻一区二区三区在| 精品久久久噜噜| av.在线天堂| 亚洲av电影在线观看一区二区三区 | 成人亚洲精品一区在线观看 | 午夜福利高清视频| 九色成人免费人妻av| 免费看日本二区| 一个人看的www免费观看视频| 99热网站在线观看| 国产69精品久久久久777片| 十八禁网站网址无遮挡 | 男女那种视频在线观看| 九九在线视频观看精品| av免费在线看不卡| 三级毛片av免费| 中文字幕av在线有码专区| 亚洲av国产av综合av卡| 六月丁香七月| 欧美一级a爱片免费观看看| 午夜福利网站1000一区二区三区| 欧美性猛交╳xxx乱大交人| 午夜激情欧美在线| 高清视频免费观看一区二区 | 精品久久久久久久末码| 久久久a久久爽久久v久久| 国产真实伦视频高清在线观看| 欧美zozozo另类| 18禁动态无遮挡网站| 男的添女的下面高潮视频| 国产亚洲最大av| 特大巨黑吊av在线直播| 人妻制服诱惑在线中文字幕| 亚洲欧洲国产日韩| 大香蕉97超碰在线| 中文字幕人妻熟人妻熟丝袜美| 网址你懂的国产日韩在线| 国产不卡一卡二| 天天躁日日操中文字幕| 如何舔出高潮| 肉色欧美久久久久久久蜜桃 | 成年av动漫网址| 我的老师免费观看完整版| 91久久精品国产一区二区三区| 美女内射精品一级片tv| 国产 一区 欧美 日韩| 亚洲精品视频女| 午夜福利视频1000在线观看| 国产大屁股一区二区在线视频| 国内少妇人妻偷人精品xxx网站| videossex国产| 免费少妇av软件| 最近中文字幕2019免费版| 在线观看美女被高潮喷水网站| 色尼玛亚洲综合影院| 一区二区三区高清视频在线| 偷拍熟女少妇极品色| 亚洲一区高清亚洲精品| 国内精品美女久久久久久| 亚洲欧洲日产国产| 久久草成人影院| 精品熟女少妇av免费看| 精品久久国产蜜桃| 男人爽女人下面视频在线观看| 可以在线观看毛片的网站| 少妇丰满av| 在现免费观看毛片| 伦理电影大哥的女人| 亚洲18禁久久av| 三级毛片av免费| 熟女电影av网| 久久久久久国产a免费观看| 韩国高清视频一区二区三区| 国产精品一区二区性色av| 一级毛片电影观看| 亚洲久久久久久中文字幕| 久久久亚洲精品成人影院| 亚洲精品久久午夜乱码| 中文字幕亚洲精品专区| 久久久午夜欧美精品| 亚洲精品影视一区二区三区av| 天堂网av新在线| 五月玫瑰六月丁香| 男人狂女人下面高潮的视频| 国产精品久久久久久久电影| 国产高清有码在线观看视频| 亚洲图色成人| 国产精品一区二区性色av| 听说在线观看完整版免费高清| 嘟嘟电影网在线观看| 国产熟女欧美一区二区| 麻豆国产97在线/欧美| 日本黄色片子视频| 人人妻人人澡人人爽人人夜夜 | 精品国产一区二区三区久久久樱花 | 18禁动态无遮挡网站| 少妇熟女aⅴ在线视频| www.色视频.com| 水蜜桃什么品种好| 国产精品.久久久| 亚洲国产欧美在线一区| 国产成人aa在线观看| 国产精品一区二区三区四区免费观看| 国产精品av视频在线免费观看| 国产成人aa在线观看| 国产成人freesex在线| 久久久国产一区二区| 99久国产av精品| 中文天堂在线官网| 亚洲国产精品成人综合色| 国产欧美日韩精品一区二区| 免费高清在线观看视频在线观看| 午夜福利在线观看吧| 中文字幕av在线有码专区| 少妇人妻一区二区三区视频| 一级黄片播放器| 波野结衣二区三区在线| 丰满乱子伦码专区| 免费看av在线观看网站| 成人亚洲欧美一区二区av| 男女国产视频网站| 特大巨黑吊av在线直播| 在线a可以看的网站| 亚洲国产欧美在线一区| 麻豆av噜噜一区二区三区| 国内精品一区二区在线观看| 久久久久久伊人网av| 99热这里只有是精品在线观看| 成人高潮视频无遮挡免费网站| 日日撸夜夜添| 亚洲精品日本国产第一区| 人体艺术视频欧美日本| 综合色丁香网| 国产色婷婷99| 少妇被粗大猛烈的视频| 国产精品国产三级国产专区5o| 日韩一本色道免费dvd| 欧美成人一区二区免费高清观看| 亚洲无线观看免费| 久久久久久久久久黄片| 又爽又黄无遮挡网站| 纵有疾风起免费观看全集完整版 | 中文天堂在线官网| 国产成人a∨麻豆精品| 午夜免费男女啪啪视频观看| 精品久久久久久电影网| 久久精品国产亚洲av天美| 精品人妻偷拍中文字幕| 乱系列少妇在线播放| 一个人看视频在线观看www免费| 国产视频首页在线观看| 成人午夜精彩视频在线观看| 亚洲国产av新网站| 色视频www国产| 精品一区二区三区人妻视频| 好男人在线观看高清免费视频| 免费看光身美女| 男女国产视频网站| 免费看不卡的av| 黑人高潮一二区| 狠狠精品人妻久久久久久综合| 日韩精品有码人妻一区| 久久99热6这里只有精品| 纵有疾风起免费观看全集完整版 | 国产精品女同一区二区软件|