辛志奇, 趙航, 汪海, 路鐵剛*
1.中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所,北京100081;2.中國農(nóng)業(yè)大學(xué)國家玉米改良中心,北京100193
隨著全球人口數(shù)量不斷增加,到2050 年,全球?qū)Z食的需求預(yù)計(jì)將比2005 年增加100%~110%[1-2]。為滿足人們對農(nóng)作物產(chǎn)品日益增長的需求,創(chuàng)新育種技術(shù)顯得尤為重要。在漫長的農(nóng)業(yè)歷史中,育種主要經(jīng)歷了三個(gè)階段:通過觀察植株表型,選育優(yōu)良自交系的傳統(tǒng)育種;應(yīng)用統(tǒng)計(jì)學(xué)、數(shù)量遺傳學(xué)預(yù)先設(shè)計(jì)雜交育種實(shí)驗(yàn),獲得雜種優(yōu)勢的雜交育種;綜合單倍體育種、分子標(biāo)記育種和轉(zhuǎn)基因育種的現(xiàn)代生物工程育種[1]。Edward S Buckler[2]總結(jié)了過去的三個(gè)時(shí)代,并提出了“育種4.0”的概念。王向峰等[1]提出了在“育種4.0”時(shí)代深度融合生命科學(xué)、信息科學(xué)和育種科學(xué)的理念。人工智能設(shè)計(jì)育種是由人工智能與育種相結(jié)合,能夠給傳統(tǒng)育種帶來革命性的改變。它包括利用深度學(xué)習(xí)和機(jī)器學(xué)習(xí)把基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、表觀遺傳學(xué)、代謝組學(xué)和表型組學(xué)的多組學(xué)數(shù)據(jù)結(jié)合,構(gòu)建遺傳調(diào)控網(wǎng)絡(luò),實(shí)現(xiàn)對作物表型的精準(zhǔn)預(yù)測;深度學(xué)習(xí)指導(dǎo)基因編輯,實(shí)現(xiàn)對作物表型的控制和設(shè)計(jì);深度學(xué)習(xí)在合成生物學(xué)的應(yīng)用會(huì)使作物的設(shè)計(jì)育種更加自由高效。
人工智能這一概念最早在20 世紀(jì)40 年代被提出,但是受計(jì)算能力的限制,人工智能領(lǐng)域一直處于發(fā)展的低谷。進(jìn)入21 世紀(jì)后,計(jì)算機(jī)性能的大幅提升(尤其是GPU 的發(fā)展)使得人工智能領(lǐng)域重新回到人們的視野。目前,人工智能已被應(yīng)用于多個(gè)領(lǐng)域。
人工智能領(lǐng)域最主要的研究方法是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)按學(xué)習(xí)形式可以分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種。監(jiān)督學(xué)習(xí)是指在訓(xùn)練實(shí)例中學(xué)習(xí)輸入變量數(shù)據(jù)和其因變量(或叫標(biāo)簽)之間的關(guān)系,然后以此在新實(shí)例中預(yù)測結(jié)果,主要應(yīng)用于回歸和分類問題。例如,可以用大量歷史氣象數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型,該模型可以以過去的天氣數(shù)據(jù)為預(yù)測因子,預(yù)測未來的天氣。如果預(yù)測的目標(biāo)變量為離散變量,則該機(jī)器學(xué)習(xí)任務(wù)稱為分類問題(classification);如果預(yù)測的目標(biāo)變量為連續(xù)變量,則該機(jī)器學(xué)習(xí)任務(wù)稱為回歸問題(regression)。在機(jī)器學(xué)習(xí)中有很多監(jiān)督學(xué)習(xí)算法及應(yīng)用,例如結(jié)合統(tǒng)計(jì)學(xué)的隱馬爾可夫模型(hidden Markov model, HMM)和機(jī)器學(xué)習(xí)的支持向量機(jī)(support vector machine,SVM)可以快速準(zhǔn)確預(yù)測和區(qū)分DNA 和RNA 結(jié)合殘基的方法,這有利于進(jìn)一步預(yù)測蛋白質(zhì)-DNA 和蛋白質(zhì)-RNA 相互作用的序列[3-4];用隨機(jī)森林和支持向量機(jī)模型通過DNA 甲基化數(shù)據(jù)精確診斷癌癥[5]。無監(jiān)督學(xué)習(xí)是指在訓(xùn)練實(shí)例中輸入沒有因變量(或標(biāo)簽)的數(shù)據(jù),又稱為歸納性學(xué)習(xí),典型的無監(jiān)督學(xué)習(xí)包括降維(dimensionality reduction)和聚類(clustering),適合學(xué)習(xí)高維度數(shù)據(jù),例如組學(xué)數(shù)據(jù)[6-7]。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)相對年輕的分支,已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域最流行和最強(qiáng)大的技術(shù)之一[8]。人工神經(jīng)網(wǎng)絡(luò)以數(shù)學(xué)模型模擬神經(jīng)元活動(dòng),包括輸入層、隱藏層和輸出層三個(gè)部分(圖1),其深度神經(jīng)網(wǎng)絡(luò)用多層的隱藏層使神經(jīng)網(wǎng)絡(luò)的性能大幅提高,同時(shí)需要的計(jì)算能力和數(shù)據(jù)量也大幅提升。
圖1 人工神經(jīng)網(wǎng)絡(luò)層次Fig1 Artificial neural network
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是深度神經(jīng)網(wǎng)絡(luò)的一種,也是基礎(chǔ)的深度學(xué)習(xí)模型,用卷積這一數(shù)學(xué)計(jì)算方式提取數(shù)據(jù)中的特征信息,再經(jīng)深度神經(jīng)網(wǎng)絡(luò)處理,可以大大增加神經(jīng)網(wǎng)絡(luò)的性能。卷積神經(jīng)網(wǎng)絡(luò)更擅長提取結(jié)構(gòu)信息。目前已經(jīng)有很多利用CNN 解決基因組學(xué)問題的例子。例如,Babak 等[4]預(yù)測DNA 和RNA與蛋白質(zhì)的結(jié)合位點(diǎn),Hashemifar 等[9]預(yù)測蛋白質(zhì)之間相互作用;Gao 等[10]基于基因序列預(yù)測poly(A)位點(diǎn);Zhou等[11]預(yù)測了人類基因組變異對基因表達(dá)調(diào)控和疾病的影響;Zhou 和Wang等[12-13]預(yù)測了非編碼基因突變的影響;Jost 等[14]結(jié)合CRISPR技術(shù)實(shí)現(xiàn)調(diào)控基因表達(dá)量變化等。另一種監(jiān)督學(xué)習(xí)模型,循環(huán)神經(jīng)網(wǎng)絡(luò)(neutral network, RNN)加入時(shí)間步(timestep)概念,使其具有記憶性和參數(shù)共享的特點(diǎn),適合處理有時(shí)間信息的數(shù)據(jù),廣泛應(yīng)用于自然語言處理領(lǐng)域。在生物學(xué)領(lǐng)域常被用來預(yù)測序列的功能。例如,Shen 等[16]結(jié)合RNN 和k-mer[15]預(yù)測轉(zhuǎn)錄因子識(shí)別位點(diǎn);Li 等[17]利用CNN和RNN 從氨基酸序列預(yù)測酶的生化功能;Quang等[18]利用RNN 和CNN 預(yù)測非編碼基因的功能等。值得注意的是,有報(bào)道指出,CNN 在提取特征方面更高效,而釋義DNA 序列方面,來自自然語言處理領(lǐng)域的k-mer 方法顯得比CNN 和RNN 更優(yōu)秀[19]。
自編碼器(auto-encoder)是深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)的重要組成部分。自編碼器分為編碼和解碼兩部分。編碼部分負(fù)責(zé)將輸入數(shù)據(jù)低維化處理,也可以理解為特征提取;解碼部分負(fù)責(zé)將編碼得到的結(jié)果恢復(fù)到原始輸入的形式,它是理解復(fù)雜深度學(xué)習(xí)模型的關(guān)鍵,可以把數(shù)據(jù)中的關(guān)鍵數(shù)據(jù)提煉并展現(xiàn)出來,解決了深度學(xué)習(xí)模型訓(xùn)練過程的不可見問題。目前自編碼器在圖像識(shí)別、降噪、色彩化方面有廣泛應(yīng)用。Zhang 等[7]用自編碼器整合多組學(xué)數(shù)據(jù),有效緩解了生物領(lǐng)域在運(yùn)用人工智能模型時(shí)出現(xiàn)的“少樣本,高維度特征”的問題;用自編碼器解碼深度學(xué)習(xí)模型并結(jié)合全基因組關(guān)聯(lián)分析(genome wide association study,GWAS)的技術(shù)觀察到未分類的基因在深度學(xué)習(xí)模型的不同深度中被有序的分類[20]。
生成模型技術(shù)作為深度學(xué)習(xí)領(lǐng)域的重要分支,它既不屬于監(jiān)督學(xué)習(xí)也不屬于無監(jiān)督學(xué)習(xí)。主要包括生成式對抗網(wǎng)絡(luò)(generative adversarial network, GAN)和變分自動(dòng)編碼器(encoder)兩種模型。
生成式對抗網(wǎng)絡(luò)[21]分別建立并訓(xùn)練生成模塊和判別模塊,將生成模塊生產(chǎn)的偽數(shù)據(jù)交由判別模塊判斷真?zhèn)?,通過這種對抗學(xué)習(xí)的方式進(jìn)行訓(xùn)練,可以生成真實(shí)度高的數(shù)據(jù)。目前在生物醫(yī)藥方面已經(jīng)有相關(guān)的文章報(bào)道:基于生成式對抗網(wǎng)絡(luò)設(shè)計(jì)蛋白酶抑制劑[22];RamaNet 模型從頭設(shè)計(jì)合成螺線蛋白骨架[23];基于生成式對抗網(wǎng)絡(luò)設(shè)計(jì)合成大腸桿菌啟動(dòng)子序列[24]。
變分自動(dòng)編碼器[25]與生成式對抗網(wǎng)絡(luò)同屬生成模型家族成員,兩種模型都致力于生成更接近真實(shí)的數(shù)據(jù),但是二者的實(shí)現(xiàn)思路不同。變分自動(dòng)編碼器在結(jié)構(gòu)方面與自動(dòng)編碼器有相似之處,也是由編碼器和解碼器組成(也被稱作識(shí)別模型和生成模型),并且二者都是學(xué)習(xí)輸入數(shù)據(jù)的潛在向量并試圖重建輸入數(shù)據(jù)。不同的是,變分自動(dòng)編碼器學(xué)習(xí)潛在向量的分布關(guān)系,在潛在空間中是連續(xù)的,再由生成模型構(gòu)建輸入數(shù)據(jù);生成式對抗網(wǎng)絡(luò)由生成器和判別器組成,生成器負(fù)責(zé)創(chuàng)造數(shù)據(jù),而判別器負(fù)責(zé)評價(jià)生成器創(chuàng)造的數(shù)據(jù)是否能夠以假亂真。Davidsen 等[26]用變分自動(dòng)編碼器模型生成T細(xì)胞受體的蛋白質(zhì)序列。
目前人工智能在農(nóng)業(yè)上應(yīng)用的報(bào)道主要是對圖像和視頻進(jìn)行識(shí)別,如對玉米照片進(jìn)行識(shí)別和對玉米干旱脅迫下的表型進(jìn)行分類[27];視頻檢測植物生長早期干旱脅迫[28];視頻識(shí)別水稻蟲害和病害[29];以擬南芥為例基于植物圖像對植物表型分類[30-31]等。生物的遺傳信息是沿著中心法則傳遞的,想對植物基因進(jìn)行設(shè)計(jì),表型精準(zhǔn)預(yù)測就一定要對基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、表觀遺傳組甚至是代謝組規(guī)則有更深的認(rèn)識(shí)。近年來,在基因組學(xué)領(lǐng)域,圍繞各種分子表型發(fā)展出了一系列基于二代測序的高通量技術(shù),如轉(zhuǎn)錄組技術(shù)、開放染色質(zhì)分析技術(shù)、DNA-轉(zhuǎn)錄因子互作技術(shù)[32]等。深度學(xué)習(xí)技術(shù)可以對這些大規(guī)模數(shù)據(jù)集進(jìn)行建模。
深度學(xué)習(xí)模型建立首先遇到的一個(gè)問題就是生物學(xué)數(shù)據(jù)該以何種形式輸入到人工智能模型中,這個(gè)問題在基因組和轉(zhuǎn)錄組已經(jīng)有了統(tǒng)一的答案。One-hot 編碼方式可以高效地將基因組和轉(zhuǎn)錄組數(shù)據(jù)儲(chǔ)存在電腦中作為輸入數(shù)據(jù)。將基因的A、T、G、C 4 種堿基儲(chǔ)存在一個(gè)4×N 的矩陣中,每一列只儲(chǔ)存1 個(gè)堿基(圖2),這個(gè)方法可以將N bp的基因數(shù)據(jù)輸入模型。
圖2 One-hot編碼Fig.2 One-hot encoding
當(dāng)建立機(jī)器學(xué)習(xí)模型時(shí),觀測數(shù)據(jù)通常被隨機(jī)分為訓(xùn)練集(用于訓(xùn)練模型)、驗(yàn)證集(用于確定模型結(jié)構(gòu)和超參數(shù)),以及測試集(用于評估模型的性能)。這種隨機(jī)劃分能夠避免數(shù)據(jù)間存在規(guī)律性特征而得出準(zhǔn)確率虛高的模型。訓(xùn)練集/測試集的劃分應(yīng)盡量保持?jǐn)?shù)據(jù)分布的一致性,避免混雜因素(confounder)對最終結(jié)果的影響。最常用的訓(xùn)練集/測試集分割方法為交叉驗(yàn)證法。在訓(xùn)練集上的準(zhǔn)確度高于在測試集上的準(zhǔn)確度,這種現(xiàn)象被稱為過擬合(over-fitting)。有幾種情況會(huì)導(dǎo)致過擬合。一個(gè)通常出現(xiàn)的問題是特征空間中的維度有時(shí)大大超過觀測值。例如,當(dāng)從基因組變體預(yù)測一個(gè)表型時(shí),檢測到的基因組單核苷酸SNP數(shù)目幾乎總是超過植物基因型的數(shù)目。在這種情況下,可以使用主成分分析(principal component analysis,PCA)和自動(dòng)編碼器[11-12]等降維技術(shù)來減少特征的數(shù)目。然而,在處理基因組學(xué)中的問題時(shí),過擬合有時(shí)候是隱藏的。例如,當(dāng)一個(gè)基因家族的成員被劃分為訓(xùn)練集和驗(yàn)證、測試集時(shí),模型將學(xué)習(xí)家族特異性的分子特征,并高估預(yù)測準(zhǔn)確性。
各個(gè)組學(xué)數(shù)據(jù)都有被人工智能挖掘有用信息的巨大潛力。在DNA 層次上,Umarov 等[33]利用CNN 構(gòu)建了啟動(dòng)子的預(yù)測模型,分析了幾種原核和真核生物的啟動(dòng)子序列特征,包括人、老鼠、植物(擬南芥)和細(xì)菌(大腸桿菌和枯草芽孢桿菌)。DanQ 是一種將CNN 和雙向長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(BLSTM)相結(jié)合的混合框架,用于從頭預(yù)測非編碼區(qū)的功能。DanQ 學(xué)習(xí)了一種調(diào)節(jié)語法來改善預(yù)測準(zhǔn)確性,并為非編碼基因組區(qū)域提供了新的見解[18]。 DanQ 還結(jié)合 CNN 和 BLSTM 在序列中從頭預(yù)測非編碼區(qū)功能[18]。Sample 等[34]使用CNN 和遺傳算法精準(zhǔn)預(yù)測了人類5’UTR 變體對核糖體裝載的影響。
在RNA 水平上,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(neutral network,RNN)在人類 mRNA 和 lncRNA 序列上訓(xùn)練了一個(gè)門控RNN,然后用它來預(yù)測RNA 分子是否編碼蛋白質(zhì)[35]。使用 CNN 預(yù)測人類 5’UTR 變異對核糖體裝載的影響[34]。他們將28 萬個(gè)隨機(jī)的5’UTR 的多聚體分析與深度學(xué)習(xí)相結(jié)合,建立了一個(gè)模型,從人類5’UTR 序列預(yù)測翻譯效率。此外,DeepChrome 是一個(gè)從組蛋白修飾數(shù)據(jù)預(yù)測基因表達(dá)量的CNN,能夠自動(dòng)提取重要特征之間的復(fù)雜交互作用[36]。為了預(yù)測組織特異性的基因表達(dá),研究人員將CNN 與空間特征變換和L2 正則化線性模型相結(jié)合,建立了ExPecto模型[37]。
在蛋白質(zhì)水平上,為了在從頭生成的肽序列中提取重要的氨基酸特征,利用CNN 方法開發(fā)了DeepNovo[38]。為了預(yù)測蛋白質(zhì)的二級結(jié)構(gòu),使用了相對溶劑可及性和殘基間接觸映射數(shù)據(jù)訓(xùn)練了深度學(xué)習(xí)模型rawMSA[39]。最近,谷歌的Alpha-Fold 利用深度學(xué)習(xí)模型預(yù)測蛋白質(zhì)的三級結(jié)構(gòu),其精確度遠(yuǎn)超傳統(tǒng)機(jī)器學(xué)習(xí)方法[40]。此外,深度學(xué)習(xí)模型也用來預(yù)測蛋白質(zhì)—蛋白質(zhì)的相互作用。DPPI 是一種能夠從蛋白質(zhì)序列信息預(yù)測蛋白相互作用和蛋白二聚體的深度學(xué)習(xí)模型[41]。DEEPre 可以從蛋白質(zhì)序列預(yù)測酶的類別,利用該模型可以發(fā)掘在宏基因組、工業(yè)生物技術(shù)和人類疾病中起重要功能的蛋白質(zhì)[42]。
除了用各組學(xué)數(shù)據(jù)分別預(yù)測之外,Ma 等[7]將各組學(xué)數(shù)據(jù)整合,使生物學(xué)數(shù)據(jù)更立體,與表型相關(guān)的信息也會(huì)更豐富準(zhǔn)確,同時(shí)也會(huì)有效緩解人工智能與生物學(xué)結(jié)合領(lǐng)域一直存在的問題,即生物學(xué)“數(shù)據(jù)特征維度高但樣本少”的問題,Ma 等[7]也指出這樣做的難點(diǎn)在于各組學(xué)數(shù)據(jù)的信息不均勻。
作物自然群體中存在著海量的自然變異,其中能夠影響作物表型的變異稱為功能變異。功能變異位點(diǎn)的不同等位變異具有不同的表型效應(yīng),可以劃分為有利等位變異和有害等位變異。作物育種很大程度上可以視為有利等位變異的富集(也可以從另一個(gè)方面看做有害等位變異的清除)。過去的30 年被概括為育種3.0 時(shí)代,在這一歷史階段,獲取高通量基因型數(shù)據(jù)和表型數(shù)據(jù)的成本不斷降低,同時(shí)通過關(guān)聯(lián)分析和連鎖分析克隆了大量控制重要農(nóng)藝性狀的關(guān)鍵位點(diǎn)。以此為基礎(chǔ),分子標(biāo)記輔助選擇技術(shù)、基因組預(yù)測技術(shù)在作物育種中逐漸成為常規(guī)技術(shù)。未來我們將進(jìn)入一個(gè)新的育種歷史階段:育種4.0。在這一階段,人工智能將主要從三個(gè)方面促進(jìn)設(shè)計(jì)育種發(fā)展:①發(fā)掘功能變異,指導(dǎo)精準(zhǔn)雜交育種。通過各生物組學(xué)數(shù)據(jù)和環(huán)境數(shù)據(jù)預(yù)測出作物的產(chǎn)量和表型性狀,從而實(shí)現(xiàn)簡單化精準(zhǔn)化的預(yù)測作物復(fù)雜優(yōu)良性狀。②設(shè)計(jì)有利等位變異,指導(dǎo)基因編輯育種。從基因水平、轉(zhuǎn)錄水平,以人工智能模型指導(dǎo)基因編輯,進(jìn)一步細(xì)致調(diào)控基因表達(dá),從而改良性狀。③設(shè)計(jì)具有特定功能的基因組元件,指導(dǎo)合成生物學(xué)。創(chuàng)造新的DNA 元素、基因,甚至具有某種特定功能的調(diào)控通路,并將其應(yīng)用于作物育種。
目前大多數(shù)研究都聚焦于人工智能進(jìn)行分類和回歸的能力。Wang 等[19]的文章中提到人工智能的生成模型可以通過學(xué)習(xí)生成新的基因元件從而應(yīng)用于合成生物學(xué)。生成模型技術(shù)與合成生物學(xué)結(jié)合,根據(jù)預(yù)測模型的指導(dǎo),重新設(shè)計(jì)非自然的基因、蛋白質(zhì)等應(yīng)用已經(jīng)被報(bào)道。如深度學(xué)習(xí)指導(dǎo)編輯gRNA實(shí)現(xiàn)基因表達(dá)量的調(diào)控[14];結(jié)合生成式對抗網(wǎng)絡(luò)設(shè)計(jì)大腸桿菌基因啟動(dòng)子序列[24];設(shè)計(jì)蛋白質(zhì)序列以拓展蛋白質(zhì)空間[43];設(shè)計(jì)螺線蛋白質(zhì)骨架[23];生成T細(xì)胞受體的蛋白質(zhì)序列[26]等。
深度學(xué)習(xí)模型存在遷移學(xué)習(xí)的性質(zhì),即可以用某一物種訓(xùn)練的預(yù)測模型預(yù)測相近物種,這種性質(zhì)使得生物學(xué)中單一物種訓(xùn)練的模型有了更廣泛的用處,如小鼠基因組訓(xùn)練的模型可以用在人類基因組上[50],單一植物葉片脅迫表型的識(shí)別模型可以用來預(yù)測其他植物的葉片脅迫表現(xiàn)[44]。
人工智能特別是深度學(xué)習(xí)出現(xiàn)之后,已經(jīng)在多個(gè)領(lǐng)域掀起新的浪潮,現(xiàn)階段已經(jīng)在基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和合成生物學(xué)等領(lǐng)域發(fā)揮了巨大作用,如完善基因組功能注釋、挖掘新功能基因、預(yù)測植物表型、發(fā)現(xiàn)基因、RNA、蛋白質(zhì)等物質(zhì)的新分類模式,指導(dǎo)基因編輯。高通量技術(shù)的發(fā)展見證著植物基因組學(xué)的進(jìn)步,它以較低的花費(fèi)識(shí)別著多種分子表型。然而,基因組學(xué)也要求利用強(qiáng)大的數(shù)據(jù)挖掘工具來預(yù)測和解釋這些分子表型,深度學(xué)習(xí)則可以預(yù)測任何基因組變異的分子表型效應(yīng),獲得直接控制分子表型的功能變異。此外,在合成生物學(xué)中應(yīng)用深度學(xué)習(xí)模型也有望創(chuàng)造具有理想功能的新基因??傊?,深度學(xué)習(xí)在未來植物基因組學(xué)研究和作物遺傳改良中將發(fā)揮中心作用,人工智能將會(huì)是未來農(nóng)業(yè)發(fā)展不可或缺的一部分。