郭位軍, 李東維, 謝上, 楊立文, 李聰, 田健, 普莉, 谷曉峰
(中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所,北京 100081)
隨著全球人口迅速增長、有效耕地面積持續(xù)減少和環(huán)境條件惡化,全球糧食生產(chǎn)面臨巨大壓力。目前,我國糧食作物平均單產(chǎn)增速變緩,亟需應(yīng)用新育種策略和前沿技術(shù)解決作物增產(chǎn)、穩(wěn)產(chǎn)的瓶頸問題。大數(shù)據(jù)和人工智能等信息技術(shù)在生物育種領(lǐng)域逐漸滲透和融合,驅(qū)動(dòng)了作物智能設(shè)計(jì)技術(shù)的快速發(fā)展及其在作物關(guān)鍵育種性狀定向改良上的應(yīng)用。作物重要育種性狀受到遺傳、表觀遺傳和環(huán)境因子3個(gè)層次協(xié)同精準(zhǔn)調(diào)控,其中表觀遺傳能夠增強(qiáng)遺傳因子和環(huán)境之間的聯(lián)系,在調(diào)控植物生長發(fā)育、環(huán)境適應(yīng)性等方面發(fā)揮關(guān)鍵作用。目前,以表觀遺傳為核心的表觀智能設(shè)計(jì)育種已經(jīng)成為改良作物關(guān)鍵育種性狀的全新途徑。本文系統(tǒng)介紹了表觀遺傳修飾在植物生長發(fā)育和環(huán)境適應(yīng)性中的調(diào)控作用,以及針對(duì)重要育種性狀的表觀智能設(shè)計(jì)改良策略,旨在為利用表觀智能設(shè)計(jì)育種技術(shù)創(chuàng)制優(yōu)異作物新種質(zhì)提供參考,以推動(dòng)作物育種進(jìn)入智能化時(shí)代。
表觀遺傳是指是不依賴DNA序列改變調(diào)控基因表達(dá)的方式,主要包括DNA甲基化(DNA methylation)、RNA 甲基化(RNA methylation)、組蛋白 修 飾 (histone modification)、非 編 碼 RNA(noncoding RNA)、染色質(zhì)重塑(chromatin remodeling)等類型(圖1),在調(diào)控植物生長發(fā)育和環(huán)境適應(yīng)性等方面發(fā)揮重要功能[1-2]。表觀遺傳修飾被甲基轉(zhuǎn)移酶(writer)、去甲基化酶(eraser)和識(shí)別蛋白(reader)共同調(diào)控,呈現(xiàn)動(dòng)態(tài)可逆的變化特點(diǎn)。
圖1 表觀基因組構(gòu)成Fig. 1 Component of epigenome
不同表觀遺傳修飾水平的變化能夠影響染色質(zhì)可及性,通過調(diào)節(jié)相關(guān)基因的表達(dá)從而調(diào)控生物多種生命過程[3-5]。表觀遺傳學(xué)方法的發(fā)展推進(jìn)了遺傳的研究,利用了包括高質(zhì)量的抗體、染色質(zhì)功能分析、成像工具、高通量測(cè)序技術(shù)和整合生物信息學(xué)流程等在內(nèi)的多種策略(圖2)。同時(shí),測(cè)序技術(shù)的不斷進(jìn)步極大地推動(dòng)了全基因組范圍內(nèi)的表觀遺傳修飾位點(diǎn)鑒定和功能機(jī)制研究。
圖2 表觀遺傳修飾檢測(cè)方法Fig. 2 Technologies relevant to epigenome
DNA甲基化是現(xiàn)階段功能解析最為深入的表觀遺傳修飾類型之一,主要有5-甲基胞嘧啶 (5-methylcytosine,5mC)和 N6-甲 基 腺 苷 (N6-methyladenine, 6mA)兩 種 修 飾 類 型[2,6-7]。 DNA 5mC是真核生物中分布最廣泛的甲基化修飾,同時(shí)也是研究最多的DNA修飾標(biāo)記[2]。DNA 6mA在真核生物中被認(rèn)為是一種全新的核酸修飾類型,在基因表達(dá)調(diào)控中發(fā)揮了重要的作用[2,7]。許多技術(shù)體系被開發(fā)用于DNA甲基化的定性和定量分析,其中重亞硫酸鹽(bisulfite, BS)處理是大多數(shù)DNA 5mC分析的基礎(chǔ),它將單鏈DNA中的胞嘧啶(ctosine, C)轉(zhuǎn)化為尿嘧啶(uracil, U),但不影響5mC修飾位點(diǎn),結(jié)合測(cè)序技術(shù)可以獲得全基因組范圍內(nèi)單堿基精度的5mC位點(diǎn)和修飾豐度[8]。其他檢測(cè)技術(shù)主要基于酶切法,將不同甲基化敏感性的特異性內(nèi)切酶消化基因組DNA,獲得DNA甲基化的粗略定量[9]。DNA甲基化檢測(cè)技術(shù)在過去的幾十年里不斷改進(jìn)和提升,加速了DNA甲基化修飾在特定位點(diǎn)和總體水平上的研究。例如,近年來興起的以O(shè)xford Nanopore Technologies (ONT)和 Pacific Biosciences (PacBio)為代表的三代測(cè)序技術(shù)(third-generation sequencing-based technologies, TGS)可以不經(jīng)過聚合酶鏈?zhǔn)椒磻?yīng)(polymerase chain reaction, PCR)擴(kuò)增,實(shí)現(xiàn)長片段DNA分子的測(cè)序,這使得在同一文庫研究多種DNA甲基化修飾成為可能,并且可以擺脫BS處理對(duì)DNA甲基化帶來的不利影響。
近年來,RNA甲基化修飾作為轉(zhuǎn)錄后修飾的調(diào)控方式,正引領(lǐng)全新的表觀遺傳學(xué)研究的浪潮。6-甲基腺嘌呤(N6-methyladenosine, m6A)和 5-甲基胞 嘧 啶 (5-methylcytosine, m5C)是 最 常 見 的 兩 種RNA修飾類型。RNA甲基化免疫共沉淀測(cè)序(methylated RNA immunoprecipitation sequencing,MeRIP-Seq)借助RNA-蛋白免疫共沉淀和高通量測(cè)序技術(shù),可實(shí)現(xiàn)表觀轉(zhuǎn)錄組上RNA甲基化修飾位點(diǎn)鑒定[2]。此外,下一代測(cè)序(next generation sequencing,NGS)測(cè)序技術(shù)的開發(fā)和應(yīng)用也進(jìn)一步加速RNA甲基化在全基因組范圍的精確定量研究,但其高昂的成本和檢測(cè)修飾產(chǎn)生的假陽性仍需進(jìn)一步改善。
組蛋白修飾是另一種重要的表觀遺傳修飾,研究人員已經(jīng)開發(fā)了許多技術(shù)成功應(yīng)用到其功能和動(dòng)態(tài)變化特性的研究中。其中絕大部分方法都是基于染色質(zhì)免疫共沉淀(chromatin immunoprecipitation, ChIP)試驗(yàn)開發(fā)的[10-11]。特異性抗體靶向ChIP是高效研究DNA-蛋白質(zhì)互作的技術(shù),可以研究特定DNA序列附近的染色質(zhì)結(jié)構(gòu)。同時(shí),ChIP也可以和其他技術(shù)(ATAC-seq和Hi-C等)結(jié)合來闡釋組蛋白修飾和其他染色質(zhì)調(diào)控因子在特定位點(diǎn)的相互作用[12]。將ChIP和捕獲染色質(zhì)三維空間結(jié)構(gòu)的3C(chromosome conformation capture,3C)技術(shù)結(jié)合,可以獲得三維染色質(zhì)空間結(jié)構(gòu)上表觀遺傳修飾分布和染色質(zhì)空間重排之間的潛在關(guān)系[13]。
DNA 5mC是哺乳動(dòng)物和植物中含量最豐富的表觀遺傳修飾類型,通過維持基因組穩(wěn)定性、調(diào)控基因表達(dá)進(jìn)而控制生物的生長發(fā)育和環(huán)境適應(yīng)性。DNA 6mA作為一種新的表觀修飾標(biāo)記,廣泛存在于原核和真核生物基因組中[6]。近年來,多種檢測(cè)技術(shù)的成功應(yīng)用使得DNA 6mA的精確定量成為可能,液相色譜-串聯(lián)質(zhì)譜技術(shù)(LC-MS/MS)、6mA IP結(jié)合TGS能夠精確定量DNA 6mA修飾水平。目前,研究者已經(jīng)在擬南芥(Arabidopsis thaliana)、水稻(Oryza sativa)、大豆(Glycine max)等物種中鑒定了DNA 6mA修飾豐度,并且揭示其行使的生物學(xué)功能[2]。擬南芥中DNA 6mA含量(6mA/A)約為0.048%、水稻中DNA 6mA修飾豐度約為0.55%、大豆中為DNA 6mA修飾豐度約為0.026 4%,這些植物的6mA含量低于真菌和細(xì)菌[2,6,14-16]。 在 水 稻 中 ,ALKBH(α-ketoglutaratedependent dioxygenase alkB homolog)家 族 中 的ALKBH1及其同源蛋白作為去甲基化酶主要行使去甲基化酶的功能——移除6mA上的甲基,但不會(huì)去除RNA上的甲基。目前,還未在植物中鑒定到DNA 6mA的識(shí)別蛋白[16]。已有研究表明,6mA與植物發(fā)育和脅迫響應(yīng)密切相關(guān)。水稻deficient in dna methylation 1a/1b(ddm1a/1b)突變體中 6mA修飾豐度降低,導(dǎo)致植株呈現(xiàn)矮化、結(jié)實(shí)率降低的表型[6]。此外,還有研究表明,ALKBH1能夠介導(dǎo)DNA 6mA修飾延遲水稻的抽穗期[16]。我們近期的研究結(jié)果表明,在水稻中DNA 6mA和3D染色質(zhì)結(jié)構(gòu)共同調(diào)控水稻對(duì)高溫脅迫的應(yīng)答[17]。
真核生物中包含170多種RNA甲基化修飾,其中分布最廣泛的是m6A修飾[18]和m5C修飾。研究表明,RNA m6A和m5C修飾參與調(diào)控RNA加工、降解、翻譯等轉(zhuǎn)錄后幾乎所有代謝過程影響生物體發(fā)育[19]。RNA m6A作為RNA甲基化修飾含量最豐富的一種修飾,能夠被甲基轉(zhuǎn)移酶、去甲基轉(zhuǎn)移酶和識(shí)別蛋白共同調(diào)控,呈現(xiàn)動(dòng)態(tài)可逆的變化[20-23]。人類 ALKBH 家 族 成 員 FAT MASS AND OBESITYASSOCIATED PROTEIN (FTO)是第一個(gè)被鑒定到的RNA m6A去甲基化酶[24],由此掀開了RNA甲基化研究的熱潮。但是,在植物中仍然沒有鑒定到FTO的同源基因。在人類中還存在ALKBH家族的其他成員——HsALKBH5,在擬南芥中為AtALKBH9B和AtALKBH10B,這些成員可以行使去甲基化酶的功能,但其在不同物種間的保守性和特異性仍需進(jìn)一步研究[25-27]。m6A甲基化轉(zhuǎn)移酶復(fù)合體在人和植物中存在部分保守性,其中人類去甲基化轉(zhuǎn)移酶復(fù)合體關(guān)鍵成員METTL3、METTL14和WTAP與水稻和擬南芥中的成員MTA、 MTB和FIP37高度保守[28-29]。人類和擬南芥包含YTH (YT521-B同源性)結(jié)構(gòu)域的蛋白質(zhì)(ECT2、 ECT3和ECT4)通過YTH結(jié)構(gòu)域識(shí)別m6A,從而調(diào)節(jié)細(xì)胞核中的可變多聚腺苷酸化和3’UTR加工以及細(xì)胞質(zhì)中RNA的降解[30-31]。m6A在胚胎發(fā)育、葉片形態(tài)發(fā)生、花轉(zhuǎn)變、雄性減數(shù)分裂、絨氈層降解、硝酸鹽代謝和根發(fā)育等過程中具有重要作用[20,23,25-26,28-33]。擬南芥甲基轉(zhuǎn)移酶 FIP37 介導(dǎo) RNA m6A調(diào)控WUSCHEL和SHOOT MERISTEMLESSmRNA的穩(wěn)定性,最后控制莖尖干細(xì)胞的命運(yùn)決定[28]。水稻中的FIP37同源蛋白和OsFIP37-ASSOCIATED PROTEIN 1調(diào)節(jié)小孢子的早期退化和雄性減數(shù)分裂[29,32]。已有研究表明,在擬南芥中人類METTL16同源蛋白FIONA1 (FIO1)作為一個(gè)新的 m6A 甲基轉(zhuǎn)移酶,參與調(diào)控開花過程[23,33]。YTH結(jié)構(gòu)域蛋白ECT2、ECT3和ECT4能夠識(shí)別RNA m6A位點(diǎn),冗余性地調(diào)節(jié)毛狀體和葉片的發(fā)育[30],其中ECT2通過調(diào)控m6A修飾的毛狀體分枝相關(guān)基因mRNA的穩(wěn)定性行使功能[31]。在擬南芥 中 ,CLEAVAGE AND POLYADENYLATION SPECIFICITY FACTOR30 (CPSF30)讀取m6A,調(diào)控可變多聚腺苷酸化調(diào)控開花和氮素吸收[20,22]。同時(shí),m6A也能調(diào)節(jié)植物對(duì)多種脅迫的適應(yīng)性。MTA、MTB、VIRILIZER (VIR)和 HAKAI介導(dǎo) m6A修飾增強(qiáng)擬南芥的耐鹽性[34],此外m6A甲基化也參與了水稻和植物病毒之間的相互作用[35]。RNA m5C作為另外一種主要的mRNA修飾類型,僅在水稻和擬南芥中鑒定到了一個(gè)甲基轉(zhuǎn)移酶——HsNSUN2同源蛋白[36-38]。目前,在人類中只報(bào)道了1個(gè)去甲基酶——TET2,在植物中去甲基轉(zhuǎn)移酶仍未被鑒定和報(bào)道[28]。ALYREF是人類m5C的識(shí)別蛋白,但并未在植物中鑒定到它的同源蛋白。m5C修飾能夠調(diào)控?cái)M南芥mRNA的翻譯活性和穩(wěn)定性,并且能夠增強(qiáng)水稻蛋白質(zhì)的合成。在根發(fā)育進(jìn)程中,m5C參與mRNA到靶細(xì)胞的轉(zhuǎn)運(yùn)[36]。水稻m5C甲基轉(zhuǎn)移酶OsNSUN2能夠控制抗氧化應(yīng)激能力并且增強(qiáng)耐熱性。
染色體主要由折疊的DNA纏繞組蛋白八聚體組成,組蛋白修飾是指翻譯后蛋白復(fù)合體氨基末端進(jìn)行的共價(jià)修飾。近年來,組蛋白修飾相關(guān)研究已取得大量進(jìn)展,其在植物基因表達(dá)、生長發(fā)育、逆境響應(yīng)等過程中發(fā)揮著十分重要的功能[39]。截至目前,鑒定到的組蛋白修飾主要有甲基化、乙酰化、磷酸化、腺苷酸化、泛素化、SUMO化、ADP核糖基化等類型[36]。組蛋白甲基化由組蛋白甲基化轉(zhuǎn)移酶(histone methyl transferase, HMT)介導(dǎo),在氨基末端的不同位點(diǎn)、不同氨基酸殘基上進(jìn)行修飾,同時(shí)實(shí)現(xiàn)不同甲基化數(shù)目(me1、me2和me3)的修飾。組蛋白H3賴氨酸甲基化主要發(fā)生在4個(gè)位點(diǎn)上——K4、K9、K27和K36,已有研究表明,H3K4me3和H3K36me3主要富集在常染色質(zhì)上,與基因的激活表達(dá)相關(guān)[40-41],而H3K27me3和H3K9me2則是抑制基因表達(dá)[42-43]。組蛋白修飾呈現(xiàn)時(shí)空特異性,利用甲基轉(zhuǎn)移酶和去甲基轉(zhuǎn)移酶和識(shí)別蛋白,可以動(dòng)態(tài)調(diào)控生物體的生長發(fā)育進(jìn)程[39]。
綜上所述,由表觀轉(zhuǎn)錄組和表觀基因組調(diào)節(jié)因子共同調(diào)控的生長發(fā)育和脅迫響應(yīng)過程與作物重要與育種性狀緊密關(guān)聯(lián),表明其可作為作物育種性狀和環(huán)境適應(yīng)性改良的目標(biāo),具有極高的應(yīng)用價(jià)值。
表觀遺傳修飾設(shè)計(jì)調(diào)控回路在動(dòng)物中已取得快速進(jìn)展。利用合成的6mA識(shí)別蛋白/甲基轉(zhuǎn)移酶在哺乳動(dòng)物細(xì)胞中構(gòu)建了人工表觀遺傳調(diào)控系統(tǒng),促進(jìn)了染色質(zhì)的空間傳播和標(biāo)記擴(kuò)散以及轉(zhuǎn)錄狀態(tài)的表觀遺傳記憶[44]。在人類和小鼠中,通過m6A識(shí)別蛋白/去甲基化酶回路與有規(guī)則間隔的短回文重復(fù)(clustered regularly interspaced short palindromic repeats,CRISPR)系統(tǒng) CRISPR-Cas9 或CRISPR-CasRx結(jié)合,通過甲基轉(zhuǎn)移酶或者去甲基化酶調(diào)控RNA特定位點(diǎn)的修飾水平[45]。近期,研究人員在人類中設(shè)計(jì)了一種CRISPRoff系統(tǒng)[46],將DNA 5mC甲基化轉(zhuǎn)移酶DNMT3A與DNMT3L蛋白結(jié)構(gòu)域和鋅指蛋白ZNF10 KRAB結(jié)構(gòu)域融合到失活的Cas9蛋白上(dCas9)。DNMT3A和DNMT3L位于dCas9蛋白的N端,使得DNMT3A能夠擁有接近DNA甲基化CpG島的最優(yōu)途徑。該系統(tǒng)能夠沉默大多數(shù)含有CpG島的基因,調(diào)控不含CpG島的基因,并通過細(xì)胞分裂和干細(xì)胞分化向神經(jīng)元灌輸表觀遺傳記憶。
相比在動(dòng)物中的研究進(jìn)展,目前植物表觀遺傳模塊設(shè)計(jì)研究比較緩慢。在擬南芥中,花期基因FLOWERING WAGENINGEN(FWA)的5mC甲基化可被與鋅指融合的蛋白SU(VAR)3-9 HOMOLOG 9(或TET1)特異控制,從而調(diào)控開花過程[47-48]。此外,研究人員開發(fā)了基于CRISPR/dCas9的靶向甲基化/去甲基化工具,該工具可以在基因組的靶向位點(diǎn)精準(zhǔn)高效地調(diào)控5mC修飾水平[48-49]。這些系統(tǒng)通過重激活或沉默植物表觀基因組特定位點(diǎn)的修飾,進(jìn)而創(chuàng)制新表觀等位基因。上述植物相關(guān)研究主要關(guān)注了5mC甲基化水平的調(diào)控,但是新型甲基化修飾(DNA 6mA,RNA m5C和m6A等)和組蛋白修飾的調(diào)控還未在植物中實(shí)現(xiàn)。這些研究為重要農(nóng)藝性狀的調(diào)控提供了全新的思路,為培育智能作物提供新的設(shè)計(jì)策略。
近年來,隨著科學(xué)技術(shù)和計(jì)算能力的不斷發(fā)展,人工智能(artificial intelligence,AI)已廣泛應(yīng)用于大規(guī)模數(shù)據(jù)分析以解決計(jì)算機(jī)視覺(computer vision,CV)、自然語言處理(natural language processing,NLP)、自動(dòng)駕駛(autonomous driving)、知識(shí)圖譜(knowledge graph)、蛋白質(zhì)結(jié)構(gòu)(protein structure)等領(lǐng)域的復(fù)雜問題。而對(duì)于作物育種領(lǐng)域,人工智能與生物技術(shù)的融合將作物育種推進(jìn)“育種4.0時(shí)代”[50]。
得益于以高通量測(cè)序技術(shù)為代表的前沿技術(shù)迅速發(fā)展,針對(duì)不同物種、不同組織、不同生長發(fā)育時(shí)期、不同脅迫環(huán)境條件下的,包括基因組、表觀遺傳組、轉(zhuǎn)錄組、蛋白組、代謝組、環(huán)境組、微生物組、表型組等在內(nèi)的生物多組學(xué)數(shù)據(jù)得以大量積累,它們的挖掘與利用可以加速作物的改良與育種。
受到表觀組學(xué)存在動(dòng)態(tài)變化特性的影響,試驗(yàn)數(shù)據(jù)的收集通常局限于局部的組織、基因型或環(huán)境條件,限制了針對(duì)多組學(xué)動(dòng)態(tài)性調(diào)控的研究范圍,同時(shí)阻礙了對(duì)整個(gè)生物生命周期中的基因在不同環(huán)境條件下表觀遺傳調(diào)控方式的研究。對(duì)于這種復(fù)雜系統(tǒng),機(jī)器學(xué)習(xí)在加速多組學(xué)圖譜繪制的領(lǐng)域中展現(xiàn)了出色的效果。在植物基因組研究中,機(jī)器學(xué)習(xí)已被用于提升基因組組裝質(zhì)量[51];表觀基因組學(xué)研究中,機(jī)器學(xué)習(xí)已用于繪制楊樹DNA 5mC圖譜[52]和水稻DNA 6mA圖譜[53-58];轉(zhuǎn)錄組研究中,機(jī)器學(xué)習(xí)也被用于進(jìn)行脅迫響應(yīng)的轉(zhuǎn)錄組差異網(wǎng)絡(luò)分析[59]以及多聚腺苷酸化(polyadenylation, PolyA)位點(diǎn)的預(yù)測(cè)[60];表觀轉(zhuǎn)錄組研究中,RNA上多種表觀修飾位點(diǎn)都被建立了機(jī)器學(xué)習(xí)的模型學(xué)習(xí)其潛在的修飾規(guī)律[61];而在植物的表型組研究中,基于計(jì)算機(jī)視覺的機(jī)器學(xué)習(xí)方法在高光譜、X光、遙感等數(shù)據(jù)上實(shí)現(xiàn)了表型識(shí)別、測(cè)量、預(yù)測(cè)等任務(wù)[62]。我們整合課題組發(fā)表的粳稻品種‘日本晴’和秈稻品種‘93-11’的基因組、DNA 6mA和5mC全基因組圖譜、公開的多種組蛋白修飾和轉(zhuǎn)錄組組學(xué)數(shù)據(jù)[6],利用人工智能開發(fā)了DNA甲基化智能預(yù)測(cè)模型,并進(jìn)行全基因組預(yù)測(cè),綜合這些數(shù)據(jù)構(gòu)建了世界上首個(gè)水稻表觀智能數(shù)據(jù)庫eRice[57]。數(shù)據(jù)庫表觀組和基因組數(shù)據(jù)的整合提升了數(shù)據(jù)利用和深度挖掘能力,實(shí)現(xiàn)了基因序列和注釋信息、DNA甲基化、組蛋白修飾及DNA甲基化智能預(yù)測(cè)數(shù)據(jù)的系統(tǒng)查詢和一體化展示。同時(shí),我們基于深度學(xué)習(xí)算法構(gòu)建了植物表觀遺傳修飾智能預(yù)測(cè)模型SMEP(smart model for epigenetics in plants),通 過 利 用 植 物DNA甲基化、RNA甲基化、組蛋白修飾等序列信息,實(shí)現(xiàn)了水稻、玉米等物種中表觀修飾位點(diǎn)的預(yù)測(cè)[58]??杉靶允侨旧|(zhì)的重要特征,決定細(xì)胞核大分子和DNA的接觸程度,這對(duì)于基于的轉(zhuǎn)錄調(diào)控起著至關(guān)重要的作用。因此,基于秈粳稻在正常條件和熱處理?xiàng)l件下的染色質(zhì)開放數(shù)據(jù)[17],利用深度學(xué)習(xí)算法,構(gòu)建了高精度基于序列的染色質(zhì)可及性智能預(yù)測(cè)模型,實(shí)現(xiàn)了植物表觀組學(xué)數(shù)據(jù)可視化與人工智能的交叉融合[63]。這些模型的成功開發(fā)為作物功能基因組研究和表觀智能設(shè)計(jì)育種提供工具和數(shù)據(jù)支撐。
隨著對(duì)多組學(xué)及其調(diào)控網(wǎng)絡(luò)的復(fù)雜性以及不同組學(xué)之間相互調(diào)控的認(rèn)識(shí)不斷提高,生命活動(dòng)各個(gè)不同層級(jí)信息的多組學(xué)數(shù)據(jù)可以被整合起來,用于發(fā)現(xiàn)和挖掘復(fù)雜的生命活動(dòng),這也帶來了更多對(duì)多組學(xué)整合工具的需求。機(jī)器學(xué)習(xí)作為高維數(shù)據(jù)的挖掘方法,被應(yīng)用于多個(gè)不同組學(xué)的整合分析上。在楊樹的轉(zhuǎn)錄組、蛋白組、代謝組的整合分析中,研究人員開發(fā)了OnPLS方法以探索PttSCAMP3基因在木質(zhì)形成和次級(jí)細(xì)胞壁組成中的作用[64]。而玉米的研究中,MCIA方法被用于整合代謝組和蛋白組分析[65],GFLASSO工具則被用于整合代謝組和轉(zhuǎn)錄組分析[66]。除了加速多組學(xué)圖譜的繪制、整合多組學(xué)數(shù)據(jù)的分析之外,機(jī)器學(xué)習(xí)也常被用于挖掘多組學(xué)數(shù)據(jù)中隱藏在高維的信息,找到整個(gè)復(fù)雜的調(diào)控網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn),解析與推測(cè)基因的潛在功能。多變量降維判別分析方法DIABLO在整合早期和中期季節(jié)哈斯鱷梨的蛋白質(zhì)組學(xué)和代謝組學(xué)數(shù)據(jù)的過程中,將熱處理脅迫與成熟的均勻性聯(lián)系起來,識(shí)別了導(dǎo)致明顯差異的相關(guān)判別變量,推測(cè)了熱脅迫下糖酵解和蛋白質(zhì)降解的生物學(xué)途徑[67]。
解析遺傳與表觀遺傳變異是如何影響復(fù)雜表型和挖掘全基因組優(yōu)異等位變異是生物性狀改良研究的核心內(nèi)容。全基因組關(guān)聯(lián)分析(genomewide association study, GWAS)已鑒定出數(shù)以萬計(jì)的與特定性狀相關(guān)聯(lián)的遺傳變異,但這些變異超過一半都定位于非編碼區(qū);同時(shí)由于連鎖不平衡(linkage disequilibrium, LD)的存在,GWAS 很難區(qū)分出其中真正發(fā)揮作用的因果變異(causal variant)。相較于傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,機(jī)器學(xué)習(xí)方法能夠從不同層面(包括轉(zhuǎn)錄因子結(jié)合位點(diǎn)、表觀修飾位點(diǎn)、染色質(zhì)可及性以及基因表達(dá)等)的信息學(xué)習(xí)分布規(guī)律構(gòu)建模型,從而預(yù)測(cè)和挖掘變異位點(diǎn)的潛在功能。
在轉(zhuǎn)錄層面,ExPecot[68]和 Enformer[69]使用基因組上調(diào)控序列進(jìn)行建模,利用深度卷積神經(jīng)網(wǎng)絡(luò)和Transformer結(jié)構(gòu)擬合基因表達(dá)和調(diào)控序列之間的關(guān)聯(lián),從而從海量的表達(dá)數(shù)量性狀位點(diǎn)(expression quantitative trait loci, eQTL)中挖掘真正影響基因表達(dá)的變異位點(diǎn)。DeepSEA[70]、DeepBind[71]、BPNet[72]等方法利用DNA元素百科全書計(jì)劃(encyclopedia of DNA elements, ENCODE)[73]等數(shù)據(jù)集中幾百種轉(zhuǎn)錄因子結(jié)合位點(diǎn)的信息,構(gòu)建深度學(xué)習(xí)模型,預(yù)測(cè)輸入序列的轉(zhuǎn)錄因子結(jié)合情況。將GWAS關(guān)聯(lián)到的每個(gè)單核苷酸多態(tài)性(single-nucleotide polymorphism, SNP)位點(diǎn)替換到基因組的參考序列上,通過評(píng)估序列替換前后預(yù)測(cè)分值的改變,將其視為該SNP對(duì)調(diào)控序列影響的衡量標(biāo)準(zhǔn)。除了通過轉(zhuǎn)錄因子結(jié)合位點(diǎn),基因組上的表觀修飾和染色質(zhì)開放性區(qū)域也常被用于挖掘基因組變異造成的影響。Basset[74]利用脫氧核糖核酸酶I超敏感位點(diǎn)測(cè)序(DNase I hypersensitive site sequencing, DNase-seq)獲 得 基因 組 開 放 信 息 ,在 水 稻 中 RiceVarMap V2.0[75]、PlantDeepSEA和SMOC[63]也利用了染色質(zhì)可及性測(cè) 序 (assay of transposase accessible chromatin sequencing, ATAC-seq)所產(chǎn)生的基因組開放區(qū)域;Basenji[76]則同時(shí)利用了組蛋白修飾和染色質(zhì)開放情況作為建模來揭示組蛋白修飾和染色質(zhì)開放區(qū)域?qū)蚪M變異的影響。INTERACT[77]專注于挖掘5mC修飾程度造成的影響,而Akita[78]和Orca[79]則利用染色質(zhì)3D的互作情況,從大片段的結(jié)構(gòu)變異(structure variant, SV)搜索對(duì)基因組 3D 構(gòu)象造成改變的變異。
為克服分子標(biāo)記輔助育種(marker-assisted breeding,MAS)在數(shù)量性狀上的局限性,Meuwissen[80]在2001年提出的新型的分子輔助育種策略——基因組選擇(genomic selection, GS)發(fā)揮了主要的作用。相較于分子標(biāo)記輔助育種,基因組選擇盡可能地在全基因組范圍內(nèi)考慮遺傳變異的影響,大大提升了育種的效率,同時(shí)也對(duì)計(jì)算方法提出了新的挑戰(zhàn)。
早期的基因組選擇大多選用統(tǒng)計(jì)學(xué)方法,如實(shí)現(xiàn)嶺回歸最小無偏估計(jì)(ridge regression best linear unbiased prediction)的 rrBLUP[81],集 成 BayesA、BayesB、BayesC等貝葉斯相關(guān)算法的BGLR[82],以及可以實(shí)現(xiàn)稀疏偏最小二乘回歸算法的spls(sparse partial least squares)。但隨著機(jī)器學(xué)習(xí)方法在其他領(lǐng)域的成功應(yīng)用,基于隨機(jī)森林(random forest, RF)和支持向量機(jī)(support vector machine, SVM)的R語言e1071模塊也被應(yīng)用于基因型到表型的預(yù)測(cè),而基于LightGBM的育種工具箱CropGBM最終在各項(xiàng)指標(biāo)上都取得出了優(yōu)異的結(jié)果[83]。以DeepGS[84]、DLGWAS[85]和DNNGP[86]為代表的深度學(xué)習(xí)方法也開始在基因組選擇領(lǐng)域嶄露頭角。
基因組選擇是自下而上,從基因組上聚合優(yōu)良的變異位點(diǎn)從而實(shí)現(xiàn)基因組優(yōu)化(genome optimization)[87]。從“最優(yōu)表型”反推“最優(yōu)基因組”所需要的片段組合方式,最終通過拼接重組片段的方式實(shí)現(xiàn)基因組設(shè)計(jì)?;蚪M優(yōu)化首先需要通過大規(guī)模重組自交系基因型數(shù)據(jù),利用計(jì)算出的重組熱點(diǎn)將整個(gè)基因組切割為許多最小的高頻重組片段,再通過機(jī)器學(xué)習(xí)算法將這些片段與表型進(jìn)行關(guān)聯(lián)建模,并推測(cè)出達(dá)到最優(yōu)表型的片段組合方式,最后按片段在基因組上的位置拼接出一種虛擬的“理想基因組”[87-88]。基因組優(yōu)化也是目前技術(shù)挑戰(zhàn)最難、潛力最大的基因組設(shè)計(jì)方法,需要人工智能算法和育種家相互協(xié)助,才能完成復(fù)雜的基因組頂層設(shè)計(jì)。
表觀遺傳修飾位點(diǎn)預(yù)測(cè)和設(shè)計(jì)的準(zhǔn)確性,以及表觀遺傳調(diào)控回路定向改造的高效性是實(shí)現(xiàn)表觀智能設(shè)計(jì)和作物改良的關(guān)鍵。通過整合工程學(xué)理念和表觀遺傳修飾位點(diǎn)、智能設(shè)計(jì)和合成調(diào)控回路,精準(zhǔn)改良作物的農(nóng)藝性狀,融合表觀遺傳和人工智能的“表觀遺傳智能設(shè)計(jì)技術(shù)”可為作物遺傳改良提供新范式,開辟出新的作物育種方向[89]。
以CRISPR/Cas9技術(shù)為代表的基因編輯技術(shù)可以在基因組水平對(duì)DNA序列進(jìn)行精準(zhǔn)、高效編輯,對(duì)基因功能研究有著至關(guān)重要的作用。在農(nóng)業(yè)領(lǐng)域CRISPR/Cas9技術(shù)被廣泛使用在農(nóng)藝性狀改良、新種質(zhì)創(chuàng)制、作物遺傳育種等多個(gè)方面。研究者在蕃茄上使用CRISPR技術(shù)對(duì)啟動(dòng)子序列進(jìn)行精準(zhǔn)的編輯,改變了果實(shí)大小、花序分枝和株型等重要的農(nóng)藝性狀,從而打破了產(chǎn)量的限制[90]?;贑RISPR的表觀遺傳編輯技術(shù)可以在不改變基因編碼序列的情況下,通過表觀修飾位點(diǎn)數(shù)量和修飾豐度的定向編輯,實(shí)現(xiàn)基因表達(dá)水平的定向調(diào)控,以改良作物產(chǎn)量、耐逆性等重要農(nóng)藝性狀,其在作物產(chǎn)量、耐逆性改良上具有重要應(yīng)用潛力。表觀遺傳編輯技術(shù)無需對(duì)基因編碼序列進(jìn)行切割就能抑制靶基因的表達(dá),并且可以逆轉(zhuǎn),能在多種表觀遺傳修飾的共同作用下產(chǎn)生更持久疊加的生物學(xué)效應(yīng),從而更加安全和靈活的精準(zhǔn)調(diào)控基因表達(dá)。CRISPRoff技術(shù)是一種以CRISPR為基礎(chǔ)的新型表觀編輯技術(shù),其在保持序列不變的基礎(chǔ)上促進(jìn)靶位點(diǎn)附近DNA甲基化,從而實(shí)現(xiàn)持久可遺傳的基因轉(zhuǎn)錄抑制,同時(shí)CRISPRon技術(shù)可利用去甲基化酶逆轉(zhuǎn)沉默效果[46]。在作物產(chǎn)量性狀的研究方面,研究者將哺乳動(dòng)物的RNA去甲基化轉(zhuǎn)移酶FTO引入到水稻和土豆基因組中,通過對(duì)其RNA修飾m6A進(jìn)行特異性去甲基化促進(jìn)了分蘗的增加和根系的生長,大幅度地提高了生物量和產(chǎn)量,該技術(shù)顯示了RNA表觀遺傳修飾在作物產(chǎn)量性狀的改良上的具大應(yīng)用潛力[91]。
植物表觀遺傳結(jié)合基因編輯、合成生物等技術(shù)的研究,不僅提升對(duì)表觀調(diào)控機(jī)制更深入的了解,同時(shí)在結(jié)合人工智能決策體系下,形成了表觀遺傳智能設(shè)計(jì)育種技術(shù),為定向創(chuàng)制智能適應(yīng)性作物提供新的方向。智能模型可以實(shí)現(xiàn)全基因組水平上的表觀遺傳修飾位點(diǎn)的精準(zhǔn)預(yù)測(cè),突破了通過實(shí)驗(yàn)手段無法檢測(cè)的潛在表觀遺傳修飾位點(diǎn)的限制,為作物功能基因組研究和智能設(shè)計(jì)育種提供了強(qiáng)有力的工具和數(shù)據(jù)支撐。同時(shí),表觀遺傳智能設(shè)計(jì)技術(shù)在篩選影響關(guān)鍵農(nóng)藝性狀基因表達(dá)的表觀遺傳修飾位點(diǎn)時(shí),通過模型在全基因組范圍內(nèi)鑒定順式調(diào)控元件,進(jìn)一步對(duì)靶基因啟動(dòng)子、編碼區(qū)上的表觀遺傳修飾位點(diǎn)、染色質(zhì)的開放性以及表觀修飾酶酶活進(jìn)行模擬改造,設(shè)計(jì)定向改良作物農(nóng)藝性狀的調(diào)控回路。另一方面,利用表觀遺傳智能設(shè)計(jì)技術(shù)鑒定作物株型、抗逆、產(chǎn)量等重要育種性狀的關(guān)鍵基因及表觀調(diào)控位點(diǎn),重點(diǎn)聚焦目標(biāo)基因啟動(dòng)子區(qū)域以及非編碼區(qū)序列構(gòu)成、表觀修飾程度等因素,構(gòu)建通用表觀調(diào)控核心元件、基因特異表觀調(diào)控元件等數(shù)據(jù)庫,通過模型或試驗(yàn)確認(rèn)表觀遺傳設(shè)計(jì)和合成對(duì)目標(biāo)基因表達(dá)水平及表型間的對(duì)應(yīng)關(guān)系,創(chuàng)建“位點(diǎn)鑒定-表觀設(shè)計(jì)-合成重構(gòu)-迭代優(yōu)化”的表觀遺傳智能設(shè)計(jì)育種體系(圖3)。
圖3 表觀遺傳智能設(shè)計(jì)創(chuàng)制優(yōu)異種質(zhì)Fig. 3 Smart epigenetic design to culture elite germplasm
得益于高通量測(cè)序、精準(zhǔn)檢測(cè)、生物技術(shù)的快速發(fā)展,表觀遺傳研究取得大量突破性進(jìn)展,多種表觀遺傳調(diào)控網(wǎng)絡(luò)相繼被解析。新型表觀遺傳修飾類型也成為研究熱點(diǎn),為作物表觀智能設(shè)計(jì)提供了大量的修飾位點(diǎn)信息和設(shè)計(jì)靶點(diǎn)。同時(shí),人工智能技術(shù)在生命科學(xué)領(lǐng)域成功應(yīng)用及多種表觀遺傳智能預(yù)測(cè)工具的開發(fā)和應(yīng)用,極大地推動(dòng)了表觀遺傳位點(diǎn)的鑒定和研究,突破了表觀遺傳修飾動(dòng)態(tài)變化、時(shí)空特異性等限制因素,為作物智能設(shè)計(jì)帶來了新機(jī)遇。表觀遺傳智能設(shè)計(jì)技術(shù)采用模型驅(qū)動(dòng)的育種策略,可以設(shè)計(jì)、評(píng)估和量化表觀遺傳修飾對(duì)作物性狀的影響。未來,表觀遺傳智能育種技術(shù)可精準(zhǔn)設(shè)計(jì)具有高產(chǎn)、優(yōu)質(zhì)、多抗、高效等多種性狀聚合的作物新種質(zhì)和新品種,實(shí)現(xiàn)產(chǎn)量和抗性平衡、提高營養(yǎng)品質(zhì)、增強(qiáng)水肥利用效率并優(yōu)化植物與微生物間的互作。