武 晶
(中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,北京 100081)
菜豆屬(Phaseolus L.)為同源二倍體作物,染色體基數(shù)為 11,染色體數(shù)多為 2n=22,極少數(shù)為2n=20,基因組大小為 0.4~1.9 pg(https://cvalues.science.kew.org/)。菜豆屬包含有80多個物種,多數(shù)為野生種,僅有5個栽培種,分別為普通菜豆(P.vulgaris L.)、多花菜豆(P.cocineus L.)、利馬豆(P.lunatus L.)、叢林菜豆(P.dumosus L.)和寬葉菜豆(P.acutifolius L.),其中普通菜豆在世界范圍內(nèi)種植范圍最廣、栽培面積最大、食用人群最多[1]。經(jīng)過長期馴化和地理隔離,普通菜豆形成了安第斯和中美兩個栽培普通菜豆多樣性中心,均為二倍體,染色體數(shù)為2n=20,基因組大小相差不大,均在600 Mb左右[1]。由于普通菜豆籽粒富含蛋白質(zhì)和多種微量元素,且脂肪含量非常低,是人類極佳的植物蛋白來源,正日益受到大眾的青睞。據(jù)聯(lián)合國糧農(nóng)組織2018年統(tǒng)計,我國年種植面積約1 000萬km2,年均產(chǎn)量為130萬t,居世界第五,其中,80%以上出口歐洲、南美洲等國,是主要的出口創(chuàng)匯商品之一,也是食用豆類中出口量最大的豆種。
遺傳連鎖圖譜是開展基因定位和克隆的強(qiáng)有力工具。普通菜豆遺傳圖譜的研究與水稻、小麥、玉米等作物相比稍顯滯后,但也是經(jīng)歷了由表型標(biāo)記、限制性內(nèi)切酶切片段長度多態(tài)性標(biāo)記(restriction fragment length polymorphism,RFLP)、擴(kuò)增片段長度多態(tài)性標(biāo)記(amplified fragment length polymorphism,AFLP)、簡單重復(fù)序列標(biāo)記(simple sequence repeats,SSR)、單核苷酸多態(tài)性標(biāo)記(single nucleotide polymorphisms,SNPs)等的發(fā)展歷程。十九世紀(jì)中葉,Gregor Mendel利用P.vulgaris和P.nanus的后代第一次對普通菜豆進(jìn)行遺傳分析,目的是驗證利用豌豆所獲得的遺傳定律[2]。隨后,Shaw和Norton在1918年,利用普通菜豆種內(nèi)雜交試驗,確定籽粒顏色是由多個獨立因子控制[2]。1921年,Tjebbes和Kooiman報道了普通菜豆中的首個連鎖現(xiàn)象,開啟了普通菜豆的遺傳連鎖研究[2]。20世紀(jì)80年代,隨著RFLP、AFLP、SSR等分子標(biāo)記的出現(xiàn),開始了基于分子標(biāo)記的遺傳圖譜構(gòu)建。C.E.Vallejo等[3-4]利用來自中美基因庫的XR-235-1-1和安第斯基因庫的Calima雜交獲得的分離群體構(gòu)建了包含P基因、224個RFLP標(biāo)記、9個種子蛋白標(biāo)記和9個酶標(biāo)記,圖譜長度為960 cM的遺傳連鎖圖譜。R.O.Nodari等[5]利用中美基因庫的BAT 93和安第斯基因庫的Jalo EEP 558雜交獲得的分離群體構(gòu)建了包含有108個RFLP標(biāo)記、7個同工酶標(biāo)記、7個RAPD標(biāo)記和3個表型標(biāo)記,圖譜長度為827 cM的遺傳連鎖圖譜,之后P.Gepts等[6]又加密了該遺傳圖譜,將標(biāo)記增加到204個,圖譜總長度為1 060 cM。此外,還構(gòu)建了多個涉及回交群體(back cross,BC1)、重組自交系群體(recombinant inbrad strain,RIL)的包含 RFLP、AFLP和RAPD的遺傳圖譜[7-19]。同水稻、玉米和小麥等大作物一樣,SSRs或SCAR等基于單一位點的PCR標(biāo)記的開發(fā)為普通菜豆遺傳圖譜的構(gòu)建帶來了快速發(fā)展,迅速取代了RFLP、AFLP和RAPD等第一代標(biāo)記作為遺傳圖譜的首選標(biāo)記。2000年,Yu K.等[20]首次將15個SSR標(biāo)記錨定到包含RAPD和RFLP的圖譜上,隨后M.W.Blair等[21]利用81個基于基因組序列和69個基于序列表達(dá)標(biāo)簽(expressed sequence tag,EST)開發(fā)的 SSR 標(biāo)記,與RFLP、RAPD和AFLP標(biāo)記構(gòu)建了遺傳圖譜。日益增長的普通菜豆EST序列和基因組序列為SSR、SNP等標(biāo)記的開發(fā)提供了海量的序列信息。2005年,M.Ramírez等[22]分析了中美基因庫的Negro Jamapa和安第斯基因庫的G19833材料的cDNA文庫中的21 000條EST序列,并開發(fā)SNP標(biāo)記。特別是近年來測序技術(shù)的飛速發(fā)展,標(biāo)記的開發(fā)更為便捷。Zou X.等[23-24]通過對36個普通菜豆種質(zhì)資源基因組的二代測序,鑒定出 43 698個 SNPs和 1 267個 InDels,其中 24 907個SNPs和692個InDels位于基因區(qū),Müller分析了52 270個BAC文庫的末端測序序列,鑒定出3 789個SSR位點。2013年Chen M.L.等[25]利用454測序結(jié)果開發(fā)了90對SSR標(biāo)記,并將其中的85對定位于染色體上。特別是針對抗病基因所開發(fā)的RGA標(biāo)記,2012年Liu J.等[26]利用454測序結(jié)果開發(fā)了365個與抗病相關(guān)基因的標(biāo)記,使得普通菜豆遺傳圖譜的質(zhì)量得到進(jìn)一步提升。SNP標(biāo)記由于其具有在基因組上分布廣、數(shù)量多等優(yōu)點而受到研究者青睞。2013年M.W.Blair等[27]利用Illumina Golden Gate assay方法開發(fā)了736個SNP引物,并利用這些標(biāo)記研究了236份材料間的多樣性?;谪S富的標(biāo)記信息,遺傳圖譜的質(zhì)量也進(jìn)一步提升。例如,C.H.Galeano等[28]2012年基于DOR364×BAT477群體,構(gòu)建了包含2 706個SNP標(biāo)記的連鎖圖譜,J.Schmutz等[29]2014年基于F2群體構(gòu)建了包含有7 015個SNP標(biāo)記的遺傳圖譜。特別值得一提的是,2020年中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所研究人員通過對683份普通菜豆種質(zhì)資源進(jìn)行10倍基因組覆蓋率的全基因組重測序,構(gòu)建了包含480萬個SNP的高密度、高精度的單倍型圖譜,為進(jìn)一步開展基因組結(jié)構(gòu)分析和基因定位提供了豐富的標(biāo)記信息[30]。
大量分子標(biāo)記的開發(fā)和高質(zhì)量的遺傳圖譜的構(gòu)建,也促進(jìn)了普通菜豆重要農(nóng)藝性狀的基因/位點的定位研究。首先,針對炭疽病和普通細(xì)菌性疫病等非生物脅迫抗性定位了大量的QTLs,例如,花葉病毒抗性(4個 QTLs)、炭疽病抗性(17個 QTLs)、普通細(xì)菌性疫病抗性(27個QTLs)、白霉病抗性(27個QTLs)、銹病抗性(12個 QTLs)、根腐病抗性(30個QTLs)、角斑病抗性(24個 QTLs)和白粉病抗性(36個QTLs)等[2]。其中,研究較為深入的是炭疽病抗性遺傳位點Co-1,陳明麗等[31]利用圖位克隆的方法將候選基因定位在46 Kb的區(qū)段內(nèi),包含4個候選基因,通過抗感親本間候選基因表達(dá)模式分析,初步確定Phvul.001G243700為候選基因。此外,針對效應(yīng)較大的QTL位點開發(fā)出可應(yīng)用于分子育種的分子標(biāo)記,例如在已發(fā)現(xiàn)的細(xì)菌性疫病抗性QTL中,BC 420、SU 91和SAP 6位點的抗病基因由于抗性水平高而得到較為廣泛的應(yīng)用,特別是其中兩個抗病基因同時存在時其抗性更強(qiáng)[32-36]。Shi C.等[36]針對BC 420和SU 91兩個重要位點開展了基因克隆工作,利用圖位克隆并結(jié)合關(guān)聯(lián)分析的方法初步明確了候選基因,并且開發(fā)了鑒定抗性候選基因的特異標(biāo)記。非生物逆境抗性QTL的定位主要集中在旱、養(yǎng)分利用效率等方面,2012年M.W.Blair等[37-38]在6個環(huán)境中利用RILs群體檢測抗旱相關(guān)性狀的QTLs;Asfaw檢測到15個根部性狀QTLs與抗旱性密切相關(guān)。還有針對缺鐵、鋅等微量元素耐受性位點定位的報道,例如利用RIL群體在第六連鎖群檢測到效應(yīng)比較高的遺傳位點,此外,還在第2、3和4染色體定位到多個微效位點[39-40]。針對株高、生長習(xí)性、開花期、百粒重、粒重和產(chǎn)量等重要農(nóng)藝性狀也定位到一系列遺傳位點[41-45]。近年來,全基因組關(guān)聯(lián)分析已經(jīng)成為定位基因的重要手段之一,最先在普通菜豆中開展全基因組關(guān)聯(lián)分析的對細(xì)菌性疫病的定位,Shi C.等[46]利用132個SNP標(biāo)記,基于395份種質(zhì)資源的自然群體開展了CBB抗性基因的定位,共有12個SNP與已經(jīng)報道的抗性QTL一致,還檢測到8個新的抗性位點。之后,利用關(guān)聯(lián)分析的方法陸續(xù)定位了開花期、生物量、產(chǎn)量性狀和籽粒性狀等性狀的基因/QTLs[47-49]。2020年中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所研究人員利用480萬個SNP開展了20個農(nóng)藝性狀的全基因組關(guān)聯(lián)分析,共定位到500余個遺傳位點,為普通菜豆的分子育種提供了關(guān)鍵性狀的準(zhǔn)確標(biāo)記選擇依據(jù)[30]。
普通菜豆有兩個獨立的起源中心,中美基因庫和安第斯基因庫。因此,美國和西班牙科學(xué)家先后發(fā)起了對中美基因庫(G19833)和安第斯基因庫(BAT 93)代表性材料的全基因組測序計劃[29,50]。2014年美國等科學(xué)家領(lǐng)導(dǎo)的研究團(tuán)隊率先利用鳥槍法完成了G19833的測序,用454測序平臺獲得24.1 Gb的數(shù)據(jù)量,同時利用Sanger測序法完成了3個fosmid文庫和兩個BAC文庫的末端測序,并結(jié)合包含7 015個SNP標(biāo)記的基于F2群體和261個SSR標(biāo)記的基于RIL群體的遺傳圖譜進(jìn)行序列組裝。最終,組裝scaffold序列總長度為521 Mb,而contig序列總長度為472.5 Mb,占預(yù)估基因組大小587 Mb的80%。G19833基因組的重復(fù)序列約占45.4%,其中LTR反轉(zhuǎn)錄轉(zhuǎn)座子是最多的一類,占基因組的36.7%。同時,研究團(tuán)隊完成了根、莖和葉等11個組織的轉(zhuǎn)錄組測序用于基因的預(yù)測和分析,共鑒定出27 191個基因[29]。J.Schmutz等[29]還證實了普通菜豆的多種馴化途徑,鑒定出1 875個中美基因庫的基因和748個安第斯基因庫的基因在馴化過程中進(jìn)行了選擇,僅有59個基因是兩個基因庫所共有的;同時也說明了馴化過程中的瓶頸效應(yīng),安第斯基因庫的遺傳變異減少了75%。2016年西班牙科學(xué)家領(lǐng)導(dǎo)的研究團(tuán)隊完成了BAT 93的全基因組測序,同美國科學(xué)家的測序策略基本一致,采用多種方法相結(jié)合進(jìn)行基因組的測序組裝,最終,獲得549.6 Mb的序列,與預(yù)期的基因組大小基本一致,重復(fù)序列占基因組的35%,LTR反轉(zhuǎn)錄轉(zhuǎn)座子仍是重復(fù)序列的主要類型。通過對34個不同的組織或是時期的RNA文庫的測序,鑒定出30 491個編碼基因[50]。兩個研究團(tuán)隊都發(fā)現(xiàn)了普通菜豆的兩個基因庫在豆科基因組發(fā)生復(fù)制之后再次發(fā)生了基因的復(fù)制現(xiàn)象[29,50]。總而言之,基因組序列的公布,對于闡明普通菜豆的起源以及基因庫間的進(jìn)化關(guān)系提供了更加翔實的數(shù)據(jù),也為基因的發(fā)掘和利用奠定了基礎(chǔ)。
轉(zhuǎn)錄組測序可以在單核苷酸水平上檢測物種的整體的轉(zhuǎn)錄,可以獲得在特定組織、特定時間的轉(zhuǎn)錄本信息。2014年,O’Rourke首次在普通菜豆中開展轉(zhuǎn)錄組研究,構(gòu)建了普通菜豆中美基因庫材料Negro jamapa包括根、莖和葉等7個組織不同時期的21個轉(zhuǎn)錄組數(shù)據(jù)庫,鑒定到11 010個組織間差異表達(dá)基因,15 752個同一組織不同時期的差異表達(dá)基因,2 315個組織特異表達(dá)基因[51],而安第斯基因庫典型材料BAT93的轉(zhuǎn)錄組分析說明,40%的基因是在根、葉和籽粒等7個組織中表達(dá),10%的基因可以被認(rèn)為是持家基因,當(dāng)然也存在小部分持家基因在大豆中的同源基因也是持家基因[50]。通過不同材料間的轉(zhuǎn)錄組數(shù)據(jù)可以編輯的研究逆境脅迫下的差異表達(dá)基因,O’Rourke鑒定了2 970個氮脅迫響應(yīng)的基因[51];中國農(nóng)科院作科所食用豆研究組利用轉(zhuǎn)錄組測序在在耐旱性強(qiáng)的材料和敏感材料分別檢測到4 139個和6 989個旱脅迫響應(yīng)基因,耐旱、敏感材料間有2 187個差異基因表達(dá)模式一致,僅有9個差異基因表達(dá)模式不一致,同時,鑒定到24個響應(yīng)旱脅迫的 miRNAs[52-53]。Gómez-Martín 等[54]研究小組通過對不同裂莢性材料進(jìn)行轉(zhuǎn)錄組測序,鑒定了材料間差異表達(dá)基因,篩選到一批裂莢性相關(guān)基因。此外,通過轉(zhuǎn)錄組分析對菜豆枯萎病、細(xì)菌性疫病、根腐病和銹病等相關(guān)基因進(jìn)行研究[55-58]。最后,轉(zhuǎn)錄組數(shù)據(jù)還可以鑒定鑒定結(jié)構(gòu)變異、SSR和SNP等,例如,從抗旱性不同的材料構(gòu)建的轉(zhuǎn)錄組數(shù)據(jù)庫中鑒定出10 482個SNP和 4 099個SSR位點[52]。A.Xanthopoulou等[59]利用2個普通菜豆的資源的轉(zhuǎn)錄組數(shù)據(jù)庫鑒定了8 278個SSR位點和19 281個SNP,為進(jìn)一步開發(fā)遺傳標(biāo)記開展基因定位和認(rèn)識普通菜豆的遺傳結(jié)構(gòu)變異提供了信息。
比較基因組是通過對不同的物種,甚至不同屬間的基因組序列的比較分析,研究不同物種間的基因和基因組結(jié)構(gòu)、基因表達(dá)量和功能差異,進(jìn)而揭示物種的起源、演化等[60-62]。近年來,大量作物的基因組測序的完成,極大地方便了全基因組層面研究不同生物的起源進(jìn)化過程[63-65]。例如,2019年豌豆基因組草圖繪制完成之后,通過與已經(jīng)完成測序的豆科植物基因組比較研究發(fā)現(xiàn)了豆科植物的基因組重排現(xiàn)象,同時與其他豆科植物相比,豌豆的基因組表現(xiàn)出更加強(qiáng)烈的基因波動,而在豌豆的進(jìn)化過程中,易位和轉(zhuǎn)座在不同譜系中差異明顯[65]。普通菜豆被認(rèn)為是研究食用豆基因分子機(jī)制和基因的進(jìn)化過程的模式作物,因此開展了較多的比較基因組學(xué)研究[1,66]。有研究表明:大豆中WRKY等轉(zhuǎn)錄因子的數(shù)量是普通菜豆的2倍,這與之前所報道的大豆和菜豆從同一個祖先分化后,大豆經(jīng)歷了一次的基因組的復(fù)制相吻合[41,51,67-68]。但是,也有基因家族與此相反,例如普通菜豆中鑒定到376個核苷酸結(jié)合位點-富亮氨酸重復(fù)(nucleotide-binding site-leucinerich repeat)基因,而大豆中鑒定到319個NLR基因[69-70],NAC轉(zhuǎn)錄因子在大豆(101個)和普通菜豆(86個)中數(shù)量也相差不大[71,72]。那么,為什么菜豆中的抗性基因會比大豆中的多呢?可能原因是普通菜豆對生態(tài)環(huán)境的適應(yīng)性要比大豆強(qiáng),從而進(jìn)化出更多的抗性機(jī)制,導(dǎo)致有更多的抗性基因[50]。重要農(nóng)藝性狀的基因也是比較基因組的重點研究對象,普通菜豆光周期基因E1(Phvul.009G204600)是大豆E1基因的同源基因,過量表達(dá)Phvul.009G204600說明普通菜豆和大豆中的E1基因的功能一致,都是控制開花期[73],同樣,生長素響應(yīng)因子(auxin response factor,ARF)基因家族在普通菜豆和大豆中也被認(rèn)為是功能保守的[74]。菜豆屬內(nèi)的普通菜豆和寬葉菜豆遺傳圖譜的比較分析研究表明,兩個菜豆種間具有高度的共線性,在少數(shù)染色體內(nèi)也發(fā)生重排[75]。越來越多的基因定位或克隆及基因組序列的不斷更新,豆科種間、種內(nèi)比較基因組的研究將為豆科間的遺傳進(jìn)化關(guān)系研究提供更加詳細(xì)且準(zhǔn)確的信息。
普通菜豆基因組及其相關(guān)研究對于研究和利用菜豆屬種質(zhì)資源具有重要意義,有助于理清菜豆屬不同種間的進(jìn)化關(guān)系,快速地從種質(zhì)資源中挖掘優(yōu)異基因資源并應(yīng)用于育種實踐。目前,基因組的研究進(jìn)展尚不能有效的支持普通菜豆的遺傳改良及相關(guān)研究,因此建議今后重點從以下幾方面展開研究:
盡管,美國和西班牙科學(xué)家先后完成了普通菜豆安第斯基因庫(G 19833)和中美基因庫(BAT 93)典型材料的基因組測序,由于這兩個基因組都是基于二代測序平臺,基因組序列還不夠完整,未達(dá)到金標(biāo)基因組的水平,在一定程度上仍然限制普通菜豆的遺傳研究;同時,單一材料的參考基因組并不能反映該物種的基因多樣性,而泛基因組反映了基因組中的結(jié)構(gòu)變異和多態(tài)性,能夠深入比較多個分類水平的基因組結(jié)構(gòu)變異。因此,應(yīng)該利用最新的測序技術(shù)開展金標(biāo)基因組和泛基因組的測序組裝,提供更為豐富的基因組序列。
群體基因組學(xué)是將基因組原理和技術(shù)同群體遺傳學(xué)有機(jī)結(jié)合的一種新的表現(xiàn)形式。推動從單一基因研究向全基因組水平基因的全面研究,通過全基因組范圍內(nèi)的大量SNP、InDel和SV等變異來研究控制特異表型的基因或微端在全基因組的效應(yīng)等。在獲得基因組序列基礎(chǔ)上進(jìn)行普通菜豆安第斯基因庫群體、中美基因庫群體等遺傳群體材料的基因組重測序,在基因組水平開展不同基因庫間在基因組水平上的遺傳多樣性、連鎖不平衡、起源演化、自然和人工選擇過程和重要農(nóng)藝性狀的機(jī)制等研究。
基因組學(xué)的快速發(fā)展促進(jìn)了全基因組輔助育種的發(fā)展,基因組研究可以鑒定大量的優(yōu)異遺傳變異和有利基因;利用全基因組的標(biāo)記和基因信息,進(jìn)行種質(zhì)資源育種價值的評估、優(yōu)異基因或等位變異的聚合、基因互作網(wǎng)絡(luò)的協(xié)調(diào)、基因組結(jié)構(gòu)的優(yōu)化等研究,從而加快普通菜豆育種進(jìn)程、縮短育種時間和提高育種效率,選育抗病、優(yōu)質(zhì)和高產(chǎn)的新品種。