楊雨青 譚娟 汪芳 彭順利 陳婕 譚明燕 呂美艷 周富裕劉聲傳
(1.貴陽學(xué)院生物與環(huán)境工程學(xué)院,貴陽 550005;2.貴州省農(nóng)業(yè)科學(xué)院茶葉研究所,貴陽 550006)
茶樹(Camellia sinensis)是世界上最古老、最受歡迎的非酒精飲料經(jīng)濟(jì)植物,是一種多年生自交不親合異花授粉作物,具有高度遺傳異質(zhì)性[1-2]。我國茶樹種質(zhì)資源豐富,由于頻繁引種馴化、雜交和多倍體化,其起源、進(jìn)化、分類等方面復(fù)雜多樣,而難以有效保護(hù)開發(fā)利用,對(duì)其有效鑒定、明確其系統(tǒng)進(jìn)化及親緣關(guān)系等備受關(guān)注[3-4]。
越來越多的植物葉綠體基因組被破譯,增強(qiáng)了對(duì)植物葉綠體生物學(xué)、胞內(nèi)基因轉(zhuǎn)移、多樣性和遺傳基礎(chǔ)的理解,促進(jìn)作物改良、生產(chǎn)高價(jià)值的農(nóng)業(yè)或生物醫(yī)藥產(chǎn)品[5]。茶樹等植物葉綠體基因組具有非重組、單倍體、單親遺傳、進(jìn)化速率適中、序列和結(jié)構(gòu)高度保守等特征,已應(yīng)用于資源的鑒定、起源、進(jìn)化和分類等方面研究[5-6]。Li 等[6]比較分析了一些山茶屬植物葉綠體基因組,認(rèn)為序列重復(fù)與插入缺失是誘導(dǎo)葉綠體基因變異的主要?jiǎng)恿?。Peng等[7]研究發(fā)現(xiàn)栽培型茶樹葉綠體基因組的序列和結(jié)構(gòu)較野生型茶樹更保守,其變異為核苷酸多態(tài)性和序列插入。閆明慧等[8]通過葉綠體基因組測(cè)序分析,初步明確了‘信陽10 號(hào)’與其他茶樹資源的進(jìn)化關(guān)系。目前,仍有不少茶樹資源的葉綠體基因組未被破譯。本文論述了植物葉綠體基因組的起源、遺傳方式、基本特征,著重述評(píng)了已公布茶樹葉綠體基因組的測(cè)序技術(shù)、特征、基因類型、基因序列,概述了其應(yīng)用現(xiàn)狀,并探討了其未來應(yīng)用與發(fā)展方向,以期為相關(guān)研究提供參考。
20 億年前藍(lán)細(xì)菌(Cyanobacteria)被真核細(xì)胞捕獲,最終產(chǎn)生了葉綠體[9-10]。經(jīng)過一個(gè)世紀(jì)的爭(zhēng)論,20 世紀(jì)60 年代葉綠體DNA 的存在被證實(shí)[11-12]。1986 年,第一個(gè)完整葉綠體基因組在煙草(Nicotiana tabacum)中獲得,隨后蔬菜、水果、谷物、飲料、油類和糖類等植物的葉綠體基因組相繼被破譯[13]。20 世紀(jì)80 年代末,外源基因被整合至葉綠體基因組中穩(wěn)定表達(dá),在90 年代表現(xiàn)出典型的母系遺傳[12]。Kaundun 等[14]基于簡(jiǎn)單重復(fù)序列(single sequence repeat,SSR)標(biāo)記分析,表明茶樹葉綠體基因組為母系遺傳。
葉綠體是植物進(jìn)行光合作用的細(xì)胞器,其完整的結(jié)構(gòu)和功能是光合作用正常進(jìn)行的前提。脂肪酸、氨基酸、多種植物激素前體和次生代謝物的合成也發(fā)生在葉綠體中。葉綠體還參與植物對(duì)多種生物與非生物脅迫的響應(yīng),被認(rèn)為是植物響應(yīng)外界環(huán)境的感受器[15]。利用葉綠體的這些特征,在重要作物中研發(fā)具有特異農(nóng)藝性狀的產(chǎn)品一直難以實(shí)現(xiàn),但開發(fā)的酶等商業(yè)產(chǎn)品,已運(yùn)用于果汁加工、提高棉纖維吸水率、天然清潔劑等[16]。
多數(shù)植物的葉綠體DNA 為雙鏈環(huán)狀,傘藻(Acetabularia)等少數(shù)植物為線狀[17-19]。多數(shù)高等植物的葉綠體基因組為高度保守的四分體結(jié)構(gòu),包含一段大單拷貝區(qū)(large single copy,LSC)、小單拷貝區(qū)(small single copy,SSC)以及將這兩段分開的、序列相同的一對(duì)反向重復(fù)(inverted repeat,IR)區(qū)(IRa和IRb,長度為20-30 kb)[5]。植物葉綠體基因組為107-218 kb,其長度變化主要由IRs 的收縮和擴(kuò)張引起,含95-145 個(gè)編碼基因,按功能不同分為與光合作用、葉綠體基因表達(dá)、生物合成相關(guān)的基因,以及未知功能的開放閱讀框[12,20]。植物葉綠體基因組進(jìn)化速率適中(約為核基因組進(jìn)化速率的1/3)[21]、基因含量相對(duì)穩(wěn)定[22]、編碼區(qū)和非編碼區(qū)的進(jìn)化速率差異顯著[23-24]、重組率低[25-26]。葉綠體基因組序列揭示了綠色植物系統(tǒng)發(fā)育框架,以及葉綠體基因組轉(zhuǎn)移到其他真核生物的復(fù)雜歷史。葉綠體基因之間不一致的歷史信號(hào)表明整個(gè)質(zhì)體組可能存在可變的限制條件,進(jìn)一步理解和緩解這些限制條件可能為生物工程提供新機(jī)會(huì)[16]。
基因組測(cè)序技術(shù)不斷發(fā)展,一代(Sanger 測(cè)序)、二代(454 焦磷酸、Solexa 和SOLiD 測(cè)序)到三代(PacBio SMRT、PacBio Sequl 和納米孔測(cè)序)測(cè)序,費(fèi)用降低、精度顯著提高[27]?!F觀音’ ‘黔茶1 號(hào)’‘武夷水仙’ ‘白葉1 號(hào)’等葉綠體基因組測(cè)序運(yùn)用二代測(cè)序,‘Sangmok’ ‘大紅袍’ ‘白雞冠’ ‘鐵羅漢’等以二代測(cè)序?yàn)橹鳎o以三代測(cè)序。隨著測(cè)序技術(shù)的快速發(fā)展,破譯更多、更準(zhǔn)確的葉綠體基因組,將極大豐富茶樹葉綠體基因組數(shù)據(jù)庫。
目前,已在NCBI 上公布了33 份茶樹資源的葉綠體基因組,大小為153 044-158 916 bp,GC 含量為37.2%-37.34%,LSC、SSC、IRs 長度分別為64 665-87 213 bp、16 463-19 155 bp、24 627-27 900 bp。IRs 邊界隨著葉綠體基因組的進(jìn)化而有所擴(kuò)張或收縮,不同茶樹資源葉綠體基因組IRs 邊界區(qū)的連接位置有細(xì)微差異,具體為LSC/IRb 或IRa/LSC 邊界無差異,IRb/SSC 和SSC/IRa 邊界存在微小差異(圖1)。相較于野生茶樹,栽培型茶樹葉綠體基因組長度變化較小,基因數(shù)量和GC 含量較穩(wěn)定[7]。
圖1 五個(gè)茶樹品種葉綠體基因組LSC、SSC 和IR 邊界比較Fig.1 Comparison of the LSC,IR and SSC border regions among the chloroplast genomes of five tea cultivars
茶樹葉綠體基因組有97-141 個(gè)編碼基因,包括蛋白編碼基因60-100 個(gè)、tRNA 基因24-47 個(gè)、rRNA 基因8 個(gè)(少數(shù)4-5 個(gè))。多數(shù)編碼基因含1個(gè)內(nèi)含子,cloP、clpP 和ycf3 等一些特殊基因含2個(gè)內(nèi)含子[28-29]。Yang 等[4]分析發(fā)現(xiàn)‘黔茶1 號(hào)’IRs區(qū)的ycf2 序列最長,編碼2 298 個(gè)氨基酸。在‘龍井43’和‘武夷水仙’中發(fā)現(xiàn)rps12 是反式剪接基因[30]。基因選擇壓力分析表明,相較于其他茶組資源,‘西蓮1 號(hào)’中的6 個(gè)基因(accD、ndhC、petB、rpl16、rpoC1 和rpoC2)可能處于正選擇狀態(tài)[31](表1)。
表1 已公布茶樹葉綠體基因組Table 1 Published chloroplast genomes of tea plants
共顯性SSR 廣泛分布于葉綠體基因組中,是研究系統(tǒng)發(fā)育和群體遺傳學(xué)的重要分子標(biāo)記[43-44]。茶樹葉綠體的SSR 主要為單核苷重復(fù)序列(A/T 重復(fù)為主),有少量雙堿基及多堿基重復(fù)序列。在‘信陽10 號(hào)’葉綠體基因組中共檢測(cè)到74 個(gè)SSR,其中,有56 個(gè)單核苷重復(fù)(A/T 重復(fù))、二核苷酸重復(fù)4 個(gè)(AT/AT 重復(fù))[8]?!抨?0 號(hào)’等17 個(gè)茶樹品種的LSC、IRs 區(qū)核苷酸多樣性較低(平均為0.001 35),SSC 區(qū)相對(duì)較高(平均為0.058 08),區(qū)域邊界高度保守(圖1)[8]。成楊等[45]分析發(fā)現(xiàn)江華苦茶居群的32 份資源葉綠體DNA 變異率約為0.78%。密碼子使用偏差(codon usage bias,CUB)是基因組的一種獨(dú)特性質(zhì),是指編碼序列中同義密碼子的非隨機(jī)使用。Yengkhom 等[46]比較分析了阿薩姆茶(C.sinensis var.assamica)、中國茶(C.sinensis var.sinensis)和毛肋茶(C.pubicosta)的葉綠體蛋白質(zhì)編碼基因發(fā)現(xiàn),這些基因富含AT,其高表達(dá)與CUB 高度相關(guān)。Shi 等[40]研究發(fā)現(xiàn),山茶屬植物葉綠體基因ycf15 有完整的編碼框,經(jīng)轉(zhuǎn)錄產(chǎn)生但無任何功能,認(rèn)為假基因轉(zhuǎn)錄普遍,葉綠體DNA 轉(zhuǎn)錄后加工可能涉及非功能基因的復(fù)雜剪接。
茶樹葉綠體的功能基因分為光合作用相關(guān)基因、自我復(fù)制相關(guān)基因、生物合成相關(guān)基因和其他未知功能基因4 類(表2[8,29,33],圖2)。光合作用相關(guān)基因包括光合系統(tǒng)Ⅰ基因、光合系統(tǒng)Ⅱ基因、ATP合成酶基因、NADH 脫氫酶基因、二磷酸核酮糖羧化酶大亞基基因、細(xì)胞色素復(fù)合物基因等。自我復(fù)制相關(guān)基因包括tRNA 基因、rRNA 基因、RNA 聚合酶亞基基因、核糖體大亞基基因、核糖體小亞基基因等,多數(shù)為tRNA 基因。葉綠體中生物合成相關(guān)基因,主要包括成熟酶基因、囊膜蛋白乙酰輔酶A羧化酶亞基基因、c 型細(xì)胞色素合成基因、轉(zhuǎn)錄起始因子基因等。其他未知功能基因,即一些未知功能的開放閱讀框,約有7 個(gè)。‘信陽10’葉綠體基因組中有47 個(gè)光合系統(tǒng)基因、59 個(gè)遺傳系統(tǒng)基因、5 個(gè)生物合成相關(guān)基因、2 個(gè)未知功能基因[8]?!埦?3’葉綠體基因組中有45 個(gè)光合系統(tǒng)基因、76個(gè)遺傳系統(tǒng)基因、4 個(gè)生物合成相關(guān)基因、6 個(gè)未知功能基因[29]。‘黃金芽’葉片光系統(tǒng)電子傳遞途徑酶基因CsLFNR1.1 表達(dá)響應(yīng)光照強(qiáng)度變化,隨著光強(qiáng)增加表達(dá)量提高,可能與其葉片黃化相關(guān)[47]。圖3 顯示,‘安化’‘龍井43’‘云抗10 號(hào)’分別存在特有葉綠體基因。結(jié)果表明,不同茶樹資源的葉綠體基因類型存在一定的差異,具有一定的遺傳特性。
表2 茶樹葉綠體基因組基因類型Table 2 Gene types of the chloroplast genome in tea plants
圖2 栽培型茶樹完整葉綠體基因組的基因圖譜Fig.2 Gene map of the complete chloroplast genome of cultivated tea plants
中國栽培型茶、印度阿薩姆茶葉綠體基因組基因序列存在一定差異,栽培型茶與野生型茶樹之間的葉綠體基因組基因序列差異更大[8,48]。在栽培型茶樹中,最可變的基因是ycf1;一些中國栽培型茶的rps12 無內(nèi)含子;印度阿薩姆茶和‘云抗10 號(hào)’無orf42、ycf1 和ycf15(圖2)[7]。栽培型茶樹之間的psaA_ycf3、petL_petG 和ycf1_ndhF 一致性相對(duì)較低;栽培型茶樹和野生型茶樹之間的atpH_atpI、trnEUCC_trnT-GGU、psaA_ycf3、ycf15_trnLCAA、ycf1_ndhF 和ndhG_ndhI 一致性相對(duì)較低(圖2)[7]。中國栽培型茶樹之間的ycf1、trnV-GAC_rps12 序列不一致,如‘龍井43’的ycf1 有9 bp 插入序列(TCC TTC TTC/GAA GAA GGA);栽培型阿薩姆茶之間的rnN-GUU_ndhF、rrn5_trnR-ACG 序列不一致,如‘云抗10 號(hào)’的rnN-GUU_ndhF 有72 bp 插入序列[7]。野生型茶樹葉綠體基因的核苷酸多樣性水平約為栽培型茶樹的6.6 倍,但栽培型茶樹也有少數(shù)基因如rps16、rps4、trnL-UAA_intron 的核苷酸多樣性水平高于野生型茶樹,這些基因主要位于LSC,可用作鑒定資源的潛在分子標(biāo)記[7]??傮w上,栽培型茶樹的葉綠體基因組較野生型茶樹保守。
茶組植物是山茶屬內(nèi)分類學(xué)問題最多的類群,對(duì)其有效分類鑒定是進(jìn)行這些資源保護(hù)與利用的前提與基礎(chǔ)[49]。葉綠體基因組數(shù)據(jù)已應(yīng)用于茶樹系統(tǒng)發(fā)育研究,日本等產(chǎn)茶國家基于葉綠體基因組序列,研究山茶屬植物間親緣關(guān)系[50-51]。Zhu 等[52]構(gòu)建30 種山茶屬植物的葉綠體基因組系統(tǒng)發(fā)育樹發(fā)現(xiàn),安龍瘤果茶(C.anlungensis)與膜葉茶(C.leptophylla)、毛葉茶(C.ptilophylla)、毛肋茶(C.pubicosta)、大苞茶(C.grandibracteata)和茶(C.sinensis var.sinensis)親緣關(guān)系較近。Hao 等[53]利用此方法,分析發(fā)現(xiàn)大廠茶(C.tachangensis)與禿房茶(C.gymnogyna)、大理茶(C.taliensis)聚為一類,與茶(C.sinensis var.sinensis)、阿薩姆(C.sinensis var.assamica)、白毛茶(C.sinensis var.pubilimba)親緣關(guān)系遠(yuǎn)。此外,羅祥宗等[54]利用已公布的茶組植物葉綠體全基因組,篩選出16 對(duì)引物,共含25 個(gè)SNP 位點(diǎn),可用于茶樹品種的母系溯源和鑒別。
相較于核基因組的分子標(biāo)記,葉綠體DNA 條形碼更加簡(jiǎn)便、高效、準(zhǔn)確,葉綠體基因組相關(guān)的條形碼將顯著提高不同物種的鑒別率[55]。生命條形碼聯(lián)盟建議將葉綠體基因rbcL、matK、trnH-psbA 和核基因ITS 作為陸地植物通用的DNA 條形碼[56]。溫貝貝[57]發(fā)現(xiàn)matK 和rbcL 組合對(duì)山茶屬植物64 份資源的鑒別率最大。毛娟[58]對(duì)臨滄6 個(gè)居群的453個(gè)茶樹個(gè)體的rpl32-trnL 多態(tài)性分析,得到7 種葉綠體單倍型。聶傳朋等[59]初步篩選出matK、rcbL 可用作茶樹DNA 條形碼。
葉綠體基因組具有單親遺傳、不發(fā)生重組和非編碼區(qū)比編碼區(qū)進(jìn)化速率更快的特點(diǎn),而用于居群遺傳多樣性有效評(píng)價(jià)[60-61]。基于核SSR 和葉綠體DNA 序列分析結(jié)果一致,城步峒茶的遺傳變異主要存在于居群內(nèi)[62]。進(jìn)化速率較快的葉綠體基因組片段(rcbL、rpl16、trnH-psbA、trnL-F 和rpl32-trnL)在茶樹等植物遺傳多樣性分析中得到了不少應(yīng)用[63-66]。
中國型茶樹、中國型阿薩姆茶樹與印度型阿薩姆茶樹之間的譜系是否一致長期有爭(zhēng)議。比較葉綠體基因分析表明,印度型阿薩姆茶樹、中國型茶樹可能經(jīng)歷了不同馴化,起源不同[67]。Li 等[48]通過比較分析‘武夷水仙’(三倍體)、中國型茶樹、中國型阿薩姆茶、印度型阿薩姆茶等山茶屬植物的葉綠體基因組,支持3 個(gè)獨(dú)立馴化起源假說。吳艾琳[68]利用葉綠體rpl32-trnL 和trnG-S 分析了大理茶和厚軸茶(C.crassicolumna)27 個(gè)居群的遺傳多樣性和遺傳結(jié)構(gòu),認(rèn)為茶樹存在分別以大理茶、厚軸茶為起源中心的2 條傳播途徑。比較葉綠體基因組分析表明,‘鳳凰單叢’、福建烏龍茶品種與其他栽培型茶樹聚為一類,但這兩種烏龍茶資源相對(duì)獨(dú)立地交叉嵌入山茶屬植物中,‘鳳凰單叢’與其他烏龍茶品種之間親緣關(guān)系近,總體上烏龍茶資源的葉綠體基因組變異低、進(jìn)化保守[48]。
多數(shù)白化茶樹品種適制名優(yōu)綠茶,但其白化分子機(jī)制仍不明確[35]。茶樹白化現(xiàn)象與葉綠體的發(fā)育等密切相關(guān),一些葉綠體基因參與茶樹葉綠體發(fā)育,但這些基因的RNA 編輯位點(diǎn)仍未明確[69]。在細(xì)胞器中,不同家族的RNA 編輯因子組裝成RNA編輯復(fù)合體,特異識(shí)別編輯位點(diǎn)進(jìn)行編輯[70]。Zhao等[69]對(duì)‘華白1 號(hào)’‘白葉1 號(hào)’和‘龍井43’中的11 個(gè)RNA 編輯位點(diǎn)差異編輯效率測(cè)定,鑒定到10 個(gè)多細(xì)胞器RNA 編輯因子(multiple organellar RNA editing factor,MORF),其中‘華 白1 號(hào)’的CsMORF9.2 表達(dá)水平顯著下調(diào),可能參與了其新梢白化。此外,Zhang 等[71]對(duì)6 個(gè)茶樹品種葉綠體matK 和ndhD 的RNA 編輯分析發(fā)現(xiàn),matK-701 可能參與了葉色變化。
我國茶樹種質(zhì)資源豐富,很有必要對(duì)其復(fù)雜的起源、進(jìn)化、分類、特異性狀等進(jìn)行有效鑒評(píng),進(jìn)而對(duì)其高效保護(hù)與創(chuàng)新利用。相較于核基因組,結(jié)構(gòu)簡(jiǎn)單的、較小的、保守的葉綠體基因組更有助于這方面的研究。不少茶樹資源的起源、馴化機(jī)制還未明確。目前已破譯了少量茶組植物葉綠體基因組,揭示了部分葉綠體基因組的基因類型和序列特征,但其結(jié)構(gòu)變異機(jī)制仍未明確。葉綠體基因的RNA 編輯、水平基因轉(zhuǎn)移、核質(zhì)互作等方面仍需深入研究。
葉綠體基因組有約50%部分包含不保守的基因間隔區(qū)和調(diào)控序列,若缺乏這些序列,葉綠體基因組轉(zhuǎn)化難以成功。茶樹中還未明確通用的葉綠體DNA 條形碼,一些單個(gè)葉綠體基因片段已被開發(fā)成DND 條形碼,用于茶樹分化研究,但對(duì)整個(gè)葉綠體基因組在茶樹種內(nèi)分化特別是新品種分化的有效性知之甚少。
隨著高通量測(cè)序及生物技術(shù)的快速發(fā)展,茶組植物葉綠體基因組測(cè)序數(shù)量和精度的增加,對(duì)茶樹葉綠體基因組的深入研究,將會(huì)提高茶樹資源的分類鑒定效率,進(jìn)一步明確其起源、演化、馴化機(jī)制,開發(fā)高效通用DNA 條形碼,深入揭示白化茶樹白化分子機(jī)理,推動(dòng)葉綠體基因工程發(fā)展。