王 飛 趙文植 董章宏 馬路遙 李衛(wèi)英 李宗艷 辛培堯*
(1. 西南林業(yè)大學,國家林業(yè)和草原局西南風景園林工程技術(shù)研究中心,昆明 650224;2. 西南林業(yè)大學,西南地區(qū)生物多樣性保育國家林業(yè)和草原局重點實驗室,昆明 650224)
葉綠體在高等植物中廣泛存在,大部分物種有著母系遺傳特征的獨立基因組,即葉綠體基因組[1]。與核基因組相比,葉綠體基因組具有全長序列短、易測序獲得、基因結(jié)構(gòu)穩(wěn)定、保守性較高和進化速率適中等優(yōu)勢,在植物系統(tǒng)發(fā)育分析、物種分類鑒定及分子標記開發(fā)等研究中廣泛應(yīng)用[2-3]。例如對沙冬青屬(Ammopiptanthus)[4]、鵝耳櫪屬(Carpinus)[5]、苜蓿屬(Medicago)[6]、藜屬(Chenopodium)[7]等屬內(nèi)多個物種的葉綠體基因組特征進行比對分析,并構(gòu)建系統(tǒng)發(fā)育樹,明確了各物種間親緣關(guān)系和系統(tǒng)發(fā)育位置,為相關(guān)植物的分類鑒定及物種演化奠定了基礎(chǔ)。基于葉綠體基因組還可進行分子標記開發(fā),Alexander 等[8]利用焦磷酸測序(Pyrosequencing)技術(shù)在紅槲櫟(Quercus rubra)葉綠體基因組中發(fā)掘出多個高質(zhì)量SNP位點,可用于該種質(zhì)資源的開發(fā)及鑒定??傊~綠體基因組在植物系統(tǒng)發(fā)育、物種演化等研究中意義重大。
絲蘭屬(Yucca)隸屬于天門冬科(Asparagaceae)龍舌蘭亞科(Agavoideae),約有40多種,主要分布在中美至北美的部分地區(qū)。絲蘭屬植物形態(tài)優(yōu)美,葉、莖纖維強韌,在園林觀賞和纜繩制作中應(yīng)用廣泛[9-10]。近年來,對絲蘭屬植物的研究主要集中在組培快繁[11]、理化指標測定[12]、提取物在動物生產(chǎn)中的應(yīng)用[13]以及該屬植物與絲蘭蛾(Tegeticula alba)互利共生關(guān)系[14]等方面,而有關(guān)葉綠體基因組特征及系統(tǒng)發(fā)育的研究鮮見報道。相關(guān)報道僅見McKain 等[15]從絲蘭蛾傳粉時間和起源入手,完成了多種絲蘭屬及近緣屬植物的葉綠體基因組測序,通過構(gòu)建系統(tǒng)發(fā)育樹首次從分子角度明確了龍舌蘭亞科各屬間的親緣關(guān)系。然而,關(guān)于絲蘭屬葉綠體基因組的種間變異情況、進化機制及其各物種間的系統(tǒng)發(fā)育關(guān)系鮮見報道,相關(guān)研究亟待進一步探究。
隨著第二代測序技術(shù)的發(fā)展,多個物種的葉綠體基因組被測序并相繼公布。截至2022 年1月,NCBI 數(shù)據(jù)庫中已確定發(fā)表葉綠體全基因組的絲蘭屬植物有5種,分別是克雷塔羅絲蘭(Y.queretaroensis)、西地格絲蘭(Y. schidigera)、柔軟絲蘭(Y.filamentosa)、短葉絲蘭(Y.brevifolia)和Y.jaegeriana。為進一步進行系統(tǒng)發(fā)育研究,探索絲蘭屬內(nèi)種間關(guān)系,利用高通量測序技術(shù)獲得無刺龍舌蘭(Y. treculeana)葉綠體基因組序列,并與屬內(nèi)其他5個種的葉綠體基因組進行比較,通過重復序列檢測、邊界收縮與擴張分析、序列差異分析及核苷酸多態(tài)性分析等揭示絲蘭屬葉綠體基因組的結(jié)構(gòu)特征和種間序列變異情況?;谌~綠體基因組構(gòu)建系統(tǒng)發(fā)育樹闡明6個種間的親緣關(guān)系,以期為絲蘭屬種間變異情況、進化機制及系統(tǒng)發(fā)育等研究提供理論參考。
無刺龍舌蘭新鮮葉片采集于西雙版納熱帶植物園,放置于超低溫冰箱中-80 ℃保存,用于葉綠體基因組測序。在NCBI 數(shù)據(jù)庫中檢索絲蘭屬現(xiàn)已發(fā)表葉綠體全基因組的物種信息,下載各物種葉綠體基因組序列,記錄物種名及對應(yīng)的基因組登錄號。
選用無刺龍舌蘭新鮮嫩葉,利用改良CTAB法[16]提取基因組DNA。提取時在傳統(tǒng)CTAB 法的過程中,添加還原劑如β-巰基乙醇來避免褐化物質(zhì)對DNA 的影響,通過使用氯仿和水飽和酚反復抽提以去除蛋白質(zhì)、多糖和次生代謝物等雜質(zhì),進而加強DNA 的沉淀效果。提取的DNA 分別使用紫外分光光度計、瓊脂糖凝膠電泳對其濃度及純度進行檢測。
利用Illumina HiSeq 2500 平臺[17]進行高通量DNA 測序,測序數(shù)據(jù)通過GetOrganelle v1.7.5 軟件[18]組裝無刺龍舌蘭葉綠體基因組,以近緣種克雷塔羅斯蘭(GenBank 號:KX931468)葉綠體基因組序列為參考,利用Geneous v8.1.3[19]和ORF Finder(https://www.ncbi.nlm.nih.gov/orffinder/)對葉綠體基因組進行注釋和修正。使用在線工具OGDRAW(https://chlorobox. mpimp-golm.mpg.de/OGDraw.html)繪制葉綠體基因組結(jié)構(gòu)圖。無刺龍舌蘭葉綠體基因組序列數(shù)據(jù)已上傳NCBI 數(shù)據(jù)庫(GenBank號:OL912952)。
利 用 在 線 軟 件REPuter(https://bibiserv.cebitec.uni-bielefeld.de/reputer)預(yù)測絲蘭屬葉綠體基因組內(nèi)散在重復,包括正向重復(F)、反向重復(R)、回文重復(P)、互補重復(C),具體參數(shù)設(shè)置如下:最短重復單元設(shè)為30 bp,漢明距離(Hamming distance)為3。串聯(lián)重復通過在線工具Tandem Repeats Finder(https://tandem.bu.edu/trf/trf.html)進行分析。絲蘭屬植物葉綠體基因組的SSR位點采用MISA 軟件(https://webblast.ipk-gatersleben.de/misa/)進行檢測,相關(guān)參數(shù)參考馬孟莉等[20]進行設(shè)置,單核苷酸至六核苷酸單元重復數(shù)分別設(shè)為:≥10、≥5、≥4、≥3、≥3、≥3。
利 用 在 線 工 具IRscope(https://irscope.shinyapps.io/irapp/)[21]繪制絲蘭屬植物葉綠體基因組四分體的邊界視圖,根據(jù)4個邊界上的基因差異分析其收縮與擴張情況。以無刺龍舌蘭葉綠體基因組序列為參照,在mVISTA(https://genome.lbl.gov/vista/index.shtml)[22]分析程序下,用shuffle-LAGAN模式檢測絲蘭屬植物葉綠體基因組的序列變異情況。并基于葉綠體基因組序列(去掉1 個IR 區(qū))比對結(jié)果,利用DnaSP 6[23]分析絲蘭屬植物葉綠體基因組的核酸變異情況,根據(jù)核苷酸多樣性指數(shù)(π)篩選高變異性位點,滑動窗口長度設(shè)為600 bp,步長設(shè)為200 bp。
為了明確6 種絲蘭屬植物的系統(tǒng)發(fā)育位置及種間親緣關(guān)系,以龍舌蘭屬植物作為外類群,分別基于全葉綠體基因組和LSC+SSC 區(qū),利用RAxML v8.2.12軟件[24]下的HPC2 on XSEDE 模型構(gòu)建系統(tǒng)發(fā)育樹,自展值(Bootstrap value)設(shè)置為1 000。
6 種絲蘭屬植物葉綠體基因組均包括LSC、SSC、IRa 和IRb 4 個獨立的區(qū)域(見圖1)。絲蘭屬植物葉綠體基因組大小為156 185 bp(Y. schidigera)~158 020 bp(Y.jaegeriana),相差1 835 bp。除sghg 葉絲蘭的總GC 含量為37.9%之外,其余物種總GC 含量均為37.8%。從編碼基因數(shù)目來看,無刺龍舌蘭、柔軟絲蘭、克雷塔羅絲蘭、短葉絲蘭和Y.jaegeriana的基因總數(shù)相同,包括蛋白編碼基因(85)、tRNA(38)和rRNA(8)的數(shù)目完全一致(見表1)。與前5種植物相比,西地格絲蘭的葉綠體基因組缺失了1個蛋白編碼基因rpl32;6種絲蘭屬植物葉綠體基因組的tRNA 和rRNA 數(shù)目和類型均一致。絲蘭屬植物葉綠體基因組編碼基因主要由自我復制相關(guān)基因、光合作用相關(guān)基因、其他基因和ycf 類基因組成。統(tǒng)計發(fā)現(xiàn),絲蘭屬植物葉綠體編碼基因中有19 個基因存在雙拷貝,包括所有的rRNA,tRNA 基因trnN-GUU、trnR-ACG、trnA-UGC、trnI-GAU、trnV-GAC、trnL-CAA、trnI-CAU、trnH-GUG和 蛋 白 編 碼 基 因rps12、rps19、rps7、rpl2、rpl23、ndhB、ycf2。另外,在絲蘭屬植物葉綠體基因組中還存在trnK-UUU、trnG-GCC、trnL-UAA、trnV-UAC、trnA-UGC、trnI-GAU、rps16、rpl16、rpl2、rpoC1、ndhB、ndhA、atpF、petB、petD15 種含有2 個外顯子的編碼基因以及rps12、clpP、ycf33種含有3個外顯子的編碼基因(見表2)。
圖1 絲蘭屬葉綠體基因組圖譜Fig.1 Chloroplast genome map of Yucca
表1 6種絲蘭屬植物葉綠體基因組基本結(jié)構(gòu)特征Table 1 Basic structural characteristics of the chloroplast genome of six Yucca species
表2 6種絲蘭屬植物葉綠體基因組基因類型Table 2 Chloroplast genome gene types of six Yucca species
在6 種絲蘭屬植物葉綠體基因組序列中分別檢測到不等數(shù)量的散在重復和串聯(lián)重復,其中各物種的散在重復總數(shù)皆為49 個,除了短葉絲蘭無互補重復之外,其余5個絲蘭屬植物葉綠體基因組序列中均存在正向、回文、互補和反向4 種重復類型,且同類型重復數(shù)在各物種之間無明顯差異;而利用Tandem Repeats Finder 預(yù)測到的串聯(lián)重復在6 種絲蘭屬植物中均存在,數(shù)目為23~29 個(見圖2)。圖3顯示的是檢測到的SSR類型及序列信息,可以看出在絲蘭屬植物中SSR 類型主要以單核苷酸為主,其次是雙核苷酸和四核苷酸(見圖3A),統(tǒng)計絲蘭屬植物各核苷酸重復類型,發(fā)現(xiàn)單核苷酸的重復單元基本都是A/T,雙核苷酸的重復單元主要是AT,而四核苷酸的重復單元則是以AAAT/ATTT為主(見圖3B)。
圖2 重復序列類型及數(shù)目Fig.2 Type and number of repeats
圖3 不同SSR單元及核苷酸重復序列Fig.3 Different SSR units and the nucleotide repeats
葉綠體基因組進化過程中,邊界會發(fā)生收縮與擴張現(xiàn)象。6種絲蘭屬植物葉綠體基因組均為環(huán)形四分體結(jié)構(gòu),存在LSC-IRb、IRb-SSC、SSC-IRa 和IRa-LSC 4個邊界??赏ㄟ^比較邊界區(qū)域基因的類型和分布狀況來推斷物種在進化過程中邊界的收縮與擴張現(xiàn)象。絲蘭屬6 種植物葉綠體基因組邊界情況如圖4 所示,在LSC-IRb 邊界區(qū)域的基因為rpl22和rps19,除了Y. jaegeriana的邊界位于rpl22基因內(nèi),其他物種的邊界均是在這2個基因的間隔區(qū);絲蘭屬植物的IRb-SSC邊界均位于ndhF基因左側(cè),但Y.jaegeriana邊界距ndhF基因間隔42 bp,相差較大;6種絲蘭屬植物的SSC-IRa邊界均位于ycf1基因編碼區(qū),但相比其他物種Y.jaegeriana的ycf1基因向IRa 區(qū)多擴張了30 bp;Y.jaegeriana的IRa-LSC邊界在rps19基因編碼區(qū)內(nèi),而其他絲蘭屬植物的IRa-LSC 邊界則位于rps19基因和psbA基因的間隔區(qū)。由此可以看出,絲蘭屬植物葉綠體基因組邊界在基因類型、收縮及擴張的序列長度等方面較為保守,但仍存在多樣性。Y. jaegeriana的4 個邊界相比其他物種均存在較大差異,可推測該物種的進化速率較快或是較早的分化物種。
圖4 六種絲蘭屬植物葉綠體基因組四分體邊界比較LSC/IRb、IRb/SSC、SSC/IRa和IRa/LSC 4個邊界分別由JLB、JSB、JSA和JLA對應(yīng)標注Fig.4 Comparisons of four regions boundary of chloroplast genomes in six Yucca species The four boundaries of LSC/IRb,IRb/SSC,SSC/IRa and IRa/LSC are marked by JLB,JSB,JSA and JLA,respectively
以無刺龍舌蘭葉綠體基因組序列為參照,通過在線軟件mVISTA 對6 種絲蘭屬葉綠體基因組全長序列差異進行可視化分析,結(jié)果見圖5。6 種絲蘭屬植物葉綠體基因組的編碼區(qū)(exon)均具有較高的保守性,而非基因編碼區(qū)(CNS)差異較明顯,序列變異程度較高,這主要體現(xiàn)在LSC 區(qū)和SSC 區(qū),而IRa 區(qū)基本不存在變異。西地格絲蘭在116 kb 處,即SSC 區(qū)的rpl32、truL-UAG、ccsA、ndhD上及基因間隔區(qū)存在較大差異,且在113 kb 處的ndhF基因上也存在較大的序列變異,這可能主要與該物種的基因缺失有關(guān)。除此之外,各物種的序列變異位點排列基本一致。變異程度較高的區(qū)域基本都位于2 個相鄰基因的間隔區(qū)內(nèi),如psbKtrnS-GCU、rps4-trnF-GAA、rpl32-ccsA-ndhD等,這些高變異位點為絲蘭屬物種鑒定提供了新的分子標記資源。
圖5 六種絲蘭屬植物葉綠體基因組全序列Fig.5 Full sequences alignment of chloroplast genomes of six Yucca species
結(jié)合上述序列差異分析,進一步對6種絲蘭屬植物葉綠體基因組的高變異區(qū)進行探究,發(fā)現(xiàn)絲蘭屬植物葉綠體基因組中π≥0.008 的核酸高變異區(qū)域有3 個,其中2 個位于LSC 區(qū),1 個位于SSC區(qū),而IR 區(qū)序列核酸變異程度均處于較低水平。結(jié)合vMISTA 圖譜發(fā)現(xiàn)兩者分析結(jié)果基本一致,進而根據(jù)核酸多態(tài)性π值確定了變異程度較高的3個基因間隔區(qū)位置,分別是psbK-psbl-trnS-GCU(7 861~9 771 bp)、rpl20-rps12(70 855~72 467 bp)和ccsA-ndhD(117 525~119 331 bp)(見圖6),這有助于后續(xù)絲蘭屬植物的分子標記開發(fā)及分類鑒定。
圖6 六種絲蘭屬植物葉綠體基因組核酸多態(tài)性Fig.6 Nucleic acid polymorphisms in the chloroplast genome of six Yucca species
通過在線軟件MAFFT 7 比對6 種絲蘭屬植物葉綠體基因組序列,以龍舌蘭屬植物龍舌蘭(Agave americana)和劍麻(Agave sisalana)作為外類群,用最大似然法(ML)構(gòu)建系統(tǒng)發(fā)育樹。結(jié)果表明,6 種絲蘭屬植物以100%的檢驗值劃分為兩大組:Group Ⅰ和Group Ⅱ(見圖7)。無刺龍舌蘭、克雷塔羅絲蘭、西地格絲蘭和柔軟絲蘭為Group Ⅰ,其中無刺龍舌蘭和克雷塔羅絲蘭互為姊妹關(guān)系,其親緣關(guān)系最近,檢驗值達86%;Group Ⅱ僅有短葉絲蘭和Y.jaegeriana。而Group Ⅰ又可進一步將柔軟絲蘭單獨劃分為1 個小支,與其他3 個絲蘭屬物種親緣關(guān)系較遠。
圖7 基于全葉綠體基因組構(gòu)建的絲蘭屬植物系統(tǒng)發(fā)育樹Fig.7 Phylogenetic tree of Yucca constructed based on the whole chloroplast genome
植物葉綠體基因組因其結(jié)構(gòu)穩(wěn)定、進化速率適中、易測序獲得等獨特優(yōu)勢對植物生長發(fā)育、分類鑒定及系統(tǒng)進化等方面具有重大研究意義[25]。通過分析6 種絲蘭屬植物葉綠體基因組的結(jié)構(gòu)特征,發(fā)現(xiàn)各物種間基因結(jié)構(gòu)和序列大小相對保守,不存在大程度的變異,6種絲蘭屬植物葉綠體基因組均為典型的四分體結(jié)構(gòu)(1 個LSC 區(qū)、1 個SSC 區(qū)和2 個IR 區(qū)),且序列差異多集中于LSC 區(qū)和SSC區(qū)。各物種所注釋到的編碼基因種類和數(shù)目也基本一致,尤其是tRNA 和rRNA 完全一致,這符合多數(shù)近緣種間植物葉綠體基因組具有遺傳保守性及穩(wěn)定性的基本特征[26]。一般來講,陸生植物葉綠體基因組通常具有較高的保守性。因此,若某個物種葉綠體基因組序列中出現(xiàn)大片段連續(xù)堿基的插入或缺失而導致某一基因的獲得或丟失,這可能意味著該物種在某一時期發(fā)生過進化事件[27]。在6種絲蘭屬植物中,西地格絲蘭葉綠體基因組的SSC區(qū)大小僅為16 635 bp,相比其他5種絲蘭屬植物存在較大差異,最大差異為1 767 bp。通過序列比對發(fā)現(xiàn),造成SSC 區(qū)大小差異的原因主要是寬葉絲蘭葉綠體基因組的SSC 區(qū)出現(xiàn)了2 個大片段的堿基序列缺失(缺失堿基序列大小分別為1 534、116 bp),進而導致rpl32基因的丟失和ndhF基因的注釋不完全。這一現(xiàn)象的出現(xiàn)可能與第四紀晚期該物種的歷史擴張有關(guān)。De La 等[28]在西地格絲蘭的遺傳數(shù)據(jù)分析和環(huán)境生態(tài)位模型(ENMs)研究中就提出該物種具有較高的遺傳多樣性,且遺傳變異隨緯度的增加而顯著減少,其研究結(jié)果支持西地格絲蘭在第四紀晚期向加利福尼亞西北部擴張。植物在整個歷史擴張過程中長期受自然選擇壓力的影響,進而可導致基因上的差異(插入、缺失及突變)。Ueda 等[29]在研究楊樹(Populus)葉綠體基因組時就發(fā)現(xiàn)了rpl32基因丟失事件,但隨后該丟失的基因又在核基因組中被鑒定出來,此現(xiàn)象被稱為基因轉(zhuǎn)移,是真核細胞進化的重要過程。因此,rpl32和ndhF基因有望作為一種標記資源用于研究西地格絲蘭乃至絲蘭屬的進化與演化。
葉綠體基因組遺傳穩(wěn)定,進化路線獨立,由此開發(fā)出來的SSR 標記在植物遺傳多樣性分析、物種分類鑒定等研究中具有明顯的優(yōu)勢[30-31]。在6種絲蘭屬植物中檢測到數(shù)目最多的SSR 類型是以A/T堿基為主的單核苷酸重復,其次是雙核苷酸和四核苷酸,且其序列的堿基組成也均是A 和T,說明絲蘭屬植物葉綠體SSR 偏好使用A 和T 堿基。重復序列在植物葉綠體基因組中普遍存在,可導致葉綠體基因組某片段重復、缺失及重排,進而影響物種的進化以及種內(nèi)基因的遺傳變異[32]。在6種絲蘭屬植物中發(fā)現(xiàn)的散在重復總數(shù)一致,且重復序列類型主要為正向重復和回文重復,但各物種間包括串聯(lián)重復在內(nèi)的各類型重復數(shù)目卻不一致,這說明6種絲蘭屬植物的突變頻率存在一定差異。這一現(xiàn)象在梧桐屬(Firmiana)葉綠體基因組中同樣存在,從2種梧桐屬植物葉綠體基因組中鑒定出來的重復序列總數(shù)均為49 個,且正向重復和回文重復占85%以上,但各類型重復序列的數(shù)量卻不盡相同[33]。
IR 區(qū)在維持葉綠體基因組穩(wěn)定中發(fā)揮著重要的作用。相關(guān)研究表明,植物在進化過程中IR 區(qū)常發(fā)生收縮或向單拷貝區(qū)擴張的現(xiàn)象,進而導致葉綠體基因組結(jié)構(gòu)變異[34]。6 種絲蘭屬植物葉綠體基因組邊界(LSC/IRb、IRb/SSC、SSC/IRa 和IRa/LSC)幾乎不存在變異,只有Y.jaegeriana的邊界相比其他物種向后擴張了約30 bp,表明其在進化過程中基因組結(jié)構(gòu)發(fā)生了變異,推測原因可能是該物種進化速率較快或是較早分化。通過比對全葉綠體基因組發(fā)現(xiàn),6種絲蘭屬植物基因編碼區(qū)均具有較高的保守性,而非基因編碼區(qū)差異較明顯,序列變異程度較高,這主要表現(xiàn)在LSC 區(qū)和SSC 區(qū)。蔣禮玲等[7]在藜屬植物葉綠體基因組核苷酸變異研究中也證明了這一點,說明對大多數(shù)被子植物而言,LSC 和SSC 區(qū)相比IRs 區(qū)具有更高的變異性,而豐富的變異區(qū)更有助于物種的系統(tǒng)發(fā)育研究。
通過分析葉綠體基因組序列多樣性,進而檢測基因變異情況,可初步確定各物種間的高度變異區(qū)或篩選出核苷酸多樣性較高的基因,用于開發(fā)新的DNA 條形碼,這對物種鑒定分類意義重大[2,35]。Cui 等[36]對比分析了6 種鼠尾草屬(Salvia)植物葉綠體基因組序列,發(fā)現(xiàn)了6 個基因和4個基因間隔區(qū)可能是鼠尾草屬植物的特異條形碼。本研究在6 種絲蘭屬植物葉綠體基因組中根據(jù)核酸多態(tài)性π≥0.008 確定的3 個高變區(qū)psbK-psbl-trnS-GCU(7 861~9 771 bp)、rpl20-rps12(70 855~72 467 bp)和ccsA-ndhD(117 525~119 331 bp)可作為候選分子標記用于開發(fā)特異DNA 條形碼,以幫助絲蘭屬植物的分類鑒定?,F(xiàn)已有研究發(fā)現(xiàn),在絲蘭屬植物葉綠體基因組中發(fā)現(xiàn)的非基因編碼片段psbl-trnS和ccsA-ndhD因較高的序列變異性現(xiàn)已分別應(yīng)用于石豆蘭屬(Bulbophyllum)[37]和蝴蝶蘭屬(Phalaenopsis)[38]的物種鑒別及DNA 條形碼設(shè)計。
同屬植物葉綠體基因組雖表現(xiàn)出高度的保守性,但各物種間仍存在一定程度的變異,這些變異位點非常適用于研究近緣同屬植物的系統(tǒng)發(fā)育關(guān)系[7]。通過比對分析6 種絲蘭屬植物葉綠體基因組的序列變異程度,發(fā)現(xiàn)其高變異位點主要集中在葉綠體基因組的LSC 區(qū)和SSC 區(qū)。分別將這2個區(qū)域序列單獨提取出來構(gòu)建的系統(tǒng)發(fā)育樹圖各分支結(jié)果與利用全基因組序列構(gòu)建的發(fā)育樹圖分類完全一致,且均具有較高的支持率。因此,在絲蘭屬植物中完全可以利用LSC+SSC 區(qū)豐富的核苷酸變異位點對該屬植物進行精確分類。