王 宇, 周俊良, 唐冬梅, 仲偉敏, 馬玉華, 張 敏
(貴州省農(nóng)業(yè)科學(xué)院果樹科學(xué)研究所, 貴陽 550006)
獼猴桃為獼猴桃科獼猴桃屬多年生落葉藤本植物[1],是20世紀(jì)野生果樹人工馴化栽培最有成就的四大果種之一[2]。中國是獼猴桃的原產(chǎn)地,近年來科技工作者在獼猴桃資源調(diào)查、搜集、整理、鑒評與利用等方面進(jìn)行了廣泛的研究[3]。獼猴桃屬植物在不同種間存在明顯的雜交現(xiàn)象,此外,其復(fù)雜的染色體倍性,也使得獼猴桃屬植物在分類界定方面變得模糊[4]。
葉綠體,植物與部分藻類特有的細(xì)胞器,與光合作用直接相關(guān)[5]。不同于核基因組所儲存的龐大的遺傳信息,葉綠體基因組基因含量相對較低,核苷酸較少發(fā)生替換,此外,基于其單親遺傳的特性,使其在研究系統(tǒng)發(fā)育方面越發(fā)的重要[6-8]。獼猴桃屬為嚴(yán)格的葉綠體基因組父系遺傳[9-11],這是一種罕見的遺傳方式,而這種特殊的遺傳方式可以在一定程度提高獼猴桃屬植物間親緣關(guān)系的復(fù)雜性[12]。
闊葉獼猴桃是獼猴桃屬植物中鮮果維生素C含量最高的種,具有很高的開發(fā)利用和研究價值[13]。張慧等[4]運用擴(kuò)增片段長度多態(tài)性技術(shù)對獼猴桃屬33份種質(zhì)資源的遺傳多樣性進(jìn)行分析,研究發(fā)現(xiàn)闊葉獼猴桃與其他品種間遺傳距離較大,親緣關(guān)系較遠(yuǎn)。截止目前,采用高通量測序手段對獼猴桃種質(zhì)資源進(jìn)行遺傳多樣性分析的研究較少。本研究通過高通量測序技術(shù)注釋出闊葉獼猴桃的完整葉綠體基因組,對了解獼猴桃屬主要譜系之間的系統(tǒng)發(fā)育關(guān)系和獼猴桃品種遺傳改良具有一定的意義。
從NCBI中數(shù)據(jù)庫下載闊葉獼猴桃全基因組測序原始數(shù)據(jù)(NCBI登錄號:SRP073634,Reticulate evolution in the genus Actinidia Raw sequence reads),利用SOAPnuke軟件過濾掉低質(zhì)量序列和接頭序列,得到高質(zhì)量有效數(shù)據(jù)。使用SPAdes軟件(參數(shù)設(shè)置:-k 127)對上述高質(zhì)量序列進(jìn)行拼接,連接好的序列使用 Gapcloser(version:v 1.12)進(jìn)行補(bǔ)洞。
利用DOGMA軟件對編碼基因進(jìn)行分析及注釋,相關(guān)參數(shù)設(shè)置如下:Genome type選擇選Chloroplast;Genetic Code for Blastx參數(shù),選擇11 Plant plastid;Percent identity cutoff for protein coding genes參數(shù)為60,Percent identity cutoff for RNAs參數(shù)為80,E-value參數(shù)為1 e-5,Number of blasthits to return參數(shù)為5,其它參數(shù)用默認(rèn)值。利用OGDRAW軟件對基因注釋結(jié)果進(jìn)行作圖分析。
利用MISA軟件搜索葉綠體全基因組SSR位點。
從GenBank 中下載7個獼猴桃屬和1個外類群藤山柳屬的葉綠體基因組序列與闊葉獼猴桃進(jìn)行聚類分析,品種信息如下:毛花獼猴桃(Actinidiaeriantha,NCBI登錄號:KY-100978)、軟棗獼猴桃(Actinidiaarguta,NCBI登錄號:KY-100980)、狗棗獼猴桃(Actinidiakolomikta,NCBI登錄號:KY-100979)、中華獼猴桃(2 X)(Actinidiachinensis,NCBI登錄號:KP-297242)、美味獼猴桃(4 X)(Actinidia deliciosa,NCBI登錄號:KP-297244)、葛棗獼猴桃(Actinidiapolygama,NCBI登錄號:KX-345297)、四萼獼猴桃(Actinidiatetramera,NCBI登錄號:KX-345298)、綿毛藤山柳(Clematoclethrascandens,NCBI登錄號:KX-345299)。將上述序列與闊葉獼猴桃葉綠體基因組序列進(jìn)行ClustalW比對,用MEGA 5.0構(gòu)建進(jìn)化樹進(jìn)行作圖分析。
利用 CodonW 1.4.2軟件,分析葉綠體基因密碼子的堿基組成規(guī)律。GC 1、GC 2、GC 3分別表示密碼子第一、二、三位的G、C含量,GC 1和GC 2的均值用GC 12表示。中性繪圖參考Zhang等[14]的方法。ENC繪圖分別以ENC值與GC 3 s作為縱坐標(biāo)與橫坐標(biāo)進(jìn)行作圖分析。
以同義密碼子相對使用度(relative synonymous codon usage, RSCU)作為密碼子使用偏性衡量指標(biāo),參考Bellgard等[15]的方法進(jìn)行最優(yōu)密碼子分析。以葉綠體基因組候選基因中A 3/(A 3+T 3)統(tǒng)計數(shù)據(jù)為縱坐標(biāo),以G 3/(G 3+C 3)統(tǒng)計數(shù)為橫坐標(biāo),采用PR2(parity rule 2)繪圖進(jìn)行密碼子偏好性分析。
闊葉獼猴桃的完整葉綠體基因組長度為155 964 bp,平均 GC 含量37.30%,包括反向重復(fù)序列IRA和IRB(各23 452 bp)1對,小單拷貝區(qū)域(SSC,20 496 bp)一個和大單拷貝區(qū)域(LSC, 88 564 bp)一個(圖1),IR區(qū)GC含量(43.28%)明顯高于SSC區(qū)(31.11%)和LSC區(qū)(35.56%)。
圖1 葉綠體基因組圖譜(闊葉獼猴桃)
分析注釋結(jié)果可知,闊葉獼猴桃葉綠體基因組共有117種功能基因,分別是83種蛋白質(zhì)編碼基因,4種核糖體rRNA基因和30種tRNA基因,詳見表1。
闊葉獼猴桃葉綠體基因組共發(fā)現(xiàn)36個SSR位點(≥5 bp)。 其中有34個單核苷酸重復(fù)單元,約占94.44%,1個二核苷酸重復(fù)單元和1個三核苷酸重復(fù)單元(表2)。對所有SSR位點進(jìn)行分析,不同類型SSR重復(fù)單元數(shù)量差異較大。在單核苷酸重復(fù)單元中, 以AT為主,占88.89%;1個二核苷酸重復(fù)單元為AT/AT;1個三核苷酸重復(fù)為AAT/ATT。A/T、AT/AT和AAT/ATT重復(fù)單元占所有SSR位點的94.44%。
表1 葉綠體基因組基因列表(闊葉獼猴桃)
類別家族基因光合作用相關(guān)基因光系統(tǒng)ⅠpsaA, psaB, psaC, psaI, psaJ光系統(tǒng)ⅡpsbAb, psbB, psbC, psbD, psbE, psbF, psbH, psbI,psbJ, psbK, psbL, psbM, psbN, psbT, psbZ細(xì)胞色素b/f復(fù)合體petA, petB, petD, petG, petL, petNATP合酶atpA, atpB, atpE, atpFb, atpH, atpINADH脫氫酶ndhA, ndhBa,b, ndhC, ndhD, ndhE, ndhF,ndhG, ndhH, ndhI, ndhJ, ndhK二磷酸核酮糖羧化酶大亞基rbcL自身翻譯相關(guān)基因RNA聚合酶rpoA, rpoB, rpoC1b, rpoC2核糖體蛋白(SSU)rps2, rps3, rps4, rps7a, rps8, rps11, rps12a,rps14, rps15, rps16, rps18, rps19核糖體蛋白(LSU)rpl2b, rpl14, rpl16, rpl20, rpl22, rpl23, rpl32,rpl33, rpl36轉(zhuǎn)運RNAstrnA-UGCa,b,trnC-GCA,trnD-GUC,trnE-UUC,trnF-GAA,trnfM-CAUb,trnG-UCC,trnH-GUGa,trnI-GAUa,b,trnI-CAUa,trnK-UUU,trnL-CAAa,trnL-UAAb,trnL-UAG,trnM-CAU,trnN-GUUa,trnP-GGG,trnP-UGG,trnQ-UUG,trnR-ACGa,trnR-UCU,trnS-GGA,trnS-GCU,trnS-UGA,trnT-GGU,trnT-UGU,trnV-GACa,trnV-UACb,trnW-CCA,trnY-GUA核糖體RNAsrrn4.5a,rrn5a,rrn16a,rrn23a轉(zhuǎn)錄起始因子基因7infA生物合成相關(guān)基因成熟酶基因matKC型細(xì)胞色素合成基因ccsA乙酰輔酶A羧化酶亞基accD囊膜蛋白基因cemA未知功能基因Hypothetical chloroplast reading frames ycfycf1, ycf2a, ycf3c, ycf4, ycf15a, ycf68ORFsorf42, orf56b, orf188
注:上標(biāo)a指在IRs有2個重復(fù)基因;上標(biāo)b指包含1個內(nèi)含子;上標(biāo)c指包含2個內(nèi)含子。
表2 葉綠體基因組(闊葉獼猴桃)SSR 序列
重復(fù)類型重復(fù)序列重復(fù)次數(shù)567891011121314total單核苷酸重復(fù)A/T-----151042132C/G-----22二核苷酸重復(fù)AT/AT-11三核苷酸重復(fù)AAT/ATT11
聚類分析結(jié)果顯示,主要聚類兩大支,其中闊葉獼猴桃與其他獼猴桃科遺傳距離較遠(yuǎn),被單獨聚為一支,其余8種聚為一支。軟棗獼猴桃、毛花獼猴桃及狗棗獼猴桃聚為一支,其中軟棗獼猴桃與毛花獼猴桃遺傳距離更近。中華獼猴桃、美味獼猴桃、葛棗獼猴桃、四萼獼猴桃及綿毛藤山柳聚為一支,中華獼猴桃與美味獼猴桃遺傳距離更近(圖2)。
圖2 基于鄰接法構(gòu)建的系統(tǒng)發(fā)育樹
表3 葉綠體基因組(闊葉獼猴桃)密碼子GC含量分析
基因GC含量GCGC3GC12ENCCAIrbcL0.4380.2680.51747.560.264psbD0.4320.2990.49346.130.247psaA0.4230.2720.49247.840.197atpB0.4190.2560.49745.470.205rps140.4170.3120.46641.970.14psaB0.4110.2750.47348.560.185rps70.4000.2080.49147.850.175petA0.3980.2870.45248.430.190ndhJ0.3970.2820.44954.840.146atpA0.3940.2150.48045.090.212rpoB0.3910.2660.45149.080.148rpl140.3910.2270.47043.980.172ndhK0.3880.2590.44946.900.162atpE0.3880.2560.45252.230.152rps20.3860.2570.44448.400.167ycf40.3840.2510.44648.770.150atpI0.3810.2520.44143.750.176ndhK0.3760.2630.42849.320.162ndhH0.3760.2150.44850.150.159ndhB0.3720.2740.41746.250.163rps80.3630.2500.41743.800.116ndhI0.3590.2440.41345.880.195ndhC0.3580.1980.43052.760.214rpl220.3550.1990.42646.440.171rps30.3500.2210.41244.190.181matK0.3330.2680.36447.430.155ndhG0.3330.1950.39844.160.129ndhE0.3230.2060.37940.830.152ccsA0.3200.1900.38143.440.146cemA0.3190.2630.34553.100.188
選取編碼序列長度超過300 bp的以ATG為起始密碼子,以TGA/TAA/TAG為終止密碼子的未重復(fù)的30條候選基因用于分析。結(jié)果表明:闊葉獼猴桃30條候選基因密碼子3個堿基的平均GC含量為37.92%,第1、2位平均GC含量為(44.07%),第3位平均GC含量為24.76%,密碼子不同位置的GC含量并非平均分布,且差別較大(表3)。這表明闊葉獼猴桃葉綠體基因組的密碼子使用頻率以A/T結(jié)尾較多,且與葉綠體基因組高AT含量的特征相一致。各參數(shù)的相關(guān)性分析表明,GC含量與GC 12、GC 3顯著相關(guān)(表4)。
表4 葉綠體基因組(闊葉獼猴桃)各參數(shù)的相關(guān)性分析
ItemGC3GC12GCallCNENCGC31.000GC120.3071.000GCall0.582**0.952**1.000CN0.3020.2790.3351.000ENC0.2190.0360.1150.1301.000
注:“**”在 0.01 水平上顯著相關(guān)。
如圖3所示,中性繪圖分析表明闊葉獼猴桃密碼子GC 12取值范圍是34.5%~51.7%,GC 3 s的取值范圍是19%~31.2%,兩者的相關(guān)系數(shù)為0.307,回歸系數(shù)為0.345 3,結(jié)果表明,兩者并無顯著的相關(guān)性,從而說明自然選擇影響闊葉獼猴桃候選基因密碼子的使用模式。
ENC值在一定程度上反映基因表達(dá)水平的高低及密碼子偏好性的強(qiáng)弱[16,17]。闊葉獼猴桃葉綠體基因有效密碼子ENC在40.83~54.84之間,平均值ENC為47.15,且大部分在45以上(73.33%),說明闊葉獼猴桃葉綠體密碼子偏好性較弱。ENC繪圖(圖4)顯示,在標(biāo)準(zhǔn)曲線的周圍均分布著大部分候選基因,僅少部分遠(yuǎn)離標(biāo)準(zhǔn)曲線,說明闊葉獼猴桃候選基因密碼子使用模式受到突變和自然選擇的雙重影響。
表5 葉綠體基因組(闊葉獼猴桃)同義密碼子使用度分析
氨基酸密碼子數(shù)量RSCU*PheUUU3401.31UUC1800.69LeuUUA3592.15UUG1911.15CUU2071.24CUC640.38CUA1220.73CUG570.34TyrUAU2931.66UAC590.34TERUAA181.74UAG40.39HisCAU1931.58CAC520.42GlnCAA2691.49CAG910.51IleAUU4341.56AUC1580.57AUA2440.88MetAUG2421.00ValGUU2181.54GUC470.33GUA2251.59GUG750.53AsnAAU3011.50AAC1000.50LysAAA3321.53AAG1020.47AspGAU2981.59GAC780.41GluGAA3761.54GAG1120.46氨基酸密碼子數(shù)量RSCU*SerUCU2031.79UCC1060.94UCA1271.12UCG630.56ProCCU1671.67CCC640.64CCA1161.16CCG540.54CysUGU891.55UGC260.45TERUGA90.87TrpUGG1851.00ArgCGU1341.51CGC340.38CGA1361.53CGG380.43ThrACU2221.77ACC830.66ACA1501.20ACG470.37AlaGCU2981.82GCC940.57GCA1951.19GCG680.42SerAGU1341.18AGC460.41ArgAGA1441.62AGG470.53GlyGGU2391.33GGC910.51GGA2791.56GGG1080.60
注:“*”為同義密碼子相對使用度;下劃線表示每種氨基酸的最優(yōu)密碼子。
對30個候選基因的同義密碼子相對使用度進(jìn)行分析,篩選出最優(yōu)密碼子(表5),RSCU值大于1.00的密碼子有 30個,其中,29個以A或U 堿基結(jié)尾,以G或C堿基結(jié)尾的密碼子RSCU值大部分都小于1.00,這進(jìn)一步說明闊葉獼猴桃葉綠體基因偏好于以A或T堿基結(jié)尾的密碼子。
PR 2-plot分析結(jié)果顯示,大部分基因分布于圖的下半部或左半部,說明4種堿基分布不均衡,且密碼子第3位上堿基的使用頻率T>A,C>G。表明闊葉獼猴桃葉綠體基因組密碼子第3位T、C使用頻率較高,且密碼子使用模式受突變和自然選擇等多重因素的影響。
圖3 中性繪圖分析
圖4 ENC繪圖分析
圖5 PR 2繪圖分析
據(jù)報道,第一個解析出來的獼猴桃科葉綠體基因組是中華獼猴桃(2 X,4 X)和美味獼猴桃(2 X,4 X)[18],全長分別為156 346 bp、156 810 bp、156 741 bp及157 375 bp,有113種基因,79種蛋白編碼基因,4種核糖體rRNA基因和30種tRNA基因GC含量為37.2%。本研究中闊葉獼猴桃完整葉綠體基因組長度為155 964 bp,比中華獼猴桃短;平均 GC 含量37.30%,差異不大;有83種蛋白質(zhì)編碼基因,4種核糖體rRNA基因和30種tRNA基因。其IR區(qū)域長度為23 452 bp,有明顯的縮短現(xiàn)象,同時也發(fā)現(xiàn)clpP基因的丟失,這與先前的研究報道一致,可能在葉綠體的進(jìn)化過程中,clpP基因轉(zhuǎn)移到細(xì)胞核中。在植物的進(jìn)化過程中,由于部分基因向細(xì)胞核內(nèi)轉(zhuǎn)移,導(dǎo)致了葉綠體基因的缺失[19]。
豐富的cpSSR位點有利于從葉綠體角度對獼猴桃群體遺傳學(xué)展開研究[18]。本研究共分析獲得36個SSR位點(≥5 bp),其中單核苷酸重復(fù)單元占總數(shù)量的94.44%(34個),二核苷酸重復(fù)單元占2.78%(1個),三核苷酸重復(fù)單元占2.78%(1個),不存在四、五、六堿基的重復(fù)單元。A/T、AT/AT和AAT/ATT重復(fù)單元占所有SSR位點的94.44%,這與前人的研究結(jié)果相呼應(yīng)[20]。
為了解獼猴桃科葉綠體基因組間的差異,本研究從NCBI中下載8個獼猴桃品種的葉綠體基因組與之進(jìn)行對比。結(jié)果顯示其總長度最短,IR區(qū)段也較短。聚類結(jié)果顯示,中華獼猴桃與美味獼猴桃表現(xiàn)較高的親緣關(guān)系,與先前報道一致[21],葛棗獼猴桃、四萼獼猴桃、軟棗獼猴桃、狗棗獼猴桃之間的遺傳距離較近。本研究基于葉綠體全基因組聚類分析發(fā)現(xiàn),闊葉獼猴桃確實與毛花獼猴桃遺傳距離較近,但與其他品種遺傳距離均較遠(yuǎn),印證了前人基于葉綠體SSR研究獼猴桃遺傳多樣性的研究結(jié)果[12,13]。目前已發(fā)表的獼猴桃科葉綠體基因組數(shù)據(jù)有限,因此在系統(tǒng)發(fā)育研究方面,可能仍需要全基因組數(shù)據(jù)支持。
在植物基因組中廣泛存在密碼子偏好性現(xiàn)象,其形成原因多樣,機(jī)制復(fù)雜[22,23]。作為研究基因組進(jìn)化關(guān)系的一項重要指標(biāo),其變化受多個因素影響,如基因表達(dá)水平[24]、基因序列長度[25]、tRNA豐度[26]、密碼子變異偏好性以及GC分布的位置等[27,28]。Sharp等[29]的研究表明,變異方向和自然選擇是影響密碼子偏好性的主要因素[30]。本研究中篩選到30個最優(yōu)密碼子,其中29個以A/T堿基結(jié)尾,這與其它雙子葉植物相一致[31,32]。并且ENC繪圖和PR 2-plot分析都表明,闊葉獼猴桃葉綠體密碼子使用模式受突變和自然選擇等多重因素的影響。
本研究以闊葉獼猴桃全基因組為數(shù)據(jù)來源,從中篩選有效數(shù)據(jù)并進(jìn)行拼接組裝,得到葉綠體全基因組數(shù)據(jù),研究其葉綠體基因組特征、基因注釋情況、SSR標(biāo)記開發(fā)、遺傳多樣性分析及密碼子偏好性分析,一方面可進(jìn)行密碼子改造以提高異源基因的表達(dá)水平,另一方面也為種質(zhì)資源鑒定及遺傳育種等提供理論依據(jù)。