李國良, 張鴻, 林趙淼, 許泳清, 許國春, 李華偉,紀(jì)榮昌, 羅文彬, 邱永祥, 邱思鑫, 湯浩
福建省農(nóng)業(yè)科學(xué)院 作物研究所/農(nóng)業(yè)農(nóng)村部南方薯類觀測(cè)實(shí)驗(yàn)站,福州 350013
葉綠體是綠色植物進(jìn)行光合作用最重要的細(xì)胞器, 是許多基本物質(zhì)和次生代謝物合成的重要場(chǎng)地[1]. 葉綠體蛋白雖然絕大多數(shù)是由核基因編碼, 但也有100多種蛋白是由葉綠體基因組(cpDNA)編碼的. cpDNA序列長(zhǎng)度為130~150 kb, 具有典型的雙鏈環(huán)狀結(jié)構(gòu), 由1個(gè)大單拷貝區(qū)(LSC), 1個(gè)小單拷貝區(qū)(SSC)和兩個(gè)反向重復(fù)區(qū)(IR)組成. 大多數(shù)的cpDNA是母系遺傳, 但也有一部分植物是父系遺傳或雙親遺傳. 相對(duì)于核基因組的復(fù)雜多樣性, cpDNA結(jié)構(gòu)簡(jiǎn)單, 序列高度保守, 不同物種或同一物種不同個(gè)體間僅存在著局部區(qū)域的序列變異, 因此cpDNA 更易解析, 更有利于研究植物的分類與進(jìn)化[2-4].
甘薯是我國重要的糧食作物、 飼料作物和食品加工業(yè)、 化工業(yè)的原料作物[5]. 葉菜型甘薯是一類以鮮幼嫩莖葉作蔬菜用的甘薯品種, 與普通甘薯相比, 其莖葉產(chǎn)量較高[6]. 葉綠體基因組的完整解析是準(zhǔn)確研究植物系統(tǒng)進(jìn)化關(guān)系、 發(fā)掘基因功能的更有效而可靠的手段[7]. 葉菜型甘薯的父本或母本往往來源于普通甘薯, 其葉綠體基因組序列與普通甘薯有什么差別目前尚未清楚, 甘薯種間葉綠體基因組之間存在多少堿基差異目前也不清楚. 本研究以葉菜型甘薯‘福菜薯18號(hào)’為材料, 通過序列拼接獲得完整的葉綠體基因組, 并利用生物信息學(xué)方法進(jìn)行分析, 為葉菜型甘薯的親緣關(guān)系和甘薯種間關(guān)系奠定基礎(chǔ).
以葉菜型甘薯‘福菜薯18號(hào)’為試驗(yàn)材料, 其嫩梢幼葉于2021年7月采自‘福菜薯18號(hào)’甘薯組培苗.
利用DNA提取試劑盒(南京諾維贊生物科技有限公司)提取甘薯組織總DNA[8], 用1.5%瓊脂糖凝膠電泳和Nanodrop 2000檢測(cè)甘薯總DNA的質(zhì)量和完整性, DNA質(zhì)量合格后進(jìn)行上機(jī)測(cè)試.
二代測(cè)序?qū)嶒?yàn)流程按照BGISEQ-500的標(biāo)準(zhǔn)程序執(zhí)行, 樣品基因組DNA檢測(cè)合格后, 用超聲波法將DNA片段化, 然后對(duì)片段化的DNA進(jìn)行純化, 末端修復(fù), 3′端加A, 連接測(cè)序接頭, 構(gòu)建測(cè)序文庫, 文庫質(zhì)檢合格后用BGISEQ-500平臺(tái)進(jìn)行測(cè)序.
三代測(cè)序采用Oxford Nanopore Technologies公司的建庫試劑盒進(jìn)行測(cè)序文庫構(gòu)建, 文庫檢驗(yàn)合格后上機(jī)測(cè)序.
使用Fastp 軟件對(duì)原始數(shù)據(jù)進(jìn)行過濾, 去除其中的接頭序列及低質(zhì)量序列, 獲取高質(zhì)量的序列數(shù)據(jù), 按參考物種的葉綠體基因組序列進(jìn)行組裝, 得到葉綠體基因組序列組裝結(jié)果[9]. 使用minimap2將三代測(cè)序reads比對(duì)NCBI旋花科所有葉綠體基因組數(shù)據(jù), 提取比對(duì)長(zhǎng)度大于5 000 bp的reads用于后續(xù)組裝[10]. 使用bowtie2將二代測(cè)序reads比對(duì)廣州佰數(shù)生物科技有限公司自建的葉綠體基因組數(shù)據(jù)庫, 將比對(duì)上的reads用于后續(xù)組裝[11]. 組裝軟件使用Unicycler version: v 0.4.8, 將上述提取到的葉綠體候選三代和二代reads用于葉綠體基因組組裝[12].
使用GeSeq軟件對(duì)葉綠體基因序列進(jìn)行注釋[13]; 利用tRNAscan-SE在線網(wǎng)站對(duì)tRNA進(jìn)行注釋[14], 利用 RNAmmer 1.2 Server(http: //www.cbs.dtu.dk/services/RNAmmer/)對(duì) rRNA進(jìn)行注釋, 經(jīng)人工修正后獲得最終的注釋結(jié)果; 最后使用OGDRAW(https: //chlorobox.mpimp-golm.mpg.de/OGDraw.html)軟件生成基因組物理圖譜[15].
根據(jù)Sharp等[16]計(jì)算方法對(duì)組裝好的葉菜型甘薯葉綠體基因組序列進(jìn)行密碼子偏好性(Relative Synonymous Codon Usage, RSCU)值統(tǒng)計(jì)和分析. 采用 MISA 軟件(http: //pgrc.ipk-gatersleben.de/misa/)對(duì)組裝好的葉菜型甘薯葉綠體基因組序列進(jìn)行微衛(wèi)星掃描[17], 利用 Tandem repeats finder v 4.04 軟件檢測(cè)串聯(lián)重復(fù)序列, 默認(rèn)參數(shù)參考文獻(xiàn)[18].
由于葉綠體基因組組裝過程中發(fā)現(xiàn)有兩種類型的葉綠體, 即葉綠體基因組在SSR區(qū)域具有正反兩種方向的結(jié)構(gòu), 因此利用dottup軟件對(duì)兩種類型的葉綠體基因組進(jìn)行共線性分析[19].
從NCBI 數(shù)據(jù)庫下載番薯屬Ipomoeatrifida(NC_034670),Ipomoeacordatoteiloba(NC_041204),Ipomoealacunosa(NC_037912),Ipomoeacynanchifolia(NC_041203)和Ipomoearamosissima(NC_041205) 等 45個(gè)種植物葉綠體基因組序列與葉菜型甘薯進(jìn)行聚類分析, 利用其與兩個(gè)外群物種全葉綠體序列構(gòu)建進(jìn)化樹. 使用軟件mafft(默認(rèn)參數(shù))進(jìn)行序列比對(duì)[20], 而后利用fasttree軟件構(gòu)建ML進(jìn)化樹[21].
從NCBI數(shù)據(jù)庫下載8個(gè)甘薯葉綠體基因組數(shù)據(jù), 將9個(gè)基因組序列用mafft對(duì)比后, 以‘福菜薯18號(hào)’葉綠體基因組為參考序列進(jìn)行SNP和Indel分析.
葉菜型甘薯的cpDNA序列全長(zhǎng)為161 387 bp, 由大單拷貝區(qū)域(LSC, 87 597 bp), 小單拷貝區(qū)域(SSC, 12 052 bp)及兩個(gè)反向重復(fù)區(qū)域(IRA和IRB, 30 869 bp)4個(gè)部分構(gòu)成(圖1). 組裝注釋好的葉綠體基因序列提交至 GenBank, 獲得序列登錄號(hào)OM808940. 基因注釋結(jié)果表明: 葉菜型甘薯cpDNA具有132個(gè)功能基因, 包括87個(gè)蛋白編碼基因、 8個(gè)rRNA基因和37個(gè)tRNA基因. 其中, 18個(gè)基因在IR區(qū)域復(fù)制, 包括7個(gè)蛋白編碼基因(ycf1,ycf2,ycf15,ndhB,ndhH,rps7和rps15), 7個(gè)tRNA基因(trnI-CAU,trnL-CAA,trnV-GAC,trnI-GAU,trnA-UGC,trnR-ACG和trnN-GUU)和4個(gè)rRNA基因(rrn4.5,rrn5,rrn16和rrn23). 葉菜型甘薯cpDNA總的GC質(zhì)量分?jǐn)?shù)為 37.54%, AT質(zhì)量分?jǐn)?shù)為62.46%.
經(jīng)過統(tǒng)計(jì)分析, 葉菜型甘薯cpDNA中20個(gè)基因包含內(nèi)含子, 其中, 11個(gè)蛋白編碼基因和7個(gè)tRNA基因含有1個(gè)內(nèi)含子, 2個(gè)蛋白編碼基因(pafI和clpP)含有2個(gè)內(nèi)含子(表1).rps12有2個(gè)拷貝, 每個(gè)拷貝具有3個(gè)外顯子, 且兩個(gè)拷貝共享第1個(gè)外顯子, 第1個(gè)外顯子位于LSC區(qū)域, 另外2個(gè)外顯子位于IR區(qū)域.
表1 甘薯葉綠體基因組注釋基因列表
對(duì)于不同的生物體蛋白質(zhì)結(jié)構(gòu)組成, 即使編碼氨基酸的密碼子相同, 但是對(duì)于氨基酸的同義密碼子使用頻率卻是不相等的, 這種同義密碼子使用頻率的不相等就是密碼子偏好性(RSCU). 葉菜型甘薯cpDNA中RSCU值大于1.00的密碼子為32個(gè), 其中大多數(shù)以A或T結(jié)尾, 僅3個(gè)以G結(jié)尾(ATG, TTG, TGG). 編碼亮氨酸(Leu)的密碼子數(shù)量最多, 為2 950個(gè), 占比10.35%; 半胱氨酸(Cys)出現(xiàn)的次數(shù)最少, 為332, 占比1.16%(表2). 這與大多數(shù)被子植物葉綠體基因組密碼子使用偏好一致.
表2 葉菜型甘薯各氨基酸同義密碼子偏好性
SSR(Simple Sequence Repeats) 是一類由1~6個(gè)核苷酸為重復(fù)單位組成的長(zhǎng)達(dá)幾十個(gè)核苷酸的串聯(lián)重復(fù)序列, 每個(gè)SSR兩側(cè)的序列一般是相對(duì)保守的單拷貝序列. 從葉菜型甘薯葉綠體基因組中共鑒定到54個(gè)SSR位點(diǎn), 其中, 單核苷酸、 二核苷酸、 三核苷酸、 四核苷酸、 五核苷酸和六核苷酸重復(fù)分別有32, 4, 3, 11, 2和2個(gè)(表3), 且32個(gè)單核苷酸重復(fù)均由A或T組成.
表3 54個(gè)cpDNA在葉菜型甘薯葉綠體基因組上的分布
從NCBI上下載旋花科甘薯近緣種植物的葉綠體基因組序列, 對(duì)全基因組序列的共有蛋白編碼基因進(jìn)行聚類分析, 并以Distimakequinquefolius和Operculinamacrocarpa為外類群. 結(jié)果顯示, 葉菜型甘薯與普通甘薯‘clm’和甘薯四倍體野生種Ipomoeatabascana聚為一類, 普通甘薯‘徐薯18號(hào)’和甘薯二倍體野生種Ipomoeatrifida聚為一類, 同時(shí)聚為一個(gè)大類. 旋花科的黃毛銀背藤也與番薯屬植物聚為一類, 兩個(gè)外群植物Distimakequinquefolius和Operculinamacrocarpa聚為一類, 與番薯屬植物分為兩個(gè)進(jìn)化支(圖2).
圖2 基于蛋白編碼基因構(gòu)建45個(gè)物種的系統(tǒng)進(jìn)化樹
由于葉綠體基因組組裝過程中發(fā)現(xiàn)有兩種類型的葉綠體, 即葉綠體基因組在SSR區(qū)域具有正反兩種方向的結(jié)構(gòu), 利用dottup軟件對(duì)兩種類型的葉綠體基因組進(jìn)行共線性分析, 其中藍(lán)色是正向共線性, 紫紅色是反向共線性(圖3).
右下角的藍(lán)色為共同的IRA序列, 左上角的長(zhǎng)藍(lán)色為共同的LSC+IRB序列, gap部分為反向共線性的SSR, 由于IRA和IRB本身是反向共線性的, 所有兩種結(jié)構(gòu)的葉綠體呈現(xiàn)IRA-SSC-IRB反向共線性(紅色).圖3 兩種類型葉綠體dotplot圖
以‘福菜薯18號(hào)’為對(duì)照, 對(duì)甘薯品種間葉綠體基因組進(jìn)行種內(nèi)SNP分析, 發(fā)現(xiàn)有199個(gè)SNP位點(diǎn), 其中有118個(gè)位點(diǎn)位于編碼區(qū)中, 編碼區(qū)包含matK,rpoC2,psaB,accD,psbL,rps8,ycf1,ycf2,ndhB,ndhC,ndhE,ndhF,ndhH等基因,ycf1和ycf2具有較多的SNP位點(diǎn), 其余位于非編碼區(qū)中. ‘福菜薯18號(hào)’葉綠體基因組與其他甘薯相比, 有121個(gè)片段缺失, 其中有37個(gè)屬于SSR位點(diǎn)缺失; 有146個(gè)片段插入, 其中有66個(gè)屬于SSR位點(diǎn)插入; 另外還有7個(gè)長(zhǎng)片段替換(數(shù)據(jù)略).
20世紀(jì)70年代末, 雙脫氧終止法標(biāo)志著第一代測(cè)序技術(shù)的誕生, 實(shí)現(xiàn)了對(duì)DNA序列的測(cè)序與分析, 由于這種方法測(cè)序通量低、 自動(dòng)化水平差等缺點(diǎn), 限制了其在轉(zhuǎn)錄組學(xué)和基因組學(xué)的發(fā)展. 第二代測(cè)序是邊合成邊測(cè)序, 通過捕捉末端新合成的堿基來獲得待測(cè)DNA片段的序列, 實(shí)現(xiàn)了高通量和自動(dòng)化測(cè)定, 極大地提高了測(cè)序速度, 但由于二代測(cè)序包含PCR擴(kuò)增等過程, 可能會(huì)引入模板遷移等假陽性, 而且二代測(cè)序讀長(zhǎng)普遍較短, 也限制了其應(yīng)用. 三代測(cè)序技術(shù)以PacBio公司的單分子實(shí)時(shí)測(cè)序技術(shù)(Single Molecule Real Time Sequencing, SMRT-seq)和Oxford Nanopore Technologies的納米孔單分子測(cè)序技術(shù)為代表, 與前兩代測(cè)序技術(shù)相比, 其最大的特點(diǎn)就是單分子實(shí)時(shí)測(cè)序, 測(cè)序過程無需進(jìn)行PCR擴(kuò)增, 可以實(shí)現(xiàn)長(zhǎng)片段序列測(cè)定, 但缺點(diǎn)是通量相對(duì)較小, 測(cè)序成本較高[22-23]. 本文為提高葉菜型甘薯葉綠體基因組測(cè)定序列的準(zhǔn)確性, 采用了二代和三代測(cè)序數(shù)據(jù)相結(jié)合, 克服了測(cè)序技術(shù)本身的不足, 保證序列拼接組裝的準(zhǔn)確性.
甘薯屬于旋花科番薯屬植物, 本研究從NCBI上下載了45個(gè)番薯屬植物的葉綠體基因組數(shù)據(jù), 包括普通甘薯‘徐薯18號(hào)’等葉綠體基因組數(shù)據(jù)并進(jìn)行序列對(duì)比, 并以Distimakequinquefolius和Operculinamacrocarpa為外類群構(gòu)建系統(tǒng)進(jìn)化樹, 結(jié)果顯示, 葉菜型甘薯與甘薯四倍體野生種Ipomoeatabascana和甘薯二倍體野生種Ipomoeatrifida聚為一類. Srisuwan等[24]通過細(xì)胞遺傳學(xué)方法認(rèn)為甘薯栽培種與野生種Ipomoeatrifida具有更為密切關(guān)系,Ipomoeatrifida是甘薯栽培種和四倍體Ipomoeatabascana的祖先, 與葉綠體基因組進(jìn)化相一致. 有研究表明, 番薯屬植物Ipomoeapurpurea與其近緣種Ipomoeaalba和Ipomoeanil在花青素合成基因中有約1%的核苷酸多態(tài)性, 符合分子進(jìn)化的標(biāo)準(zhǔn)中性模型[25]. 甘薯種內(nèi)SNP分析結(jié)果表明, 甘薯葉綠體基因組總長(zhǎng)度有所差異, ‘徐薯18號(hào)’的葉綠體基因組長(zhǎng)度為161 303 bp[26], 甘薯‘clm’及其對(duì)照分別為161 393 bp和161 429 bp[27], 甘薯葉綠體基因中存在單核苷酸突變, 也存在長(zhǎng)片段替換、 缺失和插入, 這些堿基差異有些是位于編碼區(qū)基因matK,rpoC2,psaB,accD,rbcL中, 其中matK和rbcL是植物DNA條形碼的核心序列[28], 另外一些編碼基因是否可以成為番薯屬的DNA條形碼有待更多數(shù)據(jù)的支持.