黃珊珊, 方春生, 余永紅, 宋 卉
(廣東食品藥品職業(yè)學(xué)院, 廣州 510520)
見(jiàn)血封喉[Antiaristoxicaria(Pers) Lesch.],又名箭毒木,是桑科見(jiàn)血封喉屬植物,為高大落葉喬木。為國(guó)家二級(jí)珍稀保護(hù)植物[1]。見(jiàn)血封喉葉和樹(shù)枝的乳汁有劇毒物質(zhì)[2],主要毒性成分為強(qiáng)心苷類物質(zhì),如α-弩箭子苷(α-antiarin)、見(jiàn)血封喉苷(antioside)、鈴蘭毒苷(convallatoxin)等[3],具有強(qiáng)心、增加心血輸出量,催吐、瀉下、麻醉等功效,研究?jī)r(jià)值和應(yīng)用價(jià)值很高;見(jiàn)血封喉樹(shù)型高大美觀,常用于旅游觀賞、林木綠化以及水土保持等[4];此外,馬其俠等[5]提出以見(jiàn)血封喉的分布作為廣東省劃分熱帶與亞熱帶的分界線。因此,見(jiàn)血封喉具有很高的研究開(kāi)發(fā)價(jià)值和商業(yè)價(jià)值。然而,見(jiàn)血封喉在我國(guó)分布區(qū)域狹窄,環(huán)境不斷受到人類破壞,造成見(jiàn)血封喉原材料十分稀缺,早在20世紀(jì)90年代,該品種已列為瀕危稀有種[6]。因此,只有充分認(rèn)識(shí)該樹(shù)種,才能更好地對(duì)其加以保護(hù)。
近年來(lái),基因組學(xué)和生物信息學(xué)的飛速發(fā)展,輔以高通量測(cè)序技術(shù)的提升,都為植物基因組測(cè)序打下堅(jiān)實(shí)的基礎(chǔ)。由于植物基因是多倍體結(jié)構(gòu),雜合度高,基因組序列長(zhǎng),重復(fù)序列重合度高,傳統(tǒng)的Sanger測(cè)序和初期的二代測(cè)序無(wú)法滿足復(fù)雜的植物基因組測(cè)序。葉綠體基因組廣泛應(yīng)用于系統(tǒng)發(fā)育,物種保護(hù)和分子進(jìn)化。 在保護(hù)瀕危動(dòng)植物方面,基因組信息將成為有利的工具,提供寶貴的資源[7]。
基于上述問(wèn)題,本研究以藥用植物見(jiàn)血封喉為研究對(duì)象,利用Illumina HiSeq測(cè)序平臺(tái)對(duì)葉綠體基因組進(jìn)行測(cè)序,獲得見(jiàn)血封喉葉綠體基因組完整序列,并進(jìn)行深入分析,為見(jiàn)血封喉的系統(tǒng)進(jìn)化、標(biāo)記開(kāi)發(fā)、物種鑒定、核質(zhì)互作、細(xì)胞器基因工程等研究提供數(shù)據(jù)支撐。本研究不僅有助于見(jiàn)血封喉某些特性的研究,也有助于研究陸地植物,特別是被子植物的進(jìn)化,以及比較基因組學(xué)、系統(tǒng)發(fā)育學(xué)、群體遺傳學(xué)等研究打下基礎(chǔ)。
2018年5月于廣東食品藥品職業(yè)學(xué)院藥用植物標(biāo)本園采集見(jiàn)血封喉新鮮幼嫩的綠色葉片,-80 ℃儲(chǔ)藏。
1.2.1總DNA提取
參照天根植物基因組DNA 提取試劑盒(離心柱型)說(shuō)明書進(jìn)行:取100 mg 新鮮葉片,研磨,轉(zhuǎn)移到裝有700 μL 65 ℃預(yù)熱緩沖液 GP 1的離心管中,65 ℃水浴20 min;加入700 μL氯仿,12 000 r/min離心5 min;取上清,加入700 μL緩沖液GP 2,混勻,轉(zhuǎn)入吸附柱 CB 3中,12 000 r/min 離心 30 s,棄廢液;加 500 μL 緩沖液 GD,12 000 r/min 離心30 s,棄廢液,放入收集管;加600 μL 漂洗液PW,12 000 r/min 離心30 s,棄廢液,放入收集管;12 000 r/min離心30 s,棄廢液;吸附柱CB 3室溫放置數(shù)分鐘,去除漂洗液。參照San Prep 柱式DNA膠回收試劑盒說(shuō)明書進(jìn)行膠回收,略有改動(dòng)[7-8]。
1.2.2PCR擴(kuò)增和瓊脂凝膠電泳
制備瓊脂糖凝膠板;取 1~2 μL上樣緩沖液與 5 μL PCR 產(chǎn)物混勻,加到凝膠孔;打開(kāi)電泳儀,進(jìn)行電泳;取出樣品,在紫外燈下觀察,拍照[7]。
1.2.3葉綠體基因組組裝與注釋
利用Illumina HiSeq測(cè)序平臺(tái)對(duì)葉綠體基因組進(jìn)行測(cè)序;使用 SPAdes (version:3.10.1;參數(shù):-k 127)軟件[8]進(jìn)行基因組拼接。將拼接結(jié)果與近緣葉綠體基因組(GJ:NC_012818;HN:NC_029432;JX-2:NC_033979;LZ:NC_008829) 進(jìn)行 blastn (version:BLAST 2.2.30+; 參數(shù):-evalue 10-5) 比對(duì),保留測(cè)序深度高的序列及確定的候選序列。得到的葉綠體組基因用DOGMA[10]、Mitofy[11]或者GENEIOUS R 9軟件進(jìn)行基因注釋。
1.2.4基于見(jiàn)血封喉葉綠體基因組的相關(guān)分析
1) GC含量及深度分布分析
使用BWA[12](version:0.7.12-r 1039)將 clean data 比對(duì)到所有組裝出的序列上,使用 SOAP.coverage(version:v 2.7.7)軟件計(jì)算每個(gè)位點(diǎn)的覆蓋深度,以500 bp為窗口,在序列上無(wú)重復(fù)前進(jìn),計(jì)算每個(gè)窗口的平均深度與 GC 含量,作 GC-depth 圖。
2) 簡(jiǎn)單重復(fù)序列分析
通過(guò) PHOBOS 軟件(v 3.3.12)[13]對(duì)組裝序列進(jìn)行簡(jiǎn)單重復(fù)序列分析,統(tǒng)計(jì)大于 30 bp、相似度大于 90%的簡(jiǎn)單重復(fù)序列。
使用SPAdes軟件對(duì)見(jiàn)血封喉葉綠體進(jìn)行基因組拼接。將拼接結(jié)果與近緣葉綠體基因組(NC_033979) 進(jìn)行 blastn比對(duì),保留比對(duì)上且測(cè)序深度高的序列,確定的候選序列見(jiàn)表1。
表1 見(jiàn)血封喉葉綠體基因組裝結(jié)果
葉綠體基因組功能注釋包括編碼基因預(yù)測(cè)和非編碼 RNA 注釋(rRNA 和 tRNA 注釋)。 利用專門針對(duì)葉綠體和葉綠體的注釋軟件 DOGMA(http://dogma.ccbb.utexas.edu/)進(jìn)行編碼基因注釋[3]。在 DOGMA主頁(yè)中,先注冊(cè)Usrid。上傳基因組序列,進(jìn)行基因預(yù)測(cè)。根據(jù)要預(yù)測(cè)的基因組類型, Genome type 選擇選 Chloroplast;Genetic Code for Blastx參數(shù),選擇11 Plant plastid。其他參數(shù)用默認(rèn)值,其中Percent identity cutoff for protein coding genes參數(shù)為60,Percent identity cutoff for RNAs 參數(shù)為80,E-value參數(shù)為 10-5,Number of blast hits to return參數(shù)為5[14]。葉綠體基因組注釋結(jié)果可利用OGDRAW軟件進(jìn)行作圖,結(jié)果如圖1。
圖1 見(jiàn)血封喉葉綠體基因組環(huán)狀圖
基于PE reads比對(duì)情況、序列測(cè)序深度以及與近源物種的比對(duì)順序等,確定候選序列的連接關(guān)系,且有reads支持成環(huán)。最終得出見(jiàn)血封喉的葉綠體基因組大小為161 699 bp(圖1)。
注釋結(jié)果表明,見(jiàn)血封喉葉綠體基因組與大多數(shù)高等植物葉綠體基因組一樣,存在 2個(gè)反向重復(fù)序列(Inverted repeat,IR),即IRA和IRB,且呈環(huán)狀雙鏈。見(jiàn)血封喉葉綠體基因測(cè)序組拼裝及驗(yàn)證反向重復(fù)序列之間有一個(gè)大單拷貝區(qū)(large single-copy region,LSC)和一個(gè)小單拷貝區(qū)(small single-copy region,SSC)。
統(tǒng)計(jì)表明(表2),見(jiàn)血封喉葉綠體基因組共有 162個(gè)基因,包括 108個(gè)蛋白編碼基因(protein-coding gene,PCG,平均長(zhǎng)度為758.11 bp)、46個(gè)轉(zhuǎn)運(yùn) RNA(transfer RNA, tRNA,平均長(zhǎng)度為63.76 bp)及 8個(gè)核糖體 RNA(ribosomal RNA,rRNA,平均長(zhǎng)度為1130.75 bp)基因。
表2 基因結(jié)構(gòu)預(yù)測(cè)結(jié)果
利用BWA軟件將clean data比對(duì)到所有組裝出的序列上,使用SOAP.coverage軟件計(jì)算每個(gè)位點(diǎn)的覆蓋深度,以500 bp為窗口,在序列上無(wú)重復(fù)前進(jìn)作GC-depth圖,計(jì)算出每個(gè)窗口的平均深度與GC含量為35.85%(圖2)。
圖2 見(jiàn)血封喉葉綠體序列GC含量和深度分布(過(guò)濾前后對(duì)比)
長(zhǎng)期以來(lái),國(guó)內(nèi)外對(duì)見(jiàn)血封喉的研究較少,尤其是國(guó)內(nèi)。為了開(kāi)發(fā)國(guó)產(chǎn)藥源,近年來(lái)對(duì)分布于我國(guó)南部的見(jiàn)血封喉進(jìn)行了比較系統(tǒng)的研究。如20世紀(jì)40年代,國(guó)外學(xué)者們[2]開(kāi)始對(duì)見(jiàn)血封喉進(jìn)行化學(xué)成分的研究。從見(jiàn)血封喉的乳汁和種子中分離鑒定出37個(gè)化合物,分別為26個(gè)強(qiáng)心苷及其苷元,10個(gè)黃酮類化合物和1個(gè)其他類型化合物[3]。但是,針對(duì)見(jiàn)血封喉基因組信息,尤其是細(xì)胞器基因組信息十分欠缺。
在高等植物的細(xì)胞中,有第二遺傳信息系統(tǒng)之稱的葉綠體與線粒體也帶有遺傳信息,具備單獨(dú)轉(zhuǎn)錄、翻譯的功能。與細(xì)胞核基因組相比,葉綠體基因組較小,更易測(cè)定其序列信息,是解析物種全部遺傳信息的必要手段[7]。葉綠體基因既能用于 DNA條形碼分子鑒定,還可用于物種進(jìn)化的相關(guān)研究中[7]。例如,在分析禾本植物種間進(jìn)化關(guān)系的研究中,因葉綠體基因具備高度的保守性,研究者可從單個(gè)基因的核苷酸多態(tài)性以及基因組的核苷酸差異入手[15]。
葉綠體基因組(CPDNA)中最顯著的特征之一是存在兩個(gè)大的反向重復(fù)序列(IRs)[7]。在陸地植物中,諸如單子葉植物、蕨類植物[16]和擁有極小IR的松科[17]等已有過(guò)IRs的擴(kuò)張或收縮的相關(guān)報(bào)道。由于IR區(qū)長(zhǎng)度的變化會(huì)對(duì)cDNA的大小產(chǎn)生影響,也因此可用于解決系統(tǒng)發(fā)育問(wèn)題[7]。本文雖然描繪了見(jiàn)血封喉的IR特征,但其收縮機(jī)制尚不清楚。
植物細(xì)胞器基因組研究離不開(kāi)生物信息學(xué)的有力支撐。高通量測(cè)序的普及致使基因組學(xué)研究進(jìn)入大數(shù)據(jù)時(shí)代,也加速了生物信息學(xué)的發(fā)展[18]。然而,支撐細(xì)胞器基因組研究的生物信息力量仍存在不足。如:適用于細(xì)胞器基因組研究的軟件非常有限。雖然目前生物信息軟件特別是針對(duì)二代測(cè)序的軟件種類繁多,但絕大多數(shù)的軟件都是針對(duì)核基因組開(kāi)發(fā),即使能用于細(xì)胞器基因組研究,也需要改變或新增部分參數(shù)。再者因大部分軟件不提供用戶操作界面,而是以命令形式運(yùn)行,致使操作復(fù)雜,不利于普通研究者使用,且輸出結(jié)果仍需多步處理才能應(yīng)用。此外,雖然第三代測(cè)序技術(shù)實(shí)驗(yàn)操作簡(jiǎn)單、測(cè)序速度較快以及讀長(zhǎng)的特性非常適合測(cè)序研究,但測(cè)序方法錯(cuò)誤率較高,而目前的方法平均讀長(zhǎng)較適合于相對(duì)保守的葉綠體基因組測(cè)序研究[18]。
本研究利用Illumina HiSeq測(cè)序平臺(tái)對(duì)見(jiàn)血封喉葉綠體基因組進(jìn)行測(cè)序,并進(jìn)行了以下探索:提出了一套葉綠體基因組拼接策略,可簡(jiǎn)單快速地獲取葉綠體基因組。利用二代測(cè)序數(shù)據(jù)可解決常規(guī)測(cè)序高錯(cuò)誤率的問(wèn)題,比基于純二代短片段數(shù)據(jù)的拼接策略更為簡(jiǎn)單;獲得并淺析了見(jiàn)血封喉葉綠體基因組完整圖序列。為見(jiàn)血封喉的系統(tǒng)進(jìn)化、物種鑒定、標(biāo)記開(kāi)發(fā)、細(xì)胞器基因工程等研究提供數(shù)據(jù)支撐。不僅有助于見(jiàn)血封喉某些特性的研究,也將有助于研究陸地植物,特別是被子植物的進(jìn)化,為比較基因組學(xué)、系統(tǒng)發(fā)育學(xué)、群體遺傳學(xué)等研究打下基礎(chǔ)。