常越 閆嵩 劉振鵬 任偉超 劉玠 馬偉
[摘要]該實驗采用Roche 454 GS FLX測序儀獲得黃芪的轉(zhuǎn)錄組數(shù)據(jù),使用454 Sequencing System Software分析軟件進行轉(zhuǎn)錄組從頭拼接;利用MISA工具篩選了黃芪轉(zhuǎn)錄組測序獲得的9 893條unigenes,對其SSR 位點信息進行了分析。結(jié)果表明,進行測序所得的reads的平均長度為413 bp,約86%的reads參與了拼接,拼接的N50長度為1 205 bp,所測得的unigene數(shù)量基本涵蓋了全部轉(zhuǎn)錄組信息;黃芪轉(zhuǎn)錄組搜索到1 729個SSR位點,SSR的發(fā)生頻率為924%,SSR在黃芪整個轉(zhuǎn)錄組中出現(xiàn)的頻率為1342%,SSR的平均距離為797 kb。一共發(fā)現(xiàn)核心重復序列127種,占優(yōu)勢的是二核苷酸型中的TG/AC型,出現(xiàn)的頻率占總SSR位點的425%。黃芪轉(zhuǎn)錄組的測序結(jié)果揭示了黃芪轉(zhuǎn)錄組的整體表達特征,并得到大量黃芪轉(zhuǎn)錄組unigene序列,并且黃芪轉(zhuǎn)錄組SSR位點出現(xiàn)頻率高,類型多樣,多態(tài)性潛能高。
[關鍵詞]膜莢黃芪;轉(zhuǎn)錄組測序;SSR;位點信息
[Abstract]In this study, 454/Roche GS FLX sequencing technology was used to obtain the data of the Astragalus membranaceus Four hundred and fiftyfour Sequencing System Software was applied to carry out the transcription of the group from scratch Using MISA tools, 9 893 unigenes were selected for the sequence of the genome of A membranaceus, and the information of SSR locus was analyzed According to the result, the average length of reads was 413 bp, about 86% of the reads was involved in the splicing, the length of the N50 was 1 205 bp, the number of unigenes was measured by the whole transcript 1 729 SSR loci in the A membranaceus transcriptome were searched, the occurrence frequency of SSR was 924%, the frequency of SSR in the whole transcriptome was 1342%, the average length of SSR was 797 kbOne hundred and twentyseven kinds of core repeat sequences were found, the dominant type was TG/AC type of dinucleotide, it appeared to account for 425% of the total SSR locus The results of the sequence of the transcription of the A membranaceus transcriptome revealed the overall expression, and a large number of unigenessequence was obtained, and the SSR locus in the genome of the A membranaceus is high, and the type is diverse, and the polymorphism of the gene is high
[Key words]Astragalus membranaceus; transcriptome sequencing; SSR; information of loci
doi:10.4268/cjcmm20160810
中藥材黃芪按《中國藥典》(2010年版)規(guī)定,是蒙古黃芪Astragalus membranaceus(Fisch) Bgevarmongholicus Hsiao Bge或膜莢黃芪A membranaceus(Fisch) Bge的干燥根。味甘性溫,具有補氣升陽,健脾利尿,排毒排膿,斂瘡生肌等功效[1]。轉(zhuǎn)錄組(transcriptome)是指特定細胞在某一功能狀態(tài)下全部表達的基因總和,代表了每一個基因的身份和表達水平,轉(zhuǎn)錄組測序能全面的地揭示生物個體在特定組織和特定時期的全局基因的表達情況。簡單重復序列(simple sequence repeats,SSR),一般以1~6個堿基為核心序列,具有高度多態(tài)性。目前已利用SSR 標記構建了許多物種的染色體遺傳圖譜,并被廣泛應用于基因定位及親緣關系分析、品種鑒定和動植物育種等領域[2]。本實驗旨在完成黃芪轉(zhuǎn)錄組測序并分析其SSR位點信息,為黃芪進一步在遺傳圖譜構建、種質(zhì)鑒定、遺傳多樣性分析等方面的研究奠定了基礎。
1材料與方法
11植物
本試驗所用膜莢黃芪種子,由黑龍江中醫(yī)藥大學試驗中心馬偉研究員鑒定。在黑龍江中醫(yī)藥大學藥用植物園日光溫室內(nèi)無土栽培培養(yǎng),選取苗齡40 d的黃芪。取材健康的根、莖、葉,采集后用液氮速凍后-80 ℃保存。
12植物總RNA的提取
黃芪總RNA提取參考改良的CTAB方法[3],具體步驟如下:取適量植物材料于研缽中加入液氮研磨至粉末狀;將粉末轉(zhuǎn)移至20 mL離心管中,加入1 mL無水乙醇,充分振蕩后,冰上放置10 min,4 ℃ 12 000 r·min-1離心2~5 min;小心棄掉上清,在離心管中加入900 μL CTAB提取液,振蕩混勻后,65 ℃水浴5 min,放置冰上,加入等體積氯仿,4 ℃ 12 000 r·min-1離心5~10 min;小心吸取上清至新的離心管中,加入1/2體積無水乙醇及08體積5 mol·L-1LiCl,混勻,冰上放置10 min,4 ℃ 12 000 r·min-1離心10 min,棄上清;70%乙醇洗滌沉淀2次,室溫放置5 min干燥RNA,加入50 μL滅菌水溶解RNA,-80 ℃?zhèn)溆谩?/p>
13mRNA 樣品準備
131總RNA的質(zhì)量檢測與定量使用紫外分光光度計,對總RNA的濃度、總量及A260/280和A260/230進行分析。采用Agilent RNA 6000 Pico Kit;Agilent,50671513,對總RNA的完整性、純度及降解度進行測定。
132mRNA的純化與定量采用Oligotex mRNA Mini Kit;Qiagen, 70022;Agilent RNA 6000 Pico Kit;Agilent,50671513試劑盒,進行mRNA 純化與定量。
14cDNA文庫制備
mRNA片段化至主峰在450~1 200 nt;以1∶1∶1混合根、莖、葉總RNA;采用DNA Synthesis system,Roche,11117831001和AgencourtAMPure XP Beads,Beckman,A63881試劑盒,進行雙鏈 cDNA 合成與純化;采用Roche Rapid Library Preparation Kit,Roche,5608228001試劑盒,進行片段末端修復;連接接頭;采用AgencourtAMPure XP Beads,Beckman,A63881試劑盒,去除小片段;使用儀器QuantifluorST fluorometer,Promega,E6090,進行cDNA 文庫定量;使用儀器Agilent 2100 Bioanalyzer,Agilent,2100和Agilent High Sensitivity DNA Kit,Agilent,50674626試劑盒,進行cDNA文庫質(zhì)量檢測;準備工作液。
15emPCR擴增
通過乳液滴定或測序滴定確定emPCR擴增中所需的DNA文庫的量;準備emPCR各試劑、乳化油、Mock Amplification Mix 和預乳液、Live Amplification Mix;使用DNA Capture Beads將DNA文庫捕獲;乳化;擴增;回收DNA Capture Beads;含DNA文庫的DNA Capture Beads的富集;測序引物退火。
16Roche 454 GS FLX+測序儀上機測序
轉(zhuǎn)錄組測序工作委托上海派森諾生物科技有限公司完成。
17原始數(shù)據(jù)整理、過濾及質(zhì)量評估
下機數(shù)據(jù)經(jīng)過454Newbler去接頭、去低質(zhì)量堿基處理。使用454 Sequencing System Software (http://www454com/)分析軟件進行轉(zhuǎn)錄組從頭拼接[45]。
18測序飽和度分析
測序飽和度是隨著采樣讀取的測序量(sampled reads number)的增加,而檢測到的unigene數(shù)目的變化情況。當采樣讀取的測序量到一定程度,而檢測到的unigene幾乎不增加或者很少增加,則測序包和,否者就是測序量不夠沒有達到飽和。在本次測序數(shù)據(jù)中,以15 000作為梯度,對數(shù)據(jù)依次隨機抽樣,看抽出來的這些reads分別檢測到多少unigene。然后把采樣讀取的測序量做橫坐標和檢測到的unigene的數(shù)量做縱坐標畫一個曲線,查看這條曲線隨著采樣讀取數(shù)據(jù)量的增加unigene是否具有飽和性。
19轉(zhuǎn)錄組SSR位點的信息分析
將轉(zhuǎn)錄組數(shù)據(jù)用MISAMIcroSAtellite identification tool( http://pgrcipkgaterslebende/misa/ )進行SSR分析。程序配置為:1/10,2/6,3/5,4/5,5/5,6/5(串聯(lián)重復的核心序列/最小重復單位數(shù)目);復合型SSR中間隔串聯(lián)核心序列的非重復堿基數(shù)最大不超過100[68]。
2結(jié)果與分析
21總RNA質(zhì)量分析
質(zhì)量濃度≥250 mg·L-1,總量≥50 μg;A260/28018~22,A260/230應≥20。電泳檢測28S∶18S至少大于15,見圖1;RIN≥80;并確保RNA無降解,無污染,見表1。
22測序量統(tǒng)計
測得原始數(shù)據(jù)量約513 Mb,通過過濾得到符合拼接要求的有效數(shù)據(jù)306 Mb。數(shù)據(jù)總匯后,數(shù)據(jù)量為306 805 437,基因條數(shù)為742 721條,平均長度為413 kb;基因統(tǒng)計后,基因為742 721條,讀長大于20 bp序列數(shù)為742 602,原始數(shù)據(jù)為513 365 449,過濾后數(shù)據(jù)為306 805 437,拼接利用率為5976%。
經(jīng)過轉(zhuǎn)錄組從頭拼接,8604%的reads參與拼接,共計639 061條reads。序列拼接的N50長度為1 205 bp,長度>N50為3 823 bp,平均長度為1 0695 bp。拼接得到contig 15 167個,這些contig繼而拼接成為12 851個isotig。無法進一步拼接成為isotig的contig與這些isotig一起,組成10 742個isogroup,總共得到12 880條Isotig(包括無法進一步拼接成為isotig的contig),Unigene數(shù)量為9 893,Unigene平均長度為1 097128 98 bp。
23測序飽和度分析
當采樣讀取測序量達到2×102 kb時,unigene的數(shù)目已趨于飽和,當采樣讀取數(shù)據(jù)量達到3×102 kb unigene的數(shù)據(jù)已經(jīng)完全飽和。這說明對于本次黃芪根、莖、葉的等比例混樣測序,測序量已經(jīng)達到飽和,測序量滿足試驗要求,見圖2。
24SSR位點的數(shù)量與分布
對黃芪轉(zhuǎn)錄組的12 880條isotig進行SSR的搜索,得到SSR的總堿基數(shù)是23 834 bp,共找到SSR位點1 729個,復合型SSR位點435個,含有SSR位點的isotig條數(shù)為1 190條,包含一個以上SSR位點的isotig的條數(shù)是252條。SSR的發(fā)生頻率(含有SSR的unigene數(shù)目與總unigene數(shù)目的比值)924%;SSR在黃芪整個轉(zhuǎn)錄組中出現(xiàn)的頻率(SSR位點個數(shù)和總unigene數(shù)目的比值)1342%;黃芪轉(zhuǎn)錄組中SSR的平均距離(總unigene的長度與SSR數(shù)目的比值)797 kb,見表2。
從表2可以看出黃芪轉(zhuǎn)錄組SSR種類豐富,從單核苷酸到六核苷酸的各種核酸重復類型都能夠看到,但他們相差的比列較大。SSR類型多集中在單核苷酸、二核苷酸、三核苷酸上,占963%,其他類型相對的占有量很低。
黃芪轉(zhuǎn)錄組SSR位點序列總長度達到23 834 bp,其中三核苷酸核心重復序列的總長度最長,為11 433 bp;其次是二核苷酸,為4 472 bp;接下來是單核苷酸,是1 919 bp。SSR位點的平均長度是24 bp,各類型SSR位點的平均長度分別是12,18,18,24,27,32 bp。
25SSR的特性
在黃芪轉(zhuǎn)錄組的1 729個SSR位點中共發(fā)現(xiàn)核心重復序列127種,其中單核苷酸型4種;二核苷酸型11種;三核苷酸型57種;四核苷酸型28種;五核苷酸型11種;六核苷酸型16種。這6種重復序列類型的重復次數(shù)大多集中在5~10次,達到1 173次,占整個重復次數(shù)的6784%;其次是10~15次,重復次數(shù)是356次,占整個重復次數(shù)的2059;第三的是16~20次,重復次數(shù)是149次,占整個重復次數(shù)的862%。也就是說,核心序列重復次數(shù)在5~20次的SSR的出現(xiàn)次數(shù)為1 678次,占整個重復次數(shù)的9705%,核心序列重復次數(shù)超過20次的SSR出現(xiàn)的次數(shù)比例還不到3%,見圖3。從出現(xiàn)的具體類型分析,占優(yōu)勢的是二核苷酸型中的TG/AC型,出現(xiàn)的頻率占總SSR位點的425%;其次是GA/CT型,出現(xiàn)的頻率占總SSR位點的394%;接下來是GAA/CTT型,頻率是356%;CCT/GGA型,頻率是309%,見表3。
26SSR的可用性評價
判斷SSR可用性的重要依據(jù)是SSR分子標記的多態(tài)性,一般認為SSR的長度是影響其多態(tài)性高低的重要因素,當SSR≥20 bp時,多態(tài)性較高;當12 bp≤SSR≤20 bp時,多態(tài)性中等;當SSR≤12 bp時,多態(tài)性極低。黃芪轉(zhuǎn)錄組數(shù)據(jù)顯示SSR的長度多集中在12~45 bp,其中12 bp≤SSR≤20 bp具有中度多態(tài)性的SSR共有861個,占總SSR的4980%;SSR≥20 bp具有高多態(tài)性的SSR共422個,占總SSR的2441%。同時有研究表明,高級基元SSR的多態(tài)性比低級基元的多態(tài)性普遍偏低。在黃芪轉(zhuǎn)錄組數(shù)據(jù)統(tǒng)計分析中發(fā)現(xiàn),長度大于20 bp的SSR大多屬于低級基元,共包含SSR位點282個??梢灶A計這部分多態(tài)性潛能高的SSR在黃芪基因功能研究上具有較高的利用價值。
3討論與結(jié)論
31黃芪轉(zhuǎn)錄組測序質(zhì)量評估
黃芪轉(zhuǎn)錄組測序所用的根、莖、葉提取的總RNA檢測結(jié)果合格。進行測序所得的reads的平均長度為413 bp,約86%的reads參與了拼接,拼接的N50長度為1 205 bp。測序飽和度結(jié)果表明,所測得的unigene數(shù)量基本涵蓋了全部轉(zhuǎn)錄組信息。從以上結(jié)果可知本轉(zhuǎn)錄組的測序結(jié)果真實可信,可以對數(shù)據(jù)進行進一步分析。
32黃芪轉(zhuǎn)錄組SSR位點信息分析
SSR廣泛分布于各種真核生物的基因組中,大約每隔10~50 kb就存在1個SSR。在植物中,平均233 kb就有1個SSR;雙子葉植物中的SSR數(shù)量大于單子葉植物,前者2個SSR之間的平均間距為212 kb,后者為646 kb。通過對黃芪轉(zhuǎn)錄組數(shù)據(jù)的SSR分析,黃芪轉(zhuǎn)錄組中SSR的平均距離是797 kb,從單核苷酸類型到六核苷酸類型均具備,核心重復序列127種,這表明黃芪基因組內(nèi)具有較高豐度的SSR。
大部分植物的SSR重復基元主要以二、三核苷酸型為主,但不同物種之間的主導SSR重復類型有所差異。本研究發(fā)現(xiàn)膜莢黃芪轉(zhuǎn)錄組SSR重復類型主要以三核苷酸為主,占全部SSR的4222%,一核苷酸所占比例也較高,占全部SSR的3777%。這與大豆、棉花、大麥、玉米、水稻等主要經(jīng)濟作物的研究結(jié)果相同,這些植物也是以三核苷酸重復類型為主[910]。在膜莢黃芪的SSR中的二核苷酸基元中TG/AC類型最多,三核苷酸基元中GAA/CTT類型最多。這些重復類型與人參[11]、丹參[12]、番紅花[13]等植物中二元堿基以AG,TC,CT為主要類型不同,在三堿基重復基元中以AAG/TTC,GAA/TCC為主與黃芪相同。據(jù)此推斷這種重復基元的差別可能與物種差異有關聯(lián)。從SSR的類型來看,黃芪轉(zhuǎn)錄組SSR類型多樣。這些類型多樣,數(shù)量豐富的SSR為黃芪進一步在遺傳圖譜構建、種質(zhì)鑒定、遺傳多樣性分析、標記輔助選擇(MAS,marker assistant seletion,marker aided seletion)、基因定位、數(shù)量性狀基因座(QTL)分析,系譜分析和親源關系鑒定等方面的研究奠定了基礎。
[參考文獻]
[1]中國藥典. 一部[S]. 2010:11.
[2]閆秋良. 基于生物信息學方法從牛和綿羊表達序列標簽中篩選SSR標記的初步研究[D]. 楊凌:西北農(nóng)林科技大學, 2007.
[3]陳肅,劉雪梅,李發(fā)兵. 一種快捷有效的提取樹木RNA方法[J]. 遼寧林業(yè)科技,2008(5):25
[4]Margulies M, Egholm M, AltmanW E, et al. Genome sequencing in microfabricated highdensity picolitre reactors[J]. Nature,2005,437(7057):376.
[5]Kumar S, Blaxter M L. Comparing de novo assemblers for 454 transcriptome data[J]. BMC Genomics,2010,11(2):237.
[6]Argout X, Fouet O, Wincker P, et al. Towards the understanding of the cocoa transcriptome:production and analysis of an exhaustive dataset of ESTs of Theobroma cacao L. generated from various tissues and under various conditions[J]. BMC Genomics,2008,9(11):512.
[7]Luro F L, Costantino G,Terol J, et al. Transferability of the ESTSSRs developed on Nules clementine(Citrus clementina Hort ex Tan) to other Citrus species and their effectiveness for genetic mapping[J]. BMC Genomics,2008,9(12):287.
[8]Simbaqueba J,Sanchez P,Sanchez E,et al. Development and characterization of microsatellite markers for the cape gooseberry physalisperuviana[J]. PLoS ONE,2011,6(10):e26719.
[9]Cardle L, Ramsay L, Milbourne D, et al. Computational and experimental characterization of physically clustered simple sequence repeats in plants[J]. Genetics. 2000,156(2):847.
[10]Varshney R K, Graner A, Sorrells M E. Genic microsatellite markers in plants: features and applications[J]. Trends Biotechnol,2005,23(1):48.
[11]Li C, Zhu Y, Guo X, et al. Transcriptome analysis reveals ginsenosides biosynthetic genes,microRNAs and simple sequence repeats in Panax ginseng C. A. Meyer[J]. BMC Genomics,2013,14:245.
[12]王學勇,周曉麗,高偉,等. 丹參新的ESTSSR分布規(guī)律及分子標記的建立[J]. 中國中藥雜志,2011, 36 (3):289.
[13]陳國慶. 番紅花EST資源的SSR信息分析[J]. 廣西植物,2011,31(1):43.
[責任編輯呂冬梅]