張宇君 尚以順 王普昶
摘 要:利用Illumina HiSeq 2000高通量測序技術對巴哈雀稗葉片進行轉錄組測序,共計獲得42 844 132個序列讀取片段,包含堿基序列信息6 426 619 800個。對讀取片段進行序列組裝,得到99 235個單基因簇。圍繞GC含量、測序質量、長度分布的單基因簇評估測序數(shù)據(jù)均顯示質量好、可信度較高。與Nr數(shù)據(jù)進行序列同源性比對結果顯示,有53 886個單基因簇與其他植物的已知基因具有不同程度的同源性。結合GO數(shù)據(jù)庫對巴哈雀稗的單基因簇進行功能分類,大致可分成為細胞組分、分子功能和生物學過程3大類共計70個分支,其中大量的單基因簇主要與細胞進程、結合活性及細胞成分有關。將單基因簇與COG數(shù)據(jù)庫進行比對分析,依據(jù)其功能可大致分為25類。以KEGG數(shù)據(jù)庫為參考,依據(jù)代謝途徑將單基因簇定位到31個代謝途徑分支上,具體包含核糖體代謝途徑、碳代謝途徑、氨基酸生物合成途徑、內質網蛋白加工、剪接體和甜菜紅色素生物合成等。通過SSR位點查找在巴哈雀稗99 235個單基因簇中共找到12 062個SSR位點。其SSR不同重復基序類型中,A/T出現(xiàn)頻率最高,其次是AT/GA和AG/CT。
關鍵詞:巴哈雀稗;轉錄組;基因注釋;SSR
中圖分類號:Q789文獻標識碼:A文章編號:1006-060X(2019)10-0001-07
Abstract: The transcriptome of Paspalum notatum leaves was sequenced using Illumina HiSeq 2000 high-throughput sequencing technology, 42 844 132 sequences were readed, containing 6 426 619 800 bases. Sequence assembly of the read fragments yielded 99 235 unigenes. The evaluation of unigene based on GC content, sequencing quality and length distribution showed that the data volume and quality of sequencing were good and the reliability was high. Sequence homology analysis compared with Nr data revealed that 53 886 unigenes had different degrees of homology with known genes of other plants. Unigenes of Paspalum notatum were roughly divided into 70 branches of cell components, molecular functions and biological processes by function classification combined with the GO database, a large number of unigenes mainly related to cell processes, binding activities and cellular components. After comparing and analyzing the unigenes with COG databases, they were roughly classified into 25 categories according to their functions. Based on the KEGG database, unigenes were mapped to 31 metabolic pathway branches including ribosomal metabolism, carbon metabolism, amino acid biosynthesis, endoplasmic reticulum protein processing, splice and beet red color biosynthesis. A total of 12 062 SSR loci were found in the 235 unigenes of the Paspalum notatum by SSR locus analysis. A/T had the highest occurrence frequency among the different repeat motif types of SSR followed by AT/GA and AG/CT. This study provided an important source of genomic data for the molecular biology research of the genus Paspalum notatum.
Key words: Paspalum notatum; transcriptome; gene annotation; SSR
巴哈雀稗(Paspalum notatum)是一種原產于南美洲的禾本科雀稗屬黍族多年生草本植物。于20世紀50年代初首次引入臺灣,適宜在年降水量高于750 mm的熱帶和亞熱帶地區(qū)生長,尤其在中國的云、貴、川、湘等南方地區(qū)種植較多。目前已在中國西南、華南近10個省區(qū)推廣,并被成功應用于三峽庫區(qū)的水土保持和生態(tài)防護工程中[1]。巴哈雀稗的抗逆性強,具有耐貧瘠、抗旱、固地性強等特點,在治理水土流失中發(fā)揮著重要作用[2]。因其對土壤的要求低,在肥力缺乏的沙質土壤中仍能頑強生長,常被選作公路、堤壩、機場跑道綠化的優(yōu)選草種,具有較大的應用開發(fā)潛力。目前關于巴哈雀稗的研究主要集中在水土流失治理、荒山荒坡綠化、果園覆蓋、飼草料等方面[3],而有關巴哈雀稗遺傳多樣性、分子標記開發(fā)等分子方面的研究相對較少。開展巴哈雀稗的轉錄組學研究,能為牧草、草坪草分子領域的相關研究提供基礎數(shù)據(jù)。
近年來,在植物細胞代謝過程和生命活動規(guī)律研究中被廣泛應用的轉錄組測序技術來源于以大量基因序列或分子數(shù)據(jù)庫信息為前提的傳統(tǒng)芯片雜交平臺[4],該平臺的特點在于:不僅能夠準確、快速、全面地獲得選定植物在特定狀態(tài)下某一組織的全部轉錄組信息[5],同時還能挖掘某些重要的功能基因。研究以采自貴州省羅甸縣龍坪鎮(zhèn)的野生巴哈雀稗為試驗材料,利用高通量測序技術獲取巴哈雀稗幼苗葉片的轉錄組序列,以期通過序列組裝、功能注釋和深度分析,為今后開展有關巴哈雀稗的分子生物學研究提供素材。
1 材料與方法
1.1 試驗材料
供試野生巴哈雀稗采自貴州省羅甸縣龍坪鎮(zhèn)(106°41′56.99″E,25°23′8.93″N),由貴州省農業(yè)科學院草業(yè)研究所提供。
1.2 試驗方法
1.2.1 RNA提取與檢驗 隨機選取10株使用Hoagland培養(yǎng)液培養(yǎng)至3葉一心時期的巴哈雀稗幼苗葉片,充分混合研磨后采取TRIzol法提取葉片的總RNA。采用NanoDrop-2000濃度測定儀對總RNA樣品進行檢測評估,以確保樣品質量符合要求。
1.2.2 cDNA文庫構建和測序RNA 樣品經檢驗合格后,送上海生工生物工程有限公司進行cDNA文庫構建和Illumina HiSeq 2000測序。
1.2.3 轉錄組組裝 將獲得的原始序列采用Trimmomatic
進行過濾,得到Clean數(shù)據(jù),使用Trinity將Clean數(shù)據(jù)de novo組拼接組裝成轉錄本,再對Trinity拼裝得到的轉錄本去冗余,取每個轉錄本聚類中最長序列作為單基因簇。
1.2.4 基因功能注釋 使用BLAST程序將獲得的單基因簇與NR數(shù)據(jù)庫進行序列相似性比對,然后選取最佳的功能注釋;利用WEGO軟件對所有的單基因簇進行GO功能分類統(tǒng)計;對巴哈雀稗單基因簇分別進行COG功能分類和KEGG代謝途徑分析。
1.2.5 簡單重復序列 對篩選獲得的大于1 kb的單基因簇序列利用MISA軟件進行SSR分析。
2 結果與分析
2.1 巴哈雀稗轉錄組的序列組裝與分析
巴哈雀稗幼苗葉片轉錄組測序共計獲得6 426 619 800?bp的序列信息,其中包含序列讀取片段42 844 132個,每一片段的長度為150 bp;GC含量的平均值為62.62%;堿基Q30為92.18%。這表明該轉錄組測序數(shù)據(jù)量質量較好。
對巴哈雀稗的reads片段進行聚類組裝,獲得177 162個轉錄本,最長的為10 795 bp,最短的有201 bp,平均長度為771.38 bp,N50為1 186 bp(表1)。其中,有50 320個轉錄本長度在200~300 bp的范圍內,占比28.40%;300~500 bp的轉錄本有36 902個,占比20.83%;500~1 000 bp的轉錄本有43 377個,占比24.49%;1 000~2 000 bp的轉錄本有35 280個,占比19.91%;≥2 000 bp的轉錄本有11 283個,占比6.37%(表2)。
在轉錄本數(shù)據(jù)的基礎上,進一步對序列進行組裝,又獲得99 235個單基因簇,最長的有10 795 bp,最短的為201 bp,平均長度為641.96 bp(表1)。其中,單基因簇長度在200~300 bp的有39 470個,占比39.77%;單基因簇長度在300~500 bp的有22 352個,占比22.52%;長度在500~1 000 bp的單基因簇有18 822個,占比18.97%;1 000~2 000 bp的單基因簇有13 556個,占比13.66%;≥2 000 bp的單基因簇有5 035個,占比5.07%(表2)。
2.2 巴哈雀稗的單基因簇分析
2.2.1 單基因簇序列相似性分析 將組裝獲得的巴哈雀稗單基因簇與Nr數(shù)據(jù)庫利用BLAST程序進行序列相似性比對。結果發(fā)現(xiàn),有53 886個單基因簇均可在Nr數(shù)據(jù)庫中找到相似序列;其中,巴哈雀稗與谷子(Setaria italica)的相似序列在匹配的近緣物種中所占比例最高,有14 130個,占比26.22%;高粱(Sorghum bicolor)有10 594個,占比19.66%;玉米(Zea mays)有6 908個,占比12.82%;二穗短柄草(Brachypodium distachyon)有3 569個,占比6.62%;大麥(Hordeum vulgare)有3 400個,占比6.31%;節(jié)節(jié)麥(Aegilops tauschii)有2 366個,占比4.39%;水稻(Oryza sativa)有1 913個,占比3.55%(圖1)。
2.2.2 單基因簇的GO分類 結合GO數(shù)據(jù)庫與NCBI
數(shù)據(jù)庫的功能注釋信息,對巴哈雀稗的單基因簇進行功能分類和表達基因功能分布特征分析,結果如圖2所示,巴哈雀稗單基因簇具體可以劃分為70個不同的功能組,歸屬于3大類:(1)生物學過程,有152 664個單基因簇;(2)細胞組分,有151 297個單基因簇;(3)分子功能,有61 339個單基因簇。其中,細胞(32 100個)、細胞成分(32 022個)、細胞進程(27 602個)、結合活性(26 715個)、新陳代謝進程(24 580個)、細胞器(23 939個)和催化活性(23 135個)功能組中涉及的單基因簇較多;而細胞聚合(9個)、受體調節(jié)活性(5個)、趨化活性(2個)、化學誘導活性(1個)和生物節(jié)律性(1個)功能組中所涉及的單基因簇較少。
2.2.3 單基因簇的COG分類 對巴哈雀稗單基因簇進行COG分類和功能預測,結果如圖3所示,具體可分為25類;其中,細胞運動類單基因簇數(shù)量最少,僅有9個;核結構類和胞外結構類的單基因簇較少,分別只有103和77個;一般功能預測類和“翻譯、核糖體結構和生物發(fā)生”類的單基因簇稍多,分別有2 924和2 053個;翻譯后修飾,蛋白質折疊和分子伴侶類的單基因簇較多,有3 105個;信號傳導機制類單基因簇最多,達3 330個。以上結果表明單基因簇涉及的COG功能類別較為豐富。
2.2.4 單基因簇的KEGG分析 參考KEGG數(shù)據(jù)庫,對巴哈雀稗單基因簇的代謝途徑進行統(tǒng)計分類,結果如圖4所示,巴哈雀稗單基因簇可以分為細胞進程、環(huán)境信息進程、遺傳信息進程、新陳代謝和生物系統(tǒng)共5個主要的代謝途徑,包含31類代謝通路;其中,信號轉導、翻譯、碳水化合物代謝、“折疊、分類和降解”、 代謝概況、“運輸和代謝”、氨基酸代謝、能量代謝和脂類物質代謝等通路涉及的單基因簇較多。
結合KEGG pathway數(shù)據(jù)庫,將巴哈雀稗單基因簇定位到具體的183個代謝途徑分支上,結果如表3所示,其中甜菜紅色素生物合成的基因最少,僅有1個;占總體比例最大(5.54%)的是參與核糖體代謝途徑的基因,有1 022個;碳代謝途徑的基因占總體的3.84%,有709個;氨基酸生物合成途徑的基因占總體的3.14%,有580個。
2.3 SSR預測
通過SSR位點搜索,如表4所示,在巴哈雀稗的99 235個單基因簇中共檢測到12 062個SSR位點;其中,三核苷酸重復所占比例最高,為52.85%;六核苷酸重復比例最低,僅占0.59%。在所有檢測到的SSR中,出現(xiàn)頻率最高的3類基序為:A/T(3 602個)、AT/GA(550個)、AG/CT(487個)。在上述SSR特征分析中,單核苷酸至六核苷酸重復類型均存在,這有助于巴哈雀稗及其雀稗屬植物開展遺傳圖譜構建、基因組差異分析及通用性標記開發(fā)等研究,同時也表明了巴哈雀稗的SSR類型較為豐富。
3 討 論
Illumina高通量測序技術具有成本低、速度快、數(shù)據(jù)量大、效率高的特點[6],尤其適用于類似巴哈雀稗這樣缺乏基因組信息的植物轉錄組學研究。該研究對高通量測序獲得的42 844 132個巴哈雀稗reads序列進一步拼接組裝后獲得99 235個單基因簇,長度在201~10 795 bp范圍內,平均長度為641.96 bp,N50為1 024 bp。 N50是評價組裝序列完整性的重要指標,N50越長,代表組裝的完整性越好。此次序列組裝的數(shù)據(jù)已滿足轉錄組分析的基本要求,這與賈新平等對海濱雀稗[7]和鳥巢蕨[8]的研究結果類似。
該研究發(fā)現(xiàn)巴哈雀稗獲得的單基因簇與Nr數(shù)據(jù)庫比對存在53 886個相似序列,同時還獲得了45 349個新的單基因簇 (占總體的45.70%),這說明對于缺乏基因組、EST及蛋白序列信息的植物,采用高通量測序技術不失為發(fā)現(xiàn)其功能基因的一種有效手段[9]。
功能注釋分析發(fā)現(xiàn),基于GO數(shù)據(jù)庫對巴哈雀稗單基因簇相關功能的注釋信息尚未完善,還存在部分的單基因簇沒有被賦予可能的GO條目,究其原因可能是GO數(shù)據(jù)庫結構設計上存在缺陷,同時還有部分基因的特征尚未被注解,使得這些基因的注釋信息并不完整;也可能是這些序列不是注釋蛋白質的重要同源物的緣故[10-11]。因此,后期還需要通過其他的方法對單基因簇功能注釋進行補充和完善。在KEGG的代謝途徑中,部分代謝途徑與次生代謝物質的生物合成及信號傳導途徑有關,譬如β-丙氨酸代謝(ko00410)、苯丙素生物合成(ko00940)、淀粉與蔗糖代謝(ko00500)及丙酮酸代謝(ko00620)等。這些次生代謝產物及信號傳導途徑均為植物體內重要的抗逆途徑,可以緩解或抵御因缺水、水澇等逆境造成的活性氧損傷[12]。從基因組水平上利用COG數(shù)據(jù)庫搜索直系同源體,既可預測未知ORF的生物學功能,又能對巴哈雀稗單基因簇的基因功能進行分類,這能顯著提高基因功能注釋的準確性。
SSR分子標記具有遺傳信息量大、重復性好、多態(tài)性豐富、共顯性遺傳等多個優(yōu)點[13]。該研究發(fā)現(xiàn)的12 062個SSR位點出現(xiàn)頻率高且類型豐富,恰好能為下一步巴哈雀稗SSR分子標記開發(fā)奠定基礎。
該研究采用高通量測序技術對巴哈雀稗幼苗葉片進行了序列組裝、功能注釋、代謝途徑等分析,并獲得了其轉錄組數(shù)據(jù),該數(shù)據(jù)在今后有關雀稗屬植物的分子生物學研究中可作為雀稗數(shù)植物基因組的參考序列,提供可靠的數(shù)據(jù)資源。
參考文獻:
[1] 侯曉龍,蔡麗平,韓 航,等. 鉛脅迫對百喜草葉綠素熒光特性及酶活性的影響[J]. 草業(yè)學報,2017,26(3):142-148.
[2] 劉華榮,龍忠富,鄧 蓉,等. 百喜草在退耕坡地種植中的水土保持效應及養(yǎng)羊效果[J]. 貴州農業(yè)科學,2012,40(7):145-148.
[3] 龍忠富. 百喜草種子生產技術研究[D]. 貴陽:貴州大學,2006.
[4] 黃玉蘭,殷奎德,向君亮. 薏苡幼苗葉片轉錄組分析[J]. 農業(yè)生物技術學報,2017,25(3):386-396.
[5] Middleton A M,?beda-Tomás S,Griffiths J,et al. Mathematical modeling elucidates the role of transcriptional feedback in gibberellin signaling[J]. PNSA,2012,109(19):7571-7576.
[6] ??∑?,蘇建睦,王小敏,等. 基于高通量測序的金釵石斛葉轉錄組數(shù)據(jù)分析[J]. 分子植物育種,2018,16(3):747-756.
[7] 賈新平,孫曉波,鄧衍明,等. 鳥巢蕨轉錄組高通量測序及分析[J]. 園藝學報,2014,41(11):2329-2341.
[8] 賈新平,葉曉青,梁麗建,等. 基于高通量測序的海濱雀稗轉錄組學研究[J]. 草業(yè)學報,2014,23(6):242-252.
[9] Yan H,Jia H,Chen X,et al. The cotton WRKY transcription factor GhWRKY17 functions in drought and salt stress in transgenic Nicotiana benthamiana through ABA signaling and the modulation of reactive oxygen species production[J]. Plant Cell Physiol,2014,55(12):2060-2076.
[10] 王偉科,宋吉玲,閆 靜,等. 秀珍菇轉錄組測序和初步分析[J]. 南京農業(yè)大學學報,2019,42(2):292-299.
[11] 趙 胡,唐開靜,范小瑩,等. ?‘黑油椿香椿嫩芽高通量轉錄組測序及萜類代謝物質初步分析[J]. 園藝學報,2017,44(11):2135-2149.
[12] 張少平,邱珊蓮,鄭云云,等. 紫色黃秋葵轉錄組功能基因測序及分析[J]. 核農學報,2017,31(4):643-653.
[13] 楊 旭,楊志玲,譚 美,等. 厚樸轉錄組特征分析及EST-SSR標記的開發(fā)[J]. 核農學報,2019,33(7):1318-1329.
(責任編輯:成 平)