李崇奇等
摘 要 應用miRtour在線分析工具對巨桉的EST序列和GSS序列進行分析,預測巨桉的miRNA序列,應用psrobot預測 miRNA的靶基因。結果發(fā)現(xiàn)205條miRNA前體序列和屬于62個不同家族的170條成熟的miRNA序列,最大的miRNA家族為miR399家族,有17個成員;miRNA 5′ 段堿基存在明顯的堿基偏倚,尿嘧啶出現(xiàn)頻率高達40.6%;147個miRNA預測到了靶基因,共計預測到巨桉蛋白基因中有967個受到miRNA的調節(jié),同時發(fā)現(xiàn)1個miRNA可以調控多個靶基因,同一蛋白質受多個miRNA調控的現(xiàn)象。
關鍵詞 巨桉;miRNA;EST;GSS
中圖分類號 Q74 文獻標識碼 A
Identification of microRNA in Eucalyptus grandis
LI Chongqi1,2,3, SHEN Wentao2, YAN Pu2, LI Xiaoying2, ZHOU Peng1,2 *
1 College of Agronomy, Hainan University, Haikou, Hainan 570228, China
2 Analysis & Testing Center, Institute of Tropical Bioscience and Biotechnology, Chinese Academy of Tropical
Agricultural Sciences, Haikou, Hainan 571101, China
3 Department of Biochemistry and Molecular Biology, Hainan Medical College, Haikou, Hainan 571199, China
Abstract MicroRNA of Eucalyptus grandis was predicted using EST and GSS by miRtour, whereas miRNA-targeted mRNAs was predicted by Psrobot. 205 precursor sequences and 170 miRNAs belonging to 62 different miRNA familes were found. The largest miRNA family of 17 members is miR399. The uracil nucleotide is dominant in the first position of 5′ mature miRNAs, which is up to 40.6%. 147 miRNA has potential miRNA targets meanwhile 967 protein genes may be regulated by miRNA. In addition, it found that miRNA can regulate multiple target genes while one protein can be regulated by some miRNAs.
Key Words Eucalyptus grandis; miRNA; EST; GSS
doi 10.3969/j.issn.1000-2561.2014.06.012
巨桉(Eucalyptus grandis)為桃金娘科(Myrtaceae)桉屬(Eucalyptus)高大喬木,原產于澳大利亞。目前被廣泛用于熱帶和亞熱帶地區(qū)的人工造林,已成為桉屬樹種中栽培面積最廣的物種[1]。我國從20世紀60年代開始引種巨桉, 主要栽培于長江以南的四川、福建、湖南、云南、江西、貴州等地[2],廣泛用于房屋建筑、人造板、造紙等領域。
巨桉是世界上生長最快的物種之一,每年一公頃人工林收獲的木材可高達100 m3。如何識別影響巨桉生長速率和其他品質相關的基因,對未來巨桉甚至其他林木樹種的遺傳品質改良具有重要的意義。而物種內部很多基因尤其是一些轉錄因子都受到miRNA的調控,對人類的研究發(fā)現(xiàn)30%的基因都受到miRNA的調控[3]。成熟的microRNA是一類大約22堿基左右小RNA分子,與靶基因通過堿基互補配對的方式將mRNA分子剪切或抑制蛋白質的翻譯[4]。植物的microRNA分子研究起步相對較晚[5-6],到目前為止在mirbase數(shù)據(jù)庫(www.mirbase.org)中超過200條成熟microRNA序列的植物僅有13種。但由于植物microRNA分子與靶基因可以精確匹配等特點,可以應用生物信息學方法預測,所以其發(fā)展非常迅速。表達序列標簽(expressed sequence tag,EST)是從一個隨機選擇的cDNA克隆進行5′端和3′端單一次測序獲得的短的cDNA部分序列。而基因組勘測序列(genome survey sequences,GSS)是基因組DNA克隆的一次性部分測序序列,包括隨機的基因組勘測序列、cosmid/BAC/YAC末端序列、通過Exon trapped 獲得基因組序列、通過Alu PCR獲得的序列以及轉座子標記(transposon-tagged)序列等[7]。目前EST序列和GSS序列都被廣泛應用于許多植物miRNA的預測分析[8-11]。本研究擬應用miRtour在線分析工具(http://bio2server.bioinfo.uni-plovdiv.bg/ miRTour/)[12]對巨桉的EST序列和GSS序列進行分析,然后預測巨桉的miRNA序列和miRNA的靶基因,識別與巨桉品質相關或疾病相關的miRNA和其調控的靶基因,為未來巨桉以及其他林木分子遺傳育種奠定理論基礎。
1 材料與方法
1.1 材料
從美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)的網站(www.ncbi.nlm.nih.gov)上分別在EST數(shù)據(jù)庫和GSS數(shù)據(jù)庫中搜索巨桉的序列,然后選擇fasta格式下載,共計獲得巨桉EST序列42 576條,GSS序列284 604條。
1.2 方法
將巨桉EST序列和GSS序列分批遞交到miRtour在線界面上傳后參數(shù)設置如下,最少能夠跟1個已知的miRNA序列比對上(Minimum number of known miRNAs to be aligned),miRNA序列與其互補序列的不配對數(shù)(Maximum unpaired nt in miR/miR*)不超過6對,其他參數(shù)默認。然后下載分析結果可以得到miRNA序列、前體序列、最小自由能、最小自由能指數(shù)等相關參數(shù),同時該在線工具在分析的過程中去除了蛋白質序列。為了使分析結果更加可靠,本研究分別從rfam(http://rfam.sanger.ac.uk/)網站和pfam(http://pfam.sanger.ac.uk/)網站下載非編碼RNA數(shù)據(jù)庫[13]和蛋白質數(shù)據(jù)庫[14],然后應用blast-2.2.27+軟件中的blastn程序將預測到的miRNA前體序列與rfam數(shù)據(jù)庫進行比對,去除除miRNA之外的非編碼RNA;用blastx程序與pfam數(shù)據(jù)庫進行比對去除蛋白質序列即可得到巨桉的miRNA前體序列和相應的成熟miRNA序列,將evalue參數(shù)設置為1e-6,其他參數(shù)默認。將預測到的成熟miRNA序列以fasta格式上傳到psrobot網站(http://omicslab.genetics.ac.cn/psRobot/index.php)[15],應用靶基因預測在線工具進行預測,參數(shù)選擇嚴格模式。
1.3 數(shù)據(jù)分析
應用bioedit[16]統(tǒng)計miRNA及其前體的序列長度,然后統(tǒng)計miRNA序列每個位點的堿基組成,對其堿基偏倚進行分析。
2 結果與分析
2.1 巨桉miRNA預測
42 576條巨桉EST序列經過分析得到14條可能的miRNA前體序列,28 4604條GSS序列得到214條可能的miRNA前體序列,將二者比對去除重復序列后得到207條序列。然后將207條序列與rfam數(shù)據(jù)庫進行比對沒有發(fā)現(xiàn)其他非編碼RNA序列,與pfam數(shù)據(jù)庫比對后發(fā)現(xiàn)2條蛋白質序列,最后得到205條miRNA前體序列。所有前體序列的二級結構都具有典型的莖環(huán)結構,miRNA序列位于莖環(huán)結構的一側,最小自由能指數(shù)為0.7~1.25,GC含量為16.37%~71.18%。所有前體序列的最小自由能都為負值,最高的為egr-miR5185d,其自由能為-14.67 kcal/mol。將205條前體序列對應的miRNA序列進行比對去除重復序列后得到屬于62個不同家族的170條成熟的miRNA序列(表1)。其中發(fā)現(xiàn)miRNA家族成員最多的是miR399家族,有17個成員;其次為miR169家族,有16個成員。
2.2 巨桉miRNA和前體的堿基組成特征
預測的巨桉的miRNA長度為18~24 bp(圖1),miRNA序列中嘌呤與嘧啶的比值為0.98,沒有明顯差異,但堿基組成A:G:C:U為1:1.0:1.2:0.85,胞嘧啶的含量明顯高于尿嘧啶。同時分析miRNA 5′端堿基組成發(fā)現(xiàn):第一和第二個堿基為尿嘧啶的比列分別高達40.6%和39.4%;而A則在第11位堿基出現(xiàn)的頻率最高達36.5%,G則在第9位堿基出現(xiàn)頻率最高達39.4%,C則在第19位堿基出現(xiàn)頻率最高為34.7%。miRNA前體長度為90~224 bp,多為150~200 bp左右(圖2),平均長度為174 bp,嘌呤與嘧啶的比值為1.0,堿基組成A:G:C:U為1:1.2:1.4:0.9,與miRNA成熟序列類似胞嘧啶的比例明顯偏高。同時分析前體序列5′端堿基組成發(fā)現(xiàn)嘌呤與嘧啶的比值為1.85,而3′端僅為0.85。
2.3 巨桉miRNA靶基因預測
170個miRNA中有147個預測到了靶基因,去除同一miRNA重復預測的蛋白和不能夠被注釋的蛋白后預測到的靶基因總數(shù)達到1 505個,總計預測到巨桉表達蛋白中有967個受到miRNA的調節(jié)。29個miRNA僅預測到單個靶基因,24個發(fā)現(xiàn)兩個靶基因,其余均發(fā)現(xiàn)多個靶基因,超過100個靶基因的有egr-miR4993、egr-miR414和egr-miR477,分別為317、157和136個。同時發(fā)現(xiàn)128種蛋白受2個以上miRNA調控,而PHO2蛋白受調節(jié)的miRNA最多達到8個。同時發(fā)現(xiàn)miRNA477和miR414與巨桉纖維素形成密切相關,其靶基因分別為纖維素合成酶A4和A9。本研究中列出了預測到的分值≤1.5的靶基因(表2)。
3 討論與結論
本研究應用EST和GSS序列預測了巨桉的205條miRNA前體序列和170條miRNA成熟序列,而另一種林業(yè)生產的主要物種目前已經發(fā)現(xiàn)352條前體序列和401條成熟miRNA序列。而Bartel等[4]認為每個物種的miRNA數(shù)量應該達到其基因數(shù)量的1%,而巨桉蛋白編碼序列目前發(fā)現(xiàn)36 376個(http://www.phytozome.net/eucalyptus.php)。因此預計巨桉的miRNA數(shù)量應該達到364個,而且事實上這一數(shù)目可能更高,因為目前mirbase數(shù)據(jù)庫中人類(Homo sapiens)和小鼠(Mus musculus)的miRNA序列目前已經分別發(fā)現(xiàn)2 578條和1 908條。因而未來巨桉的miRNA序列還有待于進一步的生物信息學挖掘,或通過小RNA測序等相關實驗技術進行識別。
miRtour是一種基于網頁從EST和GSS數(shù)據(jù)中識別植物miRNA的研究工具,其最大特點是可以自動識別符合miRNA前體特征的莖環(huán)結構序列[12]。該方法設置的最小自由能指數(shù)為0.7,但本研究中通過blastx去除了含有莖環(huán)結構的蛋白質序列,因而結果是可靠的。而Zhang等[17]基于對tRNA、rRNA、mRNA和miRNA前體研究后發(fā)現(xiàn)90%的miRNA前體序列最小自由能指數(shù)都高于0.85,從而建議以0.85為臨界值區(qū)分miRNA前體序列與其他RNA序列。但這毫無疑問會低估m(xù)iRNA的數(shù)量,甚至丟失掉其他10%的miRNA序列。因而本研究認為通過與rfam和pfam數(shù)據(jù)進行blast分析是分別miRNA前體序列與其他RNA序列的可靠方法。
本研究發(fā)現(xiàn)巨桉miRNA序列的5′端第一個堿基尿嘧啶比例最高,C則在第19位堿基出現(xiàn)頻率最高,這與多項研究一致。擬南芥和水稻的研究發(fā)現(xiàn)其5′端首個堿基中尿嘧啶比例高達83.6%[11],而在大豆中為70%[18],亞麻中為75%[19]。同時在大豆中發(fā)現(xiàn)19位為胞嘧啶的高達60%,而在亞麻中達80%。目前認為miRNA 5′端堿基對于其與選擇不同Argonaute蛋白結合形成RISC復合物是至關重要的[20]。
本研究中86.5%的巨桉miRNA都預測到了靶基因,同時發(fā)現(xiàn)miRNA477和miR414與巨桉纖維素形成密切相關,其靶基因分別為纖維素合成酶A4和A9。同時發(fā)現(xiàn)許多轉錄因子都受到miRNA的調控。其中發(fā)現(xiàn)SPL轉錄因子(squamosa promoter binding protein-like,SPL)家族的多個成員都受到巨桉miRNA156家族的調控,而SPL參與了植物葉、花、果實的發(fā)育過程及植物結構、孢子形成、信號轉導和抗逆反應等一系列重要的生物學過程。而GRAS轉錄因子(GRAS family transcription factor)則同時受到巨桉miRNA171和miRNA477家族的調控,GRAS被認為參與植物側生分生組織發(fā)育、莖尖分生組織的形成、根輻射形態(tài)形成、赤霉素的信號轉導、光敏色素信號傳導、雄配子發(fā)育、解毒功能和抗逆反應等過程。參與了細胞分化、細胞周期的調節(jié),激素和環(huán)境因子應答的Myb轉錄因子則受到巨桉egr-miR828b的調控。此外本研究還發(fā)現(xiàn)在林產工業(yè)上廣泛應用的漆酶(laccase)在巨桉中受miRNA397家族所調控。
參考文獻
[1] 胡天宇, 李臣坤. 巨桉種源引種選擇研究[J]. 四川農業(yè)大學學報, 1999, 17(1): 44-49.
[2] 王燕高, 胡庭興. 我國引種巨桉及其研究進展[J]. 森林工程, 2005, 21(4): 1-4.
[3] Lewis B P, Burge C B, Bartel D P. Conserved seed pairing, often flanked by adenosines, indicates that thousands of human genes are microRNA targets[J]. 2005, Cell, 120(1): 15-20.
[4] Bartel D P. MicroRNAs: Genomics, biogenesis, mechanism, and function[J]. Cell, 2004, 116(2): 281-297.
[5] Llave C, Kasschau K D, Rector M A, et al. Endogenous and silencing-associated small RNAs in plants[J]. Plant Cell, 2002, 14(7): 1 605-1 619.
[6] Reinhart B J, Weinstein E G., Rhoades M W, et al. MicroRNAs in plants[J]. Genes Dev, 2002, 16: 1 616-1 626.
[7] 羅曉燕, 侍 婷, 蔡 斌, 等. 核果類果樹中microRNAs的生物信息學預測及驗證[J]. 林業(yè)科學, 2012, 48(2): 75-81.
[8] Din M, Barozai M Y. Profiling microRNAs and their targets in an important fleshy fruit: Tomato(Solanum lycopersicum)[J]. Gene, 2014 , 535(2): 198-203.
[9] Panda D, Dehury B, Sahu J, et al. Computational identification and characterization of conserved miRNAs and their target genes in garlic(Allium sativum L.)expressed sequence tags[J]. Gene, 2014, 537(2): 333-342.
[10] Zhang B H, Pan X P, Wang Q L, et al. Identification and characterization of new plant microRNAs using EST analysis[J]. Cell Res, 2005, 15(5): 336-360.
[11] Zhang B, Pan X, Cannon C, et al. Conservation and divergence of plant microRNA genes[J]. Plant J, 2006, 46(2): 243-259.
[12] Milev I, Yahubyan G, Minkov I, et al. miRTour: Plant miRNA and target prediction tool[J]. Bioinformation, 2011, 6(6): 248-249.
[13] Burge S W, Daub J, Eberhardt R, et al. Rfam 11.0: 10 years of RNA families[J]. Nucleic Acids Res, 2012, 41(D1): D226-232.
[14] Punta M, Coggill P C, Eberhardt R Y, et al. The Pfam protein families database[J]. Nucleic Acids Research, 2012, 40(D1): D290-D301.
[15] Wu H J, Ma Y K, Chen T, et al. PsRobot: a web-based plant small RNA meta-analysis toolbox[J]. Nucleic Acids Res, 2012, 40(W1): W22-28.
[16] Hall T A. BioEdit: a user-friendly biological sequence alignment editor and analysis program for Windows 95/98/NT[J]. Nucl. Acids. Symp. Ser, 1999, 41: 95-98.
[17] Zhang B H, Pan X P, Cox S B, et al. Evidence that miRNAs are different from other RNAs[J]. Cell Mol Life Sci, 2006, 63(2): 246-254.
[18] Zhang B, Pan X, Stellwag E J. Identification of soybean microRNAs and their targets[J]. Planta, 2008, 229(1): 161-182.
[19] Neutelings G, Fénart S, Lucau-Danila A, et al. Identification and characterization of miRNAs and their potential targets in flax[J]. J Plant Physiol, 2012, 169(17): 1 754-1 766.
[20] Thieme C J, Schudoma C, May P, et al. Give It AGO: The search for miRNA-argonaute sorting signals in arabidopsis thaliana Indicates a relevance of sequence positions other than the 5'-position alone[J]. Front Plant Sci., 2012, 3: 272.
責任編輯:沈德發(fā)