摘要:miRNA是目前生物學研究的熱點領域之一,隨著越來越多的miRNA被發(fā)現(xiàn),miRNA的命名及注釋鑒定標準經歷了一系列變化。對miRNA的命名及注釋鑒定標準進行了總結,以期為后續(xù)的miRNA命名及注釋鑒定提供借鑒。
關鍵詞:miRNA;命名;注釋
中圖分類號:Q-33 文獻標識碼:A 文章編號:0439-8114(2016)19-4897-04
DOI:10.14088/j.cnki.issn0439-8114.2016.19.001
Abstract: miRNA is one of the hot spot in biological research. With the discovery of more and more miRNA, the identification criteria for naming and annotation of miRNA have undergone a series of changes. The development of identification criteria for naming and annotation of miRNA were summarized, in order to provide references for the subsequent miRNA research.
Key words: miRNA; naming; annotation
miRNA是動物、植物、微生物甚至包括病毒在內的生物普遍存在的一類單鏈非編碼小RNA分子,其序列長度約22 nt,并在物種間有一定的保守性。1993年Victor Ambros實驗室首先在秀麗線蟲中發(fā)現(xiàn)非編碼小RNA lin-4通過反義RNA-RNA互作形式與3′UTR結合負調控LIN-14蛋白的表達[1];2000年Gary Ruvkun實驗室發(fā)現(xiàn)第二個非編碼RNA let-7通過3′UTR負調控LIN-41蛋白的表達[2],同時發(fā)現(xiàn)let-7序列在不同物種間有一定的保守性[3];此后,人們意識到非編碼小RNA可能在物種中廣泛存在,從而在2001年《Science》雜志上同時有3篇文獻報道物種中存在大量非編碼RNA,并將其統(tǒng)稱為microRNA或miRNA[4-6]。
此后,miRNA的研究迅速吸引了大批科學家,成為目前生物學研究熱點領域之一。miRNA的序列及注釋信息均貯存在miRBase(www.mirbase.org)數(shù)據(jù)庫中,該數(shù)據(jù)庫將不同物種歸為5大門類:Chromalveolata(囊泡藻界)、Metazoa(動物界)、Mycetozoa(黏菌門)、Viridiplantae(植物界)、Viruses(病毒界)。miRBase數(shù)據(jù)庫已更新至21版,共28 645條記錄[7]。
本文對miRNA的命名及注釋鑒定標準進行了總結,以期為后續(xù)miRNA研究提供借鑒。
1 miRNA簡介
miRNA在生物體內由miRNA基因編碼,miRNA基因分布于各染色體上,可位于基因間、內含子或外顯子上,且多個miRNA基因常成簇存在。在動物細胞核內miRNA基因被II型RNA聚合酶轉錄為miRNA初級轉錄本(pri-miRNA)[8],再經過Drosha/DGCR8復合體加工成為前體miRNA(pre-miRNA)[9-11];pre-miRNA被轉運蛋白(例如EXP5)從細胞核輸出至細胞質[12];在細胞質中,pre-miRNA被Dicer酶進一步加工為成熟的miRNA(Mature miRNA)[13];成熟的miRNA與Ago蛋白等相關蛋白組成miRISC沉默復合體,抑制靶基因mRNA翻譯或者直接降解mRNA,從而調控靶基因的表達[14]。
miRNA生成與作用過程在植物細胞與在動物細胞中會稍有差異,植物miRNA基因也被II型RNA聚合酶轉錄為pri-miRNA;植物miRNA加工為成熟的miRNA過程均在細胞核內完成,并且沒有Drosha/DGCR8的同源蛋白,植物pri-miRNA及pre-miRNA序列長度的變異比動物更大;成熟的miRNA或者pre-miRNA被轉運蛋白輸出至細胞質;在細胞質中,miRNA與Ago家族蛋白(主要是Ago1)結合成為miRISC沉默復合體,并主要以降解靶基因mRNA的方式調控靶基因的表達[15]。
2 miRNA命名
2.1 命名規(guī)則統(tǒng)一前的miRNA命名情況
最先發(fā)現(xiàn)的幾個miRNA基因根據(jù)其表型分別被作者命名為lin-4、let-7、lsy-6。2001年,Thomas Tuschl、Gary Ruvkun、Victor Ambros 3個實驗室同時發(fā)現(xiàn)大量的非編碼小RNA,因此他們商定將這類小RNA命名為microRNAs或miRNAs;并將具體發(fā)現(xiàn)的每一個miRNA按照發(fā)現(xiàn)順利進行數(shù)字命名(例如miR-1),并將編碼該miRNA的基因以mir-1表示;高度同源的序列給以相同的名字,并增加1個小寫字母代表同源序列間的少數(shù)堿基差異(例如miR-2a、miR-2b);如果在基因組不同位點產生相同的miRNA,則在其后面進一步加上短橫線及數(shù)字后綴(例如mir-6-1、mir-6-2)[4]。
2.2 動物miRNA的命名
2003年Ambros等[16]科學家聯(lián)合發(fā)表了一個miRNA鑒定、注釋及命名的規(guī)則。miRNA的命名以“miR”為前綴,再加惟一的基因發(fā)現(xiàn)順序的數(shù)字(例如miR-1、miR-2等);相應的miRNA編碼基因用小寫字母及斜體表示(例如mir-1、mir-2);不同物種中相同或相似的miRNA用相同的名字命名(例如果蠅與秀麗線蟲的miR-1相差1個堿基,但均命名為miR-1);同一物種相同的miRNA命名相同,加數(shù)字后綴區(qū)分不同的基因組位點(例如果蠅的mir-6-1、miR-6-2表示這兩個miRNA基因在基因組不同位置,但均能產生相同的成熟miRNA序列);同一物種中相似的miRNA命名相同,但是給以不同的小寫字母后綴進行區(qū)分(例如果蠅的miR-13a、miR-13b)。
2004年Griffiths-Jones[17]對miRNAs的命名進行了進一步補充,miRNA的初級轉錄前體稱為pri-miRNAs;發(fā)卡結構(Hairpin)的直接前體稱為pre-miRNAs。對于來自同一pre-miRNA前體的兩個miRNA,用類似miR-56及miR-56*表示,其中帶“*”號的miRNA表達量較低,屬隱形表達;如果暫不知道兩個miRNA的顯隱性表達關系,則用如miR-142-5p及miR-142-3p的形式表示兩個miRNA分別來自同一發(fā)卡前體的靠近5′或3′的莖;同時建議最好不用miR-142-s及miR-142-as[18]的形式表示。后來發(fā)現(xiàn)miRNA的顯隱性表達是相對的,在不同條件下兩者間的表達量可能變化,因此不再用基因加“*”號代表隱形表達的miRNA,改為用加“-5p”、“-3p”代表兩者間的位置關系[19]。在miRBase中記錄的miRNA如果重新命名,則其之前的名稱可在“Previous IDs”項查看。miRNA前體也用斜體表示,要依據(jù)上下文判斷所指代到底是miRNA基因還是所預測前體(例如用mir-16表示其基因及所預測的前體)。
2006年Griffiths-Jones等[19]進一步補充,在表示不同物種相同或相似的miRNA時,其前面加上3~4個字母代表物種的前綴表示(例如來自人類的hsa-miR-101與來自小鼠的mmu-miR-101)。
以上的命名規(guī)則,2008年Griffiths-Jones等[20]進行了進一步確認。
另外,由于人類的miR-548基因家族成員目前已知有80個,這樣在用字母進行不同成員區(qū)分時單字母(僅有26個)已經不夠用,因此人類的miR-548家族成員可以看到有雙字母存在的情況,例如has-miR-548aa、has-miR-548az-5p。
2.3 植物miRNA的命名
植物的miRNA基因命名與動物的miRNA命名類似,但也有明顯的區(qū)別:首先,植物的miRNA基因命名以物種前綴+MIR(全大寫字母,與動物有差異)+數(shù)字組成,例如ath-MIR166a。其次,同一植物基因組不同位點產生相同或相似的成熟miRNA均增加1個字母進行區(qū)別,不用數(shù)字后綴[20],例如ath-miR166a,這種規(guī)則會導致相同的成熟miRNA序列,然而由于其基因在基因組的位點不同,而名稱不一樣,例如ath-miR156a-5p位于2號染色體、ath-miR156d-5p位于5號染色體,但兩者序列一致。最后,植物的miRNA前體序列較長(約200 bp),而動物的miRNA前體較短(約100 bp),這樣導致同樣的前體序列產生多個不同的miRNA,如擬南芥ath-MIR829基因,在前體的5′端有一個miRNA(ath-miR829-5p),而在其3′端有兩個miRNA,這兩個miRNA分別命名為ath-miR829-3p.1、ath-miR829-3p.2[21,22]。
2.4 病毒miRNA的命名
病毒的miRNA基因是以其來源的遺傳位點命名,例如來自Epstein Barr病毒BART位點的miRNA基因命名為ebv-mir-BART1。同一基因產生的多個miRNA基因用數(shù)字后綴區(qū)分,例如rlcv-mir-rL1-1基因。
病毒的成熟miRNA序列命名類似動物成熟miRNA命名,例如rlcv-mir-rL1-1基因產生的兩個miRNA分別命名為rlcv-miR-rL1-1-5p、rlcv-miR-rL1-1-3p。
3 miRNA的注釋鑒定
3.1 miRNA注釋鑒定通用標準
2003年Ambros等[16]首次提出了miRNA鑒定的標準(Expression criteria),主要包括表達標準及生成標準(Biogenesis criteria)。
1)表達標準如下:
A:在RNA樣本中能通過雜交(通常是Northern blotting方法)檢測到約22 nt的RNA轉錄本存在。
B:從RNA文庫反轉錄獲得的cDNA文庫中鑒定約22 nt的序列,并且該序列能與所研究的物種的基因組序列完全匹配。
2)生成標準如下:
C:22 nt的miRNA序列需來自發(fā)卡結構前體的一個臂上,所預測的發(fā)卡結構自由能要最小,并且能在另一臂上找到該miRNA至少16 bp配對的部分序列,發(fā)卡結構的前體不能包含大的內在環(huán)及大的不對稱凸起。動物的發(fā)卡結構的前體長度約60~80 nt,而植物的前體序列變異較大,甚至可能有幾百個堿基長。
D:miRNA及其前體序列二級結構的保守性,保守的發(fā)卡結構的要求同上述C點,只是不要求折疊自由能最低。
E:Dicer蛋白功能的缺失導致可檢測到miRNA前體的積累。
3)以上條件單獨或其組合對于是否miRNA的判斷情況如表1。
隨著miRNA測序技術的發(fā)展,miRNA序列測定結果越來越多,在這些結果中發(fā)現(xiàn),miRNA的兩端是可變的,尤其3′端發(fā)生變化的可能性更大,因而將其中測序次數(shù)最多的序列作為miRNA序列[20]。
3.2 植物miRNA注釋鑒定標準
由于植物miRNA有其自身特點,因此,Meyers等[22]將植物miRNA的注釋特點單獨總結如下:
1)主要標準:從發(fā)卡結構的前體一個臂獲得21個堿基的miRNA序列。植物發(fā)卡結構的前體具有這些特征:①miRNA與miRNA*(miRNA*是miRNA對應另一個臂上與miRNA配對部分的序列的統(tǒng)稱,這部分序列可以是一個miRNA,也可不是)分別來自發(fā)卡結構的兩個臂,且其形成的雙鏈結構在3′端有2個堿基的懸垂。②miRNA與其對應臂上的序列,包括miRNA*只有4個或者更少堿基的錯配。③miRNA及其對應臂上的序列所形成的非對稱的凸起序列很短(1~2個堿基)且頻率很低(1個或沒有),尤其在miRNA/miRNA*結構中。
2)輔助標準:物種間的保守性,雖然大部分miRNA在物種間保守,須注意有一部分miRNA是物種特有的。存在所調控靶基因,但須注意一些保守性低miRNA所預測的靶基因難以驗證,甚至一些miRNA自身靶基因很少,或者雖然有靶基因但是難以用目前的生物信息方法及試驗方法預測驗證。DCL1基因依賴性(DCL是植物Dicer Like genes統(tǒng)稱),大多數(shù)植物miRNA依賴DCL1基因產生,須注意有些miRNA不依賴DCL1。RDR及PolIV/PolV非依賴性(RNA Dependent RNA Polymerases,統(tǒng)稱RDRs),大多數(shù)siRNA是這些基因依賴的,但是有些miRNA的生成可能受到siRNA的調控,從而間接表現(xiàn)出RDR及PolIV/PolV依賴性。去除重復序列區(qū)及結構RNA的污染,重復序列區(qū)產生的miRNA較少,tRNA及rRNA不產生miRNA,這些序列須事先去除。
3.3 整合深度測序數(shù)據(jù)miRNA注釋鑒定標準
隨著測序技術的發(fā)展,miRNA深度測序數(shù)據(jù)越來越多,miRBase數(shù)據(jù)庫將深度測序數(shù)據(jù)整合進行miRNA注釋鑒定,2011年由Kozomara等[23]提出整合深度測序數(shù)據(jù)的miRNA注釋鑒定標準:
1)多個Reads(10~20是常用閾值)支持成熟miRNA序列存在(這些Reads能來自不同的文庫則更好)。
2)支持成熟miRNA序列的Reads序列可映射至其參與組裝的Contig序列上,且連同側翼序列可折疊形成發(fā)卡結構的前體,成熟miRNA序列在前體的一個臂上。
3)映射至Contig的Reads同時不可與其他已注釋的轉錄本有重疊區(qū)(即Reads序列不可能是mRNA或其他已知的RNA類型)。
4)Reads所映射的區(qū)域產生的miRNA 5′端必須相同,容許3′端有一定的變化。
5)更理想的條件是Reads數(shù)據(jù)支持所預測的發(fā)卡結構兩個臂均有miRNA存在(即所謂的miRNA及miRNA*序列),且兩者間的代表序列配對良好。
2014年Kozomara等[7]對于整合深度測序數(shù)據(jù)進行miRNA鑒定,要使所鑒定miRNA可信度高,則更嚴格的標準如下:
1)各有10個Reads支持發(fā)卡結構前體產生的兩個miRNA。
2)大多數(shù)的Reads與發(fā)卡結構前體產生的成熟miRNA雙鏈匹配,其3′端容許有0~4個堿基懸垂。
3)映射至前體一個臂上的reads,至少50%產生相同的5′端結構。
4)所預測的發(fā)卡結構的前體自由能要<-0.2 kcal/mol/nt。
5)成熟miRNA序列須有60%以上的堿基在所預測的發(fā)卡結構前體上是配對存在的。
3.4 公眾注釋
從2012年開始,miRBase數(shù)據(jù)庫通過維基百科(Wikipedia)網頁鏈接的形式提供公眾注釋功能,鼓勵數(shù)據(jù)庫的使用者及miRNA研究專家對miRNA相關信息進行補充完善[7]。
4 展望
隨著miRNA研究的發(fā)展,所發(fā)現(xiàn)的miRNA數(shù)量越來越多,miRNA命名過程中所遇到的各種不同情況基本都已經出現(xiàn),因此各物種miRNA命名的規(guī)則基本固定下來,當然遇到新的情況時可能會對現(xiàn)有規(guī)則進行適當補充和修改。另外對同一個miRNA,如果曾經有多種命名方式,在miRBase數(shù)據(jù)庫中均會被記錄,通過查詢這些記錄可了解miRNA名稱變化情況。
隨著測序技術的發(fā)展,短片段小RNA的獲得越來越容易,但是將其中真正的miRNA注釋鑒定出來將是需要花費時間與經歷的過程,預期今后對miRNA的注釋鑒定標準將越來越嚴格,并且會繼續(xù)引入第三方的注釋進行補充和修改,使miRBase數(shù)據(jù)庫所記錄的數(shù)據(jù)更加準確。
參考文獻:
[1] LEE R C,F(xiàn)EINBAUM R L,AMBROS V.The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14[J].Cell,1993,75(5):843-854.
[2] REINHART B J,SLACK F J,BASSON M,et al. The 21-nucleotide let-7 RNA regulates developmental timing in Caenorhabditis elegans[J].Nature,2000,403(6772):901-906.
[3] PASQUINELLI A E,REINHART B J,SLACK F,et al. Conservation of the sequence and temporal expression of let-7 heterochronic regulatory RNA[J].Nature,2000,408(6808):86-89.
[4] LAGOS-QUINTANA M,RAUHUT R,LENDECKEL W,et al.Identification of novel genes coding for small expressed RNAs[J].Science,2001,294(5543):853-858.
[5] LAU N C,LIM L P,WEINSTEIN E G,et al. An abundant class of tiny RNAs with probable regulatory roles in Caenorhabditis elegans[J].Science,2001,294(5543):858-862.
[6] LEE R C, AMBROS V. An extensive class of small RNAs in Caenorhabditis elegans[J].Science,2001,294(5543):862-864.
[7] KOZOMARA A,GRIFFITHS-JONES S. miRBase:Annotating high confidence microRNAs using deep sequencing data[J].NAR,2014,42:68-73.
[8] LEE Y,KIM M,HAN J,et al.MicroRNA genes are transcribed by RNA polymerase II[J].EMBO J,2004,23(20):4051-4060.
[9] HAN J,LEE Y,YEOM K H,et al.The Drosha-DGCR8 complex in primary microRNA processing[J].Genes Dev,2004,18(24):3016-3027.
[10] LANDTHALER M,YALCIN A,TUSCHL T.The human DiGeorge syndrome critical region gene 8 and its D.melanogaster homolog are required for miRNA biogenesis[J].Curr Biol,2004, 14(23):2162-2167.
[11] WANG Y,MEDVID R,MELTON C,et al.DGCR8 is essential for microRNA biogenesis and silencing of embryonic stem cell self-renewal[J].Nature Genet,2007,39(3):380-385.
[12] BOHNSACK M T,CZAPLINSKI K,GORLICH D. Exportin 5 is a RanGTP-dependent dsRNA-binding protein that mediates nuclear export of pre-miRNAs[J].RNA,2004,10(2):185-191.
[13] LEE Y S,NAKAHARA K, PHAM J M,et al. Distinct roles for Drosophila Dicer-1 and Dicer-2 in the siRNA/miRNA silencing pathways[J].Cell,2004,117(1):69-81.
[14] KAWAMATA T,TOMARI Y. Making RISC[J].Trends Biochem Sci,2010,35(7):368-376.
[15] HA M,KIM V N. Regulation of microRNA biogenesis[J].Nat Rev Mol Cell Biol,2014,15(8):509-524.
[16] AMBROS V,BARTEL B,BARTEL D P,et al. A uniform system for microRNA annotation[J].RNA,2003,9(3):277-279.
[17] GRIFFITHS-JONES S.The microRNA Registry[J].NAR,2004, 32:109-111.
[18] LAGOS-QUINTANA M,RAUHUT R,YALCIN A,et al. Identification of tissue-specific microRNAs from mouse[J].Curr Biol,2002,12(9):735-739.
[19] GRIFFITHS-JONES S,GROCOCK R J,VAN DONGEN S,et al. miRBase:microRNA sequences,targets and gene nomenclature[J].NAR,2006,34:140-144.
[20] GRIFFITHS-JONES S,SAINI HK,VAN DONGEN S,et al. miRBase: Tools for microRNA genomics[J].NAR,2008,36:154-158.
[21] RAJAGOPALAN R,VAUCHERET H,TREJO J,et al.A diverse and evolutionarily fluid set of microRNAs in Arabidopsis thaliana[J].Genes Dev,2006,20(24):3407-3425.
[22] MEYERS B C,AXTELL M J,BARTEL B,et al. Criteria for annotation of plant MicroRNAs[J].Plant Cell,2008,20(12):3186-3190.
[23] KOZOMARA A,GRIFFITHS-JONES S. miRBase:Integrating microRNA annotation and deep-sequencing data[J].NAR,2011,39:152-157.