蔡 媛, 鐘 燦, 劉 浩, 金 劍, 王勇慶, 張水寒
(湖南省中醫(yī)藥研究院 中藥研究所, 長沙 410013)
多年來,研究人員對基因組的研究主要聚焦在蛋白質編碼基因,其研究思維也一直遵從經典中心法則“DNA-mRNA-蛋白質”。隨著人類基因組及其他物種海量基因組的不斷解析和深入研究,以及蛋白組學和轉錄組學的蓬勃發(fā)展,促進了RNA組學研究的日趨成熟,揭示高等真核生物的遺傳物質只有極小一部分編碼蛋白質,絕大部分都不編碼蛋白質和多肽,這部分非編碼蛋白基因一直被當做“噪音”或者是“垃圾”(Junk)分子[1]。能夠編碼蛋白的mRNA已經不再獨占轉錄組鰲頭,許多不同類型的非編碼調控RNA逐一進入研究者的視線,并陸續(xù)被證明具有重要的生物學意義。
長鏈非編碼RNA(long non-coding RNA,lncRNA)是在真核生物中新發(fā)現(xiàn)的一類長度大于200個核苷酸、沒有閱讀框架,但往往具有mRNA結構特征(帽式結構和polyA尾巴)的RNA[2-3]。大多數(shù)lncRNA由RNA聚合酶Ⅱ轉錄翻譯而來,少數(shù)由RNA聚合酶Ⅲ轉錄而來,以RNA的形式在多種層面上調控基因的表達。lncRNA在基因組中普遍存在轉錄現(xiàn)象,但較之mRNA往往表達水平比較低,其自身的表達水平也受到轉錄及轉錄后調控機制的嚴密調節(jié)。相對于長鏈非編碼RNA在哺乳動物上的研究,植物長鏈非編碼RNA的研究才剛剛開始[4-6]。生物信息學的迅猛發(fā)展,改變了傳統(tǒng)lncRNA的研究方式,極大地促進了植物lncRNA的研究發(fā)展。長鏈非編碼RNA在植物生命活動中發(fā)揮著重要的作用,不同類的長鏈非編碼RNA在植物中發(fā)揮的功能也不盡相同,主要包括調節(jié)生長發(fā)育、影響轉錄調控、染色體結構、mRNA的穩(wěn)定性與翻譯、RNA加工與修飾等[[7-9]。最近獲得的基因組序列呈爆炸性地增加,從而激發(fā)了用快速、有效和精確的方法組織和獲取重要序列以及結構元件的能力需求。新獲得的數(shù)據(jù)顯示,迄今為止,一類潛在的重要基因類型我們還沒有檢測到,有一大類功能RNA分子或隱藏在蛋白質編碼之間或位于編碼蛋白質區(qū)內(內含子中),至今未被注釋。然而,任何功能分析中,都不應該遺漏在基因組范圍尋找非編碼RNA(non-coding RNA)。如何能像發(fā)現(xiàn)讀碼框一樣發(fā)現(xiàn)沒有強烈結構特征的調控RNA,本文就近年來植物中已發(fā)現(xiàn)的lncRNA的種類、參與的生物學過程、發(fā)揮功能的分子機制及其生物信息學預測與分析進行綜述和展望,以期為更深入認識植物lncRNA提供借鑒。
1.1.1 按其與編碼蛋白基因的相對位置分類
長鏈非編碼RNA根據(jù)其在基因組中與蛋白質編碼基因的相對位置,一般將其分為正義lncRNA(Sense long non-coding RNA)、反義lncRNA(Antisense long non-coding RNA)、雙向lncRNA(Bidirectional long non-coding RNA)、基因內lncRNA(Intronic long non-coding RNA)和基因間lncRNA(Intergenic long non-coding RNA)五類[10]。其中,基因間lncRNA也被稱為大型介入性非編碼RNA,即lincRNA(Large intervening noncoding RNA),位置關系對于推測其功能具有重要的作用。
1.1.2 按其作用機制分類
按照lncRNA發(fā)揮作用的分子機制,Wang等將lncRNA分為了以下四類,即信號分子(Signals)、誘餌分子(Decoys)、引導分子(Guides)、骨架分子(Scaffolds)[11]。Wilusz等[12]總結了生物體內lncRNA的具體機制,包括:(1)在編碼蛋白基因的上游啟動子區(qū)轉錄,從而干擾鄰近蛋白編碼基因的表達(如酵母SER3基因)[13];(2)抑制 RNA 聚合酶Ⅱ,或介導染色質重構和組蛋白修飾,而影響基因表達[14];(3)LncRNA與編碼蛋白基因的轉錄本形成互補雙鏈,干擾mRNA的剪切,進而產生不同的剪切形式[15];(4)LncRNA與編碼蛋白基因的轉錄本形成互補雙鏈,在Dicer 酶作用下產生內源性的siRNA,調控基因的表達水平[16];(5)LncRNA結合在特定蛋白質上調節(jié)相應蛋白的活性[17];(6)作為結構組分與蛋白質形成核酸蛋白質復合體[18];(7)結合在特定蛋白上從而改變該蛋白的胞質定位[19],研究者發(fā)現(xiàn),MtEnod40能夠與MtRBP1蛋白結合,引導MtRBP1從細胞核的核小點到細胞質顆粒的重定位[20];(8)可作為小分子 RNA(如 miRNA)的前體分子[21]。在植物中,有研究表明lncRNA作為小RNA生物合成前體。研究發(fā)現(xiàn)水稻光敏雄性不育關鍵調控基因LDMAR最終被發(fā)現(xiàn)通過剪切加工形成了長21 nt的小RNA osa-smR5846w/m。Ding和Zhu等研究顯示,1 236 nt長的LDMAR可能是初級轉錄本,該初級轉錄本會被加工為一條長136 nt的中間轉錄本,最終才形成21 nt的小RNA[22-24]。
長鏈非編碼RNA的基因不像編碼基因那樣編碼蛋白質,但是它們具有豐富強大的生物學功能。大量數(shù)據(jù)表明,這些lncRNA可能在從蛋白質分泌到廣泛的基因調節(jié)細胞過程中起重要作用。它們在諸如劑量補償、基因印跡、轉錄調控、前mRNA剪接和mRNA翻譯控制等不同的途徑中發(fā)揮功能[25]。LncRNA在植物生長發(fā)育過程中扮演著重要角色,處于基因調控網絡的核心位置,調控各種重要生物途徑,包括發(fā)育、代謝、抗病、脅迫、應激反應、激素信號和維護基因組的完整性等[26-30]。目前,在擬南芥、小麥、水稻、玉米、黃瓜等植物中發(fā)現(xiàn)了大量lncRNAs,但是明確其功能機制的不到1%。研究比較透徹的主要集中在生長發(fā)育、逆境脅迫、生殖發(fā)育等方面。
1.2.1 lncRNA參與植物成花過程
長鏈非編碼RNA引起植物研究人員的興趣始于lncRNA能夠調控春化作用的關鍵蛋白FLC來實現(xiàn)開花的轉變。并且,研究者發(fā)現(xiàn)有兩種lncRNA參與調節(jié)FLC基因,從而參與調節(jié)植物的開花過程[28, 31]。在擬南芥中,COOLAIR通過吸引相關蛋白清除FLC上激活型組蛋白甲基標記,引起FLC正向轉錄本的沉默。COLDAIR則通過結合PcG蛋白復合體使FLC染色質組蛋白抑制型甲基化,引起FLC沉默。這兩種長鏈非編碼RNA都通過沉默F(xiàn)LC而參與調節(jié)春化過程,影響植物開花的時間。
1.2.2 LncRNA參與植物的脅迫響應
在植物的生長發(fā)育過程中,不可避免地受到病害、干旱、磷、鹽等脅迫。研究者發(fā)現(xiàn),在逆境脅迫中,lncRNA扮演重要角色。研究者發(fā)現(xiàn)Npc536在擬南芥根和葉中調控響應鹽脅迫。在鹽脅迫下,Npc536的T-DNA插入突變體無明顯表型,過表達可以促進在鹽脅迫條件下的根系生長,提高初生根的生長和次生根的伸長[32]。另外,在擬南芥中,IPS1和At4是由磷饑餓誘導產生,其可以阻止miR399對靶基因PHO2的抑制作用而調節(jié)磷含量的動態(tài)平衡[33-35]。
1.2.3 LncRNA參與植物的生殖發(fā)育
研究者在水稻中篩選到調控水稻光敏性雄性不育的lncRNA-LD MA,該基因是長日照植物特有的雄性生殖相關的lincRNA,在長日照條件下轉錄表達,是水稻花粉正常發(fā)育所需。自發(fā)突變系水稻植株改變LDMAR的二級結構,提高LDMAR啟動子區(qū)域的甲基化程度,從而降低LDMAR轉錄,尤其是在長日照調節(jié)下,導致發(fā)育中花藥過早的程序性死亡,從而導致PSMS,闡明lncRNA在水稻生殖進程中的重要調控作用[22-24]。
目前,植物長鏈非編碼RNA的預測方法主要分為生物信息學方法和實驗RNA組學方法。實驗RNA組學方法是通過RNA-Seq、構建cDNA數(shù)據(jù)庫、微陣列分析和基因組SELEX等發(fā)現(xiàn)lncRNA[36]。高通量測序技術是發(fā)現(xiàn)lncRNA的有效方法,可以直接、快速地發(fā)現(xiàn)低豐度、新的lncRNA。目前研究中一般首先采用生物信息獲得目標序列,然后再進行下一步的功能驗證及其機制研究。
生物信息學方法主要是利用某種算法,通過設計篩選標準,建立評分系統(tǒng),對候選序列進行選擇。伴隨著物種測序工作的逐步開展和序列信息的日益豐富,利用生物信息學發(fā)現(xiàn)和預測lncRNA序列的方法已經成為簡單、高效的策略之一。但是大部分策略僅能預測得到保守的lncRNA序列。同時也會出現(xiàn)假陽性序列,需要通過進一步的實驗驗證,來完善預測和研究。
在眾多發(fā)現(xiàn)和研究lncRNA的方法中,生物信息學方法以其方便、快速和經濟的優(yōu)勢受到許多研究者的青睞[37]。事實證明,生物信息學方法是預測和發(fā)現(xiàn)新lncRNA的有效方法,是以基因組序列和計算機程序鑒定為基礎[38]。目前,通過各種計算機軟件以及其他計算工具已經成功地預測和鑒定了動植物中大多數(shù)lncRNA[39- 40]。
在過去十幾年中,人們通過生物信息學手段和分子克隆方法從擬南芥(ArabidopsisthalianaL.)[21, 28, 31-34, 41-53]、水稻(OryzasativaL.)[22-24, 54-57]、玉米(ZeamaysL.)[58-61]、小麥(TriticumaestivumL.)[30]、黃瓜(CucumissativusL.)[62]、苜蓿(Medicagotruncatula)[63-66]、番茄(Solanumlycopersicum)[67]、大豆(Giycinemax)[68]、油菜(BrassicacampestrisL.)[69-71]等植物中發(fā)現(xiàn)了大量的多種類型的lncRNA(見表1)。
LncRNA具有多種重要功能,尋找lncRNA靶基因并挖掘它對基因表達、蛋白合成各方面的調控作用成了lncRNA研究的關鍵。LncRNA靶基因的預測,大致可分為兩種情況:已知gene symbol的lncRNA和新發(fā)現(xiàn)的lncRNA。對已知gene symbol的lncRNA,可以直接通過軟件數(shù)據(jù)庫例如starBase、CHIPBase、NONCODE等,利用gene symbol搜索其相關信息。對于新發(fā)現(xiàn)的lncRNA來說,目前現(xiàn)有的數(shù)據(jù)庫物種信息十分有限,數(shù)據(jù)信息也必將少,所以對于轉錄本預測出的沒有symbol號的新lncRNA,由于lncRNA對靶基因沒有固定的作用模式,基因調控可能以順式(Cis)或反式(Trans)作用發(fā)生。所以,可根據(jù)不同作用方式分別進行預測,包括順式作用靶基因預測及反式作用靶基因預測。
順式作用靶基因預測,認為lncRNA的功能與其坐標臨近的蛋白編碼基因相關,位于編碼蛋白上下游的lncRNA可能與啟動子或者共表達基因的其他順式作用元件有交集,從而在轉錄或者轉錄后水平對基因的表達進行調控。判斷一個lncRNA具有順式調控作用通常要同時滿足以下幾個條件:(1)附近的基因表達情況與其保持一致;(2)該基因失活后會影響周圍基因的表達;(3)會影響附近同一位點的基因表達。對于滿足以上條件的lncRNA,首先找出位于其上游或者下游附近(10 k)的編碼蛋白基因,通過對編碼蛋白的功能富集分析,從而預測lncRNA的主要功能,為后續(xù)順式作用分析打下基礎。
表1 植物中已報道的lncRNATable1 The reported lncRNAs in plants
反式作用靶基因預測基本原理認為lncRNA的功能與編碼基因的位置關系沒有關系,而與其共表達的蛋白編碼基因相關。當lncRNA與一些距離較遠的基因在表達量上存在正相關或者負相關的情況時,可以通過樣本間lncRNA與蛋白編碼基因的表達量相關性分析或共表達分析方法來預測其靶基因。當樣本數(shù)≥6時,使用Pearson相關系數(shù)法分析樣本間lncRNA與蛋白編碼基因的相關性,對相關性最高的編碼基因蛋白進行功能富集分析進而預測lncRNA功能;當樣本數(shù)≥24時,使用WGCNA方法將表達模式相似的基因聚類得到不同的共表達模塊,根據(jù)模塊內的已知的編碼基因功能預測lncRNA的功能。
除了順式作用和反式作用調控,lncRNA參與調控許多轉錄后進程時,與miRNA和snoRNA等小RNA類似,這些調控往往與堿基的互補配對有關。一部分反義lncRNA可能因為與正義鏈的mRNA結合而調控基因沉默、轉錄及mRNA的穩(wěn)定性。所以,lncRNA的反義分析,可以利用軟件(如RNAplex)預測反義lncRNA與mRNA之間的互補配對關系,根據(jù)熱力學結構計算最小自由能來預測最佳堿基配對關系。
生物信息學預測還可以通過比較基因組學策略。盡管lncRNA一級和二級結構不完整,但小部分具有保守性,可根據(jù)其保守性推測功能。通過與miRNA 或蛋白相互作用預測,如通過miRcode算法通過miRNA推測 lncRNA,也可通過評估其潛在互作蛋白推測其功能如catRAPID算法。
隨著高通量測序技術的發(fā)展,植物lncRNA的研究已經取得顯著進展。隨著與植物相關的新lncRNA出現(xiàn),收集歸類植物非編碼RNA基因相關信息的數(shù)據(jù)庫也開始出現(xiàn),建立了系列針對植物的lncRNA數(shù)據(jù)庫,如TAIR10、PlantNATsDB, PLncdb等(見表2)。這些數(shù)據(jù)庫信息的來源主要是通過匯總ChIP-seq、RNA-seq、Tilling array、文獻,等其他數(shù)據(jù)庫信息。LncRNAdb(lncRNAs Database)數(shù)據(jù)庫收錄了289條真核生物的lncRNA相關信息,包含lncRNA特征、進化保守性、表達、功能、種類、相關組件、序列及對應的文獻。與植物相關的包括At4、COOLAIR、COLDAIR、AtIPS1、Npc48、Npc536、TERRA、OsPI1、OsENOD40、MtENOD40、TPSI1,GmENOD40等16個lncRNA表達情況及相關信息[74]。TAIR10(TheArabidopsisInformation Resource)是擬南芥專屬數(shù)據(jù)庫[75-76],匯總了擬南芥基因組序列及其基因圖譜、序列、表達、功能等,共收錄478條lncRNA信息。PlantNATsDB(Plant Natural Antisense Transcripts DataBase)數(shù)據(jù)庫包括2 138 498條反義轉錄對,其主要用于預測和查詢植物天然反轉錄及其調控功能的數(shù)據(jù)庫[77]。PLncDB(Plant long non-coding RNA database)是目前收錄植物lncRNA最齊全的數(shù)據(jù)庫。該數(shù)據(jù)庫通過收集Tilling array、RNA-seq,文獻過濾等信息,獲得16 227條lncRNA數(shù)據(jù),能夠提供不同組織、發(fā)育階段、突變體和脅迫處理等應激條件下lncRNA的表達特征,編碼位點及其側翼基因組區(qū)域表觀遺傳變化和功能[78]。NONCODE數(shù)據(jù)庫是專注于分析非編碼RNA基因的綜合知識平臺,所有收入的非編碼RNA基因都是采取計算機自動過濾GenBank數(shù)據(jù)和文獻報道中的信息,且經過人工檢查確認,共收錄423 976條lncRNA信息??刹殚唋ncRNA的長度、序列信息、生物功能及其表達模式、基因組上下游序列調控元件等[79]。PNRD數(shù)據(jù)庫目前數(shù)量約28 214,來自166種物種。包括lncRNA,tRNA,rRNA,tasiRNA,snRNA和snoRNA等。PNRD是一個植物ncRNA綜合分析平臺,能夠提供許多功能搜索和分析工具,涉及ncRNA關鍵詞搜索,基于文獻的功能搜索,miRNA-target搜索和在線分析,包括新的miRNA預測工具包,編碼潛在計算器工具包,Blast工具和定制的UCSC基因組瀏覽器[80]。GREENC數(shù)據(jù)庫是基于Wiki數(shù)據(jù)建立的,可作為植物lncRNA的注釋和存檔。該數(shù)據(jù)庫于2015年開始提供有關lncRNA的序列,基因組坐標,編碼潛力和折疊能量的信息。其中包含來自37種植物和6種藻類的超過19萬份轉錄本的信息[81]。CANTATAdb數(shù)據(jù)庫目前有45 117條lncRNA數(shù)據(jù),來源于10個物種。提供序列、RNA-Seq文庫中的表達值,基因組位置等信息[82]。而PLNlncRbase數(shù)據(jù)庫是基于系列實驗得到的lncRNA形成的數(shù)據(jù)庫[83]。除了不斷完善的數(shù)據(jù)庫外,研究者們還開發(fā)了系列l(wèi)ncRNA的分析與預測工具,比如PhlyoCSF能夠使用CSF評分來計算lncRNA編碼潛力[84];CPS使用序列特征和SVM計算lncRNA的蛋白編碼潛力[85];CNCI通過分析相鄰核苷酸計算lncRNA的編碼潛力[86];CPAT使用邏輯回歸模型計算lncRNA的蛋白編碼潛力,DeepLNC利用深度神經網絡預測lncRNAs[87];iSeeRNA使用SVM算法預測lncRNAs[88]。LncRNATargets能夠基于核酸熱力學預測lncRNAs靶標[89]。
近年來調節(jié)轉錄和翻譯的長鏈非編碼RNA的不斷發(fā)現(xiàn),使基因組調節(jié)的全貌已發(fā)生了徹底改變。隨著研究的不斷深入以及相關理論技術的完善,發(fā)現(xiàn)植物中存在一系列特異lncRNA,其數(shù)量也在以驚人的速度增加。雖然目前已確定的lncRNAs很多,但對絕大部分lncRNA在生命活動過程中的具體調控機制及功能模式仍不清除。與哺乳動物lncRNA的研究報道相比,有關植物lncRNA的研究還比較落后,目前僅在擬南芥、水稻、小麥、玉米、黃瓜等中對lncRNA進行了初步的系統(tǒng)識別和功能研究,距離完全解釋lncRNA的作用機制和生物學功能仍有較大距離。
生物信息學分析作為一種強有力的技術手段,在從實驗設計到結果分析等各個層面發(fā)揮著不可替代的作用,既能夠啟迪研究人員設計階段的預判以少走彎路,也可以從結果分析中挖掘大量的有用信息,起到事半功倍的作用。
總體上來說,目前植物lncRNA的研究還處于初級探索階段,主要存在以下問題:(1)lncRNA數(shù)據(jù)庫不夠完善。與植物lncRNA相關的基因組和蛋白質組數(shù)據(jù)庫寥寥無幾;(2)lncRNA功能預測工具不多,針對 lncRNA的生物信息學工具少,難以對lncRNA二級結構等進行有效地預測, lncRNA作用機理還不清楚,應用研究領域有限;(3)整體上有關植物lncRNA的新研究方法和預測功能的工具不夠,其功能研究的思路和技術不成熟,不能很好地注釋lncRNA的調節(jié)機制和生物學功能,也不能系統(tǒng)深入地研究lncRNA。在未來的幾年里,lncRNA表型的分析和解釋將是生物信息學工作者的主要挑戰(zhàn)。
表2 植物lncRNA數(shù)據(jù)庫及預測工具Table 2 Databases and prediction tools of plant lncRNAs
針對以上問題,未來在植物中開展lncRNA的相關研究,首先需要不斷完善和逐步建立有共同特征的長鏈非編碼 RNA文庫,它將有助于確認和預測非編碼RNA的功能特征;其次需要通過生物信息學結合實驗組學的方法深入闡明lncRNAs基因調控機制,挖掘新的植物lncRNAs,并探索其在植物生長發(fā)育、逆境脅迫、系統(tǒng)發(fā)育、品種改良等方面的功能及機制,這將對成功破解基因組的各種遺傳信息,深入了解植物的生命代謝、系統(tǒng)發(fā)育等具有十分積極的意義。