饒晶,朱四元,嚴理,劉頭明
(中國農(nóng)業(yè)科學院麻類研究所,湖南 長沙 410205)
長鏈非編碼RNA(Long non-coding RNA,lncRNA)通常是指不具有編碼蛋白質(zhì)的功能、長度大于200個核苷酸的非編碼RNA轉(zhuǎn)錄本,在各種生物中廣泛存在[1]。lncRNAs大致可分為5大類:基因間里lncRNA(lincRNAs);內(nèi)含子的lncRNA(incRNAs);雙向 lncRNAs;從相關基因的 DNA互補鏈轉(zhuǎn)錄的自然反義轉(zhuǎn)錄物(NATs);與同義鏈上另一轉(zhuǎn)錄物的一個或多個外顯子重疊的同義lncRNAs[2]。lncRNA的作用機制和生物學功能極其多樣,一些通過目標模仿、轉(zhuǎn)錄干擾、與多梳蛋白抑制復合體2(Polycomb repressive complex 2,PRC2)有關的組蛋白甲基化和DNA甲基化等機制介導基因表達。lncRNA生物學功能豐富,在生物體內(nèi)以多種方式調(diào)節(jié)生物過程,比如在植物開花、雄性不育、營養(yǎng)代謝、生物和非生物脅迫等生物過程中起調(diào)節(jié)因子作用[3]。lncRNA的作用機制主要有4種:信號分子、誘餌分子、引導分子、支架分子[4]。以擬南芥、水稻、玉米和小麥等植物生物及一些成熟動物中l(wèi)ncRNA的分子研究作為參考,進一步研究非模式生物lncRNA的作用機制[5-6]。
苧麻(BoehmerianiveaL.)是世界上最古老的纖維作物之一,在中國已經(jīng)種植了幾千年[7]。作為我國南方重要的經(jīng)濟作物之一[8],苧麻纖維是一種纖維素含量極高的天然纖維,具有很高的彈性和耐磨性,被稱為“天然纖維之王”。與棉花和楊樹的纖維不同,從莖皮中提取的苧麻纖維是韌皮組織。苧麻纖維形成于莖皮中,其生長發(fā)育決定了苧麻莖皮厚度[9]。苧麻纖維具有許多優(yōu)良的特性和重要的經(jīng)濟價值,其長度可達55 cm,在植物界是罕見的[10]。植物次生細胞壁(Secondary cellwall,SCWs)包含纖維素、半纖維素和木質(zhì)素的生物合成。在本研究中,為了了解苧麻纖維形成的調(diào)控規(guī)律,測序鑒定可能參與SCWs生物合成的lncRNA,結(jié)合實時熒光定量PCR技術(shù)(Quantitative Real-time PCR,qRT-PCR)鑒定lncRNA在苧麻不同部位的表達量差異,旨在為苧麻纖維發(fā)育研究及品種改良提供參考。
苧麻材料為栽培種苧麻中苧1號,是中國農(nóng)業(yè)科學院麻類研究所培育的高產(chǎn)品種。所取材料經(jīng)自來水和蒸餾水洗凈后,將成熟期苧麻莖、頂皮、中皮、葉、根、芽用液氮迅速冷凍,保藏于-80℃超低溫冰箱,用作RNA提取的材料。
植物RNA提取試劑盒 (Takara)、cDNA合成試劑盒(Takara)、熒光定量PCR試劑盒 (Takara),其他生化試劑均購自寶生物工程有限公司。
選取苧麻頂皮、中皮兩個部位,3個重復,利用Illumina測序平臺(HiSeq2500)對苧麻轉(zhuǎn)錄組進行測序,使用HISAT軟件將轉(zhuǎn)錄組測序clean reads與苧麻基因組(accession ID:PHNS00000000)進行比對[11],使用StringTie程序[12]進行轉(zhuǎn)錄的組裝,使用cufflinks比較程序[13]將所有轉(zhuǎn)錄本的基因組位置與參考基因組注釋的已知基因進行比較[14]。使用4種方法檢測轉(zhuǎn)錄本的蛋白質(zhì)編碼潛力,包括與PFAM數(shù)據(jù)庫比對、利用CPC軟件[15]、txCdsPredict和CNCI[16]進行預測。4種預測方法中至少有3種報告為lncRNA的轉(zhuǎn)錄本被鑒定為lncRNA,而lncRNA是通過cis-or trans-way靶向mRNA實現(xiàn)其功能[17]。通過估計Spearman相關系數(shù)和Pearson相關系數(shù),僅考慮spearman_cor≥0.6和pearson_cor≥0.6進行后續(xù)分析。如果定位在一個10 kb區(qū)域,則認為lncRNA通過順式調(diào)控靶向;如果沒有則使用RNAplex軟件分析反式作用靶標[18],參數(shù)為-e-30。
取約50 mg的組織樣,置于液氮中研磨之后,用試劑盒法(Takara公司)提取總RNA。用超微量紫外分光光度計檢測其濃度和OD值,根據(jù)超微量分光光度計定量,OD260 nm/OD280 nm值均在1.8~2.0,說明提取的總RNA純度較高,然后用瓊脂糖凝膠電泳檢測其完整性,繼而反轉(zhuǎn)錄和實時熒光定量PCR。根據(jù)逆轉(zhuǎn)錄試劑盒(Takara公司)說明書將總RNA(1μg)反轉(zhuǎn)成cDNA,構(gòu)建cDNA文庫。20μL體系,反應條件:30°C 10 min,42°C 20 min,95°C 5min,反轉(zhuǎn)錄完成后再加無菌水稀釋5倍成100μL,逆轉(zhuǎn)錄后的cDNA置于-80°C冰箱保存。
根據(jù)GenBank中中苧1號基因序列,采用Premier 5.00軟件設計特異性引物,以苧麻18s基因作為內(nèi)參基因,由擎科生物有限公司設計合成實時熒光定量PCR引物,引物序列見表1。
表1 RT-qPCR引物列表Table 1 List of qRT-PCR primers
采用SYBRGreen熒光染料法在實時熒光定量PCR儀上進行定量。反應體系(25μL):TB GreenPremix Ex TaqII 12.5μL,cDNA 2μL,無菌水8.5μL,上、下游引物各 1μL。反應條件:95°C 30 s,95°C 5 s,60°C 30 s,40個循環(huán)后進行熔解曲線分析,以每5秒上升0.5°C的速率從65°C升高到95°C,熒光信號在循環(huán)結(jié)束時檢測,每個樣品做3個重復,擴增結(jié)束后進行溶解曲線分析。
數(shù)據(jù)采用Excel進行統(tǒng)計和分析,相對表達量的計算以18s為內(nèi)參基因,計算Ct值(Ct代表目標擴增產(chǎn)物達到設定閾值所經(jīng)歷的循環(huán)數(shù)),通過計算ΔC(ΔC=Ct目的基因-Ct內(nèi)參),然后獲得ΔΔC(ΔΔC=ΔC(實驗組)-ΔC(對照組),得到RQ值(RQ=2-ΔΔC)(表達量變化倍數(shù),RQ值)。用Ct值3次重復的平均值作為該基因在該處理組的表達量,并計算RQ的誤差[19]。
轉(zhuǎn)錄本編碼能力預測如圖1,通過CPC、CNCI、txCdsPredict 3個軟件和PFAM數(shù)據(jù)庫比對,4種預測方法中至少有3種報告為lncRNA的轉(zhuǎn)錄本被鑒定為lncRNA,共得到4316個lncRNA。測序得到可能參與SCW生物合成的8個靶基因,進一步分析靶基因的功能注釋如表2,whole_GLEAN_10005546、whole_GLEAN_10005548、whole_GLEAN_10025325、whole_GLEAN_10016451 4個基因?qū)倥c擬南芥MYB(v-mybavianmyloblastosisviraloncogenehomolog)蛋白,whole_GLEAN_10012500屬于擬南芥NAC(NAM,ATAF1/2和CUC2)蛋白,whole_GLEAN_10022328屬于擬南芥BLH(Bel like homeodomain 1)蛋白,whole_GLEAN_10020282屬于擬南芥LOB(Lateralorganboundaries)蛋白,whole_GLEAN_10008444屬于擬南芥IRX(Irregularxylem)蛋白。8個靶基因均為擬南芥纖維發(fā)育同源基因,這些靶基因被lncRNA主要以cis、Lnc-AntiOverlap-mRNA、trans和Lnc-Overlap-mRNA 4種靶向方式調(diào)控。再根據(jù)8個靶基因選出靶向調(diào)控他們的10個lncRNAs做進一步結(jié)構(gòu)分析。由表3可知,10個候選基因有1~2個外顯子;轉(zhuǎn)錄本長度最短的為239 bp,最長的為1401 bp。
圖1 預測結(jié)果韋恩圖-lncRNAFig.1 Predicted results:Venn graph-lncRNA
表2 lncRNA靶基因的功能注釋Table 2 Functional annotation of target genes of lncRNA
表3 lncRNA結(jié)構(gòu)統(tǒng)計結(jié)果Table 3 Statistical results of lncRNA structure
為了檢測擴增產(chǎn)物的特異性,避免qRT-PCR擴增過程中非特異性擴增產(chǎn)物和引物二聚體產(chǎn)生的熒光信號造成假陽性結(jié)果[20-21],本文對擴增產(chǎn)物進行熔解曲線分析[22]。由圖2可知,18s基因和10個候選基因在中苧1號不同器官中的擴增產(chǎn)物熔解曲線為單一的峰,無非特異性擴增產(chǎn)物及引物二聚體產(chǎn)生,說明設計的引物符合試驗要求,擴增體系、退火溫度及循環(huán)程序均適合。
圖2 18s和10個候選基因的溶解曲線分析Fig.2 Dissolution curve analysis of 10 candidate genes and 18s
理想的內(nèi)參基因應具備下列特性:在所有組織和細胞類型中表達、在所有的環(huán)境和試驗條件下穩(wěn)定表達、具有與目標基因相似的穩(wěn)定表達水平[23]。本研究利用苧麻18s基因作為內(nèi)參,該基因在苧麻莖、頂皮、中皮、葉、根、芽6個部位都可以表達。從表4來看,該基因在不同部位標準誤較?。?.109~0.537),變異率(C.V)也較小(1.056~6.254)。因此 18s基因可以作為內(nèi)參進行苧麻RT-qPCR相對定量分析研究。
表4 內(nèi)參基因18s在不同部位中的表達穩(wěn)定性Table 4 The expression stability of reference gene 18s in different sites
采用表達量變化倍數(shù)(RQ值)對10個lncRNA基因在中苧1號苧麻品種中不同器官間的表達情況進行分析。以中苧1號頂皮的表達作為對照,設定表達量為1。由圖3可知,LTCONS_00012428在莖中表達量約為頂皮部位中的42倍,LTCONS_00022274在莖中表達量約為頂皮部位中的29倍,LTCONS_00034183在莖中表達量約為頂皮部位中的7倍,這3個基因在中苧1號不同部位間的表達量不同,在莖中的表達量最高,而在其他部位的表達則較少。LTCONS_00012431在中苧1號不同部位的表達量不同,在葉中的表達量最高,約為頂皮部位中的10倍,芽次之,表達量約為頂皮部位中的9倍,在莖與中皮中也有差異表達,而在根中表達則較少。LTCONS_00034274在芽中表達量約為頂皮部位中的18倍,LTCONS_00002219在芽中表達量約為頂皮部位中的1.2倍,LTCONS_00050912在芽中表達量約為頂皮部位中的19倍,LTCONS_00019019在芽中表達量約為頂皮部位中的21倍,這4個基因在中苧1號不同部位間的表達量不同,在芽中的表達量最高,而在其他部位的表達相對較少。LTCONS_00043847在中苧1號不同部位的表達量不同,在頂皮部位表達量最高為1,芽次之,約為頂皮部位的0.7倍,而在其他部位的表達則較少。LTCONS_00034273在莖中表達量高達頂皮部位中的3100倍??傊麄冊诓煌课坏谋磉_量差異明顯。
圖3 10個lncRNA在不同部位的差異表達分析Fig.3 Analysis of differential expression of 10 lncRNAs in different positions
由于頂皮與中皮纖維發(fā)育差異明顯,中皮纖維處于生長期,次生壁正在加厚,而頂皮纖維尚未起始生長,若兩個部位有差異表達則認為可能與纖維發(fā)育有關。根據(jù)頂皮與中皮纖維發(fā)育差異特征,將10個lncRNA在頂皮、中皮兩個部位進行熒光定量分析,如圖3所示,9個lncRNA在兩個部位表現(xiàn)出明顯差異,推測他們與苧麻纖維發(fā)育相關。1個lncRNA在兩個部位表現(xiàn)差異較小,推測他們與苧麻纖維發(fā)育無關,具體表述如下:LTCONS_00012428在頂皮表達量是中皮的21.2倍;LTCONS_00022274在頂皮表達量是中皮的2.2倍;LTCONS_00034183在頂皮表達量是中皮的3.8倍;LTCONS_00034274在頂皮表達量是中皮的31.5倍;LTCONS_00043847在頂皮表達量是中皮的48.3倍;LTCONS_00050912在頂皮表達量是中皮的92.8倍;LTCONS_00034273僅在頂皮中有表達;LTCONS_00002219在頂皮表達量是中皮的172.3倍;LTCONS_00019019在頂皮表達量是中皮的8.8倍;LTCONS_00012431在頂皮表達量是中皮的0.8倍??梢钥闯鯨TCONS_00012431在這兩個部位差異不明顯,推測其與苧麻纖維發(fā)育不相關。
lncRNA以多種方式參與基因的表達調(diào)控,在其效應過程中也可能涉及蛋白質(zhì)、DNA或 RNA等多種相關因子[24]?,F(xiàn)在研究廣泛認為lncRNA能在轉(zhuǎn)錄及轉(zhuǎn)錄后水平調(diào)控基因表達,從而調(diào)控生物的生長發(fā)育[25]。植物lncRNA的研究目前已在擬南芥、蒺藜苜蓿、水稻和玉米中進行了全基因組lncRNA的檢索及相關研究[26-27],其他物種的lncRNA研究表明其在生物體內(nèi)起著重要的作用。本文首次從苧麻中測序得到4316個lncRNA,從4316個lncRNA選取10個lncRNA做表達譜分析,發(fā)現(xiàn)其中3個lncRNA在莖中的表達量最高,其原因可能是苧麻莖中纖維含量豐富;而1個基因在芽表達量最高,可能是該基因在該部位含量較豐富導致;5個基因在葉表達量最高,可能與苧麻葉中的纖維含量有關;1個基因在頂皮的表達量最高,在其他部位的表達則較少,試驗中苧麻頂皮纖維尚未起始生長,可能由于該基因在該部位含量較豐富導致。總之,10個候選基因中大多數(shù)基因集中在葉、莖部位表達,少數(shù)基因集中在頂皮、芽部位表達。進一步研究其與纖維發(fā)育的關系發(fā)現(xiàn),其中9個基因在頂皮、中皮兩個部位差異表達明顯,推測其可能與纖維發(fā)育相關。而靶基因測序得到10個lncRNA所對應的8個靶基因是擬南芥纖維發(fā)育基因同源基因,大部分屬于MYB、NAC等蛋白,在擬南芥中,目前認為SCW主要是由一系列NAC轉(zhuǎn)錄因子和MYB轉(zhuǎn)錄因子形成分層次的網(wǎng)絡逐級調(diào)控下游次生壁中纖維素、半纖維素和木質(zhì)素的合成[28]。在擬南芥纖維發(fā)育調(diào)控中,NAC基因主要調(diào)控MYB轉(zhuǎn)錄因子再逐級調(diào)控完成整個SCW的生物合成過程。文獻[29]報道LOB(lateralor-ganboundaries)基因通過與轉(zhuǎn)錄因子、激素等作用參與擬南芥SCW的形成。而擬南芥基因IRX15(IRREGULAR XYLEM 15)對于正常木聚糖在次級細胞壁中的沉積至關重要[30]。擬南芥BLH1(BEL1-like homeodomain)基因通過與蛋白質(zhì)的相互作用調(diào)節(jié)擬南芥從營養(yǎng)期到生殖期,從而參與纖維發(fā)育[31]。故而推測差異lncRNA基因主要通過靶向他們各自的靶基因從而調(diào)控纖維的發(fā)育。