牟 丹, 趙啟軍, 劉玉英, 李長(zhǎng)慧, 謝久祥*
(1. 青海大學(xué)省部共建三江源生態(tài)與高原農(nóng)牧業(yè)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 青海 西寧 810016; 2. 青海大學(xué)農(nóng)牧學(xué)院, 青海 西寧 810016)
青藏高原高寒地區(qū)氣候嚴(yán)寒,不利于牧草生長(zhǎng)和越冬,豆科牧草品種選育和引種工作的開(kāi)展較為困難[1]。長(zhǎng)期以來(lái),科學(xué)研究工作者在青藏高原高寒地區(qū)(尤其是青海省的高寒地區(qū))進(jìn)行了大量的豆科牧草引種試驗(yàn),主要結(jié)果為:在海拔2 500~3 000 m的地方,引種成功的報(bào)道很多,如黃花草木樨(Melilotusofficinalis(L.) Lam.)、紅豆草(Onobrychisviciifolia)、‘甘農(nóng)1號(hào)’雜花苜蓿(MedicagovariaGannong No.1)、截形苜蓿(MedicagotruncatulaParaggio)、波斯三葉草(TrifoliumresupinatumKyambro)等[1-4];在海拔3 000~3 300 m的地方,引種成功的報(bào)道很少,如甘肅紅豆草(OnobrychisUicicaefoliaGansu)、‘甘農(nóng)1號(hào)’雜花苜蓿和‘青大1號(hào)’紫花苜蓿(MedicagosativaL. Qingda No.1)[5-7];在海拔3 300 m以上的地方,雖有幾次嘗試,均以失敗告終[8]。由此可見(jiàn),引進(jìn)豆科牧草是青藏高原高寒地區(qū)草業(yè)科技工作者長(zhǎng)期攻堅(jiān)的難題。
高加索三葉草是目前已知三葉草屬中唯一一種具有密集根狀莖系統(tǒng)且可利用地下根蘗進(jìn)行克隆生長(zhǎng)的多年生豆科牧草,抗逆性極強(qiáng)[9-10],如抗寒耐鹽性優(yōu)于紅三葉(TrifoliumpratenseL.)和白三葉(Trifoliumrepens L.)[11],抗旱性也強(qiáng)于白三葉和地三葉(TrifoliumsubterraneumL.)等[12]。本研究團(tuán)隊(duì)前期在青藏高原進(jìn)行的高加索三葉草引種試驗(yàn)表明,從內(nèi)蒙古農(nóng)業(yè)大學(xué)引進(jìn)的高加索三葉草育成品種‘蒙農(nóng)三葉草1號(hào)’能夠在青海省河南蒙古自治縣(簡(jiǎn)稱:河南縣)海拔3 640 m的地方自然越冬,越冬率高達(dá)98%。高加索三葉草能夠經(jīng)歷青藏高原高寒地區(qū)長(zhǎng)時(shí)間的低溫(河南縣在2015年至2021年期間的最低溫度為-30℃)而自然越冬,說(shuō)明其對(duì)長(zhǎng)時(shí)間的低溫脅迫具有很強(qiáng)的耐受性。因此,高加索三葉草抵御高寒地區(qū)秋冬季節(jié)長(zhǎng)時(shí)間低溫脅迫的生理生化機(jī)制值得研究。早前對(duì)于該物種面臨長(zhǎng)時(shí)間低溫脅迫的研究主要從物理和生理水平著手,即通過(guò)長(zhǎng)時(shí)間的田間觀察其是否能安全越冬,或者采用生理生化指標(biāo)檢測(cè)其抗寒生理[13]。然而,從分子水平對(duì)其響應(yīng)低溫脅迫的研究極少,且僅是通過(guò)Illumina平臺(tái)的二代測(cè)序技術(shù)對(duì)人工模擬短期低溫脅迫的高加索三葉草葉片做了轉(zhuǎn)錄組比較分析[9,14]。鑒于高加索三葉草還未進(jìn)行全基因組測(cè)序,為了更好地解釋這一現(xiàn)象,我們有必要利用更為準(zhǔn)確的第三代轉(zhuǎn)錄組測(cè)序技術(shù)從分子水平來(lái)分析其對(duì)長(zhǎng)時(shí)間低溫脅迫的響應(yīng)機(jī)制。
目前,基于第二代測(cè)序技術(shù)的RNA-seq技術(shù)最為常見(jiàn),在農(nóng)學(xué)、醫(yī)學(xué)和基礎(chǔ)生物學(xué)等研究領(lǐng)域廣泛應(yīng)用;但因第二代測(cè)序技術(shù)讀取長(zhǎng)度短,堿基錯(cuò)配,組裝出來(lái)的轉(zhuǎn)錄本的結(jié)構(gòu)不完整等,RNA-Seq的發(fā)展受到一定限制,第三代測(cè)序技術(shù)(即全長(zhǎng)轉(zhuǎn)錄組測(cè)序技術(shù))應(yīng)運(yùn)而生;與二代測(cè)序相比,三代測(cè)序技術(shù)能夠在轉(zhuǎn)錄組水平上提供讀取長(zhǎng)度更長(zhǎng)和準(zhǔn)確性更高的轉(zhuǎn)錄本,并且對(duì)于沒(méi)有參考基因組的物種,還可提高其轉(zhuǎn)錄組表征的準(zhǔn)確性[15]。但是,兩種測(cè)序技術(shù)各有優(yōu)劣,近兩年越來(lái)越多的學(xué)者通過(guò)三代與二代測(cè)序技術(shù)相結(jié)合的方法,對(duì)遭受低溫脅迫的植物進(jìn)行了測(cè)序分析,獲得了大量與植物響應(yīng)低溫脅迫有關(guān)的基因信息[16-17]。
轉(zhuǎn)錄因子(Transcription factor,TF)是能夠?qū)R坏亟Y(jié)合目的基因上游的特異核苷酸序列,激活或抑制靶基因的一類含有特殊結(jié)構(gòu)的蛋白,參與植物應(yīng)對(duì)生物/非生物脅迫和生長(zhǎng)發(fā)育等過(guò)程[18-19]。Dof蛋白即DNA結(jié)合單鋅指(DNA-binding with one finger)蛋白,是植物中的一種特有轉(zhuǎn)錄因子,在裸子、被子和一些低等的藻類植物中均存在[18]。Dof轉(zhuǎn)錄因子的N-末端含有高度保守的C2-C2型單鋅指結(jié)構(gòu)域,C-末端為特異轉(zhuǎn)錄調(diào)控結(jié)構(gòu)域,可調(diào)控下游基因的表達(dá),在植物生長(zhǎng)發(fā)育、逆境響應(yīng)、代謝調(diào)節(jié)和農(nóng)藝性狀改良等方面具有重要作用[18-19]。逆境響應(yīng)方面,Dof轉(zhuǎn)錄因子可能作為上游調(diào)控因子,在調(diào)控植物響應(yīng)逆境(低溫、鹽分和干旱)脅迫中扮演重要角色[19]。
高加索三葉草能夠在海拔3 640 m的青藏高原安全越冬并正常生長(zhǎng),繁殖主要靠克隆生長(zhǎng)的組織——根莖。因此,本研究以河南縣試驗(yàn)地中正常生長(zhǎng)期和低溫脅迫期的高加索三葉草根莖芽為材料,結(jié)合PacBio平臺(tái)的第三代測(cè)序技術(shù)和Illumina平臺(tái)的第二代測(cè)序技術(shù)對(duì)其進(jìn)行測(cè)序,獲得了準(zhǔn)確性更高的全長(zhǎng)轉(zhuǎn)錄本,對(duì)其進(jìn)行了功能注釋、結(jié)構(gòu)分析和轉(zhuǎn)錄因子鑒定;并進(jìn)一步基于全長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù),鑒定并分析了高加索三葉草Dof轉(zhuǎn)錄因子的理化性質(zhì)、亞細(xì)胞定位、系統(tǒng)進(jìn)化及保守基序。本研究不僅可為高加索三葉草二代測(cè)序數(shù)據(jù)的拼接提供模板,為耐寒相關(guān)基因的鑒定和分子機(jī)理分析提供科學(xué)依據(jù),還可為進(jìn)一步研究Dof轉(zhuǎn)錄因子在高加索三葉草響應(yīng)長(zhǎng)時(shí)間低溫脅迫過(guò)程中的作用奠定理論基礎(chǔ)。
供試材料為高加索三葉草的育成品種‘蒙農(nóng)三葉草1號(hào)’,其種子由內(nèi)蒙古農(nóng)業(yè)大學(xué)王明玖教授于2018年提供,并在2019年經(jīng)育苗后種植于青海大學(xué)試驗(yàn)地。2020年將青海大學(xué)試驗(yàn)地的高加索三葉草實(shí)生苗的地下根莖移栽至河南縣試驗(yàn)地,行距30 cm,株距15 cm。
1.2.1根莖芽的采集 2020年8月至 2021年1月,在河南縣試驗(yàn)地分4個(gè)時(shí)期(NG,BW,EW,MW)對(duì)移栽后第一年的高加索三葉草根莖芽進(jìn)行采集(表1),各時(shí)期樣本的生物學(xué)形態(tài)如圖1。采集樣品時(shí),在各時(shí)期隨機(jī)選取高加索三葉草3株,將其根莖芽混為1個(gè)生物學(xué)重復(fù),各時(shí)期各3個(gè)生物學(xué)重復(fù)。剪取根莖芽后,用UP水沖洗干凈并小心擦干,裝入凍存管后立即至于液氮中速凍,隨后再置于-80℃超低溫冰箱保存?zhèn)溆谩?/p>
圖1 4個(gè)采樣時(shí)期的根莖芽生物學(xué)形態(tài)Fig.1 Biological morphology of rhizome buds in four sampling periods
表1 取樣日期及室外空氣溫度Table 1 Sampling date and outdoor air temperature
1.2.2總RNA提取與檢測(cè) 使用Trizol試劑盒,按照說(shuō)明提取高加索三葉草根莖芽的總RNA。通過(guò)瓊脂糖凝膠電泳、NanoPhotometer spectrophotometer、Qubit2.0 Fluorometer和Agilent 2100 bioanalyzer對(duì)各樣品的RNA進(jìn)行質(zhì)量檢測(cè)。
1.2.3二代測(cè)序文庫(kù)的構(gòu)建、測(cè)序與質(zhì)控 采用NEB#7530試劑盒,對(duì)高加索三葉草根莖芽樣品的二代轉(zhuǎn)錄組測(cè)序文庫(kù)進(jìn)行構(gòu)建??偣矂?chuàng)建了 12個(gè)樣品(NG,BW,EW,MW,4個(gè)時(shí)期各3次重復(fù))的二代測(cè)序文庫(kù)。委托廣州基迪奧生物科技有限公司通過(guò)Illumina HiSeqTM4000測(cè)序平臺(tái)進(jìn)行測(cè)序。高通量測(cè)序完成后,通過(guò)fastp[20]軟件對(duì)下機(jī)的Raw reads進(jìn)行質(zhì)控,最終得到高質(zhì)量的clean reads。
1.2.4三代測(cè)序文庫(kù)的構(gòu)建與測(cè)序 將4個(gè)采樣時(shí)期的高加索三葉草根莖芽樣品等量混合為1個(gè)樣品(簡(jiǎn)稱MS)提取總RNA后進(jìn)行三代全長(zhǎng)轉(zhuǎn)錄組測(cè)序文庫(kù)的構(gòu)建。采用Clontech SMARTer PCR cDNA Synthesis Kit進(jìn)行文庫(kù)構(gòu)建,主要步驟為:RNA樣本質(zhì)檢;第一鏈cDNA合成;PCR擴(kuò)增合成雙鏈cDNA;PCR產(chǎn)物純化;SMRTbell文庫(kù)構(gòu)建。最后將SMRT bell文庫(kù)退火結(jié)合引物和聚合酶,由廣州基迪奧生物科技有限公司在PacBio Sequel II平臺(tái)進(jìn)行測(cè)序。
采用Pacific Biosciences[21]支持的Isoform sequencing(Iso-Seq)對(duì)cDNA文庫(kù)的原始測(cè)序序列進(jìn)行分析。具體分析過(guò)程為:選取下機(jī)數(shù)據(jù)中full passes數(shù)目大于等于1的序列開(kāi)展環(huán)型一致性序列(Circular consensus sequence,CCS)分析,得到用于后續(xù)轉(zhuǎn)錄本分析的高精確度CCS reads(又稱HIFI reads);根據(jù)CCS reads是否都包含5′引物、3′引物和poly A結(jié)構(gòu)來(lái)判斷轉(zhuǎn)錄本的完整性,包含這三種結(jié)構(gòu)的序列稱為全長(zhǎng)序列,進(jìn)一步獲得全長(zhǎng)非嵌合(FLNC)序列;用Minimap2將相似的FLNC序列進(jìn)行層級(jí)聚類,獲取到一致性序列(Unpolished consensus isoforms);利用Quiver算法,對(duì)一致性序列進(jìn)一步校正,根據(jù)輸出的序列準(zhǔn)確度,獲得高質(zhì)量序列(High quality isoforms,HQ isoforms,預(yù)測(cè)準(zhǔn)確度≥0.99)和低質(zhì)量序列(Low quality isoforms,LQ isoforms,預(yù)測(cè)準(zhǔn)確度<0.99);利用相同樣品的二代Illumina測(cè)序數(shù)據(jù),同時(shí)利用LoRDEC(version 0.8)[22]對(duì)上述低質(zhì)量序列進(jìn)行校正。校正后取校正覆蓋度(二代數(shù)據(jù)校正的堿基占三代一致性序列的百分比)達(dá)99%以上的低質(zhì)量序列與Quiver校正得到的高質(zhì)量序列進(jìn)行合并,得到更準(zhǔn)確的轉(zhuǎn)錄本,用于后續(xù)分析;使用軟件CD-HIT-V4.6.7對(duì)校正后的序列進(jìn)行去冗余,最終得到MS樣品的非冗余轉(zhuǎn)錄本序列,即全長(zhǎng)轉(zhuǎn)錄本序列。
1.3.1全長(zhǎng)轉(zhuǎn)錄本功能注釋 通過(guò)NR(Non-Redundant Protein Sequence Database),SwissProt,KEGG(Kyoto Encyclopedia of Genes and Genomes),KOG(EuKaryotic Orthologous Groups)和GO(Gene Ontology)數(shù)據(jù)庫(kù)對(duì)isoforms進(jìn)行功能注釋[23]。
1.3.2全長(zhǎng)轉(zhuǎn)錄本結(jié)構(gòu)分析 使用MISA軟件對(duì)所有的isoforms進(jìn)行搜索,尋找其中的簡(jiǎn)單重復(fù)序列(Simple sequence repeat,SSR),并進(jìn)行統(tǒng)計(jì)分類;對(duì)沒(méi)有注釋到NR,SwissProt,KEGG和KOG四大數(shù)據(jù)庫(kù)的isoforms序列進(jìn)行長(zhǎng)鏈非編碼RNA(Long non-coding RNA,LncRNA)分析,主要通過(guò)CNCI和CPC軟件進(jìn)行編碼能力預(yù)測(cè),取兩個(gè)軟件都預(yù)測(cè)為“非編碼”的結(jié)果作為最終的LncRNA結(jié)果;利用軟件SUPPA對(duì)組裝出來(lái)的編碼序列進(jìn)行可變剪切(Alternative splicing,AS)分析;通過(guò)TF數(shù)據(jù)庫(kù)(plant TFdb)進(jìn)行hmmscan比對(duì)鑒定轉(zhuǎn)錄因子。
1.3.3高加索三葉草Dof轉(zhuǎn)錄因子家族鑒定分析 采用TBtools軟件對(duì)高加索三葉草Dof轉(zhuǎn)錄因子家族成員的相關(guān)理化性質(zhì)進(jìn)行預(yù)測(cè);WoLF PSORT (https://www.genscript.com/wolf-psort.html) 預(yù)測(cè)亞細(xì) 胞定位;MEME (https://meme-suite. org/meme/tools/streme) 分析保守氨基酸基序,并通過(guò)TBtools可視化。借助MEGA 11鄰接法(Neighbor-joining,NJ)進(jìn)行高加索三葉草和擬南芥Dof轉(zhuǎn)錄因子家族成員系統(tǒng)進(jìn)化樹(shù)構(gòu)建分析,并用利用iTOL (https://itol.emb.de/) 對(duì)構(gòu)建的進(jìn)化樹(shù)進(jìn)行美化,其中擬南芥Dof家族成員序列來(lái)源于NCBI (https://www.ncbi.nlm.nih.gov) 網(wǎng)站。
在PacBio Sequel平臺(tái)上,對(duì)4個(gè)采樣時(shí)期的高加索三葉草根莖芽混合樣品(MS)構(gòu)建一個(gè)全庫(kù)開(kāi)展全長(zhǎng)轉(zhuǎn)錄組測(cè)序,獲得的原始總堿基數(shù)為77.26 Gb,Subreads數(shù)量為49 485 458條,Subreads平均長(zhǎng)度為1 561 bp,N50為1 811 bp。通過(guò)Full Passes≥1對(duì)Subreads進(jìn)行篩選,得到1 016 541條高精度的CCS reads,其堿基數(shù)量為1 842 493 178 bp,平均長(zhǎng)度為1 812 bp,平均Full Pass數(shù)量為44。進(jìn)一步對(duì)以上CCS reads進(jìn)行分類,得到894 504條全長(zhǎng)非嵌合序列(FLNC reads),121 372條非全長(zhǎng)序列,16 625條嵌合體序列,665條短序列。將FLNC reads進(jìn)行層級(jí)聚類,獲取到一致性序列。然后利用Quiver算法對(duì)一致性序列進(jìn)行校正后,獲得87 044條高質(zhì)量序列和941條低質(zhì)量序列。另一方面,通過(guò)Illumina RNA-seq高通量測(cè)序平臺(tái),對(duì)4個(gè)采樣時(shí)期的高加索三葉草根莖芽共計(jì)12個(gè)樣品的cDNA文庫(kù)進(jìn)行二代測(cè)序,共得到644.20百萬(wàn)的raw reads,進(jìn)一步得到641.19百萬(wàn)的clean reads。為了提高根莖芽混合樣品全長(zhǎng)轉(zhuǎn)錄本序列的準(zhǔn)確性,利用Ilumina RNA-seq二代數(shù)據(jù)對(duì)低質(zhì)量序列進(jìn)行校正,與Quiver校正得到的高質(zhì)量序列進(jìn)行合并,進(jìn)而得到更準(zhǔn)確的轉(zhuǎn)錄本序列87 852條。再使用軟件CD-HIT-V4.6.7對(duì)校正后的序列進(jìn)行去冗余,最終得到N50為1 916 bp的70 590條非冗余序列或稱全長(zhǎng)轉(zhuǎn)錄本(即isoforms)。
70 590條中的67 684條Isoforms在NR,KEGG,KOG和SwissProt數(shù)據(jù)庫(kù)獲得注釋,注釋率達(dá)95.88%;此4種數(shù)據(jù)庫(kù)注釋量分別占總量的94.79%,92.60%,62.15%和78.26%。其中,以NR數(shù)據(jù)庫(kù)為基礎(chǔ),對(duì)所有Isoforms進(jìn)行序列比對(duì),預(yù)測(cè)高加索三葉草的同源物種,此處僅展示排名前三的物種(圖2)。結(jié)果發(fā)現(xiàn),高加索三葉草與紅三葉的同源相似率最高,達(dá)41.09%;其次為蒺藜苜蓿(Medicagotruncatula),相似率為31.22%;此外,與鷹嘴豆(Cicerarietinum)的相似率也有12.10%。
圖2 同源物種分布Fig.2 Homologous plant species classification
為更好地預(yù)測(cè)和分類高加索三葉草的轉(zhuǎn)錄組數(shù)據(jù),通過(guò)KOG,GO和KEGG數(shù)據(jù)庫(kù)對(duì)所有Isoforms進(jìn)行比對(duì)與功能注釋。KOG數(shù)據(jù)庫(kù)中,有43 870條Isoforms被注釋成功,大致可分為 25個(gè)功能類型(圖3)。其中,涉及Isoforms數(shù)量均較多的類別為:信號(hào)轉(zhuǎn)導(dǎo)機(jī)制(T)、碳水化合物轉(zhuǎn)運(yùn)和代謝(G)、氨基酸轉(zhuǎn)運(yùn)和代謝(E)和脂質(zhì)轉(zhuǎn)運(yùn)和代謝(I)等與轉(zhuǎn)運(yùn)代謝相關(guān)的類別,分別有6 129條、3 348條、2 297條和2 019條。此外,能量的產(chǎn)生和轉(zhuǎn)化(C)類別中也涉及較多的Isoforms,達(dá)2 198條。
圖3 KOG功能注釋及分類Fig.3 KOG functional annotation and classification
GO分析顯示,共有51 905條Isoforms獲得GO功能注釋,涉及生物過(guò)程(Biological process,BP)、分子功能(Molecular dunction)和細(xì)胞組分(Cellular component,CC)3大類別,進(jìn)一步分為53個(gè)亞類(圖4)。在BP類別中,代謝過(guò)程涉及的Isoforms數(shù)量最多,有37 331條;刺激響應(yīng)涉及的Isoforms也較多,達(dá)21 392條。在CC類別中,涉及Isoforms數(shù)量前三的是細(xì)胞、細(xì)胞部分和細(xì)胞器,均在30 000條以上。在MF類別中,結(jié)合和催化活性中涉及的Isoforms數(shù)量遠(yuǎn)多于其他亞類。
KEGG分類表明,注釋到的Isoforms涉及代謝和遺傳信息處理等5大類,進(jìn)一步分為19個(gè)亞類(圖4)。代謝類別所占比例最大,其中碳水化合物代謝類別富集的Isoforms數(shù)量較多,為4 308條;此外,環(huán)境信息處理類別中的信號(hào)轉(zhuǎn)導(dǎo)和有機(jī)系統(tǒng)類別中的環(huán)境適應(yīng)兩個(gè)亞類也值得關(guān)注,分別富集到1 494和1 154條Isoforms。進(jìn)一步經(jīng)KEGG通路富集分析,發(fā)現(xiàn)20 190條Isoforms被富集到135個(gè)通路。由圖5可以看出,代謝類別主要包括淀粉和蔗糖代謝等通路。另外,植物激素信號(hào)轉(zhuǎn)導(dǎo)和MAPK信號(hào)通路等與環(huán)境有關(guān)的通路中也富集較多的Isoforms。
圖5 KEGG通路富集分析Fig.5 KEGG pathway analysis注:因KEGG通路較多,僅將各類富集基因數(shù)目排名前2的通路進(jìn)行展示Note:Due to the large number of KEGG pathways,only the pathways with the number of enriched genes listed in not less than the top 2 were showed
利用MISA軟件對(duì)高加索三葉草MS樣品的 70 590 條Isoforms進(jìn)行搜索,共篩選到二、三、四、五和六核苷酸五種類型的SSR位點(diǎn)19 693個(gè),其中三核苷酸類型最豐富(10 273個(gè)),五核苷酸類型最少(684個(gè));重復(fù)型中以4~7次重復(fù)最多(1 473個(gè)),其次為8~11 次重復(fù)(3 071個(gè))(圖6)。從2.2部分可以看出,大多數(shù)全長(zhǎng)序列得到了較好的注釋;通過(guò)CNCI和CPC軟件對(duì)于沒(méi)有得到注釋的全長(zhǎng)序列進(jìn)行LncRNA預(yù)測(cè),獲得2 668條LncRNA。通過(guò)軟件SUPPA的分析,共有2 788個(gè)AS被鑒定到,包括可變3′端位點(diǎn)(752個(gè))、可變5′端位點(diǎn)(683個(gè))、可變首外顯子(65個(gè))、可變末外顯子(5個(gè))、外顯子互斥(25個(gè))、內(nèi)含子保留(1 200個(gè))和外顯子跳躍(58個(gè))7種類型;以內(nèi)含子保留、可變3′端位點(diǎn)和可變5′端位點(diǎn)三種類型為主。
圖6 SSR分析Fig.6 Analysis of SSR
基于高加索三葉草的全長(zhǎng)轉(zhuǎn)錄本測(cè)序數(shù)據(jù),將70 590 條全長(zhǎng)轉(zhuǎn)錄本序列通過(guò)TF數(shù)據(jù)庫(kù)進(jìn)行hmmscan比對(duì)預(yù)測(cè),鑒定到2 917條序列分屬于53個(gè)TFs家族;其中,ERF,C3H,bHLH和bZIP這4個(gè)TFs家族所含序列較多,均超過(guò)200條(圖7);數(shù)量居中的TFs所含序列也超過(guò)40條,如Dof,TCP和SBP等家族。
圖7 轉(zhuǎn)錄因子分析Fig.7 Analysis of TFs
2.5.1TaDof家族理化性質(zhì)和亞細(xì)胞定位分析 經(jīng)比對(duì)預(yù)測(cè),在高加索三葉草全長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù)中獲得42條Dof轉(zhuǎn)錄因子序列,命名為T(mén)aDof1~TaDof42(表2)。蛋白理化性質(zhì)分析顯示,高加索三葉草42個(gè)Dof轉(zhuǎn)錄因子編碼的氨基酸數(shù)目為63~495;相對(duì)分子質(zhì)量為7 415.52~54 964.37,最小值和最大值分別對(duì)應(yīng)TaDof7和TaDof6;等電點(diǎn)為5.3~10.38,9個(gè)蛋白等電點(diǎn)小于7,為酸性蛋白,33個(gè)蛋白等電點(diǎn)大于7,為堿性蛋白;不穩(wěn)定系數(shù)為32.6~73.58,3個(gè)蛋白不穩(wěn)定系數(shù)小于40,為穩(wěn)定蛋白,其余39個(gè)為不穩(wěn)定蛋白;脂溶指數(shù)介于35.56~58.24之間;平均親水系數(shù)均為負(fù)值,表明其屬于親水性蛋白。亞細(xì)胞定位顯示,TaDof8和TaDof24定位于葉綠體,TaDof10,TaDof13,TaDof27和TaDof32定位于細(xì)胞外基質(zhì),其余36個(gè)成員均定位于細(xì)胞核。
2.5.2TaDof家族系統(tǒng)進(jìn)化分析 利用MEGA11構(gòu)建高加索三葉草與擬南芥Dof轉(zhuǎn)錄因子家族系統(tǒng)進(jìn)化樹(shù),再通過(guò)iTOL進(jìn)行美化(圖8),結(jié)果將高加索三葉草與擬南芥Dof蛋白聚類為11個(gè)亞族(A~K)。該進(jìn)化樹(shù)顯示,除A和B亞族均只包含高加索三葉草或擬南芥Dof成員,未表現(xiàn)出兩者之間的親緣關(guān)系;而在其他9個(gè)亞族中,二者的Dof蛋白可能存在較近的親緣關(guān)系,例如C亞族中的TaDof9和DOF4.7蛋白在相同的進(jìn)化分支,D亞族中的TaDof19,TaDof23和OBP4蛋白處于同一進(jìn)化分支。進(jìn)化樹(shù)中距離較近的蛋白功能通常是相似的,可據(jù)此推測(cè)TaDof蛋白的功能。
圖8 Dof蛋白的系統(tǒng)發(fā)育樹(shù)Fig.8 Phylogenetic tree of the Dof proteins注:紅色字體代表高加索三葉草Dof家族成員;黑色字體代表擬南芥Dof家族成員Note:The protein with red font represented the members of caucasian clover Dof family,and the protein with black font represented the members of Arabidopsis Dof family
2.5.3TaDof家族保守基序分析 通過(guò)在線軟件MEME對(duì)高加索三葉草Dof蛋白保守結(jié)構(gòu)域進(jìn)行預(yù)測(cè),并利用TBtools軟件將Motif的分布情況可視化。由圖9可以看出,在TaDof家族中共預(yù)測(cè)得到10個(gè)Motif;各成員含有的Motif數(shù)量為1~7個(gè),其中除了TaDof24和TaDof37,其余成員均含有Motif1;除了TaDof7,其余成員均含有Motif2。此外,同亞組TaDof成員的Motif組成與分布相同或相似,不同亞組間的Motif組成及分布有所差異。
本研究通過(guò)PacBio Iso-Seq和Illumina RNA-Seq兩種測(cè)序技術(shù)結(jié)合的方法,在正常生長(zhǎng)期和自然降溫期的高加索三葉草根莖芽混合樣本中獲得平均長(zhǎng)度約1 727 bp和N50為1 916 bp的全長(zhǎng)轉(zhuǎn)錄本70 590條。本研究中的轉(zhuǎn)錄本數(shù)量高于人工模擬低溫脅迫下的高加索三葉草轉(zhuǎn)錄組的數(shù)量[9,14],但低于正常生長(zhǎng)情況下的高加索三葉草轉(zhuǎn)錄組的數(shù)量[24]。究其原因,前者是對(duì)短期低溫脅迫的高加索三葉草葉片進(jìn)行的轉(zhuǎn)錄組測(cè)序;后者是對(duì)正常生長(zhǎng)期高加索三葉草主根、水平根莖、主根膨大部位、根莖芽和根莖芽尖5種組織及部位的混樣進(jìn)行的轉(zhuǎn)錄組測(cè)序;進(jìn)一步說(shuō)明轉(zhuǎn)錄組結(jié)果會(huì)因植物組織部位、生長(zhǎng)階段及環(huán)境的不同而發(fā)生變化[25]。
與NR數(shù)據(jù)庫(kù)比對(duì)后,發(fā)現(xiàn)高加索三葉草比對(duì)到紅三葉的Isoforms最多,這與二代轉(zhuǎn)錄組測(cè)序的比對(duì)一致[9],表明其與紅三葉親緣性較高。本研究發(fā)現(xiàn),與KOG,GO,KEGG數(shù)據(jù)庫(kù)比對(duì)后,有6 129條與信號(hào)轉(zhuǎn)導(dǎo)機(jī)制相關(guān)的Isoforms注釋到KOG數(shù)據(jù)庫(kù),21 392條與刺激響應(yīng)相關(guān)的Isoforms注釋到GO數(shù)據(jù)庫(kù),1 494條與信號(hào)轉(zhuǎn)導(dǎo)和1 154條與環(huán)境適應(yīng)相關(guān)的Isoforms注釋到KEGG數(shù)據(jù)庫(kù)。逆境信號(hào)的感知和轉(zhuǎn)導(dǎo)是植物適應(yīng)環(huán)境和生存所必需的[26],說(shuō)明高加索三葉草可能通過(guò)調(diào)控信號(hào)轉(zhuǎn)導(dǎo)和環(huán)境適應(yīng)途徑相關(guān)基因的表達(dá)來(lái)抵御自然降溫這一環(huán)境刺激。碳水化合物代謝途徑中,編碼某些酶的同源基因的表達(dá)可能對(duì)植物抵御低溫起到重要作用[27]。植物面臨低溫時(shí)涉及的代謝通路一般為半乳糖代謝、淀粉和蔗糖代謝和脯氨酸代謝等通路[28]。淀粉和蔗糖代謝通路的某些基因在高加索三葉草響應(yīng)短期人工模擬低溫脅迫中上調(diào)表達(dá)[9]。本研究的KEGG注釋結(jié)果顯示碳水化合物代謝富集的Isoforms較多,進(jìn)一步的KEGG通路注釋結(jié)果顯示淀粉和蔗糖代謝通路涉及較多Isoforms,推測(cè)淀粉和蔗糖代謝等碳水化合物代謝在高加索三葉草適應(yīng)長(zhǎng)時(shí)間低溫脅迫扮演著重要角色。此外,本研究KEGG通路注釋結(jié)果中的植物激素信號(hào)轉(zhuǎn)導(dǎo)通路富集的Isoforms也較多。植物激素可以通過(guò)激素信號(hào)與低溫信號(hào)的交叉來(lái)參與低溫響應(yīng)[29]。其中,由ABA介導(dǎo)的ABA信號(hào)途徑在植物抵抗低溫的過(guò)程中也扮演了重要角色[30-31],如馬鈴薯(SolanumtuberosumL.)的StABF1基因可被低溫誘導(dǎo),還對(duì)耐寒起到正向調(diào)控的作用[32]。因此,推測(cè)高加索三葉草也能通過(guò)調(diào)節(jié)激素信號(hào)途徑相關(guān)基因來(lái)抵抗低溫。
SSR作為一種多態(tài)性高、重復(fù)性好和特異性強(qiáng)的共顯性遺傳標(biāo)記,在物種遺傳多樣性分析、親緣關(guān)系遠(yuǎn)近對(duì)比及遺傳圖譜構(gòu)建等方面具有重要作用[33]。本研究篩選到多種類型的多個(gè)SSR位點(diǎn),可為進(jìn)一步開(kāi)發(fā)高加索三葉草特異的SSR標(biāo)記及遺傳多樣性分析等提供數(shù)據(jù)參考。LncRNA被普遍認(rèn)為是一類不能編碼蛋白質(zhì)的RNA,在人類醫(yī)學(xué)領(lǐng)域受到了較多學(xué)者的研究[34]。目前,對(duì)植物L(fēng)ncRNA的研究多集中在擬南芥、水稻、蒺藜苜蓿和番茄等模式植物中,涉及在植物生長(zhǎng)發(fā)育、開(kāi)花及響應(yīng)逆境脅迫等方面發(fā)揮的作用[35]。本研究通過(guò)對(duì)高加索三葉草的全長(zhǎng)轉(zhuǎn)錄本進(jìn)行預(yù)測(cè),最終得到2 668 條LncRNA,比Yin等[24]的研究結(jié)果多239條,推測(cè)這些LncRNA在高加索三葉草面臨長(zhǎng)時(shí)間低溫脅迫的生理反應(yīng)調(diào)控方面具有一定作用。此外,這些LncRNA也可能有助于高加索三葉草其他方面的研究。真核生物體中,AS事件可調(diào)節(jié)基因表達(dá)和增加蛋白質(zhì)的多樣性,在植物開(kāi)花誘導(dǎo)和響應(yīng)非生物脅迫等方面具有重要作用[36]。本研究中,AS數(shù)量為2 788,說(shuō)明這些AS在高加索三葉草響應(yīng)低溫脅迫中扮演了重要角色。此外,AS數(shù)量低于Yin等[24]對(duì)高加索三葉草的研究結(jié)果,推測(cè)組織來(lái)源及低溫環(huán)境共同造成了該差異。
植物面臨低溫脅迫時(shí),細(xì)胞中的低溫感受器能夠迅速感知環(huán)境溫度,隨后通過(guò)多種轉(zhuǎn)導(dǎo)途徑將信息傳遞至細(xì)胞核,細(xì)胞中能夠響應(yīng)低溫脅迫的TFs基因開(kāi)始表達(dá),進(jìn)而調(diào)控下游相關(guān)基因的表達(dá),最終影響植物對(duì)低溫的應(yīng)答[37]。目前,多種參與調(diào)控植物低溫應(yīng)答的TFs已經(jīng)被鑒定出來(lái),如AP2/ERF,bHLH和ZFP等TFs家族的成員[38]。本研究在70 590 條全長(zhǎng)轉(zhuǎn)錄本序列中鑒定到屬于53個(gè)TFs家族的2 917條TFs序列,其中含序列數(shù)量較多的TFs家族為ERF,C3H,bHLH等。AP2/ERF家族是植物界中最大的轉(zhuǎn)錄因子家族之一,該家族成員可參與植物對(duì)低溫的應(yīng)答,也可通過(guò)調(diào)控下游靶基因的表達(dá)來(lái)增強(qiáng)植物的抗寒能力[39]。C3H型鋅指蛋白是ZFP家族的一個(gè)亞家族,在植物的生長(zhǎng)發(fā)育過(guò)程,與植物響應(yīng)多種脅迫的過(guò)程中均占有一席之地[40]。據(jù)報(bào)道,過(guò)表達(dá)PvC3H72的轉(zhuǎn)基因柳枝稷在4℃的耐冷性顯著提高,其電解質(zhì)滲透率更小,相對(duì)含水量更高,并且經(jīng)-5℃冷凍處理后的轉(zhuǎn)基因株系存活率顯著提高[41]。此外,作為植物特有的轉(zhuǎn)錄因子——Dof,也有42條序列在本研究中被鑒定出來(lái)。Dof家族成員廣泛參與植物對(duì)低溫脅迫的響應(yīng)過(guò)程,過(guò)表達(dá)編碼Dof的同源基因可提高轉(zhuǎn)基因植株的耐寒性[18,42]。先前的研究表明,葡萄的25個(gè)假定Dof基因中有11個(gè)能夠響應(yīng)冷脅迫,其中Dof17d是受冷脅迫誘導(dǎo)最強(qiáng)烈的基因之一;VaDof17d在葡萄中的過(guò)表達(dá)可使葡萄的耐寒性增強(qiáng),而CRISPR/Cas9編輯則導(dǎo)致其耐寒性降低,這些結(jié)果表明VaDof17d在葡萄耐寒性中發(fā)揮了正向作用,可能是抗寒分子育種的重要候選基因[43]。因此,推測(cè)ERF,C3H,Dof等TFs在高加索三葉草響應(yīng)長(zhǎng)時(shí)間低溫脅迫的過(guò)程中具有重要作用,值得探討。
為后期深入研究轉(zhuǎn)錄因子在高加索三葉草響應(yīng)低溫脅迫中的功能,本研究基于全長(zhǎng)轉(zhuǎn)錄組測(cè)序結(jié)果選取Dof家族從生物信息學(xué)分析入手進(jìn)行初步探討。經(jīng)過(guò)比對(duì)分析,本研究從高加索三葉草全長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù)中篩選到42個(gè)TaDof家族成員,該數(shù)量高于模式植物擬南芥和近緣種紅三葉[44-45],導(dǎo)致這一差異的原因可能是物種在進(jìn)化過(guò)程中,為了適應(yīng)環(huán)境,基因發(fā)生了復(fù)制與分化。本研究通過(guò)對(duì)42個(gè)TaDof成員進(jìn)行了亞細(xì)胞定位預(yù)測(cè),結(jié)果顯示大多數(shù)定位于細(xì)胞核,說(shuō)明該家族成員主要在細(xì)胞核發(fā)揮生物學(xué)功能,但是該定位結(jié)果還需通過(guò)實(shí)驗(yàn)結(jié)果來(lái)驗(yàn)證。系統(tǒng)進(jìn)化樹(shù)分析將高加索三葉草與擬南芥Dof蛋白聚類為11個(gè)亞族(A~K),其中A亞族的2個(gè)高加索三葉草Dof成員未與擬南芥Dof聚在一起,說(shuō)明這2個(gè)Dof蛋白可能是高加索三葉草特有的,其功能有待研究。研究報(bào)道,突變體cdf3-1基因使擬南芥對(duì)低溫脅迫敏感,而過(guò)表達(dá)該基因出乎意料地增加了植物對(duì)滲透脅迫的抗性[46];過(guò)表達(dá)與擬南芥CDF1同源的甘藍(lán)型油菜BnCDF1基因,可使擬南芥在-8℃冷凍處理2 h后,相較野生型植株,轉(zhuǎn)基因株系葉片僅輕度萎蔫,存活率顯著增加,且冷響應(yīng)基因的表達(dá)被激活,說(shuō)明BnCDF1作為調(diào)節(jié)因子可影響植物的相變和對(duì)冰凍脅迫的響應(yīng)[47]。本研究發(fā)現(xiàn)TaDof4和擬南芥CDF1,CDF3蛋白處在相同的進(jìn)化分支,推測(cè)TaDof4可能對(duì)高加索三葉草響應(yīng)低溫脅迫起到一定的正向調(diào)控作用,未來(lái)可對(duì)其功能做進(jìn)一步解析。TaDof家族的保守基序分析顯示,同亞組TaDof成員的Motif組成與分布相似,表明同亞組成員的功能可能相似;不同亞組間的Motif組成及分布有所差異,這可能代表各亞族間功能的差異。總之,這些生物信息學(xué)分析的結(jié)果將為高加索三葉草Dof轉(zhuǎn)錄因子的功能驗(yàn)證提供理論基礎(chǔ),尤其是TaDof4可能在低溫脅迫響應(yīng)中起重要作用,需要進(jìn)一步驗(yàn)證。
本研究通過(guò)PacBio Iso-Seq和Illumina RNA-Seq相結(jié)合,在正常生長(zhǎng)期和自然降溫期的高加索三葉草根莖芽混合樣本中獲得70 590條Isoforms。全長(zhǎng)轉(zhuǎn)錄本分析表明:高加索三葉草與紅三葉的同源相似率最高,KOG中涉及與信號(hào)轉(zhuǎn)導(dǎo)機(jī)制相關(guān)的Isoforms較多,GO條目中涉及與刺激響應(yīng)相關(guān)、信號(hào)轉(zhuǎn)導(dǎo)和環(huán)境適應(yīng)相關(guān)的Isoforms較多,KEGG通路中淀粉和蔗糖代謝、植物激素信號(hào)轉(zhuǎn)導(dǎo)通路富集較多的Isoforms,推測(cè)高加索三葉草可能通過(guò)調(diào)控信號(hào)轉(zhuǎn)導(dǎo)、環(huán)境適應(yīng)途徑和碳水化合物代謝相關(guān)基因的表達(dá)來(lái)抵御長(zhǎng)時(shí)間的低溫脅迫;預(yù)測(cè)到19 693個(gè)SSR,2 668 條LncRNA,2 788個(gè)AS和2 917條TFs序列,TFs中的ERF,C3H,Dof等轉(zhuǎn)錄因子家族含序列數(shù)量較多。Dof轉(zhuǎn)錄因子家族的生物信息學(xué)分析結(jié)果表明:42個(gè)Dof家族成員全部為親水蛋白,大部分定位于細(xì)胞核,少數(shù)定位于葉綠體或細(xì)胞外基質(zhì)中;系統(tǒng)進(jìn)化樹(shù)分析將高加索三葉草與擬南芥Dof蛋白聚類為11個(gè)亞族,TaDof4和擬南芥CDF1,CDF3蛋白親緣關(guān)系較近,推測(cè)TaDof4可能對(duì)高加索三葉草響應(yīng)低溫脅迫起到一定的正向調(diào)控作用,后期可進(jìn)一步驗(yàn)證其功能。