袁娜,李陽,楊郁文,張保龍,杜建廠
(江蘇省農(nóng)業(yè)科學院種質(zhì)資源與生物技術(shù)研究所/江蘇省農(nóng)業(yè)生物學重點實驗室,南京210014)
植物激素是植物生命活動中必不可少的內(nèi)源物質(zhì),也是調(diào)控植物生長、發(fā)育、衰老等主要生理過程的一類重要有機分子。近年來,隨著遺傳學和分子生物學的發(fā)展,人們在傳統(tǒng)植物激素的信號轉(zhuǎn)導、激素間的相互作用和激素生物合成的調(diào)控等方面取得了較多的進展和突破[1]。自1991年在番茄中發(fā)現(xiàn)了植物第一個多肽激素——系統(tǒng)素(Systemin)后,越來越多的研究陸續(xù)從植物中分離出了多種多肽激素,并且發(fā)現(xiàn)它們參與植物的生長發(fā)育及抗逆等許多生命過程,特別是作為一種重要的信號分子,在細胞與細胞之間的短距離信息交流中起著關(guān)鍵作用[2]。
一般認為,植物多肽激素是一類長度小于100個氨基酸,具有特殊功能的成熟多肽分子,通常在植物體內(nèi)含量較低[3]。到目前為止,在植物中已有幾十類多肽激素被鑒定出來[4-5]。根據(jù)其來源方式,植物多肽可以分為非功能前體蛋白來源、功能前體蛋白來源和非前體來源[6]。例如目前研究較為廣泛的系統(tǒng)素(Systemin)[7]、CLV3/Embryo Surrounding Region-Related(CLE)[8]、Tracheary Element Differentiation Inhibitory Factor(TDIF)[9]、Phytosulfokine(PSK)[10]、Plant Peptide Containing Sulfated Tyrosine1(PSY1)[11]、C-Terminally Encoded Peptide(CEP)[12]等,均來源于非功能前體蛋白,經(jīng)過羥基化、糖基化和硫酸鹽化等翻譯后修飾形成的多肽。近年來,也有部分研究發(fā)現(xiàn),功能蛋白也可以作為多肽分子的來源,例如Chen等[13]基于多肽組學在番茄中發(fā)現(xiàn)防御蛋白PR-1來源的CAPE1。此外,隨著生物信息學的發(fā)展,Hanada等[14-15]利用其開發(fā)的sORF finder軟件在擬南芥基因組中預測到近萬條潛在編碼多肽的分子序列,并且通過芯片驗證,發(fā)現(xiàn)有2 099 sORFs是真實表達的。植物多肽激素作為信號分子在細胞與細胞之間短距離的信息傳遞過程中發(fā)揮著重要作用。細胞膜表面存在與多肽激素相對應(yīng)的受體激酶,當感受到多肽激素信號時受體激酶會調(diào)控下游基因的表達從而引發(fā)相應(yīng)的一系列信號轉(zhuǎn)導過程[16]。目前研究發(fā)現(xiàn),植物多肽類激素可以影響植物的生長發(fā)育,例如多肽PSK可以控制細胞的增殖;IDA可以調(diào)控根生長;CLV3則參與植物干細胞分化調(diào)控等[6]。同時,多肽激素也能在植物應(yīng)對生物脅迫及非生物脅迫過程中起到重要的作用,例如CEP和CAPE作為負調(diào)控因子可以調(diào)節(jié)植物抗鹽脅迫反應(yīng)[17]。此外,還有研究發(fā)現(xiàn)多肽激素能夠在體內(nèi)長距離的調(diào)節(jié)組織與組織之間的交流,例如CEP1多肽能夠在氮饑餓時調(diào)節(jié)植物根的生長[18]。
CLE家族是迄今為止最大的植物多肽分子家族,也是近十年來研究最為熱門的植物多肽激素。其調(diào)節(jié)植物的各種生理和發(fā)育過程,尤其對調(diào)控分生組織中細胞的分裂和分化起關(guān)鍵作用[19]。1997年,CLE基因在玉米中作為胚乳特有的基因首次被報道,其名稱源于擬南芥CLAVATA3(CLV3)和玉米Embryo Surrounding Region(ESR)這兩個基因[20]。目前在擬南芥中已鑒定了34個CLE基因家族成員,其編碼的CLE蛋白較小,通常小于100個氨基酸,N-端有一段分泌信號肽(SP),C-端有一段高度保守的包含14個氨基酸的 CLE 結(jié)構(gòu)域(CLE domain)[21]。目前,CLV3(CLAVATA3)是在植物分生組織中研究最為清楚的一個調(diào)控植物發(fā)育的多肽激素,其終產(chǎn)物是一個含有12個氨基酸的多肽。遺傳學與生物化學相關(guān)研究表明,CLV3作為配基激活CLV1/CLV2受體復合物后,將CLV3信號從一個細胞傳遞到鄰近的細胞,通過一系列的中間過程,限制同源異型結(jié)構(gòu)域轉(zhuǎn)錄因子WUS(WUSCHEL)的表達。與此同時,CLV信號復合體與WUS轉(zhuǎn)錄因子之間形成一個非常精確的反饋調(diào)節(jié)環(huán),是控制莖端分生組織中干細胞活性及分生能力的關(guān)鍵因素[22-23]。根據(jù)表達模式和結(jié)構(gòu)的差異,不同的CLE成員在擬南芥中發(fā)揮著不同的生物學功能。例如CLE3能夠感受低氮信號,作用于下游受體CLV1進而抑制側(cè)根的發(fā)生[24];CLE41經(jīng)韌皮部細胞分泌后與原形成層的PXY結(jié)合,進而調(diào)控維管干細胞的分裂[25]。2018年,Shinozaki研究小組在Nature上發(fā)表論文,發(fā)現(xiàn)CLE25可以在根部感受缺水信號,并通過維管束長距離運輸?shù)饺~片中,通過與葉片的BAM受體結(jié)合后,調(diào)控ABA的生成和氣孔的關(guān)閉,首次證明了多肽能夠作為長距離的分子信號調(diào)節(jié)非生物干旱脅迫[26]??傊陙砣舾衫锍瘫降难芯渴谷藗冋J識到,CLE多肽激素及其介導的信號通路在調(diào)控植物分生組織中起著重要作用。開展CLE多肽激素調(diào)控植物分生組織干細胞分裂與分化調(diào)控途徑的研究,對于了解植物生長發(fā)育、組織器官發(fā)生以及形態(tài)建成等分子機制具有重要的理論意義。
棉花是世界上最重要的經(jīng)濟作物之一,是生產(chǎn)天然纖維的重要的紡織工業(yè)原料。然而,隨著環(huán)境不斷惡化,棉花在其生長區(qū)域經(jīng)常遭受著干旱、高鹽、低溫等非生物以及病害等生物脅迫的侵襲,嚴重影響著棉花的生長發(fā)育和產(chǎn)量[27]。CLE多肽激素通過參與植物分生組織的分裂和分化,可以調(diào)控作物的株型,以及作物對生物和非生物脅迫的適應(yīng)性等,對于作物產(chǎn)量的形成與品質(zhì)的保持起著至關(guān)重要的作用。研究發(fā)現(xiàn),植物寄生蟲如囊狀線蟲,可以分泌類似寄主CLE多肽的效應(yīng)蛋白,通過沉默植物體中的CLE多肽受體,從而增強植物對大豆囊狀線蟲的侵染[28]。水稻、玉米、番茄以及煙草等諸多重要的糧食和經(jīng)濟作物的基因組中均存在高度保守的CLE基因[29],然而目前在棉花中,尚未開展CLE基因家族的鑒定及相關(guān)研究。隨著雷蒙德氏棉(Gossypium raimondiiUlbrich)[30]、亞洲棉(G.arboreumL.)[31]、陸地棉(G.hirsutumL.)[32-33]和海島棉(G.barbadenseL.)[34]基因組測序的完成,為我們挖掘和鑒定多肽基因,也為全基因組水平分析棉花中重要基因家族的演化提供可能。因此,對棉花中CLE多肽家族的鑒定及演化研究,可以為進一步的挖掘植物多肽在棉花生長發(fā)育和應(yīng)對環(huán)境脅迫過程中的功能及其信號轉(zhuǎn)導研究提供一定的理論基礎(chǔ),最終為棉花分子育種工作提供有效的理論指導。
在擬南芥TAIR10數(shù)據(jù)庫(https://www.arabidopsis.org/)中,用CLE基因的相關(guān)注釋“CLAVATA3”做關(guān)鍵詞搜索,找出并核對全部擬南芥CLE基因(AtCLE),根據(jù)其基因的Locus Name,獲得擬南芥的CLE peptide sequence。隨后,利用AtCLE的peptide sequence分別對雷蒙德棉[30]、亞洲棉[31]、陸地棉[32]和 海島棉[34]基因組(https://www.cottongen.org/)進行 BLASTP 檢索,E值≤10-10的基因作為候選基因。同以上方法,再用候選基因的peptide sequence進行二次查找,確保沒有遺漏。最后,根據(jù)候選基因的Locus Name,找出基因的Genomic sequence、Transcript sequence、CDS sequence 和 Peptide sequence, 同時獲取基因的大小、染色體位置、內(nèi)含子數(shù)量以及轉(zhuǎn)錄方向等信息,全部保存于文件。候選基因確定后,再根據(jù)CLE基因家族的結(jié)構(gòu)特征,通過對候選基因的N端信號肽預測,C端CLE基序查找等最終確定棉花的CLE基因。
利用ExPASy Proteomics Server軟件(http://www.expasy.org/)對已鑒定的棉花CLE基因家族成員的氨基酸序列進行理化性質(zhì)分析;利用在線 預 測 工 具 SignalP4.1 Server(http://www.cbs.dtu.dk/services/Signal P/),對棉花CLE基因進行信號肽預測。利用在線預測工具GSDS v2.0(http://gsds.cbi.pku.edu.cn/)分析和繪制棉花CLE基因家族成員的基因結(jié)構(gòu)圖。利用在線軟件MEME(http://meme-suite.org/)對CLE蛋白保守結(jié)構(gòu)域進行分析?;蜃畲蟀l(fā)現(xiàn)數(shù)量設(shè)置為5,其他參數(shù)為默認值。
根據(jù)棉花CLE的基因位置信息和棉花染色體的長度,使用TBtools[35]和Adobe illustrator CS3[36]軟件繪制其染色體分布圖。根據(jù)蛋白序列比對結(jié)果識別同源基因?qū)?,?jīng)過比對后,如果短序列能覆蓋超過長序列70%的區(qū)域,則認為這對同源基因為重復基因(duplication genes)。利用InParanoid[37]軟件對4個棉種的CLE基因的直系同源性關(guān)系進行分析。利用KaKs_Calculator 2.0[38]軟件計算同源基因?qū)Φ腒a(非同義突變率)、Ks(同義突變率)值,明確其在演化過程中受何種選擇。
利用MEGA 7.0[39]軟件對獲得的CLE蛋白序列進行多重序列比對。以多序列比對結(jié)果為基礎(chǔ),采用鄰接(Neighbor-Joining)算法構(gòu)建系統(tǒng)進化樹,Bootstrap 重復測試(Replications)設(shè)置為1 000。
在NCBI SRA數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/sra/)下載亞洲棉的葉片、幼苗,雷蒙德氏棉的葉片、花瓣,陸地棉的莖、葉片、花瓣、花托以及海島棉的莖、葉片和花瓣轉(zhuǎn)錄組測序數(shù)據(jù),下載 序 列 號 分 別 為 SRR530430,SRR952685,SRR389183,SRR943769,SRR1695174,SRR169-5175,SRR1695177,SRR1695176,SRR1652331,SRR1652333,SRR1652334?;谝陨蠑?shù)據(jù),利用Tophat[40]和Cufflink[41]軟件包分析轉(zhuǎn)錄組測序數(shù)據(jù)并進行表達量計算,提取CLE基因家族成員的基因表達數(shù)據(jù),將表達數(shù)據(jù)標準化后,使用HemI(Heatmap Illustrator,Version 1.0)[42]軟件繪制熱圖將表達數(shù)據(jù)可視化。
利用擬南芥中已鑒定的CLE蛋白序列和上述方法,我們最終共獲得148個棉花CLE基因,其中亞洲棉有21個、雷蒙德氏棉有26個,陸地棉和海島棉分別有49和52個,分別命名為GaCLE1~GaCLE21、GrCLE1~GrCLE26、GhCLE1~Gh-CLE49和GbCLE1~GbCLE52(表1)。 對棉花CLE多肽基因家族的理化性質(zhì)分析發(fā)現(xiàn),該家族編碼的蛋白長度在73~453個氨基酸,最大和最小分子量分別為47 996.26 Da和8 276.52 Da。GaCLE8的等電點最小,為 6.82;GbCLE23和GbCLE46的等電點最大,為 12.22,平均值為10.48,表明該家族蛋白偏堿性。信號肽預測發(fā)現(xiàn)148個棉花CLE多肽中,103個具有信號肽結(jié)構(gòu),45個沒有預測到信號肽的存在。亞洲棉、雷蒙德氏棉、陸地棉中無信號肽的CLE多肽分別占各自總數(shù)的38.1%,42.3%和40.8%,海島棉中無信號肽CLE最少,僅占總數(shù)的11.5%。
表1 棉花CLE基因家族成員信息Table 1 Information of the CLE genes identified in cotton
表1(續(xù))Table 1(Continued)
表1(續(xù))Table 1(Continued)
表1(續(xù))Table 1(Continued)
表1(續(xù))Table 1(Continued)
表1(續(xù))Table 1(Continued)
利用MEGA 7.0軟件通過鄰接法對34個擬南芥CLE蛋白和148個棉花CLE蛋白序列構(gòu)建了系統(tǒng)進化樹,按照擬南芥的CLE家族分類關(guān)系可將這些成員分成5個亞組,分別用Clade I、II、III、IV、V 表示不同的亞組(圖 1A),此外棉花屬內(nèi)CLE蛋白系統(tǒng)進化樹的分組結(jié)果也與該結(jié)果較為一致。Clade V和Clade IV中家族成員較多,分別含有45和35個家族成員。Clade III和Clade I其次,分別含有25和24個家族成員,Clade II家族成員最少,僅含有19個家族成員(圖 2A)。
圖1 擬南芥和棉花CLE多肽蛋白序列的系統(tǒng)進化樹Fig.1 Phylogenetic tree of CLE protein sequences in Arabidopsis thaliana and four Gossypium species
基因家族結(jié)構(gòu)特征分析顯示,棉花CLE基因家族多為無內(nèi)含子或少內(nèi)含子的基因,Clade V中有50%的基因具有內(nèi)含子,Clade II和Clade IV分別有47%和31%的基因具有內(nèi)含子,而Clade III和Clade I只有3到5個基因有內(nèi)含子(圖2B)。這一結(jié)構(gòu)特征與多肽家族基因長度普遍較小相契合,我們發(fā)現(xiàn)雷蒙德氏棉和陸地棉中,除GrCLE20,GhCLE36,GhCLE45,GhCLE47和GhCLE20以外,其他基因長度均小于500 bp(base pairs,堿基對)。海島棉中CLE基因長度大于500 bp的基因數(shù)量最多,共有17個(Gb-CLE15,GbCLE52,GbCLE6,GbCLE5,GbCLE29,GbCLE1,GbCLE32,GbCLE48,GbCLE47,Gb-CLE36,GbCLE14,GbCLE25,GbCLE24,GbCLE-17,GbCLE41,GbCLE34,GbCLE2)。
采用MEME在線軟件分析148個棉花CLE蛋白的序列特征,發(fā)現(xiàn)有5個保守基序(圖2C)。包含motif1和motif2的基因數(shù)量最多,共有115個。包含motif3和motif4的基因多分別分布于Clade I和Clade V,包含motif5的基因則僅在Clade V有分布。通常每個基序在基因上僅有1到2個分布,但在Clade III中,我們發(fā)現(xiàn)motif1在單個基因上的分布數(shù)量高達14個(Gr-CLE20)。motif1位于基因的C端,其包含了CLE多肽的核心功能序列(RRVPTGSNPLHN)(圖3)。由于植物多肽的表達量通常較低,這些基因是否通過增加序列中功能單位的數(shù)量從而提高多肽的表達量,在后續(xù)的基因功能研究需要進一步的驗證。
圖2 棉花CLE多肽蛋白序列的系統(tǒng)進化樹(A),基因結(jié)構(gòu)(B)和保守基序(C)分析Fig.2 Phylogenetic tree(A),gene structure(B)and conserved motif(C)of cotton CLE protein sequences in three Gossypium species
圖3 棉花CLE蛋白保守基序Fig.3 Weblogo of conserved motifs identified in the cotton CLE proteins
根據(jù)位置信息共將146個CLE基因定位到棉花染色體上,GhCLE49和GbCLE52基因由于來自Scaffold,因此未被定位到染色體上。亞洲棉的21個CLE基因分布在9條染色體上,2號、8號、9號、12號均無CLE基因分布。其中1號染色體上分布較多,有6個基因;剩余染色體分別包含1~3個CLE基因(圖4A)。雷蒙德氏棉的26個CLE基因分布在10條染色體上,3號、10號和11號染色體上均沒有分布。1號染色體上有5個CLE基因,4號、5號和7號染色體各分布4個(圖4B)。陸地棉的26條染色體中有19條染色體包含CLE基因,其中A亞組有9條,D亞組有10條。A亞組的7號染色體、11號染色體,D亞組2號和7號染色體上CLE基因最多,各有5個CLE基因(圖4C)。海島棉的26條染色體中有21條染色體包含CLE基因,其中A亞組有10條,D亞組有11條。A亞組的3號染色體上CLE基因最多,有6個CLE基因,7號和8號染色體各有5個CLE基因分布。D亞組的染色體上分別有1~4個CLE基因分布(圖4C)。此外,在陸地棉中發(fā)現(xiàn)1個串聯(lián)重復的基因簇(GhCLE18和GhCLE19),而在亞洲棉、雷蒙德氏棉和海島棉中沒有發(fā)現(xiàn)該串聯(lián)重復現(xiàn)象。
利用InParanoid軟件在4個棉種中共檢測到112對直系同源基因?qū)Γ▓D5),此外,我們還在陸地棉和海島棉中分別檢測到4對和2對旁系同 源 基 因(GhCLE38/GhCLE12,GhCLE13/Gh-CLE39,GhCLE16/GhCLE42,GhCLE19/GhCLE-18;GbCLE12/GbCLE38,GbCLE5/GbCLE32)(表2)。我們利用KaKs_Calculator對這些同源基因?qū)M行Ka/Ks分析,結(jié)果顯示約35%的直系同源基因的Ka/Ks值小于0.5,這表明這些基因經(jīng)歷了較強的負選擇作用,暗示這些復制基因在進化中較為保守,結(jié)構(gòu)比較穩(wěn)定,功能具有一致性;13對直系同源基因的Ka/Ks值在0.5~1之間(表2)。另外,有11對直系同源基因的Ka/Ks值大于1(GhCLE15/GrCLE16,GhCLE11/GaCLE5,Gh-CLE45/GrCLE20,GhCLE29/GrCLE14,GaCLE11/GrCLE14,GaCLE2/GrCLE4,GhCLE32/GrCLE1,GbCLE36/GrCLE24,GbCLE38/GhCLE34,Gb-CLE37/GrCLE1,GbCLE51/GhCLE48),暗示這些基因在進化中受到了較強的正選擇作用。此外,陸地棉和海島棉中檢測到的6對旁系同源基因的Ka/Ks值均小于1。
根據(jù)已有的亞洲棉葉片、幼苗,雷蒙德氏棉葉片、花瓣,陸地棉的莖、葉片、花瓣、花托以及海島棉的莖、葉片和花瓣轉(zhuǎn)錄組數(shù)據(jù)庫的分析,獲得CLE基因表達量的FPKM(Fragments per kilobase of transcript per million fragments mapped)值,利用HemI 1.0軟件繪制出基因表達模式圖(圖6)。結(jié)果顯示,大部分CLE基因在組織中的
表達量均較低。在亞洲棉中的幼苗和葉片中,CaCLE4基因的表達量最高,其次為GaCLE8和GaCLE11;GaCLE13、GaCLE14、GaCLE16 和Ga-CLE21僅在葉片組織中有稍高的表達量。在雷蒙德氏棉中,僅有GrCLE14和GrCLE2在葉片中有稍高的表達量,其余基因的表達量均較低。在陸地棉中,GhCLE34和GhCLE9在葉片和莖中的表達量均較高,葉片中的GhCLE14和GhCLE40以及莖中GhCLE13的表達量次之?;ò旰突ㄍ兄蠧LE基因的表達量均較低。在海島棉中,GbCLE39在莖中的表達量最高,GbCLE13和GbCLE43次之,葉片和花瓣中CLE基因表達量均較低。
圖4 亞洲棉(A)、雷蒙德氏棉(B)、陸地棉(C)和海島棉(D)CLE基因在染色體上的位置Fig.4 Chromosomal distribution of CLE genes in G.arboreum L.(A), G.raimondii Ulbrich(B), G.hirsutum L.(C)and G.barbadense L.(D)
圖5 棉花CLE基因家族成員的同源關(guān)系分析Fig.5 Homologous relationships of CLE gene family numbers in cotton
表2 直系同源基因?qū)Φ?Ka/Ks Table 2 Ka/Ks ratio of orthologous gene pairs
圖6 CLE基因家族在棉花組織中的表達模式Fig.6 Expression patterns of CLE gene family numbers in different cotton tissues
相較于動物、真菌和微生物,盡管植物多肽研究較為滯后,但近20年來,隨著遺傳學和分子生物學等技術(shù)的進一步發(fā)展,人們逐步意識到植物多肽這一常被忽略的小分子物質(zhì),在植物的生長、發(fā)育、生殖以及對外界環(huán)境的響應(yīng)中具有重要的調(diào)節(jié)作用[43]。目前,植物多肽信號轉(zhuǎn)導已經(jīng)成為植物科學研究的新熱點。CLE多肽是迄今為止在植物中最龐大的多肽分子家族,能夠通過編碼分泌蛋白來參與細胞間的信號轉(zhuǎn)導,在植物生長發(fā)育的調(diào)控過程中起著關(guān)鍵的作用。本文以重要經(jīng)濟作物棉花為研究對象,利用生物信息學手段分別在亞洲棉、雷蒙德氏棉、陸地棉和海島棉中共鑒定出148個CLE基因,并進一步揭示CLE基因家族的特征與功能,從而彌補CLE基因在棉花研究中的空白。
亞洲棉的21個CLE基因分布在9條染色體上,雷蒙德氏棉的26個CLE基因分布在10條染色體上,陸地棉有19條染色體包含CLE基因,其中A亞組有9條、D亞組有10條。海島棉中有21條染色體包含CLE基因,其中A亞組有10條、D亞組有11條。此外,陸地棉的CLE基因數(shù)量分別是亞洲棉和雷蒙德氏棉的2倍,并且在直系同源基因?qū)z測時,除了ChCLE3和Gh- CLE25外,剩余基因均能在亞洲棉或雷蒙德氏棉中找到直系同源基因,這表明陸地棉在A、D亞組雜交加倍形成后,CLE基因沒有發(fā)生大量丟失現(xiàn)象。在海島棉中,少部分CLE基因沒有檢測到直系同源基因,揭示了在海島棉在物種形成后,這些基因可能發(fā)生了獨立演化事件。聚類分析顯示棉花的148個CLE基因可以分為5個亞組,Clade V和Clade IV中家族成員較多,分別含有45和35個家族成員。四個棉種的CLE基因在這5個分組均有分布,表明棉花四倍體栽培種的CLE基因在異源多倍化過程中,沒有發(fā)生大量的基因丟失,較大保留了二倍體栽培種的CLE基因來源。此外,我們發(fā)現(xiàn)棉花中大部分CLE基因只含有一個核心CLE保守基序(motif1:xRxcPs-GpDPIHHh),但是在CladeIII中,我們發(fā)現(xiàn)Gh-CLE45、GrCLE20、GbCLE48、GhCLE20、GbCLE25、GbCLE24、GbCLE47等6個基因分別包含多個motif1序列重復,其中GrCLE20中motif1重復高達14個。通常植物多肽分子的表達量較低,這些基因是否通過增加重復單元來提高多肽的表達量,在后續(xù)的功能研究中值得進一步探索和驗證。每個基序被二聚脯氨酸分隔開,這與水稻中發(fā)現(xiàn)的 3個 CLE(OsCLE502、OsCLE504和 Os-CLE506)相似,這可能在CLE多肽信號分子成熟的過程中發(fā)揮作用,比如被不同類型肽酶所識別[44-45]。
組織表達分析表明,大多數(shù)CLE成員在四個棉種的組織中表達量均較低,亞洲棉中表達量最高的基因為GaCLE4。陸地棉中GhCLE9、Gh-CLE34, 海島棉中GbCLE39、GbCLE13和Gb-CLE43表達量相對較高。雷蒙德棉中的CLE基因表達量均較低。GaCLE4與GhCLE9為直系同源基因,在不同物種中保持著較為一致的高表達量,暗示其功能和演化的保守性。而表達量較高的GhCLE34,與其直系同源基因GrCLE3表達模式差異較大,表明該直系同源基因在不同物種的功能或許存在差異?;贙a/Ks值,本研究發(fā)現(xiàn)11對直系同源基因在演化中受到了較強的正選擇作用。通過序列同源比對,發(fā)現(xiàn)上述大部分基因功能及信號途徑仍然不清晰。
本研究將棉花CLE基因與擬南芥CLE基因進行系統(tǒng)發(fā)育分析,發(fā)現(xiàn)與擬南芥的分組較為一致。通過比對擬南芥CLE家族中CLE基序(CLE motif)發(fā)現(xiàn)其具有高度的保守特性[21]。Fiers等研究顯示,CLV3基因中CLE域的大部分側(cè)翼序列被刪除后,不影響CLV3的功能,進一步研究顯示,用人工合成的CLE保守基序處理擬南芥幼苗,會減小根端分生組織,抑制根的生長,表現(xiàn)出類似CLE基因過表達的表型,CLV3多肽同時也能恢復clv3-2突變體的表型[46]。此外,研究發(fā)現(xiàn)擬南芥根部異位表達的CLE19和CLE40能夠促進根頂端分生組織干細胞分化,而體外施加多肽 CLE19-CLE-motif和 CLE40-CLE-motif,均同樣能夠促進根頂端分生組織干細胞分化[47-48],這些研究表明CLE基序中12個氨基酸的核心序列才是CLE多肽的真正活性形式,也是其行使功能所需的最小結(jié)構(gòu)形式[49-51]。因此,本研究通過將棉花CLE的12個氨基酸核心基序與其他物種比對,發(fā)現(xiàn)10種CLE-motif序列較為保守,在其他物種中均能找到一致序列,其中包括一些研 究 較 為 透 徹 的 CLE25、CLE41、CLE44、FON1等成員。因此,在后續(xù)的功能驗證中,可以參考這些CLE的功能及信號轉(zhuǎn)導途徑研究,驗證其在棉花中是否存在功能保守性。此外,我們還發(fā)現(xiàn)12種棉花特有CLE-motif,其中包括來源于受到強烈正選擇作用的GhCLE15/GrCLE16和Gh-CLE45/GrCLE20同源基因。本研究結(jié)果可以為后續(xù)進一步深入分析這些高表達量或者棉花特異的CLE多肽提供相應(yīng)的參考依據(jù),為豐富棉花多肽的功能研究及信號調(diào)控網(wǎng)絡(luò)研究提供了一定的理論基礎(chǔ),在后續(xù)研究中,我們可以重點關(guān)注這些棉花特有多肽,以利于棉花的生長發(fā)育調(diào)控研究。
多肽激素的發(fā)現(xiàn)改變了人們對植物分子調(diào)控的傳統(tǒng)認識,開辟了植物科學研究的新領(lǐng)域[43]。盡管目前一些信號多肽和受體已得到了鑒定,但還有更多多肽在植物的生長發(fā)育等方面的重要性還沒有被挖掘。例如,多肽信號的產(chǎn)生和加工、信號多肽與受體的相互作用以及信號分子調(diào)控植物生長、發(fā)育和對環(huán)境響應(yīng)的機制等。多肽基因通常較小及表達豐度較低,這為多肽研究帶來一定的難度,但隨著質(zhì)譜技術(shù)及CRISPR-Cas9等分子技術(shù)的發(fā)展、完善,以及借鑒動物多肽信號的研究成果,這些問題將有望逐步解決。多肽激素的功能鑒定及調(diào)控解析,不僅可以擴展我們對植物信號調(diào)控網(wǎng)絡(luò)的認識,豐富植物肽類激素相關(guān)理論知識,更可為未來調(diào)控植物,特別是作物的生長發(fā)育和對環(huán)境的響應(yīng)提供更綠色和有效的生物技術(shù)手段。
采用全基因組分析,我們在二倍體棉種中鑒定出21個亞洲棉GaCLE基因和26個雷蒙德氏棉GrCLE基因,在四倍體陸地棉和海島棉中分別鑒定出49和52個CLE基因。聚類分析顯示棉屬的CLE基因可以分為5個亞組。選擇壓力分析顯示大部分CLE基因都經(jīng)歷了負選擇作用并且在棉花組織中的表達量均較低。海島棉中的GbCLE39、GbCLE13、GbCLE43, 陸 地 棉 中Gh-CLE34、GhCLE9以及亞組棉中的GaCLE4在棉花組織中具有相對較高的表達量。根據(jù)保守基序分析發(fā)現(xiàn)了12個棉花特有的CLE多肽。