季美君,曹孜怡,王翌婷,陸靜茹,汪保華
(南通大學 生命科學學院,江蘇 南通 226019)
核堿基陽離子轉運蛋白-1(nucleobase-cation-symport-1,NCS1)家族由2 500多個來自革蘭氏陰性和革蘭氏陽性細菌、古生菌、真菌和植物的序列成員組成,并且在其他生物體內幾乎不存在。在細胞內,它利用質子或鈉梯度來驅動嘌呤和嘧啶核苷酸堿基、核苷和相關化合物轉運活動[1-3]。有12個跨膜的跨螺旋結構存在于NCS1蛋白質中[4],并且它們是通過質子或鈉梯度驅動的共價機制來發(fā)揮功能的[1]。到目前為止,來自革蘭氏陽性細菌液化微桿菌的鈉偶聯(lián)海因轉運蛋白Mhp1決定了NCS1家族蛋白質的結構組織[5]。該轉運蛋白為膜轉運的交替通道機制和離子耦合機制提供了一個主要模型[6-7]。NCS1家族的蛋白質有419~635個氨基酸殘基長度,并且其中一些已經(jīng)證明在底物吸收中起作用,例如H+同向轉運等。在底物特異性方面,這些蛋白質與NCS2家族的同向轉運蛋白類似,說明這兩個家族是來源于同一個超家族,即APC超家族[4]。真菌NCS1轉運蛋白根據(jù)它們的主要氨基酸序列和特異性特征進一步分類為兩個亞家族,即Fcy類和Fur類轉運蛋白。
堿基是植物在生長發(fā)育及新陳代謝過程中起關鍵作用的物質之一。許多生物化學過程都依賴于核堿基的作用,例如核酸代謝、碳水化合物、糖蛋白和磷脂代謝以及許多次生代謝物(如細胞分裂素、可可堿和咖啡因)的生物合成等等[8-10]。堿基生物化學的特點是補救反應、從頭合成和分解代謝途徑之間復雜的相互作用。這種代謝的復雜性反映了在持續(xù)的DNA和RNA合成和回收、胚乳中的氮儲存和萌發(fā)時的釋放、氮的獲得和長距離運輸甚至是整個植物生活史中對堿基的廣泛需求,例如,細胞分裂素和嘌呤生物堿的產(chǎn)生以及酰脲循環(huán)[11-12]。核堿基生物化學的另一個特征是高度的區(qū)室化,需要廣泛的細胞內和細胞間運輸。例如,在種子萌發(fā)和幼苗早期發(fā)育過程中,核堿基生化途徑的基本相互作用,既需要代謝產(chǎn)物從胚乳到子葉的細胞間運輸,也需要細胞器之間的細胞內運輸。在擬南芥基因組得到了6個編碼不同的核堿基轉運蛋白的基因家族,體現(xiàn)了核堿基轉運的程度和重要性[13]。其中有兩個轉運蛋白家族是植物所特有的,包括具有8個成員的脲苷通透酶(UPS)和具有21個成員的嘌呤通透酶 (PUP)[14-15]。在擬南芥中鑒定出了NCS1家族的唯一成員,即 Azga類轉運蛋白家族,其主要功能是促進腺嘌呤、鳥嘌呤和尿嘧啶的運動[16]。在其他植物中也鑒定到了NCS1的家族成員,例如玉米和狗尾巴草等,并存在特有的溶質轉運譜[17],表明在植物的生長發(fā)育過程中核堿基陽離子轉運蛋白也起著十分重要的作用。
棉花是天然纖維作物和紡織工業(yè)原料的重要來源。其中廣泛種植的是陸地棉(G.hirsutum),它具有產(chǎn)量高、適應性廣、品質較好和纖維較長等特點。棉纖維主要是由纖維素構成的,所占比例約為 94%,主要包含碳、氫、氧三種元素。隨著經(jīng)濟的不斷發(fā)展,對棉纖維的品質要求也在不斷提高。我們的前期研究中,通過RNA-seq和BSA-seq結果聯(lián)合分析,發(fā)現(xiàn)基因Gh_D09G1347是控制纖維強度或纖維長度的候選基因,并且該基因屬于NCS1基因家族。本研究利用生物信息學方法,對該家族基因開展多序列比對、染色體定位、進化樹構建、Motif 預測和基因結構鑒定等方面研究,以期為陸地棉育種和纖維品質的發(fā)展提供理論基礎。
陸地棉基因組數(shù)據(jù)來自南京農(nóng)業(yè)大學棉花研究所的數(shù)據(jù)庫(http://mascotton.njau.edu.cn/Data.htm),從該網(wǎng)站上下載了CDS序列、全基因組序列和蛋白質序列。首先利用生物信息學方法進行了NCS1結構域篩選,所有鑒定出來的蛋白質再用Pfam (http://pfam.sanger.ac.uk/)[18]和SMART(http://smart.embl-heidelberg.de/)[19]驗證結構域,在去除冗余之后從陸地棉基因組中鑒定出了編碼NCS1蛋白質的4個基因。利用在線軟件WoLF PSORT(https://www.genscript.com/wolf-psort.html)對該基因進行亞細胞定位預測。
NCS1家族成員的位置及結構等生物信息是通過利用陸地棉種的基因組gff3注釋文件獲得的。棉花NCS1家族基因在染色體上的位置信息是通過MapChart[20]軟件分析并將其體現(xiàn)出來的。利用MCSCANX軟件[21]對陸地棉的NCS1基因的重復和共線性進行測定和分析;對所有蛋白質序列進行BLAST比對,在全基因組中發(fā)現(xiàn)共線性基因,探討基因家族中基因的雙重關系,并用MCSCANX軟件繪制。
利用在線軟件MEME(http://meme-suite.org/)[21]對NCS1進行保守基序分析,使用的具體參數(shù)如下:10為基序的最大值,其他參數(shù)均為原本的參數(shù)。利用在線軟件GSDS(http://gsds.gao-lab.org/)分析NCS1家族基因外顯子-內含子結構[22]。將已分析的序列比對結果文件、外顯子-內含子結構文件以及保守結構域文件組合,利用TBtools將其可視化[23]。
為了分析NCS1進化的關系,從Ensembl(http://plants.ensembl.org/index.html)上獲得了擬南芥(Arabidopsisthaliana)、水稻(Oryzasativa)、番茄(Solanumlycopersicum)、高粱(Sorghumbicolor)、可可(Theobromacacao)、葡萄(Vitisvinifera)和玉米(Zeamays)的CDS序列、全基因組序列和蛋白質序列,利用下載的序列對這些物種的NCS1家族成員進行鑒定,利用HMMER3.0和BLASTP搜索并提取陸地棉的蛋白序列,利用MEGA 7.0[24]軟件對蛋白序列進行多序列比對,進而用鄰接法(NJ)構建系統(tǒng)發(fā)育樹。利用在線軟件Evolview (http://www.omicsclass.com/article/671)美化進化樹。
本研究利用BLAST建庫比對和Calculator工具,對陸地棉NCS1基因核苷酸的同義替換率(Ks)和非同義替換率(Ka)進行計算,獲得數(shù)據(jù),進而進行下一步分析。我們進行了Ka/Ks的比值的計算,以分析該基因在系統(tǒng)發(fā)育過程中受到了何種選擇。在進化過程中,氨基酸可能會由于基因的非同義替換,即Ka,從而產(chǎn)生一些相應的變化,進而會帶來蛋白質的構象和功能的改變,最終帶來優(yōu)勢或者劣勢自然選擇的結果;而Ks是代表發(fā)生同義替換的SNP數(shù)。利用基因 Ka/Ks比率值,進行物種選擇壓力分析。
下載了起始密碼子上游1 500 bp的啟動子序列,從而對NCS1所具備的潛在功能進行相關分析,具體方法是利用PlantCARE數(shù)據(jù)庫(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)[25]識別出基因所具有的順式作用元件并進行分析,經(jīng)過篩選之后通過TBtools將其可視化。
取開花后17和21 d的棉纖維的RNA,逆轉錄為cDNA留存。對這4個候選基因都進行了表達驗證,實驗設計3次生物學重復和3次技術重復,棉花histidine3基因被標準化為內源基因。表1 列出了qRT-PCR引物的詳細信息。
表1 qRT-PCR引物
通過已有陸地棉的基因組數(shù)據(jù),將陸地棉的蛋白質序列進行隱馬爾可夫模型(HMM)搜索,最終獲得4條NCS1蛋白質序列,根據(jù)不同物種NCS1家族基因的數(shù)量分析,并進行了重新命名,結果發(fā)現(xiàn)四倍體陸地棉的NCS1家族數(shù)量均高于其他物種,如表2所示。
表2 NCS1家族基因基本理化性質
對NCS1家族基因進行染色體定位(圖1),結果表明陸地棉的4個NCS1基因僅分布在兩條染色體上,并且主要分布在染色體的近末端。
為了解NCS1家族基因的進化關系,對四倍體陸地棉的NCS1家族基因進行共線性分析(圖
圖1 NCS1基因在陸地棉中的染色體分布Fig.1 Chromosomal distribution of NCS1 genes in upland cotton
2)。結果表明,A09和D09出現(xiàn)了加倍復制,并且不同亞族之間有更緊密的進化關系,NCS1家族基因在多倍化過程中出現(xiàn)了基因組的重新排列。
利用MEME軟件分析了陸地棉NCS1蛋白的序列。共鑒定出10個保守基序,并用程序對這些保守基序進行了注釋與系統(tǒng)發(fā)育樹分析(圖3),可以發(fā)現(xiàn)序列相似度高的都聚在一起。結果表明,陸地棉所鑒定出的4個NCS1家族的基因都含有motif1-10,表明同一個亞族中所有NCS1家族基因具有相似的基因結構和保守基序,這些結果可以有力地支持系統(tǒng)發(fā)育進化分類的可行性。
通過對陸地棉中的NCS1家族基因進行蛋白質序列比對(圖4),結合SWISS-MODEL(https://swissmodel.expasy.org/)對蛋白序列的三維結構分析,可以發(fā)現(xiàn)有一些特殊結構位點存在于蛋白質序列上,在這些結構位點處可能包括了α螺旋、β折疊和無規(guī)則卷曲等一些特殊的結構元件。
灰線代表不同基因組內的共線關系,紅線代表NCS1家族中的共線基因對The gray lines represent collinear relationships within different genomes, and the red lines represent collinear gene pairs in the NCS1 family圖2 陸地棉NCS1家族基因的共線性分析Fig.2 The collinearity of NCS1 family genes in the upland cotton
圖3 陸地棉NCS1蛋白的系統(tǒng)發(fā)育樹、保守基序及基因結構Fig.3 Phylogenetic tree, conserved motif and gene structure of NCS1 protein in upland cotton
為了解NCS1家族在物種中的進化關系,使用擬南芥(Arabidopsisthaliana)、水稻(Oryzasativa)、玉米(Zeamays)、番茄(Solanumlycopersicum)、可可(Theobromacacao)、葡萄(Vitisvinifera)、高粱(Sorghumbicolor)和陸地棉(Gossypiumhirsutum)8個物種NCS1家族基因編碼蛋白的氨基酸序列共同構建系統(tǒng)發(fā)育樹,發(fā)現(xiàn)NCS1蛋白家族分為兩個大組(圖5)。其中陸地棉、番茄、可可、葡萄和擬南芥屬于同一組,而水稻、高粱和玉米在同一組內。進一步分析發(fā)現(xiàn)陸地棉和可可屬于同一個亞組,說明這兩個物種之間親緣關系更近;玉米和高粱也屬于同一亞族,這兩個物種間親緣關系也較近??傮w來看,系統(tǒng)發(fā)育分析表明,各物種NCS1家族基因被分為兩組,同一分支的進化程度相近,親緣性高,不同亞群中的基因數(shù)目不等,也表明了物種進化過程中導致NCS1基因發(fā)生明顯分化。
圖4 陸地棉NCS1基因的蛋白質序列比對Fig.4 Alignment of protein sequences of NCS1 gene in upland cotton
在遺傳學中,Ka/Ks通常表示兩個蛋白編碼基因的非同義替換率(Ka)和同義替換率(Ks)之間的比例;該比值是作為判斷是否有選擇壓力作用于該蛋白質的編碼基因的有力依據(jù)。本研究利用KaKs_Calculator2.0 軟件對鑒定出的陸地棉中的NCS1家族基因進行Ka/Ks分析,結果發(fā)現(xiàn)這些基因對應的Ka/Ks值都小于1,且其中一個Ka/Ks比值遠小于1(表3),說明在進化過程NCS1基因主要受到了純化選擇。
Gh,陸地棉;Tc,可可;Vv,葡萄;Sl,番茄;AT,擬南芥;Os,水稻;Sb,高粱;Zm,玉米。Gh, upland cotton; Tc, cocoa; Vv, grape; Sl, tomato; AT, Arabidopsis; Os, rice; Sb, sorghum; Zm, maize.圖5 NCS1基因家族成員的系統(tǒng)發(fā)育樹Fig.5 Phylogenetic tree of NCS1 gene family members
為進一步分析NCS1家族可能存在的一些功能,我們提取了陸地棉NCS1基因起始密碼子上游1 500 bp 序列進行順式作用元件的分析(圖6)。結果顯示了38種非生物脅迫響應元件,陸地棉NCS1基因家族除了存在大量的基本元件CAAT-box和TATA-box外,還存在G-Box和WRE3元件這些參與光響應順式作用調節(jié)元件,其中WRE3是與光響應模塊部分MYB結合并參與光反應的元件。MYB參與植物苯丙烷類次生代謝途徑的調節(jié),WUN-motif 為植物內應激反應元件,ARE是厭氧誘導所必需的順式作用調控元件。通過以上元件在植物中的調控反應可知,多數(shù)順式元件參與光反應,由此我們判斷棉花發(fā)育過程中NCS1家族基因受到光照影響較為明顯。
表2 陸地棉NCS1基因家族核苷酸替換率
為了進一步驗證NCS1基因家族在棉花發(fā)育過程中的影響,在17和21 d這兩個時期做了qRT-PCR分析。分析結果顯示,所有基因在17 d的表達量都顯著高于21 d的表達量。
在原核生物和真核生物中,核堿基轉運蛋白介導了嘌呤和嘧啶類藥物的攝取,而這些藥物則是廣泛應用于治療不同的疾病或作為抗病毒的藥物[26]。有研究表明,NAT/NCS2(核堿基抗壞血酸轉運蛋白或核堿基陽離子轉運蛋白家族2)和NCS1家族對于嘌呤和嘧啶具有高度特異性[27]。NCS1蛋白在細菌中還未有嚴格的系統(tǒng)發(fā)育分析,而最近發(fā)現(xiàn)的對于植物NCS1蛋白質的研究似乎更多,盡管依然未有較為廣泛或全面的系統(tǒng)發(fā)育分析[28]。在真菌中的NCS1蛋白被分為兩個亞家族,即Fcy和Fur家族,而最近發(fā)現(xiàn)的植物NCS1蛋白質似乎更接近于Fur家族,但是缺乏更廣泛的系統(tǒng)發(fā)育分析。它們的功能特性分別為,F(xiàn)cy類轉運蛋白是高親和力的H+共轉運體,對胞嘧啶、腺嘌呤、鳥嘌呤、次黃嘌呤或吡哆醇具有特異性,而Fur類轉運蛋白也是高親和力的H+共轉運體,與Fcy類轉運蛋白具有完全不同且不重疊的特異性,其不僅對尿囊素、尿嘧啶、尿苷、硫胺素、煙酰胺核糖苷具有特異性,對尿酸、黃嘌呤也具有特異性。特別的是,少數(shù)具有功能特征的植物NCS1轉運蛋白與真菌Fur類轉運蛋白更相似,表達出與Fcy和Fur蛋白重疊的特異性特征,它們具有可以同時運輸尿囊素、鳥嘌呤、腺嘌呤和尿嘧啶的功能[1]。NCS1是一種轉運蛋白,其在植物的生長發(fā)育過程中的獨特溶質轉運特異性和基因表達模式被廣泛研究[29]。
圖6 陸地棉NCS1基因家族順式作用元件分析Fig.6 Cis-acting element analysis of upland cotton NCS1 gene family
****表示在0.000 1水平上差異顯著。**** indicated significant difference at 0.000 1 level.圖7 候選基因的相對表達分析Fig.7 Relative expression analysis of candidate genes
本研究通過鑒定分析發(fā)現(xiàn),陸地棉中的NCS1基因家族成員數(shù)量明顯高于其他植物,如在水稻中只有一個。陸地棉中的基因是以成對的方式出現(xiàn)的,說明它們之間同源性高,可能存在相似的功能。系統(tǒng)發(fā)育分析發(fā)現(xiàn),陸地棉的NCS1基因與雙子葉植物如可可、番茄等親緣關系較近,屬于同一亞族,與單子葉植物如水稻玉米等的親緣關系較遠,由此可以看出NCS1基因在不同物種的進化中發(fā)生了分化。
通過對NCS1基因啟動子區(qū)域的順式作用元件分析發(fā)現(xiàn),大量的植物激素響應元件存在于陸地棉中。例如,ABRE作為一種調節(jié)種子、芽休眠的順式作用元件,可以與轉錄因子結合,促進或抑制脫落酸誘導基因的表達,并且在擬南芥中已證實該元件與植物的抗逆性有關,具有增強植物抗逆性等功能[30]。其他與逆境相關的還包括參與MeJA應答的CGTCA-Motif、參與低溫應答的LTR、參與水楊酸應答的TCA-element以及參與防御和脅迫的TC-Rich等。由A-T堿基對所組成的順式作用元件TATA-Box,一般在基因轉錄起始位點的上游發(fā)現(xiàn)較多,可以與調控蛋白相結合,從而達到調節(jié)轉錄的效果。其中,G-Box是光響應的順式作用元件,它參與了果樹開花期的調控,開花期受到光照的影響較大。在表達驗證中發(fā)現(xiàn),所有基因在纖維發(fā)育后期都呈現(xiàn)下降趨勢,說明這些基因在纖維發(fā)育過程中起著重要的調控作用,或可能影響到其纖維品質的發(fā)育。因此,NCS1家族在棉花的生長發(fā)育過程中起著十分重要的作用,具體作用機理有待進一步研究。
本研究首次從全基因組水平中鑒定到4個陸地棉NCS1基因。這些基因在蘋果中被鑒定出具有轉運有毒的鳥嘌呤衍生物-6 TG的功能[28]在植物中堿基生物代謝包括從頭合成、補救和分解代謝過程,這些代謝過程中的復雜性體現(xiàn)了堿基在植物生長發(fā)育中的重要性。在擬南芥的研究中發(fā)現(xiàn),AtNCS1有一個不同于典型的FCY2和FUR4曲線的溶質運輸曲線。為了深入探究AtNCS1的溶質曲線是否能代表植物NCS1特性,研究了一種能夠輸入和利用外源嘌呤的自由生活的單細胞生物體萊茵衣藻來驗證[31]。研究表明,萊茵衣藻 NCS1(CrNCS1)是一種腺嘌呤、鳥嘌呤、尿嘧啶、含有高親和力的腺嘌呤和尿嘧啶的轉運蛋白,并且具有與擬南芥NCS1類似的溶質運輸曲線。兩種植物NCS1(CrNCS1和AtNCS1)的溶質轉運和結合特征具有廣泛的溶質轉運特征,并且是在NCS1蛋白質的真菌FCY2和FUR4亞家族中觀察到了特殊的功能。其中植物的NCS1與真菌FCY2成員一樣,NCS1運輸腺嘌呤、鳥嘌呤,與FCY2不同,它不運輸次黃嘌呤或5-氟胞嘧啶。以上都表明了AtNCS1具有溶質轉運的特性,陸地棉中也可能存在這些相應的功能[28]。通過對陸地棉的4個NCS1基因進一步詳細的分析,為后續(xù)研究NCS1基因家族和改良陸地棉的遺傳特性具有關鍵的作用和重要意義。