張朵朵,林麗梅,國紅玉,龍月紅,邢朝斌
(華北理工大學 生命科學學院,河北 唐山 063210)
三萜皂苷(triterpenoid saponins)是一類廣泛分布于植物中天然存在的三萜皂苷類化合物,是常見的植物防御化學物質,具有潛在的藥物特性[1]。人參皂苷是存在于人參屬植物中的三萜皂苷,是其主要生物活性成分[2-4],具有抗腫瘤、抗衰老、抗炎癥、抗凋亡和神經保護等多種顯著的藥用功效, 具有重要的商業(yè)價值[5-10]。三萜皂苷含量和組成的變化取決于三萜皂苷合成途徑中的一些關鍵酶及其在細胞中的表達水平。三萜皂苷是通過甲羥戊酸(MVA)途徑和2-甲基赤蘚醇磷酸(MEP)途徑合成角鯊烯,角鯊烯環(huán)氧酶(squalene epoxidase, SE)催化角鯊烯向2,3-氧化鯊烯轉化;2,3-氧化鯊烯依次經過環(huán)化、羥基化、糖基化修飾后最終形成三萜類皂苷[11-13]。SE催化角鯊烯向三萜骨架的前體2,3-氧化角鯊烯的轉化,該酶是一種非細胞色素P450型單加氧酶,它參與三萜的生物合成,并在通路中起限速步驟的作用[14]。目前,研究人員已經從人參[15]、三七[16]等藥用植物中克隆了SE基因。Han等[15]克隆了2個人參的SE基因:PgSQE1 (AB122078)和PgSQE2 (FJ393274)。牛云云等[17]克隆了三七中與人參同源的SE基因PnSE1(KC953033)和PnSE2(JX625132),因此,推測人參屬植物中至少存在2種類型的SE,一種類型基因參與三萜皂苷的合成,另外一種類型基因可能參與植物甾醇的合成。
人參(Panax ginseng C. A. Meyer)(四倍體)、三七(P. notoginseng (Burk.) F.H. Chen)(二倍體)在中國都有久遠的種植歷史,具有很高藥用價值,而且人參、三七已有基因組測序數(shù)據(jù)。三萜皂苷是人參屬植物中主要的生物活性成分,其生物合成途徑已被大量研究。SE是三萜皂苷合成途徑中的限速酶,研究證實SE是多拷貝基因。目前主要研究方向是在SE分子克隆、功能表達調控方面,尚未有關于全基因組水平上SE基因家族系統(tǒng)的分析。該研究基于人參、三七基因組測序數(shù)據(jù),在基因組水平上對SE基因家族進行鑒定,對其系統(tǒng)進化關系、基因結構、順式作用元件以及SE基因復制事件等進行系統(tǒng)分析,為進一步闡明SE在人參屬藥用植物三萜皂苷合成中的作用機理提供參考。
在Pfam數(shù)據(jù)庫中下載SE結構域的隱馬爾可夫模型(PF08491),并使用HMMER程序在人參[18]、三七[19]基因組數(shù)據(jù)中搜索SE結構域,設定E值為0.001進行結構域的篩選。之后通過Pfam、CDD、SMART數(shù)據(jù)庫進一步確認是否含有完整的SE基因結構域。
對已經鑒定出的SE蛋白及從NCBI上下載的SE蛋白PgSQE1 (BAD15330)、PgSQE2 (ACJ24907)、PnSE1(AGS79227)和 PnSE2(AFV92748)的domain序列使用ClustalW進行多重序列比對,使用MEGA X軟件通過鄰位相接法(neighbor-joining)構建系統(tǒng)進化樹,通過1 000個重復的引導分析來評估樹節(jié)點的統(tǒng)計可靠性使用。使用PotParam預測SE蛋白理化性,SOPMA和SWISS-MODEL預測其結構,CELLO RESULTS (預測其亞細胞定位)。
使用MEME軟件分析SE基序,參數(shù)設定為:搜索基序總數(shù)為10,最短長度為6,最大長度為50。使用TBtools軟件展示SE的基因結構[20]。使用TBtools截取SE基因起始密碼子上游2 000 bp,通過在線軟件PLANTCARE(預測SE基因順勢作用元件,并通過TBtools軟件進行可視化展示)。
使用TBtools軟件分析SE基因的染色體定位信息,利用MCScanX對人參屬SE基因進行共線性分析,通過TBtools軟件進行可視化。
利用ClustalW對20個人參、三七SE基因的CDS序列進行多重序列比對,使用phyml構建系統(tǒng)發(fā)育樹,通過1000個重復的引導分析來評估樹節(jié)點的統(tǒng)計可靠性。采用 PAML 中的位點模型檢測SE基因家族在進化過程中受到的選擇壓力變化。檢測基因是否存在正選擇位點是根據(jù)非同義替換(dN)與同義替換(dS)的比值(ω)。當ω>1時,表明出現(xiàn)了正選擇;ω=1時,出現(xiàn)中性選擇;ω<1時,為負選擇[21]。通過LRT檢驗比較M0(單比率)與M3(離散)、M1a與M2a、M7與M8,根據(jù)P值判定備擇假設是否成立[22]。利用Datamonkye[23]和 MEC在線服務器對序列數(shù)據(jù)進一步分析。在Datamonkey服務器中選擇3種模型進行分析:單一似然祖先計算法(single likelihood ancestor counting, SLAC)、IFEL、隨機效應似然模型(random effects likelihood model, REL)。
根據(jù)SE結構域的隱馬可夫模型(PF08491),通過HMMER搜索人參、三七的SE基因。經過在線Blast比對,共篩選出20條SE基因,人參(14條)、三七(6條)。植物中不同的SE基因可能在植物應對生物或非生物脅迫時具有不同的功能。擬南芥具有6個角鯊烯環(huán)氧酶序列:其中3個序列(SQE1、SQE2和SQE3)具有應對功能,而其他3個酶(SQE4、SQE5和SQE6)沒有任何功能,命名為SE-like(Laranjeira et al. 2015; Rasbery et al. 2007)。人參、三七中2種角鯊烯環(huán)氧酶PgSQE1和PgSQE2,PnSE1和PnSE2的活性均正常,PgSQE1和PnSE1參與三萜皂苷的合成,PgSQE2和PnSE2參與植物甾醇的合成[15, 24]。PgSE1的過表達有效地提高了轉基因人參根中人參皂甙和植物甾醇的產量,這可能是由于三萜對人參皂苷和植物甾醇生物合成的刺激作用所致。
使用人參、三七鑒定出來的20條蛋白序列與已確定功能的4條人參、三七SE蛋白序列進行多序列比對,構建系統(tǒng)進化樹。如圖1所示人參、三七SE聚為5大分支。其中Pjap31602、Pg_S6308.10、Pg_S3064.5與PgSQE1、PnSE1聚為一支; Pjap08406、Pg_S3767.14、Pg_S2606.7與PgSQE2、PnSE2聚為一支。Pg_S1693.31、Pjap26690、Pg_S0129.28、Pg_S2840.6和Pjap03499聚為一支,Pg_S2606.8、Pg_S3767.15、Pjap29328和Pg_S1672.1聚為一支,Pg_S6152.1、Pg_S6081.2、Pjap12581、Pg_S4651.2和Pg_S4651.3聚為一支。說明Pjap31602、Pg_S6308.10、Pg_S3064.5參與三萜皂苷的合成,Pjap08406、Pg_S3767.14、Pg_S2606.7參與植物甾醇的合成。表1為人參、三七SE序列信息及理化性質
圖1 人參、三七SE蛋白序列構建的系統(tǒng)進化樹
表1 人參、三七SE序列信息及理化性質
由表1可知人參、三七SE基因編碼蛋白質的氨基酸殘基數(shù)量為346~671 aa,分子量為37.8~73.7 KD。其中, Pg_S3064.5基因編碼的氨基酸數(shù)量最少,Pjap26690基因編碼的蛋白質氨基酸數(shù)量最多。20條基因編碼的蛋白中,等電點為8.46~9.17,大部分為疏水蛋白,均具有跨膜結構域。人參、三七SE的理化性質并存在組間特異性。人參、三七的SE蛋白定位在質膜上,研究表明SE是位于內質網(wǎng)(ER)的膜結合酶[25, 26],這與預測結果一致。
利用MEME在線軟件分析人參、三七SE蛋白質序列基序,通過TBtools分析基因組數(shù)據(jù)得到SE基因結構特征,結果如圖2(a)、圖2(b)所示。圖2(a)為SE蛋白保守基序分析,可以發(fā)現(xiàn)在人參和三七的SE中共得到10種保守基序,且10種不同的保守基序用不同的顏色表示,20條 SE氨基酸序列中均存motif 1、motif 2、motif 5、motif 6、motif 7、motif 8,且都是高度保守的;從圖2(b)可以觀察到人參、三七SE基因序列CDS長度為1 038 bp(Pg_S3064.5)至2013 bp(Pjap26690);CDS數(shù)量在4~8個之間,大部分為8個。序列分析表明,20個SE具有較高的序列相似性,功能域分析顯示,所有SE均包含SE域和FAD/NAD (P)結合域。NAD結合存在于許多代謝途徑的脫氫酶中,如糖酵解和許多其他氧化還原酶。FAD結合域參與FAD與各種酶的結合,F(xiàn)AD作為輔助因子負責生命系統(tǒng)中的許多催化特性。人參、三七的SE基因保守基序以及結構分布模式都不存在特異性,SE基因結構類似,這驗證了SE基因進化上的高度保守。
圖2 人參、三七SE的 motif、基因結構及順式作用元件分析
為分析SE基因的表達調控機制,通過PLANTCARE軟件預測得到SE基因啟動子區(qū)域的順式作用元件,結果如圖2(c)所示。圖2(c)可以看出人參、三七SE基因啟動子中除了含有絕大多數(shù)真核生物啟動子所具有的保守序列元件TATA-box和CAAT外,還包含多個與激素以及非生物脅迫等相關的順式作用元件。激素響應作用元件包括: 脫落酸響應調控元件(ABRE)、赤霉素響應元件(GARE-motif、P-box、TATC-box)、生長素響應元件(TGA-element、AuxRR-core)、茉莉酸甲酯響應元件(CGTCA-motif、TGACG-motif)。非生物脅迫響應相關順式作用元件主要包括: 光響應元件(GT1-motif、Sp1、ACE、G-box)、低溫響應元件(LTR)、干旱誘導元件(MBS)、參與防御脅迫反應元件(TC-rich repeates)、晝夜節(jié)律調控元件(circadian)等。這些作用元件的發(fā)現(xiàn)可以初步說明SE基因的轉錄水平可能受到激素(如脫落酸、赤霉素、生長素)及非生物脅迫(干旱、低溫和光照)等多種理化因素的調節(jié)。茉莉酸甲酯(MeJA)是一種植物特異性信號分子,在植物防御反應、發(fā)育過程和次生代謝中發(fā)揮重要作用[27]。MeJA對人參三萜皂苷生物合成的影響已被證實。MeJA處理后人參不定根培養(yǎng)中涉及人參皂苷生物合成的PgSE基因的轉錄水平上調,人參皂苷水平相應升高[28]。白樺[29]BpSE啟動子包含與應激相關的cis-acting元件和MYB結合位點,共同賦予BpSE基因適應環(huán)境的能力。在柴胡[30]中,SE的表達隨著干旱脅迫的增加而增加。在人參、三七啟動子中也存在的相應的順式作用元件,進一步說明SE基因受激素以及非生物脅迫等多種理化因素的調節(jié)。
由于人參、三七的基因組拼裝信息不完全,因此僅基于目前各物種的組裝水平進行基因定位,根據(jù)scaffold大小重新命名,見表1所示。人參、三七的SE基因定位到不同的scaffold如圖3(a)所示。從圖3(a)中可以發(fā)現(xiàn)人參中的pg_S2606.7與pg_S2606.7,pg_S3767.14與pg_S3767.15,Pg_S4651.2與Pg_S4651.3分別定位到pgsca4(pg_scaffold2606), pgsca7(pg_scaffold3767)和pgsca8(pg_scaffold4651)上,其余人參SE基因定位到不同的scaffold上。三七的Pjap08406與Pjap29328定位到pnsca3(scaffold5697)上,其余的三七SE基因定位到不同的scaffold上。
通過MCscanX程序計算人參、三七物種內部共線性關系結果如圖3(b)所示。從圖3(b)中可以看出,人參SE基因在scaffold水平上發(fā)生了染色體片段復制現(xiàn)象(pg_scaffold2606- pg_scaffold3767),位于scaffold上的SE基因Pg_S3767.14、Pg_S2606.7與Pg_S3767.15、Pg_S2606.8是一一對應關系。三七中不存在染色體片段復制情況,但是具有一對串聯(lián)重復基因(Pjap08406-Pjap29328)。Pjap08406、Pg_S3767.14、Pg_S2606.7與PgSQE2、PnSE2聚為一支,Pg_S3767.15、Pg_S2606.8和Pjap29328是屬于同一大支的,推測Pg_S3767.15、Pg_S2606.8和Pjap29328所在的分支可能也參與調控甾醇的合成。
圖3 SE的染色體定位及其共線性分析
2.4.1基于PAML的正選擇分析
利用PLAM軟件中的Comedlc程序檢測SE基因家族中每個位點的選擇壓力(見表2)。單比率模型M0的參數(shù)np=39,似然值InL=-4 764.69;離散模型M3的參數(shù)np=43,似然值InL=-4 735.41,兩者之間的LRT檢驗P<0.001。模型M1a與M2a的LRT檢驗值P=1,說明M2a并不存在正選擇位點。通過比較模型M7與M8得到的P>0.01,說明模型M8不成立。備擇假設模型M3成立,M3明顯優(yōu)于M0,說明各個位點存在選擇壓力的差異。M3的ω1、ω2均小于1,不存在正選擇位點,表明SE蛋白在進化過程中是以純化選擇為主。
表2 人參、三七基因基于PAML軟件的適應性分析
2.4.2 基于Datamonkey的正選擇分析
基于Datamonkey檢測選擇壓力:分別以SLAC模型、IFEL模型及REL模型進行正選擇位點的鑒定。SLAC模型在P<0.1水平下檢測到了10個正選擇位點,6個負選擇位點; 在P<0.01水平下檢測到了23個負選擇位點。在IFEL模型中,當P<0.1時,檢測到3個(15N、12A、30D)正選擇位點,167個負選擇位點;在P<0.01水平下檢測到了1個(24V)正選擇位點。REL檢測在significance level為50時具有統(tǒng)計學意義,檢測到了27個負選擇位點。負選擇位點占絕大多數(shù),SE進化過程中較為保守,同樣可以說明純化選擇在SE基因家族的進化過程中占主導地位。
2.4.3基于MEC模型的分析結果
將人參、三七20條SE基因的CDS序列上傳到在線服務器MEC中,以MUSAL為比對方法,在Pg_S2606.7一級結構上標注選擇壓力。圖4是人參、三七SE基因MEC模型分析結果,結果表明SE基因中存在7個橙色標記的位點和25個黃色標記的位點。但大部分的位點被標注為紫色,其中深紫色位點有72個,占總位點的13.93%,表明了純化選擇在SE基因家族的進化過程中占主導地位。
圖4 人參、三七SE基因MEC模型分析結果
關鍵的功能蛋白在進化過程中受到強大的選擇壓力,其適應性進化分析為探索酶的活性位點和功能提供了關鍵信息。SE是植物中三萜皂苷合成途徑中的關鍵酶,利用分子適應性進化原理進行功能位點的篩選可以為植物SE的活性位點提供有價值的參考。研究中通過 PAML、MEC 模型、Datamonkey3種方式對20種人參屬植物次生代謝途徑中的關鍵酶 SE進行了分析,結果表明人參屬中SE基因在自然選擇中以純化選擇為主導。這也證明了人參和三七SE基因在進化過程中的高度保守。推測是由于人參和三七SE 作為三萜類化合物合成途徑中關鍵酶,需要維持其結構的穩(wěn)定性以確保其功能,故在進化過程中較為保守。該研究初步了解了五加科植物中SE基因的進化,為進一步研究三萜皂苷的合成奠定了基礎。利用適應性進化原理篩選功能位點可以為植物硒的活性位點提供有價值的信息。
(1)人參、三七中共鑒定到20條SE蛋白序列,系統(tǒng)發(fā)育樹結果顯示共有5個分支。其中Pjap31602、Pg_S6308.10、Pg_S3064.5參與三萜皂苷的合成,Pjap08406、Pg_S3767.14、Pg_S2606.7參與植物甾醇的合成。
(2)人參、三七在進化過程中高度保守,基因結構及Motif基序沒有組間差異,所有SE均包含SE域和FAD/NAD (P)結合域。人參、三七在進化過程中以純化選擇為主。