萬美暄,黃顯俊,李 雪,徐 立,*
(1.大理大學(xué)基礎(chǔ)醫(yī)學(xué)院,云南大理 671000;2.大理大學(xué)藥學(xué)院,云南省高校滇西道地藥材資源開發(fā)重點(diǎn)實(shí)驗(yàn)室,云南大理 671000)
葉綠體(chloroplast,Cp)是半自主性細(xì)胞器,在植物光合作用、代謝反應(yīng)、脂肪酸、氨基酸、維生素等生物合成中至關(guān)重要[1]。葉綠體DNA一般以雙鏈環(huán)狀存在于高等植物葉綠體中,長(zhǎng)度在120~180 kb,具有典型的四分體結(jié)構(gòu)[2],且由于其母系遺傳和適度的進(jìn)化速度,在序列和結(jié)構(gòu)上高度保守[3]。因此,Cp基因組測(cè)序備受關(guān)注,NCBI數(shù)據(jù)庫也提供了越來越多的葉綠體基因組,這為種族遺傳學(xué)和系統(tǒng)發(fā)育方面的研究提供了方便。
密碼子(condon)是信使RNA(mRNA)翻譯的基本信息單位,61個(gè)密碼子編碼20種氨基酸,除色氨酸和蛋氨酸,其他氨基酸均有1種以上的密碼子編碼[4]。然而,在蛋白質(zhì)合成中同義密碼子(Synonymous condon)不一定以相同的頻率被使用,這種特定密碼子使用頻率高于其他同義密碼子的現(xiàn)象被稱為“同義密碼子使用偏好性(codon usage bias,CUB)”[5-6]。CUB廣泛存在于生物體中,反映了不同物種或品種之間基因的起源、進(jìn)化趨勢(shì)和突變模式[7]。有研究表明,CUB與基因表達(dá)水平之間存在相關(guān)性[8]。此外,密碼子使用模式可能會(huì)影響 mRNA 生物合成、蛋白質(zhì)折疊、翻譯延伸率及其他下游表達(dá)的生物學(xué)功能[9]。因此,對(duì)CUB分析可以更好地了解物種的遺傳規(guī)律、蛋白質(zhì)的機(jī)制及預(yù)測(cè)新基因。
須彌葛(Haymondiawallihii),俗稱“馬鹿花”,為豆科蝶形花亞科(Papilionaceae)須彌葛屬(Haymondia)植物[10]。在我國主要分布于廣州、四川、廣西、福建、云南等省區(qū)及云南省內(nèi)的思茅、紅河、臨滄、保山、德宏 、大理 、楚雄、怒江等州市[11]。須彌葛花較大,生長(zhǎng)速度快,可做觀賞綠化,在大理白族自治州常被采集花朵,腌制野菜[12]。有研究發(fā)現(xiàn),須彌葛中含有大豆素、大豆苷、葛根素、豆甾醇等化合物[12],具有抗心血管疾病的生理活性,還能緩解高血壓患者的頭痛,解決平滑肌痙攣,鎮(zhèn)咳及抑制癌細(xì)胞生長(zhǎng)等藥性[13]。筆者基于須彌葛植物葉綠體基因組高通量測(cè)序結(jié)果,挑選出長(zhǎng)度>300 bp的52條蛋白編碼序列,對(duì)其進(jìn)行整合分析,探討須彌葛密碼子使用偏性的影響因素,并最終確定最優(yōu)密碼子,以期為須彌葛的進(jìn)化關(guān)系研究、品種改良及葉綠體基因組的應(yīng)用提供參考。
1.1 試驗(yàn)材料的獲取須彌葛植株的新鮮幼嫩葉片于2019年12月采自云南省麗江永勝縣( 25°53′73.23″E,100°25′48.40″N),經(jīng)云南省高校滇西道地藥材資源開發(fā)重點(diǎn)實(shí)驗(yàn)室的夏從龍教授鑒定為豆科須彌葛屬植物須彌葛(Haymndiawallichii)。用無菌水將采集到的健康須彌葛葉片沖洗多次,裝入有變色硅膠的自封袋中脫水干燥,委托上海生物科技有限公司的Illumina No-vaSeq 6000平臺(tái)測(cè)序,最后通過組裝和注釋獲得須彌葛葉綠體全基因組序列號(hào)(NCBI數(shù)據(jù)庫,登錄號(hào)為NC052910.1)。
1.2 葉綠體基因組蛋白質(zhì)編碼序列的獲取從NCBI數(shù)據(jù)庫下載須彌葛葉綠體基因組蛋白質(zhì)編碼序列(CDS)后,為加強(qiáng)數(shù)據(jù)可靠性及減少數(shù)據(jù)冗雜,剔除重復(fù)基因和長(zhǎng)度<300 bp的基因[14]。最后將符合條件的52條CDS整合成一個(gè)fasta文件,用于后續(xù)分析。
1.3 密碼子使用偏好性分析將整理的fasta文件通過CodonW1.4.2軟件處理[15],獲取到須彌葛葉綠體基因組蛋白質(zhì)編碼基因序列的相對(duì)同義密碼子使用度(relative synonymous codon usage,RSCU)、編碼氨基酸的密碼子數(shù)量、有效密碼子數(shù)(effective number of codon,ENC)、最優(yōu)密碼子使用頻率(frequency of optical codons,F(xiàn)op)、密碼子適應(yīng)指數(shù)(codon adaptation index,CAI)、密碼子偏性指數(shù)(codon bias index,CBI)。然后,將52條CDS依次提取整理成52個(gè)fasta文件,使用在線程序CUSP[16]計(jì)算每個(gè)基因不同位置的密碼子GC含量(GCall、GC1、GC2、 GC3),將所得數(shù)據(jù)使用SPSS 24.0和Microsoft Excel軟件進(jìn)行統(tǒng)計(jì)及Person相關(guān)性分析。
1.4 PR2 plot繪圖分析PR2 plot圖是以C=G和A=U為矢量發(fā)出中心點(diǎn),用A3/(A3+T3)為縱坐標(biāo),G3/(G3+C3)為橫坐標(biāo)繪制而成,表明影響密碼子偏好性的主要因素[17]。
1.5 中性繪圖分析將GC3作為橫坐標(biāo),GG1和GC2的平均值(GC12)為縱坐標(biāo),作二維散點(diǎn)圖,再次繪制回歸曲線,然后對(duì)GC3和GC12進(jìn)行相關(guān)性分析。
1.6 ENC-plot繪圖分析首先利用Excel繪制GC3和ENC 的二維散點(diǎn)圖,并根據(jù)公式ENC= 2+GC3+29/[GC32+(1-GC3)2]繪制標(biāo)準(zhǔn)曲線,以此判斷基因點(diǎn)在圖中分布情況。然后利用ENC公式求得ENC期望,再通過 ENC比值=(ENC期望-ENC實(shí)際)/ENC期望,算出ENC比值頻數(shù)分布,從而確定影響密碼子偏好性的主要因素。
1.7 最優(yōu)密碼子的篩選以52條CDS分別得到的ENC值為基礎(chǔ),用Excel將 ENC值依次排序,選出ENC值最高的5個(gè)基因和最低的5個(gè)基因建立高低表達(dá)基因庫,然后將這些基因序列整理成不同的fasta文件,運(yùn)行Codon W 1.4.2軟件得出2個(gè)庫中編碼各氨基酸密碼子的RSCU值,計(jì)算△RSCU值(RSCU高表達(dá),-RSCU低表達(dá))。以高表達(dá)組RSCU>1,且△RSCU≥0.08的密碼子為最優(yōu)密碼子[18]。
1.8 統(tǒng)計(jì)分析使用SPSS 24.0和Excel軟件,進(jìn)行Pearson相關(guān)分析,顯著性水平為P<0.05或P<0.01。
2.1 須彌葛葉綠體基因組密碼子偏性分析
2.1.1相對(duì)同義密碼子使用度。須彌葛葉綠體基因組中的52條CDS序列的相對(duì)同義密碼子使用度(relative synonymous codon usage,RSCU)結(jié)果顯示(表1),31個(gè)高頻密碼子(RSCU>1)中以U結(jié)尾的有16個(gè),以A結(jié)尾的有14個(gè),以G結(jié)尾的有1個(gè),表明須彌葛葉綠體基因組密碼子更傾向A/U結(jié)尾。所有高頻密碼子RSCU值均在1~2,除亮氨酸(Leu)密碼子UUA>2,提示須彌葛葉綠體基因組密碼子使用偏好性較弱。
表1 須彌葛葉綠體基因組中各氨基酸密碼子的RSCU值
2.1.2基因組密碼子堿基組成及偏性。利用軟件CodonW1.4.2和CUSP分析符合條件的52條CDS序列(表2),結(jié)果表明,52條CDS序列的總GC含量(GCall)為38.10%(范圍為29.27%~46.56%),第1位(GC1)為46.89%(范圍為31.99%~59.31%),第2位(GC2)為39.48%(范圍為27.62%~54.68%),第3位(GC3)為27.87%范圍(為21.15%~36.88%)。GC2與GCall相近,GC1和GC3與GCall相差較大,表現(xiàn)為GC1>GC2>GC3。進(jìn)一步說明須彌葛葉綠體基因組密碼子偏好A/U結(jié)尾的密碼子。
表2 密碼子的堿基組成及偏性相關(guān)指標(biāo)
52條CDS的CAI(codon adaptation index)為0.166(范圍為0.110~0.294),CBI(codon bias index)為-0.104(范圍為-0.212~0.175),F(xiàn)OP(frequency of optical codons)為0.349(范圍為0.269~0.520),ENC為47.54(范圍為38.66~59.33)。以上指標(biāo)進(jìn)一步提示須彌葛葉綠體基因組密碼子的使用偏性和基因表達(dá)均較弱。
ENC值與各位置GC含量的相關(guān)性分析顯示(表3),GCall與GC1、GC2和GC3含量的相關(guān)性均達(dá)到極顯著相關(guān)水平(P<0.01);GC1與GC2含量的相關(guān)性達(dá)到極顯著水平(P<0.01);GC3與GC1及GC2含量的相關(guān)性達(dá)到顯著水平(P<0.05);ENC與GC1、GC2含量的相關(guān)性均不顯著(P>0.05),但與GC3含量的相關(guān)性極顯著(P<0.01),說明第3位GC含量對(duì)密碼子的使用偏性有一定程度的影響。
表3 各基因參數(shù)的相關(guān)性分析
2.2 影響密碼子偏性的因素分析
2.2.1PR2-plot分析。 PR2繪圖分析(圖1),所有點(diǎn)分布在G3/(G3+C3)上的0.26~0.67和A3/(A3+T3)上的0.38~0.57,但各基因在4個(gè)象限中明顯分布不均勻。若密碼子使用偏好完全受堿基突變的影響,大多數(shù)點(diǎn)應(yīng)位于0.5水平中心線或附近,但該結(jié)果卻不同。因此,就堿基頻率而言,G>C,T(U)>A。由此推測(cè),自然選擇和突變都是影響須彌葛葉綠體基因組密碼子使用偏性的因素。
圖1 須彌葛葉綠體基因組PR2-plot分析
2.2.2中性繪圖分析。以中性繪圖分析GC12和GC3的關(guān)系(圖2),GC12的取值0.340 1~0.557 5,GC3的取值0.211 5~0.368 8,所有基因位于對(duì)角線以上(除Ycf2基因)。Pearson相關(guān)分析發(fā)現(xiàn),GC12和GC3之間的相關(guān)性較弱(R2=0.125 8,r=0.355 0),相關(guān)系數(shù)r值距離1較遠(yuǎn)。該結(jié)果提示自然選擇是須彌葛葉綠體基因組密碼子使用偏性的主要影響因素。
圖2 須彌葛葉綠體基因組中性繪圖
2.2.3ENC-plot分析。ENC-plot繪圖分析(圖3),大部分基因散亂地分布在標(biāo)準(zhǔn)曲線下方,只有少數(shù)基因分布在曲線附近或曲線上。另外,52條CDS的ENC比值在-0.1~0.3(表4),其中,25個(gè)基因的ENC值和預(yù)期接近,分布在-0.050~0.050;而其他27個(gè)基因的ENC值不在該范圍內(nèi)。若堿基突變是影響密碼子的主要因素,大部分基因應(yīng)在曲線上或曲線附近,且ENC比值在-0.05~0.05,但結(jié)果卻相反。提示堿基突變雖是影響須彌葛密碼子偏好性的因素,但受自然選擇更多,這與中性繪圖分析結(jié)果相一致。
圖3 須彌葛葉綠體基因組ENC-plot分析
表4 ENC比值頻率分布
2.3 最優(yōu)密碼子確定該研究將ENC值最高的5個(gè)基因(ycf3、clpP、ycf2、rpl2、rpoA)和 ENC值最低的5個(gè)基因(rpll6、aptF、petD、psbA、rps12)分別作為高低基因表達(dá)組,建立高低表達(dá)基因庫(表5),計(jì)算得到△RSCU。RSCU>1為高頻密碼子,△RSCU≥0.08的密碼子為高表達(dá)優(yōu)越密碼子,選取二者共有的密碼子為最優(yōu)密碼子,據(jù)此符合條件的有10個(gè)密碼子,其中8個(gè)以A/U結(jié)尾。
表5 須彌葛葉綠體基因組最優(yōu)密碼子分析
密碼子使用偏好廣泛存在于多種生物體內(nèi),可能受 GC 含量、基因長(zhǎng)度、基因功能、選擇、突變等多種因素影響,是一種復(fù)雜而又不可避免的現(xiàn)象[19]。以往大多利用全基因組信息研究物種的密碼子偏好[20]。隨著近年來新一代測(cè)序技術(shù)的飛速發(fā)展,出現(xiàn)了大量的基因組和轉(zhuǎn)錄組數(shù)據(jù),Machado等[21]通過使用深度基因組群體測(cè)序推斷黑腹果蠅同義位點(diǎn)的選擇。Chu 等[22]利用 Ribo-seq 和 RNA-seq 方法研究了密碼子使用偏好如何影響擬南芥的翻譯模式。Guan等[23]通過對(duì)菲牛蛭密碼子使用模式的分析,發(fā)現(xiàn)基因進(jìn)化的基本要素是突變壓力和選擇。該研究通過PR2繪圖、中性繪圖、ENC-pltot等對(duì)影響須彌葛密碼子偏好性的因素進(jìn)行了分析整理,并最終確定最優(yōu)密碼子。
由于密碼子的簡(jiǎn)并性,氨基酸的類型雖不會(huì)因GC3同義突變所改變,但其仍被認(rèn)為是影響氨基酸類型的一個(gè)重要因素[24]。該研究發(fā)現(xiàn),須彌葛葉綠體基因組總GC含量(GCall)是38.10%,且GC1>GC2>GC3,表明密碼子不同位置GC含量不同,密碼子偏好使用以A/U結(jié)尾的密碼子,這與文心花、中華絨螯蟹、豆蔻等植物偏好性一致[16,25-26]。RSCU是確定密碼子使用偏好性的主要指標(biāo),若RSCU<1,則表明該密碼子使用頻率偏低;RSCU>1,則說明該密碼子使用頻率偏高;當(dāng)RSCU=1時(shí),該密碼子使用無偏好性[27]。該研究發(fā)現(xiàn),須彌葛葉綠體基因組高頻密碼子中RSCU>1的有18個(gè),大部分是以U和A結(jié)尾,G和C結(jié)尾的僅2個(gè)。最終確定最優(yōu)密碼子是10個(gè),且8個(gè)是以A/U結(jié)尾,這與GC含量分析結(jié)果相同。
ENC通常表示密碼子偏性的強(qiáng)弱,其ENC>45表示密碼子偏好性較弱[28]。須彌葛ENC平均值為47.54,則說明密碼子使用偏好性較弱。PR2-plot、中性繪圖、ENC-plot分析結(jié)果顯示,自然選擇和突變?cè)陧殢浉鹑~綠體密碼子偏好形成中都起作用,但前者作用更大。這與“玉鈴鐺”棗、翠雀葉綠體基因組中的密碼子偏性影響結(jié)果一致[29],但與蒙古韭不同[30]。由此可知,造成植物密碼子偏好的因素存在差異,不同因素在不同物種間發(fā)揮作用也不同。
該研究通過生物信息學(xué)的方法介紹了影響須彌葛葉綠體基因組密碼子使用偏好和模式的因素,并篩選出最優(yōu)密碼子,這對(duì)須彌葛的進(jìn)一步開發(fā)運(yùn)用有著重要意義。