李佳靈,尹為治,方正,黃良鴻
(1.海南熱帶雨林國(guó)家公園管理局五指山分局,海南 五指山 572299;2.海南大學(xué)生態(tài)與環(huán)境學(xué)院,海南???570228)
“名不正則言不順,言不順則事不成”。本文所用基本術(shù)語(yǔ)均源自英文,學(xué)界用詞尚未統(tǒng)一,造成較大混亂。為便于論述,特定義解釋如下。
密碼子(codon):DNA 或mRNA 上三個(gè)相鄰的堿基。共64 種,其中61 種編碼氨基酸,其余3種為終止密碼子。
同義密碼子(synonymous codon),簡(jiǎn)稱同義碼:編碼同一種氨基酸的多個(gè)密碼子。生物體中使用的氨基酸有20 種,其中2 種各擁有1 種密碼子,其余18 種各擁有2~6 種同義密碼子。
密碼子役傭(codon usage),簡(jiǎn)稱碼役:密碼子被基因序列役使征用以編碼氨基酸,多被譯為“密碼子使用”。事實(shí)上密碼子是被使用,不是密碼子使用什么。因此,“役傭”一詞較“使用”更能精確表達(dá)“usage”原意。
同義密碼子役傭偏好(synonymous codon usage bias),簡(jiǎn)稱碼役偏好。同義密碼子非均衡役傭現(xiàn)象,基因偏好役用同義密碼子中的某種或某幾種。
同義密碼子氨基酸族(synonymous family),簡(jiǎn)稱碼族:擁有相同數(shù)目同義密碼子的氨基酸家族。一碼族含2 個(gè)成員,各自擁有1 種密碼子;二碼族含9 個(gè)成員,各自擁有2 種同義密碼子;三、四、六碼族分別含1、5、3 個(gè)成員,各自分別擁有3、4、6 種同義密碼子。
最優(yōu)密碼子(optimal codon):在基因組多數(shù)基因中役用頻率超過(guò)平均水平且在高表達(dá)基因中役用頻率較高的一組同義密碼子。最優(yōu)密碼子的篩選標(biāo)準(zhǔn)隨研究目的、對(duì)象而異。
現(xiàn)役密碼子,簡(jiǎn)稱現(xiàn)役碼:出現(xiàn)在基因序列,役傭于基因的密碼子。
在編氨基酸:被基因編碼,其密碼子役傭于基因的氨基酸。
碼役偏好與基因組和蛋白質(zhì)相關(guān)聯(lián),生物學(xué)意義巨大[1,2]。目前,所有被研究過(guò)的物種都有著不同程度的碼役偏好[3]。碼役偏好受自然選擇、堿基突變、基因漂變等因素共同作用[4],還受到基因組大小[5]、tRNA 豐度[6]等因素影響。了解不同物種的碼役模式,分析其影響因素,可以推斷未知基因的表達(dá),預(yù)測(cè)未知基因的功能[1]。
伯樂(lè)樹(shù)Bretschneidera sinensis 系第三紀(jì)孑遺植物,單種成科,我國(guó)特有種,1999 年被列為國(guó)家Ⅰ級(jí)重點(diǎn)保護(hù)植物[7]。伯樂(lè)樹(shù)葉綠體已經(jīng)完成測(cè)序[8],尚未有其碼役等方面的研究報(bào)道。在已有的研究基礎(chǔ)上,通過(guò)對(duì)伯樂(lè)樹(shù)葉綠體基因碼役偏好的分析,揭示其主要影響因素,確定最優(yōu)密碼子,本研究旨在為伯樂(lè)樹(shù)葉綠體基因組學(xué)提供參考。
從NCBI 數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/)中下載伯樂(lè)樹(shù)葉綠體全基因組序列信息,登錄號(hào)為NC_037753.1,共下載87 條基因編碼序列,排除重復(fù)或較短的序列,獲得53 個(gè)基因作為分析樣本。樣本基因均以ATG 為起始密碼子,以TAG、TGA 或TAA 為終止密碼子,且編碼區(qū)長(zhǎng)度大于300 bp。統(tǒng)計(jì)分析使用SPSS 22 及R 語(yǔ)言完成。
1.2.1 碼役偏好統(tǒng)計(jì)參量計(jì)算
運(yùn)用CodonW1.4.2 和德泰生物的序列操作工具箱(http://www.detaibio.com/sms2/index.html),在線統(tǒng)計(jì)樣本序列編碼區(qū)長(zhǎng)度(Sequence Length,縮寫(xiě)表示為SL),使用下述公式計(jì)算樣本序列碼役偏好統(tǒng)計(jì)參量。
1)GC 含量
式中:G、C 分別為樣本基因現(xiàn)役碼同位點(diǎn)堿基G、C 的出現(xiàn)次數(shù);GC 為現(xiàn)役碼同位點(diǎn)堿基G+C 含量;i 為堿基位點(diǎn)序號(hào),取值1、2、3;N 為樣本基因現(xiàn)役碼總數(shù),GC12為GC1和GC2的平均值,GCall為樣本基因總體GC 含量。GC 含量反映方向性突變壓力的強(qiáng)弱,GC3與碼役偏好關(guān)系密切。
2)堿基偏倚度[9]
式中:PA、PG分別為樣本基因現(xiàn)役碼第3 位堿基A、G 的偏倚度,A3、T3、G3、C3分別為現(xiàn)役碼第3 位堿基A、T、G、C 的含量,“|4”表示可計(jì)算4 種同義碼的四、六碼族的在編氨基酸,對(duì)于六碼族的在編氨基酸,排除第3 位堿基相同的2 種現(xiàn)役碼,僅取4 種進(jìn)行計(jì)算。
根據(jù)奇偶規(guī)則(Parity Rule 2,PR2),DNA 互補(bǔ)鏈之間如果不存在選擇性偏倚或突變,則堿基含量A 與T 相等,G 和C 相等。為避免密碼子第3 位AT 和GC 之間突變不平衡,僅對(duì)四、六碼族的在編氨基酸做現(xiàn)役碼第3 位堿基分析[9]。
3)有效密碼子數(shù)[1](Effective Number of Codon,ENC)
中文文獻(xiàn)通行譯effctive 為“有效”,其實(shí)該處effctive 含義為密碼子被基因序列役使征用而生效以實(shí)際編碼氨基酸,即被基因役用,類(lèi)似于服役。因此,譯effctive 為“現(xiàn)役”不僅更為準(zhǔn)確,而且能夠避免因“有效”含義寬泛造成的誤解。相應(yīng)地,術(shù)語(yǔ)整體譯為密碼子現(xiàn)役數(shù),簡(jiǎn)稱現(xiàn)役碼數(shù)。為交流方便,本文仍采用“有效密碼子數(shù)”這一通行詞。
式中:ENCbias為樣本基因現(xiàn)役碼偏好數(shù),碼役偏好(bias)受突變和選擇壓力雙重影響;i 為氨基酸碼族號(hào)(取值2、3、4、6);j 為在編氨基酸序號(hào);k 為現(xiàn)役碼序號(hào);n 為現(xiàn)役碼數(shù)量;m 為在編氨基酸的現(xiàn)役碼數(shù)目;N 為碼族中在編氨基酸數(shù)目,小于或等于碼族成員數(shù);p 為現(xiàn)役碼頻數(shù);f 為在編氨基酸的現(xiàn)役碼一致性指數(shù);F 為碼族中在編氨基酸平均一致性指數(shù),fij=0 時(shí)視同為非在編氨基酸,不參與F 值計(jì)算。ENCbias反映碼役偏離隨機(jī)選擇的程度,最小值為20,反映每個(gè)氨基酸只有1個(gè)現(xiàn)役碼的極端情況;最大值為61,反映全部氨基酸均在編且每個(gè)密碼子均被均衡使用的極端情況。該值越小,碼役偏好越強(qiáng),基因表達(dá)強(qiáng)度一般越高。
式中:ENCmuta為樣本基因現(xiàn)役碼理論數(shù),碼役僅受到突變(mutation)影響;GC3為密碼子第3位堿基G+C 含量。
式中:RENC 為樣本基因現(xiàn)役碼數(shù)比值,ENCmuta為現(xiàn)役碼理論數(shù),ENCbias為現(xiàn)役碼偏好數(shù)。
4)同義碼相對(duì)使用度(Relative Synonymous Codon Usage,RSCU)
式中:RSCU 為樣本基因現(xiàn)役碼相對(duì)使用度;x 為現(xiàn)役碼數(shù)量;m 為在編氨基酸的現(xiàn)役碼數(shù)目,取值2~6;i 為在編氨基酸序號(hào);j 為現(xiàn)役碼序號(hào)。RSCU>1,表明其碼役頻率相對(duì)較高,反之亦然。
1.2.2 中性繪圖分析
以GC12為縱坐標(biāo)、GC3為橫坐標(biāo),分析GC3與GC12的相關(guān)性,若二者呈顯著相關(guān)關(guān)系,說(shuō)明堿基的變異模式相同,碼役受突變的影響較大;反之則表示基因有較高的保守性,碼役受選擇壓力的影響較大[9]。
1.2.3 奇偶偏好繪圖分析
以PA為縱坐標(biāo),PG為橫坐標(biāo)繪制散點(diǎn)圖,分析堿基使用偏好及其影響因素。
1.2.4 有效密碼子數(shù)繪圖分析
以樣本基因ENCbias、GC3為縱、橫坐標(biāo),用R語(yǔ)言做散點(diǎn)圖,并與ENCmuta曲線進(jìn)行比較。當(dāng)樣本基因點(diǎn)分布于ENCmuta曲線附近時(shí)碼役偏好受突變影響,樣本基因點(diǎn)多分布于ENCmuta曲線下方較遠(yuǎn)位置時(shí)碼役偏好較多受選擇壓力的影響[10]。
1.2.5 對(duì)應(yīng)性分析
根據(jù)功能對(duì)每個(gè)樣本基因進(jìn)行分類(lèi),基于每個(gè)基因的RSCU 進(jìn)行。將53 條樣本基因分布到59 維RSCU 向量空間(排除一碼族,共計(jì)59 個(gè)密碼子,每個(gè)密碼子為1 維),通過(guò)主成分分析降維后,檢測(cè)分布在主向量軸上的樣本基因的相對(duì)位置,推測(cè)碼役的主要影響因素。
1.2.6 最優(yōu)密碼子分析
基于ENCbias排序53 個(gè)樣本基因,從兩極各選出10%各5 個(gè)基因作為高、低表達(dá)組分別計(jì)算RSCUtop、RSCUbot,計(jì)算RSCUtop、RSCUbot之差△RSCU。篩選△RSCU>0.08 的現(xiàn)役碼作為高表達(dá)優(yōu)越密碼子。與53 個(gè)樣本基因總體現(xiàn)役碼相對(duì)使用度RSCUall進(jìn)行綜合比較,將△RSCU>0.08,且RSCUall>1 的現(xiàn)役碼定義為最優(yōu)密碼子[11]。
分析表1 得出,53 個(gè)樣本基因總體GC1為45.93%,GC2為37.93%,GC3為29.10%。不同位置的GC 含量較大不同,呈現(xiàn)從第1 位到第3 位遞減的分布趨勢(shì),樣本基因現(xiàn)役碼偏向于以A/T結(jié)尾。ENCbias大小可以反映碼役偏好強(qiáng)弱[12]。53 個(gè)樣本基因ENCbias范圍為37.22~56.50,其中39 個(gè)基因ENCbias>45,說(shuō)明伯樂(lè)樹(shù)葉綠體基因碼役偏好較弱。
表2顯示,GC3與GC1、GC2表現(xiàn)為相關(guān)不顯著,而GC1與GC2極顯著相關(guān)。結(jié)果表明,伯樂(lè)樹(shù)葉綠體基因現(xiàn)役碼第1 和第2 位堿基具有相似的組成,但與第3 位堿基不同。ENCbias值與GC 含量、SL 均無(wú)顯著相關(guān)關(guān)系,說(shuō)明伯樂(lè)樹(shù)葉綠體基因堿基組成和序列編碼區(qū)長(zhǎng)度對(duì)碼役偏好并非是主要影響因素。
表1 樣本基因現(xiàn)役碼GC 含量及有效密碼子數(shù)
表2 基因現(xiàn)役碼偏好統(tǒng)計(jì)參量的相關(guān)性分析
圖1 表明,GC12與GC3的相關(guān)系數(shù)為0.016,雙尾檢驗(yàn)不顯著,直線斜率為0.207 9,GC3與GC12的相關(guān)性很弱,突變對(duì)現(xiàn)役碼第3 位堿基組成的影響與第1、2 位不同。說(shuō)明伯樂(lè)樹(shù)葉綠體基因碼役偏好的形成受突變影響作用較弱,其它因素尤其是選擇在此過(guò)程中可能起到重要的作用。
圖1 中性繪圖
圖2 顯示,大部分樣本基因分布于下方區(qū)域,說(shuō)明在現(xiàn)役碼第3 位T 的使用頻率高于A,分布于左下方的基因略多于右下方,表明現(xiàn)役碼第3 位堿基C 的使用高于G。由此推測(cè),伯樂(lè)樹(shù)葉綠體基因碼役模式受突變和選擇壓力等因素的共同影響。
圖2 奇偶偏好繪圖
圖3 顯示,樣本基因ENCbias值較分散,基因間碼役偏好差別明顯。表3 的RENC頻率分析顯示,大部分樣本基因RENC分布在-0.05~0.10 之間,表明伯樂(lè)樹(shù)葉綠體中該部分基因的碼役偏好更多受突變的影響。rps14、petD、rps8、rps18 等基因遠(yuǎn)離ENCmuta曲線,位于曲線下方,表明伯樂(lè)樹(shù)葉綠體中的這些基因受選擇壓力影響較大,碼役偏好較強(qiáng)。
圖3 有效密碼子數(shù)繪圖
表3 RENC頻率分布
主成分分析計(jì)算結(jié)果顯示,第一主分量軸體現(xiàn)9.45%的差異,第二、三、四主分量軸分別為8.32%、7.65%和6.77%。第一軸對(duì)樣本基因碼役偏好有較大影響。相關(guān)分析計(jì)算結(jié)果顯示,第一主分量軸與ENCbias、GCall、GC3的相關(guān)系數(shù)分別為-0.208、-0.013、-0.064,且無(wú)顯著相關(guān)性,因此GC 含量并非是第一主分量軸的單獨(dú)影響因素。圖4 顯示,樣本基因中遺傳結(jié)構(gòu)基因分布比較集中,表明伯樂(lè)樹(shù)葉綠體遺傳結(jié)構(gòu)基因的碼役模式相對(duì)一致。
圖4 基于RSCU 的對(duì)應(yīng)性分析
經(jīng)過(guò)計(jì)算,用ΔRSCU ≥0.08 的標(biāo)準(zhǔn)篩選優(yōu)越密碼子,以RSCUall>1 為高頻密碼子,以同屬二者的現(xiàn)役碼作為最優(yōu)密碼子,結(jié)果見(jiàn)表4。最終確定伯樂(lè)樹(shù)葉綠體有16 個(gè)最優(yōu)密碼子,其中15個(gè)密碼子以A 或U 結(jié)尾,僅1 個(gè)密碼子以G 結(jié)尾。伯樂(lè)樹(shù)葉綠體基因中ΔRSCU>0.5 的密碼子有7個(gè),分別為GCU、GGU、UUG、CAA、CGU、UCU、ACU。
環(huán)境選擇壓力對(duì)密碼子第3 位堿基的影響較小,第3 位堿基的變化通常不會(huì)改變氨基酸的對(duì)應(yīng)關(guān)系,因此,經(jīng)常把GC3作為分析密碼子役傭的重要依據(jù)[13]。分析伯樂(lè)樹(shù)葉綠體基因顯示,現(xiàn)役密碼子第1、2 位與第3 位堿基組成變異相關(guān)性不顯著,現(xiàn)役密碼子偏好與堿基組成、序列長(zhǎng)度均無(wú)顯著相關(guān)關(guān)系。奇偶偏好繪圖分析表明,現(xiàn)役密碼子第3 位堿基頻率T>A,C>G,嘧啶頻率高于嘌呤。該結(jié)果與陸地棉Gossypium hisutum[14]基本一致,與降香黃檀Dalbergia odorifera[15]、大花香水月季Rosaodorata var.gigantea[16]、馬尾松Pinus massoniana[17]等不盡相同,這或許是物種間差異或統(tǒng)計(jì)方法不同所致。
表4 最優(yōu)密碼子有關(guān)統(tǒng)計(jì)參量
在有效密碼子數(shù)繪圖分析中,ENCmuta曲線代表了密碼子偏好僅受第3 位GC 突變影響時(shí)基因的位置[14]。有效密碼子數(shù)繪圖分析結(jié)果顯示,大部分樣本基因分布于ENCmuta曲線附近,表明伯樂(lè)樹(shù)葉綠體中大部分基因現(xiàn)役密碼子偏好差異與GC3的差異有關(guān),主要受到突變影響。結(jié)合堿基組成分析、對(duì)應(yīng)性分析等結(jié)果,說(shuō)明伯樂(lè)樹(shù)葉綠體基因現(xiàn)役密碼子第3 位GC 含量對(duì)密碼子偏好存在一定影響,但并非主要影響因素。伯樂(lè)樹(shù)葉綠體中仍有15 個(gè)基因,如rps14、petD、rps8、rps18等,分布于ENCexp曲線下方較遠(yuǎn)處,表明伯樂(lè)樹(shù)葉綠體中這部分基因主要密碼子偏好較強(qiáng),受選擇壓力的影響較大。
伯樂(lè)樹(shù)葉綠體基因最優(yōu)密碼子分析劃分了3個(gè)等級(jí),ΔRSCU ≥0.08 有6 個(gè),ΔRSCU ≥0.3 的有3 個(gè),ΔRSCU ≥0.5 的有7 個(gè)。共確定出16個(gè)最優(yōu)密碼子,其中15 個(gè)密碼子以A 或T 結(jié)尾。這符合雙子葉植物偏向于役用以A、T 結(jié)尾的密碼子的結(jié)論[15]。
伯樂(lè)樹(shù)葉綠體基因密碼子偏好更多受到自然選擇等因素的影響,而突變影響較弱。最終結(jié)合高頻密碼子和高表達(dá)優(yōu)越密碼子,確定GCA、GCU、UGU、GAU、GGU、AUU、AAA、UUA、UUG、CCA、CAA、CGU、UCU、ACU、GUA、GUU 等16個(gè)伯樂(lè)樹(shù)葉綠體基因最優(yōu)密碼子。本研究為未來(lái)伯樂(lè)樹(shù)葉綠體基因改造及密碼子優(yōu)化等提供了參考。
致謝:承蒙王俊杰先生悉心指導(dǎo)和詳盡建議,本文修改后更加嚴(yán)謹(jǐn),論述多有新突破。定稿之際,謹(jǐn)致謝忱!