韓 君
(北京康仁堂藥業(yè)有限公司,北京 101301)
猬科在我國(guó)共有5 個(gè)屬7 個(gè)種。刺猬一直被用作傳統(tǒng)藥物,具有較高的藥用價(jià)值[1-3]。研究表明,刺猬皮膚的刺主要由角蛋白構(gòu)成,而皮膚下層的真皮主要由彈性蛋白和脂肪等物質(zhì)構(gòu)成[4-5]。刺猬肉甘平無(wú)毒,具有降逆和胃、涼血止血的作用[6]。猬脂具有止血?dú)⑾x的功效,可用于治療瘰疬、惡瘡等[7]。猬膽則有清熱解毒和明目的作用。除了傳統(tǒng)功效之外,還有人將刺猬用于治療前列腺肥大,且療效顯著[8]。其中,遠(yuǎn)東刺猬起源于朝鮮半島,廣泛分布在中國(guó)、俄羅斯和朝鮮半島,是一種小型的夜間動(dòng)物,生活在森林中。
最近研究表明,刺猬皮含有豐富的礦物質(zhì)元素,其中鉀、鈉和鈣的含量最高。刺猬皮藥用價(jià)值與其礦物質(zhì)元素含量密切相關(guān)[9]。不同種類和含量的礦物質(zhì)元素,對(duì)于藥效發(fā)揮具有重要意義,但目前仍然缺少分子層面上的研究與驗(yàn)證。因此,本研究擬以遠(yuǎn)東刺猬線粒體mtDNA 編碼蛋白質(zhì)基因序列為研究對(duì)象進(jìn)行密碼子偏好性分析,以期為預(yù)測(cè)遠(yuǎn)東刺猬未知蛋白的基因所在基因組位置、提高特定基因的表達(dá)效率打下理論基礎(chǔ),同時(shí)為促進(jìn)其藥用價(jià)值的分子機(jī)制探究提供基礎(chǔ)材料。
本研究所用的遠(yuǎn)東刺猬線粒體基因組基因序列,均來(lái)源于美國(guó)國(guó)立生物技術(shù)信息中心GenBank數(shù)據(jù)庫(kù)。登錄NCBI 數(shù)據(jù)庫(kù),并下載完整遠(yuǎn)東刺猬線粒體基因組序列及其編碼序列(CDS),序列總長(zhǎng)16 941 bp。為了準(zhǔn)確分析遠(yuǎn)東刺猬線粒體基因密碼子偏好性,本研究選擇遠(yuǎn)東刺猬線粒體mtDNA 編碼蛋白質(zhì)的基因序列中長(zhǎng)度大于300 bp的非重復(fù)編碼序列(CDS)12條進(jìn)行研究。
使用CodonW1.4.2軟件和在線程序CUSP(http://imed.Med.ucm.es/EMBOSS/)對(duì)所選擇的CDS 進(jìn)行密碼子使用偏好參數(shù)分析[10],包括相對(duì)同義密碼子使用度(RSCU)、有效密碼子數(shù)目(ENC)、密碼子適應(yīng)指數(shù)(CAI)、最優(yōu)密碼子使用頻率(Fop)、氨基酸數(shù)(L_aa)、同義氨基酸數(shù)(L_sym)、平均親水性值(Gravy)、密碼子偏愛指數(shù)(CBI)、GC、GC1、GC2、GC3和GC3s,其中GC、GC1、GC2和GC3的數(shù)字表示密碼子的位數(shù)(第1、2、3位),GC3s為同義密碼子第3位的GC含量。
通過(guò)中性分析,可以初步確定影響密碼子偏好的因素。該分析是通過(guò)計(jì)算GC1和GC2的平均值(即GC12),將其作為縱坐標(biāo),并以GC3作為橫坐標(biāo),繪制散點(diǎn)圖。每個(gè)點(diǎn)代表1個(gè)不同的基因,通過(guò)結(jié)合中性繪圖的結(jié)果來(lái)分析密碼子在這3 個(gè)位點(diǎn)上的GC 含量之間的關(guān)系,從而推斷影響密碼子使用偏好的因素。若密碼子這3 個(gè)位點(diǎn)上GC 含量存在內(nèi)在關(guān)系,則表明相關(guān)基因在進(jìn)化與遺傳時(shí)受突變作用;若密碼子這3 個(gè)位點(diǎn)上的GC 含量之間沒有相關(guān)性,那么可以推斷該基因受到選擇的影響,從而判斷導(dǎo)致密碼子使用偏好的因素[11]。
表1 遠(yuǎn)東刺猬的線粒體基因組不同位置的GC含量
以GC3s為橫坐標(biāo),ENC 為縱坐標(biāo),將各基因根據(jù)橫縱坐標(biāo)進(jìn)行定位繪制散點(diǎn)圖,并在圖中構(gòu)建ENC 的標(biāo)準(zhǔn)曲線。根據(jù)基因相對(duì)標(biāo)準(zhǔn)曲線的分布位置,從而判定密碼子偏好性的影響因素?;蛭挥跇?biāo)準(zhǔn)曲線附近或上方,表示突變是影響密碼子偏好性的主要因素;而基因位于標(biāo)準(zhǔn)曲線下方,則表示自然選擇是影響密碼子偏好性的主要因素。
利用CodonW1.4.2 軟件中的RSCU 對(duì)應(yīng)分析功能,可以對(duì)遠(yuǎn)東刺猬線粒體基因組密碼子進(jìn)行分析,推測(cè)密碼子偏好性規(guī)律。
通過(guò)按照ENC 參數(shù)從大到小對(duì)參與分析的基因進(jìn)行排序,可以將這些基因分成高低偏性兩個(gè)集合,分別取兩端各10%的基因序列,然后篩選同義密碼子相對(duì)使用度差值(△RSUA)大于0.08 且同義密碼子相對(duì)使用度(RSUA)大于1 的密碼子,將其確定為最優(yōu)密碼子[12]。
本研究共篩選出12 條以ATG 為起始密碼子且長(zhǎng)度大于300 bp 的序列,并利用CodonW1.4.2 軟件與CUSP程序?qū)Y選出的12條基因進(jìn)行分析。結(jié)果見表1,顯示遠(yuǎn)東刺猬的線粒體基因組密碼子第1位GC(GC1)平均含量為41.4%、第2 位(GC2)為34.4%、第3 位(GC3)為24.3%。結(jié)果表明,遠(yuǎn)東刺猬線粒體基因密碼子的前2位GC含量明顯高于第3位,而第1 位的GC 含量最高,這表明其偏好于以A 和U 結(jié)尾的密碼子。ENC 的范圍為31.83~50.67,平均值為43.37。根據(jù)Jiang Y.等[13]的研究,當(dāng)ENC值大于35 時(shí)說(shuō)明密碼子偏好性弱、小于35 時(shí)密碼子偏好性強(qiáng)的標(biāo)準(zhǔn),說(shuō)明遠(yuǎn)東刺猬線粒體基因密碼子偏好性較弱。
密碼子相關(guān)性分析結(jié)果見表2,顯示GC1、GC2、GC3與GC之間,均未呈顯著相關(guān),相關(guān)系數(shù)為分別為-0.018、0.029、0.039,表明對(duì)遠(yuǎn)東刺猬線粒體基因組而言,GC1、GC2、GC3不可以決定GC的含量。同時(shí),GC1、GC2、GC3三者之間,均呈顯著正相關(guān),相關(guān)系數(shù)均大于0.98,說(shuō)明三者含量具有正向的互相影響作用。此外,ENC 與GC1、GC2、GC3、GC 均呈非顯著負(fù)相關(guān),這表明GC 含量對(duì)密碼子的使用偏好性具有一定的負(fù)面影響。
表2 各基因相關(guān)參數(shù)的相關(guān)性分析
RSCU 分析結(jié)果見表3,發(fā)現(xiàn)遠(yuǎn)東刺猬線粒體RSCU值大于1.00的密碼子數(shù)目為32個(gè)。其中,密碼子第3位堿基為A的有14個(gè);第3位為U的有14個(gè);第3 位為C 的有4 個(gè)。綜上說(shuō)明,遠(yuǎn)東刺猬線粒體基因組密碼子偏好以A 或U(T)結(jié)尾,不偏好以C或G結(jié)尾。
表3 遠(yuǎn)東刺猬線粒體各氨基酸相對(duì)同義密碼子使用度
遠(yuǎn)東刺猬線粒體基因中性繪圖分析(見圖1)顯示,GC12的取值范圍為0.336~0.440,GC3的取值范圍為0.216~0.254,所有基因的分布均位于對(duì)角線上方,且沒有沿對(duì)角線或在對(duì)角線附近的分布情況。利用SPSS 25.0 對(duì)GC12與GC3進(jìn)行相關(guān)性分析,結(jié)果表明,兩者相關(guān)系數(shù)為0.443,雙尾檢測(cè)未達(dá)到顯著水平。
圖1 中性繪圖分析
ENC-plot繪圖分析(見圖2)顯示,在遠(yuǎn)東刺猬線粒體基因組中,大部分基因的對(duì)應(yīng)點(diǎn)與標(biāo)準(zhǔn)曲線存在不同程度的偏離,這表明這些基因在進(jìn)化過(guò)程中受到了環(huán)境選擇壓力等其他因素的影響,從而導(dǎo)致其線粒體基因密碼子的偏性發(fā)生了改變。為了更好地顯示這種差異性,可以通過(guò)計(jì)算(ENCexp-ENCobs)/ENCexp的數(shù)值,并對(duì)結(jié)果進(jìn)行頻率分布統(tǒng)計(jì)。統(tǒng)計(jì)結(jié)果顯示,所有基因的(ENCexp-ENCobs)/ENCexp 比值集中分布在-0.12~0.26,其中0.05~0.15 區(qū)間內(nèi)所占例為66.67%,這說(shuō)明雖然選擇壓力對(duì)大部分基因產(chǎn)生了作用,但并沒有較大程度地改變這些基因的密碼子偏好性。遠(yuǎn)東刺猬線粒體基因密碼子偏好性主要受到突變的影響,而自然選擇對(duì)其的影響相對(duì)較小。
圖2 ENC-plot繪圖分析
基于RSCU進(jìn)行對(duì)應(yīng)性分析,得到各基因在59維向量空間的分布情況。結(jié)果表明,第1、2、3、4軸向量所占比例分別為35.64%、16.22%、10.26%和9.13%,前4 軸向量累計(jì)占比71.24%,其中第1 向量軸(Axis1)為主要影響因素。進(jìn)行了各基因的ENC、CAI 及GC3s等偏好性參數(shù)與Axis1 之間的相關(guān)性分析,結(jié)果顯示GC3s(R=0.609)、ENC(R=0.743)與Axis1 呈顯著正相關(guān);CAI(R=-0.375)與Axis1 呈負(fù)相關(guān)。這說(shuō)明GC1、GC3s及CAI 對(duì)遠(yuǎn)東刺猬線粒體基因密碼子的使用偏好性起重要作用。為進(jìn)一步觀察密碼子偏好性,以Axis1為橫坐標(biāo),Axis2為縱坐標(biāo),將所有試驗(yàn)基因分布區(qū)于坐標(biāo)系中。通過(guò)觀察結(jié)果(見圖3)可知,ND1、ND2、ND3、ND4和ND5等5個(gè)基因分布相對(duì)集中,說(shuō)明其偏好性較為接近;其他7 個(gè)基因分布較為分散,偏好性也相差較大。
圖3 基于RSCU的對(duì)應(yīng)性分析
以ENC 參數(shù)為標(biāo)準(zhǔn)將所有基因的CDS(是指編碼一段蛋白產(chǎn)物的序列,是與蛋白質(zhì)密碼子一一對(duì)應(yīng)的序列)進(jìn)行排序,而后在兩端各取2 個(gè)基因序列分別建立高低偏性集合;計(jì)算兩庫(kù)中的RSCU值,并計(jì)算兩庫(kù)△RSUA。結(jié)果見表4,顯示確定出了24 個(gè)遠(yuǎn)東刺猬線粒體基因組高表達(dá)優(yōu)越密碼子,其中7個(gè)以A結(jié)尾、5個(gè)以U結(jié)尾、2個(gè)以G結(jié)尾和10個(gè)以C結(jié)尾。
表4 遠(yuǎn)東刺猬線粒體基因組高/低表達(dá)樣本組的密碼子用法
通過(guò)將上述24 個(gè)高表達(dá)優(yōu)越密碼子與得出的高頻密碼子進(jìn)行比較,最終得出了14 個(gè)遠(yuǎn)東刺猬線粒體基因組的最優(yōu)密碼子,分別為CUA、AUA、GUU、UCU、CCC、ACA、GCU、CAU、AAA、GAA、UGA、CGC、GGC 和GGA,其中有7 個(gè)以A 結(jié)尾、3個(gè)以C結(jié)尾、4個(gè)以U結(jié)尾。
密碼子編碼形成氨基酸,是生物體遺傳信息傳遞過(guò)程中一個(gè)重要環(huán)節(jié)。同義密碼子是指可以編碼同一種氨基酸的密碼子,由于密碼子具有簡(jiǎn)并性,因此對(duì)于同一種氨基酸,會(huì)存在多個(gè)對(duì)應(yīng)的密碼子。通常密碼子的簡(jiǎn)并性表現(xiàn)在第3位堿基上,本研究在遠(yuǎn)東刺猬線粒體基因組堿基組成中發(fā)現(xiàn),GC1 平均含量為41.4%、GC2為34.4%、GC3為24.3%。RSCU分析結(jié)果顯示,RSCU值大于1.00的遠(yuǎn)東刺猬線粒體密碼子數(shù)目為32個(gè)。密碼子第3位堿基為A的有14個(gè),第3位為U的有14個(gè),第3位為C的有4個(gè)。綜上說(shuō)明,遠(yuǎn)東刺猬線粒體基因組密碼子偏愛以A 或U(T)結(jié)尾,不偏好以C 或G 結(jié)尾。這與多數(shù)動(dòng)物的密碼子偏好性特點(diǎn)相一致,如文蛤?qū)儇愵怺14]、對(duì)蝦[15]和菜蝽[16]等。
物種在長(zhǎng)期進(jìn)化過(guò)程中,其基因會(huì)隨著進(jìn)化程度而逐漸形成一種特定密碼子用法,用以適應(yīng)基因組[17]。密碼子偏性是同義密碼子在生物體中非均衡使用的現(xiàn)象,突變和自然選擇是主要形成密碼子偏好的原因。ENC-plot 分析可用于確定影響密碼子偏好性的主要因素。本研究表明,遠(yuǎn)東刺猬線粒體基因組中大部分基因密碼子偏離標(biāo)準(zhǔn)曲線,說(shuō)明這些基因受環(huán)境選擇壓力等其他因素的影響而發(fā)生改變。中性繪圖分析顯示,遠(yuǎn)東刺猬線粒體基因組中的基因分布在對(duì)角線上方,沒有呈現(xiàn)出沿對(duì)角線或接近對(duì)角線分布的趨勢(shì),這表明密碼子的使用更多受到自然選擇影響。綜合中性繪圖和SPSS結(jié)果發(fā)現(xiàn),遠(yuǎn)東刺猬線粒體基因密碼子第1、第2位和第3位的堿基組成存在較大差異,可能受到突變壓力影響,從而導(dǎo)致密碼子使用偏好性發(fā)生變化。對(duì)應(yīng)性分析結(jié)果顯示,第1、2、3和4軸向量所占比例分別為35.64%、16.22%、10.26%和9.13%,前4 軸向量累計(jì)占比71.24%,其中Axis1為主要影響因素。因此,遠(yuǎn)東刺猬線粒體基因密碼子偏好性受到自然選擇影響,但更多是受到了突變作用,這與真白鮭[18]、落葉松楊柵銹菌[19]、茄腐鐮孢[20]等研究結(jié)果一致。
在本研究中,通過(guò)構(gòu)建遠(yuǎn)東刺猬線粒體基因的高/低表達(dá)庫(kù),并利用△RSCU 和RSCU 的綜合指標(biāo)來(lái)篩選最優(yōu)密碼子,有效地避免了因單方面缺陷而導(dǎo)致結(jié)果出錯(cuò)的問題。最終確定了CUA、AUA、GUU、UCU、CCC、ACA、GCU、CAU、AAA、GAA、UGA、CGC、GGC 和GGA 等14 個(gè)密碼子作為遠(yuǎn)東刺猬線粒體基因組最優(yōu)密碼子。在對(duì)遠(yuǎn)東刺猬線粒體基因密碼子偏好性研究的基礎(chǔ)上,可以通過(guò)優(yōu)化目標(biāo)基因的密碼子,探究其皮等組織入藥機(jī)制,同時(shí)也可為遠(yuǎn)東刺猬野生群體的保護(hù)策略及養(yǎng)殖群體育種等方面,提供理論依據(jù)和實(shí)踐指導(dǎo)。