張琪,劉鳳燕,趙琪,羅雷,趙貴軍,戚文華*
(1.重慶三峽學(xué)院生物與食品工程學(xué)院,重慶 404100;2.重慶市藥物種植研究所,重慶 408435)
偶蹄目Aritiodactyla麝科Moschidae麝屬M(fèi)oschus動物體型較小、生性溫和膽怯,是亞洲的特有物種。麝屬所有物種是我國一級重點(diǎn)保護(hù)野生動物,被列入CITES 附錄Ⅰ(Huanget al.,2013),包括5 個種(Yanget al.,2003):林麝M.berezovskii、原麝M.moschiferus、黑麝M.fuscus、馬麝M.sifanicus和喜馬拉雅麝M.leucogaster。雄性個體分泌的麝香具有重要的經(jīng)濟(jì)價值,是名貴香料和藥材。
原麝分布于黑龍江、內(nèi)蒙古等地的針闊葉混交林。隨著全基因組序列的測定(Fanet al.,2018;Yiet al.,2020),從基因組水平分析基因區(qū)和基因間隔區(qū)微衛(wèi)星分布規(guī)律,了解微衛(wèi)星序列具有的生物學(xué)功能具有重要的意義,有利于了解麝類動物的起源及進(jìn)化特征,為其研究提供科學(xué)依據(jù)和思路(肖宇辰等,2019)。
微衛(wèi)星又稱簡單重復(fù)序列(simple sequences repeats,SSRs),廣泛存在于真核生物、原核生物及細(xì)菌基因組中,多數(shù)分布于非編碼區(qū),少數(shù)分布于編碼區(qū)(甘麗萍等,2018;Qiet al.,2020)。SSRs 具有高重復(fù)性、高多態(tài)性特征,并參與染色體組成、蛋白質(zhì)功能、基因轉(zhuǎn)錄、表達(dá)與調(diào)控等過程。本研究利用R 腳本和TBtools 提取和互相驗(yàn)證,提取原麝基因組中基因區(qū)和基因間隔區(qū)序列,基因區(qū)序列包括5’非翻譯區(qū)(5’untranslated region,5’UTR)、3’非翻譯區(qū)(3’untranslated region,3’UTR)、外顯子區(qū)和內(nèi)含子區(qū),統(tǒng)計、分析并比較這些區(qū)域SSR 的分布規(guī)律及其特征,并對5’UTR 和3’UTR 含SSR的編碼基因進(jìn)行GO 富集分析,探索SSR 的潛在功能。
從Ensembl 數(shù)據(jù)庫(http://ftp.ensembl.org/pub/current_fasta/)下載原麝基因組序列,并使用R 腳本和TBtools 提取原麝基因組中提取3’UTR、5’UTR、外顯子區(qū)、內(nèi)含子區(qū)和基因間隔區(qū)序列,以FASTA格式保存。
1.2.1 微衛(wèi)星識別與鑒定 利用MSDBv2.4(Duet al.,2013)和Krait(Duet al.,2018)對原麝基因區(qū)和基因間隔區(qū)中完美型微衛(wèi)星序列進(jìn)行識別和鑒定,搜索和統(tǒng)計標(biāo)準(zhǔn)為單堿基至少重復(fù)12次,二堿基至少重復(fù)7 次,三堿基至少重復(fù)5 次,四堿基、五堿基、六堿基至少重復(fù)4 次;重復(fù)序列兩端的側(cè)翼序列為200 bp;其他統(tǒng)計標(biāo)準(zhǔn)及SSR 序列統(tǒng)計術(shù)語參考戚文華等(2013)和蔣雪梅等(2015)的研究。
1.2.2 GO 富集分析 利用Perl 和R 語言編程對原麝基因組中3’UTR、5’UTR含有SSR序列的基因進(jìn)行同源性分析。使用將其含有SSR 的基因與TBtools 提取進(jìn)行比對,設(shè)置E-value<1E-5(Chenet al.,2020),其比對結(jié)果利用TBtools 進(jìn)行GO 功能注釋。按照分子功能、細(xì)胞組成和生物學(xué)過程進(jìn)行GO功能富集分析。
原麝全基因組長度2.96 Gb,SSR共757 705 個,長度13 556 887 bp,占0.45%,總豐度為255.60 個/Mb,總密度為4 573.27 bp/Mb。單堿基類型的數(shù)量最多,256 990 個(33.92%),豐度為86.69 個/Mb;其次為五堿基(21.71%)、二堿基(20.92%)、三堿基(17.11%)、四堿基(6.22%)和六堿基(0.12%)(表1)。
表1 原麝基因組中完美型微衛(wèi)星分布概況Table 1 Distribution of the perfect microsatellites in Moschus moschiferus genome
在5’UTR、3’UTR、外顯子區(qū)、內(nèi)含子區(qū)和基因間隔區(qū),不同重復(fù)類型SSR 的豐度差別較大,而相同重復(fù)類型的豐度較相似。在5’UTR 和外顯子區(qū),三堿基最豐富而六堿基最少;而在3’UTR、內(nèi)含子區(qū)和基因間隔區(qū),單堿基最豐富而六堿基最少(圖1)。
圖1 原麝基因組不同區(qū)域不同類型SSRs的豐度Fig.1 Abundance of different types of SSRs in different regions of Moschus moschiferus genome
2.3.1 5’UTR和3’UTR 在5’UTR中,單堿基A重復(fù)類別多于C 重復(fù)類別;二堿基CG 重復(fù)類別高于AC、AG 和AT 重復(fù)類別;三堿基CCG 重復(fù)類別豐度最高,AAG 重復(fù)類別豐度最低;四堿基CCCG重復(fù)類別多于AAAC 重復(fù)類別。在3’UTR 中,單堿基A 重復(fù)類別多于C 重復(fù)類別;二堿基AC 重復(fù)類別高于AG、AT 和CG 重復(fù)類別;三堿基ACG 重復(fù)類別豐度最高,AAG 重復(fù)類別的豐度最低;四堿基AAAC重復(fù)類別多于CCCG重復(fù)類別(圖2)。
圖2 原麝基因組5’UTR和3’UTR不同重復(fù)拷貝類別SSRs豐度Fig.2 Abundance of SSRs of different repeat categories in the 5’UTRs and 3’UTRs of Moschus moschiferus genome
2.3.2 內(nèi)含子區(qū)、基因間隔區(qū)和外顯子區(qū) 內(nèi)含子區(qū)中,單堿基A 重復(fù)類別多于C 重復(fù)類別;二堿基AC 重復(fù)類別多于AT、AG 和CG 重復(fù)類別;三堿基ACG 和AGC 重復(fù)類別豐度最高,AAG 重復(fù)類別豐度最低;四堿基AAAC 重復(fù)類別多于CCCG 重復(fù)類別。基因間隔區(qū),單堿基A 重復(fù)類別多于C重復(fù)類別;二堿基AC 重復(fù)類別多于AT、AG 和CG 重復(fù)類別;三堿基ACG和AGC重復(fù)類別豐度最高,AGG重復(fù)類別豐度最低;四堿基AAAC 重復(fù)類別多于CCCG 重復(fù)類別。外顯子區(qū)中,單堿基A 重復(fù)類別多于C 重復(fù)類別;二堿基AC 重復(fù)類別多于AT、AG和CG 重復(fù)類別;三堿基CCG 重復(fù)類別豐度最高,AAT 重復(fù)類別豐度最低;四堿基CCCG 重復(fù)類別多于AAAC重復(fù)類別(圖3)。
圖3 原麝基因組內(nèi)含子區(qū)、基因間隔區(qū)和外顯子區(qū)不同重復(fù)拷貝類別SSRs豐度Fig.3 Abundance of SSRs of different repeat categories in the intron,intergenic,and exon regions of Moschus moschiferus genome
5’UTR 含SSR 序列的編碼基因富集到150 個條目,分布于2 446 個編碼基因中,其中生物學(xué)過程中多生物體細(xì)胞膜組織(GO:0044803)、多生物體膜融合(GO:0044800)富集較顯著;分子功能主要與細(xì)胞骨架的結(jié)構(gòu)成分(GO:0005200)、宿主細(xì)胞表面結(jié)合(GO:0046812)、短鏈羧酸酯酶活性(GO:0034338)和磷脂酰肌醇結(jié)合(GO:0035091)有關(guān);細(xì)胞組分主要與有絲分裂紡錘體的形成(GO:0072686)、細(xì) 胞 間 橋 的 調(diào) 控 作 用(GO:0045171)、皮質(zhì)細(xì)胞骨架(GO:0030863)和核體(GO:0016604)有關(guān)。富集前10的GO 條目主要與代謝、合成過程和轉(zhuǎn)錄有關(guān),其中細(xì)胞骨架的結(jié)構(gòu)成分富集最顯著(P=2.81E-07),有65個條目(圖4)。
圖4 原麝5’UTR含SSR序列的編碼基因的GO注釋與富集分析Fig.4 GO annotation and enrichment analysis of coding genes of SSR sequences in the 5’UTRs of Moschus moschiferus genome
3’UTR 含SSR 序列的編碼基因富集到480 個條目,分布于1 655 個編碼基因中。生物學(xué)過程中跨膜反應(yīng)(GO:0055085)、對異種生物刺激的反應(yīng)(GO:0009410)和分泌物(GO:0046903)富集較顯著,細(xì)胞組分中主要與轉(zhuǎn)移酶復(fù)合物(GO:1990234)和染色體(GO:0005694)有關(guān),分子功能中主要與基因結(jié)合(GO:0003677)有關(guān)。GO 富集前10的條目主要與代謝、合成過程和轉(zhuǎn)錄有關(guān),其中,跨膜轉(zhuǎn)運(yùn)富集最顯著(P=0.003),有15 個條目(圖5)。
圖5 原麝3’UTR含SSR序列的編碼基因的GO注釋與富集分析Fig.5 GO annotation and enrichment analysis of coding genes with SSR of SSR sequences in the 3’UTRs of Moschus moschiferus genome
本研究利用生物信息學(xué)方法測定和統(tǒng)計了原麝基因區(qū)和基因間隔區(qū)SSR序列。全基因組SSR總數(shù)是757 705 個,這與牛Bos taurus(798 778 個)、綿羊Ovis aries(689 671個)、山羊Capra hircus(668 360個)(王月月等,2015)全基因組SSR 總數(shù)量較接近,但是低于犬Canis lupus(1 436 242 個)和豬Sus scrofa(1 265 197 個)(Chenet al.,2020)全基因組SSR 總數(shù)量,高于馬Equus caballus(430 760 個)。原麝基因組中3’UTR、內(nèi)含子區(qū)和基因間隔區(qū)SSR 序列中,單堿基SSRs 占優(yōu)勢,而在5’UTR 和外顯子區(qū)SSR 序列中,三堿基SSRs 明顯占優(yōu)勢,這與牛、綿羊(戚文華等,2013)、大熊貓Ailuropoda melanoleuca、北極熊Ursus maritimus(李午佼等,2014)等物種基因組中SSR 序列分布規(guī)律相似。在編碼區(qū)SSR 的GC 含量較高,而GC 含量高的SSR 更加穩(wěn)定,由此推測GC 含量高的SSR 序列在蛋白質(zhì)翻譯過程中不易產(chǎn)生移碼突變(Qiet al.,2016)。原麝全基因組SSR 序列中,以單堿基SSRs 占優(yōu)勢(33.92%),與綿羊(戚文華等,2013)、牛(戚文華等,2013,2019)、大熊貓、北極熊(李午佼等,2014)、林麝(盧婷等,2017)等物種基因組中SSR序列研究基本一致。原麝與牛、羊系統(tǒng)進(jìn)化關(guān)系較近,與馬、犬、豬系統(tǒng)進(jìn)化關(guān)系較遠(yuǎn)。推測物種系統(tǒng)進(jìn)化關(guān)系越近,其基因組微衛(wèi)星特征越相似,這與相關(guān)研究報道結(jié)論一致(張濤等,2010)。
隨著微衛(wèi)星的深入研究,發(fā)現(xiàn)微衛(wèi)星序列與基因表達(dá)和疾病的發(fā)生密切相關(guān)。微衛(wèi)星在復(fù)制過程中發(fā)生的錯誤常造成微衛(wèi)星重復(fù)數(shù)目的改變,從而使微衛(wèi)星序列具有不穩(wěn)定性,其發(fā)生的機(jī)制為錯配修復(fù)缺陷(趙璐璐等,2022)。BRAF、PIK3CA、PTEN 等大量原癌基因和抑癌基因具有微衛(wèi)星不穩(wěn)定性,容易發(fā)生基因突變,在患病動物基因中微衛(wèi)星不穩(wěn)定性的發(fā)生率增加100~1 000 倍,導(dǎo)致其體內(nèi)細(xì)胞增殖失去調(diào)控,進(jìn)一步加重疾病(Linet al.,2015;Dudleyet al.,2016)。微衛(wèi)星不穩(wěn)定性與多種疾病的發(fā)生發(fā)展密切相關(guān)(付煜,杜小燕,2012)。SSRs 重復(fù)次數(shù)的增加或減少直接影響DNA 修復(fù)基因、轉(zhuǎn)錄調(diào)控基因、細(xì)胞凋亡基因相關(guān)基因的表達(dá)(Duvalet al.,1999;Duval & Hamelin,2002;Vassilevaet al.,2002)。微衛(wèi)星序列也與染色質(zhì)折疊、基因重組/復(fù)制、蛋白質(zhì)表達(dá)水平、蛋白質(zhì)功能有關(guān)(張濤等,2010)。蛋白質(zhì)翻譯過程中每3 個堿基形成1 個三聯(lián)體密碼,當(dāng)編碼區(qū)SSR 重復(fù)序列增加,會使其基因功能喪失,從而導(dǎo)致相關(guān)疾病。在人類基因中,三堿基SSRs 重復(fù)次數(shù)的增加與脆性X 綜合征(Schwartset al.,1999)、肌強(qiáng)直性營養(yǎng)不良(Timchenkoet al.,2001)、亨廷頓氏病和幾種共濟(jì)失調(diào)(Sermonet al.,2001)等神經(jīng)系統(tǒng)疾病發(fā)生發(fā)展密切相關(guān)。在內(nèi)含子區(qū)域,(CA)n類型SSRs 重復(fù)次數(shù)增加,可通過增強(qiáng)表皮生長因子受體的基因轉(zhuǎn)錄,參與乳腺癌的發(fā)生發(fā)展(Qiet al.,2020)。微衛(wèi)星序列還與性別決定密切相關(guān)。Subramanian 等(2003)的研究發(fā)現(xiàn),在蛇Serpens、家鼠Mus musculus和 酵母Saccharomyces中(GATA)n區(qū)與性別決定有關(guān),但在人類Y染色體上暫未發(fā)現(xiàn)性別決定基因與(GATA)n區(qū)相關(guān)。張琳琳等(2008)的研究結(jié)果表明,SSR 的數(shù)量隨著重復(fù)次數(shù)的增加而呈現(xiàn)減少的趨勢,這可能與SSR 的長度有關(guān),重復(fù)次數(shù)越多其長度越長,不穩(wěn)定性越高,變異速率越快,受到的選擇壓力越大。
本文利用生物信息學(xué)方法提取原麝基因組中基因區(qū)的序列和基因間隔區(qū)序列,基因區(qū)包括5’UTR、3’UTR、外顯子區(qū)和內(nèi)含子區(qū),統(tǒng)計和分析這些區(qū)域SSRs 分布規(guī)律及其特征,比較它們在基因區(qū)和基因間隔區(qū)SSR分布的規(guī)律,并對其5’UTR和3’UTR 含SSRs 的編碼基因進(jìn)行GO 富集分析,探索SSR 序列具有的潛在功能。原麝在不同區(qū)域的單堿基SSRs 到六堿基SSRs 的分布模式不同,相同區(qū)域的SSRs 在相同重復(fù)類型的分布差別不大。在5’UTR 多為三堿基SSRs,重復(fù)拷貝類別多為AAC、ACC、ACG、AGC、AGG、CCG 等;六堿基SSRs數(shù)量較少。在3’UTR、外顯子區(qū)和內(nèi)含子區(qū),多為單堿基SSR,重復(fù)拷貝類別多為A、C。5’UTR 含SSR 的編碼基因主要參與多生物體細(xì)胞膜組織、細(xì)胞骨架的結(jié)構(gòu)成分、有絲分裂紡錘體的形成等功能。3’UTR含SSR的編碼基因主要參與跨膜反應(yīng)、轉(zhuǎn)移酶復(fù)合物、基因結(jié)合等功能。