蔣帥 游昌喬 丁云云 張紅明 秦紅 郭新紅
摘 要:微衛(wèi)星(microsatellites)在新型冠狀病毒(SARS-CoV-2)的基因組表達(dá)調(diào)控、種群遺傳進(jìn)化以及宿主免疫互作調(diào)節(jié)方面發(fā)揮重要作用。該研究利用NCBI數(shù)據(jù)庫(kù)以及微衛(wèi)星分析系統(tǒng)篩選并測(cè)試SARS-CoV-2原株及變體中不同微衛(wèi)星數(shù)量與遺傳特征的關(guān)聯(lián),探索影響SARS-CoV-2遺傳多樣性的微衛(wèi)星特征。通過(guò)生物信息學(xué)分析,構(gòu)建SARS-CoV-2的全基因組序列庫(kù),并收集關(guān)于序列庫(kù)的遺傳特征、微衛(wèi)星數(shù)量以及微衛(wèi)星相對(duì)位置分布特征信息;通過(guò)生物統(tǒng)計(jì)學(xué)分析,對(duì)不同微衛(wèi)星數(shù)量進(jìn)行相關(guān)性測(cè)試以及單樣本W(wǎng)ilcoxon符號(hào)秩非參數(shù)檢驗(yàn)。結(jié)果表明,SARS-CoV-2的原株與變體(除Lambda和Omicron)中不同微衛(wèi)星數(shù)量、占比與相對(duì)位置分布特征相似。2核苷酸重復(fù)(77%~78%)、3次基序重復(fù)(22%~23%)以及全長(zhǎng)6 bp(73%)的微衛(wèi)星占比較高,而ORF3a(0.48/100 bp)、E(0.44/100 bp)與N(0.40/100 bp)3個(gè)編碼區(qū)序列的微衛(wèi)星密度也較高??偲骄⑿l(wèi)星數(shù)量與堿基含量間存在顯著的負(fù)相關(guān)性(r:–0.799 6;P:0.009 7),但與堿基替換量無(wú)顯著相關(guān)性。本研究豐富了分子生物學(xué)領(lǐng)域?qū)ARS-CoV-2的遺傳多樣性以及進(jìn)化機(jī)制的研究,并為新型冠狀病毒感染疫情的防治提供了新思路。
關(guān)鍵詞:新型冠狀病毒;微衛(wèi)星;遺傳多樣性;堿基含量偏向性;種群遺傳進(jìn)化
中圖分類號(hào):R373 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)志碼:ADOI:10.3969/j.issn.1007-7146.2023.03.003
Genetic Diversity Analysis of SARS-CoV-2 Based on Correlation Tests of Microsatellites
JIANG Shuai1#, YOU Changqiao1, 2#, DING Yunyun1#, ZHANG Hongming1, 2, QIN Hong2, GUO Xinhong1*
(1. School of Biology, Hunan University, Changsha 410082, China; 2. NanHua Bio-medicine Co., Ltd., Changsha 410006, China)
Abstract: Microsatellites were crucial in the control of SARS-CoV-2 genomic expression, population genetic evolution and host immunity interaction. The NCBI database and microsatellite analysis systems were utilized in this study to screen and test the correlation between the number of different microsatellites and genetic characteristics in the original strain and variants of SARS-CoV-2, as well as to investigate the microsatellite features affecting the genetic diversity of SARS-CoV-2. By bioinformatics analysis, the whole-genome sequence database of SARS-CoV-2 was constructed, and information on the genetic characteristics, microsatellite numbers and relative position distribution characteristics of microsatellites in the sequence database were collected; correlation analysis between the number of various microsatellites and one-sample Wilcoxon signed-rank non-parametric tests were performed by biostatistical analysis. The findings revealed that the quantity, proportion, and relative distributing features of various microsatellites in the original strain and SARS-CoV-2 variants (except Lambda and Omicron) were comparable. The proportion of microsatellites with 2 nucleotide repeats (77%~78%), 3 motif repeats (22%~23%), and 6 bp full-length (73%) were relatively high, and the microsatellite density of ORF3a (0.48/100 bp), E (0.44/100 bp), and N (0.40/100 bp) coding regions were also high. The total average number of microsatellites was negatively correlated with the base content (r: –0.799 6, P: 0.009 7), whereas no significant correlation with the number of base substitutions. This study enriched the research on the genetic diversity as well as the evolutionary mechanism of SARS-CoV-2 in the field of molecular biology and provided new ideas for the prevention and control of the corona virus disease 2019 pandemic.
Key words: SARS-CoV-2; microsatellites; genetic diversity; base content bias; population genetic evolution
(Acta Laser Biology Sinica, 2023, 32(3): 208-216)
作為21世紀(jì)以來(lái)影響最嚴(yán)重的全球性流行病,新型冠狀病毒?。╟orona virus disease 2019,COVID-19)給世界各國(guó)的經(jīng)濟(jì)發(fā)展和人民的健康生活帶來(lái)了沉重的影響[1]。新型冠狀病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)是導(dǎo)致此次疫情的致病病原體,屬于正義單鏈RNA病毒(positive-sense single-stranded RNA virus,+ssRNA virus) [2]。自2019年年末,在湖北省武漢市首次檢測(cè)出SARS-CoV-2后,該毒株及其變體(variants)的全基因組注釋[3]、三維蛋白結(jié)構(gòu)[4]以及遺傳譜系[5]等信息被逐漸公布。
微衛(wèi)星(microsatellites)又稱簡(jiǎn)單序列重復(fù)(simple sequence repeats),指由1~6 bp長(zhǎng)的基序(motifs)串聯(lián)重復(fù)構(gòu)成的短序列。作為基因組中的重要遺傳單元,利用生物信息學(xué)手段研究其組成以及分布不僅能夠解釋生命體的遺傳與蛋白表達(dá)調(diào)控周期特征[6]、重建群落遺傳譜系[7],而且有助于促進(jìn)新療法的開發(fā)[8]。截止到目前,有關(guān)對(duì)SARS-CoV-2各變體微衛(wèi)星的分析主要包括2個(gè)方面:首先是對(duì)微衛(wèi)星在SARS-CoV-2原株與其他人冠狀病毒(human coronaviruses,HCoVs)中的分布信息進(jìn)行橫向種間對(duì)比;其次是優(yōu)化檢索和篩選某SARS-CoV-2株系內(nèi)特定基因中微衛(wèi)星的算法[9-10]。隨著更多SARS-CoV-2變異株的發(fā)現(xiàn)與相應(yīng)的全基因組序列的公開,研究人員往往忽視SARS-CoV-2不同變體之間的微衛(wèi)星含量與相對(duì)位置分布的相關(guān)性研究。此外,不同變體的微衛(wèi)星相關(guān)特征與全基因組遺傳多樣性之間的潛在相關(guān)性也存在很大的研究空間。
本文基于SARS-CoV-2原株及其變種全基因組序列內(nèi)部豐富的遺傳多樣性特征,利用在線微衛(wèi)星搜索網(wǎng)站,挖掘、篩選并統(tǒng)計(jì)各類微衛(wèi)星數(shù)量及在基因組內(nèi)部的相對(duì)位置分布,通過(guò)相關(guān)性測(cè)試與非參數(shù)檢驗(yàn)找出與微衛(wèi)星數(shù)量、分布特征相關(guān)的遺傳學(xué)因素并驗(yàn)證結(jié)果的準(zhǔn)確性,從而對(duì)微衛(wèi)星調(diào)控SARS-CoV-2生理活動(dòng)的潛在新機(jī)制進(jìn)行初步探索與解釋。近年來(lái),眾多的研究成果已經(jīng)證明,微衛(wèi)星的相關(guān)研究可以高效準(zhǔn)確地揭示病毒與人體之間的互作方式,并針對(duì)互作網(wǎng)絡(luò)中某過(guò)程涉及到的部分遺傳特征研發(fā)特殊抗病性藥物[11]。因此,通過(guò)分析SARS-CoV-2各變種的遺傳多樣性與微衛(wèi)星特征之間的關(guān)聯(lián),可以進(jìn)一步挖掘SARS-CoV-2的潛在遺傳特征,并為研究人員防治新冠疫情提供新思路。
1 材料與方法
1.1 SARS-CoV-2全基因組序列庫(kù)構(gòu)建與比對(duì)
出于準(zhǔn)確性考慮,從美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的Nucleotide數(shù)據(jù)庫(kù)[12]中收集SARS-CoV-2原株的全基因組參考序列(complete RefSeq genome,RG)和6種已發(fā)表的主要變異株(Alpha B.1.1.7、Belta B.1.351、Delta B.1.617.2、Gamma P.1、Lambda C.37、Omicron B.1.1.529)[2]的全基因組序列,構(gòu)建fasta格式序列庫(kù)。簡(jiǎn)并堿基(degenerate bases,DBs)經(jīng)常出現(xiàn)在測(cè)序質(zhì)量不佳的基因組中,很容易對(duì)開放閱讀框處的核酸序列進(jìn)行錯(cuò)判,且導(dǎo)致部分后續(xù)操作軟件造成兼容性錯(cuò)誤[13]。參考前人對(duì)DBs的處理[14],在序列庫(kù)比對(duì)前,利用Python中的re.sub函數(shù)批量清除因測(cè)序結(jié)果不準(zhǔn)確造成的基因組序列內(nèi)部出現(xiàn)的所有DBs(形式包括:RYMKSWHBVDNZ),以避免其影響遺傳多樣性的分析結(jié)果。鑒于序列平均長(zhǎng)度較長(zhǎng)(約30 000 bp),采用基于MAFFT算法的FFT-NS-1多重序列比對(duì)方法對(duì)序列庫(kù)進(jìn)行在線比對(duì)(https://mafft.cbrc.jp/alignment/server/)[15]。
1.2 序列庫(kù)的生物信息學(xué)分析
比對(duì)完成后,利用分子進(jìn)化遺傳軟件(molecular evolutionary genetics analysis,MEGA11.0)[16]的核苷酸組成查找功能,分析序列庫(kù)內(nèi)4種堿基的總平均含量以及3個(gè)密碼子位點(diǎn)的總平均堿基含量?;贛EGA11.0中的“核苷酸對(duì)頻率計(jì)算”功能,分析序列庫(kù)所含不同核苷酸對(duì)的替換頻率分布。過(guò)濾后DBs在比對(duì)后序列庫(kù)中形成空位(gaps),將完整的編碼序列截?cái)啵瑢?dǎo)致最終搜索到的微衛(wèi)星數(shù)量不準(zhǔn)確,各變體相同編碼區(qū)序列內(nèi)微衛(wèi)星的分布情況也難以比較。利用在線微衛(wèi)星查找工具(simple sequence repeat identification tool,SSRIT,https://archive.gramene.org/db/markers/ssrtool)[17] 在單個(gè)序列中查找微衛(wèi)星存在一定的效率,將選項(xiàng)設(shè)置為模糊查找功能,可以降低空位對(duì)微衛(wèi)星的搜索影響。直接采用SSRIT對(duì)比對(duì)后序列庫(kù)進(jìn)行微衛(wèi)星查找,并設(shè)置最大基序長(zhǎng)度與最大重復(fù)數(shù)量參數(shù)分別為“trimer”和“3”,以此找出序列庫(kù)中所有微衛(wèi)星基序出現(xiàn)重復(fù)次數(shù)超過(guò)3次的2核苷酸重復(fù)(dinucleotide repeats,DiRs)、3核苷酸重復(fù)(trinucleotide repeats,TriRs)、3次基序重復(fù)(triple motif repeats,3MRs)、4次基序重復(fù)(quadruple motif repeats,4MRs)以及5次基序重復(fù)(quintuple motif repeats,5MRs)的微衛(wèi)星,同時(shí)該平臺(tái)還標(biāo)定了所有微衛(wèi)星的相對(duì)起始位置與終止位置區(qū)間。
1.3 微衛(wèi)星的遺傳相關(guān)性分析
皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,r)能夠直觀、快速反映2個(gè)變量的線性相關(guān)性的強(qiáng)弱程度。分別統(tǒng)計(jì)DiRs、TriRs以及 DiRs + TriRs的微衛(wèi)星數(shù)量,利用r的描述統(tǒng)計(jì)方法,將所有堿基組成相同的微衛(wèi)星總堿基含量(%)作為獨(dú)立變量與相應(yīng)的各類微衛(wèi)星數(shù)量(DiRs、TriRs、DiRs + TriRs)分別進(jìn)行相關(guān)性分析(correlation analysis),探索堿基含量對(duì)微衛(wèi)星組成形式的影響。同時(shí),對(duì)堿基替換(base substitution)頻數(shù)[包括堿基轉(zhuǎn)換(base transition)與堿基顛換(base transversion) 2種單核苷酸形式的突變]與全部微衛(wèi)星以及DiRs之間的數(shù)量相關(guān)性進(jìn)行測(cè)試。MEGA軟件提供的核苷酸對(duì)頻率查找功能能夠獲得每種微衛(wèi)星的堿基替換頻數(shù)。為避免以上2個(gè)相關(guān)性分析結(jié)果受偶然誤差的影響,且不同微衛(wèi)星數(shù)量的分布與SARS-CoV-2遺傳特性之間相關(guān)性趨勢(shì)難以估計(jì),因此對(duì)上述相關(guān)性測(cè)試獲得的r進(jìn)行單樣本W(wǎng)ilcoxon符號(hào)秩非參數(shù)檢驗(yàn)(P<0.05、零假設(shè)中位數(shù)=0、備擇假設(shè)中位數(shù)≠0)[18]。通過(guò)比較各組非參數(shù)檢驗(yàn)統(tǒng)計(jì)量的精確概率(exact probability of paired samples,EPPS)與漸進(jìn)概率(asymptotic probability of paired samples,APPS)的大小關(guān)系判斷相關(guān)性結(jié)果是否為隨機(jī)事件[19]。以上相關(guān)性測(cè)試以及非參數(shù)檢驗(yàn)通過(guò)R語(yǔ)言(psych包與基礎(chǔ)函數(shù))完成。
2 結(jié)果與分析
2.1 序列庫(kù)基本信息
通過(guò)NCBI數(shù)據(jù)庫(kù)的序列篩選與在線多重序列比對(duì),最終得到比對(duì)后序列庫(kù)的基本信息(表1)。比對(duì)后序列庫(kù)內(nèi)的序列平均長(zhǎng)度為29 746 bp,RG和Alpha變體序列相對(duì)較長(zhǎng) (>29 900 bp),測(cè)序完整度更高;RG、Alpha、Delta、Gamma以及Lambda變體的原序列DBs占比為0,測(cè)序結(jié)果更穩(wěn)定,而Belta和Omicron變體序列在比對(duì)后序列中平均長(zhǎng)度減小,表明原NCBI測(cè)序結(jié)果中存在少量DBs。鑒于比對(duì)后序列庫(kù)的序列對(duì)齊(alignment)特性以及SSRIT網(wǎng)站的自適應(yīng)算法,由DBs造成的部分序列出現(xiàn)gaps會(huì)被清除或用擬合的堿基進(jìn)行填充。此外,比對(duì)前Omicron序列內(nèi)的DBs經(jīng)過(guò)人工核實(shí)多數(shù)位于序列末尾,不會(huì)影響其余基因編碼區(qū)內(nèi)部微衛(wèi)星的查找與定位。
2.2 序列庫(kù)內(nèi)微衛(wèi)星基本信息
利用SSRIT在線查找比對(duì)后序列庫(kù)內(nèi)各序列不同種類的微衛(wèi)星,結(jié)果表明,SARS-CoV-2原株及變種中存在相似數(shù)量分布特征的各類微衛(wèi)星(圖1)。DiRs和TriRs分別占微衛(wèi)星總量的77%~78%以及22%~23%;3MRs、4MRs和5MRs則分別占微衛(wèi)星總量的94%~95%、2%~3%以及2%?;蛑貜?fù)次數(shù)越多、基序越復(fù)雜的微衛(wèi)星往往更難在變體中存在。隨著更多SARS-CoV-2株系的出現(xiàn),復(fù)雜微衛(wèi)星數(shù)量的改變則暗示了病毒關(guān)鍵位點(diǎn)的突變以及適應(yīng)環(huán)境能力的增強(qiáng)[7]。Lambda和Omicron作為最晚出現(xiàn)的2種變體[20],序列內(nèi)的微衛(wèi)星數(shù)量與其他變體相比存在一定的差別(89個(gè)、85個(gè)),且主要體現(xiàn)在DiRs (78%、78%)與TriRs (22%、22%)的微衛(wèi)星數(shù)量所占比例的差異;Omicron變體序列內(nèi)的3MRs微衛(wèi)星所占比例較高(95%),說(shuō)明其內(nèi)部的特異遺傳標(biāo)記逐漸向生成內(nèi)部更穩(wěn)定的結(jié)構(gòu)方向進(jìn)行變異。此外,DiRs與3MRs在序列內(nèi)的占比更大且結(jié)構(gòu)更穩(wěn)定,因此,我們推測(cè)以上微衛(wèi)星可能是促進(jìn)SARS-CoV-2變種具有豐富遺傳多樣性的重要因素。
SARS-CoV-2微衛(wèi)星的長(zhǎng)度以6、8、9、10和12 bp為主,6 bp長(zhǎng)度的微衛(wèi)星平均數(shù)量超過(guò)60個(gè),占總數(shù)的73%(圖2)。8和10 bp(2個(gè))長(zhǎng)度的微衛(wèi)星數(shù)量相似,但數(shù)量遠(yuǎn)小于9 bp長(zhǎng)度的微衛(wèi)星。盡管DiRs的微衛(wèi)星數(shù)量更多,但多以TriRs形式為主,4MRs和5MRs則為罕見形式。10和12 bp長(zhǎng)度的微衛(wèi)星在各變體中的數(shù)量相同,6、8和9 bp這類長(zhǎng)度較短的微衛(wèi)星,它們?cè)赟ARS-CoV-2突變產(chǎn)生不同變體的過(guò)程中,已經(jīng)出現(xiàn)了數(shù)量上的變化。Lambda變體和Omicron變體分別在6 bp(65個(gè))以及6、8和9 bp(63個(gè)、1個(gè)、18個(gè))長(zhǎng)度上與其余變體間存在微衛(wèi)星數(shù)量差異。可以假設(shè),隨著SARS-CoV-2進(jìn)一步突變,新的株系中長(zhǎng)度較短的微衛(wèi)星容易先發(fā)生變異,而長(zhǎng)度較長(zhǎng)的微衛(wèi)星則可以作為病毒內(nèi)部的保守標(biāo)記序列檢驗(yàn)或預(yù)測(cè)SARS-CoV-2的突變周期與規(guī)模。
以RG序列的基因編碼區(qū)位置與長(zhǎng)度為基準(zhǔn),對(duì)齊并錄入其余變體的基因編碼區(qū)相對(duì)位置信息,從而整理所有微衛(wèi)星在各基因編碼區(qū)的分布密度(圖3)。ORF3a(0.48/100 bp),E(0.44/100 bp)與N(0.40/100 bp)3個(gè)編碼區(qū)的微衛(wèi)星密度最高,其編碼區(qū)產(chǎn)物分別為ORF3a蛋白[21]、包膜蛋白和核衣殼磷蛋白[22]。不含微衛(wèi)星的3個(gè)編碼區(qū)分別為ORF6、ORF7b以及ORF8,其編碼區(qū)產(chǎn)物分別為ORF6蛋白、ORF7b蛋白以及截短ORF8蛋白[21-22]。相較于其他序列的S區(qū)內(nèi)微衛(wèi)星密度,Omicron變體明顯偏小(0.002 4/100 bp),這表明Omicron變體的主要突變定位在S編碼區(qū),其產(chǎn)物表面糖蛋白[22]與其他變體間存在一定程度差異。此外,還有3個(gè)微衛(wèi)星未在所有變體的基因編碼區(qū)出現(xiàn),它們分別是TG(47~52 bp)、CA(29 507~29 512 bp)以及GT(29 649~29 654 bp)(以RG序列中5'→3'的定位為基準(zhǔn))。
圖3 ?微衛(wèi)星在SARS-CoV-2原株及變種中各基因編碼區(qū)的分布
Fig. 3 ?The distribution of microsatellites in coding regions of the original strain and variants of SARS-CoV-2
A:ORF1ab區(qū);B:S區(qū);C:ORF3a區(qū);D:E區(qū);E:M區(qū);F:ORF6區(qū);G:ORF7a區(qū);H:ORF7b區(qū);I:ORF8區(qū);J:N區(qū);K:ORF10區(qū)。
A: ORF1ab region; B: S region; C: ORF3a region; D: E region; E: M region; F: ORF6 region; G: ORF7a region; H: ORF7b region; I: ORF8 region; J: N region; K: ORF10 region.
2.3 堿基含量與微衛(wèi)星數(shù)量的相關(guān)性
序列庫(kù)中的AU堿基對(duì)含量(40.0%)明顯低于GC堿基對(duì)含量(60.0%),相較于一些病毒(如埃博拉病毒[23]),SARS-CoV-2株系存在明顯的GC含量偏性,導(dǎo)致該毒株的遺傳變異方向存在一定的不穩(wěn)定性[24](圖4)。U-1(12.0%)、G-2(8.1%)、A-2(10.3%)以及C-3(6.9%)分別為4種堿基含量在3個(gè)密碼子位點(diǎn)的最大占比,表明第1位為U,第2位為G或A,第3位為C的密碼子往往在序列中占比更高;A-1(9.5%)、C-1(5.4%)、U-2(8.9%)和G-3(5.1%)則分別為4種堿基含量在3個(gè)密碼子上的最低占比,表明SARS-CoV-2毒株對(duì)第1位為A,第2位為C或U,第3位為G的密碼子偏愛程度較低(密碼子閱讀方向?yàn)?'→3')。
依照堿基組成對(duì)微衛(wèi)星歸類,共得到9種大類(表2),其中AU/UA/AAU(62.03%)、CGA(67.87%)、CUG/UGC (70.10%)、AUC(80.37%)、AGU/AUG/GAU/UGA(81.67%)的堿基含量均超過(guò)60%。相關(guān)性測(cè)試結(jié)果表明,SARS-CoV-2原株及變種內(nèi)部的堿基含量與微衛(wèi)星總平均個(gè)數(shù)之間具有較明顯的負(fù)相關(guān)性(r:– 0.799 6;P:0.009 7),即某類相同堿基組成的微衛(wèi)星其堿基含量越高,微衛(wèi)星總平均個(gè)數(shù)反而越低。同時(shí),非參數(shù)檢驗(yàn)的配對(duì)樣本精確概率與漸進(jìn)概率結(jié)果證明,堿基含量與微衛(wèi)星總平均個(gè)數(shù)之間的強(qiáng)相關(guān)性在SARS-CoV-2中普遍存在,而非偶然出現(xiàn)于某一SARS-CoV-2序列中(0.003 9<0.009 2;r:-0.7996)。對(duì)于DiRs或TriRs而言,其總平均個(gè)數(shù)與堿基含量之間不存在顯著相關(guān)性(r:0.067 2、P:0.914 5;r:-0.156 3、P:0.688 0)。
圖4 SARS-CoV-2原株及變種中的堿基組成
Fig. 4 The base composition in the original strain and variants of SARS-CoV-2
2.4 堿基替換與微衛(wèi)星數(shù)量的相關(guān)性
相同(identical pairs,ii)、轉(zhuǎn)換(transitional pairs,si)以及顛換(transversional pairs,sv)堿基對(duì)的總頻數(shù)分別為29 568、27和16個(gè),而轉(zhuǎn)換與顛換堿基對(duì)比值為1.7,表明SARS-CoV-2序列堿基發(fā)生替換的主要方式更偏向轉(zhuǎn)換形式(2種嘧啶或2種嘌呤堿基之間的相互突變)。值得注意的是,除所有相同堿基對(duì)外,轉(zhuǎn)換(40.8%)和顛換(43.7%)堿基對(duì)在密碼子第3位(密碼子閱讀方向?yàn)?'→3')的占比最高(圖5)。
微衛(wèi)星總個(gè)數(shù)(r:-0.540 4、P:0.347 1)和DiRs的總平均個(gè)數(shù)(r:-0.619 3、P:0.265 3)與SARS-CoV-2原株及變種的堿基轉(zhuǎn)換與顛換數(shù)之間均無(wú)顯著相關(guān)性;非參數(shù)檢驗(yàn)測(cè)試也表明,替換的總頻數(shù)與微衛(wèi)星的數(shù)量間并無(wú)顯著性差異(表3)。嚴(yán)格來(lái)說(shuō),堿基替換現(xiàn)象不會(huì)直接或間接影響SARS-CoV-2變體內(nèi)部的微衛(wèi)星數(shù)量發(fā)生改變。
3 討論
微衛(wèi)星廣泛分布于真核生物、原核生物以及病毒的編碼區(qū)與非編碼區(qū)[25-26],它們通過(guò)調(diào)控生物體的基因表達(dá)影響物種編碼蛋白相關(guān)產(chǎn)物的選擇以及基因組的進(jìn)化,目前已成為研究人員分析特定物種遺傳多樣性的切入點(diǎn)[27]。然而,自2021年11月世界衛(wèi)生組織正式定義Omicron變體以來(lái),SARS-CoV-2相關(guān)的微衛(wèi)星與遺傳多樣性的相關(guān)性研究一直處于空缺狀態(tài)[10]。為揭示SARS-CoV-2微衛(wèi)星對(duì)自身遺傳多樣性的影響,本文首次收集疫情暴發(fā)至今所有主要SARS-CoV-2株系的微衛(wèi)星組成與長(zhǎng)度,通過(guò)分類學(xué)與統(tǒng)計(jì)學(xué)思路將SARS-CoV-2的微衛(wèi)星特征與遺傳特征的相關(guān)性進(jìn)行多角度剖析,揭示其株系的變異性與多態(tài)性規(guī)律。文章涉及的物種特異性研究結(jié)果有利于為SARS-CoV-2基因組分析、群體研究和物種鑒定提供進(jìn)一步研究依據(jù);而且類似研究的思路可以改進(jìn)并推廣至其他生物,以揭示各種微衛(wèi)星在大型基因組序列中的精確分布模式,探索微衛(wèi)星分布與基因組結(jié)構(gòu)和進(jìn)化之間的更多聯(lián)系[28]。
本研究主要采用生物信息學(xué)方法,對(duì)2019年12月以來(lái)的所有SARS-CoV-2重點(diǎn)突變體(重點(diǎn)突變體篩選要求:需考慮社會(huì)危害[1]、遺傳差異顯著性[7]以及數(shù)據(jù)庫(kù)注釋程度因素[12])的全基因組序列進(jìn)行分析,獲得微衛(wèi)星數(shù)量以及分布信息;并通過(guò)生物統(tǒng)計(jì)學(xué)方法進(jìn)一步驗(yàn)證了堿基含量與微衛(wèi)星總量之間具有負(fù)相關(guān)性而非與序列內(nèi)存在的堿基替換頻數(shù)有顯著相關(guān)性。因此,堿基含量的偏向性往往造成SARS-CoV-2變體內(nèi)的微衛(wèi)星數(shù)量改變,進(jìn)而導(dǎo)致更多片段發(fā)生突變,造成株系進(jìn)化的不穩(wěn)定性與多元性。堿基替換頻數(shù)與微衛(wèi)星含量之間總體呈現(xiàn)負(fù)相關(guān)關(guān)系,但單個(gè)堿基對(duì)的替換變異程度較低且具有偶然性,統(tǒng)計(jì)學(xué)結(jié)果也表明,堿基替換與微衛(wèi)星含量間無(wú)顯著差異性(表3)。因此,本文推斷,堿基替換量與微衛(wèi)星含量間僅作為定性關(guān)系存在,即替換頻數(shù)的增長(zhǎng)或下降僅導(dǎo)致微衛(wèi)星含量呈現(xiàn)抑制或上升的趨勢(shì)。
部分研究者對(duì)序列庫(kù)的構(gòu)建理念及方法邏輯性一般,泛用性較低[29-31]。本文構(gòu)建的序列庫(kù)僅包含NCBI提供的官方參考序列以及已發(fā)表的序列,在盡可能確保分析準(zhǔn)確性的同時(shí),內(nèi)部基因注釋也為研究微衛(wèi)星以及遺傳多樣性在不同基因編碼區(qū)的位置分布水平提供了參照標(biāo)準(zhǔn)[12]。此外,相比于人體全基因組近1 100個(gè)微衛(wèi)星,病毒基因序列中的微衛(wèi)星不僅數(shù)量少而且長(zhǎng)度短[32]。埃博拉病毒(ssRNA virus)基因組序列全長(zhǎng)僅為18 900 bp,但序列編碼區(qū)中共搜索到212個(gè)不同種類的微衛(wèi)星[23],數(shù)量近SARS-CoV-2的3倍。因此,相比于其他病毒,SARS-CoV-2自身的遺傳信息變化更存在不確定性,免疫逃逸的能力也更強(qiáng)[2]。
周翔等[22]以NCBI的SARS-CoV-2官方參考序列NC_045512為基準(zhǔn),對(duì)來(lái)自不同國(guó)家和地區(qū)的36條序列組成的序列庫(kù)進(jìn)行了各編碼區(qū)的單核苷酸的多樣性分析。為探索不同編碼區(qū)功能與微衛(wèi)星密度的聯(lián)系,本文參考上述思路設(shè)置RG序列為各編碼區(qū)位置分布基準(zhǔn);并以2019至2022年間出現(xiàn)的重點(diǎn)變體為研究對(duì)象,單核苷酸以及微衛(wèi)星的特征差異為分析手段,從時(shí)間角度探索微衛(wèi)星對(duì)SARS-CoV-2的調(diào)控潛力以及預(yù)測(cè)變體可能出現(xiàn)潛在免疫逃逸位點(diǎn)的編碼區(qū)。ORF3a作為微衛(wèi)星密度最高的3個(gè)編碼區(qū)之一,其產(chǎn)物ORF3a蛋白屬于特異性非結(jié)構(gòu)蛋白,在SARS-CoV-2組裝、釋放以及炎癥應(yīng)答等方面發(fā)揮著關(guān)鍵作用[21]。根據(jù)以往SARS-CoV-2全基因組分析,E和S編碼區(qū)是變異位點(diǎn)出現(xiàn)的集中區(qū)域,而N編碼區(qū)則變異程度相對(duì)較低[1, 22]。從功能上看,S蛋白與宿主細(xì)胞ACE2受體間表現(xiàn)出較高的親和力,導(dǎo)致機(jī)體更容易出現(xiàn)病癥;N和E蛋白均負(fù)責(zé)病毒的組裝,兩者的突變均導(dǎo)致SARS-CoV-2致病力的改變[9-10]。ORF6、ORF7b以及ORF8編碼區(qū)無(wú)變異位點(diǎn)且蛋白功能目前尚不清楚[22-23]。因此,ORF3a、E、S和N編碼區(qū)內(nèi)的微衛(wèi)星密度的升降在一定程度上已經(jīng)開始影響著SARS-CoV-2在致病性和傳播能力方面的適應(yīng)性進(jìn)化(例如Alpha→Omicron),而這些編碼區(qū)則往往有高密度的微衛(wèi)星參與調(diào)控。Kirtipal等[2]認(rèn)為,SARS-CoV-2的進(jìn)化推動(dòng)力來(lái)自多個(gè)編碼區(qū)的不斷變異,針對(duì)不同編碼區(qū)的遺傳多樣性、系統(tǒng)發(fā)育以及編碼蛋白結(jié)構(gòu)分析非常有利于研究SARS-CoV-2甚至具有相似遺傳特征的HCoVs的遺傳進(jìn)化規(guī)律。因此,本文的研究成果還將為其他HCoVs的遺傳學(xué)研究提供新思路。
堿基含量與變異位點(diǎn)數(shù)作為影響微衛(wèi)星數(shù)量的兩個(gè)潛在因素,部分遺傳學(xué)研究將它們作為研究物種間遺傳變異差異的基礎(chǔ)[2, 33-34]。不同物種堿基含量的差異可以直接反映物種間變異能力以及密碼子使用偏好的差異,而變異位點(diǎn)數(shù)則象征著物種的潛在進(jìn)化能力[35]。經(jīng)過(guò)改良,我們首次嘗試將多種形式的微衛(wèi)星堿基含量與堿基替換數(shù)作為影響微衛(wèi)星數(shù)量的潛在因素,并進(jìn)行了相關(guān)性測(cè)試。根據(jù)已公布的SARS-CoV-2全基因組的密碼子使用模式特征,以U為第1位,A或G為第2位的密碼子使用頻率較高,但C為第3位的密碼子使用頻率卻很低。同樣,以A為第1位,C為第2位或U為第3位的密碼子的使用頻率較高,但G為第3位的密碼子使用頻率卻很低[33]。對(duì)于在密碼子第3位GC含量較低的SARS-CoV-2而言,其密碼子的使用偏愛程度受突變壓力和自然選擇影響[33]。此外,SARS-CoV-2和其他HCoVs相似,自身密碼子大多數(shù)傾向于U結(jié)尾,GC含量為30%~40%,且均表現(xiàn)出相似的遺傳特性[34]。而高水平的AU堿基對(duì)含量(圖4中顯示為62.0%)能夠調(diào)節(jié)多數(shù)影響SARS-CoV-2基因表達(dá)的微衛(wèi)星的穩(wěn)定性[35],進(jìn)而導(dǎo)致SARS-CoV-2做出利于自身的突變。轉(zhuǎn)換與顛換為堿基置換(點(diǎn)突變)的主要形式,在具體突變形式未知的前提下[16],將相似堿基組成的微衛(wèi)星總數(shù)與DiRs總平均個(gè)數(shù)作為變量分別對(duì)堿基置換頻數(shù)進(jìn)行了相關(guān)性測(cè)試,最后發(fā)現(xiàn)兩者間存在不顯著的負(fù)相關(guān)趨勢(shì)[35]。
本文部分研究方法的準(zhǔn)確性與結(jié)論完整性仍需改進(jìn)。首先,NCBI數(shù)據(jù)庫(kù)內(nèi)上傳的全基因組序列中存在部分DBs(表1),導(dǎo)致部分序列的堿基含量和替換數(shù)相比于真實(shí)情況存在較小誤差。其次,本文尚未確定各種微衛(wèi)星對(duì)于SARS-CoV-2的突變是否起到促進(jìn)或抑制作用,僅能證明其參與基因調(diào)控與表達(dá),并可以用作遺傳標(biāo)記物。盡管 DBs對(duì)研究結(jié)果可能帶來(lái)一定的影響,但正如“2.1 序列庫(kù)基本信息”部分所述,本文盡可能采用合適的算法彌補(bǔ)該缺陷,人工查找DBs所在編碼區(qū)域以確保其不會(huì)對(duì)整體數(shù)據(jù)造成嚴(yán)重影響,并列出了微衛(wèi)星在各基因編碼區(qū)的分布情況(圖3)以證明部分DBs不會(huì)對(duì)微衛(wèi)星的數(shù)量統(tǒng)計(jì)造成較大影響;而比對(duì)后序列庫(kù)的平均堿基含量、微衛(wèi)星總平均個(gè)數(shù)以及平均替換數(shù)作為研究相關(guān)性的因素也不會(huì)因?yàn)樯倭緿Bs產(chǎn)生嚴(yán)重誤差。未來(lái),我們會(huì)深入研究微衛(wèi)星相關(guān)特征與其他可能影響SARS-CoV-2的遺傳特性因素間的聯(lián)系,進(jìn)一步完善技術(shù)流程,揭示微衛(wèi)星調(diào)控SARS-CoV-2遺傳變異與結(jié)構(gòu)功能等的生物學(xué)意義,深化研究人員對(duì)SARS-CoV-2的認(rèn)識(shí),獲得更有學(xué)術(shù)意義或應(yīng)用價(jià)值的結(jié)果。
參考文獻(xiàn)(References):
[1] MORSE S S, MAZET J A, WOOLHOUSE M, et al. Prediction and prevention of the next pandemic zoonosis[J]. Lancet, 2012, 380(9857): 1956-1965.
[2] KIRTIPAL N, BHARADWAJ S, KANG S G. From SARS to SARS-CoV-2, insights on structure, pathogenicity and immunity aspects of pandemic human coronaviruses[J]. Infection Genetics and Evolution, 2020, 85: 104502.
[3] NIMAVAT N, SINGH S, FICHADIYA N, et al. Online medical education in India-different challenges and probable solutions in the age of COVID-19[J]. Advances in Medical Education and Practice, 2021, 12: 237-243.
[4] SWANSON S J, CONANT L L, HUMPHRIES C J, et al. Changes in description naming for common and proper nouns after left anterior temporal lobectomy[J]. Epilepsy & Behavior, 2020, 106: 106912.
[5] PENG C, HE M, CUTRONA S L, et al. Theme trends and knowledge structure on mobile health APPS: bibliometric analysis[J]. JMIR mHealth and uHealth, 2020, 8(7): e18212.
[6] KIM T S, BOOTH J G, GAUCH H G, et al. Simple sequence repeats in Neurospora crassa: distribution, polymorphism and evolutionary inference[J]. BMC Genomics, 2008, 9: 31-50.
[7] FLANAGAN S P, JONES A G. The future of parentage analysis: from microsatellites to SNPs and beyond[J]. Molecular Ecology, 2019, 28(3): 544-567.
[8] BOUDREAU A, RICHARD A J, HARVEY I, et al. Artemisia scoparia and metabolic health: untapped potential of an ancient remedy for modern use[J]. Frontiers in Endocrinology, 2022, 12: 727061.
[9] SAVARI H, SHAFIEY H, SAVADI A, et al. Statistics and patterns of occurrence of simple tandem repeats in SARS-CoV-1 and SARS-CoV-2 genomic data[J]. Data in Brief, 2021, 36: 107057.
[10] REHMAN H A, RAMZAN F, BASHARAT Z, et al. Comprehensive comparative genomic and microsatellite analysis of SARS, MERS, BAT-SARS, and COVID-19 coronaviruses[J]. Journal of Medical Virology, 2021, 93(7): 4382-4391.
[11] LIN C Y, MEHTA P, WATERS K M, et al. Complete response to neoadjuvant pembrolizumab and capecitabine in microsatellite stable, Epstein-Barr virus-positive, locally advanced gastric adenocarcinoma: case report[J]. American Journal of Case Reports, 2021, 5: 30.
[12] SCHOCH C L, CIUFO S, DOMRACHEV M, et al. NCBI taxonomy: a comprehensive update on curation, resources and tools[J]. Database (Oxford), 2020, 2020: baaa062.
[13] 鐘東. DNA序列的對(duì)稱性與真核基因調(diào)控元件模塊的分析[D]. 廣州: 南方醫(yī)科大學(xué), 2003.
ZHONG Dong. Symmetry in DNA and analysis of eukaryotic cis-regulatory module[D]. Guangzhou: Southern Medical University, 2003.
[14] LINHART C, SHAMIR R. The degenerate primer design problem: theory and applications[J]. Journal of Computational Biology, 2005, 12(4): 431-456.
[15] ROZEWICKI J, LI S, AMADA K M, et al. MAFFT-DASH: integrated protein sequence and structural alignment[J]. Nucleic Acids Research, 2019, 47(W1): W5-W10.
[16] TAMURA K, STECHER G, KUMAR S. MEGA11: molecular evolutionary genetics analysis version 11[J]. Molecular Biology and Evolution, 2021, 38(7): 3022-3027.
[17] YOUENS-CLARK K, BUCKLER E, CASSTEVENS T, et al. Gramene database in 2010: updates and extensions[J]. Nucleic Acids Research, 2011, 39 (Database issue): D1085-D1094.
[18] BORGIA E, BARON R, BORGIA J L. Quality and survival of direct light-activated composite resin restorations in posterior teeth: a 5- to 20-year retrospective longitudinal study[J]. Journal of Prosthodontics-Implant Esthetic and Reconstructive Dentistry, 2019, 28(1): e195-e203.
[19] DIVINE G, NORTON H J, HUNT R, et al. Statistical grand rounds: a review of analysis and sample size calculation considerations for Wilcoxon tests[J]. Anesthesia and Analgesia, 2013, 117(3): 699-710.
[20] WOLFE M, HUGHES B, DUONG D, et al. Detection of SARS-CoV-2 variants Mu, Beta, Gamma, Lambda, Delta, Alpha, and Omicron in wastewater settled solids using mutation-specific assays is associated with regional detection of variants in clinical samples[J]. Applied and Environmental Microbiology, 2022, 88(8): e0004522.
[21] 高文欣, 李希琳, 傅煜軒. 新型冠狀病毒輔助蛋白ORF3a、ORF3b的致病機(jī)制研究[J]. 實(shí)用臨床醫(yī)藥雜志, 2022, 26(11): 1-5.
GAO Wenxin, LI Xilin, FU Yuxuan. Pathogenic mechanism of severe acute respiratory syndrome coronavirus 2 protein ORF3a and ORF3b[J]. Journal of Clinical Medicine in Practice, 2022, 26(11): 1-5.
[22] 周翔, 趙仁生, 崔藝璇, 等. SARS-CoV-2病毒全基因組序列比對(duì)及進(jìn)化分析[J]. 云南民族大學(xué)學(xué)報(bào) (自然科學(xué)版), 2022, 31(2): 176-185.
ZHOU Xiang, ZHAO Rensheng, CUI Yixuan, et al. Sequence alignment and evolutionary analysis of SARS-CoV-2 virus[J]. Journal of Yunnan Minzu University (Natural Sciences Edition), 2022, 31(2): 176-185.
[23] LI D, SHI R, ZHANG H, et al. The only conserved microsatellite in coding regions of ebolavirus is the editing site[J]. Biochemical and Biophysical Research Communications, 2021, 565: 79-84.
[24] KOGAY R, WOLF Y I, KOONIN E V, et al. Selection for reducing energy cost of protein production drives the GC content and amino acid composition bias in gene transfer agents [J]. mBio, 2020, 11(4): e01206- e01220.
[25] BAGSHAW A T, PITT J P, GEMMELL N J. High frequency of microsatellites in S. cerevisiae meiotic recombination hotspots[J]. BMC Genomics, 2008, 9: 49.
[26] LOIRE E, HIGUET D, NETTER P, et al. Evolution of coding microsatellites in primate genomes[J]. Genome Biology and Evolution, 2013, 5(2): 283-295.
[27] ZENG L, CHEN N, YAO Y, et al. Analysis of genetic diversity and structure of Guanzhong horse using microsatellite markers[J]. Animal Biotechnology, 2019, 30(1): 95-98.
[28] MUTI H S, HEIJ L R, KELLER G, et al. Development and validation of deep learning classifiers to detect Epstein-Barr virus and microsatellite instability status in gastric cancer: a retrospective multicentre cohort study[J]. The Lancet Digital Health, 2021, 3(10): e654-e664.
[29] LI H, XIAO W, TONG T, et al. The specific DNA barcodes based on chloroplast genes for species identification of Orchidaceae plants[J]. Scientific Reports, 2021, 11(1): 1424.
[30] MAHIMA K, SUNIL KUMAR K N, RAKHESH K V, et al. Advancements and future prospective of DNA barcodes in the herbal drug industry[J]. Frontiers in Pharmacology, 2022, 13: 947512.
[31] GUO Y Y, HUANG L Q, LIU Z J, et al. Promise and challenge of DNA barcoding in Venus slipper (Paphiopedilum)[J]. PLoS One, 2016, 11(1): e0146880.
[32] WEBSTER M T, SMITH N G, ELLEGREN H. Microsatellite evolution inferred from human-chimpanzee genomic sequence alignments[J]. Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(13): 8748-8753.
[33] HOU W. Characterization of codon usage pattern in SARS-CoV-2[J]. Virology Journal, 2020, 17(1): 138-148.
[34] DILUCCA M, FORCELLONI S, GEORGAKILAS A G, et al. Codon usage and phenotypic divergences of SARS-CoV-2 genes[J]. Viruses, 2020, 12(5): 498-519.
[35] JIANG S, CHEN F, QIN P, et al. The specific DNA barcodes based on chloroplast genes for species identification of Theaceae plants[J]. Physiology and Molecular Biology of Plants, 2022, 28(4): 837-848.