張琦菓,劉國慶,2*
(1.內(nèi)蒙古科技大學(xué) 生命科學(xué)與技術(shù)學(xué)院,包頭 014010;2.內(nèi)蒙古自治區(qū)功能基因組生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室,包頭 014010)
減數(shù)分裂重組是細(xì)胞減數(shù)分裂過程的一個(gè)基本組成部分。它始于減數(shù)分裂Ⅰ前期,通過拓?fù)洚悩?gòu)酶SPO11等蛋白質(zhì)復(fù)合物作用下,誘導(dǎo)程序化的DNA雙鏈斷裂(DSB),進(jìn)而在同源染色體之間形成交叉,發(fā)生遺傳物質(zhì)交換[1-3]。減數(shù)分裂重組確保了染色體正確分離、基因組的穩(wěn)定性,并且能夠?qū)伪缎瓦z傳物質(zhì)進(jìn)行更新,傳遞給下一代,產(chǎn)生遺傳多樣性[4-5]。重組異常會(huì)導(dǎo)致染色體的不正確分離和非整倍體,可能會(huì)導(dǎo)致原發(fā)性卵巢功能不全、不孕、卵巢早衰等多種疾病[6-7]。減數(shù)分裂重組不僅通過協(xié)助染色體分離在上游配子發(fā)生中發(fā)揮重要作用,而且還推動(dòng)基因組進(jìn)化。研究表明,重組可能通過誘導(dǎo)突變或選擇相關(guān)方式推動(dòng)基因組進(jìn)化。例如,在哺乳動(dòng)物中,基因組中重組率的不均勻分布可能通過GC偏向的基因轉(zhuǎn)換影響堿基含量[8-10]。
全面了解哺乳動(dòng)物和植物中的核苷酸變異對(duì)于揭示疾病的遺傳基礎(chǔ)至關(guān)重要。在研究基因組中的突變模式時(shí),突變的上下文依賴性通常較少受到關(guān)注。一些研究表明,SNP位點(diǎn)的替換模式對(duì)上下文具有依賴關(guān)系。忽略突變對(duì)緊鄰堿基的依賴性可能會(huì)影響祖先等位基因的推斷和選擇作用的檢驗(yàn)結(jié)果[11]。研究表明,DNA復(fù)制錯(cuò)誤、甲基化胞嘧啶脫氨基和偏向基因轉(zhuǎn)變存在上下文依賴性,突變率強(qiáng)烈依賴于相鄰核苷酸[12]。考慮上下文依賴的情況下,突變率的變化幅度最高可達(dá)50倍[12]。突變的上下文依賴關(guān)系中,最主要的是緊鄰堿基效應(yīng)[13]。在哺乳動(dòng)物中,主要的緊鄰堿基依賴效應(yīng)發(fā)生在 CpG二核苷酸上,這是由于甲基化胞嘧啶脫氨基導(dǎo)致突變的結(jié)果[14],因此二核苷酸CpG含量一般強(qiáng)烈影響核苷酸替換的比例。
據(jù)文獻(xiàn)報(bào)道,在人的基因組當(dāng)中,突變對(duì)鄰近5bp之內(nèi)的側(cè)翼序列具有很強(qiáng)的依賴性,而且這種依賴關(guān)系在不同區(qū)域中不盡相同[15-16]。用全基因組水平的堿基含量進(jìn)行歸一化處理后,突變位點(diǎn)的上游堿基偏好為C,下游堿基偏好為G[15-16]。如果染色體上的GC含量較高,則突變位點(diǎn)的上游堿基為C,下游為G的幾率更高[15]。在水稻中,同樣存在突變位點(diǎn)的上游堿基為C、下游堿基為G的偏好性,但這種偏好性與GC含量呈負(fù)相關(guān)[17]。突變位點(diǎn)兩側(cè)C/G出現(xiàn)的概率總體上高于A/T堿基。另外,有研究表明,突變相鄰堿基的偏好性在不同的染色體上也有一定的差異[13,15,17]。
小鼠和人類相鄰堿基對(duì)變異的影響相似[18],相鄰堿基距離變異的位置越近其影響越大。根據(jù)SNP位點(diǎn)的實(shí)際觀測頻率發(fā)現(xiàn),突變位點(diǎn)上游緊鄰堿基的偏好性由強(qiáng)至弱的順序?yàn)锳>T>C>G,下游緊鄰堿基的偏好性順序?yàn)門>A>G>C。這種順序受到全基因組堿基含量的影響:用全基因組堿基含量標(biāo)準(zhǔn)化后SNP上游緊鄰堿基的偏好性由強(qiáng)至弱的順序?yàn)镃>G≈A>T,下游緊鄰堿基的偏好性順序?yàn)镚>C≈T>A(遵循堿基配對(duì)互補(bǔ)原則)。跟人類基因組相比,小鼠中突變對(duì)相鄰堿基的偏好性比人類基因組中的偏好性弱很多[15,18]。
在水稻基因組中,基因間區(qū)和內(nèi)含子區(qū)域發(fā)生的變異,其突變上游堿基偏好為C,下游堿基偏好為G。這種效應(yīng)廣泛存在于轉(zhuǎn)換突變中[17],這與CpG中甲基化胞嘧啶脫氨基變成T的情況一致[14-17]。在水稻基因間區(qū)和內(nèi)含子區(qū)中,轉(zhuǎn)換/顛換的比值與鄰近堿基中的A/T值呈負(fù)相關(guān)[17]。在編碼區(qū)中的變異沒有類似情況。
雖然有文獻(xiàn)報(bào)道鄰近堿基影響單核苷酸多態(tài)性,但定量且有效評(píng)估這種“近鄰堿基效應(yīng)”的方法并不多見。對(duì)于依賴于緊鄰堿基的突變偏好性如何隨重組率變化也沒有深入研究。我們之前的研究發(fā)現(xiàn),果蠅和人類基因組中的二核苷酸組成和重組率相關(guān),這可能與高重組區(qū)中的依賴于緊鄰堿基的突變偏好性有關(guān)[19-20]。但該研究中并沒有利用SNP數(shù)據(jù)對(duì)具體的突變對(duì)緊鄰堿基的依賴性進(jìn)行直接觀測。深入探討不同重組率下突變對(duì)緊鄰堿基的依賴性,有助于我們進(jìn)一步理解堿基替換模式和基因組進(jìn)化。
人類SNP數(shù)據(jù)(基于hg19版本)來源于 “千人基因組計(jì)劃(1 000 genomes project,1KG)” 。SNP的VCF文件(基于hg37版本)從http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release /20130502/下載。該VCF文件包含基于東亞(East Asian)、南亞(South Asian)、非洲(African)、歐洲(European)、北美(North America)五個(gè)超級(jí)種群共2 504個(gè)樣本的人類基因組變異信息,其中包括變異位點(diǎn)、變異類型、祖先等位基因(Ancestral allele)、派生等位基因(Derived allele)、每個(gè)樣本中的基因型(Genotype)等詳細(xì)信息。篩選出質(zhì)量合格的SNP信息(不包括插入缺失突變)。
重組率數(shù)據(jù)來自Bherer 等[21]2017年發(fā)表的文章。該數(shù)據(jù)是基于100 000多個(gè)減數(shù)分裂相關(guān)的重組事件構(gòu)建的高分辨率遺傳圖譜。該圖譜中收集了近6個(gè)人類系譜的重組事件集合,涉及總共104 246個(gè)個(gè)體。絕大多數(shù)減數(shù)分裂來自歐洲血統(tǒng)的個(gè)體,占所有減數(shù)分裂的93.7%,6.3%來自其他來源,包括非裔美國人(1.6%)、東亞人(1.8%)和拉丁裔美國人(1.5%)。合并后的數(shù)據(jù)集包括2 338 628個(gè)女性和999 007個(gè)男性重組事件。該重組率圖譜中,每一個(gè)遺傳標(biāo)記位點(diǎn)對(duì)應(yīng)一個(gè)重組率值。基于該遺傳圖譜計(jì)算的平均重組率為1.202 cM/Mb。每個(gè)SNP位點(diǎn)的重組率數(shù)據(jù)取自其鄰近下游遺傳標(biāo)記位置的重組率值。我們將重組率大于等于1 cM/Mb的定義為高重組率,重組率小于等于0.1 cM/Mb的定義為低重組率,重組率介于0.1 cM/Mb和1 cM/Mb之間的數(shù)據(jù)定義為中重組率。低中高三組中,包含的SNP數(shù)量分別為19 325 661(24.7%)、39 149 595(50.0%)和19 838 307(25.3%)。
用SnpEff(version 4)注釋SNPs。它可以注釋和預(yù)測遺傳變異的影響[22]。在注釋中使用了重組率圖譜、SNP數(shù)據(jù)。利用人類基因組(hg19版本)的fasta序列文件和人類基因注釋信息構(gòu)建了SnpEff注釋所需的數(shù)據(jù)庫,然后分別注釋三個(gè)VCF文件(對(duì)應(yīng)低、中、高重組率)。
SnpSift(version 4)[22]是可以用來過濾、拆分、提取帶注釋的文件的一個(gè)工具。SnpEff注釋SNP后,利用SnpSift篩選出不同基因組區(qū)域(Intron, Intergenic, Exon, Upstream,Downstream)的SNP,分別計(jì)算不同重組率下的編碼區(qū)與非編碼區(qū)的SNP對(duì)緊鄰堿基的依賴性。
條件互信息(Conditional mutual information, CMI)是給定第三個(gè)變量時(shí)兩個(gè)隨機(jī)變量互信息的期望值[23]。如果確定第三變量時(shí)另外兩個(gè)隨機(jī)變量的互信息增大,則認(rèn)為第三變量確定的條件下,另外兩個(gè)隨機(jī)變量的相關(guān)性得到增強(qiáng)。條件互信息在特征篩選、多維時(shí)間序列圖模型、miRNA調(diào)控網(wǎng)絡(luò)分析等領(lǐng)域被廣泛應(yīng)用[24-27]。
本文定義的平均條件互信息(見圖1),用于表示緊鄰堿基確定的條件下SNP位點(diǎn)上的突變偏好性,是考慮緊鄰堿基所有可能取值的平均條件互信息。部分條件互信息(Partial conditional mutual information)是只考慮特定緊鄰堿基的條件互信息。為了計(jì)算條件互信息,提取每個(gè)SNP的位置信息以及上游和下游位置,并使用bedtools(Version 2.29.1)[28]的“getFasta”選項(xiàng)從基因組中獲得相應(yīng)的核苷酸。在此基礎(chǔ)上用圖1所示的方式計(jì)算條件互信息。
圖1 用于量化依賴于緊鄰堿基的突變偏好性的條件互信息計(jì)算示意圖Fig.1 Schematic diagram of conditional mutual information calculation for quantifying neighbor-dependent mutation bias
首先,根據(jù)條件互信息的定義分析了在上游緊鄰堿基確定的情況下SNP位點(diǎn)的突變偏好性。結(jié)果表明,條件互信息隨著重組率的增加而增加(見圖2a)。部分條件互信息的結(jié)果表明突變對(duì)上游位點(diǎn)的依賴性由強(qiáng)變?nèi)醯捻樞驗(yàn)锳>C>T>G。當(dāng)上游緊鄰堿基為A、C時(shí),SNP位點(diǎn)具有非常強(qiáng)的突變偏好性(見圖2b)。當(dāng)上游堿基為A或T時(shí),隨著重組率增加SNP突變偏好性減弱。當(dāng)上游堿基為C或G時(shí),結(jié)果正好相反,即隨著重組率增加SNP的突變偏好性增強(qiáng)。
圖2 依賴于上游堿基的條件互信息和部分條件互信息Fig.2 Upstream base-dependent conditional mutual information and partial conditional mutual information
另外,對(duì)特定上游堿基條件下SNP位點(diǎn)上發(fā)生特定突變的條件概率進(jìn)行聚類和比較分析(見圖2c-2g)。就整體而言,發(fā)現(xiàn)無論上游是什么堿基,SNP位點(diǎn)上A堿基都偏好突變成G堿基,在SNP上游堿基為T或C時(shí),突變偏好性最強(qiáng),其偏好性隨著重組率升高而減弱(見圖2d);T堿基傾向突變成C堿基,當(dāng)其上游堿基為A時(shí),SNP位點(diǎn)有最強(qiáng)的突變偏好性,重組率對(duì)該突變偏好性具有抑制作用(見圖2e)。緊鄰堿基為C時(shí),SNP位點(diǎn)上具有最強(qiáng)的G到A的突變偏好性,且重組率越高,偏好性增強(qiáng)(見圖2f);C堿基傾向突變成T,受上游堿基的影響較小(見圖2g)。這種C>T的取代主要來自甲基化胞嘧啶的水解脫氨基作用[14~16]。
SNP兩側(cè)緊鄰堿基的組合如何影響突變偏向的呢?較高的重組率也會(huì)增強(qiáng)突變對(duì)緊鄰堿基的依賴性(見圖3a)。當(dāng)SNP兩側(cè)為A/A、A/T、A/G、T/T、C/T和C/G時(shí),SNP具有較強(qiáng)的突變偏好(見圖3b)。關(guān)于重組與突變偏好性之間的具體關(guān)系,我們發(fā)現(xiàn)當(dāng)SNP兩側(cè)堿基為A/G、C/G或C/T時(shí),隨著重組率的增加突變偏好性增強(qiáng)。相反,當(dāng)SNP兩側(cè)堿基為A/A或T/T時(shí),重組率對(duì)SNP突變偏好性產(chǎn)生抑制作用。
圖3 依賴于兩側(cè)堿基的條件互信息和部分條件互信息Fig.3 Two-flanking-bases-dependent conditional mutual information and partial conditional mutual information
對(duì)兩側(cè)堿基確定的條件下SNP位點(diǎn)上發(fā)生特定突變的條件概率進(jìn)行聚類和分析(見圖3c-3g)。發(fā)現(xiàn)A堿基始終傾向于突變成堿基G,T堿基傾向突變成C堿基,G堿基突變成A堿基的偏向性最強(qiáng),C堿基傾向突變成T堿基。當(dāng)兩側(cè)堿基為AT/TT/CT時(shí),SNP位點(diǎn)上A堿基傾向于突變成G堿基(見圖3d);當(dāng)兩側(cè)為AA/AT/AG時(shí),突變更傾向于T突變成C堿基,但這種偏好性隨著重組率的增加而減弱(見圖3e);當(dāng)兩側(cè)為AG/CG時(shí),C堿基顯示出強(qiáng)烈的C>T突變偏好,該突變偏好性與重組率正相關(guān)(見圖3g)。這與文中的總體互信息基調(diào)一致,說明我們定義的互信息和條件互信息均能夠評(píng)估突變對(duì)緊鄰堿基的依賴程度。綜上所述,我們的結(jié)果表明,人類基因組中SNP位點(diǎn)的突變偏好與重組和相鄰核苷酸類型有關(guān)。
在基因組不同功能區(qū)域內(nèi),變異對(duì)相鄰堿基偏好性與重組率之間的相關(guān)性是否有差異?我們用條件互信息計(jì)算了不同基因組區(qū)域的突變對(duì)緊鄰堿基的依賴性,并分析了其與重組率之間的相關(guān)性。
結(jié)果表明:在基因間區(qū)和外顯子區(qū)域的條件互信息隨重組率增加而增大,而在內(nèi)含子區(qū)域的條件互信息與重組率呈負(fù)相關(guān)(見圖4a)。外顯子和上下游區(qū)域內(nèi)SNP突變對(duì)上游緊鄰堿基的依賴性由強(qiáng)到弱的順序?yàn)镃>A>T>G,在內(nèi)含子和基因間區(qū)內(nèi)突變對(duì)上游緊鄰堿基的依賴性由強(qiáng)到弱的順序?yàn)锳>C>T>G。上游緊鄰堿基為A、C時(shí),SNP位點(diǎn)的突變偏好性最強(qiáng)。當(dāng)上游堿基為A時(shí),隨著重組率增加不同區(qū)域內(nèi)SNP突變偏好性減弱。當(dāng)上游堿基為C時(shí),不同區(qū)域SNP的突變偏好性隨著重組率增加而增強(qiáng)。
圖4 基因組不同功能區(qū)域內(nèi)依賴于上游堿基的條件互信息和部分條件互信息Fig.4 Upstream base-dependent conditional mutual information and partial conditional mutual information in different functional regions of the genome
另外,我們分析了SNP具體的突變偏好性(見圖4b)。在12種突變類型中,A堿基依然偏好突變成G堿基,T堿基偏好突變成C堿基,重組率越高其抑制作用增強(qiáng)。C堿基傾向于突變成T堿基,G堿基傾向突變成A堿基,二者與重組率呈正相關(guān)。因此我們重點(diǎn)分析了這四種SNP突變偏好性受重組率影響后的變化(見圖4c-4g)。在內(nèi)含子與基因間區(qū)中,上游堿基為A的情況下T>C和C>T的突變偏好性較強(qiáng),在不考慮重組率的情況下二者對(duì)上游緊鄰堿基的依賴程度相似(見圖4d,4g);上游堿基為G時(shí),G>A、C>T有強(qiáng)烈的突變偏好性;G>A表現(xiàn)出對(duì)上游堿基C的依賴性。在外顯子中發(fā)現(xiàn),當(dāng)緊鄰堿基為A和T時(shí),表現(xiàn)出與內(nèi)含子、基因間區(qū)不同的偏好強(qiáng)度。上游堿基為A時(shí),C>T的突變偏好比內(nèi)含子和基因區(qū)間都大;上游堿基為T時(shí),G>A、C>T的突變偏好也是強(qiáng)于內(nèi)含子和基因間區(qū)(見圖4c)。
重組率越高,外顯子與基因間區(qū)SNP的突變偏好性越強(qiáng);而內(nèi)含子區(qū)域SNP的突變偏好受到高重組率的抑制(見圖5a)。從部分條件互信息來看,不同區(qū)域內(nèi)SNP突變對(duì)兩側(cè)堿基的依賴程度不同。外顯子區(qū)域、以及基因上下游區(qū)域具有最強(qiáng)突變偏好性的SNP位點(diǎn)的兩側(cè)堿基為CG、CT、AG,而內(nèi)含子、基因間區(qū)具有最強(qiáng)偏好性的SNP兩側(cè)堿基為TT、AA(見表1)。由于選擇壓力,在編碼區(qū)內(nèi)發(fā)生的變異大多數(shù)發(fā)生在密碼子的第三位上[80,81],大多導(dǎo)致同義突變。在Zhao等[17]水稻基因組的研究中發(fā)現(xiàn)編碼區(qū)內(nèi)鄰近堿基為C/G時(shí)密碼子第三位點(diǎn)發(fā)生突變的頻率較高,這與我們的結(jié)果一致。
表1 不同區(qū)域內(nèi)突變對(duì)兩側(cè)堿基的依賴程度Table 1 Dependence of mutations on the two flanking bases in different genomic regions
圖5 基因組不同功能區(qū)域內(nèi)依賴于兩側(cè)堿基的條件互信息Fig.5 Two-flanking-bases-dependent conditional mutual information in different functional regions of the genome
圖6 不同區(qū)域內(nèi)依賴于上游堿基的條件互信息和部分條件互信息(相同樣本大小)Fig.6 Upstream base-dependent conditional mutual information and partial conditional mutual information in different functional regions of the genome (Same sample size)
對(duì)于SNP具體的突變偏好,我們將12種突變類型分成了W>S、S>W、S>S、W>W四種(見圖5b-5k),這里S代表G或C, W代表A或T。發(fā)現(xiàn)S>W對(duì)兩側(cè)堿基的依賴性隨重組率升高而增強(qiáng)。W>S對(duì)緊鄰堿基的依賴性受到高重組率的抑制(見圖5b-5f)。整體S>W類型的突變偏好性強(qiáng)于W>S類型,只有兩側(cè)為A/T堿基時(shí),W>S的突變偏好性明顯高于S>W。另外當(dāng)兩側(cè)堿基為A/A時(shí),除外顯子區(qū)域S>W突變偏好性高于W>S外,其余區(qū)域二者偏好性相當(dāng)。當(dāng)兩側(cè)堿基為T/T時(shí),只有內(nèi)含子區(qū)域的W>S突變偏好性強(qiáng)于S>W(見圖5c)。我們還發(fā)現(xiàn)S>S對(duì)緊鄰堿基依賴性隨著重組率的增加而增強(qiáng)。整體的S>S類型的突變偏好性強(qiáng)于W>W(見圖5g-5k)。兩側(cè)堿基為C/G時(shí),外顯子區(qū)S>S突變偏好性強(qiáng)于W>W,其余區(qū)域恰好相反(見圖5g)。當(dāng)兩側(cè)堿基為A/G、A/C、G/T、C/T時(shí),只有基因間區(qū)的W>W突變偏好性強(qiáng)于S>S(見圖5i)。
在基因組不同的功能區(qū)域,突變對(duì)緊鄰堿基的依賴性存在差異,而且重組率對(duì)該依賴性調(diào)控方式不盡相同。在外顯子區(qū)域、以及基因上下游區(qū)域具有最強(qiáng)突變偏好性的SNP兩側(cè)堿基為C/G、C/T、A/G。在內(nèi)含子、基因間區(qū)具有最強(qiáng)突變偏好性的SNP兩側(cè)堿基為T/T、A/A。在基因間區(qū)和外顯子區(qū)域,SNP突變對(duì)緊鄰堿基的依賴性與重組率呈正相關(guān),而在內(nèi)含子區(qū)域隨著重組率的升高,其緊鄰堿基依賴的突變偏好性受到抑制。另外,計(jì)算基因組不同區(qū)域時(shí),樣本大小在維持同一水平的情況下,SNP突變對(duì)緊鄰堿基的依賴性與重組率的相關(guān)性結(jié)果與之前一致(見圖5、圖 6、圖7、表2),這意味著我們的計(jì)算不受樣本大小不平衡的影響。
表2 不同區(qū)域內(nèi)突變對(duì)兩側(cè)堿基的依賴程度(相同樣本大小)Table 2 Dependence of mutations on the two flanking bases in different genomic regions (Same sample size)
圖7 不同功能區(qū)域內(nèi)依賴于兩側(cè)堿基的條件互信息(相同樣本大小)Fig.7 Two-flanking-bases-dependent conditional mutual information in different functional regions of the genome (same sample size)
在人類基因組計(jì)劃完成的早期,Zhao等[15,17-18]利用基因組序列數(shù)據(jù)對(duì)“鄰近堿基對(duì)突變的影響”進(jìn)行了廣泛的研究。但在評(píng)估緊鄰堿基對(duì)突變的影響時(shí),單純考慮突變位點(diǎn)兩側(cè)的堿基含量是不夠的,因?yàn)檫@很難捕獲到兩側(cè)堿基與具體突變之間的內(nèi)在關(guān)聯(lián)性,而且兩側(cè)堿基的含量在很大程度上受到基因組整體堿基含量的影響。即使是通過用全基因組平均水平的堿基組分對(duì)突變兩側(cè)的堿基含量進(jìn)行標(biāo)準(zhǔn)化[15],也不能做到“捕獲兩側(cè)堿基與具體突變之間的內(nèi)在關(guān)聯(lián)性”的目的?!皩?duì)突變類型一一單獨(dú)分析”是一種富含信息量的分析手段,但這種方法在比較不同的物種、不同功能區(qū)域時(shí)又缺乏一種合理的統(tǒng)一指標(biāo)來評(píng)估緊鄰堿基對(duì)突變偏好性的“整體影響程度”。本文中定義的條件互信息能夠定量評(píng)估緊鄰堿基對(duì)突變偏好性的整體影響,也能夠通過部分互信息等指標(biāo)細(xì)化具體的緊鄰堿基對(duì)突變偏好性的影響。而且,條件互信息的計(jì)算中已經(jīng)考慮了“SNP兩側(cè)堿基組分”的影響,無需再進(jìn)行標(biāo)準(zhǔn)化。期待在后續(xù)工作中將該指標(biāo)應(yīng)用于不同基因組之間的比較,探索“考慮緊鄰堿基效應(yīng)的突變譜”及其在系統(tǒng)發(fā)生領(lǐng)域中的潛在應(yīng)用價(jià)值。
注:相同樣本大小的情況下,不同區(qū)域內(nèi)突變對(duì)兩側(cè)堿基的依賴程度和正文中的結(jié)果相比略有不同。其中依賴性最強(qiáng)和依賴性最弱的兩側(cè)堿基與正文中一致,而處于中間依賴性較弱的兩側(cè)堿基有可能是由于偏好性不夠強(qiáng)導(dǎo)致順序與正文中略有不同.
1)突變對(duì)緊鄰堿基的依賴性在高重組區(qū)得到加強(qiáng)。上游堿基對(duì)突變偏好性的影響順序?yàn)锳>C>T>G。上游堿基A或T對(duì)SNP突變偏好性的影響隨著重組率增加減弱,而上游堿基C或G的影響隨著重組率增加而增強(qiáng)。
2)上下游緊鄰堿基對(duì)突變偏好性的影響順序?yàn)門T>AA>CT>AG>AT>CG>TA>CC>GG>CA>TG>GT>AC>TC>GA>GC,其中較為明顯的是SNP兩側(cè)為AG、CG或CT時(shí)突變偏好性受重組率的正調(diào)控,而兩側(cè)為AT、AA、TT時(shí)受到負(fù)調(diào)控。