管珊珊 張文杰 魏以梁 李鷹翔 趙雯婷 范 虹 劉 京
(1)陜西師范大學(xué)計算機科學(xué)學(xué)院,西安710119;2)公安部物證鑒定中心,北京100038;3)江蘇師范大學(xué),徐州221116;4)安瀾智能(深圳)有限公司,深圳510630;5)中國政法大學(xué),證據(jù)科學(xué)教育部重點實驗室,北京100088)
短串聯(lián)重復(fù)序列(short tandem repeat,STR)基因座一直是司法領(lǐng)域中鑒定個體身份和親緣關(guān)系的主要遺傳標(biāo)記,但由于使用的位點數(shù)目有限,常將 單 核 苷 酸 多 態(tài) 性 (single nucleotide polymorphism,SNP)遺傳標(biāo)記作為STR標(biāo)記的補充。近年來,測序技術(shù)的進步發(fā)展帶來了更密集的遺傳標(biāo)記集,由于SNP位點分布廣泛、突變率低、相比STR 等重復(fù)序列標(biāo)記具有更高的遺傳穩(wěn)定性等特點,使得利用全基因組高密度SNP 分型數(shù)據(jù)預(yù)測親緣關(guān)系成為新的研究熱點。法醫(yī)系譜推斷是指通過遺傳譜系分析解決涉及司法實踐中的身份識別問題,早在2005年,美國科學(xué)家Fitzpatrick提出此概念[1]?!敖鹬輾⑹帧卑甘堑谝蛔谑褂梅ㄡt(yī)系譜學(xué)技術(shù)破獲的懸案[2],該技術(shù)被譽為2018 年度十大科學(xué)突破之一,此案告破后,警方利用該技術(shù)為200 余例案件提供偵查線索[3-4]。2020 年12 月,國內(nèi)利用法醫(yī)系譜推斷技術(shù)為14 年前的一起命案積案鎖定重點家系[5],為案件偵破提供了直接線索。研究表明,高密度SNP 技術(shù)結(jié)合傳統(tǒng)STR 技術(shù)將會成為法醫(yī)DNA服務(wù)案件偵查和訴訟的新模式[6]。
個體間的共祖片段(identity-by-descent,ⅠBD)長度算法或者等位基因頻率估計的狀態(tài)一致性(identity-by-state,ⅠBS)共享統(tǒng)計量算法是目前預(yù)測親緣關(guān)系的主要方式[7]。前者通過檢測個體之間從一個共同祖先繼承的相同DNA 片段長度和數(shù)量,判斷親緣關(guān)系遠近。該算法適用于已進行基因型定相的單倍型,需要較大的參考人群數(shù)據(jù)。并且對法醫(yī)樣本的質(zhì)量非常敏感,當(dāng)使用來自低質(zhì)量DNA 樣本的少量SNP 基因型時,很難實現(xiàn)可靠的ⅠBD檢測?;诘任换蝾l率估計ⅠBS共享統(tǒng)計量預(yù)測親緣關(guān)系的算法,在假設(shè)各標(biāo)記間獨立的情況下,通過估計整個樣本中每個SNP 的等位基因頻率,計算基因組中共享的等位基因比例確定親緣關(guān)系。該算法雖然只能準(zhǔn)確預(yù)測1~4 級內(nèi)的親緣關(guān)系,在5級以上的遠親關(guān)系中預(yù)測準(zhǔn)確率低于ⅠBD方法,但其受位點檢出率影響較小。
本文描述的ⅠBS 算法依賴于高密度SNP 數(shù)據(jù),通過計算每個SNP標(biāo)記等位基因頻率和ⅠBS的共享等位基因數(shù)量估計兩兩個體之間的共享統(tǒng)計量,并轉(zhuǎn)化為親緣關(guān)系系數(shù)得出親緣關(guān)系等級。該算法在項目組開發(fā)的親緣關(guān)系預(yù)測系統(tǒng)(kinship prediction system version 1.0,KPS v1.0)[8]中實現(xiàn),可準(zhǔn)確預(yù)測4級以內(nèi)的親緣關(guān)系,并且能在幾分鐘內(nèi)對數(shù)百萬對個體進行關(guān)系推斷[9]。
采集中國中部地區(qū)5個家庭共253個漢族樣本,其中包含4 184對1~7級親緣關(guān)系(圖1顯示各等級數(shù)量分布,包括雙胞胎(MZ)、親子(PO)、全同胞(FS)、2 級(2nd)、3 級(3rd)、4 級(4th)、5級(5th)、6 級(6th)、7 級(7th)親緣關(guān)系),26 325 對無親緣關(guān)系(UN)。所有樣本在采集前均簽署知情同意書,本研究通過了公安部物證鑒定中心倫理委員會審查(編號:2020-022)。
所有樣本均使用QⅠAamp DNA Midi 試劑盒(QⅠAGEN 公 司, 德 國) 提 取DNA, 使 用NanoDrop 2000c 超微量分光光度計(Thermo Scientific公司,美國)進行DNA定量和純度檢測。使 用 美 國Ⅰllumina Ⅰnfinium Global ScreeningArray(GSA)芯片進行全基因組SNP檢測,獲得約70萬個常染色體SNP 位點分型(安瀾智能公司,中國)。
使用親緣關(guān)系預(yù)測系統(tǒng)KPS v1.0 進行親緣關(guān)系預(yù)測,該系統(tǒng)通過ⅠBS算法估計的親緣關(guān)系系數(shù)Φ和零ⅠBD 共享統(tǒng)計量π0推斷親緣關(guān)系等級。具體來說,親緣關(guān)系系數(shù)Φij表示從個體i、j中隨機抽取的兩個等位基因來源于同一祖先的概率。
其中NAA,aa為個體i,j基因型都為純合子的標(biāo)記數(shù),NAa,Aa為個體i、j基因型都為雜合子的標(biāo)記數(shù),N(x)Aa是個體x的基因型為雜合子的標(biāo)記數(shù)。零ⅠBD共享統(tǒng)計量π0表示從個體i,j在一個SNP 位點上共享同一祖先零個等位基因的概率。
其中pm為標(biāo)記m的估計等位基因頻率個體。
表1 是對Manichaikul 等[9]文獻中親緣關(guān)系系數(shù)Φ和零ⅠBD 共享統(tǒng)計量π0的推理標(biāo)準(zhǔn)的擴展。根據(jù)系統(tǒng)預(yù)測的所有個體間的親緣關(guān)系系數(shù)與此表中親緣關(guān)系系數(shù)的推理標(biāo)準(zhǔn)范圍比對,可進行個體間親緣關(guān)系等級推斷。由于親子與全同胞關(guān)系的親緣關(guān)系系數(shù)范圍一致,可使用零ⅠBD共享統(tǒng)計量作進一步區(qū)分。
使用高密度SNP 標(biāo)記集進行親緣關(guān)系預(yù)測時通常包含一定程度的冗余信息,故本研究分別使用連鎖不平衡、最小等位基因頻率對標(biāo)記進行過濾,評估不同位點組合的預(yù)測準(zhǔn)確率。并且考慮到在真實案例樣本中,檢材質(zhì)量不一,可能會導(dǎo)致位點隨機丟失,故本研究還進一步通過隨機減少位點數(shù)模擬真實低質(zhì)量樣本,以檢驗該算法的適用性。
Fig.1 The quantity distribution of each kinship degree among samples
Table 1 The criteria for inference of kinship
1.4.1 連鎖不平衡
等位基因間的關(guān)聯(lián)(連鎖不平衡)會增加相鄰遺傳標(biāo)記上等位基因共享的程度,從而高估個體間的親緣關(guān)系程度,甚至將無關(guān)個體推斷為有親緣關(guān)系??紤]到全基因組SNP 數(shù)據(jù)中存在大量連鎖不平衡位點,本文使用PLⅠNKv1.9 軟件[10]通過連鎖不平衡的篩選標(biāo)準(zhǔn)R2參數(shù)對原始數(shù)據(jù)進行位點過濾,以檢驗連鎖不平衡是否對準(zhǔn)確性產(chǎn)生影響。
1.4.2 最小等位基因頻率
最小等位基因頻率(minor allele frequencies,MAF)較低的位點對親緣關(guān)系的信息貢獻小,甚至增加假陽性,本文使用PLⅠNK v1.9 軟件根據(jù)MAF 值對原始數(shù)據(jù)進行位點過濾,去除冗余和非信息量標(biāo)記位點,從而保留最大的信息量,以此評估位點信息量大小是否對預(yù)測結(jié)果造成影響。
1.4.3 隨機篩選位點
由于法醫(yī)學(xué)中常遇到陳舊、微量及降解檢材等造成的位點檢出率低的情況,為了探究SNP 位點數(shù)量的減少對該算法預(yù)測效能影響,我們對位點進行隨機的梯度下降篩選,將篩選的位點組合進行親緣關(guān)系預(yù)測的結(jié)果與原始數(shù)據(jù)結(jié)果進行比較,檢驗不同密度SNP 位點組合對預(yù)測準(zhǔn)確性的影響,以及位點數(shù)量減少到何種程度,準(zhǔn)確率會大幅下降。
使用KPS v1.0系統(tǒng)對253份測序數(shù)據(jù)進行親緣關(guān)系計算,將所有個體間預(yù)測的親緣關(guān)系等級與實際調(diào)查的親緣關(guān)系進行比較,評估親緣關(guān)系預(yù)測準(zhǔn)確性。
表2 中展示了253 份樣本數(shù)據(jù)進行親緣關(guān)系預(yù)測的準(zhǔn)確性,由于親緣關(guān)系系數(shù)Φ在(0,0.002 76)范圍的個體對親緣關(guān)系無法確定,將不確定關(guān)系的樣本對定義為7 級以上或未知關(guān)系(>7th/UnK)。從表中可以看出,1 級親緣關(guān)系的預(yù)測準(zhǔn)確率為100%,3級親緣關(guān)系預(yù)測準(zhǔn)確率為89.8%,隨著親緣關(guān)系等級的增加,預(yù)測準(zhǔn)確率也隨之降低,4級開始出現(xiàn)假陰性,5級之后的親緣關(guān)系準(zhǔn)確率明顯下降。
Table 2 The evaluation of the accuracy of genetic relationship prediction in 253 samples
基于調(diào)查的真實親緣關(guān)系所估計的親緣關(guān)系系數(shù)分布(圖2),1~3 級親緣關(guān)系都比較清楚地分開,而4級以后的親緣關(guān)系分布開始出現(xiàn)重疊,并且越遠的關(guān)系與無關(guān)分布有更高程度的重疊。表3中為各親緣關(guān)系等級系數(shù)的分布范圍。
Fig.2 The distribution map of kinship coefficient of each kinship degree
Table 3 The distribution range of kinship coefficient of each kinship degree
2.3.1 連鎖不平衡
為研究連鎖不平衡的對于親緣關(guān)系預(yù)測的影響,本文根據(jù)連鎖不平衡的度量參數(shù)R2對位點進行過濾,使得保留的所有位點間的相關(guān)性都低于給定的R2值。根據(jù)集合[0.1,0.125,0.15,0.175,0.2,0.225,0.25,0.275,0.3]中的值篩選位點,表4 為不同R2值篩選的位點組合預(yù)測準(zhǔn)確性結(jié)果。圖3中顯示了不同位點組合在各親緣關(guān)系等級的預(yù)測準(zhǔn)確性分布。與原始數(shù)據(jù)預(yù)測準(zhǔn)確性比較發(fā)現(xiàn),R2值越大,該算法的預(yù)測準(zhǔn)確性越高,尤其對于4級以上的親緣關(guān)系更為明顯,例如5級的絕對準(zhǔn)確率由40.9%升至56.8%,并且當(dāng)R2≥0.125 時,消除了4級上唯一的一對假陰性結(jié)果。雖然篩選的位點在一定程度上提高了預(yù)測準(zhǔn)確率,降低了總體的假陰性,但同時也增加了假陽性,并且在4級關(guān)系上出現(xiàn)假陽性結(jié)果。
Table 4 The predictive accuracy of locus combinations screened by different R2-values
2.3.2 最小等位基因頻率
本文根據(jù)MAF 值[0.000 1,0.01,0.05,0.1,0.2]對原始數(shù)據(jù)進行位點過濾,在篩選的結(jié)果數(shù)據(jù)集中,SNP標(biāo)記數(shù)范圍在222 770~514 962之間。使用過濾后的SNP 位點組合進行親緣關(guān)系預(yù)測(表5),SNP 位點數(shù)量隨MAF 參數(shù)值增大而減少,預(yù)測準(zhǔn)確率也隨之降低。本文使用F檢驗分別將5組數(shù)據(jù)的準(zhǔn)確性與原始數(shù)據(jù)的準(zhǔn)確率進行計算,均得出F值在0.05 的水平上無顯著性差異(F>F0.05)。因此可得,雖然不同的SNP 位點組合對預(yù)測的結(jié)果會產(chǎn)生影響,但這種影響不顯著。
Fig.3 The predictive accuracy of locus combinations screened by different R2 values
Table 5 The predictive accuracy of locus combinations screened by different MAF-values
2.3.3 隨機篩選位點
案件現(xiàn)場的生物檢材受時間和環(huán)境等因素影響,DNA 會發(fā)生降解,從而降低樣本檢出率。因此本文通過隨機篩選不同數(shù)量的位點組合,模擬低質(zhì)量樣本的預(yù)測結(jié)果。從253 份樣本數(shù)據(jù)的699 537個SNP位點中,隨機篩選40萬、5萬、1萬和5 000 各10 組數(shù)據(jù),使用ⅠBS 算法預(yù)測親緣關(guān)系,預(yù)測準(zhǔn)確性以平均值和標(biāo)準(zhǔn)差反映。表6結(jié)果顯示,準(zhǔn)確性隨位點數(shù)量的減少而輕微降低,對3級內(nèi)的親緣關(guān)系準(zhǔn)確性影響很小。但需要注意的是,當(dāng)位點減少到5 萬個SNP 時,4 級親緣關(guān)系預(yù)測開始出現(xiàn)假陽性,位點數(shù)量下降至1萬時,少量無關(guān)樣本被預(yù)測為3級。
Table 6 The predictive accuracy of random screening of different number of locus combinations
在法醫(yī)遺傳學(xué)領(lǐng)域,利用密集SNP 標(biāo)記數(shù)據(jù)預(yù)測親緣關(guān)系的應(yīng)用研究受到越來越多的關(guān)注,但目前缺乏針對中國人群的系統(tǒng)研究,包括從大規(guī)模SNP基因型數(shù)據(jù)集中篩選適合中國人群親緣關(guān)系預(yù)測的位點組合,建立預(yù)測算法并對算法相關(guān)參數(shù)進行研究分析。本文中描述的ⅠBS算法基于全基因組SNP數(shù)據(jù)進行關(guān)系推理,其框架核心是將一對個體之間的遺傳距離作為其等位基因頻率和親屬關(guān)系系數(shù)的函數(shù)進行建模,從而預(yù)測親緣關(guān)系等級。該算法能夠快速準(zhǔn)確預(yù)測4級以內(nèi)的親緣關(guān)系,平均準(zhǔn)確率可達99%以上。與ⅠBD 算法相比,此算法不需要特殊的計算資源,能在幾分鐘內(nèi)對數(shù)百萬對個體進行關(guān)系推斷[9]。
本研究采用高密度SNP芯片對253份漢族樣本進行檢測,采用項目組前期開發(fā)的KPS v1.0 系統(tǒng)進行親緣關(guān)系預(yù)測,該系統(tǒng)將ⅠBS算法的整體分析流程進行集成,實現(xiàn)了程序自動化。預(yù)測結(jié)果(表2)表明,ⅠBS在4級以內(nèi)的準(zhǔn)確率極高,在1級誤差內(nèi),4級預(yù)測準(zhǔn)確率高達98.1%。
基于253份樣本真實親緣關(guān)系的親緣關(guān)系系數(shù)分布(圖2)顯示,1~3 級關(guān)系能明顯分離開來,而4 級以上的親緣關(guān)系系數(shù)會出現(xiàn)重疊,最遠的7級關(guān)系與無關(guān)關(guān)系重疊最大。該結(jié)果與預(yù)期一致,由于親緣關(guān)系越遠的個體間共享的等位基因數(shù)量相對較少使得親緣關(guān)系系數(shù)降低,且從表3中可以看出,4級以上的親緣關(guān)系系數(shù)的均值開始與對應(yīng)的推理標(biāo)準(zhǔn)值出現(xiàn)明顯偏差,因此該方法對于此類關(guān)系難以準(zhǔn)確區(qū)分。
本研究還進一步探討了連鎖不平衡、最小等位基因頻率以及位點數(shù)量對該算法的影響,以篩選適合中國人群的系譜分析位點組合。首先考慮到密集SNP遺傳標(biāo)記數(shù)據(jù)中存在大量連鎖位點、冗余信息等現(xiàn)象,可能對預(yù)測結(jié)果產(chǎn)生影響,研究中通過連鎖不平衡度量參數(shù)R2值對原始數(shù)據(jù)進行位點篩選,與原始數(shù)據(jù)預(yù)測準(zhǔn)確性比較發(fā)現(xiàn),隨著R2值越大,該算法的預(yù)測準(zhǔn)確性越高,尤其對于4級以上的親緣關(guān)系更為明顯(表4和圖3)。雖然篩選的位點在一定程度上提高了預(yù)測準(zhǔn)確率,降低了總體的假陰性,但在4級關(guān)系上出現(xiàn)假陽性結(jié)果。因此,使用此參數(shù)時,預(yù)測結(jié)果中的假陽性和假陰性率需要均衡。其次,MAF 使用近似0 值過濾了不提供信息的位點,預(yù)測結(jié)果(表5)與原始結(jié)果一致,并減少了計算時間(本文中未體現(xiàn))。其他參數(shù)值的預(yù)測結(jié)果(表5)顯示,預(yù)測準(zhǔn)確性隨MAF 值的增加而輕微降低,該結(jié)果很有可能由于位點數(shù)減少的影響。雖然最小等位基因頻率對預(yù)測的結(jié)果會產(chǎn)生影響,但這種影響不顯著。由此可知,該算法對此參數(shù)并不敏感。最后,在法醫(yī)工作中,標(biāo)記密度不一定能得到保證,比如脫落細胞、腐敗組織等微量降解的案件檢材。本研究進一步通過隨機篩選位點數(shù)量模擬低質(zhì)量DNA 樣本的少量SNP 位點進行親緣關(guān)系預(yù)測的準(zhǔn)確性。結(jié)果表明(表6),預(yù)測準(zhǔn)確性隨位點數(shù)量的減少而降低,但影響較小。并且所有結(jié)果顯示,位點數(shù)量對近親緣關(guān)系影響更小,比如親子、全同胞以及2 級關(guān)系。但值得注意的是,使用5 000 個SNP 位點進行計算時,3 級關(guān)系的預(yù)測準(zhǔn)確性能達到92.7%,誤差在1 級內(nèi),與Kling 等[11]研究結(jié)果(至少需要5.6 萬個SNP 來確定一代堂表兄妹(3級關(guān)系))相比,該算法預(yù)測效能很好,在較低密度SNP 中也能以較高準(zhǔn)確率預(yù)測4級以內(nèi)關(guān)系。
本文探索研究了基于高密度SNP數(shù)據(jù)利用ⅠBS算法進行親緣關(guān)系預(yù)測的可行性,研究結(jié)果表明,該算法在4級以內(nèi)親緣關(guān)系的預(yù)測效能很好,并且此算法受SNP 位點數(shù)量減少的影響較小,對于陳舊降解等低質(zhì)量檢材,也能保持較高的準(zhǔn)確性。因此該方法可輔助物證鑒定工作,為刑事犯罪、災(zāi)難受害者身份識別(disaster victims identification,DVⅠ)、冷案積案等疑難案件的偵破提供科技支撐。