王致遠(yuǎn),王迪佳,李燃,李海霞,汪娜娜,孫宏鈺
(1.中山大學(xué)中山醫(yī)學(xué)院法醫(yī)學(xué)系,廣東 廣州 510089;2.佛山市公安局,廣東 佛山 528000;3.深圳市公安局龍華分局,廣東 深圳 518109)
單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)具有突變率低(僅為STR的十萬(wàn)分之一)、擴(kuò)增片段短、數(shù)量豐富等特點(diǎn),被稱(chēng)為第三代遺傳標(biāo)記[1-3]。但是,由于單個(gè)SNP位點(diǎn)通常只有兩個(gè)等位基因,多態(tài)性較STR相對(duì)低,因此要檢測(cè)更多的SNP位點(diǎn)才能達(dá)到法醫(yī)學(xué)個(gè)體識(shí)別和親子鑒定的檢測(cè)需求。SANCHEZ等[4-5]基于傳統(tǒng)的毛細(xì)管電泳(capillary electrophoresis,CE)技術(shù)開(kāi)發(fā)了包含52個(gè)SNP位點(diǎn)的SNPforID檢測(cè)體系,研究結(jié)果顯示,其可以應(yīng)用于個(gè)體識(shí)別,但是仍然難以滿(mǎn)足親緣關(guān)系分析的要求。
近年來(lái),大規(guī)模平行測(cè)序(massively parallel sequencing,MPS)技 術(shù) ,又 稱(chēng) 為 高 通 量 測(cè) 序(highthroughput sequencing,HTS)技術(shù)或下一代測(cè)序(next generation sequencing,NGS)技術(shù),發(fā)展迅速,能夠同步檢測(cè)的遺傳數(shù)目增多,檢測(cè)成本降低[6-7]。本課題組前期基于Ion TorrentTM平臺(tái)的HID-Ion AmpliSeqTMIdentity Panel分型體系,探索了90個(gè)常染色體SNP位點(diǎn)在廣東漢族群體的多態(tài)性[8],本研究擬基于狀態(tài)一致性(identity by state,IBS)分析策略,探索這90個(gè)SNP位點(diǎn)在全同胞關(guān)系分析中的效能。
在知情同意原則下,采集中國(guó)漢族一個(gè)四代家系共35個(gè)成員的血樣,個(gè)體之間關(guān)系如圖1所示。使用AutoMateExpressTMForensic DNA Extraction System(美國(guó)Thermo Fisher Scientific公司)提取DNA,并使用 QubitTMdsDNA HS Assay Kit(美國(guó) Thermo Fisher Scientific公司)在QubitTM3.0熒光定量?jī)x(美國(guó)Thermo Fisher Scientific公司)上進(jìn)行DNA定量。另外,根據(jù)本課題組前期研究中的無(wú)關(guān)個(gè)體SNP分型數(shù)據(jù)[8]隨機(jī)組合獲得1000對(duì)無(wú)關(guān)個(gè)體(unrelated individual,UI)。
圖1 本研究對(duì)象的四代家系系譜圖
采用Goldeneye?DNA身份鑒定系統(tǒng)25A[基點(diǎn)認(rèn)知技術(shù)(北京)公司]對(duì)23個(gè)常染色體STR基因座進(jìn)行擴(kuò)增,在3500xL基因分析儀(美國(guó)Thermo Fisher Scientific公司)上進(jìn)行檢測(cè),并使用GeneMapper?ID-Xv1.5軟件(美國(guó)Thermo Fisher Scientific公司)進(jìn)行STR分型。
采用Precision ID Identity Panel(美國(guó)Thermo Fisher Scientific公司)和Ion AmpliSeqTMLibrary Kit(美國(guó)Thermo Fisher Scientific公司)進(jìn)行文庫(kù)構(gòu)建[8]。該檢測(cè)體系可同時(shí)檢測(cè)90個(gè)常染色體身份信息SNP(identity informative SNP,iiSNP)以及34個(gè)Y-SNP位點(diǎn)。擴(kuò)增產(chǎn)物使用Ion ChefTMSystem(美國(guó)Thermo Fisher Scientific公司)進(jìn)行自動(dòng)化模板制備,應(yīng)用Ion 520TM或 Ion 530TMKit(美 國(guó) Thermo Fisher Scientific公司)在Ion S5TMXL System(美國(guó)Thermo Fisher Scientific公司)上進(jìn)行測(cè)序。測(cè)序結(jié)果采用Torrent SuiteTMv5.2.2軟件(美國(guó)Thermo Fisher Scientific公司)進(jìn)行分析,同時(shí)結(jié)合HID SNP Genotyper Plugin v4.3.1軟件(美國(guó)Thermo Fisher Scientific公司)進(jìn)行SNP分型。
對(duì)于家系中的所有父-母-子關(guān)系,根據(jù)23個(gè)常染色體STR的分型結(jié)果,計(jì)算親權(quán)指數(shù)(paternity index,PI),依照行業(yè)技術(shù)規(guī)范[9],如果累積親權(quán)指數(shù)(combined paternity index,CPI)大于10000,則支持他們之間的親子關(guān)系。基于該家系共獲得全同胞(full sibling,F(xiàn)S)、祖孫(grandparent-grandchild,GG)、叔侄(姨甥)(uncle/aunt-nephew/niece,UN)和第一代堂表親(first cousin,F(xiàn)C)共4種親緣關(guān)系類(lèi)型。參考《生物學(xué)全同胞鑒定實(shí)施規(guī)范》[10],分別計(jì)算各種關(guān)系類(lèi)型的IBS評(píng)分,采用R語(yǔ)言繪制各關(guān)系類(lèi)型的IBS分布圖[11]。采用Wilcoxon秩和檢驗(yàn)比較全同胞與其他親緣關(guān)系類(lèi)型IBS評(píng)分分布的差異,檢驗(yàn)水準(zhǔn)α=0.05。采用SPSS 20.0軟件建立各種關(guān)系的Fisher判別函數(shù)[12]。以待鑒定個(gè)體對(duì)的IBS評(píng)分作為判別因子(S),分別代入相應(yīng)的判別函數(shù)獲得判別評(píng)分L值,并將該對(duì)個(gè)體的關(guān)系類(lèi)型歸為L(zhǎng)值較大的組別。同時(shí),基于前期研究獲得的頻率數(shù)據(jù)[8],分別模擬10 000對(duì)4種親緣關(guān)系和無(wú)關(guān)個(gè)體樣本對(duì)。參考《生物學(xué)全同胞關(guān)系鑒定實(shí)施規(guī)范》[10],對(duì)于待鑒定個(gè)體對(duì),如果其IBS評(píng)分小于或等于某一閾值(下限值t1),則判定為無(wú)關(guān)個(gè)體;如果大于或等于另一閾值(上限值t2),則判定為對(duì)應(yīng)親緣關(guān)系;如果在t1和t2之間,則無(wú)法判定?;诖嗽O(shè)定探索錯(cuò)判率分別為≤0.01%、≤0.05%、≤0.1%、≤0.5%和≤1%時(shí)的判定閾值以及相應(yīng)的系統(tǒng)效能。
對(duì)于該家系的35個(gè)樣本共進(jìn)行了3批測(cè)序,裝載(chip loading)比例分別為62%、70%、73%,富集率(enrichment)分別為93%、95%、95%,單克隆(monoclonal)比例分別為64%、67%、67%,總計(jì)獲得超過(guò)1 400萬(wàn)條序列(reads)。35個(gè)樣本在90個(gè)SNP位點(diǎn)均獲得完整分型,分型率為100%。
根據(jù)23個(gè)常染色體STR分型結(jié)果對(duì)本研究四代家系中所有的父-母-子關(guān)系進(jìn)行了確認(rèn),基于該家系樣本可獲得的親緣關(guān)系類(lèi)型及數(shù)量如表1所示。
表1 本研究四代家系樣本的關(guān)系類(lèi)型及數(shù)量
基于該90個(gè)SNP分型結(jié)果,在256對(duì)親緣關(guān)系中,全同胞的平均IBS評(píng)分最高(IBS=148),第一代堂表親的平均IBS評(píng)分最低(IBS=124)。祖孫、叔侄(姨甥)的平均IBS分值分別為130、132。相比之下,無(wú)關(guān)個(gè)體的IBS評(píng)分最低,平均僅為120。各種關(guān)系類(lèi)型的IBS分布情況如圖2所示。
經(jīng)Wilcoxon秩和檢驗(yàn),除了祖孫與叔侄(姨甥)的IBS評(píng)分差異無(wú)統(tǒng)計(jì)學(xué)意義(P=0.719)外,其余關(guān)系類(lèi)型之間差異均有統(tǒng)計(jì)學(xué)意義(P<0.05)。
圖2 5種關(guān)系類(lèi)型基于90個(gè)SNP分型的IBS分布
通過(guò)Fisher判別函數(shù)進(jìn)行4種親緣關(guān)系的判定,結(jié)果見(jiàn)表2。其中,全同胞關(guān)系全部被正確評(píng)判為相應(yīng)的親緣關(guān)系,對(duì)于更遠(yuǎn)的親緣關(guān)系,錯(cuò)判率顯著升高。綜合考慮無(wú)關(guān)個(gè)體的判定結(jié)果,判別函數(shù)法對(duì)全同胞關(guān)系判定的準(zhǔn)確率最高(98.7%),對(duì)第一代堂表親判定的準(zhǔn)確率最低(61.3%)。
表2 基于90個(gè)SNP分型建立的4種關(guān)系判別函數(shù)及分析結(jié)果
基于前期研究,本研究模擬了10000對(duì)4種親緣關(guān)系和無(wú)關(guān)個(gè)體樣本,全同胞的IBS分布情況見(jiàn)圖3。
參考《生物學(xué)全同胞關(guān)系鑒定實(shí)施規(guī)范》[10],本研究計(jì)算了在不同錯(cuò)判率下各類(lèi)親緣關(guān)系IBS評(píng)分的判定閾值及相應(yīng)的系統(tǒng)效能,結(jié)果見(jiàn)表3。
從表3可以看出,在相同錯(cuò)判率下,全同胞關(guān)系鑒定的系統(tǒng)效能最高,第一代堂表親關(guān)系鑒定效能最低。
圖3 基于90個(gè)SNP分型的全同胞IBS分布
表3 基于90個(gè)SNP分型建立的各種親緣關(guān)系IBS判定閾值及系統(tǒng)效能
另外,可根據(jù)此表靈活選擇判定閾值。以全同胞關(guān)系為例,當(dāng)設(shè)定錯(cuò)判率≤0.05%時(shí),如果某對(duì)樣本IBS評(píng)分≤128,則判定為無(wú)關(guān)個(gè)體,如果≥141,則判定為全同胞,相應(yīng)的系統(tǒng)效能為0.8814,即88.14%的案例可以獲得明確的鑒定意見(jiàn)。
目前,國(guó)內(nèi)司法系統(tǒng)使用的《生物學(xué)全同胞關(guān)系鑒定實(shí)施規(guī)范》基于STR分型結(jié)果,采用IBS評(píng)分法提出判斷全同胞、無(wú)法判斷、無(wú)關(guān)個(gè)體的標(biāo)準(zhǔn)和檢測(cè)效能[10]。相對(duì)于似然比(likelihood ratio)法,IBS評(píng)分法無(wú)需考慮等位基因頻率,只需要根據(jù)等位基因共享情況即可進(jìn)行親緣關(guān)系判定,具有分析直觀、簡(jiǎn)單、快速的優(yōu)勢(shì)[11,13-15]。另一方面,對(duì)于特殊案例,如高度腐敗或者降解檢材,常常無(wú)法獲得完整STR分型,而SNP由于擴(kuò)增片段短可以獲得完整分型。并且隨著NGSSNP分型體系的日益成熟,將越來(lái)越廣泛地應(yīng)用于法醫(yī)學(xué)個(gè)體識(shí)別和親緣鑒定[16],因此本研究采用Precision ID Identity Panel分型體系對(duì)90個(gè)SNP位點(diǎn)進(jìn)行分型,結(jié)合IBS策略探索了該檢測(cè)體系在全同胞關(guān)系鑒定中的應(yīng)用價(jià)值。
本研究結(jié)果顯示,全同胞、祖孫、叔侄(姨甥)和第一代堂表親4種親緣關(guān)系中,除了祖孫與叔侄(姨甥)關(guān)系外,其余關(guān)系類(lèi)型的IBS評(píng)分差異均有統(tǒng)計(jì)學(xué)意義,且均高于無(wú)關(guān)個(gè)體。祖孫與叔侄(姨甥)的IBS評(píng)分無(wú)顯著差異,可解釋為這兩類(lèi)親緣關(guān)系同屬于二級(jí)親緣關(guān)系,理論上他們之間均共有四分之一的親代遺傳物質(zhì)。另外,隨著親緣關(guān)系的疏遠(yuǎn),IBS分值逐漸降低。親緣關(guān)系中的第一代堂表親與無(wú)關(guān)個(gè)體的IBS差異最小。
本研究根據(jù)90個(gè)SNP分型數(shù)據(jù)建立了4種親緣關(guān)系的Fisher判別函數(shù),綜合無(wú)關(guān)個(gè)體的判定結(jié)果后對(duì)全同胞關(guān)系的錯(cuò)判率為1.3%,低于趙書(shū)民等[12]研究中的2.98%。分析原因?yàn)楸狙芯堪?0個(gè)SNP位點(diǎn)相當(dāng)于22個(gè)STR基因座的多態(tài)性[17],多于趙書(shū)民等研究中采用的Identifiler系統(tǒng)STR數(shù)目(15個(gè)STR)。但是,對(duì)于其他較遠(yuǎn)親緣關(guān)系的錯(cuò)判率較高,尚不能滿(mǎn)足實(shí)踐需求。
此外,由于判別函數(shù)法具有“是”或者“否”的二分類(lèi)特征,不存在無(wú)法判定的“灰色區(qū)域”,系統(tǒng)效能高,但是錯(cuò)判率相對(duì)也較高。本研究采用判別函數(shù)法進(jìn)行全同胞關(guān)系的錯(cuò)判率為1.3%,顯著高于根據(jù)《生物學(xué)全同胞關(guān)系鑒定實(shí)施規(guī)范》及趙書(shū)民等[12-13]研究采用19個(gè)STR和IBS閾值法(t1=13,t2=22)的錯(cuò)判率(≤0.05%)。本研究基于前期獲得的頻率數(shù)據(jù),模擬了10000對(duì)各種親緣關(guān)系和無(wú)關(guān)個(gè)體,獲得了相應(yīng)的IBS判定閾值。結(jié)果表明,當(dāng)錯(cuò)判率低至0.05%時(shí),進(jìn)行全同胞鑒定的系統(tǒng)效能為0.881 4,高于采用19個(gè)STR時(shí)的效能(0.75)[10],提示這90個(gè)SNP可以應(yīng)用于全同胞關(guān)系鑒定。因此,當(dāng)采用這90個(gè)SNP進(jìn)行鑒定時(shí),推薦使用對(duì)應(yīng)的閾值t1=128、t2=141作為全同胞的判定標(biāo)準(zhǔn)。如果允許的錯(cuò)判率提高,相應(yīng)的系統(tǒng)效能更大。實(shí)際工作中可以根據(jù)需要,選擇不同的標(biāo)準(zhǔn)和閾值進(jìn)行判定,這也顯示了IBS閾值法的靈活性。
值得一提的是,檢測(cè)體系包含的SNP位點(diǎn)數(shù)目越多,對(duì)于各類(lèi)親緣關(guān)系鑒定的鑒別能力以及準(zhǔn)確率越高。KLING等[18-19]應(yīng)用高密度SNP芯片技術(shù)檢測(cè)了超過(guò)90萬(wàn)個(gè)SNP位點(diǎn),以共有等位基因數(shù)目作為判定參數(shù),發(fā)現(xiàn)可以區(qū)分至第二代堂兄弟(姐妹)的關(guān)系。這也顯示了SNP遺傳標(biāo)記和IBS策略在親緣關(guān)系鑒定中的應(yīng)用潛力,本研究下一步擬基于更大數(shù)量的實(shí)驗(yàn)樣本和實(shí)際案例進(jìn)行驗(yàn)證。