• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于全基因組測序的法醫(yī)單核苷酸多態(tài)性系譜推斷研究*

      2023-11-23 12:30:32趙雯婷方之曉徐景怡李彩霞
      生物化學與生物物理進展 2023年11期
      關(guān)鍵詞:系譜親緣法醫(yī)

      謝 全 桂 虛 趙雯婷 方之曉 徐景怡 劉 京 李彩霞**

      (1)中國人民公安大學偵查學院,北京 100038;2)公安部物證鑒定中心,現(xiàn)場物證溯源技術(shù)國家工程實驗室,北京市現(xiàn)場物證檢驗工程技術(shù)研究中心,北京 100038;3)四川省達州市公安局達川區(qū)分局,達州 635000)

      單 核 苷 酸 多 態(tài) 性 (single nucleotide polymorphism,SNP)在人基因組中分布廣泛,突變率低,遺傳穩(wěn)定性高,是法醫(yī)遺傳領(lǐng)域的第三代遺傳標記,常用于族群地域推斷、體貌表型預測、親緣關(guān)系分析等[1]。其中,SNP在親緣分析尤其是遠距離親緣分析方面具有獨特的優(yōu)勢。第二代遺傳標記短串聯(lián)重復序列(short tandem repeat,STR)標記通常用于親子鑒定、全同胞鑒定,但是對二級以上親緣關(guān)系難以準確鑒定[2]。2018 年,美國“金州殺手案”的破獲就是通過高密度SNP預測出嫌疑人的7級遠親關(guān)系,進而找到嫌疑人,該技術(shù)被稱為法醫(yī)SNP 系譜推斷技術(shù),并被《科學》(Science)雜志評為年度全球十大科學突破之一[3]。

      法醫(yī)SNP 系譜推斷技術(shù)迅速成為近年來法醫(yī)領(lǐng)域的研究熱點,并為數(shù)百起冷案積案的偵破提供了關(guān)鍵線索[4]。本項目組也建立了相關(guān)技術(shù)并在命案積案偵破中發(fā)揮作用[5]。法醫(yī)SNP 系譜推斷技術(shù)是基于高密度SNP 數(shù)據(jù),通過個體間的共祖片段(identity by descent,IBD)長度算法、狀態(tài)一致性(identity by state,IBS)共享統(tǒng)計量等算法預測個體間的親緣關(guān)系等級[6]。獲得高密度SNP分型數(shù)據(jù)的方式主要為全基因組SNP 芯片技術(shù)和全基因組測序(whole genome sequencing,WGS)技術(shù)。其中,由于全基因組SNP芯片的價格優(yōu)勢,成為目前法醫(yī)SNP 系譜推斷最常用的數(shù)據(jù)獲取方式[7]。SNP芯片是在一塊基片表面固定序列已知的靶核苷酸的探針,用于特定SNP 位點組合的檢測分型。國內(nèi)外常用芯片包括GSA 芯片(65 萬SNP)、CytoSNP 芯片(85 萬SNP)、Affymetrix 定制芯片(20 萬~260 萬SNP)等,均 為Illumina、Affymetrix 等國外產(chǎn)品。而且,SNP 芯片技術(shù)對DNA 質(zhì)量的要求較高,一般需200 ng 以上,250 pg時7級親緣預測準確性由99.9%降至62.6%,對血樣、精斑、唾液等樣本檢測效果好,但是微量降解等現(xiàn)場常見生物檢材的檢測能力差,模擬降解檢材平均DNA 片段大小為150 bp 時,其準確率降至0[7]。WGS技術(shù)又稱為大規(guī)模并行測序,區(qū)別于傳統(tǒng)的Sanger(雙脫氧法)測序,能夠一次并行對大量核酸分子進行序列測定的技術(shù)。WGS 檢測方案的一個優(yōu)勢在于,DNA 片段化處理是文庫構(gòu)建的第一步,增加了從降解的法醫(yī)樣本中獲得SNP分型結(jié)果的可能性[8]。近期有研究發(fā)現(xiàn),WGS 技術(shù)在微量降解等法醫(yī)現(xiàn)場檢材的檢測能力優(yōu)于全基因組SNP芯片技術(shù)[9]。

      本項目組前期已構(gòu)建起基于全基因組SNP 芯片技術(shù)的法醫(yī)SNP 系譜推斷技[5-6],為建立國產(chǎn)平臺檢測能力,并進一步提升法醫(yī)現(xiàn)場檢材檢測能力,本文使用華大MGISEQ-200RS 測序平臺進行高深度的WGS,旨在探索從高深度WGS數(shù)據(jù)中獲得準確的SNP 分型,并進行法醫(yī)SNP 系譜推斷的可行性和準確性研究。

      1 材料與方法

      1.1 樣本來源及DNA提取

      采集本實驗室來自不同家系的靜脈血樣本A、B、C,標準品使用NA12878(具有北歐和西歐血統(tǒng)的猶他州女性)。所有樣本在采集前均簽署知情同意書,本研究通過了公安部物證鑒定中心倫理委員會審查(編號:2021-006)。靜脈血均使用QIAamp Blood Midi Kit試劑盒(QIAGEN公司,德國)提取DNA,使用QubitTMdsDNA HS Assay Kit試劑盒在Invitrogen Qubit 4(Thermo Fisher 公司,美國)上進行DNA 定量,使用JY-SPDT 電泳儀(君意東方公司,中國)判斷DNA完整度。

      1.2 文庫制備和測序

      質(zhì)檢合格的DNA,使用MGIEasy酶切DNA文庫制備試劑套裝(華大智造公司,中國),對200 ng 起始樣本進行酶切文庫構(gòu)建。利用MGISEQ-200RS高通量測序試劑盒將單鏈環(huán)狀文庫制備成DNA 納米球(DNA nano ball,DNB),采用PE150 讀長測序策略,進行平均深度30×WGS。所有樣本均使用MGISEQ-200RS測序儀進行測序。

      1.3 測序數(shù)據(jù)處理

      利用FastQC 軟件對測序儀下機數(shù)據(jù)的fastq 文件進行質(zhì)檢,使用Fastp 軟件去除低質(zhì)量片段和接頭序列,生成Clean Fastq 文件。使用BWA 工具,將Clean Fastq 數(shù)據(jù)比對到人類參考基因組(hg19)上生成bam文件。用Sort工具,將bam文件按照染色體組型進行排序,生成sort.bam 文件。使用GATK軟件Markduplicate工具標記重復的讀段,選取唯一對比讀段進行后續(xù)分析。通過GATK軟件中BQSR工具用于矯正測序堿基的真實質(zhì)量值,設置參考SNP 數(shù)據(jù)集作為真實變異集,這些數(shù)據(jù)集之外的位點,若測序數(shù)據(jù)與參考基因組存在差異,則認為是錯誤,以此來判定并矯正測序堿基的質(zhì)量值。使用GATK的HaplotypeCaller工具,進行二倍體基因組的變異檢測,識別出潛在變異區(qū)域。

      使用Bcftools 軟件從全基因組vcf 文件中提取感興趣的位點,利用Python 3腳本過濾低質(zhì)量位點進行質(zhì)控,并刪除Indel。使用Plink 軟件將vcf 文件轉(zhuǎn)換為二進制格式,與參考樣本合并進行法醫(yī)SNP系譜推斷。

      1.4 家系參考樣本

      家系參考樣本來自項目組志愿者共計3 個家系,親緣關(guān)系對應等級數(shù)量分布如表1,包含1~8級 親 緣,234 份 樣 本[6],使 用Wegene GSA 芯 片(安瀾智能公司,中國)獲得645 199 個常染色體SNP 位點分型,參考劉京等[10]法醫(yī)系譜親緣關(guān)系等級進行劃分。族群推斷參考樣本來自公開的千人基因組數(shù)據(jù)庫。

      Table 1 The quantity distribution of each kinship degree among samples

      1.5 系譜推斷

      通過本項目組開發(fā)的親緣關(guān)系預測系統(tǒng),分別使用IBS和IBD算法對樣本進行親緣關(guān)系預測[5-6]。

      IBS 算法通過計算親緣關(guān)系系數(shù)?和零IBD 共享統(tǒng)計量π0推斷兩個體間親緣關(guān)系等級。零IBD共享統(tǒng)計量π0代表兩個體在一個SNP 位點上共享同一祖先零個等位基因的概率,親緣關(guān)系系數(shù)?表示從兩個體中隨機抽取的兩個等位基因來源于同一祖先的概率。根據(jù)系統(tǒng)預測的所有個體間?和π0與推斷等級標準范圍對比,可進行個體間親緣關(guān)系等級推斷[6]。

      IBD是指由于在遺傳過程中,染色體會發(fā)生重組,兩個有親緣關(guān)系個體的基因組中有一段DNA來源于同一個祖先,通常用重組頻率的測量單位厘摩(centimorgan,cM)衡量,IBD 片段越長,說明親緣關(guān)系越近[11]。預測系統(tǒng)基于背景人群參考數(shù)據(jù)進行同源染色體分離,計算兩兩個體之間共祖片段IBD的cM總長度,進而推斷個體間親緣關(guān)系等級[12]。

      法醫(yī)系譜推斷效能通過絕對準確率(accuracy,AC)、置信區(qū)間準確率(confidence interval accuracy, CIA)、 假 陰 性 率 (false negative,F(xiàn)N) 和假陽性率(false positive,F(xiàn)P)等指標評估。絕對準確率為預測親緣等級與調(diào)查等級一致的關(guān)系對數(shù)占關(guān)系對數(shù)的比重,置信區(qū)間準確率為預測等級在調(diào)查等級的上下一級浮動的關(guān)系對數(shù)占等級數(shù)的比重,假陰性率為調(diào)查有親緣關(guān)系被預測為無關(guān)的對數(shù)占親緣對數(shù)的比重,假陽性率為調(diào)查無關(guān)被預測為有關(guān)的對數(shù)占親緣對數(shù)的比重。絕對準確率和置信區(qū)間準確率越高,假陰性率和假陽性率越低,系譜推斷體系越準確。

      1.6 族群分析

      以千人基因組數(shù)據(jù)庫[13]樣本為參考數(shù)據(jù)集,利用全基因組SNP 分型,使用Plink v1.9 軟件進行PCA 分析,R 軟件繪制PCA 圖。提取實驗室前期研究的27AISNP 體系位點,使用DAA 軟件進行歐洲、非洲、東亞三大人群祖先來源推斷[14]。

      2 結(jié) 果

      2.1 測序質(zhì)量評估

      從3 份中國北方人群的靜脈血和標準品NA12878中獲得的4份DNA,分為4次樣本制備和測序,其中靜脈血樣本用于親緣關(guān)系推斷,標準品用于測序準確性評估。

      測序芯片F(xiàn)CL PE150屬于單線型泳道,滿載輸出約150 G fastq測序數(shù)據(jù)。表2中列出了芯片泳道的測序指標,其中每條泳道平均產(chǎn)生(642.65±25.63)百萬次讀數(shù),平均芯片利用率為73.69%,平均Q30 比率為90.50%,過濾后有效點占比ESR的均值為73.69%。MGISEQ-200RS 平臺與已發(fā)表的BGISEQ-500RS 平 臺[15]和MGISEQ-2000RS 平臺[16]測序質(zhì)量對比,平臺獲得相似的Q30值。測序平均Q30 為90.50%,能夠進行準確的基因組測序,是后續(xù)一致性和推斷準確性分析的數(shù)據(jù)基礎(chǔ)。

      Table 2 Run metrics for 4 runs in MGISEQ-200RS sequencing platform

      4 份測序樣本總計獲得2 612 M reads,比對到參考基因組hg19 的reads 為2 608 M,比對率為99.8%。平均比對質(zhì)量為54.18,去除重復序列后樣本深度在30×以上,基因組1×平均覆蓋率為91.60%。GC含量均在40%左右,與人類的基因組GC含量一致,說明測序過程堿基的偏好性低,且讀段覆蓋更均勻[17]。所有樣本的詳細測序和SNP覆蓋指標見表3。

      Fig.1 Coverage rate of various samples in different depths

      Table 3 Statistical table of bamQC parameters

      全基因組覆蓋率隨深度閾值的變化如圖1 所示,在1×至5×深度區(qū)間,隨著深度閾值的提升覆蓋率降低緩慢,但在大于5×區(qū)域下降快速。覆蓋率隨深度增加的變化趨勢在平均深度處達到最大。以平均深度為閾值,各樣本覆蓋率接近50%,說明各位點的測序深度集中在平均測序深度附近,但不可避免存在一部分位點深度較低及未檢測到的情況。不同深度與覆蓋率的關(guān)系反應了建庫片段回收的隨機性與高通量測序的隨機性。隨著平均測序深度的增加,數(shù)據(jù)量越大,冗余越多,隨機性會相應的降低。因此,平均深度30×的WGS,可獲得大量的系譜推斷SNP位點。

      從4 份測序數(shù)據(jù)中提取Wegene GSA 常染色體645 199個SNP位點,獲得1×及以上深度認為該位點被成功提取。NA12878、A、B、C 樣本成功提取的SNP 位點數(shù)目分別為:644 897、645 029、644 882、645 014個。對SNP位點進行測序深度統(tǒng)計(圖2),平均測序深度處SNP 位點數(shù)量達到峰值。

      Fig.2 Quantity distribution of SNP at different depths

      2.2 SNP位點分型一致性評估

      從千人基因組數(shù)據(jù)庫NA12878 的SNP 位點分型文件提取Wegene GSA常染色體645 199個位點,共獲得621 128 個SNP 位點。從33.6×NA12878 標準品測序數(shù)據(jù)中提取該621 128個SNP位點,用于SNP 分型準確性評估,成功提取出621 127 個SNP位點。

      33.6×未質(zhì)控標準品SNP 位點與1000G 數(shù)據(jù)庫[13]中NA12878的SNP位點進行一致性對比,一致率達99.62%,分型不一致位點2 365個。未質(zhì)控標準品分型為雜合子而千人數(shù)據(jù)分型為純合子的SNP 位點表現(xiàn)出位點分型的假陽性,假陽性位點589個。未質(zhì)控標準品測序分型為純合子而千人數(shù)據(jù)分型為雜合子的位點表現(xiàn)為雜合性丟失,為假陰性位點,共1 348 個。425 個SNP 位點表現(xiàn)為都為純合位點且不一致,3個SNP位點表現(xiàn)為雜合不一致。分別統(tǒng)計假陽性、假陰性、純合不一致和雜合不一致位點測序深度(depth,DP)及測序質(zhì)量值(genotype quality,GQ)(圖3)。

      Fig.3 Na12878 and 1000G inconsistent SNP mass distribution

      不一致位點中,假陰性與純合不一致位點主要集中于測序質(zhì)量值GQ較低的區(qū)域,為確保在較高檢出率的前提下獲得高一致率,以DP大于等于4,GQ大于等于10為閾值,對測序樣本進行質(zhì)控。質(zhì)控樣本的假陰性與純合不一致位點數(shù)減少明顯,假陽性位點數(shù)量卻沒有得到明顯改善(圖4)。假陽性位點存在的問題主要原因分為3點:a.文庫構(gòu)建過程中PCR 擴增錯誤;b.測序儀對位點熒光信號的錯誤判讀;c.千人基因組數(shù)據(jù)該位點測序深度較低導致的SNP 位點雜合性丟失。因此,提高質(zhì)控標準難以解決假陽性問題,并且可能造成大量分型正確位點的丟失。質(zhì)控后的雜合不一致位點并沒有被 過 濾 掉 , 33.6×NA12878 的 rs6686181、rs72781591、rs9270230 分型為AT、GT、CT,位點測序深度分別為11×、26×和53×,1000G數(shù)據(jù)中rs6686181、rs72781591、rs9270230 分型AG、AG、CA。rs72781591 位點的26×測序中18 次檢測到堿基G,2 次檢測到堿基A,6 次檢測到堿基T,rs9270230 位點出現(xiàn)了與rs72781591 一樣的情況,23 次檢測到堿基C,10 次檢測到堿基A,20 次檢測到堿基T。MGISEQ-200RS平臺采用紅綠雙色熒光激發(fā)系統(tǒng),堿基A能被紅綠雙色熒光激發(fā),堿基T僅被綠光激發(fā),堿基C僅被紅光激發(fā),堿基G不能被激發(fā),可能為MGISEQ-200RS 的雙色熒光激發(fā)系統(tǒng)在判讀該位點時綠光信號偏強,從而導致堿基A、G被錯誤認為堿基T。

      質(zhì)控過濾后,純合不一致和假陰性位點明顯減少,不一致位點減少超過50%,一致率得到提升,但同時導致檢出率的降低(表4)。提取率為深度大于等于1×的SNP位點個數(shù)在Wegene GSA芯片常染色SNP 位點集合的比重,檢出率指通過深度大于等于4×、QG 值大于等于10 指控條件的SNP 位點個數(shù)在Wegene GSA芯片常染色SNP位點集合的比重。

      Fig.4 Comparison of inconsistent loci in NA12878 after quality control

      Table 4 Consistency comparison parameter statistics

      從測序樣本中提取Wegene GSA 常染色體位點,各樣本進行GQ為10的質(zhì)控過濾,質(zhì)控后檢出率和一致率如表5。由于A、B 樣本僅有Wegene CGA 芯片分型數(shù)據(jù)做為對比。A、B 檢出率為99.34% 和99.28%,提 取Wegene GSA 和Wegene CGA 芯片交集位點500 753 個,一致率分別為99.84% 和99.90%。C 檢出率為99.36%,與其Wegene GSA 芯片分型進行對比,C 共有一致位點636 587個,一致率為99.62%。

      Table 5 Samples call rate after quality control

      2.3 SNP位點在染色體上分布情況

      質(zhì)控后,樣本A、B、C 高深度測序數(shù)據(jù)均獲得64 萬以上的位點分型數(shù)據(jù),位點在染色體上的分布如圖5,結(jié)果顯示各樣本與GSA芯片位點分布完全一致,較為均勻的分布于22 對常染色體上,局部區(qū)域特征上端粒區(qū)域SNP 分布略高于染色體中部區(qū)域,其中所有樣本6號染色體28Mb HLA區(qū)域SNP 分布密集。位點在染色體上分布情況,說明WGS不會導致染色體上某區(qū)域特異性檢測問題,并且滿足高密度SNP 系譜推斷技術(shù)位點在人類基因組中均勻分布的要求。

      2.4 親緣關(guān)系預測

      A、B、C均為平均深度30×測序數(shù)據(jù),與家系參考樣本W(wǎng)egene GSA芯片數(shù)據(jù)合并,進行親緣關(guān)系計算,將所有個體間預測的親緣關(guān)系等級與實際調(diào)查的親緣關(guān)系進行比較,評估親緣關(guān)系預測準確性。

      表6中展示了合并后數(shù)據(jù)進行IBS親緣關(guān)系預測的準確性,本文把8 級及8 級以上親緣定義為8th。從表中可以看出,1~4 級親緣關(guān)系的CIA 為100%。由于IBS 算法的局限性,隨著親緣關(guān)系等級的增加,預測準確率也隨之降低,5級置信區(qū)間準確率降為81.8%。5 級開始出現(xiàn)假陰性(FN),5級之后的親緣關(guān)系絕對準確率(AC)明顯下降。假陽性率(FP)為2.8%,將無關(guān)親緣預測為8 級親緣。30×測序數(shù)據(jù)使用IBS 算法能夠預測四級及以內(nèi)的親緣關(guān)系。

      Table 6 The evaluation of the accuracy of genetic relationship prediction by IBS

      表7中展示了合并后的數(shù)據(jù)進行IBD親緣關(guān)系預測的準確性。表中顯示,IBD算法預測1~5級親緣關(guān)系的置信區(qū)間準確率為100%,僅在預測8 級及以上關(guān)系對時出現(xiàn)假陰性,4級以上絕對準確率開始下降。假陽性率為2.8%,將無關(guān)親緣預測為8級親緣。因此,30×測序數(shù)據(jù)使用IBD 算法能夠用于7 級及以內(nèi)親緣關(guān)系預測,將7 級及以下親緣預測為有關(guān)系親緣的準確率為100%。圖6顯示,30×測序數(shù)據(jù)使用IBD算法獲得親緣關(guān)系對的共享IBD長度與芯片數(shù)據(jù)基本一致。

      Fig.6 Share IBD length distribution in kinship pairs

      Table 7 The evaluation of the accuracy of genetic relationship prediction by IBD

      經(jīng)t檢驗,30×測序數(shù)據(jù)獲得的IBD 片段長度與芯片數(shù)據(jù)對比,P值為0.93,遠大于0.05,無顯著差異。WGS數(shù)據(jù)可用于親緣關(guān)系預測(圖7)。

      2.5 族群推斷

      圖8顯示千人數(shù)據(jù)庫5大人群共2 504個個體與4個質(zhì)控測序樣本合并數(shù)據(jù)的主成分分析結(jié)果,左下為歐洲人群,左上為東亞人群,標準品NA12878 在參考數(shù)據(jù)中歐洲人群處聚集,趨于左下方。中國北方樣本A、B、C 與東亞人群聚集,都趨向于左上方。主成分分析結(jié)果與調(diào)查結(jié)果一致,在全基因組層面能夠區(qū)分出樣本的族群來源。

      Fig.7 t Test results

      Fig.8 Results of whole genome principal component analysis

      從WGS數(shù)據(jù)中提取4份樣本的27AISNP分型,4 個樣本的27SNP 位點與一代測序分型完全一致,準確率為100%。用該位點組合進行的族群推斷結(jié)果如圖9,主成分1 和主成分2 共解釋了總方差的62.27%,與全基因組主成分分析結(jié)果一致。表明能夠通過從WGS數(shù)據(jù)中提取特定位點集合的分型,準確預測出族群來源。

      Fig.9 27AISNP inference ancestry results

      3 討 論

      親緣個體之間擁有相同的且來自共同祖先的基因片段稱為IBD,隨著減數(shù)分裂次數(shù)增加,非同源染色體重組次數(shù)增加,所以親緣關(guān)系越遠,IBD越短。法醫(yī)SNP 系譜推斷就是基于此原理進行親緣關(guān)系的分析[9]。高密度SNP 數(shù)據(jù)是進行系譜推斷的基礎(chǔ)。在項目組前期研究中發(fā)現(xiàn),針對微量降解檢材,SNP芯片的檢出率較低[10]。而WGS對法醫(yī)中常見的微量降解檢材具有優(yōu)勢,能獲得較多的位點分型。國外有研究利用ThruPLEX?試劑盒針對僅50 pg 片段化DNA 構(gòu)建文庫,進而WGS 獲得SNP進行系譜推斷并破獲案件[18]。針對高度降解的毛干等檢材,WGS 也能檢測出大量SNP 分型數(shù)據(jù)用于法醫(yī)SNP系譜推斷[19]。目前,國內(nèi)尚無WGS技術(shù)用于法醫(yī)系譜案件的研究報道。因此,本研究在國產(chǎn)MGISEQ-200RS 平臺上構(gòu)建WGS 法醫(yī)SNP 系譜推斷體系,并對其位點分型準確性和預測準確性進行探討。

      本研究通過標準品的測序數(shù)據(jù)與千人基因組數(shù)據(jù)對比,A、B、C 與芯片數(shù)據(jù)對比,探討了高深度WGS 的一致性。以深度為4 質(zhì)量值為10 質(zhì)控過濾,在保證檢出率的條件下明顯降低假陰性和純合不一致位點數(shù)量,標準品質(zhì)控后檢出率為99.21%,一致率達99.84%,不一致率低于Tillmar等[18]預測的30×深度不一致率0.8%。提取率高于Bode Technologies 研 討 會 “Forensic Genealogy:Unlocking the Science of Genealogy”所研究的,血液WGS 起始量250~50 ng 提取率在97%~87%之間的范圍,較GSA 芯片的檢出率100%~95%低,但對極低起始量(1~0.25 ng)樣本,WGS 提取率的穩(wěn)定性遠高于GSA 芯片[9]。對來自3 個不同家系的3份樣本進行平均深度30×的WGS,與芯片分型數(shù)據(jù)對比,SNP 分型一致性達99.62%以上。有研究表明,高深度WGS 數(shù)據(jù)中假陰性位點集中在低深度位點部分,且低頻突變(0.5%5%的位點低[20],解釋了在設置質(zhì)控標準后假陰性位點減少的現(xiàn)象。值得注意的是,質(zhì)控標準過高可能導致一致性并沒有顯著提升,反而檢出率過低影響后續(xù)分析,因此需要依據(jù)數(shù)據(jù)的應用方向進行評估。質(zhì)控過濾后的SNP 位點與芯片的SNP 位點分布一致,WGS 不存在位點分型的特異性問題,在全基因組均勻分布適用于法醫(yī)高密度SNP 系譜推斷。

      目前,已有針對全基因組SNP 芯片數(shù)據(jù)預測親緣關(guān)系準確性的系統(tǒng)研究。起始量200 ng 的Illumina GSA芯片分型數(shù)據(jù)IBD算法預測7級親緣,準確性為74.6%[7]。Wgene GSA 芯片分型數(shù)據(jù)IBS算法預測4 級親緣,絕對準確性為68.0%,置信區(qū)間準確率為98.1%[6]。在2020 年,國外開始出現(xiàn)WGS 獲取積案中骨骼SNP 數(shù)據(jù)用于系譜推斷的報道,獲得平均深度32.3×共1 035 274個SNP,在第三方數(shù)據(jù)庫中得到IBD 大于10 cM 的36 個潛在親緣,但未能調(diào)查證實潛在親緣的真實性[18];WGS檢測陳舊血跡獲得60×數(shù)據(jù)共1 861 000 SNP 分型,在第三方數(shù)據(jù)庫檢索到共享IBD 為347 cM 的潛在親緣,通過偵查鎖定嫌疑人,利用STR 圖譜認定為作案人[21]。但除了上述WGS系譜推斷的個案報道,國內(nèi)外尚無在真實家系中研究不同等級親緣推斷準確性的系統(tǒng)研究。由于系譜推斷的結(jié)果將成為指導偵查方向的重要依據(jù),為避免造成方向錯誤和浪費警力,非常有必要針對該技術(shù)進行系統(tǒng)研究,評估預測結(jié)果準確性。通過本研究發(fā)現(xiàn),使用IBS算法,可用于1~4 級親緣關(guān)系的預測,4 級置信區(qū)間準確率達100%。4 級親緣推斷準確性較已有研究[6]稍高且無假陰性,可能是由于4 級關(guān)系對數(shù)量較少,預測不準確的小概率事件并沒有發(fā)生。使用IBD 算法,能夠?qū)?~7 級親緣進行預測,7 級及以內(nèi)親緣預測為有親緣的準確率達100%,假陰性為0%。IBD 算法對預測8 級親緣也具有一定的價值,即使在IBD片段長度不能達到預測分級的標準時,也可作為案件偵查的一個排查方向。經(jīng)t檢驗,30×測序結(jié)果與芯片預測結(jié)果無顯著差異,可用于法醫(yī)系譜推斷。

      本研究還探究了使用WGS 用于族群地域推斷的可行性,全基因組SNP 位點和提取AISNP 體系位點推斷結(jié)果均與調(diào)查結(jié)果一致,即WGS 法醫(yī)SNP 系譜推斷體系可用于DNA 供者的族群來源推斷。

      4 結(jié) 論

      基于國產(chǎn)測序平臺的WGS 獲取的SNP 位點組合與全基因組SNP 芯片的分型一致率高,可與全基因組SNP 芯片數(shù)據(jù)合并分析,進行準確的系譜推斷。此外,本研究使用的測序儀器、耗材和試劑均為國產(chǎn),數(shù)據(jù)安全性高,易于在法醫(yī)實驗室普及。下一步將繼續(xù)優(yōu)化體系性能,探索并建立不同測序深度的測序技術(shù)對微量降解檢材的檢測能力,以及不同等級親緣關(guān)系的預測性能。

      猜你喜歡
      系譜親緣法醫(yī)
      谷子近緣野生種的親緣關(guān)系及其利用研究
      作物學報(2022年2期)2022-11-06 12:11:02
      中國醫(yī)學科學院藥用植物研究所藥用植物親緣學研究中心
      《論風格》文本系譜與論爭
      蟲蟲法醫(yī)
      菊科藥用植物遺傳多樣性及親緣關(guān)系的ISSR分析
      小白菜種質(zhì)遺傳多樣性與親緣關(guān)系的SRAP 和SSR分析
      中國荷斯坦公牛系譜完整性研究
      中國奶牛(2017年2期)2017-03-22 02:04:46
      教你如何治好“遺傳病”
      環(huán)境法醫(yī)“捉兇”記
      AMDIS在法醫(yī)毒物分析中的應用
      黔西| 太谷县| 成安县| 靖安县| 无为县| 长岛县| 南阳市| 和政县| 永宁县| 韶关市| 拉萨市| 池州市| 吉安市| 怀远县| 焉耆| 平陆县| 密山市| 古交市| 邢台市| 龙门县| 崇信县| 滨州市| 前郭尔| 咸丰县| 司法| 河间市| 东方市| 泸州市| 保山市| 镇安县| 阿克| 英山县| 海盐县| 嘉善县| 岳阳市| 伊金霍洛旗| 龙泉市| 镇江市| 武强县| 蓝山县| 平罗县|