陶瑞旸,董新宇,陳安琪,呂葉輝,張素華,李成濤
1.司法鑒定科學(xué)研究院 上海市法醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室 司法部司法鑒定重點(diǎn)實(shí)驗(yàn)室 上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺(tái),上海 200063;2.上海健康醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院,上海201318
從Sanger測(cè)序到焦磷酸測(cè)序,快速DNA 測(cè)序方法的出現(xiàn)極大地推動(dòng)了生物學(xué)和醫(yī)學(xué)的研究和發(fā)展,隨著人們對(duì)低成本、高通量測(cè)序需求的與日俱增,大規(guī)模平行測(cè)序(massively parallel sequencing,MPS)技術(shù),也被稱為下一代測(cè)序或二代測(cè)序(next-generation sequencing,NGS)技術(shù),在迅速發(fā)展的同時(shí),其在測(cè)序速度、測(cè)序通量和讀取長(zhǎng)度方面均取得了巨大進(jìn)步[1]?,F(xiàn)今,MPS 技術(shù)已廣泛應(yīng)用于基礎(chǔ)醫(yī)學(xué)、臨床診斷、微生物組學(xué)和農(nóng)業(yè)基因組學(xué)等諸多研究領(lǐng)域,成為不可或缺的檢測(cè)方法[2-5]。在法醫(yī)遺傳學(xué)領(lǐng)域,MPS 技術(shù)也從十年前的“嶄露頭角”到目前的“略有所成”。隨著越來越多的法醫(yī)遺傳學(xué)實(shí)驗(yàn)室引入MPS 平臺(tái),應(yīng)用MPS技術(shù)檢測(cè)法醫(yī)學(xué)相關(guān)遺傳標(biāo)記、解決法醫(yī)科學(xué)問題的研究顯著增長(zhǎng)。正如在其他科學(xué)領(lǐng)域的應(yīng)用,MPS 技術(shù)可檢測(cè)單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)、插入/缺失(insertion/deletion,InDel)等分子遺傳標(biāo)記,同時(shí)也適用于法醫(yī)學(xué)經(jīng)典遺傳標(biāo)記,如線粒體DNA(mitochondrial DNA,mtDNA)控制區(qū)和短串聯(lián)重復(fù)序列(short tandem repeat,STR)的檢測(cè),更為線粒體全基因組測(cè)序、微單體型檢測(cè)等新型法醫(yī)學(xué)應(yīng)用提供了支持。2019 年9 月,在捷克布拉格召開的第28 屆國際法醫(yī)遺傳學(xué)大會(huì)所討論的法醫(yī)遺傳學(xué)研究熱點(diǎn),如遺傳標(biāo)記多態(tài)性檢測(cè)、表型推斷、混合樣本檢測(cè)、犯罪現(xiàn)場(chǎng)體液斑鑒定等,均有MPS技術(shù)的參與[6]。
STR 在法醫(yī)遺傳學(xué)中有著不可撼動(dòng)的地位,雖然目前毛細(xì)管電泳(capillary electrophoresis,CE)技術(shù)檢測(cè)STR 仍是法醫(yī)學(xué)應(yīng)用中的“金標(biāo)準(zhǔn)”,但是MPS 技術(shù)用于分析STR 的優(yōu)勢(shì)也吸引了法醫(yī)遺傳學(xué)領(lǐng)域?qū)W者們的廣泛關(guān)注。MPS 平臺(tái)的優(yōu)勢(shì)之一在于能夠在單個(gè)工作流程實(shí)現(xiàn)數(shù)百甚至數(shù)千種不同的DNA 遺傳標(biāo)記的并行檢測(cè),另外,其還能確定序列水平的遺傳變異。與傳統(tǒng)的CE 平臺(tái)相比,使用MPS 技術(shù)分析STR 標(biāo)記主要有以下幾大優(yōu)勢(shì):(1)可同時(shí)檢測(cè)的STR基因座數(shù)量增加;(2)可識(shí)別CE 平臺(tái)無法識(shí)別的STR等位基因序列多態(tài)性,提高STR 基因座的多態(tài)性,從而提高STR 基因座用于個(gè)體識(shí)別和親權(quán)鑒定的系統(tǒng)效能;(3)可并行檢測(cè)多個(gè)DNA 樣本。然而,在全球范圍法醫(yī)實(shí)驗(yàn)室日常工作中實(shí)現(xiàn)MPS 技術(shù)的普及之前,我們?nèi)孕杳鎸?duì)很多挑戰(zhàn)??上驳氖牵澜缍鄠€(gè)法醫(yī)DNA 科學(xué)學(xué)會(huì)、工作組,各種跨國研究項(xiàng)目以及提供MPS 技術(shù)的行業(yè),正在采取多項(xiàng)舉措來應(yīng)對(duì)這些挑戰(zhàn),對(duì)包括MPS 技術(shù)運(yùn)行成本較高,數(shù)據(jù)龐大、分析困難,缺乏統(tǒng)一的命名和報(bào)告標(biāo)準(zhǔn),以及與現(xiàn)有CESTR 數(shù)據(jù)庫相兼容等問題逐步提出建議,同時(shí)促進(jìn)各國實(shí)驗(yàn)室之間的交流,共同發(fā)展。
本文擬概述用于法醫(yī)遺傳學(xué)STR 分子標(biāo)記檢測(cè)的主流MPS 平臺(tái)和原理,回顧MPS 技術(shù)用于STR 檢測(cè)的策略和現(xiàn)狀,介紹針對(duì)STR 標(biāo)記的商品化MPS 檢測(cè)體系及其性能評(píng)估,應(yīng)用廣泛的MPS-STR 數(shù)據(jù)分析工具以及基于MPS-STR 的群體學(xué)調(diào)查研究,總結(jié)現(xiàn)階段世界范圍內(nèi)多個(gè)國際項(xiàng)目、法醫(yī)工作組等為促進(jìn)MPS 技術(shù)的法醫(yī)學(xué)應(yīng)用的各種舉措,討論將MPS技術(shù)應(yīng)用于STR 檢測(cè)所面臨的難題和建議,相信隨著技術(shù)的發(fā)展和研究的深入,MPS 技術(shù)在法醫(yī)遺傳學(xué)實(shí)踐中將發(fā)揮更大的作用。
2005 年瑞士Roche 公司推出的454 測(cè)序儀以焦磷酸測(cè)序原理為基礎(chǔ),開啟了高通量測(cè)序的新紀(jì)元。由于其讀長(zhǎng)長(zhǎng)、準(zhǔn)確性高,454 測(cè)序儀也是最早用于檢測(cè)法醫(yī)學(xué)STR 標(biāo)記的MPS平臺(tái)[7-8](2016年停止生產(chǎn))。目前法醫(yī)學(xué)領(lǐng)域應(yīng)用的主要為美國Thermo Fisher Scientific 公司和Illumina 公司提供的測(cè)序平臺(tái)。
自2010—2011 年推出第一臺(tái)半導(dǎo)體測(cè)序儀Ion PGMTM后,Thermo Fisher 公司以Ion TorrentTM技術(shù)為基礎(chǔ)不斷更新和提高其測(cè)序通量、測(cè)序速度和自動(dòng)化程度等,陸續(xù)推出Ion S5TM、Ion S5TMXL、Ion GeneStudio S5 系列測(cè)序平臺(tái),均適用于法醫(yī)學(xué)研究。以STR 標(biāo)記靶向測(cè)序?yàn)槔?,首先通過擴(kuò)增目標(biāo)STR 片段生成DNA 文庫,并添加條碼和連接接頭以區(qū)分樣本,經(jīng)乳液PCR 對(duì)純化的DNA 文庫進(jìn)行克隆擴(kuò)增;應(yīng)用Ion TorrentTM技術(shù)對(duì)每個(gè)擴(kuò)增子進(jìn)行平行測(cè)序,通過結(jié)合化學(xué)試劑和半導(dǎo)體技術(shù),將化學(xué)信號(hào)(A、C、G、T)轉(zhuǎn)換成數(shù)字信息,即將核苷酸按順序加入測(cè)序反應(yīng)中,每摻入1 個(gè)或多個(gè)核苷酸會(huì)釋放1 個(gè)或多個(gè)氫離子,該氫離子被半導(dǎo)體芯片上大規(guī)模并行的離子傳感器檢測(cè)到,輸出數(shù)字信息,實(shí)現(xiàn)高靈敏度的堿基檢測(cè)。該過程無修飾的核酸,無需化學(xué)級(jí)聯(lián)酶促反應(yīng),無需熒光、化學(xué)發(fā)光或復(fù)雜的光路系統(tǒng)。一般而言,半導(dǎo)體測(cè)序平臺(tái)的運(yùn)行時(shí)間相對(duì)較短,因?yàn)樾盘?hào)檢測(cè)為實(shí)時(shí)執(zhí)行,而非通過成像完成。但該技術(shù)由于對(duì)多聚核苷酸的檢測(cè)仍不夠完善,在檢測(cè)同一堿基連續(xù)出現(xiàn)時(shí)可能出現(xiàn)測(cè)序錯(cuò)誤[9]。
以上Ion TorrentTM半導(dǎo)體測(cè)序平臺(tái)均支持不同通量的半導(dǎo)體芯片,以最大的靈活性幫助研究人員配置MPS 實(shí)驗(yàn),兼容不同的測(cè)序需求。以最新的Ion GeneStudio S5 系列測(cè)序平臺(tái)為例,可根據(jù)需要選擇5 種芯片(Ion 510、520、530、540 及550)使測(cè)序數(shù)據(jù)通量范圍涵蓋500 Mb(1 張Ion 510 芯片)至50 Gb(Ion GeneStudioTMS5 Prime 系統(tǒng)聯(lián)合2 張Ion 550 芯片)[10]。此外,Ion ChefTM儀器的使用為測(cè)序之前自動(dòng)化的Ion AmpliSeqTM文庫制備和芯片加載提供了解決方案,極大簡(jiǎn)化了工作流程:手工操作時(shí)間短(15 min),節(jié)省精力和時(shí)間;每次運(yùn)行可自動(dòng)制備8 個(gè)文庫樣本或自動(dòng)加載兩張半導(dǎo)體芯片;降低手工加載芯片造成的不穩(wěn)定因素;可實(shí)現(xiàn)樣本追蹤并與Torrent Suite Software(TSS)[11]或?qū)嶒?yàn)室信息管理系統(tǒng)(laboratory information management system,LIMS)結(jié)合。
Thermo Fisher 公司的法醫(yī)學(xué)商品化試劑盒中,除Precision ID GlobalFilerTMNGS STR Panel 檢測(cè)常染色體STR(autosomal STR,A-STR)外,還包括檢測(cè)124 個(gè)SNP 的Precision ID Identity Panel[12]和165 個(gè)SNP 的Precision ID Ancestry Panel[13],分別用于個(gè)體識(shí)別和祖源推斷,以及檢測(cè)mtDNA 控制區(qū)和全序列的Precision ID mtDNA Control Region Panel[14]和Precision ID mtDNA Whole Genome Panel[15],均可在Ion PGMTM、Ion S5TM系列和Ion GeneStudio S5 系列測(cè)序平臺(tái)上進(jìn)行測(cè)序。然而由于Ion PGMTM平臺(tái)實(shí)驗(yàn)流程較為繁瑣,手動(dòng)操作時(shí)間長(zhǎng),已逐步淡出人們視野,Thermo Fisher 公司2017 年推出的Precision ID GlobalFilerTMNGS STR Panel v2 亦不再適用于Ion PGMTM平臺(tái)。
MiSeq FGxTMForensic Genomics System(簡(jiǎn)稱MiSeq FGx 測(cè)序平臺(tái))是Illumina 公司專用于法醫(yī)基因組學(xué)研究的MiSeq 測(cè)序平臺(tái),目前隸屬于美國Verogen 公司,聯(lián)合Verogen 公司的ForenSeqTMDNA Signature Prep 試劑盒與ForenSeqTMUniversal Analysis Software(USA 軟件)[16]共同完成從DNA 樣本到200 多個(gè)遺傳標(biāo)記測(cè)序數(shù)據(jù)產(chǎn)出并分析的完整流程。ForenSeqTMDNA Signature Prep 試劑盒推薦的DNA輸入量為1 ng,其文庫生成包括兩步擴(kuò)增,通過第一步PCR 擴(kuò)增目標(biāo)STR 和SNP,第二步擴(kuò)增連接接頭和唯一索引。加入的接頭序列與芯片流動(dòng)池表面固定的寡核苷酸互補(bǔ),促使文庫與流動(dòng)池結(jié)合以進(jìn)行橋式擴(kuò)增;索引用于標(biāo)記某一特定DNA 樣本,在一次運(yùn)行中可平行檢測(cè)96 個(gè)樣本。每次運(yùn)行可檢測(cè)的樣本數(shù)目由預(yù)期達(dá)到的測(cè)序深度和芯片通量共同決定,如應(yīng)用ForenSeqTMDNA Signature Prep 試劑盒的標(biāo)準(zhǔn)芯片同時(shí)檢測(cè)80 個(gè)DNA 文庫樣本,A-STR 的平均測(cè)序深度達(dá)1 800×以上。在測(cè)序之前,將各DNA 文庫樣本混合、變性,并加載到測(cè)序試劑盒中[17]。橋式擴(kuò)增能夠以附著于流動(dòng)池表面的純化文庫為模板,產(chǎn)生數(shù)百萬的單個(gè)DNA 片段克隆簇;通過加入帶有熒光基團(tuán)的可逆終止子標(biāo)記的脫氧核苷三磷酸(deoxynucleoside triphosphate,dNTP)進(jìn)行讀取,接著切割終止子以允許下一個(gè)堿基的加入,不斷循環(huán)上述過程從而完成邊合成邊測(cè)序(sequencing-by-synthesis,SBS)。每個(gè)測(cè)序循環(huán)中,4 種dNTP 均存在且濃度相同,通過自然競(jìng)爭(zhēng),最大程度地減少錯(cuò)誤摻入的風(fēng)險(xiǎn),有效將摻入偏差降至最低[18-19]。由于該過程中的堿基識(shí)別是通過直接測(cè)量信號(hào)強(qiáng)度實(shí)現(xiàn),因此與其他MPS 方法相比,原始錯(cuò)誤率大大降低[20-22]。在測(cè)序過程中,隨著熒光信號(hào)的減弱,序列后端的堿基準(zhǔn)確性會(huì)受到一定程度影響,成為限制該測(cè)序平臺(tái)讀取長(zhǎng)度的主要原因。目前,F(xiàn)orenSeqTMDNA Signature Prep 試劑盒聯(lián)合MiSeq FGx 測(cè)序平臺(tái)可用于398 bp 長(zhǎng)度內(nèi)DNA文庫的測(cè)序。
目前MiSeq FGx 測(cè)序平臺(tái)上另有商品化試劑盒ForenSeqTMmtDNA Whole Genome 試劑盒[23]和ForenSeqTMmtDNA Control Region試劑盒[24]分別用于檢測(cè)線粒體DNA 全序列和控制區(qū)。此外,美國Promega公司基于MiSeq 測(cè)序平臺(tái)(美國Illumina 公司)推出其PowerSeqTM系列MPS 試劑盒[25],用于檢測(cè)法醫(yī)學(xué)常用STR 基因座和(或)線粒體DNA 控制區(qū)。HiSeq X、HiSeq 2500 和NextSeq 500 測(cè)序平臺(tái)(美國Illumina公司)也應(yīng)用于法醫(yī)學(xué)研究,包括進(jìn)行全基因組測(cè)序以甄別同卵雙生子[26]、獲取單個(gè)細(xì)胞DNA 的法醫(yī)學(xué)遺傳信息[27]、獲得遺骸的基因組全測(cè)數(shù)據(jù)進(jìn)行家系搜索[27],也用于檢測(cè)新型法醫(yī)學(xué)遺傳標(biāo)記[28]及開展法醫(yī)微生物學(xué)研究[29]等。此外,由華大基因推出的國產(chǎn)測(cè)序 儀 如DNBSEQ-T7、MGISEQ-2000 和MGISEQ-200等以DNA 納米球測(cè)序技術(shù)(DNBSEQTM)為核心,性能良好,數(shù)據(jù)輸出準(zhǔn)確性高,目前主要應(yīng)用于分子生物學(xué)、醫(yī)學(xué)領(lǐng)域,今后或可應(yīng)用于法醫(yī)學(xué)領(lǐng)域。
2013年,Thermo Fisher公司推出了基于Ion PGMTM測(cè)序平臺(tái)的第一個(gè)STR 檢測(cè)體系Ion TorrentTMHID STR 10-plex[30]。應(yīng)用Ion AmpliSeqTM技術(shù)構(gòu)建DNA文庫,半導(dǎo)體測(cè)序技術(shù)進(jìn)行正反向測(cè)序并使用TSS 中的插件分析序列數(shù)據(jù)。該體系與Ion PGMTM測(cè)序平臺(tái)的結(jié)合為MPS-STR 檢測(cè)提供了從PCR 到數(shù)據(jù)分析的首個(gè)集成化解決方案,能夠同時(shí)檢測(cè)CSF1PO、D16S539、D3S1358、D5S818、D7S820、D8S1179、TH01、TPOX、vWA和Amelogenin10 個(gè)遺傳標(biāo)記。隨后,仍基于Ion PGMTM測(cè)序平臺(tái),Early Access STR Kit v1[31]和Precision ID GlobalFilerTMNGS STR Panel[32]于2015 年和2016 年相繼問世,分別用于檢測(cè)24 個(gè)和30 個(gè)STR基因座。2018 年Thermo Fisher 公司推出的Precision ID GlobalFilerTMNGS STR Panel v2 能夠同時(shí)檢測(cè)20 個(gè)擴(kuò)展聯(lián)合DNA 檢索系統(tǒng)(combined DNA index system,CODIS)核心STR基因座、11個(gè)non-CODIS STR基因座以及4 個(gè)性別相關(guān)遺傳標(biāo)記。筆者所在的實(shí)驗(yàn)室對(duì)該體系進(jìn)行了初步驗(yàn)證研究[33],包括其重復(fù)性、結(jié)果一致性、靈敏度、stutter 比例、基因座均衡性、混合物檢測(cè)等。結(jié)果證實(shí):除Penta D的平均覆蓋深度較低(377×)外,其余基因座均表現(xiàn)良好,平均覆蓋深度為3 946×,可獲得可靠、一致性結(jié)果;當(dāng)DNA 輸入量≥62.5 pg 時(shí),使用該體系可獲得完整的STR 分型圖譜;混合物中次要貢獻(xiàn)者比例大于25%時(shí),可獲得其完整STR 分型;該體系可用于血痕、指甲、毛發(fā)等常見法醫(yī)學(xué)檢材的檢測(cè);使用該體系對(duì)50 個(gè)無關(guān)個(gè)體進(jìn)行檢測(cè),成功獲得序列多態(tài)性等位基因及STR 側(cè)翼區(qū)域序列變異信息等。此外,該體系文庫構(gòu)建和芯片加載步驟均可在自動(dòng)化操作平臺(tái)Ion ChefTM上進(jìn)行,整個(gè)實(shí)驗(yàn)過程自動(dòng)化程度高,人工處理時(shí)間顯著縮短,有助于該體系在法醫(yī)學(xué)實(shí)踐中的應(yīng)用。2019 年,Thermo Fisher 公司發(fā)布了將Precision ID STR 和SNP體系(共324 個(gè)遺傳標(biāo)記)共同檢測(cè)的MPS 實(shí)驗(yàn)流程[34],結(jié)果證實(shí),當(dāng)DNA 輸入量為1 ng、使用1 張Ion 530 芯片檢測(cè)12 個(gè)參考樣本時(shí),可獲得完整、準(zhǔn)確的測(cè)序結(jié)果,該共檢測(cè)流程仍需進(jìn)一步研究以驗(yàn)證其性能。
2014 年,基于MiSeq 測(cè)序平臺(tái),美國Promega 公司推出其MPS-STR 體系的第一個(gè)版本[35],涵蓋全部13 個(gè)CODIS STR基因座、4 個(gè)non-CODIS STR 基因座以及Amelogenin遺傳標(biāo)記。在此基礎(chǔ)上,又陸續(xù)推出PowerSeqTMAuto System、PowerSeqTMAuto/Y System和PowerSeqTMAuto/Mito/Y System[25]。其中PowerSeqTMAuto System包括22 個(gè)A-STR基因座、2個(gè)性別相關(guān)遺傳標(biāo)記(Amelogenin和DYS391),評(píng)估實(shí)驗(yàn)證實(shí)其可輸出穩(wěn)定的一致性結(jié)果,使用62 pg 單一來源DNA 可獲得完整基因型結(jié)果,混合物中次要貢獻(xiàn)者比例大于5%時(shí)可檢測(cè)到其部分基因分型,且該體系成功應(yīng)用于模擬法醫(yī)學(xué)案例樣本的檢測(cè)[36]。2017 年P(guān)romega 公司推出的Auto/Y System,不僅在前者基礎(chǔ)上新加入22 個(gè)Y 染色體STR(Y-chromosome STR,Y-STR)基因座,還對(duì)樣本處理過程進(jìn)行了優(yōu)化,用于減少污染概率或人為失誤事件,提高了實(shí)驗(yàn)效率,同時(shí)亦能保證測(cè)序覆蓋率、結(jié)果一致性、靈敏度等原始數(shù)據(jù)質(zhì)量[37]。而Auto/Mito/Y Panel[25]則 將Auto/Y System 與覆蓋線粒體控制區(qū)的10 個(gè)亞區(qū)(F109、F220、F317、F402、F15989、F16094、F16197、F16363、F16450 和F16533)進(jìn)行結(jié)合,目前未見其他實(shí)驗(yàn)室評(píng)估結(jié)果。
2016 年,CHURCHILL 等[38]對(duì)測(cè)試版ForenSeqTMDNA Signature Prep 試劑盒進(jìn)行系統(tǒng)性評(píng)估,該試劑盒可基于MiSeq 測(cè)序平臺(tái)對(duì)63 個(gè)STR 基因座、95 個(gè)常染色體身份信息SNP(identity informative SNP,iiSNP)進(jìn)行擴(kuò)增和測(cè)序,另外可選擇檢測(cè)其他56 個(gè)祖先信息SNP(ancestry informative SNP,aiSNP)及22 個(gè)表型信息SNP(phenotype informative SNP,piSNP)。結(jié)果表明,該測(cè)試版試劑盒能夠產(chǎn)生可靠且可重復(fù)的測(cè)序結(jié)果,以1 ng DNA 獲得完整分型圖譜,可解析次要貢獻(xiàn)者占5%及以上的混合樣本,并且具有檢測(cè)疑難檢材的能力;僅個(gè)別基因座表現(xiàn)欠佳,該試劑盒可成為法醫(yī)學(xué)DNA 分型的有效工具。隨后,通過改進(jìn)并剔除不佳基因座,商品化試劑盒ForenSeqTMDNA Signature Prep 試劑盒的引物混合液A 中最終包含58 個(gè)STR基因座[27 個(gè)A-STR、7個(gè)X染色體STR(Xchromosome STR,X-STR)、24個(gè)Y-STR]和94個(gè)iiSNP,引物混合液B 另包含56 個(gè)aiSNP 及22 個(gè)piSNP。GUO等[39]針對(duì)該試劑盒的研究發(fā)現(xiàn):獲得完整STR 基因座分型圖譜需輸入DNA 不低于100 pg,而對(duì)于SNP,DNA 輸入量需不低于200 pg;次要貢獻(xiàn)者占5%及以上的樣本可被識(shí)別為混合物,占10%以上可獲得次要貢獻(xiàn)者的完整基因分型;該試劑盒可耐受一定濃度的PCR 抑制劑,如≤200 μmol/L 血紅素和≤50 μg/mL 腐殖酸,亦適用于法醫(yī)學(xué)案例樣本和一定程度的降解樣本(≥200 bp 的降解樣品中可獲得56%以上STR 分型結(jié)果和88%以上SNP分型結(jié)果)。總體而言,經(jīng)多個(gè)實(shí)驗(yàn)室及法醫(yī)研究者的驗(yàn)證和評(píng)估,F(xiàn)orenSeqTMDNA Signature Prep 試劑盒與MiSeq FGx 測(cè)序平臺(tái)和UAS軟件結(jié)合的工作流程性能良好、表現(xiàn)穩(wěn)定、結(jié)果可靠、重復(fù)性好且所得信息量豐富,可滿足法醫(yī)遺傳學(xué)中個(gè)體識(shí)別、親權(quán)鑒定等應(yīng)用要求[40-43]。
除商業(yè)化MPS-STR 檢測(cè)體系外,一些國內(nèi)外法醫(yī)實(shí)驗(yàn)室亦自主構(gòu)建了包含常用STR 標(biāo)記的MPS 體系。如基于Ion PGMTM測(cè)序平臺(tái)檢測(cè)10 個(gè)A-STR[44]和13 個(gè)Y-STR[45]的體系,基于MiSeq 系列測(cè)序平臺(tái)檢測(cè)23 個(gè)A-STR[46]和23 個(gè)Y-STR[47]的體系等,這些體系所得結(jié)果與CE 分型結(jié)果相比均具有高度一致性。KIM 等[46]構(gòu)建的體系中,擴(kuò)增子長(zhǎng)度短于常用商業(yè)化MPS-STR 及CE-STR 體系,該特性有助于提高降解DNA 分型的成功率;該體系采用與ForenSeqTMDNA Signature Prep 試劑盒中類似的文庫標(biāo)記方法,與adapter 連接方法相比,可縮短實(shí)驗(yàn)操作時(shí)間。這些自主研發(fā)體系目前主要用于群體遺傳學(xué)研究。
一般而言,MPS-STR 測(cè)序數(shù)據(jù)分析主要包括3 個(gè)步驟:獲得原始數(shù)據(jù),與參考基因組對(duì)比,檢出等位基因。大多數(shù)法醫(yī)實(shí)驗(yàn)室使用2.1 節(jié)提及的公司提供的相應(yīng)分析軟件進(jìn)行MPS-STR 數(shù)據(jù)分析,如Thermo Fisher公司的TSS[11]和Converge 軟 件[48],Illumina 公司的UAS軟件[16]。這些軟件可顯示包括質(zhì)量控制參數(shù)、測(cè)序讀長(zhǎng)及序列對(duì)比等在內(nèi)的基本信息,并提供測(cè)序數(shù)據(jù)標(biāo)準(zhǔn)輸出文件,如BAM 文件(基因數(shù)據(jù)分析中通用的比對(duì)數(shù)據(jù)存儲(chǔ)格式)或FASTQ 文件(保存生物序列及其測(cè)序質(zhì)量得分信息的數(shù)據(jù)格式),可用于其他數(shù)據(jù)分析流程或軟件。
Converge 軟件可用于分析來自Precision ID GlobalFilerTMNGS STR Panel v2、Precision ID mtDNA Control Region Panel、Precision ID mtDNA Whole Genome Panel、Precision ID Identity Panel、Precision ID Ancestry Panel 以及其他定制的Ion AmpliSeqTMSNP系統(tǒng)的MPS 數(shù)據(jù)。分析STR 時(shí),其結(jié)果包括STR 等位基因檢出、基因分型、側(cè)翼區(qū)域SNP 信息(附圖1A)以及亞型雜合基因型(具有相同片段長(zhǎng)度但顯示不同序列的等位基因)的信息。通過與CE 平臺(tái)常用的GeneMapperTMID-X軟件(美國Applied Biosystems 公司)相似的界面,操作者可使用熟悉的等位基因、offladder(OL)峰等指標(biāo),并根據(jù)需要修改預(yù)配置的分析設(shè)置。此外,Converge 軟件通過將NGS 數(shù)據(jù)分析模塊與“案例管理”應(yīng)用程序一起使用,可簡(jiǎn)化NGS 和CE配置文件的比較;Converge 軟件的親緣/親子關(guān)系模塊可與GeneMapperTMID-X軟件集成在一起,幫助實(shí)現(xiàn)自動(dòng)化親子關(guān)系和其他親緣關(guān)系分析,并進(jìn)行遺傳似然率(likelihood ratio,LR)計(jì)算。該軟件可進(jìn)行額外配置以滿足特定的實(shí)驗(yàn)室工作流程、標(biāo)準(zhǔn)作業(yè)程序(standard operating procedure,SOP)和分析參數(shù),還可使用內(nèi)置于Converge 軟件的插件,將其集成到現(xiàn)有的LIMS 中,提高法醫(yī)實(shí)驗(yàn)室的數(shù)據(jù)處理效率。
UAS 軟件安裝在一個(gè)獨(dú)立的服務(wù)器上,從測(cè)序運(yùn)行設(shè)置到樣本數(shù)據(jù)進(jìn)入最終的數(shù)據(jù)分析和報(bào)告生成階段,控制整個(gè)測(cè)序流程,能夠?qū)\(yùn)行指標(biāo)和樣本質(zhì)量進(jìn)行整體評(píng)估,實(shí)現(xiàn)同時(shí)針對(duì)200 多個(gè)法醫(yī)學(xué)相關(guān)STR 和SNP 進(jìn)行最終數(shù)據(jù)分析,包括多重基因座分離、序列比對(duì)、等位基因檢出、基因分型和報(bào)告輸出。此外,UAS 軟件具有靈敏的質(zhì)量控制指標(biāo)、自動(dòng)樣本比較及群體參數(shù)統(tǒng)計(jì)的功能,有助于進(jìn)行數(shù)據(jù)審查和其他下游分析,還可依據(jù)世界主要人種的群體數(shù)據(jù),以主成分分析(principal component analysis,PCA)圖的方式呈現(xiàn)基于aiSNP 的祖源推斷結(jié)果等。然而該軟件有兩個(gè)主要的缺點(diǎn):(1)以具體堿基序列輸出STR 結(jié)果(如ATCGATCG),而非重復(fù)結(jié)構(gòu)和重復(fù)次數(shù)(如[ATCT]2),難以統(tǒng)計(jì);(2)界面未顯示STR 側(cè)翼區(qū)域信息,雖可導(dǎo)出側(cè)翼區(qū)域報(bào)告,但針對(duì)序列變異只顯示不同顏色而不輸出變異的位置、rs 編號(hào)等信息(附圖1B),這對(duì)于復(fù)雜親緣關(guān)系和混合物的分析十分重要。
Converge 軟件和UAS 軟件僅用于分析其特定的MPS-STR 體系,若法醫(yī)工作者自主構(gòu)建MPS-STR 體系,則可使用STRinNGS、STRait Razor 及FDSTools 等工具進(jìn)行數(shù)據(jù)分析。其中,STRinNGS 的更新版本STRinNGS v2.0 是一個(gè)集成的python 腳本,其Docker鏡像或zip 文件可供下載使用[49]。STRinNGS v2.0 用于預(yù)測(cè)基因型的指標(biāo)涉及測(cè)序深度、背景噪聲、側(cè)翼區(qū)域長(zhǎng)度以及側(cè)翼區(qū)域中的堿基錯(cuò)配、基因座平衡和雜合子均衡性等。其結(jié)果表中,另以“Warning flags”突出顯示可疑基因型或未被識(shí)別為等位基因(或噪聲)的可疑序列,提示可能需手動(dòng)分析。STRinNGS v2.0分析STR 及側(cè)翼區(qū)域,根據(jù)STRidER 數(shù)據(jù)庫最新指南(https://strider.online/nomenclature)命名等位基因,包括側(cè)翼區(qū)域的變異。此外,STRinNGS v2.0 還可生成可直接上傳STRidER 數(shù)據(jù)庫的數(shù)據(jù)文件格式,提高工作效率。附表1 總結(jié)了近年來用于MPS-STR 數(shù)據(jù)分析的軟件[50-60]。
國際法醫(yī)遺傳學(xué)會(huì)(International Society for Forensic Genetics,ISFG)DNA委員會(huì)于2016年發(fā)布了法醫(yī)學(xué)MPS-STR 序列結(jié)構(gòu)指南[61],后更新于2018 年[62]。2017 年,F(xiàn)orensic Science International:Genetics期刊就MPS 產(chǎn)生的群體遺傳學(xué)STR 數(shù)據(jù)作出建議[63],包括:(1)最少需50 例無關(guān)個(gè)體數(shù)據(jù);(2)需上傳含有序列全部信息的FASTA 格式文件,依據(jù)ISFG 最新標(biāo)準(zhǔn)進(jìn)行命名;(3)不允許等位基因漏檢(dropout);(4)需提交STRidER 數(shù)據(jù)庫(https://strider.online/)得到質(zhì)量控制結(jié)果等。
美國國家標(biāo)準(zhǔn)與技術(shù)研究院(National Institute of Standards and Technology,NIST)與美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)聯(lián)合啟動(dòng)了STR 測(cè)序計(jì)劃(STRSeq[64],https://www.ncbi.nlm.nih.gov/bioproject/380127),研究和儲(chǔ)存基于序列特異性的STR 等位基因,用于法醫(yī)學(xué)個(gè)體識(shí)別。STRSeq 項(xiàng)目中的初始數(shù)據(jù)來自4 個(gè)國際實(shí)驗(yàn)室4 612 個(gè)個(gè)體[NIST(n=1 786)、倫敦國王學(xué)院(n=1 043)、北得克薩斯州大學(xué)健康科學(xué)中心(n=839)和圣地亞哥德孔波斯特拉大學(xué)(n=944)]的靶向測(cè)序所觀察到的等位基因匯總。STRSeq 數(shù)據(jù)在NCBI 中擁有與GenBank 記錄穩(wěn)定鏈接的STR 序列目錄,每個(gè)等位基因包含STR 重復(fù)區(qū)域完整序列、STR 重復(fù)區(qū)域的位置、側(cè)翼區(qū)域堿基突變的位置和rs 編號(hào)(來自dbSNP 數(shù)據(jù)庫)、測(cè)序數(shù)據(jù)質(zhì)量、相應(yīng)的長(zhǎng)度特異性等位基因等。這些數(shù)據(jù)經(jīng)NCBI 中的BioProject 管理分為A-STR、備用A-STR、Y-STR 和X-STR,可通過瀏覽器搜索、BLAST 搜索或ftp 下載訪問。STRSeq 項(xiàng)目為進(jìn)行MPS-STR 人群樣本研究的實(shí)驗(yàn)室提供了新觀察到序列特異性等位基因的上傳和交流途徑。
其中,圣地亞哥德孔波斯特拉大學(xué)的PHILLIPS等[65]應(yīng)用ForenSeqTMDNA Signature Prep 試劑盒和MiSeq FGx 測(cè)序平臺(tái)對(duì)人類多態(tài)性研究中心(Centre d’Etude du Polymorphisme Humain,CEPH)的人類基因組多樣性計(jì)劃(Human Genome Diversity Project,HGDP)中944 個(gè)個(gè)體進(jìn)行了測(cè)序研究,這批樣本來自世界范圍內(nèi)51 個(gè)不同人群。該研究詳細(xì)報(bào)告了ForenSeqTMDNA Signature Prep試劑盒中58個(gè)STR基因座內(nèi)部的序列變異;依據(jù)人類參考基因組GRCh38進(jìn)行STR 重復(fù)區(qū)域結(jié)構(gòu)標(biāo)識(shí),對(duì)其輸出的20 個(gè)STR基因座,需先獲得其反向互補(bǔ)序列并重新對(duì)比參考基因組;序列特異性所帶來的等位基因數(shù)目和雜合基因型數(shù)目的增長(zhǎng)特別表現(xiàn)在D12S391、D21S11、D2S1338、D3S1138、D9S1122、DXS10135、DYS389Ⅰ/Ⅱ和DYF387S1基因座。由于少數(shù)特殊的序列變異僅發(fā)生在個(gè)別樣本中,就HGDP-CEPH 中的樣本量而言,無法對(duì)該低頻率STR 等位基因作出可靠判斷,因此,仍建議擴(kuò)大MPS 平臺(tái)檢測(cè)STR 的樣本量規(guī)模。此外,PHILLIPS 等也指出:該檢測(cè)體系包含1 個(gè)高度多態(tài)性STR 基因座SE33,但UAS 軟件并不輸出其測(cè)序結(jié)果;DYS460和DYS461均包含在檢測(cè)體系中,但只輸出DYS460的結(jié)果;建議輸出一些位于側(cè)翼區(qū)域多態(tài)性較高的SNP(如rs4847015、rs25768、rs16887642、rs11642858),并注意與特定STR 等位基因連鎖遺傳的側(cè)翼SNP 等。
附表2 總結(jié)了近年來國內(nèi)外學(xué)者基于MPS-STR數(shù)據(jù)所展開的群體遺傳學(xué)調(diào)查研究[32-33,42,44-47,66-86],在世界不同人群中檢測(cè)得到大量新的STR序列多態(tài)性等位基因(STR 重復(fù)區(qū)域內(nèi)和側(cè)翼區(qū)域的變異),可顯著提高這些法醫(yī)相關(guān)STR 基因座的識(shí)別能力和系統(tǒng)效能,對(duì)各群體中個(gè)體識(shí)別和親權(quán)鑒定等法醫(yī)學(xué)應(yīng)用具有重要意義。眾所周知,CE技術(shù)檢測(cè)STR標(biāo)記自20世紀(jì)90年代以來開始應(yīng)用于法醫(yī)日常工作[87],經(jīng)過30年的積累,世界不同人群幾乎均有相應(yīng)的CE-STR 群體遺傳學(xué)數(shù)據(jù),我國數(shù)據(jù)庫中亦儲(chǔ)存有大量CE-STR 數(shù)據(jù)可應(yīng)用于法醫(yī)學(xué)實(shí)踐。MPS 技術(shù)自2010 年用于法醫(yī)STR檢測(cè),其成熟應(yīng)用需要時(shí)間和實(shí)踐,只要越來越多的實(shí)驗(yàn)室應(yīng)用MPS 技術(shù)檢測(cè)DNA 樣本,收集MPSSTR 數(shù)據(jù),就能逐漸建立起信息量更為豐富的MPSSTR 數(shù)據(jù)庫。
將MPS 技術(shù)應(yīng)用于法醫(yī)學(xué)實(shí)踐,需實(shí)現(xiàn)數(shù)據(jù)比對(duì)和共享,就每個(gè)STR 基因座的等位基因命名和注釋而言,需采用國際化的統(tǒng)一標(biāo)準(zhǔn)化框架。所用命名法一方面應(yīng)與各國家DNA 數(shù)據(jù)庫和人群調(diào)查數(shù)據(jù)庫中使用的基于CE 平臺(tái)的STR 命名法相兼容,另一方面應(yīng)包括MPS 所檢測(cè)到的所有STR 相關(guān)序列變異(STR重復(fù)區(qū)和側(cè)翼區(qū)),并允許不同法醫(yī)實(shí)驗(yàn)室和數(shù)據(jù)庫之間互相檢索和查閱。就MPS-STR 數(shù)據(jù)標(biāo)準(zhǔn)化命名,ISFG 的DNA 委員會(huì)從序列信息、與參考基因組的對(duì)比和等位基因注釋3 個(gè)不同水平提出了初步建議:
(1)進(jìn)行MPS 分析時(shí)應(yīng)輸出STR 序列,并將其以文本形式保存于數(shù)據(jù)庫中,以獲得最大程度的有效信息。
(2)應(yīng)用DNA 正鏈進(jìn)行序列與參考基因組的比對(duì)。
(3)參考基因組GRCh38 或GRCh37 的選擇對(duì)于標(biāo)準(zhǔn)化STR 命名至關(guān)重要。目前,建議使用新版本GRCh38 進(jìn)行序列比對(duì)、定義STR 重復(fù)區(qū)域及輸出堿基變異(如SNP)。
(4)對(duì)于目前以DNA 反鏈定義STR 重復(fù)區(qū)域的基因座,需要重新以正鏈定義,嚴(yán)格明確其起止位置基因組坐標(biāo)。
(5)今后可能會(huì)采用更簡(jiǎn)易的MPS-STR 命名系統(tǒng)以達(dá)到溝通和數(shù)據(jù)交流的目的,為確保當(dāng)前MPSSTR 數(shù)據(jù)能為將來所用,現(xiàn)階段依然建議采用全面、完整的命名法?;赟TR 序列信息將其命名為CE 中相應(yīng)的依據(jù)片段長(zhǎng)度的、描述重復(fù)次數(shù)的命名,即與CE 片段長(zhǎng)度命名法相兼容,同時(shí)記錄STR 序列信息,包括側(cè)翼序列及其起止位置基因組坐標(biāo),如D13S317[CE12]-Chr13-GRCh38 82148025-82148068 [TATC]1282148001-A;82148069-T。
(6)使等位基因頻率數(shù)據(jù)庫保持更新,以充分發(fā)揮MPS-STR 數(shù)據(jù)帶來的更高的識(shí)別能力。
(7)未來法醫(yī)學(xué)應(yīng)用的MPS-STR 多重檢測(cè)體系應(yīng)保留現(xiàn)有遺傳標(biāo)記以實(shí)現(xiàn)數(shù)據(jù)對(duì)接,同時(shí)依據(jù)群體學(xué)、分子生物學(xué)、法醫(yī)學(xué)研究者與生物公司之間的數(shù)據(jù)共享進(jìn)行更多遺傳標(biāo)記的篩選。
(8)仍需努力確立統(tǒng)一的命名標(biāo)準(zhǔn)體系,實(shí)現(xiàn)全球人口數(shù)據(jù)庫的兼容性。
ISFG DNA 委員會(huì)在2016 年的法醫(yī)學(xué)MPS-STR命名規(guī)則[61]中特別提到,以DNA 反鏈進(jìn)行基因組序列比對(duì)的23 個(gè)STR 基因座,轉(zhuǎn)換為正鏈后,其中17 個(gè)存在潛在移碼現(xiàn)象,并以D19S433、DYS389Ⅰ/Ⅱ和DYS385a/b基因座為例,詳述了該情況。目前MPS 數(shù)據(jù)分析軟件,如Converge v2.0,即應(yīng)用該23 個(gè)STR 的反鏈進(jìn)行對(duì)比,以保持與CE-STR 的長(zhǎng)度分析結(jié)果相兼容。文中另以D18S51、D13S317和D19S433為例,說明了MPS 生成的詳細(xì)序列信息在某些情況下也為描述既定的STR 重復(fù)基序帶來了潛在困難。此外,文中還提供了法醫(yī)學(xué)常用35 個(gè)A-STR、29 個(gè)Y-STR 和7 個(gè)X-STR 的STR 重復(fù)區(qū)及側(cè)翼區(qū)(上、下游各50 bp)人類基因組參考序列(正鏈,GRCh37 和GRCh38 坐標(biāo))等信息。2018 年,PHILLIPS 等[62]對(duì)2016 年的版本[61]進(jìn)行了修訂和擴(kuò)展,現(xiàn)共包括71 個(gè)A-STR、48 個(gè)Y-STR 和14 個(gè)X-STR 的上述信息及各自上、下游100 bp 的側(cè)翼序列。目前,該STR 序列結(jié)構(gòu)文件作為法醫(yī)遺傳學(xué)中進(jìn)行MPS-STR 分析的最新參考標(biāo)準(zhǔn),可在STRider 網(wǎng)站(https://strider.online/nomenclature)下載使用。
STR 標(biāo)記的CE 基因分型文件主要包括樣本編號(hào)、基因座名稱和基因分型,也可添加峰高、所用STR試劑盒等額外信息。針對(duì)CE-STR 的等位基因,全球公認(rèn)且統(tǒng)一為基于長(zhǎng)度多態(tài)性進(jìn)行命名,各法醫(yī)實(shí)驗(yàn)室及STR 試劑盒生產(chǎn)公司均以此為標(biāo)準(zhǔn)。對(duì)于MPSSTR,盡管ISFG DNA 委員會(huì)的專家學(xué)者提出了一些建議和舉措[61-62],但仍未有統(tǒng)一標(biāo)準(zhǔn)的測(cè)序平臺(tái)和命名準(zhǔn)則。鑒于世界范圍內(nèi)大多數(shù)國家仍在發(fā)展擴(kuò)大其國家STR 數(shù)據(jù)庫(主要為CE 數(shù)據(jù)),上述ISFG 建議使用的既與CE 命名相兼容又可收集所有序列變異的MPS-STR 命名法有利于STR 數(shù)據(jù)庫的檢索及法醫(yī)學(xué)報(bào)告中MPS-STR 數(shù)據(jù)的應(yīng)用。然而由于堿基序列的多樣性,即使采用標(biāo)準(zhǔn)化的命名法,僅用較簡(jiǎn)短的文本字符來描述MPS 所識(shí)別的所有STR 序列多態(tài)性等位基因仍然非常困難。
YOUNG 等[88]認(rèn)為,基于ISFG 發(fā)布的MPS-STR 相關(guān)命名格式雖然滿足了序列特異性標(biāo)記的要求,但對(duì)于軟件識(shí)別或數(shù)據(jù)庫保存來說該格式長(zhǎng)度過長(zhǎng),于是提出了序列標(biāo)識(shí)符(sequence identifier,SID)編碼法來解決這個(gè)問題,該方法使用哈希函數(shù)SHA-256 將DNA 序列轉(zhuǎn)換為54 或55 個(gè)字母的SID,生成用于標(biāo)識(shí)單一來源或案例樣本STR 序列的唯一短標(biāo)簽。根據(jù)具體應(yīng)用,某樣本STR 基因座的序列特異性等位基因可僅用2~3 個(gè)SID 字符進(jìn)行標(biāo)記(如“6TK”表示TH01[CE6]-Chr11-GRCh38-2171088-2171115[AATG]6),從而使記錄格式緊湊。SID 標(biāo)簽亦可用于識(shí)別和過濾非等位基因序列(如stutter),并且具有區(qū)分等位基因與非等位基因序列的能力。該編碼法還適用于接受任何字符值(而非數(shù)字值)的軟件進(jìn)行下游混合物分析,如與ArmedXpert 軟件中MixtureAce 插件的聯(lián)合應(yīng)用。
JUST 等[89]建議使用最長(zhǎng)不間斷延伸(longest uninterrupted stretch,LUS)的方法表示STR 重復(fù)區(qū)域內(nèi)的序列變異,有利于NGS 分型結(jié)果在概率解釋中的分析應(yīng)用,避免了進(jìn)行字符串搜索所帶來的算法復(fù)雜性。LUS 指STR 重復(fù)區(qū)域中連續(xù)相同的重復(fù)基序最多的重復(fù)次數(shù),聯(lián)合命名由基因座名稱、基于長(zhǎng)度的等位基因和LUS(以粗體表示)組成,如D12S39120_12 表示D12S391基因座上[AGAT]12[AGAC]7AGAT等位基因。然而一些基因座的多個(gè)等位基因可能具有相同的代號(hào),如上述D12S39120_12 也可表示[AGAT]12[AGAC]8。通過將其命名擴(kuò)展到二級(jí)或三級(jí)參考區(qū)域,該聯(lián)合命名法可表示80%以上MPS-STR的等位基因。但該方法在少數(shù)基因座上無法區(qū)分等位基因,以D21S11為例,該基因座上存在5 個(gè)常見基序的變異(以粗體n表示)[TCTA]n[TCTG]n[TCTA]nTA[TCTA]nTCA[TCTA]2TCCATA[TCTA]n。LUS命名等位基因的方法保持了先前基于重復(fù)基序的命名法,因此能夠與現(xiàn)有STR 數(shù)據(jù)庫相兼容,且LUS 的長(zhǎng)度本身保持一致,不會(huì)因NGS 體系或分析軟件的不同而改變。此外,當(dāng)分析軟件(如LRmix Studio v2.1.3)不要求等位基因只能為整數(shù)時(shí),可應(yīng)用LUS 法標(biāo)識(shí)等位基因,其包含的序列信息有助于對(duì)樣本(單一或混合來源)STR 分型結(jié)果的解釋。GILL 教授亦將LUS 等位基因命名法應(yīng)用于EuroForMix 軟件[90],證實(shí)了該方法的適用性[91]。雖然該方法無法表示STR 側(cè)翼區(qū)域的堿基變異,但很大程度上彌補(bǔ)了目前基于STR 長(zhǎng)度的概率解釋系統(tǒng)的不足,促進(jìn)了MPS 技術(shù)在法醫(yī)遺傳學(xué)實(shí)踐中的應(yīng)用。
DNASeqEx 項(xiàng)目提出了將Nomenclature Authority(NOMAUT)系統(tǒng)用于STR 數(shù)據(jù)庫的保存和對(duì)接[92],該系統(tǒng)是一個(gè)在線存儲(chǔ)庫,建立在已知的序列變異STR基因分型結(jié)果上,可較為便捷且安全地輸入新增數(shù)據(jù)。已知序列變異的STR 結(jié)果和其對(duì)應(yīng)的CE-STR 結(jié)果形成目錄,可進(jìn)行序列特異性等位基因的查詢;允許用戶上傳序列,以小寫字母表示數(shù)據(jù)庫中新的序列特異性等位基因(如D1S165611+a),若為數(shù)據(jù)庫中已有等位基因則轉(zhuǎn)換為大寫字母(如D1S165611+A),經(jīng)確定后納入系統(tǒng)目錄中保存,完成系統(tǒng)的自我更新。為確保其可靠性和實(shí)用性,NOMAUT 被構(gòu)建為一種網(wǎng)頁服務(wù),而非本地軟件,并允許各MPS-STR 數(shù)據(jù)分析軟件對(duì)NOMAUT 數(shù)據(jù)進(jìn)行調(diào)用,另外,其也可離線使用,但需保證數(shù)據(jù)庫定期更新。NOMAUT 系統(tǒng)將來可作為STR 序列等位基因的集中存儲(chǔ)庫,從而在世界范圍內(nèi)保證MPS-STR 數(shù)據(jù)的一致性、穩(wěn)定性和高質(zhì)量。
KNIJFF 教授提出,可以考慮應(yīng)用類似人類白細(xì)胞抗原(human leucocyte antigen,HLA)系統(tǒng)的等位基因編碼系統(tǒng)[93]命名MPS-STR,其優(yōu)點(diǎn)是STR 序列多態(tài)性等位基因可以重新編碼為很短的等位基因代號(hào),方便機(jī)器對(duì)比和儲(chǔ)存,如上文提到的SID 編碼。但同時(shí),法醫(yī)工作者需要很長(zhǎng)時(shí)間去識(shí)別這些編碼,且編碼的應(yīng)用使MPS-STR 數(shù)據(jù)失去了與CE-STR 命名的直接關(guān)聯(lián),也無法直接觀察到序列變異。其實(shí),簡(jiǎn)化STR 序列信息并不是必需的,用較長(zhǎng)而完整的文本字符儲(chǔ)存等位基因不失為一種方法。總之,我們依然期待早日能夠達(dá)成一個(gè)信息全面、實(shí)用的法醫(yī)MPSSTR 統(tǒng)一命名系統(tǒng),以避免模棱兩可、不準(zhǔn)確、不一致的等位基因命名,甚至可自動(dòng)命名基于序列特異性的MPS-STR等位基因,從而便于法醫(yī)學(xué)工作者進(jìn)行MPSSTR 數(shù)據(jù)的有序儲(chǔ)存、搜索和更新。
在MPS 技術(shù)替代CE 成為常規(guī)的法醫(yī)遺傳學(xué)檢測(cè)工具之前,我們?nèi)杂泻芏喙ぷ饕?,主要涉及完備的使用指南、?guī)范,以期為所有可能的技術(shù)問題、結(jié)果解釋和報(bào)告內(nèi)容提供參照標(biāo)準(zhǔn)。此外,還需解決諸多實(shí)際問題,包括如何將MPS 檢測(cè)的STR 序列多態(tài)性等位基因(包括側(cè)翼區(qū)域的遺傳變異)與各國現(xiàn)有STR 數(shù)據(jù)庫相兼容等。與CE 技術(shù)相比,不同的MPS 檢測(cè)平臺(tái)、分析軟件無疑會(huì)產(chǎn)生更多的問題,使得制定統(tǒng)一、完備的規(guī)范和標(biāo)準(zhǔn)變得更加復(fù)雜。目前主要涉及以下問題:
(1)基于MPS 技術(shù)的STR 等位基因應(yīng)確立統(tǒng)一命名方式,命名需盡量能夠觀察到遺傳變異的全部信息而無需回溯原始測(cè)序數(shù)據(jù)。
(2)對(duì)MPS 相關(guān)運(yùn)行參數(shù)的建議,包括目標(biāo)靶點(diǎn)的最低測(cè)序深度、堿基識(shí)別正確率、堿基識(shí)別質(zhì)量等。
(3)對(duì)于法醫(yī)學(xué)中不同類型樣本獲得可靠STR 等位基因所需的最低測(cè)序深度的建議,如分別針對(duì)構(gòu)建數(shù)據(jù)庫的參考樣本、單一來源樣本或犯罪現(xiàn)場(chǎng)混合樣本的建議。
(4)有關(guān)非目標(biāo)靶點(diǎn)的測(cè)序讀數(shù)、測(cè)序產(chǎn)生的錯(cuò)誤讀數(shù)等的建議,包括用于標(biāo)記樣本的barcode 和index 的讀數(shù)等。
(5)關(guān)于所使用MPS 技術(shù)的建議。reads 1 和reads 2 分別進(jìn)行正、反向測(cè)序,存在STR 重復(fù)序列結(jié)構(gòu)難以組裝和比對(duì)的問題;只使用正向測(cè)序結(jié)果,其長(zhǎng)度取決于MPS 平臺(tái),存在能否檢測(cè)PCR-STR 擴(kuò)增子的全長(zhǎng)等問題。
(6)關(guān)于存儲(chǔ)MPS 所得結(jié)果的格式的建議。
(7)針對(duì)MPS-STR 分析軟件提出要求。之前開發(fā)的軟件,多采用與CE-STR 結(jié)果相匹配的命名方式,建議調(diào)整為基于MPS 技術(shù)的新等位基因命名法;至少應(yīng)輸出“(6)關(guān)于存儲(chǔ)MPS 所得結(jié)果的格式的建議”中的格式。
迄今為止,法醫(yī)學(xué)研究者們?cè)趹?yīng)用MPS 技術(shù)檢測(cè)STR 標(biāo)記方面已然取得了階段性成果。針對(duì)不同生物公司開發(fā)的用于檢測(cè)不同STR 標(biāo)記的商品化MPS-STR 體系(或STR 聯(lián)合SNP 檢測(cè)體系)進(jìn)行了充分的驗(yàn)證研究,結(jié)果說明這些體系靈敏性高,能夠得到可重復(fù)、可靠的結(jié)果,證實(shí)了MPS-STR 檢測(cè)能夠達(dá)到法醫(yī)DNA 工作的要求。研究中幾乎都進(jìn)行了MPSSTR 數(shù)據(jù)與CE-STR 數(shù)據(jù)的一致性對(duì)比,有助于MPSSTR 數(shù)據(jù)與現(xiàn)在CE-STR 數(shù)據(jù)庫的對(duì)接。MPS-STR數(shù)據(jù)分析是研究工作中的一大難題,除了商品化分析軟件,也涌現(xiàn)出很多優(yōu)秀的可用于自主構(gòu)建MPSSTR 體系的數(shù)據(jù)分析軟件和方法,這將在很大程度上促進(jìn)MPS-STR 研究的發(fā)展。近年來基于MPS-STR數(shù)據(jù)的群體學(xué)調(diào)查研究表明,相對(duì)于常規(guī)的CE 檢測(cè),MPS 技術(shù)提高了STR 標(biāo)記的多態(tài)信息含量和雜合度,檢測(cè)到大量新的序列特異性等位基因,提高了STR 體系的系統(tǒng)效能,這不僅有利于法醫(yī)學(xué)個(gè)體識(shí)別和親權(quán)鑒定,也為混合物的檢測(cè)和解析提供了新的機(jī)會(huì)。此外,在MPS 檢測(cè)中使用較短的擴(kuò)增子有助于法醫(yī)工作中降解檢材和微量檢材的檢測(cè)。ISFG和其他法醫(yī)學(xué)組織為MPS-STR 命名方法、數(shù)據(jù)儲(chǔ)存、與CE-STR 數(shù)據(jù)庫對(duì)接等問題做出了努力,STRSeq[64]和DNASeqEx[92]等合作項(xiàng)目促進(jìn)了法醫(yī)工作者的交流。盡管針對(duì)上述待解決問題,我們?nèi)匀蝗狈ψ銐蚯铱煽康慕?jīng)驗(yàn)和數(shù)據(jù),然而世界范圍內(nèi)越來越多的法醫(yī)實(shí)驗(yàn)室開始關(guān)注并開展MPS 技術(shù)的研究,期待法醫(yī)工作者堅(jiān)持不懈,共同推動(dòng)MPS 技術(shù)在STR 標(biāo)記基因分型方面的應(yīng)用與發(fā)展。