(公安部物證鑒定中心 現(xiàn)場(chǎng)物證溯源技術(shù)國(guó)家工程實(shí)驗(yàn)室 法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室 北京市現(xiàn)場(chǎng)物證檢驗(yàn)工程技術(shù)研究中心,北京100038)
法醫(yī)表型特征分子刻畫技術(shù)也稱分子畫像技術(shù),指通過生物物證中的遺傳信息,基于特定人群數(shù)據(jù)庫和算法模型刻畫物證供者的族群地域、家族系譜、體貌特征等表型,作為“生物證人”為案件偵查提供線索。該技術(shù)作為現(xiàn)有短串聯(lián)重復(fù)(short tandem repeat,STR)序列個(gè)體識(shí)別技術(shù)的補(bǔ)充,使法醫(yī)物證鑒定對(duì)于公安實(shí)戰(zhàn)的作用不再局限在比對(duì)識(shí)別,而是拓展至提供各種表型信息、家族信息等,劃定偵查范圍,指導(dǎo)偵查方向,為案件偵查尤其是冷案、積案等疑難案件偵查提供新的線索。該技術(shù)體系高度依賴人群遺傳資源。國(guó)際人類基因組單體型圖計(jì)劃(International HapMap Project)[1-2]、千人基因組計(jì)劃(1000 Genomes Project)[3]等顯著推動(dòng)了族群地域推斷研究,英國(guó)生物樣本庫(UK Biobank)[4]、英國(guó)雙胞胎項(xiàng)目(TwinsUK)等隊(duì)列[5],以及美國(guó) 23andMe、Ancestry等基因檢測(cè)公司[6]的數(shù)據(jù),顯著推動(dòng)了歐美人群的身高、面貌等特征研究。我國(guó)擁有豐富的遺傳資源,近年來也開展了針對(duì)中國(guó)人群的特征刻畫研究。
歐美等國(guó)先后投入幾億到幾百億美元建立大型人群隊(duì)列,主要呈現(xiàn)如下特點(diǎn):一是生物樣本庫的標(biāo)準(zhǔn)化、大型化、全面化;二是國(guó)家間及國(guó)家內(nèi)部研究機(jī)構(gòu)對(duì)生物樣本庫的共建和共享呈現(xiàn)網(wǎng)絡(luò)化、聯(lián)盟化趨勢(shì)[7]。美國(guó)先后組織和參與了一系列大型基于人群的基因組學(xué)研究。1990年啟動(dòng)的人類基因組計(jì)劃(Human Genome Project,HGP)開啟了基因組時(shí)代序幕[1]。2002年,美國(guó)、加拿大、中國(guó)、日本、英國(guó)、尼日利亞等啟動(dòng)HapMap計(jì)劃,形成了全球11個(gè)人群的1218份樣本的全基因組遺傳多態(tài)圖譜[2]。2008年,美國(guó)、德國(guó)、中國(guó)、英國(guó)等發(fā)起的國(guó)際千人基因組計(jì)劃(1000 Genomes Project)形成了全球26個(gè)人群的2 504份樣本的基因組遺傳多態(tài)性圖譜[3]。斯坦福大學(xué)發(fā)起的人類基因組多樣性計(jì)劃(Human Genome Diversity Project,HGDP)收集了全球 52個(gè)人群的1043份樣本和SNP分型[8]。耶魯大學(xué)Kidd實(shí)驗(yàn)室構(gòu)建了全球55個(gè)人群的2 000多份樣本的永生細(xì)胞系。這些人群隊(duì)列的全球覆蓋率高,為族群地域研究提供了重要支撐。其中,千人基因組還常被用作基因填補(bǔ)(imputation)的參考數(shù)據(jù),并廣泛應(yīng)用于各國(guó)人群基因頻率分析、表型特征推斷模型測(cè)試等研究工作中。
冰島的deCODE Genetics與英國(guó)生物樣本庫(UK Biobank)是歐洲比較著名的生物樣本庫[4,9]。冰島人具有高度的遺傳同質(zhì)性,是遺傳學(xué)的理想研究對(duì)象,deCODE Genetics公司于1996年啟動(dòng)該項(xiàng)目,收集了14萬冰島人群的DNA樣本和家族系譜數(shù)據(jù)[9]。UK Biobank于2007年建成,收集了約50萬份英國(guó)人群樣本(40~69歲)[4]。加拿大Saguenay Youth Study研究團(tuán)隊(duì)收集了生活在魁北克的法裔加拿大青少年和父母樣本、MRI掃描等體檢數(shù)據(jù)[7]。這些樣本庫存在較多親緣關(guān)系,除了疾病研究外,也適用于親緣及系譜方面的研究。
少數(shù)人群隊(duì)列在建設(shè)時(shí)采集了志愿者的外觀表型信息,為臉部形態(tài)等體貌特征遺傳研究提供了寶貴的數(shù)據(jù)資源。英國(guó)1993年啟動(dòng)的TwinsUK是英國(guó)最大的成年雙胞胎研究隊(duì)列[5]。澳大利亞QIMR Berghofer Institute of Medical Research組織的兩個(gè)雙胞胎隊(duì)列研究,主要收集青少年[10]和成年雙胞胎的樣本[11-12]。這兩個(gè)雙胞胎人群隊(duì)列都包含臉部圖像。荷蘭鹿特丹的Rotterdam Study(RS)是持續(xù)進(jìn)行的北歐和西歐人群隊(duì)列研究,包括RS-Ⅰ、RS-Ⅱ、RS-Ⅲ,總共為15000名參與者,部分人群進(jìn)行了頭面部磁共振成像(magnetic resonance imaging,MRI)三維掃描[13-15]。這些數(shù)據(jù)被用于臉部特征的分子刻畫研究中。人類性狀遺傳研究(Genetic Investigation of Anthropometric Traits,GIANT)是由全球300多家機(jī)構(gòu)組成的大型全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)聯(lián)盟,目標(biāo)是通過多人群數(shù)據(jù)匯集挖掘身高和肥胖等人體測(cè)量學(xué)性狀相關(guān)遺傳位點(diǎn)[16-17]。目前,國(guó)際上認(rèn)可度最高的身高相關(guān)遺傳位點(diǎn)研究成果就是基于GIANT數(shù)據(jù)開展的。
數(shù)據(jù)庫量級(jí)的上升無疑會(huì)對(duì)表型特征分子刻畫研究帶來極大的助力。美國(guó)加州自2007年開始的基因、環(huán)境和健康研究項(xiàng)目(Research Program on Genes,Environment,and Health,RPGEH)[18]已經(jīng)收集了20萬人的生物樣本和健康情況等信息,研究環(huán)境和遺傳因素對(duì)常見病的影響。2015年初,美國(guó)宣布啟動(dòng)精準(zhǔn)醫(yī)學(xué)計(jì)劃(Precision Medicine Initiative,PMI),2016年啟動(dòng)All of Us,將創(chuàng)建100萬志愿者的人群隊(duì)列支持精準(zhǔn)醫(yī)學(xué)研究。英國(guó)政府于2012年發(fā)起“10萬基因組計(jì)劃”,歷時(shí)5年完成,對(duì)英國(guó)國(guó)民醫(yī)療保健服務(wù)體系(National Health Service,NHS)中的10萬名患者的完整基因組進(jìn)行測(cè)序。2018年5月,英國(guó)宣布將在未來5年開展500萬人基因組計(jì)劃。法國(guó)于2016年宣布開啟France Génomique項(xiàng)目。澳大利亞于2016年啟動(dòng)基因組學(xué)健康未來計(jì)劃(Genomics Health Futures Mission,GHFM)。德國(guó)、加拿大、以色列、韓國(guó)、日本等國(guó)也紛紛宣布開展大型人群基因組測(cè)序計(jì)劃。
我國(guó)擁有豐富的遺傳資源,生物樣本庫建設(shè)起步并不晚,但是缺乏包含外觀表型信息的國(guó)家級(jí)可共享的人群隊(duì)列樣本庫,因此在表型特征分子刻畫研究方面仍處于初始階段。中國(guó)醫(yī)學(xué)科學(xué)院于1994年建立了中華民族永生細(xì)胞庫,包括47個(gè)民族70個(gè)群體的3 982株永生細(xì)胞庫和7 210份DNA標(biāo)本[19]。中國(guó)慢性病前瞻性研究項(xiàng)目(China Kadoorie Biobank,簡(jiǎn)稱CKB項(xiàng)目)是中國(guó)醫(yī)學(xué)科學(xué)院與英國(guó)牛津大學(xué)于2004年聯(lián)合啟動(dòng)的國(guó)際合作研究項(xiàng)目,在中國(guó)10個(gè)省(地區(qū))開展,涉及51萬余人,持續(xù)時(shí)間15~20年[20]。2007年,復(fù)旦大學(xué)與泰州醫(yī)藥高新產(chǎn)業(yè)園啟動(dòng)泰州市人群健康跟蹤研究項(xiàng)目,采集了志愿者的人體測(cè)量學(xué)數(shù)據(jù)和臉部圖像數(shù)據(jù),規(guī)模約20萬例[21]?;谔┲萑巳宏?duì)列,我國(guó)的表型特征遺傳研究取得了初步的進(jìn)展。中國(guó)科學(xué)院北京基因組研究所的精準(zhǔn)基因組醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室于2016年宣布在未來4年完成4000名志愿者DNA樣本和多種表型數(shù)據(jù)的采集,并對(duì)其中2000名進(jìn)行深入的精準(zhǔn)醫(yī)學(xué)研究。
在遺傳資源整合方面,中國(guó)人類遺傳資源平臺(tái)(National Infrastructure of Chinese Genetic Resources,NICGR)是國(guó)家自然資源科技共享平臺(tái)的一部分,于2003年7月由中華人民共和國(guó)科學(xué)技術(shù)部牽頭啟動(dòng),2007年9月網(wǎng)絡(luò)發(fā)布[22]?!笆逡?guī)劃”期間,國(guó)家衛(wèi)生計(jì)生委科學(xué)技術(shù)研究所在中國(guó)人類遺傳資源平臺(tái)的基礎(chǔ)上成立了國(guó)家人類遺傳資源共享服務(wù)平臺(tái)[23]。2011年1月,國(guó)家發(fā)展改革委員會(huì)批復(fù)依托深圳華大基因研究院組建深圳國(guó)家基因庫(China National Gene Bank),采用基因信息數(shù)據(jù)庫和生物樣本庫相結(jié)合的建設(shè)模式,主要存儲(chǔ)管理我國(guó)特有遺傳資源、生物信息和基因數(shù)據(jù)。2015年3月,中華人民共和國(guó)科學(xué)技術(shù)部召開首次精準(zhǔn)醫(yī)學(xué)戰(zhàn)略專家會(huì)議[24],提出中國(guó)精準(zhǔn)醫(yī)療計(jì)劃,擬在2030年前投入600億元資金支持精準(zhǔn)醫(yī)療行業(yè)的發(fā)展。同年10月,精準(zhǔn)醫(yī)療被列入我國(guó)“十三五規(guī)劃”重點(diǎn)發(fā)展項(xiàng)目中。2015年至今,中華人民共和國(guó)科學(xué)技術(shù)部啟動(dòng)了一系列疾病、自然人群、體質(zhì)人類學(xué)等人群隊(duì)列構(gòu)建相關(guān)的研究項(xiàng)目。隨著資源整合工作的推動(dòng),我國(guó)有望在將來形成綜合的人群隊(duì)列數(shù)據(jù)庫,快速推動(dòng)表型特征分子刻畫研究的進(jìn)展。
各種人群隊(duì)列積累了豐富的數(shù)據(jù)資源,使得全面挖掘基因組中的遺傳信息成為可能,族群地域、系譜、年齡、面貌、身高、色素等表型特征研究進(jìn)展顯著,具體如下。
檢測(cè)人群之間具有遺傳分布差異的位點(diǎn)可以判斷DNA供者的族群地域,這種位點(diǎn)被稱為祖先信息位點(diǎn)(ancestry informative marker,AIM)。STR[25]、單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)[26]、插入/缺失突變(insertion/delete mutation)[27]、微單倍型(microhaplotype)[28]等均可作為AIM。族群推斷位點(diǎn)數(shù)目并非越多越好,遺傳距離不同的族群,位點(diǎn)篩選標(biāo)準(zhǔn)和參考數(shù)據(jù)集不同。近10年來,族群地域推斷技術(shù)已經(jīng)從對(duì)洲際間人群進(jìn)行區(qū)分,發(fā)展到對(duì)同一國(guó)家內(nèi)部的人群進(jìn)行區(qū)域性刻畫。區(qū)域群體之間的遺傳差異高于區(qū)域內(nèi)人群之間的遺傳差異,在該領(lǐng)域的研究早期,檢測(cè)少量的AIM即可實(shí)現(xiàn)五大洲際人群(非洲、歐洲、東亞、太平洋和美洲印第安人群)的推斷,例如,34-SNP[29]、46-Indel[30]、27-SNP[31]等。洲際人群內(nèi)部結(jié)構(gòu)的進(jìn)一步區(qū)分則需使用更多的AIM,如2014年發(fā)表的55-SNP進(jìn)一步實(shí)現(xiàn)了全球8個(gè)區(qū)域人群的區(qū)分(撒哈拉以南非、北非、西南亞、歐洲、南亞、東亞、大洋洲、美洲印第安人群)[32]。公安部物證鑒定中心在2018年對(duì)東亞人群研究形成了74-SNP東亞南北方人群區(qū)分體系[33],以及適合高原人群區(qū)分的高原適應(yīng)單倍型檢測(cè)體系[34]。
法醫(yī)系譜推斷也稱為長(zhǎng)距離家族關(guān)系搜索(longrange familial search),是基于全基因組SNP數(shù)據(jù)和共祖片段分析(identity by descent,IBD)等技術(shù),分析和搜索某個(gè)體的父系、母系的1~9級(jí)親緣關(guān)系。2018年,美國(guó)警方利用該技術(shù)在社會(huì)數(shù)據(jù)庫GEDmatch中鎖定嫌疑人的第三代堂(表)兄妹(third cousin),破獲了40年前轟動(dòng)全美的“金州殺手”案,該技術(shù)被《科學(xué)》雜志評(píng)選為2018年十大科學(xué)突破之一[35-36],迅速受到各國(guó)法醫(yī)學(xué)領(lǐng)域的關(guān)注?;诿绹?guó)近200年的人口增長(zhǎng)速率預(yù)測(cè),如果能建立300萬的歐裔美國(guó)人群庫(2%的人口比例),即可找到幾乎99%的歐裔美國(guó)人至少一個(gè)三代表親[35]。由于該技術(shù)搜索的家族范圍更廣,可迅速成為冷案、積案等疑難案件偵破的技術(shù)手段。
法醫(yī)學(xué)推斷個(gè)體年齡主要基于骨骼、牙齒等骨性測(cè)量指征,但該法不適于斑跡類或骨骼毀損的現(xiàn)場(chǎng)生物檢材。DNA甲基化是一種表觀遺傳修飾標(biāo)記,在機(jī)體的生長(zhǎng)、發(fā)育和衰老過程中呈現(xiàn)動(dòng)態(tài)變化,甲基化水平與年齡呈現(xiàn)相關(guān)性,成為目前較為常用的年齡預(yù)測(cè)分子標(biāo)志物[37-38]。伴隨全基因組甲基化芯片等技術(shù)的出現(xiàn),大量年齡相關(guān)的甲基化位點(diǎn)被發(fā)掘。由于DNA甲基化具有組織特異性和人群特異性,目前研究[39-43]報(bào)道了針對(duì)血液、血斑、唾液、精液等組織類型推斷以及針對(duì)族群地域推斷的甲基化位點(diǎn)組合。檢測(cè)平臺(tái)包括焦磷酸測(cè)序、飛行時(shí)間質(zhì)譜、下一代測(cè)序等,推斷算法包括多元線性回歸[41]、支持向量機(jī)[44]、人工神經(jīng)網(wǎng)絡(luò)[45]等。未來需從檢測(cè)靈敏度、多組織適用性等角度開展深入研究。
臉部特征刻畫相關(guān)研究主要包括三維臉部圖像的數(shù)字化[46],臉部特征點(diǎn)間距[47-48]、角度、主成分變量[49-50]等特征關(guān)聯(lián)遺傳位點(diǎn)的挖掘,三維臉部特征刻畫模型的建立[51-52]等。該研究需采集臉面部的二維、三維照片或者三維MRI圖像。2012年,荷蘭Kayser實(shí)驗(yàn)室基于鹿特丹人群的萬余名歐洲人樣本,發(fā)現(xiàn)了PAX3、PRDM16、TP63、C5orf50和COL17A1等臉面部形態(tài)特征相關(guān)基因[47]。同年,美國(guó)Evans實(shí)驗(yàn)室基于雅芳父母和子女的縱向研究(Avon Longitudinal Study of Parents and Children,ALSPAC)[53]的萬余份歐洲人樣本,發(fā)現(xiàn)PAX3基因的rs7559271與鼻根位置、鼻根點(diǎn)到內(nèi)眥的距離相關(guān)[54]。近兩年,美國(guó)的Shriver實(shí)驗(yàn)室與23andMe[6]等公司合作建立了萬余例美國(guó)黑人和歐洲人群的臉部表型人臉樣本庫,基于三維高密度數(shù)據(jù)點(diǎn)整體特征分析方法建立了三維人臉預(yù)測(cè)模型臉部特征刻畫研究體系[50-51],從方法學(xué)和相關(guān)基因位點(diǎn)挖掘數(shù)量等多個(gè)方面取得了突破。國(guó)內(nèi)的唐鯤實(shí)驗(yàn)室基于泰州市人群健康跟蹤研究項(xiàng)目等人群樣本,研究發(fā)現(xiàn)與我國(guó)歐亞混合人群面部特征相關(guān)的400多個(gè)SNP位點(diǎn),并建立了三維臉部特征分子刻畫模型[52]。
身高、肥胖、臉部特征等表型是多基因遺傳性狀,且受到環(huán)境因素的影響,但色素有明顯的主效基因。例如,HERC2和OCA2基因?qū)ρ劬︻伾呢暙I(xiàn)度很大,HERC2-rs12913832位點(diǎn)的GG等位基因與藍(lán)色眼睛緊密關(guān)聯(lián)[55],所以色素相關(guān)的遺傳及刻畫研究相對(duì)成熟。荷蘭Kayser實(shí)驗(yàn)室基于荷蘭鹿特丹等多個(gè)人群的表型及遺傳數(shù)據(jù),先后研發(fā)了IrisPlex(6-SNP)[55]、HIrisPlex(24-SNP)[56]和 HIrisPlex-S(41-SNP)[57]3 種CE平臺(tái)檢測(cè)體系和算法模型。其中,2018年建成的HIrisPlex-S在HIrisPlex的基礎(chǔ)上,通過全球人群隊(duì)列研究,添加了17個(gè)膚色相關(guān)位點(diǎn),形成了可進(jìn)行3種眼睛顏色(藍(lán)色、棕色、中間色)、4種頭發(fā)顏色(金黃色、紅色、棕色、黑色)和5種皮膚顏色(很白、白色、中間色、淺黑色、黑色)推斷的綜合色素特征刻畫體系,并經(jīng)過了多家實(shí)驗(yàn)室的驗(yàn)證。
此外,在身高研究方面,GIANT計(jì)劃的開展顯著推動(dòng)了歐洲人群身高、肥胖等研究的進(jìn)展,先后發(fā)現(xiàn)了54、180和697個(gè)身高相關(guān)SNP位點(diǎn),分別解釋4%~6%、10%和20%的身高變量[58],但目前對(duì)身高進(jìn)行較為準(zhǔn)確的分子刻畫仍然是一個(gè)沒有解決的難題。在毛發(fā)形態(tài)、耳朵形態(tài)、眉毛深淺等表型特征方面也有相關(guān)研究成果涌現(xiàn),但都尚未形成類似色素表型可以初步進(jìn)行法醫(yī)學(xué)應(yīng)用的體系或模型。
消費(fèi)級(jí)(direct-to-consumer,DTC)基因檢測(cè)行業(yè)主要進(jìn)行祖先來源、健康風(fēng)險(xiǎn)評(píng)估、營(yíng)養(yǎng)代謝、遺傳疾病等基因分析。美國(guó)早在10年前已出現(xiàn),個(gè)人用戶已超千萬,如23andMe(500萬數(shù)據(jù))、Ancestry(900萬數(shù)據(jù))、GEDmatch(100萬數(shù)據(jù))、DNA.Land、Human Longevity、Helix等。中國(guó)于2013年開始出現(xiàn),如微基因(30萬數(shù)據(jù))、23魔方(30萬數(shù)據(jù))、水母基因、各色DNA等。雖然這類公司大多是帶有娛樂性質(zhì)的商業(yè)化運(yùn)轉(zhuǎn),但是匯集了大量人群樣本和檢測(cè)數(shù)據(jù),為法醫(yī)學(xué)應(yīng)用帶來契機(jī)。例如,美國(guó)Parabon Nanolab公司通過分子畫像、系譜推斷等業(yè)務(wù)為案件偵破提供技術(shù)服務(wù);美國(guó)“金州殺手”案件的偵破就是基于GEDmatch[35-36];FamilyTreeDNA于2019年2月1日宣布與FBI合作,允許執(zhí)法機(jī)構(gòu)訪問其DNA數(shù)據(jù)庫,協(xié)助案件偵查。
法醫(yī)表型特征分子刻畫技術(shù)是數(shù)據(jù)驅(qū)動(dòng)型的新型研究領(lǐng)域,需解決的核心問題是如何從生物物證中挖掘各類遺傳信息和如何基于這些遺傳信息刻畫、重建物證供者的表型特征。目前,該技術(shù)已初步形成理論框架,未來將會(huì)聯(lián)用多遺傳標(biāo)記、多計(jì)算手段和多檢測(cè)平臺(tái),向著精細(xì)刻畫發(fā)展和完善。同時(shí),法醫(yī)檢材的適用性研究必不可少,案例應(yīng)用是新技術(shù)是否具備生命力的檢驗(yàn)標(biāo)準(zhǔn)。此外,該方向的研究和應(yīng)用依賴特定的人群樣本和數(shù)據(jù),如何與社會(huì)上的公共人群資源庫銜接,如何制定技術(shù)應(yīng)用、隱私保護(hù)等相關(guān)的標(biāo)準(zhǔn)規(guī)范也是研究重心之一。總之,各類公共資源庫、測(cè)序、大數(shù)據(jù)等新技術(shù)為法醫(yī)DNA領(lǐng)域帶來了前所未有的發(fā)展契機(jī),未來現(xiàn)場(chǎng)生物物證的精細(xì)刻畫結(jié)果將作為“生物證人”服務(wù)案件偵查等公共安全工作。