陳曼 ,楊雅冉 ,武會娟 ,嚴江偉
(1.中國科學院北京基因組研究所,北京 100101;2.中國科學院大學,北京 100049;3.北京市理化分析測試中心,北京 100094;4.北京市基因測序與功能分析工程技術研究中心,北京 100094)
在法庭科學實踐中,現(xiàn)場環(huán)境和案情的復雜性往往使得法醫(yī)DNA檢驗面對各種疑難生物檢材,如模板DNA含量低、降解程度高、混合分型以及含有抑制物等。如何提高疑難檢材的法醫(yī)DNA分型成功率也一直是法醫(yī)學亟待解決的問題。隨著測序技術的進步,從聚丙烯酰胺膠和毛細管電泳平臺的一代測序到現(xiàn)今發(fā)展迅猛的高通量二代測序技術,再到超長讀長的單分子三代測序,能夠對包括最小生命單元單細胞的DNA和RNA序列進行檢測也越來越成為一種主流趨勢。單細胞測序技術的不斷成熟,給法醫(yī)疑難檢材的檢測提供了一些新的研究思路,本文就相關方面進行綜述。
單細胞測序是對生物體單個細胞進行DNA和RNA序列測定的一種技術手段,主要包括單細胞分離、全基因組擴增、新一代測序和數(shù)據(jù)分析4個步驟。
單個細胞的分離制備對下游實驗至關重要。按照是否需要制備細胞懸浮液,可將單細胞分離技術分為兩大類:第一類是通過機械研磨或者酶解的方法制備懸濁液,細胞由于不同的動力學參數(shù)被初步分離。主要有梯度稀釋[1]、機械化的顯微操控法[2]、熒光激活細胞分選(fluorescence activated cell sorting,F(xiàn)ACS)技術[3]和微流體技術[4]4種。其中梯度稀釋是最簡便的方法,但是精確度和可重復性比較差。自動的微滴顯微操控技術則比較精確、實驗誤差小、重復度高,缺點是需要較大的起始細胞數(shù)目、產(chǎn)率低、對細胞有損傷。FACS是目前最經(jīng)濟快捷的分離單細胞的方法,可以通過熒光標記的方法選擇特異的細胞,對細胞進行分選,但是起始細胞數(shù)量大,快速流動的液體和熒光標記對細胞的損傷仍然是流式細胞術進行單細胞分離存在的問題。而微流體技術的優(yōu)勢是只需要納升級的微滴,分辨率靈敏度高。第二類是根據(jù)細胞不同的形態(tài)和內容物利用熒光標記或者發(fā)光抗體直接從組織切片中分離,保留了細胞原始生活狀態(tài)下的空間位置環(huán)境信息。激光捕獲顯微切割法(laser capture microdissection,LCM)[5]是這類方法的代表,但這個技術也存在一些缺陷,如效率較低、破壞細胞結構以及激光的損傷等。
單細胞測序的另外一個關鍵步驟是無偏好的全基因組擴增,忠實地放大細胞中單個拷貝或者雙拷貝的基因組信號。近些年涌現(xiàn)的各種低拷貝模板全基因組擴增技術,極大地降低了傳統(tǒng)聚合酶鏈反應(polymerase chain reaction,PCR)過程中由于特殊序列以及結構差異導致的擴增片段偏好性而帶來的誤差。
目前,常用的全基因組擴增的方法主要有4種。第一種是完全依賴于簡并寡核苷酸引物PCR法(degenerate oligonucleotide primed PCR,DOP-PCR),這種方法在PCR熱啟動酶的催化下,連接一段通用序列或者利用簡并引物進行單純的熱循環(huán)PCR實現(xiàn)對基因組DNA的剪切修補,最終用于建庫[6-7];第二種是基于多重置換擴增(multiple displacement amplification,MDA)技術,在高保真聚合酶Φ29的作用下,利用溫度相同的一組隨機引物進行多重置換擴增[8-9];第三種是結合PCR和等溫置換的方法,有PicoPLEX[10]和更簡潔的多次退火環(huán)狀循環(huán)擴增(multiple annealing and looping-based amplification cycles,MALBAC)[11]2種;第四種方法是通過轉座子插入的線性放大(linear amplification via transposon insertion,LIANTI)技術[12],利用轉座子隨機將DNA切碎,使DNA樣本得以線性放大。MALBAC和LIANTI技術在常規(guī)的PCR之前,通過設計起始等溫擴增子成環(huán)及轉座子在基因組中廣泛分布的特點,有效抑制了擴增偏好性的問題,提高了擴增時全基因組覆蓋程度和對單核苷酸變異(single nucleotide variant,SNV)及拷貝數(shù)變異(copy number variant,CNV)的檢測準確度。
新一代測序技術的高速發(fā)展,無論是在樣本準備、測序通量還是測序成本方面的進步,使得基于單個細胞基因組的測序成為可能。目前,單細胞測序技術中常用的新一代測序根據(jù)讀長的不同主要分為兩大類:第一類是短讀長的二代測序平臺,包括MiSeq FGx?法醫(yī)基因組測序平臺(美國Illumina公司)和Ion S5TMXL測序平臺(美國Thermo Fisher Scientific公司)。二代測序平臺的優(yōu)勢主要是通量大、成本低,但是檢測片段較短,富含重復結構的序列拼接較困難。目前單細胞測序的相關研究均是基于二代測序平臺進行的轉錄組、蛋白質組或者表觀遺傳組[13]。第二類是長讀長的單分子三代測序平臺,如美國PacBio公司的單分子實時(single-molecule real-time,SMRT)熒光測序技術[14]和英國Oxford Nanopore Technologies公司最新的牛津納米孔MinION[15]測序儀,三代測序的讀長可以達到10kb以上,測序結果易于拼接,類似線粒體大小的片段能直接測通,適用于含有重復序列的片段和小基因組的測定。最新的牛津納米孔MinION測序儀體積只有口風琴大小,在極大程度減少測序時間的同時,也大大降低了測序成本,給未來新一代測序技術的普及提供了基礎。
測序技術的進步產(chǎn)生了大量的基礎數(shù)據(jù),對數(shù)據(jù)分析提出了新的要求,能夠高效分析大規(guī)模數(shù)據(jù)的分析算法被開發(fā),使得單細胞測序技術迅猛發(fā)展。不同的分析算法在測序深度、特殊位置偏好性以及每一個細胞的結果上進行權衡,綜合考慮在全基因組擴增過程中較難避免的偏好性帶來的誤差。單細胞測序結果分析的主要難點是消除不同步驟中實驗人員和儀器帶來的誤差和背景信號。目前有一些新的研究和分析方法已被開發(fā)用于單細胞測序數(shù)據(jù)分析,如通過單個細胞中變異與原始大樣本中的變異等位基因頻率的百分比比較和多個細胞單獨結果的相互矯正的策略來減小單細胞分離時產(chǎn)生的偏差[16]。例如:在GAWAD等[16]的研究中,他們分別應用Picard、Samtools、VarScan2、Annovar 4種不同的軟件程序進行原始測序數(shù)據(jù)的細胞分選、序列的比對、單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)或者插入/缺失(insertion/deletion,InDel)的讀取以及命名,從而解讀單細胞測序結果;基因組的重頭組裝算法SPAdes[17]和IDBA-UD[18]降低了全基因組擴增過程中由于高度重復的片段帶來的擴增不均衡,這兩種算法的相關軟件均可以免費下載安裝包使用;基于最大簡約性、最大似然或基于距離的方法來進行克隆細胞遺傳物質構建,通過比對單個細胞之間遺傳信息的異同點,比對減少單細胞測序過程中的錯誤,提高測序結果的準確度[19]。如多重系統(tǒng)發(fā)育分析的軟件[20]和代碼開源的癌癥細胞系統(tǒng)發(fā)育模型[21]的建立,均是利用不同細胞間遺傳差異建立進化關系達到解析測序數(shù)據(jù)的目的。
單細胞測序技術以獨特的研究視角給生命科學帶來了新的思潮,目前基于該技術的研究層出不窮,主要應用于生命科學領域的3個方向。(1)腫瘤相關研究。增殖時的分化和突變的積累是腫瘤組織高度異質性的形成原因,這也是腫瘤細胞可以逃離機體免疫細胞存活和干擾腫瘤治療的主要因素?;趩渭毎麥y序技術的各種不同腫瘤組織異質性的相關研究層出不窮,如乳腺癌、肺癌、腦癌、直腸癌、膀胱癌、白血病和黑色素瘤等[22]。通過將單個細胞基因組信息和關鍵功能信號通路進行聯(lián)合解析,找到引起腫瘤組織形成、生長和轉移的突變相關關鍵因子,這些關鍵因子將極大地提高腫瘤化學療法的效能[22]。(2)微生物學相關研究。大量存在的不能培養(yǎng)的微生物是阻礙我們理解微生物致病性、微生物分類和生物多樣性的關鍵因素[23],單細胞測序技術解決了這個難題,眾多微生物的基因組均可被測定。其中與人類疾?。ㄈ缪装Y性腸病、2型糖尿?。┟芮邢嚓P的腸道菌群譜系研究有較直接的應用價值[24]。另外,基于微生物的生活習性對于特殊生理代謝途徑的研究可能給新的化學反應模式探索提供了途徑[13]。(3)多細胞生物遺傳鑲嵌現(xiàn)象研究。最新的研究結果[19]表明,包括人在內的多細胞生物體遺傳鑲嵌性可能是生物體行使復雜功能的結構基礎,這給疾病發(fā)生發(fā)展的研究提供了思路。除上述三個主要方向外,單細胞測序近年來在免疫系統(tǒng)、試管嬰兒、產(chǎn)前診斷和神經(jīng)細胞發(fā)育方面也有相關應用[13]。
相較于在生命科學領域的廣泛應用,單細胞測序在法醫(yī)學領域的應用尚未被開發(fā)。本文根據(jù)單細胞測序的特點,預測其在法醫(yī)學微量、混合和降解等疑難檢材方面應用的可能性,并簡單分析其在法醫(yī)學應用過程中可能面臨的挑戰(zhàn)。
在真實案件中,微量檢材的檢測一直困擾著法醫(yī)工作者。檢材中DNA含量低給檢案工作者帶來一系列的難題,其中較為突出的是提取工作。工作人員往往通過增加檢材量、多次富集的方法提高DNA的絕對量或者通過增加PCR循環(huán)數(shù)放大初始的遺傳信息,而這些方法隨之而來的是難以避免的在多次提取過程中由于提取工具的置換導致的污染問題[25]以及PCR循環(huán)數(shù)過多導致的擴增不均衡、大片段丟失。另一方面的瓶頸是多數(shù)案件需要多種遺傳標記的聯(lián)合分析而不僅僅是單一一種遺傳標記,這對于痕量樣本更是難以實現(xiàn)。因此,目前應用于微量樣本的解決方案往往難以獲得較理想的分型結果。
單細胞測序技術應用全基因組擴增體系,可將單個細胞中極低拷貝數(shù)的遺傳物質進行真實完整的放大,再結合新一代測序技術,對DNA序列進行解析,而不需要通過對檢材多次處理或者提高PCR擴增循環(huán)數(shù)來擴大DNA信息。HANSON等[26]工作者早年將全基因組擴增與傳統(tǒng)毛細管電泳檢測相結合進行微量(單個或者少數(shù)幾個細胞)基因組DNA的短串聯(lián)重復(short tandem repeat,STR)分型檢驗,但受限于不成熟的全基因組擴增技術以及檢測手段,大片段丟失,僅能獲得部分STR分型結果,不能較好地應用于法醫(yī)學實踐?,F(xiàn)今較成熟的全基因組擴增技術和發(fā)展迅猛的測序技術,可以對單個細胞進行檢測,回避了DNA量的問題,使其在合適的擴增循環(huán)數(shù)目下操作。另外,最新的全基因組擴增方法通過設計環(huán)化起始擴增產(chǎn)物這一巧妙的擴增方案,極大程度地降低了擴增的不均衡性[11]。此外,高通量測序的策略可以整合多種遺傳信息,在一個反應體系中進行多種遺傳標記的檢測,減少了檢材DNA的消耗??傊?,單細胞測序技術最大程度地解決了微量樣本的檢驗問題。
混合檢材分型拆分也是一個難以攻克的問題。目前應用一代STR檢測方法進行混合檢材解析時,混合個體數(shù)目的確定和分型的拆分是其中的難點。對于單一的STR遺傳標記來說,不同的混合個體不可避免地擁有相同的分型,尤其是在混合個體間有親緣關系的情況下,這樣的干擾會更加明顯;另一方面,重復序列擴增過程中不可避免地復制滑脫峰是混合樣本分型認定困難的主要因素,尤其是混合比例較大的樣本。目前,一些沒有復制滑脫峰的遺傳標記,如利用微單倍型和InDel進行混合分型的解析,在一定程度上增加了混合樣本拆分的成功率。最新的研究結果[27]表明,結合分析1204個遺傳標記(包括常染色體的964個SNP和23個InDel、X染色體的27個SNP、Y染色體的56個SNP、5個InDel和129個線粒體SNP)的檢測方法可以進行1%的混合比例的拆分。但是無論哪種方法均是基于混合樣本,對于混合比例相差甚遠的樣本仍然無法解決。
單細胞測序技術可以發(fā)揮新一代測序技術的優(yōu)勢,復合一些新的遺傳標記(如微單倍型、InDel),可避免產(chǎn)生復制滑脫峰而干擾結果,利于結果的拆分。更重要的是,單細胞測序基于最小生命單元(細胞)進行檢測的精度,把混合檢材在起始階段進行分離,使混合檢材不再“混合”。
降解檢材也是一種疑難檢材。案件現(xiàn)場的樣本大多存在不同程度的降解,對于降解檢材而言,DNA片段的碎片化是阻礙其完整擴增的主要原因,在一代STR的檢測分型結果上往往表現(xiàn)為大片段丟失而不能獲得足夠的嫌疑人信息。目前用來增加降解樣本檢出率的主要方法是選擇短片段的遺傳標記(如SNP、miniSTR),以及最新發(fā)展的轉座子遺傳標記,擴增子為100 bp左右,在50 pg的起始DNA狀態(tài)下能獲得95%以上的分型,對于毛干和指甲等高度角質化的檢材檢測效果較好[28]。但是這些策略仍然只是在改善檢出率,而不能從根本上解決降解檢材存在的DNA分子碎片化的問題。
單細胞測序不僅在檢測靈敏度上有較大的提升,其在檢測廣度上也有較大的突破。不同于傳統(tǒng)的STR與毛細管電泳檢測結合的方法,單細胞與新一代測序技術的結合,在單個細胞的層面上充分發(fā)揮新一代測序技術檢測片段設計靈活的優(yōu)勢,復合目標片段小的遺傳標記(如SNP、轉座子),減少由于基因組片段降解導致大片段擴增失敗的現(xiàn)象。另外,從檢測精度上,只要檢材中存有一個完好的細胞就可以得到完整分型,使降解檢材不再“降解”。
首先,相對于目前最常使用的毛細管電泳平臺,單細胞測序策略的精確度相對欠缺,主要檢測環(huán)節(jié)(全基因組擴增階段和序列測定階段)仍存在不完善的地方。全基因組擴增階段,MALBAC技術在全基因組平均測序深度達到25×時仍然只能覆蓋93%的基因組區(qū)域[11],LIANTI技術在平均測序深度30×時可以達到97%的覆蓋度,且每一種技術均有一定的等位基因丟失和假陰性概率[12]。序列測定階段多用二代測序技術和單分子的三代測序技術。法醫(yī)學中二代測序平臺使用最多的是MiSeq FGx?法醫(yī)基因組測序平臺和Ion S5TMXL測序平臺兩個測序平臺,其中MiSeq FGx測序平臺的正向測序有0.64%的錯誤率,而反向測序的錯誤率稍高為1.07%[29],產(chǎn)生錯誤的主要原因是由于A和C以及G和T分別相同的激發(fā)光,彼此強烈的相關性給熒光信號的分離帶來障礙而導致錯讀;簇內測序的不同步產(chǎn)生的干擾,隨著測序的循環(huán)增加而增加[30]。對于Ion S5TMXL測序平臺而言,GC含量不均衡或者堿基連續(xù)出現(xiàn)時也容易發(fā)生讀取錯誤[31]。三代單分子測序中,PacBio公司的SMRT技術,由于含有不同遺傳信息的相鄰納米孔信號干擾,應用該技術對150bp片段進行單次檢測只有83%的準確度,當測序深度加大到15×,通過不同測序結果直接的相互矯正,準確度可以達到99%[32]。而牛津納米孔MinION測序儀的精確度則可以達到99.9%[33]。
其次,單細胞樣本處理問題。伴隨單細胞超高精度而來的必然是待檢測樣本數(shù)目的急劇增加,雖然新一代測序成本降幅明顯,但是人類復雜的細胞結構體系和超大基因組仍然需要龐大的測序花費,得到適量且足夠用于分析的數(shù)據(jù),平衡好待測序的細胞數(shù)目和基因組測序的深度和廣度至關重要。另外,相比實驗室超凈間里培養(yǎng)的組織細胞,復雜的環(huán)境因素常使得法醫(yī)學檢材中含有多種微生物的污染。一個細胞單拷貝或者雙拷貝基因組進行擴增信號放大時,無處不在的細菌和霉菌無疑會對目標細胞基因組擴增產(chǎn)生較大干擾。目前,大多數(shù)單細胞分離技術均是通過對組織培養(yǎng)細胞進行細胞稀釋液獲得,這給常見的法醫(yī)接觸樣本細胞的有效獲取帶來較大挑戰(zhàn)。
最后,實驗操作和數(shù)據(jù)分析方面的挑戰(zhàn)。在單細胞測序實驗操作方面,目前常規(guī)的法醫(yī)學實驗室,無論是相關的實驗操作流程還是防污染、各類儀器相匹配的硬件方面都需要完善。在數(shù)據(jù)分析方面,目前應用的分析方法大多在測試階段,缺乏有效的檢驗和比較方法來判斷分析方法的優(yōu)劣。沒有基于單細胞的大人群數(shù)據(jù)積累,尤其是基于中國人群的數(shù)據(jù),以及需要使用人員有較深厚的生物信息學背景才能使用的復雜分析方法,這些也都給法醫(yī)學應用帶來阻礙。
單細胞測序技術正在迅猛發(fā)展,終將為法醫(yī)學服務,給法醫(yī)學帶來革命性的變化。但在法醫(yī)學領域使用時,需要:開發(fā)針對法醫(yī)學案件檢材的精準目標細胞分選技術,防止微生物污染,降低待檢測數(shù)目;篩選適用于單細胞低拷貝模板檢測并且可以達到法醫(yī)學效力的遺傳標記;組合人與微生物特異性的遺傳標記,甚至非法醫(yī)學的參數(shù)(如疾病診斷、健康狀態(tài)等);在分析方面,開發(fā)可視化簡潔的操作方法,讓更多人掌握并熟練使用。相信隨著單細胞測序技術自身的進步以及其在法醫(yī)學應用中相關行業(yè)規(guī)范的建立,定會在法醫(yī)學領域發(fā)揮不可替代的作用。