姚明澤,任廷林,潘元晴,薛曉慶,李蓉,雷雨,行曉玉
(山西大學 生物醫(yī)學研究院,山西 太原 030006)
了解生物體生命過程中細胞的發(fā)育軌跡是生物學的基本問題之一,也是發(fā)育生物學的核心。譜系示蹤是一種可以追蹤單個祖細胞的所有后代,并揭示其命運軌跡的技術。起始的單個細胞被標記,并傳遞給所有子細胞,形成一系列克隆。譜系示蹤能夠提供祖細胞后代的生物特征如細胞表達譜特征、分化狀態(tài)等,為細胞命運圖譜的繪制提供了強有力的手段。細胞命運圖譜的繪制起源于早期視覺上對胚胎發(fā)育過程細胞的追蹤,并將細胞映射到胚胎發(fā)育的不同階段[1],但直接觀察局限于通體透明的動物,如線蟲等。為此科學家開發(fā)了使用染料注射、移植、病毒轉導或熒光蛋白標記的遺傳重組等方法來標記并追蹤感興趣的細胞[2]。但這些方法產(chǎn)生的細胞標記或難以穩(wěn)定維持,或分辨率較低,很難追蹤到細胞水平。隨著基因組學的進步以及單細胞測序技術的發(fā)展,開發(fā)了可以在分子水平對細胞身份加以區(qū)分的技術,這極大促進了譜系追蹤技術的發(fā)展[3]。在單細胞中引入獨特的條形碼,通過測序識別譜系,極大豐富了譜系信息的多樣性。
此綜述介紹了傳統(tǒng)的譜系追蹤方案分析了幾種前沿的譜系追蹤方法及其演變發(fā)展過程,并對“回溯性”的譜系追蹤以及生物信息學在譜系追蹤中的發(fā)展應用加以概括,最后討論了譜系追蹤技術未來的發(fā)展。
命運映射以及譜系繪制依賴于非破壞性的追蹤每個細胞在發(fā)育過程中的軌跡,前瞻性的譜系追蹤實驗可以追溯到19世紀,隨著光學顯微鏡和染料注射技術的進步,通過直接觀察追蹤細胞的發(fā)育軌跡得以實現(xiàn)[2,4]。由于技術限制,最初的譜系追蹤集中在透明無脊椎動物[1,5]。隨著延時攝影技術的進一步發(fā)展,允許在發(fā)育過程中追蹤胚胎內細胞及其后代的命運軌跡[6]。這一方法最著名的應用是John Sulston借助顯微鏡將線蟲從單個細胞到成體發(fā)育的整個過程記錄下來,繪制了線蟲的譜系發(fā)生樹[7]。
脊椎動物等胚胎發(fā)育過程含有更多細胞的生物,胚胎不透明,發(fā)育過程很難直接觀察。因此,其發(fā)育過程中細胞的圖譜繪制需要借助細胞標記方法,例如染色或放射性標記[2,4](圖1(a))。20世紀20年代 Vogt開發(fā)和應用了染料注射標記細胞來觀察胚胎發(fā)育過程的技術,并借此繪制蛙胚胎發(fā)育早期的命運圖譜[8],為從環(huán)節(jié)動物到小鼠等許多生物體發(fā)育過程中的命運圖譜的構建提供了寶貴經(jīng)驗[9]。但這些方法存在在體外觀察所需時間較長、染料可擴展性有限、光學顯微鏡分辨率低等。
重組酶的發(fā)現(xiàn)和應用促進了譜系追蹤技術的迅速發(fā)展,不同的重組酶系統(tǒng)能夠在特定位點之間介導基因組DNA發(fā)生可預測的倒位或缺失[10]。Cre重組酶(Cyclization Recombination Enzyme)介導 loxP(locus of X(cross)-over in P1)位點重組,基于此單重組酶譜系追蹤技術在兩個loxP中間融合了熒光蛋白基因,并將Cre基因與細胞特異標記基因串聯(lián),從而可以在特異的細胞類型中觸發(fā)熒光蛋白的表達來追蹤細胞命運軌跡[11-13](圖 1(b))。重組熒光蛋白是可遺傳持續(xù)表達,因此可通過顯微鏡讀出。在果蠅中FLP重組酶(flippase recombination enzyme)介導的FLP-FRT系統(tǒng)的重組被證明比Cre-loxP系統(tǒng)高效且毒性更?。?4],用于標記果蠅胚胎和卵巢中的克?。?5],但 FLP最適酶活溫度為30℃并不適用于哺乳動物的標記追蹤。
為了增加被追蹤的細胞群體的數(shù)量,研究人員引入多色報告系統(tǒng)的多個側翼為loxP位點的熒光蛋白編碼序列[16-17](圖 1(c)),在 Cre誘導下,loxP位點隨機重組,導致目標細胞群中不同熒光蛋白的多色鑲嵌表達。然而光學技術有限的顏色組合,限制了這類譜系追蹤的發(fā)展。為了解決熒光基團受限的問題,科研人員開發(fā)了稱為Polylox的遺傳DNA“條形碼”(圖1(d)),使用隨機 Cre-LoxP介導的重組,可以產(chǎn)生達190萬個獨特的遺傳條形碼來標記細胞,大大增加了可追蹤克隆的數(shù)量[18]。利用該技術在體內鑒定了造血干細胞克隆,表明紅系-髓系分化獨立于普通髓系祖細胞,并證實了先前的造血干細胞譜系結構[18]。利用分子條形碼,結合分子探針對細胞的發(fā)育譜系進行了可視化的追蹤,通過對胚胎發(fā)育早期神經(jīng)母細胞進行編輯,然后分析其后代,揭示了果蠅大腦發(fā)育過程中神經(jīng)母細胞的重要性[19]。
許多細胞類型不能通過單一的細胞標記物與其他細胞系進行區(qū)分,并且Cre會在非靶向細胞中表達,這都限制了單重組酶介導的譜系追蹤系統(tǒng)的精確性。研究人員開發(fā)了基于重組酶的雙重組酶激活的譜系追蹤(Dual recombinase-activated lineage tracing,DeaLT)技術(圖1(e)),提高了譜系追蹤的精確性,很好地解決了這個技術難題。通過使用DeaLT允許在個體器官組織精確追蹤細胞命運轉變,揭示了小鼠成年個體中肝和胰臟細胞的增殖及命轉變運[20-22]。
圖1 譜系追蹤的常用方法(a~h)(a)染料注射直接追蹤細胞命運;(b)Cre重組酶報告系統(tǒng)標記特定細胞;(c)多色報告系統(tǒng)追蹤不同細胞命運軌跡;(d)Polylox系統(tǒng)記錄譜系信息;(e)雙重組酶介導的譜系追蹤策略;(f)CellTagging方法記錄譜系信息;(g)基于CRISPR/Cas9的動態(tài)譜系追蹤策略;(h)基于體細胞突變的回溯性譜系追蹤方案Fig 1 Common methods of lineae tracing(a-h).(a)Direct tracking of cell fate via dye injection;(b)The Cre recombinase reporter system labels specific cells;(c)Multicolor reporter system tracks the fate of different cells;(d)Polylox system records lineage information;(e)Dual recombinase-mediated genetic lineage tracing strategies;(f)The Cell Tagging method records lineage information;(g)Dynamic lineage tracing based on CRISPR/Cas9;(h)Retrospective lineage tracing strategy based on somatic mutation
測序技術和遺傳學的進步,促進了利用DNA條形碼進行單細胞譜系追蹤(single-cell lineage tracing,scLT)的發(fā)展。這一技術是預先將可遺傳的基因序列引入細胞,然后根據(jù)測序數(shù)據(jù)進行追溯,確定克隆遺傳關系并構建細胞譜系[23]。ScLT技術起源于利用逆轉錄病毒進行的原始克隆分析[24-25]或是利用轉座子[26]將DNA序列整合到細胞中,并通過測序進行區(qū)分。這些有區(qū)別的DNA序列通常被稱為“條形碼”,以表示每個祖先及其后代的獨特標記。DNA條形碼通常由一段隨機的核苷酸序列組成,因此提供了可用于區(qū)分單細胞復雜性的標記[27]。早期每個細胞都被一個獨特的DNA條形碼標記,這意味著具有不同條形碼的細胞來自不同的祖細胞,即使它們可能具有相似性。在過去的幾年里,人工合成DNA條形碼方法被廣泛用于在各種組織中進行譜系追蹤。在造血系統(tǒng)中,借助病毒條形碼描繪了造血干細胞和造血祖細胞是如何分化成組成血液的各種成熟細胞,揭示了長期造血干細胞是巨核細胞系的主要來源,而體內的造血干細胞和淋巴在其祖細胞的分化是多樣的[24,26-28]。
為使用scRNA-seq技術捕捉細胞條形碼,研究人員將標記細胞的DNA條形碼轉錄為RNA進行測序[29-31]。這些方法通常在表達基因的3’UTR中引入條形碼,使條形碼可以與轉錄組同時捕獲。研究人員開發(fā)了“CellTagging”的條形碼標記技術(圖1(f)),用于在連續(xù)輪次中標記細胞,從而產(chǎn)生相對時間尺度,實現(xiàn)譜系樹構建,并揭示了成纖維細胞誘導到內胚層祖細胞過程的兩條細胞命運重編程軌跡[29,32]。這些條形碼通過慢病毒引入細胞,適用于可獲取的體外細胞培養(yǎng)或再生系統(tǒng),在這些系統(tǒng)中可以對部分克隆提前收集,剩下的克隆繼續(xù)培養(yǎng)進行細胞命運區(qū)分,以此形成一個線索,將細胞早期命運和晚期命運聯(lián)系起來[33-34]。
利用轉基因可編輯條形碼進行譜系追蹤的方法,研究人員使用CRISPR/Cas9使轉基因的多拷貝報告基因發(fā)生可遺傳的緩慢隨機突變生成條形碼[34](圖 1(g)),從而能夠在整個生物體中進行譜系追蹤,識別相關細胞的譜系關系并構建系統(tǒng)發(fā)育樹。這些方法引入了sgRNA靶向已知的轉基因條形碼,隨著時間的推移產(chǎn)生遺傳條形碼的積累,從而允許進行譜系重建。GESTALT(genome editing of synthetic target arrays for lineage tracing)和 Scartrace首次使用Cas9產(chǎn)生的條形碼用于斑馬魚發(fā)育過程的譜系追蹤,繪制了受精卵發(fā)育早期的細胞命運譜系樹[35-36]。這些技術產(chǎn)生的條形碼多樣性有限,并且注射的Cas9蛋白和sgRNA在細胞內會被迅速降解,因此條形碼的多樣性以及可標記的時間跨度有限。為了克服這些限制,Scar-Trace、scGESTALT(single cell genome editing of synthetic target arrays for lineage tracing)和LINNAEUS(lineage tracing by nuclease-activated editing of ubiquitous sequences) 被 開 發(fā) 出來[37-39]。scGESTALT通過熱休克誘導Cas9蛋白表達,實現(xiàn)較長時間的編輯。ScarTrace通過注射Cas9基因將條形碼將編輯時間從3 h延長至10 h,解決了標記時間跨度的問題。而LINNAEUS通過將編輯位點分散在全基因組范圍,極大增加了條形碼的多樣性,提高了譜系追蹤的效率。
相對于斑馬魚小鼠胚胎發(fā)育緩慢,采用注射的方法只能實現(xiàn)前幾次卵裂的標記,為了實現(xiàn)長時間的條形碼編輯,研究人員開發(fā)了基于“歸巢”基因的條形碼生成方法,通過利用歸巢向導RNA(homing CRISPR guide RNA,hgRNA)將CRISPR/Cas9引導至其自身的DNA位點,使其序列產(chǎn)生多樣變化以充當遺傳條形碼[40-42],并產(chǎn)生了可表達hgRNA的MARC1(mouse for actively recording cells 1)小鼠品系,它與任何誘導型或細胞特異性Cas9表達品系鼠雜交,即可激活基因編輯進行譜系追蹤。但在MARC1后代中產(chǎn)生的條形碼不能通過RNA-seq檢測,這限制了其應用。另一種方法是基于CRISPR/Cas9借助PiggyBac轉座酶開發(fā)的分子記錄器,該方法實現(xiàn)了哺乳動物原腸胚形成過程細胞命運譜系示蹤[43],其結果證實了先前的研究結果,即原腸胚形成過程中一小部分后腸來自胚外祖細胞[44]。以上小鼠譜系追蹤研究需要每次實驗進行新的胚胎操作,并且大量隨機轉基因片段插入限制了對成體組織的分析。研究人員開發(fā)了CARLIN小鼠品系,將可誘導的Cas9與一個單一、穩(wěn)定整合的可變位點進行結合,以記錄譜系數(shù)據(jù),從而解決了這些問題,揭示了造血再生的克隆動力學[45]。
基于分子遺傳學的譜系追蹤技術需要對所追蹤的細胞基因組進行編輯或改造,這種預見性的譜系追蹤顯然不可能在人類發(fā)育和疾病的背景下應用[46]。因此出現(xiàn)了另外一類借助人類基因組中包含的自然發(fā)生的體細胞突變,用作譜系條形碼來跟蹤細胞的起源的技術,既回溯性譜系追蹤(圖1(h))。天然體細胞中許多突變類型是永久性可遺傳的[47],因此可以作為譜系追蹤的條形碼。在核DNA中這些天然條形碼主要分為4類:CNV、SNV、長散在核元件(long interspersed nuclear element 1,LINE-1)和微衛(wèi)星重復序列。CNV是基因拷貝數(shù)變異,在多項研究中已被用于重建乳腺腫瘤發(fā)生、侵襲和轉移的克隆動力學[48-49]。SNV是單核苷酸常見變異,可以通過基因組或者外顯子測序檢測,已應用于人腦、腎腫瘤等組織的細胞譜系[50-51]。LINE-1在基因組中含量豐富,并具有在細胞分裂時通過自發(fā)地“復制-粘貼”轉位到基因組中不同染色體位點的能力[52],因此LINE-1元件的在染色體中的位置可以用作譜系條形碼[53]。微衛(wèi)星重復序列的基因組位置是已知的,可以進行特定序列的測定,通過此特點可用來構建細胞小鼠譜系樹,研究雌性生殖系的動態(tài)變化[54]。此外,線粒體基因(mtDNA)也存在天然突變[55],其發(fā)生頻率是核基因的10~100倍,并且線粒體基因組的尺寸小,可用來重建克隆關系[56]。
隨著分子遺傳學的發(fā)展,已有許多遺傳標記手段用于譜系追蹤,但所有的譜系追蹤技術都需要依賴于嚴格的數(shù)據(jù)處理,借助生物信息學分析對數(shù)據(jù)進行可視化的展示。通過數(shù)據(jù)降維可以可視化譜系追蹤分化軌跡,是早期算法之一[57]。另一類微分軌跡重構算法是基于k-近鄰圖(k-Nearest Neighborhood Graph,k-NNG),每個細胞連接到其k個最近的細胞,從而將相似的細胞彼此關聯(lián)起來,通過這種方法構建了人造血干細胞到原始B細胞的軌跡[58],并構建了小鼠胸腺中T細胞發(fā)育的已知階段[59],而 StemID[60]和 Mpath[61]通過使用 k-medoid或分層聚類創(chuàng)建細胞簇達到譜系追蹤的目的。Cassiopeia是為當前的CRISPR/Cas9 scLT方法量身定制的計算方式,可以用于構建系統(tǒng)發(fā)育樹,而且可以結合真實數(shù)據(jù)以及仿真框架進行算法評估[62]。目前新的算法正在不斷被開發(fā),用以更好地滿足譜系追蹤技術的需要[63]。然而生物信息學算法的開發(fā)應用大都是基于特定的假設,這可能會限制分析結果的準確性,因此研究人員不斷對算法進行優(yōu)化,以提高分析結果的可靠性[64]。
自19世紀起,譜系追蹤的工具從借助光學顯微儀器進行簡單的觀察,發(fā)展到單細胞水平細胞譜系追蹤?;谥亟M酶的譜系追蹤技術,對初始的一群細胞進行永久性可遺傳熒光標記,通過觀察轉基因熒光蛋白的表達對細胞群體進行區(qū)分,這種標記更穩(wěn)定,可以在組織水平進行特異性區(qū)分,但是其分辨率較低,難以區(qū)分單細胞身份,并且通量較小。分子生物學特別是轉基因技術以及測序技術的發(fā)展,使引入DNA條形碼進行細胞命運軌跡的追蹤成為可能,但還存在一些問題,如產(chǎn)生的可用于追蹤的條形碼由于轉基因丟失或沉默限制了其發(fā)展,因此開發(fā)一種減少條形碼沉默并且可誘導的系統(tǒng)可能會某種程度上提高譜系追蹤效率。此外,外源條形碼測序過程的丟失造成了后期分析過程中細胞譜系信息的不對稱,因此我們期待一種可以通過scRNA-seq直接捕捉內源條形碼生成系統(tǒng),不用在建庫測序時單獨捕捉條形碼信息,從而降低生物信息學分析的錯誤率,進而提高譜系追蹤的準確性。而通過條形碼進行譜系追蹤的方案都需要進行基因操作,使用僅限于體外研究或生物模型,以基因組自身突變?yōu)榛A的回溯性譜系追蹤,允許對人類發(fā)育過程以及腫瘤組織進行細胞命運圖譜繪制,這極大擴展了譜系追蹤技術的應用。哺乳動物胚胎或人體腫瘤組織是由數(shù)百萬高度異質性的細胞組成,目前為止,還沒有對所有細胞的身份及譜系信息注釋。從第一個scRNA-seq應用以來,現(xiàn)今已可以對多達兩百萬個細胞進行測序,繪制小鼠胚胎發(fā)育圖譜[65],以及繪制具有時間分辨的高分辨率動態(tài)連續(xù)命運圖譜[66]。因此,我們期待未來幾年技術的進步,單細胞測序和相關的分子生物學和遺傳生物學及其他交叉學科的發(fā)展,使得更精確的重建整個個體譜系成為可能。
遺傳譜系追蹤的主要限制是缺乏空間分辨率,無論何種方式進行條形碼標記,分析過程都不可避免的丟失空間信息。隨著MEMOIR(memory by engineered mutagenesis with optical in situ readout)的發(fā)展,在原位重建細胞譜系關系成為可能,但其局限性在于不能讀出細胞初始位置與測序時細胞位置的關系[67],這限制了我們對于細胞遷移和分化的理解。最近開發(fā)的新的空間轉錄組學方法,有可能分析完整的斑馬魚或小鼠胚胎[68]??臻g譜系的建立需要更高的技術手段,如組織的固定通透技術、高親和力特異性的抗體制備技術和影像成像技術和針對圖像處理和生物學信號整合分析的軟件開發(fā)[69-70]。
綜上所述,未來細胞譜系追蹤技術將圍繞空間譜系的建立所需技術的開發(fā),以此對細胞譜系關系進行更加精確的空間解析,從而深入理解細胞命運的轉變。