曹修凱, 程 杰, 王曉剛, 黃永震, 藍賢勇, 雷初朝, 陳 宏
(陜西省動物遺傳育種與繁殖重點實驗室,西北農(nóng)林科技大學動物科技學院,陜西 楊凌 712100)
基因精準表達是細胞和個體維持正常生命活動的前提,而基因組染色質(zhì)三維結(jié)構是基因精準表達調(diào)控的結(jié)構基礎[1]。哺乳動物細胞內(nèi)長約2 m的DNA分子,以高度折疊濃縮成染色質(zhì)的方式存儲于直徑大約8 μm的細胞核內(nèi),形成復雜有序的三維結(jié)構,使得在線性基因組上相距很遠的基因表達調(diào)控元件與其靶基因在三維空間上充分接近,從而發(fā)揮功能元件的精細調(diào)控作用[2-3]。研究表明,基因組染色質(zhì)三維結(jié)構的變化會導致基因表達及其調(diào)控模式發(fā)生異常,進而引起表型變化[4]。隨著測序深度的增加和三維基因組學研究的不斷深入,不同層次的染色質(zhì)三維結(jié)構被先后揭示,三維結(jié)構由大到小可劃分為:染色質(zhì)疆域(territory)、染色質(zhì)區(qū)室(compartment)、拓撲關聯(lián)結(jié)構域(topologically associating domains,TAD)和互作環(huán)(loop)。
利用顯微觀測技術和染色質(zhì)構象捕獲技術,人們發(fā)現(xiàn)每條染色體傾向獨立占據(jù)不重疊的細胞核區(qū)域,這些區(qū)域稱為染色體疆域[5]。在染色體疆域內(nèi)部,基因組又不是隨機分布的,而是與基因轉(zhuǎn)錄活性相關[6]?;蚋患瘏^(qū)域傾向分布于染色體疆域的邊界處,盡管這不是一個普遍現(xiàn)象(存在例外情況)[7-12]。例如,Hoxd基因在小鼠e9.5胚胎肢芽是激活表達的,但該基因激活時并沒有轉(zhuǎn)移到染色體疆域的邊界處[11]。不同的染色體疆域間也存在相互作用(圖1),特別是在染色體疆域的邊界處[13]。
圖1 不同層次的染色質(zhì)三維結(jié)構示意圖及其二維互作熱圖[14]
在Mb水平上,具有相似染色體特性的基因組區(qū)域具有明顯的相互作用(圖1A)[15]。例如,基因組轉(zhuǎn)錄激活區(qū)域間會發(fā)生相互作用。這些區(qū)域通常具有較高的基因密度、染色質(zhì)開放性和組蛋白修飾。相反,轉(zhuǎn)錄抑制區(qū)域,通常是基因沙漠和異染色質(zhì)區(qū)域,會與其他轉(zhuǎn)錄抑制區(qū)域相互作用[15-17]。這種Mb水平上的染色體區(qū)域,稱為染色體區(qū)室,其中區(qū)室A是轉(zhuǎn)錄激活區(qū)域,區(qū)室B是轉(zhuǎn)錄抑制區(qū)域[15]。這種結(jié)構被Hi-C和顯微觀測技術所證實[18]。染色質(zhì)的空間分布通常與各種細胞核結(jié)構有關。例如,在內(nèi)部核空間(interior nuclear space)中經(jīng)常發(fā)現(xiàn)區(qū)室A,而區(qū)室B通常位于核纖層(nuclear lamina)和核仁[19]。在人類成纖維細胞中,大約40%的基因組與核纖層蛋白是關聯(lián)的[20]。在小鼠胚胎干細胞(ESC)分化為神經(jīng)祖細胞并進一步分化為星形膠質(zhì)細胞的過程中,數(shù)百個基因位點與核纖層之間的相互作用模式逐漸改變[21]。染色質(zhì)的空間分離不僅限于染色體內(nèi)區(qū)室,而且還適用于不同染色體間區(qū)室。最近的一項研究鑒定出了染色體間區(qū)室的相互作用[22]。這項研究發(fā)現(xiàn)染色體間轉(zhuǎn)錄抑制區(qū)域會在核仁處發(fā)生組裝,并且通常含有著絲點和核糖體DNA區(qū)域;這一發(fā)現(xiàn)與以前的觀察到的核仁相關染色體結(jié)構域是一致的[23]。相反,轉(zhuǎn)錄活化區(qū)域通常會在核散斑體(nuclear speckles)處發(fā)生組裝。從機制上講,B室域位于核外圍的位置取決于層粘連蛋白B受體,層粘連蛋白A和層粘連蛋白C,因為所有這三種蛋白的缺失會導致異染色質(zhì)重新定位到核內(nèi)部[24]。液—液相分離或許對于染色體區(qū)室的形成也有影響。例如,異染色質(zhì)的形成是由NIH3T3細胞中的異染色質(zhì)蛋白1(HP1)介導的相分離驅(qū)動的[25]。在果蠅中,當異染色質(zhì)域開始出現(xiàn)在早期胚胎中時,HP1a蛋白聚集為核中的相分離點[26]。然而,仍然缺乏直接證據(jù)表明區(qū)室A和區(qū)室B的形成是由相分離驅(qū)動的。
三維染色質(zhì)的另一結(jié)構層次是TAD(圖1B)[27]。TAD的最初由Hi-C和5C鑒定出來的。在2D互作熱圖中,它表現(xiàn)為對角線上的互作方塊。TAD通過明顯的邊界與相鄰區(qū)域分離開來,形成一個獨立的調(diào)控單元,主要功能是限制調(diào)控元件的互作距離[28]。TAD邊界通常具有較高的保守性,但也存在一些細胞特異的TAD邊界[29]。TAD邊界通常具有大量的染色質(zhì)結(jié)構蛋白CTCF和黏連蛋白(植物中TAD邊界一般缺少絕緣蛋白,邊界不明顯),對于維持TAD結(jié)構及穩(wěn)定性具有重要作用,不但可以指導染色質(zhì)折疊成高級結(jié)構,還可以正確指導遠距離轉(zhuǎn)錄調(diào)控,該邊界發(fā)生變化會導致基因調(diào)控變得紊亂[3]。TAD邊界通常還具有與基因激活相關的組蛋白修飾,如H3K4me3和H3K36me3[3]。隨著Hi-C測序深度的增加,利用最新算法(Arrowhead algorithm),在5 kb分辨率下,發(fā)現(xiàn)染色質(zhì)三維結(jié)構可以劃分為區(qū)室域(compartmental domains)和CTCF(CCCTC-binding factor)環(huán)。區(qū)室域的形成與CTCF無關,是由于染色質(zhì)狀態(tài)和基因轉(zhuǎn)錄導致的,而CTCF環(huán)是由黏連蛋白和CTCF介導形成的。區(qū)室域比TAD要小,可進一步劃分為A/B區(qū)室域[30]。由此可見,TAD內(nèi)可能包含不同區(qū)室域。
隨著測序深度的增加,在TAD內(nèi)部進一步發(fā)現(xiàn)了更加細小的互作峰,這是由TAD內(nèi)調(diào)控元件遠距產(chǎn)生的,稱之為互作環(huán)(圖1C)。與TAD兩端邊界成環(huán)相似,調(diào)控元件間的遠距互作也會使染色質(zhì)成環(huán)。因此廣義上講,染色質(zhì)環(huán)包括TAD環(huán)和loop互作環(huán),并且loop互作環(huán)通常在數(shù)百kb,遠比TAD要小。Loop互作環(huán)是三維基因組學研究的熱點,可以有效注釋基因組功能元件互作[31]。2003年至今,人類“基因組百科全書計劃(ENCODE)”已揭示了幾十萬計的基因組功能元件,這些調(diào)控元件對基因的精準表達調(diào)控基因起到至關重要作用[32]。但是早期的二維線性基因組功能研究不能系統(tǒng)有效地提供這些調(diào)控元件的靶基因信息,而且無法解釋這些調(diào)控元件是通過何種機制與距離它們幾萬甚至幾十萬個核苷酸的靶基因相互作用的。實際上,在真核生物的細胞核內(nèi),染色質(zhì)遵循一定規(guī)律進行復雜有序的三維折疊,形成特定的染色質(zhì)三維結(jié)構,使得在線性基因組上相距很遠的調(diào)控元件與其靶基因在三維空間上充分接近,從而發(fā)揮功能元件的精細調(diào)控作用[33]。隨著ENCODE計劃的推進,人們意識到這種遠距離的基因精準表達調(diào)控在哺乳動物基因組中廣泛存在,是機體正常生長發(fā)育的必要條件[34]。例如,MYC啟動子和PVT1啟動子可以競爭性地與PVT1內(nèi)部4個增強子相互作用,當PVT1啟動子區(qū)發(fā)生突變后,增強子與MYC啟動子在三維空間上的相互作用增強,促進癌癥發(fā)生[35];敲除Sox9遠端增強子后導致小鼠性別逆轉(zhuǎn)[36];位于FTO基因內(nèi)含子中的肥胖相關變異會與IRX3基因啟動子產(chǎn)生遠距互作[37]。
Loop環(huán)與TAD環(huán)均是基因組染色質(zhì)遠距成環(huán)形成的,統(tǒng)稱為染色質(zhì)環(huán),這點一定要注意,因為在許多研究報道中并沒有進行嚴格區(qū)分,這會造成讀者對文獻結(jié)論的曲解[38]。染色質(zhì)成環(huán)是由于環(huán)擠壓造成的,loop的形成有利于調(diào)控元件互作,可以調(diào)控基因表達[31,39],TAD通常比loop大,可以將調(diào)控元件互作限制在一定范圍內(nèi)[4,40]。TAD和loop的發(fā)現(xiàn)是隨著測序深度和相應算法而定義的,因此采用不同算法和分辨率得到的結(jié)果會存在不同。
據(jù)報道,86%的染色質(zhì)環(huán)被CTCF錨定,86%的染色質(zhì)環(huán)被粘粘蛋白亞基RAD21錨定[39]。粘著蛋白復合物可以形成環(huán)狀結(jié)構并且可以在染色質(zhì)上移動,粘著蛋白可以招募NIPBL和MAU2蛋白,并且通過WAPL蛋白從染色質(zhì)上釋放[41]。粘著蛋白在染色質(zhì)上的移位需要ATP,因為非特異性抑制ATPase或特異性突變粘連蛋白復合物中的ATPase結(jié)構域會抑制這種移位[42]?;蜣D(zhuǎn)錄也有利于促進粘連蛋白的移位,進而促進其環(huán)形結(jié)構的形成[43]。機制上來講,CTCF和粘連蛋白是通過“環(huán)擠壓”模型而使基因組DNA形成TAD[44]。在這個模型中,粘連蛋白向外擠壓染色質(zhì),直到粘連蛋白遇到CTCF形成的染色體邊界(圖2)[45]。通過這種方式,在TAD內(nèi)部形成了若干環(huán)形結(jié)構,這種環(huán)形結(jié)構可以促進TAD內(nèi)部的相互作用。在Hi-C互作矩陣中,這些染色質(zhì)環(huán)表現(xiàn)為高頻互作峰[3]。值得注意的是,loop兩個邊界處的CTCF結(jié)合位點通常是反向的,且其motif是面對面的[3]。改變CTCF motif的方向會破壞loop和TAD的形成[46]。這些結(jié)果強有力地說明了CTCF會促進loop的形成。此外,刪除環(huán)擠壓因子,粘連蛋白或裝配因子NIPBL,會導致TAD和loop的廣泛消失或減少[47]。然而,值得注意的是,目前缺乏直接證據(jù)證明粘連蛋白可以擠壓染色質(zhì)環(huán)。此外,最近的一項4C研究發(fā)現(xiàn)敲除CTCF相關的TAD邊界并不會影響局部染色質(zhì)相互作用的模式。盡管該研究未對全基因組三維結(jié)構進行評估(例如,使用5C或Hi-C進行評估),但除CTCF和粘著蛋白外,其他因素也可能有助于TAD的形成。
雖然TAD在眾多物種中廣泛存在[48-49],但是單細胞Hi-C研究表明,單細胞間的TAD并不是完全相同的[50]。例如,在小鼠中進行單細胞Hi-C分析表明,確實在單個細胞中發(fā)現(xiàn)了TAD,但不同細胞間的TAD不同[51]。敲除粘連蛋白后,盡管CTCF和粘連蛋白結(jié)合的TAD邊界已經(jīng)消失,但單細胞仍然存在TAD樣結(jié)構。目前尚不清楚粘連蛋白依賴的TAD和非依賴TAD是否存在根本不同。
圖2 染色環(huán)形成之環(huán)擠壓模型示意圖[2]
熒光原位雜交技術(FISH)是早期研究基因組染色質(zhì)空間結(jié)構和互作的主要方法,但是該方法操作繁瑣、信噪比低,并且不能直接獲取基因組不同位點間互作信息。得益于高通量測序技術快速發(fā)展,Dekker等人在2002年提出了染色質(zhì)構象捕獲(capturing chromosome conformation,3C)的新技術,通過生物信息學分析,將位點間的三維互作信息反映到二維互作熱圖上[52]。3C基本原理如圖3所示:首先分離細胞,然后利用甲醛固定DNA—蛋白質(zhì)復合物,再用酶切或超聲波將基因組DNA切割成特定大小的片段,再利用DNA連接酶進行臨位連接,提取DNA,最后進行PCR檢測。對于可能存在遠程互作的2個位點,根據(jù)這兩個位點的序列分別設計上下游引物,PCR擴增后,如果得到的PCR產(chǎn)物大小和序列符合預期, 那么說明這兩個位點可能存在非隨機的遠距互作。
圖3 3C技術原理[53]
3C實驗中的PCR模板,包含了大量的遠距位點間的片段交聯(lián),稱為“3C文庫”。在這個文庫中存在這些大量未知的基因組染色體位點間的互作信息。為了充分挖掘3C文庫中的互作信息,科研工作者在3C技術的基礎上又先后提出了多個高通量地檢測位點間遠程互作的技術,如4C(circular chromosome conformation capture)和5C(chromosome conformation capture carbon copy),Hi-C等[54-55]。3C檢測的是一對一互作,4C檢測的是一對多互作,5C和Hi-C則檢測的是全基因組任意兩位點間的互作[53]。由于特異性的問題,5C技術在應用時效果并不理想,隨后Dekker又提出了高通量染色體構象捕獲技術(Hi-C,high-throughput chromosome conformation capture)技術[56]。它是3C的一個高通量版本,操作簡便,重復性較好,并且可以實現(xiàn)檢測全基因組任意兩位點間的互作(圖4)。與3C文庫構建不同,DNA酶切末端用生物素標記的核苷酸不平,這樣可以提高后續(xù)文庫的特異性,隨后用連接酶進行連接,提取并純化基因組DNA,進一步將基因組DNA切割成特定大小的片段,然后用親和素對具有生物素標記的片段進行富集,最后進行高通量測序。經(jīng)過生物信息學分析可得到整個基因組任意兩位點間的互作信息,從而構建全基因組互作矩陣,互作矩陣的分辨率不僅取決于分析時所用基因組片段(bin)的大小,還與內(nèi)切酶的特性(4或者6堿基酶切)和測序深度有關[53]。基于3C的構象捕獲測序技術雖然可以證實兩個遠距位點在空間上的互作,但是卻無法研究特定蛋白或轉(zhuǎn)錄因子是否介導了染色質(zhì)高級結(jié)構的形成。ChIP-loop及ChIA-PET(見表1)技術完美解決了這個問題。ChIP-loop技術的基本原理是利用特定抗體將DNA—蛋白質(zhì)交聯(lián)固定后的復合物富集下來,經(jīng)鄰位連接后采用PCR檢測目標位點間是否存在由特定蛋白介導的遠程相互作用[57]。ChIA-PET與ChIP-loop原理相似,不同點是ChIP-loop檢測的是一對一互作,而ChIA-PET借助高通量測序技術可以實現(xiàn)全基因組范圍內(nèi)特定蛋白介導的多對多互作的檢測[58]。表1列舉了目前主要的染色質(zhì)構象捕獲技術。
圖4 Hi-C技術原理[15]
表1 主要的染色質(zhì)構象捕獲技術[59]
實驗全稱 文獻1 versus 13CChromosome conformation captureDekker等1 versus many4CChromosome conformation capture-on-chipSimonis等many versus many5CChromosome conformation capture carbon copyDostie等many versus many+protein specificChIA-PETChromatin interaction analysis paired-end tag sequencingFullwood等ChIP-loopChromatin immunoprecipitation-combined loop assayHorike等many versus allCapture-C Chromosome conformation capture coupled with oligonucleotide captureHughes等Capture-HiCHi-C coupled with oligonucleotide capture technologyBorbala等all versus allHi-Chigh-throughput chromosome conformation captureLieberman等
最近研究表明在細胞分化和重編程過程中基因組染色質(zhì)三維結(jié)構與基因表達動態(tài)變化存在密切關系。例如,在轉(zhuǎn)錄因子驅(qū)動的B淋巴細胞重編程為多能干細胞的過程中染色質(zhì)構象與基因動態(tài)表達密切相關[60]。那么基因組構象是如何影響基因表達的?大量證據(jù)表明基因組三維結(jié)構的形成可以使遠距增強子與其靶基因的啟動子彼此靠近,從而調(diào)控基因表達[61]。利用顯微定量技術研究發(fā)現(xiàn),啟動子—增強子互作是果蠅轉(zhuǎn)基因激活表達的必要條件,同樣在不如動物細胞中利用基因編輯技術產(chǎn)生的啟動子—增強子互作可以誘導基因表達。染色質(zhì)環(huán)(TAD和loop)的形成可以有效地限定啟動子—增強子互作范圍[62-63]。利用基因編輯技術刪除TAD邊界或loop錨點(CTCF結(jié)合位點刪除或翻轉(zhuǎn))通常會導致臨近基因表達紊亂。此外染色質(zhì)結(jié)構變異(包括大范圍的拷貝數(shù)變異),會破壞TAD邊界,導致啟動子—增強子互作異常(破壞原有互作或形成新互作),從而導致表型變異或疾病。例如WNT6-IHH-EPHA4-PAX3位點處的TAD邊界被破壞后使得原本調(diào)控EPHA4的增強子與WNT6、IHH、PAX3啟動子互作,導致前者無法表達而后三者異常表達,其表型就是指(趾)端畸形[64]。
CTCF是染色質(zhì)環(huán)形成的重要蛋白,敲除CTCF會導致基因組TAD結(jié)構的消失,但令人費解的是并沒有檢測到廣泛的基因表達失調(diào),僅有不到1 000個基因表達發(fā)生改變,這說明TAD對增強子的限定作用并沒有先前預測的那么大,可能僅僅會調(diào)控很小一部分基因表達。同樣敲除粘連蛋白對受超級增強子調(diào)控的基因影響最大,這一結(jié)果也從側(cè)面證實了上述推測[64]。敲除CTCF或粘連蛋白后,或許只有當細胞表達的轉(zhuǎn)錄因子可以招募轉(zhuǎn)錄共激活因子時,新形成的啟動子—增強子互作才能夠調(diào)控基因表達,但是目前尚未有相關研究報道。研究表明compartment A通常富集轉(zhuǎn)錄激活基因,而compartment B通常富集轉(zhuǎn)錄抑制基因[65-67]。但目前更高級的基因組三維結(jié)構(如染色質(zhì)區(qū)室)對基因的表達調(diào)控機制尚不清楚,因為在這種結(jié)構層次上來編輯基因組構象還很難實現(xiàn)。
三維基因組學應用主要包括基因組調(diào)控元件三維互作鑒定、基因組單倍型構建。其中基因組調(diào)控元件三維互作就是前述的互作環(huán),它主要是由啟動子—增強子互作、啟動子—啟動子互作、增強子—增強子互作等等而使染色質(zhì)成環(huán),對基因表達起到精準調(diào)控的作用,此處不再詳述。利用Hi-C特有reads可以在基因組范圍內(nèi)構建單倍型。任兵教授利用Hi-C技術于2013年完成了準確率達98%的人基因組單倍型構建[68]。此外,針對Hi-C數(shù)據(jù),研究人員還開發(fā)了HapCUT2軟件,專門用于單倍型構建[69]。利用Hi-C數(shù)據(jù)進行輔助基因組組裝已成為目前基因組組裝的重要手段。
目前二代和三代測序都是借助于全基因組鳥槍法將基因組打斷成小片段然后進行測序,然后將這些小片段重新拼接起來還原基因組信息。基因組組裝的過程是將reads拼接成contig,再將contig組裝成較長的scaffold,最后將scaffold定位到染色體。染色體水平參考基因組是后續(xù)功能基因研究的基礎,早期的基因組一般都是通過高密度遺傳圖譜進行染色體掛載,然而構建作圖群體耗時較長,再加上有些物種沒法構建作圖群體,故很多基因組都在scaffold甚至contig水平。目前利用二代測序整合Hi-C技術已經(jīng)完成了山羊和豬的輔助基因組組裝,提高了基因組組裝的準確性[70-71]。
目前Functional Annotation of Animal Genomes(FAANG)項目已經(jīng)完成了荷斯坦奶牛、阿爾卑斯山羊、白來航雞、大白豬的肝臟和T細胞三維基因組解析工作,但并未鑒定基因組loop結(jié)構[72]。此外本課題組也已完成秦川牛肌肉基因組三維結(jié)構及其對肌肉發(fā)育相關基因的轉(zhuǎn)錄調(diào)控研究。結(jié)果發(fā)現(xiàn)胎牛和成年牛肌肉存在大量差異loop結(jié)構,包含447個增強子,其中與基因啟動子成環(huán)的增強子有240個;構建了牛肌肉基因組調(diào)控元件互作圖譜,在共計4 716對啟動子—增強子互作中有142個肌肉發(fā)育相關基因(如ACVR1、BMP5、CAPN3、EGR3、FGF及其受體家族、FOX及其受體家族、IGF1、IGFBP5、MEF2C、MEF2D等)受到303個增強子調(diào)控,這些結(jié)果為肌肉發(fā)育的分子調(diào)控機制解析提供了數(shù)據(jù)支撐。
三維基因組學是后基因組學時代和后GWAS時代的研究熱點,利用三維基因組學可以更加深入鑒定并解析表型變異的關鍵突變(如SNP、Indel、CNV)及其分子機制,是基于高通量測序技術的基因組學和GWAS發(fā)展的必然結(jié)果。因此系統(tǒng)解析畜禽基因組染色質(zhì)三維結(jié)構有望為畜禽精準育種和遺傳改良提供理論基礎。