劉 旭,常 德*,王俊鋒
(1.中國人民解放軍總醫(yī)院 第三醫(yī)學中心,北京 100069; 2.中國人民解放軍總醫(yī)院 第二醫(yī)學中心,北京 100853)
為揭示各種生命活動和遺傳現(xiàn)象,人類在上世紀90年代啟動了人類基因組計劃。隨著人類基因組測序計劃的順利完成,生命科學研究重心轉(zhuǎn)向了研究基因功能,以及解析基因在不同表型中的作用機制?;蚪M測序只是人類基因組計劃中的第一個步驟,更艱巨的任務(wù)是明確基因的功能和破譯非編碼區(qū)的意義,也就是DNA序列如何決定和影響生物學性狀。在結(jié)構(gòu)基因組學的研究成就和高通量的分析技術(shù)得到發(fā)展的背景下,功能基因組學作為一門新學科應(yīng)運而生[1-2]。其研究目的是分析全部基因的功能,包括結(jié)構(gòu)編碼基因、小分子RNA、非編碼RNA和代謝產(chǎn)物等, 解釋它們是如何相互調(diào)控和影響生物學表型,從而控制生命現(xiàn)象。功能基因的篩選和鑒定是研究基因如何調(diào)控生物過程發(fā)生和變化的基礎(chǔ),這項工作的順利完成很大程度上依賴新技術(shù)、新方法的發(fā)展和應(yīng)用。為分離出某種表型或生命過程的功能基因,一方面可以從性狀入手研究基因,即基于正向遺傳學的篩選方法[3];也可從基因入手反向研究相關(guān)性狀,即基于反向遺傳學的篩選方法[4],本文將對功能基因篩選策略及其優(yōu)缺點進行綜述(表1)。
基于正向遺傳學的篩選策略是指以個體或細胞的特定表型為切入點,尋找表型相對應(yīng)的基因,并揭示基因的功能[3]。該策略的完成需要具備特異性的生物學表型,然后通過分子生物學或遺傳學方法獲得候選基因,最后對候選基因進行評價和功能驗證。具體包括傳統(tǒng)的遺傳學分析、基于DNA測序的基因突變分析、基因表達譜分析和全基因組關(guān)聯(lián)研究、高通量基因測序、表達譜分析(基因表達譜、蛋白表達譜、microRNA表達譜和代謝組等)和生物信息學技術(shù)等。
功能基因在基因組上的基因座一般都相對較穩(wěn)定,通過構(gòu)建精細遺傳圖譜和分子連鎖圖,先將突變基因首先確定在某條染色體的某個區(qū)段,然后利用各種分子標記來把定位區(qū)間逐漸縮小一個范圍。下一步采用計算機和分子遺傳學方法, 分離定位區(qū)內(nèi)可能相關(guān)的基因,并逐個檢測和對比家系中患者與正常者的這些基因,確定相應(yīng)生物學性狀的候選基因[4]。利用該方法中國科學家收集短指家系中短指患者及健康人標本,用連鎖分析方法進行全基因組掃描,首次定位并克隆了家族性A-1型短指(趾)癥基因IHH[5];然而該方法對研究對象要求較高、工作繁重,耗費大量人力、物力和財力。
全基因組關(guān)聯(lián)研究(genome-wide association studies,GWAS)是篩選大規(guī)模群體樣本基因組中的序列變異,包括單核苷酸變異(單核苷酸多態(tài)性single-nucleotide polymorphisms, SNPs)和 拷 貝 數(shù) 變 異 (copy number variation, CNV)等,尋找與某種表型具有相關(guān)性的基因,是篩選復雜疾病易感基因的方法之一[6]。利用該技術(shù)發(fā)現(xiàn)了冠心病易感基因ADTRP和MIA3/TANGO1[7]、肥胖癥相關(guān)的基因FTO[8]以及2型糖尿病[9]的相關(guān)易感基因PTPN22、CTLA-4、IL2-RA和INS[9]。GWAS為復雜性狀研究提供了線索,找到了很多未曾發(fā)現(xiàn)的基因和染色體區(qū)域,并且不需預先假設(shè)相關(guān)基因。但是,GWAS研究中的樣本混雜,易出現(xiàn)假陰性和假陽性結(jié)果。盡管非編碼區(qū)基因可以調(diào)控編碼基因,從而影響表型,但是GWAS發(fā)現(xiàn)的關(guān)聯(lián)SNPs常在基因間區(qū)或內(nèi)含子上, 很少位于外顯子區(qū)或者UTR區(qū)。大量研究結(jié)果提示稀有變異導致了許多復雜表型,而芯片檢測位點大多是發(fā)現(xiàn)常見變異,較少檢測到稀有變異。同時數(shù)據(jù)共享、數(shù)據(jù)解讀和后續(xù)基因功能驗證都是需要克服的問題。
表1 常用的基因篩選方法特點Table 1 Features of commonly used genetic screening strategies
表達譜包括基因表達譜、蛋白表達譜、microRNA表達譜和代謝產(chǎn)物譜等。通過比較具有不同生物學表型樣本間的基因、蛋白質(zhì)或者microRNA的差異,篩選出表型相關(guān)分子是目前用于鑒定功能基因較多的一種方法[10-11]。DNA微陣列是較早運用于篩選功能基因的一種技術(shù),隨后出現(xiàn)了轉(zhuǎn)錄組測序技術(shù)[10],該技術(shù)不需提前設(shè)計芯片,就可對樣本的轉(zhuǎn)錄組進行檢測。同理,蛋白組表達譜和microRNA表達譜可對比樣本間蛋白質(zhì)和microRNA的表達差異,篩選出某種生物學表型相關(guān)的蛋白質(zhì)或者microRNA分子[10-11]。然而,差異表達譜技術(shù)最大的缺陷在于基因、蛋白、microRNA分子和代謝產(chǎn)物的時空表達差異性。生命活動是一種動態(tài)過程,若僅比較兩種或幾種靜止的狀態(tài),無法再現(xiàn)生物學過程,篩選到的性狀相關(guān)分子同表型之間無因果關(guān)系,后續(xù)需要大量的驗證工作。另外,這些技術(shù)產(chǎn)生的數(shù)據(jù)量巨大,如何從中挖掘出有意義的信息也是后續(xù)分析中的核心問題。
利用高通量基因組測序方法,分析野生型和突變型之間基因組的差異,可找到控制表型的DNA序列。目前應(yīng)用較多的是基因組外顯子測序,該技術(shù)捕捉外顯子DNA區(qū)域,富集后進行高通量測序,從而獲得表型相關(guān)基因,已有一大批功能基因被鑒定出。然而該技術(shù)主要針對結(jié)構(gòu)變異區(qū),忽略了非編碼區(qū)變異,并且在捕捉外顯子DNA時存在捕獲不均和偏差等問題。全基因組測序技術(shù)可以對全基因組范圍內(nèi)的插入缺失(insertion-deletion, Indel)、拷貝數(shù)變異(copy number variation, CNV)、結(jié)構(gòu)變異(structure variations, SV)和單堿基變異(single nucleotide variants, SNV)進行檢測,分析較為全面,但是該技術(shù)主要問題是成本較昂貴以及如何從海量數(shù)據(jù)中發(fā)掘有意義的信息。
隨著計算機和網(wǎng)絡(luò)技術(shù)的發(fā)展,以及基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等不同大規(guī)模組學的數(shù)據(jù)的整合,生物信息學在綜合現(xiàn)有資料、預測和選擇基因序列、克隆并獲得候選功能基因、開展基因功能篩選研究中扮演著重要角色。該研究策略不限定某種技術(shù)或信息,將不同的數(shù)據(jù)整合到一個大的體系中,從整體角度進行候選功能基因的選擇,篩選的范圍廣,常用于新基因的功能探索研究。不過該領(lǐng)域依賴于網(wǎng)絡(luò)和計算機科學技術(shù)的發(fā)展,受限于生物大數(shù)據(jù)的共享程度,更重要的是如何去偽存真,從海量醫(yī)學文獻和數(shù)據(jù)中挖掘重要的候選基因[12]。
基于反向遺傳學的篩選策略是在基因組全部DNA序列信息的基礎(chǔ)上,對基因進行加工和修飾,包括點突變、基因插入、基因剔除或基因置換等,人工使得被修飾的生物體具備某些生物學特性,從中挑選該興趣的表型并鑒定相關(guān)基因,研究功能基因的結(jié)構(gòu)與功能[4]。目前,利用該技術(shù)篩選功能基因的方法眾多,主要包括cDNA文庫技術(shù)、RNAi文庫技術(shù)、反義RNA技術(shù)、CRISPR/Cas9篩選技術(shù)和插入突變技術(shù)等。
cDNA文庫是指機體編碼成蛋白質(zhì)的基因的集合,通過mRNA的反轉(zhuǎn)錄產(chǎn)生的,利用PCR、酶切、連接、轉(zhuǎn)化等DNA克隆技術(shù)生成cDNA文庫。將構(gòu)建cDNA表達文庫導入特定的細胞,人工誘導突變細胞庫,通過特定表型篩選技術(shù)獲得感興趣的表型[13],并反向定位所導入的cDNA克隆,從而鑒定出表型相關(guān)基因,同時可直接研究目的基因;但是cDNA文庫篩選功能基因時,需要提前知道基因序列,且只能過表達突變細胞文庫中的目的基因。
RNAi是生物界廣泛存在的一種現(xiàn)象,在雙鏈RNA激活下,高效特異性降解同源mRNA。該技術(shù)可特異性抑制或關(guān)閉特定基因表達,在功能基因組學、基因治療和基因轉(zhuǎn)錄調(diào)控研究等領(lǐng)域應(yīng)用廣泛[14]。RNAi篩選策略的早期應(yīng)用開始于線蟲和果蠅等生物,篩選細胞凋亡、細胞形態(tài)和代謝相關(guān)的功能基因,隨后逐漸應(yīng)用至篩選哺乳動物生命過程相關(guān)功能基因,包括生長發(fā)育、感染發(fā)生、腫瘤耐藥和轉(zhuǎn)移基因。然而,篩選效果同RNA文庫的質(zhì)量、形式以及RNAi抑制效率等相關(guān)[15]。存在的主要問題包括:第一,基因覆蓋面窄,因為現(xiàn)有大部分RNAi文庫必須提前知道靶基因的序列,需要構(gòu)建RNAi隨機文庫來彌補;第二,為保證較好的干擾效果,每個基因需合成多條寡核苷酸或構(gòu)建多個載體,導致大大增加了工作量和成本;第三,只能抑制或關(guān)閉基因的表達,不能過表達基因,而某些突變表型是通過基因過表達獲得,因此,需要配合cDNA文庫技術(shù)使用[20]。
CRISPR-Cas9技術(shù)可進行基因編輯,主要是通過一段與目標DNA相同的向?qū)NA序列來定位靶向基因,指導Cas9酶進行基因的修飾,從而突變基因。CRISPR/Cas9技術(shù)能高效、準確、簡便的修飾基因,已廣泛應(yīng)用于生物醫(yī)學領(lǐng)域,逐漸取代RNAi和cDNA文庫技術(shù)用于篩選和鑒定功能基因,是一種較為理想的功能篩序方法[16]。然而,由于CRISPR-Cas9系統(tǒng)通過20個堿基的向?qū)NA定位靶標,有可能錯配導致脫靶,是目前限制其應(yīng)用的一個重要缺陷[17]。
模式生物是指在科學試驗中廣泛應(yīng)用的、具有標準屬性的試驗生物。這些生物的結(jié)構(gòu)簡單、細胞數(shù)量少,分布簡單,表型容易觀察[18]。目前常用的模式生物有果蠅、線蟲、擬南芥和酵母等[19],該類生物的基因組小,編碼基因的比例高,主要是管家基因,很少有基因組中的重復序列和非編碼序列,是壓縮了的基因組,適合編碼區(qū)基因的研究。
插入突變是利用已知的外源DNA插入序列破壞基因的結(jié)構(gòu)而導致突變,可以直接驗證個別基因與所篩選性狀之間的關(guān)系,該方法不需提前知道基因表達和基因產(chǎn)物,可對未知基因進行研究,是一種理想的功能基因組學研究方法[20]。目前,利用插入突變進行功能基因組學研究應(yīng)用較多的工具是轉(zhuǎn)座子,包括DNA-DNA方式轉(zhuǎn)座的轉(zhuǎn)座子和反轉(zhuǎn)錄轉(zhuǎn)座子。前者可通過DNA復制或直接切除兩種方式獲得移動片段,并將移動片段插入基因組;后者在結(jié)構(gòu)和復制上類似反轉(zhuǎn)錄病毒,先通過轉(zhuǎn)錄合成mRNA,再經(jīng)過反轉(zhuǎn)錄合成新DNA序列整合到基因組中。由于轉(zhuǎn)座子可在基因組中跳躍,利用轉(zhuǎn)座子作為工具,對基因組中的基因進行插入突變,并根據(jù)轉(zhuǎn)座子位置可鎖定插入位點,得到功能獲得性或丟失性突變,選擇合適的表型篩選方法分離突變克隆,最后克隆功能基因[21]。
本團隊整合了轉(zhuǎn)座子插入突變技術(shù)、反義RNA技術(shù)和真核基因表達調(diào)控技術(shù)的功能基因組學技術(shù),建立了隨機基因突變調(diào)控技術(shù)。該技術(shù)基于能在真核細胞中高效整合的piggyBac轉(zhuǎn)座子而構(gòu)建的基因搜尋載體隨機插入基因組,通過插入的基因搜尋載體上的四環(huán)素反應(yīng)元件(TRE)受到轉(zhuǎn)錄激活因子的激活,產(chǎn)生反義RNA可以下調(diào)基因表達,而且該種基因表達的調(diào)控受強力霉素調(diào)控。因此,該技術(shù)產(chǎn)生全基因組純合基因突變;提供全基因組基因篩選和基因功能分析;同時發(fā)現(xiàn)并證實其基因突變和功能表達的關(guān)系;系統(tǒng)性基因功能定位和分析其在遺傳和生化通路中的功能特點;快速分離與疾病有關(guān)基因和變阻器式基因表達調(diào)控。
此外,在插入突變中應(yīng)用較多的轉(zhuǎn)座子包括反轉(zhuǎn)錄病毒、Sleeping Beauty、PiggyBac、Tol1/2、Hsmar1和Mions等。1993年以線蟲為研究對象,證明可利用轉(zhuǎn)座子在基因組中獲得插入突變[22];隨后采用反轉(zhuǎn)錄病毒作為基因搜尋載體并結(jié)合相應(yīng)的表型可篩選出新的腫瘤抑制基因tsg101;1997年首次在哺乳動物細胞中使用外源性SB轉(zhuǎn)座子突變基因[22];2004年報道了一種能在全基因組范圍內(nèi)整合的轉(zhuǎn)座子PiggyBac[23]。PiggyBac是一種從昆蟲中分離出來的可移動的DNA元件,通過“剪切和粘貼”機制在載體和染色體之間進行有效的轉(zhuǎn)位,整合位置多見于內(nèi)含子區(qū)域,插入效率高,在原核和真核生物中均可進行有效轉(zhuǎn)座。2005年證明在哺乳動物細胞中PiggyBac轉(zhuǎn)座子系統(tǒng)能高效且穩(wěn)定的整合;很多實驗已證實PiggyBac轉(zhuǎn)座系統(tǒng)攜帶的外源基因片段的能力強,最高可攜帶14.3 kb片段且不會影響轉(zhuǎn)座效率;近70%插入位點位于轉(zhuǎn)錄單位附近;插入效率高;能在人體細胞的23條染色體上轉(zhuǎn)座,插入位點可覆蓋整個基因組[22-25]。因此,插入突變篩選功能基因的策略依賴于所使用的插入突變工具,一方面要有較高的整合效率,另一方面要在基因組上覆蓋范圍廣[26-27]。
綜上所述,功能基因(既包括編碼基因,又包括非編碼基因)的篩選研究對于揭示生物的生長、發(fā)育、代謝等生命活動規(guī)律,以及人類重大疾病的發(fā)生機制、預防、診斷、治療和藥物研發(fā)等方面具有重要意義。人類全基因組核苷酸測序的完成只是解密人類遺傳密碼的基礎(chǔ),如果不能賦予一個基因功能,徒有核苷酸的排列序列是毫無價值和意義的,更重要的是認識這些DNA是如何實現(xiàn)其功能的。雖然可以憑借核苷酸序列推測基因的功能,但是后期需要大量的實驗驗證。因此,通過特定的方法進行功能篩選,獲得同表型具有因果關(guān)系的基因,在后基因組時代解析基因功能以及開展相關(guān)應(yīng)用中意義重大。本文中基于傳統(tǒng)遺傳學、全基因組關(guān)聯(lián)分析、表達譜差異、基因組測序、生物信息學、cDNA文庫、RNA干擾、CRISPR/Cas9技術(shù)、插入突變、模式生物等技術(shù)的篩選策略,根據(jù)是從表型到基因的篩選,還是從基因到表型的篩選,大致分為基于正向遺傳學和基于反向遺傳學的篩選技術(shù)并進行了綜述;然而,這些技術(shù)并不是孤立的,??梢月?lián)合應(yīng)用,優(yōu)勢互補,最終的目的是快速、系統(tǒng)地評價基因功能,發(fā)現(xiàn)功能基因的潛在價值,服務(wù)于人類健康。