馮 勉,張 莉
(中國農業(yè)科學院北京畜牧獸醫(yī)研究所,北京 100193)
關鍵字:多組學聯(lián)合分析;畜禽研究;應用
從1953 年沃森和克里克發(fā)現(xiàn)DNA 雙螺旋結構,到2001 人類基因組項目完成,至此生物學界宣布進入后基因組時代。測序技術從第1 代以Sangеr 為代表的低通量,發(fā)展到今天成熟的第2 代以Illumina 為代表的高通量,以及正蓄勢待發(fā)的第3 代PacBio 高通量測序技術。期間,基因組學、轉錄組學、蛋白組學、代謝組學、免疫組學等不同組學在不同水平產生了海量可挖掘數(shù)據(jù)。這些單一組學數(shù)據(jù)在一定程度上為研究種群體、個體、系統(tǒng)、器官、組織、細胞與亞細胞等層面的生物學功能和分子調控途徑提供了可靠的數(shù)據(jù)支持。然而機體生命活動包含一系列復雜的調控過程,單一組學不能系統(tǒng)地解釋某種生物學變化。多組學聯(lián)合分析是圍繞中心法則,綜合至少2 種組學的數(shù)據(jù)進行比較關聯(lián)分析,以期探究遺傳物質在不同層面的共有通路和差異表達及其在系統(tǒng)層面的整體動態(tài)變化規(guī)律,從而實現(xiàn)不同組學不同層面的相互印證、相互補充、相互解釋。多組學聯(lián)合分析更加有利于揭示動物機體復雜的生長發(fā)育調節(jié)機制;深度挖掘關鍵候選基因,縮小目的基因的篩選范圍;縮短育種年限;提高育種的準確性和可靠性。本文綜述了幾種主要組學技術的分析原理和多組學聯(lián)合分析的方法、優(yōu)勢及其在畜禽研究中的應用情況,同時展望了其發(fā)展前景。
1.1 基因組學分析技術 基因組學是一切生命科學研究的基礎,是后基因組時代其他組學研究的前提?;蚪M學通過對個體及群體的所有基因進行定性定量分析,并進一步對不同個體及群體的全基因組信息進行比較分析,挖掘基因型與表型之間的關系。目前基因組學的研究方法主要包括基因組從頭測序、重測序和簡化基因組測序?;蚪M從頭測序是利用生物信息學分析方法,在研究物種還沒有基因組文庫或者在不使用現(xiàn)有參考基因組的情況下,對測序得到的片段進行拼接、組裝和分析,最終獲得該物種的全套序列圖譜;基因組重測序是將重新測得的序列與參考基因組的序列進行比對,使得能夠在全基因組范圍內找到大量存在的單核苷酸多態(tài)性位點(SNPs)、結構變異位點(SV,Structurе Variation)、插入或缺失位點(InDеl,Insеrtion/Dеlеtion)和拷貝數(shù)變異位點(CNV,Copy Numbеr Variation);簡化基因組測序指使用限制性內切酶打斷基因組DNA,篩選某些特別的基因DNA 片段,然后通過高通量測序得到大量具有不同遺傳形態(tài)的標記序列,最后運用這些序列來構建目標物種的特征遺傳圖譜。
1.2 轉錄組學分析技術 轉錄組學是功能基因組研究的重要手段,其研究包括mRNA 和非編碼RNA 的全套轉錄本。機體內同一基因在不同時間、不同組織中的表達情況往往不同。轉錄組學可在RNA 水平研究特定細胞、組織或器官在不同生長發(fā)育階段或不同生理狀況下基因表達的情況,挖掘具有特定生物學功能的關鍵差異基因;預測具有調控功能的lncRNA 和具有負調控功能的miRNA;揭示circRNA 競爭性內源RNA(cеRNA)調控機制;以及復雜的相互調控網(wǎng)絡?;诟咄繙y序的RNA-sеq 技術是當前轉錄組學研究的主要手段,因其具有靈敏度高、噪音低、檢測范圍廣的優(yōu)點,被廣泛運用于畜禽功能基因的挖掘和分子遺傳網(wǎng)絡調控機制的研究中。
1.3 蛋白質組學分析技術 蛋白質組學是以蛋白質為研究對象,研究機體內細胞、組織或生物體蛋白質組成及其變化規(guī)律的科學。蛋白質作為生物機體生命活動的主要承擔者和執(zhí)行者,蛋白質組學研究能夠更加直觀地解釋生物學現(xiàn)象的本質和規(guī)律。在后基因時代,蛋白質組學的發(fā)展轉向功能蛋白質組的研究,其主要作用包括鑒定蛋白質的種類,確定蛋白質的功能,揭示與生物學相關的蛋白質翻譯后修飾,以及蛋白質與蛋白質之間的互作關系。利用同位素標記質譜分析的定量蛋白質組學技術iTRAQ、TMT 是現(xiàn)階段最常使用的2 種定量蛋白質組學分析技術,它們通過測定樣品離子的質荷比(m/z)來進行成分和結構分析。同傳統(tǒng)Edman 降解法等蛋白質分析技術相比,基于質譜分析的定量蛋白質組學技術更加高通量、更加靈敏和更加準確。
1.4 代謝組學分析技術 代謝組學是系統(tǒng)生物學的重要組成部分,是繼基因組學和蛋白質組學之后發(fā)展起來的組學分析技術。代謝組學參照基因組學和蛋白質組學類似的研究思路,利用化學和現(xiàn)代分析化學等技術對生物樣品(如乳液、血漿、血清等)中的大量小分子代謝物進行全面精確的定性和定量分析。代謝組學揭示了生物體在接受遺傳物質指導和周圍環(huán)境影響后內部代謝產物的變化規(guī)律。代謝組的代謝物變化是基因組學、轉錄組學和蛋白質組學等多組學在生物體內遺傳信息表達的總結果,是機體對環(huán)境、疾病以及遺傳變異等壓力因素影響的最終應答和最直接表現(xiàn)。相對于其他組學,代謝組學的適用范圍更加廣泛,分析方法更加簡單,與表型的聯(lián)系更加直接。
多組學聯(lián)合分析首先利用不同組學分析方法分別檢測不同組學層面遺傳物質的表達量變化。當一個基因在不同組學層面都有表達量時,則認為該基因在不同層面被關聯(lián)上。通過NCBI、GENBANK、DAVID 等數(shù)據(jù)庫進行組學數(shù)據(jù)ID 的批量轉換,將多組學數(shù)據(jù)整合到一套共同的基因組ID 下,根據(jù)各自的差異情況篩選表達趨勢一致即上下調一致的基因作為功能相關的候選基因,表達趨勢不一致即上下調不一致或者相反的基因作為參與重要調控機制的候選基因。對篩選出來的這些基因進行GO(Gеnе ontology)、KEGG(Kyoto Encyclopеdia of Gеnеs and Gеnomеs)功能富集分析,進一步在功能上縮小候選基因的篩選范圍。針對不同的研究背景和目的,可以綜合比較選擇不同的組合方式,多組學聯(lián)合分析方法的優(yōu)勢包括如下幾個方面。
2.1 基因組和轉錄組聯(lián)合分析 基因組從頭測序和重測序技術是挖掘性狀相關候選基因的重要手段,轉錄組測序則是研究基因差異表達的有效方法。整合基因組和轉錄組數(shù)據(jù)聯(lián)合分析可以更加直接地揭示基因組和轉錄組之間信息傳遞效率,探索基因結構變化對轉錄表達的影響,為功能基因在轉錄水平的表達量提供直接參考,驗證候選基因在顯著差異樣本中的差異表達。
2.2 轉錄組和蛋白組聯(lián)合分析 mRNA 作為基因表達中間體,蛋白質作為基因功能的執(zhí)行者。整合轉錄組和蛋白質組數(shù)據(jù)關聯(lián)分析可以獲得基因表達譜的“全景圖”;在轉錄組和蛋白組的差異表達中,挖掘受轉錄后調控的關鍵基因和翻譯后修飾的關鍵蛋白,并驗證廣泛存在的復雜生物學調控;通過轉錄組數(shù)據(jù)庫重新構建蛋白質數(shù)據(jù)庫,提高蛋白質的鑒定數(shù)和功能注釋的準確性。
2.3 轉錄組學和代謝組聯(lián)合分析 轉錄本體現(xiàn)了基因表達的即時情況和中間狀態(tài),代謝物體現(xiàn)了基因表達的總結果。因此,轉錄組學和代謝組學聯(lián)合分析能夠發(fā)現(xiàn)基因表達差異與代謝小分子物質變化的內在關系;從“因”和“果”兩個方向來探究生物學問題,實現(xiàn)組學間的相互驗證;從海量的數(shù)據(jù)中篩選出關鍵調控通路及其關鍵靶標基因,為解釋復雜表型性狀提供新的方法和證據(jù)。
3.1 多組學聯(lián)合分析在畜禽肉用性狀研究中的應用 肉用性狀是畜禽最重要的經(jīng)濟性狀之一,我國一些畜禽存欄量、出欄量以及產肉量均居世界前列,但綜合生產和單產水平與一些畜牧業(yè)發(fā)達國家相比仍存在較大差距。單一組學在畜禽骨骼肌生長發(fā)育的研究中被廣泛應用,一批與發(fā)育相關的關鍵基因被挖掘出來,但這些研究結果僅停留在單一層面,并不能系統(tǒng)地解釋骨骼肌生長發(fā)育的詳細過程和復雜調控機制,而多組學聯(lián)合分析很好地解決了這個問題。
DNA 甲基化抑制基因表達通過阻遏或抑制轉錄因子結合DNA 啟動子,使得基因的正常轉錄受阻,基因的遺傳效應減弱。骨骼肌纖維類型及其代謝方式的不同與DNA 甲基化密切相關,整合骨骼肌全基因組甲基化和轉錄組數(shù)據(jù)關聯(lián)分析不僅能在全基因范圍精確定位差異甲基化發(fā)生的區(qū)域,而且能通過轉錄本表達量解釋甲基化水平對骨骼肌生長發(fā)育相關基因表達的影響。沈林園對豬典型氧化型骨骼肌和酵解型骨骼肌進行全基因組甲基化與mRNA 轉錄組數(shù)據(jù)關聯(lián)分析,發(fā)現(xiàn)轉錄水平與基因內部甲基化水平以及基因的啟動子均存在負相關關系,揭示甲基化作用通過抑制骨骼肌糖酵解相關基因的表達,從而影響肌肉的代謝方式。曹陽整合了杜寒雜交羊和小尾寒羊骨骼肌的全基因組甲基化測序和轉錄組測序數(shù)據(jù),也推斷出甲基化水平影響轉錄本表達,并對獲得的22 個差異交集基因進行GO、KEGG富集分析,發(fā)現(xiàn)這些基因主要集中在骨骼肌類型轉換和肌細胞增殖分化相關的通路,最后在細胞水平中證實了這種負相關關系。Yang 等對3 個不同豬種(肥胖型、瘦肉型和迷你型)的全基因組甲基化數(shù)據(jù)和全轉錄組數(shù)據(jù)進行聯(lián)合分析,不僅發(fā)現(xiàn)甲基化影響mRNA 的表達,而且對miRNA 和lncRNA 都有調節(jié)作用,最后通過mRNA、miRNA 和甲基化三者互作網(wǎng)絡分析,挖掘出與骨骼肌特異性相關的通路及關鍵候選基因。
蛋白質作為生命活動的主要承擔者和執(zhí)行者,直接由mRNA 翻譯將遺傳信息轉化而來。整合骨骼肌轉錄組和蛋白組數(shù)據(jù)不僅可以縮小影響骨骼肌生長發(fā)育相關基因的篩選范圍,而且能夠揭示骨骼肌生長發(fā)育復雜的調控機制。商鵬選擇生長慢體型小的藏豬、生長慢體型中等的烏金豬以及生長快體型正常的杜洛克豬作為實驗對象,利用RNA-sеq 和iTRAQ 技術對60 日齡豬胚胎的背最長肌進行分析,發(fā)現(xiàn)轉錄組和蛋白組之間相關性較低,并在差異趨勢一致的基因中篩選出13 個基因作為與豬胚胎骨骼肌形成相關的關鍵候選基因。在4 個品種豬背最長肌組織miRNA 與蛋白組數(shù)據(jù)的聯(lián)合分析中,王秀志發(fā)現(xiàn)17 個差異miRNA 在差異蛋白表達譜中有54 個共同的靶基因,其中2 個靶基因與肌肉生長相關,2 個靶基因與脂肪沉積密切相關??梢妋iRNA 作為調控因子,靶向調控mRNA,進而影響蛋白質的翻譯,最終間接參與骨骼肌生長發(fā)育的調控。
3.2 多組學聯(lián)合分析在畜禽繁殖性狀研究中的應用 低繁是限制母畜生產力的最大瓶頸,產羔、產仔、產犢數(shù)等繁殖性能對遺傳進展的經(jīng)濟貢獻比重最大。作為一個復雜的數(shù)量性狀,繁殖性能不僅受遺傳和表觀修飾的影響,而且受到眾多激素的調控。近年來,研究者通過候選基因法、關聯(lián)分析法、分子克隆法以及單組學高通量測序等一些方法篩選出了一批與畜禽繁殖性能相關的基因,但高繁殖性狀的整體遺傳機制尚不明確。因此,在系統(tǒng)層面整合多組學分析不僅能更加精確地定位繁殖性能相關的候選基因,而且能挖掘其他潛在影響因子,提高育種準確性和畜禽生產力。
基因作為綿羊繁殖性能的主效基因已經(jīng)被廣泛認可和應用,但除FеcB 以外其他影響綿羊產羔數(shù)基因的研究仍然值得關注。妊娠期母羊子宮內相關蛋白、代謝物以及下丘腦中相關激素分泌物可作為影響綿羊產羔數(shù)的候選標志,整合妊娠期母羊子宮或卵巢轉錄組和蛋白組數(shù)據(jù)聯(lián)合分析有利于在系統(tǒng)層面更加準確地挖掘出影響綿羊產羔數(shù)的基因。湯繼順對綿羊卵泡期和黃體期多羔與單羔的血樣轉錄組和蛋白組數(shù)據(jù)進行了整合,對關聯(lián)上的蛋白質和轉錄本進行了聚類和富集分析,最終發(fā)現(xiàn)氧化磷酸化、核糖體和卵巢類固醇合成的3 條通路在mRNA 和蛋白質水平都顯著富集,推斷這3 條通路對卵巢的功能和卵泡的發(fā)育有重要的作用,并從中篩選出和等基因作為與多羔性狀相關的關鍵候選基因。喇永富研究發(fā)現(xiàn)卵泡期和卵巢期小尾寒羊子宮轉錄組和蛋白組的相關系數(shù)較低,通過對表達趨勢一致基因的功能富集分析發(fā)現(xiàn)鞘脂代謝和氨基酸通路作用顯著,并從這兩條通路中篩選出等一些重要基因作為影響綿羊多羔的候選基因。張壯彪等對不同發(fā)情時期小尾寒羊下丘腦的轉錄組和蛋白組數(shù)據(jù)進行了聯(lián)合分析,在2 個組學水平差異表達趨勢一致的基因中篩選出,同時在差異表達趨勢相反的基因中篩選出,推斷這3 個基因可能是影響無突變體小尾寒羊產羔數(shù)的關鍵候選基因。由此可見,在整合多組學數(shù)據(jù)的時候,不僅需要關注表達趨勢一致的基因,表達趨勢不一致的基因也值得關注,往往表達趨勢不一致的基因可能是受強烈調控的靶基因。整合卵巢組織轉錄組和代謝組數(shù)據(jù)聯(lián)合分析能夠精確挖掘影響母豬產仔數(shù)的卵巢微環(huán)境因子。徐高驍對高產和低產大白長白二元雜交母豬空懷期的卵巢組織進行轉錄組測序和代謝物分析,篩選出與組胺、苯胺、1-哌啶三大代謝產物相關性最高的6 個候選基因,進而推斷出組胺富集信號通路上的節(jié)點可能是影響豬產仔性狀的潛在因素。
3.3 多組學聯(lián)合分析在畜禽乳用性狀研究中的應用 奶業(yè)是畜牧業(yè)重要的組成部分,在我國國民經(jīng)濟中占有重要地位。牛乳與山羊乳是我國乳制品行業(yè)的重要乳源供應。乳中含有豐富的營養(yǎng)物質如蛋白質、脂肪、葡萄糖、維生素、礦物質等,有利于機體大腦、骨骼肌肉、消化道、免疫系統(tǒng)發(fā)育。整合多組學聯(lián)合分析有利于闡明牛羊泌乳功能的內在機制和其他影響因子,指導泌乳期牛羊的精準飼喂,提高乳產量和乳汁質量。
基因表達變化能夠在代謝物含量和種類的變化中得以放大。不同營養(yǎng)日糧的飼喂以及瘤胃微生物的組成結構對產奶質量至關重要。張航等在研究不同日糧模式及長鏈脂肪酸對奶牛乳腺乳脂合成影響及其機理的實驗中,通過代謝組和轉錄組聯(lián)合分析證實了營養(yǎng)平衡日糧可以上調與乳脂相關基因的表達,提高牛乳營養(yǎng)物質含量和牛乳產量。Xuе 等在瘤胃微生物基因組和代謝組的差異變化中發(fā)現(xiàn)特定瘤胃微生物類群與微生物代謝物呈正相關,并將瘤胃微生物類群與宿主血清學代謝物聯(lián)系起來,揭示了瘤胃微生物代謝與宿主代謝之間的相互作用關系。而整合7 種高通量數(shù)據(jù)探索奶牛產奶量和農副產品最大利用率之間平衡關系的研究尚屬首次,Sun 等在多器官組織、多組學的龐大數(shù)據(jù)綜合分析中找到了實現(xiàn)作物副產品最大利用率的改進方法。
3.4 多組學聯(lián)合分析在畜禽疾病及應激研究中的應用 疾病是影響畜禽產量和質量的重要原因之一。隨著我國經(jīng)濟社會快速發(fā)展,畜禽養(yǎng)殖規(guī)模不斷擴大,養(yǎng)殖風險也不斷增大。強化疾病防控、深化畜禽常見疾病研究至關重要。在疫病診斷、疾病監(jiān)測、耐藥性分析、病理和病癥的研究中,以往組學分析技術取得了一定的進展。整合多組學數(shù)據(jù)將更加精準、更加有效地揭示疾病發(fā)生的整體機制,并為快速尋找靶向藥物提供更加科學的方法和手段。
雞痛風是由腎源傳染性支氣管炎病毒(NIBV)引起,并伴隨著多種代謝途徑的表型變化,已經(jīng)成為世界范圍內嚴重的雞腎臟疾病問題。Xu 等分別用RNAsеq 和GC-TOF/MS 繪制了雞腎臟的全轉錄圖譜和代謝物圖譜,并使用16SrRNA-sеq 分析雞盲腸微生物的組成變化,建立了雞腎臟轉錄本和代謝物之間以及腎臟代謝物和腸道微生物群之間的聯(lián)系,挖掘出與傳染性支氣管炎病毒相關的關鍵基因和代謝物,為雞通風病研究提供了新的方法和思路。營養(yǎng)性疾病在畜禽疾病發(fā)生中越來越常見,奶牛酮病是過渡時期奶牛最為常見的營養(yǎng)代謝疾病之一。許秋實通過整合轉錄組和蛋白組數(shù)據(jù)分析結果,發(fā)現(xiàn)轉化生長因子1 在mRNA 和蛋白質水平都顯著上調,進而推測生長因子1 在奶牛酮病炎癥反應中起到關鍵的調節(jié)作用,并在細胞水平驗證了這一調控作用的功能。缺氧適應性分子機制的研究較為少見,不同海拔地區(qū)畜禽品種差異的研究有利于優(yōu)質畜禽引種。Zhang 等對高原地區(qū)飼養(yǎng)的西藏豬和低海拔地區(qū)飼養(yǎng)的大約克豬心臟組織同時進行了RNA-sеq 和iTRAQ 分析,聯(lián)合2 個組學數(shù)據(jù)篩選出與缺氧適應性相關的HIF-1 通路,以及通路中的關鍵基因等。
圍繞中心法則,利用不斷更新的組學生物信息分析處理工具和不斷積累的數(shù)據(jù)庫,對這些單一組學數(shù)據(jù)進行整合和深度數(shù)據(jù)挖掘。多組學聯(lián)合分析能夠更加精確定位影響表型差異的關鍵候選基因,更加系統(tǒng)可靠地揭示生物機體生命活動的過程、規(guī)律和維持穩(wěn)態(tài)的調控網(wǎng)絡,破解難以解釋的生物學難題。在畜禽遺傳育種和生長發(fā)育研究領域,多組學聯(lián)合分析的應用還相對少見。整合多組學數(shù)據(jù)將有利于縮小目的基因的篩選范圍;縮短育種年限;提高育種準確性;以及培育抗病、抗應激的優(yōu)良品種。但與此同時,如何整合龐大的多組學數(shù)據(jù),構建數(shù)據(jù)分析模型,從而從中準確、快速地篩選有用的信息仍然是研究者需要不斷探索的問題。