汪文強,趙生國,馬利青,郭繼軍,馬月輝,趙倩君
(1.中國農業(yè)科學院北京畜牧獸醫(yī)研究所,北京 100193; 2.甘肅農業(yè)大學動物科學技術學院,蘭州 730070;3.青海省畜牧獸醫(yī)科學院,西寧 810016; 4.青海省畜牧總站,西寧 810001)
?
動物基因組學重測序的應用研究進展
汪文強1,2,趙生國2,馬利青3,郭繼軍4,馬月輝1*,趙倩君1*
(1.中國農業(yè)科學院北京畜牧獸醫(yī)研究所,北京 100193; 2.甘肅農業(yè)大學動物科學技術學院,蘭州 730070;3.青海省畜牧獸醫(yī)科學院,西寧 810016; 4.青海省畜牧總站,西寧 810001)
隨著第二代測序技術的研發(fā)和應用,基因組學的研究不斷出新,為其帶來了更新的科研方法和解決方案?;蚪M測序可以更深地了解一個物種的分子進化、基因組成和基因調控等特點,特別基因組重測序技術的發(fā)展和應用,將基因組學的研究推向了多領域、多樣化、多功能的新階段?,F(xiàn)已從變異檢測、性狀定位、遺傳圖譜構建、群體進化分析等方面取得豐碩成果。文章闡述了動物基因組重測序學領域中全基因組測序技術和簡化基因組測序技術的應用現(xiàn)狀和發(fā)展趨勢。
重測序;群體進化;變異檢測;性狀定位;遺傳圖譜
隨著Sanger測序技術的限制性,第二代測序技術(Next generation sequencing,NGS)的優(yōu)勢逐漸凸顯,對重測序技術的發(fā)展起到了重要的作用。NGS的核心思想是邊合成邊測序,即通過捕捉新合成的末端的標記來確定DNA的序列,測序技術成本低、高通量、快速、高效等特點能有效地鑒別單核苷酸多態(tài)性(SNPs)標記、插入和缺失(InDel)標記[1-3]?;蚪M重測序是指基于第二代測序,也可以是第一代的,對之前的測過序的基因組再測一遍,并對個體或者群體樣品進行分析并獲得需要的信息?;蚪M序列的完整性和有效性有利于全基因組重測序,以及之后通過比較基因組序列和全基因組重測序序列,可以在全基因組范圍發(fā)掘SNP和InDel標記[4-5],同時也有利于基于簡化基因組重測序的SNP和InDel的研究。隨著第二代測序技術的快速發(fā)展,重測序技術在動物變異檢測、基因挖掘、性狀定位、遺傳進化等多領域均取得了豐碩的成果,得到了充分的發(fā)展與應用。
全基因組重測序是對已知基因組序列的物種進行不同個體的基因組測序,并在此基礎上對個體或群體進行差異性分析,進而找到大量的單核苷酸多態(tài)性位點(SNP)、插入和缺失位點(InDel)以及結構變異位點(SV)等變異信息。全基因組重測序技術可廣泛用于變異檢測、遺傳圖譜構建、性狀定位和群體進化研究。
1.1群體進化
Y.Qu等對地山雀進行全基因組測序,并對其近緣種大山雀、黃頰山雀及黑尾地鴨進行重測序,發(fā)現(xiàn)地山雀與大山雀和黃頰山雀大約在7.7百萬~9.9百萬年前產生了分化,從全基因組水平明確了地山雀的分類問題,同時在高原適應性遺傳機制上分析發(fā)現(xiàn)免疫基因、尤其是和MHC相關的基因家族發(fā)生了顯著收縮或者丟失;地山雀低氧適應及能量代謝相關的基因發(fā)生了快速進化;地山雀骨骼發(fā)育相關的基因發(fā)生了快速進化;嗅覺相關的基因家族也發(fā)生了顯著收縮[6]。M.Li等對6個代表性藏豬群體、5個四川盆地特有豬種共48個樣本進行全基因組重測序(測序深度達131X)并結合55個歐亞野豬及家豬的基因組數(shù)據(jù)進行群體遺傳學分析,最終在藏豬中鑒定出低氧適應、能量代謝等共268個適應高原環(huán)境的快速進化基因,揭示了藏豬高原適應性的遺傳機制;通過比較基因組學分析發(fā)現(xiàn)藏豬和家豬的祖先可能早在690萬年前就開始向不同方向進化,分化時間可能早于牦牛和家牛(490萬年前)以及人類和黑猩猩(500萬~700萬年前);另外,對野生種和馴養(yǎng)種的分析表明,與自然選擇相比,人工選擇可更有效的塑造馴養(yǎng)動物基因組;歐亞豬種存在明顯的遺傳背景差異,歐亞地理隔離造成的遺傳結構差異甚至超過了野生和馴化的差異[7]。Q.Xia等利用重測序技術研究了家蠶的馴化事件和馴化基因,完成了40個個體的重測序,每個個體測序深度大約為三乘,覆蓋基因組序列的99.88%,共鑒定出16 000 000多個SNPs;研究發(fā)現(xiàn),家蠶的基因明顯不同于野生型,但它們保持著較大級別的遺傳變異,這表明短期的馴化事件包含了大量的個體;研究還發(fā)現(xiàn),在馴化過程中有重要作用的354個候選基因存在選擇信號,其中一些基因在絲腺、腸道和睪丸中過表達。這些數(shù)據(jù)對家蠶的馴化事件起到了重要的解釋作用[8]。X.Zhou等利用全基因組測序技術研究了滇金絲猴的進化史,共確定了21 813種編碼蛋白的基因,其中89.7%得到了轉錄組驗證;根據(jù)這些編碼蛋白的基因,研究人員繪制了靈長類動物進化的時間表;滇金絲猴和獼猴分別有大約3 054和3 311個特異性LINE1插入,其超過了人類(2 365個新的插入)和黑猩猩(1 841個新的插入),然而早期猴的系譜特異性SVA較低于類人猿。在早期猴跟類人猿的比較中,未發(fā)現(xiàn)基因家族擴展或收縮事件有顯著性差異??傮w講,在早期猴的ALU富集并未導致全基因組范圍類基因家族結構顯著性的重排和改變[9]。
1.2變異檢測
R.Zhang 等將人乳鐵蛋白(Human lactoferrin,hLF)表達相關基因導入?;蚪M中,應用二代測序技術檢測3頭轉基因牛(2頭F0代,1頭F2代)外源插入DNA的分子特性、插入位點和整合拷貝數(shù),發(fā)現(xiàn)外源插入DNA上不同區(qū)域在樣本基因組上存在2~8倍的拷貝數(shù)變異,表明外源DNA在轉基因物種基因組上發(fā)生了復雜的重排事件[10]。D.W.Seo等采用二代測序技術對韓國本地雞種的SNPs進行分析,研究從29號染色體和Z染色體上共獲得(4 006 068±97 534) 個SNPs,在這些已鑒別的SNPs中已知和新發(fā)現(xiàn)的SNPs分別為(2 948 648±81 414)個和(1 047 951±14 956) 個,其中已知但未被定義的SNPs有(1 181±150)個,新出現(xiàn)未被定義的SNPs有(8 238±1 019)個,同義SNPs、錯義SNPs和特征改變了的SNPs分別是(26 266±1 456)、(11 467±604)和(8 180±458)個[11]。P.D.Keightley等對黑腹果蠅進行全基因組重測序以推測自發(fā)突變的發(fā)生率及特性。該研究利用3種突變集聚型樣本,以這3種樣本的基因組DNA為模板對其進行全基因組測序,研究人員繪制了包含174個單核苷酸突變位點的圖譜,并計算了單核苷酸突變的發(fā)生幾率,通過測序發(fā)現(xiàn)沒有任何的假陽性,研究還發(fā)現(xiàn)了很多G/C到A/T的突變及A/T到G/C的突變,且G/C到A/T的突變是A/T到G/C突變的兩倍,編碼區(qū)與非編碼區(qū)的SNP突變率沒有顯著性差異[12]。C.J.Rubin等利用全基因組重測序鑒別家雞在進化過程中可能存在的突變。對家雞及其野生祖先紅原雞進行了全基因組重測序,共發(fā)現(xiàn)了7 000 000個SNPs,1 300個缺失突變和若干選擇性清除,并且發(fā)現(xiàn)TSHR基因在該研究的所有家雞中均存在選擇性清除,該基因在脊椎動物的代謝調節(jié)及生殖過程中發(fā)揮著重要作用[13]。K.T.Lee等通過全基因組重測序技術研究了韓牛純合性區(qū)域,確定了4 700 000個SNPs和4 000 000個Indels。在8 360個基因中檢測到了大約25 000個非同義SNPs位點、剪接位點變異體、以及編碼插入缺失(NS/SS/IS)。此外,還發(fā)現(xiàn)與肉質和抗病性狀相關基因25個。研究結果將為與牛重要經濟性狀相關基因的隨意突變或基因鑒定提供科學的數(shù)據(jù)[14]。B.Zhan等通過基因組重測序和高通量基因型分型綜合評估了?;蚪M的變異。研究發(fā)現(xiàn)插入和缺失位于鄰近蛋白的N末端和C末端,且3倍大小富集。研究結果提供了高分辨率不同類型的一個?;蚪M變異,并證明結構變異作為基因組變異的主要成分超過序列變異[15]。G.Yi等基于全基因組重測序基礎研究了12只來源于不同品種雞的全基因組CNV。共發(fā)現(xiàn)了8 840個CNVs區(qū)域,覆蓋了98.2 Mb,代表了雞基因組的9.4%,這些CNVs大小不一,從1.1~268.8 kb不等,平均長度為11.1 kb??偣差A測到2 214個CNVs跨越2 216個具有特定生物學功能相關的RefSeq基因。同時被部分CNVs覆蓋的區(qū)域發(fā)現(xiàn)了FZD6L基因和IMS1基因,這兩個基因與疾病易感性和抗病性相關[16]。
1.3性狀定位
E.Axelsson等應用第二代測序技術,對分布于世界各地的12匹狼和60條狗(14個品種)進行了全基因組重測序(狼個體測序深度6.2X,狗基因組混池測序深度29.8X),探究狗對淀粉類食物適應性的關鍵性基因,研究共發(fā)現(xiàn)了3 786 655個SNPs,506 148個Indels和26 619個CNVs,分析表明,有10個基因與淀粉的消化和脂肪代謝明顯相關,結果表明,相對于肉食性的狼而言,狗對淀粉特異的適應性使得狗的祖先能很好的從富含淀粉類的食物中獲得能量并繁衍生息,這對早期狗的馴化起到了重要作用[17]。M.E.Bowen等針對斑馬魚基因組大、缺乏自交系的特點,有效地使用新的并行測序技術繪制并檢測了位于斑馬魚中的突變。全基因組測序利用了大量的參考SNP數(shù)據(jù)庫通過覆蓋率低來定義純合逐步下降的區(qū)域,其全基因組測序的DNA池來源于有限個F2突變體,通過該方法,繪制了每一個不同的斑馬魚突變體圖,在剩下的個體中研究人員選擇了兩個個體,并測序確定了可能誘發(fā)的錯義突變和候選基因突變。此外,在一個已鑒定的突變體中證實bmp1a中存在一個錯義突變[18]。J.D.Merker等采用全基因組重測序技術分析研究了早期原發(fā)性骨髓纖維化患者低突變和非復發(fā)性突變的候選基因,結果發(fā)現(xiàn),原發(fā)性骨髓纖維化細胞基因組體細胞突變率很低,與造血器官腫瘤基因組中的結果一致。全基因組DNA測序與RNA表達數(shù)據(jù)相結合,鑒定出3個具有潛在功能的體細胞突變:CARD6同義突變、BRD2基因5′非翻譯區(qū)19個堿基的缺失和KIAA0355非同義突變,另外還鑒定出CAP2、SOX30和MFRP3個基因發(fā)生了基因突變,這6個基因在178個病人樣本中得到了驗證[19]。H.D.Daetwyler等利用全基因組重測序技術,研究了2頭奶牛和232頭公牛的群基因組,測序深度為8.3倍覆蓋率,這些群體種含來自荷蘭種129頭,澤西種15頭以及德國種43頭。研究共鑒定了2 830 000個變異,每1 000個堿基上平均含有1.44個雜合位點。研究發(fā)現(xiàn)了與產奶、胚胎死亡、骨骼畸形以及卷毛相關的基因,并得出牛繁殖力下降的主要原因跟胚胎死亡有顯著關系。該項研究為提高產奶和產肉提供了科學依據(jù)[20]。
1.4遺傳圖譜
J.Recoquillay等研究了與鵪鶉行為和生產特征相關的遺傳圖譜和QTL。遺傳圖譜采用2 145個位于28個不同連鎖群體的1 479個個體的SNPs構建而成,性別連鎖圖譜共跨越平均標記間距2.1 cm總長為3 057 cm的區(qū)域。除少數(shù)地區(qū)以外,日本鵪鶉采用跟日本雞一樣的標記順序,連鎖分析共揭示了45個與行為特性(23)或生產特性(22)相關的QTLs,值得注意得是與社會動機特性相關的QTL(15)最多。研究明確指出了控制情緒反應和鳥類體重(分別位于QTLCJA5和CJA8)或社會行為和開始產蛋(位于QTLCJA19)的可能的多效性區(qū)域[21]。S.Moon等研究確定了豬在馴化過程中因人工選擇導致激烈的表型變化相關的基因。對30頭大白豬和大約克豬以及10頭亞洲野豬進行全基因組重測序共獲得了19 990個基因的430萬個SNPs。通過檢測選擇性清除構建了廣泛的定向選擇遺傳圖譜。研究表明在選擇條件下的候選基因對豬的繁殖和生產有著重要的作用,定向選擇的候選基因富集在影響大腦功能與飲食行為的谷氨酸代謝第3組受體上。其中基因ABLIM1、CXADR、INSR、RIMS1、和SYNE1與生長調節(jié)有關;BAI3、PKP4、PPFIA4和PCDHAC2與細胞粘附有關;LIMS3、BAI3、CNTFR、PKP4和PCDHAC2與信號轉導有關;DNAJB5、ISOC1、METTL13、PPRC1和RBBP4與代謝有關。其中ZNF638是最值得關注的候選基因,它與編碼早期脂肪形成調節(jié)相關的蛋白有關,并作為CEBPs輔助轉錄因子,控制PPARG的表達[22]。
基于酶切的簡化基因組測序是對與限制性核酸內切酶識別位點相關的DNA進行高通量測序,可大幅度降低基因組的復雜度,操作簡便,同時不受參考基因組的限制,可快速鑒定出高密度的SNP位點,從而也能實現(xiàn)遺傳進化分析及重要性狀候選基因的預測。簡化基因組技術也可廣泛用于變異檢測、遺傳圖譜構建、性狀定位和群體進化研究。
2.1群體進化
J.C.Jones等利用RAD-seq測序技術研究了劍尾魚屬(花鱂科)包括26種來自中美洲的熱帶小型淡水魚的系統(tǒng)發(fā)生關系,共檢測了143個個體。測序深度15X,共找到約66 000個SNPs,構建了劍尾魚屬進化樹,并推斷了其祖先的劍尾形態(tài)[23]。J.Gatchen等利用RAD-seq研究了俄勒岡地區(qū)海水和淡水生境中三刺魚的群體結構和定殖史。試驗采用俄勒岡地區(qū)9個不同地點的三刺魚578條,根據(jù)SNP位點,構建了魚群的親緣關系,分析了每個地點魚群的遺傳結構,Structure結果推測9個地點的魚群由5種魚構成,分析結果表明,俄勒岡地區(qū)的三刺魚是有記錄的分化最早的三刺魚,生活在該地區(qū)中部的三刺魚是于近年人為進入定殖的[24]。M.W.Jacobsen等選取歐洲和美洲鰻魚作為研究對象,研究了大西洋鰻基因組的印跡,通過RAD測序技術,研究者們利用檢測到的328 300 SNPs,對歐洲鰻鱺和美洲鰻鱺兩個姊妹物種的基因組印跡進行了闡述,在不考慮強烈分化的3 757個(Fst>0.8)SNPs條件下,滑動窗口的Fst分析顯示并沒有高分化的基因組區(qū)域,總體Fst為0.041,在分離出的大于1 000 bp的SNPs中幾乎沒有發(fā)現(xiàn)連鎖不平衡,這反映了基因組搭便車的現(xiàn)象,物種之間的多個區(qū)域存在定向選擇,GO分析表明,包含正向選擇的候選SNP的基因顯著性富集于鰻鱺的發(fā)展過程和磷酸化過程,這與幼蟲階段持續(xù)時間的差異和物種形成基礎上的遷移距離的假設幾乎一致,假定選擇條件下的大多數(shù)SNPs于編碼區(qū)外被發(fā)現(xiàn),這為非編碼區(qū)域的功能可能比之前假設的更重要這一新的觀點提供了支持,總的來說,結果論證了在人口統(tǒng)計學參數(shù)和研究物種生活史特性結構下解釋選擇基因組印跡的必要性[25]。L.Y.Rutledge等采用RAD-seq技術研究了混血北美犬的起源,采用成年狼和幼狼已確定的127 235個SNPs,結合基因組模擬物驗證了東部北美洲各類犬的混合起源假說,主成分分析顯示,并無證據(jù)證明東部地區(qū)的狼或者其他犬起源于灰狼和西部郊狼的雜交,研究結果支持東部狼作為一個獨特的基因組類群存在于北美這一觀點,而且也解決了大湖狼和東部郊狼的雜交起源[26]。K.J.Emerson等采用RAD-seq方法探索不同地理分布的瓶草蚊群體進化關系,對北美21個不同地理分布的瓶草蚊群體進行分析,采用部分堿基識別位點的內切酶Sbfl消化gDNA。在識別位點上共獲得了3 741個SNPs。使用最大似然法將21個群體區(qū)分為4個大分支,而且21個群體間的進化關系得到闡明[27]。
2.2變異檢測
Z.Gompert等采用簡化多態(tài)序列復雜性(CRoPS)技術對北美紅珠灰蝶Lycaeides 的12個不同地域群體進行SNP標記檢測,共獲得341 045條序列,其中36%的序列變異在各群體中有分區(qū)現(xiàn)象[28]。P.M.Richards等采用RAD-seq技術研究了蝸牛屬貝殼顏色和帶型多態(tài)性,蝸牛屬的貝殼顏色和帶型基因型是由遺傳決定的,從根本上來講是由≥5個基因座的超級基因決定的,研究發(fā)現(xiàn),記錄的323個個體顏色和條帶在超級基因的C基因座和B基因座之間沒有發(fā)現(xiàn)重組,其次對兩個親本、22個后代使用RAD-seq技術,發(fā)現(xiàn)44個無特異性標記假設連接到顏色(C)基因座和帶型(B)基因座。RAD-SEQ標記的最有可能的11個基因型在22個相同的后代中被獨立驗證,已標記的C-B超級連鎖群中最近的RAD-SEQ 位于0.6 cM范圍內,與聯(lián)合位點在一起構成了一個38.5 cm的連鎖圖[29]。Z.Zhai等首次利用RAD-seq技術研究了雞的SNP和基因型分型,試驗對13個中國本土雞種和3個引進雞種做了RAD-seq,平均在每個個體中發(fā)現(xiàn)了75 587個SNPs,在所有個體中進行嚴格篩選驗證,得到了28 895個候選SNPs,其中新發(fā)現(xiàn)了15 404個SNPs[30]。
2.3性狀定位
P.Andolfatto等在擬果蠅上用低覆蓋基因分型技術方法驗證了在8.5 kb范圍內存在性狀決定基因,他們用表型為顯性熒光眼基因型的擬果蠅家系同另外一種擬果蠅雜交,獲得了F2個體,然后基于有參考基因組條件,采用MSG技術對其進行連鎖分析,共獲得15 070個用于標記的SNPs,同時QTL分析發(fā)現(xiàn)LOD值與某一基因的距離十分相近[31]。R.D.Houston等從20個魚群中選擇IPN死亡率最高的10個群體應用微衛(wèi)星標記進行QTL定位,對其中的4個親本及其7個具有抗病性的純合子和7個易染病的純合子進行RAD測序,共獲得了約70 000個酶切位點,檢出6 712個SNPs標記位點,對兩個家系全基因組RAD標記位點分離模式的分析表明,在29條染色體上均發(fā)現(xiàn)了SNP位點,且雄魚的基因組缺乏重組,在所有的SNPs位點中,其中50個與QTL定位相關聯(lián),幾個SNPs位點與IPN抗性顯著性相關,且結果通過群體連鎖不平衡SNP檢測對其抗性進行了鑒定[32]。
2.4遺傳圖譜
B.K.Peterson等利用雙酶切系統(tǒng)的簡化基因組測序技術在鹿鼠的兩個姐妹物種(Maniculatus和Polionotus)的雜交群體中共獲得了1 000多個SNPs,且具有固定差異,并利用1 000多個SNPs構建了遺傳圖譜[33]。C.Shao等采用全基因組測序技術構建了比目魚(牙鲆)的高分辨率遺傳圖譜,研究共鑒定了均勻分布在牙鲆基因組上的13 362個SNPs,其中12 712高可信度的SNPs進行高通量基因分型,并分配到24個共識連鎖群(LGs),遺傳連鎖圖譜的總長度為3 497.29 cm,其中基因座之間的平均距離為0.47 cm,代表了當前日本比目魚最密集的遺傳圖譜,位于遺傳圖譜上的大多數(shù)LGs和均勻分布的3類SNPs(母系雜合、父系雜合和雙雜合)是飽和的,然而諸如LGs(LG8、LG9、LG11、LG18和 LG19)并沒有,揭示了復雜的基因組包含地區(qū)豐富的重復序列和轉座因子,有趣的是LG8包含的遺傳距離最小,僅包含父系和雙親雜合的標記,并符合最小的物理距離。事實上,在母系圖上LG8只有在雙親雜合標記,而在父系圖上只有父系雜合和雙雜合標記,表明這個LG上具有同源重組的特異性抑制[34]。S.Gonen等以兩個大西洋鮭魚群體為參考,利用RAD-seq技術研究了鮭魚高密度SNP圖譜,大約60 000個SNPs被分配到29個連鎖群體中,然后分別構建了遺傳連鎖圖譜,該連鎖圖譜與大西洋鮭魚參考基因組草圖重疊群進行了整合,其中112個基因組重疊群映射到兩個或更多個連鎖群體中,并強調了鮭魚基因組中假定的部分同源配對的地區(qū),與刺魚參考基因組相比較進行基因組學分析得出假定的基因與大約一半的有序SNPs密切相關,并證明大西洋鮭魚和刺魚基因組之間存在直系同源性障礙,該研究為鮭魚基因組學研究提供了遺傳資源[35],S.W.Baxter等首次對無參考基因組的小菜蛾進行簡化基因組測序,通過對24個小菜蛾的個體進行RAD測序,將殺菌耐藥性定位到W/Z性染色上,并利用RAD等位基因構建了1個遺傳連鎖圖譜,并獲得了31個連鎖群[36]。P.M.Richards等對雷默瑞麗蝸牛兩個親本和 22 個子代個體進行RAD-seq測序,在控制色帶和色彩的基因座位上發(fā)現(xiàn)了44個標記位點,通過進一步的研究認證,最終構建了一張基于標記位點的連鎖圖譜,重新建立了雷默瑞麗蝸牛遺傳模型[37]。
第二代高通量測序技術的不斷改進,給重測序技術帶來更新突破的同時也使得其局限性和挑戰(zhàn)性日益凸顯。以高通量定義的全基因組重測序技術和簡化基因組測序技術往往會產生龐大的數(shù)據(jù)量,這會帶來諸如數(shù)據(jù)儲存和分析的困擾[38]。首先,如何充分利用大數(shù)據(jù)是主要問題[39];其次,如何經濟有效地存儲數(shù)據(jù)又是一個值得深思的難題[40];最后,高通量測序所需的起始樣本量可能更大,對于有限的樣本的測序分析受到了限制[41]。
如今以單分子讀取技術為基礎的第三代測序技術正在成為人們所關注的焦點[42],由于三代測序技術是通過提高測序機器靈敏度以及增加熒光信號強度等手段來減小錯誤率和增大檢出率,因此省去了PCR擴增這一步,數(shù)據(jù)讀取速度更快更準,可直接測甲基化的DNA序列[43-46],因此它的到來會更有利于這兩種技術的應用。
從重測序技術的研究中可總結出幾點問題:1)基因組測序產生的數(shù)據(jù)需精簡化;2)數(shù)據(jù)分析所用到的系統(tǒng)和軟件普適性需待提高;3)操作產生的錯誤率有待降低,檢出率有待提高;4)測序樣本受限問題有待解決;5)測序經費有望更低。
重測序技術涉及范圍之廣,其成績毋庸置疑,對于大數(shù)據(jù)時代也是功不可沒,雖然全基因組重測序技術和簡化基因組測序技術并不是很完善,但作為新興的高通量測序技術,其在基因組學研究方面已有舉足輕重的地位。相信隨著測序成本的逐步降低以及數(shù)據(jù)處理和分析方法的不斷完善,它們必將在未來基因組學的研究中起重要作用。未來的發(fā)展探究中,可能會更注重數(shù)據(jù)挖掘,個性化分析,以及動物基因改良、疾病預防、治療等。
[1]BENTLEY D R.Whole-genome re-sequencing[J].CurrOpinGenetDev,2006,16(6):545-552.
[2]DAVEY J W,HOHENLOHE P A,ETTER P D,et al.Genome-wide genetic marker discovery and genotyping using next-generation sequencing[J].NatRevGenet,2011,12(7):499-510.
[3]GAO Q,YUE G,LI W,et al.Recent progress using high-throughput sequencing technologies in plant molecular breeding[J].JIntegrPlantBiol,2012,54:215-227.
[4]GOFF S A,RICKE D,LAN T H,et al.A draft sequence of the rice genome (OryzasativaL.ssp.japonica)[J].Science,2002,296(5565):92-100.
[5]FUJISAWA M,BABA T,NAGAMURA Y,et al.The map-based sequence of the rice genome[J].Nature,2005,436(436):793-800.
[6]QU Y,ZHAO H,HAN N,et al.Ground tit genome reveals avian adaptation to living at high altitudes in the Tibetan plateau[J].NatCommun,2013,4(1):14.
[7]LI M,TIAN S,JIN L,et al.Genome analyses identify distinct patterns of selection in domesticated pigs and Tibetan wild boars[J].NatGenet,2013,45(12):1431-1438.
[8]XIA Q,GUO Y,ZHANG Z,et al.Complete resequencing of 40 genomes reveals domestication events and genes in Silkworm (Bombyx)[J].Science,2009,326(5951):433-436.
[9]ZHOU X,WANG B,PAN Q,et al.Whole-genome sequencing of the snub-nosed monkey provides insights into folivory and evolutionary history[J].NatGenet,2014,46(12):1303-1310.
[10]ZHANG R,YIN Y,ZHANG Y,et al.Molecular characterization of transgene integration by next-generation sequencing in transgenic cattle[J].PLoSOne,2012,7(11):e50348.
[11]SEO D W,OH J D,JIN S,et al.Single nucleotide polymorphism analysis of Korean native chickens using next generation sequencing data[J].MolBiolRep,2015,42(2):471-477.
[12]KEIGHTLEY P D,TRIVEDI U,THOMSON M,et al.Analysis of the genome sequences of three Drosophila melanogaster spontaneous mutation accumulation lines[J].GenomeRes,2009,19(7):1195-1201.
[13]RUBIN C J,ZODY M C,ERISKSSON J,et al.Whole-genome resequencing reveals loci under selection during chicken domestication[J].Nature,2010,464(7288):587-594.
[14]LEE K T,CHUNG W H,LEE S Y,et al.Whole-genome resequencing of Hanwoo (Korean cattle) and insight into regions of homozygosity[J].BMCGenomics,2013,14(2):373-379.
[15]ZHAN B,F(xiàn)ADISTA J,THOMSEN B,et al.Global assessment of genomic variation in cattle by genome resequencing and high-throughput genotyping[J].BMCGenomics,2011,12(71):16107-16112.
[16]YI G,QU L,LIU J,et al.Genome-wide patterns of copy number variation in the diversified chicken genomes using next-generation sequencing[J].BMCGenomics,2014,15(1):1-16.
[17]AXELSSON E,RATNAKUMAR A,ARENDT M L,et al.The genomic signature of dog domestication reveals adaptation to a starch-rich diet[J].Nature,2013,495 (7441):360-364.
[18]BOWEN M E,HENKE K,SIEGFRIED K,et al.Efficient mapping and cloning of mutations in zebrafish by low-coverage whole-genome sequencing[J].Genetics,2011,190(3):1017-1024.
[19]MERKER J D,ROSKIN K M,NG D,et al.Comprehensive whole-genome sequencing of an early-stage primary myelofibrosis patient defines low mutational burden and non-recurrent candidate genes[J].Haematologica,2013,98(11):1689-1696.
[20]DAETWYLER H D,CAPITAN A,PAUSCH H,et al.Whole-genome sequencing of 234 bulls facilitates mapping of monogenic and complex traits in cattle[J].NatGenet,2014,46(8):858-865.
[21]RECOQUILLAY J,PITEL F,ARNOULD C,et al.A medium density genetic map and QTL for behavioral and production traits in Japanese quail[J].BMCGenomics,2015,16(1):1-12.
[22]MOON S,KIM T H,LEE K T,et al.A genome-wide scan for signatures of directional selection in domesticated pigs[J].BMCGenomics,2015,16(1):1-12.
[23]JONES J C,F(xiàn)AN S,F(xiàn)RANCHINI P,et al.The evolutionary history of Xiphophorus fish and their sexually selected sword:a genome-wide approach using restriction site-associated DNA sequencing[J].MolEcol,2013,22(11):2986-3001.
[24]GATCHEN J,BASSHAM S,WILSON T,et al.The population structure and recent colonization history of Oregon threespine stickleback determined using restriction-site associated DNA-sequencing[J].MolEcol,2013,22(11):2864-2883.
[25]JACOBSEN M W,PUJOLAR J M,BERNATCHEZ L,et al.Genomic footprints of speciation in Atlantic eels (AnguillaanguillaandA.rostrata)[J].MolEcol,2014,23(19):4785-4798.
[26]RUTLEDGE L Y,DEVILLARD S,BOONE J Q,et al.RAD sequencing and genomic simulations resolve hybrid origins within North American Canis[J].BiolLett,2015,11(7).pii:20150303.doi:10.1098/rsbl.2015.0303.
[27]EMERSON K J,MERZ C R,CATCHEN J M,et al.Resolving postglacial phylogeography using high-throughput sequencing[J].ProcNatlAcadSciUSA,2010,107(37):16196-16200.
[28]GOMPERT Z,F(xiàn)ORISTER M L,F(xiàn)ORDYCE J A,et al.Bayesian analysis of molecular variance in pyrosequences quantifies population genetic structure across the genom of Lycaeides butterflies[J].MolEcol,2010,19(12):2455-2473.
[29]RICHARDS P M,LIU M M,LOWE N,et al.RAD-Seq derived markers flank the shell colour and banding loci of the Cepaea nemoralis supergene[J].MolEcol,2013,22(11):3077-3089.
[30]ZHAI Z,ZHAO W,HE C,et al.SNP discovery and genotyping using restriction-site-associated DNA sequencing in chickens[J].AnimGenet,2015,46(2):216-219.
[31]ANDOLFATTO P,DAVISON D,EREZYILMAZ D,et al.Multiplexed shotgun genotyping for rapid and efficient genetic mapping[J].GenomeRes,2011,21(4):610-617.
[32]HOUSTON R D,DAVEY J W,BISHOP S C,et al.Characterisation of QTL-linked and genome-wide restriction site-associated DNA (RAD) markers in farmed Atlantic salmon[J].BMCGenomics,2012,13(12):1-15.
[33]PETERSON B K,WEBER J N,KAY E H,et al.Double digest RADseq:an inexpensive method for denovo SNP discovery and genotyping in model and non-model species[J].PLoSOne,2012,7(5):e37135.
[34]SHAO C,NIU Y,RASTAS P,et al.Genome-wide SNP identification for the construction of a high-resolution genetic map of Japanese flounder (Paralichthysolivaceus):applications to QTL mapping of Vibrio anguillarum disease resistance and comparative genomic analysis[J].DNARes,2015,22(2):161-170.
[35]GONEN S,LOWE N R,CEZARD T,et al.Linkage maps of the Atlantic salmon (Salmosalar) genome derived from RAD sequencing[J].BMCGenomics,2014,15(3):166.
[36]BAXTER S W,DAVEY J W,JOHNSTON J S,et al.Linkage mapping and comparative genomics using next-generation RAD sequencing of a non-model organism[J],PLoSOne,2011,6(4):e19315.
[37]RICHARDS P M,LIU M M,LOWE N,et al.RAD-Seq derived markers flank the shell colour and banding loci of the Cepaea nemoralis supergene[J].MolEcol,2013,22(11):3077-3089.
[38]黎裕,李英慧,楊慶文,等.基于基因組學的作物種質資源研究:現(xiàn)狀與展望[J].中國農業(yè)科學,2015,48(17):3333-3353.
LI Y,LI Y H,YANG Q W,et al.Research on crop germplasm resources based on genomics:present situation and prospect[J].AgriculturalSciencesinChina,2015,48(17):3333-3353.(in Chinese)
[39]VAN VLIET A H.Next generation sequencing of microbial tran-scriptomes:challenges and opportunities[J].FEMSMicrobiolLett,2010,302(1):1-7.
[40]BAKER M.Gene data to hit milestone[J].Nature,2012,487 (7407):282-283.
[41]CHEN H,TAN X F.Excavation of genic resources based on next generation sequencing technologies[J].PlantPhysiolJ, 2014,50 (8):1089-1095.
[42]EID J,F(xiàn)EHR A,GRAY J,et al.Real-time DNA sequencing from single polymerase molecules[J].Science,2009,323(5910):133-138.
[43]LEVEBE M J,KORLACH J,TURNER S W,et al.Zero-mode waveguides for single-molecule analysis at high concertrations[J].Science,2003,299(5607):682-686.
[44]HARRIS T D,BUZBY P R,BABCOCK H,et al.Single-molecule DNA sequencing of a viral genome[J].Science,2008,320(5872):106-109.
[45]TOMBACZ D,SHARON D,OLAH P,et al.Strain Kaplan of pseudorabies virus genome sequenced by pacBio single-molecule real-time sequencing technology[J].GenomeAnnounc,2014,2(4):e006028.
[46]STODDART D,HERON A J,MIKHAILOVA E,et al.Single-nueleotide discrimination in immobilized DNA oligonucleotides with a biological nanopore[J].ProcNatlAcadSciUSA,2009,106(19):7702-7707.
(編輯郭云雁)
The Research Progress and Application of Resequencing Based on Animal Genomics
WANG Wen-qiang1,2,ZHAO Sheng-guo2,MA Li-qing3,GUO Ji-jun4,MA Yue-hui1*,ZHAO Qian-jun1*
(1.InstituteofAnimalScience,ChineseAcademyofAgriculturalSciences,Beijing100193,China;2.CollegeofAnimalScienceandTechnology,GansuAgriculturalUniversity,Lanzhou730070,China;3.QinghaiAcademyofAnimalScienceandVeterinaryMedicine,Xining810016,China;4.AnimalHusbandryStationofQinghai,Xining810001,China)
With the application and development of the next generation sequencing technique,the researches of genomics are constantly updating,which finds out new solutions and technologies to genomics.The genome sequencing is competent to learn the population evolution,gene composition and gene regulation deeply,especially the application and development of genome resequencing technology,which makes the genome research come into being a new era in multiregion,diversification and multifunction.Nowadays the next generation sequencing technique has made a large progress in mutation detection,fine mapping of important genes,genetic map construction,analysis of population evolution,and so on.The review states application status and development tendency of whole genome sequencing technology and reduced-representation genome sequencing technology in animal genome resequencing.
resequencing;population evolution;mutation detection;fine mapping of important genes;genetic map
10.11843/j.issn.0366-6964.2016.10.001
2015-12-30
中國農業(yè)科學院科技創(chuàng)新工程(ASTIP-IAS01);國家自然科學基金項目(31201765);國家絨毛用羊產業(yè)技術體系(CARS-40-01)
汪文強(1991-),男,甘肅天水人,碩士生,主要從事動物遺傳育種與繁殖研究,E-mail:187931128479@163.com
趙倩君,副研究員,E-mail:zhaoqianjun@caas.cn;馬月輝,研究員,E-mail:yuehui.ma@263.net
S813.3
A
0366-6964(2016)10-1947-07