曾美娟 劉建汀 卓玲玲 陳敏氡 葉新如 王 彬 朱海生 溫慶放
(福建省蔬菜遺傳育種重點實驗室,福建省農(nóng)業(yè)科學院作物研究所,福建省蔬菜工程技術研究中心,福建福州 350013)
隨著20 世紀80 年代初基于DNA 的分子標記和80 年代末先進的統(tǒng)計工具的出現(xiàn),挖掘控制數(shù)量性狀的基因組區(qū)域成為可能。挖掘控制數(shù)量性狀基因組的方法包括數(shù)量性狀座位(quantitative trait locus,QTL)區(qū)間定位和全基因組關聯(lián)分析(genome-wide association study,GWAS)。傳統(tǒng)的QTL 定位高度依賴于雙親的遺傳多樣性,檢測到QTL 效率因群體而異。QTL 區(qū)域也可能相當大,包含太多的基因,很難作為潛在的候選基因進行研究。此外,QTL 定位往往需要構(gòu)建作圖群體,耗時較長且定位精度不高(Rafalski,2010)。GWAS可以在一定程度上克服QTL 分析的局限性,它可以利用自然群體縮小候選區(qū)域,同時對多個性狀進行分析(Yu &Buckler,2006;Huang &Han,2014),以降低分析誤差(曹英杰 等,2019),極大地提高育種效率。全基因組關聯(lián)分析高效地將表型和基因型進行關聯(lián)并用于遺傳作圖和搜尋相關性狀候選基因(Gajardo et al.,2015;闕青敏 等,2019),可同時對多個復雜性狀進行關聯(lián),檢測多個等位基因,適用于定位性狀關聯(lián)區(qū)間,功能基因研究,開發(fā)性狀選育標記等,具有高分辨率和高通量等優(yōu)點,在蔬菜育種研究中的應用日益廣泛。全基因組關聯(lián)分析在揭示蔬菜復雜性狀的分子機理和蔬菜分子育種中起到重要的作用(李廷雨 等,2020)。
全基因組關聯(lián)分析是近年來興起的遺傳分析方法,其以連鎖不平衡(linkage disequilibrium,LD)為基礎,通過識別數(shù)百個或數(shù)千個個體定位群體中高密度的分子標記,一般是上萬個甚至上百萬個單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)標記,篩選出與復雜性狀表現(xiàn)型變異相關聯(lián)的分子標記(Du et al.,2018)。換言之,通過關聯(lián)分析分子標記與性狀變異,對群體中的個體進行大規(guī)模的基因分型和表型分析,從而識別導致個體之間表型差異的基因組區(qū)域(Hirschhorn &Daly,2005;Huang et al.,2010;Zhao et al.,2011)。連鎖不平衡是指群體內(nèi)不同位點上等位基因間的非隨機關聯(lián)(曹英杰 等,2019)。連鎖不平衡是GWAS分析的基礎(Abecasis &Cookson,2000),受多因素的影響,不同物種間基因組中連鎖不平衡也存在顯著差異。高LD 水平的群體,能夠縮減GWAS分析時所需的群體數(shù)量。近年來,隨著以SNP 為代表的第3 代分子標記技術的發(fā)展,大大加快了GWAS 的發(fā)展速度,幾千甚至幾百萬個標記被用于1 個GWAS,在人類和動植物復雜性狀遺傳研究中已取得初步成果(段忠取和朱軍,2015),亦已成功應用于多種作物的重要農(nóng)藝性狀的遺傳研究(Elshire et al.,2011;趙振卿 等,2014;He et al.,2014)。
GWAS 應用于植物育種的研究策略主要包括以下幾方面:①選擇植物群體材料。群體規(guī)模太大,性狀調(diào)查費用和基因型檢測費用均會相應增多。選擇表型齊全和遺傳變異豐富的研究群體可以減少所需群體內(nèi)的個體數(shù)目,提高關聯(lián)分析的分辨率。②表型鑒定。設計合理的田間試驗,多年多點種植試驗材料和多區(qū)域重復隨機調(diào)查表型性狀,并將調(diào)查結(jié)果進行整合(劉坤 等,2018)。③基因型的測定。獲取選定試驗材料的全基因組SNP 位點,從而實現(xiàn)基因型分析(Seki et al.,2005;Rutkoski et al.,2013;韓德鵬 等,2018)。④ 關聯(lián)分析。對選定試驗群體進行群體結(jié)構(gòu)分析,選用合適的統(tǒng)計分析模型對基因型與表型進行分析(Raman et al.,2019;孫程明 等,2020)。涉及質(zhì)量性狀關聯(lián)分析時,通??梢圆捎肔ogistic 回歸模型進行分析;涉及數(shù)量性狀時,通常可采用普通線性回歸模型(卜李那和趙毅強,2019),但數(shù)量性狀通常受到多種因素的共同影響,在研究過程中通常采用不同的混合模型(表1)。⑤ 候選基因篩選(姜洪真 等,2018)。
表1 近年來部分GWAS 中采用的混合模型方法及其特點
目前分析過程涉及的軟件很多,其中PLINK軟件(Purcell et al.,2007)是較早使用的關聯(lián)分析軟件,它可用于復雜數(shù)量性狀、關聯(lián)作圖、數(shù)據(jù)轉(zhuǎn)化與處理、LD 分析、單倍型檢驗等。采用SAMTOOLS 軟件(Li et al.,2009)檢測、過濾SNP,采用ANNOVAR 軟件(Wang et al.,2010)對檢測到的SNP 進行注釋,采用GCTA 軟件(Yang et al.,2011)對群體進行主成分分析、單性狀和兩相關性狀關聯(lián)分析,采用STRUCTURE 軟件(Evanno et al.,2005;王艷玲 等,2017;Volante et al.,2017)對群體結(jié)構(gòu)進行分析。采用GEMMA 軟件(Zhou &Stephens,2012)基于SNP 進行關聯(lián)分析。采用TASSEL 軟件(Bradbury et al.,2007)進行各種模型的關聯(lián)分析,估算LD 值和作圖、估測群體結(jié)構(gòu)和繪制基于遺傳距離的樹狀圖等。GAPIT 軟件(Lipka et al.,2012)用于BLUP 基因組預測關聯(lián)分析和BLUP 基因組預測。
前人在蔬菜生長發(fā)育過程相關性狀方面,如黃瓜發(fā)芽期、黃瓜幼苗階段、白菜類作物抽薹開花、菠菜雌雄同株、普通菜豆相關性狀的控制基因等方面都開展了全基因組關聯(lián)分析。張松等(2019)對黃瓜發(fā)芽期進行全基因組關聯(lián)分析,檢測到5 個與相對發(fā)芽率關聯(lián)的位點,2 個與相對發(fā)芽勢關聯(lián)的位點,2 個與相對發(fā)芽指數(shù)關聯(lián)的位點,2 個與相對胚根長度關聯(lián)的位點。蔡和序等(2020)對黃瓜幼苗下胚軸長度進行全基因組關聯(lián)分析,通過分析關聯(lián)SNP 位點的LD 區(qū)間序列,獲得Csa1G074930、Csa1G475980、Csa2G381650、Csa3G141820、Csa4G051570、Csa3G627150、Csa5G174640、Csa6G362970等8 個與黃瓜下胚軸長度有關的候選基因,其中既有光形態(tài)建成、泛素化、激素信號通路等調(diào)控基因,也有調(diào)控網(wǎng)絡下游參與細胞生長發(fā)育,調(diào)節(jié)細胞大小,直接調(diào)控黃瓜下胚軸長度的基因。抽薹開花是白菜類作物關鍵的農(nóng)藝性狀。白菜類作物主要包括大白菜、普通白菜、蕪菁等。挖掘白菜類作物抽薹開花調(diào)控位點和基因,對白菜類作物的培育具有重要的意義。龔振平(2016)對182份大白菜自然群體晚抽薹性狀進行全基因組關聯(lián)分析,獲得5 個與耐抽薹性狀顯著關聯(lián)的位點,為進一步發(fā)掘相關性狀的候選基因提供了依據(jù)。高寶禎等(2017)通過全基因組關聯(lián)分析鑒定出33 個與白菜類作物開花時間相關的顯著關聯(lián)信號。通過定位出的開花時間候選位點,再根據(jù)白菜類作物與同源物種擬南芥的基因共線性關系以及基因功能注釋結(jié)果初步鑒定出與14 個白菜類作物開花時間相關的候選基因。汪豪英等(2019)通過對82 份菠菜高代自交系的全基因組關聯(lián)分析,采用壓縮混合線性模型在菠菜4 號染色體上檢測到1 個強關聯(lián)區(qū)域,并將控制菠菜雌雄同株的基因Xm定位在64.6 kb 的區(qū)間內(nèi)。該范圍內(nèi)存在3 個基因:Spo24600、Spo24601和Spo24602。最近,Wu 等(2020)對來自19 個國家的683 份普通菜豆資源的全基因組進行重測序,發(fā)掘出超過480 萬個SNP,構(gòu)建出國際首張精細的普通菜豆單倍型圖譜,鑒定出505 個與主要農(nóng)藝性狀緊密相關的遺傳位點。
上述研究表明采用全基因組關聯(lián)分析能夠有效鑒定蔬菜生長發(fā)育過程相關農(nóng)藝性狀的關鍵遺傳位點。因為蔬菜作物的農(nóng)藝性狀往往都是由多個基因控制且受環(huán)境影響,與單基因控制的性狀相比,其遺傳基礎更為復雜。而全基因組關聯(lián)分析是經(jīng)典的定量遺傳理論的拓展,采用全基因組關聯(lián)分析的方法能夠既簡單且快速地鑒定出蔬菜作物控制發(fā)育過程相關性狀的重要基因,對蔬菜作物農(nóng)藝性狀相關基因的研究以及輔助育種具有重大意義。
在蔬菜品質(zhì)和產(chǎn)量性狀方面,如番茄的果實質(zhì)量、果實硬度、心室數(shù)目、果形指數(shù)、代謝物含量以及辣椒的辣椒素含量等相關性狀的控制基因都開展了全基因組關聯(lián)分析。Xu 等(2013)利用關聯(lián)分析的方法對44 份栽培種番茄、127 份櫻桃番茄和17 份醋栗番茄的果實質(zhì)量、果實硬度、心室數(shù)目等性狀進行了初步研究,共檢測到40 個位點,其中果實質(zhì)量、心室數(shù)目、可溶性固形物等性狀的主效位點信號區(qū)域都有相關的功能基因。祝光濤(2015)利用843 316 個位點對253 個番茄栽培種亞群中的果實顏色、果實質(zhì)量和果形指數(shù)等5 個性狀進行關聯(lián)分析,發(fā)現(xiàn)了11 個明顯的關聯(lián)信號位點,其中1 個果皮顏色位點、2 個果形指數(shù)位點和2 個心室數(shù)目位點和前人的研究結(jié)果一致,另外6個位點為新發(fā)現(xiàn)的位點。Bauchet 等(2017)借助10 000 個SNP 標記對300 份番茄的60 種初級和次級代謝產(chǎn)物開展了全基因組關聯(lián)分析,確定了79個與13 個初級代謝產(chǎn)物和19 個次級代謝產(chǎn)物高度關聯(lián)的位點。同時,還發(fā)現(xiàn)了4 個基因組區(qū)域可控制幾種代謝物變異,并發(fā)掘了決定代謝物含量的候選基因,揭示了番茄亞種復雜而獨特的代謝物調(diào)控機理。趙建濤(2016)利用混合線性模型對番茄果實中主要的17 種糖酸組分進行全基因組關聯(lián)分析,共檢測到139 個顯著關聯(lián)位點,除了蘇糖醇外,在其他16 個糖酸物質(zhì)上至少檢測到1 個顯著關聯(lián)位點。Sauvage 等(2014)利用多位點混合模型對163 份番茄種質(zhì)進行關聯(lián)分析,利用遍布全基因組的5 995 個SNP 位點對影響番茄品質(zhì)的76 種代謝物質(zhì)進行了分析,檢測到了控制19 個性狀的44 個顯著位點。Nimmakayala 等(2016)使用7 331 個SNP 標記對辣椒性狀進行研究,發(fā)現(xiàn)72 個SNP 標記與辣椒素含量相關,包括1 個候選基因,該基因編碼一種具有與CS 相似的?;D(zhuǎn)移酶功能的錨蛋白樣蛋白。Han 等(2018)通過QTL 定位和GWAS 挖掘控制辣椒中辣椒素含量的候選基因,共檢測到69 個QTL 區(qū)域,其中10 個區(qū)域與2 個雙親群體的QTL 位于同一位置。在這些區(qū)域中,鑒定出5 個已知參與辣椒素生物合成的候選基因。
隨著人們生活水平逐步提高,多樣化的蔬菜品種給予了大眾更多的選擇,大眾對蔬菜品質(zhì)的要求則越來越高。在蔬菜育種中,品質(zhì)高低影響著該品種能否適應市場以及滿足消費者的需求。蔬菜品質(zhì)育種也是蔬菜遺傳改良的重點。同時,蔬菜產(chǎn)量的高低也影響著其經(jīng)濟價值,通過全基因組關聯(lián)分析來開展蔬菜品質(zhì)和產(chǎn)量性狀的相關研究對蔬菜品質(zhì)和產(chǎn)量的提升具有重要意義。
為有效控制蔬菜病害的發(fā)生與危害,選育和利用具有相關抗性的蔬菜品種也是育種的關鍵。隨著全基因組學的發(fā)展,全基因組關聯(lián)分析也在馬鈴薯抗晚疫病、大白菜抗霜霉病、瓠瓜抗白粉病、黃瓜抗低溫等蔬菜抗性相關基因的挖掘中得到應用。為了明確馬鈴薯晚疫病抗性的穩(wěn)定性與標記間的關聯(lián),Lindgvist-Kreuze 等(2014)結(jié)合田間晚疫病表型數(shù)據(jù),對適應熱帶高地的馬鈴薯群體的基因型進行全基因組關聯(lián)分析,發(fā)現(xiàn)第9 號染色體上的SNP標記與馬鈴薯晚疫病抗性相關,且與穩(wěn)定性有關。龔振平(2016)對182 份自交系材料組成的大白菜自然群體開展5 種病害的全基因組關聯(lián)分析,分別獲得與霜霉?。? 個)、病毒?。? 個)、黑腐?。? 個)、黃萎?。? 個)和根腫?。? 個)抗性顯著關聯(lián)的22 個位點或熱點區(qū)。吳曉花等(2020)利用兩年的抗病表型數(shù)據(jù),對117 份瓠瓜微核心種質(zhì)的白粉病抗性進行研究,通過全基因組關聯(lián)分析,分別獲得22 個和13 個與白粉病抗性相關的SNP 標記。王偉平等(2019)以黃瓜核心種質(zhì)為材料開展苗期耐低溫鑒定和篩選,并進行全基因組關聯(lián)分析,挖掘耐低溫相關位點。在1、3、4、5 號染色體上分別檢測到苗期耐低溫位點gLTS1.1、gLTS3.1、gLTS4.1和gLTS5.1。魏爽等(2019)進行了黃瓜苗期耐熱性篩選,通過全基因組關聯(lián)分析共檢測到7 個與苗期耐熱性相關位點gHII4.1、gHII5.1、gHII5.2、gHII6.1、gHII7.1、gHII4.2、gHII6.2。
施用化學藥劑能夠在一定程度上控制相應的病蟲危害,但也帶來環(huán)境污染等問題,同時增加農(nóng)民種植成本,產(chǎn)生蔬菜安全問題。通過全基因組關聯(lián)分析,將這些性狀關聯(lián)標記用于蔬菜分子輔助育種,有助于選育出具有抗性的蔬菜品種。而選育具有抗性的蔬菜品種又是目前防治相應病害、適應不佳種植環(huán)境及選育反季蔬菜較為經(jīng)濟、有效的方法。
傳統(tǒng)的QTL 定位高度依賴于雙親的遺傳多樣性,檢測到的QTL 效應因群體而異。QTL 區(qū)域也可能相當大,包含太多的基因,而利用全基因組關聯(lián)分析(GWAS)可以利用自然群體縮小候選區(qū)域,在一定程度上克服QTL 分析的局限性。當然,GWAS 的應用也存在一定的局限性,例如在自花授粉作物中,用GWAS 定位性狀相關基因難以達到單基因水平,一些群體結(jié)構(gòu)因素易導致假陽性,非遺傳因素產(chǎn)生的表型變化導致的假陽性以及基因與環(huán)境的互作效應亦會影響GWAS 結(jié)果(Stacey &Joanna,2013)。為獲得更精準的GWAS 結(jié)果,研究人員需對群體結(jié)構(gòu)加以準確分析,通過增大群體規(guī)模來盡可能減少假陽性。相關技術的不斷更新也將在一定程度上降低群體結(jié)構(gòu)的干擾。同時,也有必要對結(jié)果進行驗證(Zhu et al.,2008;Korte &Farlow,2013)。由于每種方法都有其局限性,將不同方法進行聯(lián)合,取長補短可在一定程度上提高分析結(jié)果的準確性。已有研究表明,QTL 定位聯(lián)合GWAS 是鑒定控制復雜性狀的基因位點的一種強有力的組合方法(Han et al.,2018)。
GWAS 只識別與目標性狀相關的基因組區(qū)域,而不是發(fā)現(xiàn)基因,一個性狀相關的基因組區(qū)域內(nèi)會有許多標記(例如,多個SNP 標記)。隨著下一代測序技術的發(fā)展,幾千甚至幾百萬個標記被用于1個GWAS,每個GWAS 可用的標記數(shù)量大幅增加,SNP 集被應用于GWAS 是當前的關鍵研究領域,也將促進GWAS 的發(fā)展。近年來,GWAS 研究取得了重大進展,這些性狀關聯(lián)標記也被有效地用于標記輔助選擇,以補充傳統(tǒng)的蔬菜育種方法,改良簡單和復雜的數(shù)量性狀。GWAS 將極大推動蔬菜由傳統(tǒng)育種向高效、定向的分子設計育種轉(zhuǎn)變,亦將為揭示蔬菜主要農(nóng)藝性狀、品質(zhì)性狀和抗性性狀的分子機理發(fā)揮重要的作用。