馬巖松 劉章雄 文自翔 魏淑紅 楊春明 王會才 楊春燕 盧為國 徐 冉 張萬海0 吳紀安 胡國華 欒曉燕 付亞書 郭 泰 王曙明 韓天富 張孟臣 張 磊 苑保軍 郭 勇 Jochen C. REIF 江 勇 李文濱 王德春 邱麗娟,*
?
群體構成方式對大豆百粒重全基因組選擇預測準確度的影響
馬巖松1,2,13劉章雄1文自翔3魏淑紅4楊春明5王會才6楊春燕7盧為國8徐 冉9張萬海10吳紀安11胡國華12欒曉燕13付亞書14郭 泰15王曙明5韓天富1張孟臣7張 磊16苑保軍17郭 勇1Jochen C. REIF18江 勇18李文濱2王德春3邱麗娟1,*
1中國農(nóng)業(yè)科學院作物科學研究所 / 國家農(nóng)作物基因資源與遺傳改良重大科學工程 / 農(nóng)業(yè)部作物種質資源與生物技術重點開放實驗室, 北京 100081;2東北農(nóng)業(yè)大學農(nóng)學院, 黑龍江哈爾濱150030;3Department of Plant, Soil and Microbial Sciences, Michigan State University, East Lansing, MI 48824, USA;4黑龍江省農(nóng)業(yè)科學院育種研究所, 黑龍江哈爾濱 150081;5吉林省農(nóng)業(yè)科學院大豆研究所, 吉林長春 130033;6內(nèi)蒙古赤峰市農(nóng)科所, 內(nèi)蒙古赤峰 024031;7河北省農(nóng)業(yè)科學院糧油作物研究所, 河北石家莊 050031;8河南省農(nóng)業(yè)科學院經(jīng)濟作物研究所, 河南鄭州 450002;9山東省農(nóng)業(yè)科學院作物研究所, 山東濟南 250010;10內(nèi)蒙古呼倫貝爾市農(nóng)科所, 內(nèi)蒙古呼倫貝爾 021000;11黑龍江省農(nóng)業(yè)科學院黑河分院, 黑龍江黑河 164300;12黑龍江省農(nóng)墾科研育種中心, 黑龍江哈爾濱 150090;13黑龍江省農(nóng)業(yè)科學院大豆研究所, 黑龍江哈爾濱 150086;14黑龍江省農(nóng)業(yè)科學院綏化分院, 黑龍江綏化 152052;15黑龍江省農(nóng)業(yè)科學院佳木斯分院, 黑龍江佳木斯 154007;16安徽省農(nóng)業(yè)科學院作物研究所, 安徽合肥 230031;17河南省周口市農(nóng)業(yè)科學院, 河南周口 466001;18Department of Breeding Research, Leibniz Institute of Plant Genetics and Crop Plant Research (IPK), Gatersleben 06466, Germany
百粒重是大豆產(chǎn)量的重要構成因子, 在一定條件下與產(chǎn)量呈顯著正相關。百粒重是一個復雜的數(shù)量性狀, 用傳統(tǒng)的育種方法其遺傳增益不明顯。本研究對280份大豆品種進行了多年多點田間鑒定, 通過混合線性模型預測獲得品種百粒重的最佳線性無偏預測值。同時利用分布在大豆全基因組的5361個SNP標記鑒定參試品種基因型, 結合隨機回歸最佳線性無偏預測模型和交互驗證方法, 探討了群體構成方式對大豆百粒重的全基因組選擇預測準確度的影響。結果表明, 大豆百粒重的全基因組選擇預測準確度變化范圍為–0.15~ +0.75; 群體構成方式對百粒重的預測準確度影響明顯; 亞群內(nèi)的預測準確度(+0.24~ +0.75)高于亞群間(-0.15~ +0.29); 當群體間遺傳距離由0.1566增加到0.2201時, 預測準確度下降27.87%; 相比隨機構建的訓練群體, 基于群體遺傳結構構建的訓練群體能將百粒重的預測準確度提高2.34%。本研究明確了大豆百粒重的全基因組選擇預測準確度, 闡明了群體結構對大豆百粒重的全基因組選擇預測準確度的影響, 為大豆分子育種提供了新的思路和方法。
大豆; 百粒重; 全基因組選擇; 預測準確度; 遺傳結構
大豆是人類植物蛋白和脂肪的重要來源, 在日常膳食中占重要地位[1]。隨著生活水平的提高和膳食結構的調整, 我國對大豆的需求量與日俱增, 而我國大豆單位面積產(chǎn)量與世界平均水平差距仍較大,聯(lián)合國糧食及農(nóng)業(yè)組織的數(shù)據(jù)(http://www.fao.org/ faostat/zh/#data/QC)表明, 在1961—2014年間我國大豆與美國、阿根廷和巴西的大豆單產(chǎn)平均差距為41%~66%。因此, 如何有效提高我國大豆的單產(chǎn)水平是大豆育種中亟待解決的重大課題。
百粒重是大豆產(chǎn)量的重要構成因子, 在一定條件下大豆百粒重與大豆產(chǎn)量呈顯著正相關[2-3]。大豆百粒重相關QTL研究已取得顯著進展, 前人利用分離群體、自然群體、重組自交系和染色體片段代換系等群體, 結合復合區(qū)間作圖法、關聯(lián)分析和Meta分析等方法定位了大量與大豆百粒重相關的QTL[4-7]。截止到2015年, SoyBase數(shù)據(jù)庫收錄的與大豆粒重相關QTL共計230個(http://soybase.org/ search/index.php?search= true&result=qtl &qtl=Seed+ weight)。這些相關研究為開發(fā)分子標記并用于育種創(chuàng)造了條件。然而, 標記輔助選擇應用于百粒重等由微效多基因控制的復雜數(shù)量性狀具有一定局限性, 全基因組選擇則為復雜性狀遺傳改良提供了新方法[8-10]。
全基因組選擇(GS)由Meuwissen等[11]首先提出, 是標記輔助選擇(MAS)的一種新方法。該方法利用分布在染色體的高密度分子標記估算候選個體的基因組估計育種值(GEBV), 并以此作為候選個體選擇的標準。與傳統(tǒng)的標記輔助選擇(MAS)和基因組關聯(lián)分析(GWAS)相比, 全基因組選擇無需選擇標記, 而將所有標記用于估計育種值, 以提高對微效多基因控制復雜性狀的選擇效率[11]。近年來, 全基因組選擇已被廣泛應用于玉米[12-13]、小麥[14-15]、大豆[16-17]、水稻[18]、大麥[19]、黑麥[20]、向日葵[21]等作物和桉樹[22]等林木育種研究。全基因組選擇的關鍵是通過交互驗證方法構建基于分子標記選擇目標性狀的預測模型。全基因組選擇首先利用同時具有表型數(shù)據(jù)和基因型數(shù)據(jù)的訓練群體(TS), 建立目標性狀全基因組選擇的預測模型, 再利用預測模型分析驗證群體(VS)的基因型并預測其表現(xiàn)型, 通過表型鑒定驗證預測結果的準確度。預測準確度通常由基因組估計育種值(GEBV)與表型值的Pearson相關系數(shù)表示。全基因組選擇預測準確度的影響因素很多, 主要包括群體連鎖不平衡程度、標記類型和數(shù)量、目標性狀遺傳力、訓練群體與驗證群體的關系、預測模型的選擇等[12-24]。
大豆的基因組序列數(shù)據(jù)的公布[25]及重測序[26-28]為全基因組選擇提供了豐富的標記信息, 50k大豆芯片的開發(fā)與利用[29]為大豆全基因組選擇實踐提供了技術支持。然而, 關于大豆全基因組選擇影響因子方面的報道還較少。Shu等[16]利用基于內(nèi)含子序列開發(fā)的79個SCAR標記對288個大豆品種百粒重進行全基因組選擇分析, 使用隨機回歸最佳線性無偏預測模型(RRBLUP)和貝葉斯線性回歸模型(Bayesian linear regression)的預測準確度最高值分別為0.854和0.904。Bao等[17]用282個品種的1536個SNP標記預測大豆抗胞囊線蟲病的全基因組選擇準確度的范圍為0.59~0.67, 隨著標記數(shù)量的降低其預測準確度呈下降趨勢。然而, 有關群體結構對大豆全基因組選擇預測準確度影響相關研究尚未見報道。
本研究以280份大豆品種組成的自然群體為材料, 利用分布在大豆全基因組的5361個SNP標記和多年多點表型估算百粒重數(shù)據(jù), 分析供試群體的遺傳結構、訓練群體與驗證群體的構成方式等對大豆百粒重的全基因組選擇預測準確度的影響, 為大豆產(chǎn)量相關性狀的全基因組選擇育種提供理論依據(jù)。
280份大豆育成品種(系)構成的自然群體包括北方春大豆240份, 黃淮夏大豆39份, 引進國外種質1份(見附表1)。
2008—2010年表型鑒定試驗地點為黑龍江、吉林、內(nèi)蒙古、河北、河南和山東。采用隨機區(qū)組田間設計, 3次重復, 4行區(qū), 行長5 m。2011—2012年表型鑒定試驗地點為黑龍江、吉林、內(nèi)蒙古、河北、河南、山東和安徽。采用隨機區(qū)組田間設計, 2次重復, 3個行區(qū), 行長3 m。均采用試驗地常規(guī)大豆種植管理方式。收獲時每個小區(qū)隨機選擇中間長勢均勻的10個單株參照邱麗娟等[30]編著的《大豆種質資源描述規(guī)范和數(shù)據(jù)標準(2006)》調查百粒重數(shù)據(jù)。
表1 不同鑒定年份及試驗地點間百粒重變化
針對本研究的表型性狀數(shù)據(jù)為非均衡數(shù)據(jù), 采用混合線性模型,Y =+G+Y+L+。其中Y表示第個品種在第年的地點的目標性狀觀察值,代表目標性狀群體平均數(shù),G、Y和L分別代表基因型(品種)效應、年份效應和地點效應,代表隨機誤差。將基因型(品種)、年份和地點作為隨機效應。計算參試品種目標性狀的最佳線性無偏預測值(BLUP), 以此作為目標性狀的基因組選擇表型數(shù)據(jù)。采用費爾等[31]的分析方法計算數(shù)量性狀遺傳力。
22 / (2 + σ2/2/2/2/)
式中,2表示廣義遺傳力,2表示基因型方差,2表示基因型與年份互作方差,2表示基因型與地點互作方差,2表示基因型、年份和地點互作方差,表示試驗年份,表示試驗地點,表示重復次數(shù)。
利用Illumina SoySNP 6k iSelect BeadChip大豆芯片完成供試群體的全基因組掃描。該芯片由分布于大豆20條染色體上的5361個SNP組成。這些SNP標記是根據(jù)已發(fā)表大豆重要農(nóng)藝性狀QTL定位區(qū)間, 選自于Song等[29]構建的Illumina SoySNP50k iSelect BeadChip。利用GenomeStudio程序檢測獲得供試群體的基因型數(shù)據(jù)。刪除缺失數(shù)據(jù)超過5%的標記, 篩選出5354個SNP標記用于進一步分析。
采用基于貝葉斯理論的馬爾科夫鏈蒙特卡羅方法(MCMC)及Structure 2.2軟件分析供試群體遺傳結構。亞群數(shù)量(值)設定范圍為1~10, Burn-in次數(shù)和MCMC重復次數(shù)均為10 000。依據(jù)Evanno等[32]D方法確定值。
利用主成分分析方法(principle component analysis, PCA)結合TASSEL 5.0軟件[33]分析供試群體的基因型。分別以第一主成分和第二主成分為坐標軸, 繪制供試群體散點圖。
采用隨機回歸最佳線性無偏預測模型(random regression best linear unbiased prediction, RR-BLUP)和5倍交互驗證方法研究大豆百粒重全基因組選擇。RR-BLUP模型為++e, 式中表示供試材料目標性狀的最佳線性無偏預測值向量,表示群體平均值,表示標記的加性效應,= (X)表示′維基因型矩陣,表示殘差項。模型中, 假設標記效應和殘差項符合各自的隨機分布, 即~(0,Iσ2α)和~(0,Iσ2), 其中I和I表示單位矩陣, 單位矩陣的維數(shù)分別為2=σ2/p和2=σ2/l,2和2分別表示基因型方差和誤差方差,和分別表示標記數(shù)量和試驗地點數(shù)量。
采用5倍交互驗證方法, 首先將供試群體隨機分成5份, 隨機選擇其中4份構成訓練群體(training subset, TS), 剩余的一份為驗證群體(validation subset, VS), 然后在訓練群體中利用表型數(shù)據(jù)和基因型數(shù)據(jù)建立大豆全基因組選擇模型, 最后, 在驗證群體中利用基因型數(shù)據(jù)和預測模型估算基因組估計育種值(genomic estimated breeding value, GEBV)。全基因組選擇預測準確度GSMP/, 其中MP表示驗證群體中基因組估計育種值與實際觀察值的相關系數(shù),表示遺傳力的平方根, 重復以上過程500次以消除取樣誤差。
在供試群體中采用五倍交互驗證方式估算供試群體總體的百粒重的全基因組選擇預測準確度; 在群體遺傳結構分析的基礎上, 將供試群體分成若干亞群, 在每個亞群中利用相同方法估算百粒重的全基因組選擇預測準確度; 分別以每個亞群為訓練群體, 其他亞群為驗證群體, 估算不同亞群間百粒重的全基因組選擇預測準確度; 分別以其中一個亞群為驗證群體, 其他亞群為訓練群體, 估算不同亞群間百粒重的全基因組選擇預測準確度; 將每個亞群隨機分成5個部分, 隨機選擇每個亞群的任意4個部分組成訓練群體, 每個亞群的剩余的一個部分為驗證群體, 估算基于群體結構的訓練群體對百粒重全基因組選擇預測準確度的影響。
通過R語言的“l(fā)me4”數(shù)據(jù)包計算供試群體目標性狀最佳線性無偏預測值和遺傳力, 利用Structure 2.2軟件分析群體遺傳結構, 利用Tassel 5.0軟件分析基因型主成分, 由R語言的“rrBLUP”數(shù)據(jù)包完成RRBLUP模型及5倍交互驗證。
利用混合線性模型獲得280份大豆品種的百粒重最佳線性無偏預測值, 供試品種的百粒重變化范圍為13.39~23.72 g, 平均18.97 g, 變異系數(shù)為7.80%。其中北方春大豆百粒重變化范圍為13.39~ 23.72 g, 平均18.92 g, 變異系數(shù)為7.45%; 黃淮夏大豆百粒重變化范圍為16.15~23.49 g, 平均19.29 g, 變異系數(shù)為9.59% (表2)。與北方春大豆相比, 黃淮夏大豆的平均百粒重呈上升趨勢但差異不顯著(測驗)。
方差分析表明, 品種間的百粒重差異均達到極顯著水平。此外, 百粒重在年份間、試驗地點間、年份與品種互作以及品種、地點和年份間互作均達到極顯著水平。地點與品種互作間差異不顯著。利用方差分析估算的百粒重遺傳力較高為0.92 (表3)。
表2 不同群體間百粒重最佳線性無偏預測描述性分析
表3 供試品種百粒重方差分析及遺傳力
**表示在0.01水平上差異顯著。**means significant difference at the 0.01 level.
利用Structure軟件計算不同值下D的變化趨勢。當= 3時,D最大, 并且隨著值的增減,D顯著降低(圖1)。表明供試的280份大豆品種可被分成3個亞群。其中第I和第II亞群分別由133份和88份品種組成, 全部為北方春大豆, 第III亞群為混合亞群, 包括39份黃淮夏大豆和20份北方春大豆。不同亞群間的遺傳分化指數(shù), 亞群內(nèi)期望雜合度以及亞群間遺傳距離見附表2。
進一步分析不同亞群中品種來源發(fā)現(xiàn), 第I亞群品種主要來自黑龍江省, 有115份, 占參試品種總數(shù)的86.46%, 其中吉林、內(nèi)蒙古、遼寧品種分別為13份、3份和1份, 還有1份國外品種。第II亞群以吉林品種為主, 為75份, 占比85.23%, 黑龍江、遼寧和山西品種分別為9份、3份和1份。第III亞群的品種來源較廣, 20份北方春大豆來源于遼寧、山西、吉林、北京、內(nèi)蒙古、河北等7個省(市、自治區(qū))。39份黃淮夏品種則來源于北京(11份)、山東(9份)、河南(6份)、河北(6份)、江蘇(3份)、安徽(2份)、山西(2份) 7個省(市)。
利用5354個SNP基因型數(shù)據(jù)對280份大豆品種進行主成分分析。前2個主成分累計解釋總變異的15.43%。分別以第一主成分與第二主成分為坐標軸, 繪制280份大豆品種散點圖, 在第一主成分將第III亞群與第I亞群和第II亞群分成兩部分, 在第二主成分, 第I亞群與第II亞群被分成兩部分, 日本品種十勝長葉分到了第I亞群(圖2)。
2.3.1 供試群體及不同亞群內(nèi)目標性狀預測準確度比較 在第I亞群內(nèi)隨機選擇130份大豆品種, 第II亞群隨機選擇85份大豆品種, 第III亞群內(nèi)隨機選擇55份大豆品種作為每個亞群的抽樣群體。在每個抽樣群體中以5倍交互驗證方法估算每個亞群的百粒重的全基因組選擇預測準確度。為消除取樣誤差, 以上過程均重復500次。通過比較發(fā)現(xiàn), 百粒重的預測準確性在不同群體間差異明顯, 以第III亞群最高為0.75, 第I亞群最低為0.24, 而總體和第II亞群分別為0.54和0.51 (表4和圖3)。
圖1 不同K值下DK變化趨勢
圖2 280份大豆品種主成分分析散點圖
表4 不同群體構成方式間百粒重預測準確度比較
C1、C2、C3分別表示第一亞群、第二亞群和第三亞群。
C1, C2, and C3 mean the first, the second, and the third subset, respectively.
圖3 不同亞群間百粒重預測準確度平均值及標準差柱狀圖
2.3.2 隨機取樣與基于群體結構取樣構成的群體間預測準確度比較 為了比較群體結構對百粒重全基因組選擇預測準確度的影響, 分別將3個亞群的抽樣群體隨機分成數(shù)量相等的5個部分, 在每個亞群中任意選擇4個部分構成訓練群體, 同時將每個群體的剩余的部分構成驗證群體, 建立了基于群體結構的訓練群體和驗證群體, 估算目標性狀的全基因組選擇預測準確度, 重復500次以消除取樣誤差。利用2.3.1中總體的5倍交互驗證方法估算百粒重的預測準確度為對照。不同方法構建的訓練群體和驗證群體目標性狀預測準確度結果表明, 基于群體結構構建的訓練群體和驗證群體百粒重的預測準確度略高于隨機取樣構建群體間百粒重的預測準確度, 但差異經(jīng)測驗未達到顯著水平(圖4)。
圖4 不同方法構建的訓練群體和驗證群體百粒重的預測準確度箱線圖
2.3.3 不同亞群間目標性狀預測準確度比較 分別以每個亞群為訓練群體, 預測另外2個亞群的百粒重基因組估計育種值, 并估算預測準確度(表3)。亞群內(nèi)相比, 不同亞群間百粒重的預測準確度明顯降低。遺傳距離較近的亞群間(第I亞群和第II亞群)預測準確度優(yōu)于遺傳距離遠的亞群間的預測準確度(第I亞群與第III亞群和第II亞群與第III亞群)。但是也有例外, 用第II亞群預測第III亞群時, 預測準確度為0.21, 超過其他亞群間百粒重預測準確度。
以任意2個亞群為訓練群體時, 估算剩余亞群百粒重預測準確度發(fā)現(xiàn), 以第I、第III亞群為訓練群體, 第II亞群為驗證群體時預測準確度最高為0.29; 當以第II, III亞群為訓練群體, 第I亞群為驗證群體時, 百粒重的預測準確度最低為0.07。比較結果發(fā)現(xiàn), 當?shù)贗I亞群與第III亞群分別處于訓練群體和驗證群體, 能提高百粒重的預測準確度。
大豆育成品種的群體結構是在長期的人工選擇過程中形成的, 反映了不同時期、不同生態(tài)類型大豆品種間的育種目標的差異。明確大豆品種群體結構對基于關聯(lián)分析方法的基因挖掘具有十分重要的意義。前人研究表明, 我國大豆育成品種及野生資源群體均存在復雜的遺傳結構, 并且與大豆品種(種質)的地理來源密切相關[34-36]。宋喜娥等利用248份栽培大豆微核心種質也獲得了相似的結果[37]。張軍等[38]研究表明, 中國大豆育成品種群體在遺傳結構上具有地理生態(tài)分化和育成時期分化, 不同亞群具有相對遺傳特異性。基于貝葉斯理論的Structure軟件和主成分分析方法成為群體結構分析的主要手段[39-40]。
本研究利用Structure軟件明確了參試品種的群體結構, 并得到主成分分析方法驗證。供試群體被劃分為3個亞群, 在第一主成分上, 不同生態(tài)類型品種被分成兩部分, 在第二主成分上, 不同省份品種被分開。這與前人研究中指出的大豆品種群體遺傳結構與地理生態(tài)分類相關的結論[34-38]相同。引進的日本品種十勝長葉是我國大豆育成品種中重要的核心親本[41]。在本研究中, 十勝長葉被劃分到北方春大豆的第一亞群中, 這與郭娟娟等[41]的研究結果相似。
利用模擬數(shù)據(jù)和試驗數(shù)據(jù)研究表明, 訓練群體的構成以及訓練群體與候選群體的關系是影響全基因組選擇預測準確度的重要因素[14, 20, 42-44]。訓練群體與候選群體遺傳關系越緊密, 預測準確度越高[14, 43]; 訓練群體和候選群體存在相同的群體結構能提高全基因組選擇的預測準確度[45]; 目標性狀的遺傳結構也能夠通過群體結構對全基因組預測準確度造成影響[14]。本研究比較了供試總體以及不同亞群內(nèi)的百粒重的預測準確度, 發(fā)現(xiàn)在目標性狀變異系數(shù)大的群體中, 全基因組選擇的預測準確度高。百粒重在供試總體和第I、第II、第III亞群中的變異系數(shù)分別為7.80%、6.53%、7.56%和10.49%, 相應百粒重的預測準確度分別為0.54、0.24、0.51和0.75。說明訓練群體中豐富的遺傳變異能夠提高大豆百粒重的預測準確度。這與前人研究結果一致[42-43, 45]。
Habier等[46]將基因組選擇的預測準確度來源歸結為標記與QTL的連鎖不平衡和訓練群體與候選群體的遺傳關系2個部分, 當訓練群體和驗證群體遺傳距離較遠時, 目標性狀的預測準確度主要依靠標記與QTL的連鎖不平衡關系。在本研究中第II亞群與第III亞群遺傳距離最遠, 但是以第II亞群預測第III亞群的百粒重的預測準確度在不同亞群間最高。這可能是由于在第II亞群和第III亞群間標記與百粒重的QTL具有相似的連鎖不平衡狀態(tài)。Asoro等[43]研究表明, 目標性狀、群體構成方式和全基因組選擇模型及其互作均能對預測準確度產(chǎn)生影響。本研究只用隨機回歸最佳線性無偏預測方法估算了群體構成方式對大豆百粒重全基因組選擇預測準確度的影響, 在進一步研究中可以考慮比較不同選擇模型對大豆百粒重預測準確度的作用。Guo等[44]利用來自于28個國家的413份水稻品種研究表明, 當訓練群體與驗證群體存在相同的群體結構時有利于全基因組預測準確度的提高。在本研究中, 基于群體結構取樣產(chǎn)生的群體預測準確度相比于隨機取樣的預測準確度提高了2.34%, 差異不顯著。
本研究所用的標記數(shù)量遠高于群體數(shù)量, 符合全基因組選擇理論[8-11]。同時基于已發(fā)表的大豆重要農(nóng)藝性狀的QTL的位置選擇標記, 保證了對大豆基因組的覆蓋程度。利用隨機回歸最佳線性無偏預測模型獲得的大豆百粒重的預測準確度平均值為0.539。Shu等[16]利用79個SCAR標記和288份大豆比較隨機回歸最佳線性無偏預測模型和貝葉斯線性回歸模型對大豆百粒重的預測準確度發(fā)現(xiàn), 在不同預測模型間的預測準確度平均值分別為0.692和0.690, 高于本研究獲得的預測準確度。Shu等[16]所用的標記數(shù)量較少, 但預測準確度比本研究結果高, 可能與標記中包括與大豆百粒重顯著相關6個的SCAR標記有關。Bao等[17]也發(fā)現(xiàn), 在標記密度較低的情況下(96個), 將與目標性狀相關的標記作為固定效應, 其他標記作為隨機效應時, 可將大豆抗胞囊線蟲病的全基因組選擇預測準確度提高20%。因此, 今后可以通過關聯(lián)分析篩選與百粒重相關的標記并建立適宜的預測模型, 提高大豆百粒重的全基因組選擇預測準確度。
利用隨機取樣方法和基于群體結構的取樣方法構建訓練群體, 以隨機回歸最佳線性無偏預測模型和5倍交互驗證的方法對大豆百粒重進行全基因組選擇, 預測準確度分別為0.5387和0.5513。群體構成方式與百粒重全基因組選擇預測準確度關系密切, 以亞群內(nèi)顯著高于亞群間、遺傳距離近群體優(yōu)于遺傳距離遠群體; 提高訓練群體百粒重的遺傳變異程度能顯著提高預測準確度。本研究結果為大豆重要性狀選擇提供了一種分子育種新方法。
附表 請見網(wǎng)絡版: 1) 本刊網(wǎng)站http://zwxb.chinacrops. org/; 2) 中國知網(wǎng)http://www.cnki.net/; 3) 萬方數(shù)據(jù)http://c.wanfangdata.com.cn/Periodical- zuowxb.aspx。
[1] 蓋鈞鎰, 熊冬金, 趙團結. 中國大豆育成品種系譜與種質基礎(1923–2005). 北京: 中國農(nóng)業(yè)出版社, 2015. pp 11–12 Gai J Y, Xiong D J, Zhao T J. The Pedigrees and Germplasm Bases of Soybean Cultivars Released in China (1923–2005). Beijing: China Agriculture Press, 2015. pp 11–12 (in Chinese)
[2] 徐東河, 李東艷, 程舜華. 大豆百粒重與抗旱性及產(chǎn)量的關系. 中國油料, 1991, (3): 64–66 Xu D H, Li D Y, Cheng S H. Relationship between 100-seed weight and anti-draught and yield of soybean., 1991, (3): 64–66 (in Chinese)
[3] 王占廷, 欒素榮, 程舜華. 大豆百粒重與產(chǎn)量的相關分析. 大豆通報, 1997, (2): 9 Wang Z T, Luan S R, Cheng S H. Relationship analysis between 100-seed weight and yield in soybean., 1997, (2): 9 (in Chinese)
[4] 汪霞, 徐宇, 李廣軍, 李河南, 艮文全, 章元明. 大豆百粒重QTL定位. 作物學報, 2010, 36: 1674–1682 Wang X, Xu Y, Li G J, Li H N, Gen W Q, Zhang Y M. Mapping quantitative trait loci for 100-seed weight in soybean (L. Merr.)., 2010, 36: 1674–1682 (in Chinese with English abstract)
[5] 陳慶山, 蔣洪蔚, 孫殿君, 劉春燕, 辛大偉, 曾慶力, 馬占洲, 胡國華. 利用野生大豆染色體片段代換系定位百粒重QTL. 大豆科學, 2014, 33: 154–160 Chen Q S, Jiang H W, Sun D J, Liu C Y, Xin D W, Zeng Q L, Ma Z Z, Hu G H. QTL Mapping for 100-seed weight using wild soybean chromosome segment substitution lines., 2014, 33: 154–160 (in Chinese with English abstract)
[6] 張英虎, 孟珊, 賀劍波, 王宇峰, 邢光南, 趙團結, 蓋鈞鎰. 大豆重組自交系群體NJRSXG百粒重超親分離的遺傳解析. 中國農(nóng)業(yè)科學, 2015, 48: 4408–4416 Zhang Y H, Meng S, He J B, Wang Y F, Xing G N, Zhao T J, Gai J Y. The genetic constitution of transgressive segregation of the 100-seed weight in a recombinant inbred line population NJRSXG of soybean., 2015, 48: 4408–4416 (in Chinese with English abstract)
[7] 齊照明, 孫亞男, 陳立君, 郭強, 劉春燕, 胡國華, 陳慶山. 基于Meta分析的大豆百粒重的QTLs定位. 中國農(nóng)業(yè)科學, 2009, 42: 3795–3803 Qi Z M, Sun Y N, Chen L J, Guo Q, Liu C Y, Hu G H, Chen Q S. Meta-analysis of 100-seed weight QTL in soybean., 2009, 42: 3795–3803 (in Chinese with English abstract)
[8] Goddard M E, Hayes B J. Genomic selection., 2007, 124: 323–330
[9] Jannink J L, Lorenz A J, Iwata H. Genomic selection in plant breeding: from theory to practice., 2010, 9: 166–177
[10] Nakaya A, Isobe S N. Will genomic selection be a practical method for plant breeding?, 2012, 110: 1303–1316
[11] Meuwissen T H E, Hayes B J, Goddar M E. Prediction of total genetic value using genome-wide dense marker maps., 2001, 157: 1819–1829
[12] Zhao Y, Gowda M, Liu W, Wurschum T, Maurer H P, Longin F H, Ranc N, Reif J C. Accuracy of genomic selection in European maize elite breeding populations., 2012, 124: 769–776
[13] Zhao Y, Gowda M, Longin F H, Wurschum T, Ranc N, Reif J C. Impact of selective genotyping in the training population on accuracy and bias of genomic selection., 2012, 125: 707–713
[14] Crossa J, Perez P, Hickey J, Burgueno J, Ornella L, Rojas J C, Zhang X, Dreisigacker S, Babu R, Li Y, Mathews K. Genomic prediction in CIMMYT maize and wheat breeding programs., 2014, 112: 48–60
[15] Dawson J C, Endelman J B, Heslot N, Crossa J, Poland J, Dreisigacker S, Manes Y, Sorrells M E, Jannink J L. The use of unbalanced historical data for genomic selection in an international wheat breeding program., 2013, 154: 12–22
[16] Shu Y J, Yu D S, Wang D, Bai X, Zhu Y M, Guo C H. Genomic selection of seed weight based on low-density SCAR markers in soybean., 2013, 12: 2178–2188
[17] Bao Y, Vuong T, Meinhardt C, Tiffin P, Denny R, Chen S Y, Nguyen H T, Orf J H, Young N D. Potential of association mapping and genomic selection to explore PI88788 derived soybean cyst nematode resistance., 2014, 7: 1–13
[18] Sprdel J, Begum H, Akdemir D, Virk P, Collard B, Redona E, Atlin G, Jannink J L, McCouch S R. Genomic selection and association mapping in rice (): effect of trait genetic architecture, training population composition, marker number and statistical model on accuracy of rice genomic selection in elite, tropical rice breeding lines., 2015, 11: e1004982
[19] Zhong S Q, Dekkers J C, Fernando R L, Jannink J L. Factors affecting accuracy from genomic selection in population derived from multiple inbred lines: a barley case study., 2009, 182: 355–364
[20] Wang Y, Mette M F, Miedaner T, Gottwald M, Wilde P, Rif J C, Zhao Y S. The accuracy of prediction of genomic selection in elite hybrid rye populations surpasses the accuracy of marker- assisted selection and is equally augmented by multiple field evaluation locations and test years., 2014, 15: 556–567
[21] Reif J C, Zhao Y S, Wurschum T, Gowda M, Hahn V. Genomic selection of sunflower hybrid performance., 2013, 132: 107–114
[22] Denis M, Bouvet J M. Efficiency of genomic selection with models including dominance effect in the context ofbreeding., 2013, 9: 37–51
[23] Desta Z A, Ortiz R. Genomic selection: genome-wide prediction in plant improvement., 2014, 19: 592–601
[24] Heslot N, Jannink J L, Sorrells M E. Perspective for genomic selection applications and research in plants., 2015, 55: 1–12
[25] Schmutz J, Cannon S B, Schlueter J, Ma J X, Mitros T, Nelson W, Hyten D L, Song Q J, Thelen J J, Cheng J L, Xu D, Hellsten U, May G D, Yu Y S, Sakurai T, Umezawa T S, Bhattacharyya M K, Sandhu D, Valliyodan B, Lindquist E, Peto M, Grant D, Shu S Q, Goodstein D, Barry K, Griggs M F, Abernathy B, Du J C, Tian Z X, Zhu L C, Gill N, Joshi T, Libault M, Sethuraman A, Zhang X C, Shinozaki K, Nguyen H T, Wing R A, Cregan P, Specht J, Grimwood J, Rokhsar D, Stacey G, Shoemaker R C, Jachson S A. Genome sequence of the palaeoployploid soybean., 2010, 463: 178–183
[26] Lam H M, Xu X, Liu X, Chen W B, Yang G H, Wong F L, Li M W, He W M, Qin N, Wang B, Li J, Jian M, Wang J, Shao G H, Wang J, Sun S S, Zhang G Y. Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection., 2010, 42: 1053–1059
[27] Li Y H, Zhou G Y, Ma J X, Jiang W K, Jin L G, Zhang Z H, Guo Y, Zhong J B, Sui Y, Zheng L T, Zhang S S, Zou Q Y, Shi X H, Li Y F, Zhang W K, Hu Y Y, Kong G Y, Hong H L, Tan B, Song J, Liu Z X, Wang Y S, Ruan H, Yeung C K, Liu J, Wang H L, Zhang L J, Guan R X, Wang K J, Li W B, Chen S Y, Chang R Z, Jiang Z, Jackson S A, Li R Q, Qiu L J. De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits., 2014, 32: 1045–1052
[28] Zhou Z K, Jiang Y, Wang Z, Gou Z H, Lyu J, Li W Y, Yu Y J, Shu L Q, Zhao Y J, Ma Y M, Fang C, Shen Y T, Liu T F, Li C C, Li Q, Wu M, Wang M, Wu Y S, Dong Y, Wan W T, Wang X, Ding Z L, Gao Y D, Xiang H, Zhu B G, Lee S H, Wang W, Tian Z X. Re-sequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean., 2015, 33: 408–414
[29] Song Q J, Hyten D L, Jia G F, Quigley C V, Fickus E W, Nelson R L, Cregan P B. Development and evaluation of SoySNP50K, a high-density genotyping array for soybean., 2013, 8: e54985
[30] 邱麗娟, 常汝鎮(zhèn), 劉章雄, 關榮霞, 李英慧. 大豆種質資源描述規(guī)范和數(shù)據(jù)標準. 北京: 中國農(nóng)業(yè)出版社, 2006. pp 18–24 Qiu L J, Chang R Z, Liu Z X, Guan R X, Li Y H. Descriptors and Data Standard for Soybean (spp.). Beijing: China Agriculture Press, 2015. pp 18–24 (in Chinese)
[31] Fehr W R. Genetic contributions to yield gains of five major crop plants; proceedings of a symposium sponsored by Division C-1 of the Crop Science Society of America, in Atlanta, Georgia- ResearchGate, 1984.
[32] Evanno G, Regnaut S, Goudet J. Detecting the number of clusters of individuals using the software STRUCTURE: a simulation study., 2005, 14: 2611–2620
[33] Bradbury P J, Zhang Z W, Kroon D E, Casstevens T M, Ramdoss Y, Buckler E S. TASSEL: software for association mapping of complex traits in diverse samples., 2007, 23: 2633–2635
[34] 文自翔, 趙團結, 鄭永戰(zhàn), 劉順湖, 王春娥, 王芳, 蓋鈞鎰. 中國栽培和野生大豆農(nóng)藝品質性狀與SSR標記的關聯(lián)分析: I. 群體結構及關聯(lián)標記. 作物學報, 2008, 34: 1169–1178 Wen Z X, Zhao T J, Zheng Y Z, Liu S H, Wang C E, Wang F, Gai J Y. Association analysis of agronomic and quality traits with SSR markers inandin China: I. Population structure and associated markers., 2008, 34: 1169–1178 (in Chinese with English abstract)
[35] 張軍, 趙團結, 蓋鈞鎰. 中國東北大豆育成品種遺傳多樣性和群體遺傳結構分析. 作物學報, 2008, 34: 1529–1536 Zhang J, Zhao T J, Gai J Y. Genetic diversity and genetic structure of soybean cultivar population released in Northeast China., 2008, 34: 1529–1536 (in Chinese with English abstract)
[36] 范虎, 趙團結, 丁艷來, 邢光南, 蓋鈞鎰. 中國野生大豆群體特征和地理分化的遺傳分析. 中國農(nóng)業(yè)科學, 2012, 45: 414–425 Fan H, Zhao T J, Ding Y L, Xing G N, Gai J Y. Genetic analysis of the characteristics and geographic differentiation of Chinese wild soybean population., 2012, 45: 414–425 (in Chinese with English abstract)
[37] 宋喜娥, 李英慧, 常汝鎮(zhèn), 郭平毅, 邱麗娟. 中國栽培大豆((L.) Merr.) 微核心種質的群體結構與遺傳多樣性. 中國農(nóng)業(yè)科學, 2010, 43: 2209–2219 Song X E, Li Y H, Chang R Z, Guo P Y, Qiu L J. Population sturcture and genetic diversity of mini core collection of cultivated soybean ((L.) Merr.) in China., 2010, 43: 2209–2219 (in Chinese with English abstract)
[38] 張軍, 趙團結, 蓋鈞鎰. 中國大豆育成品種群體遺傳結構分化和亞群特異性分析. 中國農(nóng)業(yè)科學, 2009, 42: 1901–1910 Zhang J, Zhao T J, Gai J Y. Analysis of genetic structure differentiation of released soybean cultivar population and specificity of subpopulations in China., 2009, 42: 1901–1910 (in Chinese with English abstract)
[39] 魏世平, 劉曉芬, 楊勝先, 呂海燕, 牛遠, 章元明. 中國栽培大豆群體結構不同分類方法的比較. 南京農(nóng)業(yè)大學學報, 2011, 34(2): 13–17 Wei S P, Liu X F, Yang S X, Lyu H Y, Niu Y, Zhang Y M. Comparison of various clustering methods for population structure in Chinese cultivated soybean ((L.) Merr.)., 2011, 34(2): 13–17 (in Chinese with English abstract)
[40] 黎裕, 李英慧, 楊慶文, 張錦鵬, 張金梅, 邱麗娟, 王天宇. 基于基因組學的作物種質資源研究: 現(xiàn)狀與展望. 中國農(nóng)業(yè)科學, 2015, 48: 3333–3353 Li Y, Li Y H, Yang Q W, Zhang J P, Zhang J M, Qiu L J, Wang T Y. Genomics-based crop germplasm research: advances and perspectives., 2015, 48: 3333–3353 (in Chinese with English abstract)
[41] 郭娟娟, 常汝鎮(zhèn), 章建新, 張巨松, 關榮霞, 邱麗娟. 日本大豆種質十勝長葉對我國大豆育成品種的遺傳貢獻分析. 大豆科學, 2007, 26: 807–819 Guo J J, Chang R Z, Zhang J X, Zhang J S, Guan R X, Qiu L J. Contribution of Japanese soybean germplasm TOKACHI- NAGAHA to Chinese soybean cultivars., 2007, 26: 807–819 (in Chinese with English abstract)
[42] Toosi A, Fernando R L, Dekkers J C M. Genomic selection in admixed and crossbred populations., 2010, 88: 32–46
[43] Asoro F G, Newell M A, Beavis W D, Scott M P, Jannink J L. Accuracy and training population design for genomic selection on quantitative traits in elite North American oats., 2011, 4: 132–144
[44] Guo Z G, Tucker D M, Basten C J, Gandhi H, Ersoz E, Guo B H, Xu Z Y, Wang D L, Gay G. The impact of population structure on genomic prediction in stratified populations., 2014, 127: 749–762
[45] Daetwyler H D, Wong R P, Villanueva B, Woolliams J A. The impact of genetic architecture on genome-wide evaluation methods., 2010, 185: 1021–103
[46] Habier D, Fernando R L, Dekkers J C M. Impact of genetic relationship information on genome-assisted breeding values., 2007, 177: 2389–2397
Effect of Population Structure on Prediction Accuracy of Soybean 100-Seed Weight by Genomic Selection
MA Yan-Song1,2,13, LIU Zhang-Xiong1, WEN Zi-Xiang3, WEI Shu-Hong4, YANG Chun-Ming5, WANG Hui-Cai6, YANG Chun-Yan7, LU Wei-Guo8, XU Ran9, ZHANG Wan-Hai10, WU Ji-An11, HU Guo-Hua12, LUAN Xiao-Yan13, FU Ya-Shu14, GUO Tai15, WANG Shu-Ming5, HAN Tian-Fu1, ZHANG Meng-Chen7, ZHANG Lei16, YUAN Bao-Jun17, GUO Yong1, Jochen C. REIF18, JIANG Yong18, LI Wen-Bin2, WANG De-Chun3, and QIU Li-Juan1,*
1National Key Facility for Crop Gene Resources and Genetic Improvement / Institute of Crop Sciences, Chinese Academy of Agricultural Sciences, Beijing 100081, China;2College of Agriculture, Northeast Agricultural University, Harbin 150030, Heilongjiang, China;3Department of Plant, Soil and Microbial Sciences, Michigan State University, East Lansing MI 48824, USA;4Institute of Crop Breeding, Heilongjiang Academy of Agricultural Sciences, Harbin 150086, Heilongjiang, China;5Soybean Research Institute, Jilin Academy of Agricultural Sciences, Changchun 130033, Jilin, China;6Chifeng Institute of Agricultural Sciences, Chifeng 024031, Inner Mongolia, China;7Institution of Cereal and Oil Crops, Hebei Academy of Agriculture and Forestry Sciences, Shijiazhuang 050031, Hebei, China;8Economic Crops Institute, Henan Academy of Agricultural Sciences, Zhengzhou 450002, Henan, China;9Crop Research Institute, Shandong Academy of Agricultural Sciences, Jinan 250010, Shandong, China;10Hulunbeier Institute of Agricultural Sciences, Hulunbeier 021000, Inner Mongolia, China;11Heihe Branch Institute, Heilongjiang Academy of Agricultural Sciences, Heihe 164300, Heilongjiang, China;12Crop Research and Breeding Center of Land-Reclamation, Harbin 150090, Heilongjiang, China;13Soybean Research Institute, Heilongjiang Academy of Agricultural Sciences, Harbin 150086, Heilongjiang, China;14Suihua Branch Institute, Heilongjiang Academy of Agricultural Sciences, Suihua 152052, Heilongjiang, China;15Jiamusi Branch Institute, Heilongjiang Academy of Agricultural Sciences, Jiamusi 154007, Heilongjiang, China;16Crop Research Institute, Anhui Academy of Agricultural Sciences, Hefei 230031, Anhui, China;17Zhoukou Institute of Agricultural Sciences, Zhoukou 466001, Henan, China;18Department of Breeding Research, Leibniz Institute of Plant Genetics and Crop Plant Research (IPK), Gatersleben 06466, Germany
Hundred-seed weight is an important yield component and has positive relationship with soybean yield under certain conditions. The genetic gain of 100-seed weight based on traditional breeding or markers assisted-selection is limited because it is controlled by plenty of small effect genes. Genomic selection offers an approach to accelerate the soybean 100-seed weight breeding. However, the effect of population structure on soybean 100-seed weight prediction accuracy has not been elaborated. In our study 280 soybean varieties with phenotypic data evaluated in multi-location in 2008–2012 and 5361 SNPs genotype were used to explore the effect of population structure on 100-seed weight prediction accuracy. The best linear unbiased prediction of 100-seed weight of each variety was calculated according to mixed linear model. Ridge regression best linear unbiased prediction and five-fold cross validation were used to estimate the 100-seed weight prediction accuracy. Our research showed that the range of 100-seed weight, which was from –0.15 to +0.75. Hundred-seed weight prediction accuracy was affected by population structure significantly. The prediction accuracy within a subset (+0.24 to +0.75) was higher than that between subsets (-0.15 to +0.29). When the genetic distance between subsets increased from 0.1566 to 0.2201, the 100-seed weight prediction accuracy was decreased by 27.87%. Compared with random sampling training population, the training population composed based on genetic structure improved 100-seed weight prediction accuracy by 2.34%. In summary, we are clear about the soybean 100-seed weight genomic selection accuracy and the effect of population structure on genomic selection accuracy. The genomic selection is an efficient method to improve the soybean breeding.
; 100-seed weight; genomic selection; prediction accuracy; genetic structure
2017-02-10;
2017-09-10;
2017-10-30.
10.3724/SP.J.1006.2018.00043
通信作者(Corresponding author):邱麗娟, E-mail: qiulijuan@caas.cn, Tel: 010-82105840
E-mail: mys771007@hotmail.com
本研究由國家轉基因生物新品種培育重大專項(2014ZX08004001)和中國農(nóng)業(yè)科學院農(nóng)業(yè)科技創(chuàng)新項目資助。
This study was supported by the National Major Project for Developing New GM Crops (2014ZX08004001) and the Agricultural Science and Technology Innovation Program (ASTIP) of Chinese Academy of Agricultural Sciences.
URL: http://kns.cnki.net/kcms/detail/11.1809.S.20171030.0858.002.html