周子文,王雪,丁向東
研究報告
基于高密度SNP標記估計群體間遺傳關聯(lián)
周子文,王雪,丁向東
中國農(nóng)業(yè)大學動物科技學院,畜禽育種國家工程實驗室,農(nóng)業(yè)農(nóng)村部動物遺傳育種與繁殖重點實驗室,北京 100193
聯(lián)合育種的準確性受到群體間遺傳關聯(lián)程度的影響。本研究通過比較基于系譜數(shù)據(jù)和基因組數(shù)據(jù)計算的群體遺傳關聯(lián),探究高密度SNP標記在遺傳關聯(lián)估計中的應用前景。本研究同時使用了模擬數(shù)據(jù)和真實數(shù)據(jù),采用6種不同的遺傳關聯(lián)計算方法,包括PEVD (prediction error variance of differences)、PEVD(x)、VED (variance of estimated difference)、CD (generalized coefficient of determination)、r (prediction error correlation)和CR (connectedness rating),比較基于構建不同的關系矩陣(A、G、Gs、G0.5和H矩陣)的群體間遺傳關聯(lián)。模擬數(shù)據(jù)和實際數(shù)據(jù)結果表明,除PEVD(x)和VED方法外,PEVD、CD、r和CR基于基因組信息的G、Gs和G0.5陣計算的遺傳關聯(lián)程度均高于基于系譜信息的A陣,基于同時利用系譜和基因組信息的H陣遺傳關聯(lián)結果一般介于A陣與G陣之間。當CR和r為0時,CD都較高,高估了群體遺傳關聯(lián)。用r度量3個遺傳分化程度不同的豬場間遺傳關聯(lián)時,基于G陣的r值均為0.01,不能準確反映群體真實遺傳關聯(lián)。隨著遺傳力的提高,所有群體遺傳關聯(lián)評估方法都有所改善,但遺傳力為0.1時,PEVD基于A陣結果優(yōu)于G陣,中高遺傳力性狀用于估計遺傳關聯(lián)優(yōu)于低遺傳力性狀。本研究證明高密度SNP標記比系譜信息估計群體間遺傳關聯(lián)更有優(yōu)勢,CR是衡量遺傳關聯(lián)穩(wěn)健而可靠的評價指標,計算簡單,受性狀遺傳力影響較小。PEVD可以作為補充,量化具體群體遺傳關聯(lián)下的育種值預測誤差情況。G矩陣比Gs、G0.5陣能更好反映群體遺傳關聯(lián)。
豬;遺傳關聯(lián);系譜;基因組;關系矩陣
聯(lián)合評估是家畜育種中一種有效方式,可將不同國家、地區(qū)、育種組織的育種數(shù)據(jù)聯(lián)合起來對個體進行遺傳評估,由于擴大了群體規(guī)模,從而提高了育種值估計的準確性,而且能夠進行大范圍內(nèi)種畜的比較和選種,實現(xiàn)聯(lián)合育種。奶牛、豬育種中這一做法十分通行,但多個群體的聯(lián)合遺傳評估,群體間存在關聯(lián)是前提,表現(xiàn)為群體具有遺傳上的關聯(lián)或者由于相同環(huán)境造成的關聯(lián)[1],從而使多個群體的聯(lián)合評估可以在同一尺度上進行比較。相同環(huán)境所造成的群體關聯(lián)主要通過不同群體在中心測定站統(tǒng)一進行性能測定實現(xiàn),但由于中心測定站測定規(guī)模限制,此種群體關聯(lián)影響有限。群體關聯(lián)更多是由于場間遺傳交流產(chǎn)生的遺傳聯(lián)系,如我國生豬遺傳改良計劃開展的聯(lián)合遺傳評估,通過場間遺傳交流建立不同生豬核心育種場之間的遺傳聯(lián)系,形成了杜洛克、長白和大白3個品種多個遺傳關聯(lián)組[2]。每個關聯(lián)組聯(lián)合評估與單場遺傳評估相比,遺傳參數(shù)估計和個體育種值估計準確性更高[3],并且可以進行個體跨場比較,挑選優(yōu)秀種豬。
群體遺傳關聯(lián)有多種估計方法,可以分為兩大類:育種值估計預測誤差方差和育種值比較的可靠性或相關系數(shù)。第一種主要有預測誤差方差方法(prediction error variance of differences, PEVD)[4]、PEVD(x)[5]和場效應差異的估計方差(variance of estimated difference, VED)[4]。從理論上說,PEVD是一種較為理想的度量遺傳關聯(lián)的方法,該方法通過計算不同個體之間育種值(estimated breeding value, EBV)差異的預測誤差方差,評價兩個個體育種值比較的準確性,但該方法計算復雜,難以用于育種實踐[4]。PEVD(x)和VED是PEVD的近似估計方法,PEVD(x)通過構建一個差異向量x近似估計PEVD,進行簡化計算[5],VED主要計算場效應之間的預測誤差方差[4]。第二類群體遺傳關聯(lián)估計方法主要有廣義決定系數(shù)方法(generalized coefficient of deter-mination, CD)[5]、預測誤差相關系數(shù)(prediction error correlation, r)[6]和場間關聯(lián)率(connectedness rating, CR)[7]。CD定義為估計育種值比較的可靠性,即預測值差異與真實值差異間相關系數(shù)的平方[5],r通過計算兩個群體之間兩兩配對的預測誤差相關系數(shù)均值來評價遺傳關聯(lián)程度[6]。CR主要計算場效應之間的相關,或者群體均值估計誤差之間的相關[7]。
遺傳關聯(lián)計算通常基于系譜數(shù)據(jù)[8],但是系譜數(shù)據(jù)難以保證其完整性和準確性,會導致部分場間遺傳關聯(lián)低于真實情況,或者產(chǎn)生錯誤的場間遺傳關聯(lián)。如果兩個群體均有基因組數(shù)據(jù),則即便缺乏完整準確的系譜記錄,也可以估計遺傳關聯(lián),從而拓展了遺傳關聯(lián)方法的使用范圍。使用基因組數(shù)據(jù)估計遺傳關聯(lián)的另一個主要優(yōu)勢為基因組數(shù)據(jù)能夠真實反映個體間親緣關系,通過基因組數(shù)據(jù)構建的個體間關系矩陣比基于系譜信息的更加準確[9~11],可以捕捉到系譜數(shù)據(jù)中不存在的遺傳關聯(lián)。
本研究旨在通過比較不同群體關聯(lián)估計方法基于系譜和SNP芯片數(shù)據(jù)計算的遺傳關聯(lián),探究基因組數(shù)據(jù)在遺傳關聯(lián)估計中的應用效果及各種群體關聯(lián)估計方法的優(yōu)劣。
本研究采用GPOPSIM[12]軟件模擬基因組數(shù)據(jù)。模擬了18條染色體,每條染色體長度為100 cM, 染色體總長度為18 M,總共模擬了306個QTL,隨機分布在染色體組上。SNP標記和QTL的突變率分別為1.25×10–6和2.5×10–3。從每條染色體上均勻抽取2834個SNP,共51,012個SNP,生成基因型數(shù)據(jù)。表型數(shù)據(jù)由軟件模擬生成,遺傳力設定為0.3,遺傳方差為2。
群體模擬首先生成一個1000世代的歷史群體,每個世代群體規(guī)模保持不變,均由300頭公畜和300頭母畜組成,公母隨機交配,每頭母畜產(chǎn)生10個后代,公母各半。從第1000個世代群體后代中隨機抽取,生成兩個亞群,每個亞群均由20頭公畜和600頭母畜構成。每個亞群內(nèi),每頭公畜與30頭母畜隨機交配,每頭母畜產(chǎn)生10個后代,公母比例1∶1,記為世代1。從世代2開始,每個亞群內(nèi)均從上一世代隨機選擇20頭公畜與1500頭母畜交配,母畜產(chǎn)生后代數(shù)與性別比例同世代1,不同世代群體大小保持不變。重復上述過程,直至世代7,兩個亞群間不發(fā)生遺傳交流。兩個亞群世代1至世代7所有個體均有表型,僅第5世代至第7世代每個亞群各有3000個體(每個公畜家系中一半個體)具有基因型數(shù)據(jù)。
本研究同時利用3家國家生豬核心育種場(以下簡稱“核心場”)北京六馬養(yǎng)豬科技股份有限公司(場代碼BJLM,簡稱“北京六馬”)、北京養(yǎng)豬育種中心(場代碼BBSC,簡稱“養(yǎng)豬中心”)及新疆天康畜牧科技有限公司(場代碼XJTC,簡稱“新疆天康”) 2012~2019年大白豬數(shù)據(jù)。北京六馬和養(yǎng)豬中心種豬來源于美國,新疆天康來源于加拿大。3家核心場生長性狀達100 kg體重日齡和100 kg活體背膘厚表型數(shù)據(jù)分別為33,883、13,259和13,763條,系譜數(shù)據(jù)各有36,577、75,255和14,409條,具有SNP芯片基因型個體數(shù)為2382、1712和1239頭。
北京六馬和養(yǎng)豬中心的基因型數(shù)據(jù)均采用PorcineSNP80K Beadchip芯片(簡稱80K)測定,共包含68,528個SNP位點;新疆天康的基因型數(shù)據(jù)則由PorcineSNP50K Beadchip芯片(簡稱50K)測定,共包含50,697個SNP位點。兩種芯片均參照豬參考基因組11.1版本,除去未知染色體上的位點后,兩款芯片共同位點數(shù)為48,675。芯片基因型填充步驟分兩步進行,首先對80K芯片個體進行填充,剔除未知染色體和常染色體上的位點,之后將其作為參考群對所有50K芯片個體進行填充,芯片數(shù)據(jù)填充處理使用beagle[13]軟件完成。填充后對芯片數(shù)據(jù)進行如下質(zhì)控處理:(1)個體檢出率(call rate)達到90%以上;(2)單個SNP檢出率達到90%以上;(3) SNP位點的最小等位基因頻率不低于0.05;(4)每個SNP位點哈代–溫伯格平衡檢驗值大于10–6。質(zhì)控篩選后,所有基因型個體、45569個SNP位點滿足要求。
群體關聯(lián)估計主要基于育種值估計,本研究所有群體遺傳關聯(lián)方法計算均基于以下育種值估計模型:
本研究使用PEVD、PEVD(x)、VED、CD、r和CR等6種方法估計群體遺傳關聯(lián)。PEVD計算公式如下:
PEVD(x)方法參照Lalo?等[5]。VED、CD、r 和 CR 方法計算公式如下:
本研究主要利用系譜數(shù)據(jù)和SNP芯片數(shù)據(jù),構建1.3中的K陣,包括A陣、G陣、Gs陣、G0.5陣和H陣。G陣構建參照VanRaden等[14],為防止G陣為奇異陣導致無法求逆,本研究中將G陣對角線元素均增加了0.01[15]。研究表明,使用G陣計算預測誤差相關系數(shù)r時,r容易出現(xiàn)負值[16,17]。本研究通過將G陣中的負值替換為0,避免了r和CR方法結果出現(xiàn)負值。G陣構建中需要每個標記在基礎群體時的最小等位基因頻率,通常用當前群體的最小等位基因頻率代替,G0.5矩陣將最小等位基因頻率均假設為0.5[18,19]。
為校正G陣中元素大小,使G陣與A陣尺度保持一致。本研究將G陣中的所有元素校正到給定的最小值和最大值的范圍之內(nèi),命名為Gs陣。Gs矩陣構建方法如下:
其中Gsmax、Gsmin為給定的Gs矩陣的最大值和最小值,本研究分別設定為2和0,以模擬A陣中的最大值和最小值;Gmax、Gmin為G陣中的最大值和最小值;Gij為相應的G陣元素。
本研究H陣構建參照Legarra等[20],其中H陣中使用的G陣經(jīng)過了兩步校正,第一步校正參照Legarra等[20],生成一個新的矩陣Ga,保證G陣和A陣具有相同的尺度。由于基因型數(shù)據(jù)不能完全解釋基因組信息,賦予Ga陣和A陣不同的權重,生成新的Gw陣,最終用于H陣構建。本研究Ga陣和A陣權重分別為0.95和0.05。
表1反映了基于模擬數(shù)據(jù),6種群體關聯(lián)估計方法和5種關系矩陣對群體關聯(lián)估計的影響。以模擬數(shù)據(jù)第5世代兩個亞群群體關聯(lián)結果為例,使用G陣相較于A陣能夠提高群體遺傳關聯(lián)。PEVD從1.65降至1.32,G0.5陣則進一步使PEVD降低至0.9285?;贕s陣估計的PEVD高于G陣,但仍低于A陣,同時利用系譜和基因組信息的H陣PEVD與G陣接近。作為PEVD的擴展,PEVD(x)和VED方法卻呈現(xiàn)了相反趨勢,G、Gs、G0.5陣結果劣于A陣,基于A陣的PEVD(x)和VED過低,接近于0。由于受A陣影響,基于H陣的PEVD(x)和VED也很小,分別為0.002和0.004。G、Gs、G0.5矩陣PEVD(x)和VED在0.27~0.42間變化,G0.5最小,Gs最大。
對于r和CR,通過系譜數(shù)據(jù)計算兩個亞群遺傳關聯(lián)均為0,表明由于世代分隔較遠,兩個群體從系譜衡量已沒有遺傳聯(lián)系。但基于基因組信息的不同關系矩陣,r和CR結果均不為零,表明基因組數(shù)據(jù)能夠捕捉系譜中不存在的遺傳關聯(lián)。r和CR基于G和H很低,分別為(0.0008,0.0003)和(0.003,0.02),基于G0.5則高達0.75和0.91。r基于Gs由于出現(xiàn)負值導致不可計算,CR則與基于G陣接近。與r和CR相比,決定系數(shù)CD所有情況下都較高,在0.59~0.69之間,G陣高于A陣,Gs陣最高。對于大多數(shù)遺傳關聯(lián)估計方法,H陣結果均介于A陣與G陣之間。
表2反映了基于3家核心場的群體關聯(lián)估計方法和關系矩陣對群體關聯(lián)大小的影響。由于3個場之間沒有系譜聯(lián)系,沒有考慮綜合系譜和基因組信息的H矩陣。主成分分析表明3個群體在基因組信息上存在聯(lián)系,如圖1所示,養(yǎng)豬中心與北京六馬群體都為美系大白,遺傳背景較為接近,新疆天康和養(yǎng)豬中心群體分化最大。場間關聯(lián)結果也基本表明,大多數(shù)情況下養(yǎng)豬中心與北京六馬群體關聯(lián)更高些。在PEVD、PEVD(x)和VED三種方法中,由于沒有系譜聯(lián)系,基于A陣的PEVD最大,例外情況是,養(yǎng)豬中心與新疆天康之間的遺傳關聯(lián),基于G陣和Gs陣計算的PEVD高于A陣。所有情況下,G陣和Gs陣PEVD結果接近,基于G0.5的PEVD最小。與模擬數(shù)據(jù)結果類似,PEVD(x)和VED方法基于G、Gs、G0.5陣結果劣于A陣,基于A陣的PEVD(x)和VED為0.02~0.06,遠低于G陣及其擴展矩陣。在不同G陣結果中,G0.5陣PEVD(x)和VED最小,但對于養(yǎng)豬中心與新疆天康,G0.5陣PEVD(x)和VED高于G陣與Gs陣,所有情況下,G陣與Gs陣結果類似?;贏陣計算的3家核心場之間的預測誤差相關r和關聯(lián)率CR均為0,但決定系數(shù)CD較高,在0.55~0.67之間,與模擬數(shù)據(jù)結果反映的趨勢相似。使用基于基因組信息的G陣及其校正矩陣計算的r和CR都不為零,3個場基于G陣的 r均為0.01,CR分別為0.15、0.07和0.04。3個場基于Gs的r和CR與基于G陣接近,但3個場基于G0.5的r和CR很高,分別為(0.59,0.49,0.48)和(0.94,0.82,0.82)。同時,3個場基于G、Gs、G0.5的CD值與基于A陣相差不大,在0.59~0.68之間變化。
表1中模擬數(shù)據(jù)結果表明兩個亞群經(jīng)過多個世代分離后,系譜上很難建立群體間遺傳聯(lián)系,但基因組信息仍能捕獲到群體間聯(lián)系。隨著世代增加,兩個亞群遺傳結構差異會越來越大,群體間遺傳關聯(lián)也會減弱。如表3所示,隨著世代增加,所有群體關聯(lián)估計方法基于G陣結果均顯示群體間遺傳關聯(lián)程度不斷降低。PEVD、PEVD(x)和VED估計育種值預測誤差,從第5世代到第7世代,兩個亞群PEVD、PEVD(x)和VED逐漸增大,說明預測誤差變大。r和CR則從5世代的0.0008和0.0031逐漸下降至第7世代的0,說明隨著群體不斷分化,兩個群體之間的遺傳距離越來越遠。與其他方法不同,CD變化幅度較小,僅從第5世代的0.6896減小到第7世代的0.6616。
表1 不同群體關聯(lián)估計方法基于關系矩陣A、G和H群體遺傳關聯(lián)匯總(模擬數(shù)據(jù)第5世代)
NaN表示因r分母中出現(xiàn)負值導致不可計算,表4同。
表2 3家豬育種場基于不同估計方法和關系矩陣A、G遺傳關聯(lián)匯總
圖1 3家核心場芯片數(shù)據(jù)主成分分析結果
PC1、PC2分別為第一和第二主成分,BBSC、BJLM、XJTC分別代表北京六馬、養(yǎng)豬中心及新疆天康3家國家生豬核心育種場。
表3 不同世代基于G陣的遺傳關聯(lián)變化情況
本研究采用模擬數(shù)據(jù)中第5世代數(shù)據(jù),通過設置不同的遺傳力大小(0.1、0.3、0.5和0.7),研究遺傳力大小對遺傳關聯(lián)統(tǒng)計量的影響。如表4所示。隨著性狀遺傳力從0.1增加到0.7,除了PEVD(x)方法基于A陣不同遺傳力下群體關聯(lián)值保持為0.0003不變之外,使用不同關系矩陣A、G、和H計算PEVD、PEVD(x)和VED均不斷降低。CD基于不同關系矩陣的值也是隨著遺傳力變大而變大,r和CR基于A陣的值在不同遺傳力水平下為0,它們基于G陣隨遺傳力變大而變大,但CR基于G陣變化幅度較小。從表4也可以看出,當遺傳力為0.3~0.7時,在相同遺傳力水平下,PEVD基于G陣優(yōu)于A陣,H陣介于兩者之間;對低遺傳力0.1,A陣最優(yōu),G陣最差。CD也呈現(xiàn)與PEVD相同的現(xiàn)象。PEVD(x)、VED則是所有遺傳力水平下,基于G陣的值最大,分別在0.22~0.4和0.22~0.42之間變動,遠遠大于基于A陣和H陣的0.0003~0.0095和0.0006~0.0063和0.001~0.012。
表4雖然說明隨著遺傳力變大,PEVD、PEVD(x)和VED減小,CD、r、CR變大,但不意味著群體關聯(lián)增強。
表5表示不同遺傳力水平下群體內(nèi)PEVD變化情況,所有關系矩陣群體內(nèi)PEVD值幾乎均隨著遺傳力的增加而降低??梢钥闯觯后w內(nèi)PEVD變化趨勢與群體間PEVD一致。群體內(nèi)個體之間的遺傳關聯(lián)程度遠高于群體間個體之間,這表明無論個體間有無實質(zhì)遺傳關聯(lián),提高遺傳力水平對于PEVD均有類似的降低作用。因此,由于高遺傳力造成的PEVD的降低,不能說明群體間關聯(lián)程度有提高。
表4 不同遺傳力水平下各群體關聯(lián)估計方法基于關系矩陣A、G和H結果匯總
表5 不同遺傳力水平下群體內(nèi)個體關聯(lián)均值(基于PEVD)
通過系譜數(shù)據(jù)估計群體遺傳關聯(lián)程度時,一個常見的問題是系譜不全或存在錯誤,或者無法從系譜中追溯聯(lián)系。本研究表明,使用基因組數(shù)據(jù)能夠捕捉系譜中不存在的、由更久遠的共同祖先導致的個體間遺傳關聯(lián)。即使根據(jù)系譜能夠建立群體關聯(lián),與基于系譜構建的A矩陣相比,基因組數(shù)據(jù)可以更加準確地估計個體間親緣關系[10],提高群體關聯(lián)估計準確性。本研究模擬數(shù)據(jù)和實際數(shù)據(jù)結果都顯示,大部分遺傳關聯(lián)估計方法基于高密度SNP標記建立的個體親緣關系矩陣都優(yōu)于基于A矩陣。這與Yu等[16]、Zhang等[17]研究結果一致,說明利用SNP標記估計群體關聯(lián)更有優(yōu)勢。
PEVD(x)和VED方法為PEVD方法的近似估計方法,這兩種方法相比于PEVD方法計算簡單,但本研究模擬數(shù)據(jù)和實際數(shù)據(jù)結果表明,相同條件下PEVD(x)和VED均小于PEVD (表1,表2),PEVD(x)和VED 基于G、Gs、G0.5及H陣結果劣于A陣,基于A陣的PEVD(x)和VED過低,接近于0 (表1,表2),說明兩個群體個體間育種值預測誤差很小,這與實際情況有很大偏離。而且,當遺傳力從0.1提高到0.7,PEVD(x)方法基于A陣一直保持為0.0003,但基于G陣卻在變小(表4),說明PEVD(x)和VED不是理想的度量群體關聯(lián)的方法。
PEVD及其近似估計方法的一個缺點是取值沒有范圍,如表1和表2所示,模擬數(shù)據(jù)與真實數(shù)據(jù)估計值差異很大,因此難以判斷遺傳關聯(lián)程度。另外PEVD容易受到群體大小和結構的影響,例如兩個群體基于背膘厚性狀計算得到的PEVD為0.8 mm,這個結果對于兩個大群體而言可能表示關聯(lián)程度較差,但是對于兩個小群體可能表示關聯(lián)程度較好[7]。CD、r和CR方法取值范圍在0~1之間,可以比較好度量群體關聯(lián)。但是CD值即使系譜上不存在遺傳聯(lián)系仍然很高,而CR和r為0 (表1,表2)。當估計養(yǎng)豬中心和新疆天康群體關聯(lián)時,CD基于A陣最高(表2),與其他統(tǒng)計量不太一樣,表明CD容易高估群體關聯(lián)程度。統(tǒng)計量r大多數(shù)情況下低于CR,但是在實際數(shù)據(jù)中,不能準確反映群體間的實際群體關聯(lián)。當用r度量養(yǎng)豬中心、北京六馬和新疆天康3個群體間遺傳關聯(lián)時,基于G陣的r值均為0.1,區(qū)分不出群體的分化遠近。而養(yǎng)豬中心–北京六馬、北京六馬–新疆天康、養(yǎng)豬中心–新疆天康基于G陣的CR分別為0.15、0.07、0.04,能很好說明群體之間的遺傳關聯(lián)情況。越來越多研究表明,CR可以作為衡量群體關聯(lián)程度的穩(wěn)定方法[21],MATHUR等[22]利用加拿大育種數(shù)據(jù)進行分析,結果顯示場間平均遺傳關聯(lián)CR大于等于0.03時開展聯(lián)合遺傳評估效果較好。這表明雖然通過系譜無法開展3個核心場間的聯(lián)合遺傳評估,但是可以開展基于基因組信息的基因組聯(lián)合評估,如北京地區(qū)的大白豬基因組聯(lián)合育種[23]。而且與PEVD相比,CR不需要進行個體間兩兩匹配求均值,計算簡單,并且可以同時估計多個群體之間的遺傳關聯(lián)程度。
基于SNP標記構建的個體關系矩陣可以更真實反映個體間親緣關系,但是要求每個標記的等位基因頻率為基礎群體的,這個不易獲得,所以通常用當前群體的等位基因頻率代替。因此除了經(jīng)典的G陣,還有其他方法來解決等位基因頻率問題,如Gs和G0.5。本研究表明,基于G陣與Gs陣的各種遺傳關聯(lián)估計方法結果比較接近,G0.5過于高估群體間遺傳關聯(lián)。當用CR度量模擬數(shù)據(jù)兩個亞群和實際數(shù)據(jù)3個核心場間遺傳關聯(lián)時,基于A陣的群體關聯(lián)都為0,說明群體間聯(lián)系很弱,基于G陣與Gs的模擬數(shù)據(jù)亞群分別為0.0031和0.0035,但基于G0.5則高達0.91;3個核心場間基于G陣與Gs均為0.15、0.07和0.04,而基于G0.5則為0.94、0.82和0.82。G0.5陣假定所有標記的最小等位基因頻率均為0.5,此假設過于理想,既無法反映基礎群體的情況,也無法反映當前群體的真實情況,從而導致遺傳關聯(lián)結果出現(xiàn)較大偏差。因此,G0.5陣不適合用于評估群體遺傳關聯(lián)。
本研究中H陣結果一般介于A陣和G陣之間,這與Yu等研究結果相同[16]。H陣由A陣和G陣混合而成,因此使用H陣估計遺傳關聯(lián)結果一般優(yōu)于僅使用系譜數(shù)據(jù)結果,而當大部分個體均有基因組數(shù)據(jù)時,H陣遺傳關聯(lián)結果提升幅度可能低于G陣。
本研究設定了高、中、低4種遺傳力水平檢驗其對群體關聯(lián)估計方法影響。大多數(shù)情況下,群體關聯(lián)統(tǒng)計量會隨著遺傳力升高而改善,但就像群體內(nèi)個體遺傳關聯(lián)也呈現(xiàn)相同變化一樣(表5),不能說明群體間關聯(lián)程度有提高。遺傳力升高會提高育種值估計準確性,降低了育種值預測誤差,因而改善了相應的群體關聯(lián)統(tǒng)計量。因此,在育種實踐中,遺傳力不同的性狀估計的遺傳關聯(lián)結果之間缺乏可比性。另外,本研究發(fā)現(xiàn),低遺傳力(0.1)情況下,基于A陣的PEVD優(yōu)于G陣,與大多數(shù)情況下G陣優(yōu)于A陣相反,說明低遺傳力性狀不太適合用來估計群體遺傳關聯(lián)。
[1] Mathur PK, Sullivan BP, Chesnais JP. Measuring conne-ctedness: concept and application to a large industry breeding program., 2002, 19: 23.
[2] Zhang JX, Zhang SY, Qiu XT, Gao H, Wang CC, Wang Y, Zhang Q, Wang ZG, Yang HJ, Ding XD. The genetic connectedness of duroc, landrace and yorkshire pigs in China., 2017, 48(9): 1591–1601.張金鑫, 張鎖宇, 邱小田, 高虹, 王長存, 王源, 張勤, 王志剛, 楊紅杰, 丁向東. 我國杜洛克、長白和大白豬場間遺傳聯(lián)系分析. 畜牧獸醫(yī)學報, 2017, 48(9): 1591– 1601.
[3] Gao H, Qiu XT, Wang CC, Zhang JX, Zhang SY, Wang Y, Zhang Q, Wang ZG, Yang HJ, Ding XD. The regional joint genetic evaluation of duroc, landrace and yorkshire pigs in China., 2018, 49(12): 2567–2575.高虹, 邱小田, 王長存, 張金鑫, 張鎖宇, 王源, 張勤, 王志剛, 楊紅杰, 丁向東. 我國杜洛克、長白、大白豬區(qū)域性聯(lián)合遺傳評估研究. 畜牧獸醫(yī)學報, 2018, 49(12): 2567–2575.
[4] Kennedy BW, Trus D. Considerations on genetic conne-ctedness between management units under an animal model., 1993, 71(9): 2341.
[5] Lalo? D. Precision and information in linear models of genetic evaluation., 1993, 25(6): 557–576.
[6] Lewis RM, Crump RE, Simm G,Thompson R. Assessing connectedness in across-flock genetic evaluations. In: Proceedings of the British Society of Animal Science. Scarborough, 22–24 March, 1999, 121–122.
[7] Mathur PK, Sullivan B, Chesnais J. Estimation of the degree of connectedness between herds or management groups in the canadian swine population. 2002.
[8] Wang AG, Laloe D, Schaeffer LR. Measures of genetic connectedness between herds in swine under mixed linear models., 2000, 22(5): 295–297.王愛國,Laloe D.,Schaeffer LR. 混合線性模型下豬群間遺傳聯(lián)系的度量. 遺傳, 2000, 22(5): 295–297.
[9] Muir WM. Comparison of genomic and traditional BLUP- estimated breeding value accuracy and selection response under alternative trait and genomic parameters., 2007, 124(6): 342–355.
[10] Daetwyler HD, Villanueva B, Bijma P, Woolliams JA. Inbreeding in genome-wide selection., 2007, 124(6): 369–376.
[11] Calus MPL, Meuwissen THE, de Roos APW, Veerkamp RF. Accuracy of genomic selection using different methods to define haplotypes., 2008, 178(1): 553–561.
[12] Zhang Z, Li X, Ding X, Li J, Zhang Q. GPOPSIM: a simulation tool for whole-genome genetic data., 2015, 16(1): 1–6.
[13] Browning BL, Browning SR. A unified approach to genotype imputation and haplotype-phase inference for large data sets of trios and unrelated individuals., 2009, 84(2): 210–223.
[14] Vanraden PM. Efficient methods to compute genomic predictions., 2008, 91(11): 4414–4423.
[15] Fernando RL, Cheng H, Garrick DJ. An efficient exact method to obtain GBLUP and single-step GBLUP when the genomic relationship matrix is singular., 2016, 48(1): 80.
[16] Yu H, Spangler ML, Lewis RM. Genomic relatedness strengthens genetic connectedness across management units., 2017, 7(10): 3543–3556.
[17] Zhang SY, Olasege BS, Liu DY, Wang QS, Pan YC, Ma PP. The genetic connectedness calculated from genomic information and its effect on the accuracy of genomic prediction., 2018, 13(7): e0201400.
[18] Toro MA, García-Cortés LA, Legarra A. A note on the rationale for estimating genealogical coancestry from molecular markers., 2011, 43(1): 1–10.
[19] Vitezica ZG, Aguilar I, Misztal I, Legarra A. Bias in genomic predictions for populations under selection.,2011, 93(5): 357–366.
[20] Legarra A, Aguilar I, Misztal I. A relationship matrix including full pedigree and genomic information.,2009, 92(9): 4656–4663.
[21] Zhang Q, Ding XD, Chen YS. Development and App-lication of Swine Genetic Evaluation System in China., 2015, 51(08): 61–65.張勤, 丁向東, 陳瑤生. 種豬遺傳評估技術研發(fā)與評估系統(tǒng)應用. 中國畜牧雜志, 2015, 51(08): 61–65.
[22] Mathur PK, Ssllivan BP, Chesnais JP. Measuring connectedness: concept and application to a large industry breeding program. In: Proceedings of 7th world congress on genetics applied to livestock production. Montpellier, 19–23 August, 2002.
[23] Zhang JX, Tang SQ, Song HL, Gao H, Jiang Y, Jiang YF, Mi SR, Meng QL, Yu F, Xiao W, Yun P, Zhang Q, Ding XD. Joint genomic selection of Yorkshire in Beijing., 2019, 52(12): 2161–2170.張金鑫, 唐韶青, 宋海亮, 高虹, 蔣堯, 江一凡, 彌世榮, 孟慶利, 于凡, 肖煒, 云鵬, 張勤, 丁向東. 北京地區(qū)大白豬基因組聯(lián)合育種研究. 中國農(nóng)業(yè)科學, 2019, 52(12): 2161–2170.
Measuring genetic connectedness between herds based on high density SNP markers
Ziwen Zhou, Xue Wang, Xiangdong Ding
The accuracy of genetic evaluations in different herds is affected by the degree of genetic connectedness among herds. In this study, we explored the application of high density SNP markers in the assessment of genetic connectedness by comparing the genetic connectedness based on pedigree data and genomic data. Six methods, including PEVD (prediction error variance of differences between estimated breeding values), PEVD (x), VED (variance of estimated difference between the herd effects), CD (generalized coefficient of determination), r (prediction error correlation) and CR (connectedness rating), were implemented to measure the genetic connectedness based on different relationship matrices (A, G, Gs, G0. 5and H). Our results from both simulated data and SNP chip data indicated that, except for the PEVD (x) and VED methods, the genetic connectedness obtained by PEVD, CD, r and CR based on G. Gsand G0.5matrices (using genome information only) were superior to those based on A matrix (using pedigree information only). Generally, for most approaches, the genetic connectedness based on H matrix (using both pedigree and genome information) was somewhere between A matrix and G matrices. CD could overestimate the degree of genetic connectedness as it was still very high when CR and r were close to 0. The method r could not accurately reflect the true genetic connectedness of the populations. It generated 0.01 of genetic connectedness for all three pig breeding farms, which were actually genetically different with each other. With increasing of heritability, the degree of genetic connectedness obtained by all methods were increased as well. However, in the case of heritability 0.1, PEVD based on A matrix performed better than based on G matrix, suggesting that traits with medium and high heritability are more suitable for the assessment of genetic connectedness compared to traits with low heritability. Our findings indicated that high-density SNP markers have advantages over pedigree analysis for the measurement of genetic connectedness, and CR is a robust and reliable method to assess genetic connectedness. Further, CR is easily calculated and less affected by heritability of trait. PEVD is good supplement to quantify the prediction errors of estimated breeding values under the specific genetic connectedness. In comparison, G matrix can reflect genetic connectedness better than its extensions Gsand G0.5matrix.
swine; genetic connectedness; pedigree; genome; relationship matrix
2020-10-19;
2021-02-17
國家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術體系項目(編號:CARS-35),國家重點研發(fā)計劃項目(編號:2019YFE0106800)和河北省重點研發(fā)計劃項目(編號:19226376D)資助[Supported by China Agriculture Research System (No. CARS-35), the National Key Research and Development Project (No. 2019YFE0106800) and Modern Agriculture Science and Technology Key Project of Hebei Province (No. 19226376D)]
周子文,在讀碩士研究生,專業(yè)方向:動物遺傳育種。E-mail: zhouzw834@163.com
丁向東,博士,副教授,研究方向:豬遺傳育種和統(tǒng)計遺傳學。E-mail: xding@cau.edu.cn
10.16288/j.yczz.20-351
2021/3/29 16:45:30
URI: https://kns.cnki.net/kcms/detail/11.1913.r.20210326.1346.004.html
(責任編委: 李明洲)