許俊杰,閆文亮,趙團(tuán)結(jié),姜海燕*
(1.南京農(nóng)業(yè)大學(xué)人工智能學(xué)院,江蘇 南京 210095;2.南京農(nóng)業(yè)大學(xué)國(guó)家大豆改良中心,江蘇 南京 210095)
基于過程的作物生長(zhǎng)模擬模型(簡(jiǎn)稱作物生長(zhǎng)模擬模型)是以作物生長(zhǎng)發(fā)育的生理規(guī)律為基礎(chǔ),綜合作物遺傳特性、環(huán)境因素和田間管理措施三者相互作用關(guān)系的基礎(chǔ)上,利用數(shù)學(xué)方法定量模擬光合生產(chǎn)、階段發(fā)育、器官建成和產(chǎn)量形成等生理過程的機(jī)制模型[1]。作物生長(zhǎng)模擬模型通過量化作物每一生理過程中對(duì)環(huán)境(例如溫度、光照等)變量的非線性響應(yīng),將復(fù)雜表型性狀分解為受單一或復(fù)合環(huán)境變量和基因型互作影響的品種參數(shù)(cultivar parameter,CP),并以此反映環(huán)境對(duì)作物品種造成的影響[2]。作物生長(zhǎng)模擬模型著重于量化環(huán)境效應(yīng)對(duì)目標(biāo)表型性狀造成的影響(過程層面),通過品種參數(shù)體現(xiàn)基因型與環(huán)境互作[3]。因此,生長(zhǎng)模擬模型的品種參數(shù)應(yīng)當(dāng)包含影響對(duì)應(yīng)表型性狀的遺傳學(xué)基礎(chǔ)特性。例如,品種參數(shù)可以與數(shù)量性狀基因座[4]或與候選基因的等位基因信息直接相關(guān)[5-6]。單個(gè)品種參數(shù)應(yīng)處于簡(jiǎn)單且獨(dú)立的遺傳控制之下,并且一組不同的品種參數(shù)可以描述某一特定基因型材料的基因特性[7]。但是,目前作物模型品種參數(shù)是根據(jù)觀測(cè)到的表型數(shù)據(jù)變異獲得,而不是根據(jù)群體遺傳變異而獲得,造成品種參數(shù)與遺傳學(xué)基礎(chǔ)特性之間的聯(lián)系不夠密切[8],限制了作物生長(zhǎng)模型對(duì)基因型與環(huán)境互作的表達(dá)能力。
自1996年,White等[5]將作物模型品種參數(shù)定義為“遺傳系數(shù)”以來,越來越多的研究者開展了模型品種參數(shù)的遺傳學(xué)可解釋性研究[9-12]。Guitton等[10]基于CERES模型將高粱開花時(shí)間分解為光周期敏感性、臨界光周期等與光反應(yīng)有關(guān)的模型品種參數(shù),發(fā)現(xiàn)在3號(hào)染色體的74 cM的位置上,存在著與所有模型品種參數(shù)顯著相關(guān)的候選基因區(qū)間,可解釋高達(dá)40%的品種參數(shù)變異;Dingkuhn等[11]利用能夠模擬水稻溫光互作效應(yīng)的RIDEV V2模型模擬花期,通過低生長(zhǎng)溫度、光周期敏感性等6個(gè)品種參數(shù)進(jìn)行全基因組關(guān)聯(lián)分析后發(fā)現(xiàn),品種參數(shù)低生長(zhǎng)溫度定位到的QTL與低溫下誘導(dǎo)成花的基因HD3a同源;Kadam等[12]利用GECROS模型將水稻產(chǎn)量性狀分解為光周期敏感性(δ)和株高峰值(Hmax)等8個(gè)作物模型品種參數(shù),結(jié)果表明,顯著關(guān)聯(lián)的SNP標(biāo)記可解釋42.2%~77.0%的品種參數(shù)變異。表明上述模型的品種參數(shù)具有遺傳效應(yīng)。利用SNP標(biāo)記或QTL對(duì)作物模型品種參數(shù)進(jìn)行優(yōu)化,通過將作物生長(zhǎng)模擬模型與基因組選擇預(yù)測(cè)模型連接起來,構(gòu)建基因型-環(huán)境互作模型。其前提是:所研究的作物生長(zhǎng)模擬模型品種參數(shù)具有遺傳效應(yīng),并可以通過篩選的顯著相關(guān)SNP標(biāo)記加以表達(dá)[4]。
大豆[Glycinemax(L.)Merr.]為光周期反應(yīng)的模式作物,外界的光反應(yīng)顯著影響著大豆花期等重要性狀。CROPGRO大豆花期模型可以模擬溫光條件變化對(duì)大豆花期影響。目前國(guó)內(nèi)外未見對(duì)CROPGRO大豆花期模型品種參數(shù)遺傳特性進(jìn)行解析的研究報(bào)道。本研究以江淮地區(qū)183個(gè)優(yōu)質(zhì)高產(chǎn)大豆品種在多生態(tài)點(diǎn)種植的花期數(shù)據(jù)為材料,利用多種全基因組關(guān)聯(lián)分析手段對(duì)CROPGRO大豆花期模型品種參數(shù)進(jìn)行遺傳學(xué)解析,驗(yàn)證其是否具有遺傳效應(yīng),為構(gòu)建基因型-環(huán)境互作的大豆花期模擬模型奠定理論基礎(chǔ)。
以長(zhǎng)江江淮地區(qū)183個(gè)優(yōu)質(zhì)高產(chǎn)大豆品種為研究對(duì)象,這些種質(zhì)資源均來自南京農(nóng)業(yè)大學(xué)國(guó)家大豆改良中心。試驗(yàn)于2011—2018年,在江蘇南京、鹽城、溧水及安徽當(dāng)涂和河南新鄉(xiāng)10個(gè)生態(tài)點(diǎn)種植,采取行播種植,行長(zhǎng)2 m,行寬0.5 m,共設(shè)3個(gè)試驗(yàn)重復(fù)。當(dāng)?shù)貧庀髷?shù)據(jù)來源于中國(guó)國(guó)家氣象局(http://www.nmic.cn/)。
根據(jù)Fehr的物候期分類法[13],供試材料的花期為從播種至一行中50%的大豆植株開花的時(shí)間(d),用SPSS 25.0和Excel 2016軟件對(duì)表型數(shù)據(jù)進(jìn)行基本統(tǒng)計(jì)分析,利用R語言的lmr4[14]包對(duì)表型進(jìn)行最佳線性無偏估計(jì)(BLUP)值的計(jì)算。
表1 供試材料地理位置、播種日期和播種至開花氣象狀況信息表Table 1 Geographic location,sowing date and sowing to flowering meteorological information of tested materials
供試大豆通過簡(jiǎn)化基因組測(cè)序技術(shù)(restriction-site associated DNA sequencing,RAD-seq)共獲得 87 307 個(gè)高通量SNP(single nucleotide polymorphism)數(shù)據(jù)。參照測(cè)序數(shù)據(jù)的質(zhì)量控制和調(diào)用變異(calling variations)方法[15],本試驗(yàn)保留最小等位基因頻率(minor allele frequency,MAF)大于0.05的變異位點(diǎn),最終獲得60 712個(gè)高質(zhì)量且位置唯一的SNP標(biāo)記用于后續(xù)分析。
本研究基于10個(gè)環(huán)境的實(shí)測(cè)花期數(shù)據(jù),計(jì)算花期最佳線性無偏預(yù)測(cè)值(best linear unbiased prediction,BLUP)。為最大程度減少不同環(huán)境差異對(duì)同一品種表型造成的影響,構(gòu)建了實(shí)測(cè)花期和BLUP花期2類數(shù)據(jù)集,分別命名為E-FT和B-FT,利用它們完成后續(xù)的CROPGRO大豆花期模擬模型品種參數(shù)校正試驗(yàn),并將所得品種參數(shù)命名為E-CP和B-CP。
CROPGRO大豆花期模擬模型(以下簡(jiǎn)稱CROPGRO-Soybean-Flower模型),為DSSAT軟件[16]中的 1個(gè)豆科模擬模型,由BEANGRO模型[17]發(fā)展而來,以大豆發(fā)育生理生態(tài)為基礎(chǔ),采用生理發(fā)育時(shí)間作為定量發(fā)育進(jìn)程的尺度,以天為步長(zhǎng)模擬大豆生長(zhǎng)發(fā)育。大豆生長(zhǎng)累計(jì)進(jìn)度可為定義為:
(1)
式中:FT為每日實(shí)際生長(zhǎng)光熱的累計(jì)值;D為實(shí)際開花所需要的時(shí)間(d);fT(m)為第m天的溫度效應(yīng);fDL(m)為第m天的光照效應(yīng)。
FT包括了播種到出苗時(shí)長(zhǎng)(PLEM)、出苗到開花時(shí)長(zhǎng)(EMFL)2個(gè)物候階段,其中PLEM對(duì)于大多數(shù)品種都相近,模型將其設(shè)為3.6 d。當(dāng)FT滿足公式(2)時(shí),大豆進(jìn)入花期。
FT>PLEM+EMFL
(2)
每日的溫度效應(yīng)和光照效應(yīng)又可被定義為:
(3)
(4)
fDL(m)=1-[DL(m)-CSDL]×PPSEN
(5)
式中:RFTi(m)為第m天第i小時(shí)的熱效應(yīng);Ti(m)為第m天第i小時(shí)溫度;TB為大豆生長(zhǎng)率為0時(shí)的最低溫度;TM為大豆生長(zhǎng)率為0時(shí)的最高溫度;TO1、TO2依次為最適溫度下限和上限。在本文中使用模型默認(rèn)值[18],TB=7 ℃、TO1=28 ℃、TO2=35 ℃、TM=45 ℃。DL(m)為第m天的光照時(shí)間;CSDL為臨界光周期;PPSEN為光周期敏感性。
由以上公式可以看出,除了模型設(shè)定和田間實(shí)測(cè)的數(shù)據(jù)外,CSDL、PPSEN和EMFL為模型待調(diào)遺傳參數(shù),取值范圍分別為11.78~14.60 h、0.129~0.385 d和15.5~28.9 d。
CROPGRO大豆花期模擬模型的驅(qū)動(dòng)數(shù)據(jù)輸入可分為3種類型:氣象數(shù)據(jù)、田間管理數(shù)據(jù)、作物品種參數(shù)。氣象數(shù)據(jù)包括日最高氣溫(℃)、日最低氣溫(℃)、日照時(shí)數(shù)(h)、緯度(°)。田間管理數(shù)據(jù)包括行距(cm)、種植深度(cm)等數(shù)據(jù)。
本研究選用DSSAT-GLUE程序包[19](https://www.dssat.net/)對(duì)10個(gè)環(huán)境下CROPGRO大豆花期模擬模型品種參數(shù)進(jìn)行校準(zhǔn)??偛蓸哟螖?shù)設(shè)為20 000,在品種參數(shù)范圍內(nèi)均勻隨機(jī)采樣,作為品種參數(shù)校正的初始值。運(yùn)行使用的計(jì)算機(jī)環(huán)境是Intel(R)Core(TM)i5-7200U CPU@2.50 GHz,內(nèi)存8 GB,Windows10 64位操作系統(tǒng)。
為了評(píng)價(jià)品種參數(shù)集的質(zhì)量,本研究用1∶1圖判斷模型模擬值與實(shí)測(cè)值之間的吻合程度。利用模擬結(jié)果與實(shí)測(cè)結(jié)果的平均值、標(biāo)準(zhǔn)差(SD)、均方根誤差(RMSE)來度量模型的模擬誤差。
總體模擬效果由全部品種的均方根誤差的均值(ARMSE)來反映,單位為d:
(6)
式中:N為供試大豆品種數(shù);j表示第j個(gè)品種。
利用STRUCTURE v2.3.4軟件對(duì)關(guān)聯(lián)群體的群體結(jié)構(gòu)進(jìn)行分析,即計(jì)算群體內(nèi)所有品種所屬的亞群。將群體內(nèi)存在的亞群數(shù)目K值設(shè)定為1~11,迭代次數(shù)設(shè)置為10 000,馬爾科夫鏈蒙特卡羅(Markov chain Monte Carlo,MCMC)迭代次數(shù)設(shè)置為100 000,針對(duì)每個(gè)K值,重復(fù)運(yùn)行7次,最終通過Evanno等[20]的計(jì)算方法計(jì)算最優(yōu)亞群數(shù)(ΔK),并獲得Q矩陣。利用TASSEL v5.0軟件對(duì)供試大豆的遺傳多樣性進(jìn)行分析,繪制鄰接樹,以此作為全基因組關(guān)聯(lián)分析的協(xié)變量。用GCTA v1.92軟件進(jìn)行種群結(jié)構(gòu)的主成分分析。
為了研究CROPGRO大豆花期模擬模型品種參數(shù)的遺傳可解釋性,利用STRUCTURE v2.3.4軟件計(jì)算得到的群體結(jié)構(gòu)Q矩陣和TASSLE v5.0軟件計(jì)算得到的親緣關(guān)系K矩陣,采用TASSLE v5.0軟件的MLM方法[21]以及mrMLM軟件包的mrMLM[22]、FASTmrMLM[23]、FASTmrEMMA[24]、pLARmEB[25]、pKWMEB[26]和ISIS EM-BLASSO[23]模型共7個(gè)GWAS分析方法,基于60 712個(gè)高質(zhì)量SNP標(biāo)記(MAF>0.05),分別對(duì)花期BLUP值(B-FT)和基于BLUP值分解的3個(gè)模型品種參數(shù)性狀(B-CP)進(jìn)行關(guān)聯(lián)分析。利用R語言的QQman包對(duì)MLM的輸出結(jié)果進(jìn)行曼哈頓圖和QQ圖的繪制[27],除MLM方法設(shè)置顯著關(guān)聯(lián)SNP的建議閾值為-lgp≥3.5,顯著閾值設(shè)為-lgp-lg(1/60 712)=4.78外,其余6種方法均選取建議的LOD≥3.0作為SNP顯著關(guān)聯(lián)的標(biāo)準(zhǔn)。
本研究將至少被2種GWAS分析方法檢測(cè)到的QTN視作穩(wěn)定關(guān)聯(lián)標(biāo)記,用于后續(xù)分析。將顯著關(guān)聯(lián)QTN上、下游各500 kb[28]設(shè)定為候選基因篩選區(qū)間,利用SoyBase(http://www.soybase.org)和TAIR(https://www.arabidopsis.org/)生物信息學(xué)網(wǎng)站和前人研究進(jìn)展對(duì)候選基因的功能進(jìn)行預(yù)測(cè)。
在2011—2018年10個(gè)種植環(huán)境下,對(duì)183種江淮大豆種質(zhì)花期性狀進(jìn)行統(tǒng)計(jì)。表2結(jié)果顯示,10個(gè)環(huán)境的大豆花期平均值為38.0~48.3 d,對(duì)應(yīng)的變異系數(shù)為7.38%~16.49%,花期最小值(31 d)和最大值(67 d)分別出現(xiàn)在LS11、YC18和XX18三個(gè)環(huán)境中,花期BLUP值的平均值為43.5 d,變異系數(shù)為7.78%。從統(tǒng)計(jì)分析來看,大豆花期性狀在不同種植環(huán)境下的表型存在著一定差異,表明開花時(shí)間易受環(huán)境影響。
表2 大豆花期性狀的統(tǒng)計(jì)分析Table 2 Statistical analysis of the flower date trait in soybean
所有環(huán)境下,花期實(shí)測(cè)值和BLUP值的偏度變化為0.15~1.00,峰度變化為-0.72~2.57,表明,花期實(shí)測(cè)性狀和BLUP值均呈現(xiàn)近似的正態(tài)分布,具有一定的數(shù)量性狀特征。
利用60 712個(gè)SNP標(biāo)記分析183個(gè)供試大豆品種的群體結(jié)構(gòu)。當(dāng)K=3時(shí),ΔK最大,表明應(yīng)將供試大豆群體分為3個(gè)亞群(圖1-A);主成分分析(principal components analysis,PCA)結(jié)果也表明供試大豆可分為3類(圖1-B);依照基因型數(shù)據(jù)所計(jì)算的遺傳距離,按Neighbor-joining進(jìn)行聚類分析,所有材料可分為3類(圖1-C)。3個(gè)分析結(jié)果可進(jìn)行相互驗(yàn)證,均可將183個(gè)供試大豆材料分為3個(gè)亞群,Sub-pop1、2、3分別包含61、64、58個(gè)供試大豆品種,3個(gè)亞群花期性狀平均值分別為41、44和47 d,組間差異顯著(P<0.001)(圖1-D、E)。分析結(jié)果表明當(dāng)亞群數(shù)為3時(shí),能將供試大豆進(jìn)行較好分類,因此,本研究選取K=3時(shí)的Q矩陣作為后續(xù)多種GWAS分析時(shí)的協(xié)變量,用于下文的研究。
圖1 183個(gè)供試大豆品種的群體結(jié)構(gòu)分析結(jié)果Fig.1 Population structure of 183 soybean cultivars A. 根據(jù)Evanno等[20] 方法計(jì)算的供試材料群體結(jié)構(gòu)K值;B. 供試材料的主成分分析圖,以2個(gè)維度來展示群體分層情況;C. 供試材料的NJ-Tree聚類分析結(jié)果;D. 183個(gè)大豆品種的群體劃分,不同顏色代表不同的亞群;E. 亞群間花期性狀差異的顯著性分析,***P<0.001。A. Calculation of the true K of the 183 soybean population following procedure outlined by Evanno et al[20];B. PCA plot of the 183 accessions,two-dimensional scales were used to reveal population stratification;C. A neighbor-joining tree of the tested accessions;D. Population structure of 183 soybean cultivars based on SNP markers. Three colors represent three subpopulations,respectively;E. Significant analysis of the differences in the flowering time trait among three sub-pops,*** P<0.001.
為了評(píng)價(jià)模型品種參數(shù)校準(zhǔn)的結(jié)果,將2組品種參數(shù)代入CROPGRO大豆花期模擬模型中運(yùn)行,得到E-CP和B-CP在10個(gè)環(huán)境下的大豆花期模擬結(jié)果。
通過分析花期數(shù)據(jù)集與對(duì)應(yīng)模擬花期的1∶1圖(圖2-a),發(fā)現(xiàn)大多環(huán)境下模擬值與實(shí)測(cè)值較好分布在對(duì)角線的兩側(cè)。B-CP和E-CP的大豆花期模擬結(jié)果在10個(gè)環(huán)境下的ARMSE分別為1.65和3.47 d。進(jìn)一步分析B-CP的結(jié)果(圖2-b),可以看出對(duì)LS11和XX18的模擬效果較差,實(shí)測(cè)值分別集中在對(duì)角線的兩端,這可能是由于XX18相比其他環(huán)境開花遲,且LS11相比其他環(huán)境開花更早導(dǎo)致的。進(jìn)一步分析擬合情況較差的品種,發(fā)現(xiàn)這些品種的花期大多與其余品種存在較大差異。比較不同地點(diǎn)平均RMSE,可以看出E-CP的RMSE為2.47~5.14 d,B-CP為0.52~3.74 d,B-CP的模型精度明顯高于E-CP。因此,在后續(xù)的模型品種參數(shù)遺傳解析研究中,僅將花期BLUP值和基于BLUP值分解的模型品種參數(shù)作為全基因組關(guān)聯(lián)分析的目標(biāo)性狀。
圖2 花期數(shù)據(jù)與模擬花期的模型模擬結(jié)果Fig.2 Flowering data and model simulation results of simulated floweringa. E-FT數(shù)據(jù)集的模型運(yùn)行結(jié)果;b. B-FT數(shù)據(jù)集的模擬模型運(yùn)行結(jié)果。a. The running result of the model of the E-FT dataset;b. The running result of the simulation model of the B-FT dataset.
進(jìn)一步對(duì)B-CP品種參數(shù)集進(jìn)行統(tǒng)計(jì)分析。為表述方便,將由B-FT計(jì)算所得的CSDL、PPSEN和EMFL 3個(gè)品種參數(shù)分別命名為B-CSDL、B-PPSEN和B-EMFL。從表3可見:不同品種的B-CSDL、B-PPSEN、B-EMFL的參數(shù)值分別為11.79~14.38、0.13~0.30、25.49~28.89,變異系數(shù)分別為4.38%、12.59%、2.62%。B-CSDL、B-PPSEN和B-EMFL的極差分別為2.82、0.26和3.40,分別占品種參數(shù)取值范圍的91.84%、64.84%和25.37%,可見B-CSDL和B-PPSEN廣泛分布在事先設(shè)置的品種參數(shù)取值范圍內(nèi)。從正態(tài)性分析來看,B-CSDL和B-EMFL更為正態(tài),B-PPSEN的偏度為5.64,峰度為42.14,說明該參數(shù)左偏且有尖峰。以上分析表明:B-CSDL相對(duì)于B-PPSEN和B-EMFL有更好的正態(tài)性。
表3 B-CP品種參數(shù)集的統(tǒng)計(jì)分析Table 3 Statistical analysis of cultival parameters in B-CP
基于Q+K混合線性模型,利用7種GWAS分析方法,以大豆花期BLUP值和3個(gè)CROPGRO大豆花期模擬模型品種參數(shù)(B-FT和B-CP)性狀與60 172個(gè)SNP進(jìn)行關(guān)聯(lián)分析(圖3),以-lgp≥3.5為建議閾值(MLM)和建議的LOD≥3.0作為SNP顯著關(guān)聯(lián)的標(biāo)準(zhǔn)(其余6種GWAS方法),共篩選出10、5、1和 6個(gè) QTN與CSDL、PPSEN、EMFL和花期BLUP性狀顯著相關(guān)(表4),這些位點(diǎn)分別位于2、4、5、6、7、8、9、11、14、16、18、19和20號(hào)染色體上,6和16號(hào)染色體上的顯著關(guān)聯(lián)QTN數(shù)最多,均各為3個(gè),其中16號(hào)染色體上的Gm16_6264904位點(diǎn),6號(hào)染色體的Gm06_50296444位點(diǎn),5號(hào)染色體的Gm05_36831206位點(diǎn)以及11號(hào)染色體的Gm11_33036496位點(diǎn)分別對(duì)CSDL、PPSEN、EMFL和花期BLUP性狀具有最大的變異解釋率。
圖3 CROPGRO大豆花期模擬模型分解參數(shù)的曼哈頓圖Fig.3 Manhattan plot of decomposition parameters in CROPGRO soybean flowering simulation modelA—D代表不同的關(guān)聯(lián)性狀。A-D represent different traits:A. B-FT;B. B-CSDL;C. B-PPSEN;D. B-EMFL.紅線代表了MLM的建議閾值-lg p=3.5。The red line represents the recommended threshold of GWAS -lg p=3.5.
在CSDL參數(shù)性狀的關(guān)聯(lián)分析結(jié)果中,顯著關(guān)聯(lián)QTN的LOD值為4.264~6.487,解釋了2.984%~19.221%的參數(shù)表型變異,9號(hào)染色體上的Gm09_36933334位點(diǎn)被4個(gè)GWAS分析方法檢測(cè)到,同時(shí)擁有最高的LOD值,可解釋9.379%的參數(shù)表型變異,與豆莢成熟期相關(guān)的QTL(Podmaturity5-1)[29]在該標(biāo)記附近(上下500 kb區(qū)間)被篩選到。
與PPSEN參數(shù)顯著關(guān)聯(lián)的QTN的LOD值為6.545~11.373,可解釋0.424%~11.024%的PPSEN表型變異,其中6號(hào)染色體的Gm06_50296444位點(diǎn)可同時(shí)被3個(gè)GWAS分析方法檢測(cè)到,同時(shí)擁有最高的LOD值和表型變異解釋率,并在該標(biāo)記附近篩選出與生殖生長(zhǎng)時(shí)期長(zhǎng)度相關(guān)的QTL(Reproductivestagelength1-g1.2)[30]。僅有1個(gè)QTN與EMFL參數(shù)性狀顯著相關(guān),該標(biāo)記可同時(shí)被4種GWAS分析方法檢測(cè)到,LOD值為5.964。
在花期BLUP值的關(guān)聯(lián)分析結(jié)果中,6個(gè)顯著關(guān)聯(lián)的QTN的LOD值為3.359~9.124,可解釋2.753%~12.531%的花期表型變異。11號(hào)染色體上的Gm11_33036496位點(diǎn)能同時(shí)被3個(gè)GWAS分析方法檢測(cè)到,與該標(biāo)記位置接近的Gm11_33034954(相距1.542 kb)位點(diǎn)為前人研究中與不同光溫條件下大豆花期性狀顯著關(guān)聯(lián)的SNP位點(diǎn)[31]。此外,與始花期性狀相關(guān)的QTL(Firstflower6-3)[32]在19號(hào)染色體上的Gm19_44450022位點(diǎn)的QTL區(qū)間被篩選到,該位點(diǎn)可同時(shí)被3個(gè)GWAS分析方法檢測(cè)到,LOD值為3.359,并有2.753%的表型變異解釋率。
在所有22個(gè)顯著相關(guān)QTN附近,篩選出16個(gè)(72.73%)在前人研究報(bào)道中與大豆開花時(shí)間、光周期敏感性、生殖生長(zhǎng)時(shí)期、豆莢成熟期等性狀顯著相關(guān)的SNP標(biāo)記、QTL或者基因,說明CROPGRO大豆花期模型品種參數(shù)具有一定的遺傳特征。同時(shí)將其余6個(gè)QTN(Gm14_49318529、Gm05_5693713、Gm07_1381149、Gm08_39656100、Gm09_7957285和Gm05_36831206)作為候選位點(diǎn),對(duì)其上下500 kb區(qū)間的候選基因功能進(jìn)行預(yù)測(cè)。
表4 與模型品種參數(shù)和花期數(shù)據(jù)相關(guān)的位點(diǎn)Table 4 Loci associated with cultivar parameters and flowering time trait
根據(jù)顯著關(guān)聯(lián)QTN和連鎖不平衡區(qū)間確定與大豆開花、光周期響應(yīng)等相關(guān)的候選位點(diǎn),并對(duì)位點(diǎn)內(nèi)的候選基因功能進(jìn)行預(yù)測(cè)。其中,Glyma05g06220(與Gm05_5693713相距264.014 kb)與LEUNIG_HOMOLOG(LUH)基因同源,該基因?yàn)閿M南芥花同源異型基因AGAMOUS(AG)的轉(zhuǎn)錄抑制因子,LUH基因會(huì)與擬南芥SEUSS(SEU)基因相互作用,共同調(diào)控?cái)M南芥花的發(fā)育[35-36];Glyma05g31710(與Gm05_36831206相距24.422 kb)與擬南芥花器官建成基因SEPALLATA(SEP)[37]同源,該基因的表達(dá)水平與外界的光照強(qiáng)度呈顯著正相關(guān)[38];在距Gm07_1381149位點(diǎn)347.120 kb的位置上篩選出的Glyma07g01601是擬南芥早花基因EARLYFLOWERING3(ELF3)的同源基因,該基因是擬南芥生物鐘調(diào)控的重要組件,對(duì)光反應(yīng)敏感,具有在夜間抑制擬南芥生長(zhǎng)的功能[39-40];位于Gm08_39656100位點(diǎn)374.554 kb位置的Glyma08g40330基因是擬南芥細(xì)胞分裂素信號(hào)通路反應(yīng)調(diào)節(jié)因子ARABIDOPSISTYPEARESPONSEREGULATOR-3(ARR3)的同源基因,ARR3基因除了響應(yīng)細(xì)胞分裂素以外,還參與調(diào)節(jié)生物鐘,對(duì)擬南芥晝夜節(jié)律具有調(diào)控作用[41];另一個(gè)基因Glyma14g40030位于顯著關(guān)聯(lián)QTN Gm14_49318529的253.231 kb的距離上,該基因與擬南芥S期激酶相關(guān)蛋白基因S-PHASEKINASEASSOCIATEDPROTEIN1(SKP1)同源,SKP1蛋白通常與CDC53P/Cull F-box形成SCF復(fù)合體參與泛素蛋白降解途徑調(diào)控細(xì)胞循環(huán)、生物節(jié)律以及雄性不育等許多重要反應(yīng)[42],該基因在莖尖、花序和花原基等分裂旺盛的組織中高水平表達(dá)[43]。
BLUP方法是由Henderson[44]針對(duì)不平衡資料提出的育種值預(yù)測(cè)方法,通過該方法可以有效消除各種非遺傳因素的影響,實(shí)現(xiàn)對(duì)育種值的最佳線性無偏估計(jì),從而提高選擇的準(zhǔn)確性。目前已在大豆、高粱、水稻等多種作物的農(nóng)藝性狀GWAS分析中得到廣泛應(yīng)用。
CROPGRO大豆花期模擬模型引入了品種參數(shù)來反映品種間的遺傳差異,但是事實(shí)上,大多數(shù)作物生長(zhǎng)模型建立之初并沒有考慮品種參數(shù)的潛在遺傳基礎(chǔ)[8]。前人研究[8]證明:將已校正好的作物模型應(yīng)用到新環(huán)境時(shí),往往需要重新校正模型品種參數(shù)。這說明品種參數(shù)并非如同建模者所設(shè)想的那樣,完全由品種自身的基因型特異性決定,更有可能是一個(gè)綜合基因與環(huán)境互作的參數(shù)。本研究希望獲取能夠反映品種自身遺傳學(xué)特性的模型品種參數(shù),盡可能減少品種參數(shù)的環(huán)境效應(yīng),因此選用BLUP花期值過濾掉實(shí)測(cè)花期的環(huán)境效應(yīng)。綜上所述,利用排除一定環(huán)境效應(yīng)的BLUP值進(jìn)行模型品種參數(shù)分解是更為合理的參數(shù)校正方式。
本研究基于183個(gè)江淮大豆品種,利用60 712個(gè)SNP標(biāo)記對(duì)大豆BLUP花期和3個(gè)品種參數(shù)進(jìn)行全基因組關(guān)聯(lián)分析。共采用了7種全基因組關(guān)聯(lián)分析方法,不同GWAS方法分析原理不同,各種方法之間互相彌補(bǔ),有效降低了只有1種分析方法造成的定位結(jié)果假陽性率。在檢測(cè)結(jié)果中,以-lgp≥3.5和的LOD≥3.0作為建議閾值,篩選出在7種方法間至少被2次重復(fù)檢測(cè)到的QTN位點(diǎn)。最終得到與CSDL、PPSEN、EMFL和花期BLUP性狀相關(guān)的可信QTN分別為10、5、1和6個(gè)。
在本研究中,模型品種參數(shù)定位到的顯著位點(diǎn)與BLUP花期定位到的位點(diǎn)位置差異很大,兩者僅有 1個(gè)共同定位的顯著位點(diǎn)(Gm16_33562974)。類似的結(jié)果同樣出現(xiàn)在Gu等[45]、Guitton等[10]、Dingkuhn等[11]的研究中,他們均發(fā)現(xiàn)模型品種參數(shù)能夠定位到更多且顯著性更高的位點(diǎn),并且與表型定位結(jié)果的重復(fù)度很低,但都未對(duì)這一現(xiàn)象作出解釋。針對(duì)本研究的結(jié)果,我們認(rèn)為模型品種參數(shù)作為實(shí)測(cè)性狀分解的組分,在數(shù)量上往往多于原始的實(shí)測(cè)性狀,所以可以定位到更多位點(diǎn);品種參數(shù)反映了不同環(huán)境效應(yīng)對(duì)大豆品種花期的影響,這可能是實(shí)測(cè)性狀和品種參數(shù)定位結(jié)果差異大、共同定位少的原因。
本研究參考Dingkuhn等[11]的研究,使用生長(zhǎng)模型模擬花期的精度以及品種參數(shù)的定位結(jié)果來作為CROPGROW大豆花期模擬模型的品種參數(shù)是否具有遺傳可解釋性的兩個(gè)評(píng)價(jià)指標(biāo)。前者用于評(píng)價(jià)模型對(duì)當(dāng)?shù)厣鷳B(tài)環(huán)境的適用性,后者則要求品種參數(shù)定位的顯著位點(diǎn)能與已知的位點(diǎn)或基因位置重復(fù),只有這樣才能表明本研究的品種參數(shù)具有生物學(xué)意義。在B-CSDL的定位結(jié)果中,共找到10個(gè)候選基因,其中 9個(gè)已在大豆中被證明與花期相關(guān),其余1個(gè)候選基因在比對(duì)擬南芥數(shù)據(jù)庫中發(fā)現(xiàn)與SKP1同源,該基因在莖尖、花序和花原基等分裂旺盛的組織中高水平表達(dá)。在B-PPSEN參數(shù)的定位結(jié)果中,共篩選出5個(gè)候選基因,其中1個(gè)已驗(yàn)證與大豆花期相關(guān),其余4個(gè)候選基因中的3個(gè)與擬南芥光反應(yīng)、晝夜節(jié)律或花的發(fā)育有關(guān),分別為ELF3、ARR3和LUH基因。在B-EMFL參數(shù)的定位結(jié)果中,只找到1個(gè)候選基因,該基因在比對(duì)擬南芥數(shù)據(jù)庫后發(fā)現(xiàn)與SEP基因同源,該基因的表達(dá)水平與外界的光照強(qiáng)度呈現(xiàn)顯著的正相關(guān)。
綜上所述,CROPGRO大豆花期模擬模型品種參數(shù)CSDL、PPSEN具有遺傳學(xué)上的解釋,品種參數(shù)EMFL在遺傳學(xué)上的解釋較弱。所以,即使物候?qū)W模型簡(jiǎn)化了生物學(xué)過程,并將先驗(yàn)理論強(qiáng)加于數(shù)據(jù)之上,但是模型品種參數(shù)還是能體現(xiàn)出它的遺傳特性。利用模型品種參數(shù)定位到的顯著SNP標(biāo)記,可提高原CROPGROW大豆花期模擬模型品種參數(shù)的遺傳可解釋性,促進(jìn)生理學(xué)與基因組學(xué)聯(lián)系起來。