摘要:【目的】對棉花衣分和鈴重進行全基因組關(guān)聯(lián)分析,挖掘相關(guān)的候選基因,為通過分子標記輔助選擇和分子設(shè)計育種提高棉花產(chǎn)量提供遺傳基礎(chǔ)?!痉椒ā坷?00份陸地棉種質(zhì)資源重測序(10×)數(shù)據(jù)和3 055 642個高質(zhì)量單核苷酸多態(tài)性(single nucleotide polymorphism, SNP)對2年5個環(huán)境及最佳線性無偏預(yù)測值(best linear unbiased predictive value, BLUP)的衣分和鈴重進行了全基因組關(guān)聯(lián)分析,檢測相關(guān)的顯著關(guān)聯(lián)位點和候選基因?!窘Y(jié)果】衣分和鈴重在不同環(huán)境下存在較廣泛的變異,衣分平均變異系數(shù)為9.40%,遺傳力為92.81%;鈴重平均變異系數(shù)為11.96%,遺傳力為86.67%。不同環(huán)境間,群體的鈴重呈極顯著正相關(guān)關(guān)系,衣分也呈極顯著正相關(guān)關(guān)系。群體結(jié)構(gòu)分析、主成分分析和系統(tǒng)發(fā)育分析將300份陸地棉分為6個亞群,全基因組關(guān)聯(lián)分析共檢測到223個數(shù)量性狀位點(quantitative trait locus, QTL)與衣分相關(guān),89個QTL與鈴重相關(guān)。對衣分中篩選到的3個穩(wěn)定的QTL qLP_Gh5.18、qLP_Gh12.43和qLP_Gh17.2進一步分析,發(fā)現(xiàn)17個相關(guān)候選基因;對鈴重中篩選到的2個穩(wěn)定的QTL qBW_Gh7.5和qBW_Gh19.5進一步分析,發(fā)現(xiàn)8個相關(guān)候選基因。【結(jié)論】在300份陸地棉群體中鑒定到5個穩(wěn)定的QTL與棉花衣分和鈴重關(guān)聯(lián),挖掘到25個與衣分和鈴重相關(guān)的候選基因。
關(guān)鍵詞:陸地棉;衣分;鈴重;全基因組關(guān)聯(lián)分析
Genome-wide association study of cotton lint percentage and boll weight
Du Xiao1, Long Yilei1, Tan Yanping1, Li Lili2, Wang Yin1, Jin Shen1, Yang Yinan1, Ai Xiantao3*
(1." College of Life Science and Technology, Xinjiang University/Xinjiang Key Laboratory of Biological Resources and Genetic Engineering, Urumqi 830000, China; 2. Kuqa Modern Agricultural Science and Innovation Center, Kuqa, Xinjiang 842000, China; 3. College of Intelligent Agriculture (Research Institute), Xinjiang University, Urumqi 830000, China)
Abstract: [Objective] This study aims to perform genome-wide asscciation study of cotton yield traits, such as lint percentage (LP) and boll weight(BW), and to mine the candidate genes, and may be helpful for improving cotton yield through molecular marker-assisted selection and molecular design breeding. [Methods] Genome-wide association study was performed using 300 upland cotton germplasms resequencing (10×) data and 3 055 642 high-quality single nucleotide polymorphism (SNP) for LP and BW in five environments and best linear unbiased predictive value (BLUP) for two years to detect significant association loci and candidate genes. [Results] The cotton LP and BW showed wide variations in different environments, with an average coefficient of variation of 9.40% and heritability of 92.81% for LP, and an average coefficient of variation of 11.96% and heritability of 86.67% for BW. BW is significantly positively correlated in different environments. It’s the same with LP. Population structure analysis, principal component analysis, and phylogenetic analysis classified the 300 upland cotton lines into six subgroups. Genome-wide association study detected a total of 223 quantitative trait locus (QTL) associated with LP and 89 QTL associated with BW. The three stable QTL qLP_Gh5.18, qLP_Gh12.43, and qLP_Gh17.2 screened in LP were further analyzed, and 17 related candidate genes were found. Two stable QTL qBW_Gh7.5 and qBW_Gh19.5 related to BW were further analyzed, and 8 related candidate genes were identified. [Conclusion] Five stable QTL were identified in 300 up land cotton lines associated with cotton LP and BW, and a total of 25 candidate genes related to LP and BW were mined.
Keywords: Gossypium hirsutum L.; lint percentage; boll weight; genome-wide association study
棉花(Gossypium)是世界上重要的經(jīng)濟作物和油料作物,為紡織品生產(chǎn)提供了天然纖維[1]。陸地棉具有高產(chǎn)、適應(yīng)性強、分布廣的特點,是栽培最廣泛的棉種。隨著全球人口的增長和工業(yè)化的不斷發(fā)展,紡織工業(yè)對棉花的需求持續(xù)增長。培育高產(chǎn)的棉花品種是棉花育種者不懈追求的目標。由于長期人工選擇育種,陸地棉品種遺傳多樣性降低、遺傳背景狹窄[2],這無疑增加了通過常規(guī)育種手段提高棉花產(chǎn)量的難度。因此,通過全基因組關(guān)聯(lián)分析(genome-wide association study, GWAS)挖掘與產(chǎn)量性狀相關(guān)的優(yōu)良基因或數(shù)量性狀位點(quantitative trait locus, QTL),對于加速棉花高產(chǎn)分子育種具有十分重要的意義。
鈴重(boll weight, BW)和衣分(lint percentage, LP)是重要的棉花產(chǎn)量性狀,也是典型的數(shù)量性狀,容易受到環(huán)境因素的影響[3]。大量學(xué)者通過分子標記技術(shù)和雙親連鎖作圖技術(shù),鑒定了許多與棉花產(chǎn)量性狀相關(guān)的QTL[4-8],這些研究為解析棉花產(chǎn)量性狀的分子機理及分子標記輔助選擇(molecular marker-assisted selection, MAS)育種提供了基礎(chǔ)。然而,這些來自種間群體的QTL大多定位于非常大的遺傳區(qū)域,往往不穩(wěn)定,因此不能直接應(yīng)用于陸地棉改良[9]。GWAS是以連鎖不平衡(linkage disequilibrium, LD)為基礎(chǔ),通過檢測成千上萬的分子標記,篩選出與目標性狀表型變異相關(guān)聯(lián)的分子標記,進而分析關(guān)聯(lián)分子標記對表型的遺傳效應(yīng)[10]。因分辨率高、成本低、不需要系譜等優(yōu)勢,GWAS已逐漸成為解析復(fù)雜數(shù)量性狀遺傳基礎(chǔ)的有效方法,利用該方法在棉花株型[11-12]、纖維品質(zhì)[13-16]、抗性[17-18]等性狀的相關(guān)研究中挖掘了大量的QTL/基因。在棉花產(chǎn)量性狀的研究中,Zhu等[19]對13個不同地點的242個棉花種質(zhì)進行GWAS分析,報道了95個產(chǎn)量相關(guān)的非冗余QTL,其中包括12個在6個及以上環(huán)境檢測到的穩(wěn)定的QTL和1個重要基因Gh_A07G1389,該基因編碼四肽重復(fù)樣超家族蛋白,與超短纖維突變體(Liy)相關(guān)基因同源。Sun等[20]利用SNP63K陣列對719份棉花進行了基因分型,鑒定出2個提高皮棉產(chǎn)量的基因Gh_
D03G1064和Gh_D12G2354。Song等[21]利用SNP63K陣列對276份棉花進行基因分型,發(fā)現(xiàn)Gh_D05G0313和Gh_D05G1124在胚珠和纖維發(fā)育階段高表達。Wang等[22]利用SNP80K陣列對189個棉花進行基因分型,鑒定了與BW相關(guān)的候選基因Gh_A02G1473、Gh_A10G1765和Gh_
A02G1442。這些重要候選基因的發(fā)掘為棉花高產(chǎn)育種奠定了堅實的理論基礎(chǔ)。
單核苷酸多態(tài)性(single nucleotide polymorphism, SNP)的標記密度是影響GWAS準確性的主要因素之一[23],上述棉花產(chǎn)量性狀相關(guān)研究中由于受SNP標記密度的影響,導(dǎo)致挖掘的候選基因數(shù)量受限。本研究以300份不同來源的陸地棉重測序(10×)數(shù)據(jù),對5個環(huán)境下的BW和LP進行全基因關(guān)聯(lián)分析,以確定遺傳位點與產(chǎn)量性狀的關(guān)系,研究結(jié)果可為棉花產(chǎn)量的分子育種提供理論依據(jù)。
1 材料與方法
1.1 材料
300份不同來源陸地棉種質(zhì)資源材料由中國農(nóng)業(yè)科學(xué)院棉花種質(zhì)資源庫提供(表1),其中,國內(nèi)種質(zhì)274份,國外種質(zhì)26份。
1.2 試驗設(shè)計
300份棉花材料于2022年4月10日種植在新疆庫車市烏恰鎮(zhèn)現(xiàn)代農(nóng)業(yè)科創(chuàng)中心1號和2號試驗田,分別用E1、E2表示這2個環(huán)境;2023年4月9日種植在新疆庫車市烏恰鎮(zhèn)現(xiàn)代農(nóng)業(yè)科創(chuàng)中心1號、2號和3號試驗田,用E3、E4、E5表示這3個環(huán)境。2號試驗田是2022年新開墾改良的試驗田,3號試驗田是2023年新開墾改良的試驗田,因3塊試驗田棉花長勢有明顯差異,可以視作不同的環(huán)境。每個試驗田設(shè)3個重復(fù),采用隨機區(qū)組設(shè)計,行距配置為(66+10)cm,株距為10 cm,1膜6行,幅寬2.28 m,小區(qū)行長4 m。機械鋪膜打孔,人工膜上點播,膜下滴灌栽培,田間管理措施同常規(guī)大田生產(chǎn)一致。
1.3 表型測定方法
參照杜雄明等[24]編著的《棉花種質(zhì)資源描述規(guī)范和數(shù)據(jù)標準》,在吐絮期,每個材料挑選10個連續(xù)單株,分別采收每株中部果枝吐絮暢的棉鈴1個,共采收10個棉鈴,隨后進行室內(nèi)考種,考種項目包括BW和LP。
1.4 表型數(shù)據(jù)分析
采用SPSS Statistics 25和Prism 9進行相關(guān)數(shù)據(jù)的統(tǒng)計分析;采用軟件R 4.4.0對不同環(huán)境的表型數(shù)據(jù)進行相關(guān)分析,用lme4包對各環(huán)境各性狀表型的最佳線性無偏預(yù)測(best linear unbiased prediction, BLUP)值進行計算,并計算廣義遺傳力(H2),公式如下:
H 2=Vg/(Vg+++)
式中,Vg、Vge、Vgy、Ve、L、Y分別代表遺傳方差、基因型與環(huán)境間的交互方差、基因型與年份的交互方差、環(huán)境方差、環(huán)境數(shù)和年份數(shù)。
1.5 DNA提取和基因組重測序
對每個棉花種質(zhì)的單株幼葉進行取樣,使用康為世紀的CWE9600 Magbead Blood DNA Kit試劑盒運用磁珠法進行DNA的提?。徊⑼ㄟ^隨機DNA片段化(300~350 bp)、末端修復(fù)、加PolyA并連接測序接頭,篩選300~350 bp的DNA片段,通過聚合酶鏈式反應(yīng)擴增和純化,從而獲得測序文庫。隨后使用DNBSEQ-T7測序儀,采用雙末端(pair-end, PE)150 bp的測序方法上機測序。
1.6 測序讀長質(zhì)量過濾和比對
使用fastp對原始數(shù)據(jù)進行一系列的質(zhì)量控制,數(shù)據(jù)質(zhì)控的標準包括:去除帶接頭的讀長;去除未知/不確定堿基含量超過1%的讀長;去除低質(zhì)量(Q≤5)堿基數(shù)超過50%的讀長。使用BWA" 0.7.17(MEM算法)軟件將干凈讀長比對到陸地棉TM-1參考基因組(http://ibi.zju.edu.cn/cotton/source/TM-1_V2.1),使用GATK 4.1.8.0軟件自帶的模塊對Bam文件進行去重,然后基于Bam文件統(tǒng)計各樣品的測序深度、基因組覆蓋度等信息。
1.7 群體SNP檢測
使用軟件GATK 4.1.8.0 callSNP命令調(diào)取SNP,采用VariantFiltration模塊對SNP進行嚴格質(zhì)控過濾,選擇標準:群體內(nèi)個體缺失率≤1 %、SNP缺失率≤1 %、次要等位基因頻率(minor allele frequency, MAF)>0.05,最終保留3 055 642個高質(zhì)量 SNP用于主成分分析(principal component analysis, PCA)、系統(tǒng)發(fā)育樹、群體結(jié)構(gòu)分析和GWAS分析。
1.8 群體結(jié)構(gòu)和LD分析
為了從全基因組的角度闡明系統(tǒng)發(fā)育關(guān)系,利用Tassel軟件中的鄰接法(neighbor-joining method)構(gòu)建系統(tǒng)發(fā)育樹。使用軟件Admixture評估群體遺傳結(jié)構(gòu),假設(shè)K取值2~10,每次運行迭代10 000次。利用GCTA軟件進行PCA分析以評估群體的遺傳結(jié)構(gòu)。使用軟件PopLDdecay計算成對高質(zhì)量SNP之間的LD系數(shù)(r2),結(jié)果用于估計LD衰減。
1.9 GWAS
利用3 055 642個高質(zhì)量SNP對2個性狀進行GWAS分析,利用全基因組高效混合模型關(guān)聯(lián)軟件包GEMMA 0.94.1[25](http://www.xzlab.org/
software.html),用以群體結(jié)構(gòu)(Q)矩陣為協(xié)變量的一般線性模型GLM (Q)、以主成分(P)矩陣為協(xié)變量的一般線性模型GLM (P)、以群體結(jié)構(gòu)(Q)和親緣關(guān)系(K)矩陣為協(xié)變量的混合線性模型MLM (Q + K)、以主成分(P)和親緣關(guān)系(K)矩陣為協(xié)變量的混合線性模型MLM (P + K)等4個模型進行關(guān)聯(lián)分析。根據(jù)-lg(1/N)計算閾值,N為有效SNP數(shù)。本研究中使用“plink--indep--pairwise 50 10 0.1”質(zhì)控后獲得182 147個有效SNP,經(jīng)計算閾值為5.26。
1.10 單倍型分析及候選基因的預(yù)測
GWAS分析后,對QTL進行命名,對所有環(huán)境及模型下檢測到的顯著SNP按照其位置進行排序,若相鄰2個SNP的距離大于LD衰減距離454.6 kb,則這2個SNP屬于不同的QTL,反之則視為是同1個QTL。對多環(huán)境重復(fù)檢測到的穩(wěn)定QTL,選擇每個QTL中表型變異解釋率(phenotypic variation explained, PVE)最大的SNP做單倍型分析,利用曼-惠特尼檢驗對不同單倍型之間的差異顯著性進行檢驗。將棉花候選基因比對到擬南芥基因組(www.arabidopsis.org)同源基因并進行功能注釋。
2 結(jié)果與分析
2.1 表型分析
為了評估關(guān)聯(lián)群體中產(chǎn)量性狀的表型變異,對LP和BW在2年5個環(huán)境的表型值及BLUP值進行統(tǒng)計分析(表2)。結(jié)果表明,LP變化范圍為18.45%~58.54%;BW變化范圍為2.91~8.78 g。2個性狀在5個環(huán)境及BLUP值下均具有較廣泛的變異,LP的平均變異系數(shù)為9.40%,BW的平均變異系數(shù)為11.96%;LP的遺傳力為92.81%,BW的遺傳力為86.67%,表明這2個性狀主要受遺傳因素影響。LP的偏度為-0.65~
-0.24、峰度為0.10~1.36,BW的偏度為-0.37~
0.14、峰度在-0.22~0.57之間,兩者均呈近似正態(tài)分布,符合數(shù)量性狀特征。LP在5個環(huán)境下的表型值和BLUP值間均呈極顯著的正相關(guān)關(guān)系,BW類似,但是LP與BW在不同環(huán)境間呈現(xiàn)不同的相關(guān)關(guān)系,有呈正相關(guān)關(guān)系的,如LP_E1與BW_E1、BW_E2;也有呈負相關(guān)關(guān)系的,如LP_
E5與BW_E1、BW_E2(圖1)。
2.2 群體結(jié)構(gòu)和LD分析
群體結(jié)構(gòu)分析對后續(xù)研究不同亞群遺傳信息尤為重要,可以初步推斷亞群分化程度和親緣關(guān)系,反映群體內(nèi)遺傳多樣性。利用Admixture對群體結(jié)構(gòu)進行分析,當(dāng)K為6時,交叉驗證誤差最小,從而確定K最佳取值為6(圖2A),即300份陸地棉材料分為6個亞群(圖2C)。系統(tǒng)發(fā)育分析(圖2B)和PCA分析(圖2D)也將這些材料劃分為6個亞群。根據(jù)PopLDdecay計算r2最大值為0.86,衰減一半時對應(yīng)的距離為454.6 kb,即300份陸地棉材料的LD衰減距離為454.6 kb(圖2E),LD衰減距離中等,適合進行后續(xù)的GWAS。
2.3 全基因組關(guān)聯(lián)分析
利用3 055 642個高質(zhì)量的SNP對2年5個環(huán)境的LP、BW表型數(shù)據(jù)及其BLUP值,使用GLM (Q)、MLM (Q+K)、GLM (P)和MLM (P+K) 4種模型進行GWAS分析。GLM (Q)模型檢測到8 358個與LP顯著關(guān)聯(lián)的SNP,MLM (Q+K)模型檢測到198個,GLM(P)模型檢測到17 355個,MLM (P+K)模型檢測到2 385個,共檢測到28 296個SNP與LP顯著關(guān)聯(lián)(包含不同模型重復(fù)檢測的SNP)。對于BW,GLM (Q)模型檢測到680個顯著關(guān)聯(lián)SNP,MLM (Q+K)模型檢測到34個,GLM (P)模型檢測到754個,MLM (P+K)模型檢測到36個,共檢測到1 504個SNP與BW顯著關(guān)聯(lián)。按照454.6 kb的LD衰減距離(圖2E),將與LP顯著關(guān)聯(lián)的SNP整合到223個QTL中,解釋了6.67%~14.35%的PVE,將與BW顯著關(guān)聯(lián)的1 504個SNP整合在89個QTL中,解釋了6.66%~10.24%的PVE。其中,被重復(fù)檢測的QTL共91個,88個與LP關(guān)聯(lián)、3個與BW關(guān)聯(lián)。圖3展示了這91個QTL在26條染色體上的分布情況,與LP關(guān)聯(lián)的QTL在除A01外的染色體均有分布,其中A02染色體上數(shù)量最多,為23個;A12次之,共7個;A03、A04、A09、A10、A13、D01和D09號染色體上各有1個QTL。A07、D06和D11號染色體上各有1個與BW關(guān)聯(lián)的穩(wěn)定QTL。
2.4 候選基因的預(yù)測
為了篩選與LP和BW相關(guān)的穩(wěn)定QTL,從上述91個QTL篩選在5個環(huán)境以及BLUP值中重復(fù)檢測到3次及以上的穩(wěn)定QTL(表3),獲得3個與衣分相關(guān)的QTL:qLP_Gh5.18、qLP_Gh12.43、qLP_Gh17.2,2個與BW相關(guān)的QTL,分別是qBW_Gh7.5和qBW_Gh19.5。
對A05染色體上qLP-Gh5.18進行分析,該QTL在5個環(huán)境及BLUP值下在4種模型中均被檢測到(圖4A和表3)。其中,snp497745解釋14.35%的PVE,是qLP_Gh5.18中PVE最高的SNP位點,對該SNP進行后續(xù)分析(后文也是用QTL區(qū)間內(nèi)PVE最高的SNP進行分析)。局部曼哈頓圖(圖4B)表明在A05染色體上108.85~109.11 Mb區(qū)間出現(xiàn)明顯峰值,對此區(qū)間內(nèi)的LD程度進一步分析并結(jié)合LD熱圖,將候選區(qū)間縮小為160 kb(圖4D)。在此區(qū)間內(nèi)共注釋了7個候選基因(表4),結(jié)合擬南芥注釋信息,推測GH_A05G4223與擬南芥基因AT5G-
05340.1同源,擬南芥AT5G05340.1編碼產(chǎn)物與參與木質(zhì)素生物合成的過氧化物酶相似,其功能突變?nèi)笔?dǎo)致木質(zhì)部纖維發(fā)育異常以及木質(zhì)素生物合成酶活性降低。GH_A05G4224編碼含有側(cè)器官邊界(lateral organ boundaries,LOB)結(jié)構(gòu)域的蛋白,作為木質(zhì)部細胞分化主調(diào)控因子VND7的調(diào)控因子,參與木質(zhì)部分化調(diào)控。GH_A05G4226編碼WEB家族蛋白DUF827;GH_A05G4227編碼絨毛曲霉腺嘌呤-鳥嘌呤-次黃嘌呤轉(zhuǎn)運體AzgA的同源物;GH_A05G4228在擬南芥中的同源基因編碼Lung七跨膜受體家族蛋白;GH_A05G4229編碼DEAD-box解旋酶家族蛋白;GH_A05G4230編碼1種假定的二羥丙酮磷酸還原酶,參與葉綠體內(nèi)甘油-3-磷酸的供應(yīng)。單倍型分析發(fā)現(xiàn)攜帶AA單倍型的棉花品種的LP極顯著低于攜帶GG單倍型的品種(圖4C)。
對A12號染色體上qLP-Gh12.43進行分析,該QTL在GLM (P)和GLM (Q)模型下在5個環(huán)境及BLUP值均被檢測到(表3和圖5A),snp1691332解釋9.69%的PVE。局部曼哈頓圖表明A12號染色體上106.57~106.82 Mb區(qū)域有明顯峰值,結(jié)合LD熱圖(圖5B和5D)對該區(qū)間內(nèi)的LD程度進行分析,將候選基因區(qū)域縮小至50 kb,在該候選區(qū)域內(nèi)共注釋了6個候選基因(表4)。snp1691332在GH_A12G2883內(nèi),其擬南芥的同源基因編碼四肽重復(fù)樣超家族蛋白;GH_A12G2884編碼ARM重復(fù)超家族蛋白;GH_A12G2885編碼645個氨基酸的甲基胞嘧啶結(jié)合蛋白,包含1個PHD結(jié)構(gòu)域、2個環(huán)指結(jié)構(gòu)域和1個SRA結(jié)構(gòu)域;GH_A12G2886編碼R2R3轉(zhuǎn)錄因子基因家族成員;GH_A12G2887編碼五肽重復(fù)蛋白;GH_A12G2888編碼1個與MAP激酶MAPK9相似的蛋白。單倍型分析發(fā)現(xiàn)攜帶AA單倍型的棉花品種的LP極顯著高于攜帶GG的單倍型品種(圖5C)。
對qLP-Gh17.2進行分析,該QTL位于D04染色體上,在4種模型下均被檢測到(表3和圖6A),snp2180718解釋10.69%的PVE。局部曼哈頓圖(圖6B)表明在D04號染色體上3.80~3.96 Mb區(qū)域出現(xiàn)明顯峰值,結(jié)合熱圖(圖6D)進一步分析該區(qū)間內(nèi)的LD,將候選區(qū)域縮小至40 kb。在該候選區(qū)域內(nèi)共包含4個候選基因(表4),GH_D04G0279的擬南芥同源基因編碼1種IAA-氨基合成酶,在體外將天冬氨酸和其他氨基酸結(jié)合到生長素上;GH_D04G0280編碼五肽重復(fù)超家族蛋白;GH_D04G0281編碼肌動蛋白基因家族成員;GH_D04G0282編碼GRIP卷曲蛋白(DUF1664)。單倍型分析發(fā)現(xiàn)攜帶TT單倍型的棉花品種的LP極顯著高于攜帶CC單倍型的品種(圖6C)。
對與BW相關(guān)的qBW_Gh7.5和qBW_19.5進行后續(xù)分析。qBW_Gh7.5位于A07號染色體上(圖7和表3),與Sun等[20]和Ma等[16]發(fā)現(xiàn)的相關(guān)位點共定位(表5)。該QTL在GLM (P)和GLM (Q)模型中被檢測到(表3),區(qū)間內(nèi)的snp852852解釋8.89%的PVE,是A07號染色體中檢測到的QTL中PVE最大的位點。局部曼哈頓圖(圖7B)表明在A07號染色體上90. 83~91.18 Mb區(qū)域出現(xiàn)明顯峰值,結(jié)合熱圖(圖7D)對該區(qū)間內(nèi)的LD程度進行分析,將候選區(qū)域縮小至170 kb,在該候選區(qū)域內(nèi)共注釋了5個候選基因(表4)。其中,GH_A07G2234的擬南芥同源基因編碼RIN4-like/NOI家族成員;GH_A07G2235編碼1種富含半胱氨酸的多肽,該多肽是1種在葉肉細胞中產(chǎn)生的分泌因子,作用于表皮以促進氣孔的形成;GH_A07G2236編碼天冬酰-tRNA合成酶;GH_A07G2237編碼受體樣蛋白激酶相關(guān)家族蛋白;GH_A07G2243編碼AGC(cAMP依賴性、cGMP依賴性蛋白激酶C)激酶家族蛋白。單倍型分析發(fā)現(xiàn)攜帶GG單倍型的棉花品種的BW極顯著高于攜帶AA單倍型的品種(圖7C)。
對D06染色體上qBW-Gh19.5進行分析,該QTL在4個模型下被檢測到(圖8A和表3),snp2428027解釋7.89%的PVE。局部曼哈頓圖(圖8B)表明在D06號染色體上64.22~64.56 Mb區(qū)域出現(xiàn)明顯峰值,結(jié)合LD熱圖(圖8D)將候選區(qū)域縮小至14 kb。該候選區(qū)域內(nèi)包含3個候選基因(表4),GH_D06G2300的擬南芥同源基因編碼GDSL酯酶/酰基轉(zhuǎn)移酶/脂肪酶;GH_D06G2301編碼花粉中參與脂滴生物形成的膜蛋白;GH_D06G2302編碼1個水通道蛋白同源物。單倍型分析發(fā)現(xiàn)攜帶GG單倍型的棉花品種的BW顯著高于攜帶AA單倍型的品種(圖8C)。
3 討論
3.1 影響GWAS結(jié)果的因素
GWAS是分析復(fù)雜性狀遺傳基礎(chǔ)的有效手段之一[27],表型數(shù)據(jù)準確性、SNP標記密度、群體結(jié)構(gòu)和GWAS分析方法等都會對關(guān)聯(lián)分析最終結(jié)果產(chǎn)生很大影響。棉花的產(chǎn)量性狀是復(fù)雜的數(shù)量性狀,受多基因控制,還容易受栽培地氣候、土壤肥力、田間管理、病蟲害等的影響。為了減少環(huán)境對關(guān)聯(lián)結(jié)果的影響,本研究對2年5個地點的LP和BW進行BLUP值的計算,以BLUP值進行關(guān)聯(lián)分析,極大地減少了環(huán)境因素對遺傳評估的影響,提高了結(jié)果的準確性和可靠性[28]。LD分析是GWAS的基礎(chǔ),受多種因素的影響,如遺傳衰減、自然選擇和種群結(jié)構(gòu),而群體結(jié)構(gòu)被認為是影響GWAS結(jié)果的重要因素[29]。本研究中將300份陸地棉分為6個亞群,但可以看到亞群2與其他5個亞群明顯分開(圖2D),這可能是育種工作造成的種內(nèi)漸滲[28]。研究表明所使用的群體存在較多亞群時,等位基因在基因組上的分布往往不平衡,可能造成標記與數(shù)量性狀相關(guān)位點的假陽性關(guān)聯(lián),從而掩蓋了真正的信號,使關(guān)聯(lián)分析更加復(fù)雜[31]。PCA作協(xié)變量可以更有效地控制群體結(jié)構(gòu),同時降低過度校正的風(fēng)險。所以本研究不僅使用GLM (Q)和MLM (Q+K),還使用GLM (P)和MLM (Q+ K),增加了GWAS結(jié)果的可靠性。
3.2 棉花產(chǎn)量性狀候選基因的預(yù)測
挖掘更多的棉花產(chǎn)量相關(guān)基因?qū)铀倜藁ǜ弋a(chǎn)育種具有極其重要的作用。前人已定位到許多與棉花產(chǎn)量性狀相關(guān)的基因,如:Gh_D05G1960、Gh_D05G1965、Gh_D03G1064、Gh_D12G2354、Gh_D06G2161、Gh_A08G0716、Gh_A08G0783、Gh_A07G1389、Gh_A02G1473、Gh_A10G1765、Gh_A02G1442、Gh_D05G0313和Gh_D05G1124等都在纖維發(fā)育中起關(guān)鍵作用[19, 21-22, 28, 32],遺憾的是這些候選基因都未經(jīng)過基因功能驗證,還不能直接用于棉花產(chǎn)量性狀的改良。
本研究在5個環(huán)境及BLUP下檢測到223個QTL與LP相關(guān),89個QTL與BW相關(guān)。91個QTL被重復(fù)檢測到,88個與LP關(guān)聯(lián)的QTL中9個與前人研究中共定位(表5),79個為新定位到的QTL;3個與BW關(guān)聯(lián)的QTL中qBW_Gh7.5與Sun等[20]和Ma等[16]的相關(guān)研究結(jié)果共定位(表5),其余2個為新定位的QTL。
對在5個環(huán)境及BLUP下穩(wěn)定檢測(3次及以上)到的3個穩(wěn)定的LP相關(guān)QTL進行分析,共鑒定到17個候選基因。在qLP_Gh5.18分析中,共鑒定了7個候選基因。其中,GH_A05G4228編碼LUNG七跨膜受體家族蛋白,Sun等[20]在對LP的研究中定位了1個與GH_A05G4228功能相同的基因,該基因在纖維發(fā)育過程中高表達,推測GH_A05G4228可能與纖維發(fā)育有關(guān)。GH_A05G4223編碼蛋白的序列與參與木質(zhì)素生物合成的過氧化物酶相似,功能突變?nèi)笔П憩F(xiàn)為木質(zhì)部纖維發(fā)育異常和木質(zhì)素生物合成酶活性降低,推測該基因可能與纖維發(fā)育相關(guān)。在qLP_Gh12.43分析中,共發(fā)現(xiàn)6個候選基因,GH_A12G2887編碼五肽重復(fù)超家族蛋白。TPR在棉纖維發(fā)育中的作用機制之一是與肌動蛋白形成復(fù)合物控制纖維生長[27],Zhu等[19]報道四肽重復(fù)樣超家族蛋白與短纖維突變體(Ligon-lintless)表型相關(guān),并且在開花前3 d至開花后1 d的纖維中高表達,該基因可能與纖維細胞突起有關(guān),進而影響LP性狀。GH_A12G2886編碼R2R3轉(zhuǎn)錄因子基因家族成員,R2R3轉(zhuǎn)錄因子家族包括AP2/EREBP家族、MYB家族等,這些轉(zhuǎn)錄因子在植物的生長發(fā)育、脅迫應(yīng)答等過程中發(fā)揮著關(guān)鍵作用[34-36]。棉花R2R3-MYB轉(zhuǎn)錄因子GhMYB25-like和GhMYB3均已被證明調(diào)控纖維的發(fā)育[36-37]。在qLP_Gh17.2分析中,共定位到4個候選基因,GH_D04G0279編碼1種IAA-氨基合成酶,在體外將天冬氨酸和其他氨基酸結(jié)合到生長素上,目前還沒有關(guān)于該基因的任何報道。但眾所周知,生長素在植物生長發(fā)育過程中起著至關(guān)重要的作用,是植物生長的重要調(diào)節(jié)因子,生長素能促進植物生長,增強植物的抗逆性,提高產(chǎn)量和品質(zhì),故推測該基因可能通過影響棉花生長發(fā)育,從而影響LP性狀;GH_D04G0280編碼五肽重復(fù)超家族蛋白,棉花Gh_A03G0489編碼五肽重復(fù)超家族蛋白,該基因中22 bp的缺失突變會降低纖維細胞壁厚度[38],推測GH_D04G0280可能通過調(diào)控纖維發(fā)育影響LP。
在qBW-Gh7.5區(qū)間內(nèi)定位到5個候選基因,其中GH_A07G2243被重點關(guān)注,其編碼AGC激酶家族蛋白,據(jù)報道其同源基因在植物中發(fā)揮多種功能,包括生長、免疫、細胞凋亡和應(yīng)激反應(yīng)。在水稻中AGC基因家族主要與光合作用相關(guān),通過調(diào)控光合作用進而影響水稻產(chǎn)量[41]。擬南芥AGC蛋白激酶AGC1-4通過介導(dǎo)細胞增殖和胚胎發(fā)育進而影響種子的大小,AGC1-4過表達導(dǎo)致擬南芥種子變小,agc1-4突變體的種子明顯大于野生型[42],因此推測GH_A07G2243可能影響棉花種子發(fā)育進而影響鈴重。在qBW_
Gh19.5分析中發(fā)現(xiàn)3個候選基因,目前在棉花或其他作物中尚未發(fā)現(xiàn)關(guān)于這些基因或同源基因的報道。但我們發(fā)現(xiàn)GH_D06G2301編碼主要在花粉中參與脂滴生物形成的膜蛋白,因此推測該基因可能通過參與花粉的形成,影響棉花的授粉,進而對棉花的產(chǎn)量具有一定的影響。本研究鑒定的候選基因?qū)Ξa(chǎn)量性狀是否具有調(diào)控作用,還需進一步進行功能驗證,才能更有效地指導(dǎo)棉花的育種。
4 結(jié)論
利用5個環(huán)境下對300份陸地棉的衣分和鈴重及其BLUP值進行全基因組關(guān)聯(lián)分析,鑒定了3個穩(wěn)定的衣分相關(guān)QTL,在對應(yīng)區(qū)間內(nèi)挖掘到17個候選基因;鑒定了2個鈴重相關(guān)QTL,挖掘到8個候選基因。
參考文獻:
[1] 中國農(nóng)業(yè)科學(xué)院棉花研究所. 中國棉花遺傳育種學(xué)[M]. 濟南:山東科學(xué)技術(shù)出版社, 2003.
Institute of Cotton Research, Chinese Academy of Agricultural Sciences. Cotton genetics and breeding in China[M]. Jinan: Shandong Science and Technology Press, 2003.
[2] Zhang Hongbin, Li Yaning, Wang Baohua, et al. Recent advances in cotton genomics[J/OL]. International Journal of Plant Genomics, 2008, 2008: 1-20[2024-03-08]. https://doi.org/
10.1155/2008/742304.
[3] 喻樹迅, 范術(shù)麗, 王寒濤, 等. 中國棉花高產(chǎn)育種研究進展[J/OL]. 中國農(nóng)業(yè)科學(xué), 2016, 49(18): 3465-3476[2024-03-08]. https://doi.org/10.3864/j.issn.0578-1752.2016.18.001.
Yu Shuxun, Fan Shuli, Wang Hantao, et al. Progress of high-
yield cotton breeding research in China[J/OL]. Scientia Agricultura Sinica, 2016, 49(18): 3465-3476[2024-03-08]. https://doi.
org/10.3864/j.issn.0578-1752.2016.18.001.
[4] Guo Xian, Guo Yuping, Ma Jun, et al. Mapping heterotic loci for yield and agronomic traits using chromosome segment introgression lines in cotton[J/OL]. Journal of Integrative Plant Biology, 2013, 55(8): 759-774[2024-03-08]. https://doi.org/10.1111/
jipb.12054.
[5] Liu Rezhong, Ai Nijiang, Zhu Xinxia, et al. Genetic analysis of plant height using two immortalized populations of “CRI12×J8891” in Gossypium hirsutum L.[J/OL]. Euphytica, 2014, 196(1): 51-61[2024-03-08]. https://doi.org/10.1007/s10681-013-
1013-0.
[6] Shao Qianshun, Zhang Fengjiao, Tang Shiyi, et al. Identifying QTL for fiber quality traits with three upland cotton (Gossypium hirsutum L.) populations[J/OL]. Euphytica, 2014, 198(1): 43-58[2024-03-08]. https://doi.org/10.1007/s10681-014-1082-8.
[7] Yu Jiwen, Zhang Ke, Li Shuaiyan, et al. Mapping quantitative trait loci for lint yield and fiber quality across environments in a Gossypium hirsutum × Gossypium barbadense backcross inbred line population[J/OL]. Theoretical and Applied Genetics, 2013, 126: 275-287[2024-03-08]. https://doi.org/10.1007/s00122-012-
1980-x.
[8] Ning Zhiyuan, Zhao Rui, Chen Hong, et al. Molecular tagging of a major quantitative trait locus for broad-spectrum resistance to Verticillium wilt in upland cotton Cultivar prema[J/OL]. Crop Science, 2013, 53(6): 2304-2312[2024-03-08]. https://doi.org/
10.2135/cropsci2012.12.0694.
[9] Islam M S, Zeng LH, Thyssen G N, et al. Mapping by sequencing in cotton (Gossypium hirsutum) line MD52ne identified candidate genes for fiber strength and its related quality attributes[J/OL]. Theoretical and Applied Genetics, 2016, 129: 1071-1086[2024-
03-08]. https://doi.org/10.1007/s00122-016-2684-4.
[10] 張雁明, 邢國芳, 劉美桃, 等. 全基因組關(guān)聯(lián)分析: 基因組學(xué)研究的機遇與挑戰(zhàn)[J]. 生物技術(shù)通報, 2013(6): 1-6.
Zhang Yanming, Xing Guofang, Liu Meitao, et al. Genome wide association study: opportunities and challenges in genomic research[J]. Biotechnology Bulletin, 2013(6): 1-6.
[11] Shao Panxia, Peng Yabin, Wu Yuanlong, et al. Genome-wide association study and transcriptome analysis reveal key genes controlling fruit branch angle in cotton[J/OL]. Frontiers in Plant Science, 2022, 13: 9988647[2024-03-08]. https://doi.org/10.3389/fpls.2022.988647.
[12] Ye Yulu, Wang Peilin, Zhang Man, et al. UAV-based time series phenotyping reveals the genetic basis of plant height in upland cotton[J/OL]. The Plant Journal, 2023, 115(4): 937-951[2024-03-08]. https://doi.org/10.1111/TPJ.16272.
[13] Fang Lei, Wang Qiong, Hu Yan, et al. Genomic analyses in cotton identify signatures of selection and loci associated with fiber quality and yield traits[J/OL]. Nature Genetics, 2017, 49(7): 1089-1098[2024-03-08]. https://doi.org/10.1038/ng.3887.
[14] Sarfraz Zareen, Iqbal Muhammad Shahid, Geng Xiaoli, et al. GWAS mediated elucidation of heterosis for metric traits in cotton (Gossypium hirsutum L.) across multiple environments[J/OL]. Frontiers in Plant Science, 2021, 12: 565552[2024-03-
08]. https://doi.org/10.3389/fpls.2021.565552.
[15] Sun Zhengwen, Wang Xingfen, Liu Zhengwen, et al. Genome-
wide association study discovered genetic variation and candidate genes of fibre quality traits in Gossypium hirsutum L.[J/OL]. Plant Biotechnology Journal, 2017, 15(8): 982-996[2024-03-08]. https://doi.org/10.1111/pbi.12693.
[16] Ma Zhiying, He Shoupu, Wang Xingfen, et al. Resequencing a core collection of upland cotton identifies genomic variation and loci influencing fiber quality and yield[J/OL]. Nature Genetics, 2018, 50(6): 803-813[2024-03-08]. https://doi.org/10.1038/s41588-018-0119-7.
[17] Ulloa M, De Santiago L M, Hulse-Kemp A M, et al. Enhancing upland cotton for drought resilience, productivity, and fiber quality: comparative evaluation and genetic dissection[J/OL]. Molecular Genetics and Genomics, 2020, 295: 155-176[2024-
03-08]. https://doi.org/10.1007/s00438-019-01611-6.
[18] 韓貝, 王旭文, 李保奇, 等. 陸地棉種質(zhì)資源抗旱性狀的關(guān)聯(lián)分析[J/OL]. 作物學(xué)報, 2021, 47(3): 438-450[2024-03-08]. https://doi.org/10.3724/SP.J.1006.2021.04063.
Han Bei, Wang Xuwen, Li Baoqi, et al. Association analysis of drought tolerance traits of upland cotton accessions (Gossypium hirsutum L.)[J/OL]. Acta Agronomica Sinica, 2021, 47(3): 438-450[2024-03-08]. https://doi.org/10.3724/SP.J.1006.2021.
04063.
[19] Zhu Guozhong, Hou Sen, Song Xiaohui, et al. Genome-wide association analysis reveals quantitative trait loci and candidate genes involved in yield components under multiple field environments in cotton (Gossypium hirsutum)[J/OL]. BMC Plant Biology, 2021, 21(1): 250-250[2024-03-08]. https://doi.org/10.1186/S12870-021-03009-2.
[20] Sun Zhengwen, Wang Xingfen, Liu Zhengwen, et al. A genome-
wide association study uncovers novel genomic regions and candidate genes of yield-related traits in upland cotton[J/OL]. Theoretical and Applied Genetics, 2018, 131: 2413-2425[2024-
03-08]. https://doi.org/10.1007/s00122-018-3162-y.
[21] Song Chengxiang, Li Wei, Pei Xiaoyu, et al. Dissection of the genetic variation and candidate genes of lint percentage by a genome-wide association study in upland cotton[J/OL]. Theoretical and Applied Genetics, 2019, 132: 1991-2002[2024-
03-08]. https://doi.org/10.1007/s00122-019-03333-0.
[22] Wang Yuanyuan, Guo Xinlei, Xu Yanchao, et al. Genome-wide association study for boll weight in Gossypium hirsutum races[J/OL]. Functional amp; Integrative Genomics, 2023, 23(4): 331[2024-03-08]. https://doi.org/10.1007/S10142-023-01261-3.
[23] Huang Cong, Nie Xinhui, Shen Chao, et al. Population structure and genetic basis of the agronomic traits of upland cotton in China revealed by a genome-wide association study using high-density SNPs[J/OL]. Plant Biotechnology Journal, 2017, 15(11): 1374-1386[2024-03-08]. https://doi.org/10.1111/pbi.
12722.
[24] 杜雄明, 周忠麗. 棉花種質(zhì)資源描述規(guī)范和數(shù)據(jù)標準[M]. 北京: 中國農(nóng)業(yè)出版社, 2005.
Du Xiongming, Zhou Zhongli. Cotton germplasm resources description specification and data standard[M]. Beijing: China Agricultural Press, 2005.
[25] Zhou Xiang, Stephens M. Genome-wide efficient mixed-model analysis for association studies[J/OL]. Nature Genetics, 2012, 44(7): 821-824[2024-03-08]. https://doi.org/10.1038/ng.2310.
[26] Li MX, Yeung J M Y, Cherny S S, et al. Evaluating the effective numbers of independent tests and significant p-value thresholds in commercial genotyping arrays and public imputation reference datasets[J/OL]. Human Genetics, 2012, 131(5): 747-756[2024-03-08]. https://doi.org/10.1007/s00439-011-
1118-2.
[27] Yasir M, Kanwal H H, Hussain Q, et al. Status and prospects of genome-wide association studies in cotton[J/OL]. Frontiers in Plant Science, 2022, 13: 1019347[2024-03-08]. https://doi.org/
10.3389/FPLS.2022.1019347.
[28] 王娟, 馬曉梅, 周小鳳, 等. 棉花產(chǎn)量構(gòu)成因素性狀的全基因組關(guān)聯(lián)分析[J/OL]. 中國農(nóng)業(yè)科學(xué), 2022, 55(12): 2265-2277[2024-03-08]. https://doi.org/10.3864/j.issn.0578-1752.2022.
12.001.
Wang Juan, Ma Xiaomei, Zhou Xiaofeng, et al. Genome-wide association analysis of yield component traits in cotton[J/OL]. Scientia Agricultura Sinica, 2022, 55(12): 2265-2277[2024-
03-08]. https://doi.org/10.3864/j.issn.0578-1752.2022.12.001.
[29] Lon R C, Lyle J P. Population stratification and spurious allelic association[J/OL]. The Lancet, 2003, 361(9357): 598-604[2024-
03-08]. https://doi.org/10.1016/S0140-6736(03)12520-2.
[30] Zhao N, Wang W R, Grover C E, et al. Genomic and GWAS analyses demonstrate phylogenomic relationships of Gossypium barbadense in China and selection for fibre length, lint percentage and Fusarium wilt resistance[J/OL]. Plant Biotechnology Journal, 2021, 20(4): 691-710[2024-03-08]. https://doi.org/
10.1111/pbi.13747.
[31] 馬艷明, 婁鴻耀, 張勝軍, 等. 新疆冬小麥品種資源主要產(chǎn)量性狀全基因組關(guān)聯(lián)分析[J/OL]. 中國農(nóng)業(yè)科學(xué), 2023, 56(18): 3487-3499[2024-03-08]. https://doi.org/10.3864/j.issn.0578-
1752.2023.18.001.
Ma Yanming, Lou Hongyao, Zhang Shengjun, et al. Genome-
wide association analysis of major yield traits of winter wheat varietal resources in Xinjiang[J/OL]. Scientia Agricultura Sinica, 2023, 56(18): 3487-3499[2024-03-08]. https://doi.org/10.3864/
j.issn.0578-1752.2023.18.001.
[32] Su Junji, Wang Caixiang, Ma Qi, et al. An RTM-GWAS procedure reveals the QTL alleles and candidate genes for three yield-related traits in upland cotton[J/OL]. BMC Plant Biology, 2020, 20(1): 416-416[2024-03-08]. https://doi.org/10.1186/
s12870-020-02613-y.
[33] Zubair I, Muhammad S I, Salman A, et al. Genome-wide association study reveals novel genes on different chromosomal positions regulating boll weight in upland cotton (Gossypium hirsutum L.)[J/OL]. Genetic Resources and Crop Evolution, 2023, 71(2): 785-799[2024-03-08]. https://doi.org/10.1007/
s10722-023-01657-x.
[34] Liu Chunxiao, Zhang Tianzhen. Expansion and stress responses of the AP2/EREBP superfamily in cotton[J/OL]. BMC Genomics, 2017, 18(1): 118[2024-03-08]. https://doi.org/10.1186/s12864-
017-3517-9.
[35] Gates D J, Strickler S R, Mueller L A, et al. Diversification of R2R3-MYB transcription factors in the tomato family solanaceae[J/OL]. Journal of Molecular Evolution, 2016, 83(1/2): 26-37[2024-03-08]. https://doi.org/10.1007/s00239-016-9750-z.
[36] Shangguan X, Yang Q, Wu X, et al. Function analysis of a cotton R2R3 MYB transcription factor GhMYB3 in regulating plant trichome development[J/OL]. Plant Biology, 2021, 23(6): 1118-1127[2024-03-08]. https://doi.org/10.1111/PLB.13299.
[37] Hu Haiyan, He Xin, Tu Lili, et al. GhJAZ2 negatively regulates cotton fiber initiation by interacting with the R2R3-MYB transcription factor GhMYB25-like[J/OL]. The Plant Journal, 2016, 88(6): 921-935[2024-03-08]. https://doi.org/10.1111/tpj.13273.
[38] Thyssen G N, Fang D D, Zeng L H, et al. The immature fiber mutant phenotype of cotton (Gossypium hirsutum) is linked to a 22-bp frame-shift deletion in a mitochondria targeted pentatricopeptide repeat gene[J/OL]. G3: Genes, Genomes, Genetics, 2016, 6(6): 1627-1633[2024-03-08]. https://doi.org/10.1534/
g3.116.027649.
[39] Nazir M F, Jia Y H, Ahmed H, et al. Genomic insight into differentiation and selection sweeps in the improvement of upland cotton[J/OL]. Plants, 2020, 9(6): 711[2024-03-08]. https://doi.org/10.3390/plants9060711.
[40] 侯森. 陸地棉耐旱及產(chǎn)量相關(guān)性狀的全基因組關(guān)聯(lián)分析與優(yōu)異等位變異挖掘[D]. 南京: 南京農(nóng)業(yè)大學(xué), 2021.
Hou Sen. Genome-wide association analysis and superior allelic variation mining for drought tolerance and yield-related traits in land cotton[D]. Nanjing: Nanjing Agricultural University, 2021.
[41] Jiang Yifei, Liu Xuhui, Zhou Mingao, et al. Genome-wide identification of the AGC protein kinase gene family related to photosynthesis in rice (Oryza sativa)[J/OL]. International Journal of Molecular Sciences, 2022, 23(20): 12557-12557[2024-03-08]. https://doi.org/10.3390/IJMS232012557.
[42] Zhang Yuying, Yao Wangjinsong, Wang Fang, et al. AGC protein kinase AGC1-4 mediates seed size in Arabidopsis[J/OL]. Plant Cell Reports, 2020, 39(6): 1-13[2024-03-08]. https://doi.org/10.1007/s00299-020-02533-z.
(責(zé)任編輯:王國鑫 責(zé)任校對:王小璐)