宗釗輝,陳幀祿,賀廣生,王 軍,曾 濤,陳澤鵬,趙偉才*
(1.廣東省煙草科學研究所,廣東韶關(guān)512000;2.廣東煙草韶關(guān)市有限公司,廣東韶關(guān) 512000;3.中國煙草總公司廣東省公司,廣東廣州 510000)
作物在種植過程中,生長發(fā)育受生態(tài)環(huán)境、種植水平與品種等因素影響,其中品種對作物產(chǎn)量與質(zhì)量尤為重要[1-2]。優(yōu)良品種(系)的研究價值不僅在于提質(zhì)、增產(chǎn)與高抗,更是作為重要種質(zhì)資源與品種選育的重要材料,研究其攜帶的優(yōu)良基因以及與其他品種的基因差異,包括優(yōu)良基因在染色體的位點、蛋白質(zhì)組學功能與SNP分析[3-4]。
煙草是我國重要的經(jīng)濟作物,是煙草行業(yè)可持續(xù)發(fā)展的重要保障,優(yōu)良烤煙品種是生產(chǎn)優(yōu)質(zhì)煙葉的前提。煙草基因組計劃重大專項啟動以來,我國煙草分子育種技術(shù)取得了快速發(fā)展,在煙草育種分子標記輔助選擇、種質(zhì)資源遺傳多樣性分析、群體遺傳結(jié)構(gòu)分析、遺傳圖譜構(gòu)建、標記-性狀關(guān)聯(lián)分析和基因芯片等領(lǐng)域廣泛應(yīng)用[5-8]。明確育種材料的遺傳背景及其遺傳關(guān)系,能減少育種材料選擇與親本選配的盲目性,提高育種的選育效率,對于常規(guī)育種具有重大的意義[9-11]。遺傳背景分析包括遺傳多樣性、群體結(jié)構(gòu)等,對于煙草種質(zhì)資源的遺傳多樣性與群體結(jié)構(gòu)研究已有多篇報道,蔣勛等[12]通過對春雷一號等30分高煙堿烤煙種質(zhì)資源進行再鑒定,篩選出春雷一號、畢金一號、8100、I-35、廣東黃(1)、遼煙十四號和 NC729共7 個低糖、高煙堿煙草品種;向小華等[13]利用92分雪茄煙種質(zhì)資源進行遺傳分析,將雪茄煙種質(zhì)分為4類,構(gòu)建了92份雪茄煙種質(zhì)資源DNA 指紋圖譜代碼;陳芳等[14]利用SSR標記把80份種質(zhì)資源分為兩大類群,構(gòu)建了不同煙草種質(zhì)資源的數(shù)字指紋圖譜;方敦煌等[15]利用SSR標記把60份香料煙種質(zhì)資源分為3個亞群;劉國祥等[16]利用SSR標記將33份曬煙種質(zhì)資源分為2個亞群。以上研究都是基于第二代分子標記技術(shù)進行的煙草種質(zhì)遺傳資源分析,但我國的煙草品種遺傳狹窄,開發(fā)出的SSR 標記多態(tài)性水平低,導致SSR 標記在煙草中的研究和應(yīng)用存在一定局限性。
全基因組重測序(whole genome resequencing,WGR)是通過對已知基因組序列物種不同個體的基因組進行測序,對不同種質(zhì)資源進行差異性分析的高通量測序技術(shù),前人利用從測序技術(shù)對馬鈴薯[17]、金針菇[18]、大麥[19]、水稻[20]等作物的種質(zhì)遺傳多樣性進行分析。鑒于此,筆者基于重測序技術(shù)對韶關(guān)5個烤煙品種(系)進行全基因組重測序,分析其遺傳多樣性及群體結(jié)構(gòu),為烤煙親本選配、優(yōu)良育種材料利用提供理論依據(jù)。
1.1 供試材料供試的5個品種(系)來自廣東省煙草南雄科學研究所,詳細信息見表1。
表1 不同烤煙品種信息
1.2 樣品取樣與SNP標記檢測試驗材料種植于廣東省煙草南雄科學研究所內(nèi)的原種圃內(nèi),打頂后選取長勢良好、無病害發(fā)生的煙株腋芽。樣品送至華大農(nóng)業(yè)研究院進行高通量測序,根據(jù)識別標簽序列得到每個個體的測序reads,先使用Trimmomatic(0.38)對測序原始數(shù)據(jù)進行過濾處理,主要是去除接頭污染和低質(zhì)量reads,得到高質(zhì)量的cleandata數(shù)據(jù)用于后續(xù)的比對分析。
以Nitab-v4.5_genome_Chr_Edwards2017.fasta.gz為參考基序列,使用短序列比對軟件BWA(Version:0.7.16a)的 “mem”算法將 clean reads 比對到參考基因組上(比對參數(shù)為-t 2 -k 32 -M -R),使用samtools(v1.7)將sam格式的比對結(jié)果轉(zhuǎn)換為bam格式,再用gcta(v 4.1.1.0)軟件的SortSam工具對比對文件進行排序得到的sort.bam文件,使用MarkDuplicates工具標記重復,利用HaplotypeCaller模塊3.2的比對結(jié)果進行變異檢測,僅選擇mapQ值大于20且為properly paired比對的reads用于后續(xù)的變異檢測分析(過濾參數(shù)為-ERC GVCF --minimum-mapping-quality 20)。
1.3 群體結(jié)構(gòu)分析以系統(tǒng)進化樹、主成分分析和Structure分析,研究樣本間的親緣關(guān)系和進化關(guān)系。
1.3.1系統(tǒng)發(fā)育樹。采用IqTree軟件構(gòu)建系統(tǒng)發(fā)育樹,使用GTR+CAT模型進行最大似然親緣關(guān)系分析(https://itol.embl.de/)。
1.3.2主成分分析。PCA 僅針對個體數(shù)n=XX 的常染色體數(shù)據(jù),忽略高于2個等位基因位點以及錯配數(shù)據(jù),其分析方法如下在個體i,k位置的SNP用dik表示,若個體i與參考等位基因是純合,則dik=0;若是雜合,則dik=1;若個體i與非參考等位基因是純合,則dik=2。利用公式計算獲得標準基因型的n×S的矩陣:
式中:E(dk)是dk的平均值;個體樣本協(xié)方差n×n矩陣通過X=MMT/S計算測出。最后利用功能特征函數(shù)R分解X特征向量。采用GCTA(v1.93)軟件進行PCA 分析,利用過濾好的SNP數(shù)據(jù)構(gòu)建所有樣本間的親緣矩陣;再使用構(gòu)建好的親緣矩陣計算前3個特征值和特征向量;最后,使用Python腳本進行圖形展示。
1.3.3群體間遺傳系數(shù)(Fst)分析。Fst指數(shù)由F統(tǒng)計量演變而來,反應(yīng)群體等位基因雜合性水平,用于衡量種群分化程度。計算公式:
式中:πBetween代表群體間的兩兩個體差異的均值;πWithin代表群體內(nèi)兩兩個體差異的均值。
使用vcftools軟件進行群體Fst分析,參數(shù)為(--fst-window-size 500000-fst-window-step 50000)。
2.1 不同烤煙品種(系)重測序質(zhì)量評估樣本重測序數(shù)據(jù)詳細結(jié)果見表2。樣本測序的堿基序列在5.060×109~5.880×109;每個樣本重測序數(shù)據(jù)與參考基因組比對R_q20值在98.70%~98.80%,平均值98.74%;R_q30值在95.70%~96.18%,平均值95.90%;R_gc含量在39.78%~45.24%,平均值42.42%。以Nitab-v4.5_genome_Chr_Edwards2017.fasta.gz為參考基因組序列,共有24條染色體,比對結(jié)果見表3,每個樣本與參考基因組的比對率最高93.64%,最低91.97%,平均92.88%;測序深度最高27.96X,最低23.37X,平均測序深度為25.10X,平均覆蓋度為92.77%。以上數(shù)據(jù)表明,送樣樣本與參考基因組的相似度達到重測序標準,滿足該群體的遺傳多樣性分析與群體結(jié)構(gòu)分析。
表2 樣本測序數(shù)據(jù)過濾情況
表3 BWA比對統(tǒng)計
2.2 不同烤煙品種(系)間SNP檢測、統(tǒng)計結(jié)果采用GATK(v4.1.1.0)軟件對群體進行SNP變異進行檢測,被檢測到的SNP再用GATK進行過濾,具體參數(shù)如下:SNP過濾參數(shù):"QD <5.0 || QUAL<50.0 || MQ <20.0。然后對SNP進行“無缺失”過濾,最終被明確定位在染色體水平上的SNP位點為26728180 SNPs,這些SNP位點將被用于5個烤煙種質(zhì)資源的遺傳多樣性分析。
從各染色體的SNP位點分布情況來看(圖1),不同染色體上均有SNP位點分布,染色體間分布差異較大。17號染色體上SNP位點數(shù)量最多為2 346 665個,占總數(shù)的8.78%,其次是22號、6號、1號染色體,SNP位點數(shù)量分別為1 613 506、1 503 797、1 388 858個,占比分別為6.04%、5.63%、5.20%;9號與21號染色體SNP位點數(shù)量分別為702 575、740 812個,占比分別為2.63%、2.77%,其余染色體位點數(shù)量在8.0×106~1.22×107,占比在3.00%~4.70%。從各染色體SNP位點密度來看(圖2),SNP密度在7.4~11.1個/kb,1號、3號、5號、6號、7號、8號、10號、11號、17號、20號染色體SNP密度較大,在10個/kb以上,其余染色體SNP密度均在10.0個/kb以下。
圖1 染色體SNP位點分布 Fig.1 Chromosome SNP locus distribution
圖2 不同染色體SNP位點密度 Fig.2 Chromosome SNP locus density
2.3 不同烤煙品種(系)SNP雜合度不同烤煙品種(系)SNP雜合度統(tǒng)計結(jié)果見表4。從表4可以看出,不同烤煙品種(系)SNP位點共有26 728 180個,雜合SNP位點在10 527 807~10 764 786個,平均為12 601 261個,雜合度在0.393 9~0.548 2,平均為0.471 5。其中HY1雜合SNP位點最少,為10 527 807個,雜合度為0.393 9,與YY98接近;NX212雜合SNP位點最多,為14 651 863個,雜合度為0.548 2,高于其他4個品種(系);K326與NX002雜合度接近,分別為0.506 4、0.506 1。
表4 不同烤煙品種(系)SNP雜合度統(tǒng)計
2.4 不同烤煙品種(系)多態(tài)性分析群體多態(tài)性指的是同一群體中2種或2種以上變異類型并存的現(xiàn)象。Fst居于0~1,分化指數(shù)越大,表明2個群體之間的差異就越大,Fst值為0表示2個群體是隨機交配的,基因型完全相似。如果Fst值為1則表示2個群體完全隔離。以親緣關(guān)系較近的K326、HY1和YY98同NX002比較(圖5),Fst分析結(jié)果可以看出,NX002和K326、HY1、YY98在24條染色體上分化程度較小(大部分位于區(qū)間-0.1~0.1),但不同染色體其分化程度存在差異,其中Chr1、Chr2、Chr5 、Chr6、Chr7、Chr9、Chr10、Chr11、Chr13、Chr15、Chr16、Chr17、Chr18、Chr19、Chr20、Chr21、Chr23、Chr24染色體分化程度較小,較大的區(qū)間位于Chr3、Chr4、Chr8、Chr12、Chr14和Chr22上,其中Chr3染色體分化程度最大。
2.5 不同烤煙品種(系)聚類分析利用分型數(shù)據(jù)分析獲得了5個不同烤煙品種(系)的遺傳距離,其范圍在0.201~0.275,平均遺傳距離為0.235?;诤诵腟NP 的遺傳距離構(gòu)建系統(tǒng)進化樹(圖3),結(jié)果顯示5個煙草種質(zhì)資源可以分為3組:K326、NX002烤煙品種(系)聚為一組,這與NX002是K326變異系來源有關(guān);NX212單獨聚為一組,HY1與YY98烤煙品種(系)聚為一組。系統(tǒng)進化樹反映了種間親緣關(guān)系遠近,K326與NX00親緣關(guān)系近,HY1與YY98親緣關(guān)系近。
圖3 不同烤煙品種(系)Fst分析 Fig.3 Fst analysis of different flue-cured tobacco varieties(lines)
圖4 不同育種材料系統(tǒng)發(fā)育樹Fig.4 Phylogenetic tree of different breeding materials
2.6 不同烤煙品種(系)主成分分析基于主成分1與主成分2數(shù)據(jù)繪制5個不同烤煙品種(系)的主成分分析(PCA)圖(圖5),根據(jù)不同烤煙品種(系)個體基因組 SNP 差異程度,按照二維圖形中的位置和互相間距離可區(qū)分為3 類,即NX212分為一類,K326與NX002分為一類,HY1與YY98分為一類,與系統(tǒng)發(fā)育樹分類結(jié)果一致。其中K326與NX002品種(系)位置較近,幾乎重疊在一起,親緣關(guān)系最近;HY1與YY98品種位置葉比較臨近,親緣關(guān)系也較近;NX212與其余4個品種(系)相聚較遠,說明NX212與其余品種(系)沒有明顯親緣關(guān)系。
圖5 不同烤煙品種(系)主成分分析(PCA)Fig.5 Principal component analysis of different flue-cured tobacco varieties(lines)
3.1 不同烤煙品種(系)遺傳多樣性分析常規(guī)育種中,用作親本的2個材料應(yīng)具備優(yōu)良綜合性狀互補,遺傳背景差距較大,雜交后代性狀分離明顯,才有可能選育出具備親本優(yōu)良性狀的新品種,因此開展對常用育種材料的遺傳背景分析,對雜交育種中親本材料的選擇具有重要指導意義[21-22]。煙草種質(zhì)資源豐富,到2017 年底我國已保存煙屬種質(zhì)資源5 767份,但作為育種材料利用較多的僅有27 份種質(zhì),同時不斷雜交使新的類型不斷增加,材料血緣更加復雜,通過表型分析難以準確判斷不同親本材料遺傳來源,這給烤煙育種的工作者增加了很多不必要的工作量[23-24]。該研究通過重測序技術(shù)對5個烤煙品種(系)進行遺傳多樣性和群體結(jié)構(gòu)分析,平均測序深度高達25.10 X,R_q30>95%,基因組平均覆蓋度為92.88%,說明測序質(zhì)量過關(guān),重測序可以從分子水平上明確不同材料間的遺傳關(guān)系與群體結(jié)構(gòu)。
該研究測序最終獲得26728180 SNPs,不同染色體上均有SNP位點分布,染色體間分布差異較大,17號染色體上SNP位點數(shù)量最多,SNP密度在7.4~11.1個/kb。SNP雜合度是衡量群體的遺傳多樣性的重要指標,當雜合度大于0.500 0 時,群體具有比較豐富的遺傳多樣性,供試的5個烤煙品種(系)的平均雜合度為0.471 5,表明5個烤煙品種(系)遺傳多樣性較低,但K326、NX002、NX212群體的雜合度大于0.500 0,具備較高的遺傳多樣性。Fst分析認為,NX002和K326、HY1、YY98在24條染色體上分化程度較小(區(qū)間-0.1~0.1),分化程度較大的區(qū)間位于Chr3、Chr4、Chr8、Chr12、Chr14和Chr22上,下一步可以對分化程度較大的染色體片段基因進行分析,結(jié)合不同烤煙品種(系)表型性狀,篩選出與相關(guān)性狀有關(guān)的候選基因。
3.2 不同烤煙品種(系)群體結(jié)構(gòu)分析系統(tǒng)發(fā)育樹是生物信息學中描述不同生物之間相關(guān)關(guān)系的方法,研究通過IqTree軟件構(gòu)建系統(tǒng)發(fā)育樹,分析了5個烤煙品種(系)的遺傳距離。研究發(fā)現(xiàn)5個烤煙品種(系)可以分為3類,其中NX212獨立分類。K326與NX002聚為一類,NX002是南雄煙科所自主選育的品系,其來源于K326大田變異,親緣關(guān)系較近;HY1與YY98聚為一類,HY1母本為G28、父本是K326變異系(拗尾煙),YY98母本為Coker206、父本為K326,這可能是由于2個品系父本均為K326系,HY1母本G28是Oxford-1-181與Corker139雜交至第4代,又與NC95雜交選育而成,與YY98母本Coker206遺傳背景同樣比較接近。PCA分析顯示,分類結(jié)果與系統(tǒng)發(fā)育樹結(jié)果一致,但K326、NX002間遺傳距離較YY98、HY1更近。群體結(jié)構(gòu)分析結(jié)果表明,K326、NX002與YY98、HY1間親緣關(guān)系接近,在親本選擇中應(yīng)避免同時使用NX002、K326或YY98、HY1作為父母本。
該研究依靠基因組重測序技術(shù),對5 個烤煙品種(系)進行遺傳多樣性和群體結(jié)構(gòu)分析,發(fā)現(xiàn)現(xiàn)有的5個烤煙品種(系)遺傳多樣性較低,其中K326與NX002,以及粵煙98與粵煙1號間親緣關(guān)系接近,同時還觀察到分化程度較大的區(qū)間位于Chr3、Chr4、Chr8、Chr12、Chr14和Chr22上,后續(xù)工作擬在現(xiàn)有研究基礎(chǔ)上,通過繪制全基因組選擇信號分析圖,設(shè)置不同閾值線,并進行GO 富集基因功能注釋,篩選烤煙產(chǎn)質(zhì)量與抗性相關(guān)基因。