劉有春,劉威生,王興東,孫斌,劉修麗,楊艷敏,魏鑫,楊玉春,張舵,劉成,李天忠
基于簡(jiǎn)化基因組測(cè)序的越橘雜交后代鑒定
1遼寧省果樹(shù)科學(xué)研究所,遼寧營(yíng)口 115009;2中國(guó)農(nóng)業(yè)大學(xué)園藝學(xué)院,北京 100193
【】針對(duì)遺傳群體測(cè)序數(shù)據(jù)開(kāi)發(fā)一種雜交后代鑒定方法,以獲得繼承雙親基因的真雜種后代,為果樹(shù)雜交育種、遺傳分析及遺傳圖譜構(gòu)建奠定基礎(chǔ)。本研究以越橘正反交群體共計(jì)318個(gè)F1子代和2個(gè)親本為試材,利用SLAF技術(shù)進(jìn)行簡(jiǎn)化基因組測(cè)序并比對(duì)越橘參考基因組獲得群體SNP數(shù)據(jù),通過(guò)稀有等位變異分析和基于PCA、K-means聚類(lèi)的遺傳關(guān)系分析鑒定供試群體中的非雜交后代,結(jié)果利用雙親純合顯性SNP標(biāo)記進(jìn)行驗(yàn)證。SLAF簡(jiǎn)化測(cè)序共獲得65.89 Gb數(shù)據(jù),GC含量39.72%,平均Q30為95.04%,親本和子代平均測(cè)序深度為12.86×和5.41×。參照四倍體越橘基因組信息,正、反交組合分別獲得73 543個(gè)和114 851個(gè)SNP,利用次等位基因頻率(MAF)>0.05的SNP數(shù)據(jù)集分別對(duì)正、反交群體進(jìn)行PCA和K-means聚類(lèi)分析,鑒定出4個(gè)離群個(gè)體;利用MAF<0.05的SNP數(shù)據(jù)集對(duì)正、反交群體進(jìn)行個(gè)體稀有等位變異和個(gè)體特有的稀有等位變異數(shù)統(tǒng)計(jì),共鑒定出10個(gè)離群個(gè)體(包含了MAF>0.05的SNP數(shù)據(jù)集鑒定的4個(gè)離群個(gè)體)。通過(guò)雙親純合顯性SNP標(biāo)記進(jìn)行驗(yàn)證,正、反交群體雙親純合SNP位點(diǎn)分別占群體總SNP的34.56%和38.95%,除H194-123個(gè)體外,其余非雜交后代在驗(yàn)證結(jié)果中同為離群個(gè)體,即準(zhǔn)確通過(guò)驗(yàn)證。對(duì)于有參考基因組物種的雜交群體,利用基于測(cè)序的SNP次等位基因頻率(MAF)數(shù)據(jù)集,采用遺傳關(guān)系和個(gè)體特有的稀有等位變異分析方法,從不同角度反映群體子代間的遺傳關(guān)系以鑒別離群個(gè)體,是一種鑒定群體假雜交后代的有效方法。
越橘;正反交群體;SLAF測(cè)序; SNP;稀有等位變異數(shù);雜交后代
【研究意義】在遺傳育種研究中,獲得繼承雙親基因的真雜種后代是進(jìn)行品種改良、遺傳分析及遺傳圖譜構(gòu)建等研究的前提和基礎(chǔ)[1],為了使雜交后代如實(shí)反映雙親和群體的遺傳特征,初期對(duì)雜交后代的真實(shí)性鑒定十分必要,以避免或降低非雜交后代對(duì)群體的影響。在育種實(shí)踐中,出現(xiàn)非雜交后代的可能性有如下幾種:1)異花授粉中非選定父本花粉混入,導(dǎo)致此類(lèi)后代缺少選定父本的遺傳信息而混入其他材料的遺傳信息;2)母本植株具有一定的自花受精習(xí)性,雜交過(guò)程中人工去雄不及時(shí)、不徹底可能會(huì)產(chǎn)生自交后代;3)雜交種子收集及幼苗管理過(guò)程中誤引入非雙親雜交后代。由上述原因?qū)е碌姆请s交后代混雜在群體中,在植物形態(tài)特征上不易辨別。而基于DNA的變異分析不受外界環(huán)境影響,能真實(shí)反映分離群體分子水平上的遺傳信息,可靠性高。因此,群體在基因組水平上反映的遺傳差異可借鑒于非雜交個(gè)體鑒別研究中,但篩選鑒別策略至關(guān)重要?!厩叭搜芯窟M(jìn)展】對(duì)于植物,早期主要通過(guò)植株形態(tài)學(xué)、細(xì)胞學(xué)以及同工酶進(jìn)行雜交后代的鑒定,但均存在一定不足之處,如形態(tài)學(xué)鑒定周期長(zhǎng)、易受環(huán)境影響、準(zhǔn)確率低,細(xì)胞學(xué)鑒定程序繁瑣、分辨率低[2],同工酶則受酶種類(lèi)限制不能反映全部結(jié)構(gòu)基因的信息,存在基因位點(diǎn)少、多態(tài)性水平低等[3]問(wèn)題。分子標(biāo)記技術(shù)的發(fā)展使得雜種鑒定的準(zhǔn)確性大幅提高,AFLP[4]、RAPD[5-6]、SRAP[7]、SSR[1,8-9]等分子標(biāo)記已應(yīng)用于果樹(shù)非雜交后代鑒定工作中,但這一類(lèi)分子標(biāo)記已均存在自身通量小、耗時(shí)耗力、成本高等局限性。此類(lèi)技術(shù)主要以親本基因型作為判斷依據(jù),即通過(guò)親本DNA的擴(kuò)增產(chǎn)物多態(tài)性(片段長(zhǎng)度或堿基差異)篩選出具有分辨能力的分子標(biāo)記,并掃描雜交群體的基因型,經(jīng)比對(duì)統(tǒng)計(jì)后代異于親本的等位基因類(lèi)型開(kāi)展非雜交后代差異分析。以SNP為代表的第三代分子標(biāo)記技術(shù),相對(duì)于第一、二代分子標(biāo)記,具有多態(tài)性高、能廣泛分布于全基因組的特點(diǎn),可鑒別更豐富的遺傳信息,韓燕等[10]建立了利用親本多態(tài)SNP位點(diǎn)設(shè)計(jì)引物,通過(guò)凝膠電泳鑒定花生F1代的方法。ZHANG等[11]、NIU等[12]通過(guò)檢測(cè)樣品中出現(xiàn)的非親本類(lèi)型異常SLAF標(biāo)簽鑒別無(wú)參考基因組物種的非雜交后代。然而,上述基于PCR擴(kuò)增的DNA序列長(zhǎng)度差異分析存在以下幾個(gè)可能的誤判情況:1)PCR擴(kuò)增過(guò)程可能存在一定的非特異擴(kuò)增,造成基因型的辨識(shí)困難(特別通過(guò)電泳凝膠成像);2)片段長(zhǎng)短一致的擴(kuò)增產(chǎn)物可能序列不同,所含遺傳信息的差異難以檢測(cè),導(dǎo)致非雜交后代通過(guò)檢測(cè)混入群體;3)由于序列的缺失、插入和重排等突變事件可以同時(shí)發(fā)生在親本與其后代(包括非雜交后代),使鑒定試驗(yàn)存在誤差。對(duì)于SNP標(biāo)記可存在的誤判則多來(lái)自一種堿基或核苷酸被另一種替換,或者因堿基插入或缺失等點(diǎn)突變事件,造成基因型變化。上述情況在試驗(yàn)操作中存在偶然性、隨機(jī)性,單一標(biāo)記位點(diǎn)造成的誤差權(quán)重可隨分子標(biāo)記數(shù)量的增加而相應(yīng)降低。此類(lèi)情況若發(fā)生在分子標(biāo)記數(shù)量較少的試驗(yàn)中,會(huì)在一定程度上干擾最終判斷。而基于異常SLAF標(biāo)簽進(jìn)行非雜交后代篩選的方法[11-12],其SLAF標(biāo)簽的產(chǎn)生基于酶切產(chǎn)生SLAF片段的相似性,無(wú)基因組信息參照,且相似性聚類(lèi)和異常SLAF標(biāo)簽的判定很大程度上受閾值影響?!颈狙芯壳腥朦c(diǎn)】隨著生物技術(shù)的快速發(fā)展,NGS(next generation sequencing)測(cè)序成本不斷降低,三代測(cè)序和Hi-C技術(shù)也廣泛應(yīng)用于遺傳群體測(cè)序,如何從測(cè)序產(chǎn)生的SNP大數(shù)據(jù)中準(zhǔn)確鑒別非雜交后代十分重要,相關(guān)方法鮮見(jiàn)報(bào)道。由于非雜交后代所含遺傳信息不源于或部分源于親本(如自交后代),會(huì)呈現(xiàn)出遺傳關(guān)系較遠(yuǎn)和等位基因分離異常等現(xiàn)象。因此,本研究以多年生果樹(shù)越橘()的正、反交F1代群體為研究對(duì)象,通過(guò)高通量簡(jiǎn)化測(cè)序獲取大量樣本(親本和子代)基因組序列和遺傳變異信息,基于子代特有稀有等位變異為核心,重點(diǎn)揭示子代與群體間(不以親本為標(biāo)準(zhǔn))的遺傳關(guān)系以鑒定非雜交后代。【擬解決的關(guān)鍵問(wèn)題】探索適合于高通量測(cè)序數(shù)據(jù)的快速、準(zhǔn)確的非雜交后代鑒別方法,排除假陽(yáng)性樣本干擾,為遺傳圖譜構(gòu)建、性狀定位、遺傳育種及高通量分子標(biāo)記開(kāi)發(fā)等相關(guān)研究奠定基礎(chǔ)。
測(cè)序試驗(yàn)于2019年在北京百邁客生物科技有限公司進(jìn)行,數(shù)據(jù)統(tǒng)計(jì)及驗(yàn)證分析于2020年在遼寧省果樹(shù)科學(xué)研究所完成。
供試群體取自遼寧省果樹(shù)科學(xué)研究所藍(lán)莓雜交圃,為南高叢越橘品種‘N6’(SHB)和北高叢越橘品種‘Berkeley’(NHB)的雜交F1后代,其中正交組合‘Berkeley’בN6’群體133株,群體代號(hào)FM_133;反交組合‘N6’× ‘Berkeley’群體185株,群體代號(hào)MF_185。試材采集群體及親本幼嫩葉片液氮速凍后存于-80℃冰箱備用,CTAB法[13]提取基因組DNA,用Nanodrop 2000C(Thermo Fisher)和Qubit 2.0熒光計(jì)(Thermo Fisher)進(jìn)行DNA的質(zhì)量和濃度檢測(cè),以確保所提基因組DNA質(zhì)量達(dá)到測(cè)序文庫(kù)構(gòu)建要求:OD260與OD280的比值分布在1.8—2.0,DNA濃度達(dá)到30 ng?μL-1。
1.2.1 DNA酶切預(yù)測(cè)與測(cè)序文庫(kù)構(gòu)建 為了保證酶切片段在基因組上分布均勻,同時(shí)避開(kāi)重復(fù)序列區(qū)域,利用越橘近緣物種蔓越莓參考基因組[14](https:// www.ncbi.nlm.nih.Gov /bioproject/PRJNA245813)隨機(jī)選取2個(gè)親本和10個(gè)子代,以I+I(xiàn)II、III+166II和166II三種酶切方案進(jìn)行電子酶切預(yù)測(cè)試驗(yàn),根據(jù)開(kāi)發(fā)的標(biāo)簽數(shù)等確定酶切方案。供試親本及群體DNA經(jīng)ddH2O稀釋到100 ng?μL-1濃度后,利用確定的酶切組合(HaeIII+Hpy166II)雙酶切并過(guò)夜,酶切產(chǎn)物在37℃下用Klenow 片段(3′→5′)(NEB)和dATP進(jìn)行末端加A,之后T4連接酶連接區(qū)分樣品的標(biāo)簽(barcode)和測(cè)序接頭序列。常規(guī)PCR進(jìn)行片段擴(kuò)增,上游引物為5′-AATGATACGGC GACCACCGA-3′,下游引物為5′-CAAGCAGAAGA CGGCATACG-3′(Life Technologies,Gaithersburg,MD,United States),擴(kuò)增循環(huán)數(shù)為8。最后利用試劑盒QIAquick gel extraction kit(Qiagen,Hilden,Germany)進(jìn)行切膠純化,切膠范圍為314—444 bp。切膠后將文庫(kù)混合,加入一條流動(dòng)槽(flowcell)中,cBot進(jìn)行cluster生成,進(jìn)行Illumina Hiseq 2500(Illumina,Inc.,San Diego,CA,United States)高通量測(cè)序。為了監(jiān)控建庫(kù)有效性,本試驗(yàn)以模式物種水稻()(http://rice. plantbiology.msu.edu/)為對(duì)照,同步進(jìn)行平行試驗(yàn)。
1.2.2 基于越橘參考基因組的SNP標(biāo)記獲取 過(guò)濾后的樣本序列(clean reads)經(jīng)BWA-0.7.10軟件比對(duì)到四倍體越橘參考基因組[15](http://gigadb.org/dataset/ 100537),用Picard 1.118軟件http://picard.sourceforge. net)標(biāo)記出來(lái)。用GATK 3.8軟件[16]對(duì)堿基測(cè)序質(zhì)量重新校正、序列重新比對(duì),根據(jù)標(biāo)準(zhǔn)過(guò)濾參數(shù)分別對(duì)越橘親本和正、反交群體(FM133和MF185)進(jìn)行基因分型,獲得SNP基因型數(shù)據(jù)。所有分析步驟按照GATK最優(yōu)的執(zhí)行方法進(jìn)行操作(https://www. broadinstitute.org/partnerships/education/broade/best- practices-variant-calling-gatk-1)。設(shè)置SNP次等位基因頻率(Minor allele frequency)在0.05處為閾值(低于5%則視為稀有位點(diǎn)),將SNP基因型數(shù)據(jù)劃分到MAF>0.05 和MAF<0.05兩個(gè)數(shù)據(jù)集,整理保留各自多態(tài)性位點(diǎn)進(jìn)行后續(xù)相關(guān)分析。
1.3.1 供試群體遺傳關(guān)系分析 利用GenoDive version 3.03[17]對(duì)SNP基因型數(shù)據(jù)(MAF>0.05)進(jìn)行處理和分析。為避免缺失數(shù)據(jù)導(dǎo)致的偏差(bias)影響,數(shù)據(jù)經(jīng)Filling-in Missing Data功能隨機(jī)選取已有等位基因進(jìn)行填充(Imputation)。采用Amova方法[18-19]對(duì)供試群體樣品的SNP次等位基因進(jìn)行K- Means聚類(lèi)分析,設(shè)置模擬退火(Simulated Annealing,SA)算法[20]為50 000步,重復(fù)20次。主成分分析(principal component analysis,PCA)采用計(jì)算協(xié)方差方式對(duì)供試越橘樣品進(jìn)行統(tǒng)計(jì),并整合K-Means聚類(lèi)結(jié)果通過(guò)“scatterplot3d”[21]R分析繪制坐標(biāo)圖。
1.3.2 供試群體稀有等位變異分析 統(tǒng)計(jì)符合MAF<0.05條件的SNP基因型數(shù)據(jù)中雜交后代個(gè)體稀有等位變異總數(shù)(Total rare-alleles)和個(gè)體特有的稀有等位變異數(shù)(Private rare-alleles)。利用“ggplot2”R分析包[22]的箱圖(geom_boxplot)功能分析計(jì)數(shù)的分布與異常個(gè)體標(biāo)注。
經(jīng)上述分析獲得的非雜交后代通過(guò)親本特定的基因型進(jìn)行驗(yàn)證分析。為避免受稀有等位變異干擾,筆者應(yīng)用MAF>0.05的SNP數(shù)據(jù)篩選越橘正、反交群體中親本為純合顯性的基因型數(shù)據(jù),并統(tǒng)計(jì)后代群體中出現(xiàn)異于親本基因型的SNP位點(diǎn)比率,利用箱圖統(tǒng)計(jì)群體中后代異于母本(或父本)基因型的SNP位點(diǎn)比率,篩選各自的離群個(gè)體,與已獲得的非雜交后代進(jìn)行比較。
測(cè)序共獲得 330.06 Mb reads(包含65.89 Gb)數(shù)據(jù),平均Q30為95.04%,平均GC含量為39.72%,Q30和GC含量在供試材料間僅小幅波動(dòng)(表1),說(shuō)明GC分布正常,測(cè)序質(zhì)量好,適合分析。
表1 越橘樣品測(cè)序數(shù)據(jù)統(tǒng)計(jì)表
基于2019年發(fā)表的越橘參考基因組,對(duì)供試318個(gè)F1后代和2個(gè)親本樣本進(jìn)行序列分值校正、局部重比對(duì)、SNP和INdel的發(fā)掘與基因分型。在MAF>0.05水平下,在MF_185群體和FM_133群體分別鑒定到70 243個(gè)和111 527個(gè)SNP,在MAF<0.05水平下分別鑒定到3 200個(gè)和3 324個(gè)SNP(表2)。
表2 不同越橘雜交群體中SNP標(biāo)記數(shù)量統(tǒng)計(jì)
利用MAF>0.05的SNP數(shù)據(jù)集,基于協(xié)方差矩陣的主成分分析表明,MF_185群體的親本‘Berkeley’處于x軸右側(cè),距離親本‘N6’與雜交群體均較遠(yuǎn),多數(shù)雜交后代集中在x軸左側(cè)(圖1-A),其后代‘H194-180’偏離程度較遠(yuǎn)。FM_133群體中除H194-295和H194-297后代之外,均緊湊地聚在x軸左側(cè)(圖1-C)。利用K-means聚類(lèi)對(duì)離群點(diǎn)敏感的特性,比較k=2和k=3時(shí)的聚類(lèi)結(jié)果篩選雜交群體中的離群點(diǎn)。對(duì)于MF_185群體,k=2時(shí),親本分別處于不同聚類(lèi)群(圖1-A);k=3時(shí),后代H194-169、H194-126和H194-180不同于親本與其他后代,歸為單獨(dú)的聚類(lèi)群(圖1-B,cluster3,綠色),為離群點(diǎn),視為非雜交后代。而對(duì)于FM_133群體,k=2時(shí),親本處在同一聚類(lèi)群(圖1-C);k=3時(shí),后代H194-297不同于親本與其他后代,歸為單獨(dú)的聚類(lèi)群(圖1-D,cluster3,綠色)為離群點(diǎn),視為非雜交后代。
雙等位SNP數(shù)據(jù)(biallelic,MAF<0.05)可在正交FM_133群體和反交MF_185群體中分別產(chǎn)生6 648個(gè)和6 400個(gè)等位變異。試驗(yàn)分別統(tǒng)計(jì)個(gè)體稀有等位變異總數(shù)和個(gè)體特有的稀有等位變異數(shù)。個(gè)體在群體中產(chǎn)生的全部稀有等位變異數(shù)如圖2-A所示,F(xiàn)M_133群體的個(gè)體稀有等位變異總數(shù)普遍高于FM_185,范圍在2 594—4 802個(gè),其中H194-300、H194-298和H194-231個(gè)體稀有等位變異數(shù)最多,分別為4 802個(gè)、4 578個(gè)和4 556個(gè),且偏離群體,F(xiàn)M185群體中個(gè)體稀有等位變異數(shù)范圍在2 098—3 606個(gè),無(wú)離群個(gè)體。個(gè)體在群體中產(chǎn)生的稀有等位變異中異于其他群體成員及親本的特有變異數(shù)如圖2-B所示,F(xiàn)M_133群體中出現(xiàn)1個(gè)離群個(gè)體,即H194-297,特有的稀有等位變異數(shù)379個(gè),與群體明顯偏離;MF_185群體中離群個(gè)體共計(jì)9個(gè),分別是H194-175、H194-169、H194-179、H194-126、H194-180,H194-107、H194-123、H194-170、H194-174,特有的稀有等位變異數(shù)為193—271個(gè),視為非雜交后代。
A—B:MF185群體;C—D:FM133群體。聚群(cluster)1、2和3分別代表K-means在k=2和k=3的聚類(lèi)結(jié)果
篩選雙親基因型為純合顯性的SNP位點(diǎn)進(jìn)行驗(yàn)證。統(tǒng)計(jì)結(jié)果顯示,F(xiàn)M_133群體包含17 646個(gè)母本純合SNP位點(diǎn)和20 906個(gè)父本純合SNP位點(diǎn),共占群體總SNP數(shù)據(jù)的34.56%;MF_185群體包含12 351個(gè)母本純合SNP位點(diǎn)和15 012個(gè)父本純合SNP位點(diǎn),共占群體總SNP數(shù)據(jù)的38.95%?;谠揝NP數(shù)據(jù)集,利用箱圖統(tǒng)計(jì)群體后代擁有異于母本(或父本)基因型的SNP位點(diǎn)比率,篩選各自的離群個(gè)體(圖3)?;谟H本純合SNP位點(diǎn)中的異常SNP位點(diǎn),正交FM_133群體中H194-297為離群個(gè)體,與圖2-B中FM_133群體離群點(diǎn)一致;MF_185群體中,H194-169,H194-180、H194-175、H194-126、H194-107、H194-174、H194-173、H194-170、H194-160及H194-179為離群個(gè)體,與圖2-B中MF_185鑒定結(jié)果相比,除H194-123外,其余非雜交后代樣品與驗(yàn)證結(jié)果離群個(gè)體一致,即利用雙親基因型為純合顯性的SNP位點(diǎn)中異常SNP位點(diǎn)準(zhǔn)確驗(yàn)證了基于等位基因頻率鑒定的非雜交后代。
圖3 基于親本基因型為純合顯性SNP的非雜交后代驗(yàn)證
有關(guān)植物全基因組水平的遺傳多樣性、群體結(jié)構(gòu)和親緣關(guān)系等分析中[23-25],需要對(duì)次要等位基因頻率進(jìn)行降噪處理(MAF>0.05),減少低頻率等位變異對(duì)數(shù)據(jù)整體造成的偏差影響。本研究中除噪后的SNP數(shù)據(jù)保留大量多態(tài)性位點(diǎn),可以較為可靠地反映群體的遺傳差異,并較為保守地用來(lái)篩選離群個(gè)體。采取PCA來(lái)推測(cè)離群點(diǎn)(outlier)是較為普遍和有效的辦法,廣泛地應(yīng)用在各種數(shù)據(jù)集和樣品集的過(guò)濾環(huán)節(jié)[26-28],是進(jìn)一步數(shù)據(jù)分析的重要前提。本研究經(jīng)PCA解析兩個(gè)越橘正、反交群體的遺傳差異結(jié)果表明,親本‘N6’和‘Berkeley’無(wú)論在越橘的正交群體還是反交群體中的遺傳差異均較明顯,而它們的后代個(gè)體多集中分布于兩個(gè)親本之間,遺傳差異有限。該結(jié)果有利于離群個(gè)體的篩選,可以較容易地通過(guò)觀察PCA坐標(biāo)中個(gè)體距離親本和絕大多數(shù)后代的聚集位置遠(yuǎn)近來(lái)推測(cè)。然而,基于單一個(gè)體間協(xié)方差矩陣的PCA分析,不足以判斷離群個(gè)體是否為非雜交后代。為此,筆者增加一種迭代求解的均值聚類(lèi)辦法,通過(guò)解析個(gè)體間在遺傳水平上的相似性并歸入差異群組,結(jié)合PCA結(jié)果進(jìn)一步對(duì)離群個(gè)體加以討論。K-means聚類(lèi)對(duì)離群點(diǎn)較為敏感[29],對(duì)于MAF>0.05的SNP數(shù)據(jù)集,在PCA和K-means聚類(lèi)分析中,當(dāng)k=2轉(zhuǎn)換為k=3時(shí),群體MF185中的‘H194-169’‘H194-126’和‘H194-180’及群體FM133中的‘H194-297’單獨(dú)成為聚類(lèi)群(綠色)(圖1),均表現(xiàn)出“與眾不同”,因此視為非雜交后代。
此外,自交個(gè)體因只攜帶母本遺傳信息,不屬于雙親的雜交后代,但在聚類(lèi)時(shí),遺傳上更傾向母本,不易形成明顯的離群點(diǎn)而被誤為雜交后代,分析中須特別注意。本試驗(yàn)中越橘屬于異花結(jié)實(shí)植物[30],也有報(bào)道發(fā)現(xiàn)越橘存在一定的自花結(jié)實(shí)現(xiàn)象[31],筆者對(duì)供試正、反交組合的親本‘N6’和‘Berkeley’進(jìn)行了自花結(jié)實(shí)性驗(yàn)證,發(fā)現(xiàn)均可自花結(jié)實(shí)并產(chǎn)生自交種子和自交后代。本研究正、反雜交群體的PCA和K-means聚類(lèi)中并未發(fā)現(xiàn)與母本遺傳十分相近的個(gè)體,說(shuō)明供試群體中不存在由于自交產(chǎn)生的假雜種。
本研究將低頻率的等位基因(MAF<0.05)視為稀有等位變異。稀有等位變異的形成存在幾個(gè)可能:1)親本的等位基因型在雜交后代的分離,出現(xiàn)嚴(yán)重偏分離情況(頻率小于0.05);2)由于堿基點(diǎn)突變?cè)斐傻牡皖l率異?;蛐统霈F(xiàn);3)非雜交后代自身攜帶的未知(新)等位基因型混入。前兩種可能中,遺傳偏分離情況主要發(fā)生在整個(gè)群體,由雙親間遺傳分化程度、基因相互作用和環(huán)境因素等影響[32];而植物組織細(xì)胞內(nèi)的DNA堿基突變既可發(fā)生在世代繁衍和一般生長(zhǎng)周期階段,具有隨機(jī)性和低頻性;第三種情況的發(fā)生通常會(huì)包含第二種情況,因稀有等位變異的基因型來(lái)自外部,所以非雜交后代會(huì)攜帶大量區(qū)別于親本和其他后代的特有稀有等位變異。本研究在群體FM_133和MF_185中分別檢測(cè)到1個(gè)和9個(gè)個(gè)體,其特有的稀有等位變異多且偏離群體(箱體之外)(圖2-B),視為非雜交后代。
綜上所述,PCA和K-means聚類(lèi)分析對(duì)MAF>0.05數(shù)據(jù)集鑒定的4個(gè)非雜交后代全部重現(xiàn)在MAF<0.05數(shù)據(jù)集中個(gè)體特有稀有等位變異的鑒定結(jié)果中,說(shuō)明以上兩種鑒定方法均可有效用于越橘群體非雜交后代篩選,后者鑒定條件更嚴(yán)格。
本研究將簡(jiǎn)化測(cè)序基于四倍體越橘參考基因組比對(duì),獲得基因組水平的SNP基因型數(shù)據(jù),引入稀有等位變異作為判斷標(biāo)準(zhǔn),利用PCA和K-means聚類(lèi)等不同方法著重解析群體子代遺傳差異和親緣關(guān)系,通過(guò)箱圖反映離散個(gè)體從而鑒定非雜交后代。鑒定結(jié)果在利用親本純合顯性SNP標(biāo)記(基于群體與親本遺傳差異)進(jìn)行驗(yàn)證時(shí),絕大多數(shù)基于稀有等位變異的非雜交后代也被鑒定為離群個(gè)體,即準(zhǔn)確通過(guò)驗(yàn)證,充分證明了本試驗(yàn)采用的基于基因組SNP基因型的個(gè)體稀有等位變異分析策略適用于越橘雜交群體的非雜交后代篩選和鑒定,這與前人[4-10]完全依賴(lài)于親本基因型的鑒定策略不同。此外,由于稀有等位變異的非雜交后代鑒定策略是基于群體間的遺傳差異進(jìn)行分析,所以該策略可直接應(yīng)用于親本未知的群體進(jìn)行非雜交后代鑒定,排除非該群體的后代。借助于參考基因組可靠、準(zhǔn)確的基因分型,根據(jù)本研究所采用的策略和方法可簡(jiǎn)單、有效地對(duì)雜交群體的大規(guī)模測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控處理,排除假陽(yáng)性干擾。
本研究基于四倍體越橘參考基因組,利用個(gè)體特有的稀有等位變異分析和遺傳關(guān)系分析的策略從不同角度反映數(shù)據(jù)特征,共鑒定出10個(gè)離群個(gè)體,確定為非雜交后代,在未來(lái)越橘植物的遺傳圖譜構(gòu)建、性狀定位和遺傳育種等研究中應(yīng)給予剔除或謹(jǐn)慎使用。通過(guò)該策略鑒定的非雜交后代絕大多數(shù)與基于雙親純合顯性SNP位點(diǎn)的驗(yàn)證結(jié)果一致,因此,對(duì)于有參考基因組物種的雜交群體,利用基于測(cè)序的SNP次等位基因頻率(MAF)數(shù)據(jù)集,采用遺傳關(guān)系和個(gè)體特有的稀有等位變異分析方法,從不同角度反映群體子代間的遺傳關(guān)系以鑒別離群個(gè)體,是鑒定群體真假雜種的一種有效策略。
致謝:感謝北京科技大學(xué)劉冬成研究員和中國(guó)農(nóng)業(yè)大學(xué)許語(yǔ)輝博士對(duì)英文摘要的校正,感謝遼寧省果樹(shù)科學(xué)研究所劉碩博士在數(shù)據(jù)分析中的指導(dǎo)和建議。
[1] 朱駿馳, 郭印山, 劉鎮(zhèn)東, 李坤, 楊曉旭, 石廣麗, 牛早柱, 李成祥, 郭修武. 利用SSR分子標(biāo)記鑒定葡萄F1代雜種. 沈陽(yáng)農(nóng)業(yè)大學(xué)學(xué)報(bào), 2016, 47(2): 148-152.
ZHU J C, GUO Y S, LIU Z D, LI K, YANG X X, SHI G L, NIU Z Z, LI C X, GUO X W. Identification of the F1hybrids of grape using SSR molecular markers. Journal of Shenyang Agricultural University, 2016, 47(2): 148-152. (in Chinese)
[2] 顏廷進(jìn), 譚振新. 農(nóng)作物種子純度鑒定技術(shù)研究進(jìn)展. 種子科技, 2004, 22(3): 153-155.
YAN T J, TAN Z X. Purity vertification research prospect of crops seed. Seed Science & Technology, 2004, 22(3): 153-155. (in Chinese)
[3] 曾明, 楊柏云. 同工酶技術(shù)在柑橘研究中的應(yīng)用. 江西科學(xué), 2006, 24(1): 100-104.
ZENG M, YANG B Y. The application of isoenzyme technology in citrus studies. Jiangxi Science, 2006, 24(1): 100-104. (in Chinese)
[4] 鹿金穎, 毛永民, 申蓮英, 彭士琪, 劉敏. 用AFLP分子標(biāo)記鑒定冬棗自然授粉實(shí)生后代雜種的研究. 園藝學(xué)報(bào), 2005, 32(4): 680-683.
LU J Y, MAO Y M, SHEN L Y, PENG S Q, LIU M. Application of AFLP markers for identification of hybrids from open pollinated Dongzao (Mill) progenies. Acta Horticulturae Sinica, 2005, 32(4): 680-683. (in Chinese)
[5] 馬鴻翔, 陳佩度, 余桂紅, 任麗娟. 東北草莓×鳳梨草莓種間雜種一代的細(xì)胞遺傳學(xué)觀察與RAPD分析. 園藝學(xué)報(bào), 2007, 34(3): 597-604.
MA H X, CHEN P D, YU G H, REN L J. Cytogenetics and RAPD analysis of interspecific hybrids from the cross ofStaudt andDuch. Acta Horticulturae Sinica, 2007, 34(3): 597-604. (in Chinese)
[6] 喬燕春, 林順權(quán), 何小龍, 楊向暉. 普通枇杷種內(nèi)和種間雜種苗的RAPD鑒定. 果樹(shù)學(xué)報(bào), 2010, 27(3): 385-390.
QIAO C Y, LIN S Q, HE X L, YANG X H. Identification of intraspecific and interspecific hybridizati0ns in Loquat () using RAPD molecular markers. Journal of Fruit Science, 2010, 27(3): 385-390. (in Chinese)
[7] 郭修武, 張鵬翔, 郭印山, 劉鎮(zhèn)東, 李坤, 李成祥. 應(yīng)用SRAP分子標(biāo)記技術(shù)鑒定葡萄種間雜交后代. 分子植物育種, 2011. doi: 10.5376/mpb.cn.2011.09.0052.
GUO X W, ZHANG P X, GUO X S, LIU Z D, LI K, LI C X. Authenticity of identification of progenies from interspecific cross Red Globe () × Shuangyou () by SRAP markers. Molecular Plant Breeding, 2011. doi: 10.5376/mpb.cn.2011. 09.0052. (in Chinese)
[8] 樊秀彩, 張穎, 姜建福, 孫海生, 焦建, 劉崇懷. SSR分子標(biāo)記鑒定山葡萄和河岸葡萄種間雜種. 西北植物學(xué)報(bào), 2012, 32(11): 2195-2200.
FAN X C, ZHANG Y, JIANG J F, SUN H S, JIAO J, LIU C H. Identification of interspecific hybrids derived from×by SSR marker. Acta Botanica Boreali-Occidentalia Sinica, 2012, 32(11): 2195-2200. (in Chinese)
[9] 蘇聰聰, 金燕, 徐豐, 白描, 石雪暉, 楊國(guó)順, 鐘曉紅, 劉昆玉, 陳陳恒, 李含晰. 利用SSR分子標(biāo)記鑒定刺葡萄F1代雜種. 江蘇農(nóng)業(yè)科學(xué), 2018, 46(17): 35-38.
SU C C, JIN Y, XU F, BAI M, SHI X H, YANG G S, ZHONG X H, LIU K Y, CHEN C H, LI H X. Identification of the F1hybrids of thorn grape using SSR molecular markers. Jiangsu Agricultural Sciences, 2018, 46(17): 35-38. (in Chinese)
[10] 韓燕, 馬登超, 劉譯陽(yáng), 崔鳳, 孫秀芹, 李榮沖, 萬(wàn)書(shū)波, 李國(guó)衛(wèi).利用特異性SNP位點(diǎn)鑒定花生雜交F1代真假雜種. 山東農(nóng)業(yè)科學(xué), 2016, 48(4): 14-17.
HAN Y, MA D C, LIU Y Y, CUI F, SUN X Q, LI R C, WAN S B, LI G W. Identification of true F1peanut hybrid with specific SNP locus. Shandong Agricultural Sciences, 2016, 48(4): 14-17. (in Chinese)
[11] ZHANG J, YUAN H, LI M, LI Y J, WANG Y, MA X J, ZHANG Y, TAN F, WU R L. A high-density genetic map of tetraploid Salix matsudana using specific length amplified fragment sequencing (SLAF-seq). PLoS ONE, 2016, 11(6): e0157777.
[12] NIU D, DU Y, WANG Z, WANG Z, XIE S, NGUYEN H, DONG Z G, SHEN H D, LI J L. Construction of the first high-density genetic linkage map and analysis of quantitative trait loci for growth-related traits in Sinonovacula constricta. Marine Biotechnology, 2017, 19(5): 488-496.
[13] DOYLE J J T, DOYLE J L. Isolation of plant DNA from fresh tissue. Focus, 1990, 12: 13-15.
[14] POLASHOCK J, ZELZION E, FAJARDO D, zalapa J, GEORGI L, BHATTACHARYA D, VORSA N. The American cranberry: First insights into the whole genome of a species adapted to bog habitat. BMC Plant Biology, 2014, 14(1): 165.
[15] COLLE M, LEISNER C P, WAI C M, QU S J, BRID K A, WANG J, WISECAVER J H, YOCCA A E, ALGER E I, TANG H B, XIONG Z Y, CALLOW P, BEN-ZVI B, BRODT A, BARUCH K, SWALE T, SHIUE L, SONG G Q, CHUIDS K L, SCHILMILLER A, CORSA N, BUELL C R, VANBUREN R, JIANG N, EDGER P P. Haplotype- phased genome and evolution of phytonutrient pathways of tetraploid blueberry. GigaScience, 2019, 8: giz012.
[16] VAN DER AUWERA G A, CARNEIRO M O, HARTL C, POPLIN R, DEL ANGEL G, LEVY-MOONSHINE A, JORDAN T, SHAKIR K, ROAZEN D, THIBAULT J, BANKS E, GARIMELLA K V, ALSHULER D, GABRIEL S, DEPRISTO M A. From FastQ data to high-confidence variant calls: The genome analysis toolkit best practices pipeline. Current Protocols in Bioinformatics, 2013, 43(1110): 11.10.1-11.10.33.
[17] MEIRMANS P G, VAN TIENDEREN P H. Genotype and genodive: Two programs for the analysis of genetic diversity of asexual organisms. Molecular ecology notes, 2004, 4(4): 792-794.
[18] EXCOFFIER L, SMOUSE P E, QUATTRO J M. Analysis of molecular variance inferred from metric distances among DNA haplotypes: Application to human mitochondrial DNA restriction data. Genetics, 1992, 131(2): 479-491.
[19] MICHALAKIS Y, EXCOFFIER L. A generic estimation of population subdivision using distances between alleles with special reference for microsatellite loci. Genetics, 1996, 142(3): 1061-1064.
[20] KIRKPATRICK S, GELATT C D, VECCHI M P. Optimization by simulated annealing. Science, 1983, 220 (4598): 671-680.
[21] LIGGES U, MACHIER M. Scatterplot3d-an R package for visualizing multivariate data (No. 2002, 22). Technical Report, 2002.
[22] WICKHAM H. ggplot2: Elegant Graphics for Data Analysis. Springer, 2016.
[23] SU J S, ZHANG F, CHONG X R, SONG A P, GUAN Z Y, FANG W M, CHEN F D. Genome-wide association study identifies favorable SNP alleles and candidate genes for waterlogging tolerance in chrysanthemums. Horticulture Research, 2019, 6(1): 1-13.
[24] MCKENZIE K S, ADAYA V C, JODARI F, SAMONTE P B, OSTER J J, ADAYA C B. Rice breeding at the california rice experiment station. SABRAO Journal of Breeding & Genetics, 2015, 47(1): 1-13.
[25] KUJURA A, BAJAJ D, UPADHYAYA H D, DAS S, RANJAN R, SHREE T, GOWDA C L L. A genome-wide SNP scan accelerates trait-regulatory genomic loci identification in chickpea., 2015, 5: 11166. doi: 10.1038/srep11166.
[26] FILZMOSER P, HRON K, REIMANN C. Principal component analysis for compositional data with outliers. Environmetrics: The Official Journal of the International Environmetrics Society, 2009, 20 (6): 621-632.
[27] GODSTEIN M, UCHIDA S. A comparative evaluation of unsupervised anomaly detection algorithms for multivariate data. PLoS ONE, 2016, 11(4): e0152173.
[28] LENZ M, MüLLER F J, ZENKE M, SCHUPPERT A. Principal components analysis and the reported low intrinsic dimensionality of gene expression microarray data.Scientific Reports, 2016, 6(1): 1-11.
[29] CHAWLA S, GIONIS A. K-means: A unified approach to clustering and outlier detection//Proceedings of the 2013 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2013: 189-197.
[30] BENEVENUTO J, FERR?O L F V, AMADEU R R, MUNOZ P. How can a high-quality genome assembly help plant breeders? GigaScience, 2019, 8(6): giz068.
[31] KREBS S L, HANCOCK J F. Early-acting inbreeding depression and reproductive success in the highbush blueberry,L. Theoretical and Applied Genetics, 1990, 79: 825-832.
[32] 王哲. 植物雜交后代中基因偏分離的產(chǎn)生原因及其進(jìn)化意義. 遺傳, 2016, 38(9): 801-810.
WANG Z. Distorted segregation in plant hybrids and its implication for evolution. Hereditas, 2016, 38(9): 801-810.(in Chinese)
Identification of F1Hybrids in Blueberry (L.) Based on Specific-Locus Amplified Fragment Sequencing (SLAF-seq)
1Liaoning Institute of Pomology, Yingkou 115009, Liaoning;2College of Horticulture, China Agricultural University, Beijing 100193
【】The aim of this investigation was to develop a method of identifying true F1hybrids based on next-generation sequencing data, so as to provide an alternative strategy for fruit breeding, genetic analysis and genetic map construction.【】A total of 318 F1population derived from reciprocal cross between two blueberry (L.) accessions were sequenced by specific-locus amplified fragment sequencing (SLAF-seq). Based on the blueberry reference genome, the rare allelic variation, principal component analysis (PCA) and k-means clustering were used to identify the accidental hybrid in blueberry population. Furthermore, homozygous SNP were used to confirm the data.【】A total of 65.89 Gb sequence data was generated by Illumina sequencing, in which the GC content was 38.63% and Q30 value was 95.44%. The average sequencing depth of the two parents and F1progenies were 12.86× and 5.41×, respectively. By aligning the sequencing reads onto the reference genome of, a total of 73 543 and 114 851 SNPs were called in two reciprocal cross populations, respectively. According to these SNPs with minor allele frequency (MAF) more than 0.05, PCA, and k-means analysis, it was yielded four outlier individuals regarded as accidental hybrid progenies. Moreover, ten outliers were identified after total rare-alleles analysis and the private rare-alleles analysis by using SNP with MAF﹤0.05, including the above four individuals. By verifying the accidental hybrid progenies, homozygous SNP between the two parents was accounted for 34.56% and 38.95% of the total SNP, respectively, which were subjected to genotype the ten outliers and conflicted genotypes, and which were observed in individuals except H194-123 with the two parents, and the accuracy of our developed methods was validated.【】For species with a reference genome, it was an effective strategy by using allele frequency (MAF) data set to identify the accidental hybrid progeny based on genetic relationship analysis and unique rare allele variation analysis.
blueberry; reciprocal population; SLAF-seq; SNP; unique rare allele variation; hybrid
10.3864/j.issn.0578-1752.2021.02.012
2020-04-26;
2020-07-30
國(guó)家自然科學(xué)基金青年基金(31701881)、遼寧省農(nóng)業(yè)科學(xué)院學(xué)科建設(shè)計(jì)劃(2019DD164924)、遼寧省重點(diǎn)實(shí)驗(yàn)室建設(shè)項(xiàng)目(2020JH13/ 10200051)、“一帶一路”聯(lián)合研究中心(2020JH2/10500005)、地方專(zhuān)業(yè)性技術(shù)創(chuàng)新平臺(tái)(2018103002)
劉有春,Tel:18641713730,E-mail:liuyouchun911@126.com。通信作者劉成,E-mail:stevecliu@hotmail.com。通信作者李天忠,E-mail:litianzhong1535@163.com
(責(zé)任編輯 趙伶俐)