種子是農(nóng)業(yè)的“芯片”,種質(zhì)資源是作物育種的物質(zhì)基礎(chǔ),而突破性品種的育成來自于特異優(yōu)良種質(zhì)資源的發(fā)現(xiàn)和利用[1-5]。多年實(shí)踐證明,龍粳31和稻花香2號(hào)是寒地粳稻重要種質(zhì)資源材料。龍粳31在省第三積溫帶綜合性狀表現(xiàn)突出,其年推廣面積創(chuàng)世界粳稻歷史紀(jì)錄,亦是21世紀(jì)以來我國累計(jì)推廣面積最大的粳稻品種,取代了空育131在長達(dá)10年之久的主導(dǎo)地位,為我國水稻發(fā)展做出了巨大貢獻(xiàn)[6-7]。截至2023年,以龍粳31為親本累計(jì)衍生112個(gè)水稻品種,未來以龍粳31為親本選育的品種也將會(huì)越來越多8。省香稻品種主要是以稻花香2號(hào)、綏粳4號(hào)為親本育成的品種[9],而稻花香2號(hào)仍是當(dāng)前省第一積溫帶的主栽香稻品種[10-11]稻花香2號(hào)在其生長階段就能散發(fā)出濃郁的香氣,其稻米口感香甜,蒸煮成米飯時(shí)會(huì)散發(fā)濃郁的香味,富含多種氨基酸及其他營養(yǎng)物質(zhì),是自前國內(nèi)最為優(yōu)良的粳稻品種[12]。近些年來,隨著科技的不斷進(jìn)步,水稻基因組的測(cè)序和分析技術(shù)也取得了重要進(jìn)展,解析重要種質(zhì)的基因型,將會(huì)有效促進(jìn)該種質(zhì)在育種實(shí)踐中的利用并充分發(fā)揮其價(jià)值[13-17]。因此,本研究以龍粳31和稻花香2號(hào)為材料,對(duì)其進(jìn)行基因組測(cè)序及生物信息學(xué)分析,進(jìn)而獲得SNP和InDel等變異基因位點(diǎn)的相關(guān)信息,為后續(xù)兩個(gè)種質(zhì)的特異性基因挖掘、差異等位基因標(biāo)記開發(fā)及未來育種研究提供參考。
1材料與方法
1.1 材料
龍粳31,寒地早熟粳型超級(jí)稻品種,由水稻研究所選育。龍粳31在豐產(chǎn)性、抗病性及耐冷性等綜合性狀上表現(xiàn)尤為突出,目前仍是省年種植面積最大的水稻品種。龍粳31的成功選育不但實(shí)現(xiàn)了寒地水稻育種技術(shù)上的創(chuàng)新,而且在我國寒地稻作歷史上也是一次重大突破。
稻花香2號(hào)(五優(yōu)稻4號(hào)),省五常市中糧美裕長粒香水稻研究所(原五常市龍鳳山長粒香水稻研究所)在1999年從五優(yōu)稻1號(hào)中系統(tǒng)選育而成,屬優(yōu)質(zhì)新品系。2009年1月通過省農(nóng)作物品種審定委員會(huì)審定推廣,品種名稱為五優(yōu)稻4號(hào)。稻花香2號(hào)米粒細(xì)長、千粒重高、直鏈淀粉含量低、味道清香、米飯口感甜軟,是生產(chǎn)高檔五常大米的專用優(yōu)質(zhì)品種。
1. 2 方法
試驗(yàn)于2024年在育秧大棚進(jìn)行。水稻葉片取樣,在水稻材料生長至3葉1心期于早晨8:00時(shí)剪取水稻3~5cm 中段葉片,取葉片鮮重 500mg ,采用干冰冷鏈運(yùn)輸。簡化基因組測(cè)序?qū)嶒?yàn)流程包括DNA樣品檢測(cè)、文庫構(gòu)建、文庫質(zhì)控和上機(jī)測(cè)序,上述試驗(yàn)過程委托武漢天問生物科技有限公司進(jìn)行,主要試驗(yàn)操作過程如下。
1.2.1樣品檢測(cè)基因組DNA 檢測(cè)方法:(1)瓊脂糖凝膠電泳檢測(cè)顯示基因組DNA主帶完整清晰,且無降解和RNA 污染。(2)Nanodrop檢測(cè)OD260/OD280 比值在 1.8~2.2 之間,無蛋白質(zhì)和肉眼可見雜質(zhì)污染。(3)Qubit3.0檢測(cè)濃度大于 ,總量大于 2μg 。
1.2.2文庫構(gòu)建(1)將 200ng 基因組DNA用限制性內(nèi)切酶MseI和SacI(NewEnglandBio-labs)完全酶切;(2)將酶切產(chǎn)物用自主設(shè)計(jì)的特異性接頭連接,然后取特定量的連接產(chǎn)物進(jìn)行Pooling并用AMPureXPBeads純化;(3)用高保真聚合酶KOD-Plus-Neo(TOYOBO)進(jìn)行PCR富集;(4)將所有產(chǎn)物Pooling并用Bio-RadCertifiedMegabaseAgarose低壓過夜電泳,選取 300~400 bp的范圍,然后用瓊脂糖凝膠回收試劑盒(QIA-GEN)進(jìn)行純化。
1.2.3文庫質(zhì)控和上機(jī)測(cè)序文庫構(gòu)建完成后,檢測(cè)其質(zhì)量,檢測(cè)方法如下:(1)使用Qubit3.0進(jìn)行初步定量;(2)使用Agilent210O對(duì)文庫的insertsize進(jìn)行檢測(cè),insertsize符合預(yù)期且無接頭污染后才可進(jìn)行下一步實(shí)驗(yàn);(3)用德國ANALY-TIKJENA(耶拿)QTOWER實(shí)時(shí)熒光定量PCR儀對(duì)文庫的有效濃度進(jìn)行準(zhǔn)確定量,即有效濃度gt;2nmol?L-1 為合格文庫。按照目標(biāo)下機(jī)數(shù)據(jù)量對(duì)文庫進(jìn)行pooling,用IlluminaHiSeq平臺(tái)進(jìn)行Paired-end15O bp(PE150)測(cè)序。
1.3 數(shù)據(jù)分析
1.3.1測(cè)序數(shù)據(jù)過濾對(duì)測(cè)序得到的原始測(cè)序序列rawreads進(jìn)行過濾,得到cleanreads,后續(xù)分析都基于cleanreads進(jìn)行,數(shù)據(jù)過濾步驟如下:
(1)使用 fastp 軟件(version O.23.O)去除reads中含有的接頭序列;(2)使用fastp軟件(version0.23.O)去除reads中的低質(zhì)量堿基(以4bp的滑動(dòng)窗口計(jì)算平均質(zhì)量數(shù),若低于15則去除其后的所有堿基);(3)reads長度大于 50bp 。
1.3.2Reads與參考基因組比對(duì)分析使用BWA軟件(version0.7.15-rl140)MEM算法將測(cè)序數(shù)據(jù)與參考基因組比對(duì),得到SAM格式的比對(duì)結(jié)果,然后使用samtools軟件(version1.3.1)將SAM格式的文件轉(zhuǎn)換成BAM格式,并對(duì)BAM文件中的reads進(jìn)行排序,最終得到的BAM文件用于覆蓋度和覆蓋深度統(tǒng)計(jì)以及variantcalling。比對(duì)使用的水稻參考基因組信息如下:(1)版本為MSU7.0;(2)網(wǎng)址為 http://rice.plantbiology.msu.edu/。
1.3.3變異檢測(cè)方法基于Reads與參考基因組比對(duì)分析最終得到的BAM文件,首先使用GATK(Genome Analysis ToolKit-version 3.7)軟件包中的HaplotypeCaller模塊對(duì)每個(gè)樣品生成gvcf文件,然后再使用GenotypeGVCFs模塊對(duì)所有樣品一起進(jìn)行變異檢測(cè),包括SNP和InDel。GATK輸出的變異信息以vcf格式的文件存儲(chǔ),按下列條件對(duì)原始變異結(jié)果進(jìn)行篩選:(1)各樣品測(cè)序深度不小于5;(2)所有樣品基因型均無缺失;(3)較小等位基因頻率不低于 20% 。
2 結(jié)果與分析
2.1 測(cè)序數(shù)據(jù)堿基質(zhì)量數(shù)分布
通過測(cè)序堿基質(zhì)量數(shù)(Qualityscore)可以了解每個(gè)堿基測(cè)序錯(cuò)誤率的情況。測(cè)序序列5端前幾個(gè)堿基的錯(cuò)誤率相對(duì)較高。如圖1所示,樣品龍粳31和稻花香2號(hào)測(cè)序數(shù)據(jù)的質(zhì)量數(shù)均分布在30以上接近40,表明兩樣品的測(cè)序數(shù)據(jù)可保證后續(xù)分析的正常進(jìn)行。
2.2 測(cè)序數(shù)據(jù)堿基含量分布
如圖2所示,測(cè)試樣品中A和T的比例接近,C和G的比例接近,N的含量較低。由于測(cè)序儀器本身的局限性,前幾個(gè)堿基的A/T和C/G含量可能存在著一定波動(dòng)。由圖2可以看出,龍粳31和稻花香2號(hào)測(cè)序數(shù)據(jù)中堿基 A,T,C,G 、N的分布合理,數(shù)據(jù)質(zhì)量完全可以滿足下一步分析。
龍粳31和稻花香2號(hào)兩個(gè)樣品的cleandata統(tǒng)計(jì)結(jié)果見表1,其中,有效序列數(shù)均值為11526399,有效堿基數(shù)均值為3260240184,GC含量均值為 45.76% , Q20 和Q30含量均值分別達(dá) 99.15% 和 97.13% ,由此表明數(shù)據(jù)量和數(shù)據(jù)質(zhì)量均符合預(yù)期。
2.3 比對(duì)率統(tǒng)計(jì)
比對(duì)率反映樣品基因組與參考基因組的相似性,本研究兩個(gè)樣品的測(cè)序數(shù)據(jù)比對(duì)到參考基因組的比例均值為 67.74% ,PEreads比對(duì)率接近70% ,說明文庫構(gòu)建正常,沒有污染(表2)。
2.4覆蓋度和覆蓋深度統(tǒng)計(jì)
樣品龍粳31測(cè)序數(shù)據(jù)覆蓋整個(gè)基因組的比例達(dá) 18.47% ,平均覆蓋深度為 23. 06× 。樣品稻花香2號(hào)測(cè)序數(shù)據(jù)覆蓋整個(gè)基因組的比例達(dá)17.67% ,平均覆蓋深度為 33.48× 。兩樣品的平均覆蓋度為 18.07% ,平均覆蓋深度為 28.27× 。兩樣品覆蓋度和覆蓋深度統(tǒng)計(jì)結(jié)果表明,兩樣品測(cè)序數(shù)據(jù)覆蓋整個(gè)基因組的比例接近,而稻花香2號(hào)的平均覆蓋深度遠(yuǎn)遠(yuǎn)大于龍粳31的平均覆蓋深度,說明在一定程度上樣品稻花香2號(hào)在變異檢測(cè)的準(zhǔn)確性上會(huì)更高一些。
本研究除了統(tǒng)計(jì)樣品測(cè)序數(shù)據(jù)對(duì)參考基因組整體覆蓋情況之外,也考察了測(cè)序數(shù)據(jù)對(duì)基因組的覆蓋是否均勻,由圖3可以看出,兩個(gè)樣品在水稻12條染色體上的整體覆蓋情況基本一致,即在水稻1號(hào)、2號(hào)、3號(hào)、4號(hào)染色體上覆蓋度較高,在水稻5號(hào)、6號(hào)、7號(hào)、8號(hào)、11號(hào)和12號(hào)染色體上覆蓋度次之,而在水稻9號(hào)和10號(hào)染色體上覆蓋度最低。
2.5 變異類型統(tǒng)計(jì)
如圖4和圖5所示,本研究對(duì)樣品龍粳31和稻花香2號(hào)進(jìn)行了變異類型統(tǒng)計(jì)分析,共獲得了17410個(gè)變異位點(diǎn),其中,有15123個(gè)為SNP變異,有2287個(gè)為InDel變異。在SNP變異中,有10944個(gè)是轉(zhuǎn)換類型(A/G和C/T),有4179個(gè)是顛換類型(A/C、A/T、C/G和G/T),轉(zhuǎn)換顛換比(Ts/Tv)為2.62。
2.6 變異在基因組上的分布
表4為水稻每條染色體包含的變異數(shù)量及密度的統(tǒng)計(jì)結(jié)果,按照SNP變異在水稻12條染色體上的分布數(shù)量不同,可劃分為以下三類:一是,SNP變異數(shù)量大于2000的染色體為8號(hào)和10號(hào);二是,SNP變異數(shù)量大于1000小于2000的染色體為3號(hào)、4號(hào)、6號(hào)、11號(hào)和12號(hào);三是,SNP變異數(shù)量小于1000的染色體為1號(hào)、2號(hào)、5號(hào)、7號(hào)、9號(hào)。
從InDel變異分布數(shù)量上看,在SNP變異數(shù)量較多的染色體上其InDel數(shù)量也相對(duì)較多。同時(shí),本研究也以 100.0kb 的滑動(dòng)窗口統(tǒng)計(jì)了變異在基因組上的分布情況,如圖6所示。
2.7 變異注釋
根據(jù)變異位點(diǎn)在參考基因組上的位置以及參考基因組上的基因位置信息,即可得到變異位點(diǎn)在基因組發(fā)生的區(qū)域以及變異產(chǎn)生的影響。本研究利用ANNOVAR軟件對(duì)基因、上調(diào)和下調(diào)、內(nèi)含子、外顯子、各類突變、5'端非編碼片段、3端非編碼片段等注釋結(jié)果進(jìn)行了分類,所有變異的注釋結(jié)果匯總情況如表5所示。其中,同義突變SNP數(shù)量為1366個(gè),突變比率為 9.03% ,非同義突變SNP數(shù)量為2016個(gè),突變比率為 13.33% :非移碼突變InDel數(shù)量為88個(gè),突變比率為3.85% ,移碼突變InDel數(shù)量為113個(gè),突變比率為4.94% 。本研究結(jié)果為差異等位基因標(biāo)記開發(fā)和未來開展寒地粳稻育種工作提供了基礎(chǔ)信息。
3討論
龍粳31和稻花香2號(hào)作為省水稻育種進(jìn)程中所創(chuàng)制出的重要代表性種質(zhì),在省水稻產(chǎn)業(yè)發(fā)展歷程中具有舉足輕重的影響力,也是寒地粳稻重要種質(zhì)資源材料。李洪亮等[18]追溯龍粳31系譜發(fā)現(xiàn),其親本血緣涵蓋了大量不同生態(tài)區(qū)的優(yōu)勢(shì)基因型。隨著水稻基因組重測(cè)序成本的不斷降低,對(duì)重要水稻種質(zhì)資源基因組重測(cè)序,可以為優(yōu)良種質(zhì)創(chuàng)制和突破性品種培育等提供有力的理論支撐[19]。本研究在兩個(gè)種質(zhì)材料間共獲得了17410個(gè)變異位點(diǎn),其中,15123個(gè)SNP變異,2287個(gè)InDel變異,這些變異位點(diǎn)為寒地粳稻優(yōu)良及特異基因的進(jìn)一步挖掘提供了較為詳細(xì)的基礎(chǔ)信息。
省在水稻傳統(tǒng)育種方面取得了一系列成就,但存在種質(zhì)資源鑒定手段落后、優(yōu)良特異基因挖掘不夠深入,以常規(guī)系譜選育方法為主、分子輔助育種等應(yīng)用少,審定的品種多、突破性品種少等問題[8]。而本研究根據(jù)龍粳31和稻花香2號(hào)兩個(gè)樣品基因組測(cè)序的變異信息,獲得了較為詳細(xì)的參考序列對(duì)應(yīng)等位基因和非參考序列等位基因信息,以及SNP和InDel的變異注釋等,研究結(jié)果為重要種質(zhì)的特異基因挖掘、差異等位基因標(biāo)記開發(fā)和未來寒地粳稻分子育種工作開展提供了基礎(chǔ)信息。
通過基因組測(cè)序可以找到大量的遺傳變異,包括單核苷酸變異(SNV/SNP),插人和缺失(Indel,長度小于 50bp ),以及結(jié)構(gòu)變異(StructuralVariation)等[20]。未來通過基因組測(cè)序技術(shù)可以發(fā)掘出大量變異位點(diǎn),進(jìn)而利用全基因組變異開發(fā)分子標(biāo)記,采用分子標(biāo)記大幅度提高水稻育種效率[21-25],使其成為常用的技術(shù)手段。
4結(jié)論
本研究通過對(duì)龍粳31和稻花香2號(hào)進(jìn)行簡化基因組測(cè)序及生物信息學(xué)分析共獲得17410個(gè)變異位點(diǎn),其中15123個(gè)SNP變異,2287個(gè)InDel變異。在SNP變異中,有1O944個(gè)是轉(zhuǎn)換類型(A/G和C/T),有4179個(gè)是顛換類型(A/C、A/T、C/G和G/T),轉(zhuǎn)換顛換比(Ts/Tv)為2.62。SNP和InDel變異數(shù)量在水稻8號(hào)和10號(hào)染色體分布最多,其次為水稻3號(hào)、4號(hào)、6號(hào)、11號(hào)和12號(hào)染色體,且在SNP變異數(shù)量分布較多的染色體上InDel數(shù)量也相對(duì)較多。通過對(duì)基因注釋結(jié)果進(jìn)行分類,同義突變SNP數(shù)量為1366個(gè),突變比率為 9.03% ,非同義突變SNP數(shù)量為2016個(gè),突變比率為 13.33% ;非移碼突變InDel數(shù)量為88個(gè),突變比率為 3.85% ,移碼突變InDel數(shù)量為113個(gè),突變比率為 4.94% 。
參考文獻(xiàn):
[1] 魏興華.我國水稻品種資源研究進(jìn)展與展望[J].中國稻米,2019,25(5):8-11.
[2] YANG Y,SUN M,LI SS,et al. Germplasm resourcesand genetic breeding of Paeonia:a systematic review[J].HorticultureResearch,2020,7:107.
[3] 張濤,王子瑞,毛鑫晨,等.影響稻米品質(zhì)性狀的相關(guān)基因研究進(jìn)展[J].安徽農(nóng)業(yè)科學(xué),2023,51(19):17-22.
[4] 楊德衛(wèi),張海峰,余文權(quán).我國水稻種質(zhì)資源創(chuàng)新研究與利用進(jìn)展[J].植物遺傳資源學(xué)報(bào),2024,25(4):495-508.
[5] 夏宇玲,秦建權(quán),宋曉燕,等.254份水稻種質(zhì)資源表觀品質(zhì)性狀的綜合評(píng)價(jià)[J].江蘇農(nóng)業(yè)科學(xué),2024,52(19):79-88.
[6]劉傳雪,潘國君,張獻(xiàn)國.寒地早熟理想株型超級(jí)稻龍粳 31的創(chuàng)新實(shí)踐[J].北方水稻,2014,44(3):1-3,35,82.
[7]潘國君,劉傳雪,張淑華,等.寒地早粳稻“一早三抗\"新株型育種理論與實(shí)踐[J].農(nóng)業(yè)科學(xué),2020(12):1-6.
[8]商全玉,姜樹坤,劉安晉,等.龍粳31大面積推廣原因分析及其對(duì)粳稻育種的啟示[J].中國稻米,2024,30(4):64-69.
[9]李榮田,孟德鑫,蘇迪,等.利用分子標(biāo)記輔助選擇回交轉(zhuǎn)育培育早粳稻空育131(fgr)導(dǎo)人系[J].種子,2020,39(5):5-12.
[10]高洪儒.混合種植對(duì)五優(yōu)稻4號(hào)抗倒及品質(zhì)的影響[J].北方水稻,2015,45(4):40-42.
[11]劉海英,楊忠良,劉會(huì),等.五優(yōu)稻4號(hào)水稻香味的遺傳分析與 SSR分子標(biāo)記篩選[J].農(nóng)業(yè)科學(xué),2021(6):5-9.
[12]畢浩然.水稻稻花香2號(hào)和空育131的性狀遺傳改良[D].哈爾濱:大學(xué),2017.
[13]LI X,YANG J,SHEN M, et al. Whole-genomeresequencing of wild and domestic sheep identifies genesassociated with morphological and agronomic traits[J].Nature Communications,2020,11(1): 2815.
[14]LIF,SHIMIZU A,NISHIO T,et al. Comparison andcharacterization of mutations induced by gamma-ray andcarbon-ion irradiation in rice (Oryza satioa L.) usingwhole-genome resequencing [J]. G3-Genes GenomesGenetics,2019,9(11):3743-3751.
[15]TAKAGI H,ABE A,YOSHIDA K,et al. QTL-seq:rapid mapping of quantitative trait loci in rice by wholegenome resequencing of DNA from two bulked populations[J].The Plant Journal,2013,74(1):174-183.
[16]LIF,KOMATSU A,OHTAKE M,et al. Directidentification of a mutation in OsShl causing non-shattering in a rice (Oryza sativa L.) mutant cultivarusing whole-genome resequencing[J]. Scientific Reports,2020,10(1):14936.
[17]OH JH,LEE Y J,BYEON E J,et al. Whole-genomeresequencing andtranscriptomicanalysisofgenesregulating anthocyanin biosynthesis in black rice plants[J].3 Biotech,2018,8(2):115.
[18]李洪亮,柴永山,孫玉友,等.寒地超級(jí)稻龍粳 31祖先親本追溯及遺傳基礎(chǔ)解析[J].植物遺傳資源學(xué)報(bào),2016,17(3):433-437,446.
[19]龍武華,劉毅,姜雪,等.大粒香基因組重測(cè)序分析[J].現(xiàn)代農(nóng)業(yè)科技,2024(3):162-165,174.
[20]HO S S,URBAN A E,MILLS R E. Structural variationin the sequencing era[J]. Nature Reviews. Genetics,2020,21(3):171-189.
[21]王紅波.全基因組分子標(biāo)記背景選擇創(chuàng)建抗褐飛虱水稻新材料「D]武漢.華中農(nóng)業(yè)大學(xué).2019
[22]彭佩.東亞粳稻種質(zhì)全基因組變異分析及重要基因等位變異鑒定D.長沙:湖南農(nóng)業(yè)大學(xué),2023.
[23] 鄭國利,顧巧美,杜明,等.水稻粒長基因GW7的分子標(biāo)記開發(fā)與利用[J].農(nóng)業(yè)生物技術(shù)學(xué)報(bào),2024,32(10):2218-2227.
[24]楊好,黃衍焱,王劍,等.水稻中八個(gè)稻瘟病抗性基因特異
分子標(biāo)記的開發(fā)及應(yīng)用[J].中國水稻科學(xué),2024,38(5):525-534.[25] 梁楚炎,巫明明,黃鳳明,等.基因編輯及全基因組選擇技術(shù)在水稻育種中的應(yīng)用展望[J].中國水稻科學(xué),2024,38(1):1-12.
Simplified Genome Sequencing and Bioinformatics Analysis of Rice Longjing 31 and Daohuaxiang 2
LI Hongliang,CHENG Dujuan, SUN Yuyou, WEI Caiqiang, QU Jinling, XIE Zhong, SONG Ze,SHI Xinrui
(Mudanjiang Branch,Heilongjiang Academy of Agricultural Sciences,Mudanjiang ,China)
Abstract:In order to analyze the genotypes of the important germplasm resources Longjing 3l and Daohuaxiang 2 of cold-region japonica rice in the third and first accumulative temperate zones of Heilongjiang Province and promote the breeding research of cold-region japonica rice. In this study,Longjing 3l and Daohuaxiang 2 were used as experimental materials,and their simplified genomes were sequenced and bioinformatics analysis were conducted.The results showed that,a total of 17 41O variation sites were obtained,including 15123 SNP variations and 2 287 InDel variations.Of the SNP variants,10 944 were conversion types (A/G and C/T) and 4 179 were transversion types (A/C,A/T,C/G and G/T ),with a conversion transversion ratio(Ts/Tv) of 2.62.Among the two rice varieties,the number of SNP and InDel mutations distributed the most in rice chromosomes 8 and chromosomes 10,folowed by chromosomes 3,chromosomes 4,chromosomes 6,chromosomes 11 and chromosomes 12,and the number of InDel on chromosomes with more SNP mutations distributed was relatively high. At the same time,the annotation results of genes,introns, exons, various mutations and non-coding fragments were classified,and more detailed reference sequences correspond to aleles and non-reference sequence alleles were obtained between the two varieties,as well as SNP and InDel variation annotation.
Keywords:rice;simplified genome;sequencing;bioinformatics analysis
協(xié)辦單位
省作物學(xué)會(huì)水稻研究所克山分院黑河分院綏化分院佳木斯分院