楊漫漫,陳 濤,沈俊然,王 然,李 勇
(深圳市華大農(nóng)業(yè)應(yīng)用研究院∕深圳市動物基因組輔助育種工程實驗室,廣東 深圳 518083)
低覆蓋度重測序近年來在群體遺傳學(xué)分析[1,2]、基因組選擇[3,4]等方面的應(yīng)用越來越廣泛。文庫質(zhì)量對數(shù)據(jù)質(zhì)量和分析效果有很大影響[5],覆蓋度低時尤為明顯,而片段化是文庫制備的第一個關(guān)鍵步驟。目前,片段化技術(shù)主要為物理打斷法和酶切打斷法,超聲是物理打斷法中最為常用的方法,而酶切打斷法主要分常規(guī)片段化酶和TN5轉(zhuǎn)座酶[6]。此外,為了解決文庫制備中由于PCR擴增導(dǎo)致的bias和copy errors等[7,8],無需PCR的PCR-free建庫方式也被廣泛應(yīng)用[9,10]。長期以來,測序文庫的構(gòu)建主要依賴人工操作,但文庫構(gòu)建受到3方面的挑戰(zhàn):流程復(fù)雜度、過程污染和單個建庫成本。升級建庫技術(shù),簡化操作流程,減少人與試劑和樣本的交互,在降低污染風(fēng)險的同時,也減少了人工、樣本、試劑的投入以及縮短操作時間,進(jìn)而使得每個樣本的投入成本也大大降低,這是測序流程自動化發(fā)展的基本趨勢[11]。本研究探索了不同建庫方式在低覆蓋度重測序中的數(shù)據(jù)表現(xiàn),并對這些數(shù)據(jù)提供一個粗略的評估,為自動化建庫及測序流程優(yōu)化提供部分?jǐn)?shù)據(jù)參考。
1.1.1 供試樣本供試材料為大白豬耳組織,來源于溫氏清遠(yuǎn)原種場。
1.1.2 儀器與試劑S1000型Bio-rad PCR儀,美國Bio-rad公司;Qubit3.0型熒光定量儀、Qubit 1X dsDNA HS kit(Q33230),美國Thermo Fisher公司;MSP-960型高通量自動化樣本制備系統(tǒng)、MGIseq2000型基因組的測序儀、MGIEasy通用DNA文庫制備試劑套裝(1000006986)、MGIcare染色體異常檢測試劑盒(1000005279)、酶切PCRfree DNA文庫制備試劑盒(1000013455)、MGIseq2000RS高通量快速測序試劑套裝(1000013155),深圳華大智造科技股份有限公司;DNA磁珠法提取試劑盒(GO-BTCD-100),長春市志昂生物科技有限公司。
TN5原料酶由深圳華大生命科學(xué)研究院提供。
耳組織樣本使用組織DNA磁珠法提取試劑盒進(jìn)行DNA提取,瓊脂糖凝膠電泳和Qubit dsDNA HS檢測試劑盒進(jìn)行質(zhì)量控制。
超聲打斷是文庫構(gòu)建的經(jīng)典方法,采用MGIEasy通用DNA文庫制備試劑套裝,初始樣本投入量約500 ng。MGIcare染色體異常檢測試劑盒操作步驟簡單,對DNA總量要求低(50 ng),能夠適用自動化設(shè)備。酶切PCRfree DNA文庫制備試劑盒DNA投入無需均一化,全流程無PCR錯誤累積,適合全程自動化。轉(zhuǎn)座酶建庫用于NGS測序近年來應(yīng)用廣泛,根據(jù)Picelli等[12]、Zan等[13]的方法進(jìn)行接頭序列改造后適應(yīng)DNBseq平臺,初始樣本投入量在100 ng。詳細(xì)的文庫構(gòu)建流程見圖1。
圖1 不同方式文庫構(gòu)建流程
構(gòu)建好的文庫在MGIseq2000測序儀上采用PE 100進(jìn)行0.5-10x深度測序。
原始數(shù)據(jù)下機后,過濾掉堿基質(zhì)量值低于20且比例超過30%的read。從4種建庫方式的數(shù)據(jù)中隨機選取6個樣品,使用軟件seqtk分別抽取15、30 Mb reads用于后續(xù)分析比較。
將過濾的clean Data比對到豬參考基因組序列(sus scrofa 11.1),參考基因組信息經(jīng)處理,去除未定位序列和線粒體序列,有效基因組大小為2.45 Gb。Picard用于標(biāo)記PCR重復(fù)序列后統(tǒng)計比對信息。GATK默認(rèn)參數(shù)用于變異檢測,過濾掉假陽性位點后統(tǒng)計二等位SNP位點信息。
使用26個無關(guān)群體的大白豬重測序數(shù)據(jù)(深度12×-15×)的SNP集作為參考panel,使用beagle軟件分別對15、30 Mb數(shù)據(jù)的SNP集填充到全基因組水平,而后將填充的SNP位點和對應(yīng)10×樣本的SNP信息進(jìn)行比較,過濾掉原始個體SNP的缺失位點,計算相同個體間皮爾遜相關(guān)系數(shù)。
為了比較不同建庫方法獲得數(shù)據(jù)的一致性,選用經(jīng)超聲打斷和不同酶切打斷(MGIcare、PCRfree和TN5酶法)獲得測序文庫,在MGIseq 2000平臺上采用PE 100進(jìn)行高通量測序(表1),分別獲得200.00、307.69、125.00 Gb和1.05 Tb數(shù)據(jù),數(shù)據(jù)產(chǎn)量及變異范圍符合預(yù)期。從表1的Q20和Q30數(shù)據(jù)可以看出,4種建庫方法獲得的數(shù)據(jù)質(zhì)量較高,沒有明顯差異,其中Q20>97%,Q30>89%,GC含量為41.34%~44.17%,GC含量TN5組較高,可能與轉(zhuǎn)座酶的偏好性有關(guān)[14]。
表1 不同建庫方法的測序質(zhì)量信息
對不同建庫方法獲得的測序數(shù)據(jù)進(jìn)行比對(表2),發(fā)現(xiàn)比對率和惟一比對率分別能達(dá)97%和94%以上,其中PCRfree建庫組的惟一比對率最高,達(dá)96.56%;其他指標(biāo),如錯配率、重復(fù)率等都在正常范圍,相比而言,PCRfree建庫組在所有組中的重復(fù)率最高。此外,覆蓋度隨著測序深度的升高而上升,0.5×覆蓋度約30%,1×覆蓋度為44%~68%,2×以上覆蓋度超過80%。
表2 不同建庫方法的測序指標(biāo)分析
將不同建庫方法分為2組,一組為手工組(超聲法、TN5),一組為自動化組(MGIcare、PCRfree),并對這2組測序數(shù)據(jù)進(jìn)行比較分析。從個體數(shù)據(jù)各項指標(biāo)的分布上看(圖2),自動化建庫數(shù)據(jù)更集中,波動性小于手工建庫數(shù)據(jù)。
圖2 手工建庫和自動化建庫指標(biāo)分布
為了在同一水平上比較不同建庫方式下數(shù)據(jù)的各項指標(biāo),每種建庫方式選擇6個個體,分別隨機抽取15、30 Mb reads(對應(yīng)測序深度約為0.5×和1×)進(jìn)行分析(圖3)。數(shù)據(jù)均一化后,除覆蓋率和重復(fù)率指標(biāo)外,其他指標(biāo)在不同建庫方法下一致性均較好。覆蓋度的波動與建庫插入片段的長度以及測序隨機性帶來的個體間差異有關(guān)。從圖3可以看出,插入片段越短覆蓋度越低,如MGIcare在所有建庫方法中插入片段最短,為100~200 bp。均一化后,不同組重復(fù)率雖然有波動,但所有組都在正常范圍內(nèi)。
圖3 15、30 Mb數(shù)據(jù)下各項指標(biāo)分布
利用GATK軟件進(jìn)行變異檢測,在0.5×的數(shù)據(jù)下,不同建庫方法獲得SNP數(shù)量為2 922 270~4 181 825,其中MGIcare獲得的SNP數(shù)量最高,PCRfree最低(圖4a)。在1×的抽成數(shù)據(jù)下,獲得的SNPs數(shù)量為6 532 715~7 375 447,不同組SNP數(shù)量分布的趨勢與0.5×類似。對檢出的SNPs進(jìn)行填充準(zhǔn)確性檢驗,發(fā)現(xiàn)利用高深度基因組測序個體進(jìn)行基因型填充的準(zhǔn)確性達(dá)74%以上,且0.5×與1×數(shù)據(jù)填充的準(zhǔn)確性相當(dāng)(圖4b)。
圖4 4種建庫方式變異檢測與填充準(zhǔn)確性
高質(zhì)量文庫的高效制備在NGS研究中發(fā)揮著重要作用,DNA樣本片段化是文庫制備的第一個關(guān)鍵步驟,包括不同的片段化方法和不同的制備流程。本試驗在同一個測序平臺上測試了利用不同片段化方法和文庫構(gòu)建方式獲得了低覆蓋度重測序數(shù)據(jù)。數(shù)據(jù)分析結(jié)果表明,4種不同片段化方法獲得的測序數(shù)據(jù)在質(zhì)量和指標(biāo)上比較一致。盡管研究結(jié)果中PCRfree的重復(fù)較高,但仍然處于DNBseq平臺的正常范圍[15]。研究表明,重復(fù)不僅與PCR有關(guān),還受到基因組復(fù)雜度、堿基組成、連接效率、滾環(huán)復(fù)制以及光學(xué)分辨率等方面影響[6]。MGIcare方法由于其片段化酶的特性導(dǎo)致插入片段的長度偏低(mean length=160 bp),同等數(shù)據(jù)量條件下覆蓋度相對較低,但在變異檢測方面更具優(yōu)勢。TN5轉(zhuǎn)座酶的文庫制備方法簡單、高效,更具有性價比[16]。在測試數(shù)據(jù)中,TN5酶組操作流程最簡單,耗時最少,得到與其他組相似的質(zhì)量和指標(biāo)分布數(shù)據(jù)。此外,還比較了不同建庫方式的差異,發(fā)現(xiàn)手工建庫和自動化建庫相比,自動化數(shù)據(jù)顯示出更好的一致性。這與流程中減少了人為操作引起的數(shù)據(jù)變異有關(guān),對未來大規(guī)模推廣自動化建庫有很好的參考作用。對低深度數(shù)據(jù)進(jìn)行填充,與高深度數(shù)據(jù)相比,低深度填充準(zhǔn)確性超過74%。盡管遠(yuǎn)低于預(yù)試驗的大規(guī)模低深度的數(shù)據(jù)(99.1%),這可能與高深度參考群與低深度測序群體的親緣關(guān)系、群體規(guī)模、LD等有關(guān)[17,18]。研究比較了不同的片段化方法和建庫方式獲得的測序數(shù)據(jù),為后期規(guī)模化利用低成本的低深度測序技術(shù)提供了數(shù)據(jù)參考。