方歡,鐘碧溪,魏磊,張祥林,張威,汪小我
生物工程與大健康
汪小我 清華大學(xué)自動(dòng)化系長(zhǎng)聘副教授,博士生導(dǎo)師。主要研究方向?yàn)槟J阶R(shí)別、生物信息學(xué)、合成生物學(xué)。在、等學(xué)術(shù)期刊發(fā)表論文40余篇,被SCI他引3 000余次。曾獲全國(guó)優(yōu)秀博士學(xué)位論文獎(jiǎng)、國(guó)家自然科學(xué)基金優(yōu)秀青年基金、教育部新世紀(jì)優(yōu)秀人才、中國(guó)自動(dòng)化學(xué)會(huì)青年科學(xué)家獎(jiǎng)等。目前擔(dān)任中國(guó)生物工程學(xué)會(huì)青年工作委員會(huì)主任、中國(guó)人工智能學(xué)會(huì)生物信息學(xué)與人工生命專(zhuān)委會(huì)副主任、中國(guó)自動(dòng)化學(xué)會(huì)青工委常委、中國(guó)計(jì)算機(jī)學(xué)會(huì)生物信息學(xué)專(zhuān)委會(huì)常委等。
血漿游離DNA全基因組甲基化測(cè)序的實(shí)用穩(wěn)定性評(píng)估
方歡,鐘碧溪,魏磊,張祥林,張威,汪小我
清華大學(xué) 自動(dòng)化系 合成與系統(tǒng)生物學(xué)研究中心 生物信息學(xué)教育部重點(diǎn)實(shí)驗(yàn)室 北京信息科學(xué)與技術(shù)國(guó)家研究中心生物信息學(xué)研究部,北京 100084
隨著液體活檢技術(shù)的發(fā)展,血漿游離DNA成為當(dāng)前的研究熱點(diǎn)之一。血漿游離DNA的全基因組甲基化測(cè)序被認(rèn)為在癌癥檢測(cè)等醫(yī)學(xué)應(yīng)用擁有巨大潛力,但目前尚缺乏針對(duì)該實(shí)驗(yàn)流程的實(shí)用穩(wěn)定性評(píng)估。文中利用兩名志愿者在不同時(shí)間采樣的血漿游離DNA,在不同實(shí)驗(yàn)平臺(tái)分別進(jìn)行DNA甲基化的重亞硫酸鹽轉(zhuǎn)化前建庫(kù) (Pre-BS)、轉(zhuǎn)化后建庫(kù) (Post-BS) 和常規(guī)DNA建庫(kù),獲取多因素影響下的測(cè)序數(shù)據(jù)樣本。在此基礎(chǔ)上,建立了一套血漿游離DNA測(cè)序數(shù)據(jù)分析的質(zhì)量控制參考流程,綜合評(píng)估了血液采集提取、游離DNA建庫(kù)測(cè)序過(guò)程的實(shí)用穩(wěn)定性,為血漿游離DNA全基因組甲基化測(cè)序應(yīng)用于臨床液體活檢提供實(shí)用性的基礎(chǔ)參考。
血漿游離DNA,全基因組,DNA甲基化,片段化模式,微量DNA建庫(kù)
細(xì)胞游離DNA (Cell-free DNA,cfDNA) 廣泛存在于人體的血液、唾液、尿液、糞便、腦脊液及其他體液中[1],是無(wú)創(chuàng)液體活檢技術(shù)中的重要標(biāo)記物之一[2-3]。血漿游離DNA由全身各組織細(xì)胞的基因組經(jīng)過(guò)細(xì)胞凋亡、細(xì)胞壞死、主動(dòng)分泌等斷裂釋放到血液中[4],攜帶了其來(lái)源細(xì)胞的基因組變異、DNA甲基化、核小體排布等多方面信息[5],可應(yīng)用于孕婦的無(wú)創(chuàng)產(chǎn)前檢測(cè)、器官移植受體的術(shù)后排異評(píng)估和癌癥的溯源檢測(cè)等領(lǐng) 域[6-8],具有極高的研究?jī)r(jià)值和應(yīng)用潛力。
血漿游離DNA的檢測(cè)方式多種多樣,按照檢測(cè)位點(diǎn)數(shù)量來(lái)分,包括基于PCR的單位點(diǎn)檢測(cè)[9-10]、基于雜交捕獲的基因芯片和靶向測(cè)序[11-13]、基于高通量測(cè)序的全基因組檢測(cè)[6,14]等;按照檢測(cè)的信息來(lái)分,包括檢測(cè)突變的有無(wú)[15]、染色體拷貝數(shù)的多少[16]、DNA甲基化的程度[17]、病原體的感染[18]等。隨著二代測(cè)序技術(shù)的發(fā)展,全基因組測(cè)序、多維度信息整合是液體活檢未來(lái)的發(fā)展趨勢(shì)[2]。血漿游離DNA的全基因組甲基化測(cè)序數(shù)據(jù)除了用以獲取DNA甲基化程度外,還蘊(yùn)含著部分點(diǎn)突變、拷貝數(shù)變異、片段化模式的信息,具有極大的應(yīng)用潛力。然而,目前尚缺乏對(duì)血漿游離DNA全基因組甲基化數(shù)據(jù)中非甲基化信息的詳細(xì)論證與研究。
目前最常見(jiàn)的血漿游離DNA的全基因組甲基化檢測(cè)是基于全基因組重亞硫酸鹽測(cè)序 (Whole genome bisulfite sequencing,WGBS)。其基本原理為:在重亞硫酸鹽的作用下,DNA序列中非甲基化的胞嘧啶C會(huì)轉(zhuǎn)化為尿嘧啶U,經(jīng)過(guò)PCR擴(kuò)增后變成胸腺嘧啶T,而甲基化的C則不變,將測(cè)序片段與人的基因組比對(duì)后,即可定量C位點(diǎn)的甲基化狀態(tài)。這一過(guò)程主要分為建庫(kù)測(cè)序?qū)嶒?yàn)和數(shù)據(jù)分析兩部分,其中,甲基化建庫(kù)方式分為轉(zhuǎn)化前建庫(kù) (Pre-BS) 和轉(zhuǎn)化后建庫(kù) (Post-BS) 兩種[19]。在重亞硫酸鹽轉(zhuǎn)化過(guò)程中DNA有可能被打斷。Pre-BS建庫(kù)在轉(zhuǎn)化之前連接測(cè)序接頭,部分DNA被打斷丟失,但測(cè)序獲得的序列均為真實(shí)的原始片段;Post-BS建庫(kù)在轉(zhuǎn)化之后連接測(cè)序接頭,避免了DNA因斷裂失去接頭而損失,但人工引入了被打斷的片段。因此,兩種建庫(kù)方式在檢出甲基化和片段化模式中各有利弊,Pre-BS保留了片段長(zhǎng)度信息,Post-BS所需DNA的起始量更低。目前,測(cè)序公司對(duì)于Pre-BS建庫(kù)的送樣要求為1 μg,對(duì)于Post-BS建庫(kù)的送樣要求則至少為20 ng。而在研究型實(shí)驗(yàn)室中,在使用更高成本的試劑的前提下,Pre-BS的起始量可低至10 ng,Post-BS的起始量則僅需0.5 ng。按照血漿游離DNA提取濃度為20 ng/mL計(jì)算,僅需抽取5 mL血液,獲取2–3 mL血漿即可滿(mǎn)足公司的Post-BS建庫(kù)和實(shí)驗(yàn)室的Pre-BS建庫(kù)需求。
本研究從血漿游離DNA全基因組甲基化測(cè)序的實(shí)用性和穩(wěn)定性角度出發(fā),探究血漿游離DNA的采集提取過(guò)程的穩(wěn)定性、不同甲基化建庫(kù)方式的異同點(diǎn)與質(zhì)量控制評(píng)價(jià)、甲基化測(cè)序中的片段化模式信息,為血漿游離DNA全基因組甲基化測(cè)序應(yīng)用于癌癥檢測(cè)、無(wú)創(chuàng)產(chǎn)前檢測(cè)等液體活檢領(lǐng)域提供實(shí)用性的基礎(chǔ)參考。
1.1.1 血液采集及血漿分離
為了比較不同人、不同采血時(shí)間、是否為凍存血樣等因素對(duì)血漿游離DNA采集的影響,研究采集了兩名志愿者 (P1為男性,P2為女性) 在兩個(gè)時(shí)間點(diǎn) (第一次采血時(shí)間記為w0,6周后第二次采血時(shí)間記為w6) 的血樣。血液采集方式使用標(biāo)準(zhǔn)采血流程,使用10 mL EDTA抗凝管低溫運(yùn)輸,并在采血后的2 h內(nèi)分離血漿。血漿分離步驟為:將混有EDTA的血液置于冷凍高速離心機(jī)中,4 ℃、1 600×離心10 min;在超凈臺(tái)中將上層血漿轉(zhuǎn)移至離心管中,再次4 ℃、16 000×離心 10 min;將上清分裝至1.5 mL EP管中,用于后續(xù)提取血漿游離DNA,或?80 ℃冷凍保存。
1.1.2 血漿游離DNA的提取
不同于組織或細(xì)胞的基因組DNA,血漿游離DNA在血液中的含量極低,不能使用基因組DNA的試劑盒提取血漿游離DNA。通過(guò)文獻(xiàn)調(diào)研與比較,我們選擇了QIAamp Circulating Nucleic Acid試劑盒提取血漿游離DNA。同時(shí),將相同的血漿樣品通過(guò)干冰運(yùn)輸分別送至市面上主流的兩家測(cè)序服務(wù)提供商 (公司A、公司B),進(jìn)行血漿游離DNA的提取服務(wù),每家公司重復(fù)一次。通過(guò)Qubit熒光劑測(cè)量血漿游離DNA的濃度,并計(jì)算每毫升血漿中的得率;通過(guò)安捷倫2100生物分析儀測(cè)量血漿游離DNA的片段大小,合格的樣品主峰應(yīng)該在170 bp左右,且無(wú)大片段的基因組污染;通過(guò)重復(fù)試驗(yàn)間的濃度比較,確定提取的穩(wěn)定性。
1.1.3 血漿游離DNA的建庫(kù)和測(cè)序
對(duì)于血漿游離DNA,市場(chǎng)上主流測(cè)序公司僅提供微量全基因組甲基化建庫(kù)服務(wù) (Post-BS建庫(kù)方式),我們?cè)趯?shí)驗(yàn)室進(jìn)行了全基因組甲基化的微量Pre-BS建庫(kù),并將兩種建庫(kù)方式的結(jié)果進(jìn)行比較。同時(shí),為比較A和B兩家公司提取血漿游離DNA的得率和穩(wěn)定性,選擇公司A對(duì)兩名志愿者的3次血樣進(jìn)行提取建庫(kù)和測(cè)序,公司B對(duì)一次血樣進(jìn)行提取建庫(kù)和測(cè)序,每個(gè)血樣設(shè)置一次重復(fù)。公司A與B一共構(gòu)建完成8個(gè)甲基化文庫(kù)。此外,為了探究不同甲基化建庫(kù)方式對(duì)DNA甲基化、片段長(zhǎng)度的影響,我們對(duì)同樣的血漿樣品進(jìn)行了非甲基化的常規(guī)全基因組建庫(kù)測(cè)序作為參照。本研究使用的測(cè)序平臺(tái)包括Illumina的NovaSeq 6000和Hiseq X Ten,測(cè)序讀長(zhǎng)均為雙端150 bp。本研究中關(guān)于血漿游離DNA樣本的血液來(lái)源志愿者、采血時(shí)間、建庫(kù)方式、測(cè)序平臺(tái)、建庫(kù)實(shí)驗(yàn)室等詳細(xì)信息見(jiàn)表1。
針對(duì)血漿游離DNA測(cè)序數(shù)據(jù)的特點(diǎn),本研究開(kāi)發(fā)了一套血漿游離DNA預(yù)處理與質(zhì)量控制的流程,包括檢驗(yàn)測(cè)序質(zhì)量、去除接頭序列、比對(duì)基因組、去除PCR重復(fù)、計(jì)算轉(zhuǎn)化效率、片段長(zhǎng)度分布、覆蓋度和深度等。
表1 研究涉及血漿游離DNA的樣本信息
1.2.1 cfDNA全基因組甲基化數(shù)據(jù)的預(yù)處理
對(duì)于SP7之外的全基因組甲基化數(shù)據(jù),進(jìn)行如下預(yù)處理步驟:首先,使用FastQC軟件對(duì)數(shù)據(jù)的測(cè)序質(zhì)量、堿基分布、序列重復(fù)次數(shù)、接頭污染情況等進(jìn)行初步統(tǒng)計(jì)。由于基因組大部分C位點(diǎn)無(wú)甲基化修飾,測(cè)序?yàn)門(mén)堿基,因此在甲基化文庫(kù)序列中,T的比例最高,C的比例最低,造成堿基不均衡現(xiàn)象。然后,由于血漿游離DNA的片段長(zhǎng)度較短,當(dāng)片段長(zhǎng)度短于測(cè)序讀長(zhǎng)時(shí),雙端測(cè)序讀段的3′端包含部分測(cè)序接頭序列。我們通過(guò)Cutadapt軟件截去接頭序列。下一步,使用BS-Seeker2軟件[20]將甲基化測(cè)序數(shù)據(jù)比對(duì)到人的hg19基因組上,匹配模式為局部比對(duì)。最后,使用Picard軟件去除比對(duì)到同一位置的重復(fù)片段,計(jì)算全基因組每一CpG位點(diǎn)上比對(duì)的片段數(shù)目和甲基化片段數(shù)目。
1.2.2 cfDNA全基因組測(cè)序數(shù)據(jù)的預(yù)處理
由于本研究涉及的血漿游離DNA全基因組甲基化測(cè)序受到多因素影響,而采集的樣本有限,因此,設(shè)置cfDNA全基因組測(cè)序數(shù)據(jù) (Whole genome sequencing, WGS) 作為基礎(chǔ)對(duì)照,并搜集公共數(shù)據(jù)集中健康人的血漿游離DNA全基因組數(shù)據(jù),彌補(bǔ)樣本數(shù)量的不足,增強(qiáng)結(jié)論的可信度。本研究搜集的公共數(shù)據(jù)集包括GEO數(shù)據(jù)庫(kù)中的GSE71378數(shù)據(jù)集 (樣本編號(hào)BH01,美國(guó)多個(gè)健康人的血漿游離DNA混合測(cè)序數(shù)據(jù))[21]以及EGA數(shù)據(jù)庫(kù)中的EGAS00001001024數(shù)據(jù)集 (樣本編號(hào)C309–314,中國(guó)香港健康人血漿游離DNA測(cè)序數(shù)據(jù))[22]。與甲基化測(cè)序數(shù)據(jù)相比,血漿游離DNA的全基因組數(shù)據(jù)處理流程類(lèi)似,使用esATAC包[23]去除接頭序列和比對(duì)基因組,使用Picard去除PCR重復(fù)擴(kuò)增的片段。
1.2.3 cfDNA文庫(kù)的質(zhì)量控制標(biāo)準(zhǔn)
在測(cè)序數(shù)據(jù)的預(yù)處理過(guò)程中,分別統(tǒng)計(jì)測(cè)序片段數(shù)、成功比對(duì)片段數(shù)、去重后片段數(shù),計(jì)算比對(duì)率、PCR重復(fù)率和測(cè)序有效率,其中PCR重復(fù)率越低越好,比對(duì)率和測(cè)序有效率越高越好。對(duì)有效片段統(tǒng)計(jì)其長(zhǎng)度分布,觀(guān)測(cè)主峰位置是否符合血漿游離DNA的長(zhǎng)度特點(diǎn)。再基于片段的實(shí)際長(zhǎng)度,用片段覆蓋到的基因組區(qū)域除以基因組總長(zhǎng)度計(jì)算覆蓋度,使用片段總堿基數(shù)除以覆蓋基因組范圍得到平均測(cè)序深度。我們以上述參數(shù)為指標(biāo),比較不同建庫(kù)方式、不同實(shí)驗(yàn)室建庫(kù)獲得的血漿游離DNA甲基化測(cè)序數(shù)據(jù)的質(zhì)量。
PCR重復(fù)率與測(cè)序深度息息相關(guān),對(duì)同一文庫(kù)來(lái)說(shuō),測(cè)序較淺時(shí),我們發(fā)現(xiàn)重復(fù)片段的概率較低,PCR重復(fù)率低;隨著測(cè)序加深,PCR重復(fù)率逐漸升高。對(duì)原始測(cè)序數(shù)據(jù)進(jìn)行降采樣,以5 M測(cè)序片段為步長(zhǎng)設(shè)計(jì)采樣點(diǎn),每個(gè)采樣點(diǎn)重復(fù) 兩次,分別計(jì)算重復(fù)率,取兩次重復(fù)的平均值觀(guān)測(cè)PCR重復(fù)率與測(cè)序深度的關(guān)系。此外,自建庫(kù)的SP10和SP11測(cè)序過(guò)程分為兩步,首先測(cè)序5G原始數(shù)據(jù),根據(jù)上述標(biāo)準(zhǔn)判斷文庫(kù)質(zhì)量,然后根據(jù)文庫(kù)復(fù)雜度進(jìn)行加測(cè),由此得到的兩次獨(dú)立上機(jī)的數(shù)據(jù)可用于探索同一文庫(kù)在兩次測(cè)序中的結(jié)果異同。后續(xù)分析比較使用兩次測(cè)序合并的數(shù)據(jù)。
借鑒文獻(xiàn)中的短片段比例作為片段化模式特征[14],分別計(jì)算SP1–11和美國(guó)人血漿游離DNA混合測(cè)序數(shù)據(jù)BH01、中國(guó)香港人血漿游離DNA測(cè)序數(shù)據(jù)C309–314的全基因組片段化模式圖譜。具體步驟如下:首先,將基因組劃分為不重疊的 5 M寬的窗口,計(jì)算每個(gè)窗口內(nèi)長(zhǎng)度為100–150 bp的短片段數(shù)量和長(zhǎng)度為150–220 bp的長(zhǎng)片段數(shù)量,短片段占比為短片段數(shù)量除以長(zhǎng)短片段總數(shù)。為了避免性別對(duì)片段化模式特征的影響,將X和Y性染色體排除在外。為了使不同樣本間可比,對(duì)短片段占比進(jìn)行標(biāo)準(zhǔn)化,通過(guò)減去均值使片段化模式特征分布于0附近,再用于后續(xù)聚類(lèi)分析。
為了定量刻畫(huà)不同血漿游離DNA文庫(kù)的片段化模式差異,以全基因組的短片段占比為特征向量,計(jì)算兩兩樣本間的皮爾森相關(guān)系數(shù),再采用非加權(quán)配對(duì)算術(shù)平均法進(jìn)行聚類(lèi),得到血漿游離DNA甲基化數(shù)據(jù)的片段化模式關(guān)系。
為了探究人群差異、采血時(shí)間、血漿凍存時(shí)間、起始血漿體積等因素對(duì)血漿游離DNA提取的影響,本研究采集了兩名志愿者在兩個(gè)時(shí)間點(diǎn)的血樣,將血漿凍存不同時(shí)間后使用同一流程進(jìn)行多次提取,血漿游離DNA的提取濃度見(jiàn)表2。結(jié)果表明,兩名志愿者的血漿游離DNA濃度存在顯著差異;同一個(gè)人在不同時(shí)間采集的血漿游離DNA趨于穩(wěn)定,采血時(shí)間對(duì)血漿游離DNA濃度的影響不及不同人的影響大;凍存時(shí)間與游離DNA濃度并不是正比關(guān)系,而是呈現(xiàn)游離DNA濃度隨著凍存時(shí)間加長(zhǎng)而先增大后減小的趨勢(shì)。這可能是因?yàn)椋涸谛迈r血漿中,細(xì)胞的基因組DNA較為完整,容易在提取過(guò)程中去除;當(dāng)血漿凍存一段時(shí)間后,基因組DNA逐漸降解,混入游離DNA中一起提取,從而增加了血漿游離DNA的濃度;當(dāng)血漿經(jīng)過(guò)長(zhǎng)期冷凍后,DNA降解消失現(xiàn)象增多,血漿游離DNA的濃度逐漸減少。通過(guò)使用安捷倫2100生物分析儀對(duì)凍存血漿中游離DNA的長(zhǎng)度分布進(jìn)行檢測(cè),證實(shí)了凍存血漿中大片段基因組污染增多的觀(guān)點(diǎn)。實(shí)際上,DNA濃度不僅與血漿中片段的摩爾量有關(guān),而且與片段長(zhǎng)度直接相關(guān)。因此,當(dāng)存在基因組污染時(shí),使用質(zhì)量濃度定量血漿游離DNA是不準(zhǔn)確的,即使大片段的摩爾量很少,百倍的片段長(zhǎng)度也會(huì)使測(cè)得的游離DNA濃度虛高??赡芨_定量血漿游離DNA的方案有:方案1是通過(guò)片段選擇去除長(zhǎng)片段后檢測(cè)游離DNA的質(zhì)量濃度,排除長(zhǎng)片段的干擾;方案2是使用摩爾濃度替代質(zhì)量濃度,通過(guò)qPCR定量血漿中游離DNA的摩爾數(shù)量,避免片段長(zhǎng)度對(duì)定量準(zhǔn)確性的影響。
表2 多因素對(duì)血漿游離DNA提取濃度的影響
The lines in bold corresponding to SP10 and SP11 in table 3.
為了比較不同實(shí)驗(yàn)室提取血漿游離DNA的濃度與穩(wěn)定性差異,將兩名志愿者的多個(gè)血漿樣本分別送至公司A、B進(jìn)行血漿游離DNA提取,最終提取濃度與本實(shí)驗(yàn)室的兩樣本提取結(jié)果匯總見(jiàn) 表3。從表中可以觀(guān)察到不同實(shí)驗(yàn)室是影響血漿游離DNA提取濃度的關(guān)鍵因素,公司A提取的SP1–7濃度較低,公司B提取的SP8–9濃度較高,但重復(fù)實(shí)驗(yàn)間的一致性較差。此外,在公司A提取的樣本中,來(lái)自P2個(gè)體的樣本(SP3–4) 的cfDNA濃度低于來(lái)自P1個(gè)體的樣本 (SP1–2、SP5–7),與前面本實(shí)驗(yàn)室提取的結(jié)果一致。最后,使用安捷倫2 100生物分析儀檢測(cè)血漿游離DNA的片段長(zhǎng)度分布,確認(rèn)SP1–11無(wú)基因組污染,提取結(jié)果達(dá)到了建庫(kù)要求,可以進(jìn)行后續(xù)建庫(kù)和測(cè)序。
表3 研究中血漿游離DNA的提取濃度
SP1 and SP2 are different libraries from the same extracted DNA.
2.2.1 血漿游離DNA數(shù)據(jù)的質(zhì)量控制
本研究涉及Pre-BS和Post-BS兩種甲基化建庫(kù)方式。10個(gè)血漿游離DNA甲基化文庫(kù)的Qubit濃度和2 100片段分布都符合上機(jī)測(cè)序要求,血漿游離DNA甲基化測(cè)序數(shù)據(jù)的預(yù)處理和質(zhì)量控制結(jié)果見(jiàn)表4。公司A建庫(kù)的SP1–6的局部比對(duì)率不超過(guò)40%,遠(yuǎn)低于公司B建庫(kù)的SP8–9。當(dāng)使用全局匹配模式進(jìn)行比對(duì)時(shí),SP1–6的成功比對(duì)率只有25%左右。在排除了接頭序列污染等流程不當(dāng)?shù)囊蛩睾?,我們?cè)谖闯晒Ρ葘?duì)的片段中觀(guān)測(cè)到了部分PCR異源雙鏈核酸分子,確認(rèn)造成比對(duì)率低的原因發(fā)生于公司A的甲基化建庫(kù)過(guò)程中。由于比對(duì)率的不足,造成與SP8–9相似測(cè)序深度的SP1–4、SP6的總有效片段數(shù)量較少,基因組覆蓋度偏低,平均有效深度僅 (1–2)×;對(duì)于測(cè)序量是SP8或SP9三倍的SP5,其獲得的有效片段數(shù)、平均深度與SP8、SP9持平。綜合來(lái)看,公司B的血漿游離DNA甲基化建庫(kù)的數(shù)據(jù)有效率比公司A更高??紤]Pre-BS與Post-BS兩種建庫(kù)方式的特點(diǎn),可見(jiàn)SP10–11的PCR重復(fù)率略高于SP8–9,這可能是因?yàn)镻re-BS建庫(kù)打斷損失了部分血漿游離DNA,文庫(kù)復(fù)雜度降低導(dǎo)致PCR重復(fù)片段增多。
2.2.2 血漿游離DNA數(shù)據(jù)的文庫(kù)復(fù)雜度評(píng)價(jià)
在表4中,可見(jiàn)PCR重復(fù)率與測(cè)序深度高度相關(guān),測(cè)序最深的SP5和SP10是重復(fù)率最高的兩個(gè)樣本。為了更精確地定量比較血漿游離DNA甲基化文庫(kù)的復(fù)雜度差異,我們對(duì)有效片段數(shù)較多的SP5、SP8–11的原始甲基化測(cè)序數(shù)據(jù)作了降采樣分析,結(jié)果如圖1所示。隨著測(cè)序數(shù)據(jù)的采樣下降,PCR重復(fù)率下降,符合正相關(guān)關(guān)系。對(duì)比同一降采樣深度下不同文庫(kù)的重復(fù)率,發(fā)現(xiàn)公司A的SP5文庫(kù)重復(fù)率最高;公司B的SP8、SP9文庫(kù)重復(fù)率最低;SP10、SP11兩個(gè)Pre-BS文庫(kù)理論上應(yīng)該重復(fù)率較高,但實(shí)際上介于公司A和公司B的Post-BS文庫(kù)之間。重復(fù)率的高低直接關(guān)系到測(cè)序成本和文庫(kù)的極限測(cè)序量,是建庫(kù)水平的一個(gè)直觀(guān)反映。有趣的一點(diǎn)是,同一文庫(kù)在兩次獨(dú)立測(cè)序中得到的重復(fù)率曲線(xiàn)不完全相同。具體來(lái)說(shuō),圖1中test_SP10與test_SP11的重復(fù)率高于SP10和SP11,當(dāng)預(yù)期測(cè)序深度較低時(shí),所得數(shù)據(jù)的重復(fù)率高于高深度數(shù)據(jù)的降采樣重復(fù)率。這可能是因?yàn)椋貉獫{游離DNA甲基化文庫(kù)的復(fù)雜度有限,不同預(yù)期測(cè)序量下的上機(jī)文庫(kù)量不同,造成文庫(kù)的復(fù)雜度、重復(fù)率差異。
表4 血漿游離DNA甲基化數(shù)據(jù)的質(zhì)量控制
2.2.3 血漿游離DNA數(shù)據(jù)的片段長(zhǎng)度分布
除了成功比對(duì)率、重復(fù)率、覆蓋度深度等質(zhì)量控制指標(biāo)之外,血漿游離DNA甲基化文庫(kù)的評(píng)價(jià)標(biāo)準(zhǔn)還包括片段長(zhǎng)度分布。根據(jù)成功比對(duì)的片段繪制血漿游離DNA甲基化文庫(kù)的長(zhǎng)度分布曲線(xiàn),同時(shí)對(duì)比非甲基化建庫(kù)的SP7和多個(gè)健康人混合數(shù)據(jù)BH01,所得結(jié)果如圖2所示。圖2中虛線(xiàn)為170 bp,BH01和SP7–11文庫(kù)的主峰均在170 bp附近,而公司A建庫(kù)的SP1–6主峰明顯偏離170 bp。此外,更為嚴(yán)重的問(wèn)題是公司A實(shí)驗(yàn)的Post-BS文庫(kù)和SP7都存在長(zhǎng)度分布截?cái)嗟默F(xiàn)象。事實(shí)上,實(shí)驗(yàn)中的片段選擇步驟難以做到完全截?cái)?,不?huì)是垂直的長(zhǎng)度分布曲線(xiàn)。經(jīng)過(guò)反復(fù)排查測(cè)序數(shù)據(jù)的預(yù)處理流程,采取局部比對(duì)基因組的策略,問(wèn)題依然存在??紤]到片段長(zhǎng)度截?cái)喟l(fā)生在150 bp以?xún)?nèi),有可能是因?yàn)闇y(cè)序公司在生成原始數(shù)據(jù)時(shí),默認(rèn)過(guò)濾了含有部分接頭序列的片段。對(duì)于基因組DNA的常規(guī)建庫(kù)來(lái)說(shuō),文庫(kù)大小 (200–400 bp) 遠(yuǎn)高于測(cè)序的讀長(zhǎng) (150 bp),因此舍棄短片段不會(huì)影響測(cè)序數(shù)據(jù)的分析,但是對(duì)于血漿游離DNA來(lái)說(shuō),過(guò)濾短片段會(huì)對(duì)后續(xù)分析的影響較大。例如,癌癥病人血漿游離DNA比健康人更短[24],使用長(zhǎng)度為90–150 bp的血漿游離DNA可以更靈敏地區(qū)分癌癥病人和健康人[25]。換句話(huà)說(shuō),血漿游離DNA的短片段中,癌癥來(lái)源片段的比例更高,舍棄短片段將直接影響血漿游離DNA的應(yīng)用。
圖1 測(cè)序深度與文庫(kù)重復(fù)率的關(guān)系
圖2 血漿游離DNA文庫(kù)的長(zhǎng)度分布(A:WGS文庫(kù)的長(zhǎng)度分布;B:公司A構(gòu)建的Post-BS文庫(kù)的長(zhǎng)度分布;C:公司B構(gòu)建的Post-BS文庫(kù)的長(zhǎng)度分布;D:Pre-BS甲基化文庫(kù)的長(zhǎng)度分布)
對(duì)比Pre-BS和Post-BS建庫(kù)的片段長(zhǎng)度區(qū)別,可見(jiàn)SP10與SP11這兩個(gè)Pre-BS文庫(kù)的片段長(zhǎng)度分布呈現(xiàn)10 bp左右的周期,與非甲基化建庫(kù) (WGS) 的公共數(shù)據(jù)BH01中的周期一致,而兩家公司的Post-BS數(shù)據(jù)中,血漿游離DNA片段長(zhǎng)度分布比較平滑。由于Pre-BS與Post-BS兩種建庫(kù)方式是分別在不同實(shí)驗(yàn)室完成的,所以不能排除實(shí)驗(yàn)室差異的因素造成片段長(zhǎng)度分布的差異。但至少,這一現(xiàn)象證實(shí)了Pre-BS可以保留部分片段長(zhǎng)度信息,而公司A、B的Post-BS建庫(kù)對(duì)精細(xì)的片段長(zhǎng)度信息損失較多。
為了進(jìn)一步闡述血漿游離DNA甲基化文庫(kù)中的片段長(zhǎng)度信息,研究參考了文獻(xiàn)中的血漿游離DNA長(zhǎng)度特征[14],使用全基因組5 M窗口內(nèi)的短片段比例作為特征,繪制甲基化與常規(guī)文庫(kù)的全基因組片段化模式圖譜,所得結(jié)果見(jiàn)圖3。
由于在考察血漿游離DNA的長(zhǎng)度特征時(shí),全基因組測(cè)序比全基因組甲基化測(cè)序更能反映真實(shí)情況,因此,本研究將全基因組甲基化數(shù)據(jù)中的片段長(zhǎng)度特征與全基因組測(cè)序數(shù)據(jù)進(jìn)行比較,以期評(píng)估血漿游離DNA甲基化數(shù)據(jù)中的片段長(zhǎng)度信息。此外,為了反映片段長(zhǎng)度在人群中的差異,還搜集了兩個(gè)公共數(shù)據(jù)集中的健康人血漿游離DNA全基因組測(cè)序數(shù)據(jù) (美國(guó)多個(gè)健康人混合血漿測(cè)序數(shù)據(jù)BH01、中國(guó)香港健康人血漿測(cè)序數(shù)據(jù)C309–314)。從圖3可以看出,SP10–11中Pre-BS甲基化數(shù)據(jù)得到的片段化模式特征在全基因組的方差較大,信息量更大,其分布模式與WGS數(shù)據(jù)BH01、SP7相似,而與SP1–6與SP8–9中Post-BS數(shù)據(jù)存在顯著差異。這一現(xiàn)象再次印證了Pre-BS保留片段長(zhǎng)度信息的特點(diǎn)。
我們根據(jù)血漿游離DNA的全基因組片段化模式圖譜,計(jì)算樣本間的相關(guān)關(guān)系,聚類(lèi)分析推斷樣本間相似性,聚類(lèi)結(jié)果如圖4所示。SP10–11中Pre-BS數(shù)據(jù)與SP7、BH01相關(guān)性高;公司B建庫(kù)的Post-BS數(shù)據(jù)和C309–314聚在一起;而公司A建庫(kù)的Post-BS數(shù)據(jù)單獨(dú)聚在一起。從聚類(lèi)結(jié)果可以觀(guān)察到血漿游離DNA的Pre-BS數(shù)據(jù)可以保留WGS的片段化模式特征;公司B建庫(kù)Post-BS數(shù)據(jù)也捕獲了部分片段化模式特征,對(duì)應(yīng)到圖3的基因組圖譜中,例如1號(hào)、10號(hào)染色體的圖譜模式印證了Post-BS B與C309–314更相似。總體來(lái)說(shuō),不管是Pre-BS還是Post-BS甲基化建庫(kù),都含有血漿游離DNA的片段化模式信息,不同甲基化建庫(kù)方式的數(shù)據(jù)差異與不同實(shí)驗(yàn)室的WGS數(shù)據(jù)差異相當(dāng),說(shuō)明甲基化與非甲基化建庫(kù)方式對(duì)片段化模式的影響甚至不及人群因素的影響大。但是,對(duì)于公司A產(chǎn)出的Post-BS數(shù)據(jù),其片段化模式與WGS數(shù)據(jù)相關(guān)性差,這一點(diǎn)有可能與公司A的短片段截?cái)嘤嘘P(guān)。
圖3 血漿游離DNA全基因組數(shù)據(jù)中的片段化模式
圖4 血漿游離DNA文庫(kù)間的片段化模式相關(guān)性
血漿游離DNA在液體活檢領(lǐng)域有著廣泛的應(yīng)用,在癌癥檢測(cè)領(lǐng)域,血漿游離DNA中部分位點(diǎn)的檢測(cè)試劑盒已經(jīng)得到國(guó)家食品藥品監(jiān)督管理總局的批準(zhǔn),應(yīng)用于人群的癌癥篩查中。隨著新一代測(cè)序技術(shù)的不斷發(fā)展,血漿游離DNA的全基因組甲基化測(cè)序在早期癌癥的檢測(cè)與腫瘤溯源方面具有良好的應(yīng)用前景。
本研究通過(guò)對(duì)不同人、不同采血時(shí)間、不同凍存時(shí)間、不同建庫(kù)方式、不同測(cè)序平臺(tái)、不同公司等變量的分析,探究了血漿游離DNA的采集、提取、建庫(kù)、測(cè)序、信息分析過(guò)程,綜合評(píng)估實(shí)驗(yàn)的穩(wěn)定性和甲基化數(shù)據(jù)的實(shí)用性。研究結(jié)果表明:針對(duì)血漿游離DNA的采集提取穩(wěn)定性,兩名健康異性志愿者的血漿游離DNA濃度在5–65 ng/mL范圍內(nèi),兩人的血漿游離DNA濃度有顯著差異,而不同采血時(shí)間的濃度較為穩(wěn)定;針對(duì)血漿游離DNA的建庫(kù)測(cè)序穩(wěn)定性,我們發(fā)現(xiàn)不同測(cè)序公司間的建庫(kù)質(zhì)量存在較大差異,并存在短序列讀段的長(zhǎng)度截?cái)嗟雀蓴_因素;針對(duì)Pre-BS與Post-BS甲基化建庫(kù)的實(shí)用性,結(jié)果表明抽取5 mL血液即可滿(mǎn)足Pre-BS與Post-BS的建庫(kù)需求,同時(shí)Pre-BS保留了更精細(xì)的片段長(zhǎng)度信息;針對(duì)血漿游離DNA甲基化數(shù)據(jù)中的片段化模式,我們發(fā)現(xiàn)Pre-BS甲基化測(cè)序數(shù)據(jù)中能提取到與WGS相似的片段化模式特征。這些實(shí)用性與穩(wěn)定性的評(píng)估結(jié)果將為血漿游離DNA全基因組甲基化測(cè)序應(yīng)用于液體活檢領(lǐng)域提供有力的參考和支撐。
[1] Chan AK, Chiu RW, Lo YM, et al. Cell-free nucleic acids in plasma, serum and urine: a new tool in molecular diagnosis. Ann Clin Biochem, 2003, 40(2): 122–130.
[2] Heitzer E, Haque IS, Roberts CES, et al. Current and future perspectives of liquid biopsies in genomics-driven oncology. Nat Rev Genet, 2019, 20(2): 71–88.
[3] Schwarzenbach H, Hoon DS, Pantel K. Cell-free nucleic acids as biomarkers in cancer patients. Nat Rev Cancer, 2011, 11(6): 426–437.
[4] Lui YY, Chik KW, Chiu RW, et al. Predominant hematopoietic origin of cell-free DNA in plasma and serum after sex-mismatched bone marrow transplantation. Clin Chem, 2002, 48(3): 421–427.
[5] Wan JCM, Massie C, Garcia-Corbacho J, et al. Liquid biopsies come of age: towards implementation of circulating tumour DNA. Nat Rev Cancer, 2017, 17(4): 223–238.
[6] Sun K, Jiang PY, Chan KCA, et al. Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal, cancer, and transplantation assessments. Proc Natl Acad Sci USA, 2015, 112(40): E5503–E5512.
[7] De Rubis G, Rajeev Krishnan S, Bebawy M. Liquid biopsies in cancer diagnosis, monitoring, and prognosis. Trends Pharmacol Sci, 2019, 40(3): 172–186.
[8] Li WY, Li QJ, Kang SL, et al. CancerDetector: ultrasensitive and non-invasive cancer detection at the resolution of individual reads using cell-free DNA methylation sequencing data. Nucleic Acids Res, 2018, 46(15): e89.
[9] Ooki A, Maleki Z, Tsay JJ, et al. A panel of novel detection and prognostic methylated DNA markers in primary non-small cell lung cancer and serum DNA. Clin Cancer Res, 2017, 23(22): 7141–7152.
[10] Cohen JD, Li L, Wang YX, et al. Detection and localization of surgically resectable cancers with a multi-analyte blood test. Science, 2018, 359(6378): 926–930.
[11] Liu L, Toung JM, Jassowicz AF, et al. Targeted methylation sequencing of plasma cell-free DNA for cancer detection and classification. Ann Oncol, 2018, 29(6): 1445–1453.
[12] Jamal-Hanjani M, Wilson GA, Horswell S, et al. Detection of ubiquitous and heterogeneous mutations in cell-free DNA from patients with early-stage non-small-cell lung cancer. Ann Oncol, 2016, 27(5): 862–867.
[13] Guo SC, Diep D, Plongthongkum N, et al. Identification of methylation haplotype blocks aids in deconvolution of heterogeneous tissue samples and tumor tissue-of-origin mapping from plasma DNA. Nat Genet, 2017, 49(4): 635–642.
[14] Cristiano S, Leal A, Phallen J, et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature, 2019, 570(7761): 385–389.
[15] Qu CF, Wang YT, Wang P, et al. Detection of early-stage hepatocellular carcinoma in asymptomatic HBsAg-seropositive individuals by liquid biopsy. Proc Natl Acad Sci USA, 2019, 116(13): 6308–6312.
[16] Chan KCA, Jiang PY, Chan CWM, et al. Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing. Proc Natl Acad Sci USA, 2013, 110(47): 18761–18768.
[17] Feng H, Jin P, Wu H. Disease prediction by cell-free DNA methylation. Brief Bioinform, 2019, 20(2): 585–597.
[18] Lam WKJ, Jiang PY, Chan KCA, et al. Sequencing-based counting and size profiling of plasma Epstein-Barr virus DNA enhance population screening of nasopharyngeal carcinoma. Proc Natl Acad Sci USA, 2018, 115(22): E5115–E5124.
[19] Olova N, Krueger F, Andrews S, et al. Comparison of whole-genome bisulfite sequencing library preparation strategies identifies sources of biases affecting DNA methylation data. Genome Biol, 2018, 19(1): 33.
[20] Guo WL, Fiziev P, Yan WH, et al. BS-Seeker2: a versatile aligning pipeline for bisulfite sequencing data. Bmc Genomics, 2013, 14: 774.
[21] Snyder MW, Kircher M, Hill AJ, et al. Cell-free DNA comprises annucleosome footprint that informs its tissues-of-origin. Cell, 2016, 164(1/2): 57–68.
[22] Jiang PY, Chan CWM, Chan KCA, et al. Lengthening and shortening of plasma DNA in hepatocellular carcinoma patients. Proc Natl Acad Sci USA, 2015, 112(11): E1317–E1325.
[23] Wei Z, Zhang W, Fang H, et al. esATAC: an easy-to-use systematic pipeline for ATAC-seq data analysis. Bioinformatics, 2018, 34(15): 2664–2665.
[24] Underhill HR, Kitzman JO, Hellwig S, et al. Fragment length of circulating tumor DNA. PLoS Genet, 2016, 12(7): e1006162.
[25] Mouliere F, Chandrananda D, Piskorz AM, et al. Enhanced detection of circulating tumor DNA by fragment size analysis. Sci Transl Med, 2018, 10(466): eaat4921.
Practical stability of whole-genome bisulfite sequencing using plasma cell-free DNA
Huan Fang, Bixi Zhong, Lei Wei, Xianglin Zhang, Wei Zhang, and Xiaowo Wang
,,,,,,100084,
With the development of liquid biopsy technology, plasma cell-free DNA (cfDNA) becomes one of the research hotspots. Whole-genome bisulfite sequencing of plasma cell-free DNA has shown great potential medical applications such as cancer detection. However, the practical stability evaluation is still lacking. In this study, plasma cell-free DNA samples from two volunteers at different time were collected and prepared for sequencing in multiple laboratories. The library preparation strategies include pre-bisulfite, post-bisulfite and regular whole-genome sequencing. We established a set of quality control references for plasma cell-free DNA sequencing data and evaluated practical stability of blood collection, DNA extraction, and library preparation and sequencing depth. This work provided a technical practice guide for the application of plasma cfDNA methylation sequencing for clinical applications.
plasma cell-free DNA, whole genome, DNA methylation, fragmentation pattern, low input library
June 26, 2019;
August30, 2019
National Natural Science Foundation of China (No. 61721003).
Xiaowo Wang. Tel: +86-10-62794294-808; Fax: +86-10-62783552; E-mail: xwwang@tsinghua.edu.cn
方歡, 鐘碧溪, 魏磊, 等. 血漿游離DNA全基因組甲基化測(cè)序的實(shí)用穩(wěn)定性評(píng)估. 生物工程學(xué)報(bào), 2019, 35(12): 2284–2294.
Fang H, Zhong BX, Wei L, et al. Practical stability of whole-genome bisulfite sequencing using plasma cell-free DNA. Chin J Biotech, 2019, 35(12): 2284–2294.
國(guó)家自然科學(xué)基金(No. 61721003)資助。
(本文責(zé)編 陳宏宇)