陳佳,舒明月,里進(jìn),付愛(ài)思,楊帆,王鄒,李一榮, 鄧子新,劉天罡
?
三代測(cè)序與靶向捕獲技術(shù)聯(lián)用進(jìn)行高分辨基因分型及MHC區(qū)域單倍體型精細(xì)鑒定
陳佳1,舒明月1,里進(jìn)2,付愛(ài)思1,楊帆3,王鄒3,李一榮2, 鄧子新1,劉天罡1
1. 武漢大學(xué)藥學(xué)院,組合生物合成與新藥發(fā)現(xiàn)教育部重點(diǎn)實(shí)驗(yàn)室,武漢 430071 2. 武漢大學(xué)中南醫(yī)院檢驗(yàn)醫(yī)學(xué)中心,武漢 430071 3. 武漢生物技術(shù)研究院公共技術(shù)服務(wù)平臺(tái),武漢 430071
人類白細(xì)胞抗原(human leukocyte antigen,)的高分辨率、精準(zhǔn)分型對(duì)于組織配型以及相關(guān)疾病研究具有重要意義。本研究以12位原發(fā)性肝細(xì)胞癌病人的外周血為供試樣本,分析二、三代測(cè)序數(shù)據(jù)用于高分辨率分型的優(yōu)劣勢(shì),同時(shí)結(jié)合探針捕獲與三代測(cè)序技術(shù)對(duì)YH、HeLa標(biāo)準(zhǔn)細(xì)胞系以及一個(gè)原發(fā)性肝細(xì)胞癌病人的主要組織相容性復(fù)合體(major histocompatibility complex,MHC)區(qū)域進(jìn)行靶向分析,探究長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)對(duì)于整個(gè)MHC區(qū)域精細(xì)分析的潛力。研究表明:(1)二、三代測(cè)序技術(shù)均能實(shí)現(xiàn)6~8位高分辨分型,且兩者分型結(jié)果一致。但是三代數(shù)據(jù)的覆蓋均一度顯著優(yōu)于二代,不會(huì)出現(xiàn)明顯的“斷層”現(xiàn)象;(2)超長(zhǎng)的三代數(shù)據(jù)可直接跨越整個(gè)擴(kuò)增子,對(duì)于基因單倍體型的判定(phasing)具有明顯優(yōu)勢(shì)。樣本中92.79%的基因能夠得到準(zhǔn)確的單倍體分型結(jié)果,遠(yuǎn)高于二代的75.65%;(3)長(zhǎng)讀長(zhǎng)的三代測(cè)序數(shù)據(jù)不但能實(shí)現(xiàn)對(duì)MHC區(qū)域的更好組裝,還具有對(duì)整個(gè)MHC共計(jì)3.6 Mb區(qū)域進(jìn)行phasing的能力,而這將有助于明確各個(gè)突變位點(diǎn)、等位基因、非編碼區(qū)等基因原件在每個(gè)MHC單倍體型上的定位與相互連鎖信息,為免疫等相關(guān)疾病的研究提供理論依據(jù)。
;MHC;三代測(cè)序;單倍體分型;NimbleGen探針捕獲技術(shù)
人類白細(xì)胞抗原(human leukocyte antigen,)基因位于人體第6號(hào)染色體的短臂,受控于人類主要組織相容性復(fù)合體(major histocompatib-ility complex, MHC)的基因簇[1],全長(zhǎng)約3.6 Mb,是目前所知人體最復(fù)雜的遺傳多態(tài)性系統(tǒng)[2,3]。
前期研究表明,基因的變異與傳染病[4]、藥物過(guò)敏反應(yīng)[5]、自身免疫疾病[6]、器官移植反應(yīng)[7]以及惡性腫瘤[1]等均有關(guān)聯(lián)。此外,近期研究也表明特定等位基因多態(tài)性與原發(fā)性肝細(xì)胞癌的發(fā)生相關(guān)[8]。因此,準(zhǔn)確的分型技術(shù)對(duì)于組織配型以及研究與疾病相關(guān)性具有重要意義。
由于MHC區(qū)域存在高度的多態(tài)性和廣泛的連鎖不平衡,因此研究人員對(duì)該區(qū)域所涉及到的分子機(jī)制的研究受到一定的限制。傳統(tǒng)基于聚合酶鏈?zhǔn)椒磻?yīng)等分型方法存在分辨率低、無(wú)法獲得單倍體型結(jié)果以及新等位基因信息等諸多問(wèn)題[9,10]。雖然以往Sanger測(cè)序技術(shù)被視為是分型的金標(biāo)準(zhǔn)[11],但其因通量低而逐步被各種第二代測(cè)序(next-generation sequencing, NGS)平臺(tái)所取代[9,12,13]。但是,NGS對(duì)于個(gè)體所具備的兩套同源染色體的獨(dú)特核苷酸信息,即“對(duì)單倍體型的判定”(phasing)的解析依然存在困難,而已有文獻(xiàn)表明準(zhǔn)確的單倍體分型能更好解讀基因與表型(包括疾病)之間的關(guān)系[14],尤其是對(duì)于等較大的基因,NGS因其讀長(zhǎng)短而很難準(zhǔn)確獲得單倍體型結(jié)果[15]?;趩畏肿訉?shí)時(shí)測(cè)序技術(shù)(single molecule real-time, SMRT)的第三代測(cè)序儀能產(chǎn)生平均長(zhǎng)度在10 kb以上的數(shù)據(jù),這不但有利于基因精確分型,還能實(shí)現(xiàn)對(duì)基因組復(fù)雜區(qū)域的組裝以及對(duì)某個(gè)基因內(nèi)及等位基因間差異的細(xì)致解析。目前利用該技術(shù)進(jìn)行基因組完成圖組裝或用于多倍體基因組中單倍體型的解析研究已有所報(bào)道[16,17]。
三代測(cè)序技術(shù)預(yù)期能實(shí)現(xiàn)對(duì)基因及MHC區(qū)域更精細(xì)的分析,從而準(zhǔn)確地確定每個(gè)基因甚至整個(gè)MHC區(qū)域的單倍體分型結(jié)果,并且可有效挖掘包括單核苷酸多態(tài)性(single nucleotide polymorph-hism, SNPs)在內(nèi)的一系列遺傳信息,這將極大地推進(jìn)各類與人體免疫相關(guān)研究的發(fā)展。本研究以12位原發(fā)性肝細(xì)胞癌病人的外周血為供試樣本,分析二、三代測(cè)序數(shù)據(jù)用于高分辨率分型的優(yōu)劣勢(shì),同時(shí)結(jié)合探針捕獲與三代測(cè)序技術(shù)對(duì)MHC區(qū)域進(jìn)行靶向分析,探究長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)對(duì)于整個(gè)MHC區(qū)域精細(xì)分析的潛力。
本研究收集的12位原發(fā)性肝細(xì)胞癌(hepatic-ellular carcinoma, HCC)患者外周血樣本均由武漢大學(xué)中南醫(yī)院提供,所有患者均簽署了知情同意書。YH標(biāo)準(zhǔn)細(xì)胞系由中國(guó)國(guó)家基因庫(kù)提供,HeLa細(xì)胞采購(gòu)自美國(guó)菌種保藏中心。
外周血樣本總DNA提取使用Hipure Blood DNA Mini Kit (廣州美基生物科技有限公司)完成,YH、HeLa細(xì)胞系總DNA的提取采用酚-氯仿提取法?;驍U(kuò)增使用GENDX NGSgo-AmpX試劑盒以及QIAGEN Long range PCR試劑盒(QIAGEN公司,德國(guó)),擴(kuò)增產(chǎn)物使用Qubit 2.0定量后等摩爾混合,不同樣本的擴(kuò)增子混合物分別采用Illumina Miseq以及PacBio RSII的標(biāo)準(zhǔn)混樣建庫(kù)流程進(jìn)行文庫(kù)制備及測(cè)序。PacBio RSII原始數(shù)據(jù)使用SMRT Portal中的RS_ReadsOfInsert方法進(jìn)行質(zhì)量過(guò)濾,得到環(huán)形一致性序列(circularCCS)將過(guò)濾的質(zhì)量值(即minimum predicted accuracy參數(shù))分別設(shè)為0.80、0.85、0.90、0.95和0.99,分別得到CCS0.80、CCS0.85、CCS0.90、CCS0.95和CCS0.99的高質(zhì)量數(shù)據(jù)。
分型分析中使用的各種開(kāi)源或商業(yè)分型軟件均采用從官方網(wǎng)站或者商業(yè)公司處獲得的最新版本,其中,NGSengine、HLAssign、HLA-reporter、Omixon、HLAminer、HLA-VBseq 和 OptiType用于二代數(shù)據(jù)分型,NGSengine和HLAminer用于三代不同數(shù)據(jù)類型以及不同質(zhì)量值CCS的數(shù)據(jù)分型。
使用Roche NimbleGen MHC探針捕獲試劑盒對(duì)MHC相關(guān)區(qū)域(包括傳統(tǒng)MHC區(qū)域和約1.0 Mb的MHC周邊區(qū)域)進(jìn)行捕獲,實(shí)驗(yàn)過(guò)程根據(jù)三代測(cè)序長(zhǎng)讀長(zhǎng)的特點(diǎn)對(duì)DNA打斷、DNA純化體系以及DNA雜交時(shí)間等操作進(jìn)行了優(yōu)化,采用PacBio RSII的標(biāo)準(zhǔn)流程進(jìn)行文庫(kù)制備及測(cè)序。使用FALCON軟件進(jìn)行數(shù)據(jù)組裝并且使用SMRT Portal中RS_Rese-quencing標(biāo)準(zhǔn)流程將原始測(cè)序數(shù)據(jù)比對(duì)到對(duì)應(yīng)參考基因組MHC參考序列,以計(jì)算數(shù)據(jù)覆蓋度并根據(jù)原始覆蓋度(該流程的默認(rèn)參數(shù))統(tǒng)計(jì)SNPs在MHC區(qū)域的分布(未對(duì)覆蓋度進(jìn)行篩選,95%以上的覆蓋度為100×)。
MHC區(qū)域單體型分析分別采用了FALCON- Unzip軟件以及targeted-phasing-consensus腳本(https://github.com/PacificBiosciences/targeted-phasing-consensus)兩套方法,并使用MUMmer軟件將得到的單倍體分型結(jié)果與其對(duì)應(yīng)的基因分型結(jié)果進(jìn)行比對(duì),評(píng)估上述兩套方法對(duì)MHC區(qū)域單倍體分型結(jié)果的差異。
利用包括全基因組、全外顯子組、轉(zhuǎn)錄組及基因擴(kuò)增子數(shù)據(jù)在內(nèi)的多種數(shù)據(jù)類型進(jìn)行分型的各種學(xué)術(shù)和商業(yè)化軟件已被廣泛使用(表1)。為評(píng)估分型軟件的準(zhǔn)確性以便從中選擇最佳的分型軟件用于與后續(xù)三代數(shù)據(jù)分型結(jié)果的比較,比較了7種不同的分型軟件對(duì)基于全長(zhǎng)擴(kuò)增子二代測(cè)序數(shù)據(jù)的分析性能。為了確保分型結(jié)果的可靠性,不論是Illumina Miseq還是PacBio RSII均保證了足夠的數(shù)據(jù)量。由于二代數(shù)據(jù)存在一定偏好,因此其覆蓋度會(huì)存在不均一的情況,不同基因的覆蓋度有一定的差異(圖1),但是總體而言,其95%以上的區(qū)域覆蓋度會(huì)大于200×。而三代數(shù)據(jù)的覆蓋度比二代數(shù)據(jù)更高(圖1)。通過(guò)比較,7種軟件對(duì)二代數(shù)據(jù)的分型結(jié)果展現(xiàn)出較大差異。從總體上來(lái)看,NGSengine對(duì)classⅠ和classⅡ基因的分型結(jié)果敏感度都較高,結(jié)果與血清學(xué)鑒定結(jié)果吻合。而其他6種分型軟件僅對(duì)classⅠ類基因的分型均較為準(zhǔn)確,但對(duì)classⅡ類基因則不敏感,部分軟件甚至不能給出分型結(jié)果。例如,HLAssgin和HLAreporter只有2個(gè)(2/12)和0個(gè)樣本(0/12)預(yù)測(cè)到了基因分型。而HLAminer和Omixon對(duì)classⅠ基因的分型結(jié)果的判定與NGSengine/血清學(xué)結(jié)果相比有很大的差異。由于HCC27樣本的基因分型結(jié)果經(jīng)過(guò)了血清學(xué)結(jié)果及MHC區(qū)域捕獲測(cè)序結(jié)果的雙重驗(yàn)證,故以該樣本作為示例(表2),NGSengine對(duì)classⅠ和classⅡ基因的分型結(jié)果與血清學(xué)鑒定結(jié)果以及MHC區(qū)域捕獲測(cè)序結(jié)果高度吻合。但是HLAssgin和HLAreporter無(wú)法預(yù)測(cè)到DPA1的基因分型,而HLAminer和Omixon對(duì)DPB1、DQB1、DRB1等classⅡ基因的分型結(jié)果判定錯(cuò)誤率較高(表2)。
此外,OptiType與NGSengine的分型結(jié)果很相似,但是其分辨率只有4位(表2)。有文獻(xiàn)表明,位于外顯子外部的單核苷酸變異可能在疾病的發(fā)病機(jī)制中起關(guān)鍵作用[27]。因此,高分辨率的分型軟件具有更高的應(yīng)用價(jià)值。在測(cè)試的7種分型軟件中,NGSengine分型最準(zhǔn)確,分辨率最高。后續(xù)將以NGSengine產(chǎn)生的結(jié)果為參照,評(píng)估三代測(cè)序數(shù)據(jù)分析結(jié)果。
采用兩種已公開(kāi)能夠使用三代測(cè)序數(shù)據(jù)的分型軟件——HLAminer和NGSengine對(duì)基于三代測(cè)序數(shù)據(jù)的HLA基因進(jìn)行分型。此外,PacBio三代測(cè)序數(shù)據(jù)分為subreads和環(huán)形一致性序列(circularCCS)兩類:subreads是去除接頭序列和低質(zhì)量部分所得到的未經(jīng)矯正的數(shù)據(jù),而CCS是將來(lái)自于同一個(gè)DNA分子經(jīng)過(guò)環(huán)狀反復(fù)測(cè)序產(chǎn)生的多條subreads相互矯正后得到的高準(zhǔn)確性數(shù)據(jù)。理論上,CCS數(shù)據(jù)的準(zhǔn)確性越高越有利于獲得準(zhǔn)確的分型結(jié)果,但是矯正準(zhǔn)確性設(shè)置越高最終所獲得的CCS數(shù)據(jù)量也會(huì)減少,存在不能滿足分型最低數(shù)據(jù)量需求的風(fēng)險(xiǎn)。因此,本研究測(cè)試了不同的數(shù)據(jù)類型和CCS準(zhǔn)確性對(duì)分型結(jié)果的影響。
表1 7種HLA分型軟件比較
WGS:全基因組數(shù)據(jù);WES:全外顯子組數(shù)據(jù);RNA-seq:轉(zhuǎn)錄組數(shù)據(jù);Amplicon:基因擴(kuò)增子數(shù)據(jù);Y:對(duì)應(yīng)軟件已測(cè)試;N:對(duì)應(yīng)軟件未測(cè)試。
圖1 HCC27樣本HLA-A基因Illimina和PacBio-CCS-0.90數(shù)據(jù)覆蓋度
表2 HCC27樣本基于二代測(cè)序數(shù)據(jù)的7種軟件分型結(jié)果比較
加粗標(biāo)記表明與NGSengine不一致的分型結(jié)果;“”表明無(wú)法得到該基因的分型結(jié)果。
首先,HLAminer軟件三代與二代數(shù)據(jù)的分型結(jié)果間存在差異,而NGSengine軟件三代與二代數(shù)據(jù)的分型結(jié)果保持一致(表3)。此外,當(dāng)subreads的數(shù)據(jù)量足夠時(shí),基于subreads數(shù)據(jù)的分型結(jié)果與CCS數(shù)據(jù)基本一致,但前者往往會(huì)多出一個(gè)代表錯(cuò)配信息的后綴。以HCC5樣本的基因?yàn)槔?,其基于subreads的分型結(jié)果為DRB5*02:02,而CCS對(duì)應(yīng)的分型結(jié)果為,這表明subreads的結(jié)果在外顯子區(qū)域存在3個(gè)錯(cuò)配堿基。從單堿基準(zhǔn)確性角度考慮,使用CCS數(shù)據(jù)對(duì)基因分型應(yīng)該是更好的選擇。
隨著CCS數(shù)據(jù)準(zhǔn)確性的不斷提高,其數(shù)據(jù)量會(huì)顯著下降(圖2)。以HCC27樣本為例,數(shù)據(jù)量下降最大的兩個(gè)斷層分別在subreads到CCS0.80,以及CCS0.95到CCS0.99兩處,其數(shù)據(jù)量分別降低了78.86%和89.84%。雖然CCS0.99準(zhǔn)確性最高,但其reads數(shù)量從subreads的3000條降至50條,無(wú)法滿足后續(xù)的分型需求。另一方面,數(shù)據(jù)量遠(yuǎn)多于CCS數(shù)據(jù)的subreads并沒(méi)有獲得最好的覆蓋度,除了和,其他基因的subreads覆蓋度甚至還低于CCS0.80 (圖2),這可能是由于subreads錯(cuò)誤率較高導(dǎo)致大量結(jié)果被過(guò)濾。因此,考慮到準(zhǔn)確性和數(shù)據(jù)量之間的平衡,本研究最終選用CCS0.90的數(shù)據(jù)用于最終分型結(jié)果的比較。
表3 NGSengine和HLAminer的分型結(jié)果分辨率及與Illumina分型結(jié)果一致性統(tǒng)計(jì)
114個(gè)基因中有99個(gè)完全一致,15個(gè)不一致,分型結(jié)果體現(xiàn)在第8位分型結(jié)果的差異,這類差異可通過(guò)軟件優(yōu)化與參數(shù)調(diào)整進(jìn)一步減少。
圖2 HCC27樣本在基于不同數(shù)據(jù)類型和CCS準(zhǔn)確性下各HLA基因的覆蓋度和數(shù)據(jù)量
雖然基于二代和三代CCS0.90數(shù)據(jù)的分型結(jié)果一致(表3),但是兩種數(shù)據(jù)的基因覆蓋度卻存在較大差異(圖1)。Illumina數(shù)據(jù)存在一定偏好,在某些區(qū)段上會(huì)出現(xiàn)明顯的“斷層”現(xiàn)象,尤其在基因兩端區(qū)域。相比之下,CCS0.90數(shù)據(jù)的覆蓋度更均勻,對(duì)于一些復(fù)雜的或全新的基因具有更強(qiáng)的分型能力和更低的錯(cuò)誤風(fēng)險(xiǎn)。
Phasing regions是用以評(píng)估單倍體分型效果的重要指標(biāo),主要代表目的基因中能準(zhǔn)確分型單倍體區(qū)域的數(shù)目。分析結(jié)果顯示基于二、三代數(shù)據(jù)進(jìn)行基因單倍體分型的結(jié)果間存在一定的差異(表4)。基于三代數(shù)據(jù),有92.79% (103/111)的基因可以得到一條完整的單體型結(jié)果,而這一比例在NGS數(shù)據(jù)里僅占75.65% (87/115)。與此同時(shí),同一個(gè)單體型被定相到3個(gè)以上區(qū)域的比例中,NGS占比13.91% (16/115),而三代測(cè)序數(shù)據(jù)對(duì)應(yīng)的占比僅為3.6% (4/111) (表4)。因此,三代測(cè)序更有利于提高單倍體分型的準(zhǔn)確性,減少不確定性。
MHC捕獲探針設(shè)計(jì)區(qū)域大小為4 970 458 bp (Chr.6:28 477 797~33 448 354 bp),使用FALCON軟件對(duì)YH標(biāo)準(zhǔn)細(xì)胞系進(jìn)行組裝,得到的最佳組裝結(jié)果為:MHC組裝大小為4.46 Mb,Contig N50為85 kb,Contig總數(shù)154個(gè)。將組裝的Contig比對(duì)到Y(jié)H基因組的參考序列上(圖3),可以完整覆蓋其MHC的參考序列。數(shù)據(jù)總覆蓋度97.86% (4 864 179/4 970 458 bp),跟以往使用二代數(shù)據(jù)結(jié)果獲得的覆蓋度為97.29%的結(jié)果相比有所提升[28]。
表4 二代(Illumina)和三代(PacBio)測(cè)序數(shù)據(jù)中所有HLA基因phasing regions個(gè)數(shù)的差異
隨后,使用根據(jù)YH細(xì)胞系組裝優(yōu)化參數(shù)對(duì)HCC27樣本MHC區(qū)域進(jìn)行組裝,得到的最佳組裝效果為:MHC組裝大小為4.79 Mb,Contig N50為90 kb,Contig總數(shù)223個(gè)。數(shù)據(jù)覆蓋度99.8% (4 960 480 bp/ 4 970 458)。0×以下的覆蓋度比例為0.21% (10 363/ 4 970 458 bp),30×以下的覆蓋度比例為2.23% (110 974/4 970 458 bp),意味著有97.77%的序列覆蓋度達(dá)到30×以上,組裝效果進(jìn)一步提升。
此外,本研究統(tǒng)計(jì)了HCC27樣本、YH和HeLa細(xì)胞系MHC區(qū)域SNP的分布情況(圖4),發(fā)現(xiàn)基因區(qū)域的SNP頻率顯著升高,該結(jié)果與之前報(bào)道的結(jié)果一致[28],這也是基因多態(tài)性高的重要表現(xiàn)。
FALCON+FALCON-Unzip以及targeted-phasing- consensus采用了兩種不同的單倍體分型原理。前者是基于數(shù)據(jù)的從頭組裝,是無(wú)參考序列的單倍體型分析方法。后者的分析思路是基于數(shù)據(jù)比對(duì),將原始的測(cè)序數(shù)據(jù)比對(duì)到參考序列上,然后根據(jù)比對(duì)的結(jié)果得到兩條單倍體型結(jié)果,即consensus0和consensus1。兩種方法所得到結(jié)果與本文2.2部分的結(jié)果基本一致(表5)。為進(jìn)一步驗(yàn)證上述HCC27樣本基因單倍體分型結(jié)果的準(zhǔn)確性,對(duì)其產(chǎn)生的兩條單倍體型序列中所含有序列與各外顯子區(qū)域內(nèi)基因進(jìn)行比對(duì)(圖5,A和B),兩者在單堿基水平上均保持一致。這表明基于長(zhǎng)讀長(zhǎng)的三代測(cè)序數(shù)據(jù),兩種方法均可以對(duì)MHC區(qū)域上各基因進(jìn)行較為準(zhǔn)確的單倍體型分析。此外,基于捕獲的測(cè)序結(jié)果,還可以獲得擴(kuò)增測(cè)序難以得到的內(nèi)含子信息。
圖3 YH細(xì)胞系MHC區(qū)域FALCOM組裝序列與人類MHC的參考序列的比對(duì)結(jié)果
另一方面,F(xiàn)ALCON+FALCON-Unzip會(huì)出現(xiàn)同一基因被比對(duì)到不同contig上的情況(表5),表明該組裝方法對(duì)于MHC這類的多態(tài)性極高的區(qū)域可能會(huì)存在一定的單倍體分型錯(cuò)誤。而基于比對(duì)方法得到的consensus序列,由于捕獲測(cè)序長(zhǎng)度限制,也可能導(dǎo)致在進(jìn)行單倍體分型時(shí),同一個(gè)位點(diǎn)的SNP信息難以準(zhǔn)確定位到不同的consensus序列,從而導(dǎo)致模棱兩可的結(jié)果。
因此,本研究整合了上述兩種單倍體分型方法的所有信息以及各基因擴(kuò)增子的分型信息,對(duì)HCC27樣本MHC區(qū)域的單倍體上的基因的分布進(jìn)行了校正和預(yù)測(cè)(圖6),兩套基因分別被定位到consensus0和consensus1兩個(gè)單倍體型上。其中,沒(méi)有用虛線標(biāo)注的,即和等位基因,還通過(guò)從頭組裝的方法(FALCON+FALCON- Unzip結(jié)果)驗(yàn)證了這兩個(gè)等位基因的確位于一條contig上?;诖耍梢源笾铝私鈦?lái)自雙親的兩套等位基因、以及基因間其他功能原件在MHC上的確切位置與連鎖關(guān)系,這對(duì)更深入研究基因與表型(包括疾病)之間的關(guān)系具有重要意義。
本研究評(píng)估了7種可使用二代測(cè)序數(shù)據(jù)和2種可使用三代數(shù)據(jù)的分型軟件。結(jié)果顯示,二代數(shù)據(jù)的分型結(jié)果差異很大,其主要?dú)w因于各軟件最適合輸入數(shù)據(jù)類型、分析原理、數(shù)據(jù)庫(kù)的差異(表1)。而不論是基于二代還是三代數(shù)據(jù),NGSengine均能產(chǎn)生準(zhǔn)確,分辨率高的分型結(jié)果,這說(shuō)明分型實(shí)驗(yàn)設(shè)計(jì)與分析流程匹配的重要性。CCS數(shù)據(jù)有助于提高分型結(jié)果的單堿基準(zhǔn)確性,基于CCS分型結(jié)果其外顯子錯(cuò)配信息會(huì)大幅減少,需要進(jìn)行單堿基級(jí)別分析的研究可采用CCS0.90的數(shù)據(jù)進(jìn)行分析。不同于二代數(shù)據(jù)需要通過(guò)多條數(shù)據(jù)組裝/計(jì)算等分析手段對(duì)基因上各個(gè)位點(diǎn)的相位進(jìn)行單倍體分型。單條三代測(cè)序數(shù)據(jù)可跨越較長(zhǎng)的區(qū)域,基因分型與單倍體分型過(guò)程不涉及數(shù)據(jù)組裝,減少了因組裝而導(dǎo)致的錯(cuò)誤。雖然在本研究中二、三代的分型結(jié)果基本一致,但是三代的覆蓋均一度和單倍體分型結(jié)果均優(yōu)于二代(圖1,表4),可以大幅提高單倍體分型的準(zhǔn)確性,減少模棱兩可的分型結(jié)果,更適用于基因的分型與單體型分析。
圖4 HCC27、YH和HeLa標(biāo)準(zhǔn)細(xì)胞系SNP在MHC區(qū)域的分布圖
表5 HCC27基于FALCON+FALCON-Unzip以及Targeted-phasing-consensus的單倍體分型結(jié)果
contig_Tags和consensus_Tags表明單倍體分型結(jié)果對(duì)應(yīng)的contig和consensus編號(hào);加粗標(biāo)記表示同一單倍體分型被比對(duì)到不同的contig上。
圖5 HCC27樣本consensus0和consensus1與HLA-A基因的比對(duì)結(jié)果
A:HCC27樣本consensus0與的序列比對(duì)結(jié)果;B:HCC27樣本consensus1與的序列比對(duì)結(jié)果。
圖6 HCC27 MHC區(qū)域的單倍體分型結(jié)果預(yù)測(cè)
consensus0和consensus1表示利用targeted-phasing-consensus腳本得到的兩個(gè)單倍體型,不同顏色表示不同的等位基因。未用虛線標(biāo)注的,表明其結(jié)果可通過(guò)從頭組裝的結(jié)果(FALCON+FALCON-Unzip結(jié)果)得到驗(yàn)證,虛線邊框標(biāo)注的表示通過(guò)從頭組裝結(jié)果無(wú)法得到驗(yàn)證信息。
YH、HeLa和HCC樣本的MHC區(qū)域捕獲和三代測(cè)序的結(jié)果表明,三代數(shù)據(jù)的組裝結(jié)果優(yōu)于以往文獻(xiàn)使用二代測(cè)序的結(jié)果,且結(jié)果準(zhǔn)確性可以達(dá)到單堿基水平。此外,F(xiàn)ALCON+FALCON-Unzip軟件由于是基于三代測(cè)序原始數(shù)據(jù)的無(wú)參考基因組單倍體分型方式,可能出現(xiàn)同一基因被比對(duì)到不同Contig上的情況(表5),從而導(dǎo)致組裝出錯(cuò)。而targeted- phasing-consensus方法雖然是基于參考基因組序列的單倍體分型方法,但由于受到捕獲產(chǎn)物測(cè)序數(shù)據(jù)長(zhǎng)度的限制,同一個(gè)位點(diǎn)的SNP位點(diǎn)難以準(zhǔn)確定位到不同的consensus序列,同樣可能導(dǎo)致模棱兩可的結(jié)果。因此,本研究將上述兩種基于組裝和比對(duì)的單倍體分型方法所得到的單倍體型信息以及本文2.2部分的基因擴(kuò)增子分型結(jié)果進(jìn)行整合,對(duì)HCC27樣本MHC區(qū)域的單倍體上的基因的分布進(jìn)行了校正和預(yù)測(cè),通過(guò)從頭組裝的方法對(duì)預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證,發(fā)現(xiàn)和等位基因的確位于同一contig上?;谠摲椒ǎ梢詮恼w上了解來(lái)自于雙親的兩套等位基因、以及基因間其他功能原件在MHC上的位置與連鎖關(guān)系,這將有助于對(duì)MHC這類結(jié)構(gòu)復(fù)雜的基因區(qū)域進(jìn)行系統(tǒng)研究并極大的推進(jìn)各類相關(guān)疾病的相關(guān)性分析。
[1] TANG MZ, CAI YL, ZHENG YM, ZENG Y. Association between human leukocyte antigenand nasopharyngeal- carcinoma., 2012, 34(12): 1505–1512.湯敏中, 蔡永林, 鄭裕明, 曾毅. 人類白細(xì)胞抗原與鼻咽癌的相關(guān)性. 遺傳, 2012, 34(12): 1505–1512.
[2] YANG Zhao-Qing, CHU Jia-You. The research progress of human genetic diversity in China., 2012, 34(11): 1351–1364.楊昭慶,褚嘉祐. 中國(guó)人類遺傳多樣性研究進(jìn)展. 遺傳, 2012, 34(11): 1351–1364.
[3] XU Jun-Pin, DENG Zhi-Hui, JU Gong-Yan, GAO Su-Jing, WANG Da-Meng, HE Liu-Mei, WEI Tian-Chi. Cloning and sequencingandgenomic DNA and analyzing polymorphism in regulatory regions in Chinese Han individuals., 2010, 32(7): 685–693.徐筠娉,鄧志輝,鄒紅巖,高素青,王大明,何柳媚,魏天莉. 中國(guó)漢族個(gè)體基因全長(zhǎng)序列的測(cè)定及調(diào)控區(qū)多態(tài)性. 遺傳, 2010, 32(7): 685–693.
[4] Kl?verpris HN, Adland E, Koyanagi M, Stryhn A, Harndahl M, Matthews PC, Shapiro R, Walker BD, Ndung'u T, Brander C, Takiguchi M, Buus S, Goulder P. HIV subtype influences HLA-B*07:02-associated HIV disease outcome., 2014, 30(5): 468–475.
[5] Mallal S, Nolan D, Witt C, Masel G, Martin A, Moore C, Sayer D, Castley A, Mamotte C, Maxwell D, James I, Christiansen FT. Association between presence of HLA-B* 5701, HLA-DR7, and HLA-DQ3 and hypersensitivity to HIV-1 reverse-transcriptase inhibitor abacavir., 2002, 359(9308): 727–732.
[6] Galeazzi M, Sebastiani GD, Passiu G, Angelini G, Delfino L, Asherson RA, Khamashta MA, Hughes GR. HLA-DP genotyping in patients with systemic lupus erythematosus: correlations with autoantibody subsets., 1992, 19(1): 42–46.
[7] Sasazuki T, Juji T, Morishima Y, Kinukawa N, Kashiwabara H, Inoko H, Yoshida T, Kimura A, Akaza T, Kamikawaji N, Kodera Y, Takaku F. Effect of matching of class I HLA alleles on clinical outcome after transplantation of hematopoietic stem cells from an unrelated donor. Japan Marrow Donor Program., 1998, 339(17): 1177–1185.
[8] Donaldson PT, Ho S, Williams R, Johnson PJ. HLA class II alleles in Chinese patients with hepatocellular carcinoma., 2001, 21(2): 143–148.
[9] Lind C, Ferriola D, Mackiewicz K, Heron S, Rogers M, Slavich L, Walker R, Hsiao T, McLaughlin L, D'Arcy M, Gai X, Goodridge D, Sayer D, Monos D. Next-generation sequencing: the solution for high-resolution, unambiguous human leukocyte antigen typing., 2010, 71(10): 1033–1042.
[10] Shiina T, Suzuki S, Ozaki Y, Taira H, Kikkawa E, Shigenari A, Oka A, Umemura T, Joshita S, Takahashi O, Hayashi Y, Paumen M, Katsuyama Y, Mitsunaga S, Ota M, Kulski JK, Inoko H. Super high resolution for single molecule-sequence-based typing of classical HLA loci at the 8-digit level using next generation sequencers., 2012, 80(4): 305–316.
[11] Latham K, Little AM, Madrigal JA. An overview of HLA typing for hematopoietic stem cell transplantation., 2014, 1109: 73.
[12] Hosomichi K, Jinam TA, Mitsunaga S, Nakaoka H, Inoue I. Phase-defined complete sequencing of the HLA genes by next-generation sequencing., 2013, 14: 355.
[13] Barone JC, Saito K, Beutner K, Campo M, Dong W, Goswami CP, Johnson ES, Wang ZX, Hsu S. HLA-genotyping of clinical specimens using Ion Torrent-based NGS., 2015, 76(12): 903–909.
[14] Tewhey R, Bansal V, Torkamani A, Topol EJ, Schork NJ. The importance of phase information for human genomics., 2011, 12(3): 215–223.
[15] Nelson WC, Pyo CW, Vogan D, Wang R, Pyon YS, Hennessey C, Smith A, Pereira S, Ishitani A, Geraghty DE. An integrated genotyping approach for HLA and other complex genetic systems., 2015, 76(12): 928–938.
[16] Chin CS, Alexander DH, Marks P, Klammer AA, Drake J, Heiner C, Clum A, Copeland A, Huddleston J, Eichler EE, Turner SW, Korlach J. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data., 2013, 10(6):563–569.
[17] Bowman B, Ranade S, Harting J, Lleras, R. A novel analytical pipeline for de novo haplotype phasing and amplicon analysis using SMRT? sequencing technology., 2014, 25(Suppl.): S17–S18.
[18] Warren RL, Choe G, Freeman DJ, Castellarin M, Munro S, Moore R, Holt RA. Derivation of HLA types from shotgun sequence datasets., 2012, 4(12): 95.
[19] Liu C, Yang X, Duffy B, Mohanakumar T, Mitra RD, Zody MC, Pfeifer JD. ATHLATES: accurate typing of human leukocyte antigen through exome sequencing., 2013, 41(14): e142.
[20] Kim HJ, Pourmand N. HLA typing from RNA-seq Data Using Hierarchical Read Weighting., 2013, 8(6): e67885.
[21] Szolek A, Schubert B, Mohr C, Sturm M, Feldhahn M, Kohlbacher O. OptiType: precision HLA typing from next-generation sequencing data., 2014, 30(23): 3310–3316.
[22] Major E, Rigó K, Hague T, Bérces A, Juhos S. HLA typing from 1000 genomes whole genome and whole exome illumina data., 2013, 8(11): e78410.
[23] Huang Y, Yang J, Ying D, Zhang Y, Shotelersuk V, Hirankarn N, Sham PC, Lau YL, Yang W. HLAreporter: a tool for HLA typing from next generation sequencing data., 2015, 7(1): 25.
[24] Nariai N, Kojima K, Saito S, Mimori T, Sato Y, Kawai Y, Yamaguchi-Kabata Y, Yasuda J, Nagasaki M. HLA-VBSeq: accurate HLA typing at full resolution from whole-genome sequencing data., 2015, 16(S2): S7.
[25] Wittig M, Anmarkrud JA, K?ssens JC, Koch S, Forster M, Ellinghaus E, Hov JR, Sauer S, Schimmler M, Ziemann M, G?rg S, Jacob F, Karlsen TH, Franke A. Development of a high-resolution NGS-based HLA-typing and analysis pipeline., 2015, 43(11): e70.
[26] Boegel S, L?wer M, Sch?fer M, Bukur T, de Graaf J, Boisguérin V, Türeci O, Diken M, Castle JC, Sahin U. HLA typing from RNA-Seq sequence reads., 2012, 4(12): 102.
[27] Hosomichi K, Shiina T, Tajima A, Inoue I. The impact of next-generation sequencing technologies on HLA research., 2015, 60(11): 665–673.
[28] Cao H, Wu J, Wang Y, Jiang H, Zhang T, Liu X, Xu Y, Liang D, Gao P, Sun Y, Gifford B, D'Ascenzo M, Liu X, Tellier LC, Yang F, Tong X, Chen D, Zheng J, Li W, Richmond T, Xu X, Wang J, Li Y. An integrated tool to study MHC region: accurate SNV detection and HLA genestyping in human MHC region using targeted high-throughput sequencing., 2013, 8(7): e69388.
The third-generation sequencing combined with targeted capture technology for high-resolutiontyping and MHC region haplotype identification
Jia Chen1, Mingyue Shu1, Jin Li2, Aisi Fu1, Fan Yang3, Zou Wang3, Yirong Li2, Zixin Deng1, Tiangang Liu1
The high-resolution and accurate typing of human leukocyte antigen (HLA) is of great significance for the study of tissue matching in organ transplantation and the correlation betweenand disease. In this study, the peripheral blood of 12 patients with primary hepatocellular carcinoma was used to compare the advantages and disadvantages of the next- and third-generation sequencing technology for high-resolutiontyping. In addition, probe capture technology was used to capture the MHC region of YH and HeLa standard cell lines, and a primary hepatocellular carcinoma patient. The captured products were sequenced using PacBio platform to assess the potential of ultra-long reads sequencing technology for analysis of the entire MHC region. Our results showed that: (1) the next- and third-generation sequencing technology can both achieve 6-8 digit high resolution intyping. However, the coverage of the third-generation is significantly better than the next-generation sequencing technology. (2) The ultra-long reads of the third generation sequencing can directly span the entire amplicon region, which has obvious advantages for haplotype phasing, with 92.79% of thegenes having accurate phasing results, which is much higher than the 75.65% from the next-generation data. (3) The long-reads from the third generating sequencing can not only be used to assemble the MHC region but also the ability to phase the entire MHC region of 3.6 Mb, thereby helping to clarify the localization information of the mutation sites, alleles and non-coding regions on each MHC haplotype, and providing a theoretical basis for the study of immune and other related diseases.
; MHC; the third-generation sequencing;haplotype phasing; NimbleGen probe capture technology
2018-11-26;
2019-01-25
“萬(wàn)人計(jì)劃”青年拔尖人才項(xiàng)目資助[Supported by the Young Talents Program of National High-level Personnel of Special Support Program (The “Ten Thousand Talent Program”)]
陳佳,在讀碩士研究生,專業(yè)方向:微生物與生化制藥。E-mail: chenjia19940216@whu.edu.cn
李一榮,主任醫(yī)師,研究方向:臨床分子免疫學(xué)診斷。E-mail: liyirong838@163.com鄧子新,教授,研究方向:合成生物學(xué)。E-mail: zxdeng@whu.edu.cn劉天罡,教授,研究方向:合成生物學(xué)。E-mail: liutg@whu.edu.cn
10.16288/j.yczz.18-282
2019/2/25 17:19:18
URI: http://kns.cnki.net/kcms/detail/11.1913.R.20190225.1719.008.html
(責(zé)任編委: 方向東)