秦小玲 劉順 龐婷 劉美良 伍柳玉 曾小云,3
原發(fā)性肝癌作為全球第六大常見癌癥和第三大癌癥死亡原因,嚴重威脅人類的生命與健康[1]。其中肝細胞癌(hepatocellular carcinoma,HCC)占原發(fā)性肝癌的75%以上。然而,HCC早期癥狀不明顯、發(fā)病隱匿,且目前尚缺乏可靠的早期診斷指標,因此大部分患者確診時已處于晚期,預(yù)后往往較差。DNA甲基化作為腫瘤早期診斷生物標志物得到普遍認可[2]。就HCC而言,多個甲基化CpG位點聯(lián)合診斷HCC具有很大優(yōu)勢,在診斷HCC中靈敏度和特異度均較高[3-4]。然而,這些診斷標志物并未展現(xiàn)出對HCC早期診斷的優(yōu)勢,因此挖掘HCC早期診斷生物標志物仍是亟需研究的方向和目標。本研究綜合分析來自癌癥基因圖譜(the cancer genome atlas,TCGA)數(shù)據(jù)庫中HCC的DNA甲基化和基因表達數(shù)據(jù),并篩選出可有效診斷HCC的候選甲基化CpG位點,然后在BCLC-A期HCC樣本及GEO數(shù)據(jù)集中進行驗證,最終獲得一組有希望成為HCC早期診斷生物標志物的CpG位點。
基于TCGA數(shù)據(jù)庫(https://cancergenome.nih.gov/)獲取原發(fā)性肝癌相關(guān)的DNA甲基化、mRNA表達譜以及臨床數(shù)據(jù),其中DNA甲基化數(shù)據(jù)從Illumina Human-Methylation 450K平臺檢測獲得。排除術(shù)前接受治療(放療或化療等)和(或)伴其他腫瘤患者的樣本,最終納入種族信息明確的原發(fā)性HCC樣本299例(其中40例匹配有癌旁組織樣本信息)。
1.2.1 甲基化CpG位點的差異分析 使用R語言(3.5.0版)中的“ChAMP”軟件包[5]識別HCC組織和癌旁組織的差異甲基化CpG位點。Δβ值指癌組織和癌旁組織β均值之差。本研究將調(diào)整后P<1×10-10和|Δβ|>0.2設(shè)定為篩選標準。
1.2.2 基因mRNA表達差異分析 在R/Bioconductor環(huán)境下,使用“DESeq”軟件包[6]進行差異表達基因的篩選。將P<0.05且|log2FC|>1作為差異表達基因的篩選閾值。
1.2.3 HCC診斷相關(guān)候選甲基化CpG位點的鑒定將差異甲基化的CpG位點與差異表達基因進行匹配,利用Venny 2.1軟件繪制韋恩圖,篩選出甲基化水平與基因表達水平呈負相關(guān)的CpG位點?;赗語言采用“PAMR”軟件包和10折交叉驗證進行微陣列預(yù)測分析(prediction analysis of microarrays,PAM)[7],獲得的CpG位點集進行受試者工作特征(receiver operating characteristic,ROC)曲線分析,將曲線下面積(area under curve,AUC)>0.900的CpG位點中的5個進行隨機組合,然后結(jié)合logistic回歸和ROC曲線進行聯(lián)合診斷,獲得聯(lián)合診斷AUC最大的候選位點。
為了分析候選CpG位點甲基化水平上調(diào)是否具有HCC組織特異性,本研究通過TCGA數(shù)據(jù)庫獲取14種常見癌癥的DNA甲基化數(shù)據(jù)進行驗證,依次為膀胱尿路上皮癌(bladder urothelial carcinoma,BLCA)、乳腺癌(breast invasive carcinoma,BRCA)、結(jié)腸腺癌(colon adenocarcinoma,COAD)、食管癌(esophageal carcinoma,ESCA)、頭頸鱗狀細胞癌(head and neck squamous cell carcinoma,HNSC)、腎透明細胞癌(kidney renal clear cell carcinoma,KIRC)、腎乳頭狀細胞癌(kidney renal papillary cell carcinoma,KIRP)、肺腺癌(lung adenocarcinoma,LUAD)、肺鱗癌(lung squamous cell carcinoma,LUSC)、胰腺癌(pancreatic adenocarcinoma,PAAD)、前列腺癌(prostate adenocarcinoma,PRAD)、甲狀腺癌(thyroid carcinoma,THCA)、子宮內(nèi)膜癌(uterine corpus endometrial carcinoma,UCEC)和膽管細胞癌(cholangiocarcinoma,CHOL)。
1.4.1 一般資料 收集2016年4月至2018年5月廣西醫(yī)科大學(xué)附屬腫瘤醫(yī)院肝膽胰脾外科手術(shù)切除的50例BCLC-A期HCC患者作為研究對象,平均年齡為(53.38±13.09)歲(范圍:16~84歲);男性42例,女性8例;漢族32例,壯族18例。同時收集其手術(shù)切除的HCC組織及相應(yīng)癌旁組織(距離病灶>2 cm)樣本。通過問卷調(diào)查、查閱病歷獲取研究對象的一般情況、既往病史、家族史以及臨床病理資料等。本研究經(jīng)廣西醫(yī)科大學(xué)倫理委員會審核批準,所有研究對象均簽署知情同意書,自愿加入本研究。
1.4.2 焦磷酸測序檢測 按照Thermo Scientific Gene-JET基因組DNA純化試劑盒(Thermo Scientific,美國)說明書提取組織樣本總DNA,用Bio-Tek酶標儀檢測DNA濃度和純度,要求濃度值>50 ng/μL,且吸光度OD260/280=1.7~2.0,OD260/230≥1.4。 然 后 采 用 EpiTect Plus DNA Bisulfite Kit 59124(Qiagen,德國)對DNA進行亞硫酸氫鹽轉(zhuǎn)化。候選CpG位點cg12614630(GPR182)、cg19786751(ACACB)、cg06131338(ACACB)和cg23371746(TBX15)的甲基化特異性引物序列均由華大基因設(shè)計合成(因cg25340966未成功設(shè)計引物,未進行相關(guān)實驗),見表1。按照KAPA2G Robust HotStart DNA Polymerase with dNTPs(250 U)-KK5516(KAPA Biosystems,美國)說明書配制PCR反應(yīng)體系,采用ABI 9700 PCR儀(Applied Biosystems,美國)進行PCR反應(yīng),然后在PyroMark Q96 ID平臺(Qiagen,德國)進行焦磷酸測序,用Pyro Q-CpG軟件(Qiagen,德國)自動分析獲得候選位點的甲基化率。
表1 4個候選CpG位點的引物序列Tab.1 Primers sequences of 4 candidate CpG sites
1.4.3 qRT-PCR檢測 使用Trizol(Invitrogen,美國)和PrimeScriptTMRT試劑盒(Takara,中國)進行總RNA提取和逆轉(zhuǎn)錄。qRT-PCR引物由Takara公司設(shè)計合成,見表2。按照TB GreenTMPremix Ex TaqTMⅡ試劑盒說明書在PCR儀(StepOnePlus,ABI公司,美國)上對目的基因進行qRT-PCR檢測。反應(yīng)程序設(shè)置:95℃ 30 s,95℃ 5 s,60℃ 30 s,共40個循環(huán)?;蛳鄬Ρ磉_量采用2-△△Ct公式計算。
表2 目的基因的引物序列Tab.2 Primers sequences of target genes
從GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)下載 3個甲基化數(shù)據(jù)集(GSE54503[8]、GSE89852[9]和GSE56588[10])作為驗證集,其甲基化數(shù)據(jù)均由Illumina HumanMethylation 450K平臺檢測。GSE54503包含66對HCC樣本;GSE89852包含37對肝炎病毒相關(guān)HCC樣本;GSE56588包含244例HCC、10例正常肝組織和9例肝硬化樣本。
采用R 3.5.0軟件對TCGA數(shù)據(jù)庫的數(shù)據(jù)進行生物信息學(xué)分析并篩選候選CpG位點?;赟PSS 20.0軟件進行診斷效能驗證,采用兩獨立樣本t檢驗比較50例早期HCC樣本不同特征分組間的甲基化水平,配對t檢驗比較經(jīng)配對的HCC組織與癌旁組織間甲基化水平和基因表達水平;Spearman秩相關(guān)分析候選位點甲基化與基因表達水平的關(guān)聯(lián)性。采用ROC曲線分析評估候選CpG位點對早期HCC及GEO數(shù)據(jù)庫中HCC樣本的診斷效能,確定最終診斷生物標志物。以雙側(cè)P<0.05為差異有統(tǒng)計學(xué)意義。
下載TCGA數(shù)據(jù)庫中299例HCC和40例癌旁組織樣本,基本臨床信息見表3。經(jīng)差異甲基化分析鑒定了30 439個差異甲基化CpG位點,包括10 572個上調(diào)和19 867個下調(diào)的CpG位點,見圖1A?;虿町惐磉_分析結(jié)果顯示,HCC組織中有1 021個基因表達下調(diào),2 098個基因表達上調(diào)。通過在線軟件Venny 2.1篩選了1 611個甲基化水平與相應(yīng)基因表達水平呈負相關(guān)的CpG位點,見圖1B。當(dāng)PAM分析設(shè)置誤判率為最小值(0.027)時,識別出86個CpG位點。ROC曲線分析評估86個CpG位點的診斷效能,其中10個CpG位點顯示出較高的區(qū)分HCC與正常肝組織的效能(AUC>0.900),見表4。10個CpG位點所在的基因均在HCC組織中表達下調(diào),其中TBX15、ACACB、FAHD2A、GPR182、TACSTD2表達水平下降更明顯,見圖1C。將上述10個CpG位點中的5個進行隨機組合后進行多變量聯(lián)合診斷的ROC曲線分析,最終獲得AUC最佳(0.993)的一組CpG位點(包括cg12614630、cg19786751、cg06131338、cg23371746 和 cg25340966)作為候選診斷生物標志物,見圖2。
表3 TCGA數(shù)據(jù)庫中HCC樣本的基本臨床信息[n(%)]Tab.3 Clinical information of HCC samples from TCGA database[n(%)]
圖1 TCGA數(shù)據(jù)庫HCC甲基化差異分析和基因表達差異分析Fig.1 Analysis of differential methylation and differential gene expression of HCC from TCGA database
圖2 TCGA數(shù)據(jù)庫中5個候選CpG位點的ROC曲線分析Fig.2 ROC curve analysis of 5 candidate CpG sites based on TCGA database
表4 10個候選CpG位點的ROC曲線分析Tab.4 The ROC curve analysis of 10 candidate CpG sites
為了進一步驗證5個候選CpG位點在HCC組織中高甲基化的組織特異性,經(jīng)配對t檢驗分析,結(jié)果顯示,5個候選CpG位點的甲基化水平僅在膽管細胞癌組織中高于癌旁組織(P<0.05),在其余13種癌癥的癌組織中均未見5個候選CpG位點的甲基化水平明顯上調(diào),見表5。
表5 5個候選CpG位點在14種癌癥中的甲基化水平Tab.5 Methylation levels of 5 candidate CpG sites in 14 cancers
采用焦磷酸測序檢測50例BCLC-A期HCC患者中4個候選CpG位點的甲基化水平,結(jié)果顯示,在性別、年齡、AFP和乙型肝炎病毒感染等特征中,4個CpG位點的甲基化水平均衡可比,但僅發(fā)現(xiàn)早期HCC組織中單發(fā)腫瘤的cg23371746位點甲基化水平高于多發(fā)腫瘤(P=0.028),見表6。配對t檢驗結(jié)果顯示,與癌旁組織相比,這4個CpG位點在早期HCC組織中的甲基化水平升高(P<0.001),見圖 A~D;GPR182和ACACB基因在早期HCC組織中低表達(P<0.001),而TBX15基因在HCC組織及癌旁組織中的表達差異無統(tǒng)計學(xué)意義(P=0.410),見圖3E~G。
表6 50例BCLC-A期HCC患者中4個候選CpGs位點基于不同特征的甲基化率比較Tab.6 Comparison of different signature-based methylation levels of 4 candidate CpG sites in 50 BCLC-A stage HCC patients
Spearman等級相關(guān)分析顯示,cg12614630位點的甲基化水平與GPR182基因的表達水平呈負相關(guān)(rs=-0.427,P<0.001);cg19786751位點(rs=-0.401,P<0.001)和 cg06131338位點(rs=-0.210,P=0.036)的甲基化水平與ACACB基因表達水平呈負相關(guān);而cg23371746位點甲基化水平與TBX15基因表達水平無相關(guān)性(rs=-0.027,P=0.792),見圖3H~K。
圖3 4個候選CpG位點的甲基化水平差異分析及與所在基因的相關(guān)分析Fig.3 Differential analysis of methylation levels of 4 candidate CpG sites and correlation analysis with corresponding genes
進一步對以上采用Spearman等級相關(guān)分析呈負相關(guān)的3個CpG位點進行ROC曲線分析,結(jié)果顯示,cg12614630、cg19786751和cg06131338的AUC分別為 0.804、0.850、0.709(均P<0.001);將這3個 CpG位點作為診斷生物標志物,其聯(lián)合診斷的AUC為0.903(P<0.001),見圖4A。其logistic回歸方程為logit(P)=-15.715+5.607×cg12614630+24.586×cg19786751-8.217×cg06131338。
基于上述的logistic回歸方程,進一步通過GSE54503、GSE89852和GSE56588這3個GEO數(shù)據(jù)集驗證以上3個候選CpG位點對HCC樣本和正常組織樣本的區(qū)分能力,結(jié)果顯示,聯(lián)合cg12614630、cg19786751和cg06131338在3個GEO數(shù)據(jù)集中獲得的AUC分別為0.812、0.844和0.934(均P<0.001),見圖4B。
圖4 早期HCC和GEO數(shù)據(jù)集中3個CpG位點的ROC曲線分析Fig.4 ROC curve analysis of 3 CpG sites in the early-stage HCC and GEO datasets
目前大多數(shù)HCC患者尚難以早期發(fā)現(xiàn)或確診,既往研究顯示早期診斷的HCC患者5年生存率一般>70%,晚期患者則降至10%左右[11-12],由此可見早期診斷對提高患者生存率具有重要意義。本研究通過對TCGA數(shù)據(jù)庫中的數(shù)據(jù)進行綜合分析,初步篩選了5個對HCC有診斷能力的甲基化CpG位點,且在14種常見癌癥中僅膽管細胞癌顯示上述5個候選CpG位點均出現(xiàn)高甲基化,說明這5個候選CpG位點的高甲基化在原發(fā)性肝癌中具有組織特異性。進一步以臨床收集的50例早期HCC和3個GEO公共數(shù)據(jù)集作為驗證集,通過ROC曲線分析最終確定3個CpG位點(cg12614630、cg19786751和cg06131338)作為診斷生物標志物,相關(guān)分析也顯示這3個CpG位點的甲基化水平與所在基因(GPR182和ACACB)的表達量呈負相關(guān),說明以上3個候選位點及所在基因可能是潛在的早期診斷指標,且這些位點的高甲基化可能通過影響其所在基因的表達而發(fā)揮作用,具體機制值得深入探索。
近年來,聯(lián)合多個甲基化CpG位點作為肝癌診斷策略越來越受關(guān)注,但是目前尚沒有標準的組合可用于臨床,此外各研究者基于不同數(shù)據(jù)、分析方法或篩選標準,所獲得的CpG位點組合也完全不同。例如,HLADY等[13]利用cfDNA的全基因組甲基化數(shù)據(jù)篩選出可以區(qū)分肝癌和正常樣本的CpG位點作為聯(lián)合診斷的生物標志物。CHENG等[4]則將來自TCGA的肝癌數(shù)據(jù)和GSE69270數(shù)據(jù)集(健康個體)結(jié)合分析,從而獲得6個HCC特異性CpG位點。本研究使用的數(shù)據(jù)不僅包括TCGA和GEO數(shù)據(jù)庫等公共數(shù)據(jù),還包括實驗獲得的BCLC-A期HCC的甲基化和基因表達數(shù)據(jù),是基于公共數(shù)據(jù)庫及臨床數(shù)據(jù)驗證的一組CpG位點(cg12614630、cg19786751和cg06131338),診斷效能較高,說明這一組合具有較高的可靠性及良好的診斷效能。
本研究還發(fā)現(xiàn),3個候選CpG位點所在的基因GPR182和ACACB也可能是早期HCC潛在的診斷指標。一般而言,異常DNA甲基化在腫瘤的早期階段即可發(fā)生,且隨著腫瘤進展其甲基化程度可能增加。而目前認為,基因表達調(diào)控是DNA甲基化可能的致癌機制。既往研究顯示,ACACB基因與HCC發(fā)生發(fā)展密切相關(guān)[14-15],且ACACB表達下調(diào)可能與DNA甲基化異常有關(guān)[16]。而關(guān)于GPR182,目前其與HCC的關(guān)系鮮見報道,但近期也有研究報道GPR182可作為HCC預(yù)后評估標志物[17]。結(jié)合本研究中cg12614630、cg19786751和cg06131338的甲基化水平與GPR182和ACACB基因表達水平呈負相關(guān),推測ACACB和GPR182表達下調(diào)可能受這3個CpG位點甲基化水平調(diào)控,并在HCC癌變中起重要作用,但具體的致癌機制仍需進一步研究。
綜上所述,cg12614630、cg19786751和cg06131338 CpG位點可能是HCC潛在的診斷生物標志物,3者聯(lián)合診斷在HCC中具有較高的準確性,可能是HCC早期診斷的有效檢測策略。但是本研究的對比樣本均為同一患者的HCC組織與癌旁組織,尚未獲取正常對照者肝臟組織做對比,此外本組CpG位點的潛在臨床價值也還需在血液、細胞及動物實驗中進一步驗證。