范阿慧 張瑞 周金池 何陽菘 樊代明 趙曉迪 盧瑗瑗
肝癌是全球第六大惡性腫瘤,也是第四大癌癥相關死亡原因[1]。肝細胞癌(hepatocellular carcinoma,HCC)約占原發(fā)性肝癌的90%,盡管近年來HCC的治療手段有了顯著改善,但發(fā)病率和死亡率仍較高[2]。因此,HCC患者的早期診斷和預后預測至關重要。傳統(tǒng)觀念認為增強子通過招募轉錄因子進而調(diào)控靶基因轉錄水平。最近發(fā)現(xiàn)大多數(shù)活性增強子可以轉錄為eRNA,并在腫瘤發(fā)生發(fā)展過程中發(fā)揮作用[3]。研究表明eRNA異常表達與癌基因[4]、腫瘤抑制基因[5]失調(diào)以及細胞對外部信號的異常反應有關,如激素[6]、炎癥[7]、缺氧[8],因此 eRNA有可能是潛在的診斷標志物及治療靶點。本研究根據(jù)HCC患者預后信息以及與預測靶基因表達相關性篩選出的eRNA構建預后模型,同時對預后相關eRNA進行臨床參數(shù)相關性分析和富集分析,以期為HCC的診斷和預后評估提供新的方向。
利用PreSTIGE算法,獲得eRNA以及預測靶基因列表[9?10],并使用 EnsemblBioMart將轉錄本 ID 轉化為基因 Symbol。從 TCGA 數(shù)據(jù)庫(https://portal.gdc.cancer.gov)收集374例HCC患者的基因序列和臨床數(shù)據(jù)。
使用交互式網(wǎng)絡服務器TANRIC(癌癥中非編碼RNA圖譜)對TCGA數(shù)據(jù)庫中的HCC隊列中eRNA的水平及其與臨床的相關性進行研究。使用中位數(shù)法將TCGA數(shù)據(jù)庫中的HCC患者分為高表達組和低表達組。使用TANRIC共表達數(shù)據(jù)評估eRNA水平與其預測目標基因之間的相關性。與總生存期(overall survival,OS)(Log?rankP<0.05)及其靶基因水平(r>0.5,P<0.001)相關的 eRNA,被認為是HCC中的候選關鍵eRNA。
通過Lasso回歸分析獲得候選eRNA的表達數(shù)據(jù)。采用多因素Cox回歸分析構建eRNA的預后風險評分模型。采用時間依賴性受試者工作特征(receiver operating characteristic,ROC)曲線評估模型的區(qū)分度。此外,為了預測患者1年、3年和5年的生存概率,采用R語言rms軟件包建立列線圖模型,并繪制校準曲線,以評估模型預測值與實際觀測值之間的一致性。
選取2019年8月—2019年12月在空軍軍醫(yī)大學西京消化病醫(yī)院肝膽胰外科收治的15例經(jīng)術后病理診斷為HCC患者的腫瘤組織及其癌旁組織,并提取RNA。本研究樣本的使用已通過本院倫理審核。
用TRIzol試劑盒提取上述細胞的總RNA,并通過逆轉錄試劑盒將RNA反轉錄成cDNA,然后用SYBR Green Master mix試劑盒和C1000熱循環(huán)儀進行qRT-PCR實驗,選取GAPDH作為內(nèi)參。引物序列如下:DCP1A上游為5′-TCTGGACACAAGCATCTGACG-3′,下游為 5′-GGGTGGTGATTTCAGGCTGG-3′;GADPH上游為 5′-AGAAGGCTGGGGCTCATTTG-3′,下游為5′-GAAGACTGTGGATGGCCCCT-3′。PCR擴增條件:95 ℃ 10 min,95 ℃ 12 s,60 ℃ 30 s,72 ℃ 30 s,共45個循環(huán)。所有檢測均在96孔板進行,每個樣本設3個平行孔,實驗重復3次。采用2-△△Ct法對目的基因進行表達量相對定量分析。
應用R軟件中的DOSE、ggplot2、cluster、GOplot等數(shù)據(jù)包來執(zhí)行GO分析和KEGG富集分析,并設置|log2(倍數(shù)變化)|>0.5和P<0.05作為納入標準。采用富集分析探索DCP1A的潛在分子機制和通路。
采用獨立樣本t檢驗或單因素方差分析探討DCP1A表達水平與臨床病理參數(shù)之間的相關性,采用Bonferroni檢驗進行多重比較。所有統(tǒng)計檢驗均在IBM SPSS Statistics 25或R 3.6.3軟件(https://www.r?project.org/)語言包中進行。雙側P<0.05被認為差異具有統(tǒng)計學意義。
使用PreSTIGE算法,共鑒定出2 695個eRNA以及2 303個預測靶基因。該轉錄本數(shù)據(jù)集用于識別eRNA及其靶基因。為了便于TANRIC中的數(shù)據(jù)探索,使用Ensembl BioMart將轉錄本ID轉換為基因symbol。最后,根據(jù)TANRIC數(shù)據(jù)庫提供的374例TCGA中的HCC患者的RNA測序數(shù)據(jù),患者基本情況見表1,并確定了與OS相關(Log?rankP<0.05)的124個eRNA。其中27個eRNA同時與其預測的靶基因的mRNA水平呈正相關(r>0.5,P<0.001),見表2。
表1 TCGA數(shù)據(jù)庫HCC患者的臨床參數(shù)統(tǒng)計*Tab.1 Basic clinicopathologic features of the HCC patients in TCGA*
表2 關鍵eRNA列表Tab.2 List of key lncRNAs derived from enhancer
通過Lasso?Cox回歸分析保留10個eRNA用于構建預后預測模型,見圖1A~C。其風險評分公式如下:Risk score=0.090×DCP1A+0.231×SLC2A1?AS1+0.36×SLC25A24P1+0.888×SPRY4AS1+0.220×AP003469.2+0.221×SLC16A1?AS1+(-0.232)×AC093607.1+0.017×AL137803.1+0.015×LINC01184+(-0.081)×LINC00671。
繪制時間依賴性ROC曲線評估預測效能,結果顯示1年、3年和5年AUC分別為0.73、0.66、0.67(圖1D)。此外,本研究還構建了列線圖模型(圖1E),并采用校準曲線評估其一致性,結果顯示校正曲線接近對角線,表明預測值與實際觀測值之間具有良好的一致性(圖1F)。
圖1 基于eRNAs預后模型的建立及評估Fig.1 Development and evaluation of prognostic model based on eRNAs
在HCC患者中,DCP1A低表達組OS優(yōu)于高表達組(Log?rankP<0.001),見圖2A。此外,DCP1A和靶基因 PRKCD(r=0.52,P<0.001)、RFT1(r=0.51,P<0.001)的mRNA水平呈正相關,見圖2B。為驗證DCP1A在HCC患者中的表達,使用qPR?PCR檢測15例HCC患者中DCP1A的表達,與正常組織相比,癌組織中的DCP1A表達水平顯著升高(P=0.002),見圖2C。
圖2 DCP1A是HCC的關鍵eRNAFig.2 Impact of DCP1A on HCC
為進一步評估DCP1A在HCC中的作用,本研究分析了DCP1A表達水平與臨床參數(shù)的關系,結果顯示,DCP1A表達水平與腫瘤狀態(tài)、病理學分級、臨床分期有關,其中癌組織中DCP1A表達水平高于正常組織(P=0.009),G3分級的癌組織中DCP1A表達水平高于G1級(P=0.001)和G2級(P=0.002),臨床分期為Ⅲ期的癌組織中DCP1A表達水平較Ⅰ期(P=0.003)和Ⅱ期(P=0.039)高,T3期癌組織中DCP1A表達水平高于T1期(P=0.014),見圖2D。提示DCP1A在HCC中可能發(fā)揮促癌功能。
采用GO分析預測DCP1A在生物過程(biological process,BP),細胞組分(cell component,CC)和分子功能(molecular function,MF)的富集情況。結果顯示,BP富集于染色質(zhì)的共價修飾、組蛋白修飾和DNA復制等;CC富集于核斑點、染色體區(qū)域及紡錘體等;MF富集于解旋酶活性、泛素化和組蛋白集合等,見圖3A。KEGG富集分析發(fā)現(xiàn),DCP1A主要富集在癌癥相關通路,如病毒致癌作用、癌癥中的蛋白多糖、細胞周期等,見圖3B。提示DCP1A可能通過發(fā)揮解旋酶、泛素化等活性,參與染色質(zhì)修飾等生物學過程,調(diào)控HCC的發(fā)生發(fā)展。
圖3 GO和KEGG富集分析Fig.3 GO and KEGG enrichment analysis
eRNA是從轉錄增強子區(qū)域由RNApollⅡ轉錄的順式作用元件,屬于lncRNA的一種[3]。越來越多的研究證實了eRNA在癌癥診斷和預后預測中的可行性和有效性。近期一項大規(guī)模的臨床研究表明組織特異的eRNA通過t分布隨機鄰近嵌入(t?SNE)可準確分辨癌癥類型,且eRNA不僅與患者生存率相關,還與臨床特征顯著相關,如亞型、分期、分級等[11]。相對于大規(guī)模的臨床研究而言,單一eRNA的臨床研究探索逐漸增多,但目前在HCC中尚未見eRNA相關報道。本研究主要結合eRNA和TCGA數(shù)據(jù)庫的基因序列和臨床數(shù)據(jù)探索eRNA與HCC之間的關系,首先將與HCC患者預后相關及與靶基因顯著相關作為篩選條件,最終選出27個關鍵eRNA;再通過Lasso回歸篩選出10個eRNA并構建風險模型預測HCC患者的預后,最后通過時間依賴性ROC曲線、校準曲線評估預測模型的效能,證實了該模型在臨床中具有潛在應用價值。同時還發(fā)現(xiàn)功能尚未注釋的eRNA?DCP1A與患者預后及靶基因顯著相關,進一步分析DCP1A表達水平與HCC患者臨床參數(shù)的相關性,并進行GO和KEGG富集分析,以探索DCP1A發(fā)揮作用的潛在分子機制和靶點。結果發(fā)現(xiàn)DCP1A表達水平與HCC患者腫瘤狀態(tài)、病理分級及臨床分期相關,提示DCP1A可能在HCC的發(fā)生發(fā)展過程中發(fā)揮促進作用。GO分析結果顯示DCP1A主要位于細胞核內(nèi),且可能通過與染色質(zhì)和組蛋白相互作用發(fā)揮功能,并影響DNA復制以及修復過程。KEGG分析提示DCP1A與多種癌癥相關通路有關,如病毒致癌作用、泛素介導的蛋白水解、癌癥中的蛋白多糖、細胞周期等,進而影響HCC的發(fā)生發(fā)展。
本研究仍尚存局限性,如本研究構建的模型尚未在獨立于TCGA的驗證集中進一步驗證,此外因DCP1A功能未被注釋,其表達水平、具體作用機制仍需在獨立驗證集中驗證,并在細胞以及動物層面探索DCP1A在HCC發(fā)生發(fā)展中的功能及其機制。
綜上所述,本研究確定了與HCC患者生存高度相關且與靶基因顯著相關的10個關鍵eRNA并構建預后模型,同時驗證了模型的可行性;其中eRNA?DCP1A與HCC患者預后的相關性最顯著。DCP1A及本研究構建的模型有望為HCC診斷和治療提供新的思路。