吳良銀,李文麗,劉 俊 (粵北人民醫(yī)院.檢驗科;.生殖醫(yī)學中心,廣東韶關 512025)
肝癌是全球第六大常見癌癥,2018年新發(fā)病例為841 000 例,死亡人數(shù)達到782 000 例。盡管慢性肝病的管理在腫瘤檢測和腫瘤治療方面不斷取得進展,但與其他實體腫瘤相比,肝細胞癌的預后仍然較差,其五年生存率不足18%[1]。慢性肝炎病毒的持續(xù)感染是導致肝細胞癌的主要因素,約占原發(fā)性肝細胞癌的85%[2]。雖然手術切除和肝移植是早期肝細胞癌的最佳治療方法,但大多數(shù)晚期肝細胞癌患者不適用這些治療手段[3]。目前廣泛的研究都集中在基因的異常表達和改變上,已經有證據(jù)表明這與肝癌的進展有關,包括KPNA2 的表達失調與肝細胞癌的預后不良相關[4],MiR-888 促進肝細胞癌細胞遷移和侵襲[5],代謝誘導的腫瘤激活劑1,(metabolism-induced tumor activator 1, MITA1) 是肝細胞癌轉移的關鍵驅動因素[6]。然而,目前尚未確定能夠用于預測臨床疾病預后的分子生物標志物。因此,有必要對肝細胞癌的發(fā)生發(fā)展過程進行多方向多層次的研究。
微陣列的高通量表達數(shù)據(jù)已被用于鑒定與腫瘤進展和預后相關的基因中,而且測序數(shù)據(jù)的生物信息學分析也在分子靶標的預測中廣泛應用[7]。單個微陣列分析結果的說服力有限,本研究利用三對病毒相關性肝細胞癌的基因芯片數(shù)據(jù)集篩選在肝細胞癌中表達失調的基因,并進行功能富集分析和臨床相關性分析,為深入研究診斷和新藥研究的潛在生物標志物提供了理論依據(jù)。
1.1 資料來源
1.1.1 芯片數(shù)據(jù)來源:基于美國國立生物技術信息中心(NCBI)負責管理的基因表達綜合數(shù)據(jù)庫(gene expression omnibus darabase, GEO)(http://www.ncbi.nlm.nih.gov/geo),通過篩選分析獲取所需數(shù)據(jù)。
1.1.2 納入和排除標準:選取來自GEO 數(shù)據(jù)庫的三個病毒相關性肝細胞癌的表達芯片,納入標準:病毒相關性肝細胞癌的表達芯片,包括GSE84402(肝癌組織13 例、癌旁組織13 例),GSE62232(肝癌組織29 例、癌旁組織10 例)和GSE19665(肝癌組織10 例、癌旁組織10 例),三個數(shù)據(jù)集都是基 于GPL570 芯 片 平 臺(affymetrix human genome U133 plus 2.0Array),含有52 個肝細胞癌腫瘤組織和33 個肝細胞癌旁組織(對照組),本研究不涉及倫理學規(guī)范相關內容。
1.2 方法
1.2.1 檢索方法:GEO2R (https://www.ncbi.nlm.nih.gov/geo/geo2r/)是GEO數(shù)據(jù)庫自帶的在線分析工具,可以用兩組或多組間的比較以期獲得差異基因。
1.2.2 文獻評價:三個數(shù)據(jù)集分別用GEO2R 進行了病毒相關性肝細胞癌組織與癌旁組織的差異分析。本研究選取滿足|logFC(foldchange)|≥1.0,P<0.05 的基因作為差異基因。用在線工具韋恩圖(http://bioinformatics.psb.ugent.be/webtools/Venn/) 來繪制三個數(shù)據(jù)集的共同差異基因。
1.3 統(tǒng)計學分析 本研究中,應用DAVID 對這些差異基因進行功能富集和生物學分析,基因數(shù)大于10,P<0.05 為差異有統(tǒng)計學意義。
1.3.1 GO 和KEGG 通路的富集分析:DAVID 數(shù)據(jù)庫 (https://david.ncifcrf.gov/)是一個在線生物信息數(shù)據(jù)庫,它集成了生物數(shù)據(jù)和分析工具。GO 用于基因的生物信息學分析和功能富集,KEGG 是一個存儲由基因組測序產生的大規(guī)模分子數(shù)據(jù)集的數(shù)據(jù)庫,主要用于探索生物系統(tǒng)的高級功能和用途。
1.3.2 蛋白-蛋白互作網(wǎng)絡構建: STRING (http://www.string-db.org/)互作基因檢索工具用于構建蛋白-蛋白互作網(wǎng)絡。綜合評分>0.9 的互作網(wǎng)絡被認為具有統(tǒng)計學意義。利用Cytoscape(http://www.cytoscape.org/)對分子互作網(wǎng)絡進行可視化分析,同時采用CytoHubba 插件,用來計算蛋白之間的節(jié)點。
1.3.3 關鍵基因的篩選與分析:蛋白互作網(wǎng)絡中,連接度排名前20 的基因被鑒定為關鍵基因?;赾BioPortal 數(shù)據(jù)庫(http://www.cbioportal.org)分析關鍵基因的總體生存率和無病生存率,P<0.05 為差異有統(tǒng)計學意義。
2.1 篩選差異表達基因 本研究中選取了來自GEO 數(shù)據(jù)庫的三個mRNA 表達數(shù)據(jù)集GSE84402, GSE62232 和GSE19665。利用GEO2R 工具分別鑒定出1218,1765 和2616 個與病毒相關性肝細胞癌的差異表達基因,采用韋恩圖繪制三個數(shù)據(jù)集共有的差異基因423 個,見圖1。
圖1 病毒相關性肝細胞癌差異基因的韋恩圖
2.2 蛋白-蛋白互作網(wǎng)絡的構建和關鍵基因的篩選 為了探索這些差異基因的潛在作用關系,利用String 數(shù)據(jù)庫對共同差異基因進行蛋白-蛋白互作網(wǎng)絡的構建,結果表明這些分子間存在較為密切的相互作用關系。通過CytoHubba 模塊,根據(jù)分子間的連接度,選取連接度前20 的基因作為關鍵基因,見圖2。
圖2 關鍵基因的蛋白互作網(wǎng)絡
2.3 GO 和KEGG 通路富集分析 見圖3。利用DAVID 對差異基因進行GO 和KEGG 通路功能富集分析。結果顯示差異基因主要富集于細胞質,以及胞質外間隙區(qū)域,見圖3A;同時,差異基因主要參與細胞分裂以及氧化還原等細胞生物學過程中,見圖3B 所示;分析顯示,差異基因主要參與蛋白結合以及鐵離子結合等分子功能中,見圖3C 所示。此外,KEGG 通路分析表明,差異基因主要富集于細胞過程以及DNA 復制和P53 信號通路中,見圖3D 所示。
圖3 GO 和KEGG 通路富集分析
2.4 關鍵基因的臨床分析 見表1。為了進一步評估關鍵基因的預后價值,采用K-M 生存分析的方法對關鍵基因的總體生存和無病生存率進行分析,結果表明 CDK1, CDC20, BUB1, BUB1B, MAD2L1, CCN B1,RRM2,UBE2C,NCAPG,TTK,PBK,NDC80, TPX2, MELK 和KIF2C 的異常表達對肝細胞癌的總體生存率都有較顯著影響。因無病生存率在病人的預后評價中越來越得到重視,隨后對這些關鍵基因進行無病生存率的分析,結果表明BUB1, BUB1B, CDC20, NCAPG, TPX2 和UBE2C 的異常表達與肝細胞癌病人的無病生存率顯著相關(P<0.05)。
表1 關鍵基因生存分析信息表
近年來研究表明肝細胞癌的發(fā)生是多基因、多途徑參與的過程[8],目前其發(fā)生和發(fā)展的具體機制還有待進一步闡明[9]。盡管肝細胞癌的診斷和治療水平有所提高,但其預后效果仍不理想[10]。因此,篩選和鑒定出與肝細胞癌發(fā)生及預后相關的分子標志物對了解肝細胞癌的發(fā)展過程非常重要。
本研究中,利用生物信息學分析方法,篩選出423 個共同差異表達的基因,最終鑒定出連接度最高的20 個關鍵基因,隨后通過總生存率和無病生存率相關性分析,結果表明BUB1, BUB1B, CDC20, NCAPG, TPX2 和UBE2C 在肝細胞癌腫瘤組織中過表達與病毒性肝細胞癌患者的不良預后有顯著相關性(P<0.05)。針對篩選出的上述六個基因,搜索閱讀文獻,有研究報道,BUB1B 是正常有絲分裂中所必需的基因,主要編碼參與紡錘體檢查點功能的激酶,與肝細胞癌、胰腺癌以及肺腺癌的不良預后有關[11-13]。CDC20 編碼的蛋白充當調節(jié)蛋白,在細胞周期的多個點與蛋白質相互作用,通過促進核轉位和β-連環(huán)蛋白的反式激活,維持CD44+前列腺癌干細胞的自我更新能力,在皮膚鱗狀細胞癌中通過CDC20 的下調,抑制Wnt /β-catenin 信號通路,從而抑制細胞增殖,誘導細胞周期停滯,促進細胞凋亡和降低遷移能力[14-15]。NCAPG 編碼縮合蛋白復合物的亞基,其負責有絲分裂和減數(shù)分裂期間染色體的濃縮和穩(wěn)定,其異常表達與肝細胞癌的病理性T 分期和組織學分級密切相關[16]。TPX2 是細胞凋亡過程中微管正常組裝所必需的,有研究報道可通過沉默TPX2 基因,抑制Wnt 信號通路,調節(jié)細胞周期蛋白和凋亡相關蛋白,從而抑制肝癌細胞增殖,誘導細胞凋亡,而且沉默TPX2 可以負調節(jié)PI3K / AKT 并激活p53 信號通路,抑制乳腺癌細胞增殖從而加速細胞凋亡[17-18]。UBE2C 編碼的蛋白質是破壞有絲分裂細胞周期蛋白和細胞周期進展所必需的,有研究表明UBE2C 通過失調-自噬,從而抑制小細胞肺癌的進展,此外UBE2C 在直腸癌中過表達,其受miR-381 調節(jié),會抑制細胞增殖,侵襲和促進細胞凋亡[19-20]。
綜上所述,多項研究已表明BUB1,BUB1B,CDC20,NCAPG,TPX2 和UBE2C 這六個基因參與了多種腫瘤的發(fā)生和發(fā)展,但其在肝細胞癌的功能和作用尚不明確。而本研究通過GEO 數(shù)據(jù)庫的三個病毒性肝細胞癌的芯片陣列進行生物信息學分析,并通過臨床相關性驗證,鑒定出 BUB1,BUB1B,CDC20,NCAPG,TPX2 和UBE2C 在病毒相關性肝細胞癌中均高表達,其過表達對肝細胞癌患者的整體生存和無病生存都起著重要作用。本研究結果可能為病毒相關性肝細胞癌提供了新的預后生物標志物和潛在治療靶點,后續(xù)我們會通過分子生物學實驗及動物實驗來進一步驗證。