楊文娟,馬青梅,馬 莉,馬夢婷,張 倩,劉欣躍
蘭州大學第二醫(yī)院檢驗醫(yī)學中心,甘肅蘭州 730030
肺癌的發(fā)病率居各大癌癥之首,也是引起癌癥患者死亡的主要原因[1]。據(jù)世界衛(wèi)生組織報道,2018年肺癌發(fā)病和死亡人數(shù)分別為210萬例、180萬例,肺腺癌占所有肺癌的40%~55%,發(fā)病率逐年上升[2]。目前,尚缺乏對肺腺癌進行有效診斷和預(yù)后評估的分子標志物,導致大多數(shù)患者臨床確診時已處于晚期且5年生存率較低。因此,迫切需要分析肺腺癌預(yù)后的風險因素,以及確定肺腺癌的預(yù)后分子標志物。
RNA結(jié)合蛋白(RBPs)是一類具有RNA結(jié)合域的蛋白總稱,包括信使RNA(mRNA)、長鏈非編碼RNA(lncRNAs)、微小RNA(miRNAs)和核糖體RNA(rRNAs)等,參與剪接、修飾、轉(zhuǎn)運、定位和翻譯等一系列生物學過程。此外,RBPs在維持細胞生理穩(wěn)態(tài),尤其是發(fā)育和應(yīng)激反應(yīng)等方面也發(fā)揮重要功能[3]。GERSTBERGER等[4]已篩選出1 542種RBPs,然而目前僅有少數(shù)研究探討了RBPs的生物學功能及致病機制。研究報道稱大多數(shù)腫瘤中均有RBPs表達失調(diào)的現(xiàn)象,可能與腫瘤的發(fā)展、遷移、預(yù)后等過程密切相關(guān)[5-6]。本文對肺腺癌患者RNA測序數(shù)據(jù)進行生物信息學分析,挖掘差異表達RBPs,探討RBPs對肺腺癌患者生存預(yù)后的影響。
1.1一般資料 從癌癥基因組圖譜(TCGA)數(shù)據(jù)庫中下載526例肺腺癌組織和59例正常組織的RNA測序數(shù)據(jù)。為了擴大正常組織的樣本數(shù),下載基因型-組織表達(GTEx)數(shù)據(jù)庫中288例正常組織的RNA測序數(shù)據(jù)。以上TCGA和GTEx數(shù)據(jù)庫中肺腺癌和正常組織的測序數(shù)據(jù)均來自UCSC數(shù)據(jù)庫(https://xenabrowser.net/datapages/)。
1.2GO功能注釋和京都基因與基因組百科全書(KEGG)富集分析 為了明確差異表達RBPs在肺腺癌發(fā)生發(fā)展中的作用,使用R軟件Clusterprofiler包對差異表達RBPs進行功能富集分析,包括GO功能注釋[生物學過程、細胞學組分(CC)和分子生物學功能(MF)]和KEGG通路富集(BP)分析。
1.3生存分析 收集從UCSC數(shù)據(jù)庫中下載的500例肺腺癌患者的臨床信息,采用Perl軟件合并肺腺癌患者差異表達RBPs的表達和生存數(shù)據(jù)。通過單因素和多因素Cox回歸分析篩選關(guān)鍵RBPs。根據(jù)風險評估公式:風險評分=Exp1×Coe1+Exp2×Coe2+Expi×Coei(i、Exp和Coe分別表示關(guān)鍵RBPs的數(shù)目、表達值和系數(shù)值),建立關(guān)鍵RBPs生存分析的預(yù)后模型。R軟件將關(guān)鍵RBPs的表達及生存數(shù)據(jù)隨機分為試驗組(252例)和驗證組(248例),根據(jù)風險評分分為高風險組和低風險組,并繪制受試者工作特征曲線(ROC曲線),計算曲線下面積(AUC)。此外,繪制驗證組關(guān)鍵RBPs的ROC曲線并計算AUC值,對試驗組風險評估模型進行驗證。
1.4關(guān)鍵RBPs篩選和驗證 采用Kaplan Meier-plotter數(shù)據(jù)庫(https://kmplot.com/analysis/)驗證關(guān)鍵RBPs對肺腺癌預(yù)后總生存期(OS)的影響;采用人類蛋白質(zhì)圖譜(HPA)數(shù)據(jù)庫(https://www.proteinatlas.org/)對關(guān)鍵RBPs在肺腺癌中的表達進行驗證,進一步驗證構(gòu)建預(yù)后模型的有效性。
1.5統(tǒng)計學處理 采用Perl軟件對下載的肺腺癌和正常組織的RNA測序數(shù)據(jù)進行整理及合并,得到基因表達矩陣文件。根據(jù)已知的1 542個RBPs列表,用R軟件(3.6.1)獲取肺腺癌及正常組織中RBPs的表達矩陣。以|log2FC|>1且錯誤發(fā)現(xiàn)率<0.05為標準,R軟件Limma包篩選肺腺癌和正常組織中差異表達RBPs,Ggplot2包繪制差異表達RBPs的表達分布圖。
2.1肺腺癌中差異表達RBPs的篩選和富集分析 本研究共納入526例肺腺癌組織、347例正常組織的RNA測序數(shù)據(jù)。按照|log2FC|>1且錯誤發(fā)現(xiàn)率<0.05的標準,用R軟件Limma包篩選出375個差異表達RBPs。差異表達RBPs的GO分析結(jié)果表明,差異表達RBPs主要參與RNA代謝、lncRNA的代謝過程和RNA剪切等BP;MF主要為RNA的催化活性、核糖體結(jié)構(gòu)組成部分和核糖核酸酶活性;核糖體、線粒體基質(zhì)和核糖體亞單位等的CC。此外,差異表達RBPs參與核糖體、mRNA的監(jiān)控通路、RNA的轉(zhuǎn)錄和剪切體等KEGG通路。見表1。
表1 差異RBPs的功能富集表
2.2生存預(yù)后模型的構(gòu)建 對375個差異表達RBPs進行單因素Cox回歸分析,獲得26個RBPs。對上述26個RBPs進行多因素Cox回歸分析,得到8個關(guān)鍵RBPs(WDR3、SMG9、DARS2、CARHSP1、LARP6、GAR1、INTS7和EXO1),它們是影響肺腺癌患者OS的獨立預(yù)后因素。將包含8個關(guān)鍵RBPs的表達及生存數(shù)據(jù)的肺腺癌患者,隨機分為試驗組和驗證組。按照風險評估公式:風險評分=(0.696×WDR3)+(0.764×SMG9)+(0.591×DARS2)+(0.675×CARHSP1)+(0.301×LARP6)+(0.526×GAR1)+(0.498×INTS7)+(-354×EXO1),建立肺腺癌患者生存預(yù)后的風險評估模型。在試驗組中,8個關(guān)鍵RBPs的風險評分模型的AUC為0.761,且高風險肺腺癌患者的OS較低風險者短,表明該模型對肺腺癌患者OS可進行良好的預(yù)測。在驗證組中,高風險肺腺癌患者OS較低風險者短,AUC為0.666。本研究成功構(gòu)建了具有較高的靈敏度和特異度的肺腺癌RBPs預(yù)后評估模型,見表2、圖1~2。
表2 多因素Cox回歸分析篩選關(guān)鍵RBPs
注:A為高、低風險患者的生存曲線圖;B為風險評分的OS的ROC曲線圖;C為風險評分分布圖:D為生存狀態(tài)圖。
注:A為高、低風險患者的生存曲線圖;B為風險評分的OS的ROC曲線圖;C為風險評分分布圖:D為生存狀態(tài)圖。
2.3關(guān)鍵RBPs的列線圖 為了定量預(yù)測肺腺癌患者1、3、5年的生存率,構(gòu)建8個關(guān)鍵RBPs的列線圖。在總點軸和各基因預(yù)后軸之間畫1條垂直線,進而估算1、3和5年的生存率,為肺腺癌患者的臨床決策提供依據(jù)。見圖3。
圖3 預(yù)測肺腺癌患者1、3、5年總體生存時間的列線圖
2.4關(guān)鍵RBPs的預(yù)后和表達驗證 通過Kaplan Meier-plotter數(shù)據(jù)庫明確肺腺癌患者中8個預(yù)后關(guān)鍵RBPs與OS的關(guān)系,發(fā)現(xiàn)高表達WDR3、DARS2、CARHSP1、LARP6、GAR1、INTS7和EXO1基因的肺腺癌患者預(yù)后更差(P<0.05);而SMG9對預(yù)后OS的影響無統(tǒng)計學意義(P>0.05)。為了進一步明確上述關(guān)鍵RBPs在肺腺癌中的表達情況,HPA數(shù)據(jù)庫免疫組化結(jié)果表明在肺癌組織中SMG9、DARS2、CARHSP1、LARP6、GAR1基因表達較正常組織高。然而,HPA數(shù)據(jù)庫尚缺乏WDR3、INTS7和EXO1基因的免疫組化表達數(shù)據(jù)。見圖4、5。
注:A~H分別為SMG9、WDR3、DARS2、CARHSP1、LARP6、GAR1、INTS7、EXO1高表達者和低表達者Kaplan Meier生存分析圖。
注:A為SMG9基因在正常組織中低表達;B為SMG9基因在肺腺癌組織高表達;C為DARS2基因在正常組織未檢測到;D為DARS2基因在肺腺癌組織高表達;E為CARHSP1基因在正常組織低表達;F為CARHSP1基因在肺腺癌組織中度表達;G為GAR1基因在正常組織高表達(25%~75%);H為GAR1基因在肺腺癌組織高表達(>75%);I為LARP6基因在正常組織低表達;J為LARP6基因在肺腺癌組織高表達。
本研究從UCSC數(shù)據(jù)庫中下載肺腺癌和正常組織的RNA測序數(shù)據(jù),R軟件篩選差異表達的RBPs,獲得375個差異表達RBPs。通過單因素和多因素Cox回歸分析得到8個關(guān)鍵RBPs,成功構(gòu)建了肺腺癌患者RBP預(yù)后風險評估模型,且驗證組結(jié)果表明該模型具有較好的預(yù)后預(yù)測意義;構(gòu)建的列線圖進一步直觀定量地描述了肺腺癌患者1、3、5年生存率。Kaplan Meier-plotter數(shù)據(jù)庫表明WDR3、DARS2、CARHSP1、LARP6、GAR1、INTS7和EXO1 7個關(guān)鍵RBPs高表達的肺腺癌患者的總體生存率較低表達患者低。使用HPA數(shù)據(jù)庫驗證SMG9、DARS2、CARHSP1、LARP6、GAR1等基因在肺癌組織中高表達,與本研究所得結(jié)果一致。上述結(jié)論均表明,本研究建立的關(guān)鍵RBPs預(yù)后評估模型,對肺腺癌患者調(diào)整治療策略、預(yù)后標志物的探索有一定的意義。
目前,已有研究者對預(yù)后關(guān)鍵RBPs在腫瘤中的作用展開了多項研究。在西班牙人群中展開的研究發(fā)現(xiàn)WDR3基因可增加甲狀腺癌的風險,且在甲狀腺癌細胞中WDR3表達上調(diào)[7]。研究表明DARS2基因可延長肝細胞肝癌的細胞周期并抑制肝細胞肝癌細胞的凋亡[8];DARS2也參與膀胱癌的發(fā)生、發(fā)展和轉(zhuǎn)移等過程[9]。胡仁旺等[10]發(fā)現(xiàn)LARP6的異常表達可影響胃癌患者的OS和無進展生存期。研究表明GAR1在胃癌組織中尚無表達差異,而在結(jié)腸癌組織中表達上調(diào),可能在結(jié)腸癌的發(fā)生發(fā)展中起著重要作用[11]。INTS7在轉(zhuǎn)錄調(diào)控中起著重要作用,且具有高度突變性。前列腺癌的侵襲性與INST7的過表達有關(guān)[12];INTST7被證實在胃癌、膀胱癌和肺腺癌中均為過表達[13]。EXO1基因異常表達可能影響前列腺癌患者的預(yù)后生存及進展[14];ZHENG等[15]發(fā)現(xiàn),乳腺癌患者OS較短,與EXO1基因的表達上調(diào)有關(guān)。不同腫瘤細胞的增殖、侵襲及腫瘤患者的預(yù)后與關(guān)鍵RBPs的異常表達有關(guān),未來可通過干擾上述RBPs的表達,改善肺腺癌患者的預(yù)后生存情況。
綜上所述,本研究成功構(gòu)建了肺腺癌關(guān)鍵RBPs預(yù)后評估模型,為進一步探索RBPs對肺腺癌的影響提供了新思路,有助于臨床開發(fā)新的靶向治療藥物,預(yù)測患者預(yù)后生存時間。然而,本研究尚存在一定的局限性,仍需要大量測序數(shù)據(jù)及相應(yīng)的前瞻性臨床試驗進一步驗證。