王萬鵬,張啟迪,傅承宏,陳皓瑜,周素芹,劉艷艷,何中祥,宋 堅,濮 娟
(1.南京醫(yī)科大學康達學院附屬漣水人民醫(yī)院放療科,江蘇 淮安 223400;2.南京醫(yī)科大學康達學院附屬漣水人民醫(yī)院中心實驗室,江蘇 淮安 223400;3.上海交通大學醫(yī)學院附屬上海市第一人民醫(yī)院消化科,上海 200080)
食管鱗狀細胞癌(esophageal squamous cell carcinoma,ESCC)占食管癌中的約90%,是起源于食管鱗狀上皮系統(tǒng)的惡性腫瘤,其發(fā)病是多階段、多基因、多步驟的聯(lián)合作用導致[1]。隨著腫瘤大數(shù)據(jù)的普及,網(wǎng)絡(luò)公共平臺也提供了大量的腫瘤組學數(shù)據(jù),為研究腫瘤的生物學本質(zhì)提供了極大的便利。但單個研究樣本量較小,且各研究間存在批次、標本獲取方法、實驗?zāi)康幕驅(qū)嶒灄l件的不同,結(jié)果差異較大。雖然不同的數(shù)據(jù)整合方法也相繼出現(xiàn),但由于每種方法都有各自的不足,限制了其廣泛應(yīng)用[2]。本研究采用秩聚合(RRA)方法整合來自公共平臺的多套ESCC 表達譜數(shù)據(jù),在獲取相關(guān)差異表達基因(DEGs)后通過構(gòu)建蛋白互作(PPI)網(wǎng)絡(luò)進行基因模塊挖掘,使用TCGA 數(shù)據(jù)庫中的ESCC 表達數(shù)據(jù)及免疫組化方法加以實驗驗證,以期尋找影響ESCC 發(fā)病機制的關(guān)鍵基因,為進一步探究ESCC 生物標志物和分子靶點提供新的科學思路。
1.1 資料來源 收集基因表達綜合數(shù)據(jù)庫(gene expression omnibus,GEO)中ESCC 轉(zhuǎn)錄組表達譜數(shù)據(jù)原始文件(raw data)。收集標準:包含癌組織及及癌旁組織且各組至少包含3 例。共收集到9 個系列的ESCC 表達譜數(shù)據(jù):GSE77861、GSE77861、GSE100942、GSE26886、GSE17351、GSE38129、GSE33426、GSE20347、GSE23400。各數(shù)據(jù)集資料見圖1。
圖1 9 個ESCC 表達譜數(shù)據(jù)
1.2 數(shù)據(jù)預處理及整合轉(zhuǎn)錄組學差異基因分析 采用R 語言(3.6.2 版)中的Affy 包對原始數(shù)據(jù)進行預處理,包括ReadAffy 函數(shù)讀取原始文件,RMA 函數(shù)歸一化及對數(shù)化,KNN 法補充缺失值[3],若多個探針對應(yīng)同一基因名稱,則采用平均值法得到基因表達值。limma 包進行差異表達值計算,貝葉斯法多重檢驗校正,得到不同數(shù)據(jù)集中各基因的校正P 值及倍數(shù)變化(FC)對數(shù)值的絕對值,即|Log2FC|。得到9 個差異表達矩陣后,使用R 語言包“Robustrankaggreg”對數(shù)據(jù)集中的基因進行整合,“Robustrankaggreg”包是基于RRA 方法,該方法基于不相關(guān)輸入的無效假設(shè)篩選出持續(xù)優(yōu)于預期的基因,最終通過貝葉斯校正得出各基因的矯正P值[2]。各基因的Log2FC 由各數(shù)據(jù)集中基因的Log2FC 平均值得出。最終選擇閾值為|Log2FC|≥1.5,P<0.05 的基因作為DEGs。
1.3 蛋白互作(PPI)網(wǎng)絡(luò)構(gòu)建和模塊挖掘 應(yīng)用STRING(https://string-db.org/)數(shù)據(jù)庫分析所得DEGs 的蛋白互作網(wǎng)絡(luò),閾值設(shè)置為confidence score≥0.4,并通過Cytoscape 3.5.1 軟件進行可視化處理。使用插件Molecular Complex Detection(MCODE)對PPI 網(wǎng)絡(luò)進行模塊分析,參數(shù)設(shè)置為節(jié)點度閾值(degree cutoff)>5,鄰節(jié)點個數(shù)(k-core)>5,余均為默認設(shè)置。
1.4 關(guān)鍵基因mRNA 水平驗證 關(guān)鍵基因的mRNA表達水平驗證使用來自TCGA 數(shù)據(jù)庫中ESCC 數(shù)據(jù)。從UCSC 癌癥基因組瀏覽器(http://xena.ucsc.edu/welcome-to-ucsc-xena/)中下載來源于TCGA 的食管癌表達數(shù)據(jù)及對應(yīng)樣本的臨床資料,數(shù)據(jù)集名為“GDC TCGA Esophageal Cancer(ESCA)”,該數(shù)據(jù)集基于IlluminaHiSeq RNASeq V2 高通量RNA 測序平臺,表達數(shù)據(jù)已經(jīng)經(jīng)過歸一化的相對值。提取其中具有臨床資料的81 例ESCC 患者癌組織和11 例對照的數(shù)據(jù)進行分析。
1.5 病例收集 收集我院2013 年1 月~2015 年12 月就診的184 例ESCC 患者病理資料及蠟塊,其中男157 例,女27 例,年齡36~86 歲。納入標準:①經(jīng)過我院病理科證實病理類型為ESCC;②取樣本前均未行放化療;③入院前無感染病史和血液性疾病。排除標準:①臨床資料不全者;②伴隨嚴重感染或者自身免疫性疾病者。另外收集同期50 例癌旁組織(距離癌組織邊緣5 cm 以上)作為對照。
1.6 免疫組織化學檢測蛋白表達 CDKN3 抗體購自美國Abcam 公司(貨號:ab175393)。石蠟塊來自于我院病理科長期保存,制成4 μm 組織切片,常規(guī)脫蠟、水洗后與加入一抗(1∶200),于4 ℃濕盒內(nèi)過夜。二抗37 ℃孵育30 min、PBS 液清洗后滴加辣根過氧化物酶并于37 ℃溫箱內(nèi)孵育30 min,DAB 顯色,蘇木素復染細胞核、封片。以腫瘤細胞染色強度和陽性細胞比例進行計分,評分標準按照文獻[4]。
1.7 統(tǒng)計學分析 使用SPSS 22.0 整理及分析數(shù)據(jù),Graphpad prime 5 制作統(tǒng)計圖片。計數(shù)資料使用KS 檢驗檢測正態(tài)分布情況,符合正態(tài)分布的計量資料使用()表示,組間比較采用t檢驗;偏態(tài)分布資料使用四分位間距(IQR)表示,組間比較使用Mann-Whitney 檢驗;計數(shù)資料使用(n,%)表示,若出現(xiàn)理論頻次小于5 則使用Fisher 確切概率法計算相應(yīng)的χ2值和P值。所有P值均為雙尾檢驗,P<0.05 認為差異有統(tǒng)計學意義。
2.1 整合轉(zhuǎn)錄分析識別差異表達基因 對GEO 數(shù)據(jù)庫中下載得到的9 套基因表達譜進行整合分析后,以|Log2FC| ≥1.5、P<0.05 為標準,共得到ESCC 相關(guān)DEGs 244 個,其中上調(diào)93 個、下調(diào)151 個。上調(diào)和下調(diào)排名前10 位的基因見圖2。
2.2 PPI 網(wǎng)絡(luò)構(gòu)建和模塊挖掘 將得到的244 個DEGs 輸入STRING 數(shù)據(jù)庫,共得到194 個節(jié)點、864個連接的PPI 網(wǎng)絡(luò),見圖3A。為了進一步探究PPI網(wǎng)絡(luò)中可能存在的具有核心意義的蛋白互作模塊,利用Cytoscape 軟件中的MCODE 插件在網(wǎng)絡(luò)中進行了模塊挖掘和分析,結(jié)果顯示得分最高(score=23.304)的蛋白模塊包含24 個節(jié)點和268 個連接,見圖3B,其中種子(seed)基因為細胞周期蛋白依賴性激酶抑制因子3(Cyclin-dependent kinase inhibitor 3,CDKN3)。
2.3 CDKN3 mRNA 在ESCC 中的表達驗證 TCGA數(shù)據(jù)庫分析結(jié)果示,ESCC 組織中CDKN3 相對表達量為3.291(IQR:2.833~3.659),11 例對照組織相對表達量為1.184(IQR:0.734~1.720),兩者比較,差異有統(tǒng)計學意義(U=18.000,P<0.05),見圖4A。受試者工作特性曲線(ROC)結(jié)果顯示,曲線下面積(AUC)為0.980,以2.149 為截斷值,其特異性為90.91%(95%CI:58.72%~99.77%),敏感性為92.59%(95%CI:84.57%~97.23%),見圖4B。
圖2 ESCC 差異表達基因
圖3 蛋白互作用網(wǎng)絡(luò)構(gòu)建
圖4 CDKN3 mRNA 在ESCC 及癌旁組織中的表達
2.4 CDKN3 蛋白在ESCC 中的表達 免疫組織化學法檢測結(jié)果顯示,50 例對照組織中CDKN3 蛋白陰性表達34 例(68.00%),陽性表達16 例(32.00%);184 例ESCC 組織中,陰性表達71 例(38.59%),CDKN3 陽性表達113 例(61.41%),ESCC 組織中CDKN3 蛋白陽性表達率高于對照組織,差異有統(tǒng)計學意義(χ2=13.750,P<0.05),見圖5。
圖5 CDKN3 在ESCC 及癌旁組織中的表達(×400)
2.5 CDKN3 蛋白表達與ESCC 患者臨床病理特征的關(guān)系 單因素分析顯示,不同性別、年齡、T 及M 分期的ESCC 患者CDKN3 蛋白表達比較,差異無統(tǒng)計學意義(P>0.05);不同N 分期及臨床分期的ESCC患者CDKN3 蛋白表達比較,差異有統(tǒng)計學意義(P<0.05),見表1。
表1 CDKN3 蛋白表達與ESCC 患者臨床特征關(guān)系(n)
雖然與過去相比,ESCC 的診斷及治療手段已明顯進步,但由于其起病隱匿及高度惡性的特點,患者預后仍很差,約10%的患者被診斷時已為晚期,腫瘤已擴散到其他器官[5,6]。近年來,隨著微陣列和高通量測序技術(shù)的不斷發(fā)展,腫瘤研究進入大數(shù)據(jù)時代,通過高通量技術(shù)對腫瘤的檢測不僅可以明確其遺傳學改變,還可以了解腫瘤患者的個體化情況,輔助腫瘤個體化治療。但對于不同的研究,其重復性仍然不能令人完全滿意,主要原因如下:①各單獨實驗所包含的疾病例數(shù)較少;②各中心標本取材、存儲手段及條件等客觀因素的存在,因此標本質(zhì)量也無法完全一致;③各中心的高通量數(shù)據(jù)往往基于不同的平臺。因此,不同中心所得出的高通量數(shù)據(jù)之間無論是在數(shù)據(jù)表達還是數(shù)據(jù)構(gòu)成上均存在差異,這種差異易造成假陽性及假陰性的產(chǎn)生。
基于此,面對各種不同平臺提供的海量高通量數(shù)據(jù),一方面給予研究人員提供了極大的便利,一方面又對于數(shù)據(jù)整合方法提出了新的要求。目前常用的數(shù)據(jù)整合方法主要包括:①通過分析不同表達譜的差異基因[7],然后取得交集。雖然這種方法非??煽浚诓僮饕讈G失大量的信息,產(chǎn)生假陰性;②可采用R 語言sva 包中combat 函數(shù)去除批次效應(yīng)[8],但這種方法存在一定的缺點:需要被合并的表達矩陣必須具有相同的探針,因此只能在同一平臺內(nèi)合并,跨平臺整合數(shù)據(jù)則無法實現(xiàn),最終仍需要取得基于不同平臺的DEGs 交集。本研究采取秩聚合方法進行整合不同表達譜,主導思想是通過不同實驗的差異分析結(jié)果,優(yōu)先排序的基因列表是基因組數(shù)據(jù)分析應(yīng)用程序中常見的結(jié)果表示方法[2]。因此,秩聚合方法可以成為這一類問題有用且通用的解決方案,通過這種方法不再受限于平臺,同時又可以擴大樣本量。最終本研究得到DEGs 共244 個,其中多個基因已經(jīng)被報道在ESCC 中發(fā)揮著重要作用,如MMP1[9]、MAGEA6[10]、MAL[11]等,該結(jié)果從側(cè)面說明了秩聚合方法的可靠性。
ESCC 發(fā)生機制極其復雜,涉及多種通路及因子,但傳統(tǒng)的生物學研究以單基因或蛋白為出發(fā)點,難以對系統(tǒng)進行全面的探索?;诖?,本研究通過構(gòu)建由DEGs 組成的PPI 網(wǎng)絡(luò),并挖掘其中重要的基因互作模塊,結(jié)果顯示其中最重要的PPI 模塊由FOXM1[12]、DTL[13]等24 個基因構(gòu)成的模塊,既往研究也顯示其中很多基因也被認為是ESCC 相關(guān)基因。進一步分析顯示,該基因模塊的中心基因為CDKN3,因此可以推斷其生物功能在ESCC 的發(fā)生發(fā)展中具有核心地位。CDKN3 是一種細胞周期調(diào)控蛋白,可直接或間接與細胞周期蛋白依賴性激酶(cyclin-dependent protein kinase,CDK)等細胞周期調(diào)控因子作用,參與細胞周期調(diào)控,因此與多種腫瘤的發(fā)生發(fā)展密切相關(guān)[14]。本研究結(jié)果顯示,ESCC 組織中CDKN3 mRNA 表達量較正常組織升高;以2.149為截斷值,CDKN3 mRNA 對于ESCC 具有較高的診斷價值,其特異性為90.91%,敏感性為92.59%。此外,通過免疫組織化學,進一步驗證了CDKN3 在蛋白水平的表達異常,初步提示CDKN3 可能參與ESCC 的進展。同時,有研究已經(jīng)在細胞水平證實CDKN3 可以通過依賴或非依賴的AKT 信號通路參與ESCC 的增殖、侵潤及轉(zhuǎn)移,這也在分子水平佐證了本研究所用生物信息學方法的可靠性。
綜上所述,CDKN3 在食管鱗狀細胞癌組織及癌旁組織中表達存在差異,其可能是食管鱗狀細胞癌的關(guān)鍵基因;另外,CDKN3 的表達與患者N 分期及臨床分期有關(guān),其可作為臨床診斷食管鱗狀細胞癌的生物標志物。