李麗希,黃 鋼
(1.上海理工大學(xué) 健康科學(xué)與工程學(xué)院,上海 200090;2.上海市分子影像重點(diǎn)實(shí)驗(yàn)室,上海 201200)
肺癌是全球死亡率最高的癌癥之一,非小細(xì)胞肺癌(Non-small cell lung cancer,NSCLC)是肺癌中最常見(jiàn)的類型,約占所有肺癌病例的80%[1]。肺腺癌(Lung adenocarcinoma,LUAD)是非小細(xì)胞肺癌的主要亞型之一,對(duì)全球不吸煙者而言是致死率最高的疾病[2-3]。由于LUAD在早期容易轉(zhuǎn)移復(fù)發(fā),LUAD患者的預(yù)后效果很差,平均5年生存率低于20%[4]。在臨床實(shí)踐中,腫瘤分期系統(tǒng)已廣泛應(yīng)用于癌癥患者的指導(dǎo)治療和預(yù)后評(píng)估。然而,預(yù)后的判斷通常只基于固有的解剖學(xué)信息,由于肺腺癌的異質(zhì)性,很難預(yù)測(cè)疾病的發(fā)展。因此,迫切需要尋找有效的預(yù)后生物標(biāo)志物來(lái)幫助臨床醫(yī)生做出準(zhǔn)確的肺腺癌診斷,預(yù)測(cè)臨床結(jié)果,為個(gè)體化醫(yī)學(xué)提供參考。
過(guò)去幾年里,研究發(fā)現(xiàn)自噬在腫瘤的發(fā)生過(guò)程中發(fā)揮了重要的作用[6-9]。自噬是一個(gè)復(fù)雜的生理病理過(guò)程,自噬的溶酶體降解功能在細(xì)胞生理學(xué)中起著至關(guān)重要的作用,如適應(yīng)代謝應(yīng)激、清除危險(xiǎn)物質(zhì)(如蛋白質(zhì)聚集體、受損或老化的細(xì)胞器、細(xì)胞內(nèi)病原體)、細(xì)胞分化和發(fā)育過(guò)程中的更新等[10]。在癌癥中,自噬具有雙重作用,它既能夠抑制良性腫瘤的生長(zhǎng),也可以促進(jìn)晚期癌癥的發(fā)展[11]。目前,許多研究小組已經(jīng)確定把自噬作為癌癥治療的潛在靶點(diǎn)。
本項(xiàng)研究構(gòu)建了一個(gè)結(jié)合多個(gè)自噬相關(guān)基因和臨床參數(shù)的模型來(lái)預(yù)測(cè)LUAD患者的預(yù)后。從TCGA數(shù)據(jù)庫(kù)的LUAD數(shù)據(jù)中篩選出表達(dá)具有顯著差異的自噬相關(guān)基因,對(duì)差異自噬相關(guān)基因進(jìn)行單因素Cox回歸分析來(lái)確定與LUAD患者生存相關(guān)的候選基因,然后使用lasso回歸模型篩選出預(yù)后相關(guān)基因,對(duì)預(yù)后相關(guān)基因進(jìn)行多因素Cox分析,構(gòu)建風(fēng)險(xiǎn)評(píng)分模型,并對(duì)風(fēng)險(xiǎn)評(píng)分模型進(jìn)行內(nèi)部驗(yàn)證和外部驗(yàn)證。最后將風(fēng)險(xiǎn)評(píng)分與臨床參數(shù)結(jié)合,構(gòu)建了預(yù)測(cè)患者生存概率的列線圖模型,使用一致性指數(shù)(Concordance index, C-index)、校準(zhǔn)曲線和ROC曲線來(lái)評(píng)估模型的性能。
在人類自噬專用數(shù)據(jù)庫(kù)HADb(http://www.autophagy.lu/)、ARN數(shù)據(jù)庫(kù)(http://autophagyregulation.org)、自噬數(shù)據(jù)庫(kù)(http://www.tanpaku.org/autophagy/index.html)上下載了自噬相關(guān)基因共1 417個(gè)。從TCGA(https://portal.gdc.cancer.gov/)下載LUAD的COUNT數(shù)據(jù)和FPKM數(shù)據(jù)各585例,包含526例肺腺癌樣本和59例癌旁正常肺組織。從UCSC Xena(https://xenabrowser.net/)下載TCGA-LUAD的生存信息641例和臨床數(shù)據(jù)706例。對(duì)于TCGA數(shù)據(jù),過(guò)濾生存信息、腫瘤分期信息、年齡、性別和復(fù)發(fā)信息不完整的樣本,保留了TCGA的417例肺腺癌樣本和48例正常樣本。在TCGA數(shù)據(jù)中篩選出自噬相關(guān)基因的信息,并將癌癥樣本(n=417)隨機(jī)分配為訓(xùn)練組和測(cè)試組,比例為1∶1。
同時(shí),在GEO(https://www.ncbi.nlm.nih.gov/geo/)數(shù)據(jù)庫(kù)下載了GSE50081數(shù)據(jù)集用于外部驗(yàn)證,該數(shù)據(jù)集包括了127例肺腺癌樣本和54例正常樣本。
使用“l(fā)imma”包對(duì)自噬相關(guān)基因進(jìn)行差異分析,差異基因篩選標(biāo)準(zhǔn)為:|logFC|>1.5,P<0.05。
對(duì)表達(dá)具有顯著差異的自噬相關(guān)基因使用單因素Cox比例風(fēng)險(xiǎn)回歸分析篩選出候選基因,篩選閾值為:風(fēng)險(xiǎn)比HR≠1,p<0.05。
Lasso是一種高維預(yù)測(cè)回歸方法,并已被廣泛應(yīng)用于高維數(shù)據(jù)生存分析的Cox比例風(fēng)險(xiǎn)回歸模型中[12]。為了進(jìn)一步篩選出與LUAD生存顯著相關(guān)的基因,在訓(xùn)練集(n= 209)中使用Lasso回歸模型對(duì)候選基因進(jìn)行篩選,并進(jìn)行十折交叉驗(yàn)證,以確定最佳的預(yù)后相關(guān)基因。
對(duì)預(yù)后相關(guān)基因進(jìn)行多因素Cox比例風(fēng)險(xiǎn)回歸分析,獲得預(yù)后相關(guān)基因的回歸系數(shù)。然后,采用predict函數(shù)將基因的表達(dá)水平和回歸系數(shù)進(jìn)行組合算出每個(gè)患者的風(fēng)險(xiǎn)評(píng)分。
使用“survminer”包計(jì)算出最優(yōu)cutoff值,以cutoff為臨界值,將訓(xùn)練組分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。為了確定風(fēng)險(xiǎn)評(píng)分在預(yù)測(cè)肺腺癌患者臨床預(yù)后中的作用,采用對(duì)數(shù)秩檢驗(yàn)對(duì)訓(xùn)練組進(jìn)行了生存分析,比較高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組之間的生存差異。繪制了與時(shí)間相關(guān)的ROC曲線來(lái)進(jìn)一步評(píng)估風(fēng)險(xiǎn)評(píng)分的預(yù)后性能,并計(jì)算了其3年和5年的AUC值。
此外,為了探討多基因預(yù)后標(biāo)志在其他臨床參數(shù)中的診斷能力,進(jìn)行了一項(xiàng)分層分析,以cutoff值為分界點(diǎn)進(jìn)行分組,使用Kaplan-Meier曲線比較了stage亞組、年齡、性別亞組中高低風(fēng)險(xiǎn)組的生存差異。
使用內(nèi)部驗(yàn)證集(n=208),外部驗(yàn)證集GSE50081(n=127),以及全集(n=417)來(lái)驗(yàn)證風(fēng)險(xiǎn)評(píng)分的預(yù)測(cè)能力和適用性。在驗(yàn)證集中,使用訓(xùn)練集中獲得的回歸系數(shù)計(jì)算每個(gè)樣本的風(fēng)險(xiǎn)評(píng)分,然后根據(jù)cutoff值將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組,采用對(duì)數(shù)秩檢驗(yàn)進(jìn)行生存分析,繪制與時(shí)間相關(guān)的ROC曲線。
對(duì)風(fēng)險(xiǎn)評(píng)分和一些臨床參數(shù)(stage、T期、N期、年齡、性別、復(fù)發(fā))進(jìn)行了單因素Cox回歸分析,以比較風(fēng)險(xiǎn)評(píng)分與臨床參數(shù)的預(yù)后能力。然后,使用多因素Cox回歸模型來(lái)確定風(fēng)險(xiǎn)評(píng)分是否具有臨床獨(dú)立性,其中,在單因素Cox回歸分析中具有顯著統(tǒng)計(jì)學(xué)差異(p<0.05)的臨床參數(shù)也被納入多因素Cox回歸模型中。
基于上述單因素和多因素Cox回歸分析,篩選出具有統(tǒng)計(jì)學(xué)差異的參數(shù)作為獨(dú)立預(yù)后參數(shù),用于列線圖的構(gòu)建,以預(yù)測(cè)患者3年、5年的生存概率。
為了評(píng)價(jià)模型的預(yù)測(cè)能力,計(jì)算出列線圖模型的C-index,并繪制其3年、5年的ROC曲線,同時(shí)繪制了3年時(shí)stage、風(fēng)險(xiǎn)評(píng)分和列線圖的ROC曲線,比較三者的預(yù)測(cè)能力。然后,使用校準(zhǔn)曲線,通過(guò)500次重采樣,以3年、5年的觀察速率來(lái)可視化列線圖的性能,列線圖的預(yù)測(cè)結(jié)果和實(shí)際結(jié)果都能夠在校準(zhǔn)曲線中進(jìn)行比較,其中,45°線為最佳預(yù)測(cè)結(jié)果。在內(nèi)部驗(yàn)證集和全集中使用上述相同的辦法來(lái)驗(yàn)證結(jié)果。
在HADb數(shù)據(jù)庫(kù)、ARN數(shù)據(jù)庫(kù)和自噬數(shù)據(jù)庫(kù)中共下載了1 417個(gè)自噬相關(guān)基因,其中938個(gè)基因在TCGA數(shù)據(jù)中有表達(dá)。對(duì)938個(gè)自噬基因進(jìn)行差異分析,獲得了38個(gè)上調(diào)基因和44個(gè)下調(diào)基因(見(jiàn)圖1a),篩選條件為|logFC|>1.5,P<0.05。
在全集中,對(duì)差異基因進(jìn)行單因素Cox回歸分析,發(fā)現(xiàn)有13個(gè)候選基因與肺腺癌生存相關(guān)(見(jiàn)圖1b)。為進(jìn)一步確定與LUAD患者預(yù)后相關(guān)的基因,使用“glmnet”R包對(duì)候選基因進(jìn)行了LASSO回歸分析以及十折交叉驗(yàn)證,其結(jié)果顯示,當(dāng)λmin=0.029時(shí),模型性能達(dá)到最佳,此時(shí)篩選出了6個(gè)預(yù)后相關(guān)基因(見(jiàn)圖1c,1d),即ARNTL2、NAPSA、ATG9B、CAPN12、MAP1LC3C、KRT81,這些基因中有4個(gè)(NAPSA、ATG9B、CAPN12、MAP1LC3C)的風(fēng)險(xiǎn)比小于1,表明它們的低表達(dá)與預(yù)后不良有關(guān),而ARNTL2和KRT81的風(fēng)險(xiǎn)比大于1,表明它們的過(guò)度表達(dá)與低生存率有關(guān)。
圖1 回歸分析篩選與LUAD預(yù)后相關(guān)的自噬相關(guān)基因
對(duì)6個(gè)預(yù)后相關(guān)基因進(jìn)行多因素Cox回歸分析(見(jiàn)圖2),然后,使用predict函數(shù)結(jié)合多基因的回歸系數(shù)和表達(dá)量構(gòu)建風(fēng)險(xiǎn)評(píng)分,通過(guò)“survminer”R包獲取風(fēng)險(xiǎn)評(píng)分的最優(yōu)cutoff值,以cutoff值為分界點(diǎn),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組,并展示了訓(xùn)練集中患者的生存狀態(tài)和6個(gè)預(yù)后相關(guān)基因的熱圖(見(jiàn)圖3a)。對(duì)訓(xùn)練組進(jìn)行生存分析,結(jié)果顯示,與低風(fēng)險(xiǎn)組相比,高風(fēng)險(xiǎn)組的預(yù)后結(jié)果更差(見(jiàn)圖3b)。然后,我們構(gòu)建了一個(gè)與時(shí)間相關(guān)的ROC曲線(見(jiàn)圖3c),其3年、5年的AUC值分別為0.852、0.868,這表明這個(gè)多基因預(yù)后標(biāo)志具有較好的預(yù)測(cè)能力。
圖2 預(yù)后相關(guān)基因的多因素Cox回歸分析
圖3 訓(xùn)練集中多基因特征的預(yù)后分析
此外,對(duì)stage、年齡和性別進(jìn)行了風(fēng)險(xiǎn)分層,以cutoff值為分界點(diǎn),將訓(xùn)練組的患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組,進(jìn)行Kaplan-Meier生存分析(見(jiàn)圖4)。在stage Ⅰ/Ⅱ、stageⅢ/Ⅳ、男性、女性、年齡大于65歲和年齡小于65歲的亞組中,高風(fēng)險(xiǎn)組的生存率都顯著低于低風(fēng)險(xiǎn)組(p<0.05)。
圖4 風(fēng)險(xiǎn)評(píng)分在不同亞組中的生存分析
使用內(nèi)部測(cè)試集(n=208)、外部測(cè)試集(n=127)和全集(n=417)來(lái)驗(yàn)證風(fēng)險(xiǎn)評(píng)分的預(yù)測(cè)能力。與訓(xùn)練集中的結(jié)果一致,測(cè)試集的生存分析曲線都顯示高風(fēng)險(xiǎn)組的預(yù)后結(jié)果比低風(fēng)險(xiǎn)組的差(見(jiàn)圖5a-5c)。ROC曲線顯示,內(nèi)部測(cè)試集的3年、5年AUC值為0.863、0.938(見(jiàn)圖5d),外部測(cè)試集的3年、5年AUC值為0.939、0.852(見(jiàn)圖5e),全集的3年、5年AUC值為0.861、0.905(見(jiàn)圖5f),以上結(jié)果都顯示風(fēng)險(xiǎn)評(píng)分在預(yù)測(cè)LUAD患者的預(yù)后方面表現(xiàn)良好。
圖5 風(fēng)險(xiǎn)評(píng)分的內(nèi)部驗(yàn)證和外部驗(yàn)證
對(duì)風(fēng)險(xiǎn)評(píng)分和一些臨床參數(shù)(stage、T期、N期、年齡、性別、復(fù)發(fā))進(jìn)行了單因素和多因素Cox比例風(fēng)險(xiǎn)回歸分析,其結(jié)果顯示風(fēng)險(xiǎn)評(píng)分可以作為預(yù)測(cè)LUAD預(yù)后的獨(dú)立參數(shù),而在傳統(tǒng)臨床參數(shù)中,stage和復(fù)發(fā)也可以作為獨(dú)立預(yù)后參數(shù)(見(jiàn)圖6a,6b)。我們將傳統(tǒng)臨床風(fēng)險(xiǎn)因素和風(fēng)險(xiǎn)評(píng)分相結(jié)合,構(gòu)建一種能夠有效預(yù)測(cè)患者3年、5年生存率的列線圖(見(jiàn)圖6c)。列線圖的C-index指數(shù)為0.807,表明列線圖有較好的預(yù)測(cè)能力。校準(zhǔn)曲線顯示,列線圖的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果較為一致(見(jiàn)圖7a)。ROC曲線顯示,列線圖3年、5年的AUC值分別為0.898、0.88(見(jiàn)圖7d)。三年時(shí),列線圖生存的AUC值遠(yuǎn)高于風(fēng)險(xiǎn)評(píng)分模型和stage的AUC值(見(jiàn)圖7g),這表明列線圖可能是預(yù)測(cè)LUAD預(yù)后生存的最佳方式。
圖6 臨床單、多因素Cox分析以及列線圖的構(gòu)建
為了驗(yàn)證列線圖的預(yù)測(cè)價(jià)值,使用內(nèi)部測(cè)試集(n=208)和全集(n=417)來(lái)檢驗(yàn)上述的發(fā)現(xiàn)。內(nèi)部測(cè)試集和全集的列線圖的C-Index指數(shù)分別為0.8和0.792,校準(zhǔn)曲線也顯示兩個(gè)測(cè)試集列線圖的3年、5年生存預(yù)測(cè)結(jié)果與實(shí)際結(jié)果有良好的一致性(見(jiàn)圖7b,7c)。列線圖的ROC曲線顯示,兩個(gè)測(cè)試集具有較好的預(yù)測(cè)準(zhǔn)確度(見(jiàn)圖7e,7f)。同時(shí),在3年期的生存預(yù)測(cè)中,列線圖無(wú)論在哪組都比風(fēng)險(xiǎn)評(píng)分和stage有更好的預(yù)測(cè)準(zhǔn)確度(見(jiàn)圖7h,7i)。
圖7 列線圖預(yù)測(cè)LUAD生存率的性能以及列線圖、風(fēng)險(xiǎn)評(píng)分和Stage預(yù)測(cè)能力的比較
自噬是高度保守的代謝過(guò)程,在循環(huán)代謝能量以維持細(xì)胞內(nèi)穩(wěn)態(tài)方面起著關(guān)鍵作用[13]。有研究表明了多個(gè)自噬相關(guān)基因與肺癌的發(fā)生發(fā)展密切相關(guān)[14-16],因此,決定把自噬相關(guān)基因作為肺腺癌治療的潛在靶點(diǎn)。通過(guò)對(duì)TCGA肺腺癌數(shù)據(jù)中的938個(gè)自噬相關(guān)基因進(jìn)行差異分析,獲得了82個(gè)差異基因,然后對(duì)差異自噬基因進(jìn)行單因素Cox回歸分析,篩選出了13個(gè)與LUAD生存相關(guān)的候選基因,然后使用lasso回歸進(jìn)一步篩選出6個(gè)與LUAD預(yù)后相關(guān)的基因。通過(guò)多因素Cox回歸分析獲得每個(gè)預(yù)后相關(guān)基因的回歸系數(shù),通過(guò)每個(gè)基因的表達(dá)量和回歸系數(shù)計(jì)算出每個(gè)患者的風(fēng)險(xiǎn)評(píng)分。在訓(xùn)練集中,風(fēng)險(xiǎn)評(píng)分能夠很好地將高風(fēng)險(xiǎn)患者和低風(fēng)險(xiǎn)患者區(qū)分開(kāi),并且其預(yù)測(cè)性能也在內(nèi)部、外部測(cè)試集中得到了驗(yàn)證。同時(shí),在分層分析中,風(fēng)險(xiǎn)評(píng)分在stage,年齡和性別亞組中的風(fēng)險(xiǎn)分層表現(xiàn)也很好,這意味著此風(fēng)險(xiǎn)評(píng)分模型可以根據(jù)亞組將LUAD患者分為高低風(fēng)險(xiǎn)組,幫助臨床醫(yī)生進(jìn)行臨床決策。
用于構(gòu)建風(fēng)險(xiǎn)評(píng)分的6個(gè)基因包括ARNTL2、NAPSA、ATG9B、CAPN12、MAP1LC3C和KRT81。ARNTL2屬于PAS超家族,在晝夜節(jié)律和缺氧過(guò)程中起著重要的作用,其在乳腺癌、腎細(xì)胞癌等人類惡性腫瘤中具有致癌作用[17-19],目前已有研究報(bào)道ARNTL2的高表達(dá)與肺腺癌的低生存期相關(guān),并且能夠影響肺腺癌的免疫浸潤(rùn)水平[20-21]。NAPSA是天冬氨酸肽酶,其編譯的蛋白酶能夠參與肺表面活性物質(zhì)蛋白B在肺中的蛋白水解過(guò)程,目前它已被證實(shí)是肺腺癌的生物標(biāo)記物,并且已被用作識(shí)別原發(fā)性肺腺癌的免疫組化染色劑[22-24]。ATG9B是自噬相關(guān)基因,在自噬過(guò)程中起調(diào)節(jié)作用,與肝癌[25]、腎細(xì)胞癌[26]、胃癌[27]等多種癌癥的發(fā)生發(fā)展有關(guān),但其在肺腺癌中的作用還尚未闡明。CAPN12是一種鈣蛋白酶,鈣蛋白酶能夠調(diào)節(jié)多種細(xì)胞生理過(guò)程,包括細(xì)胞增殖、細(xì)胞遷移、細(xì)胞侵襲、細(xì)胞自噬等,各種癌癥的發(fā)病機(jī)制也需要鈣蛋白酶系統(tǒng),其可能起到促進(jìn)癌癥發(fā)展的作用,最新研究也確定了CAPN12是新的結(jié)直腸癌易感基因[28-30]。MAP1LC3C是自噬蛋白ATG8的同源物,被用作自噬機(jī)制的生物標(biāo)志物,有研究發(fā)現(xiàn),MAP1LC3C介導(dǎo)了MET/HGF-RTK信號(hào)通道在癌癥中的作用,MAP1LC3C和MET復(fù)合物招募HGF并且激活MET-RTK信號(hào)通路從而進(jìn)行自噬降解,進(jìn)而影響腫瘤轉(zhuǎn)移[31]。在肺癌方面,有研究證明其與肺腺癌氧化磷酸化過(guò)程十分相關(guān)[32]。KRT81是一種角蛋白,相關(guān)研究發(fā)現(xiàn)其與肺腺癌腫瘤轉(zhuǎn)移相關(guān)[33]。上述結(jié)果都表明風(fēng)險(xiǎn)評(píng)分模型具有潛在的臨床應(yīng)用價(jià)值。
最后,單因素和多因素Cox回歸分析表明,風(fēng)險(xiǎn)評(píng)分可以作為預(yù)后評(píng)估的獨(dú)立因素。為了提高風(fēng)險(xiǎn)評(píng)分的預(yù)測(cè)能力,結(jié)合臨床參數(shù)和風(fēng)險(xiǎn)評(píng)分構(gòu)建了一個(gè)基于多基因預(yù)后標(biāo)志的列線圖來(lái)預(yù)測(cè)患者生存率。通過(guò)比較,列線圖的預(yù)測(cè)性能高于風(fēng)險(xiǎn)評(píng)分和stage的預(yù)測(cè)性能,并在驗(yàn)證集中得到同樣的結(jié)果。這表明,與單一的臨床參數(shù)相比,列線圖模型更能幫助臨床醫(yī)生預(yù)測(cè)LUAD患者的生存狀態(tài),并為臨床醫(yī)生提供治療指導(dǎo)。然而,我們的研究還有一些不足之處,我們的數(shù)據(jù)只包含TCGA數(shù)據(jù)庫(kù)的mRNA數(shù)據(jù),未來(lái)還可以從單核苷酸多態(tài)性、拷貝數(shù)變異數(shù)據(jù)、DNA甲基化等突變數(shù)據(jù)中進(jìn)一步分析這6種新的生物標(biāo)志物是否與上述突變相關(guān)。
基于6個(gè)基因的多基因預(yù)后標(biāo)志來(lái)預(yù)測(cè)LUAD患者的生存風(fēng)險(xiǎn),在訓(xùn)練集和測(cè)試集中都表現(xiàn)出良好的準(zhǔn)確率,并且獨(dú)立于其他臨床特征。然后,結(jié)合多基因預(yù)后標(biāo)志和臨床特征構(gòu)建了列線圖模型以預(yù)測(cè)LUAD患者的預(yù)后生存率,與單一臨床特征相比,列線圖模型具有更好的預(yù)測(cè)性能。因此,這6個(gè)基因很可能是LUAD的潛在生物標(biāo)志物,基于多基因預(yù)后標(biāo)志和臨床特征的列線圖模型很有可能用于評(píng)估LUAD患者的生存率,并幫助臨床醫(yī)生進(jìn)行個(gè)體化治療的臨床決策。