思璐,秦秋雯,沈印,羅雙艷,何穎,張?jiān)P?,劉?/p>
(廣西壯族自治區(qū)人民醫(yī)院國(guó)際醫(yī)療部,廣西 南寧 530021)
2018 年國(guó)際癌癥研究機(jī)構(gòu)(IARC)的數(shù)據(jù)表明[1],全球絕大多數(shù)國(guó)家的肺癌發(fā)病率和死亡率均居首位,其中肺腺癌是所有肺癌中最常見(jiàn)的亞型,約占所有肺癌的40%。手術(shù)治療、放化療在肺腺癌的治療中起著關(guān)鍵作用[2-4],但有50%的肺腺癌患者死于腫瘤復(fù)發(fā)[5],因此識(shí)別肺癌預(yù)測(cè)預(yù)后生物標(biāo)記物,可為患者提供早期、有效的治療。lncRNA(IRL)是由長(zhǎng)度超過(guò)200 個(gè)核苷酸的組成的RNA,因缺少開(kāi)放閱讀框,不具備編碼蛋白質(zhì)的能力[6],但其可通過(guò)堿基互補(bǔ)配對(duì),與DNA、RNA、蛋白質(zhì)相互作用發(fā)揮生物學(xué)功能[7,8]。近期研究發(fā)現(xiàn)[9],IRL 通過(guò)調(diào)控T 細(xì)胞亞群的凋亡敏感性進(jìn)而改變腫瘤微環(huán)境中T 細(xì)胞亞群的平衡,造成腫瘤的免疫逃逸。免疫系統(tǒng)在癌癥的發(fā)展進(jìn)程中起著關(guān)鍵作用[10]。多項(xiàng)研究表明[11,12],可通過(guò)鑒定免疫相關(guān)的基因以預(yù)測(cè)癌癥患者的生存預(yù)后。本研究通過(guò)使用TCGA 數(shù)據(jù)庫(kù)和Molecular Signatures Database v7.0 的數(shù)據(jù),利用生物信息學(xué)的方法來(lái)鑒定潛在的免疫相關(guān)的預(yù)后性IRL 生物標(biāo)志物,以期用于肺腺癌患者的預(yù)后預(yù)測(cè)。
1.1 數(shù)據(jù)來(lái)源 IRL 表達(dá)數(shù)據(jù)和相應(yīng)的臨床數(shù)據(jù)均從TCGA 數(shù)據(jù)庫(kù)下載(https://portal.gdc.cancer.gov)。篩選條件如下:①腫瘤原發(fā)位點(diǎn):肺癌;②病理類型:肺腺癌;③數(shù)據(jù)類型:TCGA-基因表達(dá)定量;④其余篩選條件默認(rèn)或不選。根據(jù)腫瘤患者的生存時(shí)間來(lái)構(gòu)建預(yù)后模型,排除臨床數(shù)據(jù)不完整和總體生存率<30 d 的腫瘤標(biāo)本[13],最終符合要求的有455 例腫瘤患 者。Molecular Signatures Database v7.0(http://software.broadinstitute)下載免疫相關(guān)的基因集(immune system process M13664,Immune response M19817)。通過(guò)構(gòu)建免疫基因共表達(dá)網(wǎng)絡(luò),鑒定了1124 個(gè)免疫相關(guān)的IRL。
1.2 方法
1.2.1 數(shù)據(jù)處理及基因共表達(dá)分析 通過(guò)strawberry-Perl(版本5.30,64bit)將IRL 表達(dá)數(shù)據(jù)與相應(yīng)臨床數(shù)據(jù)整合。R 軟件“l(fā)imma”包(版本3.6.1)鑒定免疫相關(guān)的IRL,P<0.001 表示差異有統(tǒng)計(jì)學(xué)意義。
1.2.2 篩選預(yù)后相關(guān)的IRL 通過(guò)R 軟件“survival”包進(jìn)行單因素Cox 回歸分析,P<0.001 認(rèn)為差異有統(tǒng)計(jì)學(xué)意義。通過(guò)R 軟件“glmnet”包和“survival”包對(duì)有單因素Cox 回歸分析結(jié)果中有統(tǒng)計(jì)學(xué)意義的IRL進(jìn)行Lasso 回歸分析,篩選出影響肺腺癌預(yù)后的關(guān)鍵IRL。采用多變量Cox 回歸分析構(gòu)建風(fēng)險(xiǎn)模型,根據(jù)所選IRL 的基因表達(dá)量和系數(shù)計(jì)算每個(gè)NSCLC患者的風(fēng)險(xiǎn)評(píng)分,其公式為risk core=G1×β1G1+G2×β2G2+…Gn×βnGn。其中,n 為納入基因的個(gè)數(shù),G 代表基因的表達(dá)量,β 代表基因的系數(shù)[14]。將風(fēng)險(xiǎn)評(píng)分的中位數(shù)設(shè)為截?cái)嘀?,風(fēng)險(xiǎn)評(píng)分≥中位數(shù)為高風(fēng)險(xiǎn)組,風(fēng)險(xiǎn)評(píng)分<中位數(shù)為低風(fēng)險(xiǎn)組。
1.2.3 預(yù)后模型評(píng)價(jià) 運(yùn)用Kaplan-Meier(K-M)生存分析評(píng)估低風(fēng)險(xiǎn)組和高風(fēng)險(xiǎn)組的生存差異。此外,采用ROC 曲線比較風(fēng)險(xiǎn)評(píng)分模型與其他臨床性狀對(duì)預(yù)后預(yù)測(cè)的準(zhǔn)確性。ROC 曲線分析采用R 軟件“survival ROC”包(版本3.6.1)進(jìn)行。AUC<0.5 表示不顯著,0.5~0.7 表示準(zhǔn)確率較低,0.7~0.9 表示準(zhǔn)確率中等,>0.9 表示準(zhǔn)確率較高[15]。
2.1 篩選肺腺癌預(yù)后相關(guān)的IRL 首先從TCGA 數(shù)據(jù)庫(kù)篩選出符合條件的肺腺癌樣本數(shù)據(jù)共455 例。通過(guò)R 軟件“l(fā)imma”包(版本3.6.1)構(gòu)建免疫基因共表達(dá),鑒定了1124 個(gè)IRL,Coef≥0.4且P<0.001。通過(guò)單因素Cox 回歸分析,初步篩選出18 個(gè)和肺腺癌預(yù)后相關(guān)的IRL,見(jiàn)圖1。為避免單因素Cox 回歸分析過(guò)度擬合問(wèn)題,通過(guò)Lasso 回歸分析對(duì)預(yù)后相關(guān)的IRL 進(jìn)行二次選擇,得到14 個(gè)IRL 與肺腺癌的生存預(yù)后相關(guān),見(jiàn)圖2。
圖1 單因素Cox 回歸分析森林圖
圖2 Lasso 回歸分析圖
2.2 構(gòu)建IRL 風(fēng)險(xiǎn)模型和評(píng)價(jià)
2.2.1 構(gòu)建風(fēng)險(xiǎn)模型 將Lasso 回歸分析確定的14個(gè)IRL 納入多因素Cox 回歸分析構(gòu)建風(fēng)險(xiǎn)模型,最后得到由8 個(gè)IRL 組成預(yù)后分險(xiǎn)模型,見(jiàn)圖3。根據(jù)這8 個(gè)IRL 在樣本中的表達(dá)量分析計(jì)算每個(gè)患者的預(yù)后風(fēng)險(xiǎn)值:風(fēng)險(xiǎn)值=LINC01116 的表達(dá)量×(0.213)+AL034397.3的表達(dá)量×(-0.248)+AC123595.1 的表達(dá)量×(-0.601)+AL606489.1 的表達(dá)量×(0.285)+AL365203.2量的表達(dá)×(0.297)+AC245595.1 的表達(dá)量×(0.272)+AC011477.2 的表達(dá)量×(-0.276)+AL049836.1 的表達(dá)量×(0.3305)。
圖3 多因素Cox 回歸分析圖
2.2.2 評(píng)價(jià)風(fēng)險(xiǎn)模型 K-M 生存分析顯示,低風(fēng)險(xiǎn)組生存時(shí)間長(zhǎng)于高風(fēng)險(xiǎn)組(P<0.001),見(jiàn)圖4。ROC 曲線分析結(jié)果顯示,風(fēng)險(xiǎn)評(píng)分、年齡、性別、分期、T、M、N 對(duì)肺腺癌預(yù)后的曲線下的面積分別為0.785、0.498、0.579、0.733、0.673、0.508、0.685,見(jiàn)圖5。此外,對(duì)風(fēng)險(xiǎn)模型繪制風(fēng)險(xiǎn)曲線,結(jié)果顯示隨著風(fēng)險(xiǎn)值的升高,患者生存時(shí)間逐漸下降,死亡人數(shù)逐漸增多,其中AL034397.3、AC026355.1、AC011477.2 為低風(fēng)險(xiǎn)的基因隨著風(fēng)險(xiǎn)值的增大,表達(dá)量逐漸下降;AL365203.2、LINC01116、AL606489.1、AC245595.1、AL049836.1 為高風(fēng)險(xiǎn)的基因隨著風(fēng)險(xiǎn)值的增大,表達(dá)量逐漸升高,見(jiàn)圖6。
圖4 K-M 生存分析
圖5 ROC 曲線圖
圖6 風(fēng)險(xiǎn)曲線圖及熱圖
圖6 風(fēng)險(xiǎn)曲線圖及熱圖(續(xù))
隨著基因芯片技術(shù)及高通量測(cè)序技術(shù)的發(fā)展,基因組的表達(dá)數(shù)據(jù)越來(lái)越豐富。TCGA 數(shù)據(jù)庫(kù)至今共收錄了33 類癌癥的基因數(shù)據(jù),其中包括mRNA、lncRNA、microRNA等[16,17],極大的促進(jìn)了癌癥分子基礎(chǔ)研究。近期研究表明[18,19],IRL 在多種疾病的病理及生理途徑中發(fā)揮重要作用,這為疾病的診斷和治療方法提供新契機(jī)。此外,IRL 通過(guò)染色質(zhì)修飾、轉(zhuǎn)錄和翻譯過(guò)程參與基因的表達(dá)調(diào)控與腫瘤細(xì)胞的增殖、凋亡、侵襲轉(zhuǎn)移、免疫[20-23]。腫瘤免疫是機(jī)體對(duì)腫瘤細(xì)胞產(chǎn)生的特異性免疫反應(yīng),近年來(lái)腫瘤免疫研究取得了重大突破。Huang D等[24]研究發(fā)現(xiàn),IRL通過(guò)調(diào)控T 細(xì)胞亞群的凋亡敏感性,從而改變腫瘤微環(huán)境中免疫激活及免疫抑制的T 細(xì)胞亞群的平衡,造成腫瘤的免疫逃逸。Sun X等[25]通過(guò)免疫基因共表達(dá)分析構(gòu)建了一個(gè)免疫相關(guān)的lncRNA 模型以預(yù)測(cè)卵巢癌患者的預(yù)后、藥物敏感性和免疫狀態(tài),促進(jìn)了卵巢癌患者的個(gè)體化治療。
多項(xiàng)研究證實(shí)[26-28],IRL 與腫瘤診斷、治療、預(yù)后有顯著相關(guān)性。然而目前免疫相關(guān)的IRL 在肺腺癌的預(yù)后預(yù)測(cè)少有報(bào)道。本研究通過(guò)免疫基因共表達(dá)網(wǎng)絡(luò)共鑒定1124 個(gè)IRL,單因素Cox 回歸分析得出18 個(gè)IRL 可能與預(yù)后相關(guān)??紤]單因素Cox 回歸分析每次僅納入一個(gè)變量,存在過(guò)度擬合的缺點(diǎn),本研究在此基礎(chǔ)上再次引入Lasso 回歸分析,通過(guò)交叉驗(yàn)證λ值,對(duì)納入Cox 回歸分析的lncRNA 進(jìn)行二次選擇。最后,通過(guò)多因素Cox回歸得出由LINC01116、AL034397.3 AC123595.1、AL606489.1、AL365203.2、AC245595.1、AC011477.2、AL049836.1 構(gòu)建的預(yù)后風(fēng)險(xiǎn)模型與生存預(yù)后顯著相關(guān)。此外,本研究中采用中位數(shù)截?cái)嘀颠M(jìn)行分組,結(jié)果顯示低風(fēng)險(xiǎn)組生存時(shí)間長(zhǎng)于高風(fēng)險(xiǎn)組(P<0.001);ROC 曲線分析結(jié)果顯示,風(fēng)險(xiǎn)評(píng)分、年齡、性別、分期、T、M、N 對(duì)肺腺癌預(yù)后的曲線下的面積分別 為0.785、0.498、0.579、0.733、0.673、0.508、0.685。此外,對(duì)風(fēng)險(xiǎn)模型繪制風(fēng)險(xiǎn)曲線,結(jié)果顯示隨著風(fēng)險(xiǎn)值的升高,患者生存時(shí)間逐漸下降,死亡人數(shù)逐漸增多,其中AL034397.3、AC026355.1、AC011477.2 為低風(fēng)險(xiǎn)的基因隨著風(fēng)險(xiǎn)值的增大,表達(dá)量逐漸下降;AL365203.2、LINC01116、AL606489.1、AC245595.1、AL049836.1 為高風(fēng)險(xiǎn)的基因隨著風(fēng)險(xiǎn)值的增大,表達(dá)量逐漸升高,提示AL034397.3、AC026355.1、AC011477.2 可作為肺腺癌預(yù)后的危險(xiǎn)因素,而AL365203.2、LINC01116、AL606489.1、AC245595.1、AL049836.1 可作為肺腺癌保護(hù)性的預(yù)后因素。因此,8 個(gè)IRL 構(gòu)建的風(fēng)險(xiǎn)模型可為肺腺癌患者的生存提供準(zhǔn)確的預(yù)測(cè)和評(píng)估,同樣為肺癌預(yù)后的基礎(chǔ)實(shí)驗(yàn)研究提供更多選擇的生物標(biāo)志物。然而本研究存在一定的局限性,如納入的數(shù)據(jù)來(lái)源于單一數(shù)據(jù)庫(kù),需要在較大隊(duì)列中進(jìn)行進(jìn)一步驗(yàn)證;且目前8 個(gè)IRL 在肺腺癌的發(fā)生、發(fā)展機(jī)制以及參與的信號(hào)通路等分子生物機(jī)制尚不明確,仍需基礎(chǔ)實(shí)驗(yàn)進(jìn)一步驗(yàn)證。
綜上所述,通過(guò)挖掘TCGA 數(shù)據(jù)庫(kù)構(gòu)建的8 個(gè)IRL 肺腺癌預(yù)后模型有望成為肺腺癌的預(yù)后評(píng)估生物標(biāo)志物。