劉 穎,王 可,何楊婷,肖金榮,王喚卓,李旸凱,魏 晟,*
(1.華中科技大學(xué)同濟(jì)醫(yī)學(xué)院公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系環(huán)境與健康教育部重點實驗室,湖北 武漢 430030;2. 華 中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬同濟(jì)醫(yī)院胸外科,湖北 武漢 430030)
肺癌是全世界發(fā)病率和死亡率最高的惡性腫瘤之一,且發(fā)病人數(shù)逐年上升[1-2]。作為肺癌的主要類型,非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC) 占肺癌病例的85%~90%,肺鱗狀細(xì)胞癌(肺鱗癌)是NSCLC的主要類型[3]。全球每年約40萬人死于肺鱗癌。由于肺鱗癌易轉(zhuǎn)移和缺乏用于診斷和預(yù)后的生物標(biāo)志物,肺鱗癌患者5年生存率不足15%[4]。改善肺癌患者的預(yù)后情況是提高肺癌病人生存率的關(guān)鍵因素[5-6]。因此,尋找與肺鱗癌預(yù)后相關(guān)的生物標(biāo)志物,通過生物標(biāo)志物對肺鱗癌患者的預(yù)后情況進(jìn)行早期評估,對提高肺鱗癌病人的預(yù)后及生存率非常重要。
長鏈非編碼RNA(long non-coding RNA,lncRNA)是近年來才認(rèn)識到的一種具有重要調(diào)控功能的分子標(biāo)志物,其長度大于200 nt且不具備編碼功能。當(dāng)前l(fā)ncRNA的功能仍在研究之中,但初步的研究結(jié)果發(fā)現(xiàn)其可通過促癌或抑癌作用,影響多種腫瘤細(xì)胞的增殖擴(kuò)散或凋亡過程[7-9]。分子標(biāo)簽(signature)是指將一定數(shù)量的分子標(biāo)記物進(jìn)行組合,形成一個新的變量,并用此變量來判斷或定義某些生物學(xué)特性。與單個標(biāo)記物的分子模式不同,分子標(biāo)簽不單以單基因功能為研究基礎(chǔ),而且更加注重基因之間的共同協(xié)調(diào)作用,從整體和系統(tǒng)水平上對某種特定的生物學(xué)特性進(jìn)行描述[10]。腫瘤基因組圖譜數(shù)據(jù)庫(the Cancer Genome Atlas,TCGA)數(shù)據(jù)庫作為目前全球范圍內(nèi)最大的腫瘤公共數(shù)據(jù)庫,對常見腫瘤提供了多種組學(xué)數(shù)據(jù),是當(dāng)前研究腫瘤組學(xué)數(shù)據(jù)的重要來源[11]。本研究通過對TCGA數(shù)據(jù)庫中肺鱗癌轉(zhuǎn)錄組測序數(shù)據(jù)的挖掘,評估lncRNA表達(dá)水平對肺鱗癌病人進(jìn)行預(yù)后預(yù)測的價值。
2017年12月從TCGA網(wǎng)站(https://cancergenome.nih.gov/)下載肺鱗癌病人癌和癌旁組織的RNA測序數(shù)據(jù)及臨床數(shù)據(jù)。RNA測序數(shù)據(jù)由肺鱗癌組織樣本通過Illumina高通量測序平臺進(jìn)行測序得到。下載的RNA測序數(shù)據(jù)包含肺鱗癌病人496例癌組織的lncRNA表達(dá)數(shù)據(jù)以及48例癌旁組織的14 165個lncRNA表達(dá)數(shù)據(jù)。肺鱗癌患者的臨床數(shù)據(jù)包括466例肺鱗癌的相關(guān)臨床信息,如性別、年齡、種族、病理分期、吸煙狀態(tài)、放療、化療情況及存活狀態(tài)等。
1.2.1 數(shù)據(jù)預(yù)處理 去除在肺鱗癌病人中生存時間顯示為0的患者以及表達(dá)值缺失超過5% 的lncRNA。最終有48例肺鱗癌病人癌組織和癌旁組織的3 921個lncRNA位點用于差異表達(dá)分析;用于預(yù)后分析的數(shù)據(jù)集包括443例肺鱗癌病人的lncRNA表達(dá)數(shù)據(jù)和臨床數(shù)據(jù)。
1.2.2 差異表達(dá)分析和熱圖繪制 對48例肺鱗癌病人癌組織和癌旁組織的3 921個lncRNA進(jìn)行配對t檢驗,根據(jù)t檢驗對應(yīng)的P值,采用BH法(Benjamini and Hochberg,1995)計算每個lncRNA的錯誤發(fā)現(xiàn)率(false discorvery rate,F(xiàn)DR)值[12]。同時計算癌和癌旁組織中l(wèi)ncRNA表達(dá)水平的倍數(shù)變化(fold change)。本次研究確定lncRNA差異表達(dá)的標(biāo)準(zhǔn)為FDR<0.05且倍數(shù)變化絕對值≥3[13]。其中,倍數(shù)變化≥3為lncRNA在肺鱗癌組織中表達(dá)水平上調(diào),倍數(shù)變化≤1/3為lncRNA在肺鱗癌組織中表達(dá)水平下調(diào)。對篩選出的差異表達(dá)的lncRNA進(jìn)行非監(jiān)督聚類分析,并繪制熱圖(heatmap)。
1.2.3 lncRNA標(biāo)志物篩選 采用LASSO(Least Absolute Shrinkage and Selector Operation)Cox回歸進(jìn)行肺鱗癌預(yù)后相關(guān)lncRNA篩選。并通過LASSO Cox的系數(shù)構(gòu)建lncRNA分子標(biāo)簽。lncRNA分子標(biāo)簽=β1×EXPlncRNA1+β2×EXPlncRNA2+...+βn× EXPlncRNAn。 (EXP:lncRNA的表達(dá)水平,β:回歸相關(guān)系數(shù))。代入相關(guān)數(shù)據(jù)后,計算分子標(biāo)簽得分。分別通過lncRNA分子標(biāo)簽得分的中位數(shù)將肺鱗癌病人劃分為高表達(dá)組和低表達(dá)組;lncRNA分子標(biāo)簽得分的四分位數(shù)將肺鱗癌病人劃分為4組。計算不同風(fēng)險組病人發(fā)生死亡的風(fēng)險比(hazard ratio,HR)及95%置信區(qū)間(confidence interval,CI)。
1.2.4 構(gòu)建預(yù)測模型 在lncRNA分子標(biāo)簽的基礎(chǔ)上加入相關(guān)臨床變量,如年齡、性別、種族、吸煙情況、放療情況、化療情況和臨床病理分期,構(gòu)建關(guān)于肺鱗癌預(yù)后的預(yù)測模型,并用Harrell’s C統(tǒng)計量對預(yù)測模型的預(yù)測效果進(jìn)行評估,C統(tǒng)計量的范圍在0.50~0.70時說明預(yù)測模型的準(zhǔn)確性一般,當(dāng)C統(tǒng)計量大于0.70時說明預(yù)測模型的準(zhǔn)確性較優(yōu)[14-15]。
應(yīng)用SAS 9.4軟件對數(shù)據(jù)進(jìn)行統(tǒng)計分析。運用R 3.3.0軟件和GraPad- Prism 5軟件進(jìn)行相關(guān)圖形制作。連續(xù)性資料表示為x±s。運用t檢驗的方法比較兩樣本之間均數(shù)的差異情況。計數(shù)資料之間的差異性分析釆用χ2檢驗或確切概率計算法。
符合條件的肺鱗癌患者443人,其中男性患者死亡220人(73.33%),未死亡108人(75.52%);女性患者死亡80人(26.67%),未死亡35人(24.48%);肺鱗癌死亡患者平均年齡(66.9±8.5)歲,未死亡患者平均年齡(68.9±7.8)歲。種族、吸煙、放療、化療、生存時間等情況見表1。
表1 從TCGA數(shù)據(jù)庫中納入分析的肺鱗狀細(xì)胞癌患者的基本特征(n=443)
對48例肺鱗癌病人癌和癌旁組織的lncRNA位點進(jìn)行配對t檢驗,經(jīng)分析滿足條件FDR<0.05且倍數(shù)變化絕對值≥3的lncRNA共有322個,所有l(wèi)ncRNA在癌組織中均表達(dá)上調(diào)。對差異表達(dá)的lncRNA進(jìn)行無監(jiān)督聚類分析,結(jié)果以熱圖的形式呈現(xiàn),圖中紅色表示癌組織,藍(lán)色表示癌旁組織,見圖1。
在322個具有差異的lncRNA位點中,篩選出6個lncRNA進(jìn)入模型,分別為ENSG00000186615.9(KTN1-AS1)、 ENSG00000204949.7(FAM83A-AS1)、 ENSG000 00232855.5(AF131217.1)、ENSG00000258592.1(RP11-108M12.3)、 ENSG00000259230.1(CTD-2555C10.3)、ENSG00000278514.1(AC068831.16)。lncRNA在TCGA數(shù)據(jù)庫中的基因注釋信息以及經(jīng)LASSO Cox回歸分析得到的回歸系數(shù)和lncRNA在癌和癌旁組織中的倍數(shù)變化及FDR值情況見表2。肺鱗癌和癌旁組織中這些lncRNA表達(dá)情況見圖2。6個lncRNA均在癌組織中出現(xiàn)表達(dá)上調(diào),差異有統(tǒng)計學(xué)意義(FDR<0.01)。
對LASSO Cox回歸篩選出的6個lncRNA及其系數(shù)構(gòu)建lncRNA分子標(biāo)簽,分子標(biāo)簽值計算公式為:
(EXP:基因表達(dá)水平)
表2 從TCGA數(shù)據(jù)庫中篩選出6個lncRNA的注釋信息及其在癌組織和癌旁組織中的表達(dá)情況比較
圖2 LASSO Cox回歸篩選出6個lncRNA在肺鱗癌癌旁組織和癌組織中的表達(dá)水平
表3 lncRNA分子標(biāo)簽與肺鱗癌預(yù)后之間的關(guān)系
采用Cox回歸分析方法,建立2個基于lncRNA分子標(biāo)簽的肺鱗癌預(yù)后預(yù)測模型。模型1未調(diào)整變量,模型2調(diào)整年齡、性別、種族、吸煙狀態(tài)、化療情況、放療情況和病理分期變量。結(jié)果見表3。調(diào)整相應(yīng)臨床變量后,高表達(dá)組肺鱗癌病人的死亡風(fēng)險是低表達(dá)組病人的2.14倍,且差異具有統(tǒng)計學(xué)意義(HR=2.14,95%CI: 1.50~3.04,P<0.01)。當(dāng)根據(jù)分子標(biāo)簽表達(dá)水平的四等分點-0.15、-0.09、-0.04將肺鱗癌患者劃分為4組時,分子標(biāo)簽值位于下四分位數(shù)和中位數(shù)之間時,HR為1.62(95%CI:0.93~2.83,P=0.09);分子標(biāo)簽值位于中位數(shù)與上四分位數(shù)之間時,HR為2.22(95%CI:1.33~3.70,P<0.01);分子標(biāo)簽值大于上四分位 數(shù) 時 , HR為 3.30(95%CI: 1.98~5.50, P<0.01);lncRNA分子標(biāo)簽的Kaplan Meier生存曲線如圖3所示,調(diào)整變量后隨著分子標(biāo)簽水平的升高,肺鱗癌病人發(fā)生死亡的風(fēng)險逐漸增加(P<0.01)。
Cox生存分析結(jié)果顯示,單獨使用lncRNA分子標(biāo)簽進(jìn)行肺鱗癌病人預(yù)后狀況預(yù)測時,C統(tǒng)計量的結(jié)果為0.63(95%CI:0.58~0.69)。當(dāng)加入臨床變量年齡、性別、種族、吸煙、放療、化療、病理分期后,其預(yù)測模型的C統(tǒng)計量為0.69(95%CI:0.64~0.75)。兩者相比,差異具有統(tǒng)計學(xué)意義(P=0.015)。通過模型效果評價標(biāo)準(zhǔn)可以看出,當(dāng)在lncRNA分子標(biāo)簽的基礎(chǔ)上加入臨床變量構(gòu)建預(yù)后預(yù)測模型時,其預(yù)測效果進(jìn)一步優(yōu)化,表明包含lncRNA分子標(biāo)簽和臨床變量的預(yù)測模型可以對肺鱗癌病人的預(yù)后狀況進(jìn)行有效預(yù)測。
圖3 lncRNA分子標(biāo)簽表達(dá)水平不同的肺鱗癌病人的生存曲線比較
本研究采用TCGA數(shù)據(jù)庫中l(wèi)ncRNA表達(dá)數(shù)據(jù)探討與肺鱗癌預(yù)后相關(guān)的lncRNA標(biāo)志物。經(jīng)過差異表達(dá)分析及LASSO Cox回歸發(fā)現(xiàn)6個與肺鱗癌預(yù)后相關(guān)的lncRNA位點并組成lncRNA分子標(biāo)簽,進(jìn)一步進(jìn)行臨床指標(biāo)的相關(guān)分析。結(jié)果顯示,隨著分子標(biāo)簽水平的升高,肺鱗癌病人發(fā)生死亡的風(fēng)險逐漸增加。當(dāng)根據(jù)lncRNA分子標(biāo)簽的中位數(shù)將人群分為高表達(dá)組和低表達(dá)組時,高表達(dá)組病人的死亡風(fēng)險是低表達(dá)組肺鱗癌病人2.14倍。當(dāng)調(diào)整了性別、年齡、吸煙狀態(tài)、種族、病理分期、化療情況、放療情況構(gòu)建預(yù)后預(yù)測模型后,其C統(tǒng)計量的結(jié)果增加至0.69。由以上結(jié)果可見,基于lncRNA分子標(biāo)簽的預(yù)測模型具有較為良好的效能,可以對肺鱗癌病人的預(yù)后狀況進(jìn)行有效預(yù)測。
本研究發(fā)現(xiàn)的6個lncRNA位點在包括肺鱗癌在內(nèi)的多種腫瘤發(fā)生發(fā)展中的作用,在以往的研究中已經(jīng)有報道。lncRNA KTN1-AS1的高表達(dá)是頭頸部鱗狀細(xì)胞癌預(yù)后的危險因素,且其參與構(gòu)建的3-lncRNA 標(biāo)志物能較好預(yù)測患者的生存情況[16]。lncRNA FAM83AAS1可通過促進(jìn)MAPK信號傳導(dǎo)通路發(fā)揮致癌作用,促使乳腺上皮等細(xì)胞癌變,也可通過激活EGFR下游傳導(dǎo)信號促進(jìn)腫瘤細(xì)胞增殖侵襲和EGFR酪氨酸激酶抑制劑耐藥,高表達(dá)預(yù)示乳腺癌預(yù)后不良[17-18]?;赥CGA數(shù)據(jù)庫的研究中,lncRNA RP11-108M12.3在肺鱗癌組是不良預(yù)后的保護(hù)因素,與本研究結(jié)果一致,且其參與構(gòu)建的5-lncRNA標(biāo)志物也具有獨立的預(yù)后價值[19]。LncRNA CTD-2555C10.3的高表達(dá)是肺腺癌的預(yù)后危險因素,其參與構(gòu)建的7維轉(zhuǎn)錄組分子標(biāo)簽對肺腺癌預(yù)后有較好的指示作用[20]。
本次研究采用TCGA數(shù)據(jù)庫在全基因組范圍內(nèi)挖掘肺鱗癌預(yù)后相關(guān)lncRNA,檢測方法一致,樣本量較大,可信度較高。首先,本研究采用LASSO Cox回歸的方法篩選肺鱗癌預(yù)后相關(guān)的lncRNA標(biāo)志物,避免了樣本量遠(yuǎn)小于自變量帶來的多重共線性問題和減小了II類錯誤。第二,本研究將單個lncRNA構(gòu)建分子標(biāo)簽,進(jìn)一步構(gòu)建lncRNA預(yù)測方程比單個lncRNA位點具有更好的預(yù)后預(yù)測效果。
當(dāng)然,本研究也存在一定的局限性:第一,本研究構(gòu)建的預(yù)測模型僅考慮了lncRNA的表達(dá),未考慮其他水平的生物標(biāo)志物對肺鱗癌病人預(yù)后的影響,如甲基化、以及DNA序列變異等,因此其應(yīng)用價值還有待進(jìn)一步的研究;第二,本研究中預(yù)測模型建立在美國肺鱗癌人群,但其在中國肺鱗癌人群中的預(yù)測效果如何仍需要進(jìn)一步驗證。
綜上所述,經(jīng)TCGA轉(zhuǎn)錄組測序數(shù)據(jù)庫的挖掘,篩選出lncRNA 分子標(biāo)簽及其和臨床變量構(gòu)建的預(yù)后預(yù)測模型對肺鱗癌預(yù)后有較好的預(yù)測價值,為肺鱗癌的臨床預(yù)后判斷提供了更多可供選擇的生物標(biāo)志物。