白雪,賀平
結(jié)腸直腸癌(carcinoma of colon and rectum,CRC)是肛腸外科常見的惡性腫瘤,發(fā)病率居惡性腫瘤的第3位,死亡率排名第2[1-2]。CRC的發(fā)生、發(fā)展涉及癌基因激活、腫瘤抑制基因表達(dá)缺失和甲基化等遺傳改變[3]。鼠類肉瘤病毒癌基因RAS突變腫瘤占人類所有惡性腫瘤的30%,其中K-RAS作為RAS基因家族中的主要亞型,在CRC中起著重要作用[4]。長(zhǎng)鏈非編碼RNA(long non-coding RNA,LncRNA)是指長(zhǎng)度>200 個(gè)核苷酸的轉(zhuǎn)錄本,不含蛋白質(zhì)編碼序列,以往被認(rèn)為是“垃圾基因”[5]?;蜷g長(zhǎng)鏈非編碼RNA(intergenic long non-coding RNA,lincRNA)是最大類的LncRNA 分子。許多研究報(bào)道lincRNA具有抑制或促進(jìn)腫瘤的作用[6]。近年來隨著基因芯片和測(cè)序技術(shù)的應(yīng)用,公共數(shù)據(jù)庫中存儲(chǔ)了大量的測(cè)序數(shù)據(jù)。整合分析這些數(shù)據(jù)可以為新研究提供有價(jià)值的線索。本研究通過分析癌癥基因組圖譜(the cancer genome atlas,TCGA)中有關(guān)CRC 的RNA-Seq公共數(shù)據(jù)和臨床數(shù)據(jù),鑒定K-RAS突變相關(guān)的CRC中與生存率相關(guān)的關(guān)鍵lincRNA,旨在為K-RAS突變CRC提供新的預(yù)后標(biāo)志物。
1.1 數(shù)據(jù)來源 從TCGA 網(wǎng)站(http://www.tcga.org)下載有關(guān)CRC 的RNA-Seq 測(cè)序數(shù)據(jù),包括每千堿基百萬個(gè)片段(fragments per kilobase million,F(xiàn)PKM)、拷貝數(shù)變異(copy number variation,CNV)和臨床數(shù)據(jù)[7]。RNA-Seq 數(shù)據(jù)包括585 個(gè)CRC 和51 個(gè)正常組織樣本。所有腫瘤樣本均為人源實(shí)體瘤。
1.2 CRC 差異表達(dá)lincRNA 篩選 提取腫瘤和正常組織樣本中l(wèi)incRNA 的表達(dá)水平數(shù)據(jù),導(dǎo)入R3.6.1 軟件后篩選CRC和正常組織樣本間差異表達(dá)的lincRNA。CRC和正常組織相比,lincRNA 對(duì)數(shù)轉(zhuǎn)換倍數(shù)變化|log2(FC)|≥1 且錯(cuò)誤發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)≤0.05 定義為差異表達(dá)lincRNA。CRC 樣本中每百萬reads 中來自于某基因FPKM≥1 表示為lincRNA上調(diào),<1表示為lincRNA下調(diào)[8]。
1.3K-RAS突變CRC 患者關(guān)鍵lincRNA 的篩選 為了檢查篩選出的lincRNA 是否與K-RAS突變CRC 患者的生存率相關(guān),分析TCGA 數(shù)據(jù)集中585 例CRC 患者的10 年和5 年總生存期(overall survival,OS)數(shù)據(jù)。將其中466 個(gè)10 年OS 數(shù)據(jù)與RNA-Seq 樣本進(jìn)行了匹配,將432個(gè)5年OS數(shù)據(jù)與RNASeq 樣本進(jìn)行匹配。采用受試者工作特征(receiver operating characteristic,ROC)曲線分析lincRNA 表達(dá)水平對(duì)K-RAS野生型或突變型5 年和10 年生存率的預(yù)測(cè)價(jià)值。其中曲線下面積(AUC)值大于0.6,且P<0.05 認(rèn)定為有預(yù)測(cè)價(jià)值的lincRNA[9]。
1.4K-RAS突變相關(guān)lincRNAs對(duì)CRC患者生存率的影響分析 利用篩選到的關(guān)鍵lincRNA 和預(yù)后結(jié)果繪制生存曲線。通過GraphPad Prism 8 軟件進(jìn)行Kaplan-Meier 生存曲線和對(duì)數(shù)秩檢驗(yàn)評(píng)估關(guān)鍵lincRNA表達(dá)對(duì)患者生存率的影響。
1.5 關(guān)鍵lincRNA 表達(dá)與臨床特征的關(guān)系 收集CRC 患者的性別、年齡、臨床分期、原發(fā)腫瘤(T)分期、區(qū)域淋巴結(jié)(N)分期和遠(yuǎn)處轉(zhuǎn)移(M)分期等臨床資料,比較不同臨床特征患者關(guān)鍵lincRNA的表達(dá)差異。
1.6 統(tǒng)計(jì)學(xué)方法 用R3.6.1 軟件進(jìn)行差異lincRNA 基因的篩選。符合正態(tài)分布的計(jì)量資料采用均數(shù)±標(biāo)準(zhǔn)差()表示,多組間比較采用方差分析,2 組間比較采用t檢驗(yàn)。P<0.05表示差異有統(tǒng)計(jì)學(xué)意義。
2.1 在CRC中鑒定出顯著失調(diào)的lincRNAs 585個(gè)癌組織和51 個(gè)正常組織樣品的RNA-Seq 數(shù)據(jù)中共獲得6 452個(gè)lincRNA,比較后發(fā)現(xiàn)125個(gè)差異表達(dá),其中85 個(gè)表達(dá)上調(diào),40 個(gè)表達(dá)下調(diào)(圖1)。上調(diào)表達(dá)和下調(diào)表達(dá)前10個(gè)lincRNA的具體信息見表1。
Fig.1 Disordered lincRNA scatter plot in cancerous tissue圖1 癌組織中差異表達(dá)的lincRNA散點(diǎn)圖
2.2K-RAS突變CRC 生存率相關(guān)lincRNA 的篩選結(jié)果 通過ROC曲線分析,共篩選出12個(gè)在K-RAS突變CRC 患者中差異表達(dá)的lincRNA,但在K-RAS野生型中差異無統(tǒng)計(jì)學(xué)意義(P>0.05),見圖2。其中l(wèi)incRNAAL390719.2表達(dá)水平預(yù)測(cè)5 年生存率的AUC=0.627,10 年生存率的AUC=0.634,預(yù)測(cè)價(jià)值最高,故選其作為關(guān)鍵lincRNA。
2.3K-RAS突 變/野 生 型 中l(wèi)incRNAAL390719.2表達(dá)與CRC 患者生存率的關(guān)系 生存分析結(jié)果顯示,在K-RAS突變型中l(wèi)incRNAAL390719.2表達(dá)與患者10 年 生 存 率(Log-rankχ2=10.740,HR=3.255,P=0.002)和5 年 生 存 率(Log-rankχ2=11.720,HR=3.142,P=0.001)有關(guān),在K-RAS野生型中l(wèi)incRNAAL390719.2表達(dá)與患者生存率無關(guān)(10年:Log-rankχ2=1.400,HR=0.822,P=0.221;5 年:Log-rankχ2=1.997,HR=0.774,P=0.086)。見圖3。
Tab.1 Top 10 lincRNA messages for up-and downregulated expressions表1 上調(diào)表達(dá)和下調(diào)表達(dá)的前10個(gè)lincRNA信息
2.4 lincRNAAL390719.2表達(dá)與CRC患者臨床特征的關(guān)系 lincRNAAL390719.2在不同臨床分期、N分期和M分期中的表達(dá)差異有統(tǒng)計(jì)學(xué)意義(P<0.05),高表達(dá)lincRNAAL390719.2的患者臨床分期較晚,容易出現(xiàn)淋巴結(jié)轉(zhuǎn)移和遠(yuǎn)處轉(zhuǎn)移;在不同年齡、性別和T分期中表達(dá)差異無統(tǒng)計(jì)學(xué)意義。見表2。
近年來,對(duì)CRC 形成、發(fā)展原因和潛在機(jī)制的研究越來越多,但腫瘤的發(fā)生發(fā)展是一個(gè)多因素、多階段及多基因調(diào)控的過程,徹底了解遺傳因素在CRC 發(fā)生發(fā)展中的作用,需要大規(guī)模的研究。目前大多數(shù)研究都來自單個(gè)隊(duì)列研究,尚未發(fā)現(xiàn)CRC 的可靠生物標(biāo)志物。綜合生物信息學(xué)分析方法解決了這些局限,測(cè)序深度和閱讀長(zhǎng)度的快速增加大大提高了轉(zhuǎn)錄物重建的準(zhǔn)確性[7,10]。
目前已有多個(gè)研究評(píng)估了K-RAS突變對(duì)CRC患者預(yù)后的影響,但結(jié)果仍存爭(zhēng)議。Rui 等[11]的一項(xiàng)Meta 分析認(rèn)為K-RAS基因與腫瘤分化程度和部位等無關(guān)。而另有研究認(rèn)為K-RAS基因的突變與CRC 高分化程度、黏液化成分及低淋巴結(jié)轉(zhuǎn)移率相關(guān)[12-13]。近年來,轉(zhuǎn)錄組重建技術(shù)的進(jìn)步使得從短讀取RNA-Seq 數(shù)據(jù)中鑒定和表征數(shù)千種新的lincRNA 成為可能[14-15]。已有證據(jù)表明lincRNA 在染色體結(jié)構(gòu)、染色質(zhì)調(diào)節(jié)和表觀遺傳修飾、轉(zhuǎn)錄、RNA成熟剪接和翻譯等過程中發(fā)揮作用[16-17]。與其他類型的非編碼RNA(noncoding RNA,ncRNA)相反,lincRNA 定位于細(xì)胞質(zhì)和細(xì)胞核中,這進(jìn)一步表明它們?cè)诒碛^遺傳修飾和基因調(diào)控中的重要作用。
Fig.2 Prognostic-related key lincRNA screening in K-RAS mutant and wild-type CRC圖2 K-RAS突變型和野生型CRC中與生存率相關(guān)的關(guān)鍵lincRNA篩選
Fig.3 Correlation between expression of lincRNA AL390719.2 and mutant/wild CRC圖3 lincRNA AL390719.2的表達(dá)與K-RAS突變/野生型CRC生存率相關(guān)性分析
本研究鑒定出12 個(gè)在K-RAS突變CRC 患者中差異表達(dá)的lincRNA。這些lincRNA 在原發(fā)性CRC腫瘤中均過表達(dá),此外,這12 個(gè)lincRNA 是K-RAS突變體中的獨(dú)立預(yù)后標(biāo)志物。本研究使用穩(wěn)態(tài)生存模型從12個(gè)lincRNA中鑒定出1個(gè)關(guān)鍵的lincRNA:AL390719.2。目前有關(guān)lincRNAAL390719.2的報(bào)道較少。本研究表明lincRNAAL390719.2在CRC中高表達(dá)。此外,lincRNAAL390719.2表達(dá)與K-RAS突變的CRC 的5年和10年生存有關(guān),但是在野生型中其表達(dá)與生存率無關(guān)。因此,lincRNAAL390719.2可能作為K-RAS突變CRC的關(guān)鍵預(yù)后lincRNA。
Tab.2 The relationship between the lincRNA AL390719.2 expression and clinical features in CRC patients表2 CRC患者臨床特征與lincRNA AL390719.2的表達(dá)關(guān)系
Tab.2 The relationship between the lincRNA AL390719.2 expression and clinical features in CRC patients表2 CRC患者臨床特征與lincRNA AL390719.2的表達(dá)關(guān)系
*P<0.05,**P<0.01
臨床特征年齡(歲)≤40 40~60>60性別n lincRNA AL390719.2表達(dá)F或t 43 105 437 2.05±1.17 2.26±1.42 2.45±1.32 2.355男女287 298 2.27±1.25 2.32±1.36 0.463臨床分期Ⅰ/Ⅱ期Ⅲ/Ⅳ期T分期T1/T2 T3/T4 N分期N0 N1/N2 M分期M0 M1 325 260 2.02±1.28 2.40±1.55 3.245**124 461 2.09±1.35 2.24±1.44 0.998 335 250 2.07±1.32 2.39±1.53 2.831*448 137 2.10±1.35 2.49±1.64 2.367*
綜上所述,本研究發(fā)現(xiàn)K-RAS突變的CRC中12個(gè)lincRNAs 表達(dá)上調(diào),其中l(wèi)incRNAAL390719.2可能是K-RAS突變CRC 患者的預(yù)后標(biāo)志物和治療靶點(diǎn)。