羅 祥,魯四海,戴鵬高,楊栓盈
(1.西安交通大學 第二附屬醫(yī)院呼吸科,陜西 西安 710004;2.西北大學 生命科學學院,陜西 西安 710069)
非小細胞肺癌是我國發(fā)病率、致死率較高的惡性腫瘤之一[1],其病因與致病機制尚不清楚。研究顯示,非小細胞肺癌患者的臨床治療響應及預后等差異化臨床表現(xiàn)可能與肺內(nèi)原發(fā)灶分布位置密切相關[2-4]。目前,研究發(fā)現(xiàn)不同生理部位的結構與功能、局部血液供給等均被證實存在顯著性差異[5-7]。同時,也探討了不同病灶部位中分子遺傳學水平如基因突變類型、變異頻率及表達水平的差異化特征,以及運用基因突變譜分析以解決同步性非小細胞肺癌與肺內(nèi)轉移擴散辨別診斷問題[8-9],但是尚無一致性結論,且國內(nèi)缺乏多病灶部位、大樣本量的臨床研究。
隨著高通量測序技術的不斷發(fā)展,靶向重測序技術已經(jīng)成為挖掘鑒定腫瘤驅動基因變異及藥物靶點基因的有效工具[10]。本研究通過腫瘤組織靶向測序技術與腫瘤大數(shù)據(jù)挖掘相結合,旨在探究不同肺葉部位以及左側肺、右側肺等腫瘤起源差異的肺癌基因組突變譜特征及功能學影響,進一步揭示導致原發(fā)部位不同的肺癌患者臨床表現(xiàn)差異產(chǎn)生的潛在分子機制,以期對臨床制定個體化診療策略、改善患者臨床結局提供更多的實驗數(shù)據(jù)與理論支撐。
本研究中不同葉分組測序數(shù)據(jù)及臨床信息來源于TCGA數(shù)據(jù)庫(the cancer genome atlas program,TCGA),此數(shù)據(jù)庫儲存了大量的腫瘤突變數(shù)據(jù)集以及臨床資料。下載獲取TCGA數(shù)據(jù)庫中502例非小細胞肺腺癌患者的突變數(shù)據(jù)與臨床信息數(shù)據(jù),利用python軟件對突變數(shù)據(jù)進行獲取并將其與臨床信息數(shù)據(jù)進行匹配與篩選。依據(jù)臨床診斷信息,將其分為上、中、下葉肺癌組(葉分組)。
基于不同肺葉、不同分布側原發(fā)性肺癌基因突變特征分析的研究思路,臨床樣本用以補充TCGA數(shù)據(jù)庫缺失的左、右側肺癌突變數(shù)據(jù)(側分組)。收集2018年9月至2021年12月在銅川市人民醫(yī)院就診、未經(jīng)治療、經(jīng)病理學明確診斷且無合并其他腫瘤的62例原發(fā)性肺癌患者的新鮮腫瘤組織樣本。入組患者在被采集組織樣本前均已被告知并簽署知情同意書,同意收集其臨床信息。
采集符合納入標準的肺癌新鮮組織樣本,置于組織保存液中低溫暫存。采集后2小時內(nèi),依據(jù)PureLinkTM基因組DNA小量提取試劑盒進行基因組DNA提取與純化,Nanodrop測定吸光度值,A260/A280接近1.8視為合格。
經(jīng)檢測質(zhì)量合格的DNA樣本送往陜西佰美基因股份有限公司進行文庫構建,并采用Ilumina測序平臺針對52個肺癌熱點基因(AKT1、ALK、APC、ARAF、ATM、BCL2L11、BRAF、BRCA1、BRCA2、CDKN2A、CHEK2、CTNNB1、DDR2、EGFR、EPCAM、ERBB2、ERCC1、FBXW7、FGFR1、FGFR2、FGFR3、IDH1、IGF1R、JAK2、KDR、KIT、KRAS、MAP2K1、MAP2K2、MET、MLH1、MSH2、MSH6、MTOR、NF1、NRAS、NTRK1、PIK3CA、PIK3R1、PMS2、POLE、PTEN、RET、ROS1、SMARCA4、SMARCB1、STK11、TERT、TP53、TSC1、TSC2、TWIST1)的靶向深度測序,上述基因均為FDA批準的靶向藥物或可用于評估術前術后化療藥效及毒副作用的相關基因,各樣本測得數(shù)據(jù)量約為1 GB。
基于Linux操作系統(tǒng)對所收集腫瘤組織樣本的測序數(shù)據(jù)進行了數(shù)據(jù)質(zhì)量控制、突變信息挖掘及功能注釋和分析。Fastx toolkit(http:∥hannonlab.cshl.edu/fastx-toolkit/index.html)用于全外顯子測序數(shù)據(jù)的質(zhì)量驗證和測序數(shù)據(jù)預處理。GATK(https:∥gatk.broadinstitute.org)軟件用于各樣本中突變檢測及注釋,突變報告標準為突變豐度≥0.1%。R腳本用于高頻突變基因(突變頻率排位前10)、位點以及非公有突變基因篩選?;蜃儺愅ǔе碌鞍妆磉_或功能上的變化,從而對細胞內(nèi)部的生物學過程產(chǎn)生影響,DAVID(https:∥david.ncifcrf.gov/)數(shù)據(jù)庫被用來進行突變特征基因的通路分析及基因功能注釋。
各組樣本中突變檢出率與年齡關聯(lián)性利用線性回歸分析等方法實現(xiàn)。不同分組間樣本量、突變頻數(shù)分布、列聯(lián)表等數(shù)據(jù)間差異顯著性檢驗采用Mann Whitney方法、Fisher精確檢驗或χ2。單因素方差分析用于多組數(shù)據(jù)間差異顯著性分析。各組間突變基因及位點差異聚類分析、韋恩圖、信號通路等分析及繪圖由ggplot2、heatmap2和Venn等R(https:∥www.r-project.org/)軟件包完成。顯著性判定水平為p<0.05。
2.1.1 葉分組
上、中、下葉肺癌組中共納入樣本502例,全部樣本中均檢出突變(502/502)。如表1所示,從各組收錄樣本來看,上葉肺癌組占比最高(60.1%),各組樣本量均隨年齡增高呈增多趨勢,但各組樣本在年齡分布上不存在顯著性差異(p=0.284 8),且在性別分類上各組間也不存在顯著性差異(p=0.454 1)。在突變導致氨基酸變化分析中發(fā)現(xiàn),葉分組各組均以錯義突變?yōu)橹?但不同分組間未發(fā)現(xiàn)顯著性差異(p=0.162 9)。
表1 不同原發(fā)部位肺癌患者臨床信息及總突變頻率統(tǒng)計表
2.1.2 側分組
左、右側肺癌組共納入樣本62例,91.9%(57/62)樣本均可檢出突變,其中5例無突變樣本中2例來自左側肺癌組,其余3例為右側肺癌組。收錄樣本量變化趨勢與葉分組類似,但左、右側肺癌組中樣本的性別組成有明顯差異(p=0.018 3)。突變引起的氨基酸改變分析結果顯示左、右側組中也均以錯義突變?yōu)橹?且各分組間未發(fā)現(xiàn)顯著差異(雙側組:p=0.108 1)(見表1)。
2.2.1 葉分組
葉分組中各組突變基因的檢出種類與頻率分布差異分析結果顯示〔見圖1(a)〕,上葉肺癌組突變基因種類覆蓋率為100%(52/52),中葉、下葉肺癌組突變基因覆蓋率分別為88.5%(46/52)和44.2%(23/52)。突變基因特征分析結果發(fā)現(xiàn),相較于下葉肺癌組,中葉肺癌組未能檢出AKT1、ARAF、BCL2L11、CDKN2A、CHEK2、DDR2、EPCAM、ERBB2、ERCC1、FGFR2、FGFR3、JAK2、KIT、MAP2K1、MAP2K2、MLH1、MSH2、MSH6、MTOR、NRAS、NTRK1、PMS2、PTEN、RET、SMARCB1、TERT、TSC1、TSC2、TWIST1等23個突變基因,約占總體的44.2%。相較于上葉肺癌組,下葉肺癌組未能于EPCAM、ERCC1、MAP2K2、NRAS、NTRK1、TERT等6個基因中檢出突變。對突變位點水平的分析結果顯示〔見圖1(c)〕,共同檢出的突變位點遠低于非共有突變位點,其中上、中、下葉肺癌組分別檢出727種(727/800,90.9%)、32種(32/46,69.6%)、269種(269/341,78.9%)特有突變位點。在各樣本可檢出突變位點數(shù)量中,葉分組均表現(xiàn)為雙突變類型檢出頻率最高,其次為單一突變類型或3種復合突變類型。此外,本研究分析了不同分組中各樣本突變位點檢出頻率與年齡、性別等臨床特征之間的關聯(lián)性,僅發(fā)現(xiàn)在數(shù)據(jù)庫來源的數(shù)據(jù)集中突變頻率與年齡分布存在顯著負相關(p=0.019 6)。
(a)各組間突變基因一致性分析;(b)各組間突變位點一致性分析;(c)各組間單突變、雙突變、多突變樣本分布分析;(d)葉分組中各樣本突變種類數(shù)與年齡的關聯(lián)性分析
2.2.2 側分組
側分組中各組突變基因的檢出種類與頻率分布差異分析結果顯示〔見圖1(b)〕,側分組中左、右側肺癌組檢出突變基因覆蓋率僅為23.1%(12/52)和34.6%(18/52),非共有突變基因檢出率分別為7.7%(BCL2L11、KDR、MSH6、PIK3R1,4/52)、19.2%(ALK、APC、BRCA2、CHEK2、ERBB2、FGFR2、NF1、PMS2、PTEN、RET,10/52),檢出的突變基因種類明顯低于葉分組來源的樣本組。對突變位點水平的分析結果顯示〔見圖1(c)〕,左、右側肺癌組中分別檢出34種(34/42,80.9%)、52種(52/60,86.7%)。在各樣本中可檢出突變位點數(shù)量中,各組均表現(xiàn)為雙突變類型檢出頻率最高,其次為單一突變類型或3種復合突變類型,基本與葉分組各組表現(xiàn)相近。但側分組中未發(fā)現(xiàn)各組樣本突變頻率與年齡分布、性別存在關聯(lián)性。
2.3.1 葉分組
為了進一步分析導致不同原發(fā)部位肺癌臨床表現(xiàn)差異的潛在分子機制,本研究還分析了高頻突變基因及位點分布差異。由圖2(a)可知,葉分組中上、下葉肺癌組總體突變率最高的基因均為TP53(154/778,19.79% vs. 66/358,18.44%)。但中葉肺癌組中以KRAS(10/44,22.73%)占比最高,TP53(7/44,15.91%)次之。各組間高頻突變基因突變率分布差異顯著(p<0.000 1)。對高頻突變位點分析結果顯示〔見圖2(b)〕,葉分組KRAS p.G12C突變頻率最高,其在上、中、下葉肺癌組中檢出頻率分別為8.94%(27/302)、28.57%(6/21)和11.73%(21/179)。
2.3.2 側分組
左、右側肺癌組中總體突變率最高的基因分別為TP53(17/41,41.46%)和EGFR(24/73,32.88%)。各分組間高頻突變基因突變率分布差異不顯著(p=0.535 7),且各組間差異均與各組樣本量無關(p=0.70)〔見圖2(a)〕。兩組位點水平分析結果顯示〔見圖2(b)〕,左、右側肺癌組中以EGFR p.L858R和EGFR-p.E746-A750del突變頻率居首,分別為30.77%(8/26)和13.89%(5/36)。側分組中EGFR的突變率(左側:29.27%,右側:32.88%)顯著低于葉分組(上葉:5.66%,中葉:2.27%,下葉:7.26%)(p=0.001 5)。此外,側分組與葉分組中突變位點檢出頻率差異明顯,僅EGFR p.L858R和PIK3CA p.E545K等2個基因同時分布于葉分組、側分組高頻突變基因中。
2.4.1 葉分組
功能預測及通路富集結果顯示〔見圖3(a)、圖3(c)〕,上、中、下葉肺癌組之間EPCAM、ERCC1、MAP2K2、NRAS、NTRK1、TERT 等6種非共有突變基因,可能與中心碳代謝(central carbon metabolism in cancer)、EGFR激酶抑制劑抵抗(EGFR tyrosine kinase inhibitor resistance)、PI3K-Akt信號通路(PI3K-Akt signaling pathway)、MAPK信號通路(MAPK signaling pathway)、內(nèi)分泌抵抗(endocrine resistance)及藥物抵抗等信號通路調(diào)控相關,生物學功能富集的5個生物學過程均與小RNA表達調(diào)控相關。
(a)、(c)葉分組非共有突變基因通路及功能富集結果;(b)、(d)側分組非共有突變基因通路及功能富集結果
2.4.2 側分組
左、右側肺癌組中共檢出BCL2L11、KDR、MSH6、PIK3R1、ALK、APC、BRCA2、CHEK2、ERBB2、FGFR2、NF1、PMS2、PTEN、RET等14個非共有突變基因,其通路分析結果〔見圖3(b)〕與上、中、下葉肺癌組特有基因富集結果高度相似,均表明中心碳代謝(central carbon metabolism in cancer)、EGFR激酶抑制劑抵抗(EGFR tyrosine kinase inhibitor resistance)等多種通路調(diào)控與之相關,但左、右側肺癌發(fā)生過程還可能與PD-L1表達調(diào)控通路(PD-L1 expression and PD-1 checkpoint pathway in cancer)、鈣離子信號通路(calcium signaling pathway)、錯配修復(mismatch repair)等通路調(diào)控有關。此外,其生物學功能富集結果說明〔見圖3(d)〕,左、右側肺癌組中存在特征基因與凋亡信號通路(intrinsic apoptotic signaling pathway、extrinsic apoptotic signaling pathway)、蛋白酶B信號通路、PI3K介導的信號通路、上皮細胞增殖調(diào)控等。
目前,非小細胞肺癌仍是全球臨床發(fā)病率與致死率較高的惡性腫瘤之一,對于腫瘤源性突變特征研究,將有利于進一步深入理解其在發(fā)生發(fā)展以及治療響應等臨床表現(xiàn)差異的潛在分子機制。研究報道,新輔助治療后右肺切除術的肺癌患者在手術期死亡率顯著高于左側切除術患者[11],提示肺癌患者全肺切除術后生存期與肺內(nèi)原發(fā)灶起源位置密切相關。此外,原發(fā)性肺癌的位置也與特定的淋巴結轉移有關。研究發(fā)現(xiàn),與肺中葉、肺下葉非小細胞肺癌患者相比,肺上葉癌患者更易發(fā)生縱膈淋巴結轉移,且其轉移多局限于上縱隔區(qū)域淋巴結,而肺中葉、肺下葉癌則易出現(xiàn)上、下縱隔跳躍式淋巴結轉移[2-3]。左、右側原發(fā)性肺癌患者術后治療響應及預后等也存在顯著性差異,原發(fā)灶起源部位也能被用于評估肺切除術后輔助治療響應的預測指標。有研究指出,左側肺切除術患者癌癥特異性生存率與總生存率均明顯優(yōu)于右側肺切除術患者,且輔助治療顯著延長左側肺癌切除術后患者生存期,但與右側肺癌切除術生存期無相關性[4]。在ALK重排的肺癌樣本中,右側肺癌患者樣本中檢出更高水平的EGFR p.L858R突變。然而,仍有部分研究指出I-IIIA期左側和右側非小細胞肺癌的預后差異不顯著,原發(fā)腫瘤分布側不應作為一種預后因素[12]。不同原發(fā)部位腫瘤臨床表現(xiàn)差異研究尚無一致性結論。此外,部分學者認為可能由于不同肺葉或左、右側肺部生理結構及生理功能、血液供給以及腫瘤侵襲途徑、基因變異等導致了位置特異性的腫瘤生物學特征變化[2-6,13],但具體機制尚不清楚。因此,本研究通過靶向測序技術對62例非小細胞肺癌患者新鮮組織樣本進行分析,并通過大數(shù)據(jù)挖掘502例TCGA非小細胞肺腺癌與之整合分析,從而進一步揭示不同肺葉及分布側原發(fā)性非小細胞肺癌腫瘤源性突變特征及生物學功能影響,為探究非小細胞肺癌致病機制提供新的思路。
非小細胞肺癌的發(fā)生伴有多種遺傳和表觀遺傳學改變,且其變化特征可能與生理結構或組織學類型上的差異有關。本研究納入的樣本中僅有5例未檢出突變(0.88%,5/564)。不同葉分組與左、右側肺癌組樣本均表現(xiàn)為共有突變位點遠低于非共有突變位點,其中共有突變主要來源于TP53、EGFR、KRAS等基因,與其他學者研究結果相似[14-15]。進一步分析顯示不同原發(fā)部位樣本間存在多種特有突變基因(EPCAM、ERCC1等),且高頻突變基因如TP53、KRAS等在各組中的突變頻率存在差異,但EGFR在TCGA來源的數(shù)據(jù)集中突變頻率(2.27%~7.26%)顯著低于新納入臨床標本水平(29.27%~32.88%),這可能與數(shù)據(jù)集樣本來源多為非亞裔人群有關,以往研究中發(fā)現(xiàn)亞裔肺癌患者中具有更高水平的突變頻率[16-17]。KRAS突變的頻率因不同種族而異,在以往的報道中非小細胞肺癌患者的檢出率為19%~30%不等[18]。本研究中KRAS的突變頻率僅為10.8% (54/502),這與前期研究報道如Yang等人也發(fā)現(xiàn)患者組(53/1 033,5.13%)和腺癌患者組(45/759人,5.93%)的KRAS突變率較低的結論基本一致[7],即亞洲人表現(xiàn)出較低的KRAS突變頻率。此外,在Liu等人利用二代測序技術對17 113個非小細胞肺癌樣本的測序分析中發(fā)現(xiàn)27%的樣本攜帶KRAS突變,其中最常見突變?yōu)?p.G12C突變(40%),其次是 p.G12V(19%)和 p.G12D(15%)[19]。此結果在本研究中也有相似發(fā)現(xiàn),且深入分析還發(fā)現(xiàn)不同葉分組中KRAS p.G12C檢出率仍為最高,但相較之下,中葉肺癌組中檢出率(28.57%)明顯高于其他兩組(8.94%和11.73%)。然而,左、右側肺癌組中則分別以EGFR p.L858R、EGFR p.E746-A750del(19號外顯子缺失突變)為最多檢出的突變類型,這兩種突變的檢出情況與Yang等人的研究發(fā)現(xiàn)攜帶EGFR p.L858R和19號外顯子缺失突變更容易分布在右側的結果有所不同[7]。
為了評估不同肺葉非小細胞肺癌患者特征突變基因的潛在功能。 本研究通過分別篩選出上、 中、 下葉肺癌組間以及左、 右側肺癌組間的特征突變基因, 并對特征突變基因可能參與的信號調(diào)控、 生物學過程等功能富集分析, 研究發(fā)現(xiàn)葉分組特征基因主要參與了癌癥中心碳代謝以及藥物抵抗等通路, 而側分組特征基因主要參與了錯配修復及凋亡調(diào)控等通路。 此外, 與以往的研究結果不同[7, 20],本研究中肺內(nèi)不同原發(fā)部位總突變檢出量及各基因突變頻率分布與不同臨床特征(年齡、性別)之間無相關性,提示納入的患者臨床特征差異對本研究分組影響較小。因此,上述結果既能說明病灶起源及研究分組不同均會對結果產(chǎn)生顯著影響,又提示原發(fā)部位不同的肺癌可能具有不同的基因突變特征。但由于上述特征基因為低頻突變基因(伴隨突變),其通過哪些調(diào)控機制促進不同原發(fā)部位肺癌發(fā)生發(fā)展,目前相關研究報道較少,仍有許多值得研究和思考的問題。
綜上,本研究采用組織靶基因高通量測序技術與腫瘤大數(shù)據(jù)挖掘相結合的方法,探討了564例肺內(nèi)原發(fā)部位不同的肺癌患者突變特征及功能學影響,篩選并分析了位置特異性突變候選基因及其可能參與的信號通路及生物學過程,這將對非小細胞肺癌致病機制及原發(fā)部位輔助診斷具有重要意義。然而,由于本研究未考慮種族、地域等可能會引起遺傳背景差異的因素,且缺乏納入研究個體治療響應及生存期等數(shù)據(jù),仍需進行更加深入地研究,以期為臨床醫(yī)生診療決策過程提供更精準的輔助參考工具,幫助延長非小細胞肺癌患者生存期并改善其生存質(zhì)量。