夏文俊,于斐,胡鵬遠(yuǎn),張曉旭,張燕,包亮亮,毛宏凱,瑪依沙·達(dá)肯,曹明芹
新疆醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,烏魯木齊 830011
肺癌是世界范圍內(nèi)高發(fā)的惡性腫瘤,據(jù)統(tǒng)計(jì),全球每年約有220萬新發(fā)肺癌病例,179萬人死于肺癌[1]。結(jié)核病是一種由結(jié)核分枝桿菌引起的以呼吸系統(tǒng)為主的慢性傳染病,以肺部感染為主,常可累及多處器官及組織[2]。在臨床中,肺癌患者早期癥狀不明顯,易與肺結(jié)核等其他肺部疾病混淆,常導(dǎo)致許多肺癌患者確診時(shí)已為中晚期,錯(cuò)過了最佳治療時(shí)機(jī)[3-4]。因此,早期鑒別診斷肺癌與具有相似臨床癥狀和放射學(xué)特征的肺結(jié)核患者,對(duì)于提高肺癌患者的生存率、結(jié)核病患者治愈率和降低整體疾病負(fù)擔(dān)是十分必要的。2022年3月—10月,本研究通過生物信息信息學(xué)方法篩選肺癌與肺結(jié)核的差異表達(dá)基因(DEGs),并利用機(jī)器學(xué)習(xí)算法構(gòu)建肺癌與肺結(jié)核的鑒別診斷模型,以期為早期肺癌與肺結(jié)核患者的診斷提供理論依據(jù)。
1.1 肺癌與肺結(jié)核DEGs篩選 以lung cancer、tuberculosis等關(guān)鍵詞對(duì)GEO公共數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/geo/)進(jìn)行檢索,按照以下標(biāo)準(zhǔn)進(jìn)行篩選:①數(shù)據(jù)集需具有肺癌和肺結(jié)核患者樣本;②微陣列數(shù)據(jù);③符合美國(guó)食品藥品監(jiān)督管理局(FDA)要求的權(quán)威機(jī)構(gòu)檢測(cè)。篩選獲得GSE42834數(shù)據(jù)集,其中包含35例肺結(jié)核樣本,16例肺癌樣本,共20 912個(gè)基因。運(yùn)用R軟件limma包的經(jīng)驗(yàn)貝葉斯聯(lián)合線性模型篩選GSE42834數(shù)據(jù)集中肺癌與肺結(jié)核DEGs。為了避免可能因線性分析而造成的假陽(yáng)性結(jié)果,使用Benjamin and Hochberg(BH)法將P值調(diào)整為錯(cuò)誤發(fā)現(xiàn)率(FDR)。篩選條件為FDR<0.05且|log2FC|>1.5。
1.2 肺癌與肺結(jié)核DEGs的GO生物過程與KEGG作用通路分析 運(yùn)用R軟件clusterProfiler包對(duì)GSE42834數(shù)據(jù)集中肺癌與肺結(jié)核DEGs進(jìn)行GO生物過程及KEGG作用通路富集分析,篩選排名前20的GO生物過程及KEGG作用通路富集結(jié)果,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
1.3 肺癌與肺結(jié)核核心DEGs篩選 將獲得的前100個(gè)肺癌與肺結(jié)核DEGs輸入STRING工具(https://string-db.org),物種選擇Human,置信度選擇medium confidence(0.4),構(gòu)建蛋白—蛋白相互作用網(wǎng)絡(luò)(PPI)。運(yùn)用Cytoscape軟件進(jìn)行PPI網(wǎng)絡(luò)的圖形化,使用CytoHubba插件篩選連接度前10的基因作為肺癌與肺結(jié)核核心DEGs。采用t檢驗(yàn)分析核心DEGs在肺癌與肺結(jié)核患者的表達(dá)情況。
1.4 肺癌與肺結(jié)核鑒別診斷模型構(gòu)建及評(píng)價(jià) 將篩選出的肺癌與肺結(jié)核核心DEGs輸入R軟件caret包,使用留一交叉驗(yàn)證法(LOOCV)結(jié)合8種機(jī)器學(xué)習(xí)算法構(gòu)建肺癌與肺結(jié)核的鑒別診斷模型,包括支持向量機(jī)(SVM)、自適應(yīng)提升算法(AdaBoost)、C5.0決策樹(C5.0)、隨機(jī)森林(RF)、樸素貝葉斯(NB)、神經(jīng)網(wǎng)絡(luò)(NN)、線性判別分析(LDA)及邏輯回歸(LR)模型,篩選模型的最優(yōu)參數(shù)。使用Bootstrap法對(duì)模型進(jìn)行內(nèi)部驗(yàn)證,采用準(zhǔn)確率、Kappa值、敏感度及特異度來初步評(píng)價(jià)鑒別診斷模型的診斷準(zhǔn)確度。
2.1 肺癌與肺結(jié)核DEGs篩選結(jié)果 GSE42834數(shù)據(jù)集中共篩選出肺癌與肺結(jié)核DEGs 325個(gè),包含205個(gè)上調(diào)基因和120個(gè)下調(diào)基因。見OSID碼圖1。
2.2 肺癌與肺結(jié)核DEGs的GO生物過程與KEGG作用通路分析結(jié)果 GO生物過程分析結(jié)果顯示,肺癌與肺結(jié)核DEGs主要富集的生物過程為對(duì)病毒的反應(yīng)、對(duì)病毒的防御反應(yīng)、干擾素γ(HFN-Y)反應(yīng)等;KEGG作用通路分析結(jié)果顯示,肺癌與肺結(jié)核DEGs主要富集的作用通路為甲型流感、EB病毒感染、抗原處理和呈遞等。見OSID碼圖2。
2.3 肺癌與肺結(jié)核核心DEGs篩選結(jié)果 PPI網(wǎng)絡(luò)中顯示200個(gè)節(jié)點(diǎn),516個(gè)邊緣(OSID碼圖3)。利用CytoHubba插件獲得具有最高連通性的前10個(gè)核心DEGs,分別為STAT1、CXCL10、MX1、ISG15、IFIH1、OASL、IFIT3、GBP1、IFI44和 IFIT1(OSID 碼圖4)。經(jīng)驗(yàn)證,10個(gè)關(guān)鍵基因在肺癌患者中的表達(dá)水平均低于肺結(jié)核患者(P均<0.05)。見OSID碼圖5。
2.4 肺癌與肺結(jié)核鑒別診斷模型構(gòu)建及評(píng)價(jià)結(jié)果 將10個(gè)肺癌與肺結(jié)核核心DEGs納入8種算法建立肺癌與肺結(jié)核鑒別診斷模型,模型的最優(yōu)參數(shù)見表1。內(nèi)部驗(yàn)證結(jié)果顯示,所有鑒別診斷模型準(zhǔn)確率、Kappa值、靈敏度及特異度均較高,其中Ada-Boost、RF、NN和LR準(zhǔn)確率為1.000。見表2。
表1 肺癌與肺結(jié)核鑒別診斷模型的最優(yōu)參數(shù)
表2 肺癌與肺結(jié)核鑒別診斷模型評(píng)價(jià)結(jié)果
肺癌與肺結(jié)核均屬于呼吸系統(tǒng)常見疾病,且肺結(jié)核是肺癌發(fā)病的危險(xiǎn)因素之一[5]。目前,臨床中對(duì)肺癌與肺結(jié)核患者的鑒別診斷方法主要是穿刺活檢和影像學(xué)檢查。肺部穿刺活檢屬于侵入性檢查,且需要檢查者具有較高的操作水平才能保證結(jié)果的準(zhǔn)確性[6];影像學(xué)檢查常用于肺部空洞形成后,無法對(duì)肺癌與結(jié)核病進(jìn)行早期的篩查與診斷。因此,探索有效且切實(shí)可行的診斷生物標(biāo)志物及鑒別診斷模型對(duì)區(qū)分早期肺癌與肺結(jié)核患者具有重要意義。
本研究通過GSE42834數(shù)據(jù)集中肺癌與肺結(jié)核患者的轉(zhuǎn)錄特征來識(shí)別肺癌和肺結(jié)核的DEGs,共獲得325個(gè)DEGs。GO生物過程和KEGG作用通路分析顯示,這些DEGs主要富集于病毒反應(yīng)、病毒防御反應(yīng)、IFN-γ反應(yīng)等生物學(xué)過程,涉及甲型流感、EB病毒感染、抗原處理和呈遞等作用通路。通過構(gòu)建PPI網(wǎng)絡(luò)獲得了肺癌與肺結(jié)核核心DEGs,分別為STAT1、CXCL10、MX1、ISG15、IFIH1、OASL、IFIT3、GBP1、IFI44和IFIT1。
STAT1是STAT蛋白家族的成員,具有激活I(lǐng)FN/STAT1通路和抗結(jié)核分枝桿菌的作用。IFN/STAT1通路是介導(dǎo)腫瘤細(xì)胞與宿主微環(huán)境成分之間的典型信號(hào)通路,通過激活I(lǐng)FN-γ發(fā)揮其抗腫瘤活性[7]。如果STAT1低表達(dá)可能抑制IFN-γ激活,從而促進(jìn)腫瘤細(xì)胞的遷移和侵襲[8];YI等[9]研究發(fā)現(xiàn),人體內(nèi)高水平的磷酸化STAT1可以產(chǎn)生抗結(jié)核作用,提示STAT1可能是鑒別診斷肺癌與肺結(jié)核患者的重要標(biāo)志物之一。CXCL10屬于CXC趨化因子,與CXCR3受體結(jié)合后可以促進(jìn)單核細(xì)胞和淋巴細(xì)胞聚集到病變部位,從而發(fā)揮細(xì)胞免疫作用。有研究發(fā)現(xiàn),肺癌患者KDM4C基因的異常高表達(dá)會(huì)導(dǎo)致CXCL10啟動(dòng)子區(qū)域活化的組蛋白H3K36me3富集,從而抑制CXCL10的表達(dá)[10];FAN等[11]研究發(fā)現(xiàn),活動(dòng)性肺結(jié)核患者CXCL10水平顯著增高,CXCL10是結(jié)核病的重要標(biāo)志物之一。這提示CXCL10在肺癌與肺結(jié)核中均異常表達(dá),可能在肺癌與肺結(jié)核的鑒別診斷中發(fā)揮重要作用。GBP1是GTP酶超家族的成員,在正常細(xì)胞中具有抗增殖作用,在炎癥條件下可抑制早期血管生成。GBP1的表達(dá)具有高度背景依賴性,低表達(dá)時(shí)會(huì)促進(jìn)肺癌細(xì)胞的增殖與轉(zhuǎn)移[12];高表達(dá)時(shí)會(huì)抑制Caspase-3的激活,導(dǎo)致巨噬細(xì)胞凋亡減少,促進(jìn)分枝桿菌在細(xì)胞內(nèi)的生存和感染的建立[13]。因此,GBP1也可能是鑒別肺癌與肺結(jié)核患者的重要標(biāo)志物。MX1、ISG15、IFIH1、OASL、IFIT3、IFI44、IFIT1均是IFN響應(yīng)基因靶標(biāo),具有誘導(dǎo)IFN反應(yīng)、產(chǎn)生免疫調(diào)節(jié)因子和炎癥細(xì)胞因子的作用。該類基因高度表達(dá)可能意味著IFN先天反應(yīng)的激活,因此具有區(qū)分肺結(jié)核與肺癌的潛力。
近年來,機(jī)器學(xué)習(xí)結(jié)合生物信息學(xué)方法憑借其較高的準(zhǔn)確率,在疾病診斷研究中得到越來越多的應(yīng)用。HAMMAD等[14]通過基因表達(dá)數(shù)據(jù)庫(kù)建立結(jié)直腸癌診斷模型;NING等[15]通過10個(gè)miRNA使用SVM算法建立前列腺癌診斷模型。本研究基于10個(gè)肺癌與肺結(jié)核核心DEGs,應(yīng)用多種機(jī)器學(xué)習(xí)算法構(gòu)建肺癌與肺結(jié)核的鑒別診斷模型,內(nèi)部驗(yàn)證結(jié)果發(fā)現(xiàn)均具有較高的準(zhǔn)確性,所有診斷模型的準(zhǔn)確率均大于0.900且Kappa值、靈敏度及特異度均較高,其中AdaBoost、RF、NN和LR的準(zhǔn)確率為1.000,提示模型具備較好的診斷分類能力。
綜上所述,本研究通過機(jī)器學(xué)習(xí)算法結(jié)合生物信息學(xué)方法建立了8個(gè)肺癌與肺結(jié)核早期鑒別診斷模型,其中AdaBoost、RF、NN和LR準(zhǔn)確性較高,可為肺癌與肺結(jié)核的早期鑒別診斷提供參考。但如果將這些關(guān)鍵基因應(yīng)用于臨床實(shí)踐中,還需要在更多的外部獨(dú)立數(shù)據(jù)集進(jìn)行驗(yàn)證。在下一步研究中,我們將引入新的肺癌與肺結(jié)核患者進(jìn)行模型效果的外部評(píng)價(jià),并對(duì)核心基因在肺癌與肺結(jié)核中的生物學(xué)功能與機(jī)制做進(jìn)一步研究。