趙博璇,劉 明,李建偉
(河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)
胃癌是一種極為常見的惡性腫瘤,其發(fā)生于胃粘膜上皮細(xì)胞,在全球癌癥死亡率排名中位居第二[1]。在我國,胃癌擁有較高的發(fā)病率和死亡率,位列我國惡性腫瘤的第三位,且全球新發(fā)胃癌病例中約有一半來自中國[2-3]。胃癌患者的早期癥狀不顯著,難以引起人們重視,只有當(dāng)腫瘤細(xì)胞增殖影響胃部正常功能時(shí),患者才出現(xiàn)較為明顯的癥狀。根據(jù)胃癌早期發(fā)病機(jī)制建立診斷預(yù)測模型,及早發(fā)現(xiàn)胃癌患者,可使患者避免錯(cuò)過早期治療的最佳時(shí)機(jī),輔以有效治療可以極大提升胃癌患者的五年生存率。本研究通過生物信息學(xué)技術(shù)對(duì)胃癌基因表達(dá)數(shù)據(jù)進(jìn)行特征處理,采用機(jī)器學(xué)習(xí)算法構(gòu)建胃癌早期診斷預(yù)測模型,為胃癌早期診斷的研究提供了新思路和新方法。
隨著高通量生物技術(shù)和生物信息學(xué)的迅猛發(fā)展,不斷有學(xué)者根據(jù)人類基因表達(dá)譜數(shù)據(jù)對(duì)胃癌開展各種層面的研究。JIANG K等通過對(duì)GEO(Gene Expression Omnibus,https://www.ncbi.nlm.nih.gov/geo)數(shù)據(jù)庫中的 GSE29272數(shù)據(jù)集進(jìn)行研究,發(fā)現(xiàn)了5個(gè)可能代表胃癌的新型預(yù)后生物標(biāo)志物(ASPN、COL1A1、FN1、VCAN和MUC5AC)[4]。Chen J等人根據(jù)TCGA(The Cancer Genome Atlas,TCGA,https://portal.gdc.cancer.gov)數(shù)據(jù)庫中胃癌患者的遺傳和臨床數(shù)據(jù),通過構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析,得到7個(gè)影響胃癌患者生存的基因(PDGFRB、COL8A1、EFEMP2、FBN1、EMILIN1、FSTL1 和KIRREL)[5]。對(duì)人類胃癌組學(xué)數(shù)據(jù)的探索可為胃癌的預(yù)防、治療和診斷提供強(qiáng)有力的幫助。本研究的工作流程主要包括數(shù)據(jù)下載與處理、胃癌早期診斷關(guān)鍵基因的篩選和診斷預(yù)測模型的構(gòu)建3個(gè)部分。其中關(guān)鍵基因的篩選通過差異基因分析、PPI網(wǎng)絡(luò)分析和診斷效能分析等3個(gè)步驟完成,并對(duì)差異基因進(jìn)行GO和KEGG富集分析。
TCGA即癌癥基因組圖譜數(shù)據(jù)庫,它從創(chuàng)建至今已收錄了30多種類型癌癥的基因組學(xué)數(shù)據(jù),存儲(chǔ)了豐富的與癌癥相關(guān)的各類信息[6]。TCGA 數(shù)據(jù)庫中胃癌基因表達(dá)數(shù)據(jù)由二代測序技術(shù)(RNA-seq)獲得,用戶利用官方下載工具gdc-client,可下載基因表達(dá)豐度為read count值形式的原始表達(dá)數(shù)據(jù),并可同時(shí)獲得相關(guān)的臨床數(shù)據(jù)。GTEx(Genotype-Tissue Expression,GTEx,https://gtexportal.org/home)名為基因型-組織表達(dá)數(shù)據(jù)庫。截至2015年底,它已包括大約900名尸體捐贈(zèng)者的大量尸檢樣本數(shù)據(jù),涵蓋50多個(gè)組織[7]。
在本研究中,從TCGA數(shù)據(jù)庫中篩選得到201個(gè)胃癌樣本,其中正常組織 32個(gè),早期胃癌組織樣本為169個(gè)(56例癌癥I期,113例癌癥II期)。TCGA數(shù)據(jù)庫記錄的正常組織測序結(jié)果較少,大量病人的正常組織測序數(shù)據(jù)并未包含在內(nèi),如胃癌正常組織樣本量與癌組織早期樣本量相差近5倍。為增加正常組織樣本量,本研究通過GTEx數(shù)據(jù)庫官網(wǎng)下載原始表達(dá)矩陣文件和樣本信息文件,根據(jù)樣本信息從表達(dá)矩陣中提取出174個(gè)正常胃部組織的基因表達(dá)數(shù)據(jù)。
對(duì)獲得的TCGA和GTEx的胃癌原始表達(dá)數(shù)據(jù)集進(jìn)行預(yù)處理,通過篩選同時(shí)存在于兩個(gè)數(shù)據(jù)庫的基因,最終得到二者的聯(lián)合數(shù)據(jù)集。該數(shù)據(jù)集共包含375個(gè)樣本,正常組織和胃癌早期組織樣本分別為206個(gè)和169個(gè)(見表1)。
表1 基因表達(dá)數(shù)據(jù)集描述信息Table 1 Description of gene expressiondataset (個(gè))
TCGA和GTEx為不同平臺(tái)的測序數(shù)據(jù),其數(shù)據(jù)因獲取的方式不同而存在批次差異,在進(jìn)行差異分析前先進(jìn)行批次效應(yīng)處理[8]。本研究使用R平臺(tái)(R 4.0.3,https://www.r-project.org)中自帶去批次效益函數(shù)的Deseq2軟件包對(duì)TCGA和GTEx聯(lián)合數(shù)據(jù)集進(jìn)行批次效益去除和差異表達(dá)基因(Differentially expressed genes, DEGs)篩選。Deseq2軟件包僅支持未經(jīng)標(biāo)準(zhǔn)化的read count形式的數(shù)據(jù)類型[9],設(shè)置|log2FC|>2,Benjamini Hochberg校正后的差異顯著性閾值P.adj<0.05。
基因本體論(Gene Oncology, GO)分析被廣泛應(yīng)用于降低復(fù)雜性和全基因組的表達(dá)研究,其包括分子功能(Molecular Function,MF)、細(xì)胞組分(Cellular Component, CC)和生物過程(Biological process, BP)3部分。KEGG通路富集分析采用的是京都基因與基因組百科全書數(shù)據(jù)庫((Kyoto Encyclopedia of Genes and Genomes,KEGG),它是一個(gè)基因功能系統(tǒng)分析庫,包括基因組、化學(xué)和系統(tǒng)功能等信息。本研究利用R語言的clusterProfiler軟件包實(shí)現(xiàn)差異基因的GO和KEGG富集分析,富集篩選閾值設(shè)定為經(jīng)Benjamini Hochberg校正后的P<0.05。
STRING數(shù)據(jù)庫(https://string-db.org)整合了蛋白質(zhì)間所有已知關(guān)聯(lián)和預(yù)測關(guān)聯(lián),包括物理相互作用和功能關(guān)聯(lián),從多個(gè)數(shù)據(jù)源收集評(píng)分證據(jù),收錄了千萬種蛋白質(zhì)間的相互作用[10]。通過STRING數(shù)據(jù)庫構(gòu)建蛋白質(zhì)間的相互作用(Protein-protein interaction,PPI)網(wǎng)絡(luò),可得到關(guān)系密切的蛋白基因集,有助于篩選關(guān)鍵基因。利用Cytoscape(Cytoscape 3.7.0,https://cytoscape.org)軟件中的MCODE插件搜索提取PPI網(wǎng)絡(luò)中的關(guān)鍵子網(wǎng),關(guān)鍵子網(wǎng)中的基因即可被認(rèn)為是候選關(guān)鍵基因。
通過MedCalc(MedCalc 19.1,https://www.medcalc.org)軟件對(duì)候選關(guān)鍵基因的診斷能力進(jìn)行評(píng)價(jià)分析?;谑茉囌吖ぷ魈卣髑€(Receiver Operating Characteristic,ROC)[11]、曲線下面積(AUC)、敏感性和特異性等指標(biāo)可以評(píng)估關(guān)鍵基因的識(shí)別能力。隨著ROC曲線下面積的增大,關(guān)鍵基因?qū)ξ赴┰缙谧R(shí)別能力逐漸增大,本研究設(shè)置AUC值大于0.9的基因可作為早期診斷關(guān)鍵基因。
使用Python(Python 3.7.4,https://www.python.org) 機(jī)器學(xué)習(xí)擴(kuò)展包 scikit-learn開發(fā)實(shí)現(xiàn)分別基于支持向量機(jī)(Support Vector Machines,SVM)[12]、隨機(jī)森林(Random Forest,RF)[13]、樸素貝葉斯(Naive Bayes Model,NBM)[14]、 K 近鄰(K-Nearest Neighbor,KNN)[15]、極致梯度提升(eXtreme Gradient Boosting,XGBoost)[16]和自適應(yīng)提升(Adaptive Boosting,AdaBoost)[17]的胃癌早期診斷預(yù)測模型。
不同算法訓(xùn)練得到的分類器模型在訓(xùn)練集上具有不同的表現(xiàn),廣泛應(yīng)用的評(píng)價(jià)指標(biāo)有:準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)[18]、F1_score[19]、ROC曲線和AUC值等。AUC定義為ROC曲線下面積值,AUC作為一個(gè)數(shù)值,其越大說明分類模型越好[20]?;煜仃嚦1挥米鞫诸惸P偷脑u(píng)判指標(biāo)[21]。
對(duì)于TCGA和GTEx聯(lián)合數(shù)據(jù)集,通過Deseq2軟件包進(jìn)行批次效益去除并篩選差異表達(dá)基因,得到1 524個(gè)DEGs,包含735個(gè)上調(diào)基因和789個(gè)下調(diào)基因,其火山圖(見圖1)。
圖1 胃癌組織與正常組織間DEGs火山圖Fig.1 Volcano map of DEGs between gastric cancer tissue and normal tissue
通過clusterProfiler軟件包對(duì)差異基因進(jìn)行GO和KEGG功能富集分析。GO富集分析結(jié)果中共包含501個(gè)條目,其中細(xì)胞組分條目48條,分子功能條目125條,生物過程條目328條。將P.adjust值按照升序排列,分別選取三部分前10條目進(jìn)行展示(見圖2)。分析表明差異基因主要富集于生物過程上,包括表皮細(xì)胞分化、肌肉系統(tǒng)過程和皮膚發(fā)育等;細(xì)胞組分功能主要富集于細(xì)胞外基質(zhì)、細(xì)胞頂端和轉(zhuǎn)運(yùn)復(fù)合體;分子功能主要富集于受體配體活性、信號(hào)受體及內(nèi)肽酶活性,主要結(jié)果(見表2)。
表2 GO功能富集分析部分結(jié)果Table 2 Partial results of GO function enrichment analysis
圖2 顯著富集的GO termFig.2 Significantly enriched GO terms
KEGG通路富集分析結(jié)果中共包含32個(gè)條目,差異基因主要富集在神經(jīng)活性配體-受體相互作用、細(xì)胞因子-細(xì)胞因子受體相互作用和cAMP 信號(hào)等通路。將經(jīng)Benjamini Hochberg校正后的P值按升序排列,選擇前10條目進(jìn)行氣泡圖繪制(見圖3)。表3全面地展示了將通路包含基因數(shù)量按照降序排列的前10條目結(jié)果。
表3 KEGG通路富集分析部分結(jié)果Table 3 Partial results of KEGG pathway enrichment analysis
圖3 KEGG通路富集分析氣泡圖Fig.3 Bubble chart of KEGG pathway enrichment analysis
利用STRING數(shù)據(jù)庫對(duì)1 524個(gè)DEGs構(gòu)建其PPI網(wǎng)絡(luò),并通過Cytoscape軟件中的MCODE插件獲得每個(gè)蛋白質(zhì)相互作用子網(wǎng)的評(píng)分,按照得分遞減順序提取前兩名的子網(wǎng)為關(guān)鍵子網(wǎng)(見圖4)。兩個(gè)關(guān)鍵子網(wǎng)中共包含的58個(gè)基因作為胃癌早期診斷候選關(guān)鍵基因。
圖4 關(guān)鍵子網(wǎng)的PPI網(wǎng)絡(luò)圖Fig.4 PPI network of key subnetworks
分別對(duì)兩個(gè)關(guān)鍵子網(wǎng)中包含的基因進(jìn)行GO功能富集分析,富集分析結(jié)果表明關(guān)鍵子網(wǎng)1所包含的33個(gè)基因主要富集在生物過程上,包括粒細(xì)胞趨化、趨化因子介導(dǎo)信號(hào)通路和G蛋白耦聯(lián)受體信號(hào)通路等;關(guān)鍵子網(wǎng)2所包含的25個(gè)基因主要富集于生物過程的角質(zhì)細(xì)胞分化和交聯(lián)肽。
基于基因表達(dá)數(shù)據(jù),利用MedCalc軟件對(duì)58個(gè)候選關(guān)鍵基因進(jìn)行診斷效能分析,結(jié)果分別在圖5中進(jìn)行展示。提取AUC值大于0.9的基因,最終得到10個(gè)胃癌早期診斷關(guān)鍵基因,它們分別為CXCL11、CCR8、CXCL9、CXCL10、CXCL1、CCL20、CXCL8、CXCL6、APLN、HTR1E。關(guān)鍵基因的診斷效能結(jié)果如表4所示,其敏感性和特異性均高于70%。
圖5 候選關(guān)鍵基因ROC曲線Fig.5 ROC curve of candidate key genes
表4 基于關(guān)鍵基因的早期胃癌分類效果Table 4 Classification effect of early gastric cancer based on key genes
利用10個(gè)胃癌早期診斷關(guān)鍵基因構(gòu)建胃癌的早期診斷模型,具體步驟如下:
1)提取出10個(gè)關(guān)鍵基因在TCGA聯(lián)合GTEx數(shù)據(jù)集的表達(dá)值形成新的表達(dá)譜矩陣。
2)將來源于TCGA聯(lián)合GTEx數(shù)據(jù)集的169個(gè)早期胃癌樣本和206個(gè)正常樣本分別隨機(jī)提取1/11組成獨(dú)立測試集,用于驗(yàn)證診斷預(yù)測模型的魯棒性和泛化能力。獨(dú)立測試集共包括33個(gè)樣本,胃癌早期樣本和正常樣本數(shù)量分別為15個(gè)和18個(gè),余下的342個(gè)樣本用作訓(xùn)練集,流程(見圖6)。
圖6 胃癌早期診斷預(yù)測模型流程圖Fig.6 Flow chart of early diagnosis and prediction model of gastric cancer
在含有342個(gè)樣本的訓(xùn)練集上采用十折交叉驗(yàn)證法構(gòu)建基于SVM、RF、NBM、KNN、XGBoost、AdaBoost 6種算法的診斷預(yù)測模型。在訓(xùn)練集中,SVM、RF、NBM、XGBoost、AdaBoost 5種模型均具有十分優(yōu)秀的表現(xiàn),各個(gè)指標(biāo)得分均高于0.9,KNN模型表現(xiàn)略微遜色(見表5)。根據(jù)圖7的ROC曲線圖可知,各個(gè)模型均具有極高的AUC值。
圖7 訓(xùn)練集ROC曲線Fig.7 ROC curve of training set
表5 6個(gè)模型在訓(xùn)練集中的評(píng)價(jià)指標(biāo)Table 5 Evaluation indicators of six models on training set
在含有 33個(gè)樣本的獨(dú)立測試集上對(duì)6個(gè)模型的預(yù)測性能進(jìn)行驗(yàn)證。據(jù)表6可知各個(gè)模型性能均有一定程度的下降。圖8的ROC曲線表明在獨(dú)立測試集上各個(gè)模型仍然具有較高的AUC值。綜合6個(gè)模型在訓(xùn)練集和獨(dú)立測試集上的表現(xiàn),在本研究中,研究性能最出色、魯棒性最高和泛化能力最好的模型是基于極致梯度提升算法構(gòu)建的胃癌診斷預(yù)測模型。
表6 6個(gè)模型在獨(dú)立測試集中的評(píng)價(jià)指標(biāo)Table 6 Evaluation indicators of six models on independent test set
圖8 獨(dú)立測試集ROC曲線Fig. 8 ROC curve of independent test set
通過檢索公開數(shù)據(jù)庫收集胃癌基因表達(dá)數(shù)據(jù)信息,利用生物信息學(xué)方法進(jìn)行胃癌早期診斷關(guān)鍵基因的挖掘,最終得到10個(gè)關(guān)鍵基因(CXCL11、CCR8、CXCL9、CXCL10、CXCL1、CCL20、CXCL8、CXCL6、APLN、HTR1E)。
Wang H等[22]通過多種生物信息學(xué)分析方法發(fā)現(xiàn)CXCL11與胃癌腫瘤免疫浸潤顯著相關(guān),其高表達(dá)可以作為胃癌預(yù)后和腫瘤浸潤的潛在生物標(biāo)志物,為EBVaGC的免疫治療提供了新視角。Jie Yi等[23]對(duì)TCGA數(shù)據(jù)庫中正常組織及胃癌組織數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,結(jié)果表明CCR8在胃癌組織中表達(dá)上調(diào),并與胃癌患者的不良生存相關(guān)。Zhang C等[24]探索胃癌中程序性死亡配體 1(PD-L1)相關(guān)基因,體外實(shí)驗(yàn)驗(yàn)證闡明CXCL9/10/11-CXCR3 通過激活胃癌細(xì)胞中的 STAT 和 PI3K-Akt 信號(hào)通路上調(diào) PD-L1 的表達(dá)。Chen X等[25]利用qPCR分析胃癌標(biāo)本中CXCL1和CXCL8的表達(dá),認(rèn)為CXCL1 和 CXCL8通過與受體CXCR2結(jié)合協(xié)同參與胃癌細(xì)胞增殖、凋亡和遷移過程。相關(guān)臨床數(shù)據(jù)表明CXCL1和CXCL8的低表達(dá)與胃癌不良預(yù)后的特征顯著相關(guān),包括AFP水平、腫瘤大小和TNM分期。Chen X等[26]還通過研究CXCL家族與胃癌發(fā)展的關(guān)系,結(jié)論表明CXCL6梯度與B細(xì)胞的絕對(duì)數(shù)相關(guān),CXCL家族在胃癌的發(fā)病機(jī)制中具有重要作用,可以作為胃癌發(fā)展的標(biāo)志物。
幽門螺桿菌感染相關(guān)的慢性炎癥是胃癌的主要原因,Yin H等[27]利用TCGA和GEO 數(shù)據(jù)庫,分析識(shí)別到CCL20為幽門螺桿菌感染相關(guān)的胃癌關(guān)鍵差異表達(dá)基因。Feng M等[28]采集270名胃癌患者的腫瘤樣本和匹配的相鄰正常組織,其研究數(shù)據(jù)表明APLN的表達(dá)水平和腫瘤分化、淋巴結(jié)和遠(yuǎn)處轉(zhuǎn)移密切相關(guān),可以用作評(píng)估臨床特征和預(yù)測胃癌患者的預(yù)后的標(biāo)志。腹膜轉(zhuǎn)移(PM)是胃癌治療手術(shù)最常見的失敗原因之一,Zhang J等[29]利用差異分析識(shí)別到HTR1E為高風(fēng)險(xiǎn)PM患者的關(guān)鍵基因。
Alberto等[30]通過研究從32名胃癌患者的冰凍腫瘤樣本獲得的基因表達(dá)譜數(shù)據(jù),利用方差分析和差異表達(dá)分析等方法,得到了3個(gè)與淋巴結(jié)轉(zhuǎn)移風(fēng)險(xiǎn)較高的胃癌關(guān)鍵基因(Bik、aurorakinaseB和eIF5A2)。基于關(guān)鍵基因建立邏輯回歸診斷預(yù)測模型用于預(yù)測淋巴結(jié)狀態(tài),該模型正確預(yù)測出32例胃癌患者中30例淋巴結(jié)狀態(tài),模型準(zhǔn)確率為93.75%。該胃癌診斷預(yù)測模型為極致梯度提升診斷預(yù)測模型,其在訓(xùn)練集和獨(dú)立測試集準(zhǔn)確率分別為96.78%和93.94%,具有較好的預(yù)測效果。
通過生物信息學(xué)方法挖掘了胃癌早期診斷的10個(gè)關(guān)鍵基因,利用MedCalc軟件分析可知,該10個(gè)關(guān)鍵基因?qū)φ颖竞臀赴┰缙跇颖揪哂休^高的分類識(shí)別能力,可以作為早期胃癌診斷及研究的靶點(diǎn)。
本文特色之處在于基于關(guān)鍵基因的表達(dá)數(shù)據(jù),通過分析多種機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)了診斷預(yù)測模型的構(gòu)建,并最終選擇了XGBoost診斷預(yù)測模型為最優(yōu)模型。該模型在訓(xùn)練集和獨(dú)立測試集上的具有最好的綜合性能,可以作為一種無創(chuàng)性檢查早期胃癌的手段,具有良好的應(yīng)用前景。通過篩選關(guān)鍵基因構(gòu)建了早期胃癌診斷預(yù)測模型,為提高胃癌早期診斷的研究提供了新的思路和方法。本研究不足之處在于對(duì)胃癌發(fā)生機(jī)制的研究不夠深入全面,轉(zhuǎn)錄組學(xué)數(shù)據(jù)的分析并不能完全闡釋機(jī)體總體變化;此外,本文研究內(nèi)容僅為生物信息學(xué)診斷預(yù)測層面,缺少體內(nèi)或體外實(shí)驗(yàn)支撐。在后續(xù)研究中,要加強(qiáng)與生物實(shí)驗(yàn)相結(jié)合,開發(fā)出更加實(shí)用、更加準(zhǔn)確地胃癌早期診斷預(yù)測模型。