上海交通大學基礎(chǔ)醫(yī)學院醫(yī)藥生物信息學中心,上海 200025
食管鱗狀細胞癌(esophageal squamous cell carcinoma,ESCC)是一種常見的惡性腫瘤,具有較高的發(fā)病率和死亡率。臨床上,該疾病僅在出現(xiàn)某些癥狀后才能被確診,且預后較差。因此,理解ESCC的發(fā)生機制、探尋其早期檢測的生物標志物并開展靶向藥物預測對于該疾病的診斷及治療十分重要。目前,傳統(tǒng)藥物因存在選擇性差、毒副作用強、易產(chǎn)生耐藥性等問題,使得其臨床應用效果不佳。近年來,變構(gòu)藥物因毒性弱、選擇性好等特點引起了越來越多研究者的關(guān)注,但針對其變構(gòu)位點的研發(fā)僅借助實驗手段則未能獲得較好的結(jié)果。因此,本研究擬通過生物信息學的方法對變構(gòu)位點進行預測。然而,以往針對ESCC的生物信息學分析存在數(shù)據(jù)集單一、數(shù)據(jù)樣本量少等問題,且很少就其分析結(jié)果開展靶向藥物預測等更深入的研究?;诖?,本研究以基因表達綜合數(shù)據(jù)庫(Gene Expression Omnibus,GEO,https://www.ncbi.nlm.nih.gov/geo)下載的數(shù)據(jù)集為材料進行生物信息學分析,篩選出與ESCC發(fā)生密切相關(guān)的關(guān)鍵基因,并對該關(guān)鍵基因做進一步的靶向藥物預測,從而識別其潛在的變構(gòu)位點,為ESCC的靶向藥物研發(fā)提供一定的參考。
GEO是存儲高通量基因表達數(shù)據(jù)、芯片和微陣列的一個公共數(shù)據(jù)庫,隸屬于美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)[2]。本研究從GEO中下載獲得2個數(shù)據(jù)集GSE38129、GSE20347,其均來自人類ESCC組織與正常組織的mRNA陣列。GSE38129共包含60組樣本,30組為正常組織,其余30組為ESCC組織。GSE20347共包含34組樣本,17組為正常組織,其余17組為ESCC組織。
使用R語言limma包篩選2個數(shù)據(jù)集中正常組織和ESCC組織的差異表達基因(differentially expressed genes,DEGs)?;虮磉_的差異用P值和差異倍數(shù)(fold change,F(xiàn)C)的對數(shù)(logFC)表示。P<0.05表示差異具有統(tǒng)計學意義。本研究將P<0.05且|logFC|>1的基因視為DEGs。
使用在線數(shù)據(jù)庫STRING(https://string-db.org)對組織中蛋白質(zhì)間的相互作用進行分析,構(gòu)建DEGs的蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡。采用Cytoscape軟件對PPI網(wǎng)絡進行可視化分析,并使用Cytoscape的MCODE插件對PPI網(wǎng)絡進行密集度分析,篩選出最顯著的模塊[3-4]。隨后,使用Cytoscape的CytoHubba插件,用最大團中心性(maximal clique centrality,MCC)方法根據(jù)打分值的高低篩選出排名前20的關(guān)鍵基因[5],用于后續(xù)開展進一步的靶向藥物預測。
用R語 言clusterProfiler包 對DEGs做GO(Gene Ontology) 和 KEGG(Kyoto Encyclopedia of Genes and Genomes)功能富集[6],分析其涉及的相關(guān)通路,富集分析的結(jié)果以參數(shù)P<0.05作為入選標準。
AlloSitePro(http://mdl.shsmu.edu.cn/AST/)是一種基于口袋特征和微擾模型來預測蛋白變構(gòu)位點的在線網(wǎng)站,亦是一種便攜的變構(gòu)工具,可為不同蛋白質(zhì)及感興趣的復合物中的各種變構(gòu)效應研究提供幫助[7]。本研究使用AlloSitePro預測蛋白的潛在變構(gòu)位點,而后使用Schrodinger軟件對篩選得到的變構(gòu)位點進行小分子虛擬篩選,以獲得能夠結(jié)合在變構(gòu)位點上的小分子化合物,實現(xiàn)對基于結(jié)構(gòu)的變構(gòu)藥物設(shè)計的靶向預測。
本研究運用R語言對數(shù)據(jù)集GSE38129、GSE20347的DEGs進行篩選,結(jié)果顯示,前者共篩選出785條DEGs,后者共篩選出1 061條DEGs;2個數(shù)據(jù)集共有670條相同的DEGs,其中342條為下調(diào)基因、328條為上調(diào)基因 (圖1)。
圖1 2個數(shù)據(jù)集的DEGs的Venn圖Fig 1 Venn diagram of DEGs in the two datasets
本研究通過將DEGs輸入數(shù)據(jù)庫STRING,構(gòu)建PPI網(wǎng)絡;并用Cytoscape的MCODE插件對PPI網(wǎng)絡進行分組,形成多個模塊,最終篩選出最顯著模塊(即評分最高模塊)基因。隨后,運用Cytoscape的CytoHubba插件對PPI網(wǎng)絡進行分析,即使用MCC方法篩選出排名前20的DEGs,記為關(guān)鍵基因;通過觀察關(guān)鍵基因在2個數(shù)據(jù)集的熱圖發(fā)現(xiàn),其在癌癥組織的表達量均有所上調(diào)(圖 2)。
圖2 最顯著模塊基因的PPI網(wǎng)絡和關(guān)鍵基因的PPI網(wǎng)絡及熱圖分析Fig 2 Analysis of the PPI network of the most prominent module genes and the PPI network and the heatmaps of key genes
本研究使用GO富集分析,以P<0.05作為閾值,發(fā)現(xiàn)DEGs富集于細胞外結(jié)構(gòu)的組織、細胞外基質(zhì)的組織、有絲核分裂、核分裂等通路;最顯著模塊基因的GO富集分析主要富集到有絲核分裂、細胞器裂變、染色體隔離等通路(圖3)。同時,我們使用KEGG對DEGs進行富集分析,結(jié)果發(fā)現(xiàn)主要富集于細胞周期、ECM-受體相互作用、p53信號通路、IL-17信號通路、DNA復制等通路;最顯著模塊基因的KEGG富集分析主要富集到以下通路,包括細胞周期、p53信號通路、DNA復制(圖4)。
圖3 DEGs及PPI網(wǎng)絡最顯著模塊基因的GO富集分析Fig 3 GO enrichment analysis of DEGs and the most prominent module genes in PPI network
圖4 DEGs及PPI網(wǎng)絡最顯著模塊基因的KEGG富集分析Fig 4 KEGG enrichment analysis of DEGs and the most prominent module genes in PPI network
GO和KEGG富集分析的結(jié)果顯示,PBK是與細胞周期通路相關(guān)的基因。在ESCC中過表達的PBK可能促進腫瘤細胞增殖,導致ESCC患者生存率下降,被認為是ESCC潛在的治療靶點[8];同時,PBK在其他癌癥如肺癌、乳腺癌、膀胱癌等多種類型癌癥中的表達均有上調(diào)[9-12]。PBK既屬于最顯著模塊中的基因,又屬于關(guān)鍵基因,GO和KEGG富集分析的結(jié)果顯示PBK被富集到了細胞周期等與癌癥相關(guān)的通路,且通過觀察熱圖發(fā)現(xiàn)PBK在2個數(shù)據(jù)集中表達量均上調(diào);繼而推斷,PBK在ESCC的發(fā)生、發(fā)展中發(fā)揮著重要的作用。
本文選取AlloSitePro預測結(jié)果中打分最高的變構(gòu)位點進行基于分子對接的虛擬篩選,圖5顯示了PBK的活性位點及預測的潛在變構(gòu)位點。
圖5 PBK的活性位點及由AlloSitePro預測的潛在變構(gòu)位點Fig 5 Active site of PBK and potential allosteric site predicted by AlloSitePro
本研究用Schrodinger軟件的Glide模塊獲取了打分最高的100個化合物,其中化合物1(Compound 1)打分為-7.05分,結(jié)構(gòu)如圖6A所示。我們利用PLIP(proteinligand interaction profiler)軟件[13]分析化合物的結(jié)合模式發(fā)現(xiàn),該化合物甲氧基上的氧可以與殘基K169的側(cè)鏈形成氫鍵,嘧啶二酮上的羰基可以與殘基E210的主鏈形成氫鍵;同時,該化合物的苯環(huán)和正丙基可以與殘基T209、I207的側(cè)鏈形成疏水作用(圖6B)。因此,通過上述相互作用的研究表明,Compound 1可能與PBK的潛在變構(gòu)位點靶向結(jié)合,是一種潛在的靶向PBK的變構(gòu)藥物。
圖6 潛在變構(gòu)化合物及其與PBK的疏水作用Fig 6 Potential allosteric compound and its hydrophobic interaction with PBK
在過去的幾十年里,微陣列技術(shù)和生物信息學分析被廣泛應用于基因突變篩查、腫瘤發(fā)生的相關(guān)基因及通路研究以及治療靶點的篩選等。本研究通過對GEO數(shù)據(jù)集GSE38129、GSE20347進行分析,篩選出670條DEGs;其中包含基質(zhì)金屬蛋白酶3(matrix metalloproteinase 3,MMP3)、MMP9、MMP13、MYBL2(MYB proto-oncogene like 2)、COL11A1(collagen type Ⅺ alpha 1 chain)、CHEK1(checkpoint kinase 1)等,在ESCC發(fā)生與發(fā)展中扮演著重要角色。研究[14]顯示,MMP3、MMP9和MMP13在腫瘤的侵襲轉(zhuǎn)移中起著關(guān)鍵作用。MYBL2是ESCC的一個重要致癌基因,可以促進細胞的增殖和轉(zhuǎn)移[15]。COL11A1可通過ECM-受體相互作用通路參與ESCC的發(fā)生與發(fā)展,可作為治療ESCC的靶基因。CHEK1(又名CHK1)是細胞周期的關(guān)鍵檢查點[16],在卵巢癌、肺癌等多種癌癥中過度表達,被認為是癌癥治療的潛在目標[17-18]。
對DEGs的GO和KEGG富集分析結(jié)果顯示,前者主要富集到細胞外結(jié)構(gòu)的組織、細胞外基質(zhì)的組織、有絲核分裂、核分裂等通路,后者則主要富集到細胞周期、 ECM-受體相互作用、p53信號通路、IL-17信號通路、DNA復制等通路。研究[19]顯示,IL-17A(IL-17)信號通路可促進腫瘤的進展。細胞周期是細胞進行分裂和復制的過程,與細胞的增殖密切相關(guān),不受控制的細胞增殖是癌癥的特征之一[20]。對DEGs構(gòu)建PPI網(wǎng)絡,用Cytoscape的MCODE插件對PPI網(wǎng)絡進行分組,篩選出最顯著模塊基因,再用Cytoscape的CytoHubba插件篩選出20條關(guān)鍵基因。其中,PBK既屬于最顯著模塊基因又屬于關(guān)鍵基因。通過對GO和KEGG富集分析做進一步分析顯示,PBK與細胞周期等與癌癥相關(guān)的通路有關(guān),且PBK在2個數(shù)據(jù)集中的表達量均上調(diào)。隨后,本研究采用AlloSitePro算法對關(guān)鍵基因PBK的蛋白表面潛在變構(gòu)位點進行預測并就化合物進行虛擬篩選,結(jié)果顯示獲得了潛在靶向PBK的變構(gòu)分子Compoud 1,為ESCC的靶向治療提供了新的思路。
綜上所述,本研究采用生物信息學的分析方法對在ESCC組織和正常組織的基因表達譜進行篩選,發(fā)現(xiàn)了可能參與ESCC發(fā)生與發(fā)展的DEGs;隨后,對該基因進行功能富集分析和蛋白互助網(wǎng)絡分析,揭示出一些可能參與ESCC發(fā)病機制的富集通路和關(guān)鍵基因;并通過對關(guān)鍵基因的潛在靶向藥物進行預測,實現(xiàn)對開發(fā)治療ESCC藥物的進一步探索。由于本研究僅進行了生物信息學分析而并未對分析結(jié)果開展試驗驗證,因此在未來的工作中可能需要通過擴大樣本數(shù)量、開展進一步的試驗來驗證我們的推測。通過對GEO數(shù)據(jù)集的生物信息學分析我們發(fā)現(xiàn),本研究結(jié)果或?qū)镋SCC腫瘤發(fā)生機制的探索提供一定的幫助,關(guān)鍵基因的發(fā)現(xiàn)亦可能作為潛在的生物標志物用于臨床ESCC的診斷與治療。