吳寶杰,錫書毅
(上海澤潤生物科技有限公司,上海 201203)
嚴重急性呼吸系統(tǒng)綜合征冠狀病毒2(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)感染是導致新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)大流行的原因[1],其以血管緊張素轉(zhuǎn)換酶2為受體[2],侵入宿主呼吸系統(tǒng)和消化系統(tǒng),侵襲宿主細胞[3-4],具有較強的感染性和致病性[5]。相關研究表明,COVID-19患者需克服細胞因子風暴引起的急性呼吸窘迫綜合征和多臟器衰竭[6-7],在易感染人群中,癌癥患者罹患COVID-19的概率更高,感染后病死率更高[8],因此,預防與治療癌癥患者感染SARS-CoV-2的策略備受關注。2020年1月至今,SARS-CoV-2在全球范圍內(nèi)傳播,各國時刻面臨著病毒變異、病毒感染與傳播能力增強的風險[9-12],需探索高效的SARS-CoV-2篩查技術,迅速推進SARS-CoV-2疫苗量產(chǎn)供應[13-14]。為了控制COVID-19大流行,需要對SARS-CoV-2的感染機制和致病機制進行深入研究,包括病毒結構、病毒感染的免疫逃逸、細胞因子風暴的影響、相關分子的相互作用、相關信號轉(zhuǎn)導和代謝途徑、相關生物靶點的預測與驗證以及病毒感染篩查等方面。迄今為止,罕有促SARS-CoV-2感染的相關差異表達基因(differentially expressed genes,DEGs)及其功能的相關研究報道,SARS-CoV-2感染涉及眾多DEGs的表達、分子間相互作用和復雜的信號通路,研究并獲得促SARS-CoV-2感染關鍵基因?qū)︻A防病毒感染具有重要意義。本研究主要探索分析促新型冠狀病毒感染的相關差異表達基因及其功能,為控制并阻斷SARS-CoV-2的感染與傳播提新思路。
1.1獲取數(shù)據(jù)集 在美國國立生物中心(National Center for Biotechnology Information,NCBI)的NCBI-GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/)中檢索并下載與SARS-CoV-2感染相關的基因表達譜芯片數(shù)據(jù)。檢索式:("Severe acute respiratory syndrome coronavirus 2"[Organism] OR SARS-CoV-2[All Fields]) AND "Expression profiling by array"[Filter],選用GSE156544數(shù)據(jù)集進行分析[15-16]。GSE156544數(shù)據(jù)集由Hans-Joachim Mollenkopf提供(the Max-Planck-Institute for Infection Biology,Microarray/Genomics Core Facility)。
1.2DEGs的篩選 采用GEO2R工具對GSE156544數(shù)據(jù)集進行分析,根據(jù)是否為SARS-CoV-2感染致病分為未感染組和感染致病組,進行數(shù)據(jù)分類和差異表達分析(Padj<0.05),篩選獲得促SARS-CoV-2感染的DEGs。
1.3富集分析及蛋白-蛋白相互作用(protein-protein interaction,PPI)網(wǎng)絡構建 根據(jù)已獲得的DEGs信息,采用注釋、可視化和集成發(fā)現(xiàn)的數(shù)據(jù)庫[17](the database for annotation,visualization and integrated discovery,DAVID)(https://david.ncifcrf.gov/)進行基因本體論(gene ontology,GO)和京都基因與基因組百科全書[18](Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析。再通過STRING數(shù)據(jù)庫[19](https://string-db.org/)分析分子互作網(wǎng)絡,驗證富集功能(包括生物過程、細胞成分、分子功能、信號通路等),構建促SARS-CoV-2感染的PPI網(wǎng)絡。
1.4關鍵子網(wǎng)絡篩選及hub基因的功能注釋 基于PPI網(wǎng)絡分析篩選關鍵子網(wǎng)絡。使用Cytoscape3.8.2軟件進一步對hub基因進行分析和信息挖掘[20-21]。同時,結合NCBI-Gene和STRING數(shù)據(jù)庫注釋相關基因的功能。使用GEPIA2數(shù)據(jù)庫[22](http://gepia2.cancer-pku.cn/)分析hub基因在多種類型腫瘤中的表達情況。
2.1DEGs的篩選 基于GSE156544數(shù)據(jù)集,通過GEO2R分析,設置樣本分組,進行DEGs的篩選,共獲得59個DEGs(P<0.05),包含37個上調(diào)DEGs和22個下調(diào)DEGs。見圖1。
2.2富集分析 根據(jù)DEGs分析結果進行DAVID富集分析,GO/KEGG富集分析結果顯示,59個DEGs顯著富集于1個KEGG通路(hsa04512,P<0.01),1個生物學過程(GO:0007263,P<0.05),1個分子功能(GO:0008307,P<0.05)。見表1。
注:SARS-CoV-2為嚴重急性呼吸系統(tǒng)綜合征冠狀病毒2,DEGs為差異表達基因
表1 GO/KEGG富集分析
2.3分子相互作用分析及PPI網(wǎng)絡構建 采用STRING數(shù)據(jù)庫分析DEGs的蛋白交互作用網(wǎng)絡關系(隱藏單獨沒有連接的節(jié)點,交互分析設置highest confidence 0.900,1st shell no more than 20 interactors),分子互作模型見圖2,該交互作用網(wǎng)絡中的功能富集結果包括25個生物過程(表2)、21個細胞成分(表3)與8個分子功能(表4),涉及2個KEGG通路(hsa03008:真核生物核糖體的生物合成通路、hsa04512:ECM受體相互作用通路),4個Reactome通路(hsa-6790901:細胞核和細胞質(zhì)中的核糖體RNA(ribosomal RNA,rRNA)修飾通路、hsa-8868773:rRNA在細胞核和細胞質(zhì)中的加工通路、hsa-6791226:核仁和細胞質(zhì)中rRNA加工的主要途徑、hsa-8953854:RNA的代謝通路)和15個相關蛋白結構域。
2.4關鍵子網(wǎng)絡、hub基因的篩選及分析 基于PPI網(wǎng)絡,使用Cytoscape(MCODE插件)進行其關鍵子網(wǎng)篩選及hub基因分析,結果發(fā)現(xiàn)1個關鍵子網(wǎng),其中的基因產(chǎn)物在SARS-CoV-2感染過程中存在相互作用,共獲得21個hub基因,見圖3。同時,使用STRING和NCBI-Gene數(shù)據(jù)庫對相關基因進行功能注釋,見表5。21個hub基因在不同癌癥腫瘤組織細胞中的表達情況見圖4,NOP56、NHP2L1、FBL在不同癌癥腫瘤組織細胞中的表達分值高(>7分)。
注:SARS-CoV-2為嚴重急性呼吸系統(tǒng)綜合征冠狀病毒2,DEGs為差異表達基因,PPI為蛋白-蛋白相互作用
表2 分子相互作用網(wǎng)絡的GO富集結果(生物過程)
表3 分子相互作用網(wǎng)絡的GO富集結果(細胞成分)
續(xù)表3
表4 分子相互作用網(wǎng)絡的GO富集結果(分子功能)
注:SARS-CoV-2為嚴重急性呼吸系統(tǒng)綜合征冠狀病毒2
表5 促SARS-CoV-2感染hub基因的功能注釋
續(xù)表5
注:SARS-CoV-2為嚴重急性呼吸系統(tǒng)綜合征冠狀病毒2
COVID-19大流行對全球社會經(jīng)濟平衡和醫(yī)療體系產(chǎn)生了巨大影響,同時也促進了對SARS-CoV-2及其感染機制的深入研究,相關新型藥物干預方法和疫苗開發(fā)及量產(chǎn)策略將陸續(xù)被應用于全球疫情的控制[23]。隨著生物信息學研究及相關檢測技術的推進,許多學者對SARS-CoV-2感染過程中相關基因的表達進行了研究報道。
Ramesh等[24]研究結果表明,ELANE和LTF差異表達會導致過度的炎癥反應,即細胞因子風暴,最終導致患者死亡。Muhammad等[25]報道HSPA1L是抗病毒預防和治療的潛在靶點。Ibrahim和Ellakwa[26]研究表明,在SARS-CoV-2感染過程中類泛素化修飾、凝血、氧化應激途徑反應的基因異常調(diào)節(jié)可能是疾病進展的關鍵。George等[27]報道維生素D內(nèi)分泌系統(tǒng)失調(diào)與SARS-CoV-2感染的病理生物學有關。Fang等[28]發(fā)現(xiàn)CXC趨化因子配體8、CXC趨化因子配體10和表皮生長因子是SARS-COV-2感染過程中的關鍵基因。Chen等[29]報道SARS-CoV-2感染可引起人體細胞內(nèi)大量分子及相關信號通路的異常改變。Vastrad等[30]探討了SARS-CoV-2感染的分子機制,篩選獲得關鍵基因(TP53、HRAS、MAPK11、RELA、IKZF3、IFNAR2、SKI、TNFRSF13C、JAK1、TRAF6、KLRF2、CD1A),并發(fā)現(xiàn)SARS-CoV-2感染后DEGs主要富集在核苷酸結合寡聚化結構域樣受體信號通路、核糖體、對外界生物刺激的反應和病毒轉(zhuǎn)錄等方面,CBL、ISG15、NEDD4、PML、REL、CTNNB1、ERBB2、JUN、RPS8和STUB1基因是良好的診斷生物標志物[31]。Mishra等[32]對已知參與宿主-病毒相互作用的基因(TP53、KAT2B、DHX9、RELA、RBX1、PSMB2)進行了深入研究,加深了對病毒復制與傳播分子機制的理解。
在本研究中,來自NCBI-GEO數(shù)據(jù)庫的GSE156544數(shù)據(jù)集證明了SARS-CoV-2能夠在γ干擾素處理的腸上皮細胞中有效地完成整個生命周期,并揭示了SARS-CoV-2的感染機制:γ干擾素驅(qū)動的炎癥反應可能增加對SARS-CoV-2的易感性并促進其復制[33]。本研究通過對GSE156544進行數(shù)據(jù)挖掘,篩選獲得了與促SARS-CoV-2感染相關的DEGs,以迅速聚焦促SARS-CoV-2感染相關的生物學過程、細胞組分及分子功能,成功構建PPI網(wǎng)絡,并對促SARS-CoV-2感染關鍵基因和重要的KEGG通路進行分析,有助于揭示促病毒感染的分子機制,為后續(xù)研究提供參考。本研究KEGG通路分析結果表明,在ECM受體相互作用通路中,細胞和ECM之間的特異性相互作用是由跨膜分子介導的,這些相互作用導致細胞活動的直接或間接控制,如黏附、遷移、分化、增殖和凋亡。而核糖體是負責制造蛋白質(zhì)的細胞工廠,真核生物核糖體的生物合成通路涉及rRNA和眾多核糖體蛋白質(zhì)的產(chǎn)生和正確組裝,在缺乏核糖體生物合成必需的蛋白質(zhì)時,核糖體的生物合成便會停滯。本研究顯示,在促SARS-CoV-2感染過程中,ECM受體相互作用通路是極顯著的KEGG通路(COL6A2、LAMB4、CD36),其與真核生物核糖體的生物合成通路(FBL、TP18、MPHOSPH10、IMP4、NOP58、NOL6、IRH1A、HEATR1、DKC1、BMS1、NOP56、NHP2L1、WDR36、BL3)構成了促SARS-CoV-2感染PPI網(wǎng)絡中的關鍵通路。本研究Cytoscape-MCODE分析結果發(fā)現(xiàn)1個關鍵子網(wǎng),表明其中21個hub基因在促SARS-CoV-2感染過程中存在重要的相互作用,對rRNA及核糖體合成的深入探索可能為阻斷SARS-CoV-2的感染提供相應的分子靶點與預防策略。
文獻報道,罹患癌癥的易感人群預后較差,且感染SARS-CoV-2后癌癥患者的致死率高[8]。Liang等[34]對我國癌癥患者的SARS-CoV-2感染狀況進行了研究,結果表明癌癥患者面臨罹患COVID-19的風險較高。Miyashita等[35]對美國紐約市癌癥患者的COVID-19預后情況進行研究發(fā)現(xiàn),感染SARS-CoV-2后,癌癥患者死亡風險增加。英國冠狀病毒癌癥監(jiān)測項目團隊分析英國癌癥中心的實時數(shù)據(jù)發(fā)現(xiàn),癌癥患者SARS-COV-2感染的易感性可能增加,且后遺癥更嚴重[36]。本研究結合GEPIA2數(shù)據(jù)庫對促SARS-CoV-2感染的21個hub基因在癌癥患者(易感染群體)中的臨床價值進行評估,結果發(fā)現(xiàn)NOP56、NHP2L1、FBL在不同癌癥腫瘤組織細胞中的表達分值高,可能為感染SARS-CoV-2的不同癌癥患者的臨床預后提供潛在靶點。
綜上所述,本研究基于已報道的GSE156544數(shù)據(jù)集,綜合運用生物信息學研究方法,篩選獲得59個與SARS-CoV-2感染顯著相關的DEGs,對其進行功能富集和信號通路分析,成功構建分子互作網(wǎng)絡模型,獲得1個關鍵互作子網(wǎng)絡和21個hub基因,并對其進行了功能注釋。本研究的局限在于:①研究結果及分析受表達譜芯片數(shù)據(jù)質(zhì)量的影響,目前SARS-CoV-2的感染研究芯片數(shù)據(jù)集數(shù)目少;②單芯片數(shù)據(jù)集分析結果需要后續(xù)更多相關表達譜數(shù)據(jù)的對比分析和相關實驗研究的評價驗證。目前,全球COVID-19大流行尚未結束,需要繼續(xù)深入探索SARS-CoV-2感染機制與致病機制,促SARS-CoV-2感染的相關DEGs及功能研究將為控制SARS-CoV-2的感染與傳播提供信息支持。