(青島大學基礎(chǔ)醫(yī)學院病原生物學教研室,山東 青島 266071)
截至2020年7月12日,新型冠狀病毒肺炎(COVID-19)已造成216個國家和地區(qū)1 275萬人感染,死亡人數(shù)達到近57萬人[1]。嚴重急性呼吸綜合征冠狀病毒2(SARS-CoV-2)與SARS-CoV和中東呼吸綜合征相關(guān)冠狀病毒(MERS-CoV)同屬于尼多病毒目冠狀病毒科[2],病毒顆粒的大小為60~220 nm,呈球形或多形性,有包膜,表面有棒狀凸起。
世界各國正積極研發(fā)新冠病毒疫苗,目前已經(jīng)有100多種疫苗進入臨床前評估,23種候選疫苗正在進行臨床評估[3],但是目前對于新型冠狀病毒的Th細胞表位的疫苗研究較少。SARS-CoV-2基因組全長30 000 bp[4-5],與SARS-CoV和MERS-CoV的同源性分別為79%和50%[6],SARS-CoV-2的5′端前2/3序列編碼RNA復制酶蛋白,后1/3序列編碼結(jié)構(gòu)蛋白,該結(jié)構(gòu)蛋白包括刺突蛋白(S蛋白)、包膜蛋白(E蛋白)、膜蛋白(M蛋白)和核衣殼蛋白(N蛋白)。其中S蛋白是Ⅰ型膜糖蛋白,是由兩個亞基構(gòu)成,前端合成S1亞基(氨基酸殘基位置16~686),是激發(fā)機體產(chǎn)生中和抗體的主要蛋白[7],蛋白氨基酸后1/2部分為S2亞基;E蛋白是冠狀病毒中最小的結(jié)構(gòu)蛋白,主要參與病毒包膜的形成以及核衣殼的裝配;M蛋白是Ⅲ型糖蛋白,在包膜形成中發(fā)揮重要作用;N蛋白是一種磷酸化蛋白,位于病毒粒子的核心部分,主要參與病毒的復制和翻譯過程。體液免疫和細胞免疫具有抗SARS-CoV-2感染的作用,其中Th細胞在體液和細胞免疫激發(fā)過程中均發(fā)揮重要作用。有研究表明,嚴重急性呼吸綜合征(SARS)患者恢復期外周血單個核細胞對結(jié)構(gòu)蛋白的T細胞反應是最強的,同時T細胞應答的強弱與產(chǎn)生中和抗體的多少密切相關(guān)[8]。本研究的目的是采用生物信息學方法預測比較SARS-CoV以及SARS-CoV-2的結(jié)構(gòu)蛋白可能包含的輔助性T細胞(Th細胞)抗原表位,為尋找SARS-CoV-2疫苗設(shè)計的潛在靶點提供幫助。
在美國國家生物技術(shù)信息中心(NCBI)的GenBank數(shù)據(jù)庫中檢索2種具有代表性的SARS-CoV(GenBank_NC_004718.3)和SARA-CoV-2(GenBank_NC_045512.2)的參考序列,得到這2種病毒的4種結(jié)構(gòu)蛋白S蛋白、E蛋白、M蛋白和N蛋白及其對應的氨基酸參考序列。
采用MEGA7軟件中Clustal W序列對比的方法分析以上4種結(jié)構(gòu)蛋白氨基酸序列的相似度,以GeneDoc軟件呈現(xiàn)對比的結(jié)果。使用SYFPEITHI(http://www.syfpeithi.de/bin/MHCServer.dll/EpitopePrediction.htm)、IEDB(http://www.iedb.org/)、NetMHCIIpan(https://services.healthtech.dtu.dk/service.php?NetMHCIIpan-3.2)3個在線工具,預測2種病毒各自可能的Th細胞表位。各工具篩選標準設(shè)定為:SYFPEITHI評分>20,IEDB rank<1.00,NetMHCIIpan rank<10,每個工具的表位肽的長度設(shè)定為15個氨基酸,其余設(shè)置均為默認值。選取3個軟件預測結(jié)果的交集獲得2種病毒各自潛在的Th細胞表位,并將所得到的所有潛在Th細胞表位進行對比,得到蛋白高度同源(MHC-Ⅱ類分子限制性相同但氨基酸有1~3個突變)或完全同源(包括MHC-Ⅱ類分子限制性和氨基酸序列均完全一致)的抗原表位。采用ProtScale(https:// web.expasy.org/protscale/)在線分析軟件和Origin繪圖軟件將含有完全及高度同源序列的蛋白質(zhì)進行疏水性曲線對比分析,確定2種病毒相對應蛋白質(zhì)極性有無差異。
MEGA7和GeneDoc軟件分析S、E、M、N 4種結(jié)構(gòu)蛋白氨基酸序列的結(jié)果顯示,在SARS-CoV-2中,與宿主細胞受體結(jié)合的S蛋白氨基酸序列最長,為1 273個氨基酸;SARS-CoV-2、SARS-CoV的S蛋白氨基酸序列相似性一般,一致度為75%,變異多位于前1/2的S1亞基部分;SARS-CoV-2中E蛋白氨基酸序列最短,為75個氨基酸,但保守程度最高,2種病毒的一致度為94%;SARS-CoV-2的M蛋白與N蛋白長度分別為222以及419個氨基酸,與SARS-CoV的一致度均為90%。
通過SYFPEITHI、IEDB、NetMHCIIpan 3種在線工具篩選得到SARS-CoV-2可能的Th細胞表位22個,其中12、3、4、3個表位分別位于S、E、M、N蛋白中。見表1。SARS-CoV可能的Th細胞表位25個,16、3、5、1個表位分別位于S、E、M和N蛋白中。見表2。對所得Th細胞表位的氨基酸位置進行分析,結(jié)果顯示,2種病毒的S蛋白中預測到的Th細胞表位序列多數(shù)位于S1亞基結(jié)構(gòu)上(SARS-CoV-2有7個,SARS-CoV有11個);對其MHC-Ⅱ類分子限制性進行分析,2種病毒集中的MHC-Ⅱ類分子等位基因有所不同,SARS-CoV-2多位于HLA-DRB1*01:01等位基因上(7個),而SARS-CoV多分布于HLA-DRB1*01:01和HLA-DRB1*04:01等位基因上(每個均有8個表位)。
對2種病毒預測的Th細胞表位氨基酸序列進一步分析,得到SARS-CoV-2與SARS-CoV完全同源或高度同源的Th細胞表位(表3),其中完全同源的表位有2個,全部位于E蛋白上,氨基酸位置是28~42、25~39,高度同源的表位有6個,其中4個位于M蛋白上,E蛋白和N蛋白上各1個。在高度同源表位序列中,從位置分析,突變的位點多發(fā)生在14和15位氨基酸上,只有1個突變位于多肽序列的核心位置上,且表位核心序列中“錨點”(即1、4、6、7、9位)的氨基酸沒有發(fā)生突變。從突變類型分析,突變的氨基酸多發(fā)生在纈氨酸(變?yōu)楫惲涟彼?和甘氨酸(變?yōu)楸彼?上,突變數(shù)量分別為4、3個。利用ProtScale軟件對蛋白進行疏水性曲線對比分析顯示,突變前后氨基酸類型均為非極性的疏水性氨基酸,如圖1所示,多肽鏈的極性基本沒有發(fā)生改變。
表2 SARS-CoV 潛在的Th細胞表位
表3 SARS-CoV-2與SARS-CoV一致或高度一致Th細胞表位
A~C分別為E、M和N蛋白
SARS-CoV是目前冠狀病毒中研究最為深入的一種病毒,也因此提升了對整個冠狀病毒的流行病學、免疫學以及分子生物學等的認識,新發(fā)現(xiàn)的SARS-CoV-2與之具有高度的同源性,因此既往關(guān)于SARS-CoV的研究成果為SARS-CoV-2研究提供了一定的幫助和借鑒。SARS-CoV-2是繼2003年SARS-CoV出現(xiàn)后第三個在世界上造成區(qū)域內(nèi)大范圍流行的冠狀病毒,與之前SARS-CoV相比,SARS-CoV-2傳染性更強,在全球蔓延的范圍更廣,持續(xù)的時間更長,造成的經(jīng)濟損失更大[9-10]。目前仍沒有針對SARS-CoV-2預防和治療的特效藥,相關(guān)病毒疫苗的研制是各國研究的重點,疫苗種類包括但不限于滅活疫苗、減毒活疫苗、病毒載體疫苗、核酸疫苗、蛋白質(zhì)疫苗等[11]。有研究表明,保守性抗原表位是疫苗設(shè)計的有效靶標[12],隨著免疫信息學的發(fā)展,與傳統(tǒng)疫苗設(shè)計相比,表位疫苗可以大大減少研究的成本和時間,具有更突出的優(yōu)勢,逐漸成為疫苗研究的熱點[13]。
Th細胞表位是在免疫應答過程中能夠被Th細胞表面受體(TCR)特異性識別的一類外源性抗原肽,在適應性免疫應答中發(fā)揮重要作用。被抗原激活的Th細胞一方面分泌細胞因子增強細胞介導的抗感染免疫,另一方面輔助B細胞活化,促進B細胞的增殖、分化和抗體生成[14]。LI等[8]在2008年的研究表明,在SARS-CoV中,與非結(jié)構(gòu)蛋白相比,棘突、膜和包膜等結(jié)構(gòu)蛋白對T細胞的免疫原性最強。Th細胞表位的產(chǎn)生有3個關(guān)鍵過程:抗原提呈細胞(APC)識別、胞內(nèi)加工處理、MHC-Ⅱ類分子復合物提呈。由于外源性抗原肽的處理及遞呈機制研究尚不明確,Th細胞表位的生物信息學研究主要是關(guān)于MHC-Ⅱ類分子親和肽的預測,但目前疫苗研究的重點蛋白主要在S蛋白,且多數(shù)研究關(guān)注在B細胞表位,對Th細胞表位的研究較少。
S蛋白是SARS-CoV-2結(jié)構(gòu)蛋白中最大的蛋白,其中S1亞基較易突變,而S2亞基的保守性較高。S蛋白的主要作用是與宿主細胞膜融合,介導病毒吸附。同時S蛋白也在誘導中和抗體和T細胞反應以及保護性免疫中起關(guān)鍵作用[15],是目前病毒疫苗研究最受關(guān)注的蛋白。然而本研究表明,SARS-CoV-2與SARS-CoV的S蛋白Th細胞表位差異較大,分析其原因,一方面是由于生物信息學研究方法及技術(shù)本身存在不足,另一方面可能是由于S蛋白氨基酸突變位點較多或MHC-Ⅱ類分子限制性方面存在差異。
E蛋白是病毒結(jié)構(gòu)蛋白中分子量最小的蛋白,同時是結(jié)構(gòu)蛋白中保守性最強的蛋白質(zhì),屬五聚體跨膜整合蛋白,主要作用是在內(nèi)質(zhì)網(wǎng)、高爾基體膜上形成離子通道,參與子代病毒的組裝與釋放[16-17]。最近的研究表明,E蛋白有促進機體炎癥反應的作用,可作為抗病毒藥物設(shè)計靶點,同時SARS-CoV的E蛋白突變的減毒株有望成為候選疫苗[18-19]。本研究中,完全相同表位均位于E蛋白上,推測其成為候選疫苗表位的潛力較大。
截至2020年9月,NCBI中GenBank數(shù)據(jù)庫僅確認1條參考SARS-CoV-2序列,大部分研究以此序列為標準。本研究即以此參考序列作為參照選取了2種病毒的4個結(jié)構(gòu)蛋白的氨基酸序列,利用序列對比軟件Clustal W比較同源性。使用SYFPEITHI、IEDB、NetMHCIIpan 3個基于不同算法的MHC-Ⅱ類分子親和肽的預測在線預測工具,取3個工具預測結(jié)果的交集以提高預測準確性。這3種在線預測工具均包含6個MHC-Ⅱ類分子等位基因[20],分別為HLA-DRB1*01:01、HLA-DRB1*03:01、HLA-DRB1*04:01、HLA-DRB1*07:01、HLA-DRB1*11:01、HLA-DRB1*15:01,覆蓋了約35.15%的中國群體。分析結(jié)果顯示N、M和E蛋白同源性較高,而S蛋白同源性一般。利用在線預測軟件對2種病毒結(jié)構(gòu)蛋白可能的Th細胞表位進行預測并對比分析,獲得了8對完全同源或高度同源表位。氨基酸的疏水性可反映蛋白質(zhì)的二級結(jié)構(gòu),提示潛在的跨膜區(qū)域,并且在保持蛋白質(zhì)的三級結(jié)構(gòu)上起重要作用[21],對具有完全同源或高度同源表位的3對蛋白進行疏水性分析發(fā)現(xiàn),突變的氨基酸位點親疏水性有變化,但對整體蛋白質(zhì)的疏水性趨勢影響不大。
綜上所述,本研究采用生物信息學方法分析比較SARS-CoV和SARS-CoV-2結(jié)構(gòu)蛋白的潛在Th細胞表位,綜合分析得到8對完全同源或高度同源表位,為開發(fā)新型冠狀病毒疫苗及其相關(guān)研究提供了基礎(chǔ),但是否可以誘導機體發(fā)生特異性的細胞和體液免疫,還需進一步的實驗研究證實。