王楷宬,王 通,莊青葉,邱 源,彭 程,王素春,陳繼明
(中國動物衛(wèi)生與流行病學(xué)中心,山東青島 266032)
?
習(xí)題與答案
甲型流感病毒快速分型與分析軟件的開發(fā)與試用
王楷宬,王 通,莊青葉,邱 源,彭 程,王素春,陳繼明
(中國動物衛(wèi)生與流行病學(xué)中心,山東青島 266032)
摘 要:甲型流感病毒危害動物和人類健康,其亞型多、突變率高、易發(fā)生重配,因此對其進行檢測及流行毒株基因分析尤為重要。為解決傳統(tǒng)方法進行大量甲型流感病毒序列分型和分析時存在的費工耗時、人為錯誤多等問題,結(jié)合實際工作需要,使用Perl語言建立了一套lunix系統(tǒng)下的甲型流感病毒快速分型與分析軟件,并試用其對GenBank中所有宿主為鴨的甲型流感病毒進行了分析。結(jié)果顯示,該軟件可在較短的時間內(nèi)完成大量序列的分析、分型和遺傳進化研究,可用于甲型流感病毒的大規(guī)模流行病學(xué)調(diào)查分析。
關(guān)鍵詞:甲型流感病毒;基因分析;亞型;遺傳進化
甲型流感病毒能感染多種宿主,包括家禽、豬、馬、野生鳥類和人等溫血動物。有關(guān)甲型流感流行的記錄已超過百年[1],先后造成了1918年、1957年、1968年和2009年四次全球性流感大流行,對人類的生命健康和社會生活形成了巨大威脅。對獸醫(yī)工作有重要意義的禽流感病毒也屬甲型流感病毒。在我國,有多種亞型的甲型流感病毒流行,時有導(dǎo)致動物疫情和公共衛(wèi)生事件的發(fā)生,如2013年發(fā)生的“H7N9流感事件”[2]。
甲型流感病毒屬于正黏病毒科、流感病毒屬的單股負鏈RNA病毒,其基因組由8個單股負鏈RNA片段組成[3]。其粒子表面有血凝素(Hemagglutinin,HA)和神經(jīng)氨酸酶(Neuraminidase,NA)兩種表面結(jié)構(gòu)蛋白。根據(jù)HA和NA的抗原性差異可分為18種HA亞型(H1~H18)和11種NA亞型(N1~N11)[4-6]。不同亞型甲型流感病毒的致病性和宿主嗜性等均有較大差異。低保真RNA聚合酶會引起病毒的高突變率和重組,造成病毒分子出現(xiàn)多樣性,使每個病毒亞型可變異為多種不同的分支[7]。通常一個堿基對的突變,也可引起病毒對宿主感染能力的改變[8]。由于其亞型多、突變率高、易發(fā)生重配,所以檢測并對流行毒株進行基因分析尤為重要。
通常需要使用RT-PCR方法擴增甲型流感的HA和NA基因,再通過Blast比對確定其亞型,之后再與同一亞型的其他流行毒株的序列進行遺傳演化分析,然后才能確定其分支。在對大量樣品進行檢測和分析的流行病學(xué)調(diào)查中,需要對每個病毒的亞型進行確定,還要將同一亞型的病毒序列進行分類整理和分析,導(dǎo)致效率較低。而使用MEGA 等windows系統(tǒng)下的分析軟件進行序列比對,耗時過長,且需要進行大量的人工整理與比對,造成分析結(jié)果人為錯誤的機會較多。針對這一問題,本文結(jié)合實際工作,建立了一套lunix系統(tǒng)下的甲型流感病毒快速分型與分析軟件,并試用其對Gen-Bank中宿主為鴨的所有甲型流感病毒進行了亞型和遺傳演化分析。
表1 參考序列統(tǒng)計表
1.1設(shè)備與操作系統(tǒng)
高性能計算平臺為Dell T630塔式服務(wù)器,具有 2顆 Intel(R)Xeon(R)CPU E5-2620 v3 @ 2.40GHz,內(nèi)存264 G,存儲23 T,操作系統(tǒng)版本為CentOS Linux release 7.1.1503 (Core),由中國動物衛(wèi)生與流行病學(xué)中心搭建。
1.2分析軟件構(gòu)建
1.2.1參考序列篩選。為快速準確進行甲型流感病毒的分型,從GenBank中嚴格篩選了35條甲型流感病毒序列作為參考序列,這些序列包含了甲型流感病毒的全部亞型,見表1。
1.2.2分型理論基礎(chǔ)。為對甲型流感病毒的序列進行分型解析,將其與35條參考序列進行比對。根據(jù)比對同源性,在35條參考序列中,篩選與病毒序列親緣關(guān)系最近的一條,若同時滿足閾值標(biāo)準,則該序列與此參考序列是同一基因或亞型。同時為實現(xiàn)大批量樣本分型解析,采用并行化與自動化的方式進行數(shù)據(jù)處理,將同一基因或同一亞型基因自動整合為一個文件,自動進行序列對齊與分析。本分型軟件擬通過將待分析序列(Query序列)與參考序列(Ref序列)進行BLAST(軟件版本2.2.26)比對,根據(jù)比對結(jié)果中Query序列與Ref序列的同源性進行分析,選取最優(yōu)的比對結(jié)果作為分型判定依據(jù)。由于BLAST采用局部比對的算法,因此,在同源比對過程中,兩兩序列比對結(jié)果可能會分成多個局部比對結(jié)果輸出。親緣關(guān)系較遠的序列之間由于局部具有較高相似性,也會具有較高的比對分值(E-value)與同源性值(identity),并作為一個比對結(jié)果輸出出來。但綜合考慮比對長度因素,二者之間并不存在真正的同源關(guān)系,這會給分析造成干擾,出現(xiàn)假陽性結(jié)果。新開發(fā)的這款軟件,能對兩條序列局部的比對結(jié)果進行重新計算。首先,對原始BLAST結(jié)果進行過濾,過濾掉比對長度小于50 bp,并且identity值小于50的比對(這些比對由于同源性較低,會給計算帶來干擾)。然后,通過Query序列比對到Ref序列的位置信息,將兩條序列的多個比對結(jié)果進行合并,計算Query序列與Ref序列的覆蓋比率。設(shè)定一條Query序列長度為Q(length),比對到的參考序列長度為R(length),二者之間的比對長度為L,則Query序列的覆蓋比率為Query (coverage)為:
參考序列的覆蓋比率Ref (coverage)為:
由于計算的比對長度L已經(jīng)為過濾之后滿足條件的同源比對,因此,最終計算得到的Query序列與參考序列的覆蓋比率,考慮了序列長度因素,具有更高的準確性。最終設(shè)定閾值為,當(dāng)Query (coverage)或者Ref(coverage)值大于60%時,則Query序列與Ref序列為相同的基因或亞型。
1.2.3并行化計算。一組Query序列之間是相互獨立的,每條序列需獨立與35條參考序列進行比對。因此,為提高計算效率,采用并行化處理和比對方式,將每條Query序列同時與參考序列進行BLAST比對計算,以期大大提高分析速度。
1.2.4系統(tǒng)發(fā)育樹構(gòu)建。在完成序列分型鑒定之后,將具有同一亞型的序列整合,進行系統(tǒng)發(fā)育分析。選擇MEGA-CC軟件(軟件版本 7.0.7)對同一基因或同一亞型的Query序列進行多序列比對,比對之后采用MEGA-CC對多序列比對結(jié)果進行系統(tǒng)發(fā)育樹構(gòu)建。采用并行化的處理方式,對每個基因或每個亞型的基因并行化計算。
1.2.5自動化。采用傳統(tǒng)人工方法進行數(shù)據(jù)處理,需消耗大量時間,并且產(chǎn)生人為誤差的幾率較大。新開發(fā)的自動化的數(shù)據(jù)處理軟件,在程序中加入了上文提到的并行化處理方法。該軟件能夠?qū)崿F(xiàn)從數(shù)據(jù)比對、甲型流感病毒分型和整理、結(jié)果統(tǒng)計以及系統(tǒng)發(fā)育樹等過程的自動化完成,只需將Query序列調(diào)入分析,即可完成所有數(shù)據(jù)的處理工作。
1.3GenBank中鴨源甲型流感病毒的序列分析
利用該分析軟件,從GenBank下載了25 815條宿主為鴨的甲型流感病毒序列進行軟件的驗證工作,序列詳細統(tǒng)計見表2。
表2 GenBank 中鴨源甲型流感病毒序列統(tǒng)計
2.1分析軟件構(gòu)建
按照預(yù)期設(shè)想,使用Perl語言編輯11條命令或程序,采用并行處理和自動化的方式,構(gòu)建完成甲型流感病毒分型與分析軟件。初步測試顯示其能正常運算和分析。
2.2GenBank中鴨源甲型流感病毒的序列分析
使用甲型流感病毒快速分型與分析軟件對25 815株鴨源甲型流感病毒序列進行分型,輸出結(jié)果均包含在Result文件夾中,每個基因或每個亞型基因的所有序列均整理至對應(yīng)基因名稱的文件中的一個文件,未比對到參考序列的基因歸為no_ type,統(tǒng)計信息可在stat文件中顯示。分析結(jié)果統(tǒng)計見表3,與GenBank中的序列背景材料核實均符合。軟件具體運行時間統(tǒng)計見表4。
表3 鴨源甲型流感病毒25 815株序列分型結(jié)果統(tǒng)計表
表4 軟件運行時間統(tǒng)計
圖1 HA_H12亞型多序列比對結(jié)果(部分)
分型結(jié)束之后,選取HA_H12作為代表,使用MEGA-CC軟件(軟件版本 7.0.7)進行多序列比對,并進行系統(tǒng)發(fā)育分析。多序列比對結(jié)果(部分)如圖1所示,系統(tǒng)發(fā)育樹見圖2。
圖2 HA_H12亞型系統(tǒng)發(fā)育樹
本文采用Perl語言編寫了甲型流感病毒快速分型與分析軟件,能夠用于大量甲型流感病毒基因的分析,目前國內(nèi)外均未見開發(fā)類似軟件的報道。在整個數(shù)據(jù)分析過程中,需完成Query序列與Ref序列BLAST比對、比對結(jié)果過濾、計算Query (coverage)與Ref(coverage)、分型、結(jié)果統(tǒng)計、同一亞型多序列比對,以及構(gòu)建系統(tǒng)發(fā)育樹等過程。由于使用了高性能計算機分析平臺,并且采用并行化處理方式,因此該軟件不受Query序列條數(shù)限制,可以同時計算數(shù)十萬個樣品的快速分型。
在對未知樣品測序序列進行分型過程中,需要將Query序列與已知參考序列進行同源比對,根據(jù)比對相似性進行結(jié)果判斷,進而對未知樣品進行分型鑒定。因此參考序列的選擇對于分型結(jié)果有很大的影響。如果參考序列中不存在該亞型,就無法進行分型鑒定。這里我們選擇每一亞型中已發(fā)表的具有代表性的序列作為參考序列,減少了參考序列帶來的誤差。從軟件分析結(jié)果來看,在分析GenBank中鴨感染的甲型流感病毒序列時,有34條序列未得到分析結(jié)果。分析其原因,可能由于序列長度過短(34條序列的長度為54~485 bp),其長度均小于對應(yīng)基因參考序列長度的50%。根據(jù)比對長度對BLAST結(jié)果進行過濾時,會將比對長度過短的序列過濾掉,導(dǎo)致這些序列無法進行分型和分析。但這種序列在實際應(yīng)用中屬極少數(shù),不會對軟件的分析功能造成影響。
與GenBank下載數(shù)據(jù)的分型和分析,結(jié)果顯示,該軟件可以快速、準確對甲型流感病毒進行分型、分析和遺傳進化研究,并且不具備較深生物信息學(xué)和病原學(xué)基礎(chǔ)的操作人員也可進行操作,所以該軟件能夠滿足各類動物疫病預(yù)防控制機構(gòu)和研究院所開展流感病毒的流行病學(xué)調(diào)查和遺傳變異研究,可以提高我國甲型流感的分析和應(yīng)急能力。
參考文獻:
[1]Taubenberger J K,Hultin J V,Morens D M. Discovery and characterization of the 1918 pandemic influenza virus in historical context [J]. Antivir Ther,2007,12(4 Pt B):581-591.
[2]Parry J. H7N9 avian fl u infects humans for the fi rst time [J]. BMJ,2013,346:f2151.
[3]Hoffmann E,Stech J,Guan Y,et al. Universal primer set for the full-length amplifi cation of all infl uenza A viruses [J]. Arch Virol,2001,146(12):2275-2289.
[4]Freidl G S,Binger T,Muller M A,et al. Serological evidence of infl uenza a viruses in frugivorous bats from Africa [J]. PLoS One,2015,10(5):e0127035.
[5]Tong S,Li Y,Rivailler P,et al. A distinct lineage of infl uenza A virus from bats [J]. Proc Natl Acad Sci U S A,2012,109(11):4269-4274.
[6]Tong S,Zhu X,Li Y,et al. New world bats harbor diverse infl uenza A viruses [J]. PLoS Pathog, 2013,9(10):e1003657.
[7]Ghedin E,Sengamalay N A,Shumway M,et al. Large-scale sequencing of human infl uenza reveals the dynamic nature of viral genome evolution [J]. Nature,2005,437(7062):1162-1166.
[8]Wang M Z,Tai C Y,Mendel DB. Mechanism by which mutations at his274 alter sensitivity of influenza a virus n1 neuraminidase to oseltamivir carboxylate and zanamivir [J]. Antimicrob Agents Chemother, 2002,46(12):3809-3816.
(責(zé)任編輯:朱迪國)
《中國動物檢疫》2016年重點選題策劃
中圖分類號:S858.28
文獻標(biāo)識碼:B
文章編號:1005-944X(2016)04-0080-05
DOI:10.3969/j.issn.1005-944X.2016.04.026
基金項目:科技部科技基礎(chǔ)性專項(SQ2012FY3260033);中國動物衛(wèi)生與流行病學(xué)中心創(chuàng)新基金(2015IF-0004FF)
Development and Trial Test of Rapid Typing and Analysis Software of Infl uenza A Virus
Wang Kaicheng,Wang Tong,Zhuang Qingye,Qiu Yuan,Peng Cheng,Wang Suchun,Chen Jiming
(China Animal Health and Epidemiology Center,Qingdao,Shandong 266032)
Abstract:Infl uenza A virus is harmful to animal and human health. It reveals many subtypes,high mutation rate and easily to be recombined. The detection and genes analysis of the pandemic strain seems to be particularly important. In order to solve the problems of time-consuming and human errors during sequence typing analysis of infl uenza A virus using traditional methods,a rapid typing and analysis software was established by Perl based on lunix systems,according to the practical work needs. A trial test was carried out to analyze all the infl uenza A viruses isolated from ducks in GenBank. Results showed that the software could complete a series of analysis,typing and genetic evolution research in short time,so it could be used for large-scale epidemiological investigation and analysis of infl uenza A virus.
Key words:infl uenza A virus;gene analysis;subtype;genetic evolution