文章編號:1671-3559(2024)06-0713-08DOI:10.13349/j.cnki.jdxbn.20241011.001
摘要: 針對病毒-宿主關(guān)聯(lián)數(shù)據(jù)庫不完善以及現(xiàn)有病毒-宿主關(guān)聯(lián)預(yù)測方法的局限性,全面綜述當(dāng)前應(yīng)用于該領(lǐng)域的主要預(yù)測方法,包括基于序列比對的方法、 基于特征相似的方法、 基于機(jī)器學(xué)習(xí)的方法和集成方法; 根據(jù)每種方法所依據(jù)的技術(shù)原理,全面分析不同方法在預(yù)測性能、 計算資源等方面的優(yōu)勢和劣勢。針對現(xiàn)有研究的狀況,指出未來的研究重點應(yīng)聚焦于構(gòu)建更加全面的病毒-宿主關(guān)聯(lián)樣本庫,并運用表征學(xué)習(xí)、 多模態(tài)學(xué)習(xí)等方法,同時在建模過程中應(yīng)關(guān)注預(yù)測結(jié)果的可解釋性。
關(guān)鍵詞: 生物信息學(xué); 病毒-宿主關(guān)聯(lián)預(yù)測; 序列比對; 表征學(xué)習(xí); 多模態(tài)學(xué)習(xí)
中圖分類號: Q811.4
文獻(xiàn)標(biāo)志碼: A
Research Progress on Virus-Host Association Prediction Methods Based on Bioinformatics
LIU Yang1a, TIAN Zhen2, HE Xinyuan1a, FAN Xiangyu1b
(1. a. School of Information Science and Engineering, b. School of Biological Science and Technology,
University of Jinan, Jinan 250022, Shandong, China;
2. Joint Laboratory for Translational Medicine Research, Liaocheng People’s Hospital, Liaocheng 252000, Shandong, China)
Abstract: Aiming at the incompleteness of virus-host association databases and the limitations of existing virus-host association prediction methods, the current major prediction methods were summarized, including sequence alignment based method, sequence feature based method, machine learning based method and ensemble method. According to the technical principles underlying each method, the advantages and disadvantages of different methods in terms of prediction performance and computing resources were comprehensively analyzed. In view of the current research situation, it is pointed out that the future research should focus on building a more comprehensive virus-host association sample database, and using representation learning, multi-mode learning and other methods, and pay attention to the inter-pretability of prediction results during the modeling process.
Keywords: bioinformatics; virus-host association prediction; sequence alignment; representation learning; multi-mode learning
病毒是一類微小而神秘的病原體,不同的生物體,例如人類、 動物、 植物和細(xì)菌等,都有它們相對應(yīng)的病毒。病毒是地球上最普遍和最豐富的生物實體, 據(jù)統(tǒng)計, 地球上的病毒個數(shù)約為1031,超過其他所有生物個體總數(shù)[1]。病毒不僅數(shù)量眾多,而且在分布上也表現(xiàn)出極高的多樣性,廣泛存在于地球上各種生態(tài)系統(tǒng)內(nèi)[2],并發(fā)揮控制宿主種群、 改變宿主代謝以及影響微生物群落的功能的重要作用[3]。此外,病毒廣泛分布在人體內(nèi)部及皮膚表面,存在于人類口腔、 肺部、 皮膚、 腸道等微生物群落中,與人類的健康密切相關(guān)[4]。
病毒不具有獨立生活的能力,只能依賴其宿主繁殖后代,所以挖掘出病毒的潛在宿主信息對于防止病毒傳播、 保護(hù)生態(tài)等具有非常重要的意義。比如一些未知病毒可能具有感染人類的能力,如果可以判斷人類確定是其宿主,就可以有針對性地預(yù)防這種新型病毒。又比如一些噬菌體(細(xì)菌的病毒)的宿主范圍并不能確定,如果可以判斷其宿主僅僅是有害菌而不是有益菌,就可以確定噬菌體的安全性,將其應(yīng)用到噬菌體療法中,甚至還能用作噬菌體保藏方法[5]。
目前研究病毒與宿主之間的關(guān)聯(lián)性主要是通過生物學(xué)實驗法和生物信息法。生物學(xué)實驗方法依賴于病毒其宿主的培養(yǎng),主要方法有噬菌斑分析[6]、 基于檢測病毒和宿主熒光標(biāo)記的方法[7]、 基于物理連接的標(biāo)記方式[8]等實驗方法,但是這些實驗方法都存在一定的局限性,例如必須使用大量的材料和設(shè)備、 耗費大量的時間、 研究病毒種類的范圍有限等一系列問題。相比之下,生物信息法是一種利用計算方法和大規(guī)模數(shù)據(jù)分析來研究病毒-宿主關(guān)聯(lián)性的方法。這種方法不依賴于實驗室培養(yǎng)病毒及其宿主,而是通過分析已有的病毒和宿主基因組數(shù)據(jù),預(yù)測病毒與宿主的關(guān)聯(lián)性。這種基于生物信息學(xué)的病毒-宿主關(guān)聯(lián)預(yù)測方法通過整合生物信息學(xué)、 系統(tǒng)生物學(xué)和機(jī)器學(xué)習(xí)等多學(xué)科,提高了病毒、 宿主鑒定研究的效率和準(zhǔn)確性。本文中歸納總結(jié)了現(xiàn)有預(yù)測病毒-宿主關(guān)聯(lián)的生物信息學(xué)工具,并分析它們的優(yōu)缺點,以期為病毒-宿主關(guān)聯(lián)預(yù)測工作提供參考。
1預(yù)測病毒-宿主關(guān)聯(lián)的生物信息學(xué)工具總覽
高通量測序技術(shù)的發(fā)展產(chǎn)生了海量脫氧核糖核酸(DNA)和核糖核酸(RNA)序列數(shù)據(jù)數(shù)據(jù),極大地改變了人們對宏基因組和病毒組的研究方式,并催生了眾多生物信息學(xué)技術(shù)與工具,預(yù)測病毒-宿主關(guān)聯(lián)工具也在不斷更新。表1列出了目前預(yù)測病毒-宿主關(guān)聯(lián)的生物信息學(xué)工具。 由表可知,目前病毒-宿主關(guān)聯(lián)預(yù)測方法主要分為4類,即基于序列比對方法、 基于特征相似方法、 基于機(jī)器學(xué)習(xí)方法和集成方法。序列比對方法是依賴于對病毒與宿主基因組的序列分析。特征相似性方法是利用病毒、 宿主的生物學(xué)特征來分類和預(yù)測。機(jī)器學(xué)習(xí)方法則充分利用已有的病毒、 宿主數(shù)據(jù)集來構(gòu)建預(yù)測模型,通過訓(xùn)練模型來實現(xiàn)分類和預(yù)測。集成方法主要是集成多種不同的預(yù)測方法,以充分利用它們各自的優(yōu)勢,提高預(yù)測性能。
2基于序列比對的病毒-宿主關(guān)聯(lián)生物信息學(xué)工具
基于序列比對的病毒-宿主關(guān)聯(lián)預(yù)測方法主要分為2類: 一類是依據(jù)查詢病毒與宿主基因組間的核苷酸相似性; 另一類是根據(jù)查詢病毒與已知病毒標(biāo)記基因的相似性,即由感染特定宿主類別的病毒專門編碼的基因。
在通常情況下,基于查詢病毒與宿主基因組之間核苷酸相似性的預(yù)測方法要利用美國國家生物技術(shù)信息中心(NCBI)的參考序列(RefSeq)或等效數(shù)據(jù)庫中的細(xì)菌和古菌基因組作為宿主參考數(shù)據(jù)庫,以識別輸入病毒與潛在宿主的核苷酸序列相似性。這些相似性序列區(qū)域可能對應(yīng)于整合前病毒、宿主編碼的規(guī)律成簇的間隔短回文重復(fù)(CRISPR)間隔區(qū)、輔助代謝基因(AMGs)或共享的轉(zhuǎn)運核糖核酸(tRNA),這些相似性序列區(qū)域反映了不同的進(jìn)化或共同進(jìn)化過程[26]。一般而言,較大的序列相似性區(qū)域通常源于與查詢病毒密切相關(guān)的前病毒在宿主基因組中的整合,這種前病毒可能仍然完整或僅部分降解[27]。由水平轉(zhuǎn)移基因或插入位點(如tRNAs)產(chǎn)生的短序列相似性區(qū)域,通常與過去的病毒感染以及病毒對細(xì)菌宿主的適應(yīng)性相關(guān)[28]。與此相反,查詢病毒和細(xì)菌CRISPR間隔區(qū)之間的相似性反映了該細(xì)菌對密切相關(guān)病毒的成功防御,同時表明該細(xì)菌理論上能抵抗該病毒。病毒基因組和CRISPR間隔區(qū)之間的高水平序列相似性源于病毒和宿主之間的共同進(jìn)化[29]。
核酸比對搜索程序(BLASTN)和核酸序列對蛋白質(zhì)序列庫比對(BLASTX)[9]是用于識別序列相似性區(qū)域最常用的方法,通過相似度可靠性指標(biāo)E值、 比特分?jǐn)?shù)、 匹配長度和錯配數(shù)等定義的截止值確定預(yù)測的宿主。針對短匹配(如CRISPR間隔區(qū)或tRNA),必須使用特殊的序列相似性搜索策略或?qū)植肯嗨菩运阉鞴ぞ撸˙LAST)來調(diào)整[10],包括使用BLASTN搜索短序列任務(wù)、 關(guān)閉低復(fù)雜度區(qū)域屏蔽(DUST)算法過濾器并應(yīng)用嚴(yán)格的過濾標(biāo)準(zhǔn),允許整個序列僅存在1~2個錯配[26]。采用嚴(yán)格標(biāo)準(zhǔn)時,基于序列比對方法的預(yù)測準(zhǔn)確性較高,即正確的病毒與宿主配對比例很高,但召回率較低,即預(yù)測的病毒與宿主配對比例相對于輸入病毒的總數(shù)較低。最終宿主預(yù)測的分類級別取決于匹配的類型和分?jǐn)?shù)。此外,可以考慮使用“最近共同祖先”方法來提高預(yù)測的準(zhǔn)確性,該方法適用于每個查詢病毒匹配多個結(jié)果的情況,通過選擇一定數(shù)量的最優(yōu)匹配結(jié)果,并尋找它們之間的共同祖先來確定預(yù)測宿主[10, 26, 30]。
除了RefSeq數(shù)據(jù)庫中的原核基因組,宿主參考數(shù)據(jù)庫可通過利用單細(xì)胞分選(SAGs)或宏基因組組裝基因組(MAG)、 宏基因組組裝基因組集(MAGs)分箱獲得的未培養(yǎng)微生物基因組進(jìn)行擴(kuò)充[31]。SAGs是從微生物單個細(xì)胞分選、擴(kuò)增和測序獲得的基因組[32],通常不完整且碎片化,擴(kuò)增步驟也容易導(dǎo)致交叉污染。MAGs包含一個或多個基因組,根據(jù)序列組成或基因組成特征分組,以表示某些基因?qū)儆谕换蚪M。對于SAGs,將不相關(guān)的重疊群(contig)錯誤地聚集在同一個MAG中的污染可能導(dǎo)致宿主預(yù)測出現(xiàn)問題[33]。尤其是當(dāng)重疊群部分或完全是病毒時,它們在MAG中的聚集經(jīng)常是錯誤的。跨生物群落和分類學(xué)的全局分析表明,僅考慮沒有預(yù)測到的病毒區(qū)域或病毒區(qū)域長度小于2/3的重疊群時,可以顯著地減小與MAG污染相關(guān)的預(yù)測誤差[34]。經(jīng)過適當(dāng)?shù)暮Y選和過濾后,SAGs和MAGs增加了宿主參考數(shù)據(jù)庫的多樣性,它們可能來自查詢病毒相同的生態(tài)系統(tǒng)、 采樣位置甚至樣品,因此更有可能代表真實的宿主[34-36]。此外,由于病毒基因組可以在從感染細(xì)胞中產(chǎn)生的SAG中被新組裝出來,因此這些基因組也可以用于新病毒發(fā)現(xiàn)。
除了基于查詢病毒與候選宿主基因組之間序列相似性的方法,另一類工具是基于查詢病毒與已知病毒標(biāo)記基因的相似性預(yù)測。病毒-宿主關(guān)聯(lián)預(yù)測工具vHULK將病毒預(yù)測的蛋白質(zhì)序列與原核病毒同源群(pVOGs)數(shù)據(jù)庫相關(guān)聯(lián)[37],針對每個查詢基因組,vHULK利用pVOGs列表作為2個深度神經(jīng)網(wǎng)絡(luò)的輸入,分別預(yù)測宿主物種和屬,并提供預(yù)測置信度(即熵值)。VPF-Class則將病毒預(yù)測的蛋白質(zhì)與一組病毒蛋白家族(VPFs)進(jìn)行比較,根據(jù)這些VPFs在參考病毒基因組中的分布,分別為每個查詢基因組推斷出域、科和屬3個層級的預(yù)測及置信度得分[13]。隨機(jī)森林宿主預(yù)測工具RaFAH[11]通過比較預(yù)測的蛋白質(zhì)與一個自定義數(shù)據(jù)庫來預(yù)測宿主,該數(shù)據(jù)庫使用了從已分離的病毒以及具有高置信度宿主預(yù)測的未培養(yǎng)病毒中獲取的隱馬爾可夫模型(HMM)配置文件。RaFAH使用每個查詢病毒的HMM配置文件列表作為隨機(jī)森林分類器的輸入,從而為每個可能的宿主提供從門到屬預(yù)測得分(介于0~1之間)。基于標(biāo)記基因的方法具有較高的準(zhǔn)確性,并在各自基準(zhǔn)測試中具有中等或較高的召回率,但是測試結(jié)果可能受到參考數(shù)據(jù)庫中全新病毒數(shù)量相對較少的影響。盡管目前已在努力解決這種數(shù)據(jù)庫偏差問題,但與來自環(huán)境代謝組裝的新病毒相比,用于評估上述預(yù)測工具的測試集與參考病毒基因組之間的相似性更高。
總的來說,基于序列比對的預(yù)測使用了已知的宿主基因組和病毒基因組序列作為參考數(shù)據(jù)庫,這些數(shù)據(jù)是經(jīng)過實驗驗證的,具有一定的準(zhǔn)確性和可靠性,但是它們?nèi)杂幸欢ǖ木窒扌?。一方面,須要消耗大量的計算資源,特別是在較大的序列數(shù)據(jù)庫中比對時,可能需要較長的時間和高性能計算設(shè)備;另一方面,隨著生物信息學(xué)數(shù)據(jù)庫的不斷更新和擴(kuò)充,用來比對的數(shù)據(jù)庫可能會陳舊過時,必須要定期更新以保持準(zhǔn)確性。
3基于序列特征相似性的病毒-宿主關(guān)聯(lián)生物信息學(xué)工具
基于序列特征相似性方法是通過分析整個病毒與宿主基因組或蛋白質(zhì)序列的組成特征來預(yù)測病毒與宿主相互作用對。 病毒和宿主基因組序列組成的相似性主要是因為病毒基因組適應(yīng)了宿主的復(fù)制、 轉(zhuǎn)錄和翻譯機(jī)制[38]。 這種方法具有更廣泛的適用性, 原因是它們不要求數(shù)據(jù)庫中存在與病毒或宿主相近的序列, 但它們的準(zhǔn)確性通常低于基于序列比對的方法。
基于序列特征相似性的方法通常利用序列組成特征來預(yù)測宿主。 最常用的方法是比較查詢基因組與參考數(shù)據(jù)庫的k-mer(堿基數(shù)為k的子序列)組成。HostPhinder通過比較查詢病毒和已知病毒基因組序列之間的16-mer組成來預(yù)測病毒與宿主相互作用[14],而其他大多數(shù)工具則是比較查詢病毒與宿主參考基因組數(shù)據(jù)庫的k-mer頻率。 具體而言,在獲得查詢病毒針對宿主基因組數(shù)據(jù)庫的一組相似性值或分?jǐn)?shù)后,將這些結(jié)果匯總為一個單一的宿主預(yù)測,并評估其置信度。這種方法的前提是假設(shè)病毒和宿主基因組具有相似的序列組成和k-mer頻率。原核病毒宿主預(yù)測工具(PHP)[18]和VirHostMatcher(VHM)[16]分別比較查詢病毒和參考宿主基因組數(shù)據(jù)庫的4-mer頻率(見圖1)和6-mer頻率。 WIsH采用類似的k-mer頻率比較方法, 但它訓(xùn)練了一個八階同質(zhì)馬爾可夫模型, 該模型針對每個宿主基因組進(jìn)行訓(xùn)練, 并計算查詢重疊群在每個訓(xùn)練好的馬爾可夫模型中的相似度[17]。 這種馬爾可夫模型方法旨在更好地處理短病毒重疊群, 因為對于這些短重疊群來說, k-mer頻率往往變得非常不規(guī)律。 ILMF-VH采用了一種混合方法, 通過比較查詢病毒與已知病毒數(shù)據(jù)庫的6-mer頻率, 同時將這些病毒與宿主分類網(wǎng)絡(luò)關(guān)聯(lián)。 該分類網(wǎng)絡(luò)建立在宿主6-mer頻率和相互作用配置文件的相似性的基礎(chǔ)之上,即如果2個宿主關(guān)聯(lián)的病毒列表相似,則這2個宿主更相似。這個相似性信息在ILMF-VH的宿主預(yù)測中被用來確定哪些宿主可能是與查詢病毒相關(guān)的潛在宿主[15]。
此外, VHM和WIsH提出了不同的閾值來過濾獲得的結(jié)果[12,16], 并使用最相似宿主的共識方法來提高整體預(yù)測準(zhǔn)確性[17]。 WIsH還針對每個病毒-宿主對計算一個概率值, 該值是根據(jù)預(yù)先計算的多種病毒與每個宿主之間的高斯數(shù)據(jù)庫空值分布計算得到的。 此外, HTP[39]和VIDHOP[40]是推斷真核病毒特定宿主的工具, 可在域水平(即真核生物與原核生物)或在特定真核生物群體內(nèi)的物種水平上預(yù)測宿主。
除了基因組k-mer頻率特征外,還有一些方法基于病毒和宿主蛋白質(zhì)序列特征來預(yù)測,這些特征包括病毒和宿主蛋白質(zhì)序列中各種氨基酸的頻率、蛋白質(zhì)中特定化學(xué)元素(如碳、 氫、 氮、 氧和硫)的豐度以及蛋白質(zhì)的相對分子質(zhì)量。盡管這些蛋白質(zhì)序列特征與從整個基因組提取的核苷酸k-mer頻率特征有顯著區(qū)別,但它們也能在不用序列比對的情況下預(yù)測宿主[20]。
總之,無論是在2個病毒基因組間還是在病毒和宿主基因組間,基于序列特征相似性方法都可以在不用序列比對的情況下快速計算,即使是在沒有明顯可檢測的序列相似性區(qū)域的情況下,也可以識別基因組組成中的相似性,但是所得到的結(jié)果可能很難解釋。此外,基于序列特征相似性方法可以捕捉更廣泛的序列特征,不僅僅局限于核苷酸相似性,還包括蛋白質(zhì)結(jié)構(gòu)、功能和生物學(xué)特征等,因此可以更全面地預(yù)測病毒與宿主的相互作用。
4基于機(jī)器學(xué)習(xí)的病毒-宿主關(guān)聯(lián)生物信息學(xué)工具
近年來,基于機(jī)器學(xué)習(xí)的方法在病毒與宿主相互作用預(yù)測方面得到了廣泛應(yīng)用。總體而言,這類方法預(yù)測的可靠性相對較高,其中包括高斯模型[18]、 鄰域正則化邏輯矩陣分解[15]和深度卷積神經(jīng)網(wǎng)絡(luò)等。HostG[21]與DeepHost[22]分別是基于圖卷積神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型來預(yù)測病毒與宿主的相互作用。這些方法的關(guān)鍵在于構(gòu)建穩(wěn)健且平衡的訓(xùn)練集和測試集,這些數(shù)據(jù)集應(yīng)盡可能地涵蓋各種病毒、 宿主和病毒與宿主相互作用關(guān)系,避免出現(xiàn)過擬合和欠擬合的問題。盡管人們已經(jīng)提出了許多方法來平衡訓(xùn)練和測試集;但這些方法仍然受到現(xiàn)有數(shù)據(jù)庫中病毒-宿主相互作用對數(shù)量和多樣性的限制,因此可能存在偏差。
與基于序列分析的方法相比,基于機(jī)器學(xué)習(xí)的方法通常具有較高的召回率,但準(zhǔn)確率較低。大多方法的預(yù)測準(zhǔn)確率為0.3~0.7[15-17, 39],并且由于目前尚無統(tǒng)一的基因組數(shù)據(jù)集用于測試不同工具的系統(tǒng)性基準(zhǔn)[26],因此直接比較它們的預(yù)測效果較為困難。在處理來自不同數(shù)據(jù)集和生態(tài)系統(tǒng)中未培養(yǎng)的病毒時,基于機(jī)器學(xué)習(xí)的方法通常具有較高的召回率,即正確預(yù)測的宿主數(shù)量更多[35-36, 41],這與基于機(jī)器學(xué)習(xí)的方法可在無需特定比對區(qū)域情況下預(yù)測病毒-宿主關(guān)聯(lián)性的預(yù)期相符,具備預(yù)測全新病毒的能力。
5多種方法集成的病毒-宿主關(guān)聯(lián)生物信息學(xué)工具
為了預(yù)測病毒與宿主相互作用, 雖然有多種方法可供選擇, 但每種方法都存在特定的局限性。 為了最大化病毒-宿主關(guān)聯(lián)性預(yù)測的召回率和準(zhǔn)確性, 人們整合多種方法開發(fā)新的預(yù)測工具, PHISDetector[23]和VirHostMatcher-Net[24]就是2種集成工具。這2種工具結(jié)合了基于序列比對方法和基于序列特征相似性方法的優(yōu)點,并采用機(jī)器學(xué)習(xí)模型給單個病毒-宿主對的預(yù)測結(jié)果打分。2個工具整合了以下特征: 1)基于k-mer頻率的序列特征相似性; 2)病毒和宿主之間共享CRISPR間隔區(qū)的相似性; 3)基于比對方法的病毒與宿主序列匹配。其中VirHostMatcher-Net采用一個雙層網(wǎng)絡(luò)預(yù)測框架,并利用病毒與病毒、 宿主與宿主的相似性,而PHISDetector則引入細(xì)菌基因組中可能的附加區(qū)域與蛋白質(zhì)相互作用等額外特征。與其他單一方法相比,VirHostMatcher-Net和PHISDetector的召回率和準(zhǔn)確率均顯著提升。此外,iPHoP[25]也是一種集成工具,整合多種單一預(yù)測方法,如基于序列比對的方法、 基于k-mer頻率的方法等,在大規(guī)模病毒基因組數(shù)據(jù)集上測試結(jié)果表明,iPHoP可適用于更廣泛的病毒多樣性,尤其是對于新病毒。iPHoP還設(shè)計一種評分方式,可以評估不同方法對同一預(yù)測項目的支持程度。這些集成工具通過結(jié)合具有不同優(yōu)勢和局限的方法來提高宿主預(yù)測準(zhǔn)確性[23-24],具有廣闊的應(yīng)用前景,但是它們在實際應(yīng)用中的適用性仍須在廣泛的病毒、 宿主和生態(tài)系統(tǒng)中進(jìn)一步評估,以便更好地了解可能存在的缺陷。
6病毒-宿主關(guān)聯(lián)預(yù)測方法案例解析
2014年,Dutilh等[41]從人類糞便微生物組的組裝中鑒定出一個名為crAssphage的交叉組裝病毒的新病毒基因組,大規(guī)模的讀取映射研究表明,這種病毒在人類腸道微生物組中豐度較高且普遍存在。進(jìn)一步的元基因組分析顯示,crAssphage是較為廣泛的crAss類病毒家族的代表之一,可在不同的棲息地(包括動物、 植物和環(huán)境)中達(dá)到高豐度[42-43]。
利用基于序列比對的方法,已確定Bacteroidetes門的細(xì)菌,特別是Bacteroides、 Prevotella和Porphyromonas屬中的細(xì)菌,是crAss類病毒最可能的宿主[43-45]。crAss類病毒編碼的幾個基因可能與Bacteroidetes相關(guān),包括DNA引物酶和預(yù)測蛋白,例如,通常位于N端(BACON)的編碼擬桿菌相關(guān)碳水化合物結(jié)合與Bacteroidetes相關(guān)的碳水化合物結(jié)合結(jié)構(gòu)域的蛋白具有潛在聯(lián)系[43, 45]。
此外,CRISPR間隔序列匹配也將Bacteroidetes作為潛在宿主,然而,在crAssphage基因組的原始描述中,研究人員在Prevotella和Bacteroides基因組中鑒定到了2個與CRISPR間隔序列相符的位點;但比對過程中仍存在一些不匹配的位置,因此這些CRISPR匹配本身并未提供具有高置信度的宿主預(yù)測。另一種crAss類病毒在Porphyromonas基因組中的CRISPR間隔序列得到了完全匹配,從而獲得了高置信度的預(yù)測[43]。最后,通過讀取映射的共存分析,得出了crAssphage感染Bacteroidetes門的宿主的結(jié)論[44]。
對于幾種基于非比對的方法,它們并未提供可靠且一致的宿主預(yù)測。使用VHM方法結(jié)合人類腸道微生物組計劃(HMP)對發(fā)現(xiàn)的360個病毒宿主基因組進(jìn)行預(yù)測時,與crAssphage最相似的菌株屬于Firmicutes門的Coprobacillus屬[16]。相反,WIsH預(yù)測幾種crAss病毒的宿主為Bacteroidetes門[45]。在這2種情況下,預(yù)測的置信度都較小,意味著預(yù)測結(jié)果存在較大的不確定性。
對于單一方法而言,大部分結(jié)果難以提供可靠且具有高置信度的宿主預(yù)測,然而,通過比較和整合多種獨立方法,類似于crAss病毒的宿主可被可靠地關(guān)聯(lián)到Bacteroidetes門內(nèi)的多個屬[42, 46],該宿主預(yù)測的結(jié)果也得到了crAss-like家族的代表性病毒的實驗驗證[46-47]。這個案例表明,通過整合多種方法預(yù)測宿主,有助于確定從宏基因組組裝中獲得全新病毒的最可能宿主。
綜上所述, 機(jī)器學(xué)習(xí)方法能夠從大規(guī)模的數(shù)據(jù)中學(xué)習(xí)模式和特征, 因此在預(yù)測病毒與宿主的關(guān)聯(lián)性時通常具有較高的準(zhǔn)確性, 但準(zhǔn)確性比基于序列比對方法的稍差。 與傳統(tǒng)的方法相比, 機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法不用依賴事先定義的特征, 而是從數(shù)據(jù)中自動學(xué)習(xí)特征, 使得預(yù)測更加全面和自適應(yīng)。 此外, 機(jī)器學(xué)習(xí)方法在處理大規(guī)模數(shù)據(jù)時具有較好的可擴(kuò)展性, 能夠處理海量的序列數(shù)據(jù), 適用于高通量測序等大數(shù)據(jù)應(yīng)用場景。 機(jī)器學(xué)習(xí)方法在預(yù)測過程中通常是“黑盒子”, 預(yù)測結(jié)果可能難以解釋, 使得研究人員難以理解模型背后的原因和機(jī)制。 對于新發(fā)現(xiàn)的宿主或未知的宿主序列, 現(xiàn)階段的方法可能無法準(zhǔn)確預(yù)測病毒與這些宿主的相互作用。
7總結(jié)與展望
盡管目前的病毒宿主基因組數(shù)據(jù)已經(jīng)很龐大,但這些數(shù)據(jù)并不夠全面,原因是病毒、 宿主數(shù)據(jù)在某些方面的分布不均勻, 例如正樣本數(shù)據(jù)在已知的數(shù)據(jù)中占據(jù)了主導(dǎo)地位, 這些正樣本代表了已被驗證存在的病毒與宿主相互作用事件, 驗證方式包括實驗或其他可靠方法。 負(fù)樣本數(shù)據(jù)相對稀缺, 而負(fù)樣本數(shù)據(jù)應(yīng)該包括已被證實不存在相互作用的病毒-宿主對, 但很少有此類信息的數(shù)據(jù)源。這種情況與真實生物學(xué)數(shù)據(jù)的分布相反,因為在實際生物學(xué)數(shù)據(jù)中,相互作用數(shù)據(jù)通常只占很小的一部分,更多的是不存在相互作用的數(shù)據(jù),所以現(xiàn)階段正面臨如何將這些不完全的數(shù)據(jù)應(yīng)用于深度學(xué)習(xí)中的問題。只有不斷完善數(shù)據(jù)集,開發(fā)更有效的神經(jīng)網(wǎng)絡(luò)模型,才能解決這一問題。
表征學(xué)習(xí)方法是生物序列分析領(lǐng)域的有效方法,已經(jīng)被廣泛用于病毒和宿主的相互作用、病毒識別等預(yù)測任務(wù)。例如,Ji等[48]提出基于雙向編碼器表征模型(BERT)的DNA序列語言模型DNABERT,利用預(yù)訓(xùn)練的語言模型BERT來獲得DNA序列的通用嵌入表示,然后將這些表示應(yīng)用于不同的下游任務(wù)。DNABERT是一個強(qiáng)大的預(yù)訓(xùn)練語言模型,在DNA序列分析中,不僅提升了預(yù)測性能,還增強(qiáng)了可解釋性,為生物信息學(xué)研究者更深入地理解DNA語言和深層語義提供了有效的工具。另外,Mo等[49]也提出了基于BERT的語言模型GeneBERT,為了解決如何將不完全的數(shù)據(jù)應(yīng)用于深度學(xué)習(xí)的問題,GeneBERT模型同樣采用自監(jiān)督的預(yù)訓(xùn)練方法,以獲取基因序列的通用表示。通過序列和區(qū)域的預(yù)訓(xùn)練,該模型的魯棒性和泛化性能得到改善。過去的研究表明,表征學(xué)習(xí)方法在自然語言處理任務(wù)中效果顯著,成功捕捉了自然語言中的語法、 語義和知識,但是該方法在病毒與宿主相互作用的預(yù)測中的應(yīng)用相對較少。
其次, 從計算機(jī)視覺、 自然語言等方面引入多模態(tài)學(xué)習(xí)方法, 為研究人員提供一個更全面的視角, 可以更好地理解病毒與宿主相互作用。 傳統(tǒng)的方法主要關(guān)注基因序列的信息, 然而, 當(dāng)前的研究已經(jīng)超越了這些基本層面。 多模態(tài)學(xué)習(xí)方法考慮了來自不同數(shù)據(jù)源的信息, 這些信息包括蛋白質(zhì)與蛋白質(zhì)相互作用網(wǎng)絡(luò)、 基因表達(dá)數(shù)據(jù)等多維度的信息。 多模態(tài)學(xué)習(xí)方法的優(yōu)勢在于它能夠?qū)⒉煌愋偷臄?shù)據(jù)有機(jī)地融合在一起, 從而為病毒-宿主關(guān)聯(lián)預(yù)測提供更全面、 更準(zhǔn)確的信息基礎(chǔ)。 通過同時考慮蛋白質(zhì)與蛋白質(zhì)之間的相互作用、 基因表達(dá)水平的變化以及其他生物信息學(xué)數(shù)據(jù), 預(yù)測模型能夠更好地捕捉生物體內(nèi)復(fù)雜的相互作用網(wǎng)絡(luò), 不僅能提高預(yù)測的精度,還能夠增強(qiáng)模型的可解釋性, 使研究人員能夠更清晰地理解預(yù)測結(jié)果的生物學(xué)意義。
生物信息學(xué)研究者仍處于探索自然界病毒的初級階段,在預(yù)測病毒-宿主關(guān)聯(lián)方面還有相當(dāng)大的改進(jìn)空間。計算技術(shù)的進(jìn)步和病毒與宿主基因組數(shù)據(jù)的積累,為病毒-宿主關(guān)聯(lián)預(yù)測提供了包括基于序列比對、 特征相似性和機(jī)器學(xué)習(xí)等多種方法,使研究人員不用培養(yǎng)所有可能的病毒-宿主對,有助于研究者更好地了解全球病毒生態(tài),盡管如此,這些預(yù)測方法都存在一定局限性。未來病毒-宿主關(guān)聯(lián)預(yù)測還需要更多學(xué)科的交叉融合研究,例如引入宿主信息、 環(huán)境參數(shù)等構(gòu)建整體模型。生物信息研究者也應(yīng)意識到,預(yù)測僅是第一步,進(jìn)一步的實驗驗證仍不可或缺。通過計算預(yù)測指導(dǎo)實驗,然后反饋實驗結(jié)果完善模型,經(jīng)過反復(fù)循環(huán)才能使生物信息研究者對復(fù)雜的病毒-宿主關(guān)聯(lián)系統(tǒng)有更深的理解,從而更好地服務(wù)于公共衛(wèi)生與社會進(jìn)步事業(yè)。
參考文獻(xiàn):
[1]BREITBART M, ROHWER F. Here a virus, there a virus, everywherethesamevirus?[J].TrendsinMicrobiology,2005,13(6): 278.
[2]PAEZ-ESPINOD,ELOE-FADROSHEA,PAVLOPOULOS G A, et al.UncoveringEarth’svirome[J].Nature, 2016, 536(7617): 425.
[3]ZHANGJJ,DONGX,LIUG H, et al. Risk and protective factors for COVID-19 morbidity, severity, and mortality[J]. Clinical Reviews in Allergy amp; Immunology, 2023, 64(1): 90.
[4]GUTIRREZ-GUTIRREZ F, PALOMO-LIGAS L. Change in the incidenceofintestinaldiseasescausedbyparasiticprotozoainthe Mexican population during the period (2015-2019) and its association with environmental and socioeconomic risk factors[J]. Parasitology Research, 2023, 122(4): 903.
[5]吳亞迪, 常嘉琪, 金何雨潔, 等. 噬菌體保藏方法研究綜述[J]. 聊城大學(xué)學(xué)報(自然科學(xué)版), 2023, 35(6): 86.
[6]ABEDON S T. Detection of bacteriophages: phage plaques[J]. Bacteriophages: Biology, Technology, Therapy, 2021: 507.
[7]DENGL,IGNACIO-ESPINOZAJC,GREGORYAC,etal. Viral tagging reveals discrete populations in Synechococcus viral genome sequence space[J]. Nature, 2014, 513(7517): 242.
[8]SAKOWSKI E G, ARORA-WILLIAMS K, TIAN F, et al. Interaction dynamics and virus-host range for estuarine actinophages captured by epicPCR[J]. Nature Microbiology, 2021, 6(5): 630.
[9]CAMACHO C, COULOURIS G, AVAGYAN V, et al. BLAST+: architecture and applications[J]. BMC Bioinformatics, 2009, 10: 1.
[10]ZHANGRS,MIRDITAM,LEVYKARINE,etal.SpacePHARER:sensitiveidentificationofphagesfromCRISPRspacersin prokaryotic hosts[J]. Bioinformatics, 2021, 37(19): 3364.
[11]COUTINHO F H, ZARAGOZA-SOLAS A, LPEZ-PREZ M, et al. RaFAH: a superior method for virus-host prediction[EB/OL]. (2020-09-27)[2023-09-01]. https://doi.org/10.1101/2020.09.25.313155.
[12]AMGARTEND,IHABKV,PIROUPOCM,etal. vHULK: a new tool for bacteriophage host prediction based on annotated genomic features and neural networks[J]. Phage, 2022, 3(4): 204.
[13]PONS J C, PAEZ-ESPINO D, RIERA G, et al. VPF-Class: taxonomic assignment and host prediction of uncultivated viruses basedonviralproteinfamilies[J].Bioinformatics,2021,37(13): 1805.
[14]VILLARROEL J, KLEINHEINZ K A, JURTZ V I, et al. HostPhinder:aphagehostpredictiontool[J].Viruses,2016,8(5):116.
[15]LIU D, WU Q N, CHEN W R, et al. A novel FK506 loaded nanomicellesconsistingofamino-terminatedpoly(ethylene glycol)-block-poly(D,L)-lacticacidandhydroxypropylmethylcelluloseforoculardrugdelivery[J]. International Journal of Pharmaceutics, 2019, 562: 1.
[16]AHLGRENNA,RENJ,LUYY,etal. Alignment-free d*2 oligonucleotidefrequencydissimilaritymeasureimprovesprediction of hosts from metagenomically-derived viral sequences[J]. Nucleic Acids Research, 2016, 45(1): 39.
[17]GALIEZC,SIEBERTM,ENAULTF,et al. WIsH: who is the host?:predictingprokaryotichostsfrom metagenomic phage contigs[J]. Bioinformatics, 2017, 33(19): 3113.
[18]LUCY,ZHANGZ,CAIZN,etal.Prokaryoticvirushostpredictor:aGaussianmodelforhostprediction of prokaryotic viruses in metagenomics[J]. BMC Biology, 2021, 19: 1.
[19]LEITE D M C, BROCHET X, RESCH G, et al. Computational predictionofinter-speciesrelationshipsthroughomicsdata analysis and machine learning[J]. BMC Bioinformatics, 2018, 19: 151.
[20]BOECKAERTSD,STOCKM,CRIELB,etal.Predictingbacteriophage hosts based on sequences of annotated receptor-binding proteins[J]. Scientific Reports, 2021, 11(1): 1.
[21]SHANGJY,SUNYN.Predictingthe hosts of prokaryotic viruses usingGCN-basedsemi-supervisedlearning[J].BMCBiology,2021, 19: 1.
[22]WANG R H, ZHANG-XIANG L L, WANG J P, et al. DeepHost: phage host prediction with convolutional neural network[J]. Briefings in Bioinformatics, 2022, 23(1): 1.
[23]ZHOU F X, GAN R, ZHANG F, et al. PHISDetector: a tool to detect diverse in silico phage-host interaction signals for virome studies[J].GenomicsProteomicsamp;Bioinformatics,2022,20(3): 508.
[24]WANGWL,RENJ,TANGKJ,etal.A network-based integrated framework for predicting virus-prokaryote interactions[J]. NAR Genomics and Bioinformatics, 2020, 2(2): 1.
[25]ROUX S, CAMARGO A P, COUTINHO F H, et al. iPHoP: an integratedmachinelearningframeworktomaximizehost prediction for metagenome-derived viruses of archaea and bacteria[J]. PLoS Biology, 2023, 21(4): e3002083.
[26]EDWARDS R A, MCNAIR K, FAUST K, et al. Computational approaches to predict bacteriophage-host relationships[J]. FEMS Microbiology Reviews, 2015, 40(2): 258.
[27]CANCHAYA C, FOURNOUS G, BRSSOW H. The impact of prophagesonbacterialchromosomes[J].MolecularMicrobiology, 2004, 53(1): 9.
[28]BREITBART M, BONNAIN C, MALKI K, et al. Phage puppet masters of the marine microbial realm[J]. Nature Microbiology, 2018, 3(7): 754.
[29]MAKAROVA K S, WOLF Y I, IRANZO J, et al. Evolutionary classificationofCRISPR-Cassystems:aburstofclass2andderived variants[J]. Nature Reviews Microbiology, 2020, 18(2): 67.
[30]MIZUNO C M, RODRIGUEZ-VALERA F, KIMES N E, et al. Expanding the marine virosphere using metagenomics[J]. PLoS Genetics, 2013, 9(12): 1.
[31]BOWERS R M, KYRPIDES N C, STEPANAUSKAS R, et al. Minimum information about a single amplified genome (MISAG) and a metagenome-assembled genome (MIMAG) of bacteria and archaea[J]. Nature Biotechnology, 2017, 35(8): 725.
[32]PACHIADAKI M G, BROWN J M, BROWN J, et al. Charting thecomplexityofthemarinemicrobiomethroughsingle-cell genomics[J]. Cell, 2019, 179(7): 1623.
[33]MUNSON-MCGEE J H, PENG S, DEWERFF S, et al. A virus or more in (nearly) every cell: ubiquitous networks of virus-host interactions in extreme environments[J]. The ISME Journal, 2018, 12(7): 1706.
[34]NAYFACHS,ROUXS,SESHADRIR,etal.AgenomiccatalogofEarth’smicrobiomes[J].NatureBiotechnology,2021,39(4):499.
[35]DALCIN MARTINS P, DANCZAK R E, ROUX S, et al. Viral andmetaboliccontrolsonhighratesofmicrobial sulfur and carbon cyclinginwetland ecosystems[J].Microbiome,2018,6(1):1.
[36]EMERSON J B, ROUX S, BRUM J R, et al. Host-linked soil viral ecology along a permafrost thaw gradient[J]. Nature Microbiology, 2018, 3(8): 870.
[37]GRAZZIOTINAL,KOONINEV,KRISTENSENDM.Prokaryotic virusorthologousgroups(pVOGs):aresourceforcomparativegenomicsandproteinfamilyannotation[J].NucleicAcidsResearch,2016, 45(1): 491.
[38]ROUX S, HALLAM S J, WOYKE T, et al. Viral dark matter and virus-host interactions resolved from publicly available microbial genomes[J]. Elife, 2015, 4: 1.
[39]GAN W, BAιK M, JAKUBOWSKA M. Host taxon predictor: a tool for predicting taxon of the host of a newly discovered virus[J]. Scientific Reports, 2019, 9(1): 3436.
[40]MOCK F, VIEHWEGER A, BARTH E, et al. VIDHOP: viral hostpredictionwithdeeplearning[J].Bioinformatics,2020,37(3): 318.
[41]ROUX S, BRUM J R, DUTILH B E, et al. Ecogenomics and potentialbiogeochemicalimpactsofgloballyabundantoceanviruses[J]. Nature, 2016, 537(7622): 689.
[42]YUTINN,BENLERS,SHMAKOVSA,etal. Analysis of metagenome-assembled viral genomes from the human gut reveals diverse putative CrAss-like phages with unique genomic features[J]. Nature Communications, 2021, 12(1): 1044.
[43]YUTIN N, MAKAROVA K S, GUSSOW A B, et al. Discovery of an expansive bacteriophage family that includes the most abundant viruses from the human gut[J]. Nature Microbiology, 2018, 3(1): 38.
[44]SKURNIKM,STRAUCHE.Phagetherapy:factsandfiction[J]. InternationalJournalofMedicalMicrobiology,2006,296(1): 5.
[45]DEJONGEPA,VONMEIJENFELDTFB,VAN ROOIJEN L E, etal.EvolutionofBACONdomaintandemrepeatsincrassphageandnovelgutbacteriophagelineages[J].Viruses,2019,11(12): 1085.
[46]GUERIN E, SHKOPOROV A N, STOCKDALE S R, et al. ""Isolation and characterisation of ΦcrAss002, a crAss-like phage from the human gut that infects bacteroides xylanisolvens [J]. Microbiome, 2021, 9: 1.
[47]SHKOPOROV A N, KHOKHLOVA E V, FITZGERALD C B, et al.ΦCrAss001representsthemostabundantbacteriophage family in the human gut and infects bacteroides intestinalis[J]. Nature Communications, 2018, 9(1): 4781.
[48]JIYR,ZHOUZH,LIUH,etal.DNABERT:pre-trainedbidirectionalencoderrepresentationsfromtransformers model for DNA-language in genome[J]. Bioinformatics, 2021, 37(15): 2112.
[49]MO S T, FU X, HONG C Y, et al. Multi-modal self-supervised pre-training for regulatory genome across cell types [EB/OL]. (2021-11-03) [2023-06-18]. https://arxiv.org/abs/2110.05231.
(責(zé)任編輯:于海琴)
收稿日期: 2023-09-18網(wǎng)絡(luò)首發(fā)時間:2024-10-11T10:41:08
基金項目: 山東省自然科學(xué)基金項目(ZR2021MC018); 山東省科技型中小企業(yè)創(chuàng)新能力提升工程項目(2022TSGC2305)
第一作者簡介: 劉楊(1999—),男,重慶人。碩士研究生,研究方向為人工智能。E-mail: 2577254925@qq.com。
通信作者簡介: 樊祥宇(1988—),男,山東濟(jì)南人。副教授,博士,碩士生導(dǎo)師,研究方向為環(huán)境病毒組、 噬菌體培養(yǎng)組。E-mail: fxysnd@126.com。
網(wǎng)絡(luò)首發(fā)地址: https://link.cnki.net/urlid/37.1378.N.20241011.0948.002