李曼詩(shī) 黃巍峰 陸一涵△
(1復(fù)旦大學(xué)公共衛(wèi)生學(xué)院流行病學(xué)教研室-公共衛(wèi)生安全教育部重點(diǎn)實(shí)驗(yàn)室 上海 200032;2上海交通大學(xué)附屬第六人民醫(yī)院重癥醫(yī)學(xué)科 上海 200233)
感染性疾病一直是全球范圍內(nèi)的重要公共衛(wèi)生問題。在其診療中,快速、準(zhǔn)確地識(shí)別病原體至關(guān)重要。傳統(tǒng)檢測(cè)方法主要包括形態(tài)學(xué)檢測(cè)、培養(yǎng)分離、生化檢測(cè)、免疫學(xué)和核酸檢測(cè)等,操作簡(jiǎn)單、檢測(cè)成本相對(duì)較低,同時(shí)具有較好的靈敏度和特異度,目前臨床仍然廣泛應(yīng)用。然而,傳統(tǒng)檢測(cè)方法耗時(shí)較長(zhǎng),例如培養(yǎng)試驗(yàn)平均反饋時(shí)間為:細(xì)菌3天、真菌 7 天、分枝桿菌 45 天[1]。此外,感染性疾病的病原體種類繁多,傳統(tǒng)檢測(cè)方法僅能針對(duì)幾種常見病原體,且檢測(cè)項(xiàng)目很大程度上依賴臨床醫(yī)師的判斷,因此難以識(shí)別未知或罕見的病原體。臨床上超過2/3 的感染性疾病可能無法鑒定病原體,導(dǎo)致治療措施缺乏針對(duì)性[2]。
基于第二代測(cè)序技術(shù)的宏基因組測(cè)序(metagenomic next-generation sequencing,mNGS)可以直接對(duì)臨床標(biāo)本中的所有核酸進(jìn)行高通量測(cè)序,無需特異性擴(kuò)增,更不需要微生物培養(yǎng),因此可在較短時(shí)間(平均48 h)內(nèi)獲得標(biāo)本中的核酸序列,然后通過生物信息學(xué)判讀分析病原體種類及豐度等信息[3]。目前主要有兩種方法進(jìn)行mNGS 物種注釋:(1)有參/基于讀長(zhǎng)(reads-based/assembly-free)方法,不進(jìn)行序列組裝,直接將序列與參考數(shù)據(jù)庫(kù)進(jìn)行比對(duì),其結(jié)果的準(zhǔn)確性與參考數(shù)據(jù)庫(kù)密切相關(guān),且比對(duì)速度取決于比對(duì)方法和硬件、軟件配置;(2)無 參/基 于 組 裝 或 拼 接(assembly-based/de novo)方法,對(duì)質(zhì)控后的序列進(jìn)行組裝/拼接,得到重疊群后進(jìn)行基因注釋和預(yù)測(cè),需要更深的測(cè)序深度、更高的時(shí)間成本和硬件、軟件要求,且容易遺失相對(duì)豐度較低的物種。考慮到人體相關(guān)微生物的參考基因組和參考數(shù)據(jù)庫(kù)相對(duì)豐富,以及時(shí)間和設(shè)備問題,臨床應(yīng)用mNGS 分析主要采用有參/基于讀長(zhǎng)方法注釋微生物。
目前,對(duì)于mNGS 下游生物信息學(xué)分析,各個(gè)實(shí)驗(yàn)室均建立了個(gè)性化的分析方法,尚無統(tǒng)一的標(biāo)準(zhǔn)。由于有參方法進(jìn)行物種注釋時(shí)高度依賴所選擇的參考數(shù)據(jù)庫(kù),因此不同實(shí)驗(yàn)室的判讀結(jié)果可能存在較大差異。根據(jù)《中國(guó)宏基因組學(xué)第二代測(cè)序技術(shù)檢測(cè)感染病原體的臨床應(yīng)用專家共識(shí)》推薦,物種注釋時(shí)采用的數(shù)據(jù)庫(kù)應(yīng)達(dá)到臨床應(yīng)用級(jí)別,且要求其能較好地區(qū)分臨床常見病原體種別[4]。因此,本研究收集感染性疾病患者不同類型標(biāo)本的mNGS 測(cè)序數(shù)據(jù),分別采用兩個(gè)參考數(shù)據(jù)庫(kù)進(jìn)行微生物注釋,然后調(diào)整判讀標(biāo)準(zhǔn),分析注釋結(jié)果的一致性,從而為建立更適用的臨床mNGS 結(jié)果判讀標(biāo)準(zhǔn)提供科學(xué)依據(jù)。
研究對(duì)象2019 年 6 月—2020 年 10 月,在上海市第六人民醫(yī)院城市醫(yī)聯(lián)體下屬上海市第六人民醫(yī)院、上海市第六人民醫(yī)院東院、上海市普陀區(qū)中心醫(yī)院、上海市金山區(qū)中心醫(yī)院等4 家醫(yī)院收集感染性病例。納入標(biāo)準(zhǔn):(1)18 周歲以上;(2)具有發(fā)熱(體溫>38 ℃)、頭痛、畏寒、寒戰(zhàn)、腦膜刺激征、嘔吐、抽搐、局灶性神經(jīng)功能障礙、意識(shí)改變或嗜睡等感染性疾病癥狀患者。排除標(biāo)準(zhǔn):(1)病史資料不全;(2)拒絕進(jìn)行mNGS。本研究已獲上海市第六人民醫(yī)院倫理委員會(huì)批準(zhǔn)(審批編號(hào):2019-087)。納入的患者及其家屬均簽署知情同意書。
標(biāo)本采集采集的標(biāo)本類型主要包括外周血、腦脊液、痰液、肺泡灌洗液等多種類型。臨床醫(yī)師根據(jù)患者感染部位采集標(biāo)本,并盡可能在急性期進(jìn)行采集,無菌封裝后統(tǒng)一送至探因醫(yī)學(xué)科技(浙江)有限公司,-20 ℃保存并及時(shí)送檢,避免反復(fù)凍融[5-6]。
DNA 提取與測(cè)序采用Tiangen Magnetic DNA Kit[中國(guó)天根生化科技(北京)有限公司]試劑盒提取DNA,使用Bioruptor 非接觸式超聲波破碎儀(比利時(shí)Diagenode 公司)將其片段化為150~300 bp 長(zhǎng)度。使用KAPA Library Preparation kit(美國(guó)KAPA Biosystem 公司)試劑盒構(gòu)建文庫(kù)。使用Illumina NextSeq 550Dx(美國(guó)Illumina 公司)基因測(cè)序儀進(jìn)行高通量測(cè)序。去除接頭、低質(zhì)量堿基、重復(fù)和<36 bp 的短讀長(zhǎng)后,使用Bowtie2 軟件(2.3.5版本)[7]與人類參考基因組(hs37d5)進(jìn)行比對(duì)并去除人源序列。
微生物注釋本研究采用2 個(gè)常用的數(shù)據(jù)庫(kù)注釋質(zhì)控后的核酸序列:(1)使用Bowtie2 軟件(2.3.5版本)與 NCBI(National Center for Biotechnology Information)的 NR 數(shù)據(jù)庫(kù)(Non-Redundant Protein Sequence Database)進(jìn)行比對(duì),該數(shù)據(jù)庫(kù)覆蓋臨床常見細(xì)菌 7 982 種、真菌 917 種、病毒 7 811 種、寄生蟲124 種,共16 834 種病原微生物。該數(shù)據(jù)庫(kù)為NCBI BLAST 功能依托的重要數(shù)據(jù)庫(kù),為避免蛋白質(zhì)序列冗余而在RefSeq 等多個(gè)參考數(shù)據(jù)庫(kù)基礎(chǔ)上設(shè)計(jì)而成。截至 2021 年 1 月,NR 數(shù)據(jù)庫(kù)包含 87 GB 的Fasta 格式文件(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/),基本包含所有人類及非人類宿主和自然環(huán)境中的已知微生物序列。(2)使用MetaPhlAn2(Metagenomic Phylogenetic Analysis)軟件(2.7.5 版本)與其參考數(shù)據(jù)庫(kù)進(jìn)行比對(duì),該數(shù)據(jù)庫(kù)整理超過17 000 種參考基因組,包括13 500 種細(xì)菌和古菌、3 500 種病毒和110 種真核生物,匯編超過100 萬類群特異的標(biāo)記基因[8]。MetaPhlAn2 軟件可實(shí)現(xiàn)精確地分類群識(shí)別,能夠準(zhǔn)確估計(jì)物種的相對(duì)豐度,并可達(dá)到種水平的精度,分析速度快于NCBI BLAST。以上兩個(gè)數(shù)據(jù)庫(kù)均對(duì)公眾免費(fèi)開放。
統(tǒng)計(jì)學(xué)分析使用SAS 9.4 軟件計(jì)算兩個(gè)數(shù)據(jù)庫(kù)結(jié)果的一致性和Kappa 值,并對(duì)Kappa 值進(jìn)行Z檢驗(yàn),檢驗(yàn)水準(zhǔn)α=0.05。
微生物注釋結(jié)果本研究共收集感染性疾病患者標(biāo)本174 份,包括外周血、腦脊液、痰液、肺泡灌洗液、尿液、胸水、肛拭子、引流液(表1)。通過與NCBI 數(shù)據(jù)庫(kù)比對(duì),共有117 份標(biāo)本檢出微生物(67.2%),包括 185 種細(xì)菌、11 種病毒、12 種真菌;通過與MetaPhlAn2 數(shù)據(jù)庫(kù)比對(duì),共有162 份標(biāo)本檢出微生物(93.1%),注釋出 307 種細(xì)菌、31 種病毒、5 種真菌。不同標(biāo)本的微生物檢出率存在差異,外周血和腦脊液的檢出率相對(duì)較低,其他標(biāo)本的檢出率較高。
表1 微生物注釋結(jié)果(NCBI 數(shù)據(jù)庫(kù)與MetaPhlAn2 數(shù)據(jù)庫(kù))Tab 1 Taxonomic profile result(NCBI database and MetaPhlAn2 database) [n(%)]
NCBI 數(shù)據(jù)庫(kù)的注釋結(jié)果中,細(xì)菌多為肺炎克雷伯菌、屎腸球菌、鮑曼不動(dòng)桿菌等,病毒多為人類皰疹病毒(1 型、4 型 EB 病毒、5 型巨細(xì)胞病毒、7 型)和人類細(xì)小病毒B19,真菌則多為白假絲酵母菌、耶氏肺孢子菌等。MetaPhlAn2 數(shù)據(jù)庫(kù)注釋結(jié)果中,則包含多種較為罕見的病原體,包括紅串紅球菌、樊慶生紅球菌等細(xì)菌,細(xì)環(huán)病毒、EB 病毒和多種植物病毒,以及杜氏假絲酵母菌等真菌。
微生物注釋結(jié)果的比較本研究首先基于數(shù)據(jù)庫(kù)的原始注釋結(jié)果,按照“是否檢出微生物”,計(jì)算兩個(gè)數(shù)據(jù)庫(kù)注釋結(jié)果的一致性僅為67.2%,Kappa 值為0.067 7(Z=1.3189,P=0.093 6);按照檢出微生物種類(細(xì)菌、病毒、真菌、未檢出),則一致性僅為36.8%,Kappa值為0.1779(Z=5.278 1,P<0.001)。
然后調(diào)整兩個(gè)數(shù)據(jù)庫(kù)注釋結(jié)果的判讀標(biāo)準(zhǔn),比較一致性。將MetaPhlAn2 數(shù)據(jù)庫(kù)注釋結(jié)果中的多種細(xì)菌(紅串紅球菌、樊慶生紅球菌)、病毒(細(xì)環(huán)病毒、植物病毒)、真菌(杜氏假絲酵母菌)均判為背景微生物(即不計(jì)入檢出微生物),重新計(jì)算兩個(gè)數(shù)據(jù)庫(kù)注釋結(jié)果的一致性為67.9%,Kappa 值為0.371 3(Z=5.354 3,P<0.001)。進(jìn)一步將 NCBI 數(shù)據(jù)庫(kù)注釋的疑似背景微生物也全部判為背景微生物,則不同類型標(biāo)本的檢出微生物種類趨于一致(表2);此時(shí)計(jì)算一致性為73.0%,Kappa 值為0.571 2(Z=11.736 2,P<0.001,表 3)。
表2 注釋結(jié)果判讀調(diào)整后的檢出的排序前三位的微生物(NCBI 數(shù)據(jù)庫(kù)與MetaPhlAn2 數(shù)據(jù)庫(kù))Tab 2 Top three detected species after adjusting interpretation criteria(NCBI database and MetaPhlAn2 database)
表3 注釋結(jié)果判讀調(diào)整后的檢出微生物種類比較Tab 3 Taxonomic profile after adjusting interpretation criteria
本研究也區(qū)分不同類型標(biāo)本,比較兩個(gè)數(shù)據(jù)庫(kù)注釋結(jié)果的一致性。結(jié)果發(fā)現(xiàn),腦脊液標(biāo)本中檢出一致性最高,為 76.0%,Kappa 值為 0.509 8(Z=4.135 9,P<0.001),且檢出微生物種類(具體到“種”)的一致性為 74.0%,Kappa 值為 0.512 0(Z=5.139 2,P<0.001);外周血標(biāo)本次之,為 69.9%,Kappa值為 0.360 6(Z=4.272 4,P<0.001),檢出微生物種類的一致性也為69.9%,Kappa 值為0.408 3(Z=6.412 2,P<0.001)。其他類型標(biāo)本一致性較低。
目前,mNGS 在臨床和科研中的應(yīng)用愈加廣泛。2019 年在武漢不明原因肺炎患者肺泡灌洗液標(biāo)本中利用mNGS 發(fā)現(xiàn)新型冠狀病毒并進(jìn)行了全基因組測(cè)序[9-10]。在 mNGS 技術(shù)的運(yùn)用過程中,由于檢測(cè)的靈敏性和無偏向性,即使是采集自無菌部位的標(biāo)本,也可能注釋出多種微生物,因此如何更準(zhǔn)確地識(shí)別標(biāo)本中包含的物種信息至關(guān)重要[11]。早期研究一般利用NCBI BLAST 功能將所有測(cè)序結(jié)果與參考數(shù)據(jù)庫(kù)中收錄的微生物基因組全長(zhǎng)序列進(jìn)行比對(duì);然而,該方法十分耗費(fèi)時(shí)間和計(jì)算資源,對(duì)應(yīng)的軟硬件需求較高,隨著測(cè)序數(shù)量和深度增加,這種方法難以滿足分析需求。為了解決這一問題,已陸續(xù)建立多種生物信息學(xué)分析方法,其中之一就是MetaPhlAn2 所代表的標(biāo)記基因方法。該方法從現(xiàn)有數(shù)據(jù)庫(kù)的所有微生物參考序列中,整理出物種特異的標(biāo)記基因,降低了比對(duì)序列的數(shù)量和長(zhǎng)度,從而減少分析時(shí)間、降低計(jì)算資源的需求,該方法已被用于人類微生物組計(jì)劃[12]。本研究發(fā)現(xiàn),不同部位臨床標(biāo)本中MetaPhlAn2 注釋獲得更多微生物種類,提示該數(shù)據(jù)庫(kù)靈敏度更高。然而,該方法也識(shí)別了很多可能屬于背景的微生物,其在腦脊液、外周血等無菌部位標(biāo)本的物種注釋率相對(duì)較低,而其他部位標(biāo)本則相對(duì)較高,這表明開放部位標(biāo)本可能包含定植菌或易于受外界微生物污染,導(dǎo)致物種檢出率升高。之前有研究報(bào)道,mNGS 發(fā)現(xiàn)健康人外周血亦存在微生物核酸序列[13]。因此,在臨床應(yīng)用mNGS 時(shí),需要根據(jù)檢測(cè)的微生物種類和檢出序列數(shù)等不同情況調(diào)整判讀標(biāo)準(zhǔn),注意剔除試劑、環(huán)境、測(cè)序和生物信息分析流程中引入的假陽(yáng)性病原體信息[11]。
本研究在分別調(diào)整NCBI 和MetaPhlAn2 的判讀標(biāo)準(zhǔn)后,兩者檢出微生物種類(細(xì)菌、病毒、真菌、未檢出)和檢出微生物種別(具體到“種”)的一致性均大幅度提高。既往研究在確定感染病原體時(shí),與陰性對(duì)照比較后,一般先排除臨床常見的背景微生物,然后排除測(cè)序前后批次中50%以上標(biāo)本出現(xiàn)的物種,結(jié)合臨床信息和傳統(tǒng)實(shí)驗(yàn)室檢測(cè),最后對(duì)潛在病原體進(jìn)行驗(yàn)證[14]。確認(rèn)是否為條件致病菌感染時(shí),建議綜合考慮患者的免疫狀態(tài)、是否合并基礎(chǔ)疾病、標(biāo)本采集部位等臨床信息[15]。本研究發(fā)現(xiàn),在腦脊液、外周血等無菌部位標(biāo)本中,MetaPhlAn2 方法與傳統(tǒng)的NCBI 數(shù)據(jù)庫(kù)方法一致性較好,鑒于MetaPhlAn2 較快的分析速度和較低的計(jì)算資源要求,可考慮推薦在無菌部位標(biāo)本中采用該物種注釋方法,從而快速指導(dǎo)臨床診療。
由于采集樣本量較小,本研究代表性受一定限制,同時(shí)僅考慮測(cè)序結(jié)果與兩個(gè)數(shù)據(jù)庫(kù)注釋情況,且未與患者臨床信息和傳統(tǒng)實(shí)驗(yàn)室檢測(cè)指標(biāo)相結(jié)合分析,對(duì)臨床治療指導(dǎo)價(jià)值有限。
本研究發(fā)現(xiàn)在無菌標(biāo)本中,MetaPhlAn2 的準(zhǔn)確度不遜于傳統(tǒng)的NCBI??紤]到MetaPhlAn2 對(duì)計(jì)算機(jī)計(jì)算能力要求較低,便于臨床使用,因此該數(shù)據(jù)庫(kù)可以作為NCBI 的補(bǔ)充:首先根據(jù)MetaPhlAn2判讀結(jié)果快速識(shí)別病原體、先行指導(dǎo)治療;然后根據(jù)NCBI 判讀結(jié)果進(jìn)行修正,從而實(shí)現(xiàn)更快速的診療。
作者貢獻(xiàn)聲明李曼詩(shī) 數(shù)據(jù)整理、統(tǒng)計(jì)分析,論文撰寫。黃巍峰 研究設(shè)計(jì),數(shù)據(jù)采集,論文修改。陸一涵 研究設(shè)計(jì),論文構(gòu)思和修改。
利益沖突聲明所有作者均聲明不存在利益沖突。