阮 真, 朱鵬飛, 張 磊, 陳榮澤, 李洵融, 付曉婷,黃正谷, 周 剛, 籍月彤, 廖 璞,2*
1.重慶醫(yī)科大學(xué)檢驗(yàn)醫(yī)學(xué)院,臨床檢驗(yàn)診斷學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,重慶 400016 2.重慶市人民醫(yī)院檢驗(yàn)科,重慶 400013 3.中國科學(xué)院青島生物能源與過程研究所單細(xì)胞中心,山東 青島 266101 4.重慶市公共衛(wèi)生醫(yī)療救治中心,中心實(shí)驗(yàn)室,重慶 400036 5.青島星賽生物科技有限公司,山東 青島 266101
非結(jié)核分枝桿菌(non-tuberculosis mycobacteria, NTM)作為分枝桿菌屬中除結(jié)核分枝桿菌復(fù)合群(Mycobacteriumtuberculosiscomplex, MTC)和麻風(fēng)分支桿菌以外的分枝桿菌,截至目前共發(fā)現(xiàn)近200種,致病能力各不相同[1]。分枝桿菌具有相似的生物學(xué)性狀:多生長周期長(1~8周)、有抗酸性。NTM導(dǎo)致人類感染無論是臨床癥狀還是其培養(yǎng)后的菌落常與MTC難以區(qū)分,導(dǎo)致其易被誤認(rèn)為MTC進(jìn)行診治,但常規(guī)的MTC治療方案對(duì)NTM可能沒有效果,還會(huì)誘導(dǎo)耐藥菌的產(chǎn)生[2-3]。近年來NTM的分離率不斷增加,許多國家和地區(qū)在結(jié)核病的發(fā)病率不斷下降的同時(shí)NTM的感染率和耐藥率卻在不斷上升[4-5]。NTM感染的診斷和治療依賴于病原學(xué)依據(jù)[6-7]。由于存在生物安全風(fēng)險(xiǎn),常規(guī)實(shí)驗(yàn)室多未對(duì)分枝桿菌進(jìn)行鑒定。目前,基因測(cè)序是NTM鑒定的金標(biāo)準(zhǔn),但操作相對(duì)繁瑣,需在專業(yè)實(shí)驗(yàn)室進(jìn)行檢測(cè)。商品化試劑盒用于鑒別NTM其敏感性受標(biāo)本質(zhì)量影響較大,僅能用于常見NTM鑒定,無法對(duì)新物種檢測(cè)[8-9]。當(dāng)下亟須一種能快速、準(zhǔn)確區(qū)分和鑒定NTM的新方法來幫助臨床診斷NTM感染。
單細(xì)胞拉曼光譜技術(shù)(single-cell Raman spectroscopy,SCRS)是基于拉曼光譜分析原理實(shí)現(xiàn)檢測(cè)物質(zhì)結(jié)構(gòu)的新方法,通過收集檢測(cè)物的生物學(xué)信息(包括蛋白質(zhì)、核酸、脂質(zhì)等)組成生物體特有的“指紋圖譜”,并結(jié)合不同的分析方法實(shí)現(xiàn)對(duì)檢測(cè)物的快速、準(zhǔn)確區(qū)分[10-11]。由于SCRS檢測(cè)樣本無需特殊處理、操作簡便,20世紀(jì)初SCRS開始應(yīng)用于病原微生物研究在微生物鑒定方面展現(xiàn)了強(qiáng)大的應(yīng)用前景[12-13]。
本次實(shí)驗(yàn)選擇了NTM菌群中六種最常導(dǎo)致臨床感染的NTM菌株,通過直接單個(gè)細(xì)胞拉曼檢測(cè)、原始拉曼光譜比較、峰位注釋分析、比較常用的六種分類器效果,來尋找最適合NTM區(qū)分鑒定的分類方法,為臨床快速、準(zhǔn)確鑒定NTM提供新思路。
實(shí)驗(yàn)涉及NTM菌株共六種(表1),由重慶市公共衛(wèi)生醫(yī)療救治中心實(shí)驗(yàn)室提供。經(jīng)滅活后送至北京睿博興科生物技術(shù)有限公司(RuiBio BioTech)進(jìn)行16S rRNA 測(cè)序鑒定,確定細(xì)菌種類。
表1 菌株列表及獲得單細(xì)胞拉曼光譜數(shù)
在Ⅱ級(jí)生物安全柜內(nèi)將NTM菌株接種在Loewenstein-Jensen(L-J)培養(yǎng)基上,置于細(xì)菌培養(yǎng)箱中,37 ℃培養(yǎng)14 d。培養(yǎng)后的NTM菌落于生理鹽水中制備菌懸液。放入恒溫金屬浴中100 ℃ 15 min, 對(duì)NTM菌株滅活。已有研究證實(shí)高溫滅活微生物細(xì)胞對(duì)后續(xù)拉曼檢測(cè)結(jié)果影響不大[14]。
檢測(cè)單細(xì)胞的拉曼光譜由臨床單細(xì)胞拉曼耐藥性快檢儀(CAST-R,青島星賽)收集。具體配備含有532 nm Nd∶YAG激光器(cobolt,Sweden),CCD圖像傳感器(Andor,UK),100倍長焦鏡頭(NA=0.95,Olympus,Japan)等。
取1 mL菌液,10 000 g離心2 min收集菌體后用超純水洗滌3次,重懸于1 mL超純水中。取重懸后的菌液1 μL于干凈的氟化鈣玻片上,將樣品置于拉曼光譜儀的顯微鏡下,進(jìn)行拉曼測(cè)量。每個(gè)樣品隨機(jī)選取 100個(gè)單細(xì)胞和4個(gè)無細(xì)胞區(qū)域,逐一收集拉曼光譜。單細(xì)胞拉曼光譜測(cè)量參數(shù)為:輸出激光為532 nm,輸出強(qiáng)度約為100 mW, 50% filter下收集時(shí)間為5 s。
采用R軟件對(duì)6種單細(xì)胞拉曼光譜進(jìn)行減背景、一階導(dǎo)數(shù)變換和Savitzky-Golay卷積平滑處理,將處理后的數(shù)據(jù)按照7∶3的比例劃分成訓(xùn)練集和測(cè)試集,采用訓(xùn)練集數(shù)據(jù)構(gòu)建各類預(yù)測(cè)模型,應(yīng)用該模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),測(cè)試模型性能。處理后的光譜進(jìn)行t-分布式隨機(jī)鄰域嵌入,測(cè)試支持向量機(jī)分析(support vector machine,SVM)、K最近鄰分類算法(K-nearest neighbor method, KNN)、偏最小二乘判別分析(partial least square-discriminate analysis,PLS-DA)、隨機(jī)森林(random forests, RF)、線性判別分析(linear discriminant analysis,LDA)、XG Boost等的分類效果。
本研究共獲得6種NTM菌株細(xì)胞拉曼特征光譜553 例,表1記錄了具體光譜分布。經(jīng)基線扣除及歸一化處理后,各樣品的絕對(duì)峰值差異已經(jīng)消除,各樣品已基本處于分析的同一水平線。從不同類別細(xì)胞光譜的平均光譜可以看出,不同分枝桿菌的單細(xì)胞拉曼光譜的大致形態(tài)相似,但根據(jù)平均光譜的差異峰譜可以看出,不同分枝桿菌的單細(xì)胞拉曼光譜在局部波數(shù)范圍內(nèi)存在不同程度的差異(圖1)。
圖1 六種NTM細(xì)胞平均拉曼光譜及差異峰譜
其中,戈登分枝桿菌與其他分枝桿菌的差異較大,主要表現(xiàn)在類胡蘿卜素(1 153.82和1 518.22 cm-1)含量高于其他細(xì)胞,代表戈登分枝桿菌單細(xì)胞相較于其他分枝桿菌而言存在細(xì)胞色素的累積(表2)。土分枝桿菌的單細(xì)胞拉曼光譜顯示其苯丙氨酸(1 004.49 cm-1等)位置上與其他分枝桿菌的光譜相比強(qiáng)度較低,代表土分枝桿菌中苯丙氨酸的含量相對(duì)較少。分枝桿菌細(xì)胞壁中復(fù)合脂質(zhì)含量較高,其主要成分為分枝菌酸(碳原子含量70~90個(gè)),分枝菌酸被認(rèn)為是分枝桿菌不同種屬間特異性的化合物,不同種的分枝桿菌菌酸含量存在差異[15]。從NTM細(xì)胞的拉曼光譜圖中也可觀察到這種差異性,在1 449.47 cm-1位置上,六種分枝桿菌的拉曼信號(hào)強(qiáng)度呈現(xiàn)階梯式差異,代表六種NTM單細(xì)胞內(nèi)菌酸含量呈現(xiàn)不同程度的差異。
表2 細(xì)胞拉曼光譜的峰位歸屬
為驗(yàn)證光譜數(shù)據(jù)結(jié)構(gòu)是否具有可分性,在訓(xùn)練分類器之前,采用低維投影可視化的方法測(cè)試數(shù)據(jù)在低維空間上是否可分。將原始光譜進(jìn)行減背景,一階導(dǎo)數(shù)變換及Savitzky-Golay卷積平滑處理(圖2),然后采用t-SNE的方法展示數(shù)據(jù)在二維空間上的區(qū)分程度。
圖2 預(yù)處理后的六種NTM細(xì)胞平均拉曼光譜
將高維的光譜數(shù)據(jù)在二維空間中進(jìn)行展示(圖3)。根據(jù)結(jié)果可以看出,六種NTM可以較好的相互區(qū)分開,代表雖然屬于同一菌屬的分枝桿菌在生物學(xué)性狀上不易區(qū)分,但它們的拉曼光譜數(shù)據(jù)結(jié)構(gòu)存在很好的可分性。其中土分枝桿菌和堪薩斯分枝桿菌相對(duì)其他種類的分枝桿菌的區(qū)分程度更顯著。
圖3 六種NTM單細(xì)胞拉曼光譜的t-SNE聚類結(jié)果
為獲得更好的分類效果,本研究測(cè)試了六種常用的機(jī)器學(xué)習(xí)的方法構(gòu)建分類器,分別為SVM,KNN,PLS-DA,RF,LDA和XG Boost。六種分析方法對(duì)分枝桿菌單細(xì)胞拉曼光譜進(jìn)行建模分析,采用相同的訓(xùn)練及測(cè)試過程,通過比較測(cè)試集的分類準(zhǔn)確率選擇最合適的分類方法。
首先按照7∶3的比例將預(yù)處理后的數(shù)據(jù)隨機(jī)劃分成訓(xùn)練集和測(cè)試集,采用相同的訓(xùn)練集數(shù)據(jù)對(duì)不同方法的模型進(jìn)行預(yù)測(cè),應(yīng)用模型對(duì)相同的測(cè)試集進(jìn)行驗(yàn)證,測(cè)試模型性能。根據(jù)測(cè)試的結(jié)果顯示SVM 和LDA的預(yù)測(cè)準(zhǔn)確率較高,對(duì)六種分枝桿菌的分類效果較好,預(yù)測(cè)準(zhǔn)確率分別為99.4%和98.8%,而且?guī)缀跛蟹诸惼鞯姆诸愋Ч寄苓_(dá)到80%以上(表3)。
表3 六種分類器的分類測(cè)試結(jié)果
提取兩個(gè)模型的混淆矩陣后可以發(fā)現(xiàn),SVM模型僅有一個(gè)單細(xì)胞預(yù)測(cè)錯(cuò)誤,將堪薩斯分枝桿菌分類成土分枝桿菌,預(yù)測(cè)準(zhǔn)確率為97.96%(48/49);其他種類的分類效果達(dá)到了100%(表4)。而LDA模型有兩個(gè)單細(xì)胞預(yù)測(cè)錯(cuò)誤:將1個(gè)膿腫分枝桿菌細(xì)胞分類成偶發(fā)分枝桿菌,預(yù)測(cè)準(zhǔn)確率為95.65%(22/23);將1個(gè)戈登分枝桿菌細(xì)胞分類成土分枝桿菌,預(yù)測(cè)準(zhǔn)確率為96.30%(26/27),對(duì)其他分枝桿菌的分類效果可以達(dá)到100%(表5)。
表4 SVM的混淆矩陣
表5 LDA的混淆矩陣
通過對(duì)六種不同的分類器的效果比較,提出一種基于特征拉曼光譜訓(xùn)練SVM模型的方法來鑒定六種非結(jié)核分枝桿菌。在利用已知種類的單細(xì)胞拉曼光譜樣本構(gòu)建數(shù)據(jù)庫的基礎(chǔ)上,可以實(shí)現(xiàn)對(duì)未知非結(jié)核分枝桿菌樣本的鑒定。單細(xì)胞拉曼技術(shù)有快速、簡易、成本低等優(yōu)勢(shì),未來通過大量臨床樣本的檢驗(yàn)及數(shù)據(jù)庫的擴(kuò)充,具備為臨床醫(yī)生提供更快速、便捷、低成本的臨床輔助診斷方案的巨大潛力。
此外,還可以結(jié)合拉曼分選與單細(xì)胞測(cè)序(RACS-Seq),驗(yàn)證拉曼光譜分類和鑒定的結(jié)果,并揭示全基因組水平、單堿基精度的遺傳信息[16]。針對(duì)大腸桿菌,我們前期已經(jīng)證明,利用RAGE-Seq能從臨床尿液樣本中利用單細(xì)胞拉曼光譜直接識(shí)別和分選出耐受特定抗生素的臨床大腸桿菌,并進(jìn)行了精確到一個(gè)細(xì)胞的全基因組測(cè)序,覆蓋度可達(dá)99.5%[17]。這一高覆蓋保證了基因組上所有耐藥基因突變均得以全面、精確地揭示。因此,本研究基于拉曼光譜的NTM分類和鑒別,為一個(gè)針對(duì)NTM的 RACS-Seq奠定了基礎(chǔ)。這種在單個(gè)病原微生物細(xì)胞精度的臨床分析,代表著生命單元和進(jìn)化單位水平的病原識(shí)別、基因組追蹤與藥敏機(jī)制研究,因此對(duì)于新一代的疾病防控平臺(tái)具有重要的意義。
綜上,顯微共聚焦單細(xì)胞拉曼光譜技術(shù)與各種機(jī)器學(xué)習(xí)的方法可以對(duì)生物樣本進(jìn)行種類鑒定,從生物大分子的結(jié)構(gòu)、組成及相對(duì)含量等方面給出依據(jù),可為臨床診斷及微生物學(xué)研究提供有力的技術(shù)支撐。