李新立, 叢麗麗, 徐抒平, 李肅義*
1. 吉林大學(xué)儀器科學(xué)與電氣工程學(xué)院, 吉林 長春 130061
2. 吉林大學(xué)化學(xué)學(xué)院超分子結(jié)構(gòu)與材料國家重點實驗室, 吉林 長春 130012
單細胞微生物生長時期可分為滯后期(lag phase)、 對數(shù)期(log phase)、 穩(wěn)定期(stationary phase)和衰亡期(apoptosis phase)4個時期[1], 在不同的生長時期表現(xiàn)出不同的代謝和生產(chǎn)能力, 由于細胞的異質(zhì)性, 導(dǎo)致了微生物菌落中不同生長時期的細胞共存[2-3], 傳統(tǒng)群體水平上的細胞生長代謝研究, 得到的是系統(tǒng)平均值, 掩蓋了每個細胞的獨特性。 在單細胞水平上觀測細胞生長是非常重要的, 在發(fā)酵工程中, 單細胞的生理狀態(tài)是決定發(fā)酵產(chǎn)品產(chǎn)量的唯一因素[4-5], 發(fā)酵環(huán)境隨著底物消耗和產(chǎn)物合成不斷變化, 導(dǎo)致不同生長時期的發(fā)酵細胞代謝不同, 產(chǎn)量也不同[6-7]。 隨著發(fā)酵原料成本的增加和環(huán)保意識的增強, 對發(fā)酵過程的精準控制要求越來越高, 從單細胞水平上檢測發(fā)酵細胞生長時期, 并進行特定干預(yù)措施改造發(fā)酵環(huán)境, 可以使發(fā)酵細胞處于最佳的生長和生產(chǎn)狀態(tài)。 準確檢測單細胞所處生長時期, 可為發(fā)酵工程獲得最佳產(chǎn)量提供更加精準、 實時的調(diào)控指導(dǎo)[8]。
單細胞拉曼光譜(single-cell Raman spectroscopy, SCRS)是細胞的指紋圖譜, 蘊含著細胞在特定生長狀態(tài)下豐富的表型信息, SCRS技術(shù)以快速、 靈敏和無標記的優(yōu)勢可以實時監(jiān)測單細胞的生長代謝變化。 以監(jiān)督學(xué)習(xí)為代表的模式識別技術(shù)通過對SCRS數(shù)據(jù)學(xué)習(xí)并生成經(jīng)驗?zāi)P蚚9], 可以指導(dǎo)細胞生長時期鑒定, 已有研究人員應(yīng)用隨機森林算法[10]實現(xiàn)了群體水平上的細胞生長檢測, 相較于監(jiān)督學(xué)習(xí), 無監(jiān)督學(xué)習(xí)只需要定義相似度計算方法就可以直接根據(jù)SCRS數(shù)據(jù)特征結(jié)構(gòu)進行建模, 就能從單細胞尺度上實時監(jiān)測細胞生長代謝變化。
本文提出基于譜聚類與SCRS的細胞生長分析方法, 首先, 采集同步培養(yǎng)下不同生長時間的微生物SCRS數(shù)據(jù), 對應(yīng)培養(yǎng)時間的OD600生長曲線作為微生物群體水平生長時期標簽; 其次, 應(yīng)用t分布隨機鄰居嵌入(t-distributed stochastic neighbor embedding, t-SNE)對群體細胞SCRS數(shù)據(jù)進行可視化分析, 指導(dǎo)譜聚類對高維SCRS數(shù)據(jù)聚類分析, 并應(yīng)用輪廓系數(shù)和CH系數(shù)(calinski-harabasz index, CH index)評估最佳聚類簇, 賦予每個SCRS數(shù)據(jù)簇標簽; 最后, 應(yīng)用三次樣條插值擬合統(tǒng)計SCRS數(shù)據(jù)簇標簽和生長時期標簽交集, 精準識別群體中共存的生長時期異質(zhì)數(shù)據(jù), 實現(xiàn)對單細胞微生物生長時期精準鑒定。
1.1.1 分光光度計檢測和SCRS檢測條件
在細胞培養(yǎng)實驗中, 提取不同培養(yǎng)時間點各3 mL菌液, 應(yīng)用紫外分光光度計檢測, 檢測條件為OD600, 記錄細菌生長狀態(tài), 圖1分別為實驗組(大腸桿菌)和驗證組(枯草芽孢桿菌)各3次重復(fù)測量同步培養(yǎng)的OD600生長曲線, 將其作為群體水平生長時期標簽。 同時在各培養(yǎng)時間點提取1 μL菌液, 應(yīng)用HOOKE P300共聚焦拉曼光譜儀進行SCRS采集(由于微生物SCRS在600~1 800 cm-1波段具有明顯的光譜模式, 往往作為其表型指紋區(qū)域, 故光譜儀主要參數(shù)設(shè)置為, 激發(fā)波長(excitation wavelength): 532 nm , 光柵(Grating): 1 200 g·mm-1, 激發(fā)功率(laser power): 3 mW, 積分時間(integration time): 8 s。 SCRS檢測可以獲取單個細胞生長過程的實時變化信息, 提供了用于生物分析的化學(xué)組成和結(jié)構(gòu)信息的指紋圖譜, 蘊含著細胞在特定生長狀態(tài)下豐富的表型信息, 檢測SCRS特征峰強變化是細胞生長定性、 定量檢測的主要依據(jù), 可以通過檢測細胞代謝活躍的核酸(I785.5、I1 047.5、I1 097.2等)、 蛋白(I624.3、I831.2、I1 034等)、 脂質(zhì)(I878、I1 075)等[11]相關(guān)特征峰強度變化, 實時檢測單細胞的生長代謝狀態(tài)。 SCRS是進行單細胞活體生長檢測的實用工具, 本文將SCRS技術(shù)和無監(jiān)督聚類技術(shù)相結(jié)合, 為單細胞微生物生長檢測研究提供新的檢測方法。
圖1 單細胞微生物同步培養(yǎng)與OD600生長曲線
1.1.2 微生物樣品選擇與同步培養(yǎng)
將常用的發(fā)酵工程菌-大腸桿菌進行同步培養(yǎng)實驗, 以獲取不同生長時期的單細胞樣品, 作為模式生物突出的代表, 大腸桿菌具有繁殖迅速, 培養(yǎng)代謝易于控制的優(yōu)勢, 是目前生命科學(xué)研究最為公認的微生物材料[12-13]。 準確檢測發(fā)酵過程中工程菌生長狀態(tài), 是獲取最佳發(fā)酵產(chǎn)量的前提。 為了驗證本文方法的適用性, 同時選用了一種常用發(fā)酵益生菌-枯草芽孢桿菌作為細胞生長研究驗證組樣品。
大腸桿菌的培養(yǎng)基為LB(luria-bertani), 而枯草芽孢桿菌的培養(yǎng)基為牛肉膏蛋白胨, 分別在其對應(yīng)的培養(yǎng)基進行同步培養(yǎng), 記錄細菌的培養(yǎng)時間。 根據(jù)圖1不同培養(yǎng)時間OD600生長曲線, 確定培養(yǎng)2 h為滯后期, 該時期菌體增大, 代謝活躍, 合成并積累充足的酶和代謝產(chǎn)物; 3~4 h為對數(shù)期(驗證組為3~5 h), 細菌在該時期生長迅速, 呈現(xiàn)指數(shù)生長趨勢, 增代時間最少; 培養(yǎng)6 h(驗證組為8 h)至14 h, 即進入穩(wěn)定期, 隨著培養(yǎng)時間延長, 未發(fā)現(xiàn)明顯的凋亡期界限, 但這并不影響生長曲線的走向以及對單細胞生長時期的識別, 本文僅涉及細胞前三個時期檢測。 應(yīng)用SCRS檢測條件分別從實驗組和驗證組提取的菌液采集SCRS數(shù)據(jù), 實驗組6個培養(yǎng)時間點共采集600個(6時間點×100個/時間點)SCRS數(shù)據(jù), 驗證組6個培養(yǎng)時間點共采集300個(6時間點×50個/時間點)SCRS數(shù)據(jù)。
SCRS數(shù)據(jù)預(yù)處理是準確鑒定細胞生長時期的前提, 通過拉曼光譜儀采集的SCRS數(shù)據(jù)包含大量的干擾信息, 如光譜儀噪聲、 熒光背景等, 干擾信息使得檢測模型的識別性能降低, 在數(shù)據(jù)分析之前, 需要對SCRS數(shù)據(jù)進行預(yù)處理。 本文應(yīng)用HOOKE intP拉曼光譜分析軟件對SCRS數(shù)據(jù)預(yù)處理, 包括: 應(yīng)用基于Savitzky-Golay卷積平滑對SCRS數(shù)據(jù)進行濾波處理, 窗口寬度為7個光譜像素點, 采用三階多項式擬合; 應(yīng)用基于airPLS(自適應(yīng)迭代重加權(quán)懲罰最小二乘)算法去除拉曼光譜背景信號, Lambda=15, 最大迭代次數(shù)ItermaxAirPls=12; 應(yīng)用Min-Max對SCRS數(shù)據(jù)歸一化處理。
基于譜聚類與SCRS的細胞生長分析方法應(yīng)用的主要技術(shù)包括: (1) 應(yīng)用t-SNE對群體細胞SCRS數(shù)據(jù)進行可視化分析; (2)應(yīng)用譜聚類對SCRS數(shù)據(jù)聚類分析; (3) 應(yīng)用輪廓系數(shù)和CH index評估最佳聚類簇。
1.3.1 t-SNE
t-SNE[14]算法是一種適合于高維SCRS數(shù)據(jù)的非線性降維方法, 該方法首先將高維空間中任意兩個光譜數(shù)據(jù)間的歐氏距離轉(zhuǎn)換為相似概率, 其次用高維空間數(shù)據(jù)點與相應(yīng)低維空間的模擬數(shù)據(jù)點之間的聯(lián)合概率替換隨機鄰域嵌入算法中的條件概率, 并在低維空間中使用t分布, 有效解決低維空間中數(shù)據(jù)點擁擠的問題。 以二維可視化為例, t-SNE將SCRS指紋特征向具有最大投影信息量的二維平面上投影, 以高維空間相同概率分布的TSNE1和TSNE2特征分量均勻分布在平面中, 有效解決低維空間中數(shù)據(jù)點擁擠的問題, 用于直觀顯示不同培養(yǎng)時間單細胞分布效果, 指導(dǎo)無監(jiān)督聚類分析。
1.3.2 譜聚類
譜聚類(spectral clustering)是一種基于兩點間相似關(guān)系的無監(jiān)督聚類算法[15], 首先對SCRS數(shù)據(jù)樣本高維矩陣進行低維嵌入, 然后進行聚類。 其本質(zhì)是將聚類問題轉(zhuǎn)化為圖的最優(yōu)劃分問題, 相較于其他傳統(tǒng)聚類算法, 譜聚類能在任意形狀的SCRS數(shù)據(jù)樣本空間上聚類且易于收斂到全局最優(yōu), 并且通過構(gòu)造稀疏相似性圖譜, 使其對于高維SCRS數(shù)據(jù)集表現(xiàn)出更快的計算速度。 特別的, 相較于監(jiān)督學(xué)習(xí)的分類算法, 譜聚類無需SCRS數(shù)據(jù)標簽, 只需要定義相似度計算方法就可以直接根據(jù)SCRS數(shù)據(jù)特征進行建模, 能有效檢測微生物群體中不同生長時期共存的單細胞信息。
1.3.3 聚類評估
聚類評估是對聚類方法產(chǎn)生結(jié)果的質(zhì)量進行評估, 主要任務(wù)包括: 估計聚類趨勢、 確定數(shù)據(jù)集劃分簇數(shù)以及評估聚類質(zhì)量, 應(yīng)用輪廓系數(shù)和CH index兩個維度來評估譜聚類在SCRS數(shù)據(jù)集劃分最佳簇數(shù)和聚類質(zhì)量。
(1) 輪廓系數(shù)(silhouette coefficient)是聚類效果好壞的一種評價方式[16], 它結(jié)合內(nèi)聚度和分離度兩種因素, 在SCRS數(shù)據(jù)上評價譜聚類對聚類結(jié)果所產(chǎn)生的影響, 式(1)是輪廓系數(shù)聚類得分計算原理
(1)
式(1)中,A(i)為SCRS數(shù)據(jù)樣本i到同簇其他樣本的平均距離,B(i)為SCRS數(shù)據(jù)樣本i到其他簇的所有樣本的平均距離。
(2) CH index[17]也被稱為方差比準則, 用來評價譜聚類在SCRS數(shù)據(jù)集上的聚類效果, 聚類質(zhì)量由CH index得分表征, CH index得分通過計算簇間方差和簇內(nèi)方差計算得到的, 式(2)是CH index得分計算原理
(2)
式(2)中,k為譜聚類在SCRS數(shù)據(jù)集上聚類簇數(shù),N為全部SCRS數(shù)據(jù)樣本個數(shù),VB是簇間方差,VW是簇內(nèi)方差。
本文應(yīng)用HOOKE intP軟件對實驗組和驗證組同步培養(yǎng)的SCRS數(shù)據(jù)進行批處理。 在實驗組(大腸桿菌)中, 1、 2、 …、 14 h每個培養(yǎng)時間點各采集100個SCRS數(shù)據(jù), 依據(jù)圖1中OD600生長曲線分別將1和2 h、 3和4 h、 6和14 h采集的大腸桿菌SCRS數(shù)據(jù)對應(yīng)到lag phase、 log phase和stationary phase三個生長時期標簽, 每個生長時期200個數(shù)據(jù)。 用堆疊圖(stacked lines by Y offsets)顯示三個生長時期SCRS數(shù)據(jù)預(yù)處理效果, 如圖2(a)所示, 分別以實線和陰影部分顯示三個生長時期200個SCRS數(shù)據(jù)平均值和方差, 橫坐標為拉曼位移(cm-1), 由于微生物生長過程中的異質(zhì)性較為穩(wěn)定, 表現(xiàn)出三個生長時期光譜具有較低的方差。 對三組大腸桿菌的SCRS數(shù)據(jù)做探索性數(shù)據(jù)分析(EDA), 分別用圖2(b)密度圖和圖2(c)帶抖動點的箱線圖觀測三組數(shù)據(jù)信噪比(SNR)分布情況, 其中l(wèi)ag phase 光譜信噪比均值和方差為4.97±1.54, log phase光譜信噪比4.74±1.17, stationary phase 光譜信噪比4.84±1.21, 三個生長時期SCRS數(shù)據(jù)特征呈現(xiàn)較為穩(wěn)定的均勻分布, 保證了預(yù)期檢測結(jié)果不受SNR影響。
圖2 大腸桿菌不同生長時期SCRS數(shù)據(jù)預(yù)處理效果
基于譜聚類與SCRS的細胞生長檢測結(jié)果建立在1.3方法的基礎(chǔ)上, 在t-SNE方法中, 嵌入空間維度(n_components)選擇為2維, 譜聚類的相似度計算方法(affinity)選用最近鄰算法, 聚類評估中聚類簇數(shù)(n_clusters)最大值為9簇。
2.2.1 實驗組聚類和評估
對實驗組600個(6個培養(yǎng)時間點各采集100個SCRS數(shù)據(jù))大腸桿菌SCRS數(shù)據(jù)聚類分析, 首先, 將高維的SCRS數(shù)據(jù)應(yīng)用t-SNE投影到二維平面, 見圖3(a)中, 用不同形狀、 顏色散點標記同步培養(yǎng)的1、 2、 3、 4、 6和14 h等6個生長時期標簽的大腸桿菌群體細胞; 其次, 基于圖3(a)的散點分布結(jié)果, 應(yīng)用譜聚類對平面上SCRS數(shù)據(jù)進行聚類分析, 見圖3(c)中, (c)左下折線圖為應(yīng)用輪廓系數(shù)(S_C)和CH index(C—H)對譜聚類在大腸桿菌SCRS數(shù)據(jù)集上劃分的簇數(shù)和聚類質(zhì)量的評估得分折線圖, 發(fā)現(xiàn)當聚為3簇時達到最佳聚類效果, 沿著TSNE1和TSNE2坐標分布顯示了3個清晰可分離的簇, 聚類中心(紅色圓點)到簇內(nèi)和其他聚類中心平均距離(從左到右): (13.86, 40.16), (14.16, 56.31), (13.98, 58.52); 最后, 應(yīng)用三次樣條插值擬合統(tǒng)計SCRS數(shù)據(jù)簇標簽和OD600生長時期標簽交集, 圖3 (b)中有效識別60個異質(zhì)SCRS數(shù)據(jù), 占總SCRS數(shù)量的9%。
圖3 應(yīng)用譜聚類檢測大腸桿菌細胞生長時期結(jié)果
2.2.2 驗證組聚類和評估
用驗證組的300個(6個培養(yǎng)時間點各采集50個SCRS數(shù)據(jù))枯草芽孢桿菌SCRS數(shù)據(jù)驗證方法適用性, 應(yīng)用與實驗組相同的預(yù)處理方法, 對三組枯草芽孢桿菌的SCRS數(shù)據(jù)做EDA分析, lag phase、 log phase和stationary phase光譜信噪比均值和方差分別為: 5.35±0.67、 4.85±0.77、 5.9±1.01, 滿足數(shù)據(jù)質(zhì)量評估。 圖4(a)為同步培養(yǎng)下1、 2、 3、 5、 8和14 h等6個時期枯草芽孢桿菌SCRS數(shù)據(jù)經(jīng)t-SNE壓縮后的平面分布; 圖4 (c) 輪廓系數(shù)(S_C)和CH index(C—H)聚類評估得分顯示, 不同生長時期的芽孢桿菌同樣聚為3簇時達到最佳聚類效果, 各聚類中心到簇內(nèi)和其他聚類中心平均距離(從左到右): (11.82, 34.23), (10.23, 51.47), (10.01, 48.09); 圖4 (b)同樣應(yīng)用三次樣條插值擬合統(tǒng)計SCRS數(shù)據(jù)簇標簽和OD600生長時期標簽交集, 檢測出13個不同生長時期異質(zhì)SCRS數(shù)據(jù), 占總SCRS數(shù)量的4.3%。
圖4 應(yīng)用譜聚類檢測枯草芽孢桿菌細胞生長時期結(jié)果
實驗和驗證結(jié)果表明, 基于譜聚類與SCRS的細胞生長分析方法只需要借助同步培養(yǎng)的群體細胞OD600生長曲線和給定相似度計算方法就可以直接根據(jù)SCRS數(shù)據(jù)特征進行建模, 能有效檢測微生物群體中不同生長時期共存的單細胞信息, 真正意義上實現(xiàn)從單細胞尺度精準檢測細胞生長時期。
單細胞拉曼光譜技術(shù)以快速、 靈敏和無標記的優(yōu)勢可以實時監(jiān)測單細胞的生長代謝變化, 以監(jiān)督學(xué)習(xí)為代表的模式識別技術(shù)往往需要精準的監(jiān)督標簽, 然而由于細胞異質(zhì)性, 同步培養(yǎng)的群體細胞OD600生長曲線無法作為每個單細胞生長時期標簽。 本文將SCRS技術(shù)和無監(jiān)督聚類技術(shù)相結(jié)合, 為單細胞微生物生長檢測研究提供新的檢測方法, 基于譜聚類無需標記就可以直接根據(jù)SCRS數(shù)據(jù)特征進行建模, 并能夠?qū)θ我庑螤畹母呔SSCRS數(shù)據(jù)聚類且快速收斂的優(yōu)勢, 對發(fā)酵工程菌和發(fā)酵益生菌細胞滯后期、 對數(shù)期和穩(wěn)定期的精準識別, 實現(xiàn)了真正意義上從單細胞水平上檢測細胞生長, 為發(fā)酵工程提供更加精準、 實時的調(diào)控指導(dǎo), 具有重要的工程應(yīng)用價值。