馮 春, 趙南京, 殷高方, 甘婷婷, 陳曉偉,陳 敏, 華 卉, 段靜波, 劉建國(guó)
1. 中國(guó)科學(xué)院環(huán)境光學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室, 中國(guó)科學(xué)院安徽光學(xué)精密機(jī)械研究所, 安徽 合肥 230031 2. 中國(guó)科學(xué)技術(shù)大學(xué), 安徽 合肥 230026 3. 安徽省環(huán)境光學(xué)監(jiān)測(cè)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 安徽 合肥 230031
近年來(lái)多波長(zhǎng)透射光譜因具有豐富的特征光譜信息成為研究水體致病菌的重要工具。 不少學(xué)者結(jié)合細(xì)菌的多波長(zhǎng)透射光譜建立光譜解析模型, 研究了細(xì)菌大小、 濃度和化學(xué)組分等特征信息的獲取方法[1-3]。 目前雖然在水體致病菌的多波長(zhǎng)透射光譜識(shí)別方面已經(jīng)開(kāi)展了一定的研究工作[4-5], 但由于不同細(xì)菌微生物的光譜相似性較高, 且光譜會(huì)隨細(xì)菌微生物所處環(huán)境條件的變化而變化, 比如濃度、 生長(zhǎng)階段等, 這些因素大大增加了細(xì)菌微生物的識(shí)別難度。 分析不同細(xì)菌多波長(zhǎng)透射光譜的特征差異性, 可以更好地實(shí)現(xiàn)基于多波長(zhǎng)透射光譜法的水體致病菌的識(shí)別。
在目標(biāo)分析物的光譜特征提取和光譜識(shí)別方法研究方面, 高斌等以移動(dòng)平滑算法處理光譜數(shù)據(jù), 通過(guò)“組合放大”提取光譜特征并基于BP神經(jīng)網(wǎng)絡(luò)完成對(duì)不同動(dòng)物血液的熒光光譜識(shí)別[6]; 宮鵬等研究了高光譜數(shù)據(jù)處理的一系列方法,結(jié)合神經(jīng)元網(wǎng)絡(luò)算法實(shí)現(xiàn)不同針葉樹(shù)種的光譜差異分析與識(shí)別[7]; 張正勇等將紫外可見(jiàn)光譜與化學(xué)計(jì)量法相結(jié)合提取光譜特征, 進(jìn)行白酒年份的鑒別[8]。 鑒于此, 本文以肺炎克雷伯氏菌、 金黃色葡萄球菌、 鼠傷寒沙門(mén)氏菌、 銅綠假單胞菌和大腸埃希氏菌為研究對(duì)象, 獲取細(xì)菌在不同狀態(tài)下的多波長(zhǎng)透射光譜, 對(duì)光譜進(jìn)行歸一化處理得到了細(xì)菌光譜的最佳測(cè)量范圍, 通過(guò)方差分析法得到光譜變動(dòng)最顯著的特征波長(zhǎng)區(qū)間, 在該區(qū)間提取200 nm處的吸光度值及短波段的斜率值等光譜特征值, 結(jié)合支持向量機(jī)對(duì)不同細(xì)菌種類(lèi)進(jìn)行識(shí)別, 為水體細(xì)菌快速識(shí)別和檢測(cè)提供技術(shù)支持。
肺炎克雷伯氏菌(K.pneumoniae)、 大腸桿菌(E.coli)、 鼠傷寒沙門(mén)氏菌(S.typhi)、 金黃色葡萄球菌(S.aureus)和銅綠假單胞菌(P.aeruginosa)5種水體常見(jiàn)致病性細(xì)菌微生物菌種均購(gòu)于中國(guó)工業(yè)微生物菌種保藏管理中心(China Center of Industrial Culture Collection,CICC); 牛肉膏蛋白胨培養(yǎng)基(主要成分及其質(zhì)量分?jǐn)?shù), 牛肉膏: 0.3%, 氯化鈉: 0.5%, 蛋白胨: 0.5%; pH: 7.2); 去離子水等。
紫外可見(jiàn)分光光度計(jì)(UV2550, 日本島津), 高速冷凍離心機(jī)(H-1650R型, 江東), 壓力蒸汽滅菌鍋(YX-280D型, 上海華泰), 超凈工作臺(tái)(SW-CJ-ID型, 蘇州安泰), 組合式光照振蕩培養(yǎng)箱(MQP-B3G型, 上海旻泉)等。
將液體培養(yǎng)基及所用器皿在121 ℃下滅菌20 min后, 在超凈臺(tái)上用接種環(huán)挑取斜面固體培養(yǎng)基中的一個(gè)細(xì)菌菌落, 接種到液體培養(yǎng)基中, 將接種后的細(xì)菌培養(yǎng)液放入培養(yǎng)箱, 在溫度為35 ℃, 轉(zhuǎn)速為120 r·min-1條件下進(jìn)行培養(yǎng)。 培養(yǎng)到特定生長(zhǎng)階段, 取適量細(xì)菌培養(yǎng)液于離心管中, 在12 000 r·min-1的轉(zhuǎn)速下離心5 min, 倒出上清液; 再向離心管中倒入去離子水, 同樣轉(zhuǎn)速下對(duì)細(xì)菌離心洗滌三次, 將離心洗滌后的細(xì)菌再次分散在去離子水中, 并對(duì)該細(xì)菌懸浮液進(jìn)行稀釋?zhuān)?獲得不同濃度的細(xì)菌懸浮液用于細(xì)菌多波長(zhǎng)透射光譜的測(cè)量。
取搖勻后的細(xì)菌懸浮液3.5 mL加于石英比色皿中進(jìn)行多波長(zhǎng)透射光譜測(cè)量, 以去離子水為參比扣除背景, 消除雜散光。 多波長(zhǎng)透射光譜測(cè)量范圍為200~900 nm, 采樣間隔為1 nm。
消除細(xì)菌濃度對(duì)光譜的影響, 需要對(duì)細(xì)菌的多波長(zhǎng)透射光譜進(jìn)行歸一化處理, 根據(jù)胡玉霞的研究, 總和歸一化的光密度譜的標(biāo)準(zhǔn)偏差值最小, 該歸一化方法得到的細(xì)菌濃度反演的結(jié)果準(zhǔn)確性和穩(wěn)定性最好[9]。
τ=τi/sum(τi)
其中τ表示經(jīng)總和歸一化后的光譜數(shù)據(jù), τi表示原光譜數(shù)據(jù)第i個(gè)波長(zhǎng)點(diǎn)對(duì)應(yīng)的光密度值, i從200到900。
數(shù)據(jù)量很大的情況下, 需要進(jìn)行一定的特征提取, 或者有些特征之間相互關(guān)聯(lián), 其中一些特征可以用其他特征來(lái)表述, 利用特征提取來(lái)達(dá)到問(wèn)題化簡(jiǎn)、 處理方便的目的。
利用方差分析法計(jì)算歸一化預(yù)處理后的光譜陣在200~900nm區(qū)間內(nèi)各波長(zhǎng)的標(biāo)準(zhǔn)偏差, 對(duì)應(yīng)標(biāo)準(zhǔn)偏差越大的波長(zhǎng), 其光譜變動(dòng)越顯著, 給定一閾值來(lái)選取用于細(xì)菌識(shí)別的特征波長(zhǎng)區(qū)間, 在此區(qū)間進(jìn)行光譜特征值的提取。 基于matlab平臺(tái)對(duì)特征波長(zhǎng)區(qū)間進(jìn)行特征值提取, 利用find函數(shù)提取200nm處的光密度值作為第一特征值, 利用polyfit函數(shù)提取200~245, 250~275和280~300nm波段的斜率值分別作為第二、 三、 四特征值, 得到一個(gè)降維后的特征值矩陣。
支持向量機(jī)(supportvectormachines,SVM)是建立在統(tǒng)計(jì)學(xué)習(xí)理論VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理上的機(jī)器學(xué)習(xí)方法[10], 其主要思想是建立一個(gè)超平面作為決策曲面, 使正反例之間的隔離邊緣被最大化。SVM工具箱種類(lèi)很多, 本研究所用程序采用臺(tái)大林智仁的libsvm[11]中的多類(lèi)模式識(shí)別, 易于使用且快速有效。 在特征提取的基礎(chǔ)上, 將所有樣本隨機(jī)劃分為訓(xùn)練集和測(cè)試集, 支持向量機(jī)選擇懲罰因子模型以及線性核函數(shù), 通過(guò)尋優(yōu)算法確定最佳的懲罰因子參數(shù)c和核函數(shù)參數(shù)g, 再對(duì)測(cè)試集樣本進(jìn)行測(cè)試, 得到細(xì)菌種類(lèi)的識(shí)別結(jié)果。
以金黃色葡萄球菌為例, 將細(xì)菌懸浮液進(jìn)行稀釋得到一系列濃度梯度的金黃色葡萄球菌測(cè)試樣品, 并進(jìn)行多波長(zhǎng)透射光譜測(cè)量, 對(duì)測(cè)得的光譜進(jìn)行總和歸一化預(yù)處理, 并將高濃度和低濃度測(cè)試樣品的歸一化光譜進(jìn)行對(duì)比分析, 結(jié)果如圖1所示。
由圖1可以看出, 細(xì)菌濃度越高, 對(duì)應(yīng)的光譜吸光度值越大, 高濃度的歸一化光譜特征峰更明顯但重合度并不高, 低濃度的歸一化光譜具有很好的重合性, 其他四種細(xì)菌的光譜圖也有類(lèi)似的規(guī)律。 當(dāng)細(xì)菌樣品濃度高時(shí), 吸光粒子間的平均距離減小, 受粒子間電荷分布相互作用的影響, 摩爾吸收系數(shù)發(fā)生改變, 偏離朗博比爾定律。 通過(guò)實(shí)驗(yàn)確定當(dāng)細(xì)菌的多波長(zhǎng)透射光譜最大吸光度值不超過(guò)1.5a.u.時(shí), 對(duì)光譜進(jìn)行歸一化處理可以有效消除濃度對(duì)細(xì)菌光譜的影響。
圖1 金黃色葡萄球菌在不同濃度下的多波長(zhǎng)透射光譜圖及歸一化圖(a): 金黃色葡萄球菌不同濃度的光譜圖; (b): 各不同濃度光譜圖的歸一化譜圖;(c): 高濃度光譜圖的歸一化譜圖; (d): 低濃度光譜圖的歸一化譜圖Fig.1 Multi-wavelength transmission spectra and normalized images of S.aureus at different concentrations(a): Spectra of S.aureus at different concentrations; (b): Normalized spectra of different concentrations;(c): Normalized spectra at high concentrations; (d): Normalized spectra at low concentrations
以余弦相似度[12]度量歸一化處理方法對(duì)不同細(xì)菌光譜間的影響, 余弦相似度越低, 說(shuō)明光譜差異性越大, 余弦相似度越高, 說(shuō)明光譜差異性越小。 對(duì)原始光譜和歸一化處理后的光譜差異程度進(jìn)行對(duì)比分析, 結(jié)果表1所示。
由表1可知, 對(duì)光譜進(jìn)行歸一化變換后, 各光譜間的相似度值不變, 說(shuō)明歸一化處理并不影響不同細(xì)菌微生物光譜之間的差異性程度, 歸一化處理能最大程度保留光譜的原始信息。
表1 不同細(xì)菌微生物光譜之間的余弦相似度Table 1 Cosine similarity between different microbial spectra of bacteria
選擇五種細(xì)菌的低濃度樣品的光譜曲線各12條進(jìn)行歸一化預(yù)處理, 得到五種細(xì)菌的歸一化光譜, 對(duì)細(xì)菌的12條歸一化后的光譜曲線求平均值得到平均值曲線, 即為五種細(xì)菌各自的歸一化光譜圖趨勢(shì)線, 結(jié)果如圖2所示。
圖2 五種細(xì)菌低濃度下的多波長(zhǎng)透射光譜歸一化趨勢(shì)圖Fig.2 Normalized trend graphs of multi-wavelength transmission spectra of five low bacteria concentration samples
利用方差分析法計(jì)算歸一化預(yù)處理后的光譜陣在200~900 nm區(qū)間內(nèi)各波長(zhǎng)下的標(biāo)準(zhǔn)偏差, 標(biāo)準(zhǔn)偏差越大, 其光譜變動(dòng)越顯著, 通過(guò)確定一閾值得到細(xì)菌的特征波長(zhǎng)區(qū)間, 根據(jù)該區(qū)間提取實(shí)驗(yàn)樣本多波長(zhǎng)透射光譜的特征值作為細(xì)菌種類(lèi)識(shí)別的光譜數(shù)據(jù)。 方差分析的結(jié)果如圖3所示。
圖3 細(xì)菌多波長(zhǎng)透射光譜的方差分析圖Fig.3 Variance analysis diagram of multi-wavelengthtransmission spectrum of bacteria
根據(jù)圖3顯示, 選擇200~300 nm波段為特征波長(zhǎng)區(qū)間, 在此區(qū)間提取不同種類(lèi)細(xì)菌的光譜特征值, 選擇圖2中200 nm處對(duì)應(yīng)的光密度值, 200~245 nm波段、 250~275 nm波段和280~300 nm波段的曲線斜率進(jìn)行特征值提取, 結(jié)果如表2所示。
表2 五種細(xì)菌微生物的多波長(zhǎng)透射光譜歸一化圖差異性對(duì)比Table 2 The difference of normalized graph of multi-wavelength transmission spectra of five kinds of bacteria
從表2可以看出五種細(xì)菌多波長(zhǎng)透射光譜在200 nm處的吸光度值及200~245, 250~275和280~300 nm波段的斜率具有差異性, 五種細(xì)菌在200 nm處的吸光度值分別為0.006 5, 0.005 1, 0.007 4, 0.007 5和0.008 5, 在200~245 nm波段處的斜率值為-62.45, -35.94, -81.30, -82.67和-103.49, 250~275 nm波段處的斜率值為-15.48, -14.82, -20.91, -13.92和-26.21, 280~300 nm波段處的斜率值為-29.96, -24.62, -33.71, -36.09和-30.88。
選取五種細(xì)菌96個(gè)樣本, 一部分作為訓(xùn)練集(49), 一部分作為測(cè)試集(47), 五種細(xì)菌的標(biāo)簽分別是1, 2, 3, 4和5。 對(duì)樣本數(shù)據(jù)進(jìn)行歸一化預(yù)處理, 分別選取200 nm處的吸光度值作為第一特征值, 200~245 nm波段、 250~275 nm波段和280~300 nm波段的斜率值作為第二、 第三、 第四特征值, 利用訓(xùn)練集得出的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè), 得到五種細(xì)菌的預(yù)測(cè)準(zhǔn)確率如表3所示。
表3 支持向量機(jī)對(duì)五種細(xì)菌的識(shí)別率Table 3 The recognition rates of five kindsof bacteria by libsvm
由表3可以看出, 五種細(xì)菌預(yù)測(cè)集的預(yù)測(cè)準(zhǔn)確度均達(dá)到100.0%, 說(shuō)明通過(guò)歸一化數(shù)據(jù)預(yù)處理得到的細(xì)菌多波長(zhǎng)透射光譜特征值(200 nm處的吸光度值及200~245, 250~275和280~300 nm波段的斜率值)結(jié)合支持向量機(jī)(libsvm)可以快速對(duì)不同種類(lèi)的細(xì)菌進(jìn)行識(shí)別。 將細(xì)菌的多波長(zhǎng)透射光譜數(shù)據(jù)直接作為識(shí)別模型的輸入, 訓(xùn)練模型時(shí)需處理上百上千的數(shù)據(jù), 而對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理并提取特征值后, 模型需處理的數(shù)據(jù)量不僅大量減少, 避免了數(shù)據(jù)冗余影響模型的識(shí)別精度, 而且提取的特征值可以最大限度體現(xiàn)不同種類(lèi)細(xì)菌光譜的差異, 有助于快速準(zhǔn)確識(shí)別不同種類(lèi)的細(xì)菌。
對(duì)水體細(xì)菌進(jìn)行多波長(zhǎng)透射光譜測(cè)量, 細(xì)菌樣品的濃度滿(mǎn)足最大吸光度值不超過(guò)1.5 a.u.的情況下, 對(duì)細(xì)菌的多波長(zhǎng)透射光譜進(jìn)行歸一化預(yù)處理可以有效消除細(xì)菌濃度的影響, 且保留原始光譜的完整信息。 經(jīng)歸一化預(yù)處理之后, 利用方差分析法得到特征波長(zhǎng)區(qū)間在200~300 nm波段, 在該區(qū)間提取200 nm處的吸光度值及200~245 nm波段、 250~275 nm波段、 280~300 nm波段處的斜率特征值, 結(jié)合支持向量機(jī)建立識(shí)別模型, 能夠很好地用于不同細(xì)菌種類(lèi)的識(shí)別, 對(duì)肺炎克雷伯氏菌、 金黃色葡萄球菌、 鼠傷寒沙門(mén)氏菌、 銅綠假單胞菌和大腸埃希氏菌的預(yù)測(cè)準(zhǔn)確度可達(dá)100.0%。 基于多波長(zhǎng)透射光譜技術(shù)的特征值提取結(jié)合支持向量機(jī)在水體細(xì)菌微生物快速檢測(cè)和識(shí)別應(yīng)用方面具有很大潛力。