陸月盈,付玉明?,劉 紅
(1. 北京航空航天大學(xué)生物與醫(yī)學(xué)工程學(xué)院, 北京100191;2. 北京航空航天大學(xué)生物醫(yī)學(xué)工程高精尖創(chuàng)新中心, 北京100191;3. 北京航空航天大學(xué)空天生物技術(shù)與醫(yī)學(xué)工程國際聯(lián)合研究中心, 北京100191)
載人航天器為航天員工作生活提供適宜環(huán)境的同時(shí),也為微生物的滋生提供了有利條件。1986 年開始服役的和平號(hào)空間站到其完成使命墜毀期間一直受到微生物的破壞。 在國際空間站中發(fā)現(xiàn)了234 種微生物存在,其中,真菌126種,細(xì)菌108 種。 這些大量滋生的微生物不僅會(huì)腐蝕降解材料、毀壞空間站設(shè)備,一些致病性微生物還會(huì)給航天員帶來健康問題。 因此,及時(shí)有效地對空間站等空間密閉艙室中的微生物進(jìn)行監(jiān)測與控制,對空間站的建設(shè)及在太空中穩(wěn)健生存具有重大意義。
目前,空間站等在軌飛行器采用常規(guī)培養(yǎng)與快速檢測相結(jié)合、在軌培養(yǎng)與地面分析相結(jié)合的方式來監(jiān)測分析材料表面的微生物數(shù)量。 常規(guī)培養(yǎng)包括培養(yǎng)基接觸片和表面采樣拭子,此方法簡單實(shí)用,但所需分析時(shí)間長,在軌培養(yǎng)至少需要72 h,且成本較高;另外,采樣拭子擦拭取樣,不能直接用于不能接觸的部分或?qū)τ糜谌拥乃|(zhì)敏感的部分。 快速檢測方法包括使用手持微生物檢測設(shè)備—LOCAD-PTS 微生物檢測裝置和基于腺嘌呤核苷三磷酸 ( Adenosine triphosphate,ATP) 生物發(fā)光的微生物檢測方法,此方法可大大縮短時(shí)間,但成本較高,并且可能由于生物材料中存在的ATP 而干擾檢測結(jié)果。 為此,急需尋求一種快速有效、非侵入式、非破壞性的技術(shù)來監(jiān)測評估微生物污染情況。
圖像信息是人類獲得外界信息的主要來源?;趫D像處理與視覺分析的菌落圖像自動(dòng)分析系統(tǒng)能夠自動(dòng)、快速、客觀地統(tǒng)計(jì)圖像中包含的菌落數(shù)目并提取菌落的各種特征參數(shù),極大地減輕了工作量,從而得到了廣泛的應(yīng)用。 國際上也正在研究新的影像技術(shù)來對航天器上的微生物進(jìn)行監(jiān)測評估。 機(jī)器學(xué)習(xí)是用計(jì)算機(jī)來模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,隨著新興算法的不斷提出,其在圖像識(shí)別與圖像分類中的應(yīng)用也越來越廣泛。Jiao 等選取了30 種微生物,通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,然后通過傳統(tǒng)的隨機(jī)森林算法完成了最終的分類任務(wù),但是準(zhǔn)確率不高,且沒有用多種算法進(jìn)行比較分析。
針對空間艙室內(nèi)滋生的特定微生物,尚未有利用機(jī)器學(xué)習(xí)算法進(jìn)行圖像識(shí)別和分類的研究。因此,本文提出一種基于機(jī)器學(xué)習(xí)和數(shù)字圖像分析監(jiān)測評估密閉艙室表面微生物污染的方法,以期快速實(shí)時(shí)得到表面微生物覆蓋面積,從而表征微生物污染情況。
選取空間密閉艙室的4 種常見真菌——芽枝狀枝孢霉(cladosporium cladosporioides)、黑曲霉( aspergillus niger )、 雜 色 曲 霉 ( aspergillus versicolor)、金灰青霉(penicillium aurantiogriseum)作為實(shí)驗(yàn)菌株,接種在航天領(lǐng)域中常見的鋁合金板(5A06)材料表面并進(jìn)行培養(yǎng)。
2.1.1 實(shí)驗(yàn)板材的處理
將鋁合金板裁剪為5 cm×5 cm 的薄片,并使用砂紙對其進(jìn)行機(jī)械老化,便于細(xì)菌粘附定殖,同時(shí)防止后續(xù)照相時(shí)出現(xiàn)嚴(yán)重的反光現(xiàn)象。
2.1.2 培養(yǎng)基的配置
實(shí)驗(yàn)選用孟加拉紅、馬鈴薯葡萄糖瓊脂(Potato Dextrose Agar,PDA)和馬鈴薯葡萄糖肉湯(Potato Dextrose Broth,PDB)培養(yǎng)基3 種,分別用于真菌計(jì)數(shù)、擴(kuò)大培養(yǎng)及菌株活化。
2.1.3 真菌接種
在一次性培養(yǎng)皿的底部和蓋子上分別放置經(jīng)無菌超純水充分濕潤的定性濾紙,營造濕潤的適宜真菌生長的環(huán)境。 將鋁合金板材料放置在一次性平板中,并在材料表面噴灑適量的未凝固的滅菌過的PDA 培養(yǎng)基,用來模擬空間站等空間密閉艙室環(huán)境中的富營養(yǎng)環(huán)境。 待冷卻1 h 后,將制備好的真菌孢子懸浮液用噴壺噴灑到鋁合金板材料表面,放入培養(yǎng)箱進(jìn)行連續(xù)培養(yǎng),溫度為28 ℃,相對濕度為65%。
培養(yǎng)3 天后,將接種后的鋁合金板材料從培養(yǎng)箱中取出,拆除封口膜,使用佳能(Canon) EOS 70D 相機(jī)在相同的環(huán)境和參數(shù)下對鋁合金板材料進(jìn)行拍照獲得圖像數(shù)據(jù),注意盡可能避免燈光反射。
隨機(jī)選擇部分鋁合金板材料,采用平板菌落計(jì)數(shù)法對其真菌生物量進(jìn)行測定。
用滅菌后的刀片將材料表面真菌輕輕刮下,放入50 mL 離心管中,加入10 mL 磷酸鹽緩沖液、5 個(gè)直徑為6 mm 的玻璃球和20 個(gè)直徑為2 mm的玻璃球。 置于振蕩器中振蕩約15 ~20 min,使得真菌完全脫落,獲得含有全部真菌的磷酸鹽緩沖液。 根據(jù)真菌生長情況,對每個(gè)樣品進(jìn)行3 個(gè)梯度稀釋(稀釋倍數(shù)為10、10、10),然后分別吸取50 μL 加入到孟加拉紅培養(yǎng)基平板中,用涂布棒涂抹均勻,每個(gè)梯度設(shè)置3 個(gè)平行。 密封后倒置培養(yǎng),溫度為28 ℃,相對濕度為65%。
培養(yǎng)2 天后,將平板放在菌落計(jì)數(shù)儀中進(jìn)行計(jì)數(shù)。 然后算出同一個(gè)稀釋梯度下的3 個(gè)平板上的菌落平均數(shù)(N)和各板上真菌數(shù)量密度(ρ,CFU/cm),計(jì)算公式如式(1)。
式中,N 為平板平均數(shù),μ 為稀釋倍數(shù),S 為材料面積。
對剩下的鋁合金板材料用真菌孢子懸浮液再次進(jìn)行噴灑并培養(yǎng),模擬空間站等空間密閉艙室環(huán)境中微生物多次污染情況。 之后每隔3 天將接種真菌的鋁合金板從培養(yǎng)箱中拿出進(jìn)行上述操作,獲得不同時(shí)期的真菌圖像與生物量數(shù)據(jù)。
經(jīng)過實(shí)驗(yàn)與圖像采集工作,最后得到了4 種真菌分別在鋁合金板材料上生長的圖像,數(shù)量達(dá)到480 張。 首先按照真菌種類對這480 張圖像進(jìn)行標(biāo)注,劃分為4 類,然后根據(jù)上述得到的每個(gè)鋁合金板材料上真菌生長的微生物量,對每類真菌再進(jìn)行更加細(xì)致的生物量的劃分。 根據(jù)4 種真菌在鋁合金板腐蝕能力、生長速率,依據(jù)生物量范圍,將鋁合金板上每種真菌分為大量、少量、微量3 個(gè)等級,如表1 所示。
表1 4 種典型真菌滋生生物量等級分類Table 1 Grades of four typical fungal-breeding biomass
采用 Retinex 算 法(Single Scale Retinex,SSR)對圖像進(jìn)行光照補(bǔ)償處理,目的是補(bǔ)償圖像中的局部亮度,使局部明暗區(qū)域之間的間隙變平,真菌圖像更加清晰,微生物生長狀態(tài)更加明顯。
為增加原始圖像的數(shù)量和多樣性、提高模型的泛化能力、提升模型的魯棒性,采取鏡像翻轉(zhuǎn)、隨機(jī)裁剪、縮放3 種方法對圖像數(shù)據(jù)集進(jìn)行擴(kuò)增。 采用最近鄰插值法實(shí)現(xiàn)圖像縮放,其原理是提取原圖像中與其鄰域最近像素值作為目標(biāo)圖像相對應(yīng)的像素值。 浮點(diǎn)坐標(biāo)的像素值等于距離該點(diǎn)最近的輸入圖像的像素值。 通過以上方法,最終將真菌圖像數(shù)據(jù)集原有的480 張圖像擴(kuò)增到了2229 張。
采用的模型流程如圖1 所示。 首先輸入的是圖像數(shù)據(jù),經(jīng)過特征提取算法得到25 個(gè)特征值組成25 維特征向量,采用主成分分析(Principal Component Analysis,PCA)算法進(jìn)行降維得到9 維特征向量。 然后進(jìn)入分類器得到分類結(jié)果,本文訓(xùn)練了2 種分類器:支持向量機(jī)(Support Vector Machine, SVM)和隨機(jī)森林,分別對真菌種類及真菌生物量等級進(jìn)行識(shí)別,最終得到結(jié)果,并對其性能進(jìn)行對比。
圖1 模型整體框架Fig.1 Overall framework of the model
3.2.1 真菌滋生圖像的特征提取
對鋁合金板材料表面4 種典型真菌進(jìn)行了顏色特征和紋理特征的提取,分別采用顏色矩、基于統(tǒng)計(jì)分析的灰度共生矩陣特征和局部二值模式(Local binary patterns,LBP)方法對其進(jìn)行表征。
顏色矩的數(shù)學(xué)基礎(chǔ)在于圖像中任何的顏色分布均可用它的矩來表示,并且顏色分布信息主要集中在低階矩中。 提取了鋁合金板材料表面4 種典型真菌滋生圖像的R、G、B 3 個(gè)通道的一階顏色矩、二階顏色矩、三階顏色矩共9 個(gè)顏色特征。一階顏色矩、二階顏色矩、三階顏色矩分別對應(yīng)圖像的顏色均值、顏色標(biāo)準(zhǔn)方差和顏色分量的偏斜度即顏色非對稱性。
灰度共生矩陣是一種常用的統(tǒng)計(jì)方法,可以反映圖像灰度關(guān)于方向、相鄰間隔、變化幅度等特征的綜合信息。 本文計(jì)算了對比度、熵、角二階矩、能量、自相關(guān)性和逆差矩6 種統(tǒng)計(jì)量特征參數(shù)。
局部二值模式特征是一種視覺描述符,用于計(jì)算機(jī)視覺的分類。 計(jì)算公式如式(2)所示。
式中,p 表示3×3 窗口中除中心像素點(diǎn)外的第p 個(gè)像素點(diǎn),I(c)表示中心像素點(diǎn)的灰度值,I(p)表示領(lǐng)域內(nèi)第p 個(gè)像素點(diǎn)的灰度值,s(x)公式如式(3)所示。
3.2.2 真菌滋生圖像特征降維
對鋁合金板表面4 種典型真菌滋生圖像提取顏色特征和紋理特征后,最終得到了25 維特征。這些特征之間可能存在相關(guān)性,會(huì)增加后續(xù)建模的復(fù)雜性,而且高維度的特征需要的樣本數(shù)量呈指數(shù)級增加。 所以采用PCA 算法對提取到的特征進(jìn)行降維,用較少的綜合指標(biāo)代表原始特征中的信息,加快計(jì)算速度。
原始的樣本數(shù)據(jù)經(jīng)過PCA 降維后會(huì)有一定的信息丟失,通過方差和表示樣本數(shù)據(jù)的特征信息。 當(dāng)降維后的特征數(shù)為9 維時(shí),方差和占比接近100%,基本保留了原始數(shù)據(jù)的信息,最終將得到的25 維特征向量通過PCA 降維到了9 維。
之后的模型構(gòu)建與驗(yàn)證采用降維后的樣本數(shù)據(jù)集進(jìn)行隨機(jī)拆分,劃分為訓(xùn)練集和測試集,80%作為訓(xùn)練樣本,分別采用SVM 模型和隨機(jī)森林模型對4 種典型真菌滋生圖像種類識(shí)別和生物量等級分類進(jìn)行建模, 20%作為測試樣本,用于對模型的評價(jià)檢驗(yàn)。
3.3.1 基于SVM 的真菌種類識(shí)別模型構(gòu)建
使用拆分的訓(xùn)練集基于SVM 模型對鋁合金板表面4 種典型真菌種類識(shí)別模型進(jìn)行訓(xùn)練。 采用GridSearchCV 方法對表2 中SVM 不同核函數(shù)及參數(shù)進(jìn)行網(wǎng)格搜索,進(jìn)行5 折交叉驗(yàn)證,以準(zhǔn)確率為評價(jià)指標(biāo)得到最優(yōu)的核函數(shù)及其參數(shù)。
網(wǎng)格搜索結(jié)果最優(yōu)參數(shù)組合為:核函數(shù)為多項(xiàng)式函數(shù),懲罰因子C =10,多項(xiàng)式函數(shù)最高項(xiàng)次數(shù)Degree=2,評價(jià)指標(biāo)準(zhǔn)確率為96.34%。
表2 SVM 核函數(shù)及參數(shù)Table 2 Kernel functions and parameters of SVM
在得到SVM 的最優(yōu)參數(shù)組合后,采用學(xué)習(xí)曲線來判斷訓(xùn)練模型是否為欠擬合(underfitting)或過擬合(overfitting)。 將訓(xùn)練集劃分為10 等分,在訓(xùn)練模型時(shí)逐漸增加訓(xùn)練集樣本,并計(jì)算在當(dāng)前訓(xùn)練樣本數(shù)量情況下訓(xùn)練出來的模型準(zhǔn)確性。
3.3.2 基于隨機(jī)森林的真菌種類識(shí)別模型構(gòu)建
與構(gòu)建SVM 分類器類似,也需要尋找構(gòu)建隨機(jī)森林模型的最優(yōu)參數(shù)。 利用GridSearchCV 對隨機(jī)森林的基評估器n_estimators的數(shù)量的最優(yōu)值進(jìn)行搜索,基評估器數(shù)量越大,模型的效果越好。當(dāng)數(shù)量達(dá)到一定程度之后,模型的效果將沒有明顯變化。 最終得到隨機(jī)森林模型最優(yōu)的基評估器的數(shù)量為40。 確定隨機(jī)森林模型的最優(yōu)參數(shù)后,采用學(xué)習(xí)曲線判斷隨機(jī)森林模型狀態(tài)。
3.3.3 真菌生物量分級識(shí)別模型構(gòu)建
分別對4 種真菌數(shù)據(jù)的訓(xùn)練集采用網(wǎng)格搜索尋找SVM 分類器最優(yōu)參數(shù)組合。 從表3 中可以看出,4 種真菌生物量SVM 分級模型的最優(yōu)核函數(shù)都為多項(xiàng)式函數(shù)。 在尋找到最優(yōu)參數(shù)后,分別采用訓(xùn)練集數(shù)據(jù)對鋁合金板表面4 種典型真菌滋生生物量分級模型進(jìn)行構(gòu)建。
表3 SVM 模型最優(yōu)參數(shù)組合Table 3 Optimal parameter combination of SVM model
4 種真菌在鋁合金板材料表面的滋生情況如圖2 所示。 通過采用鏡像翻轉(zhuǎn)、隨機(jī)裁剪、縮放等方法對圖像集進(jìn)行擴(kuò)增,最終將已有的480 張圖像擴(kuò)增到了2229 張。 其中,鋁合金板材料表面黑曲霉不同滋生狀況圖像一共495 張,依據(jù)材料表面生物量等級分為大量、少量、微量3 種等級的圖像各165 張;芽枝狀枝孢霉不同滋生狀況圖像一共534 張,生物量等級為大量、少量、微量3 種等級的圖像各178 張;金灰青霉不同滋生狀況圖像一共600 張,生物量等級為大量、少量、微量3種等級的圖像各200 張;雜色曲霉不同滋生狀況圖像一共600 張,生物量等級為大量、少量、微量3 種等級的圖像各200 張。
圖2 4 種真菌在鋁合金板材料表面滋生圖像Fig.2 Images of 4 kinds of fungi growing on the surface of aluminum alloy plate material
圖3 為在逐漸增加訓(xùn)練樣本數(shù)據(jù)時(shí)SVM 模型在訓(xùn)練集和驗(yàn)證集上的準(zhǔn)確率曲線。 從圖中可以看出,訓(xùn)練集準(zhǔn)確率與驗(yàn)證集準(zhǔn)確率隨著訓(xùn)練樣本數(shù)據(jù)的增加在逐漸收斂,訓(xùn)練集準(zhǔn)確率高于驗(yàn)證集準(zhǔn)確率,并隨著訓(xùn)練樣本的增加差距在減小,即過擬合狀態(tài)也在減小。
圖3 SVM 模型學(xué)習(xí)曲線Fig.3 Learning curve of SVM model
在確定SVM 模型最優(yōu)參數(shù)組合并且確定SVM 模型在訓(xùn)練集準(zhǔn)確率與驗(yàn)證集準(zhǔn)確率是收斂的后,采用拆分的訓(xùn)練集來對鋁合金板表面4種典型真菌種類構(gòu)建識(shí)別模型。 采用SVM 進(jìn)行分類的過程即為尋找類別之間的超平面,將不同類別分割。 對4 種典型真菌進(jìn)行分類,則需要6個(gè)超平面將4 種典型真菌進(jìn)行分割開來。 圖4 為在訓(xùn)練模型時(shí)找到的6 個(gè)超平面及4 個(gè)類別數(shù)據(jù)到超平面的距離的直方圖。 其中,X =0 錯(cuò)分,這是因?yàn)樵谟?xùn)練模型過程中允許分類器對一些樣本犯錯(cuò),避免SVM 分類器過擬合,降低了模型對噪聲點(diǎn)的敏感性,提升了模型的泛化性能。
圖4 訓(xùn)練集到分割超平面距離直方圖Fig.4 Histogram of distance from training set to segmented hyperplane
圖5 為在逐漸增加訓(xùn)練樣本數(shù)據(jù)時(shí)隨機(jī)森林模型在訓(xùn)練集和驗(yàn)證集上的準(zhǔn)確率曲線。 從圖中可以看出,訓(xùn)練集的準(zhǔn)確率比測試集要高很多,表明隨機(jī)森林模型存在過擬合狀態(tài)。 但隨著樣本數(shù)量的增加,二者之間差距縮小,情況有所好轉(zhuǎn),說明模型所需的訓(xùn)練樣本數(shù)要足夠多才能學(xué)習(xí)到泛化能力。
圖5 隨機(jī)森林模型學(xué)習(xí)曲線Fig.5 Learning curve of random forest model
在使用訓(xùn)練集對鋁合金板表面4 種典型真菌種類模型構(gòu)建好后,采用拆分的測試集分別驗(yàn)證SVM 模型和隨機(jī)森林模型。 采用準(zhǔn)確率來評價(jià)模型在測試集上的性能,為保證結(jié)果可靠,也在測試集上重復(fù)進(jìn)行了20 次實(shí)驗(yàn),結(jié)果見表4。 SVM模型在訓(xùn)練集和測試集上的平均準(zhǔn)確率為99%和97%,隨機(jī)森林分類模型為95%和93%,均低4個(gè)百分點(diǎn),識(shí)別效果明顯低于SVM 分類器。 因此, SVM 分類器更適用于鋁合金板材料表面真菌種類的識(shí)別。
表4 2 種模型對真菌種類識(shí)別準(zhǔn)確率Table 4 Recognition accuracy rate of fungus species by two models
采用混淆矩陣、精確率、召回率指標(biāo)精細(xì)評估了SVM 分類模型對鋁合金板材料表面真菌種類的識(shí)別結(jié)果,如圖6 所示。 由圖可見,SVM分類模型具有很好的性能,對每種真菌種類識(shí)別精確率和召回率都在90%以上。 其中,雜色曲霉菌種的識(shí)別效果最好,精確率和召回率均接近100%。
圖6 SVM 模型對真菌種類識(shí)別的混淆矩陣、精確率和召回率結(jié)果Fig.6 Confusion matrix, accuracy rate and recall rate of fungal species identification by SVM model
在對鋁合金板表面4 種典型真菌種類識(shí)別模型構(gòu)建時(shí),SVM 分類模型性能優(yōu)于隨機(jī)森林模型,所以生物量分級模型構(gòu)建時(shí)采用表現(xiàn)更好的SVM 分類器。
圖7 為SVM 模型進(jìn)行20 次重復(fù)測試后平均準(zhǔn)確率結(jié)果。 能夠看出,對4 種真菌生物量等級識(shí)別的準(zhǔn)確率均達(dá)到97%以上,其中,對黑曲霉的識(shí)別效果最高,為99.53%。 同樣采用混淆矩陣、精確率和召回率來對其進(jìn)行精細(xì)評估,其對每種真菌生物量等級識(shí)別精確率和召回率都在95%以上。
通過學(xué)習(xí)曲線可以看出,SVM 算法比隨機(jī)森林模型具有更優(yōu)秀的泛化能力,從而準(zhǔn)確率要高于隨機(jī)森林模型,能夠在未來的航天器微生物污染的拍攝照片中加以應(yīng)用。
圖7 SVM 模型對4 種典型真菌生物量等級分類識(shí)別的測試集準(zhǔn)確率Fig.7 Test set accuracy of four typical fungal biomass classification based on SVM model
1)在真菌種類分類任務(wù)上,SVM 模型的準(zhǔn)確率高于隨機(jī)森林模型;
2)在真菌種類和生物量等級分類任務(wù)上,SVM 模型的準(zhǔn)確率均達(dá)到97%以上;
3)SVM 模型的真菌生物量等級分類效果優(yōu)于真菌種類分類效果。