張俊鵬,劉 輝,李清榮
(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650000)
工業(yè)煙塵排放是導(dǎo)致大氣污染的主要原因[1]。對(duì)工業(yè)煙塵進(jìn)行監(jiān)測(cè),可以及時(shí)發(fā)現(xiàn)污染問(wèn)題并采取治理措施,對(duì)污染治理有著重要意義。近年來(lái),計(jì)算機(jī)視覺(jué)系統(tǒng)得益于其非接觸、響應(yīng)及時(shí)等特點(diǎn),在工業(yè)中得到了廣泛的應(yīng)用[2]。Hsu等[3]設(shè)計(jì)了基于計(jì)算機(jī)視覺(jué)技術(shù)的工業(yè)煙塵排放實(shí)時(shí)監(jiān)測(cè)系統(tǒng)。使用計(jì)算機(jī)視覺(jué)系統(tǒng)對(duì)工業(yè)煙塵排放進(jìn)行監(jiān)測(cè),具備更好的實(shí)時(shí)性,同時(shí)可以有效減少人力物力的使用。采用計(jì)算機(jī)視覺(jué)進(jìn)行煙塵監(jiān)測(cè)的流程可以分為圖像采集、圖像分割、特征提取和結(jié)果輸出幾部分。首先通過(guò)工業(yè)攝像機(jī)獲取煙塵排放視頻信息,之后對(duì)采集的圖像進(jìn)行處理,將煙塵區(qū)域從圖像中分割出來(lái),最后計(jì)算煙塵區(qū)域平均灰度值,將其與林格曼煙氣黑度圖進(jìn)行對(duì)比判定污染等級(jí)[4]。其中,將煙塵區(qū)域和背景準(zhǔn)確分離是整個(gè)過(guò)程的關(guān)鍵和難點(diǎn)所在。
基于數(shù)字圖像處理技術(shù)的工業(yè)煙塵分割方法包括紋理分析法[5 - 7]、基于區(qū)域的方法[8 - 10]、基于閾值的方法[11 - 14]和差分法[14 - 16]。其中,紋理分析法旨在根據(jù)煙塵特有的紋理特性識(shí)別圖像中的煙塵,LBP(Local Binary Patterns)憑借其反映圖像的局部紋理特征[17]的特點(diǎn),被應(yīng)用于煙塵檢測(cè)任務(wù)中,如趙敏等[5]分別提取了3種不同的改進(jìn)的LBP特征,之后使用支持向量機(jī)分類。Yuan[7]構(gòu)建了多尺度圖像金字塔架構(gòu),提取每一層LBP和基于方差的LBP特征生成LBP金字塔,計(jì)算對(duì)應(yīng)的直方圖并訓(xùn)練分類器進(jìn)行煙塵識(shí)別?;跓焿m的紋理特性識(shí)別煙塵的不足之處在于紋理作為一種人工設(shè)計(jì)的特征,用于識(shí)別更多的具備不同特征煙塵時(shí)的魯棒性仍有待提高[18]。基于區(qū)域的方法則根據(jù)圖像中像素的相似性分割出特定的區(qū)域[19]。張曉梅等[8]使用了區(qū)域生長(zhǎng)、區(qū)域分裂與合并的方法分割煙塵圖像;王亞楠等[9]將區(qū)域生長(zhǎng)算法應(yīng)用于視頻中的煙塵區(qū)域分割。因?yàn)閰^(qū)域生長(zhǎng)需要手動(dòng)確認(rèn)種子點(diǎn),所以人為因素較多,而且分割結(jié)果中會(huì)出現(xiàn)空洞,而區(qū)域分割與合并方法雖然解決了區(qū)域生長(zhǎng)的空洞問(wèn)題,但是會(huì)出現(xiàn)分割邊緣不準(zhǔn)確的情況[8]?;陂撝档姆椒╗20]根據(jù)圖像的灰度直方圖確定一個(gè)或多個(gè)閾值,再根據(jù)像素的灰度值和閾值的比較結(jié)果進(jìn)行分類。褚益[21]提出了基于貝葉斯決策理論的最小誤差與閾值分割方法。類似的還有顏色建模的方法,如Calderara等[11]提出一種改進(jìn)的貝葉斯方法,通過(guò)小波變換系數(shù)和顏色信息分析圖像能量確定煙塵區(qū)域。基于閾值或顏色的方法容易受到光線變化的影響,而且在煙塵和背景物體顏色相近時(shí)無(wú)法有效區(qū)分煙塵和背景[13]。差分法是檢測(cè)靜止背景中運(yùn)動(dòng)目標(biāo)的常用方法,背景建模法作為差分法的一種,在煙塵檢測(cè)任務(wù)中有著較為廣泛的應(yīng)用。王文哲等[14]首先構(gòu)造一種實(shí)時(shí)更新的背景模型,對(duì)之后的待檢測(cè)圖像使用差分法確定煙塵區(qū)域。魏旭賓等[15]首先通過(guò)差分圖像確定大致的煙塵目標(biāo)區(qū)域,之后構(gòu)造高斯背景統(tǒng)計(jì)模型確定分割閾值。因?yàn)椴罘址ǖ臋z測(cè)目標(biāo)不限定于煙塵,即檢測(cè)的是一段時(shí)間內(nèi)所有移動(dòng)的物體,故容易受到突然闖入的飛鳥(niǎo)等因素的干擾[3]。
目前,卷積神經(jīng)網(wǎng)絡(luò)等深度網(wǎng)絡(luò)被廣泛應(yīng)用于圖像分類[22]、目標(biāo)檢測(cè)[23]等任務(wù)中,并取得了相比于傳統(tǒng)數(shù)字圖像處理方法更高的準(zhǔn)確度。訓(xùn)練深度網(wǎng)絡(luò)需要大量數(shù)據(jù),但深度網(wǎng)絡(luò)的優(yōu)勢(shì)在于具備更好的適應(yīng)性,同時(shí)提供了端到端的解決方案,即由輸入端的數(shù)據(jù)直接得到輸出端的結(jié)果,避免了數(shù)字圖像處理方法分割煙塵過(guò)程中常使用的圖像預(yù)處理和結(jié)果修復(fù)等多個(gè)步驟。使用深度網(wǎng)絡(luò)模型檢測(cè)圖像中煙塵的方法包括目標(biāo)檢測(cè)和語(yǔ)義分割2類[24]。目標(biāo)檢測(cè)是一種基于候選區(qū)域的檢測(cè)方法,如Zhang等[18]將Faster R-CNN(Faster Region-Convolutional Neural Network)應(yīng)用于煙塵檢測(cè),程淑紅等[25]提出了結(jié)合高斯模型與YOLO v2網(wǎng)絡(luò)的煙塵檢測(cè)方法,首先使用混合高斯模型確定大致的煙塵區(qū)域,在此基礎(chǔ)上訓(xùn)練YOLO網(wǎng)絡(luò),以確定最終的煙塵區(qū)域。目標(biāo)檢測(cè)的結(jié)果是用矩形框框出的圖像中的煙塵區(qū)域,導(dǎo)致結(jié)果中必然包含大量背景區(qū)域,會(huì)影響后續(xù)基于林格曼煙氣黑度等級(jí)的污染等級(jí)計(jì)算結(jié)果。另一類語(yǔ)義分割的方法通過(guò)對(duì)每一個(gè)像素進(jìn)行分類從而實(shí)現(xiàn)圖像目標(biāo)區(qū)域的像素級(jí)分割。王文哲[26]使用了全卷積網(wǎng)絡(luò)對(duì)煙塵圖像進(jìn)行分割;Yuan等[27]設(shè)計(jì)了包含粗糙分割和精細(xì)分割2個(gè)分支的網(wǎng)絡(luò),2個(gè)分支都采用了編碼解碼結(jié)構(gòu)的卷積網(wǎng)絡(luò);Yang等[28]采用條件生成對(duì)抗網(wǎng)絡(luò)模型分割連續(xù)視頻幀中的煙霧區(qū)域?;谌矸e網(wǎng)絡(luò)的方法雖然達(dá)到了較高的準(zhǔn)確度,但是在復(fù)雜場(chǎng)景下的分割準(zhǔn)確度還有待提高,如背景中和煙塵相似度較高的云的干擾會(huì)對(duì)分割準(zhǔn)確度造成影響,經(jīng)常出現(xiàn)將一部分屬于云的區(qū)域判斷為煙塵的情況。
本文以全卷積網(wǎng)絡(luò)為基礎(chǔ)模型,針對(duì)由于煙塵和云的相似性較高導(dǎo)致的全卷積網(wǎng)絡(luò)難以有效區(qū)分二者這一問(wèn)題,提出一種結(jié)合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模塊的全卷積網(wǎng)絡(luò)模型。煙塵和云雖然有較高的相似性,但從序列圖像數(shù)據(jù)中可以發(fā)現(xiàn),煙塵的運(yùn)動(dòng)速度明顯快于背景中云的速度,故本文通過(guò)分析序列數(shù)據(jù)中煙塵的動(dòng)態(tài)特性對(duì)煙塵和背景中的云進(jìn)行區(qū)分。全卷積網(wǎng)絡(luò)只分析圖像的空間特性,為賦予網(wǎng)絡(luò)處理序列圖像的能力,采用結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的方案,在現(xiàn)有全卷積網(wǎng)絡(luò)對(duì)圖像空間特征提取的基礎(chǔ)上,添加長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模塊用于提取時(shí)序特征,提出一種結(jié)合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模塊的全卷積網(wǎng)絡(luò),通過(guò)捕獲序列圖像間的更多特征信息來(lái)對(duì)運(yùn)動(dòng)的煙塵和背景進(jìn)行有效區(qū)分。實(shí)驗(yàn)結(jié)果表明,本文模型可以有效區(qū)分煙塵和背景中的云,同時(shí)對(duì)全卷積網(wǎng)絡(luò)分割結(jié)果中常出現(xiàn)干擾點(diǎn)的問(wèn)題也有改善,煙塵的分割結(jié)果準(zhǔn)確度更高。
工業(yè)煙塵作為一種非剛體物質(zhì),具有形狀不固定、邊緣毛糙、和云相似度較高等特點(diǎn),這些特點(diǎn)給煙塵分割任務(wù)造成了一定的困難。為了觀察網(wǎng)絡(luò)模型分割不同場(chǎng)景中煙塵的表現(xiàn),將煙塵排放圖像按照如圖1所示的5個(gè)場(chǎng)景進(jìn)行分類:易辨場(chǎng)景、薄煙場(chǎng)景、多目標(biāo)煙塵場(chǎng)景、小區(qū)域煙塵場(chǎng)景、干擾(云)場(chǎng)景。
Figure 1 Classification of smoke image scenes圖1 煙塵圖像場(chǎng)景分類
前期工作中使用煙塵數(shù)據(jù)集訓(xùn)練了全卷積網(wǎng)絡(luò)并對(duì)生成的模型進(jìn)行了測(cè)試,再根據(jù)模型預(yù)測(cè)結(jié)果與手動(dòng)標(biāo)記結(jié)果計(jì)算相關(guān)的評(píng)價(jià)指標(biāo)。從分割結(jié)果中發(fā)現(xiàn),全卷積網(wǎng)絡(luò)在干擾場(chǎng)景測(cè)試集上表現(xiàn)最差,測(cè)試結(jié)果中出現(xiàn)了大量的將一部分云預(yù)測(cè)為煙塵的現(xiàn)象;在指標(biāo)方面,在干擾場(chǎng)景測(cè)試集上的各項(xiàng)評(píng)價(jià)指標(biāo)明顯低于其他場(chǎng)景中的。
分析造成這一問(wèn)題的原因,煙塵和干擾場(chǎng)景中主要的干擾元素(云)在顏色與紋理上均表現(xiàn)出較高的相似性,導(dǎo)致全卷積網(wǎng)絡(luò)僅根據(jù)圖像的空間特征難以對(duì)二者進(jìn)行有效區(qū)分。因?yàn)樾蛄袌D像中的煙塵是運(yùn)動(dòng)的,而背景中云的狀態(tài)是靜止的或者運(yùn)動(dòng)較緩慢,所以可以通過(guò)序列圖像的時(shí)間特征區(qū)分煙塵和云,那么一個(gè)具備圖像序列特征處理能力的網(wǎng)絡(luò)應(yīng)該可以區(qū)分二者,從而提升網(wǎng)絡(luò)的抗干擾性能。
為了提高全卷積網(wǎng)絡(luò)的抗干擾能力,本文模型在全卷積網(wǎng)絡(luò)提取工業(yè)煙塵圖像空間特征的基礎(chǔ)上增加了長(zhǎng)短時(shí)記憶模塊,通過(guò)記憶序列圖像的上下文信息,捕獲遠(yuǎn)距離標(biāo)簽的依賴性。本文提出的模型結(jié)構(gòu)如圖2所示,分為2部分:煙塵圖像空間特征提取部分和煙塵圖像時(shí)序特征提取部分。
煙塵空間特征提取網(wǎng)絡(luò)選擇的是語(yǔ)義分割領(lǐng)域中經(jīng)典的全卷積網(wǎng)絡(luò)FCN(Fully Convolutional Network)[29],全卷積網(wǎng)絡(luò)接收任意尺寸的圖像,經(jīng)過(guò)網(wǎng)絡(luò)的預(yù)測(cè),生成像素級(jí)的圖像分割結(jié)果,能夠有效滿足工業(yè)煙塵分割任務(wù)的需要。
3.1.1 全卷積網(wǎng)絡(luò)
全卷積網(wǎng)絡(luò)是由卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換而成的用于圖像語(yǔ)義分割的網(wǎng)絡(luò)模型,全卷積網(wǎng)絡(luò)的基本組成仍然是卷積層和池化層,圖像經(jīng)過(guò)的這一系列計(jì)算可以表示為:
Xm+1=ReLU(pool(w*Xm+b))
(1)
其中,Xm表示第m層的輸入圖像或特征圖,w表示卷積過(guò)濾器權(quán)重,b表示偏置,*表示卷積計(jì)算,pool(·)函數(shù)表示池化操作,ReLU(·)表示激活函數(shù),Xm+1表示經(jīng)過(guò)該層計(jì)算后輸出的特征圖。
Figure 2 Network structure of this paper圖2 本文網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)接收固定尺寸的輸入圖像,經(jīng)過(guò)卷積計(jì)算后經(jīng)由全連接層輸出對(duì)應(yīng)分類數(shù)目的n維向量,這一操作使預(yù)測(cè)結(jié)果丟失了圖像的空間信息。全卷積網(wǎng)絡(luò)通過(guò)將全連接層替換為使用1×1尺寸卷積核的卷積層,保留圖像的空間信息,通過(guò)對(duì)每個(gè)像素分別進(jìn)行預(yù)測(cè)得到像素級(jí)的分割結(jié)果。另一方面,雖然網(wǎng)絡(luò)中的池化層增大了感受野的同時(shí)減少了計(jì)算消耗,但也使特征圖的尺寸逐漸變小,經(jīng)過(guò)最后一層卷積層運(yùn)算后的特征圖尺寸是原始圖像的1/32。為了將這一粗糙輸出映射到原始圖像的密集像素,使用插值的方式對(duì)其進(jìn)行反卷積操作,恢復(fù)至原始圖像尺寸,在網(wǎng)絡(luò)中執(zhí)行上采樣以進(jìn)行端到端的學(xué)習(xí)。為了細(xì)化分割結(jié)果,全卷積網(wǎng)絡(luò)使用了跳躍結(jié)構(gòu)融合深層的全局信息和淺層的局部信息。通過(guò)融合不同層次的池化層結(jié)果,衍生出FCN-16s和FCN-8s 2種模型。
3.1.2 工業(yè)煙塵圖像分割的全卷積網(wǎng)絡(luò)結(jié)構(gòu)
本文模型的前端是全卷積網(wǎng)絡(luò)結(jié)構(gòu),用于對(duì)輸入的煙塵排放圖像進(jìn)行空間特征提取。網(wǎng)絡(luò)接收任意尺寸的三通道煙塵圖像,輸出單通道的煙塵分割結(jié)果。全卷積網(wǎng)絡(luò)部分包括8組卷積層(圖2中conv1~conv8)、5個(gè)池化層(pool1~pool5)和3個(gè)反卷積層(deconv1~deconv3)。卷積層用于煙塵圖像的空間特征提取,每一層卷積后連接ReLU激活函數(shù)層,池化層增大網(wǎng)絡(luò)的感受野的同時(shí)減少網(wǎng)絡(luò)的參數(shù)。為了減少訓(xùn)練對(duì)數(shù)據(jù)量的需求,同時(shí)提高訓(xùn)練的速度,網(wǎng)絡(luò)前半部分的卷積層和池化層(conv1~conv5,pool1~pool4)的參數(shù)使用預(yù)訓(xùn)練的VGG-19(Visual Geometry Group)模型的權(quán)重,每層卷積層之后是ReLU激活函數(shù)計(jì)算,池化層的池化方式是平均池化。后半部分(conv6~conv8)是替換掉分類網(wǎng)絡(luò)原有全連接層的卷積層,保持了特征圖原有的空間信息,添加dropout層用于防止過(guò)擬合問(wèn)題的發(fā)生。采用跳躍結(jié)構(gòu)提高分割結(jié)果的準(zhǔn)確度,最后一個(gè)卷積層輸出的結(jié)果進(jìn)入反卷積層,進(jìn)行2倍上采樣操作,和第4層池化層的結(jié)果進(jìn)行相加。融合后的結(jié)果再進(jìn)行一次2倍上采樣,和第3層池化層的結(jié)果再次融合后作為煙塵圖像空間特征提取的結(jié)果。
全卷積網(wǎng)絡(luò)只分析圖像的空間特性,為了使網(wǎng)絡(luò)能夠?qū)π蛄袌D像進(jìn)行處理,在網(wǎng)絡(luò)后半部分使用循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取圖像的時(shí)序特征。
3.2.1 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)[30]因?yàn)槠鋵?duì)序列數(shù)據(jù)的處理能力被廣泛應(yīng)用于目標(biāo)追蹤、自然語(yǔ)言處理等任務(wù)中,長(zhǎng)短時(shí)記憶LSTM(Long Short-Term Memory)網(wǎng)絡(luò)[31]是特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),憑借其特有的門控結(jié)構(gòu)解決了循環(huán)神經(jīng)網(wǎng)絡(luò)在處理過(guò)長(zhǎng)序列時(shí)容易出現(xiàn)的梯度消失問(wèn)題,因此更適用于處理序列數(shù)據(jù)。盡管LSTM在處理時(shí)序關(guān)系時(shí)有很好的表現(xiàn),但LSTM計(jì)算中使用的按位(pointwise)乘法操作產(chǎn)生了大量的空間數(shù)據(jù)冗余。針對(duì)這一問(wèn)題,文獻(xiàn)[32]提出了ConvLSTM,使用卷積計(jì)算替換了門控函數(shù)中原有的按位乘法運(yùn)算。ConvLSTM結(jié)構(gòu)的門控函數(shù)通過(guò)Sigmoid和卷積運(yùn)算實(shí)現(xiàn),如式(2)~式(7)所示:
i=σ(wi*Xt+Ii*Ht-1+bi)
(2)
f=σ(wf*Xt+If*Ht-1+bf)
(3)
y=tanh(wy*Xt+Iy*Ht-1+by)
(4)
o=σ(wo*Xt+Io*Ht-1+bo)
(5)
Ct=f°Ct-1+i°y
(6)
Ht=o°tanh(Ct)
(7)
其中,Xt表示t時(shí)刻輸入的特征圖,Ht-1表示t-1時(shí)刻的輸出特征圖,Ct-1表示t-1時(shí)刻的存儲(chǔ)向量,σ(·)表示Sigmoid運(yùn)算,tanh(·)表示tanh運(yùn)算,°表示矩陣乘法運(yùn)算,*表示卷積運(yùn)算,w和I表示不同的權(quán)重項(xiàng),i表示輸入門的計(jì)算結(jié)果,f表示遺忘門的計(jì)算結(jié)果,y表示輸入值,o表示輸出門,Ct表示新?tīng)顟B(tài),Ht表示輸出。
3.2.2 工業(yè)煙塵圖像分割的長(zhǎng)短時(shí)記憶結(jié)構(gòu)
LSTM可以對(duì)序列煙塵圖像進(jìn)行處理,每次處理的除了當(dāng)前幀的煙塵圖像,還包括之前的圖像的特征信息,使用舊的特征信息對(duì)當(dāng)前的特征信息進(jìn)行輔助判斷。其特有的門控結(jié)構(gòu)可以保留有用的特征信息,對(duì)于無(wú)用的信息則及時(shí)丟棄。LSTM通過(guò)此種方式處理煙塵排放圖像的時(shí)序特征信息,對(duì)煙塵和背景中的干擾元素進(jìn)行區(qū)分。
本文模型后端是一個(gè)卷積化的長(zhǎng)短時(shí)記憶模塊(convLSTM),用于根據(jù)上一時(shí)刻的特征信息與當(dāng)前的特征信息進(jìn)行特征的提取,長(zhǎng)短時(shí)記憶層的輸入除了當(dāng)前經(jīng)過(guò)全卷積網(wǎng)絡(luò)處理的特征圖,還包括上一時(shí)刻的狀態(tài)信息Ht-1和Ct-1。
網(wǎng)絡(luò)中的convLSTM結(jié)構(gòu)如圖3所示,通過(guò)遺忘門、輸入門和輸出門3個(gè)門控結(jié)構(gòu)控制信息對(duì)網(wǎng)絡(luò)的影響,門控結(jié)構(gòu)通過(guò)卷積操作和Sigmoid計(jì)算實(shí)現(xiàn)。遺忘門根據(jù)上一時(shí)刻的Ht-1和當(dāng)前時(shí)刻的Xt決定遺忘Ct-1中哪些信息;輸入門計(jì)算Xt和Ht-1,決定輸入的影響t時(shí)刻狀態(tài)存儲(chǔ)向量Ct的信息;輸出門計(jì)算Xt,Ct和Ht-1,確定當(dāng)前時(shí)刻的輸出Ht。convLSTM產(chǎn)生隱藏向量和存儲(chǔ)向量2個(gè)輸出,分別用于輸出和狀態(tài)的更新。隱藏向量和存儲(chǔ)向量以全0的方式初始化,初始化時(shí)維度大小同輸入Xt的維度一致。計(jì)算過(guò)程中通過(guò)補(bǔ)0(padding)的方式,保持特征圖計(jì)算前后的尺寸不變。長(zhǎng)短時(shí)記憶層輸出的特征圖前2個(gè)維度的尺寸是原始圖像的1/8,最后通過(guò)第3個(gè)反卷積層進(jìn)行8倍上采樣恢復(fù)至原始圖像的尺寸。網(wǎng)絡(luò)末端的Softmax層作用是給出所有可能分類的歸一化
Figure 3 Structure of LSTM layer圖3 長(zhǎng)短時(shí)記憶層結(jié)構(gòu)
的概率分布,通過(guò)比較每個(gè)像素屬于2個(gè)分類(煙塵和背景)的概率來(lái)確定該像素所屬類別,得到最終的預(yù)測(cè)結(jié)果。
本文模型的網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示,下采樣部分由一系列的卷積、池化操作組成,上采樣部分由反卷積操作、長(zhǎng)短時(shí)記憶層組成。
Table 1 Network parameters setting表1 網(wǎng)絡(luò)參數(shù)設(shè)置
實(shí)驗(yàn)使用的深度學(xué)習(xí)框架是TensorFlow,訓(xùn)練網(wǎng)絡(luò)模型所用計(jì)算機(jī)配置為Intel(R)Xeon(R)CPU E5-2620 v4 @2.10 GHz處理器,64 GB內(nèi)存,11 GB RAM的NVIDIA Geforce RTX2080Ti顯卡。
實(shí)驗(yàn)所用數(shù)據(jù)取自于在實(shí)際鋼廠拍攝的工業(yè)煙塵排放視頻。因?yàn)槊盁熚恢幂^多而且經(jīng)常出現(xiàn)在不同位置,所以在不同監(jiān)測(cè)點(diǎn)安置了多個(gè)工業(yè)攝像機(jī)采集煙塵排放信息,視頻采集均在白天進(jìn)行。采集的煙塵排放視頻分辨率為1280×720,幀率為30 fps,共計(jì)60 GB。從每個(gè)視頻中提取10~20幅圖像,共提取1 289幅圖像用于數(shù)據(jù)集的制作。使用圖像標(biāo)注程序labelme對(duì)圖像中的煙塵區(qū)域進(jìn)行人工標(biāo)記,以制作標(biāo)簽圖,制作的標(biāo)簽圖如圖4所示。黑色部分為背景區(qū)域,白色部分為煙塵區(qū)域。共計(jì)1 289組原圖和標(biāo)簽圖,其中1 052組作為訓(xùn)練集,237組作為測(cè)試集。為擴(kuò)充數(shù)據(jù)集,對(duì)其進(jìn)行了90°,270°的旋轉(zhuǎn)以及水平、上下翻轉(zhuǎn),將訓(xùn)練集和測(cè)試集擴(kuò)充至5 260組和1 185組,并將圖像的分辨率統(tǒng)一調(diào)整為224×224。為了驗(yàn)證本文模型對(duì)不同場(chǎng)景下煙塵的識(shí)別能力,將測(cè)試集中的1 185幅圖像劃分為1組易辨識(shí)場(chǎng)景和4組復(fù)雜場(chǎng)景,復(fù)雜的場(chǎng)景包括:存在多處煙塵的場(chǎng)景、煙塵稀薄表現(xiàn)出透明性的場(chǎng)景、煙塵區(qū)域較小的場(chǎng)景和存在云干擾的場(chǎng)景,每一分類下測(cè)試圖像的數(shù)量如表2所示,訓(xùn)練集共有5 260組圖像。
Figure 4 Original images and manually labeled labels圖4 原始圖像和人工標(biāo)記標(biāo)簽
Table 2 Number of test set images
為量化對(duì)模型的測(cè)試結(jié)果,選擇了以下評(píng)價(jià)指標(biāo):查準(zhǔn)率P(Precision)、查全率R(Recall)、F1度量(F1-score)[33]和交并比IoU(Intersection over Union)[34]。其中,查準(zhǔn)率是被正確分類的正樣本數(shù)量與被預(yù)測(cè)為正樣本的數(shù)量之比,定義如式(8)所示。查全率是被正確分類的正樣本數(shù)量與正樣本數(shù)量之比,定義如式(9)所示。因?yàn)椴槿屎筒闇?zhǔn)率2項(xiàng)指標(biāo)相互矛盾,一項(xiàng)指標(biāo)較高時(shí),另一項(xiàng)指標(biāo)往往較低,故通過(guò)F1度量對(duì)查全率和查準(zhǔn)率進(jìn)行調(diào)和平均。F1度量定義如式(10)所示。其中,β用于調(diào)整權(quán)重,若認(rèn)為查準(zhǔn)率重要,則減小β;若認(rèn)為查全率重要,則增大β。β=1時(shí)2者權(quán)重相同,稱作F1度量。在煙塵圖像分割實(shí)驗(yàn)中為了同時(shí)考慮查全率和查準(zhǔn)率2項(xiàng)指標(biāo),故設(shè)定β為1,表明查全率和查準(zhǔn)率在實(shí)驗(yàn)中同等重要。交并比是語(yǔ)義分割的標(biāo)準(zhǔn)度量,為計(jì)算真實(shí)值(Ground Truth)和預(yù)測(cè)值(Predicted Segmentation)之比,定義如式(11)所示。
(8)
(9)
(10)
(11)
其中,在實(shí)驗(yàn)中一共有2個(gè)類別:煙塵(用i表示)和背景(用j表示)。pii指屬于類別i被預(yù)測(cè)為i的像素?cái)?shù)量,pij指屬于類別i但被預(yù)測(cè)為j的像素?cái)?shù)量,pji指屬于類別j但被預(yù)測(cè)為i的像素?cái)?shù)量。
4.3.1 分割結(jié)果對(duì)比
為了驗(yàn)證本文模型分割工業(yè)煙塵的表現(xiàn),將本文提出的模型(FCN-LSTM)與其他5種用于圖像分割的深度網(wǎng)絡(luò)模型進(jìn)行了對(duì)比,包括文獻(xiàn)[26]中使用的FCN模型、文獻(xiàn)[35]中提出的采用多尺度卷積結(jié)構(gòu)的全卷積網(wǎng)絡(luò)(下文記作m-FCN)、文獻(xiàn)[36]采用的編碼-解碼結(jié)構(gòu)的網(wǎng)絡(luò)(下文記作en-de)、文獻(xiàn)[27]采用的雙分支特征融合的網(wǎng)絡(luò)模型(下文記作t-FCN)和文獻(xiàn)[37]提出的U-Net模型(下文記作U-Net)。訓(xùn)練模型的超參數(shù)均設(shè)置為:batch_size=1,學(xué)習(xí)率=1e-4,迭代次數(shù)=1e+5。用相同訓(xùn)練集分別對(duì)上述幾種模型進(jìn)行了訓(xùn)練。訓(xùn)練結(jié)束后分別對(duì)幾種模型進(jìn)行測(cè)試,在5組測(cè)試集上的分割結(jié)果對(duì)比如圖5~圖9所示,測(cè)試結(jié)果的量化指標(biāo)對(duì)比如表3所示。
4.3.2 結(jié)果分析
(1)在易辨場(chǎng)景下,en-de的分割結(jié)果中丟失了小區(qū)域的煙塵目標(biāo)(圖6c第1、3行),t-FCN分割結(jié)果的邊緣部分不準(zhǔn)確(圖6d第2、3行),m-FCN分割結(jié)果的完整性不佳(圖6f第1行),F(xiàn)CN錯(cuò)誤識(shí)別小部分的非煙塵區(qū)域?yàn)闊焿m(圖6g第1、2行),U-Net和FCN-LSTM的煙塵分割結(jié)果更準(zhǔn)確。
(2)在小區(qū)域煙塵場(chǎng)景下,en-de、t-FCN和U-Net均出現(xiàn)了不同程度的分割煙塵區(qū)域不完整的情況(圖7c第1、3行,圖7d第1、3行,圖7e第2行),F(xiàn)CN、m-FCN和FCN-LSTM 3個(gè)模型的分割結(jié)果相對(duì)準(zhǔn)確。
Figure 5 Comparison of segmentation results in legible scenes 圖5 易辨場(chǎng)景分割結(jié)果對(duì)比
Figure 6 Comparison of segmentation results in small-area smoke scenes圖6 小區(qū)域煙塵場(chǎng)景分割結(jié)果對(duì)比
Figure 7 Comparison of segmentation results in thin smoke scenes圖7 薄煙場(chǎng)景分割結(jié)果對(duì)比
Figure 8 Comparison of segmentation results in multiple smoke scenes圖8 多目標(biāo)煙塵場(chǎng)景分割結(jié)果對(duì)比
Figure 9 Comparison of segmentation results in interfering scenes圖9 干擾(云)場(chǎng)景分割結(jié)果對(duì)比
Table 3 Comparison of test indicators
(3)薄煙場(chǎng)景下,幾種模型均出現(xiàn)了不同程度的邊緣不準(zhǔn)確的情況(圖8第3行),en-de的分割結(jié)果中還出現(xiàn)了空洞(圖8c第1、2行),U-Net和m-FCN的分割結(jié)果不完整(圖8e第3行,圖8f第3行),F(xiàn)CN-LSTM雖然也存在邊緣不準(zhǔn)確的問(wèn)題(圖8h第3行),但在所有結(jié)果中更接近手動(dòng)標(biāo)記的結(jié)果。
(4)多目標(biāo)煙塵場(chǎng)景對(duì)比中,en-de分割結(jié)果中存在空洞(圖9c第1行)且不準(zhǔn)確(圖9c第3行),t-FCN、U-Net、m-FCN和FCN結(jié)果的完整性不佳(圖9第3行),F(xiàn)CN-LSTM分割結(jié)果的完整性相比于其它模型更佳(圖9h第2行)。
(5)在干擾場(chǎng)景下,en-de、mFCN和FCN都在不同程度上受到了云的干擾(圖10c第1行,圖10f第3行,圖10g第2、3行),其中FCN對(duì)于云的抗干擾能力最差,將很多屬于云的區(qū)域識(shí)別為煙塵,t-FCN和U-Net的問(wèn)題是分割出的煙塵區(qū)域存在空洞(圖10d第3行,圖10e第3行),F(xiàn)CN-LSTM在分割完整性和抗干擾性方面均優(yōu)于其他模型,分割結(jié)果更準(zhǔn)確。
綜上,en-de模型的煙塵分割結(jié)果中容易出現(xiàn)空洞,t-FCN模型因?yàn)椴捎玫碾p分支特征融合結(jié)構(gòu),相比en-de的煙塵分割結(jié)果更準(zhǔn)確,但對(duì)邊緣分割部分的準(zhǔn)確性不足。U-Net和m-FCN存在分割結(jié)果不完整的問(wèn)題,F(xiàn)CN模型在分割煙塵時(shí)更容易受到來(lái)自云的干擾,抗干擾能力較差,而FCN-LSTM模型表現(xiàn)出最佳的抗干擾能力,在其他模型均出現(xiàn)誤分割或是分割煙塵區(qū)域不完整的情況下,仍然保持了更為準(zhǔn)確的分割結(jié)果。這是因?yàn)镕CN-LSTM模型既考慮了圖像的空間特征,又結(jié)合了時(shí)間序列特征,通過(guò)動(dòng)態(tài)特征有效區(qū)分了煙塵和背景中的干擾,煙塵分割結(jié)果在所有模型中最接近人工標(biāo)記。
表3展示了所有模型的測(cè)試結(jié)果指標(biāo)對(duì)比。其中,en-de的IoU指標(biāo)明顯低于其他模型的,這是因?yàn)樵摼W(wǎng)絡(luò)未使用預(yù)訓(xùn)練VGG模型的網(wǎng)絡(luò)權(quán)重[27]。t-FCN是一種基于en-de的模型,通過(guò)在其原有的網(wǎng)絡(luò)結(jié)構(gòu)上添加一條并行的較淺的網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)分割結(jié)果的二次精細(xì)化。在本節(jié)的對(duì)比實(shí)驗(yàn)中,為了驗(yàn)證新增的并行網(wǎng)絡(luò)對(duì)分割性能的提升,網(wǎng)絡(luò)各層權(quán)重的初始化同en-de模型保持一致,統(tǒng)一在參數(shù)初始化階段使用正態(tài)分布。量化指標(biāo)對(duì)比結(jié)果表明,t-FCN相比于en-de有提升。FCN-LSTM在IoU和F1 2項(xiàng)指標(biāo)上表現(xiàn)最佳,憑借其對(duì)序列煙塵圖像間上下文信息的處理有效增強(qiáng)了對(duì)工業(yè)煙塵的分割效果,在5個(gè)場(chǎng)景中均領(lǐng)先于其他模型,在干擾場(chǎng)景測(cè)試集上的領(lǐng)先幅度最大,相比于改進(jìn)前的FCN模型,IoU指標(biāo)最高提升了8.04%,F(xiàn)1指標(biāo)最高提升了5.12%。
本文針對(duì)應(yīng)用全卷積網(wǎng)絡(luò)于復(fù)雜場(chǎng)景中工業(yè)煙塵分割時(shí)容易受到干擾的問(wèn)題,提出一種基于FCN-LSTM的工業(yè)煙塵圖像分割網(wǎng)絡(luò)模型。相比于全卷積網(wǎng)絡(luò)只能對(duì)圖像的空間特征進(jìn)行提取,本文提出的網(wǎng)絡(luò)可以同時(shí)提取圖像的空間特征和時(shí)序特征。長(zhǎng)短時(shí)記憶層通過(guò)門控結(jié)構(gòu)控制前一時(shí)刻的信息對(duì)當(dāng)前時(shí)刻信息的影響,使網(wǎng)絡(luò)能夠捕獲序列信息中遠(yuǎn)距離的標(biāo)簽依賴性,從而提升了網(wǎng)絡(luò)對(duì)動(dòng)態(tài)煙塵圖像背景中靜止干擾元素的區(qū)分能力,提高了模型對(duì)云的抗干擾能力,改善了分割結(jié)果中常出現(xiàn)干擾點(diǎn)的情況。將測(cè)試集圖像按照易辨場(chǎng)景和4種復(fù)雜場(chǎng)景進(jìn)行分類后,對(duì)本文模型同其他5種用于圖像分割的深度網(wǎng)絡(luò)模型在各個(gè)測(cè)試集上進(jìn)行了對(duì)比測(cè)試,并通過(guò)IoU與F1 2項(xiàng)指標(biāo)量化分割結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文模型的抗干擾能力更強(qiáng),復(fù)雜場(chǎng)景中分割煙塵準(zhǔn)確度更高。