吳 凡, 王慧琴, 王 可
(西安建筑科技大學(xué) 信息與控制工程學(xué)院, 陜西 西安710055)
火災(zāi)是自然和社會(huì)災(zāi)害中發(fā)生概率最高的災(zāi)害之一,對(duì)人類的生活和生命安全構(gòu)成嚴(yán)重威脅[1]。因此,快速而準(zhǔn)確地檢測(cè)火災(zāi)發(fā)生至關(guān)重要。
當(dāng)前的火災(zāi)探測(cè)方式仍以各種火災(zāi)傳感器為主,雖然其低價(jià)簡(jiǎn)單,但極易受到粉塵、氣流以及高度等因素的干擾[2]。通常情況下,明火在與空氣充分接觸之后才會(huì)產(chǎn)生,而在燃燒初期煙霧即已出現(xiàn),因此準(zhǔn)確檢測(cè)煙霧能夠比火焰檢測(cè)更早發(fā)出火災(zāi)報(bào)警[3]。
目前煙霧檢測(cè)研究流程大致可分為疑似煙霧目標(biāo)提取、煙霧特征提取以及煙霧檢測(cè)幾個(gè)重要部分。Barmpoutis[4]等基于HSV(Hue, Saturation, Value) 顏色模型,使用結(jié)合煙霧顏色特征的背景差法提取幀內(nèi)疑似煙霧區(qū)域。Park[5]等結(jié)合幀差法和非參數(shù)顏色模型檢測(cè)疑似煙霧目標(biāo),基于此算法設(shè)計(jì)了一種煙霧檢測(cè)隨機(jī)森林分類器。該算法可以加快煙霧檢測(cè)速度,但檢測(cè)煙區(qū)中易存在空洞,且用于復(fù)雜環(huán)境時(shí)煙霧檢測(cè)虛警率高。在以上研究基礎(chǔ)上,一些學(xué)者為增強(qiáng)分類器的性能,加入了機(jī)器視覺方法。李紅娣[6]等使用金字塔分解算法提取煙霧的金字塔紋理和邊緣特征,并通過支持向量機(jī)(Support Vector Machine)進(jìn)行訓(xùn)練和檢測(cè)煙霧。Zhao[7]等利用煙霧的顏色等特性,基于CS Adaboost算法對(duì)煙霧進(jìn)行檢測(cè),該算法可有效地分辨濃霧和煙霧。上述方法的煙霧特征設(shè)計(jì)與提取多數(shù)由手工完成,需基于經(jīng)驗(yàn)設(shè)定閾值作為識(shí)別煙霧的判斷依據(jù),未必能夠反映煙霧的本質(zhì)特征,其合理性會(huì)因煙霧本身和環(huán)境變化受到影響。
近年來(lái),基于深度學(xué)習(xí)的視頻檢測(cè)方法發(fā)展迅猛,作為一種性能強(qiáng)、適用性廣的方法逐漸在火災(zāi)探測(cè)中得到應(yīng)用[8]。Kim[9]等提出用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)檢測(cè)視頻中的煙霧。該研究利用輸入視頻圖像的顏色信息提取煙霧候選區(qū)域,然后利用預(yù)訓(xùn)練的CNN進(jìn)行煙霧檢測(cè)。該方法較之前的傳統(tǒng)檢測(cè)方法誤檢率和漏檢率得到改善,性能有所提高。陳俊周[10]等融合煙霧的動(dòng)靜態(tài)紋理信息,提出基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的煙霧紋理識(shí)別框架,提高煙霧檢測(cè)的準(zhǔn)確率,然而其將靜態(tài)動(dòng)態(tài)紋理信息分別處理導(dǎo)致算法復(fù)雜度增加,影響煙霧實(shí)時(shí)檢測(cè)。孫穎[11]提出了一種基于3D殘差密集網(wǎng)絡(luò)的煙霧檢測(cè)算法,將殘差網(wǎng)絡(luò)和密集連接網(wǎng)絡(luò)進(jìn)行整合,形成3D Residual Dense Block網(wǎng)絡(luò)模塊,以提取煙霧的時(shí)空特征。神經(jīng)網(wǎng)絡(luò)算法雖然性能較優(yōu),但二維 CNN無(wú)法提取時(shí)域特征,丟失了時(shí)間維度的幀間運(yùn)動(dòng)信息,因而檢測(cè)效果不佳;三維 CNN則因特征維度提升,計(jì)算成本大幅增加,影響檢測(cè)時(shí)效和準(zhǔn)確率。
本文提出一種基于時(shí)空域深度學(xué)習(xí)的火災(zāi)煙霧視頻檢測(cè)算法,利用分塊的運(yùn)動(dòng)目標(biāo)檢測(cè)算法過濾非煙霧區(qū)域,再輸入經(jīng)預(yù)訓(xùn)練的二加一維時(shí)空域網(wǎng)絡(luò)模型,提取煙霧的時(shí)空域特征,抑制無(wú)關(guān)特征,最后將煙霧區(qū)域分塊標(biāo)記,提高了檢測(cè)準(zhǔn)確率和時(shí)效。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)(Deep learning)的代表算法之一,模仿生物的視覺感知機(jī)制構(gòu)建,可進(jìn)行監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。三維卷積神經(jīng)網(wǎng)絡(luò)是一種視頻檢測(cè)網(wǎng)絡(luò),在物體識(shí)別、動(dòng)作檢測(cè)等方面有著巨大優(yōu)勢(shì)。
一些研究使用二維神經(jīng)網(wǎng)絡(luò)對(duì)視頻進(jìn)行檢測(cè),研究對(duì)象大多數(shù)是視頻的幀截圖,忽略了幀間運(yùn)動(dòng)信息的時(shí)間序列,因此時(shí)間維度上的幀間運(yùn)動(dòng)信息會(huì)丟失。如果將二維卷積神經(jīng)網(wǎng)絡(luò)拓展到三維,便可同時(shí)提取時(shí)間和空間維度特征,增加時(shí)間維度的特征信息,濾波器的內(nèi)核維度也因此會(huì)增加,在學(xué)習(xí)單個(gè)圖片鄰近像素的同時(shí)學(xué)習(xí)時(shí)間上接近的像素,即學(xué)習(xí)時(shí)空特征,其公式如式(1)所示:
(1)
圖1 三維卷積原理圖Fig.1 Schematic diagram of three-dimensional convolution
由于煙霧屬于運(yùn)動(dòng)目標(biāo),從視頻圖像中提取運(yùn)動(dòng)目標(biāo)可濾除大量非煙霧區(qū)域,再對(duì)分割出的疑似煙霧區(qū)域進(jìn)行預(yù)處理,輸入網(wǎng)絡(luò)模型進(jìn)行煙霧識(shí)別,可有效提高準(zhǔn)確率和時(shí)效。為了使運(yùn)動(dòng)目標(biāo)檢測(cè)部分達(dá)到理想的效果,本研究將采用高斯混合模型和四幀差分法相結(jié)合的運(yùn)動(dòng)檢測(cè)算法提取疑似煙霧目標(biāo),準(zhǔn)備輸入網(wǎng)絡(luò)模型。
3.1.1 高斯混合模型
在高斯混合模型[12](Gaussian mixture model)中,每一個(gè)背景圖片像素點(diǎn)的描述都由N個(gè)高斯分布組成,這幾個(gè)高斯分布的加權(quán)組合形成背景。
首先是構(gòu)建初始背景模型。讀取視頻序列前N幀圖片,通過預(yù)處理將其轉(zhuǎn)化成灰度圖片序列fi(i=1,2,3,…,N),將圖片中坐標(biāo)為(x,y)的像素值fi(x,y)分別向這N個(gè)高斯分布的均值ui,l(x,y)賦值,隨后用一個(gè)相對(duì)較大的方差將每個(gè)高斯分布初始化,至此高斯混合模型建立完成,表達(dá)式如下:
(2)
其中,N是高斯模型的數(shù)量,ηl(fi,ui,l,σi,l)代表第l個(gè)高斯分布,ωi,l表示第l個(gè)高斯分布的權(quán)重,通常初始值設(shè)為1/M。
第二步是前景目標(biāo)檢測(cè)。讀取下一幀圖片,經(jīng)預(yù)處理后記做fi+1,依照ω/σ的值從大到小的順序?qū)i+1(x,y)對(duì)應(yīng)的高斯模型排序,選擇比值較大的前B個(gè)高斯分布生成該圖片的背景,B的表達(dá)式如下:
(3)
其中,T為使用者設(shè)定的閾值,亦稱門限參數(shù),隨后依照下面的表達(dá)式(4)進(jìn)行匹配,若fi+1(x,y)與其背景模型中序號(hào)為k(k≤B)的高斯分布匹配,則該點(diǎn)可以認(rèn)定為背景,否則為前景目標(biāo)。λ是前景閾值,一般設(shè)為2.5。
|ft+1(x,y)-ut,k|≤λσt,k
.
(4)
第三步是背景模型更新。新的一幀圖片完成檢測(cè)后,若fi+1(x,y)被判定來(lái)自于前景,即說明前B個(gè)高斯分布模型沒有一個(gè)能與該點(diǎn)對(duì)應(yīng)的模型相匹配,需要一個(gè)新的高斯分布函數(shù)代替ω/σ值最小的那個(gè)分布函數(shù),其均值為fi+1(x,y),給定的權(quán)值較小,方差較大。
與fi+1(x,y)匹配的高斯分布表達(dá)式按下面的表達(dá)式更新:
ωt+1,l(x,y)=(1-α)ωt,l(x,y)+α
(5)
ut+1,l(x,y)=(1-ρ)ui,l(x,y)+ρft+1(x,y)
(6)
(7)
不與fi+1(x,y)匹配的高斯分布表達(dá)式則按照表達(dá)式(8)更新:
ωt+1,l(x,y)=(1-α)wi,l(x,y)
(8)
最終將權(quán)值歸一化,式中α、ρ是通常由經(jīng)驗(yàn)設(shè)定的學(xué)習(xí)速率。
3.1.2 四幀差分法
幀間差分法(Frame difference method)是通過獲得相鄰連續(xù)幀的差別以進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè),具有算法簡(jiǎn)單、時(shí)間復(fù)雜度低的優(yōu)點(diǎn),對(duì)動(dòng)靜態(tài)背景適應(yīng)性好,不需要提取和更新背景。然而常用的二幀差分法無(wú)法解決雙影與空洞問題,本研究采用性能較好的四幀差分法[13]以消除目標(biāo)檢測(cè)過程中存在的空洞和雙影現(xiàn)象。具體步驟如下:
(1)讀取視頻序列連續(xù)4幀圖片,處理為灰度圖片后進(jìn)行中值濾波去噪,獲得連續(xù)4幀預(yù)處理過的圖片,并將其設(shè)為Ik(x,y),Ik+1(x,y),Ik+2(x,y),Ik+3(x,y)。
(2)將4幀圖片進(jìn)行間隔差分,即第1幀與第3幀、第2幀與第4幀差分,使用閾值進(jìn)行分割,獲得二值化圖片,表達(dá)式如下:
(9)
(10)
式中,d1k、d2k是差分處理過的圖片,Z是預(yù)設(shè)的二值化固定閾值。
(3)將第2步得到的二值化圖片中運(yùn)動(dòng)目標(biāo)的輪廓進(jìn)行填充,由于背景為純黑色,故選用易于分辨的純白色對(duì)運(yùn)動(dòng)目標(biāo)區(qū)域進(jìn)行填充。
(4)為了減少雙影現(xiàn)象,對(duì)第3步結(jié)果進(jìn)行邏輯“與”操作,見下式:
Dk=d1k∩d2k
(11)
.
(12)
3.1.3 視頻分塊檢測(cè)
煙霧部分明顯特征是形狀不確定,運(yùn)動(dòng)方向和速度不規(guī)律,為了更便捷地標(biāo)記運(yùn)動(dòng)區(qū)域,以及將疑似煙霧目標(biāo)區(qū)域輸入后續(xù)神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí),本文將原始視頻數(shù)據(jù)的每一幀分成相同大小互不重合的小方塊,進(jìn)行如圖2的分塊運(yùn)動(dòng)檢測(cè),分塊公式如下所示:
圖2 煙霧圖像分塊處理示例Fig.2 Example of block processing of smoke image
(13)
其中,hX、hY分別代表原始圖像的寬和高,hx、hy分別代表圖像每個(gè)分塊的寬和高,nc、nr分別代表視頻幀被分割的行數(shù)與列數(shù)。
3.1.4 高斯混合模型與四幀差分法混合運(yùn)動(dòng)目標(biāo)檢測(cè)
本文采取四幀差分法與高斯混合模型混合算法進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè)。首先將讀取的視頻序列進(jìn)行預(yù)處理,隨后分別送入四幀差分改進(jìn)算法和高斯混合模型當(dāng)中進(jìn)行前景目標(biāo)提取,再將兩個(gè)算法分割的前景目標(biāo)進(jìn)行“與”邏輯操作,通過連通性分析,形態(tài)學(xué)處理,得到疑似煙霧目標(biāo)區(qū)域,最后使用分塊將其標(biāo)記并儲(chǔ)存。具體算法流程如圖3所示。
圖3 運(yùn)動(dòng)目標(biāo)檢測(cè)算法流程圖Fig.3 Moving target detection algorithm flow chart
煙霧本身外觀特征復(fù)雜,也會(huì)環(huán)境變化增大特征差異。傳統(tǒng)人工設(shè)計(jì)處理的特征難以描述煙霧的全部本質(zhì),極易受到相似目標(biāo)的干擾,因此檢測(cè)準(zhǔn)確率不高。三維神經(jīng)網(wǎng)絡(luò)在視頻檢測(cè),動(dòng)作分類等領(lǐng)域優(yōu)勢(shì)巨大,而殘差網(wǎng)絡(luò)則在特征提取方面擁有出色表現(xiàn),本文結(jié)合二者優(yōu)勢(shì),提出一種改進(jìn)的二加一維時(shí)空域網(wǎng)絡(luò)。將一般的三維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分解為二維加一維卷積網(wǎng)絡(luò)層,先后提取視頻圖像的空域和時(shí)域特征,并加入注意力機(jī)制,利用該機(jī)制的小型子網(wǎng)絡(luò)運(yùn)算重新標(biāo)定特征通道權(quán)重,過濾無(wú)關(guān)特征,最后通過全連接層得到最終檢測(cè)結(jié)果。
3.2.1 二加一維時(shí)空域網(wǎng)絡(luò)結(jié)構(gòu)
三維卷積神經(jīng)網(wǎng)絡(luò)因其能同時(shí)提取時(shí)空域特征在視頻檢測(cè)領(lǐng)域得到應(yīng)用,但是其存在參數(shù)量多、計(jì)算量高的問題。以最常見的三維網(wǎng)絡(luò)模型C3D(Convolutional 3D Network)為例,在使用數(shù)據(jù)集Sports-1M訓(xùn)練時(shí),模型大小超過300 MB。視頻煙霧檢測(cè)系統(tǒng)多用于嵌入式設(shè)備,這就要求煙霧時(shí)空域特征提取所用到的神經(jīng)網(wǎng)絡(luò)計(jì)算成本低,模型參數(shù)少。
二加一維神經(jīng)網(wǎng)絡(luò)模塊是指將三維網(wǎng)絡(luò)結(jié)構(gòu)拆分為獨(dú)立的二維空域卷積結(jié)構(gòu)和一維時(shí)域網(wǎng)絡(luò)結(jié)構(gòu),使得非線性數(shù)量增加一倍,同時(shí)分解交織的時(shí)間與空間信息,使得網(wǎng)絡(luò)利于優(yōu)化,從而在保證三維網(wǎng)絡(luò)性能的前提下降低了計(jì)算成本。設(shè)輸入特征圖尺寸為l×w×h×f,其中l(wèi)為視頻幀數(shù),w為視頻寬度,h為視頻高度,f為輸入特征維度。原三維卷積核尺寸為t×k×k,將其拆分為1×k×k的空域卷積核與t×1×1的時(shí)域卷積核后,計(jì)算過程由t×k×k變?yōu)閠+k×k,計(jì)算量得到明顯減少,然而參數(shù)量的銳減對(duì)模型的復(fù)雜性和表達(dá)能力有明顯影響。由此需要在充分利用二加一維網(wǎng)絡(luò)的優(yōu)點(diǎn)的同時(shí)保留足夠的參數(shù)量。
本文參考文獻(xiàn)[14]的方法,通過一個(gè)超參數(shù)M更改中間特征通道數(shù)量,將二加一維參數(shù)量恢復(fù)到原三維網(wǎng)絡(luò)的水平,圖4為采用超參數(shù)M的二加一維結(jié)構(gòu)。M的計(jì)算公式以及計(jì)算參數(shù)對(duì)比如下:
(14)
3D:Ni-1×Ni×t×k×k;(2+1)D:Ni-1×M×1×k×k+M×Ni×t×1×1
.
(15)
在時(shí)域與空域卷積之后是批標(biāo)準(zhǔn)化層(Batch Normalization,BN)[15],其作用對(duì)象是每個(gè)隱層神經(jīng)元,其輸入分布在逐漸向非線性函數(shù)映射后,取值區(qū)間會(huì)向極限飽和區(qū)靠攏,BN層可以將其強(qiáng)制拉回到均值為0、方差為1的標(biāo)準(zhǔn)正態(tài)分布,使非線性變換函數(shù)的輸入值落入對(duì)輸入比較敏感的區(qū)域,有效解決不同層數(shù)據(jù)分布不一致和梯度消失問題。之后引入整流線性單元(Rectified Linear Unit,ReLU)激活函數(shù)層[16],其作用是增加模型的非線性表達(dá)能力,防止過擬合現(xiàn)象,提升訓(xùn)練精度。
二加一維網(wǎng)絡(luò)結(jié)構(gòu)因?yàn)橛蠱超參數(shù)的存在,使得時(shí)空域兩個(gè)子卷積層之間增加了一個(gè)非線性操作,與原來(lái)同樣參數(shù)量的三維卷積結(jié)構(gòu)相比非線性操作數(shù)量翻倍,網(wǎng)絡(luò)復(fù)雜度由此增加。第二個(gè)好處是時(shí)空域分解讓優(yōu)化的過程也分解開,三維時(shí)空卷積把空間信息和動(dòng)態(tài)信息交織在一起,優(yōu)化過程較為復(fù)雜。而二加一維卷積分別提取時(shí)空域特征,優(yōu)化過程相對(duì)簡(jiǎn)單,可以使模型誤差降低。
3.2.2 注意力機(jī)制層
為了提高檢測(cè)效率,本文在二加一維網(wǎng)絡(luò)結(jié)構(gòu)中引入注意力機(jī)制。Hu[17]等提出了一種壓縮和激勵(lì)網(wǎng)絡(luò)(Squeeze-and-Excitation Network,SENet),在網(wǎng)絡(luò)訓(xùn)練過程中可以自動(dòng)重新標(biāo)定特征,抑制對(duì)分類無(wú)用的特征,提高網(wǎng)絡(luò)的分類識(shí)別能力。
該網(wǎng)絡(luò)層包括以下3個(gè)處理步驟:
(1)壓縮(Squeeze)操作:將大小為l×w×h×f的輸入,使用一個(gè)全局池化層壓縮輸入張量中除特征通道維度f(wàn)之外的所有維度,使其轉(zhuǎn)化為一特征通道數(shù)大小的實(shí)數(shù)向量,大小為1×f。
(2)激勵(lì)(Excitation)操作:通過一個(gè)全連接層壓縮轉(zhuǎn)換的特征向量,使其維度降低到f/r,大小為1×f/r,再經(jīng)過ReLU函數(shù)激活后通過一個(gè)全連接層,得到一個(gè)輸出維度與輸入特征通道數(shù)相匹配的特征權(quán)重向量,大小為1×f。
(3)權(quán)值重標(biāo)定(Reweight)操作:使用Sigmoid函數(shù)將權(quán)重歸一化,最后將Excitation操作得到的權(quán)重對(duì)特征通道進(jìn)行加權(quán),從而實(shí)現(xiàn)對(duì)特征的重新標(biāo)定。
將SENet和二加一維網(wǎng)絡(luò)按圖5的形式結(jié)合在一起,就形成了時(shí)空域注意力網(wǎng)絡(luò)模塊。
圖5 時(shí)空域注意力網(wǎng)絡(luò)模塊Fig.5 Spatio-temporal attention network module
3.2.3 網(wǎng)絡(luò)總體框架
本文提出的二加一維時(shí)空域網(wǎng)絡(luò)采用時(shí)間卷積層和空間卷積層串聯(lián)結(jié)構(gòu)替代三維卷積結(jié)構(gòu)提取時(shí)空特征,并引入注意力機(jī)制,過濾無(wú)關(guān)特征,提高了網(wǎng)絡(luò)的檢測(cè)性能。本文提出的網(wǎng)絡(luò)結(jié)構(gòu)整體框架如圖6所示。
圖6 時(shí)空域深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)圖Fig.6 Graph of convolutional neural network in spatio-temporal
(1)輸入層:輸入為l幀連續(xù)RGB煙霧圖像,尺寸為l×w×h×f,其中l(wèi)為視頻幀數(shù),w為視頻寬度,h為視頻高度,f為輸入特征維度。本文輸入為連續(xù)的RGB圖像,故f取值為3。
(7)輸出層:將輸入數(shù)據(jù)送入通道數(shù)為512的全局平均池化層,最后通過全連接層得到是否為煙霧的評(píng)估結(jié)果。
本研究實(shí)驗(yàn)環(huán)境為 Win10 64位操作系統(tǒng),內(nèi)存為16 GB,CPU為Intel Core i7-8700,圖形處理器為 NVIDIA GeForce RTX2070 8G,深度學(xué)習(xí)框架為Pytorch,在Python和 Microsoft Visual Studio Code 編程環(huán)境下實(shí)現(xiàn)。
為驗(yàn)證本算法的有效性,數(shù)據(jù)集從課題組自行拍攝的煙霧視頻以及網(wǎng)絡(luò)煙霧視頻集中截取,選取不同場(chǎng)景下的煙霧正樣本及負(fù)樣本進(jìn)行火災(zāi)識(shí)別實(shí)驗(yàn)。場(chǎng)景分為室內(nèi)與室外開闊空間兩種環(huán)境,干擾物有與煙霧顏色相近的云朵、加濕器水霧、白色背景墻,樹林等??倶颖緸?08 184張,每8張連續(xù)圖片為一個(gè)視頻塊,其中 188 792 張用于train數(shù)據(jù)集,9 792 張用于val數(shù)據(jù)集,9 600張作為test數(shù)據(jù)集,每幀樣本大小為32×32。
本次研究使用4.1節(jié)的數(shù)據(jù)集進(jìn)行訓(xùn)練,在參數(shù)設(shè)定環(huán)節(jié)中,我們選擇隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)作為網(wǎng)絡(luò)損耗的優(yōu)化器,訓(xùn)練Epoch數(shù)量設(shè)置為50,一次訓(xùn)練所選取的樣本數(shù)(Batch_size)為64,設(shè)置動(dòng)量系數(shù)為0.9和權(quán)重衰減值為0.000 5,初始學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)率每經(jīng)過10個(gè)訓(xùn)練周期(Epoch)便衰減為原來(lái)的1/10。
為了測(cè)試本研究算法的性能,采用文獻(xiàn)[18]的評(píng)價(jià)標(biāo)準(zhǔn)。計(jì)算得到準(zhǔn)確率(ACC),正確率(TPR),虛警率(FPR),公式如下:
(16)
(17)
(18)
式中,N為總煙霧樣本數(shù),TP為被檢測(cè)為有煙霧的有煙霧樣本數(shù),TN為被檢測(cè)為無(wú)煙霧的無(wú)煙霧樣本數(shù),F(xiàn)P為被檢測(cè)為有煙霧的無(wú)煙霧樣本數(shù),F(xiàn)N為被檢測(cè)為無(wú)煙霧的有煙霧樣本數(shù)。
本次研究共選擇10段視頻作為測(cè)試,具體描述說明如表1所示。
表1 測(cè)試視頻說明Tab.1 Test video description
圖7所示為部分視頻煙霧檢測(cè)效果,圖中檢測(cè)出的煙霧區(qū)域?yàn)榘咨綁K標(biāo)記的位置。實(shí)驗(yàn)結(jié)果表明,本文采用的煙霧檢測(cè)算法在10段測(cè)試視頻中都取得了良好的效果。對(duì)于不同顏色、不同濃度、不同速度的煙霧都能夠取得理想的檢測(cè)效果。在加濕器水霧、云等類煙運(yùn)動(dòng)物體、多云和白色背景墻的復(fù)雜背景干擾下也具有良好的魯棒性。
圖7 部分檢測(cè)結(jié)果。(a)、(b)、(c)為有煙霧視頻,(d)為無(wú)煙霧視頻。Fig.7 Part of the test results. (a),(b),(c) Smoke videos; (d) Non-smoke video.
為充分驗(yàn)證本算法的有效性,將去掉第三與第四時(shí)空殘差卷積塊,減少特征通道維度變換次數(shù)的模型稱為算法1,所有時(shí)空殘差卷積塊去掉SENet網(wǎng)絡(luò)層的模型稱為算法2,共同與本文提出的算法進(jìn)行對(duì)比,對(duì)比的數(shù)值為10個(gè)視頻評(píng)價(jià)標(biāo)準(zhǔn)的平均數(shù)值,分別為平均準(zhǔn)確率(AACC),平均正確率(ATPR)和平均虛警率(AFPR),結(jié)果如表2所示。
表2 不同結(jié)構(gòu)性能對(duì)比
由表2可知,算法1由于減少時(shí)空殘差卷積塊導(dǎo)致網(wǎng)絡(luò)的層數(shù)減少,模型深度不足,對(duì)煙霧特征提取不充分,故而本文算法比算法1平均準(zhǔn)確率增加3.09%,虛警率降低2.18%,說明較深層數(shù)的網(wǎng)絡(luò)模型能夠有效提取煙霧特征。而對(duì)于算法2,本文算法增加了SENet層以重新標(biāo)定特征權(quán)重,減少了冗余的無(wú)用特征,因此平均準(zhǔn)確率提升0.97%,平均虛警率也有所改善,降低了0.7%,說明增加Senet層能夠使網(wǎng)絡(luò)模型對(duì)煙霧特征的注意力提高。
為進(jìn)一步驗(yàn)證煙霧檢測(cè)算法的有效性,本文還將采用LBP和LBPV檢測(cè)煙霧的文獻(xiàn)[19]方法,采用PCA主成分分析和Inception Resnet v2網(wǎng)絡(luò)算法的文獻(xiàn)[20]方法,采用VGG16和Resnet50網(wǎng)絡(luò)融合算法的文獻(xiàn)[21]方法以及采用3D密集殘差網(wǎng)絡(luò)的文獻(xiàn)[11]方法加入本文算法性能對(duì)比,結(jié)果如表3所示。
表3 與其他算法性能對(duì)比Tab.3 Performance comparison with other algorithms
由表3結(jié)果可知,與傳統(tǒng)的手工設(shè)計(jì)提取煙霧特征以及機(jī)器視覺算法的檢測(cè)方法相比,卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)端對(duì)端、自動(dòng)選取煙霧的檢測(cè)特征,且特征種類和規(guī)模更加豐富,因此文獻(xiàn)[20],文獻(xiàn)[21]、文獻(xiàn)[11]的算法及本文算法平均準(zhǔn)確率均可以達(dá)到90%以上,文獻(xiàn)[21]的方法平均虛警率比文獻(xiàn)[19]降低了18%。而對(duì)于各種基于二維卷積神經(jīng)網(wǎng)絡(luò)的算法,本文算法使用的網(wǎng)絡(luò)模型能夠?qū)D像和運(yùn)動(dòng)信息建模,同時(shí)提取空域與時(shí)域特征,最終平均準(zhǔn)確率提升2.34%,虛警率改善明顯,降低了1.24%,說明提取時(shí)空域特征可以顯著提升煙霧檢測(cè)效果。對(duì)于文獻(xiàn)[11]方法,由于本文算法增加了非線性因素且時(shí)空域分開運(yùn)算,因而檢測(cè)準(zhǔn)確率提升1.07%,虛警率提升0.17%。
為了驗(yàn)證煙霧檢測(cè)算法的時(shí)效,本文以每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)作為對(duì)比指標(biāo),將采用三維密集殘差網(wǎng)絡(luò)的文獻(xiàn)[11]方法,以及去掉本文算法時(shí)空網(wǎng)絡(luò)塊中SENet層的算法3加入性能對(duì)比,結(jié)果如表4所示。
表4 檢測(cè)效率對(duì)比Tab.4 Comparison of detection efficiency
由表4結(jié)果可知,本文的二加一維網(wǎng)絡(luò)算法比標(biāo)準(zhǔn)的三維網(wǎng)絡(luò)檢測(cè)速率有明顯提升,且未因SENet層的加入出現(xiàn)大幅降低的現(xiàn)象,對(duì)比算法3,檢測(cè)準(zhǔn)確率有所提升,綜合效果更好。
本文為了準(zhǔn)確地從視頻中檢測(cè)煙霧,充分提取視頻的時(shí)空域特征,同時(shí)改善三維網(wǎng)絡(luò)模型的檢測(cè)時(shí)效問題,提出了一種加入注意力機(jī)制的二加一維時(shí)空域深度學(xué)習(xí)檢測(cè)算法。利用分塊的運(yùn)動(dòng)目標(biāo)檢測(cè)算法,過濾非煙霧目標(biāo),經(jīng)預(yù)處理后輸入到二加一維神經(jīng)網(wǎng)絡(luò)模型進(jìn)行時(shí)空域特征提取。為抑制無(wú)關(guān)特征,使用注意力機(jī)制重新標(biāo)定特征通道,經(jīng)全連接層輸出檢測(cè)結(jié)果后將煙霧區(qū)域分塊標(biāo)定。在實(shí)驗(yàn)數(shù)據(jù)集測(cè)試得到的結(jié)果中,平均準(zhǔn)確率為97.12%,平均正確率為97.06%,平均虛警率為2.74%,平均FPS為10.49幀/s。實(shí)驗(yàn)數(shù)據(jù)表明,該算法可以有效減少?gòu)?fù)雜場(chǎng)景、類煙目標(biāo)對(duì)煙霧特征的干擾,相比現(xiàn)有三維CNN算法提升了檢測(cè)速率,取得了良好的檢測(cè)效果。