衛(wèi)鑫 武淑紅 王耀力
摘 要:針對采樣的每幀煙霧特征具有極大的相似性,以及森林火災煙霧數據集相對較小且單調等問題,為充分利用煙霧的靜態(tài)與動態(tài)信息來達到預防森林火災的目的,提出一種深度卷積集成式長短期記憶網絡(DC-ILSTM)模型。首先,使用在ImageNet數據集上預訓練好的VGG-16網絡進行基于同構數據的特征遷移,以有效提取出煙霧特征;其次,基于池化層與長短期記憶網絡(LSTM)提出一種集成式長短期記憶網絡(ILSTM),并利用ILSTM分段融合煙霧特征;最后,搭建一種可訓練的深度神經網絡模型用于森林火災煙霧檢測。煙霧檢測實驗中,與深卷積長遞歸網絡(DCLRN)相比,DC-ILSTM在最佳效率下以10幀的優(yōu)勢檢測到煙霧,而且在測試準確率上提高了1.23個百分點。實驗結果表明,DC-ILSTM在森林火災煙霧檢測中有很好的適用性。
關鍵詞:煙霧檢測;深度卷積神經網絡;長短期記憶網絡;遷移學習;微量數據集
中圖分類號:TP391.41
文獻標志碼:A
Abstract:? Since the smoke characteristics of each sampled frame have great similarity, and the forest fire smoke dataset is relatively small and monotonous, in order to make full use of the static and dynamic information of smoke to prevent forest fires, a Deep Convolution Integrated Long Short-Term Memory network (DC-ILSTM) model was proposed. Firstly, VGG-16 networks pre-trained on ImageNet dataset were used for feature transfer based on isomorphic data to effectively extract smoke characteristics. Secondly, an Integrated Long Short-Term Memory network (ILSTM) based on pooling layer and Long Short-Term Memory network (LSTM) was proposed, and ILSTM was used for segmental fusion of smoke characteristics. Finally, a trainable deep neural network model was built for forest fire smoke detection. In the smoke detection experiment, compared with Deep Convolution Long Recursive Network (DCLRN), DC-ILSTM can detect smoke with 10 frames advantage under the optimal efficiency and has the test accuracy increased by 1.23 percentage points. The theoretical analysis and simulation results show that DC-ILSTM has good applicability in forest fire smoke detection.
Key words:? smoke detection;deep convolutional neural network; Long Short-Term Memory network (LSTM); transfer learning; small dataset
0 引言
傳統(tǒng)的煙霧檢測方法大多采用物理傳感器進行檢測,該類方法對環(huán)境依賴較強、檢測范圍小,且需要安裝大量傳感器,對人力和物力造成較大消耗。隨著圖像處理、模式識別和人工智能等技術的發(fā)展,視頻煙霧檢測技術具有很好的應用前景。該技術不僅彌補了傳統(tǒng)方法的不足,而且在初期能夠對火災進行有效檢測,降低火災所造成的危害。
相較于傳統(tǒng)的計算機視覺方法[1-5],深度學習算法可從大量的圖像數據集中進行自主學習,避免了人工提取特征的不足。文獻[6]提出了一種級聯(lián)卷積神經網絡(Convolutional Neural Network, CNN)火災分類器。該分類器將AlexNet網絡與兩個完全連接層和一個分類層相結合,達到了預防火災的目的;文獻[7]選取了一種用于視頻火災和煙霧檢測的卷積神經網絡,為火災預測提供了一定的決策方向。但是,通過以上方法所構建的卷積神經網絡模型僅限于處理2D輸入問題,需要逐幀處理視頻圖像,時間開銷顯著增加。
隨后,文獻[8]提出一種新型深度歸一化卷積神經網絡(Deep Normalization and CNN, DNCNN),將傳統(tǒng)的卷積層替換為歸一化層與卷積層;文獻[9]采用與GoogLeNet[10]相似的模型進行煙霧檢測。該類方法采用的模型均需以大量數據為研究基礎,但在煙霧識別領域實際可用的煙霧數據量相對較小且單調。針對數據限制這一問題,文獻[11]在野外森林火災煙霧探測中使用了faster R-CNN,并且通過合成圖像來創(chuàng)建煙霧圖像序列以增強數據集。合成煙霧圖像雖然可一定程度上提高檢測性能,但在數據處理及訓練過程中增加了較多成本。
最近,利用循環(huán)神經網絡(Recurrent Neural Network, RNN)解決視頻煙霧檢測問題得到了發(fā)展。此方法在文獻[12]的下一階段工作中也有提到。為了有效地利用長時間煙霧運動信息,文獻[13]基于RNN提出了一種遞歸卷積神經網絡,并成功應用于視頻煙霧檢測領域;文獻[14]提出一種深度卷積長遞歸神經網絡(Deep Convolutional Long-Recurrent Network, DCLRN),并將DCLRN與光流方法相結合,實現(xiàn)了對開放空間環(huán)境下火災的實時監(jiān)測。該類方法由于容易受煙霧變化和與煙霧特征相似的霧的干擾,在一些場景中無法進行很好的識別;同時,在如何結合更多的鑒別信息來改善煙霧檢測問題上有待進一步研究。
鑒于以上問題,本文將深度CNN和長短期記憶網絡(Long Short-Term Memory network, LSTM)相結合提出一種深度卷積集成式長短期記憶網絡(Deep Convolution Integrated LSTM, DC-ILSTM)模型。
該模型不僅提取煙霧運動和空間特征,而且通過遞歸方法探索有效的信息來綜合考慮煙霧區(qū)域的屬性。首先,基于當下較為先進的深度CNN模型提出一種具有更好泛化能力的深度卷積網絡用于提取煙霧特征;其次,為避免采樣視頻幀間存在的相似性問題,提出了一種集成式長短期記憶網絡(Integrated LSTM, ILSTM)以處理煙霧特征;然后,針對森林火災煙霧數據集小且單一的問題,使用預訓練好的VGG-16網絡進行特征遷移;最后,構建了一種可訓練的網絡模型。
1 構建集成式長短期記憶網絡
長短期記憶網絡(LSTM)作為一種特殊的循環(huán)神經網絡(RNN),不僅具有RNN對前面信息進行長時記憶的特點,還通過增加遺忘門避免長期依賴的問題。
LSTM將輸入映射到隱藏狀態(tài),并將隱藏狀態(tài)映射到輸出,可以有效地學習輸入序列動態(tài)信息。在LSTM細胞結構中,包括遺忘門ft、輸入門it、輸出門Ot和1個記憶單元,其內部結構如圖1所示。LSTM能夠分析煙霧的動態(tài)變化,但是,目前一些工作已經顯示出在煙霧變化非常緩慢和具有與煙霧極其相似特征的場景下,仍然存在檢測效率較低的問題。這是由于在同一個煙霧視頻中,采樣的每幀煙霧特征具有一定相似性。這使得LSTM不能夠很好地學習輸入的特征序列。因此,本文提出了ILSTM模塊。ILSTM模塊結構如圖2所示。該模塊首先將輸入的煙霧特征序列進行分段處理;其次通過式(8)將分段的煙霧特征序列xt∈R4096映射到[0,1]范圍之間。
其中:c為池化域的大小和步長,矩陣S為池化操作后的特征圖。
最后,將聚合的特征輸入到LSTM單元中,該單元將進一步融合煙霧特征進行最終的檢測分類。
本文提出的ILSTM模塊目的是降低輸入序列維度,并學習不同的特征表示。在實驗中,該模塊首先將特征序列均勻地劃分成d個時間段;其次,每個時間段(即長度為n/d)特征值歸一化到[0,1];然后,這些聚合的特征經過最大池化層(卷積核大小為2×2,步長為2);最后,結合LSTM單元遞歸地學習輸入序列時序信息。
2 基于VGG-16網絡優(yōu)化卷積層參數
本文探索和比較了三種不同的CNN模型用于森林火災煙霧檢測,即AlexNet、GoogleNet和VGG-19。
在AlexNet和GoogleNet模型中,分別使用大小為11×11和7×7,步長為3和5的較大卷積核,可能會忽略煙霧區(qū)域的重要特征。使用VGG-16的目的是使用大小為3×3,步長為1的卷積核,這有利于處理和提取煙霧圖像的每個像素的特征;同時,與VGG-19相比,在精度幾乎相同情況下使用的卷積層和參數較少。VGG-16與AlexNet和GoogleNet模型的參數比較如表1所示。從表1可看出,VGG- 16在ImageNet數據集上的Top-1準確率、Top-5準確率和Top-5測試錯誤率均優(yōu)于其他最先進的架構。因此,本文根據森林火災煙霧檢測問題對VGG-16模型的體系結構進行了改進。
本文基于VGG-16網絡的遷移學習模型如圖3所示。本文在ImageNet數據集上對模型進行了微調,以便用于森林火災中煙和非煙的預期分類。如圖3所示左側是本文所使用的煙霧識別模型,主要由卷積層和下采樣層交替構成。該模型共包含13個卷積層、5個下采樣層,以及1個全連接層,其中:第一段由3×3×64卷積核構成的兩層卷積層,第二段由3×3×128卷積核構成的兩層卷積層,第三段由3×3×256卷積核構成的三層卷積層,第四段由3×3×512卷積核構成的三層卷積層,第五段由3×3×512的卷積核構成的三層卷積層,最后連接一層全連接層,神經元個數為4096。
該模型主要是由VGG-16網絡遷移得到,同時加載了對應的VGG-16網絡已經訓練好的參數。首先,基于VGG-16網絡構造卷積層和全連接層;其次,以煙霧數據集作為輸入,獲取ImageNet上已訓練好的VGG-16網絡中的卷積層參數;然后,訓練模型并微調參數;最后,進行模型預測。
3 基于DC-ILSTM網絡的煙霧檢測方法
該方法的主要目的是構建一種可訓練的深度神經網絡模型實現(xiàn)森林火災煙霧檢測。DC-ILSTM網絡模型結構如圖4所示。該模型首先用VGG-16提取N維特征;其次,K幀視頻形成一個長度為K的N維特征序列,即K×N序列;然后,將K×N序列平均劃分為d個時間段進行ILSTM模塊處理;最后,通過ILSTM模塊的輸入映射到連接層輸出二分類結果(即類別的個數)。
在遷移學習中,使用基于ImageNet數據集的VGG-16模型作為CNN模型來提取每幀煙霧特征。實驗結果表明,在ImageNet數據集上訓練的網絡具有更好的泛化能力。
在煙霧特征融合過程中,ILSTM模塊使用最大池化層或平均池化層可以進一步提高視頻檢測準確率;同時,LSTM結構使用了256個過濾器,且大小為3×3、步長為1。實驗結果表明,相比直接使用LSTM網絡,ILSTM網絡顯著提高煙霧檢測的準確率。
該模型動態(tài)地輸入一組任意長度的圖片幀,靜態(tài)地輸出兩種類型結果(有煙、無煙)。實驗算法主要步驟如下:
Step1 提取視頻的每幀圖像,預處理數據。該方法按有煙和無煙進行分類處理、調整大小(3×224×224)、隨機變換(隨機旋轉、剪切、翻轉等)和歸一化。
Step2 預訓練一個基于ImageNet圖像分類的VGG-16模型。
Step3 訓練DC-ILSTM模型:
1)共享預訓練的VGG-16模型的序列空間特征;
2)以上特征輸入到ILSTM單元;
3)經過ILSTM序列特征融合進行二分類檢測。
實驗設置如下:
1)N是DC-ILSTM網絡進行一次處理的數據流量。以實驗訓練為例,N=8。
2)T是DC-ILSTM網絡層處理的總時間步長,即作為一次輸入ILSTM的視頻幀數。以實驗訓練為例,T=16。
3)T×N×4096是預訓練層的輸出尺度。其中:4096是VGG-16中全連接層的維數,即卷積特征維數。
4)d是平均劃分時間段,即作為ILSTM記憶單元輸入。以實驗訓練為例,d=3。
5)圖3是本文模型的卷積層參數詳細配置。以實驗訓練為例,學習率為10-4,迭代次數為300和優(yōu)化函數采用ADAM。
4 實驗與結果分析
4.1 實驗環(huán)境
該算法的硬件平臺是Intel Core i5-4200U CPU@2.30GHz,GPU GEFORCE GTX 1080ti,Ubuntu14.0.4,8GB內存。實驗環(huán)境為Python3.5,Tensorflow1.7.0和Keras框架,包括CNN(VGG-16)和LSTM。
4.2 實驗數據集
本文采用的實驗數據集來自于CVPR實驗室(https://cvpr.kmu.ac.kr)、中國消防科學國家重點實驗室(http://smoke.ustc.edu.cn)、 Bilkent大學的公開火災火焰視頻庫(http://signal.ee.bilkent.edu.tr/VisiFire/)和
網絡采集(例如:Ultimate Chase公司提供的資源庫(http://ultimatechase.com))。
實驗數據集綜合了以上三個數據集和額外收集的關于森林環(huán)境數據,共由60個煙霧視頻和150個非煙霧視頻組成,能充分體現(xiàn)數據的多樣性。
4.3 實驗評價標準
本文采用準確率Accuracy、精確率Precision、召回率Recall和兩者的調和均值F1來衡量網絡性能。各指標計算公式如下:
其中:TP為預測正類為正類;TN為預測負類為負類;FP為預測負類為正類;FN為預測正類為負類。
4.4 實驗結果與分析
實驗視頻包括60個煙霧視頻和150個非煙霧視頻。本文采用交叉驗證的方法將樣本集按照比例被劃分為訓練集、驗證集和測試集。其中,訓練集占總樣本50%(30個煙霧視頻、70個非煙霧視頻),驗證集和測試集各占25%(各包含15個煙霧視頻、40個非煙霧視頻)。
實驗一 在遷移學習中,VGG-16網絡與其他CNN網絡進行對比。
本文使用VGG-16網絡與其他CNN模型進行比較。表2顯示了它們在驗證集上各參數的對比。從表2中可看出,使用AlexNet的準確率最低,假陽性和假陰性分值最差;雖然使用GoogleNet的檢測結果要優(yōu)于AlexNet,但與VGG-16模型相比,其準確率仍然較低,誤報率較高。具體而言,與AlexNet和GoogleNet相比,VGG-16取得了較好的效果,其中,最小假陽性為2.60%、最小假陰性為2.46%、最高準確率達93.31%,因此,使用VGG-16模型性能優(yōu)于其他模型。
實驗二 基于VGG-16網絡的LSTM與ILSTM模塊檢測效果對比。
本文分別使用VGG-16網絡結合LSTM網絡與改進的ILSTM網絡進行對比。
表3顯示了訓練過程中驗證集的假陽性、假陰性和準確率,可看出,結合ILSTM模塊準確性要優(yōu)于LSTM,其中,假陽性最小為2.41%、假陰性最小為2.26%和最高準確率為94.53%,準確率提高了1.32個百分點。
實驗三 基于DC-ILSTM網絡的森林火災煙霧檢測方法與其他最先進的方法檢測效果對比。在DC-ILSTM網絡進行訓練時,每次迭代8個視頻,然后平均取30幀圖像。在VGG-16模型中,對8個視頻進行分類;而在ILSTM模塊中,以30幀圖像平均地劃分為3個時間段進行分類;最后ILSTM模塊的分類作為最終的檢測結果。在測試過程中,分別對VGG-16模型和DC-ILSTM模型進行了測試。
本文對測試集進行測試。測試樣本如圖5所示的(a)~(h)。實驗分別用DC-ILSTM網絡與Hu等[14]提出的深卷積長遞歸網絡(DCLRN)和Filonenko等[13]提出的卷積和遞歸網絡進行對比。表5是以最早檢測出的幀序號為指標,評估各個方法的檢測效果。從表5中可看出,本文方法相比其他兩種方法能夠提前檢測到煙霧。例如,在Video2中,視頻總幀數為190,相比文獻[14]方法和文獻[13]方法,本文方法DC-ILSTM分別以提前10幀和15幀檢測到煙霧;同樣,在1007幀數量的Video3中,本文方法以367幀檢測到煙霧,比文獻[14]方法提前17幀。
總之,本文方法在對煙霧視頻進行測試時,性能優(yōu)于其他兩種方法,具體測試結果如表6所示。煙霧視頻為正類,非煙霧視頻為負類。本文方法之所以能取得較好的性能,并且速度比較快,主要是由于提出的ILSTM網絡對空間和運動上下文特征融合;但是在似煙霧環(huán)境下檢測性能用有所延遲。例如,野外森林環(huán)境中飄動的云與運動緩慢的煙霧。視頻樣本如圖5所示的(i)~(l)。
5 結語
針對森林火災煙霧檢測的問題,本文提出了一種深度神經網絡DC-ILSTM模型。該模型不僅提出結合ILSTM模塊進行煙霧特征融合;而且,在深度遷移學習架構上處理森林火災小樣本數據集。在實驗中,基于公開數據集對該模型進行評估,分別與LSTM模型和最先進的森林火災煙霧檢測方法進行比較。結果表明,在檢測性能上,該模型以更小的最早幀數檢測到煙霧;同時,檢測精度達94.5%以上,比DCLRN提高了1.03個百分點。在下一階段工作中,我們還需進一步優(yōu)化模型提高森林火災煙霧檢測的準確率。