摘" 要: 為了更加準確和可靠地在監(jiān)控圖像中對火災(zāi)進行早期監(jiān)測,以便輔助火焰檢測儀器更加高效和準確地檢測火焰,文中基于Transformer算法和PJF顏色空間,設(shè)計了一種深度學習的火災(zāi)圖像檢測算法。首先,對數(shù)據(jù)集中的火災(zāi)圖像數(shù)據(jù)進行預處理,將圖像從RGB顏色空間轉(zhuǎn)化為PJF顏色空間,突出顯示圖像的火焰區(qū)域;然后,將預處理后的圖像輸入到Swin Transformer網(wǎng)絡(luò)中,過程中采用注意力機制、移動窗口機制、相對位置偏移機制對火災(zāi)圖像進行特征提?。蛔詈?,將提取的圖像特征送入全連接層,獲取火災(zāi)圖像的檢測結(jié)果。實驗結(jié)果表明:該算法在測試數(shù)據(jù)集的準確率達到了98.6%。該算法同時采用遷移學習的方法,測試數(shù)據(jù)集的準確率提升至99.1%,對提高廣西森林火災(zāi)防控監(jiān)督效能和實現(xiàn)深度學習智能監(jiān)測森林和城市視頻火災(zāi)情況具有現(xiàn)實意義。
關(guān)鍵詞: Transformer; PJF顏色空間; 火災(zāi)檢測; 圖像分類; 注意力機制; 知識遷移
中圖分類號: TN919?34; TP183" " " " " " " " " " 文獻標識碼: A" " " " " " " " " " "文章編號: 1004?373X(2025)05?0147?06
Fire detection method based on Swin Transformer and PJF color space
DU Lixia, LIANG Xiaoping
(Guangxi Normal University, Guilin 541005, China)
Abstract: A deep learning fire image detection method based on the Transformer algorithm and PJF color space is designed in order to detect fires early in surveillance images more accurately and reliably, and assist flame detection instruments to detect flames more efficiently and accurately. Firstly, the fire image data in the data set is preprocessed, the image is converted from RGB color space to PJF color space, and the flame area of the image is highlighted. Then the preprocessed image is input into the Swin Transformer network. In the process, the attention mechanism, shifting window mechanism, and relative position offset mechanism are used to extract features of the fire image. Finally, the extracted image features are sent to the fully connected layer to obtain the detection results of the fire image. The experimental results show that the accuracy rate of the proposed algorithm in the test dataset reaches 98.6%. In this algorithm, the transfer learning method is also adopted, so the accuracy rate of the test dataset is improved to 99.1%. To sum up, it has practical significance for improving the efficiency of forest fire prevention and control supervision in Guangxi and realizing deep learning intelligent monitoring of forest and urban video fires.
Keywords: Transformer; PJF color space; fire detection; image classification; attention mechanism; knowledge transfer
0" 引" 言
隨著人類工業(yè)化進程加快,排放的大量溫室氣體導致全球氣候變暖,世界極端高溫天氣日益頻繁,使得森林火災(zāi)發(fā)生數(shù)量大幅上升,持續(xù)燃燒的森林火災(zāi)嚴重威脅生命財產(chǎn)和生態(tài)安全,也給后期生態(tài)修復留下了重大難題。廣西是全國重要的森林資源富集區(qū)、森林生態(tài)優(yōu)勢區(qū)和林業(yè)產(chǎn)業(yè)集中區(qū),也是森林火災(zāi)高發(fā)區(qū)。在2021年,廣西森林總面積1 486.67萬公頃,森林覆蓋率62.55%,森林蓄積量9.69億立方米,居全國第一位[1]。據(jù)統(tǒng)計,廣西在2016—2021年共發(fā)生森林火災(zāi)2 309起,包含一般森林火災(zāi)1 489起、較大森林火災(zāi)820起;過火總面積19 249.52公頃,森林火災(zāi)受害面積[2]5 866.88公頃。而森林火災(zāi)的火源主要分為天然火源和人為火源兩大類。祭祀用火和農(nóng)事用火是廣西森林火災(zāi)的主要火源。這對廣西森林的監(jiān)控管理和生態(tài)環(huán)境保護造成了不良影響。文獻[3]提出森林火災(zāi)會燒毀地表植被,破壞正常的植物群落,進而導致生物多樣性減少。文獻[4]的研究表明,可以通過衛(wèi)星監(jiān)測與瞭望臺監(jiān)測、航空巡護、地面巡護等手段提前統(tǒng)籌規(guī)劃,從而制定出切實可行的森林火災(zāi)撲救預案。另外,文獻[5]提出要加強森林防火的宣傳力度,嚴格用火審批管控性與可推廣性。近年來,監(jiān)管部門在森林景區(qū)、公園出入口、城鎮(zhèn)街道布置了大量視頻攝像頭用來人工監(jiān)控相關(guān)火災(zāi)情況。隨著視頻處理技術(shù)和視覺神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,視頻監(jiān)控攝像頭迅速普及,視覺火災(zāi)檢測系統(tǒng)可以作為一種火災(zāi)解決方案[6]。研究人員證明深度學習憑借其強大的特征提取能力,能夠獲取更深的圖像語義信息,并且具備端到端的模型訓練過程,能夠有效避免人工選取特征的復雜性和局限性[7]。雖然目前業(yè)界提出了一些基于CNN的檢測算法產(chǎn)生了良好的結(jié)果,但仍存在精度偏低等問題。
為解決森林防火指揮部后續(xù)遇到的技術(shù)難題,幫助其對后續(xù)森林防護進行更加有力的監(jiān)管,優(yōu)化廣西森林火災(zāi)監(jiān)控,本文以Fire Dataset火災(zāi)圖像數(shù)據(jù)作為驅(qū)動,融合Swin Transformer及PJF顏色空間開發(fā)了一種針對火災(zāi)圖像的智能監(jiān)測算法,旨在為管理人員快速分辨火災(zāi)情況提供智能化的技術(shù)支撐。
1" 相關(guān)工作
為了有效監(jiān)控和預警森林的火災(zāi)情況,研究者采用了不同方式進行算法和系統(tǒng)設(shè)計。早期視覺技術(shù)使用人工手段對視頻中的圖像提取特征,可識別的特征局限于顏色、形狀,該提取特征的過程繁瑣,計算復雜度高,對不同環(huán)境背景下的火災(zāi)泛化能力差[8]。后期采用機器學習和神經(jīng)網(wǎng)絡(luò)對火災(zāi)圖像進行分類。文獻[9]提出了一種基于分塊的LBP直方圖特征結(jié)合LPQ直方圖特征的火焰識別算法,該算法首先將輸入圖片從RGB顏色空間轉(zhuǎn)換到Y(jié)CbCr顏色空間,利用規(guī)則分割出火焰區(qū)域,然后使用LBP和LPQ的融合算法提取火焰的紋理特征,最后使用核函數(shù)作為徑向基函數(shù)的支持向量機進行分類。學者們提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的火焰特征提取算法,該算法能夠自動提取視頻中的火焰特征,避免了傳統(tǒng)算法中人工提取特征帶來的弊端。相比傳統(tǒng)的火警檢測算法,該算法具有更高的檢測準確率和魯棒性。
近年來,隨著深度學習技術(shù)的進一步發(fā)展和完善,人們把圖像分類技術(shù)應(yīng)用到火災(zāi)圖像檢測方面。針對視頻監(jiān)控下的火災(zāi)圖像檢測主要分為圖像預處理、注意力機制、特征提取和目標分類等多個階段。通過卷積識別、提取、分類圖像的特征,再進行不斷的訓練和學習就可以獲得對應(yīng)的深度學習模型。
2" 火災(zāi)圖像檢測算法及評價指標
2.1" 算法實現(xiàn)
在實現(xiàn)基于Swin Transformer的火災(zāi)檢測算法時,本文采用了數(shù)據(jù)增強的技術(shù),對于圖像進行隨機剪裁、水平翻轉(zhuǎn)等,克服數(shù)據(jù)集樣本量小、規(guī)模有限、缺乏相對有效的解決方案。圖像經(jīng)過PJF顏色空間轉(zhuǎn)換的預處理后,將其送入到Swin Transformer的網(wǎng)絡(luò)結(jié)構(gòu)中,最后送入全連接層,獲取到最終的分類結(jié)果?;馂?zāi)圖像檢測算法實現(xiàn)流程如圖1所示。
2.2" 本文PJF顏色空間算法
由于火焰顏色與非著火物體的顏色明顯不同,火焰區(qū)域的火焰顏色是最顯著特征,被認為是識別火焰情況的重要線索。圖像進行數(shù)據(jù)預處理會突出顯示火焰區(qū)域,研究人員基于不同的色彩空間,如RGB、HSV、YUV、YCbCr、CIE [L]*[a]*[b],設(shè)計了許多火焰顏色模型,但是每個文獻都側(cè)重于單個特定的顏色空間,沒有確定識別火焰的最佳顏色空間。基于此,文獻[10]比較了不同色彩空間(HSI、PJF等)的分類精度,研究發(fā)現(xiàn)PJF色彩空間的三維分布可以進一步解釋火焰顏色三個分量的邊距差異,而包括RGB在內(nèi)的許多其他色彩空間都不能正確地分離出火焰區(qū)域。因此,PJF在將圖像中的大多數(shù)像素分類為火焰像素時達到了最好的精度。
本文將輸入圖像從RGB顏色空間轉(zhuǎn)化為PJF顏色空間進行預處理。PJF的顏色空間轉(zhuǎn)化由式(1)~式(3)獲得。PJF色彩空間中的[P]通道表示圖像的亮度大??;[J]通道表示紅色和綠色的相對數(shù)量;[F]通道是衡量從藍色到黃色的相對數(shù)量。
[P=R2+G2+B2] (1)
[J=R-G] (2)
[F=R+G-B] (3)
火焰的顏色通常是由紅色到黃色變化的,在紅色范圍內(nèi)有較高的照明值。由于PJF顏色空間三個分量的范圍大于RGB顏色空間,[J]和[F]分量能夠在火焰區(qū)域加強亮度,使得PJF顏色空間可以顯示火焰圖像的區(qū)域,因此,創(chuàng)建的數(shù)據(jù)集中的每個圖像將會生成三個相互補充的通道[P]、[J]、[F]。輸入圖像轉(zhuǎn)換為PJF顏色空間后的顏色通道示例如圖2所示。
2.3" Swin Transformer網(wǎng)絡(luò)結(jié)構(gòu)
Transformer最開始的應(yīng)用場景是自然語言處理,將RNN中的注意力模塊單獨提出來,并進行模塊堆疊,不僅能得到局部的信息,還能獲取到長距離的依賴,并且Transformer的自注意力機制能夠同時處理多個序列,充分利用GPU的并行能力,加快模型的運行和推理速度。除此之外,Transformer擺脫了RNN中隨著序列長度增長而無法獲取遠距離依賴,通過注意力機制能夠獲取全局信息和遠距離信息。然而Transformer需要大量的計算資源和內(nèi)存,會產(chǎn)生較高的計算復雜度。而Swin Transformer[11]的小窗口注意力機制以及移動窗口機制不僅能獲取到模型信息,而且極大降低了計算的復雜性,在諸多圖像處理領(lǐng)域取得了SOTA效果。比如文獻[12]使用Swin Transformer的巖石識別方法,準確識別巖石巖性,提高了地質(zhì)調(diào)查的效率。
本文算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。通過一個圖像塊分割模塊,將原始圖像分割為互不重疊的塊,塊大小為48,圖像長寬均除以4;然后通過4個stage,經(jīng)過線性嵌入,將圖像的channel維度線性映射為[C]=96,經(jīng)過Swin Transformer模塊和下采樣,其中這4個stage對應(yīng)的Swin Transformer模塊的個數(shù)為2、6、2、2,每經(jīng)過一個stage,圖像寬和高均除以2,channel維度增加一倍。
Swin Transformer模塊的具體結(jié)構(gòu)如圖3所示。兩個連續(xù)的Swin Transformer模塊主要由層歸一化、多層感知機、自注意力模塊組成,主要區(qū)別在于前者使用了窗口多頭自注意力模塊,后者使用了移動窗口多頭自注意力模塊。
窗口大小為window=7,也就是一個窗口有7×7個patch,設(shè)置窗口的目的是降低圖像處理的計算復雜度,移動窗口將窗口進行移動,并且采用了掩碼功能,能夠獲取到跨窗口的信息,使得圖像只與自己相鄰的像素窗口進行信息交換。
2.4" 遷移學習
遷移學習是一種通過將從一個領(lǐng)域中學到的知識應(yīng)用到另一個相關(guān)任務(wù)中來改善模型性能的機器學習方法。將已經(jīng)訓練好的模型運用的模型參數(shù)用作初始模型,在目標數(shù)據(jù)集上進行訓練,不僅能夠有效利用大規(guī)模數(shù)據(jù),提高數(shù)據(jù)效率,還能加速目標任務(wù)的訓練過程,提升模型在目標任務(wù)上的泛化能力,減少過擬合的風險。
深度學習模型的檢測結(jié)果與訓練樣本數(shù)量密切相關(guān),大規(guī)模的數(shù)據(jù)訓練樣本能夠提升深度學習模型的性能。因此,本文將官方用于圖像分類的ImageNet數(shù)據(jù)集作為源域,將Fire Dataset數(shù)據(jù)集的圖片作為目標域,并基于PJF和遷移學習,實現(xiàn)基于Transformer算法的網(wǎng)絡(luò)模型的預訓練、訓練以及優(yōu)化。
2.5" 火災(zāi)圖像檢測數(shù)據(jù)源
本文使用的數(shù)據(jù)集Fire Dataset是從多個開源數(shù)據(jù)集中提取拼合等操作得到的。由于開源數(shù)據(jù)集里面的煙霧和火苗等圖像的清晰度以及數(shù)據(jù)集數(shù)目不足等問題,因此進行拼合等操作處理。Fire Dataset數(shù)據(jù)集一共包含了2 920張森林火災(zāi)險情的火焰及煙霧圖片,包含了多種森林險情場景下的不同程度光線、飽和度等圖片,并進行人工標注。將數(shù)據(jù)集劃分為訓練集、驗證集、測試集三部分用于模型的訓練,按80%的訓練集、10%的驗證集以及10%的測試集占比劃分。利用驗證集對模型的檢測性能進行驗證,通過不斷調(diào)參再訓練,得到最優(yōu)模型見表1。
2.6" 火災(zāi)圖像檢測模型的評價指標
為了進一步評價本文模型的檢測精度,選取準確率(Acc)、精確度([P])、召回率([R])、[F1]值[13]以及特異度([S])作為評價指標。
準確率是指模型正確分類樣本數(shù)占樣本數(shù)的比例,其表達式如式(4)所示:
[Acc=TP+TNTP+TN+FP+FN] (4)
精確度是指模型預測中所有陽性樣本中預測正確的比例,表達式如式(5)所示:
[P=TPTP+FP] (5)
召回率是所有真實陽性樣本中,模型預測正確的陽性比例,表達式如式(6)所示:
[R=TPTP+FN] (6)
[F1]常作為分類問題的指標,其表達式為:
[F1=2RPR+P] (7)
特異度是指所有真實陰性樣本中,模型預測正確的陰性比例,表達式如式(8)所示:
[S=TNTN+FP] (8)
式中:分類類別中預測為火災(zāi)圖像,實際為火災(zāi)圖像的數(shù)量稱為真陽性(True Positive, TP);分類類別中預測為火災(zāi)圖像,實際為非火災(zāi)圖像的數(shù)量稱為假陽性(False Positive, FP);分類類別中預測為非火災(zāi)圖像,實際為非火災(zāi)圖像的數(shù)量稱為真陰性(True Negative, TN);分類類別中預測為非火災(zāi)圖像,實際為火災(zāi)圖像的數(shù)量稱為假陰性(False Negative, FN)。根據(jù)式(4)~式(8),可計算出基于Swin Transformer和PJF顏色空間火災(zāi)檢測的準確性。
3" 實驗與結(jié)果分析
3.1" 實驗平臺與模型參數(shù)
所有實驗均在GPU硬件加速平臺上完成,具體的實驗平臺配置及實驗時使用的模型參數(shù)分別如表2、表3 所示。
3.2" 實驗結(jié)果
本文采用圖像分類的評價指標來評估模型的性能,為了驗證基于Swin Transformer及PJF顏色空間的火災(zāi)檢測算法的有效性和先進性,本文選取了部分火災(zāi)檢測驗證集進行測試。本文的混淆矩陣如圖4所示, 其中顏色越深代表數(shù)量越多,由圖4可知,本文提出的算法對于火災(zāi)分類的準確性較高。
為了更加直觀地顯示本文算法的火災(zāi)檢測結(jié)果,表4展示了不同的檢測場景和算法的最終檢測結(jié)果。本文可以針對不同種類的火災(zāi)圖像進行檢測,并且分類準確性高。比如可以針對城市不帶煙霧有火焰火災(zāi)、城市帶煙霧有火焰火災(zāi)、森林不帶煙霧火災(zāi)、森林帶煙霧火災(zāi)、城市非火災(zāi)、森林非火災(zāi)等多類圖像進行準確識別。
3.3" 消融實驗
在這一節(jié)中,為了驗證PJF顏色空間算法和遷移學習的有效性和必要性,本文采取多種評價指標,對這兩個方向進行探討。表5展示了Swin Transformer模型進行火災(zāi)檢測性能評價的實驗效果、Swin Transformer模型加上PJF顏色空間算法的實驗效果、Swin Transformer模型加上遷移學習的實驗效果、Transformer模型加上PJF顏色空間算法以及遷移學習的實驗效果。
觀察可得,基于Swin Transformer、PJF顏色空間和遷移學習的火災(zāi)檢測算法在各類指標的評分均高于99%,達到火災(zāi)檢測的需求。其中,非火災(zāi)圖像的性能優(yōu)于火災(zāi)圖像,因為非火災(zāi)圖像數(shù)據(jù)集的數(shù)量多于火災(zāi)圖像數(shù)據(jù)集的數(shù)量,模型能夠捕獲更多的非火災(zāi)圖像特征。從表5可以看出,PJF顏色空間對于火災(zāi)檢測在性能上有1%左右的提升,遷移學習對于火災(zāi)檢測效果有2%左右性能的提升,而結(jié)合PJF算法和遷移學習的方法使火災(zāi)圖像檢測性能達到最優(yōu)。
3.4" 對比算法
本文將基于PJF顏色空間和Swin Transformer的方法與一些其他的神經(jīng)網(wǎng)絡(luò)模型進行對比,對比算法的實驗效果如表6所示。將本文模型與VGG16模型、ResNet模型、GoogleNet模型進行實驗對比,由表6可知,在準確率、精確度、召回率、[F1]以及特異度五個方面,本文模型均取得最優(yōu)值,證明基于Swin Transformer和PJF顏色空間的火災(zāi)檢測算法有優(yōu)越的性能。
4" 結(jié)" 論
本文首先將Fire Dataset數(shù)據(jù)集中的火災(zāi)圖像進行顏色空間轉(zhuǎn)換的預處理,將圖像由RGB顏色空間轉(zhuǎn)換為PJF顏色空間,更好地捕捉火焰的顏色空間范圍;再利用預處理后的火災(zāi)圖像數(shù)據(jù)集進行訓練和微調(diào)。實驗結(jié)果表明,該模型在火災(zāi)圖像分類精度方面性能較好,準確率達到了98.6%,能夠滿足火災(zāi)檢測的要求。當采用遷移學習的方法,測試數(shù)據(jù)集的準確率提升至99.1%。本文通過消融實驗,證明了PJF顏色空間算法和遷移學習的有效性,并與其他神經(jīng)網(wǎng)絡(luò)模型進行對比實驗,證明了該方法的先進性。
另外,由于訓練所用的火災(zāi)圖像數(shù)據(jù)集是從真實火災(zāi)視頻中采集的,真實數(shù)據(jù)驅(qū)動的模型也更能滿足真實火災(zāi)監(jiān)控防治的業(yè)務(wù)要求,為實現(xiàn)智慧森林防控和火災(zāi)及時預警提供了可靠的技術(shù)支持。本文在部分含煙霧火災(zāi)圖像的檢測效果中,存在少部分檢測錯誤的情況,即可能將霧氣和濃煙混淆。這可能需要進一步加強解決和識別煙霧的種類問題,并增加對于火焰煙霧的顏色、形狀紋理和被掩蓋的火焰顏色等細節(jié)信息的檢測。同時,基于Swin Transformer的圖像檢測是計算機視覺領(lǐng)域的研究熱點,今后將在實驗的基礎(chǔ)上進行更加深入的研究以實現(xiàn)更優(yōu)的火災(zāi)檢測結(jié)果。
注:本文通訊作者為梁曉萍。
參考文獻
[1] 國家林業(yè)和草原局.廣西森林采一補二資源雙倍再生[EB/OL].[[2022?03?18]].http://www.forestry.gov.cn/stzx/2/20220318/085853824347224.html.
[2] 何蕓.廣西森林火災(zāi)成因時空分布規(guī)律分析[J].南方農(nóng)業(yè),2022,16(15):207?209.
[3] 盧洪沛,胡卸文.森林火災(zāi)后泥石流的成因與特征分析[J].四川水力發(fā)電,2021,40(5):1?5.
[4] 高艷霞.林火監(jiān)測與預警在森林防滅火中的運用探究[J].南方農(nóng)業(yè),2020,14(27):86?87.
[5] 楊建忠.森林防火火源種類及管理措施[J].現(xiàn)代農(nóng)業(yè)科技,2021(8):130?131.
[6] 朱韻.基于卷積神經(jīng)網(wǎng)絡(luò)的火焰識別概述[C]//2022年度滅火與應(yīng)急救援技術(shù)學術(shù)研討會論文集.北京:中國消防協(xié)會滅火救援技術(shù)專業(yè)委員會,2022:40?42.
[7] LI P, ZHAO W D. Image fire detection algorithms based on convolutional neural networks [J]. Case studies in thermal engineering, 2020, 19: 100625.
[8] 姜興家,劉云志,宋志敏,等.基于遷移學習的船舶機艙火災(zāi)圖像檢測方法[J].大連海事大學學報,2023,49(1):103?109.
[9] 李巨虎,范睿先,陳志泊.基于顏色和紋理特征的森林火災(zāi)圖像識別[J].華南理工大學學報(自然科學版),2020,48(1):70?83.
[10] DAOUD Z, BEN HAMIDA A, BEN AMAR C. Automatic video fire detection approach based on PJF color modeling and spatio?temporal analysis [J]. Journal of WSCG, 2019, 27(1): 27?36.
[11] LIU Z, LIN Y, CAO Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 10012?10022.
[12] 韓鑫豪,何月順,陳杰,等.基于Swin Transformer的巖石巖性智能識別研究[J].現(xiàn)代電子技術(shù),2024,47(7):37?44.
[13] WANG Y T, YANG L, SONG X, et al. A multi?feature ensemble learning classification method for ship classification with space based AIS data [J]. Applied sciences, 2021, 11(21): 10336?10348.
[14] SHAHID M, CHIEN I F, SARAPUGDI W, et al. Deep spatial?temporal networks for flame detection [J]. Multimedia tools and applications, 2021, 80(28/29): 35297?35318.
基金項目:國家自然科學基金項目(62302108);廣西自然科學基金項目(2022GXNSFAA035506)資助
作者簡介:杜麗霞(1998—),女,重慶人,碩士研究生,研究方向為視頻處理與多媒體信息安全。
梁曉萍(1992—),女,廣西陽朔人,博士研究生,講師,研究方向為多媒體信息安全。