耿潘潘,張勇昌
(江蘇建筑職業(yè)技術(shù)學(xué)院,江蘇徐州 221116)
傳統(tǒng)的火災(zāi)和煙霧探測器基于熱傳感器和化學(xué)傳感器。這些傳感器適用于室內(nèi)環(huán)境,并且需要較多的探測時間和火災(zāi)或煙霧量來提醒居住者。此外,如果系統(tǒng)未正確安裝和維護,或位于火災(zāi)位置附近,則可能發(fā)生故障[1]。根據(jù)不完全統(tǒng)計,在住宅火災(zāi)中死亡的人員中,有11%沒有獲得火災(zāi)和煙霧探測器的有效提醒,還有60%的住宅火災(zāi)死亡是在沒有煙霧探測器或探測器發(fā)生故障且未向居住者發(fā)出警報的建筑中造成的。然而,大多數(shù)消防隊員在應(yīng)對建筑火災(zāi)時,會受到人力、設(shè)備和預(yù)算等可用資源的限制。另外,現(xiàn)代建筑材料和技術(shù)、開放式布局和合成家具對火災(zāi)發(fā)生的影響比其傳統(tǒng)產(chǎn)品更大。這些變化導(dǎo)致了火災(zāi)傳播速度更快、人員逃生時間和建筑結(jié)構(gòu)倒塌時間更短,導(dǎo)致有效火場撲救的可用時間縮短[2]。因此,亟須一套反應(yīng)速度更快、覆蓋范圍更廣的火災(zāi)報警系統(tǒng)來提高火災(zāi)險情的預(yù)警。
對于建筑火災(zāi),傳統(tǒng)的探測方法依賴于火災(zāi)和煙霧探測器,其局限性和有效性主要取決于煙霧的體積與起火位置的接近程度[3]。一個被忽視的因素是來自無處不在的智能攝像設(shè)備的圖像流,這些設(shè)備在大多數(shù)建筑環(huán)境中都很容易獲得。將獲取的圖像流與用于圖像分類的機器學(xué)習(xí)集成,可為遠程實時自主火災(zāi)和煙霧檢測提供有效的解決方案[4]。隨著人工智能、圖像處理、計算機視覺和物聯(lián)網(wǎng)平臺的快速發(fā)展,與攝像頭集成的智能設(shè)備為遠程實時自主火災(zāi)和煙霧檢測提供了有效的解決方案[5]。
研究開發(fā)了基于AI的物聯(lián)網(wǎng)系統(tǒng),系統(tǒng)使用來自攝像頭的實時視頻流來自動遠程檢測火災(zāi)和煙霧,并通過消息實時通知用戶。用戶可以驗證系統(tǒng)檢測到的火災(zāi)視頻片段,并激活警報以提醒其他人或采取必要的行動。這種火災(zāi)的早期發(fā)現(xiàn)和及時反應(yīng)可以減輕火災(zāi)進一步惡化和蔓延,使消防員能夠在火災(zāi)初期控制和撲滅火災(zāi),使居民能夠盡快逃離建筑并遠離火災(zāi)地點,簡化搜救行動,減少財產(chǎn)損失,避免消防員和居民傷亡及財產(chǎn)損失。
遠程火災(zāi)實時探測報警系統(tǒng)部署架構(gòu)(如圖1 所示)主要分為三個主要組件:1)火情現(xiàn)場圖像/視頻獲?。?)運用對象檢測模型進行火災(zāi)和煙霧檢測;3)火情預(yù)警用戶通知。
圖1 遠程火災(zāi)實時探測報警系統(tǒng)架構(gòu)
在第一個組件中,將來自網(wǎng)絡(luò)攝像頭、流媒體軟件、移動電話或與攝像頭集成的任何其他設(shè)備的視頻流傳送到流媒體服務(wù)器,以備下一步處理。由于大多數(shù)移動電話和網(wǎng)絡(luò)攝像頭不支持發(fā)布編碼視頻流,因此流媒體服務(wù)器首先將視頻編碼為標(biāo)準格式,并使用實時消息協(xié)議將其發(fā)布到攝取服務(wù)器。具有內(nèi)置編碼器(例如IP 攝像頭)的設(shè)備理想情況下可以直接發(fā)布到攝取服務(wù)器,攝取服務(wù)器也可以通過中央流式服務(wù)器進行元數(shù)據(jù)捕獲,將視頻輸入直接提供給檢測服務(wù)器以減少延遲。流服務(wù)器將流元數(shù)據(jù)和用戶信息存儲在數(shù)據(jù)庫(如Mongo DB) 中,同時流服務(wù)器將流發(fā)布到攝取服務(wù)器。檢測服務(wù)器對來自攝取服務(wù)器的編碼流進行檢測。流服務(wù)器將得到來的流通知檢測服務(wù)器,以便可以準備好執(zhí)行檢測。
在第二個組件中,檢測服務(wù)器從攝取服務(wù)器中讀取視頻流,并從視頻輸入流中提取幀,將每個幀傳送到對象檢測模型,執(zhí)行火災(zāi)和煙霧檢測。由于傳統(tǒng)常規(guī)的檢測算法在檢測速度和準確度方面都沒有特別顯著的性能優(yōu)勢[6],因此為了提高火災(zāi)檢測的準確性,系統(tǒng)運用EfficientDet 和Scaled-YOLOv4 兩種檢測模型進行圖像幀的檢測。
EfficientDet 是一種快速、高精度的檢測器,它使用EfficicentNet 架構(gòu)作為其主干[7]。將圖像作為輸入并生成特征圖,這些特征圖被發(fā)送到具有可學(xué)習(xí)權(quán)重的雙向特征網(wǎng)絡(luò)(BiFPN),以確定每個輸入特征圖的重要性。BiFPN 作為一個特征網(wǎng)絡(luò),產(chǎn)生融合特征,這些融合特征被傳送到基于卷積的類和框網(wǎng)絡(luò),以分別檢測對象類和邊界框。為了提高特征網(wǎng)絡(luò)的效率,提出了一種新的雙向特征網(wǎng)絡(luò)BiFPN,它結(jié)合了FPN/PANet/NAS-FPN 的多級特征融合思想這使信息能夠在自上而下和自下而上的方向上流動,同時使用常規(guī)和高效的連接。傳統(tǒng)方法通常平等地對待輸入到FPN 的所有特征,即使是那些具有不同分辨率的特征[8]。然而,觀察到不同分辨率的輸入特征通常對輸出特征的貢獻不等。因此,需要為每個輸入特征添加一個額外的權(quán)重,并允許網(wǎng)絡(luò)學(xué)習(xí)每個特征的重要性。通過優(yōu)化,新的雙向特征網(wǎng)絡(luò)BiFPN進一步將準確度提高了4%,檢測速度快了3倍。
在COCO 數(shù)據(jù)集上評估EfficientDet,COCO 數(shù)據(jù)集是一種廣泛使用的對象檢測基準數(shù)據(jù)集[9]。EfficientDet實現(xiàn)了52.2的平均精度(mAP),比之前的最先進模型高出1.5 個百分點,同時使用的參數(shù)減少了4倍,計算量減少了9.4倍。
Scaled-YOLOv4 在視頻分析的準確性和速度方面都有顯著的優(yōu)勢。與EfficientDet 相比,Scaled-YOLOv4 能選擇的網(wǎng)絡(luò)結(jié)構(gòu)更多[10]。它使用跨階段部分Darknet53(CSPDarknet53)架構(gòu)作為其主干,從輸入圖像和路徑聚合網(wǎng)絡(luò)(PANet) 中提取特征圖。此外,還在主干之后使用空間金字塔池來增加其感測度,并從特征圖中分離重要特征[11]。除了架構(gòu)改進,Scaled-YOLOv4 還使用了其他兩種技術(shù)來提高性能。通過在訓(xùn)練模型時應(yīng)用若干數(shù)據(jù)增強來實現(xiàn)圖像的識別,并通過使用Mish激活函數(shù)、DIoU NMS、CmBN和DropBlock正則化來提高圖像的識別率。
對于給定的幀,如果兩個模型檢測到火災(zāi)的概率都高于風(fēng)險閾值,則系統(tǒng)會確認幀中存在火災(zāi)。為了避免誤報,如果兩個或任何一個模型都沒有在給定的幀中檢測到火災(zāi),則該幀不會被作為火情用于最終輸出。實驗發(fā)現(xiàn)與EfficientDet 的預(yù)測相比,Scaled-YOLOv4的預(yù)測更準確和精確。
因此,一旦兩個模型都確認給定幀中存在火災(zāi),則將Scaled-YOLOv4 生成的邊界框通知用戶。實驗實現(xiàn)了類似的邏輯來確認和通知煙霧的檢測。在給定的幀中(尤其是在火災(zāi)的初始階段),火和煙可能同時存在,也可能不同時存在,因此,如果兩個模型都檢測到火災(zāi)或煙霧,則將通知用戶。這些檢測結(jié)果基于存儲在數(shù)據(jù)庫中的流密鑰和流索引存儲在檢測服務(wù)器中,以滿足GPU支持快速推斷的需要。
針對實況視頻流可能包括火災(zāi)靜態(tài)圖(例如,掛在墻上的火災(zāi)圖片)或周圍類似物體的靜態(tài)圖像,而使得當(dāng)前人工智能檢測模型產(chǎn)生錯誤警報的問題,系統(tǒng)通過算法檢測火災(zāi)和煙霧的大小變化來判斷是否是真實的火災(zāi),即它可以區(qū)分視頻流中存在的真實火災(zāi)和火災(zāi)(或類似物體)的靜態(tài)圖像。在火災(zāi)初期,火災(zāi)和煙霧的規(guī)模都較小,隨著時間的推移,它們會不斷變化和增加。系統(tǒng)算法通過測量從模型中獲得的火災(zāi)和煙霧的邊界框的面積來記錄火災(zāi)和煙霧大小?;谝曨l流的幀速率,如果算法檢測到火災(zāi)或煙霧的邊界框的總面積在特定時間內(nèi)有80%的幀在變化或增加,則確認視頻流中存在真實或?qū)崨r火災(zāi)。然而,火災(zāi)(或類似對象)靜態(tài)圖像的邊界框不會連續(xù)更改或增加。因此,該技術(shù)有助于本系統(tǒng)顯著消除錯誤檢測。
對于視頻流中的所有連續(xù)幀,來自兩個AI模型的輸出可能一致,也可能不一致。因此,在最后的第三部分中,如果某個時間段內(nèi)的80%的連續(xù)幀被報告為火災(zāi)或煙霧,其概率超過兩個模型的風(fēng)險閾值,則相應(yīng)時間段的所有輸出幀以編程方式組合,以生成視頻剪輯,該視頻剪輯將自動實時發(fā)送給最終用戶。通知通道使用簡單通知服務(wù)(SNS)發(fā)送消息。在收到通知后,用戶可以根據(jù)需要采取必要的行動,或者如果判斷收到視頻并非火情,則忽略該消息。同時,要求用戶驗證輸出并反饋,以進一步改進系統(tǒng)的模型和精度。
系統(tǒng)運用PyTorch框架創(chuàng)建和訓(xùn)練模型。訓(xùn)練平臺包括一臺32GB 內(nèi)存的Linux 服務(wù)器和一臺48GB GDDR6 VRAM的Nvidia Quadro RTX8000 GPU。
根據(jù)燃料類型,國家標(biāo)準(GB/T 4968)將火災(zāi)分為六種主要類型:A 類指固體物質(zhì)火災(zāi),這種物質(zhì)通常具有有機物質(zhì)性質(zhì),一般在燃燒時能產(chǎn)生灼熱的余燼。B類指液體或可熔化的固體物質(zhì)火災(zāi)。C類指氣體火災(zāi)。D 類指金屬火災(zāi)。E 類指帶電火災(zāi)。F 類指涉及可燃烹飪介質(zhì)的烹飪器具火災(zāi)。實驗收集13000張圖像,確保了圖像在所有六類火災(zāi)中的均勻分布。這些原始圖像非常嘈雜,并且格式不統(tǒng)一,無法將它們直接輸入模型進行訓(xùn)練。因此,通過預(yù)處理程序?qū)λ袌D像進行清理。預(yù)處理步驟包括移除重復(fù)或相似的圖像以保持六類火情的平衡,移除含有大量文本的圖像,清理損壞的圖像等。最終的數(shù)據(jù)集包括7560張圖像,其中包括所有類均勻分布的火情圖像,并用適當(dāng)?shù)倪吔缈蚴謩幼⑨尅?/p>
首先在公共環(huán)境數(shù)據(jù)集COCO 上對模型進行預(yù)訓(xùn)練。預(yù)先訓(xùn)練模型有助于卷積層從日常圖像場景中識別圖案、紋理和對象。因此,模型內(nèi)核不需要學(xué)習(xí)從圖像中提取特征的基礎(chǔ)知識,并且當(dāng)預(yù)訓(xùn)練的模型最終在系統(tǒng)中的火災(zāi)和煙霧數(shù)據(jù)集上訓(xùn)練時,可以提供更快的收斂速度。然后針對火災(zāi)和煙霧數(shù)據(jù)集對其進行微調(diào)。該模型被訓(xùn)練了150個周期,批大小為16,隨機梯度下降法(SGD)優(yōu)化器的初始學(xué)習(xí)率為0.003,在第120個周期后下降了10%。系統(tǒng)還添加了0.0005的L2正則化調(diào)整,以避免過度擬合。
為進一步提高模型從圖像中檢測到火災(zāi)和煙霧的速度,系統(tǒng)創(chuàng)建定制大小的錨框,以適應(yīng)數(shù)據(jù)集。為了找到數(shù)據(jù)集的模板錨框的尺寸,首先通過將訓(xùn)練集中的圖像邊界框尺寸除以各自的圖像尺寸,使其在范圍[0,1]內(nèi),即對其進行標(biāo)準化。歸一化后,將每個邊界框的高度和寬度發(fā)送給k-Means 算法,該算法將這些邊界框分割,其中分割數(shù)n 可以是9 或12。每個簇的質(zhì)心被視為模板錨框尺寸。通過將所獲得的尺寸乘以640,即給定模型的輸入圖像的尺寸。算法從初始值開始,并嘗試在每一代優(yōu)化之后最大化適應(yīng)度得分。該算法主要運用變異和交叉的遺傳算子,算法使用90%概率和0.04 方差的變異,將模型運行300次,其中每一次模型訓(xùn)練10個周期,根據(jù)前幾次中最好的組合創(chuàng)建新的后代。該方法顯著提高了Scaled-YOLOv4模型的性能。
通過仿真實驗對EfficientDet、Scaled-YOLOv4 和Faster RCNN 三種模型進行比較。與EfficientDet 和Scaled-YOLOv4 相比,通過訓(xùn)練Faster RCNN 獲得的平均精度mAP值最低。實驗對Faster RCNN的平均精度mAP 值與EfficientDet 和Scaled-YOLOv4 模型中的最佳對象探測器的mAP進行了比較,如表1、表2、圖2和圖3 所示??梢钥闯?,Scaled-YOLOv4 在三種模型中給出了最佳的平均精度mAP。表2 比較了每個探測器在每個圖像或視頻幀中探測火災(zāi)和煙霧所用的平均時間。研究分析發(fā)現(xiàn),Scaled YOLOv4 和EfficientDet模型檢測圖像的速度更快、更準確。因此,將它們集成到物聯(lián)網(wǎng)系統(tǒng)中,用于實時檢測圖像和視頻流中的火災(zāi)和煙霧。
表1 三種檢測模型的mAP值比較
表2 三種檢測模型對圖像或幀的平均目標(biāo)檢測時間比較
圖2 驗證集上mAP@0.5值的比較
圖3 驗證集上mAP@0.5:0.95值的比較
圖4 顯示了從EfficientDet、Scaled-YOLOv4 和Faster RCNN 獲得的輸出與大小不同的原始目標(biāo)圖像和所有六類火災(zāi)的比較,火災(zāi)用藍色邊界框描繪,煙霧用紅色邊界框描繪。顯然,Scaled-YOLOv4 和EfficientDet 的火災(zāi)和煙霧檢測明顯優(yōu)于Faster RCNN。因此,系統(tǒng)將其集成到物聯(lián)網(wǎng)系統(tǒng)中,用于實時檢測圖像和視頻流中的火災(zāi)和煙霧。
圖4 EfficientDet、Scaled-YOLOv4和Faster RCNN檢測模型的輸出比較
研究開發(fā)了一種用于實時遠程火災(zāi)和煙霧目標(biāo)檢測的AI 模型。設(shè)計了一個自定義的火災(zāi)和煙霧圖像數(shù)據(jù)集,其中包括國家標(biāo)準指定的所有六類火災(zāi)。與Faster RCNN 相 比,Scaled-YOLOv4 和EfficientDet在實時檢測給定輸入圖像或視頻流中的火災(zāi)和煙霧方面更準確、更快、更可行。實現(xiàn)了一種基于端到端物聯(lián)網(wǎng)云的遠程火災(zāi)預(yù)警系統(tǒng),系統(tǒng)可以從攝像頭集成的設(shè)備接收實時視頻流(RTSP/RTMP/SDP),提取幀,將其同時傳送到多個對象檢測模型,并計算輸入中存在火災(zāi)和煙霧的概率?;谙到y(tǒng)中設(shè)置的風(fēng)險閾值和自定義標(biāo)準,可以在火災(zāi)的初始階段發(fā)現(xiàn)火災(zāi),并以編程方式編譯輸出視頻剪輯,通過消息自動實時發(fā)送給用戶,使其在必要時立即采取適當(dāng)?shù)男袆?。這種火災(zāi)的早期發(fā)現(xiàn)和及時反饋可以減輕火災(zāi)蔓延,使消防員能夠更有效地控制和撲滅火災(zāi),使居住者能夠及時逃離火災(zāi)地點,簡化搜救行動,盡量避免消防員和居民的傷亡及財產(chǎn)損失。