鄒祥波,饒睦敏,秦士偉,熊會(huì)元
(1. 廣東能源集團(tuán)科學(xué)技術(shù)研究院有限公司,廣東 廣州510630;2. 視頻圖像智能分析與應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,廣東 廣州510006)
安全帽佩戴是各行各業(yè)安全生產(chǎn)工作者和高空作業(yè)人員必不可少的一種安全措施,每年時(shí)有發(fā)生因工人未佩戴安全帽、安全帽佩戴不規(guī)范而發(fā)生意外事故[1]。目前對作業(yè)人員安全帽佩戴監(jiān)管通過人工監(jiān)管,耗費(fèi)大量人力財(cái)力,且易導(dǎo)致監(jiān)管不力產(chǎn)生嚴(yán)重后果。智慧電廠建設(shè)與大數(shù)據(jù)及人工智能技術(shù)發(fā)展為安全帽佩戴自動(dòng)檢測創(chuàng)造條件。
基于深度學(xué)習(xí)的目標(biāo)檢測,分為單階段法和雙階段法。雙階段目標(biāo)檢測算法先對圖像提取候選框,然后基于候選區(qū)域做二次修正得到檢測點(diǎn)結(jié)果,檢測精度較高,但檢測速度較慢,如Fast-RCNN[2]、Faster-RCNN[3]、Mask R-CNN[4]等;單階段目標(biāo)檢測算法直接對圖像進(jìn)行計(jì)算生成檢測結(jié)果,檢測速度快,但檢測精度低,如SSD[5]、YOLO[6]系列等。
文獻(xiàn)[7]在YOLOv3算法的基礎(chǔ)上將采用DenseNet處理低分辨率的特征層,提出一種改進(jìn)的YOLOv3的目標(biāo)檢測網(wǎng)絡(luò),可應(yīng)用于佩戴安全帽檢測;文獻(xiàn)[8]在YOLOv4算法基礎(chǔ)上,通過膚色特征識(shí)別和頭部檢測對安全帽檢測進(jìn)行優(yōu)化,在安全帽檢測上準(zhǔn)確度達(dá)到了94.3%。文獻(xiàn)[9]在Faster RCNN的基礎(chǔ)上使用多層卷積,提出一種區(qū)域卷積的安全帽檢測方法。文獻(xiàn)[10]采用了網(wǎng)格搜索與交叉驗(yàn)證法以增強(qiáng)隨機(jī)蕨,應(yīng)用于安全帽檢測并驗(yàn)證了有效性。文獻(xiàn)[11]在YOLOv3的基礎(chǔ)上,結(jié)合錨框像素特征和權(quán)重系數(shù),提出一種檢測安全帽是否佩戴標(biāo)準(zhǔn)的算法。文獻(xiàn)[12]用Faster RCNN方法實(shí)現(xiàn)施工現(xiàn)場安全帽佩戴檢測,精度達(dá)到88.32%。
上述研究多基于Faster RCNN、YOLOv3、YOLOv4等算法上的改進(jìn),并未針對電廠施工維修等復(fù)雜的作業(yè)場景下安全帽自動(dòng)檢測中存在目標(biāo)遮擋、環(huán)境光照變化、視距離遠(yuǎn)近導(dǎo)致的目標(biāo)尺度變化等綜合影響以及作業(yè)現(xiàn)場對不同類型作業(yè)人員佩戴安全帽分類需求。本文面向電廠場景安全帽配套的監(jiān)管,針對現(xiàn)場復(fù)雜環(huán)境影響,提出一種基于深度學(xué)習(xí)的高精度安全帽佩戴自適應(yīng)檢測模型。
模型框架設(shè)計(jì)如圖1所示。
圖1 本文模型框架
模型包含數(shù)據(jù)增強(qiáng)模塊、圖像增強(qiáng)模塊、檢測分類網(wǎng)絡(luò)三部分。
數(shù)據(jù)增強(qiáng)模塊。數(shù)據(jù)增強(qiáng)模塊主要針對遮擋場景優(yōu)化處理,模擬真實(shí)場景的安全帽遮擋工況,生成遮擋場景數(shù)據(jù)增強(qiáng)數(shù)據(jù)集。先選取圖像目標(biāo)區(qū)域,然后隨機(jī)選取遮擋區(qū)域,以隨機(jī)像素值進(jìn)行遮擋,實(shí)現(xiàn)對遮擋場景的模擬。
圖像增強(qiáng)模塊。圖像增強(qiáng)模塊針對光照變化影響優(yōu)化處理,先將圖像數(shù)據(jù)轉(zhuǎn)換到HSV顏色空間信息,通過雙平行網(wǎng)絡(luò)融合雙顏色空間信息,得到圖像亮度映射函數(shù),然后調(diào)整圖像亮度,實(shí)現(xiàn)對強(qiáng)光環(huán)境進(jìn)行抑制,對弱光環(huán)境進(jìn)行增強(qiáng)。
檢測和分類網(wǎng)絡(luò)。檢測分類網(wǎng)絡(luò)針對安全帽佩戴檢測特點(diǎn)進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,并實(shí)現(xiàn)安全帽的顏色、種類分類。設(shè)計(jì)K-means聚類自適應(yīng)匹配數(shù)據(jù)集的檢測框(Anchor),在神經(jīng)網(wǎng)絡(luò)的骨架網(wǎng)絡(luò)的輸入與輸出兩端融合注意力機(jī)制,優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提升網(wǎng)絡(luò)檢測精度,然后基于檢測目標(biāo)區(qū)域,通過模版匹配算法獲得安全帽顏色與種類的分類信息。
作業(yè)場景下獲得人員佩戴安全帽圖像易受到自身手部、現(xiàn)場設(shè)施、設(shè)備與人員等遮擋,導(dǎo)致安全帽圖像不完整,如圖2所示。
圖2 遮擋場景圖像
深度學(xué)習(xí)模型精度很大程度上取決于訓(xùn)練集和真實(shí)場景的相似度,而電廠施工與維修等場景,存在各種設(shè)備設(shè)施及人員等干擾,圖像存在大量遮擋現(xiàn)象,現(xiàn)有安全帽數(shù)據(jù)集遮擋數(shù)據(jù)樣本少,設(shè)計(jì)Random-erasing算法對數(shù)據(jù)進(jìn)行增強(qiáng),模擬實(shí)際工況遮擋場景,提升模型魯棒性,方法如下:
增強(qiáng)后數(shù)據(jù)集中含遮擋場景的圖像數(shù)量計(jì)算方式如下
Total=E×B×ρ
(1)
其中,E為訓(xùn)練迭代次數(shù)(Epoch),B為批量大小(BatchSize),ρ為遮擋概率,遮擋場景增強(qiáng)方法如圖3所示。
圖3 遮擋場景數(shù)據(jù)增強(qiáng)
遮擋場景增強(qiáng)產(chǎn)生的遮擋數(shù)據(jù)比例應(yīng)與真實(shí)電廠場景的遮擋現(xiàn)象比例相近,若遮擋數(shù)據(jù)過少,易造成模型對遮擋現(xiàn)象欠擬合,遮擋場景檢測能力不足;若遮擋數(shù)據(jù)過多,易造成模型對遮擋現(xiàn)象過擬合。以經(jīng)驗(yàn)參數(shù)ρ=0.3的概率對原始數(shù)據(jù)進(jìn)行遮擋場景數(shù)據(jù)增強(qiáng)。
施工環(huán)境下光照變化大,如圖4所示,光照過強(qiáng)或過弱都影響安全帽佩戴檢測,設(shè)計(jì)雙平行網(wǎng)絡(luò)對強(qiáng)光進(jìn)行抑制,對弱光進(jìn)行增強(qiáng)。
圖4 特殊光照場景圖
RGB是日常使用最多的顏色空間,相較于RGB顏色空間,HSV顏色空間可以直觀地表達(dá)顏色的色調(diào)、鮮艷度和明暗度。HSV 顏色空間由色調(diào)(Hue)、飽和度(Saturation)、亮度(Value)三部分組成。將圖像從RGB顏色空間轉(zhuǎn)化為HSV顏色空間,作為下文中網(wǎng)絡(luò)的第二路輸入。其轉(zhuǎn)換方式如下
(2)
(3)
V=MAX
(4)
其中:R、G、B為紅(R)、綠(G)、藍(lán)(B)的顏色值;H、S、V 為色調(diào)(H)、飽和度(S)、亮度(V)值;MAX 表示R、G、B中最大值,MIN 為最小值;H取值范圍為[0,360°],S取值范圍為[0,100°],V取值范圍為[0, MAX]。
雙平行網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 雙平行網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)
如圖5所示,雙平行網(wǎng)絡(luò)由上下兩路組成。上路輸入為RGB圖像,經(jīng)過4層卷積層,下路輸入為HSV圖像,也經(jīng)過4層卷積層,然后上下兩路提取的信息進(jìn)行融合,最后通過全連接層實(shí)現(xiàn)圖像自適應(yīng)調(diào)整。
2.4.1 目標(biāo)自適應(yīng)匹配
深度學(xué)習(xí)算法應(yīng)用于目標(biāo)檢測大多是基于檢測框的,而基于檢測框的目標(biāo)檢測算法需預(yù)先設(shè)置檢測框參數(shù),如在SSD、Faster-RCNN設(shè)計(jì)了9個(gè)不同大小和寬高比的檢測框。施工環(huán)境下,視距不一致導(dǎo)致安全帽目標(biāo)具有多尺度性,預(yù)先設(shè)置的檢測框參數(shù)不能精準(zhǔn)匹配目標(biāo)對象,直接影響模型的檢測精度。
設(shè)計(jì)K-means聚類算法實(shí)現(xiàn)對象目標(biāo)檢測自適應(yīng)匹配,對圖像數(shù)據(jù)目標(biāo)框進(jìn)行聚類,根據(jù)聚類結(jié)果生成一組與數(shù)據(jù)集相匹配的檢測框參數(shù),提升模型檢測效率與精度。
算法流程如下所示:
2.4.2 前后端融合雙注意力卷積神經(jīng)網(wǎng)絡(luò)
基于檢測框的目標(biāo)檢測卷積神經(jīng)網(wǎng)絡(luò)多由輸入、骨架網(wǎng)絡(luò)(BackBone)、Neck模塊、輸出組成。輸入為原始圖像RGB三通道信息;骨架網(wǎng)絡(luò)也稱特征提取網(wǎng)絡(luò),處理輸入圖進(jìn)而得到特征圖;Neck模塊對骨架網(wǎng)絡(luò)所輸出的特征圖進(jìn)一步加工,加強(qiáng)特征信息;輸出為目標(biāo)物體的位置、邊框大小以及類別等等。
其中,骨架網(wǎng)絡(luò)起到提取特征的主要作用,而所提取的特征并不都對最終檢測結(jié)果有益,若能使網(wǎng)絡(luò)學(xué)習(xí)到各特征權(quán)重,保留有利于安全帽檢測的特征,舍棄不重要特征,則可提升網(wǎng)絡(luò)檢測效果。此外,若對圖像RGB通道信息添加額外權(quán)重,則改變RGB三個(gè)通道的權(quán)重大小可以組合出任意的顏色變換。而安全帽顏色多為純色,若能使卷積神經(jīng)網(wǎng)絡(luò)從RGB通道信息中學(xué)習(xí)一組權(quán)重,組合出安全帽的顏色,則可降低卷積神經(jīng)網(wǎng)絡(luò)提取佩戴安全帽特征的難度。
通道注意力機(jī)制[18]可學(xué)習(xí)不同通道之間的重要程度,篩選出部分重要通道的信息,提升神經(jīng)網(wǎng)絡(luò)模型的檢測效果。注意力模塊流程如圖6所示,F(xiàn)sq(uc)將一個(gè)通道數(shù)為c、長為H、寬為W的特征圖,壓縮成通道數(shù)為c、長寬為1的特征圖,即全局平均池化操作,以此特征圖表示全局信息。Fex(z,W)對全局池化后的結(jié)果進(jìn)行兩層全連接,中間經(jīng)過Relu激活函數(shù),再經(jīng)過sigmoid激活函數(shù)使得數(shù)值位于0-1之間,便得到權(quán)重矩陣。
(5)
Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
(6)
其中,σ表示sigmoid激活函數(shù),δ表示Relu激活函數(shù),W為權(quán)重矩陣。
圖6 通道注意力流程[18]
在骨架網(wǎng)絡(luò)輸入端和輸出端融合通道注意力機(jī)制,設(shè)計(jì)前后端融合雙注意力檢測網(wǎng)絡(luò)如圖7所示。
圖7 前后端融合雙注意力檢測網(wǎng)絡(luò)結(jié)構(gòu)圖
網(wǎng)絡(luò)以RGB圖像作為輸入,然后依次經(jīng)過注意力模塊、骨架網(wǎng)絡(luò)、注意力模塊、Neck模塊,最后得到輸出。
2.4.3 模版匹配安全帽分類設(shè)計(jì)
安全帽模版匹配分類方法包含底圖模版制作和模版匹配兩個(gè)步驟。如圖8所示,根據(jù)模型檢測結(jié)果獲得待分類的目標(biāo)區(qū)域,將目標(biāo)區(qū)域與底圖模版進(jìn)行匹配并實(shí)現(xiàn)分類。
圖8 顏色與種類分類方法
底圖模版制作。數(shù)據(jù)集圖像數(shù)量有12581張,分類時(shí)對每張圖像匹配耗時(shí)巨大,底圖模版匹配是一種高效方法。目標(biāo)顏色有四種:紅、白、黃、藍(lán)。選取四個(gè)全白、全紅、全黃、全藍(lán)的RGB圖像作為模版圖像,然后轉(zhuǎn)換到HSV 顏色空間,選取H通道信息作為底圖模版進(jìn)行后續(xù)計(jì)算。
模版匹配。根據(jù)網(wǎng)絡(luò)檢測到佩戴安全帽的位置信息,在原始圖像中截取安全帽位置區(qū)域的圖像,將其轉(zhuǎn)換到HSV顏色空間,選取H通道信息,計(jì)算與四個(gè)模版的歐式距離,并根據(jù)歐式距離計(jì)算結(jié)果選取距離閾值。若計(jì)算結(jié)果在閾值內(nèi)的,選取距離最小的模版作為分類結(jié)果;若計(jì)算結(jié)果在閾值外,則認(rèn)為該安全帽屬于其他類。
本文構(gòu)建的數(shù)據(jù)集來源于開源的安全帽檢測數(shù)據(jù)集和自制數(shù)據(jù)。自制數(shù)據(jù)均采集自電廠環(huán)境。將兩部分?jǐn)?shù)據(jù)融合,統(tǒng)一圖像命名規(guī)則,格式化標(biāo)注信息,從數(shù)據(jù)集中刪除模糊、標(biāo)注錯(cuò)誤、場景不符的圖像。最終數(shù)據(jù)集情況如表1所示。
表1 安全帽數(shù)據(jù)集
實(shí)驗(yàn)的軟件環(huán)境為:Ubuntu20.04、CUDA11.2、Python3.8,Pytorch1.4,還包括一些Python基本庫,如OpenCV、Numpy等。實(shí)驗(yàn)硬件環(huán)境如表2所示。
表2 實(shí)驗(yàn)硬件環(huán)境
平均精度均值(Mean Average Precision,mAP)常用來度量目標(biāo)檢測模型性能。平均精度均值(mAP)越高,模型性能越好。在計(jì)算平均精度均值時(shí),需先計(jì)算精度(precision)和召回率(recall),計(jì)算公式如下
(7)
(8)
其中:TP表示標(biāo)簽為正,預(yù)測為正的樣本數(shù)量;FP表示標(biāo)簽為負(fù),預(yù)測為正的樣本數(shù)量;FN表示標(biāo)簽為正,預(yù)測為負(fù)的樣本數(shù)量。
P-R曲線是以精度P為縱軸、召回率R為橫軸的二維曲線,P-R曲線下的陰影面積為平均精度值(AP),其計(jì)算公式如下
(9)
對每一類目標(biāo)的平均精度值(AP)取均值,即為平均精度均值(mAP)的值。
將數(shù)據(jù)集按8:1:1大小劃分為訓(xùn)練集、測試集、驗(yàn)證集。使用遷移學(xué)習(xí),加載ImageNet上的預(yù)訓(xùn)練權(quán)重參數(shù)作為初始化參數(shù),在自制安全帽數(shù)據(jù)集上微調(diào)(finetune),訓(xùn)練200個(gè)迭代次數(shù)(epoch),初始學(xué)習(xí)率為0.001,實(shí)驗(yàn)超參數(shù)設(shè)置如表3所示。
表3 超參數(shù)設(shè)置說明表
模型在200個(gè)epoch訓(xùn)練過程中的平均精度均值(mAP)變化如圖9所示。
圖9 訓(xùn)練過程平均精度變化
模型平均精度(mAP)達(dá)96.34%,其測試結(jié)果混淆矩陣如圖10所示。
圖10 模型混淆矩陣
在驗(yàn)證數(shù)據(jù)集上使用SSD、YOLOv3、FasterR-CNN、YOLOv5等算法進(jìn)行對比實(shí)驗(yàn),結(jié)果如表4所示。
表4 對比實(shí)驗(yàn)結(jié)果
從測試和驗(yàn)證數(shù)據(jù)集中挑選300張含電廠環(huán)境的圖像進(jìn)行消融實(shí)驗(yàn),驗(yàn)證本文各個(gè)模塊算法的有效性。結(jié)果如表5所示。
表5 消融實(shí)驗(yàn)結(jié)果
在珠海電廠進(jìn)行模型部署和實(shí)地實(shí)驗(yàn),分別選取普通場景、未佩戴安全帽場景、弱光場景、強(qiáng)光場景、遮擋場景、混合場景圖像進(jìn)行測試,結(jié)果如圖11所示。
圖11 電廠環(huán)境下安全帽佩戴檢測
從實(shí)驗(yàn)結(jié)果指標(biāo)和實(shí)地應(yīng)用效果可以看出,本文所述方法可以很好適應(yīng)電廠環(huán)境下的多種干擾,且模型平均精度達(dá)到96.61%,高于Faster R-CNN、YOLOv5等對比算法。消融實(shí)驗(yàn)驗(yàn)證了在電廠環(huán)境下,對安全帽佩戴檢測采取數(shù)據(jù)增強(qiáng)、圖像增強(qiáng)、融合注意力機(jī)制網(wǎng)絡(luò)都有效提升了檢測精度。
針對電廠環(huán)境下安全帽佩戴檢測過程中的遮擋、強(qiáng)光、弱光、多尺度目標(biāo)問題,本文提出了一種施工環(huán)境下基于深度學(xué)習(xí)的安全帽佩戴檢測與分類方法,利用卷積神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、圖像處理和數(shù)據(jù)增強(qiáng)方法,構(gòu)建電廠環(huán)境下安全帽佩戴檢測模型,在施工環(huán)境下能保證模型檢測的高準(zhǔn)確度。構(gòu)建了電廠環(huán)境工況下安全帽數(shù)據(jù)集,在該數(shù)據(jù)集上對本文算法和目前先進(jìn)算法進(jìn)行對比實(shí)驗(yàn)和消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明相較于SSD、YOLOv3、Faster R-CNN、YOLOv5等網(wǎng)絡(luò)。本文方法在保證檢測速度的同時(shí)提高了檢測精度,對工程管理人員在電廠環(huán)境下安全帽佩戴監(jiān)管有重要借鑒意義,同時(shí)也為解決其他工程環(huán)境下的目標(biāo)檢測領(lǐng)域問題提供了參考。