摘" 要:文章針對(duì)水電廠中工作人員著裝不規(guī)范問(wèn)題,提出一種基于改進(jìn)YOLOv5的著裝檢測(cè)方法,即采用目標(biāo)檢測(cè)技術(shù)對(duì)工作人員是否佩戴安全帽以及工作服穿著規(guī)范與否進(jìn)行自動(dòng)檢測(cè)。針對(duì)安全帽這類小目標(biāo)檢測(cè)問(wèn)題,在YOLOv5網(wǎng)絡(luò)模型的基礎(chǔ)上嵌入輕量級(jí)ECAnet注意力機(jī)制模塊,以減少無(wú)用信息通道的計(jì)算量,在保證YOLOv5檢測(cè)速度優(yōu)勢(shì)的同時(shí)提高了小目標(biāo)特征提取能力。結(jié)果表明,改進(jìn)后模型的準(zhǔn)確率、召回率、mAP@0.5分別提升了4.3%、2.1%、1.4%。
關(guān)鍵詞:目標(biāo)檢測(cè);著裝識(shí)別;YOLOv5s;注意力機(jī)制
中圖分類號(hào):TP391.4" " 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)10-0060-05
Research on Electrician Dressing Inspection Method Based on Improved YOLOv5
LI Gongle
(Nanjing Institute of Technology, Nanjing" 211167, China)
Abstract: This paper proposes a dressing detection method based on improved YOLOv5 to address the issue of non-standard dressing among working personnel in hydroelectric power plants. This method uses object detection technology to automatically detect whether working personnel are wearing safety helmets and their work clothes are wearing properly. For small object detection such as helmets, a lightweight ECAnet attention mechanism module is embedded on the basis of the YOLOv5 network model to reduce the computational complexity of useless information channels, while ensuring the advantage of YOLOv5 detection speed, the ability to extract small object features is improved. The results show that the accuracy, recall, and mAP@0.5 of the improved module increased by 4.3%, 2.1%, and 1.4% respectively.
Keywords: target detection; dressing recognition; YOLOv5s; attention mechanism
0" 引" 言
水電廠電力生產(chǎn)過(guò)程中由于工作人員繁多、工作內(nèi)容相對(duì)復(fù)雜及危險(xiǎn),工人的著裝問(wèn)題經(jīng)常出現(xiàn)問(wèn)題,為了保障水電廠工作人員的人身安全,安全帽的佩戴及安全著裝顯得尤為重要。在電力生產(chǎn)過(guò)程中,存在小部分施工人員安全防范意識(shí)薄弱,未佩戴安全帽或未安全著裝[1]就進(jìn)入工作地點(diǎn),更有甚者為了一時(shí)方便,在工作過(guò)程中會(huì)脫下安全帽和脫下工作服,給電力建設(shè)帶來(lái)了很多安全隱患,故很多作業(yè)現(xiàn)場(chǎng)就不得不以人工監(jiān)督的原始方式進(jìn)行預(yù)防[2],但此種方式效率低下,無(wú)法24小時(shí)對(duì)員工進(jìn)行不安全行為的監(jiān)督。圖1(a)展示了電廠員工在進(jìn)行帶電作業(yè)時(shí)未佩戴了絕緣手套,屬于不規(guī)范著裝的示例;圖1(b)展示了電廠員工在進(jìn)行帶電作業(yè)時(shí)佩戴了絕緣手套,屬于規(guī)范著裝示例。
隨著計(jì)算機(jī)視覺(jué)技術(shù)的快速發(fā)展,可以將機(jī)器視覺(jué)技術(shù)運(yùn)用到水電廠中的監(jiān)控系統(tǒng)中,通過(guò)相關(guān)技術(shù)的應(yīng)用可以有效克服人工監(jiān)督效率低下和成本過(guò)高的問(wèn)題。
近年來(lái)國(guó)內(nèi)外研究人員對(duì)于著裝檢測(cè)展開(kāi)了大量的工作。Dahiya [3]等人提出一種摩托車駕駛員安全帽檢測(cè)方法,該算法對(duì)小目標(biāo)駕駛員安全帽佩戴情況檢測(cè)效果欠佳。通過(guò)在SSD目標(biāo)檢測(cè)方法的基礎(chǔ)上加入注意力機(jī)制改進(jìn)了該算法,但該算法對(duì)復(fù)雜背景視頻流下的著裝小目標(biāo)[4]的檢測(cè)仍有所欠缺,并且模型的計(jì)算量較大。施輝[5]等人利用YOLOv3在安全帽的檢測(cè)中提出多尺度融合的方法,再經(jīng)過(guò)特征提取對(duì)安全帽進(jìn)行識(shí)別,模型的計(jì)算量同樣較大。烏民雨等人[6]也提出了一種基于改進(jìn)YOLOv3的安全帽檢測(cè)方法,但是對(duì)于受背景因素影響大有誤檢錯(cuò)檢情況。張錦[7]等人采用K-means++算法融入YOLOv5算法中,然而大大增加了其中的參數(shù)量和計(jì)算量。
目前對(duì)于著裝檢測(cè)任務(wù)的研究已經(jīng)取得了初步成果,但是仍有值得改進(jìn)的地方?,F(xiàn)有的研究方法大多注重檢測(cè)算法的推理速度,從而忽略了對(duì)小目標(biāo)的檢測(cè)精度。本文提出一種基于改進(jìn)型YOLOv5的水電廠電工的著裝不規(guī)范的檢測(cè)方法,在YOLOv5網(wǎng)絡(luò)的基礎(chǔ)上,融合了ECAnet注意力機(jī)制模塊,將NMS替換成DIOU-NMS。
本文方法可以有效降低背景特征對(duì)圖像檢測(cè)的影響,提高檢測(cè)目標(biāo)的特征情況,有效緩解水電廠工作現(xiàn)場(chǎng)復(fù)雜背景帶來(lái)的漏檢現(xiàn)象,同時(shí)提高對(duì)安全帽、絕緣手套、絕緣靴等小目標(biāo)的檢測(cè)能力。
1" 網(wǎng)絡(luò)結(jié)構(gòu)
1.1" YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv5具有網(wǎng)絡(luò)模型小,推理速度快的特點(diǎn)。本文選擇使用YOLOv5s網(wǎng)絡(luò)作為基礎(chǔ)模型,既滿足水電廠作業(yè)現(xiàn)場(chǎng)實(shí)時(shí)檢測(cè)需求,同時(shí)模型大小屬于輕量級(jí),適合監(jiān)控視頻下目標(biāo)檢測(cè)任務(wù)。如圖2所示為YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)。
YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)可以分為Input輸入端、Backbone特征提取端、Neck頸部端以及Prediction輸出端四個(gè)部分組成。其中輸入端采用Mosaic增強(qiáng)方法能夠進(jìn)行隨機(jī)比例、隨機(jī)剪裁和隨機(jī)順序?qū)D像拼接在一起,豐富檢測(cè)物體的背景,有效增強(qiáng)小目標(biāo)檢測(cè)效果,適用于安全規(guī)范著裝檢測(cè)任務(wù)。
Backbone的特征提取端采用CSPDarknet53網(wǎng)絡(luò)結(jié)構(gòu),利用Conv(k = 6,s = 2,p = 2)結(jié)構(gòu)進(jìn)行切片操作,提高速度,并且方便導(dǎo)出其他模型。帶殘差的CSP1_X結(jié)構(gòu)可以避免梯度消失和網(wǎng)絡(luò)退化,SPPF空間池化塔結(jié)構(gòu)進(jìn)行圖像尺寸統(tǒng)一。CSP網(wǎng)絡(luò)結(jié)構(gòu)和切片F(xiàn)ocus結(jié)構(gòu)增強(qiáng)了特征圖上的感受野,減少原始圖像信息丟失和降低了計(jì)算量,提高了檢測(cè)速度。
Neck網(wǎng)絡(luò)結(jié)構(gòu)采用自上而下的金字塔FPN和自下而上的PAN復(fù)合結(jié)構(gòu)。FPN可以將深層語(yǔ)義特征轉(zhuǎn)移到平面層,改善多尺度上的語(yǔ)義表達(dá);PAN將平面位置信息傳輸?shù)缴顚樱岣叨喑叨壬系亩ㄎ荒芰?。FPN+PAN復(fù)合結(jié)構(gòu)使不同尺寸的特征圖都包含圖像語(yǔ)義信息和圖像特征信息,保證了對(duì)不同尺寸的圖片的準(zhǔn)確預(yù)測(cè)。
Prediction輸出端能夠獲取關(guān)于圖像中檢測(cè)到的目標(biāo)的詳細(xì)信息,包括其位置、類別和置信度得分,根據(jù)這些信息繪制邊界框、過(guò)濾低置信度的檢測(cè)結(jié)果、計(jì)算目標(biāo)的具體位置。
1.2" 注意力機(jī)制
注意力機(jī)制可以使得模型增大重要信息權(quán)重,削弱無(wú)用信息權(quán)重,從而在保持參數(shù)不變的情況下,依然能提高任務(wù)效率。ECAnet [8]注意力機(jī)制可以顯著提高模型的檢測(cè)精度和魯棒性,降低無(wú)用信息的干擾,獲取重要信息特征,提高模型的泛化能力。此外,ECAnet注意力機(jī)制還可以幫助模型在處理小目標(biāo)時(shí),提高檢測(cè)精度,從而使模型更適合于處理復(fù)雜場(chǎng)景下的目標(biāo)檢測(cè)任務(wù)??傊?,將ECAnet注意力機(jī)制插入到Y(jié)OLOv5中,可以有效提高模型的性能,進(jìn)一步提高物體檢測(cè)的準(zhǔn)確性和實(shí)用性,該模塊只涉及少量參數(shù),同時(shí)帶來(lái)明顯的性能增益。圖3為ECA注意力機(jī)制結(jié)構(gòu)圖,實(shí)現(xiàn)過(guò)程如下:
1)輸入特征圖經(jīng)過(guò)全局平均池化(GAP)后,特征圖向量從[h,w,c]變成[1,1,c]矩陣。
2)得到自適應(yīng)一維卷積核k進(jìn)行通道間的交互。
3)一維卷積運(yùn)算后,得到特征圖中每個(gè)通道的權(quán)重σ。
4)將歸一化權(quán)重和原輸入特征圖逐通道相乘,生成加權(quán)后的特征圖輸出。
ECAnet使用一個(gè)矩陣Wk來(lái)學(xué)習(xí)通道注意力,Wk的計(jì)算式為:
Wk =(1)
顯然,Wk的數(shù)量與k通道中的特征圖通道數(shù)c相關(guān),一共涉及了k×c個(gè)參數(shù)。
權(quán)值wi的計(jì)算式為:
可以看出,權(quán)值yi的計(jì)算僅涉及與其k個(gè)鄰居通道之間的直接交互。σ為Sigmoid函數(shù),用于將交互權(quán)重限制在0到1之間。Ω為相關(guān)權(quán)重的參數(shù)集合。這種權(quán)值計(jì)算方法可以幫助強(qiáng)化對(duì)特定通道的注意力,以更好地捕捉特定特征通道的信息。
假設(shè)所有通道共享相同的學(xué)習(xí)參數(shù),那么就簡(jiǎn)化了式(2),得到:
上述過(guò)程可以通過(guò)一個(gè)大小為k的一維卷積核來(lái)簡(jiǎn)化實(shí)現(xiàn):
其中,C1D是一維卷積。
式(4)由ECAnet調(diào)用,它僅使用k個(gè)參數(shù)。k的值可以通過(guò)一個(gè)自適應(yīng)的函數(shù),該函數(shù)與輸入特征的通道維度C有關(guān),計(jì)算式為:
在卷積神經(jīng)網(wǎng)絡(luò)中,當(dāng)處理小目標(biāo)時(shí),特征提取過(guò)程中的信息會(huì)因?yàn)槎啻谓稻S縮小而遭受損失。為了應(yīng)對(duì)這個(gè)問(wèn)題,在主干網(wǎng)絡(luò)的SPPF(Spatial Pyramid Pooling Feature)前一層,我們引入了ECAnet注意力機(jī)制網(wǎng)絡(luò)模塊。這個(gè)模塊的作用是加強(qiáng)小目標(biāo)信息的檢測(cè),更好地保留小目標(biāo)的細(xì)節(jié)信息,同時(shí)強(qiáng)調(diào)重要信息特征,減弱非重要信息特征。具體的結(jié)構(gòu)示意圖如圖4所示。
1.3" 非最大抑制(NMS)算法改進(jìn)
非最大抑制(NMS)在目標(biāo)檢測(cè)的預(yù)測(cè)階段時(shí),會(huì)輸出許多候選的Anchor box,其中有很多是明顯重疊的預(yù)測(cè)邊界框都圍繞著同一個(gè)目標(biāo),這時(shí)候就可以使用NMS來(lái)合并同一目標(biāo)的類似邊界框。但不適用于多類別任務(wù)和重疊目標(biāo),在多類別目標(biāo)檢測(cè)任務(wù)中,傳統(tǒng)的NMS可能需要分別應(yīng)用于每個(gè)類別,這可能導(dǎo)致類別間的相互競(jìng)爭(zhēng),從而影響檢測(cè)結(jié)果;當(dāng)目標(biāo)之間有重疊時(shí),NMS可能會(huì)導(dǎo)致一些目標(biāo)的丟失。將NMS替換為DIOU-NMS,可初步改善YOLOv5對(duì)重疊遮擋目標(biāo)的識(shí)別。鑒于水電廠工作區(qū)域內(nèi)人員密集,采用結(jié)合DIoU和NMS的方法,旨在減少漏檢情況。
DIoU-NMS公式如式(7)所示:
其中,M為具有最高分類分?jǐn)?shù)的一個(gè)預(yù)測(cè)框,而B(niǎo)i用于確定是否應(yīng)該移除其他預(yù)測(cè)框,具體移除規(guī)則由Si為的分類分?jǐn)?shù)和ε為的NMS閾值決定。RDIoU為兩個(gè)邊界框的中心點(diǎn)之間的距離,式(8)中描述了相關(guān)計(jì)算公式:
其中,ρ2(?)為歐式距離,b和bgt分別為預(yù)測(cè)邊界框和真實(shí)邊界框的中心點(diǎn),而c為兩個(gè)預(yù)測(cè)框之間的最小包圍框的最短對(duì)角線長(zhǎng)度。用這些來(lái)計(jì)算邊界框之間的距離,以便在目標(biāo)檢測(cè)中評(píng)估它們之間的相似性或重疊程度。
故本文采用DIoU-NMS效果更符合實(shí)際,效果更佳,進(jìn)而改善了目標(biāo)檢測(cè)中的漏檢問(wèn)題,有效提高了檢測(cè)的精度。
2" 實(shí)驗(yàn)與分析
2.1" 數(shù)據(jù)集構(gòu)建
2.1.1" 數(shù)據(jù)集預(yù)處理
水電廠作業(yè)現(xiàn)場(chǎng)要求佩戴安全帽、絕緣手套、絕緣靴子、工作服等,針對(duì)水電廠目前并沒(méi)有公開(kāi)的真實(shí)場(chǎng)景的數(shù)據(jù)集,且網(wǎng)絡(luò)上研究的樣本量較少,所以一般需在真實(shí)場(chǎng)景中進(jìn)行數(shù)據(jù)采集。故本文采用的數(shù)據(jù)集選自網(wǎng)絡(luò)數(shù)據(jù)集以及個(gè)人自建的數(shù)據(jù)集。為了提高數(shù)據(jù)集的多樣性,對(duì)樣本圖片采用翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪、高斯噪聲等數(shù)據(jù)增強(qiáng)方式,提高模型泛化能力[9],獲得達(dá)到更好的目標(biāo)檢測(cè)效果的作用[10],最終獲得5 000張數(shù)據(jù)樣本圖,用于本文中進(jìn)行人員的著裝檢測(cè)訓(xùn)練。
2.1.2" 圖片標(biāo)注
利用LabelImg作圖像的標(biāo)注工具,其中根據(jù)規(guī)范化安全著裝檢測(cè)目標(biāo),規(guī)定了安全帽、非安全帽等10種類別的檢測(cè)標(biāo)簽,并將數(shù)據(jù)集分別按8:2劃分為訓(xùn)練集和測(cè)試集,如圖5所示為目標(biāo)在數(shù)據(jù)集中所占圖像數(shù)量分布。
2.2" 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
實(shí)驗(yàn)代碼基于PyTorch深度框架,實(shí)驗(yàn)環(huán)境配置:Windows 10、GPU GeForce GTX 3060、CUDA11.2、Python 3.9。模型衰減權(quán)重未為0.000 05,Batch-size設(shè)置為16,epoch設(shè)置為300epoch。GPU測(cè)試時(shí)圖像輸入為640×640,考慮到大多數(shù)移動(dòng)設(shè)備并沒(méi)有圖形卡加速,因此同時(shí)進(jìn)行CPU測(cè)試模擬移動(dòng)端的情況,CPU測(cè)試時(shí)輸入為320×320。
2.3" 評(píng)價(jià)指標(biāo)
判斷模型的好壞往往是通過(guò)評(píng)價(jià)指標(biāo)來(lái)得到的。本文對(duì)于水電廠中安全著裝檢測(cè)任務(wù)采用查準(zhǔn)率 (Precision)、查全率(Recall)、平均精度均值(mAP)作為模型的評(píng)價(jià)指標(biāo)。
2.4" 消融實(shí)驗(yàn)
為了驗(yàn)證改進(jìn)算法的有效性,進(jìn)行消融實(shí)驗(yàn),基于YOLOv5s網(wǎng)絡(luò)進(jìn)行不同的模型設(shè)計(jì):模型1:保持YOLOv5s網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)不做任何改變。模型2:在YOLOv5s網(wǎng)絡(luò)中添加了ECAnet注意力機(jī)制,其余部分保持不變。模型3:我們將原本使用的非最大抑制算法NMS替換為DIOU-NMS,其他模塊維持不變。模型4:在YOLOv5s網(wǎng)絡(luò)中添加ECAnet注意力機(jī)制,并同時(shí)將NMS替換為DIOU-NMS。這些模型旨在檢驗(yàn)不同改進(jìn)措施對(duì)目標(biāo)檢測(cè)性能的影響。最終,使用精確率、召回率和均值平均精確率(mAP)作為評(píng)估指標(biāo),實(shí)驗(yàn)結(jié)果在表1中。
從表1中的數(shù)據(jù)可以看出,通過(guò)在原始YOLOv5s結(jié)構(gòu)的基礎(chǔ)上添加注意力模塊以及將非最大抑制算法NMS替換為DIOU-NMS的方法,都顯著提高了模型的性能表現(xiàn)。當(dāng)這兩種改進(jìn)都被同時(shí)引入到模型中時(shí),性能提升更加顯著,具體來(lái)說(shuō),準(zhǔn)確率提高了4.3%,召回率提高了2.1%,mAP@0.5提高了1.4%。這表明本文提出的模型修改部分有效地改善了模型的性能。檢測(cè)結(jié)果的部分示例如圖6所示。
3" 結(jié)" 論
水電廠員工日常工作中的著裝規(guī)范問(wèn)題是重中之重,根據(jù)工作需求,在不同的場(chǎng)合需要佩戴和穿著相應(yīng)的服飾。本文針對(duì)水電廠工作人員著裝問(wèn)題中安全帽等小目標(biāo)的漏檢問(wèn)題,以及遮擋問(wèn)題進(jìn)行優(yōu)化,通過(guò)在YOLOv5s模型上添加ECAnet注意力機(jī)制,我們能夠更好地捕捉目標(biāo)的有效信息。同時(shí),將非最大抑制算法NMS替換為DIOU-NMS有助于提高小目標(biāo)的檢測(cè)效果,并提高對(duì)遮擋目標(biāo)的辨識(shí)度。通過(guò)實(shí)驗(yàn)證明,本文提出的方法表現(xiàn)出出色的性能,非常適合應(yīng)用于工作人員的著裝智能識(shí)別任務(wù)。
參考文獻(xiàn):
[1] 張仕廉,王黎明,葉貴,等.建筑安全全要素投入研究:以重慶市為例 [J].中國(guó)安全科學(xué)學(xué)報(bào),2018,28(3):161-166.
[2] 劉欣宜,張寶峰,符燁,等.基于深度學(xué)習(xí)的污染場(chǎng)地作業(yè)人員著裝規(guī)范性檢測(cè) [J].中國(guó)安全生產(chǎn)科學(xué)技術(shù),2020,16(7):169–175.
[3] DAHIYA K,SINGH D,MOHAN C K. Automatic Detection of Bike-Riders Without Helmet Using Surveillance Videos in Real-time [C]//2016 International Joint Conference on Neural Networks.Vancouver:IEEE,2016:3046-3051.
[4] 梁鴻,王慶瑋,張千.小目標(biāo)檢測(cè)技術(shù)研究綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2021,57(1):17-28.
[5] 施輝,陳先橋,楊英.改進(jìn) YOLOv3 的安全帽佩戴檢測(cè)方法 [J].計(jì)算機(jī)工程與應(yīng)用,2019,55(11):213-220.
[6] 烏民雨,陳曉輝.一種基于改進(jìn)YOLOv3的安全帽檢測(cè)方法 [J].信息通信,2020(6):12-14.
[7] 張錦,屈佩琪,孫程,等.基于改進(jìn)YOLOv5的安全帽佩戴檢測(cè)算法 [J].計(jì)算機(jī)應(yīng)用,2022(4):1292-1300.
[8] HU J,SHEN L,SUN G. Squeeze-and-Excitation Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[9] 靳陽(yáng)陽(yáng),韓現(xiàn)偉,周書(shū)寧,等.圖像增強(qiáng)算法綜述 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(6):18-27.
[10] 鐘志峰,夏一帆,周冬平,等.基于改進(jìn)YOLOv4的輕量化目標(biāo)檢測(cè)算法 [J].計(jì)算機(jī)應(yīng)用,2022,42(7):2201-2209.
作者簡(jiǎn)介:李恭樂(lè)(1999—),男,漢族,江西南昌人,碩士研究生在讀,研究方向:基于目標(biāo)檢測(cè)的水電廠作業(yè)人員不安全行為檢測(cè)。