王彬 趙作鵬
收稿日期:2023-09-14
DOI:10.19850/j.cnki.2096-4706.2024.06.015
摘? 要:井下礦工的吸煙行為嚴(yán)重影響煤礦生產(chǎn)安全,對(duì)井下礦工吸煙行為的有效識(shí)別迫在眉睫。針對(duì)煤礦井下的特殊環(huán)境和傳統(tǒng)識(shí)別方法準(zhǔn)確率低的問題,提出一種基于YOLOv7的礦工吸煙行為識(shí)別算法YOLO-SFN。將SimAM嵌入到Y(jié)OLOv7的網(wǎng)絡(luò)結(jié)構(gòu)中,用Focus模塊替換MPConv下分支中的3×3卷積核,提高模型在復(fù)雜背景下的特征提取能力。在后處理階段采用Soft-NMS作為網(wǎng)絡(luò)模型的后處理算法,解決了傳統(tǒng)NMS算法在復(fù)雜密集環(huán)境中的漏檢問題。實(shí)驗(yàn)結(jié)果表明,該方法的準(zhǔn)確率為96.45%,召回率為92%,精確率為97.05%。研究成果已經(jīng)在陳四樓煤礦得以推廣應(yīng)用,實(shí)現(xiàn)了對(duì)煤礦井下礦工吸煙行為的有效監(jiān)管。
關(guān)鍵詞:目標(biāo)檢測(cè);注意力機(jī)制;YOLOv7;NMS算法;吸煙識(shí)別
中圖分類號(hào):TP391.4? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)06-0066-05
Research on Miner Smoking Recognition Method Based on YOLOv7
WANG Bin1,2, ZHAO Zuopeng1
(1.School of Computer Science & Technology, China University of Mining and Technology, Xuzhou? 221116, China;
2. Department of Information Technology, Jiangsu Union Technical Institute, Xuzhou? 221008, China)
Abstract: Smoking behavior of underground miners seriously affects the production safety of coal mines, and effective recognition of underground miners' smoking behavior is imminent. Aiming at the special environment of underground coal mines and the problem of low accuracy of traditional recognition methods, it proposes a YOLOv7-based miners' smoking behavior recognition algorithm YOLO-SFN. SimAM is embedded into the network structure of YOLOv7, and the Focus module is used to replace the 3×3 convolution kernel in the lower branch of MPConv, so as to improve the model's feature extraction ability in the complex background. Soft-NMS is used as the post-processing algorithm for the network model in the post-processing stage, which solves the leakage detection problem of the traditional NMS algorithm in the complex and dense environment. The experimental results show that the accuracy rate of the method is 96.45%, the recall rate is 92%, and the precision rate is 97.05%. The research results have been popularized and applied in Chensilou coal mine, realizing the effective supervision of the smoking behavior of miners in underground coal mines.
Keywords: target detection; Attention Mechanism; YOLOv7; NMS algorithm; smoking recognition
0? 引? 言
《煤礦安全規(guī)程》規(guī)定,入井人員嚴(yán)禁攜帶煙草和點(diǎn)火物品。井下吸煙會(huì)引燃坑道內(nèi)的可燃性氣體從而引起火災(zāi)或爆炸,有很多瓦斯爆炸事故為礦工井下吸煙所致[1]。因而,加強(qiáng)對(duì)礦工井下吸煙行為的監(jiān)測(cè)預(yù)警對(duì)確保煤礦安全生產(chǎn)具有重要意義。
傳統(tǒng)的監(jiān)測(cè)方法是安裝煙霧報(bào)警器進(jìn)行吸煙行為監(jiān)測(cè),但其監(jiān)測(cè)范圍有限,不適用于井下特殊環(huán)境的大范圍布設(shè)?;谝曈X的礦工吸煙識(shí)別方法可以實(shí)現(xiàn)實(shí)時(shí)、防篡改的識(shí)別效果,學(xué)者們利用不同的卷積方法對(duì)圖像進(jìn)行分類識(shí)別以及對(duì)人的各種行為進(jìn)行有效識(shí)別[2,3]。隨著人工智能技術(shù)的不斷發(fā)展,將深度學(xué)習(xí)應(yīng)用到控?zé)燁I(lǐng)域,在煤礦井下實(shí)現(xiàn)AI控?zé)熆墒钟行У卮_保煤礦作業(yè)安全。針對(duì)井下巷道狹長(zhǎng)、光線不足的特殊環(huán)境,研究高精度吸煙識(shí)別算法有助于煤礦對(duì)礦工吸煙行為的有效監(jiān)管。
目前,針對(duì)吸煙行為的識(shí)別方法主要集中在對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理、利用吸煙行為的手勢(shì)或吸煙時(shí)的煙霧進(jìn)行識(shí)別。Liao等人[4]提出一種基于YOLOv3的吸煙目標(biāo)檢測(cè)方法,使用的YOLOv3模型以DarkNet53作為骨干,檢測(cè)結(jié)果表明該方法具有良好的煙霧檢測(cè)效果,mAP達(dá)到0.76;趙鑒福等人[5]提出一種基于人體關(guān)鍵點(diǎn)和YOLOv4的吸煙行為檢測(cè)方法。本研究在利用深度學(xué)習(xí)方法實(shí)現(xiàn)煙頭檢測(cè)的基礎(chǔ)上,還額外增加了對(duì)人體關(guān)鍵點(diǎn)的檢測(cè)。通過分析目標(biāo)對(duì)象關(guān)鍵點(diǎn)之間的距離、角度變化以及吸煙動(dòng)作的時(shí)間周期特征,判斷目標(biāo)對(duì)象是否發(fā)生了吸煙行為。實(shí)驗(yàn)結(jié)果表明,本研究提出的方法能夠準(zhǔn)確檢測(cè)出自行收集數(shù)據(jù)中的吸煙行為,實(shí)現(xiàn)了對(duì)吸煙行為的及時(shí)監(jiān)測(cè)。以上模型能夠較好地應(yīng)用于吸煙行為實(shí)時(shí)檢測(cè)任務(wù)。但上述方法對(duì)香煙這種較小目標(biāo)的檢測(cè)依然存在檢測(cè)準(zhǔn)確率不高,漏檢時(shí)有發(fā)生的問題。
1? 改進(jìn)基于YOLOv7的礦工吸煙檢測(cè)模型
1.1? YOLOv7模型
與其他目標(biāo)識(shí)別算法相比,YOLO的多尺度預(yù)測(cè)具有更好的可檢測(cè)性和實(shí)時(shí)性,可以滿足裝配線高速率的測(cè)量需求。YOLOv7 [6]采用了遠(yuǎn)程注意力網(wǎng)絡(luò)(E-ELAN),在級(jí)聯(lián)模型模型縮放[7]和卷積重參數(shù)化[8]的加持下,實(shí)現(xiàn)了檢測(cè)效率和準(zhǔn)確性的完美平衡。YOLOv7網(wǎng)絡(luò)由四個(gè)模塊組成:輸入、骨干、頭部和預(yù)測(cè)。輸入模塊將輸入圖像縮放為均勻的像素大小以滿足骨干網(wǎng)絡(luò)的輸入尺寸要求。為滿足骨干網(wǎng)絡(luò)的輸入尺寸要求,本研究對(duì)圖像進(jìn)行了統(tǒng)一的尺寸調(diào)整。骨干網(wǎng)絡(luò)模塊由BConv、E-ELAN和MPConv卷積層組成,其中BConv模塊包含卷積層、歸一化層和LeakyReLU激活函數(shù),用以提取多尺度的圖像特征。頭部模塊是由路徑聚合進(jìn)而組成特征金字塔網(wǎng)絡(luò)(PAFPN)結(jié)構(gòu)[9],特征信息自下而上傳遞,實(shí)現(xiàn)了不同語義層次特征的有效融合。預(yù)測(cè)模塊采用REP結(jié)構(gòu)調(diào)整了PAFPN輸出的P3、P4、P5多尺度特征映射的通道數(shù),最終利用1×1卷積核來預(yù)測(cè)目標(biāo)的置信度、類別及錨框坐標(biāo)。礦下吸煙檢測(cè)模型需要同時(shí)滿足實(shí)時(shí)性和準(zhǔn)確性的要求,考慮到檢測(cè)精度和速度之間的良好平衡,選擇YOLOv7作為基礎(chǔ)模型。
1.2? 模型改進(jìn)思路
礦下檢測(cè)環(huán)境復(fù)雜,如復(fù)雜的光照環(huán)境、目標(biāo)太小、煙霧遮擋以及煙霧模糊等問題都會(huì)導(dǎo)致檢測(cè)結(jié)果不夠理想。因此本文提出一種基于改進(jìn)YOLOv7的礦工吸煙識(shí)別算法YOLO-SFN,首先引入注意力機(jī)制模塊SimAM,在不額外添加參數(shù)的情況下提高網(wǎng)絡(luò)在復(fù)雜礦下環(huán)境中的特征提取能力。其次用Focus模塊替換MPConv下分支中的3×3卷積核,減少網(wǎng)絡(luò)參數(shù)量和計(jì)算量,使檢測(cè)速度得以提升。在后處理階段采用Soft-NMS作為網(wǎng)絡(luò)模型的后處理算法,解決了傳統(tǒng)NMS算法在復(fù)雜密集環(huán)境中的漏檢問題。
1.3? 數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)中采用的是真實(shí)的圖像數(shù)據(jù),共采集8 000張圖像數(shù)據(jù),其中吸煙圖像有4 000張,正常工作圖像4 000張。為減小計(jì)算量并降低圖像背景信息的干擾,對(duì)原始圖像剪裁后再進(jìn)行計(jì)算。裁剪圖像是由臉部識(shí)別代碼計(jì)算所得,通過Opencv實(shí)現(xiàn)對(duì)圖像中人臉的識(shí)別,將識(shí)別結(jié)果保存下來。程序剪裁后的圖像大小不統(tǒng)一,將輸入圖像大小改為416×416。
1.4? 網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)
首先,將注意力機(jī)制模塊SimAM [10]嵌入到Y(jié)OLOv7的網(wǎng)絡(luò)結(jié)構(gòu)中。注意力機(jī)制是指在網(wǎng)絡(luò)輸入部分采用了賦權(quán)機(jī)制,使模型可以忽略不相關(guān)的信息而聚焦在關(guān)鍵信息上,從而提高了模型在復(fù)雜背景下的特征提取能力。SimAM是一個(gè)注意力機(jī)制模塊,并不會(huì)增加網(wǎng)絡(luò)參數(shù)的數(shù)量,具有即插即用的特點(diǎn),可以嵌入到模型的任意位置,避免了額外參數(shù)的計(jì)算,其原理如圖1所示。
SimAM的核心在于利用其能量函數(shù)計(jì)算注意力權(quán)重。SimAM通過對(duì)香煙的相鄰神經(jīng)元產(chǎn)生空間抑制來減少復(fù)雜背景對(duì)香煙檢測(cè)的干擾,突出香煙的關(guān)鍵特征,增強(qiáng)對(duì)香煙關(guān)鍵特征的提取能力,計(jì)算過程如下:
(1)
(2)
,? ? ? ? ? ?(3)
其中, 表示香煙的增強(qiáng)特征圖;E表示每個(gè)通道的能量函數(shù)。能量越低,香煙神經(jīng)元和相鄰神經(jīng)元之間的區(qū)分度越高。為了防止E值過大,采用sigmoid函數(shù)來限制E值的大??; 表示點(diǎn)乘運(yùn)算;X表示輸入特征圖;μ表示輸入特征圖中每個(gè)通道的平均值;σ2表示輸入煙霧特征圖中每個(gè)通道的方差;λ表示超級(jí)參數(shù);t表示目標(biāo)神經(jīng)元。
MPConv的主要功能是下采樣,它可以通過一定的特征損失來減小特征大小。YOLOv7中MPConv模塊兩個(gè)分支的下分支使用3×3的卷積核進(jìn)行卷積操作。當(dāng)步長(zhǎng)為2時(shí),一些特征信息可能會(huì)丟失,網(wǎng)絡(luò)中可能會(huì)出現(xiàn)低效的特征學(xué)習(xí)。受YOLOv5中Focus模塊的啟發(fā),將MPConv下分支中的3×3卷積核替換成Focus模塊。如圖1所示,在特征圖減半的情況下,減少了特征的損失,提高了特征的學(xué)習(xí)效率,提升了復(fù)雜背景下香煙檢測(cè)的性能。
1.5? 后處理改進(jìn)
本文選擇Soft-NMS作為網(wǎng)絡(luò)模型的后處理算法。傳統(tǒng)的NMS算法從檢測(cè)結(jié)果中選擇得分最高的檢測(cè)框,判斷相鄰檢測(cè)框是否被重疊閾值保留,如果相鄰檢測(cè)框得分大于閾值,則直接設(shè)置為零。傳統(tǒng)的NMS算法從檢測(cè)結(jié)果中選擇得分最高的框,并根據(jù)與相鄰框的重疊情況判斷是否保留,如果重疊超過閾值則直接抑制,這在人群密集場(chǎng)景下容易造成漏檢。本研究引入Soft-NMS算法,其設(shè)定懲罰函數(shù)而非直接抑制得分較高的相鄰框。這樣可以降低這些框的置信度而不會(huì)完全抑制,從而提高了此方法在復(fù)雜場(chǎng)景下的檢測(cè)性能。這樣,對(duì)于一些高分的檢測(cè)框,即使在NMS階段降低了分?jǐn)?shù),在后續(xù)的計(jì)算中也可以作為正確的檢測(cè)盒,切實(shí)提高了檢測(cè)精度和召回率。同時(shí),采用高斯懲罰函數(shù)解決連續(xù)性問題。本文Soft-NMS算法的分?jǐn)?shù)重置函數(shù)如下:
(4)
(5)
其中,σ表示高斯函數(shù)的方差。
本文提出的YOLO-SFN網(wǎng)絡(luò)模型如圖2所示。
2? 實(shí)驗(yàn)仿真與結(jié)果
2.1? 實(shí)驗(yàn)平臺(tái)
實(shí)驗(yàn)環(huán)境為Intel(R) Core(TM) i5-7400 CPU @ 3.00 GHz的CPU處理器,8.00 GB的運(yùn)行內(nèi)存,GeForce GTX 3080Ti的GPU。為了獲得更好的訓(xùn)練效果,將學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減系數(shù)設(shè)置為0.000 5,優(yōu)化器為Adam,訓(xùn)練批次設(shè)置為32,迭代周期設(shè)置為200次。
2.2? 評(píng)價(jià)指標(biāo)與結(jié)果比較
本文通過準(zhǔn)確率、精確率、召回率等指標(biāo)對(duì)網(wǎng)絡(luò)性能進(jìn)行評(píng)估。計(jì)算上述性能指標(biāo)需要混淆矩陣,如表1所示。
表1? 混淆矩陣
樣本分類 預(yù)測(cè)1 預(yù)測(cè)0 合計(jì)
實(shí)際1(P) TP FN TP + FN
實(shí)際0(N) FP TN FP + TN
合計(jì) TP + FP FN + TN TP + FN + FP + TN
為了對(duì)YOLO-SFN網(wǎng)絡(luò)進(jìn)行評(píng)估,采用不同的網(wǎng)絡(luò)結(jié)構(gòu)與其進(jìn)行比較,方法驗(yàn)證集的準(zhǔn)確率變化圖如圖3所示,具體數(shù)值如表2所示。
圖3? 不同網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練驗(yàn)證集的準(zhǔn)確率變化圖
表2? 不同算法的性能
Method Accuracy Re Sp Pre
YOLOv5m 88.56 88.50 93.50 91.33
YOLOv6 92.02 87.50 96.00 93.41
YOLOv7 94.51 89.50 95.50 94.64
YOLO-SFN 96.45 92.00 95.00 97.05
2.3? 消融實(shí)驗(yàn)
為了驗(yàn)證改進(jìn)策略的有效性,進(jìn)行消融實(shí)驗(yàn)來評(píng)估每個(gè)改進(jìn)策略。采用整個(gè)測(cè)試集作為數(shù)據(jù)集,使測(cè)試環(huán)境和數(shù)據(jù)集保持不變。消融實(shí)驗(yàn)的檢測(cè)結(jié)果如表3所示。
表3? 消融實(shí)驗(yàn)檢測(cè)結(jié)果
SimAM F-MP Soft-NMS Accuracy Re Precision
94.51 79.50 94.64
√ 95.92 80.02 94.85
√ √ 95.58 81.53 95.36
√ √ √ 96.45 97.05 97.05
3? 分析討論
從結(jié)果數(shù)據(jù)來看,YOLOv7的準(zhǔn)確率為94.51%,而本文提出的YOLO-SFN準(zhǔn)確率為96.45%,提高了1.94個(gè)百分點(diǎn),所以實(shí)驗(yàn)驗(yàn)證了本文算法的優(yōu)異性能。YOLOv6檢測(cè)吸煙圖像的準(zhǔn)確率與精確率分別是92.02%和93.41%,檢測(cè)性能僅僅優(yōu)于YOLOv5m。YOLO-SFN網(wǎng)絡(luò)的檢測(cè)性能最佳,不管是準(zhǔn)確率還是精確率都優(yōu)于其他三種流行網(wǎng)絡(luò)。為了驗(yàn)證改進(jìn)策略的有效性,本文做了消融實(shí)驗(yàn)對(duì)每個(gè)改進(jìn)之處進(jìn)行評(píng)估。從如表3所示的檢測(cè)結(jié)果上看,將SimAM注意力機(jī)制融入YOLOv7網(wǎng)絡(luò)中,檢測(cè)礦工吸煙的準(zhǔn)確率可達(dá)95.92%,比原模型YOLOv7提高1.41個(gè)百分點(diǎn),證明此改進(jìn)策略可以加強(qiáng)對(duì)礦工吸煙行為的特征提取。在使用注意力機(jī)制的基礎(chǔ)上,引入Focus模塊的網(wǎng)絡(luò)檢測(cè)礦工吸煙行為的準(zhǔn)確率也高于原模型,但低于只加入注意力機(jī)制的模型,準(zhǔn)確率可達(dá)95.58%,做到了在保證檢測(cè)精度的同時(shí)減少參數(shù)量。在后處理階段加入Soft-NMS算法,檢測(cè)效果最佳,準(zhǔn)確率高達(dá)96.45%,比原模型高1.94%,解決了礦工吸煙漏檢的問題,提高了檢測(cè)精度。綜上所述,本文方法相較于其他流行方法,在礦工吸煙行為識(shí)別中的表現(xiàn)較好,可以有效識(shí)別礦工是否存在吸煙行為。
4? 結(jié)? 論
本文針對(duì)礦工吸煙圖像識(shí)別,研究了基于YOLOv7的礦工吸煙行為檢測(cè)方法。所使用的數(shù)據(jù)集均來源于礦工真實(shí)圖像,仿真實(shí)驗(yàn)結(jié)果表明,該方法對(duì)礦工吸煙圖像的檢測(cè)識(shí)別具有良好的效果。本文的研究成果已經(jīng)在陳四樓煤礦推廣應(yīng)用半年以上,實(shí)現(xiàn)了對(duì)井下人員吸煙行為的視頻監(jiān)測(cè)預(yù)警,加強(qiáng)了對(duì)煤礦井下人員吸煙行為的有效監(jiān)管,提高了煤礦的安全生產(chǎn)管理水平。
參考文獻(xiàn):
[1] 殷文韜.煤礦瓦斯爆炸事故的不安全動(dòng)作原因研究 [D].北京:中國(guó)礦業(yè)大學(xué)(北京),2015.
[2] VOLODYMYR M,KORAY K,DAVID S,et al. Human-level Control through Deep Reinforcement Learning [J].Nature,2015,518(7540):529-533.
[3] 梁緒,李文新,張航寧.人體行為識(shí)別方法研究綜述 [J].計(jì)算機(jī)應(yīng)用研究,2022,39(3):651-660.
[4] LIAO J,ZOU J. Smoking Target Detection Based on YOLO V3 [C]//2020 5th International Conference on Mechanical, Control and Computer Engineering (ICMCCE). Harbin:IEEE,2020:2241-2244.
[5] 趙鑒福.基于人體關(guān)鍵點(diǎn)識(shí)別的吸煙行為檢測(cè)方法研究 [D].天津:河北工業(yè)大學(xué),2023.
[6] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable Bag-of-freebies Sets New State-of-the-art for Real-time Object Detectors [C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Vancouver:IEEE,2023:7464-7475.
[7] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. Scaled-YOLOv4: Scaling Cross Stage Partial Network [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:13024-13033.
[8] DING X H,ZHANG X,MA N N,et al. Repvgg: Making Vgg-style Convnets Great Again [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:13728-13737.
[9] GE Z,LIU S T,WANG F,et al. Yolox: Exceeding YOLO Series in 2021 [J/OL].arXiv:2107.08430 [cs.CV].[2023-08-10].https://arxiv.org/abs/2107.08430.
[10] YANG L X,ZHANG R Y,LI L D,et al. Simam: A Simple, Parameter-free Attention Module for Convolutional Neural Networks [C]//International Conference on Machine Learning. [S.l.]:PMLR,2021:11863-11874.
作者簡(jiǎn)介:王彬(1978—),男,漢族,江蘇徐州人,副教授,碩士,研究方向:人工智能、網(wǎng)絡(luò)技術(shù)、圖像識(shí)別等。