饒毅,王魯,趙亞軍,王泓博
(1.貴州黔源電力股份有限公司,貴州 貴陽(yáng) 550000;2.南京南自信息技術(shù)有限公司,江蘇 南京 210031)
針對(duì)數(shù)字式儀表的識(shí)別方法,主要可以分為傳統(tǒng)圖像處理和深度學(xué)習(xí)方法。傳統(tǒng)圖像處理方法主要有基于HSV 空間的H 分量去定位圖像中的數(shù)字符號(hào)?;蛘呃脭?shù)字儀表字符的特點(diǎn),以數(shù)碼管作為特征進(jìn)行數(shù)字識(shí)別。但隨著對(duì)深度學(xué)習(xí)的研究深入,以YOLO 系列和SSD 系列為代表的一階段檢測(cè)器和以RCNN 系列為代表的二階段檢測(cè)器的快速發(fā)展。更多學(xué)者研究通過(guò)深度學(xué)習(xí)算法對(duì)數(shù)字儀表區(qū)域進(jìn)行定位和識(shí)別,使用深度學(xué)習(xí)算法可以有效降低復(fù)雜環(huán)境對(duì)識(shí)別的干擾,但相對(duì)的深度學(xué)習(xí)的算法往往結(jié)構(gòu)復(fù)雜且計(jì)算量大,因此,對(duì)于電廠大多數(shù)算力有限的設(shè)備往往會(huì)部署困難。
YOLOv5 是YOLO 系列檢測(cè)器中的第5 個(gè)版本,它有YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x 四個(gè)模型。其中YOLOv5s 模型最小,檢測(cè)速度最快,因此非常適合邊緣端部署,但同時(shí)檢測(cè)精度也最低。
本文擬基于最便于部署的YOLOv5s 模型,通過(guò)改進(jìn)算法提高識(shí)別精度,以便于針對(duì)電廠環(huán)境可以更好地完成檢測(cè)任務(wù)。最后,在電廠現(xiàn)場(chǎng)應(yīng)用中實(shí)際驗(yàn)證本文改進(jìn)YOLOv5 算法的有效性。
YOLOv5 采 用CSPDarknet53 架 構(gòu) 加SPP 層 作 為Backbone, 搭 配PANet 作 為Neck, 再 以YOLO 結(jié) 構(gòu)為Prediction。我們提出的改進(jìn)YOLOv5 算法計(jì)劃在Backbone 中加入CBAM 注意力模塊提高對(duì)小目標(biāo)的識(shí)別精度,在Neck 中替換使用BiFPN 結(jié)構(gòu)來(lái)加強(qiáng)特征聚合進(jìn)一步提升網(wǎng)絡(luò)特征融合能力。
改進(jìn)的YOLOv5 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 改進(jìn)YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)示意圖
Input:采用多種數(shù)據(jù)增強(qiáng)方法,如幾何失真對(duì)圖像進(jìn)行隨機(jī)縮放、裁剪、旋轉(zhuǎn)等;光度失真可以調(diào)整圖像的亮度、色度、對(duì)比度以及加入噪點(diǎn);Mosaic 增強(qiáng)可以隨機(jī)縮放、拼接,可以豐富數(shù)據(jù)集樣本,提高識(shí)別的成功率。
Backbone(骨干網(wǎng)絡(luò)):采用了Focus、CBAM、CSP和SPP 結(jié)構(gòu)。Focus 首先復(fù)制自己然后進(jìn)行切片操作,原始輸入圖片尺寸為608×608×3 經(jīng)過(guò)切片操作變?yōu)?04×304×12,從而加快網(wǎng)絡(luò)推理速度;CBAM 是一種輕量級(jí)的注意力模塊,能直接集成進(jìn)YOLOv5 架構(gòu)中,有效加強(qiáng)骨干網(wǎng)絡(luò)提取小目標(biāo)的特征。CBAM 結(jié)構(gòu)示意圖如圖2 所示。
圖2 CBAM 注意力模塊
如圖2 所示,CBAM 模塊擁有通道和空間兩個(gè)維度的注意力機(jī)制,將輸入特征與注意力映射相乘,從而細(xì)化特征。集成CBAM 可以有效提升網(wǎng)絡(luò)對(duì)識(shí)別任務(wù)不同細(xì)粒度目標(biāo)的識(shí)別精度;CSP 的殘差結(jié)構(gòu)可以優(yōu)化訓(xùn)練時(shí)的梯度傳導(dǎo)同時(shí)也可以減少推理的計(jì)算量。在我們的改進(jìn)的YOLOv5 的網(wǎng)絡(luò)結(jié)構(gòu)中骨干網(wǎng)絡(luò)使用了CSP1_X 結(jié)構(gòu),而Neck 使用了CSP2_X 結(jié)構(gòu);SPP 是空間金字塔結(jié)構(gòu)通過(guò)concat 來(lái)融合直連和尺寸分別為5、9、13 的最大池化以提升感受野范圍。
Neck( 頸部網(wǎng)絡(luò)):使用BiFPN 結(jié)構(gòu)代替原來(lái)的PANet 結(jié)構(gòu),以雙向交叉的連接方式融合特征從而提高識(shí)別精度。BiFPN 網(wǎng)絡(luò)相比PANet 集成了雙向交叉和加權(quán)融合,是一種更加高效的多尺度特征融合網(wǎng)絡(luò)結(jié)構(gòu)(FPN)。原始的PANet 是基于FPN+PAN 結(jié)構(gòu),通過(guò)自頂向下加強(qiáng)語(yǔ)義特征,自底向上加強(qiáng)定位特征,利用不同檢測(cè)層的特征進(jìn)行融合,但這樣計(jì)算量大同時(shí)自底向上時(shí),輸入特征沒(méi)有融入骨干網(wǎng)絡(luò)的原始輸出。因此本文提出BiFPN 代替PANet 的方案。BiFPN 的結(jié)構(gòu)如圖3 所示,BiFPN 跨越連接來(lái)去除PANet 中對(duì)特征融合共享小的節(jié)點(diǎn),同時(shí)在同一尺度下增加一個(gè)跳躍鏈接連接輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn),以此在減少計(jì)算成本同時(shí)融合更多特征。
圖3 BiFPN 網(wǎng)絡(luò)結(jié)構(gòu)
Prediction:采用GIOU 作為邊界框的損失函數(shù),來(lái)預(yù)測(cè)值與真實(shí)值的誤差,來(lái)解決邊界框不重合的問(wèn)題;并提供3 種檢測(cè)尺度(76×76、38×38、19×19);另外,采用傳統(tǒng)的非極大值抑制(NMS)舍棄得分低的預(yù)測(cè)框,保留得分最高的預(yù)測(cè)量,從而降低錯(cuò)檢漏檢的風(fēng)險(xiǎn)。
當(dāng)本文以某發(fā)電廠的數(shù)字式電表箱為目標(biāo)拍攝采集多組相關(guān)圖像,發(fā)現(xiàn)電廠現(xiàn)場(chǎng)存在諸多問(wèn)題,如電表箱型號(hào)多樣大小不一,攝像頭的拍攝角度和光照情況不同,電表屏幕有發(fā)光、污漬、陰影,各類儀表的字體顏色查表較大等各種復(fù)雜問(wèn)題,對(duì)我們的改進(jìn)YOLOv5 識(shí)別算法提出了很大的挑戰(zhàn)。
為了增加識(shí)別準(zhǔn)確率,我們深入現(xiàn)場(chǎng),調(diào)用高清晰攝像頭采集捕捉電廠電表箱中各類數(shù)字儀表圖片并進(jìn)行數(shù)據(jù)清洗與數(shù)據(jù)增強(qiáng),總共得到10000 張圖片,其中8000 張圖片用于數(shù)字儀表識(shí)別模型訓(xùn)練,剩下的2000張圖片用于圖片識(shí)別的測(cè)試。
為了驗(yàn)證YOLOv5 改進(jìn)后的檢測(cè)效果,本文網(wǎng)絡(luò)訓(xùn)練 環(huán) 境 為:Window10 系 統(tǒng)、Pytorch 1.12.1 框 架、CPU 為Intel Xeon Silver 4214、GPU 為 四 張Nvidia Tesla V100,從而對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練、測(cè)試實(shí)驗(yàn)。訓(xùn)練參數(shù)設(shè)置見(jiàn)表1,總迭代次數(shù)為500 次。
表1 網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)置
經(jīng)過(guò)測(cè)試,該改進(jìn)YOLOv5 模型有較好的準(zhǔn)確率,且對(duì)小數(shù)點(diǎn)敏感,對(duì)于實(shí)際電廠采集的測(cè)試圖片識(shí)別率為95%以上。實(shí)際識(shí)別效果如圖4 所示,由于攝像頭安裝位置較高,數(shù)據(jù)集中大多數(shù)圖片都存在傾斜形變和少部分儀表讀數(shù)被箱體遮擋的現(xiàn)象。從結(jié)果來(lái)看,本文提出的算法模型對(duì)傾斜形變的數(shù)字儀表示數(shù)依然有很高的識(shí)別精度,但遺憾的是對(duì)遮擋的數(shù)字示數(shù)因?yàn)榫鹊投环菢O大值抑制濾除從而無(wú)法定位與識(shí)別讀數(shù)。
圖4 電廠數(shù)字電表讀數(shù)識(shí)別效果圖
本文研究了一種改進(jìn)的YOLOv5 的電廠數(shù)字儀表識(shí)別算法,在骨干網(wǎng)絡(luò)中添加CBAM 模塊強(qiáng)化了網(wǎng)絡(luò)對(duì)小目標(biāo)特征提取能力,在頸部網(wǎng)絡(luò)用BiFPN 網(wǎng)絡(luò)替換原來(lái)的PANet 網(wǎng)絡(luò)結(jié)構(gòu),減少計(jì)算量的同時(shí)也增強(qiáng)了對(duì)特征的融合利用。本文在實(shí)際的發(fā)電廠的數(shù)字電表測(cè)試中,有95%以上的識(shí)別精度,同時(shí)魯棒性強(qiáng),擁有對(duì)傾斜形變的檢測(cè)能力,后續(xù)工作將致力于對(duì)遮擋示數(shù)的預(yù)測(cè)。