沈科, 季亮, 張?jiān)疲?鄒盛
(1.中煤科工集團(tuán)常州研究院有限公司,江蘇 常州 213015;2.天地(常州)自動(dòng)化股份有限公司,江蘇 常州 213015)
我國(guó)已將煤炭清潔高效開(kāi)發(fā)利用作為能源轉(zhuǎn)型發(fā)展的立足點(diǎn)和首要任務(wù)[1],煤矸分選作為現(xiàn)代化煤礦清潔生產(chǎn)的重要環(huán)節(jié),為推動(dòng)煤炭清潔利用貢獻(xiàn)了力量。隨著智能檢測(cè)和機(jī)器人技術(shù)的發(fā)展,煤矸自動(dòng)化分選逐漸成為可行及具有前景的方案,其中,煤矸識(shí)別是煤矸自動(dòng)化分選方案的基礎(chǔ)環(huán)節(jié)。傳統(tǒng)的煤矸識(shí)別方法有射線識(shí)別法[2]、重介法[3]、硬度識(shí)別法[4]等,射線識(shí)別法的射線輻射強(qiáng)度大,重介法增加了重介質(zhì)的凈化回收工序,工藝流程相對(duì)復(fù)雜,硬度識(shí)別法對(duì)破碎力大小要求高且應(yīng)用理論研究少。
近年來(lái),機(jī)器視覺(jué)技術(shù)在煤矸識(shí)別領(lǐng)域應(yīng)用廣泛,主要分為圖像處理算法與深度學(xué)習(xí)算法2種。圖像處理算法[5-7]通過(guò)設(shè)計(jì)特定的卷積濾波器對(duì)煤矸的顏色、灰度、邊緣、輪廓等特征進(jìn)行提取,然后通過(guò)圖像分割算法檢測(cè)出煤矸目標(biāo),但實(shí)際應(yīng)用中需根據(jù)不同場(chǎng)景人為調(diào)整參數(shù),且算法魯棒性較差、實(shí)用性不強(qiáng)。深度學(xué)習(xí)算法識(shí)別率較高且魯棒性強(qiáng),在煤矸識(shí)別方面得到快速推廣[8-10]。在煤矸目標(biāo)檢測(cè)應(yīng)用中,王中舉等[11]提出了一種基于深度學(xué)習(xí)網(wǎng)絡(luò)的煤矸圖像分類(lèi)方法,識(shí)別率較高,但沒(méi)有進(jìn)行準(zhǔn)確的煤矸目標(biāo)位置和尺寸檢測(cè)。來(lái)文豪等[12]利用多光譜系統(tǒng)采集3個(gè)波段構(gòu)成偽RGB圖像數(shù)據(jù)集,再利用改進(jìn)后的YOLOv4[13]模型進(jìn)行煤矸目標(biāo)檢測(cè),但單幀檢測(cè)時(shí)間長(zhǎng)達(dá)4.18 s,無(wú)法實(shí)現(xiàn)煤矸實(shí)時(shí)檢測(cè)。本文在YOLOv5s[14]模型的基礎(chǔ)上,將自校正卷積網(wǎng)絡(luò)(Self-Calibrated Convolutions,SCConv)[15]嵌入到Y(jié)OLOv5s模型的Backbone區(qū)域中,刪除Neck和Prediction區(qū)域的19×19特征圖分支,對(duì)K-means算法聚類(lèi)得到的錨框進(jìn)行線性縮放,提出了一種改進(jìn)YOLOv5s模型,并將其應(yīng)用于煤矸目標(biāo)檢測(cè),在檢測(cè)速度和檢測(cè)精度上都有一定的提升。
基于改進(jìn)YOLOv5s模型的煤矸目標(biāo)檢測(cè)流程如圖1所示。具體步驟:在煤矸分選處進(jìn)行相機(jī)參數(shù)配置和啟動(dòng),采集實(shí)時(shí)圖像;采用改進(jìn)YOLOv5s煤矸目標(biāo)檢測(cè)算法讀取實(shí)時(shí)圖像并檢測(cè);將檢測(cè)到的所有矸石的坐標(biāo)信息傳給機(jī)械臂,機(jī)械臂執(zhí)行矸石分揀動(dòng)作;若相機(jī)終止采集,流程結(jié)束;反之,則繼續(xù)圖像采集。
圖1 基于改進(jìn)YOLOv5s模型的煤矸目標(biāo)檢測(cè)流程
YOLOv5s模型在YOLOv4模型的基礎(chǔ)上,主要實(shí)現(xiàn)了對(duì)模型大小和性能的靈活配置,同時(shí)引入最新的網(wǎng)絡(luò)模塊和訓(xùn)練技巧,如馬賽克數(shù)據(jù)增強(qiáng)、DropBlock機(jī)制、Hardswish激活函數(shù)、GIoU邊界框回歸損失等。YOLOv5s模型主要由輸入、Backbone、Neck、Prediction等區(qū)域組成,每個(gè)區(qū)域由CBL(Conv+BN+Leaky_Relu)、CSP(CBL+Res unit+Concat+BN+Leaky_Relu)、Focus、SPP等模塊構(gòu)成,如圖2所示。
圖2 YOLOv5s模型架構(gòu)
YOLOv5s的Backbone區(qū)域主要采用多組殘差模塊堆疊而成。然而,殘差模塊無(wú)法充分融合多尺度特征信息,因此,引入SCConv,SCConv是一種在不改變模型架構(gòu)的前提下,通過(guò)加強(qiáng)特征圖內(nèi)在通信,達(dá)到擴(kuò)增感受野效果的網(wǎng)絡(luò)組件。SCConv結(jié)構(gòu)如圖3所示,其中,C×H×W為輸入特征圖X的維度,X1,X2為被拆分后的特征圖,K1—K4為卷積核,F(xiàn)1—F4為處理后的特征圖,r為平均池化降采樣倍數(shù),Y1,Y2分別為分支1和分支2輸出的特征圖維度,Y為輸出的特征圖。SCConv按照通道維度分為2個(gè)分支,分支1利用下采樣來(lái)增大特征圖感受野,分支2用于常規(guī)的卷積操作,合并2個(gè)分支通道信息,從而增加模型的特征提取和表達(dá)能力。
圖3 SCConv結(jié)構(gòu)
本文將SCConv結(jié)構(gòu)嵌入YOLOv5s模型的Backbone區(qū)域,如圖4所示,在不明顯增加YOLOv5s模型復(fù)雜度的情況下,改善Backbone區(qū)域的特征提取能力。
圖4 改進(jìn)的Backbone結(jié)構(gòu)
YOLOv5s模型中的Neck區(qū)域采用多路徑結(jié)構(gòu)聚合特征,增強(qiáng)網(wǎng)絡(luò)特征融合能力。由于煤塊和矸石的尺寸相對(duì)整張圖像過(guò)小,使得Neck區(qū)域進(jìn)行大目標(biāo)檢測(cè)變得冗余。為提高模型檢測(cè)速度,對(duì)YOLOv5s模型Neck區(qū)域進(jìn)行適當(dāng)精簡(jiǎn),將其中擁有最大感受野、適合檢測(cè)較大尺寸對(duì)象的19×19特征圖分支進(jìn)行刪除,如圖5所示,從而降低模型復(fù)雜度并提高檢測(cè)實(shí)時(shí)性。
圖5 改進(jìn)的Neck和Prediction結(jié)構(gòu)
在YOLOv5s模型訓(xùn)練過(guò)程中,錨框集合是對(duì)數(shù)據(jù)集中的目標(biāo)邊界框進(jìn)行K-means算法聚類(lèi)生成的。由于Neck區(qū)域中刪除了預(yù)測(cè)大目標(biāo)的19×19特征圖分支,所以將聚類(lèi)的錨框數(shù)量由9組降低為6組。經(jīng)過(guò)標(biāo)準(zhǔn)K-means算法聚類(lèi)后獲得的6組錨框尺寸分別為(41,63),(47,94),(54,69),(54,51),(64,84),(64,120)。
通過(guò)K-means算法聚類(lèi)生成的錨框尺寸相對(duì)比較集中,有相當(dāng)一部分物體真實(shí)標(biāo)記框尺寸與K-means算法聚類(lèi)得到的錨框尺寸存在較大差異,聚類(lèi)得到的錨框尺寸無(wú)法很好地覆蓋數(shù)據(jù)集中絕大部分標(biāo)記框的真實(shí)尺寸,致使模型收斂較慢且很難達(dá)到最優(yōu)狀態(tài)。因此,將K-means算法聚類(lèi)生成的6組錨框進(jìn)行線性尺度縮放,縮放公式為
(1)
(2)
(3)
(4)
經(jīng)過(guò)縮放后的錨框尺寸分別為(20,31),(39,79),(62,80),(62,59),(96,126),(96,180)。
模型訓(xùn)練平臺(tái)為NVIDIA GeForce GTX 2080Ti,推理平臺(tái)為礦用本安型邊緣計(jì)算設(shè)備,該設(shè)備具有14TOPS算力。模型輸入圖像尺寸為608×608,通道為3。模型訓(xùn)練時(shí)設(shè)置動(dòng)量系數(shù)為0.937,權(quán)重衰減系數(shù)為0.000 5,學(xué)習(xí)率為0.01,學(xué)習(xí)率更新采用warm-up方法,批尺寸為16,訓(xùn)練迭代次數(shù)為300。
采集原始分辨率為1 280×960的圖像樣本526張,每張圖像包括的煤矸數(shù)量在4個(gè)以上,且含有煤矸堆疊和遮擋等情況,總計(jì)約3 000個(gè)煤矸目標(biāo)。為了降低人工標(biāo)注成本,使用輔助標(biāo)注工具對(duì)煤矸數(shù)據(jù)集進(jìn)行初步標(biāo)注,之后通過(guò)開(kāi)源工具LabelImg進(jìn)行可視化,完成煤矸數(shù)據(jù)集制作。實(shí)驗(yàn)過(guò)程中訓(xùn)練集和驗(yàn)證集分別包含373和77張圖像樣本,測(cè)試集包含76張圖像樣本。
為驗(yàn)證本文改進(jìn)YOLOv5s模型的檢測(cè)效果,在YOLOv5s模型基礎(chǔ)上進(jìn)行不同改進(jìn)來(lái)做對(duì)比實(shí)驗(yàn),結(jié)果見(jiàn)表1(FPS為每秒傳輸幀數(shù),mAP為平均精度均值)。可看出YOLOv5s模型大小為6.74 MB,測(cè)試集上的mAP為87.5%,F(xiàn)PS為30.5幀/s;YOLOv5s-SCC模型在Backbone區(qū)域嵌入SCConv網(wǎng)絡(luò)作為主干特征提取網(wǎng)絡(luò),在模型大小增加0.26 MB、FPS降低0.9 幀/s的前提下,mAP相較于YOLOv5s模型提高了0.7%,表明SCConv網(wǎng)絡(luò)能夠改善模型檢測(cè)精度;YOLOv5s-TA模型在Neck和Prediction區(qū)域刪除19×19特征圖分支,在模型大小降低1.69 MB、FPS增加3.2幀/s的前提下,mAP相較于YOLOv5s模型僅降低了0.7%,表明YOLOv5s-TA模型能夠提高模型檢測(cè)速度;YOLOv5s-DS模型對(duì)K-means算法聚類(lèi)生成的錨框進(jìn)行線性尺度縮放,在模型大小降低1.69 MB、FPS增加3.1幀/s的前提下,mAP相較于YOLOv5s模型僅降低了0.1%,表明YOLOv5s-DS模型在檢測(cè)精度趨于穩(wěn)定的前提下能夠提高模型檢測(cè)速度;改進(jìn)的YOLOv5s模型大小相較于YOLOv5s模型降低1.57 MB,F(xiàn)PS增加了2.1幀/s,且mAP提高了1.7%,表明改進(jìn)的YOLOv5s模型在檢測(cè)速度和檢測(cè)精度上均有提升。
表1 不同改進(jìn)YOLOv5s模型檢測(cè)結(jié)果對(duì)比
以精確率P為橫軸、召回率R為縱軸繪制YOLOv5s及4種改進(jìn)模型的P-R曲線(圖6),P-R曲線與橫縱坐標(biāo)圍成的面積即為平均檢測(cè)精度。由圖6可知,改進(jìn)YOLOv5s模型檢測(cè)精度最高,性能最優(yōu)。
圖6 各模型在煤矸識(shí)別測(cè)試集上的P-R曲線
煤矸目標(biāo)檢測(cè)結(jié)果如圖7所示。可看出改進(jìn)YOLOv5s模型能準(zhǔn)確檢測(cè)出相應(yīng)的煤塊和矸石,且檢測(cè)精度相較于YOLOv5s模型有所提升。
(a)YOLOv5s模型檢測(cè)結(jié)果
(1)在YOLOv5s模型的Backbone區(qū)域嵌入SCConv作為特征提取網(wǎng)絡(luò),解決了模型多尺度特征提取不充分問(wèn)題;刪除YOLOv5s模型的Neck和Prediction區(qū)域的19×19特征圖分支,有效降低了模型大?。粚?duì)通過(guò)K-means算法聚類(lèi)得到的錨框進(jìn)行線性縮放操作,提高了模型檢測(cè)精度。
(2)相較于YOLOv5s模型,改進(jìn)YOLOv5s模型大小降低了1.57 MB,減少了模型參數(shù),F(xiàn)PS增加了2.1幀/s,mAP提高了1.7%,表明改進(jìn)YOLOv5s模型在檢測(cè)速度和檢測(cè)精度上均有提升。