何凱, 程剛, 王希, 葛慶楠, 張輝, 趙東洋
(1.安徽理工大學 深部煤礦采動響應與災害防控國家重點實驗室,安徽 淮南 232001;2.安徽理工大學 機械工程學院,安徽 淮南 232001)
煤炭開采過程中夾雜的矸石不僅影響標煤的燃燒值,還會造成嚴重的環(huán)境污染[1-2],煤矸分選是提高煤質(zhì)、高效利用煤炭資源、實現(xiàn)綠色開采的重要途經(jīng)[3-4]。《關(guān)于“十四五”大宗固體廢棄物綜合利用的指導意見》中提出要大力發(fā)展綠色礦業(yè),推廣應用矸石不出井模式,實現(xiàn)“煤矸石井下充填+地面回填”[5-6]。煤礦井下煤矸分選及就地填充將是未來智慧礦山建設和綠色高效生產(chǎn)的發(fā)展趨勢。受煤礦井下空間小、開采擾動大、環(huán)境惡劣等因素的影響,傳統(tǒng)煤矸分選方式在煤礦井下的適用性較低且不宜推廣。因此,研究煤礦井下智能化分選意義重大,而煤矸的分類、識別是實現(xiàn)井下智能化分選的重要前提。
目前國內(nèi)外學者針對煤矸智能識別、分選展開了多方面研究。Pu Yuanyuan等[7]基于遷移學習技術(shù)改進VGG16網(wǎng)絡識別模型,優(yōu)化了全連接層參數(shù),減少了訓練時間,但煤矸識別準確率較低。雷世威等[8]通過改進加深YOLOv3模型的網(wǎng)絡結(jié)構(gòu),增強了煤矸特征提取能力,提高了檢測精度。徐志強等[9]基于深度神經(jīng)網(wǎng)絡構(gòu)建了煤矸圖像識別模型,經(jīng)剪枝優(yōu)化后,減小了模型大小,同時提升了識別精度。郭永存等[10]針對小目標煤矸樣本提出一種融合遷移學習與結(jié)構(gòu)優(yōu)化的煤矸識別方法,構(gòu)建了多尺度煤矸的高效識別模型。李博等[11]通過采集模擬生產(chǎn)環(huán)境下煤矸圖像樣本數(shù)據(jù),研究了光照、淋水、粉塵環(huán)境對煤矸石圖像特征的影響。趙明輝[12]提出了CornerNet Squeeze網(wǎng)絡模型,依據(jù)圖像灰度直方圖的三階矩陣特征參數(shù)進行煤矸分類,提高了存在背景干擾情況下的煤矸識別準確率。沈科等[13]提出了一種改進YOLOv5s模型,提高了煤矸識別的速度和精度。張磊等[14]采集選煤廠生產(chǎn)環(huán)境中的煤矸樣本圖像作為輸入,通過對比實驗發(fā)現(xiàn)5種基于YOLOv5s模型的改進算法在識別具有運動模糊、低照度特征的小目標煤矸圖像時,識別精確率下降明顯。
基于可見光成像的煤矸識別方法在獲取煤矸圖像時易受到光源、噪聲、震動和物料表面等不確定因素影響。而在實際煤礦井下分選場景中,普遍存在高噪聲、低照度、運動模糊等干擾因素,影響獲取的煤矸圖像質(zhì)量,導致現(xiàn)有的煤矸可見光圖像識別方法對圖像中煤矸特征的提取能力急劇下降。此外,在煤矸輸送過程中易出現(xiàn)煤矸目標聚集與粘連問題,進一步影響算法對煤矸目標分類與定位的準確性。
針對上述問題,本文在YOLOv5s模型的基礎上進行改進,提出一種基于CED-YOLOv5s模型的煤矸石識別方法。通過引入坐標注意力(Coordinate Attention,CA)模塊來提高模型在煤礦復雜背景中對目標關(guān)鍵特征的提取能力,采用EIoU邊界損失函數(shù)和輕量化解耦頭(Decoupled_Detect)來提高模型在目標聚集、背景干擾情況下的分類定位能力。
YOLOv5s是一種單階段目標檢測模型,由輸入端(Input)、主干網(wǎng)絡(Backbone)、頸部網(wǎng)絡(Neck)與檢測頭(Head)4個部分組成,具有檢測速度快、靈活度高、模型易部署的特點。輸入端主要進行圖像數(shù)據(jù)增強、自適應錨框計算等預處理操作。主干網(wǎng)絡采用CSP-Draknet53網(wǎng)絡進行特征提取,主要由CBL、C3、快速空間金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)3個子模塊組成。其中CBL模塊是由卷積層(Conv)、批量歸一化層(Batch Normalization,BN)、SiLU激活函數(shù)組成的基本卷積單元,用于增強網(wǎng)絡的非線性表達能力;C3模塊由3個標準卷積層及多個BottleNeck模塊組成,采用殘差網(wǎng)絡框架提升模型的特征提取能力和表達能力;SPPF模塊由CBL模塊及串行池化層組成,用于拼接不同感受野的特征圖。頸部網(wǎng)絡采用特征金字塔網(wǎng)絡(Feature Pyramid Network,F(xiàn)PN)[15]和路徑聚合網(wǎng)絡(Path Aggregation Network,PAN)[16]雙層架構(gòu)進行特征融合。檢測頭使用3種不同尺度的檢測層對大、中、小目標進行檢測,并輸出目標類別與目標框回歸結(jié)果。
CED-YOLOv5s模型是在YOLOv5s的基礎上進行了改進。首先,在主干網(wǎng)絡中引入CA模塊,提高模型在煤礦復雜背景中對目標關(guān)鍵特征的提取能力;然后,在檢測頭部分采用EIoU作為模型回歸損失函數(shù),以加快收斂速度,提升模型的檢測性能和抗干擾能力;最后,使用輕量化的解耦頭替換原模型的耦合頭(Coupled_Detect),以提高模型的檢測精度和抗干擾能力。CED-YOLOv5s模型結(jié)構(gòu)如圖1所示。
圖1 CED-YOLOv5模型結(jié)構(gòu)Fig.1 CED-YOLOv5 model structure
受到煤礦井下實際分選場景的復雜工況影響,所采集到的煤矸圖像丟失了大量紋理特征信息,使得YOLOv5s的主干網(wǎng)絡難以提取到煤矸的有效特征。為提高YOLOv5s模型對煤矸目標關(guān)鍵特征信息的提取能力,在其主干網(wǎng)絡中引入CA機制[17]。CA機制是一種高效的注意力機制,通過將坐標信息嵌入信道關(guān)系和長程依賴關(guān)系中對特征圖進行編碼。相較于傳統(tǒng)注意力機制,CA機制能夠充分利用通道注意力信息和空間注意力信息,使模型更加關(guān)注重要特征,抑制無用信息。CA模塊結(jié)構(gòu)如圖2所示,Cr為聚合后的通道。
圖2 CA模塊結(jié)構(gòu)Fig.2 Structure of coordinate attention
對于輸入尺寸為C×H×W(通道數(shù)×高×寬)的特征圖,使用尺寸為(H,1)和(1,W)的池化核分別沿橫軸X和縱軸Y對每一個通道進行編碼,生成水平方向尺寸為C×H×1的特征圖Z w和豎直方向尺寸為C×1×W的特征圖Zh。
式中:zhc(h),zwc(w)分別為高度變量h和寬度變量w在第c個通道的特征輸出;xc(h,i)為輸入特征第c個通道的第h行第i列的數(shù)值;xc(j,w)為輸入特征第c個通道的第j行第w列的數(shù)值。
利用一維池化操作將生成的2個特征圖在空間維度上進行特征聚合,生成一對方向可知的特征圖,使得注意力模塊在獲取一個空間方向長程關(guān)系的同時,還保留另一個空間的空間位置信息。將2個空間方向的特征圖進行拼接,使用1×1卷積函數(shù)F1對通道數(shù)C進行壓縮,歸一化處理后,再通過非線性激活函數(shù)δ進行特征轉(zhuǎn)化,得到特征圖:
將特征圖?沿空間維度再拆分為沿水平方向和豎直方向的特征圖?h,?w,分別利用1×1卷積函數(shù)Fh和Fw將通道數(shù)擴展回C,再用Sigmoid激活函數(shù)σ得到水平和豎直方向的特征張量gh和gw:
將輸出的gh和gw分別擴展、相乘并作為注意力權(quán)重,再與輸入特征I相乘,得到添加CA模塊后的輸出特征O:
坐標注意力機制強調(diào)了水平與垂直方向的位置信息,使得特征提取網(wǎng)絡能獲得更大區(qū)域的信息,避免無效冗余信息對識別準確率的影響及更多的計算開銷。
邊界框回歸損失函數(shù)是目標檢測中預測邊界框與真實邊界框之間差異的度量指標,在目標檢測中起關(guān)鍵作用。YOLOv5s中采用CIoU函數(shù)作為回歸損失函數(shù)[18],其考慮了預測框和目標框之間交并比、中心距離和寬高比等因素影響,相較于傳統(tǒng)的損失函數(shù)有良好表現(xiàn),但是依賴于邊界框回歸指標的聚合,無法準確描述真實框和預測框?qū)捀咧g的差異,易造成預測框回歸不準確,降低網(wǎng)絡模型的收斂性和訓練效率。在井下實際分選場景中,煤矸石易發(fā)生聚集與粘連現(xiàn)象,使得YOLOv5s模型對煤矸目標的定位能力急劇下降。為解決該問題,本文采用EIoU函數(shù)[19]代替CIoU函數(shù),以增強目標的位置和邊界信息,提升模型對煤矸石的定位精度。EIoU計算公式為
式中:LIoU,Ldis,Lasp分別為重疊損失、距離損失和寬高損失;U為預測邊界框與真實邊界框的交并比;s,sw,sh分別為能包裹兩框最小外接矩形的對角線長度、寬和高;ρ1為預測邊界框與真實邊界框中心點距離;ρ2為預測邊界框與真實邊界框的寬的差值;ρ3為預測邊界框與真實邊界框的高的差值。
EIoU損失函數(shù)將目標框與錨框的寬高差異最小化,考慮了重疊面積、中心點距離及寬、高、邊長的真實差異,使模型在回歸過程中專注高質(zhì)量錨框,加快模型收斂速度,使回歸預測更精確,同時保持較強的抗干擾能力。
YOLOv5s模型中,檢測頭采用的是耦合頭部,分類任務和回歸任務以共享權(quán)重的方式實現(xiàn)。分類任務主要考慮的是煤矸樣本間的差異,而回歸任務考慮更多的是煤矸圖像的邊界信息。這種聯(lián)合處理方式會造成分類任務和回歸任務之間相互干擾[20-21],從而造成檢測模型的性能損失。為解決耦合預測頭中分類任務與回歸任務的矛盾,提升井下實際分選場景中算法的定位能力和識別精度,本文參考YOLOX[22]算法中的解耦頭,并對其進行輕量化改進,解耦頭可解耦出單獨的特征通道,分別用于分類和回歸任務。輕量化解耦頭結(jié)構(gòu)如圖3所示。
圖3 解耦頭結(jié)構(gòu)Fig.3 Decoupled head structure
解耦頭首先對不同維度的輸入特征圖進行1×1卷積,使得多個輸入特征圖獲得相同的通道維度;將特征圖輸入2個并行分支中同步進行分類與回歸任務,每個分支都包含2個用于特征提取的3×3卷積;通過1個1×1卷積進行通道整合,得到分類、回歸和目標3個輸出。解耦頭將分類和回歸任務解耦,解決了傳統(tǒng)耦合頭分類與回歸任務間的沖突問題,但其新增了多個卷積模塊,使得模型計算量大幅提升。針對該問題,本文在YOLOX解耦頭基礎上進行了精簡設計:刪除輸入部分的1×1卷積模塊,采用模型主干網(wǎng)絡與頸部網(wǎng)絡的寬度系數(shù)對解耦頭的通道維度進行共同縮放;在分類與回歸分支中各刪除1個3×3卷積模塊,以最大程度降低網(wǎng)絡優(yōu)化難度,在不增加計算成本的情況下提高檢測性能。
通過煤矸圖像采集實驗臺(圖4)采集分辨率為2 448×2 048的不同大小和形態(tài)的煤矸組合圖像,共獲取原始圖像617張。為模擬井下分選現(xiàn)場的復雜環(huán)境,提高算法的魯棒性與泛化性,以旋轉(zhuǎn)、添加噪聲、圖像模糊及亮度調(diào)節(jié)等方式進行數(shù)據(jù)增強,對原始數(shù)據(jù)集進行擴充,最終得到3 085張樣本圖像,使用Labelimg工具對圖像進行標注,將標注好的圖像按照8∶2的比例劃分為訓練集和驗證集。
圖4 煤矸圖像采集實驗臺Fig.4 Experimental platform for coal gangue image acquisition
實驗硬件設備為Intel(R) Xeon(R) Platinum 8350C CPU@2.60 GHz處理器,64 GiB內(nèi)存,NVIDIA GeForce RTX 3090顯卡,顯存大小為24 GiB。軟件環(huán)境為ubuntu20.04操作系統(tǒng)、python3.8、pytorch1.11.0深度學習框架,cuda版本為11.3。設定訓練輪次為301,批量大小為32,圖像輸入尺寸為640×640,采用隨機梯度下降法進行模型優(yōu)化,以防止模型陷入局部最優(yōu)解。此外,采用余弦學習率衰減方法,初始學習率為0.01。
為驗證改進模型的有效性,選用精確率P、召回率R、平均精度均值(mean Average Precision,mAP)、每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)、模型權(quán)值文件體積(Volume)和平均檢測時間T作為評價指標。其中P,R,mAP用于衡量模型檢測性能;Volume用于衡量模型復雜程度;FPS和T用于衡量實時檢測速度。相關(guān)評價指標的計算公式為
式中:TP為檢測結(jié)果為正的目標數(shù);FP為誤檢為正確的目標數(shù);FN為漏檢的目標數(shù);AP為平均精度;APk為第k個類別下的平均精度;n為總類別數(shù)。
為驗證各改進模塊對YOLOv5s模型的性能影響,設計了消融實驗,各組實驗采用相同的超參數(shù)設置,消融實驗結(jié)果見表1。模型A為原YOLOv5s網(wǎng)絡模型,模型B在模型A基礎上引入了CA模塊,模型C在模型B的基礎上引入了EIoU損失函數(shù),模型D在模型C的基礎上引入了輕量化解耦頭結(jié)構(gòu)。模型A-D的mAP迭代收斂曲線如圖5所示。
表1 消融實驗結(jié)果Table 1 Results of ablation experiments
圖5 消融實驗mAP曲線Fig.5 mAP curves of ablation experiment
1) 模型A→模型B:將CA模塊添加至YOLOv5s模型中,目的是提高對圖像關(guān)鍵信息的提取能力,避免復雜的背景信息干擾。實驗結(jié)果表明,引入CA機制后,模型B的mAP曲線在50輪迭代后逐漸上升并高于模型A的mAP曲線,mAP值從91.7%提升到93.2%,精確率P和召回率R分別提升了1.2%和2.2%,平均檢測時間縮短了1.6 ms,檢測精度和速度都有明顯提升。
2) 模型B→模型C:用EIoU損失函數(shù)替換YOLOv5s模型的CIoU損失函數(shù),目的是提高模型的定位精度和預測框收斂速度。實驗結(jié)果表明,引入EIoU損失函數(shù)后,模型C的mAP曲線收斂速度明顯加快,在第75輪后逐漸上升并高于模型B的mAP曲線,mAP值從93.2%提升到93.9%,有效提高了算法模型的檢測精度。
3) 模型C→模型D:引入輕量化解耦頭的目的是拆分分類任務與回歸任務,解決二者間的計算沖突;刪除部分卷積層的目的是避免因參數(shù)量過度增加而影響最終檢測效率。實驗結(jié)果表明,引入輕量化解耦頭結(jié)構(gòu)后,模型D的mAP曲線在50輪迭代后逐漸上升并高于模型C的mAP曲線,mAP值從93.9%提升到94.8%,檢測速度與模型A基本保持一致,在不影響檢測速度的前提下,進一步提升了檢測精度。
模型改進后,復雜程度相應增加,從而造成模型Volume增加和FPS降低,為進一步驗證CEDYOLOv5s模型的有效性和性能優(yōu)勢,在相同的數(shù)據(jù)集與實驗設備下,選用5種YOLO系列目標檢測模型YOLOv5n,YOLOv5s,YOLOv5l,YOLOv7-tiny,YOLOv7與CED-YOLOv5s模型進行對比實驗。
為了直觀展示對比模型之間的實際檢測效果,分別使用6種模型對正常、運動模糊、噪聲與低照度4種工況環(huán)境下的煤矸聚集樣本圖像進行檢測,并提供初始人工標注結(jié)果(圖6)作為參考,圖6中煤的表面呈現(xiàn)黑色光亮且具有少數(shù)裂紋,用紅框標注,而矸石表面則暗淡粗糙且呈現(xiàn)黑灰色,用藍框標注。對比實驗結(jié)果見表2。
表2 對比實驗結(jié)果Table 2 Comparative experimental results
圖6 初始人工標注結(jié)果Fig.6 Initial manual annotation results
從檢測精度、檢測速度和復雜程度3個方面對6種檢測模型進行對比。
1) 檢測精度:CED-YOLOv5s模型的mAP值為94.8%,在6種算法中最高,相較YOLOv5n,YOLOv5s,YOLOv5l,YOLOv7-tiny,YOLOv7分別高6%,3.1%,1.7%,5.7%,0.9%,表明CED-YOLOv5s模型的檢測精度具有明顯優(yōu)勢。
2) 檢測速度:CED-YOLOv5s與YOLOv5s模型的FPS相差不大,檢測速度快于YOLOv5l和YOLOv7模型,能充分滿足實時目標檢測任務需求(≥60 幀/s)。此外,雖然YOLOv5n模型檢測速度較快,但檢測精度遠低于CED-YOLOv5s模型,難以適應復雜工況下的煤矸分選任務。
3)復雜程度:CED-YOLOv5s模型相較于YOLOv5s使用了更復雜的結(jié)構(gòu),所以在權(quán)值文件大小上有少量提升。對比mAP較高的YOLOv5l與YOLOv7模型,CED-YOLOv5s模型權(quán)值文件大小僅為YOLOv5l與YOLOv7模型的26.5%和32.8%,而FPS為YOLOv5l與YOLOv7的120.5%和144.2%,優(yōu)勢較為明顯。
選取部分檢測結(jié)果進行可視化呈現(xiàn),如圖7所示。正常環(huán)境下,CED-YOLOv5s模型對煤和矸石的檢測置信度得分較高,檢測效果最佳。在噪聲環(huán)境中,YOLOv5s與YOLOv7-tiny模型均出現(xiàn)預測回歸框不準確現(xiàn)象,YOLOv5n模型出現(xiàn)了多處誤檢。在低照度環(huán)境中,YOLOv5l模型出現(xiàn)預測回歸框不準確現(xiàn)象。在運動模糊環(huán)境中,YOLOv5s模型出現(xiàn)誤檢與預測回歸框不準確現(xiàn)象,YOLOv7-tiny模型在多處出現(xiàn)了預測回歸框不準確現(xiàn)象。而在上述復雜工礦環(huán)境的檢測任務中,CED-YOLOv5s模型均未出現(xiàn)誤檢、漏檢及預測回歸框不準確的問題,且置信度得分整體較高。
圖7 不同算法在4種工況環(huán)境下的部分檢測結(jié)果Fig.7 Partial detection results of different algorithms under four operating conditions
綜合衡量不同的檢測模型,CED-YOLOv5s模型在少量增加模型權(quán)值文件大小的前提下,獲得了顯著的精度提升,兼顧了檢測精度與速度,具有較大的優(yōu)勢。
1) 提出一種基于CED-YOLOv5s模型的煤矸石識別方法。通過引入CA機制,提高了煤礦井下復雜分選環(huán)境中煤矸關(guān)鍵特征的提取能力,提升了識別精度與速度;使用EIoU回歸損失函數(shù)替換CIoU損失函數(shù),提高了模型在煤矸目標聚集情況下的定位能力,從而提高了模型的收斂速度及邊界框預測回歸精度;將原模型的耦合頭替換為輕量化解耦頭,在兼顧檢測速度的前提下,顯著提高了復雜背景與煤矸聚集影響下的煤矸識別精度。
2) 構(gòu)建不同工況下的煤矸目標數(shù)據(jù)集,進行了消融實驗與對比實驗。消融實驗結(jié)果表明,各改進模塊對模型檢測精度的提升均有貢獻,CED-YOLOv5s模型的平均檢測精度在YOLOv5s模型的基礎上提升了3.1%。對比實驗結(jié)果表明,與其他5種YOLO系列檢測模型相比,CED-YOLOv5s模型對不同工況下的檢測任務適應性最強,綜合檢測性能最佳。