中圖分類號:TD528.1 文獻標志碼:A
Abstract: Inlow-illumination mine environments,conveyor belt foreign object detection algorithms suffer frominsufficient extractionof global image features andan excessive numberof model parameters.A method for detecting foreign objects on mine conveyor belts based on an improved version of YOLOv8swas proposed. YOLOv8s was improved using VMamba and MobileNetv4:MobileNetv4 was employed to enhance the backbone network by integrating the Universal Inverted Bottleneck (UIB) module.The efcient inverted residual structure reduced the overallnumber of model parameters,and a dynamic feature adaptation mechanism was used to strengthen feature robustness in smal-object scenarios.The core feature extraction and fusion module C2f was improved by VMamba's Visual State Space (VSS)module,which eficiently captured global contextual informationin images througha state space model and four-directional scanning mechanism,enhancing the model'sunderstanding of global imagestructure.Aparameter-sharing lightweight detection head was designed, using Group Normalization (GN)as the basic convolutional normalization block to compensate for accuracy loss caused by model lightweighting.Experimental results showed that the improved YOLOv8s model achieved an mAP@0.5 of 0.921and an mAP @ 0.5:0.95of 0.6o1 on aself-built dataset,reduced the number of parameters by
27.7% compared to original YOLOv8s, outperformed mainstream object detection models such as YOLOv11s and YOLOv10s, and met the requirements for foreign object detection on mine conveyor belts.
Key words: conveyor belt foreign object detection; YOLOv8s; VMamba; MobileNetv4; lightweight; group normalization
0引言
煤礦井下高負荷運行的輸送帶常處于昏暗環(huán)境,易混入錨桿、矸石等異物。若不及時清除,異物會損傷輸送帶,甚至卡死托輥軸承,導致設備停運,影響生產并威脅安全[1-2]。因此,對煤礦井下輸送帶進行高效的異物檢測至關重要。
當前,國內外學者針對礦用輸送帶異物檢測已開展了大量研究,其中基于深度學習的目標檢測方法成為研究熱點?;谏疃葘W習的目標檢測方法可分為雙階段和單階段。雙階段目標檢測具有較高的檢測精度[3-4],但其檢測速度相對較慢且模型復雜度較高,訓練成本大。單階段目標檢測速度更快,模型復雜度更低,更適用于礦井場景。單階段目標檢測算法主要包括SSD和YOLO系列[5-7],早期研究主要基于卷積神經網絡(ConvolutionalNeuralNetwork,CNN)對模型進行改進,在很多異物檢測任務中具有良好表現(xiàn),但在異物底層特征和較弱語義信息提取方面存在一定困難。隨著Transformer的發(fā)展,其表現(xiàn)出強大的全局建模能力,被應用于異物檢測。馬恒等8通過將殘差視覺網絡與高效多尺度注意力融合,在提升模型檢測精度的同時降低了網絡復雜度。高涵等[提出了一種基于低層級特征增強和Transformer機制的YOLOv7-tiny改進算法,提升了網絡對異物較弱語義特征信息提取能力。雖然使用Transformer對基礎網絡改進可以加強對圖像的全局信息捕捉能力,但是由于網絡復雜度高,會增大模型的訓練和部署成本。
本文提出一種基于改進YOLOv8s的礦用輸送帶異物檢測方法,利用VMamba[10-11]和MobileNetv4[12-13]對YOLOv8s進行改進,得到輕量化模型YOLOv8s-MMB,在降低模型參數(shù)量的同時提升模型檢測精度,以解決礦用輸送帶異物檢測在光線昏暗等復雜場景下精度低、模型計算復雜度高的問題。主要創(chuàng)新點: ① 為使模型更加適應邊緣設備,增強模型的可擴展性與靈活性,使用MobileNetv4作為模型的主干,以減少模型參數(shù)量,提高對小目標的特征提取能力。 ② 在礦井低照度環(huán)境中對圖像全局信息的提取不足,難以根據(jù)輸入特征圖動態(tài)分配權重,且參數(shù)量隨著通道數(shù)呈指數(shù)趨勢增長,針對該問題,提出使用
VMamba中的視覺狀態(tài)空間(Visual StateSpace,VSS)模塊代替Bottleneck,得到VMB模塊。 ③ 針對YOLOv8檢測頭結構過于復雜、所產生的參數(shù)量占比過大的問題,設計了參數(shù)共享輕量化檢測頭,使用分組歸一化(GroupNorm,GN)作為歸一化卷積基本塊,彌補模型輕量化所帶來的精度損失。
1方法原理
YOLOv8s-MMB異物檢測框架如圖1所示。將礦用輸送帶視頻監(jiān)控所采集到的圖像作為數(shù)據(jù)集,其中包含大塊煤矸石、錨桿等低光照場景下不同尺度的異物。圖像被調整為 640×640 大小后,經過由MobileNetv4改進的深層次主干網絡,對特征圖進行逐層下采樣的同時,通過通用逆瓶頸(UniversalInvertedBottleneck,UIB)模塊的彈性結構動態(tài)適配特征尺度,以增強模型對小尺度異物的特征提取能力。UIB層的輸出與Neck中上采樣的輸出進行多尺度特征融合,將融合后的特征圖輸人VMB模塊。VMB模塊通過其特有的四向掃描機制,使特征圖的每一個像素都可以關聯(lián)到周圍的其他像素,增強異物語義特征的表達能力和網絡對全局特征的捕捉能力,從而增強模型在低照度環(huán)境下對不同尺度異物的檢測能力。最后參數(shù)共享輕量化檢測頭接收不同尺度的特征圖,經過歸一化卷積層后傳遞到同一個卷積層,最終得到分類損失和回歸損失。模型經過訓練得到最優(yōu)模型訓練權重后,利用測試數(shù)據(jù)對訓練好的模型進行驗證。
1.1基于MobileNetv4的主干網絡
MobileNetv4作為最新的MobileNet模型,旨在為移動端部署設計通用高效的神經網絡模型,其核心改進包括UIB、適用于移動加速器的注意力塊(MultiQueryAttention,MQA)和改進的神經架構搜索(Neural ArchitectureSearch,NAS)。UIB結構如圖2所示,UIB通過添加2個可選的深度卷積層,實現(xiàn)了倒置瓶頸(InvertedBottleneck,IB)、ConvNext及前饋網絡(Feed-ForwardNetwork,F(xiàn)FN)的統(tǒng)一表達,提升了特征提取時的靈活性和效率,實現(xiàn)了動態(tài)特征適應。擴展端之前的深度卷積對輸入的每個通道分別進行卷積操作,提取低維特征,再經過 1×1 卷積將低維通道擴展至高維。位于擴展層和壓縮層之間的深度卷積繼續(xù)對擴展至高維的特征圖進行卷積操作,從而進一步增強主干的特征提取能力。
MobileNetv4包含3個版本:MobileNetv4-Small、MobileNetv4-Medium和MobileNetv4-Large,其中的MobileNetv4-Small最為輕量化,適用于算力較低的設備,因此本文采用MobileNetv4-Small。MobileNetv4通過高效倒置殘差結構,可在降低模型整體參數(shù)量的同時使網絡保持較高性能,從而使模型在資源受限的設備上仍然能夠處理比較復雜的視覺任務。
1.2 VMB模塊
YOLOv8的Neck部分對來自主干網絡不同階段的特征圖進行特征融合[14],其中C2f為Neck部分核心特征提取與融合模塊。雖然C2f在很多視覺任務上都有優(yōu)秀表現(xiàn),但其難以滿足輕量模型對硬件適配性和計算效率的要求。其結構中的Bottleneck通常由2個 3×3 卷積層構成,第1個卷積層按一定比例對輸人通道數(shù)進行縮減。特征圖輸入C2f后,首先會經過一個 1×1 卷積進行特征通道壓縮,若再經過Bottleneck的通道縮減,模型對圖像的特征提取能力就會明顯降低,且 3×3 卷積層的參數(shù)量會隨著通道
數(shù)呈平方增長。
VMB將C2f中的Bottleneck替換為VMamba中的VSS模塊,如圖3所示。VSS模塊在結構上采用雙分支結構,一個分支提取局部特征,另一個分支通過SS2D模塊建模全局依賴,在處理大尺寸圖像或需長距離上下文任務時能更高效地捕捉復雜特征。VSS模塊的核心為SS2D,其通過選擇性掃描方法,將輸入圖像塊沿著行和列展開成小塊,然后按照原本的順序排列成一維序列,將這些序列按照4個不同的方向進行掃描,確保了圖像中的每一個像素都能整合來自其他像素的信息,而不是僅局限于其周圍的像素。將每個掃描得到的序列分別通過狀態(tài)空間模型S6來重新構造序列。S6通過壓縮隱藏狀態(tài)與先前掃描的任何樣本進行交互,最后將這些信息整合在一起,獲得最終2D特征映射作為輸出。先進行四向掃描再進行S6處理的方法確保了模型可以捕捉到圖像的全局信息,并根據(jù)輸入動態(tài)調整權重,同時可以有效地將二次復雜度降為線性。
設 XC 為CBS的輸出, XC 首先通過Split沿通道維度平均分割成2份 (XS1,XS2) ,保留淺層特征。 Xs2 傳入 VSS模塊進行深層特征提取,得到 fv1 , fV2 ,…,fVn 。Concat將Split輸出及VSS提取的深層特征進行特征拼接,得到 Xn 。最后 Xn 通過CBS融合多尺度特征輸出 X0 。
VMB的計算公式為
XS1,XS2=Split(XC)
Xn=Concat(XS1,XS2,fV1,fV2,…,fVn)
X0=Conv1×1(Xn)
VMB模塊繼承了VSS模塊的優(yōu)勢,擁有更強的長距離依賴建模能力。傳統(tǒng)的Bottleneck依賴局部感受野,難以建模圖像中的全局或長距離依賴關系,尤其是在處理大目標或復雜背景時,VMB模塊通過繼承的狀態(tài)空間模型和四向掃描機制,可在使用較少參數(shù)的情況下,高效捕捉圖像中的全局上下文信息,增強模型對圖像全局結構的理解。VMB模塊避免了Bottleneck的靜態(tài)性(無法根據(jù)輸入內容動態(tài)調整特征響應),可通過選擇性掃描策略動態(tài)調整不同位置的特征重要性,在小目標檢測中能夠提升特征表達的魯棒性。
1.3參數(shù)共享輕量化檢測頭
YOLOv8采用的解耦頭結構,將分類任務和回歸任務分離為2個獨立的分支,每個分支由獨立的網絡進行處理:在每個檢測頭的分支中圖像信息都會經過2個CBS和1個 1×1 卷積。這種較為復雜的結構雖然在計算精度方面有很大優(yōu)勢,但參數(shù)量占據(jù)了整個網絡的 20%[15] 。針對該問題,本文設計了參數(shù)共享輕量化檢測頭,去除了每個分支的冗余結構,使得3個檢測頭的分類損失和回歸損失的輸入?yún)?shù)均來自同一個卷積層,以達到參數(shù)共享的效果。由于減少了卷積層數(shù)量,且每個分支輸入的參數(shù)不再獨立,檢測頭的檢測精度有所下降。為彌補精度損失,本文將原本卷積層CBS中的歸一化層BN[16替換為 GN[17] 。GN通過分組策略平衡通道間的獨立性與計算效率,規(guī)避了批量大小對網絡訓練帶來的影響,同時保留了空間特征的獨立性[18]
由于每個檢測頭所檢測的特征圖大小不一致,為平衡不同尺度特征圖對最終檢測結果產生的影響,通過可學習的縮放因子調整回歸值,以適配不同尺度的特征圖,在特征拼接時平衡不同尺度特征的貢獻。
2實驗分析
實驗環(huán)境:操作平臺為Ubuntu22.04;CPU型號為AMDEPYC·7402-24-CoreProcessor;GPU型號為GeForceRTX4090;系統(tǒng)內存為60GiB;顯存容量為24GiB;深度學習框架為Pytorch2.3.1;CUDA版本為12.4。參數(shù)設置:訓練批次大小為32,輸入圖像大小為 640×640 ,訓練輪次為400,優(yōu)化器為SGD,初始學習率為0.01,啟用YOLOv8所自帶的Mosaic圖像增強。
2.1 數(shù)據(jù)集
本文的數(shù)據(jù)集來自井下輸送帶的監(jiān)控視頻,輸送帶速率約為 5m/s ,截取了3089張圖像,其中包含異物的有2100張,異物包含錨桿、鋼筋等長條狀異物和煤矸石等大塊異物。將自建數(shù)據(jù)集中的異物標注為長條狀物體和大型物體2種標簽,其中標簽為長條狀物體有1750張,標簽為大塊物體有1253張。從中隨機選取2421張作為訓練集,442張作為測試集,226張作為驗證集。數(shù)據(jù)集大小見表1。數(shù)據(jù)集示例如圖4所示。
2.2 YOLOv8s改進效果驗證
為了驗證改進模型的有效性,采用YOLOv8s與YOLOv8s-MMB進行對比實驗,結果見表2。評價網絡模型的指標主要有精度 P 、召回率 R 、平均精度(AveragePrecision,AP)、均值平均精度(MeanAveragePrecision,mAP),本文主要使用 mAP@0.5 和 mAP@0.5:0.95 作為評價指標,其中 mAP(?0.5 表示當交并比閾值為0.5時模型的平均精度,mAP@0.5:0.95 指交并比閾值從0.5以0.05步長增加到0.95時的平均精度。
由表2可得,與原模型相比,YOLOv8s-MMB的精度上升 4.2% ,mAP@.5 上升 3.2% , mAP@0.5:0.95 上升 1.7% ,同時參數(shù)量減少了 27.7% 。
2.3 消融實驗
為驗證所改進的各模塊的有效性,設計了消融實驗,結果見表3。可看出當只添加MobileNetv4時,主干網絡減少了模塊間重復設計,避免了冗余的激活函數(shù)和歸一化層,并且有效利用了UIB的靈活架構,模型在指標幾乎沒有損失的情況下,整體參數(shù)量下降了 4.5% ;添加VMB模塊后,模型的參數(shù)量明顯減少, mAP@0.5 上升了 1.8% %,mAP@0.5:0.95 上升了
1.6% 。只添加參數(shù)共享輕量化檢測頭時,模型參數(shù)量同樣大幅減少,共減少 15.2% , mAP@0.5 上升了1.1% mAP@0.5:0.95 上升了 0.1% 。
為了進一步驗證改進模塊的有效性,另外設計了2組消融實驗,分別替換主干網絡、采用不同模塊與注意力機制并基于統(tǒng)一方法重構C2f模塊,在統(tǒng)一數(shù)據(jù)集上進行訓練與性能對比分析。
分別利用Swin Transformer架構[19]、ConvNextv2架構[20]、Vanillanet[21]、RepViT-M0.9[22]架構替換YOLOv8s主干網絡,結果見表4??煽闯霰疚哪P驮谳p量化上有較為明顯的優(yōu)勢。由于MobileNetv4設計以深度可分離卷積為核心,通過分離空間濾波與通道變換操作,使模型輕量化與高效特征提取之間達到平衡,因此 mAP@0.5:0.95 高于其他模型。
使用注意力機制卷積注意力模塊(ConvolutionalBlockAttention Module,CBAM)、Dattention[23]Transformer[24]、動態(tài)蛇形 卷積 Dynamic SnakeConvolution[25]及本文方法對C2f進行修改,結果見表5??煽闯鯲MB模塊在增強模型全局特征提取能力的同時,對模型也起到了輕量化的作用。
2.4對比實驗
為了進一步驗證改進模型的有效性,將其與YOLOv5s,YOLOv10s,YOLOv11s等經典目標檢測模型進行對比,檢測結果見表6??煽闯雠c主流模型相比,YOLOv8-MMB的 mAP@0.5 , mAP@0.5:0.95 都有較優(yōu)表現(xiàn);在輕量化方面,即使參數(shù)量高于YOLOv9s,YOLOv10s,但在精度上有明顯優(yōu)勢。
為了進一步驗證本文方法的誤漏檢情況和可靠性,設計了2組可視化對比實驗,使用YOLO系列模型與本文模型進行對比。
誤漏檢可視化對比結果如圖5所示。圖5(a)表明,在低照度復雜背景且存在多目標尺寸相似場景下,YOLOv5s,YOLOv10s,YOLOv11s等對比算法均出現(xiàn)漏檢或未檢出問題,而本文算法通過VMB模塊的選擇性機制動態(tài)調整權重,可以在低照度環(huán)境下有效抑制大量噪聲和冗余信息,因此可正確檢測出異物數(shù)量,并且標注的異物范圍也較準確。針對高長寬比細長目標(圖5(b))及小尺度細長自標(圖5(c))的檢測場景,YOLOv5s,YOLOv10s,YOLOv11s因特征表征能力不足導致漏檢率顯著上升,而本文算法通過MobileNetv4動態(tài)適應不同尺寸特征,有效提升了對細長目標邊緣特征的提取能力,實現(xiàn)了對復雜形態(tài)異物的穩(wěn)定檢出。在低照度復合干擾場景中(圖5(d)),對比算法受限于局部特征捕獲偏差,存在漏檢與誤檢問題,本文算法通過動態(tài)特征選擇實現(xiàn)了全目標檢出,并保持較高的分類準確性與定位精度,驗證了模型對復雜場景的魯棒性。
在不同照度條件且異物與背景相似情況下本文模型與YOLO系列模型的對比效果如圖6所示??煽闯鲈谡斩容^高的情況下,YOLOv5s和YOLOvl1s出現(xiàn)了個別漏檢。本文模型在保持全部正確檢出的前提下,預測框置信度為 0.7~0.9 ,高于其他模型;在照度較低的環(huán)境下,YOLOv5s,YOLOv10s,YOLOv11s
檢測置信度明顯降低,而本文模型由于引入了VMB模塊,可有效地建模圖像中較遠特征點之間的依賴關系,增強圖像的全局特征提取能力,因此在低照度環(huán)境中仍然能保持較高的置信度。
2.5熱力圖對比
為進一步驗證改進的有效性,通過熱力圖可視化呈現(xiàn)改進模型的特征提取效果,主干網絡與VMB模塊熱力圖如圖7所示。圖7(a)可以反映出改進主干網絡的特征提取能力,異物所在位置都呈現(xiàn)出更深且比較精準的顏色。圖7(b)反映出VMB模塊的特征提取能力,左側為VMB的輸入熱力圖,右側為VMB的輸出熱力圖,VMB通過將像素互相關聯(lián),增強了模型的全局上下文建模能力及較弱語義信息表達,提高了模型對異物邊緣特征的提取能力。
各模型檢測結果熱力圖對比如圖8所示??煽闯鯰ransformer對異物定位較準確,但需要龐大的參數(shù)量作為支撐。VMB模塊不僅對異物的邊緣輪廓和細節(jié)紋理都能準確提取,而且在輕量化方面優(yōu)于Transformer,所呈現(xiàn)的熱力圖的色彩范圍精確,顏色過渡自然。
3結論
1)針對煤礦井下設備計算資源受限且所在檢測環(huán)境復雜的情況,提出了一種基于改進YOLOv8s的礦用輸送帶異物檢測方法。使用MobileNetv4作為檢測模型的主干,以減少模型參數(shù)量,提高對小目標的特征提取能力;使用VMamba中的VSS模塊代替Bottleneck,得到VMB模塊,增強模型對圖像全局結構的理解;設計了參數(shù)共享輕量化檢測頭,使用GN作為歸一化卷積基本塊,彌補模型輕量化所帶來的精度損失。
2)實驗表明:改進YOLOv8s模型在自建數(shù)據(jù)集上的 mAP@0.5 達0.921, mAP@0.5:0.95 達0.601,參數(shù)量較YOLOv8s減少 27.7% ,性能優(yōu)于主流目標檢測模型YOLOv11s,YOLOv10s等,可以滿足礦用輸送帶異物檢測需求。
參考文獻(References):
[1]王學立,趙辰燃,李青,等.基于多模態(tài)的輸送帶撕裂 大模型算法設計[J].煤礦安全,2023,54(9):202-207. WANG Xueli,ZHAO Chenran,LI Qing, etal. Algorithmdesignof largemodel ofbelt tearing basedon multi-modality[J]. Safety in Coal Mines,2023,54(9): 202-207.
[2] 高敏,李玲,張輝,等.復雜環(huán)境下煤礦井下膠帶運輸 異物在線檢測算法優(yōu)化與分析[J].煤炭工程,2024, 56(6):174-180. GAOMin,LI Ling, ZHANGHui, et al. Optimization of online detection algorithm for foreign matters on belt conveyorinundergroundcoalmine[J]. Coal Engineering,2024,56(6): 174-180.
[3] 曹現(xiàn)剛,李虎,王鵬,等.基于跨模態(tài)注意力融合的煤 炭異物檢測方法[J].工礦自動化,2024,50(1):57-65. CAO Xiangang,LI Hu,WANG Peng,et al.A coal foreignobject detection method basedon crossmodal attention fusion[J]. Journal ofMine Automation,2024, 50(1):57-65.
[4]吳守鵬,丁恩杰,俞嘯.基于改進FPN的輸送帶異物 識別方法[J].煤礦安全,2019,50(12):127-130. WU Shoupeng,DING Enjie,YU Xiao. Foreign body identification of belt based on improved FPN[J].Safety in CoalMines,2019,50(12):127-130.
[5]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD: single shot multibox detector[C]. The l4th European Conference on Computer Vision,Amsterdam,2016: 21-37.
[6]郝帥,張旭,馬旭,等.基于CBAM-YOLOv5的煤 礦輸送帶異物檢測[J].煤炭學報,2022,47(11): 4147-4156. HAO Shuai, ZHANG Xu,MA Xu, et al. Foreign object detection in coal mine conveyor belt based on CBAMYOLOv5[J]. Journal of China Coal Society,2022, 47(11): 4147-4156.
[7] 王超,郝博南,張立亞,等.基于RetinaNet的煤礦井下 輸送帶異物檢測技術[J].煤礦機械,2022,43(12): 180-183. WANG Chao,HAO Bonan, ZHANG Liya, et al. Conveyor belt foreign object detection technology based on RetinaNet in underground coal mine[J]. Coal Mine Machinery,2022,43(12):180-183.
[8]馬恒,劉利燦,高科.融合多尺度特征的輕量化煤炭輸 送帶異物檢測方法[J].安全與環(huán)境學報,2024, 24(12):4617-4629. MA Heng,LIU Lican,GAO Ke. Multi-scale feature fusion methodfordetectingforeign objectson lightweight coal conveyor belts[J].Journal of Safety andEnvironment,2024,24(12):4617-4629.
[9]高涵,趙培培,于正,等.基于特征增強與 Transformer的煤礦輸送帶異物檢測[J].煤炭科學技 術,2024,52(7):199-208. GAOHan,ZHAOPeipei,YUZheng,etal.Coalmine conveyor belt foreign object detection based on feature enhancement and Transformer[J]. Coal Science and Technology,2024, 52(7): 199-208.
[10] LIU Yue, TIAN Yunjie, ZHAO Yuzhong, et al. VMamba: visual state space model [EB/OL]. [2025-03- 20]. https://doi.org/10.48550/arXiv. 2401.10166.
[11]WANG Yongqiang, LIANG Feng,WANG Shang, et al. Towards an efficient remote sensing image compression network with visual state space model[J].Remote Sensing,2025,17(3).DOI: 10.3390/rs17030425.
[12]QIN Danfeng,LEICHNER C,DELAKIS M,et al. MobileNetV4: universalmodelsforthemobile ecosystem[C].18th European Conference on Computer Vision,Milan,2024:78-96.
[13]XIAO Yao,GUO Yang,PANG Qinghao,et al. STarDETR:alightweightreal-timedetectiontransformerfor space targets in optical sensor systems[J].Sensors, 2025,25(4).DOI: 10.3390/s25041146.
[14]LIU Shu,QI Lu,QIN Haifang,et al. Path aggregation network for instance segmentation[C]. IEEE/CVF ConferenceonComputerVisionand Pattern Recognition,SaltLake City, 2018. DOI: 10.1109/CVPR.2018.00913.
[15]TIAN Zhi, SHEN Chunhua, CHEN Hao,et al. FCOS: fullyconvolutional one-stage object detection[C]. IEEE/CVF Intermational Conferenceon Computer Vision, Seoul, 2019:9626-9635.
[16]IOFFES, SZEGEDYC. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL].[2025-03-20].https://doi.org/ 10.48550/arXiv.1502.03167.
[17]WU Yuxin,HE Kaiming. Group normalization[J]. International Journal of Computer Vision, 2020,