引言
隨著智慧城市建設的加速推進,垃圾分類處理已成為城市環(huán)境治理的重要環(huán)節(jié),智能化技術成為解決效率瓶頸的關鍵路徑。但在實際應用場景中,智能分揀設備常需要部署于算力受限的邊緣終端,其對算法模型的計算效率與資源占用提出了嚴苛的要求[1]。與此同時,生活垃圾因形態(tài)多變、堆疊遮擋及光照條件復雜等特點,使得主流檢測模型在真實場景中面臨精度下降與誤檢率攀升的挑戰(zhàn)。開發(fā)兼顧精度與效率的輕量化識別算法,已成為推動智慧環(huán)保落地的核心技術需求[2]。
現(xiàn)有輕量化目標檢測模型多通過簡化網絡深度或通道數(shù)降低計算負擔,但這類策略會削弱模型的特征提取能力[3]。以最新的YOLOv11系列為例,輕量化版本YOLOv11n通過縮減骨干網絡規(guī)模實現(xiàn)參數(shù)壓縮,在保持較高檢測速度的同時,通過改進特征金字塔結構和損失函數(shù),在通用目標檢測任務中展現(xiàn)出色性能。然而,垃圾識別任務中普遍存在的類內差異大、形態(tài)不規(guī)則等特性,導致識別精度顯著降低。
為了解決這一問題,本文提出一種改進的YOLOv11n垃圾識別算法。首先,采用EfficientNetv2網絡5重構YOLOv11n的骨干特征提取層,在降低參數(shù)量的同時,增強對垃圾目標多尺度特征的提取能力;其次,引入可變形注意力機制(deformable attention transformer,DAT)解決堆疊遮擋導致的特征混淆問題;最后,設計基于Slim-Neck的優(yōu)化頸部結構,采用GSConv(ghostshuffleconvolution)模塊替代傳統(tǒng)卷積層,在保持多尺度特征融合效果的前提下顯著壓縮計算量。在這三種改進策略優(yōu)化下,該算法在提升垃圾目標的識別精度的同時,顯著降低了參數(shù)量,為邊緣計算設備部署提供了更好的解決方案。
1.YOLOv11n網絡結構
YOLOv11n是Y0L0v11系列的輕量化版本,其網絡結構由主干網絡(Backbone)、頸部網絡(Neck)和檢測頭(Head)三部分構成(如圖1所示)。
Backbone負責多尺度特征提取,由基礎卷積模塊(Conv)、跨階段特征增強模塊(C3k2)、快速空間金字塔池化模塊(SPPF)、跨階段部分金字塔切片注意力機制(C2PSA)組成。Neck部分通過上采樣(Upsample)、拼接(Concat)和C3k2模塊實現(xiàn)多尺度特征融合。
Head基于解耦式預測機制,采用Detect模塊完成目標分類與邊界框回歸任務。
2.YOLOv11n的改進策略及成果
2.1YOLOv11n的改進策略
2.1.1輕量化網絡EfficientNetv2
EfficientNetV2作為一種新型卷積神經網絡,通過訓練感知的神經架構搜索與模型縮放策略,顯著提升了訓練速度與參數(shù)效率。在結構設計上,EfficientNetV2采用融合MBConv(Fused-
MBConv)與標準MBConv的混合架構,MBConv 模塊包含深度可分離卷積[8](depthwise Conv)與SE(squeeze andexcitation)通道注意力機制。Fused-MBConv則將 1×1 卷積和深度可分離卷積替換為標準 3×3 卷積,通過減少內存訪問開銷提升計算效率。
2.1.2可變形注意力機制(DAT)
傳統(tǒng)深度網絡在視覺任務中通過全局自注意力機制建模長程依賴關系,但其計算復雜度隨圖像分辨率呈平方級增長,難以適配高分辨率垃圾圖像的高效處理需求。此外,固定感受野機制難以應對垃圾目標的形態(tài)不規(guī)則性與堆疊遮擋問題。為此,本文引入可變形注意力機制(DAT),通過動態(tài)稀疏注意力建模與自適應特征采樣策略,與傳統(tǒng)自注意力機制相比,DAT通過局部特征采樣將計算復雜度從0 (N×N) 降低至O(N×K) 。
2.1.3優(yōu)化頸部結 構Slim-Neck
傳統(tǒng)頸部網絡中密集的標準卷積,其計算復雜度隨通道數(shù)呈平方增長,難以滿足輕量化需求;而深度可分離卷積雖通過通道解耦降低計算量,卻因完全割裂通道交互導致多尺度特征融合性能下降。為此,本文使用GSConv的Slim-Neck結構,通過混合密集-稀疏卷積與通道混洗機制,在計算效率與特征表達能力間實現(xiàn)最優(yōu)平衡。GSConv由密集卷積、稀疏卷積、通道混洗三階段構成。通過隨機排列操作,促進跨組信息交互[1]。
2.2YOLOv11n的改進成果
綜合上述改進策略,基于YOLOv11n的輕量化垃圾識別網絡如圖2所示。在主干網絡中用Fused-MBConv和MBConv替換原本的Conv,且在頸部網絡中引入GSConv替代原本的Conv,將原本注意力機制中的C2PSA替換為DAT提升識別精度。
3.1實驗案例和數(shù)據集
3.實驗結果和分析
本實驗案例依托中國大學生工程實踐與創(chuàng)新能力大賽——生活垃圾智能分類比賽[開展,該賽事聚焦人工智能技術在環(huán)保領域的落地應用,要求參賽隊伍針對不同種類的垃圾開發(fā)高精度、低延時的垃圾智能分類算法。實驗數(shù)據集為自建數(shù)據集,數(shù)據集中的照片都拍攝于固定場景的不同角度物品,像素均為 640×640 。垃圾被分為四大類:有害垃圾、廚余垃圾、一般垃圾和建筑垃圾,其中又根據具體垃圾種類分成13個小類。
3.2結果分析
訓練結束后的部分識別結果如圖3所示,從圖中可以看出網絡第一行第一列的塑料瓶和第四行第一列的金屬瓶被正確識別,這里體現(xiàn)了目標被遮擋以及外觀類似的場景下的識別精度。此外,無論目標物體大小都可以被正確識別,如第三行第四列的瓷片即使在過曝情況下依舊能夠被準確識別。
為驗證各改進策略的有效性,本研究設計漸進式消融實驗,將綜合IoU閾值在 0.5~0.95 的mAP和參數(shù)量作為模型性能的評估標準。
改進算法1:在原始YOLOv11n
P-流水-輕量化垃圾識別改進算法研究
基礎上,將其骨干網絡替換為EfficientNetv2中的MBConv模塊,保留原頸部與檢測頭結構。
改進算法2:在改進算法1的基礎上,引入Slim-Neck模塊的GSConv改進頸部網絡。
本算法在改進算法2的基礎上,引入注意力機制DAT。
根據表1的實驗數(shù)據顯示,改進算法1在將骨干網絡重構為EfficientNetv2后,參數(shù)量從原模型的 2.58×106 顯著降低至 2.09×106 ,同時mAP從 90.9% 提升至 93.6% 。這表明EfficientNetv2的漸進式縮放策略與MBConv模塊在減少計算冗余的同時,通過多尺度特征融合增強了垃圾目標的表征能力。改進算法2引入Slim-Neck結構替代原頸部網絡,參數(shù)量由 2.09×106 顯著降低至 1.99×106 ,mAP微增至 93.9% ,驗證了GSConv模塊在特征交互效率與輕量化間的平衡優(yōu)勢。最終,本算法通過嵌人可變形注意力機制(DAT),在參數(shù)量僅小幅回升的情況下,mAP顯著提升至 94.2% 。實驗結果證明,本算法的改進帶來的性能增益遠超參數(shù)量的邊際成本增長,最終實現(xiàn)模型規(guī)模與檢測精度的協(xié)同優(yōu)化。
為驗證本算法在垃圾識別任務中的有效性,選取YOLO系列最具代表性的輕量化基準模型( YoLOv5n 、YOLOv8n、YOLOv10n、 YoLov11n )進行橫向對比,并綜合IoU閾值在 0.5~0.95 的mAP和參數(shù)量作為模型性能的評估標準,比較結果如表2所示。
根據表2的數(shù)據可知,本算法在參數(shù)量與檢測精度上均展現(xiàn)出顯著優(yōu)勢。相較于原算法,本算法的mAP提升3.3個百分點,參數(shù)量降低 22.1% ;與 Y0L0v10n 相比,mAP優(yōu)勢達7.6個百分點,參數(shù)量減少 25.8% ;面對模型 Y0L0v8n ,本算法在參數(shù)量壓縮 25.3% 的情況下,仍實現(xiàn)2.8個百分點的 mAP 提升;相較于YoLOv5n ,本算法以 8.2% 的參數(shù)量降幅取得5.6個百分點的精度優(yōu)勢。實驗結果表明,本算法突破了輕量化模型中精度與效率的權衡壁壘,達到了輕量化和精準度的統(tǒng)一。
結語
本文針對智慧城市中生活垃圾識別任務的特殊需求,提出一種基于YOLOv11n的輕量化改進算法。通過輕量化網絡EfficientNetv2、可變形注意力機制(DAT)、優(yōu)化頸部結構Slim-Neck的三階段改進策略,有效解決了傳統(tǒng)模型在復雜場景下精度與效率難以平衡的問題。實驗證明,改進算法在參數(shù)量降低的情況下,mAP達到 94.2% ,較原模型提升3.3個百分點,且在邊緣設備上實現(xiàn)實時檢測性能。算法通過DAT機制對堆疊目標的動態(tài)感知能力,以及Slim-Neck結構的多尺度特征融合效率,為城市垃圾智能分揀系統(tǒng)提供了高精度、低功耗的解決方案。未來工作將聚焦于模型量化壓縮與多模態(tài)數(shù)據融合,進一步提升算法在極端光照、雨霧天氣等惡劣環(huán)境下的魯棒性。
參考文獻:
[1]譚瑞鴻,劉宇杰,劉杭,等.基于樹莓派的智能化垃圾分類系統(tǒng)[].物聯(lián)網技術,2025,15(6):113-115.
[2]溫洋,董靖川,趙鵬飛,等.多感知融合的智能垃圾識別分揀實驗系統(tǒng)設計[].實驗室研究與探索,2025,44(2):52-56.
[3]龍子晗,肖小玲.改進YOLOv8s的輕量化人臉識別算法[].信息技術與信息化,2024(12):201-204.
[4]王寧,智敏.深度學習下的單階段通用目標檢測算法研究綜述[].計算機科學與探索,2025,19(5):1115-1140.
[5]呂一鳴,王激揚.基于改進Efficientnetv2模型的鐵礦石圖像分類方法[J].計算機科學,2024,51(S1):561-566.
[6]曾旺丁.基于Deformable Attention和自監(jiān)督學習的微表情檢測[D].北京:北京郵電大學,2024.
[7]周洋,胡國強,汪行健,等.融合 GSConv輕量化YOLOv5s的電力作業(yè)穿 戴設備檢測算法[J].軟件導刊,2024,23(11): 172-180.
[8]曹渝昆,桂麗嬡.基于深度可分離卷積的輕量級時間卷積網絡設計[J].計算機工程,2020,46(9):95-100
[9]張少華,馮炎,余仁杰,等.基于SE注意力機制和深度卷積的語音情感識別[J]現(xiàn)代電子技術,2024,47(22):64-70.
[10]夏長權,汪李超,韓一帆,等.融合Shufflenet-V2的Yolov5輕量化目標檢測方法[].信息技術與信息化,2023(3):100-104.
[11]于兆勤.智能+賽道命題及評 分解讀[EB/OL].(2023-6-30)[2025- 05-10].http://www.gcxl.edu.cn/new/ res/20230630/Intelligence.pdf.
作者簡介:姜玉斌,碩士研究生,助教,研究方向:人工智能與深度強化學習;通信作者:胡智慧,碩士研究生,助理實驗師,824789141 @ qq.com,研究方向:強化學習與智慧校園。