陳園林 高興華 吳晗林
DOI:10.19850/j.cnki.2096-4706.2024.01.017
收稿日期:2023-06-06
基金項目:吉林省科技發(fā)展計劃項目(20220203179SF)
摘? 要:針對目前滑雪場內(nèi)滑雪人員摔倒檢測存在的問題,提出一種基于YOLOv7的目標(biāo)改進(jìn)模型。對于檢測模型部署在巡邏機(jī)器人上致使計算資源受限的問題,在主干網(wǎng)絡(luò)中引入Ghost模型并在頸部引入GSConv降低模型參數(shù);同時,引入基于并行可變形卷積的注意力機(jī)制模塊(Parallel Deformable Attention Conv, PDAC)增強(qiáng)模型的精度。改進(jìn)后的模型相較于原模型在參數(shù)上降低了21.6%,GFLOPs降低了27.7%,所需要的計算資源也大大降低。
關(guān)鍵詞:目標(biāo)檢測技術(shù);YOLOv7;滑雪摔倒檢測;輕量化模型
中圖分類號:TP391.4? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2024)01-0084-05
Ski Fall Detection Based on Improved YOLOv7
CHEN Yuanlin, GAO Xinghua, WU Hanlin
(Beihua University, Jilin? 132013, China)
Abstract: A target improvement model based on YOLOv7 is proposed to address the current issues in detecting falls among skiers in ski resorts. For the problem of limited computing resources caused by deploying detection models on patrol robots, the Ghost model is introduced into the backbone network and GSConv is introduced in the neck to reduce model parameters; meanwhile, the Parallel Deformable Attention Conv (PDAC) module is introduced to enhance the accuracy of the model. The improved model has reduced parameters by 21.6% and GFLOPs by 27.7% compared to the original model, and the required computational resources have also been greatly reduced.
Keywords: target detection technology; YOLOv7; ski fall detection; lightweight model
0? 引? 言
隨著冬奧會的舉辦,滑雪運(yùn)動逐漸變得火熱。近年來,我國滑雪場數(shù)量不斷增加,滑雪人數(shù)年均超2 000萬人次[1-3]?;┤藬?shù)增長的同時,滑雪事故也在不斷增加,每年都有因滑雪而造成的傷亡[4]。目前針對摔倒檢測的方法主要有傳感器檢測和利用視覺算法的檢測。由于滑雪運(yùn)動速度較快,對傳感器檢測影響很大,傳感器不能準(zhǔn)確的判斷是否為正常運(yùn)動中的加速狀態(tài),還是摔倒?fàn)顟B(tài)。而基于視覺方法的檢測可以提高檢測的精度。
基于計算機(jī)視覺的目標(biāo)檢測,主要是對圖片或視頻幀中所要識別的物體進(jìn)行定位并分類。在深度學(xué)習(xí)沒有普及之前,傳統(tǒng)的目標(biāo)檢測需要手工提取目標(biāo)特征[5],而基于深度學(xué)習(xí)的目標(biāo)檢測算法解決了此問題。根據(jù)算法特性基于深度學(xué)習(xí)的目標(biāo)檢測算法分為一階段檢測算法和二階段檢測算法,一階段檢測算法主要以YOLO系列、SSD等為代表[6,7],二階段檢測算法主要以R-CNN、FasterR-CNN為代表[8,9]。
在使用目標(biāo)檢測算法對雪場摔倒人員進(jìn)行檢測時,由于雪場滑雪人員較多,容易對待檢測目標(biāo)造成遮擋。并且雪場范圍很大,在遠(yuǎn)處的待檢測目標(biāo)在檢測場景中占比很小,以至于很難準(zhǔn)確地進(jìn)行檢測。其次,在同一場景中可能存在大尺度或小尺度的待檢測目標(biāo),尺度不同也很容易造成檢測器的漏檢。最終,滑雪場摔倒人員檢測技術(shù)的部署不僅需要高精度,還需要較高的檢測速度,以滿足在復(fù)雜情況下的實(shí)時檢測,并且因為模型是部署在移動機(jī)器人上,計算資源受限,不能承載參數(shù)量很大的模型。
為了解決上述問題,構(gòu)建了一種基于改進(jìn)YOLOv7的滑雪摔倒目標(biāo)檢測算法。引入Ghost模塊降低模型的參數(shù),并引入并行可變形卷積注意力機(jī)制模塊,減少特征提取過程中骨干網(wǎng)絡(luò)造成的空間信息損失[10]。同時在頸部引入GSConv,進(jìn)一步降低參數(shù)的同時,增強(qiáng)其非線性表達(dá)能力[11]。
1? YOLOv7概述
YOLOv7[12]是YOLO系列中最新推出的模型,根據(jù)部署對象的不同,分別為YOLOv7-Tiny、YOLOv7和YOLOv7-W6。YOLOv7的識別精度和識別速度已經(jīng)超過了目前大部分檢測器,結(jié)構(gòu)和前幾代YOLO模型類似。
YOLOv7算法框架主要由主干網(wǎng)絡(luò)(Backbone)、頸部(Neck)、預(yù)測頭(Head)三部分組成,其算法會對輸入的圖片做一系列的數(shù)據(jù)增強(qiáng)操作,目的是提高檢測的精確度。經(jīng)過數(shù)據(jù)增強(qiáng)后的圖片被送進(jìn)主干網(wǎng)絡(luò)中,主干網(wǎng)絡(luò)對圖片進(jìn)行特征提取,然后將其以三個不同尺度的輸出送入頸部當(dāng)中。三個不同尺度的特征會在頸部進(jìn)行信息流動并融合,融合后的特征被送入頭部,檢測后輸出結(jié)果。
YOLOv7模型的主干網(wǎng)絡(luò)主要采用ELAN模塊,該模塊是一種高效的網(wǎng)絡(luò)結(jié)構(gòu),它通過控制最短梯度路徑實(shí)現(xiàn)更多的堆疊,獲得更強(qiáng)的學(xué)習(xí)能力和更多的學(xué)習(xí)信息,增加模型的預(yù)測精度。為了增大感受野,使得算法對不同尺度的圖像具有良好的適用性,還采用了SPPCSPC模塊,模塊通過三個不同尺度的Maxpool操作來區(qū)分大小不同的物體,提高了網(wǎng)絡(luò)的適用性。
2? 網(wǎng)絡(luò)模型改進(jìn)
為了滿足滑雪摔倒檢測的實(shí)時性和精確性目標(biāo),提出了一種基于YOLOv7算法改進(jìn)的目標(biāo)檢測模型,結(jié)構(gòu)如圖1所示。改進(jìn)算法的主要目標(biāo)是降低模型的參數(shù)量,降低模型運(yùn)算需要的計算資源,在此基礎(chǔ)上獲得良好的檢測精度。
2.1? PDAC注意力機(jī)制模塊
注意力機(jī)制是機(jī)器學(xué)習(xí)中一種特殊的模塊,一張圖片中包含著豐富的語義信息,但不是所有的信息都是重要的。注意力機(jī)制分為空間注意力機(jī)制、通道注意力機(jī)制和混合注意力機(jī)制,還有最近興起的可變形注意力機(jī)制DETR等[13]。
基于前人提出的注意力機(jī)制的啟發(fā),提出了一種可變形注意力機(jī)制,在注意力機(jī)制中引入可變形卷
積[14],即PADC,如圖2所示。PADC可以自適應(yīng)地改變感受野的大小,減少特征圖語義的損失。在PADC模塊中,我們首先將特征圖在通道上進(jìn)行等分,通過兩個分支對其進(jìn)行可變形卷積改變其感受野的大小,并將兩個分支做通道上的連接。其次將每個通道的二維特征通過全局平均池化壓縮為一個實(shí)數(shù),將特征圖從[h,w,c]變換為[1,1,c],再給每個特征通道生成一個權(quán)重值,最后將得到的歸一化權(quán)重加權(quán)到每個通道的特征上,可變形注意力機(jī)制輸出如式(2)所示。圖2中,Conv表示卷積核大小為1、步長為1的標(biāo)準(zhǔn)卷積,對輸入的特征圖進(jìn)行尺度的調(diào)整,受到可變形卷積網(wǎng)絡(luò)的啟發(fā),其感受野不受限于原來的正方形狀,而可以是任意的形狀,能夠自適應(yīng)尺寸和姿態(tài)的變化。在雪場中,滑雪人員所處的遠(yuǎn)近及姿態(tài)不同,可變形卷積可以更好地適應(yīng)這種尺度和姿態(tài)的變化。
(1)
(2)
2.2? Ghost模塊
由于在雪場上部署模型的設(shè)備為巡邏機(jī)器人,其計算資源必然受到限制,不能搭載參數(shù)量較大的模型,為了平衡模型的精度和參數(shù)量。引入了GhostConv模塊代替主干網(wǎng)絡(luò)中的普通卷積模塊降低模型的參數(shù)量。GhostConv是Han等提出的一種輕量化卷積,他們認(rèn)為傳統(tǒng)卷積生成的特征圖存在大量相似特征圖,這些特征圖被稱為冗余信息。這些冗余信息可以用更廉價的手段來生成——線性變換。這樣可以有效地降低模型的參數(shù)量和計算成本。傳統(tǒng)的卷積是通過N個尺寸固定的卷積核生成N個特征圖,而GhostConv先用少量的卷積核進(jìn)行常規(guī)的特征提取,然后對提取出的特征圖進(jìn)行廉價的線性變換,最終進(jìn)行級聯(lián)操作生成最終的特征圖,如圖3所示。傳統(tǒng)卷積輸入特征圖X ∈ Rc×h×w,輸出Y ∈ Rm×h'×w',則Y = X · f + b,其中f ∈ Rc×m×k×k表示c×m個大小為k×k的卷積核,b為便置項,如圖4所示。則傳統(tǒng)卷積的FLOP1如式(3),輕量卷積GhostConv的FLOP2如式(4):
(3)
(4)
與傳統(tǒng)卷積不同,Ghost卷積采用分布策略,計算如式(5)與式(6)所示:
(5)
(6)
其中傳統(tǒng)卷積部分輸出Y' ∈ Rm×h'×w',表示對輸入X ∈ Rc×h×w經(jīng)過傳統(tǒng)卷積f ' ∈ Rc×m×k×k生成個數(shù)為m的少量特征圖。然后對生成的m個特征圖進(jìn)行廉價的線性操作,生成n - m個Ghost特征圖。輕量卷積GhostConv的FLOP2如式(7)所示:
(7)
由式(6)可知GhostConv的FLOPs為傳統(tǒng)Conv的1/s。
2.3? GSConv模塊
在進(jìn)行目標(biāo)檢測任務(wù)中,參數(shù)越多檢測精度相對來說也越高,但是推理速度會因為參數(shù)的增多而減慢,并且因為參數(shù)的增多很難部署到一些計算資源少的設(shè)備上,為此我們在特征融合階段引入了GSConv模塊,如圖5所示。傳統(tǒng)的卷積隨著網(wǎng)絡(luò)深度的增加,特征圖的尺寸會被壓縮,并且通道會進(jìn)行擴(kuò)張,這會造成淺層語義的丟失,通道之間的隱藏聯(lián)系也會減少。GSConv可以用較低的時間復(fù)雜度盡可能地保留這些聯(lián)系。GSConv對輕量型檢測模型的影響非常明顯,它增加了深度可分離卷積層[15]和通道洗牌,增加模型的非線性表達(dá)能力。但是我們并沒有選擇在骨干網(wǎng)絡(luò)中采用GSConv模塊。雖然GSConv??炷艽蠓鹊亟档湍P偷膮?shù)量,但同時也帶來網(wǎng)絡(luò)層數(shù)的加深,伴隨網(wǎng)絡(luò)層數(shù)的加深,數(shù)據(jù)流的阻力也相應(yīng)增加,這會造成模型推理速度變慢。但若將其部署在頸部則完全克服了這個問題,當(dāng)特征圖輸入到頸部時特征圖的尺寸已經(jīng)變得很小了,這時采用GSConv來處理串聯(lián)特征圖是最好的選擇,冗余信息大大減少。所以在頸部引入GSConv模型可降低模型的參數(shù)量,并增強(qiáng)其非線性表達(dá)能力,能夠更好地進(jìn)行特征融合使深層的語義信息和淺層的語義信息得到更加充分補(bǔ)充,以此來增強(qiáng)模型的精度。輸入X ∈ Rc×h×w,經(jīng)過f ∈ Rc×m/2×k×k變換后輸出Y ∈ Rm/2×h'×w',輸出Y再經(jīng)過f ' ∈ Rm/2×k×k得到Y(jié)' ∈ Rm/2×h'×w'。再將輸出經(jīng)由大小為1×1、個數(shù)為m/2×m/2的卷積核得到Y(jié)' ∈ Rm/2×h'×w'。再將兩部分結(jié)果做一個拼接并通道洗牌,如式(8)所示:
(8)
3? 實(shí)驗結(jié)果及分析
3.1? 實(shí)驗環(huán)境及數(shù)據(jù)集
本文實(shí)驗環(huán)境配置如表1所示。
本文采用自制數(shù)據(jù)集進(jìn)行試驗,該數(shù)據(jù)集共3 000張圖片。并對數(shù)據(jù)集圖片進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)、裁剪、變形等基本方法和Mosaic方法進(jìn)行數(shù)據(jù)增強(qiáng),增強(qiáng)后的圖片效果如圖6所示。
3.2? 檢測評價指標(biāo)
本文對算法的評價指標(biāo)主要有以下幾種,Precision、Recall、mAP@0.5和GFLOPs,公式分別為式(9)至式(12)。其中TP為正樣本(IoU大于某個閾值時則為正樣本),F(xiàn)P為負(fù)樣本(即IoU小于某個閾值時則為負(fù)樣本)。
(9)
(10)
(11)
(12)
3.3? 基于滑雪摔倒檢測數(shù)據(jù)集的消融實(shí)驗
改進(jìn)后的模型在數(shù)據(jù)集上的precision對比圖如圖7所示,兩個模型都在100步以內(nèi)達(dá)到收斂,原模型最高精度達(dá)到95.7%,改進(jìn)后的模型最高精度達(dá)到了93.8%。在表2中可以看到在主干中引入Ghost模塊后,GFLOPs降低了15.8,參數(shù)量降低了200萬,但是精度降低了2.5%。其原因是引入Ghost降低了參數(shù)導(dǎo)致模型精度下降。加入PDAC模塊后精度上漲了0.8%,并且模型的參數(shù)量和GFLOPs幾乎沒有變化。然后在頸部引入GSConv進(jìn)一步降低模型的參數(shù),在原模型的基礎(chǔ)上參數(shù)降低了800萬,GFLOPs降低了29.2,精度相對降低了0.2%。
雖然改進(jìn)后的模型精度相較于原模型降低了1.9%。但是參數(shù)降低了800萬,相較于原模型降低了21.6%。并且GFLOPs也降低了29.2,相較于原模型降低了27.7%。對于滑雪場摔倒檢測來說這個精度是完全合適的。并且因為參數(shù)的大大降低,降低了在移動端部署模型的條件,在精度和參數(shù)量上做出了平衡,檢測效果如圖8所示。
4? 結(jié)? 論
本文在YOLOv7原有算法框架上進(jìn)行了改進(jìn)。在主干采用GhostConv代替了一部分傳統(tǒng)卷積對模型進(jìn)行輕量化處理,并在頸部采用GSConv對深層和淺層的語義進(jìn)行融合,進(jìn)一步降低模型的復(fù)雜度,模型參數(shù)相較于原模型降低了21.6%。并引入注意力機(jī)制模塊改善因參數(shù)量的降低對網(wǎng)絡(luò)精度造成的損失,在降低原有模型參數(shù)的基礎(chǔ)上獲得了較好的精度,實(shí)現(xiàn)了計算資源受限的移動端設(shè)備的目標(biāo)檢測。下一步將根據(jù)現(xiàn)有的研究結(jié)果對跌倒檢測進(jìn)行目標(biāo)跟蹤研究。
參考文獻(xiàn):
[1] 趙建滕.我國滑雪產(chǎn)業(yè)發(fā)展困境及對策 [J].合作經(jīng)濟(jì)與科技,2022(16):27-29.
[2] DISHMAN R K,HEATH G W,SCHMIDT M D,et al. Physical Activity Epidemiology:Third edition [M].Champaign:Human Kinetics Publishers,2021.
[3] 王琳.運(yùn)動醫(yī)學(xué) [M].北京:北京體育大學(xué)出版社,2016:113.
[4] 林俐,張曉軍,王舉翠.滑雪場安全風(fēng)險及防范措施研究 [J].中國應(yīng)急管理,2021(11):63-65.
[5] ZOU Z X,CHEN K Y,SHI Z W,et al. Object Detection in 20 Years: A Survey [J].Proceedings of the IEEE,2023,11(3):257-276.
[6] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once: Unified, Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:779-788.
[7] LIU W,ANGUELOV D,ERHAN D,et al. SSD: Single Shot MultiBox Detector [C]//Computer Vision–ECCV 2016.The Netherlands:Springer,2016:21-37.
[8] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE,2014:580-587.
[9] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[10] HAN K,WANG Y H,TIAN Q,et al. GhostNet: More Features From Cheap Operations [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:1577-1586.
[11] LI H L,LI J,WEI H B,et al. Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles [J/OL].arXiv:2206.02424 [cs.CV].(2022-08-17)[2023-05-06].https://arxiv.org/abs/2206.02424.
[12] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [J/OL].arXiv:2207.02696 [cs.CV].(2022-07-06)[2023-05-06].https://arxiv.org/abs/2207.02696.
[13] ZHU X Z,SU W J,LU L W,et al. Deformable DETR: Deformable Transformers for End-to-End Object Detection [J/OL].arXiv:2010.04159 [cs.CV].(2020-08-08)[2023-05-06].https://arxiv.org/abs/2010.04159.
[14] DAI J F,QI H Z,XIONG Y W,et al. Deformable Convolutional Networks [J/OL].arXiv:1703.06211 [cs.CV].(2017-06-05)[2023-05-06].https://arxiv.org/abs/1703.06211v2.
[15] CHOLLET F. Xception: Deep Learning with Depthwise Separable Convolutions [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Columbus:IEEE,2017:1251-1258.
作者簡介:陳園林(1996—),男,漢族,黑龍江鶴崗人,碩士研究生在讀,主要研究方向:計算機(jī)視覺;通訊作者:高興華(1966—),女,漢族,吉林吉林人,碩士生導(dǎo)師,教授,碩士,主要研究方向:特種機(jī)器人;吳晗林(1996—),男,漢族,山東青島人,碩士研究生在讀,主要研究方向:自主導(dǎo)航。