武歷展,王夏黎,張 倩,王煒昊,李 超
基于優(yōu)化YOLOv5s的跌倒人物目標(biāo)檢測方法
武歷展,王夏黎,張 倩,王煒昊,李 超
(長安大學(xué)信息工程學(xué)院,陜西 西安 710064)
針對目標(biāo)檢測模型在人物跌倒時易漏檢、魯棒性和泛化能力差等問題,提出一種基于改進(jìn)YOLOv5s的跌倒人物目標(biāo)檢測方法YOLOv5s-FPD。首先,對Le2i跌倒數(shù)據(jù)集使用多種方式擴(kuò)充后用于模型訓(xùn)練,增強(qiáng)模型魯棒性和泛化能力;其次,使用MobileNetV3作為主干網(wǎng)絡(luò)來進(jìn)行特征提取,協(xié)調(diào)并平衡模型的輕量化和準(zhǔn)確性關(guān)系;然后,利用BiFPN改善模型多尺度特征融合能力,提高了融合速度和效率,并使用CBAM輕量級注意力機(jī)制實現(xiàn)注意力對通道和空間的雙重關(guān)注,增強(qiáng)了注意力機(jī)制對模型準(zhǔn)確性地提升效果;最后,引入Focal Loss損失評價從而更注重挖掘困難樣本特征,改善正負(fù)樣本失衡的問題。實驗結(jié)果表明,在Le2i跌倒數(shù)據(jù)集上YOLOv5s-FPD模型比原YOLOv5s模型,在精確度、F1分?jǐn)?shù)、檢測速度分別提高了2.91%,0.03和8.7 FPS,驗證了該方法的有效性。
目標(biāo)檢測;YOLOv5s;MobileNetV3;輕量級注意力;多尺度特征融合;焦點損失函數(shù)
醫(yī)學(xué)調(diào)查表明,老年人在跌倒后得到及時救治可降低80%的死亡風(fēng)險[1-2]。對于需要智能看護(hù)的老人,必然對目標(biāo)檢測系統(tǒng)的準(zhǔn)確性、魯棒性等有極高地要求。
傳統(tǒng)的基于構(gòu)建手工特征的目標(biāo)檢測方法,由于缺乏有效的圖像特征表示只能設(shè)計較為復(fù)雜的表示方法,里程碑檢測器有VJ Det.[3],HOG Det.[4]和DPM[5],但隨著手工特征性能趨于飽和而發(fā)展緩慢。
基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的目標(biāo)檢測模型研究可按檢測階段分為兩類,一類是基于候選框的兩階段檢測方法,如R-CNN[6],F(xiàn)ast R-CNN[7],F(xiàn)aster R-CNN[8]和Mask R-CNN[9];另一類是基于免候選框的單階段檢測方法,如SSD[10]和YOLO[11]系列均為典型的基于回歸思想的單階段檢測方法。
REDMON和FARHADI[12]首次提出YOLO,借鑒Faster R-CNN的設(shè)計思想將整個圖像輸入神經(jīng)網(wǎng)絡(luò),直接在輸出階段預(yù)測目標(biāo)位置和標(biāo)簽;隨后YOLOv2采用了批量歸一化、高分分類器和先驗框等優(yōu)化策略,加速網(wǎng)絡(luò)收斂性能并移除全連接層,重新引入錨框使得網(wǎng)絡(luò)定位更加準(zhǔn)確。YOLOv3[13]引入了特征金字塔網(wǎng)絡(luò)[14](feature pyramid network,F(xiàn)PN)和Darknet53網(wǎng)絡(luò),允許改變網(wǎng)絡(luò)結(jié)構(gòu)以權(quán)衡速度與精度,計算速度大幅提高,并引入殘差結(jié)構(gòu)將主干網(wǎng)絡(luò)做的更深,提升語義特征豐富性。BOCHKOVSKIY等[15]基于文獻(xiàn)[12]進(jìn)行改進(jìn)提出了YOLOv4目標(biāo)檢測模型,通過大量的調(diào)參實驗,在輸入網(wǎng)絡(luò)分辨率、卷積層數(shù)和參數(shù)數(shù)量間找到最佳平衡,實現(xiàn)了綜合性能的提升。
在基于YOLO的輕量化目標(biāo)檢測優(yōu)化部署方案中,文獻(xiàn)[16]使用YOLOv4作為基礎(chǔ)優(yōu)化檢測老人跌倒行為;文獻(xiàn)[17]融合運動特征提升跌倒檢測算法精度;文獻(xiàn)[18]基于ShuffleNet V2進(jìn)行特征提取,并利用融合后的網(wǎng)絡(luò)對原始YOLOv5的主干網(wǎng)絡(luò)進(jìn)行重構(gòu);文獻(xiàn)[19]采用MobileNet輕量化網(wǎng)絡(luò)進(jìn)行快速目標(biāo)檢測。
經(jīng)過實驗發(fā)現(xiàn),現(xiàn)有的目標(biāo)檢測模型在檢測人物發(fā)生跌倒時,仍然存在目標(biāo)檢測漏檢率高、模型魯棒性和泛化能力差等問題。針對此問題,本文提出了一種基于改進(jìn)YOLOv5s的跌倒人物目標(biāo)檢測模型YOLOv5s-FPD,并在Le2i跌倒數(shù)據(jù)集上驗證,相較于用YOLOv5s檢測人物目標(biāo),新模型的精確度、F1分?jǐn)?shù)、檢測速度分別提高了2.91%,0.03和8.7 FPS,在提升準(zhǔn)確性的同時,具有更小的參數(shù)量、更強(qiáng)的魯棒性和泛化能力。
2020年由Ultralytics發(fā)布的YOLOv5在網(wǎng)絡(luò)輕量化上貢獻(xiàn)明顯,檢測速度更快也更加易于部署。與之前版本不同,YOLOv5實現(xiàn)了網(wǎng)絡(luò)架構(gòu)的系列化,分別是YOLOv5n,YOLOv5s,YOLOv5m,YOLOv5l和YOLOv5x。這5種模型的結(jié)構(gòu)相似,通過改變寬度倍數(shù)(Depth multiple)來改變卷積過程中卷積核數(shù)量,還通過改變深度倍數(shù)(Width multiple)來改變BottleneckC3 (帶3個CBS模塊的BottleneckCSP結(jié)構(gòu))中C3的數(shù)量,從而實現(xiàn)不同網(wǎng)絡(luò)深度和寬度之間的組合,達(dá)到精度與效率的平衡,見表1。
表1 YOLOv5不同版本的模型參數(shù)
在最新發(fā)布的YOLOv5模型中,YOLOv5n和YOLOv5s模型大小分別為3.87 M和14.1 M,均適合在主流移動設(shè)備或邊緣設(shè)備上部署的低成本目標(biāo)檢測模型。本文的實驗平臺和環(huán)境為:640×640大小的圖片,使用YOLOv5n進(jìn)行目標(biāo)檢測,26.4%的圖片出現(xiàn)人物漏檢,平均每張圖片檢測耗時6 ms;使用YOLOv5s進(jìn)行目標(biāo)檢測,13.8%的圖片出現(xiàn)人物漏檢,平均每張圖片檢測耗時7 ms。雖然YOLOv5n的單張圖片檢測耗時比YOLOv5s減少了1 ms,但目標(biāo)漏檢率增加了一倍,且增加的漏檢主要集中在人物跌倒、下蹲等體態(tài)外形變化較大的場景,在準(zhǔn)確性優(yōu)先的智能看護(hù)系統(tǒng)中,會極大地降低結(jié)果可信度。綜合考慮,本文選擇YOLOv5s作為基礎(chǔ)模型進(jìn)行改進(jìn)。
YOLOv5s模型的結(jié)構(gòu)由4部分組成,如圖1所示(基于YOLOv5s-6.0版本):①基于卷積網(wǎng)絡(luò)的Backbone主干網(wǎng)絡(luò),主要提取圖像的特征信息;②Head檢測頭,主要預(yù)測目標(biāo)框和預(yù)測目標(biāo)的類別;③主干網(wǎng)絡(luò)和檢測頭之間的Neck頸部層;④預(yù)測層輸出檢測結(jié)果,預(yù)測出目標(biāo)檢測框和標(biāo)簽類別。
圖1 YOLOv5s結(jié)構(gòu)圖
YOLOv5s模型主要工作流程:
(1) 原始圖像輸入部分加入了圖像填充、自適應(yīng)錨框計算、Mosaic數(shù)據(jù)增強(qiáng)來對數(shù)據(jù)進(jìn)行處理,以增加檢測的辨識度和準(zhǔn)確度[20]。
(2) 主干網(wǎng)絡(luò)中采用Focus結(jié)構(gòu)和CSP1_X(個殘差結(jié)構(gòu),下同)結(jié)構(gòu)進(jìn)行特征提取。在特征生成部分,使用基于SPP[21]優(yōu)化后的SPPF結(jié)構(gòu)來完成。
(3) 將頸部層應(yīng)用路徑聚合網(wǎng)絡(luò)[22](path- aggregation network,PANet)與CSP2_X進(jìn)行特征融合。
(4) 使用GIOU_Loss作為損失函數(shù)。
YOLOv5s中使用的CSPDarkNet53主干網(wǎng)絡(luò)是在Darknet53中引入跨階段局部網(wǎng)絡(luò)[23](cross stage partial network,CSPNet),以提取有效的深度特征信息。但在實驗中發(fā)現(xiàn),只采用直接調(diào)整寬度倍數(shù)和深度倍數(shù)的方式來輕量化模型(寬度系數(shù)和深度系數(shù)小于1.0時),視頻圖像中的目標(biāo)漏檢問題較為嚴(yán)重,在Le2i數(shù)據(jù)集上,YOLOv5n,YOLOv5s和YOLOv5m的漏檢率分別為26.4%,13.8%和10.4%。因此在考慮調(diào)整輕量化模型時,需引入特征提取能力更強(qiáng)的移動端輕量級主干網(wǎng)絡(luò)MobileNet,將CSPDarkNet53替換為輕量級主干網(wǎng)絡(luò)MobileNetV3[24],嘗試達(dá)到輕量化、準(zhǔn)確性和效率的協(xié)調(diào)平衡。
2.1.1 MobileNetV3原理
MobileNet (即MobileNetV1)是適合邊緣設(shè)備中部署的輕量級CNN,可利用深度可分離卷積(depthwise separable convolution,DSC),改變卷積計算方法以降低網(wǎng)絡(luò)參數(shù)量,平衡檢測精度和檢測速度。隨之MobileNetV2[25]新增了2個特性:反向殘差(Inverted Residuals)方法使得特征的傳遞能力更強(qiáng),網(wǎng)絡(luò)層數(shù)更深;線性瓶頸(Linear Bottleneck)模塊取代非線性模塊,降低了低層特征的損失。
2019年發(fā)布的MobileNetV3結(jié)合了V1和V2中的部分結(jié)構(gòu),整合優(yōu)化并刪除了V2體系結(jié)構(gòu)中計算成本較高的網(wǎng)絡(luò)層,引入SE-Net (squeeze-and- excitation networks)[26]輕量級注意力結(jié)構(gòu),資源低耗的同時精度幾乎沒有損失。
DSC由深度卷積(depthwise convolution,DW)和逐點卷積(pointwise convolution,PW)組成[27],如圖2所示。DSC相比于傳統(tǒng)卷積參數(shù)和計算量大為減少,二者計算量對比為
其中,W1,W2分別為DSC和傳統(tǒng)卷積的計算成本。MobileNetV3特征提取的卷積核的尺寸主要為5×5。因此,DSC的計算成本約為傳統(tǒng)卷積的1/25。殘差結(jié)構(gòu)與反向殘差結(jié)構(gòu)如圖3所示,其中圖3(a)為殘差ResNet,圖3(b)為反向殘差。
圖3 殘差結(jié)構(gòu)和反向殘差結(jié)構(gòu)((a)殘差結(jié)構(gòu);(b)反向殘差結(jié)構(gòu))
反向殘差結(jié)構(gòu)利用點卷積將通道數(shù)擴(kuò)增,然后在更高層中進(jìn)行深度卷積,最后使用點卷積將通道縮減。反向殘差網(wǎng)路借助于殘差連接改善特征的梯度傳播能力,使得網(wǎng)絡(luò)層更深,同時網(wǎng)絡(luò)使用更小的輸入、輸出維度,極大地降低網(wǎng)絡(luò)的計算消耗和參數(shù)體積。另外反向殘差網(wǎng)路具有高效的CPU和內(nèi)存推理能力,能夠構(gòu)建靈活的移動端模型,從而適用于移動設(shè)備程序。
2.1.2 MobileNetV3寬度系數(shù)調(diào)整
MobileNet中提出了,2個超參數(shù)。其中作為寬度系數(shù),可以調(diào)整卷積核的個數(shù),將卷積核調(diào)整為原來的倍;用以控制輸入圖像尺寸。使用DSC調(diào)整后的計算量,即
寬度系數(shù)的調(diào)整可以直接將計算量、體積降低至1/2,極大地減少模型的參數(shù)量和計算量,而精度損失很小。本文設(shè)置=0.5。
實驗中大部分漏檢發(fā)生在目標(biāo)大小突然劇烈變化時,特別是從完整的站立或行走狀態(tài)的人物,突然劇烈變化為摔倒、蜷縮、下蹲的人體外形時,漏檢率非常高。這也側(cè)面說明YOLOv5s中原生的輕量級注意力機(jī)制SE-Net,在目標(biāo)尺度突然劇烈變化時可能效果有限。
相比于SE-Net只注重通道像素的重要性[26],CBAM[28]作為一種輕量級的注意力模型,綜合考慮了不同通道像素和同一通道不同位置像素在重要性上的區(qū)別,是一種簡單、高效的注意力機(jī)制設(shè)計實現(xiàn),計算消耗極小,且能與卷積網(wǎng)絡(luò)無縫集成并用于端到端的訓(xùn)練。
通道注意力模塊、空間注意力模塊共同構(gòu)成CBAM,輸入特征會沿著順序結(jié)構(gòu)依次推斷輸入中所含的注意力特征,然后再將注意力特征向量和輸入特征向量相乘來實現(xiàn)自適應(yīng)特征優(yōu)化。如圖4所示。
相應(yīng)的表達(dá)式為
圖4 通道和空間注意力機(jī)制((a)通道注意力機(jī)制;(b)空間注意力機(jī)制)
Fig. 4 Channel and spatial attention mechanisms ((a) Channel attention mechanism; (b) Spatial attention mechanism)
從圖4(a)可以看出,通道注意力向量沿著空間維度運算得到特征向量,并與輸入特征相乘。圖4(b)表示空間注意力向量,沿著通道方向運算得到特征向量后與輸入特征相乘。
在目標(biāo)檢測模型中用CBAM注意力機(jī)制替換SE-Net模塊來優(yōu)化目標(biāo)檢測精度,使目標(biāo)特征提取更完全,從而改善人物姿勢劇烈變化時出現(xiàn)的目標(biāo)丟失問題。
頸部層可使主干網(wǎng)絡(luò)提取的特征更充分地被利用,通常對各階段直接增加由自底向上和自頂向下的路徑,對各階段的特征圖進(jìn)行再處理,實現(xiàn)各階段特征圖的多尺度融合,該方式主要用于生成FPN,F(xiàn)PN會增強(qiáng)模型對于不同縮放尺度對象的檢測能力[14]?,F(xiàn)常用的頸部結(jié)構(gòu)有:FPN,PANet,NAS-FPN,BiFPN,且PANet比FPN和NAS-FPN更精確,但缺點是參數(shù)多和計算消耗大[29]。鑒于移動端或邊緣設(shè)備上的資源約束,以優(yōu)化模型大小和延遲導(dǎo)向來重新考慮YOLOv5s模型中的多尺度融合策略。
FPN為底層特征圖提供了更多的語義信息,提高了小尺寸目標(biāo)的檢測效果。最近,研究人員在FPN的基礎(chǔ)上設(shè)計實現(xiàn)了更多的跨尺度特征融合網(wǎng)絡(luò)[29]。YOLOv5s的頸部結(jié)構(gòu)部分采用了 PANet結(jié)構(gòu),如圖5所示。
圖5中FPN是普通的特征金字塔,包含自底向上和自頂向下雙向通道特征提取路徑,從而融合高分辨率的低層和語義信息豐富的高層[14]。
PANet 結(jié)構(gòu)是在FPN的基礎(chǔ)上引入了自底向上路徑增強(qiáng)結(jié)構(gòu),使得高層特征直接獲取低層更多的位置信息,另外從結(jié)構(gòu)中也能看到其特點是反復(fù)的特征提取,因此需要更多的計算消耗,模型體積也更大。為優(yōu)化YOLOv5s-FPD的結(jié)構(gòu),利用加權(quán)雙向特征金字塔網(wǎng)絡(luò)BiFPN來減少特征融合不必要的計算,其改進(jìn)如圖6所示。
BiFPN特征融合設(shè)計如圖6(c)中所示,對應(yīng)的融合計算過程(其他層類似)為
BiFPN優(yōu)化跨尺度連接的思想和策略主要是:移除對融合貢獻(xiàn)率小的結(jié)點,在同層的結(jié)點間添加跳躍連接,以實現(xiàn)同層和更高層次的特征融合效率[29]。
如圖7所示,DSC融合特征被送入分類回歸網(wǎng)絡(luò),網(wǎng)絡(luò)權(quán)重在所有級別的特性之間共享,在每次卷積后進(jìn)行批歸一化和激活,實現(xiàn)BiFPN的雙向跨尺度連接和快速歸一化融合[29]。
圖5 PANet結(jié)構(gòu)圖
圖6 特征網(wǎng)絡(luò)設(shè)計((a)FPN結(jié)構(gòu)設(shè)計;(b)PANet結(jié)構(gòu)設(shè)計;(c)BiFPN結(jié)構(gòu)設(shè)計)
通常情況下對目標(biāo)檢測而言,正樣本數(shù)量要遠(yuǎn)小于負(fù)樣本數(shù)量,從而造成樣本失衡,可致訓(xùn)練過程中特征較少而影響網(wǎng)絡(luò)模型的收斂性和準(zhǔn)確性[30]。樣本失衡問題不僅包括正負(fù)樣本數(shù)量的不平衡性,同時也可以表現(xiàn)為難分和易分樣本的數(shù)量不平衡。評估目標(biāo)檢測中的總損失,往往期望更關(guān)注模型在正樣本和難分樣本目標(biāo)檢測時的準(zhǔn)確性和魯棒性,但模型評估中負(fù)樣本和易分樣本的損失比例過大,從而造成損失評估偏離理想方向。另外易分樣本的易收斂性也會直接導(dǎo)致數(shù)量不占優(yōu)的難分樣本的特征提取不充分。
文獻(xiàn)[30]認(rèn)為,樣本失衡是導(dǎo)致單階段目標(biāo)檢測算法準(zhǔn)確性不如兩階段的主要原因。焦點損失函數(shù)(focal loss,F(xiàn)L)降低了低特征貢獻(xiàn)率的負(fù)樣本在特征提取時所占比重,是一種簡單直接地提取難分樣本特征的方法,用于解決樣本失衡和提高目標(biāo)檢測算法的準(zhǔn)確度。
在YOLOv5中使用交叉熵二分類損失評估,即
其中,為真實標(biāo)記數(shù)值;?為經(jīng)過激活函數(shù)的檢測概率值(在0~1之間)。正樣本的?數(shù)值與損失成反比,負(fù)樣本的?數(shù)值與損失成正比。這樣的損失評估方式在難分樣本數(shù)量占劣的迭代過程中,收斂緩慢甚至可能根本無法找到最優(yōu)解[30],因此考慮使用基于二分類交叉熵的Focal Loss損失函數(shù)進(jìn)行改進(jìn),即
式(6)中加入了因子,以減少易分樣本的關(guān)注度,訓(xùn)練中用訓(xùn)練時間去提取難分或易錯分的樣本特征,以加強(qiáng)這些樣本的特征提取能力、識別能力和魯棒性。另外單純依靠關(guān)注度因子去平衡樣本數(shù)量比例無法解決前文中所提到的特征貢獻(xiàn)率問題,因此增加特征貢獻(xiàn)率因子來調(diào)節(jié)2種樣本的特征權(quán)重貢獻(xiàn)率為
關(guān)注度調(diào)整因子的影響力隨著的變化而變化(=0時退化為交叉熵二分類損失函數(shù)),實驗[30]采用最優(yōu),數(shù)值分別為=0.25,=2。
本次實驗均在表2的實驗平臺中進(jìn)行。
表2 實驗平臺
3.2.1 數(shù)據(jù)集獲取
本文實驗的數(shù)據(jù)集來源見表3。
其中使用Le2i數(shù)據(jù)集(Le2i Dataset)作為訓(xùn)練測試驗證數(shù)據(jù)集,使用UR數(shù)據(jù)集(UR Dataset)和Multiple數(shù)據(jù)集(Multiple Dataset)的部分視頻圖像用于評估YOLOv5s-FPD模型的泛化能力和魯棒性。
表3 跌倒檢測的數(shù)據(jù)集
3.2.2 數(shù)據(jù)集標(biāo)注
對于無標(biāo)注的數(shù)據(jù)集部分,本文使用LabelImg標(biāo)注。
3.2.3 數(shù)據(jù)集擴(kuò)充與劃分
本文利用多種方式的圖像轉(zhuǎn)換,對所用的跌倒目標(biāo)數(shù)據(jù)集進(jìn)行擴(kuò)充操作,分別使用表4中的對稱翻轉(zhuǎn)、運動模糊、高斯模糊、亮度對比度變換、圖像旋轉(zhuǎn)來處理原始數(shù)據(jù)集。
圖8展示了Le2i數(shù)據(jù)集中選取的3種跌倒姿勢圖像經(jīng)擴(kuò)充變換處理后的效果。
表4 跌倒數(shù)據(jù)集擴(kuò)充操作
圖8 圖像變換效果對比((a)原圖;(b)對稱翻轉(zhuǎn);(c)運動模糊;(d)添加高斯噪聲;(e)亮度對比變換;(f)圖像旋轉(zhuǎn))
Le2i數(shù)據(jù)集共包含191個視頻文件合計75 911幀(其中132個跌倒視頻,59個非跌倒視頻),使用表4中的5種圖像變換方式擴(kuò)充后,共1 146個視頻文件(其中792個跌倒視頻,354個非跌倒視頻),使用腳本將全部視頻按照8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、測試集和驗證集,具體視頻文件數(shù)量分別為訓(xùn)練集917個、測試集115個和驗證集114個。
3.2.4 訓(xùn)練過程
YOLOv5s-FPD采用了多尺度訓(xùn)練方式迭代300輪,初始學(xué)習(xí)率0.000 1,輸入圖像大小為640×640,批處理大小16。另外設(shè)交并比(intersection over union,IoU)等于0.5以區(qū)分正、負(fù)樣本。
本文選取了反映目標(biāo)檢測模型檢測水平的6種常用評價指標(biāo),對改進(jìn)后的檢測網(wǎng)絡(luò)模型進(jìn)行評價。
(1) 精確度(Precision,P)、召回率(Recall,R)和1分?jǐn)?shù)
其中,T為跌倒目標(biāo)被正確檢測出來的數(shù)量;F為被跌倒誤檢的目標(biāo)數(shù)量;F為跌倒未被檢測出的樣本數(shù)量;
1分?jǐn)?shù)可以看作是模型精確率和召回率的一種調(diào)和平均,同時兼顧了分類模型的精確率和召回率。
(2) 平均精度(average precision,AP)、平均精度均值(mean average precision,mAP)為
其中,N為類別個數(shù);為不同類別的平均精度。得到每一類的值后,將其平均就得到。
(3) 幀速(frames per second,F(xiàn)PS):通常用來衡量目標(biāo)檢測模型的實時性,其表示神經(jīng)網(wǎng)絡(luò)每秒能處理圖片的數(shù)量。
YOLOv5s-FPD對YOLOv5s模型的特征提取、注意力機(jī)制和特征融合方法進(jìn)行了改進(jìn),同時引入了焦點損失函數(shù)。為評估不同模塊改動和不同模塊組合對于算法性能優(yōu)化的程度,設(shè)計了消融實驗,消融實驗數(shù)據(jù)見表5。
消融實驗數(shù)據(jù)表明,每種改進(jìn)對最終結(jié)果產(chǎn)生了不同程度的優(yōu)化,如:
實驗2表明,引入MobileNetV3降低了3.2%目標(biāo)漏檢率的同時幀速度提高約10 FPS;實驗3和實驗4表明,CBAM和BiFPN對于識別準(zhǔn)確率的貢獻(xiàn)相對較為明顯,mAP分別提升2.1%和2.0%;實驗5表明,焦點損失優(yōu)化對漏檢率影響較大,本文可降低5.5%的人物漏檢率。
不同的組合對模型整體表現(xiàn)也基本呈現(xiàn)正向優(yōu)化,對比實驗12和實驗16,mAP提升1.9%的同時,體積僅增加0.7 M,漏檢率減少了1.3%,與實驗5比較,也說明MobileNetV3和CBAM,BiFPN結(jié)合,在降低漏檢率的同時,也削弱焦點損失函數(shù)對漏檢率的優(yōu)化程度。對比實驗13和實驗16,二者在幀速上的區(qū)別,也驗證了BiFPN具有更強(qiáng)的特征融合能力和效率。對比實驗14和實驗16,mAP提升3.4%的同時,模型體積僅增加了0.2 M,表明了CBAM輕量級注意力模型,能以極小的代價提高模型精度。對比實驗15和實驗16,MobileNetV3的能力主要體現(xiàn)在對模型體積、速度和漏檢率上,同時mAP參數(shù)仍然有1.1%的提升。
4種不同策略的組合,產(chǎn)生的優(yōu)化結(jié)果不同,例如實驗9雖然比實驗16的mAP高出0.2%,但漏檢率卻差了近一倍,所以說明其策略組合并不理想。同時采用4種策略,雖然某種程度上可能會削弱單個策略的優(yōu)化程度,但卻取得了5.2%的最低漏檢率,同時保持了精確度、速度和模型大小的較優(yōu)值,達(dá)到了本文環(huán)境中的較為理想的平衡效果。
使用基于Le2i數(shù)據(jù)擴(kuò)充的跌倒人物數(shù)據(jù)集分別訓(xùn)練SSD,F(xiàn)aster-RCNN,YOLOv4,YOLOv5s和YOLOv5s-FPD模型,結(jié)果見表6。
表5 消融實驗結(jié)果對比
注:●為采用此策略;○為不采用此策略
表6 4種算法的性能對比
通過表6可知,在相同的Le2i數(shù)據(jù)集上,YOLOv5s-FPD算法的檢測精度為92.49%,相比SSD,F(xiàn)aster RCNN,YOLOv4 和YOLOv5s算法,精確度分別提高了3.52%,1.79%,1.61%和2.91%,以上說明YOLOv5-FPD具有更好的準(zhǔn)確性。
在模型的體積上,YOLOv5s-FPD具有最小的體積7.9 M,遠(yuǎn)小于SSD,F(xiàn)aster RCNN和YOLOv4模型,并且體積只是YOLOv5s體積的56%。
同時,從檢測速度上而言,YOLOv5s-FPD 的檢測速率優(yōu)于SSD,F(xiàn)aster RCNN,YOLOv4和YOLOv5s模型,YOLOv5s-FPD比Faster RCNN檢測速率快了24.2倍,比YOLOv4模型快了2.22倍;YOLOv5s-FPD與SSD算法相比,雖然檢測速率只快了3.2 FPS,但檢測精度大幅度提升,F(xiàn)1分?jǐn)?shù)提升了0.04。YOLOv5s-FPD與YOLOv5算法相比,F(xiàn)1分?jǐn)?shù)提升了0.03,同時檢測速率快了8.7 FPS。以上表明了YOLOv5-FPD具有更好的實時性。
實驗訓(xùn)練得到Y(jié)OLOv5s-FPD模型的P-R (Precision-Recall)曲線,如圖9所示。由P-R曲線可知,絕大部分時,灰色曲線表示的falling person類別都比紅色曲線表示的person類別更靠近坐標(biāo)(1,1)位置,表示前者的準(zhǔn)確性更高,同時藍(lán)色曲線表示的全部類別平均精度,也比person類別曲線更高,YOLOv5s-FPD模型精度提升明顯。
圖9 YOLOv5s-FPD的P-R曲線
在跌倒初期(身體有摔倒傾向時)和跌倒中期(身體開始倒向地面)漏檢情況極少,漏檢高頻發(fā)生主要集中跌倒末期(身體基本貼近地面)和特殊視角檢測時,常見的幾種情況有:①待檢測目標(biāo)身體呈現(xiàn)遮擋,腿部和軀干遮擋較多,嚴(yán)重時只有單臂和頭部可見;②軀干與地面傾斜到特殊角度;③特殊視角檢測時,人體外形呈現(xiàn)為中小目標(biāo)或倒置、旋轉(zhuǎn)目標(biāo)。在這些常見的跌倒漏檢視頻上驗證YOLOv5s-FPD檢測效果。
圖10中2個驗證視頻來源于Le2i數(shù)據(jù)集中的Coffee room環(huán)境,該數(shù)據(jù)集環(huán)境只有一個攝像視角為45°斜向下近景,YOLOv5s-FPD算法解決了圖10(a)中的漏檢情況,并提高了圖10(c)5%的檢測置信度。
圖10 Le2i數(shù)據(jù)集Coffee room檢測結(jié)果((a)漏檢問題改善前;(b)漏檢問題改善后;(c)置信度提高前;(d)置信度提高后)
圖11的2個驗證視頻來源于Multiple數(shù)據(jù)集,該數(shù)據(jù)集環(huán)境有8個攝像角度,選取2個攝像視角為45°斜向下遠(yuǎn)景,YOLOv5s-FPD算法解決了圖11(a)的漏檢情況,并提高了圖11(c)情況中24%的檢測置信度。
圖11 Multiple數(shù)據(jù)集檢測結(jié)果一((a)漏檢改善前;(b)漏檢改善后;(c)置信度提高前;(d)置信度提高后)
當(dāng)人物目標(biāo)動作相對緩慢,人物外形特征也較為明顯,遮擋也只發(fā)生在身體的下半部分,YOLOv5s檢測仍然有效,圖12中的目標(biāo)人物,反映了YOLOv5s-FPD只提高檢測置信度的情況,如圖12(b)和圖12(d),分別提高了4%和6%。
訓(xùn)練數(shù)據(jù)集的圖像絕大部分都是人體與圖像的上下兩部分對應(yīng),而不是相反,這也導(dǎo)致了特殊視角下的人物目標(biāo)檢測(比如攝像視角位于人物的正上方)困難,對人物檢測模型提出新的挑戰(zhàn)。圖13反映了YOLOv5s-FPD解決正上方視角下的目標(biāo)漏檢問題,效果如圖13(d),并且提高了水平視角下的人物檢測置信度,效果如圖13(b)。
從Le2i和UR 2個跌倒數(shù)據(jù)集中選取漏檢率比較高、遮擋嚴(yán)重的視頻,來測試模型在目標(biāo)遮擋時的魯棒性,如圖14所示。肢體發(fā)生遮擋,如圖14(b)為下肢遮擋時檢測結(jié)果,圖14(d)為部分軀干遮擋時檢測結(jié)果,YOLOv5s-FPD也能夠以較低的置信度來檢測出人物目標(biāo)。因此對于解決或改善一些典型漏檢情況,如特殊視角或遮擋情況下的目標(biāo)檢測,YOLOv5s-FPD的魯棒性更強(qiáng)。
圖12 Multiple數(shù)據(jù)集檢測結(jié)果二((a)置信度提高前;(b)置信度提高后;(c)置信度提高前;(d)置信度提高后)
圖13 UR數(shù)據(jù)集檢測結(jié)果((a)置信度提高前;(b)置信度提高后;(c)漏檢改善前;(d)漏檢改善后)
圖14 遮擋時的檢測結(jié)果((a)下肢遮擋改善前;(b)下肢遮擋改善后;(c)軀干遮擋改善前;(d)軀干遮擋改善后)
YOLOv5s-FPD使用MobileNetV3進(jìn)行特征提取來改善原生YOLOv5s的輕量化方法對模型準(zhǔn)確性的影響,并引入CBAM輕量化注意力機(jī)制和焦點損失函數(shù)來提升檢測模型的特征提取能力。實驗結(jié)果表明,使用YOLOv5s-FPD模型的目標(biāo)漏檢率大大降低,同時模型體積和檢測速度均有了一定程度的優(yōu)化,泛化能力和魯棒性更強(qiáng),更易于作為智能看護(hù)系統(tǒng)的基礎(chǔ)模型部署在移動設(shè)備和邊緣設(shè)備上,具有一定的實際意義和社會價值。
[1] 黃明安, 陳鈺. 中國人口老齡化的現(xiàn)狀及建議[J]. 經(jīng)濟(jì)研究導(dǎo)刊, 2018(10): 54-58, 66.
HUANG M G, CHEN Y. The status quo and advice of China’s ageing[J]. Economic Research Guide, 2018(10): 54-58, 66 (in Chinese).
[2] GE Y F, WANG L J, FENG W M. et al. The challenge and strategy selection of healthy aging in China[J]. Journal of Management World 2020, 36:86-95.
[3] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[OE/BL]. [2021-06-12]. https:// ieeexplore.ieee.org/document/990517.
[4] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2005: 886-893.
[5] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[6] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.
[7] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1440-1448.
[8] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[9] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2980-2988.
[10] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.
[11] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 779-788.
[12] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6517-6525.
[13] REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. (2018-04-08) [2021-06-04]. https:// arxiv.org/abs/1804.02767.
[14] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 936-944.
[15] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2021-06-04]. https://arxiv.org/abs/2004.10934.
[16] 馬敬奇, 雷歡, 陳敏翼. 基于AlphaPose優(yōu)化模型的老人跌倒行為檢測算法[J]. 計算機(jī)應(yīng)用, 2022, 42(1): 294-301.
MA J Q, LEI H, CHEN M Y. Fall behavior detection algorithm for the elderly based on AlphaPose optimization model[J]. Journal of Computer Applications, 2022, 42(1): 294-301 (in Chinese).
[17] 曹建榮, 呂俊杰, 武欣瑩, 等. 融合運動特征和深度學(xué)習(xí)的跌倒檢測算法[J]. 計算機(jī)應(yīng)用, 2021, 41(2): 583-589.
CAO J R, LYU J J, WU X Y, et al. Fall detection algorithm integrating motion features and deep learning[J]. Journal of Computer Applications, 2021, 41(2): 583-589 (in Chinese).
[18] 宋爽, 張悅, 張琳娜, 等. 基于深度學(xué)習(xí)的輕量化目標(biāo)檢測算法[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(9): 2716-2725.
SONG S, ZHANG Y, ZHANG L N, et al. Lightweight target detection algorithm based on deep learning[J]. Systems Engineering and Electronics, 2022, 44(9): 2716-2725 (in Chinese).
[19] 張?zhí)諏? 陳恩慶, 肖文福. 一種改進(jìn)MobileNet_YOLOv3網(wǎng)絡(luò)的快速目標(biāo)檢測方法[J]. 小型微型計算機(jī)系統(tǒng), 2021, 42(5): 1008-1014.
ZHANG T N, CHEN E Q, XIAO W F. Fast target detection method for improving MobileNet_YOLOv3 network[J]. Journal of Chinese Computer Systems, 2021, 42(5): 1008-1014 (in Chinese).
[20] 許德剛, 王露, 李凡. 深度學(xué)習(xí)的典型目標(biāo)檢測算法研究綜述[J]. 計算機(jī)工程與應(yīng)用, 2021, 57(8): 10-25.
XU D G, WANG L, LI F. Review of typical object detection algorithms for deep learning[J]. Computer Engineering and Applications, 2021, 57(8): 10-25 (in Chinese).
[21] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. New York: IEEE Press, 2014: 1904-1916.
[22] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.
[23] WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2020: 1571-1580.
[24] HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 1314-1324.
[25] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 4510-4520.
[26] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.
[27] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2021-06-23]. https://arxiv.org/abs/1704. 04861.
[28] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[29] TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition . New York: IEEE Press, 2020: 10778-10787.
[30] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2999-3007.
An object detection method of falling person based on optimized YOLOv5s
WU Li-zhan, WANG Xia-li, ZHANG Qian, WANG Wei-hao, LI Chao
(School of Information Engineering, Chang’an University, Xi’an Shaanxi 710064, China)
To address the problems of easy missing, poor robustness and generalization ability when object detection model is detecting a person falling down, a new detection method YOLOv5s-FPD was proposed based on the improved YOLOv5s. Firstly, the Le2i fall detection data set was expanded in various ways for model training to enhance model robustness and generalization ability. Secondly, MobileNetV3 was employed as the backbone network for feature extraction, which could coordinate and balance the relationship between lightness and accuracy of the model. Furthermore, BiFPN (bi-directional feature pyramid network) was utilized to boost model multi-scale feature fusion ability, thereby improving the efficiency and speed of fusion. Meanwhile, the CBAM (convolutional block attention module) lightweight attention mechanism was adopted to realize double focus attention to channel and space, enhancing the effect of attention mechanism on model accuracy. Finally, Focal Loss evaluation was used to pay more attention to hard example mining and alleviate the samples imbalance problem. The experimental results show that the precision, F1score, and detection speed of YOLOv5s-FPD model were improved by 2.91%, 0.03, and 8.7 FPS, respectively, compared with the original YOLOv5s model on Le2i fall detection dataset, which verified the effectiveness of the proposed method.
object detection; YOLOv5s; MobileNetV3; lightweight attention; multi-scale feature fusion; focal loss function
TP 391
10.11996/JG.j.2095-302X.2022050791
A
2095-302X(2022)05-0791-12
2022-04-13;
2022-06-10
13 April,2022;
10 June,2022
國家自然科學(xué)基金項目(51678061)
National Natural Science Foundation of China (51678061)
武歷展(1989-),男,碩士研究生。主要研究方向為圖形圖像處理、目標(biāo)檢測與動作識別。E-mail:1215719889@qq.com
WU Li-zhan (1989-), master student. His main research interests cover graphic image processing, object detection and action recognition. E-mail:1215719889@qq.com
王夏黎(1965-),男,副教授,博士。主要研究方向為圖形圖像處理與模式識別。E-mail:1225947082@qq.com
WANG Xia-li (1965-), associate professor, Ph.D. His main research interests cover graphic image processing and pattern recognition. E-mail:1225947082@qq.com