石洋宇,左 景,謝承杰,鄭棣文,盧樹華,2
1.中國人民公安大學信息網(wǎng)絡安全學院,北京 102600
2.公安部安全防范技術與風險評估重點實驗室,北京 102600
異常行為檢測作為計算機視覺的一項重要任務廣泛應用在智能安防和工業(yè)檢查等諸多領域[1-2],宏觀意義上是指在某一特定的場景下出現(xiàn)了不符合人們預期的動作、現(xiàn)象或物體[3-5],其主要任務旨在檢測某一場景下已知異常類型的種類和發(fā)現(xiàn)未知異常類型的新模式。
傳統(tǒng)的異常行為檢測方法由行為檢測演變而來,根據(jù)運動物體的空間變化評定異常,如Reiss等人[6]通過光流法和關鍵點定位進行速度和姿勢的建模,采用高斯混合模型和k最近鄰方法對目標的速度、姿勢等屬性進行密度估計來評分異常。由于不同運動之間的差異較小導致檢測結(jié)果容易出現(xiàn)誤檢的情況,Park 等人[7]提出特征分離損失縮小類內(nèi)差距增大類間差異,通過計算目標特征與內(nèi)存項目之間的L2距離進行異常評分。隨著生成模型的發(fā)展,基于重構的方法[1-2,8-11]和基于預測的方法[12-17]成為現(xiàn)階段主流的異常檢測方法,這類方法在空間信息的基礎上根據(jù)運動物體的時間信息判斷物體的運動規(guī)律,如Ravanbakhsh等人[8]使用對抗生成網(wǎng)絡,提出時序卷積神經(jīng)網(wǎng)絡TCP捕捉視頻幀中的時空變化,結(jié)合時空變化和光流信息對正常樣本進行擬合重建,通過真實數(shù)據(jù)與重建數(shù)據(jù)的局部差異值判斷可能的異常情況。為了進一步分析相鄰時間中的運動規(guī)律,Lee 等人[15]提出了雙向多尺度聚合網(wǎng)絡BMAN,結(jié)合空間特征聚合長短期記憶網(wǎng)絡結(jié)構捕捉場景中物體尺度變化和復雜運動,考慮從過去幀和未來幀中學習的雙向方法預測中間幀,根據(jù)待測樣本與預測圖之間的差異大小判斷異常行為與否。然而在這些基于運動物體的時空特征來檢測異常的方法中,當樣本在監(jiān)測區(qū)域處于靜止狀態(tài)時,由于相鄰動作幀中并不存在差異,此時該樣本將被視為背景無法準確判斷出目標是否為異常狀態(tài)容易出現(xiàn)漏檢的情況,仍需進一步改進。
受文獻[18-20]的啟發(fā),YOLOv8模型可實現(xiàn)端到端目標檢測,具有檢測精度高以及參數(shù)量更小的優(yōu)點,在目標檢測領域表現(xiàn)較為優(yōu)異。但由于異常行為通常發(fā)生在復雜場景下,且識別目標存在遠近大小、形狀變化、面臨重疊遮擋等因素影響,給高精度檢測帶來了嚴峻的挑戰(zhàn)。為克服上述因素的影響,本文提出一種多尺度融合與快速多交叉結(jié)構(fast multi-cross block,F(xiàn)MB)改進的YOLOv8異常行為檢測方法。本文的主要貢獻如下:
(1)提出一種端到端的異常行為檢測方法,該方法通過多尺度融合提取不同尺度特征信息,并通過無參數(shù)注意力機制(simple parameter-free attention module,SimAM)[21]和WIoU(Wise-IoU)[22]損失函數(shù)抑制背景干擾。
(2)設計一種空間遞進卷積池化模塊(spatialprogressive convolution pooling module,S-PCP),通過融合多尺度信息使網(wǎng)絡適應檢測目標尺度變化;并提出一種快速多交叉結(jié)構,使網(wǎng)絡融合上下文信息,同時減少模型參數(shù)量和計算量。
(3)所提方法在兩個異常行為檢測的公開數(shù)據(jù)集上進行了訓練和驗證,并在違禁品檢測中驗證其泛化性,檢測精度相較當前大多數(shù)方法均有顯著的提升。
所提方法以YOLOv8為基線網(wǎng)絡,設計FMB和S-PCP結(jié)構,并引入SimAM 注意力機制和WIoU 損失函數(shù)進行改進,網(wǎng)絡框架如圖1所示,主要分為主干部分、頸部、檢測頭3部分。在主干部分提出了新的FMB和S-PCP模塊替代YOLOv8 網(wǎng)絡原有的C2f 模塊和快速空間金字塔池化模塊(spatial pyramid pooling-fast,SPPF)。FMB通過部分卷積舍棄冗余通道降低模型復雜度,同時融合上下文信息,增強網(wǎng)絡對異常動作差異的特征提取。S-PCP 采用多分支結(jié)構提取不同尺度下的特征信息。為進一步增強網(wǎng)絡對異常動作的感知能力,在模型中間層引入了一種無參數(shù)SimAM 注意力機制,在保持整體參數(shù)量不變的情況下抑制背景干擾。此外,選擇WIoU損失函數(shù)平衡檢測錨框的懲戒力度。
圖1 改進后的YOLOv8網(wǎng)絡結(jié)構Fig.1 Network structure of improved YOLOv8
由空間變換產(chǎn)生近大遠小的尺度差異往往對檢測器的定位性能造成干擾,容易出現(xiàn)漏檢和誤檢的情況。為解決此類問題,在空間金字塔池化[23]多分支結(jié)構基礎上,提出新的空間遞進卷積池化模塊來提高模型面對不同尺度下人體異常動作變化的識別能力,其結(jié)構如圖2所示。
圖2 空間遞進卷積模塊機制圖Fig.2 S-PCP module mechanism diagram
S-PCP 為5 分支結(jié)構,由池化組和卷積組2 個部分組成,每一分支均輸出特征信息,旨在提取圖像不同感受野的特征,最終通過大小為1×1的卷積將上述局部特征進行融合。在S-PCP的卷積組中采用了3個3×3的卷積通過串聯(lián)遞進的方式增加模型的感受野,同時匯集每層卷積輸出的特征信息實現(xiàn)多尺度特征融合。此外,通過將每個卷積層的輸出向下傳播,引入了更多的非線性表達,并加深了模型的深度,有助于更好地捕捉輸入數(shù)據(jù)中的微小特征,提高模型對復雜數(shù)據(jù)的理解和處理能力,進而提升模型性能。
在卷積組中,長為H寬為W通道數(shù)為C的特征圖f首先通過第一個大小為3×3的卷積,由卷積尺寸計算公式可知,輸出尺寸N為(H-2,W-2,C) 的特征圖f1。接著特征圖f1再次進行3×3的卷積操作,此時得到大小為(H-4,W-4,C)的特征圖f2。最后特征圖f2再次卷積得到大小為(H-6,W-6,C) 的特征圖f3。通過這樣的遞進結(jié)構,使特征圖f1、f2、f3在卷積組中傳遞時,分別得到卷積核大小為3×3、5×5、7×7 的輸出感受野。根據(jù)時間復雜度公式和空間復雜度公式可知,單獨使用大小為3×3、5×5、7×7 卷積時,空間復雜度為(32+52+72)×C2,而遞進結(jié)構的空間復雜度為3×32×C2,前者約為后者的3倍,同時由于兩種方式的輸出尺寸相同,因此時間復雜度同樣具有輕量的優(yōu)勢。
為了避免模型過深引起的過擬合問題,設計池化組來降低模型的復雜性,并加強模型的魯棒性和泛化能力。在池化組中分別設置了1×1大小的卷積和5×5大小的池化,1×1 的卷積保留了原有輸入的基礎特征,抵消在多個尺度的特征提取過程中可能出現(xiàn)的畸變情況。5×5 的池化進一步壓縮輸入特征,模糊圖像的數(shù)值分布,使卷積組提取的多尺度特征在與池化組疊加時具有明顯的差異。S-PCP 的每一層結(jié)構同時將輸入數(shù)據(jù)進行多尺度處理,從而有效地捕捉各個層次的特征信息,最終通過一個1×1的卷積將這些特征信息進行融合,實現(xiàn)多尺度信息的交互與整合,并通過互相糾正的方式提高模型的穩(wěn)定性。
為了提升模型檢測異常行為的效率,受跨階段局部網(wǎng)絡結(jié)構(cross stage partial,CSP)[24]和FasterNet[25]啟發(fā),提出了一種新的快速多交叉結(jié)構FMB,其結(jié)構如圖3所示。模型采用了3分支結(jié)構對特征信息進行不同深度的采樣,其中1條分支使用常規(guī)卷積來提取輸入特征的基礎空間信息保證模型基本精度;另外2條分支采取加權融合的機制,分別提取不同深度的網(wǎng)絡特征,以提高網(wǎng)絡對于多樣性特征的提??;最后通過拼接操作實現(xiàn)特征信息的融合和跨通道的信息傳遞,提升上下文信息感知能力。通過這種設計,在減少計算復雜性和參數(shù)量的同時,使其在面對異常行為的差異性變化時能夠更準確地定位異常信息,提升了模型的識別準確率。
圖3 快速多交叉結(jié)構機制圖Fig.3 FMB structure mechanism diagram
需要指出的是,模型參數(shù)量和計算量的減少主要得益于部分卷積(partial convolution,PConv)。與普通的卷積操作不同,PConv只對輸入通道的一部分進行常規(guī)卷積操作,而將剩余的通道保持不變接在特征通道后面,從而保持整體通道數(shù)不變,如圖4 所示。通過這種方式,模型減少了特征圖通道之間的計算冗余量和內(nèi)存訪問,從而更有效地提取空間特征。
圖4 PConv機制圖Fig.4 PConv mechanism diagram
在部分卷積中,只對cp個特征通道進行空間特征提取,而將剩下的c-cp個通道保留并進行了平移操作,確保其在傳入下一層卷積時的空間特征完整性。因此,輸入特征圖Fin∈?c×h×w通過PConv操作的計算量和內(nèi)存訪問量如公式(3)和公式(4)所示:
式中,cp為參與常規(guī)卷積的部分通道,其通道部分比例參數(shù)r=cp/c。以r=1/5 為例,可以看出PConv 的計算量是常規(guī)卷積的1/25,內(nèi)存訪問量是常規(guī)卷積的1/5。因此,PConv 的簡化卷積通道操作使得FMB 結(jié)構在高效和簡單的基礎上實現(xiàn)了出色的性能,為異常行為檢測的實際應用帶來積極的幫助。
為了進一步增強網(wǎng)絡對異常行為的感知能力,降低背景干擾,所提方法引入一種基于神經(jīng)科學理論的SimAM 模塊。與現(xiàn)有的注意力模塊不同,SimAM 模塊并不是單純的在通道或空間維度中的一個方向上增加卷積塊細化特征,而是將空間、通道和特征3 個維度的信息融合生成3D 權重并以能量函數(shù)的形式向下傳播。在提取網(wǎng)絡特征時,空間信息和通道信息共同對視覺處理過程中的信息選擇做出貢獻,能夠全局感知行人動作的變化。
在視覺神經(jīng)科學中活躍的神經(jīng)元會抑制周圍神經(jīng)元從而產(chǎn)生空間抑制效應,SimAM 根據(jù)這一特點對神經(jīng)網(wǎng)絡中每個神經(jīng)元賦予不同的優(yōu)先級。首先,對每個神經(jīng)元定義能量函數(shù),如公式(5)所示:
式中,et表示神經(jīng)元的能量函數(shù),M=H×W為輸入特征單通道中神經(jīng)元的數(shù)量,t代表目標神經(jīng)元的單通道輸入特征,x代表其他神經(jīng)元的單通道輸入特征,wt和bt分別是轉(zhuǎn)換操作中的權重和偏置如公式(6)和(7)所示:
為了驗證SimAM 的關注重點,在UCSD 數(shù)據(jù)集[26]的Ped1 和Ped2 子集中各自抽取了一張圖像,分別通過基線模型和引入SimAM的模型提取圖像特征并對其可視化展示,如圖5 所示。可以看到在引入SimAM 后網(wǎng)絡對于人體動作的關注度更符合人類大腦對特征的注意力,減弱了背景因素的干擾。因此SimAM 的引入有助于改善模型在異常行為定位任務中的性能。
圖5 不同模型下得到的特征可視化對比圖Fig.5 Visual comparison of extracted features across different models
交并比(intersection over union,IoU)損失函數(shù)被用來衡量預測框與真實框之間的重疊程度,決定模型的定位性能。WIoU函數(shù)在IoU的基礎上采用動態(tài)調(diào)整梯度分配策略,縮小不同尺寸錨框的懲罰差距,使其面對具有不同距離和長寬比等幾何因素的目標時有更好的表現(xiàn),提高模型的泛化性能,如公式(12)所示:
式中,Wg和Hg分別代表由預測框和真實框組成包圍框的寬和高,Wi和Hi為預測框和真實框組成交叉框的寬和高。*表示將最小包圍框的Wg和Hg與梯度計算分離,減少對模型訓練產(chǎn)生的不利影響。與當前常見的幾種損失函數(shù)相比,WIoU 通過平衡低質(zhì)量錨框與高質(zhì)量錨框之間的懲罰力度,采用動態(tài)非單調(diào)焦點機制掩蓋低質(zhì)量示例的影響,更好地保留不同尺度的特征信息。
異常檢測實驗使用的是Python 3.9 編程語言,并采用了PyTorch 1.11 搭建深度學習框架。該實驗在Ubuntu22.04.2LTS 操作系統(tǒng)上運行,并利用NVIDIA GeForce RTX 2080Ti圖形處理器進行GPU加速。電腦的內(nèi)存容量為32 GB,顯存容量為11 GB,Batchsize設置為16,Epoch 設置為150 次,初始學習率為0.01,權重衰減為0.000 5,對圖像預處理時將圖像的寬和高均固定為640×640。泛化性實驗在Windows 11操作系統(tǒng)上運行,電腦的GPU 為NVIDIA GeForce RTX 3060,內(nèi)存容量為32 GB,顯存容量為12 GB。
UCSD異常檢測數(shù)據(jù)集[26]是通過俯瞰行人步行道的固定攝像機獲取,步行道上的行人密度是隨機可變的。正常情況下步行道上只包含行人,而異常情況是由于非行人在步行道上活動或出現(xiàn)異常的行人運動模式引起的,所有異常都是自然發(fā)生的。UCSD數(shù)據(jù)被分成Ped1和Ped2 兩個子集,每個子集對應于不同的場景。為了處理UCSD數(shù)據(jù)集中存在的大量無異常幀視頻數(shù)據(jù),對UCSD的兩個子集進行了處理,具體方法是從中抽取出所有的異常幀并對所有的異常情況重新進行了標注,標注信息如表1所示。
表1 重制UCSD數(shù)據(jù)集標簽種類及標簽數(shù)量Table 1 Categories and number of labels in reconstituted UCSD dataset
(1)Ped1:該場景中包含一群人向攝像機走來和離開的情景,并且存在一定的透視畸變和遮擋問題。調(diào)整后的數(shù)據(jù)集共包含4 654 張照片,其中包括了6 種異常情況:自行車、滑板、汽車、輪椅、踩踏草坪和手推車。為了進行訓練和驗證,按照7∶3的比例將數(shù)據(jù)集劃分為訓練集和驗證集(測試集)。
(2)Ped2:該場景中包含行人平行于相機平面移動的情景。調(diào)整后的數(shù)據(jù)集共包含1 670 張照片,其中包括了三種異常情況:自行車、滑板、汽車。為了進行訓練和驗證,按照7∶3的比例將數(shù)據(jù)集劃分為訓練集和驗證集(測試集)。
OPIXray違禁品檢測數(shù)據(jù)集[27]是通過機場安檢的X光檢測機獲取的掃描圖像,隨后由機場安檢人員進行手動標注。數(shù)據(jù)集中包括折疊刀(folding knife,F(xiàn)O)、直刀(straight knife,ST)、剪刀(scissor,SC)、美工刀(utility knife,UT)和多功能刀(multi-tool knife,MU)5 種類別的刀具目標,總共包含8 885張圖像,根據(jù)7∶2∶1的比例被劃分為訓練集、測試集和驗證集。
為了驗證所提模型的有效性,實驗采用目標檢測中通用的評價指標對各模型的性能進行對比,具體指標有:平均精度(average precision,AP)、平均精度均值(mean average precision,mAP)、參數(shù)量(parameter)、十億浮點運算數(shù)(giga floating point operations,GFLOPs)和每秒傳輸幀數(shù)(frame per second,F(xiàn)PS)。其中,AP和mAP 用來檢驗模型的識別能力,在本實驗中表示從檢測圖像中識別出各項異常行為目標的準確性,由精準度(precision)和召回率(recall)共同影響,其表達式為:
式中,T 和F 代表實際情況的樣本正負性,P 和N 代表預測結(jié)果的樣本正負性。因此TP 表示目標樣本被成功檢測,F(xiàn)P 表示負樣本被錯誤預測成正樣本即誤檢情況,F(xiàn)N 表示非目標樣本沒有被誤檢成正樣本。以精準度為縱坐標,召回率為橫坐標可以畫出PR曲線圖。PR曲線與坐標軸包裹形成的面積為單類別的AP 值,mAP為所有類別AP的平均值,如公式(15)所示:
Parameter、GFLOPs 用來檢驗模型大小,評價模型對于設備硬件要求。FPS 表示模型每秒能處理的圖像數(shù)量,用來驗證模型的檢測速率,評價模型的實時性。
為了驗證所提方法的先進性,分別在Ped1 和Ped2數(shù)據(jù)集上進行了訓練和驗證,采用AP、mAP作為衡量檢測結(jié)果的指標,并與當前一些先進方法進行了對比,實驗結(jié)果如表2和表3所示。從表2和表3可見,所提方法在Ped1 和Ped2 數(shù)據(jù)集上的檢測效果均為最佳,分別達到92.7%和87.4%的準確率。相較于早期雙階段目標檢測方法Faster R-CNN提高19.5個百分點和36.6個百分點,同時相較一些單階段目標檢測方法SSD、YOLOv5、YOLOv7以及目前較為先進的目標檢測算法LD、FGD、SQR 亦有顯著提升。其中,與最新的YOLOv8 相比,所提方法亦提升了3.4 個百分點和7.0 個百分點。在參數(shù)量和浮點數(shù)上,所提模型保持YOLO系列的輕量化的特點,相較于基線模型參數(shù)量由1.061×107下降到8.74×106,浮點數(shù)由28.4 GFLOPs 下降到22.3 GFLOPs,分別下降17.6%和21.5%,表明所提模型具有較好的先進性。
表2 UCSD-Ped1數(shù)據(jù)集結(jié)果對比Table 2 Comparison results on UCSD-Ped1 dataset
表3 UCSD-Ped2數(shù)據(jù)集結(jié)果對比Table 3 Comparison results on UCSD-Ped2 dataset
圖6展示了YOLO部分系列模型在Ped1和Ped2數(shù)據(jù)集的PR曲線,可以看出所提方法PR曲線在2個數(shù)據(jù)集上均有良好的表現(xiàn)。為進一步展示所提方法異常行為檢測性能的提升,將基線模型和所提模型的檢測結(jié)果進行展示并與實際標注進行對比,如圖7 所示,圖7(a)為樣本的實際標注信息(通過labelimg工具得到的可視化標注信息),圖7(b)為通過基線模型YOLOv8 得到的檢測結(jié)果,圖7(c)為所提模型的檢測結(jié)果??梢钥吹秸故镜臋z測樣本中,基線模型YOLOv8在Ped1和Ped2等2個不同的數(shù)據(jù)集場景下均發(fā)生了漏檢和誤檢的現(xiàn)象,而在相同的條件下,所提模型能夠準確地檢測出樣本中的異常目標。其中,在圖7中第二行的YOLOv8模型的檢測結(jié)果中可以看到檢測框同時出現(xiàn)漏檢和誤檢現(xiàn)象,誤將行人判斷成騎行自行車的人且沒有檢測出實際使用自行車和滑板的人。而所提模型成功準確檢測出圖像中的所有異常行為同時沒有出現(xiàn)誤檢現(xiàn)象,進一步證明了所提模型的有效性。綜合以上分析,上述結(jié)果驗證了所提方法的穩(wěn)健性和先進性。
圖7 基線模型與所提模型檢測結(jié)果對比圖Fig.7 Comparison graph of detection results between baseline mode and proposed model
為了驗證所提模型對于目標檢測的泛化性,選擇OPIXray違禁品檢測數(shù)據(jù)集,對所提模型的性能進行泛化測試,并與當前先進的部分違禁品檢測模型進行對比,結(jié)果如表4所示。從表中可以看出所提模型相較于基線模型YOLOv8 的平均精度均值提升了1.1 個百分點,相較于其他先進模型的mAP 也有顯著的提升。此外所提模型在具體違禁品類別上的檢測精度均超過90%,與其他模型相比在直刀(ST)的檢測精度上有大幅度的提升,在其他分類上的精度也有不同程度的提升效果,表明所提模型的有效性且具有一定的泛化性。
表4 OPIXray數(shù)據(jù)集結(jié)果對比Table 4 Comparison results on OPIXray dataset單位:%
FMB 結(jié)構中部分卷積的部分比率r=cp/c對模型的參數(shù)量和準確度都具有一定的影響。當r越大時參加卷積的通道數(shù)越多,模型對特征的提取越復雜,增加計算量的同時亦能提高特征表達能力;反之,r越小時參加卷積的通道數(shù)減少,計算量下降且提取特征能力也會略有下降。但過多的卷積占比可能會帶來特征過擬合和計算壓力增加的問題,導致識別精度和速率下降,而過少的卷積占比會使模型的擬合特征能力欠缺同樣出現(xiàn)精度下降的問題。因此選擇合適的通道部分比例參數(shù)可以給模型帶來更好的性能。為了探索合適的參數(shù),本節(jié)將對FMB結(jié)構中的PConv進行參數(shù)測試,對比例參數(shù)分別取1、1/2、1/3、1/4、1/5、1/6、1/7 共7 種情況進行實驗,結(jié)果如表5所示。表中cp表示參與卷積的通道數(shù),c表示特征的總通道數(shù),Size 為模型訓練生成的權重文件大小。實驗過程中保持PConv卷積核大小為3×3,Epoch為150其他訓練參數(shù)相同情況下進行對比。
表5 不同PConv參數(shù)實驗結(jié)果Table 5 Results of different parameters of PConv
為了更直觀地看出參與卷積的通道數(shù)與檢測結(jié)果之間的關系,將表5中的數(shù)據(jù)進行可視化展示,如圖8所示。從圖中可以看出隨著參與卷積的通道占比變小時,模型的檢測精度曲線呈現(xiàn)出先上升后下降的整體趨勢。當所有的通道均通過卷積操作時,參數(shù)的空間維度變得復雜,使模型出現(xiàn)類似過擬合的現(xiàn)象。隨著通道部分比例參數(shù)的降低,模型的深度隨之降低緩解了過擬合帶來的影響,因此精度出現(xiàn)了上升;而當參與卷積的通道繼續(xù)減少時模型就會因為提取特征信息不充分出現(xiàn)擬合程度不足,導致精度下降。
圖8 不同PConv參數(shù)的檢測精度趨勢圖Fig.8 Trend graph of mAP for different PConv parameters
從圖8中可以看出,雖然不同的通道部分比例參數(shù)會對模型的檢測精度帶來一定范圍的波動,但在兩個數(shù)據(jù)集上所提模型的檢測精度均超過基線模型。當參數(shù)r分別為1/4 和1/3 時,所提模型在Ped1和Ped2數(shù)據(jù)集上的檢測精度分別為92.7%和87.4%,此時模型達到最優(yōu)性能在具有高精度的同時減少了冗余計算量。通過對不同r的參數(shù)敏感性實驗發(fā)現(xiàn),適當?shù)亟档途矸e的通道部分比例不僅可以減少模型參數(shù)量而且可以進一步提升所提方法的檢測精度,使模型達到最優(yōu)性能。
目標檢測任務中邊界框回歸損失函數(shù)對于模型定位性能具有重要意義,在訓練過程中通過損失函數(shù)衡量模型預測值與真實值之間的差距使下一次迭代正向優(yōu)化。為了探究不同的損失函數(shù)與模型性能之間的關系,實驗采用CIoU(complete-IOU)、EIoU(efficient-IoU)、SIoU(SCYLLA-IoU)、WioU 等4 種常見的損失函數(shù)在UCSD-Ped1 數(shù)據(jù)集上進行對比測試,實驗結(jié)果如表6所示。
表6 不同損失函數(shù)測試結(jié)果Table 6 Results of different loss function
表6 中可見在相同參數(shù)設置下更換不同的損失函數(shù)會使模型的檢測效果在一定范圍內(nèi)波動,但不會對模型的參數(shù)量造成影響。當損失函數(shù)為WIoU 時模型mAP 最大值相較于其他損失函數(shù)均有不同程度的提升。此外,WIoU 峰值對應的r參數(shù)相較于其他損失函數(shù)提前到1/4,在Pconv 參數(shù)選擇章節(jié)中可知過多的卷積參數(shù)會導致模型出現(xiàn)過擬合的現(xiàn)象,說明模型通過WIoU 減少了可能出現(xiàn)的過擬合情況,保留了更多的特征信息,因此為了達到更好的檢測效果選擇WIoU作為所提模型的邊界框回歸損失函數(shù)。
為了驗證所提方法的有效性并探究FMB、S-PCP和SimAM模塊對模型準確率和速率的影響,本文進行了8組對比實驗,以YOLOv8 為基線模型,分別在Ped1 和Ped2數(shù)據(jù)集上以640×640為輸入圖像大小,在相同參數(shù)條件下進行了消融實驗,實驗結(jié)果如表7 所示。從表7中可以觀察到,當單獨使用FMB結(jié)構后模型在2個數(shù)據(jù)集上準確度分別提高0.6個百分點和1.2個百分點,同時相較于基線模型參數(shù)量由1.061×107下降到7.44×106,浮點數(shù)由28.4 GFLOPs 下降到20.9 GFLOPs,由于FMB 中存在對特征通道的拆分和拼接工作,導致模型的檢測速率有所下降,但模型的檢測速率仍然滿足實時檢測要求。當分別加入S-PCP、SimAM模塊后檢測器性能均有一定程度上的提升。當3個模塊同時引入后,檢測器性能分別提升3.4 個百分點和7.0 個百分點。從模型的參數(shù)量和浮點數(shù)上觀察可知,雖然提出的S-PCP模塊在參數(shù)量上略有增加,但提出的FMB 模塊顯著地減少了基線模型的參數(shù),同時引入的SimAM 為無參數(shù)注意力機制,因此從整體上網(wǎng)絡的參數(shù)量、浮點數(shù)相較于基線模型分別下降了1.87×106和6.1 GFLOPs。所提模型中,F(xiàn)MB 結(jié)構采用部分卷積減少基線模型的計算冗余量,同時融合上下文信息增強模型人體特征的感知能力;S-PCP 融合多尺度特征間的差異提升網(wǎng)絡模型對特征提取能力,減緩行人由近到遠的尺度變化帶來的影響,使網(wǎng)絡更加關注人體行為的細微差異;SimAM 模塊抑制背景干擾,提高有效特征信息的權重。3個模塊的緊密融合使得模型的效率得到最大化,準確率也相應提升至92.7%和87.0%。將消融實驗中每個模塊逐個添加并訓練模型,分別對樣本進行異常行為測試得到消融實驗結(jié)果對比圖,如圖9所示??梢钥闯霰疚乃岢龅母倪M策略單獨作用下對比原基線模型YOLOv8 均有一定程度的提升,但仍然會出現(xiàn)漏檢和置信度較低的情況。當3個模塊共同作用時,可以看出檢測性能得到較高的提升,表明本文所提的3種改進策略對異常行為檢測是較為有效的。
表7 Ped1和Ped2數(shù)據(jù)集上消融實驗研究Table 7 Experimental study of ablation on Ped1 and Ped2 datasets
圖9 消融實驗結(jié)果對比圖Fig.9 Comparison of ablation study results
本文以YOLOv8為基線網(wǎng)絡,提出了融合多尺度特征和快速多交叉結(jié)構的異常行為檢測方法。該方法提出S-PCP模塊,通過多分支結(jié)構應對異常行為尺度變化問題;設計FMB 結(jié)構提升上下文信息感知能力并減少模型計算量;引入SimAM 注意力機制應對背景干擾問題;此外,通過WIoU 函數(shù)監(jiān)督訓練,增強模型泛化性能。在3 個數(shù)據(jù)集UCSD-Ped1、UCSD-Ped2 和OPIXray上的測試結(jié)果表明,所提方法可以有效降低異常行為檢測中因背景干擾與多尺度變化造成的漏檢誤檢情況,實現(xiàn)了準確性和輕量化較好的整合,同時具有一定的泛化性能,是一種性能優(yōu)良的異常行為檢測方法。
本文提出基于監(jiān)督學習的異常檢測方法,所提模型在訓練前需要對大量的異常信息進行標注。由于異常行為信息較為稀少,導致前期數(shù)據(jù)處理時工作量較大。因此,未來的研究之一可以考慮采用無監(jiān)督或弱監(jiān)督學習的方法,解決檢測模型對標注信息的依賴等問題。