劉光明 李媛
基金項目:甘肅省2023年技術(shù)創(chuàng)新引導(dǎo)計劃——科技專員專項(23CXGA0048);蘭州資源環(huán)境職業(yè)技術(shù)大學(xué)2023年科技研究室課題(無編號)
第一作者簡介:劉光明(1974-),男,碩士,研究員。研究方向為高性能計算。
DOI:10.19981/j.CN23-1581/G3.2024.12.038
摘? 要:隨著人工智能算法模型技術(shù)的發(fā)展,目標(biāo)跟蹤和行為識別已經(jīng)成為計算機(jī)視覺領(lǐng)域的重要研究任務(wù)。該文介紹Yolo V7和Yolo V8這2個最新的目標(biāo)跟蹤和行為識別算法。重點介紹基于深度學(xué)習(xí)的目標(biāo)跟蹤技術(shù)中的目標(biāo)檢測與特征提取、目標(biāo)跟蹤與位置預(yù)測,以及介紹基于深度學(xué)習(xí)的行為識別技術(shù)中的視頻編碼與特征提取、行為分類與識別。此外,該文以Yolo V7和Yolo V8模型結(jié)構(gòu)為基礎(chǔ)構(gòu)建目標(biāo)跟蹤與行為識別的聯(lián)合學(xué)習(xí)。
關(guān)鍵詞:目標(biāo)跟蹤;行為識別;Yolo V7;Yolo V8;聯(lián)合學(xué)習(xí)
中圖分類號:TP183? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? 文章編號:2095-2945(2024)12-0164-04
Abstract: With the development of artificial intelligence algorithm model technology, target tracking and behavior recognition have become important research tasks in the field of computer vision. This paper introduces two latest target tracking and behavior recognition algorithms, Yolo V7 and Yolo V8. This paper focuses on the target detection and feature extraction, target tracking and position prediction in the target tracking technology based on deep learning, and introduces the video coding and feature extraction, behavior classification and recognition in the behavior recognition technology based on deep learning. In addition, this paper constructs a joint learning of target tracking and behavior recognition based on the model structure of Yolo V7 and Yolo V8.
Keywords: target tracking; behavior recognition; Yolo V7; Yolo V8; joint learning
目標(biāo)跟蹤和行為識別技術(shù)可以幫助人們更好地理解和分析視頻數(shù)據(jù),為決策提供支持。傳統(tǒng)的目標(biāo)跟蹤和行為識別方法通常基于手工設(shè)計的特征提取和模式識別算法,這些方法往往受到光照變化、遮擋、噪聲等復(fù)雜環(huán)境因素的影響。
目前,基于機(jī)器學(xué)習(xí)的代表性方法包括卡爾曼濾波器和粒子濾波器等線性濾波器,以及基于區(qū)域的方法,如滑動窗口法和輪廓檢測法等。這些方法通常需要手動選擇特征和調(diào)整參數(shù),難以適應(yīng)復(fù)雜場景和動態(tài)變化。
深度學(xué)習(xí)在目標(biāo)檢測和行為識別領(lǐng)域取得了顯著進(jìn)展。在目標(biāo)檢測方面,Siamese網(wǎng)絡(luò)、CFNet和孿生網(wǎng)絡(luò)等方法通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)的特征表示,進(jìn)而實現(xiàn)目標(biāo)的精確定位和跟蹤。其中,R-CNN系列模型,如R-CNN[1]、Fast R-CNN[2],通過改進(jìn)候選區(qū)域生成和特征提取方法,提高了目標(biāo)檢測的準(zhǔn)確性和效率。SSD模型[3]則通過多尺度預(yù)測層實現(xiàn)目標(biāo)檢測,具有高精度和快速的特點。而Yolo系列模型[4-5],特別是Yolo V3[6]、Yolo V4[7]和Yolo V5[8],作為單階段目標(biāo)檢測算法,在運(yùn)算速度和檢測精度上均表現(xiàn)出色,特別是Yolo V5在推理速度上被認(rèn)為目前最強(qiáng)。值得一提的是,曠世科技推出的Yolo V5s-Megvii版本在性能和速度上進(jìn)一步優(yōu)化,適用于多種實際應(yīng)用場景。在行為識別方面,深度神經(jīng)網(wǎng)絡(luò)同樣發(fā)揮著重要作用。3D CNN、RNN和LSTM等方法能夠自動學(xué)習(xí)視頻中的時間依賴關(guān)系和行為特征,進(jìn)而實現(xiàn)精準(zhǔn)的行為分類。這些方法為復(fù)雜場景下的人體行為分析提供了有力工具。眾多學(xué)者在目標(biāo)跟蹤和行為識別領(lǐng)域作出了杰出貢獻(xiàn)。例如,Stauffer和Grimson教授提出的自適應(yīng)背景模型為目標(biāo)檢測與跟蹤提供了新思路。Mori教授和Sung等人在行為識別方面也有深入研究,推動了該領(lǐng)域的發(fā)展。
1? 基于深度學(xué)習(xí)的目標(biāo)跟蹤技術(shù)
基于深度學(xué)習(xí)的目標(biāo)跟蹤技術(shù)包括特征提取、目標(biāo)檢測、特征匹配、數(shù)據(jù)關(guān)聯(lián)、狀態(tài)估計、預(yù)測與修正和數(shù)據(jù)輸出。這些方法的主要目的是將目標(biāo)物體與跟蹤器進(jìn)行匹配,以形成可靠的跟蹤軌跡。
再者,多目標(biāo)跟蹤的難點在于如何有效地處理多個目標(biāo)之間的相互干擾和遮擋等問題。常用的多目標(biāo)跟蹤方法包括基于粒子濾波的方法、基于均值漂移的方法、基于CAMShift的方法等。本文考慮以最新的Yolo V7[9]和Yolo V8為例探討基于深度學(xué)習(xí)的目標(biāo)跟蹤技術(shù)。
1.1? 目標(biāo)檢測與特征提取
目標(biāo)檢測和特征提取是非常重要的任務(wù),其為后續(xù)的目標(biāo)識別、分類,以及跟蹤和位置預(yù)測等任務(wù)提供了基礎(chǔ)。以Yolo V7的目標(biāo)檢測器為例,Yolo V7 作為一種目標(biāo)檢測器,屬于一種更快更強(qiáng)的網(wǎng)絡(luò)架構(gòu),其精度和推理性能比較均衡。特征提取網(wǎng)絡(luò)采用了Darknet-53,其可以將輸入圖像轉(zhuǎn)換為一組固定大小的特征圖。目標(biāo)檢測是在特征提取的基礎(chǔ)上進(jìn)行的。在Yolo V7中,目標(biāo)檢測器通過多尺度特征融合處理后的特征圖解碼為最終的目標(biāo)檢測結(jié)果。此外,解碼器中的3個分支分別負(fù)責(zé)輸出不同數(shù)量的預(yù)測結(jié)果,這有助于提高目標(biāo)檢測的效率。因此,在Yolo V7中,目標(biāo)檢測和特征提取是相互關(guān)聯(lián)的。通過特征提取網(wǎng)絡(luò)提取出豐富的目標(biāo)信息,這些信息被用于目標(biāo)檢測任務(wù)中,從而實現(xiàn)對目標(biāo)的準(zhǔn)確識別和分類。
而在Yolo V8模型中,目標(biāo)檢測和特征提取采用了CSPDarknet和Yolo V4-Head結(jié)構(gòu),特征提取部分采用了CSPDarknet。CSPDarknet將網(wǎng)絡(luò)分為2個部分,每個部分都包含多個殘差塊。目標(biāo)檢測部分采用了Yolo V4-Head結(jié)構(gòu),其包含了多個卷積層和池化層,用于對特征圖進(jìn)行處理和壓縮。然后,通過多個卷積層和全連接層,將特征圖轉(zhuǎn)換為目標(biāo)檢測結(jié)果。此外,Yolo V8還采用了一種基于Anchor-Free的檢測方式。這種方式直接預(yù)測目標(biāo)的中心點和寬高比例,而不是預(yù)測Anchor框的位置和大小,Yolo V8還采用了一種高效的特征提取和目標(biāo)檢測方式,具有更高的檢測精度和更快的檢測速度。
1.2? 目標(biāo)跟蹤與位置預(yù)測
目標(biāo)跟蹤是指在一系列圖像中識別和跟蹤特定目標(biāo)的位置和運(yùn)動信息。位置預(yù)測是在給定目標(biāo)的位置和運(yùn)動信息的情況下,預(yù)測目標(biāo)未來的位置和運(yùn)動狀態(tài)。這可以通過基于時間序列的模型、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型、基于深度學(xué)習(xí)的模型等實現(xiàn)。
在Yolo V7和Yolo V8中,目標(biāo)跟蹤和位置預(yù)測是重要的功能,可以幫助系統(tǒng)實現(xiàn)更準(zhǔn)確的目標(biāo)檢測和識別。在Yolo V7中,目標(biāo)跟蹤和位置預(yù)測采用了多尺度特征融合和解碼器分支的方法。此外,解碼器中的3個分支分別負(fù)責(zé)輸出不同數(shù)量的預(yù)測結(jié)果,這有助于提高目標(biāo)檢測的效率。
在Yolo V8中,目標(biāo)跟蹤和位置預(yù)測采用了CSPDarknet和Yolo V4-Head結(jié)構(gòu)。CSPDarknet可以將網(wǎng)絡(luò)分為2個部分,每個部分都包含多個殘差塊,這可以有效地減少模型的參數(shù)量和計算量,同時提高特征提取的效率。Yolo V4-Head結(jié)構(gòu)則將特征圖轉(zhuǎn)換為目標(biāo)檢測結(jié)果,其中包括目標(biāo)的中心點和寬高比例等信息。這些信息可以用于目標(biāo)跟蹤和位置預(yù)測任務(wù)中,從而實現(xiàn)對目標(biāo)的準(zhǔn)確識別和分類。
因此,Yolo V7和Yolo V8都采用了高效的目標(biāo)跟蹤和位置預(yù)測方法,這些方法可以幫助系統(tǒng)實現(xiàn)更準(zhǔn)確的目標(biāo)檢測和識別。隨著技術(shù)的不斷發(fā)展,未來的研究將更加注重提高目標(biāo)跟蹤和位置預(yù)測的準(zhǔn)確性和實時性,以及推廣應(yīng)用這些技術(shù)到更多的領(lǐng)域中。
2? 基于深度學(xué)習(xí)的行為識別技術(shù)
基于深度學(xué)習(xí)的行為識別技術(shù)主要分為基于圖像的行為識別和基于視頻的行為識別?;趫D像的行為識別通常利用靜態(tài)圖像或幀序列進(jìn)行分析,而基于視頻的行為識別則利用視頻流數(shù)據(jù)進(jìn)行實時分析。
基于圖像的行為識別常用方法包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。CNN可以有效地提取圖像中的特征,而RNN則可以處理序列數(shù)據(jù),如時間序列或文本序列?;赗NN的方法通常將圖像序列中的幀視為序列中的元素,并對序列進(jìn)行建模以識別行為。
在基于視頻的行為識別中,常用的方法包括3D卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)[10]和雙流網(wǎng)絡(luò)(Two-Stream Network)[11]。雙流網(wǎng)絡(luò)將視頻分為前景和背景2個流,分別進(jìn)行處理和分析,從而可以更準(zhǔn)確地識別行為。
除了以上方法,基于深度學(xué)習(xí)的行為識別技術(shù)還涉及許多其他方法,如LSTM、GRU等循環(huán)神經(jīng)網(wǎng)絡(luò)方法,以及一些基于強(qiáng)化學(xué)習(xí)和生成對抗網(wǎng)絡(luò)的方法。
2.1? 視頻編碼與特征提取
在Yolo V7和Yolo V8中,視頻編碼和特征提取是重要的技術(shù),可以幫助系統(tǒng)實現(xiàn)更準(zhǔn)確的目標(biāo)檢測和識別。
在Yolo V7中,視頻編碼采用了類似編碼器-解碼器結(jié)構(gòu),將視頻序列分為多個幀,并對每個幀進(jìn)行特征提取和目標(biāo)檢測。這種結(jié)構(gòu)可以有效地減少視頻數(shù)據(jù)的復(fù)雜度,同時提高目標(biāo)檢測的效率。
在Yolo V8中,特征提取采用了CSPDarknet結(jié)構(gòu),其可以將網(wǎng)絡(luò)分為2個部分,每個部分都包含多個殘差塊。此外,Yolo V8還采用了YOLO V4-Head結(jié)構(gòu)進(jìn)行目標(biāo)檢測,其可以將特征圖轉(zhuǎn)換為目標(biāo)檢測結(jié)果,其中包括目標(biāo)的中心點和寬高比例等信息。這些信息可以用于目標(biāo)跟蹤和位置預(yù)測任務(wù),從而實現(xiàn)對目標(biāo)的準(zhǔn)確識別和分類。
總的來說,Yolo V7和Yolo V8都采用了高效的視頻編碼和特征提取方法,這些方法可以幫助系統(tǒng)實現(xiàn)更準(zhǔn)確的目標(biāo)檢測和識別。隨著技術(shù)的不斷發(fā)展,未來的研究將更加注重提高視頻編碼和特征提取的準(zhǔn)確性和實時性,以及推廣應(yīng)用這些技術(shù)到更多的領(lǐng)域中。
2.2? 行為分類與識別
在Yolo V7和Yolo V8中,行為分類與識別是基于目標(biāo)檢測和特征提取的基礎(chǔ)上進(jìn)行的。
在Yolo V7中,Head結(jié)構(gòu)將用于單標(biāo)簽分類的Softmax分類器改成多個獨立的用于多標(biāo)簽分類的Logistic分類器,取消了類別之間的互斥,可以使網(wǎng)絡(luò)更加靈活。這種方式可以更好地處理實際場景中一個檢測框可能含有多個物體或者有重疊的類別標(biāo)簽的情況。
在Yolo V8中,行為分類與識別得到了進(jìn)一步的發(fā)展。其采用了CSPDarknet和Yolo V4-Head結(jié)構(gòu),提高了特征提取和目標(biāo)檢測的效率。同時,Yolo V8還支持物體檢測、實例分割、圖像分類等多種任務(wù),并捆綁了多種預(yù)訓(xùn)練模型,可擴(kuò)展到所有以前的版本。此外,Yolo V8還采用了新的骨干網(wǎng)絡(luò)和無錨頭結(jié)構(gòu),使得模型更加高效和準(zhǔn)確。
總的來說,Yolo V7和Yolo V8在行為分類與識別方面都采用了多標(biāo)簽分類的方式,但Yolo V8在模型結(jié)構(gòu)、功能和應(yīng)用方面更加豐富和擴(kuò)展,可以更好地滿足實際應(yīng)用的需求。
3? 目標(biāo)跟蹤與行為識別的聯(lián)合學(xué)習(xí)
聯(lián)合學(xué)習(xí)將目標(biāo)跟蹤和行為識別結(jié)合起來通過共享底層特征,同時對目標(biāo)進(jìn)行檢測和分類,并利用時序信息進(jìn)行行為識別。在聯(lián)合學(xué)習(xí)中,采用一些集成學(xué)習(xí)將目標(biāo)跟蹤和行為識別結(jié)合起來。例如,將目標(biāo)跟蹤和行為識別看作是一個多任務(wù)學(xué)習(xí)問題,并使用一個共享的底層網(wǎng)絡(luò)來提取特征,然后分別使用不同的頂層網(wǎng)絡(luò)進(jìn)行分類?;蛘撸瑢⒛繕?biāo)跟蹤和行為識別看作是一個序列問題,并使用循環(huán)神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行建模。
在實現(xiàn)聯(lián)合學(xué)習(xí)時,需要考慮如何將目標(biāo)跟蹤和行為識別的任務(wù)結(jié)合起來。這可以通過特征共享、多任務(wù)學(xué)習(xí)、序列建模來實現(xiàn)。特征共享將目標(biāo)跟蹤和行為識別的特征提取部分共享,以減少計算量和提高特征的利用率。多任務(wù)學(xué)習(xí)將目標(biāo)跟蹤和行為識別看作是一個多任務(wù)學(xué)習(xí)問題,并使用一個共享的底層網(wǎng)絡(luò)來提取特征,然后分別使用不同的頂層網(wǎng)絡(luò)進(jìn)行分類。序列建模將目標(biāo)跟蹤和行為識別看作是一個序列問題,并使用循環(huán)神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行建模。
在聯(lián)合學(xué)習(xí)中,由于目標(biāo)跟蹤和行為識別是2個不同的任務(wù),因此數(shù)據(jù)標(biāo)注的方式也可能不同。為了實現(xiàn)聯(lián)合學(xué)習(xí),需要對數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)注和處理,以保證模型的訓(xùn)練和測試的準(zhǔn)確性。
在Yolo V7和Yolo V8中,目標(biāo)跟蹤與行為識別就是看作2個相互關(guān)聯(lián)的任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)。目標(biāo)跟蹤通常需要檢測畫面中某個或某幾個特定人員的行為,這時候需要實時跟蹤這個人,并且知曉對應(yīng)人員的編號。這可以通過目標(biāo)檢測算法實現(xiàn),例如Yolo V7算法。然而,僅僅進(jìn)行目標(biāo)檢測無法滿足對行為識別的需求,因此需要將目標(biāo)跟蹤與行為識別結(jié)合起來。
在Yolo V7和Yolo V8中,雖然官方并未明確提出聯(lián)合學(xué)習(xí)的概念,但是在實現(xiàn)目標(biāo)跟蹤和行為識別方面都采用了類似的方法。本文構(gòu)建了聯(lián)合學(xué)習(xí)框架圖(如圖1所示)。
在聯(lián)合學(xué)習(xí)的框架圖中,將Yolo V7和Yolo V8的實現(xiàn)分為3個主要部分:數(shù)據(jù)預(yù)處理、特征提取、目標(biāo)跟蹤與行為識別。
數(shù)據(jù)預(yù)處理。這一部分負(fù)責(zé)對輸入數(shù)據(jù)進(jìn)行預(yù)處理,包括圖像或視頻幀的裁剪、縮放、歸一化等操作。
特征提取。在這一部分,數(shù)據(jù)將通過Yolo V7或Yolo V8的特征提取網(wǎng)絡(luò)進(jìn)行特征提取。Yolo V7采用類似編碼器-解碼器結(jié)構(gòu),將視頻序列分為多個幀,并對每個幀進(jìn)行特征提取和目標(biāo)檢測。Yolo V8則采用CSPDarknet結(jié)構(gòu),將網(wǎng)絡(luò)分為2個部分,每個部分都包含多個殘差塊。這些特征提取網(wǎng)絡(luò)將輸出特定于目標(biāo)檢測的特征圖,這些特征圖將用于目標(biāo)跟蹤和行為識別。
目標(biāo)跟蹤與行為識別。在這一部分,將利用目標(biāo)檢測的結(jié)果(即檢測框的位置和大?。﹣磉M(jìn)行目標(biāo)跟蹤。同時,還將利用檢測框內(nèi)的目標(biāo)特征進(jìn)行行為識別。在Yolo V8中,這些模型更加豐富和擴(kuò)展,可以支持物體檢測、實例分割、圖像分類等多種任務(wù),并捆綁了多種預(yù)訓(xùn)練模型,可擴(kuò)展到所有以前的版本。
在聯(lián)合學(xué)習(xí)的框架圖中,看到特征提取和目標(biāo)跟蹤與行為識別之間的聯(lián)系。通過共享底層特征,提高目標(biāo)跟蹤和行為識別的性能和準(zhǔn)確性。此外,還可以通過多任務(wù)學(xué)習(xí)和序列建模等方法將目標(biāo)跟蹤和行為識別結(jié)合起來,以充分利用2個任務(wù)的相關(guān)性和互補(bǔ)性。
最后,聯(lián)合學(xué)習(xí)框架圖的訓(xùn)練和測試流程可以采用常規(guī)的機(jī)器學(xué)習(xí)流程進(jìn)行??梢酝ㄟ^定義損失函數(shù)來衡量模型的性能,并采用梯度下降等優(yōu)化算法來更新模型的參數(shù)。在測試階段,可以將輸入數(shù)據(jù)送入模型進(jìn)行預(yù)測,并評估模型的性能和準(zhǔn)確性。
4? 結(jié)束語
本文主要介紹了Yolo V7和Yolo V8這2個基于深度學(xué)習(xí)的目標(biāo)跟蹤和行為識別算法的最新進(jìn)展。Yolo V7提出了一種新的標(biāo)簽分配方法——MaxIOU,提高了目標(biāo)檢測的準(zhǔn)確性和穩(wěn)定性,同時采用了多標(biāo)簽分類的方法進(jìn)行行為識別。聯(lián)合學(xué)習(xí)是一種將目標(biāo)跟蹤和行為識別結(jié)合起來的方法,通過充分利用2個任務(wù)的相關(guān)性和互補(bǔ)性,提高了各自的性能和準(zhǔn)確性。本文總結(jié)了基于深度學(xué)習(xí)的目標(biāo)跟蹤和行為識別技術(shù)的發(fā)展趨勢和挑戰(zhàn),未來的研究將更加注重提高模型效率和泛化能力,同時解決實際應(yīng)用中的問題。
參考文獻(xiàn):
[1] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2014:580-587.
[2] GIRSHICK R. Fast R-CNN[C]// In Proceedings of the IEEE International Conference on Computer Vision (ICCV),2015.
[3] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector[C]//In Proceedings of the European Conference on Computer Vision (ECCV),2016:21-37.
[4] RREDMON J,DIVVALA S,GIRSHICK R, et al. You only look once:unified, real-time object detection[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:779-788.
[5] REDMON J,FARHADI A. YOLO9000:better, faster, stronger[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017:6517-6525.
[6] REDMON J,FARHADI A. YOLOv3: An Incremental Improvement[J].arXiv preprint arXiv,2018:1804.02767.
[7] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: ptimal speed and accuracy of object detection[J].arXiv preprint arXiv,2020:2004.10934.
[8] QIAO S,CHEN L C,YUILLE A. DetectoRS: detecting objects with recursive feature pyramid and switchable atrous convolution[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2021:1008-1017.
[9] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[J].arXiv preprint arXiv,2022:2207.02696.
[10] 李子君,魏振華,韓思明,等.基于3DCNN-BiConvLSTM的莫爾斯碼自動識別算法[J].無線電工程,2023,53(8):1862-1868.
[11] 白雪.基于雙流網(wǎng)絡(luò)的人體動作識別[D].鄭州:鄭州大學(xué),2019.