曹 超,顧幸生
華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237
隨著全球航空旅行和旅游業(yè)的發(fā)展,每年有數(shù)億人次進(jìn)行航空旅行。在這樣的大規(guī)模運(yùn)輸中,行李追蹤問題會(huì)很大程度影響運(yùn)輸中的丟失率。行李丟失是旅客在機(jī)場(chǎng)遇到的最常見問題之一,這不僅會(huì)帶來(lái)諸多損失,還會(huì)影響旅客的體驗(yàn)。因此,許多機(jī)場(chǎng)都在不斷探索新的技術(shù)和方法,例如使用RFID 以提高行李追蹤的準(zhǔn)確性和效率[1]。其中,與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的多目標(biāo)跟蹤算法成為研究熱點(diǎn)[2]。多目標(biāo)跟蹤技術(shù)在實(shí)現(xiàn)智能行李運(yùn)輸方面具有重要意義。多目標(biāo)跟蹤技術(shù)近些年發(fā)展飛速[3-6],根據(jù)跟蹤模式的區(qū)別,大致將跟蹤模式分成兩類:基于檢測(cè)的跟蹤(TBD)和檢測(cè)跟蹤一體化策略(JDE)。TBD模式首先使用檢測(cè)器得到目標(biāo)框,然后利用數(shù)據(jù)關(guān)聯(lián)算法進(jìn)行匹配。其中,DeepSORT 算法[6]將運(yùn)動(dòng)信息和外觀信息進(jìn)行數(shù)據(jù)關(guān)聯(lián)匹配。TBD 模式先檢測(cè)得到邊界框,再用邊界框和軌跡進(jìn)行匹配,因此跟蹤速度較慢。在監(jiān)控需求量較大的情況下,實(shí)現(xiàn)實(shí)時(shí)的跟蹤效果有不小的難度[7-9]。JDE 算法是一種一階段模式,通過解耦檢測(cè)器頭部并進(jìn)行相應(yīng)修改,直接對(duì)目標(biāo)進(jìn)行檢測(cè)和匹配。近幾年,產(chǎn)生出了多種JDE模式追蹤[10-11]。TransTrack[3]基于Transformer結(jié)構(gòu),結(jié)合注意力機(jī)制追蹤當(dāng)前幀已存在的目標(biāo),并完成新目標(biāo)的檢測(cè)。注意力機(jī)制的加入雖然對(duì)于整體追蹤效果有很大的提升,但是也會(huì)進(jìn)一步增加推理的復(fù)雜度,降低追蹤的實(shí)時(shí)性能。
TBD 模式中的目標(biāo)檢測(cè)部分是非常重要的環(huán)節(jié),YOLO 系列作為非常重要且具有影響力的目標(biāo)檢測(cè)算法常常被使用。YOLO v8 作為YOLO 系列的最新版本,相比過去有了很多明顯的研究進(jìn)展。YOLO v8 在精度方面進(jìn)行了進(jìn)一步的提升。它采用了更深、更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),可以更好地捕捉目標(biāo)的細(xì)節(jié)和特征。此外,還引入了一些新的技術(shù)和算法,例如更強(qiáng)大的骨干網(wǎng)絡(luò)和更有效的多尺度特征融合方法,從而進(jìn)一步提高了目標(biāo)檢測(cè)的精度。YOLO v8不僅在提高精度方面有了很大的進(jìn)展,還依然保持了YOLO 系列一貫的特點(diǎn),即快速的檢測(cè)速度。仍然通過單次前向傳播的方式進(jìn)行目標(biāo)檢測(cè),避免了復(fù)雜的區(qū)域生成和候選框篩選過程。
YOLO v8相比于過去YOLO系列具有更高的檢測(cè)精度、更快的檢測(cè)速度、更好的適應(yīng)性和通用性,以及更強(qiáng)大的預(yù)測(cè)能力。這些優(yōu)勢(shì)和特點(diǎn)使得YOLO v8成為目標(biāo)檢測(cè)領(lǐng)域的一種重要算法,并在各種實(shí)際應(yīng)用場(chǎng)景中發(fā)揮著重要作用。
除了目標(biāo)檢測(cè)部分,TBD模式中的數(shù)據(jù)關(guān)聯(lián)策略也十分關(guān)鍵。數(shù)據(jù)關(guān)聯(lián)時(shí)一般不會(huì)使用置信度低于一定閾值的低分框來(lái)進(jìn)行匹配,然而這些低分框是由于遮擋產(chǎn)生,本身也是軌跡的一部分,不使用會(huì)對(duì)整體追蹤性能產(chǎn)生影響。為了解決這個(gè)問題,Zhang 等人[5]提出了ByteTrack方法。該方法在TBD的基礎(chǔ)上同時(shí)利用低分框和高分框,提高了追蹤的性能。它使用YOLOX[12]作為檢測(cè)器,然后使用了BYTE作為數(shù)據(jù)關(guān)聯(lián)方法。為達(dá)到實(shí)時(shí)檢測(cè)的目的,僅使用運(yùn)動(dòng)特征進(jìn)行關(guān)聯(lián),沒有使用外觀特征匹配,并在MOT17[13]和MOT20[14]數(shù)據(jù)集上取得了良好的效果。
在真實(shí)的機(jī)場(chǎng)環(huán)境中,由于行李之間以及搬運(yùn)工人的遮擋,很容易引起跟蹤中行李I(lǐng)D頻繁切換,對(duì)跟蹤產(chǎn)生很大影響。過去TBD模式的不斷改進(jìn)往往側(cè)重點(diǎn)在數(shù)據(jù)關(guān)聯(lián)策略上,忽視了檢測(cè)是追蹤的第一步,目標(biāo)檢測(cè)的準(zhǔn)確性會(huì)很大程度影響追蹤的性能。本文的創(chuàng)新之處在于將多目標(biāo)追蹤技術(shù)引入機(jī)場(chǎng)行李管理環(huán)節(jié),采用多目標(biāo)追蹤的算法對(duì)機(jī)場(chǎng)行李進(jìn)行追蹤,并針對(duì)機(jī)場(chǎng)行李和搬運(yùn)工人之間的互相遮擋提出針對(duì)目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián)的一系列改進(jìn)提升效果,以達(dá)到真實(shí)場(chǎng)景使用的目的。首先,通過改進(jìn)后的YOLO v8 檢測(cè)器輸出行李箱的邊界框和置信度信息,以改善檢測(cè)效果。然后,改進(jìn)了BYTE 策略,并設(shè)計(jì)了軌跡插值后處理策略,提高了行李箱ID 的穩(wěn)定性。最后,該方法僅采用交并比(IOU)匹配,以降低算法需要的推理時(shí)間,來(lái)實(shí)現(xiàn)實(shí)時(shí)追蹤。通過這種改進(jìn)的算法,旨在為智能化機(jī)場(chǎng)行李運(yùn)輸提供技術(shù)支持。
算法框架如圖1所示。
圖1 基于改進(jìn)的YOLO v8的多目標(biāo)跟蹤框架Fig.1 Framework for multi-objective tracking based on improved YOLO v8
主要由以下兩部分組成:
(1)邊界框檢測(cè)。首先改進(jìn)后的YOLO v8 目標(biāo)檢測(cè)器檢測(cè)出視頻當(dāng)前幀的所有邊界框,再通過歷史幀計(jì)算得到軌跡。
(2)數(shù)據(jù)關(guān)聯(lián)。檢測(cè)到的邊界框輸入到跟蹤器。跟蹤器采用改進(jìn)的BYTE算法,分別將檢測(cè)結(jié)果分為高分框和低分框,使用卡爾曼濾波和高斯平滑插值(GSI)預(yù)測(cè),用匈牙利算法去匹配。最后,輸出跟蹤序列結(jié)果。
該框架是一個(gè)TBD框架,通過改進(jìn)YOLO v8極大增強(qiáng)了檢測(cè)目標(biāo)框提取的精確度,并且改進(jìn)ByteTrack數(shù)據(jù)關(guān)聯(lián)策略,提高遮擋情況下的追蹤性能。
1.2.1 網(wǎng)絡(luò)結(jié)構(gòu)及原理
改進(jìn)的YOLO v8網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 改進(jìn)的YOLO v8網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Improved YOLO v8 network structure
YOLO v8網(wǎng)絡(luò)包括輸入端、主干網(wǎng)、Neck模塊和輸出端四個(gè)組成部分。采用了Conv、C2f和SPPF結(jié)構(gòu),其中C2f模塊是學(xué)習(xí)殘差特征的主要模塊,通過多個(gè)跨層連接的分支增強(qiáng)了模型的梯度流。Neck 模塊采用了PAN結(jié)構(gòu),有助于提高對(duì)不同縮放尺度下特征的結(jié)合水平。輸出端實(shí)現(xiàn)了分類和檢測(cè)的解耦,包括損失計(jì)算和目標(biāo)檢測(cè)框篩選。損失計(jì)算過程采用了任務(wù)對(duì)齊分配器[15]方法,根據(jù)分?jǐn)?shù)加權(quán)結(jié)果選擇樣本。損失計(jì)算涵蓋了分類和回歸分支,沒有目標(biāo)分支。分類分支使用了BCE Loss,回歸分支則采用了分布焦點(diǎn)損失(DFL Loss)[16]和CIOU 損失函數(shù)。與YOLO v8 之間的差異在于本文在Neck 和Backbone 之間引入了CBAM 注意力模塊以提升模型性能,使其更關(guān)注如行李部分等重要區(qū)域。此外,將YOLO v8 的檢測(cè)頭替換為非對(duì)稱多級(jí)通道壓縮解耦頭(ADH),既減小了目標(biāo)評(píng)分任務(wù)的訓(xùn)練難度,提高了模型性能,又顯著減少了解耦頭模塊的參數(shù)和GFLOP,從而大幅提升了推理速度,以保證下游追蹤的實(shí)時(shí)性。同時(shí),將回歸分支的損失函數(shù)更換為ECIOULoss,能夠更好地調(diào)節(jié)每條邊的收斂情況,提升檢測(cè)部分的精度。
1.2.2 CBAM注意力機(jī)制模塊
注意力機(jī)制減少噪聲干擾,只關(guān)注有用的信息。因此,本文引入了一個(gè)輕量的注意力機(jī)制CBAM,將模型的注意力集中在行李部分,而盡可能減少對(duì)于機(jī)場(chǎng)的背景和工作人員的關(guān)注,并應(yīng)用塊結(jié)構(gòu)改善YOLOv8網(wǎng)絡(luò)的性能、精度。圖3所示的注意力機(jī)制CBAM由通道注意力機(jī)制(CAM)和空間注意力機(jī)制(SAM)[17]兩個(gè)子模塊組成。
圖3 CBAM注意力機(jī)制模塊Fig.3 CBAM attention mechanism module
首先進(jìn)行的是CAM,將輸入特征圖經(jīng)過基于寬度的全局最大池化(max-pooling),接著經(jīng)過基于高度的全局平均池化(mean-pooling),得到1×1×C的特征圖;再將特征圖輸入共享全連接網(wǎng)絡(luò)中;得到的特征圖經(jīng)過Sigmoid函數(shù)σ激活操作生成輸出特征圖Fc,公式為:
得到的輸出特征圖Fc與輸入特征圖F(H×W×C)進(jìn)行逐元素乘法(element_wise)操作得到F′,其公式為:
F′作為空間注意力機(jī)制的輸入特征??臻g注意力機(jī)制將輸入特征圖Fc基于通道進(jìn)行max-pooling 和mean-pooling,得到的特征圖進(jìn)行通道拼接后利用一個(gè)7×7 的卷積進(jìn)行降維,最后利用Sigmoid 函數(shù)σ激活生成輸出特征圖Fs,公式為:
得到的Fs再與空間注意力機(jī)制的輸入特征F′進(jìn)行element_wise乘法,生成特征圖F″,其公式為:
由此利用雙通道注意力機(jī)制CBAM 就可以在不占用大量算力的情況下,將骨干網(wǎng)絡(luò)CSPDarknet 和特征金字塔FPN中的通道信息和空間信息分別進(jìn)行融合,進(jìn)而在每個(gè)特征層提取相應(yīng)的圖像特征,將網(wǎng)絡(luò)的精度和實(shí)時(shí)性均進(jìn)行相應(yīng)提升。
1.2.3 ADH非對(duì)稱多級(jí)通道壓縮解耦頭
為了解決YOLO v8 中各個(gè)頭之間的相互影響,引入了解耦頭模塊。然而,這種結(jié)構(gòu)也產(chǎn)生了一些問題。首先,解耦頭模塊明顯增加了模型的參數(shù)量,從而降低了推理速度,與實(shí)時(shí)性的目標(biāo)相矛盾。其次,該結(jié)構(gòu)對(duì)設(shè)備內(nèi)存的需求較高,對(duì)于內(nèi)存有限的設(shè)備,使用該結(jié)構(gòu)具有一定問題。最后,可能導(dǎo)致特征表示不夠充分,無(wú)法完全利用骨干網(wǎng)絡(luò)提取的高級(jí)特征,從而影響模型性能。為了解決上述問題,本文提出了一種新型的解耦頭結(jié)構(gòu),稱為非對(duì)稱多級(jí)通道壓縮解耦頭(ADH)(圖4)。
圖4 ADH解耦頭模塊Fig.4 ADH decoupling head module
在提出的ADH中,根據(jù)各種任務(wù)類型對(duì)網(wǎng)絡(luò)劃分,通過2 條不同的網(wǎng)絡(luò)路徑完成相應(yīng)的任務(wù)。深化了目標(biāo)評(píng)分任務(wù)的路徑,使用3 個(gè)Conv 增加任務(wù)的感受野。同時(shí),沿著通道維度壓縮每個(gè)卷積層的特征。不僅有效地減小了目標(biāo)評(píng)分的訓(xùn)練難度,提升了模型的整體效果,并且極大降低了模塊的參數(shù),進(jìn)而明顯加快了推理速度。此外,使用尺寸為1的卷積核分離分類和邊界框回歸任務(wù)。這是因?yàn)閷?duì)于匹配的正樣本,與兩個(gè)任務(wù)相關(guān)的損失相對(duì)較小,因此避免了過度擴(kuò)展。這種方法大大降低了解耦頭中的參數(shù),最終導(dǎo)致更快的推理速度,極大提升了行李追蹤過程中的FPS 指標(biāo),保證了追蹤的實(shí)時(shí)性能滿足實(shí)際場(chǎng)景的需要。
1.2.4 ECIOU-Loss
目標(biāo)檢測(cè)任務(wù)一般可以分為定位和檢測(cè)兩部分,其中定位的準(zhǔn)確率主要由回歸損失函數(shù)主導(dǎo)。因此,根據(jù)不同的需求提出了相應(yīng)的損失函數(shù)。
通過選擇合適的正負(fù)樣本,IOU扮演了邊界框回歸中最流行的指標(biāo),其作用是衡量預(yù)測(cè)框與實(shí)際框之間的相似度?;贗OU衍生出許多不同的評(píng)價(jià)體系,從不同方面改善了原有IOU損失函數(shù)存在的缺陷,大大增強(qiáng)了其魯棒性。
最具代表性的方法是廣義交叉聯(lián)合(GIOU)[18]、距離交叉聯(lián)合(DIOU)[19]和完全交叉聯(lián)合(CIOU)[20]損失函數(shù),它們?cè)谀繕?biāo)檢測(cè)的巨大進(jìn)步中發(fā)揮著基礎(chǔ)性作用,但仍有很大的仿化空間。
在上述方法中,CIOU 是目前表現(xiàn)最好的邊界回歸損失函數(shù),它考慮了三個(gè)重要的幾何因素,分別是重疊區(qū)域、中心點(diǎn)距離和縱橫比。CIOU用IOU、歐幾里得距離、對(duì)應(yīng)的長(zhǎng)寬比和角度來(lái)測(cè)量目標(biāo)和真實(shí)框的重疊區(qū)域。
回歸時(shí)預(yù)測(cè)框的寬高無(wú)法同時(shí)變化,因?yàn)椴皇钦嬲膶捀卟罴捌渲眯哦?;因此,一旦它收斂到預(yù)測(cè)幀和真實(shí)幀的寬度和高度之間的線對(duì)線比,它有時(shí)會(huì)阻止模型有效地優(yōu)化相似度。損失函數(shù)EIOU_Loss[21]在CIOU_Loss的基礎(chǔ)上對(duì)縱橫比影響因子進(jìn)行拆分,計(jì)算預(yù)測(cè)幀和實(shí)際幀的長(zhǎng)寬,解決CIOU_Loss問題。針對(duì)行李在傳送帶上運(yùn)輸過程中行李部分的縱橫比不停發(fā)生變化,結(jié)合CIOU和EIOU這兩個(gè)損失函數(shù)是ECIOU的基礎(chǔ)。預(yù)測(cè)幀的縱橫比首先由CIOU改變,直到它收斂到一個(gè)合適的范圍,然后每個(gè)邊緣都由EIOU仔細(xì)調(diào)整,直到它收斂到正確的值。EClOU_Loss由公式計(jì)算得出。
本文提出了一種插值算法,用于填充由檢測(cè)缺失引起的軌跡空白。傳統(tǒng)的線性插值方法簡(jiǎn)單易用,因?yàn)闆]有考慮到運(yùn)動(dòng)信息,其準(zhǔn)確性受到一定的影響。雖然一些新的解決方案被提出用來(lái)改進(jìn)這些問題,但通常會(huì)加入額外的復(fù)雜模塊,導(dǎo)致計(jì)算時(shí)間延長(zhǎng)。
所以針對(duì)行李傳送帶上運(yùn)輸過程中的非線性運(yùn)動(dòng),本文利用高斯回歸對(duì)非線性運(yùn)動(dòng)進(jìn)行建模。將高斯過程回歸應(yīng)用于軌跡插值,能夠更精準(zhǔn)地預(yù)測(cè)丟失的軌跡段。
制定了第i個(gè)軌跡的高斯插值法(GSI)模型如下:
其中,t∈F為視頻幀,pt∈P為第t幀(即x,y,w,h)的位置坐標(biāo)變量,ε~N(0,σ2)為高斯噪聲。在給定長(zhǎng)度L的跟蹤軌跡的情況下,通過擬合函數(shù)f(i)解決非線性運(yùn)動(dòng)建模的任務(wù)。假設(shè)它服從一個(gè)高斯過程f(i)∈GP(0,k(·,·)),其中是一個(gè)徑向基函數(shù)核。根據(jù)高斯過程的性質(zhì),給定新的幀集F*,預(yù)測(cè)其平滑位置P*:
其中,K(·,·)是基于k(·,·)的協(xié)方差函數(shù)。此外,超參數(shù)λ控制著軌跡的平滑度,這應(yīng)該與其長(zhǎng)度有關(guān)。將它設(shè)計(jì)成一個(gè)自適應(yīng)長(zhǎng)度為l的函數(shù),如下:
圖5展示了GSI和線性插值(LI)之間的差異。不加入插值算法的結(jié)果通常包括噪聲干擾,而LI 沒有利用到運(yùn)動(dòng)信息。GSI通過自適應(yīng)平滑因子平滑整個(gè)軌跡,使得這兩個(gè)問題同時(shí)被解決。
為了進(jìn)行機(jī)場(chǎng)行李追蹤的研究,由于缺乏公開的相關(guān)數(shù)據(jù)集,本文使用了范德蘭德公司提供的數(shù)據(jù)集,以便進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)采集過程中使用了普通的RGB相機(jī)進(jìn)行監(jiān)控和視頻錄制,并利用錄制的視頻進(jìn)行后續(xù)的數(shù)據(jù)集制作。為了制作數(shù)據(jù)集,對(duì)采集到的20 段行李箱在傳送帶上運(yùn)輸?shù)囊曨l數(shù)據(jù)進(jìn)行了預(yù)處理劃分為訓(xùn)練集和測(cè)試集。
訓(xùn)練集總共采集了16 段視頻,每秒提取2 幀的數(shù)據(jù),總計(jì)提取了8 080 幀用于訓(xùn)練。測(cè)試集包括了4 段視頻,每秒提取4幀的數(shù)據(jù),總計(jì)提取了1 300幀用于測(cè)試。為了制作標(biāo)簽,使用了labelImg標(biāo)簽工具對(duì)訓(xùn)練集的8 080張圖片進(jìn)行了標(biāo)注。
為了后續(xù)測(cè)試模型對(duì)遮擋行李箱的追蹤效果,所以從中分別抽取出了3 200 張存在明顯遮擋的圖片,按照遮擋程度較輕、中等和嚴(yán)重分別提取出1 700 張、1 000張和500張圖片用來(lái)進(jìn)行單獨(dú)的遮擋實(shí)驗(yàn)效果驗(yàn)證。
本文的實(shí)驗(yàn)設(shè)備參數(shù)如下:Windows11,顯卡為RTX4060,顯存8 GB,CPU 為i7-13700H,內(nèi)存16 GB。訓(xùn)練參數(shù)如下:輸入圖片分辨率為1 920×1 080;參數(shù)更新使用隨機(jī)梯度下降(SGD)方法,動(dòng)量值為0.9;學(xué)習(xí)率為0.001;共訓(xùn)練500個(gè)epoch。
在本文所關(guān)注的問題中,選擇了一系列評(píng)估指標(biāo)來(lái)評(píng)估機(jī)場(chǎng)行李追蹤系統(tǒng)的性能。這些評(píng)估指標(biāo)包括:MOTA[14]、IDF1、IDs、FP、FN 和FPS。其中MOTA 指標(biāo)綜合考慮了FP、FN 和ID 切換率,用來(lái)計(jì)算跟蹤的準(zhǔn)確性。它能夠比較準(zhǔn)確地計(jì)算出跟蹤的精度,但不能用來(lái)直接評(píng)價(jià)軌跡的一致性。IDF1表示正確識(shí)別的檢測(cè)數(shù)與平均真實(shí)數(shù)量和檢測(cè)數(shù)量之比。IDF1能夠更好地度量軌跡匹配的一致性;IDs用于衡量ID切換的頻率;FPS表示每秒追蹤的幀數(shù),能夠度量追蹤的實(shí)時(shí)性。MOTA的計(jì)算公式如下:
其中,F(xiàn)P 表示誤報(bào)數(shù)量;FN 表示漏檢數(shù)量;IDSW 表示目標(biāo)ID切換數(shù)量;GT表示真實(shí)目標(biāo)框的個(gè)數(shù)。
本文方法的有效性通過以下幾個(gè)方面的對(duì)比來(lái)驗(yàn)證:檢測(cè)部分的各個(gè)模塊消融實(shí)驗(yàn);追蹤部分的消融實(shí)驗(yàn);不同遮擋程度下模塊的有效性驗(yàn)證;不同模型的對(duì)比實(shí)驗(yàn)。
為驗(yàn)證檢測(cè)部分各模塊的有效性,本文將未改進(jìn)的YOLOv8+ByteTrack 作為基線模型,對(duì)CBAM 模塊和ADH 模塊和損失函數(shù)ECIOU-Loss 進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1 所示,可以看出,分別加入CBAM 模塊和ADH 模塊對(duì)模型性能提升顯著,CBAM 模塊相比于ADH模塊對(duì)模型提升要大一點(diǎn)。但兩者同時(shí)加入相比單獨(dú)加入時(shí)對(duì)模型提升最大。CBAM 模塊會(huì)盡可能忽略無(wú)用的噪聲信息,ADH 模塊進(jìn)一步強(qiáng)化了用于目標(biāo)評(píng)分的路徑,并且加快了模型的推理速度,有利于保證追蹤的實(shí)時(shí)性。雖然模型采用ECIOU損失函數(shù)的貢獻(xiàn)比不上CBAM 模塊和ADH 模塊,但是也對(duì)模型收斂的速度和檢測(cè)的進(jìn)一步精度產(chǎn)生了促進(jìn)作用。
表1 各模塊的有效性驗(yàn)證Table 1 Validity verification of each module
為了檢驗(yàn)文本引入的GSI 模塊在追蹤部分的有效性,分別對(duì)比了未加入GSI模塊的模型和加入GSI模塊的模型,實(shí)驗(yàn)結(jié)果如表2所示??梢钥闯黾尤隚SI 模塊比未加入GSI 模塊MOTA 和IDF1 分別提升了1.7 和0.9個(gè)百分點(diǎn),但推理速度略有降低,綜合來(lái)看GSI 模塊不僅可以降低目標(biāo)ID的切換次數(shù),也大大降低了誤報(bào)率,獲得了更好的追蹤性能。
表2 GSI模塊的有效性驗(yàn)證Table 2 Validity verification of GSI module
為了進(jìn)一步研究在遮擋情況下改進(jìn)后的模型的效果,將5幀以內(nèi)1/4部分的遮擋認(rèn)為是輕度遮擋情況,將5~10 幀1/2 部分的遮擋認(rèn)為是中等程度遮擋,將10~15幀完全的遮擋認(rèn)為是重度遮擋,表3~表5分別給出改進(jìn)后的模型在發(fā)生輕度遮擋、中度遮擋和重度遮擋時(shí)效果遠(yuǎn)好于基線模型,尤其是遮擋程度嚴(yán)重時(shí),改善尤為明顯。圖6 分別選取了12 幀三種情況下的實(shí)際效果圖作對(duì)比,每?jī)蓮垐D間隔3幀。圖6(a)中即使是輕度遮擋的情況下,當(dāng)行李箱的特征和背景接近,未改進(jìn)的模型在第3 幀未檢測(cè)出黑色行李箱,因此在第6 幀重新檢測(cè)出時(shí)發(fā)生了ID切換的情況,從而追蹤失敗,但改進(jìn)后的模型則很好地減少了這種情況的發(fā)生,可以明顯看出追蹤過程中沒有發(fā)生ID切換。圖6(b)中當(dāng)發(fā)生中度遮擋兩個(gè)黃色行李箱被一個(gè)大的黑色行李箱分別遮擋一半時(shí),未改進(jìn)的模型發(fā)生了漏檢的情況,其中一個(gè)黃色行李箱未檢測(cè)出,從而發(fā)生了ID丟失的情況,改進(jìn)后則明顯改善了這種情況,即使是中度遮擋情況下也很好地完成了追蹤。圖6(c)中重度遮擋情況下,黑色箱子完全被彩色箱子遮擋了12幀,當(dāng)彩色箱子拿走時(shí),未改進(jìn)的模型發(fā)生了ID 的切換,改進(jìn)過的模型仍然成功追蹤。上面三種情況可以看出本文模型在目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián)中都有較為良好的表現(xiàn),即使是高程度的遮擋和長(zhǎng)時(shí)間的遮擋,也能有著很好的追蹤效果。最后還將改進(jìn)后的模型與對(duì)比實(shí)驗(yàn)中綜合效果最好的TransCenter對(duì)比,結(jié)果也進(jìn)一步證明,在遮擋情況下改進(jìn)后模型的綜合效果有很大的提升和領(lǐng)先。
表3 輕度遮擋時(shí)的效果驗(yàn)證Table 3 Verification of effects under mild occlusion
表4 中度遮擋時(shí)的效果驗(yàn)證Table 4 Verification of effects under moderate occlusion
表5 重度遮擋時(shí)的效果驗(yàn)證Table 5 Verification of effects under severe occlusion
圖6 三種程度遮擋下追蹤效果對(duì)比圖Fig.6 Comparison of tracking effects under three degrees of occlusion
本文還對(duì)比了近幾年效果較好的多目標(biāo)追蹤模型,對(duì)比實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同模型結(jié)果對(duì)比Table 6 Comparison of results between different models
在表6 中QuasiDense、GSDT、CFTracker 皆采用了本文未改進(jìn)的YOLO v8 作為檢測(cè)器進(jìn)行TBD 范式的追蹤。由表6 可以看出,與FairMOT[11]和QuasiDense[22]相比,本文提出的模型雖然FPS 略低,但是有著更高的整體精度和ID 識(shí)別率;與CFTracker[23]、GSDT[24]和Swin_JDE[25]相比,所有指標(biāo)都有較為顯著的提升;與SLA_Tracker[26]相比,雖然有著更高的誤報(bào)率,但是其余指標(biāo)也均更優(yōu);與TransCenter[27]相比,雖然IDF1 略有下降,但是綜合精度和FPS 都有顯著提升。綜上所述,改進(jìn)后的YOLO v8和ByteTrack在跟蹤準(zhǔn)確度、ID切換次數(shù)、實(shí)時(shí)性等有更優(yōu)秀的綜合性能。
針對(duì)機(jī)場(chǎng)行李追蹤過程中的檢測(cè)精度不足導(dǎo)致的誤檢漏檢以及追蹤過程中的長(zhǎng)時(shí)間遮擋ID 切換問題,本文提出了一種機(jī)場(chǎng)行李追蹤技術(shù),該框架基于改進(jìn)的YOLO v8 和改進(jìn)的ByteTrack 算法構(gòu)成。設(shè)計(jì)了一種注意力機(jī)制模塊CBAM添加在核心骨干網(wǎng)絡(luò)CSPDarknet之后,進(jìn)而在每個(gè)特征層提取相應(yīng)的圖像特征,將網(wǎng)絡(luò)的性能和檢測(cè)的實(shí)時(shí)性均進(jìn)行相應(yīng)提升。提出了一種新的解耦頭ADH,不僅有效地減小了目標(biāo)評(píng)分的訓(xùn)練難度,提升了模型的整體效果,并且極大降低了模塊的參數(shù),進(jìn)而明顯加快了推理速度。在模型訓(xùn)練時(shí)采用ECIOU 損失函數(shù),加快了模型訓(xùn)練速度。在數(shù)據(jù)關(guān)聯(lián)部分中增加了GSI 模塊,能有效減小嚴(yán)重遮擋后的ID切換率。實(shí)驗(yàn)結(jié)果表明本文提出的算法可以有效減小ID 切換率和漏檢誤檢率,提高整體的追蹤精度。但本文提出的框架只在機(jī)場(chǎng)行李追蹤場(chǎng)景中驗(yàn)證,本文的后續(xù)重點(diǎn)是繼續(xù)增強(qiáng)模型的泛化能力,在其他的場(chǎng)景中也可以取得優(yōu)秀的效果。