關(guān)鍵詞:弱監(jiān)督;時(shí)序動(dòng)作定位;空洞卷積;雙流融合
中圖分類(lèi)號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-039-2213-07
doi:10.19734/j. issn.1001-3695.2024.09.0373
Abstract:Weakly supervised temporalaction localizationaims to clasifyand locateaction instances inuntrimmed videos usingonlyvideo-levellabels.Existing models typicallusepre-trainedfeature extractors toextractsegment-levelRGBandopticalflowfeaturesfromvideos,butthepre-extractedsegment-levelvideofeaturesonlycovershorttimespansanddootonsider thecomplementarityandcorrelationbetweeRGBandopticalfo,hichaffctstheacuracyoflocalization.Totisnd,tis paper proposedaweakly-supervised temporalaction localization model withdual-streamfeatureenancementand fusion.Firstly,itexpandedthereceptivefieldthrough amulti-scaledensedilatedconvolution,alowing the modeltocover multipletime spansand capture the temporal dependenciesbetween video segments,resulting inenhancedRGBandopticalflow features. Then,itutilizedaconvolutionalnetworktoadaptivelyextractkeyfeaturesfromtheenhancedRGBandopticalflowfeaturesfor fusion,achievingcomplementarycorelationetweenRGBandopticalflowfeatures,furtherenrichingthevideofeaturerepre sentationand improving theaccuracyof themodel'slocalizationperformance.The modelachieves detectionaccuraciesof (20 73.9% and 43.5% on the THUMOS14 and ActivityNet1.3 datasets respectively,outperforming the existing state-of-the-art models,which proves the effectiveness of the proposed model.
Key Words:weakly supervision;temporal action localization;dilated convolution;dual-stream fusion
0 引言
時(shí)序動(dòng)作定位作為視頻理解領(lǐng)域中的關(guān)鍵任務(wù),在諸如視頻監(jiān)控、異常檢測(cè)和視頻檢索等實(shí)際應(yīng)用中扮演著重要角色。其目標(biāo)是精確定位視頻中感興趣的動(dòng)作發(fā)生的時(shí)間邊界,并正確分類(lèi)這些動(dòng)作。傳統(tǒng)上,這項(xiàng)任務(wù)依賴于全監(jiān)督學(xué)習(xí),需要大量的時(shí)間和人力標(biāo)注視頻中動(dòng)作的精確時(shí)間邊界。然而,這種方法不僅耗時(shí)費(fèi)力,還可能因人為標(biāo)注的主觀性而引入誤差。弱監(jiān)督學(xué)習(xí)方法通過(guò)簡(jiǎn)化數(shù)據(jù)收集和標(biāo)注過(guò)程,降低了成本,并減少了人為誤差。弱監(jiān)督時(shí)序動(dòng)作定位更具備應(yīng)用前景,逐漸成為研究者關(guān)注的焦點(diǎn)。在弱監(jiān)督時(shí)序動(dòng)作定位領(lǐng)域,利用視頻級(jí)別的標(biāo)注定位動(dòng)作的時(shí)間區(qū)間是一項(xiàng)具有挑戰(zhàn)性的任務(wù)?,F(xiàn)有方法通常將該任務(wù)視為多示例學(xué)習(xí)(multi-instancelearning,MIL)問(wèn)題。通過(guò)將預(yù)提取的視頻特征輸入到分類(lèi)器,生成時(shí)間類(lèi)激活序列(temporalclassactivationsequence,TCAS)。然后,采用top-k均值策略對(duì)TCAS進(jìn)行聚合,得到視頻級(jí)別的動(dòng)作預(yù)測(cè)。本文旨在通過(guò)豐富視頻特征表示的方式,提高生成的TCAS質(zhì)量,進(jìn)而提升弱監(jiān)督時(shí)序動(dòng)作定位的效果。因?yàn)門(mén)CAS質(zhì)量的高低直接影響了弱監(jiān)督時(shí)序動(dòng)作定位的效果,通常情況下,TCAS是通過(guò)對(duì)視頻特征進(jìn)行分類(lèi)處理后得到的。高質(zhì)量的視頻特征可以生成更為準(zhǔn)確和可靠的TCAS,從而為后續(xù)的動(dòng)作定位提供有力支持;相反,若視頻特征質(zhì)量欠佳,那么得到的TCAS可能存在偏差或不準(zhǔn)確的情況,進(jìn)而對(duì)整個(gè)動(dòng)作定位的效果產(chǎn)生不利影響。
UntrimmedNet[1]是第一個(gè)使用MIL方法解決弱監(jiān)督時(shí)序動(dòng)作定位(weakly supervised temporal actionlocalization,WTAL)任務(wù)的網(wǎng)絡(luò),結(jié)合分類(lèi)模塊和選擇模塊預(yù)測(cè)視頻行為。Nguyen等人[2]基于多示例學(xué)習(xí)提出 STPN(sparse temporal poolingnet-work)。該網(wǎng)絡(luò)結(jié)合了稀疏性約束和時(shí)間池化機(jī)制,通過(guò)稀疏時(shí)間池化模塊將注意力集中在關(guān)鍵的動(dòng)作片段上,最終通過(guò)定位頭部生成動(dòng)作的定位輸出。針對(duì)模型學(xué)習(xí)到的分類(lèi)器通常集中在容易區(qū)分的片段上問(wèn)題,Gao等人[3提出了一種基于細(xì)粒度時(shí)間對(duì)比學(xué)習(xí)的方法。利用動(dòng)態(tài)規(guī)劃和兩種互補(bǔ)的對(duì)比目標(biāo),比較視頻序列之間的時(shí)間差異,從而識(shí)別出連貫的動(dòng)作實(shí)例。TFE-DCN[4]和文獻(xiàn)[5]利用空洞卷積對(duì)視頻的時(shí)序特征進(jìn)行增強(qiáng),提高了定位的完整性。為了更好地區(qū)分動(dòng)作實(shí)例和背景,文獻(xiàn)[6\~8]引入了注意力機(jī)制抑制背景的激活分?jǐn)?shù),并突出了動(dòng)作的激活分?jǐn)?shù)。 D2-Net[9] 設(shè)計(jì)一種新的損失函數(shù),同時(shí)提高了潛在嵌入的可區(qū)分性和輸出時(shí)序類(lèi)別激活的魯棒性,并利用一個(gè)自上而下的注意力機(jī)制來(lái)增強(qiáng)潛在前景和背景嵌入的分離性。HAM-Net框架[1°通過(guò)混合注意力機(jī)制,有效地識(shí)別和利用視頻中的動(dòng)作信息,以全面捕獲動(dòng)作的時(shí)序邊界。由于缺乏幀級(jí)注釋?zhuān)墨I(xiàn)[11,12]通過(guò)偽標(biāo)簽監(jiān)督模型訓(xùn)練來(lái)彌合分類(lèi)和定位之間的差異。 RSKP[13] 引入了一個(gè)記憶庫(kù)模塊存儲(chǔ)視頻中挖掘的代表性片段,以提高視頻之間信息傳播,實(shí)現(xiàn)視頻特征互補(bǔ),進(jìn)而生成高質(zhì)量偽標(biāo)簽,并用于糾正主分支的預(yù)測(cè)。Zhou等人[14]將偽標(biāo)簽生成視為一個(gè)優(yōu)化問(wèn)題,根據(jù)動(dòng)作實(shí)例的置信度和動(dòng)作類(lèi)別的先驗(yàn)分布,為每個(gè)片段分配一個(gè)最優(yōu)實(shí)例級(jí)別的動(dòng)作標(biāo)簽,緩解了偽標(biāo)簽的重疊和不一致問(wèn)題。此外,還引入一個(gè) Δ 偽標(biāo)簽的概念,即根據(jù)當(dāng)前的偽標(biāo)簽和上一輪的偽標(biāo)簽之間的差異,對(duì)偽標(biāo)簽進(jìn)行調(diào)整,使模型具有自我糾正的能力,以便在訓(xùn)練過(guò)程中逐步改善偽標(biāo)簽的質(zhì)量,進(jìn)而提高模型定位性能。
盡管現(xiàn)有模型在WTAL任務(wù)上的檢測(cè)性能有較大提升,但定位性能仍然受限,存在視頻時(shí)間信息利用不充分和忽略了RGB和光流特征之間的互補(bǔ)關(guān)聯(lián)性問(wèn)題。具體分析如下:首先,上述模型大多都是使用預(yù)訓(xùn)練的特征提取器從視頻中提取片段級(jí)RGB和光流特征,然后直接將預(yù)提取的視頻特征輸入到主干網(wǎng)絡(luò)獲得定位結(jié)果。然而,現(xiàn)實(shí)場(chǎng)景中,一個(gè)動(dòng)作通常持續(xù)時(shí)間為幾秒到數(shù)十秒不等,預(yù)提取的片段特征只覆蓋16幀,不足以觀察完整的動(dòng)作實(shí)例,視頻間蘊(yùn)涵的時(shí)間信息利用不足,導(dǎo)致模型定位不準(zhǔn)確。其次,預(yù)訓(xùn)練的特征提取器通常是分別對(duì)RGB和光流進(jìn)行處理的,沒(méi)有考慮它們之間的互補(bǔ)性和關(guān)聯(lián)性。并且,目前的大多數(shù)模型通常是將RGB和光流特征按通道維度拼接方式得到完整的視頻特征表示,這種簡(jiǎn)單的特征融合方式會(huì)忽略兩者之間的交互關(guān)系。然而,RGB和光流分別代表了視頻的外觀和運(yùn)動(dòng)信息,它們?cè)趧?dòng)作的識(shí)別和定位方面都發(fā)揮著重要的作用,忽略兩者之間的互補(bǔ)關(guān)聯(lián)性會(huì)影響模型定位的性能。上述方法[4.5]雖然使用空洞卷積增強(qiáng)視頻的時(shí)序特征,但模型感受野只以固定的尺度進(jìn)行擴(kuò)大,對(duì)視頻的全局感知范圍單一,且沒(méi)有考慮RGB和光流特征的互補(bǔ)關(guān)聯(lián)性,進(jìn)而限制了模型的定位效果。
如圖1所示,展現(xiàn)了目前的SOTA模型DDG-NET[15]在THUMOS14數(shù)據(jù)集[1上分別包含懸崖跳水和跳高動(dòng)作的視頻樣本中定位效果。由于缺乏視頻時(shí)序信息提取,對(duì)動(dòng)作的全局感知能力較差,對(duì)于視頻中持續(xù)時(shí)間較長(zhǎng)的動(dòng)作定位結(jié)果不準(zhǔn)確或存在漏檢的情況。并且,因?yàn)槿狈GB和光流特征的融合,忽略了RGB和光流特征間的互補(bǔ)關(guān)聯(lián),對(duì)于復(fù)雜場(chǎng)景檢測(cè)性能不高,例如對(duì)于一些在外觀上與動(dòng)作場(chǎng)景相似,但不存在實(shí)際動(dòng)作發(fā)生的背景片段,容易使得模型出現(xiàn)誤檢情況。
綜上,現(xiàn)有模型存在視頻時(shí)間信息利用不充分和忽略了RGB和光流特征之間的互補(bǔ)關(guān)聯(lián)性問(wèn)題。對(duì)此,受TFE-DCN[4] 的啟發(fā),提出基于雙流特征增強(qiáng)和融合的弱監(jiān)督時(shí)序動(dòng)作定位模型(weaklysupervisedtemporal actionlocalizationwithdual-streamfeatureenhancementandfusion,DSFEF)。DSFEF具有以下優(yōu)勢(shì):a)針對(duì)現(xiàn)有模型視頻時(shí)間信息利用不充分問(wèn)題,設(shè)計(jì)雙流特征增強(qiáng)模塊,利用多尺度密集型空洞卷積網(wǎng)絡(luò),使模型融合不同尺度的空洞卷積層,擴(kuò)大模型的感受野,捕捉視頻片段間的時(shí)序依賴性,提高模型的全局感知能力;b)針對(duì)現(xiàn)有模型忽略RGB和光流特征之間的互補(bǔ)關(guān)聯(lián)性問(wèn)題,設(shè)計(jì)雙流特征融合模塊,利用卷積網(wǎng)絡(luò)自適應(yīng)提取增強(qiáng)RGB和光流特征中的關(guān)鍵特征進(jìn)行交叉融合,完成增強(qiáng)后雙流特征之間的深度交互,獲得更具表達(dá)力的特征,提高對(duì)復(fù)雜場(chǎng)景下動(dòng)作的檢測(cè)性能。本文主要貢獻(xiàn)如下:a)提出基于多尺度密集型空洞卷積的雙流特征增強(qiáng)模塊。使用不同擴(kuò)張率的空洞卷積層,構(gòu)建一個(gè)空洞卷積網(wǎng)絡(luò),促進(jìn)視頻片段利用整個(gè)感受野中其他片段的特征增強(qiáng)光流特征表示;并利用增強(qiáng)后的光流特征對(duì)RGB特征進(jìn)行增強(qiáng),充分利用視頻時(shí)間信息。b)提出雙流特征融合模塊。通過(guò)卷積網(wǎng)絡(luò)自適應(yīng)融合RGB和光流特征,強(qiáng)化它們之間的互補(bǔ)性和關(guān)聯(lián)性,提高模型對(duì)復(fù)雜動(dòng)作場(chǎng)景的理解能力。c)在公開(kāi)數(shù)據(jù)集THUMOS14[16]和ActivitiyNet1. 3[17] 上進(jìn)行了大量實(shí)驗(yàn)。結(jié)果表明,所提模型優(yōu)于現(xiàn)有SOTA模型。
1方法
1.1 問(wèn)題描述
假設(shè)給定 N 個(gè)未剪輯的視頻 {vn}n=1N ,其對(duì)應(yīng)的視頻類(lèi)別標(biāo)簽 {yi}i=1N ,其中 yi 是獨(dú)熱向量,共有 C+1 個(gè)類(lèi)別, c 為動(dòng)作類(lèi)別數(shù),第 c+1 維表示背景類(lèi)。如果第 χi 個(gè)視頻中包含第 k 個(gè)動(dòng)作類(lèi)別,則 yik=1 ,否則 yik=0 。弱監(jiān)督時(shí)序動(dòng)作定位的目標(biāo)是從每個(gè)視頻中識(shí)別并定位所有動(dòng)作實(shí)例,并為它們生成分類(lèi)和動(dòng)作提名 {ψi=(tis,tie,ci,φi)}i=1L ,其中 L 為視頻中動(dòng)作實(shí)例數(shù), tis 和 tie 分別表示動(dòng)作 ψi 的開(kāi)始時(shí)間和結(jié)束時(shí)間, ci 和 φi 分別表示動(dòng)作 ψi 所屬的類(lèi)別和動(dòng)作分?jǐn)?shù)。具體而言,給定一個(gè)視頻 vn ,首先將未剪輯的視頻分割為 T 個(gè)具有連續(xù)16幀的非重疊片段。將這些片段輸入到預(yù)訓(xùn)練的I3D網(wǎng)絡(luò)[18],提取得到RGB 特征 FRGB∈RD×T 和光流特征 FFlow∈RD×T ,其中, D 表示通道維度, D=1 024 。RGB和光流特征沿通道維度連接而形成初始片段級(jí)特征表示 F∈R2D×T 。將 F 輸入到DSFEF 模型,預(yù)測(cè)生成視頻 vn 的動(dòng)作提名集 ψ ,從而完成時(shí)序動(dòng)作定位。
1.2 總體框架
為解決預(yù)提取視頻特征時(shí)間信息利用不充分問(wèn)題,并有效結(jié)合RGB和光流特征互補(bǔ)信息進(jìn)行特征融合,提高定位精度,本文構(gòu)建了一種雙流特征增強(qiáng)與融合的弱監(jiān)督動(dòng)作定位模型DSFEF,整體框架如圖2所示。該模型由雙流特征增強(qiáng)、雙流特征融合、動(dòng)作定位三大模塊組成。
a)雙流特征增強(qiáng)模塊:包括光流特征增強(qiáng)模塊和RGB特征增強(qiáng)模塊。將初始的光流特征輸入到光流特征增強(qiáng)模塊,生成時(shí)間語(yǔ)義信息更加豐富的增強(qiáng)光流特征。具體而言,構(gòu)造多分支空洞卷積網(wǎng)絡(luò),通過(guò)融合各分支提取到的不同感受野下的光流特征,獲得增強(qiáng)光流特征。隨后將增強(qiáng)后的光流特征和初始RGB特征一并輸入到RGB特征增強(qiáng)模塊,并通過(guò)共享卷積的方式,利用增強(qiáng)后的光流特征引導(dǎo)RGB特征進(jìn)行增強(qiáng),保持兩種模態(tài)特征的一致性。增強(qiáng)后的雙流特征作為雙流特征融合模塊的輸入。
b)雙流特征融合模塊:利用卷積網(wǎng)絡(luò)自適應(yīng)提取增強(qiáng)RGB和光流特征中的關(guān)鍵特征進(jìn)行交叉融合。在此基礎(chǔ)上,對(duì)融合的關(guān)鍵特征應(yīng)用softmax函數(shù)獲得一組特征權(quán)重,以反映各片段特征的重要程度。將該權(quán)重應(yīng)用于提取到的關(guān)鍵特征上,并與增強(qiáng)后的特征相加,實(shí)現(xiàn)RGB和光流特征的互補(bǔ)關(guān)聯(lián)。隨后將互補(bǔ)關(guān)聯(lián)的RGB和光流特征輸入到卷積網(wǎng)絡(luò),得到更具表示力的特征,并作為動(dòng)作定位模塊的輸入。
c)動(dòng)作定位模塊:首先通過(guò)特征嵌入模塊將視頻特征映射至任務(wù)特定的特征空間中,隨后輸入至分類(lèi)器生成時(shí)序類(lèi)激活圖,最后通過(guò)閾值化和合并這些激活序列獲得最終的時(shí)序動(dòng)作定位結(jié)果。
光流特征 增強(qiáng)光流特征 特征提取器 增強(qiáng)模塊 光流特征 卷關(guān)鍵特征 I3D 增強(qiáng)模塊 RGB特征 增強(qiáng)RGB特征 時(shí)序類(lèi)激活圖S 特征 嵌入 模塊 Cx 分類(lèi)模塊 增強(qiáng)雙流特征 動(dòng)作定位模塊 初始雙流特征
1.3雙流特征增強(qiáng)模塊
預(yù)提取的視頻片段特征沒(méi)有充分利用視頻間的時(shí)間信息,影響了動(dòng)作定位的效果。因此,設(shè)計(jì)雙流特征增強(qiáng)模塊,捕捉視頻片段間的時(shí)序依賴性,更好地輔助模型實(shí)現(xiàn)動(dòng)作定位。RGB特征 FRGB 和光流特征 FFlow 共同構(gòu)成了視頻特征 F ,將雙流特征增強(qiáng)模塊分為光流特征增強(qiáng)模塊和RGB特征增強(qiáng)模塊兩個(gè)部分,從這兩個(gè)維度對(duì)初始視頻特征進(jìn)行增強(qiáng)。
1.3.1光流特征增強(qiáng)模塊
預(yù)提取的視頻片段特征只覆蓋了較短的時(shí)間跨度,不足以觀察到完整的動(dòng)作實(shí)例。因此,設(shè)計(jì)光流特征增強(qiáng)模塊,以便擴(kuò)大網(wǎng)絡(luò)的感受野,捕捉視頻片段間的時(shí)序依賴性。如圖3所示,該模塊包含了一種結(jié)合串聯(lián)和并聯(lián)的多尺度密集型空洞卷積網(wǎng)絡(luò)。它由具有不同感受野的多個(gè)分支組成,每個(gè)分支使用具有不同擴(kuò)張率的空洞卷積,邊路卷積尺寸大小為 1×1 。最終,所有分支的特征圖被融合在一起,不僅豐富了特征圖的信息,而且提高了對(duì)光流特征的提取和解碼能力。此外,該模塊還結(jié)合了CBAM[19] 注意力機(jī)制,進(jìn)一步優(yōu)化了特征的聚焦和表征。
如圖3所示,首先,將初始光流特征 FFlow 輸入四條并行分支,四條并行分支由一個(gè) 1×1 卷積分支 C0 和三個(gè)具有不同空洞率的空洞卷積分支 和 Z3 組成,用于提取光流片段的多感受野特征,再將感受野特征在通道維度拼接,得到融合不同尺度的感受野特征 FMFlow∈R4D×T 。該過(guò)程描述如式(1)所示。
FMFlow=concat(C0,Z1,Z2,Z3)
其中:concat為通道拼接操作; C0 為卷積操作; Zk 表示包含 k
個(gè)空洞卷積的網(wǎng)絡(luò)分支輸出,維度均為 RD×T 。該過(guò)程描述為
k=1,2,3;Z0=FFlow
其中 ?fdilated,k 表示空洞率為 2k-1 的卷積運(yùn)算。
其次,通過(guò)卷積操作調(diào)整 FMFlow 的通道維度,使其與 FFlow 的維度相匹配。然后,應(yīng)用CBAM卷積注意力機(jī)制分別在通道和空間維度上突出顯示特征的關(guān)鍵區(qū)域,從而獲得更精細(xì)化的特征表示 FsFlow∈RD×T ,該過(guò)程描述如式(3)所示。
FSFlow=A(conv(FMFlow))
其中:A為CBAM卷積注意力運(yùn)算。
最后,將 sigmoid函數(shù)應(yīng)用于 FsFlow ,并將輸出與初始特征FFlow 執(zhí)行逐元素乘法得到增強(qiáng)后的光流特征 FFlow*∈RD×T 該過(guò)程描述如式(4)所示。
FFlow*=sigmoid(FSFlow)?FFlow
其中: ? 表示逐元素乘法操作。
綜上,本模塊用了 1×1 卷積,以及不同擴(kuò)張率的空洞卷積層,形成了一個(gè)空洞卷積塊,然后將多個(gè)空洞卷積塊堆疊,構(gòu)成了一個(gè)空洞卷積網(wǎng)絡(luò),實(shí)現(xiàn)多尺度的特征提取,從而覆蓋一個(gè)長(zhǎng)的時(shí)間跨度,能夠捕捉動(dòng)作的完整動(dòng)態(tài),同時(shí)也保留了時(shí)序分辨率,促進(jìn)光流片段利用整個(gè)感受野中其他片段的運(yùn)動(dòng)信息增強(qiáng)其特征表示。此外,引入CBAM注意力機(jī)制進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)對(duì)關(guān)鍵時(shí)間特征的關(guān)注,優(yōu)化了特征表示,使其更加聚焦于動(dòng)作相關(guān)的信息,從而提升了動(dòng)作定位的準(zhǔn)確性和效率。
1.3.2 RGB特征增強(qiáng)模塊
雖然光流特征增強(qiáng)模塊提取時(shí)間信息并增強(qiáng)光流特征,但初始RGB特征沒(méi)有增強(qiáng)。因此,為保持兩種模態(tài)間的一致性,設(shè)計(jì)RGB特征增強(qiáng)模塊[4],旨在借助增強(qiáng)后的光流特征對(duì)初始RGB特征進(jìn)行增強(qiáng),其結(jié)構(gòu)如圖4所示。
該模塊由兩個(gè)平均池化層(AvgPool)和一個(gè)共享卷積層組成。首先,將初始RGB 特征 FRGB 和增強(qiáng)光流特征 FFlow* 進(jìn)行平均池化(AvgPool),平滑特征表示,減少特征之間的差異性。隨后,將輸出送入共享卷積層,分別得到兩個(gè)注意力序列。然后,在這兩個(gè)注意力序列和初始RGB特征上執(zhí)行逐元素乘法以獲得增強(qiáng)的 RGB 特征 FRGB*∈RD×T ,保持兩種模態(tài)之間的一致性。該過(guò)程描述如式(5)所示。
其中:avg表示平均池化操作。綜上,為保持兩種模態(tài)之間的一致性,并減少網(wǎng)絡(luò)的計(jì)算量,本模塊將增強(qiáng)光流特征和初始RGB特征共同輸人到共享卷積網(wǎng)絡(luò),以增強(qiáng)RGB特征。
1.4雙流特征融合模塊
RGB和光流分別代表了視頻的外觀和運(yùn)動(dòng)信息,它們?cè)趧?dòng)作的識(shí)別和定位方面都發(fā)揮著重要作用。通過(guò)將這兩種特征融合互補(bǔ),能夠利用RGB特征的空間細(xì)節(jié)和光流特征的時(shí)間動(dòng)態(tài),從而獲得一個(gè)更全面的特征表示,這對(duì)于動(dòng)態(tài)場(chǎng)景的理解尤為重要。因此,在1.3.1節(jié)和1.3.2節(jié)對(duì)雙流特征增強(qiáng)的基礎(chǔ)上,設(shè)計(jì)雙流特征融合模塊,旨在提取RGB和光流特征的互補(bǔ)信息,進(jìn)一步豐富視頻特征表示,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
因此 AFuse 結(jié)合了兩種特征的互補(bǔ)信息,反映了不同特征在最終特征表示中的重要性。
隨后,將 AFuse 與 FFlow+ 按元素相乘,并將結(jié)果與 FFlow* 相加得到融合 RGB 信息的光流特征 。同樣地,對(duì)FRGB+ 進(jìn)行相同的操作,得到融合光流信息的 RGB 特征FRGB_Flow∈RD*。該過(guò)程描述如式(8)\~(10)所示。
AFuse=softmax(FFuse)
最后,將蘊(yùn)涵互補(bǔ)信息的雙流特征按通道進(jìn)行拼接,并輸人到 1×1 卷積,輸出得到融合特征 F*∈R2D×T 。該過(guò)程具體計(jì)算過(guò)程如式(11)所示。
綜上,本模塊中用卷積網(wǎng)絡(luò)分別提取RGB和光流特征中關(guān)鍵的視覺(jué)外觀信息以及人體運(yùn)動(dòng)信息進(jìn)行融合,并基于融合得到的結(jié)果,計(jì)算融合信息的權(quán)重,該權(quán)重反映了不同特征在最終特征表示中的重要性。然后,將該權(quán)重應(yīng)用于提取到的關(guān)鍵特征上,并將互補(bǔ)關(guān)聯(lián)的RGB和光流特征輸入到卷積網(wǎng)絡(luò),以此進(jìn)一步調(diào)整和優(yōu)化特征表示。通過(guò)雙流特征融合方法強(qiáng)化了RGB和光流特征間的互補(bǔ)關(guān)聯(lián),提高了特征表示的魯棒性和判別力,從而在復(fù)雜場(chǎng)景下實(shí)現(xiàn)更準(zhǔn)確的動(dòng)作識(shí)別。
1.5 動(dòng)作定位模塊
大多現(xiàn)有方法采用多示例學(xué)習(xí)方法或注意力機(jī)制訓(xùn)練模型以獲得不同的時(shí)序類(lèi)激活序列TCAS,通過(guò)閾值化和合并這些激活序列獲得最終的時(shí)序動(dòng)作定位結(jié)果,因此模型生成的TCAS質(zhì)量高低直接影響最終的定位結(jié)果。本文通過(guò)多尺度密集型空洞卷積和特征融合方法得到更優(yōu)的視頻特征 F* 。為減輕梯度消失和梯度爆炸的問(wèn)題,且保留視頻的原始信息,引入殘差連接,將原始視頻特征 F 和融合后的視頻特征 F* 相加輸人到特征嵌人網(wǎng)絡(luò),隨后輸入到分類(lèi)器得到高質(zhì)量的時(shí)序類(lèi)激活序列 Sn 、視頻級(jí)別的分類(lèi)概率 (視頻中包含某種動(dòng)作類(lèi)別的概率)和注意力序列 A?T (視頻片段為動(dòng)作片段的概率)。該部分框架基于RSKP模型[13],并引入了偽標(biāo)簽策略[14]監(jiān)督模型進(jìn)行訓(xùn)練。接著,利用閾值 θa 對(duì)視頻級(jí)別的分類(lèi)概率
進(jìn)行處理,以確定視頻中的動(dòng)作類(lèi)別。選取高于閾值的連續(xù)片段生成動(dòng)作提名,并使用outer-inner-contrastive[20]方法計(jì)算每個(gè)提名的置信度分?jǐn)?shù)。最后,借鑒文獻(xiàn)[14],通過(guò)高斯加權(quán)融合去除重疊的提名,得到最終的定位結(jié)果。
首先,利用卷積網(wǎng)絡(luò)自適應(yīng)提取RGB和光流特征中的關(guān)鍵特征。對(duì)于增強(qiáng)的光流特征 FFlow* ,將其輸入到一個(gè) 3×3 卷積(步長(zhǎng)為1),得到一個(gè)顯著性特征。這里的 3×3 卷積操作可以在保持特征圖大小不變的前提下大幅增加非線性特征;然后將顯著性特征經(jīng)過(guò) sigmoid函數(shù)激活后與 FFlow* 進(jìn)行按元素相乘得到加權(quán)的光流特征 FFlow+∈RD×T 。同樣地,對(duì)增強(qiáng)的RGB特征 FRGB* 進(jìn)行相同的操作,得到加權(quán)的 RGB 特征(204號(hào) FRGB+∈RD×T 。該過(guò)程描述如式(6)(7)所示。
FFlow+=FFlow+?sigmoid(conv(FFlow+))
FRGB+=FRGB+?sigmoid(conv(FRGB+))
其次,將加權(quán)特征按元素相乘得到融合特征 FFuse∈RD×T 隨后,將softmax 激活函數(shù)應(yīng)用于 FFuse ,得到注意力權(quán)重AFuse∈RD×T 。由于采用按元素相乘的方法得到 FFuse ,并基于FFuse 生成 AFuse ,意味著該權(quán)重中每個(gè)元素都由相應(yīng)位置的RGB值和光流值共同決定。具體而言,對(duì)于類(lèi)似動(dòng)作的背景幀,其RGB特征明顯而光流特征不明顯,兩者相乘后可以抑制其在整體權(quán)重的占比。而對(duì)于動(dòng)作幀,其RGB特征和光流特征均明顯,兩者相乘后可以進(jìn)一步促進(jìn)其在整體權(quán)重的表達(dá)。
1.6 損失函數(shù)
為了更有效地指導(dǎo)學(xué)習(xí)正確的視頻分類(lèi),引用標(biāo)準(zhǔn)交叉熵?fù)p失衡量模型預(yù)測(cè)視頻級(jí)別的分類(lèi)概率 和真實(shí)標(biāo)簽分布 yc 之間的差異,具體為
其中: c 表示動(dòng)作類(lèi)別數(shù)量。采用正則化損失最大化top ?k 最大注意力(更有可能為動(dòng)作片段)和bottom ?k 最小注意力(更有可能為背景片段)平均值之間的差異,促進(jìn)動(dòng)作和背景的分離,具體為
其中: k 為超參數(shù),表示選擇的視頻片段數(shù)量,本文中 k 值設(shè)為 8
引人 Lkd[13] 和 Llabel[14] 優(yōu)化模型生成高質(zhì)量的 TCAM 和偽標(biāo)簽監(jiān)督模型進(jìn)行訓(xùn)練。模型總的損失函數(shù)為
其中: λ1 和 λ2 為超參數(shù),訓(xùn)練時(shí)分別設(shè)置為0.1和 1;λ3 根據(jù)訓(xùn)練輪次動(dòng)態(tài)生成[14]
2 實(shí)驗(yàn)及分析
2.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)
a)數(shù)據(jù)集。在THUMOS14[16]和ActivityNet1. 3[17] 兩個(gè)公共數(shù)據(jù)集上對(duì)提出的DSFEF框架進(jìn)行評(píng)估。THUMOS14是一個(gè)包含多個(gè)動(dòng)作類(lèi)別的挑戰(zhàn)性數(shù)據(jù)集,它由200個(gè)用于訓(xùn)練的驗(yàn)證視頻和213個(gè)用于評(píng)估的測(cè)試視頻組成。這些視頻長(zhǎng)度不一,從幾秒到幾分鐘都有,平均每個(gè)視頻中有大約15個(gè)動(dòng)作實(shí)例。ActivityNet1.3數(shù)據(jù)集則覆蓋了200個(gè)日常活動(dòng)類(lèi)別,擁有10024個(gè)訓(xùn)練視頻 ,4926 個(gè)驗(yàn)證視頻和5044個(gè)測(cè)試視頻。
b)評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)按照標(biāo)準(zhǔn)評(píng)估方案進(jìn)行,記錄了在不同交并比(intersectionoverunion,IoU)值下的平均精度均值(meanaverageprecision,mAP)。具體來(lái)說(shuō),在THUMOS14數(shù)據(jù)集上,閾值設(shè)置在 。在ActivityNet1.3數(shù)據(jù)集上的閥值為[0.5:0.05:0.95]。
2.2 實(shí)驗(yàn)環(huán)境
本文模型是基于PyTorch深度學(xué)習(xí)的網(wǎng)絡(luò)框架,整個(gè)實(shí)驗(yàn)在單個(gè)RTX4060TiGPU上實(shí)現(xiàn)。具體環(huán)境設(shè)置如表1所示。
2.3 實(shí)現(xiàn)細(xì)節(jié)
a)特征提取。給定一個(gè)未剪輯的視頻,首先以每秒25幀的速率將其采樣為RGB幀。接著,利用TV-L1算法2將RGB幀轉(zhuǎn)換成光流數(shù)據(jù)。之后,將RGB數(shù)據(jù)和光流數(shù)據(jù)分割成包含連續(xù)16幀的非重疊片段。這些片段隨后被輸入到Kinetics數(shù)據(jù)集預(yù)訓(xùn)練的 I3D[18] 網(wǎng)絡(luò)中,以提取RGB和光流特征,其維度均為 1024 。
b)訓(xùn)練設(shè)置。本文模型是基于PyTorch深度學(xué)習(xí)的網(wǎng)絡(luò)框架,整個(gè)實(shí)驗(yàn)在單個(gè)RTX4060TiGPU上實(shí)現(xiàn)。在THUMOS14和ActivityNet1.3數(shù)據(jù)集上,使用Adam優(yōu)化器進(jìn)行模型訓(xùn)練,minibatch大小分別為10和128。訓(xùn)練epoch設(shè)置為400,學(xué)習(xí)率設(shè)置為 5×105 。在光流特征增強(qiáng)模塊,除了邊路的 1×1 卷積分支,還引入了 K 個(gè)空洞卷積層。對(duì)于第 χi 個(gè)空洞卷積層,由 i 個(gè)空洞卷積串聯(lián)組成,且空洞率由1開(kāi)始逐倍遞增。本文設(shè)置 K=3 。
2.4與其他先進(jìn)模型比較
在多個(gè)交并比(IoU)閾值下,DSFEF與當(dāng)前先進(jìn)的弱監(jiān)督時(shí)序動(dòng)作定位模型進(jìn)行了比較。在THUMOS14和Activity-Net1.3數(shù)據(jù)集上的定位性能分別在表2、3中展示。
由表2實(shí)驗(yàn)數(shù)據(jù)分析可知,在THUMOS14上,DSFEF在大多數(shù)指標(biāo)上取得了最優(yōu)效果,其中平均 mAP(0.1:0.7) 達(dá)到了48.3% ,與目前的 SOTA模型DDG-NET[15]相比,提高了1百分點(diǎn)。特別地,本文模型優(yōu)于TFE-DCN[4],它也使用空洞卷積對(duì)雙流特征進(jìn)行增強(qiáng),與之相比在 mAP@IoU=0.4 的情況下,指標(biāo)提升了2.6百分點(diǎn)。由表3實(shí)驗(yàn)數(shù)據(jù)分析可知,在更具挑戰(zhàn)性的ActivityNet1.3數(shù)據(jù)集上,DSFEF仍然能夠取得最優(yōu)的表現(xiàn),在高閾值 IoU=0.95 的情況下,相比于次優(yōu)模型ASCN,其mAP 值提高了0.6百分點(diǎn)。相對(duì)于TFE-DCN,平均 mAP(0.5 0
0.95)取得1.4百分點(diǎn)的絕對(duì)增益。然而,DSFEF對(duì)于THU-MOS14在高值( IoU?0.6) 情況下定位效果不能達(dá)到最優(yōu)。而對(duì)于ActivityNetl.3數(shù)據(jù)集在高閾值( IoU=0.95 )情況下,較其他模型定位效果能達(dá)到最優(yōu)。
對(duì)上述實(shí)驗(yàn)結(jié)果分析原因如下:a)DSFEF利用多尺度密集型空洞卷積對(duì)RGB和光流特征進(jìn)行增強(qiáng),實(shí)現(xiàn)多尺度的特征提取,從而使片段覆蓋一個(gè)長(zhǎng)的時(shí)間跨度,能夠捕捉動(dòng)作的完整動(dòng)態(tài),充分利用了視頻時(shí)間信息。其次,利用卷積網(wǎng)絡(luò)自適應(yīng)融合RGB特征的空間靜態(tài)細(xì)節(jié)和光流特征的時(shí)間動(dòng)態(tài)優(yōu)勢(shì),實(shí)現(xiàn)RGB和光流特征間的關(guān)聯(lián)互補(bǔ),獲得一個(gè)更全面的特征表示,故在THUMOS14和ActivityNet1.3兩個(gè)公共數(shù)據(jù)集的大多數(shù)指標(biāo)上取得了最優(yōu)結(jié)果。b)對(duì)于同樣使用空洞卷積對(duì)雙流特征進(jìn)行增強(qiáng)的TFE-DCN模型[4],由于沒(méi)有考慮到RGB和光流特征的關(guān)聯(lián)性和互補(bǔ)性,其檢測(cè)性能仍然不高,從而說(shuō)明了特征融合模塊的有效性。c)對(duì)于THUMOS14,在高閾值的情況下結(jié)果不能達(dá)到最優(yōu),可能是因?yàn)樵赥HUMOS14中,訓(xùn)練集上每個(gè)類(lèi)別平均有150個(gè)動(dòng)作時(shí)序標(biāo)注,每個(gè)動(dòng)作平均的持續(xù)時(shí)間為 4.04sc ,測(cè)試集上的每個(gè)類(lèi)別平均有167.9個(gè)動(dòng)作時(shí)序標(biāo)注,每個(gè)動(dòng)作平均的持續(xù)時(shí)間為4.49s,動(dòng)作持續(xù)時(shí)長(zhǎng)較短。因此,DSFEF在擴(kuò)大網(wǎng)絡(luò)感受野的過(guò)程中,可能會(huì)引入無(wú)關(guān)的背景信息,導(dǎo)致在高閾值的情況下定位效果不是最優(yōu),但平均mAP能達(dá)到SOTA水平。而ActivityNetl.3是一個(gè)大規(guī)模的視頻動(dòng)作分析數(shù)據(jù)集,整個(gè)數(shù)據(jù)集包含約 849h 的視頻,平均每個(gè)視頻上有1.5個(gè)動(dòng)作標(biāo)注。這個(gè)數(shù)據(jù)集的視頻通常比較長(zhǎng),動(dòng)作的持續(xù)時(shí)間相對(duì)較長(zhǎng),有助于模型在高IoU閾值下學(xué)習(xí)更準(zhǔn)確的動(dòng)作定位。
2.5 消融實(shí)驗(yàn)
THUMOS14是評(píng)估弱監(jiān)督時(shí)序動(dòng)作定位任務(wù)的常用數(shù)據(jù)集,其視頻長(zhǎng)度差異較大,每個(gè)視頻中可能包含多個(gè)動(dòng)作實(shí)例,且比ActivityNet1.3有更多的背景干擾。因此所有消融實(shí)驗(yàn)都是在THUMOS14上進(jìn)行的,能夠直觀地展示不同因素對(duì)檢測(cè)結(jié)果的影響。
a)空洞卷積層數(shù)消融實(shí)驗(yàn)。光流特征增強(qiáng)模塊的核心在于 K 層密集型空洞卷積網(wǎng)絡(luò),其作用是通過(guò)融合不同尺度的空洞卷積層,擴(kuò)大感受野來(lái)捕捉片段之間的時(shí)間關(guān)聯(lián),進(jìn)而生成得到增強(qiáng)的光流特征。但是,感受野過(guò)大就有可能涵蓋過(guò)多與目標(biāo)無(wú)關(guān)的背景片段,從而對(duì)性能產(chǎn)生不利影響。基于此,為了對(duì)不同空洞卷積層數(shù)的光流特征增強(qiáng)模塊的效果進(jìn)行檢驗(yàn),開(kāi)展了相應(yīng)的消融研究。表4詳細(xì)列出了具有不同空洞卷積層數(shù)的模型之間的性能比較情況。其中, K=0 意味著光流特征增強(qiáng)模塊里不含有空洞卷積網(wǎng)絡(luò)。
表4不同數(shù)量空洞卷積層對(duì)模型的影響
在進(jìn)行空洞卷積層數(shù) (K) 的實(shí)驗(yàn)中,發(fā)現(xiàn)性能隨著 K 的增加先上升后下降。當(dāng) K=3 時(shí),模型達(dá)到了最佳的性能。這是因?yàn)樵?K=3 時(shí),各空洞卷積層分支感受野分別可以覆蓋3、7和15個(gè)連續(xù)的視頻片段。由于每個(gè)片段包含16幀,且視頻的幀速率為 25fps ,所以各分支能夠覆蓋的時(shí)間長(zhǎng)度為( (3×16), /25=1.92s.4.48 s和 9.6s, 。在THUMOS14中,視頻片段中的動(dòng)作持續(xù)時(shí)間各不相同,一些動(dòng)作可能只持續(xù)幾秒鐘,而其他動(dòng)作可能持續(xù)數(shù)十秒甚至更長(zhǎng)時(shí)間。如果 Klt;3 ,感受野將不足以覆蓋大多數(shù)動(dòng)作實(shí)例的時(shí)間跨度;而如果 Kgt;3 ,感受野可能會(huì)包含過(guò)多的背景片段,從而減少對(duì)動(dòng)作實(shí)例片段的關(guān)注。因此,在考慮覆蓋完整動(dòng)作實(shí)例的同時(shí)減少背景片段的影響情況下,使得 K=3 成為最優(yōu)選擇。
b)特征增強(qiáng)與融合模塊消融實(shí)驗(yàn)。雙流特征增強(qiáng)模塊用于擴(kuò)大網(wǎng)絡(luò)的感受野,捕獲片段之間的時(shí)間依賴性,雙流特征增強(qiáng)模塊可進(jìn)一步劃分為光流特征增強(qiáng)模塊和RGB特征增強(qiáng)模塊;此外,設(shè)計(jì)雙流特征融合模塊,有效利用RGB和光流特征的關(guān)聯(lián)性和互補(bǔ)性。表5是6組消融實(shí)驗(yàn)的結(jié)果,以反映不同模塊的有效性。其中Flow*表示光流特征增強(qiáng)模塊(詳見(jiàn)1.3.1節(jié)), RGB* 表示RGB特征增強(qiáng)模塊(詳見(jiàn)1.3.2節(jié)),F(xiàn)USE(詳見(jiàn)1.4節(jié))表示雙流特征融合模塊。
由表5消融實(shí)驗(yàn)結(jié)果可以看出:
a)單獨(dú)對(duì)光流或RGB特征進(jìn)行增強(qiáng)會(huì)引起定位性能的下降(見(jiàn)實(shí)驗(yàn)2、3結(jié)果)。這是因?yàn)楣饬魈卣骱蚏GB特征分別代表了視頻中的運(yùn)動(dòng)信息和外觀信息。如果只增強(qiáng)其中一種特征,而沒(méi)有考慮到兩者之間的關(guān)聯(lián)性,就可能導(dǎo)致模態(tài)之間的不一致性。這種不一致性可能會(huì)干擾模型學(xué)習(xí)到有效的特征表示,從而導(dǎo)致性能下降。
b)對(duì)RGB和光流特征同時(shí)進(jìn)行增強(qiáng)可以有效提升模型定位的效果(見(jiàn)實(shí)驗(yàn)4結(jié)果)。這是因?yàn)橥ㄟ^(guò)多尺度密集型空洞卷積網(wǎng)絡(luò)對(duì)光流特征進(jìn)行增強(qiáng),并借助增強(qiáng)光流特征對(duì)初始RGB特征進(jìn)行增強(qiáng),不僅保持了兩種模態(tài)的一致性,而且解決了現(xiàn)有模型視頻時(shí)間信息利用不充分的問(wèn)題,從而提升了模型的定位效果。
c)融合RGB和光流特征可以獲得更好的定位性能(見(jiàn)實(shí)驗(yàn)5結(jié)果)。這是因?yàn)?,通過(guò)卷積網(wǎng)絡(luò)自適應(yīng)提取RGB和光流的關(guān)鍵特征并進(jìn)行融合,解決了現(xiàn)有模型忽略了RGB和光流特征的互補(bǔ)關(guān)聯(lián)性問(wèn)題,從而可以更好地定位視頻中的動(dòng)作實(shí)例。通過(guò)將所有模塊整合到一起,對(duì)光流特征進(jìn)行增強(qiáng)和融合,構(gòu)成本文DSFEF模型,并實(shí)現(xiàn)了最優(yōu)的性能表現(xiàn)。實(shí)驗(yàn)6驗(yàn)證了每個(gè)模塊都發(fā)揮了重要的作用,并且它們的協(xié)同工作為實(shí)現(xiàn)更精確的動(dòng)作定位貢獻(xiàn)了重要力量。
2.6 實(shí)驗(yàn)結(jié)果可視化分析
為了驗(yàn)證本文模型的有效性和優(yōu)勢(shì),與目前的SOTA模型DDG- .NET[15] 進(jìn)行可視化結(jié)果對(duì)比,如圖6所示。圖6表示DSFEF和DDG-NET在THUMOS14上對(duì)兩個(gè)典型視頻樣本的檢測(cè)效果。第一個(gè)樣本涵蓋了懸崖跳水動(dòng)作類(lèi)別;第二個(gè)樣本包含了跳高動(dòng)作類(lèi)別。兩個(gè)樣本中不僅包含持續(xù)時(shí)間短的動(dòng)作實(shí)例,還包含持續(xù)十秒以上的長(zhǎng)動(dòng)作實(shí)例,而且還包含了與前景相似的背景片段。可以看出本文模型與DDG-NET相比,對(duì)于持續(xù)時(shí)間長(zhǎng)的動(dòng)作實(shí)例更為準(zhǔn)確,且有效地減少了漏檢和誤檢的情況,在定位結(jié)果上更為準(zhǔn)確。
為更清楚顯示DSFEF對(duì)每個(gè)動(dòng)作類(lèi)別的分類(lèi)精度AP,將DSFEF與目前的SOTA模型DDG-NET[15]進(jìn)行可視化結(jié)果對(duì)比,如圖7所示。圖7可視化表示在THUMOS14上各類(lèi)動(dòng)作的精度AP1 IoU=0.4) 結(jié)果對(duì)比,分析圖7可知,DSFEF在絕大多數(shù)動(dòng)作類(lèi)別上的檢測(cè)效果優(yōu)于DDG-NET。其中BasebalIPitch和ThrowDiscus動(dòng)作檢測(cè)效果提升明顯,分別提升了14百分點(diǎn)和19百分點(diǎn)。當(dāng)IoU=0.4 時(shí),總體檢測(cè)效果mAP提升了3.1百分點(diǎn)。
綜上實(shí)驗(yàn)結(jié)果表明,本文模型通過(guò)對(duì)初始視頻特征增強(qiáng),能夠有效捕捉片段間的時(shí)序性依賴,充分利用視頻間的時(shí)間信息,使得定位的結(jié)果更加完整;通過(guò)光流和RGB特征融合,綜合利用RGB特征的空間靜態(tài)細(xì)節(jié)和光流特征的時(shí)間動(dòng)態(tài)信息,實(shí)現(xiàn)RGB和光流特征的互補(bǔ)關(guān)聯(lián),使模型對(duì)于復(fù)雜的運(yùn)動(dòng)場(chǎng)景有更好的理解能力,對(duì)各類(lèi)動(dòng)作檢測(cè)性能均有提升,進(jìn)而有效地減少了漏檢和誤檢的情況。兩個(gè)可視化的結(jié)果也印證了DSFEF的有效性和優(yōu)勢(shì)。
3結(jié)束語(yǔ)
現(xiàn)有弱監(jiān)督時(shí)序動(dòng)作定位模型由于沒(méi)有充分利用視頻時(shí)間信息,且忽略了RGB和光流特征之間的關(guān)聯(lián)性和互補(bǔ)性,導(dǎo)致定位效果不佳。針對(duì)以上問(wèn)題,本文設(shè)計(jì)了DSFEF。在DSFEF中,所設(shè)計(jì)的雙流特征增強(qiáng)模塊通過(guò)多尺度密集型空洞卷積擴(kuò)展感受野并捕捉視頻片段之間的時(shí)序依賴性增強(qiáng)光流特征,并利用增強(qiáng)后的光流特征引導(dǎo)RGB特征進(jìn)行增強(qiáng),更充分利用視頻的時(shí)序信息;在對(duì)RGB和光流特征增強(qiáng)的基礎(chǔ)上,設(shè)計(jì)雙流特征融合模塊,利用卷積網(wǎng)絡(luò)分別自適應(yīng)地提取RGB和光流特征的關(guān)鍵信息,生成注意力權(quán)重,并應(yīng)用于增強(qiáng)后的雙流特征,實(shí)現(xiàn)RGB和光流特征的互補(bǔ)關(guān)聯(lián),進(jìn)一步豐富了RGB和光流的特征表示。在兩個(gè)公開(kāi)的數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,DSFEF在弱監(jiān)督時(shí)序動(dòng)作定位任務(wù)上優(yōu)于現(xiàn)有的SOTA模型,驗(yàn)證了有效利用時(shí)間信息和特征融合策略可以顯著提高動(dòng)作定位性能。本文DSFEF提高了動(dòng)作定位性能,但仍存在不足之處。未來(lái)將從以下幾個(gè)方面進(jìn)一步改進(jìn):嘗試采用其他方式對(duì)特征進(jìn)行增強(qiáng),如圖卷積;優(yōu)化提名后處理方法,使得最終得到的提名質(zhì)量更高。
參考文獻(xiàn):
[1]WangLimin,XiongYuanjun,LinDahua,etal.UntrimmedNetsfor weaklysupervised action recognition anddetection[C]//Procof IEEEConference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEEPress,2017:6402-6411.
[2]Nguyen P,Han B,Liu Ting,et al.Weakly supervised action localizationby sparse temporal pooling network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE Press,2018:6752-6761.
[3]Gao Junyu,Chen Mengyuan,Xu Changsheng.Fine-grained temporal contrastive learning for weakly-supervised temporal action localization [C]//Proc of IEEE/CVF Conference on Computer Vision and PatternRecognition.Piscataway,NJ:IEEE Press,2022:19967-19977.
[4]Zhou Jianxiong,Wu Ying. Temporal feature enhancement dilated convolution network for weakly-supervised temporal action localization [C]//Proc of IEEE/CVF Winter Conference on Applicationsof ComputerVision.Piscataway,NJ:IEEEPress,2023:6017-6026.
[5]黨偉超,范英豪,高改梅,等.融合時(shí)序與全局上下文特征增強(qiáng)的 弱監(jiān)督動(dòng)作定位[J].計(jì)算機(jī)應(yīng)用,2025,45(3):963-971.(Dang Weichao,F(xiàn)anYinghao,GaoGaimei,etal.Weaksupervisedactionlocalization by combining time series and global context featureenhancement[J].JournalofComputerApplications,2025,45(3): 963-971.)
[6]Luo Wang,Zhang Tianzhu,Yang Wenfei,et al. Action unit memory network forweaklysupervised temporal actionlocalization[C]//Proc ofIEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:9964-9974.
[7]He Bo,YangXitong,Kang Le,etal.ASM-loc:action-aware segment modeling forweakly-supervised temporal action localization [C]/′ Procof IEEE/CVFConference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEEPress,2022:13915-13925.
[8]LiJingjing,YangTianyu,JiWei,etal.Exploringdenoisedcross-video contrast forweakly-supervised temporal action localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEEPress,2022:19882-19892.
[9]Narayan S,Cholakkal H,Hayat M,et al.D2-Net:weakly-supervised actionlocalizationviadiscriminativeembeddingsanddenoisedactivations[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021 :13588-13597.
[10] Islam A,Long Chengjiang,Radke R.A hybrid attention mechanism for weakly-supervised temporal action localization[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto, CA: AAAI Press, 2021 : 1637- 1645.
[11] Liu Ziyi, Wang Le,Zhang Qilin,et al. Weakly supervised temporal action localization through contrast based evaluation networks[C]// Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ:IEEEPress,2022:5886-5902.
[12]Luo Zhekun,Guillory D,Shi Baifeng,et al. Weakly-supervised action localizationwithexpectation-maximization multi-instance learning [C]//Proc of European Conference on Computer Vision.Cham: Springer,2020:729-745.
[13]Huang Linjiang, Wang Liang,Li Hongsheng. Weakly supervised temporal action localization via representative snippet knowledge propagation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:3262-371.
[14] Zhou Jingqiu,Huang Linjiang,Wang Liang,et al. Improving weakly supervised temporal actionlocalizationbybridging train-testgap in pseudo labels[C]//Proc of IEEE/CVF Conference on Computer Visionand Pattem Recognition. Piscataway,NJ: IEEE Press,2023: 23003-23012.
[15]Tang Xiaojun,F(xiàn)anJunsong,LuoChuanchen,etal.DDG-Net: discriminability-driven graph network for weakly-supervised temporal actionlocalization[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023 :6599-6609.
[16] Idrees H,Zamir A R,Jiang Yugang,et al. The THUMOS challenge on action recognition for videos“in the wild”[J].Computer Vision and Image Understanding,2017,155:1-23.
[17]Heilbron FCEscorcia V,Ghanem B,et al.ActivityNet:a large-scale video benchmark for human activity understanding[C]//Proc of IEEE Conference on Computer Vision and Pattrn Recognition.Piscataway,NJ:IEEE Press,2015 :961-970.
[18] Carreira J,Zisserman A. Quo vadis,action recognition? A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision andPattem Recognition.Piscataway,NJ: IEEE Press,2017: 4724-4733.
[19]Woo S,Park J,Lee JY,et al. CBAM:convolutional block atention module[C]//Proc of European Conference on Computer Vision. Cham:Springer,2018 :3-19.
[20] Shou Zheng,Gao Hang,Zhang Lei,et al. AutoLoc : weakly-supervised temporal action localization in untrimmed videos[C]//Proc of European Conference on Computer Vision. Cham:Springer,2O18:162-179.
[21]Duval V,Aujol JF,Gousseau Y. The TVL1 model: a geometric point of view[J].Multiscale Modelingamp; Simulation,2009,8(1):154-189.
[22] Chen Mengyuan,Gao Junyu,Yang Shicai,et al. Dual-evidential learning for weakly-supervised temporal action localization[C]//Proc of European Conference on Computer Vision. Cham: Springer,202: 192-208.
[23]王靜,王傳旭.特征挖掘與區(qū)域增強(qiáng)的弱監(jiān)督時(shí)序動(dòng)作定位[J]. 計(jì)算機(jī)應(yīng)用研究,2023,40(8):255-2560.(Wang Jing,Wang Chuanxu.Feature mining and region enhancement for weakly supervised temporal action localization[J]. Application Research of Computers,2023,40(8):255-2560.)
[24] Zhao Yibo,Zhang Hua,Gao Zan,et al. A novel action saliency and context-aware network for weakly-supervised temporal action localization[J].IEEETranson Multimedia,2023,25:8253-8266.
[25]Ren Huan,Yang Wenfei,Zhang Tianzhu,et al.Proposal-based multiple instance learning for weakly-supervised temporal action localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ:IEEE Press,2023:2394-2404.
[26]Hu Yufan,F(xiàn)u Jie,Chen Mengyuan,et al.Learning proposal-aware reranking for weakly-supervised temporal action localization[J].IEEE Trans on Circuits and Systems for Video Technology,2024,34 (1) :207-220.
[27] Yun Wulian,Qi Mengshi, Wang Chuanming,et al. Weakly-supervised temporal action localization by inferring salient snippet-feature[C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2024:6908-6916.