胡 聰,華鋼
(中國礦業(yè)大學(xué)信息與控制工程學(xué)院,江蘇徐州 221116)
在當(dāng)今的信息化時代,隨著大數(shù)據(jù)的發(fā)展和科技的進(jìn)步,視頻數(shù)據(jù)量呈現(xiàn)井噴式增長,傳統(tǒng)的人工動作定位已經(jīng)很難滿足信息化時代中對視頻分析和處理的需求,因此,近年來,深度學(xué)習(xí)模式下的視頻動作定位逐漸成為許多學(xué)者著重研究的方向[1-3]。動作定位的實(shí)質(zhì)是獲取視頻中可能存在的動作的開始和結(jié)束的時間,并對獲取的動作片段進(jìn)行分類。動作定位技術(shù)的應(yīng)用可以使人們有效地對若干視頻片段進(jìn)行查找。
深度學(xué)習(xí)模式下的視頻動作定位方法主要分為強(qiáng)監(jiān)督動作定位方法[4-6]和弱監(jiān)督動作定位方法[7-9]。強(qiáng)監(jiān)督動作定位方法需要采用幀級標(biāo)簽(即預(yù)先準(zhǔn)備好的視頻每一幀的類別標(biāo)簽)進(jìn)行動作定位,在訓(xùn)練過程中,利用幀級標(biāo)簽?zāi)軌驅(qū)崿F(xiàn)幀對幀的校準(zhǔn),從而得到較為精準(zhǔn)的候選動作片段,定位準(zhǔn)確性較高;然而,對于大規(guī)模、長時間的視頻,很難高效、準(zhǔn)確地對視頻每一幀預(yù)標(biāo)注標(biāo)簽,且獲取大規(guī)模的幀級標(biāo)簽需要花費(fèi)大量的人力和時間,因此,針對大規(guī)模、長時間的視頻進(jìn)行動作定位,只能采用基于視頻級標(biāo)簽(即視頻片段的類別標(biāo)簽)的弱監(jiān)督動作定位方法。弱監(jiān)督動作定位方法雖然不依賴幀級標(biāo)簽,但是無法實(shí)現(xiàn)幀對幀的校準(zhǔn),定位準(zhǔn)確性相對較低,因此,為了提升弱監(jiān)督動作定位的準(zhǔn)確性,本文提出了一種基于注意力機(jī)制的弱監(jiān)督動作定位方法。
注意力機(jī)制是一種通過模仿人腦,關(guān)注任務(wù)中的關(guān)鍵信息,從而實(shí)現(xiàn)對信息的合理分配和利用,以提高工作效率的方法。近年來,基于注意力機(jī)制的方法被廣泛應(yīng)用于動作定位的研究[10-12]中。基于注意力機(jī)制的弱監(jiān)督動作定位方法主要分為兩種:第一種是從上到下的方法,首先訓(xùn)練一個視頻分類器,將原始視頻數(shù)據(jù)送入視頻分類器,得到視頻的時序動作分類分布圖,即TCAM(Temporal Class Action Map)[13];然后利用每個片段的TCAM 獲取動作提議片段,進(jìn)而進(jìn)行動作定位[13-14]。第二種方法是從下到上的方法,先利用原始視頻數(shù)據(jù)生成幀級注意力值;然后訓(xùn)練和優(yōu)化幀級注意力值。對于某個動作類別,幀級注意力值較高的幀被認(rèn)為是動作幀,否則是背景幀。根據(jù)幀級注意力值得到動作提議片段,以對視頻進(jìn)行動作定位[15-17]。
盡管弱監(jiān)督動作定位方法能夠擺脫對幀級標(biāo)簽的依賴,其也存在以下的兩個問題:其一,由于缺少幀級標(biāo)簽,若只根據(jù)注意力值進(jìn)行動作定位,沒有考慮到相鄰幀之間可能存在相關(guān)性,可能導(dǎo)致出現(xiàn)信息丟失的問題。例如,對于動作“跳”,包含準(zhǔn)備、跳、落地、恢復(fù)四個過程,其中準(zhǔn)備和恢復(fù)過程在動作定位時對于跳的注意力值可能偏低,從而在定位時可能過濾到這兩個部分,導(dǎo)致在弱監(jiān)督動作定位過程中常會出現(xiàn)動作漏檢的問題。其二,由于缺少幀級標(biāo)簽,弱監(jiān)督動作定位常會出現(xiàn)動作和背景混淆的問題,將背景誤識別為動作,進(jìn)而影響動作定位的精確性。
針對上述問題,本文對基于注意力機(jī)制的弱監(jiān)督動作定位方法進(jìn)行了研究。為了減少動作定位時可能出現(xiàn)的遺漏,本文采用條件變分自編碼器(Conditional Variational AutoEncoder,CVAE)[18]注意力值生成模型,并在此基礎(chǔ)上加入了動作前后幀信息。參考語義理解領(lǐng)域中的Transformer模型[19-20],將前后幀的特征及當(dāng)前幀的特征進(jìn)行位置編碼后,進(jìn)而得到加入動作前后幀信息的視頻特征;然后將視頻特征送入CVAE 生成模型中的編解碼器,得到加入前后幀信息的幀級注意力值。同時,為了使得注意力值對于動作的類別有出色的區(qū)分能力,本文提出基于區(qū)分函數(shù)的注意力值優(yōu)化模型,結(jié)合TCAM[21-22],構(gòu)建區(qū)分函數(shù),以優(yōu)化注意力值的分布,提升注意力值的分類能力。最后,經(jīng)過訓(xùn)練和優(yōu)化后,得到每一幀的幀級注意力值,作為視頻的偽幀級標(biāo)簽,并基于幀級注意力值構(gòu)建動作定位模型,以得到動作的時序位置。本文在THUMOS14 和ActivityNet1.2 數(shù)據(jù)集上取得了較好的成果。
由于視頻數(shù)據(jù)量巨大,為了減少計算量,本文采用預(yù)訓(xùn)練好的特征提取網(wǎng)絡(luò)對THUMOS14 和ActivityNet1.2 數(shù)據(jù)集進(jìn)行視頻特征提取。近年來,基于深度學(xué)習(xí)的視頻特征提取研究取得了較大的進(jìn)步,如雙流模型[23]、TSN(Temporal Segment Network)模 型[24]、C3D(Convolutional 3D)模 型[25]、P3D(Pseudo 3D)模型[26]和I3D(Inflated 3D)模型[27]等。本文選用在Kineitics 數(shù)據(jù)集上預(yù)訓(xùn)練好的I3D 模型進(jìn)行特征提取,以得到THUMOS14 和ActivityNet1.2 數(shù)據(jù)集的視頻特征。
近年來,許多學(xué)者對弱監(jiān)督動作定位模型進(jìn)行了研究。W-TALC(Weakly-supervised Temporal Activity Localization and Classification framework)模型[28]和3C-Net 模型[29]是目前比較成熟的從上到下的模型;STPN(Sparse Temporal Pooling Network)模型[30]采用從下到上的方法,并在此基礎(chǔ)上加入一個規(guī)范項以加強(qiáng)動作的稀疏性;AutoLoc 模型[31]采用OIC(Outer-Inner-Contrastive)損失函數(shù)使得不同動作之間有更強(qiáng)的區(qū)分度。為了驗(yàn)證本文提出的弱監(jiān)督動作定位方法的動作定位效果,本文在實(shí)驗(yàn)中對比了本文模型和AutoLoc 模型、W-TALC 模型、3C-Net 模型等弱監(jiān)督動作定位模型的平均檢測精度均值。
此外,本文在注意力值生成過程中采用的生成模型近年來也有了長足的發(fā)展。目前常用的生成模型包括生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[32]、變分自編碼器(Variational Auto-Encoder,VAE)[33]、CVAE 等。GAN 生成模型主要包括生成器和區(qū)分器兩部分,通過不斷減少區(qū)分器和生成器的輸出獲取準(zhǔn)確的數(shù)據(jù)分布;VAE 生成模型通過輸入數(shù)據(jù)構(gòu)建一個虛擬分布空間,再通過在虛擬分布空間采樣獲取生成的數(shù)據(jù),VAE 生成模型中的虛擬分布空間均符合高斯分布,以便于采樣;CVAE 生成模型是VAE 生成模型的一種擴(kuò)展,相對于VAE 生成模型,CVAE 生成模型對于數(shù)據(jù)有更好的控制能力。由于弱監(jiān)督動作定位中的視頻數(shù)據(jù)集缺少幀級標(biāo)簽,為了生成能夠預(yù)測視頻特征類別的幀級注意力值,以作為視頻的偽幀級標(biāo)簽,本文采用基于動作前后幀信息的CVAE 生成模型,生成符合高斯分布的幀級注意力值,以進(jìn)行動作定位。
本文首先采用I3D 模型[27]獲取視頻的RGB 和光流特征,用于訓(xùn)練和測試,其中T是每個視頻的幀數(shù),xt∈Rd是每一幀的特征向量,d是特征的維數(shù)。視頻級標(biāo)簽被標(biāo)記為y∈{0,1,…,C},其中C表示動作類別數(shù),0 表示背景。在得到視頻特征后,本文采用從下向上的方法進(jìn)行弱監(jiān)督動作定位,包括基于動作前后幀信息的CVAE 注意力值生成模型、基于區(qū)分函數(shù)的注意力值優(yōu)化模型和基于注意力值的動作定位模型三個部分。
為了得到每一幀的注意力值分布(即偽幀級標(biāo)簽)λ,本文構(gòu)建CVAE 注意力值生成模型,并將視頻特征送入CVAE生成模型中,以得到視頻特征的注意力值分布,其中λt是對應(yīng)于每一幀的視頻特征xt的注意力值分布向量,取值范圍為[0,1]。為了提升幀級注意力值對于動作分類的準(zhǔn)確性,注意力值分布應(yīng)滿足式(1):
其中p(λ|X,y)是在給定輸入視頻特征X和每個視頻標(biāo)簽y的情況下,得到對應(yīng)于標(biāo)簽y的注意力值的分布。由于缺少幀級標(biāo)簽,很難獲取準(zhǔn)確的p(λ|X,y),因此采用貝葉斯式得到logp(λ|X,y)的近似值,如式(2)所示:
其中l(wèi)ogp(λ)-logp(X,y) 是常數(shù)。因此式(1)可以簡化為式(3):
式(3)中第1 項的目的是使視頻的特征被注意力值精準(zhǔn)地預(yù)測和表示,即注意力值能夠區(qū)分視頻特征;第2 項的目的是使注意力值對于動作有出色的分類能力。為了使式(3)中第1 項達(dá)到最大值,本文構(gòu)建CVAE 注意力值生成模型,利用注意力值重構(gòu)視頻特征,從而生成能夠最佳預(yù)測和區(qū)分視頻特征的注意力值;為了使第2 項達(dá)到最大值,本文采用注意力值優(yōu)化模型,通過構(gòu)造區(qū)分函數(shù),對注意力值的分類能力進(jìn)行提升和優(yōu)化。
1.1.1 CVAE注意力值生成模型
CVAE 注意力值生成模型是一種用于生成幀級注意力值的模型,主要包含編碼器和解碼器兩部分,均由兩個全連接 層(Fully Connected layers,F(xiàn)C)和兩個ReLU(Rectified Linear Unit)激活層構(gòu)成,其中:第1 個全連接層的目的是使輸入數(shù)據(jù)映射到虛擬分布空間上,第2 個全連接層用于生成注意力值的分布。
CVAE 注意力值生成模型首先采用編碼器,將輸入的視頻特征映射到一個虛擬分布空間(虛擬分布空間符合高斯分布以便于采樣);再采用解碼器從虛擬分布空間進(jìn)行限定條件的采樣,得到具備一定約束條件的重構(gòu)的視頻特征。本文將CVAE 生成模型生成的幀級注意力值作為視頻的偽幀級標(biāo)簽,用于后續(xù)的動作定位。下面對CVAE 注意力值生成模型的具體實(shí)現(xiàn)方法進(jìn)行論述。
其中:φ為解碼器中的參數(shù),zt為解碼器對注意力值進(jìn)行采樣得到的潛在變量,即,其分布符合高斯分布。為了生成重構(gòu)特征,構(gòu)造初始注意力值,將其和視頻特征xt送入解碼器中進(jìn)行采樣,得到潛在變量zt,再采用注意力值λt和潛在變量zt送入解碼器中采樣,得到重構(gòu)特征。
同時,為了訓(xùn)練CVAE 生成模型的參數(shù),本文采用輸入的視頻特征xt和注意力值λt構(gòu)造另一個潛在變量ht~q?(ht|xt,λt),以及符合高斯 分布的虛擬分布空間q?(ht|xt,λt)=Ν(ht|μ?,σ?2),其中?為編碼器中的參數(shù)。為了提升CVAE 生成模型的生成效果,構(gòu)造損失函數(shù)LCVAE,在訓(xùn)練中通過減小損失函數(shù)LCVAE提升CVAE 生成模型的生成能力。損失函數(shù)LCVAE如式(5)所示:
其中:LKL用于計算散度的損失量,Lre用于計算CVAE 生成的重構(gòu)視頻特征和輸入視頻特征之間的損失量。β為調(diào)節(jié)參數(shù),KL 為編碼器得到的虛擬分布空間q?(ht|xt,λt)和解碼器得到的虛擬分布空間pφ(zt|λt)之間的散度,目的是使得兩者得到的潛在變量盡可能接近,從而使得CVAE 中的編碼器和解碼器匹配。式(5)中的KL 的計算方法如式(6)所示:
通過訓(xùn)練和優(yōu)化LCVAE,使q?(ht|xt,λt)和pφ(zt|λt)盡可能接近,并使注意力值生成的重構(gòu)視頻特征和原輸入視頻特征xt接近,從而得到能夠表示視頻特征的幀級注意力值。因此,CVAE 生成模型的生成方式如圖1 所示。
圖1 CVAE生成方式Fig.1 CVAE generation mode
1.1.2 基于動作前后幀信息的位置編碼層
本文在CVAE 生成模型的編碼器和解碼器的基礎(chǔ)上加入一個基于動作前后幀信息的位置編碼層,以增強(qiáng)動作幀的前后關(guān)聯(lián)性。令輸入的第t-1 幀的視頻特征xt-1為K,輸入的第t幀的視頻特征xt為Q,輸入的第t+1 幀的視頻特征xt+1為V,經(jīng)過位置編碼層處理后的視頻特征如式(7)所示:
其中α為調(diào)節(jié)參數(shù)。通過位置編碼層,以加強(qiáng)動作前后幀的關(guān)聯(lián)性,減小動作漏檢率。
為了最大化式(3)中的第二項,本文構(gòu)造基于區(qū)分函數(shù)的注意力值優(yōu)化模型,通過構(gòu)建區(qū)分函數(shù),優(yōu)化動作的分類結(jié)果,以訓(xùn)練和優(yōu)化注意力值,使注意力值能夠精準(zhǔn)地分類動作的類別,同時將與動作無關(guān)的背景幀剝離開來。注意力值優(yōu)化模型的目標(biāo)如式(8)所示:
其中xfg是對應(yīng)于任一種動作類別的動作前景特征,xbg是對應(yīng)于任一種動作類別的背景特征。兩者的計算方法分別如式(9)和式(10)所示:
為了使得注意力值能夠最佳擬合動作的實(shí)際類別,在區(qū)分函數(shù)中,首先構(gòu)造一個損失函數(shù)LE。通過訓(xùn)練,降低損失函數(shù)LE的值,以優(yōu)化注意力值。損失函數(shù)LE如式(11)所示:
其中pθ包含一個全連接層和一個Softmax 分類器。式(11)中的第一項用于提升注意力值對于視頻標(biāo)簽y分類動作的準(zhǔn)確性,第二項用于提升注意力值區(qū)分背景的能力,第三項用于減小注意力值被分類為其他動作的概率。對于任一種動作類別c∈C,全連接層的參數(shù)為wc∈Rd。
此外,為了能夠進(jìn)一步優(yōu)化注意力值的分布,本文在區(qū)分函數(shù)中增加TCAM 項,以進(jìn)一步提升注意力值的分類能力。TCAM 由一個全連接層和一個高斯濾波器組成。對于一個給定的視頻標(biāo)簽y,TCAM 可以由式(12)計算得出:
其中:wc表示動作屬于c類別時的全連接層的參數(shù),wy表示動作屬于標(biāo)簽y的類別時全連接層的參數(shù),w0表示動作屬于背景時全連接層的參數(shù)分別是前景和背景的TCAM 分布。G(σs)是一個標(biāo)準(zhǔn)高斯濾波器,σs表示高斯濾波器的標(biāo)準(zhǔn)差,*表示卷積操作。采用前景和背景的TCAM分布,可以構(gòu)造TCAM 對注意力值優(yōu)化的損失函數(shù)LTCAM,如式(13)所示:
通過最小化損失函數(shù)LTCAM,優(yōu)化全連接層的參數(shù),以提升注意力值對于前景和背景的區(qū)分能力。
由上所述,區(qū)分函數(shù)包含損失函數(shù)LE和TCAM 損失函數(shù)LTCAM兩部分,區(qū)分函數(shù)如式(14)所示:
其中γ1和γ2為調(diào)節(jié)參數(shù)。注意力值優(yōu)化模型的目標(biāo)相當(dāng)于最小化區(qū)分函數(shù)LAttention。
注意力值生成及優(yōu)化流程主要分為兩個步驟循環(huán)進(jìn)行:1)固定注意力值優(yōu)化模型,訓(xùn)練并更新CVAE 注意力值生成模型中的損失函數(shù)LCVAE;2)固定CVAE 注意力值生成模型。訓(xùn)練并更新注意力值優(yōu)化模型中的區(qū)分函數(shù)LAttention,將訓(xùn)練好的注意力值分布送回CVAE 生成模型,用以訓(xùn)練CVAE 生成模型。
注意力值生成及優(yōu)化模型的流程如圖2 所示。
圖2 注意力值生成及優(yōu)化流程Fig.2 Flowchart of attention value generation and optimization
獲取了幀級注意力值后,本文構(gòu)建基于注意力值的動作定位模型。對于某一動作分類,在[ts,te]時間內(nèi)若這一動作的注意力值連續(xù)高于閾值IoU(Intersection over Union)時,認(rèn)定是可能的動作片段,該片段的平均注意力值即為該片段的動作分類分s(ts,te,c),其中c表示動作的類別。參考文獻(xiàn)[34],將s(ts,te,c)優(yōu)化為s*(ts,te,c),其計算方法如式(15)所示:
其中η是調(diào)節(jié)參數(shù),參考文獻(xiàn)[34],將其設(shè)置為0.1。
在本文提出的基于動作前后幀信息和區(qū)分函數(shù)的動作定位模型中,首先采用預(yù)訓(xùn)練好的I3D 模型分別獲取視頻的RGB 和光流的特征;然后,構(gòu)建注意力值生成和優(yōu)化模型,利用視頻特征得到RGB 和光流注意力值,將兩種注意力值合并后,即得到視頻的幀級注意力值分布;最后,基于不同的閾值IoU(THUMOS14 數(shù)據(jù)集中IoU 取值0.10~0.90,間隔0.10;ActivityNet1.2 數(shù)據(jù)集中IoU 取值0.50~0.95,間隔0.05),利用注意力值完成動作定位。本文模型的流程如圖3 所示。
圖3 本文模型的流程Fig.3 Flowchart of proposed model
為了評估模型的效果,本文在兩個公共視頻數(shù)據(jù)集THUMOS14 和ActivityNet1.2 上進(jìn)行了實(shí)驗(yàn)。兩個數(shù)據(jù)集的視頻都是未修剪的。在測試集中不存在幀級標(biāo)簽,只存在視頻級標(biāo)簽。
THUMOS14 數(shù)據(jù)集在其訓(xùn)練集、驗(yàn)證集和測試集中共有101 個動作類的視頻級標(biāo)簽,在20 個類的測試集中具有視頻級標(biāo)簽(不包含幀級標(biāo)簽)。本文采用由200 個未修剪視頻組成的驗(yàn)證集進(jìn)行訓(xùn)練,包含212 個視頻的測試集進(jìn)行性能測試。
ActivityNet1.2 數(shù)據(jù)集是近年來推出的用于動作識別和定位的基準(zhǔn)數(shù)據(jù)集,包含大量天然視頻,涉及語義分類下的各種人類活動。本文采用包含100 個動作類別的4 819 個驗(yàn)證集視頻進(jìn)行訓(xùn)練,采用2 383 個測試集視頻進(jìn)行測試。
THUMOS14 和ActivityNet1.2 數(shù)據(jù)集中的視頻從幾秒到26 min 長短不一,且一個視頻中可能存在多個動作(平均每個視頻包含15.5 個動作),相對于其他數(shù)據(jù)集,對于模型的分類能力和魯棒性有更高的要求。
本文采用在不同IoU 閾值下的平均檢測精度均值(mean Average Precision,mAP)進(jìn)行動作定位的準(zhǔn)確性評估。IoU的定義如式(16)所示:
IoU=Predict∩Ground Truth(16)
其中:Predict表示檢測到的候選動作片段,Ground Truth表示訓(xùn)練集中給定的真實(shí)的動作片段。
在對動作定位的預(yù)測結(jié)果進(jìn)行評判時,一個準(zhǔn)確的動作定位的預(yù)測結(jié)果應(yīng)當(dāng)滿足以下兩條準(zhǔn)則:1)預(yù)測的動作片段中動作類別與真實(shí)發(fā)生的動作類別較為一致;2)預(yù)測的動作與真實(shí)動作的IoU 較大。
為了計算動作定位的準(zhǔn)確率,設(shè)定一個IoU 的閾值。當(dāng)預(yù)測動作片段與真實(shí)動作片段之間的IoU 大于等于該閾值時,計算預(yù)測動作片段的平均檢測精度mAP,以評估模型的效果。mAP 的計算方式如式(17)所示:
其中:C表示總動作類別數(shù),c表示動作類別,AP(Average Prevision)表示對于c種動作類別的檢測精度。AP 的計算方法如式(18)所示:
其中:P表示查準(zhǔn)率,R表示召回率,二者分別代表預(yù)測結(jié)果中正例被預(yù)測正確的比例和真實(shí)正例被預(yù)測正確的比例。查準(zhǔn)率和召回率的計算方式如式(19)、(20)所示:
其中:TP(True Positive)表示被正確預(yù)測的幀數(shù),F(xiàn)P(False Positive)表示背景幀被預(yù)測為動作幀的幀數(shù),F(xiàn)N(False Negative)表示動作幀被預(yù)測為背景幀的幀數(shù)。
通過計算每個動作類別的檢測精度AP,并對每個動作類別的檢測精度AP 求均值,即可得到平均檢測精度mAP。選定不同的IoU 閾值,計算在該閾值下的平均檢測精度,可表示為mAP@IoU=a,a表示IoU 的取值。
在本文采用的THUMOS14 數(shù)據(jù)集和ActivityNet1.2 數(shù)據(jù)集中,采用固定IoU閾值進(jìn)行模型的檢測效果比對。在THUMOS14 數(shù)據(jù)集中采用的閾值IoU范圍為0.1~0.9,間隔0.1;在ActivityNet1.2 數(shù)據(jù)集中采用的閾值IoU范圍為0.50~0.95,間隔0.05。由于THUMOS14 數(shù)據(jù)集視頻數(shù)量較少,因此在THUMOS14 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果每5 次采一次平均值。
本文首先采用在Kinetics 數(shù)據(jù)集上預(yù)訓(xùn)練好的I3D 模型對輸入的THUMOS14 和ActivityNet1.2 數(shù)據(jù)集的視頻進(jìn)行特征提取,對視頻進(jìn)行幀切割后,獲取到每一幀的RGB 數(shù)據(jù);其次采用TV-L1(Total Variation regularization and the robust L1 norm)算法[35],利用RGB 的數(shù)據(jù)得到光流數(shù)據(jù);接著將兩種數(shù)據(jù)分別劃分成若干片段,每個片段16 幀,并將它們送入I3D 模型獲取兩種1 024 維的特征數(shù)據(jù),得到兩種特征數(shù)據(jù)后,分別將特征數(shù)據(jù)送入本文的模型中得到注意力值分布,對注意力值的訓(xùn)練和優(yōu)化完成后,參考文獻(xiàn)[36],采用非最大抑制法對兩種數(shù)據(jù)得到的注意力值分布進(jìn)行融合。出于運(yùn)算量的考慮,對于THUMOS14 數(shù)據(jù)集,每個視頻的最大幀數(shù)T設(shè)置為400。如果視頻幀數(shù)大于400,則只取前400 幀。對于ActivityNet1.2 數(shù)據(jù)集,每個視頻的最大幀數(shù)T設(shè)置為200。整個實(shí)驗(yàn)在Pytorch 框架下進(jìn)行,實(shí)驗(yàn)設(shè)備為Nvidia m40 GPU,學(xué)習(xí)率為10-3。
為了評估CVAE 生成模型中各部分的作用,固定其他參數(shù),在THUMOS14 數(shù)據(jù)集中對實(shí)驗(yàn)中的各個可調(diào)參數(shù)進(jìn)行控制變量實(shí)驗(yàn)(ActivityNet1.2 數(shù)據(jù)集計算量過大不利于多組對照實(shí)驗(yàn))。
如式(5)所示,CVAE 注意力值生成模型的損失函數(shù)LCVAE包含LKL和Lre兩部分,為了評估兩個損失函數(shù)在CVAE生成模型中的作用,采用不同的β進(jìn)行對比實(shí)驗(yàn)。此外,針對式(7)中的α調(diào)節(jié)參數(shù)進(jìn)行對比實(shí)驗(yàn)。CVAE 生成模型中構(gòu)造的虛擬分布空間的大小同樣影響實(shí)驗(yàn)結(jié)果,因此,針對不同的虛擬分布空間大小,進(jìn)行對比實(shí)驗(yàn)。在THUMOS14 數(shù)據(jù)集上采用不同的β、α和虛擬分布空間大小得到的基于IoU=0.5 的mAP值對比如表1 所示。
根據(jù)表1 所示,β設(shè)置為0.2 時,mAP 最佳,這是因?yàn)橄噍^于重構(gòu)視頻特征和輸入視頻特征之間的偏差,虛擬分布空間之間的KL 散度值相對較大。因此,在進(jìn)行損失函數(shù)LCVAE計算時,為了防止KL 散度過大導(dǎo)致訓(xùn)練過程中出現(xiàn)過擬合的問題,需要對其進(jìn)行一定程度上的縮減。
根據(jù)表1 所示,α設(shè)置為7 時,mAP值最高。這是因?yàn)樵诩尤雱幼髑昂髱畔σ曨l特征進(jìn)行位置編碼時:若動作前后幀信息在注意力值生成過程中占比過大,會影響動作定位的準(zhǔn)確性;若動作前后幀信息在注意力值生成過程中占比過小,則加入動作前后幀信息的注意力值生成模型對動作定位的平均檢測精度均值提升有限。因此α設(shè)置為7 時能夠得到最佳的檢測效果。
根據(jù)表1 所示,虛擬分布空間大小為128×128 時效果最佳。這是由于雖然較大的虛擬分布空間可以使得采樣更充分,但是存在降低采樣準(zhǔn)確性的可能性;較小的虛擬分布空間雖然可以提升采樣準(zhǔn)確性,但是同樣存在采樣樣本不充分的可能性。因此采用適中的虛擬分布空間大小時能得到最佳的檢測效果。
表1 在THUMOS14數(shù)據(jù)集上采用不同的β、α和虛擬分布空間大小得到的基于IoU=0.5的mAP值對比Tab.1 Comparison of mAP values based on IoU=0.5 using differentβ,α and latent space size on THUMOS14 dataset
為了評估注意力值優(yōu)化模型中區(qū)分函數(shù)中各部分的作用,固定其他參數(shù),在THUMOS14 數(shù)據(jù)集上對實(shí)驗(yàn)中的各個可調(diào)參數(shù)進(jìn)行控制變量實(shí)驗(yàn)。如式(14)所示,注意力值優(yōu)化模型中的區(qū)分函數(shù)中包含LE、LTCAM兩部分,為了調(diào)整LE、LTCAM在區(qū)分函數(shù)中的占比,以最優(yōu)化區(qū)分函數(shù)的作用,對式(14)中的γ1和γ2進(jìn)行控制變量實(shí)驗(yàn)。對照實(shí)驗(yàn)結(jié)果如表2 所示,γ1設(shè)置為0.3,RGB 和光流數(shù)據(jù)的γ2值分別設(shè)置為0.5和0.3 時,能夠得到最佳的mAP值。
表2 在THUMOS14數(shù)據(jù)集上采用不同的γ1和γ2得到的基于IoU=0.5的mAP值對比Tab.2 Comparison of mAP values based on IoU=0.5 using differentγ1 andγ2 on THUMOS14 dataset
為了證明本文在CVAE 生成模型中加入動作前后幀信息對于減少動作漏檢的提升作用,設(shè)置對照實(shí)驗(yàn),其中一組在CVAE 注意力值生成模型中加入動作前后幀信息,另一組不加入動作前后幀信息。視頻中動作幀被注意力值λ檢測為背景(即未被檢測出的動作幀)的個數(shù)為FN,全部動作幀個數(shù)為TP+FN,漏檢率即為。采用THUMOS14 數(shù)據(jù)集,在IoU=0.5 時,漏檢率實(shí)驗(yàn)結(jié)果如表3 所示,相較于未加入動作前后幀信息的模型,采用加入動作前后幀信息的CVAE 注意力值生成模型后,漏檢率減小了11.7%。
表3 在THUMOS14數(shù)據(jù)集上加入動作前后幀信息對mAP值的提升效果Tab.3 Improvement of mAP value of adding pre-and post-information of action frame on THUMOS14 dataset
在評估了CVAE 注意力值生成模型中加入動作前后幀信息的效果后,進(jìn)一步比較在本文模型中區(qū)分函數(shù)的作用。為了對比,同樣設(shè)置對照實(shí)驗(yàn),其中一組在模型中采用區(qū)分函數(shù),另一組不采用區(qū)分函數(shù)。采用THUMOS14 數(shù)據(jù)集,在IoU=0.5 時,平均檢測精度均值mAP 的對比如表4 所示。
表4 在THUMOS14數(shù)據(jù)集上區(qū)分函數(shù)對mAP值的提升效果Tab.4 Improvement of mAP of distinguishing function on THUMOS14 dataset
實(shí)驗(yàn)結(jié)果表明,區(qū)分函數(shù)明顯提高了mAP,這體現(xiàn)了基于區(qū)分函數(shù)的注意力值優(yōu)化模型的有效性和可靠性,適用于提升弱監(jiān)督動作定位的準(zhǔn)確性。
在印證了本文提出的加入動作前后幀信息和區(qū)分函數(shù)對模型效果有提升后,進(jìn)一步比較本文模型和其他動作定位模型的mAP。表5 展示了在THUMOS14 數(shù)據(jù)集上,采用本文模型和AutoLoc 模型[31]、STPN 模型[30]、W-TALC 模型[28]等弱監(jiān)督動作定位模型,在不同的閾值IoU 的情況下得到的mAP值的對比,其中UNT 表示UntrimmedNet 特征提取網(wǎng)絡(luò)。時,本文模型表現(xiàn)出色,在THUMOS14 數(shù)據(jù)集上比其他弱監(jiān)督動作定位模型的mAP值提升10.7% 以上,在ActivityNet1.2 數(shù)據(jù)集上比其他動作定位模型的mAP值提升8.8%以上。體現(xiàn)出了本文模型在提升動作定位準(zhǔn)確性和減少動作漏檢率方面的優(yōu)勢,證明了本文模型對于動作定位效果的顯著提升。
表5 THUMOS14數(shù)據(jù)集不同模型基于不同IoU的mAP值對比 單位:%Tab.5 Comparison of mAP values of different models based on different IoU on THUMOS14 dataset unit:%
表6 展示了在ActivityNet1.2 數(shù)據(jù)集上,采用本文模型和AutoLoc 模型[31]、TSM(Temporal Structure Mining)[37]、BaS-Net(Background Suppression Network)[38]等弱監(jiān)督動作定位模型,在不同閾值IoU 的情況下得到的mAP值對比。本文對比的模型采用的視頻數(shù)據(jù)均為未修剪的視頻片段。
表6 ActivityNet1.2數(shù)據(jù)集不同模型基于不同IoU的mAP值對比 單位:%Tab.6 Comparison of mAP values of different models based on different IoU on ActivityNet1.2 dataset unit:%
從實(shí)驗(yàn)結(jié)果可以看出,本文的弱監(jiān)督動作定位模型和其他弱監(jiān)督動作定位模型相比,總體表現(xiàn)較好。在IoU=0.5
本文對基于注意力機(jī)制的弱監(jiān)督動作定位方法進(jìn)行了研究,提出一種基于動作前后幀信息和區(qū)分函數(shù)的動作定位模型。對于沒有幀級標(biāo)簽的數(shù)據(jù)集,本文通過CVAE 注意力值生成模型獲取幀級注意力值,將其作為偽幀級標(biāo)簽,并在CVAE 注意力值生成模型中加入動作前后幀信息,以減小動作漏檢的概率;此外,本文構(gòu)建基于區(qū)分函數(shù)的注意力值優(yōu)化模型,在訓(xùn)練中對注意力值進(jìn)行優(yōu)化,以提升注意力值對動作的分類效果,從而提升動作定位的精確度。本文在公共數(shù)據(jù)集THUMOS14 和ActivityNet1.2 上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了本文模型能夠有效地減小動作漏檢的概率;與其他弱監(jiān)督動作定位模型相比,本文模型對動作定位的準(zhǔn)確性有明顯提升。