朱嘉桐,卿來(lái)云,黃慶明
(中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 北京 100049)
視頻動(dòng)作分析一直是計(jì)算機(jī)視覺(jué)領(lǐng)域下的熱門(mén)研究分支,動(dòng)作識(shí)別、動(dòng)作檢測(cè)等問(wèn)題都吸引了大量的研究人員的關(guān)注。然而這些問(wèn)題都是需要獲取到完整視頻后才能對(duì)視頻中的動(dòng)作信息進(jìn)行分析,不能很好地被應(yīng)用于例如安保、人機(jī)交互等等需要模型對(duì)人們的動(dòng)作進(jìn)行實(shí)時(shí)在線檢測(cè)的領(lǐng)域中。最近在線動(dòng)作檢測(cè)(online action detection)這一新興的研究方向也引起了研究者們的關(guān)注。
由于在線動(dòng)作檢測(cè)這一問(wèn)題被提出的時(shí)間并不長(zhǎng),因此針對(duì)這一問(wèn)題的解決方法并不是很多,其中代表性工作包括RED[1]、TRN[2]與IDN[3]等。與動(dòng)作識(shí)別問(wèn)題中的算法不同,這些針對(duì)在線動(dòng)作檢測(cè)問(wèn)題的方法均使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM[4])作為基本的網(wǎng)絡(luò)結(jié)構(gòu),而不是三維卷積神經(jīng)網(wǎng)絡(luò)(3D convolutional neural networks, 3D CNN[5])這樣以整段視頻作為輸入的網(wǎng)絡(luò)結(jié)構(gòu)。其目的也是顯而易見(jiàn)的:通過(guò)獲取LSTM的每一個(gè)時(shí)刻的隱藏狀態(tài)來(lái)作為當(dāng)前時(shí)刻的時(shí)序特征用于動(dòng)作類(lèi)別判斷,從而達(dá)到實(shí)時(shí)檢測(cè)當(dāng)前幀的動(dòng)作的目的。
與動(dòng)作識(shí)別等問(wèn)題不同,在線動(dòng)作檢測(cè)因?yàn)橐獙?shí)時(shí)對(duì)動(dòng)作進(jìn)行識(shí)別,因此使用的視頻通常是包含大量背景信息的未裁剪視頻。另外,在在線檢測(cè)的過(guò)程中,由于模型無(wú)法得知當(dāng)前時(shí)刻以后的視頻信息,因此其只能根據(jù)歷史信息與當(dāng)前時(shí)刻的信息來(lái)判斷當(dāng)前時(shí)刻的動(dòng)作類(lèi)別,這兩點(diǎn)都對(duì)模型的時(shí)序建模能力提出了很高的要求。本文模型引入雙流網(wǎng)絡(luò)與自監(jiān)督學(xué)習(xí)的思想,通過(guò)分別給RGB與光流建模時(shí)序特征更好地挖掘出視頻中的時(shí)序信息以及它們的內(nèi)在關(guān)聯(lián),從而得到更好的結(jié)果。主要貢獻(xiàn)總結(jié)如下:
1)提出分別對(duì)視頻的RGB特征與光流特征用LSTM模型的雙流LSTM;
2)引入自監(jiān)督學(xué)習(xí)的思想,提出基于雙流模型的時(shí)序相似度損失與針對(duì)光流時(shí)序特征的光流穩(wěn)定性損失;
3)在THUMOS’14[6]與TVSeries[7]這2個(gè)公共數(shù)據(jù)集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果證明本文提出的模型與算法的有效性。
在線動(dòng)作檢測(cè)問(wèn)題由Geest等[7]于2016年提出,然而該作者并沒(méi)有隨著問(wèn)題的提出提供解決方案,而是在2年后提出2S-FN模型[8]作為該問(wèn)題的解決辦法之一。除Geest本人外,其他各種基于LSTM的在線動(dòng)作檢測(cè)模型被相繼提出。Gao等[1]基于編碼器-解碼器結(jié)構(gòu)以及強(qiáng)化學(xué)習(xí)思想提出了RED模型,通過(guò)根據(jù)編碼歷史信息來(lái)預(yù)測(cè)未來(lái)幾幀的動(dòng)作,并根據(jù)預(yù)測(cè)時(shí)間的長(zhǎng)短來(lái)反饋模型不同的懲罰或獎(jiǎng)勵(lì)效果。當(dāng)預(yù)測(cè)時(shí)間設(shè)置為0時(shí),該模型可以被用于在線動(dòng)作檢測(cè)任務(wù)。在RED之后,Xu等[2]于2019年的ICCV會(huì)議上提出了同樣基于編碼器-解碼器模型的TRN模型。與RED不同的是,TRN模型僅根據(jù)當(dāng)前幀來(lái)預(yù)測(cè)未來(lái)幾幀的特征,并將預(yù)測(cè)的未來(lái)特征用于當(dāng)前幀的類(lèi)別判斷中,由此達(dá)到較好的效果。目前性能最好的模型由Eun等[3]于2020年的CVPR會(huì)議上提出的IDN模型。該模型使用LSTM的改進(jìn)版本GRU[9]作為模型的基礎(chǔ)單元,并將其內(nèi)部結(jié)構(gòu)進(jìn)行修改以使當(dāng)前幀的特征能更好地被提取并傳遞用于下一時(shí)刻的隱藏狀態(tài)的更新中。
自監(jiān)督學(xué)習(xí)(self-supervised learning)是無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)的一種特殊情況,其基本思想是通過(guò)挖掘大量無(wú)標(biāo)注數(shù)據(jù)中的內(nèi)在聯(lián)系來(lái)設(shè)計(jì)間接任務(wù)(pretext task),之后通過(guò)訓(xùn)練模型更好地完成這個(gè)間接任務(wù),讓模型挖掘出數(shù)據(jù)內(nèi)部的更豐富的信息。當(dāng)模型從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)到大量數(shù)據(jù)的語(yǔ)義信息之后,就可以將訓(xùn)練好的模型放在有標(biāo)注的數(shù)據(jù)集中進(jìn)行進(jìn)一步精細(xì)調(diào)優(yōu),從而達(dá)到更好的訓(xùn)練結(jié)果。雖然自監(jiān)督學(xué)習(xí)的思想被廣泛地應(yīng)用于圖像、自然語(yǔ)言等領(lǐng)域,其在視頻分析領(lǐng)域中應(yīng)用的并不是很廣泛。與圖像領(lǐng)域的自監(jiān)督方法類(lèi)似,Lee等[10]提出基于視頻序列排序(sequence sorting)的視頻自監(jiān)督學(xué)習(xí)方法,主要思想是通過(guò)處理并打亂視頻中的原始圖像再傳遞到模型中讓模型判斷出圖像的正確順序,從而訓(xùn)練模型挖掘出視頻幀之間的內(nèi)在聯(lián)系。與之類(lèi)似的思想包括Luo等[11]提出的完形填空(cloze)方法、Xu等[12]提出的片段排序方法(clip ordering) 與Kim等[13]提出的時(shí)空立方體拼圖(space-time cubic puzzles)方法。除此之外,Jayaraman和Grauman[14]于2016年提出基于孿生網(wǎng)絡(luò)(siamese network)的時(shí)序相關(guān)性(temporally coherent embeddings, TCE)的模型,其通過(guò)借鑒一階導(dǎo)數(shù)與二階導(dǎo)數(shù)的求導(dǎo)思想分別設(shè)計(jì)出2個(gè)間接任務(wù)。第1個(gè)間接任務(wù)訓(xùn)練模型去最小化相鄰幀之間的特征差值,并最大化無(wú)關(guān)幀之間的特征差值;第2個(gè)間接任務(wù)訓(xùn)練模型去最小化相鄰三元組幀對(duì)的差值的差值,即時(shí)刻t、t+1、t+2三者的時(shí)序特征應(yīng)符合等式ft+1-ft≈ft+2-ft+1,由此讓模型對(duì)視頻的時(shí)序特征的建模更加平緩。通過(guò)這2個(gè)損失函數(shù),TCE模型獲得了較好的實(shí)驗(yàn)結(jié)果。本文就是受到TCE方法的啟發(fā),通過(guò)設(shè)計(jì)間接任務(wù)使RGB與光流的時(shí)序特征接近并且讓光流的時(shí)序特征變得更加穩(wěn)定以增強(qiáng)模型對(duì)視頻的建模能力。
之前的在線動(dòng)作檢測(cè)算法中,大多數(shù)都是將已經(jīng)提取好的RGB流與光流特征在維度上進(jìn)行串聯(lián)后傳入到LSTM模型中作為當(dāng)前時(shí)刻的輸入。這樣做的缺點(diǎn)是并沒(méi)有分開(kāi)考慮RGB流特征與光流特征的時(shí)間分布情況。同時(shí)我們注意到,在過(guò)去的視頻動(dòng)作分析領(lǐng)域相關(guān)的問(wèn)題中,使用雙流網(wǎng)絡(luò)例如TSN(temporal segment network[15])提取的特征在很多情況下要比使用3 D CNN提取的特征效果更好,這也讓我們意識(shí)到應(yīng)該將RGB與光流特征分別處理,而不是簡(jiǎn)單地進(jìn)行融合后傳入到模型中。
實(shí)際上,我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn),RGB流特征與光流特征沿著時(shí)間的變化大小是不同的。圖1展示了THUMOS’14數(shù)據(jù)集中一個(gè)視頻的相鄰幀的RGB特征與光流特征的歐氏距離。
圖1 THUMOS’14數(shù)據(jù)集中相鄰幀之間的RGB特征與光流特征距離
從圖1中可以清晰地看到,相鄰幀的RGB特征距離與光流特征距離隨著時(shí)間的分布是不同的,其中光流特征的距離明顯更大,也就是說(shuō)光流特征隨著時(shí)間變化更加地劇烈。這不僅證明了使用2個(gè)LSTM模型對(duì)RGB特征與光流特征分別進(jìn)行建模是有意義的,也為接下來(lái)的自監(jiān)督學(xué)習(xí)算法提供了支持。
如上文所說(shuō),分別對(duì)RGB流與光流構(gòu)建LSTM模型用于時(shí)序特征的提取,該模型的結(jié)構(gòu)圖如圖2所示。
圖2 2S-LSTM的結(jié)構(gòu)示意圖
(1)
(2)
(3)
(4)
在獲得時(shí)序特征之后,將2個(gè)時(shí)序特征在維度上進(jìn)行串聯(lián),從而獲得當(dāng)前時(shí)刻的總體時(shí)序特征ft,即
(5)
其中⊕符號(hào)表示串聯(lián)操作。
最后,將當(dāng)前時(shí)刻的時(shí)序特征傳入到分類(lèi)器中進(jìn)行動(dòng)作分類(lèi),并獲得當(dāng)前時(shí)刻的動(dòng)作的概率分布用于交叉熵?fù)p失函數(shù)的訓(xùn)練。該過(guò)程如下所示
pt=softmax(Wpft),
(6)
(7)
其中:Wp為可訓(xùn)練的分類(lèi)器參數(shù),pt為時(shí)刻t的動(dòng)作類(lèi)別的概率分布;yt,k為時(shí)刻t的真實(shí)標(biāo)簽,其中k為動(dòng)作類(lèi)別索引(包含背景類(lèi)別);T與K分別為訓(xùn)練視頻的長(zhǎng)度以及包含背景在內(nèi)的動(dòng)作類(lèi)別數(shù)量。
本文除提出雙流LSTM這一新型的模型結(jié)構(gòu)外,還引入自監(jiān)督學(xué)習(xí)的思想用于探究時(shí)序信息之間的內(nèi)在關(guān)聯(lián)。從上文中可知,由于光流的原始特征相比于RGB流的原始特征變化更加明顯,隨著時(shí)間的起伏更大,因此本文認(rèn)為應(yīng)該對(duì)通過(guò)光流特征提取出的時(shí)序特征進(jìn)行一定的限制,保證其在時(shí)序上擁有一定的穩(wěn)定性。除此之外,我們還認(rèn)為RGB和光流是屬于同一視頻的不同表示模態(tài),雖然其外在的表現(xiàn)方式不同,但其時(shí)序關(guān)系之間應(yīng)該是近似的。出于這2點(diǎn)的考慮,本文提出基于自監(jiān)督學(xué)習(xí)的2個(gè)損失函數(shù),即光流穩(wěn)定性損失(flow stability loss, FS)與時(shí)序相似度損失(temporal similarity loss, TS)。
2.2.1 光流穩(wěn)定性損失
在圖1可以看出,從光流中提取出的原始特征的相鄰幀差異較大。這是因?yàn)橄啾萊GB,光流更容易受場(chǎng)景變換以及人們細(xì)微的動(dòng)作影響。因此,光流雖然可以提供豐富的動(dòng)作信息,但也很容易造成模型對(duì)動(dòng)作與背景之間的誤判。出于這個(gè)原因,我們借鑒了拉普拉斯特征映射(Laplacian eigenmaps)[16]的思想,即根據(jù)原始的光流特征的差值決定提取的時(shí)序信息的差值大小,并由此設(shè)計(jì)出如下的損失函數(shù)Lfs
(8)
2.2.2 時(shí)序相似度損失
(9)
在獲得3個(gè)損失函數(shù)之后,使用多任務(wù)學(xué)習(xí)的方法來(lái)獲得總的損失函數(shù)L
L=αLcls+βLfs+γLts,
(10)
這里α,β,γ均為可以調(diào)節(jié)的超參數(shù),表示不同損失所占比例。在THUMOS’14數(shù)據(jù)集中,經(jīng)過(guò)實(shí)驗(yàn)分析,將α,β,γ的值均設(shè)定為1;而在TVSeries數(shù)據(jù)集中,將這三者分別設(shè)定為1、0.1與0.1。這是因?yàn)門(mén)VSeries數(shù)據(jù)集中的視頻背景信息占比較高,因此需要調(diào)低TS與FS在損失函數(shù)中的占比從而讓模型更關(guān)注動(dòng)作本身的類(lèi)別判斷。
本文使用THUMOS’14[6]與TVSeries[7]這2個(gè)數(shù)據(jù)集進(jìn)行試驗(yàn)。出于控制變量的目的,為了與現(xiàn)有方法進(jìn)行比較,按照現(xiàn)有的在線動(dòng)作檢測(cè)方法中提出的實(shí)驗(yàn)設(shè)置,將視頻的FPS全部調(diào)整為24,之后再分別使用基于ActivityNet[17]數(shù)據(jù)集預(yù)訓(xùn)練的ResNet-200網(wǎng)絡(luò)[18]與BNInception[19]網(wǎng)絡(luò)來(lái)提取RGB特征與光流特征。在提取特征時(shí),以6個(gè)連續(xù)幀作為一個(gè)單位,稱(chēng)為一個(gè)塊(chunk)。其中RGB特征以6幀的中間幀作為輸入,輸出則為ResNet-200網(wǎng)絡(luò)的Flatten_673層得到的輸出,為一個(gè)2 048維的向量;而光流特征則以一個(gè)chunk作為輸入,輸出為BNInception網(wǎng)絡(luò)的global_pool層所得到的輸出,為一個(gè)1 024維的向量。之后這兩者被分別傳入LSTMRGB與LSTMFlow中來(lái)提取時(shí)序特征。
在THUMOS’14數(shù)據(jù)集上,使用由Geest等提出的mean average precision(mAP)作為算法的評(píng)估指標(biāo)
(11)
(12)
首先,在獲得整個(gè)數(shù)據(jù)集的所有幀后,將其按照每個(gè)動(dòng)作類(lèi)別的概率進(jìn)行降序排列。等式(11)中的TP(true positive)與FP(false positive)分別表示在第所有幀的第i個(gè)截?cái)嘞碌脑搫?dòng)作類(lèi)別的true positive與false positive的樣本數(shù)量?;诘仁?11)所計(jì)算得到的每一個(gè)截?cái)鄆的精確率Prec(i),等式(12)計(jì)算了每一個(gè)動(dòng)作類(lèi)別k的平均精確度APk,其中Np表示該類(lèi)別的所有正樣本數(shù)量。當(dāng)?shù)趇幀為正樣本時(shí)1(i)=1,為負(fù)樣本時(shí)1(i)=0。最后將所有類(lèi)別的平均精確度進(jìn)行平均,就得到mAP。
由于TVSeries數(shù)據(jù)集中背景幀的比例相對(duì)較高,因此TVSeries的評(píng)估指標(biāo)與THUMOS’14的評(píng)估指標(biāo)有所不同,為mcAP。mcAP為Geest等所提出[3],主要目標(biāo)是為解決不同動(dòng)作類(lèi)別的正負(fù)樣本比值不同所導(dǎo)致的AP難以比較的問(wèn)題。其計(jì)算方式如下所示
(13)
(14)
其中:ω表示當(dāng)前類(lèi)別下所有負(fù)樣本與正樣本的比值,其用于平衡數(shù)據(jù)集中的正負(fù)樣本比例。同樣,最后將每個(gè)類(lèi)別的cAPk進(jìn)行平均來(lái)獲得mcAP。
表1中的第2列與第3列分別展示了本文的方法以及現(xiàn)有在線動(dòng)作檢測(cè)方法在THUMOS’14數(shù)據(jù)集與TVSeries數(shù)據(jù)集上的性能比較結(jié)果。除此之外,還對(duì)本文的2S-LSTM模型進(jìn)行了一定的消融實(shí)驗(yàn),探究每個(gè)損失函數(shù)對(duì)模型總體性能的影響。
表1 THUMOS’14與TVSeries數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果
在THUMOS’14數(shù)據(jù)集上,本文的模型遠(yuǎn)遠(yuǎn)超出了過(guò)去最好的方法IDN的性能。即使沒(méi)有增加光流穩(wěn)定性以及時(shí)序相似性這2個(gè)損失函數(shù),單純的2S-LSTM模型也達(dá)到了54.8%的mAP性能。這充分說(shuō)明本文所提出的雙流LSTM模型對(duì)于提取視頻的時(shí)序信息是十分有效的。而在加入FS與TS這2個(gè)損失函數(shù)之后,可以看到模型的性能都或多或少有了一定的提升。值得注意的是,當(dāng)將2個(gè)損失函數(shù)同時(shí)用于模型上時(shí),模型性能達(dá)到最佳狀態(tài),即55.9%mAP。這不僅說(shuō)明我們所提出的基于自監(jiān)督學(xué)習(xí)的損失函數(shù)對(duì)于性能的提升是有幫助的,更說(shuō)明這2個(gè)損失函數(shù)是互補(bǔ)的,因此同時(shí)使用這兩者會(huì)進(jìn)一步提高模型的性能。
而在TVSeries數(shù)據(jù)集上,可以看出2S-LSTM的性能不盡如人意,哪怕是最好的時(shí)候也僅僅達(dá)到83.2%的mcAP,并不如之前的方法TRN與IDN的性能。我們猜測(cè)這是因?yàn)門(mén)VSeries數(shù)據(jù)集中的數(shù)據(jù)均為來(lái)自電視劇中的長(zhǎng)視頻,其包含大量的不變背景信息,從而導(dǎo)致模型學(xué)習(xí)了過(guò)多的有關(guān)背景的時(shí)序特征,導(dǎo)致模型對(duì)于動(dòng)作的判別能力有所下降。為驗(yàn)證這一猜測(cè),我們將2S-LSTM+TS+FS模型與IDN模型在TVSeries上每一個(gè)動(dòng)作類(lèi)別下的cAPk進(jìn)行了比較,其結(jié)果如圖3所示。
圖3 2S-LSTM+TS+FS與IDN在TVSeries數(shù)據(jù)集上各個(gè)動(dòng)作類(lèi)別的性能比較
從圖3可以看到,對(duì)于較容易判斷的動(dòng)作類(lèi)別,例如Run(跑步)、Drive Car(開(kāi)車(chē))、Kiss(親吻)等動(dòng)作,這2個(gè)模型均取得了較好的結(jié)果,并且性能差異很小;而在Read(閱讀)、Dress up(穿衣)、Pour(傾倒)這些較難判斷的動(dòng)作上,兩者的性能出現(xiàn)了較大的差異,尤其是Dress up與Pour這2個(gè)動(dòng)作,我們的模型在前者上的準(zhǔn)確率要遠(yuǎn)高于IDN,模型,而IDN模型則在Pour動(dòng)作類(lèi)別上的準(zhǔn)確率要遠(yuǎn)高于我們。針對(duì)這2個(gè)動(dòng)作,我們對(duì)2S-LSTM+TS+FS與IDN在包含這2個(gè)動(dòng)作的視頻中的模型性能進(jìn)行了可視化,如圖4所示。
從圖4(a)可以看到,在Dress up動(dòng)作上,我們的模型相比IDN取得了更加理想的結(jié)果,在動(dòng)作的開(kāi)始部分和結(jié)束部分,2S-LSTM+TS+FS的概率曲線分別出現(xiàn)了明顯的上升與下降,而IDN并沒(méi)有很好地判斷出Dress up動(dòng)作,因此其概率曲線十分平緩。而在圖4(b)圖中,IDN模型要比我們的模型在Pour這個(gè)動(dòng)作上的判別性能更好。值得注意的是,IDN模型并沒(méi)有在動(dòng)作的一開(kāi)始就成功判斷出該動(dòng)作的類(lèi)別,并且在動(dòng)作的進(jìn)行期間出現(xiàn)了大幅度的概率下滑的情況。結(jié)合視頻的截圖可以發(fā)現(xiàn),在動(dòng)作的開(kāi)始階段與動(dòng)作的后半段,鏡頭中并沒(méi)有出現(xiàn)“桶”這個(gè)明確的代表性物體,雖然動(dòng)作已經(jīng)開(kāi)始或者正在進(jìn)行,但是這會(huì)讓模型誤以為動(dòng)作并沒(méi)有開(kāi)始或者已經(jīng)結(jié)束。而在動(dòng)作結(jié)束后的短時(shí)間內(nèi)視頻中又出現(xiàn)了“桶”這個(gè)物體,因此2個(gè)模型在Pour這一動(dòng)作上的概率又出現(xiàn)了小幅度的上揚(yáng)。從這個(gè)可視化結(jié)果中可以看到,模型對(duì)于不同類(lèi)型的動(dòng)作有不同的敏感度,并且模型對(duì)動(dòng)作的判斷性能極大地依賴(lài)于動(dòng)作的復(fù)雜度以及具有代表性的物體是否出現(xiàn)。因此,如何保證模型在背景信息較多、動(dòng)作復(fù)雜度較高且代表性物體消失的情況下更好地學(xué)習(xí)動(dòng)作的時(shí)序特征并且降低對(duì)動(dòng)作類(lèi)別的敏感度是我們將來(lái)研究的重要方向。
圖4 2S-LSTM+TS+FS與IDN在TVSeries數(shù)據(jù)集上各個(gè)動(dòng)作類(lèi)別的性能比較
除與過(guò)去的方法進(jìn)行比較之外,我們還對(duì)2S-LSTM本身進(jìn)行了定量分析,并將其在視頻上得到的動(dòng)作概率進(jìn)行了可視化,如圖5所示。
每個(gè)子圖中上方的長(zhǎng)方形條為標(biāo)簽,下方的圖為模型計(jì)算出的動(dòng)作類(lèi)別的概率值
圖5為2S-LSTM在THUMOS’14數(shù)據(jù)集中“Throw Discus(扔垃圾)”這個(gè)動(dòng)作類(lèi)別下的一段視頻的檢測(cè)結(jié)果。從圖中可以看到,在背景與動(dòng)作的交界處,單純的2S-LSTM模型表現(xiàn)并不理想,其不僅沒(méi)有立刻檢測(cè)出動(dòng)作的存在,甚至在動(dòng)作的開(kāi)始將背景誤判為動(dòng)作,造成了精確度的下降。而在分別加入時(shí)序相似度損失與光流穩(wěn)定性損失后,模型可以更好地在動(dòng)作的起始部分正確判斷出動(dòng)作類(lèi)別,并且在動(dòng)作的持續(xù)期間模型得出的概率曲線更加平穩(wěn)。這充分說(shuō)明本文所提出的自監(jiān)督學(xué)習(xí)方法可以有效地提高模型對(duì)于動(dòng)作的準(zhǔn)確判斷能力。值得注意的是,雖然TS與FS可以提高模型的檢測(cè)能力,但是模型依舊并沒(méi)有在動(dòng)作的起始部分就立刻檢測(cè)出“Throw Discus”這一動(dòng)作。這說(shuō)明在背景與動(dòng)作的交界處,模型得到的時(shí)序特征并沒(méi)有很好地將動(dòng)作與背景區(qū)分開(kāi)。因此,如何更好地通過(guò)特征的形式將背景特征與動(dòng)作特征進(jìn)行區(qū)分,就成為我們接下來(lái)的研究重點(diǎn)。
除與之前的在線動(dòng)作檢測(cè)方法進(jìn)行效果比較之外,我們還對(duì)2S-LSTM在THUMOS’14數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),并將每一種模型的變種在所有動(dòng)作上得到的AP進(jìn)行了可視化,結(jié)果如圖6所示。
圖6 2S-LSTM在THUMOS’14數(shù)據(jù)集的各個(gè)動(dòng)作類(lèi)別的消融實(shí)驗(yàn)結(jié)果
從圖6可以看到,在給2S-LSTM增加了TS與FS這2個(gè)損失函數(shù)之后,模型并不是在所有類(lèi)別的動(dòng)作上都取得更好的效果,這也符合我們對(duì)模型性能的猜測(cè)。由于每一個(gè)動(dòng)作的持續(xù)時(shí)間、復(fù)雜程度、變化劇烈程度都不盡相同并且這些動(dòng)作類(lèi)別下的視頻呈現(xiàn)動(dòng)作的方式也有很大的不同,從而導(dǎo)致模型學(xué)習(xí)這些動(dòng)作的時(shí)候會(huì)出現(xiàn)性能上的差異。例如圖中的HighJump(跳高)這一動(dòng)作,可以發(fā)現(xiàn)TS與FS這兩者對(duì)其性能增強(qiáng)的影響程度是不同的,其中TS對(duì)性能的提升要高于FS對(duì)性能的提升,并且當(dāng)兩者被同時(shí)使用時(shí),2S-LSTM達(dá)到了更好的效果;而在BaseballPitch(投球)這一動(dòng)作中,模型在加入TS損失函數(shù)后甚至相比起不加要損失很大的性能,而加入FS后有稍微的性能提升。我們認(rèn)為這是因?yàn)橥肚蜻@個(gè)動(dòng)作相比起跳高的持續(xù)時(shí)間更短,且僅僅通過(guò)動(dòng)作的表觀信息難以判斷動(dòng)作的具體類(lèi)別,其更加依賴(lài)光流來(lái)提供決定性的動(dòng)作信息,因此FS相比TS在該動(dòng)作類(lèi)別上有更加關(guān)鍵的作用;而跳高這一動(dòng)作持續(xù)時(shí)間相對(duì)較長(zhǎng),更要求模型對(duì)光流與RGB的時(shí)序特征之間的關(guān)系有更好的把控,因此TS要比FS更加關(guān)鍵。從這個(gè)消融實(shí)驗(yàn)可以得出結(jié)論,即對(duì)待不同的動(dòng)作類(lèi)別時(shí),應(yīng)該根據(jù)動(dòng)作的大概信息來(lái)調(diào)整模型的參數(shù),從而達(dá)到更好的性能效果。
本文提出一種基于雙流LSTM網(wǎng)絡(luò)與自監(jiān)督學(xué)習(xí)的在線動(dòng)作檢測(cè)算法。該算法基于LSTMRGB與LSTMFlow這2個(gè)網(wǎng)絡(luò)分別生成RGB與光流的時(shí)序特征,從而更好地給2種模態(tài)的時(shí)序信息建模。除此之外,還將自監(jiān)督學(xué)習(xí)的概念引入到在線動(dòng)作檢測(cè)問(wèn)題中,并提出時(shí)序相似度損失與光流穩(wěn)定性損失。本文在THUMOS’14與TVSeries數(shù)據(jù)集上分別進(jìn)行了充分的實(shí)驗(yàn),證明了所提出的模型對(duì)于解決該問(wèn)題的有效性。