毛 琳,陳思宇,楊大偉,張汝波
(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116605)
動作分類是行為識別研究方向中一項重要的基礎(chǔ)任務(wù),對動作時序提名[1]、動作時序定位[2]、視頻密集事件描述[3]等技術(shù)都有一定的貢獻(xiàn),大部分基于視頻數(shù)據(jù)的學(xué)習(xí)任務(wù)都需要以動作分類技術(shù)[4]為基礎(chǔ)進(jìn)一步研究。當(dāng)前動作分類方法主要有三種:運(yùn)用視頻信息與對應(yīng)光流信息作為輸入數(shù)據(jù)的雙流網(wǎng)絡(luò);僅運(yùn)用視頻信息作為輸入數(shù)據(jù)的3D卷積神經(jīng)網(wǎng)絡(luò)[5-6];運(yùn)用視頻中人體骨骼關(guān)鍵點信息作為輸入數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)。本文提出的時域?qū)傩孕Uㄡ槍H運(yùn)用視頻信息作為輸入數(shù)據(jù)的3D卷積神經(jīng)網(wǎng)絡(luò)展開。
動作視頻中包含著多種屬性:時域動作屬性、靜態(tài)空間屬性、行人與背景的關(guān)聯(lián)性、運(yùn)動者自身的特點(衣著、身高、被遮擋與否)等。諸多學(xué)者發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)中的卷積運(yùn)算結(jié)構(gòu)擁有的平移不變性特點為其帶來優(yōu)異的空間屬性學(xué)習(xí)能力,卻降低了網(wǎng)絡(luò)模型對其他屬性的注意力,限制模型對時域?qū)傩缘膶W(xué)習(xí)能力[7]并影響動作特征中的時域穩(wěn)健性。文獻(xiàn)[8]指出訓(xùn)練完成的CNNs在對動作視頻分類時,約半數(shù)的分類沒有依據(jù)真實的運(yùn)動軌跡,僅運(yùn)用了視頻中的空間信息來完成分類判決,該實驗反映出CNNs在訓(xùn)練時對時域?qū)傩缘淖⒁饬Υ嬖诓蛔?。文獻(xiàn)[9]為了使網(wǎng)絡(luò)模型不受限于視頻中局部的空間外貌特征,針對視頻數(shù)據(jù)設(shè)計了非局部網(wǎng)絡(luò)結(jié)構(gòu),使模型對局部與非局部信息進(jìn)行區(qū)分,學(xué)習(xí)到全局的動作信息,但網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性使得其模型參數(shù)量大幅度增加,不利于應(yīng)用。文獻(xiàn)[10]設(shè)計了4D卷積結(jié)構(gòu)對長距離時空表示進(jìn)行建模,并利用殘差結(jié)構(gòu)保存三維時空特征,作為視頻級網(wǎng)絡(luò),其性能較為優(yōu)異,但該結(jié)構(gòu)的參數(shù)量與計算成本都較為龐大,在后續(xù)應(yīng)用中還需優(yōu)化。
為了突破CNNs的局限性,改進(jìn)該網(wǎng)絡(luò)在動作分類中的表現(xiàn),本文針對CNNs所捕獲的特征中時域?qū)傩孕畔⒌姆€(wěn)健性不足問題,提出一種時域?qū)傩孕Uㄌ嵘P蛯υ搶傩孕畔⒌膶W(xué)習(xí)能力?;?D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),抽象模型所學(xué)特征的屬性信息,對比各動作特征間的時域?qū)傩云?,校正偏差過大的特征,強(qiáng)化網(wǎng)絡(luò)模型對時域動作規(guī)律的學(xué)習(xí),提升CNNs的性能。本文基于文獻(xiàn)[11]對各種熱門卷積網(wǎng)絡(luò)的實驗結(jié)果,選取其中表現(xiàn)最好的ResNext-101模型作為仿真對象,經(jīng)本方法改進(jìn)后,該網(wǎng)絡(luò)模型的Top-1與Top-5準(zhǔn)確率在兩個常用的動作分類數(shù)據(jù)集中都有一定的提升,其預(yù)訓(xùn)練模型的仿真結(jié)果也能夠得到優(yōu)化。
時域?qū)傩孕Uㄖ饕譃閷傩猿橄笈c校正反饋兩個部分。
樣本數(shù)據(jù)空間關(guān)系如圖1?;谠~類比等自然語言處理領(lǐng)域相關(guān)應(yīng)用的研究成果[12-13],當(dāng)不同詞匯樣本間具備某種一致屬性時,它們的特征將擁有一致的屬性空間映射關(guān)系,如圖1a。本文由此創(chuàng)新性地推論,具備時間維度的各視頻樣本雖包含多種屬性,但其擁有的時域?qū)傩阅苁顾鼈儽3忠欢ǖ臅r域空間關(guān)聯(lián)特性,由于三維卷積神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練時所學(xué)到的特征信息x也具備時間維度[14],上述推論能夠應(yīng)用于擁有時域?qū)傩缘奶卣餍畔,不同的特征信息存在如圖1b所示的空間關(guān)系。
圖1 樣本數(shù)據(jù)空間關(guān)系
在動作分類任務(wù)中,神經(jīng)網(wǎng)絡(luò)能否準(zhǔn)確分辨動作信息,主要依據(jù)該網(wǎng)絡(luò)模型能否辨別不同環(huán)境、不同行人的一致動作軌跡規(guī)律。真實視頻圖像與其對應(yīng)的差值信息如圖2,上行為原始視頻的連續(xù)幀圖像,下行為上行圖像運(yùn)用幀差法獲取的差值圖像。圖中可以看出差值圖像能夠包含非常完整的動作軌跡信息,且圖中與動作軌跡無關(guān)的噪點信息也較少,由此將動態(tài)差值圖像定義為視頻數(shù)據(jù)的時域動作屬性信息。
屬性映射法假設(shè)原始信息與屬性信息之間的映射關(guān)系能夠代表該屬性本身,設(shè)定任意擁有時間維度的數(shù)據(jù)X與對應(yīng)時域動態(tài)信息Y之間存在穩(wěn)健的時域映射f(·),本設(shè)定存在公式表達(dá):
f(X)=Y。
(1)
當(dāng)時域?qū)傩杂蓵r域映射關(guān)系f(·)代表時,具備一致時域?qū)傩郧覔碛袝r間維度的各個網(wǎng)絡(luò)特征信息組x也應(yīng)具備一致的時域映射關(guān)系f(·)。由圖1b可推論,不同的特征信息x具備一定的時域空間關(guān)聯(lián)特性,那么任意兩組特征數(shù)據(jù)x與其對應(yīng)的時域動態(tài)信息y之間應(yīng)存在如圖1c所示的空間關(guān)系。屬性映射法的核心邏輯是透過對映射關(guān)系的求解,完成時域?qū)傩缘某橄蟆?/p>
屬性抽象的計算環(huán)節(jié)分為兩步:第一步,指定時域映射f的函數(shù)形式;第二步,利用已知的特征數(shù)據(jù)x與對應(yīng)時域動態(tài)信息y,根據(jù)指定時域映射f的函數(shù)形式設(shè)計對應(yīng)的算法,得出f的未知系數(shù)。透過對未知系數(shù)的求解,完整的f即為特征數(shù)據(jù)時域?qū)傩缘某橄蠼Y(jié)果。
不同的函數(shù)形式會對抽象結(jié)果擁有不同的影響,在應(yīng)用時可以根據(jù)實際需求指定不同的函數(shù)作為時域映射f的具體形式。在此以一元一次函數(shù)作為計算示例,指定的時域映射f存在函數(shù)形式:
f(x)=ax+b=y。
(2)
式中,a、b為當(dāng)前指定形式中的未知系數(shù)。
圖2 視頻圖像與幀差法獲取的差值圖像
通過已知的x與y,可得出一種估計結(jié)果:將x與y的商與余數(shù)作為a、b的解,存在算式:
(3)
(4)
由于上述方法只能得出當(dāng)a為最大值時的解,得出的未知系數(shù)解集并不完整,在實際應(yīng)用時可添加額外的計算(如收束a值的倍率并得出對應(yīng)的b值),得到更完整的解集,將解集的期望值作為最終的系數(shù)解,完善抽象結(jié)果f。
根據(jù)圖1展示出的樣本數(shù)據(jù)空間關(guān)系,可以得出約束條件:具備一致時域?qū)傩缘牟煌卣鏖g應(yīng)具備一致的時域映射關(guān)系f(·)。當(dāng)分類模型對各場景動作視頻中時域?qū)傩缘膶W(xué)習(xí)成效不佳,導(dǎo)致同一中間層內(nèi)特征的時域穩(wěn)健性不足時,可以通過對映射關(guān)系的一致化校正來改善特征數(shù)據(jù)中所包含的時域?qū)傩?。本方法利用上述約束條件并基于三維網(wǎng)絡(luò)中擁有時間維度的特征數(shù)據(jù),對比模型內(nèi)各特征組的時域映射關(guān)系f(·),將對比得出的屬性偏差值作為約束,反饋到模型的再訓(xùn)練過程。當(dāng)屬性偏差值較大時,反饋再訓(xùn)練的過程可以通過該偏差校正模型所學(xué)特征的時域?qū)傩?,提升對?yīng)屬性信息的穩(wěn)健性;當(dāng)屬性偏差值較小時,即認(rèn)為該組特征具備穩(wěn)健的時域一致性,不用加以校正。
繼續(xù)以一元一次函數(shù)作為示例,利用從模型訓(xùn)練過程中選取的特征數(shù)據(jù)x,得出對應(yīng)的時域動態(tài)信息y。通過x與y計算出時域映射f(·)中的未知系數(shù)a、b,由于特征數(shù)據(jù)x為包含時間維度的三維數(shù)據(jù),得出的未知系數(shù)解將構(gòu)成參數(shù)集合A與參數(shù)集合B,可表示為:
A={a1,a2,a3,…,au};B={b1,b2,b3,…,bu}。
(5)
式中,u的大小取決于被計算特征數(shù)據(jù)中圖像幀的數(shù)量。在此基礎(chǔ)上,將不同特征組的參數(shù)集合A與參數(shù)集合B的線性差值整合為分歧集合A與B,以分歧集合的標(biāo)準(zhǔn)差作為時域?qū)傩杂成涞姆制鐓?shù)Dt,存在計算公式:
(6)
用不同參數(shù)集合的差值代表不同特征之間時域映射f(·)的偏差,以該偏差作為各組特征間時域?qū)傩缘姆制?,將分歧參?shù)Dt與原始的損失函數(shù)l′[15]整合,使分歧參與到模型的反向傳播中。模型的損失函數(shù)直接影響網(wǎng)絡(luò)模型的反向傳播過程[16],添加分歧參數(shù)Dt后的損失函數(shù):
L=l′+φDt。
(7)
(8)
本方法以增強(qiáng)3D CNNs的時域?qū)傩詫W(xué)習(xí)成效為目的,解決卷積運(yùn)算容易忽略視頻數(shù)據(jù)中時域信息的問題,改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)在視頻動作分類任務(wù)中的局限性。
運(yùn)用網(wǎng)絡(luò)模型在訓(xùn)練過程中捕獲到的特征信息,通過獨創(chuàng)的屬性映射法抽象出時域?qū)傩裕瑢Ρ雀魈卣餍畔⒅械臅r域?qū)傩云?,將偏差反饋到模型的?xùn)練中,使時域?qū)傩缘钠钭鳛橐豁椨?xùn)練約束,直接影響神經(jīng)網(wǎng)絡(luò)模型的反向傳播。在優(yōu)化訓(xùn)練約束的同時,逐漸降低時域?qū)傩云睿嵘?D CNNs所學(xué)特征的時域?qū)傩砸恢滦?。使用時域?qū)傩孕Uǖ木W(wǎng)絡(luò)模型訓(xùn)練邏輯圖如圖3。
圖3 改進(jìn)后網(wǎng)絡(luò)模型的訓(xùn)練邏輯圖
圖3虛線框選部分為方法的運(yùn)算流程,結(jié)合反饋部分后本方法共計四個步驟。
步驟1:在模型訓(xùn)練過程中,選取指定網(wǎng)絡(luò)中間層的特征數(shù)據(jù)。中間層的指定可以完全隨機(jī),或默認(rèn)優(yōu)先指定較淺中間層(以10層網(wǎng)絡(luò)為例,1~3層為較淺層)或較深中間層(7~10層為較深層),可根據(jù)不同網(wǎng)絡(luò)模型、訓(xùn)練結(jié)果對指定層進(jìn)行調(diào)整,以達(dá)到更好的校正效果。
步驟2:運(yùn)用屬性映射法抽象所選取特征數(shù)據(jù)的時域?qū)傩?。通過幀差法計算選取特征數(shù)據(jù)x的時域動態(tài)信息y,具體計算過程可表示為
yi=xi+2-xi,1≤i≤n-2 。
(9)
式中:i代表幀數(shù);n代表一個特征數(shù)據(jù)集合X的總幀數(shù);x為特征數(shù)據(jù)X的單幀二維圖像,計算時逐兩幀作差。x的圖像大小受到網(wǎng)絡(luò)模型訓(xùn)練時既定輸入數(shù)據(jù)大小與指定中間層位置的影響,特征數(shù)據(jù)集合X與時域動態(tài)信息集合Y存在公式表達(dá):
X=[x1,x2,x3,…,xn] ;
(10)
Y=[y1,y2,y3,…,yn-2] 。
(11)
剩余步驟如本文1.1章節(jié)所示,后續(xù)仿真對時域映射f(·)的指定形式為一元一次函數(shù)。運(yùn)算過程中,集合X為復(fù)數(shù),根據(jù)網(wǎng)絡(luò)模型訓(xùn)練時既定的批量尺寸數(shù)s存在對應(yīng)數(shù)量的集合X所構(gòu)成的集合組X,出于對算法實時性的考慮,直接采用向量化(逐幀逐像素對應(yīng))計算得出f(·)的未知系數(shù)解。假設(shè)x的大小為(28,28),得出的一組集合的未知系數(shù)解A與B的大小為(n-2,28,28),完整未知系數(shù)解A與B的大小為(s,n-2,28,28)。
步驟3:對比各組特征數(shù)據(jù)的時域?qū)傩?,得出量化的屬性偏差值。從s組參數(shù)集合中隨機(jī)選取一組參數(shù)集合A'、B'為對照組,其他所有組為被對照組,計算時需得出所有對照組與被對照組的差值,將得出的s-1組差值求和并取期望值,以此作為屬性偏差值Dt,其中的公式化表達(dá)詳見本文1.2章節(jié)。
步驟4:將屬性偏差值反饋添加到損失函數(shù)中,成為一項訓(xùn)練約束,使模型的再訓(xùn)練過程受到特征數(shù)據(jù)時域?qū)傩云畹挠绊?,具體公式細(xì)節(jié)詳見本文1.2章節(jié)。
為了驗證有效性,本文在兩個常用的動作分類數(shù)據(jù)集UCF-101[17]與HMDB-51[18]上進(jìn)行仿真驗證,根據(jù)文獻(xiàn)[11]的實驗結(jié)果,選擇了其中準(zhǔn)確率最高的ResNext-101網(wǎng)絡(luò)作為仿真模型,運(yùn)用時域?qū)傩孕U▽υ撃P瓦M(jìn)行改進(jìn)。
仿真使用4張英偉達(dá)1080ti顯卡對分類模型訓(xùn)練,基于python3.6構(gòu)建仿真程序,運(yùn)用了pytorch深度學(xué)習(xí)框架(版本為0.4.0)。網(wǎng)絡(luò)模型未經(jīng)任何預(yù)訓(xùn)練,各中間層均為3D結(jié)構(gòu),訓(xùn)練時使用批量歸一化與隨機(jī)角點裁剪處理輸入數(shù)據(jù),并結(jié)合基于驗證集的自適應(yīng)學(xué)習(xí)率調(diào)整模塊,其他詳細(xì)參數(shù)見表1。
表1 仿真相關(guān)參數(shù)設(shè)置
屬性偏差值Dt在網(wǎng)絡(luò)模型訓(xùn)練過程中的變化曲線如圖4。根據(jù)圖像結(jié)果可知,網(wǎng)絡(luò)模型在對兩個數(shù)據(jù)集進(jìn)行訓(xùn)練時,經(jīng)校正后的特征數(shù)據(jù)時域?qū)傩云钪刀蓟镜陀谀P托U?,表明本方法有效校正了分類模型所學(xué)動作特征的時域?qū)傩云?,?yōu)化了特征的時域?qū)傩苑€(wěn)健性。曲線優(yōu)化前后的波動較為一致,說明本方法作為一個輔助部分,不會使網(wǎng)絡(luò)模型的訓(xùn)練進(jìn)程產(chǎn)生本質(zhì)上的偏移,結(jié)合方法無需更改模型結(jié)構(gòu)的特點,時域?qū)傩孕U〒碛休^強(qiáng)的可適用性,在不多加調(diào)試的情況下也能夠直接與動作分類卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合。
a)UCF-101 b)HMDB-51
校正前后的ResNeXt-101網(wǎng)絡(luò)在兩個數(shù)據(jù)集上的測試準(zhǔn)確率見表2,最終結(jié)果從三組測試數(shù)據(jù)中取均值后得出??梢园l(fā)現(xiàn)經(jīng)改進(jìn)后的ResNeXt-101-R模型在兩個數(shù)據(jù)集上均有不同程度的提升。其中,在UCF-101數(shù)據(jù)集上的性能改善較為明顯,分別在Top-1和Top-5準(zhǔn)確率上提升3.5%與2.3%,在HMDB-51數(shù)據(jù)集上的測試結(jié)果僅提升了1%的Top-1準(zhǔn)確率與0.9%的Top-5準(zhǔn)確率。同時,兩組測試結(jié)果都是Top-1準(zhǔn)確率的提升大于Top-5準(zhǔn)確率的提升,可以得出推論:在未經(jīng)其他預(yù)訓(xùn)練的情況下,改進(jìn)后的網(wǎng)絡(luò)模型提升了對動作樣本的精確度。
表2 對不同數(shù)據(jù)集的測試準(zhǔn)確率/%
選取兩個數(shù)據(jù)集中的樣本進(jìn)行實例演示,模型獨立判別視頻內(nèi)每5幀數(shù)據(jù)內(nèi)容的動作分類結(jié)果如圖5,一個樣本的上下兩行圖像別為ResNeXt-101與ResNeXt-101-R網(wǎng)絡(luò)訓(xùn)練后所得模型的分類結(jié)果,每張圖片的左上角顯示了模型的分類結(jié)果,右上角注明了分類結(jié)果的正確與否,“×”代表分類錯誤,“〇”代表分類正確。經(jīng)本方法校正后的模型能夠有效對錯誤的實時分類情況進(jìn)行修正。
圖5 分類實例演示
在驗證了方法的有效性后,通過使用預(yù)訓(xùn)練模型的仿真實驗檢驗先進(jìn)性。預(yù)訓(xùn)練模型在仿真時的相關(guān)參數(shù)與表1不完全相同,批量尺寸為64,學(xué)習(xí)率0.001,權(quán)重衰減率0.000 01,未使用自適應(yīng)學(xué)習(xí)率調(diào)整模塊。使用預(yù)訓(xùn)練模型后所得出的測試結(jié)果見表3。
表3 預(yù)訓(xùn)練模型在不同數(shù)據(jù)集上的測試準(zhǔn)確率
表中動作分類網(wǎng)絡(luò)模型的預(yù)訓(xùn)練都在Kinetics數(shù)據(jù)集[20]上進(jìn)行,該數(shù)據(jù)集擁有400個動作類,共計300 000個動作實例樣本,是當(dāng)前常用于動作分類模型預(yù)訓(xùn)練的數(shù)據(jù)集之一。表3中引用網(wǎng)絡(luò)模型的輸入數(shù)據(jù)都為僅包含RGB原始圖像或光流數(shù)據(jù)的單類數(shù)據(jù),多類輸入數(shù)據(jù)組的仿真結(jié)果不在對比范圍內(nèi)。通過準(zhǔn)確率結(jié)果的對比可以發(fā)現(xiàn),本方法所帶來的校正優(yōu)化效果在預(yù)訓(xùn)練模型中也具有成效,括號內(nèi)為Top-5準(zhǔn)確率,雖然優(yōu)化后模型在HMDB-51數(shù)據(jù)集上的top-1準(zhǔn)確率沒有變化,但top-5準(zhǔn)確率有一定的提升,體現(xiàn)出本方法對模型泛化能力的加強(qiáng)。相較于其他經(jīng)過Kinetics數(shù)據(jù)集預(yù)訓(xùn)練、僅單類輸入數(shù)據(jù)的動作分類模型結(jié)構(gòu),本方法的優(yōu)化結(jié)果擁有更佳的性能表現(xiàn)。
本文提出利用時域?qū)傩孕Uǜ倪M(jìn)3D卷積神經(jīng)網(wǎng)絡(luò)模型對時域?qū)傩詫W(xué)習(xí)成效不足的問題,直接對模型所學(xué)特征的屬性信息進(jìn)行抽象并校正,增強(qiáng)特征的時域一致性。本方法在應(yīng)用時無需修改模型結(jié)構(gòu),耗費(fèi)的時間成本較低,擁有較高的實用性,改進(jìn)后的ResNeXt-101在不同動作分類數(shù)據(jù)集上的性能都有所提升。后續(xù)工作將對不同網(wǎng)絡(luò)模型、數(shù)據(jù)集進(jìn)行嘗試,驗證本方法是否擁有更廣泛的應(yīng)用空間。