佟明蔚,毛 琳,楊大偉
(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116605)
時(shí)序動(dòng)作定位算法主要為解決確定動(dòng)作起止時(shí)間并賦予類別標(biāo)簽問題,在視頻分析與總結(jié)、人機(jī)交互和視頻處理等領(lǐng)域有著廣泛應(yīng)用[1]?,F(xiàn)有時(shí)序動(dòng)作定位算法中,存在動(dòng)作分類偏差問題,主要由特征提取階段細(xì)節(jié)特征缺失造成。細(xì)節(jié)特征缺失會(huì)使算法在預(yù)測(cè)階段產(chǎn)生偏差,從而造成確定動(dòng)作類別和起止時(shí)間結(jié)果偏差。
現(xiàn)有時(shí)序定位算法主要分為三類,分別是基于滑動(dòng)窗口、錨點(diǎn)檢測(cè)和無錨檢測(cè)?;瑒?dòng)窗口動(dòng)作定位使用滑動(dòng)窗口檢測(cè)方式進(jìn)行時(shí)序動(dòng)作定位,以Shou等[2]提出的分段卷積神經(jīng)網(wǎng)絡(luò)(Segment-CNN,S-CNN)最為經(jīng)典,滑動(dòng)窗口與檢測(cè)窗口覆蓋重疊度越高,找到片段越完整,但缺點(diǎn)是計(jì)算量大、效率低,定位時(shí)間不準(zhǔn)確。錨點(diǎn)檢測(cè)動(dòng)作定位也稱單元回歸方法,受兩階段目標(biāo)檢測(cè)算法啟發(fā),將視頻分為固定大小單元,以單元為中心錨點(diǎn),向兩端擴(kuò)展尋找不同長度片段;Gao等[3]提出時(shí)序單位回歸網(wǎng)絡(luò)(Temporal Unit Regression Network,TURN),以視頻單元為最小計(jì)算單位,避免滑動(dòng)窗口重疊度太高帶來冗余,還可以對(duì)時(shí)序區(qū)間進(jìn)行邊界修正;Xu等[4]提出的區(qū)域卷積3D網(wǎng)絡(luò)(Region Convolutional 3D Network,R-C3D)是一種端到端網(wǎng)絡(luò),把定位和分類結(jié)合起來一起訓(xùn)練,將整個(gè)網(wǎng)絡(luò)劃分為三個(gè)部分,分別是特征提取、時(shí)序候選段子網(wǎng)和分類子網(wǎng),這種方法可以接受任意長度視頻輸入,節(jié)約計(jì)算成本;Long等[5]提出高斯時(shí)間感知網(wǎng)絡(luò)(Gaussian Temporal Awareness Networks,GTAN)修改池化過程,通過一個(gè)可學(xué)習(xí)高斯核對(duì)每個(gè)提議采用加權(quán)平均。無錨檢測(cè)動(dòng)作定位可以減少有錨方法產(chǎn)生的冗余,無錨方法將整個(gè)網(wǎng)絡(luò)分為特征提取和邊界預(yù)測(cè)兩部分,強(qiáng)調(diào)特征提取在邊界預(yù)測(cè)中的重要性,這種方式可以更好地提升效率,但邊界預(yù)測(cè)準(zhǔn)確性更加依賴特征提取的準(zhǔn)確性;Lin等[6]提出顯著性邊界特征無錨框時(shí)序動(dòng)作檢測(cè)方法(Anchor-Free Saliency-based Detector,AFSD),采用無錨方法能夠提升邊界預(yù)測(cè)的準(zhǔn)確性。但上述三種不同方法均沒有考慮動(dòng)作信息在特征提取階段的缺失問題,無錨檢測(cè)方法可有效減少冗余提高效率,但在特征提取階段忽略了細(xì)節(jié)特征缺失,導(dǎo)致預(yù)測(cè)結(jié)果不準(zhǔn)確。
綜上所述,針對(duì)細(xì)節(jié)特征丟失導(dǎo)致預(yù)測(cè)結(jié)果不準(zhǔn)確的問題,本研究基于AFSD算法,提出密集連接型特征金字塔主干網(wǎng)絡(luò)(Dense connection feature pyramid backbone networks,DFPNet)。網(wǎng)絡(luò)針對(duì)RGB支路的特征提取階段進(jìn)行密集連接,實(shí)現(xiàn)金字塔參考層特征、基礎(chǔ)層特征與深層特征的聯(lián)系,能夠解決金字塔層數(shù)增加導(dǎo)致的時(shí)間分辨率降低,細(xì)節(jié)特征不完整問題。通過為預(yù)測(cè)階段提供更完整的特征,提高動(dòng)作類別和動(dòng)作起止時(shí)間預(yù)測(cè)結(jié)果的準(zhǔn)確性。
本文根據(jù)算法功能將AFSD算法分為三個(gè)階段,分別是特征提取主干網(wǎng)、預(yù)測(cè)階段和融合階段,預(yù)測(cè)階段特征來源于特征提取主干網(wǎng)。AFSD網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1。
圖1 AFSD網(wǎng)絡(luò)結(jié)構(gòu)圖
AFSD算法在特征提取主干網(wǎng)中采用一維時(shí)序特征金字塔進(jìn)行特征提取,對(duì)AFSD特征提取主干網(wǎng)特征。
(1)
式中:x1、x2為圖像特征;Fi為金字塔第i層特征;Convi為金字塔第i層卷積運(yùn)算;i為金字塔層數(shù);N為金字塔總層數(shù)。
在特征金字塔層數(shù)i增加時(shí),會(huì)導(dǎo)致時(shí)間分辨率降低,進(jìn)而造成細(xì)節(jié)特征不完整,引發(fā)動(dòng)作定位算法預(yù)測(cè)結(jié)果不準(zhǔn)確的問題。為解決以上問題,本文提出DFPNet網(wǎng)絡(luò)。借用Huang等[7]提出的密集連接卷積神經(jīng)網(wǎng)絡(luò)(Densely Connected Convolutional Networks,DenseNet)的密集連接思想,構(gòu)造密集連接型特征提取主干網(wǎng)絡(luò),增強(qiáng)層與層之間的聯(lián)系,將基礎(chǔ)層和參考層中較為完整的細(xì)節(jié)特征提供給深層,對(duì)深層中不完整的細(xì)節(jié)特征加以補(bǔ)充,進(jìn)而提高預(yù)測(cè)準(zhǔn)確性。
在AFSD一維時(shí)序特征金字塔,采用雙輸入特征金字塔:一支逐層提取金字塔特征,并將每一層特征作為層級(jí)特征提供給預(yù)測(cè)階段;另一支取金字塔參考層與基礎(chǔ)層融合后的結(jié)果作為幀級(jí)特征,提供給預(yù)測(cè)階段。特征金字塔(Feature Pyramid Networks, FPN)[8]是一種常見的特征提取工具,在金字塔層數(shù)加深的同時(shí),特征會(huì)有部分丟失。同樣一維時(shí)序金字塔則在層數(shù)加深的過程中,會(huì)產(chǎn)生細(xì)節(jié)特征缺失現(xiàn)象,直接影響后續(xù)預(yù)測(cè)動(dòng)作類別和動(dòng)作起止時(shí)間結(jié)果的準(zhǔn)確性。
DFPNet網(wǎng)絡(luò)為提高預(yù)測(cè)結(jié)果的準(zhǔn)確性,將金字塔中時(shí)間分辨率較高且細(xì)節(jié)特征保留較為完整的參考層特征、基礎(chǔ)層特征和前序金字塔深層特征,通過下采樣相加的方式,作為細(xì)節(jié)特征補(bǔ)充,提供給特征金字塔深層參考。構(gòu)造一個(gè)特殊密集連接形式的特征金字塔,使得細(xì)節(jié)特征更加豐富完整,解決由于金字塔層數(shù)增加,導(dǎo)致時(shí)間分辨率降低、細(xì)節(jié)特征不完整的問題[9]。通過采用細(xì)節(jié)特征更加豐富且完整的特征提取主干網(wǎng)絡(luò),為預(yù)測(cè)階段提供更豐富且完整的特征,進(jìn)而提高預(yù)測(cè)階段的準(zhǔn)確性。DFPNet網(wǎng)絡(luò)中密集連接型特征金字塔結(jié)構(gòu)如圖2。
圖2 密集連接特征提取金字塔圖
DFPNet網(wǎng)絡(luò)特征金字塔各層特征定義如下。
定義2:一個(gè)N層金字塔結(jié)構(gòu),其中i=1為金字塔參考層,i=2為金字塔基礎(chǔ)層,i∈[3,N]為金字塔深層。金字塔參考層特征由輸入圖像特征x1通過卷積運(yùn)算得出,金字塔基礎(chǔ)層特征由輸入特征x2通過卷積運(yùn)算得出,金字塔融合細(xì)節(jié)特征由金字塔參考層特征與金字塔基礎(chǔ)層特征相加得出,金字塔深層特征由金字塔第i-1層特征通過卷積運(yùn)算結(jié)果、所有前序金字塔深層特征、參考層特征和金字塔融合細(xì)節(jié)特征求和得出,金字塔各層特征計(jì)算如下:
式中:x1、x2為圖像特征;Fi為金字塔第i層特征;Convi為金字塔第i層卷積運(yùn)算;i為金字塔層數(shù);FR為金字塔融合細(xì)節(jié)特征;Γ為下采樣計(jì)算;Η為上采樣計(jì)算;N為金字塔總層數(shù)。
2015年,李克強(qiáng)總理在政府工作報(bào)告中首次提出制定“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃,“互聯(lián)網(wǎng)+”一躍成為社會(huì)各界追捧的熱詞。2015年7月,國務(wù)院印發(fā)《關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動(dòng)的指導(dǎo)意見》,其中對(duì)“互聯(lián)網(wǎng)+”的解釋是“把互聯(lián)網(wǎng)的創(chuàng)新成果與經(jīng)濟(jì)社會(huì)各領(lǐng)域深度融合,推動(dòng)技術(shù)進(jìn)步、效率提升和組織變革,提升實(shí)體經(jīng)濟(jì)創(chuàng)新力和生產(chǎn)力,形成更廣泛的以互聯(lián)網(wǎng)為基礎(chǔ)設(shè)施和創(chuàng)新要素的經(jīng)濟(jì)社會(huì)發(fā)展新形態(tài)”。
密集連接金字塔x1、x2作為輸入,x1作為金字塔參考層與金字塔深層相加,x2作為金字塔的初始輸入通過卷積進(jìn)行逐層傳遞。層數(shù)增加導(dǎo)致時(shí)間分辨率降低,細(xì)節(jié)特征不完整,需建立基礎(chǔ)層與深層之間的聯(lián)系,因此將參考層與金字塔深層進(jìn)行相加,增加參考層與深層之間的聯(lián)系。同時(shí)考慮參考層與深層之間的差異較大,只進(jìn)行參考層與深層之間的聯(lián)系會(huì)導(dǎo)致效果不佳,將參考層與基礎(chǔ)層相加作為基礎(chǔ)層特征,進(jìn)行基礎(chǔ)層與深層的聯(lián)系再次加強(qiáng)參考層、基礎(chǔ)層與深層特征之間的聯(lián)系,通過提供更完整的細(xì)節(jié)特征,提高動(dòng)作類別與起止時(shí)間的準(zhǔn)確性??傮w上看,密集連接特征金字塔通過加強(qiáng)參考層、基礎(chǔ)層與深層特征之間的聯(lián)系,在一定程度上,能夠保證金字塔傳遞時(shí)特征的完整性。
DFPNet網(wǎng)絡(luò)是通過對(duì)RGB支路的特征金字塔進(jìn)行密集連接,增加層間聯(lián)系,對(duì)深層細(xì)節(jié)特征進(jìn)行補(bǔ)充,光流信息作為DFPNet網(wǎng)絡(luò)時(shí)序信息的補(bǔ)充與RGB信息的預(yù)測(cè)結(jié)果進(jìn)行融合。DFPNet網(wǎng)絡(luò)結(jié)構(gòu)如圖3。
圖3 DFPNet網(wǎng)絡(luò)結(jié)構(gòu)圖
整體密集連接特征金字塔主干網(wǎng)絡(luò)具體步驟如下:
(1)采用雙路膨脹3D卷積[10]對(duì)RGB圖像特征進(jìn)行預(yù)處理,并提取x1、x2圖像特征;
(2)采用密集連接特征提取金字塔主干網(wǎng)絡(luò),提取幀級(jí)特征Fl和逐層特征Fp;
(3)對(duì)提取出的特征進(jìn)行邊界預(yù)測(cè),得到RGB支路預(yù)測(cè)結(jié)果r;
(5)將RGB和光流預(yù)測(cè)結(jié)果進(jìn)行融合,得到融合后的動(dòng)作類別信息和動(dòng)作起止時(shí)間信息;
(6)輸出動(dòng)作起止時(shí)間、動(dòng)作標(biāo)簽預(yù)測(cè)結(jié)果。
本文網(wǎng)絡(luò)使用NVIDIA GeForce 1080Ti顯卡,在Ubuntu16.04環(huán)境中配置Pytorch1.4.0深度學(xué)習(xí)框架,訓(xùn)練和測(cè)試網(wǎng)絡(luò)模型。
THUMOS14[11]由200個(gè)驗(yàn)證視頻和212個(gè)測(cè)試視頻組成,這些視頻包含20個(gè)動(dòng)作類別且均標(biāo)定有動(dòng)作時(shí)間定位,按照原文將該數(shù)據(jù)集按2:1:1比例拆分為訓(xùn)練子集、驗(yàn)證子集和測(cè)試子集。以每秒10幀(fps)的速度對(duì)RGB和光流幀進(jìn)行采樣,并將視頻分割成片段,每個(gè)剪輯T的長度設(shè)置為256幀。
評(píng)價(jià)指標(biāo)為在閾值(tIoU)為0.3~0.7均值平均精度(Mean Average Precision,mAP),mAP越高表示預(yù)測(cè)準(zhǔn)確度越高,mAP計(jì)算過程為
(3)
式中:K為類別;APi為平均查準(zhǔn)率。
采用THUMOS14數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果對(duì)比見表1。
表1 實(shí)驗(yàn)結(jié)果對(duì)比 %
與其他動(dòng)作定位算法相比,本文提出的DFPNet網(wǎng)絡(luò)mAP為52.4%,相對(duì)于AFSD提高0.4%,在tIoU從0.3到0.7的mAP與均值mAP均高于原網(wǎng)絡(luò)。以四段視頻為例,動(dòng)作類別與動(dòng)作起止時(shí)間預(yù)測(cè)結(jié)果對(duì)比如圖4。
d)可視化結(jié)果4(單位:s)
圖4中的視頻指真值時(shí)間所指視頻段,而非完整視頻。在類別確定的情況下,圖4a中DFPNet預(yù)測(cè)動(dòng)作開始時(shí)間比原網(wǎng)絡(luò)精確0.3 s,動(dòng)作結(jié)束時(shí)間比原網(wǎng)絡(luò)精確0.3 s;圖4b中DFPNet預(yù)測(cè)動(dòng)作開始時(shí)間比原網(wǎng)絡(luò)精確0.3 s;圖4c中DFPNet預(yù)測(cè)動(dòng)作結(jié)束時(shí)間比原網(wǎng)絡(luò)精確0.1 s;圖4d中DFPNet預(yù)測(cè)動(dòng)作開始時(shí)間比原網(wǎng)絡(luò)精確0.1 s,動(dòng)作結(jié)束時(shí)間比原網(wǎng)絡(luò)精確0.1 s。通過對(duì)比可以看出,本文提出的DFPNet網(wǎng)絡(luò)對(duì)細(xì)節(jié)特征進(jìn)行補(bǔ)充,對(duì)預(yù)測(cè)動(dòng)作起止時(shí)間的效果進(jìn)行細(xì)化,減少了由于視頻動(dòng)作與視頻背景更貼近而造成的起止時(shí)間誤判,使得預(yù)測(cè)動(dòng)作結(jié)果相較于AFSD動(dòng)作起止時(shí)間的預(yù)測(cè)更貼近真值。
為驗(yàn)證DFPNet的有效性,嘗試不同的密集連接方式,四種對(duì)特征提取金字塔進(jìn)行密集連接方式如圖5。圖5a中DFPNet-Ⅰ型密集連接特征金字塔為完全密集連接,直接將金字塔參考層和基礎(chǔ)層直接與深層進(jìn)行相加;圖5b中DFPNet-Ⅱ型密集連接特征金字塔為減少參考層與基礎(chǔ)層之間的連接,單執(zhí)行基礎(chǔ)層與深層之間的聯(lián)系,基礎(chǔ)層之間無連接;圖5c中DFPNet-Ⅲ型密集連接特征金字塔為只進(jìn)行深層之間密集連接;圖5d中DFPNet-Ⅳ型密集連接特征金字塔對(duì)整個(gè)特征提取階段進(jìn)行隔層相連。最終得出將參考層與基礎(chǔ)層先融合,金字塔融合細(xì)節(jié)特征,并將參考層、金字塔融合細(xì)節(jié)特征與前序金字塔深層特征給予深層特征,細(xì)節(jié)特征補(bǔ)充的效果最佳。
a)Ⅰ型密集連接特征金字塔 b)Ⅱ型密集連接特征金字塔
為證明DFPNet密集連接的有效性,嘗試不同密集連接方式對(duì)邊界預(yù)測(cè)結(jié)果的影響,消融實(shí)驗(yàn)結(jié)果對(duì)比見表2。DFPNet-Ⅰ型密集連接特征金字塔與本文提出的密集連接型特征金字塔相比,減少參考層與基礎(chǔ)層之間的融合連接,對(duì)比發(fā)現(xiàn)效果下降;DFPNet-Ⅱ型密集連接特征金字塔相比Ⅰ型的效果有所提升;DFPNet-Ⅲ型相比Ⅰ型效果有所提升,但相比Ⅱ型效果下降,表明只對(duì)深層進(jìn)行密集連接并不是造成Ⅰ型效果明顯下降的原因;DFPNet-Ⅳ型相比Ⅰ型和Ⅲ型有所提升,相比Ⅱ型有所下降,表明密集連接效果好于跨層連接,同時(shí)證明參考層與基礎(chǔ)層對(duì)特征提取結(jié)果有影響。因此,在進(jìn)行了以上四種密集連接型金字塔后,嘗試將參考層與基礎(chǔ)層特征融合后作為基礎(chǔ)層特征加給深層特征進(jìn)行參考,構(gòu)造DFPNet網(wǎng)絡(luò)中密集連接型金字塔結(jié)構(gòu)。
表2 消融實(shí)驗(yàn)結(jié)果對(duì)比 %
本文針對(duì)動(dòng)作定位算法中預(yù)測(cè)不準(zhǔn)確的問題提出DFPNet網(wǎng)絡(luò),通過提出密集連接特征金字塔,增強(qiáng)金字塔層間聯(lián)系,改善了由金字塔層數(shù)加深導(dǎo)致的時(shí)間分辨率降低,從而造成的細(xì)節(jié)特征不完整問題。與AFSD相比,DFPNet網(wǎng)絡(luò)對(duì)確定動(dòng)作起止時(shí)間并賦予類別標(biāo)簽問題有顯著提升,適用于視頻動(dòng)作定位、智能監(jiān)控等領(lǐng)域。在后續(xù)工作中,將進(jìn)一步提高網(wǎng)絡(luò)的平均精度均值,提高確定動(dòng)作定位和分類的準(zhǔn)確性。
大連民族大學(xué)學(xué)報(bào)2022年5期