陳榮源,姚劍敏,2,嚴(yán)群,2*,林志賢
基于深度神經(jīng)網(wǎng)絡(luò)的視頻播放速度識別
陳榮源1,姚劍敏1,2,嚴(yán)群1,2*,林志賢1
(1.福州大學(xué) 物理與信息工程學(xué)院,福州 350108; 2.晉江市博感電子科技有限公司,福建 晉江 362201)( ? 通信作者電子郵箱qunfyan@gmail.com)
針對目前的視頻播放速度識別算法大多存在的提取精度差、模型參數(shù)量巨大的問題,提出了一種雙支輕量化視頻播放速度識別網(wǎng)絡(luò)。首先,該網(wǎng)絡(luò)是基于SlowFast雙支網(wǎng)絡(luò)架構(gòu)組建的一個三維(3D)卷積網(wǎng)絡(luò);其次,為了彌補(bǔ)S3D-G網(wǎng)絡(luò)在視頻播放速度識別任務(wù)中存在的參數(shù)量大、浮點運(yùn)算數(shù)多的缺陷,進(jìn)行了輕量化的網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整;最后,在網(wǎng)絡(luò)結(jié)構(gòu)中引入了高效通道注意力(ECA)模塊,以通過通道注意力模塊生成重點關(guān)注的內(nèi)容對應(yīng)的通道范圍,這有助于提高視頻特征提取的準(zhǔn)確性。在Kinetics-400數(shù)據(jù)集上將所提網(wǎng)絡(luò)與S3D-G、SlowFast網(wǎng)絡(luò)進(jìn)行對比實驗。實驗結(jié)果表明,所提網(wǎng)絡(luò)在精確度差不多的情況下,模型大小和模型參數(shù)均比SlowFast減少了大約96%,浮點運(yùn)算數(shù)減少到5.36 GFLOPs,顯著提高了運(yùn)行速度。
深度神經(jīng)網(wǎng)絡(luò);視頻播放速度識別;雙支網(wǎng)絡(luò);通道注意力;輕量化模型
隨著多媒體信息技術(shù)的發(fā)展,視頻作為能夠記錄、保存空間和時間上的各種視覺信息的一種媒介,已成為信息處理領(lǐng)域的一種重要媒體形式。尤其是近些年來,短視頻平臺的熱度迅速爆發(fā),越來越多的人們依賴手機(jī)等設(shè)備來拍攝視頻,以此記錄日常生活,這種方式已然悄悄成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠?,所以圍繞短視頻的多種視頻語義理解需求也在急劇增加,而視頻特征提取是各種視頻語義理解任務(wù)的基礎(chǔ)和前提。
當(dāng)前語義理解主要包括視頻分類、視頻播放速度識別、動作識別、時序動作定位等多種任務(wù)。視頻播放速度識別任務(wù)作為一種新興的研究方向,主要目的是希望自動預(yù)測視頻的播放速度,推理視頻中物體運(yùn)動或者移動速度的快慢(其中也包括鏡頭的位移和轉(zhuǎn)換),最終用于視頻的自適應(yīng)加速,減少傳統(tǒng)方法加速視頻造成的視頻抖動以及消除一些不自然的動作。
近年來,由于深度學(xué)習(xí)的快速發(fā)展,對視頻特征的提取,主要是通過三維(Three Dimensional, 3D)卷積神經(jīng)網(wǎng)絡(luò)[1],同時提取待處理視頻的時間維度和空間維度的特征,得到所需要的視頻特征。然而,這些方法存在泛化能力差、監(jiān)督訓(xùn)練工作量大且困難、模型參數(shù)量大、模型精度差等問題。
如何有效地解決這些問題,確保高精度高效率的同時,保證模型參數(shù)的輕量化是非常具有挑戰(zhàn)性的。本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的視頻特征提取模型,該模型針對視頻速度識別任務(wù),對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整實現(xiàn)網(wǎng)絡(luò)的輕量化。在網(wǎng)絡(luò)架構(gòu)方面,底層采用3D ResNet[2]作為骨架,而在頂部則通過一個快-慢雙通道結(jié)構(gòu)對時序和空間的語義信息進(jìn)行進(jìn)一步提取,并生成旁支結(jié)構(gòu)進(jìn)行融合;另外,為了模型能夠更好地對視頻中重點關(guān)注的內(nèi)容對應(yīng)的通道進(jìn)行特征提取,采用通道注意力模型,加入到每個殘差層之中,提高網(wǎng)絡(luò)的視頻特征提取的準(zhǔn)確性。模型在Kinetics-400數(shù)據(jù)集[3]上取得了高效率、高精度的結(jié)果。
視頻特征提取與視頻語義理解和視頻識別網(wǎng)絡(luò)的研究有關(guān),本章回顧了一種新穎的視頻語義理解方法和視頻識別網(wǎng)絡(luò)的相關(guān)研究。
在現(xiàn)實生活中,人們很容易就能夠分辨出一個視頻是在以普通速度播放還是快進(jìn)或慢放,因為人類具有一些先驗知識,能夠幫助判定物體所固有的運(yùn)動速率。因此,有研究者提出,是否能夠訓(xùn)練一個模型,通過訓(xùn)練的模型來判斷視頻中物體是以正常速度移動還是被加速了。在視頻速度識別任務(wù)的相關(guān)技術(shù)中,早期的一些研究試圖檢測體育運(yùn)動視頻中回放的速度[4-7],主要對視頻特定域的視頻特征進(jìn)行分析,并且使用監(jiān)督的方法進(jìn)行訓(xùn)練。這些工作的結(jié)果泛化性差,而且模型的監(jiān)督訓(xùn)練對數(shù)據(jù)集有很高的要求。
2020年,Benaim等[8]提出的SpeedNet為視頻速度理解任務(wù)提供了一種全新的思路。SpeedNet論文中提出,希望能夠?qū)ふ乙环N以語義方式,而非人工表示來學(xué)習(xí)并理解“速度”,這種方式不需要依賴人工對視頻加速,或人為地對視頻進(jìn)行處理和標(biāo)記。如圖1的SpeedNet基本結(jié)構(gòu)所示,所采用的3D卷積基礎(chǔ)網(wǎng)絡(luò)S3D-G(Separable 3D convolutions network with Gating mechanism)[9]本質(zhì)上還是一個視頻內(nèi)容識別的網(wǎng)絡(luò),S3D-G的結(jié)構(gòu)是將3D卷積核變?yōu)?D+1D的形式,2D卷積核負(fù)責(zé)圖像語義上的理解,1D卷積核負(fù)責(zé)的則是時間上的理解,2D卷積是學(xué)習(xí)不到時序信息的。從論文中S3D-G網(wǎng)絡(luò)的表現(xiàn)可知,在低層級的卷積中,底層的卷積核對于時序的內(nèi)容并不敏感,但是頂層的卷積核的分布則出現(xiàn)了很大的變化,其卷積核捕獲了時間信息。這是由于時序信息關(guān)心的是這一時刻相對于其他時刻位置和空間信息的不同。很顯然,在SpeedNet網(wǎng)絡(luò)中,需要通過衡量運(yùn)動的速度以及運(yùn)動的幅度來完成模型對速度的描述并完成視頻加速與未加速的判別,因此,時間語義的識別顯得更加重要。
圖1 SpeedNet基本結(jié)構(gòu)
在基于深度學(xué)習(xí)的視頻識別方法中,雙流(Two-stream)網(wǎng)絡(luò)是其中最具有代表性的一種模型框架。雙流網(wǎng)絡(luò)的概念最早由Simonyan等[10]提出,其架構(gòu)由空間流與時序流組成,使用兩個獨立的卷積神經(jīng)網(wǎng)絡(luò)對空間的圖像幀和時序的圖像幀所提取的光流圖像特征進(jìn)行獨立訓(xùn)練。具體來說,空間流采用的是視頻中的彩色圖像幀用來表征運(yùn)動的主體以及背景的空間信息或者說是表觀信息;而時序流采用的方法則是基于相鄰圖像幀的,通過提取相鄰圖像幀的光流圖像來表示運(yùn)動的主體的時序信息或者說是運(yùn)動信息。在訓(xùn)練這樣的網(wǎng)絡(luò)時,空間流網(wǎng)絡(luò)和時序流網(wǎng)絡(luò)也是進(jìn)行獨立訓(xùn)練,并且在測試的時候才將最終的結(jié)果通過取平均或是另外再訓(xùn)練一個支持向量機(jī)的方法進(jìn)行融合。這種方法被許多得出競爭性結(jié)果的研究所采用[11-13]。但是雙流方法在時間效率上存在著一定的缺陷,提取光流的效率太低。后來的研究者對雙流方法進(jìn)行了不同程度的改進(jìn),比如在雙流卷積網(wǎng)絡(luò)的基礎(chǔ)上利用殘差網(wǎng)絡(luò)對雙流網(wǎng)絡(luò)進(jìn)行初始化[14],或者是先利用小型網(wǎng)絡(luò)提取視頻深度特征,然后再送入雙流網(wǎng)絡(luò)[15]。雖然大大提高了效率,但一些研究者認(rèn)為采用光流的方法表示運(yùn)動的時序信息并不是最直觀的方式,而且這些網(wǎng)絡(luò)訓(xùn)練方法繁瑣,這對于高效輕量化的研究并不適用。
2019年,F(xiàn)eichtenhofer等[16]提出的SlowFast網(wǎng)絡(luò)在視頻識別任務(wù)中取得了突破,其靈感來源于生物學(xué)中關(guān)于視網(wǎng)膜神經(jīng)細(xì)胞的研究。如圖2所示其架構(gòu),雖然都是采用兩條通道,但與雙流網(wǎng)絡(luò)架構(gòu)不同的地方在于,SlowFast網(wǎng)絡(luò)實際上是一個對同一個視頻采用兩種不同幀率進(jìn)行處理的單流架構(gòu)的網(wǎng)絡(luò)。
圖2 SlowFast網(wǎng)絡(luò)基本結(jié)構(gòu)
相較于傳統(tǒng)的3D卷積計算空間和時間上的語義,SlowFast網(wǎng)絡(luò)盡管也是用3D ResNet完成時間和空間語義上的提取,但是SlowFast網(wǎng)絡(luò)通過慢通道進(jìn)行空間語義上的特征提取,這是由于視頻中的目標(biāo)完成一個動作的時候,往往執(zhí)行動作的主體不會改變,例如揮手、鼓掌、跑步、跳躍等。而快通道則進(jìn)行時間語義上的特征提取,是由于執(zhí)行的動作可以比其主體的識別變化速度快得多,這時候通過快速刷新幀來有效建??赡芸焖僮兓倪\(yùn)動行為。SlowFast網(wǎng)絡(luò)相較于別的視頻識別網(wǎng)絡(luò)可以根據(jù)需求進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整,而且在視頻內(nèi)容識別的準(zhǔn)確率上也是實現(xiàn)最領(lǐng)先效果(State Of The Art, SOTA)的方案。
為了實現(xiàn)模型的輕量化,本文通過以下幾個方式進(jìn)行網(wǎng)絡(luò)的輕量化搭建。第一,針對視頻速度識別的網(wǎng)絡(luò)使用SlowFast網(wǎng)絡(luò)架構(gòu)進(jìn)行視頻特征的提取,針對不同的任務(wù)對模型進(jìn)行優(yōu)化,比使用一個大模型更具有效率。而且在一些簡單的任務(wù)中,像SlowFast這樣具有龐大參數(shù)的模型反而會拖累性能和精度,由于在視頻速度識別任務(wù)中,重點關(guān)注的是視頻中視覺對象移動或運(yùn)動的快慢,而對于視頻中的背景并不關(guān)注,因此本文通過調(diào)整特征提取網(wǎng)絡(luò)的通道數(shù)實現(xiàn)模型的輕量化設(shè)計。第二,采用一種輕量級的通道注意力塊,作為提取重點關(guān)注的內(nèi)容的模塊。該模塊增加的模型復(fù)雜度很小,既能實現(xiàn)即插即用,又能提高模型精確性,使模型獲得良好的性能增益。
本章詳細(xì)闡述了用于視頻播放速度識別的視頻特征提取的方法。首先介紹了用于視頻播放速度識別任務(wù)的視頻特征提取架構(gòu);接著,描述模型采用的通道注意力塊的核心算法與內(nèi)部結(jié)構(gòu)圖;最后,講解模型的訓(xùn)練框架流程和所采用的一種用于視頻播放速度識別的自監(jiān)督訓(xùn)練方法,該方法能降低模型對數(shù)據(jù)中人工線索的依賴性,增加模型泛化能力,且無需對數(shù)據(jù)進(jìn)行人工標(biāo)注。
在深度神經(jīng)網(wǎng)絡(luò)的研究中,殘差網(wǎng)絡(luò)(Residual Network, ResNet)[2]的結(jié)構(gòu)被證明是一種建立深層網(wǎng)絡(luò)對數(shù)據(jù)特征進(jìn)行提取的有效模型。圖3顯示了視頻特征提取網(wǎng)絡(luò)框架。
圖3 視頻播放速度識別網(wǎng)絡(luò)模型框架
基于理論與實踐結(jié)果,選擇ResNet-50作為網(wǎng)絡(luò)主干,使用3D卷積對待處理視頻的時間維度和空間維度的特征進(jìn)行同時提取,得到所需要的視頻特征。
網(wǎng)絡(luò)模型由快、慢兩個分支模型組成,先將輸入的待處理視頻張量通過3D卷積采用不同的步長對輸入張量的時間維度進(jìn)行一次全采樣和一次降采樣,得到兩個不同幀數(shù)的視頻片段,然后將兩個視頻片段輸入殘差模塊。與SpeedNet先將視頻進(jìn)行切片處理得到兩個采樣片段分別輸入的方法相比,利用3D卷積進(jìn)行采樣的方法只需要關(guān)注一個輸入,減少了代碼和計算開銷。進(jìn)行降采樣的操作相當(dāng)于將時間距離較遠(yuǎn)的幀圖像信息聚攏在一起,使得神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)時間距離較遠(yuǎn)的幀圖像信息之間的關(guān)系,提取不同的時間語義。不同的采樣率也使得兩個分支能夠建立不同時間距離的幀圖像信息之間的關(guān)系,因而能夠提取到不同的時間域特征,獲取視頻片段不同的時間語義信息,從而提高視頻特征提取的精確度,也能夠解決因模型感受野有限造成的特征提取精確度較低的問題。在實驗中,降采樣的步長為2。通過快通道分支,對視頻片段采用步長為1的3D卷積進(jìn)行時域全采樣,然后對快通道視頻片段進(jìn)行時間域和空間域上的視頻特征提取,得到快通道視頻特征并輸出;通過慢通道分支,對視頻片段采用步長為2的3D卷積進(jìn)行時域降采樣,然后對慢通道視頻片段進(jìn)行視頻特征提取得到慢通道視頻特征,最后將慢通道視頻特征和快通道視頻特征進(jìn)行特征融合后輸出。通過兩個不同的分支計算不同時序方向步長,構(gòu)造了兩個不同幀率的視頻片段,分別送入網(wǎng)絡(luò)的不同分支進(jìn)行預(yù)測,并對結(jié)果進(jìn)行融合,不同的分支會有不同時序方向的感受野,以此提取出視頻的特征。
表1視頻播放速度識別網(wǎng)絡(luò)實例參數(shù)
Tab.1 Instance parameters of video playback speed recognition network
表1中卷積核的維度以{×2,}的形式來表示,其中代表時間維度大小,代表空間維度大小,代表通道的大小,步長則以{時間步長,空間步長2}的形式來表示。由于本文的任務(wù)對背景信息不需要過多關(guān)注,因此將Slow分支的通道權(quán)重降低到一個合理的數(shù)值。模型參數(shù)量的大小與每一層級的卷積核的維度的大小有關(guān),本文的網(wǎng)絡(luò)在慢通道分支上每一層級卷積核的通道數(shù)都是SlowFast通道數(shù)的1/8,因此理論上來說可以有效降低模型最終參數(shù)量的大小,得到比SlowFast和SpeedNet中使用的S3D-G網(wǎng)絡(luò)更為輕量的模型。
根據(jù)最終實現(xiàn)任務(wù)的需要,在視頻特征提取的基礎(chǔ)上可以進(jìn)一步設(shè)置池化層(Pooling Layer)、全連接層(Full Connection Layer)、隨機(jī)丟棄層(Dropout Layer)和輸出層等。通過對池化層、全連接層、隨機(jī)丟棄層和輸出層進(jìn)行不同的設(shè)計以實現(xiàn)視頻動作識別、視頻速度識別等任務(wù)。在本文模型中采用的是用于視頻播放速度識別任務(wù)的設(shè)計,根據(jù)需要,在特征提取后加入了平均池化層(Average Pooling)對視頻特征圖的寬、高和幀序列均壓縮至通道維度,形成一維的特征向量序列,隨機(jī)丟棄層能夠有效防止過擬合,全連接層對特征向量序列進(jìn)行處理,輸出特征的置信度,再通過輸出層Softmax函數(shù)輸出對應(yīng)的分類結(jié)果。
注意力機(jī)制最早在自然語言處理中的自動翻譯研究[17]任務(wù)中被提出,目前已成為神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域的一個重要概念。研究證明了注意力機(jī)制在改善深度神經(jīng)網(wǎng)絡(luò)的性能方面能夠有很大貢獻(xiàn),其核心在于通過對每個通道的依賴性進(jìn)行建模提高深度神經(jīng)網(wǎng)絡(luò)的表達(dá)能力,通過學(xué)習(xí)全局信息,網(wǎng)絡(luò)可以有選擇性地增強(qiáng)包含有用信息的特征并抑制無用信息的特征[18],具有很大的潛力。當(dāng)前注意力模塊可以分成空間注意力[19]和通道注意力[20]??臻g注意力的本質(zhì)就是識別目標(biāo)并進(jìn)行一些轉(zhuǎn)換或者獲得相應(yīng)的權(quán)重,這使模型可以專注于特征圖上更顯著的位置;通道注意力則將資源分配給每個卷積通道,并為每個特征間的重要性建模,可以在鍵入不同任務(wù)時進(jìn)行特征分配,整體實現(xiàn)簡單但卻有效。在現(xiàn)有的通道注意力方法中,最具有典型性的研究成果是壓縮-激勵網(wǎng)絡(luò)(Squeeze-and-Excitation Network, SENet)[21],SENet模塊可以動態(tài)、自適應(yīng)地重新分配和協(xié)調(diào)通道維度的原始特征,該方法首次關(guān)注了通道級別的模型依存關(guān)系,每個特征通道的權(quán)重是通過訓(xùn)練一個全連接的網(wǎng)絡(luò)來學(xué)習(xí)的,并且這些權(quán)重用于顯式地對特征通道之間的相關(guān)性進(jìn)行建模。隨后的研究通過建立更復(fù)雜的通道依賴性或結(jié)合更多的空間關(guān)注來改進(jìn)SENet,但是這難免增加了網(wǎng)絡(luò)整體計算量和模型的復(fù)雜度。SENet采取的降維操作對通道注意預(yù)測來說是低效的,針對該問題,Wang等[22]提出了一種高效的通道關(guān)注網(wǎng)絡(luò)(Efficient Channel Attention Network, ECA-Net),該網(wǎng)絡(luò)模塊采用局部跨通道的互動策略,且能保證不降低維度。這可以在保持網(wǎng)絡(luò)性能的同時大大降低模型的復(fù)雜性,且能夠?qū)崿F(xiàn)即插即用,極大減少了參數(shù)的計算量并且?guī)缀醪粨p失精度,在目前的深度學(xué)習(xí)研究中應(yīng)用很廣[23-24]。
2.2.1高效通道關(guān)注算法
本節(jié)將以數(shù)學(xué)的方法闡述高效通道關(guān)注模塊是如何在保持通道注意力計算精度的前提下減少參數(shù)量的計算從而完成模型復(fù)雜度的降低這一目標(biāo)的。
2.2.2高效通道注意力塊
在視頻特征提取模型中,每個殘差層還進(jìn)一步包括了高效通道注意力機(jī)制模塊,使模型在產(chǎn)生輸出的時候還產(chǎn)生一個“注意力范圍”?!白⒁饬Ψ秶庇脕肀碚鹘酉聛淼妮敵鲋校瑢τ谳斎胄蛄袘?yīng)該重點關(guān)注的區(qū)域,模型將根據(jù)該關(guān)注區(qū)域產(chǎn)生下一個輸出。圖4展示了高效通道注意力塊的結(jié)構(gòu)。高效通道注意力模塊首先通過平均池化層將輸入的第一中間特征圖進(jìn)行壓縮,得到特征序列,ECA-Net論文中處理的只是單張圖像數(shù)據(jù),與ECA-Net不同的是,本文將高效通道注意力模塊的應(yīng)用擴(kuò)展到了更高維的視頻數(shù)據(jù)處理上,視頻數(shù)據(jù)的第一中間特征圖包括批量大?。ǎ?、通道數(shù)()、幀序列()、圖像寬度()、圖像高度()5個維度。特征序列包括批量大?。ǎ?、通道數(shù)()、幀序列()3個維度。之后通過通道卷積層進(jìn)行一維卷積,實現(xiàn)對通道的線性權(quán)重分配,再通過激活函數(shù)將權(quán)重范圍規(guī)范在(-1,1),形成注意力與該注意力模型的輸入相乘,得到的輸出即為通道注意力值。通道注意力值使得下一層殘差層主要對重點關(guān)注對應(yīng)的通道進(jìn)行特征提取,弱化或去除背景信息,從而提升視頻特征提取的準(zhǔn)確性。
圖4 高效通道注意力模塊
自監(jiān)督學(xué)習(xí)[25]一直是一個看似簡單但是實際需要人們對于視頻語義理解有著非常深刻認(rèn)知的一項任務(wù),其本質(zhì)在于研究如何通過數(shù)據(jù)內(nèi)部的秩序,或是相關(guān)的先驗知識來構(gòu)造標(biāo)簽并提供模型的優(yōu)化方向。目前在自然語言處理以及圖像領(lǐng)域,自監(jiān)督學(xué)習(xí)都取得了顯著的結(jié)果,基于一些大的自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練模型,例如BERT(Bidirectional Encoder Representation from Transformers)、GPT-3(Generative Pre-Training-3)[26-27]等自然語言處理模型以及像IPT(Image Processing Transformer)[28]等基于圖像任務(wù)的預(yù)訓(xùn)練模型都為一些細(xì)分類任務(wù)的性能帶來了巨大的提升,因此視頻語義理解的自監(jiān)督學(xué)習(xí)是一個新的挖掘方向,并且視頻任務(wù)需要用到自然語言處理以及圖像領(lǐng)域的相關(guān)先驗知識,其重要性不言而喻。在視頻自監(jiān)督學(xué)習(xí)的領(lǐng)域中,有許多出色的方法,例如將視頻幀的順序打亂之后生成對比的負(fù)樣本[29];或者是在不同的視頻中尋找最鄰近的幀,以此進(jìn)行時間循環(huán)一致性學(xué)習(xí)(Temporal Cycle-Consistency Learning, TCCL)的自監(jiān)督方法[30],通過在不同的視頻中尋找相同表達(dá)的點來構(gòu)建不同視頻中動作一致的片段。自監(jiān)督訓(xùn)練能夠很大程度上降低人工標(biāo)注成本,提高訓(xùn)練任務(wù)效率,在表示學(xué)習(xí)方面,自我監(jiān)督學(xué)習(xí)具有取代完全監(jiān)督學(xué)習(xí)的巨大潛力。從人類學(xué)習(xí)的本質(zhì)來看,大型注釋數(shù)據(jù)集可能不是必需的,人類可以自發(fā)地從未標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。因此自監(jiān)督學(xué)習(xí)在大型數(shù)據(jù)集下更能凸顯出其節(jié)省人力資源的優(yōu)勢和必要性,是當(dāng)前熱門的研究方向。
本文采用了一種自監(jiān)督的方法對視頻速度識別任務(wù)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,無需提供任何的人工視頻標(biāo)簽。訓(xùn)練框架流程如圖5所示。具體來說,訓(xùn)練集和測試集包含了每一個視頻片段的兩個版本:加速版本和常速版本。加速版本是在原視頻片段基礎(chǔ)上使用降采樣得到的。同時,為了避免模型采用人工提示,在訓(xùn)練中采取了對數(shù)據(jù)集進(jìn)行強(qiáng)化的一些方法。
圖5 網(wǎng)絡(luò)訓(xùn)練流程
2.3.1數(shù)據(jù)空間增強(qiáng)
在訓(xùn)練過程中,在將視頻片段輸入到網(wǎng)絡(luò)之前,采取了隨機(jī)調(diào)整輸入視頻片段的大小的方法,使其空間維數(shù)在64~192像素,并進(jìn)行隨機(jī)裁剪,然后重新將視頻幀的大小調(diào)整到168像素,最后進(jìn)行通道歸一化后輸入網(wǎng)絡(luò)。在重新調(diào)整大小過程中發(fā)生的模糊有助于減輕由每個幀的MPEG或JPEG壓縮引起的潛在像素強(qiáng)度抖動,隨機(jī)裁剪有助于減少神經(jīng)網(wǎng)絡(luò)對于其他特征的學(xué)習(xí),減小背景(或噪聲)因子的權(quán)重,且使模型面對缺失值時不敏感。在通過基本網(wǎng)絡(luò)傳遞輸入后,在生成的時空特征中的區(qū)域上執(zhí)行空間全局最大池化。由于輸入的大小是可變的,因此這些區(qū)域?qū)?yīng)于原始大小的輸入中的不同大小的區(qū)域。這迫使網(wǎng)絡(luò)不再僅僅依賴于尺寸相關(guān)的因素進(jìn)行判斷。
2.3.2數(shù)據(jù)時間增強(qiáng)
為了引入時域上的可變性,對于正常速度,將不對視頻進(jìn)行任何操作,對于加速版本,將進(jìn)行2~4倍的采樣。
2.3.3數(shù)據(jù)標(biāo)簽標(biāo)注
對于網(wǎng)絡(luò),僅有兩個計算結(jié)果,分別為加速和未加速。使用置信度替代標(biāo)簽是一種更好的選擇。例如視頻的置信度為[1,0],第一個位置的置信度為1,視頻為非加速視頻。這樣就讓一個視頻帶有兩個類別的置信度,并對這兩個類別分別進(jìn)行交叉熵的計算,使得神經(jīng)網(wǎng)絡(luò)在反向傳播的時候能夠計算出兩個分類的誤差,有助于更加準(zhǔn)確地更新之后的權(quán)重。
在本章中,首先介紹訓(xùn)練所使用的數(shù)據(jù)集,然后對訓(xùn)練評估指標(biāo)和實驗裝置進(jìn)行講解,最后進(jìn)行實驗結(jié)果分析和網(wǎng)絡(luò)性能的評估。
目前關(guān)于人類動作或日常活動的數(shù)據(jù)集有很多,由于本文的視頻特征提取網(wǎng)絡(luò)用于視頻速度識別,所采用的方法是自監(jiān)督的,這種自監(jiān)督方法在SpeedNet論文中已被驗證在面對不同的數(shù)據(jù)集具有很強(qiáng)的泛化能力,因此對于數(shù)據(jù)集,本文僅要求一個涵蓋人類日常行為范圍足夠廣的數(shù)據(jù)集,因此在實驗中本文使用Kinetics-400數(shù)據(jù)集[3]進(jìn)行訓(xùn)練。Kinetics-400數(shù)據(jù)集致力于人類的動作,總共包含了400個人類動作大類,包括繪畫、飲酒、大笑、騎自行車、拉小提琴、灌籃等日常人類動作,圖6展示了數(shù)據(jù)集中一些動作類的樣本片段。視頻總數(shù)大約為30萬個,每個視頻時長為10 s,幀率為25 FPS。在該數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試有利于評估本文模型的泛化能力。數(shù)據(jù)的增強(qiáng)和標(biāo)注將采用前文提到的方法進(jìn)行處理。
圖6 Kinetics-400數(shù)據(jù)集示例
本設(shè)計通過對比模型輸出和視頻標(biāo)簽,對視頻速度的檢測可以分為4組:加速視頻片段被正確檢出、常速視頻片段被正確檢出、加速視頻片段未被正確檢出、常速視頻片段未被正確檢出,分別記為(True Positive)、(True Negative)、(False Negative)、(False Positive)。
為了評價模型檢測能力,主要通過四個評價指標(biāo)作為性能評估標(biāo)準(zhǔn):Loss、正常速度視頻識別準(zhǔn)確率、加速視頻識別準(zhǔn)確率、所有視頻識別準(zhǔn)確率。Loss表示模型推理置信度與真實置信度之間的交叉熵,采用二分類交叉熵計算,計算公式如式(6)所示:
正常速度視頻識別準(zhǔn)確率(_)表示計算被分類為未加速視頻的準(zhǔn)確率,定義如式(7)所示:
加速視頻識別準(zhǔn)確率(_)表示計算被分類為加速視頻的準(zhǔn)確率,定義如式(8)所示:
所有視頻識別準(zhǔn)確率()表示能夠被正確分類的視頻的準(zhǔn)確率,定義如式(9)所示:
對于本文的模型,理論上說,如果訓(xùn)練涉及的內(nèi)容以及范圍越多,場景越豐富,其模型泛化能力越強(qiáng)。Kinetics-400完整的數(shù)據(jù)集過于龐大,相較于大規(guī)模訓(xùn)練,本文在開始階段僅針對某一個或某幾個類別的視頻進(jìn)行模型的訓(xùn)練。比起訓(xùn)練全部的數(shù)據(jù),在單個類別上訓(xùn)練并對該類別的視頻進(jìn)行測試也具有指導(dǎo)意義。這個方法能直觀地看到小樣本訓(xùn)練集訓(xùn)練的效果。
本文對模型進(jìn)行了對比測試。首先僅選用Kinetics-400中的200個跳遠(yuǎn)視頻進(jìn)行訓(xùn)練,48個視頻進(jìn)行驗證,由于數(shù)據(jù)量較少且都集中在跳遠(yuǎn)視頻上,因此產(chǎn)生了過擬合現(xiàn)象,對于驗證集來說,其總體準(zhǔn)確率僅有50%,這是由于訓(xùn)練集數(shù)量太少而導(dǎo)致的,訓(xùn)練出來的模型泛化能力較弱。其次選用了Kineticis-400中的6類體育運(yùn)動數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練集4 412個視頻,驗證集347個視頻。該模型驗證集準(zhǔn)確率達(dá)到了71%,無論對跳遠(yuǎn)視頻還是其他視頻,其識別效果都比較好。對比實驗的結(jié)果可知,對于本文的模型,如果訓(xùn)練涉及的內(nèi)容以及范圍越多越廣,場景越豐富,其模型泛化能力越強(qiáng);對于同一動作或場景來說,更多的數(shù)據(jù)無法明顯提升其性能。因此訓(xùn)練一個多動作、多場景的模型對于本文方法來說要更加有利。所以,從實用性和資源有限的角度出發(fā),最終選取了Kinetics-400數(shù)據(jù)集中120 000個視頻給模型做訓(xùn)練,驗證則選取1 200個視頻。接著,為了驗證本文提出的帶有注意力模塊的視頻特征提取網(wǎng)絡(luò)的有效性,進(jìn)行了兩組實驗。第一組為不加入注意力模塊的視頻特征提取網(wǎng)絡(luò),第二組為加入注意力模塊的視頻特征提取網(wǎng)絡(luò),兩組實驗的迭代次數(shù)和所有視頻識別準(zhǔn)確率如圖7所示。
圖7 兩組訓(xùn)練準(zhǔn)確率對比
每10輪記錄一次模型訓(xùn)練精度,總共進(jìn)行100輪迭代。兩組實驗數(shù)據(jù)在第90輪訓(xùn)練時已經(jīng)趨于穩(wěn)定,本文對比了兩組實驗的第100輪訓(xùn)練精度,網(wǎng)絡(luò)在加入了高效注意力模塊后,模型識別準(zhǔn)確率提升了約0.81個百分點。同時,通過生成類激活圖(Class Activation Map, CAM)可以直觀地觀察到模型對視頻的關(guān)注度的具體可視化,類激活熱力圖表示圖像的每個位置對該類別的重要程度。熱力圖用冷暖色調(diào)來反映關(guān)注程度,越偏暖色則表明該處的權(quán)重越大,模型對該處關(guān)注度越高。
如圖8所示,本文選取了視頻中運(yùn)動主體做出動作幅度較大、速度較快的幀進(jìn)行對比,圖8(a)為模型在不加入高效注意力模塊時的CAM圖,可以觀察到模型關(guān)注的地方較為分散,而且不夠集中在運(yùn)動主體上;而在圖8(b)中,模型在加入了高效通道注意力模塊后,對視頻片段中存在動作幅度較大、快速運(yùn)動的主體的幀的關(guān)注度得到加強(qiáng),對運(yùn)動人物的關(guān)注權(quán)重變得更高,弱化了背景信息和存在較慢動作或靜止動作幀的關(guān)注度,降低了邊緣或背景信息的影響。
圖8 兩組的類激活圖對比
其次,本文選擇了SlowFast網(wǎng)絡(luò)和SpeedNet論文中采用的S3D-G網(wǎng)絡(luò)進(jìn)行了參數(shù)對比,實驗結(jié)果如表2所示。由實驗結(jié)果可知,本文模型在使用具有較大數(shù)量的數(shù)據(jù)集進(jìn)行訓(xùn)練后,在準(zhǔn)確率與識別率上都有著很優(yōu)異的表現(xiàn),在訓(xùn)練集上的準(zhǔn)確率約為91%,測試集的準(zhǔn)確率在75%左右,與S3D-G保持幾乎相同的水平,同時,本文的網(wǎng)絡(luò)在視頻速度識別任務(wù)上的準(zhǔn)確率優(yōu)于SlowFast網(wǎng)絡(luò),但是模型的各項參數(shù)都得到了明顯的降低。本文通過設(shè)計,有效減少了視頻特征提取模型的參數(shù)量,將模型的參數(shù)量降低到了1.33 M,浮點運(yùn)算數(shù)降低到了5.36 G,模型大小只有5.47 MB,實現(xiàn)了模型的輕量化和高效化,從而減少了推理時間和運(yùn)算量,提高了運(yùn)行速度。
表2不同模型的性能比較
Tab.2 Performance comparison of different models
本文詳細(xì)介紹了一種輕量級視頻特征提取網(wǎng)絡(luò)模型,專門為視頻速度識別任務(wù)進(jìn)行參數(shù)調(diào)優(yōu)設(shè)計。本實驗在原有的雙支網(wǎng)絡(luò)中減少子模型的通道數(shù),能夠幫助各子模型重點提取視頻中視覺對象的相關(guān)特征。另外在模型中加入通道注意力模塊,也有助于減少模型計算參數(shù)量,提高模型穩(wěn)定性。實驗結(jié)果說明了針對不同的任務(wù),對模型進(jìn)行優(yōu)化,比使用一個大模型要更具有效率,輕量化的模型降低了對硬件資源的要求,證明了該方法的可行性。
在本方法的基礎(chǔ)上,可以繼續(xù)從以下兩方面繼續(xù)開展優(yōu)化工作:第一,對于數(shù)據(jù)集來說,覆蓋的場景和類別越多,模型就越能適應(yīng)日常生活中可能會處理的不同場景,因此,數(shù)據(jù)集的擴(kuò)增是一個優(yōu)化的方向。第二,對于視頻特征提取網(wǎng)絡(luò)的結(jié)構(gòu),可以不局限于兩個分支。理論上來說,繼續(xù)增加不同采樣倍數(shù)的分支可以進(jìn)一步增大模型的感受野,獲取更長距離幀的視頻信息,以此提高模型特征提取的精確度。
[1] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 4489-4497.
[2] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[3] KAY W, CARREIRA J, SIMONYAN K, et al. The Kinetics human action video dataset[EB/OL]. (2017-05-19) [2021-05-18].https://arxiv.org/pdf/1705.06950.pdf.
[4] WANG L, LIU X, LIN S, et al. Generic slow-motion replay detection in sports video[C]// Proceedings of the 2004 International Conference on Image Processing. Piscataway: IEEE, 2004: 1585-1588.
[5] CHEN C M, CHEN L H. A novel method for slow motion replay detection in broadcast basketball video[J]. Multimedia Tools and Applications, 2015, 74(21): 9573-9593.
[6] JAVED A, BAJWA K B, MALIK H, et al. An efficient framework for automatic highlights generation from sports videos[J]. IEEE Signal Processing Letters, 2016, 23(7): 954-958.
[7] KIANI V, POURREZA H R. An effective slow-motion detection approach for compressed soccer videos[J]. International Scholarly Research Notices, 2012, 2012: No.959508.
[8] BENAIM S, EPHRAT A, LANG O, et al. SpeedNet: learning the speediness in videos[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 9919-9928.
[9] XIE S N, SUN C, HUANG J, et al. Rethinking spatiotemporal feature learning: speed-accuracy trade-offs in video classification[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11219. Cham: Springer, 2018: 318-335.
[10] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014: 568-576.
[11] FEICHTENHOFER C, PINZ F, WILDES R P. Spatiotemporal residual networks for video action recognition[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 3476-3484.
[12] FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1933-1941.
[13] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9912. Cham: Springer, 2016: 20-36.
[14] 石仕偉. 基于深度學(xué)習(xí)的視頻行為識別研究[D]. 杭州:浙江大學(xué), 2018: 21-67.(SHI S W. Research on deep learning-based video action recognition[D]. Hangzhou: Zhejiang University, 2018: 21-67.)
[15] 張聰聰,何寧. 基于關(guān)鍵幀的雙流卷積網(wǎng)絡(luò)的人體動作識別方法[J]. 南京信息工程大學(xué)學(xué)報(自然科學(xué)版), 2019, 11(6):716-721.(ZHANG C C, HE N. Human motion recognition based on key frame two-stream convolutional network[J]. Journal of Nanjing University of Information Science and Technology (Natural Science Edition), 2019, 11(6):716-721.)
[16] FEICHTENHOFER C, FAN H Q, MALIK J, et al. SlowFast networks for video recognition[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 6201-6210.
[17] GALASSI A, LIPPI M, TORRONI P. Attention in natural language processing[J]. IEEE Transactions on Neural Networks and Learning System, 2021, 32(10): 4291-4308.
[18] LI H F, QIU K J, CHEN L, et al. SCAttNet: semantic segmentation network with spatial and channel attention mechanism for high-resolution remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(5): 905-909.
[19] LIU Z, MOCK J, HUANG Y, et al. Predicting auditory spatial attention from EEG using single- and multi-task convolutional neural networks[C]// Proceedings of the 2019 IEEE International Conference on Systems, Man and Cybernetics. Piscataway: IEEE, 2019: 1298-1303.
[20] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[21] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.
[22] WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 11531-11539.
[23] 韓興,張紅英,張媛媛. 基于高效通道注意力網(wǎng)絡(luò)的人臉表情識別[J]. 傳感器與微系統(tǒng), 2021, 40(1):118-121.(HAN X, ZHANG H Y, ZHANG Y Y. Facial expression recognition based on high efficient channel attention network[J]. Transducer and Microsystem Technologies, 2021, 40(1):118-121.)
[24] 屈震,李堃婷,馮志璽. 基于有效通道注意力的遙感圖像場景分類[J]. 計算機(jī)應(yīng)用,2022,42(5):1431-1439.(QU Z, LI K T, FENG Z X. Remote sensing image scene classification based on effective channel attention[J]. Journal of Computer Applications, 2022,42(5):1431-1439.)
[25] JING L L, TIAN Y L. Self-supervised visual feature learning with deep neural networks: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(11): 4037-4058.
[26] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, (Volume 1: Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2015: 4171-4186.
[27] BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[C/OL]// Proceedings of the 34th Conference on Neural Information Processing Systems. [2021-05-18].https://papers.nips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf.
[28] CHEN H T, WANG Y H, GUO T Y, et al. Pre-trained image processing transformer[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 12294-12305.
[29] MISRA I, ZITNICK C L, HEBERT M. Shuffle and learn: unsupervised learning using temporal order verification[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 527-544.
[30] DWIBEDI D, AYTAR Y, TOMPSON J, et al. Temporal cycle-consistency learning[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 1801-1810.
CHEN Rongyuan, born in 1994, M. S. candidate. His research interests include deep learning, video semantic understanding.
YAO Jianmin, born in 1978, Ph. D., associate research fellow. His research interests include artificial intelligence, image processing, information display.
YAN Qun, born in 1965, Ph. D., professor. His research interests include micro-LED, artificial intelligence, information display.
LIN Zhixian, born in 1975, Ph. D., professor. His research interests include information display, flat panel display drive system, image processing.
Video playback speed recognition based on deep neural network
CHEN Rongyuan1, YAO Jianmin1,2, YAN Qun1,2*, LIN Zhixian1
(1,,350108,;2,362201,)
Most of the current video playback speed recognition algorithms have poor extraction accuracy and many model parameters. Aiming at these problems, a dual-branch lightweight video playback speed recognition network was proposed. First, this network was a Three Dimensional (3D) convolutional network constructed on the basis of the SlowFast dual-branch network architecture. Secondly, in order to deal with the large number of parameters and many floating-point operations of S3D-G (Separable 3D convolutions network with Gating mechanism) network in video playback speed recognition tasks, a lightweight network structure adjustment was carried out. Finally, the Efficient Channel Attention (ECA) module was introduced in the network structure to generate the channel range corresponding to the focused content through the channel attention module, which helped to improve the accuracy of video feature extraction. In experiments, the proposed network was compared with S3D-G, SlowFast networks on the Kinetics-400 dataset. Experimental results show that with similar accuracy, the proposed network reduces both model size and model parameters by about 96% compared to SlowFast network, and the number of floating-point operations of the network is reduced to 5.36 GFLOPs, which means the running speed is increased significantly.
deep neural network; video playback speed recognition; dual-branch network; channel attention; lightweight model
This work is partially supported by National Key Research and Development Program of China (2016YFB0401503), Science and Technology Major Program of Guangdong Province (2016B090906001), Science and Technology Major Program of Fujian Province (2014HZ0003-1), Open Fund of Guangdong Provincial Key Laboratory of Optical Information Materials and Technology (2017B030301007).
TP389.1
A
1001-9081(2022)07-2043-09
10.11772/j.issn.1001-9081.2021050799
2021?05?17;
2021?10?14;
2021?10?18。
國家重點研發(fā)計劃項目(2016YFB0401503);廣東省科技重大專項(2016B090906001);福建省科技重大專項(2014HZ0003?1);廣東省光信息材料與技術(shù)重點實驗室開放基金資助項目(2017B030301007)。
陳榮源(1994—),男,福建三明人,碩士研究生,主要研究方向:深度學(xué)習(xí)、視頻語義理解; 姚劍敏(1978—),男,福建莆田人,副研究員,博士,主要研究方向:人工智能、圖像處理、信息顯示; 嚴(yán)群(1965—),男,美籍,教授,博士,主要研究方向:Micro?LED、人工智能、信息顯示; 林志賢(1975—),男,福建泉州人,教授,博士,主要研究方向:信息顯示、平板顯示驅(qū)動系統(tǒng)、圖像處理。