摘 要:針對現(xiàn)有的視頻插幀方法無法有效處理大運動和復雜運動場景的問題,提出了一種改進視覺Transformer的視頻插幀方法。該方法融合了基于跨尺度窗口的注意力和可分離的時空局部注意力,增大了注意力的感受野并聚合了多尺度信息;對時空依賴和遠程像素依賴關系進行聯(lián)合建模,進而增強了模型對大運動場景的處理能力。實驗結(jié)果表明,該方法在Vimeo90K測試集和DAVIS數(shù)據(jù)集上的PSNR指標分別達到了37.13 dB和28.28 dB,SSIM指標分別達到了0.978和0.891。同時,可視化結(jié)果表明,該方法針對存在大運動、復雜運動和遮擋場景的視頻能產(chǎn)生清晰合理的插幀結(jié)果。
關鍵詞: 視頻插幀;Transformer;基于跨尺度窗口的注意力;大運動;復雜運動
中圖分類號: TP391.4文獻標志碼:A 文章編號: 1001-3695(2024)04-043-1252-06
doi: 10.19734/j.issn.1001-3695.2023.07.0344
Video frame interpolation method based on improved visual Transformer
Shi Changtong Shan Hongtao Zheng Guangyuan2, Zhang Yujin Liu Huaiyuan Zong Zhihao1
Abstract:Aiming at the problem that the existing video frame interpolation methods cannot effectively deal with large motion and complex motion scenes, this paper proposed a video frame interpolation method based on improved vision Transformer. This method fused the cross-scale window-based attention and the separable spatio-temporal local attention, enlarged the receptive field of attention, and aggregated multi-scale information. It jointly modeled the spatio-temporal dependencies and long-range pixel dependencies, thereby enhancing the model’ s ability to handle large motion scenes. The experimental results show that this model achieves PSNR values of 37.13 dB and 28.28 dB on the Vimeo90K test set and the DAVIS dataset, respectively, while the SSIM values reach 0.978 and 0.89 respectively. At the same time, visualization results show that the proposed method can produce clear and reasonable frame interpolation results for videos with large motion, complex motion and occlusion scenes. Key words:video frame interpolation; Transformer; cross-scale window-based attention; large motion; complex motion
0 引言
隨著顯示技術的發(fā)展以及電子設備的更新迭代,人們對視頻的質(zhì)量要求越來越高。視頻插幀(video frame interpolation,VFI)技術是視頻處理領域的基本技術,它利用已有連續(xù)視頻幀的信息生成不存在的中間幀,進而提高視頻幀率,涉及對圖像運動、結(jié)構和自然分布的理解。對它的研究也有助于促進下游任務,如圖像超分辨率、重建、去模糊等的發(fā)展。當前視頻插幀技術廣泛應用于視頻幀率轉(zhuǎn)換、慢動作生成和視頻壓縮等領域?,F(xiàn)有的視頻插幀方法大多基于卷積神經(jīng)網(wǎng)絡(convolutio-nal neural network,CNN),主要包括基于光流和基于核的方法?;诠饬鞯姆椒ɡ霉饬餍畔@式地處理運動,通常使用現(xiàn)有的光流估計模塊產(chǎn)生光流,然后利用得到的光流扭曲原幀,最后使用扭曲后的幀合成中間幀。Jiang等人[1]使用兩個U-Net[2]架構分別計算雙向光流和細化光流并預測軟可見圖,基于線性運動假設來估計雙向中間光流。Xu等人[3]提出一種二次視頻插幀方法,該方法可以利用視頻中的加速度信息,允許使用曲線軌跡和可變速度進行預測,能生成更準確的插幀結(jié)果。Dutta等人[4]在提取到雙向光流和遮擋圖之后使用一個端到端的3D CNN編碼器-解碼器架構為每個像素估計非線性運動模型?;诤说姆椒ㄔ谝粋€步驟中聯(lián)合進行運動估計和運動補償。Niklaus等人[5]提出使用卷積神經(jīng)網(wǎng)絡為每個像素估計一對空間自適應的卷積核,但如果圖像分辨率較高,會產(chǎn)生極高的內(nèi)存和計算成本,因此又進一步使用自適應可分離卷積[6]以減少模型參數(shù)和計算量。Lee等人[7]使用可變形卷積提出一種新的扭曲模塊,以解決模型自由度受限而無法處理現(xiàn)實世界中復雜運動的問題。Bao等人[8]集成光流和插值核來生成中間幀,后續(xù)又進一步引入深度信息[9]處理遮擋,以提高視頻插幀的性能。Cheng等人[10]使用增強可變形卷積,以一種無光流的方式為任意時間位置插值中間幀。Kalluri等人[11]利用時空卷積直接預測視頻的中間幀,該方法隱式地處理運動和遮擋。但上述這些基于卷積神經(jīng)網(wǎng)絡的方法會受到卷積操作局部性的固有限制而在捕獲遠程空間交互信息上面臨挑戰(zhàn),產(chǎn)生的結(jié)果往往存在模糊、偽影等。
Transformer[12]最初是為自然語言處理(natural language processing,NLP)領域的機器翻譯任務設計的,它擁有靈活的架構和強大的建模遠程依賴關系的能力,因此逐漸成為NLP領域的基準模型,隨后越來越多的人探索將Transformer應用于處理計算機視覺領域的任務[13]。隨著ViT[14]、Swin Transfor-mer[15]等的出現(xiàn)并在多個視覺領域取得超越CNN的結(jié)果,Transformer在計算機視覺領域的應用也越來越多[16]。一些研究者將Transformer應用于視頻插幀任務并取得了較好的結(jié)果,Shi等人[17]將局部注意力的概念引入到視頻插幀并將其拓展到時空域,還提出一種時空分離的策略以減少內(nèi)存的使用,最后使用一種多尺度幀合成方案合成中間幀。但由于其采用基于窗口的注意力計算方式來權衡性能和效率,而這種計算方式在非重疊窗口中計算注意力,所以限制了注意力的感受野,導致模型建模遠程依賴關系的能力受限。Lu等人[18]利用Transformer建模視頻幀間遠程像素相關性,并引入一種基于跨尺度窗口的注意力機制,有效地擴大了感受野,但由于未考慮到視頻幀間的時空依賴關系,所以無法有效處理具有復雜運動場景的視頻幀序列??紤]到上述問題,本文提出一種改進的基于移位窗口和跨尺度窗口的視頻插幀Transformer(video frame interpolation Transformer based on shifted-window and cross-scale window,SwinCS-VFIT)。該方法融合了可分離的時空注意力和基于跨尺度窗口的注意力機制,對時空依賴和遠程像素依賴關系進行聯(lián)合建模,提高了特征提取能力;同時使用了一種多尺度幀合成網(wǎng)絡,利用不同尺度的特征合成中間幀。大量實驗結(jié)果證明了該方法優(yōu)于現(xiàn)有視頻插幀方法。
1 本文模型
1.1 總體結(jié)構
本文模型采用四個相鄰的幀作為輸入來合成中間幀,模型同時處理四個視頻幀來隱式地建模視頻幀序列中的運動并檢測遮擋信息。圖1是本文所提改進視覺Transformer的視頻插幀模型結(jié)構圖,模型主要由嵌入層、編碼器-解碼器架構和多尺度幀合成網(wǎng)絡三部分組成。輸入視頻幀首先經(jīng)過嵌入層提取到淺層特征,隨后將淺層特征輸入編碼器-解碼器架構進一步獲得不同尺度的深層特征,最后利用多尺度幀合成網(wǎng)絡接收原始輸入幀和不同尺度的特征來合成中間幀。其中嵌入層使用三維卷積以更好地編碼輸入視頻幀序列的時空特征。本文設計的基于跨尺度窗口的可分離時空注意力是編碼器-解碼器架構的核心,它將可分離的時空局部注意力與基于跨尺度窗口的注意力結(jié)合,從而能聯(lián)合建模時空依賴關系和遠程像素依賴關系,進而提高特征提取能力。此外,基于可變形卷積的多尺度幀合成網(wǎng)絡可以充分利用多尺度信息來合成高質(zhì)量的中間幀。
1.2 基于跨尺度窗口的可分離時空注意力
1.2.1 可分離的時空局部注意力
為了實現(xiàn)對時空依賴的建模,考慮使用時空局部注意力(spatial-temporal swin attention,STS)對多視頻幀輸入進行處理,但當子立方體過大時,參與計算自注意力的元素過多會導致計算復雜度過高。因此本文采用可分離的時空局部注意力(separation of spatial-temporal swin attention,Sep-STS)[17],該方法將時空注意力的計算分解為空間和時間維度上的計算,以緩解上述問題。
Sep-STS在思想上與MobileNet[19]中的深度可分離卷積類似。深度可分離卷積是將卷積分為深度卷積和逐點卷積兩步,從而降低卷積的參數(shù)量和計算復雜度,Sep-STS是將在時空立方體上的注意力計算劃分為空間維度和時間維度上的計算。具體而言,Sep-STS首先在空間維度上進行注意力計算,如圖2(a)所示。對于一個大小為C×T×H×W的輸入特征圖,首先將其劃分為THW/M2個非重疊的大小為M×M的2D子窗口(忽略通道維度C),隨后在每個子窗口中計算多頭自注意力(multi-h(huán)ead self-attention,MSA)。此處自注意力的計算限制在非重疊的子窗口內(nèi),為了實現(xiàn)跨窗口的信息交互,將在隨后模塊中使用移位窗口劃分策略。在完成空間維度上的計算后,開始計算時間維度上的注意力。如圖2(b)所示,對于時間維度上的計算,首先將輸入特征圖劃分為HW個長度為T的時間維度向量(忽略通道維度C),然后對每個向量執(zhí)行MSA,這一步可以實現(xiàn)對跨幀的依賴進行建模。由于時間上的計算是對空間上計算的補充,所以需要在一個模塊中連續(xù)使用這兩步來處理視頻輸入。
在計算復雜度方面,Sep-STS將一個計算成本較高的操作分解為空間和時間上的兩個輕量級操作,進而將計算復雜度由STS的O((TMM)×THW)降低到Sep-STS的O((T+MM)×THW)。
1.2.2 引入基于跨尺度窗口的注意力機制
通過移位窗口策略可以實現(xiàn)跨窗口的連接,但在連續(xù)層中也僅能實現(xiàn)相鄰非重疊窗口之間的信息交互,因而對于大運動場景缺乏足夠的感受野,難以捕獲大范圍的信息。為進一步擴大注意力的感受野,本文在Sep-STS空間維度上的計算采用基于跨尺度窗口的注意力(cross-scale window-based attention,CSWA)[18]計算方式,進而提出基于跨尺度窗口的可分離時空局部注意力(separation of spatial-temporal swin attention based on cross-scale window,Sep-STSCS)。CSWA的結(jié)構如圖3所示。
圖3中, F和F↓中顏色相同的窗口相互交互,引入了多尺度信息,從而能生成更具有代表性的特征。F↓中的窗口比F中的窗口覆蓋了更多的上下文信息,圖3中F↓的窗口Y所覆蓋的信息是F中窗口X 的四倍,通過這種方式可以有效擴大注意力的感受野,并引入多尺度的信息。
基于上述方法,使用Sep-STSCS首先在空間維度的窗口上計算CSWA,隨后在時間維度的向量上計算MSA,在連續(xù)的時空立方體的常規(guī)和移位劃分上均采用上述步驟,從而捕獲更大范圍的信息。
此外,由于進一步采用了CSWA,Sep-STSCS的計算復雜度較Sep-STS略高,其計算復雜度為O((T+2MM)×THW)。
1.2.3 Sep-STSCS block
本文基于Sep-STSCS注意力設計了Sep-STSCS block,該模塊由分離的空間和時間注意力模塊以及MLP組成,MLP采用兩層結(jié)構并在兩層之間使用GELU函數(shù)[20]進行激活。在每個Sep-STSCS和MLP模塊之前使用層歸一化(layer normalization,LN)[21],并在之后使用殘差連接[22]來幫助模型穩(wěn)定地訓練,并且該模塊使用移位窗口策略來進一步建模遠程依賴關系。兩個連續(xù)Sep-STSCS block的結(jié)構如圖4所示。
其中: l和 z l分別表示block l的(Shifted)Sep-STSCS模塊和MLP模塊的輸出特征。(Shifted)Sep-STSCS模塊表示首先在空間維度上計算(Shifted)CSWA,隨后在時間維度上計算MSA。CSWA和Shifted_CSWA分別表示在常規(guī)和移位劃分后的空間維度窗口上計算CSWA,MSA表示在劃分后的時間維度向量上計算MSA。
1.3 多尺度幀合成網(wǎng)絡為了充分利用多尺度的特征,模型使用一種多尺度幀合成網(wǎng)絡[17]來生成最終的中間幀,該網(wǎng)絡在每個尺度上通過預測空間變化的核來自適應融合原幀,進而生成中間幀。相較于使用單一尺度特征的模型,該模型中的多尺度幀合成網(wǎng)絡能利用來自于編碼器-解碼器模塊的分層特征{ F l,l=0, 2}得到更清晰準確的結(jié)果。
如圖1所示,多尺度幀合成網(wǎng)絡由三個在不同尺度進行預測的SynBlock組成,每個SynBlock都是一個核預測網(wǎng)絡。模型融合多個尺度的預測來生成最終幀的表達式,如式(9)(10)所示。
2 實驗設計與對比分析
2.1 數(shù)據(jù)集介紹
本文在Vimeo90K septuplet訓練集[23]上進行模型的訓練,Vimeo90K septuplet訓練集包含64 612個七視頻幀序列,其視頻幀的分辨率為448×256。本文將視頻序列的第1、3、5、7幀作為模型的輸入,分別對應于 I-1、I0、I1、I2,而將第4幀作為真實值,對應于I 0.5。在訓練時,使用從幀中隨機裁剪256×256的圖像塊、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和時間序列反轉(zhuǎn)等方法進行數(shù)據(jù)增強。訓練結(jié)束后使用Vimeo90K septuplet[23]、UCF101[24]和DAVIS數(shù)據(jù)集[25]進行模型評估,具體使用了100個來自于UCF101的分辨率為225×225的五元組和2 847個來自于DAVIS的分辨率為854×480的五元組,與FLAVR[11]和QVI[3]中所使用的相同。
2.2 實驗環(huán)境與參數(shù)設置
實驗使用的CPU為Intel Xeon W-2225 CPU @ 4.10 GHz×8,顯卡為NVIDIA Quadro RTX 6000 24 GB,主機內(nèi)存為64 GB,操作系統(tǒng)為64位Ubuntu 20.04,使用的深度學習框架是PyTorch 1.5. 編程語言為Python 3.7.6,CUDA版本為10.1。
網(wǎng)絡訓練使用的損失函數(shù)為l1= ‖I0.5-I^ 0.5‖,其中I0.5表示真實值,I^0.5表示模型預測的輸出。使用的優(yōu)化器是AdaMax[26],其參數(shù)β1=0.9,β2=0.999。訓練進行100個epoch,batch_size為8,學習率從5E-4逐漸衰減到5E-6。模型編碼器四個階段的Sep-STSCS block數(shù)分別設置為2、2、6、2??勺冃尉矸e核大小K設置為5×5,空間維度上的窗口尺寸M設置為8。模型在編碼器四個階段的通道數(shù)分別為64、128、256、512。
2.3 評價指標
本文使用峰值信噪比(peak signal-to-noise ratio,PSNR)和結(jié)構相似性(structural similarity,SSIM)作為模型評價指標。對于真實值 I (x,y)和生成幀 I^(x,y),上述指標的表達式分別如式(11)(12)所示。
2.4 實驗結(jié)果與分析
2.4.1 定量結(jié)果對比
為了驗證模型的有效性,本文與當前最先進的視頻插幀方法進行比較,比較的方法有SuperSloMo[1]、DAIN[9]、SepConv[6]、BMBC[27]、CAIN[28]、AdaCoF[7]、QVI[3]、SoftSplat[29]、VFIformer[18]、FLAVR[11]和VFIT[17]。對于未給出訓練代碼的方法直接使用其預訓練模型。本文SwinCS-VFIT模型和上述其他模型的實驗結(jié)果如表1所示,其中部分結(jié)果來源于文獻[17]。
表1實驗結(jié)果顯示,SwinCS-VFIT在Vimeo90K和DAVIS數(shù)據(jù)集的PSNR指標上分別達到了37.13 dB和28.28 dB,均為最優(yōu)。相較于VFIT分別高出了0.17 dB和0.19 dB,相較于VFIformer分別高出了0.99 dB和0.87 dB,相較于當前最先進的基于CNN的方法FLAVR高出了0.83 dB和0.84 dB。SwinCS-VFIT在Vimeo90K和DAVIS數(shù)據(jù)集上的PSNR和SSIM指標超越現(xiàn)有基于CNN和基于Transformer的模型,表明該方法能產(chǎn)生擁有更少失真和更好圖像結(jié)構的結(jié)果,證明了基于跨尺度窗口的可分離時空注意力對提高視頻插幀性能的有效性。由于UCF101數(shù)據(jù)集中的圖像分辨率較低且?guī)g運動幅度較小,而對于小運動場景增大感受野并不能有效提升插幀性能,所以SwinCS-VFIT模型在該數(shù)據(jù)集上的性能略差。相比之下,DAVIS數(shù)據(jù)集中的圖像分辨率較高且運動幅度大,因此SwinCS-VFIT模型能取得較優(yōu)的性能。由此可見,本文模型傾向于處理含有大運動場景的視頻幀序列。除PSNR和SSIM指標外,本文進一步展示了SwinCS-VFIT與當前最先進的VFI模型在2.2節(jié)所述環(huán)境下生成一幀的平均運行時間,從而對比不同算法的時間復雜度。由表2可以看出,SwinCS-VFIT的運行時間表現(xiàn)與主流算法接近,這有助于其在視覺應用中的部署。
2.4.2 可視化結(jié)果對比
為了定性地描述本文模型對插幀結(jié)果質(zhì)量的影響,本文將其他先進模型與本文模型生成的中間幀進行可視化對比。使用到的模型有QVI[3]、FLAVR[11]、VFIformer[18]、VFIT[17]和SwinCS-VFIT。
圖5展示了本文模型與當前最先進的VFI模型在Vimeo90K測試集上插幀結(jié)果的可視化對比,其中Overlayed和GT分別代表重疊的相鄰輸入幀和對應的真實值??梢杂^察到,QVI在面對一些大運動或遮擋場景時會產(chǎn)生嚴重的失真和偽影;FLAVR專注于運動的物體,而當背景也同時運動時產(chǎn)生的結(jié)果中背景較為模糊;VFIformer和VFIT的結(jié)果中也有不同程度的模糊和失真;而本文SwinCS-VFIT能產(chǎn)生擁有更清晰邊界和更少失真的高質(zhì)量結(jié)果,更接近于真實值。原因如下:SwinCS-VFIT使用了可分離的時空注意力,因此能夠考慮跨多幀的時空信息,能同時考慮到大規(guī)模的運動信息并能有效預測遮擋,進而在面對物體和背景大規(guī)模運動的場景能產(chǎn)生較為清晰的中間幀;該方法進一步引入了基于跨尺度窗口的注意力機制,可以考慮到多尺度和更大范圍的信息,因而在面對大運動場景時能產(chǎn)生較為合理的結(jié)果;并且該方法使用隱式的方法估計運動并遮擋而非使用光流,因而能避免在一些大運動和遮擋場景下產(chǎn)生嚴重的失真和偽影。
為了進一步驗證SwinCS-VFIT能夠有效處理包含大運動場景的視頻幀序列,本文在DAVIS數(shù)據(jù)集上進行可視化對比,DAVIS中的視頻幀分辨率較高且?guī)g運動幅度較大,模型在其數(shù)據(jù)上的表現(xiàn)可以一定程度上說明模型在處理大運動和復雜運動場景時的性能。圖6展示了不同模型在DAVIS數(shù)據(jù)集上插幀結(jié)果的可視化對比。第一行結(jié)果展示了各模型在面對有遮擋的運動場景下的表現(xiàn)。可以看出,SwinCS-VFIT能準確排除遮擋信息,建模出清晰的摩托車后輪和尾箱,而其他模型結(jié)果均會受到遮擋信息的影響。第二行結(jié)果旨在測試不同模型在復雜運動場景下的表現(xiàn)。可以看出,QVI產(chǎn)生的中間幀有嚴重的失真和偽影,而其他模型均產(chǎn)生模糊但較為合理的結(jié)果,其中本文SwinCS-VFIT產(chǎn)生的結(jié)果在視覺效果上更加清晰。第三行結(jié)果展示出各模型在大運動和不規(guī)則運動場景下的表現(xiàn),其中QVI和VFIformer產(chǎn)生的結(jié)果中,火烈鳥的腿存在不連續(xù),VFIT的結(jié)果中存在另一條腿的殘影,而FLAVR和SwinCS-VFIT產(chǎn)生的結(jié)果較合理,都沒有不連續(xù)和殘影出現(xiàn),并且SwinCS-VFIT的結(jié)果更接近于真實值。第四行結(jié)果展示了各模型在物體和背景大規(guī)模運動場景下的表現(xiàn)。可以觀察到,F(xiàn)LAVR和VFIformer產(chǎn)生的結(jié)果中,背景較為模糊,QVI可以較好地產(chǎn)生背景信息,但在護欄處卻出現(xiàn)了嚴重的失真,而VFIT和SwinCS-VFIT可以較為準確地插值出運動物體和背景,且SwinCS-VFIT產(chǎn)生的結(jié)果在視覺效果上更加清晰。
由圖5、6可視化結(jié)果可以發(fā)現(xiàn),QVI在面對視頻幀中有大運動、復雜運動和遮擋場景時無法準確估計光流,因此產(chǎn)生的插幀結(jié)果質(zhì)量較差。FLAVR受限于卷積的局部性,在面對大運動、物體和背景大規(guī)模運動的場景時產(chǎn)生的插幀結(jié)果質(zhì)量較差。VFIformer由于未考慮視頻幀的時空信息,所以難以處理大運動、物體和背景大規(guī)模運動的場景。VFIT受限于基于窗口的注意力的有限感受野,因而難以處理大運動場景。而SwinCS-VFIT是一種無光流的方法,其使用基于跨尺度窗口的可分離時空注意力(Sep-STSCS)來提取特征,實現(xiàn)了對跨幀的時空依賴和遠程像素依賴關系的聯(lián)合建模,捕獲了跨幀的信息和更大范圍的信息,進而在面對大運動、復雜運動和遮擋等場景時能產(chǎn)生更加清晰合理的可視化結(jié)果。
2.5 消融實驗
為了驗證模型所使用到的各個模塊的有效性,本文設計了相應的消融實驗。由于訓練初期,模型可以很快收斂,所以僅訓練20個epoch,進而快速區(qū)分模型性能差異。實驗中其他模型均以SwinCS-VFIT為基礎修改而來,訓練學習率設置為5E-4,其余配置與2.2節(jié)保持一致。訓練完成后,使用Vimeo90K septuplet測試集進行定量測試,并使用DAVIS數(shù)據(jù)集中含有大運動場景的視頻幀序列進行可視化對比。
2.5.1 Sep-STSCS block的消融實驗
為了評估由CSWA和Sep-STS組成的Sep-STSCS block對視頻插幀結(jié)果的影響,本文首先使用標準的基于窗口的注意力(window-based attention,WA)替換SwinCS-VFIT中的CSWA,進而得到模型SwinCS-VFIT-Sep-STS,并進一步使用參數(shù)量相當?shù)?D卷積模塊替換Sep-STS模塊,得到模型SwinCS-VFIT-CNN。將SwinCS-VFIT和上述兩個模型進行對比,表3中的實驗結(jié)果顯示,CSWA和Sep-STS模塊對于提高模型插幀性能的作用明顯,將CSWA替換為WA后,模型的PSNR指標降低了0.07 dB,再將Sep-STS替換為3D卷積后,模型的PSNR和SSIM指標分別降低了0.47 dB和0.003。同時從圖7可視化對比中可以看出,在面對大運動場景時,SwinCS-VFIT的結(jié)果優(yōu)于SwinCS-VFIT-Sep-STS,SwinCS-VFIT-Sep-STS的結(jié)果又優(yōu)于SwinCS-VFIT-CNN,表明Sep-STSCS block可以有效提高視頻插幀的性能。
2.5.2 多尺度幀合成網(wǎng)絡的消融實驗
為了驗證多尺度幀合成網(wǎng)絡的有效性,本文將多尺度幀合成網(wǎng)絡中的第二和第三個SynBlock去除,僅保留最細尺度下的SynBlock,從而得到單尺度幀合成網(wǎng)絡,將使用單尺度幀合成網(wǎng)絡的模型命名為SwinCS-VFIT-Single。將原模型與該模型進行對比,表4中實驗結(jié)果顯示,SwinCS-VFIT相較于SwinCS-VFIT-Single在PSNR和SSIM指標上分別高出0.11 dB和0.00 同時從圖7可視化結(jié)果可以看出,SwinCS-VFIT的插幀結(jié)果優(yōu)于SwinCS-VFIT-Single,表明多尺度幀合成網(wǎng)絡通過聚合多尺度的信息,可以增強模型建模遠程依賴關系的能力,從而進一步提升模型插值中間幀的性能。
3 結(jié)束語
本文提出一種改進視覺Transformer的視頻插幀方法SwinCS-VFIT,將基于跨尺度窗口的注意力機制(CSWA)與可分離的時空局部注意力機制(Sep-STS)結(jié)合設計了Sep-STSCS注意力,實現(xiàn)了對時空依賴和遠程依賴關系的聯(lián)合建模,并且還使用了一種多尺度幀合成網(wǎng)絡,利用多尺度信息合成中間幀,進而提高了模型對大運動場景的處理能力,達到了較高的插幀性能。在Vimeo90K和DAVIS數(shù)據(jù)集上的實驗結(jié)果顯示,本文模型相較于現(xiàn)有VFI模型有較大的性能提升,并且可視化結(jié)果對比顯示了本文模型能較好地處理大運動、復雜運動和遮擋場景。但是本文模型與大多數(shù)視頻插幀模型相同,僅能生成相鄰兩幀中間時刻的幀,而不能在任意中間時刻插值幀。因此,探索能進行任意中間時刻插幀的模型是下一步的主要研究內(nèi)容。
參考文獻:
[1]Jiang Huaizu,Sun Deqing,Jampani V,et al. SuperSloMo: high qualityestimation of multiple intermediate frames for video interpolation[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 9000-9008.
[2]Ronneberger O,F(xiàn)ischer P,Brox T. U-Net: convolutional networks for biomedical image segmentation[M]// Navab N,Hornegger J,Wells W,et al. Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer,2015: 234-241.
[3]Xu Xiangyu,Li Siyao,Sun Wenxiu,et al. Quadratic video interpolation[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2019: article No. 147.
[4]Dutta S,Subramaniam A,Mittal A. Non-linear motion estimation for video frame interpolation using space-time convolutions[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 1726-1731.
[5]Niklaus S,Mai Long,Liu Feng. Video frame interpolation via adaptive convolution[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 670-679.
[6]Niklaus S,Mai Long,Liu Feng. Video frame interpolation via adaptive separable convolution[C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2017: 261-270.
[7]Lee H,Kim T,Chung T Y,et al. AdaCoF: adaptive collaboration of flows for video frame interpolation[C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 5316-5325.
[8]Bao Wenbo,Lai Weisheng,Zhang Xiaoyun,et al. MEMC-Net: motion estimation and motion compensation driven neural network for video interpolation and enhancement[J].IEEE Trans on Pattern Analysis and Machine Intelligence ,202 43 (3): 933-948.
[9]Bao Wenbo,Lai W S,Ma Chao,et al. Depth-aware video frame interpolation[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 3698-3707.
[10]Cheng Xianhang,Chen Zhenzhong. Multiple video frame interpolation via enhanced deformable separable convolution[J].IEEE Trans on Pattern Analysis and Machine Intelligence ,202 44 (10): 7029-7045.
[11]Kalluri T,Pathak D,Chandraker M,et al. FLAVR: flow-agnostic videorepresentations for fast frame interpolation[C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2023: 2071-2082.
[12]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[EB/OL]. (2023-08-02). https://arxiv.org/abs/1706.03762.
[13]陳凱,林珊玲,林堅普,等. 基于Transformer人像關鍵點檢測網(wǎng)絡的研究[J]. 計算機應用研究,2023, 40 (6): 1870-1875,1881. (Chen Kai,Lin Shanling,Lin Jianpu,et al. Research on facial landmarks detection network based on Transformer[J].Application Research of Computers ,2023, 40 (6): 1870-1875,1881.)
[14]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.
[15]Liu Ze,Lin Yutong,Cao Yue,et al. Swin Transformer: hierarchical vision transformer using shifted windows[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 9992-10002.
[16]劉文婷,盧新明. 基于計算機視覺的Transformer 研究進展[J]. 計算機工程與應用,2022, 58 (6): 1-16. (Liu Wenting,Lu Xinming. Research progress of Transformer based on computer vision[J].Computer Engineering and Applications ,2022, 58 (6): 1-16.)
[17]Shi Zhihao,Xu Xiangyu,Liu Xiaohong,et al. Video frame interpolation Transformer[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 17482-17491.
[18]Lu Liying,Wu Ruizheng,Lin Huaijia,et al. Video frame interpolation with Transformer[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 3532-3542.
[19]Howard A G,Zhu Menglong,Chen Bo,et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17). https://arxiv.org/abs/1704.04861.
[20]Hendrycks D,Gimpel K. Gaussian error linear units(GELUs) [EB/OL]. (2023-06-06). https://arxiv.org/abs/1606.08415.
[21]Ba J L,Kiros J R,Hinton G E. Layer normalization[EB/OL]. (2016-07-21). https://arxiv.org/abs/1607.06450.
[22]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.
[23]Xue Tianfan,Chen Baian,Wu Jiajun,et al. Video enhancement with task-oriented flow[J].International Journal of Computer Vision ,2019, 127 : 1106-1125.
[24]Soomro K,Zamir A R,Shah M. UCF101: a dataset of 101 human actions classes from videos in the wild[EB/OL]. (2012-12-03). https://arxiv.org/abs/1212.0402.
[25]Perazzi F,Pont-Tuset J,Mcwilliams B,et al. A benchmark dataset and evaluation methodology for video object segmentation[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 724-732.
[26]Kingma D P,Ba J. Adam: a method for stochastic optimization[EB/OL]. (2012-12-22). https://arxiv.org/abs/1412.6980.
[27]Park J,Ko K,Lee C,et al. BMBC: bilateral motion estimation with bilateral cost volume for video interpolation[M]// Vedaldi A,Bischof H,Brox T,et al. Computer Vision. Berlin: Springer,2020: 109-125.
[28]Choi M,Kim H,Han B,et al. Channel attention is all you need for video frame interpolation[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2020: 10663-10671.
[29]Niklaus S,Liu Feng. Softmax splatting for video frame interpolation[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 5437-5446.
收稿日期:2023-07-16;修回日期:2023-08-28 基金項目:國家自然科學基金資助項目(62173222)
作者簡介:石昌通(1999—),男,山東菏澤人,碩士研究生,CCF會員,主要研究方向為計算機視覺、視頻插幀;單鴻濤(1971—),女(通信作者),河南開封人,副教授,博士,主要研究方向為深度學習、人工智能(shanhongtao@sues.edu.cn);鄭光遠(1976—),男,河南商丘人,副教授,博士,主要研究方向為計算機視覺、智能控制;張玉金(1982—),男,安徽滁州人,副教授,博士,主要研究方向為圖像處理、模式識別;劉懷遠(1994—),男,甘肅天水人,碩士研究生,主要研究方向為深度學習、文本分類;宗智浩(1997—),男,江蘇南通人,碩士研究生,主要研究方向為深度學習、自然語言處理.