胥 斌
中影華夏電影科技(北京)有限公司,北京 100088
隨著新技術(shù)的不斷演進和電影產(chǎn)業(yè)的不斷發(fā)展,觀眾對于電影拍攝、制作、發(fā)行、放映質(zhì)量的要求越來越高,目前數(shù)字電影系統(tǒng)能支持高幀率(HFR)、高動態(tài)范圍(HDR)影片的放映。因此,為充分發(fā)揮新型放映設(shè)備性能,滿足觀眾更高觀影需求,開展幀率提升和技術(shù)增強研究,是當前較為急迫的研究需求[1]。目前電影主流幀率是24FPS,高幀率電影一般指幀率不低于60FPS 的電影。隨著電影高新技術(shù)格式制作放映技術(shù)特別是高幀率(HFR)技術(shù)的發(fā)展,60FPS 格式的影片由于應(yīng)用了高幀率技術(shù),有效緩解了圖像卡頓、畫面閃爍的情況,為觀眾提供了更好的觀影體驗。如何在鏡頭釋義不變的前提下將24FPS影片轉(zhuǎn)換為60FPS 影片,是當前電影技術(shù)領(lǐng)域的研究難點和熱點。近年來,基于AI 插幀算法的研究已取得一定進展,但所采用的插幀算法可能會帶來電影畫面節(jié)奏的畸變,進而影響鏡頭的正確釋義,所開展的研究基于圖像運動特性的針對性研究、設(shè)計和改進建議。本文所關(guān)注的幀率增強并非廣泛意義上的幀率變換,而是特定的24FPS 到60FPS 電影幀率變換。
目前的AI插幀算法相較于傳統(tǒng)的插幀算法已經(jīng)取得了重大突破。2019 年,由Bao 提出的深度感知視頻幀插值方法(Depth-Aware Video Frame Interpolation,DAIN)引發(fā)了學術(shù)界對于視頻插幀的大量關(guān)注。該方法采用了一種新穎的深度感知機制,可以很好地解決運動模糊和遮擋等問題[2]。同年,Xu 等提出了視頻插幀算法(Quadratic Video Interpolation,QVI),建立了光流反向搜索機制,在視覺效果和數(shù)據(jù)指標等方面均取得了重大提升[3]。2022 年,Huang 等提出了實時中間流估計算法(Real-Time Intermediate Flow Estimation,RIFE),使用多尺度迭代的方式計算插幀光流,具有較高的運行速度和較好的視覺效果[4]。2023 年由Kalluri 等人提出基于非光流視頻表示的插幀算法(Flow-Agnostic Video Representation,F(xiàn)LAVR)。FLAVR 算法采用了3D 卷積,是第一個端到端的視頻插幀網(wǎng)絡(luò),其可以很好地處理復雜的運動場景和物體邊緣模糊等問題[5]。
盡管AI 插幀算法具備較好的技術(shù)優(yōu)勢,但其在電影領(lǐng)域的應(yīng)用仍然存在以下問題:
(1)現(xiàn)有AI插幀算法都不支持非整數(shù)倍插幀,想要實現(xiàn)24FPS 到60FPS 的2.5 倍插幀,只有兩種等效方案:一是采用“2-1-2-1”非等間隔方式插幀;二是將24FPS 先降為12FPS,再進行5 倍等間隔插幀。以上兩種方案均存在一定局限性,其中第一種方案會帶來運動特性失調(diào)的現(xiàn)象,導致電影節(jié)奏變形;第二種方案插幀效果非常受限,并且沒有充分利用原始幀。因此,現(xiàn)有的AI 插幀算法無法很好支持24FPS到60FPS的幀率變換。
(2)目前大部分AI 插幀算法都假定兩幀之間的運動是均勻的,其中一部分甚至并沒有對運動信息做顯性建模,這種設(shè)計模式導致插幀結(jié)果的運動特性趨于均勻化。如果鏡頭運動本身是抖動或者劇烈的,那么該算法的插幀結(jié)果會抹除這種鏡頭運動的節(jié)奏。還有一小部分以QVI 為代表的插幀算法雖然對幀間運動有所建模,但由于其一方面只適用于4幀輸入的場景,另一方面這類算法會使用兩套參數(shù)描述同一段幀間運動,這會導致運動信息混亂,從而打亂插幀后的運動節(jié)奏。
為了解決上述問題,本文提出一種能夠應(yīng)用于高新技術(shù)格式電影制作且可保持運動信息一致的插幀算法。本文算法通過對連續(xù)三幀的運動模型進行建模,并將該模型適配到每個輸入幀,以使整個序列的運動模型統(tǒng)一。同時根據(jù)運動信息自動選擇插幀間隔,保證在非整數(shù)倍插幀操作時不會改變運動特性。
插幀算法的技術(shù)流程見圖1。
圖1 插幀算法流程圖
算法共分為光流模塊、運動分析模塊和幀合成模塊三個部分,其中運動分析模塊為本文所提出的獨有模塊。首先,光流網(wǎng)絡(luò)用于計算兩個輸入幀之間的光流,光流信息可以看作是兩個輸入幀之間的像素位移量。通過光流網(wǎng)絡(luò),計算第一幀到第二幀的光流為F12,以此類推可以計算得到F21、F23、F32。這四個光流為第一階段的輸出。之后,將第一階段的光流輸入到運動分析模塊,計算三幀內(nèi)的運動特性,輸出t 時刻的初始光流。這里t 分別取[0.4,0.8,1.2,1.6]四個值,其含義為:如果假設(shè)第一幀和第二幀之間的時間間隔為1,則算法需要對第一幀到第三幀內(nèi)的0.4、0.8、1.2 以及1.6 時刻進行插幀。最終根據(jù)運動分析模塊的初始光流信息,使用幀合成模塊計算得到t時刻的插幀結(jié)果。
2.1.1 光流模塊
光流模塊主要輸出輸入幀之間的初始光流,初始光流的計算由光流神經(jīng)網(wǎng)絡(luò)(Optical Flow Neural Network)完成。本文所用光流神經(jīng)網(wǎng)絡(luò)采用基于深度學習的全局運動聚合光流神經(jīng)網(wǎng)絡(luò)(Global Motion Aggregation,GMA)[6]。GMA 的輸入為兩張圖像,通過計算兩幅圖的相關(guān)性,迭代求解得到輸入圖像之間的光流。其功能可以通過式(1)表示,其中I1、I2、I3分別表示輸入的第1、2、3幀。
2.1.2 運動分析模塊
運動分析模塊首先以中間幀的光流F21和F23作為標準,使用二次軌跡對運動信息進行建模,進而得到二次模型的參量,并傳遞到F12以及F32上,使得在三幀整體區(qū)間內(nèi)的運動信息保持穩(wěn)定和一致。最終,根據(jù)運動軌跡方程計算t 時刻的光流信息作為輸出(圖2)。圖2 中XY 坐標系中的黑色線條為畫面中一個點的運動軌跡,在實際場景中,運動軌跡并非是直線,而是一條曲線。為了建模這條曲線,以中間幀I2為起點,計算I2分別指向I1和I3的光流為F21和F23,從而求解得到軌跡的運動參數(shù),進而實現(xiàn)運動分析的計算。
圖2 光流物理意義可視化
在運動分析模塊內(nèi)部,F(xiàn)21和F23有較為明確的物理意義,即第二幀上的點必定處在向第一幀和第三幀移動的軌跡上,且其光流表征了中間時刻的位移量。根據(jù)這一特性,對運動軌跡做二次項建模,即假設(shè)運動軌跡最高為時間t 的二階高斯展開,如式(2)所示。
將t=1 帶入,可求得時間的二階系數(shù)A2,其表征了第二幀上點的運動特性,將A2分別傳遞到第一幀和第三幀得到A1和A3,A2到A1的傳遞公式如式(3)所示。
其中η表示以x+F12(x,y,0),y+F12(x,y,1)為中心的2×2 的像素鄰域;C(a,b,c,d)代表計算并返回(a,b)與(c,d)兩點之間的雙線性系數(shù)。A2到A3的傳遞公式類似,在此不再贅述。將A2帶入式(4),求得第二幀和第三幀之間的軌跡方程如式(4)所示。同理可以寫出第一幀和第三幀的運動軌跡方程如式(5)所示。
在運動分析模塊內(nèi)部,適配t 的取值[0.4,0.8,1.2,1.6],根據(jù)式(4)和式(5)可計算得到指向t 時刻的兩支光流將用于后續(xù)插幀結(jié)果的合成。
2.1.3 幀合成模塊
幀合成模塊流程如圖3 所示,該模塊首先對I1、I2、I3進行深度特性提取,根據(jù)t 時刻初始光流將I1、I2、I3及其對應(yīng)圖像特征映射到t 時刻,根據(jù)映射后的內(nèi)容,將其以張量形式輸入到神經(jīng)網(wǎng)絡(luò)中,得到最終的插幀結(jié)果。
圖3 幀合成流程
得益于運動分析模塊的設(shè)計,訓練階段網(wǎng)絡(luò)部分無需再處理非整數(shù)倍插幀,因此這里采用與QVI相同的數(shù)據(jù)集作為數(shù)據(jù)訓練集。該數(shù)據(jù)集原始數(shù)據(jù)包含173 個視頻片段,涵蓋了多個類型的運動場景。數(shù)據(jù)集將所包含的視頻拆解成36926 個序列幀,而這些序列幀所對應(yīng)的幀率為240FPS。在訓練過程中,實驗擬使用8倍插幀的模式對算法進行訓練,即算法的輸入和輸出對應(yīng)幀率分別為30FPS和240FPS。
訓練共分為兩個階段。第一個階段固定光流網(wǎng)絡(luò)權(quán)重,只訓練幀合成模塊部分的網(wǎng)絡(luò)權(quán)重。該階段訓練共100 輪,每一輪均使用完整的Youtube960數(shù)據(jù)集進行監(jiān)督學習,學習率為0.0001。同時,采用L1 損失函數(shù)進行監(jiān)督。第二個階段對算法內(nèi)所有權(quán)重進行訓練更新,將訓練50 輪,其中前25 輪學習率為1e-5,后25 輪學習率為1e-6。此階段采用學習感知圖像塊相似度(Learned Perceptual Image Patch Similarity,LPIPS)[7]函數(shù)進行監(jiān)督。
針對算法的測試分為對算法的詳細評估和針對插幀后運動特性的分析,以證明插幀前后運動特性保持了一致性。
這一部分展示了算法在非整數(shù)插幀的表現(xiàn),實驗對應(yīng)用DAIN、QVI、FLAVR 和RIFE 四種方法后的結(jié)果進行了對比分析,無論定量或定性分析的結(jié)果都表明本文算法較之其他插幀算法的效果表現(xiàn)更優(yōu),其中RIFE 版本V4.6(最新版)作為評估對象。
(1)數(shù)據(jù)集處理
為了模擬非整數(shù)倍插幀的實際應(yīng)用場景,本文選用了GoPro 數(shù)據(jù)[8]中240FPS 數(shù)據(jù)集作為測試數(shù)據(jù)集。GoPro 數(shù)據(jù)集是2017 年建立的計算機視覺領(lǐng)域的一個標準公開數(shù)據(jù)集,是多個視覺任務(wù)中的評估數(shù)據(jù)集。使用GoPro 拍攝的實采數(shù)據(jù)集中包含了約3000 組數(shù)據(jù)對。筆者對GoPro 數(shù)據(jù)集中的測試集分別進行10 倍和4 倍幀率下采樣,得到24FPS 和60FPS兩組圖像序列,固定其分辨率為1280×720,并將作為評估非整數(shù)倍插幀的基準數(shù)據(jù)。
(2)評估指標與方法
實驗使用PSNR[9]、SSIM[10]作為插幀結(jié)果的評價指標,評價指標越高則表示圖像畫質(zhì)越好。為了保證實驗的公平性,評估階段排除訓練階段已經(jīng)使用的Youtube960 數(shù)據(jù)集,采用GoPro 數(shù)據(jù)集作為評估數(shù)據(jù)集。使用GoPro-24FPS 序列作為輸入序列,并與GrPro-60FPS 序列進行對比。由于DAIN、QVI、FLAVR 以及RIFE 并不支持非整數(shù)倍插幀,因此在評估過程中,統(tǒng)一采用先插兩幀再插一幀相互交替的模式進行運算。在計算數(shù)值指標時,本文將去除完全對齊幀(即時間對齊狀態(tài)的輸入幀)之后所有幀的定量指標作為參考依據(jù)。
評估結(jié)果如表1 所示,本文所提出的方法在兩個參數(shù)指標方面均具有明顯優(yōu)勢,在非整數(shù)倍插幀任務(wù)中可以更好地展現(xiàn)幀間運動特性,視覺比較結(jié)果如圖4 所示,從左到右分別為DAIN、QVI、FLAVR、RIFE、本文結(jié)果以及真值結(jié)果。其中紅色框區(qū)域內(nèi),本文結(jié)果顯著優(yōu)于其他插幀結(jié)果;綠色框區(qū)域內(nèi),本文結(jié)果與真值相近,優(yōu)于QVI 以及FLAVR。此外,本文解決方案在物體完整度、清晰度方面都具有更好的表現(xiàn),因此插幀性能表現(xiàn)更加優(yōu)異。
表1 非均勻插幀GoPro 數(shù)據(jù)集定量結(jié)果
圖4 非整數(shù)倍插幀視覺效果對比圖
原始的運動特性由GoPro 60FPS 數(shù)據(jù)提取得到,插幀后的運動特性由插幀后的序列幀提取得到。運動特性信息可以由物體的運動軌跡來表征。如圖5(a)所示,在圖像隨機選取一個點作為追蹤對象,分別計算這個點在每一個幀的位置信息,然后將其在二維坐標系中使用有向線條連接,得到最終的運動軌跡。其中,紅色線為原圖(30,250)處的真實軌跡,綠色線和藍色線分別為RIFE 以及本文算法該點的插幀軌跡。從軌跡形狀圖的角度,本文算法所對應(yīng)的軌跡與真實值的軌跡更為接近,保留了真實軌跡所對應(yīng)的運動趨勢。圖5(b)為RIFE 以及本文算法在4個連續(xù)合成幀中位置與真實值的距離,根據(jù)定量結(jié)果,本文的軌跡誤差小于RIFE 的軌跡誤差。因此評估結(jié)果表明,本文算法的復原軌跡與真實軌跡更加接近。
圖5 軌跡可視化對比
該算法主要包括以下兩個方面的嘗試:
(1)我們通過利用大量已配對的圖像序列對,訓練了一個深度學習模型,實現(xiàn)了基于電影數(shù)據(jù)的深度學習模型訓練與推理。該模型可以根據(jù)輸入的前后兩幀圖像,自動計算出中間幀的光流信息,從而實現(xiàn)影片的自動插幀。這一技術(shù)的研發(fā)成果,將極大地改善高新技術(shù)格式電影制作過程的質(zhì)量和效率。
(2)我們還針對電影應(yīng)用特性的光流算法進行了優(yōu)化,解決了從24FPS 提升到60FPS 時所呈現(xiàn)的運動感官異常問題。這種設(shè)計的獨特之處在于,它不僅考慮了拍攝內(nèi)容本身,還將鏡頭的運動也納入到了計算范疇。因此,這種設(shè)計直接以觀眾的視覺體驗為主導衡量因素,從而為觀眾帶來更加真實、流暢的電影視覺感受。
針對所提出的AI 插幀技術(shù),我們進行了大量的實驗驗證,結(jié)果表明該技術(shù)能夠有效地提高影片的質(zhì)量和流暢度。與傳統(tǒng)的插幀技術(shù)相比,該技術(shù)具有更高的自動化程度和更低的誤差率,同時計算效率也得到了大幅提升??傮w來說,本研究為數(shù)字電影高新技術(shù)格式制作提供了新的思路和方法,為電影制作帶來了更多的可能性。在未來的研究中,我們將進一步深入研究AI插幀技術(shù)和其他先進的數(shù)字電影制作技術(shù),以期在更廣泛的領(lǐng)域中實現(xiàn)應(yīng)用和推廣。
隨著科技的不斷發(fā)展,高新技術(shù)格式制作已經(jīng)成為電影行業(yè)的重要趨勢。插幀技術(shù)是數(shù)字電影制作過程中提高影片幀率的重要手段之一。然而,傳統(tǒng)的插幀技術(shù)存在諸多限制,例如需要大量手動調(diào)整、耗費時間較長、難以實現(xiàn)自動化等。因此,本文首次提出了一種基于深度學習和光流算法的數(shù)字電影高新技術(shù)格式制作AI 插幀技術(shù),旨在解決傳統(tǒng)插幀技術(shù)的不足之處,從而提高影片制作效率和觀影體驗。本文通過對連續(xù)幀的運動特性進行建模,實現(xiàn)了2.5 倍的非整數(shù)倍幀率增強,確保在插幀前后鏡頭運動特性的一致性,為非整數(shù)倍插幀時非均勻采樣帶來的運動異常問題提出了技術(shù)解決方案。通過進行實際的系統(tǒng)搭建并驗證實驗數(shù)據(jù),其結(jié)果表明本文算法是表現(xiàn)更好的AI電影插幀算法。
在未來的研究中,我們將以AI 插幀的光流估計與匹配技術(shù)作為基礎(chǔ)技術(shù)基石,深化和拓展AI 在電影行業(yè)的應(yīng)用,具體為以下幾個方面:
(1)拓展應(yīng)用領(lǐng)域
除了數(shù)字電影高新技術(shù)格式制作,AI 插幀技術(shù)在電影行業(yè)中有著廣泛的應(yīng)用前景,如影片修復[11][12]、3D 影片制作[13][14]、虛擬現(xiàn)實(VR)影片制作[15][16]等。在影片修復中,可以利用AI 插幀技術(shù)自動識別和修復老舊影片中的抖動、晃動等問題,提高影片觀看體驗;在3D 影片制作中,AI 插幀技術(shù)可以為制片方提供自動化生成3D 立體效果,提高制作效率;在虛擬現(xiàn)實(VR)影片制作中,該技術(shù)可以自動生成高質(zhì)量的VR 影片,為觀眾帶來沉浸式的觀影體驗。
(2)持續(xù)推進技術(shù)迭代升級
盡管本研究已經(jīng)取得了一定的成果,但我們認為AI 插幀技術(shù)還有很大提升空間。例如,在深度學習模型的訓練過程中,我們可以采用更復雜的模型結(jié)構(gòu),亦或嘗試新的光流估計方法[17][18],以提高插幀的計算精度。由于光流的估計算法往往作為單獨的研究課題,因此在本文中并沒有針對光流估計本身做定制化優(yōu)化,而是將其作為基礎(chǔ)模塊對本文算法提供技術(shù)支撐。
(3)結(jié)合其他先進技術(shù)
數(shù)字電影高新技術(shù)格式制作是一個涉及多個領(lǐng)域的綜合性領(lǐng)域,除了AI插幀技術(shù)本身的應(yīng)用外,可以將AI 插幀技術(shù)與現(xiàn)有的圖像增強、視頻編碼[19][20]等技術(shù)進行結(jié)合,以解決自動識別并修復影片中的噪點、色彩失真等問題,提高影片的視覺效果和觀看體驗。另外,筆者還可以將AI 插幀技術(shù)與視頻編碼技術(shù)相結(jié)合,實現(xiàn)更加高效的影片壓縮和存儲。通過探索這些技術(shù)的綜合應(yīng)用和提升,筆者可以進一步推動數(shù)字電影制作領(lǐng)域的進步和發(fā)展。
(4)加強實踐及推廣應(yīng)用
雖然本研究從學術(shù)的理論角度對基于AI的電影插幀進行了論證,但在實際應(yīng)用中基于AI 的電影插幀仍然有需要驗證和完善的空間。因此,筆者將積極尋求與相關(guān)企業(yè)和機構(gòu)合作,將所研究的AI 插幀技術(shù)應(yīng)用到實際的數(shù)字電影制作中(包含且不限于母版制作、特殊版本發(fā)行等),并對其效果進行評估和完善。此外,筆者還將關(guān)注電影行業(yè)的市場需求和技術(shù)發(fā)展趨勢,深入了解制片方、導演、演員等各方的需求,從而將研究成果與實際應(yīng)用相結(jié)合,推動AI插幀技術(shù)在電影行業(yè)得到更廣泛的應(yīng)用。
總之,本研究旨在為數(shù)字電影高新技術(shù)格式制作提供一種新的、高效的、自動化的插幀技術(shù)解決方案。筆者仍然認為該領(lǐng)域具有廣闊的發(fā)展前景和潛力。在未來的研究中,筆者將繼續(xù)深入探索該領(lǐng)域中的其他先進技術(shù)以期為數(shù)字電影制作帶來更多的創(chuàng)新和突破。