于 冰 陳佳輝 范正輝 相 雪 黃東晉 丁友東
上海大學(xué)上海電影學(xué)院,上海 200072
隨著計算機(jī)技術(shù)和圖像視頻處理技術(shù)的進(jìn)步與完善,電影的數(shù)字化修復(fù)取得長足發(fā)展,多家商業(yè)公司推出數(shù)字化修復(fù)解決方案,如Digital Vision Phoenix、DaVinci Revival、HS - ART Diamant、MTI Film DRSTMNOVA 等。中國電影資料館、中央宣傳部電影衛(wèi)星頻道節(jié)目制作中心、意大利博洛尼亞電影資料館(Fondazione Cineteca di Bologna)及德國茂瑙基金會(Friedrich Wilhelm Murnau Stiftung)等國內(nèi)外多家機(jī)構(gòu)均修復(fù)了大量珍貴影像。
近幾年,大數(shù)據(jù)、云計算、人工智能(AI)等技術(shù)的跨越式發(fā)展為電影行業(yè)注入了全新動力,人工智能在電影領(lǐng)域的應(yīng)用頗多,諸如劇本創(chuàng)作、三維建模、電影剪輯及后期制作等。作為人工智能的分支,深度學(xué)習(xí)(DL)在圖像和視頻處理領(lǐng)域大放異彩,電影修復(fù)與增強(qiáng)的智能化系統(tǒng)也陸續(xù)被提出。國家中影數(shù)字制作基地研發(fā)的“中影·神思”人工智能圖像處理系統(tǒng)[1],采用生成式對抗網(wǎng)絡(luò)(GAN)、循環(huán)網(wǎng)絡(luò)(LoopNet)等技術(shù),實現(xiàn)影片畫面質(zhì)量提升、圖像去場(Deinterlace)、圖像修復(fù)及分辨率提升等效果;愛奇藝推出ZoomAI 技術(shù)[2],實現(xiàn)劃痕修復(fù)、超分辨率增強(qiáng)、智能插幀、色彩增強(qiáng)等功能,完成多部影片的修復(fù);此外,部分電影修復(fù)商業(yè)軟件也同樣加入了自動修復(fù)功能,借助計算機(jī)圖形學(xué)(CG)及人工智能技術(shù),有效提升影片修復(fù)效果。
本文面向損傷修復(fù)與畫質(zhì)增強(qiáng)任務(wù),通過應(yīng)用深度學(xué)習(xí)算法,研究電影修復(fù)的智能化處理方法,探索電影修復(fù)軟件自主創(chuàng)新的途徑。本文主要研究污損去除、缺失修復(fù)算法,進(jìn)而研究基于深度學(xué)習(xí)的修復(fù)與增強(qiáng)系統(tǒng)。
Kim 等[3]提出一種深度盲視頻去字幕網(wǎng)絡(luò)(Blind Video Decaptioning Network,BVDNet),該網(wǎng)絡(luò)采用混合編碼器與解碼器模型,編碼器由一個三維卷積神經(jīng)網(wǎng)絡(luò)(CNN)與一個二維CNN組成,解碼器是一個二維CNN;BVDNet 網(wǎng)絡(luò)的編碼器從目標(biāo)幀的相鄰幀以及已修復(fù)的前一幀中聚合時空上下文信息,而解碼器則重建目標(biāo)幀實現(xiàn)修復(fù)。Iizuka 等[4]提出一種端到端的老電影修復(fù)網(wǎng)絡(luò)(Deep Remaster,DR),通過半自動的方式實現(xiàn)損傷去除、畫質(zhì)增強(qiáng)、黑白上色;該網(wǎng)絡(luò)包括修復(fù)與上色兩個子網(wǎng)絡(luò),修復(fù)網(wǎng)絡(luò)由三維時間卷積組成,實現(xiàn)灰度視頻的損傷去除與視頻增強(qiáng),上色網(wǎng)絡(luò)在源參考注意力(Source-Reference Attention,SRA)層的引導(dǎo)下借助已上色的關(guān)鍵幀完成視頻的彩色化。Zeng 等人[5]提出了聯(lián)合時空Transformer 網(wǎng)絡(luò)(STTN),首次將Transfomer 應(yīng)用到視頻修復(fù)任務(wù)中,網(wǎng)絡(luò)模型分為3 部分:編碼器、時空Transformer、解碼器。時空Transformer 借助注意力機(jī)制沿著空間和時間維度尋找合適的內(nèi)容并填充缺失區(qū)域,它可以同時填充所有輸入幀中的缺失區(qū)域,解決了之前逐幀修復(fù)方法存在時序不一致的問題。Liu 等人[6]提出了解耦的時空Transformer(DSTT),包含時間解耦的Transformer和空間解耦的Transformer,使模型可以從時間和空間維度上尋找到更加合適的內(nèi)容來填充缺失區(qū)域。Liu 等人[7]提出了一種可以融合更多信息的新型Transformer(Fuseformer)模型,使用常規(guī)的注意力在所有的特征圖上進(jìn)行全局查詢,為缺失區(qū)域?qū)ふ姨畛鋬?nèi)容。
為提升修復(fù)效率,本文提出兩種基于深度學(xué)習(xí)的電影序列修復(fù)算法:(1)基于注意力循環(huán)時間聚合網(wǎng)絡(luò)的污損去除算法;(2)基于Transformer 的大面積缺失補全算法。
2.1.1 算法介紹
為實現(xiàn)對電影劃痕與斑塊等損傷的去除,深度模型既要檢測到畫面中的這類損傷,又要用新的內(nèi)容替代損傷區(qū)域,這實際上屬于盲修復(fù)的研究范疇。本文引入循環(huán)時間聚合框架,提出一種注意力導(dǎo)向的堆疊生成式對抗網(wǎng)絡(luò)(GAN),在保持時空一致性的前提下,采用由粗到細(xì)的兩階段方式,實現(xiàn)老電影畫面損傷的自動去除。在此基礎(chǔ)上,提出一種針對老電影損傷修復(fù)的時空參考注意力(Temporal-Spatial Reference Attention, TSRA)層,該層使得網(wǎng)絡(luò)能在第一階段的損傷預(yù)測結(jié)果引導(dǎo)下,更好地利用時域非局部相似信息,完成損傷的去除。
本節(jié)算法的生成網(wǎng)絡(luò)由兩個子網(wǎng)絡(luò)構(gòu)成,第一個子網(wǎng)絡(luò)用G1表示,第二個子網(wǎng)絡(luò)用G2表示,生成網(wǎng)絡(luò)表示為表示通過第一階段子網(wǎng)絡(luò)G1模型修復(fù)后的序列,表示中的第t幀,表示中從第t-L幀開始到第t- 1 幀的連續(xù)L幅序列幀,表示中從第t-L幀開始到第t幀的連續(xù)L+ 1 幅序列幀。生成網(wǎng)絡(luò)的整體架構(gòu)如圖1所示,描述如下。
圖1 基于注意力循環(huán)時間聚合網(wǎng)絡(luò)的電影污損修復(fù)框架
第一階段子網(wǎng)絡(luò)G1有兩個輸入分支,對于當(dāng)前幀st的修復(fù),分別接收與,然后兩個分支輸出的特征經(jīng)過通道拼接聚合后輸入到后續(xù)的單一分支。最后,輸出的結(jié)果與當(dāng)前幀的輸入st相加得到第一階段網(wǎng)絡(luò)的輸出,運算過程如式(1)所示。
首先,第二階段子網(wǎng)絡(luò)G2有兩個輸入分支,分別接收與。其次,兩個分支輸出的特征與第一階段的預(yù)測殘差圖像共同輸入到本節(jié)提出的TSRA 層。再次,輸出特征經(jīng)過一個卷積后輸入到ConvLSTM 層,經(jīng)過三個卷積后輸入到基于二維卷積的自注意力(Self-Attention,SA)層[9]。復(fù)次,經(jīng)過一個卷積與四個反卷積以后輸出預(yù)測殘差圖像。最后,輸出的預(yù)測殘差圖像與第一階段的輸出x?t,first相加得到最終的修復(fù)結(jié)果,運算過程如式(2)所示。其中,是模型G2(·,·)輸出的預(yù)測殘差圖像。
在本節(jié)算法的生成網(wǎng)絡(luò)中,有兩點針對老電影損傷修復(fù)的重要設(shè)計:(1)預(yù)測殘差圖像與當(dāng)前幀的相加操作,可以使網(wǎng)絡(luò)將注意力集中在損傷的像素上,并防止幀的全局信息丟失,這點對老電影修復(fù)任務(wù)而言,有助于網(wǎng)絡(luò)不改變除損傷外的其他像素值。(2)本節(jié)算法采用逐幀修復(fù)的方式,除在輸入方面充分利用時域信息外,還引入了ConvLSTM層,通過逐幀依次相連的方式,進(jìn)一步提升序列修復(fù)結(jié)果的時空連續(xù)性。
本節(jié)算法的判別網(wǎng)絡(luò)有兩項,分別用DI與DV表示,網(wǎng)絡(luò)結(jié)構(gòu)均采用多尺度PatchGAN 結(jié)構(gòu)[10]。在第一階段,DI接收一組幀輸入:或,DV接收的輸入為:或。在第二階段,DI接收一組幀輸入:或,DV接收的輸入為:或。
本節(jié)網(wǎng)絡(luò)的目標(biāo)函數(shù)包括六項,分別是關(guān)于DI的GAN 損失、關(guān)于DV的GAN 損失、感知損失、風(fēng)格損失、時域連續(xù)性損失、重建損失,六項損失項的加權(quán)取和,得到聯(lián)合目標(biāo)損失。本節(jié)網(wǎng)絡(luò)分兩個階段,第一階段網(wǎng)絡(luò)與第二階段網(wǎng)絡(luò)的優(yōu)化目標(biāo)均為以上六項的加權(quán)和。網(wǎng)絡(luò)訓(xùn)練階段分為三個步驟:(1)采用聯(lián)合目標(biāo)損失對生成器G1與判別器DI、DV訓(xùn)練;(2)固定G1,采用聯(lián)合目標(biāo)損失對生成器G1、G2與判別器DI、DV訓(xùn)練;(3)采用聯(lián)合目標(biāo)損失對生成器G1、G2與判別器DI、DV訓(xùn)練。另外,本節(jié)網(wǎng)絡(luò)使用Adam 算法[11]進(jìn)行了優(yōu)化,學(xué)習(xí)率為0.0002,網(wǎng)絡(luò)的權(quán)重由均值0和標(biāo)準(zhǔn)偏差0.02的高斯分布初始化。
2.1.2 實驗數(shù)據(jù)集
本節(jié)算法的數(shù)據(jù)集包括兩個部分,分別是自建的老電影損傷數(shù)據(jù)集以及Youku-VESR視頻[12]數(shù)據(jù)集。
(1)本節(jié)構(gòu)建的損傷數(shù)據(jù)集包含989 段序列,每段序列包含100 幀圖像,共98,900 幅圖像,包括了各類劃痕、斑塊及污損。通過三種途徑構(gòu)建:第一種,在互聯(lián)網(wǎng)上通過關(guān)鍵詞進(jìn)行搜索,并下載合適的污損序列;第二種,通過特效軟件合成數(shù)據(jù);第三種,選取文獻(xiàn)[13]的隨機(jī)損傷掩膜。在數(shù)據(jù)集劃分方面,訓(xùn)練集選取889 段,驗證集選取50 段,測試集選取50段。圖2展示了自建的損傷數(shù)據(jù)集。
圖2 本節(jié)構(gòu)建的老電影損傷數(shù)據(jù)集示例
(2)Youku-VESR 數(shù)據(jù)集是為視頻增強(qiáng)任務(wù)而設(shè)計,涵蓋各種類別的影視內(nèi)容,包括1000 段1080P 的視頻片段,每段視頻100 幀,包含降質(zhì)集與原始集。本節(jié)算法僅選用Youku-VESR 的原始集,并調(diào)整為432×768 的灰度圖像。在數(shù)據(jù)集劃分方面,訓(xùn)練集選取900段,驗證集選取50段,測試集選取50段。
自建損傷數(shù)據(jù)與Youku-VESR 視頻數(shù)據(jù)兩者隨機(jī)結(jié)合為老電影損傷幀。合成方式為:第一,通過Youku-VESR 視頻幀與損傷幀相加或相減來獲取合成幀;第二,為盡可能模擬不同程度的損傷,在合成之前,需要為損傷數(shù)據(jù)乘以一個[0,1]之間的隨機(jī)系數(shù)。另外,為提高訓(xùn)練模型的泛化能力,對Youku-VESR 視頻數(shù)據(jù)進(jìn)行擴(kuò)展,擴(kuò)展方式包括圖像的水平翻轉(zhuǎn)、尺寸調(diào)整、亮度調(diào)整、對比度調(diào)整以及添加噪聲等。圖3展示了合成的老電影損傷幀示例。
圖3 合成的老電影損傷幀示例
本節(jié)將所提出算法與兩種較為先進(jìn)的同類視頻修復(fù)方法進(jìn)行比較。(1)DR 方法[3]:該方法是國際上較為有效的老電影修復(fù)神經(jīng)網(wǎng)絡(luò)模型。(2)BVDNet方法[4]:該方法是目前較為先進(jìn)的用于盲視頻修復(fù)的神經(jīng)網(wǎng)絡(luò)模型,可實現(xiàn)老電影的修復(fù)任務(wù)。為保證實驗對比的有效性,以上所有網(wǎng)絡(luò)模型都使用相同的數(shù)據(jù)進(jìn)行重新訓(xùn)練。本節(jié)使用三種定量標(biāo)準(zhǔn)對測試數(shù)據(jù)集評估提出的方法和其他方法。在空域方面,采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)指數(shù),用于反映結(jié)果在像素級別與真實圖像的接近程度。在時域方面,采用穩(wěn)定性誤差(SE)[14],用于反映測試視頻的視覺連貫性。如表1所示,可以看出本文方法相對其他方法,在定量指標(biāo)上表現(xiàn)最優(yōu)。
表1 本節(jié)算法在污損去除測試集上修復(fù)結(jié)果對比
2.1.3 實驗結(jié)果分析
為了驗證本節(jié)在自建數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)模型對于實際老電影數(shù)據(jù)的修復(fù)效果,筆者選取《騎士》(Knight)、《淘金記》(The Gold Rush)、《秋海棠》(1943)等三部電影的損傷片段。本節(jié)所選的三部電影片段,損傷涵蓋了亮劃痕、暗劃痕、亮斑塊、暗斑塊等多種類型,且損傷大小與分布均有一定的代表性(圖4、5、6),應(yīng)用本節(jié)方法后能夠較多地實現(xiàn)畫面中損傷的修復(fù),且修復(fù)后的區(qū)域很難被察覺曾有損傷痕跡,滿足人眼視覺感知需求。本節(jié)算法對于損傷類型的魯棒性較強(qiáng),對不同大小及亮度的損傷均能夠較好地檢測與消除,從而實現(xiàn)老電影的自動修復(fù)。
圖4 影片《騎士》(Knight)修復(fù)結(jié)果
圖5 影片《淘金記》(The Gold Rush)修復(fù)結(jié)果
圖6 影片《秋海棠》(1943)修復(fù)結(jié)果
2.2.1 算法介紹
在解決修復(fù)問題時,一般需要用戶手工標(biāo)記或采用相關(guān)算法自動標(biāo)記待補全的區(qū)域,這些區(qū)域往往是用戶主觀選擇的修飾對象。一旦確定待補全區(qū)域,修復(fù)方法自動或半自動的執(zhí)行剩下的工作,實現(xiàn)缺損的補全。修復(fù)是一種病態(tài)的逆問題,沒有明確定義或唯一解決方案,在老電影修復(fù)等應(yīng)用情境下,希望修復(fù)方法填充的內(nèi)容盡可能接近缺失或損傷前的信息,而另一些應(yīng)用情境修復(fù)目的是隱藏原始圖像或視頻的某些部分,如視頻目標(biāo)移除,其修復(fù)結(jié)果只需滿足感知自然即可。
以往基于Transformer 的視頻修復(fù)方法[15],沒有足夠重視視頻幀之間的連續(xù)性,導(dǎo)致注意力查詢范圍不合理。如果查詢范圍過大,則需要較大的計算量,導(dǎo)致訓(xùn)練時間變長;如果查詢范圍過小,則有可能在這個范圍內(nèi)查詢不到合適的填充內(nèi)容,而注意力查詢范圍不合理最終會影響視頻修復(fù)的質(zhì)量。針對上述問題,本節(jié)提出基于Transformer 的大面積缺失補全算法,從加強(qiáng)視頻幀之間的連續(xù)性出發(fā),提出了時間Transformer,有效解決了注意力查詢區(qū)域范圍不合適的問題,給出了合理的查詢區(qū)域,從而解決了計算量大時找不到合適填充內(nèi)容的問題。模型由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成,其中生成網(wǎng)絡(luò)由五個部分組成,分別是編碼器、重疊分割模塊、8 個級聯(lián)的時間Transformer、重疊合成模塊、解碼器。網(wǎng)絡(luò)架構(gòu)如圖7所示。
圖7 基于Transformer 的大面積缺失補全網(wǎng)絡(luò)架構(gòu)
在本節(jié)中,令X≡{x1,x2,…,xt}表示原始未破損的視頻序列,其中x1,x2,…,xt表示單幅的視頻幀,t表示原始視頻序列的長度;令M≡{}m1,m2,…,mt表示掩膜序列,其中m1,m2,…,mt表示單幅的掩膜圖,t表示掩膜序列的長度,與原始視頻序列中的單幅視頻幀一一對應(yīng),表示單幅視頻幀的破損區(qū)域。
生成網(wǎng)絡(luò)以原始視頻序列X和掩膜序列M作為輸入,原始視頻序列X∈R(h,w,3),掩膜序列M∈R(h,w,1),此處h、w分別表示視頻幀的高和寬,R表示實數(shù)集。原始視頻序列中的每幅視頻幀與掩膜序列中相對應(yīng)的單幅掩膜圖進(jìn)行逐像素相乘,得到包含缺失區(qū)域的視頻序列I∈R()h,w,3。包含缺失區(qū)域的視頻序列I經(jīng)過編碼器得到潛在特征集合,其中c 是通道的長度;F經(jīng)過重疊分割模塊后得到潛在特征集合,其中d是通道的長度;E經(jīng)過8 個級聯(lián)的時間Transformer 后得到潛在特征集合?經(jīng)過重疊合成模塊得到潛在特征集合?經(jīng)過解碼器得到修復(fù)后的視頻序列,其中y1,y2,…,yt表示修復(fù)的單幅視頻幀,t表示視頻序列的長度,Y∈R(h,w,3)。
時間Transformer 包含兩個歸一化層、時間注意力和融合前饋層,其作用是從潛在特征中查找合適的內(nèi)容填充缺失區(qū)域。時間注意力是時間Transformer 的核心,它包含維度切分、上下時間注意力、左右時間注意力、維度拼接和線性層。時間Transformer 如圖8(a)所示,時間注意力如圖8(b)所示,左右時間注意力如圖9(a)所示,上下時間注意力如圖9(b)所示。
圖8 時間Transformer 和時間注意力
圖9 左右時間注意力和上下時間注意力
判別網(wǎng)絡(luò)使用T-PatchGAN[16]判別器,其輸入為修復(fù)后的視頻序列Y和原始視頻序列X。本節(jié)網(wǎng)絡(luò)的目標(biāo)函數(shù)由三個損失項組成,分別是破損區(qū)域重建損失、有效區(qū)域重建損失和GAN 損失,所述目標(biāo)函數(shù)表達(dá)式如式(3)所示:
其中,L表示目標(biāo)函數(shù),Lhole表示視頻幀中破損區(qū)域的平均絕對誤差,Lvalid表示視頻幀中未破損區(qū)域的平均絕對誤差,Ladv表示關(guān)于判別器的GAN 損失;λhole、λvalid和λadv分別是Lhole、Lvalid和Ladv所對應(yīng)的權(quán)重系數(shù),Lhole取值為1,Lvalid取值為1,Ladv取值為0.01。
Lhole的表達(dá)式如式(4)所示:
Lvalid的表達(dá)式如式(5)所示:
其中,Y為修復(fù)后的視頻幀集合,X為原始視頻幀集合,M為掩膜圖集合,⊙表示逐像素相乘;‖ ‖表示計算算術(shù)平均值。
2.2.2 實驗結(jié)果分析
本節(jié)算法使用兩個數(shù)據(jù)集:YouTube-VOS[17]和DAVIS[18]進(jìn)行訓(xùn)練與測試;YouTube-VOS 的訓(xùn)練集包含3471 個視頻,測試集包含541 個視頻;DAVIS 包含150 個不同場景的視頻,該數(shù)據(jù)集僅用于評估,沒有用于訓(xùn)練。訓(xùn)練時,本模型僅在YouTube-VOS 的訓(xùn)練集上進(jìn)行訓(xùn)練。評估時,在YouTube-VOS 測試集以及從DAVIS 中隨機(jī)抽取50 個視頻進(jìn)行評估。本節(jié)將所提出算法與兩種基于Transformer 的視頻缺失補全方法進(jìn)行比較。(1)DSTT[6]:該方法采用先進(jìn)的Transformer 框架,包括時間解耦和空間解耦模塊,實現(xiàn)時間域和空間域的聯(lián)合補全。(2)Fuseformer[7]:該方法是目前較為先進(jìn)的缺失補全方法,通過融合更多信息,提升修復(fù)結(jié)果質(zhì)量。為保證實驗對比的有效性,以上所有網(wǎng)絡(luò)模型都使用相同的數(shù)據(jù)進(jìn)行重新訓(xùn)練。采用PSNR、SSIM、VFID 等指標(biāo)進(jìn)行評估,定量對比結(jié)果如表2 所示??梢钥闯霰疚姆椒ㄔ诙恐笜?biāo)上表現(xiàn)較優(yōu)。為了驗證本節(jié)算法的實際效果,選取越劇電影《孫悟空三打白骨精》中的片段(圖10)和DAVIS 數(shù)據(jù)集中的一個隨機(jī)視頻序列(圖11)。《孫悟空三打白骨精》片段中包含的破損情況不一、大小不等、形狀各異的破損區(qū)域,真實地反映了老電影中的破損情況;DAVIS 數(shù)據(jù)集中的隨機(jī)視頻序列用來展示本算法用于目標(biāo)移除的效果。本節(jié)算法能夠修復(fù)大面積破損區(qū)域,修復(fù)結(jié)果在空間與時間維度上均符合要求。
表2 本節(jié)算法在缺失補全測試集的修復(fù)結(jié)果對比
圖10 越劇電影《孫悟空三打白骨精》修復(fù)結(jié)果
圖11 DAVIS 中視頻的目標(biāo)移除結(jié)果
本文提出的電影修復(fù)系統(tǒng)及算法,硬件環(huán)境為配備NVIDIA GeForce RTX 3090(24GB)顯卡的圖形工作站,軟件環(huán)境包括Ubuntu 22.04 操作系統(tǒng),結(jié)合PyTorch 深度學(xué)習(xí)工具,并采用Python 編程實現(xiàn)。
在電影修復(fù)方面,由于早期電影膠片材質(zhì)的特殊、保存條件的惡劣以及拷貝播放的耗損等原因,大量珍貴電影膠片因物理或化學(xué)作用而遭受嚴(yán)重?fù)p壞,從而導(dǎo)致數(shù)字化后出現(xiàn)閃爍、抖動、劃痕、斑塊、噪聲、污點以及大面積破損等問題。在此情況下,電影視覺效果大打折扣,亟需采用數(shù)字修復(fù)技術(shù)手段進(jìn)行修復(fù)與保護(hù),以期達(dá)到改善影像資料質(zhì)量的目的。通過實驗研究,本文把應(yīng)用人工智能修復(fù)電影分為四個主要步驟:(1)污損去除:包括噪聲、劃痕及斑塊等污損修復(fù)。(2)缺失補全:包括大面積破損補全、缺幀修復(fù)等。(3)畫質(zhì)增強(qiáng):包括分辨率提升(如低分辨率到高清、2K、4K、8K分辨率的轉(zhuǎn)換)、幀率提升(如16FPS 或24FPS 到48FPS、60FPS 的轉(zhuǎn)換)等。(4)色彩增強(qiáng):包括黑白影片的上色、褪色修復(fù)等。除此之外,還有預(yù)處理和后處理等兩個步驟,主要涉及去閃爍與去抖動等操作。本文系統(tǒng)修復(fù)流程如圖12所示。
圖12 基于深度學(xué)習(xí)的電影修復(fù)系統(tǒng)流程
對于待修復(fù)的視頻序列,根據(jù)損傷類型、選擇性或全部依次經(jīng)過預(yù)處理、污損去除、缺失補全、畫質(zhì)增強(qiáng)、色彩增強(qiáng)及后處理等步驟,經(jīng)過視頻鑒定后,輸出修復(fù)后的視頻序列。本文系統(tǒng)采用第2 節(jié)自研的污損去除和缺失補全功算法,以及基于像素流的視頻上色算法[19]。除此之外,本文引入基于缺陷圖譜的神經(jīng)濾波盲視頻去閃爍[20]、深度卷積網(wǎng)絡(luò)去抖動[21]、深度盲去噪算法[22]、深度中間流估計插幀[23]、基于BasicVSR 的視頻超分辨率[24]等算法,完善整個修復(fù)流程。需要說明的是,對于所采用的算法,均需在自建的電影修復(fù)數(shù)據(jù)中訓(xùn)練與調(diào)參,以期獲得較優(yōu)的修復(fù)結(jié)果。
根據(jù)上文實驗總結(jié)的電影智能修復(fù)流程,筆者設(shè)計了基于深度學(xué)習(xí)的電影修復(fù)系統(tǒng)。如圖13 所示,系統(tǒng)功能分為基礎(chǔ)功能、修復(fù)增強(qiáng)功能和其他功能三個部分。基礎(chǔ)功能包括打開、保存和視頻播放等;修復(fù)增強(qiáng)功能包括視頻去噪、視頻去污損等多種修復(fù)方法;其他還包括掩膜生成和運動估計等輔助功能。
圖13 基于深度學(xué)習(xí)的電影修復(fù)系統(tǒng)功能架構(gòu)
該系統(tǒng)主要包含主界面、功能彈窗和掩膜生成彈窗等操作界面。主界面(圖14)包含兩個播放窗口:左窗口播放原視頻,右窗口播放修復(fù)或者增強(qiáng)后的視頻。通過逐幀播放,有利于對處理前后的視頻進(jìn)行對比。功能彈窗界面如圖15 所示,選項卡的每項對應(yīng)一類功能,并包含該項功能相應(yīng)的設(shè)置選項。每項選項卡均分為兩個部分:上半部分是對應(yīng)人工智能模型的處理界面,下半部分是開始按鈕和處理過程的顯示窗口。設(shè)置完成“AI 模型”及參數(shù)后,點擊“開始”按鈕,人工智能模型啟動推理處理運算,顯示窗口即會輸出設(shè)置信息與模型的處理過程。
圖14 基于深度學(xué)習(xí)的電影修復(fù)系統(tǒng)主界面
圖15 功能彈窗界面
修復(fù)是電影保護(hù)與編輯的重要手段,其理論與方法創(chuàng)新將對數(shù)字資源的高效利用產(chǎn)生深遠(yuǎn)影響。針對該問題,筆者設(shè)計了基于人工智能的修復(fù)系統(tǒng),將深度學(xué)習(xí)技術(shù)應(yīng)用到電影視頻的處理中,提高了處理的速度與質(zhì)量。該系統(tǒng)具備多種修復(fù)與增強(qiáng)功能,可以解決電影的綜合修復(fù)問題。電影修護(hù)是一個綜合處理過程,在未來的工作中,仍需進(jìn)一步優(yōu)化人工智能模型,以期實現(xiàn)電影畫質(zhì)的全面提升。
作者貢獻(xiàn)聲明:
于冰:算法設(shè)計與實驗測試、論文撰寫,全文文字貢獻(xiàn)40%;
陳佳輝:算法、系統(tǒng)研究與測試、論文撰寫,全文文字貢獻(xiàn)30%;
范正輝:系統(tǒng)研發(fā)、論文撰寫,全文文字貢獻(xiàn)5%;
相雪:系統(tǒng)研發(fā)、論文撰寫,全文文字貢獻(xiàn)5%;
黃東晉:論文撰寫與修訂,全文文字貢獻(xiàn)10%;
丁友東:論文撰寫與修訂,全文文字貢獻(xiàn)10%。