唐曉天,馬 駿,李 峰,楊 雪,梁 亮
基于多尺度時(shí)域3D卷積的視頻超分辨率重建
唐曉天1,2,馬 駿2,李 峰1,楊 雪1,梁 亮3
(1. 錢學(xué)森空間技術(shù)實(shí)驗(yàn)室,北京 100086;2.河南大學(xué)軟件學(xué)院,河南 開封 475004;3. 清華大學(xué)電子工程系,北京 100084)
視頻超分辨率是一項(xiàng)很有實(shí)用價(jià)值的工作。針對(duì)超高清產(chǎn)業(yè)中高分辨率資源較為匱乏的問題,為了有效利用視頻序列幀間豐富的時(shí)間相關(guān)性信息及空間信息,提出一種基于多尺度時(shí)域3D卷積的視頻超分辨率重建算法。該算法將輸入的低分辨率視頻序列幀分別通過不同時(shí)間尺度的3D卷積進(jìn)行時(shí)空特征提取,3D卷積能夠同時(shí)對(duì)空間與時(shí)間建模,相較于2D卷積更加適用于視頻任務(wù)的處理,通過不同尺度時(shí)域下提取的2種時(shí)空特征自適應(yīng)運(yùn)動(dòng)補(bǔ)償后,由亞像素卷積層執(zhí)行分辨率的提升并與上采樣后的輸入幀相加后得到最終重建的高分辨率圖像。在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法無論在視覺效果上,還是峰值信噪比與結(jié)構(gòu)相似性等客觀質(zhì)量評(píng)價(jià)指標(biāo)上,均有顯著地提升,優(yōu)于FSRCNN和EDSR等算法。
視頻超分辨率;深度學(xué)習(xí);3D卷積;多尺度時(shí)域特征;亞像素卷積
圖像超分辨率(super-resolutio,SR)重建技術(shù)能夠?qū)⒌头直媛?low-resolution,LR)、細(xì)節(jié)模糊的低質(zhì)量圖像重建為高分辨率(high-resolution,HR)且具有更多細(xì)節(jié)信息的高質(zhì)量圖像。近年來隨著電子顯示技術(shù)的發(fā)展,分辨率能達(dá)到4 k甚至更高,而與之對(duì)應(yīng)的HR影像資源則較匱乏,這時(shí)就需要視頻SR技術(shù)來獲取更多的高質(zhì)量視頻資源。此外在攝像監(jiān)控、航空航天、醫(yī)療診斷等領(lǐng)域中,清晰度高、細(xì)節(jié)信息豐富的HR影像也能提供更多地幫助。相較于單幀圖像,視頻影像中的連續(xù)幀之間擁有單幀圖像所沒有的時(shí)間信息,如何更高效地利用序列幀之間的時(shí)間相關(guān)性信息成為視頻SR重建的重中之重。
傳統(tǒng)圖像SR重建技術(shù)包括基于插值、重構(gòu)及經(jīng)典學(xué)習(xí)的方法。插值方法中如經(jīng)典的最鄰近插值法、雙線性插值法和雙三次插值法,這些算法復(fù)雜度低、簡單易實(shí)現(xiàn),但也存在諸如重建圖像邊緣模糊、圖像細(xì)節(jié)信息丟失等問題。重構(gòu)方法是利用圖像亞像素精度對(duì)齊實(shí)現(xiàn)的,主要分為頻域法與空域法。如在頻域中建立LR圖像與HR圖像的線性關(guān)系來重建HR圖像,但其迭代次數(shù)過多,計(jì)算成本較大。
近年來深度學(xué)習(xí)異軍突起,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)為圖像SR重建等眾多的圖像處理任務(wù)帶來了新的突破。DONG等[1]提出的超分辨率重建卷積神經(jīng)網(wǎng)絡(luò)(super- resolutio CNN,SRCNN),利用卷積網(wǎng)絡(luò)完成從LR圖像到HR圖像的非線性映射。其在圖像重建的質(zhì)量與速度上均優(yōu)于傳統(tǒng)超分方法,但其感受野較小,且不能很好地利用圖像的信息;KIM等[2]提出更深層次的網(wǎng)絡(luò)(very deep convolutional networks,VDSR),其采用了更多的卷積層,增加了感受野,并采用殘差法訓(xùn)練使得收斂速度更快。SHI等[3]使用一種亞像素卷積并將通道重新排列,從而得到HR圖像,與以往將LR圖像插值后再輸入網(wǎng)絡(luò)不同的是,可以在LR圖像上直接經(jīng)過卷積計(jì)算得到HR圖像,在超分效率上得到了顯著提高;FSRCNN[4]對(duì)SRCNN改進(jìn)后也可以直接將LR圖像通過Deconv超分重建。SRGAN[5]將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于圖像的超分重建,在4倍分辨率等較大放大因子重建上能夠生成更多的圖像細(xì)節(jié)。
視頻SR重建是輸入多個(gè)序列幀,利用幀間關(guān)聯(lián)的時(shí)間、空間信息來重建圖像。常見的視頻超分方法依托于運(yùn)動(dòng)估計(jì)與運(yùn)動(dòng)補(bǔ)償將序列幀對(duì)齊,以對(duì)齊后的序列幀作為輸入,在超分網(wǎng)絡(luò)中進(jìn)行重建。VSRnet[6]是處理視頻超分重建的首個(gè)深度網(wǎng)絡(luò)。CABALLERO等[7]認(rèn)為VESPCN是ESPCN的改進(jìn)版,可將圖像的超分重建改進(jìn)為視頻序列的超分且可進(jìn)行實(shí)時(shí)處理。HARIS等[8]設(shè)計(jì)了一種循環(huán)編碼器-解碼器模塊處理視頻中連續(xù)幀的時(shí)間和空間信息,從而可以更大范圍地評(píng)估視頻。TIAN等[9]提出一種可在時(shí)間上變形的對(duì)齊網(wǎng)絡(luò)。LIU等[10]利用動(dòng)態(tài)局部濾波器網(wǎng)絡(luò)來執(zhí)行隱式運(yùn)動(dòng)估計(jì)和補(bǔ)償。SOFVSR[11]網(wǎng)絡(luò)通過HR光流進(jìn)行重建。多數(shù)運(yùn)用光流補(bǔ)償模塊的視頻超分算法受限于光流估計(jì)的準(zhǔn)確性。此外還有一種利用3D CNN提取視頻序列幀間的時(shí)空特征完成重建的方法,在視頻處理中3D CNN相比于2D CNN擁有更多的優(yōu)勢[12]。LI等[13]提出一種快速時(shí)空殘差網(wǎng)絡(luò)(fast spatio-temporal resolution network,F(xiàn)STRN)結(jié)合特征提取與運(yùn)動(dòng)補(bǔ)償?shù)姆椒?;YING等[14]通過引入一種可變性的3D卷積(D3Dnet)合并多個(gè)時(shí)空維度進(jìn)行超分重建。
受3D CNN能夠提取視頻序列幀時(shí)空特征的啟發(fā),本文提出一種利用視頻不同尺度時(shí)域下的時(shí)空特征自適應(yīng)運(yùn)動(dòng)補(bǔ)償并進(jìn)行SRCNN。不同尺度時(shí)域下的時(shí)空特征可以更好地幫助學(xué)習(xí)幀間跨度大及復(fù)雜運(yùn)動(dòng)時(shí)的幀間時(shí)空信息,且多尺度時(shí)域的視頻幀擁有更為豐富的空間信息幫助重建,之后由多個(gè)殘差塊生成的深層特征以及亞像素卷積完成分辨率的提升。
本文算法的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。輸入視頻序列幀中的7幀數(shù)據(jù)(LR),每幀圖像大小為,其中和分別為輸入圖像的高和寬。Conv3D-3T表示以時(shí)間尺度為3對(duì)輸入圖像進(jìn)行3D卷積,卷積核為3×3×3;Conv3D-5T表示以時(shí)間尺度為5對(duì)輸入圖像進(jìn)行3D卷積,卷積核為5×3×3;輸入影像分別經(jīng)過Conv3D-3T和Conv3D-5T提取到不同尺度時(shí)域下的2種時(shí)空特征,并連接(Concat)2種特征進(jìn)行特征融合,通過8個(gè)殘差塊(Resb)生成深層特征;之后饋送到亞像素卷積層(Sub-pixel-Conv)進(jìn)行分辨率的提升并生成HR圖像(×),其中為上采樣因子;最后將生成的HR圖像與上采樣后的LR圖像殘差連接得到最終的超分辨率重建圖像SR;LR與HR圖像中的低頻信息相近,只是缺乏高頻部分的殘差,將亞像素卷積層的輸出結(jié)果與雙三次上采樣的結(jié)果相加,在訓(xùn)練時(shí)僅訓(xùn)練HR與LR的高頻殘差部分,那么就不需要在低頻部分花太多的時(shí)間。
圖1 視頻超分辨率重建網(wǎng)絡(luò)結(jié)構(gòu)
與單幀圖像相比,視頻序列幀擁有更為豐富的時(shí)間和空間信息,如何將其有效地利用在SR重建上是視頻超分中的重點(diǎn)問題。常見的方法是利用光流估計(jì)與運(yùn)動(dòng)補(bǔ)償將視頻序列幀對(duì)齊后利用2D CNN完成分辨率的提升,不過該方法受限于光流模塊的精度。另一種是直接利用3D CNN提取序列幀間的時(shí)空特征用以重建的方法,其同樣簡單有效。
常用的3D卷積時(shí)間尺度較小且固定不變,在遇到幀間跨度大的運(yùn)動(dòng)或復(fù)雜運(yùn)動(dòng)時(shí)不能很好地學(xué)習(xí)視頻幀間的時(shí)空信息。本文提出一種多尺度時(shí)域時(shí)空特征結(jié)合的方法,不僅采用時(shí)間尺度為3的小尺度3D卷積,并結(jié)合時(shí)間尺度為5的3D卷積,更大時(shí)間維度的卷積可以識(shí)別幀間跨度大的運(yùn)動(dòng)信息,且更多的幀圖像擁有更豐富的空間信息,2種步長的卷積形式如圖2所示。
Conv3D-3T與Conv3D-5T的輸入相同,均是7幀LR圖像,在Conv3D-3T中對(duì)輸入幀進(jìn)行時(shí)間維度為3的3D卷積,卷積核大小為3×3×3;空間維與時(shí)間維的填充與步長均設(shè)置為1,經(jīng)過5次殘差后輸出。Conv3D-5T中對(duì)輸入幀進(jìn)行時(shí)間維度為5的3D卷積,卷積核大小為5×3×3,時(shí)間維的填充設(shè)置為2,空間維的填充為1,步長均設(shè)置為1,經(jīng)過5次殘差后輸出。Conv3D-3T與Conv3D-5T的殘差塊結(jié)構(gòu)均為2次對(duì)應(yīng)的維度卷積和一個(gè)激活函數(shù)。成對(duì)輸入視頻序列,在不同尺度時(shí)域下的時(shí)空特征提取后將2種時(shí)空特征結(jié)合為
圖2 多尺度時(shí)域時(shí)空特征
((a) Conv3D-3T; (b) Conv3D-5T)
其中,為多尺度時(shí)域時(shí)空特征;為維度連接操作concat。得到多尺度時(shí)域時(shí)空特征后便可以進(jìn)行重建與分辨率提升工作了。
亞像素卷積[3]可將多個(gè)通道的特征圖重新排列為1張?zhí)卣鲌D,對(duì)多通道特征的單一像素進(jìn)行再組合,并實(shí)現(xiàn)了從LR圖像到HR圖像的重構(gòu),即
其中,和分別為圖像的高和寬;為上采樣因子。
將得到的多尺度時(shí)域時(shí)空特征在送入亞像素卷積層前,先通過8個(gè)殘差塊生成深層特征,殘差學(xué)習(xí)能有效緩解隨著網(wǎng)絡(luò)深度增加引發(fā)的梯度消失現(xiàn)象,并在提高網(wǎng)絡(luò)深度的同時(shí)還能保持很好的性能與效率。每個(gè)殘差塊由2個(gè)卷積層與一個(gè)LeakyRelu激活層組成,卷積核大小為3×3,步長與填充均設(shè)置為1。再通過亞像素卷積層對(duì)分辨率進(jìn)行提升,亞像素卷積層的結(jié)構(gòu)如圖3所示。
圖3 亞像素卷積層
其中,1×1 conv可獲取像素的多個(gè)通道特征;PixelShuff[3]則將這些特征重新排列組合成一幅HR深度圖像,經(jīng)過激活層與3×3卷積進(jìn)行輸出。之后將亞像素卷積層的輸出與上采樣后的初始LR圖像殘差得到最終的重建結(jié)果,即
其中,為超分辨率重建結(jié)果;()為亞像素卷積;F為多尺度時(shí)域時(shí)空特征的深層特征;⊕為矩陣求和操作;()為雙線性插值;為初始低分辨率圖像。
本文將通過重建的SR圖像與真實(shí)圖像HR間的差值最小化來訓(xùn)練網(wǎng)絡(luò),損失函數(shù)上選擇均方誤差(mean squared error,MSE)函數(shù),即
其中,L為均方誤差函數(shù);為樣本數(shù);為超分辨率重建結(jié)果;為真實(shí)圖像。通過反向傳播不斷對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
訓(xùn)練網(wǎng)絡(luò)采用的訓(xùn)練集是CDVL[11]數(shù)據(jù)集,挑選了32組視頻進(jìn)行訓(xùn)練,包含自然景色、城市建筑、車輛行人等場景。每組視頻中包含31幀圖像,圖像的分辨率為960×540。為了得到HR與LR對(duì)應(yīng)的訓(xùn)練數(shù)據(jù),將原始視頻序列幀作為HR真實(shí)圖像,下采樣后的視頻序列幀作為LR圖像。在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí)會(huì)從LR圖像中隨機(jī)地裁切32×32大小的塊作為網(wǎng)絡(luò)輸入,并在HR圖像中裁切相對(duì)應(yīng)的塊。輸入圖像會(huì)從RGB轉(zhuǎn)換為YCbCr色彩空間,并提取出其中的亮度通道Y輸入網(wǎng)絡(luò)進(jìn)行處理。訓(xùn)練批次大小batch-size設(shè)置為32,利用旋轉(zhuǎn)等操作進(jìn)行數(shù)據(jù)擴(kuò)充,以此來提高網(wǎng)絡(luò)的泛化能力。訓(xùn)練時(shí)的梯度優(yōu)化算法采用自適應(yīng)矩估計(jì)Adam優(yōu)化器[15],很適合應(yīng)用于大規(guī)模的數(shù)據(jù)及參數(shù)的場景,初始學(xué)習(xí)率設(shè)置為1×10-3,并且每迭代5 000次,學(xué)習(xí)率都會(huì)乘10-1;訓(xùn)練總迭代次數(shù)為2×104次,更多的迭代次數(shù)無法為網(wǎng)絡(luò)帶來有效地提升。
測試網(wǎng)絡(luò)時(shí)使用的是視頻超分中常用測試數(shù)據(jù)集Vid4[8],其包含4組視頻(calendar,city,foliage和walk),每組視頻中又包含31幀圖像。數(shù)據(jù)評(píng)測指標(biāo)使用SR重建中常用的峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity index,SSIM)。PSNR用來計(jì)算原始圖像與重建圖像間的像素誤差(單位為dB),數(shù)值越大則表明重建圖像失真越小,效果越好;SSIM用來計(jì)算原始圖像與重建圖像的相似度程度,數(shù)值越大則表示重建圖像與原始圖像差距越小,重建效果越好。
本文實(shí)驗(yàn)所使用的深度學(xué)習(xí)框架為PyTorch;硬件環(huán)境為NVIDIA GTX 1650Ti,RAM 16 GB,Intel(R)Core(TM)i5-10200H。
為本文算法設(shè)計(jì)了2組對(duì)比實(shí)驗(yàn),第1組實(shí)驗(yàn)針對(duì)多尺度時(shí)域時(shí)空特征的有效性進(jìn)行驗(yàn)證,設(shè)計(jì)了2D卷積特征與多尺度時(shí)域時(shí)空特征重建效果的對(duì)比實(shí)驗(yàn);第2組針對(duì)算法的先進(jìn)性進(jìn)行驗(yàn)證,設(shè)計(jì)了與當(dāng)前先進(jìn)圖像SR重建算法重建效果的對(duì)比實(shí)驗(yàn)。
對(duì)本文算法的多尺度時(shí)域時(shí)空特征進(jìn)行有效性驗(yàn)證,設(shè)計(jì)了常規(guī)2D卷積特征重建網(wǎng)絡(luò)與多尺度時(shí)域時(shí)空特征重建網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn),見表1。
常規(guī)的2D卷積中卷積核大小設(shè)置為3×3,填充和步長均設(shè)置為1。多尺度3D卷積將不同尺度時(shí)域特征進(jìn)行結(jié)合,網(wǎng)絡(luò)分別對(duì)輸入序列幀進(jìn)行時(shí)間步長3和5的3D卷積,各個(gè)時(shí)域卷積的步長與填充見表1。
常規(guī)2D卷積特征與多尺度3D卷積特征重建的圖像在Vid4數(shù)據(jù)集上的評(píng)測結(jié)果見表2。主要就PSNR與SSIM進(jìn)行了對(duì)比分析。從表中可以看出,利用常規(guī)2D卷積特征重建的結(jié)果無論在PSNR還是SSIM上都沒有使用多尺度3D卷積特征好,使用多尺度3D卷積特征較常規(guī)2D卷積在PSNR上提升了0.49 dB。
表1 不同卷積方式網(wǎng)絡(luò)結(jié)構(gòu)
表2 不同卷積方式在Vid4上重建結(jié)果定量分析(PSNR/SSIM)
對(duì)本文算法與圖像SR重建領(lǐng)域中較為先進(jìn)的算法進(jìn)行評(píng)測對(duì)比,以驗(yàn)證本文算法的先進(jìn)性。上采樣因子分別為2,3和4倍,選取的對(duì)比算法包括一個(gè)傳統(tǒng)算法雙三次插值(Bicubic)以及5個(gè)深度學(xué)習(xí)算法:LapSRN[16],F(xiàn)SRCNN[4],ESPCN[3],EDSR[17]和SRGAN[5]。LapSRN利用金字塔結(jié)構(gòu)通過不同scale的殘差與重構(gòu)獲得重建結(jié)果,F(xiàn)SRCNN是對(duì)SRCNN的改進(jìn),ESPCN中的亞像素卷積處理在當(dāng)前的很多超分重建算法均有引用,EDSR是NTIRE2017[18]超分辨率挑戰(zhàn)賽的第一名,有很好的超分重建效果,SRGAN使用對(duì)抗生成網(wǎng)絡(luò)進(jìn)行HR的重建。
表3為本文算法與各對(duì)比算法在上采樣倍數(shù)為2,3和4倍時(shí)在Vid4數(shù)據(jù)集上的重建結(jié)果。從表中可以看出,無論是2倍還是3倍或4倍上采樣,本文算法的PSNR以及SSIM均高于其他算法。2倍上采樣較Bicubic算法PSNR值提升了2.82,SSIM提升了0.058,與重建效果較好的FSRCNN和EDSR算法相比在PSNR上也提升了1.97和1.28。當(dāng)選擇較高的上采樣倍數(shù)時(shí),一部分算法無法取得較好的重建效果。如ESPCN在3倍和4倍重建時(shí)的PSNR及SSIM均低于Bicubic算法,本文算法在3倍上采樣時(shí)較Bicubic算法PSNR值提升了1.46,較EDSR算法提升了0.81;在4倍上采樣時(shí)較Bicubic算法PSNR值提升了1.03,較EDSR算法提升了0.63,由此看出在較高上采樣倍數(shù)時(shí)本文算法依然有效。經(jīng)過本文算法與其他5種算法比較,說明本文算法在重建效果上有顯著提升,證明了其先進(jìn)性。
表4為在2倍上采樣時(shí)各算法模型的規(guī)模及在Vid4測試數(shù)據(jù)集上的運(yùn)行時(shí)間,其為測試集中各視頻(31幀圖像)的平均運(yùn)行時(shí)間。其中EDSR模型最大且運(yùn)行時(shí)間最長,ESPCN模型運(yùn)行時(shí)間最短,F(xiàn)SRCNN模型最小,本文模型大小及運(yùn)行時(shí)間適中,在重建圖像質(zhì)量上最好。
表3 不同算法在Vid4數(shù)據(jù)集上的定量分析(PSNR/SSIM)
注:黑體數(shù)據(jù)為最優(yōu)數(shù)據(jù)
表4 不同算法模型規(guī)模與運(yùn)行時(shí)間
圖4為2倍上采樣時(shí)各算法在Vid4數(shù)據(jù)集上的重建效果對(duì)比。在calendar與walk重建效果上,Bicubic,LapSRN,F(xiàn)SRCNN和ESPCN算法可以重建出真實(shí)圖像的大體輪廓,但整體重建效果模糊;EDSR算法雖清晰度有所提升,但依然存在一定的模糊;本文算法的重建結(jié)果無論是輪廓結(jié)構(gòu)還是清晰度均表現(xiàn)良好,與真實(shí)圖像的視覺效果十分接近。
圖5為4倍上采樣時(shí)各算法在Vid4數(shù)據(jù)集上的重建效果對(duì)比??梢钥闯鲚^高倍數(shù)的上采樣因子重建時(shí)Bicucic等算法重建結(jié)果模糊,細(xì)節(jié)信息有所丟失,本文算法較對(duì)比算法在視覺效果上擁有更多的細(xì)節(jié)信息,清晰度有了顯著提升。不過在4倍上采樣時(shí)對(duì)比真實(shí)圖像仍存在一定的失真,生成了較多的人工痕跡。在高上采樣因子重建上本文算法還有待提升,在最近的研究中注意力機(jī)制[19]以及改進(jìn)的GAN[20-21]對(duì)圖像的恢復(fù)均有幫助,后續(xù)將繼續(xù)研究失真原因并改進(jìn)。
圖4 上采樣2倍時(shí)各算法在Vid4上的重建結(jié)果對(duì)比
圖5 上采樣4倍時(shí)各算法在Vid4上的重建結(jié)果對(duì)比
本文提出了一種利用多尺度時(shí)域時(shí)空特征對(duì)視頻超分辨率重建的神經(jīng)網(wǎng)絡(luò),通過結(jié)合不同時(shí)間尺度下的時(shí)空特征能夠有效地提升視頻中重建圖像幀的質(zhì)量。通過與其他算法的對(duì)比實(shí)驗(yàn),本文算法在重建圖像的視覺效果上更佳,且在PSNR與SSIM等客觀評(píng)價(jià)指標(biāo)上也優(yōu)于對(duì)比算法。在較高上采樣因子重建時(shí)雖然優(yōu)于對(duì)比算法,但仍有失真現(xiàn)象,下一步將針對(duì)視頻高上采樣因子重建進(jìn)行研究,探索利用視幀間關(guān)系生成清晰度高的高倍重建圖像。
[1] DONG C, LOY C C, HE K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.
[2] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1646-1654.
[3] SHI W Z, CABALLERO J, HUSZáR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1874-1883.
[4] DONG C, LOY C C, TANG X O. Accelerating the super-resolution convolutional neural network[C]//2016 European Conference on Computer Vision. Heidelberg: Springer Press, 2016: 391-407.
[5] LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 105-114.
[6] KAPPELER A, YOO S, DAI Q Q, et al. Video super-resolution with convolutional neural networks[J]. IEEE Transactions on Computational Imaging, 2016, 2(2): 109-122.
[7] CABALLERO J, LEDIG C, AITKEN A, et al. Real-time video super-resolution with spatio-temporal networks and motion compensation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2848-2857.
[8] HARIS M, SHAKHNAROVICH G, UKITA N. Recurrent back-projection network for video super-resolution[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3892-3901.
[9] TIAN Y P, ZHANG Y L, FU Y, et al. TDAN: temporally-deformable alignment network for video super-resolution[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020: 3357-3366.
[10] LIU X H, KONG L S, ZHOU Y, et al. End-to-end trainable video super-resolution based on a new mechanism for implicit motion estimation and compensation[C]//2020 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2020: 2405-2414.
[11] WANG L G, GUO Y L, LIU L, et al. Deep video super-resolution using HR optical flow estimation[J]. IEEE Transactions on Image Processing, 2020, 29: 4323-4336.
[12] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// 2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 4489-4497.
[13] LI S, HE F X, DU B, et al. Fast spatio-temporal residual network for video super-resolution[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 10514-10523.
[14] YING X Y, WANG L G, WANG Y Q, et al. Deformable 3D convolution for video super-resolution[J]. IEEE Signal Processing Letters, 2020, 27: 1500-1504.
[15] KINGMA D P, BA J. Adam: a method for stochastic optimization [EB/OL]. (2017-01-30) [2021-06-23]. https:// arxiv.org/abs/1412.6980.
[16] AI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5835-5843.
[17] LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2017: 1132-1140.
[18] AGUSTSSON E, TIMOFTE R. NTIRE 2017 challenge on single image super-resolution: dataset and study[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2017: 1122-1131.
[19] 李彬, 王平, 趙思逸. 基于雙重注意力機(jī)制的圖像超分辨重建算法[J]. 圖學(xué)學(xué)報(bào), 2021, 42(2): 206-215.
LI B, WANG P, ZHAO S Y. Image super-resolution reconstruction based on dual attention mechanism[J]. Journal of Graphics, 2021, 42(2): 206-215 (in Chinese).
[20] LEI S, SHI Z W, ZOU Z X. Coupled adversarial training for remote sensing image super-resolution[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(5): 3633-3643.
[21] LEI S, SHI Z W. Hybrid-scale self-similarity exploitation for remote sensing image super-resolution [EB/OL]. [2021-04-12].https://ieeexplore.ieee.org/document/9400474.
Video super-resolution reconstruction based on multi-scale time domain 3D convolution
TANG Xiao-tian1,2, MA Jun2, LI Feng1, YANG Xue1, LIANG Liang3
(1. Qian Xuesen Space Technology Laboratory, Beijing 100086, China; 2. College of Software, Henan University, Kaifeng Henan 475004, China; 3. Department of Electronic Engineering, Tsinghua University, Beijing 100084, China)
Video super-resolution was a work of great practical value. In view of the lack of high-resolution resources in the ultra-high-definition industry, to efficiently utilize the rich temporal correlation information and spatial information between video sequence frames, a video super-resolution reconstruction algorithm based on multi-scale time-domain 3D convolution was proposed. The algorithm extracted the spatiotemporal features of the input low-resolution video sequence frames through the 3D convolution of different time scales. 3D convolution can simultaneously model space and time, which is more suitable for processing video tasks than 2D convolution. After the adaptive motion compensation of two spatio-temporal features extracted in different scales and time domains, the sub-pixel convolutional layer performed resolution enhancement, which was added to the up-sampled input frame to obtain the final reconstructed high-resolution image. The experimental results on the standard data set show that the algorithm can significantly boost visual effects and objective quality evaluation indicators such as peak signal-to-noise ratio and structural similarity, outperforming algorithms such as FSRCNN and EDSR.
video super-resolution; deep learning; 3D convolution; multi-scale time domain features; sub-pixel convolution
23 June,2021;
TP 391
10.11996/JG.j.2095-302X.2022010053
A
2095-302X(2022)01-0053-07
2021-06-23;
2021-08-06
6 August,2021
科技部重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020YFA0714100)
Key R&D Program of the Ministry of Science and Technology (2020YFA0714100)
唐曉天(1997–),男,碩士研究生。主要研究方向?yàn)橐曨l超分辨率重建。E-mail:631719950@qq.com
TANG Xiao-tian (1997–), master student. His main research interest covers video super-resolution reconstruction. E-mail:631719950@qq.com
李 峰(1975–),男,研究員,博士。主要研究方向?yàn)閳D像重建、壓縮感知等。E-mail:lifeng@qxslab.cn
LI Feng (1975–), researcher, Ph.D. His main research interests cover image reconstruction, compressed sensing, etc. E-mail:lifeng@qxslab.cn