詹克羽,孫 岳,李 穎
(西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點實驗室,陜西 西安 710071)
超分辨率重建的目的是由低分辨率(Low-Resolution,LR)圖像恢復(fù)出高分辨率(High-Resolution,HR)圖像,主要涉及單幅圖像超分辨率以及視頻圖像的超分辨率。隨著顯示技術(shù)的發(fā)展,超高分辨率的視頻顯示設(shè)備已經(jīng)十分常見,能夠帶來更好的視覺體驗,但原始的高分辨率視頻資源卻比較少。因此,如何由低分辨率的視頻得到高分辨率的視頻是一個十分重要且具有挑戰(zhàn)性的問題。
圖像超分辨率技術(shù)在20世紀(jì)60年代首次被提出[1]。隨著技術(shù)的不斷發(fā)展,超分辨率重建技術(shù)的研究已經(jīng)取得了巨大的進(jìn)展。目前,圖像超分辨率重建方法大致可以分為3類:基于插值的方法[2]、基于重建的方法[3]和基于學(xué)習(xí)的方法[4]。基于插值的超分辨率方法實現(xiàn)起來最為簡單、直接,利用的是圖像的局部平滑這一假設(shè)。但這類方法在細(xì)節(jié)紋理、幾何結(jié)構(gòu)等方面的效果較差。特別是放大比例較大時,重建圖像的邊緣處可能會出現(xiàn)模糊、過于平滑等現(xiàn)象,難以恢復(fù)出圖像中的高頻信息,導(dǎo)致視覺效果較差?;谥亟ǖ某直媛史椒ㄊ墙Y(jié)合圖像中的先驗知識對圖像的退化過程進(jìn)行建模,如低秩先驗、非局部自相似先驗等等。利用這些先驗信息進(jìn)行約束,對模型優(yōu)化求解得到高分辨率圖像?;谥亟ǖ某直媛史椒ㄔ谝欢ǔ潭壬蠝p少了模糊的情況,能夠得到局部細(xì)節(jié)信息更加豐富的高分辨率圖像,且對于復(fù)雜運動、未知噪聲、未知模糊核等具有一定的魯棒性。但對于較大的放大倍數(shù),往往很難恢復(fù)出圖像中的細(xì)節(jié)信息,且對于大規(guī)模的數(shù)據(jù),基于重建的方法通常會消耗較多時間,算法復(fù)雜度較高。基于學(xué)習(xí)的超分辨率方法在一定量的數(shù)據(jù)集上通過模型學(xué)習(xí)低分辨率圖像與高分辨率圖像間的對應(yīng)關(guān)系來完成重建。稀疏表示、隨機(jī)森林、支持向量回歸等機(jī)器學(xué)習(xí)方法都可被用來學(xué)習(xí)高-低分辨率圖像的映射關(guān)系。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,其在自然語言處理、圖像處理等多種應(yīng)用中都取得了很好的效果,基于深度學(xué)習(xí)的超分辨率方法也受到了廣泛的關(guān)注和研究[5-9]。受稀疏表示和深度學(xué)習(xí)方法啟發(fā),文獻(xiàn)[5]在圖像超分辨率任務(wù)中,提出一個三層卷積的超分辨率網(wǎng)絡(luò)SRCNN,在重建效果和效率上都要優(yōu)于傳統(tǒng)方法。文獻(xiàn)[6]設(shè)計了包含20層卷積層的超分辨率模型,并在其中引入了殘差連接,通過加深網(wǎng)絡(luò)的深度,來提取更為豐富的特征,以此實現(xiàn)更加準(zhǔn)確的超分辨率結(jié)果。文獻(xiàn)[7]采用低分辨率圖像作為輸入,并使用亞像素卷積層對上采樣方式進(jìn)行了改進(jìn),將特征圖的像素重新排列來得到放大后的圖像,有效地減少了網(wǎng)絡(luò)的參數(shù)量。
視頻作為連續(xù)的圖像序列,可以對其每一幀圖像進(jìn)行超分辨率重建來完成整個視頻的超分辨率重建。但這種方式?jīng)]有對視頻幀間的信息加以利用,其效果并不理想。目前,大多數(shù)深度學(xué)習(xí)網(wǎng)絡(luò)模型都是基于光流對視頻圖像間的運動進(jìn)行補(bǔ)償[10-13],重建高分辨率視頻圖像。文獻(xiàn)[10]在SRCNN結(jié)構(gòu)的基礎(chǔ)上進(jìn)行了改進(jìn),提出了視頻超分辨率網(wǎng)絡(luò)VSRnet,使用經(jīng)過放大和運動補(bǔ)償?shù)倪B續(xù)視頻幀作為輸入,輸出中間幀的高分辨率重建結(jié)果。文獻(xiàn)[11]提出視頻高效亞像素卷積網(wǎng)絡(luò)VESPCN,利用可訓(xùn)練的空間變換網(wǎng)絡(luò)來實現(xiàn)運動補(bǔ)償,然后進(jìn)行高分辨率視頻幀的重建。該模型在一個網(wǎng)絡(luò)中實現(xiàn)了運動補(bǔ)償和高分辨率重建,是第一個端到端的視頻超分辨率網(wǎng)絡(luò)。文獻(xiàn)[12]提出了基于高分辨率光流的視頻超分辨率網(wǎng)絡(luò)SOF-VSR,首先通過一個光流重建網(wǎng)絡(luò)來推斷高分辨率光流,然后利用其進(jìn)行運動補(bǔ)償,最后實現(xiàn)高分辨率重建。該網(wǎng)絡(luò)中生成的高分辨率光流更為準(zhǔn)確,能實現(xiàn)更好的運動補(bǔ)償效果。盡管這些方法都能實現(xiàn)較好的重建效果,但均依賴于運動估計和運動補(bǔ)償?shù)臏?zhǔn)確性。文獻(xiàn)[14]提出了基于三維卷積的視頻超分辨率網(wǎng)絡(luò)3DSRnet,使用三維卷積來學(xué)習(xí)視頻圖像的時間-空間特征。該方法實現(xiàn)了較好的重建效果,但其網(wǎng)絡(luò)結(jié)構(gòu)簡單,不能充分地利用視頻的時間-空間特征。
筆者提出了一種基于多尺度三維卷積的視頻超分辨率網(wǎng)絡(luò)模型。該模型使用多尺度的三維卷積來提取視頻圖像的多種特征,有助于實現(xiàn)更好的重建效果。利用三維卷積殘差結(jié)構(gòu)進(jìn)行時間-空間特征的融合,可有效利用多尺度的時間-空間特征信息,重構(gòu)出更豐富的視頻圖像細(xì)節(jié)。同時,為減少網(wǎng)絡(luò)計算量,在殘差結(jié)構(gòu)中引入通道分離,有效減少網(wǎng)絡(luò)參數(shù)量。實驗結(jié)果表明,與其他視頻超分辨率網(wǎng)絡(luò)相比,筆者提出的網(wǎng)絡(luò)模型具有更好的重建性能,在進(jìn)行4倍超分辨率放大時,峰值信噪比(Peak Signal to Noise Ratio,PSNR)可平均提高1.40 dB,結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)可平均提高0.077,視覺效果更加清晰。
圖1 視頻超分辨率網(wǎng)絡(luò)模型結(jié)構(gòu)圖
(1)
其中,N表示該網(wǎng)絡(luò)模型,Θ表示網(wǎng)絡(luò)的參數(shù)。
多尺度特征提取模塊(Multi scale 3D conv)的作用是對輸入的視頻進(jìn)行初步的特征提取。該模塊的具體結(jié)構(gòu)如圖2所示。固定大小的卷積核只能提取到一種尺度的特征,而不同大小的卷積核具有不同的感受野,可以提取視頻圖像中多種尺度的特征信息。因此,該模塊使用多個卷積核大小不同的三維卷積來進(jìn)行多尺度的特征提取,可以提取到更加豐富的特征信息。充分利用這些特征信息,有助于取得更好的重建效果。
圖2 多尺度特征提取模塊結(jié)構(gòu)圖
在多尺度特征提取模塊中,使用2個卷積核大小分別為3和5的三維卷積提取2種尺度的特征。為融合2種不同尺度的特征并減少網(wǎng)絡(luò)的參數(shù),將各卷積層的輸出連接在一起,然后輸入到一個卷積核大小為1的卷積層。該過程可以表示為
F=H1([H3(X),H5(X)]) ,
(2)
其中,H表示卷積操作,下標(biāo)表示卷積核大小,X表示輸入數(shù)據(jù),F(xiàn)表示輸出特征圖,[·]表示連接操作。
特征融合模塊的作用是對上一特征提取模塊提取到的特征進(jìn)行進(jìn)一步的時間-空間特征融合。該模塊中,結(jié)合殘差結(jié)構(gòu)和三維卷積,使用三維卷積殘差塊(3D residual block)進(jìn)行特征融合,其具體結(jié)構(gòu)如圖3所示。該三維殘差塊結(jié)構(gòu)包含3層卷積,前2層使用大小為3的卷積核。
圖3 三維卷積殘差塊結(jié)構(gòu)圖
為了減少網(wǎng)絡(luò)參數(shù)量,將第1個卷積層的輸出特征分成兩部分F1和F2,第2個卷積層僅對F2進(jìn)行處理,并將其輸出特征F3與F1連接,再使用一個大小為1的卷積進(jìn)行特征融合。該過程可以表示為
(3)
其中,F(xiàn)in表示殘差塊的輸入特征,s表示通道分離操作,F(xiàn)表示輸出特征圖。
該模塊通過三維殘差塊同時進(jìn)行了時間-空間特征的融合,從而有效地對視頻幀之間的運動進(jìn)行補(bǔ)償,得到更加精確的重建結(jié)果。同時,上述連接后的特征圖包括了2種不同級別的特征,不僅可以進(jìn)一步有效利用多尺度的時間-空間信息,還可以有效減少網(wǎng)絡(luò)參數(shù)量,降低網(wǎng)絡(luò)復(fù)雜度。
特征融合模塊使用5個三維殘差結(jié)構(gòu)進(jìn)行時間-空間特征融合。為銜接特征融合與后續(xù)模塊,將特征融合模塊中最后一個卷積層的輸出特征圖進(jìn)行堆疊(Bottleneck),將尺寸為C×D×W×H的特征圖變成CD×W×H的特征圖,同時使用大小為1的卷積對堆疊后的特征圖進(jìn)行融合。其中,C、D、W和H分別為通道數(shù)、深度、寬度和高度。
該模塊將融合后的特征作為輸入進(jìn)行高分辨率圖像重建,由殘差密集連接塊[15](Residual Dense Block,RDB)構(gòu)成,即圖1中的RDB,其具體結(jié)構(gòu)如圖4所示。該結(jié)構(gòu)所有卷積層之間都有連接,即每一層的輸入都包含其之前所有層的輸出特征,可以復(fù)用大量的特征。通過增強(qiáng)信息流、學(xué)習(xí)殘差特征,可以更充分地學(xué)習(xí)局部層次特征。
圖4 殘差密集連接塊結(jié)構(gòu)圖
每個殘差密集連接塊使用5個卷積層,前4層使用大小為3的卷積核,最后一層使用大小為1的卷積核來進(jìn)行特征融合。為了盡可能多地利用不同的特征信息,該模塊共使用了5個殘差密集連接塊,將所有的輸出連接在一起,進(jìn)行特征融合。特征融合后的輸出是一個和輸入視頻幀大小相同,但深度為放大倍數(shù)的平方的特征圖。
為減少網(wǎng)絡(luò)的計算量,整個網(wǎng)絡(luò)都是在低分辨率圖像尺寸上進(jìn)行處理的。因此,在網(wǎng)絡(luò)末端需使用亞像素卷積層進(jìn)行放大以得到高分辨率圖像幀重建結(jié)果。設(shè)放大的倍數(shù)為s,則亞像素卷積可以將大小為s2C×W×H的輸入轉(zhuǎn)換成大小為C×sW×sH的高分辨率圖像輸出。對于不同的放大倍數(shù)s,只需要修改前一個卷積層的輸出通道數(shù)即可,不需要修改網(wǎng)絡(luò)的其他部分。由于輸入圖像和輸出圖像具有一定的相似性,在模型中使用了全局殘差連接,對輸入視頻的中間幀進(jìn)行雙線性插值放大,然后與亞像素卷積層的輸出相加,作為網(wǎng)絡(luò)的最終輸出。
網(wǎng)絡(luò)模型選取均方誤差函數(shù)(Mean Square Error,MSE)作為損失函數(shù),其衡量的是重建圖像與真實圖像各像素之間的差異,可以表示為
(4)
其中,IGT為高分辨率圖像的真實值,IHR為網(wǎng)絡(luò)輸出的高分辨率重建圖像。
使用Vimeo-90K數(shù)據(jù)集[16]作為訓(xùn)練集,其含有64 612個視頻序列,每個視頻序列包含7幀連續(xù)的視頻幀,分辨率大小均為448×256。使用Vid4數(shù)據(jù)集[17]作為測試集,其包含4個不同的場景,每種場景使用31幀圖像用于測試。將訓(xùn)練集中的原始數(shù)據(jù)作為高分辨率視頻序列,使用Bicubic插值對原始圖像進(jìn)行下采樣,獲得對應(yīng)的低分辨率視頻序列。在產(chǎn)生的低分辨率視頻序列中,隨機(jī)選取大小為32×32的視頻序列塊作為網(wǎng)絡(luò)訓(xùn)練時的輸入,原始的視頻序列也被相應(yīng)的剪裁作為與之對應(yīng)的真實數(shù)據(jù)。
采用文獻(xiàn)[12]的處理方式,將視頻圖像轉(zhuǎn)換到Y(jié)CbCr顏色空間,將Y通道輸入模型進(jìn)行處理。對于Cb和Cr通道,使用Bicubic插值的方式對其進(jìn)行上采樣。最后將YCbCr顏色空間轉(zhuǎn)換回RGB顏色空間,得到最終的重建圖像。
筆者使用PyTorch框架實現(xiàn)了網(wǎng)絡(luò)模型的搭建,選擇Adam優(yōu)化方法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,參數(shù)設(shè)置為β1=0.9,β2=0.999,批量大小設(shè)置為32。初始的學(xué)習(xí)率設(shè)置為10-4,每20個訓(xùn)練階段下降一半,共訓(xùn)練60個階段。
在對比實驗中,使用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為性能評價指標(biāo)。
首先進(jìn)行了消融研究,對特征融合模塊的作用進(jìn)行了驗證。分別使用普通的三維殘差塊和筆者提出的三維殘差塊對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,表示為模型1和模型2,并在測試集上測試。表1中給出了2種模型在測試集上進(jìn)行4倍超分辨率重建時的峰值信噪比(dB)、結(jié)構(gòu)相似性以及網(wǎng)絡(luò)的參數(shù)量??梢钥闯觯c普通的三維殘差塊相比,筆者所提網(wǎng)絡(luò)模型中引入通道分離的三維殘差塊不僅重建效果略有提高,還有效地減少了網(wǎng)絡(luò)的參數(shù)數(shù)量。
表1 2種模型4倍超分辨率重建的性能評價指標(biāo)
為驗證模型有效性,將所提模型與Bicubic[2]、VSRnet[10]、VESPCN[11]、SOF-VSR[12]和3DSRnet[14]5種方法進(jìn)行對比。不同方法在Vid4測試集上的評價指標(biāo)數(shù)值如表2所示??梢钥闯?,筆者提出的模型與其他方法相比,在評價指標(biāo)數(shù)值上均有一定提升,證明了該方法的有效性。進(jìn)行3倍超分辨率放大時,與效果較好的3DSRnet和SOF-VSR方法相比,筆者所提方法在平均峰值信噪比上分別提高了0.93 dB和0.49 dB,在平均結(jié)構(gòu)相似性上分別提高了0.026 3和0.014 7;進(jìn)行4倍超分辨率放大時,平均峰值信噪比分別提高了0.83 dB和0.49 dB,平均結(jié)構(gòu)相似性分別提高了0.036 6和0.022 1。表2同時給出了各方法的參數(shù)量,筆者所提方法的參數(shù)量僅略高于SOF-VSR方法,但可獲得更好的重建性能。
表2 Vid4測試集上不同視頻超分辨率模型性能評價指標(biāo)(峰值信噪比/結(jié)構(gòu)相似性)
圖5展示了不同方法在Vid4測試集上進(jìn)行4倍超分辨率放大后某一幀的重建結(jié)果。
圖5 不同方法在Vid4測試集上4倍超分辨率重建的結(jié)果圖
以Calendar視頻為例,直接由Bicubic插值得到的重建圖像十分模糊,幾乎無法辨認(rèn)圖中的字母。VSRnet和VESPCN方法的重建結(jié)果能勉強(qiáng)看到字母的邊緣,但仍然比較模糊。SOF-VSR和3DSRnet的超分辨率重建結(jié)果表現(xiàn)較好,可以看到圖中具體的英文字母。這是因為SOF-VSR方法對HR光流進(jìn)行了估計,可以實現(xiàn)更精確的運動補(bǔ)償,從而恢復(fù)出更多的細(xì)節(jié)信息。3DSRnet雖然網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,但其利用三維卷積同時進(jìn)行了時間-空間的特征提取和融合,也取得了較好的結(jié)果。相比之下,筆者所提模型的重建結(jié)果更加清晰,細(xì)節(jié)也更加豐富,視覺效果更好。從其他數(shù)據(jù)的結(jié)果圖中也可以看到相似的結(jié)果,因此,筆者提出的方法能夠獲得更好的視覺效果。
圖6針對Calendar視頻數(shù)據(jù),展示了不同方法重建結(jié)果的時間連續(xù)性。采用文獻(xiàn)[11]中的方法,從視頻的每一幀中的一個固定位置取一行像素點,并將所有獲得的像素行依次縱向拼接在一起,得到一幅固定位置隨時間變化的圖像。圖像中的內(nèi)容越清晰,代表視頻的連續(xù)性越好,視覺效果也就更好。從圖中可以看出,筆者提出的模型的結(jié)果更清晰,再次驗證了該模型的有效性。
圖6 不同方法在Calendar數(shù)據(jù)上4倍超分辨率重建的時間輪廓圖
筆者提出一種基于三維卷積的視頻超分辨率重建方法。該方法利用多尺度三維卷積進(jìn)行時間-空間特征的提取,并在三維殘差塊中結(jié)合通道分離來進(jìn)行多特征融合。實驗結(jié)果表明,與其他視頻超分辨率方法相比,筆者所提方法可充分利用視頻序列的時間-空間信息,獲得更好的重建性能,細(xì)節(jié)信息更加豐富,時間連續(xù)性較好,具有更好的視覺效果。