• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的兩階段多假設(shè)視頻壓縮感知重構(gòu)算法

    2021-07-12 01:38:42楊春玲凌茜
    關(guān)鍵詞:關(guān)鍵幀殘差重構(gòu)

    楊春玲 凌茜

    (華南理工大學(xué) 電子與信息學(xué)院,廣東 廣州 510640)

    壓縮感知重構(gòu)算法旨在接收端利用觀測值恢復(fù)出原始信號,是壓縮感知研究任務(wù)的核心。圖像壓縮感知重構(gòu)算法利用圖像信號的空間相關(guān)性獲得高質(zhì)量的重構(gòu)圖像,而視頻壓縮感知重構(gòu)(Compressed Video Sensing,CVS)則在其基礎(chǔ)上通過挖掘視頻信號特有的時間相關(guān)性來提升重構(gòu)質(zhì)量。傳統(tǒng)基于分塊的CVS重構(gòu)算法通常結(jié)合運(yùn)動估計(jì)與運(yùn)動補(bǔ)償算法(Motion Estimation/ Motion Compensation,ME/MC)實(shí)現(xiàn)時間相關(guān)性的有效利用。文獻(xiàn)[1- 2]提出“預(yù)測-殘差重構(gòu)”的視頻重構(gòu)框架,首先采用多假設(shè)預(yù)測算法(Multi Hypothesis,MH)在相鄰幀中搜索相似塊組成假設(shè)集,而后利用Tikhonov正則項(xiàng)求出各假設(shè)塊的預(yù)測權(quán)重,從而得到重構(gòu)幀的預(yù)測信息,最后針對預(yù)測殘差更稀疏的特性,采用基于分塊的平滑投影迭代重構(gòu)算法(Block Compressed Sensing based Smoothed Projected Landweber,BCS-SPL)[3]進(jìn)行殘差重構(gòu)提升重構(gòu)質(zhì)量;該框架結(jié)構(gòu)簡單、重構(gòu)性能好,是CVS領(lǐng)域經(jīng)典的重構(gòu)框架,基于此,多種改進(jìn)算法被提出。為了優(yōu)化假設(shè)集的構(gòu)成,文獻(xiàn)[4]在多個候選參考幀中選擇最優(yōu)參考幀進(jìn)行多假設(shè)預(yù)測;文獻(xiàn)[5]同時利用多個參考幀對當(dāng)前幀進(jìn)行多假設(shè)預(yù)測;文獻(xiàn)[6]提出基于多參考幀的二階段多假設(shè)重構(gòu)算法(Two-Stage Multi-Hypothesis Reconstruction,2sMHR),在觀測域多假設(shè)重構(gòu)的基礎(chǔ)上引入第二階段圖像域重疊分塊多假設(shè),有效地減輕了塊效應(yīng)。為了提高假設(shè)塊權(quán)值的求解精度,文獻(xiàn)[7]引入彈性網(wǎng)模型,將l1范數(shù)與l2范數(shù)作為權(quán)值求解的正則約束項(xiàng);文獻(xiàn)[8]則在此基礎(chǔ)上對l2范數(shù)正則化項(xiàng)進(jìn)行權(quán)值調(diào)整。為了適應(yīng)更稀疏的殘差信號的重構(gòu)需求,文獻(xiàn)[9]利用MH[2]算法進(jìn)行殘差重構(gòu),減少了BCS-SPL帶來的重構(gòu)噪聲。結(jié)合ME/MC的多假設(shè)CVS重構(gòu)算法能很好地挖掘幀間相關(guān)性,獲得了較好的重構(gòu)質(zhì)量。然而基于固定分塊的運(yùn)動估計(jì)將導(dǎo)致塊內(nèi)各像素的運(yùn)動向量喪失差異性,從而產(chǎn)生不必要的偽影與錯誤重構(gòu),不適應(yīng)運(yùn)動較為復(fù)雜的序列。另外,此類算法由于繁瑣的搜索與迭代計(jì)算,復(fù)雜度往往較高,嚴(yán)重限制了傳統(tǒng)CVS算法的應(yīng)用。

    近年來,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Netwrok,DNN)在圖像壓縮感知重構(gòu)領(lǐng)域取得了一系列的突破。文獻(xiàn)[10]首次利用深度神經(jīng)網(wǎng)絡(luò)的方法,構(gòu)建了由全連接層與卷積層組成的重構(gòu)網(wǎng)絡(luò)實(shí)現(xiàn)圖像分塊壓縮感知重構(gòu),在提高重構(gòu)質(zhì)量的同時重構(gòu)時間有數(shù)量級降低。在此基礎(chǔ)上,文獻(xiàn)[11]提出了基于深度學(xué)習(xí)的圖像壓縮感知算法(Deep Networks for Compressed Image Sensing,CSNet),設(shè)置了可學(xué)習(xí)的卷積采樣網(wǎng)絡(luò)以保留更多有效信息,并在重構(gòu)端采用卷積全圖重構(gòu),有效地減輕了塊效應(yīng)。文獻(xiàn)[12]結(jié)合傳統(tǒng)迭代閾值收縮算法(Iterative Shrinkage Thresholding Algorithm,ISTA)[13]與深度學(xué)習(xí)技術(shù),提出了ISTA-Net+算法,具有一定理論可解釋性的同時實(shí)現(xiàn)圖像高質(zhì)量快速重構(gòu)。以上算法體現(xiàn)了深度學(xué)習(xí)在圖像壓縮感知與重構(gòu)中的優(yōu)越性,也為視頻壓縮感知與重構(gòu)算法的發(fā)展提供了思路。文獻(xiàn)[14]首次提出一個端到端視頻壓縮感知重構(gòu)算法(A Learning Framework for Video Compressive Sensing,CSVideoNet),該算法在利用多層卷積層進(jìn)行簡單的單幀圖像初始重構(gòu)后,通過一個合成運(yùn)動估計(jì)的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)將關(guān)鍵幀豐富的細(xì)節(jié)信息傳遞至非關(guān)鍵幀,實(shí)現(xiàn)了時間信息流動,然而LSTM很難建模像素空間相關(guān)性,且訓(xùn)練難度大,影響了重構(gòu)性能。文獻(xiàn)[15]在CSNet[11]重構(gòu)的基礎(chǔ)上,引入多級特征補(bǔ)償卷積網(wǎng)絡(luò),利用關(guān)鍵幀的多級特征補(bǔ)償非關(guān)鍵幀,然而基于卷積的神經(jīng)網(wǎng)絡(luò)難以挖掘視頻信號的準(zhǔn)確運(yùn)動信息,對于運(yùn)動較快且復(fù)雜的運(yùn)動序列,重構(gòu)性能不佳。

    為了解決上述問題,本研究提出一個基于深度學(xué)習(xí)的兩階段多假設(shè)視頻壓縮感知重構(gòu)網(wǎng)絡(luò)(Two-stage Multi-hypothesis Network for Compressed Video Sensing,2sMHNet),包括幀內(nèi)圖像壓縮感知重構(gòu)網(wǎng)絡(luò)與幀間運(yùn)動增強(qiáng)網(wǎng)絡(luò)兩部分。CSNet[11]由于結(jié)構(gòu)簡單且性能優(yōu)良,是理想的幀內(nèi)圖像重構(gòu)網(wǎng)絡(luò),但該網(wǎng)絡(luò)單純前饋式的重構(gòu)方式容易導(dǎo)致重構(gòu)誤差逐級傳播放大,基于此,本研究提出殘差重構(gòu)模塊,利用觀測值的反饋進(jìn)行監(jiān)督校正,提升重構(gòu)質(zhì)量。對于幀間運(yùn)動增強(qiáng)重構(gòu)網(wǎng)絡(luò),傳統(tǒng)多假設(shè)重構(gòu)算法雖然能高效地挖掘視頻時間相關(guān)性,但存在復(fù)雜度過高、塊效應(yīng)嚴(yán)重、預(yù)測精度受限等不足,因此本研究提出基于深度學(xué)習(xí)的多假設(shè)預(yù)測網(wǎng)絡(luò)以及殘差重構(gòu)網(wǎng)絡(luò)。前者通過時域可變形卷積對齊網(wǎng)絡(luò)實(shí)現(xiàn)基于深度學(xué)習(xí)的多假設(shè)預(yù)測,其自適應(yīng)參數(shù)學(xué)習(xí)以及像素卷積的實(shí)現(xiàn)方式提高了預(yù)測質(zhì)量,后者專項(xiàng)訓(xùn)練的殘差重構(gòu)網(wǎng)絡(luò)更適應(yīng)殘差更稀疏的特性。為了盡可能利用圖像組已得到的視頻幀信息提升重構(gòu)質(zhì)量,本研究提出串行式兩階段多假設(shè)增強(qiáng)重構(gòu)模式,針對信號特性在不同階段選擇不同的參考幀進(jìn)行運(yùn)動補(bǔ)償,更適應(yīng)于運(yùn)動快且復(fù)雜的序列。

    筆者針對該類研究的基本思想和初步實(shí)現(xiàn)——基于對齊預(yù)測與殘差重構(gòu)的視頻壓縮感知重構(gòu)算法(Compressed Video Sensing Network Based on Alignment Prediction and Residual Reconstruction,PRCVSNet)[16]已公開報道,文中的2sMHNet是對文獻(xiàn)[16]的改進(jìn)與擴(kuò)展,其改進(jìn)包括以下幾個方面:首先,優(yōu)化了運(yùn)動增強(qiáng)重構(gòu)網(wǎng)絡(luò),提出了兩階段的預(yù)測殘差增強(qiáng)重構(gòu)網(wǎng)絡(luò),提高了運(yùn)動估計(jì)與補(bǔ)償?shù)臏?zhǔn)確性與效率;第二,優(yōu)化了參考幀選擇機(jī)制,在第二階段選擇相關(guān)性較高的相鄰幀作為參考幀,適應(yīng)運(yùn)動較快的序列;第三,簡化了網(wǎng)絡(luò)結(jié)構(gòu),提高實(shí)現(xiàn)效率;第四,文中提供了更多的實(shí)驗(yàn)結(jié)果和更全面對比分析。

    1 圖像與視頻壓縮感知重構(gòu)

    1.1 圖像壓縮感知重構(gòu)

    受限于壓縮端算法復(fù)雜度,壓縮感知通常利用觀測矩陣Φ來實(shí)現(xiàn)隨機(jī)采樣:

    y=Φx

    (1)

    (2)

    傳統(tǒng)圖像壓縮感知重構(gòu)算法[2- 3,13]一般通過構(gòu)造正則項(xiàng),求解優(yōu)化問題得到重構(gòu)圖像,然而此類算法由于復(fù)雜的迭代過程導(dǎo)致重構(gòu)時延較長。近年來神經(jīng)網(wǎng)絡(luò)監(jiān)督式學(xué)習(xí)優(yōu)化的思想為圖像壓縮感知與重構(gòu)提供了新思路,其中CSNet[11]構(gòu)建了端到端可學(xué)習(xí)的圖像壓縮感知采樣與重構(gòu)網(wǎng)絡(luò),取得了優(yōu)良的性能。在采樣端,CSNet利用N個核大小為B×B×1(M=B2)的可學(xué)習(xí)卷積核模擬分塊采樣矩陣Φ,使其更偏向于保留低頻結(jié)構(gòu)信息。在重構(gòu)端,CSNet采用全圖重構(gòu)的模式,利用一個1×1的卷積層實(shí)現(xiàn)線性初始重構(gòu),n個3×3的卷積層進(jìn)行后續(xù)深度重構(gòu),有效挖掘了圖像的空間相關(guān)性。然而該重構(gòu)網(wǎng)絡(luò)僅在第一個卷積層中利用觀測值,未能充分利用觀測值中包含的豐富的準(zhǔn)確信息。因此本研究提出殘差重構(gòu)模塊,在后續(xù)重構(gòu)中利用觀測值對重構(gòu)信號進(jìn)行校正,提升重構(gòu)精度。

    1.2 視頻壓縮感知重構(gòu)與運(yùn)動估計(jì)補(bǔ)償

    視頻壓縮感知一般采用多采樣率采樣策略對視頻幀進(jìn)行獨(dú)立采樣,該策略將視頻序列劃分為多個由一個關(guān)鍵幀與T-1個非關(guān)鍵幀組成的圖像組(Group of Picture,GOP),GOP中第一幀被指定為關(guān)鍵幀以較高采樣率rk進(jìn)行采樣以保留更多細(xì)節(jié)信息,而其余的非關(guān)鍵幀則以極低的采樣率rnk進(jìn)行單幀獨(dú)立采樣以降低平均采樣率,其平均采樣率表示為

    (3)

    由于視頻是圖像信號的集合,利用圖像重構(gòu)算法進(jìn)行獨(dú)立重構(gòu)是最簡單的方式,然而該方式忽視了視頻信號中豐富的時間相關(guān)性,重構(gòu)質(zhì)量很差。現(xiàn)有的基于深度學(xué)習(xí)的重構(gòu)網(wǎng)絡(luò)[16- 17]多采用隱式的運(yùn)動補(bǔ)償方式,無法針對性地挖掘運(yùn)動信息,重構(gòu)效果有限。近年來很多優(yōu)秀的基于深度學(xué)習(xí)的顯式運(yùn)動估計(jì)與運(yùn)動補(bǔ)償算法被提出。其中,基于神經(jīng)網(wǎng)絡(luò)的光流法[18- 19]利用像素在時域上的變化以及像素相關(guān)性估計(jì)兩幀之間各像素的運(yùn)動矢量,是常用的運(yùn)動估計(jì)算法之一;然而,此類算法存在像素?zé)o法完全對應(yīng)、估計(jì)誤差逐級傳遞等問題,不適用于初始重構(gòu)質(zhì)量較差、參考幀與待重構(gòu)幀非近鄰的CVS重構(gòu)問題,再者由于CVS數(shù)據(jù)集缺少光流標(biāo)簽,嚴(yán)重影響了估計(jì)的準(zhǔn)確性。時域可變形卷積對齊網(wǎng)絡(luò)[20- 21](Temporally Deformable Alignment Network,TDAN)則采用隱式的運(yùn)動估計(jì),減少了估計(jì)錯誤帶來的誤差;該算法利用多層級聯(lián)的可變形卷積在高階特征域利用卷積偏移實(shí)現(xiàn)了參考幀到當(dāng)前幀的卷積對齊[22],取得了優(yōu)良的補(bǔ)償效果。利用可變形卷積實(shí)現(xiàn)的運(yùn)動補(bǔ)償無需運(yùn)動估計(jì)監(jiān)督,在初始重構(gòu)質(zhì)量較差,且兩幀運(yùn)動較大時仍能取得良好的運(yùn)動補(bǔ)償效果,更適合壓縮感知與重構(gòu)問題。

    2 串聯(lián)式兩階段多假設(shè)重構(gòu)網(wǎng)絡(luò)

    基于傳統(tǒng)多假設(shè)CVS重構(gòu)算法可以有效地挖掘視頻時間相關(guān)性,而深度學(xué)習(xí)卷積網(wǎng)絡(luò)的重構(gòu)方式則可以在大大縮短重構(gòu)時間的同時通過大數(shù)據(jù)學(xué)習(xí)優(yōu)化重構(gòu)參數(shù)提升重構(gòu)性能,因此本研究結(jié)合其優(yōu)勢,提出了基于深度學(xué)習(xí)的兩階段多假設(shè)CVS重構(gòu)算法2sMHNet,其壓縮與重構(gòu)實(shí)現(xiàn)的整體框架如圖1所示。在采樣端,關(guān)鍵幀與非關(guān)鍵幀分別通過其對應(yīng)的采樣矩陣實(shí)現(xiàn)獨(dú)立采樣,即輸入原始信號x0,得到觀測值y0=Φx0。由于可學(xué)習(xí)采樣矩陣優(yōu)越的性能,文中采用rB2個核大小為B×B×1的卷積濾波器模擬采樣矩陣,且在具體實(shí)現(xiàn)中,設(shè)置分塊大小B為16以提高復(fù)用效率。在重構(gòu)端,本研究設(shè)置了幀內(nèi)圖像壓縮感知重構(gòu)網(wǎng)絡(luò)和幀間運(yùn)動增強(qiáng)重構(gòu)網(wǎng)絡(luò),分別挖掘幀內(nèi)空間相關(guān)性與幀間時間相關(guān)性。幀內(nèi)圖像重構(gòu)網(wǎng)絡(luò)在CSNet的基礎(chǔ)上增加了一個新的殘差重構(gòu)模塊,利用原始觀測值補(bǔ)償重構(gòu)過程中損失的細(xì)節(jié)信息。幀間運(yùn)動增強(qiáng)網(wǎng)絡(luò)(Enhanced Reconstruction Network,ERecNet)引入時域可變形卷積對齊網(wǎng)絡(luò)與殘差重構(gòu)模塊實(shí)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的兩階段的串聯(lián)式多假設(shè)重構(gòu),充分挖掘圖像組中不同視頻幀的時間相關(guān)性。下文將詳細(xì)描述所提重構(gòu)網(wǎng)絡(luò)的具體實(shí)現(xiàn)。

    圖1 2sMHNet的算法框架

    2.1 基于殘差重構(gòu)的幀內(nèi)圖像壓縮感知重構(gòu)網(wǎng)絡(luò)

    在CVS重構(gòu)中,幀內(nèi)圖像壓縮感知重構(gòu)方法至關(guān)重要,關(guān)鍵幀利用它得到重構(gòu)結(jié)果,非關(guān)鍵幀依賴它獲得初始重構(gòu)。不同于以往的圖像壓縮感知重構(gòu)網(wǎng)絡(luò)通過單純前饋的方式學(xué)習(xí)測量值到重構(gòu)圖像的非線性映射,本研究基于殘差重構(gòu)思路,提出一個新的圖像壓縮感知重構(gòu)算法ResRecNet,利用觀測值的殘差反饋來提升重構(gòu)精度。

    在圖像壓縮感知重構(gòu)問題中,從觀測值恢復(fù)重構(gòu)原圖像的問題相當(dāng)于采樣矩陣求逆問題,即:

    x0=Φ-1y0

    (4)

    然而該問題是病態(tài)問題,因此壓縮感知重構(gòu)算法旨在得到Φ-1的最優(yōu)近似-1,其重構(gòu)過程如下:

    x1=-1y0≈x0

    (5)

    由于卷積網(wǎng)絡(luò)的強(qiáng)擬合能力,ResRecNet采用圖2虛線框區(qū)域所示重構(gòu)網(wǎng)絡(luò)來獲得初始粗重構(gòu)圖像x1,該重構(gòu)模塊與上文1.1節(jié)所描述的CSNet[11]重構(gòu)網(wǎng)絡(luò)一致并設(shè)置深度重構(gòu)網(wǎng)絡(luò)層數(shù)n=4。然而,此重構(gòu)過程中仍然存在著信息丟失,表示為xres=x0-x1,因此可利用殘差信號xres對粗重構(gòu)結(jié)果進(jìn)行補(bǔ)償,提升重構(gòu)精度。而在壓縮感知問題中,xres可由其觀測域殘差yres重構(gòu)得到,即:

    yres=y0-y1=y0-Φx1

    (6)

    xres=Φ-1yres≈-1yres

    (7)

    如圖2實(shí)線框區(qū)域的殘差重構(gòu)模塊所示,粗重構(gòu)圖像x1通過采樣矩陣Φ得到其觀測域表示y1,y1與原始觀測值y0作差即獲得殘差信號的觀測域表示yres。而后,為了得到殘差信號的圖像域表示,yres再次通過重構(gòu)模塊進(jìn)行重構(gòu),如式(7)所示。最后ResRecNet通過將殘差信號xres與粗重構(gòu)x1相加完成了殘差的補(bǔ)償,得到最終重構(gòu)幀x2。

    圖2 ResRecNet網(wǎng)絡(luò)結(jié)構(gòu)

    在訓(xùn)練過程中,采樣矩陣與幀內(nèi)圖像重構(gòu)網(wǎng)絡(luò)進(jìn)行端到端優(yōu)化,且重構(gòu)網(wǎng)絡(luò)中兩個重構(gòu)模塊的參數(shù)施行共享以減少參數(shù)量。本研究采用均方誤差衡量重構(gòu)幀與真實(shí)幀的像素差異,并將其作為損失函數(shù)用于采樣矩陣與網(wǎng)絡(luò)參數(shù)的訓(xùn)練,具體數(shù)學(xué)描述如式(8):

    (8)

    其中:xj表示不同階段的重構(gòu)幀,x0為原始信號。

    為了保證網(wǎng)絡(luò)的每個模塊都實(shí)現(xiàn)其設(shè)計(jì)的功能,本研究對重構(gòu)的每個階段都進(jìn)行嚴(yán)格監(jiān)督,其損失函數(shù)表示為

    LResRecNet=L(x1,x0)+L(x2,x0)

    (9)

    2.2 用于非關(guān)鍵幀的兩階段多假設(shè)增強(qiáng)重構(gòu)網(wǎng)絡(luò)

    經(jīng)過視頻壓縮感知幀內(nèi)初始重構(gòu)之后,關(guān)鍵幀由于其高采樣率擁有較高的初始重構(gòu)質(zhì)量,而更多的非關(guān)鍵幀初始重構(gòu)效果很差。因此本節(jié)幀間運(yùn)動增強(qiáng)重構(gòu)網(wǎng)絡(luò)旨在利用視頻幀間時間相關(guān)性提升非關(guān)鍵幀的重構(gòu)質(zhì)量。遵循“預(yù)測-殘差重構(gòu)”的多假設(shè)重構(gòu)框架,本研究設(shè)計(jì)了一個兩階段多假設(shè)重構(gòu)網(wǎng)絡(luò),如圖1所示,該網(wǎng)絡(luò)包含參數(shù)共享的兩個階段,每個階段都將包含一個多假設(shè)預(yù)測網(wǎng)絡(luò)和一個殘差重構(gòu)模塊。

    2.2.1 多假設(shè)預(yù)測網(wǎng)絡(luò)

    傳統(tǒng)多假設(shè)預(yù)測算法以塊為單位搜索假設(shè)集并進(jìn)行加權(quán)線性組合得到當(dāng)前幀的預(yù)測幀,而本研究基于深度學(xué)習(xí)可變形卷積的概念實(shí)現(xiàn)了基于像素的多假設(shè)預(yù)測。可變形卷積[22]是傳統(tǒng)卷積的一個優(yōu)化分支,通過學(xué)習(xí)像素的偏移使得卷積層從其規(guī)則的感受野之外獲得有用信息,提高了卷積的性能。而時域可變形卷積對齊網(wǎng)絡(luò)利用可變形卷積層學(xué)習(xí)兩幀之間的運(yùn)動偏移[20- 21],并利用偏移指導(dǎo)參考幀到當(dāng)前幀的對齊,實(shí)現(xiàn)了兩幀之間的運(yùn)動補(bǔ)償。為了減少網(wǎng)絡(luò)負(fù)擔(dān),本研究提出一個簡化版的時域?qū)R預(yù)測網(wǎng)絡(luò),如圖3所示,該網(wǎng)絡(luò)通常分為3個步驟。

    圖3 時域可變形卷積對齊網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)

    首先,利用特征提取模塊將輸入的參考幀與當(dāng)前幀(xc,xr)映射至其特征域(Fc,Fr)以充分利用高階的運(yùn)動特征學(xué)習(xí)更準(zhǔn)確的運(yùn)動偏移,該特征提取模塊通常由一個3×3卷積層與3個殘差學(xué)習(xí)塊組成。

    (10)

    其中,wk為學(xué)習(xí)得到的第k個采樣位置的對應(yīng)權(quán)重。為了保證假設(shè)集與待預(yù)測像素的運(yùn)動相關(guān)性,可變形卷積網(wǎng)絡(luò)在全圖范圍內(nèi)尋找匹配像素點(diǎn),p0+pk+Δpk表示該匹配位置的位置信息,其中pk為卷積固定偏移,而Δpk為可學(xué)習(xí)的運(yùn)動偏移,取決于當(dāng)前幀與參考幀的運(yùn)動關(guān)系,表示為

    Δpk=Woffsct(Fr⊕Fc)

    (11)

    其中,Woffsct為卷積層權(quán)重參數(shù),⊕表示兩幀通道拼接操作。為了提高預(yù)測精度,本研究采用四層級聯(lián)的可變形卷積進(jìn)行特征域的對齊,得到特征域預(yù)測幀F(xiàn)p。

    最后,為了輸出預(yù)測圖像xp,利用一個卷積層實(shí)現(xiàn)特征域到像素域的映射。

    相比于傳統(tǒng)多假設(shè)預(yù)測,該網(wǎng)絡(luò)有以下3個優(yōu)點(diǎn):①該網(wǎng)絡(luò)以像素為最小單位進(jìn)行運(yùn)動估計(jì)與補(bǔ)償,避免了分塊帶來的塊效應(yīng)與偽影,同時提高了運(yùn)動補(bǔ)償?shù)撵`活性與準(zhǔn)確性;②通過端到端的學(xué)習(xí),自適應(yīng)得到特征域最優(yōu)偏移向量,從而得到最優(yōu)假設(shè)集;③通過卷積核參數(shù)學(xué)習(xí)得到線性加權(quán)的權(quán)重,提高假設(shè)集權(quán)值的求解精度。在具體實(shí)驗(yàn)中,設(shè)置K=9,采用核大小為3×3的可變形卷積進(jìn)行多假設(shè)預(yù)測,并且在訓(xùn)練過程中對輸出的預(yù)測圖像進(jìn)行監(jiān)督以保證預(yù)測網(wǎng)絡(luò)的正確學(xué)習(xí),其損失函數(shù)為

    Lp=L(xp,x0)

    (12)

    2.2.2 殘差重構(gòu)網(wǎng)絡(luò)

    多假設(shè)預(yù)測網(wǎng)絡(luò)可以很好地對齊參考幀與當(dāng)前幀共有的信息,然而對于當(dāng)前幀獨(dú)有的信息則難以實(shí)現(xiàn)有效預(yù)測,因此本研究再次引入殘差重構(gòu)模塊,利用當(dāng)前幀的原始觀測值補(bǔ)償預(yù)測幀遺失的運(yùn)動信息與細(xì)節(jié)信息,也為下一階段的增強(qiáng)重構(gòu)提供更準(zhǔn)確的當(dāng)前幀信息。該殘差重構(gòu)模塊的網(wǎng)絡(luò)結(jié)構(gòu)與上文2.1節(jié)中ResRecNet的殘差重構(gòu)模塊相同,即輸入預(yù)測幀xp后,該模塊將其與原始觀測值y0在觀測域進(jìn)行求殘差運(yùn)算,得到殘差重構(gòu)幀xr。在此過程中,殘差重構(gòu)模塊中的重構(gòu)網(wǎng)絡(luò)參數(shù)將重新訓(xùn)練以適應(yīng)更稀疏的殘差信號的重構(gòu)需求。

    在壓縮感知問題中,重構(gòu)圖像越接近于原始圖像,則它們的觀測值也將更為相似。因此本研究將在得到重構(gòu)幀后聯(lián)合圖像域與觀測值域的均方誤差損失對重構(gòu)過程進(jìn)行監(jiān)督,表示為

    Lr=L(xr,x0)+L(yr,y0)

    (13)

    其中,yr、y0分別表示殘差重構(gòu)幀xr與原始幀x0經(jīng)過Φ采樣得到的觀測值。

    2.2.3 串行式兩階段增強(qiáng)重構(gòu)

    運(yùn)動補(bǔ)償過程中,參考幀的選擇是得到高質(zhì)量預(yù)測幀的關(guān)鍵,而參考幀的選擇主要取決兩個因素:參考幀與待重構(gòu)幀的相關(guān)程度(若相關(guān)程度較低,則容易出現(xiàn)運(yùn)動信息匹配錯誤或者無法匹配的問題,導(dǎo)致運(yùn)動補(bǔ)償效果較差)和參考幀的質(zhì)量(低質(zhì)量參考幀由于其自身高頻細(xì)節(jié)信息的缺乏無法在運(yùn)動補(bǔ)償過程中提供高質(zhì)量高頻信息,導(dǎo)致重構(gòu)效果受限)。

    基于圖像組中各幀質(zhì)量不均衡以及幀間相關(guān)程度差異等特點(diǎn),本研究提出串行式兩階段多假設(shè)增強(qiáng)重構(gòu)模式。第一階段由于關(guān)鍵幀初始重構(gòu)質(zhì)量遠(yuǎn)遠(yuǎn)高于非關(guān)鍵幀,因此選擇關(guān)鍵幀作為參考幀以提供更多細(xì)節(jié)信息。為了避免參考幀離關(guān)鍵幀過遠(yuǎn)導(dǎo)致相關(guān)度過低,每個GOP的前?N/2」個非關(guān)鍵幀將選擇當(dāng)前GOP的關(guān)鍵幀作為參考幀,而剩余幀選擇下一個GOP的關(guān)鍵幀為參考幀。第一階段重構(gòu)后,關(guān)鍵幀與非關(guān)鍵幀重構(gòu)質(zhì)量的差異大大縮小,因此第二階段選擇幀間相關(guān)程度更高的相鄰幀作為參考幀來提高匹配效率。同樣的,每個GOP的前?N/2」個非關(guān)鍵幀選擇當(dāng)前待重構(gòu)幀的前一幀作為參考幀,而其余非關(guān)鍵幀選擇當(dāng)前幀的后一幀作為參考幀。以GOP的大小N=8為例,兩個階段的參考幀的選擇方案如圖4所示,其中階段一的參考幀選擇由實(shí)線箭頭表示,階段二的參考幀選擇由虛線箭頭表示。在兩階段多假設(shè)增強(qiáng)重構(gòu)過程中,每個增強(qiáng)重構(gòu)階段都包含一個多假設(shè)預(yù)測網(wǎng)絡(luò)與殘差重構(gòu)網(wǎng)絡(luò)以充分利用所選參考幀與當(dāng)前幀的時間相關(guān)性。

    圖4 各階段參考幀的選擇(N=8)

    由于GPU顯存的限制,本研究共享每個階段增強(qiáng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),且在訓(xùn)練過程中固定采樣與初始重構(gòu)網(wǎng)絡(luò)參數(shù),對增強(qiáng)重構(gòu)網(wǎng)絡(luò)獨(dú)立訓(xùn)練。兩階段的增強(qiáng)重構(gòu)皆設(shè)置了對應(yīng)的監(jiān)督損失函數(shù),因此該幀間運(yùn)動增強(qiáng)重構(gòu)網(wǎng)絡(luò)的損失函數(shù)表示為

    (14)

    其中,xpi、xri、yri分別表示第i階段的預(yù)測幀、殘差重構(gòu)幀以及殘差重構(gòu)幀的觀測域表示。

    3 仿真與分析

    3.1 網(wǎng)絡(luò)訓(xùn)練

    由于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且包含多個階段,因此選擇一個大的數(shù)據(jù)集對于網(wǎng)絡(luò)的充分訓(xùn)練是很有必要的。與CSVideoNet相同,本研究選擇了UCF- 101數(shù)據(jù)集來進(jìn)行兩個部分的網(wǎng)絡(luò)的訓(xùn)練,該數(shù)據(jù)集包含101個類別的13 320個視頻序列,其龐大的數(shù)據(jù)量基本滿足了網(wǎng)絡(luò)的訓(xùn)練需求。在具體實(shí)驗(yàn)中,按照8∶1∶1的比例劃分訓(xùn)練集、驗(yàn)證集以及測試集,且為了加速訓(xùn)練將每個序列的每幀圖像中心裁剪為160像素×160像素,并進(jìn)行灰度化處理。

    自適應(yīng)矩陣估計(jì)優(yōu)化器將被用于網(wǎng)絡(luò)參數(shù)的優(yōu)化,設(shè)置學(xué)習(xí)率為0.000 1,動量估計(jì)為0.9和0.999。使用PyTorch框架來實(shí)現(xiàn)文中提出的模型并且在NVIDIA 2080Ti進(jìn)行訓(xùn)練與測試。

    3.2 實(shí)驗(yàn)結(jié)果與分析

    為了更好地評估本研究提出的2sMHNet的性能,將其與目前優(yōu)秀的CVS重構(gòu)算法進(jìn)行對比,并分析了網(wǎng)絡(luò)中各模塊的性能。

    3.2.1 與基于深度學(xué)習(xí)的圖像視頻壓縮感知重構(gòu)算法的對比仿真實(shí)驗(yàn)

    將2sMHNet與兩種深度學(xué)習(xí)圖像壓縮感知重構(gòu)算法(ISTANet+[12],CSNet[11])、兩種加入了時間融合網(wǎng)絡(luò)的視頻壓縮感知重構(gòu)算法(VCSNet[15],CSVideoNet[14]),以及筆者所在課題組前期研究提出的算法(PRCVSNet[16])進(jìn)行對比?;谧髡呓o出的代碼,CSNet與ISTANet+的仿真結(jié)果容易獲得,但視頻壓縮感知重構(gòu)網(wǎng)絡(luò)無源碼且仿真較復(fù)雜,因此本研究基于文獻(xiàn)[14- 15]給出的各采樣率下的實(shí)驗(yàn)數(shù)據(jù),訓(xùn)練2sMHNet與之對比。

    表1 2sMHNet與幾種深度學(xué)習(xí)重構(gòu)算法的重構(gòu)結(jié)果對比

    2sMHNet與PRCVSNet的網(wǎng)絡(luò)參數(shù)量以及CIF序列每個GOP的平均重構(gòu)重構(gòu)時間的對比如表2所示。結(jié)果表明,2sMHNet相比于PRCVSNet,在降低了網(wǎng)絡(luò)復(fù)雜度的同時可以更有效地挖掘視頻的時間相關(guān)性,提高重構(gòu)質(zhì)量。

    表2 2sMHNet與PRCVSNet的算法復(fù)雜度對比

    由于實(shí)驗(yàn)條件不同,文中算法將單獨(dú)與另一種優(yōu)秀的CVS重構(gòu)算法CSVideoNet進(jìn)行對比?;谠慕o出的實(shí)驗(yàn)條件[14],即GOP大小為10,關(guān)鍵幀采樣率rk為0.2,非關(guān)鍵幀采樣率rnk分別為0.037、0.018、0.009,相應(yīng)地平均采樣率分別為0.053、0.036、0.028。UCF- 101數(shù)據(jù)集中隨機(jī)抽取的10%序列將被用作測試集,其PSNR與SSIM的對比結(jié)果如表3所示。由表3可見,文中算法取得了更優(yōu)的重構(gòu)結(jié)果,相比于CSVideoNet,PSNR平均提升了4.25 dB、SSIM平均提升了0.11。

    表3 2sMHNet與CSVideoNet的重構(gòu)結(jié)果對比

    3.2.2 與傳統(tǒng)視頻壓縮感知重構(gòu)算法的對比仿真實(shí)驗(yàn)

    將2sMHNet與兩種具有代表性的傳統(tǒng)CVS重構(gòu)算法(2sMHR[6],SSIM-InterF-GSR[17])進(jìn)行比較。2sMHR為性能優(yōu)良的傳統(tǒng)分塊多假設(shè)算法;SSIM-InterF-GSR利用組稀疏特性融合時空相關(guān)性,是目前性能較好的傳統(tǒng)CVS重構(gòu)算法?;谧髡呓o出的實(shí)現(xiàn)代碼,本研究在Matlab2016a中實(shí)現(xiàn)這兩種傳統(tǒng)算法,并且為了縮短傳統(tǒng)算法的重構(gòu)時間,采用分辨率更小的6組QCIF格式的標(biāo)準(zhǔn)視頻序列進(jìn)行仿真實(shí)驗(yàn),包括運(yùn)動較快序列Soccer、Football、Ice與運(yùn)動較慢序列Foreman、Hall、Su-zie。仿真測試了上文給出的平均采樣率分別為0.238、0.150、0.106、0.053、0.036、0.028的條件下各算法的重構(gòu)性能,并且為了保證GOP大小改變時總幀數(shù)不相差過大,GOP大小設(shè)置為8的實(shí)驗(yàn)中選取每個序列的前12個GOP進(jìn)行重構(gòu),而GOP大小設(shè)置為10的實(shí)驗(yàn)中則選取每個序列的前10個GOP進(jìn)行重構(gòu)。

    2sMHNet、PRCVSNet與傳統(tǒng)CVS重構(gòu)算法重構(gòu)結(jié)果的對比如表4所示;為了驗(yàn)證運(yùn)動增強(qiáng)網(wǎng)絡(luò)的性能,表4同時給出了2sMHNet與PRCVSNet的初始重構(gòu)網(wǎng)絡(luò)ResRecNet的重構(gòu)結(jié)果。

    表4 2sMHNet以及PRCVSNet與傳統(tǒng)重構(gòu)算法的重構(gòu)結(jié)果對比

    實(shí)驗(yàn)結(jié)果表明,文中算法無論在快序列或者慢序列中都取得了最好的重構(gòu)效果,并且隨著平均采樣率的降低該網(wǎng)絡(luò)重構(gòu)質(zhì)量提升效果更加明顯。當(dāng)平均采樣率為0.238時,相較于2sMHR,在6個序列中的PSNR平均提升了2.87 dB、SSIM平均提升了0.031 3,相較于SSIM-InterF-GSR,PSNR平均提升了0.56 dB、SSIM平均提升了0.016 1;平均采樣率下降至0.028時,相較于2sMHR、SSIM-InterF-GSR,2sMHNet的PSNR平均提升了8.54、3.98 dB,SSIM平均提升了0.287 9、0.096 2。再者,文中算法2sMHNet相較于傳統(tǒng)方法在快序列與慢序列中的提升效果不一;對于快速運(yùn)動序列,由于運(yùn)動較快導(dǎo)致的幀間相關(guān)性較低使得傳統(tǒng)的視頻壓縮感知重構(gòu)算法因難以找到合適的匹配塊而導(dǎo)致不準(zhǔn)確運(yùn)動估計(jì),使得重構(gòu)質(zhì)量較差,在文中算法的重構(gòu)網(wǎng)絡(luò)中,由于其較好的初始重構(gòu)質(zhì)量再加上增強(qiáng)重構(gòu)網(wǎng)絡(luò)進(jìn)一步地提升,重構(gòu)質(zhì)量較SSIM-InterF-GSR有了明顯改善;對于慢速序列,傳統(tǒng)方法可以利用準(zhǔn)確的運(yùn)動估計(jì)獲得優(yōu)秀的重構(gòu)質(zhì)量,而2sMHNet加入了兩階段預(yù)測殘差增強(qiáng)網(wǎng)絡(luò)之后,相較于其初始重構(gòu)結(jié)果平均PSNR得到了較大地提升,高達(dá)2.1~9.5 dB。

    序列Hall在不同重構(gòu)算法及不同平均采樣率下的重構(gòu)結(jié)果如圖5所示。圖5(a)為平均采樣率0.150情況下第32幀的重構(gòu)結(jié)果,觀察可知,圖像重構(gòu)算法ResRecNet重構(gòu)效果最差,傳統(tǒng)算法2sMHR與SSIM-InterF-GSR均出現(xiàn)了不同程度的模糊,特別是運(yùn)動程度較大的人物腿部部分,而PRCVSNet與2sMHNet均能較準(zhǔn)確地重構(gòu),且2sMHNet精度更高;圖5(b)為極低平均采樣率0.036時Hall序列第22幀的重構(gòu)結(jié)果,觀察可知,不同算法的重構(gòu)差異更為明顯,2sMHR幾乎無法重構(gòu),SSIM-InterF-GSR重構(gòu)圖出現(xiàn)了嚴(yán)重的變形,細(xì)節(jié)信息缺失,但2sMHNet在初始重構(gòu)質(zhì)量較差的情況下仍舊能通過運(yùn)動補(bǔ)償較好地重構(gòu)出原信號。

    圖5 序列Hall在不同重構(gòu)算法及不同平均采樣率下的視覺重構(gòu)結(jié)果

    3.2.3 圖像殘差重構(gòu)網(wǎng)絡(luò)的性能分析

    文中作為幀內(nèi)圖像重構(gòu)網(wǎng)絡(luò)的ResRecNet是在CSNet[11]的基礎(chǔ)上加入殘差重構(gòu)模塊以進(jìn)行殘差補(bǔ)償。為了驗(yàn)證其殘差重構(gòu)塊的性能,本研究對比了相同實(shí)驗(yàn)條件下兩種圖像重構(gòu)算法的重構(gòu)性能。為了保證對比的公平,在CSNet的實(shí)驗(yàn)條件下進(jìn)行端到端訓(xùn)練及測試,即設(shè)置采樣分塊大小為32,采用裁剪為96像素×96像素的圖像塊的BSDS500數(shù)據(jù)集,在Tensorflow框架GPU2080Ti加速下訓(xùn)練迭代140 000次。文獻(xiàn)[11]給出CSNet重構(gòu)網(wǎng)絡(luò)深度重構(gòu)卷積層層數(shù)n=5,而為了減輕網(wǎng)絡(luò)的負(fù)擔(dān),本研究在n=4,5的情況下分別訓(xùn)練了兩個網(wǎng)絡(luò)深度不同的ResRecNet。對于各網(wǎng)絡(luò),本研究用分辨率為512×512的Lena、Baby、Peper及分辨率為256×256的Butterfly、House、Barbara標(biāo)準(zhǔn)圖像進(jìn)行了測試。表5給出3個采樣率(0.1,0.2,0.3)下各算法的重構(gòu)結(jié)果。

    由表5所示結(jié)果可見,ResRecNet(n=5)相比于CSNet(n=5)在3個采樣率下,PSNR分別提升了-0.14、0.22、0.56 dB,SSIM分別提升了0.007、0.003、0.011,證明殘差重構(gòu)塊在重構(gòu)中確實(shí)有助于重構(gòu)性能的提高。另外,ResRecNet(n=4)與ResRecNet(n=5)重構(gòu)性能相差不大,甚至在較多情況下層數(shù)較少的ResRecNet(n=4)重構(gòu)性能反而較高,因此本研究中視頻壓縮感知重構(gòu)算法選用n=4的ResRecNet作為其初始重構(gòu)。

    表5 不同采樣率下各算法的重構(gòu)質(zhì)量對比

    3.2.4 多假設(shè)增強(qiáng)重構(gòu)網(wǎng)絡(luò)性能分析

    為了驗(yàn)證多假設(shè)增強(qiáng)重構(gòu)網(wǎng)絡(luò)各模塊的性能,文中列出了2sMHNet的初始重構(gòu)幀,兩個階段的預(yù)測幀與殘差重構(gòu)幀的PSNR重構(gòu)結(jié)果如表6所示。與3.2.2節(jié)一致,在平均采樣率為0.150、0.036時對QCIF格式的快速運(yùn)動序列(Soccer、Football、Ice)與慢速運(yùn)動序列(Foreman、Hall、Suzie)進(jìn)行測試。由表6可知,兩個階段的多假設(shè)預(yù)測網(wǎng)絡(luò)與殘差重構(gòu)網(wǎng)絡(luò)都實(shí)現(xiàn)了其既定功能,有利于重構(gòu)質(zhì)量的提升。

    為了充分利用時間相關(guān)性,本研究引入了串行式的兩階段重構(gòu),由表6可見,平均采樣率分別為0.150與0.036情況下,快速運(yùn)動序列的第二階段重構(gòu)結(jié)果相較于第一階段分別提升了0.24、0.31 dB,而相同情況慢速運(yùn)動序列僅僅提升了0.01、0.17 dB,證明了該重構(gòu)模式在快速且復(fù)雜運(yùn)動情景中的優(yōu)越性。

    表6 2sMHNet各個階段的預(yù)測幀與殘差重構(gòu)幀的重構(gòu)結(jié)果

    4 結(jié)論

    結(jié)合深度學(xué)習(xí)自適應(yīng)優(yōu)化與傳統(tǒng)CVS多假設(shè)運(yùn)動補(bǔ)償?shù)乃枷?,提出了深度學(xué)習(xí)兩階段多假設(shè)重構(gòu)算法(2sMHNet)。該算法的幀內(nèi)圖像重構(gòu)部分基于CSNet提出了一個新的圖像重構(gòu)算法ResRecNet,利用殘差重構(gòu)塊補(bǔ)償了細(xì)節(jié)信息,不僅為視頻壓縮感知重構(gòu)提供了更好的初始重構(gòu)結(jié)果,也被應(yīng)用于視頻的幀間重構(gòu)網(wǎng)絡(luò)中利用觀測值進(jìn)行校正。兩階段多假設(shè)增強(qiáng)重構(gòu)網(wǎng)絡(luò)基于傳統(tǒng)多假設(shè)運(yùn)動補(bǔ)償?shù)乃枷耄紫纫肷疃葘W(xué)習(xí)時域可變形卷積對齊網(wǎng)絡(luò)實(shí)現(xiàn)了基于像素的多假設(shè)預(yù)測,提升了預(yù)測精度,而后利用殘差重構(gòu)模塊重構(gòu)預(yù)測幀殘差再次進(jìn)行提升。另外為了充分利用圖像組幀間相關(guān)性,本研究設(shè)置了串行式兩階段的重構(gòu)模式,在不同階段選擇不同的參考幀以便獲得更好的預(yù)測效果。實(shí)驗(yàn)結(jié)果表明,文中所提算法2sMHNet相較于目前優(yōu)秀的視頻壓縮感知重構(gòu)算法有著更優(yōu)的重構(gòu)性能。

    猜你喜歡
    關(guān)鍵幀殘差重構(gòu)
    基于雙向GRU與殘差擬合的車輛跟馳建模
    長城敘事的重構(gòu)
    攝影世界(2022年1期)2022-01-21 10:50:14
    基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
    基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
    北方大陸 重構(gòu)未來
    北京的重構(gòu)與再造
    商周刊(2017年6期)2017-08-22 03:42:36
    基于改進(jìn)關(guān)鍵幀選擇的RGB-D SLAM算法
    論中止行為及其對中止犯的重構(gòu)
    基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
    基于聚散熵及運(yùn)動目標(biāo)檢測的監(jiān)控視頻關(guān)鍵幀提取
    仙居县| 北票市| 湘阴县| 肃北| 桐柏县| 江都市| 宜都市| 宽城| 行唐县| 闸北区| 忻州市| 荆门市| 宜州市| 西充县| 莱西市| 龙游县| 宾阳县| 郧西县| 随州市| 安庆市| 绩溪县| 肃宁县| 青川县| 富裕县| 宿州市| 呼和浩特市| 新民市| 阳原县| 麻栗坡县| 舟山市| 清水河县| 武功县| 宁夏| 慈利县| 桓台县| 穆棱市| 大关县| 垣曲县| 中山市| 宣威市| 花莲市|