孫必慎,石武禎,姜峰
(1. 中國(guó)電子科技集團(tuán)公司 第27研究所,河南 鄭州 450005; 2. 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
視覺(jué)先驗(yàn)是認(rèn)知心理層面、系統(tǒng)神經(jīng)層面與計(jì)算視覺(jué)層面研究的交合點(diǎn),涉及各個(gè)層面研究的理解與綜合。根據(jù)各領(lǐng)域切入點(diǎn)的不同,對(duì)視覺(jué)先驗(yàn)研究主要可以分為兩條路線(xiàn),即認(rèn)知心理層面與系統(tǒng)神經(jīng)層面的機(jī)理測(cè)試以及計(jì)算層面的功能模擬。視覺(jué)先驗(yàn)機(jī)理測(cè)試方面通過(guò)非侵入式的測(cè)量?jī)x器,在自然圖像刺激條件下檢測(cè)人腦神經(jīng)細(xì)胞的響應(yīng)特性,反推大腦對(duì)自然圖像一般性規(guī)律進(jìn)行歸納與記憶的區(qū)域結(jié)構(gòu)及其功能原理。隨著人類(lèi)對(duì)自身視覺(jué)系統(tǒng)的研究逐步深入,從初級(jí)視皮層到高級(jí)視覺(jué)區(qū)域,都取得了許多重要的研究成果[1-4]。盡管研究者一致認(rèn)為初級(jí)視皮層的視覺(jué)處理過(guò)程受環(huán)境統(tǒng)計(jì)特性的影響,但怎樣在兩者之間建立準(zhǔn)確的數(shù)學(xué)關(guān)系一直是一個(gè)難題。功能性磁共振成像(functional magnetic resonance imaging,fMRI)只能有限地反映大腦皮層局部區(qū)域的系統(tǒng)動(dòng)力,必須從理論上進(jìn)行抽象,才能將“原理”嵌入到我們的工具中去[5]。同時(shí),從可計(jì)算的層面上去解釋?zhuān)且环N合理、必須的選擇。
視覺(jué)先驗(yàn)功能模擬方面,以自然圖像為對(duì)象,挖掘自然圖像一般性規(guī)律并將其數(shù)學(xué)形式化為可計(jì)算的圖像模型,主要包括自然圖像光滑性先驗(yàn)?zāi)P汀⒆匀粓D像統(tǒng)計(jì)規(guī)律先驗(yàn)?zāi)P?、自然圖像視覺(jué)編碼稀疏性先驗(yàn)?zāi)P汀⒆匀粓D像非局部自相似模型等,并為眾多圖像處理與計(jì)算機(jī)視覺(jué)智能應(yīng)用[6-9]提供算法和支撐。
自然圖像光滑性先驗(yàn)建模的方式是約束圖像的一階或高階導(dǎo)數(shù)及其非線(xiàn)性變換,以形成圖像處理的正則化能量模型,從而構(gòu)成基于變分方法的偏微分方程。當(dāng)約束取為梯度模的平方時(shí),導(dǎo)出經(jīng)典的熱擴(kuò)散算法;當(dāng)約束取為梯度模時(shí),導(dǎo)出經(jīng)典的全變分(total variational)[10]方法;當(dāng)約束取為梯度的非線(xiàn)性函數(shù)時(shí),導(dǎo)出各向異性擴(kuò)散算法;當(dāng)約束取為高階導(dǎo)數(shù)的模時(shí),導(dǎo)出高階各項(xiàng)異性擴(kuò)散算法[11]。這些方法著重刻畫(huà)了圖像的局部光滑程度,忽略了全局的相似塊之間的本質(zhì)關(guān)系,比如自相似性關(guān)注于圖像像素點(diǎn)的一個(gè)多階鄰域的重構(gòu)與恢復(fù),抹平了圖像的細(xì)節(jié),不能有效地給出光滑先驗(yàn)和數(shù)據(jù)精度項(xiàng)之間的關(guān)系。
自然圖像統(tǒng)計(jì)規(guī)律先驗(yàn)建模的方式是考察自然圖像濾波響應(yīng)率并對(duì)其分布進(jìn)行統(tǒng)計(jì)建模。基于Markov隨機(jī)場(chǎng)理論,特別是通過(guò)Gibbs分布來(lái)建模自然圖像濾波響應(yīng)統(tǒng)計(jì)規(guī)律的方法,Mumford等[12]提出的FRAME模型考慮圖像MRF建模中的鄰域系統(tǒng)和勢(shì)函數(shù)的選取問(wèn)題,將傳統(tǒng)的以導(dǎo)數(shù)濾波器為基礎(chǔ)的平滑性先驗(yàn)進(jìn)行了推廣,將MRF模型推向高維的形態(tài)。Freeman等[13]提出的MRF模型,被應(yīng)用于構(gòu)建圖像推理的先驗(yàn)?zāi)P鸵约盎跇永募y理合成中。Welling等[14]提出使用專(zhuān)家乘積模型(product of experts,PoE)去解決高維圖像數(shù)據(jù)的先驗(yàn)概率建模問(wèn)題。在PoE的基礎(chǔ)上,Roth等[15]設(shè)計(jì)了均一性勢(shì)函數(shù)形式的專(zhuān)家場(chǎng)模型(fields of experts,F(xiàn)oE),彌補(bǔ)了PoE模型的缺陷,可以學(xué)習(xí)任意尺寸的自然圖像的先驗(yàn),后續(xù)工作(如文獻(xiàn)[16])通過(guò)貝葉斯最小均方誤差方法取代最大后驗(yàn)概率方法計(jì)算恢復(fù)圖像,從一定層面克服了到目前為止MRF的一些缺點(diǎn)。自然圖像統(tǒng)計(jì)規(guī)律先驗(yàn)建模研究的是自然圖像所含最少成分的統(tǒng)計(jì)規(guī)律,工作中心可總結(jié)為2點(diǎn):如何找到自然圖像中的最少成分,以及如何描述一個(gè)龐大的自然圖像集合在此最小成分方向上的邊緣概率分布。目前的方法面臨著共有的問(wèn)題:統(tǒng)計(jì)漲落問(wèn)題無(wú)法規(guī)避,不同圖像間以及圖像不同區(qū)域之間的統(tǒng)計(jì)漲落嚴(yán)重地束縛了自然圖像統(tǒng)計(jì)先驗(yàn)?zāi)P偷墓δ?;需要投入大量代價(jià)在如何描述其分布響應(yīng)情況,描述手段復(fù)雜,影響模型的學(xué)習(xí)及后續(xù)的優(yōu)化過(guò)程,進(jìn)一步影響自然圖像統(tǒng)計(jì)先驗(yàn)?zāi)P偷膶?shí)用性能。
自然圖像視覺(jué)編碼稀疏性先驗(yàn)建模源于“有效編碼假說(shuō)”[17]。現(xiàn)有的稀疏編碼方法在圖像表示、物體識(shí)別等領(lǐng)域的應(yīng)用受到了較高計(jì)算復(fù)雜度的約束。不少工作已經(jīng)開(kāi)始著手提高稀疏編碼的效率和魯棒性[18-26]。盡管稀疏概念的一種來(lái)源出自于濾波器對(duì)視覺(jué)信息的濾波響應(yīng),但最終的關(guān)注點(diǎn)卻主要在圖像塊的重構(gòu)與恢復(fù),并沒(méi)有很多地考慮整幅圖像的響應(yīng)統(tǒng)計(jì),無(wú)法提供表示一幅完整圖像的統(tǒng)計(jì)模型,忽略了相似塊之間的本質(zhì)關(guān)系,比如自相似性,導(dǎo)致得到的稀疏編碼系數(shù)不夠準(zhǔn)確;同時(shí),自適應(yīng)字典學(xué)習(xí)過(guò)程中需要求解一個(gè)具有非常高計(jì)算復(fù)雜度的大規(guī)模優(yōu)化問(wèn)題;此外,在編碼測(cè)量中,為了確保信號(hào)的線(xiàn)性投影能夠保持信號(hào)的原始結(jié)構(gòu),對(duì)投影矩陣的設(shè)計(jì)及穩(wěn)定性有嚴(yán)格要求(如約束等距性)。
自然圖像另一個(gè)重要的特性是非局部自相似性。Protter等[27]提出非局部均值(nonlocal means,NLM)的高效先驗(yàn)?zāi)P筒⑵溆糜趫D像超分辨,假設(shè)去模糊得到的圖像跟觀(guān)測(cè)到的模糊圖像同樣具有非局部自相似,提出了用來(lái)去模糊的基于NLM的正則項(xiàng)。受NLM啟發(fā),基于全圖的NLM模型[28]和基于調(diào)序的NLM模型[29]被提出。受到圖拉普拉斯(graph laplacian)理論的啟發(fā),Gilboa等[30]根據(jù)非局部算子定義了變分框架。為了能夠取得更好的性能,自然圖像的稀疏性和非局部自相似性通常聯(lián)合起來(lái)。在文獻(xiàn)[31]中,最終設(shè)計(jì)的目標(biāo)函數(shù)由刻畫(huà)局部稀疏性和非局部自相似性?xún)蓚€(gè)正則項(xiàng)組成,進(jìn)而獲得更高的復(fù)原圖像質(zhì)量。在文獻(xiàn)[32]中,同時(shí)稀疏編碼(simultaneous sparse coding,SSC)被用來(lái)約束圖像中相似的圖像塊在同一個(gè)字典下應(yīng)該具有相似的稀疏分解,從而使得稀疏編碼系數(shù)變得更加魯棒和準(zhǔn)確。同理,利用相同的思路,將非局部圖分別跟MS模型、MRF模型、AR模型、KR模型結(jié)合,就會(huì)得到非局部MS模型[33]、非局部MRF模型[34]、非局部AR模型[35]以及非局部KR模型。通過(guò)分析總結(jié)不難發(fā)現(xiàn),目前以上非局部模型利用圖像非局部自相似性都是在原來(lái)局部模型的基礎(chǔ)之上加入了非局部權(quán)重。但通過(guò)加權(quán)的方式就不可避免地導(dǎo)致結(jié)果中出現(xiàn)擾亂或不準(zhǔn)確現(xiàn)象。所以尋找一個(gè)能夠充分利用圖像非局部自相似性的模型,而不是僅僅采用加權(quán)的方式,在圖像處理領(lǐng)域仍然是一個(gè)非常重要的挑戰(zhàn)。
以上傳統(tǒng)的低層計(jì)算視覺(jué)層面的先驗(yàn)功能建模方法,已廣泛用于各種低層計(jì)算機(jī)視覺(jué)問(wèn)題當(dāng)中,都取得了一定顯著的效果。近三四年,盡管在以上的方法流派上陸續(xù)有新方法出現(xiàn),但幾乎都是在顯著增加計(jì)算復(fù)雜程度的代價(jià)下,帶來(lái)極為有限的性能的提升。顯然,對(duì)于傳統(tǒng)的低層計(jì)算視覺(jué)層面的先驗(yàn)功能建模方法來(lái)講,各種流派和方法都面臨著巨大的挑戰(zhàn)。對(duì)于這些思想的回顧,不難有以下認(rèn)識(shí)。
1) 傳統(tǒng)的低層計(jì)算視覺(jué)層面的先驗(yàn)功能建模方法對(duì)于自然圖像一般性規(guī)律的認(rèn)識(shí)、解釋較為片面和孤立,表現(xiàn)為不同的數(shù)學(xué)形式和理論解釋?zhuān)瑢?duì)于方法與方法之間的內(nèi)在本質(zhì)關(guān)聯(lián),不同先驗(yàn)之間的耦合關(guān)系,盡管已有的一些工作研究了不同先驗(yàn)之間的協(xié)作方法,但找出一種可以囊括所有孤立規(guī)律的數(shù)學(xué)建模形式幾乎是不可能的。以上這些原因,實(shí)際上對(duì)于這些先驗(yàn)方法和思想的綜合運(yùn)用造成了較大的障礙。
2) 對(duì)于不同類(lèi)別和不同范疇的自然圖像,不同的先驗(yàn)?zāi)P妥饔眯Ч彩遣煌?。這一點(diǎn)在原來(lái)的自然圖像建模工作中,并沒(méi)有被客觀(guān)地重視和研究。從以上對(duì)各流派的分析,如果將自然圖像空間就信息熵進(jìn)行劃分,各種先驗(yàn)方法和流派在不同的等熵子空間明顯會(huì)體現(xiàn)出不同效能。不難得出,在面對(duì)真實(shí)應(yīng)用或?qū)τ诟笠?guī)模的視覺(jué)信息,如視頻編碼,這個(gè)問(wèn)題會(huì)更加嚴(yán)重。
低層計(jì)算視覺(jué)層面,第一個(gè)開(kāi)拓性的基于深度學(xué)習(xí)的圖像重建方法是Dong等[36-37]提出的單圖像超分辨網(wǎng)絡(luò)SRCNN。這個(gè)網(wǎng)絡(luò)通過(guò)模擬基于稀疏表示的單圖像超分辨方法的低分辨與高分辨圖像間的映射關(guān)系,實(shí)現(xiàn)低分辨圖像到高分辨圖像的端到端映射。得益于深度網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,基于深度學(xué)習(xí)的重建和增強(qiáng)方法在具有較低的計(jì)算復(fù)雜度的同時(shí),重建和增強(qiáng)效果顯著提高。緊隨其后,一系列基于深度學(xué)習(xí)的圖像重建和增強(qiáng)方法相繼提出。為了降低網(wǎng)絡(luò)的復(fù)雜度并且進(jìn)一步改進(jìn)網(wǎng)絡(luò)的性能,Dong等[38]提出快速版本的SRCNN。改進(jìn)版本的網(wǎng)絡(luò)通過(guò)在輸出端使用轉(zhuǎn)置卷積層實(shí)現(xiàn)圖像的上采樣,使得低分辨圖像可以直接作為網(wǎng)絡(luò)的輸入,從而降低了計(jì)算復(fù)雜度。為了克服較深的網(wǎng)絡(luò)訓(xùn)練過(guò)程中收斂困難的問(wèn)題,Kim等[39]提出學(xué)習(xí)圖像的殘差來(lái)加速網(wǎng)絡(luò)的收斂,并且通過(guò)增加網(wǎng)絡(luò)深度來(lái)增強(qiáng)網(wǎng)絡(luò)的感受野和非線(xiàn)性,從而改進(jìn)網(wǎng)絡(luò)重建的性能。為了訓(xùn)練出更加有效的網(wǎng)絡(luò),一些技術(shù)如殘差學(xué)習(xí)[40]、批正則化[41]、梯度裁剪[39]等相繼被提出,這些方法改善了深度網(wǎng)絡(luò)的訓(xùn)練過(guò)程,使得網(wǎng)絡(luò)容易收斂。
另外,為了在深度網(wǎng)絡(luò)中融入傳統(tǒng)圖像先驗(yàn)信息來(lái)改進(jìn)重建效果,已有一些方法采用正則化求解優(yōu)化問(wèn)題的思路,將不同的自然圖像先驗(yàn)信息,如局部平滑、非局部自相似和稀疏表示等,用于設(shè)計(jì)網(wǎng)絡(luò)的目標(biāo)函數(shù)。Wang等[42]使用深度網(wǎng)絡(luò)來(lái)模擬基于稀疏表示方法的求解過(guò)程,實(shí)現(xiàn)了深度網(wǎng)絡(luò)和稀疏表示方法的有效結(jié)合。Gu等[43]也將稀疏編碼融入深度網(wǎng)絡(luò),提出了一個(gè)卷積稀疏編碼網(wǎng)絡(luò),解決了重疊塊間像素的一致性問(wèn)題。Liang 等[44]認(rèn)為直接訓(xùn)練 SRCNN模型非常耗時(shí),因此,在網(wǎng)絡(luò)末端引入了Sobel 算子提取的邊緣信息。實(shí)驗(yàn)數(shù)據(jù)表明,引入的邊緣先驗(yàn)加速了網(wǎng)絡(luò)的收斂過(guò)程,而且一定程度上改善了重建效果。與此同時(shí),隨著對(duì)抗式網(wǎng)絡(luò)(generative adversarial network, GAN)[45]在監(jiān)督學(xué)習(xí)中的興起,Ledig等[46]和Johnson等[47]將GAN引入到超分辨率重建問(wèn)題中,通過(guò)共同訓(xùn)練生成網(wǎng)絡(luò)和對(duì)抗網(wǎng)絡(luò),大大提升了超分辨率重建性能,重建后的圖像在視覺(jué)效果上得到顯著提升。
這些工作充分說(shuō)明并驗(yàn)證深度學(xué)習(xí)對(duì)于低層計(jì)算機(jī)視覺(jué)層面先驗(yàn)功能模擬有著極大的潛力,但是這方面的研究總體還處于起步階段,很多問(wèn)題尚待解決。比如:深度網(wǎng)絡(luò)結(jié)構(gòu)中哪些神經(jīng)元對(duì)最終的圖像復(fù)原效果有效的問(wèn)題尚沒(méi)有人關(guān)注過(guò);現(xiàn)在的工作發(fā)現(xiàn)底層的視覺(jué)任務(wù)中非殘差學(xué)習(xí)很難訓(xùn)練得到較深的網(wǎng)絡(luò),但是已有的基于殘差學(xué)習(xí)的工作也只是簡(jiǎn)單地將映射目標(biāo)由原來(lái)的目標(biāo)圖像變成估計(jì)殘差而已,在什么條件下可以做到非殘差學(xué)習(xí)也可以訓(xùn)練一個(gè)很深的網(wǎng)絡(luò),以及更加有效的殘差學(xué)習(xí)方式都是有待解決的問(wèn)題;由于圖像先驗(yàn)對(duì)圖像復(fù)原效果有很大的幫助,如何有效地融合深度學(xué)習(xí)技術(shù)和自然圖像先驗(yàn)來(lái)改善圖像復(fù)原質(zhì)量也是值得探討的。
20世紀(jì)80年代,ISO、IEC、ITU三大國(guó)際標(biāo)準(zhǔn)組織開(kāi)始制定數(shù)字視頻編碼標(biāo)準(zhǔn),形成了基于預(yù)測(cè)(包括幀內(nèi)、幀間、視間)、變換(變換+量化)和熵編碼等三大類(lèi)關(guān)鍵技術(shù)的混合編碼框架,制定了以MPEG-2為代表的第一代視頻編碼標(biāo)準(zhǔn)。2003年,MPEG-4 AVC/H.264第二代國(guó)際標(biāo)準(zhǔn)出臺(tái),實(shí)現(xiàn)了壓縮效率翻番,中國(guó)同期也開(kāi)發(fā)制定了視頻編碼國(guó)際標(biāo)準(zhǔn)AVS。進(jìn)而為了進(jìn)一步提高視頻編碼效率,IEO/IEC和ITU-T推出了HEVC/H.265視頻編碼標(biāo)準(zhǔn)。隨著硬件技術(shù)的飛速發(fā)展,超高清視頻對(duì)視頻編碼技術(shù)提出了新需求。代表性的超高清編碼方法有四叉樹(shù)編碼單元?jiǎng)澐?、預(yù)測(cè)和變換(已被HEVC和AVS2編碼標(biāo)準(zhǔn)采用)、基于超分辨率的編碼。近年來(lái)圖像視頻編碼的研究熱點(diǎn)還包括無(wú)線(xiàn)網(wǎng)絡(luò)視頻編碼以及多視點(diǎn)視頻編碼等。
在基于自然圖像先驗(yàn)?zāi)P偷木幋a方面,我們關(guān)注近期視覺(jué)先驗(yàn)知識(shí)同編碼框架融合、合理的視覺(jué)先驗(yàn)知識(shí)介入的途徑與方式、以及圖像和視頻在采集和顯示過(guò)程中的增強(qiáng)等問(wèn)題的研究進(jìn)展。在Stankovic等[48]提出的視頻感知編碼方案中,視頻幀按關(guān)鍵幀和非關(guān)鍵幀分類(lèi),分別以傳統(tǒng)和壓縮感知方法采樣,在保證重構(gòu)質(zhì)量的前提下最高節(jié)省50%的采樣量。為了克服只依賴(lài)稀疏性而沒(méi)有考慮時(shí)間域運(yùn)動(dòng)的問(wèn)題,Park等[49]提出在解碼端使用運(yùn)動(dòng)估計(jì)和補(bǔ)償?shù)募夹g(shù)。Prades等[50]提出針對(duì)CVS的分布式字典方案:關(guān)鍵幀采用傳統(tǒng)技術(shù)編解碼,非關(guān)鍵幀分塊壓縮采樣及量化。在解碼端,由已解碼的關(guān)鍵幀獲得字典,在字典的輔助下恢復(fù)非關(guān)鍵幀。在Chen等[51]提出的自適應(yīng)字典的方案中,關(guān)鍵幀提取基于幀的壓縮感知觀(guān)測(cè)值,壓縮感知幀提取基于塊的壓縮感知觀(guān)測(cè)值;在解碼端,從已經(jīng)重建的相鄰幀及生成的邊信息中學(xué)習(xí)得到字典。幀塊的重構(gòu)都能被表示成最小范數(shù)問(wèn)題,利用可分離逼近算法(SpaRSA)[52]來(lái)稀疏重構(gòu)。這些方法在構(gòu)建碼本方面都是使用降質(zhì)圖像塊作為尋找高質(zhì)量圖像塊的索引重建圖像,這是一個(gè)病態(tài)無(wú)確定解問(wèn)題,極易造成誤匹配,最終效果很大程度取決于對(duì)圖像先驗(yàn)知識(shí)的掌握與介入程度[53-55]。
對(duì)于圖像視頻編碼,深度學(xué)習(xí)技術(shù)已展現(xiàn)出了強(qiáng)大的生命力。一方面,深度學(xué)習(xí)技術(shù)可以把編解碼器進(jìn)行聯(lián)合優(yōu)化,使得編解碼器性能達(dá)到最優(yōu)。另一方面,利用深度學(xué)習(xí)技術(shù)可以提供多樣化的編解碼方法,方便針對(duì)不同的任務(wù)對(duì)圖像視頻實(shí)現(xiàn)智能編解碼。根據(jù)與現(xiàn)有編碼框架相互兼容的程度,可以將基于深度學(xué)習(xí)的圖像視頻編碼分為兩大類(lèi):與現(xiàn)有編碼框架兼容的圖像視頻編碼和以深度學(xué)習(xí)為核心的圖像視頻編碼。
與現(xiàn)有編碼框架兼容的圖像視頻編碼方面,Jiang等[56]提出了兼容傳統(tǒng)圖像壓縮標(biāo)準(zhǔn)的深度學(xué)習(xí)壓縮框架,在編碼器前端和解碼器后端分別加入卷積神經(jīng)網(wǎng)絡(luò)對(duì)編解碼器聯(lián)合優(yōu)化,并給出了前后兩個(gè)神經(jīng)網(wǎng)絡(luò)聯(lián)合訓(xùn)練的算法,大大提高了編解碼器的壓縮性能。Zhao等[57]進(jìn)一步提出了通過(guò)學(xué)習(xí)一個(gè)虛擬編解碼器神經(jīng)網(wǎng)絡(luò)來(lái)近似從原始圖像的有效描述圖像到后處理壓縮圖像的投影,這使得訓(xùn)練網(wǎng)絡(luò)的時(shí)候梯度可以從后處理神經(jīng)網(wǎng)絡(luò)有效地反向傳播到特征描述神經(jīng)網(wǎng)絡(luò)。HEVC (high efficiency video coding)[58]與深度學(xué)習(xí)相結(jié)合的編碼框架也開(kāi)始受到研究者們的關(guān)注,該類(lèi)編碼框架將深度學(xué)習(xí)技術(shù)引入到HEVC中,是原有編碼框架的擴(kuò)充。目前,深度學(xué)習(xí)技術(shù)在HEVC中的應(yīng)用涉及幀內(nèi)預(yù)測(cè)[59]、幀間預(yù)測(cè)[60]、CU預(yù)測(cè)模式?jīng)Q策[61]、變換[62]、熵編碼[63]、后處理[64]等技術(shù)環(huán)節(jié)。幀內(nèi)預(yù)測(cè)與幀間預(yù)測(cè)是視頻編碼框架中最核心的模塊之一,預(yù)測(cè)又是深度學(xué)習(xí)技術(shù)擅長(zhǎng)的。對(duì)于幀內(nèi)預(yù)測(cè),Li等[59]使用了全連接神經(jīng)網(wǎng)絡(luò),利用更多的上下文信息來(lái)預(yù)測(cè)當(dāng)前塊的像素值,然而這種方法增加了一種新的預(yù)測(cè)模式,與原有的編碼框架兼容性較差,并且這種全連接神經(jīng)網(wǎng)絡(luò)在一定程度上忽略了圖像的局部平滑特性,缺少局部感受野的考慮,導(dǎo)致預(yù)測(cè)的效果不穩(wěn)定。對(duì)于幀間預(yù)測(cè),HEVC一旦選擇了幀間預(yù)測(cè)的一種模式,就會(huì)完全依據(jù)參考幀來(lái)預(yù)測(cè)當(dāng)前像素塊,這種預(yù)測(cè)模式只是參考了時(shí)域信息,從而完全忽略了空域信息的參考價(jià)值。Yan等[60]利用卷積神經(jīng)網(wǎng)絡(luò)做分像素插值,在一定程度上提升了幀間預(yù)測(cè)的準(zhǔn)確性,這種通過(guò)改進(jìn)像素插值來(lái)提升預(yù)測(cè)質(zhì)量的方法忽略了空域上下文,只參考了時(shí)域的信息。
以深度學(xué)習(xí)為核心的圖像視頻編碼主要包括自編碼器和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)這兩種常用的結(jié)構(gòu)。Toderici等[65]提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像壓縮框架,這是一種漸進(jìn)式的編碼方法;在此基礎(chǔ)上,又提出一種全分辨圖像壓縮的循環(huán)神經(jīng)網(wǎng)絡(luò)框架[66],該框架包含基于RNN的編碼器和解碼器及一個(gè)基于神經(jīng)網(wǎng)絡(luò)的熵編碼器,并利用了感知誤差,在GRU和ResNet的基礎(chǔ)上提出了新的深度結(jié)構(gòu),取得了很好的重建效果。隨后,Johnston等[67]在之前工作的基礎(chǔ)上對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn)。最近,Theis等[68]和Balle等[69]分別提出了一種基于神經(jīng)網(wǎng)絡(luò)的編解碼框架。Theis等[68]為了有效地估計(jì)編碼系數(shù)的分布和比特率,引入了一個(gè)高斯多尺度混合模型(gaussian scale mixture),實(shí)現(xiàn)了有效的碼率控制。在Balle等[69]的網(wǎng)絡(luò)中,由于受到生物神經(jīng)元的啟發(fā),采用了聯(lián)合非線(xiàn)性來(lái)實(shí)現(xiàn)局部增益的控制。如何有效地量化也是此類(lèi)問(wèn)題中一個(gè)具有挑戰(zhàn)性的問(wèn)題,Agustsson等[70]在連續(xù)松弛的量化和熵的基礎(chǔ)上,提出了一種Soft-to-Hard量化方法。由于圖像局部?jī)?nèi)容的不相似性,Li等[71]通過(guò)引入重要性圖(importance map)提出了一種基于內(nèi)容自適應(yīng)的量化方法。受到對(duì)抗神經(jīng)網(wǎng)絡(luò)的啟發(fā),Rippel等[72]引入了對(duì)抗訓(xùn)練模塊,有效地提升了重建效果。隨著Inpainting相關(guān)技術(shù)的發(fā)展,基于Inpainting的壓縮框架開(kāi)始受到研究者們的關(guān)注,Baig等[73]利用深度學(xué)習(xí)技術(shù)結(jié)合Inpainting理念提出一個(gè)新的圖像壓縮框架,該框架也是基于一種漸進(jìn)式重建的思想。
本節(jié)采用兩個(gè)例子來(lái)展示自然圖像先驗(yàn)建模在視覺(jué)信息增強(qiáng)和編碼領(lǐng)域的前瞻性應(yīng)用。
單圖像超分辨是一個(gè)經(jīng)典的卻仍然很熱門(mén)的研究方向。很多單圖像超分辨方法已經(jīng)被提出,例如非深度學(xué)習(xí)方法A+[74]、SRF[75],以及基于深度學(xué)習(xí)的方法SRCNN[76]、SCN[77]、FSRCNN[78]。前人的工作表明充分利用圖像的多尺度信息可以有效改善圖像超分辨的效果。但是SRCNN[76]、SCN[77]、FSRCNN[78]都沒(méi)有考慮到多尺度信息。Shi等[79]提出構(gòu)建基于膨脹卷積的inception模塊來(lái)學(xué)習(xí)多尺度信息。
膨脹卷積可以定義為
膨脹卷積是先對(duì)卷積核進(jìn)行不同尺度的膨脹之后再與輸入圖像進(jìn)行卷積操作。具體來(lái)說(shuō),d度膨脹卷積就是在進(jìn)行卷積操作之前先在濾波器核的元素之間插入d-1個(gè)0得到新的濾波器核再與輸入圖像進(jìn)行卷積操作。因?yàn)椴迦肓硕鄠€(gè)0,所以不同膨脹度的卷積就像對(duì)圖像進(jìn)行降采樣得到小尺度的圖像再進(jìn)行卷積一樣。因此,不同膨脹度的卷積學(xué)習(xí)到不同尺度的信息,然后再將這些不同尺度的信息進(jìn)行融合就可以達(dá)到對(duì)多尺度信息的有效利用。
仿照GoogLeNet提出的inception模塊,可以構(gòu)建基于膨脹卷積的多尺度學(xué)習(xí)inception模塊。圖1展示了基于膨脹卷積的inception模塊與Goog-LeNet提出的inception模塊的對(duì)比。GoogLeNet的inception模塊解決的是濾波器尺寸的選擇問(wèn)題,而基于膨脹卷積的inception模塊更希望利用不同尺度的輸入信息。因此基于膨脹卷積的inception模塊具有利用多尺度信息的性質(zhì)。
利用基于膨脹卷積的inception模塊來(lái)學(xué)習(xí)多尺度信息,可以構(gòu)建有效的深度網(wǎng)絡(luò)(命名為MSSRNet)進(jìn)行單圖像超分辨方法,如圖2所示。概括起來(lái),MSSRNet由若干個(gè)基于膨脹卷積的inception模塊級(jí)聯(lián)構(gòu)成端到端的網(wǎng)絡(luò)來(lái)學(xué)習(xí)圖像殘差。這個(gè)網(wǎng)絡(luò)的特點(diǎn)是:利用基于膨脹卷積的inception模塊來(lái)學(xué)習(xí)多尺度信息;通過(guò)級(jí)聯(lián)多個(gè)模塊來(lái)增加網(wǎng)絡(luò)深度來(lái)達(dá)到增加網(wǎng)絡(luò)感受野大小和非線(xiàn)性;通過(guò)學(xué)習(xí)殘差而不是直接學(xué)習(xí)高分辨圖像來(lái)加快網(wǎng)絡(luò)收斂速度以及改善網(wǎng)絡(luò)性能。MSSRNet與多個(gè)流行的單圖像超分辨方法進(jìn)行定量比較的結(jié)果如表1所示。表1給出了不同方法在3個(gè)數(shù)據(jù)庫(kù)(Set5、Set14和BSD200)中3種放大倍數(shù)(分別放大2倍、3倍和4倍)平均PSNR結(jié)果。如表1所示,MSSRNet在3個(gè)數(shù)據(jù)庫(kù)中的3種放大倍數(shù)都取得最佳的重建效果。關(guān)于該方法的更多具體的細(xì)節(jié),請(qǐng)讀者參考文獻(xiàn)[79]。
圖 2 基于膨脹卷積起始模塊的單圖像超分辨網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Single-image super-resolution network structure based on the inception module based on dilatied
表 1 不同方法在3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上3種放大倍數(shù)的定量比較Table 1 Quantitative comparison between various methods based on three benchmarks over three magnifications
盡管壓縮感知技術(shù)有很好的應(yīng)用前景,最近幾年卻發(fā)展非常緩慢,其中一個(gè)主要原因是之前的壓縮重建算法往往需要一個(gè)非常復(fù)雜的解優(yōu)化過(guò)程,重建速度非常慢而影響其實(shí)用性。如圖3所示,傳統(tǒng)的方法DWT[80]、TV[81]、 MH[82]、 CoS[83]和GSR[84]運(yùn)行速度非常慢,因此研究快速的壓縮采樣和重建算法顯得非常必要。經(jīng)過(guò)這么多年的發(fā)展,采樣矩陣的設(shè)計(jì)以及快速壓縮重建算法依然是壓縮感知技術(shù)的兩個(gè)核心問(wèn)題。Shi等[85]提出使用深度網(wǎng)絡(luò)(CSNet)來(lái)解決這兩個(gè)問(wèn)題,也就是用深度網(wǎng)絡(luò)來(lái)學(xué)習(xí)一個(gè)高效的采樣算子,以及設(shè)計(jì)一個(gè)快速卻重建效果好的網(wǎng)絡(luò)實(shí)現(xiàn)圖像快速端到端重建。
圖 3 基于深度學(xué)習(xí)的壓縮感知網(wǎng)絡(luò)框架與傳統(tǒng)的基于塊的壓縮感知方法的對(duì)比Fig. 3 Comparison between compressed sensing framework based on deep learning and the ones based on traditional blocks
圖4給出了基于深度網(wǎng)絡(luò)的壓縮感知方法與傳統(tǒng)的BCS-SPL (block based compressed sampling and smoothed projected landweber) 方法的對(duì)比。如圖所示,BCS-SPL算法包括3個(gè)過(guò)程:壓縮采樣、初始重構(gòu)和非線(xiàn)性信號(hào)重構(gòu)。在BCS中,一個(gè)圖像會(huì)被裁切為 B×B 大小的圖像塊,然后用一個(gè)合適大小的測(cè)量矩陣進(jìn)行采樣。如果采樣率為 M/N ,每個(gè)塊需要個(gè)采樣值。因此采樣矩陣 ΦB是一個(gè) nB×B2的矩陣。假設(shè) xj是第j塊的向量,則相應(yīng)的測(cè)量值可以表示為 yj=ΦBxj。這就實(shí)現(xiàn)了圖像的壓縮采樣過(guò)程。另一個(gè)需要解決的問(wèn)題是,在給定采樣值的情況下,怎么將其準(zhǔn)確恢復(fù)出原來(lái)的圖像。原來(lái)的BCS-SPL方法使用最小均方誤差線(xiàn)性估計(jì)來(lái)估計(jì)初始解。這個(gè)初始重構(gòu)過(guò)程可以表示為
式中 Rxx是輸入圖像信號(hào)的自相關(guān)函數(shù)。明顯地,Φ?R是一個(gè) B2×nB的矩陣。在得到初始解后,BCSSPL方法往往會(huì)進(jìn)行多階段的平滑投影操作進(jìn)行非線(xiàn)性重構(gòu)來(lái)進(jìn)一步改善圖像的質(zhì)量。
CSNet模擬傳統(tǒng)的基于分塊的壓縮感知采樣和重建過(guò)程。圖4的上部是一個(gè)傳統(tǒng)的BCS-SPL方法的采樣和重建框架,下部是CSNet的網(wǎng)絡(luò)框架。如圖4所示,傳統(tǒng)的BCS-SPL方法包括壓縮采樣、初始重構(gòu)和非線(xiàn)性信號(hào)重構(gòu)3個(gè)過(guò)程。CSNet設(shè)計(jì)一個(gè)采樣子網(wǎng)絡(luò)、一個(gè)初始重構(gòu)子網(wǎng)絡(luò)和一個(gè)深度重構(gòu)子網(wǎng)絡(luò)來(lái)模擬傳統(tǒng)BCS-SPL的3個(gè)過(guò)程。采樣子網(wǎng)絡(luò)用一個(gè)卷積層模擬傳統(tǒng)的采樣矩陣 Φ。假設(shè)塊劃分大小為 B×B,為 M/N ,那 么 Φ 是 一 個(gè)行 B2列的矩陣。那么采樣子網(wǎng)絡(luò)將會(huì)是一個(gè)有個(gè)B×B大小濾波器的卷積層。初始重構(gòu)子網(wǎng)絡(luò)包括一個(gè)卷積層和一個(gè)合并重構(gòu)層。初始重構(gòu)子網(wǎng)絡(luò)的卷積層有 B2個(gè)空間維度為1 ×1大小濾波器,而合并重構(gòu)層是一個(gè)拼接和串聯(lián)操作。深度重構(gòu)子網(wǎng)包括多個(gè)卷積操作。這個(gè)方法很好地模擬了傳統(tǒng)的壓縮重構(gòu)過(guò)程,并且將復(fù)雜的解優(yōu)化過(guò)程隱含于簡(jiǎn)單的深度重構(gòu)子網(wǎng)中,可以得到更好的重構(gòu)質(zhì)量和更快的運(yùn)行速度。
圖 4 CSNet與流行算法的運(yùn)行速度和重構(gòu)PSNR的對(duì)比Fig. 4 Comparison of the running speed and PSNR between CSNet and the state-of-the-art methods
表2給出基于深度學(xué)習(xí)的壓縮感知方法(CSNet)與其他流行的壓縮感知方法在Set14數(shù)據(jù)集中5種采樣率下的重建結(jié)果的平均PSNR和SSIM結(jié)果的對(duì)比。如表2所示,CSNet在各種采樣率下與現(xiàn)有的方法相比都取得了顯著的重建效果提升。圖3給出了CSNet與流行算法在Set5數(shù)據(jù)集上采樣率為0.1的重建圖像的PSNR與運(yùn)行速度的對(duì)比。結(jié)果顯示,CSNet不僅重建效果好運(yùn)行速度也顯著提升。更多關(guān)于CSNet的細(xì)節(jié),請(qǐng)讀者參考文獻(xiàn)[75]。
表 2 不同算法在Set14數(shù)據(jù)集中5種壓縮采樣率下的重建結(jié)果的平均PSNR和SSIM對(duì)比Table 2 Averages of PSNR and SSIM over 5 sampling rates between various methods on Set14
綜上所述,從理論模型到應(yīng)用方法,縱觀(guān)各層面的根本任務(wù)、彼此聯(lián)結(jié)及發(fā)展現(xiàn)狀,有如下認(rèn)識(shí):在低層計(jì)算機(jī)視覺(jué)層面,深度結(jié)構(gòu)可以從豐富的感知信息中歸納或解釋復(fù)雜的結(jié)構(gòu)和建立數(shù)據(jù)中內(nèi)在的表征,特別是為視覺(jué)信息的表達(dá)提供了高效的手段與工具;與傳統(tǒng)自然圖像先驗(yàn)功能模擬相比,以數(shù)據(jù)為根本驅(qū)動(dòng),以精確描述和解釋自然圖像子空間為目標(biāo)的自然圖像先驗(yàn)深度模型,可先天克服傳統(tǒng)先驗(yàn)建模方法片面、孤立的缺點(diǎn),這使得我們跳出以往較為單一先驗(yàn)建模方法,在更高的層面思考問(wèn)題。
借助計(jì)算層面的自然圖像先驗(yàn)?zāi)P褪蔷幋a技術(shù)的必然選擇。先驗(yàn)知識(shí)在自然圖像認(rèn)知過(guò)程中起著至關(guān)重要的作用?;跀?shù)字信號(hào)處理的傳統(tǒng)編碼技術(shù)并沒(méi)有直接從人類(lèi)的視覺(jué)感知過(guò)程出發(fā),而壓縮圖像最終要服務(wù)于人的感知;盡管認(rèn)知心理層面的視覺(jué)先驗(yàn)機(jī)理測(cè)試給出一些重要的發(fā)現(xiàn)與啟示,但是僅僅依靠其去解釋大腦對(duì)自然圖像一般性規(guī)律的歸納與認(rèn)知是不現(xiàn)實(shí)的。因此從計(jì)算層面的視覺(jué)先驗(yàn)功能模擬角度去解釋?zhuān)拍軌驅(qū)⒁曈X(jué)信息編碼從圖像空間過(guò)渡到自然圖像子空間,這是一種合理、必須的選擇。