謝海平,謝凱利,楊海濤
1.航天工程大學(xué) 研究生院,北京101416
2.航天工程大學(xué) 航天信息學(xué)院,北京101416
近年來,隨著人們對(duì)高質(zhì)量圖像的需求日益迫切,如何獲取高分辨率(High Resolution,HR)的圖像越來越受到人們的關(guān)注。圖像在形成過程中,其成像分辨率直接受到成像系統(tǒng)固有物理性能的限制,同時(shí)由于存在大氣擾動(dòng)、場景變化等因素影響,成像結(jié)果面臨欠采樣、光學(xué)模糊、運(yùn)動(dòng)模糊和噪聲的干擾,最終形成質(zhì)量較差、分辨率較低的圖像或圖像序列,給后續(xù)的圖像處理、分析和理解帶來諸多困難[1-2]。一般來說,通過對(duì)硬件進(jìn)行升級(jí)改造可以提升成像系統(tǒng)性能,提高圖像分辨率,通常有以下三種途徑[3]:
(1)減小像素傳感器的尺寸,即增大成像裝置中單位面積傳感器上的像素?cái)?shù)目。然而,隨著傳感器尺寸的減小,單位像素上的有效光強(qiáng)也隨之減弱,導(dǎo)致圖像形成噪點(diǎn)。
(2)增大芯片尺寸,可以實(shí)現(xiàn)像素?cái)?shù)目的增大,但芯片尺寸增大的同時(shí)會(huì)導(dǎo)致電容的增加,影響電荷傳輸速率。
(3)通過提高相機(jī)的焦距來增強(qiáng)圖像的空間分辨率,然而該方法會(huì)帶來成像設(shè)備體積與重量增加,光學(xué)部件尺寸增大等負(fù)面影響,大大提高了光學(xué)材料的制造加工難度以及使用成本。
綜上,由于受到工藝水平、成本等因素的影響,單純依靠硬件上的改善來獲取高質(zhì)量高分辨率圖像,往往并不現(xiàn)實(shí)。由于從硬件上提升圖像分辨率的限制,人們考慮通過圖像處理技術(shù)的軟方法來重構(gòu)原始圖像,以獲得具有更好分辨率的圖像,這就是圖像超分辨率(Super-Resolution,SR)技術(shù)[4-5]。
超分辨率技術(shù)通常定義如下:給定某個(gè)場景的單張或者序列低分辨率(Low Resolution,LR)圖像,結(jié)合一定的先驗(yàn)信息以后,利用一定的圖像處理方法,重構(gòu)得到該場景的HR圖像[6]。超分辨率技術(shù)為提供了一種新的提升圖像質(zhì)量的辦法,其發(fā)展路線大致可以分成三個(gè)階段:20世紀(jì)60年代,Harris和Goodman[7-8]提出了“圖像超分辨率”的想法,并希望找到實(shí)現(xiàn)這一過程的方法,其研究還停留在理論探索階段;1984年,Tsai等人[9]使用傅里葉變換域法融合了多幀低分辨率圖像后,獲得了一張分辨率增大的圖像,證明了通過配準(zhǔn)和融合多個(gè)圖像來增強(qiáng)圖像分辨率的可行性,自此以后,超分辨率研究越來越受到國內(nèi)外學(xué)者的關(guān)注;2014年,Dong 等人[10]利用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了SRCNN(Super Resolution Convolutional Neural Network)網(wǎng)絡(luò),拓寬了深度學(xué)習(xí)技術(shù)的應(yīng)用范圍,為構(gòu)建更好的超分辨率模型提供了思路。
圖像超分辨率屬于欠定問題。根據(jù)輸入圖像數(shù)目,分為單圖像超分辨率和序列圖像超分辨率。序列圖像超分辨率通過增加觀測(cè)數(shù)據(jù)的數(shù)目,使數(shù)理方程的求解滿足正定或者超定的條件,進(jìn)而求解[11]。相比于序列圖像超分辨率,單圖像超分辨率的優(yōu)勢(shì)在于避免重復(fù)獲取圖像,且無須配準(zhǔn)操作,流程更加簡單。同時(shí)考慮到圖像豐富的紋理特征及其內(nèi)在的自相關(guān)性,單圖像超分辨率模型對(duì)于同一場景下的低分辨率圖像均可以使用,增強(qiáng)了重構(gòu)模型的適用性[12]。
根據(jù)實(shí)現(xiàn)手段,圖像超分辨率方法可分為三種:基于插值、基于重構(gòu)、基于學(xué)習(xí)[13]。近年來,隨著有效數(shù)據(jù)的不斷增加、高計(jì)算能力的實(shí)現(xiàn)以及訓(xùn)練方法的日益完善,深度學(xué)習(xí)在圖像處理領(lǐng)域占據(jù)極為重要的地位,深度學(xué)習(xí)方法也已經(jīng)成為超分辨率領(lǐng)域的一個(gè)重要分支,日益占據(jù)更加重要的地位。本文對(duì)圖像超分辨率方法的分類如圖1所示。
圖1 圖像超分辨率方法的分類
插值法主要通過基函數(shù)或者插值核,利用鄰近像素的值來逼近損失的圖像信息,實(shí)現(xiàn)圖像分辨率的放大。常見方法如最近鄰插值法、雙線性插值法、雙三次插值法、樣條插值法、高斯插值法等。其中,雙線性插值法通過4 個(gè)鄰近像素點(diǎn)的值來確定待插值像素點(diǎn)的值,插值效果比最近鄰插值法好得多,但是也帶來了計(jì)算量的增大。雙三次插值法使用16個(gè)鄰近像素點(diǎn)的值來確定待插值像素點(diǎn)的值,在保持細(xì)節(jié)方面通常比雙線性插值法更好,是部分商業(yè)圖像編輯程序如Adobe Photoshop的標(biāo)準(zhǔn)插值方法。對(duì)于普通的數(shù)字圖像處理而言,雙線性插值法和雙三次插值法是人們選擇較多的插值方法。
插值法確定插值函數(shù)后,就可以通過已知數(shù)據(jù)值來確定待插值像素的值,簡單易行,能夠快速地實(shí)現(xiàn)圖像分辨率變換。然而,插值過程并沒有引入任何新的外部信息,因此無法恢復(fù)圖像退化過程中損失的高頻細(xì)節(jié),重建圖像通常存在明顯的模糊區(qū)和成塊聚集區(qū)[14]。同時(shí),插值過程也會(huì)帶來誤差,影響重構(gòu)效果。因此,在圖像超分辨率的研究中,由于插值法自身的局限性,通常被用作其他方法的預(yù)處理步驟。
為了提高插值法的重構(gòu)效果,有學(xué)者結(jié)合圖像特征理論,提出了基于梯度特征的插值法[15]、基于幾何特征的插值法[16]等。近年來,由于卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域表現(xiàn)出良好的性能,機(jī)器學(xué)習(xí)技術(shù)不斷取得新的突破,基于機(jī)器學(xué)習(xí)的核回歸插值方法相繼提出。Tomasi等人[17]提出的基于雙邊濾波器的插值法,引入雙邊濾波器作為約束項(xiàng),改善了重建圖像的邊緣效果。Hiroyuki等人[18]提出自適應(yīng)局部結(jié)構(gòu)的可控核回歸方法,提升了重建圖像的局部結(jié)構(gòu)效果。由于這些方法更多地考慮了圖像的邊緣細(xì)節(jié)與局部結(jié)構(gòu),相比于一般的插值方法可以更好地重構(gòu)出圖像的邊緣和紋理[19]。
本文中,考慮到圖像插值不僅是很多其他超分辨率方法所必須的步驟,同時(shí)由于已有學(xué)者[16]將特征理論和插值理論結(jié)合,實(shí)現(xiàn)了引入圖像先驗(yàn)信息的插值超分辨率,因此,將圖像插值方法也歸為超分辨率方法的一種。
圖像超分辨率技術(shù)的理想目標(biāo)是利用退化的圖像中重構(gòu)出退化前的圖像,這在數(shù)學(xué)上屬于高度欠定問題[20]。重構(gòu)法的主要思路是通過逆推圖像的成像過程,建立的LR 圖像和HR 圖像之間的觀測(cè)模型,并引入圖像的局部或全局先驗(yàn)?zāi)P?,最終建立數(shù)據(jù)保真項(xiàng)和圖像先驗(yàn)正則化的優(yōu)化模型進(jìn)行求解[21]。其中最關(guān)鍵的地方在于圖像先驗(yàn)建模[22],不僅可以是正則性先驗(yàn),還可以是稀疏性先驗(yàn)或者馬爾科夫隨機(jī)場等先驗(yàn)?zāi)P停ㄟ^圖像先驗(yàn)信息對(duì)重構(gòu)結(jié)果進(jìn)行約束,求解出盡可能接近原始圖像的重構(gòu)結(jié)果。優(yōu)化模型可以在確定性模型和統(tǒng)計(jì)性模型兩類模型中進(jìn)行選取,這兩類模型之間也有很多相似性。相對(duì)來說,統(tǒng)計(jì)性模型比確定性模型包含圖像先驗(yàn)的能力更強(qiáng),同時(shí)統(tǒng)計(jì)推理也更為復(fù)雜[23]。
重構(gòu)法比插值法更加關(guān)注圖像的退化過程本身,通過人為建立的數(shù)據(jù)觀測(cè)模型能夠縮小候選解的范圍,并提高圖像幾何結(jié)構(gòu)和紋理的保持能力,獲得了比插值法更好的重構(gòu)效果。然而由于圖像在成像過程中面臨的退化因素十分復(fù)雜,人工建模無法完備地建立這一過程,因此這種方法只適用于少部分場景[24]。
在基于學(xué)習(xí)的超分辨率方法出現(xiàn)之前,基于重構(gòu)的方法是圖像超分辨率研究的主要方向,出現(xiàn)了迭代反向投影法、凸集投影法、最大后驗(yàn)概率法等代表性方法。
其中,迭代反向投影法[25]的主要思想是將重建圖像的退化圖像與真實(shí)低分辨率圖像之間的誤差進(jìn)行反向投影并用于修正當(dāng)前重建圖像,逐步迭代以獲得更好的重建效果,是早期圖像超分辨率的代表性算法之一。
凸集投影[26]是基于集合理論提出的,首先為超分辨率的圖像解空間定義一組凸約束集,通過逐步迭代投影的方式搜索到一個(gè)滿足所有凸約束集的解空間從而完成圖像重建。
最大后驗(yàn)概率法[27]是基于概率統(tǒng)計(jì)的理論提出的一種方法,其主要思想是通過設(shè)計(jì)合理的統(tǒng)計(jì)先驗(yàn)?zāi)P?,使重建圖像后驗(yàn)概率達(dá)到最大。其中統(tǒng)計(jì)先驗(yàn)?zāi)P驮O(shè)計(jì)的合理性直接決定著圖像的重建效果。
這些方法都是以一定的先驗(yàn)知識(shí)來約束重構(gòu)過程,在一定程度上緩解了插值方法所帶來的模糊效應(yīng),但其缺點(diǎn)同樣明顯?;谥貥?gòu)的圖像超分辨率方法的關(guān)鍵在于圖像退化數(shù)學(xué)模型,面臨很大的計(jì)算量,計(jì)算過程耗時(shí)長,求解困難,且放大倍數(shù)較大時(shí),由于無法獲得足夠多的先驗(yàn)知識(shí),重構(gòu)效果往往不太理想[28]。
學(xué)習(xí)法的提出得益于機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,鑒于機(jī)器學(xué)習(xí)在圖像分類、目標(biāo)檢測(cè)等圖像處理任務(wù)中的優(yōu)異表現(xiàn),許多學(xué)者開始嘗試使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行圖像超分辨率[29]。
自然界圖像的構(gòu)成總有聯(lián)系,學(xué)習(xí)法的基本思想是通過從高/低分辨率圖像塊之間的對(duì)應(yīng)關(guān)系中,學(xué)習(xí)到圖像之間的映射關(guān)系,從而利用相似性快的互補(bǔ)信息,達(dá)到補(bǔ)償細(xì)節(jié)和提升清晰度的作用[30],主要包括建立訓(xùn)練樣本庫(特征提?。?、樣本學(xué)習(xí)(搜索)、圖像重構(gòu)三個(gè)階段。
學(xué)習(xí)法可以分為兩類:基于淺層學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[31]。淺層學(xué)習(xí)法是由傳統(tǒng)的機(jī)器學(xué)習(xí)算法發(fā)展而來的。傳統(tǒng)機(jī)器學(xué)習(xí)方法通過復(fù)雜的特征工程確定特征,通常采用人工或者半人工的方法設(shè)計(jì)特征并調(diào)參,這個(gè)過程并不容易,十分依賴該領(lǐng)域?qū)<业慕?jīng)驗(yàn)知識(shí)和長期積累的訓(xùn)練技巧。優(yōu)點(diǎn)是對(duì)于小型數(shù)據(jù)集表現(xiàn)出較好的適應(yīng)性,計(jì)算成本相對(duì)較低,且當(dāng)一個(gè)好的特征被確定時(shí),學(xué)習(xí)的準(zhǔn)確率和速度都會(huì)有驚人的提升,因此傳統(tǒng)的機(jī)器學(xué)習(xí)方法在一些領(lǐng)域已經(jīng)得到了推廣應(yīng)用[32]。從現(xiàn)有研究成果來看,基于淺層學(xué)習(xí)的超分辨率方法在對(duì)人臉、文本等特定對(duì)象進(jìn)行重構(gòu)時(shí)表現(xiàn)出較好的效果[33]。目前,淺層學(xué)習(xí)法主要有領(lǐng)域嵌入、流形學(xué)習(xí)、稀疏表示等方法[34]。
領(lǐng)域嵌入法[35]通過對(duì)圖像進(jìn)行分塊,建立高分辨率圖像塊與其對(duì)應(yīng)的低分辨率圖像塊、高分辨率圖像塊與其近鄰圖像塊之間的關(guān)系,進(jìn)而使用低分辨率圖像數(shù)據(jù)估計(jì)出重建圖像。
流形學(xué)習(xí)法[36]是基于高分辨率圖像塊與低分辨率圖像塊具有一致的流形結(jié)構(gòu)提出的。對(duì)于給定的待重建低分辨率圖像塊,首先在低分辨率圖像塊樣本集中找到近鄰的圖像樣本,建立近鄰關(guān)系,并與對(duì)應(yīng)的高分辨率圖像塊樣本完成替換,從而實(shí)現(xiàn)圖像重構(gòu)。
稀疏表示法[37-38]不直接采用高-低分辨率圖像塊作為字典,而是通過稀疏編碼算法學(xué)習(xí)更為緊湊的圖像塊對(duì),進(jìn)而通過高分辨率字典和低分辨率字典中的稀疏表示系數(shù)重建圖像塊,最后進(jìn)行全局聚合,完成圖像重建。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)發(fā)展出的一個(gè)分支,是人工智能研究的一個(gè)熱門方向。近年來,深度學(xué)習(xí)特別是卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)分類、識(shí)別、語義分割等領(lǐng)域取得了較好的效果,受其啟發(fā),許多學(xué)者的開始研究基于深度學(xué)習(xí)的超分辨率方法[39]。本文中,考慮到深度學(xué)習(xí)方法在研究理念、實(shí)施方法上與傳統(tǒng)方法存在較大差別,將這一部分放在下一節(jié)進(jìn)行介紹。
本節(jié)對(duì)圖像超分辨率方法進(jìn)行了分類,并對(duì)插值法、重構(gòu)法和學(xué)習(xí)法進(jìn)行了介紹。表1中對(duì)這幾類方法的核心思想、技術(shù)特點(diǎn)和應(yīng)用范圍進(jìn)行了比較。圖像超分辨率屬于數(shù)學(xué)問題中的欠定問題,理論上來說存在無窮多解。傳統(tǒng)方法綜合考慮圖像成像過程中的諸如運(yùn)動(dòng)變形、光學(xué)模糊、低采樣率、隨機(jī)噪聲等多種退化因素,對(duì)圖像超分辨率的降質(zhì)過程展開研究,在變形模型、模糊模型、采樣模型、噪聲模型等方面都取得了一定的進(jìn)展[29]。然而,由于圖像的退化過程的求解極為復(fù)雜,現(xiàn)有技術(shù)手段只能簡單地進(jìn)行模擬,尚無法建立起完備的退化模型。在超分辨率圖像退化建模取得實(shí)質(zhì)性突破之前,傳統(tǒng)方法的重構(gòu)效果仍然很難滿足實(shí)際使用的需要[40]。
表1 圖像超分辨率方法比較
基于深度學(xué)習(xí)的超分辨率方法以常見的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[41]以及其他網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)(如圖2),針對(duì)圖像超分辨率的具體需求,發(fā)展出一系列各具特色的超分辨率網(wǎng)絡(luò)模型[42]。
圖2 基于深度學(xué)習(xí)的超分辨率方法
(1)SRCNN
2014 年,香港中文大學(xué)的Dong 等人[10]提出了首個(gè)用于超分辨率的深度學(xué)習(xí)網(wǎng)絡(luò)SRCNN,利用三層神經(jīng)網(wǎng)絡(luò),模擬出傳統(tǒng)超分辨率過程。首先是特征提取層,將輸入的插值后的LR圖像中的n1個(gè)特征提取出來,實(shí)現(xiàn)圖像特征提??;其次是非線性映射層,將n1個(gè)LR 圖像特征映射到n2個(gè)HR圖像特征的映射空間;最后通過重構(gòu)層利用n2個(gè)特征重構(gòu)得到SR圖像。SRCNN網(wǎng)絡(luò)結(jié)構(gòu)較為簡單,作者通過與當(dāng)時(shí)流行的稀疏表示方法進(jìn)行對(duì)比,發(fā)現(xiàn)在峰值信噪比(Peak Signal-To-Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structural Similarity,SSIM)兩個(gè)評(píng)價(jià)指標(biāo)上[43],SRCNN均取得了更好的效果。
SRCNN的提出可以視為基于深度學(xué)習(xí)的超分辨率方法的里程碑。它的模型簡單,效果優(yōu)于傳統(tǒng)方法,但是仍然存在不足。由于輸入圖像需要經(jīng)過插值,增大了計(jì)算量,同時(shí),插值過程引入的誤差也會(huì)影響重構(gòu)效果,此外,該模型收斂速度較慢,訓(xùn)練耗時(shí)較長。
在此之后,雖然研究者們又提出了很多新的網(wǎng)絡(luò)模型,但是SRCNN仍舊作為一個(gè)基準(zhǔn)實(shí)驗(yàn),用于評(píng)估其他網(wǎng)絡(luò)模型的有效性。
Dong 等人[44]對(duì)SRCNN 進(jìn)行適當(dāng)?shù)母倪M(jìn),提出了Fast-SRCNN(FSRCNN)模型。FSRCNN 首先引入解卷積層,以解決SRCNN 輸入經(jīng)過插值的LR 圖像的問題,減少了計(jì)算量和輸入誤差且能夠通過改變解卷積層實(shí)現(xiàn)不同尺度放大;同時(shí)改變了卷積核大小和網(wǎng)絡(luò)深度。最終,F(xiàn)SRCNN 獲得了更高的訓(xùn)練速度和更好的重構(gòu)效果。
(2)ESPCN
2016 年,Shi 等人[45]提出了一種基于像素重排的ESPCN(Efficient Sub-Pixel Convolutional Neural Network)網(wǎng)絡(luò)模型,通過直接在LR圖像上實(shí)施卷積操作以提取LR圖像的特征,再通過亞像素卷積層將LR空間中的特征擴(kuò)充到HR空間,將卷積后得到的特征進(jìn)行像素排列,得到重構(gòu)圖像。該模型提出的像素重排策略可以看作是一種新的插值策略,通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)低-高分辨率圖像之間的插值函數(shù)。由于該方法并不是簡單地利用相鄰像素來計(jì)算待插值像素值,因此重構(gòu)效果遠(yuǎn)優(yōu)于插值法。同時(shí),該方法可以通過靈活調(diào)整特征通道的數(shù)目快速地實(shí)現(xiàn)不同倍數(shù)的放大,為實(shí)現(xiàn)不同倍數(shù)的圖像超分辨率提供了一種新的策略。
(3)VDSR
2016年,Kim等人[46]率先將殘差結(jié)構(gòu)引入超分辨率方法中,構(gòu)建了網(wǎng)絡(luò)層數(shù)深達(dá)20層的VDSR(Very Deep convolutional networks for Super-Resolution)模型。VDSR通過采用多層小卷積核進(jìn)行深層次卷積,既減少了參數(shù)量,又增大了深層次網(wǎng)絡(luò)的感受野,能夠?qū)W習(xí)更好的特征,取得了比SRCNN 更好的效果。引入殘差結(jié)構(gòu)有兩方面的原因:首先是網(wǎng)絡(luò)加深存在網(wǎng)絡(luò)退化問題,而學(xué)習(xí)殘差能夠減輕深度網(wǎng)絡(luò)訓(xùn)練中此類問題的影響;另外,由于高低分辨率圖像之間具有大量相似的低頻信息,使用殘差結(jié)構(gòu)能夠避免重復(fù)學(xué)習(xí)相似的低頻信息,加快網(wǎng)絡(luò)收斂速度,節(jié)省運(yùn)算時(shí)間[47]。然而,由于該網(wǎng)絡(luò)只引入了一個(gè)跳躍連接,梯度消失問題沒有得到較好的緩解。作者還使用了自適應(yīng)梯度裁剪策略用于解決梯度消失/爆炸問題。
(4)EDSR
2017 年,韓國首爾大學(xué)的SNU CV Lab 團(tuán)隊(duì)提出了EDSR(Enhanced Deep residual networks for Super-Resolution)網(wǎng)絡(luò)模型[48]。它在深度殘差網(wǎng)絡(luò)的基礎(chǔ)上改變了網(wǎng)絡(luò)結(jié)構(gòu),去掉了批歸一化(Batch Normalization,BN)層,不僅節(jié)省了的內(nèi)存,還大大加快了計(jì)算速度。此外,EDSR 還使用了一種數(shù)據(jù)增強(qiáng)策略(Geometric Self-ensemble),對(duì)每張LR 圖像要進(jìn)行多次幾何變換,獲得對(duì)應(yīng)的HR圖像,再將所有結(jié)果取平均,得到最終的重構(gòu)圖像,增強(qiáng)了網(wǎng)絡(luò)的穩(wěn)定性。
(5)RCAN
2018年,Zhang等人[49]將信號(hào)處理中的通道注意力機(jī)制引入到超分辨率中,構(gòu)建了RCAN(Residual Channel Attention Networks)網(wǎng)絡(luò)模型。他們指出,在圖像超分辨率過程中,不同卷積核所提取的特征對(duì)于最終結(jié)果的貢獻(xiàn)應(yīng)該是不同的,因此各通道特征也該賦予不同的權(quán)重,以此來增強(qiáng)不同通道之間的差異性。通道注意機(jī)制的引入提升了網(wǎng)絡(luò)對(duì)有用信道的關(guān)注度,增強(qiáng)了網(wǎng)絡(luò)的辨別學(xué)習(xí)能力。
(1)SRGAN
對(duì)于圖像超分辨率任務(wù)來說,重構(gòu)丟失了大量細(xì)節(jié)信息的LR 圖像無異于是一種圖像細(xì)節(jié)生成技術(shù)。Ledig 等人[50]將GAN 引入圖像超分辨率領(lǐng)域,提出了SRGAN網(wǎng)絡(luò)模型。該模型包括生成器與判別器兩個(gè)部分,生成器負(fù)責(zé)合成高分辨率圖像,判別器則負(fù)責(zé)鑒別輸入圖像是來自于生成數(shù)據(jù)還是真實(shí)數(shù)據(jù),當(dāng)判別器無法再鑒別輸入圖像是來自于生成數(shù)據(jù)集還是真實(shí)數(shù)據(jù)集時(shí),就可以認(rèn)為生成器在該判別器下具有了合成高分辨率圖像的能力。
SRGAN使用主觀評(píng)價(jià)體系對(duì)重構(gòu)結(jié)果進(jìn)行打分評(píng)估,盡管重構(gòu)圖像在PSNR 值上沒有明顯的提升,但是通過對(duì)抗訓(xùn)練,獲得更加符合人類視覺感知的圖像,為生成更豐富的重構(gòu)圖像細(xì)節(jié)信息帶來了新的思路,
(2)雙GAN模型
英國諾丁漢大學(xué)的Bulat等人[51]還提出了利用兩個(gè)GAN 模型來進(jìn)行人臉圖像超分辨率??紤]到現(xiàn)有的LR 圖像都是由人為進(jìn)行下采樣獲得的,而實(shí)際場景圖像的退化過程極其復(fù)雜,因此該模型首先利用一個(gè)GAN 網(wǎng)絡(luò)來學(xué)習(xí)HR 圖像到LR 圖像的退化過程,將生成的LR 圖像與原HR 圖像構(gòu)成圖像對(duì),再使用另一個(gè)GAN網(wǎng)絡(luò)進(jìn)行超分辨率重構(gòu)。
該網(wǎng)絡(luò)有針對(duì)性地研究了圖像的退化過程,將實(shí)驗(yàn)研究與實(shí)際應(yīng)用結(jié)合起來,提升了圖像超分辨率的應(yīng)用價(jià)值。
(1)SRDenseNet
密集連接卷積神經(jīng)網(wǎng)絡(luò)(Dense Convolutional Network,DenseNet)是Huang 等人[52]提出的一種模型,其基本思路與ResNet 一致,但是它建立的是前面所有層和后面層的密集連接。Tong 等人[53]在密集連接網(wǎng)絡(luò)的基礎(chǔ)上加入跳躍連接,構(gòu)建了SRDenseNet。通過大量的稠密連接,SRDenseNet 使每一層的特征能夠?qū)崿F(xiàn)串聯(lián)而不是像殘差結(jié)構(gòu)那樣直接相加,在參數(shù)量和計(jì)算成本更少的情況下實(shí)現(xiàn)更好的性能。他們指出,受益于底層特征和高層特征的組合,超分辨率的性能得到了提升,且在實(shí)驗(yàn)中發(fā)現(xiàn)當(dāng)所有深度層的特征都串聯(lián)起來時(shí),得到了最佳的重構(gòu)效果,說明不同深度層之間包含的信息是互補(bǔ)的。
(2)DBPN
2018年,Harris等人[54]以迭代反投影法為基礎(chǔ),構(gòu)建了DBPN(Deep Back Projection Networks)網(wǎng)絡(luò)模型。作者借鑒了迭代反投影的思想,設(shè)計(jì)了一種不斷迭代地進(jìn)行增采樣和降采樣的網(wǎng)絡(luò),為每個(gè)階段提供錯(cuò)誤反饋機(jī)制,并提取圖像的細(xì)節(jié)信息用于重構(gòu)。DBPN網(wǎng)絡(luò)中的反復(fù)迭代使得神經(jīng)網(wǎng)絡(luò)能夠更好地受到特征的約束,更貼近地?cái)M合出高低分辨率之間的關(guān)系,在高倍數(shù)下也能表現(xiàn)出較好的重構(gòu)效果。
(3)SR-RAW
2019 年,Zhang 等人[55]使用全景相機(jī)不同焦距下的圖像用于圖像超分辨率,其認(rèn)為,對(duì)高分辨率圖像進(jìn)行降采樣來制作低分辨率圖像并不滿足真實(shí)的低分辨率圖像分布,因此這樣訓(xùn)練出來的模型在標(biāo)準(zhǔn)數(shù)據(jù)集上表現(xiàn)效果較好,然而在真實(shí)應(yīng)用時(shí),效果很差。他們提出使用單反相機(jī)在不同焦距下進(jìn)行拍攝,制作真實(shí)場景下的高低分辨率數(shù)據(jù)集,在實(shí)際使用中獲得了較好的效果。
近年來,深度學(xué)習(xí)技術(shù)蓬勃發(fā)展,圖像超分辨率的研究熱點(diǎn)逐漸轉(zhuǎn)移到深度學(xué)習(xí)上,發(fā)展出一系列以CNN 和GAN 為基礎(chǔ)的網(wǎng)絡(luò)模型,本節(jié)給出了基于深度學(xué)習(xí)的超分辨率方法的分類,并介紹了其中的主要方法。從理論上來說,神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中學(xué)習(xí)先驗(yàn)知識(shí)與超分辨率先驗(yàn)建模的思想不謀而合;從使用效果來說,使用深度學(xué)習(xí)方法進(jìn)行超分辨率在各項(xiàng)評(píng)價(jià)指標(biāo)均顯著優(yōu)于傳統(tǒng)方法。因此,基于深度學(xué)習(xí)的超分辨率重構(gòu)方法已經(jīng)成為單圖像超分辨率的主流方法,并且在解決實(shí)際問題中得到了應(yīng)用。然而,基于深度學(xué)習(xí)的超分辨率模型的發(fā)展仍然有以下幾個(gè)方面的問題需要解決:
(1)訓(xùn)練數(shù)據(jù)的問題。超分辨率的學(xué)習(xí)和訓(xùn)練需要有對(duì)應(yīng)的高低分辨率圖像對(duì),由于圖像配準(zhǔn)和對(duì)齊十分困難,目前大多數(shù)實(shí)驗(yàn)采用的低分辨率圖像都是通過高分辨率圖像插值而來的,并不符合真實(shí)的圖像退化過程。部分學(xué)者使用相機(jī)拍攝raw 格式的高低分辨率圖像,獲得了符合真實(shí)退化過程的訓(xùn)練數(shù)據(jù)。然而,這樣操作費(fèi)時(shí)費(fèi)力,也只能獲得有限的數(shù)據(jù),不利于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。因此如何更準(zhǔn)確高效地獲得更貼近圖像真實(shí)退化過程的高低分辨率圖像對(duì),是一個(gè)亟待解決的問題。
(2)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)和參數(shù)調(diào)整問題。深度學(xué)習(xí)在提取圖像特征方面具有天然的優(yōu)勢(shì),然而由于深度學(xué)習(xí)理論的不可解釋性,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)和參數(shù)調(diào)整往往依靠人為來控制,對(duì)于設(shè)計(jì)者的知識(shí)和經(jīng)驗(yàn)要求較高。目前,以EDSR 為代表的深度殘差網(wǎng)絡(luò)能夠獲得較高的重構(gòu)效果,同時(shí)計(jì)算量也較大。基于GAN 的模型有較強(qiáng)的細(xì)節(jié)生成能力,然而生成細(xì)節(jié)的可控性較差[56]。同時(shí),超分辨率任務(wù)面臨不同的應(yīng)用場景,在航天遙感、醫(yī)學(xué)圖像重建、電視電影等領(lǐng)域的需求是不同的,如何設(shè)計(jì)一個(gè)符合應(yīng)用場景需求,同時(shí)兼具速度與效果佳的網(wǎng)絡(luò)模型依然未來的研究重點(diǎn)。
(3)網(wǎng)絡(luò)訓(xùn)練和優(yōu)化問題。通過拓展神經(jīng)網(wǎng)絡(luò)深度和寬度,往往能夠取得更好的訓(xùn)練效果。然而,隨著網(wǎng)絡(luò)層次加深,網(wǎng)絡(luò)面臨退化問題,訓(xùn)練難度不斷增大。殘差網(wǎng)絡(luò)、密集連接網(wǎng)絡(luò)的引入,緩解了深度網(wǎng)絡(luò)的退化問題。同時(shí),一些訓(xùn)練策略如采用小卷積核、通道注意機(jī)制、分組卷積、去批歸一化層等的采用,提升了重構(gòu)效果,減少了網(wǎng)絡(luò)的計(jì)算量。目前來說,網(wǎng)絡(luò)訓(xùn)練和優(yōu)化策略有了一定的發(fā)展,但是仍然存在很多可以改進(jìn)提升的地方。
(4)模型評(píng)價(jià)問題。在超分辨率重建中,評(píng)價(jià)指標(biāo)的選取直接影響著模型優(yōu)化改進(jìn)的方向。目前通常采用PSNR 和SSIM 作為客觀評(píng)價(jià)重構(gòu)結(jié)果的指標(biāo),計(jì)算簡單方便,卻與人類視覺的一致性較弱。主觀評(píng)價(jià)指標(biāo)需要大量的人力物力投入,在實(shí)際使用中存在較大的局限。因此,針對(duì)不同重建方法本身的特點(diǎn)和不同場景的使用需求,設(shè)計(jì)合適的評(píng)價(jià)指標(biāo),對(duì)于提升超分辨率的使用價(jià)值具有重要意義。
總的來說,深度學(xué)習(xí)在圖像超分辨率領(lǐng)域表現(xiàn)出巨大的潛力,但是以上問題仍需探索完善,繼續(xù)開展基于深度學(xué)習(xí)的圖像超分辨率的研究工作,具有重要的理論意義和實(shí)用價(jià)值。
圖像超分辨率技術(shù)通過軟件處理的方法實(shí)現(xiàn)圖像分辨率提升,在無需改變硬件的情況下,突破了固有成像設(shè)備的限制。本文較為全面地介紹了現(xiàn)有的超分辨率方法。傳統(tǒng)超分辨率方法通過手工或半手工的方式設(shè)計(jì)特征,從圖像退化過程出發(fā),模擬圖像退化的各個(gè)環(huán)節(jié),通過逆運(yùn)算重建圖像,取得了一定的重構(gòu)效果?;谏疃葘W(xué)習(xí)的超分辨率方法能夠自動(dòng)提取圖像特征,從海量訓(xùn)練數(shù)據(jù)中獲取先驗(yàn)知識(shí)并儲(chǔ)存于神經(jīng)網(wǎng)絡(luò)中,在較好的訓(xùn)練模型和有效訓(xùn)練數(shù)據(jù)的支持下,重建圖像在各項(xiàng)評(píng)價(jià)指標(biāo)上都有良好表現(xiàn),已成為超分辨率研究領(lǐng)域的最熱門研究方向。
目前,超分辨率的研究工作主要還集中在實(shí)驗(yàn)室研究階段,僅在部分應(yīng)用領(lǐng)域中得到使用,但其使用價(jià)值已經(jīng)受到了很多專業(yè)人員的關(guān)注。展望未來,超分辨率的研究可以從以下幾個(gè)方面開展:
(1)全面提升圖像超分辨率網(wǎng)絡(luò)的性能。提升圖像的重構(gòu)效果一直是研究者十分關(guān)注的,但對(duì)于不同的使用需求,對(duì)超分辨率網(wǎng)絡(luò)的性能要求也不同。例如,醫(yī)學(xué)圖像重建中,需要重建圖像具有豐富明顯的細(xì)節(jié),同時(shí)保證真實(shí)可靠;影視節(jié)目中,需要重建圖像視覺質(zhì)量好,重建效率高。因此,從提升重建效率、獲得更好的視覺效果、更豐富明顯的細(xì)節(jié)、更高的放大倍數(shù)等方面繼續(xù)提升超分辨率網(wǎng)絡(luò)的性能,是未來的研究重點(diǎn)。
(2)圖像超分辨率在各個(gè)領(lǐng)域的應(yīng)用。超分辨率在醫(yī)學(xué)圖像、航天遙感、人臉識(shí)別、電視電影等方面有很高的應(yīng)用價(jià)值,針對(duì)不同場景的使用需求,結(jié)合該場景的先驗(yàn)信息進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、模型訓(xùn)練、效果評(píng)價(jià),實(shí)現(xiàn)該場景下重構(gòu)效果最優(yōu)化,對(duì)于提升超分辨率的應(yīng)用范圍和使用價(jià)值具有重要意義。
(3)圖像超分辨率與圖像分類、識(shí)別、目標(biāo)檢測(cè)等任務(wù)的聯(lián)合問題。超分辨率是前端視覺信息處理的一個(gè)重要任務(wù),它可以為圖像后續(xù)處理中的提供了高質(zhì)量空間分辨率的圖像?,F(xiàn)階段超分辨率的主要研究目標(biāo)是獲得更接近與原圖像的重構(gòu)效果,較少考慮超分辨率對(duì)于圖像后續(xù)處理中的分類、識(shí)別等任務(wù)的影響。因此,開展這方面的研究,對(duì)于拓展超分辨率圖像的使用范圍,提升超分辨率的實(shí)用價(jià)值具有重要意義。