袁 健,李佳慧
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海200093)
超分辨率(Super Resolution,簡(jiǎn)稱(chēng)SR)重建是指把低分辨率圖像重建成具有良好視覺(jué)質(zhì)量的高分辨率圖像.該技術(shù)廣泛應(yīng)用于醫(yī)學(xué)診斷、航空遙感檢測(cè)、刑事調(diào)查和安防監(jiān)控等領(lǐng)域[1].
人臉圖像是圖像處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域研究的重要對(duì)象之一,其識(shí)別技術(shù)已較成熟,因此大量的人臉識(shí)別系統(tǒng)被廣泛應(yīng)用.但是想要人臉被準(zhǔn)確識(shí)別還必需質(zhì)量達(dá)標(biāo)的人臉圖像.在一些特殊的公共場(chǎng)所比如道路旁、商場(chǎng)、超市、小區(qū)、銀行營(yíng)業(yè)網(wǎng)點(diǎn)等地方安裝的監(jiān)控設(shè)備,考慮到在這些場(chǎng)景下需要監(jiān)控的時(shí)間長(zhǎng),產(chǎn)生的視頻數(shù)據(jù)量多,要求數(shù)據(jù)存儲(chǔ)介質(zhì)的容量足夠大,網(wǎng)絡(luò)帶寬的要求高等因素,通常所設(shè)置的監(jiān)控圖像的分辨率較低,再加上此類(lèi)公共場(chǎng)所的攝像頭往往在高處,拍攝出的人臉圖像尺寸較小,使用現(xiàn)有的人臉識(shí)別系統(tǒng)識(shí)別的準(zhǔn)確率較低.因此研究對(duì)此類(lèi)低分辨率人臉圖像進(jìn)行預(yù)處理的技術(shù)使之滿(mǎn)足現(xiàn)有人臉識(shí)別系統(tǒng)識(shí)別具有實(shí)用價(jià)值.超分辨率重建技術(shù)恰好可以把低分辨率人臉圖像重建出高分辨率的人臉圖像,可滿(mǎn)足上述要求.
目前相對(duì)廣泛的超分辨率圖像重建的方法分為3類(lèi):基于圖像插值的方法、基于圖像重建的方法以及基于深度學(xué)習(xí)的方法.基于圖像插值的方法,如雙三次插值、最鄰近插值[2],其算法簡(jiǎn)單,重建出的圖像容易造成細(xì)節(jié)丟失.基于圖像重建的算法涉及到了概率論和集合論等知識(shí),如迭代反投影[3]和最大后驗(yàn)法[4],此類(lèi)方法具有計(jì)算量小收斂速度快的優(yōu)點(diǎn),但是限制了重建性能.
近年來(lái)基于深度學(xué)習(xí)的超分辨率圖像重建成為了主流的方法,Dong[5]等提出了超分辨率卷積神經(jīng)網(wǎng)絡(luò)(SRCNN),第一次把深度學(xué)習(xí)方面的相關(guān)知識(shí)應(yīng)用于圖像超分辨率重建中,在性能和重建結(jié)果上都超過(guò)了傳統(tǒng)圖像重建方法,從而大大提升了重建圖像的視覺(jué)效果.Zhang[6]等提出殘差通道注意力網(wǎng)絡(luò)(RCAN),該算法引入通道注意力機(jī)制區(qū)別對(duì)待不同的通道.Tai[7]等提出一種深度循環(huán)網(wǎng)絡(luò)(DRRN),將殘差學(xué)習(xí)和循環(huán)學(xué)習(xí)引入到圖像超分辨率重建的技術(shù)上.生成對(duì)抗網(wǎng)絡(luò)(GAN)[8]的提出推動(dòng)了超分辨率技術(shù)重建的發(fā)展.Leding[9]等提出了一種基于GAN的超分辨率圖像重建方法(SRGAN),利用生成對(duì)抗網(wǎng)絡(luò)技術(shù)可以得到逼真的視覺(jué)效果.Wang[10]等提出了一種ESRGAN模型,以殘差密集連接模塊做為網(wǎng)絡(luò)的主要組成部分,在自然圖像的紋理細(xì)節(jié)上獲得了更好的視覺(jué)效果.以上算法網(wǎng)絡(luò)的主體部分都是堆積殘差塊結(jié)構(gòu),隨著網(wǎng)絡(luò)加深雖然能提取到豐富的語(yǔ)義特征,但是隨之也會(huì)提取出過(guò)多的冗余特征信息.同時(shí)都沒(méi)有考慮到人臉圖像的特點(diǎn),如面部結(jié)構(gòu)信息,因此容易導(dǎo)致細(xì)節(jié)重建不到位、邊緣輪廓模糊,無(wú)法恢復(fù)出面部組件的高頻細(xì)節(jié)特征信息,視覺(jué)感受效果不好.
人臉圖像具有獨(dú)特的特征信息,如身份信息和面部組件信息.研究表明,將人臉屬性信息融入超分辨率重建中,對(duì)重建的結(jié)果有一定的幫助.YuX[11]等提出條件 GAN ,在網(wǎng)絡(luò)的中間層添加額外的人臉屬性信息,從而實(shí)現(xiàn)人臉圖像SR重建.Yu Chen[12]等提出了FSRNet,使用堆疊沙漏網(wǎng)絡(luò)模型從人臉圖像中提取幾何先驗(yàn)信息,經(jīng)過(guò)解碼器恢復(fù)出高分辨率圖像.Yu X[13]等提出了一種利用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的方法,將人臉的結(jié)構(gòu)信息顯式地合并到人臉超分辨率重建的過(guò)程中.Zhang[14]等提出聯(lián)合重建任務(wù)和身份識(shí)別任務(wù)的模型,以人的身份特征信息來(lái)約束重建的結(jié)果.但是這些結(jié)合人臉先驗(yàn)信息的算法僅將提取到的先驗(yàn)特征級(jí)聯(lián)到網(wǎng)絡(luò)的一層,且僅使用了一次,弱化了先驗(yàn)信息的約束力度,導(dǎo)致生成的人臉圖像紋理細(xì)節(jié)不充足,其次,融合身份信息和身份識(shí)別的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致模型體積較大,需要借助龐大的人臉數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),耗費(fèi)大量的訓(xùn)練時(shí)間,對(duì)機(jī)器設(shè)備也有要求.
為了加強(qiáng)人臉先驗(yàn)信息的約束力度,并充分利用高頻特征和減少冗余特征信息,結(jié)合生成對(duì)抗網(wǎng)絡(luò)在恢復(fù)紋理細(xì)節(jié)特征的優(yōu)勢(shì),本文提出了融合先驗(yàn)信息的殘差空間注意力人臉超分辨率重建模型(Residual spatial attention face prior super-resolution model,簡(jiǎn)稱(chēng)RSAFSR模型)來(lái)實(shí)現(xiàn)人臉圖像的超分辨率重建,以便現(xiàn)有人臉識(shí)別系統(tǒng)的識(shí)別.RSAFSR模型的創(chuàng)新工作體現(xiàn)如下:1)首次提出在殘差網(wǎng)絡(luò)的每個(gè)殘差塊中都融入面部先驗(yàn)信息作為網(wǎng)絡(luò)的面部組件補(bǔ)償信息,可以幫助重建出更精細(xì)的面部邊緣輪廓信息及五官輪廓信息;2)提出了融合人臉先驗(yàn)信息的殘差空間注意力激活算法(Residual spatial attention activation algorithm based on face prior information ,簡(jiǎn)稱(chēng)RSAAF),使用DepthWise[15]逐通道卷積代替全局平均池化,對(duì)攜帶高頻信息的面部細(xì)節(jié)結(jié)構(gòu)賦予更高的注意力權(quán)重,使網(wǎng)絡(luò)更加關(guān)注于人臉輪廓特征和面部五官特征;3)提出了多階特征融合算法(Multi-StageFeature Fusion algorithm,簡(jiǎn)稱(chēng)MSFF算法),使不同尺度的淺層和深層特征的信息有效融合,補(bǔ)充特征信息在卷積傳播過(guò)程中的丟失,增加了感受野信息,能夠讓網(wǎng)絡(luò)學(xué)習(xí)出更多的面部細(xì)節(jié)特征,提升了網(wǎng)絡(luò)對(duì)人臉圖像局部紋理區(qū)域的重建效果.
殘差網(wǎng)絡(luò)(ResNet)[16]的思想是在主干卷積網(wǎng)絡(luò)的側(cè)邊增加一個(gè)恒等跳線(xiàn)連接,將輸入直接通過(guò)這個(gè)跳躍連接線(xiàn)快速傳輸?shù)捷敵鰧?網(wǎng)絡(luò)可以直接學(xué)習(xí)輸入與輸出之間的殘差部分F(X).殘差學(xué)習(xí)的基本結(jié)構(gòu)單元如圖1所示.殘差公式如式(1)所示:
φ(x)=F(X)+X
(1)
圖1 殘差結(jié)構(gòu)圖Fig.1 Residual structure
式中F(X)表示輸入輸出之間的殘差函數(shù),X表示特征輸入,φ(x)表示特征輸出.
通道注意力的核心思想是使網(wǎng)絡(luò)在訓(xùn)練過(guò)程中更加關(guān)注有高頻信息的通道.通道注意力機(jī)制的結(jié)構(gòu)如圖2所示.
圖2 通道注意力機(jī)制的結(jié)構(gòu)Fig.2 Channel attention mechanism structure
通道注意力的輸入是U=[u1,u2,u3,…,uc]∈RH×W×C,其中H、W、C分別對(duì)應(yīng)特征圖的高度、寬度和通道.經(jīng)過(guò)全局平均池化(Global pooling)對(duì)空間維度壓縮,得到1×1×C的通道描述符,計(jì)算公式如式(2)所示.將通道描述符1×1×C進(jìn)行特征降維,得到1×1×C/r的描述符.經(jīng)過(guò)Relu激活函數(shù)之后,進(jìn)行擴(kuò)張升維,將1×1×C/r的描述符恢復(fù)成原來(lái)的維度.經(jīng)過(guò)縮放后的特征與輸入的特征進(jìn)行逐像素相乘,得到每一個(gè)通道的注意力權(quán)重,計(jì)算公式如式(3)所示:
(2)
(3)
圖像的損失函數(shù)通常包括像素?fù)p失、感知損失[17]和對(duì)抗損失3部分.
1)像素?fù)p失:本文的圖像像素?fù)p失采用L1范式計(jì)算,即為重建的超分辨率圖像(SR)和原始高分辨率圖像(HR)之間的差值.函數(shù)表達(dá)式如式(4)所示:
(4)
其中N表示批量大小.IHR原始高分辨率圖像,G(ILR,θg)代表重建出的超分辨率圖像.θg表示生成器模型里的參數(shù).
2)感知損失:為了增加重建圖像的紋理細(xì)節(jié)信息,使用感知損失來(lái)進(jìn)行約束.感知損失函數(shù)表達(dá)式如式(5)所示:
(5)
其中,φ(·)表示預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò).φ(i,j)中的i和j表示VGG19網(wǎng)絡(luò)中第i個(gè)最大池化層前經(jīng)過(guò)第j個(gè)卷積所提取到的特征圖.
3)對(duì)抗損失:利用生成對(duì)抗網(wǎng)絡(luò)相互對(duì)抗的機(jī)制,通過(guò)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和對(duì)抗訓(xùn)練,使生成器能夠生成更加清晰、逼真的超分辨率圖像.對(duì)抗損失的函數(shù)表達(dá)式如式(6)所示:
(6)
式中,N表示訓(xùn)練人臉樣本的數(shù)量,G表示生成網(wǎng)絡(luò).D(G(ILR,θg))為判別器網(wǎng)絡(luò)判定生成圖像為真實(shí)圖像的概率.
4) 圖像的損失函數(shù):圖像的損失函數(shù)表達(dá)式如式(7)所示:
Lloss=λ1Lcon+λ2Ladv+γLVGG19
(7)
其中λ1、λ2、γ表示權(quán)重參數(shù),在反向傳播中通過(guò)修改權(quán)重參數(shù)來(lái)優(yōu)化網(wǎng)絡(luò).
人臉超分辨率重建的網(wǎng)絡(luò)設(shè)計(jì)是影響著重建結(jié)果的一個(gè)重要因素.RSAFSR模型結(jié)構(gòu)設(shè)計(jì)了人臉先驗(yàn)信息、空間注意力激活和多級(jí)特征融合等策略.網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示,主要由人臉先驗(yàn)?zāi)K(Facial PriorBlock,簡(jiǎn)稱(chēng)FPB)、低維特征提取模塊(Low Feature Extraction Block,簡(jiǎn)稱(chēng)LFEB)、特征重建模塊(Feature Reconstruction Block,簡(jiǎn)稱(chēng)FRB)與上采樣模塊(Upsampling Block,簡(jiǎn)稱(chēng)USB)4部分組成,其中FRB模塊是關(guān)鍵部分,它包含兩個(gè)子模塊:殘差空間注意力激活模塊(Residual Spatial Attention Activation Block,簡(jiǎn)稱(chēng)RSAAB)和多階特征融合模塊(Multi-StageFeature Fusion Block,簡(jiǎn)稱(chēng)MSFFB),這兩個(gè)模塊對(duì)人臉紋理細(xì)節(jié)和邊緣輪廓的重建有著很大的貢獻(xiàn)(詳細(xì)介紹見(jiàn)3.3節(jié)和3.4節(jié)).RSAFSR模型的處理流程為:先將低分辨率人臉圖像(32×32)經(jīng)過(guò)LFEB模塊處理得到淺層特征信息,然后將通過(guò)FPB提取到的面部先驗(yàn)特征圖并融入到每個(gè)RSAAB中得到空間權(quán)重特征值,接著將各個(gè)RSAAB提取的空間權(quán)重特征經(jīng)過(guò)MSFFB處理得到人臉圖像的深度特征,再與由LFEB模塊提取的淺層特征進(jìn)行長(zhǎng)距離跳躍連接(Long skip connection,簡(jiǎn)稱(chēng)LSC)相加得到重建特征圖,最后經(jīng)過(guò)USB模塊進(jìn)行×4放大因子的上采樣,輸出SR人臉圖像.
圖3 RSAFSR模型結(jié)構(gòu)Fig.3 Residual spatial attention face prior super resolution structure
低分辨率人臉圖片丟失了大部分紋理細(xì)節(jié)信息,但是面部輪廓等形狀信息很好的保存下來(lái).結(jié)合低分辨率人臉圖像的特點(diǎn),本文提出利用面部組件作為先驗(yàn)信息,從低分辨率的面部圖像中獲取有效的人臉特征信息,引導(dǎo)網(wǎng)絡(luò)重建出細(xì)致的面部細(xì)節(jié).
現(xiàn)有的面部超分辨率重建方法已經(jīng)證明,使用面部先驗(yàn)補(bǔ)償信息約束重建結(jié)果,其表現(xiàn)出的結(jié)果優(yōu)于其他通用的超分辨率重建方法.本文利用文獻(xiàn)[12]所提出人臉解析模型提取眼睛、鼻子等眾多關(guān)鍵點(diǎn)幾何先驗(yàn)信息.提取的關(guān)鍵點(diǎn)區(qū)域有面部輪廓、左右眼睛、左右眉毛、鼻子和嘴巴等8個(gè)關(guān)鍵點(diǎn),并將每個(gè)關(guān)鍵區(qū)域可視化在一張圖像上.
低維特征提取模塊主要提取人臉圖像的淺層特征,使用3×3的卷積核對(duì)低分辨率人臉圖像進(jìn)行特征提取,這個(gè)卷積層只能提取人臉圖像的輪廓特征.將此特征做為下文中空間殘差注意力激活模塊的輸入,卷積計(jì)算表示如式(8)所示:
(8)
圖像超分辨重建的核心要點(diǎn)是盡可能多地恢復(fù)圖像中的高頻信息,但是低分辨率的圖片含有大量的低頻信息和少量的高頻信息,如果所有的特征信息都被“一視同仁”,隨著網(wǎng)絡(luò)加深,網(wǎng)絡(luò)的低頻信息特征冗余就會(huì)越多,將造成網(wǎng)絡(luò)缺乏重要特征信息的學(xué)習(xí)能力.引入通道注意力能夠提高網(wǎng)絡(luò)的自適應(yīng)學(xué)習(xí)能力.考慮到常規(guī)的通道注意力使用的全局平均池化層將特征圖上每個(gè)空間像素值看作等同重要,并沒(méi)有關(guān)注空間像素的高頻信息.因此,本文提出了融合人臉先驗(yàn)信息的殘差空間注意力激活算法RSAAF,使其能關(guān)注空間像素的高頻信息.
RSAAF算法有兩個(gè)重要優(yōu)化:1)殘差空間注意力激活塊希望特征圖中的每一個(gè)像素位置都可以學(xué)習(xí)到相對(duì)應(yīng)的權(quán)重值.在2.2小節(jié)的通道注意力中使用全局平均池化層籠統(tǒng)的將特征圖的全局像素信息加以平滑,破壞了特征的空間像素信息和語(yǔ)義特征,每個(gè)空間像素區(qū)域?qū)W習(xí)的權(quán)重應(yīng)該不同,本文使用DepthWise[15]的逐通道卷積代替全局平均池化,不同于常規(guī)卷積,DepthWise逐通道卷積的特點(diǎn)是一個(gè)通道只被一個(gè)卷積核卷積,因此可以得到通道不同的空間位置上的特征信息.具體優(yōu)化的過(guò)程為:輸入的特征圖首先經(jīng)過(guò)一個(gè)1×1的卷積核提取不同通道之間融合的特征,再經(jīng)過(guò)Relu激活函數(shù)之后,使用DepthWise逐通道卷積學(xué)習(xí)空間像素的權(quán)重信息,經(jīng)過(guò)sigmoid激活函數(shù)將學(xué)習(xí)的空間特征權(quán)重取值范圍特征映射到[0,1]之間,最后和輸入的特征進(jìn)行逐像素相乘得到空間層面上不同區(qū)域的權(quán)重分配特征圖.使用改進(jìn)的注意力機(jī)制對(duì)人臉圖像特征的邊緣高頻區(qū)域和五官區(qū)域的像素位置賦予更多的空間注意力,使網(wǎng)絡(luò)更注重保留人臉圖像的高頻細(xì)節(jié)部分.
2)將提取的面部先驗(yàn)信息融入到殘差空間注意力激活塊中.為了充分利用面部先驗(yàn)信息,引入一種先驗(yàn)信息補(bǔ)償機(jī)制,即在每個(gè)殘差空間注意力塊中都加入人臉組件特征圖,增加了先驗(yàn)組件信息的約束力度,加強(qiáng)了人臉圖像的先驗(yàn)信息的再利用,更有利于恢復(fù)人臉圖像細(xì)節(jié)特征.根據(jù)殘差學(xué)習(xí)思想,在圖像中低頻信息區(qū)域的像素殘差值通常趨向于 0,而高頻信息區(qū)域的像素殘差往往大于0,所以加入短跳躍連接局部殘差學(xué)習(xí)和長(zhǎng)距離跳躍連接學(xué)習(xí),將描述人臉圖像細(xì)節(jié)的特征信息由前面的卷積層直接傳播到后面的卷積層,提高了上下文之間的信息流通,能夠有效的緩解訓(xùn)練過(guò)程中的梯度消失問(wèn)題和退化問(wèn)題.
RSAAF算法步驟示意圖如圖4所示.
圖4 RSAAF算法步驟示意圖Fig.4 RSAAF algorithm schematic diagram of algorithm steps
RSAAF算法描述如下:
輸入:人臉圖像的淺層特征
輸出:殘差空間注意力特征
步驟1.提取先驗(yàn)級(jí)聯(lián)特征
(a)對(duì)于輸入特征Xin,使用3×3的卷積核按式(9)進(jìn)行卷積計(jì)算.將卷積層的輸出和人臉先驗(yàn)特征級(jí)聯(lián),得到先驗(yàn)級(jí)聯(lián)特征值F0.
(9)
式中,f0(·)表示卷積運(yùn)算,Xin表示輸入特征,PLR表示低分辨率人臉先驗(yàn)特征圖,[·]表示級(jí)聯(lián)運(yùn)算.
(b)經(jīng)過(guò)LRelu激活函數(shù)后再使用3×3的卷積核按式(10)對(duì)激活后的特征提取,得到激活特征F1.
(10)
步驟2.計(jì)算空間激活注意力
把式(10)得到的輸出特征F1做為空間激活注意力塊的輸入,經(jīng)過(guò)注意力模塊的提取后,得到注意力權(quán)重值,進(jìn)而可以得到輸入特征在空間上注意力的分配.公式(11)和公式(12)分別計(jì)算空間激活注意力描述符S和由S得到的人臉先驗(yàn)注意力特征F2.
(11)
F2=S(F1)
(12)
步驟3.局部殘差學(xué)習(xí)
為了讓對(duì)重建有效的上下文信息流通,在空間激活注意力結(jié)構(gòu)上加入一個(gè)短跳躍連接,形成一個(gè)局部殘差學(xué)習(xí),得到空間激活注意力結(jié)構(gòu)的殘差信息.
步驟4.計(jì)算殘差空間注意力特征
使用殘差連接按式(13)將步驟1得到的F1特征和步驟2得到的F2以及輸入特征Xin進(jìn)行殘差計(jì)算,得到最終的輸出FSA.
FSA=F2+F1+Xin
(13)
人臉超分辨重建時(shí)往往會(huì)忽略不同深度的特征圖的依賴(lài)性,從而削減重建網(wǎng)絡(luò)對(duì)人臉圖像紋理細(xì)節(jié)的恢復(fù)能力,而且不同深度的特征圖攜帶不同尺度的感受野信息,這些提取的特征都對(duì)人臉圖像超分辨率的重建起到一定的貢獻(xiàn).同時(shí)考慮到人臉圖像的紋理信息在網(wǎng)絡(luò)的深層傳播階段很容易丟失,導(dǎo)致重建出的結(jié)果存在紋理細(xì)節(jié)模糊的問(wèn)題.為了充分利用每個(gè)模塊攜帶的不同尺度的特征信息,本文結(jié)合先卷積后再統(tǒng)一融合的思想,提出了多階特征融合算法MSFF,該算法融合了網(wǎng)絡(luò)各層提取到的不同深度的特征信息,加強(qiáng)了特征重用,將多層深度特征圖進(jìn)行了卷積融合,防止了人臉圖像的高頻特征信息在傳播過(guò)程中出現(xiàn)損失,使得人臉圖像在五官局部細(xì)節(jié)特征上的紋理表現(xiàn)得更加細(xì)膩.
MSFF算法步驟如下:
輸入:殘差空間權(quán)重特征
輸出:深層特征
步驟1.計(jì)算8個(gè)RSAAB的融合值
按式(14)、式(15)計(jì)算8個(gè)由3.3小節(jié)得到的殘差空間注意力模塊的輸出FSA,得到融合后的特征值Fcon.
FSAi=Rs(FSAi-1)=Rs{Rs-1[…R1(FSA1)]}
(14)
Fcon=Concat(FSA1:FSA2,…:FSA8)
(15)
式中,Rs表示RSAAF算法的計(jì)算函數(shù).Concat(·)表示特征融合卷積層,FSAi表示第i個(gè)殘差空間注意力激活塊提取的特征,依次,可知FSA2和FSA8.
步驟2.計(jì)算深層特征值
將融合后的結(jié)果Fcon經(jīng)過(guò)長(zhǎng)跳躍連接學(xué)習(xí)(LSC)與LFEB提取的淺層特征Xf相加,得到深層人臉特征FMSFFB.計(jì)算公式如式(16)所示:
(16)
上采樣模塊主要由亞像素卷積組成.亞像素卷積又稱(chēng)為像素洗牌,即把深度特征FMSFFB上采樣成高分辨率圖像.
首先把上述處理得到的深層特征FMSFFB用一個(gè)3×3的卷積核進(jìn)行通道擴(kuò)充,放大因子為通道數(shù)的平方.接著使用3×3卷積核對(duì)上采樣后的特征圖FSub進(jìn)行超分辨重建,可得到人臉超分辨率圖像ISR,計(jì)算公式如式(17)、式(18)所示:
(17)
(18)
本文的模型訓(xùn)練與網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)均采用 Pytorch 框架.操作系統(tǒng)為64位的 Ubuntu16.04,配置顯卡是 GPU RTX 2080Ti,11G顯存.在實(shí)驗(yàn)過(guò)程中,使用CelebA[18]和Helen[19]兩個(gè)公開(kāi)的人臉數(shù)據(jù)集對(duì)本文改進(jìn)的模型訓(xùn)練.CelebA是一個(gè)超大規(guī)模的名人人臉標(biāo)注數(shù)據(jù)集,它共有20多萬(wàn)張人臉圖片,總共有10177個(gè)名人,并為圖片做好了必要的特征標(biāo)記.在CelebA 數(shù)據(jù)集中采用前 18000 張面部圖像用于訓(xùn)練,測(cè)試數(shù)據(jù)使用 CelebA 數(shù)據(jù)集中后1800個(gè)人臉圖像.Helen數(shù)據(jù)集是一個(gè)相對(duì)較小的人臉數(shù)據(jù)集,有2230張人臉圖像,每張圖像都有對(duì)應(yīng)的解析圖,在Helen 數(shù)據(jù)集采用后1800 張圖像做為訓(xùn)練樣本,前180 張人臉圖像做為測(cè)試樣本.為了減輕訓(xùn)練的難度,需要對(duì)CelebA 數(shù)據(jù)集和Helen數(shù)據(jù)集圖像做預(yù)處理,即圖像樣本重新采樣和裁剪.先選擇人臉圖像的面部中心區(qū)域,從人臉圖像的中心區(qū)域開(kāi)始裁剪,統(tǒng)一裁成128×128的高分辨率人臉圖像.再將高分辨率人臉圖像降采樣至32×32的大小,作為實(shí)驗(yàn)中低分辨率人臉圖像的輸入.實(shí)驗(yàn)均進(jìn)行×4 放大因子的超分辨率重建.
選取Adam算法作為本實(shí)驗(yàn)的優(yōu)化器,將算法中的參數(shù)設(shè)置為β1= 0.9,β2= 0.99,ε= 1e -8.初始學(xué)習(xí)率設(shè)定為0.0001.當(dāng)網(wǎng)絡(luò)經(jīng)過(guò)10000次迭代后,學(xué)習(xí)率縮減為初始值的90%.
表1 判別器網(wǎng)絡(luò)參數(shù)配置Table 1 Discriminator network parameter configuration
根據(jù)文獻(xiàn)[8],生成對(duì)抗網(wǎng)絡(luò)(GAN)能夠讓生成的圖像更加逼真.RSAFSR模型是GAN中的生成網(wǎng)絡(luò),同時(shí),需要構(gòu)建一個(gè)判別器用于對(duì)抗訓(xùn)練.判別器是一個(gè)二分類(lèi)器,將生成的SR“偽”圖像和原始的HR“真”圖像輸入到判別器中,通過(guò)交替循環(huán)訓(xùn)練生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò),最終使整個(gè)網(wǎng)絡(luò)到達(dá)一個(gè)Nash 均衡(判別器的輸出概率為0.5),此時(shí)訓(xùn)練結(jié)束.通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)抗訓(xùn)練,判別器不斷提高鑒別真?zhèn)螆D像的能力,使生成器能夠生成更加清晰逼真的超分辨率圖像.判別器的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示.
根據(jù)表1可知,判別器網(wǎng)絡(luò)主要由8個(gè)卷積層、一個(gè)池化層和一個(gè)全連接層組成.每個(gè)卷積核的大小都為3×3,經(jīng)過(guò)8個(gè)卷積層提取圖像特征,最后經(jīng)過(guò)全連接層和sigmoid激活函數(shù)輸出一個(gè)0~1之間判別值.
4.2.1 客觀評(píng)價(jià)
本文使用峰值信噪比(Peak Signal to Noise Ratio,簡(jiǎn)稱(chēng)PSNR)、結(jié)構(gòu)相似性(Structural Similarity Index,簡(jiǎn)稱(chēng)SSIM)作為重建圖像質(zhì)量的客觀評(píng)價(jià)指標(biāo),峰值信噪比是為了比較兩幅圖像之間的像素均方誤差[20].PSNR的數(shù)值越高則表示重建出的圖像失真度越小,PSNR的單位為dB.計(jì)算公式如式(19)和式(20)所示:
(19)
(20)
其中,y為原始HR圖像,y′為生成器重建后的SR圖像,H對(duì)應(yīng)圖像的高度,W對(duì)應(yīng)圖像的高度.
結(jié)構(gòu)相似性反應(yīng)出人眼的真實(shí)感受,它主要是用來(lái)比較兩幅圖像之間的結(jié)構(gòu)相似度的指標(biāo).SSIM的取值范圍在[0,1]之間,它的取值靠近1附近時(shí),表示兩幅圖片間的相似度越高,重建效果就越好.計(jì)算公式如式(21)所示:
(21)
4.2.2 主觀評(píng)價(jià)
本文使用主觀評(píng)價(jià)(Mean Opinion Score ,簡(jiǎn)稱(chēng)MOS)它是用來(lái)衡量不同的方法所重建的人臉超分辨率圖片的質(zhì)量.本文中具體的做法是,選取了24位實(shí)驗(yàn)者去測(cè)評(píng)人臉超分辨率圖片的質(zhì)量,要求每一位測(cè)試者都要為每一種重建的圖像進(jìn)行主觀打分,分值區(qū)間為:1(質(zhì)量差)-5(高質(zhì)量) .測(cè)試者在本文使用的數(shù)據(jù)集上測(cè)評(píng)了每個(gè)圖像的20個(gè)版本.每組包含6個(gè)模型: Biubic、SRCNN、RCAN、SRGAN、FSRNet和本文算法(RSAFSR)得到的超分辨率圖像,總共120張人臉圖像進(jìn)行評(píng)分.
為保證對(duì)比結(jié)果的公平性,實(shí)驗(yàn)中的每個(gè)模型的上采樣因子都設(shè)置為4.實(shí)驗(yàn)選取傳統(tǒng)超分辨率重建模型Biubic[2]和具有代表性基于深度學(xué)習(xí)的模型SRCNN[5]、RCAN[6]、SRGAN[9]、FSRNet[12]與本文模型RSAFSR進(jìn)行對(duì)比.
表2列出了6種超分辨率重建模型在celeA和helen數(shù)據(jù)集上的PSNR(單位:dB)、SSIM和MOS值.根據(jù)表2的數(shù)據(jù)可知,PSNR、SSIM和MOS值的變化趨勢(shì)基本一致.且6種不同算法的評(píng)價(jià)指標(biāo)的值基本呈現(xiàn)出“上升”趨勢(shì).
從表2可以看出,后5個(gè)模型的指標(biāo)要明顯高于第1個(gè)傳統(tǒng)模型.RSAFSR模型的PSNR、SSIM和MOS值均大于Biubic、SRCNN 、RCAN和SRGAN.觀察表2的數(shù)據(jù)發(fā)現(xiàn),FSRNet模型的PSNR值比RSAFSR算法略高,但是在SSIM和MOS數(shù)值上,RSAFSR模型相比于FSRNet均有所提升.因?yàn)槿谌肓巳四樝闰?yàn)信息,重建圖像的面部細(xì)節(jié)得到了補(bǔ)充也就更接近真實(shí)的人臉圖像.因此上述6個(gè)模型中,RSAFSR模型最優(yōu).
表2 celeA和helen數(shù)據(jù)集在不同模型上的評(píng)價(jià)結(jié)果Table 2 Evaluation results of celebA and helen datasets in different models
圖5展示了6種超分辨率重建模型對(duì)人臉面部圖像的重建結(jié)果.其中,HR表示數(shù)據(jù)集中的原始圖像.Bicubic 是傳統(tǒng)插值方法,重建出的人臉圖像感觀效果最差,僅能恢復(fù)出人臉的大體輪廓,面部的五官區(qū)域較為模糊.SRCNN與RCAN基于像素?fù)p失的重建,恢復(fù)出的人臉圖像銳度有了提升,但是其僅關(guān)注于低頻特征信息,從而丟失了高頻細(xì)節(jié)特征.SRGAN和FSRNet的重建效果較好,但是重建出的人臉圖像的整個(gè)面部都顯得過(guò)于平整,整個(gè)面部像是使用了磨皮濾鏡.RSAFSR算法考慮到了面部結(jié)構(gòu)特征,使用了人臉先驗(yàn)知識(shí).重建出的五官能看出比較清晰的銳度,面部輪廓等部位恢復(fù)得更加逼真,重建之后得到的結(jié)果接近于原始HR圖像.
圖5 面部圖像超分辨重建效果對(duì)比Fig.5 Comparison of facial image super resolution reconstruction
圖6展示了低分辨率的人臉圖像局部區(qū)域的重建結(jié)果.測(cè)試結(jié)果分為(a)和(b)兩個(gè)部分,其中(a)部分測(cè)試圖像主要研究眉毛、眼睛和鼻子區(qū)域的重建情況,(b)部分的測(cè)試圖像主要研究嘴巴、下頜線(xiàn)輪廓和臉部區(qū)域的重建情況.由圖6分析,SRCNN 、SRGAN與 Bicubic算法相比,經(jīng)過(guò)4倍放大因子之后,在圖6的(b)部分老人面部皺紋及下頜線(xiàn)周?chē)吘壿喞獏^(qū)域整體看起來(lái)比較模糊.如圖6中(a)(4)所示,SRGAN算法的重建結(jié)果在示例中女孩眼睛部位、眉毛區(qū)域的形狀上有稍微的變形;FSRNet算法的重建的結(jié)果相對(duì)良好,由于缺乏足夠的面部高頻信息,在示例中老人圖片的下頜線(xiàn)周?chē)冗吘墔^(qū)域有模糊的現(xiàn)象.RSAFSR算法在眼睛、鼻子等人臉的關(guān)鍵部位重建出的結(jié)果更加清晰,面部紋理細(xì)節(jié)更加豐富,邊緣細(xì)節(jié)信息和輪廓形狀較其他的方法保留的更加完整,更接近真實(shí)圖像.
圖6 局部細(xì)節(jié)圖像超分辨重建效果對(duì)比Fig.6 Comparison of super resolution reconstruction results of local detail images
算法效率也是反應(yīng)算法模型優(yōu)劣與否的一個(gè)主要指標(biāo),因此需要衡量模型的大小、測(cè)試算法的運(yùn)行效率.本文從單幅圖像測(cè)試時(shí)間和模型規(guī)模兩個(gè)方面分析.
單幅圖像測(cè)試時(shí)間是表示網(wǎng)絡(luò)模型對(duì)一幅低分辨率圖像進(jìn)行重建所耗費(fèi)的時(shí)間.實(shí)驗(yàn)選取一幅分辨率為32×32人臉圖像進(jìn)行超分辨率重建測(cè)試,為了得到相對(duì)公平的結(jié)果,表3中所有算法的測(cè)試時(shí)間的計(jì)算均在本文所使用的實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行.如表3所示,RSAFSR的測(cè)試時(shí)間相對(duì)于EDSR算法慢了8ms,由于本文提出的RSAFSR在每個(gè)殘差空間注意力激活模塊(RSAAB)加入了人臉先驗(yàn)信息,在處理圖像的過(guò)程中相對(duì)慢了一些,但是PSNR的值比EDSR提升了0.46dB.
表3 不同模型的運(yùn)行時(shí)間與規(guī)模對(duì)比Table 3 Comparison of running time and scale of different models
模型規(guī)模即神經(jīng)網(wǎng)絡(luò)中所有帶參數(shù)層的權(quán)重參數(shù)總量.如表3所示,RSAFSR模型的參數(shù)量相較于FSRNet減小了大約2個(gè)數(shù)量級(jí),可以在保證原有重建圖像的質(zhì)量不受影響的基礎(chǔ)上大大減少模型參數(shù)數(shù)量和計(jì)算量.
從以上分析可以看出,RSAFSR模型綜合性能與現(xiàn)有幾種流行模型相比較而言,雖然在PSNR和SSIM的得分上沒(méi)有很大的提升,但是具有占用存儲(chǔ)空間小、運(yùn)行時(shí)間短等優(yōu)點(diǎn),并且在單幅圖像的超分辨率重建的速度上,有一定的優(yōu)勢(shì)同時(shí)又能夠重建出質(zhì)量較高的超分辨率人臉圖像.
為了驗(yàn)證超分辨率圖像重建結(jié)果對(duì)人臉識(shí)別算法識(shí)別準(zhǔn)確率的影響,本文選取常用的基于FaceNet[21]、CosFace[22]和ArcFace[23]3種原生人臉識(shí)別算法的識(shí)別系統(tǒng)進(jìn)行人臉識(shí)別.選用人臉識(shí)別算法中的常用LFW[24]數(shù)據(jù)集進(jìn)行測(cè)試.
每種人臉識(shí)別算法都設(shè)置了3類(lèi)測(cè)試圖像.第1類(lèi):將原始HR圖像進(jìn)行下采樣處理得到的32×32低分辨率圖像(如:LR+FaceNet).第2類(lèi):數(shù)據(jù)集中的原始128×128的圖像(如:HR+FaceNet).第3類(lèi):采用本文提出的模型進(jìn)行4倍因子放大,得到分辨率為128×128的SR人臉圖像(如:RSAFSR+FaceNet).如表4顯示了3類(lèi)測(cè)試圖像的準(zhǔn)確率以及第3類(lèi)相對(duì)于前兩類(lèi)準(zhǔn)確率的增長(zhǎng)幅度.
表4 人臉識(shí)別算法準(zhǔn)確率對(duì)比Table 4 Comparison of face verification algorithm results
由表4可知,經(jīng)過(guò)RSAFSR的預(yù)處理可以有效提高人臉識(shí)別的準(zhǔn)確度.相較于使用LR測(cè)試圖像3種識(shí)別算法的識(shí)別準(zhǔn)確率可分別提升69.61%、67.10%、61.13%,甚至比原始圖像的識(shí)別準(zhǔn)確率分別提升了1.68%、0.93%、0.37%,這是因?yàn)镽SAFSR模型重建出的人臉圖像不僅擴(kuò)大了人臉圖像的分辨率,得到了更加清晰的圖像,而且還抑制了原始圖像中影響人臉識(shí)別的噪聲.
綜合上述實(shí)驗(yàn)結(jié)果,RSAFSR模型通過(guò)對(duì)低分辨率人臉圖像進(jìn)行超分辨率重建的預(yù)處理,使得現(xiàn)有人臉識(shí)別算法對(duì)低分辨率的人臉識(shí)別的準(zhǔn)確率有了很大的提升.
本文提出的融合先驗(yàn)信息的殘差空間注意力人臉超分辯率重建模型RSAFSR借助面部先驗(yàn)信息從低分辨率圖像中先獲取人臉不同組件部位的先驗(yàn)特征,然后嵌入到生成對(duì)抗網(wǎng)絡(luò)模型中,再采用殘差空間注意力激活算法突出空間位置中攜帶高頻信息特征,能夠?qū)W習(xí)到更多面部細(xì)節(jié)信息,使用的多階特征融合算法充分利用不同尺度的特征圖,防止攜帶高頻信息的人臉特征在網(wǎng)絡(luò)傳播中丟失.實(shí)驗(yàn)結(jié)果表明重建出的超分辨率人臉圖像具有真實(shí)的細(xì)節(jié)信息和更加豐富細(xì)膩的紋理特征,大大提升了利用現(xiàn)有人臉識(shí)別算法的人臉系統(tǒng)對(duì)低分辨率人臉圖像的識(shí)別準(zhǔn)確率,并且與其他5種模型相比,RSAFSR模型具有較低的耗時(shí)和較少的參數(shù).
今后將進(jìn)一步研究更低分辨率人臉圖像的超分辨率重建技術(shù),同時(shí)結(jié)合具體的安防監(jiān)控設(shè)備或者移動(dòng)設(shè)備,實(shí)現(xiàn)該技術(shù)的落地應(yīng)用.