王 蓉,端木春江
浙江師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,浙江 金華 321000
高動(dòng)態(tài)范圍和超分辨率成像技術(shù)使圖像、視頻等媒體呈現(xiàn)出更生動(dòng)的色彩和更豐富的紋理信息,從而達(dá)到更逼真、更沉浸式的視覺體驗(yàn)效果,在電子攝影、視頻制作、虛擬現(xiàn)實(shí)以及國(guó)防安全等領(lǐng)域受到了廣泛關(guān)注。與現(xiàn)實(shí)場(chǎng)景相比,本文常用的圖像設(shè)備拍攝的圖片動(dòng)態(tài)范圍十分有限,且圖片分辨率較低。而且研究表明,高動(dòng)態(tài)范圍(high dynamic range,HDR)的圖像比低動(dòng)態(tài)范圍(low dynamic range,LDR)圖像可以提供更豐富的細(xì)節(jié)信息,高分辨率(high resolution,HR)圖像對(duì)人臉識(shí)別、目標(biāo)檢測(cè)、行為識(shí)別等人工智能算法提供更高的準(zhǔn)確性。圖像多曝光融合(multi exposure fusion,MEF)和超分辨率(super resolution,SR)作為兩個(gè)技術(shù)手段分別解決低動(dòng)態(tài)范圍和低分辨率(low resolution,LR)的問題。
目前,大多數(shù)多曝光融合方法都采用三步融合過程:首先衡量LDR 圖像序列的像素質(zhì)量,然后設(shè)計(jì)融合策略、構(gòu)建權(quán)重,最后與原LDR圖像加權(quán)求和得到最終融合圖像。例如,Ma 等[1]提出快速多曝光方法,通過全卷積網(wǎng)絡(luò)預(yù)測(cè)LDR 圖像序列的權(quán)重圖,并且利用引導(dǎo)濾波器優(yōu)化權(quán)重。Bavirisetti 等[2]提出了多尺度引導(dǎo)濾波方法,通過多尺度圖像分解和結(jié)構(gòu)傳遞,傳輸像素級(jí)互補(bǔ)的源圖像信息到融合圖像。Ma 等[3]提出了基于結(jié)構(gòu)塊分解方法,通過分解圖像塊為三個(gè)獨(dú)立的部分,信號(hào)強(qiáng)度,信號(hào)結(jié)構(gòu),平均強(qiáng)度,分別融合處理三個(gè)結(jié)構(gòu)分量,從而解決重影問題。Li等[4]針對(duì)結(jié)構(gòu)塊分解方法存在的光暈以及偽影問題,提出了快速多尺度結(jié)構(gòu)塊分解的方法,通過結(jié)構(gòu)塊隱式分解,有30倍的加速。Xu等[5]提出了生成對(duì)抗網(wǎng)絡(luò)的多曝光融合方法,利用生成器和對(duì)抗鑒別器的對(duì)抗關(guān)系,實(shí)現(xiàn)了融合圖像的概率分布接近真實(shí)圖像。上述所有算法中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)都是前饋的,由于前饋網(wǎng)絡(luò)的感受視野小,獲取的上下文信息不足。淺層卷積層提取的特征表達(dá)能力不足,后面的卷積層中會(huì)重新利用淺層特征,導(dǎo)致網(wǎng)絡(luò)的重建能力降低。
近年來卷積神經(jīng)網(wǎng)絡(luò)的方法對(duì)單幅圖像超分辨率(SⅠSR)有較好的效果,SRCNN[6]是第一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率方法,通過學(xué)習(xí)非線性映射將LR特征映射到HR 特征中。VDSR[7]是一個(gè)非常深的卷積神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)LR 圖像和HR 圖像之間的殘差特征,從而快速地收斂模型。SRCNN[6]和VDSR[7]都是預(yù)先將LR 圖像放大到和HR 圖像同樣的大小,這種方式可能會(huì)增加訓(xùn)練復(fù)雜度。為了克服這個(gè)缺點(diǎn),Dong等[8]提出了基于沙漏型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的圖像超分辨率方法,通過先縮小后擴(kuò)大特征通道數(shù)目來學(xué)習(xí)LR圖像到HR圖像的非線性映射,可以有效地減少計(jì)算量。Haris等[9]發(fā)現(xiàn)很多方法沒有充分探索LR 圖像和HR 圖像之間的關(guān)系,提出了基于深度反投影網(wǎng)絡(luò)的圖像超分辨率方法,通過迭代的反卷積層和卷積層對(duì)LR 圖像進(jìn)行上采樣和下采樣,從而學(xué)習(xí)到更深層次的特征。Li等[10]發(fā)現(xiàn)反饋機(jī)制沒有很好地應(yīng)用于圖像超分辨率中,提出了基于反饋網(wǎng)絡(luò)的圖像超分辨率,通過高質(zhì)量信息引導(dǎo),細(xì)化低質(zhì)量信息,能更好地重建超分辨率圖像。
然而現(xiàn)有的方法將MEF 和SR 分別作為單獨(dú)的分支來研究,如果將它們簡(jiǎn)單地進(jìn)行聯(lián)合,實(shí)現(xiàn)的效果不太理想。因此,本文需要將MEF 和SR 建立聯(lián)系,利用更有效的方法,探索其中的相關(guān)性。本文提出了一種基于多耦合反饋網(wǎng)絡(luò)MCF-Net 及其方法。模型包括:N個(gè)子網(wǎng)和輸出模塊;在方法中,首先,將N張下采樣圖片,,分別輸入至N個(gè)子網(wǎng),提取的低分辨率特征,,;然后,根據(jù)低分辨率特征,,提取對(duì)應(yīng)圖像的超分辨率特征,,;得到融合高分辨率特征,,并輸入至下個(gè)MCFB 中,直至第T個(gè)MCFB 得到融合高分辨率特征,,;然后,獲取對(duì)應(yīng)的融合超分辨率圖像,,;最后,融合N個(gè)子網(wǎng)中第T個(gè)重建模塊REC 輸出的,,得到高動(dòng)態(tài)范圍、超分辨率圖像Iout。實(shí)驗(yàn)結(jié)果表明,和傳統(tǒng)融合方法相比,無論在客觀評(píng)價(jià)還是主觀評(píng)價(jià),本文方法都能取得較好的融合效果和超分辨率結(jié)果。此外,本文在消融實(shí)驗(yàn)中開展了對(duì)比分析,以得到極度曝光子網(wǎng)和非極度曝光子網(wǎng)之間最有效的耦合方式,以及得到極度曝光子網(wǎng)和中間曝光子網(wǎng)的最優(yōu)融合權(quán)重。
Li等[10]提出了基于反饋網(wǎng)絡(luò)的超分辨率方法,反饋網(wǎng)絡(luò)利用反饋塊CFB,充分提取低頻深層特征,重建產(chǎn)生SR圖像,并且將提取出的低頻特征傳遞給下個(gè)CFB,最后一個(gè)反饋塊重建產(chǎn)生最終的SR圖像。
反饋模型包括三部分,分別是初始特征提取塊、深層特征反饋塊和重建塊。LR圖像先經(jīng)過兩層卷積層計(jì)算和激活層提取出淺層特征;淺層特征輸入至反饋塊提取深層特征;然后一方面將深層特征輸入至反卷積層,和LR圖像的上采樣元素相加得到SR圖像,另一方面將深層特征聯(lián)合淺層特征,輸入至反饋塊提取得到精細(xì)化的特征,其中t表示反饋塊的個(gè)數(shù);最后一個(gè)反饋塊的特征輸入至反卷積層,目的是將特征尺寸調(diào)整到HR圖像大小,然后通過卷積層計(jì)算,完成最后的重建。反饋結(jié)構(gòu)如圖1所示。
圖1 反饋網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Feedback network structure
Deng 等[11]提出了基于耦合反饋網(wǎng)絡(luò)的圖像曝光融合和超分辨率方法,將反饋機(jī)制應(yīng)用于圖像曝光融合中。耦合反饋網(wǎng)絡(luò)通過耦合反饋塊融合極高曝光信息和極低曝光信息,并且采用耦合反饋機(jī)制,兩個(gè)子網(wǎng)分別進(jìn)行多次特征耦合以及特征提取得到更深層次的融合特征。在此之前的反饋結(jié)構(gòu)是同層反饋特征進(jìn)行提取和細(xì)化,而耦合反饋塊允許不同子網(wǎng)的反饋特征進(jìn)行信息交互,使得極高曝光子網(wǎng)和極低曝光子網(wǎng)都耦合了互補(bǔ)的曝光信息。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 耦合反饋塊結(jié)構(gòu)Fig.2 Coupled feedback block structure
傳統(tǒng)的卷積網(wǎng)絡(luò)只能解決低分辨率問題或圖像曝光融合問題,而耦合反饋網(wǎng)絡(luò)通過耦合反饋機(jī)制建立超分辨率任務(wù)和多曝光融合任務(wù)之間的內(nèi)在聯(lián)系,從而同時(shí)實(shí)現(xiàn)超分辨率和圖像多曝光融合;此外耦合反饋塊采用迭代的上采樣層和下采樣層對(duì)耦合信息進(jìn)行充分提取,提取出兩個(gè)耦合特征的深層信息。
然而極高曝光圖像和極低曝光圖像所含有的動(dòng)態(tài)范圍極其有限,它們僅有部分亮度細(xì)節(jié)和暗部細(xì)節(jié),而缺乏中間曝光細(xì)節(jié)。耦合反饋網(wǎng)絡(luò)從極度曝光圖像中提取出的色彩信息以及紋理細(xì)節(jié)較少,即使采用耦合反饋機(jī)制進(jìn)行深層融合,最終產(chǎn)生的融合圖像和真實(shí)圖像的動(dòng)態(tài)范圍也有較大差距,色彩飽和度缺失,紋理細(xì)節(jié)還不夠豐富。本文提出的多耦合反饋網(wǎng)絡(luò)的輸入包含N個(gè)均勻曝光的圖像,分別輸入至對(duì)應(yīng)的N個(gè)子網(wǎng)中。在多耦合反饋網(wǎng)絡(luò)中,中間子網(wǎng)接收來自極度曝光子網(wǎng)輸出的極高曝光信息和極低曝光信息,極高曝光子網(wǎng)和極低曝光子網(wǎng)相互傳遞互補(bǔ)的曝光信息,介于極高曝光和中等曝光的子網(wǎng)和對(duì)應(yīng)的介于極低曝光和中等曝光的子網(wǎng)相互傳遞互補(bǔ)的曝光信息。因此N個(gè)子網(wǎng)每次迭代都獲取了互補(bǔ)的曝光信息,從而融合得到亮度均衡的曝光信息,經(jīng)過T次迭代,每個(gè)子網(wǎng)都得到了深層融合的曝光信息,中間子網(wǎng)將中等曝光信息和極度曝光信息進(jìn)行充分融合,得到亮度范圍更廣的曝光信息,因此最終的融合超分辨率圖像亮度范圍更廣泛、分辨率更高。
本文提出了多耦合反饋網(wǎng)絡(luò)的多曝光低分辨率圖像融合方法,該方法建立了多個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),分別提取極度曝光信息和非極度曝光信息。圖3 展示了多耦合反饋網(wǎng)絡(luò)的多曝光低分辨率圖像融合結(jié)構(gòu),包括:N個(gè)子網(wǎng)和輸出模塊。
圖3 多耦合反饋網(wǎng)絡(luò)模型Fig.3 Model of multi-coupled feedback network
N個(gè)子網(wǎng)分別對(duì)應(yīng)N張下采樣圖像,,,其中,i為0 時(shí),,表示極高曝光、低分辨率圖像和極低曝光、低分辨率圖像,i大于0時(shí),,分別表示介于極高曝光和中等曝光的過曝光、低分辨率圖像和介于極低曝光和中等曝光相同程度的欠曝光、低分辨率圖像,表示中等曝光、低分辨率圖像;每個(gè)子網(wǎng)均包括淺層特征提取塊FEB、超分辨率塊SRB、多耦合反饋網(wǎng)絡(luò)和重建模塊REC并依次連接。
淺層特征提取塊FEB,用于提取,,的LR特征,,,其中
每個(gè)多耦合反饋網(wǎng)絡(luò)均包含T個(gè)多耦合反饋塊MCFB,上層子網(wǎng)用于獲取,得到融合HR特征,下層子網(wǎng)用于獲取,得到融合HR特征,中間子網(wǎng)用于獲取得到融合HR 特征,并將融合特征分別輸入至同一子網(wǎng)的重建塊REC中;其中,為上層子網(wǎng)的第i個(gè)子網(wǎng)的第t-1 個(gè)MCFB 輸出的融合HR 特征,為下層子網(wǎng)的第i個(gè)子網(wǎng)的第t-1 個(gè)MCFB 輸出的融合HR特征;為中間子網(wǎng)的第t-1 個(gè)MCFB輸出的融合HR特征。
重建塊REC,用于接受超分辨率塊SRB 輸出的SR特征或多耦合反饋網(wǎng)絡(luò)輸出的融合SR 特征,其中根據(jù)SR 特征得到對(duì)應(yīng)的SR 殘差圖像,根據(jù)融合HR 特征得到對(duì)應(yīng)的融合SR殘差圖像,并將獲取的SR殘差圖像或融合SR 殘差圖像與對(duì)應(yīng)圖像的上采樣圖像進(jìn)行元素相加,分別生成原LR、LDR的SR重建圖像,,或?qū)?yīng)的具有融合特征的SR圖像;
輸出模塊,用于融合每個(gè)子網(wǎng)的最后一個(gè)SR 重建圖像得到HDR、SR重建圖像Iout。
N個(gè)多重曝光的LR 圖像輸入至N個(gè)子網(wǎng)絡(luò)的FEB 提取得到淺層特征,之后輸入至SRB進(jìn)行提取和細(xì)化得到高質(zhì)量特征。在SRB中,本文采用迭代的上采樣反卷積層和下采樣卷積層構(gòu)成。如圖4所示,每個(gè)工作組的反卷積層和卷積層分別采用跳躍連接,這樣不僅增加了各工作組特征之間的聯(lián)系,并且通過特征重用的方式,從而生成表達(dá)能力強(qiáng)的特征。SRB按順序包含六個(gè)工作組,通過跳躍連接進(jìn)行特征重用。每個(gè)工作組主要有一個(gè)上采樣層和下采樣層,它們分別用來將LR 特征反投影到HR 特征中和HR 特征投影到LR 特征中。設(shè)Lj和Hj分別是第j個(gè)工作組的LR 特征圖和HR特征圖,Lj可以表示為:
圖4 超分辨率模塊結(jié)構(gòu)Fig.4 Super-resolution module structure
其中,Conv(·)是在第j個(gè)工作組使用卷積Conv(k,p)的下采樣操作。除第一個(gè)工作組外,在DeConv(·) 和Conv(·)之前加入卷積Conv(1,p)以壓縮通道數(shù),有效減少參數(shù)。
為了有效利用每個(gè)工作組的特征,并且確保傳遞給MCFB 的特征圖大小相同,對(duì)每個(gè)工作組的LR 特征進(jìn)行融合,SRB的輸出表示如下:
其中,Conv1×1是Conv(1,p);根據(jù)實(shí)驗(yàn),這里融合的特征不包括L0效果更好。
N個(gè)淺層特征通過SRB 分別輸出,,。SRB 和MCFB 都采用反饋塊結(jié)構(gòu),但是SRB用來學(xué)習(xí)多重曝光的低分辨率圖像的深層特征,為之后多曝光融合做準(zhǔn)備,因此它重建產(chǎn)生LDR、SR圖像。而MCFB 用來融合互補(bǔ)的曝光特征,重建得到HDR、SR圖像。
N個(gè)淺層特征經(jīng)過SRB 后,圖像的大部分紋理細(xì)節(jié)保留在深層特征中,因而針對(duì)深層特征選擇合適的融合策略將很大程度影響融合性能的好壞。傳統(tǒng)的基于耦合反饋機(jī)制的算法中,僅僅將極高曝光特征和極低曝光特征進(jìn)行融合,這種融合得到的圖像缺乏部分中間曝光細(xì)節(jié)。多耦合反饋網(wǎng)絡(luò)將多個(gè)互補(bǔ)的曝光信息進(jìn)行充分融合,從而產(chǎn)生動(dòng)態(tài)范圍更廣,分辨率更高的圖像。
2.2.1 多耦合反饋機(jī)制
很多研究[9-10]證明,反饋機(jī)制對(duì)圖像重建效果有用。多耦合反饋網(wǎng)絡(luò)采用多耦合反饋機(jī)制,用來細(xì)化超分辨率特征和多曝光融合特征。每個(gè)多耦合反饋網(wǎng)絡(luò)均包含T個(gè)多耦合反饋塊MCFB 依次連接,第t次迭代的MCFB 接收到多個(gè)子網(wǎng)的反饋信息來糾正同一子網(wǎng)的淺層表達(dá)Flr,然后將更強(qiáng)大的深層表達(dá)輸入至下一次迭代和重建塊。
上層子網(wǎng)包括極高曝光子網(wǎng)和過度曝光子網(wǎng),第t-1 個(gè)MCFB 的輸入分別是極高曝光特征和過度曝光特征,它們只擁有亮度細(xì)節(jié),而缺乏暗部細(xì)節(jié),因此提供下層子網(wǎng)中對(duì)應(yīng)的極低曝光特征或欠曝光特征。上層子網(wǎng)中第i個(gè)上層子網(wǎng)的第t個(gè)MCFB 的輸出可以表示為:
其中,為第i個(gè)上層子網(wǎng)的FEB 提取的極高曝光或過度曝光淺層特征,為第i個(gè)上層子網(wǎng)的第t-1個(gè)MCFB的反饋特征,為第i個(gè)下層子網(wǎng)的第t-1個(gè)MCFB的反饋特征。
從上式可以看出,,為同一子網(wǎng)的特征,有助于實(shí)現(xiàn)超分辨率,而為不同子網(wǎng)的互補(bǔ)曝光特征,有利于實(shí)現(xiàn)多曝光融合。fMCFB為MCFB 操作,用來實(shí)現(xiàn)互補(bǔ)曝光特征的融合。
下層子網(wǎng)包括極低曝光子網(wǎng)和欠曝光子網(wǎng),第t-1個(gè)MCFB 的輸入分別是極低曝光特征和欠曝光特征,它們只擁有暗部細(xì)節(jié),而缺乏亮度細(xì)節(jié),因此提供下層子網(wǎng)對(duì)應(yīng)的極高曝光特征。第i個(gè)下層子網(wǎng)的第t個(gè)MCFB的輸出可以表述為:
其中,為第i個(gè)下層子網(wǎng)的FEB提取的極低曝光或欠曝光淺層特征。
上層子網(wǎng)和下層子網(wǎng)通過MCFB 相互傳遞互補(bǔ)曝光特征并且充分融合,因此它們會(huì)分別改善曝光不均衡的問題。
中間子網(wǎng)既包含部分亮度細(xì)節(jié),又有部分暗部細(xì)節(jié),但它缺乏極度曝光下的細(xì)節(jié),因此提供極度曝光特征可以補(bǔ)充它的不足。中間子網(wǎng)的第t個(gè)MCFB 的輸入分別為中等曝光淺層特征,中等曝光子網(wǎng)的第t-1 個(gè)MCFB 提取的反饋特征,極高曝光子網(wǎng)和極低曝光子網(wǎng)的第t-1 個(gè)MCFB 提取的反饋特征,。中間子網(wǎng)的第t個(gè)MCFB 的輸出可以表述為:
設(shè)t=1,分別是為極高曝光或過曝光子網(wǎng)、中等曝光子網(wǎng)和極低曝光或欠曝光子網(wǎng)的SRB輸出的深層特征。
設(shè)每個(gè)子網(wǎng)MCFB的數(shù)量為T,那么總共會(huì)產(chǎn)生NT個(gè)重建圖像,即,其中:根據(jù)多耦合反饋機(jī)制的實(shí)驗(yàn)表明,每個(gè)子網(wǎng)的第t個(gè)MCFB比第t-1 個(gè)MCFB重建生成的圖像質(zhì)量更高。因此本文使用每個(gè)子網(wǎng)的第T個(gè)MCFB的重建圖像。最終的融合圖像表述為:
其中,wi,w-i,wm分別為上層子網(wǎng)、下層子網(wǎng)和中間子網(wǎng)重建圖像的權(quán)重。這里沒有直接參與融合圖像的生成,但是每個(gè)MCFB的重建圖像可以使是高質(zhì)量的融合特征,從而保障是每個(gè)子網(wǎng)中最豐富的融合圖像,其中:T≥t≥1,
2.2.2 多耦合反饋塊(MCFB)
多耦合反饋塊MCFB 將互補(bǔ)的曝光信息,,進(jìn)行充分融合,并且細(xì)化同一子網(wǎng)的淺層特征Flr,從而得到更深層次的融合特征。圖5 展示了極高曝光子網(wǎng)、中等曝光子網(wǎng)和極低曝光子網(wǎng)中第t次迭代MCFB的結(jié)構(gòu)以及它們之間的聯(lián)系。
如圖5 所示,中等曝光子網(wǎng)的第t個(gè)MCFB 接受四個(gè)輸入:中等曝光子網(wǎng)的FEB提取的淺層特征和第t-1 個(gè)MCFB 輸出的反饋特征,極度曝光子網(wǎng)的反饋特征,。三個(gè)反饋特征分別實(shí)現(xiàn)不同功能,是同一個(gè)子網(wǎng)的反饋特征,用來細(xì)化淺層特征,促進(jìn)超分辨率的效果。,為中間網(wǎng)絡(luò)提供亮度細(xì)節(jié)和暗部細(xì)節(jié),用來促進(jìn)多曝光融合效果。
在MCFB開始時(shí),通過卷積層Conv(1,p)對(duì),,,進(jìn)行拼接和壓縮,產(chǎn)生重新優(yōu)化的輸入特征,公式表達(dá)如下:
其中,Cin為初始?jí)嚎s卷積操作,為的通道拼接。
之后通過多個(gè)工作組對(duì)進(jìn)行提取和細(xì)化,工作組之間使用跳躍連接。每個(gè)工作組包含一個(gè)上采樣操作和一個(gè)下采樣操作,用來將LR 特征反投影到HR特征以及將HR 特征投影到LR 特征。設(shè)和是第t個(gè)MCFB 的第b個(gè)工作組產(chǎn)生的LR特征和HR特征,可以表示為:
其中,為第b個(gè)工作組使用反卷積層DeConv(k,p)進(jìn)行上采樣操作。從上式可以看出,前b-1 個(gè)工作組的所有LR 特征聯(lián)合后的特征輸入至反卷積層。同樣是前n-1 個(gè)工作組的HR特征聯(lián)合,再經(jīng)過Conv層產(chǎn)生的LR特征??梢员硎緸椋?/p>
其中,為第n個(gè)工作組的卷積層Conv(k,p)進(jìn)行下采樣操作。
由于,是極度曝光網(wǎng)絡(luò)的反饋特征,用來促進(jìn)圖像多曝光融合。然而隨著工作組數(shù)量不斷增加,圖像融合的效果開始會(huì)變好,后面逐漸變差??赡苁墙?jīng)過工作組多次反卷積和卷積操作,,的記憶逐漸消退。為了加強(qiáng),的影響,不僅在MCFB 的開始提供極度曝光信息,,還要在中間的工作組再次提供信息,重新激活,的記憶。設(shè)工作組的數(shù)量為B,則在第個(gè)工作組,將,,拼接,產(chǎn)生重新優(yōu)化的LR特征,表示如下:
其中,Cout為Conv(1,p)。融合的特征沒有效果更好。第t個(gè)MCFB的輸出特征有兩個(gè)流動(dòng)方向,一方面重建為SR融合圖像,促進(jìn)形成高質(zhì)量融合特征;另一方面提供反饋特征給第t+1 個(gè)MCFB,繼續(xù)細(xì)化淺層特征以及融合極度曝光特征和中等曝光特征。
上面主要描述了中等曝光子網(wǎng)中MCFB 結(jié)構(gòu)。由于中等曝光子網(wǎng)缺乏部分亮度細(xì)節(jié)和暗部細(xì)節(jié),提供極度曝光子網(wǎng)的特征,給中等曝光子網(wǎng)的MCFB,促進(jìn)極度曝光信息和中等曝光信息的融合,從而得到曝光信息更加豐富的特征。而上層子網(wǎng)更缺乏暗部細(xì)節(jié),因此上層子網(wǎng)的第i個(gè)子網(wǎng)的第t個(gè)MCFB 的輸入為:有助于實(shí)現(xiàn)超分辨率,促進(jìn)亮度信息和暗部信息的融合。由于下層子網(wǎng)更缺乏亮度細(xì)節(jié),因此下層子網(wǎng)的第i個(gè)子網(wǎng)的第t個(gè)MCFB的輸入為
本文網(wǎng)絡(luò)同時(shí)實(shí)現(xiàn)圖像超分辨率和圖像曝光融合,損失函數(shù)包括:
(1)在每個(gè)子網(wǎng)中,原低動(dòng)態(tài)范圍、低分辨率的超分辨率重建圖像與對(duì)應(yīng)的地面真實(shí)圖像之間的損失,通過平均結(jié)構(gòu)相似度作為損失函數(shù)。
(2)在每個(gè)子網(wǎng)中,每個(gè)MCFB 的多曝光融合后的超分辨率重建圖像與地面真實(shí)圖像Igt之間的損失,通過平均結(jié)構(gòu)相似度作為損失函數(shù):
其中,LSSIM(·)為結(jié)構(gòu)相似性損失函數(shù);分別表示HR極高曝光或過曝光真實(shí)圖像、HR中等曝光圖像和HR 極低曝光或欠曝光真實(shí)圖像;Igt表示HR、HDR標(biāo)準(zhǔn)圖像;λ1為超分辨率的損失權(quán)重,λ1為多曝光融合與超分辨率的損失權(quán)重,經(jīng)過大量實(shí)驗(yàn),表明當(dāng)λ1=λ2=1 時(shí),多曝光融合效果與超分辨率結(jié)果最好。所有損失可以分為兩類,前一種是保障SRB 的超分辨率效果,后一種是保障每個(gè)MCFB的多曝光融合效果。通過端到端的方法訓(xùn)練整個(gè)網(wǎng)絡(luò),不斷降低損失值,直到損失穩(wěn)定為止。
(1)數(shù)據(jù)集和數(shù)據(jù)預(yù)處理
本文的模型使用SⅠCE 數(shù)據(jù)集[12]作為訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)。實(shí)驗(yàn)中,將數(shù)據(jù)集以350、100、100的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。為了產(chǎn)生LR訓(xùn)練數(shù)據(jù)集,本文將HR 圖像進(jìn)行雙三次下采樣,分別為2 倍下采樣和4倍下采樣。
實(shí)驗(yàn)實(shí)施細(xì)節(jié):本文模型中,采用多曝光圖像數(shù)量N為3,每個(gè)子網(wǎng)的MCFB 個(gè)數(shù)均為3。本文實(shí)驗(yàn)使用Pytorch 來實(shí)現(xiàn)和訓(xùn)練網(wǎng)絡(luò)模型,通過ADAM 來優(yōu)化網(wǎng)絡(luò)的權(quán)重,學(xué)習(xí)率初始值設(shè)置為1E-4,并且每200 輪衰減0.5,學(xué)習(xí)率下限為1E-6。實(shí)驗(yàn)中,采用NVⅠDⅠA GeForce RTX 3090GPU來加快訓(xùn)練速度。每個(gè)子網(wǎng)包括FEB、SRB、MCFB 和REC,表1 展示了模塊的網(wǎng)絡(luò)參數(shù)。所有模塊的Conv 層和DeConv 層都使用PReLU 激活函數(shù)。
(2)對(duì)比方法
本文提出的多耦合反饋網(wǎng)絡(luò)同時(shí)實(shí)現(xiàn)了圖像超分辨率和多曝光融合,而目前大多數(shù)方法主要研究圖像超分辨率或者圖像曝光融合,很少將圖像超分辨率和曝光融合聯(lián)合起來,因此本文將目前最前沿的圖像超分辨率方法和最前沿的圖像曝光融合方法結(jié)合作為對(duì)比實(shí)驗(yàn)。圖像超分辨率的方法主要有RLFN[13]、SCET[14]、RCAN[15]、SRFBN[10]、SWinⅠR[16],圖像曝光融合方法主要有MEFNet[1]、FAST SPD-MEF[4]、MEF-GAN[5]、U2Fusion[17]。本文結(jié)合4種SR方法和4種MEF方法,并且改變SR方法和MEF方法順序,即SR+MEF或者M(jìn)EF+SR,產(chǎn)生32種對(duì)比方法。同時(shí)選取了CF-Net[11]進(jìn)行比較。為了客觀評(píng)估所提方法的性能,本文在SⅠCE 公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并且與其他33種方法進(jìn)行比較。
本節(jié)選擇3個(gè)指標(biāo)(結(jié)構(gòu)相似性、峰值信噪比、多曝光融合結(jié)構(gòu)相似性)來客觀評(píng)價(jià)所提方法和對(duì)比方法的性能。
(1)峰值信噪比(peak signal-to-noise ratio,PSNR),公式如下:
其中,MSE(mean square error)表示當(dāng)前圖像X和參考圖像Y的均方誤差,n為每像素的比特?cái)?shù),一般取8,即像素灰階數(shù)為256。
(2)結(jié)構(gòu)相似性(structural similarity,SSⅠM[18]),通過亮度、對(duì)比度和結(jié)構(gòu)比較兩張圖像塊的差異。SSⅠM值越大,融合效果越好。
(3)多曝光融合結(jié)構(gòu)相似性(multi-exposure image fusion structural similarity,MEF-SSⅠM[19]),為多曝光圖像融合任務(wù)的性能評(píng)價(jià)指標(biāo),從圖像結(jié)構(gòu)和內(nèi)容方面比較融合圖像與源圖像的相似性,相較于SSⅠM,MEFSSⅠM 更加注重圖像色差以及色彩偏離度等信息,公式如下:
在本節(jié)中,首先驗(yàn)證耦合反饋機(jī)制性能;然后通過大量的定量和可視化評(píng)估,驗(yàn)證了本文算法可以表現(xiàn)優(yōu)良的性能。實(shí)驗(yàn)對(duì)比了33種不同的多曝光圖像融合和超分辨率算法,這33 種方法涵蓋了卷積神經(jīng)網(wǎng)絡(luò)的五大類算法:(1)基于生成對(duì)抗網(wǎng)絡(luò)的算法(MEF-GAN);(2)基于殘差注意力機(jī)制的算法(RCAN);(3)基于多尺度結(jié)構(gòu)塊分解的算法(Fast SPD-MEF);(4)基于Transformer的算法(Swin-ⅠR);(5)基于反饋網(wǎng)絡(luò)的算法(SRFBN)。最后進(jìn)行消融實(shí)驗(yàn)分析。
3.3.1 多耦合反饋機(jī)制驗(yàn)證
本小節(jié)實(shí)驗(yàn)中探討了多耦合反饋機(jī)制對(duì)圖像融合的效果。極高曝光子網(wǎng)、中間子網(wǎng)和極低曝光子網(wǎng)的第一個(gè)到第三個(gè)MCFB 的圖像質(zhì)量評(píng)價(jià)如表2 所示。其中:PSNR,SSⅠM,MEF-SSⅠM 這4 個(gè)指標(biāo)值越大表示圖像質(zhì)量越高。從表2 可以看出第t+1 個(gè)MCFB 的重建圖像比第t個(gè)MCFB的重建圖像的效果更好,這說明多耦合反饋機(jī)制確實(shí)可以提升融合圖像的性能,因此本文選擇T=3 的MCFB個(gè)數(shù)。
表2 多耦合反饋機(jī)制對(duì)多耦合反饋網(wǎng)絡(luò)的影響Table 2 Ⅰnfluence of multi-coupling feedback mechanism on MCF-Net
3.3.2 客觀評(píng)價(jià)
為了驗(yàn)證本文方法在2倍放大下的有效性,本文使用SⅠCE 數(shù)據(jù)集[12],與其他先進(jìn)方法進(jìn)行比較。這些對(duì)比方法是由SR 方法和MEF 方法相結(jié)合的,表3 展示了本文的方法與對(duì)比方法進(jìn)行2 倍放大在PSNR、SSⅠM、MEF-SSⅠM這3種指標(biāo)下的結(jié)果。表格的上部分展示了SR 方法在MEF 方法之前執(zhí)行(SR+MEF)的對(duì)比結(jié)果,而下部分展示的是MEF 方法在SR 方法之前執(zhí)行(MEF+SR)的對(duì)比結(jié)果。
表3 2倍放大下的融合結(jié)果對(duì)比Table 3 Comparison of fusion results under magnification factor of 2
表3中的每種方法都采用100對(duì)圖像融合后的平均值作為評(píng)價(jià)指標(biāo),將融合質(zhì)量指標(biāo)第一的數(shù)值用黑體突出,排名第二的值用下劃線突出。從表3 可以看出,本文的方法融合效果最好,在34 種方法中PSNR、SSⅠM、MEF-SSⅠM 均排名第一,并且PSNR 指標(biāo)相較第二名的CF-Net方法提高0.84 dB,SSⅠM提高0.022 2,MEF-SSⅠM提高0.006 8。
本文發(fā)現(xiàn),這些先進(jìn)方法的組合產(chǎn)生的融合圖像,無論在哪個(gè)指標(biāo),都不是最高的,可能是由于兩個(gè)任務(wù)獨(dú)立處理,沒有進(jìn)行信息共享。然而本文方法將這兩個(gè)任務(wù)作為一個(gè)整體進(jìn)行處理,而且進(jìn)行信息交互和協(xié)作,因此可以同時(shí)實(shí)現(xiàn)圖像融合和超分辨率,并且獲得較好的融合效果。
3.3.3 主觀評(píng)價(jià)
圖6和圖7可視化地描述了本文方法和其他先進(jìn)方法在4倍放大下產(chǎn)生的融合圖像,其中子圖(a)、(b)、(c)為不同曝光序列圖,子圖(d)~(j)為SR+MEF 和MEF+SR的部分實(shí)驗(yàn)結(jié)果,子圖(k)為耦合反饋網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果,子圖(l)為本文方法的實(shí)驗(yàn)結(jié)果。由實(shí)驗(yàn)結(jié)果可知,與SR+MEF 和MEF+SR 方法相比,本文方法在細(xì)節(jié)提升很大,與耦合反饋網(wǎng)絡(luò)相比,本文緩解了由于耦合反饋機(jī)制產(chǎn)生的圖像動(dòng)態(tài)范圍較低現(xiàn)象。
圖7 “風(fēng)景”在4倍放大下的不同方法的比較Fig.7 Comparison of methods for picture of“natural scene”with magnification factor of 4
如圖6 所示,根據(jù)子圖(d)~(g)可以看到臉部有或多或少的失真,比如:眼鏡、鼻子、嘴等,而且子圖(e)、(h)的臉部蠟黃,子圖(g)、(i)的臉部較為灰暗,子圖(d)的臉部過亮,無法看清五官,而從子圖(l)可以看到臉部細(xì)節(jié)更加清晰,膚色更均勻,沒有過亮或過暗現(xiàn)象。根據(jù)子圖(k)可以看出人臉的膚色泛白,而從子圖(l)可以看出人臉的膚色正常,從而緩解動(dòng)態(tài)范圍低的現(xiàn)象。
如圖7 所示,根據(jù)子圖(d)~(g)可以看出很難分辨天空和樹枝,整張圖看起來太亮或者太暗,而從子圖(l)可以看出樹枝有著清晰的邊緣信息,整張圖有良好的對(duì)比度和色彩飽和度。根據(jù)(k)可以看出天空的顏色灰暗,山的紋理細(xì)節(jié)丟失較多,而(l)可以明顯地看出,天空的顏色更藍(lán),山的紋理細(xì)節(jié)更加清晰,而且更加符合人眼的視覺感受。
3.3.4 消融實(shí)驗(yàn)
本小節(jié)研究極度曝光網(wǎng)絡(luò)和中間網(wǎng)絡(luò)之間的耦合關(guān)系;同時(shí)研究融合權(quán)重對(duì)最終融合圖像的影響。
(1)MCFB 之間耦合方式的影響:為了研究子網(wǎng)之間耦合的關(guān)系,本文進(jìn)行3種連接方式的探索:①每個(gè)子網(wǎng)都接受其他子網(wǎng)的曝光信息;②上層子網(wǎng)與中間子網(wǎng)之間相互傳遞曝光信息,下層自網(wǎng)絡(luò)與中間子網(wǎng)路相互傳遞曝光信息;③上層子網(wǎng)與下層子網(wǎng)之間相互傳遞曝光信息,中間子網(wǎng)接受來自極度曝光網(wǎng)絡(luò)的曝光信息。圖8 展示了3 種耦合方式對(duì)比:對(duì)于圖(a),極度曝光子網(wǎng)接收了中間子網(wǎng)的曝光特征和互補(bǔ)曝光特征,在下次迭代時(shí)將融合的特征再次輸入中間子網(wǎng),很可能造成曝光特征冗余的現(xiàn)象;對(duì)于圖(b),極度曝光特征接收與它亮度相近的中等曝光特征,而沒有得到互補(bǔ)的亮度特征,因此極度曝光子網(wǎng)融合產(chǎn)生的特征缺乏部分亮度信息;對(duì)于圖(c),極度曝光子網(wǎng)分別接收到互補(bǔ)的曝光特征,因此融合產(chǎn)生的特征既具有亮度特征,又包含暗部細(xì)節(jié),中間子網(wǎng)接收來自極度曝光子網(wǎng)的特征,使得融合產(chǎn)生亮度更廣泛的特征。
圖8 三種耦合方式對(duì)比Fig.8 Comparison of three coupling modes
表4 展示了3 種耦合方式在PSNR、SSⅠM 和MEFSSⅠM 下的結(jié)果。可以看出與前兩種耦合方式相比,第三種耦合方式(多耦合反饋機(jī)制)的重建圖像在各項(xiàng)指標(biāo)下均取得了最好的結(jié)果,因此本文使用第三種耦合方式構(gòu)建多耦合反饋網(wǎng)絡(luò)。
表4 子網(wǎng)絡(luò)不同的耦合方式對(duì)融合圖像的影響Table 4 Ⅰnfluence of different coupling modes of sub-networks on fused images
(2)融合權(quán)重的影響:本文最終的融合圖像是由中等曝光子網(wǎng)和極度曝光子網(wǎng)的最后一個(gè)重建圖像加權(quán)融合產(chǎn)生的,因此每個(gè)子網(wǎng)的重建圖像都對(duì)融合圖像有影響。為了獲得最佳融合圖像,本文設(shè)置wo=wu,wm從0.1到0.9。
(3)表5展示了在SⅠCE測(cè)試集[12]和PQA數(shù)據(jù)集[19]根據(jù)權(quán)重系數(shù)的變化,PSNR、SSⅠM、MEF-SSⅠM 指標(biāo)的結(jié)果。本文可以看出,在SⅠCE 數(shù)據(jù)集,當(dāng)wo=wu=wm=1/3 時(shí),PSNR 最高,而SSⅠM 和MEF-SSⅠM 不是最高的。當(dāng)wo=wu=0.2,wm=0.6時(shí),SSⅠM和MEF-SSⅠM最高,而PSNR 不是最高的。在PQA 數(shù)據(jù)集,wm=0.6或wm=0.7 或wm=0.9 時(shí),MEF-SSⅠM的值最高。綜上所述,本文選擇wo=wu=0.2,wm=0.6 作為各個(gè)子網(wǎng)的權(quán)重,這也說明了中等曝光子網(wǎng)對(duì)超分辨率融合圖像的貢獻(xiàn)更大,從而驗(yàn)證了本文提出模型的有效性。
表5 融合權(quán)重對(duì)圖像融合的影響Table 5 Ⅰnfluence of fusion weight on image fusion
基于深度學(xué)習(xí)的超分辨率塊能提取深層次特征的能力和反饋機(jī)制強(qiáng)大的圖像重建特性,本文提出多耦合反饋網(wǎng)絡(luò),用來同時(shí)解決圖像超分辨率問題和圖像曝光融合問題。實(shí)驗(yàn)結(jié)果表明,本文算法較好地保留了原圖像序列的邊緣,區(qū)域邊界及紋理等細(xì)節(jié)信息,避免了邊緣產(chǎn)生光暈、偽影,達(dá)到了較好的融合效果;同時(shí)本文算法探索得到極度曝光子網(wǎng)和中等曝光子網(wǎng)最有效的耦合方式以及重建圖像融合的最優(yōu)權(quán)重;而且提出了包含N個(gè)子網(wǎng)的多耦合反饋網(wǎng)絡(luò),適用于任意曝光圖片數(shù)量進(jìn)行融合。因此,本文方法實(shí)現(xiàn)了將N個(gè)多曝光圖像融合生成超分辨率質(zhì)量更高、動(dòng)態(tài)范圍更廣的圖像。后續(xù)研究工作,將對(duì)本文方法中的多耦合反饋網(wǎng)絡(luò)進(jìn)行優(yōu)化,以使其能夠得到更好的融合效果。