劉 旭, 林 森, 陶志勇
(1.遼寧工程技術(shù)大學(xué)電子與信息工程學(xué)院,遼寧 葫蘆島 125000; 2.沈陽(yáng)理工大學(xué)自動(dòng)化與電氣工程學(xué)院,沈陽(yáng) 110000)
海洋資源的開(kāi)發(fā)推動(dòng)了我國(guó)國(guó)民經(jīng)濟(jì)的發(fā)展,具有廣闊前景。在復(fù)雜的水下環(huán)境中進(jìn)行探索時(shí),清晰的水下光學(xué)圖像尤為重要。然而,光在水中傳播時(shí)經(jīng)過(guò)吸收和散射,嚴(yán)重影響了成像過(guò)程,導(dǎo)致圖像出現(xiàn)模糊、對(duì)比度變差等問(wèn)題[1]。因此,研究水下圖像增強(qiáng)等清晰化技術(shù)具有重要意義,將為水下探測(cè)車(chē)研究[2]、水下生物學(xué)[3]、考古學(xué),以及水下設(shè)施檢查和維護(hù)等奠定基礎(chǔ)。
由于水下環(huán)境的可變性,傳統(tǒng)的增強(qiáng)方法無(wú)法自適應(yīng)地改善圖像的退化效應(yīng)。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)已用于水下圖像處理、圖像去霧等低質(zhì)量圖像修復(fù)任務(wù)[4]。LI等[5]提出了一種基于CNN的實(shí)時(shí)水下圖像顏色校正網(wǎng)絡(luò),但該網(wǎng)絡(luò)僅對(duì)特定條件下拍攝的圖像有效,不能適應(yīng)多變的水下環(huán)境;FABBRI等[6]針對(duì)水下自主機(jī)器人,提出了一種水下圖像增強(qiáng)網(wǎng)絡(luò),來(lái)改善場(chǎng)景視覺(jué)質(zhì)量;LI等[7]提出了一種基于弱監(jiān)督顏色遷移的水下圖像顏色校正方法,通過(guò)學(xué)習(xí)水下圖像和大氣圖像之間的映射功能,減弱網(wǎng)絡(luò)訓(xùn)練時(shí)對(duì)水下配對(duì)圖像的需求,但其高度依賴于不同場(chǎng)景的訓(xùn)練圖像。
然而,光在水中發(fā)生散射等因素會(huì)導(dǎo)致霧化和色偏區(qū)域的局部特征在不同通道或像素中分布不均,大部分基于CNN的增強(qiáng)網(wǎng)絡(luò)對(duì)不同通道或像素中的局部特征做相同的處理,對(duì)霧化、色偏嚴(yán)重區(qū)域效果不明顯。針對(duì)此問(wèn)題,本文提出了全局特征雙注意力融合對(duì)抗網(wǎng)絡(luò)(Global feature Dual attention fusion Generative Adversarial Network,GfDaf-GAN),根據(jù)霧氣和光照程度分布情況,將一般區(qū)域與嚴(yán)重區(qū)域的局部特征分別按像素和通道分離,通過(guò)網(wǎng)絡(luò)學(xué)習(xí)得到不同的權(quán)重,提升網(wǎng)絡(luò)的增強(qiáng)效果。首先,利用卷積層不斷對(duì)輸入圖像進(jìn)行下采樣,代替平均池化提取輸入圖像的全局特征;然后,針對(duì)霧氣和光照程度分布不均的問(wèn)題,提出全局特征雙注意力融合模塊,有效增強(qiáng)不同類(lèi)型的水下圖像;最后,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,添加一定的陸地條件信息作為限制,提升網(wǎng)絡(luò)的穩(wěn)定性。
特征注意力機(jī)制是將注意力集中于局部關(guān)鍵信息的機(jī)制。Squeeze-and-Excitation Network[8]是一種經(jīng)典的注意力機(jī)制下的深度學(xué)習(xí)網(wǎng)絡(luò),它將特征圖中各個(gè)通道進(jìn)行加權(quán),將重要特征通道與信息冗余的特征通道分開(kāi)。
大多數(shù)水下圖像增強(qiáng)網(wǎng)絡(luò)都會(huì)平等地對(duì)待每幅圖像中不同通道和不同像素中的局部特征,但水下圖像由于光在水中發(fā)生散射等原因,往往都存在著局部特征在不同通道與不同像素中分布不均的情況。為處理這種情況,本文在生成網(wǎng)絡(luò)中利用注意力機(jī)制,按照?qǐng)D像中霧氣分布與光散射、反射情況,在不同的像素和通道區(qū)域中自適應(yīng)地學(xué)習(xí)并得到不同的權(quán)重,使網(wǎng)絡(luò)更加關(guān)注霧化、色偏、光照不均等問(wèn)題嚴(yán)重的區(qū)域。
由于條件信息具有一定的限制性,cGAN[9]比原始GAN[10]具有更好的穩(wěn)定性和更強(qiáng)大的表達(dá)能力,并在圖像增強(qiáng)和恢復(fù)的任務(wù)中有出色的表現(xiàn)。GfDaf-GAN算法應(yīng)用條件生成對(duì)抗網(wǎng)絡(luò),在一定的陸地條件信息作用下,使GAN網(wǎng)絡(luò)模型在水下圖像增強(qiáng)任務(wù)中得到充分的運(yùn)用。GfDaf-GAN算法的流程如圖1所示。
圖1中,GfDaf-GAN算法首先將輸入圖像Z和從室外清晰圖像中提取的陸地條件信息C輸入生成網(wǎng)絡(luò)(Generator Network)中,得到生成圖像Z′。然后,將生成圖像和擁有陸地條件信息的目標(biāo)圖像C′輸入鑒別網(wǎng)絡(luò),分別計(jì)算對(duì)抗損失LGAN,L1損失L1和感知損失LVGG,通過(guò)3種損失函數(shù)的線性組合以及生成圖像Z′的損失D-Loss(Fake),得到生成網(wǎng)絡(luò)損失G-Loss。D-Loss與G-Loss反向傳遞不斷更新網(wǎng)絡(luò)參數(shù),最終獲得色彩鮮明、清晰、去霧效果良好的水下圖像。
圖1 GfDaf-GAN算法流程圖Fig.1 Flow chart of the GfDaf-GAN algorithm
針對(duì)水下圖像出現(xiàn)顏色偏差、霧化和細(xì)節(jié)模糊等問(wèn)題,提出基于全局特征雙注意力融合生成對(duì)抗網(wǎng)絡(luò)的水下圖像增強(qiáng)GfDaf-GAN算法,圖2為算法的網(wǎng)絡(luò)結(jié)構(gòu)圖。
如圖2所示,GfDaf-GAN的生成網(wǎng)絡(luò)由全局特征提取模塊(Global Feature Extraction Block,GFEB)及全局特征雙注意力模塊(Global Feature Dual Attention Fusion Block,GFD-AFB)構(gòu)成,分別完成全局特征的提取和學(xué)習(xí)任務(wù)。鑒別網(wǎng)絡(luò)采用基于馬爾可夫模型的PatchGAN[11]結(jié)構(gòu),與全局鑒別算法相比,其計(jì)算效率更高,應(yīng)用領(lǐng)域更加廣泛。
不同于平均池化,算法利用卷積層不斷對(duì)輸入進(jìn)行下采樣,圖2中GFEB輸出圖像維度達(dá)到1×1×64時(shí),得到圖像全局特征fg即全局特征收集向量(Global Feature-collect vector,GF-cv)。與平均池化相比,逐步下采樣的優(yōu)勢(shì)在于兩個(gè)方面:首先,可以自由選擇不同分辨率下特征圖數(shù)量;其次,可以同時(shí)提取更多尺度的局部特征,便于其在生成圖像時(shí)恢復(fù)更多的細(xì)節(jié)信息。同時(shí),GFEB在逐步下采樣的過(guò)程中利用了文獻(xiàn)[12]中的殘差模塊(Residual Block),有效避免全局特征在提取過(guò)程中部分缺失的情況發(fā)生。
圖2 GfDaf-GAN算法網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure of the network of the GfDaf-GAN algorithm
GfDaf-GAN算法生成網(wǎng)絡(luò)中的GFD-AFB,由通道注意力(Channel Attention,CA),像素注意力(Pixel Attention,PA)和全局特征融合單元(Fusion of the Global Features Unit,F(xiàn)GFU)構(gòu)成。
CA通過(guò)全局平均池化的方式,將不同通道的全局特征信息代入由兩個(gè)連續(xù)的卷積層(Convolution Layer,Conv Layer)構(gòu)成的通道濾波器中,即
gU=HGPF(FI)=XU(i,j)fg
(1)
式中:FI代表輸入;XU(i,j)代表第U個(gè)通道中(i,j)位置的值;HGPF是全局池化函數(shù)。通過(guò)式(1)穩(wěn)定全局特征圖fg的大小為1×1×64,然后將獲取到的特征gU,通過(guò)兩層Conv Layer和Sigmoid,以及LReLU激活函數(shù)傳遞(如式(2)所示),神經(jīng)元學(xué)習(xí)得到不同通道下不同的權(quán)重值為
CCAU=σSigmoid(Conv(δLReLU(Conv(gU))))
(2)
式中:σSigmoid代表Sigmoid激活函數(shù);δLReLU代表LReLU激活函數(shù)。
(3)
FGFU位于下側(cè)支路,控制全局特征圖fg的大小為1×1×64,通過(guò)Conv Layer學(xué)習(xí)不同區(qū)域特征對(duì)應(yīng)的權(quán)重值,對(duì)其全局特征進(jìn)行細(xì)微調(diào)整,即
fg-A=Conv(fg,W)
(4)
fg-A復(fù)制H×W次,將得到的fg-B重新插入不同特征匹配到的通道中,即
fg-B=Copy(fg-A,nnum=H×W)
(5)
fg-C=Reshape(fg-B,ssize=(H×W×64))
(6)
式中,H和W分別為輸出特征圖的高度和寬度,本文均設(shè)定為64。
最后,將具有相同尺寸的單元輸入和輸出特征圖通過(guò)維度連接層,進(jìn)行特征整合,即
fg-Out=Concat(fg-C,fg)
(7)
為穩(wěn)定fg-Out不同像素點(diǎn)上的特征信息,本文在FGFU和PA中間加入一層Conv Layer和LReLU激活函數(shù),即
fg-Out_stable=δLReLU(Conv(fg-Out))
(8)
PA使網(wǎng)絡(luò)更加關(guān)注不同像素上的關(guān)鍵性信息特征。將穩(wěn)定后的特征圖fg-Out_stable作為輸入,通過(guò)兩層Conv Layer和Sigmoid函數(shù)及LReLU激活函數(shù)傳遞,使輸出特征圖的大小由1×1×64變?yōu)镠×W×1,式(9)為神經(jīng)元學(xué)習(xí)得到不同像素下的權(quán)重值,即
PPAg-Pixel-A=σSigmoid(Conv(δLReLU(Conv(fg-Out_stable))))。
(9)
(10)
(11)
GFD-AFB不平等地處理不同通道和像素中的特征,減少了網(wǎng)絡(luò)在冗余信息上的計(jì)算量,使網(wǎng)絡(luò)更加關(guān)注重要信息;使網(wǎng)絡(luò)具有覆蓋所有像素和通道的能力;更加靈活地適應(yīng)復(fù)雜水下成像環(huán)境,在去霧等方面具有一定的優(yōu)勢(shì)。
2.4.1 對(duì)抗損失函數(shù)
GfDaf-GAN算法是基于生成對(duì)抗網(wǎng)絡(luò)模型,對(duì)抗損失函數(shù)為
LGAN=E(a)[lbD(a)]+E(b)[lb(1-D(G(b)))]
(12)
式中:b為退化圖像;a為目標(biāo)圖像;E為期望。
2.4.2 L1損失函數(shù)
選用L1損失[13]來(lái)減少偽影,即
(13)
式中:p代表像素,P為該像素所代表的色塊;x(p)與y(p)分別代表經(jīng)過(guò)處理后圖像色塊的像素值和目標(biāo)圖像色塊的像素值。
2.4.3 感知損失函數(shù)
利用感知損失函數(shù)[14]進(jìn)行特征重建,定義為
(14)
式中:H,W,C分別表示圖像高度、寬度和通道數(shù);V表示VGG-19中Conv4_3層非線性變換。
2.4.4 整體損失
最后,確定整體損失為上述3種損失的線性組合,
以加快網(wǎng)絡(luò)參數(shù)收斂,即
L=λLGAN+αL1+(80-α)LVGG
(15)
式中,λ,α為常數(shù),分別設(shè)置為2,26。
為驗(yàn)證GfDaf-GAN算法增強(qiáng)效果,將其與經(jīng)典算法和新穎深度學(xué)習(xí)算法進(jìn)行對(duì)比。通過(guò)比較復(fù)雜水體環(huán)境中不同霧化與不同光照程度的圖像,及Canny算子邊緣檢測(cè)結(jié)果,驗(yàn)證算法在不同水體環(huán)境下對(duì)霧化、光照不均等問(wèn)題的增強(qiáng)效果,及圖像對(duì)比度、紋理細(xì)節(jié)、輪廓細(xì)節(jié)增強(qiáng)等方面的作用。
從EUVP[15]以及UIEB[16]中篩選出的6000幅配對(duì)圖像,80%作為GfDaf-GAN的數(shù)據(jù)集,20%作為測(cè)試集,并加入U(xiǎn)45[16]數(shù)據(jù)集同樣作為測(cè)試集,來(lái)體現(xiàn)算法的拓展性。實(shí)驗(yàn)基于Pytorch框架,配置為Intel?CoreTMi7-8750H,NVIDIA TITAN Xp,32.0 GiB RAM,對(duì)比實(shí)驗(yàn)的配置相同。
為驗(yàn)證算法在復(fù)雜水體環(huán)境下的對(duì)比度及紋理細(xì)節(jié)增強(qiáng)方面的作用,對(duì)4幅不同渾濁度與不同色偏程度的代表性水下圖像進(jìn)行實(shí)驗(yàn),如圖3所示。
圖3 復(fù)雜水體環(huán)境下對(duì)比實(shí)驗(yàn)Fig.3 Comparative experiment under complex water environment
將本文算法與限制對(duì)比度的自適應(yīng)直方圖均衡化(Contrast Limited Adaptive Histogram Equalization, CLAHE)[16]、全局直方圖拉伸(Relative Global Histogram Stretching,RGHS)[17]、水下圖像增強(qiáng)網(wǎng)絡(luò)(Underwater image enhancement Network,Water-Net)[16]、改善視覺(jué)感知的快速增強(qiáng)(Fast underwater Image Enhancement for Visual Perception,F(xiàn)unIE)[15]、增強(qiáng)與超分辨率并行(Simultaneous Enhancement and Super-Resolution,SESR)[18]、水下圖像增強(qiáng)的深度殘差框架(Underwater Image Enhancement with a Deep Residual Framework,UResnet)[19]和基于多級(jí)特征融合的圖像增強(qiáng)(Multi-Level Feature fusion-based conditional GAN,MLF)[12]等算法進(jìn)行分析比較。
CLAHE處理后的圖像整體對(duì)比度有明顯提升,但顏色補(bǔ)償過(guò)強(qiáng),導(dǎo)致圖像細(xì)節(jié)模糊。FunIE,SESR,MLF對(duì)Image1和Image2中的綠色色偏基本無(wú)效,在Image3和Image4中FunIE對(duì)藍(lán)色色偏有明顯改善,SESR和MLF圖像霧化現(xiàn)象仍然嚴(yán)重,視覺(jué)效果較差。Water-Net雖然對(duì)圖像色偏有一定改善,但整體偏紅色且對(duì)比度較差,在Image3中也存在霧化現(xiàn)象。RGHS,UResnet和本文算法結(jié)果圖像明顯優(yōu)于其他幾種算法,但RGHS對(duì)綠色色偏處理效果一般,在Image1和Image2中Uresnet存在黃色色偏,RGHS圖像曝光嚴(yán)重、整體泛白,在Image3和Image4中UResnet處理后的圖像對(duì)比度較低,表明GfDaf-GAN算法較其他算法有明顯優(yōu)勢(shì)。
圖4所示為選用Canny算子進(jìn)行圖像邊緣檢測(cè)實(shí)驗(yàn)的結(jié)果,從圖4觀察可知,本文算法增強(qiáng)后的圖像輪廓清晰,邊緣明顯且容易辨別,圖像紋理細(xì)節(jié)恢復(fù)良好,圖像整體層次分明,相比原圖提升較大。
圖4 邊緣檢測(cè)實(shí)驗(yàn)Fig.4 Edge detection experiment
通過(guò)水下圖像質(zhì)量評(píng)價(jià)綜合指標(biāo)(Underwater Co-lor Image Quality Evaluation,UCIQE)[16],水下圖像質(zhì)量測(cè)量指標(biāo)(Underwater Image Quality Measures,UIQM)[16]和模糊評(píng)價(jià)指標(biāo)(Blur-Metric)[20]對(duì)圖像質(zhì)量進(jìn)行客觀測(cè)評(píng)與定量分析。UCIQE和UIQM數(shù)值越大,表明圖像質(zhì)量越好,Blur-Metric數(shù)值越小,表明圖像模糊程度越小。表1為圖3對(duì)應(yīng)各算法處理的4幅圖像的UCIQE,UIQM,Blur-Metric指標(biāo)測(cè)評(píng)均值,加粗?jǐn)?shù)值為最優(yōu)值。從表1可知,本文的GfDaf-GAN算法處理后的圖像有更好的色彩、清晰度和對(duì)比度表現(xiàn)。
表1 指標(biāo)評(píng)測(cè)結(jié)果Table 1 Quantitative results
為進(jìn)一步證實(shí)本文算法的高效性,比較各深度學(xué)習(xí)算法的計(jì)算量(FLOPs)和參數(shù)量(Trainable params),結(jié)果如表2所示,相比于目前新穎算法,本文算法在計(jì)算量和參數(shù)量方面均占有明顯優(yōu)勢(shì)。
表2 計(jì)算量與參數(shù)量評(píng)測(cè)結(jié)果Table 2 FLOPs and parameter evaluation results
針對(duì)水下圖像中霧氣和光照程度分布不均造成的顏色失真、霧化程度高等諸多問(wèn)題,提出全局特征雙注意力融合對(duì)抗網(wǎng)絡(luò)的水下圖像增強(qiáng)算法。首先,利用卷積層不斷對(duì)輸入圖像進(jìn)行下采樣,進(jìn)而代替平均池化來(lái)提取輸入圖像的全局特征;其次,通過(guò)構(gòu)建全局特征雙注意力融合模塊,以適應(yīng)不同的水體環(huán)境;最后,在訓(xùn)練過(guò)程中加入一定的陸地條件信息作為限制,提升對(duì)抗網(wǎng)絡(luò)的穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明,GfDaf-GAN算法的指標(biāo)均值均優(yōu)于其他對(duì)比算法,增強(qiáng)后的圖像輪廓清晰,證明GfDaf-GAN算法能適應(yīng)多變的水體環(huán)境,能顯著改善水下圖像霧化和光照不均等問(wèn)題。在未來(lái)工作中考慮在PA后加入圖像對(duì)比度校正矩陣,提升不同像素點(diǎn)的對(duì)比度,進(jìn)而優(yōu)化GFD-AFB的處理效果,使網(wǎng)絡(luò)獲得更具視覺(jué)表現(xiàn)力的增強(qiáng)圖像。