叢曉峰 桂 杰, 賀 磊 章 軍
水下圖像的拍攝、分析與處理是水下探索任務(wù)的重要組成部分[1],高質(zhì)量的水下圖像對(duì)海洋研究任務(wù)具有促進(jìn)作用[2-4].水下環(huán)境中存在光的吸收與散射現(xiàn)象,導(dǎo)致水下圖像出現(xiàn)色彩偏移等問(wèn)題,對(duì)水下相關(guān)任務(wù)造成負(fù)面影響,如失真的水下圖像會(huì)導(dǎo)致拍攝的水下生物視覺(jué)效果降低.在水下環(huán)境中不同波長(zhǎng)的光被吸收的程度存在差異[5],海水對(duì)紅光的吸收作用要高于綠光與藍(lán)光,因此隨著海水深度的增加,紅光成分低于綠光與藍(lán)光,導(dǎo)致圖像顏色更傾向于綠色與藍(lán)色.此外,水下場(chǎng)景中存在微小粒子引起的光散射[6],導(dǎo)致圖像中存在同質(zhì)背景噪聲.
針對(duì)水下圖像的失真問(wèn)題,當(dāng)前研究主要分為非基于深度學(xué)習(xí)的增強(qiáng)算法和基于深度學(xué)習(xí)的增強(qiáng)算法[7].非基于深度學(xué)習(xí)的增強(qiáng)算法通常會(huì)對(duì)水下成像過(guò)程進(jìn)行建模,并反向求解參數(shù),對(duì)水下圖像進(jìn)行增強(qiáng)[8-9].Carlevaris-bianco等[10]對(duì)水下圖像的三個(gè)顏色通道的亮度衰減進(jìn)行差異化分析,結(jié)合圖像去霧領(lǐng)域的物理學(xué)模型,提出能夠用于深度估計(jì)與顏色校正的方法.Peng等[8]分析與對(duì)比多種水下深度估計(jì)方法,提出基于圖像模糊與亮度吸收的增強(qiáng)模型.Song等[11]對(duì)數(shù)據(jù)集的背景光進(jìn)行標(biāo)注,并采用背景光統(tǒng)計(jì)與透射圖優(yōu)化技術(shù),進(jìn)行水下圖像復(fù)原的建模.Song等[9]提出ULAP(Underwater Light Attenuation Prior),并設(shè)計(jì)線性深度建模方法.此類非基于深度學(xué)習(xí)的增強(qiáng)算法不受限于水下圖像的數(shù)據(jù)量,但是在具體水下數(shù)據(jù)集上的性能表現(xiàn)略低于基于深度學(xué)習(xí)的增強(qiáng)算法.
基于深度學(xué)習(xí)的增強(qiáng)算法主要采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)技術(shù)[5,12],一些研究將對(duì)抗性訓(xùn)練融入網(wǎng)絡(luò)訓(xùn)練過(guò)程中[13-14].現(xiàn)有研究同時(shí)表明小波分解技術(shù)與卷積網(wǎng)絡(luò)可聯(lián)合用于構(gòu)建水下圖像增強(qiáng)網(wǎng)絡(luò)[15-16].Ma等[15]提出基于頻域信息的對(duì)偶流網(wǎng)絡(luò),采用離散的小波變換技術(shù),將原始圖像分解為多個(gè)頻帶,分解所得的頻帶信息可以作為多顏色空間融合與細(xì)節(jié)增強(qiáng)網(wǎng)絡(luò)的輸入信息.Uplavikar等[6]設(shè)計(jì)基于編碼與解碼結(jié)構(gòu)的對(duì)抗網(wǎng)絡(luò),通過(guò)對(duì)抗性訓(xùn)練學(xué)習(xí)水類型的相關(guān)特征,用于提升模型對(duì)水類型的適用性.Yan等[17]利用計(jì)算機(jī)視覺(jué)領(lǐng)域的注意力模型,設(shè)計(jì)ADMNNet(Atten-tion-Guided Dynamic Multibranch Neural Network),包含動(dòng)態(tài)的特征選擇模型與多尺度通道注意力模型,能夠基于輸入信息進(jìn)行自適應(yīng)調(diào)節(jié),并強(qiáng)化通道間特征的提取過(guò)程.Tang等[18]將神經(jīng)架構(gòu)搜索(Neural Architecture Search, NAS)應(yīng)用于水下增強(qiáng)網(wǎng)絡(luò)的設(shè)計(jì)過(guò)程,增強(qiáng)網(wǎng)絡(luò)的特征提取與圖像重建能力,搜索空間包括多種操作符,如卷積模塊和注意力模塊等.此方法涉及的架構(gòu)搜索技術(shù)所需的計(jì)算資源相對(duì)較多.Chen等[19]利用內(nèi)容與風(fēng)格分離技術(shù),提出域適應(yīng)(Domain Adaptation)增強(qiáng)網(wǎng)絡(luò),增強(qiáng)過(guò)程中同時(shí)使用交叉域的圖像到圖像轉(zhuǎn)換方法以及特征編碼與解碼方法.Islam等[13]提出FUnIE-GAN,用于增強(qiáng)水下失真圖像的質(zhì)量,采用U型的對(duì)稱網(wǎng)絡(luò)架構(gòu)方式,并通過(guò)內(nèi)容損失、對(duì)抗損失與感知損失等進(jìn)行聯(lián)合訓(xùn)練,但是存在一定的顏色校正失真問(wèn)題.Fu等[20]結(jié)合空間實(shí)例白化與通道歸一化,提出SCNet.Fabbri等[14]使用循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)生成可用于水下增強(qiáng)任務(wù)的有監(jiān)督訓(xùn)練的數(shù)據(jù)集,并提出含有對(duì)抗損失與圖像梯度損失的UGAN(Underwater Generative Adversarial Networks),用于質(zhì)量增強(qiáng)過(guò)程.Naik等[21]通過(guò)堆疊常規(guī)的卷積模塊,構(gòu)建Shallow-UWnet.網(wǎng)絡(luò)包含特征的降維與升維過(guò)程,并通過(guò)跨層連接提升水下圖像增強(qiáng)過(guò)程的特征復(fù)用性,然而針對(duì)結(jié)構(gòu)信息的復(fù)原效果不佳.陳學(xué)磊等[5]提出融合深度學(xué)習(xí)與成像模型的水下圖像增強(qiáng)算法,利用深度學(xué)習(xí)領(lǐng)域的擴(kuò)張卷積以及帶參數(shù)的激活方法,并結(jié)合背景散射光和傳輸映射估計(jì)過(guò)程,充分結(jié)合數(shù)據(jù)驅(qū)動(dòng)技術(shù)與物理成像技術(shù).Liu等[12]采用殘差連接方式,提出UResnet(Un-derwater Resnet),采用像素?fù)p失與邊緣損失對(duì)UResnet進(jìn)行聯(lián)合優(yōu)化,然而UResnet存在結(jié)構(gòu)復(fù)原效果不足問(wèn)題.Li等[22]提出采用3種輸入變換進(jìn)行增強(qiáng)的Water-Net,包括白平衡變換、直方圖均衡變換以及伽馬校正變換.
然而,田永林等[23]指出,卷積模型受限于基于臨近像素具有較大相關(guān)性的假設(shè),因此基于卷積模型的水下圖像增強(qiáng)算法存在相對(duì)較強(qiáng)的歸納偏置問(wèn)題.相對(duì)于常見(jiàn)的采用小尺寸卷積(如3×3卷積)的卷積模型,Transformer架構(gòu)[24-25]具有相對(duì)較弱的歸納偏置,使其特征學(xué)習(xí)能力更加靈活.Transformer架構(gòu)已應(yīng)用于多個(gè)領(lǐng)域,如目標(biāo)檢測(cè)[23]、中文唇語(yǔ)識(shí)別[26]、新聞推薦[27]等,Boudiaf等[28]將預(yù)訓(xùn)練的Transformer架構(gòu)[29]直接應(yīng)用于水下圖像增強(qiáng)任務(wù),該預(yù)訓(xùn)練Transformer架構(gòu)最初應(yīng)用于去噪與超分辨率等任務(wù).作為網(wǎng)絡(luò)的核心組件,設(shè)計(jì)Pre-trained Image Processing Transformer,參數(shù)量超過(guò)400 MB,較明顯地增加水下探索設(shè)備的存儲(chǔ)開銷,且網(wǎng)絡(luò)并未考慮水下圖像增強(qiáng)任務(wù)中水的類型[20]對(duì)模型效果的影響.
綜上所述,本文在設(shè)計(jì)水下圖像增強(qiáng)算法時(shí)主要考慮如下3個(gè)方面.1)利用Transformer模型的數(shù)據(jù)學(xué)習(xí)能力設(shè)計(jì)有效的水下圖像增強(qiáng)模型.2)保證基于Transformer的水下圖像算法的存儲(chǔ)開銷相對(duì)較小.3)通過(guò)對(duì)水的類型的處理,提升水下圖像增強(qiáng)模型的效果.因此,本文提出基于視覺(jué)多頭注意力與跨層白化的水下圖像增強(qiáng)網(wǎng)絡(luò)(Underwater Image Enhancement Network Based on Visual Multi-head Attention and Skip-Layer Whitening, VMA-SWN).網(wǎng)絡(luò)采用層級(jí)化的編碼-解碼架構(gòu)方式,利用Transformer模型的數(shù)據(jù)學(xué)習(xí)能力,并且每層僅由單個(gè)視覺(jué)多頭自注意力模塊構(gòu)成,保證模型的存儲(chǔ)開銷較小.此外,Park等[30]指出Transformer架構(gòu)中的多頭自注意力機(jī)制具有低通濾波的效果,而常規(guī)卷積計(jì)算具有高通濾波效果,因此在設(shè)計(jì)網(wǎng)絡(luò)的過(guò)程中將常規(guī)卷積計(jì)算與視覺(jué)多頭自注意力計(jì)算聯(lián)合應(yīng)用,兼顧二者優(yōu)勢(shì).進(jìn)一步地,實(shí)例白化(Instance Whitening, IW)操作[31]嵌入基于視覺(jué)注意力的增強(qiáng)網(wǎng)絡(luò)中作為跨層連接,用于提升水下圖像的增強(qiáng)效果.
總之,針對(duì)水下圖像存在的色彩失真與細(xì)節(jié)模糊問(wèn)題,本文采用視覺(jué)注意力機(jī)制,設(shè)計(jì)特征提取與圖像重建的整體網(wǎng)絡(luò)結(jié)構(gòu),針對(duì)復(fù)雜水下退化情況,對(duì)注意力模塊提取的特征進(jìn)行實(shí)例白化處理,降低不同水類型對(duì)網(wǎng)絡(luò)增強(qiáng)效果的影響.在水下圖像數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證本文網(wǎng)絡(luò)的增強(qiáng)效果.
本文提出基于視覺(jué)多頭注意力與跨層白化的水下圖像增強(qiáng)網(wǎng)絡(luò)(VMA-SWN),網(wǎng)絡(luò)結(jié)構(gòu)包括編碼路徑的降維過(guò)程與解碼路徑的升維過(guò)程,并通過(guò)跨層白化進(jìn)行空間特征的實(shí)例白化處理.網(wǎng)絡(luò)的核心特征提取模塊采用多頭自注意力機(jī)制[24-25,32]實(shí)現(xiàn).
VMA-SWN的整體結(jié)構(gòu)如圖1所示,圖中數(shù)值表示水下圖像與特征圖的長(zhǎng)寬信息,網(wǎng)絡(luò)輸入失真的水下圖像,輸出增強(qiáng)后的水下圖像.記失真水下圖像為x,網(wǎng)絡(luò)增強(qiáng)后的輸出圖像為y,特征圖為Ωi,i表示某層的索引,卷積操作記為Cs(·),池化操作記為Ps(·),雙三次插值操作記為Bs(·),s表示步長(zhǎng).VMA-SWN主要包含如下5個(gè)模塊.
圖1 VMA-SWN網(wǎng)絡(luò)結(jié)構(gòu)圖
1)卷積模塊(Convolution Block, CB).第1層CB為
Ω1=ReLU(C1(x)),
最后一層CB為
y=ReLU(C1(Ωi)).
2)下采樣模塊(Down-Sample Block, DB).采用
Ωi+1=P2(Ωi)
實(shí)現(xiàn),用于VMA-SWN的特征圖降維過(guò)程.VMA-SWN共包含3個(gè)DB,特征圖尺寸從256×256降至32×32.
3)跨層白化模塊(Skip-Layer Whitening Block, SWB).采用實(shí)例白化[31]實(shí)現(xiàn),用于空間特征的跨層傳遞.SWB可以直接嵌入淺層與深層的視覺(jué)多頭自注意力模塊之間,不需要進(jìn)行額外的網(wǎng)絡(luò)修改.以圖1左側(cè)第1次跨層路徑為例,該過(guò)程為
DB→SWB→C→RDB→TAB.
DB模塊輸出特征圖尺寸為128×128×D.首先將該特征圖輸入SWB進(jìn)行實(shí)例白化.然后將實(shí)例白化后的特征與解碼特征進(jìn)行通道拼接操作,拼接后的特征圖尺寸為128×128×2D.最后通過(guò)降維模塊(Reduce Dimension Block, RDB)對(duì)尺寸為128×128×2D的特征圖進(jìn)行通道降維,降維后特征圖尺寸為128×128×D,繼續(xù)傳入下個(gè)模塊中.
4)基于Transformer的注意力模塊(Transformer-Based Attention Block, TAB)與降維的基于Transfor-mer的注意力模塊(Reduced Dimensionality TAB, RTAB).TAB采用視覺(jué)Transformer中基于窗口的多頭自注意力機(jī)制實(shí)現(xiàn).RTAB由RDB和TAB構(gòu)成.RDB通過(guò)卷積計(jì)算C1(Ωi),降低跨層白化后特征圖的維度,再將特征圖傳入TAB.RTAB的實(shí)現(xiàn)如下:
Ωi+1=TAB(C1(Ωi)).
此時(shí)Ωi的通道數(shù)為2D且Ωi+1的通道數(shù)為D.
5)插值模塊(Interpolation Block, IB).采用
Ωi+1=ReLU(C1(B2(Ωi)))
實(shí)現(xiàn),用于解碼過(guò)程的特征圖升維過(guò)程.VMA-SWN共包含3個(gè)IB,特征圖尺寸從32×32升至256×256.
上述5個(gè)模塊可構(gòu)建VMA-SWN,編碼路徑與解碼路徑均含有4個(gè)TAB.為了便于下文分析,將不含跨層白化模塊的增強(qiáng)網(wǎng)絡(luò)記為VMA-SWN-NoSWB.
采用視覺(jué)多頭自注意力實(shí)現(xiàn)的TAB與RTAB是VMA-SWN的基本模塊,計(jì)算原理來(lái)自視覺(jué)注意力模型[24-25].首先,自注意力(Self-Attention, SA)[24]計(jì)算方式如下:
其中,輸入矩陣為Q、K、V,分別表示查詢、鍵和值,d表示維度縮放值.在計(jì)算SA時(shí)將相對(duì)位置偏差B加入上式中,即
構(gòu)建TAB模塊時(shí)采用多頭自注意力機(jī)制,進(jìn)行n次SA計(jì)算,即
MSA(Q,K,V)=
τ[head1,head2,…,headc,…h(huán)eadn]WO,
其中,τ[·]表示拼接操作,WO表示投射矩陣,
(1)
然后使用多層感知機(jī)φ(·)獲取第i層的特征:
(2)
其中,W1、W2表示權(quán)重,b1、b2表示偏差項(xiàng),GELU(·)表示激活函數(shù).式(1)與式(2)為TAB的計(jì)算過(guò)程,RTAB中的TAB計(jì)算過(guò)程與此相同.
水的類型包括淺海、深海以及渾水等[20],如圖2所示,海水深度影響光的吸收程度,VMA-SWN-NoSWB的特征主要通過(guò)前向計(jì)算中堆疊TAB和上下采樣模塊獲得,未充分考慮水的類型的影響.
圖2 水下環(huán)境光吸收示意圖
完成均值向量的計(jì)算后,協(xié)方差矩陣為:
為了防止Λ為奇異矩陣,在Λ的計(jì)算過(guò)程中添加αI,I的定義與文獻(xiàn)[20]保持一致,α表示數(shù)值較小的正數(shù),設(shè)定為0.000 01.Λ對(duì)角線元素為各個(gè)通道的方差,非對(duì)角線元素表示通道間的相關(guān)性.實(shí)例白化變換的計(jì)算如下:
在上述計(jì)算中滿足的關(guān)系是
其中,j表示與i對(duì)應(yīng)的深層特征的索引,τ(·)表示通道拼接操作.SWB即為對(duì)批次特征Ωi執(zhí)行實(shí)例白化.
由于VMA-SWN架構(gòu)的有效性,采用常規(guī)的損失函數(shù)對(duì)VMA-SWN進(jìn)行訓(xùn)練即可獲得較優(yōu)的水下圖像增強(qiáng)效果.將VMA-SWN表示的映射函數(shù)記為Ψ(·),原始失真水下圖像為x(長(zhǎng)寬分別為H與W),標(biāo)簽水下圖像為y*.第1部分內(nèi)容損失為:
(3)
其中a、b表示位置索引.
第2部分是結(jié)構(gòu)損失,采用結(jié)構(gòu)相似性度量(Structural Similarity, SSIM)[33]實(shí)現(xiàn),對(duì)VMA-SWN獲得的增強(qiáng)圖像Ψ(x)與參考圖像y*計(jì)算SSIM值,得到SSIM(Ψ(x),y*),則結(jié)構(gòu)損失定義為
Lss=1-SSIM(Ψ(x),y*).
(4)
VMA-SWN的整體損失為式(3)與式(4)損失之和:
L=Lmse+λLss,
其中,λ為權(quán)重因子,用于控制內(nèi)容損失與結(jié)構(gòu)損失在VMA-SWN的網(wǎng)絡(luò)參數(shù)更新過(guò)程中所占的比重.
水下圖像增強(qiáng)算法的效果評(píng)估可以從定量結(jié)果與視覺(jué)效果兩方面進(jìn)行,本文選用水下圖像數(shù)據(jù)集UIEB[22],并從水下圖像數(shù)據(jù)庫(kù)EUVP[13]上選擇水下圖像集.
UIEB數(shù)據(jù)集圖像包含不同特性的質(zhì)量退化,標(biāo)簽圖像的構(gòu)造采用12種增強(qiáng)方法并結(jié)合人工視覺(jué)篩選過(guò)程,訓(xùn)練數(shù)據(jù)為800組,驗(yàn)證數(shù)據(jù)為90組.在EUVP數(shù)據(jù)集上選擇水下圖像集(Underwater ImageNet, UWIN),該數(shù)據(jù)集標(biāo)簽的構(gòu)造主要通過(guò)循環(huán)一致對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn),訓(xùn)練數(shù)據(jù)為3 300組,驗(yàn)證數(shù)據(jù)數(shù)為400組.
實(shí)驗(yàn)平臺(tái)為NVIDIA V100 32 GHz GPU,并采用PyTorch 1.8深度學(xué)習(xí)框架.
為了公平對(duì)比不同算法,需要使用量化評(píng)估指標(biāo)對(duì)比不同算法增強(qiáng)后的水下圖像質(zhì)量,水下圖像增強(qiáng)任務(wù)常用的評(píng)估指標(biāo)包含有參考與無(wú)參考兩類,本文選取兩種常用的有參考評(píng)估指標(biāo):峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和SSIM,二者的計(jì)算采用增強(qiáng)后的水下圖像與清晰標(biāo)簽[22],并計(jì)算無(wú)參考評(píng)估指標(biāo)——水下圖像質(zhì)量度量(Underwater Image Quality Measure, UIQM)[34].UIQM主要適用于無(wú)清晰標(biāo)簽的情況.無(wú)參考評(píng)估指標(biāo)的可靠程度低于有參考評(píng)估指標(biāo)[34].
為了分析VMA-SWN與已有水下增強(qiáng)算法的性能差異,選擇如下11種對(duì)比算法.1)4種非基于深度學(xué)習(xí)的增強(qiáng)算法.文獻(xiàn)[8]算法、ULAP[9]、文獻(xiàn)[10]算法和文獻(xiàn)[11]算法.2)7種基于深度學(xué)習(xí)的增強(qiáng)算法.文獻(xiàn)[5]算法、UResnet[12]、FUnIE-GAN[13]、UGAN[14]、ADMNNet[17]、Shallow-UWnet[21]、Water-Net[22].4種非基于深度學(xué)習(xí)的增強(qiáng)算法采用OpenCV 4.7圖像處理框架實(shí)現(xiàn),7種基于深度學(xué)習(xí)的增強(qiáng)算法與VMA-SWN采用PyTorch 1.8深度學(xué)習(xí)框架實(shí)現(xiàn).
對(duì)比實(shí)驗(yàn)中11種算法所用的圖像尺寸統(tǒng)一縮放為256×256×3.對(duì)于7種基于深度學(xué)習(xí)的增強(qiáng)算法和VMA-SWN,訓(xùn)練階段的批大小尺寸統(tǒng)一設(shè)定為6,在UIEB數(shù)據(jù)集上運(yùn)行200個(gè)迭代周期,在UWIN數(shù)據(jù)集上運(yùn)行100個(gè)迭代周期.7種基于深度學(xué)習(xí)的增強(qiáng)算法的學(xué)習(xí)率初始值與學(xué)習(xí)率衰減策略均按照對(duì)應(yīng)文獻(xiàn)進(jìn)行設(shè)定.在訓(xùn)練過(guò)程中VMA-SWN學(xué)習(xí)率設(shè)定為0.000 2,λ設(shè)定為1,每隔20個(gè)迭代周期學(xué)習(xí)率衰減0.95倍.
在UIEB數(shù)據(jù)集上對(duì)比VMA-SWN與11種算法,結(jié)果如表1所示,表中黑體數(shù)字表示最優(yōu)值.由表可見(jiàn),VMA-SWN獲得最高的PSNR與SSIM值,分別為21.862 dB、0.909,并且獲得相對(duì)較高的UIQM值,為2.997.ADMNNet、UGAN與Water-Net獲得的PSNR值與VMA-SWN接近,但是SSIM值明顯低于VMA-SWN.UGAN獲得的UIQM值最高,VMA-SWN獲得的UIQM值位列第3.總之,表1結(jié)果從定量評(píng)估角度表明VMA-SWN在UIEB數(shù)據(jù)集上的有效性.
表1 各算法在UIEB數(shù)據(jù)集上的定量評(píng)估結(jié)果
各算法在UIEB數(shù)據(jù)集上視覺(jué)效果對(duì)比如圖3所示.將圖3中的3個(gè)場(chǎng)景分別記為場(chǎng)景1、場(chǎng)景2與場(chǎng)景3.非基于深度學(xué)習(xí)的增強(qiáng)算法(文獻(xiàn)[8]算法、文獻(xiàn)[10]算法與ULAP)在場(chǎng)景1和場(chǎng)景2上存在明顯的色差現(xiàn)象;文獻(xiàn)[8]算法與ULAP處理后的場(chǎng)景3亮度偏移較大,導(dǎo)致場(chǎng)景整體呈現(xiàn)暗色;文獻(xiàn)[10]算法處理后的場(chǎng)景3與標(biāo)簽差異較大.基于深度學(xué)習(xí)的增強(qiáng)算法(ADMNNet、FUnIE-GAN、文獻(xiàn)[5]算法、UResnet)處理后的場(chǎng)景1顏色偏移明顯,未能有效對(duì)顏色進(jìn)行校正.UResnet與Water-Net處理后的場(chǎng)景2存在一定的顏色偏移,且UResnet處理后的場(chǎng)景2對(duì)比度偏低.文獻(xiàn)[5]算法與UResnet處理后的場(chǎng)景3亮度相對(duì)較低.
(a)原始圖像 (b)標(biāo)簽
總之,場(chǎng)景1的處理難度較大,盡管VMA-SWN在場(chǎng)景1存在輕微的色偏,但是處理效果最接近標(biāo)簽.相比11種對(duì)比算法,VMA-SWN在3個(gè)場(chǎng)景的處理效果都相對(duì)較優(yōu),能夠有效進(jìn)行顏色校正并提升3個(gè)原始水下場(chǎng)景的視覺(jué)質(zhì)量.
VMA-SWN與11種算法在UWIN數(shù)據(jù)集上的定量評(píng)估結(jié)果如表2所示,表中黑體數(shù)字表示最優(yōu)值.
表2 各算法在UWIN數(shù)據(jù)集上的定量評(píng)估結(jié)果
由表2可知,ADMNNet與UGAN獲得的PSNR值與VMA-SWN相對(duì)接近,其余算法的PSNR值均未超過(guò)24 dB.在SSIM指標(biāo)上只有VMA-SWN超過(guò)0.85,明顯高于其余算法.在UIQM指標(biāo)上,UGAN獲得最高值,為3.053,VMA-SWN的UIQM值為2.931,但是UGAN獲得的PSNR與SSIM值均低于VMA-SWN.
總之,VMA-SWN的定量評(píng)估結(jié)果相對(duì)較優(yōu).
各算法在UWIN數(shù)據(jù)集上視覺(jué)效果對(duì)比如圖4所示.將圖4中3個(gè)場(chǎng)景由左到右分別記為場(chǎng)景4、場(chǎng)景5與場(chǎng)景6.原始水下圖像呈現(xiàn)偏藍(lán)色的狀態(tài),并且與參考圖像(標(biāo)簽)的顏色差異明顯.非基于深度學(xué)習(xí)的增強(qiáng)算法(文獻(xiàn)[8]算法、文獻(xiàn)[10]算法與ULAP)在各場(chǎng)景上增強(qiáng)效果不明顯,圖像仍然呈現(xiàn)偏藍(lán)色狀態(tài),文獻(xiàn)[11]算法對(duì)場(chǎng)景4的處理存在細(xì)節(jié)丟失與色彩失衡現(xiàn)象,并且對(duì)場(chǎng)景5與場(chǎng)景6的處理效果輕微.基于深度學(xué)習(xí)的增強(qiáng)算法(ADM-NNet與UGAN)處理后的場(chǎng)景4偏向淡紫色,FUnIE-GAN、文獻(xiàn)[5]算法、Shallow-UWnet與URes-net處理后的場(chǎng)景5仍然沒(méi)有實(shí)現(xiàn)較好的顏色復(fù)原,Shallow-UWnet與Water-Net處理后的場(chǎng)景6偏向淡藍(lán)色.VMA-SWN處理后的圖像最接近相應(yīng)標(biāo)簽.
(a)原始圖像 (b)標(biāo)簽
VMA-SWN含有兩個(gè)需要進(jìn)行消融研究的組件,分別是跨層白化模塊SWB與結(jié)構(gòu)損失Lss,需要對(duì)比SWB與Lss使用前后VMA-SWN的增強(qiáng)效果變化情況.消融實(shí)驗(yàn)采用每次刪除一個(gè)模塊的方式,共含有下面3種設(shè)置.
1)Lmse+Lss+SWB.使用Lmse與Lss訓(xùn)練VMA-SWN.
2)Lmse+Lss.同時(shí)使用Lmse+Lss訓(xùn)練VMA-SWN-NoSWB.
3)Lmse.使用Lmse訓(xùn)練VMA-SWN-NoSWB.
為了保證結(jié)果的準(zhǔn)確性,采用PSNR與SSIM作為VMA-SWN量化評(píng)估依據(jù),實(shí)驗(yàn)結(jié)果如表3所示,表中黑體數(shù)字表示最優(yōu)值.由表可見(jiàn),在UIEB、UWIN數(shù)據(jù)集上效果最優(yōu)的是方案1),方案3)的SSIM值明顯低于方案1).該結(jié)果表明SWB與Lss對(duì)VMA-SWN的增強(qiáng)效果具有促進(jìn)作用.
表3 VMA-SWN的消融實(shí)驗(yàn)結(jié)果
VMA-SWN采用TAB與RTAB作為主要的特征提取模塊,TAB與RTAB的特征維度D是一個(gè)重要的超參數(shù),影響VMA-SWN的增強(qiáng)效果與模型大小.D過(guò)小可能導(dǎo)致模型的數(shù)據(jù)學(xué)習(xí)能力不足,D過(guò)大會(huì)導(dǎo)致模型的參數(shù)量較大.結(jié)合已有文獻(xiàn)[13]和文獻(xiàn)[32]中特征維度的選擇方式,將D的取值設(shè)定為16的整數(shù)倍數(shù),分別設(shè)定D=32、48、64、96、128,以此計(jì)算相應(yīng)的評(píng)估指標(biāo)并獲取模型參數(shù)量.
各算法在UIEB數(shù)據(jù)集上的結(jié)果如圖5所示,PSNR與SSIM均取小數(shù)點(diǎn)后5位作為有效位.由圖可見(jiàn),D在32、48、64、96與128之間選取(二者維度需要保持一致)時(shí),定量評(píng)估結(jié)果存在一定差異,PSNR在21.6 dB左右波動(dòng),SSIM在0.909左右波動(dòng).根據(jù)結(jié)果可知,D=64時(shí)為較優(yōu)選擇,此時(shí)VMA-SWN獲得的PSNR與SSIM值相對(duì)較高,通過(guò)計(jì)算,此時(shí)模型參數(shù)量為8.44 MB.
(a)PSNR
為了驗(yàn)證VMA-SWN訓(xùn)練過(guò)程的穩(wěn)定性,繪制Lmse與Lss在訓(xùn)練過(guò)程中的損失曲線,每隔10次迭代記錄過(guò)去10次迭代的損失均值作為一個(gè)數(shù)據(jù)點(diǎn),獲取VMA-SWN在UIEB、UWIN數(shù)據(jù)集上損失函數(shù)的收斂情況,具體如圖6與圖7所示.
(a)Lmse
(a)Lmse
由圖6和圖7可以看出,Lmse與Lss在總體上都呈現(xiàn)穩(wěn)定的收斂趨勢(shì),表明VMA-SWN訓(xùn)練過(guò)程的穩(wěn)定性.
針對(duì)光在水中吸收與散射造成的質(zhì)量降低問(wèn)題,本文提出基于視覺(jué)多頭自注意力與跨層白化的水下圖像增強(qiáng)網(wǎng)絡(luò)(VMA-SWN),采用視覺(jué)多頭自注意力模塊構(gòu)建主體增強(qiáng)網(wǎng)絡(luò),并對(duì)VMA-SWN的淺層特征進(jìn)行實(shí)例白化處理,采用淺層與深層的跨層白化模式增強(qiáng)VMA-SWN對(duì)水下圖像的處理效果.實(shí)驗(yàn)中采用11種水下增強(qiáng)算法,在水下數(shù)據(jù)集上對(duì)比各算法在量化評(píng)估與視覺(jué)效果上的差異,并進(jìn)行實(shí)例白化與結(jié)構(gòu)損失的消融實(shí)驗(yàn),以及VMA-SWN的收斂性實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證VMA-SWN在水下圖像增強(qiáng)任務(wù)上的有效性.本文提出的是有監(jiān)督方式的水下圖像增強(qiáng)方法,今后會(huì)考慮探索針對(duì)無(wú)監(jiān)督的訓(xùn)練過(guò)程,緩解水下圖像增強(qiáng)模型對(duì)成對(duì)數(shù)據(jù)的依賴性.