中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)志碼:A
Multi-modal Degradation Feature Learning for Underwater Image Enhancement
XIONG Qingbo 1 ,CHEN Lei 1 , LIANG Xiaoli 1 , LIU Tianxu2
(1. School of Software,Henan University,Kaifeng 45OO46,Henan,China; 2.Henan Provincial Transportation Dispatching Command Center,Zhengzhou 45Oo16,Henan,China)
Abstract:Toaddress the lack of generalizationand flexibilityin traditional underwater image enhancementmodels,a multi-modal degraded contrastive language-image pre-training(MD-CLIP)model was proposed.MD-CLIP model was trainedusingcontrastive learning toencodetheimage featuresand textfeaturesof low-qualityunderwaterimages into multi-modaldegraded features.Across-atentionmechanismand prompt embedding wereused to integrate themultimodal degraded featurespredictedbyMD-CLIP modelintotheunderwaterimageenhancementmodel,adjustingthe model's performance and generalization.Ablation and comparativeexperiments were conducted to validate the ffectivenessof themulti-modal degraded features.Theresultsshow that the multi-modal degraded featurespredicted by MD-CLIP model were embed into theunderwater image enhancement modelbyusing cross-atention mechanism,the image enhancement performanceand generalization performance of the model are significantlyimproved.MD-CLIP model can be added to other image enhancement models as a universal enhancement module.
Keywords:underwaterimage enancement;multi-modaldegradation feature;;contrastivelearning;cross-attentionmechanism
近年來(lái),隨著海洋資源開(kāi)發(fā)的興起,水下圖像增強(qiáng)技術(shù)備受關(guān)注。水下圖像增強(qiáng)技術(shù)不僅能夠提高海洋環(huán)境觀測(cè)的精度和深度[1],在推動(dòng)海洋科學(xué)研究方面發(fā)揮關(guān)鍵作用,而且有助于提高海洋資源開(kāi)發(fā)和管理的效率,為漁業(yè)、能源開(kāi)發(fā)和礦產(chǎn)資源勘探等提供實(shí)質(zhì)性幫助[2]。此外,該技術(shù)對(duì)于環(huán)境監(jiān)測(cè)與保護(hù)、海底考古與文化保護(hù),以及軍事與安全應(yīng)用都具有重要意義,為這些領(lǐng)域提供更準(zhǔn)確、清晰的數(shù)據(jù)支持,從而更好地保護(hù)海洋生態(tài)系統(tǒng)[3]綜合而言,水下圖像增強(qiáng)的研究對(duì)于拓展人類(lèi)對(duì)海洋世界的認(rèn)知,促進(jìn)相關(guān)領(lǐng)域的發(fā)展和進(jìn)步具有深遠(yuǎn)而積極的影響。
水下圖像增強(qiáng)與一般的圖像增強(qiáng)具有明顯差異,這些差異主要是由水下成像過(guò)程中獨(dú)特的物理現(xiàn)象和環(huán)境各異所致,具體表現(xiàn)在以下幾個(gè)方面:1)光學(xué)特性差異。在水下環(huán)境中,水作為介質(zhì),對(duì)光的吸收和散射作用遠(yuǎn)比空氣復(fù)雜。紅光在水中迅速衰減,導(dǎo)致圖像整體偏藍(lán)綠;同時(shí),懸浮顆粒和浮游生物的背向散射會(huì)引人額外的模糊度和噪聲[4]。一般圖像通常在空氣中拍攝,受大氣散射影響較小,色彩失真和光線衰減問(wèn)題不明顯。2)光線傳播路徑的復(fù)雜性。在水下環(huán)境中,光線在水中的傳播路徑受到深度、水質(zhì)、懸浮物質(zhì)以及光源位置等多種因素的影響,導(dǎo)致光線強(qiáng)度和色彩分布不均勻,增加了圖像處理的難度[5]。一般圖像的光照條件相對(duì)穩(wěn)定且可預(yù)測(cè),處理時(shí)可以較為直接地應(yīng)用亮度、對(duì)比度調(diào)整等技術(shù)。3)退化模型的多樣性。在水下環(huán)境中,圖像退化包括色彩失真、對(duì)比度降低、模糊度增加、噪聲增大等多個(gè)方面,且這些退化因素相互交織,形成了復(fù)雜的多模態(tài)退化模式[6]。一般圖像的退化類(lèi)型相對(duì)單一,如相機(jī)傳感器噪聲、運(yùn)動(dòng)模糊度等,可以通過(guò)針對(duì)性的算法進(jìn)行有效處理。4)環(huán)境適應(yīng)性要求。在水下環(huán)境中,水下場(chǎng)景的多樣性要求算法具備高度的自適應(yīng)性和靈活性,能夠根據(jù)不同深度、水質(zhì)、拍攝時(shí)間及角度的變化自動(dòng)調(diào)整增強(qiáng)策略[7]。一般圖像的環(huán)境變量相對(duì)固定,算法設(shè)計(jì)時(shí)可針對(duì)性優(yōu)化,無(wú)須過(guò)分強(qiáng)調(diào)環(huán)境適應(yīng)性。
上述差異的存在導(dǎo)致傳統(tǒng)圖像增強(qiáng)技術(shù)難以直接應(yīng)用于水下圖像處理,無(wú)法準(zhǔn)確地模擬和補(bǔ)償水體引起的復(fù)雜退化效應(yīng),出現(xiàn)圖像增強(qiáng)效果不佳或不穩(wěn)定等問(wèn)題,因此,開(kāi)發(fā)專(zhuān)門(mén)針對(duì)水下圖像增強(qiáng)的算法顯得尤為必要。通過(guò)深人理解水下成像的特殊性,結(jié)合多模態(tài)特征學(xué)習(xí)和先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)[8],可以更精準(zhǔn)地預(yù)測(cè)和校正水下圖像的退化特征,進(jìn)而實(shí)現(xiàn)更高質(zhì)量的圖像增強(qiáng),提高水下視覺(jué)任務(wù)的性能和效率,不僅能拓寬水下圖像應(yīng)用的邊界,而且為探索和保護(hù)水下世界提供強(qiáng)有力的技術(shù)支持。
早期水下圖像增強(qiáng)的研究方法主要分為非物理模型和基于物理模型的2種[10]。非物理模型方法旨在修改圖像像素值,以提高水下模糊圖像的對(duì)比度。例如,Iqbal等[11]擴(kuò)展了RGB顏色空間和HSV顏色空間的動(dòng)態(tài)像素范圍,提高了水下圖像的對(duì)比度和飽和度。Ghani等[12]改進(jìn)了Iqbal等的方法,解決了圖像過(guò)度增強(qiáng)或增強(qiáng)不足的問(wèn)題。基于物理模型的方法將水下圖像增強(qiáng)視為一個(gè)不確定的逆問(wèn)題,并利用手動(dòng)提取的先驗(yàn)特征來(lái)估計(jì)圖像形成模型的潛在參數(shù)[13]。例如,Chiang 等[14]和 Drews等[15]通過(guò)修改He等[16]提出的暗通道先驗(yàn)(DCP)模型,實(shí)現(xiàn)了水下圖像增強(qiáng)。此外,Li等[17]提出一種混合方法,包括顏色校正和水下圖像去模糊,以提高退化水下圖像的視覺(jué)質(zhì)量。Akkaynak等[18]提出一種改進(jìn)的水下圖像形成方程,這是一種物理上更精確的模型。
隨著深度學(xué)習(xí)的發(fā)展和大型數(shù)據(jù)集的積累,數(shù)據(jù)驅(qū)動(dòng)方法變得越來(lái)越流行。這些方法主要使用卷積運(yùn)算來(lái)提取圖像特征,而不是使用手動(dòng)提取的各種先驗(yàn)特征;然而,由于缺乏水下圖像增強(qiáng)數(shù)據(jù)集,因此早期的研究使用生成對(duì)抗性網(wǎng)絡(luò)(GAN)來(lái)生成數(shù)據(jù)集或執(zhí)行非配對(duì)學(xué)習(xí)。例如,Li等[19]首次將GAN應(yīng)用于水下模糊圖像的生成。另外,Jamadandi等[20]使用小波變換來(lái)更好地重構(gòu)信號(hào),而Uplavikar等[21]通過(guò)引入分類(lèi)器,使模型能夠更好地區(qū)分不同類(lèi)型的水下模糊圖像。Li等[22]創(chuàng)建一個(gè)水下圖像增強(qiáng)基準(zhǔn)模型,并提出一種基于該基準(zhǔn)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)。此外,Li等[23]提出一種以介質(zhì)傳輸為導(dǎo)向的具有多色空間嵌入的水下圖像增強(qiáng)網(wǎng)絡(luò),結(jié)合物理模型的優(yōu)勢(shì)來(lái)處理非彩色和低對(duì)比度的問(wèn)題。最后,Huo等[24]通過(guò)使用小波增強(qiáng)學(xué)習(xí)策略,使網(wǎng)絡(luò)能夠在空間和頻域中逐步細(xì)化水下圖像。
上述幾乎所有算法都采用RGB色彩空間設(shè)置,但RGB色彩空間對(duì)亮度和飽和度等圖像屬性不敏感。為了解決這個(gè)問(wèn)題,Wang等[25]提出了使用雙色空間的水下圖像增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)( UIEC?2. Net),該網(wǎng)絡(luò)有效地將RGB色彩空間和HSV色彩空間集成在一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)中。由于光吸收和散射均取決于波長(zhǎng),因此水下圖像通常受顏色偏差和低能見(jiàn)度的影響。為了解決這些圖像退化問(wèn)題,Zhang等[26]提出一種高效且魯棒的水下圖像增強(qiáng)(MLLE)方法,根據(jù)最小顏色損失原則和最大衰減映射引導(dǎo)融合策略局部調(diào)整輸入圖像的顏色和細(xì)節(jié),最終解決圖像退化問(wèn)題
現(xiàn)有的大多數(shù)水下圖像增強(qiáng)技術(shù)仍存在顯著局限,主要體現(xiàn)在以下幾個(gè)方面:
首先,傳統(tǒng)的水下圖像增強(qiáng)方法(如直方圖均衡化、濾波技術(shù)等),往往基于預(yù)設(shè)參數(shù)或通用模型,缺乏對(duì)特定水下環(huán)境的適應(yīng)性。水體的光學(xué)特性隨深度、水質(zhì)、光照條件等因素變化而變化,固定參數(shù)策略難以滿足多樣化的水下場(chǎng)景需求,導(dǎo)致圖像增強(qiáng)效果不穩(wěn)定且普遍性受限。
其次,大多數(shù)基于深度學(xué)習(xí)的水下圖像增強(qiáng)模型在處理圖像退化問(wèn)題時(shí)多集中于單一維度,而忽視了水下圖像退化的多模態(tài)特性。水下圖像的退化是一個(gè)復(fù)雜的多因素過(guò)程,單一策略難以全面捕捉和補(bǔ)償所有類(lèi)型的退化特征。
鑒于此,本文中提出基于多模態(tài)退化特征學(xué)習(xí)的水下圖像增強(qiáng)方法,方法的核心是將多模態(tài)退化圖文對(duì)比(MD-CLIP)模型預(yù)測(cè)的多模態(tài)退化特征嵌入到非線性無(wú)激活網(wǎng)絡(luò)(NAFNet)模型中。MD-CLIP模型利用對(duì)比學(xué)習(xí),首次將圖像特征與文本描述相結(jié)合,共同預(yù)測(cè)多模態(tài)退化特征,不僅能提高模型對(duì)水下環(huán)境多樣性的理解能力,還能增強(qiáng)模型在不同條件下的自適應(yīng)性。進(jìn)一步地,通過(guò)引入交叉注意力機(jī)制,將預(yù)測(cè)的退化特征融人圖像增強(qiáng)流程,實(shí)現(xiàn)更精準(zhǔn)的圖像增強(qiáng),克服傳統(tǒng)方法在處理復(fù)雜水下環(huán)境時(shí)的局限性。
MD-CLIP模型與實(shí)施
1. 1 MD-CLIP模型
MD-CLIP模型如圖1(a)所示。MD-CLIP模型的核心是控制圖文對(duì)比預(yù)訓(xùn)練(CLIP)[27]模型的參數(shù)不變,使用CLIP中的文本編碼器和圖像編碼器來(lái)訓(xùn)練更新控制器ContNet。ContNet是CLIP圖像編碼器的副本,但使用一些零初始化連接進(jìn)行包裝,從而向編碼器添加控制,它操縱所有編碼器塊的輸出以控制圖像編碼器的預(yù)測(cè)。如圖1所示,MDCLIP模型凍結(jié)預(yù)訓(xùn)練CLIP的圖像編碼器和文本編碼器中的參數(shù),再通過(guò)對(duì)比學(xué)習(xí)訓(xùn)練ContNet,預(yù)測(cè)輸人圖像的多模態(tài)退化特征即文本退化特征和圖像退化特征。訓(xùn)練完成以后,使用交叉注意力機(jī)制將MD-CLIP模型預(yù)測(cè)的多模態(tài)退化特征嵌人其他圖像增強(qiáng)模型中,改進(jìn)模型的性能和泛化性。MD-CLIP模型對(duì)比學(xué)習(xí)ContNet預(yù)測(cè)的文本退化特征與相應(yīng)文本特征,其中文本特征是通過(guò)預(yù)訓(xùn)練CLIP的文本編碼器編碼對(duì)應(yīng)的文本信息產(chǎn)生的潛在特征向量,而文本信息包括輸入圖像的內(nèi)容描述、所屬數(shù)據(jù)集類(lèi)別和模糊度。將ContNet預(yù)測(cè)的圖像退化特征與目標(biāo)圖像的圖像特征進(jìn)行對(duì)比學(xué)習(xí),圖像特征由預(yù)訓(xùn)練CLIP的圖像編碼器編碼目標(biāo)清晰圖像并受ContNet控制產(chǎn)生的潛在特征向量。MD-CLIP模型訓(xùn)練完成以后,ContNet將能夠相對(duì)準(zhǔn)確地預(yù)測(cè)輸人圖像的多模態(tài)退化特征,即文本退化特征與圖像退化特征。
在訓(xùn)練MD-CLIP模型之前,應(yīng)構(gòu)建圖像-文本退化對(duì)作為MD-CLIP模型的輸入,如圖2所示。使用自舉式圖文預(yù)訓(xùn)練模型(BLIP)[28]為所有目標(biāo)清晰圖像生成圖像內(nèi)容描述,輸入圖像的內(nèi)容描述、所屬數(shù)據(jù)集和模糊度共同組成文本退化信息。文本退化信息與輸入的水下低質(zhì)量圖像共同組成圖像-文本退化對(duì),即MD-CLIP模型的輸入之一。除此之外,MD-CLIP模型的輸入還包括與水下低質(zhì)量圖像相配對(duì)的目標(biāo)清晰圖像。
MD-CLIP網(wǎng)絡(luò)模型就是訓(xùn)練ContNet的過(guò)程,ContNet通過(guò)大量數(shù)據(jù)訓(xùn)練學(xué)習(xí)預(yù)測(cè)輸入圖像的多模態(tài)退化特征。本文中將構(gòu)建的圖像-文本退化對(duì)和目標(biāo)清晰圖像輸入到網(wǎng)絡(luò)中,ContNet接收輸入圖像學(xué)習(xí)預(yù)測(cè)輸入圖像的文本退化特征和圖像退化特征,文本退化特征與圖像退化特征共同組成多模態(tài)退化特征。MD-CLIP模型引用預(yù)訓(xùn)練的CLIP模型,預(yù)訓(xùn)練CLIP的圖像編碼器在輸人的目標(biāo)清晰圖像和來(lái)自ContNet的控制因子共同作用下將圖像編碼為相應(yīng)的圖像特征,并與ContNet預(yù)測(cè)的圖像退化特征對(duì)比學(xué)習(xí)。CLIP模型的文本編碼器將輸入的文本信息編碼成文本特征,與ContNet預(yù)測(cè)的文本退化特征對(duì)比學(xué)習(xí)。最后,使用多個(gè)數(shù)據(jù)集的大量數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)模型,其中數(shù)據(jù)集包括水下圖像增強(qiáng)基準(zhǔn)數(shù)據(jù)集(UIEB)、增強(qiáng)水下視覺(jué)感知數(shù)據(jù)集(EUVP)[29]和低光照水下圖像數(shù)據(jù)集(LSUI)[30]共3個(gè)水下圖像數(shù)據(jù)集。
1.2 實(shí)施細(xì)節(jié)
MD-CLIP模型使用的優(yōu)化器是AdamW,學(xué)習(xí)率為0.00002。該優(yōu)化器的2個(gè)系數(shù)(即貝塔系數(shù))分別設(shè)置為0.90和0.98。批數(shù)量設(shè)置為64,最大訓(xùn)練輪數(shù)設(shè)置為200。
構(gòu)造數(shù)據(jù)集時(shí),選擇UIEB、LSUI和EUVP中的配對(duì)數(shù)據(jù)集underwater_dark、underwater_imagenet和underwater_scenes作為訓(xùn)練MD-CLIP模型的數(shù)據(jù)集。UIEB數(shù)據(jù)集由890張合成參考的真實(shí)水下圖像組成。LSUI數(shù)據(jù)集由4279幅真實(shí)的水下圖像及其相應(yīng)的參考圖像組成。EUVP數(shù)據(jù)集包含單獨(dú)的配對(duì)和未配對(duì)圖像樣本集,其中,配對(duì)樣本包括高質(zhì)量以及對(duì)應(yīng)的低質(zhì)量圖像。隨機(jī)選擇UIEB數(shù)據(jù)集的800對(duì)圖像用于訓(xùn)練,剩下的90對(duì)圖像用于測(cè)試。隨機(jī)選擇LSUI數(shù)據(jù)集的3959對(duì)圖像用作訓(xùn)練,剩下320對(duì)圖像用作測(cè)試。隨機(jī)選擇underwater_dark數(shù)據(jù)集的5350對(duì)圖像用于訓(xùn)練,剩下200對(duì)圖像用于測(cè)試。隨機(jī)選擇underwater_imagenet數(shù)據(jù)集的3500對(duì)圖像用于訓(xùn)練,剩下200對(duì)圖像用于測(cè)試。隨機(jī)選擇underwater_scenes數(shù)據(jù)集的1985對(duì)圖像用于訓(xùn)練,剩下200對(duì)圖像用于測(cè)試。本文中使用的是交叉熵?fù)p失函數(shù)訓(xùn)練MD-CLIP模型的損失函數(shù)。
1.3 將多模態(tài)退化特征集成到NAFNet模型中
本文中使用NAFNet作為圖像增強(qiáng)的基本框架,將預(yù)訓(xùn)練的MD-CLIP模型應(yīng)用到NAFNet網(wǎng)絡(luò)模型中。由于在NAFNet模型的不同點(diǎn)嵌入多模態(tài)退化特征對(duì)模型的性能產(chǎn)生不同的影響,因此,在實(shí)驗(yàn)部分設(shè)置消融實(shí)驗(yàn),以確定多模態(tài)退化特征最有效的插入點(diǎn)。
最新的圖像重建技術(shù)如Uformer[31]和NAF-Net[32]等模型的圖像增強(qiáng)性能顯著提升。盡管多層變換器(Transformer)架構(gòu)在圖像增強(qiáng)領(lǐng)域具有顯著優(yōu)勢(shì);但同時(shí)也帶來(lái)計(jì)算復(fù)雜性和資源需求增加的問(wèn)題,因此本文中提出一種新穎、有效的統(tǒng)一圖像增強(qiáng)框架。將預(yù)訓(xùn)練MD-CLIP網(wǎng)絡(luò)模型預(yù)測(cè)的多模態(tài)退化特征(MMF)集成到NAFNet網(wǎng)絡(luò)模型中,創(chuàng)建如圖3所示的整體網(wǎng)絡(luò)模型。保留基本的編碼器-解碼器架構(gòu)和分層跳過(guò)連接模式,將MD-CLIP模型預(yù)測(cè)的MMF插入到網(wǎng)絡(luò)的解碼器部分。為了提高模型在圖像增強(qiáng)任務(wù)中的性能,本文中采用交叉注意力機(jī)制將MMF融合到網(wǎng)絡(luò)模型塊中
如圖3(a)所示,MMF被整合到類(lèi)似Unet的網(wǎng)絡(luò)架構(gòu)的解碼器段中。MMF由預(yù)訓(xùn)練的MD-CLIP模型所預(yù)測(cè)的文本退化特征和圖像退化特征組成,這些獨(dú)特的模式協(xié)同促進(jìn)了模型的圖像增強(qiáng)能力。MD-CLIP模型的預(yù)測(cè)結(jié)果是由圖像退化特征和文本退化特征組成的多模態(tài)退化特征組成,為了從預(yù)訓(xùn)練的MD-CLIP模型中學(xué)習(xí)語(yǔ)義指導(dǎo),本文中將圖像退化特征注人到NAFNet模塊中。同時(shí),MD-CLIP模型預(yù)測(cè)的文本退化特征對(duì)于統(tǒng)一圖像增強(qiáng)是非常有效的,其目標(biāo)是用單個(gè)模型處理多種退化類(lèi)型的低質(zhì)量水下圖像。為了有效利用這些文本退化特征,本文中將它們與提示學(xué)習(xí)模塊相結(jié)合,以進(jìn)一步改進(jìn)圖像增強(qiáng)性能,如圖1(b)所示。圖3(b)更詳細(xì)地說(shuō)明了在NAFNet模塊中集成MMF特征后的特定結(jié)構(gòu)配置。該配置強(qiáng)調(diào)了來(lái)自MD-CLIP模型的連接的多模態(tài)特征是如何在NAFNet模塊中無(wú)縫集成和處理的。值得注意的是,在這些多模態(tài)特征中,文本嵌入是專(zhuān)門(mén)設(shè)計(jì)用來(lái)增強(qiáng)網(wǎng)絡(luò)在統(tǒng)一圖像增強(qiáng)環(huán)境中識(shí)別和處理不同退化類(lèi)型的能力的。這種有針對(duì)性的增強(qiáng)處理對(duì)于提高網(wǎng)絡(luò)分類(lèi)和校正各種形式的圖像退化的適應(yīng)性和精度至關(guān)重要
1.4 損失函數(shù)
傳統(tǒng)的端到端水下圖像增強(qiáng)方法幾乎都集中在映射函數(shù)上,不能保證圖像增強(qiáng)結(jié)果的真實(shí)性,因此,本文中設(shè)計(jì)了基于鑒別器模型的損失函數(shù),以保證圖像增強(qiáng)結(jié)果與原始觀測(cè)值一致。
設(shè) B 為作為輸入的退化圖像, s 為對(duì)應(yīng)的目標(biāo)清晰圖像, g(B) 為圖像重建結(jié)果, Ds,Ds 分別為清晰、模糊圖像的判別器。為了保證圖像增強(qiáng)結(jié)果接近清晰圖像,使用L1范數(shù)計(jì)算像素?fù)p失 Lg (2號(hào)
Lg=|g(B)-S|1o
同時(shí)定義清晰圖像和模糊圖像的對(duì)抗損失 LDs ,使生成的圖像增強(qiáng)結(jié)果更加逼真。 LDs 表達(dá)式為
式中: Es 為對(duì)清晰圖像分布的期望; EB 對(duì)模糊圖像分布的期望; Ds(S) 為清晰圖像判別器對(duì)真實(shí)清晰圖像 s 的判別輸出值; )為模糊圖像判別器對(duì)生成器輸出的增強(qiáng)圖像 g(B) 的判別輸出值。
將訓(xùn)練過(guò)程中的整體損失函數(shù)定義為
式中: N 為批次樣本數(shù)量; μ 為權(quán)重參數(shù),取為 0.01 。
2 實(shí)驗(yàn)與結(jié)果
實(shí)驗(yàn)包括2個(gè)部分:一是用消融實(shí)驗(yàn)驗(yàn)證MDCLIP網(wǎng)絡(luò)模型對(duì)水下圖像增強(qiáng)模型的有效性,并探究MD-CLIP模型預(yù)測(cè)的多模態(tài)退化特征嵌入到NAFNet模型的最佳位置;二是比較嵌入了預(yù)訓(xùn)練MD-CLIP模型的NAFNet模型與其他水下圖像增強(qiáng)模型的性能。實(shí)驗(yàn)在一臺(tái)配備N(xiāo)VIDIAGeForceRTX3090顯卡的計(jì)算機(jī)上實(shí)現(xiàn)
在訓(xùn)練NAFNet之前,首先將輸人圖像的分辨率調(diào)整為256像素 ×256 像素。在訓(xùn)練過(guò)程中使用的優(yōu)化器是Adam,學(xué)習(xí)率為0.0002,批數(shù)量設(shè)置為16,剪裁尺寸設(shè)置為256,最大訓(xùn)練輪數(shù)設(shè)置為750。
每個(gè)訓(xùn)練過(guò)程都會(huì)保存最新一次的可訓(xùn)練參數(shù),每50次迭代就會(huì)顯示來(lái)自測(cè)試集的圖像增強(qiáng)結(jié)果。對(duì)NAFNet網(wǎng)絡(luò)中MD-CLIP模型的插人位置進(jìn)行實(shí)驗(yàn),以求取最優(yōu)的插入位置。此外,本文中將集成了MD-CLIP模型的NAFNet模型分別與UT-UIE[30]]SyreaNet[33]、WaterNet[34]、SGUIE-Net[35]以及 RAUNE-Net[36] 共5種水下圖像增強(qiáng)模型進(jìn)行比較,以驗(yàn)證嵌人了多模態(tài)退化特征的NAFNet模型的水下圖像增強(qiáng)性能。
2.1 消融實(shí)驗(yàn)
為了驗(yàn)證MD-CLIP網(wǎng)絡(luò)模型對(duì)不同圖像增強(qiáng)模型的有效性,使用UIEB數(shù)據(jù)集訓(xùn)練NAFNet、SGUIE-Net和RAUNE-Net模型,再將MD-CLIP模型分別插入到NAFNet、SGUIE-Net和RAUNE-Net模型中并開(kāi)始訓(xùn)練,最后統(tǒng)一評(píng)估訓(xùn)練好的模型,評(píng)估指標(biāo)為峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM),評(píng)估結(jié)果如表1所示。結(jié)果顯示,MD-CLIP模型的插入使3個(gè)模型的圖像增強(qiáng)性能有不同程度的提高,說(shuō)明MD-CLIP模型對(duì)提升圖像增強(qiáng)模型的性能是有效的。
將MMF嵌入到NAFNet模型中,并對(duì)嵌入的不同位置設(shè)計(jì)實(shí)驗(yàn)。使用UIEB數(shù)據(jù)集訓(xùn)練NAFNet模型。將MD-CLIP模型訓(xùn)練后的MMF分別插入到NAFNet模型的不同位置中并開(kāi)始訓(xùn)練,分別測(cè)試評(píng)估8種情況,評(píng)估指標(biāo)為PSNR和SSIM,結(jié)果如表2所示。由表可知,將MD-CLIP模型插入到NAFNet模型的解碼器位置中對(duì)NAFNet模型的性能提升最顯著。
2.2 定量重構(gòu)性能對(duì)比
將多模態(tài)退化特征嵌入到NAFNet模型的最佳位置,比較嵌入多模態(tài)退化特征的NAFNet模型與其他5種水下圖像增強(qiáng)模型的性能。為了確保比較的公平性,使用LSUI數(shù)據(jù)集重新訓(xùn)練上述模型中使用的網(wǎng)絡(luò)。分別使用來(lái)自LSUI數(shù)據(jù)集的剩余320對(duì)圖像、從EUVP數(shù)據(jù)集中隨機(jī)選擇的600對(duì)圖像和從UIEB數(shù)據(jù)集中隨機(jī)選擇的90對(duì)圖像對(duì)上述模型在圖像增強(qiáng)性能方面進(jìn)行測(cè)試評(píng)估,評(píng)估指標(biāo)為PSNR和SSIM,結(jié)果如表3所示。由表可知,與其他模型相比,嵌入了多模態(tài)退化特征的NAFNet模型在LSUI數(shù)據(jù)集的性能大幅度提高,在EUVP、UIEB數(shù)據(jù)集上的性能也相對(duì)較好,驗(yàn)證了MD-CLIP模型預(yù)測(cè)的多模態(tài)退化特征對(duì)NAFNet模型的圖像增強(qiáng)性能和泛化性都有一定的提升作用
2.3 定性重構(gòu)性能對(duì)比
實(shí)驗(yàn)測(cè)試了不同水下圖像增強(qiáng)模型在RUIE_Color90數(shù)據(jù)集的圖像增強(qiáng)效果,結(jié)果圖4所示。由圖可以看出,MD-CLIP模型對(duì)輸入圖像的增強(qiáng)效果最好,可以糾正水下圖像的顏色偏差,提高圖像的對(duì)比度和細(xì)節(jié)清晰度,增強(qiáng)圖像整體的視覺(jué)效果。相比之下,經(jīng)過(guò)其他方法增強(qiáng)后的圖像出現(xiàn)暗背景或整體偏綠、偏藍(lán)的情況。圖5所示為不同水下圖像增強(qiáng)方法在U45數(shù)據(jù)集的視覺(jué)效果。結(jié)果顯示,本文方法的圖像增強(qiáng)效果也最好。
上述實(shí)驗(yàn)結(jié)果不僅驗(yàn)證了本文方法能夠顯著提升模型水下圖像恢復(fù)的性能,而且驗(yàn)證了該方法具有優(yōu)秀的泛化能力。
3 結(jié)語(yǔ)
本文中構(gòu)建了一種多模態(tài)退化圖文對(duì)比(MDCLIP)模型,可以預(yù)測(cè)輸入圖像的多模態(tài)退化特征,從而幫助其他圖像恢復(fù)模型提高性能和泛化性。MD-CLIP模型的核心是設(shè)計(jì)一個(gè)ContNet模塊,該模塊利用預(yù)訓(xùn)練CLIP模型的文本編碼器和圖像編碼器,通過(guò)對(duì)比學(xué)習(xí)具備預(yù)測(cè)輸人圖像多模態(tài)退化特征的功能。將用作訓(xùn)練MD-CLIP模型的水下圖像數(shù)據(jù)集構(gòu)建成圖像-文本退化對(duì),再將這些混合圖像-文本退化對(duì)作為輸入訓(xùn)練MD-CLIP模型。使用交叉注意力機(jī)制將MD-CLIP模型集成到水下圖像增強(qiáng)模型中,模型的圖像增強(qiáng)性能和泛化性能顯著提高。本文中選擇將MD-CLIP模型嵌入到NAFNet模型中,通過(guò)一系列實(shí)驗(yàn)并對(duì)測(cè)試集進(jìn)行評(píng)估,,結(jié)果表明,本文中所提出的MD-CLIP模型對(duì)NAFNet模型的圖像增強(qiáng)性能和泛化性都有一定的提升作用。
雖然本文中選擇將MD-CLIP模型集成到NAF-Net模型中,但這并不是MD-CLIP模型的唯一選擇。MD-CLIP模型可以作為一個(gè)通用的增強(qiáng)模塊添加到其他的圖像增強(qiáng)模型中。在未來(lái)的工作中,可以嘗試將MD-CLIP模型嵌入到更多的圖像增強(qiáng)模型中,探討不同模型的增強(qiáng)效果,并分析MD-CLIP模型對(duì)不同圖像增強(qiáng)模型的性能提升規(guī)律。
參考文獻(xiàn):
[1] WANG H,ZHANGWB,REN P.Self-organized underwater image enhancement[J].ISPRS Journal of Photogrammetryand Remote Sensing,2024,215:1.
[2] ZHOUJC,PANG L,ZHANG D H,et al.Underwater image enhancement method via multi-interval subhistogram perspective equalization[J].IEEE Journal of Oceanic Engineering,2O23,48 (2):474.
[3] ZHOUJC,SUNJM,ZHANGWS,etal.Multi-viewunderwater imageenhancementmethod viaembedded fusion mechanism[J]. Engineering Applications ofArtificial Intelligence,2O23,121: 105946.
[4] PENGL T,ZHUCL,BIANLH.U-shape transformer for underwater image enhancement[J]. IEEE Transactions on Image Processing,2023,32:3066.
[5] LINSJ,LIZ,ZHENGFH,etal.Underwaterimageenhancement based on adaptive color correction and improved retinex algo rithm[J].IEEE Access,2023,11:27620.
[6] WANGH,SUNSX,RENP.Metaunderwatercamera:asmart protocol forunderwaterimage enhancement[J].ISPRSJournal of Photogrammetry and Remote Sensing,2023,195:462. Processing,2023,32:1442.
[8]HUANG YF, YUAN F, XIAO F Q,et al. Underwater image enhancement based on zero-reference deep network[J]. IEEE Journal of Oceanic Engineering,2023,48(3):903.
[9]SUN B Y,MEI Y P, YAN N,et al. UMGAN: underwater image enhancement network for unpaired image-to-image translation[J]. Journal of Marine Science and Engineering, 2023,11(2) : 447.
[10]YANG M,HU JT,LIC Y,et al. An in-depth survey of underwater image enhancement and restoration[J]. IEEE Access, 2019,7: 123638.
[11]IQBAL K, ODETAYO M, JAMES A, et al. Enhancing the low quality images using unsupervised colour correction method[ C]// 2010 IEEE International Conference on Systems,Man and Cybernetics,October10-13,2010,Istanbul,Turkey.New York: IEEE,2010:2241-2244.
[12]GHANI A S A,ISA N A M. Underwater image quality enhancement through integrated color model with Rayleigh distribution [J]. Journal of Visual Communication and Image Representation,2015,27:219.
[13]GHANI A SA,ISA N A M. Enhancement of low quality underwater image through integrated global and local contrast correction [J].Journal of Visual Communication and Image Representation,2015,37:332.
[14]ANCUTI C O,ANCUTI C,De VLEESCHOUWER C,et al. Color balance and fusion for underwater image enhancement[J]. IEEE Transactions on Image Processing,2017,27(1):379.
[15]DREWS P L J, NASCIMENTO E R, BOTELHO S S C,et al. Underwater depth estimation and image restoration based on single images[J]. IEEE Computer Graphics and Applications, 2016,36(2): 24.
[16]HE K M,SUN J, TANG X O. Single image haze removal using dark channel prior[J]. IEEE Transactions on Pattrn Analysis and Machine Intelligence,2010,33(12): 2341.
[17]LI C Y,GUO JC,GUO C L,et al. A hybrid method for underwater image correction[J].Pattern Recognition Letters,2017, 94: 62.
[18]AKKAYNAK D,TREIBITZ T. A revised underwater image formation model[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23,Salt Lake City,UT, USA. New York: IEEE,2018: 5399.
[19]LIJ,SKINNER K A, EUSTICE R M, et al. Watergan: unsupervised generative network to enable real-time color correction of monocular underwater images[J]. IEEE Robotics and Automation Letters,2017,3(1) : 387.
[20]JAMADANDI A,MUDENAGUDI U.Exemplar-based underwater image enhancement augmented by wavelet corrected trasforms [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattrn Recognition Workshops,June 16-19,2019, Long Beach,USA.New York:IEEE,2019:11.
[21]UPLAVIKAR P M, WU Z Y, WANG Z Y. Al-in-one underwater image enhancement using domain-adversarial learning[EB/ OL].(2019-05-30)[2024-03-22]. htps://doi.org/10. 48550/arXiv.1905.13342.
[22]LIC Y,GUO CL,REN WQ,et al.An underwater image enhancement benchmark dataset and beyond[J].IEEE Transactions on Image Processing,2019,29:2629.
[23]LIC Y,ANWAR S,HOU JH,et al. Underwater image enhancement via medium transmission-guided multi-color space embedding[J]. IEEE Transactions on Image Processing,2O21,30: 2098.
[24] HUO FS,LI B H, ZHU X G. Efficient wavelet boost learningbased multi-stage progressive refinement network for underwater image enhancement[C]//2O21 IEEE/CVF International Conference on ComputerVision Workshops(ICCVW),October11-17, 2021,Montreal,BC,Canada.New York:IEEE,2O21:1944.
[25] WANGYD,GUOJC,GAOH,etal.UIEC -Net:CNNbased underwater image enhancement using two color space[J]. Signal Processing:Image Communication,2021,96:116250.
[26]ZHANG WD,ZHUANG P X,SUN H H,et al.Underwater imageenhancement via minimal color loss and locally adaptive contrast enhancement[J]. IEEE Transactions on Image Processing, 2022,31:1234.
[27] RADFORD A,KIM J W,HALLACY C,et al. Learning transferable visual’ models from natural language supervision [EB/ OL].(2021-02-26)[2024-03-21]. https://doi.org/10. 48550/arXiv.2103.00020.
[28]LI JN,LI D X,XIONG C M,et al. BLIP:bootstrapping language-image pretraining for unified vision-language understanding and generation[EB/OL]. (2022-01-28)[2024- 03-21]. https://doi.org/10.48550/arXiv.2201.12086.
[29]WANG R,ZHANG J,DAI D X,et al. Underwater image enhancementvia a unified deep learning framework[J].IEEETransactions on Image Processing,Z0zU,2y:1118.
[30] PENG L T, ZHU CL,BIAN L H. U-shape transformer for underwater image enhancement[J]. IEEE Transactions on Image Processing,2023,32:4112.
[31] WANG ZD,CUN XD,BAO JM,et al.Uformer:a general U-shaped transformer for image restoration[C]//2022 IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR), June18-24,2022,NewOrleans,LA,USA.NewYork:IEEE, 2022:17683.
[32] CHENLY,CHUXJ,ZHANGXY,etal.Simplebaselinesfor image restoration[C]//AVIDAN S,BROSTOW G,CISSE M,et al.Computer Vision-ECCV 2O22:Lecture Notes in Computer Science,Vol 13667. Cham: Springer,2022:17.
[33] WENJJ,CUIJQ,ZHAO ZJ,etal.Syreanet:a physically guided underwater image enhancement frameworkintegrating synthetic and real images[C]//2O23 IEEE International Conference on Robotics and Automation (ICRA),May 29-June 2,2023. London,UnitedKingdom.New York:IEEE.2023.DOI:10. 1109/ICRA48891. 2023.10161531.
[34] ISLAMMJ,XIAY,SATTARJ.Fast underwater image enhancement for improved visual perception[J].IEEE Access,2O20,8: 124962.
[35] QI Q,LI K Q, ZHENG H Y, et al. Sguie-net:semantic attention guided underwater image enhancementwith multi-scale perception [J].IEEE Transactions on Image Processing,2022,31:511.
[36] PENGWZ,ZHOUCH,HURZ,etal.RAUNE-Net:a residual and attention-driven underwater image enhancement method[C]// ZHAIGT,ZHOUJ,YEL,etal.DigitalMultimediaCommunications:IFTC 2023,Vol 2066. Singapore:Springer,2023:15.
(責(zé)任編輯:劉飚)