孫幫勇 趙興運(yùn) 吳思遠(yuǎn) 于 濤*
①(西安理工大學(xué)印刷包裝與數(shù)字媒體學(xué)院 西安 710048)
②(中國(guó)科學(xué)院西安光學(xué)精密機(jī)械研究所光譜成像技術(shù)重點(diǎn)實(shí)驗(yàn)室 西安 710119)
利用現(xiàn)有成像傳感器在弱光條件下所獲取的圖像,多存在低對(duì)比度、噪聲大、顏色細(xì)節(jié)失真等缺陷,導(dǎo)致該類(lèi)圖像的視覺(jué)感受質(zhì)量較差,同時(shí)也會(huì)降低圖像分割、目標(biāo)識(shí)別及視頻監(jiān)控等后續(xù)圖像處理任務(wù)精度。低照度圖像增強(qiáng)算法,能夠提升弱光條件下退化圖像的視覺(jué)感受質(zhì)量,形成近似于正常光照條件下的圖像質(zhì)量,因此在計(jì)算機(jī)視覺(jué)相關(guān)領(lǐng)域具有較強(qiáng)應(yīng)用前景,已成為圖像處理領(lǐng)域的研究熱點(diǎn)之一。
低照度圖像提升方法的關(guān)鍵,在保持原低照度圖像結(jié)構(gòu)和不同位置亮度相關(guān)性的基礎(chǔ)上,提升圖像的整體亮度值并重建顏色信息。研究發(fā)現(xiàn),低照度圖像增強(qiáng)方法主要分為3類(lèi),即基于底層圖像處理的方法、基于視網(wǎng)膜(Retinex)理論的方法和深度學(xué)習(xí)類(lèi)的圖像增強(qiáng)方法?;诘讓訄D像處理的低照度增強(qiáng)方法,直接利用線(xiàn)性函數(shù)提高圖像亮度,雖然圖像全局的亮度得到提升,但是由于不考慮圖像亮度的空間分布,常導(dǎo)致增強(qiáng)圖像高亮區(qū)域過(guò)飽和、細(xì)節(jié)丟失嚴(yán)重等缺陷。后來(lái),研究者又采用非線(xiàn)性映射函數(shù)提升圖像亮度,例如Kim等人[1]、Celik[2]所提出的直方圖均衡化(Histogram Equalization, HE)方法。這類(lèi)非線(xiàn)性函數(shù)通過(guò)調(diào)整參數(shù)改變圖像亮度的提升幅度,以不同程度增加高亮區(qū)域和低亮區(qū)域的亮度信息,一定程度保證了增強(qiáng)后的圖像質(zhì)量。該類(lèi)算法操作簡(jiǎn)單、效率高,但增強(qiáng)圖像常存在偽影缺陷,真實(shí)感不強(qiáng)。
基于Retinex理論的低照度圖像增強(qiáng)方法,通過(guò)模擬人眼視覺(jué)系統(tǒng),將低照度圖像分解為照明分量和反射分量,通過(guò)調(diào)整照明分量提升圖像亮度和對(duì)比度。其中,Jobson等人[3]提出單尺度Retinex算法(Single-Scale Retinex, SSR),將高斯核作為卷積核對(duì)低照度圖像進(jìn)行卷積操作,得到的結(jié)果近似表示為反射分量。同年,Jobson等人[4]又提出多尺度Retinex算法(Multi-Scale Retinex, MSR),MSR是SSR的改進(jìn)算法,其采用不同尺度的高斯濾波,對(duì)濾波結(jié)果進(jìn)行加權(quán)平均以估計(jì)照明圖像。Wang等人[5]提出保留圖像自然度的Retinex算法,利用Retinex理論和log雙邊轉(zhuǎn)換使光照分量映射更加接近自然色。Li等人[6]提出魯棒的Retinex算法,通過(guò)加入一個(gè)噪聲項(xiàng)來(lái)處理弱光圖像增強(qiáng)。該類(lèi)算法在照明調(diào)節(jié)方面和低噪聲消除方面具有一定的效果,但算法模型較為復(fù)雜,需要人工設(shè)定合適的參數(shù),無(wú)法自適應(yīng)處理圖像的多樣性。
基于深度學(xué)習(xí)的低照度圖像增強(qiáng)方法,關(guān)鍵利用大規(guī)模訓(xùn)練數(shù)據(jù)集對(duì)最佳網(wǎng)絡(luò)模型進(jìn)行學(xué)習(xí),建立低照度圖像和正常光照?qǐng)D像之間的復(fù)雜映射關(guān)系。Lore等人[7]最先提出使用深度自編碼器網(wǎng)絡(luò)來(lái)增強(qiáng)低照度圖像,提升亮度的同時(shí)消除一定噪聲。Wei等人[8]基于Retinex理論提出Retinex網(wǎng)絡(luò)(Retinex decomposition for low-light enhancement Network, RetinexNet),采用兩個(gè)子網(wǎng)絡(luò)將低照度圖像分解成照明分量與反射分量,并對(duì)照明分量進(jìn)行調(diào)整。Zhang等人[9]在RetinexNet基礎(chǔ)上提出點(diǎn)燃黑暗網(wǎng)絡(luò)(Kindling the Darkness, KinD),對(duì)圖像分解與重建結(jié)構(gòu)進(jìn)行優(yōu)化,并添加圖像恢復(fù)網(wǎng)絡(luò)用于去除圖像噪聲。Chen等人[10]提出學(xué)習(xí)網(wǎng)絡(luò)(learning to See In the Dark, SID),直接對(duì)傳感器數(shù)據(jù)進(jìn)行低照度圖像增強(qiáng)。Wang等人[11]提出深度光照估計(jì)網(wǎng)絡(luò)(Underexposed Photo Enhancement using Deep illumination estimation, DeepUPE),通過(guò)學(xué)習(xí)圖像-光照映射關(guān)系來(lái)預(yù)測(cè)平滑的光照映射。Jiang等人[12]提出無(wú)監(jiān)督對(duì)抗網(wǎng)絡(luò)(Enlighten Generative Adversarial Network, EnlightenGAN),利用全局-局部鑒別器和自正則化注意力機(jī)制,實(shí)現(xiàn)了網(wǎng)絡(luò)結(jié)構(gòu)不需要成對(duì)圖像數(shù)據(jù)集訓(xùn)練,能夠適應(yīng)真實(shí)的圖像狀態(tài),應(yīng)用領(lǐng)域更加廣泛。盡管基于深度學(xué)習(xí)的方法在一定程度上彌補(bǔ)了前兩類(lèi)方法的不足,針對(duì)多數(shù)低照度圖像都能夠取得較好的視覺(jué)效果,但是,現(xiàn)階段對(duì)于較暗條件下拍攝的低照度圖像,該類(lèi)方法仍不能有效抑制圖像噪聲,難以產(chǎn)生令人滿(mǎn)意的視覺(jué)質(zhì)量。
基于以上研究發(fā)現(xiàn),當(dāng)前低照度圖像增強(qiáng)方法主要面臨兩個(gè)難題:(1)如何在不同曝光區(qū)域自適應(yīng)提升圖像亮度,解決圖像的光照不均勻問(wèn)題;(2)如何有效抑制圖像噪聲并保持顏色紋理細(xì)節(jié)的一致性,提高圖像信噪比。本文針對(duì)以上兩個(gè)低照度增強(qiáng)問(wèn)題,建立了一種基于移位窗口多頭自注意力U型低照度圖像增強(qiáng)網(wǎng)絡(luò)。針對(duì)自適應(yīng)提升圖像亮度問(wèn)題,本文設(shè)計(jì)了移位窗口多頭自注意力模塊,利用多頭自注意力機(jī)制的特征提取優(yōu)勢(shì),對(duì)輸入輸出的全局依賴(lài)關(guān)系進(jìn)行建模,在學(xué)習(xí)圖像亮度提升模型的同時(shí),針對(duì)圖像照明不足區(qū)域的噪聲進(jìn)行抑制。對(duì)于保持圖像顏色紋理細(xì)節(jié)一致性問(wèn)題,本文將網(wǎng)絡(luò)整體框架設(shè)置為U型結(jié)構(gòu),利用下采樣模塊,增加深層網(wǎng)絡(luò)的感受野大小,使模型學(xué)習(xí)到圖像的全局特征。此外,為了緩解深層網(wǎng)絡(luò)在提取較高語(yǔ)義特征時(shí)丟失部分淺層信息的缺陷,本文加入跳躍連接,在編碼器和解碼器子網(wǎng)絡(luò)的相同尺寸的特征映射上進(jìn)行聚合,使網(wǎng)絡(luò)解碼部分依然擁有網(wǎng)絡(luò)的淺層特征信息。利用U型網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)到的圖像全局特征,在恢復(fù)圖像時(shí)更好地保持圖像顏色紋理細(xì)節(jié)的一致性。本文其余結(jié)構(gòu)如下:第2節(jié)介紹低照度圖像成像模型;第3節(jié)詳細(xì)講述本文提出的算法;第4節(jié)闡述實(shí)驗(yàn)結(jié)果與分析;第5節(jié)為本文的結(jié)論。
根據(jù)物體呈現(xiàn)色彩感知的光學(xué)原理,人眼形成色彩感覺(jué)基于3種因素:光、物體對(duì)光的反射以及人的視覺(jué)感知。特定光譜能量分布的可見(jiàn)光照射到物體上,在各波長(zhǎng)位置上一定比例的光子被吸收,另一部分則被反射進(jìn)入人眼,刺激視神經(jīng)傳遞到大腦,在參考光源的對(duì)比下形成物體的色彩信息。與物體呈現(xiàn)色彩原理類(lèi)似,數(shù)字相機(jī)成像中的圖像傳感器模擬人的視覺(jué)感受器,將讀取到的光信號(hào)轉(zhuǎn)變?yōu)閿?shù)字信號(hào)形成圖像。如圖1所示,低照度圖像成像過(guò)程中,多存在遮蔽物等因素阻礙光源充分照射到目標(biāo)物,當(dāng)部分入射光分量到達(dá)物體表面,根據(jù)物體自身的物質(zhì)特性吸收部分入射光并將其余光線(xiàn)反射,反射光線(xiàn)經(jīng)過(guò)空氣介質(zhì)傳播到相機(jī),根據(jù)相機(jī)的成像響應(yīng)模型將光信號(hào)轉(zhuǎn)變?yōu)閿?shù)字信號(hào)形成數(shù)字圖像。
低照度環(huán)境下進(jìn)行數(shù)字成像,多存在光源來(lái)源復(fù)雜、照度不均勻等問(wèn)題,造成成像數(shù)字圖像的總體亮度值極低,可見(jiàn)度和對(duì)比度損失嚴(yán)重,并伴大量隨機(jī)噪聲;有時(shí)由于光照分布不均勻,部分區(qū)域照明充足而周邊區(qū)域卻亮度極低,從而出現(xiàn)細(xì)節(jié)丟失等問(wèn)題。由以上成像模型分析可知,導(dǎo)致低照度圖像的主要成因是:入射光線(xiàn)不足;反射光從反射物體表面到相機(jī)傳感器之間的光衰減;相機(jī)成像傳感器對(duì)反射光的非線(xiàn)性響應(yīng)函數(shù)。以下對(duì)該3個(gè)成因進(jìn)行分析。
數(shù)字成像是一個(gè)將目標(biāo)物表面光輻射強(qiáng)度轉(zhuǎn)換為圖像灰度的過(guò)程,其本質(zhì)是光信號(hào)、電信號(hào)和數(shù)字信號(hào)的轉(zhuǎn)換,所形成的數(shù)字圖像信號(hào)強(qiáng)度主要取決于目標(biāo)物體本身的亮度和成像傳感器的光電轉(zhuǎn)換特性。對(duì)于非自發(fā)光目標(biāo),物體本身的亮度與環(huán)境光輻射強(qiáng)度和表面吸收特性相關(guān)。數(shù)字成像時(shí),物體表面亮度轉(zhuǎn)化為圖像灰度的過(guò)程可描述為
其中,f(x,y)代表數(shù)字圖像灰度值;i(x,y)代表照度分量,即入射到物體表面的光通量,主要由環(huán)境光源決定;r(x,y)代表反射分量,由物體的表面特性決定,·代表乘法運(yùn)算。在夜晚、避光房間等光線(xiàn)不足環(huán)境下采集圖像時(shí),光源照射在物體表面的光通量強(qiáng)度很低,照度分量i(x,y)很小,導(dǎo)致圖像灰度值f(x,y)范圍較小、分辨力差,從而形成退化的低照度圖像。
入射光照射在物體表面,產(chǎn)生的反射光在到達(dá)相機(jī)鏡頭之前的傳播路徑中,存在光衰減現(xiàn)象。光衰減主要受大氣透射系數(shù)、空氣中霧霾或塵土等顆粒以及成像景深等影響,較顯著的光衰減會(huì)導(dǎo)致圖像物體反射光進(jìn)入鏡頭不充分,而與目標(biāo)物無(wú)關(guān)的大氣散射光則可能進(jìn)入相機(jī),這將導(dǎo)致數(shù)字圖像出現(xiàn)細(xì)節(jié)丟失、質(zhì)量下降等退化問(wèn)題。一般,在理想的大氣環(huán)境下,不考慮霧、霾、塵土等粒子的光線(xiàn)散射影響,光衰減過(guò)程可以表示為
相機(jī)拍攝圖像的處理流程如圖2所示,物體反射的光線(xiàn)進(jìn)入相機(jī)鏡頭后,通過(guò)線(xiàn)性映射在圖像傳感器的表面形成輻照度E,利用快門(mén)控制一定時(shí)間后達(dá)到圖像傳感器足夠的曝光量,在圖像傳感器上進(jìn)行光電轉(zhuǎn)換得到模擬信號(hào),最后經(jīng)過(guò)模數(shù)轉(zhuǎn)換等步驟形成每個(gè)像素的顏色值。
數(shù)字成像過(guò)程中,輻照度E映射到像素值Z的過(guò)程是一個(gè)非線(xiàn)性過(guò)程,稱(chēng)為相機(jī)響應(yīng)函數(shù)(Camera Response Function, CRF)。由于人眼對(duì)圖像中間階調(diào)的灰度敏感,為了模擬人眼感受,相機(jī)響應(yīng)曲線(xiàn)一般呈S型曲線(xiàn),提高對(duì)中間灰度的辨識(shí)度,而對(duì)較低和較高的數(shù)值不敏感。在低照度環(huán)境下,正常曝光時(shí)間內(nèi)到達(dá)相機(jī)傳感器的光子數(shù)量較少,所獲取的圖像灰度集中在CRF較低的不敏感區(qū)域;同時(shí)對(duì)于部分極度微弱的光線(xiàn)環(huán)境,其光信號(hào)甚至可能無(wú)法引起相機(jī)傳感器響應(yīng),這將造成大量的圖像細(xì)節(jié)丟失。盡管可以通過(guò)調(diào)整光圈、延長(zhǎng)快門(mén)時(shí)間來(lái)增加進(jìn)入相機(jī)鏡頭的曝光量,或者調(diào)整相機(jī)感光度增加對(duì)光的靈敏度,來(lái)提升成像圖像整體的亮度,但利用這些手段拍攝的圖像多伴隨明顯顆粒感、復(fù)雜噪聲、顏色失真等問(wèn)題。
針對(duì)低照度成像中的傳感器響應(yīng)不充分、顏色失真、復(fù)雜噪聲等問(wèn)題,利用傳統(tǒng)模型對(duì)低照度圖像直接校正存在較大難度??紤]到深度網(wǎng)絡(luò)在建立復(fù)雜非線(xiàn)性映射關(guān)系的優(yōu)勢(shì),本文采用深度學(xué)習(xí)方法提出一種基于移位窗口多頭自注意力U型網(wǎng)絡(luò)的低照度增強(qiáng)方法。針對(duì)低照度圖像的一系列退化問(wèn)題,設(shè)計(jì)了移位窗口多頭自注意力模塊,并配合編碼器解碼器網(wǎng)絡(luò)結(jié)構(gòu),不僅能夠自適應(yīng)提升圖像亮度、抑制噪聲,并且還較好地保持圖像顏色紋理細(xì)節(jié)的一致性,有效提高了圖像的視覺(jué)感受質(zhì)量和其他客觀(guān)評(píng)價(jià)指標(biāo)。
本文所提低照度圖像增強(qiáng)網(wǎng)絡(luò)以U型架構(gòu)為框架,主要由嵌入(Embedding)層、編碼器、解碼器、跳躍連接和擴(kuò)張(Expanding)層組成,與現(xiàn)有的大量低照度提升方法不同,該網(wǎng)絡(luò)采用了移位窗口多頭自注意力模塊,可以更充分地提取圖像特征并學(xué)習(xí)低照度圖像和參考圖像的復(fù)雜映射關(guān)系。如圖3所示,所建立的增強(qiáng)網(wǎng)絡(luò)是一種端到端結(jié)構(gòu),輸入為待增強(qiáng)的低照度圖像,輸出為同尺度正常亮度的重建圖像。
如圖3,本文所提低照度圖像增強(qiáng)網(wǎng)絡(luò)包含圖像預(yù)處理、特征學(xué)習(xí)、圖像重建等過(guò)程。首先,利用Embedding模塊進(jìn)行像素預(yù)處理,低照度圖像被劃分為多個(gè)大小為4×4的非重疊圖像塊(patch),每個(gè)patch內(nèi)的像素值排列為一個(gè)向量,從而將輸入的像素級(jí)低照度圖像轉(zhuǎn)化為patch嵌入,以便于下一步提取圖像語(yǔ)義信息。然后,預(yù)處理后的嵌入圖像塊被輸入到3層結(jié)構(gòu)的編碼器,編碼器應(yīng)用了典型的U型神經(jīng)網(wǎng)絡(luò)(U-Network, U-Net)[13]結(jié)構(gòu)。編碼器每層由移位窗口多頭自注意力模塊和下采樣模塊組成,其中移位窗口多頭自注意力模塊負(fù)責(zé)特征表示學(xué)習(xí),有效提取預(yù)處理圖像的特征信息,捕獲長(zhǎng)期依賴(lài)關(guān)系,而下采樣模塊主要負(fù)責(zé)降低特征尺寸并增維。同時(shí),本文在編碼器與解碼器之間單獨(dú)增加一個(gè)移位窗口多頭自注意力模塊,對(duì)編碼器獲取的長(zhǎng)期依賴(lài)關(guān)系進(jìn)行融合,防止編碼器可能出現(xiàn)的不收斂情況。類(lèi)似地,解碼器也采用3層結(jié)構(gòu),每層由上采樣模塊和移位窗口多頭自注意力模塊組成,其中上采樣模塊負(fù)責(zé)增加特征尺度并降維,移位窗口多頭自注意力模塊負(fù)責(zé)從語(yǔ)義特征中恢復(fù)圖像信息。最后,利用Expanding模塊將解碼器輸出特征圖分辨率恢復(fù)到輸入分辨率并映射為紅綠藍(lán)(Red Green and Blue, RGB)3通道,所重建的圖像達(dá)到正常亮度范圍。
本文所建立低照度提升網(wǎng)絡(luò)的主要特色,采用移位窗口多頭自注意力模塊進(jìn)行特征提取和學(xué)習(xí),利用自注意力機(jī)制的特征提取優(yōu)勢(shì),獲取有用的圖像特征,建立圖像特征的長(zhǎng)期依賴(lài)關(guān)系,有效保證了網(wǎng)絡(luò)模型建立正確的非線(xiàn)性映射關(guān)系。移位窗口多頭自注意力模塊由傳統(tǒng)多頭自注意力模塊改進(jìn)而來(lái),其通過(guò)劃分窗口將輸入圖像劃分為不同的窗口,并在每個(gè)窗口內(nèi)部利用多頭自注意力模塊捕獲依賴(lài)關(guān)系,同時(shí)又利用移位窗口策略,完成了不同窗口之間的內(nèi)容交互,極大地減少了網(wǎng)絡(luò)的計(jì)算復(fù)雜度。在窗口內(nèi)單獨(dú)進(jìn)行自注意力計(jì)算,無(wú)法獲取整體圖像全局特征信息,移位窗口策略是將輸入圖像采用像素循環(huán)位移方式,循環(huán)位移半個(gè)窗口大小,對(duì)輸入圖像進(jìn)行像素位置改變,再通過(guò)劃分窗口將移位后輸入圖像劃分為不同的窗口,確保劃分窗口內(nèi)與未移位窗口劃分,分別包含輸入圖像不同位置區(qū)域的特征信息,保證不同窗口內(nèi)信息交互。移位窗口多頭自注意力模塊如圖4所示,由正則化層(Layer Normalization, LN)、窗口多頭自注意力(Windows based Multi-head Self-Attention,W-MSA)、移位窗口多頭自注意力(Shifted Window based Multi-head Self-Attention, SWMSA)、前饋網(wǎng)絡(luò)層和殘差連接組成。其中,LN正則化層主要作用是進(jìn)行批量正則化處理,對(duì)輸入數(shù)據(jù)進(jìn)行歸一化處理,從而保證輸入層數(shù)據(jù)分布的規(guī)則性。W-MSA和SW-MSA代表在不同區(qū)域窗口內(nèi)進(jìn)行自注意力計(jì)算,自注意力[14]計(jì)算可表示為
其中,Q代表查詢(xún)矩陣,K代表鍵矩陣,V代表值矩陣,d代表查詢(xún)矩陣或鍵矩陣的維度。B代表位置矩陣,取自偏置矩陣B ∈R(2M-1)(2M+1),M代表輸入嵌入塊內(nèi)patch的數(shù)量。
本文所提移位窗口多頭自注意力模塊基于當(dāng)前流行的自注意力機(jī)制改進(jìn)而來(lái),具有如下優(yōu)勢(shì):(1)采用窗口劃分,將自注意力計(jì)算由整張圖像限制在劃分窗口內(nèi),并通過(guò)移位窗口策略,確保不同窗口之間的信息交互,極大地降低了自注意力計(jì)算復(fù)雜度,使之網(wǎng)絡(luò)變得輕量化。(2)嘗試將自注意力機(jī)制用于圖像處理領(lǐng)域,并針對(duì)低照度圖像增強(qiáng)任務(wù)取得了較好的結(jié)果。
考慮到低照度圖像增強(qiáng)任務(wù)的特殊性,以準(zhǔn)確重建圖像亮度范圍、提高顏色真實(shí)性及消除噪聲等為目標(biāo),本文構(gòu)建了一種綜合性損失函數(shù)。該損失函數(shù)主要由L1[15]損失函數(shù)、結(jié)構(gòu)相似性(Structural SIMilarity index, SSIM)[16]損失函數(shù)、感知損失[17]函數(shù)和感知顏色損失[18]函數(shù)組成,被表示為
結(jié)構(gòu)相似性損失:本文采用結(jié)構(gòu)相似性SSIM損失函數(shù)從亮度、對(duì)比度和圖像結(jié)構(gòu)3個(gè)方面來(lái)衡量真實(shí)圖像和預(yù)測(cè)圖像的結(jié)構(gòu)損失,有助于恢復(fù)圖像的結(jié)構(gòu)和局部細(xì)節(jié)。SSIM值范圍為0~1,其中值越高表示相似性越好
感知損失:本文采用結(jié)構(gòu)感知損失約束真實(shí)圖像和預(yù)測(cè)圖像之間的差異,保持圖像感知和細(xì)節(jié)的真實(shí)性,同時(shí)保持感知和語(yǔ)義保真度
感知顏色損失:本文采用感知顏色損失約束增強(qiáng)結(jié)果與真實(shí)圖像在歐幾里得空間中的顏色差異,促使增強(qiáng)結(jié)果產(chǎn)生與參考圖像相似的顏色,保證增強(qiáng)結(jié)果的顏色一致性
本文實(shí)驗(yàn)數(shù)據(jù)使用Wei等人[8]提供的低照度圖像數(shù)據(jù)集(LOw-Light dataset, LOL),LOL數(shù)據(jù)集圖像分為室內(nèi)和室外兩種場(chǎng)景,是在微光環(huán)境條件下獲取的真實(shí)微光圖像。為了適應(yīng)網(wǎng)絡(luò)模型,對(duì)LOL整體數(shù)據(jù)集進(jìn)行裁切處理,每張圖像被裁切為224像素×448像素。實(shí)驗(yàn)采用裁切后LOL數(shù)據(jù)集中前689對(duì)圖像作為訓(xùn)練集,后100對(duì)圖像作為測(cè)試集。另外,為了提高模型的泛化能力,訓(xùn)練集中又加入900對(duì)人工合成圖像。
本文實(shí)驗(yàn)環(huán)境配置如下,在Windows 10系統(tǒng)下采用Nvidia GTX 2080顯卡,運(yùn)用Python編程語(yǔ)言和Pytorch框架實(shí)現(xiàn)網(wǎng)絡(luò)搭建。網(wǎng)絡(luò)參數(shù)設(shè)置中,批處理大小為6,epoch為1000次,使用ADAM優(yōu)化器進(jìn)行優(yōu)化,前300輪生成模型的學(xué)習(xí)率為0.0001,后700輪次模型的學(xué)習(xí)率每隔300輪次縮小為原來(lái)的0.5。
本文采用3個(gè)不同的有參考客觀(guān)評(píng)價(jià)指標(biāo):峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、結(jié)構(gòu)相似性(SSIM)和圖像感知相似度(Learned Perceptual Image Patch Similarity, LPIPS)[19]指標(biāo)。PSNR是計(jì)算對(duì)應(yīng)像素點(diǎn)間的誤差,即基于誤差敏感的圖像質(zhì)量評(píng)價(jià),測(cè)量圖像之間的保真度。SSIM更多地考慮圖像結(jié)構(gòu),分別從亮度、對(duì)比度、結(jié)構(gòu)3方面度量圖像相似性。目標(biāo)圖像和生成圖像的相似性,兩者越相似,SSIM和PSNR的評(píng)分越高。LPIPS利用深度神經(jīng)網(wǎng)絡(luò)來(lái)評(píng)價(jià)生成圖像質(zhì)量,評(píng)價(jià)圖像特征之間的感知距離,其數(shù)值越高意味著兩幅圖差異越大,越低意味著越相似。
為了驗(yàn)證本文所提方法的有效性,分別將本文方法與當(dāng)前較為流行的算法進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比算法有多分支微光增強(qiáng)網(wǎng)絡(luò)(Multi-Branch Low-Light image/video Enhancement Network, MBLLEN)[20],RetinexNet[8],KinD[9]、全局照明和細(xì)節(jié)保護(hù)網(wǎng)絡(luò)(Global Lighting And Detail protection Network,GLADNet)[21]、自監(jiān)督增強(qiáng)網(wǎng)絡(luò)(Self-supervised Image Enhancement network, SIE)[22]、零參考增強(qiáng)網(wǎng)絡(luò)(Zero-reference Deep Curve Estimation for low-light image enhancement, Zero-DCE)[23]。MBLLEN算法核心思想是提取不同層次的豐富特征,通過(guò)多個(gè)子網(wǎng)絡(luò)進(jìn)行增強(qiáng),最后通過(guò)多分支融合產(chǎn)生輸出圖像。RetinexNet算法基于經(jīng)典Retinex理論,采用兩個(gè)子網(wǎng)絡(luò)將低照度圖像分解成照明分量與反射分量,并對(duì)照明分量進(jìn)行調(diào)整。KinD算法在RetinexNet算法基礎(chǔ)上,對(duì)圖像分解與重建結(jié)構(gòu)進(jìn)行優(yōu)化,并添加圖像恢復(fù)網(wǎng)絡(luò)用于去除圖像噪聲。GLADNet算法的核心思想是先計(jì)算出低照度輸入圖像的全局光照估計(jì),然后在光照估計(jì)圖的指導(dǎo)下調(diào)整光照,并通過(guò)與原始輸入的級(jí)聯(lián)來(lái)補(bǔ)充細(xì)節(jié)。SIE算法是一種基于深度學(xué)習(xí)的自監(jiān)督低照度圖像增強(qiáng)方法,只用低照度圖像進(jìn)行訓(xùn)練。Zero-DCE算法通過(guò)設(shè)計(jì)無(wú)參考損失函數(shù),使得網(wǎng)絡(luò)在沒(méi)有任何參考圖像的情況下能夠進(jìn)行端到端訓(xùn)練。以上選取的算法,分別采用當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域流行的不同方法,在低照度圖像增強(qiáng)領(lǐng)域非常具有代表性。對(duì)比實(shí)驗(yàn)主要分為兩部分,分別從主觀(guān)評(píng)價(jià)、客觀(guān)評(píng)價(jià)兩方面進(jìn)行比較??紤]到公平性,實(shí)驗(yàn)時(shí)使用對(duì)比算法所提供的公開(kāi)可用代碼和所推薦參數(shù)設(shè)置。
4.3.1 主觀(guān)評(píng)價(jià)
首先在LOL測(cè)試集上,將本文輸出結(jié)果視覺(jué)效果圖與對(duì)比算法輸出結(jié)果進(jìn)行主觀(guān)比較。如圖5所示,選取部分具有代表性圖像的可視化結(jié)果,重點(diǎn)對(duì)比低照度圖像噪聲干擾、顏色失真以及正確提升圖像對(duì)比度等常見(jiàn)問(wèn)題。明顯可以看出,RetinexNet算法的輸出效果最差,輸出圖像不僅存在嚴(yán)重的噪聲,并伴隨圖像部分區(qū)域過(guò)度曝光現(xiàn)象,具有非常差的視覺(jué)感受。MBLLEN, SIE, Zero-DCE算法的輸出效果比RetinexNet算法的輸出效果視覺(jué)感受要好,基本能夠正確提升圖像亮度,但提升亮度力度不夠,與參考圖像相比均整體亮度偏暗,且圖像細(xì)節(jié)方面存在部分輕微噪聲和顏色失真現(xiàn)象。GLADNet算法的輸出效果與前幾種算法相比,增加了圖像亮度提升的力度,造成輸出圖像整體亮度高于參考圖像,同時(shí)引起更加嚴(yán)重的顏色失真現(xiàn)象,輸出圖像整體色調(diào)偏黃。針對(duì)低照度圖像光照不均勻問(wèn)題,以上算法均不能準(zhǔn)確提升圖像亮度,并伴隨噪聲干擾以及顏色失真問(wèn)題。KinD算法與本文算法在圖像亮度提升方面,均能夠準(zhǔn)確提升不同區(qū)域圖像亮度,與參考圖像相比幾乎無(wú)差異,在噪聲抑制方面,都能夠獲得良好的視覺(jué)效果。在保持顏色一致性方面,KinD算法與本文算法的輸出結(jié)果在大部分場(chǎng)景下與參考圖像在顏色細(xì)節(jié)方面保持一致,但還存在部分場(chǎng)景顏色失真現(xiàn)象。例如針對(duì)綠色植被場(chǎng)景,KinD算法與本文算法的輸出結(jié)果均與參考圖像存在顏色差異,如圖5的圖像2所示,KinD算法和本文算法針對(duì)樹(shù)葉的輸出結(jié)果與參考圖像相比,輸出結(jié)果整體顏色稍微偏暗,樹(shù)葉之間的層次感不強(qiáng),存在輕微顏色失真,但整體來(lái)看,本文算法比KinD算法具有更舒服的視覺(jué)效果。
綜上所述,本文算法在大部分場(chǎng)景下都能做到圖像細(xì)節(jié)及紋理信息的精準(zhǔn)還原,但針對(duì)圖像大面積區(qū)域圖像顏色單一,層次信息強(qiáng),例如草地、樹(shù)木以及綠色植被等這類(lèi)圖像。本文算法的輸出結(jié)果同樣存在顏色失真現(xiàn)象,其主要原因是這類(lèi)圖像大面積區(qū)域顏色較為單一,但又存在細(xì)微的明暗差別,且層次信息豐富,本文算法在抑制噪聲的同時(shí),削弱了圖像的層次信息,導(dǎo)致輸出結(jié)果在該區(qū)域?qū)哟胃胁粡?qiáng),顏色恢復(fù)細(xì)節(jié)不到位??傮w來(lái)看,本文算法依然能夠取得較好的視覺(jué)效果,在圖像亮度提升、噪聲抑制、顏色恢復(fù)以及保持圖像結(jié)構(gòu)紋理方面占有一定的優(yōu)勢(shì)。
4.3.2 客觀(guān)評(píng)價(jià)
本文采用PSNR, SSIM和LPIPS 3種有參考圖像質(zhì)量評(píng)價(jià)指標(biāo)對(duì)本文算法與對(duì)比算法進(jìn)行客觀(guān)評(píng)價(jià),采用LOL測(cè)試集,客觀(guān)評(píng)價(jià)結(jié)果如表1所示??梢钥闯霰疚乃岢龅姆椒ㄔ赑SNR, SSIM和LPIPS 3個(gè)指標(biāo)方面都取得了更好的結(jié)果,較對(duì)比算法中最優(yōu)值分別提高了0.35 dB, 0.041, 0.031。證明了本文所提出的方法在低照度圖像亮度提升、噪聲去除以及紋理細(xì)節(jié)恢復(fù)等方面具有一定的優(yōu)勢(shì)。
表1 不同算法處理后客觀(guān)評(píng)價(jià)指標(biāo)結(jié)果圖
為了使網(wǎng)絡(luò)學(xué)習(xí)到最優(yōu)模型,本文分別對(duì)編碼器3層結(jié)構(gòu)中每一層移位窗口自注意力模塊數(shù)量以及損失函數(shù)系數(shù)進(jìn)行消融實(shí)驗(yàn)。在表2、表3中,分別量化了不同編碼器結(jié)構(gòu)以及不同損失函數(shù)系數(shù)的有效性。通過(guò)主觀(guān)評(píng)價(jià)和客觀(guān)指標(biāo)對(duì)比可以看出,當(dāng)編碼器每層架構(gòu)中的移位窗口多頭自注意力模塊的個(gè)數(shù)為[2, 2, 6],以及損失函數(shù)系數(shù)λs=0.25,λp=0.2,λc=0.05時(shí),本文網(wǎng)絡(luò)模型獲得了最優(yōu)效果,消融實(shí)驗(yàn)中部分代表性測(cè)試圖像的視覺(jué)效果如圖6所示。
表2 不同編碼器結(jié)構(gòu)在測(cè)試集上客觀(guān)評(píng)價(jià)指標(biāo)
表3 不同損失函數(shù)系數(shù)在測(cè)試集上客觀(guān)評(píng)價(jià)指標(biāo)
從圖6可以看出,當(dāng)編碼器結(jié)構(gòu)為[2, 2, 2]時(shí),增強(qiáng)后的圖像明顯出現(xiàn)顏色不一致、圖像整體過(guò)亮等情況,并存在輕微噪聲。當(dāng)編碼器結(jié)構(gòu)為[2, 4,6]時(shí),增強(qiáng)后的圖像較[2, 2, 2]結(jié)構(gòu)時(shí)有了明顯的改進(jìn),但依然存在圖像整體偏亮,輕微的顏色偏差。當(dāng)損失函數(shù)系數(shù)λs=0.2,λp=0.1,λc=0.05時(shí),增強(qiáng)后的圖像能夠正確提升圖像亮度,但存在顏色不一致現(xiàn)象。當(dāng)損失函數(shù)系數(shù)λs=0.15,λp=0.05,λc=0.02時(shí),增強(qiáng)后的圖像能夠保持圖像顏色的一致性,但圖像整體偏亮。當(dāng)編碼器結(jié)構(gòu)為[2, 2,6],損失函數(shù)系數(shù)為λs=0.25,λp=0.2,λc=0.05時(shí),增強(qiáng)后的圖像在亮度提升,噪聲去除以及保持顏色紋理細(xì)節(jié)方面較上述方案均有更好的視覺(jué)效果,并與參考圖像基本保持一致,只存在輕微的細(xì)節(jié)差別。
本文旨在解決低照度圖像亮度提升、噪聲抑制以及顏色細(xì)節(jié)恢復(fù)等問(wèn)題,提出了一種基于移位窗口多頭自注意力機(jī)制的U型網(wǎng)絡(luò)框架,來(lái)實(shí)現(xiàn)低照度圖像的亮度信息重建。所建立的低照度增強(qiáng)網(wǎng)絡(luò)利用多頭自注意力機(jī)制的特征提取優(yōu)勢(shì),構(gòu)建特征間的長(zhǎng)依賴(lài)關(guān)系,更全、更廣地提取圖像語(yǔ)義特征;同時(shí)利用編/解碼器結(jié)構(gòu),采用分層提取不同層次語(yǔ)義特征,來(lái)獲取更大的感受野,獲得更廣泛的全局信息;通過(guò)跳躍連接,將對(duì)應(yīng)相同尺度編/解碼器的不同語(yǔ)義特征進(jìn)行融合,充分保留圖像紋理及顏色特征,擁有更好的圖像恢復(fù)效果。最后通過(guò)大量的實(shí)驗(yàn),主觀(guān)和客觀(guān)地比較本文方法與當(dāng)前流行算法對(duì)低照度圖像的處理效果,結(jié)果表明,本文方法均取得較好的增強(qiáng)效果,基本解決了低照度圖像亮度提升、噪聲抑制以及顏色細(xì)節(jié)恢復(fù)等問(wèn)題,但依然存在一定進(jìn)步的空間。在后續(xù)工作中,將進(jìn)一步對(duì)本文模型進(jìn)行改進(jìn),使之擁有更好的泛化性能。