衛(wèi)依雪,周冬明,王長城,李 淼
(云南大學 信息學院,云南 昆明 650504)
隨著時代的發(fā)展以及科學技術的不斷進步,人類對于水下生物、水下建筑以及水下火山等水下物體不斷地進行著了解和拓展,但是由于水體本身衰減較大且水體中的水分子和各種微生物等對光具有一定的吸收和反射作用,從而造成獲取到的水下圖像存在亮度低、對比度低、輪廓模糊、顏色混亂等問題,低質量的水下圖像給研究人員對水下環(huán)境的分析帶來巨大的困難。所以,用何種方式增強水下圖像的細節(jié),恢復水下圖像中的信息,引起了廣泛的研究[1]。
由于無法獲得成對的水下模糊圖像和清晰圖像,水下圖像[2]的相關技術應用一直受到限制,而目前的圖像處理技術對于水下圖像的增強還存在著一定的難度,因此,本文引入了采用多尺度密集殘差網絡對水下圖像增強[3]問題進行研究。多尺度結構可以提取更多的圖像細節(jié)特征,使圖像細節(jié)更加清晰;而密集殘差網絡不僅能夠使網絡結構快速有效,還能解決網絡結構冗余問題,可以更好地增強圖像,恢復圖像細節(jié);還在密集殘差網絡之間添加了SK注意力機制,使網絡可以根據不同尺度的圖像特征自適應不同大小的感受野從而產生更好的增強效果。
現有的水下圖像增強主要有基于物理模型和基于數據驅動的方法。
基于物理模型的方法[4]針對水下圖像退化過程構建數學模型,通過該模型反演圖像退化過程,獲得理想狀態(tài)下未經退化的圖像。Liu等[5]提出了一種物理有效且不依賴于輸入圖像場景深度估計的方法,在沒有任何預配置的情況下也可以恢復模糊的圖像。He等[6]提出了一種基于暗通道先驗算法(DCP)用于圖像去霧,大多數人認為大氣衰減和水下光衰減有很多相似的特性,所以暗通道先驗算法也被用于水下圖像增強。Peng等[7]提出了一種基于光吸收的水下場景的深度估計方法[8],其不通過顏色通道就可以估計水下場景深度,被用于恢復和增強水下圖像。Huang等[8]提出了一種基于水下快速有效的場景深度估計模型(RGHS),通過基于學習的監(jiān)督線性回歸訓練模型系數,估計RGB圖像的背景光和投射圖的深度,從而恢復真實的水下場景映射圖。Wei等[9]提出了一種基于水下光衰減的快速有效的場景深度估計模型(ULAP),即場景深度隨著G、B通道的最大值與R通道之間的差值的增加而增加。Sun等[10]提出了基于暗通道和水下成像模型的水下圖像增強算法,其借助水下成像模型,對暗通道先驗算法進行了改進,提出了添加傳輸校正和顏色補償的研究方法。盡管以上方法都能有效地增強水下圖像,但仍存在著對比度低、噪聲大和細節(jié)模糊等問題,這些問題降低了它們的實際適用性。
基于數據驅動的方法已經成為當前水下圖像增強研究的主要方法。Navin等[11]使用融合技術增強水下圖像,利用了白平衡技術,通過加權融合得到輸出圖像,使得增強后的水下圖像或視頻降低了噪聲,更好地展現出了暗區(qū),增強了對比度,但在邊緣細節(jié)描述方面還有待提高。Ghani等[12]也采用了融合技術,其從2個并行的過程對水下圖像進行處理,第一個過程是依據瑞利分布在平均值處將圖像拉伸成2個不同強度的圖像;第二個過程是將顏色校正技術應用于輸入圖像,最后將2個過程的結果進行融合,最終的輸入圖像顏色有了很大的改善,提高了物體的可視性,但是噪聲較多。Li等[13]提出了一個水下圖像增強網絡(Water-Net),它是一個門控融合網絡,將輸入與預測的置信度圖融合以實現增強的結果,首先通過特征轉換單元(FTU)精煉輸入圖像,然后預測置信度圖,最后通過融合改進的輸入和相應的置信度圖來獲得增強的結果,但是由于算法參數的設置問題,導致Water-Net并不能適應于不同的水下環(huán)境。Li等[14]還提出了一種基于場景先驗的水下圖像增強卷積神經網絡模型,稱為UWCNN。UWCNN模型不是估計水下成像模型的參數,而是直接重建清晰的水下圖像,這得益于水下場景先驗,可用于合成水下圖像訓練數據。Li等[15]結合了生成對抗網絡提出了一種基于融合對抗的水下圖像增強算法,結合了對抗損失以關注真實圖像的紋理特征。Islam等[16]提出了一種基于全卷積條件生成對抗網絡的水下圖像增強模型(FUnlE-GAN),制定了一種新的損失函數用于評估圖像的感知質量。后來,Fabbri等[17]又提出了一種基于生成對抗網絡提高水下視覺場景質量的方法(UGAN),使用GAN作為生成模型,將水下圖像增強問題變?yōu)槌蓪D像到圖像的轉換問題,使輸出圖像更具視覺吸引力,但是由于UGAN使用的是歐幾里得距離損失,因此很容易產生模糊的實驗結果。Li等[18]開發(fā)出了一個注意力網絡(UDA-Net),可以在學習訓練期間融合不同類型的信息,然后根據該信息組合設計了一種協同匯集機制來提取通道,該模型可以自適應地關注一個水下圖像中劣化斑塊的特征區(qū)域,并改善這些區(qū)域??偟膩碚f,基于深度學習的方法已經很大程度上提高了水下圖像的視覺質量,但是由于卷積神經網絡結構很依賴于網絡的深度,而網絡層數的增加會造成梯度下降,導致實驗結果過擬合化。
基于以上研究,本文提出了一種新的多尺度改進密集殘差網絡的水下圖像增強方法,在增強圖像亮度和對比度的同時,減少了圖像中噪聲的影響,也可適應于不同的水域場景,且在顏色校正方面有著一定的參考價值。無論是從主觀效果還是客觀指標,都表明所提出的算法取得了較為優(yōu)異的成果。
本文設計了一種新的多尺度改進的密集殘差網絡模型來解決水下圖像增強問題。該模型采用端到端的結構,其中整體采用一個U型網絡結構[19]以防止圖像的細節(jié)信息丟失,局部采取密集殘差模塊提取水下圖像特征,從而校正水下圖像的顏色,使圖像更清楚,質量更高。其整體框架如圖1所示。
圖1 算法總體框架圖Fig.1 The general framework of the algorithm
多尺度特征提取[20]可以提取更全面的全局和局部特征信息。多尺度特征提取使網絡能更好地自適應不同大小的輸入以及不同水域拍攝出的水下圖像。
本文在每個密集殘差網絡[21]之間加入了SK注意力機制,其可以根據不同大小的感受野對于不同尺度的目標產生不同的效果,其具體內容如圖2所示。
圖2 SK注意力機制總體框架圖Fig.2 The general framework of SK attention mechanism
SK-net[22]對于不同圖像使用的卷積核權重不同,即一種針對不同尺度的圖像動態(tài)生成卷積核的網絡。其主要由Split、Fuse、Select三部分組成。
Split部分是對輸入使用不同大小卷積核進行多次卷積操作,本文采用的是3×3和5×5大小的卷積核。
Fuse部分是計算每個卷積核權重的部分,將兩部分的特征圖按元素求和,其計算公式為:
(1)
U通過全局平均池化(GAP)生成通道統(tǒng)計信息,得到的Sc維度為C×1,再經過全連接生成緊湊的特征z(維度為d×1),其計算公式如下:
(2)
z=f(s)=δ(B(Ws)),
(3)
d=max(C/r,L),
(4)
式中,δ為ReLU激活函數;B為BN層;z的維度為卷積核的個數;W維度為d×C;d代表全連接后的特征維度;L在文中的值為32[22];r為壓縮因子。
Select部分是通過softmax計算每個卷積核的權重,然后將權重應用到特征圖上,再將2個新的特征圖進行連接融合得到最終的輸出圖像。
由于常用的誤差度量已經不能體現圖像在各個方面的優(yōu)化程度,本文通過優(yōu)化損失函數解決這一問題,使輸出圖像更貼近真實圖像。本文使用4個損失函數,分別是結構性相似損失(Lossssim)、均方誤差(Lossmse)、梯度損失(Lossgrad)和感知損失(Lossvgg)[23]。其計算公式如下:
Loss=α(Lossssim+Lossmse+Lossgrad)+βLossvgg。
(5)
結構性相似性損失函數Lossssim指的是整體視覺效果,用來衡量真實圖像和使用本文算法增強后的圖像之間的差異性,旨在改善輸出圖像的視覺質量:
(6)
均方誤差是目標變量和預測值的差值平方和的均值。均方誤差損失函數會放大最大誤差和最小誤差之間的差距,而且均方誤差損失函數對異常點非常敏感:
(7)
在訓練網絡時,如果只使用均方誤差損失函數,很容易陷入到局部最優(yōu)解中,所以,還引入了梯度損失,具體為:
(8)
由于光線的紅色分量在水下衰減最嚴重,造成水下圖像的顏色偏綠或偏藍,所以對于損失函數的構建,本文除了用結構性相似損失、均方誤差損失和梯度損失函數以外,還引進了感知損失Lossvgg來校正圖像的顏色分布,使得增強后的圖像細節(jié)更清晰,其計算公式為:
(9)
式中,E,G分別表示增強圖像和真實圖像;W,H,C分別表示VGG網絡三通道對應特征圖的維度;φ表示VGG網絡的特征圖。
本文進行了大量的實驗,對所提出的算法進行評價和驗證,并與現有方法進行比較。所有實驗是在Windows10,Intel i7 9700KF 3.6 GHz,16 GB RAM,Nvidia 2070s GPU平臺上運行,且使用的開源框架是Tensorflow1.15。利用了Li等[14]在UWCNN論文中合成的一個水下圖像退化數據集Type,其涵蓋了不同的水域類型和退化程度;以及Islam等[16]在FUnlE-GAN論文中建立的一個EUVP大規(guī)模數據集,其包括感知質量較差和良好的成對圖像樣本集合,從中隨機選擇了3 700個成對的訓練圖像和23個成對的測試圖像用于對所提出方法進行訓練和實驗。設置學習率參數為0.000 1的Adam優(yōu)化算法對模型進行優(yōu)化。網絡訓練次數為1 000次,損失函數的權重參數設置為α=1,β=2。
為保證公平性,所有模型的訓練次數相同。將所提算法與現階段較先進的IBLA[7]、RGHS[8]、ULAP[9]、UWCNN[14]、FUNLE[16]和UGAN[17]六種方法進行不同指標間的測試和比較。接下來,將從主觀效果和客觀評價指標兩方面進行分析。
從Type測試數據集中挑選了“Corridor”“Bookcase”和“Conference room”三張圖片,其實驗對比結果如圖3所示。
圖3 Type數據集實驗結果對比Fig.3 Comparison of experimental results of Type dataset
由圖3可以看出,UGAN方法增強后的圖像整體還是偏藍色,增強效果一般。ULAP方法對比度增強過度,人眼感官效果較差。RGHS、UWCNN和FUNLE方法增強后的圖片部分區(qū)域呈現紅色,是由于對水下圖像過度增強造成的。本文對圖像的部分區(qū)域進行細節(jié)放大對比,細節(jié)對比結果如圖4所示。
圖4 Type數據集實驗結果細節(jié)對比Fig.4 Comparison of Type dataset experimental result details
通過細節(jié)對比,很明顯可以看出RGHS、UWCNN和FUNLE增強后的圖像部分區(qū)域與“Label”圖顏色差距過大,而UGAN增強后的圖像OURS的細節(jié)圖在顏色恢復上都接近“Label”圖,但ULAP整體效果一般。
通過EUVP數據集的比較結果如圖5所示。
圖5 EUVP數據集實驗結果對比Fig.5 Comparison of experimental results of EUVP dataset
“Fish”“Coral”“Cay”和“Mollusc”四張圖片的IBLA、RGHS和UGAN方法只是將圖片進行了亮度增強,去水能力有待提高,圖像顏色仍然偏綠。UWCNN方法與“Input”圖相差無異,增強效果不理想,ULAP比其他方法的實驗結果要模糊且亮度較低,色彩不夠豐富鮮艷。而ULAP和FUNLE去水能力得到一定的改善,但圖片顏色過于混亂,不符合人眼的視覺效果。相較于其他方法,本文提出的方法不僅去水能力更勝一籌,而且色彩保留方面也相較于其他算法有所提升,邊緣細節(jié)部分的處理也非常理想。
本文的客觀圖像評價指標使用的是均方誤差MSE、信噪比SNR、峰值信噪比PSNR[24]、結構相似性SSIM[25]、視覺信息保真度VIF[26]、信息保真度準則IFC[27]和噪聲質量評價NQM七個有參考的圖像質量評價指標,其中VIF、IFC指標和人眼感知結果最為接近,其次為NQM。還有自然圖像質量評價NIQE[28]和亮度順序誤差LOE[29]兩個無參考的圖像質量評價指標。MSE、SNR、PSNR、SSIM、VIF、IFC和NQM的值越大,表明增強后的圖像越接近真實圖像,細節(jié)信息保留的越多,效果越好。NIQE和LOE的值越小,表示待測圖像的失真越小,圖像質量越高。
下面對本文在Type、EUVP數據集上測試的實驗結果進行了客觀指標的對比,表1為Type數據集中所有測試圖像不同方法的客觀指標平均值的對比結果。其中黑色加粗表示最優(yōu)結果,下劃線表示次優(yōu)結果。
通過分析表1可以得出,本文所提出算法增強后的圖像所有指標都遠遠高于其他算法。UWCNN算法在PSNR、SSIM、SNR、MSE和LOE這5個指標中僅次于本文算法。通過圖4和圖5的細節(jié)對比發(fā)現,由于有些測試圖的Label圖本身顏色偏暗,而RGHS和ULAP算法增強出來的圖像很亮最后導致VIF指標偏高,但其增強后的結果與真實圖像嚴重不符。雖然每個算法都有自己較為顯著的方面,但也有自己不足的地方,而本文算法整體效果都有所提高。
表1 Type數據集的圖像評價指標對比Tab.1 Comparison of image evaluation indexes of Type dataset
表2為EUVP數據集中所有測試圖像不同方法的客觀指標平均值的對比結果。通過表2可以看出,本文算法增強后的圖像在所有指標中都是最優(yōu)的。RGHS方法的PSNR、SSIM、SNR和MSE僅次于本文方法,而VIF、IFC和NQM指標FUNLE方法略勝一籌是因為FUNLE方法增強后得到的圖像顏色較為鮮艷,對比度更高。但由圖6的圖像細節(jié)對比發(fā)現,FUNLE方法存在細節(jié)不夠清晰等問題。
表2 EUVP數據集的圖像評價指標對比Tab.2 Comparison of image evaluation indexes of EUVP dataset
圖6 Fish圖像細節(jié)對比Fig.6 Comparison of fish image details
對本文所提出的網絡模型的損失函數和SK注意力機制進行了消融研究。
首先,針對感知損失函數VGG的參數進行了消融,由于篇幅限制,本文只選擇了Type數據集中的4張圖片進行消融對比。通過圖片對比分析得出,VGG=1.0時效果最差,圖像的部分區(qū)域很模糊,噪聲也較大;VGG為1.5和1.8時,效果有所提升,但有光照的地方光斑較為嚴重,且有偽影的存在;VGG為2.2和2.5時,由于訓練過度,圖像開始偏紅;VGG=2.0時,光斑問題相較于其他參數有所緩和,顏色也最接近“Label”圖,所以本文最終確定VGG的參數為2.0,其實驗結果如圖7所示。
圖7 VGG損失函數參數的實驗對比結果Fig.7 The comparison results of VGG loss function parameter experiments
由于單張圖片的客觀評價指標間的數值相差不大,本文將4張圖片的指標參數進行加權平均。通過表3可以分析得出,VGG=2.0時本文算法增強出的圖像效果最好,對于所有不同場景的水下圖像更具包容性。
表3 VGG損失函數參數的評價指標對比Tab.3 The comparison of evaluation indexes of VGG loss function parameter
對SK注意力機制進行了消融實驗,Type數據集的實驗結果如圖8(a)所示,EUVP數據集的實驗結果如圖8(b)所示。
(a) Type數據集
單獨研究沒有添加SK注意力機制的圖像,可以發(fā)現整體效果還是較為理想的。但通過對比可以看出,添加SK注意力機制后的實驗結果更加接近真實圖像,顏色也更加鮮艷,細節(jié)部分更清晰。
本文將2個數據集的實驗結果分別進行加權平均得到的指標對比如表4所示。通過表4可以更直觀地看出,去掉SK注意力機制后,客觀指標明顯下降。
表4 SK注意力機制消融實驗的評價指標對比Tab.4 The comparison of evaluation indexes of SK attention mechanism ablation experiments
因此,可以證明本文所提出網絡結構框架的有效性且每個部分都是不可或缺的。
針對水下圖像增強問題,本文提出了一種新的多尺度改進的密集殘差網絡方法。采用多尺度特征提取對水下圖像進行預處理,然后經過改進的密集殘差網絡進行圖像增強,最后整體通過U型網絡結構進行融合。大量的實驗證明,多尺度結構可以使網絡框架應用更加廣泛,適應于不同的水域環(huán)境。且改進的密集殘差網絡可以很好地增強圖像的對比度,改善圖像色彩,強化圖像信息,使得增強后的圖像更加符合人眼視覺系統(tǒng)特性。通過實驗的驗證,本文算法遠遠優(yōu)于現有的大多數水下圖像增強算法。此外,為了促進對水下圖像領域研究的進步,接下來將考慮研究水下圖像數據集,從而給予更多研究者參考與實驗。