劉航 普園媛 王成超 趙征鵬 朱朋杰 徐丹
摘 要:盡管基于深度學(xué)習(xí)的圖像著色方法已取得顯著效果,但仍存在冗余色斑、著色暗淡和顏色偏差三個問題。為此,提出了一種結(jié)合細粒度自注意力(fine-grain self-attention,F(xiàn)GSA)的實例圖像著色方法。具體地,首先將提取的特征圖分為顏色和空間位置,并結(jié)合兩者擬合提高顏色和圖像空間位置的對應(yīng)關(guān)系,以緩解冗余色斑;其次,受光學(xué)攝影HDR原理的啟發(fā),利用感受野小的卷積核增強或抑制圖像的顏色特征,并結(jié)合softmax對特征進行動態(tài)映射,從而提高對比度,緩解著色暗淡的問題;最后,組合不同的非線性基函數(shù),增加網(wǎng)絡(luò)對非線性顏色的表達,擬合出最接近真實圖像的顏色分布,以解決顏色偏差。大量的實驗結(jié)果表明,該方法在實例圖像著色中取得了良好的效果。特別地,與當(dāng)前較優(yōu)的著色方法相比,該方法在特征感知評價指標(biāo)LPIPS和FID上分別降低了4.1%和7.9%。
關(guān)鍵詞:圖像著色; 細粒度注意力機制; 冗余色斑; 著色暗淡; 顏色偏差
中圖分類號:TP391 文獻標(biāo)志碼:A?文章編號:1001-3695(2024)05-041-1569-09
doi:10.19734/j.issn.1001-3695.2023.08.0393
Instance image coloring combined with fine-grained self attention
Abstract:Although deep learning-based image coloring methods have achieved significant results, but there are still suffer from three problems: redundant stain, color dimming, and color deviation. To this end, this paper proposed an instance image coloring method combined with fine-grained attention(fine-grain self-attention,F(xiàn)GSA). Specifically, it firstly divided the extracted feature maps into color and spatial location, and combined the two parts of the fittingto improve the correspondence between the color and the spatial location of the image to mitigate the redundant color patches. Secondly, inspired by the principle of HDR for optical photography, it utilized convolutional kernels with small sensory fields to enhance or suppress the color features of the image, and combined them with softmax to dynamically map the features, thus improving contrast and alleviating the darkness of the coloring. Finally, combining different nonlinear basis functions increased the networks representation of nonlinear colors and fitted a color distribution that was closest to the real image to address color bias. Extensive experimental results show that the proposed method achieves satisfactory results in instance image coloring. In particular, compared with the state-of-the-art methods, the proposed method improves 4.1% and 7.9% in feature perception evaluation indexes LPIPS and FID, respectively.
Key words:image coloring; fine-grain self-attention; color stain; color dimming; color deviation
0 引言
圖像著色指為輸入單色圖像中的每個像素分配顏色和感知顏色的過程。圖像著色不僅可以賦予黑白照片或影視作品新的意義,也可以作為一種技術(shù)手段輔助平面設(shè)計師完成作品著色?,F(xiàn)有的圖像著色方法主要分為交互式著色和非交互式著色兩類。交互式著色主要基于用戶指導(dǎo),將用戶選擇的顏色傳播到圖像其他像素,或選擇一張語義相似的彩色圖像,根據(jù)相鄰像素具有相似顏色的原理,將彩色圖像與單色圖像語義對應(yīng),完成顏色遷移,從而實現(xiàn)著色。然而,交互式著色存在效率低、過度依賴參考圖像、著色質(zhì)量差且不適于批量著色等問題。為解決此問題,大量基于非交互式的著色方法被提出。非交互式著色使用大量的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)真實圖像的顏色分布,直接映射出灰度圖像缺失的彩色像素,從而完成著色。例如,Zhang等人[1]將圖像著色建模為一個自監(jiān)督學(xué)習(xí)任務(wù),提出了一種新型著色網(wǎng)絡(luò)框架,且使用加權(quán)平滑像素?fù)p失方式學(xué)習(xí)正確的圖像顏色。DeepAPI[2]將訓(xùn)練好的著色網(wǎng)絡(luò)封裝為API供測試。Zhang等人[3]提出一種結(jié)合先驗知識和全局提示的非交互式著色方法,通過局部先驗知識使著色網(wǎng)絡(luò)能任意選擇目標(biāo)顏色,全局信息保證著色網(wǎng)絡(luò)預(yù)測的準(zhǔn)確性。Su等人[4]提出了一種非交互著色方法,將著色分解為全局和局部著色,再將局部著色結(jié)果融合到全局圖像中。然而,當(dāng)前的非交互式著色方法有三個主要缺陷:a)冗余色斑,非交互式著色在顏色預(yù)測階段未能正確學(xué)習(xí)到圖像的顏色和位置信息,導(dǎo)致顏色和目標(biāo)對應(yīng)錯誤,如圖1(a)中第三行矩形框所示;b)著色暗淡,基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)非交互式著色,隨著網(wǎng)絡(luò)的加深,卷積層提取特征的不充分造成中間層的顏色、細節(jié)等信息丟失,如圖1(b)中第三行矩形框所示;c)顏色偏差,非交互式著色網(wǎng)絡(luò)中的擬合函數(shù)單一,不能準(zhǔn)確從顏色分布中擬合出最接近真實圖像顏色分布的函數(shù),從而出現(xiàn)色差,如圖1(c)中第三行矩形框所示。
針對上述問題,本文提出一種結(jié)合細粒度自注意力(fine-grain self-attention,F(xiàn)GSA)的著色網(wǎng)絡(luò)。本工作主要有以下三個方面的貢獻:
a)一種新穎的著色網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)合細粒度注意力的實例圖像著色,包括全局顏色預(yù)測網(wǎng)絡(luò)、實例顏色預(yù)測網(wǎng)絡(luò)、細粒度注意力機制、實例分割網(wǎng)絡(luò)和融合網(wǎng)絡(luò)五個部分實現(xiàn)非交互著色。
b)細粒度注意力(FGSA)。本文設(shè)計了一個新的注意力機制,該注意力機制將圖像特征分為顏色通道和空間位置兩部分,兩者的結(jié)合使網(wǎng)絡(luò)著重學(xué)習(xí)圖像顏色與位置間的非線性關(guān)系,縮小冗余色斑的范圍。此外,F(xiàn)GSA擴大顏色的動態(tài)映射范圍,增強圖像顏色特征,緩解結(jié)果中的著色暗淡。
c)一個新的融合模塊。該模塊通過卷積層分別預(yù)測全局特征和實例特征的權(quán)重圖后進行融合,減少顏色偏差。
1 相關(guān)工作
1.1 非交互式著色
非交互式著色通過學(xué)習(xí)網(wǎng)絡(luò)映射,模擬真實圖像的分布,從而完成著色。近年來,深度學(xué)習(xí)成功應(yīng)用于計算機視覺諸多領(lǐng)域,如風(fēng)格遷移[5,6]、字體風(fēng)格遷移[7]等。一些研究者為了更好地捕獲顏色分布,提出了許多基于深度學(xué)習(xí)的圖像著色方法。例如,Cheng等人[8]提出一種基于深度神經(jīng)網(wǎng)絡(luò)的全自動著色方法,從不同圖像中提取特征,再利用聯(lián)合雙邊濾波進一步細化輸出的色度值,從而確保無偽影的圖像著色。Larsson等人[9]提出一種全自動端到端的CNN著色系統(tǒng),預(yù)測每個像素的顏色直方圖,從而使著色效果更加生動。此外,該系統(tǒng)使用語義特征描述符從不同卷積層中提取特征圖級聯(lián)之后作為分類層的輸入,使網(wǎng)絡(luò)更加有效地學(xué)習(xí)不同尺度的特征,從而提升圖像著色細節(jié)。Zhang等人[1]提出一種自動著色的網(wǎng)絡(luò),作者基于每個像素的顏色分布,使用多項式交叉熵?fù)p失進行訓(xùn)練和平衡稀有類,進而增加圖像顏色的多樣性,但著色結(jié)果中存在冗余色斑等問題。Zhao等人[10]使用像素化語義嵌入和像素化語義生成器,使網(wǎng)絡(luò)正確將語義和顏色對應(yīng),從而減少冗余色斑。Treneska等人[11]首次利用生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN),通過圖像著色,實現(xiàn)自監(jiān)督視覺特征學(xué)習(xí)。Wu等人[12]將參考圖像上色的優(yōu)勢融入到自動上色模型中,利用封裝在預(yù)訓(xùn)練BigGAN生成網(wǎng)絡(luò)中豐富多彩的顏色先驗來指導(dǎo)圖像上色,緩解自動上色中存在的顏色暗淡問題。此外,也有一些研究人員嘗試使用新方法來實現(xiàn)自動圖像上色。如Wang等人[13]提出了一種新的基于GAN的著色方法PalGAN,它結(jié)合了調(diào)色板估計和顏色注意。首先從輸入的灰度圖像中估計一個概率調(diào)色板,然后通過生成模型,在調(diào)色板的條件下進行顏色分配,并通過顏色注意來處理顏色溢出問題。Ozbulak[14]修改原始膠囊網(wǎng)絡(luò)的架構(gòu),將膠囊網(wǎng)絡(luò)成功應(yīng)用到圖像上色的任務(wù)中。近年來, Transformer在計算機視覺任務(wù)中取得了巨大成功,許多基于Transformer的圖像著色方法被提出。Kumar等人[15]首次將Transformer應(yīng)用到上色任務(wù)中,實現(xiàn)了高保真質(zhì)量的圖像上色。ColorFormer[16]提出了一種基于顏色記憶輔助混合注意Transformer的圖像自動著色方法。 最近,Unicolor[17]基于Transformer提出了一種統(tǒng)一的著色框架。在其理論中,通過一個兩階段的著色框架,將各種條件合并到一個模型中。一階段將多模態(tài)條件轉(zhuǎn)換為提示點的公共表示,階段基于Transformer生成多樣化和高質(zhì)量的著色結(jié)果。然而,上述非交互式著色方法有兩個問題:a)忽略了著色的細粒度,導(dǎo)致著色位置不精確;b)隨著網(wǎng)絡(luò)的加深,中間層的有用信息可能會丟失。
1.2 注意力機制
近年來,注意力機制在計算機視覺領(lǐng)域取得了巨大的成功。郭璠等人[18]引入通道注意力機制和語義分割引導(dǎo)的空間注意力改善網(wǎng)絡(luò)對目標(biāo)的關(guān)注程度,使網(wǎng)絡(luò)聚焦和增強有效特征,提高了對小目標(biāo)和遮擋變形目標(biāo)的檢測性能。Zhao等人[19]提出配對自注意力和補丁自注意力,配對自注意力對局部近鄰特征采用核參數(shù)加權(quán)得到輸出特征,而補丁自注意力的性能比CNN更佳,能夠精準(zhǔn)地輸出非線性映射,兩個自注意力的結(jié)合很好地實現(xiàn)了特征聚合和特征變換,從而準(zhǔn)確地識別圖像。Zhang等人[20]在GAN[21]中結(jié)合原始自注意力機制,解決了卷積層中感受野所帶來的限制,讓網(wǎng)絡(luò)在生成圖片的過程中能夠自己學(xué)習(xí)應(yīng)該關(guān)注的不同區(qū)域,使得網(wǎng)絡(luò)不僅能夠區(qū)分前景和背景,甚至對一些物體的不同結(jié)構(gòu)也能準(zhǔn)確地進行劃分,生成圖片的時候也會更合理。Su等人[22]在視覺和語言模型中引入Transformer注意力模塊,通過堆疊多層多模態(tài)Transformer,輸出具有豐富視覺-語言融合與對齊的特征,從而提高了視覺和語言內(nèi)容之間細節(jié)的一致性。
上述方法的主要目的是通過注意力機制引導(dǎo)網(wǎng)絡(luò)關(guān)注更加感興趣的區(qū)域。然而,忽略了注意力機制在顏色通道和空間位置對圖像著色結(jié)果的影響。本文重點關(guān)注特征圖顏色通道和目標(biāo)位置之間的非線性關(guān)系,提高網(wǎng)絡(luò)對著色圖像顏色和位置的對齊能力。
2 本文方法
2.1 問題分析
給定一個灰度圖像,本文模型的目標(biāo)是估計灰度圖像的RGB顏色,從而實現(xiàn)著色。從圖1的著色結(jié)果中可以看到,非交互著色方法結(jié)果中主要面臨著冗余色斑、著色暗淡和顏色偏差問題。本文試圖去分析產(chǎn)生這些問題的原因:a)在顏色預(yù)測階段,模型不能正確學(xué)習(xí)到圖像的顏色和位置信息,這會造成顏色和目標(biāo)對應(yīng)錯誤,從而出現(xiàn)冗余色斑;b)隨著網(wǎng)絡(luò)的加深,卷積層提取的特征利用不充分造成中間層的顏色、細節(jié)等信息丟失,從而導(dǎo)致著色暗淡;c)非交互式著色網(wǎng)絡(luò)中的擬合函數(shù)單一,不能準(zhǔn)確地從顏色分布中擬合出最接近真實圖像顏色分布的函數(shù),導(dǎo)致顏色偏差。
基于上述分析,本文設(shè)計了一個新的非交互式著色模型。具體來說,針對冗余色斑問題,本文首先利用目標(biāo)檢測網(wǎng)絡(luò)提取圖像中存在的顯著實例,分為全局和實例圖像顏色預(yù)測。進一步地,在實例和全局顏色預(yù)測網(wǎng)絡(luò)中結(jié)合細粒度注意力。該注意力將圖像特征分為顏色通道特征和空間位置特征,顏色通道部分學(xué)習(xí)圖像顏色信息,空間位置部分學(xué)習(xí)圖像語義位置信息,顏色通道和空間位置的結(jié)合學(xué)習(xí)圖像顏色與空間位置間的非線性關(guān)系,使圖像顏色與空間位置精確對齊,從而提升著色區(qū)域的準(zhǔn)確性,約束實例和背景間的冗余色斑。此外,為消除全局和實例圖像融合中,融合比重不同導(dǎo)致的顏色偽影,實例圖像顏色預(yù)測網(wǎng)絡(luò)和全局圖像預(yù)測網(wǎng)絡(luò)使用相同的網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合可學(xué)習(xí)的網(wǎng)絡(luò)權(quán)重參數(shù),讓網(wǎng)絡(luò)根據(jù)損失函數(shù)不斷更新權(quán)重比例,直至找到網(wǎng)絡(luò)的最優(yōu)解,從而消除融合階段存在的顏色偽影。針對著色暗淡問題,本文借鑒HDR原理和激活函數(shù)的動態(tài)映射。使用小感受野的卷積核從不同方向增強或抑制提取到的圖像顏色特征,再使用softmax增加顏色范圍,提升顏色對比度,從而減少著色暗淡。針對顏色偏差問題,本文基于U-Net顏色預(yù)測網(wǎng)絡(luò),并結(jié)合不同的非線性函數(shù),包括sigmoid和softmax。其中,sigmoid增強網(wǎng)絡(luò)的非線性表達能力,而softmax擬合最接近真實圖像的顏色分布,從而縮小顏色偏差。接下來,本文將詳細闡述模型的細節(jié)。
2.2 網(wǎng)絡(luò)框架
2.3 實例分割網(wǎng)絡(luò)(instance segmentation)
為降低背景對前景實例顏色預(yù)測的影響,本文使用目標(biāo)檢測網(wǎng)絡(luò)Mask R-CNN[23]進行實例檢測和定位分割,如圖2中part1實例分割所示。實例分割網(wǎng)絡(luò)從輸入灰度圖像X中獲取N個實例邊界框{Bk}Nk=1,并剪裁出對應(yīng)的N個實例圖像{Xk}Nk=1,從而輔助實例顏色預(yù)測。也就是說,實例分割能同時生成對應(yīng)實例的box和mask,box在實例和全局特征融合中提供位置信息,減少顏色偽影或冗余色斑;mask則用于圖像顏色預(yù)測區(qū)域的選擇,控制實例著色區(qū)域,增加著色精確度。
2.4 顏色預(yù)測網(wǎng)絡(luò)
顏色預(yù)測網(wǎng)絡(luò)分為全局和實例顏色預(yù)測兩部分,受 Zhang等人[3]方法的啟發(fā),本文提出的顏色網(wǎng)絡(luò)框架如圖2中part2和part3所示。本文使用U-Net作為顏色預(yù)測的基線,將灰度圖像X和{Xk}Nk=1映射為對應(yīng)的彩色圖像Xg和{Xi}Ni=1。具體來說,全局灰度圖像X送入全局顏色預(yù)測網(wǎng)絡(luò)中,預(yù)測X缺失的a*b*通道圖像Xg,并同灰度圖像疊加成XG,從而為實例顏色預(yù)測階段和融合階段訓(xùn)練提供模型參數(shù)。相似地,將檢測分割出的實例圖像{Xk}Nk=1送入同樣結(jié)構(gòu)的顏色預(yù)測網(wǎng)絡(luò)中,預(yù)測缺失的a*b*通道圖像{Xi}Ni=1,并同灰度圖像疊加成{XI}NI=1,從而為融合階段提供初始化實例顏色預(yù)測訓(xùn)練的模型參數(shù)。為進一步提升顏色和圖像目標(biāo)區(qū)域匹配度、增強顏色鮮艷度和縮小預(yù)測顏色值和真實顏色值之間的距離,本文分別在全局、實例顏色預(yù)測網(wǎng)絡(luò)中插入細粒度注意力機制。
2.5 細粒度注意力機制(FGSA=PPM+SPM+CM)
為提高網(wǎng)絡(luò)對顏色預(yù)測、著色位置捕獲成功率,改善特征表示,擬合真實圖像顏色分布,本文提出細粒度注意力機制FGSA,如圖3所示。
FGSA由并行極化模塊(parallel polarized module,PPM)、順序極化模塊(sequential polarized module,SPM) 和聯(lián)合模塊(combination module,CM)組成。PPM模塊將圖像分為顏色通道特征和空間位置特征,學(xué)習(xí)顏色與圖像位置間的非線性關(guān)系,從而解決模型因不能正確學(xué)習(xí)到圖像的顏色和位置信息,造成顏色和目標(biāo)對應(yīng)錯誤導(dǎo)致的冗余色斑問題。SPM模塊使用小感受野卷積核增強圖像的顏色信息,再結(jié)合動態(tài)機制提高圖像顏色映射范圍,以此提高對比度,從而使著色鮮艷明亮,緩解著色暗淡問題。CM模塊結(jié)合不同的非線性基函數(shù),學(xué)習(xí)真實數(shù)據(jù)集中的顏色分布,最終成功約束圖像中的冗余色斑,減少著色暗淡和縮小顏色偏差,F(xiàn)GSA映射函數(shù)如式(1)所示。
其中:SPM表示串行極化操作;PPM表示并行極化操作;X1T表示輸入圖像特征;X2T表示PPM輸出特征,T表示特征張量tensor;SSM表示softmax操作。
總的來說, FGSA考慮圖像著色的根本問題,從提高著色目標(biāo)位置精度、強化圖像顏色特征和擬合真實顏色分布三個角度來提升著色細粒度,進而提升著色質(zhì)量。具體地,F(xiàn)GSA用于全局和實例顏色預(yù)測網(wǎng)絡(luò),實現(xiàn)圖像顏色特征和位置對齊,增加顏色特征動態(tài)范圍和擬合真實圖像的非線性映射,從而使全局和實例顏色預(yù)測網(wǎng)絡(luò)輸出無冗余色斑、著色暗淡和顏色偏差的圖像。
2.5.1 PPM提高著色目標(biāo)位置精度
為緩解圖像著色中由于顏色和空間位置不對齊帶來的冗余色斑問題,根據(jù)卷積塊注意力模塊(convolutional block attention module,CBAM)[24]、瓶頸注意力模型(bottleneck attention module,BAM)[25]中通道和空間的劃分,本文將圖像特征分為顏色通道特征和空間位置特征,從而提高著色目標(biāo)位置精度,分別對應(yīng)圖3 PPM中的channel self-attention和spatial self-attention。PPM由學(xué)習(xí)著色“什么”的channel self-attention和學(xué)習(xí)著色“哪里”的spatial self-attention兩部分組成,兩者的結(jié)合增強了網(wǎng)絡(luò)對圖像顏色特征和語義位置的非線性捕捉能力,使圖像顏色和位置精確對齊,從而減少著色中的冗余色斑。
PPM映射函數(shù)如式(2)所示。
在spatial self-attention中,為了讓網(wǎng)絡(luò)能夠?qū)W習(xí)圖像對象中的位置權(quán)重,本文將圖像特征分別送入兩個1×1的conv中,輸出不同方向的圖像特征。本文將其中一個方向的圖像特征進行全局平均池化操作以降低網(wǎng)絡(luò)的參數(shù)量。然后將對應(yīng)的圖像特征張量分別進行不同的reshape操作。之后兩條支路中的張量相乘輸出圖像位置特征,位置特征張量維度為1×HW。為了匹配圖像位置特征和避免過擬合,1×HW的圖像位置特征進行了reshape和sigmoid操作,從而輸出網(wǎng)絡(luò)對圖像位置特征的學(xué)習(xí)權(quán)重1×H×W。channel self-attention對圖像顏色通道的學(xué)習(xí)過程與spatial self-attention的學(xué)習(xí)過程類似,在此不作過多細述。
2.5.2 SPM強化圖像顏色特征
為改善著色結(jié)果存在的顏色暗淡問題,本文借鑒光學(xué)攝影中的高動態(tài)范圍成像技術(shù)強化圖像顏色特征,PPM模塊的輸出送入SPM模塊,結(jié)構(gòu)如圖3中的SPM所示。SPM映射函數(shù)如式(3)所示。
在顏色通道分離的基礎(chǔ)上,使用softmax的動態(tài)映射SPM實現(xiàn)圖像顏色的高動態(tài)對比,從而提升圖像色彩,解決著色暗淡問題,如圖3中channel self-attention操作前所示,其映射關(guān)系如式(4)所示。
HDRch(X2T)=σ1(M1(X2T))×SSM(σ2(M2(X2T)))(4)
其中:HDRch(·)表示圖像動態(tài)映射增強操作;σ1、σ2表示不同的reshape操作;M1、M2表示不同的conv操作。根據(jù)從攝影中不同方向所得同一物體的成像在視覺明暗度和清晰度方面具有層次差異性,本文首先在輸入圖像特征中分別進行1×1的conv操作,從而輸出不同方向的顏色特征,使圖像顏色變得分明。再分別將不同方向的顏色特征進行reshape操作。之后,選取顏色信息最多的一個方向進行softmax操作,從而形成一個高度動態(tài)范圍的顏色特征。softmax如式(5)所示。
其中:XT表示輸入特征;xj表示輸入特征XT第j個位置的特征;N表示XT的特征數(shù)量。最后為了使增強后的顏色特征成功輸出,本文根據(jù)HDR中的全局映射機制,在SPM channel self-attention操作最后使用sigmoid,使增強后的顏色特征映射到0~1,最終形成高對比度的圖像顏色特征。
全局映射為HDR色調(diào)映射的一種方式,色調(diào)映射是為了使高動態(tài)范圍的顏色圖像能成功限制在一定區(qū)間內(nèi),然后顯示輸出。sigmoid作為全局映射的核心,是為了避免使用直方圖校準(zhǔn)算法只利用很少區(qū)域內(nèi)的色度壓縮再拓展,導(dǎo)致的對比度失真,和為了避免線性變換造成的顏色信息丟失。sigmoid如式(6)所示。
其中:Ssig表示sigmoid操作;XT表示輸入特征;xj表示輸入特征XT第j個位置的特征。
2.5.3 CM擬合真實圖像顏色分布
在提高圖像目標(biāo)精度和強化圖像顏色特征的基礎(chǔ)上,為了擬合真實圖像的顏色分布,減小顏色偏差,本文根據(jù)不同非線性基函數(shù)的作用,提出CM模塊,如圖3中FGSA的CM部分所示,其映射函數(shù)如式(7)所示。
其中:X1T、X2T和X3T表示不同階段的圖像特征。CM在網(wǎng)絡(luò)本身具有擬合非線性函數(shù)的基礎(chǔ)上,聯(lián)合sigmoid和softmax擬合出真實圖像的顏色分布,從而縮小顏色偏差。sigmoid使網(wǎng)絡(luò)的非線性擬合能力增加,而softmax在所有分布中能輸出概率最大的一個。聯(lián)合使用sigmoid和softmax的原因是,單獨使用sigmoid激活函數(shù)時,網(wǎng)絡(luò)僅能將網(wǎng)絡(luò)的非線性表達限定在0~1,并不會得到最接近真實圖像顏色的分布函數(shù);單獨使用softmax作為激活函數(shù)時,網(wǎng)絡(luò)雖然能選擇最接近真實圖像的顏色分布,但缺少sigmoid的映射作用和平滑易求導(dǎo)優(yōu)勢,網(wǎng)絡(luò)難以擬合出接近真實圖像的顏色分布。所以本文在整個網(wǎng)絡(luò)使用ReLU的基礎(chǔ)上,結(jié)合sigmoid和softmax。sigmoid將顏色映射到0~1,softmax使其中的擬合分布輸出概率最大,即最符合真實圖像顏色的映射,從而縮小顏色偏差。
2.6 融合模塊(fusion module)
2.7 損失函數(shù)
圖像著色任務(wù)中通常使用像素回歸損失函數(shù)L1或L2訓(xùn)練網(wǎng)絡(luò),如Zhang等人[1]使用L2損失函數(shù)去優(yōu)化網(wǎng)絡(luò)。然而,L2在多模態(tài)性質(zhì)的著色中存在兩個缺陷:首先,L2對離群點著色敏感且容易發(fā)生梯度爆炸;其次,L2求解速度慢。為避免這兩個問題,本文使用L1損失函數(shù)優(yōu)化整個網(wǎng)絡(luò),如式(9)所示。
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集
本文方法基于COCO-Stuff[26]訓(xùn)練整個網(wǎng)絡(luò),COCO-Stuff有164 000張圖片,172個類別,包括80個thing classes,91個stuff classes和1個unlabeled class。為定性測試算法的有效性,本文選擇常用于圖像著色測試的數(shù)據(jù)集Pascal VOC[27]作為驗證集,該數(shù)據(jù)集包含20個類別,9 963張標(biāo)注過的圖片,共標(biāo)注24 640個物體。本文從中隨機選取231張測試圖像,包含了人、動物、食物、植物、風(fēng)景、建筑等,并對其裁剪為256×256的大小,進行灰值化處理后送入網(wǎng)絡(luò)生成彩色圖像。
3.2 實驗參數(shù)
為了適應(yīng)圖像著色任務(wù),本文采用Xavier[28]來初始化網(wǎng)絡(luò),采用自定義學(xué)習(xí)策略,該學(xué)習(xí)率來自于Cycle-GAN[29]中訓(xùn)練的Demo,本文在此基礎(chǔ)上進行調(diào)整來適應(yīng)網(wǎng)絡(luò)著色訓(xùn)練;優(yōu)化器為Adam Optimizer[30],動量設(shè)置為0.9。根據(jù)第一階段提取的實例圖像,本文在第二、三階段訓(xùn)練迭代為150個epoch,batchsize為16;第四階段訓(xùn)練融合網(wǎng)絡(luò),epoch為30,batchsize為1。本文方法使用PyTorch 1.6.0和Detectron實現(xiàn)整個網(wǎng)絡(luò),并在3塊NVIDIA Tesla V100S 的服務(wù)器上進行訓(xùn)練,整個網(wǎng)絡(luò)的訓(xùn)練過程大約需要4天。
3.3 評價指標(biāo)
現(xiàn)有圖像著色的評價標(biāo)準(zhǔn)主要包括主觀評價和客觀評價。主觀評價即人眼觀測圖像輸出圖像,評定圖像著色質(zhì)量。目前普遍的客觀量化方法包括PSNR[31]、SSIM[32]和LPIPS[32],為了更有力評估算法的有效性,本文還使用了Fréchet inception distance(FID)[33]、CCI和CNI[34]三個評價指標(biāo)。PSNR用來度量生成圖像的質(zhì)量和保真度;SSIM用來度量生成圖像和真實圖像之間在亮度、結(jié)構(gòu)和對比度之間的相似度;LPIPS從圖像特征層面來度量它們之間的感知相似性,LPIPS指標(biāo)為[0,1],LPIPS越接近0,表示著色結(jié)果越接近真實圖像;FID用來評估圖像質(zhì)量(清晰度)、生成多樣性。FID指標(biāo)越接近0,表示著色結(jié)果質(zhì)量越好,越接近真實圖像;顏色豐富性指數(shù)CCI和顏色自然性指數(shù)CNI用來評估圖像顏色的色彩和自然度, CCI指標(biāo)通常在[15,30],圖像色彩比較符合人類視覺。CNI指標(biāo)在[0,1],越接近1說明圖像顏色越和諧自然。
3.4 最新著色方法對比
本文方法對比了五種先進的圖像著色方法,包括DeepAPI[2]、EAMSPC[35]、UGIC[3]、ChromaGAN[36]和IAIC[4]。對比方法的著色結(jié)果均由作者開源的代碼生成。
圖像著色定性結(jié)果:圖5為本文方法對比五種著色算法的測試結(jié)果,為了觀察分析不同實例數(shù)量下圖像的著色結(jié)果,將對比實驗圖的測試結(jié)果分為單實例著色(圖5(a))和多實例著色(圖5(b))。從這些結(jié)果圖中來看,本文方法取得了最優(yōu)的視覺結(jié)果,不存在其他方法中遭遇的冗余色斑、著色暗淡和顏色偏差問題。而次優(yōu)的結(jié)果ChromaGAN存在冗余色斑問題(可以從雪人中看到)。
具體來說,DeepAPI以生成質(zhì)量較好的GAN作為基線,但其面向?qū)ο笾饕獮檫^去的黑白照片,所以其著色結(jié)果主要呈現(xiàn)出著色暗淡和顏色偏差問題,而無明顯的冗余色斑,如圖5(a)(b)的第二列所示。特別地,圖5(a)中的女士頭部、煙囪和船等均出現(xiàn)了著色暗淡的情況,圖5(b)中的襯衫、草地等都出現(xiàn)了著色偏差。EAMSPC使用了多尺度上色的方法來改善上色結(jié)果,但其上色結(jié)果偏暗淡,特別是圖5(a)第一行的矩形框所示。UGIC通過U-Net來直接預(yù)測圖像缺失的a*b*通道圖像,但其網(wǎng)絡(luò)缺少能精確擬合圖像顏色和位置間非線性關(guān)系的部分,其著色結(jié)果依然出現(xiàn)一定的冗余色斑,如圖5(a)(b)的第四列所示。ChromaGAN結(jié)合的語義類分布反饋機制依賴于前期提取特征,而該網(wǎng)絡(luò)提取特征僅用簡單卷積層堆疊,勢必會遭遇圖像信息的丟失,導(dǎo)致語義類識別降低,從而出現(xiàn)冗余色斑,也就出現(xiàn)圖5(a)第五列雪人著色錯誤。IAIC著色方法對真實彩色圖像的顏色、語義位置特征映射提取不準(zhǔn)確,出現(xiàn)語義與顏色不對齊,導(dǎo)致出現(xiàn)冗余色斑,且隨著顏色特征提取網(wǎng)絡(luò)不斷加深而造成顏色信息的丟失,導(dǎo)致著色暗淡,著色結(jié)果如圖5(a)(b)的第六列所示。
相比以上五種著色方法,本文方法對應(yīng)的圖5(a)(b)解決了著色中存在的冗余色斑、著色暗淡和顏色偏差問題。此外,當(dāng)網(wǎng)絡(luò)生成的結(jié)果偏離真實結(jié)果時,考慮不同的非線性函數(shù)組合能讓分布更接近真實的輸出。五種著色方法對單實例圖像和多實例圖像都表現(xiàn)出相同的問題,這說明網(wǎng)絡(luò)對于存在一定數(shù)量實例的圖像著色不存在顯著差異,也說明網(wǎng)絡(luò)魯棒性較好??傊?,本文的實驗結(jié)果進一步表明本文方法在著色位置和對象上對顏色通道和空間位置進行分離的準(zhǔn)確性和必要性。
圖像著色定量結(jié)果:表1列出了不同著色方法如在七項評價指標(biāo)上的定量比較結(jié)果。最優(yōu)和次優(yōu)的結(jié)果分別用加粗和下畫線標(biāo)出。向上的箭頭表示數(shù)值越高越好,反之亦然??梢钥闯觯疚姆椒ㄔ谒兄笜?biāo)上均取得到了最優(yōu)或次優(yōu)的結(jié)果。其中,SSIM達到最優(yōu),但SSIM提升不大,原因是SSIM不止衡量圖像之間的相似程度,也同樣衡量生成圖像的失真程度。雖然對比方法存在冗余色斑、著色暗淡和顏色偏差問題,但測試結(jié)果并未出現(xiàn)明顯圖像失真,如圖像模糊或大范圍的冗余色斑,且SSIM基于圖像像素的均值和標(biāo)準(zhǔn)差來進行計算,圖像中局部冗余色斑、著色暗淡和顏色偏差的像素值中和導(dǎo)致SSIM差距微小。特別地,本文方法的LPIPS和FID指標(biāo)明顯優(yōu)于其他比較方法,分別比次優(yōu)方法提升了4.1%和7.9%,提升最大。原因是LPIPS利用Inception網(wǎng)絡(luò)來提取特征,最后根據(jù)高斯模型計算其均值和方差,從而得到特征距離值。FID指標(biāo)利用卷積層提取特征,再分別計算其對應(yīng)的特征距離。從本文方法的測試結(jié)果可看出不存在明顯的冗余色斑、著色暗淡和顏色偏差,但在特征級別這個問題上將被放大,因此LPIPS和FID兩個評價指標(biāo)的提升最大。
為了更清晰地表明提出方法的優(yōu)越性,本文根據(jù)測試集中每張圖的LPIPS、CCI繪制了對應(yīng)的箱線圖,如圖6所示。在LPIPS箱線圖中,五種著色方法在數(shù)據(jù)分布上的異常值差距較小,相比之下,本文方法的LPIPS值更集中且更接近0。在CCI箱線圖中,本文方法的CCI值集中在中位數(shù)及均值附近,說明著色結(jié)果顏色豐富,但存在部分高異常值,經(jīng)查驗測試結(jié)果發(fā)現(xiàn),異常值高的顏色最接近真實圖像,且圖像中顏色較鮮艷單一,如夕陽和海水等。
3.5 消融實驗
為驗證所提著色算法中各組成部分的有效性,本文對框架的每個重要部分進行了如下分析:
baseline:初始訓(xùn)練網(wǎng)絡(luò)。以Mask R-CNN作為實例分割工具,U-Net作為顏色預(yù)測主干網(wǎng)絡(luò),融合網(wǎng)絡(luò)作為實例特征和全局特征結(jié)合模塊。
+FGSA:在初始訓(xùn)練網(wǎng)絡(luò)的第一、二階段顏色預(yù)測網(wǎng)絡(luò)中加入細粒度注意力機制(FGSA)。
+FGSA+PPM:在初始訓(xùn)練網(wǎng)絡(luò)的第一、二階段顏色預(yù)測網(wǎng)絡(luò)中加入細粒度注意力機制,在第三階段的生成器中加入極化注意力模塊(PPM)。
本文方法:在初始訓(xùn)練網(wǎng)絡(luò)的第一、二階段顏色預(yù)測網(wǎng)絡(luò)中添加FGSA,在第三階段的生成器中加入PPM,在整個網(wǎng)絡(luò)中使用L1損失函數(shù)進行優(yōu)化。
不同組成部分的定性結(jié)果和對應(yīng)的LPIPS映射圖、指標(biāo)值如圖7所示。映射圖為評價指標(biāo)LPIPS值的可視化結(jié)果,圖中顏色越接近深紫色表示著色圖像和真實圖像越接近,對應(yīng)的LPIPS分?jǐn)?shù)值越低;圖中顏色越接近黃色表示著色圖像越遠離真實圖像,LPIPS分?jǐn)?shù)值越高。
從圖7中可以看出,結(jié)合細粒度注意力機制后的著色結(jié)果在顏色協(xié)調(diào)性和接近真實圖像上均有顯著提升,解決了冗余色斑問題。特別地,結(jié)合細粒度注意力機制對網(wǎng)絡(luò)性能的提升最大。因為FGSA中組合sigmoid和softmax非線性激活函數(shù)。sigmoid使網(wǎng)絡(luò)擬合出多個滿足真實圖像的分布;softmax從多個分布中選擇一個輸出概率最大的分布,即最接近真實圖像的顏色分布;FGSA中結(jié)合卷積核的濾波機制,將顏色特征分為不同的方向,形成不一樣的顏色層次,然后通過不同方向特征分離選擇性增強或削弱顏色特征,并用softmax進行顏色范圍擴大,從而提升顏色色深也就是對比度,使著色結(jié)果鮮明;FGSA將圖像特征分為顏色通道特征和空間位置特征,顏色通道和空間位置的結(jié)合能學(xué)習(xí)圖像中顏色與位置間的非線性關(guān)系,使網(wǎng)絡(luò)訓(xùn)練真實圖像怎樣讓顏色和目標(biāo)精準(zhǔn)對齊,提高著色準(zhǔn)確率,減少冗余色斑產(chǎn)生。從圖7可以看到,與基線模型相比,當(dāng)加入FGSA模塊后,模型的著色效果有著明顯的提升(第一行的天空。圖7(b1)(c1)(d1)背景部分的上色結(jié)果更接近標(biāo)簽;圖7(f1)基線模型前景目標(biāo)與標(biāo)簽的差異巨大,相比之下,F(xiàn)GSA模型的著色結(jié)果與標(biāo)簽更為接近)。 與+FGSA相比,+FGSA+PPM的大多數(shù)結(jié)果在LPIPS映射圖、分?jǐn)?shù)值上并沒有提高反而降低,是因為FGSA只在全局顏色預(yù)測和實例顏色預(yù)測網(wǎng)絡(luò)中加入,未在融合生成器中結(jié)合,全局顏色預(yù)測模型參數(shù)和實例顏色預(yù)測模型參數(shù)發(fā)生改變,實例顏色預(yù)測結(jié)果和全局圖像對應(yīng)實例的顏色預(yù)測位置出現(xiàn)偏差,從而產(chǎn)生冗余特征,但+FGSA+PPM的著色結(jié)果比+FGSA更接近真實圖像。 特別是圖7(a1)中的大海,F(xiàn)GSA存在著色錯誤,而加入PPM之后與標(biāo)簽更為接近。當(dāng)添加了所有模塊后(本文方法),輸出著色更真實、無冗余色塊的圖像,因為冗余色塊的產(chǎn)生可以視作異常值,異常值在L2中會被放大,不宜收斂,而L1損失函數(shù)對異常值不敏感,且能找到多個解,網(wǎng)絡(luò)只需通過L1不斷學(xué)習(xí)訓(xùn)練,找到全局最優(yōu)解,從而輸出無冗余色塊的圖像。
表2總結(jié)了不同組成部分的定量結(jié)果。從表中可以看出,與baseline相比,各模塊的FID、SSIM、LPIPS、CCI和CNI指標(biāo)均有顯著提升。表中加粗為最優(yōu)結(jié)果,下畫線為次優(yōu)結(jié)果。
總的來說,每加入一個組件后,模型的上色結(jié)果均得到了性能提升,表明這些模塊相輔相成,共同改進了著色結(jié)果。
3.6 注意力機制對比實驗
相關(guān)對比實驗進一步驗證了所提注意力機制的有效性。將所提細粒度注意力機制FGSA與單個的PPM和SPM兩個模塊進行實驗,以此說明雙重注意力機制比單個注意力機制著色效果好。此外,本文也對比了兩種注意力機制方法,包括經(jīng)典的和通道與空間結(jié)合的注意力機制CBAM[24]和SA[37],實驗測試結(jié)果如圖8所示。
PPM中雖然包含顏色通道和空間位置,但顏色通道最后輸出缺少softmax的動態(tài)映射,使得顏色特征范圍沒有明顯擴大,結(jié)果出現(xiàn)一定的著色暗淡,但相比其他五種方法,整體著色效果有一定優(yōu)勢,對應(yīng)的定量指標(biāo)也處于次優(yōu)。SPM中雖然包含顏色通道和空間位置注意力,但其顏色通道和空間位置的串行沒有并行方式的顏色與空間位置對齊能力強,因為串行方式是先提取顏色特征,然后學(xué)習(xí)圖像位置信息,顏色與空間位置的非線性擬合沒那么強,從而在著色結(jié)果中出現(xiàn)冗余色斑,但其著色效果和定量指標(biāo)僅次于PPM。CBAM為初始時期經(jīng)典的通道與空間位置注意力的組合,但在其結(jié)構(gòu)中,顏色特征與本文方法相比,通道數(shù)出現(xiàn)折疊導(dǎo)致顏色信息丟失,同時空間位置上的位置信息也出現(xiàn)相應(yīng)的折疊,使得兩部分的顏色特征和空間位置信息不能夠充分學(xué)習(xí)其對齊能力,等同于該機制對冗余色斑的約束并未達到期望的著色效果,其實驗結(jié)果也可以看出存在一定的冗余色斑。SA中將特征分為通道和空間位置兩個分支,兩者結(jié)合學(xué)習(xí)圖像顏色與位置間的非線性表達,從而約束一定的冗余色斑,同時結(jié)合了組卷積和channel shuffle來減少計算量,但注意力進行分支的同時,顏色通道信息遭遇到一定損失,且沒有得到后續(xù)補充,導(dǎo)致圖像出現(xiàn)著色暗淡,如定性測試結(jié)果所示,著色結(jié)果暗淡且CCI、CNI指標(biāo)處于較低水平。與上述注意力機制相比,本文所提注意力機制消除了冗余色斑,增強了色彩并更接近真實圖像,并且本文方法提出的細粒度注意力機制在大多數(shù)指標(biāo)上能達到最優(yōu)。
3.7 損失函數(shù)對比實驗
為驗證本文方法中使用損失函數(shù)的有效性,選擇了三種最常用于圖像著色的像素回歸損失函數(shù)及其三個組合進行對比,如表3所示。其中加粗為最優(yōu)結(jié)果,下畫線為次優(yōu)結(jié)果。
第一個版本Huber loss與L1 loss的組合(HL1),第二版本Huber loss與L2 loss的組合(HL2),第三個版本L1 loss與L2 loss組合(L1L2),第四個版本僅使用L2 loss(L2),第五個版本僅使用Huber loss(H)和最后一個版本僅使用L1 loss(L1)。因為三種像素回歸損失函數(shù)的組合仍然是像素?fù)p失函數(shù),所以其著色結(jié)果整體對比先前各種對比實驗效果均有一定優(yōu)勢,其對應(yīng)的大部分定量指標(biāo)也說明圖像著色的整體質(zhì)量。L2因為其不穩(wěn)定和解單一等特性,整體著色結(jié)果相較其他幾種損失函較差。H和L1L2在組成上較為接近,均由L1和L2組成。其損失相較于L2函數(shù),曲線更加平滑和易于求導(dǎo)。相較于L1,收斂更快。但L1具有多個解的優(yōu)勢,這也說明為什么H和L1L2對應(yīng)的著色結(jié)果中存在微弱的著色暗淡和色差等冗余色塊,而L1沒有,且三者對應(yīng)的定量指標(biāo)占據(jù)絕大部分的最優(yōu)和次優(yōu)結(jié)果。本文方法對應(yīng)最終著色結(jié)果得到了一定優(yōu)化完善。
4 結(jié)束語
本文提出一種細粒度注意力機制和融合模塊,并應(yīng)用于非交互式著色網(wǎng)絡(luò),能有效解決非交互式著色中出現(xiàn)的冗余色斑、著色暗淡和顏色偏離真實圖像等問題。本文提出的注意力機制FGSA將圖像特征分為顏色通道和空間位置,以關(guān)注在圖像上著“什么”顏色和在“哪里”著色,加上濾波與動態(tài)映射機制增強或抑制部分特征,消除圖像中的冗余色斑和減少著色暗淡。融合模塊中的非線性基函數(shù)擬合真實圖像的顏色分布,以此拉近生成圖像和真實圖像間的顏色差距,最終完成圖像著色中的細粒度任務(wù)。同時本文設(shè)計一系列對比實驗、消融實驗、注意力機制對比實驗和損失函數(shù)對比實驗來驗證本文算法的有效性。大量實驗結(jié)果表明,本文提出的細粒度注意力機制與現(xiàn)有的五種先進著色方法相比,取得了較好結(jié)果。在未來的工作中,筆者將致力于探索基于擴散模型的著色任務(wù)。此外,還將探討如何將框架作為修復(fù)老照片的輔助工具。
參考文獻:
[1]Zhang R, Isola P, Efros A A. Colorful image colorization[C]//Proc of the 14th European Conference Computer Vision. Netherlands: Springer, 2016: 649-666.
[2]Antic J. DeOldify image colorization on DeepAPI[EB/OL]. (2019-12-24)[2021-12-01]. https://deepai. org/machine-learning-model/colorizer.
[3]Zhang R, Zhu Junyan, Isola P, et al. Real-time user-guided image colorization with learned deep priors[J]. ACM Trans on Graphics, 2017,36(4): 1-11.
[4]Su J, Chu H K, Huang Jiabin. Instance-aware image colorization[C]//Proc of the 23rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington: DC: IEEE Computer Society, 2020: 7968-7977.
[5]李鑫, 普園媛, 趙征鵬, 等. 內(nèi)容語義和風(fēng)格特征匹配一致的藝術(shù)風(fēng)格遷移[J]. 圖學(xué)學(xué)報, 2023,44(4): 699-709. (Li Xin, Pu Yuanyuan, Zhao Zhengpeng, et al. Conten semantics and style features match consistent artistic style transfer[J]. Journal of Gra-phics, 2023,44(4): 699-709.)
[6]Kong Fanmin, Pu Yuanyuan, Lee I, et al. Unpaired artistic portrait style transfer via asymmetric double-stream GAN[J]. IEEE Trans on Neural Networks and Learning Systems, 2023,34(9): 5427-5439.
[7]姚偉健, 趙征鵬, 普園媛, 等. 稠密自適應(yīng)生成對抗網(wǎng)絡(luò)的爨體字風(fēng)格遷移模型[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2023, 35(6): 915-924. (Yao Weijian, Zhao Zhengpeng, Pu Yuanyuan, et al. Cuan font generation model of dense adaptive generation adversa-rial network[J]. Journal of Computer-Aided Design & Computer Graphics, 2023,35(6): 915-924.)
[8]Cheng Zezhou, Yang Qingxiong, Sheng Bin. Deep colorization[C]//Proc of the 15th IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2015: 415-423.
[9]Larsson G, Maire M, Shakhnarovich G. Learning representations for automatic colorization[C]//Proc of the 14th European Conference on Computer Vision. Cham: Springer, 2016: 577-593.
[10]Zhao Jiaojiao, Han Jungong, Shao Ling, et al. Pixelated semantic colorization[J]. International Journal of Computer Vision, 2020, 128(4): 818-834.
[11]Treneska S, Zdravevski E, Pires I M, et al. GAN-based image colo-rization for self-supervised visual feature learning[J]. Sensors, 2022,22(4): 1599.
[12]Wu Yanze, Wang Xintao, Li Yu, et al. Towards vivid and diverse image colorization with generative color prior[C]//Proc of the 18th IEEE/CVF International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2021: 14377-14386.
[13]Wang Yi, Xia Menghan, Qi Lu, et al. PalGAN: image colorization with palette generative adversarial networks[C]//Proc of the 17th European Conference on Computer Vision. Cham: Springer, 2022: 271-288.
[14]Ozbulak G. Image colorization by capsule networks[C]//Proc of the 22nd IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington DC: IEEE Computer Society, 2019: 2150-2158.
[15]Kumar M, Weissenborn D, Kalchbrenner N. Colorization transformer[C]//Proc of the 8th International Conference on Learning Representations. 2020: 3388-3411.
[16]Ji Xiaozhong, Jiang Boyuan, Luo Donghao, et al. ColorFormer: image colorization via color memory assisted hybrid-attention transformer[C]//Proc of the 17th European Conference on Computer Vision. Cham: Springer, 2022: 20-36.
[17]Huang Zhitong, Zhao Nanxuan, Liao Jing. Unicolor: a unified framework for multi-modal colorization with transformer[J].ACM Trans on Graphics, 2022, 41(6): 1-16.
[18]郭璠, 張泳祥, 唐琎, 等. YOLOv3-A: 基于注意力機制的交通標(biāo)志檢測網(wǎng)絡(luò)[J]. 通信學(xué)報, 2021, 42(1): 87-99. (Guo Fan, Zhang Yongxiang, Tang Jin, et al. YOLOv3-A: traffic sign detection network based on attention mechanism[J]. Journal on Communications, 2021,42(1): 87-99.)
[19]Zhao Hengshuang, Jia Jiaya, Koltun V. Exploring self-attention for image recognition[C]//Proc of the 23rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2020: 10076-10085.
[20]Zhang Han, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[C]//Proc of the 7th International Conference on Machine Learning. 2019: 7354-7363.
[21]Goodfellow I, Pouget A J, Mirza M, et al. Generative adversarial nets[C]//Proc of the 28th Conference and Workshop on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2661-2669.
[22]Su Weijie, Zhu Xizhou, Cao Yue, et al. VL-BERT: pre-training of generic visual-linguistic representations.[C]//Proc of the 22nd IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2019: 8530-8544.
[23]He Kaiming, Gkioxari G, Dollar P, et al. Mask R-CNN[C]//Proc of the 16th IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2017: 2961-2969.
[24]Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proc of the 15th European Conference on Computer Vision. Berlin: Springer, 2018: 3-19.
[25]Park J, Woo S, Lee J Y, et al. BAM: bottleneck attention module[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Washington DC: IEEE Computer Society, 2018: 6514-6527.
[26]Caesar H, Uijlings J, Ferrari V. COCO-Stuff: thing and stuff classes in context[C]//Proc of the 21st IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2018: 1209-1218.
[27]Everingham M, Ali Eslami S M, Van Gool L, et al. The Pascal visual object classes challenge: a retrospective[J]. International Journal of Computer Vision, 2015,111(1): 98-136.
[28]Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proc of the 13th International Conference on Artificial Intelligence and Statistics. 2010: 249-256.
[29]Zhu Junyan, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of the 20th IEEE Conference on Computer Vision and Pattern Recognition. Wa-shington DC: IEEE Computer Society, 2017: 2223-2232.
[30]Kingma D P , Ba J. Adam: a method for stochastic optimization[C]//Proc of the 3rd International Conference on Learning Representations. 2015: 6980-6994.
[31]Horé A, Ziou D. Image quality metrics: PSNR vs. SSIM[C]//Proc of the 20th International Conference on Pattern Recognition. Pisca-taway,NJ: IEEE Press, 2010: 2366-2369.
[32]Zhang R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2018: 586-595.
[33]Thomas E, Mannila H. Computing discrete Fréchet distance[J]. See Also, 1994,64(3): 636-637.
[34]Yue Guanghui, Hou Chunping, Zhou Tianwei. Blind quality assessment of tone-mapped images considering colorfulness, naturalness, and structure[J]. IEEE Trans on Industrial Electronics, 2018,66(5): 3784-3793.
[35]Xia Jun, Tan Guanghua, Xiao Yi, et al. Edge-aware multi-scale progressive colorization[C]//Proc of the 46th IEEE International Confe-rence on Acoustics, Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2021: 1655-1659.
[36]Vitoria P, Raad L, Ballester C. ChromaGAN: adversarial picture co-lorization with semantic class distribution[C]//Proc of the 19th IEEE/CVF Winter Conference on Applications of Computer Vision. Washington DC: IEEE Computer Society, 2020: 2445-2454.
[37]Zhang Qinglong, Yang Yubin. SA-Net: shuffle attention for deep con-volutional neural networks[C]//Proc of the 46th IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2021: 2235-2239.