摘" 要:無監(jiān)督圖像到圖像轉換任務是在非配對訓練數據的情況下學習源域圖像到目標域圖像的轉換.但是,圖像風格轉換任務依然面臨著圖像內容丟失、模型坍塌等現(xiàn)象.為了解決上述問題,提出了一種局部特征對比來保持圖像內容,通過特征提取器獲得多層圖像深層特征,使得圖像編碼器學習到高級語義信息,獲得信息更加豐富的圖像特征.同時,增加局部特征對比損失來引導特征提取器學習到有利于圖像內容生成的特征.實驗結果表明,在大多數情況下,所提方法在FID和KID分數方面優(yōu)于之前的方法,圖像生成質量有一定的提升.
關鍵詞:特征對比;圖像風格轉換;對比損失
中圖分類號:TP399""""" 文獻標志碼:A文章編號:1000-2367(2024)06-0073-07
不同圖像之間的轉換是通過學習某種映射來完成的,這種轉換不僅可以用于圖像風格之間的轉換,例如將真實照片轉換成梵高類型的油畫,還可以用于圖像內容和結構方面的修改,比如貓與狗、斑馬與馬之間的轉換.得益其出色的表現(xiàn),圖像風格轉換任務也被推廣到眾多領域,例如圖像修復[1]、圖像去霧[2]、圖像編輯[3]、圖像高分辨率生成[4]等等.因此,無監(jiān)督圖像之間的轉換受到了眾多計算機視覺領域研究者的關注.
早期的圖像風格轉換任務通過對源域圖像建立數學模型進行分析,在與目標域不斷地對比當中,不斷調整轉換模型,然后將圖像輸入到模型輸入中,完成圖像風格的轉換,但也因此無法提取和學習到圖像的特征,轉換效果較為粗糙.隨著深度神經網絡(DNN[5])的不斷發(fā)展,其也被應用在圖像轉換領域,通過反向傳播來更新權重系數,達到與目標域圖像近似.基于深度神經網絡的圖像轉換模型在面對復雜圖像和大量數據時,參數空間指數上升,泛化能力弱,對數據要求較為苛刻,無法實現(xiàn)大量無監(jiān)督圖像風格轉換任務.
當前無監(jiān)督圖像轉換任務通常都是基于生成對抗網絡(GAN)來實現(xiàn)的,傳統(tǒng)的GAN模型[6]通過訓練一組生成器和鑒別器來完成圖像轉換任務.但是由于GAN的復雜性和模型訓練的困難,導致很難獲得一個良好的圖像轉換模型.像循環(huán)生成對抗網絡(CycleGAN[7])通過采用一對生成器和辨別器實現(xiàn)兩個域之間的轉換.但其在一些圖像結構差別較大的領域,比如貓狗轉換上表現(xiàn)不佳.為了提高復雜圖像風格轉換的質量,通常還引入其他模塊,如使用注意力機制[8]的U-GAT-IT[9],但同時也增加了模型的冗余度.NICE-GAN[10]通過重用鑒別器的編碼器對網絡進行了簡化,取得了令人矚目的結果.然而,簡化后的網絡在圖像生成結果中也產生了一些新的問題,如翻譯圖像的結構不平衡和圖像部分模糊.
為了解決上述問題,提出了局部特征對比模塊.在本文的工作中,目標是希望轉換過來的圖像可以展現(xiàn)出
收稿日期:2023-07-12;修回日期:2024-04-07.
基金項目:國家自然科學基金(62072160);河南省科技攻關計劃項目(222102210187);河南省普通本科高等學校智慧教學專項研究項目(202111).
作者簡介:閆娟(1982-),女,河南周口人,河南師范大學高級工程師,研究方向為圖像處理、人工智能、大數據分析,E-mail:48279674@qq.com.
通信作者:王士斌,E-mail:wangshibin@htu.edu.cn.
引用本文:閆娟,康鵬帥,王士斌,等.基于特征對比的循環(huán)生成對抗網絡圖像風格轉換研究[J].河南師范大學學報(自然科學版),2024,52(6):73-79.(Yan Juan,Kang Pengshuai,Wang Shibin,et al.Research on image style transformation of cyclic generation adversarial network based on feature contrast[J].Journal of Henan Normal University(Natural Science Edition),2024,52(6):73-79.DOI:10.16366/j.cnki.1000-2367.2023.07.12.0003.)
目標域的外觀,同時保留住輸入圖像的結構或內容,而不是使用原始像素或特征.具體來說,通過在循環(huán)生成對抗網絡模型中引入局部特征對比模塊,將源域圖像和輸出圖像通過同一個編碼器來提取局部特征向量,為了簡化網絡和減少參數,通過重復使用鑒別器中前半部分的編碼器作為圖像局部特征的提取器,隨后在輸出圖像內容豐富區(qū)域選取錨點補?。?1],在源域圖像相同位置選取正樣本補丁,在源域圖像的其他部分隨機抽取N個負樣本補丁.同時,加入局部特征對比損失來減少錨點與正樣本之間的差距,拉大與負樣本之間的差距,以此來提高生成器的編碼性能和約束模型學習.這樣,編碼器就可以學習到兩個不同領域之間的共性,如物體的形狀,同時對差異保持不變,如物體的紋理.實驗結果表明,本文的模型取得了更好的圖像轉換效果.
1" 圖像風格轉換相關工作
1.1" 圖像風格轉換
圖像風格轉換旨在將一幅圖像的風格轉換為另一幅圖像的風格,并盡可能保留源域圖像的內容特征.傳統(tǒng)的圖像風格轉換方法最早由HERTZMANN等[12]提出,他們在單個輸入輸出訓練圖像上使用非參數紋理模型.隨著深度學習的不斷探索,GATYS等[13]首次提出了基于卷積神經網絡的風格轉移方法,他們通過VGG網絡[14]來表示圖像的語義風格信息和內容紋理特征信息,并通過迭代的方式不斷地更新網絡參數,從而使輸出圖像不斷接近目標域圖像.但是,這些方法在風格轉移算法方面建模困難,耗時長,效果不佳.
1.2" 無監(jiān)督圖像風格轉換
圖像到圖像的轉換技術一般需要大量的成對數據,而獲取這些數據非常耗時耗力,而無監(jiān)督圖像風格轉換是一種不需要成對數據集的轉換方法.代表性的有文獻[7]提出的CycleGAN模型,可以將其看成是一個循環(huán)生成的網絡,利用對偶學習的思路將源域圖像生成目標圖像之后再轉換為源域圖像,需要要求輸入的圖像域和目標域之間具有雙射關系,其通過循環(huán)一致性損失來保證原始圖像的結構不變,使用對抗損失強化輸出圖像的外觀特征,提出身份損失去控制生成圖像整體的顏色變化,具備強大的數據生成能力.
最新的研究方面,文獻[9]提出的U-GAT-IT模型,通過使用類激活映射并引入自適應層實例歸一化,構建了一個端到端的弱監(jiān)督跨域轉換模型.文獻[10]提出了NICE-GAN網絡模型,將判別器賦予雙重價值,同時進行編碼和判別,通過復用判別器的編碼器來替代目標域圖像的編碼器,不再需要額外的編碼組件,網絡結構更加緊湊,減少了網絡復雜度和網絡參數.
1.3" 對比學習
對比學習[15]廣泛應用于無監(jiān)督表示學習,其核心思想是通過最大化相關樣本之間的相似性,最小化不相關樣本之間的相似性來學習數據表示.文獻[11]將對比學習應用到圖像轉換領域,提出了CUT模型,該模型通過最大化互信息的方法學習一個輸入輸出圖像塊之間的相似性函數,首次將InfoNCE loss應用到了條件圖像生成領域,可以實現(xiàn)在單張圖像上完成圖像轉換.隨后HAN等[16]提出了雙重對比方法,他們通過使用兩個不同的編碼器用于推斷未配對數據之間的有效映射,提高了一致性和訓練的穩(wěn)定性.
2" 本文方法
針對非配對圖像轉換后圖像內容和結構丟失問題,提出了一種局部特征對比模塊,使其注重于圖像中物體的內容和外觀.該模塊由多層特征提取器,特征塊對比損失函數組成.下面對整個模塊框架,局部特征提取器和損失函數進行介紹.
2.1" 模型框架
局部特征對比模型主要包括被重復使用的局部特征提取器Ex→y,兩個生成器Gx→y和Gy→x,兩個判別器Dx和Dy,如圖1所示.其中X代表源域圖像的數據分布,Y代表目標圖像的數據分布.局部特征提取器同時作為生成器Gx→y和鑒別器Dx的編碼器,在訓練模型時,采用解耦的訓練方式,僅在最大化對抗損失的時候對該編碼器進行訓練.首先對于一張來自X域的圖像x,局部特征提取器Ex→y首先進行特征提取,得到的特征向量同時反饋給生成器Gx→y和鑒別器Dx,通過生成器Gx→y得到目標圖像,多尺度辨別器Dx判斷圖像的真假程度.隨后,將生成的Y域圖像分別傳遞給編碼器Ey→x和Ex→y,由Ey→x得到的特征向量同時也反饋給生成器Gy→x和鑒別器Dy.最后通過計算對抗損失、循環(huán)一致性損失、重構損失和局部特征對比損失更新網絡參數.將Y域圖像轉換為X域圖像與上述過程相同,這里不再贅述.
2.2" 局部特征提取器
圖2和圖3說明了局部特征提取和對比特征采樣的實現(xiàn)過程以及特征對比損失的計算,局部特征提取器使用卷積神經網絡,可以高效提取特征.對于X域和Y域的圖像都是通過同一個編碼器進行兩次下采樣,為了加快模型的收斂速度,在每次卷積操作之前增加Spectral_norm[17],在每次卷積操作之后加入LeakyReLU激活函數,上述正則化和激活函數可以提高神經網絡的穩(wěn)定性和泛化能力.隨后在輸出圖像Y中采樣一個錨點(z),也就是查詢樣本,對于輸入圖像X,在錨點相同位置采樣一個正樣本(z+),在除此之外的其他位置隨機采樣負樣本(z-),所有的采樣都是在網絡的空間維度上進行的.同時將它們送入特征對比模塊計算特征對比損失,即將其以對抗性的方式對錨點、正樣本和生成的負樣本進行對比學習,即擴大查詢樣本與負樣本之間的距離,縮小與正樣本的差距,達到輸出圖像近似于目標圖像的效果.
2.3" 損失函數
2.3.1" 對抗損失
沒有使用原始的GAN損失,而是采用了LSGAN中提出的最小二乘損失代替交叉熵損失從而讓訓練更加穩(wěn)定,圖像生成質量更高,與目標圖像更加相似.目標函數如下:minGx→ymaxDy=(CyEy)Lx→ygan∶=Ey→Y[(Dy(y))2]+Ex~X[(1-Dy(Gx→y(Ex(x))))2],(1)
當最大化Lx→ygan時,固定Ex,訓練Ey;當最小化Lx→ygan時,同時固定Ex和Ey.
2.3.2" 重構損失
使用重構損失來確保可以通過源域圖像特征和源域生成器去恢復源域特征,其計算公式如下:
minGy→xLx→yrecon∶=Ex~X[|x-Gy→x(Ex(x))|1],(2)
其中,|·|1計算L1范數,Ex保持不變.同樣,也可以定義Ly→xrecon.
2.3.3" 循環(huán)一致性損失
單純地使用對抗損失會使目標域生成器只傾向于改變圖像風格,從而導致模式崩塌問題.因而使用了CycleGAN中的L1損失來計算循環(huán)一致性損失,可以很好地保留圖像內容.其計算公式如下:minGy→xGx→yLx→ycycle∶=Ex~X[|x-Gy→x(Ey(Gx→y(Ex(x))))|1].(3)
2.3.4" 特征對比損失
通過編碼器提取的圖像特征包含豐富的圖像表示信息.為了使生成的目標域圖像與源域圖像在圖像結構上和圖像內容更加接近,將生成圖像和源域圖像作為輸入,通過重復使用同一個編碼器的L層計算圖像深層特征.其中s∈{1,2,…,Sl},Sl表示每一層中選取樣本的數量.在生成圖像內容豐富的區(qū)域選取錨點,在源域圖像中的同一位置選取正樣本,并在源域圖像的其他位置選取N個負樣本.目標是在圖像特征向量表征空間中將正樣本與錨點樣本(z)之間的特征距離拉近,將負樣本與錨點樣本之間的特征距離拉遠,其計算公式如下:LFeature-PatchNCE(G,H,X)=Ex~X∑Ll=1∑Sls=1(sl,zsl,zS/sl).(4)
2.3.5" 總損失
判別器的總損失為:maxEx,Cx,Ey,Eyλ1Lgan+λ2-1LFeature-PatchNCE.(5)
生成器的總損失為:minGx→yGy→xλ1Lgan+λ2-2Lcycle+λ3Lrecon.(6)
在實驗中,λ1,λ2-1,λ2-2,λ3分別被固定為λ1=1,λ2-1=1,λ2-2=10,λ3=10.
3" 實驗分析
3.1" 數據集
實驗中使用了4種常見的無配對基準數據集,分別為horsezebra、summerwinter、vangoghphoto和catdog.其中horsezebra來源于CycleGAN,它包含2 401張訓練圖像,260張測試圖像,分別為1 067/120(horse),1 334/140(zebra),這些圖像都是從ImageNet[18]中收集的; summerwinter是從Flickr API上下載的,剪掉了黑白照片,其中夏天和冬天的訓練集和測試集分別為1 231/309(summer),962/238(winter);vangoghphoto來自于CycleGAN,它包含400張梵高畫,7 038張照片,重復使用梵高畫的訓練集作為測試集,將照片分為6 287張訓練集,751張作為測試集;catdog在DRIT[19]中被介紹,該數據集是從谷歌圖像中截取的,其中貓和狗的訓練集和測試集分別為771/100(cat),1 264/100(dog).在實驗中,將所有數據集進行裁剪并調整大小為256×256.
3.2" 實驗設置
所有實驗均在Pytorch框架上進行,遵循了NICEGAN的框架設定,增加了局部特征對比損失,并相應地提取編碼器均勻分布點的特征.在生成器中使用ReLU作為激活函數,在鑒別器中使用斜率為0.2的LeakyReLU.使用學習率為0.000 1的Adam優(yōu)化器,在NVIDIA A100顯卡上訓練所有模型.對于數據增強,以0.5的概率水平翻轉圖像,將其大小調整為286×286,并隨機裁剪為256×256.所有實驗的BatchSize設置為1.設置權重衰減為0.000 1.所有模型都經過了300 k次迭代訓練.
3.3" 評價指標
在本文中,采用圖像風格轉換領域常用的評價指標FID和KID來評估圖像生成質量.FID對每個比較圖像集的InceptionNet隱藏激活函數進行高斯分布擬合,然后計算這些高斯之間的Frechet距離.當FID分數越低,生成的圖像越接近真實圖像,也就意味著生成的網絡結果越好.計算公式如下:
FID=‖μr-μg‖2+Tr(∑r+∑g-2(∑r∑g)11/2).(7)
KID與FID類似,KID通過計算特征之間最大平均差的平方去測量兩組樣本之間的差異.此外,與FID不同的是,KID有一個簡單的無偏估計器,這使得它更可靠,特別是當初始特征通道的數量遠大于圖像的數量時.較小的KID分數表示真實圖像與生成圖像之間具有良好的視覺相似性.
3.4" 對比分析
與其他5種優(yōu)秀的圖像轉換模型進行了可視化分析,如圖4所示.從生成的圖像上來看,UNIT[20]和MUNIT[21]也都成功轉換了圖像的語義信息,但在圖像清晰度上還存在比較大的差異,尤其是在vangogh→photo任務上,這是因為原來梵高的圖像沒有銳利的邊緣,在模型上效果會比較差.U-GAT-IT-light的模型結構與NICEGAN大致相同,它們在圖像轉換方面取得了更好的效果,但生成的圖像仍會出現(xiàn)部分模糊,在圖像的結構和細節(jié)方面仍然存在不足.與其他圖像轉換方法相比,本文提出的局部特征對比很好地處理了圖像細節(jié)和結構部分,更好地還原了目標圖像的特征,如圖4第2列所示.
表1展示了不同圖像轉換模型的定量評估結果,如表1所示,本文的方法在大多數情況下都可以獲得最低的FID和KID分數,這說明本文的方法在不同的任務上都有良好的轉換能力.相比之下,其他方法僅在某些數據集上表現(xiàn)良好.例如CycleGAN只擅長修改了圖像的低級特征(例如顏色和紋理),因此在cat→dog數據集上取得了最差的FID=125.30.但在horse→zebra結果上較差的原因在于圖像內容和風格相差較大,并且圖像背景占據圖像內容較多部分,模型在提取源圖像特征與目標域圖像特征進行對比時會增大誤差,因此很難控制圖像的整體風格.相比之下,本文算法在catdog數據集上的表現(xiàn)較為突出,dog→cat得到了最好FID=41.67和KID=0.86,cat→dog得到了最好FID=37.01和KID=0.56.
3.5" 消融實驗
為了驗證本論文提出的局部特征對比的有效性,在catdog數據集和summerwinter數據集上進行了消融實驗.進行了兩次實驗,第一次實驗不添加特征對比模塊,第二次實驗添加特征對比模塊.“√”表示在原有模型的基礎上增加了此方法,所有的消融實驗都遵循了相同的參數設置.
表2展示了分離特征對比模塊前后實驗的對比,根據表2的結果,增加特征對比之后,大部分數據集得到提升,特別在cat→dog的實驗中,F(xiàn)ID和KID分數分別提升了7.66和0.64,這證明了特征對比模塊產生了好于之前模型的實驗效果,在圖像轉換方面具有實效性.
4" 總" 結
本文在循環(huán)生成對抗網絡上提出了一種局部特征對比模塊進行圖像風格轉換.局部特征對比模塊從輸入和輸出圖像上獲取圖像內容豐富的特征,使用特征對比損失更好的維持圖像內容,使其與目標域圖像特征接近,從而提升生成圖像的效果.與現(xiàn)有的5種優(yōu)秀圖像風格轉換模型相比,本文的圖像轉換方法在4種常用的數據集上取得了良好的效果,消融實驗表明本文提出方法的可靠性.
致謝:本論文數值計算得到了河南師范大學高性能計算中心的計算支持.
參" 考" 文" 獻
[1] ""ZHENG H T,LIN Z,LU J W,et al.Image inpainting with cascaded modulation GAN and object-aware training[C]//European Conference on Computer Vision.Cham:Springer,2022.
[2]SONG Y D,HE Z Q,QIAN H,et al.Vision transformers for single image dehazing[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2023,32:1927-1941.
[3]DEKEL T,GAN C,KRISHNAN D,et al.Sparse,smart contours to represent and edit images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018.
[4]ROMBACH R,BLATTMANN A,LORENZ D,et al.High-resolution image synthesis with latent diffusion models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).New Orleans:IEEE,2022.
[5]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[6]GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial networks[J].Communications of the ACM,2020,63(11):139-144.
[7]ZHU J Y,PARK T,ISOLA P,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//2017 IEEE International Conference on Computer Vision(ICCV).Italy:IEEE,2017.
[8]VASWANI A,SHAZEER N M,PARMAR N,et al.Attention is all you need[EB/OL].[2024-04-06].http://arxiv.org/pdf/1706.03762.
[9]LEE H Y,LI Y H,LEE T H,et al.Progressively unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[J].Sensors,2023,23(15):6858.
[10]CHEN R F,HUANG W B,HUANG B H,et al.Reusing discriminators for encoding:towards unsupervised image-to-image translation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020.
[11]PARK T,EFROS A A,ZHANG R,et al.Contrastive learning for unpaired image-to-image translation[C]// European Conference on Computer Vision.Cham:Springer,2020.
[12]HERTZMANN A,JACOBS C E,OLIVER N,et al.Image analogies[C]//Proceedings of the 28th annual conference on Computer graphics and interactive techniques.New York:ACM,2001.
[13]GATYS L A,ECKER A S,BETHGE M.Image style transfer using convolutional neural networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016.
[14]SZEGEDY C,LIU W,JIA Y Q,et al.Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston:IEEE,2015.
[15]HE K M,F(xiàn)AN H Q,WU Y X,et al.Momentum contrast for unsupervised visual representation learning[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:9726-9735.
[16]HAN J L,SHOEIBY M,PETERSSON L,et al.Dual contrastive learning for unsupervised image-to-image translation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).Nashville:IEEE,2021.
[17]MIYATO T,KATAOKA T,KOYAMA M,et al.Spectral normalization for generative adversarial networks[EB/OL].[2024-04-06].http://arxiv.org/abs/1802.05957v1.
[18]DENG J,DONG W,SOCHER R,et al.ImageNet:a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami:IEEE,2009.
[19]LEE H Y,TSENG H Y,HUANG J B,et al.Diverse image-to-image translation via disentangled representations[C]//Computer Vision-ECCV 2018:15th European Conference,Munich:ACM,2018.
[20]LIU M Y,BREUEL T,KAUTZ J.Unsupervised image-to-image translation networks[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.California:ACM,2017.
[21]HUANG X,LIU M Y,BELONGIE S,et al.Multimodal unsupervised image-to-image translation[C]//Computer Vision-ECCV 2018:15th European Conference.Munich:ACM,2018.
Research on image style transformation of cyclic generation adversarial network based on feature contrast
Yan Juana, Kang Pengshuaib, Wang Shibinb,c, Mei Xueshub, Li Yanb, Liu Dongb
(a. Information Construction and Management Office; b. School of Computer and Information Engineering; c. Key Lab of \"Artificial Intelligence and Personalized Learning in Education\" in Henan Province, Henan Normal University, Xinxiang" 453007, China)
Abstract: The unsupervised image-to-image translation task is to learn the transformation of source domain images to target domain images in the case of unpaired training data. However, the image style conversion task still faces phenomena such as image content loss and model collapse. In order to solve the above problems, we propose a local feature comparison to preserve image content, and obtain multi-layer image deep features through a feature extractor, allowing the image encoder to learn high-level semantic information and obtain more informative image features. At the same time, local feature contrast loss is added to guide the feature extractor to learn features that are beneficial to image content generation. Experimental results show that in most cases, our method outperforms previous methods in terms of FID and KID scores, and the quality of image generation is improved to a certain extent.
Keywords: feature comparison;" image style conversion; contrast loss
[責任編校" 陳留院" 趙曉華]