劉惠臨,王燕思
(安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001)
藝術(shù)圖像風(fēng)格遷移算法最早應(yīng)用于視覺藝術(shù)領(lǐng)域,可以利用一幅圖像的內(nèi)容信息和藝術(shù)畫作的風(fēng)格信息,得到一張融合原始圖像內(nèi)容和藝術(shù)繪畫風(fēng)格的生成圖像.藝術(shù)圖像風(fēng)格遷移算法在計(jì)算機(jī)圖形學(xué)領(lǐng)域被稱為非真實(shí)性渲染算法(Non Photorealistic Rendering,NPR)[1],通過對(duì)特殊筆觸紋理的模擬,實(shí)現(xiàn)筆觸信息的遷移.之后,學(xué)者們對(duì)NPR 算法進(jìn)行創(chuàng)新,提出紋理遷移算法(Texture Transfer)[2],該算法不再拘泥于圖像的筆觸信息,而是抽取圖像淺層次的紋理信息.雖然這種非參數(shù)化的方法可以實(shí)現(xiàn)藝術(shù)圖像風(fēng)格遷移,但是并沒有過多考慮深層次的語義信息,因此風(fēng)格遷移效果并不理想.隨著深度學(xué)習(xí)的飛速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移算法有了巨大進(jìn)步.2015年,GATYS等[3]最早提出神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移算法.他發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)提取特征之間的相關(guān)性具有顯著捕捉視覺風(fēng)格的能力,通過Gram 矩陣可以有效衡量特征圖的風(fēng)格相似性.JOHNSON等[4]在文獻(xiàn)[3]的基礎(chǔ)上訓(xùn)練了一個(gè)前向傳播的神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了實(shí)時(shí)藝術(shù)圖像風(fēng)格遷移,極大地提升了藝術(shù)圖像風(fēng)格遷移速度.但該算法每次訓(xùn)練都只能實(shí)現(xiàn)一種風(fēng)格的遷移,為此LI等[5]引入白化和著色變換嵌入到圖像重建網(wǎng)絡(luò)當(dāng)中,通過自動(dòng)編碼器架構(gòu)實(shí)現(xiàn)任意風(fēng)格的變換.此外,基于前人的算法基礎(chǔ),還出現(xiàn)了一些改進(jìn)算法[6-8],這些算法都在藝術(shù)圖像風(fēng)格遷移任務(wù)中取得了不錯(cuò)的效果.
真實(shí)圖像風(fēng)格遷移算法的目標(biāo)是將攝影圖片的風(fēng)格信息轉(zhuǎn)移到內(nèi)容圖像上,通過選擇適當(dāng)?shù)娘L(fēng)格圖像,可以使生成圖像看起來像是在不同光照、時(shí)間或天氣下拍攝的真實(shí)照片.藝術(shù)圖像風(fēng)格遷移算法由于它強(qiáng)大的抽象能力,在處理攝影圖片時(shí)可能會(huì)出現(xiàn)繪畫風(fēng)格的扭曲感,因此并不直接適用于真實(shí)圖像風(fēng)格遷移任務(wù).2017年,LUAN等[9]提出深度圖像風(fēng)格遷移算法,通過增加額外的圖像真實(shí)性正則化項(xiàng)和語義分割掩模,成功開創(chuàng)了真實(shí)圖像風(fēng)格遷移算法的先河.LI等[10]提出的PhotoWCT 算法以犧牲4個(gè)自動(dòng)編碼器的參數(shù)重架構(gòu)為代價(jià),實(shí)現(xiàn)了較強(qiáng)的風(fēng)格化強(qiáng)度.然而,解決優(yōu)化問題需要大量的計(jì)算成本,這限制了它們?cè)趯?shí)踐中的應(yīng)用.YOO等[11]提出的WCT2算法和AN等[12]提出的PhotoNAS算法使用單一的自動(dòng)編碼器架構(gòu)處理運(yùn)算速度相對(duì)緩慢的問題.張穎濤等[13]提出一種全局引導(dǎo)的真實(shí)圖像風(fēng)格遷移算法,通過引入分區(qū)自適應(yīng)實(shí)例歸一化項(xiàng)和跨通道分區(qū)注意力模塊引導(dǎo)網(wǎng)絡(luò)實(shí)現(xiàn)更好的整體遷移效果.CHIU等[14]在WCT2算法基礎(chǔ)上又提出PhotoWCT2算法,結(jié)合PhotoWCT 和WCT2算法優(yōu)點(diǎn),通過引入塊式訓(xùn)練,使單個(gè)自動(dòng)編碼器的風(fēng)格化強(qiáng)度更加優(yōu)化,同時(shí)改進(jìn)WCT2算法中小波池化的連接方式,在降低計(jì)算成本的同時(shí)也取得了較好的風(fēng)格遷移效果.
雖然目前的真實(shí)圖像風(fēng)格遷移算法[9-14]已經(jīng)取得了較好的遷移效果,但在某些方面仍然存在局限.例如為了實(shí)現(xiàn)更高的風(fēng)格化強(qiáng)度而降低圖像真實(shí)感,無法在保持圖像真實(shí)感的同時(shí)增強(qiáng)算法的風(fēng)格化強(qiáng)度.針對(duì)上述問題,在PhotoWCT2算法基礎(chǔ)上設(shè)計(jì)一種改進(jìn)的通道注意力機(jī)制——頻率分離通道注意力機(jī)制(Frequency Separation Attention Mechanism,F(xiàn)SCAM),將離散余弦變換(Discrete Cosine Transform,DCT)嵌入通道注意力機(jī)制當(dāng)中,使用離散余弦變換進(jìn)行特征分解,將分解得到的不同頻率分量(包括最低頻率分量)并行輸入共享感知機(jī)內(nèi)部,將頻率分離通道注意力機(jī)制引入每個(gè)編碼器塊的相應(yīng)卷積層后,對(duì)通道域中不同尺度的特征進(jìn)行自適應(yīng)篩選,篩選出高價(jià)值的紋理和顏色特征,在保證圖像細(xì)節(jié)信息不丟失的同時(shí),增強(qiáng)算法的風(fēng)格化強(qiáng)度.
PhotoWCT2算法與過往的真實(shí)圖像風(fēng)格遷移算法相比,其風(fēng)格遷移效果相對(duì)較好.該算法將真實(shí)圖像風(fēng)格遷移任務(wù)看作是圖像風(fēng)格轉(zhuǎn)換和圖像重建兩個(gè)部分.在圖像風(fēng)格轉(zhuǎn)換方面,PhotoWCT2算法采用基于白化著色變化(Whitening and coloring transforms,WCT).該模塊通過白化著色變換以調(diào)整風(fēng)格圖像的內(nèi)容信息,使其與風(fēng)格特征圖的協(xié)方差矩陣相匹配.該模塊包括白化變換和著色變換兩個(gè)步驟,計(jì)算公式如下:
其中,fC為內(nèi)容圖像特征圖,為白化變換結(jié)果為著色變換結(jié)果,DC和DS分別為內(nèi)容和風(fēng)格圖像特征值的對(duì)角矩陣,EC和ES分別為內(nèi)容和風(fēng)格圖像特征向量的正交矩陣.
PhotoWCT2算法中的圖像重建部分則采用單一的自動(dòng)編碼器架構(gòu)實(shí)現(xiàn)粗粒度到細(xì)粒度的特征轉(zhuǎn)換.通過PhotoWCT2算法的實(shí)驗(yàn)表明,塊式訓(xùn)練比端到端的訓(xùn)練方式可以使解碼器更好地學(xué)習(xí)編碼器的逆函數(shù),實(shí)現(xiàn)函數(shù)反演.為了實(shí)現(xiàn)更高的風(fēng)格化強(qiáng)度,PhotoWCT2算法在自動(dòng)編碼器的瓶頸位置以及Decblk4、Decblk3和Decblk2 塊的輸出位置都嵌入WCT 風(fēng)格遷移模塊.此外,WCT2算法使用小波池化[9]技術(shù),可以減少由池化層帶來的信息損耗,其中小波卷積核由一個(gè)低頻分量kLL和3個(gè)高頻分量kLH、kHL和kHH組成,如下式所示:
由于小波池化技術(shù)有4個(gè)輸出通道,其中低通濾波器kLL捕獲平滑的紋理特征和顏色特征,高通濾波器kLH、kHL、kHH提取垂直、水平和對(duì)角線的類邊特征,需要通過4次卷積操作才能得到高頻特征與低頻特征.為了簡(jiǎn)化這個(gè)過程,PhotoWCT2算法引入高頻殘差跳躍連接技術(shù).具體而言,它使用上采樣與平均池化操作代替小波池化的低頻分量部分,從而將池化次數(shù)降低到原來的1/4.在減少網(wǎng)絡(luò)參數(shù)的前提下,實(shí)現(xiàn)更好的圖像重建效果.PhotoWCT2算法整體網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示.
圖1 PhotoWCT2算法結(jié)構(gòu)圖
1.2.1 通道注意力機(jī)制
通道注意力機(jī)制[15-16]是一種用于改善卷積神經(jīng)網(wǎng)絡(luò)性能的方法,其核心思想是通過獲取特征圖中每個(gè)通道的重要性差異以合理分配計(jì)算資源.該方法首先對(duì)輸入的特征圖進(jìn)行全局平均池化(Global Average Pooling,GAP)操作,將其壓縮為一個(gè)1×1×C的特征圖,其中C表示通道數(shù).然后將壓縮后的特征圖輸入一個(gè)兩層感知機(jī)(Multi-Layer Perceptron,MLP)中.MLP的第一層全連接層具有C/4個(gè)神經(jīng)元,激活函數(shù)為Relu,第二層全連接層具有C個(gè)神經(jīng)元,用于學(xué)習(xí)通道維度的特征和各個(gè)通道的重要性.最后對(duì)第二層全連接層的輸出進(jìn)行Sigmoid函數(shù)的映射處理,得到最終的通道注意力特征.通過計(jì)算通道注意力特征可以獲得每個(gè)通道的權(quán)重,進(jìn)而調(diào)整特征圖的表示.這種機(jī)制可以用公式(4)表示
其中Favg為特征圖經(jīng)過全局平均池化的結(jié)果.整個(gè)通道注意力機(jī)制結(jié)構(gòu)如圖2所示.
圖2 通道注意力機(jī)制
1.2.2 DCT 與GAP關(guān)系
離散余弦變換[17]能夠?qū)⒖沼蛐畔⑥D(zhuǎn)換為頻域信息,通過一組不同頻率和幅值的余弦函數(shù)和近似表示一幅圖像,一維離散余弦變換公式如下
其中,fk∈RL為DCT 頻率光譜,x∈RL為輸入,L為輸入長(zhǎng)度,二維離散余弦變換公式如下
其中,f2d∈RH×W為DCT獲得的二維頻率光譜,x2d∈RH×W為特征圖輸入,H和W分別表示特征圖的高和寬.對(duì)應(yīng)的二維離散余弦變換的逆變換為
假設(shè)公式(6)中的h、w為0,則存在
1.2.3 頻率分離通道注意力機(jī)制(FSCAM)
從頻率角度分析,一張?zhí)卣鲌D可以被看作不同頻率分量的組合.通道注意力機(jī)制中的GAP只是二維離散余弦變換的其中一個(gè)分量.如果僅使用通道注意力機(jī)制,意味著只有最低頻率信息會(huì)輸入感知機(jī)中進(jìn)行篩選,其余頻率分量的所有信息被忽視.在真實(shí)圖像風(fēng)格遷移任務(wù)中,風(fēng)格信息的遷移過程可以被看作一種紋理遷移和色調(diào)遷移.實(shí)驗(yàn)表明,如果在真實(shí)圖像風(fēng)格遷移算法中僅使用通道注意力機(jī)制,由于其余頻率分量無法進(jìn)行自適應(yīng)篩選,風(fēng)格遷移效果相較于PhotoWCT2算法并沒有顯著提升.為此,所提算法將二維離散余弦變換嵌入原有的通道注意力機(jī)制內(nèi)部.首先,將卷積后的特征圖進(jìn)行特征分解,利用神經(jīng)架構(gòu)搜索技術(shù)(Neural Architecture Search,NAS)自動(dòng)獲取最佳頻率分量.其次,篩選出前15個(gè)最佳頻率分量(包括最低頻分量),并將其并行輸入到共享感知機(jī)模塊內(nèi)部.這樣做可以確保紋理信息和色調(diào)信息都能得到適當(dāng)?shù)谋A?,避免過度丟失.再次,對(duì)這15個(gè)輸出結(jié)果進(jìn)行逐元素相加,通過Sigmoid激活函數(shù)生成頻率分離通道注意力機(jī)制的輸出結(jié)果.最后,將該結(jié)果與原有特征圖相乘,使其恢復(fù)為原始的C×H×W大小.添加FSCAM 的真實(shí)圖像風(fēng)格遷移算法能夠篩選出高價(jià)值的紋理信息和色調(diào)信息,從而增強(qiáng)算法的風(fēng)格化遷移強(qiáng)度.FSCAM 的具體結(jié)構(gòu)如圖3所示.
圖3 頻率分離通道注意力機(jī)制
二維離散余弦變換不同頻率分量結(jié)果可表示為
其中,F(xiàn)reqi為二維離散余弦變量不同結(jié)果,2DDCT 為二維離散余弦變換.
自動(dòng)編碼器[18-20]作為一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,廣泛應(yīng)用于真實(shí)圖像風(fēng)格遷移算法中,所提算法同樣基于自動(dòng)編碼器網(wǎng)絡(luò)架構(gòu)構(gòu)建了如圖4所示的真實(shí)圖像風(fēng)格遷移模型.
圖4 所提算法結(jié)構(gòu)圖
所提算法在PhotoWCT2算法基礎(chǔ)上加以改進(jìn).為了實(shí)現(xiàn)粗粒度到細(xì)粒度的特征轉(zhuǎn)換,將編碼器拆分為Encblk1、Encblk2、Encblk3和Encblk4 4個(gè)系列塊,輸出層是VGG19中的ReluN_1層,編碼器是預(yù)先訓(xùn)練好的網(wǎng)絡(luò).解碼器與編碼器結(jié)構(gòu)對(duì)稱,也拆分為Decblk1、Decblk2、Decblk3和Decblk4 4個(gè)系列塊,目的是學(xué)習(xí)編碼器的逆函數(shù),將ReluN_1特征轉(zhuǎn)換為Relu(N-1)_1特征.因此,在網(wǎng)絡(luò)訓(xùn)練完成后,獲取Relu4_1特征的解碼器能夠依次重現(xiàn)Relu3_1、Relu2_1和Relu1_1特征和輸入圖像.為了實(shí)現(xiàn)更好的風(fēng)格遷移效果,沿用PhotoWCT2算法中的WCT 風(fēng)格轉(zhuǎn)移模塊和高頻殘差跳躍連接(Skip Connection)方式.此外,所提算法在每個(gè)編碼器塊的相應(yīng)卷積層后都嵌入一個(gè)FSCAM,使用離散余弦變換將卷積后的特征先進(jìn)行特征分解,分別計(jì)算出通道注意力機(jī)制中每個(gè)頻率分量結(jié)果,通過神經(jīng)架構(gòu)搜索技術(shù)篩選出前15個(gè)性能最佳的頻率分量并行輸入共享感知機(jī)模塊內(nèi)部進(jìn)行自適應(yīng)篩選,篩選出高價(jià)值的紋理和顏色特征,在保證圖像細(xì)節(jié)信息不丟失的同時(shí),增強(qiáng)了算法的風(fēng)格化強(qiáng)度.
本文實(shí)驗(yàn)使用Microsoft COCO(2014)作為訓(xùn)練數(shù)據(jù)集,使用DPST 數(shù)據(jù)集[9]作為測(cè)試數(shù)據(jù)集.其中訓(xùn)練數(shù)據(jù)集約有80000 張圖片,將每張圖片尺寸縮放到512×512,保持橫縱比,然后隨機(jī)裁剪為256×256.測(cè)試數(shù)據(jù)集包含60組攝影圖片,每組圖像由兩張成對(duì)的內(nèi)容圖像和風(fēng)格圖像組成.實(shí)驗(yàn)環(huán)境為CUDA11.2,cuDNN8.0,ubuntu18.04系統(tǒng),Tensorflow2.5.0深度學(xué)習(xí)框架,python3.8程序語言,NVIDIA Ge Force GTX 1080 GPU,11GB 顯存.數(shù)據(jù)批尺寸(Batch Size)設(shè)置為8.本文訓(xùn)練時(shí)使用Adam優(yōu)化器,網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.0001.
真實(shí)圖像風(fēng)格遷移算法主要以生成圖像質(zhì)量作為評(píng)價(jià)依據(jù),設(shè)計(jì)相關(guān)對(duì)比實(shí)驗(yàn)以驗(yàn)證算法性能.其中生成圖像質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn)分為定性視覺效果和定量評(píng)價(jià)指標(biāo)兩個(gè)部分.定性評(píng)價(jià)標(biāo)準(zhǔn)為生成圖像內(nèi)容結(jié)構(gòu)的清晰度和風(fēng)格間的色調(diào)和紋理一致性;定量評(píng)價(jià)指標(biāo)包括結(jié)構(gòu)相似性(Structural Similarity,SSIM)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、內(nèi)容損 失(Content loss)和風(fēng)格損失(Style loss).在真實(shí)圖像風(fēng)格遷移領(lǐng)域生成圖像質(zhì)量評(píng)價(jià)指標(biāo)中結(jié)構(gòu)相似性用來衡量?jī)?nèi)容圖像和生成圖像之間亮度、對(duì)比度和結(jié)構(gòu)上的相似性,數(shù)值越大則相似性越高.峰值信噪比用來衡量生成圖像相較于風(fēng)格圖像像素點(diǎn)之間的誤差大小,數(shù)值越大則失真越小.內(nèi)容損失通過將內(nèi)容圖像和生成圖像送入VGG19模型Conv4_1層比較2張圖像特征圖的差異性,數(shù)值越大則特征圖差異越大.風(fēng)格損失則是將風(fēng)格圖像和生成圖像送入VGG19模型,提取前4層中每一層的特征圖,計(jì)算2張圖像不同尺度特征圖的Gram 矩陣,通過比較特征圖之間的共現(xiàn)相關(guān)性來表現(xiàn)圖像之間的風(fēng)格差異.結(jié)構(gòu)相似性和內(nèi)容損失通過計(jì)算內(nèi)容圖像與生成圖像的結(jié)構(gòu)相似性和內(nèi)容損失,反映生成圖像內(nèi)容部分遷移的效果.峰值信噪比和風(fēng)格損失通過計(jì)算風(fēng)格圖像與生成圖像的峰值信噪比和風(fēng)格損失,反映生成圖像風(fēng)格部分遷移的效果.內(nèi)容損失和風(fēng)格損失計(jì)算公式如下
其中,Lcontent為內(nèi)容損失,Lstyle為風(fēng)格損失,O表示生成圖像,C表示內(nèi)容圖像,N和M分別代表特征圖的寬和高,Gij和Aij分別表示生成圖像和風(fēng)格圖像的Gram 矩陣,每一層的權(quán)重參數(shù)設(shè)置為相同值.
2.3.1 定性視覺效果
為驗(yàn)證所提算法的有效性,選用真實(shí)圖像風(fēng)格遷移算法中性能相對(duì)較好的DPST、WCT2、PhotoNAS、PhotoWCT2算法與所提算法進(jìn)行定性視覺效果對(duì)比.為了更好地觀察各個(gè)算法生成圖像的紋理、色調(diào)和結(jié)構(gòu)差異,右圖使用生成圖像的局部放大圖進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比,并盡可能保持一致的放大倍數(shù).不同算法生成圖像的細(xì)節(jié)對(duì)比效果如圖5所示,方框圈出的是生成圖像的局部放大圖.DPST 算法作為真實(shí)圖像風(fēng)格遷移領(lǐng)域的開創(chuàng)者,生成圖像依然保有藝術(shù)圖像風(fēng)格遷移算法特性,看上去更像一幅油畫制品.WCT2和PhotoNAS算法的生成圖像寫實(shí)感較弱,風(fēng)格化效果不夠明顯.例如藍(lán)框中的石塊,整體色調(diào)太過暗沉,風(fēng)格遷移效果并不協(xié)調(diào).此外,這2種算法在風(fēng)格遷移過程中丟失了內(nèi)容信息,導(dǎo)致內(nèi)容邊緣模糊,黃框中的石柱失真明顯,生成圖片的質(zhì)量較差.尤其是WCT2算法,內(nèi)容物邊界都包裹了一圈白色的實(shí)線,人工合成跡象明顯.PhotoWCT2算法生成圖像質(zhì)量雖然有所改善,但整體圖像風(fēng)格遷移效果較差,例如藍(lán)框中的云朵整體色調(diào)和紋理不夠均勻自然.相比之下,本文算法生成圖像整體質(zhì)量和風(fēng)格遷移效果較優(yōu),風(fēng)格忠于原圖像,紋理表達(dá)均勻,色調(diào)較協(xié)調(diào).
圖5 不同算法生成圖像細(xì)節(jié)對(duì)比
在互聯(lián)網(wǎng)中隨機(jī)選取兩張高分辨率(1024×1024)圖像作為內(nèi)容圖像和風(fēng)格圖像,通過下采樣方式將得到的高分辨率圖像分別轉(zhuǎn)換為低分辨率圖像(256×256)和中分辨率圖像(512×512),并輸入到不同算法中做定性對(duì)比實(shí)驗(yàn).圖6是所提算法與DPST、WCT2、PhotoNAS和PhotoWCT2這4種算法在不同分辨率下的比較結(jié)果.從圖中可以看出,無論在哪種分辨率下DPST 算法的生成圖像都產(chǎn)生了較明顯的偽影,無法實(shí)現(xiàn)語義信息的表達(dá).而WCT2和PhotoNAS算法分別在生成圖像的內(nèi)容和背景邊界處產(chǎn)生了一條灰綠色和橙黃色的漸變偽影帶,特別是WCT2算法在內(nèi)容物邊界處還出現(xiàn)了一條細(xì)小的白色分界線,致使圖像質(zhì)量大打折扣.不同分辨率下PhotoWCT2算法的生成圖像質(zhì)量較好,與所提算法在內(nèi)容質(zhì)量上沒有明顯的差別,但所提算法對(duì)色調(diào)和光線的遷移效果相對(duì)更好一些,特別是高分辨率的生成圖像,效果更加明顯.
圖6 不同分辨率下不同算法生成圖像對(duì)比
圖7給出了更多生成圖像對(duì)比結(jié)果,本文在DPST 數(shù)據(jù)集中隨機(jī)選取5張風(fēng)格圖像和5張內(nèi)容圖像,將這10張攝影圖片同時(shí)輸入DPST、WCT2、PhotoNAS、PhotoWCT2和所提算法當(dāng)中,得到生成圖像中,左一上方為內(nèi)容圖像,下方為風(fēng)格圖像,內(nèi)容圖像涉及人物、建筑物、景物等不同內(nèi)容結(jié)構(gòu),包括復(fù)雜構(gòu)圖、單一構(gòu)圖、復(fù)雜背景和單一背景的情況.從生成圖像對(duì)比結(jié)果可知,DPST 算法產(chǎn)生了不切實(shí)際的色彩轉(zhuǎn)移和卡通偽影,嚴(yán)重影響了圖像的真實(shí)感.WCT2算法紋理比較粗糙,細(xì)節(jié)信息處理較差,特別是第1行生成圖像人物的嘴巴、面容等細(xì)節(jié)處內(nèi)容信息模糊,甚至出現(xiàn)塊狀的棋盤效應(yīng).PhotoNAS算法存在紋理,細(xì)節(jié)信息丟失,在第3行和第4行的圖像中結(jié)構(gòu)細(xì)節(jié)不清晰,內(nèi)容信息不平滑.PhotoWCT2算法生成圖像效果則相對(duì)較好,但對(duì)于整體色調(diào)和紋理信息的遷移還有提升的空間.相比之下,所提算法生成圖像具有更好的風(fēng)格遷移效果,生成圖像更接近于攝影圖片.
圖7 不同算法生成圖像對(duì)比
從某種意義上說,真實(shí)圖像風(fēng)格遷移是一項(xiàng)高度主觀的任務(wù).為了評(píng)估算法的有效性,進(jìn)行了一項(xiàng)用戶調(diào)研.安排60位測(cè)試人員,分別對(duì)DPST、WCT2、PhotoNAS、PhotoWCT2和所提算法進(jìn)行對(duì)比實(shí)驗(yàn)分析.從DPST 數(shù)據(jù)集中隨機(jī)選取5組攝影圖片,并將它們輸入每種算法當(dāng)中,共得到了25張生成圖像.隨后,將這25張生成圖像分發(fā)給每位測(cè)試人員進(jìn)行評(píng)估.測(cè)試人員需要選出他們認(rèn)為風(fēng)格遷移效果最好以及最喜愛的生成圖像.共收集了120張投票,并將其轉(zhuǎn)換為平均百分比結(jié)果.根據(jù)表1,所提算法在風(fēng)格遷移效果和喜愛度方面都獲得了最多的投票數(shù).因此,可以得出結(jié)論,相對(duì)而言,所提算法是最受認(rèn)可的真實(shí)圖像風(fēng)格遷移算法.這表明在用戶主觀評(píng)價(jià)中,所提算法在風(fēng)格遷移效果和喜愛度方面表現(xiàn)出色.這進(jìn)一步驗(yàn)證了所提算法的有效性和優(yōu)越性.
表1 偏好分?jǐn)?shù)百分比
2.3.2 定量評(píng)價(jià)指標(biāo)
本文使用結(jié)構(gòu)相似性(SSIM)、峰值信噪比(PSNR)、內(nèi)容損失(Content loss)和風(fēng)格損失(Style loss)這4個(gè)評(píng)價(jià)指標(biāo)進(jìn)行算法的定量對(duì)比實(shí)驗(yàn),可以在一定程度上評(píng)價(jià)各個(gè)算法生成結(jié)果的質(zhì)量?jī)?yōu)劣.前2個(gè)指標(biāo)高者為優(yōu),后2個(gè)指標(biāo)低者為優(yōu).分別進(jìn)行了2項(xiàng)定量對(duì)比實(shí)驗(yàn).首先,在DPST 測(cè)試集上對(duì)DPST、WCT2、PhotoNAS、PhotoWCT2和所提算法進(jìn)行實(shí)驗(yàn)分析.通過計(jì)算生成圖像與內(nèi)容圖像之間的SSIM 和Content loss值,以及與風(fēng)格圖像之間的PSNR和Style loss值,取平均值得到實(shí)驗(yàn)結(jié)果,如表2所示.其次,從互聯(lián)網(wǎng)中隨機(jī)選取100張高分辨率(1024×1024)圖像,其中50張圖像用作內(nèi)容圖像,50張圖像用作風(fēng)格圖像.將這些圖像輸入上述幾種真實(shí)圖像風(fēng)格遷移算法中進(jìn)行對(duì)比實(shí)驗(yàn),并計(jì)算生成圖像在4個(gè)評(píng)價(jià)指標(biāo)上的結(jié)果.取平均值,得到不同分辨率下的定量指標(biāo)對(duì)比結(jié)果,如表3所示.實(shí)驗(yàn)結(jié)果顯示,所提算法在這2個(gè)表格中的4個(gè)評(píng)價(jià)指標(biāo)上都取得了較優(yōu)的結(jié)果.這表明,所提算法在這2種實(shí)驗(yàn)數(shù)據(jù)評(píng)估中,在保證圖像細(xì)節(jié)信息不丟失的同時(shí),風(fēng)格遷移效果都達(dá)到了較優(yōu)的水平,實(shí)現(xiàn)了更好的算法性能.
表2 不同算法定量指標(biāo)對(duì)比
表3 不同分辨率下不同算法定量指標(biāo)對(duì)比
2.3.3 消融性實(shí)驗(yàn)
本文在DPST 數(shù)據(jù)集上進(jìn)行消融性實(shí)驗(yàn),將PhotoWCT2算法作為所提算法的改進(jìn)基礎(chǔ),為測(cè)試通道注意力機(jī)制與頻率分離通道注意力機(jī)制在算法中的作用,在PhotoWCT2算法的每一個(gè)編碼器塊的相應(yīng)卷積層后加載其中一個(gè)模塊進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示.首先在PhotoWCT2算法上添加通道注意力機(jī)制,與PhotoWCT2算法相比,4個(gè)指標(biāo)的數(shù)值差異都相對(duì)較小.由此表明,該算法在風(fēng)格遷移效果和圖像質(zhì)量上并沒有明顯提升.根本原因是通道注意力機(jī)制中只嵌入了GAP一個(gè)頻率分量,其余頻率分量的所有信息都被忽視了,從而影響了算法性能.而所提算法由于添加了頻率分離通道注意力機(jī)制,大部分紋理和色調(diào)信息經(jīng)過篩選都得到了有效提升,相較于其余2種算法在4個(gè)定量評(píng)價(jià)指標(biāo)上都取得了較好的結(jié)果,由此驗(yàn)證了所提算法的有效性.
表4 消融性實(shí)驗(yàn)定量指標(biāo)對(duì)比
為進(jìn)一步分析各模塊在真實(shí)圖像風(fēng)格遷移任務(wù)中的作用,圖8展示了PhotoWCT2算法加載不同模塊得到的生成圖像對(duì)比結(jié)果.其中,左一為內(nèi)容圖像,其右上角為風(fēng)格圖像,方框圈出的是生成圖像的放大圖.當(dāng)使用PhotoWCT2算法時(shí),生成圖像難以實(shí)現(xiàn)較好的圖像風(fēng)格遷移效果,屋頂?shù)念伾粔蜃匀粎f(xié)調(diào),紋理信息不夠清晰平滑.添加了通道注意力機(jī)制的生成圖像在圖像質(zhì)量和風(fēng)格遷移效果上相較于PhotoWCT2算法并沒有明顯差異,無法實(shí)現(xiàn)較好的算法性能.而添加了頻率分離通道注意力機(jī)制的生成圖像在保證圖像細(xì)節(jié)信息不丟失的前提下,明顯增強(qiáng)了算法的風(fēng)格化強(qiáng)度,紋理清晰,色調(diào)和諧,從而證明了所提算法的有效性.
圖8 消融性實(shí)驗(yàn)生成圖像
在目前的真實(shí)圖像風(fēng)格遷移算法中,生成圖像的風(fēng)格遷移效果并不突出,無法在保持圖像真實(shí)感的同時(shí)增強(qiáng)算法的風(fēng)格化強(qiáng)度.本文提出的融合頻率分離通道注意力機(jī)制的真實(shí)圖像風(fēng)格遷移算法,通過在每個(gè)編碼器塊的相應(yīng)卷積層后引入一個(gè)頻率分離通道注意力機(jī)制,將分解得到的不同頻率分量并行輸入共享感知機(jī)模塊內(nèi)部進(jìn)行自適應(yīng)篩選,篩選出高價(jià)值的紋理和顏色特征,在提高風(fēng)格化強(qiáng)度的同時(shí),保證了圖像的真實(shí)感.定性和定量實(shí)驗(yàn)結(jié)果表明,所提算法能夠在保證圖像細(xì)節(jié)信息不丟失的前提下,提高算法的風(fēng)格化強(qiáng)度,得到優(yōu)于其他主流算法的整體效果.