摘 要:親和特征提取和自然融合是實(shí)現(xiàn)風(fēng)格遷移的關(guān)鍵。為此,提出一個新的自然特征保留的任意風(fēng)格遷移模型NFP-AST。通過可逆殘差網(wǎng)絡(luò)在前向和后向推理中對特征二分處理,保證了提取特征親和性,減少因提取過程造成的圖像重建誤差。在自適應(yīng)空間重構(gòu)模塊ASRM中,先通過全局統(tǒng)計(jì)信息匹配內(nèi)容風(fēng)格特征,接著在融合特征中插值自適應(yīng)權(quán)重捕獲細(xì)節(jié)無偏融合內(nèi)容風(fēng)格特征,使風(fēng)格過渡自然。定性和定量實(shí)驗(yàn)研究結(jié)果表明,NFP-AST產(chǎn)生的風(fēng)格化圖像與先進(jìn)方法相比都取得了較好得分,藝術(shù)表達(dá)更具有視覺沖擊力。
關(guān)鍵詞:自然特征保留; 可逆殘差網(wǎng)絡(luò); 特征親和性; 自適應(yīng)空間重構(gòu); 無偏融合
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2024)10-043-3183-05
doi:10.19734/j.issn.1001-3695.2023.12.0598
NFP-AST:arbitrary style transfer model for natural feature preservation
Zhao Min, Qian Xuezhong, Song Wei
(School of Artificial Intelligence & Computer Science, Jiangnan University, Wuxi Jiangsu 214122, China)
Abstract:The extraction of affinity features and natural fusion are crucial for achieving style transfer. To address this problem, this paper proposed a novel arbitrary style transfer model, called NFP-AST, emphasizing the preservation of natural features. Through a reversible residual network, it performed binary processing of features in both forward and backward infe-rences, ensuring the extraction of affinity features and reducing image reconstruction errors. In the adaptive space reconstruction module(ASRM), it firstly used global statistical information to match content and style features, followed by interpolating adaptive weights in the fusion features to capture details for unbiased merging of content and style features, resulting in a natural style transition. Qualitative and quantitative experimental results indicate that NFP-AST produces stylized images with better scores compared to state-of-the-art methods, demonstrating enhanced visual impact in artistic expression.
Key words:natural feature preservation; reversible residual network; feature affinity; adaptive spatial reconstruction; unbiased fusion
0 引言
風(fēng)格遷移通過將兩個圖像的特征進(jìn)行融合,創(chuàng)造出具有原始圖像內(nèi)容但呈現(xiàn)出另一張圖像風(fēng)格的全新圖像。提取特征要保證準(zhǔn)確性,融合特征時(shí)需要自然過渡,確保圖像看起來和諧統(tǒng)一,沒有明顯的分界線;生成的藝術(shù)圖像才會呈現(xiàn)獨(dú)特而具有吸引力的視覺效果。因此,特征親和提取還原和自然傳遞是實(shí)現(xiàn)風(fēng)格化的關(guān)鍵。
Gatys等人[1]首次利用卷積神經(jīng)網(wǎng)絡(luò)對圖像的高級特征進(jìn)行可視化,實(shí)現(xiàn)了將圖像的內(nèi)容和風(fēng)格分離并重新組合,解決了早期使用直方圖均衡化[2]、濾波器[3]等難以準(zhǔn)確進(jìn)行特征表示的問題,為后續(xù)的研究奠定了基礎(chǔ)。隨著對基于優(yōu)化算法的改進(jìn),實(shí)時(shí)風(fēng)格遷移大大提高了風(fēng)格遷移的效率。現(xiàn)有實(shí)時(shí)風(fēng)格遷移算法一部分是基于全局統(tǒng)計(jì)[4~7],涉及對兩幅圖像的統(tǒng)計(jì)特征(如二階全局統(tǒng)計(jì)量)進(jìn)行比較和整合。增加它們的全局特征相似度,從而實(shí)現(xiàn)風(fēng)格遷移。但在處理局部細(xì)節(jié)、復(fù)雜風(fēng)格方面存在局限性,導(dǎo)致生成的圖像質(zhì)量不盡人意。還有一部分基于局部補(bǔ)丁[8,9],需要編碼器提取圖像的局部補(bǔ)丁特征,它們可以捕捉到圖像的局部紋理和結(jié)構(gòu)信息,根據(jù)補(bǔ)丁匹配調(diào)整后的局部特征生成新圖像,更加注重局部紋理和結(jié)構(gòu)一致性,但是基于局部補(bǔ)丁的方法依賴圖像局部特征,缺乏自然感和整體一致性。上述算法大多采用編碼器-風(fēng)格轉(zhuǎn)換模塊-解碼器框架。預(yù)訓(xùn)練的VGG_19[10]作為風(fēng)格遷移領(lǐng)域高頻使用的編解碼器,帶來了一定的缺陷。VGG_19是一個相對較深的卷積神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)和參數(shù)固定,難以根據(jù)風(fēng)格遷移需求進(jìn)行調(diào)整,且提取到的一部分高級語義信息不是所需的,在風(fēng)格遷移過程中需要訓(xùn)練一個結(jié)構(gòu)對稱的解碼器來將 VGG_19 的特征還原為圖像,通過內(nèi)容損失約束解碼器,但是由于編碼器中的池化操作會導(dǎo)致空間信息損失,未能有效避免由解碼器引起的圖像重建誤差,會影響合成風(fēng)格化圖像的質(zhì)量,一定程度上造成了信息丟失。為了減少遷移過程造成的人工偽影,現(xiàn)有方法采用跳躍連接模塊[11],或者采用輕量編解碼器[12],然而,這些方法都未能有效避免由解碼器引起的圖像重建誤差。在訓(xùn)練對稱編解碼器的過程中,不能準(zhǔn)確且自然地提取特征,導(dǎo)致生成的圖像缺乏一些細(xì)節(jié)和紋理。為了解決這個問題,本文提出了自然特征保留的任意風(fēng)格遷移模型(NFP-AST)。受文獻(xiàn)[13,14]啟發(fā),本文使用可逆殘差特征提取還原器將特征沿通道維度二分處理,在前向推理中提取親和特征。它由二分填充模塊BSI、級聯(lián)殘差塊和擠壓塊、冗余消除模塊RE構(gòu)成。前向推理中,對特征邊緣進(jìn)行零填充,充分利用邊緣像素,減少信息丟失。由于前向推理中產(chǎn)生大量冗余信息,冗余消除模塊RE用于壓縮信道減少冗余信息,進(jìn)一步增強(qiáng)特征表達(dá)能力。然后通過自適應(yīng)空間重構(gòu)模塊(adaptive spatial reconstruction module,ASRM)先進(jìn)行全局匹配,再進(jìn)行局部細(xì)節(jié)匹配,生成圖像在整體風(fēng)格上與風(fēng)格圖像保持一致,接著在融合特征中插值自適應(yīng)權(quán)重保留內(nèi)容語義結(jié)構(gòu)細(xì)節(jié),然后二次融合風(fēng)格統(tǒng)計(jì)特征,豐富紋理增添藝術(shù)感得到的風(fēng)格化圖像融合更為自然。通過反向推理重建藝術(shù)圖像,避免圖像重建誤差。通過大量定性和定量實(shí)驗(yàn)研究,本文提出的自然特征保留的任意風(fēng)格遷移模型產(chǎn)生的藝術(shù)圖像更加接近藝術(shù)家的創(chuàng)作。
本文工作的貢獻(xiàn)主要為:
a)現(xiàn)有的風(fēng)格遷移算法缺乏親和特征提取還原,無法自然傳遞造成圖像重建偏差。為此,提出了自然特征保留的任意風(fēng)格遷移模型(arbitrary style transfer network for natural feature preservation,NFP-AST),在特征提取時(shí)減少信息丟失,無偏生成藝術(shù)圖像;
b)引入了可逆殘差特征提取還原器,在前向和后向推理中對特征二分處理,保證特征親和性;在自適應(yīng)空間重構(gòu)模塊(ASRM)中無偏融合內(nèi)容風(fēng)格特征,保留內(nèi)容語義結(jié)構(gòu)的同時(shí)豐富紋理,保證良好的視覺效果;
c)通過大量定性和定量實(shí)驗(yàn)證明本文方法與先進(jìn)的風(fēng)格遷移算法相比的有效性,表達(dá)了不同的藝術(shù)創(chuàng)意,拓展了藝術(shù)表現(xiàn)的可能性。
1 相關(guān)工作
a)圖像風(fēng)格遷移。最初使用非參數(shù)的方法來合成自然紋理,只能采用提取的底層特征進(jìn)行紋理轉(zhuǎn)移。Gatys等人[1]提出基于優(yōu)化的方法,捕獲到高級圖像特征,盡管取得了顯著的遷移效果,但是通常需要大量的計(jì)算資源來進(jìn)行內(nèi)容損失和風(fēng)格損失的最小化。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,具有高效性、實(shí)時(shí)性的快速風(fēng)格遷移方法被提出。 Huang等人[15]引入一個簡單的IN擴(kuò)展,通過實(shí)例歸一化和統(tǒng)計(jì)信息調(diào)整,使得內(nèi)容圖像特征在統(tǒng)計(jì)上更接近風(fēng)格特征。Li等人[16]通過白化操作減少特征之間的相關(guān)性,接著使用著色操作,使內(nèi)容和風(fēng)格特征在顏色空間上保持一致,但是帶來昂貴計(jì)算。LinearWCT模型[17]采用可學(xué)習(xí)的線性變換矩陣提高了效率。Zhao等人[8]采用二次對齊策略保留內(nèi)容結(jié)構(gòu),紋理調(diào)制器生成風(fēng)格卷積參數(shù)形成精美筆觸,以此平衡內(nèi)容和風(fēng)格。Park等人[9]提出SAnet,使用修改后的自注意機(jī)制學(xué)習(xí)內(nèi)容和風(fēng)格特征之間的映射,根據(jù)不同位置特征的長距離依賴關(guān)系賦予不同權(quán)重,豐富局部風(fēng)格樣式。生成對抗網(wǎng)絡(luò)的出現(xiàn)為優(yōu)化風(fēng)格遷移的視覺質(zhì)量帶來了新的技術(shù)途徑,如He等人[18]提出ChipGAN,解決中國水墨畫中空隙、筆觸、水墨的問題,實(shí)現(xiàn)了水墨風(fēng)格遷移。Xu等人[19]提出DRB-GAN,將學(xué)習(xí)藝術(shù)圖像集的風(fēng)格代碼建模為動態(tài)重參數(shù)共享,縮小單個模型中任意樣式傳輸和集合樣式傳輸之間的差異。以上算法都采用編碼器-風(fēng)格轉(zhuǎn)換器-解碼器來生成新的藝術(shù)圖像,不可避免地造成了圖像重建誤差,不能夠很好地進(jìn)行親和特征提取還原。
b)可逆網(wǎng)絡(luò)。隨著神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)研究的不斷深入,傳統(tǒng)編解碼器結(jié)構(gòu)存在信息丟失和效率低下的問題,可逆神經(jīng)網(wǎng)絡(luò)為風(fēng)格遷移帶來了新的思路。Gomez 等人[20]提出了可逆殘差網(wǎng)絡(luò),本層激活可由下一層激活計(jì)算。Chen等人[21]在此基礎(chǔ)上利用可逆卷積生成流,顯著改進(jìn)對數(shù)似然。An等人[13]提出了ArtFlow,引入可逆神經(jīng)流在投影-傳輸-回歸方案中運(yùn)行,解決了內(nèi)容泄露的問題。文獻(xiàn)[22]使用基于Cholesky分解的無偏線性變換模塊,在特征空間中進(jìn)行無偏風(fēng)格轉(zhuǎn)移,采用通道細(xì)化避免冗余信息積累,但是合成圖像不夠自然。本文方法利用可逆殘差特征提取還原器,確保提取特征親和性,生成的圖像具有良好的視覺效果,包括清晰的紋理、自然的色彩過渡。
2 主要方法
2.1 NFP-AST模型總概
為了親和特征提取還原和自然傳遞,本文提出一個自然特征保留的任意風(fēng)格遷移模型。與現(xiàn)有基于編解碼器框架的風(fēng)格遷移算法不同,NFP-AST模型只由可逆殘差特征提取還原器來實(shí)現(xiàn)親和特征的提取和融合特征的重建。如圖1所示,NFP-AST模型首先通過基于可逆殘差網(wǎng)絡(luò)前向推理提取內(nèi)容圖像中的基本語義結(jié)構(gòu)和風(fēng)格圖像中的紋理色彩特征,接著傳入自適應(yīng)空間重構(gòu)模塊(ASRM)中,更加自然地融合特征,然后在冗余消除模塊協(xié)助下通過可逆殘差網(wǎng)絡(luò)反向推理重建風(fēng)格化圖像。
具體步驟如下:
a)前向推理。給定內(nèi)容圖像C和風(fēng)格圖像S,首先通過一個二分填充模塊(binary split injection,BSI),沿通道對特征二分處理,接著由可逆殘差特征提取器E無損提取親和內(nèi)容特征Fc:=E(C1,C2)和親和風(fēng)格特征Fs:=E(S1,S2)。
b)特征遷移。自適應(yīng)空間重構(gòu)模塊(ASRM)在特征空間根據(jù)風(fēng)格圖像的統(tǒng)計(jì)特征對歸一化的內(nèi)容特征進(jìn)行調(diào)整,然后根據(jù)空間感知插值獲得自適應(yīng)權(quán)重,進(jìn)一步在內(nèi)容風(fēng)格特征之間進(jìn)行插值,注入細(xì)節(jié),最后得到風(fēng)格化特征Fcs。
c)反向推理。通過冗余消除模塊(redundancy elimination,RE)沿通道去除冗余信息后,可逆殘差特征還原器E將風(fēng)格化特征Fcs逆映射回風(fēng)格化圖像Y。
2.2 可逆殘差特征提取還原器
設(shè)輸入內(nèi)容圖像為C,風(fēng)格圖像為S,編解碼器結(jié)構(gòu)在對圖像進(jìn)行壓縮編碼的過程中可能丟失輸入圖像中的細(xì)節(jié)或特征,導(dǎo)致解碼器無法準(zhǔn)確重建輸入圖像,為此本文使用可逆殘差特征提取還原器E,它由1個二分填充模塊、30個級聯(lián)殘差塊和擠壓塊、冗余消除模塊構(gòu)成。前向推理時(shí)首先將輸入沿通道二分處理,用于增強(qiáng)特征表達(dá)能力,更好地捕捉輸入圖像的不同特征和結(jié)構(gòu)信息;且在特征邊緣進(jìn)行零填充,充分利用邊緣像素,減少信息丟失,如式(1)所示。
(C1,C2):=BSI(C), (S1,S2):=BSI(S)(1)
如圖1所示,本文每一個可逆殘差塊都是由3個反射填充層、3個核大小為3×3的卷積層和擠壓層構(gòu)成。擠壓層squeeze函數(shù)把輸入特征通道數(shù)增加,空間維度減少,增強(qiáng)捕獲特征的局部性,使特征提取時(shí)更加關(guān)注局部細(xì)節(jié),提高提取特征的親和性。在級聯(lián)可逆殘差塊中選用式(2)的映射函數(shù)。
Xc1:=C1+F(C2),Xc2:=C2, XS1:=S1+F(S2),Xs2:=S2(2)
其中:函數(shù)F是由三個核大小為3的conv層實(shí)現(xiàn)。冗余消除模塊RE用來減少通道維數(shù),減少前向推理過程的冗余信息,進(jìn)一步增強(qiáng)特征表達(dá)能力。逆向映射函數(shù)見式(3),其中函數(shù)F同式(2)。
Y2:=fcs2,Y1:=fcs1-F(fcs2)(3)
其中:fcs1 、fcs2是由自適應(yīng)空間重構(gòu)模塊合成的風(fēng)格化特征Fcs沿通道二分得到。
2.3 自適應(yīng)空間重構(gòu)模塊(ASRM)
此模塊用于對提取的親和內(nèi)容特征和風(fēng)格特征自然融合,具體模型結(jié)構(gòu)如圖2所示。藝術(shù)圖像為風(fēng)格化設(shè)定整體基調(diào),內(nèi)容保持度決定著生成圖像與原始內(nèi)容圖像特征空間的距離。對內(nèi)容圖像作歸一化處理,減少特征間相關(guān)性,更易于增強(qiáng)風(fēng)格特征的影響。通過式(4)把握整體風(fēng)格紋理,確保全局內(nèi)容語義結(jié)構(gòu)完整性。
Fc_norm:=(Fc-mean(Fc))/std(Fc),
Fg:=Fc_norm×std(Fs)+mean(Fs)(4)
其中:mean表示求均值;std表示求特征方差。邊界自然過渡才能產(chǎn)生貼近藝術(shù)家的創(chuàng)作,為此在信道密集上操作聯(lián)級特征,使用不同尺度卷積核在歸一化內(nèi)容特征和風(fēng)格特征上進(jìn)行插值,以此獲得自適應(yīng)權(quán)重,進(jìn)一步捕獲內(nèi)容特征和風(fēng)格特征之間相關(guān)性,從而添加局部內(nèi)容細(xì)節(jié),如式(5)所示。
F1:=f2(Fc_norm),F(xiàn)2:=f3(Fg), Fcat:=(f1[Fc_norm,F(xiàn)g]),
w:=(sigmoid{g1(Fcat)}+sigmoid{g2(h1(Fcat))}+sigmoid{g3(h2(Fcat))})/3
Fcg:=clamp(w)⊙F1+clamp(1-w)⊙F2(5)
其中:f1(·)、 f2(·)、 f3(·)是核為1的可學(xué)習(xí)卷積;[·,·]表示特征級聯(lián)操作;sigmoid為激活函數(shù);g1是內(nèi)核1×1的可學(xué)習(xí)卷積;g2是內(nèi)核3×3的可學(xué)習(xí)卷積;g3是內(nèi)核5×5的可學(xué)習(xí)卷積;h1表示大小為1個像素的反射填充;h2表示大小為2個像素的反射填充;clamp為張量截?cái)嗖僮?,用于提高模型穩(wěn)定性和收斂性;⊙代表點(diǎn)乘。
確保局部內(nèi)容細(xì)節(jié)后,以防內(nèi)容保留過度失去生動的紋理細(xì)節(jié),根據(jù)自適應(yīng)權(quán)重插值后重新排列的融合特征fcg執(zhí)行歸一化操作后,再次匹配全局統(tǒng)計(jì)風(fēng)格特征,見式(6)。
Fcg_norm:=(Fcg-mean(Fcg))/std(Fcg)
Fcs:=Fcg_norm×std(Fs)+mean(Fs)(6)
先進(jìn)行全局匹配再進(jìn)行局部細(xì)節(jié)匹配,生成圖像在整體風(fēng)格上與風(fēng)格圖像保持一致,接著在融合特征中插值自適應(yīng)權(quán)重保留內(nèi)容語義結(jié)構(gòu)細(xì)節(jié),然后二次融合風(fēng)格統(tǒng)計(jì)特征,豐富紋理增添藝術(shù)感得到的Fcs融合更為自然。
2.4 目標(biāo)函數(shù)
在內(nèi)容語義結(jié)構(gòu)保留上,大多采用均方誤差損失,受文獻(xiàn)[22]的啟發(fā),本文替換為消光拉普拉斯損失函數(shù),強(qiáng)調(diào)相鄰幀之間一致性,避免出現(xiàn)突兀變化,可以幫助生成圖像在內(nèi)容上自然過渡紋理,見式(7)。
Lp:=1N∑3c=1Vc[Fcs]TMVc[Fcs](7)
其中:N為像素個數(shù);Vc表示向量化Fcs ;T表示轉(zhuǎn)置操作;M為內(nèi)容特征Fc的消光拉普拉斯矩陣。消光拉普拉斯損失優(yōu)勢在于可以保持連續(xù)性和自然過渡,但計(jì)算復(fù)雜度會略高一些。特征提取還原模塊是可逆的,用可逆網(wǎng)絡(luò)重構(gòu)Fcs特征,并與Fc在ASRM中融合得到Fcsc,通過拉近Fcsc和Fc像素差異,減少可逆網(wǎng)絡(luò)圖像重構(gòu)時(shí)產(chǎn)生的偽影,提高生成圖像質(zhì)量和逼真度,采用式(8)作為周期一致性損失。
Lcyc:=‖F(xiàn)csc-Fc‖1(8)
在風(fēng)格上,要解決整個圖像的像素差異,選取凸函數(shù)讓模型容易收斂到較好結(jié)果,全局準(zhǔn)確傳遞風(fēng)格特點(diǎn),使用式(9)作為損失函數(shù)。
Ls:=∑Lsi=1(‖μ(i(Fcs))-μ(i(Fs))‖2+
‖σ(i(Fcs))-σ(i(Fs))‖2)(9)
其中:μ和σ分別表示平均值和標(biāo)準(zhǔn)差;i表示預(yù)訓(xùn)練的VGG_19的網(wǎng)絡(luò)層i,計(jì)算風(fēng)格損失時(shí)使用具有相等權(quán)重的{ReLU1_1, ReLU2_1, ReLU3_1, ReLU4_1}層。
綜上,自然特征保留的任意風(fēng)格遷移總目標(biāo)為
Ltotal:=λpLp+λcycLcyc+λsLs(10)
其中:損失項(xiàng)對應(yīng)權(quán)重超參數(shù)根據(jù)經(jīng)驗(yàn)設(shè)置為λp=60,λcyc =1,λs =1。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)設(shè)置
NFP-AST在PyTorch框架上實(shí)現(xiàn),采用MS-COCO數(shù)據(jù)集中約8萬張真實(shí)圖像作為內(nèi)容圖像訓(xùn)練集,WikiArt數(shù)據(jù)集中約8萬張不同藝術(shù)特點(diǎn)的畫作作為風(fēng)格圖像訓(xùn)練集。在訓(xùn)練期間,將所有圖像分辨率隨機(jī)裁剪為256×256的大小,批量大小設(shè)置為4個內(nèi)容風(fēng)格圖像對。使用Adam作為優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 1,共需要160 000次線性衰減迭代。在測試期間,可逆殘差網(wǎng)絡(luò)可以處理任何大小的輸入圖像。涉及的所有實(shí)驗(yàn)均在NVIDIA RTX 3060 12GB GPU上進(jìn)行。
為了評估此方法,將NFP-AST與八種先進(jìn)的風(fēng)格遷移算法進(jìn)行比較,包括SAnet[9]、ArtFlow[13]、AdaIN[15]、IECAST[21]、S2WAT[22]、StyTR2[23]、MicroUST[24]和STTR[25]。所有方法均采用了原文公開的代碼,并在相同的默認(rèn)參數(shù)配置下進(jìn)行了訓(xùn)練。
3.2 定性評估
圖3展示出定性研究結(jié)果。選取了不同類型的內(nèi)容圖像,如人物、動物、建筑等,藝術(shù)圖像按照不同色彩、風(fēng)格、主題選取,確保風(fēng)格遷移多樣性。AdaIN在空白背景都帶有明顯扭曲雜亂的紋理(例如第1行雜亂無章的背景紋理),這種算法采用實(shí)例歸一化將風(fēng)格統(tǒng)計(jì)特征全局匹配內(nèi)容,導(dǎo)致紋理無差別散布。S2WAT優(yōu)化風(fēng)格局部結(jié)構(gòu),在紋理上保留細(xì)節(jié)較多(如第5行建筑物出現(xiàn)和風(fēng)格圖像類似的彎曲紋理),但是內(nèi)容結(jié)構(gòu)大量丟失。SAnet引入自注意力機(jī)制,自適應(yīng)處理紋理,保留大量風(fēng)格特征,造成內(nèi)容語義結(jié)構(gòu)扭曲破壞了畫面布局完整性(如第2行錯位船頭,第5行喪失結(jié)構(gòu)的房屋)。ArtFlow和本文一樣采用了可逆網(wǎng)絡(luò),由于訓(xùn)練時(shí)大量冗余信息未處理,殘留其他圖像的色彩(如第5行背景中出現(xiàn)了內(nèi)容和風(fēng)格圖像中不存在的綠色)。StyTR2使用Transformers風(fēng)格表現(xiàn)優(yōu)異,有時(shí)會破壞內(nèi)容細(xì)節(jié)(如第1行中畸形的左眼)。MicroUST使用輕量殘差編碼器保留了完整內(nèi)容細(xì)節(jié),風(fēng)格化在筆觸方面表現(xiàn)生硬。STTR遷移了絢麗色彩,在內(nèi)容保留方面有時(shí)不可控,產(chǎn)生了不協(xié)調(diào)的人工偽影(如第4行虛化的樹枝)。本文NFP-AST在保留內(nèi)容細(xì)節(jié)的同時(shí),引入了和諧的紋理,使畫面更加自然,這表明NFP-AST優(yōu)化了生成圖像質(zhì)量。
3.3 定量評估
藝術(shù)圖像鑒賞受個人欣賞喜好和審美影響,為此本文使用1個主觀指標(biāo)(偏好得分preference)和3個客觀指標(biāo)(PSNR、SSIM、效率)以定量評估NFP-AST,表1、2中列出評估結(jié)果,最優(yōu)數(shù)據(jù)加粗表示。
a)偏好得分。選擇不同類別的內(nèi)容圖像10張,風(fēng)格圖像15張,合成150張風(fēng)格化圖像。選擇20個內(nèi)容風(fēng)格對,將其隨機(jī)排列展示給50個受試者,每個受試者從中選取偏好的藝術(shù)圖像,共得到1 000張選票,表1第4行展示選票百分比。結(jié)果表明,本文方法獲得了最高分?jǐn)?shù),說明NFP-AST生成的風(fēng)格化圖像更受人們欣賞。
b)PSNR。主要關(guān)注圖像像素級差異,分別計(jì)算風(fēng)格化圖像與原始內(nèi)容圖像和風(fēng)格圖像之間的均方誤差來評估圖像失真程度。PSNR值越高,表示圖像質(zhì)量越高。如表1第2行所示,本文方法在內(nèi)容語義結(jié)構(gòu)保留方面表現(xiàn)優(yōu)異,取得最高分?jǐn)?shù)。Adaconv優(yōu)化風(fēng)格局部結(jié)構(gòu),模型偏向?qū)y理的處理,如表1第1行所示,NFP-UST僅次于它,說明本文方法在紋理渲染上也有一定建樹。
c)SSIM。通過比較圖像亮度、對比度和結(jié)構(gòu)相似性來評估圖像,主要考慮圖像結(jié)構(gòu)信息,SSIM值越高表示兩幅圖像結(jié)構(gòu)相似性越好,結(jié)構(gòu)保留效果越好。如表1第3行所示,NFP-AST取得最高分?jǐn)?shù),說明本文的方法在畫面結(jié)構(gòu)布局方面表現(xiàn)出色。
b)效率。選取256 px、512 px、1 024 px內(nèi)容風(fēng)格圖像對,在相同服務(wù)器上比較本文方法與7個基線模型的效率,通過計(jì)算50個圖像對的平均運(yùn)行時(shí)間進(jìn)行評估。如表2所示,AdaIN通過自適應(yīng)實(shí)力規(guī)范化公式融合,用時(shí)最短,MicroUST 采用輕量編解碼器,減少參數(shù)量,效率僅次之。NFP-UST目的為提高視覺質(zhì)量,同時(shí)與其他基線模型效率相當(dāng),可以實(shí)時(shí)處理1 024 px圖像,計(jì)算效率良好。
3.4 消融實(shí)驗(yàn)
1)自適應(yīng)空間重構(gòu)模塊(ASRM)
將設(shè)計(jì)的自適應(yīng)空間重構(gòu)模塊更換為AdaIN進(jìn)行無偏特征轉(zhuǎn)換,如圖4(d)所示,更換后色彩分布混亂,人臉頭部出現(xiàn)雜亂網(wǎng)格,路面也出現(xiàn)不協(xié)調(diào)紋路。使用ASRM模塊進(jìn)行遷移時(shí)解決了上述問題,首先通過全局特征匹配,使整體風(fēng)格融合協(xié)調(diào),后續(xù)通過自適應(yīng)權(quán)重在內(nèi)容風(fēng)格特征之間進(jìn)行插值,增添細(xì)節(jié)。因此,ASRM模塊存在使風(fēng)格化圖像表現(xiàn)更為自然。
2)內(nèi)容損失函數(shù)
將消光拉普拉斯損失Lp替換為均方誤差損失函數(shù)訓(xùn)練網(wǎng)絡(luò),如圖4(e)所示,兩個損失函數(shù)均在內(nèi)容語義結(jié)構(gòu)保留上表現(xiàn)出色,表3中的客觀指標(biāo)兩者數(shù)值相近,但是本文采用的消光拉普拉斯損失函數(shù)益于風(fēng)格自然傳遞,在色彩表現(xiàn)方面良好,生成圖像藝術(shù)更具有視覺沖擊力。
3)周期一致性損失
在圖4(f)展示了去掉周期一致性損失Lcyc的消融結(jié)果。由于提出的網(wǎng)絡(luò)是可逆的,周期一致性損失優(yōu)化模型圖像重建能力,其內(nèi)容細(xì)節(jié)大量丟失,面部五官和樓體結(jié)構(gòu)模糊,且遷移顏色單一,不能保證像素親和性。表3第5列表示去除后數(shù)據(jù)都有一定程度下降,證明了Lcyc的有效性。
消融實(shí)驗(yàn)定量研究結(jié)果如表3所示,最優(yōu)數(shù)據(jù)加粗表示,測量消融實(shí)驗(yàn)的PSNR和SSIM分?jǐn)?shù),完整NFP-AST模型均取得較高得分。
4 結(jié)束語
本文根據(jù)風(fēng)格遷移任務(wù)中親和特征提取和自然融合這兩個關(guān)鍵點(diǎn),提出了一個新的自然特征保留的任意風(fēng)格遷移框架NFP-AST。該框架由一個可逆殘差特征提取還原器和自適應(yīng)空間重構(gòu)模塊(ASRM)構(gòu)成。在可逆殘差網(wǎng)絡(luò)中對內(nèi)容和風(fēng)格特征進(jìn)行二分處理,在前向推理和逆向映射中減少信息冗余,保證提取特征的親和性,降低了圖像重建誤差。內(nèi)容特征和風(fēng)格特征在自適應(yīng)空間重構(gòu)模塊中無偏融合,通過融合全局統(tǒng)計(jì)信息奠定風(fēng)格整體基調(diào),后在風(fēng)格化特征中插值自適應(yīng)權(quán)重,增加局部細(xì)節(jié)。本文方法使風(fēng)格過渡自然,使生成圖像生動和諧,提高了畫面質(zhì)量。
參考文獻(xiàn):
[1]Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proc of the 36th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 2414-2423.
[2]Fier J, Jamrika O, Lukácˇ M, et al. StyLit: illumination-guided example-based stylization of 3D renderings[J]. ACM Trans on Graphics, 2016, 35(4): article No. 92.
[3]Kwatra V, Schdl A, Essa I, et al. GraphCut textures: image and video synthesis using graph cuts[J]. ACM Trans on Graphics, 2003, 22(3): 277-286.
[4]Chandran P, Zoss G, Gotardo P, et al. Adaptive convolutions for structure-aware style transfer[C]//Proc of the 41st IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 7968-7977.
[5]趙宇欣, 王冠. 基于生成式對抗網(wǎng)絡(luò)的畫作圖像合成方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2021, 38(4): 1208-1211. (Zhao Yuxin, Wang Guan. Painterly image composition based on generative adversarial net[J]. Application Research of Computers, 2021, 38(4): 1208-1211.)
[6]王偉光, 錢祥利. 基于深度學(xué)習(xí)的人臉妝容遷移算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2021, 38(5): 1559-1562. (Wang Weiguang, Qian Xiangli. Face makeup transfer algorithm based on deep learning[J]. Application Research of Computers, 2021, 38(5): 1559-1562.)
[7]Li Xueting, Liu Sifei, Kautz J, et al. Learning linear transformations for fast image and video style transfer[C]//Proc of the 39th IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 3809-3817.
[8]Zhao Min, Qian Xuezhong, Song Wei. BcsUST: universal style transformation network for balanced content styles[J]. Journal of Electronic Imaging, 2023, 32(5): 53017.
[9]Park D Y, Lee K H. Arbitrary style transfer with style-attentional networks[C]//Proc of the 39th IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 5880-5888.
[10]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.
[11]An Jie, Xiong Haoyi, Huan Jun, et al. Ultrafast photorealistic style transfer via neural architecture search[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 10443-10450.
[12]Chiu T Y, Gurari Danna. PCA-based knowledge distillation towards lightweight and content-style balanced photorealistic style transfer mo-dels[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 7834-7843.
[13]An Jie, Huang Siyu, Song Yibing, et al. ArtFlow: unbiased image style transfer via reversible neural flows[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 862-871.
[14]Wen Linfeng, Gao Chengying, Zou Changqing. CAP-VSTNet: content affinity preserved versatile style transfer[C]//Proc of the 43rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 18300-18309.
[15]Huang Xun, Belongie S. Arbitrary style transfer in real-time with adaptive instance normalization[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 1510-1519.
[16]Li Yijun, Fang Chen, Yang Jimei, et al. Universal style transfer via feature transforms[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 385-395.
[17]Sheng Lu, Lin Ziyi, Shao Jing, et al. Avatar-Net: multi-scale zero-shot style transfer by feature decoration[C]//Proc of the 38th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 8242-8250.
[18]He Bin, Gao Feng, Ma Daiqian, et al. ChipGAN: a generative adversarial network for Chinese ink wash painting style transfer[C]//Proc of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 1172-1180.
[19]Xu Wenju, Long Chengjiang, Wang Ruisheng, et al. DRB-GAN: a dynamic resblock generative adversarial network for artistic style transfer[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 6363-6372.
[20]Gomez A N, Ren Mengye, Urtasun R, et al. The reversible residual network: backpropagation without storing activations[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 2211-2221.
[21]Chen Haibo, Zhao Lei, Wang Zhizhong, et al. Artistic style transfer with internal-external learning and contrastive learning[C]//Proc of the 25th Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 26561-26573.
[22]Zhang Chiyu, Xu Xiaogang, Wang Lei, et al. S2WAT: image style transfer via hierarchical vision transformer using strips window attention [EB/OL]. (2023-12-15). https://arxiv.org/abs/2210.12381.
[23]Deng Yingying, Tang Fan, Dong Weiming, et al. StyTR2: image style transfer with transformers[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11316-11326.
[24]Wang Zhizhong, Zhao Lei, Zuo Zhiwen, et al. MicroAST: towards super-fast ultra-resolution arbitrary style transfer[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2023: 2742-2750.
[25]Ke Zhanghan, Liu Yuhao, Zhu Lei, et al. Neural preset for color style transfer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 14173-14182.