摘 要:為了解決現(xiàn)有藝術(shù)風(fēng)格轉(zhuǎn)換方法難以同時(shí)高質(zhì)量保持圖像內(nèi)容和轉(zhuǎn)換風(fēng)格模式的問(wèn)題,引入一種新穎的風(fēng)格轉(zhuǎn)換注意網(wǎng)絡(luò)(style-transition attention network,STANet),其包含2個(gè)關(guān)鍵部分:一是非對(duì)稱(chēng)注意力模塊,用于確定參考圖像的風(fēng)格特征;二是循環(huán)結(jié)構(gòu),用于保存圖像內(nèi)容。首先,采用雙流架構(gòu),分別對(duì)風(fēng)格和內(nèi)容圖像進(jìn)行編碼;其次,將注意力模塊無(wú)縫集成到編碼器中,生成風(fēng)格注意表征;最后,將模塊放入不同的卷積階段,使編碼器變成交錯(cuò)式的,促進(jìn)從風(fēng)格流到內(nèi)容流的分層信息傳播。此外,提出了循環(huán)一致?lián)p失,強(qiáng)制網(wǎng)絡(luò)以整體方式保留內(nèi)容結(jié)構(gòu)和風(fēng)格模式。結(jié)果表明:編碼器優(yōu)于傳統(tǒng)的雙流架構(gòu),STANet能用于交換具有任意風(fēng)格的2幅圖像的風(fēng)格模式,合成更高質(zhì)量的風(fēng)格化圖像,同時(shí)更好地保留了各自的內(nèi)容。提出的帶有風(fēng)格轉(zhuǎn)換注意的風(fēng)格轉(zhuǎn)換循環(huán)網(wǎng)絡(luò),模型風(fēng)格化圖像的內(nèi)容細(xì)節(jié)更多,在泛化到任意風(fēng)格方面獲得了良好的效果。
關(guān)鍵詞:圖像內(nèi)容;風(fēng)格轉(zhuǎn)換;風(fēng)格恢復(fù);神經(jīng)注意力;循環(huán)網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP391.41
文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.7535/hbkd.2024yx03012
Cycle consistent style transfer based on style-transition attention
ZHANG Rui’er1,2, BIAN Xiaohang3, LIU Siyuan3, LIU Bin4, LI Jianwu3, LUO Jun5, QI Mingyue6
(1.College of Fine Art and Design,Shenyang Normal University , Shenyang,Liaoning 110034,China;
2. Zhengzhou Professional Technical Institute of Electronics amp; Information, Zhengzhou, Henan 451450, China;
3. School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China;
4. School of Economics and Management, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China;
5. Hebei Shineyue Software Technology Company Limited, Shijiazhuang, Hebei 050200, China;
6. Hebei Yuesi Information Technology Company Limited, Shijiazhuang, Hebei 050022, China)
Abstract:In order to solve the problem that the existing art style transfer methods can not maintain high-quality image content and transform style patterns at the same time, a novel style-transition attention network (STANet) was introduced, which consists of two key parts: one is the asymmetric attention module used to determine the style features of the reference image, and the other is the circular structure used to save the content of the image. Firstly, the two-stream architecture was adopted to encode the style and content images.Secondly, the attention module was seamlessly integrated into the encoder to generate the style attention representation. Finally, the module was put into different convolution stages, making the encoder interleaved, and facilitating the flow of hierarchical information from style to content. In addition, a circular consistency loss was proposed to force the network to retain the content structure and style patterns in a holistic manner. The results show that the encoder is superior to the traditional Shuangliu District architecture, and STANet can be used to exchange the style patterns of two images with any style, resulting in higher quality stylized images, while better preserving their own content. The proposed style conversion loop network with attention to style conversion makes the model stylized images more detailed and achieves good performance in generalization to any styles.
Keywords:image content; style transfer; style restoration; neural attention; cycle network
風(fēng)格轉(zhuǎn)換的目的是將一幅圖像的內(nèi)容與另一幅圖像的風(fēng)格結(jié)合起來(lái),生成一幅新的圖像,已被應(yīng)用于許多有趣的場(chǎng)景,如圖像藝術(shù)化、照片卡通化和圖像著色等。受卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域取得成功的啟發(fā),GATYS等[1]利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)2幅輸入圖像的內(nèi)容和風(fēng)格表征,然后分離和重組它們的內(nèi)容和風(fēng)格,進(jìn)行風(fēng)格轉(zhuǎn)換。該方法效果雖顯著,但耗時(shí)較長(zhǎng)。隨后,人們通過(guò)使用訓(xùn)練的前饋網(wǎng)絡(luò)[2-3]和基于優(yōu)化的方法[4],只需向前傳遞即可獲得風(fēng)格化結(jié)果,比迭代優(yōu)化[1]快數(shù)百倍。為了實(shí)現(xiàn)任意風(fēng)格轉(zhuǎn)換,AdaIN(adaptive instance normalization)[5]將內(nèi)容圖像的特征均值、方差與風(fēng)格圖像的特征均值與方差相結(jié)合,將風(fēng)格轉(zhuǎn)換為內(nèi)容圖像。WCT(whitening and coloring transform)[6]建立了一個(gè)由美白和著色特征變換組成的圖像重建網(wǎng)絡(luò),并將內(nèi)容圖像的特征協(xié)方差與給定的風(fēng)格圖像相匹配。Avatar-Net[7]是一種新穎的基于補(bǔ)丁的風(fēng)格裝飾模塊,在卷積層中用最接近的風(fēng)格特征補(bǔ)丁交換內(nèi)容特征補(bǔ)丁。此外,自然圖像中的基本微結(jié)構(gòu)(稱(chēng)為筆畫(huà)文本)被用來(lái)反映感知風(fēng)格模式。例如:有學(xué)者提出了一種具有可控筆劃的風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò),可在保留內(nèi)容和風(fēng)格模式的同時(shí)實(shí)現(xiàn)筆劃大小的連續(xù)變化[8];還有學(xué)者提出了一種將多種筆劃模式整合到結(jié)果圖像不同空間區(qū)域的策略,可在一次拍攝中控制可擴(kuò)展的多筆劃和空間筆劃大?。?]。此外,風(fēng)格轉(zhuǎn)換中還引入了注意力機(jī)制,以保持視覺(jué)注意力分布的空間一致性[9-11]。這些方法雖然能有效轉(zhuǎn)換圖片風(fēng)格,但不太注重保留原始圖片的內(nèi)容,因而在一定程度上造成圖片內(nèi)容細(xì)節(jié)的丟失。
本文提出一種新穎的帶有風(fēng)格轉(zhuǎn)換注意的風(fēng)格轉(zhuǎn)換循環(huán)網(wǎng)絡(luò)(STANet),用于交換具有任意風(fēng)格的2幅圖像的風(fēng)格模式,合成更高質(zhì)量的風(fēng)格化圖像,同時(shí)更好地保留各自的內(nèi)容。
1 相關(guān)工作
1.1 風(fēng)格轉(zhuǎn)換
為實(shí)現(xiàn)風(fēng)格轉(zhuǎn)換,早期的一些方法將直方圖匹配應(yīng)用于線性濾波器響應(yīng)[12]或非參數(shù)采樣[13]。這些方法通常依賴(lài)于低層次的統(tǒng)計(jì)數(shù)據(jù),往往無(wú)法捕捉語(yǔ)義結(jié)構(gòu)。例如:GATYS等[1]使用CNN(convolutional neural networks)對(duì)內(nèi)容和風(fēng)格信息進(jìn)行編碼,通過(guò)匹配卷積層中的特征統(tǒng)計(jì)數(shù)據(jù),生成具有較好效果的風(fēng)格轉(zhuǎn)換結(jié)果;Style-Swap[14]是一種基于局部匹配的更簡(jiǎn)單的優(yōu)化目標(biāo),將內(nèi)容結(jié)構(gòu)和風(fēng)格紋理結(jié)合在一個(gè)層中。隨后,人們提出許多方法[4,15-17]用于加速優(yōu)化。然而,這些方法仍然存在質(zhì)量和效率兩難兼顧的問(wèn)題。
風(fēng)格轉(zhuǎn)換方法分為基于全局統(tǒng)計(jì)的方法[5-6,18-22]、基于局部補(bǔ)丁的方法[7,23]和基于語(yǔ)義區(qū)域的方法[22,24-25]。在基于全局統(tǒng)計(jì)的方法中,有人提出了神經(jīng)網(wǎng)絡(luò)中的AdaIN模塊,利用來(lái)自?xún)?nèi)容和風(fēng)格特征的統(tǒng)計(jì)信息(均值、方差),有效生成風(fēng)格化圖像[5]。這種方法可以靈活地實(shí)時(shí)轉(zhuǎn)換任意風(fēng)格,同時(shí)獲得吸引人的風(fēng)格化效果。WCT[6]是利用白化和著色變換來(lái)匹配內(nèi)容和風(fēng)格之間的統(tǒng)計(jì)分布,實(shí)現(xiàn)風(fēng)格轉(zhuǎn)換。Avatar-Net[7]引入基于補(bǔ)丁的特征裝飾器,將內(nèi)容特征轉(zhuǎn)移到語(yǔ)義最接近的風(fēng)格特征上,同時(shí)將整體特征分布之間的差異最小化。由于使用了基于通用數(shù)據(jù)集MS-COCO的預(yù)訓(xùn)練編碼器-解碼器模型,因而WCT和Avatar-Net都無(wú)法生成詳細(xì)的紋理樣式。雖然Avatar-Net可以通過(guò)基于補(bǔ)丁的風(fēng)格裝飾器獲得局部風(fēng)格模式,但風(fēng)格圖像中風(fēng)格模式的比例取決于補(bǔ)丁的大小。相比之下,AdaIN可以很好地轉(zhuǎn)換紋理和顏色分布,但無(wú)法充分表現(xiàn)局部風(fēng)格模式。MST(multimodal style transfer)[24]考慮了內(nèi)容和風(fēng)格圖像中語(yǔ)義模式的匹配,使用圖切割公式將風(fēng)格圖像特征聚類(lèi)為子風(fēng)格成分,與本地內(nèi)容特征相匹配。KOTOVENKO等[20]提出用2個(gè)相似的風(fēng)格樣本對(duì)同一內(nèi)容進(jìn)行風(fēng)格化,并對(duì)風(fēng)格化過(guò)程進(jìn)行精細(xì)控制。PUY等[21]提出一種用于快速風(fēng)格轉(zhuǎn)換的靈活網(wǎng)絡(luò),可在運(yùn)行期間進(jìn)行修改,生成理想的結(jié)果。但這些方法側(cè)重于將風(fēng)格特征映射到特征空間中的內(nèi)容特征上,無(wú)法控制風(fēng)格的全局統(tǒng)計(jì)或內(nèi)容結(jié)構(gòu),因而無(wú)法同時(shí)考慮全局和局部的風(fēng)格模式。
本文在STANet中引入風(fēng)格轉(zhuǎn)換注意(style-transition attention,STA)模塊,將其嵌入到雙流編碼器中,連接和整合2個(gè)信息流。STA由軟注意力和風(fēng)格轉(zhuǎn)換組成,前者類(lèi)似于自我注意,用于觀察有用的風(fēng)格和內(nèi)容信息,同時(shí)捕捉跨圖像區(qū)域的長(zhǎng)距離依賴(lài)關(guān)系;后者則有助于將風(fēng)格從一幅圖像轉(zhuǎn)換到另一幅圖像,通過(guò)軟注意力單元對(duì)每個(gè)空間位置的輸入特征映射進(jìn)行軟行加權(quán),從而有效利用全局和局部模式。STA 在卷積階段將輸入圖像的特征作為輸入,并為下一階段輸出風(fēng)格轉(zhuǎn)換特征和注意力特征。這樣,編碼器在實(shí)現(xiàn)2幅圖像特征之間層次關(guān)系的同時(shí),也成為了交錯(cuò)編碼器。此外,為了防止圖像內(nèi)容的丟失,引入循環(huán)一致?lián)p失來(lái)計(jì)算重建誤差。帶有風(fēng)格轉(zhuǎn)換和風(fēng)格恢復(fù)功能的STANet 結(jié)構(gòu)如圖1所示。風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)由交錯(cuò)雙流編碼器和解碼器組成,用于學(xué)習(xí)2幅圖像內(nèi)容和風(fēng)格特征之間的語(yǔ)義關(guān)系,并將其穩(wěn)健地組合起來(lái),生成2幅風(fēng)格化圖像。
1.2 注意力模型
注意力機(jī)制已被嵌入深度神經(jīng)網(wǎng)絡(luò)。對(duì)于視覺(jué)相關(guān)任務(wù),自然會(huì)引入注意力機(jī)制,引導(dǎo)模型根據(jù)需要關(guān)注圖像的特定區(qū)域或特征。該機(jī)制已成功應(yīng)用于圖像分類(lèi)[26-27]、圖像字幕[28]、檢測(cè)問(wèn)題[29-30]、風(fēng)格轉(zhuǎn)換[9, 11, 31-32]等。對(duì)于風(fēng)格轉(zhuǎn)換任務(wù),SANet(shuffle attention net)[11]首先使用注意力機(jī)制建立內(nèi)容和風(fēng)格圖像之間的關(guān)系,其架構(gòu)類(lèi)似于自我注意力[33],使用可學(xué)習(xí)的相似性核,計(jì)算內(nèi)容和風(fēng)格特征的加權(quán)和。AAMS(attention-aware multi-stroke style transfer)[9]也在其網(wǎng)絡(luò)中引入自注意力機(jī)制,捕捉重要特征和跨圖像區(qū)域的長(zhǎng)距離依賴(lài)關(guān)系。雖然SANet和AAMS可以自動(dòng)將多個(gè)筆畫(huà)大小處理為一個(gè)模型,并合成與同一風(fēng)格化圖像相融合的多筆畫(huà)模式,但由于在訓(xùn)練過(guò)程中對(duì)內(nèi)容特征的簡(jiǎn)單限制,因而均無(wú)法保留內(nèi)容圖像的細(xì)節(jié)。STANet引入了由軟注意力單元和風(fēng)格轉(zhuǎn)換組成的風(fēng)格轉(zhuǎn)換注意機(jī)制,學(xué)習(xí)內(nèi)容和風(fēng)格特征之間的映射,提出的STA模型被嵌入到交錯(cuò)雙流編碼器中,實(shí)現(xiàn)風(fēng)格轉(zhuǎn)換。
1.3 循環(huán)網(wǎng)絡(luò)
循環(huán)對(duì)抗網(wǎng)絡(luò)(Cycle GAN)[34]使用具有循環(huán)一致性損失的生成網(wǎng)絡(luò),通過(guò)學(xué)習(xí)反映射G將圖像從源域X轉(zhuǎn)移到另一個(gè)域Y,再通過(guò)學(xué)習(xí)映射F將圖像轉(zhuǎn)換回X。為進(jìn)行妝容風(fēng)格轉(zhuǎn)換,本文構(gòu)建了一個(gè)循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)框架[35],該框架由2個(gè)耦合網(wǎng)絡(luò)組成(一個(gè)網(wǎng)絡(luò)轉(zhuǎn)換妝容風(fēng)格,另一個(gè)網(wǎng)絡(luò)去除妝容風(fēng)格)。此外,Dual cGAN[36]是一種用于面部老化或年輕化的雙條件GAN,引入了重建損失,保證生成的圖像與其原始圖像具有相同的身份。YAO等[37]將循環(huán)一致性損失與自一致性損失相結(jié)合,在風(fēng)格轉(zhuǎn)換過(guò)程中強(qiáng)制執(zhí)行照片逼真度。本研究使用循環(huán)網(wǎng)絡(luò)來(lái)防止風(fēng)格傳輸過(guò)程中2幅圖像之間多次內(nèi)容和風(fēng)格交換造成的內(nèi)容細(xì)節(jié)丟失問(wèn)題。
2 STANet方法
本文提出風(fēng)格轉(zhuǎn)換注意力(STA),它由2個(gè)關(guān)鍵部分組成:風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)和風(fēng)格恢復(fù)網(wǎng)絡(luò),它們使用相同的架構(gòu)并共享權(quán)重。STANet是一個(gè)用于風(fēng)格轉(zhuǎn)換的端到端深度神經(jīng)網(wǎng)絡(luò)。在給定一對(duì)圖像的情況下,STANet要學(xué)習(xí)一個(gè)模型來(lái)交換它們的風(fēng)格,同時(shí)保留它們各自的原始內(nèi)容。風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)由交錯(cuò)編碼器、解碼器和損失網(wǎng)絡(luò)組成,它們之間相互配合,構(gòu)成一個(gè)端到端的深度神經(jīng)網(wǎng)絡(luò)。風(fēng)格恢復(fù)網(wǎng)絡(luò)的結(jié)構(gòu)與風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)類(lèi)似。
2.1 風(fēng)格轉(zhuǎn)換
之前的風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)一般將內(nèi)容圖像和風(fēng)格圖像作為輸入,并根據(jù)前者的外觀和后者的感覺(jué)生成風(fēng)格化圖像。本文提出的方法可以在2幅任意圖像之間進(jìn)行風(fēng)格轉(zhuǎn)換。為了方便起見(jiàn),將上述過(guò)程概括為更一般的情況,即風(fēng)格交換。具體來(lái)說(shuō),給定2個(gè)任意輸入圖像I1和I2,通過(guò)風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)T交換它們的風(fēng)格,合成2個(gè)新圖像:
Y1,Y2=T(I1,I2)。(1)
式中:Y1(Y2)代表具有I1(I2)的內(nèi)容和I2(I1)風(fēng)格的風(fēng)格化圖像。
與文獻(xiàn)[9]和文獻(xiàn)[11]類(lèi)似,T網(wǎng)絡(luò)也是建立在編碼器-解碼器結(jié)構(gòu)之上的。依靠雙流結(jié)構(gòu)設(shè)計(jì)的編碼器可以提取風(fēng)格和內(nèi)容的表征特征,然后將它們聯(lián)合起來(lái)形成2個(gè)風(fēng)格轉(zhuǎn)換特征,其繼承了傳統(tǒng)雙流網(wǎng)絡(luò)在多模型學(xué)習(xí)方面的優(yōu)勢(shì)。
為了更有效地捕捉風(fēng)格特征表征,將風(fēng)格轉(zhuǎn)換注意模塊分別嵌入編碼器的2個(gè)層(Relu_3_1和Relu_4_1),以連接2個(gè)信息流。STA 模塊學(xué)習(xí)風(fēng)格轉(zhuǎn)換注意力特征表征,并逐步轉(zhuǎn)換風(fēng)格感知特征,促進(jìn)特征學(xué)習(xí)。編碼器的結(jié)構(gòu)借鑒了預(yù)先訓(xùn)練好的 VGG-19 的幾個(gè)層[38],解碼器的結(jié)構(gòu)與文獻(xiàn)[5]類(lèi)似。除最后一個(gè)輸出層外,所有卷積層都經(jīng)過(guò)實(shí)例歸一化和Relu非線性處理。
2.2 風(fēng)格恢復(fù)
本文提出了用于提高傳輸網(wǎng)絡(luò)成像質(zhì)量的風(fēng)格恢復(fù)程序。更具體地說(shuō),給定合成圖像Y1和Y2,恢復(fù)網(wǎng)絡(luò)R會(huì)交換它們的風(fēng)格,以恢復(fù)原始輸入,具體如下:
1,2=R(Y1,Y2)。(2)
式中:1和2是恢復(fù)出來(lái)的圖像,風(fēng)格和內(nèi)容與相應(yīng)的輸入相似,即分別為I1和I2?;謴?fù)網(wǎng)絡(luò)R與T網(wǎng)絡(luò)相同,2個(gè)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中共享參數(shù)。
2.3 交錯(cuò)編碼器
交錯(cuò)編碼器包含2個(gè)編碼器,分別取自預(yù)訓(xùn)練VGG-19的前幾層。與之前使用編碼器分別提取2幅輸入圖像的特征,然后將它們組合起來(lái)進(jìn)行風(fēng)格轉(zhuǎn)換的工作不同[5],本文方法在2層(Relu_3_1和Relu_4_1)中引入STA模塊生成風(fēng)格注意特征,為風(fēng)格轉(zhuǎn)換提供了一種新方法。
2.3.1 風(fēng)格轉(zhuǎn)換注意力
風(fēng)格轉(zhuǎn)換注意力模塊的結(jié)構(gòu)如圖2所示。該模塊的2個(gè)輸入端分別對(duì)應(yīng)從2幅輸入圖像中提取的2組特征,輸出端則是風(fēng)格和內(nèi)容的融合特征。STA 由軟注意力單元和風(fēng)格轉(zhuǎn)換單元組成,前者有助于關(guān)注輸入圖像的重要特征,如風(fēng)格和內(nèi)容,后者則有助于將不同圖像的內(nèi)容和風(fēng)格結(jié)合起來(lái),并從2個(gè)輸入圖像中提取信息。
給定輸入內(nèi)容圖像I1∈Rw×h×3和輸入風(fēng)格圖像I2∈Rw×h×3,編碼器先在第i層(Relu_3_1和Relu_4_1)提取內(nèi)容特征和風(fēng)格模式,表示為fia∈RW×H×C和fib∈RW×H×C,其中W,H和C分別表示特征張量的空間寬度、高度和通道數(shù)。風(fēng)格轉(zhuǎn)換特征隨后由STA模塊FSTA進(jìn)行增強(qiáng):
f,ia,f,ib=FSTA(fia,fib) 。(3)
式中:f,ia,f,ib分別代表包含fib到fia的風(fēng)格信息的STA特征,以及來(lái)自第i層編碼器fib的注意力特征,它們將被進(jìn)一步輸入下一層編碼器。
2.3.2 軟注意力單元(SA)
將I1和I2計(jì)算得出的特征fa和fb作為輸入放入SA模型中。該單元對(duì)每個(gè)空間位置的輸入特征映射進(jìn)行軟性加權(quán),其結(jié)構(gòu)類(lèi)似于自注意力:
fia=softmax(Θfa)⊙fia 。(4)
式中:Θ是學(xué)習(xí)到的權(quán)重矩陣,它是通過(guò)一次一元卷積將fa映射到一個(gè)重要性矩陣,即fa︿=Θfa,然后使用softmax對(duì)fa︿進(jìn)行歸一化,實(shí)現(xiàn)軟注意力映射;表示卷積運(yùn)算;⊙表示元素相乘運(yùn)算;fia和fia分別表示
fa和fa的第i個(gè)通道。同樣,以fb為輸入,可以用同樣的方法得到軟注意力特征fb。
2.3.3 風(fēng)格轉(zhuǎn)換單元(ST)
為了將fb的風(fēng)格特征轉(zhuǎn)換到fa,以非局部的方式求得fa和fb之間的關(guān)系:
L=fTaUfb∈R(WH)×(WH)。(5)
式中,U是可訓(xùn)練的權(quán)重矩陣。親和矩陣L可以有效捕捉2個(gè)特征空間之間的配對(duì)關(guān)系,然而它引入了太多參數(shù),增加了計(jì)算成本。為了解決這個(gè)問(wèn)題,將W分解成2個(gè)低秩矩陣P∈RC×Ch和Q∈RC×Ch,其中h(hgt;1)是縮減率。實(shí)驗(yàn)中設(shè)定h=16。那么,式 (5) 可以寫(xiě)成:
L=fTaPQTfb=(PTfa)T(QTfb)。(6)
這種分解方法減少了參數(shù)數(shù)量,提高了計(jì)算效率。本文方法將L行向歸一化,驅(qū)動(dòng)風(fēng)格注意映射Lr=softmaxr(L),其中softmaxr表示行向量最大值,然后實(shí)現(xiàn)風(fēng)格注意,fab=faLr。最后,在特征映射層面實(shí)現(xiàn)風(fēng)格轉(zhuǎn)換,得到STA特征
fa和注意力特征fb:
fa=fab+fa︿+fb," fb=fb︿+
fb。(7)
受到文獻(xiàn)[6]的啟發(fā),將fa與風(fēng)格的均值向量ms重新對(duì)齊,即fa=fa+ms。STA的效果類(lèi)似于AdaIN提出的將內(nèi)容特征的均值和方差與風(fēng)格特征的均值和方差統(tǒng)一起來(lái)進(jìn)行風(fēng)格轉(zhuǎn)換,STANet可以將全局風(fēng)格嵌入到內(nèi)容特征映射中,從而起到有效的作用。
2.4 損失函數(shù)
本文方法的損失函數(shù)包括4種類(lèi)型:內(nèi)容損失、風(fēng)格損失、循環(huán)一致?lián)p失和對(duì)抗損失,Ltotal=Lcon+λ1Lsty+λ2Lcyc+
λ3Ladv。損失函數(shù)的細(xì)節(jié)如圖3所示。
2.4.1 內(nèi)容損失
為了讓生成的圖像更好地保留原始輸入圖像的內(nèi)容信息,引入了與文獻(xiàn)[5]類(lèi)似的內(nèi)容損失。
Lcon=‖I1-Y1‖2+‖I2-Y2‖2+
‖Y1-I1︿‖2+
‖Y2-I2︿‖2。(8)
2.4.2 風(fēng)格損失
風(fēng)格損失用于匹配風(fēng)格化圖像和風(fēng)格圖像之間的統(tǒng)計(jì)特征,包括均值和方差。
(e1,e2)=∑4i=1(‖μ(φi(e1))-μ(φi(e2))‖2+
‖σ(φi(e1))-σ(φi(e2))‖2)。(9)
式中:μ和σ表示特征映射的均值和方差;φi表示VGG-19[38]網(wǎng)絡(luò)中的第i層(Relu_i_1,i=1,2,3,4)。
此外,本文方法還分別計(jì)算了4對(duì)圖像的損失,即(I1,Y2),(I2,Y1),(Y1,I2︿)和
(Y2,I1︿),形成總的風(fēng)格損失。
Ls=(I1,Y2 )+(I2,Y1 )+(Y2,I1︿)+
(Y1,I2︿)。(10)
雖然風(fēng)格損失可以很好地轉(zhuǎn)換2幅圖像的風(fēng)格,但生成的每幅圖像仍會(huì)在一定程度上保留其原始風(fēng)格。因此,在2組生成圖像
(Y1,Y2)和(I1︿,I2︿)之間引入風(fēng)格差異損失,限制生成圖像的風(fēng)格盡可能相互不同。那么,風(fēng)格損失可以重寫(xiě)為
Lsty=Ls-(Y1,Y2 )-
(I1︿,I2︿)。(11)
2.4.3 循環(huán)一致?lián)p失
從理論上講,內(nèi)容和風(fēng)格丟失可以很好地學(xué)習(xí)風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)T [5, 11, 20, 39],Y1,Y2=T(I1,I2)。然而,原始圖像的內(nèi)容細(xì)節(jié)和風(fēng)格模式可能會(huì)在2次風(fēng)格轉(zhuǎn)換后丟失。為了保證重建后的圖像與其原始圖像具有相同的內(nèi)容特性,引入循環(huán)一致?lián)p失。為了保證學(xué)習(xí)到的風(fēng)格恢復(fù)網(wǎng)絡(luò)R能夠充分恢復(fù)風(fēng)格和內(nèi)容,(I1︿,I2︿)=R
(T(I1,I2))≈(I1,I2),引入像素重建損失:
Lr=‖I1-I1︿‖2+‖I2-I2︿‖2。(12)
只有像素重構(gòu)損失才有足夠的能力讓風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)R學(xué)習(xí)實(shí)例級(jí)風(fēng)格轉(zhuǎn)換。一般來(lái)說(shuō),對(duì)于抽象風(fēng)格的圖像,基于像素的風(fēng)格化圖像與輸入圖像之間的比較并不合適[10]。因此,本文引入感知損失來(lái)比較生成圖像和輸入圖像之間的不同映射。循環(huán)損失的定義如下:
Lcyc=Lr+∑4i=1
(‖(φi(I1)-φi(I1︿))‖2+
‖(φi(I2)-φi(I2︿))‖2)。(13)
式中,φi表示VGG-19網(wǎng)絡(luò)中第i層的特征映射。循環(huán)損失限制生成的圖像與輸入圖像相似。
2.4.4 對(duì)抗損失
為了使生成的圖像更加平滑,不同部分之間更加一致,引入Da和Db 2個(gè)判別器,用于在圖像空間中施加正則化約束,并將生成的圖像
I1︿和I2︿與真實(shí)輸入的內(nèi)容圖像I1和風(fēng)格圖像I2區(qū)分開(kāi)來(lái)[20]。
Ladv=EI1[log Da(I1)]+EI1,I2[log(1-Da(I1︿))]+
EI2[log Db(I2)]+EI1,I2[log(1-Db(I2︿))]。(14)
式中,(I1︿,I2︿)=T(I1,I2)。在訓(xùn)練過(guò)程中,對(duì)T、Da和Db進(jìn)行反復(fù)訓(xùn)練。
3 實(shí)驗(yàn)部分
在MS-COCO數(shù)據(jù)集[40]中的82 625張訓(xùn)練圖像以及從WikiArt[41]中收集的約80 000張圖像上進(jìn)行了實(shí)驗(yàn)。對(duì)于每張訓(xùn)練圖像,將其縮放為512×512,然后隨機(jī)裁剪一個(gè)大小為256×256的小塊。為了提高訓(xùn)練的穩(wěn)定性,將訓(xùn)練過(guò)程分為2部分:
(Y1,Y2)=T(I1,I2)和(I1︿,I2︿)=R
(Y1,Y2),依次在每次迭代中執(zhí)行。使用Adam優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行20次訓(xùn)練,批量大小為6,初始學(xué)習(xí)率為5E-5,使用網(wǎng)格搜索尋找參數(shù)的最佳配置。實(shí)驗(yàn)表明,STANet對(duì)這些參數(shù)并不敏感。將λ1、λ2和λ3分別設(shè)置為10、5和1。訓(xùn)練算法分為2步:第1步是訓(xùn)練網(wǎng)絡(luò)T,更好地交換輸入圖像的風(fēng)格(I1,I2),通過(guò)T得到風(fēng)格化圖像(Y1,Y2),并使用輸入圖像和生成圖像之間的內(nèi)容、風(fēng)格和對(duì)抗損失函數(shù)來(lái)更新網(wǎng)絡(luò)參數(shù)T;第2步是將生成的風(fēng)格化圖像(Y1,Y2)作為網(wǎng)絡(luò)R的輸入,利用循環(huán)損失恢復(fù)到原始風(fēng)格。
3.1 定性結(jié)果
3.1.1 風(fēng)格轉(zhuǎn)換結(jié)果
STANet不僅能適應(yīng)輸入一張內(nèi)容圖片和一張風(fēng)格圖片的情況,還能適應(yīng)同時(shí)輸入2張內(nèi)容圖片或2張風(fēng)格圖片的情況。如圖4所示,STANet可以精確地將不同的內(nèi)容風(fēng)格化并生成視覺(jué)上合理的結(jié)果。圖4中,Y1顯示的是生成的包含I1內(nèi)容和I2風(fēng)格的圖片,而Y2顯示的是生成的包含I1風(fēng)格和I2內(nèi)容的圖片。同樣,I1︿和I2︿是由Y1和Y2得到的。
3.1.2 與現(xiàn)有工作比較
將STANet與6種最先進(jìn)的方法進(jìn)行比較,6種方法為Gatys[1]、Style-Swap[14]、AdaIN[5]、WCT[6]、AAMS[9]和SANet[11],如圖5所示。圖5中從左至右依次為內(nèi)容圖像、風(fēng)格圖像、Gatys[1]、Style-Swap[14]、AdaIN[5]、WCT[6]、AAMS[9]、SANet[11]和本文方法的結(jié)果。
Gatys生成的圖像風(fēng)格細(xì)節(jié)較少(見(jiàn)圖5中的第5行和第6行)。風(fēng)格交換技術(shù)有助于將內(nèi)容結(jié)構(gòu)和風(fēng)格紋理補(bǔ)丁結(jié)合在一個(gè)層中進(jìn)行風(fēng)格轉(zhuǎn)換,但無(wú)法產(chǎn)生令人滿(mǎn)意的結(jié)果,即風(fēng)格無(wú)法成功轉(zhuǎn)換到內(nèi)容圖像中(見(jiàn)圖5中的第4列)。AdaIN生成的風(fēng)格化圖像的風(fēng)格可能與原始風(fēng)格圖像不一致(見(jiàn)圖5中的第4行)。WCT和AAMS都不能完美地保留內(nèi)容細(xì)節(jié),如眼睛或嘴的區(qū)域(見(jiàn)圖5中的第6行)。不過(guò),SANet和本文提出的模型卻能更好地保留局部細(xì)節(jié)。此外,在STA的幫助下,提出的模型可以從語(yǔ)義上觀察到輸入圖像中的特殊內(nèi)容結(jié)構(gòu),并能將不同的風(fēng)格轉(zhuǎn)換成不同的內(nèi)容,如圖5中的第2行所示,本文方法生成的圖像中的天空、山脈和綠草都采用了不同的風(fēng)格模式。
通過(guò)實(shí)驗(yàn)還比較了2種現(xiàn)有方法保留圖像內(nèi)容的效果,結(jié)果如圖6所示。由圖6可知:AdaIN和AAMS都得到了風(fēng)格化圖像
Y1=T(I1,I2)和Y2=T(I2,I1),I1︿和I2︿可以用類(lèi)似的方法得到;從第2列可以看出,AdaIN和AAMS生成的風(fēng)格化圖像在風(fēng)格轉(zhuǎn)換過(guò)程中不能很好地保留氣球輪廓等內(nèi)容信息,而第4列效果更差;本文提出模型中的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)可以有效克服風(fēng)格轉(zhuǎn)換過(guò)程中內(nèi)容信息丟失的問(wèn)題。
3.1.3 視頻實(shí)時(shí)風(fēng)格化
除了對(duì)輸入圖像進(jìn)行風(fēng)格轉(zhuǎn)換,STANet還能對(duì)視頻進(jìn)行藝術(shù)風(fēng)格轉(zhuǎn)換。通過(guò)實(shí)驗(yàn)進(jìn)行了實(shí)時(shí)視頻風(fēng)格轉(zhuǎn)換,評(píng)估模型的穩(wěn)定性。視頻實(shí)驗(yàn)表明,STANet可以以10 幀/s的速度對(duì)視頻(512×512)進(jìn)行風(fēng)格化處理。圖7顯示了視頻中的幾個(gè)風(fēng)格化幀,這些幀都被有效地風(fēng)格化了。原始風(fēng)格被轉(zhuǎn)換為目標(biāo)風(fēng)格,紋理、內(nèi)容等也得到了很好的保留。
3.2 定量結(jié)果
3.2.1 內(nèi)容保留評(píng)估
為了定量測(cè)量保留內(nèi)容信息的能力,對(duì)輸入圖像(I1,I2 )使用900,生成1 800張風(fēng)格化圖像(Y1,Y2,I1︿,I2︿ )。鑒于這些方法的內(nèi)容損失與本文方法相同,因此應(yīng)用VGG-19網(wǎng)絡(luò)的Relu_4_1層提取特征響應(yīng),然后使用內(nèi)容損失來(lái)測(cè)量合成圖像與輸入內(nèi)容圖像之間的距離。不同方法保留圖像內(nèi)容能力的評(píng)估結(jié)果見(jiàn)表1,數(shù)值越小,表示效果越好。
對(duì)于每種方法,將表1中第2列(I1,Y1)與第3列(I1,I1︿)的內(nèi)容相似性距離進(jìn)行比較。對(duì)于WCT[6]、AAMS[9]和SANet[11],
I1與I1︿之間的相似性距離都大于I1與Y1之間的相似性距離(分別為14.39對(duì)13.46,20.87對(duì)17.12,17.41對(duì)15.08)。相比之下,STANet得到的I1與I1︿之間的相似性距離為7.29,小于I1與Y1之間的相似性距離 8.76。結(jié)果表明,STANet利用其網(wǎng)絡(luò)中的循環(huán)一致?lián)p失,更好地保留了內(nèi)容細(xì)節(jié)。
3.2.2 風(fēng)格轉(zhuǎn)換評(píng)估
對(duì)不同方法的風(fēng)格轉(zhuǎn)換能力進(jìn)行了量化評(píng)估[5, 9, 11]。鑒于風(fēng)格圖像在預(yù)訓(xùn)練VGG-19網(wǎng)絡(luò)不同層中的濾波響應(yīng)可以代表視覺(jué)風(fēng)格統(tǒng)計(jì),應(yīng)用VGG-19的4個(gè)層提取特征,計(jì)算風(fēng)格化圖像和輸入圖像之間特征映射的均值μ和方差σ的L2距離。不同方法將風(fēng)格從一個(gè)圖像轉(zhuǎn)換到另一個(gè)圖像的能力評(píng)估結(jié)果結(jié)果見(jiàn)表2,數(shù)值越小效果越好。
從表2中可以看出,本文模型得出的結(jié)果與原始風(fēng)格圖像的風(fēng)格差異較小。對(duì)于每種方法,將表2中第2列(I1,Y1)與第3列(I1,I1︿)中的風(fēng)格相似度距離進(jìn)行比較。對(duì)于AdaIN[5]、AAMS[9]和SANet[11],I1與I1︿之間的相似性距離都大于I1與Y1之間的相似性距離(分別為3.39對(duì)2.86,6.07對(duì)5.30,2.91對(duì)2.68)。相比之下,STANet得到的I1與I1︿之間的相似性距離為1.26,小于I1與Y1之間的相似性距離1.77。結(jié)果表明,STANet利用STA模塊和循環(huán)一致?lián)p失,可以幫助合成圖像的風(fēng)格回歸到其對(duì)應(yīng)的原始風(fēng)格圖像。
3.2.3 效率分析
對(duì)不同方法進(jìn)行了效率分析,結(jié)果見(jiàn)表3(該結(jié)果是使用一塊11G RTX2080Ti GPU和400張圖像的測(cè)試數(shù)據(jù)集得出的)。在基于補(bǔ)丁的方法(Style-Swap、Avatar-Net和STANet)中,STANet即使在進(jìn)行多尺度特征處理時(shí)也能達(dá)到相當(dāng)?shù)乃俣?;GATYS等[1]的方法需要數(shù)百次正向和反向傳遞才能收斂,因此速度最慢;AdaIN[5]的速度最快,因?yàn)樗恍枵{(diào)整輸入圖像的均值和方差,即可傳輸特征統(tǒng)計(jì)數(shù)據(jù);STANet的速度可與一些方法媲美,這是因?yàn)樗捎昧嘶赟TA模塊的編碼器-解碼器架構(gòu),只需一次前饋傳遞,256×256和512×512的圖像傳輸大小平均分別需要0.028 s和0.057 s。
3.2.4 用戶(hù)調(diào)研
對(duì)風(fēng)格轉(zhuǎn)換效果的評(píng)價(jià)是一個(gè)主觀問(wèn)題,因此進(jìn)行了2項(xiàng)用戶(hù)調(diào)研,定量評(píng)估風(fēng)格化效果和保留內(nèi)容信息的能力。將STANet與SANet、AAMS和WCT 3種現(xiàn)有方法進(jìn)行比較。這項(xiàng)用戶(hù)調(diào)研的參與者是學(xué)院的80名志愿者。在相同內(nèi)容和風(fēng)格圖像的基礎(chǔ)上,向每位參與者展示了200組由不同方法生成的風(fēng)格化圖像。首先,要求參與者選擇每組中風(fēng)格轉(zhuǎn)
換效果最好的風(fēng)格化圖像;然后,要求志愿者在每組圖像中選擇一張最能保留內(nèi)容圖像細(xì)節(jié)的圖像;最后,收集80名志愿者的反饋意見(jiàn),并通過(guò)被選為組內(nèi)最佳方法的比例計(jì)算每種方法的性能。用戶(hù)調(diào)研結(jié)果見(jiàn)圖8。
由圖8可以看出:STANet因其較好的風(fēng)格化效果和保留內(nèi)容信息的能力而獲得最多選票;AAMS的得分最低,因?yàn)锳AMS生成的圖像風(fēng)格明顯模糊。
3.3 空間控制
圖9展示了STANet可以將內(nèi)容圖像的不同區(qū)域轉(zhuǎn)換為不同的風(fēng)格,這是通過(guò)使用來(lái)自不同風(fēng)格輸入的統(tǒng)計(jì)數(shù)據(jù)對(duì)內(nèi)容特征映射中的不同區(qū)域分別執(zhí)行STANet而實(shí)現(xiàn)的,類(lèi)似于文獻(xiàn)[5],但采用的是完全前饋的方式。
3.4 消融實(shí)驗(yàn)
3.4.1 不同損失函數(shù)的效果
圖10顯示了STANet不同組件的視覺(jué)效果。表4和表5定量顯示了損失函數(shù)消融研究的結(jié)果。
由圖10可知:與STANet相比,所有網(wǎng)絡(luò)變體都產(chǎn)生了更差的結(jié)果。缺少內(nèi)容損失的模型只合成了風(fēng)格化圖像,沒(méi)有保留內(nèi)容(見(jiàn)圖10 d));去掉風(fēng)格損失后,生成的圖像沒(méi)有風(fēng)格模式(見(jiàn)圖10 e));無(wú)對(duì)抗損失的訓(xùn)練會(huì)產(chǎn)生許多偽像(灰色斑點(diǎn)和片狀結(jié)構(gòu),見(jiàn)圖10 f));循環(huán)損失有助于在整個(gè)循環(huán)網(wǎng)絡(luò)中保留內(nèi)容圖像的內(nèi)容細(xì)節(jié)(見(jiàn)圖10 g))。因此,風(fēng)格損失對(duì)于在風(fēng)格轉(zhuǎn)換過(guò)程中融入風(fēng)格至關(guān)重要,而內(nèi)容損失則主要負(fù)責(zé)更好地保存內(nèi)容。將對(duì)抗損失和循環(huán)損失導(dǎo)入STANet,可生成具有更多內(nèi)容細(xì)節(jié)和風(fēng)格模式更自然的風(fēng)格化圖像。
3.4.2 單向網(wǎng)絡(luò)
為了驗(yàn)證循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)的有效性,將STANet簡(jiǎn)化為排除風(fēng)格恢復(fù)過(guò)程的單向網(wǎng)絡(luò)。從圖7中的前2行可以看出,單向網(wǎng)絡(luò)的風(fēng)格化圖像效果并不理想,這是因?yàn)樵紙D像的一些風(fēng)格模式仍被保留,而內(nèi)容卻出現(xiàn)了丟失。
3.4.3 STA的數(shù)量
通過(guò)實(shí)驗(yàn)探索使用多少個(gè)STA塊時(shí)能達(dá)到最佳效果,分別比較了1個(gè)STA塊、2個(gè)STA塊、3個(gè)STA塊的情況,結(jié)果見(jiàn)圖11。
從圖11可以看出,風(fēng)格并不能完全轉(zhuǎn)移到內(nèi)容圖像中,如果只使用一個(gè)塊,原始圖像的風(fēng)格仍然會(huì)出現(xiàn)在風(fēng)格化圖像中。對(duì)于使用3個(gè)STA塊的模型,原始圖像的內(nèi)容不能很好地得到保留,可能的原因是風(fēng)格圖像中的過(guò)多信息嵌入到了內(nèi)容圖像中。
4 結(jié) 語(yǔ)
1)提出一種新的風(fēng)格傳輸循環(huán)網(wǎng)絡(luò)(STANet),用于在2幅任意圖像之間傳輸風(fēng)格,其中STA塊被嵌入到雙流交錯(cuò)編碼器中,可幫助用另一幅圖像的風(fēng)格模式來(lái)裝飾另一幅圖像的內(nèi)容特征。STA塊對(duì)STANet至關(guān)重要,有助于風(fēng)格特征在特征映射之間的轉(zhuǎn)換。
2)循環(huán)一致?lián)p失的引入有助于STANet保留內(nèi)容細(xì)節(jié),豐富局部和全局風(fēng)格模式。實(shí)驗(yàn)結(jié)果表明,該模型風(fēng)格化圖像的內(nèi)容細(xì)節(jié)更多,與現(xiàn)有方法相比,其在泛化到任意風(fēng)格方面取得了良好性能。許多現(xiàn)有方法使用預(yù)訓(xùn)練模型(如VGG)幫助提取內(nèi)容和風(fēng)格特征,并計(jì)算損失。
后續(xù)研究計(jì)劃探索更先進(jìn)的網(wǎng)絡(luò)架構(gòu)。例如:不使用預(yù)先訓(xùn)練好的VGG-19作為編碼器,或使用編碼器的附加跳轉(zhuǎn)連接[42]。此外,將STANet應(yīng)用于其他圖像處理任務(wù)(如面部化妝、灰度圖像著色)也將是很有意義的研究方向。
參考文獻(xiàn)/References:
[1] GATYS L A,ECKER A S,BETHGE M.Image style transfer using convolutional neural networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:2414-2423.
[2] JOHNSON J,ALAHI A,F(xiàn)EI F L.Perceptual losses for real-time style transfer and super-resolution[C]//In European Conference on Computer Vision.Berlin:Springer,2016:694-711.
[3] ULYANOV D,LEBEDEV V,VEDALDI A,et al.Texture networks: Feed-forward synthesis of textures and stylized images[C]//In Proceedings of the International Conference on Machine Learning.Fort Lauderdale:PMLR,2016:627-635.
[4] LI Chuan,WAND M.Precomputed real-time texture synthesis with markovian generative adversarial networks[C]//In European Conference on Computer Vision.Berlin:Springer,2016:702-716.
[5] HUANG Xun,BELONGIE S.Arbitrary style transfer in real-time with adaptive instance normalization[C]//In Proceedings of the IEEE International Conference on Computer Vision.Los Alamitos:IEEE,2017:1501-1510.
[6] LI Yijun,F(xiàn)ANG Chen,YANG Jimei,et al.Universal style transfer via feature transforms[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.New York:Curran Associates Inc,2017:386-395.
[7] SHENG Lu,LIN Ziyi,SHAO Jing,et al.Avatar-Net: Multi-scale zero-shot style transfer by feature decoration[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8242-8250.
[8] JING Yongcheng,LIU Yang,YANG Yezhou,et al.Stroke controllable fast style transfer with adaptive receptive fields[C]//Computer Vision-ECCV 2018: Lecture Notes in Computer Science.Berlin:Springer,2018:244-260.
[9] YAO Yuan,REN Jianqiang,XIE Xuansong,et al.Attention-aware multi-stroke style transfer[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:1467-1475.
[10]SANAKOYEU A,KOTOVENKO D,LANG S,et al.A style-aware content loss for real-time HD style transfer[C]//Computer Vision-ECCV 2018:15th European Conference.Munich:ECVA,2018:715-731.
[11]PARK D Y,LEE K H.Arbitrary style transfer with style-attentional network[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Long Beach:IEEE,2019:5880-5888.
[12]HEEGER D J,BERGEN J R.Pyramid-based texture analysis/synthesis[C]//In Proceedings of the 22nd Annual Conference on Computer Graphics and Interactive Techniques.Piscataway:IEEE,1995:229-238.
[13]EFROS A A,F(xiàn)REEMAN W T.Image quilting for texture synthesisand transfer[C]//In Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques.New York:ACM,2001:341-346.
[14]CHEN Tianqi,SCHMIDT M.Fast patch-based style transfer of arbitrary style[DB/OL].[2023-12-15].https://arxiv.org/abs/1612.04337.
[15]LIU Yu,CHEN Wei,LEWM S,et al.SwapGAN: A multistage generative approach for person-to-person fashion style transfer[J].IEEE Transactions on Multimedi,2019,21(9):2209-2222.
[16]VIRTUSIO J J,TAN D S,CHENG W H,et al.Enabling artistic control over pattern density and stroke strength[J].IEEE Transactions on Multimedia,2020,23:2273-2285.
[17]WANG Xin,OXHOLM G,ZHANG Da,et al.Multimodal transfer: A hierarchical deep convolutional neural network for fast artistic style transfer[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:7178-7186.
[18]CHIU T Y.Understanding generalized whitening and coloring transform for Universal style transfer[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul:IEEE,2019:4451-4459.
[19]LI Xueting,LIU Sifei,KAUTZ J,et al.Learning linear transformations for fast image and video style transfer[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:3804-3812.
[20]KOTOVENKO D,SANAKOYEU A,MA Pingchuan,et al.A content transformation block for image style transfer[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:10024-10033.
[21]PUY G,PREZ P.A flexible convolutional solver for fast style transfers[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:8955-8964.
[22]HUO Jing,JIN Shiyin,LI Wenbin,et al.Manifold alignment for semantically aligned style transfer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV).Montreal:IEEE,2021:14861-14869.
[23]GU Shuyang,CHEN Congliang,LIAO Jing,et al.Arbitrary style transfer with deep feature reshuffle[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8222-8231.
[24]ZHANG Yulun,F(xiàn)ANG Chen,WANG Yilin,et al.Multimodal style transfer via graph cuts[C]//In Proceedings of the IEEE Nternational Conference on Computer Vision.[S.l.]:IEEE,2019:5943-5951.
[25]KOLKIN N,SALAVON J,SHAKHNAROVICH G.Style transfer by relaxed optimal transport and self-similarity[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:10043-10052.
[26]WANG Fei,JIANG Mengqing,QIAN Chen,et al.Residual attention network for image classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu, HI:IEEE,2017:6450-6458.
[27]ZHOU Bolei,KHOSLA A,LAPEDRIZA A,et al.Learning deep features for discriminative localization[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:2921-2929.
[28]CHEN Long,ZHANG Hanwang,XIAO Jun,et al.SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:6298-6306.
[29]LIU Nian,HAN Junwei,YANG M H.PiCANet(CVPR), earning pixel-wise contextual attention for saliency detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:3089-3098.
[30]ZHANG Xiaoning,WANG Tiantian,QI Jinqing,et al.Progressive attention guided recurrent network for salient object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:714-722.
[31]FU Xianping,YAN Yuxiao,YAN Yang,et al.Purifying real images with an attention-guided style transfer network for gaze estimation[J].Engineering Applications of Artificial Intelligence,2020. DOI:10.1016/j.engappai.2020.103609.
[32]BEREZIN S,VOLKOVA V.Neural arbitrary style transfer for portrait images using the attention mechanism[J].Transaction of Scientific Papers of the Novosibirsk State Technical University,2020(3/4):96-105.
[33]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.New York:Curran Associates Inc,2017:6000-6010.
[34]ZHU Junyan,PARK T,ISOLA P,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:IEEE,2017:2242-2251.
[35]CHANG Huiwen,LU Jingwan,YU F,et al.Paired Cycle GAN(CVPR),symmetric style transfer for applying and removing makeup[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:40-48.
[36]SONG Jingkuan,ZHANG Jingqiu,GAO Lianli,et al.Dual conditional gans for face aging and rejuvenation[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. Stockholm:IJCAI,2018:899-905.
[37]YAO Xu,PUY G,PREZ P.Photo style transfer with consistency losses[C]//2019 IEEE International Conference on Image Processing (ICIP).Taipei:IEEE,2019:2314-2318.
[38]SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[DB/OL].[2023-12-15].https://arxiv.org/abs/1409.1556.
[39]CHEN Yugang,CHEN Muchun,SONG Chaoyue,et al.Cartoonrenderer:An instancebased multi-style cartoon image translator[C]//MultiMedia Modeling(MMM 2020): Lecture Notes in Computer Science.Berlin:Springer,2020:176-187.
[40]TSUNG Y L,MAIRE M,BELONGIE S,et al.Microsoft coco: Common objects in context[C]//Computer Vision-ECCV 2014.Berlin:Springer,2014:740-755.
[41]PHILLIPS F,MACKINTOSH B.Wiki art gallery,inc.:A case for critical thinking[J].Issues in Accounting Education,2011,26(3):593-608.
[42]ISOLA P,ZHU Junyan,ZHOU Tinghui,et al.Image-to-image translation with conditional adversarial networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:5967-5976.