廉 露,田啟川,譚 潤,張曉行
北京建筑大學(xué)電氣與信息工程學(xué)院,北京 100044
圖像風(fēng)格遷移是計算機(jī)視覺領(lǐng)域的一個研究熱點(diǎn),旨在將一幅圖像中的風(fēng)格、紋理等特征移植到另外一幅圖像中,從而生成一幅新圖像的過程,如圖1 所示,即:將內(nèi)容圖像A 的內(nèi)容特征與風(fēng)格圖像B 的風(fēng)格特征進(jìn)行結(jié)合,生成新的圖像C[1]。由于圖像的復(fù)雜性和多樣性,要達(dá)到理想的圖像風(fēng)格遷移效果極具挑戰(zhàn)性。許多學(xué)者嘗試應(yīng)用數(shù)學(xué)、物理和計算機(jī)等領(lǐng)域知識,不斷拓展和改進(jìn)圖像風(fēng)格遷移的理論方法,提出新的算法和模型,以提高圖像風(fēng)格遷移的效果。
圖1 圖像風(fēng)格遷移示意圖Fig.1 Schematic diagram of image style transfer
深度學(xué)習(xí)[2-4]的出現(xiàn),因其強(qiáng)大的表征能力和學(xué)習(xí)能力,為圖像風(fēng)格遷移帶來了新的實(shí)現(xiàn)途徑,并推動圖像風(fēng)格遷移在計算機(jī)視覺領(lǐng)域取得了巨大的進(jìn)展。
本文旨在梳理圖像風(fēng)格遷移方法的發(fā)展歷程,探討不同方法的原理和優(yōu)缺點(diǎn),分析目前面臨的挑戰(zhàn)和未來可能的研究方向。通過全面審視圖像風(fēng)格遷移領(lǐng)域的相關(guān)工作,進(jìn)一步推動該領(lǐng)域的發(fā)展,為實(shí)現(xiàn)更準(zhǔn)確、高效的圖像風(fēng)格遷移提供參考。
目前國內(nèi)外廣泛應(yīng)用的圖像風(fēng)格遷移方法有多種,根據(jù)風(fēng)格遷移的實(shí)現(xiàn)方法和理論基礎(chǔ)的不同可劃分為:傳統(tǒng)的圖像風(fēng)格遷移與基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移。其中傳統(tǒng)方法側(cè)重于人工設(shè)計特征提取和數(shù)學(xué)優(yōu)化,而基于神經(jīng)網(wǎng)絡(luò)的方法則側(cè)重于端到端的學(xué)習(xí),以數(shù)據(jù)訓(xùn)練為主。整理了圖像風(fēng)格遷移的具體方法類型、優(yōu)缺點(diǎn)和適用場景如表1 所示,其發(fā)展歷程如圖2 所示。從傳統(tǒng)的圖像風(fēng)格遷移與基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移兩個方面來綜述。
表1 圖像風(fēng)格遷移方法匯總Table 1 Summary of image style transfer methods
圖2 圖像風(fēng)格遷移發(fā)展脈絡(luò)圖Fig.2 Evolution diagram of image style transfer
傳統(tǒng)的圖像風(fēng)格遷移主要從計算機(jī)圖形學(xué)領(lǐng)域和計算機(jī)視覺領(lǐng)域進(jìn)行探討?;谟嬎銠C(jī)圖形學(xué)領(lǐng)域的圖像風(fēng)格遷移,即非真實(shí)感繪制[51-54](non-photorealistic rendering,NPR),分為三類:基于筆觸渲染思想的方法(stroke-based rendering,SBR)、基于圖像類比思想的方法(image analogy)、基于濾波處理思想的方法(image filtering)。而基于計算機(jī)視覺領(lǐng)域,主要為基于紋理合成思想的圖像風(fēng)格遷移。傳統(tǒng)的圖像風(fēng)格遷移方法雖然比較簡單易懂,但在可控性、效果、速度等方面仍有些限制。
1.1.1 基于筆觸渲染思想的圖像風(fēng)格遷移
1990年,Haeberli[5]首次提出了基于筆觸渲染思想的方法,在需要進(jìn)行風(fēng)格遷移的內(nèi)容圖像上,通過控制單個筆刷的位置、顏色、形狀、大小和方向,逐步增加筆觸至收斂,得到以特定風(fēng)格轉(zhuǎn)化的圖像,以探索單個圖像的許多不同表示形式?;诠P觸渲染的圖像風(fēng)格遷移方法對于某些特定的風(fēng)格,能夠得到較好的遷移效果,但前提是要先確定某一種風(fēng)格特征,不能隨時拓展轉(zhuǎn)換為其他風(fēng)格,并且計算量相比較而言較大。
1.1.2 基于圖像類比思想的圖像風(fēng)格遷移
基于圖像類比思想的圖像風(fēng)格遷移最早由Hertzmann等人[6]在2001 年提出,此方法基于多尺度自回歸,通過對輸入的內(nèi)容圖像與風(fēng)格圖像及對應(yīng)的濾波后的圖像進(jìn)行特征提取,將其進(jìn)行對應(yīng)匹配,得到圖像之間的映射關(guān)系,從而實(shí)現(xiàn)風(fēng)格遷移。該方法雖然可以實(shí)現(xiàn)多風(fēng)格的圖像風(fēng)格遷移,但是需要成對的數(shù)據(jù)集,在現(xiàn)實(shí)世界成對的數(shù)據(jù)集是很難得到的,并且對于特征信息的提取難以詳細(xì)地捕捉,得到的遷移結(jié)果可能會出現(xiàn)語義模糊、細(xì)節(jié)丟失和非自然效果等問題,其效果并不理想。
1.1.3 基于濾波處理思想的圖像風(fēng)格遷移
基于濾波處理思想的圖像風(fēng)格遷移,通過濾波器對圖像進(jìn)行處理和渲染以達(dá)到簡化及抽象的目的,呈現(xiàn)圖像的另一種效果[7]。此方法實(shí)施簡單,通過調(diào)整濾波器的參數(shù),就可以控制渲染的程度,以此獲得不同的風(fēng)格效果?;跒V波處理思想的方法實(shí)現(xiàn)速度快,能夠得到近乎實(shí)時的效果,對于需快速處理大量圖像的應(yīng)用場景非常有益。另外,該方法能夠提供穩(wěn)定的圖像渲染的效果,使得遷移后的圖像在視覺上更加平滑和連貫。但是由于采用特定的濾波器,圖像風(fēng)格的類型選擇受到限制,不能適用于不同類型的圖像風(fēng)格,需根據(jù)具體需求對濾波器進(jìn)行調(diào)整。這可能需要一定的時間和嘗試,以獲得最佳的圖像風(fēng)格遷移效果。
1.1.4 基于紋理合成思想的圖像風(fēng)格遷移
基于紋理合成思想的圖像風(fēng)格遷移,也稱為紋理遷移(texture transfer)。在傳統(tǒng)的風(fēng)格遷移中,紋理合成通常被認(rèn)為是最復(fù)雜和最有效的技術(shù)之一,因?yàn)樗鼘D像的局部信息進(jìn)行了一定程度的控制。1999 年,Efros等人[8]提出了基于非參數(shù)采樣的紋理遷移算法,使用馬爾可夫隨機(jī)場(Markov random field,MRF)非參數(shù)模型,通過樣本圖像找到所有相似的鄰域來估計已合成的所有鄰域像素的條件分布。2001年,Efros等人[9]提出了image quilting,該算法主要解決了如何在圖像中保持紋理的連續(xù)性和一致性?;诩y理合成的圖像風(fēng)格遷移具有可控性、適應(yīng)性,但是生成的圖像缺乏真實(shí)感和多樣性,紋理效果比較單調(diào),需要依賴大量的預(yù)處理工作。
隨著深度學(xué)習(xí)的發(fā)展和應(yīng)用,基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移[55-56]逐漸成為風(fēng)格遷移研究的重要方向,主要分為基于圖像迭代的圖像風(fēng)格遷移方法和基于模型迭代的圖像風(fēng)格遷移方法。其具體方法類型、優(yōu)缺點(diǎn)及適用場景等,如表2所示。
表2 基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移方法匯總Table 2 Summary of image style transfer based on neural network methods
1.2.1 基于圖像迭代的圖像風(fēng)格遷移
基于圖像迭代的圖像風(fēng)格遷移主要是對白噪聲圖像進(jìn)行優(yōu)化。其思想主要是通過對輸入圖像進(jìn)行迭代優(yōu)化來獲得目標(biāo)風(fēng)格的效果。基本過程是使用白噪聲圖像作為初始輸入圖像,迭代中計算輸入圖像與目標(biāo)圖像在內(nèi)容和風(fēng)格上的差異,通過梯度下降的優(yōu)化算法不斷迭代調(diào)整輸入圖像的像素值,使其與目標(biāo)圖像在內(nèi)容和風(fēng)格上更加接近,直到達(dá)到滿意的效果。
基于圖像迭代的圖像風(fēng)格遷移方法的典型代表有五種,分別是基于Gram矩陣的圖像風(fēng)格遷移、基于最大均值差異的圖像風(fēng)格遷移、基于馬爾可夫隨機(jī)場的圖像風(fēng)格遷移、基于深度圖像類比的圖像風(fēng)格遷移,以及基于松弛最優(yōu)傳輸和自相似性的圖像風(fēng)格遷移。
(1)基于Gram矩陣的圖像風(fēng)格遷移
Gram矩陣[57]是線性代數(shù)和信號處理中常用的一個概念。如圖3所示,將輸入圖像的特征圖像進(jìn)行扁平化操作和矩陣轉(zhuǎn)置操作,再對兩個作內(nèi)積得到Gram 矩陣??傊?,Gram矩陣用來度量向量之間的相似度、特征之間的相關(guān)性以及風(fēng)格之間的差異,是一種用于描述向量關(guān)系的有效工具。
圖3 Gram矩陣示意圖Fig.3 Schematic diagram of Gram matrix
隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的迅速崛起,2015 年,Gatys 等人[10-12]首次通過重建VGGNet[58](visual geometry group network)的中間層抽象特征,從而實(shí)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移的開山之作。其核心思想是利用VGG16中不同層次的特征表示能力,將圖像的內(nèi)容信息分離提取,并且Gram矩陣可以將風(fēng)格信息進(jìn)行分離提取,在優(yōu)化過程中,為了可視化不同層的圖像信息,通過使用梯度下降等方法,不斷調(diào)整生成圖像的像素值,達(dá)到最小化的總損失函數(shù)。具體而言,其總損失函數(shù)Ltotal()I,Ic,Is表示如下:
其中,I為隨機(jī)白噪聲圖像,Ic為內(nèi)容圖像,Is為風(fēng)格圖像,α與β分別表示圖像的內(nèi)容損失函數(shù)Lcontent(I,Ic)和風(fēng)格損失函數(shù)Lstyle(I,Is)重建的加權(quán)因子。其中,Lcontent(I,Ic)表示為兩個特征之間的平方差:
其中,wl是每一層對總風(fēng)格損失的加權(quán)因子,El表示在VGG16的第l層中的風(fēng)格損失函數(shù),表示如下:
其中,Nl表示l層中濾波器的數(shù)量,Ml表示l層中特征圖像的大小,圖像*在l層特征的Gram 矩陣,表示如下:
其含義是在第l層矢量化特征圖像中的第i個和第j個之間的內(nèi)積。表示圖像在VGG16 的第l層上位于第i個過濾器的位置k處的激活值。
(2)基于最大均值差異的圖像風(fēng)格遷移
Gatys 等人[10-12]的結(jié)果令人驚嘆,但其Gram 矩陣表示風(fēng)格遷移的原理還不清楚。因此,2017 年,Li 等人[13]通過將其視為領(lǐng)域自適應(yīng)問題,提出了一種新的神經(jīng)風(fēng)格遷移解釋,即從理論上證明了匹配特征圖像的Gram 矩陣等價于用二階多項(xiàng)式核最小化的最大均值差異(maximum mean discrepancy,MMD)。這表明風(fēng)格遷移本質(zhì)上是圖像之間神經(jīng)激活的分布對齊過程,此外,還嘗試了其他分布對齊方法,包括具有不同內(nèi)核的MMD 和簡化的矩匹配方法,實(shí)現(xiàn)了多樣化且合理的風(fēng)格遷移結(jié)果。
(3)基于馬爾可夫隨機(jī)場的圖像風(fēng)格遷移
在神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移算法之前,基于MRF 的圖像合成一直是圖像風(fēng)格遷移的經(jīng)典方式,神經(jīng)網(wǎng)絡(luò)問世后,Li 和Wand[14]最早提出了一種基于MRF 的深度卷積神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移算法,使用MRF 的損失函數(shù)代替了Gatys 等人[10-12]提出的Gram 矩陣的損失函數(shù),將圖像風(fēng)格通過特征映射分成若干區(qū)域進(jìn)行匹配,并尋找與其最接近的風(fēng)格區(qū)域。其損失函數(shù)Lstyle如下:
其中,I為目標(biāo)圖像,Is為風(fēng)格圖像,Φ( * )為圖像*的特征映射的集合,ψ(Φ( * ))為Φ( * )的一個局部區(qū)域塊,ψNN(i)(Φ( * ))為與風(fēng)格圖像中的第i個局部區(qū)域最相似的風(fēng)格區(qū)域,即最佳匹配塊。該算法的優(yōu)勢在于內(nèi)容圖像和風(fēng)格圖像的內(nèi)容相似時可以取得特別好的效果,但在二者差異較大時容易出現(xiàn)分割后的區(qū)域不能匹配的情況,使遷移結(jié)果不盡人意。
曾憲華等人[15]結(jié)合文獻(xiàn)[10-12]和文獻(xiàn)[14]的特征表達(dá)方法,使用Gram矩陣和MRF表達(dá)特征計算分別體現(xiàn)圖像的全局風(fēng)格損失和局部風(fēng)格損失,從而構(gòu)建總風(fēng)格損失,再保留圖像宏觀與微觀圖像信息以提升了圖像風(fēng)格信息的質(zhì)量,同時在顏色空間上約束圖像變化來限制圖像紋理扭曲,使生成圖像更加真實(shí)。
(4)基于深度圖像類比的圖像風(fēng)格遷移
為了更好地在兩個輸入圖像之間建立語義上有意義的密集對應(yīng)關(guān)系,2017 年,Liao 等人[16]提出了一種新的圖像視覺屬性遷移技術(shù),即深度圖像類比,利用圖像類比的概念以及深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建一個深度特征空間[59],類比不同圖像域之間的映射,實(shí)現(xiàn)視覺屬性上的遷移。
由于直接匹配輸入內(nèi)容圖像A與風(fēng)格圖像B′并非易事,此處將映射表述為雙向約束的圖像類比問題為A:A′::B:B′,其中A′與B是未知的潛在變量,顯然這里的類比相當(dāng)于兩個潛在的約束:(a)A與A′(或B與B′)在相同的空間位置對應(yīng),即在內(nèi)容信息特征相似;(b)A與B(或A′與B′)在外觀上相似,即在風(fēng)格信息特征相似。
深度圖像類比算法從VGG19網(wǎng)絡(luò)預(yù)先計算輸入圖像A與B′提取其在L層的特征映射,隨機(jī)初始化映射關(guān)系函數(shù),計算前向最近鄰域(nearest neighbor field,NNF)和反向NNF,建立A與B的特征圖像之間的對應(yīng)關(guān)系以及A′與B′的特征圖像之間的對應(yīng)關(guān)系。當(dāng)前層獲得的NNF進(jìn)一步上采樣到下一層作為其初始化,并重復(fù)操作NNF,更新對應(yīng)關(guān)系。在合成圖像中保留源圖像的內(nèi)容和目標(biāo)圖像的風(fēng)格,同時生成真實(shí)感高、細(xì)節(jié)準(zhǔn)確和風(fēng)格可控的風(fēng)格遷移結(jié)果,并且注重局部特征的匹配和傳遞,提高了風(fēng)格遷移的一致性。
(5)基于松弛最優(yōu)傳輸和自相似性的圖像風(fēng)格遷移
Kolkin 等人[17]為了解決風(fēng)格遷移算法中內(nèi)容和風(fēng)格之間的權(quán)衡問題,提出了一種基于松弛最優(yōu)傳輸和自相似性風(fēng)格遷移算法(style transfer by relaxed optimal transport and self-similarity,STROTSS)來定義內(nèi)容和風(fēng)格,并引入了用戶指定的點(diǎn)對點(diǎn)或區(qū)域?qū)^(qū)域的控制來提高用戶對算法輸出的控制能力。具體來說,通過梯度下降算法的變體RMSprop[60]來最小化兩個圖像之間的風(fēng)格和內(nèi)容差異來實(shí)現(xiàn)風(fēng)格遷移。其中,風(fēng)格相似性是通過計算兩個圖像的特征向量之間的EMD[61](earth movers distance)來近似計算的,內(nèi)容保留是通過計算兩個圖像的余弦距離的差異來保留的,并通過用戶指定的控制來約束輸出的風(fēng)格。其風(fēng)格損失函數(shù)Lstyle(I,Is):
其中,I為目標(biāo)圖像,Is為風(fēng)格圖像,α表示內(nèi)容保存對風(fēng)格化的相對重要性,?m、?r和?p是Lstyle( )I,Is的風(fēng)格項(xiàng)。在風(fēng)格損失中使用EMD 發(fā)現(xiàn)其最佳成本太高,因此對于梯度下降的風(fēng)格遷移使用松弛EMD[62](relaxed EMD,REMD),這里的計算主要由代價矩陣主導(dǎo),即兩個特征向量之間的余弦距離。但余弦距離忽略了特征向量的大小,導(dǎo)致輸出圖像中存在偽影,因此添加了一個矩匹配損失?m。此外,還添加了一個顏色匹配損失?p以使輸出和風(fēng)格圖像具有相似的調(diào)色板。
1.2.2 基于模型迭代的圖像風(fēng)格遷移
基于圖像迭代的圖像風(fēng)格遷移方法在一定程度上可以實(shí)現(xiàn)質(zhì)量高、可控性好的目標(biāo)風(fēng)格的效果,但計算效率較差。而基于模型迭代的圖像風(fēng)格遷移方法,在很大程度上解決了計算效率低下的問題,即主要是對模型進(jìn)行優(yōu)化。
下面從生成單一風(fēng)格、生成多風(fēng)格,以及生成任意風(fēng)格的圖像風(fēng)格遷移的經(jīng)典方法進(jìn)行綜述。
(1)單一風(fēng)格的圖像風(fēng)格遷移
2016 年,Justin 等人[18]首次提出了使用模型迭代進(jìn)行優(yōu)化的圖像風(fēng)格遷移方法,被稱為快速風(fēng)格遷移(fast neural style transfer),如圖4 所示,其網(wǎng)絡(luò)架構(gòu)主要由圖像轉(zhuǎn)換網(wǎng)絡(luò)與損失網(wǎng)絡(luò)兩部分組成,其中圖像轉(zhuǎn)換網(wǎng)絡(luò)以殘差網(wǎng)絡(luò)[63]為基礎(chǔ),使用隨機(jī)梯度下降(stochastic gradient descent,SGD)訓(xùn)練,在MS-COCO(Microsoft COCO:common objects in context)數(shù)據(jù)集[64]上訓(xùn)練圖像轉(zhuǎn)換網(wǎng)絡(luò)。
圖4 快速風(fēng)格遷移架構(gòu)示意圖Fig.4 Schematic diagram of fast neural style transfer architecture
其損失函數(shù)的加權(quán)組合表示為:
其中,λ*表示各損失函數(shù)的權(quán)重系數(shù),特征重建損失函數(shù)Lfeat(I,Ic)表示圖像之間的歐幾里得距離,風(fēng)格重建損失函數(shù)Lstyle(I,Is)是圖像的Gram 矩陣之間差異的平方Frobenius 范數(shù),而全變差正則化作為圖像平滑損失函數(shù)LTV(I),以保障生成圖像的空間光滑性。并且Lfeat(I,Ic)和Lstyle(I,Is)構(gòu)成感知損失函數(shù),以衡量圖像之間的高級感知和語義差異。
Fast neural style transfer相較于Gatys等人[10-12]提出的neural style transfer 的創(chuàng)新之處在于模型中引入了圖像轉(zhuǎn)換網(wǎng)絡(luò),使用深層特征訓(xùn)練該網(wǎng)絡(luò),并結(jié)合梯度反向傳播來調(diào)整網(wǎng)絡(luò)參數(shù),實(shí)現(xiàn)不同的圖像轉(zhuǎn)換任務(wù),使生成圖像具有風(fēng)格圖像的風(fēng)格特征與內(nèi)容圖像的內(nèi)容特征。
與之有著異曲同工之處的是Ulyanov等人[19]提出的“texture networks”算法,不同之處在于Justin 等人[18]主要探討了如何使用感知損失函數(shù)來實(shí)現(xiàn)實(shí)時的圖像風(fēng)格遷移和超分辨率重建。Ulyanov等人[19]主要關(guān)注的是紋理合成和圖像風(fēng)格化,在Gatys等人[10-12]之后首次提出利用訓(xùn)練好的前饋網(wǎng)絡(luò)實(shí)時生成紋理與風(fēng)格,生成網(wǎng)絡(luò)使用一個多尺度的金字塔,相比較Justin 等人[18]的模型缺少一定程度的自適應(yīng)性。Wang等人[20]提出了一種分層的多模態(tài)卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)考慮了顏色和亮度通道結(jié)構(gòu)的完整性表示,并通過不同尺度的損失分層執(zhí)行風(fēng)格化,通過離線進(jìn)行更復(fù)雜的訓(xùn)練來近乎實(shí)時地執(zhí)行風(fēng)格遷移,并且使用多種模態(tài)在多個尺度上正確處理風(fēng)格和紋理線索,不僅可以轉(zhuǎn)移大規(guī)模、明顯的風(fēng)格線索,還可以傳遞更為細(xì)致的風(fēng)格線索。2017年,Ulyanov等人[21]通過優(yōu)化KL(Kullback-Leibler)散度,并引入了實(shí)例歸一化(instance normalization,IN)模塊來代替批量歸一化[65](batch normalization,BN),顯著提高了圖像風(fēng)格化的質(zhì)量。
隨著生成對抗網(wǎng)絡(luò)[66](generative adversarial networks,GAN)的發(fā)展,研究者們開始探索如何將GAN應(yīng)用于圖像風(fēng)格遷移任務(wù)。最早的基于GAN的圖像風(fēng)格遷移方法是通過訓(xùn)練一個條件生成對抗網(wǎng)絡(luò)[22](conditional generative adversarial networks,CGAN)來實(shí)現(xiàn)的,其中判別器網(wǎng)絡(luò)不僅能夠判斷圖像的真?zhèn)?,還判斷圖像是否與目標(biāo)風(fēng)格匹配,提取的圖像特征具有很好的泛化性。但是這種方法需要大量的配對數(shù)據(jù)集,限制了其在實(shí)際應(yīng)用中的可行性。而基于深度卷積生成對抗網(wǎng)絡(luò)[23](deep convolution generative adversarial networks,DCGAN)的方法通過自動學(xué)習(xí)特征表示,能夠更好地捕捉圖像的內(nèi)容和風(fēng)格信息。該方法對于大規(guī)模數(shù)據(jù)集的訓(xùn)練需要較長的時間和大量的計算資源,在一些特定場景下可能會出現(xiàn)生成圖像的內(nèi)容與目標(biāo)圖像不一致的問題,即內(nèi)容失真。Li 等人[24]在GAN 的基礎(chǔ)上結(jié)合MRF,提出了馬爾可夫生成對抗網(wǎng)絡(luò)(Markovian generative adversarial networks,MGANs)訓(xùn)練生成神經(jīng)網(wǎng)絡(luò),并在不使用大量數(shù)據(jù)的情況下,提高深度馬爾可夫紋理合成的效率,可生成高質(zhì)量的圖像。為了突破配對數(shù)據(jù)集的限制,文獻(xiàn)[25]采用了一種雙向循環(huán)的結(jié)構(gòu),實(shí)現(xiàn)了循環(huán)生成對抗網(wǎng)絡(luò)(cycle generative adversarial networks,CycleGAN),可以在源域和目標(biāo)域之間學(xué)習(xí)圖像轉(zhuǎn)換,即在沒有配對輸入輸出樣本的情況下,將一組圖像轉(zhuǎn)換為另一組圖像。其關(guān)鍵是將無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)相結(jié)合,使用對抗性損失函數(shù)和循環(huán)一致性損失函數(shù)訓(xùn)練無監(jiān)督GAN 模型,并以無監(jiān)督的方式解決監(jiān)督學(xué)習(xí)中的數(shù)據(jù)稀疏性問題。為了做到對特征的控制,Karras等人[26]提出了StyleGAN,但隨著其廣泛使用,該網(wǎng)絡(luò)在生成圖像時會出現(xiàn)紋理粘附效應(yīng),為了避免這類問題,Karras等人[27]改進(jìn)網(wǎng)絡(luò)StyleGAN2,模塊之間的耦合度減少了很多,能夠生成效果較好的圖像,但在平移或旋轉(zhuǎn)時,細(xì)節(jié)方面存在滯留現(xiàn)象,無法精細(xì)化處理。因此,Karras 等人[28]為了完全恢復(fù)網(wǎng)絡(luò)的平移不變性,提出了StyleGAN3 架構(gòu),從根本上實(shí)現(xiàn)了真正意義上的空間位置不變性,大大提高了圖像的質(zhì)量。毛文濤等人[29]提出一種國漫生成對抗網(wǎng)絡(luò)模型CCGAN(Chinese cartoon GAN),有效提升圖像信息的同時,凸顯中國傳統(tǒng)美學(xué)的意蘊(yùn)風(fēng)格意境,同時無需大量計算,適用于視頻風(fēng)格化。孫天鵬等人[30]提出了Expression-GAN和SceneryGAN,并結(jié)合運(yùn)用生成局部寫實(shí)主義動漫模型,解決了細(xì)節(jié)丟失嚴(yán)重、色彩失真等問題并且消除了生成圖像中的歧義像素塊。
綜上所述,以上方法需要為每種風(fēng)格單獨(dú)訓(xùn)練一個模型,使得擴(kuò)展到其他風(fēng)格的時間成本過大。
(2)多風(fēng)格的圖像風(fēng)格遷移
針對生成單一風(fēng)格時間成本過大的問題,Dumoulin等人[31]在IN[21]的基礎(chǔ)上為每個風(fēng)格增加了一組γ和β參數(shù),使它們是N×C矩陣,其中N是正在建模的風(fēng)格數(shù),C是輸出特征圖像的數(shù)量,提出了條件實(shí)例歸一化(conditional instance normalization,CIN),使其能夠?qū)W習(xí)多種風(fēng)格。對風(fēng)格進(jìn)行條件化z如下:
其中,μ和σ是輸入層的特征圖像x在空間軸上取的均值和標(biāo)準(zhǔn)差,參數(shù)向量γs和βs是通過選擇γ和β矩陣中索引風(fēng)格標(biāo)簽s對應(yīng)的行來獲得的,其CIN 過程如圖5所示。
圖5 CIN過程示意圖Fig.5 Schematic diagram of CIN process
CIN的目標(biāo)是將一個層的激活x轉(zhuǎn)化為針對風(fēng)格s的歸一化激活z。其網(wǎng)絡(luò)的所有卷積權(quán)重都可在許多風(fēng)格之間共享,并且在每種風(fēng)格進(jìn)行歸一化后調(diào)整仿射變換的參數(shù)即可,其中一組γ和β代表一種風(fēng)格。但是風(fēng)格種類也不能訓(xùn)練太多,因?yàn)樵趦?nèi)容和風(fēng)格表達(dá)上可能隨著參數(shù)的增加,網(wǎng)絡(luò)效率降低,而導(dǎo)致結(jié)果的落后。
為了避免上述的問題,Li等人[32]提出了一種深度生成前饋網(wǎng)絡(luò)的多樣化紋理合成,可以有效地合成單個網(wǎng)絡(luò)中的多個紋理,并能在測試階段通過插值的方法生成新的紋理。這里將紋理表示為one-hot選擇單元的連續(xù)嵌入向量,其體系架構(gòu)如圖6所示。
圖6 多紋理合成網(wǎng)絡(luò)體系架構(gòu)Fig 6 Multi-texture synthesis network architecture
在構(gòu)建紋理損失函數(shù)時,發(fā)現(xiàn)直接使用Gram 矩陣生成的紋理存在明顯的偽影和顏色混合問題,因此提出使用計算兩個激活之間的內(nèi)積之前減去平均值去改進(jìn)Gram 矩陣,其修改后的Gram 矩陣Gˉij以及紋理損失函數(shù)Ltexture如下:
其中,F(xiàn)*k為損失網(wǎng)絡(luò)當(dāng)前層位于k處的第*個濾波器的向量化的激活值,F(xiàn)ˉ為損失網(wǎng)絡(luò)當(dāng)前層中所有激活的平均值。為了衡量同種風(fēng)格在不同噪聲下結(jié)果的差異大小,加入多樣性損失函數(shù)Ldiversity如下:
其中,N為輸入的風(fēng)格樣本目標(biāo){P1,P2,…,PN}的個數(shù),Φ( * )表示用VGG 網(wǎng)絡(luò)Conv4_2 層提取到的特征,Pi為風(fēng)格樣本目標(biāo)的第i個輸出,Qi相當(dāng)于對P進(jìn)行重排。
此外,Chen 等人[33]的思想與Dumoulin 等人[31]遵循的想法一樣,僅將少量參數(shù)綁定到每種風(fēng)格。其關(guān)鍵在于StyleBank設(shè)計,由多個卷積濾波器庫組成,每個濾波器庫明確地表示一種風(fēng)格。為了將圖像轉(zhuǎn)換為特定的風(fēng)格,對應(yīng)的濾波器庫與單個自編碼器生成的內(nèi)容圖像的中間特征圖像進(jìn)行卷積,將原始圖像分解為多個特征響應(yīng)圖像,StyleBank 將映射到內(nèi)容圖像以產(chǎn)生不同的風(fēng)格化結(jié)果。上述兩者的方法花費(fèi)時間短,但是隨著學(xué)習(xí)風(fēng)格數(shù)量的增加,模型規(guī)模通常會變大,進(jìn)而影響圖像質(zhì)量和模型的靈活性。Zhang等人[34]通過充分探索單個網(wǎng)絡(luò)的能力并將內(nèi)容和風(fēng)格結(jié)合到網(wǎng)絡(luò)中進(jìn)行風(fēng)格識別,提出了一種新的CoMatch 層,用于匹配目標(biāo)風(fēng)格的二階特征統(tǒng)計,從而實(shí)現(xiàn)了更準(zhǔn)確的多風(fēng)格建模。同時,構(gòu)建了一個多風(fēng)格生成網(wǎng)絡(luò)(multi-style generative network,MSG-Net),提高了實(shí)時性。喬平安等人[35]為解決動漫風(fēng)格遷移中出現(xiàn)的參數(shù)量較大、圖像紋理和顏色損失等問題,提出了MC_CartoonGAN 模型,從而提高資源的利用率、降低參數(shù)量。Chung 等人[36]為了解決手繪和真實(shí)圖像之間邊緣結(jié)構(gòu)的巨大差異,通過CycleGAN與pix2pix結(jié)合并添加景物標(biāo)簽功能建立BEGAN,從而增強(qiáng)邊界圖像的細(xì)節(jié),生成更準(zhǔn)確的真實(shí)圖像。Wang等人[37]將水墨風(fēng)格遷移看作非對稱翻譯任務(wù),提出了一種asymmetric cycle-consistent GAN 的遷移方法,使用未配對數(shù)據(jù)集進(jìn)行訓(xùn)練,有效學(xué)習(xí)從真實(shí)圖像到水墨圖像的風(fēng)格映射關(guān)系,從而解決兩個域之間的信息差異,生成逼真且程式化的水墨圖像。
(3)任意風(fēng)格的圖像風(fēng)格遷移
研究人員也不斷探索如何實(shí)現(xiàn)基于任意風(fēng)格的圖像風(fēng)格遷移,這意味著模型需要能夠接受任意風(fēng)格的輸入,而不僅僅局限于預(yù)定義的風(fēng)格樣本。這樣的任務(wù)更具挑戰(zhàn)性,因?yàn)樗竽P途邆鋵︼L(fēng)格進(jìn)行更細(xì)粒度的理解和學(xué)習(xí)能力。
Chen 等人[38]引入了一種基于局部匹配的前饋網(wǎng)絡(luò)的方法,旨在將內(nèi)容結(jié)構(gòu)和風(fēng)格紋理通過交換層結(jié)合在預(yù)訓(xùn)練網(wǎng)絡(luò)的單一層中,并且訓(xùn)練一個逆網(wǎng)絡(luò)(inverse network,INV),從而實(shí)現(xiàn)圖像的任意風(fēng)格遷移。其基本思想是在預(yù)訓(xùn)練的VGG 網(wǎng)絡(luò)特征空間中,找到與內(nèi)容區(qū)域塊匹配的風(fēng)格區(qū)域塊后,進(jìn)行內(nèi)容區(qū)域塊與風(fēng)格區(qū)域塊的交換,然后提取多個內(nèi)容特征塊和風(fēng)格特征塊,并以逐塊的方式用最接近的匹配風(fēng)格特征塊替換內(nèi)容特征塊(style swap),將style swap后的結(jié)果輸入進(jìn)INV中,得到風(fēng)格化后的結(jié)果圖像。文獻(xiàn)[38]風(fēng)格遷移過程,如圖7所示。
圖7 文獻(xiàn)[38]風(fēng)格遷移示意圖Fig.7 Schematic diagram of style transfer in reference [38]
由于style swap 需要花費(fèi)大量的計算時間,所導(dǎo)致整體效率的緩慢,Huang 等人[39]受IN[21]的啟發(fā)提出了自適應(yīng)實(shí)例歸一化(adaptive instance normalization,AdaIN),利用編碼和解碼結(jié)構(gòu),無需學(xué)習(xí)任何仿射參數(shù),首次實(shí)現(xiàn)了實(shí)時的圖像的任意風(fēng)格遷移,其公式如下:
其中,x和y分別表示內(nèi)容圖像與風(fēng)格圖像的特征圖像,μ( * )和σ( * )分別是*的均值和標(biāo)準(zhǔn)差。AdaIN 過程如圖8所示,得到輸入圖像的特征圖像計算其均值和標(biāo)準(zhǔn)差,用內(nèi)容特征減本身均值再除以標(biāo)準(zhǔn)差,從而實(shí)現(xiàn)去風(fēng)格化,再乘以風(fēng)格特征的均值加其標(biāo)準(zhǔn)差實(shí)現(xiàn)風(fēng)格化,經(jīng)過解碼器映射出結(jié)果圖像。其中,t為生成的目標(biāo)特征圖像,g( * )為解碼器,T為生成風(fēng)格化圖像。
圖8 AdaIN過程示意圖Fig.8 Schematic diagram of AdaIN process
其整體思想如圖9 所示,為使用固定VGG-19 網(wǎng)絡(luò)的前幾層來編碼內(nèi)容圖像和風(fēng)格圖像,分別提取出內(nèi)容圖像和風(fēng)格圖像的特征圖像,在特征空間中將特征圖像輸入到AdaIN層用于執(zhí)行風(fēng)格遷移,將內(nèi)容特征的均值和方差與風(fēng)格特征的均值和方差對齊,從而得到融合的特征圖像,訓(xùn)練解碼器以將AdaIN 輸出反轉(zhuǎn)到圖像空間,使用相同的VGG 編碼器來計算內(nèi)容和風(fēng)格損失。AdaIN對于圖像風(fēng)格遷移的速度較快,因其只關(guān)注風(fēng)格的遷移而忽略了內(nèi)容的保留,使得捕獲風(fēng)格圖像的紋理不夠細(xì)節(jié)化,風(fēng)格化后的結(jié)果圖像的風(fēng)格特征不明顯,更多的是顏色上的遷移,因此風(fēng)格上的泛化能力有限。
圖9 文獻(xiàn)[39]風(fēng)格遷移示意圖Fig.9 Schematic diagram of style transfer in reference [39]
Li 等人[40]提出的白化和著色變換(whitening and coloring transforms,WCT),以匹配內(nèi)容和風(fēng)格中間特征之間的統(tǒng)計分布和相關(guān)性,來完全捕獲風(fēng)格從高到低層次的特征,其結(jié)果與泛化性能更好。其多級風(fēng)格化流程如圖10所示。
圖10 多級風(fēng)格化示意圖Fig.10 Schematic diagram of multi-level stylized
采用預(yù)訓(xùn)練的VGG-19網(wǎng)絡(luò)作為編碼器,為了評估在不同層提取的特征,在VGG-19中設(shè)計五層對特征進(jìn)行提取,并設(shè)計與之對應(yīng)的解碼器。輸入的內(nèi)容圖像Ic與風(fēng)格圖像Is經(jīng)過高層的編碼器提取對應(yīng)的特征圖像fc、fs,對fc先減去其均值mc,再進(jìn)行白化轉(zhuǎn)換如公式(14),有助于從輸入的內(nèi)容圖像中剝離風(fēng)格特征信息,同時保留全局內(nèi)容結(jié)構(gòu)。同樣對fs先減去其均值ms,再進(jìn)行著色轉(zhuǎn)換如公式(15),再加上之前減去的ms,完成整個WCT 操作,使內(nèi)容特征圖像的協(xié)方差矩陣Dc與風(fēng)格特征圖像的協(xié)方差矩陣Ds相匹配,解碼器以將WCT的輸出反轉(zhuǎn)到圖像空間,進(jìn)行圖像重建,得到風(fēng)格化后的圖像I*,其大小與原圖大小相同。此時將前一層的I*作為較低一層的內(nèi)容圖像的輸入,執(zhí)行與上述同樣的步驟,直至最底層完成,得到最終的結(jié)果圖像I。
其中,E*對應(yīng)*的正交矩陣。
由于WCT 在面對多維特征時間成本過大,并且會對內(nèi)容特征造成一定的扭曲。因此,Park等人[41]提出了風(fēng)格注意力網(wǎng)絡(luò)(style-attentional networks,SANet),其網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示。將提取的內(nèi)容圖像和風(fēng)格圖像的特征圖像Fc、Fs進(jìn)行均值方差歸一化得到Fˉc、Fˉs,然后轉(zhuǎn)換為兩個特征空間f、g,進(jìn)行softmax歸一化,再與Fs經(jīng)過轉(zhuǎn)換為特征空間h,最終得到兩者的特征圖像Fcs。為了考慮內(nèi)容特征和風(fēng)格特征之間的全局統(tǒng)計和語義局部映射,Park 等人[41]還提出了一種身份損失函數(shù),如下所示:
圖11 SANet網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.11 Schematic diagram of SANet network structure
其中,λ*表示身份損失權(quán)重,Φi( * )為圖像*在編碼器第i層的特征圖像,Icc(Iss)表示從兩個相同的內(nèi)容(風(fēng)格)圖像合成的輸出圖像。由于身份損失是從相同的輸入圖像計算,風(fēng)格特征無差距。因此,身份損失能夠同時維護(hù)內(nèi)容結(jié)構(gòu)和風(fēng)格特征。
同年,Yao等人[42]針對結(jié)果圖像細(xì)節(jié)不足的問題,提出了注意力感知多筆畫模型(attention-aware multi-stroke,AAMS)。在自動編碼器框架引入了自注意力機(jī)制,通過對自注意力組裝自動編碼器執(zhí)行重建訓(xùn)練過程,注意力圖可以掌握任何內(nèi)容圖像中的顯著特征,有助于捕獲圖像區(qū)域之間的長期依賴關(guān)系。然后通過多尺度風(fēng)格交換模塊,將內(nèi)容特征與多尺度風(fēng)格特征交換混合不同的筆畫模式,結(jié)合注意力圖注入到多筆畫融合模塊中,執(zhí)行多筆畫風(fēng)格遷移,實(shí)現(xiàn)了自動的空間筆畫大小控制,但依舊存在仍然會出現(xiàn)局部失真。為解決這一問題,Liu等人[43]提出了一種新的注意力歸一化模塊,即自適應(yīng)注意力歸一化(adaptive attention normalization,AdaAttN),考慮內(nèi)容和風(fēng)格圖像淺層特征和深層特征,學(xué)習(xí)空間注意力分?jǐn)?shù),并通過加權(quán)統(tǒng)計學(xué)來對每個點(diǎn)進(jìn)行自適應(yīng)的注意力歸一化,實(shí)現(xiàn)特征分布的對齊,以減少內(nèi)容失真。在此基礎(chǔ)上,還提出了一種新的局部特征損失,以增強(qiáng)局部視覺質(zhì)量,從而生成高質(zhì)量的風(fēng)格化結(jié)果。但是由于注意方法獨(dú)立地渲染特征點(diǎn),無法捕捉到特征的多樣性分布,產(chǎn)生不一致的風(fēng)格化結(jié)果。Luo等人[44]提出了漸進(jìn)式注意力流形對齊框架(progressive attention manifold alignment,PAMA)來緩解不一致問題并提高風(fēng)格化的質(zhì)量。該框架多次執(zhí)行注意力操作和空間感知插值,動態(tài)地將每個內(nèi)容流形與其最相關(guān)的風(fēng)格流形對齊,從而在區(qū)域之間實(shí)現(xiàn)一致的注意機(jī)制。然而,單個對齊不能為注意力模塊在流形之間建立足夠強(qiáng)的對應(yīng)關(guān)系。因此,采用多階段損失函數(shù)以及圖像重建損失用于保持共享空間以進(jìn)行流形對齊。
近年來,借助GAN[66]的訓(xùn)練,圖像的任意風(fēng)格遷移已取得令人滿意的效果。Cho等人[45]受WCT[40]的啟發(fā)提出了GDWCT(group-wise deep whitening-and-coloring transformation),通過正則化方法并拓展到分組的形式,有效反映風(fēng)格特征,節(jié)省計算時間。Xu 等人[46]集合GAN[66]與AdaIN[39]兩者的優(yōu)點(diǎn),引入了可以與掩碼模塊相結(jié)合的手動控制,進(jìn)一步提出了一種適應(yīng)測試圖像的快速后處理方法,提高了風(fēng)格遷移性能。Huo等人[47]嘗試將內(nèi)容特征與風(fēng)格特征視為兩組流行,提出了基于流形對齊的風(fēng)格遷移(manifold alignment based style transfer,MAST),解決語義對齊的風(fēng)格遷移問題。為了使結(jié)果圖像更具真實(shí)感風(fēng)格,引入了一種新的自適應(yīng)權(quán)重跳躍連接(adaptive weight skip connection,AWSC),從而得到高質(zhì)量的遷移效果。朱仲賢等人[48]針對結(jié)構(gòu)一致性問題,并且受Han 等人[67]的啟發(fā),提出了基于對比學(xué)習(xí)的雙向網(wǎng)絡(luò)模型,以CycleGAN 為基礎(chǔ),采用雙向訓(xùn)練,充分學(xué)習(xí)對應(yīng)區(qū)域映射,并且引入一種新的聯(lián)合對比損失,更好地利用圖像信息,提高遷移質(zhì)量。Zhang等人[49]提出一種Caster視覺組件解決了風(fēng)格遷移動態(tài)學(xué)習(xí)特定領(lǐng)域和領(lǐng)域風(fēng)格信息的問題,采用基于變分自動編碼器的卡通風(fēng)格創(chuàng)作模塊(CSCM)來編碼特定卡通圖像的風(fēng)格信息,將特定的卡通風(fēng)格轉(zhuǎn)換為內(nèi)容特征,更好地控制所需風(fēng)格,并將其擴(kuò)展到其他卡通風(fēng)格的遷移,并且通過對比學(xué)習(xí)來微調(diào)圖像之間的顏色一致性。Yu 等人[50]通過結(jié)合語義和風(fēng)格的約束提出了一種多通道生成對抗網(wǎng)絡(luò),利用注意力機(jī)制和條件歸一化對網(wǎng)絡(luò)進(jìn)行優(yōu)化,提取高質(zhì)量的多層混合特征,此外,通過改進(jìn)特征匹配損失和感知損失,使網(wǎng)絡(luò)生成邊緣更清晰、細(xì)節(jié)更豐富的圖像。
隨著圖像風(fēng)格遷移方法的不斷研究和創(chuàng)新,圖像風(fēng)格化效果的提升也呈現(xiàn)出高速發(fā)展的趨勢。目前,基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移技術(shù)在娛樂領(lǐng)域、商業(yè)領(lǐng)域、計算機(jī)視覺領(lǐng)域都具有廣泛的應(yīng)用。
圖像風(fēng)格遷移在藝術(shù)創(chuàng)作、娛樂領(lǐng)域中被廣泛使用。在日常社交網(wǎng)絡(luò)中,圖像風(fēng)格遷移常常被用作圖像美化,創(chuàng)作個性化的藝術(shù)作品或美化個人照片,增添創(chuàng)造力和趣味性。Prisma[68]作為首次使用基于深度學(xué)習(xí)的圖像風(fēng)格遷移算法的免費(fèi)應(yīng)用程序,可以實(shí)時地將用戶的照片與著名藝術(shù)家的風(fēng)格相結(jié)合。由于其高質(zhì)量圖像的生成,Prisma 在娛樂市場中取得了巨大成功,為用戶提供了一種全新的圖像處理體驗(yàn)。同樣,DeepArt.io[69]平臺也可以實(shí)現(xiàn)藝術(shù)風(fēng)格與用戶圖像的融合與創(chuàng)新,除此之外還支持視頻轉(zhuǎn)換為動態(tài)的藝術(shù)作品。此外,圖像風(fēng)格遷移技術(shù)已經(jīng)應(yīng)用于許多電影、電視劇和游戲制作中,利用圖像風(fēng)格化技術(shù)可以快速將現(xiàn)實(shí)世界的素材轉(zhuǎn)化為具有特定風(fēng)格的畫面。例如,在電視劇《權(quán)力的游戲》中,使用圖像風(fēng)格遷移技術(shù)將場景轉(zhuǎn)化為油畫風(fēng)格,營造出濃厚的中世紀(jì)奇幻感。在電影《封神第一部》中,利用圖像風(fēng)格化技術(shù)將中國傳統(tǒng)文化以及傳統(tǒng)元素轉(zhuǎn)化為莊重而神秘的美學(xué)氛圍,增強(qiáng)了電影的動感和幻想感。這些作品通過圖像風(fēng)格遷移技術(shù)為觀眾帶來了全新的視覺體驗(yàn),提升了娛樂價值和觀賞性。
圖像風(fēng)格遷移在商業(yè)領(lǐng)域中也發(fā)揮著重要作用,許多知名品牌已經(jīng)開始在廣告宣傳、產(chǎn)品展示等方面應(yīng)用圖像風(fēng)格遷移技術(shù)。例如,時尚品牌Gucci利用圖像風(fēng)格遷移技術(shù)將其產(chǎn)品照片轉(zhuǎn)化為藝術(shù)化風(fēng)格,增加了產(chǎn)品的藝術(shù)性和獨(dú)特性,吸引了更多消費(fèi)者的關(guān)注。另外,餐飲連鎖品牌KFC 在社交媒體上推出了獨(dú)特的藝術(shù)風(fēng)格化廣告,通過圖像風(fēng)格遷移技術(shù)為其產(chǎn)品營造出別具一格的宣傳效果。這些品牌的應(yīng)用案例表明,圖像風(fēng)格化技術(shù)已經(jīng)成為商業(yè)廣告和產(chǎn)品展示的創(chuàng)新利器,能夠吸引消費(fèi)者的眼球并增加購買欲望。在廣告和營銷領(lǐng)域,可以使用圖像風(fēng)格遷移技術(shù)來創(chuàng)造出與品牌形象相吻合的視覺風(fēng)格,使其與競爭對手區(qū)別開來,將品牌理念和特色通過獨(dú)特的圖像呈現(xiàn)出來,增強(qiáng)品牌的辨識度和吸引力,從而提升品牌識別度和消費(fèi)者體驗(yàn)。此外,圖像風(fēng)格遷移在產(chǎn)品設(shè)計和虛擬試衣等方面也有潛力應(yīng)用。
圖像風(fēng)格遷移是計算機(jī)視覺領(lǐng)域中的一個重要主題,可用于圖像增強(qiáng)、數(shù)據(jù)增強(qiáng)和圖像翻譯等任務(wù)。通過將特定風(fēng)格的圖像轉(zhuǎn)化為其他風(fēng)格,可以提供更多的數(shù)據(jù)樣本用于模型訓(xùn)練,改善模型的泛化能力。例如,文物數(shù)字拓片生成技術(shù)[70]借助GAN的特征提取能力和數(shù)據(jù)擬合能力,在保留文物本身紋理細(xì)節(jié)的同時,增強(qiáng)生成拓片圖像效果的真實(shí)性,對文物保護(hù)和文化傳承發(fā)揮著至關(guān)重要的作用。圖像風(fēng)格遷移技術(shù)在安全方面的應(yīng)用[71]可以加強(qiáng)圖像識別、監(jiān)控能力以及篡改防御技術(shù),提高反恐、犯罪偵查等方面的效果。其次,在醫(yī)療影像分析方面[72-73],圖像風(fēng)格遷移技術(shù)可以用于將不同設(shè)備采集的醫(yī)學(xué)圖像轉(zhuǎn)化為具有統(tǒng)一風(fēng)格的高質(zhì)量圖像,并且將顏色信息與形態(tài)特征相關(guān)聯(lián),可以幫助醫(yī)生和研究人員更準(zhǔn)確地診斷和治療疾病,為患者提供更好的醫(yī)療服務(wù)。此外,圖像風(fēng)格遷移技術(shù)在智能交通、自動駕駛等方面[74-75]也有著巨大潛力,應(yīng)用此技術(shù)能夠有效提高視覺感知能力。因此,在面對復(fù)雜的實(shí)際駕駛場景時,能準(zhǔn)確識別和理解道路上的各種情況,來減少事故發(fā)生,提高整體的交通效率,從而推動交通安全和城市智能化的發(fā)展。
總的來說,圖像風(fēng)格遷移技術(shù)對娛樂體驗(yàn)、商業(yè)推廣和計算機(jī)視覺技術(shù)領(lǐng)域帶來了積極影響。為用戶提供了豐富的創(chuàng)作和設(shè)計,同時為各行各業(yè)帶來了更具吸引力的視覺效果和商業(yè)推廣策略,并且在推動文物保護(hù)及安全等方面都是至關(guān)重要的,但從目前的研究現(xiàn)狀來看,其潛在的價值還需繼續(xù)挖掘。
為了深入了解圖像風(fēng)格遷移中不同共享特征方法之間的差異和利弊,如表3 所示,列舉和分析當(dāng)前主流方法,并對其優(yōu)缺點(diǎn)以及適用場景進(jìn)行詳細(xì)討論。
表3 主流共享特征方法對比分析Table 3 Comparative analysis of mainstream shared characterization methods
通過對這些主流共享特征方法的對比分析,并對它們的優(yōu)缺點(diǎn)和適用場景進(jìn)行透徹探討,以便提供清晰的理解和選擇準(zhǔn)則,根據(jù)特定需求在圖像風(fēng)格遷移中選擇最合適的共享特征方法,有助于推動圖像風(fēng)格遷移研究的進(jìn)一步發(fā)展,并促進(jìn)其實(shí)際應(yīng)用的推廣。
為了更好地了解不同損失函數(shù)對模型的影響,本文列舉了多個常用的損失函數(shù),包括了內(nèi)容損失、風(fēng)格損失、紋理損失、多樣性損失、身份損失、圖像平滑損失、特征重建損失以及感知損失在內(nèi)的八大損失函數(shù)。這些損失函數(shù)在圖像風(fēng)格遷移中分別起著重要作用,并且各自關(guān)注著不同的視覺特征。在此,將進(jìn)一步對損失函數(shù)進(jìn)行分析,并給出表4以便于對比。
表4 各類損失函數(shù)對比分析Table 4 Comparative analysis of various loss functions
通過對不同的損失函數(shù)的分析,可以更好地理解它們在圖像風(fēng)格遷移任務(wù)中的作用,進(jìn)一步探索如何權(quán)衡損失函數(shù)的組合,并為實(shí)際應(yīng)用提供更高效和可行的解決方案。
圖像風(fēng)格遷移研究中數(shù)據(jù)集的選擇和評價指標(biāo)的使用是至關(guān)重要的。數(shù)據(jù)集提供了用于訓(xùn)練和評估圖像風(fēng)格遷移方法的樣本圖像,而評價指標(biāo)則用于評估和比較不同方法的性能。本章將分析常用的圖像風(fēng)格遷移數(shù)據(jù)集及其特點(diǎn),然后介紹常用的評價指標(biāo)方法,并對其中重要方法在典型數(shù)據(jù)集中的表現(xiàn)進(jìn)行補(bǔ)充列舉和分析。
傳統(tǒng)的圖像風(fēng)格遷移方法通?;谝恍?shù)學(xué)模型和規(guī)則,而不需要使用數(shù)據(jù)集進(jìn)行訓(xùn)練,這些方法通過將輸入圖像進(jìn)行各種操作和變換來實(shí)現(xiàn)風(fēng)格遷移?;趫D像迭代的方法不使用預(yù)訓(xùn)練的網(wǎng)絡(luò)模型,無需訓(xùn)練數(shù)據(jù),而是通過迭代優(yōu)化的方式,逐步改變輸入圖像的內(nèi)容以實(shí)現(xiàn)風(fēng)格遷移。基于模型迭代的方法使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,通常需要使用大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練過程是為了訓(xùn)練一個能夠提取圖像風(fēng)格特征的模型。為了方便圖像風(fēng)格遷移,許多機(jī)構(gòu)、平臺提供了大量的數(shù)據(jù)集?;谀P偷膱D像風(fēng)格遷移研究的數(shù)據(jù)集以及其特點(diǎn)、應(yīng)用領(lǐng)域,如表5和表6所示。
表5 基于模型迭代的圖像風(fēng)格遷移方法數(shù)據(jù)集匯總Table 5 Summary of datasets for model iteration-based image style transfer methods
由表5、表6可知,MS-COCO[64]以及WikiArt[76]為圖像風(fēng)格遷移的常用訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)集。其中,MS-COCO[64]是一個廣泛使用的圖像數(shù)據(jù)集,包含了大量真實(shí)世界中各種場景的多個對象,并且每個對象都有對應(yīng)的標(biāo)注信息。其圖像具有不同的視覺風(fēng)格、光照條件等,對于訓(xùn)練風(fēng)格遷移網(wǎng)絡(luò)具有挑戰(zhàn)性,有助于網(wǎng)絡(luò)學(xué)習(xí)更復(fù)雜的圖像風(fēng)格。WikiArt[76]是一個收集了大量藝術(shù)作品的在線平臺,包含了各時期藝術(shù)家的作品。在圖像風(fēng)格遷移任務(wù)中,使得網(wǎng)絡(luò)能夠?qū)W習(xí)不同藝術(shù)風(fēng)格特征,并提供了高質(zhì)量的圖像,有助于網(wǎng)絡(luò)更好地捕捉藝術(shù)風(fēng)格的細(xì)微特征。
通過對數(shù)據(jù)集的分析,了解論文研究的基礎(chǔ)和方法,驗(yàn)證其可行性,促進(jìn)研究的可重復(fù)性和可擴(kuò)展性,從而推動相關(guān)領(lǐng)域的持續(xù)發(fā)展和進(jìn)步。
圖像風(fēng)格遷移作為一個備受關(guān)注的研究領(lǐng)域,通過各種指標(biāo)來評估其性能至關(guān)重要。在本節(jié)中,將從客觀與主觀兩個角度來對圖像風(fēng)格遷移的評價指標(biāo)進(jìn)行全面分析。
5.2.1 客觀的評價指標(biāo)
客觀的評價指標(biāo)是基于計算機(jī)視覺和圖像處理技術(shù),通過數(shù)學(xué)公式量化生成圖像與目標(biāo)圖像之間的差異進(jìn)行評估。本小節(jié)將介紹以下常用的客觀評價指標(biāo):峰值信噪比(peak signal-to-noise ratio,PSNR)、結(jié)構(gòu)相似性指數(shù)[87](structural similarity index measure,SSIM)、Frechet 初始距離[88](Frechet inception distance,F(xiàn)ID)和Wang 等人[89]提出的三個可量化因素,即內(nèi)容保真度(content fidelity,CF)、全局效應(yīng)(global effectiveness,GE)、局部模式(local patterns,LP)。通過對這些指標(biāo)的分析,對圖像風(fēng)格遷移方法的性能進(jìn)行客觀的評估。
(1)峰值信噪比PSNR
PSNR 是評估圖像結(jié)構(gòu)相似性一種常用的指標(biāo),用于衡量生成圖像與目標(biāo)圖像之間的噪聲程度。其定義公式如下,其中MAXI為圖像I的最大像素值。PSNR的數(shù)值越高,表示兩幅圖像之間的差異越小,生成圖像質(zhì)量越好。然而,PSNR只考慮了圖像的像素級別差異,對于結(jié)構(gòu)的差異較為敏感,忽略了感知上的細(xì)微差異,不一定與人類視覺感知一致。
(2)結(jié)構(gòu)相似性指數(shù)SSIM
SSIM[87]是一種衡量感知相似性的評價指標(biāo),其公式如下,綜合考慮了亮度、對比度和結(jié)構(gòu)信息,并通過計算亮度相似度l、對比度相似度c和結(jié)構(gòu)相似度s三個分量來得到最終的相似性指數(shù)。SSIM 數(shù)值越大,表示兩幅圖像相似度越高,圖像失真越小。其中,I和I*表示兩幅需要衡量的圖像,α、β、γ為三個分量系數(shù)。SSIM將更多關(guān)注人眼感知上的差異,因此對于圖像結(jié)構(gòu)和紋理的保留有更好的鑒別能力,但對圖像的細(xì)微差別不夠敏感,在特殊情況下可能無法準(zhǔn)確捕捉到風(fēng)格遷移的變化。
(3)Frechet初始距離FID
FID[88]是一種用于評估圖像之間距離的指標(biāo),具有較好的判別能力,能夠較好地衡量生成圖像與目標(biāo)圖像之間的分布差異。FID的數(shù)值越小,表示兩幅圖像之間的差異越小,生成圖像質(zhì)量越好,最好情況即是FID為0。然而,F(xiàn)ID計算量較大,耗時較長且對于特定的風(fēng)格遷移任務(wù)可能不夠敏感或準(zhǔn)確。其公式如下:
其中,(m,C)與(mw,Cw)分別代表來自模型生成數(shù)據(jù)的概率分布和來自真實(shí)的概率分布的均值和協(xié)方差,tr( *)表示矩陣的跡,即矩陣的對角線元素的和。
(4)三個可量化因素
Wang等人[89]將風(fēng)格遷移評估分解為可量化的三個因素。其中,CF衡量了圖像之間內(nèi)容的相似程度,主要關(guān)注生成圖像是否能夠保留原始圖像的關(guān)鍵內(nèi)容,并在風(fēng)格遷移的過程中盡量減少內(nèi)容丟失或引入;GE 評估了生成圖像是否具有良好的整體感知效果,該因素關(guān)注生成圖像的整體一致性、風(fēng)格清晰度和對風(fēng)格特征的恰當(dāng)表達(dá),對人類視覺感知留下初步印象;LP是指生成圖像是否能夠恰當(dāng)?shù)乇A粼紙D像中的局部細(xì)節(jié)和紋理信息,這一因素關(guān)注生成圖像的局部特征是否與原始圖像一致,并能夠保持細(xì)節(jié)的準(zhǔn)確性。三個質(zhì)量因素不僅涵蓋了以前的風(fēng)格遷移方法和人類考慮的綜合方面,但是指標(biāo)的計算較復(fù)雜,需要一定的計算資源和時間。
綜上所述,PSNR、SSIM、FID 這三個可量化因素在圖像風(fēng)格遷移研究中具有重要的應(yīng)用價值。PSNR能夠衡量生成圖像的噪聲程度,SSIM 關(guān)注圖像的結(jié)構(gòu)和紋理相似性,F(xiàn)ID則量化了生成圖像與目標(biāo)圖像之間的分布差異,而CF、GE、LP三個可量化因素在保留關(guān)鍵內(nèi)容與風(fēng)格細(xì)節(jié)的同時,關(guān)注整體的一致性。通過綜合運(yùn)用這些指標(biāo)因素相互補(bǔ)充,能夠提供對生成圖像與目標(biāo)圖像之間差異的多個維度的量化評價,對圖像風(fēng)格遷移算法的性能進(jìn)行全面評估,為算法的改進(jìn)和比較提供參考依據(jù)。
5.2.2 主觀的評價指標(biāo)
相比之下,主觀的評價指標(biāo)是基于人類主觀視覺感知和心理認(rèn)知的評價方法,旨在獲取用戶對生成圖像的主觀體驗(yàn)和喜好。這種評價方法提供了一個以用戶為中心的視角,更加貼近人類的感知和情感,能夠提供直觀、主動和富有情感的評價結(jié)果。
主觀的評價指標(biāo)通過用戶研究,以便用戶直觀地感知兩者之間的差異和相似度,開展人工主觀評分實(shí)驗(yàn)或者用戶調(diào)查問卷收集用戶對生成圖像與目標(biāo)圖像對比展示的反饋意見。其中,參與者可能會被要求根據(jù)視覺質(zhì)量和風(fēng)格一致性等標(biāo)準(zhǔn)對圖片進(jìn)行排序或評分,納入主觀評價可以更加直觀地了解用戶體驗(yàn)反饋,進(jìn)一步了解用戶對圖像風(fēng)格遷移算法的觀感和喜好。因此,開發(fā)基于人類對一般圖像合成問題的視覺感知的評估指標(biāo)是一個有趣的方向。
總之,通過對評價指標(biāo)的分析,全面了解不同圖像風(fēng)格遷移方法的性能。因此,評價指標(biāo)的優(yōu)勢、局限性和最新進(jìn)展應(yīng)得到強(qiáng)調(diào),通過介紹指標(biāo)獲得的結(jié)果,在圖像風(fēng)格遷移方法的評估和比較方面得到有價值的見解,促進(jìn)算法的改進(jìn)和優(yōu)化,以提供更好的結(jié)果和用戶體驗(yàn)。
為了全面評估圖像風(fēng)格遷移方法的性能,本節(jié)從穩(wěn)定性、訓(xùn)練效率以及結(jié)構(gòu)保留度三方面對其重要方法在典型數(shù)據(jù)集中的表現(xiàn)進(jìn)行展示,如表7所示。
表7 重要方法在典型數(shù)據(jù)集中的表現(xiàn)Table 7 Performance of important methods in typical datasets
通過上述信息,了解不同方法在不同數(shù)據(jù)集上的優(yōu)劣勢,考慮到圖像風(fēng)格的多樣性和個體差異,選擇合適的方法仍然取決于具體應(yīng)用需求和數(shù)據(jù)集特征,為研究者選擇適合自己需求的方法提供參考。同時,也促進(jìn)了對方法改進(jìn)和比較的深入討論,推動圖像風(fēng)格遷移領(lǐng)域的持續(xù)發(fā)展和進(jìn)步。
目前,圖像風(fēng)格遷移算法以及模型已經(jīng)取得大量研究進(jìn)展,但是實(shí)現(xiàn)任意風(fēng)格遷移和精細(xì)化控制仍然是難點(diǎn)問題。因此,總結(jié)了當(dāng)前存在的主要問題及建議,如下:
(1)遷移學(xué)習(xí)理論的問題。如何更好地表示和提取知識是遷移學(xué)習(xí)的核心問題之一。目前的方法主要基于共享特征的假設(shè),即認(rèn)為不同任務(wù)或領(lǐng)域的特征可以存在一定的共享性。然而,如何確定共享的特征以及如何進(jìn)行有效的知識遷移仍然是一個開放性問題。當(dāng)源領(lǐng)域和目標(biāo)領(lǐng)域之間存在顯著的數(shù)據(jù)分布差異時,遷移學(xué)習(xí)的性能會受到影響。這種數(shù)據(jù)分布的差異被稱為領(lǐng)域偏移。解決領(lǐng)域適應(yīng)和偏移問題需要考慮如何進(jìn)行領(lǐng)域自適應(yīng),即如何使得模型在目標(biāo)領(lǐng)域上具有良好的泛化能力。在遷移學(xué)習(xí)中,不同任務(wù)或不同領(lǐng)域的知識可能存在沖突,如何進(jìn)行有效的知識融合和沖突解決是一個挑戰(zhàn)。
(2)模型輕量級的問題。目前風(fēng)格化效果較好的模型通常具有數(shù)千萬到數(shù)千億級別的規(guī)模,這導(dǎo)致了較大的存儲空間的占用和高計算復(fù)雜度,限制了模型的實(shí)施與發(fā)展。例如,圖像風(fēng)格遷移常用的VGG 模型參數(shù)量約為138×106,計算量約為15.5 GFLOPs,若增加其他機(jī)制,其規(guī)模也將會相應(yīng)增加,通常需要更多的存儲空間和計算資源,會對實(shí)時性和計算速度產(chǎn)生影響。因此,模型輕量化是該領(lǐng)域面臨的挑戰(zhàn)之一。如何使得模型輕量化,其實(shí)就是如何實(shí)現(xiàn)模型壓縮的問題??梢钥紤]目前有幾種常見的模型壓縮和加速方法,包括模型量化、知識蒸餾、剪枝和分組卷積等。這些方法可以有效減少模型的參數(shù)量、計算量或內(nèi)存占用,從而提高模型的效率和速度,以滿足實(shí)際應(yīng)用需求。
(3)多樣化的任意圖像風(fēng)格遷移的問題。通過大量調(diào)研,不難發(fā)現(xiàn),風(fēng)格遷移與圖像分類、圖像分割、模式識別等方面存在交迭。例如,語義分割可以將圖像中的主體和背景進(jìn)行切割,通過這種方法,對背景與主體部分分別進(jìn)行不同風(fēng)格的遷移,最終的效果也會受到相關(guān)領(lǐng)域研究進(jìn)展的影響。
(4)數(shù)據(jù)集與評價指標(biāo)的問題。采取公開常用的數(shù)據(jù)集以及新的數(shù)據(jù)集進(jìn)行模型驗(yàn)證和改進(jìn)。在檢驗(yàn)風(fēng)格遷移效果上,并沒有一個明確的評價指標(biāo),如何客觀且主觀地對內(nèi)容和風(fēng)格進(jìn)行評價值得研究。
本文對圖像風(fēng)格遷移的相關(guān)文獻(xiàn)經(jīng)典方法進(jìn)行了綜述和評價,并對存在的主要問題以及未來研究方向做了進(jìn)一步的分析和展望??偠灾?,圖像風(fēng)格遷移不僅具有理論研究意義和實(shí)際應(yīng)用價值,而且其研究對于人工智能、圖像處理相關(guān)領(lǐng)域的開發(fā)應(yīng)用也具有重要的參考價值,并能產(chǎn)生積極的推動作用。