李美麗,楊傳穎,石 寶
內(nèi)蒙古工業(yè)大學 信息工程學院,呼和浩特010100
計算機圖形學是計算機科學領(lǐng)域的一個重要分支,隨著計算機圖形學方面的硬件與軟件的不斷發(fā)展和改進,將圖形渲染技術(shù)分為真實感渲染技術(shù)與非真實感渲染技術(shù),真實感渲染技術(shù)忠實地反映客觀事物的外觀和細節(jié),更適合表達剛性曲線,而非真實感繪制會根據(jù)圖像內(nèi)容自適應區(qū)分前景和背景,更加適合描述自然現(xiàn)象,它們的研究方法和對象既相互補充又相互交叉。
深度學習以其能快速提取高級抽象特征的優(yōu)勢被應用于提取圖像的風格化特征和內(nèi)容特征,成為圖像風格遷移領(lǐng)域的主流技術(shù)。實際上,圖像風格遷移是一種特殊的遷移學習,是一種借助計算機技術(shù)處理圖像的紋理、顏色、風格、線條等信息來改變圖像效果的技術(shù)。它是將一張藝術(shù)作品圖片的風格轉(zhuǎn)移到另一張圖片上,最后生成一張帶有某種風格的內(nèi)容圖片。為了模擬藝術(shù)家的這種表現(xiàn)力,引入圖像分割方法,將風格轉(zhuǎn)化進行約束,由于蒙古族服飾顏色多為紅黃藍三原色,所以將其約束到彩色空間變換,對特定區(qū)域進行風格遷移,提升了風格遷移后輸出圖的效果。
神經(jīng)風格遷移的三個主要應用領(lǐng)域是媒體社交、輔助用戶創(chuàng)作和游戲場景渲染領(lǐng)域,風格遷移技術(shù)來源于歷史悠久的風格化繪制技術(shù)。風格遷移技術(shù)在藝術(shù)創(chuàng)作中,可以將大師的精美藝術(shù)作品風格遷移到其他圖片上,使得結(jié)果圖帶有了大師的風范。這一智能創(chuàng)作應用在游戲制作中,對游戲動畫人物塑造和背景渲染都有極大的幫助。如果將帶有濃烈民族文化特征的圖片進行遷移,也是對物質(zhì)文化遺產(chǎn)和非物質(zhì)文化遺產(chǎn)的繼承和弘揚。
在神經(jīng)風格遷移算法之前的風格遷移方法有基于筆劃的渲染、基于圖像類比的方法、圖像濾波方法和紋理合成方法等,這些傳統(tǒng)的風格遷移方法有一個共同的思想就是借助局部特征的統(tǒng)計模型來描述風格,這極大地限制了在實際中的應用。
2015年Gatys等人[1]開創(chuàng)性地提出了一種神經(jīng)藝術(shù)風格遷移算法,以簡潔明了的方式闡明了神經(jīng)網(wǎng)絡的風格化思想,無需繁瑣的手工建模,就能生成新穎風格化圖像。2016年相繼發(fā)表了另一篇論文[2],該論文進一步闡述風格遷移的方法,引入了白噪聲圖片,通過借助VGG19 網(wǎng)絡提取的輸入圖像的特征進行重建圖像,使得圖像的風格和內(nèi)容的分離和合成成為可能。Johnson等人[3]受到Gatys 等人的研究成果的影響,提出了一種實時的快速神經(jīng)風格遷移方法,該方法用感知損失函數(shù)來替代逐像素差距的損失函數(shù)來訓練前饋網(wǎng)絡,基于有優(yōu)化的方式對比,得到三個數(shù)量級的提速。Dumoulin 等人[4]在Johnson的基礎(chǔ)上提出了更靈活的風格遷移模型,采用多個風格共用一個模型的方式,緩解了模型存儲耗費空間大的問題。Li等人[5]將生成的馬爾科夫隨機場作用在深度卷積神經(jīng)網(wǎng)絡上進行圖像合成任務,該任務增強了Gatys等人的框架,通過用維持圖像風格的MRF正則項來替代Gram 矩陣匹配。Ulyanov 等人[6]提出了另一種反饋卷積神經(jīng)網(wǎng)絡,應用多層次的網(wǎng)絡結(jié)構(gòu),產(chǎn)生大量任意大小的相同紋理,將給定照片的藝術(shù)風格遷移到任意圖像上,引入生成網(wǎng)絡減少迭代次數(shù),提高了訓練速度,縮短了圖片生成時間,對局部細節(jié)的處理優(yōu)于之前的方法,然而由于風格圖片是真實照片,存在內(nèi)容不匹配、扭曲等問題,使得遷移效果不佳。2017年Luan等人[7]提出了一種深度照片風格遷移方法,提出局部仿射變換正則項,用此方法防止生成的真實照片扭曲失真,解決了生成圖像扭曲不匹配問題。Liao等人[8]提出了一種新的視覺屬性遷移方法。該方法針對的是兩張具有不同內(nèi)容卻有相似語義的圖像,利用高層抽象特征建立起兩張圖片的語義對應關(guān)系,與之前的算法不同的是,提出深度圖像類比的方法,該方法適用于輸入圖像是真實照片,輸出也是真實照片的任務,即達到像素級別的遷移,進而使用一種由粗到細的策略建立最近鄰域并生成風格化結(jié)果。Zhu 等人[9]針對非成對的數(shù)據(jù)集,提出了一種通用型的圖像到圖像的訓練模式,并且提出了結(jié)合循環(huán)一致?lián)p失和對抗網(wǎng)絡損失進行模型的訓練,此種方法解決了沒有成對數(shù)據(jù)集的問題,適用性更廣。2018年Chelaramani 等人[10]提出一種可以在句子與圖像之間進行跨模態(tài)的新穎風格遷移方法。建立在圖像到圖像遷移上的創(chuàng)新機制上,將整體心理圖像整理成一個句子,并以有意義的方式自動傳遞給特定的圖像。2019 年Nguyen等人[11]重新定義了多模態(tài),并引入了一種簡單的多模態(tài)和任意風格遷移方法,通過向單峰方法注入噪聲來實現(xiàn)多模態(tài)和任意風格傳遞的方法。這種新穎的方法不需要任何可訓練的參數(shù),并且可以容易地應用到具有單獨的風格編碼子網(wǎng)的任何單峰式傳輸方法的文獻中。
目前存在的方法都是只針對特定數(shù)據(jù)采取特定方法的遷移技術(shù),不具一般性,與現(xiàn)有的方法相比,本文提出的方法在對任意樣式進行泛化和可視化處理的同時,能夠有效地進行前反饋方式的風格遷移,不需要學習每一個單獨的風格,通過訓練一種用于圖形重建的自動編碼器來進行圖像生成過程,將前饋通道中的增白和著色變換結(jié)合起來,以匹配內(nèi)容和風格特征之間的統(tǒng)計分布和相關(guān)性。
數(shù)據(jù)增廣是一種解決圖像數(shù)據(jù)不足的常用方法。通過對訓練圖像做一系列隨機改變,產(chǎn)生相似但又不同的訓練樣本,從而擴大訓練數(shù)據(jù)集的規(guī)模,由于采集的數(shù)據(jù)圖片大概為582 張。通過數(shù)據(jù)增廣方法增加到1 080張,大大降低模型對某些屬性的依賴,提高了模型的泛化能力。主要用到的數(shù)據(jù)增廣方法有縮放變換、裁剪、變換顏色、旋轉(zhuǎn)、平移等變換,其中部分結(jié)果如圖1所示。
圖1 預處理后的圖
神經(jīng)網(wǎng)絡以其能快速提取高級抽象特征的優(yōu)勢,被廣泛應用于提取圖像特征,成為圖像風格遷移領(lǐng)域的基本技術(shù)。風格遷移的基本思想很簡單,在保留目標圖像內(nèi)容的基礎(chǔ)上,將另一張圖片風格應用在目標圖像上,生成的風格化圖像具有原來內(nèi)容圖片的內(nèi)容的同時帶有風格圖片的風格,本文是在圖像風格遷移的基礎(chǔ)上,進一步地要求輸入圖像均為高清的、具有圖像真實細節(jié)的圖像,尤其是風格圖像,而不是一些具有明顯藝術(shù)家風格的風格圖像,所合成的圖像結(jié)合了內(nèi)容圖像的真實細節(jié)和風格圖像的風格。
圖像風格遷移研究步驟大體分為兩部分,第一部分提取圖像的內(nèi)容和風格特征,第二部分將兩種特征融合生成目標圖像。然而在已有的風格遷移研究結(jié)果中,結(jié)果圖存在不同程度的扭曲和失真,基于這個棘手問題,為了保證圖像的保真性,提出了一種優(yōu)化過程中目標函數(shù)的圖像寫實正則化參數(shù)項,將這個約束表示成一個完全可微的參數(shù)項,以此約束重構(gòu)圖像用輸入圖像的局部仿射色彩變換防止扭曲,保證在輸入圖像映射到輸出圖像的過程中,點、線、面都不發(fā)生改變,盡可能減少內(nèi)容信息失真,成功抑制生成圖像扭曲,在各種各樣的場景中生成了視覺效果相對較佳的真實風格化圖像。
假設(shè)給定一張內(nèi)容圖片C和一張風格圖片S,采用目前應用廣泛的編碼-解碼器結(jié)構(gòu),使用VGG19 網(wǎng)絡作為編碼器提取圖片的內(nèi)容和風格特征,借助已經(jīng)訓練好的VGG19 網(wǎng)絡模型進行特征提取,編碼器權(quán)重使用由之前ImageNet 網(wǎng)絡訓練出的權(quán)重,此處借助遷移學習中的權(quán)重遷移方法,大大減少了工作量。同時訓練一個與之對應的解碼器,對圖片的內(nèi)容和風格進行重建。
對于多層次的風格遷移,分別為VGG19的Relu_X_1層訓練五個重構(gòu)解碼器,每個解碼器的架構(gòu)對稱于VGG19 網(wǎng)絡架構(gòu),該技術(shù)的原理圖如圖2所示。
VGG19 網(wǎng)絡作為一個特征提取編碼器,由卷積層、池化層、全連接層組成。分別選用conv4_2作為內(nèi)容表示,conv1_1、conv2_1、conv3_1、conv4_1、conv5_1 作為風格表示。同時訓練一個與編碼器對稱的解碼器,目的是將VGG19 網(wǎng)絡提取的特征轉(zhuǎn)化為原圖像,其本質(zhì)是一個圖像重建任務,經(jīng)過大量實驗不斷地調(diào)整編碼器和解碼器以達到最優(yōu)。為了對不同層次提取的特征進行評估,選用VGG19 網(wǎng)絡的五個層的特征映射和相對應的五個解碼器。采用像素重構(gòu)損失和特征損失對輸入圖像進行重構(gòu),如下式所示:
Iin表示輸入的圖像,Iout表示重構(gòu)的輸出圖像,Φ表示使用預訓練模型VGG19 編碼器提取到的圖特征表示,λ是兩個損失函數(shù)的平衡參數(shù)。
為了更好地進行圖像風格遷移,將增白和著色變換WCT 應用到內(nèi)容特征層,使內(nèi)容特征的協(xié)方差矩陣與風格特征的協(xié)方差矩陣進行匹配,最后將轉(zhuǎn)換后的特征向前反饋,輸入到下面的解碼器層,從而獲得風格化后的圖像。
通過最小化L2范數(shù)的像素重構(gòu)損失和特征感知損失之和來訓練解碼器,采用多層次風格化策略,在WCT[12]中將PhotoWCT 應用于不同層次的VGG19 特征,如圖3所示。
圖2 風格遷移架構(gòu)圖
圖3 優(yōu)化模型對比圖
PhotoWCT 和WCT 共享相同的編碼器架構(gòu)和映射步驟。在PhotoWCT 中,用上池化層替換上采樣層。上池化層是與池化掩碼一起使用,該掩碼記錄在對應的池化層[13]中的每個最大池化區(qū)域上攜帶最大值的位置。通過比較WCT 和PhotoWCT 的風格化結(jié)果。PhotoWCT 風格化圖像具有更少的結(jié)構(gòu)偽影。同時在實驗部分進行了一項用戶研究,以定量驗證PhotoWCT通常比WCT 有更好的風格化效果。
模型優(yōu)化中,編碼層的構(gòu)建結(jié)構(gòu)不進行修改,只是在保存信息方面,上池化處理比上采樣處理能更好保存詳細信息,所以用上池化代替上采樣,減少了特征映射的空間信息的丟失,解碼器中的上采樣特征映射無法恢復輸入圖像的詳細結(jié)構(gòu),也就是說,需要將丟失的空間信息傳遞給解碼器,以便能夠重構(gòu)圖像的詳細細節(jié),圖像增白和著色變換功能表示為如下公式:
其中,是一個包含上采樣的解碼器,通過訓練解碼器來完成圖像重建,通過WCT 得到的結(jié)果圖直線邊界呈現(xiàn)鋸齒狀的模糊,使用圖像的增白跟著色變換WCT 避免此問題的發(fā)生。
對風格化后存在的偽影問題進行平滑調(diào)整,首先將所有像素表示為圖中的節(jié)點,并定義了一個關(guān)聯(lián)矩陣:
其中,N表示相似像素點的個數(shù),定義平滑項和濾波項,建立模型優(yōu)化這兩個目標項,將問題轉(zhuǎn)化為一個優(yōu)化問題:
其中,yi表示PhotoWCT 風格化結(jié)果Y的顏色像素,ri期望的平滑輸出結(jié)果R的顏色像素,變量dii=是W 的度矩陣D 中的對角線元素,即D=diag{d11,d22,…,dNN}。在公式(4)中,λ控制著這兩個術(shù)語的平衡。
上述公式是基于圖的排序算法[14-15]得到的。在排序算法中,Y是一個二進制輸入,其中每個元素指示某個特定項是否為查詢,具體yi=1 表示yi是一個查詢,否則yi=0。最優(yōu)解R是所有項目的排序值。此方法中,將Y設(shè)為PhotoWCT 樣式化的結(jié)果?;趯ο袼氐南嗨菩裕琑是Y的最優(yōu)解。與最先進的方法[14]對比,本文算法利用可用的語義標簽映射獲得更好的風格化結(jié)果。當進行PhotoWCT 風格化時,對于每個語義標簽,分別利用內(nèi)容和風格圖片中具有相同標簽的圖像區(qū)域的特征,計算一對投影矩陣Pc和Ps。用來對這些圖像區(qū)域進行風格化。使用語義標簽映射,可以更準確地執(zhí)行內(nèi)容和風格匹配。該算法不需要精確的語義標記。獲得良好的風格化效果圖。
圖像語義分割是一門交叉學科,涉及模式識別、計算機視覺、圖像分類等領(lǐng)域,在視頻檢測、工業(yè)自動化、虛擬現(xiàn)實VR等不同領(lǐng)域有廣泛的應用,語義分割是為圖像像素標記一個預先定義好的語義標簽,在此基礎(chǔ)上,在圖像的目標對象上加入語義信息,能夠根據(jù)圖像本身的紋理、場景和其他高層語義特征來得到圖像本身需要表達的信息,具有實用價值。本文采用的深度照片風格遷移算法通過對內(nèi)容圖像進行語義分割的結(jié)果來指導風格遷移的過程,當算法精確地識別出像素的前背景時,就可以更精準地進行分割。
語義分割方法大體分為兩類,基于區(qū)域分類的分割方法和基于像素分類的分割方法。基于區(qū)域的分割方法根據(jù)區(qū)域生成算法和圖像塊劃分標準的不同,將其分為基于候選區(qū)域方法和基于分割掩膜方法;基于像素分類的圖像語義分割方法按照其學習方式的不同,可以分為全監(jiān)督學習圖像語義分割方法、弱監(jiān)督學習圖像語義分割方法、無監(jiān)督學習圖像語義分割方法。
借助圖像的語義信息將圖像進行更加準確地分割。圖像分割是圖像處理到圖像分析的關(guān)鍵步驟,圖像分割是指根據(jù)灰度、顏色、紋理和形狀等特征把圖像劃分成若干個互不交疊的區(qū)域,并使這些特征在統(tǒng)一區(qū)域內(nèi)呈現(xiàn)出相似性,而在不同區(qū)域間呈現(xiàn)出明顯的差異性。圖像分割領(lǐng)域研究人員提出了很多的研究方法[15],較為普遍的方法有邊緣分割方法、閾值分割方法、區(qū)域生長方法、區(qū)域的分裂合并方法、直方圖分割方法以及結(jié)合特定理論工具的分割方法。但是并不存在一種廣泛適用的分割方法。
本文針對蒙漢服飾文化元素的遷移,采用特定空間聚類方法進行圖像分割,將圖像空間中的像素用對應的特征空間點表示,根據(jù)它們在特征空間的聚集對特征空間進行分割,然后將它們映射到原圖像空間,得到分割結(jié)果。采用K均值聚類算法與自然圖像摳圖相結(jié)合的技術(shù),先設(shè)定K個初始類均值,然后將每一個像素劃分到離它最近的類,并且計算新的類均值,迭代執(zhí)行前面的步驟直到新舊類之差小于某一閾值。
3.2.1 K 均值算法
K均值算法是一種常用的無監(jiān)督的聚類算法,已在圖像模式識別中得到了廣泛的應用,K均值算法[16]的基本思想是通過找到K個聚類的中心,同時根據(jù)數(shù)據(jù)點與各中心的距離的大小,對每個質(zhì)心計算質(zhì)心與數(shù)據(jù)點之間的距離將數(shù)據(jù)點分配到距其最近的簇,對每一個簇,計算簇中所有點的均值并將均值作為質(zhì)心,重復迭代直到質(zhì)心不變或者變化很小時結(jié)束,最后將數(shù)據(jù)點全部進行了歸類?;疽笫窃跀?shù)據(jù)點構(gòu)成的一個聚類中,聚類內(nèi)部點之間的距離應該小于數(shù)據(jù)點與聚類外部的點之間的距離。也就是對目標函數(shù)的優(yōu)化,直到將數(shù)據(jù)點全部進行了歸類。目標函數(shù)表示如下:
為每個數(shù)據(jù)點都分配一個權(quán)重ω(p),設(shè)k為聚類的數(shù)目,πk表示第k個聚類,φ表示將數(shù)據(jù)點映射到高維空間,通過迭代的方式最小化目標函數(shù),以此聚集數(shù)據(jù)點。用K均值算法實現(xiàn)圖像分割,K均值算法分割后的圖像如圖4所示。
圖4 K-means算法分割后的圖像
3.2.2 封閉式的摳圖算法
蒙古族服飾又稱蒙古袍,包括長袍、腰帶、靴子等,由于地域的不同,蒙古袍多以紅藍黃三原色構(gòu)成,蒙古袍上的花紋呈現(xiàn)一定的對稱性,特別是腰帶、紐扣,都呈現(xiàn)出一定的平行性,基于該特點,本文采用交互式數(shù)字摳圖算法將圖像進行分割。取任一張蒙古族服飾圖片部分,各像素點符合一定的線性關(guān)系,如圖5 所示。其中,三維坐標系分別表示紅黃藍三原色,從圖中可以看出任意像素點可表示成一個線性關(guān)系。
圖5 像素分布三維圖
交互式數(shù)字摳圖是基于有限的用戶輸入從圖像中提取前景對象的過程,因為它在每個像素處都存在大量不適定,必須從一個單一的顏色測量中估計前景和背景顏色,以及前景不透明度。本文采用一種自然圖像摳圖的封閉形式解法[17]。對前景和背景顏色的局部平滑性進行假設(shè),分析消去前景和背景顏色后,可以得到一個二次代價函數(shù)。通過解一個稀疏線性方程組來找到全局最優(yōu)的透明度。此外,從封閉形式公式中分析稀疏矩陣的特征向量來預測解的性質(zhì),這與譜圖像分割算法中使用的矩陣密切相關(guān)。
給定任意一張圖片,可看成是由前景圖與背景圖組成,圖中的任意像素點可表示成一個線性關(guān)系式:
其中,ai前景不透明度,F(xiàn)i表示第i個像素點的前景圖,Bi表示第i個像素點的背景圖。
對于三通道彩色圖片,將有三個方程七個未知數(shù)。方程組表示如公式(7)所示:
以上方程組有無窮多解。顯然,這是一個嚴重的欠約束問題,用戶交互需要提取一個良好的啞光。最新的方法期望用戶提供一個trimap 作為起點,trimap 是一個粗略的手繪分割方法,將圖像分為三個區(qū)域:前景(白色)、背景(黑色)和未知(灰色)。這樣一個嚴重的欠擬合問題就容易解決,該方法提供F、B和α的初始值。然后通過迭代非線性優(yōu)化方法交替前景F、背景B以及α的估計。在實際中,為了取得好的實驗結(jié)果,trimap中的未知區(qū)域必須盡可能小。當α取值為0 或1,摳圖技術(shù)將是一種簡單的圖像分割。
在這種具有挑戰(zhàn)性的情況下,需要大量的經(jīng)驗和用戶交互來構(gòu)建一個能夠生成良好啞光效果的trimap。然而,trimap界面的另一個問題是用戶不能直接影響圖像最重要部分的啞光,混合像素。本文提出了一種從自然圖像中提取啞光的新方法。需要從前景F和背景顏色B的局部平滑度假設(shè)中推導出一個代價函數(shù),并將其表示為:
其中,ωj表示包含j個像素點的小窗口,上面的代價函數(shù)包含一個關(guān)于α的正則化項。為了保持數(shù)值的穩(wěn)定性而設(shè)定。假設(shè)圖像在第j個窗口中是常量,在沒有對其進行先驗檢驗之前,aj和bj就不能唯一地確定。當aj=0 意味著a是恒定在j窗口中的。此外,通過研究稀疏矩陣的特征向量相關(guān)矩陣用于光譜圖像分割算法。同時提供有用的提示信息,能夠更好地把握涂鴉的位置放置。
采用兩種摳圖算法相結(jié)合的方法得到的圖如圖6所示。
圖6 結(jié)果圖
本實驗使用Google開源深度學習框架TensorFlow,同時使用由JetBrains 打造的編譯器pycharm,提高了python 語言開發(fā)的效率,使用NVIDIA 英偉達GTX 1080TI顯卡加快程序運行速度。
實驗中對λ 進行敏感度分析,平滑和擬合平衡系數(shù),實驗表明λ 越大通過增白和著色處理后的結(jié)果更加準確可靠,λ 越小生成的圖片將會被過度平滑,為了找到一個合適的λ,采用網(wǎng)格搜索法,將估計函數(shù)的參數(shù)通過交叉驗證的方法進行優(yōu)化來得到最優(yōu)的學習算法。
在風格化之后對象邊界應該保持不變,所以以風格化和風格化后的邊界圖與原始內(nèi)容圖的10個相似度作為標準進行衡量,用全局邊緣檢測HED 方法進行檢測邊界,應用全局最佳ODS和單圖最佳OIS兩個標準的邊界檢測指標。該指標越高表明保存了原始圖像更多的內(nèi)容信息,如圖7所示。
圖7 λ 與檢測指標的折線圖
但是ODS 用于圖像分割,具有從消光問題公式推導出的新的親和函數(shù)。可以通過求解稀疏S 來有效地找到成本的全局最小值S 線性方程組,對真實圖像和合成圖像的實驗表明,該算法明顯優(yōu)于其他使用二次代價函數(shù)的算法。
實驗中通過設(shè)置內(nèi)容與風格的權(quán)衡參數(shù),平衡兩者之間的比重,保證生成的圖像在內(nèi)容不失真的情況下,達到最佳的風格化效果。λ 的取值效果演示如圖8所示。
圖8 不同λ 值對風格化影響結(jié)果對比圖
實驗中設(shè)置不同的λ 值,得到不同效果的結(jié)果圖,從圖8中可以看出當λ 取小于10-6的值時,實驗結(jié)果圖無明顯變化,實驗結(jié)果圖效果差異很小,所以,根據(jù)實驗結(jié)果,在接下來的訓練中λ 取10-6,達到最佳實驗效果。
根據(jù)輸入圖像分辨率的不同,如表1所示不同尺寸圖像在不同階段運行時間對比表。
表1 運行時間對比表 s
本實驗計算了不同分辨率下該算法的平均運行時間,從表1 中可以看出,隨著圖像分辨的增加訓練時間總體呈上升趨勢。而且詳細統(tǒng)計了增白著色變換階段和平滑階段不同分辨率圖像所用時間。本實驗提出的算法與目前最新的算法對比,雖然本實驗有一個封閉形式的解,而Luan 等人的實驗是依賴于非凸優(yōu)化問題的解,為了風格化圖片,Luan等人解決了兩個非凸優(yōu)化問題,其中第一個優(yōu)化問題是第二個優(yōu)化問題的初始解,該方法優(yōu)于Luan等人的方法。
為了進一步提高速度,可以使用引導圖像濾波的近似平滑步驟,它可以平滑基于內(nèi)容照片的PhotoWCT輸出圖。與原始算法相比,雖然采用圖像濾波近似平滑步長越長會導致性能略有下降,但速度增益較大,如表1所示。要風格化1 024×512 分辨率圖像,約僅需1.64 s,比Luan 等人實現(xiàn)的650.4 s 快1 000 倍。為了量化由于近似導致的性能下降,進行了額外的用戶研究來比較所提出的算法。
為了對圖像風格進行更精確的遷移,使用無監(jiān)督學習K 均值聚類方法與自然摳圖算法相結(jié)合對目標對象的特定區(qū)域進行分割,并將給定的紋理樣式只傳遞給分割后的區(qū)域。實現(xiàn)了特定對象區(qū)域的局部風格遷移,這使得可以隨意改變給定圖像中對象的材質(zhì)。同時,在模型優(yōu)化中,用PhotoWCT 代替WCT 變換,減少了結(jié)果圖的偽影,實驗表明PhotoWCT 比WCT有更好的風格化效果,圖9是本文方法與其他方法的對比圖。
圖9 實驗對比圖
實驗對比結(jié)果表明此風格遷移算法有更強的魯棒性,而且研究的內(nèi)容新穎,運行速度有顯著的提高,得到的結(jié)果圖更加地逼真,是本文的一個特點,而不像其他現(xiàn)有方法有明顯的的繪畫痕跡。
本文在現(xiàn)有的圖像處理技術(shù)的基礎(chǔ)上,將蒙漢服飾圖像應用到風格遷移中,采用圖像語義分割與神經(jīng)風格遷移相結(jié)合的方法,研究圖像風格遷移在蒙漢服飾設(shè)計中的應用,采用一種快速的風格遷移算法,該算法使用損失函數(shù)的歸一化,在每次優(yōu)化迭代過程中,調(diào)整損失值,使之等于1,這樣可以獨立設(shè)置所選風格層以及內(nèi)容層的損失權(quán)重,在優(yōu)化過程中,不斷調(diào)整權(quán)重。最后,確定風格與內(nèi)容之間的相對最佳權(quán)重。此外,本實驗將蒙漢服飾應用到風格遷移中,是非物質(zhì)文化遺產(chǎn)的發(fā)揚和傳承,有非常重要的研究意義。
本文在研究過程中存在很多的不足之處,值得進一步研究,例如在分割實現(xiàn)過程中,存在訓練集差異較大的圖片,分割能力會大幅減弱的問題,可以考慮對圖像預處理方法進行改進,使得圖像在輸入模型之前能夠自適應,根據(jù)與訓練集的差異進行調(diào)整;本文采用不同的方法對語義分割進行了研究,并將其應用到具體的場景中,初步挖掘語義分割的應用價值,還有待進一步挖掘它的應用潛力。此外,用到VGG19網(wǎng)絡提取圖像特征,該方法參數(shù)較多,占用內(nèi)存空間較大,可以改用其他的提取特征的方法,減少參數(shù)和占用空間。風格遷移的應用場景很多,例如AI換臉、漫畫遷移、字體風格遷移、AI藝術(shù)創(chuàng)作、電影特效等等,這些場景都有待進一步深入研究。