毛文濤,吳桂芳,吳超,竇智,2
基于中國(guó)寫意風(fēng)格遷移的動(dòng)漫視頻生成模型
毛文濤1,2*,吳桂芳1,吳超1,竇智1,2
(1.河南師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007;2.智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)河南省工程實(shí)驗(yàn)室(河南師范大學(xué)),河南 新鄉(xiāng) 453007)( ? 通信作者電子郵箱maowt@htu.edu.cn)
目前生成式對(duì)抗網(wǎng)絡(luò)(GAN)已經(jīng)被用于圖像的動(dòng)漫風(fēng)格轉(zhuǎn)換。然而,現(xiàn)有基于GAN的動(dòng)漫生成模型主要以日本動(dòng)漫和美國(guó)動(dòng)漫為對(duì)象,集中在寫實(shí)風(fēng)格的提取與生成,很少關(guān)注到中國(guó)風(fēng)動(dòng)漫中寫意風(fēng)格的遷移,因此限制了GAN在國(guó)內(nèi)廣大動(dòng)漫制作市場(chǎng)中的應(yīng)用。針對(duì)這一問(wèn)題,通過(guò)將中國(guó)寫意風(fēng)格融入到GAN模型,提出了一種新的中國(guó)風(fēng)動(dòng)漫生成式對(duì)抗網(wǎng)絡(luò)模型CCGAN,用以自動(dòng)生成具有中國(guó)寫意風(fēng)格的動(dòng)漫視頻。首先,通過(guò)在生成器中增加反向殘差塊,構(gòu)造了一個(gè)輕量級(jí)的深度神經(jīng)網(wǎng)絡(luò)模型,以降低視頻生成的計(jì)算代價(jià)。其次,為了提取并遷移中國(guó)寫意風(fēng)格中圖像邊緣銳利、內(nèi)容構(gòu)造抽象、描邊線條具有水墨質(zhì)感等性質(zhì),在生成器中構(gòu)造了灰度樣式損失和顏色重建損失,以約束真實(shí)圖像和中國(guó)風(fēng)樣例圖像在風(fēng)格上的高層語(yǔ)義一致性,并且在判別器中構(gòu)造了灰度對(duì)抗損失和邊緣促進(jìn)對(duì)抗損失,以約束重構(gòu)圖像與樣例圖像保持相同的邊緣特性。最終,采用Adam算法最小化上述損失函數(shù),從而實(shí)現(xiàn)風(fēng)格遷移,并將重構(gòu)圖像組合為視頻。實(shí)驗(yàn)結(jié)果表明,與目前最具代表性的風(fēng)格遷移模型CycleGAN與CartoonGAN相比,所提CCGAN可從以《中國(guó)唱詩(shī)班》為例的中國(guó)風(fēng)動(dòng)漫中有效地學(xué)習(xí)到中國(guó)寫意風(fēng)格,同時(shí)顯著降低了計(jì)算代價(jià),適合于大批量動(dòng)漫視頻的快速生成。
生成式對(duì)抗網(wǎng)絡(luò);中國(guó)風(fēng)動(dòng)漫;風(fēng)格遷移;卡通;深度神經(jīng)網(wǎng)絡(luò)
“十三五”時(shí)期以來(lái),國(guó)內(nèi)動(dòng)漫產(chǎn)業(yè)發(fā)展勢(shì)頭迅猛,類型和題材日趨多元化,關(guān)注和消費(fèi)國(guó)產(chǎn)動(dòng)漫(簡(jiǎn)稱“國(guó)漫”)的群體日漸增多。發(fā)展國(guó)漫產(chǎn)業(yè)對(duì)于滿足國(guó)民精神文化需求、傳播先進(jìn)文化具有重要意義。在眾多國(guó)漫類型中,“中國(guó)風(fēng)”動(dòng)漫在場(chǎng)景繪制上強(qiáng)調(diào)將中國(guó)傳統(tǒng)的工筆畫意與水墨渲染相融合,呈現(xiàn)出有別于外國(guó)手繪工具和意境的創(chuàng)作效果,已被采用在《中國(guó)唱詩(shī)班》《哪吒之魔童降世》《白蛇》等多部影視作品中,并取得了票房和口碑雙豐收,無(wú)疑增加了觀眾對(duì)作品的認(rèn)同感,也提高了作品的文化影響力和市場(chǎng)價(jià)值,反映出巨大的市場(chǎng)潛力。傳統(tǒng)中國(guó)風(fēng)國(guó)漫創(chuàng)作極大依賴于專業(yè)的繪畫技巧,需要反復(fù)斟酌圖像的顏色、紋理、樣式、線條來(lái)得到高質(zhì)量圖像,因此一定程度上制約了國(guó)漫產(chǎn)品的創(chuàng)作效率,同時(shí)對(duì)主創(chuàng)人群的繪畫專業(yè)性要求較高。近年來(lái),人工智能技術(shù)被引入動(dòng)漫創(chuàng)作領(lǐng)域,用來(lái)實(shí)現(xiàn)真實(shí)圖像到動(dòng)漫樣式圖像的自動(dòng)轉(zhuǎn)換,不僅節(jié)約創(chuàng)作時(shí)間,同時(shí)也可以讓動(dòng)漫愛好者自己進(jìn)行“作畫”,極大程度促使創(chuàng)作者能擺脫繪圖技巧的束縛,更關(guān)注內(nèi)容創(chuàng)作。如何進(jìn)一步優(yōu)化人工智能技術(shù)、提升國(guó)漫生成質(zhì)量和風(fēng)格特點(diǎn),已成為當(dāng)前國(guó)內(nèi)學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注熱點(diǎn)。
本文關(guān)注的是基于人工智能的動(dòng)漫藝術(shù)風(fēng)格遷移問(wèn)題。該問(wèn)題可描述為:對(duì)于輸入的真實(shí)圖像,通過(guò)遷移給定樣例圖像的藝術(shù)風(fēng)格,在原始圖像上實(shí)現(xiàn)風(fēng)格重構(gòu)。目前深度學(xué)習(xí)技術(shù)已在動(dòng)漫藝術(shù)風(fēng)格遷移領(lǐng)域取得了突破性的進(jìn)展,其中Goodfellow等[1]提出的生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)通過(guò)生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)的相互對(duì)抗和優(yōu)化,在圖像風(fēng)格遷移方面取得了里程碑式的成果,也被成功應(yīng)用于解決動(dòng)漫藝術(shù)風(fēng)格遷移問(wèn)題。但是,根據(jù)分析可知,目前基于GAN的動(dòng)漫風(fēng)格遷移方法對(duì)于日本動(dòng)漫(簡(jiǎn)稱“日漫”)和美國(guó)動(dòng)漫(簡(jiǎn)稱“美漫”)具有較好的生成效果,對(duì)于國(guó)漫、尤其是具有寫意風(fēng)格的中國(guó)風(fēng)動(dòng)漫生成效果不佳,主要原因在于日漫和美漫側(cè)重于寫實(shí),國(guó)漫則側(cè)重于寫意,在內(nèi)容和表現(xiàn)形式方面均存在明顯差別?,F(xiàn)有基于GAN的動(dòng)漫風(fēng)格遷移方法側(cè)重于實(shí)現(xiàn)內(nèi)容結(jié)構(gòu)的重構(gòu),忽略了對(duì)風(fēng)格、樣式的信息提取與遷移,若直接應(yīng)用于中國(guó)寫意風(fēng)格遷移,則容易產(chǎn)生以下問(wèn)題:1)生成圖像過(guò)于寫實(shí),缺少形神描述和意境刻畫;2)現(xiàn)有風(fēng)格遷移方法傾向于對(duì)圖像整體背景而不是具體物體對(duì)象進(jìn)行顏色渲染,生成的圖像與原始圖像容易產(chǎn)生明顯的整體色差,失真明顯;3)網(wǎng)絡(luò)模型具有大量參數(shù),訓(xùn)練慢,不穩(wěn)定,不適合于快速生成動(dòng)漫視頻,而且隨著國(guó)內(nèi)動(dòng)漫產(chǎn)業(yè)的高速發(fā)展,動(dòng)漫視頻的生成效率也成為另一個(gè)需要關(guān)注的問(wèn)題。
圖1給出了三種風(fēng)格動(dòng)漫的示例,可以看出,注重寫實(shí)的日漫和美漫追求物象的質(zhì)感,強(qiáng)調(diào)事物形態(tài)的真實(shí)性,動(dòng)畫圖像顏色飽和,線條銳利;寫意的中國(guó)風(fēng)動(dòng)漫注重描繪物象的形神,追求深邃含蓄的意境,而且圖像內(nèi)容構(gòu)造簡(jiǎn)單,有水墨質(zhì)感的描邊線條,整體色彩具有朦朧含蓄的古典韻味。由此可見,若要實(shí)現(xiàn)中國(guó)風(fēng)動(dòng)漫的風(fēng)格遷移,需要進(jìn)一步優(yōu)化GAN模型,在保持內(nèi)容還原的基礎(chǔ)上,有效提取和表示中國(guó)寫意風(fēng)格,同時(shí)還應(yīng)降低圖像重構(gòu)成本,以提高視頻自動(dòng)生成的效率。
圖1 不同動(dòng)漫風(fēng)格比較
基于上述分析,本文提出了一種新的中國(guó)風(fēng)動(dòng)漫生成對(duì)抗網(wǎng)絡(luò)模型CCGAN(Chinese Cartoon GAN),用于實(shí)現(xiàn)面向視頻的中國(guó)寫意風(fēng)格遷移。首先,通過(guò)在生成器中增加反向殘差塊,構(gòu)建一個(gè)輕量級(jí)的GAN模型,以降低視頻生成的計(jì)算代價(jià);其次,對(duì)原始視頻提取關(guān)鍵幀圖像,針對(duì)圖像的內(nèi)容、樣式、色彩、紋理信息,在生成器中構(gòu)造了灰度樣式損失和顏色重建損失,在判別器中構(gòu)造了灰度對(duì)抗損失和邊緣促進(jìn)對(duì)抗損失,以約束重構(gòu)圖像與樣例圖像保持相同的邊緣特性,并保持原始視頻圖像和中國(guó)風(fēng)樣例圖像在風(fēng)格上的高層語(yǔ)義一致性;最終,采用Adam算法最小化上述損失函數(shù),實(shí)現(xiàn)圖像風(fēng)格遷移,并將重構(gòu)圖像組合為視頻。本文以《中國(guó)唱詩(shī)班》系列國(guó)漫為樣例圖像進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有代表性的動(dòng)漫風(fēng)格遷移方法相比,所提CCGAN可在保持原始圖像真實(shí)度的前提下,有效提升圖像的寫意特點(diǎn),且色塊過(guò)渡流暢,更能凸顯中國(guó)傳統(tǒng)美學(xué)的意蘊(yùn)風(fēng)格,同時(shí)計(jì)算代價(jià)更小,適用于數(shù)據(jù)量較大的視頻生成。
本文的主要工作是提出了一種輕量級(jí)的中國(guó)寫意風(fēng)格動(dòng)漫視頻生成模型。該模型可有效降低中國(guó)風(fēng)動(dòng)漫創(chuàng)作中繪畫技巧的約束性,協(xié)助主創(chuàng)人員專注于題材和情節(jié)創(chuàng)作,提高藝術(shù)創(chuàng)作效率,也可幫助沒(méi)有專業(yè)繪畫技巧的國(guó)漫愛好者快速創(chuàng)作高質(zhì)量的中國(guó)風(fēng)動(dòng)漫。該模型的技術(shù)新意和優(yōu)勢(shì)在于:1)突破了現(xiàn)有GAN局限在紋理和邊界線重構(gòu)的做法,在特征級(jí)別上高度簡(jiǎn)化了真實(shí)圖像的復(fù)雜構(gòu)造,使得重構(gòu)后的生成圖像在結(jié)構(gòu)上保持原始圖像的內(nèi)容特點(diǎn),又融入了樣例圖像的寫意風(fēng)格;2)使用無(wú)匹配的源數(shù)據(jù)進(jìn)行訓(xùn)練,主要學(xué)習(xí)樣例圖像的藝術(shù)風(fēng)格,無(wú)需強(qiáng)制要求原始圖像和樣例圖像的內(nèi)容保持相關(guān),因而擴(kuò)大了模型的適用范圍;3)具有輕量級(jí)模型結(jié)構(gòu),風(fēng)格遷移的速度快,適用于數(shù)據(jù)量較大的視頻風(fēng)格重構(gòu)。
動(dòng)漫風(fēng)格遷移的主要目的是通過(guò)學(xué)習(xí)樣例圖像的風(fēng)格信息,將提取的樣式特征映射到原始圖像中,以生成具備特定風(fēng)格的目標(biāo)圖像?;谌斯ぶ悄艿膭?dòng)漫風(fēng)格遷移工作,按照實(shí)現(xiàn)方法的特點(diǎn)不同,可分為神經(jīng)風(fēng)格遷移和基于GAN的風(fēng)格遷移兩種類型。
神經(jīng)風(fēng)格遷移主要通過(guò)迭代優(yōu)化的策略,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)樣例圖像的樣式并映射到原始圖像中。目前,此類方法主要包括基于圖像優(yōu)化的慢速神經(jīng)網(wǎng)絡(luò)方法和基于模型優(yōu)化的快速神經(jīng)網(wǎng)絡(luò)方法[2]。
基于圖像優(yōu)化的方法是從原始圖像和樣例圖像中提取各自的圖像特征,然后結(jié)合生成目標(biāo)圖像,并通過(guò)迭代優(yōu)化重建的目標(biāo)圖像,以實(shí)現(xiàn)風(fēng)格遷移的效果。其中,Gatys等[3-4]使用Gram矩陣在深層特征中進(jìn)行約束,提高了紋理表示效果;Yin[5]使用深度卷積神經(jīng)網(wǎng)絡(luò)[6]提取生成圖像與內(nèi)容圖像的特征,提高生成圖像的分辨率。但是,此類方法主要適用于繪畫的風(fēng)格遷移[7],對(duì)于動(dòng)畫樣式、攝影樣式、水墨樣式等其他類型的風(fēng)格遷移效果不佳。此外,此類方法計(jì)算效率較低,不適用于面向視頻的風(fēng)格遷移。
基于模型優(yōu)化的方法主要采用快速重建圖像技術(shù)[8]的思想,利用大量的源數(shù)據(jù)來(lái)訓(xùn)練模型的參數(shù)和結(jié)構(gòu),并在迭代過(guò)程中不斷優(yōu)化網(wǎng)絡(luò)模型,以直接生成高質(zhì)量目標(biāo)圖像。此類方法通過(guò)模型的直接轉(zhuǎn)換提高了計(jì)算效率,適用于數(shù)據(jù)量大的視頻重構(gòu)。但是,此類模型網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訓(xùn)練過(guò)程中參數(shù)存儲(chǔ)空間和訓(xùn)練時(shí)間比較多,較適用于特定的樣式轉(zhuǎn)換任務(wù),應(yīng)用范圍有限。
自從GAN模型被提出,基于GAN的圖像轉(zhuǎn)換[9]就成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。文獻(xiàn)[10-11]中提出了結(jié)合cGAN(conditional GAN)和U-Net神經(jīng)網(wǎng)絡(luò)的Pix2Pix模型來(lái)實(shí)現(xiàn)圖像間的轉(zhuǎn)換,該方法在圖像的語(yǔ)義合成[12]、邊緣重建以及圖像著色等方面效果顯著。作為圖像風(fēng)格轉(zhuǎn)換的代表性成果之一,CycleGAN[13]采用循環(huán)一致性的無(wú)監(jiān)督遷移網(wǎng)絡(luò)模型,突破了原始數(shù)據(jù)和樣例數(shù)據(jù)內(nèi)容匹配的限制,擴(kuò)大了原始數(shù)據(jù)的獲取范圍,同時(shí)可以高質(zhì)量地進(jìn)行圖像重構(gòu)。而作為基于GAN的動(dòng)漫風(fēng)格轉(zhuǎn)換開創(chuàng)性工作,CartoonGAN[14]提出了適用于漫畫化的兩種損失函數(shù)來(lái)約束特定風(fēng)格的提取,該模型有效實(shí)現(xiàn)了真實(shí)照片到動(dòng)漫風(fēng)格的遷移。在CartoonGAN的基礎(chǔ)上,文獻(xiàn)[15-16]中提出了將視頻轉(zhuǎn)換為漫畫風(fēng)格的方案,轉(zhuǎn)化過(guò)程主要分為兩個(gè)階段:首先,采用視頻關(guān)鍵幀提取算法從視頻中選擇幀的子集以提供全面的視頻上下文;然后,使用風(fēng)格遷移方法將提取到的幀轉(zhuǎn)換成漫畫。
雖然基于GAN的風(fēng)格遷移方法[17]已經(jīng)取得了較好效果,但仍然存在一些問(wèn)題:1)現(xiàn)有方法主要適用于寫實(shí)的日漫和美漫的動(dòng)漫藝術(shù)風(fēng)格,側(cè)重于內(nèi)容結(jié)構(gòu)的還原和重構(gòu),忽略了對(duì)風(fēng)格、樣式的提取與遷移;2)現(xiàn)有方法缺乏對(duì)圖像中具體物體、對(duì)象的色彩渲染,往往直接對(duì)整個(gè)圖像進(jìn)行風(fēng)格轉(zhuǎn)換,這無(wú)疑將導(dǎo)致整體風(fēng)格失真,表現(xiàn)為色調(diào)不均衡、重構(gòu)后的生成圖像與原始圖像色彩差異過(guò)大,呈現(xiàn)出重墨重彩的傾向,無(wú)法體現(xiàn)深邃含蓄的寫意風(fēng)格;3)網(wǎng)絡(luò)模型具有大量的參數(shù),訓(xùn)練慢,不穩(wěn)定,不適合數(shù)據(jù)量較大的視頻重構(gòu)。寫意的中國(guó)風(fēng)動(dòng)畫更注重描繪物象的形神,看重圖像的樣式特征,但現(xiàn)有基于GAN的風(fēng)格遷移方法無(wú)法有效表現(xiàn)出中國(guó)風(fēng)動(dòng)畫朦朧含蓄的古典美學(xué)意境。
本文提出了一種輕量級(jí)的中國(guó)風(fēng)動(dòng)漫視頻生成模型CCGAN。該模型以大量的真實(shí)圖像和動(dòng)漫樣例圖像作為訓(xùn)練數(shù)據(jù),建立真實(shí)圖像域和樣式圖像域的映射模型,再對(duì)需要轉(zhuǎn)換的原始視頻提取關(guān)鍵幀,輸入該模型,最后合并得到風(fēng)格轉(zhuǎn)換后的動(dòng)畫視頻。該模型允許訓(xùn)練用中國(guó)風(fēng)樣例圖像與原始圖像的內(nèi)容無(wú)需匹配,側(cè)重于進(jìn)行風(fēng)格樣式信息的提取和遷移,主要包括兩部分:1)構(gòu)建輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)端到端的快速圖像重構(gòu);2)提取并遷移樣式、內(nèi)容、紋理等方面的特征,在內(nèi)容重構(gòu)的同時(shí)實(shí)現(xiàn)寫意風(fēng)格的遷移。
GAN是一種由生成器網(wǎng)絡(luò)()和判別器網(wǎng)絡(luò)()組成的生成式機(jī)器學(xué)習(xí)模型,其結(jié)構(gòu)如圖2所示。GAN基于零和博弈理論,通過(guò)和的迭代對(duì)抗,最終達(dá)到納什均衡,得到最優(yōu)網(wǎng)絡(luò)模型。GAN的目標(biāo)函數(shù)如式(1)所示:
其中:z是服從某一分布的隨機(jī)噪聲,作為生成器G的源輸入;G通過(guò)學(xué)習(xí)真實(shí)數(shù)據(jù)的分布,生成接近真實(shí)數(shù)據(jù)的圖像,企圖騙過(guò)判別器D;生成的圖像和真實(shí)圖像作為D的輸入,D則負(fù)責(zé)區(qū)分出輸入數(shù)據(jù)的真假;根據(jù)D的區(qū)分情況反向調(diào)整G的參數(shù),從而使得G生成更高質(zhì)量的數(shù)據(jù)。在上述對(duì)抗訓(xùn)練過(guò)程中,G和D的學(xué)習(xí)能力不斷提高,最終達(dá)到納什均衡,G生成的偽數(shù)據(jù)符合真實(shí)的數(shù)據(jù)分布,GAN達(dá)到最優(yōu)生成效果。
現(xiàn)有用于圖像風(fēng)格遷移的GAN模型[10-11,13]通常在生成器中使用了具有多個(gè)卷積層的深度網(wǎng)絡(luò)來(lái)提取圖像特征,卷積核數(shù)量多,模型結(jié)構(gòu)復(fù)雜,運(yùn)行速度慢,不適合于數(shù)據(jù)量較大的視頻生成。本文所提CCGAN以減少GAN計(jì)算代價(jià)為目標(biāo),在圖像特征轉(zhuǎn)換時(shí)使用反向殘差塊(Inverted Residual Blocks, IRBs)代替卷積層,模型參數(shù)少,計(jì)算代價(jià)較低,同時(shí)能夠較好地轉(zhuǎn)換圖像特征。CCGAN的整體結(jié)構(gòu)如圖3所示,模型中生成器和判別器同樣采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖4所示。其中,“k”代表內(nèi)核大小,“c”代表特征圖的數(shù)量,“s”代表每個(gè)卷積核跨度,IRB表示反向卷積塊,Conv表示卷積層,DSConv表示深度可分離卷積,Down-Conv和UP-Conv分別表示下采樣和上采樣卷積,SUM表示逐元素相加,LN表示層歸一化,采用LReLU(Leaky Rectified Linear Unit)激活函數(shù)。需要強(qiáng)調(diào)的是,圖3中為了計(jì)算圖像語(yǔ)義特征的相似性,CCGAN在生成器中引入了預(yù)訓(xùn)練的VGG19,以獲得生成圖像和原始圖像的高層語(yǔ)義特征。
圖4(a)采用了對(duì)稱的Encoder-Decoder網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)通過(guò)將圖像進(jìn)行編碼、轉(zhuǎn)換、解碼,將真實(shí)圖像轉(zhuǎn)換為具有中國(guó)風(fēng)樣式的動(dòng)漫圖像。編碼和解碼的作用在于從輸入圖像提取特征和生成圖像;轉(zhuǎn)換的作用在于把圖像的特征向量從域(原始圖像)轉(zhuǎn)換為域(生成圖像),具體解釋如下。
圖3 CCGAN模型結(jié)構(gòu)
圖4 CCGAN中的生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)
相較于現(xiàn)有的標(biāo)準(zhǔn)殘差塊,圖5中構(gòu)建IRB模型的網(wǎng)絡(luò)參數(shù)數(shù)量和計(jì)算代價(jià)均有明顯減少。本文在圖4所示生成器網(wǎng)絡(luò)中連續(xù)使用了5個(gè)相同的IRB,有效減少了生成器網(wǎng)絡(luò)的參數(shù)數(shù)量,這是建立輕量級(jí)CCGAN模型的核心環(huán)節(jié)。
圖5 Conv-Block、DSConv、IRB的詳細(xì)結(jié)構(gòu)
圖4(b)所示的判別器網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單。該網(wǎng)絡(luò)中,卷積層均為標(biāo)準(zhǔn)卷積,每個(gè)卷積層使用譜歸一化來(lái)解決GAN訓(xùn)練不穩(wěn)定的問(wèn)題,從“層參數(shù)”的角度施加規(guī)格化,從而使判別器網(wǎng)絡(luò)具備Lipschitz連續(xù)條件。網(wǎng)絡(luò)最后通過(guò)一維輸出的卷積層判別圖像來(lái)自真實(shí)目標(biāo)域還是來(lái)自生成器產(chǎn)生的輸出。
圖6 Down-Conv、Up-Conv的詳細(xì)結(jié)構(gòu)
為了讓圖3所示網(wǎng)絡(luò)可生成中國(guó)寫意風(fēng)格的圖像,針對(duì)圖像的內(nèi)容、顏色、樣式、紋理等方面構(gòu)建了相應(yīng)的損失函數(shù):在生成器網(wǎng)絡(luò)中,構(gòu)建灰度樣式損失和色彩重建損失,使得生成的圖像具有風(fēng)格圖像的樣式并保留源圖像的顏色;在判別器網(wǎng)絡(luò)中,構(gòu)建灰度對(duì)抗損失和邊緣促進(jìn)對(duì)抗性損失,使得生成的圖像具有鮮艷的色彩并保留清晰的邊緣。以下分別做介紹。
對(duì)于生成器網(wǎng)絡(luò),損失函數(shù)可表示為:
對(duì)式(1)中的各個(gè)部分介紹如下:
對(duì)于判別器網(wǎng)絡(luò),為促使生成圖像符合中國(guó)風(fēng)邊緣銳利的樣式特點(diǎn),CCGAN使用了邊緣促進(jìn)對(duì)抗損失,用來(lái)實(shí)現(xiàn)對(duì)弱化邊緣的鑒別;為了防止產(chǎn)生灰度的生成圖像,CCGAN使用了灰度對(duì)抗損失。判別器網(wǎng)絡(luò)的損失函數(shù)可表示為:
整合式(2)~(3),CCGAN的整體目標(biāo)函數(shù)可表示為:
式(4)可通過(guò)Adam算法進(jìn)行求解,限于篇幅,優(yōu)化過(guò)程不再贅述,可參考文獻(xiàn)[21]。由于基礎(chǔ)GAN訓(xùn)練過(guò)程不穩(wěn)定,在正式訓(xùn)練CCGAN之前,可先對(duì)生成器網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,提高收斂性能。當(dāng)CCGAN達(dá)到納什均衡時(shí),可得到最優(yōu)模型參數(shù),此時(shí)對(duì)待轉(zhuǎn)換的原始視頻提取關(guān)鍵幀并輸入CCGAN進(jìn)行風(fēng)格轉(zhuǎn)換,最后將轉(zhuǎn)換后的各幀圖像合并為具有中國(guó)寫意風(fēng)格的視頻。
圖7 《中國(guó)唱詩(shī)班》動(dòng)畫圖像示例
在CCGAN訓(xùn)練階段,生成器的學(xué)習(xí)率為0.000 08、判別器的學(xué)習(xí)率為0.000 16,訓(xùn)練epochs為80,batch size設(shè)置為15。CCGAN實(shí)驗(yàn)所用電腦配置為Xeon CPU E5-2650 2.60 GHz,內(nèi)存64 GB,GPU為Tesla K40m,編程環(huán)境為Tensorflow-GPU 1.15。
CCGAN包括了內(nèi)容、樣式、紋理、色彩的多個(gè)損失項(xiàng),因此需要通過(guò)權(quán)重來(lái)合理平衡式(2)中各損失項(xiàng)對(duì)生成圖像的影響。其中:最小化內(nèi)容損失將使得生成圖像保持源圖像的內(nèi)容,其權(quán)重越大則生成圖像越接近真實(shí)圖像;灰度樣式損失使得生成圖像具有中國(guó)風(fēng)紋理特點(diǎn),其權(quán)重設(shè)置太大將會(huì)丟失源圖像的局部?jī)?nèi)容;顏色重建損失使得生成圖像的色彩更加真實(shí),但是其權(quán)重太大會(huì)減弱圖像的動(dòng)畫視覺效果。
圖8 對(duì)抗損失權(quán)重的定量分析
圖9 灰度樣式損失權(quán)重和內(nèi)容損失權(quán)重的定量分析
圖10 顏色重建損失權(quán)重的定量分析
此外,訓(xùn)練輪次(Epoch)對(duì)于風(fēng)格遷移效果有較大的影響,尤其是對(duì)于色差較大的圖像,當(dāng)訓(xùn)練過(guò)度時(shí),其邊緣部分會(huì)出現(xiàn)白邊,影響觀感。圖12給出了不同訓(xùn)練輪次的遷移效果。由圖12可以看出,當(dāng)訓(xùn)練輪次低于81輪時(shí),沒(méi)有白邊出現(xiàn),而當(dāng)訓(xùn)練超過(guò)81輪后,白邊開始顯現(xiàn),并且隨著輪次的增加,白邊效果愈加明顯。這表明圖像邊緣白邊可以通過(guò)訓(xùn)練輪次進(jìn)行控制。
圖11 中國(guó)寫意風(fēng)格遷移的結(jié)果示例
圖12 CCGAN采用不同訓(xùn)練輪次的風(fēng)格遷移效果
本文的視頻生成效果可見鏈接:https://www.bilibili.com/video/BV1LA411G7LW?pop_share=1和https://www.bilibili.com/video/BV1S64y1B7Gt。
為了驗(yàn)證CCGAN的性能優(yōu)勢(shì),將其與目前最具代表性的兩個(gè)圖像風(fēng)格遷移模型CycleGAN與CartoonGAN進(jìn)行比較,結(jié)果如圖13所示。其中,CartoonGAN為專門針對(duì)動(dòng)漫圖像的風(fēng)格遷移方法?,F(xiàn)有具有代表性的兩個(gè)圖像質(zhì)量評(píng)價(jià)指標(biāo)峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和結(jié)構(gòu)相似性指標(biāo)(Structural SIMilarity index, SSIM)并不適合評(píng)價(jià)圖像風(fēng)格遷移效果,原因如下:1)PSNR和SSIM主要用于評(píng)價(jià)圖像結(jié)構(gòu)的相似性;2)PSNR是一種誤差敏感的圖像質(zhì)量評(píng)價(jià)指標(biāo),計(jì)算主要基于對(duì)應(yīng)像素點(diǎn)間的誤差,并未考慮到人眼的視覺特性,因而經(jīng)常出現(xiàn)評(píng)價(jià)結(jié)果與人的主觀感覺不一致的情況;3)SSIM從樣本間的亮度、對(duì)比度和結(jié)構(gòu)三方面進(jìn)行相似度衡量,更適合用于評(píng)估壓縮后的圖像質(zhì)量;4)風(fēng)格遷移是一種“無(wú)中生有”的過(guò)程,除了要契合原圖像內(nèi)容,而且還要符合目標(biāo)圖像的風(fēng)格特點(diǎn)。以上各原因決定了對(duì)于寫意風(fēng)格的中國(guó)風(fēng)動(dòng)畫,客觀的PSNR和SSIM指標(biāo)并不能很好地反映人眼看到的動(dòng)畫藝術(shù)質(zhì)量,指標(biāo)高并不代表遷移效果好。本文參考了CycleGAN和CartoonGAN的做法,由人工直接評(píng)估風(fēng)格遷移效果。
圖13 CycleGAN、CartoonGAN、CCGAN生成圖像的效果比較
圖13中,CycleGAN基于循環(huán)一致性的設(shè)計(jì)結(jié)構(gòu),注重圖像間像素級(jí)別的相似性,由CycleGAN生成的圖像高度還原了輸入圖像的內(nèi)容,但缺乏明顯的中國(guó)風(fēng)樣式特點(diǎn);CartoonGAN與CCGAN均基于圖像間的語(yǔ)義一致性,但是CartoonGAN生成的圖像整體色調(diào)與輸入圖像不符,并且圖像的樣式風(fēng)格也沒(méi)有契合水墨質(zhì)感的寫意風(fēng)格;相比之下,CCGAN不僅有效保留了真實(shí)圖像的內(nèi)容,而且生成圖像具有典型的寫意風(fēng)格特點(diǎn)。
表1 CartoonGAN與CCGAN的性能比較
為實(shí)現(xiàn)中國(guó)風(fēng)動(dòng)漫視頻的自動(dòng)生成,本文提出了一種輕量級(jí)的CCGAN模型。該模型可在較短的時(shí)間內(nèi)完成現(xiàn)實(shí)世界的真實(shí)圖像到給定動(dòng)漫樣例圖像的風(fēng)格轉(zhuǎn)換,適合于數(shù)據(jù)量較大的視頻風(fēng)格重構(gòu)。通過(guò)IRB的引入,CCGAN實(shí)現(xiàn)了模型的輕量級(jí)構(gòu)建;通過(guò)對(duì)圖像內(nèi)容、樣式、紋理、色彩的信息提取與約束,CCGAN完成了中國(guó)寫意風(fēng)格中圖像邊緣銳利、內(nèi)容構(gòu)造抽象、描邊線條具有水墨質(zhì)感等性質(zhì)的重構(gòu),實(shí)現(xiàn)了高質(zhì)量的中國(guó)寫意風(fēng)格遷移。
接下來(lái)的工作中,實(shí)現(xiàn)高質(zhì)量的任意風(fēng)格快速遷移技術(shù)將是一個(gè)有挑戰(zhàn)性的研究方向,這有助于提高風(fēng)格遷移模型的適用性。同時(shí),該模型在應(yīng)用于不同風(fēng)格的圖像時(shí)需做一定量的參數(shù)調(diào)整,如何提高模型的自適應(yīng)性和魯棒性也是一個(gè)需要解決的問(wèn)題。
[1] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks [C]// Proceedings of the 2014 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014: 2672-2680.
[2] 陳淮源,張廣馳,陳高,等.基于深度學(xué)習(xí)的圖像風(fēng)格遷移研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(11):37-45.(CHEN H Y, ZHANG G C, CHEN G, et al. Research progress of image style transfer based on deep learning [J]. Computer Engineering and Applications, 2021, 57(11): 37-45.)
[3] GATYS L A, ECKER A S, BETHGE M. A neural algorithm of artistic style[J]. Journal of Vision, 2016, 16(12): Article No.326.
[4] GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2414-2423.
[5] YIN R J. Content aware neural style transfer [EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1601.04568.pdf
[6] WANG X, OXHOLM G, ZHANG D, et al. Multimodal transfer: a hierarchical deep convolutional neural network for fast artistic style transfer [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 7178-7186.
[7] NOVAK R, NIKULIN Y. Improving the neural algorithm of artistic style [EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1605.04603.pdf.
[8] 錢小燕,肖亮,吳慧中.快速風(fēng)格遷移[J].計(jì)算機(jī)工程,2006,32(21):15-17,46.(QIAN X Y, XIAO L, WU H Z. Fast style transfer[J]. Computer Engineering, 2006, 32(21): 15-17, 46.)
[9] 張恩琪,顧廣華,趙晨,等.生成對(duì)抗網(wǎng)絡(luò)GAN的研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2021,38(4):968-974.(ZHANG E Q, GU G H, ZHAO C, et al. Research progress on generative adversarial network [J]. Application Research of Computers, 2021, 38(4): 968-974.)
[10] ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 5967-5976.
[11] WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8798-8807.
[12] LIAO J, YAO Y, YUAN L, et al. Visual attribute transfer through deep image analogy [J]. ACM Transactions on Graphics, 2017, 36(4): Article No.120.
[13] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2242-2251.
[14] CHEN Y, LAI Y K, LIU Y J. CartoonGAN: generative adversarial networks for photo cartoonization [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 9465-9474.
[15] HUANG H Z, WANG H, LUO W H, et al. Real-time neural style transfer for videos [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 7044-7052.
[16] P??KO M, SVYSTUN A, ANDRUSZKIEWICZ P, et al. Comixify: transform video into comics [J]. Fundamenta Informaticae, 2019, 168(2/3/4): 311-333.
[17] 師永超,朱立軍.基于GAN的圖像風(fēng)格遷移研究[J].電子技術(shù)與軟件工程,2020(16):140-143.(SHI Y C, ZHU L J. Research on image style transfer based on GAN [J]. Electronic Technology and Software Engineering, 2020(16): 140-143.)
[18] CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1800-1807.
[19] ULYANOV D, VEDALDI A, LEMPITSKY V. Instance normalization: the missing ingredient for fast stylization [EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1607.08022.pdf.
[20] CHEN J, LIU G, CHEN X. AnimeGAN: a novel lightweight GAN for photo animation [C]// Proceedings of the 2019 International Symposium on Intelligence Computation and Applications, CCIS 1205. Singapore: Springer, 2019: 242-256.
[21] KINGMA D P, BA J L. Adam: a method for stochastic optimization [EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1412. 6980.pdf.
MAO Wentao, born in 1980, Ph. D., professor. His research interests include machine learning, temporal big data analysis.
WU Guifang, born in 1997. Her research interests include machine vision, style transfer.
WU Chao, born in 1998, M. S. candidate. His research interests include machine learning, abnormal detection.
DOU Zhi, born in 1984, Ph. D., associate professor. His research interests include machine learning, target detection.
Animation video generation model based on Chinese impressionistic style transfer
MAO Wentao1,2*, WU Guifang1, WU Chao1, DOU Zhi1,2
(1,,453007,;2(),453007,)
At present, Generative Adversarial Network (GAN) has been used for image animation style transformation. However, most of the existing GAN-based animation generation models mainly focus on the extraction and generation of realistic style with the targets of Japanese animations and American animations. Very little attention of the model is paid to the transfer of impressionistic style in Chinese-style animations, which limits the application of GAN in the domestic animation production market. To solve the problem, a new Chinese-style animation GAN model, namely Chinese Cartoon GAN (CCGAN), was proposed for the automatic generation of animation videos with Chinese impressionistic style by integrating Chinese impressionistic style into GAN model. Firstly, by adding the inverted residual blocks into the generator, a lightweight deep neural network model was constructed to reduce the computational cost of video generation. Secondly, in order to extract and transfer the characteristics of Chinese impressionistic style, such as sharp image edges, abstract content structure and stroke lines with ink texture, the gray-scale style loss and color reconstruction loss were constructed in the generator to constrain the high-level semantic consistency in style between the real images and the Chinese-style sample images. Moreover, in the discriminator, the gray-scale adversarial loss and edge-promoting adversarial loss were constructed to constrain the reconstructed image for maintaining the same edge characteristics of the sample images. Finally, the Adam algorithm was used to minimize the above loss functions to realize style transfer, and the reconstructed images were combined into video. Experimental results show that, compared with the current representative style transfer models such as CycleGAN and CartoonGAN, the proposed CCGAN can effectively learn the Chinese impressionistic style from Chinese-style animations such asand significantly reduce the computational cost, indicating that the proposed CCGAN is suitable for the rapid generation of animation videos with large quantities.
Generative Adversarial Network (GAN); Chinese-style animation; style transfer; cartoon; Deep Neural Network (DNN)
This work is partially supported by National Natural Science Foundation of China (U1904123), Key Program of Henan Province Science and Technology Project (212102210103).
TP181
A
1001-9081(2022)07-2162-08
10.11772/j.issn.1001-9081.2021050836
2021?05?21;
2021?08?27;
2021?09?16。
國(guó)家自然科學(xué)基金資助項(xiàng)目(U1904123);河南省科技攻關(guān)計(jì)劃項(xiàng)目(212102210103)。
毛文濤(1980—),男,河南新鄉(xiāng)人,教授,博士,CCF高級(jí)會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、時(shí)序大數(shù)據(jù)分析; 吳桂芳(1997—),女,河南信陽(yáng)人,主要研究方向:機(jī)器視覺、風(fēng)格遷移; 吳超(1998—),男,河南焦作人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、異常檢測(cè); 竇智(1984—),男,河南新鄉(xiāng)人,副教授,博士,主要研究方向:機(jī)器學(xué)習(xí)、目標(biāo)檢測(cè)。