李 桂,李 騰
基于姿態(tài)引導(dǎo)的場(chǎng)景保留人物視頻生成
李 桂,李 騰
(安徽大學(xué)電氣工程與自動(dòng)化學(xué)院,安徽 合肥 230601)
人物視頻生成技術(shù)是通過(guò)學(xué)習(xí)人體結(jié)構(gòu)與運(yùn)動(dòng)的特征表示,實(shí)現(xiàn)從特征表示到人物視頻幀的空間生成映射。針對(duì)現(xiàn)有的人物視頻生成算法未考慮背景環(huán)境轉(zhuǎn)換及人體姿態(tài)估計(jì)精度較低等問(wèn)題,提出一種基于姿態(tài)引導(dǎo)的場(chǎng)景保留人物視頻生成算法(PSPVG)。首先,取合適的源視頻和目標(biāo)視頻,利用分割人物外觀的視頻幀代替源視頻幀作為網(wǎng)絡(luò)的輸入;然后,基于GAN的運(yùn)動(dòng)轉(zhuǎn)換模型將源視頻中的人物替換成目標(biāo)人物,并保持動(dòng)作一致性;最后,引用泊松圖像編輯將人物外觀與源背景融合,去除邊界異常像素,實(shí)現(xiàn)將人物自然地融入源場(chǎng)景且避免改變畫(huà)面背景環(huán)境和整體風(fēng)格。該算法使用分割出的前景人物圖代替源視頻幀中的人物,減少背景干擾,提高姿態(tài)估計(jì)精度,自然地實(shí)現(xiàn)運(yùn)動(dòng)轉(zhuǎn)移過(guò)程中源場(chǎng)景的保留,生成藝術(shù)性與真實(shí)性和諧并存的人物視頻。
人物視頻生成;姿態(tài)估計(jì);運(yùn)動(dòng)轉(zhuǎn)換;生成對(duì)抗網(wǎng)絡(luò);圖像處理
一直以來(lái),人物視頻生成技術(shù)作為計(jì)算機(jī)視覺(jué)和多媒體領(lǐng)域的重點(diǎn)研究?jī)?nèi)容之一,已有了各種生成策略和特征表示方法?;谖蛔藱z測(cè)算法的人物視頻生成技術(shù)是利用骨架圖的變換進(jìn)行運(yùn)動(dòng)的轉(zhuǎn)換,生成各類有趣的視頻,用于廣告、電影或特效合成以及人物外觀造型的切換等。由于廣泛的應(yīng)用場(chǎng)景,其受到了研究人員的高度重視,不斷涌現(xiàn)出豐富的視頻生成算法。
近年來(lái),圖像生成技術(shù)的迅速發(fā)展為人物視頻生成技術(shù)的研究奠定了堅(jiān)實(shí)的基礎(chǔ),提供了許多有效的途徑和研究思路?,F(xiàn)有的生成算法可分為2大類:①基于生成方向的分段式圖像生成[1],該方法在生成粗略圖之后,再根據(jù)生成對(duì)抗網(wǎng)絡(luò)[2]框架獲得精確圖像。②直接學(xué)習(xí)從骨架圖到真實(shí)視頻幀的映射關(guān)系,即通過(guò)姿態(tài)檢測(cè)器檢測(cè)出視頻幀中人物對(duì)應(yīng)的骨架圖,生成器根據(jù)訓(xùn)練數(shù)據(jù)集學(xué)習(xí)人物的外觀特征。根據(jù)求解的途徑,特征表示的方法主要分為:骨架紋理的特征分離,其依賴于傳統(tǒng)算法的估計(jì)[3];使用骨架圖或人體mask,該方法依靠生成網(wǎng)絡(luò)來(lái)填充紋理特征,更依賴于數(shù)據(jù)集[4-5];使用其他混合功能,例如人體表面模型[6]。
不同于基于人體圖像的生成方法,本文將研究延伸至視頻生成領(lǐng)域,直接學(xué)習(xí)從骨架圖到真實(shí)視頻幀的映射,從訓(xùn)練數(shù)據(jù)集中自動(dòng)學(xué)習(xí)生成的人物外觀特征,無(wú)需人工干預(yù)。基于生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)的人物視頻生成算法,在學(xué)習(xí)不同視頻間的映射時(shí),僅針對(duì)外觀模型變換與運(yùn)動(dòng)轉(zhuǎn)移過(guò)程中的精度,未考慮源視頻和目標(biāo)視頻中背景環(huán)境對(duì)人體姿態(tài)估計(jì)精度的影響,以及背景在運(yùn)動(dòng)轉(zhuǎn)移研究范疇中的結(jié)合。
通過(guò)解決圖像生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間的博弈游戲來(lái)學(xué)習(xí)圖像生成以生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[2]。其中,VAE[7]和PixelCNNs[8]等在視頻合成方面均取得了非凡突破。此外,為了學(xué)習(xí)同視頻之間的映射,RecycleGAN[9],DiscoGAN[10]和MocoGAN[11]先后被提出。大量的研究結(jié)果表明,GAN逐漸成為圖像或視頻生成的最佳選擇。
在保證人體姿態(tài)估計(jì)精度不降低的基礎(chǔ)上,是否有一種算法能實(shí)現(xiàn)目標(biāo)人物在源視頻環(huán)境中學(xué)習(xí)到源人物的動(dòng)作?例如,替身演員代替影視演員做高難度動(dòng)作,通過(guò)算法轉(zhuǎn)換后影視演員將在源場(chǎng)景下合成替身的動(dòng)作,完成表演。本文通過(guò)去除背景的人物前景圖像代替源視頻幀進(jìn)行姿態(tài)估計(jì),提高位姿檢測(cè)的效率和精度,以及結(jié)合圖像分割和圖像融合操作,實(shí)現(xiàn)源場(chǎng)景保留的人物視頻生成技術(shù)。
與傳統(tǒng)方法相比,本文方法使用去背景人物前景圖作為網(wǎng)絡(luò)的輸入,并將運(yùn)動(dòng)轉(zhuǎn)換后的視頻幀與源視頻幀的背景融合以實(shí)現(xiàn)背景切換。在經(jīng)過(guò)大量訓(xùn)練后,可以實(shí)現(xiàn)良好的轉(zhuǎn)換效果,具有很大的應(yīng)用價(jià)值。本文的創(chuàng)新點(diǎn)如下:
(1) 姿態(tài)引導(dǎo)的場(chǎng)景保留人物視頻生成算法(pose-guided scene-preserving person video generation,PSPVG),是首個(gè)在不同視頻人物對(duì)象之間實(shí)現(xiàn)目標(biāo)姿勢(shì)遷移和背景切換的方法。
(2) 相比于其他融合方法,本文方法使目標(biāo)人物與源背景環(huán)境完全融為一體且無(wú)明顯的邊界像素差。
(3) 將分割后的源人物前景圖代替源視頻幀放入運(yùn)動(dòng)轉(zhuǎn)換網(wǎng)絡(luò)中訓(xùn)練,提高姿態(tài)估計(jì)的準(zhǔn)確性,減少背景環(huán)境干擾以及肢體缺少等產(chǎn)生的影響。
PSPVG主要分為3個(gè)階段。首先,利用源視頻幀中的人物前景圖代替源人物圖像進(jìn)行位姿估計(jì);其次,在基于GAN的運(yùn)動(dòng)轉(zhuǎn)換模型上,將輸入的目標(biāo)人物外觀視頻幀與源人物姿態(tài)圖像合成高分辨率的人物運(yùn)動(dòng)視頻幀;最后,將與源姿勢(shì)相同的目標(biāo)對(duì)象與源背景進(jìn)行融合。圖1為PSPVG網(wǎng)絡(luò)模型的總體結(jié)構(gòu)框圖,主要包括:①基于空間金字塔模型和編碼-解碼結(jié)構(gòu)的語(yǔ)義分割算法;②基于GAN的運(yùn)動(dòng)轉(zhuǎn)換模型結(jié)構(gòu);③基于泊松方程的無(wú)縫融合算法。
圖1 PSPVG網(wǎng)絡(luò)生成模型結(jié)構(gòu)
隨著深度學(xué)習(xí)的不斷發(fā)展,圖像分割技術(shù)涌現(xiàn)出許多優(yōu)秀的網(wǎng)絡(luò)。基于全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CNs)[12]的方法已經(jīng)證明了幾個(gè)分割基準(zhǔn)的顯著改進(jìn)[13-14],其中變體包括:SPP模型,PSPNet[15]或DeepLab[16]算法。模型利用分割基準(zhǔn)的多尺度信息獲得結(jié)果,編碼器-解碼器模型[17-18]中編碼器模塊用于捕獲更高語(yǔ)義信息,解碼器模塊用于逐漸恢復(fù)空間信息。本文采用“DeepLabv3+[19]”模型編碼豐富上下文信息和通過(guò)一個(gè)簡(jiǎn)單有效的解碼器模塊去恢復(fù)對(duì)象邊界,應(yīng)用Atrous卷積來(lái)提取任意分辨率的編碼器特征。
針對(duì)源場(chǎng)景保留模型中,人物肢體區(qū)域源背景的精度分割效果不佳的問(wèn)題,需要選擇適用于本模型且效果相對(duì)較好的分割方法。在圖像視頻生成領(lǐng)域,生成的圖片存在精度低、質(zhì)量差的問(wèn)題,為了改進(jìn)這些問(wèn)題,本文使用分割后的人物前景圖代替源視頻幀作為網(wǎng)絡(luò)的輸入。經(jīng)對(duì)比實(shí)驗(yàn)證明,利用基于空間金字塔模型和編碼-解碼結(jié)構(gòu)的語(yǔ)義分割算法分割精度更高、視覺(jué)效果更佳。
在物體邊界分割中,本文使用新穎的DeepLabv3+[19]網(wǎng)絡(luò)模型架構(gòu)進(jìn)行分割,將其作為編碼模塊,并添加了一個(gè)簡(jiǎn)單有效的解碼模塊構(gòu)成編碼-解碼結(jié)構(gòu)(encode-decoder)以提升分割效果。特征提取部分通過(guò)空洞卷積調(diào)整卷積filter的接受野來(lái)捕捉多尺度的上下文內(nèi)容信息,直接控制提取encoder特征的分辨率,以平衡精度和耗時(shí)。
二維信號(hào)使用空洞卷積,對(duì)于位置的,在輸入特征圖上應(yīng)用濾波器,若輸出特征圖為,則擴(kuò)張卷積為
GAN的運(yùn)動(dòng)轉(zhuǎn)換模型結(jié)構(gòu)是指不同人物外觀之間進(jìn)行動(dòng)作遷移。其中采用GAN和運(yùn)動(dòng)遷移算法構(gòu)建的EDN (everybody dance now)[4]模型在圖像視頻生成領(lǐng)域表現(xiàn)良好[20-21]。本文在原有基礎(chǔ)上結(jié)合背景切換將源人物和背景進(jìn)行分離,并完成目標(biāo)人物和源背景的融合,減小邊界像素差,不僅實(shí)現(xiàn)了源場(chǎng)景保留的目的,還能達(dá)到良好的運(yùn)動(dòng)轉(zhuǎn)換效果。
GAN的主要思想是訓(xùn)練2個(gè)網(wǎng)絡(luò):生成網(wǎng)絡(luò)試圖生成視頻;鑒別器網(wǎng)絡(luò)試圖區(qū)分“真實(shí)”視頻和“虛假”視頻。過(guò)程中,生成器試圖最大限度地欺騙鑒別器,同時(shí)鑒別器檢測(cè)哪些樣例為假
其中,為潛在的“代碼”,通常從一個(gè)簡(jiǎn)單的抽樣分布和來(lái)自數(shù)據(jù)分布的~p()樣本中采樣。實(shí)驗(yàn)過(guò)程中數(shù)據(jù)的真實(shí)分布未知,從數(shù)據(jù)集中抽取數(shù)據(jù)估計(jì)期望值。使用基于梯度的方法(stochastic gradient descent,SGD)優(yōu)化方程2,2個(gè)網(wǎng)絡(luò)和可以采用適合于任務(wù)的任何形式,且相對(duì)于參數(shù)w和w可微分。
姿態(tài)遷移部分分為:①姿態(tài)檢測(cè):使用去背景的人物外觀圖預(yù)訓(xùn)練位姿檢測(cè)器,從源視頻中描繪出給定幀的骨架圖形。②全局姿態(tài)標(biāo)準(zhǔn)化:計(jì)算給定視頻幀中,源人物和目標(biāo)人物身體形狀與位置間的差異,將源姿態(tài)圖轉(zhuǎn)換為符合目標(biāo)人物身體形狀和位置的姿態(tài)圖。③從標(biāo)準(zhǔn)化后的姿態(tài)圖形推斷目標(biāo)人物的圖像:使用一個(gè)生成式對(duì)抗模型,訓(xùn)練模型學(xué)習(xí)從標(biāo)準(zhǔn)化后的姿態(tài)圖形推斷到目標(biāo)人物圖像。
為了創(chuàng)建編碼身體位置的圖像,用預(yù)訓(xùn)練姿勢(shì)檢測(cè)器P精確地估計(jì)關(guān)節(jié)坐標(biāo)(,)。通過(guò)繪制關(guān)鍵點(diǎn),并在連接的關(guān)節(jié)之間畫(huà)線,訓(xùn)練時(shí)利用分割出的前景人物圖取代源視頻幀并作為生成器的輸入,從而得到并繪制出最終的位姿簡(jiǎn)圖,如圖2所示。
創(chuàng)建視頻序列時(shí),必須修改單個(gè)圖像的生成設(shè)置以提高相鄰幀之間的時(shí)間相干性,而不是生成單獨(dú)的幀?;趐ix2pixHD框架加入時(shí)間平滑設(shè)置,預(yù)測(cè)2個(gè)連續(xù)幀的第一個(gè)輸出(x–1)是基于其對(duì)應(yīng)的姿勢(shì)骨架圖x–1和零圖像。第二個(gè)輸出(x)基于其對(duì)應(yīng)的姿勢(shì)骨架圖x和第一個(gè)輸出(x–1),則鑒別器區(qū)分出“真實(shí)”序列(x–1,x,y–1,y)和“假”序列(x–1,x,(x–1),(x))的差異,即
圖2 視頻目標(biāo)幀與對(duì)應(yīng)骨架圖
其中,x為合成當(dāng)前幀的對(duì)應(yīng)姿勢(shì)圖;x–1為前一幀對(duì)應(yīng)姿勢(shì)圖;(*)為經(jīng)過(guò)生成器的輸出幀;為目標(biāo)視頻幀。
在運(yùn)動(dòng)轉(zhuǎn)換模型中(圖3),通過(guò)加入分割算法替換源視頻幀,以人物的外觀圖進(jìn)行姿態(tài)估計(jì),生成器以更加精確的生成圖片進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練。對(duì)比EDN模型,本文模型不僅能夠?qū)崿F(xiàn)運(yùn)動(dòng)轉(zhuǎn)換算法,還能夠提高生成圖片與視頻的精度,實(shí)現(xiàn)目標(biāo)人物在源場(chǎng)景中執(zhí)行準(zhǔn)確的源人物動(dòng)作。
圖3 運(yùn)動(dòng)轉(zhuǎn)換模型的訓(xùn)練部分
圖像融合技術(shù)普遍應(yīng)用于航天、醫(yī)療和工業(yè)制造等諸多領(lǐng)域。傳統(tǒng)的圖像融合算法中,有基于小波框架變換法、主要分析PCA法以及HIS融合法等。近年來(lái),出現(xiàn)了許多基于深度學(xué)習(xí)的圖像融合算法,其中包括基于深度卷積神經(jīng)網(wǎng)絡(luò)的多聚焦圖像融合法[22-23]以及多尺度圖像融合法[24]等,然而這些算法實(shí)現(xiàn)過(guò)程復(fù)雜、工作量繁重且效果較差。為確保目標(biāo)人物外觀更加自然地融入到風(fēng)格多樣的背景圖像中,本文使用基于MVC的泊松融合加速算法進(jìn)行無(wú)縫融合,以匹配選取內(nèi)部像素而減小像素差,通過(guò)調(diào)整局部亮度與顏色的變化,使其更加貼近背景環(huán)境的顏色與風(fēng)格。
泊松圖像融合是將2張圖像“無(wú)縫融合”的技術(shù),在邊界條件下進(jìn)行梯度匹配,引入各種新穎的工具用于圖像區(qū)域的無(wú)縫編輯?;贛VC的泊松融合方法將原有的泊松方程替換為拉普拉斯方程,然后使用Mean-Value Coordinates近似求解,使之變成插值問(wèn)題,問(wèn)題復(fù)雜度降低,算法更加簡(jiǎn)單,可實(shí)時(shí)進(jìn)行交互運(yùn)行。此融合方法能夠使前景平滑地融入背景中,保持畫(huà)面不突兀,平滑且不起伏,邊界色差不明顯。
相比其他融合方法,基于MVC的泊松圖像融合技術(shù)在操縱顏色方面功能更加強(qiáng)大,使2種不同顏色的版本無(wú)縫混合,在保留人物完整“細(xì)節(jié)”的前提下,調(diào)整肖像顏色得到新融合的圖像,其中細(xì)節(jié)包括:邊緣、角點(diǎn)等。經(jīng)實(shí)驗(yàn)證明,基于MVC的泊松融合加速方法非常適用于人物視頻生成技術(shù)中的融合操作,擁有突出的畫(huà)面效果。
本文在EDN[4]運(yùn)動(dòng)轉(zhuǎn)換算法的基礎(chǔ)上改進(jìn),加入語(yǔ)義分割算法與泊松圖像融合加速算法,以實(shí)現(xiàn)視頻幀背景的切換,減小邊界像素差。通過(guò)改進(jìn)運(yùn)動(dòng)轉(zhuǎn)換算法,使用分割后的人物前景圖代替源圖像放入運(yùn)動(dòng)轉(zhuǎn)換網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,提高姿態(tài)估計(jì)準(zhǔn)確性,減少背景環(huán)境干擾以及肢體缺少等因素的影響。文中的實(shí)驗(yàn)結(jié)果證明,該算法能夠生成設(shè)計(jì)感十足、自然且真實(shí)的轉(zhuǎn)換效果,具有巨大的應(yīng)用價(jià)值。
為保證評(píng)估的客觀性及公平性,本文使用文獻(xiàn)[4]的評(píng)估方法,在多組數(shù)據(jù)集中對(duì)所提出的模型進(jìn)行驗(yàn)證。首先,介紹多組自采集數(shù)據(jù)集及數(shù)據(jù)預(yù)處理操作;其次,詳細(xì)介紹實(shí)現(xiàn)細(xì)節(jié),并利用該數(shù)據(jù)集對(duì)所提出的PSPVG算法進(jìn)行對(duì)比實(shí)驗(yàn)與評(píng)估。
在基于姿態(tài)引導(dǎo)的人物視頻生成領(lǐng)域,由于外觀和背景轉(zhuǎn)換的效果感受具有一定主觀性,為了衡量本文方法的有效性,檢驗(yàn)融合區(qū)域的邊緣是否自然平滑地嵌入,采用泊松圖像編輯算法將得到的融合結(jié)果與未進(jìn)行背景融合的EDN方法進(jìn)行融合效果對(duì)比。
(1) 實(shí)驗(yàn)軟硬件環(huán)境。Pytorch框架;CPU:E5-2620 V3;內(nèi)存64 G;GPU:GTX TITAN X (12 G)。
(2) 數(shù)據(jù)集。①源數(shù)據(jù)集:從網(wǎng)絡(luò)上選取一段畫(huà)質(zhì)清晰、無(wú)明顯遮擋的單人舞蹈視頻,將視頻截取至十分鐘左右,進(jìn)行視頻轉(zhuǎn)換得到幀圖像。②目標(biāo)數(shù)據(jù)集:為一段任意動(dòng)作的10 min錄制視頻,可展現(xiàn)目標(biāo)對(duì)象的完整外觀與足夠的運(yùn)動(dòng)范圍來(lái)保證目標(biāo)視頻的學(xué)習(xí)質(zhì)量。
為了保證畫(huà)面的質(zhì)量,均采用100~120幀率的多組視頻作為訓(xùn)練數(shù)據(jù)集。將選取的源、目標(biāo)視頻分別進(jìn)行預(yù)處理操作,轉(zhuǎn)換成對(duì)應(yīng)視頻幀(源視頻:12 930幀,目標(biāo)視頻:24 500幀),預(yù)處理為512×512大小的圖像。再分別用DeepLabv3+算法分割出人物前景圖和背景,人物前景圖作為訓(xùn)練數(shù)據(jù),源背景圖作為融合操作中的背景數(shù)據(jù)。
DeepLabv3+[19]算法用于精確分割前景圖與背景圖,姿態(tài)轉(zhuǎn)換算法用于高精度的姿態(tài)估計(jì)與高質(zhì)量的運(yùn)動(dòng)轉(zhuǎn)換,泊松融合算法用于實(shí)現(xiàn)自然的無(wú)縫拼接效果。采用分割的前景人物數(shù)據(jù)集來(lái)實(shí)現(xiàn)姿態(tài)檢測(cè)(選擇最先進(jìn)的姿勢(shì)檢測(cè)器openpose[25-26]提供的架構(gòu)),可以降低畫(huà)面遮擋與背景環(huán)境的干擾。
將得到的源人物和目標(biāo)人物視頻幀作為PSPVG網(wǎng)絡(luò)的輸入,使用位姿檢測(cè)器進(jìn)行位姿估計(jì),及用一個(gè)預(yù)先訓(xùn)練的位姿檢測(cè)器,繪制出位姿簡(jiǎn)圖。利用基于GAN的運(yùn)動(dòng)轉(zhuǎn)換網(wǎng)絡(luò)合成高分辨率的人物運(yùn)動(dòng)視頻,將骨架圖、目標(biāo)人物視頻幀數(shù)據(jù)、源人物的前景圖分別輸入到基于GAN的運(yùn)動(dòng)轉(zhuǎn)換網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,將結(jié)果執(zhí)行歸一化操作,完成從歸一化的姿態(tài)簡(jiǎn)圖到目標(biāo)對(duì)象的映射,將圖片分割出前景,與源背景進(jìn)行泊松圖像編輯融合,得到的融合結(jié)果進(jìn)行圖像轉(zhuǎn)視頻操作,將結(jié)果利用泊松圖像編輯進(jìn)行融合操作,得到目標(biāo)效果的視頻。
如圖4所示,在每個(gè)部分顯示連續(xù)5個(gè)幀,第1列顯示源人物序列;第2列顯示標(biāo)準(zhǔn)化的姿勢(shì)骨架圖;第3列為源視頻幀進(jìn)行訓(xùn)練下的EDN[4]運(yùn)動(dòng)轉(zhuǎn)換模型生成結(jié)果;第4列為PSPVG模型,使用泊松融合算法輸出具有源背景的目標(biāo)人物;第5列為使用拉普拉斯金字塔融合算法的輸出結(jié)果。為了實(shí)現(xiàn)與源對(duì)象背景風(fēng)格的融合,在昏暗的舞臺(tái)氛圍下選擇泊松圖像編輯算法融合前景圖像和源背景圖像。將得到的融合結(jié)果進(jìn)行圖像轉(zhuǎn)視頻操作,最終得到視覺(jué)效果大幅提升的視頻結(jié)果。
圖4 PSPVG與EDN算法的生成結(jié)果
在之前視頻生成的工作中,并未結(jié)合背景切換進(jìn)行運(yùn)動(dòng)轉(zhuǎn)換。本文加入簡(jiǎn)單的mask轉(zhuǎn)移方案和泊松圖像編輯的混合結(jié)果,探討基于EDN[4]運(yùn)動(dòng)轉(zhuǎn)換網(wǎng)絡(luò)實(shí)現(xiàn)外觀與運(yùn)動(dòng)的轉(zhuǎn)移,并展示其實(shí)驗(yàn)結(jié)果,以評(píng)估提出的框架。
為了評(píng)估生成各個(gè)幀的模型質(zhì)量,本文以結(jié)構(gòu)相似性(structural similarity index,SSIM)[27]與學(xué)習(xí)感知圖像塊相似性(learned perceptual image patch similarity,LPIPS)[28]作為精度指標(biāo)。SSIM的范圍是[0,1],其值越高表示結(jié)構(gòu)相似性越高,結(jié)果見(jiàn)表1。從利用圖5的數(shù)據(jù)集訓(xùn)練多次得出的平均結(jié)果可知:①人物外觀體型對(duì)比度越小,生成人物圖像的相似度越高;②視頻背景復(fù)雜程度和色差大小是人物與背景之間融合效果的直接體現(xiàn);③使用分割出前景人物的數(shù)據(jù)集代替源視頻幀作為訓(xùn)練數(shù)據(jù),分割效果更加精確,學(xué)習(xí)感知圖像塊相似性更高。因此選擇前景人物視頻幀作為訓(xùn)練數(shù)據(jù)。
本文依靠定性分析來(lái)評(píng)估輸出視頻的時(shí)間一致性(圖4),通過(guò)源視頻序列相應(yīng)的姿態(tài)骨架圖,先將動(dòng)作從源人物遷移至另一個(gè)目標(biāo)人物上,再將轉(zhuǎn)換后的結(jié)果與源視頻背景融合。經(jīng)過(guò)泊松圖像融合后,前景人物與背景的融合區(qū)域視覺(jué)效果自然、邊界平滑;觀察融合邊界處的圖像細(xì)節(jié)可以發(fā)現(xiàn),融合區(qū)域與源背景以互相嵌入的方式融合,無(wú)明顯分割痕跡。對(duì)比未增加背景的EDN運(yùn)動(dòng)轉(zhuǎn)換算法,融合源視頻背景之后的圖像畫(huà)面感更強(qiáng),與源視頻更接近,可實(shí)現(xiàn)目標(biāo)人物的外觀更換并平移至源舞臺(tái)中,讓不會(huì)表演的目標(biāo)人物像源人物一樣站在舞臺(tái)上表演,實(shí)現(xiàn)很好的娛樂(lè)性和真實(shí)感。
表1 不同數(shù)據(jù)集上訓(xùn)練模型的相似性值
PSPVG模型在大部分指標(biāo)上均優(yōu)于pix2pixHD[29]與EDN[4]方法。表2展示了模型中身體周圍區(qū)域的平均圖像相似度值,PSPVG模型的SSIM平均值可達(dá)0.897 92,LPIPS平均值為0.031 22。從表3可以看出,人體各個(gè)區(qū)域的平均漏檢次數(shù)為2.321 132,均優(yōu)于其他方法,經(jīng)驗(yàn)證本文方法具有一定的有效性。
圖6為8組由不同數(shù)據(jù)集訓(xùn)練的生成結(jié)果,包括正面、側(cè)面、背面以及鏡像等情況。在每組中,可隨機(jī)選擇5個(gè)視頻幀,第1排為源人物,中間顯示對(duì)應(yīng)骨架姿勢(shì)圖,第3排為目標(biāo)人物的模型輸出。
圖5 在不同數(shù)據(jù)集上的人物外觀對(duì)比圖
表2 輸出圖像的SSIM與LPIPS值
表3 每一視頻幀的平均漏檢次數(shù)
圖6 不同情景下PSPVG模型的生成結(jié)果
本文針對(duì)現(xiàn)有的人物視頻生成方法,難以提高姿態(tài)估計(jì)精度以及未考慮場(chǎng)景轉(zhuǎn)換等問(wèn)題進(jìn)行了研究,提出了基于姿態(tài)引導(dǎo)的場(chǎng)景保留人物視頻生成模型。PSPVG模型在基于GAN的人物視頻生成基礎(chǔ)上利用姿態(tài)引導(dǎo)的運(yùn)動(dòng)轉(zhuǎn)換算法,通過(guò)替換源視頻幀訓(xùn)練網(wǎng)絡(luò),使用分割后的人物前景視頻幀訓(xùn)練,提高人體姿態(tài)估計(jì)精度。同時(shí)進(jìn)行視頻中人物間的運(yùn)動(dòng)轉(zhuǎn)移和背景切換,將語(yǔ)義分割和圖像融合加入到運(yùn)動(dòng)轉(zhuǎn)移中去,實(shí)驗(yàn)證明了傳統(tǒng)的泊松圖像編輯邊界環(huán)境對(duì)比度存在差異時(shí)具有融合人物平滑自然等優(yōu)點(diǎn)。本文充分驗(yàn)證了該模型方法能夠準(zhǔn)確提取到有效的特征且具有較好的泛化能力,發(fā)展成熟后將在游戲或視頻動(dòng)畫(huà)中進(jìn)行人物動(dòng)作遷移,并設(shè)置AR特效、3D場(chǎng)景切換功能,研發(fā)出更多有趣的平臺(tái)應(yīng)用程序等。如何更好地完善基于姿態(tài)引導(dǎo)的3D模型動(dòng)作遷移以及背景自由切換將是未來(lái)的研究重點(diǎn)。
[1] YANG C, WANG Z, ZHU X, et al. Pose guided human video generation[C]//Proceedings of the European Conference on Computer Vision. New York: IEEE Press, 2018: 201-216.
[2] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. Quebec: Curran Associate Inc, 2014: 2672-2680.
[3] SIAROHIN A, SANGINETO E, LATHUILIERE S, et al. Deformable GANs for pose-based human image generation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 3408-3416.
[4] CHAN C, GINOSAR S, ZHOU T, et al. Everybody dance now[EB/OL]. [2019-10-13]. https://arxiv.org/abs/ 1808.07371.
[5] WANG T C, LIU M Y, ZHU J Y, et al. Video-to-video synthesis[J]. Neural Information Processing Systems, 2018, 3(4): 1144-1156.
[6] NEVEROVA N, ALP GULER R, KOKKINOS I. Dense pose transfer[C]//Proceedings of the European Conference on Computer Vision (ECCV). New York: IEEE Press, 2018: 123-138.
[7] KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL]. [2019-10-07]. https://arxiv.org/abs/1312. 6114.
[8] OORD A V D, KALCHBRENNER N, VINYALS O, et al. Conditional image generation with PixelCNN decoders[C]//2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 318-328.
[9] BANSAL A, MA S G, RAMANAN D, et al. Recycle-GAN: unsupervised video retargeting[C]// Proceedings of the European Conference on Computer Vision. New York: IEEE Press, 2018: 122-138.
[10] KIM T, CHA M, KIM H, et al. Learning to discover cross-domain relations with generative adversarial networks[EB/OL]. [2019-09-29]. https://arxiv.org/abs/ 1703.05192 .
[11] TULYAKOV S, LIU M Y, YANG X D, et al. MoCoGAN: decomposing motion and content for video generation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1526-1535.
[12] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3431-3440.
[13] ZHOU B L, ZHAO H, PUIG X, et al. Scene parsing through ADE20K dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 633-641.
[14] CAESAR H, UIJLINGS J, FERRARI V. COCO-stuff: thing and stuff classes in context[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1209-1218.
[15] ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 2881-2890.
[16] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[17] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 2117-2125.
[18] LIN G S, MILAN A, SHEN C H, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 1925-1934.
[19] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 833-851.
[20] RADFORD A, METZ L K, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL].[2019-10-05]. https://link.springer.com/chapter/10.1007/ 978-3-319-71589-6_9.
[21] 蔡青宏. 基于單張深度圖的三維人體重建技術(shù)研究[D].長(zhǎng)沙: 湖南大學(xué), 2018. CAI Q H. Research on 3D human reconstruction technology based on single depth map[D]. Changsha: Hunan Universty, 2018 (in Chinese).
[22] ZHONG J Y, YANG B, LI Y H, et al. Image fusion and super-resolution with convolutional neural network[C]//Chinese Conference on Pattern Recognition. New York: IEEE Press, 2017: 78-88.
[23] DU C B, GAO S S. Image segmentation-based multi-focus image fusion through multi-scale convolutional neural network[J]. IEEE Access, 2017, 5: 15750-15761.
[24] LIU Y, LIU S P, WANG Z F. A general framework for image fusion based on multi-scale transform and sparse representation[J]. Information Fusion, 2015, 24: 147-164.
[25] CAO Z, SIMON T, WEI SHIH-EN, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 7291-7299.
[26] WEI SHIH-EN, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 4724-4732.
[27] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[28] ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 586-595.
[29] WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8798-8807.
Pose-guided scene-preserving person video generation algorithm
LI Gui, LI Teng
(School of Electrical Engineering and Automation, Anhui University, Hefei Anhui 230601, China)
The person video generation technology learns the feature representation of human body structure and motion, so as to realize the spatial generation mapping from the feature representation to the character video frame. In view of the existing person video generation algorithm lacking in the transformation of background environment and the low accuracy of human pose estimation, a pose-guided scene-preserving person video generation algorithm was proposed. First, the appropriate source video and target video were selected, and the video frame with the appearance of the segmented character served as the network input instead of the source video frame. Then, based on GAN, a motion transformation model was employed to replace characters in source videos with target characters and maintain the consistency of motion. Finally, the Poisson image editing was used to fuse the character appearance with the source background, enabling the flowed advantages: (a) removing border anomaly pixels; (b) realizing character blending naturally into the source scene; and (c) avoiding changing the background environment and overall image style. The proposed algorithm used the segmented foreground person image instead of the source video frame to reduce background interference and improve the accuracy of pose estimation, thus naturally realizing scene-preserving during the motion transfer process and producing artistic and authentic person videos.
person video generation; pose estimation; motion transfer; generative adversarial networks; image processing
TP 183
10.11996/JG.j.2095-302X.2020040539
A
2095-302X(2020)04-0539-09
2019-12-24;
2020-02-17
17 February, 2020
24 December, 2019;
國(guó)家自然科學(xué)基金項(xiàng)目(61572029);安徽省杰出青年基金項(xiàng)目(1908085J25)
National Natural Science Foundation of China (61572029); Anhui Outstanding Youth Fund (1908085J25)
李 桂(1995–),女,安徽合肥人,碩士研究生。主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、圖像處理等。E-mail:1250501205@qq.com
LI Gui (1995–), female, master student. Her main research interests cover computer vision, image processing, etc.E-mail: 1250501205@qq.com
李 騰(1980–),男,安徽鳳臺(tái)人,教授,博士,碩士生導(dǎo)師。主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、圖像處理。E-mail:liteng@ahu.edu.cn
LI Teng (1980–), male,professor, Ph.D. His main research interests cover vision, image processing, etc. E-mail: liteng@ahu.edu.cn