楊紅,張賀,靳少寧
融合卷積與多頭注意力的人體姿態(tài)遷移模型
楊紅*,張賀,靳少寧
(大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)( ? 通信作者電子郵箱yanghong@dlmu.edu.cn)
對于給定某個(gè)人物的參考圖像,人體姿態(tài)遷移(HPT)的目標(biāo)是生成任意姿態(tài)下的該人物圖像。許多現(xiàn)有的相關(guān)方法在捕捉人物外觀細(xì)節(jié)、推測不可見區(qū)域方面仍存在不足,特別是對于復(fù)雜的姿態(tài)變換,難以生成清晰逼真的人物外觀。為了解決以上問題,提出一種新穎的融合卷積與多頭注意力的HPT模型。首先,融合卷積與多頭注意力機(jī)制構(gòu)建卷積-多頭注意力(Conv-MHA)模塊,提取豐富的上下文特征;其次,利用Conv-MHA模塊構(gòu)建HPT網(wǎng)絡(luò),提升所提模型的學(xué)習(xí)能力;最后,引入?yún)⒖紙D像的自我重建作為輔助任務(wù),更充分地發(fā)揮所提模型的性能。在DeepFashion和Market-1501數(shù)據(jù)集上驗(yàn)證了基于Conv-MHA的HPT模型,結(jié)果顯示:它在DeepFashion測試集上的結(jié)構(gòu)相似性(SSIM)、感知相似度(LPIPS)和FID(Fréchet Inception Distance)指標(biāo)均優(yōu)于現(xiàn)有的HPT模型DPTN (Dual-task Pose Transformer Network)。實(shí)驗(yàn)結(jié)果表明,融合卷積與多頭注意力機(jī)制的Conv-MHA模塊可以提升模型的表示能力,更加有效地捕捉人物外觀細(xì)節(jié),提升人物圖像生成的精度。
人體姿態(tài)遷移;圖像生成;生成對抗網(wǎng)絡(luò);多頭注意力;卷積
圖像生成是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要分支,而人體姿態(tài)遷移(Human Pose Transfer, HPT)是圖像生成任務(wù)的重要實(shí)例。HPT又可以稱為姿態(tài)引導(dǎo)的人物圖像生成(Pose-Guided Person Image Generation, PGPIG),它是指給定某個(gè)人物的參考圖像作為外觀條件,合成任意姿態(tài)下該人物的圖像。HPT在虛擬現(xiàn)實(shí)、電影制作、數(shù)據(jù)增強(qiáng)等領(lǐng)域中具有極大的應(yīng)用價(jià)值。例如,行人重識別問題中可以利用HPT獲取更多人物數(shù)據(jù)。盡管生成對抗網(wǎng)絡(luò)[1]、變分自編碼器[2]等深度生成模型發(fā)展迅速,但HPT任務(wù)仍面臨挑戰(zhàn)。姿態(tài)變化會導(dǎo)致圖像中人物的紋理細(xì)節(jié)和幾何形狀發(fā)生變化,特別是復(fù)雜的姿態(tài)變化,其中還存在人體自遮擋問題。成功的HPT要求模型具有很好的人物姿態(tài)與外觀表示能力。為保持生成圖像的逼真度,模型需要推測不可見區(qū)域,捕捉人物外觀細(xì)節(jié),比如形狀、衣服紋理、面部。
早期研究[3-4]利用普通卷積網(wǎng)絡(luò)構(gòu)建生成器,難以執(zhí)行復(fù)雜的姿態(tài)變換。為此,引入光流估計(jì)[5-6]、人體語義分割圖[7-8]和注意力機(jī)制[9-10]以提升模型的轉(zhuǎn)換能力,其中借助光流估計(jì)和人體語義分割圖會大幅增加數(shù)據(jù)預(yù)處理和模型的復(fù)雜度,且光流估計(jì)和人體語義分割圖的預(yù)測偏差會誤導(dǎo)生成器。此外,這些方法僅僅聚焦于參考圖像到目標(biāo)圖像的轉(zhuǎn)換任務(wù),這對于訓(xùn)練一個(gè)魯棒的生成器較為困難。最近,Zhang等[11]提出利用一個(gè)輔助任務(wù)來提升參考圖像到目標(biāo)圖像的轉(zhuǎn)換效果,即讓生成器以參考圖像和參考圖像本身具有的原始姿態(tài)為輸入重構(gòu)該人物的參考圖像,并利用Transformer[12]塊構(gòu)建模塊解析輔助任務(wù)與主任務(wù)之間的相關(guān)性以增強(qiáng)目標(biāo)圖像的生成效果。但是,此項(xiàng)工作使用普通卷積實(shí)現(xiàn)特征轉(zhuǎn)換,在捕捉紋理細(xì)節(jié)、生成清晰準(zhǔn)確的形狀輪廓方面表現(xiàn)不佳。
注意力機(jī)制可以選擇性地突出重要的特征信息,抑制不必要的特征。一些研究[13-16]在卷積神經(jīng)網(wǎng)絡(luò)加入注意力機(jī)制,提升模型的表征能力,在視覺識別任務(wù)中取得了不錯(cuò)的效果。隨著利用注意力機(jī)制實(shí)現(xiàn)的Transformer在自然語言處理領(lǐng)域取得巨大成功,視覺Transformer(Vision Transformer, ViT)[17]提出將Transformer架構(gòu)應(yīng)用到計(jì)算機(jī)視覺任務(wù)中。并有一些研究[18-20]對ViT進(jìn)行改進(jìn),提出了不同方式的局部自注意力機(jī)制,以降低自注意力機(jī)制導(dǎo)致的計(jì)算復(fù)雜度,但也一定程度上減弱了模型捕捉全局表示的能力。此外,Transformer未引入與卷積網(wǎng)絡(luò)一樣豐富的歸納偏置,它的泛化性比卷積網(wǎng)絡(luò)差。Transformer的核心在于注意力機(jī)制,為了融合卷積與注意力機(jī)制的優(yōu)點(diǎn),CoTNet(Contextual Transformer Network)[21]提出將普通卷積與局部自注意力機(jī)制融合,但忽略了全局表示。普通卷積擅長局部特征提取,但是難以捕捉全局特征;全局注意力機(jī)制可以獲取全局表示,但是可能會丟失特征細(xì)節(jié)。CoAtNet[22]和ACmix(a mixed model of self-Attention and Convolution)[23]分析卷積與自注意力機(jī)制的相似點(diǎn),提出了卷積與自注意力機(jī)制的并行融合方式,提升了視覺識別效果;但這種并行融合方式不利于發(fā)揮二者的互補(bǔ)優(yōu)勢。
本文借鑒CoTNet[21]的思想,構(gòu)建了一種新穎的網(wǎng)絡(luò)模塊——卷積-多頭注意力(Convolution-Multi-Head Attention, Conv-MHA)模塊,通過融合卷積與全局多頭注意力機(jī)制來融合局部特征表示和全局特征表示,改善HPT模型的細(xì)節(jié)保留,提升生成圖像的保真度。Conv-MHA模塊利用普通卷積提取局部特征,利用多頭注意力機(jī)制提取全局特征,二者以串行方式處理輸入,并采用一種動態(tài)選擇機(jī)制[14]融合局部特征與全局特征??紤]到全局注意力機(jī)制中全局交互導(dǎo)致的平方級計(jì)算復(fù)雜度,在模型構(gòu)建中,本文采用普通卷積網(wǎng)絡(luò)構(gòu)建編碼器和解碼器,使用若干個(gè)Conv-MHA模塊以級聯(lián)的方式實(shí)現(xiàn)中間轉(zhuǎn)換。進(jìn)一步地,本文引入?yún)⒖紙D像的自我重建作為輔助任務(wù)[11],并利用Conv-MHA構(gòu)建解析模塊解析輔助分支和主分支之間的相關(guān)性,以對主分支進(jìn)行特征增強(qiáng),提升圖像生成質(zhì)量。
Ma等[3]采用二階段生成器以由粗到細(xì)的方式生成人物圖像;Esser等[4]利用變分自編碼器獲得人物外觀的潛在表示,以此作為U-Net[24]的條件輸入進(jìn)行圖像生成。但是這些基于普通卷積網(wǎng)絡(luò)的方法難以有效處理復(fù)雜姿態(tài)變換。為解決這個(gè)問題,Zhu等[10]提出了姿態(tài)注意力轉(zhuǎn)移網(wǎng)絡(luò)(Pose Attention Transfer Network, PATN),通過原始姿態(tài)與目標(biāo)姿態(tài)的相關(guān)性漸進(jìn)式地生成人物圖像。此外,XingGAN[9]對PATN進(jìn)一步改進(jìn),利用具有交叉連接的兩個(gè)分支漸進(jìn)式地生成人物形狀與外觀,并利用基于注意力的方法融合人物形狀與外觀以生成人物圖像。盡管如此,這些基于注意力機(jī)制的方法仍不能有效建模不同姿態(tài)間的變換,會導(dǎo)致紋理細(xì)節(jié)的丟失與不恰當(dāng)?shù)男巫儭?/p>
為了改進(jìn)姿態(tài)遷移效果,DIAF(Dense Intrinsic Appearance Flow)[5]、DIST(Deep Image Spatial Transformation)[6]提出借助光流估計(jì)更好地指導(dǎo)姿態(tài)轉(zhuǎn)移。這種方式需要首先預(yù)測光流,但是對于復(fù)雜的姿態(tài)變換和存在遮擋的情況,這種方式難以產(chǎn)生準(zhǔn)確的光流,進(jìn)而誤導(dǎo)圖像生成。除此之外,SPIG(Semantic Person Image Generation)[7]、PISE(Person Image Synthesis and Editing)[8]借助人體語義分割圖輔助HPT。這些是二階段的方法,它們首先預(yù)測目標(biāo)姿態(tài)下的人體語義分割圖,然后以此提供語義信息,提升圖像生成質(zhì)量。但是預(yù)測目標(biāo)姿態(tài)下的人體語義分割圖通常是不穩(wěn)定的,會誤導(dǎo)人物圖像生成;而且這些方法前期數(shù)據(jù)預(yù)處理更復(fù)雜,不利于此類模型的應(yīng)用。DPTN(Dual-task Pose Transformer Network)[11]提出引入?yún)⒖紙D像的自我重建作為輔助任務(wù),并構(gòu)建連體結(jié)構(gòu),利用Transformer模塊探究輔助任務(wù)與主任務(wù)的相關(guān)性,以更好地建模不同姿態(tài)下的圖像變換;但是,該模型的主干使用的是普通卷積網(wǎng)絡(luò),難以有效處理復(fù)雜的形變特征。
ViT提出將Transformer架構(gòu)應(yīng)用到計(jì)算機(jī)視覺任務(wù)中,但由于自注意力機(jī)制的平方級計(jì)算復(fù)雜度,原始Transformer架構(gòu)難以處理高分辨率圖像。為了降低復(fù)雜度,Swin-Transformer[18]、HaloNet[20]、CSwin-Transformer[19]借鑒普通卷積中的滑動窗口思想,構(gòu)建局部自注意力機(jī)制,將注意力的計(jì)算限制在窗口內(nèi);但這在一定程度上削弱了模型捕捉全局特征表示的能力。對于圖像生成任務(wù),Jiang等[25]構(gòu)建了一個(gè)基于純Transformer架構(gòu)的生成對抗網(wǎng)絡(luò);Hudson等[26]提出了GANsformer(Generative Adversarial Transformers),利用潛在變量中的信息細(xì)化圖像特征。但是這兩種方法并不適合復(fù)雜的有條件圖像生成,比如HPT。DPTN[11]基于Transformer構(gòu)建解析模塊用于探究雙任務(wù)的相關(guān)性,提升圖像生成質(zhì)量。然而,ViT未引入與卷積網(wǎng)絡(luò)一樣豐富的歸納偏置,導(dǎo)致泛化性比卷積網(wǎng)絡(luò)差。因此,有研究者提出將二者融合。CoTNet融合了靜態(tài)卷積與局部自注意力機(jī)制,但忽略了全局表示;CoAtNet和ACmix提出了卷積與自注意力機(jī)制的并行結(jié)合方法,在視覺任務(wù)上取得了不錯(cuò)的表現(xiàn);但這種并行結(jié)合方式不利于發(fā)揮二者的互補(bǔ)優(yōu)勢,限制了模型性能。
綜上所述,現(xiàn)有HPT方法在建模不同姿態(tài)間的變換、捕捉人物外觀細(xì)節(jié)方面仍有不足,特別是對于復(fù)雜的姿態(tài)變換。與現(xiàn)有方法不同,本文借鑒CoTNet的思想,構(gòu)建了一種新型的融合卷積與多頭注意力機(jī)制的網(wǎng)絡(luò)模塊——Conv-MHA,并將它應(yīng)用到HPT任務(wù)中,旨在提升模型的表示能力,以更好地捕捉人物外觀細(xì)節(jié),提升人物圖像生成質(zhì)量。最后通過實(shí)驗(yàn)驗(yàn)證了所提方法對于HPT任務(wù)的有效性。
本文通過構(gòu)建的Conv-MHA模塊獲得更加豐富的特征表示。為了充分發(fā)揮該模塊的潛力,參考文獻(xiàn)[11]構(gòu)建生成器網(wǎng)絡(luò),引入?yún)⒖紙D像的重建作為輔助,并構(gòu)建相關(guān)性解析模塊解析參考圖像重建與目標(biāo)圖像生成之間的相關(guān)性,以生成更清晰、更高保真度的對應(yīng)人物圖像。模型的整體架構(gòu)如圖1所示。
圖1 本文模型架構(gòu)示意圖
本文模型基于生成對抗網(wǎng)絡(luò)框架構(gòu)建,其中,生成器網(wǎng)絡(luò)參考DPTN,除了生成目標(biāo)圖像的主分支外,額外構(gòu)建了一個(gè)參考圖像的自我重建作為輔助分支,并且在主分支中利用輔助分支的中間特征信息增強(qiáng)主分支的轉(zhuǎn)換。與之不同的是,本文采用Conv-MHA模塊實(shí)現(xiàn)特征轉(zhuǎn)換和相關(guān)性解析模塊構(gòu)建。
2.1.1Conv-MHA模塊
卷積和注意力機(jī)制是獲取特征表示的兩種有效方法,它們在本質(zhì)上截然不同。普通卷積利用重要的歸納偏置,通過權(quán)值共享和局部感受域進(jìn)行圖像處理,擅長提取底層特征和視覺結(jié)構(gòu),但是難以捕捉遠(yuǎn)距離依賴信息,缺乏對數(shù)據(jù)本身的整體把握;而注意力機(jī)制通過全局交互可以挖掘遠(yuǎn)距離依賴關(guān)系,獲取全局信息,對于高層語義特征的提取更具有優(yōu)勢。
圖2 Conv-MHA模塊結(jié)構(gòu)
2.1.2相關(guān)性解析模塊
相關(guān)性解析模塊在輔助分支與主分支之間起連接作用。與文獻(xiàn)[11]的方法不同,本文采用Conv-MHA模塊構(gòu)建相關(guān)性解析模塊,解析主分支與輔助分支的內(nèi)在相互關(guān)聯(lián),并以此增強(qiáng)主分支中的特征轉(zhuǎn)換。相關(guān)性解析模塊如圖3所示。
圖3 相關(guān)性解析模塊結(jié)構(gòu)
該模型的損失函數(shù)可以表述為:
具體來說,L1損失利用L1距離懲罰生成圖像和實(shí)際真實(shí)圖像之間的差異:
感知損失[27]計(jì)算真實(shí)圖像與生成圖像之間的特征距離,懲罰內(nèi)容差異:
風(fēng)格損失[27]比較真實(shí)圖像與生成圖像間的風(fēng)格相似度,懲罰風(fēng)格差異:
對抗損失利用判別器D懲罰生成圖像與真實(shí)圖像之間的分布差異,本文采用了PatchGAN[29]的方法,將圖像輸入全卷積網(wǎng)絡(luò)得到一個(gè)概率矩陣,矩陣中的每一個(gè)值對應(yīng)圖像中的一塊區(qū)域,這樣可以更加細(xì)致地判別,使模型更關(guān)注圖像細(xì)節(jié)。為了使訓(xùn)練更穩(wěn)定,本文使用WGAN-GP[30]中的對抗損失函數(shù):
參考之前的工作[7,10-11],本文采用結(jié)構(gòu)相似性(Structural SIMilarity, SSIM)指數(shù)[34]、峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、FID (Fréchet Inception Distance)[35]、感知相似度(Learned Perceptual Image Patch Similarity, LPIPS)[36]作為評估指標(biāo)。SSIM從結(jié)構(gòu)、亮度、對比度三個(gè)方面評估生成圖像與真實(shí)圖像的相似程度;PSNR計(jì)算生成圖像與真實(shí)圖像的像素差異;FID計(jì)算生成圖像與真實(shí)圖像數(shù)據(jù)分布間的距離,衡量圖像的真實(shí)程度;LPIPS衡量生成圖像與真實(shí)圖像在感知層面上的距離。
本實(shí)驗(yàn)的硬件環(huán)境:CPU是AMD EPYC 7551P,GPU是RTX 3090-24G。軟件環(huán)境是Ubuntu 20.04,CUDA 11.1,使用Python 3.8進(jìn)行編程,采用PyTorch 1.8深度學(xué)習(xí)框架實(shí)現(xiàn)。
此外,還分別用CoT[21]模塊和Transformer模塊替換模型中的卷積-多頭注意力模塊進(jìn)行了對比,對比結(jié)果如表1和圖5所示,最優(yōu)和次優(yōu)結(jié)果分別通過粗體和下畫線表示。
依據(jù)評估結(jié)果對比,采用CoT的生成結(jié)果容易產(chǎn)生形變和細(xì)節(jié)缺失 ,并且衣服顏色存在略微的差別。CoT融合普通卷積與局部自注意力機(jī)制,雖然在圖像分類上取得了不錯(cuò)的效果,但是并不適合HPT任務(wù)。采用Transformer模塊取得了相較于CoT更優(yōu)的指標(biāo),且能夠生成更加準(zhǔn)確的形狀輪廓。結(jié)合卷積與多頭注意力機(jī)制的方案,在量化指標(biāo)上表現(xiàn)更優(yōu),生成結(jié)果中具有更完善的細(xì)節(jié),表明將二者結(jié)合對于提升HPT是重要且有效的。方案(b)和(c)相較于方案(a)表現(xiàn)進(jìn)一步提升,串行結(jié)構(gòu)優(yōu)于并行結(jié)構(gòu),基于動態(tài)選擇機(jī)制的融合方式優(yōu)于逐元素相加的融合方式。通過比較方案(b)和(c)可以看出,串行結(jié)構(gòu)帶來的性能提升明顯大于基于動態(tài)選擇機(jī)制的融合方式。方案(a)、(b)、(c)的生成結(jié)果存在一定程度的形變。而方案(d)通過串行結(jié)構(gòu)和動態(tài)選擇機(jī)制可以使卷積和多頭注意力機(jī)制相互作用,互補(bǔ)短板,提升整體性能,使模型能夠生成更加清晰準(zhǔn)確的形狀和輪廓,更加接近于真實(shí)圖像的顏色和紋理圖案。
將本文模型與幾個(gè)先進(jìn)的方法進(jìn)行了比較,包括:PG2[3]、PATN[10]、ADGAN[38]、DIST[6]、PISE[8]、SPIG[7]和DPTN[11]。表3展示了對比結(jié)果,最優(yōu)和次優(yōu)結(jié)果分別通過粗體和下畫線表示。由表3數(shù)據(jù)可知,在DeepFashion數(shù)據(jù)集上,改進(jìn)后的模型在SSIM和LPIPS兩項(xiàng)指標(biāo)上均優(yōu)于其他模型,相較于DPTN,SSIM指標(biāo)提升了0.206%,LPIPS指標(biāo)下降了1.073%,F(xiàn)ID指標(biāo)下降了2.882%,也取得了優(yōu)于DPTN的表現(xiàn),在PSNR指標(biāo)上也有較優(yōu)的表現(xiàn)。在Market-1501數(shù)據(jù)集上,本文方法在SSIM和PSNR兩項(xiàng)指標(biāo)上優(yōu)于DPTN,且在PSNR指標(biāo)上表現(xiàn)最優(yōu),在LPIPS指標(biāo)上具有次優(yōu)表現(xiàn)。上述結(jié)果對比驗(yàn)證了本文方法對于生成高質(zhì)量圖像的有效性,且更適合較高分辨率的圖像生成。
圖4 四種不同的Conv-MHA模塊設(shè)計(jì)方案
圖5 不同模塊的定性比較
表1 不同模塊的量化評估
定性比較如圖6所示。PATN、ADGAN容易產(chǎn)生模糊扭曲的結(jié)果。DIST借助光流估計(jì)改善生成圖像中的人物外觀細(xì)節(jié),但是對于復(fù)雜的姿態(tài)變換,容易產(chǎn)生細(xì)節(jié)丟失。PISE和SPIG通過預(yù)測語義分割圖輔助HPT,但是語義分割圖的預(yù)測容易產(chǎn)生誤差,會誤導(dǎo)人物圖像生成,如圖6中的前5行,生成圖像中有與真實(shí)圖像明顯不符的衣服形狀。DPTN借助輔助任務(wù)改進(jìn)了HPT模型,但模型的上下文表示能力限制了圖像生成質(zhì)量。本文方法通過融合卷積與多頭注意力機(jī)制的方式,能更好地捕捉上下文特征,生成更貼近真實(shí)圖像的形狀輪廓和紋理細(xì)節(jié)。
表2 注意力頭數(shù)量的量化評估
表3 不同模型的結(jié)果對比
圖6 不同模型的定性比較
為了提高HPT模型的圖像生成精度,本文構(gòu)建了一種新穎的融合卷積與多頭注意力機(jī)制的網(wǎng)絡(luò)塊,并利用該網(wǎng)絡(luò)塊參與實(shí)現(xiàn)了HPT模型。該網(wǎng)絡(luò)塊既可以提取局部上下文信息,也可以提取全局上下文信息,并以自適應(yīng)的方式將二者融合。實(shí)驗(yàn)結(jié)果表明,本文方法可以更好地捕捉不同姿態(tài)下的外觀映射,生成更加真實(shí)的人物細(xì)節(jié)。姿態(tài)的變換可能會導(dǎo)致人物圖像發(fā)生較大的形狀變化和紋理細(xì)節(jié)變化,特別是對于復(fù)雜的姿態(tài)變換。如果僅考慮局部范圍內(nèi)的特征交互,容易產(chǎn)生不恰當(dāng)?shù)男巫兒图?xì)節(jié)丟失,而融入全局特征交互可以解決這一問題。然而本文方法仍然存在一定的局限性,比如在生成較為復(fù)雜的衣服紋理方面表現(xiàn)出不足。未來的研究中,將尋求方法對生成圖像中人物的不同區(qū)域部位進(jìn)行細(xì)化處理。
[1] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems — Volume 2. Cambridge: MIT Press, 2014: 2672-2680.
[2] KINGMA D P, WELLING M. Auto-encoding variational Bayes[EB/OL]. (2022-12-10) [2023-03-17].https://arxiv.org/pdf/1312.6114.pdf.
[3] MA L, JIA X, SUN Q, et al. Pose guided person image generation[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 405-415.
[4] ESSER P, SUTTER E. A variational U-Net for conditional appearance and shape generation[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8857-8866.
[5] LI Y, HUANG C, LOY C C. Dense intrinsic appearance flow for human pose transfer[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3688-3697.
[6] REN Y, YU X, CHEN J, et al. Deep image spatial transformation for person image generation[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 7687-7696.
[7] LV Z, LI X, LI X, et al. Learning semantic person image generation by region-adaptive normalization[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 10801-10810.
[8] ZHANG J, LI K, LAI Y K, et al. PISE: person image synthesis and editing with decoupled GAN[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 7978-7986.
[9] TANG H, BAI S, ZHANG L, et al. XingGAN for person image generation[C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12370. Cham: Springer, 2020: 717-734.
[10] ZHU Z, HUANG T, SHI B, et al. Progressive pose attention transfer for person image generation[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 2342-2351.
[11] ZHANG P, YANG L, LAI J, et al. Exploring dual-task correlation for pose guided person image generation[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 7703-7712.
[12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[13] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.
[14] LI X, WANG W, HU X, et al. Selective kernel networks[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 510-519.
[15] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[16] SRINIVAS A, LIN T Y, PARMAR N, et al. Bottleneck Transformers for visual recognition[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 16514-16524.
[17] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2021-06-03) [2022-06-17].https://arxiv.org/pdf/2010.11929.pdf.
[18] LIU Z, LIN Y, CAO Y, et al. Swin Transformer: hierarchical vision Tansformer using shifted windows[C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2021: 9992-10002.
[19] DONG X, BAO J, CHEN D, et al. CSWin Transformer: a general vision Transformer backbone with cross-shaped windows[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 12114-12124.
[20] VASWANI A, RAMACHANDRAN P, SRINIVAS A, et al. Scaling local self-attention for parameter efficient visual backbones[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 12889-12899.
[21] LI Y, YAO T, PAN Y, et al. Contextual Transformer networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 45(2): 1489-1500.
[22] DAI Z, LIU H, LE Q V, et al. CoAtNet: marrying convolution and attention for all data sizes[C]// Proceedings of the 35th Conference on Neural Information Processing Systems (2021) [2022-06-17].https://proceedings.neurips.cc/paper_files/paper/2021/file/20568692db622456cc42a2e853ca21f8-Paper.pdf.
[23] PAN X, GE C, LU R, et al. On the integration of self-attention and convolution[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 805-815.
[24] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Cham: Springer, 2015: 234-241.
[25] JIANG Y, CHANG S, WANG Z. TransGAN: two pure transformers can make one strong GAN, and that can scale up[C]// Proceedings of the 35th Conference on Neural Information Processing Systems (2021) [2022-06-17].https://proceedings.neurips.cc/paper_files/paper/2021/file/7c220a2091c26a7f5e9f1cfb099511e3-Paper.pdf.
[26] HUDSON D A, ZITNICK C L. Generative adversarial transformers[C]// Proceedings of the 38th International Conference on Machine Learning. New York: JMLR.org, 2021: 4487-4499.
[27] JOHNSON J, ALAHI A, LI F F. Perceptual losses for real-time style transfer and super-resolution[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9906. Cham: Springer, 2016: 694-711.
[28] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10) [2022-06-17].https://arxiv.org/pdf/1409.1556.pdf.
[29] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 5967-5976.
[30] GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5769-5779.
[31] LIU Z, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1096-1104.
[32] ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: a benchmark[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1116-1124.
[33] CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1302-1310.
[34] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[35] HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6629-6640
[36] ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 586-595.
[37] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30) [2022-06-17].https://arxiv.org/pdf/1412.6980.pdf.
[38] MEN Y, MAO Y, JIANG Y, et al. Controllable person image synthesis with attribute-decomposed GAN[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 5083-5092.
Human pose transfer model combining convolution and multi-head attention
YANG Hong*, ZHANG He, JIN Shaoning
(,,116026,)
For a given reference image of a person, the goal of Human Pose Transfer (HPT) is to generate an image of that person in any arbitrary pose. Many existing related methods fail to capture the details of a person’s appearance and have difficulties in predicting invisible regions, especially for complex pose transformation, and it is difficult to generate a clear and realistic person’s appearance. To address the above problems, a new HPT model that integrated convolution and multi-head attention was proposed. Firstly, the Convolution-Multi-Head Attention (Conv-MHA) block was constructed by fusing the convolution and multi-head attention, then it was used to extract rich contextual features. Secondly, to improve the learning ability of the proposed model, the HPT network was constructed by using Conv-MHA block. Finally, the self-reconstruction of the reference image was introduced as an auxiliary task to make the model more fully utilized its performance. The Conv-MHA-based human pose transfer model was validated on DeepFashion and Market-1501 datasets, and the results on DeepFashion test dataset show that it outperforms the state-of-the-art human pose transfer model, DPTN (Dual-task Pose Transformer Network), in terms of Structural SIMilarity (SSIM), Learned Perceptual Image Patch Similarity (LPIPS) and FID (Fréchet Inception Distance) indicators. Experimental results show that the Conv-MHA module, which integrates convolution and multi-head attention mechanism, can improve the representation ability of the model, capture the details of person’s appearance more effectively, and improve the accuracy of person image generation.
Human Pose Transfer (HPT); image generation; generative adversarial network; multi-head attention; convolution
1001-9081(2023)11-3403-08
10.11772/j.issn.1001-9081.2022111707
2022?11?18;
2022?12?25;
楊紅(1977—),女,遼寧葫蘆島人,副教授,博士,主要研究方向:數(shù)據(jù)挖掘、行為識別; 張賀(1998—),男,山東臨沂人,碩士研究生,主要研究方向:圖像生成、深度生成模型; 靳少寧(1996—),女,甘肅靜寧人,碩士研究生,主要研究方向:步態(tài)識別、人工智能。
TP183
A
2022?12?28。
YANG Hong, born in 1977, Ph. D., associate professor. Her research interests include data mining, behavior recognition.
ZHANG He, born in 1998, M. S. candidate. His research interests include image generation, deep generative models.
JIN Shaoning, born in 1996, M. S. candidate. Her research interests include gait recognition, artificial intelligence.