趙璐璐,陳雁翔,趙鵬鋮,朱玉鵬,盛振濤
合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥230009
人類所發(fā)出的聲音總是與其本身的諸多特性相關(guān)聯(lián),例如性別、年齡以及嘴唇開(kāi)合等,而最能反映這些特性的就是人的臉部。因此,語(yǔ)音驅(qū)動(dòng)人臉生成逐漸成為一個(gè)熱門(mén)的研究課題,其研究目的是挖掘語(yǔ)音與人臉之間的關(guān)聯(lián)性,進(jìn)而能夠由給定的任意語(yǔ)音片段生成相對(duì)應(yīng)的人臉圖像。然而語(yǔ)音和人臉之間存在著多維復(fù)雜關(guān)聯(lián),其與單張靜態(tài)人臉圖像之間存在著多重屬性關(guān)聯(lián)(性別、年齡等),同時(shí)與多張動(dòng)態(tài)人臉序列之間又存在嘴唇同步關(guān)聯(lián)。因此語(yǔ)音驅(qū)動(dòng)人臉生成模型需要綜合考慮這兩方面的因素,從而能夠更好地將其應(yīng)用于實(shí)際生產(chǎn)生活中。
無(wú)論是生成靜態(tài)人臉圖像,還是生成動(dòng)態(tài)人臉序列,都面臨著巨大的挑戰(zhàn)。首先,由于語(yǔ)音信號(hào)和人臉圖像在數(shù)據(jù)特征層面存在異質(zhì)性,因此在沒(méi)有確切先驗(yàn)信息的前提下,模型需要捕捉到特定的語(yǔ)音特征來(lái)編碼得到與之對(duì)應(yīng)的人臉圖像。其次,動(dòng)態(tài)人臉序列的生成要在時(shí)間維度上保持人臉屬性特征的不變性,同時(shí)所生成的人臉序列應(yīng)保證語(yǔ)音片段和嘴唇運(yùn)動(dòng)之間的同步性。
目前大多數(shù)工作在研究這種語(yǔ)音驅(qū)動(dòng)的跨模態(tài)人臉生成時(shí),都只考慮了其中一種的關(guān)聯(lián)性來(lái)生成相對(duì)應(yīng)的人臉圖像,缺乏對(duì)語(yǔ)音和人臉圖像對(duì)應(yīng)關(guān)系的綜合研究。例如,Speech2Face[1]通過(guò)利用視頻中人臉圖像和聲音在時(shí)間和語(yǔ)義這兩個(gè)維度上的雙重相關(guān)性,將語(yǔ)音聲譜圖的特征與預(yù)訓(xùn)練的真實(shí)人臉的特征在高維空間中相對(duì)齊,進(jìn)而實(shí)現(xiàn)由語(yǔ)音生成靜態(tài)人臉圖像。但該模型依賴語(yǔ)音和人臉圖像之間嚴(yán)格時(shí)序?qū)R的數(shù)據(jù)集進(jìn)行訓(xùn)練,而在實(shí)際中由于時(shí)間維度的影響,只有很少的數(shù)據(jù)集標(biāo)記了這種時(shí)間對(duì)齊信息,進(jìn)而導(dǎo)致模型不具有廣泛應(yīng)用性。而本文考慮使用屬性對(duì)齊(性別、年齡)的語(yǔ)音-人臉圖像數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,以此來(lái)生成屬性對(duì)應(yīng)的靜態(tài)人臉圖像。對(duì)于語(yǔ)音驅(qū)動(dòng)動(dòng)態(tài)人臉序列生成的研究,Jamaludin等人[2]設(shè)計(jì)了一種基于編碼器-解碼器結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型Speech2Vid,該模型以一種自監(jiān)督的方式使用靜態(tài)人臉圖像和語(yǔ)音片段的聯(lián)合嵌入來(lái)合成說(shuō)話者的人臉視頻幀,但是其將序列生成變換成與時(shí)間無(wú)關(guān)的圖像生成,因此容易造成像素抖動(dòng)。Suwajanakorn等人[3]通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)原始語(yǔ)音特征到嘴唇區(qū)域的映射,進(jìn)而定位到匹配度最佳的嘴唇區(qū)域圖像,并將檢索出的嘴唇區(qū)域圖像與原始的人臉圖像進(jìn)行合成以得到最終的目標(biāo)視頻。雖然此方法可以獲得高真實(shí)感的生成效果,但是其只適用于特定身份的人,缺乏泛化能力。
本文所提出的方法與之前的語(yǔ)音驅(qū)動(dòng)人臉生成模型不同,其綜合研究了語(yǔ)音驅(qū)動(dòng)的靜態(tài)人臉圖像生成和動(dòng)態(tài)人臉序列生成,并基于條件生成對(duì)抗網(wǎng)絡(luò)構(gòu)建了系統(tǒng)模型SDVF-GAN。為了更好地依托該模型生成屬性對(duì)齊的靜態(tài)人臉圖像,依據(jù)現(xiàn)有數(shù)據(jù)集建立了一個(gè)涵蓋性別和年齡兩種屬性的Voice-Face數(shù)據(jù)集,實(shí)現(xiàn)語(yǔ)音與靜態(tài)人臉之間屬性信息的精準(zhǔn)對(duì)應(yīng)。同時(shí)該模型還利用注意力思想定位到人臉圖像中的嘴唇區(qū)域,以此細(xì)節(jié)信息為條件,進(jìn)一步從給定的語(yǔ)音和身份人臉圖像中生成嘴唇同步的動(dòng)態(tài)人臉序列。為了驗(yàn)證本文所提出方法的有效性,對(duì)其進(jìn)行了一系列針對(duì)性實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,SDVF-GAN 不僅可以生成屬性對(duì)應(yīng)的高質(zhì)量靜態(tài)人臉圖像,同時(shí)還可生成嘴唇運(yùn)動(dòng)與輸入語(yǔ)音同步的動(dòng)態(tài)人臉序列。綜上所述,本文的主要貢獻(xiàn)如下:
(1)本文提出了一種基于條件生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音驅(qū)動(dòng)靜動(dòng)態(tài)人臉生成模型SDVF-GAN,該模型能由給定的語(yǔ)音信號(hào)生成屬性一致(年齡、性別)的靜態(tài)人臉圖像并在身份人臉圖像的條件下生成嘴唇同步的動(dòng)態(tài)人臉序列。
(2)本文基于現(xiàn)有數(shù)據(jù)構(gòu)建了一個(gè)新的包含語(yǔ)音和人臉圖像的數(shù)據(jù)集Voice-Face,其中語(yǔ)音和人臉圖像在性別和年齡上具有屬性一致性。
(3)本文在動(dòng)態(tài)人臉生成模型中設(shè)計(jì)了一個(gè)基于注意力思想的嘴唇判別器,通過(guò)將嘴唇區(qū)域信息與身份相關(guān)信息分離,來(lái)降低不準(zhǔn)確的嘴唇運(yùn)動(dòng)所造成的影響,實(shí)現(xiàn)在生成高質(zhì)量的人臉序列的同時(shí)進(jìn)一步提高嘴唇同步的準(zhǔn)確性。
視聽(tīng)覺(jué)數(shù)據(jù)是現(xiàn)實(shí)世界中自然共存的兩種信號(hào),并且二者都可為對(duì)方提供豐富的監(jiān)督信息,利用視聽(tīng)覺(jué)數(shù)據(jù)進(jìn)行跨模態(tài)學(xué)習(xí)的研究也因此而取得了很多突破性的成就。Aytar 等人[4]利用視頻中音頻數(shù)據(jù)和視覺(jué)數(shù)據(jù)自然同步的特性,通過(guò)已建立的視覺(jué)識(shí)別網(wǎng)絡(luò)和未標(biāo)記的視頻數(shù)據(jù)對(duì)音頻特征提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練,進(jìn)而學(xué)習(xí)到音頻的有效表示。Chen 等人[5]使用條件生成對(duì)抗網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)視聽(tīng)覺(jué)跨模態(tài)雙向生成,并在多模態(tài)數(shù)據(jù)集Sub-URMP 上實(shí)現(xiàn)面向樂(lè)器類別和面向演奏姿勢(shì)這兩種不同的訓(xùn)練場(chǎng)景下的視聽(tīng)覺(jué)跨模態(tài)生成。Hu 等人[6]提出了兩種分別針對(duì)不同情況盲人的視聽(tīng)跨模態(tài)生成模型,實(shí)現(xiàn)從編碼后的聲音生成相應(yīng)的視覺(jué)圖像,其目的是驗(yàn)證機(jī)器模型可快速高效地評(píng)估為幫助盲人而構(gòu)建的視覺(jué)到聽(tīng)覺(jué)編碼方案的性能與質(zhì)量。文獻(xiàn)[7-8]進(jìn)一步實(shí)現(xiàn)了基于GAN 的語(yǔ)音到人臉圖像的跨模態(tài)生成,也即在給定語(yǔ)音波形的情況下生成相對(duì)應(yīng)的人臉圖像,并保留說(shuō)話者的身份信息。而本文提出的靜態(tài)人臉生成模型研究的是如何生成與輸入語(yǔ)音信號(hào)屬性關(guān)聯(lián)(年齡、性別)的靜態(tài)人臉圖像,可使用屬性對(duì)齊的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,其在實(shí)際中的應(yīng)用范圍更加廣泛。
動(dòng)態(tài)人臉生成研究在給定目標(biāo)人臉圖像和語(yǔ)音片段的情況下,生成嘴唇運(yùn)動(dòng)與輸入語(yǔ)音準(zhǔn)確同步的說(shuō)話者人臉序列。近年來(lái),隨著生成式模型的不斷發(fā)展,對(duì)于任意人臉序列的生成涌現(xiàn)出眾多優(yōu)秀的模型。X2Face[9]提出一種能夠控制給定人臉的姿態(tài)和表情的深度神經(jīng)網(wǎng)絡(luò),它是以語(yǔ)音信號(hào)(或是另一張人臉圖像)作為條件實(shí)現(xiàn)任意說(shuō)話者對(duì)應(yīng)的人臉生成,但是該方法以不受身份信息約束的形式對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使得模型無(wú)法針對(duì)身份信息生成相應(yīng)的人臉,并且基于語(yǔ)音生成的人臉圖像質(zhì)量相對(duì)不高。Zhou 等人[10]利用對(duì)抗訓(xùn)練的思想,通過(guò)解耦一張人臉圖像中的主體相關(guān)信息和語(yǔ)言相關(guān)信息來(lái)實(shí)現(xiàn)任意主體說(shuō)話者對(duì)應(yīng)的人臉生成,然而該方法主要關(guān)注圖像在模態(tài)內(nèi)部的一致性,缺乏對(duì)跨模態(tài)一致性的探索,從而導(dǎo)致生成人臉序列的嘴唇運(yùn)動(dòng)與輸入語(yǔ)音之間的同步性不夠準(zhǔn)確。Chen 等人[11]利用面部標(biāo)志作為中間信息來(lái)拉近兩種不同模態(tài)數(shù)據(jù)之間的距離,從而實(shí)現(xiàn)了說(shuō)話者對(duì)應(yīng)的人臉序列生成,但是該方法缺乏對(duì)視聽(tīng)跨模態(tài)的同步性進(jìn)行建模,因此會(huì)出現(xiàn)嘴唇運(yùn)動(dòng)不同步的現(xiàn)象。
注意力機(jī)制模仿了生物觀察行為的內(nèi)部過(guò)程,是一種將內(nèi)部經(jīng)驗(yàn)和外部感覺(jué)對(duì)齊從而增加部分區(qū)域的觀察精細(xì)度的機(jī)制。注意力機(jī)制可以快速提取到稀疏數(shù)據(jù)的重要特征,其最初提出的目的是解決機(jī)器翻譯研究領(lǐng)域中的文本序列問(wèn)題。注意力機(jī)制本質(zhì)上源自于人類視覺(jué)注意機(jī)制,其核心目標(biāo)是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息并聚焦到這些重要信息上,因此注意力機(jī)制逐漸發(fā)展成計(jì)算機(jī)視覺(jué)領(lǐng)域的重要工具之一。例如Zhang 等人[12]將自注意力機(jī)制與GAN[13]相結(jié)合,提出了一種新的圖像生成模型SAGAN。本文通過(guò)將自注意力機(jī)制添加到語(yǔ)音編碼器網(wǎng)絡(luò)中以提取出更準(zhǔn)確的聽(tīng)覺(jué)特征。同時(shí)在動(dòng)態(tài)人臉生成模型中,還利用注意力思想捕捉嘴唇區(qū)域的特征,進(jìn)而將身份人臉圖像中的身份屬性信息與嘴唇運(yùn)動(dòng)信息進(jìn)行分離,以實(shí)現(xiàn)在任意身份下生成嘴唇同步的動(dòng)態(tài)人臉序列。
為了滿足靜態(tài)人臉生成網(wǎng)絡(luò)的訓(xùn)練需求,本文構(gòu)建了“性別+年齡”屬性對(duì)齊的數(shù)據(jù)集Voice-Face。該數(shù)據(jù)集中包含大量的語(yǔ)音片段和人臉圖像,并滿足屬性一致性。為了切合本次研究的目的,選擇了aidatatang_1505zh數(shù)據(jù)集中的語(yǔ)音片段和CACD2000 數(shù)據(jù)集[14]中的人臉圖像。對(duì)于這兩個(gè)模態(tài)的數(shù)據(jù),對(duì)其按年齡段(11~20、21~30、31~40、41~50)和性別(男、女)進(jìn)行組合,同時(shí)清除了一些質(zhì)量不佳和不符合要求的語(yǔ)音片段和人臉圖像,使得各種組合的數(shù)量處于相對(duì)平衡狀態(tài),最終將得到的語(yǔ)音和人臉圖像數(shù)據(jù)整合成屬性關(guān)聯(lián)的Voice-Face數(shù)據(jù)集。此外,為了更好地利用該數(shù)據(jù)集對(duì)靜態(tài)生成模型進(jìn)行訓(xùn)練,還將對(duì)其中的數(shù)據(jù)進(jìn)行一定的預(yù)處理操作,具體步驟如下:
語(yǔ)音預(yù)處理:原始的語(yǔ)音信號(hào)是由16 kHz的單聲道進(jìn)行采樣而得到,在本文的模型中需要將其轉(zhuǎn)換成聲譜圖作為系統(tǒng)的原始輸入。將語(yǔ)音分別轉(zhuǎn)換成短時(shí)傅里葉變換(STFT)、梅爾頻率倒譜系數(shù)(MFCC)和對(duì)數(shù)振幅梅爾頻譜(LMS)這三種聲譜圖,并對(duì)比三者分別作為模型輸入時(shí)的生成效果,根據(jù)模型實(shí)際的性能表現(xiàn),最終選擇將語(yǔ)音信號(hào)的MFCC特征作為語(yǔ)音編碼器網(wǎng)絡(luò)的輸入。
人臉圖像裁剪:為了去除人臉圖像中多余的背景信息,采用人臉檢測(cè)器[15]來(lái)檢測(cè)圖像中相應(yīng)的人臉部分區(qū)域,進(jìn)而從整幅圖像中裁剪出人臉區(qū)域,最后將裁剪后的人臉圖像統(tǒng)一縮放為相同的尺寸大小。
最終,經(jīng)過(guò)上述數(shù)據(jù)預(yù)處理操作之后,得到了8 種屬性組合下的48 000個(gè)語(yǔ)音-人臉圖像對(duì),并將其按5∶1的比率劃分為訓(xùn)練集和測(cè)試集。
本文綜合考慮語(yǔ)音和人臉之間的靜態(tài)屬性和動(dòng)態(tài)變化關(guān)系,在條件生成對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建了語(yǔ)音驅(qū)動(dòng)的靜動(dòng)態(tài)人臉生成模型(SDVF-GAN)。該模型以給定的語(yǔ)音片段作為輸入,能夠生成屬性一致(性別、年齡)的靜態(tài)人臉圖像,同時(shí)能夠基于身份人臉圖像生成嘴唇同步的動(dòng)態(tài)人臉序列。
SDVF-GAN模型的網(wǎng)絡(luò)架構(gòu)如圖1所示,其包含編碼器、生成器和判別器這三個(gè)部分。
圖1 語(yǔ)音驅(qū)動(dòng)的靜動(dòng)態(tài)人臉生成模型(SDVF-GAN)的框架結(jié)構(gòu)Fig.1 Frame structure of voice-driven static and dynamic face generation model(SDVF-GAN)
3.1.1 編碼器
本文使用基于深度卷積網(wǎng)絡(luò)構(gòu)建的語(yǔ)音編碼器VE來(lái)提取語(yǔ)音信號(hào)的聽(tīng)覺(jué)特征向量。初始的語(yǔ)音信號(hào)是一維波形V,鑒于梅爾頻率倒譜系數(shù)(MFCC)特征能夠很好地表示語(yǔ)音的相關(guān)信息,因此將語(yǔ)音信號(hào)轉(zhuǎn)換成MFCC特征M以作為語(yǔ)音編碼器的輸入。由于MFCC特征在某一維度上對(duì)應(yīng)了時(shí)序信息,因此對(duì)于時(shí)間間隔較長(zhǎng)的MFCC特征,語(yǔ)音編碼器在特征的提取過(guò)程中要能夠捕捉到它們之間的時(shí)間依賴關(guān)系。自注意力機(jī)制[16]可以模擬圖像區(qū)域中長(zhǎng)距離、多級(jí)別的依賴關(guān)系,進(jìn)而可以使得遠(yuǎn)距離依賴特征之間的距離極大地縮短。因此,在語(yǔ)音編碼器VE 中引入自注意力機(jī)制可以學(xué)習(xí)到MFCC中的時(shí)序信息,進(jìn)而提取出更準(zhǔn)確的聽(tīng)覺(jué)特征向量zv=VE(M)。最后將得到的聽(tīng)覺(jué)特征向量作為靜態(tài)人臉生成網(wǎng)絡(luò)和動(dòng)態(tài)人臉生成網(wǎng)絡(luò)的輸入,以實(shí)現(xiàn)靜態(tài)和動(dòng)態(tài)的人臉生成。
在動(dòng)態(tài)人臉生成網(wǎng)絡(luò)中,是將聽(tīng)覺(jué)特征和圖像特征相串聯(lián)得到的混合特征作為網(wǎng)絡(luò)的輸入以確保生成的人臉序列中的多張人臉圖像在身份信息上的一致性?;诖?,構(gòu)建了圖像編碼器IE,以提取相應(yīng)的圖像特征向量zI=VE(I),網(wǎng)絡(luò)參數(shù)如表1。
表1 編碼器網(wǎng)絡(luò)架構(gòu)Table 1 Encoder network architecture
3.1.2 生成器
SDVF-GAN模型是基于條件生成對(duì)抗網(wǎng)絡(luò)(CGANs)[17]的結(jié)構(gòu)而構(gòu)建。因此,在獲取聽(tīng)覺(jué)特征向量和圖像特征向量后,以聽(tīng)覺(jué)特征向量zv與使用標(biāo)準(zhǔn)正態(tài)分布采樣的噪聲向量zn~N(0,1)相串聯(lián)而得到的高維特征向量作為靜態(tài)人臉生成器SFG 的輸入,進(jìn)而合成出屬性一致(年齡和性別)的靜態(tài)人臉圖像Is=SFG(zv,zn);以聽(tīng)覺(jué)特征向量zv與圖像特征向量zI串聯(lián)得到的混合特征向量作為動(dòng)態(tài)人臉生成器DFG 的輸入,通過(guò)分別考慮語(yǔ)音相關(guān)信息和身份相關(guān)信息來(lái)生成嘴唇同步的動(dòng)態(tài)人臉序列Id=DFG(zv,zI),網(wǎng)絡(luò)參數(shù)如表2。
表2 生成器網(wǎng)絡(luò)架構(gòu)Table 2 Generator network architecture
3.1.3 判別器
圖像判別器以真實(shí)圖像或生成圖像作為輸入,輸出相應(yīng)的概率分?jǐn)?shù),以判別輸入圖像的真?zhèn)?。靜態(tài)人臉生成模型針對(duì)的是屬性對(duì)齊條件下的視聽(tīng)覺(jué)跨模態(tài)人臉生成,需要在生成高質(zhì)量的真實(shí)圖像的同時(shí)確保屬性的一致性。為了生成符合要求的靜態(tài)人臉圖像,在原始圖像判別器的倒數(shù)第二層后加入投影層(Projection)[18],以獲得一個(gè)表示語(yǔ)音片段與人臉圖像屬性匹配程度的概率分?jǐn)?shù)。具體而言,本文使用x表示輸入特征向量,y表示條件信息,同時(shí)用D(x,y)=A(f(x,y))表示CGANs的圖像判別器,A表示激活函數(shù)。pt和pg分別表示真實(shí)樣本分布和生成樣本分布。當(dāng)使用Sigmoid作為最后卷積層的激活函數(shù)時(shí),由CGANs的損失函數(shù)可知,最優(yōu)判別器:
在多分類問(wèn)題中,一般使用Softmax 函數(shù)來(lái)計(jì)算輸入x屬于某一類別y=c的概率,則有:
其中,(x)表示全連接層的輸出,?為去除最后一層的傳統(tǒng)判別器網(wǎng)絡(luò)。同時(shí)令矩陣V表示行向量,并將其看作條件信息y的嵌入層,ψ表示判別器的最后一層,則此時(shí)最優(yōu)判別器可化簡(jiǎn)為:
對(duì)上式進(jìn)行分析可知,ψ(?(x))起到了原始CGANs中圖像判別器的作用,用于判斷輸入數(shù)據(jù)x的真實(shí)性;而yTV?(x)表示投影層的判別結(jié)果,其相當(dāng)于卷積網(wǎng)絡(luò)的輸出V?(x)與條件y進(jìn)行點(diǎn)乘得到的對(duì)應(yīng)目標(biāo)組合的概率值,其值越大表示屬性匹配越準(zhǔn)確。因此,添加投影模塊的圖像判別器的輸出既表示了圖像的真?zhèn)?,又表示了圖像與語(yǔ)音之間的屬性匹配度,可更好地推動(dòng)靜態(tài)人臉生成器生成與輸入語(yǔ)音屬性一致的高質(zhì)量的靜態(tài)人臉圖像。
動(dòng)態(tài)人臉生成網(wǎng)絡(luò)的目的是生成嘴唇同步的人臉序列。由于圖像判別器以人臉圖像的整個(gè)區(qū)域?yàn)榕袆e標(biāo)準(zhǔn)來(lái)更新動(dòng)態(tài)生成器網(wǎng)絡(luò)的參數(shù),所以僅利用圖像判別器不足以在訓(xùn)練時(shí)捕獲到精準(zhǔn)的嘴唇運(yùn)動(dòng)。為了能夠在人臉圖像中捕獲嘴唇相關(guān)的變化信息,基于注意力的思想構(gòu)建了一個(gè)嘴唇判別器Dl,通過(guò)僅關(guān)注嘴唇區(qū)域的變化來(lái)去除身份相關(guān)信息及面部表情的干擾,并將其與圖像判別器相結(jié)合,二者共同以對(duì)抗訓(xùn)練的方式更新動(dòng)態(tài)人臉生成器,以生成嘴唇同步的高質(zhì)量的動(dòng)態(tài)人臉序列,判別器網(wǎng)絡(luò)架構(gòu)如表3。
表3 判別器網(wǎng)絡(luò)架構(gòu)Table 3 Discriminator network architecture
為防止傳統(tǒng)GAN中出現(xiàn)的梯度消失和模式崩潰的問(wèn)題,SDVF-GAN模型采用了WGAN-GP形式的對(duì)抗損失函數(shù)。此時(shí),對(duì)抗損失函數(shù)如下:
其中,I表示真實(shí)圖像,I表示生成圖像,其在靜態(tài)人臉生成網(wǎng)絡(luò)和動(dòng)態(tài)人臉生成網(wǎng)絡(luò)中分別表示靜態(tài)人臉圖像Is=SFG(zv,zn)和動(dòng)態(tài)人臉圖像Id=DFG(zv,zI),而I是沿真實(shí)圖像和生成圖像對(duì)之間的直線均勻采樣得到的圖像。D表示圖像判別器,其在靜態(tài)人臉生成網(wǎng)絡(luò)中嵌入了投影(projection)模塊。
為使得靜態(tài)人臉生成模型能夠生成屬性一致的人臉圖像,為其構(gòu)建如下所示的屬性損失函數(shù):
為了在動(dòng)態(tài)人臉生成過(guò)程中保持身份的不變性,將重建損失應(yīng)用于動(dòng)態(tài)人臉生成模型中,公式化如下:
如前所述,通過(guò)構(gòu)建嘴唇判別器Dl來(lái)確保生成的動(dòng)態(tài)人臉序列具有準(zhǔn)確的嘴唇運(yùn)動(dòng),其目標(biāo)函數(shù):
此時(shí),靜態(tài)人臉生成模型和動(dòng)態(tài)人臉生成模型的總損失函數(shù)分別如式(8)和式(9)所示:
其中,λatt、λrec和λlip是模型中的超參數(shù),它們分別控制模型的屬性損失、重建損失和嘴唇損失的相對(duì)重要程度,進(jìn)而更好地對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
4.1.1 數(shù)據(jù)集
分別利用自己構(gòu)建的Voice-Face 數(shù)據(jù)集和現(xiàn)有的LRW 數(shù)據(jù)集[19]對(duì)靜態(tài)人臉生成模型和動(dòng)態(tài)人臉生成模型進(jìn)行訓(xùn)練。對(duì)于Voice-Face 數(shù)據(jù)集,按照兩種性別(男性和女性)和四個(gè)年齡段(11~20、21~30、31~40、41~50)將其組合成8 種屬性類別。而LRW 數(shù)據(jù)集是目前最大規(guī)模的單詞級(jí)唇讀數(shù)據(jù)集,其包含數(shù)百個(gè)不同的說(shuō)話者讀單詞的視頻,每個(gè)視頻的持續(xù)時(shí)間很短,只有1 s左右。從LRW 數(shù)據(jù)集中分別提取音頻流和視頻幀,并使兩者相互匹配。對(duì)于音頻流,以16 kHz 的采樣率提取出(Mel frequency cepstrum coefficient)MFCC 特征;對(duì)于視頻幀,使用人臉檢測(cè)器裁剪出相應(yīng)的人臉區(qū)域,然后將人臉區(qū)域的圖像維度調(diào)整為128×128。
4.1.2 實(shí)現(xiàn)細(xì)節(jié)
SDVF-GAN 中的語(yǔ)音編碼器、圖像編碼器、生成器和判別器都是由卷積層或反卷積層搭建而成。對(duì)于語(yǔ)音編碼器網(wǎng)絡(luò),在最后兩個(gè)卷積層之前都添加了一個(gè)自注意力層來(lái)捕獲語(yǔ)音中的長(zhǎng)距離依賴信息,并在最后一層卷積層后添加了兩個(gè)全連接層來(lái)得到聽(tīng)覺(jué)特征向量。動(dòng)態(tài)人臉生成器中借鑒了U-Net[20]的思想,其將圖像編碼器中各卷積層的圖像特征分別饋送到生成器網(wǎng)絡(luò)中,以更好地保持生成的動(dòng)態(tài)人臉序列身份信息的一致性。在實(shí)驗(yàn)中,使用Pytorch 框架來(lái)實(shí)現(xiàn)整個(gè)系統(tǒng)模型。訓(xùn)練時(shí)的參數(shù)細(xì)節(jié)如下:選用ADAM 優(yōu)化器[21],其中α=0.5,β=0.999,并將學(xué)習(xí)率固定為1E-4;WGANGP 中的梯度懲罰參數(shù)λgp設(shè)置為10,同時(shí)將λatt、λrec和λlip分別設(shè)置為10、10和1。算法1和算法2分別說(shuō)明了本文中所提出的靜態(tài)人臉生成網(wǎng)絡(luò)和動(dòng)態(tài)人臉生成網(wǎng)絡(luò)的優(yōu)化訓(xùn)練過(guò)程。
算法1 靜態(tài)人臉生成模型的訓(xùn)練流程
算法2 動(dòng)態(tài)人臉生成模型的訓(xùn)練流程
在實(shí)驗(yàn)中,選用幾個(gè)常見(jiàn)的評(píng)價(jià)指標(biāo)來(lái)定量評(píng)估SDVF-GAN 模型的生成效果。對(duì)于靜態(tài)人臉生成模型,其通過(guò)跨模態(tài)準(zhǔn)確率(cross-modal accuracy)來(lái)定量評(píng)估屬性組合的跨模態(tài)人臉生成是否成功。此外,F(xiàn)réchet inception distance(FID)通過(guò)計(jì)算真實(shí)圖像和生成圖像在特征向量上的距離來(lái)定量評(píng)估生成的靜態(tài)人臉圖像質(zhì)量的好壞,具體公式如下:
其中,μr和μg分別表示真實(shí)圖像和生成圖像特征的均值,Σr和Σg分別表示真實(shí)圖像和生成圖像特征的協(xié)方差矩陣。FID值越小,表明生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的分布越接近,生成的靜態(tài)人臉圖像質(zhì)量越高、多樣性越豐富。
對(duì)于動(dòng)態(tài)人臉生成模型,使用常用的度量指標(biāo)peak signal-to-noise ratio(PSNR)和structural SIMilarity(SSIM)[22]來(lái)評(píng)估生成的視頻幀質(zhì)量的好壞,兩者的值越大,說(shuō)明生成人臉序列的質(zhì)量越好。此外,采用landmarks distance(LMD)[23]來(lái)評(píng)估生成人臉序列中嘴唇同步的準(zhǔn)確性。LMD通過(guò)計(jì)算真實(shí)序列和生成序列之間的關(guān)鍵點(diǎn)距離來(lái)度量嘴唇同步準(zhǔn)確率,其值越小,表明合成人臉序列的嘴唇運(yùn)動(dòng)與輸入語(yǔ)音片段的匹配程度越高。
靜態(tài)人臉生成模型的目的是實(shí)現(xiàn)屬性一致(性別、年齡)的視聽(tīng)覺(jué)跨模態(tài)人臉生成,因此,使用自己構(gòu)建的基于性別和年齡屬性對(duì)齊的Voice-Face 數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和測(cè)試。為了驗(yàn)證模型所生成的靜態(tài)人臉圖像具有一定的優(yōu)越性,本文從定性和定量角度對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,并將其與最近的方法進(jìn)行定量對(duì)比,同時(shí)針對(duì)自身模型架構(gòu)及損失函數(shù)進(jìn)行了消融研究實(shí)驗(yàn)。
定性結(jié)果。圖2顯示了8種不同屬性組合下的語(yǔ)音片段分別作為靜態(tài)人臉生成模型的輸入時(shí),所生成的相應(yīng)組合下的靜態(tài)人臉圖像。從中可以觀察到,SDVFGAN 能夠?qū)W習(xí)到聲音和人臉之間的潛在聯(lián)系,其生成的人臉圖像和真實(shí)的人臉圖像對(duì)應(yīng)的屬性信息(年齡、性別)是一致的。此外,還為每個(gè)組合選取多個(gè)不同的語(yǔ)音片段分別送入靜態(tài)網(wǎng)絡(luò)模型中來(lái)進(jìn)行相應(yīng)的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示,可以觀察到SDVF-GAN在生成屬性一致的靜態(tài)人臉圖像的同時(shí)還可以保持生成圖像的多樣性。
圖2 靜態(tài)人臉生成模型合成的靜態(tài)人臉圖像Fig.2 Static face image synthesized by static face generation model
圖3 選取不同語(yǔ)音片段所生成的靜態(tài)人臉圖像Fig.3 Static face image generated by selecting different voices fragments
定量結(jié)果。使用Voice-Face數(shù)據(jù)集對(duì)Wen等人[7]提出的模型進(jìn)行訓(xùn)練和測(cè)試,并將其與本文提出的靜態(tài)人臉生成模型進(jìn)行定量比較,具體實(shí)驗(yàn)結(jié)果如表4 所示。結(jié)果顯示SDVF-GAN在兩個(gè)常用的評(píng)價(jià)指標(biāo)下均明顯優(yōu)于Wen 等人的方法,表明了SDVF-GAN 模型不僅可以生成高質(zhì)量的靜態(tài)人臉圖像,而且在8種屬性組合下的跨模態(tài)分類準(zhǔn)確率也相對(duì)更高。
表4 Voice-Face數(shù)據(jù)集中不同方法的定量結(jié)果Table 4 Quantitative results of different methods in Voice-Face dataset
消融研究。為了定量評(píng)估靜態(tài)人臉生成模型中各組成部分(自注意力機(jī)制(SA)、投影模塊(Pro)以及屬性損失Latt)對(duì)生成效果的影響,通過(guò)逐一移除模型中的某個(gè)組件來(lái)進(jìn)行相應(yīng)的消融研究實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。由表中的數(shù)據(jù)可以看出,當(dāng)僅去除網(wǎng)絡(luò)模型中的自注意力機(jī)制時(shí),跨模態(tài)準(zhǔn)確率下降了將近3.1 個(gè)百分點(diǎn);僅去除投影模塊時(shí),F(xiàn)ID 的值相比提高了5.2 左右,也即生成圖像的質(zhì)量有所下降;而當(dāng)同時(shí)去除這兩個(gè)組件時(shí),跨模態(tài)準(zhǔn)確率和FID 更是都朝著變壞的方向發(fā)展。這表明模型中加入這兩種組件不僅有助于降低FID值以提升人臉圖像的生成質(zhì)量,同時(shí)還可使得模型生成出的人臉圖像與輸入語(yǔ)音具有更好的屬性一致性。此外,表5 中的結(jié)果還反映出添加屬性損失Latt可進(jìn)一步提高跨模態(tài)準(zhǔn)確率,定量表明了屬性損失的添加對(duì)靜態(tài)人臉生成模型的性能具有一定的提升。
表5 靜態(tài)人臉生成模型的消融研究Table 5 Ablation research of static face generation model
使用現(xiàn)有的LRW數(shù)據(jù)集來(lái)訓(xùn)練和測(cè)試SDVF-GAN中的動(dòng)態(tài)人臉生成模型,以實(shí)現(xiàn)嘴唇同步的動(dòng)態(tài)人臉序列生成。
定性結(jié)果。為了驗(yàn)證本文所提出動(dòng)態(tài)人臉生成模型的先進(jìn)性,在相同的實(shí)驗(yàn)設(shè)定下,將其與ATVGnet 模型進(jìn)行定性對(duì)比,具體實(shí)驗(yàn)結(jié)果如圖4所示??梢灾庇^地看到,相較于ATVGnet模型來(lái)說(shuō),SDVF-GAN所生成的人臉序列與真實(shí)人臉序列在嘴唇運(yùn)動(dòng)方面的同步性更好,并且生成的人臉圖像更加清晰。因此,無(wú)論從圖像質(zhì)量還是嘴唇同步來(lái)說(shuō),SDVF-GAN 模型的生成結(jié)果與先前的方法相比均有一定程度的提升。
圖4 動(dòng)態(tài)人臉生成模型以及ATVGnet模型的生成結(jié)果Fig.4 Synthesis result of dynamic face generation model and ATVGnet model
定量結(jié)果。將本文的動(dòng)態(tài)人臉生成模型與ATVGnet[11]和Speech2Vid[2]模型進(jìn)行定量比較,具體實(shí)驗(yàn)結(jié)果如表6所示。結(jié)果表明SDVF-GAN模型相比于其他的方法雖然在評(píng)價(jià)指標(biāo)PSNR上略低于ATVGnet模型,但其同時(shí)取得了最高的SSIM 和最低的LMD。這也定量說(shuō)明了SDVF-GAN 可以在保證生成較高質(zhì)量圖像的同時(shí)實(shí)現(xiàn)嘴唇運(yùn)動(dòng)與輸入語(yǔ)音片段之間的精準(zhǔn)同步。
表6 LRW數(shù)據(jù)集中不同方法的定量結(jié)果Table 6 Quantitative results of different methods in LRW dataset
消融研究。為了驗(yàn)證動(dòng)態(tài)人臉生成模型中的自注意力機(jī)制(SA)和嘴唇判別器Dl對(duì)于模型性能提升的重要性,同樣進(jìn)行了相應(yīng)的消融研究實(shí)驗(yàn)來(lái)量化這兩個(gè)組件對(duì)模型性能的影響,具體實(shí)驗(yàn)結(jié)果如表7所示。實(shí)驗(yàn)結(jié)果表明,SA和Dl兩個(gè)組件逐一添加到模型中都可進(jìn)一步提高所有評(píng)價(jià)指標(biāo)的性能,兩者聯(lián)合作用下更是使模型達(dá)到了最優(yōu)的生成效果。這也定量說(shuō)明了自注意力機(jī)制和嘴唇判別器對(duì)動(dòng)態(tài)人臉生成模型生成高質(zhì)量的嘴唇同步的動(dòng)態(tài)人臉序列有著至關(guān)重要的作用。
表7 動(dòng)態(tài)人臉生成模型的消融研究Table 7 Ablation research of dynamic face generation model
本文研究了語(yǔ)音與人臉之間靜態(tài)和動(dòng)態(tài)的關(guān)聯(lián)性,提出了一種可生成靜態(tài)人臉圖像和動(dòng)態(tài)人臉序列的語(yǔ)音驅(qū)動(dòng)人臉生成模型SDVF-GAN。模型的語(yǔ)音編碼器在自注意力機(jī)制的作用下捕獲語(yǔ)音數(shù)據(jù)的全局聽(tīng)覺(jué)特征,在靜態(tài)人臉生成網(wǎng)絡(luò)中通過(guò)將投影模塊加入到圖像判別器中以約束靜態(tài)生成器生成出屬性一致(性別、年齡)的靜態(tài)人臉圖像。同時(shí),本文設(shè)計(jì)了一種基于注意力思想的嘴唇判別器,用于實(shí)現(xiàn)嘴唇區(qū)域與身份信息的分離,以在動(dòng)態(tài)人臉生成網(wǎng)絡(luò)中校正不準(zhǔn)確的嘴唇運(yùn)動(dòng),進(jìn)一步提高生成的動(dòng)態(tài)人臉序列的嘴唇運(yùn)動(dòng)與輸入語(yǔ)音片段之間的同步準(zhǔn)確率。
實(shí)驗(yàn)結(jié)果表明,SDVF-GAN 模型生成的靜態(tài)人臉圖像具有高質(zhì)量、多樣化以及屬性一致(性別、年齡)的特點(diǎn),生成的動(dòng)態(tài)人臉序列的嘴唇運(yùn)動(dòng)與輸入語(yǔ)音片段具有高同步性的特點(diǎn)。此外,與現(xiàn)有方法對(duì)比發(fā)現(xiàn),SDVF-GAN 在跨模態(tài)準(zhǔn)確率和嘴唇同步準(zhǔn)確率方面均取得了更優(yōu)異的表現(xiàn)。
在現(xiàn)有的工作基礎(chǔ)之上,本文認(rèn)為后續(xù)的工作可以從以下兩個(gè)方面進(jìn)行。首先,對(duì)于訓(xùn)練靜態(tài)人臉生成網(wǎng)絡(luò)的Voice-Face數(shù)據(jù)集,本文只考慮了性別和年齡兩種屬性,使得屬性組合相對(duì)較少。未來(lái)的工作中可進(jìn)一步添加人的情感屬性,更深層次的挖掘語(yǔ)音和人臉的屬性關(guān)系,提高靜態(tài)人臉生成網(wǎng)絡(luò)的應(yīng)用范圍。其次,未來(lái)可在動(dòng)態(tài)人臉生成網(wǎng)絡(luò)中實(shí)現(xiàn)生成的面部序列具有與輸入語(yǔ)音同步的表情變化,從而獲得更加逼真的視覺(jué)效果。