摘要:隨著人工智能的快速發(fā)展,語音驅動的說話人臉生成技術因其在公共安全、醫(yī)療、電影娛樂、虛擬數(shù)字人等領域的廣泛應用而受到越來越多的關注。該技術旨在根據(jù)給定的目標人臉和音頻,生成自然的說話人臉視頻。在過去五年中,研究人員提出了許多創(chuàng)新方法,以解決該領域中的不同問題,推動了這一領域的發(fā)展。本文對當前說話人臉生成領域的發(fā)展進行了系統(tǒng)梳理和總結,以期為學術界提供有價值的資源。此外,詳細介紹了常用的數(shù)據(jù)集及多項用于評估模型性能的評價指標,為該領域的研究提供了更全面的理解和認識。最后,我們總結了該領域未來的發(fā)展趨勢,并鼓勵更多研究者在這一領域進行持續(xù)創(chuàng)新,為技術進步貢獻力量。
關鍵詞:計算機視覺;深度學習;說話人臉生成;音頻驅動;數(shù)字人
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2024)24-0123-04
開放科學(資源服務)標識碼(OSID)
0 引言
給定一個(或幾個)人臉圖像以及一段音頻,語音驅動的說話人臉視頻生成任務旨在生成一個保持源人臉外觀的音唇同步說話頭部視頻,并同時展現(xiàn)自然的頭部動作和面部屬性(如表情、眨眼)。這項任務涉及將低維語音信號映射到高維視頻信號,并且類似于文本驅動的視頻生成,其可視為該任務的衍生。由于不同模態(tài)之間存在異質性,這項任務極具挑戰(zhàn)性。
在初期階段,研究者主要采用跨模態(tài)檢索方法和隱馬爾可夫模型(HMM)來應對這一挑戰(zhàn)。然而,隨著深度學習技術的發(fā)展,尤其是生成模型的崛起,基于深度學習的方法極大地推動了這一領域的進步。作為計算機視覺、計算機圖形學等領域中的基礎且具有挑戰(zhàn)性的任務,語音驅動的說話人臉視頻生成正在獲得越來越多的關注。
這種跨模態(tài)人臉生成在多個實際場景中具有廣泛應用。例如,在醫(yī)學領域,它可以增強語音理解能力,幫助聽力障礙者和聲帶受損者;在公共安全領域,它可用于人臉偽造和活體檢測;在人機交互中,它作為一種新型交互方式,能豐富交互體驗;在娛樂領域,它可用于為電影重配音,甚至為無聲電影重新配音。此外,它還可應用于視頻會議、遠程角色扮演游戲、受帶寬限制的視頻轉換以及虛擬主播等場景。
根據(jù)模型結構,語音驅動的說話人臉生成技術可以分為單階段端到端方法和引入中間表征的雙階段方法。本文綜合回顧了過去五年中基于深度學習的這一領域的模型。首先,對不同方法進行了分類和概述,然后總結了模型訓練中常用的評價指標和數(shù)據(jù)集。最后,對當前研究狀況進行總結,并對未來發(fā)展趨勢進行展望。
1 說話人臉視頻生成
語音驅動合成面部動畫是根據(jù)語音信號生成說話人視頻的過程,語音驅動人臉生成任務屬于跨模態(tài)生成領域中的一個具有實用價值的子領域。早期研究利用隱馬爾可夫模型(HMM)捕獲視頻和語音序列的動態(tài)關系。隨著深度學習技術的發(fā)展,特別是生成式對抗網(wǎng)絡(GAN)及其變體的興起,基于深度學習的方法表現(xiàn)出了卓越的性能。這些方法根據(jù)網(wǎng)絡架構的不同可以分為端到端的單階段方法和引入中間表征的雙階段方法。
1.1 引入中間表征的雙階段人臉視頻生成
為了減輕音視頻之間的跨模態(tài)異質性,一些研究者使用了面部關鍵點或3D變形模型(3DMM)[1]來橋接不同模態(tài)之間的差異。引入中間表征的方法基本框架如圖1所示。以面部關鍵點作為中間表征的方法,首先通過語音信息預測人臉關鍵點,然后以關鍵點驅動人臉視頻合成。作為開創(chuàng)性的工作,Suwajanakorn等人[2]使用單層LSTM學習從音頻到唇部關鍵點的非線性映射,通過該映射獲取與音頻匹配的稀疏唇部區(qū)域紋理,并將其與原始面部圖像融合生成最終視頻。然而,該方法只在特定人物(如美國前總統(tǒng)奧巴馬)的數(shù)據(jù)上訓練,缺乏泛化能力。
ATVGnet[3]是創(chuàng)新的級聯(lián)GAN模型,通過從語音信號中提取高級人臉特征指導說話者人臉視頻幀的生成,但未充分建模跨模態(tài)同步性,導致嘴唇運動與語音不同步的問題。Zhou等人[4]提出的MakeItTalk模型使用音頻轉換網(wǎng)絡將音頻分解為內容信息和身份特征信息,用于預測面部區(qū)域和頭部姿態(tài)的關鍵點位移,以生成富有表現(xiàn)力的說話人臉。但使用稀疏關鍵點表示可能在大角度運動時導致失真。
稠密流場是另一個研究方向,Wang等人[5]借鑒視頻驅動人臉動畫的理念,設計了運動感知遞歸神經網(wǎng)絡用于預測與輸入音頻節(jié)奏相匹配的自然頭部運動,并提出圖像運動場發(fā)生器生成基于關鍵點的密集運動場,確保生成視頻的空間和時間一致性。三維可變形模型(3DMMs)作為一個參數(shù)化模型,將音頻特征投影到3DMM的參數(shù)空間,通過語音預測3D人臉模型的系數(shù),然后構建三維人臉圖像并渲染到2D平面上。
例如,Song等人[6]設計了一個“音頻身份去除網(wǎng)絡”模塊,通過將源音頻映射為與音頻內容相關的參數(shù),提高嘴部動作與音頻的映射精度。Wu等人[7]考慮到人在不同狀態(tài)下具有不同談話風格,提出了一種結合風格參考視頻的方法,使用深度三維重建模型獲取風格參考視頻的風格代碼,將音頻特征與重建的風格代碼連接,以預測程式化的3DMM系數(shù),使生成的視頻能夠表達不同的談話風格以增強多樣性。另一方面,Zhang等人[8]設計了FACIAL GAN模塊,整合語音、語境和個性化信息,借助3D模型與AU(Action Units)注意力圖生成具逼真眨眼動作的視頻。Ji等人[9]提出了情緒視頻畫像,采用交叉重構情感分解技術,將音頻分解為內容和情感嵌入,以實現(xiàn)聲音驅動的情緒控制。盡管這些方法能生成逼真結果,但通常需要特定人員和環(huán)境的重新訓練,因此應用范圍相對有限。總結來說,雙階段方法存在著處理復雜、耗時長等問題。
1.2端到端的單階段人臉視頻生成
單階段的生成方法是指通過端到端的學習策略,無需中間表征,直接從驅動源生成視頻。端到端的方法的基本流程如圖2所示。Speech2Vid[10]是最早探索端到端生成的框架之一,其由四個子網(wǎng)絡組成:音頻編碼器用于提取語音特征,身份編碼器用于從參考圖像中提取身份特征,圖像解碼器則將融合的語音和身份特征合成為圖像。該網(wǎng)絡僅使用L1重建損失進行訓練,使用去模糊模塊作為后處理以提升圖像質量。然而,Speech2Vid沒有考慮生成序列的平滑性。
Chen等人[11]引入視聽相關損失、三流對抗學習損失、特征空間損失和重建損失等四種損失函數(shù),以加強嘴唇與音頻的相關性建模。然而,該模型只生成唇部序列,而非整個人臉區(qū)域。這兩種架構都是基于自編碼器的。為了提高生成性能,研究者開始采用基于生成對抗網(wǎng)絡(GAN)的方法,Chen等人[12]考慮口腔肌肉的局部信息,提出音頻到AU模塊,從語音中預測與語音相關的動作單元(AU),用其驅動整個口腔區(qū)域。AU信息則關注局部肌肉,從而實現(xiàn)音唇一致性。
Prajwal等人[13]采用預訓練的唇同步鑒別器,并結合生成器進行對抗訓練,以實現(xiàn)精確的唇部運動同步。在此基礎上,Park等人[14]引入音頻嘴唇存儲器以存儲唇部運動特征,并在推理過程中檢索以提高同步效果。Zhou等人[15]考慮音頻數(shù)據(jù)的復雜性,采用解耦方法將音頻分解為語音和身份特征,以獲得更高質量的結果。然而,該模型主要關注圖像模態(tài)內部一致性,缺乏對跨模態(tài)一致性的探索,導致生成結果有抖動問題。
近期的研究也涉足于生成帶有頭部動作和面部情緒的說話人臉。Zhou等人[16]提出姿態(tài)可控的視聽系統(tǒng)PC-AVS,引入額外驅動視頻以輔助信息,在潛在空間中定義一個12維姿態(tài)編碼,實現(xiàn)頭部姿態(tài)的可控生成技術。Ji等人[17]采用情緒驅動視頻生成帶情緒的說話人臉。Liang等人[18]同時引入情緒和頭部驅動視頻,通過互補的驅動信息生成具有姿態(tài)和情緒的說話人臉。這些方法雖然自然性增加,但限制了應用范圍。
另外,一些研究受神經輻射場啟發(fā)。Guo等人[19]提出音頻驅動神經輻射場模型,將肖像場景的神經輻射場分解為兩個分支,分頭部和軀干變形進行建模,借助神經渲染技術捕捉微妙面部細節(jié),如牙齒和頭發(fā),比現(xiàn)有GAN方法生成質量更佳。
Ye等人[20]提出一種新方法,采用帶動態(tài)卷積核的全連接卷積網(wǎng)絡,與之前的特征融合方法不同,其從音頻模態(tài)中提取特征,并將這些特征重塑為動態(tài)卷積核,實現(xiàn)跨模態(tài)特征融合,提升真實感和質量。
最近,擴散模型被應用于音頻合成。與GAN相比,擴散模型在訓練中表現(xiàn)出更高的穩(wěn)定性和樣本質量。Shen等人[21]引入條件擴散模型,以半遮擋的源人臉圖像和關鍵點為驅動條件,將生成過程建模為迭代去噪過程。雖然擴散模型的質量良好,但生成時間長,限制實時應用中的適用性。未來研究需繼續(xù)探索更高效的方法加速生成,使得擴散模型能更廣泛應用于實際場景中。
2 數(shù)據(jù)集與評價指標
2.1評價指標
現(xiàn)有的說話人臉生成評估方法可分為定性和定量兩類。在定性評估方面,常使用用戶研究來評估生成內容的視覺感知質量,但這種方法存在無法復制和不穩(wěn)定性的問題。在定量評估方面,主要聚焦于以下特征:身份保持、視覺質量、視聽語義一致性以及自然的自發(fā)運動。這些特征可總結為四大類定量指標,具體如下:
1)身份保持。身份保持在語音驅動說話人臉生成中是一個重要的指標,它關注生成的人臉圖像與源人臉圖像之間的相似性,確保生成結果保持源人臉的身份特征。目前的方法主要通過比較生成的幀與真實圖像之間的嵌入距離來評估身份保持性能。例如,平均內容距離(ACD)使用預訓練的人臉識別特征提取器(如Facenet)來計算人臉圖像的特征表示,然后通過計算生成的人臉圖像與源人臉圖像特征之間的歐式距離或余弦相似度,來衡量兩者之間的身份差異。較小的ACD值表示生成的人臉與源人臉在身份上更為一致。余弦相似度(CSIM)通常用于測量生成的人臉圖像與源人臉圖像之間在ArcFace等嵌入向量空間中的相似度,較高的余弦相似度值表示兩者在嵌入向量空間中更為相似,即生成的人臉圖像與源人臉圖像在身份特征上更為保持一致。
2)視覺質量。視覺質量關注生成人臉的清晰度和真實感,有多種定量方法。結構相似性指數(shù)(SSIM)比較生成圖像與真實幀在像素值、對比度、亮度和結構等方面的相似性,較高的SSIM值表示生成的圖像在這些方面更接近真實圖像。積累概率模糊檢測(CPBD)用于評估圖像的清晰度,較低的CPBD值表示圖像更清晰。Inception Score(IS)從清晰度和高分辨率兩個角度來評估圖像,IS值越高表示生成圖像更具清晰度;而弗雷謝特截取距離(FID)則利用預訓練的Inception-v3網(wǎng)絡的特定層計算兩個特征的平均值和標準差,以評估視覺質量,它在魯棒性、可區(qū)分性和計算效率方面都優(yōu)于IS,較低的FID值表示生成圖像與真實圖像的分布更接近。此外,頻域模糊度測量(FDBM)則基于圖像頻譜來評估頻域模糊度,較低的FDBM表示圖像更清晰。
3)視聽語義一致性。視聽一致性指生成的視頻幀的唇形與音頻信號之間的一致性。LMD用于估算唇形的準確度,以表示唇形的同步性,值越小表示生成的視頻幀的口唇同步越一致。然而,LMD無法捕捉唇部動作的細節(jié)。另一種同步評估指標SyncNet則通過輸入音頻和視覺信號來計算同步誤差。唇讀相似度距離(LRSD)則依賴于讀唇模型,通過比較生成視頻片段與實際視頻片段在各個方面的表現(xiàn)來衡量視聽同步性,越小表示口唇越同步。
4)自然的自發(fā)運動。自然的眨眼運動同樣具有重要意義,可以通過計算平均眨眼時間和頻率來評估眨眼的自然程度。
2.2數(shù)據(jù)集
深度學習技術作為典型的數(shù)據(jù)驅動學習方法,其成功的關鍵在于數(shù)據(jù)集的質量與數(shù)量。近年來,大規(guī)模的視聽數(shù)據(jù)集在推動說話人臉生成領域取得了突破性進展,發(fā)揮了重要作用。這些數(shù)據(jù)集涵蓋了光照條件、身份特征、姿勢等多樣化的視覺內容,為模型提供了豐富的學習材料,使生成的說話人臉更加逼真且魯棒。
這些數(shù)據(jù)集可以分為兩大類:受控環(huán)境(實驗室控制數(shù)據(jù))和非受控環(huán)境(野外環(huán)境數(shù)據(jù))。在2015年之前,視聽數(shù)據(jù)集主要集中于受控環(huán)境。這些數(shù)據(jù)集是在嚴格的實驗室環(huán)境下收集的,通常是志愿者朗讀預定的短語或句子,用于模型訓練。然而,由于這種受控環(huán)境無法涵蓋真實世界的復雜場景,這導致模型在面對現(xiàn)實情況時表現(xiàn)不佳。
為克服這一局限,研究人員開始創(chuàng)建大量的野外數(shù)據(jù)集,從電視采訪、對話到電影等真實場景中收集數(shù)據(jù)。這些野外數(shù)據(jù)集更貼近日常生活,因此使模型具備更好的泛化能力。目前,廣泛使用的數(shù)據(jù)集已被系統(tǒng)整理(如表1所示),為研究人員提供了清晰的概覽,以幫助他們更好地了解和選擇適合的數(shù)據(jù)集。
3 總結與展望
隨著深度學習技術的迅速發(fā)展,說話人臉生成領域涌現(xiàn)出一系列創(chuàng)新方法,不斷提升模型的性能與魯棒性。這些方法的涌現(xiàn)為語音驅動的說話人臉生成技術注入了新的活力。然而,該領域仍面臨一些挑戰(zhàn)與發(fā)展機遇,具體體現(xiàn)在以下幾個方面:
1)提升生成質量和真實感。盡管在生成的說話人臉視頻方面取得了顯著進展,但仍存在視覺和聽覺上的不自然之處。未來的研究應繼續(xù)專注于提高生成內容的逼真度,使生成的人臉動畫更貼近真實,使觀眾體驗更加自然。
2)適應多樣性場景。目前,許多模型在受控環(huán)境下進行訓練,但在真實世界中,光照、背景和姿勢等因素很復雜。未來的研究需要使模型更好地適應不同的場景和環(huán)境,以確保生成的人臉視頻在各種情況下都能保持高質量。
3)跨模態(tài)泛化。在多媒體內容生成中,模型的跨模態(tài)泛化能力變得越來越關鍵。如何讓模型從有限的樣本中學習,并能適應不同模態(tài)的數(shù)據(jù),是未來的重要研究方向。
4)倫理與隱私問題。隨著技術的進步,與人臉生成相關的倫理和隱私問題日益凸顯。未來的研究需要積極探索如何在技術進步和社會倫理之間取得平衡,確保技術應用符合倫理標準并尊重個人隱私。
綜上所述,語音驅動的說話人臉生成技術正在不斷創(chuàng)新突破,朝著更加成熟與實用的方向發(fā)展。這些創(chuàng)新不僅帶來了新的研究可能性,也在廣泛應用場景中展現(xiàn)了巨大的潛力。
參考文獻:
[1] DENG Y, YANG J, XU S, et al. Accurate 3D Face Reconstruction With Weakly-Supervised Learning: From Single Image to Image Set[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2019. Long Beach, CA, USA: IEEE, 2019: 285-295.
[2] SUWAJANAKORN S,SEITZ S M,KEMELMACHER-SHLIZERMAN I.Synthesizing Obama[J].ACM Transactions on Graphics,2017,36(4):1-13.
[3] CHEN L, MADDOX R K, DUAN Z, et al. Hierarchical Cross-Modal Talking Face Generation With Dynamic Pixel-Wise Loss[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019: 7824-7833.
[4] ZHOU Y,HAN X T,SHECHTMAN E,et al.MakeItTalk:speaker-aware talking-head animation[EB/OL].2020:2004.12992.https://arxiv.org/abs/2004.12992v3.
[5] WANG S, LI L, DING Y, et al. Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion[J/OL]. arXiv preprint arXiv:2107.09293,2021[2023-01-23]. http://arxiv.org/abs/2107.09293.
[6] SONG L, WU W, QIAN C, et al. Everybody's Talkin': Let Me Talk as You Want[J/OL]. arXiv preprint arXiv:2001.05201, 2020[2024-04-02]. http://arxiv.org/abs/2001.05201.
[7] WU H Z,JIA J,WANG H Y,et al.Imitating arbitrary talking style for realistic audio-driven talking face synthesis[C]//Proceedings of the 29th ACM International Conference on Multimedia.Virtual Event China.ACM,2021:1478-1486.
[8] ZHANG C X,ZHAO Y F,HUANG Y F,et al.FACIAL:synthesizing dynamic talking face with implicit attribute learning[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).October 10-17,2021,Montreal,QC,Canada.IEEE,2021:3847-3856.
[9] JI X, ZHOU H, WANG K, et al. Audio-Driven Emotional Video Portraits[J/OL].(2023-01-23)[2024-02-10]. http://arxiv.org/abs/2104.07452.
[10] CHUNG J S, JAMALUDIN A, ZISSERMAN A. You said that?[J/OL]. (2022-12-26)[2024-02-10]. http://arxiv.org/abs/1705.02966.
[11] CHEN L, LI Z, MADDOX R K, et al. Lip Movements Generation at a Glance[C]//FERRARI V, HEBERT M, SMINCHISESCU C, et al. Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 538-553.
[12] CHEN S, LIU Z, LIU J, et al. Talking Head Generation with Audio and Speech Related Facial Action Units[J/OL]. (2023-01-27)[2024-02-10]. http://arxiv.org/abs/2110.09951.
[13] PRAJWAL K R,MUKHOPADHYAY R,NAMBOODIRI V P,et al.A lip sync expert is all you need for speech to lip generation in the wild[C]//Proceedings of the 28th ACM International Conference on Multimedia.Seattle WA USA.ACM,2020:484-492.
[14] PARK S J,KIM M,HONG J,et al.SyncTalkFace:talking face generation with precise lip-syncing via audio-lip memory[J].Proceedings of the AAAI Conference on Artificial Intelligence,2022,36(2):2062-2070.
[15] ZHOU H,LIU Y,LIU Z W,et al.Talking face generation by adversarially disentangled audio-visual representation[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33(1):9299-9306.
[16] ZHOU H,SUN Y S,WU W,et al.Pose-controllable talking face generation by implicitly modularized audio-visual representation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 20-25,2021,Nashville,TN,USA.IEEE,2021:4174-4184.
[17] JI X Y,ZHOU H,WANG K,et al.EAMM:one-shot emotional talking face via audio-based emotion-aware motion model[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Proceedings.Vancouver BC Canada.ACM,2022.
[18] LIANG B, PAN Y, GUO Z, et al. Expressive Talking Head Generation with Granular Audio-Visual Control[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022. New Orleans, LA, USA: IEEE, 2022: 3377-3386.
[19] GUO Y D,CHEN K Y,LIANG S,et al.AD-NeRF:audio driven neural radiance fields for talking head synthesis[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).October 10-17,2021,Montreal,QC,Canada.IEEE,2021:5764-5774.
[20] YE Z P,XIA M F,YI R,et al.Audio-driven talking face video generation with dynamic convolution kernels[J].IEEE Transactions on Multimedia,2023,25:2033-2046.
[21] SHEN S, ZHAO W, MENG Z, et al. DiffTalk: Crafting Diffusion Models for Generalized Talking Head Synthesis[J/OL]. arXiv preprint arXiv:2301.03786, 2023[2023-03-09]. Available at: http://arxiv.org/abs/2301.03786.
【通聯(lián)編輯:唐一東】