• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    人臉視頻深度偽造檢測方法綜述

    2023-01-17 09:30:52蘆天亮杜彥輝
    計算機與生活 2023年1期
    關(guān)鍵詞:人臉深度特征

    張 璐,蘆天亮,杜彥輝

    1.中國人民公網(wǎng)絡(luò)安全學(xué)院,北京100038

    2.山東警察學(xué)院偵安大學(xué)信息查系,濟南250200

    2017 年12 月,一個名為“DeepFakes”的Reddit 用戶正式發(fā)布了第一個利用深度神經(jīng)網(wǎng)絡(luò)生成的以好萊塢女星蓋爾·加朵為主人公的偽造色情視頻,這正式標志著人臉視頻深度偽造技術(shù)的興起。單詞“深度偽造”(deepfake)源自“深度學(xué)習(xí)”(deep learning)與“造假”(fake)的組合,這成為利用深度學(xué)習(xí)實現(xiàn)人物換臉、表情編輯等視頻偽造的一系列技術(shù)的統(tǒng)稱,用以躲避識別、混淆視聽、娛樂用戶以及其他目的[1]。近年來深度偽造技術(shù)已經(jīng)逐漸從娛樂領(lǐng)域滲透到了政治、媒體、體育等多個領(lǐng)域。在商業(yè)領(lǐng)域,電影特效、廣告營銷等是深度偽造技術(shù)兩大應(yīng)用方向。在政治領(lǐng)域,深度偽造技術(shù)易帶來負面影響,尤其是在操縱選舉方面極易帶來負面的信任危機。例如2016 年美國大選期間由特朗普支持者所制作的佩洛西的偽造視頻在互聯(lián)網(wǎng)上被大肆傳播;2018 年美國也出現(xiàn)了利用深度偽造視頻偽造前任總統(tǒng)對時任總統(tǒng)進行辱罵的視頻片段[2];近期伴隨著俄烏戰(zhàn)場形勢的發(fā)展,在互聯(lián)網(wǎng)上也出現(xiàn)了俄羅斯總統(tǒng)普京宣布已實現(xiàn)和平,以及烏克蘭總統(tǒng)澤連斯基宣布放下武器的偽造視頻。

    深度偽造的技術(shù)原理簡單,最常用的兩種技術(shù)便是自動編碼器與對抗生成網(wǎng)絡(luò)(generative adversarial network,GAN)。近幾年隨著技術(shù)的發(fā)展,人臉視頻深度偽造的成本與難度越來越低,出現(xiàn)了很多“傻瓜式”“一鍵式”的換臉軟件與應(yīng)用,這進一步使得互聯(lián)網(wǎng)上各類針對人臉的深度偽造視頻數(shù)量激增,顛覆了人們對于“耳聽為虛、眼見為實”觀念的認識。據(jù)統(tǒng)計,當前深度偽造產(chǎn)品泛濫成災(zāi),增長率已超300%,其濫用已對私人權(quán)利、個人名譽甚至是社會穩(wěn)定與國家安全產(chǎn)生威脅,因此對于人臉深度偽造視頻,應(yīng)當掌握一定的檢測方法,以能夠?qū)崿F(xiàn)對絕大多數(shù)的偽造視頻圖像的鑒定分類。

    本文以人臉深度偽造視頻為研究對象,主要針對2019 年以來所公開的人臉視頻深度偽造檢測研究成果在采用特征的角度上進行總結(jié)。

    1 數(shù)據(jù)集

    數(shù)據(jù)集主要用來訓(xùn)練、驗證及評估模型的質(zhì)量與性能表現(xiàn)。與人臉識別、圖像分類等傳統(tǒng)計算機視覺任務(wù)相比,人臉視頻深度偽造檢測任務(wù)是近幾年伴隨著以DeepFake 為代表的圖像/視頻偽造技術(shù)的產(chǎn)生發(fā)展而誕生的,因此深度視頻偽造的數(shù)據(jù)集種類與數(shù)量相對較少。當前使用較為廣泛的人臉深度視頻偽造數(shù)據(jù)集如表1 所示,其中DFDC(deepfake detection challenge)[3]、FaceForensics++[4]、Celeb-DF[5]等均是被廣泛應(yīng)用的數(shù)據(jù)集,但近幾年隨著研究思路的創(chuàng)新,針對不同技術(shù)方法、任務(wù)及特點也出現(xiàn)了許多新的數(shù)據(jù)集。

    表1 人臉視頻深度偽造檢測各類數(shù)據(jù)集Table 1 Datasets of facial deepfake video detection

    (1)UADFV、DF-TIMIT

    UADFV[6]、DF-TIMIT[7]均是人臉視頻深度偽造檢測研究早期所提出的數(shù)據(jù)集,可作為基準測試數(shù)據(jù)集使用。其缺點在于數(shù)據(jù)集規(guī)模較小,偽造技術(shù)較淺,整體質(zhì)量較低,因此檢測難度低,各類基準方法均可取得較高檢測率,無法有效判別模型的可用性。除此之外,DF-TIMIT 數(shù)據(jù)集帶有原始視頻的音軌信息,沒有對音軌信息進行修改,因此可通過音畫不同步對視頻真?zhèn)芜M行檢測,研究意義與價值相對較低。

    (2)FaceForensics++

    為彌補傳統(tǒng)數(shù)據(jù)集偽造質(zhì)量較低、偽造技術(shù)單一的缺點,F(xiàn)aceForensics++數(shù)據(jù)集被提出并被廣泛應(yīng)用。該數(shù)據(jù)集從YouTube 獲取1 000 個原始視頻,并對其分別運用多種篡改技術(shù)生成共5 000 個偽造視頻,且具有三種不同壓縮率(c0,c23,c40)。數(shù)據(jù)集的生成采用了DeepFakes、Face2Face、FaceSwap、Neural Textures 與FaceShifter 五種技術(shù)。其中,F(xiàn)aceSwap 是一種基于圖形的方法,用于將面部區(qū)域從源視頻傳輸?shù)侥繕艘曨l,其利用稀疏檢測到的臉部特征點(landmarks)提取源人物與目標人物的臉部圖像,并在臉部交換之后通過渲染模型與圖像混合進行顏色校正并完成人臉替換;DeepFakes 基于自動編碼器,編碼器提取面部圖像的潛在特征,解碼器重建面部圖像,為了在源圖像和目標圖像之間交換面部,需要兩個編碼器/解碼器對;Face2Face[8]是一種面部重演系統(tǒng),可將源視頻的表情轉(zhuǎn)移到目標視頻,同時保持目標人的身份,是人臉屬性編輯的典型代表;Neural Textures[9]使用原始視頻數(shù)據(jù)來學(xué)習(xí)目標任務(wù)的神經(jīng)紋理,模型只修改與嘴部區(qū)域相對應(yīng)的面部表情,而眼睛區(qū)域保持不變,在模型訓(xùn)練過程中則使用Pix2Pix[10]中的基于補丁的GAN 損失;FaceShifter[11]克服了現(xiàn)有技術(shù)合成交換人臉時僅利用來自目標圖像的有限信息的缺陷,解決交換的人像中可能存在的遮擋問題,提升面部替換逼真度。

    “FaceForensics++”數(shù)據(jù)集特點是數(shù)據(jù)規(guī)模大,偽造技術(shù)種類較多,但是視覺效果較差,視頻面部合成痕跡明顯,因此常被用作模型訓(xùn)練,以進行后續(xù)的庫內(nèi)與跨庫測試。

    (3)Celeb-DF

    鑒于上述各類數(shù)據(jù)集數(shù)據(jù)質(zhì)量參差不齊的現(xiàn)狀,Celeb-DF 數(shù)據(jù)集被提出與應(yīng)用。該數(shù)據(jù)集從YouTube 上采集了59 位名人的590 個真實視頻,視頻考慮到不同的性別、年齡、種族的人群,并使用較為單一的DeepFakes 方式生成5 639 個平均長度為13 s的MPEG4.0 格式的偽造視頻。數(shù)據(jù)集通過提升人臉分辨率,建立偽造視頻與原始視頻中人臉的顏色轉(zhuǎn)換算法,更好地融合偽造區(qū)域與原始區(qū)域的邊界等算法提高數(shù)據(jù)質(zhì)量。

    該數(shù)據(jù)集相較于之前各類數(shù)據(jù)集的整體質(zhì)量較高,可以用于模擬真實環(huán)境中的偽造生成視頻。其缺點是數(shù)據(jù)集整體規(guī)模較小,且正負樣本不平衡,通常在模型的跨庫測試中模擬現(xiàn)實世界中的偽造視頻進行測試,衡量模型的泛化能力。

    (4)DFDC

    當前常用的人臉視頻深度偽造檢測數(shù)據(jù)集普遍存在數(shù)據(jù)規(guī)模較小的問題,基于此現(xiàn)狀,DFDC 數(shù)據(jù)集被提出并應(yīng)用。該數(shù)據(jù)集是目前較大的公開可用的領(lǐng)域內(nèi)數(shù)據(jù)集之一,包含來自3 426 名付費演員的10 萬多個視頻片段,且均統(tǒng)一為10 s 的視頻長度,便于模型的訓(xùn)練,減少預(yù)處理步驟。此外,數(shù)據(jù)集中的偽造視頻通過多種DeepFakes、GAN 和Non-Learned方法生成,考慮了多種生成技術(shù),相較于傳統(tǒng)的UADFV 與DF-TIMIT 等數(shù)據(jù)集具有較高的多樣性。

    該數(shù)據(jù)集中視頻來源為真人拍攝,故相較于其他數(shù)據(jù)集來說視頻內(nèi)容較為生活化,全真實場景,貼近現(xiàn)實。其缺點在于人臉所占部分較小,動作幅度較大時邊界偽影會比較明顯。

    (5)DeeperForensics-1.0[12]

    DeeperForensics-1.0[12]數(shù)據(jù)集共計包括60 000 個視頻數(shù)據(jù),其中真實視頻50 000 個,偽造視頻10 000個,總共1 760 萬幀。數(shù)據(jù)集的生成采用了DF-VAE(deepfake variational auto-encoder)算法,考慮到質(zhì)量逼真、多樣性豐富、數(shù)量充足、視頻有足夠的壓縮模糊等變化要求,其包括結(jié)構(gòu)提取模塊、解耦模塊與融合模塊,并通過光流差異最小化來優(yōu)化時序的連續(xù)性,提高偽造視頻的質(zhì)量。

    數(shù)據(jù)集的偽造生成充分考慮并模擬了現(xiàn)實世界的具體情況,考慮到不同的頭部姿勢、照明條件、臉部表情、相機角度、人物膚色、失真情況等多方面因素。其缺點在于偽造生成過程的方式較為單一,采用“面部識別-臉部交換”的自編碼器模式。

    (6)FFIW

    傳統(tǒng)數(shù)據(jù)集中,每一幀所出現(xiàn)的人臉數(shù)量通常為1,而在現(xiàn)實世界中的偽造視頻卻不受人臉數(shù)量的限制。同一幀畫面中可能會出現(xiàn)多個人臉,并且選擇其中部分或者全部的人臉進行篡改。因此為了增強模型在同一幀畫面中的真?zhèn)伪鎰e能力,Zhou 等人針對多場景下的偽造檢測而建立了FFIW(face forensics in wild)數(shù)據(jù)集[13]。該數(shù)據(jù)集中共包括10 000 個高質(zhì)量的偽造視頻,每幀會出現(xiàn)多張人臉(最少1 張,最多15 張,平均為3 張人臉),其中部分或者全部人臉被篡改偽造,這更能代表真實世界環(huán)境中的偽造情況。數(shù)據(jù)集的生成采用了DeepFaceLab[14]、FSGAN(face swapping generative adversarial networks)[15]、FaceSwap 三種偽造技術(shù)。

    該數(shù)據(jù)集除了視頻級別的標注,還提供了人臉級別的標注,方便模型訓(xùn)練。偽造數(shù)據(jù)的生成基于對抗網(wǎng)絡(luò),節(jié)省人力成本,但是生成算法仍是基于人臉交換,因此數(shù)據(jù)集的難度取決于模型所采用的人臉交換算法。

    (7)KoDF

    當前大部分的數(shù)據(jù)集原始數(shù)據(jù)來源為YouTube截取或真人拍攝,其中絕大部分均為歐美人物主題,亞洲人在其中所占比例極低,數(shù)據(jù)不平衡現(xiàn)象嚴重??紤]到東西方人在臉型、骨形、行為習(xí)慣等方面的不同,Kwon 等人建立了一個基于韓國主題的偽造視頻數(shù)據(jù)集KoDF(Korean deepfake)[16],其是第一個以亞洲人為視頻人物主題的偽造視頻檢測數(shù)據(jù)集。數(shù)據(jù)集共包含403 個人物的175 776 個偽造視頻與62 166 個真實視頻,數(shù)據(jù)集規(guī)模巨大,且利用6 種不同的合成模型生成深度偽造視頻。為了平衡亞洲人在現(xiàn)有的深度造假檢測數(shù)據(jù)庫中所占的比例,KoDF的參與者主要由韓國人組成,視頻的收集考慮到人物的年齡、性別與所在地的分布,且在視頻拍攝過程中引入了攝像機角度、焦距、位置、背景、道具、燈光等方面的細微變化。

    數(shù)據(jù)集的生成采用了FaceSwap、DeepFakeLab[14]、FSGAN[15]、FOMM(first order motion model)[17]、ATFHP(audio-driven talking face head pose)[18]、Wav2Lip[19]六種偽造技術(shù),數(shù)據(jù)質(zhì)量整體較高。其缺點是質(zhì)量差距較大,部分偽造視頻中篡改痕跡明顯,無法有效衡量模型分類能力。

    (8)Vox-DeepFake

    基于身份一致性的檢測方法是人臉視頻深度偽造檢測的重要方法,且取得了較高的準確率,但是該方法依賴于具有大量參照對象的數(shù)據(jù)集,傳統(tǒng)領(lǐng)域內(nèi)數(shù)據(jù)集無法滿足該方法的要求。因此Dong 等人建立了一個包含視頻中所涉及人物的參考視頻的數(shù)據(jù)集Vox-DeepFake[20],用于實現(xiàn)基于身份一致性的視頻偽造檢測。

    Vox-DeepFake 數(shù)據(jù)集是在VoxCeleb 數(shù)據(jù)集基礎(chǔ)上[21]進行建設(shè)的,是當前數(shù)據(jù)規(guī)模最大的數(shù)據(jù)集,包括4 000 個身份和超過100 萬個偽造視頻,平均每個身份對應(yīng)25.2 個獨立的偽造視頻,因此提供了更大的參考多樣性。該數(shù)據(jù)集的缺點是只考慮換臉這一種偽造類型,且數(shù)據(jù)集主要應(yīng)用于“基于身份一致性”檢測方法,雖然檢測準確率較高,但主要針對具有參照視頻的重要人物,故應(yīng)用場景較少。

    (9)WildDeepfake

    當前大部分數(shù)據(jù)集中原始視頻采集來源單一,且視頻中場景單一,與真實世界中豐富多樣的場景不符,在場景種類方面無法模擬真實現(xiàn)實。為克服此問題,Zi 等人建立了WildDeepfake 數(shù)據(jù)集[22],其中真實視頻3 805 個,偽造視頻3 509 個。數(shù)據(jù)集中的視頻內(nèi)容更加多樣化,各種各樣的活動(如廣播、電影、采訪、談話和許多其他),不同的場景、背景、照明條件、壓縮率、分辨率和格式等,更符合真實環(huán)境中的復(fù)雜情況。但該數(shù)據(jù)集整體規(guī)模較小,只能用作模型的測試與驗證,無法有效利用其進行訓(xùn)練以增強模型表現(xiàn)。

    (10)FFPMS

    考慮到偽造視頻中并非所有幀均為篡改幀與部分幀偽造質(zhì)量較低,從而會影響到模型整體學(xué)習(xí)效果的特殊情況,Li 等人提出應(yīng)用多實例學(xué)習(xí)的思想進行視頻真?zhèn)螜z測,并基于該方法構(gòu)建了FFPMS(face forensics plus with mixing samples)數(shù)據(jù)集,實現(xiàn)在幀級和視頻級對不同的檢測方法進行評估[23]。該數(shù)據(jù)集從壓縮率為c40 的FaceForensics++數(shù)據(jù)集的每個視頻中進行抽取,并在視頻中出現(xiàn)多張人臉時隨機對其進行部分或者全部的替換,因此視頻包括幀級與視頻級的數(shù)據(jù)標注。該數(shù)據(jù)集缺點是數(shù)據(jù)量較小,且整體偽造質(zhì)量較低,部分視頻偽造痕跡明顯,無法用來進行有效的模型訓(xùn)練。

    2 基于特征選擇的人臉視頻深度偽造檢測方法

    近幾年伴隨著深度學(xué)習(xí)的發(fā)展,人臉視頻深度偽造的檢測也逐漸擺脫了人工挖掘特征、傳統(tǒng)機器學(xué)習(xí)分類的模式,使用各類深度神經(jīng)網(wǎng)絡(luò)進行檢測鑒定。并在模型訓(xùn)練的過程中,利用多種訓(xùn)練方式不斷提高精確度[24]。同時在特征利用方面,也呈現(xiàn)出選擇范圍廣泛化、關(guān)鍵特征重點化的特點。本章首先總結(jié)了人臉視頻深度偽造檢測方面的難點,然后重點聚焦于近三年在該領(lǐng)域的研究成果,以模型所使用的視頻圖像特征為切入點,如圖1 所示,從空間特征、時空融合特征、生物特征等方面,對在該領(lǐng)域內(nèi)的最新研究進展進行梳理總結(jié),并對這些檢測方式中所呈現(xiàn)出的發(fā)展趨勢進行分類整理,以期為后續(xù)的研究提供方向與借鑒。

    圖1 人臉視頻深度偽造檢測方法分類Fig.1 Classification of facial deepfake video detection methods

    2.1 人臉視頻深度偽造檢測難點

    人臉視頻深度偽造檢測技術(shù)在發(fā)展過程中出現(xiàn)了模型架構(gòu)多樣、特征選擇靈活的特點,但當前的研究成果依然難以達到落地應(yīng)用的標準。該挑戰(zhàn)的難點主要體現(xiàn)在以下幾方面:

    (1)多模態(tài)數(shù)據(jù)的使用

    在本文所介紹的各類常用偽造檢測視頻數(shù)據(jù)集中,大部分均不包括音頻數(shù)據(jù),只保留視覺數(shù)據(jù)。而當前隨著偽造技術(shù)的不斷發(fā)展,單純使用圖像畫面,從空域、頻域、時域等方面提取特征灌入模型進行訓(xùn)練以實現(xiàn)偽造檢測的思路必將越來越呈現(xiàn)出局限性。因此對于多模態(tài)數(shù)據(jù)的使用也是該領(lǐng)域研究的難點之一,體現(xiàn)在如何有效提取多模態(tài)數(shù)據(jù)并將其特征化,以及如何有效融合多模態(tài)數(shù)據(jù)特征實現(xiàn)不同類型特征的相互融合、相互補充。為解決該問題,眾多研究者從音畫特征的提取與訓(xùn)練入手,取得了一定效果。但當前對于人臉視頻深度偽造檢測領(lǐng)域的多模態(tài)數(shù)據(jù)研究,依然處于起步階段,研究人員與成果較少。

    (2)訓(xùn)練數(shù)據(jù)質(zhì)量與數(shù)量不一

    人臉視頻深度偽造檢測常用數(shù)據(jù)集如前文所述,但其數(shù)據(jù)質(zhì)量與數(shù)量不一。模型訓(xùn)練結(jié)果好壞極大程度取決于訓(xùn)練數(shù)據(jù)的規(guī)模與質(zhì)量,因此如何有效利用已有數(shù)據(jù)集也是該領(lǐng)域研究難點之一。為解決該問題,眾多研究者從創(chuàng)建新型數(shù)據(jù)集、采用各類數(shù)據(jù)增強方法等方面進行解決。

    (3)代表性特征提取

    模型泛化能力是人臉視頻深度偽造檢測模型的主要衡量指標,具體體現(xiàn)在模型跨庫測試與跨偽造方法的測試等方面。因此,如何在訓(xùn)練數(shù)據(jù)中提取出不因偽造方法而異的區(qū)分性特征也是制約該領(lǐng)域發(fā)展的重要因素。為解決該問題,研究者從生成對抗、自監(jiān)督、對比學(xué)習(xí)等方法提出了眾多解決方案,并取得了一定成果。

    2.2 基于空間特征的檢測方法

    基于空間特征對人臉深度偽造視頻進行檢測是較為傳統(tǒng)和有效的檢測方法,也是應(yīng)用較廣的特征選擇方法,其是指在視頻分解為幀的基礎(chǔ)上,以每一個圖像/幀為對象,在空域、頻域等方面所進行的檢測。因此,基于空間特征的檢測方法適用于幾乎全部的當前深度偽造視頻數(shù)據(jù)集,將偽造視頻的檢測任務(wù)轉(zhuǎn)化為針對每一幀圖像的分類任務(wù),屬于經(jīng)典的人臉分類任務(wù)范疇?;诳臻g特征的檢測方法的優(yōu)點在于簡單有效,因為偽造視頻勢必會對原始圖像的空域、頻域分布產(chǎn)生擾動,所以研究提取這種局部與整體的不一致性便可作為模型訓(xùn)練與判別的特征。然而,由于每一幀的偽造是獨立的,故在偽造當前幀時無法考慮到之前已偽造幀的情況,因此與真實視頻相鄰幀之間的連續(xù)性、關(guān)聯(lián)性相比,偽造視頻幀與幀之間存在著時空上的不連續(xù)性,而基于空間特征的檢測方法卻忽略了時序上的特征提取,導(dǎo)致特征提取的遺漏。同時,對于壓縮率較高的數(shù)據(jù)集,由于其圖像的空域、頻域特征被壓縮處理,故基于空間特征的檢測方法效果較差。

    基于空間特征的檢測,根據(jù)所利用的具體特征不同,可以分為基于圖像空間域的檢測、基于圖像頻率域的檢測和基于圖像上下文空間的檢測等。其中,基于圖像空間域的檢測是以圖像/視頻幀的像素域為主要對象,通過各類卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的卷積、池化等操作所提取特征進行檢測的方法;基于圖像頻率域的檢測,是指圖像/視頻幀的空間頻率,是將圖像看作二維平面的信號,以對應(yīng)像素的灰度值(彩色圖像對應(yīng)RGB 三個分量)作為信號的幅值,其反映了圖像的像素灰度在空間中的變化情況;基于圖像上下文空間的檢測,與前兩者聚焦于完整圖像不同,更加關(guān)注圖像/視頻幀內(nèi)人臉及其他部分(即上下文)之間在空間上的區(qū)別聯(lián)系,以其作為特征進行學(xué)習(xí)與分類。

    2.2.1 基于圖像空間域的檢測方法

    基于圖像空間域的檢測方法是較為傳統(tǒng)且有效的檢測方法。研究結(jié)果顯示,直接將視頻應(yīng)用于CNN 及其各類變種網(wǎng)絡(luò)中,并結(jié)合一定的注意力模塊,便能取得較好的效果[13,25-37]。

    朱新同等人[38]提取并融合YCbCr 與RGB 特征,使用Scharr 算子提取YCbCr 色彩空間中Cb 和Cr 分量的圖像邊緣信息,利用拉普拉斯算子(Laplacian)提取RGB 色彩空間中G 分量的圖像邊緣二階梯度信息,并用EfficientNet-B0 進行分類。Nataraj 等人[39]提取了視頻幀中像素級別的共現(xiàn)矩陣,并使用CNN 進行視頻真?zhèn)蔚臋z測。Coccomini等人[33]將原始視頻幀應(yīng)用于EfficientNet[40]和ViT(vision transformer)及Cross-ViT[41]上,也取得了當前DFDC 任務(wù)的Benchmark,進一步表明了直接利用圖像空間域特征進行偽造檢測的簡單有效性。

    由于深度偽造視頻中的人臉與真實人臉圖像十分相似,而普通卷積在提取人臉面部特征時獲得的卷積特征圖過于單一,無法為模型后續(xù)檢測工作提供有效依據(jù)。針對此問題,暴雨軒等人[34]在ResNet網(wǎng)絡(luò)中引入分組卷積提取豐富特征,并在下采樣過程中引入最大池化以強化關(guān)鍵特征,同時引入注意力通道為每個特征圖分配不同權(quán)重,最后通過數(shù)據(jù)增強策略豐富數(shù)據(jù)集,并迫使模型學(xué)習(xí)到更豐富的特征表示。

    傳統(tǒng)CNN 網(wǎng)絡(luò)進行分類時對于圖像平移、扭曲、旋轉(zhuǎn)等操作具有較高敏感性,容易帶來誤差從而影響后續(xù)模型分類。為克服此問題,Nguyen 等人[35]將膠囊網(wǎng)絡(luò)應(yīng)用于偽造視頻的檢測任務(wù)中,首先使用VGG-19 進行圖像特征的提取,再將其灌入膠囊網(wǎng)絡(luò)中。基于動態(tài)路由的膠囊網(wǎng)絡(luò)的使用不僅可以有效避免圖像平移、扭曲、旋轉(zhuǎn)而帶來的誤差,同時能夠使用更少的訓(xùn)練數(shù)據(jù)最大化地學(xué)習(xí)到有效信息。但是該模型無法避免膠囊網(wǎng)絡(luò)訓(xùn)練速度慢、效率低的問題,因此也無法完全取代卷積神經(jīng)網(wǎng)絡(luò)進行人臉視頻深度偽造檢測。

    前人工作主要是針對整幅圖像的空間域特征進行廣度提取,而不同區(qū)域中特征的重要程度與貢獻度是不同的,因此會導(dǎo)致模型無法有效挖掘出局部的、具有區(qū)分性的分類特征。針對此問題,Zhao 等人[42]將人臉視頻深度偽造檢測表述為細粒度分類問題進行研究。如圖2 所示[42],提出基于多注意力頭的檢測網(wǎng)絡(luò)。該網(wǎng)絡(luò)提出區(qū)域獨立性損失作為損失函數(shù),并通過多注意力頭迫使網(wǎng)絡(luò)注意到不同的局部特征,通過紋理特征增強塊放大淺層特征中的細微假象,并在注意力圖的指導(dǎo)下使用雙線性池化聚合低層次的紋理特征和高層次的語義特征。類似的,為了增強圖像偽造痕跡,抑制原始信息,Guo 等人[43]針對GAN 生成的偽造視頻提出了預(yù)處理模塊,利用多層的殘差結(jié)構(gòu)對圖像進行卷積后作差,以突出和增強偽造痕跡。

    圖2 多注意力頭的深度偽造檢測Fig.2 Multi-attention head deepfake detection

    對圖像空間域進行分解與組合也是有效利用空間域特征的方法。Zhou等人[44]提出了融合人臉圖像原始特征與基于塊級別隱藏特征的雙流網(wǎng)絡(luò),在圖像空間域特征基礎(chǔ)上結(jié)合了色彩濾波陣列(color filter array,CFA)、局部噪聲殘差這樣的低級別相機特征,共同進行訓(xùn)練與分類。Zhu 等人[45]引入人臉的3D 重建中的信息作為原始空間域特征的補充,模型在庫內(nèi)檢測取得了較好效果。但該方法只選擇了重建后人臉的部分組成成分,因此涉及到部分圖像特征被丟棄,并且對于無法進行重建的人臉圖像不能進行訓(xùn)練和預(yù)測的情況。

    由于單純基于圖像空域的偽造檢測方法聚焦于單幀圖像中的偽造痕跡提取,而不同偽造技術(shù)所對應(yīng)的偽造痕跡特點不同,因此模型在泛化能力測試上表現(xiàn)較差。為增強模型跨庫測試的能力,Liu等人[46]聚焦于增強模型魯棒性,在挖掘空域特征之前,將原始圖像劃分為若干相同大小的塊,并隨機進行塊內(nèi)的像素打亂和塊間的位置打亂,迫使模型挖掘更具有區(qū)分特性的偽造痕跡。但是該方法只是采用數(shù)據(jù)增強的思路提高模型魯棒性,未能深度挖掘不同偽造技術(shù)的區(qū)別與共性,因此泛化能力提升有限。針對此問題,Chen 等人[47]采用對抗網(wǎng)絡(luò)同時訓(xùn)練生成器與判別器,并用訓(xùn)練的判別器進行測試。其創(chuàng)新點在于生成器在偽造之前隨機生成偽造配置,包括偽造區(qū)域、融合類型與融合比例,判別器在預(yù)測視頻真?zhèn)蔚耐瑫r需要預(yù)測出對應(yīng)的偽造配置,以此提高判別器對于不同偽造技術(shù)的泛化能力,在跨庫測試中取得80%的準確率。類似的,Zhao 等人[48]也利用自監(jiān)督學(xué)習(xí)策略,生成像素級別的標簽數(shù)據(jù),并認為經(jīng)過偽造生成過程后的視頻圖像保留了不同源的特征,通過檢測圖像中像素之間的不一致性便可以判斷視頻真?zhèn)?,因為真實視頻圖像的局部之間是具有一致性的。該模型在跨庫測試中取得超過90%的準確率,是利用空間域特征進行人臉視頻深度偽造檢測研究中泛化能力最好的模型之一。但是該模型只能鑒定面部編輯的偽造視頻圖像,對于利用GAN網(wǎng)絡(luò)直接生成全偽造圖像無法進行鑒定與檢測。

    2.2.2 基于圖像頻率域的檢測方法

    基于圖像頻率域的檢測方法在近幾年研究論文中出現(xiàn)的頻率不高,主要集中在挖掘圖像頻率信號中的高頻信號、相位譜等,利用頻域特征或者頻域與空域的融合特征進行人臉深度偽造視頻檢測[49-52],具體體現(xiàn)在以下幾方面。

    目前基于空間域的檢測方法傾向于過度擬合到某種造假算法所特有的紋理模式,因而缺乏泛化能力。當前的偽造生成模型在偽造過程中都必須經(jīng)過上采樣過程,而上采樣之后圖像的頻域上和自然圖像會出現(xiàn)明顯的差異[53]。在圖像頻率域,高頻信號祛除了顏色紋理,比低頻信號更能夠有效地區(qū)分真實與偽造視頻[54]。因此,Li 等人[55]提出了自適應(yīng)頻率特征生成模塊以挖掘頻率信息,通過離散余弦變換(discrete cosine transform,DCT)將視頻幀的各個通道的高頻與低頻信號進行分離后重新組合,再通過卷積與線性池化操作有效提取頻率特征。同時,為了更好地挖掘偽造視頻與真實視頻之間的差異,文章還提出了單中心損失(single-center loss,SCL)作為損失函數(shù)輔助訓(xùn)練,以更好地聚焦類內(nèi)差異,而拉大類間差異。Liu 等人[56]同樣也是利用上采樣過程中頻域的變化,但認為真實視頻與偽造視頻頻域中的相位譜較于幅度譜變化更加明顯,更應(yīng)當在模型學(xué)習(xí)中有重點的偏向和傾斜。

    以上方法主要利用圖像頻率域特征進行深度偽造視頻檢測,卻忽略了原始空域特征的像素特征,因此將頻域與空域特征結(jié)合能夠有效彌補兩者不足,在庫內(nèi)與跨庫檢測中均取得較使用單一特征時更高的準確率。Wang 等人[57]則提出結(jié)合頻域與空域的多模態(tài)方式,挖掘圖像中不因偽造技術(shù)不同而變化的具有魯棒性的偽造痕跡。Chen 等人[58]將原始的圖像/視頻幀劃分為若干區(qū)域,考慮到真實區(qū)域之間差異較小、真實區(qū)域與偽造區(qū)域之間差距較大的特點,在將原始圖像劃分為若干區(qū)域的基礎(chǔ)上,從頻域特征與空域特征兩方面計算兩兩區(qū)域之間的差異,以判斷視頻真?zhèn)巍?/p>

    2.2.3 基于圖像上下文空間的檢測方法

    當前主流的生成人臉深度偽造視頻的方法是利用生成對抗網(wǎng)絡(luò)與自動編碼器,其中前者更傾向于完全“從無到有”地創(chuàng)造出一個人的視頻,后者傾向于在已有的真實的視頻基礎(chǔ)上,通過人臉識別與局部替換等步驟,生成面部替換或人臉屬性編輯的偽造視頻。而此類偽造視頻,只是對于圖像/視頻幀中的人臉部分(或僅僅其中的局部)進行篡改,而畫面中的其他部位(如人的軀干、圖片背景)是不做更改的。因為被篡改和未被篡改的區(qū)域之間在理論上存在著必然的不同,所以利用這種不同進行人臉視頻深度偽造的檢測(即基于圖像上下文空間的檢測方法)也是近幾年提出的重要方法。

    Li 等人[59]較早地提出利用上下文進行偽造檢測的思想。當前的偽造技術(shù)在實現(xiàn)細節(jié)上具有不同,所偽造的結(jié)果在特征表現(xiàn)上也是不同的,因此為了提高模型的泛化能力,應(yīng)當聚焦于所有技術(shù)的共同點。文章觀察到絕大多數(shù)的視頻偽造算法都是把目標人物的臉裁剪下來,經(jīng)過編輯后放到源人物的臉上,因此會有融合過程。既然要融合,就會有邊界,邊界的檢測就可以作為判斷視頻真?zhèn)蔚臉藴?。同時,因為此方法只關(guān)注融合邊界,所以并不需要打好標簽的真?zhèn)我曨l對作為訓(xùn)練數(shù)據(jù),解決了數(shù)據(jù)量的問題。

    如果在偽造過程中沒有使用融合技術(shù),上述模型就無法進行檢測,并且該方法受圖像噪聲的影響很大,這意味著沒有學(xué)習(xí)到人臉偽造檢測的內(nèi)在特征,檢測效果不穩(wěn)定。為克服此問題,Nirkin 等人[60]則在VGGFace2 數(shù)據(jù)集上預(yù)訓(xùn)練兩個視覺網(wǎng)絡(luò),分別對應(yīng)數(shù)據(jù)集中圖像/視頻幀中的人臉部位和扣除上下文背景信息部分,兩個網(wǎng)絡(luò)模型的輸出作差便是人臉與上下文之間的差異信息。如圖3 所示[60],配合第三個視覺網(wǎng)絡(luò),以待檢測的真?zhèn)我曨l為訓(xùn)練數(shù)據(jù),將三個網(wǎng)絡(luò)的輸出進行融合用作最后的分類。

    圖3 基于人臉及其上下文的深度偽造檢測Fig.3 Deepfake detection based on face and context

    2.2.4 基于空間特征檢測技術(shù)測評結(jié)果

    在人臉視頻深度偽造檢測方面,常用的指標是ACC 與AUC。其中,ACC(accuracy)為準確率,通過計算正確預(yù)測數(shù)量占全部測試集數(shù)量的比值獲得;AUC(area under curve)為ROC 曲線所圍出圖形的面積。ROC(receiver operating characteristic curve)全稱為受試者工作特征曲線,它是根據(jù)一系列不同的二分類方式(通常為閾值),以真陽性率為縱坐標,假陽性率為橫坐標繪制的曲線。AUC 指數(shù)通過計算ROC 所圍圖形的面積來衡量分類器學(xué)習(xí)與分類效果優(yōu)劣。

    上文主要介紹了利用空間特征實現(xiàn)人臉視頻深度偽造檢測的各項技術(shù)方法,其中部分算法在數(shù)據(jù)集上測評結(jié)果如表2 所示(所列數(shù)據(jù)均為測試時的最好結(jié)果)。

    表2 基于空間特征的深度偽造檢測技術(shù)測評結(jié)果Table 2 Test result of deepfake detection technologies based on spatial features

    2.3 基于時空融合特征的檢測方法

    視頻本質(zhì)便是幀的快速切換。因此相鄰幀之間在背景、人物動作上是具有聯(lián)系的。而在人臉視頻深度偽造的過程中,首先將原始視頻分隔成幀,再對每一幀分別進行處理和偽造,最后再進行壓縮編碼,生成偽造后的視頻。與基于空間特征的檢測方法相對應(yīng)的,基于時空融合特征的檢測方法綜合了空間與時間兩個維度的不一致性,因此適用于幾乎全部的當前深度偽造視頻數(shù)據(jù)集。其優(yōu)點主要體現(xiàn)在幀間特征的提取彌補了單純利用圖像空間特征所帶來的特征缺失問題,在高壓縮的數(shù)據(jù)集上的表現(xiàn)也稍好于后者。

    基于時空融合特征的檢測方法,根據(jù)所采用的模型結(jié)構(gòu)與原理不同,可以分為基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的時空融合特征檢測、基于卷積的時空融合特征檢測、基于像素位移的時空融合特征檢測。其中,基于RNN 的時空融合特征檢測主要依賴RNN(LSTM、GRU)挖掘幀與幀之間的連續(xù)性關(guān)系;基于卷積的時空融合特征檢測通過精心設(shè)計的不同大小卷積核,挖掘時間上的連續(xù)性;基于像素位移的時空融合特征檢測,是通過像素在時間域上的變化以及相鄰幀之間的相關(guān)性來找到上一幀跟當前幀之間存在的對應(yīng)關(guān)系,即光流法。

    2.3.1 基于RNN 的時空融合特征檢測方法

    循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在自然語言處理中經(jīng)常被用來提取上下文之間的語義聯(lián)系,在視頻處理領(lǐng)域,也可用來挖掘相鄰幀之間的相關(guān)性。近幾年利用時空融合特征檢測人臉深度偽造視頻的工作中,基于RNN 的時空融合特征檢測占據(jù)較大比例。

    如圖4 所示,Sabir 等人[62]直接將CNN 與RNN 進行組合得到較好的檢測效果,首先利用CNN 進行每一圖像/視頻幀的特征提取,再使用RNN 挖掘相鄰幀之間的時序關(guān)系。這也成為基于RNN 的時空融合特征檢測方法的基本思路[63-64]。在此基礎(chǔ)上,Chintha 等人[65]使用Xception[66]和Bi-LSTM 取代之前的CNN 和RNN,并在交叉熵損失基礎(chǔ)上增加KL 散度損失以提高檢測準確率。Fei 等人[67]發(fā)現(xiàn)人臉運動的振幅在視頻中首先被放大,虛假視頻會比原始視頻表現(xiàn)出更嚴重的失真或閃爍,因此首先使用運動增強放大人臉的面部運動,然后用InceptionV3 提取每一幀的特征,最后結(jié)合LSTM(long short-term memory)提取時序信息。Wu 等人[68]則進一步在空間與時間特征基礎(chǔ)上,增加了圖像的隱寫分析特征,檢測隱藏的被篡改的痕跡,如圖像像素的異常統(tǒng)計特征等。

    圖4 基于CNN 與RNN 的深度偽造檢測Fig.4 Deepfake detection based on CNN and RNN

    上述解決方案簡單且經(jīng)典,但是并沒有結(jié)合深度偽造視頻的獨有特點,并不是專門為實現(xiàn)人臉深度偽造視頻檢測而設(shè)計的模型,因此在庫內(nèi)及跨庫檢測中并沒有體現(xiàn)出太高的準確率。結(jié)合深度偽造視頻所特有的視頻幀之間的不連續(xù)性,很多研究提出了各自的解決方案。Amerini 等人[69]從偽造視頻的生成階段入手,認為視頻在偽造的最后階段對每一幀進行壓縮編碼時,在生成I 幀、B 幀、P 幀的過程中帶來預(yù)測誤差,可以以幀間的預(yù)測誤差作為特征輸入,經(jīng)過CNN 的特征提取與LSTM 的時序提取,最終進行分類。

    Masi 等人[70]提出一種雙流網(wǎng)絡(luò),一路走普通的RGB,一路采用LoG 算子處理后的圖像,用于抑制RGB 圖像的內(nèi)容信息,提取高頻信號。兩個分支均使用DenseNet 結(jié)構(gòu),之后使用融合模塊將兩路融合,并經(jīng)過LSTM 抽取幀間的信息最后進行分類。另外,提出基于one-class-classification 的損失函數(shù),讓正樣本拉近,同時推開負樣本。

    Montserrat 等人[71]為了增強模型的泛化能力,同時考慮每一幀的圖像內(nèi)容及偽造質(zhì)量問題。每一幀在模型最終判斷視頻是否偽造的過程中所起到的作用是不同的,因此提出了自動臉部權(quán)重(automatic face weighting,AFW),通過自動加權(quán),在預(yù)測時強調(diào)哪些是重要的,哪些是不重要的。如圖5 所示[71],模型使用EfficientNet 提取幀的特征,并通過全連接層獲取預(yù)測的邏輯概率與權(quán)重,最后連同特征本身一同輸入GRU(gated recurrent unit)中提取時序特征,完成最后的分類。

    圖5 基于自動權(quán)重分配的深度偽造檢測Fig.5 Deepfake detection based on automatic face weighting

    2.3.2 基于卷積的時空融合特征檢測方法

    與利用RNN 提取時序特征不同,基于卷積的時空融合特征檢測更加依賴于卷積核的設(shè)計。通常的方法是對圖像/視頻幀的卷積核的時間維度進行設(shè)計,以提取幀間的連續(xù)性與相關(guān)性等特征。

    邢豪等人[72]使用MTCNN(multi-task cascaded convolutional network)檢測出視頻中每一幀的人臉圖像,并將64 個相鄰幀組成一組輸入灌入到3D 卷積網(wǎng)絡(luò)中,以充分利用時間與空間特征時序特征。在此過程中,為迫使模型更好地關(guān)注臉部細節(jié),也可在數(shù)據(jù)經(jīng)過每一層卷積網(wǎng)絡(luò)時結(jié)合注意力圖,以更有針對性地提取特征[13]。但是此方法雖然使用3D 卷積,但依然更多地依賴空間上的特征,而對時間特征關(guān)注力度不夠,這也是直接利用3DCNN 進行時序提取的普遍問題[73]。

    為克服此問題,Zheng 等人[74]進一步提出利用視頻不連續(xù)性實現(xiàn)深度偽造視頻檢測。首先,針對相鄰幀之間的不連續(xù)性,如表3 所示,卷積核的時間維度進行手動設(shè)置,并將卷積核的長寬維度設(shè)置為1,使之能夠在時間維度上充分挖掘特征,而不過多進行空間卷積。另外,考慮到某些情況下,視頻幀間的不連續(xù)性并非出現(xiàn)在相鄰幀,而是出現(xiàn)在相隔若干幀的兩幀之間,因此選擇使用將上一步驟中提取出來的特征信息灌入Transformer 中以捕捉長距離的不連續(xù)性。

    表3 模型參數(shù)設(shè)置Table 3 Model parameter settings

    Li 等人[23]采用多實例學(xué)習(xí)的思想。在傳統(tǒng)多實例學(xué)習(xí)中,實例與實例間是相互獨立的,但由于DeepFakes 是單幀篡改的,導(dǎo)致同一人臉在相鄰幀上會有一些抖動。于是,文章設(shè)計了時空實例,用來刻畫幀間一致性,輔助DeepFakes 檢測。具體而言,研究人員使用文本分類里常用的1-d卷積,使用不同大小的核對輸入的人臉序列從多視角進行編碼,從而得到時空實例,用于最終檢測。

    Gu 等人[75]進一步從局部的角度上時空上挖掘不一致,提出時空不一致學(xué)習(xí)(spatial-temporal inconsistency learning,STIL)模塊。該模塊可以嵌入任何的主干網(wǎng)絡(luò)中輔助進行特征提取,創(chuàng)新地提出了在挖掘時間不一致時,除了利用卷積核在水平方向提取幀間不一致之外,也在垂直角度上挖掘時間特征,并將提取到的時間與空間特征進行拼接作為最終的分類特征。但是該方法對幀采取了稀疏采樣策略,并且采樣幀的間隔可能太大而無法捕捉到由細微運動引起的不一致。

    為了克服上述問題,基于片段不一致(snippets inconsistency module,SIM)的方法被提出[76]。首先,將原始視頻分為若干片段,各片段都由相同數(shù)量的相鄰幀組成;然后,針對片段內(nèi)部的不一致,分別從正反兩方向計算水平與垂直時序特征;緊接著,對于片段之間的不一致,分別從正反兩方向作差以表示前后片段之間不一致;最后,分別將片段內(nèi)與片段間整合為統(tǒng)一的模塊,嵌入到已有的主干網(wǎng)絡(luò)中輔助特征提取并進行最后的分類。該模型在跨庫測試中取得了接近80%的準確率。

    2.3.3 基于像素位移的時空融合特征檢測方法

    基于像素位移即光流法(optical flow)。光流是空間運動物體在觀察成像平面上像素運動的瞬時速度。光流法是利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關(guān)性來找到上一幀跟當前幀之間存在的對應(yīng)關(guān)系,從而計算出相鄰幀之間物體的運動信息的一種方法。通常將二維圖像平面特定坐標點上的灰度瞬時變化率定義為光流矢量。

    Amerini 等人[77]優(yōu)先提出利用像素位移即光流法進行人臉視頻深度偽造的檢測。真實視頻與偽造視頻在所形成的光流的大小、方向、分布等方面存在差異,而這個差異可以被CNN 獲取與分析。文章首先使用PWC-Net(pyramid,warping,and cost volume CNN-Net)[78]提取視頻的光流特征,然后分別結(jié)合預(yù)訓(xùn)練的VGG16 和ResNet50 捕獲光流差異,最后接入全連接層和Sigmoid 進行最后的二分類。模型在常見的DeepFakes、Face2Face、FaceSwap 的數(shù)據(jù)集上進行訓(xùn)練和測試,兩種卷積網(wǎng)絡(luò)分別取得了81.61%和75.46%的準確率。

    Chintha 等人[79]在前人利用光流法進行檢測的基礎(chǔ)上,進一步利用OpenCV 的Canny 邊緣檢測方法獲取每一幀的邊緣信息以更加豐富特征表達,形成圖像的“邊-流特征圖”。再與圖像的原始RGB 以不同方式進行融合,共同形成輸入模型的最終特征組合。根據(jù)融合方式不同選擇不同的Xception 結(jié)構(gòu),并接入Bi-LSTM 網(wǎng)絡(luò)挖掘幀間的關(guān)聯(lián)性與相關(guān)性,最后使用全連接與Sigmoid 進行二分類。文章主要在常用的FaceForensics++、DFDC 等數(shù)據(jù)集上進行訓(xùn)練、驗證與測試,訓(xùn)練與測試使用相同數(shù)據(jù)集時平均準確率最高達到97.94%,使用不同數(shù)據(jù)集時最高達到81.29%,表示了模型具有一定的泛化能力。

    2.3.4 基于時空特征融合技術(shù)測評結(jié)果

    上文主要介紹了利用空間與時間特征融合實現(xiàn)人臉視頻深度偽造檢測的各項技術(shù)方法,其中部分算法在數(shù)據(jù)集上測評結(jié)果如表4 所示(所列數(shù)據(jù)均為測試時的最好結(jié)果)。

    表4 基于時空特征融合的深度偽造檢測技術(shù)測評結(jié)果Table 4 Test result of deepfake detection technologies based on spatial-temporal fusion features

    2.4 基于生物特征的檢測方法

    人臉視頻深度偽造歸根結(jié)底是對人臉的偽造,作為偽造者來說,偽造的目的便是通過人臉的局部編輯、直接替換或者完整生成,以實現(xiàn)將目標人物人臉與源人物身份的縫合。偽造視頻是對人身份的更改,因此從本質(zhì)上來說,對人臉視頻深度偽造檢測的最有效方法是對視頻中所出現(xiàn)的人的身份進行檢測。前文所介紹的對于圖片或視頻的空間、時間、頻率、像素等方面的檢測只是對于載體的檢測,而基于生物特征的檢測則是基于人的,是不以偽造技術(shù)、承載介質(zhì)不同而出現(xiàn)不同的?;谏锾卣鞯臋z測主要依賴于兩個假設(shè):一是不同身份的人所表現(xiàn)出來的行為方式、說話習(xí)慣等是不同的,因此可以作為鑒定視頻中所出現(xiàn)人物是否符合其所表現(xiàn)出來的身份的標準;二是真實的人與計算機生成和偽造的人相比,在行為表現(xiàn)上是不同的。真實的人是更具有生理特征的,例如眨眼頻率、神態(tài)情感等。但是基于生物特征的檢測方法卻依賴于底層的圖像處理技術(shù),尤其是對圖像或視頻的空間處理與識別技術(shù),如表情識別[80]、身份識別等[81]?;谏锾卣鞯臋z測方法適用于大多數(shù)的深度偽造視頻數(shù)據(jù)集,對于視頻壓縮率、是否包含音頻等方面有一定的要求。該方法的優(yōu)點在于脫離視頻載體,從“人”的角度判別視頻中人物對象的身份真?zhèn)?,取得目前最高的跨庫測試準確率;缺點在于該方法對數(shù)據(jù)集的要求相較于其他檢測方法較高,泛化測試效果較好的檢測方法均采用了輔助的外部數(shù)據(jù)集,主要用于對重要人物的偽造視頻檢測,應(yīng)用場景較窄。

    基于生物特征的檢測方法根據(jù)具體使用的側(cè)重點不同,可以分為基于身份一致性的檢測、基于面部關(guān)鍵部位識別的檢測、基于音畫特征的偽造檢測。其中,基于身份一致性的檢測主要針對以重要人物或關(guān)鍵性人物為代表的具有大量該對象真實視頻為參考的一類人群;基于人物生理信號的檢測則是通過對圖像/視頻中所出現(xiàn)人物的面部(或整個頭部)的行為、神態(tài)等進行識別分析,以判斷是否是真實的人;基于音畫特征的偽造檢測方法則是以待檢測視頻為研究對象,對聲音與畫面在同步性、匹配性上進行關(guān)聯(lián)關(guān)系分析,以判斷是真實視頻或是偽造視頻。

    2.4.1 基于身份一致性的檢測方法

    基于身份一致性的檢測可以解釋為“比較、對比”,通過對照參考集來判斷檢測集的真實性。此類方法的可靠性較高,但是應(yīng)用范圍相對較窄,應(yīng)用的限制也較多,因此適合應(yīng)用在涉及重要人物的視頻的真實性檢測上。

    美國加州大學(xué)伯克利分校Hany Farid 教授團隊的Agarwal 等人[82]對此類檢測方式進行了較深的研究。文獻[82]認為針對重要政治人物的深度偽造視頻會對社會問題、國家安全造成不可估計的重大損失,因此針對重要人物專門建立了一套鑒定涉及其視頻是否偽造的檢測方法。文章對幾位重要人物在公開場合的真實視頻展開分析,并對不同人在講話過程中的面部和頭部運動進行降維后發(fā)現(xiàn)具有明顯的區(qū)分特性,因此可以認定頭部與面部動作可以作為視頻中身份一致性檢測的依據(jù)。文章首先對視頻中人臉進行識別,并通過關(guān)鍵點(運動單元)從臉部提取20 個運動肌肉并對其動作進行建模;通過皮爾森相關(guān)性找出最相關(guān)的190 組特征向量,并將其作為最終特征用于模型的學(xué)習(xí)與分類。此類方法雖然檢測效果較好,但是需要人工提取相關(guān)行為動作特征,并通過相關(guān)性分析確定與最終分類最相關(guān)的特征組合,效率較低,同時此模型的泛化能力較差。但是,此類方法的特點在于“定制性”,由于分類的高準確率,可將其應(yīng)用于對重要商業(yè)人物與政治人物的保護上。

    上述方法在特征挖掘時只利用到視頻中人物的動態(tài)特征,而忽略掉靜態(tài)特征,因此在特征選擇上勢必會丟掉一些有區(qū)別性的特征。為克服此問題,Agarwal等人[83]除了利用視頻中人物的動態(tài)特征之外,也進一步以基于面部識別的靜態(tài)生物特征進行特征補充。其中靜態(tài)特征由VGG 提取,動態(tài)行為特征由FAb-Net(facial attributes-net)[84]提取,以兩者作為與參照集的比對標準進行視頻偽造的鑒定,實現(xiàn)了能夠在4 s 的視頻中判斷出視頻的真?zhèn)巍?/p>

    為了克服上述方法需要人工提取特征所帶來的效率低下問題,Cozzolino 等人[85]提出時序ID 網(wǎng)絡(luò)用來比較待檢測視頻人物與該對象的真實對照視頻之間的相似度。訓(xùn)練過程如圖6 所示[67],首先對視頻中的每一幀提取出面部特征,并通過3D 模型將其映射成低維表示,然后使用時序ID 網(wǎng)絡(luò)比較輸入特征之間相似度,同時也作為判別器來與3DMM 生成網(wǎng)絡(luò)進行對抗學(xué)習(xí)。3DMM 生成網(wǎng)絡(luò)的作用是生成類似于經(jīng)過DeepFake 篡改過的視頻,通過對抗學(xué)習(xí)使得時序ID 網(wǎng)絡(luò)能夠?qū)W到有效區(qū)分的臉部特征。測試階段如圖7 所示[67],將時序ID 網(wǎng)絡(luò)用作待測視頻與對照參考視頻的比較器,輸出最終的分類結(jié)果。文章選擇VoxCeleb2數(shù)據(jù)集進行訓(xùn)練,將其中的5 120個視頻作為訓(xùn)練集,512 個作為驗證集。每個Batch 包括64個96 幀的視頻,其中的64 個視頻又分別是8 個人的8段視頻。測試集選擇為DFD(deepfake dataset)數(shù)據(jù)集,準確率達84.8%。

    圖6 訓(xùn)練過程Fig.6 Training process

    圖7 測試階段Fig.7 Testing process

    Dong 等人[86]提出利用人臉內(nèi)部區(qū)域與外部區(qū)域的對比作為檢測特征,結(jié)合外部參照集進行身份一致性檢測。首先,將兩組真實圖像利用X-Ray[59]的方法分別交換內(nèi)外臉生成兩組訓(xùn)練數(shù)據(jù),利用Transformer 分別提取人臉內(nèi)部與外部區(qū)域,通過最小化內(nèi)臉一致性、外臉一致性完成訓(xùn)練過程。在測試階段,結(jié)合外部參照數(shù)據(jù)庫,在其中找到與測試對象內(nèi)臉A最接近的對應(yīng)內(nèi)臉A′,然后在參照集中找到A′所對應(yīng)的外臉B′,計算B′與A的對應(yīng)外臉B的相似度。測試對象的外臉同樣進行如上相似度計算。通過以上計算,實現(xiàn)檢測對象與外部參照集中對象的身份一致性檢測,進而判斷測試對象的身份真實性。該方法在模型的泛化測試上取得了較好的效果,在多個跨庫測試中取得了96.34%的平均準確率。類似的,在測試時若不使用外部參照集,只是計算測試對象的內(nèi)外臉之間一致性以判斷對象真?zhèn)螘r,跨庫平均準確率為87.01%。

    2.4.2 基于人物生理信號的檢測方法

    基于人物生理信號的偽造檢測是以視頻中人臉動態(tài)圖像為對象,通過使用Landmarks 對關(guān)鍵性部位的識別與追蹤[87],分析其行為特征、生物特征[88]、生理特征,以識別視頻中人物是否具有真實的人的生物特征的方法。

    Yang 等人[89]認為偽造視頻只是篡改替換了視頻中人物的中心表情,而不是將整個頭部進行替換。因此可以將中心表情的運動姿勢和整個頭部的運動姿勢作為特征,結(jié)合支持向量機(support vector machine,SVM)分類器進行分類。

    Li 等人[6]充分考慮到真實人物的生理特征。真實人物對象平均會在6 s 出現(xiàn)一次眨眼行為,而偽造視頻則不會在偽造過程中對此進行建模,因此可使用VGG16 識別眼部特征,用LSTM 提取時序信號判斷是否在一段時間內(nèi)出現(xiàn)眨眼的行為以判斷視頻中人物的真?zhèn)巍?/p>

    同樣基于人的生理特征,Qi等人[90]提出了利用心跳信號來檢測視頻中人物對象的真實性。文章認為,血液在流過臉部時會引起皮膚顏色的微小變化,這種變化肉眼無法看到,但通過視頻中幀的像素點變化可以檢測到,因此推測假的視頻中的心率變化與真的視頻中的心率變化不一致。文章首先在心率提取算法STR(spatial-temporal representation)[91]的基礎(chǔ)上改進了從視頻中放大并提取人物對象的心跳信號算法,并將其分解為RGB 三個通道的分量,獲得運動放大時空映射(motion-magnified spatial-temporal map,MMST Map);然后將其作為輸入,利用卷積池化與RNN 網(wǎng)絡(luò)獲取空間與時間的注意力模塊;最后將所有結(jié)果進行合并,利用ResNet18 與Sigmoid 作為最后的分類器。Ciftci 等人[92]同樣基于計算機視覺技術(shù),從視頻的人臉信號中提取生物特征,建立人臉紋理與心跳之間的關(guān)系,用作偽造視頻的檢測。Nguyen等人[93]在特征選擇方面進行了創(chuàng)新,提出眉毛部分是合成圖像中最易受到影響的區(qū)域,因此使用眉毛匹配作為特征進行偽造檢測。

    Matern 等人[94]提取眼睛、牙齒以及臉部輪廓等位置的特征來鑒定視頻真?zhèn)?,并使用Logistic 回歸或淺層全連接網(wǎng)絡(luò)等淺層分類器進行訓(xùn)練與分類。文章利用的特征主要包括全局一致性(global consistency)、光照估計(illumination estimation)和幾何估計(geometry estimation)。其中,全局一致性指偽造視頻中人物在全局上表現(xiàn)的矛盾性,例如瞳孔顏色、眼睛大小等不一致;光照估計指偽造過程中由數(shù)據(jù)隱式模擬入射光照時所帶來的錯誤與不精準,容易在面部(尤其在鼻子附近)產(chǎn)生過暗的陰影,同時眼睛中的反射也會被簡化為白色斑點或者消失;幾何估計是指偽造過程中對原始人臉扣除或替換的過程導(dǎo)致縫合邊界的出現(xiàn)或者細節(jié)的丟失。

    2.4.3 基于音畫特征的檢測方法

    音畫特征即視頻中聲音與畫面的相關(guān)特征,其包括時間上和內(nèi)容上的同步性。目前部分的偽造視頻存在關(guān)注于對視頻內(nèi)容偽造,而對音畫匹配性注意力不夠的問題,因此可以將其作為視頻真?zhèn)舞b別的標準。但此方法只應(yīng)用于同時包括聲音與畫面通道的視頻,而對只有聲音或畫面的視頻無法使用此類方法。

    關(guān)注視頻畫面與聲音的同步性是重要的檢測思路與方法[95-96]。Chugh 等人[97]提出了畫面與聲音的模態(tài)不協(xié)調(diào)平分,通過訓(xùn)練集獲取分數(shù)閾值來表征畫面與聲音的協(xié)調(diào)程度,以表示視頻真?zhèn)?。然而該方法對于視頻音畫特征的利用缺乏理論解釋,也沒有較為直觀的說服力,而且最終檢測效果依賴于通過訓(xùn)練集挖掘的分數(shù)閾值的質(zhì)量,因此測試效果較差。為了克服該問題,深度挖掘視頻中音畫特征,并能夠從理論上解釋特征利用的有效性,應(yīng)當著重于聲音與畫面人物動作的匹配性,其中使用最多的是對視頻中聲音與人物嘴部運動的相關(guān)性分析。

    Haliassos 等人[98]利用偽造視頻中的嘴唇運動的語義不連規(guī)則進行檢測。如圖8 所示[98],首先對待檢測視頻通過Landmarks 定位并裁剪出嘴唇部分;然后使用ResNet18 語義作為特征提取器提取語義特征,并將降維后的特征輸入至?xí)r空網(wǎng)絡(luò)中進行最終的分類。在具體訓(xùn)練之前,利用唇讀數(shù)據(jù)集(lip reading dataset,LRD)[99],使用交叉熵作為損失函數(shù),對Res-Net18 和時空網(wǎng)絡(luò)進行預(yù)訓(xùn)練。此數(shù)據(jù)集是以嘴部的動作為訓(xùn)練數(shù)據(jù),以對應(yīng)的單詞為標簽,通過預(yù)訓(xùn)練學(xué)習(xí)到與自然嘴部動作相關(guān)的豐富的內(nèi)部表征。在真正視頻檢測的訓(xùn)練中,則將ResNet 的特征提取層參數(shù)凍結(jié),只對最后的分類網(wǎng)絡(luò)進行微調(diào)。該方法在同數(shù)據(jù)集和跨數(shù)據(jù)集中的表現(xiàn)都非常優(yōu)越,體現(xiàn)出較好的模型泛化能力。但是該方法需要借助已標注的其他訓(xùn)練數(shù)據(jù)(如唇讀數(shù)據(jù)),在訓(xùn)練數(shù)據(jù)開發(fā)方面具有極高成本。

    圖8 基于嘴唇語義不連續(xù)的深度偽造檢測Fig.8 Deepfake detection based on semantic irregularities of lips

    為克服上述問題,Zhao 等人[100]采用自監(jiān)督訓(xùn)練思想。首先,在訓(xùn)練過程中,分別提取成對真實視頻中的音頻與嘴部的視頻進行對比學(xué)習(xí),其中嘴部動作的提取利用Transformer 實現(xiàn)。通過訓(xùn)練,學(xué)習(xí)到真實視頻中嘴部運動表示方式。然后,利用深度偽造視頻數(shù)據(jù)集對Transformer 進行參數(shù)微調(diào)便可在跨庫測試中取得較好效果。該方法雖然克服了預(yù)訓(xùn)練需要大量打標簽的外部訓(xùn)練數(shù)據(jù)成本問題,但是在對偽造數(shù)據(jù)進行訓(xùn)練時,會凍結(jié)一半的網(wǎng)絡(luò),這可能會犧牲最終的檢測性能。對應(yīng)的,Haliassos進一步提出RealForensics 模型[101],采用BYOL(bootstrap your own latent)的自監(jiān)督訓(xùn)練策略[102],并在BYOL 的基礎(chǔ)上考慮聲音與圖像雙模態(tài),具體體現(xiàn)在分別利用聲音與圖像作為教師網(wǎng)絡(luò),利用真實視頻中圖像和音頻模態(tài)的一致性,學(xué)習(xí)人物面部的運動表示。Real-Forensics在跨庫測試中取得了較好的效果。

    Lin 等人[103]同樣關(guān)注嘴部的行為特征,通過檢測嘴部動作與聲音的匹配性來判斷視頻真?zhèn)?。文章觀察到一些詞語的發(fā)音在嘴唇的行為特征上是具有較明顯區(qū)別的,例如單詞“Apple”的發(fā)音經(jīng)歷了嘴巴從扁平到聚合的過程,真實視頻中對于這個單詞的連續(xù)幾幀的嘴部動作相較于偽造視頻會更加連貫自然。基于此觀察,文章建立了“音頻-唇形”的映射,用于對視頻中人物嘴唇行為與聲音匹配性的檢測,以達到視頻真實性檢測的目的。類似的,Agarwal 等人[104]也通過對視頻中關(guān)鍵音節(jié)的識別來進行視頻真?zhèn)螜z測,其主要通過音位(phoneme)和視位(visemes)的匹配情況來實現(xiàn)。音位是語言學(xué)中能夠區(qū)別意義的最小語音單位。例如媽(ma)和發(fā)(fa)兩個字的音調(diào)相同,用來對其進行區(qū)別的最小單位就是m 和f。視位表示發(fā)音一個詞時的面部和口腔動作,是語音的基本可視構(gòu)建基塊。研究發(fā)現(xiàn)對于一些特殊音位,其視位也具有特殊性,因此重點關(guān)注視頻中發(fā)音為M(mama)、B(baba)或P(papa)的單詞相關(guān)的視位,通過比較音畫的同步性來檢測視頻真?zhèn)巍?/p>

    Cheng 等人[105]在DFDC 中隨機抽取2 000 段真實視頻與10 000 段偽造視頻,用VGG 網(wǎng)絡(luò)分別提取其中聲音與人臉特征,并通過降維在二維層面上分別展示真實與偽造視頻中聲音與人臉的歐氏距離,以此證明偽造視頻中的音畫不同步問題。同時,作者提取5 個人共計2 000 個真實語音片段的聲音特征,并展示其在二維上的明顯區(qū)別,證明聲音是具備區(qū)分不同對象身份特征的。基于以上觀察,即聲音和人臉在一定程度上的同質(zhì)性,提出從“聲音-人臉”匹配的角度進行深度偽造檢測的方法。為此,首先設(shè)計語音人臉匹配檢測模型,在一個通用的視聽數(shù)據(jù)集上度量兩者的匹配程度。然后,該模型可以在不進行任何微調(diào)的情況下平穩(wěn)地轉(zhuǎn)移到深度造假數(shù)據(jù)集,從而增強了跨數(shù)據(jù)集的泛化能力。模型在DFDC和FakeAVCeleb 上的庫內(nèi)測試準確率較高,利用FF++和DFDC 的跨庫測試也取得超過90%的準確率,但其未在跨庫測試中使用常用的高偽造質(zhì)量的Celeb-DF數(shù)據(jù)集進行測試。

    除了嘴唇與聲音的一致性檢測之外,Agarwal 等人[106]還提出利用耳部和嘴部行為的協(xié)同關(guān)系判斷是否是偽造視頻。該方法認為真實的人說話時嘴唇(下顎)的運動和耳朵的微小運動(例如耳廓和耳道的微小形狀變化)之間是有關(guān)聯(lián)的,但是換臉技術(shù)一般只關(guān)注臉部替換,而不會對耳朵進行替換。但是此類方法限制較多,需要在視頻中有完整耳部露出,因此應(yīng)用范圍相對較窄。Mittal 等人[107]進一步從視頻與音頻特征中使用MFN(memory fusion network)網(wǎng)絡(luò)分別提取情感向量[108],從情感向量的角度比較音畫的相似度關(guān)系。但是上述方法在特征的可解釋性上較于嘴部運動分析較差,且測試效果相對較差,故相關(guān)研究較少。

    2.4.4 基于生物特征檢測技術(shù)測評結(jié)果

    上文主要介紹了利用生物特征實現(xiàn)人臉視頻深度偽造檢測的各項技術(shù)方法,其中部分算法在數(shù)據(jù)集上測評結(jié)果如表5 所示(所列數(shù)據(jù)均為測試時的最好結(jié)果)。

    表5 基于生物特征的深度偽造檢測技術(shù)測評結(jié)果Table 5 Test result of deepfake detection technologies based on biological features

    3 其他檢測方法

    3.1 基于水印的檢測方法

    前文所述的所有方法均有較為明確的特征選擇,并均屬于被動檢測,是在偽造視頻已經(jīng)產(chǎn)生并傳播的情況下進行檢測與鑒定,這也是目前絕大多數(shù)的人臉視頻深度偽造檢測所采用的主流思路。與被動檢測相對應(yīng)的是主動檢測方式,最常用的便是基于水印技術(shù)的檢測方法。該方法在生成、制作和發(fā)布人臉視頻之前,在視頻中加入水印[109]或者各類微小的信號噪聲擾動[110],普通人眼無法看出區(qū)別,但任何對視頻的二次編輯行為均會留下痕跡[111],通過對痕跡的鑒定以判斷視頻是否被篡改,并可以按照線索找尋篡改人。

    Kim 等人[112]提出一個分散歸因模型,使用一組與每個用戶端模型相關(guān)聯(lián)的二元線性分類器,每個分類器都由用戶特定的密鑰參數(shù)化,并將關(guān)聯(lián)的模型分布與真實數(shù)據(jù)分布區(qū)分開來,即通過密鑰實現(xiàn)將用戶端模型的水印與無水印的用戶進行區(qū)分,使得生成的視頻具備用戶屬性,以保障實現(xiàn)后續(xù)對于偽造視頻傳播路徑的追蹤。

    Yu 等人[113]主要針對由GAN 網(wǎng)絡(luò)生成的各類偽造視頻進行檢測與主動防御。文章首先將數(shù)字指紋嵌入到訓(xùn)練數(shù)據(jù)中,然后發(fā)現(xiàn)并驗證了數(shù)字指紋從訓(xùn)練數(shù)據(jù)到各類生成模型的專業(yè)性,并最后出現(xiàn)在最終生成的偽造結(jié)果中。整個過程對于圖像級與模型級的其他干擾與擾動可以保持較好的魯棒性。

    Ma 等人[114]分析到之前的基于對視頻關(guān)鍵幀編碼進行偽造檢測的主動防御方法具有耗時耗力的低效問題,因此提出了基于空間與時間特性的視頻數(shù)字指紋生成算法。文章使用卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)分別提取每一幀的空間特征與幀間的時間特征,以此作為視頻的數(shù)字水印,實現(xiàn)了在傳統(tǒng)圖片水印的基礎(chǔ)上補充時間信息的目的。Li 等人[115]提出并行的3D 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提取連續(xù)幀之間的特征關(guān)聯(lián)作為視頻水印,以達到對視頻復(fù)制的檢測。Tang等人[116]提出一種對幾何變換和空間變化均具有魯棒性的視頻哈希生成算法ST-PCT(spatial-temporal polar cosine transform)算法,它將視頻視為三維矩陣,并在對視頻執(zhí)行DCT 變換后執(zhí)行PCT 變換,這種變換可以提取時空域的特征,具有幾何不變性?;赟TPCT,進一步提出了用于視頻拷貝檢測的幾何魯棒視頻水印生成方法,生成的視頻特征被壓縮并量化為緊湊的二進制哈希碼,用于保證視頻的完整性。

    Koopman 等人[117]從視頻的底層物理特性考量,將光響應(yīng)非均勻性(photo response non-uniformity,PRNU)分析應(yīng)用于人臉視頻深度偽造的檢測。數(shù)字圖像的PRNU 模式是由數(shù)碼相機的光敏感傳感器的工件缺陷造成的噪聲模式,這種噪聲模式是高度個性化的,通常被稱為數(shù)字圖像的指紋。文章從待檢測的視頻中隨機抽取部分關(guān)鍵幀,并將其進行分組。通過計算并比較各組視頻幀的PRNU 得到視頻的標準化互相關(guān)分數(shù)(normalized cross correlation score,NCCS)。實驗證明,真實視頻的NCCS 與偽造視頻是不同的,可以作為視頻真?zhèn)舞b定的標準。

    Huang 等人[118]提出一種跨圖像、跨模型的通用對抗水印生成方法CUMA(cross-model universal adversarial),只需少量的面部圖像(128 張)進行訓(xùn)練,生成的水印就可以保護幾乎所有的面部圖片,使多種DeepFake 模型不能將其篡改。具體的,文章提出了兩級擾動融合(two-level perturbation fusion)的策略,使得生成的水印進行圖像級別融合(image-level fusion)、模型級別融合(model-level fusion),提高水印的遷移性。同時,為了減少迭代生成水印時步長對結(jié)果的影響,提高在不同模型之間的遷移性,CMUA使用TPE 自動搜索不同模型的更新步長。實驗證明,該方法在偽造視頻的檢測與主動防御方面均具有較強的魯棒性。

    3.2 基于區(qū)塊鏈的檢測方法

    近些年,區(qū)塊鏈已在許多領(lǐng)域得到有效使用,到目前為止,針對基于該技術(shù)的人臉視頻深度偽造檢測問題的研究很少。它可以創(chuàng)建一系列唯一的不可更改的元數(shù)據(jù)塊,因此是用于數(shù)字來源解決方案的出色工具。Hasan 等人[119]使用區(qū)塊鏈與智能合約進行偽造視頻的檢測,認為只有視頻具備可追溯性才可被認定是真實視頻,否則是偽造視頻。為此,文章提出智能合約用于存儲數(shù)字內(nèi)容及其元數(shù)據(jù)的星際文件系統(tǒng)(interplanetary file system,IPFS)的哈希值,因此使用以太坊智能合約來追蹤數(shù)字內(nèi)容的出處及其原始來源。每一個視頻都有一個智能合約,該智能合約能夠鏈接到其上級視頻或來源視頻,同理每一個視頻也有一個指向其子視頻或下級視頻的鏈接,這樣即使視頻內(nèi)容被復(fù)制多次,也有跡可循,可以按照鏈接找到其最原始的出處,對偽造行為也可做到有效追蹤。

    4 檢測方法發(fā)展特點

    從2019 年起,針對人臉視頻深度偽造檢測的研究數(shù)量增長較快,其中在特征選擇、模型設(shè)計、訓(xùn)練思路等方面均出現(xiàn)了較多的新趨勢與特點,主要集中在遷移學(xué)習(xí)的應(yīng)用、注意力模塊的使用以及非傳統(tǒng)神經(jīng)網(wǎng)絡(luò)與學(xué)習(xí)方法的應(yīng)用等方面。

    4.1 特征選擇

    除了傳統(tǒng)圖像處理領(lǐng)域的特征提取之外,近幾年在人臉視頻深度偽造檢測技術(shù)領(lǐng)域所涉及到的特征選擇同樣呈現(xiàn)出了一些新的趨勢與特點。

    一是特征選擇更加細化。除了利用圖像層面的空域特征之外,越來越多的研究文獻傾向于進一步細挖圖像頻率的特征。且對于圖像頻率,也有更多的文獻聚焦于高頻與低頻、相位譜與幅度譜等對人臉視頻深度偽造檢測的作用與價值。

    二是更加注重生物特征的選擇與利用。偽造視頻歸根結(jié)底是對人的身份的偽造,因此相較于從圖像與視頻的間接角度,鑒別視頻真?zhèn)蔚母具€是從人的生物特征角度進行判別,從而對于生物特征的選擇與利用成為該領(lǐng)域近幾年新的特點。除了傳統(tǒng)的眼球顏色、眼睛對稱、視覺偽影等淺層生物特征之外,如耳部運動、心跳節(jié)奏、面部運動趨勢等深層的生物特征也被用來進行真?zhèn)螜z測,并取得不錯的效果,但當前應(yīng)用最多的還是利用視頻聲音與人物嘴部運動表示之間的相關(guān)性作為偽造檢測的特征。

    4.2 遷移學(xué)習(xí)的應(yīng)用

    遷移學(xué)習(xí)的應(yīng)用是當前人臉視頻深度偽造檢測方法研究領(lǐng)域所呈現(xiàn)的重要趨勢特點之一,其出現(xiàn)包括兩方面原因:一是相較于傳統(tǒng)圖像識別、分類等任務(wù),視頻真?zhèn)螜z測領(lǐng)域的訓(xùn)練數(shù)據(jù)的數(shù)量規(guī)模較小,數(shù)據(jù)整體質(zhì)量參差不齊。同時深度偽造視頻的檢測依賴于底層對于視頻人臉的提取、動作的識別,因此將成熟的模型進行遷移學(xué)習(xí),能夠最大程度在已學(xué)習(xí)知識的基礎(chǔ)上,有效利用深度偽造視頻數(shù)據(jù)集進行模型的訓(xùn)練與微調(diào),節(jié)約訓(xùn)練成本,提高模型表現(xiàn)。二是隨著生物特征在深度偽造檢測中已證明其優(yōu)越表現(xiàn),基于視頻中對象的生物及生理信號的提取訓(xùn)練將成為該領(lǐng)域的重要研究分支。其中將涉及到如嘴部運動[103]、語義連貫性分析[98]、人物對象微表情分析等領(lǐng)域的先驗知識,因此通過遷移學(xué)習(xí),將這些領(lǐng)域已成熟的訓(xùn)練模型用作底層特征提取,并在深度偽造數(shù)據(jù)集上進行微調(diào),能夠提高特征的針對性,進而提高模型表現(xiàn)。

    Vision Transformer[120]與Swin Transformer[121]的預(yù)訓(xùn)練模型常被用來作為模型底層的特征提取器[31,33,57,122-125],通過在深度偽造數(shù)據(jù)集上對模型的微調(diào)以減少模型訓(xùn)練成本,提高模型最終的分類能力。Transformer的自注意力機制適用于挖掘圖像中各Patch 之間的相關(guān)性,從而定位到圖像中被偽造和篡改區(qū)域。同時,不同尺寸的Patch 設(shè)計也可以迫使Transformer 關(guān)注不同層面的圖像特征,提高模型特征提取效率。

    4.3 模型設(shè)計與訓(xùn)練思路

    與圖像分類、身份識別等計算機視覺領(lǐng)域傳統(tǒng)任務(wù)相比,人臉視頻深度偽造檢測既有獨有特點又有共通之處。前者體現(xiàn)在其作為偽造視頻數(shù)據(jù),與真實視頻在空域、頻域等方面必然存在偏差,因此研究的重點在于挖掘真?zhèn)螛颖局g的差異,而傳統(tǒng)計算機視覺所研究對象均為真實或偽造數(shù)據(jù),因此更多關(guān)注樣本內(nèi)容上的差異即可。后者體現(xiàn)在深度偽造檢測的底層特征提取、特征融合、模型分類與傳統(tǒng)計算機視覺任務(wù)是相同的,其中涉及到的人臉識別、動作識別等技術(shù)也具有共同之處。基于上述原因,在模型架構(gòu)設(shè)計與訓(xùn)練思路兩方面,人臉視頻深度偽造檢測與傳統(tǒng)計算機視覺任務(wù)相比,也應(yīng)當具有共同性與獨特性,各類訓(xùn)練方法也能夠遷移并應(yīng)用到視頻真?zhèn)螜z測模型的學(xué)習(xí)中。

    4.3.1 損失函數(shù)的定制

    在機器學(xué)習(xí)中,交叉熵常被用作分類問題中的損失函數(shù)。但隨著越來越多復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練方法的創(chuàng)新與使用,單純的交叉熵損失無法完整地評估模型的好壞。另外,不同的損失函數(shù)對于同樣的數(shù)據(jù)集,在相同的網(wǎng)絡(luò)結(jié)構(gòu)情況下,對最終的結(jié)果影響依然存在著較大的差異[126]。

    另外,與傳統(tǒng)視頻圖像的多分類不同,人臉視頻深度偽造檢測通常是“真-偽”兩分類,并更注重挖掘真?zhèn)螛颖局g的差異?;谝陨显?,使用單交叉熵作為損失的研究越來越少,更多的結(jié)合具體模型設(shè)計而提出的定制型損失函數(shù)被創(chuàng)新與應(yīng)用。

    Zhao 等人[42]提出區(qū)域獨立性損失,確保每個注意力圖集中在一個特定的區(qū)域而不重疊,并且集中的區(qū)域在不同的樣本中是一致的。Sun等人[127]與Li等人[55]分別提出類內(nèi)緊湊的損失函數(shù)與單中心損失,使同類數(shù)據(jù)更加聚集,同時推遠非同類型數(shù)據(jù)。Chintha等人[65]則在交叉熵損失的基礎(chǔ)上增加KL 散度作為補充。

    因此,結(jié)合人臉視頻深度偽造檢測的任務(wù)要求,應(yīng)當更有針對性地設(shè)計損失函數(shù),使之能夠更加突出真?zhèn)螛颖镜牟町愋?,聚集同類樣本,排斥異類樣本?/p>

    4.3.2 注意力機制的應(yīng)用

    注意力機制最早在自然語言處理和機器翻譯對齊文本中提出并使用,并取得了不錯的效果。在計算機視覺領(lǐng)域,也有一些學(xué)者探索了在視覺和卷積神經(jīng)網(wǎng)絡(luò)中使用注意力機制來提升網(wǎng)絡(luò)性能的方法。注意力機制的基本原理很簡單:網(wǎng)絡(luò)中每層不同特征的重要性不同,后面的層應(yīng)該更注重其中重要的信息,抑制不重要的信息。在人臉深度偽造視頻中,對于人臉的替換與二次編輯只是針對視頻中人物對象的完整臉部或者臉部中的具體位置(如眼睛、嘴巴等),而對于臉部以外的部位所篡改的概率較小,因此使用注意力機制能夠更好地在圖像層面讓模型關(guān)注到易篡改區(qū)域。在頻域?qū)用?,使用注意力機制也能夠使模型更好地關(guān)注到隨篡改行為有明顯變化的頻域范圍[128]。

    在模型設(shè)計中融入注意力機制是提高當前深度偽造視頻檢測模型表現(xiàn)的有效方法[13,42],聚焦于視頻圖像中的不同區(qū)域,提高圖像特征的挖掘能力,配合模型實現(xiàn)分類。注意力作為模塊,也可以插入到當前各類分類模型中,作為即插即用的組成部分[29,129],迫使模型挖掘視頻圖像底層特征,而非只關(guān)注域表層具有優(yōu)良分類性能的特征,以提高模型的泛化能力。

    4.3.3 學(xué)習(xí)方法的創(chuàng)新應(yīng)用

    由于領(lǐng)域內(nèi)可用數(shù)據(jù)數(shù)量相對較少,單一模型性能有限,各類數(shù)據(jù)集之間特征差距較大所帶來的對模型泛化能力的要求等多方面原因,近幾年,越來越多的基于多任務(wù)和復(fù)雜模型的非傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與學(xué)習(xí)方式被應(yīng)用于人臉視頻深度偽造檢測領(lǐng)域。

    自監(jiān)督學(xué)習(xí)的應(yīng)用是近兩年在人臉視頻深度偽造檢測領(lǐng)域被廣泛應(yīng)用的學(xué)習(xí)訓(xùn)練思路[47,61,86,100-101]。通過對無標簽數(shù)據(jù)設(shè)計輔助任務(wù)來挖掘數(shù)據(jù)自身的表征特性作為監(jiān)督信息,來提升模型的特征提取能力。自監(jiān)督學(xué)習(xí)在深度偽造視頻檢測領(lǐng)域具有重要應(yīng)用價值的原因有三方面:一是當前各類深度偽造視頻數(shù)據(jù)集的質(zhì)量參差不齊,既有Celeb-DF、Deeper-Forensics-1.0 等質(zhì)量較高、貼近現(xiàn)實的數(shù)據(jù)集,也有FaceForensics++等數(shù)據(jù)整體質(zhì)量較低、偽造痕跡明顯的數(shù)據(jù)集,因此不同數(shù)據(jù)質(zhì)量使得訓(xùn)練出的模型表現(xiàn)不一,無法達到應(yīng)用級標準。二是當前深度偽造數(shù)據(jù)的規(guī)模與數(shù)量有待進一步提高,因此為更有效地利用當前數(shù)據(jù)集,采用自監(jiān)督學(xué)習(xí)能夠理論上無限制地擴大訓(xùn)練數(shù)據(jù)規(guī)模,確保模型能夠獲得充分訓(xùn)練,提高模型表現(xiàn)。三是實際部署的泛化能力要求使得模型必須能夠兼顧識別挖掘出各類偽造數(shù)據(jù)的篡改痕跡,通過自監(jiān)督的學(xué)習(xí)方式,迫使模型提取深層特征,而不因數(shù)據(jù)集種類的不同而提取不同層級的視頻圖像特征,進而提高模型的整體泛化能力,使之達到能夠解決現(xiàn)實生活中偽造視頻識別的目的。研究結(jié)果證明,自監(jiān)督學(xué)習(xí)能夠有效提升模型在跨庫測試中的表現(xiàn),無論訓(xùn)練集的偽造質(zhì)量高低,其檢測準確率均取得了較好效果[61]。

    另外,多實例學(xué)習(xí)也是近幾年在人臉視頻深度偽造檢測領(lǐng)域應(yīng)用較多的學(xué)習(xí)方式。偽造視頻的生成是將原始視頻分隔成幀,然后對每一幀偽造后進行編碼壓縮發(fā)布。在這個過程中,可能存在幀與幀之間的偽造質(zhì)量與效果不同,或者存在部分幀并沒有進行偽造的情況。其中,不同幀的不同偽造質(zhì)量會在訓(xùn)練階段影響模型的參數(shù)學(xué)習(xí),視頻中部分未經(jīng)過篡改的原始幀若被打標簽為“被偽造”也同樣會干擾模型的訓(xùn)練。基于此,可采用多實例學(xué)習(xí)的思想,把待檢測的視頻分割為若干個包(bag),其中包含若干個實例(幀),如果其中有一個實例被檢測為偽造,則可以標記整個視頻均是偽造的。因此,多實例學(xué)習(xí)可以僅在擁有視頻級標簽的情況下進行學(xué)習(xí)。Zhou 等人[13]與Li 等人[23]均在人臉視頻深度偽造檢測的過程中引入多實例學(xué)習(xí)的思想。

    除此之外,元學(xué)習(xí)[127]、多任務(wù)學(xué)習(xí)[130]、孿生訓(xùn)練[30,131]也均是當前人臉視頻深度偽造檢測模型在訓(xùn)練學(xué)習(xí)階段所呈現(xiàn)出的新特點。其中,通過元學(xué)習(xí),可在多個數(shù)據(jù)域上訓(xùn)練,結(jié)合不同域的人臉對模型的貢獻不同,使得模型更容易學(xué)習(xí)到具體每一個數(shù)據(jù)域的偏差特點;通過多任務(wù)學(xué)習(xí),對于輸入的待檢測的視頻,同時輸出對其是否偽造的二分類結(jié)果與偽造區(qū)域的定位結(jié)果;通過孿生訓(xùn)練,使得在網(wǎng)絡(luò)層的編碼空間中學(xué)習(xí)一種能夠很好地分離真實類和虛假類樣本(即人臉)的表示[30,131],提高后續(xù)模型的分類能力。

    5 總結(jié)展望

    人臉視頻深度偽造檢測是近些年新興的研究方向,也是人工智能領(lǐng)域的研究熱點。本文主要對近三年的人臉視頻深度偽造檢測技術(shù)從特征選擇方面進行了總結(jié),主要包括以下內(nèi)容:

    (1)對常用數(shù)據(jù)集進行整理,包括領(lǐng)域內(nèi)權(quán)威數(shù)據(jù)集和側(cè)重不同學(xué)習(xí)方法、訓(xùn)練模型的新型數(shù)據(jù)集。以UADFV、DF-TIMIT 為代表的傳統(tǒng)深度偽造數(shù)據(jù)集由于數(shù)量少、偽造質(zhì)量低已不符合當前學(xué)術(shù)研究的要求。以DFDC、FaceForencies++、Celeb-DF 為代表的數(shù)據(jù)集是當前領(lǐng)域內(nèi)研究常用的數(shù)據(jù)集,其中Celeb-DF 由于偽造質(zhì)量較高常被用來模擬現(xiàn)實生活中的偽造視頻,進而用于測試模型的泛化能力。另外,由于不同研究者的特征選擇、模型結(jié)構(gòu)、訓(xùn)練思路不同,進而提出若干新型數(shù)據(jù)集,如包含多實例人臉的FFIW 數(shù)據(jù)集、含有視頻人物參考信息的Vox-DeepFake 數(shù)據(jù)集等。但總體來說,數(shù)據(jù)集的建立與偽造技術(shù)的發(fā)展之間仍然存在差距,若要使模型達到工業(yè)應(yīng)用標準,勢必需不斷提高數(shù)據(jù)集質(zhì)量。

    (2)總結(jié)了基于空間特征的檢測方法。根據(jù)挖掘空間特征的挖掘?qū)ο蟛煌譃榛趫D像空間域、圖像頻率域與圖像上下文空間的檢測方法?;诳臻g特征的檢測方法集中于從單幀的視頻圖像中提取空域特征、頻域特征與圖像上下文差異特征,其優(yōu)點是能夠從圖像底層挖掘真?zhèn)我曨l的差異,相對具有較高的模型泛化能力,但卻忽略了視頻中相鄰幀之間由于偽造技術(shù)所帶來的時序上不一致。

    (3)總結(jié)了基于時空融合特征的檢測方法。根據(jù)時序特征提取方法的不同,分為基于RNN、基于卷積與基于像素位移的時空融合特征檢測方法。時空融合特征彌補了單純基于空間特征的不足,將單幀的空間特征與相鄰幀之間的時序不一致性進行統(tǒng)一融合,從“時間-空間”的角度綜合分析視頻真?zhèn)?。但是如何有效表示時間特征,并如何將時間與空間特征進行融合,是重要的研究內(nèi)容,直接關(guān)系到最終模型的測試效果。

    (4)總結(jié)了基于生物特征的檢測方法。根據(jù)利用的生物特征不同,分為基于身份一致性、人物生理信號與音畫特征的檢測方法。與空間特征、時空融合特征不同,該方法更從“人”的本質(zhì)上判斷視頻中出現(xiàn)人物的真?zhèn)危M而判定視頻真?zhèn)?。此類方法在模型檢測中取得不錯的效果,但是對于生理特征的設(shè)計與挖掘需要部分的先驗知識,特征提取效率較低。同時,外部參照集的使用降低了模型的應(yīng)用范圍,更適用于對重要人物的保護,同時也降低了模型的訓(xùn)練與預(yù)測速度。

    (5)總結(jié)了基于水印技術(shù)及區(qū)塊鏈的檢測方法。包括基于數(shù)字簽名、數(shù)字水印、區(qū)塊鏈、智能合約的檢測方法等。此類方法擺脫了傳統(tǒng)的特征提取、模型訓(xùn)練的過程,但是需要大量的先驗知識,應(yīng)用場景也較少。

    (6)總結(jié)了近些年各類檢測方法所呈現(xiàn)出來的趨勢,包括特征選擇、模型設(shè)計、訓(xùn)練思路等方面的創(chuàng)新與特點。由于人臉視頻深度偽造檢測屬于計算機視覺領(lǐng)域,但又有其獨特性,同時該領(lǐng)域的數(shù)據(jù)集相對較少,因此需要結(jié)合任務(wù)的特點,選擇設(shè)計合理的學(xué)習(xí)與訓(xùn)練策略,充分利用有限數(shù)據(jù)集,提升模型表現(xiàn)。

    人臉視頻深度偽造檢測未來的發(fā)展方向,將體現(xiàn)在以下幾方面:

    (1)遷移學(xué)習(xí)與大規(guī)模預(yù)訓(xùn)練模型的使用。利用大規(guī)模數(shù)據(jù)集與成熟的網(wǎng)絡(luò)模型,通過遷移學(xué)習(xí)實現(xiàn)對視頻圖像中豐富的人臉特征、局部特征的提取,以提高后續(xù)分類的準確度。

    (2)數(shù)據(jù)集的真實性與模型泛化能力的提高。深度偽造技術(shù)發(fā)展迅速,越來越多的高質(zhì)量偽造視頻層出不窮,作為檢測技術(shù),應(yīng)當更加貼近真實世界中的偽造現(xiàn)狀,使用更具有泛化能力的模型檢測各類偽造技術(shù)生成的篡改視頻。

    (3)主動防御技術(shù)的發(fā)展。目前絕大多數(shù)的檢測均是事后的被動檢測,只有主動防御才能從根本上杜絕偽造視頻的生成與傳播,這也是未來發(fā)展的方向。

    猜你喜歡
    人臉深度特征
    有特點的人臉
    深度理解一元一次方程
    如何表達“特征”
    不忠誠的四個特征
    當代陜西(2019年10期)2019-06-03 10:12:04
    深度觀察
    深度觀察
    三國漫——人臉解鎖
    動漫星空(2018年9期)2018-10-26 01:17:14
    深度觀察
    抓住特征巧觀察
    馬面部與人臉相似度驚人
    亚洲av日韩在线播放| av免费观看日本| 自拍欧美九色日韩亚洲蝌蚪91| 精品少妇久久久久久888优播| 国产成人aa在线观看| 国产精品麻豆人妻色哟哟久久| 国产成人精品福利久久| 欧美bdsm另类| 日日爽夜夜爽网站| 久热久热在线精品观看| 国产成人精品福利久久| 日韩一卡2卡3卡4卡2021年| 一区二区三区四区激情视频| 女人被躁到高潮嗷嗷叫费观| videosex国产| 亚洲国产av影院在线观看| 黑人欧美特级aaaaaa片| 亚洲精品中文字幕在线视频| 国产在线视频一区二区| 国产黄频视频在线观看| 制服人妻中文乱码| 热re99久久精品国产66热6| 国产欧美亚洲国产| 日产精品乱码卡一卡2卡三| 国产亚洲欧美精品永久| 水蜜桃什么品种好| 国产不卡av网站在线观看| 人成视频在线观看免费观看| 丰满乱子伦码专区| 国产乱来视频区| 午夜福利乱码中文字幕| 国产福利在线免费观看视频| 欧美少妇被猛烈插入视频| 国产精品嫩草影院av在线观看| 新久久久久国产一级毛片| 久久女婷五月综合色啪小说| 亚洲欧美成人综合另类久久久| 日韩成人av中文字幕在线观看| 国产片特级美女逼逼视频| 欧美av亚洲av综合av国产av | 亚洲成色77777| av免费观看日本| 亚洲精品久久午夜乱码| 欧美成人午夜免费资源| 精品国产露脸久久av麻豆| 国产麻豆69| 久久 成人 亚洲| 亚洲国产成人一精品久久久| 波野结衣二区三区在线| 性少妇av在线| 欧美国产精品va在线观看不卡| 午夜福利视频在线观看免费| 交换朋友夫妻互换小说| 国产视频首页在线观看| 久久精品久久久久久久性| 宅男免费午夜| av福利片在线| 夜夜骑夜夜射夜夜干| 国产野战对白在线观看| 伊人亚洲综合成人网| 亚洲内射少妇av| 亚洲一区中文字幕在线| 日韩欧美一区视频在线观看| 中文欧美无线码| 亚洲情色 制服丝袜| 国产乱来视频区| 深夜精品福利| 国产麻豆69| 精品久久久精品久久久| 久久久国产欧美日韩av| 亚洲精品aⅴ在线观看| 国产激情久久老熟女| 欧美人与性动交α欧美软件| 午夜福利一区二区在线看| 日韩av不卡免费在线播放| 欧美另类一区| 亚洲av综合色区一区| 国产精品二区激情视频| 亚洲伊人久久精品综合| 人妻人人澡人人爽人人| 久久这里有精品视频免费| 久久久亚洲精品成人影院| 黑人猛操日本美女一级片| 97精品久久久久久久久久精品| 免费看不卡的av| 丝袜人妻中文字幕| 中文字幕av电影在线播放| www.自偷自拍.com| 亚洲国产精品一区二区三区在线| 日本猛色少妇xxxxx猛交久久| 欧美精品亚洲一区二区| 看免费成人av毛片| 亚洲av.av天堂| 美国免费a级毛片| 老女人水多毛片| 欧美xxⅹ黑人| 美女xxoo啪啪120秒动态图| 成人二区视频| 人体艺术视频欧美日本| 夫妻午夜视频| 飞空精品影院首页| 亚洲人成77777在线视频| 女人精品久久久久毛片| 国产精品免费视频内射| www.av在线官网国产| 搡女人真爽免费视频火全软件| 亚洲国产最新在线播放| 考比视频在线观看| 欧美bdsm另类| 曰老女人黄片| 老汉色av国产亚洲站长工具| 国产精品亚洲av一区麻豆 | 午夜影院在线不卡| 免费高清在线观看视频在线观看| 观看美女的网站| 狠狠精品人妻久久久久久综合| 亚洲人成77777在线视频| 日韩三级伦理在线观看| 国产乱来视频区| 在线天堂中文资源库| 搡女人真爽免费视频火全软件| 婷婷色综合www| 日韩精品免费视频一区二区三区| 波多野结衣一区麻豆| 少妇猛男粗大的猛烈进出视频| 国产乱人偷精品视频| 国产免费福利视频在线观看| 美女xxoo啪啪120秒动态图| 欧美成人精品欧美一级黄| 亚洲成色77777| xxx大片免费视频| 亚洲精品第二区| 亚洲久久久国产精品| 亚洲欧洲国产日韩| 国产成人aa在线观看| 国产精品不卡视频一区二区| 亚洲熟女精品中文字幕| 亚洲四区av| 80岁老熟妇乱子伦牲交| 日本午夜av视频| 好男人视频免费观看在线| 国产免费又黄又爽又色| 成人黄色视频免费在线看| 热re99久久国产66热| tube8黄色片| 久久久久久久久久久久大奶| 中文字幕av电影在线播放| 老女人水多毛片| a级毛片在线看网站| 黑人欧美特级aaaaaa片| 国产成人精品一,二区| 91午夜精品亚洲一区二区三区| 人人澡人人妻人| 熟妇人妻不卡中文字幕| 亚洲av中文av极速乱| 日本爱情动作片www.在线观看| 男女午夜视频在线观看| 91国产中文字幕| 久久午夜福利片| 国产免费又黄又爽又色| 最新中文字幕久久久久| 久久久久网色| 看免费成人av毛片| 亚洲内射少妇av| 亚洲精品中文字幕在线视频| 人成视频在线观看免费观看| 看免费av毛片| 在线观看免费视频网站a站| 国产精品无大码| 99九九在线精品视频| 美女中出高潮动态图| 超色免费av| 欧美日韩视频高清一区二区三区二| 女人被躁到高潮嗷嗷叫费观| 免费观看av网站的网址| 久久久久人妻精品一区果冻| 久久久a久久爽久久v久久| 男女啪啪激烈高潮av片| 天天躁日日躁夜夜躁夜夜| 一区二区日韩欧美中文字幕| 国产国语露脸激情在线看| 午夜91福利影院| h视频一区二区三区| 成人黄色视频免费在线看| 中文字幕精品免费在线观看视频| 国产一区二区三区综合在线观看| 97在线视频观看| 纯流量卡能插随身wifi吗| 免费观看在线日韩| 国产1区2区3区精品| 午夜影院在线不卡| 亚洲av成人精品一二三区| 国产精品久久久久久精品电影小说| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 在线 av 中文字幕| 欧美激情极品国产一区二区三区| av网站在线播放免费| 亚洲国产欧美日韩在线播放| 国产成人精品无人区| 91在线精品国自产拍蜜月| 少妇精品久久久久久久| 看非洲黑人一级黄片| 老司机亚洲免费影院| 伦精品一区二区三区| 亚洲成国产人片在线观看| 久久人人爽人人片av| 亚洲成色77777| 欧美少妇被猛烈插入视频| 亚洲美女搞黄在线观看| 超色免费av| 国产在视频线精品| 久久久久久久久久久免费av| 在线观看美女被高潮喷水网站| 欧美精品高潮呻吟av久久| 久久99蜜桃精品久久| 最近手机中文字幕大全| 欧美+日韩+精品| 18禁裸乳无遮挡动漫免费视频| 亚洲三区欧美一区| 欧美激情高清一区二区三区 | 另类精品久久| 老鸭窝网址在线观看| 99久久综合免费| 考比视频在线观看| 国产成人免费观看mmmm| 蜜桃国产av成人99| 18在线观看网站| 久久精品国产综合久久久| 熟女av电影| 一本—道久久a久久精品蜜桃钙片| 亚洲三区欧美一区| 日韩一本色道免费dvd| 国产免费一区二区三区四区乱码| 18禁国产床啪视频网站| 一边亲一边摸免费视频| 黑人巨大精品欧美一区二区蜜桃| 91午夜精品亚洲一区二区三区| 99九九在线精品视频| 国产伦理片在线播放av一区| 欧美另类一区| 久久狼人影院| 最新中文字幕久久久久| 美女视频免费永久观看网站| 丝袜人妻中文字幕| 欧美精品亚洲一区二区| 亚洲国产精品一区二区三区在线| 一区二区三区乱码不卡18| 亚洲国产精品999| 免费不卡的大黄色大毛片视频在线观看| 久久久精品区二区三区| 成人毛片a级毛片在线播放| 少妇猛男粗大的猛烈进出视频| 18+在线观看网站| 国产国语露脸激情在线看| 国产精品免费视频内射| 精品国产乱码久久久久久男人| 欧美日韩视频高清一区二区三区二| 国产精品久久久av美女十八| 久久精品久久久久久噜噜老黄| 在现免费观看毛片| 国产精品一区二区在线观看99| 男女国产视频网站| 国产精品久久久av美女十八| 五月伊人婷婷丁香| 99热全是精品| 精品福利永久在线观看| 性色avwww在线观看| 亚洲国产精品999| 大码成人一级视频| 97在线人人人人妻| 国产麻豆69| 成人二区视频| 青草久久国产| 少妇人妻精品综合一区二区| 大话2 男鬼变身卡| 日韩免费高清中文字幕av| 亚洲欧美成人精品一区二区| 街头女战士在线观看网站| 日本猛色少妇xxxxx猛交久久| 各种免费的搞黄视频| 免费黄色在线免费观看| 免费看不卡的av| 免费播放大片免费观看视频在线观看| 色播在线永久视频| 日日啪夜夜爽| 永久免费av网站大全| 男女高潮啪啪啪动态图| 老熟女久久久| 这个男人来自地球电影免费观看 | 最黄视频免费看| 亚洲精品日本国产第一区| 欧美日本中文国产一区发布| 99久久中文字幕三级久久日本| 亚洲精品第二区| 美女脱内裤让男人舔精品视频| 久久久久人妻精品一区果冻| 三上悠亚av全集在线观看| 大话2 男鬼变身卡| 高清不卡的av网站| av在线app专区| 亚洲精品视频女| 欧美国产精品一级二级三级| 麻豆乱淫一区二区| 成人亚洲欧美一区二区av| 免费久久久久久久精品成人欧美视频| 国产精品熟女久久久久浪| 亚洲三级黄色毛片| 免费高清在线观看视频在线观看| 看免费av毛片| videos熟女内射| 男女啪啪激烈高潮av片| 久久99热这里只频精品6学生| 精品亚洲成a人片在线观看| 久久久亚洲精品成人影院| 午夜免费鲁丝| 久久精品国产亚洲av天美| 一级毛片黄色毛片免费观看视频| 2018国产大陆天天弄谢| 啦啦啦啦在线视频资源| 国产又爽黄色视频| 18在线观看网站| 王馨瑶露胸无遮挡在线观看| 一区福利在线观看| 日本午夜av视频| 欧美日韩国产mv在线观看视频| 精品国产一区二区三区四区第35| 菩萨蛮人人尽说江南好唐韦庄| 久久久久久久国产电影| 久久精品国产自在天天线| 欧美亚洲日本最大视频资源| 欧美日韩精品成人综合77777| 黄网站色视频无遮挡免费观看| 亚洲激情五月婷婷啪啪| 一本大道久久a久久精品| 成人亚洲欧美一区二区av| 嫩草影院入口| 夫妻性生交免费视频一级片| 久久精品国产综合久久久| 久久精品人人爽人人爽视色| 久久97久久精品| 99re6热这里在线精品视频| 国产一区二区 视频在线| kizo精华| 亚洲av电影在线观看一区二区三区| 欧美变态另类bdsm刘玥| 一级毛片电影观看| 久久亚洲国产成人精品v| 久久ye,这里只有精品| 赤兔流量卡办理| 黑人猛操日本美女一级片| 国产xxxxx性猛交| 日韩一卡2卡3卡4卡2021年| 99久久人妻综合| 成人国产麻豆网| 久久久久久人妻| 亚洲欧洲国产日韩| 乱人伦中国视频| 精品国产一区二区久久| 亚洲国产精品国产精品| 七月丁香在线播放| tube8黄色片| 桃花免费在线播放| 久久久久久人人人人人| 26uuu在线亚洲综合色| 久久久精品区二区三区| 国产精品成人在线| 韩国高清视频一区二区三区| 黄片无遮挡物在线观看| 亚洲欧美日韩另类电影网站| 一级,二级,三级黄色视频| 国产老妇伦熟女老妇高清| 日本-黄色视频高清免费观看| 美国免费a级毛片| 久久精品人人爽人人爽视色| 久久韩国三级中文字幕| 亚洲av电影在线进入| 国产精品久久久久久av不卡| 亚洲人成77777在线视频| 久久午夜福利片| 亚洲经典国产精华液单| 亚洲国产最新在线播放| 日本-黄色视频高清免费观看| 人妻人人澡人人爽人人| 成年美女黄网站色视频大全免费| 女性被躁到高潮视频| 亚洲av日韩在线播放| 欧美国产精品va在线观看不卡| 在线天堂最新版资源| 好男人视频免费观看在线| 久久女婷五月综合色啪小说| 人妻人人澡人人爽人人| 欧美xxⅹ黑人| 欧美日韩av久久| 美女大奶头黄色视频| 老司机影院成人| 国产免费福利视频在线观看| 日韩 亚洲 欧美在线| 最近最新中文字幕大全免费视频 | 欧美精品国产亚洲| 精品国产一区二区三区四区第35| 亚洲内射少妇av| 一区福利在线观看| 激情五月婷婷亚洲| 午夜福利,免费看| 天堂8中文在线网| 亚洲欧美成人精品一区二区| 久久99热这里只频精品6学生| 黄色一级大片看看| videossex国产| 国产av精品麻豆| 国产在视频线精品| 纵有疾风起免费观看全集完整版| 欧美日韩精品网址| 欧美日韩成人在线一区二区| 亚洲精品国产av蜜桃| 日韩一卡2卡3卡4卡2021年| av在线app专区| xxx大片免费视频| 精品一品国产午夜福利视频| 国产精品女同一区二区软件| 久久久国产精品麻豆| av国产久精品久网站免费入址| 黄频高清免费视频| 欧美精品亚洲一区二区| 大香蕉久久成人网| 纯流量卡能插随身wifi吗| 性少妇av在线| 精品一品国产午夜福利视频| 天堂8中文在线网| 五月开心婷婷网| 人妻人人澡人人爽人人| 久久久久久久久久久久大奶| 成人二区视频| 亚洲av男天堂| 日韩精品免费视频一区二区三区| 久久久久久久久免费视频了| 午夜福利在线免费观看网站| 久久久久精品性色| 大香蕉久久成人网| 老熟女久久久| 国产精品免费大片| 国产探花极品一区二区| 少妇猛男粗大的猛烈进出视频| 国产有黄有色有爽视频| 黄色视频在线播放观看不卡| 美女大奶头黄色视频| 国产精品免费视频内射| 美女主播在线视频| 久久精品国产鲁丝片午夜精品| 亚洲成国产人片在线观看| 久久精品aⅴ一区二区三区四区 | 蜜桃在线观看..| 久久精品久久精品一区二区三区| 欧美激情高清一区二区三区 | 中国三级夫妇交换| 成年女人在线观看亚洲视频| 国产精品女同一区二区软件| 久久久国产精品麻豆| 亚洲av免费高清在线观看| 日韩人妻精品一区2区三区| 黄网站色视频无遮挡免费观看| 极品人妻少妇av视频| videos熟女内射| 夫妻午夜视频| 久久亚洲国产成人精品v| 国产1区2区3区精品| 叶爱在线成人免费视频播放| 少妇 在线观看| 99香蕉大伊视频| av线在线观看网站| 日本猛色少妇xxxxx猛交久久| 欧美变态另类bdsm刘玥| 亚洲 欧美一区二区三区| 国产熟女欧美一区二区| 国产黄色视频一区二区在线观看| 一区在线观看完整版| 黑人巨大精品欧美一区二区蜜桃| 自拍欧美九色日韩亚洲蝌蚪91| 熟女av电影| 日韩成人av中文字幕在线观看| 久久精品人人爽人人爽视色| 综合色丁香网| 国产又色又爽无遮挡免| 97在线视频观看| 在线免费观看不下载黄p国产| 两个人免费观看高清视频| 高清av免费在线| 国产亚洲av片在线观看秒播厂| 久久精品久久久久久噜噜老黄| 晚上一个人看的免费电影| 一区二区三区精品91| 美女福利国产在线| 99久久精品国产国产毛片| 国产野战对白在线观看| 亚洲欧美精品自产自拍| av不卡在线播放| 日本免费在线观看一区| 亚洲国产最新在线播放| 日韩 亚洲 欧美在线| 亚洲国产日韩一区二区| 亚洲成国产人片在线观看| 国产日韩欧美亚洲二区| 日韩大片免费观看网站| 日韩精品免费视频一区二区三区| 亚洲精品国产色婷婷电影| 亚洲精华国产精华液的使用体验| 国产一区二区 视频在线| 黄色配什么色好看| 午夜日韩欧美国产| 你懂的网址亚洲精品在线观看| 一本大道久久a久久精品| 天堂中文最新版在线下载| 欧美日韩精品网址| 天天操日日干夜夜撸| 热99国产精品久久久久久7| 女人久久www免费人成看片| 啦啦啦中文免费视频观看日本| 精品少妇黑人巨大在线播放| 国产成人av激情在线播放| 国产精品国产av在线观看| 国产男人的电影天堂91| 国产日韩欧美亚洲二区| 最黄视频免费看| 在线观看www视频免费| 一区二区三区精品91| 中文字幕制服av| 亚洲综合色惰| 亚洲国产看品久久| 一级毛片电影观看| 在线精品无人区一区二区三| 精品第一国产精品| 黄片小视频在线播放| 国产精品女同一区二区软件| 欧美黄色片欧美黄色片| 国产一区二区 视频在线| 91精品三级在线观看| 国产av国产精品国产| 18禁国产床啪视频网站| 国产人伦9x9x在线观看 | 超色免费av| 亚洲欧美日韩另类电影网站| 亚洲av国产av综合av卡| 麻豆精品久久久久久蜜桃| 亚洲天堂av无毛| 欧美成人午夜免费资源| 亚洲av男天堂| 国产精品久久久av美女十八| 亚洲内射少妇av| 另类亚洲欧美激情| 黑人欧美特级aaaaaa片| 日本黄色日本黄色录像| 日日摸夜夜添夜夜爱| 成人亚洲欧美一区二区av| 欧美 亚洲 国产 日韩一| 人成视频在线观看免费观看| 亚洲精品第二区| 国产精品一国产av| 熟妇人妻不卡中文字幕| 一级毛片 在线播放| 久久精品熟女亚洲av麻豆精品| 黑人猛操日本美女一级片| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 亚洲精品成人av观看孕妇| 一区二区三区精品91| 三上悠亚av全集在线观看| 日本vs欧美在线观看视频| 成年女人在线观看亚洲视频| 亚洲国产精品一区三区| 久久鲁丝午夜福利片| 在线观看免费高清a一片| 熟女电影av网| 曰老女人黄片| 亚洲少妇的诱惑av| 精品国产乱码久久久久久小说| 国产日韩一区二区三区精品不卡| 亚洲经典国产精华液单| 一本大道久久a久久精品| a级毛片在线看网站| 在线观看www视频免费| 人人妻人人澡人人看| 欧美在线黄色| 国产综合精华液| 国产精品av久久久久免费| 国产精品99久久99久久久不卡 | 欧美日韩成人在线一区二区| 婷婷成人精品国产| 十分钟在线观看高清视频www| 午夜免费男女啪啪视频观看| 久久青草综合色| 波野结衣二区三区在线| 亚洲欧美中文字幕日韩二区| 日本午夜av视频| 国产免费又黄又爽又色| 人人澡人人妻人| 亚洲经典国产精华液单| 曰老女人黄片| 69精品国产乱码久久久| 高清在线视频一区二区三区| 欧美中文综合在线视频| 亚洲,欧美,日韩| 好男人视频免费观看在线| 男的添女的下面高潮视频| 热re99久久精品国产66热6| 精品一区二区免费观看| 两个人免费观看高清视频| 免费观看性生交大片5| 一级毛片黄色毛片免费观看视频| 水蜜桃什么品种好| 免费在线观看黄色视频的| 欧美精品高潮呻吟av久久| 在线观看国产h片| 九草在线视频观看| 国产精品熟女久久久久浪| 香蕉国产在线看| 波多野结衣av一区二区av|