曾錦華,邱秀蓮,卞新偉,施少培
(1.司法鑒定科學研究院 上海市司法鑒定專業(yè)技術服務平臺 司法部司法鑒定重點實驗室,上海200063;2.華東政法大學,上海200042)
關鍵字:人臉合成;深度偽造;深度學習;生成式對抗網絡;實例研究
2017年12 月,Reddit網站出現一個名為“Deep-Fakes”的賬號,其上展示了將名人的人臉替換到色情視頻演員身上的一種機器學習算法。除了偽造色情作品外,該賬號還展示了偽造假新聞等破壞性更強的合成內容應用場景。至此,傳統(tǒng)的針對多媒體真實性取證研究的領域重新煥發(fā)生機,更多的研究工作開始關注于合成人像取證技術研究。
當前,人像合成技術更多關注于人體頭部圖像區(qū)域的合成,當然,部分研究工作亦關注于整個人體圖像的合成。本文重點闡述針對人體頭部(人臉)圖像的合成技術。現有的人臉合成技術大體可以分為四類,即人臉生成技術、換臉技術、人臉屬性操縱技術以及人臉表情操縱技術。其中,人臉生成指的是生成完全不存在的人臉圖像,通過生成式對抗網絡(Generative Adversarial Networks,GANs)技術可以合成真實感極高的高清人臉圖像。該技術為后續(xù)的基于神經網絡訓練的深度學習方法提供了大規(guī)模的合成人臉圖像數據庫。換臉技術指的是不同人之間針對人體臉部區(qū)域進行替換的方法,其中主流技術包括依據經典的計算機圖形學方法(如FaceSwap),以及近年來基于深度學習技術的DeepFake方法。人臉屬性操縱技術指的是修改某一人臉的面部屬性信息,實現面部動作和屬性的控制,這里面部屬性包括性別、年齡、發(fā)色、膚色、佩飾(比如眼鏡)等內容。人臉表情操縱技術則是將一個人的面部動作行為遷移到目標人臉圖像上,典型的技術包括Face2Face。此外,Deep Video Portraits技術可以將頭部位置、頭部旋轉、面部表情以及眼部動作從一人遷移到目標人體頭部圖像上。主流的用于研究和測試人臉換臉技術以及相關取證技術的公共數據庫包括FaceForensics++、DeeperForensics等。
主流的人像合成技術大體基于知名的深度學習技術GANs,該方法由Ian Goodfellow于2014年提出。GANs主要由兩部分組成,一個是生成器神經網絡,另一個是鑒別器神經網絡。生成器神經網絡負責生成目標對象,而鑒別器神經網絡則將前者生成的對象和原始數據庫中大量的真實樣本對象進行比較,鑒別前者生成對象的真假程度。通過不斷的神經網絡參數迭代調整,直至鑒別器神經網絡無法區(qū)分樣本對象和生成器神經網絡生成的對象,最終使得生成器神經網絡在沒有大量先驗知識以及先驗分布的前提下,仍然可以很好地學習逼近真實目標數據,并最終使神經網絡生成的目標對象達到以假亂真的程度。
隨著ZAO和FaceApp等人像合成開源移動應用程序的發(fā)布,以及部分開源程序的公布,使得人像合成視頻創(chuàng)造變得愈發(fā)容易。同時,互聯(lián)網上開始涌現大量的合成視頻指導教程,這都使已有的人臉識別等身份驗證系統(tǒng)面臨重大挑戰(zhàn),更嚴重的是隨之出現的詐騙等活動,以及假新聞發(fā)布等,極大危害普通大眾信息獲取安全,甚至可能危害國家安全。本文在此通過人像合成視頻鑒定實例研究出發(fā),研究人像合成技術以及相應的鑒定實踐技術,并對人像合成鑒定關鍵技術進行探討,為人像合成視頻司法鑒定提供可行的鑒定方法和技術途徑。
在一起視頻真實性鑒定案件中,委托方送檢一份信件和一張SD存儲卡,信件內容大體是敲詐勒索索要錢財,SD卡中包含一段文件名為“網上曝光.mp4”的視頻文件,文件大小為12 018 106字節(jié),時長為12 s,幀率為30幀·s,畫面大小為720像素×480像素,編碼方式為MPEG-4。視頻畫面內容為賓館房間場景,畫面中一男子頭倚著枕頭靠在床頭,上半身肩膀赤裸,下半身蓋著被子,臉部側向一女子,而該女子裹著浴巾坐在該男子床邊,并背對著鏡頭。視頻中顯示該男子正與該女子交談,畫面中該男子頭部、眼睛和嘴唇均有動作。視頻畫面中標識有“非正常拍攝”字樣,畫面分辨率較低,畫面總體亮度較暗,無錄音并帶有噪聲,但畫面中仍能分辨出視頻中男子面貌,檢材錄像截圖如圖1所示,其中紅色區(qū)域經過模糊處理以保護隱私。委托方要求對檢材錄像中紅框標示的人臉是否合成形成進行鑒定,其中紅框標示的人臉在此稱之為需檢人臉,其所對應的人像稱之為需檢人像。
圖1 檢材錄像截圖
1.2.1 屬性檢驗
使用winhex軟件對檢材錄像文件的電子數據進行檢驗,在檢材錄像的文件末尾發(fā)現“Adobe After Effects CS6(Windows)”和“Adobe XMP Core”等信息,顯示檢材錄像經Adobe After Effects CS6軟件剪輯生成,部分信息如圖2所示。
圖2 檢材錄像電子數據檢驗信息
1.2.2 圖像處理
使用人臉檢測系統(tǒng)對需檢人臉進行檢測,結果顯示無法對檢材錄像中的需檢人像人臉進行自動化檢測和提取,足以反映檢材錄像中需檢人臉圖像的圖像質量較差。通過圖像處理系統(tǒng)截取檢材錄像中需檢人臉圖像計算需檢人臉圖像大小大致為40像素×50像素。由于檢材錄像中需檢人臉圖像質量較差,對其圖像處理提高特征可辨識性顯得尤為重要。鑒定人首先對檢材錄像進行逐幀截取,并針對檢材錄像中的需檢人像上半身區(qū)域圖像進行裁剪,然后使用圖像降噪技術對裁剪后的目標視頻圖像序列進行降噪處理,并進行旋轉、插值放大,以及亮度和對比度調整等圖像處理,需檢人像視覺效果得到一定改善,為后續(xù)人像合成特征提取和檢驗奠定基礎。
1.2.3 檢驗要點
考慮到檢材錄像中需檢人像圖像質量較低,鑒定人的檢驗要點如下:
(1)成像條件中的光照特征。檢材錄像畫面為黑白圖像,從錄像畫面中的場景布局可見,需檢人像左右兩側的床頭燈并未開啟,房間中光源照射方向呈現自上而下方向,可能為頂燈照射。對需檢人像頭部區(qū)域圖像檢驗發(fā)現,在部分視頻圖像中,其左側額頭位置可見相對明亮條狀區(qū)域,說明需檢人像成像的光照條件應為從左上側方向照射的光源,其光照特征與檢材錄像中的背景光照特征不符。
(2)需檢人像面部動作特征。檢材錄像中需檢人像腿部不時有動作,其頭部、嘴部在檢材錄像12 s時長中一直保持類似說話狀態(tài)下的動作。以某一關鍵畫面為基點,對檢材錄像中的需檢人像頭部和嘴部動作進行檢驗。檢驗發(fā)現,檢材錄像中需檢人像的頭部和嘴部動作存在同步周期重復性運動特征。
1.2.4 分析說明
檢驗發(fā)現,檢材錄像電子數據中包含“Adobe After Effects CS6(Windows)”信息,檢材錄像中需檢人像的頭部圖像光照特征與場景背景光照特征不符,需檢人像的頭部區(qū)域圖像動作特征存在同步周期重復特征。經綜合評斷,鑒定人最終給出了“檢材錄像中需檢人像的頭部圖像為合成形成”的鑒定意見。
(1)合成和剪輯的關系。由本鑒定實例中對檢材錄像的屬性檢驗可知,其是經過Adobe After Effects軟件生成,可以初步推斷出檢材錄像為剪輯形成,但這些并不能回答委托方的委托事項,即檢材錄像中的需檢人臉圖像是否系合成形成。剪輯的概念包含合成,但剪輯不等于合成,合成可以認為是剪輯技術中技術含量較高的實施手段和方法。
(2)圖像處理的重要性。本案件中,檢材錄像畫面進行了去色、加噪等反取證技術處理,通過降低圖像質量等方法對合成痕跡進行掩飾,因此,鑒定過程中需要對檢材錄像畫面進行圖像降噪和放大增強的圖像處理,以突出視頻畫面中的細微圖像特征,并用于后續(xù)的合成特征檢驗。圖像處理可以認為是聲像資料鑒定的基本技術,但同時也是最關鍵的核心技術。
(3)光照特征一致性。光照條件是視頻成像的重要組成部分,自然拍攝的視頻畫面中的物體,其光照特征與背景圖像具有較好的一致性和協(xié)調性,合成視頻中的目標合成圖像由于異源成像條件,致使合成物體圖像和背景圖像的光照特征不一致,因此,可以通過檢驗圖像中的目標物體的光照特征與背景光照特征的一致性實現合成物體圖像鑒定。
(4)動作特征異常。合成視頻中必須增加目標物體的動態(tài)特征來增強視頻畫面的真實感,針對人臉頭部合成或人臉合成,通常伴隨著人物的動作行為,具體包括頭部運動、眼睛運動和嘴部動作等?,F有的人臉合成技術大體通過逐幀圖像生成方式,并未考慮視頻中幀與幀之間的動作關聯(lián)性和自然程度?,F有的研究方法有通過人體微動作行為的協(xié)調性異常(比如眼球運動),以實現合成視頻鑒定。本案中,需檢人像的頭部和嘴部動作特征存在周期重復異常,視頻中目標人物的身份信息合成應是通過異源頭部視頻序列圖像替換方式實現??赡苁芟抻诤线m的異源頭部視頻圖像長度限制或減少合成工作量角度出發(fā),而采用周期重復替換方式實現。但對人物微動作行為的檢驗需要較好的圖像質量保障,因此圖像處理就更顯其重要性。
人像合成鑒定關鍵技術檢驗內容主要包含人臉和人體區(qū)域,涉及人體/面部組件和屬性、運動情況、微動作行為、人體動作與聲音的關聯(lián)性和一致性等。由于檢驗內容的廣泛性,其涉及的聲像資料司法鑒定項目亦比較繁多,包括圖像真實性鑒定、錄音真實性鑒定、人像鑒定、語音同一性鑒定,以及其他人工智能、模式識別等方法。人像合成鑒定相關的專家檢驗技術可參考相關行業(yè)技術標準和技術規(guī)范,本文僅對人像合成鑒定中通過人工智能和模式識別技術的檢驗關鍵技術進行簡要探討。
目前,主流的人像合成視頻技術包括FaceSwap、DeepFake、Face2Face方法等,這些方法生成的合成對象圖像序列通常會伴隨目標對象圖像特征的紊亂和不協(xié)調,比如光照不一致、圖像抖動、對象細微動作不自然等。例如,現有的DeepFakes檢測技術所利用的特征包括時/空域、空域特征、外圍成像環(huán)境特征以及人體生物信號等。人像合成技術流程大體劃分為人臉檢測、人臉生成、圖像融合。針對各個合成實施階段中可能引入的特征不一致痕跡,通過基于特征一致性的人像合成視頻鑒定技術是一個重要途徑。該方法主要利用視頻圖像中目標物體表面光照、陰影、視頻圖像中人物表情、姿態(tài),以及圖像內容紋理、運動物體運動軌跡等特征分析出發(fā),判斷檢材視頻對象是否包含人像合成痕跡。
先對待檢測區(qū)域通過提取關鍵特征并建立特征描述來進行圖像區(qū)域模型構建。其中,可行的特征提取方法包括Scale-Invariant Feature Transform(SIFT)、Speeded Up Robust Features(SURF)、Local Intensity Order Pattern(LIOP)等。生成模型描述后,需要對局部區(qū)域之間的模型描述進行差異比較,一般模型以矩陣形式表示,可以使用特征值、矩陣范數等參數對不同矩陣進行差異衡量。模型差異比較后,需要對差異分值進行進一步建模分析??紤]到自然視頻圖像本身存在一定程度的背景圖像與目標圖像相對穩(wěn)定的模型描述差異變化,而合成對象與背景環(huán)境差異相對較大,通過對局部區(qū)域模型之間差異分值建模評估,可以實現對原始視頻圖像差異分值分布和對應合成人像視頻圖像的有效區(qū)分?;谔卣饕恢滦缘娜讼窈铣梢曨l鑒定技術具體實施框架如圖3所示。
圖3 基于特征一致性的人像合成視頻鑒定技術實施框架
現有主流的人像合成方法大體是基于卷積神經網絡技術,比如DeepFake以及其他各種基于GANs的合成技術。通過充分利用深度學習方法優(yōu)勢,利用深度學習方法對抗人像合成技術成為該領域的研究方法和思路。深度神經網絡可以提取人臉圖像的細微特征,放大合成圖像中不自然的細節(jié)特征信息,實現合成視頻圖像中局部合成人像的識別和鑒定。
基于深度學習的人像合成視頻鑒定技術基本流程包括圖像預處理、特征提取和合成區(qū)域定位。在圖像預處理中,先對檢材視頻進行分幀處理,并使用基于運動特征或基于聚類的關鍵幀檢測方法進行視頻關鍵幀提取。為了突出合成圖像的細微特征差異,需要對視頻圖像進行圖像預處理。視頻中的合成人像與自然人像在視覺上可能較難分辨,但其在高緯度特征空間中可能存在明顯差異,這也是深度卷積神經網絡技術的優(yōu)勢所在。經過預處理后的圖像可以在后續(xù)的卷積神經網絡中進行有效的特征提取,比如利用ResNeXt網絡。提取的合成人像特征經過區(qū)域定位模型進行最終的合成區(qū)域識別,可行的物體定位網絡模型包括SPPNet等?;谏疃葘W習的人像合成視頻鑒定技術具體技術框架如圖4所示。
圖4 基于深度學習的人像合成視頻鑒定技術框架
隨著自動化人像合成檢測技術的愈發(fā)成熟,檢測技術準確性得到了極大的提高。但其亦受到不斷更新的合成技術的挑戰(zhàn)。完善的人像合成視頻鑒定技術必然是專家檢驗技術和人工智能自動化檢測技術相輔相成的綜合取證,特別是在反取證技術手段結合下的人像合成視頻鑒定。比如,本文研究的人像合成視頻鑒定案例中,為了掩蓋人像合成痕跡,偽造者對合成視頻進行了去色、加噪等降低圖像質量的反取證圖像處理,檢材錄像中的合成人臉圖像質量較差,在人臉檢測算法中甚至無法對人臉圖像進行有效檢測和定位,也就無法進行自動化檢測算法中的后續(xù)特征提取和特征分類操作。然而,專家檢驗技術有其獨到的優(yōu)勢,形成了豐富的專家經驗知識以及特征價值評估方法。專家檢驗技術和人工智能自動化檢測方法在人像合成視頻鑒定中,所利用的合成特征本質上具有相似性,均是對人像合成中可能遺留的光照、運動、圖像紋理等方面存在的異常特征進行有效提取和比較檢驗,雙方技術各有其優(yōu)缺點。為了應對日益復雜的人像合成技術挑戰(zhàn),結合人像合成痕跡的專家檢驗和人工智能自動化檢測的鑒定方法將成為未來司法鑒定的必然趨勢和可行途徑。
現有的基于計算機圖形學方法以及卷積神經網絡技術的人像合成視頻技術對多媒體證據有效性以及假新聞等甚至危及國家安全方面所形成的潛在影響,本文從人像合成視頻司法鑒定實例研究出發(fā),提出人像合成視頻鑒定專家檢驗關鍵技術和實施方法。同時,針對人像合成視頻鑒定的基于人工智能的自動化取證技術進行探討,提出基于特征一致性的人像合成視頻鑒定技術,以及基于深度學習的人像合成視頻鑒定技術方案。人像合成技術以及相應的取證鑒定技術必然將處于長期的攻防狀態(tài)中,通過專家檢驗技術和基于人工智能的自動化檢測方法的有效結合將成為必然趨勢,兩者相輔相成,可以構建相對完善的綜合鑒定取證方案。