唐玉敏,范 菁,曲金帥
1.云南民族大學 電氣信息工程學院,昆明 650500
2.云南省高校通信與信息安全災備重點實驗室,昆明 650500
過去,文本偽造檢測的過程僅限于打樣、驗證和查詢,數(shù)字數(shù)據(jù)在此過程中并沒有起到很大重用。但隨著數(shù)字數(shù)據(jù)在互聯(lián)網上的快速增長以及其在日常生活中的相關性,如數(shù)字營銷、法律取證圖像、醫(yī)學圖像、敏感衛(wèi)星圖像處理和許多其他的應用,使得偽造問題慢慢成為人們所關注的點。此外,不同應用程序中的數(shù)據(jù)的發(fā)展,也在助長網絡犯罪率的增加。在這種情況下,有趨勢表明目前數(shù)據(jù)內容傳播存在嚴重的漏洞,數(shù)字數(shù)據(jù)的可信度也在大大下降[1]。深度偽造與網絡信息息息相關,與之有關的一些網絡安全問題也隨之出現(xiàn),很多學者對此也提出了相應的學術擔憂以及看法[2-3]。
為了防止深度偽造生成技術被不法分子惡意利用,越來越多的學者就深度偽造生成技術研究提出了一系列檢測方法,實現(xiàn)在網絡、現(xiàn)實生活中更好地幫助人們辨別獲取到的視頻、音頻、圖像所傳遞的信息真?zhèn)巍?/p>
本文將從深度偽造生成技術、深度偽造檢測技術這兩個方面進行分析總結,并對深度偽造生成與檢測未來進行總結與展望。
現(xiàn)有的深度偽造技術主要是基于音頻、視頻以及圖像的偽造生成方法。自深度偽造技術盛行以來,已有大量學者對其進行研究[4-9]。首先深度音頻偽造技術,又稱語音技術,是對語音信號的一種偽造生成。其次深度視頻偽造技術,是對視頻序列中的對象或者字幕內容進行替換。最后深度圖像偽造,大部分都是基于人的圖像偽造,對圖像中的人物進行替換或者是對人物對事件做出的表情進行替換的技術。以下小節(jié)將對現(xiàn)有深度音頻偽造技術、深度視頻偽造技術以及深度圖像偽造技術進行總結。如圖1所示,為深度偽造生成大致思路框圖。通過該思路設計深度偽造生成算法,可實現(xiàn)深度音頻、視頻、圖像偽造,例如光照、姿態(tài)、身份、眼嘴部動作等其余特征的偽造[10-12]。
圖1 深度偽造生成框架Fig.1 Deepfake generation framework
1.1.1 深度音頻偽造技術
音頻偽造技術,通常是從文本到語音或者是由語音轉換成合成語音兩種方式[13]。文本到語音的方式,主要是通過計算機技術將指定的文本內容轉換成語音信號(語音合成),這種方法對社會幾乎不造成太大的負面影響;而語音轉換成合成語音則是計算機將一段語音轉換成為指定音色的語音信號的過程(語音轉換)[14-15],語音轉換通常包含頻譜和韻律兩個方面的轉換,需要大量的語音數(shù)據(jù)進行訓練,訓練完成之后生成的合成語音與目標聲音相差無幾,具有極大的欺瞞性[16]。通過上述方法,不法分子可以將一段語音進行相應操作,并將之插入到另一段與之無關的語音中,造成整段語音的語義發(fā)生變化,對社會造成無法想象的惡性后果。
Zhang等人[17]提出,在生物識別時對話人的身份驗證很重要;但隨著深度音頻偽造技術的迅猛發(fā)展,自動說話人驗證系統(tǒng)(ASV)越發(fā)地容易受到計算機偽造的攻擊和欺騙。通過分析聲紋認證系統(tǒng)中特征向量——梅爾倒譜,將改進的雙向長短時記憶網絡加之全局方差一致性濾波,實現(xiàn)了對聲紋認證系統(tǒng)的欺騙攻擊[18]。Qureshi等人[19]指出,假新聞對社會和政治等方面都有很大的影響。音頻偽造技術可以實現(xiàn)對于特定的新聞背景下記者報道的語音內容進行合成,惡意用戶則將假新聞發(fā)布到社交媒體上,以誤導和欺騙群眾。Song等人[20]提出TACR-Net,用于解決合成語音內容的編輯系統(tǒng)中說話人與內容在嘴型上不一致的問題。
目前深度音頻偽造在電話詐騙、名人爭議錄音合成均有了典型違法案例[21]。因此更好地檢測出音頻真?zhèn)?,是現(xiàn)實的需求,是維護人民權益、網絡內容安全以及政治內容安全的保障。
1.1.2 深度視頻偽造技術
視頻偽造技術,通常是將特定的視頻,使用機器學習、深度學習的算法將特定視頻中的人與人或人與物或物與物進行交換的過程,如表1,即為目前可實現(xiàn)視頻偽造的一些經典工具。視頻是一連串連續(xù)的視頻幀的組合,對于目前視頻的偽造,最重要的是實現(xiàn)偽造視頻內容的連續(xù)性。故目前存在最多的視頻偽造:一是視頻中的語音以及內容偽造;二是視頻中角色偽造。視頻中的語音及內容偽造,主要是針對視頻中的角色對待一件事件或者事物做出的反應和回應進行篡改,使得視頻原先表達的內容發(fā)生了改變;而視頻中的角色偽造,指的是將某個視頻的主角換成目標對象,使得該目標對象成為該視頻的主角,目前的視頻角色偽造技術越來越成熟,其危害性也在慢慢地增加。
表1 視頻偽造經典工具Table 1 Video forgery classic tool
Zakharov等人[22]提出一種對抗性元學習生成模型框架,實現(xiàn)使用少量圖像樣本建立一個偽造視頻,且視頻呈現(xiàn)的效果高度逼真。此外,Samuel[23]指出近期有一個深度視頻偽造app,在未經本人許可的情況下,可將一個人變成某色情視頻的主角,并以幾乎全裸的形象呈現(xiàn)在色情視頻中。Thies等人[24]針對生成的偽造視頻與原始視頻光度不一致的問題,提出了一種單目目標視頻序列的實時面部重演方法,實現(xiàn)了生成的偽造視頻與現(xiàn)實生活中的光照無縫連接,偽造視頻的生成效果逼真清晰。
2017年,第一個假視頻發(fā)布,內容為非色情名人參演色情視頻。2020年,深度視頻偽造技術被用來制作國際領導人的假演講視頻,引來各國的關注[25]。深度視頻偽造技術正成為全球安全威脅,也隨之成為了世界各學者、各國家機構廣泛關注的熱點。
1.1.3 深度圖像偽造技術
目前大部分的深度圖像偽造技術都是利用深度學習技術,且大多集中在關于人的操作。從目前最新深度圖像偽造成果來看,深度圖像偽造技術在操作的方式以及程度上可以分為四類:完整的面部合成、身份替換、屬性操作以及面部重演[26]。其中完整的面部合成是指對面部進行操作或編輯的過程,一般生成的是并未在現(xiàn)實生活中存在的人的面部。其次身份替換即是將特定圖像目標中的人臉替換成為源目標中的其他人臉。此外,屬性操作是指修改目標圖像的特定面部區(qū)域,例如:頭發(fā)顏色、表情、性別等。面部重演作為新興的深度圖像偽造技術,可以更好地作為面部表情遷移的條件面部合成任務;它可以實現(xiàn)轉化目標圖像的表情、面部姿態(tài)以及眼球運動等等,使得偽造的圖像更加逼真。
在面部合成方面,Lin等人[27]針對計算機在合成面部圖像時的計算限制(交互內容有限),提出了條件坐標生成對抗網絡(COCO-GAN),實現(xiàn)了生成樣本大于訓練樣本的過程(越界生成),并且生成圖像質量為當時最先進的質量。Karras等人[28]針對StyleGAN生成圖像質量問題進行了修復(代碼優(yōu)化、惰性正則化、權重解調等),提出了StyleGAN2,實現(xiàn)在面部圖像合成質量上、訓練表現(xiàn)上的提升。
在身份替換方面,Gandhi等人[29]提出通過使用對抗性擾動(對圖像進行修改)來增強深度偽造,使得偽造的人臉圖像與原始圖像在視覺上難以察覺,實現(xiàn)了深度圖像偽造的檢測準確率從95%下降到了27%。
在屬性操作方面,Geng等人[30]則通過3D引導的細粒度人臉操作方法,實現(xiàn)了注釋者無法區(qū)分真實圖像與計算機生成的偽造人臉圖像。Huang等人[31]針對屬性操作容易出現(xiàn)邊界的偽影的問題,提出FakePolisher方法,實現(xiàn)更好的欺騙假圖像檢測分類器。
在面部重演方面,Zhang等人[32]提出了一種一次性方法來生成僅使用單個源圖像的重演面部,且與一組目標圖像的方法相比取得了具有競爭力的結果。
數(shù)字圖像的生命周期由圖像采集、圖像編碼和圖像處理三個步驟。第一步圖像采集,使用外部設備獲取圖像;第二步圖像編碼,涉及存儲或保存數(shù)字圖像;第三步圖像編輯,涉及圖像的后處理,以增強或修改圖像的實際內容[33]。
如今,互聯(lián)網上很容易獲取大量圖像,尤其是在不同的社交媒體平臺上,這些圖像可用于生成虛假信息。數(shù)字圖像處理目前可分為三類:數(shù)字水印、數(shù)字簽字和圖像偽造。數(shù)字水印是在圖像進行處理后對圖像標記所有權的方式;而數(shù)字簽字則是確保數(shù)字圖像的真實性,通過圖像偽造的方法使得圖像呈現(xiàn)出真實情況;圖像偽造則是通過對圖像進行操作,以改變其所描繪的事實,而這種技術鮮有人去關注其可能造成的社會危害,而僅僅只是關注其偽造結果的逼真性。
目前深度偽造生成圖像在偽造圖像逼真性上做到了越來越多的突破,傳統(tǒng)的檢測方法已經很難檢測出偽造圖像的真?zhèn)?。因此研究更好的深度偽造圖像檢測方法,是目前學者們可接續(xù)研究的研究熱點。
深度偽造生成技術主要由深度音頻、視頻、圖像偽造技術組成。數(shù)據(jù)集相應地分為深度音頻偽造數(shù)據(jù)集、深度視頻偽造數(shù)據(jù)集、深度圖像偽造數(shù)據(jù)集三類。
本節(jié)將對深度音頻、視頻、圖像偽造數(shù)據(jù)集進行一一的說明和總結。
1.2.1 深度音頻偽造數(shù)據(jù)集
據(jù)目前研究而言,并未存在高質量的深度音頻偽造數(shù)據(jù)集(具有對其良好的音頻通道,并且人類無法立即感知到錯誤)。現(xiàn)有的方法將擁有音頻通道的偽造視頻進行語音轉錄,并應用TTS、VC算法或基于卷積神經網絡的方法轉換成偽造語音數(shù)據(jù)集[13]。
FF[34]:FaceForensics++是擁有5 000個包含音頻通道視頻序列的基準深度偽造數(shù)據(jù)集,其中音頻通道由Deepfakes、Face2Face、FaceSwap以及NeuralTexture操作,且大部分音頻數(shù)據(jù)是非英語內容組成。
VoxCeleb[35]:VoxCeleb數(shù)據(jù)集是基于計算機視覺技術的全自動流水線創(chuàng)建的開源媒體數(shù)據(jù)集。其中VoxCeleb包含從上傳到YouTube的視頻中提取的1 251名名人的100 000多個話語,如表2所示,為VoxCeleb數(shù)據(jù)集的分布情況說明。
表2 VoxCeleb數(shù)據(jù)集分布Table 2 VoxCeleb dataset distribution
VoxCeleb2[36]:VoxCeleb2是一個從開源媒體收集的超大規(guī)模視聽說話人識別數(shù)據(jù)集。使用完全自動化的管道。其中包含來自6 000多名發(fā)言者的超過一百萬條話語,這比任何公開可用的說話人識別數(shù)據(jù)集都要大幾倍。
VCTK[37]:VCTK(The Voice Cloning Toolkit)數(shù)據(jù)集是在愛丁堡大學的半消音室內,由109名英語母語者使用不同口音讀取由貪婪算法選擇出的文本而采集到的音頻數(shù)據(jù)集。且VCTK數(shù)據(jù)庫擁有幾種變體,例如語音增強數(shù)據(jù)庫、混響語音數(shù)據(jù)庫、Microsoft可伸縮噪聲語音數(shù)據(jù)庫等等。
LibriSpeech[38]:LibriSpeech數(shù)據(jù)集起源于LibriVox項目的有聲讀物,包含以16 kHz采樣的1 000 h的音頻數(shù)據(jù)。該數(shù)據(jù)集通過(文本錯誤率)WER將音頻數(shù)據(jù)分為clean和other兩部分,再通過進一步的細分將數(shù)據(jù)集分 為dev-clean、test-clean、dev-other、test-other、trainclean-100、train-clean-360、train-other-500七個部分。
VCC 2018[39]:VCC 2018(The Voice Conversion Challenge 2018)是VCC的第二個版本,是一項大規(guī)模語音轉換挑戰(zhàn)賽。VCC 2018數(shù)據(jù)集是從DAPS(The Device and Production Speech)數(shù)據(jù)集[40]中篩選的一部分說話人形成的數(shù)據(jù)集,該部分數(shù)據(jù)是由專業(yè)美語人士在干凈無噪聲的環(huán)境中錄制形成的。其中包括2 572個評估集,每個評估集合有44個話語組。
1.2.2 深度視頻偽造數(shù)據(jù)集
IJB-C[41]:IJB-C(IARPA Janus Benchmark-C)數(shù)據(jù)集包含3 531個受試者的人臉圖像和視頻,邊界框和源數(shù)據(jù)標簽均使用的是AMT(Amazon Mechanical Turk)。IJB-C包括11 779個全動態(tài)視頻提取出的117 542幀,平均每33幀為一個主題,每三個主題為一個完整視頻。
FaceForensics++[34]:FaceForensics++數(shù)據(jù)集是Face-Forensics數(shù)據(jù)集的擴展[42]。收集了現(xiàn)實場景下的視頻(尤其是YouTube),并使用四個最先進的自動面部處理方法對視頻進行剪輯和篩選后獲得的大規(guī)模視頻序列數(shù)據(jù)集。
CelebV[43]:該數(shù)據(jù)集是從YouTube上收集的五位名人視頻,分別為唐納德-特朗普、伊曼紐爾-馬克龍、特蕾莎-梅、馬云以及凱瑟琳;視頻平均時長為30 min,且每個名人都具有自身獨有的面部特征,具有很好的穩(wěn)健性;此外200 000張人臉均使用半自動方法進行注釋和額外的手動校正。
VidTIMIT[44]:VidTIMIT數(shù)據(jù)集是由43個受試者在受控環(huán)境下拍攝(面對指定攝像機、背誦預定的短語)形成的。每個受試者的視頻分別用一個編號序列的JPEG圖像存儲起來,分辨率為512×384。
LRS2[45]:LRS2(The Lip Reading Sentences 2)數(shù)據(jù)集是目前公開的最大可用唇讀句子數(shù)據(jù)集。該數(shù)據(jù)集由BBC的一些新聞和脫口秀節(jié)目中的短段組成而來(最長6.2 s)且包含200多萬個單詞和140 000多個話語,具體組成如表3所示。
表3 LRS2數(shù)據(jù)集分布Table 3 LRS2 dataset distribution
TCD TIMIT[46]:TCD-TIMIT數(shù)據(jù)集是由62位說話者和6 000多個語音朗讀示例組成,語音長度通常為4~5 s,均來自語音平衡和自然的句子。該視頻數(shù)據(jù)是在實驗室的兩個固定角度錄制形成的,分辨率為1 080p。
1.2.3 深度圖像偽造數(shù)據(jù)集
FFHQ[47]:FFHQ(FlickrFaces-HQ)數(shù)據(jù)集包含70 000張分辨率為1 024×1 024的高質量人臉面部圖像,且該數(shù)據(jù)集在年齡、種族和圖像背景擁有多種的變化,在眼鏡、太陽鏡、帽子等配飾的覆蓋率也更好,如圖2所示,即為該數(shù)據(jù)集的部分示例圖。
圖2 FFHQ數(shù)據(jù)集示例圖Fig.2 Example graph of FFHQ dataset
RAF-DB[48]:RAF-DB(現(xiàn)實世界下的人臉情感數(shù)據(jù)庫)是可用于面部表情識別的數(shù)據(jù)集;包含29 672張人臉面部圖像,通過40個獨立的標記工具標注出基礎情感數(shù)據(jù)集(15 339張)以及復合情感數(shù)據(jù)集(厭惡情緒去除,14 333張)。
VGGFace2[49]:VGGFace2是由9 131個主題、331萬張圖像組成(每一個主題包含了362.6張圖像);該數(shù)據(jù)集是通過谷歌圖像搜索引擎下載獲取,具有身份數(shù)量多、涵蓋姿勢、年齡和種族范圍大、標簽噪聲小的特點,比較適合現(xiàn)實場景中的實驗研究,數(shù)據(jù)集示例如圖3所示。
圖3 VGGFace2數(shù)據(jù)集示例圖Fig.3 Example graph of VGGFace2 dataset
Yale Face Database B[50]:Yale Face Database B是由耶魯大學計算機視覺與控制中心建立的人臉數(shù)據(jù)庫。該數(shù)據(jù)集中,每個受試者在特定環(huán)境中做出9個姿勢,在每個姿勢下給予64種不同的光照,以此方式重復實驗獲取總的人臉圖像數(shù)據(jù)集。該數(shù)據(jù)集包含10個受試者的5 760張單光源圖像,數(shù)據(jù)集圖像大小為640×480。
Helen[51]:Helen數(shù)據(jù)集包含2 330幅高分辨率全注釋的現(xiàn)實場景下的人臉圖像數(shù)據(jù)。其中訓練集圖像2 000張,測試集圖像330張。該數(shù)據(jù)集使用了AMT對圖像進行精準的手工注釋,如眼睛、鼻子、嘴巴等等,此外每幅圖標注有194個特征,具有較高的魯棒性。
深度偽造技術的快速發(fā)展,是對隱私、社會安全以及互聯(lián)網的完整性的一種重大威脅。為了抑制、避免深度偽造技術影響到人類的正常生活,深度偽造檢測技術成為了一個很重要的工具。近幾年,有很多的深度偽造檢測技術提出并被用于對抗深度偽造技術[52-57]。
最初目標檢測技術多是用于模式識別等任務。如今已經擴展成為使用機器學習、深度學習、人工智能技術實現(xiàn)對音頻、視頻、圖像數(shù)據(jù)的真?zhèn)螜z測。
2.1.1 深度音頻偽造檢測技術
當前,可以使用多樣的軟硬件技術創(chuàng)建深度偽造音頻數(shù)據(jù)。音頻偽造技術旨在音頻數(shù)據(jù)中刪除某些內容或者增加某些特定內容而形成特定的音頻數(shù)據(jù)。因此,對音頻數(shù)據(jù)的真?zhèn)舞b定是十分必要的[58]。
現(xiàn)有的深度音頻偽造檢測技術可分為主動檢測和被動檢測技術。主動檢測技術是使用某種方法在原始音頻數(shù)據(jù)中生成數(shù)據(jù)水印,另一方在使用過程中會重新生成水印,檢測時將重構后的水印與接收的水印進行比對,一致則為原始不一致則為偽造。與主動不同的是,被動檢測技術更受學者們的歡迎,因為它不需要任何的先驗知識(水?。?,而是利用偽造音頻在創(chuàng)建過程中留下的痕跡進行檢測。首先利用深度音頻偽造檢測算法將可疑語音分為有聲段、無聲段兩個部分;再利用特定的具有魯棒性的后處理操作方法從片段中提取特征,并將特征進行相似性分析,從而檢測出偽造的音頻片段。
Chettri等人[59]為了實現(xiàn)更好的偽造音頻檢測魯棒性,提出了通過邏輯回歸將深度神經網絡(CNN、CRNN、ID-CNN、Wave-U-Net)和傳統(tǒng)的機器學習模型(GMM、SVM)組合成一個深度偽造音頻檢測集成模型。Moussa等人[60]針對目前刑事檢察人員獲取到的偽造音頻多是具有未知特征無限制來源的數(shù)據(jù),用傳統(tǒng)的方法很難檢測出真?zhèn)蔚膯栴};提出一種無約束的偽造音頻檢測技術——Transformerseq2seq網絡,實驗證明該技術優(yōu)于目前有競爭性的網絡和CNN基線網絡,同時具有參數(shù)量最小的優(yōu)勢。Ustubioglu等人[58]針對目前音頻檢測多是手工提取特征的方法,提出了第一種將梅爾譜圖與深度學習應用到一起的深度音頻偽造檢測方法。實驗證明該方法與其他研究相比具有較高的有效性、魯棒性和精確性。
目前基于傳統(tǒng)的手工提取特征的深度音頻偽造檢測技術已經很難精確地鑒別出音頻數(shù)據(jù)的真?zhèn)?。而使用深度學習網絡檢測音頻數(shù)據(jù)的技術目前已經有些學者進行了嘗試并獲取了一些可觀有效的結果。未來音頻檢測技術可以接續(xù)往深度學習方向進行研究,以實現(xiàn)進一步的技術突破。
2.1.2 深度視頻偽造檢測技術
由于智能手機和數(shù)據(jù)設備的普及,視頻錄制功能越發(fā)得強大,使得目前的視頻存在成本低、易于捕獲以及易于在社交媒體共享的特點。然而視頻編輯工具和技術的發(fā)展迅猛,也使得視頻的偽造變得越發(fā)容易。很多不法分子通過視頻偽造用于宣傳不良言論、獲取非法利益,使得目前的視頻的真實性不斷地受到公眾的質疑。其中深度視頻偽造檢測技術可分為主動檢測和被動檢測兩類[61]。主動檢測可以進一步分為數(shù)字水印和數(shù)字簽字兩類,這兩類均是通過在視頻數(shù)據(jù)中加入不可見的信息,如若視頻被篡改不可見信息便會自動發(fā)生改變,但因該方法過于依賴算法和硬件的實現(xiàn)以及先驗信息的獲取,故學者們更加偏向于研究被動檢測的技術。被動檢測技術則是利用由于視頻偽造而在視頻幀中留下的肉眼無法識別的痕跡進行視頻偽造檢測。這種痕跡多是統(tǒng)計數(shù)據(jù)的變化,如噪聲、紋理、光流差異等等,學者們則是通過將視頻幀中實現(xiàn)幀的差異檢測從而實現(xiàn)視頻偽造的真?zhèn)螜z測。
Yang等人[62]針對當時的深度視頻偽造多是通過拼接合成人臉創(chuàng)建到原始視頻中這一缺陷,引入3D頭部姿勢(頭部方向和位置)的方法來訓練SVM分類器用于區(qū)分原始視頻數(shù)據(jù)和深度偽造視頻數(shù)據(jù)。考慮到偽造視頻在媒體中傳播之快,JPEG委員會發(fā)起了JPEG Fake Media探索,目的是產生一個可以促進對媒體資產創(chuàng)建和修改進行安全可靠注釋的標準,該標準可支持多種應用場景[63]。Demir等人[64]針對計算機偽造視頻不具備人類的生物信號的特點,提出了基于眼睛和凝視特征構建的深度視頻偽造檢測器,并將視覺、幾何度量和光譜集成在其中,實現(xiàn)在CelebDF數(shù)據(jù)集上88.35%的檢測準確率。Zhou等人[13]針對生成的偽造視頻在視聽上不同步的問題,提出一種視覺/聽覺深度偽造聯(lián)合檢測技術,并表明視聽內在同步有利于深度視頻偽造檢測,并產生了出色的泛化能力。
現(xiàn)有的被動深度視頻偽造檢測技術分為空間和時間兩個部分。雖然目前學者們利用這兩部分獲得了不少成果,但由于手工制作深度偽造視頻是一項相當耗時的工作,導致目前學術環(huán)境中仍然缺乏大型的深度偽造視頻標準化數(shù)據(jù)集,使得研究人員的研究很難獲得大的突破。其次,由于目前篡改技術的不斷增多,視頻偽造篡改不再僅限于一種類型的篡改,視頻偽造檢測的難度也在不斷地提升。未來視頻偽造數(shù)據(jù)集的建立以及多類型視頻偽造檢測是學者們可以接續(xù)研究的熱點以及難點。
2.1.3 深度圖像偽造檢測技術
數(shù)字圖像目前在報紙、數(shù)字取證、科學研究、醫(yī)學等領域都發(fā)揮著重要作用??紤]到通過WhatsApp、Instagram、Telegram和Reddit等各種社交媒體平臺過度使用圖像共享的功能,區(qū)分深度偽造圖像的真?zhèn)螌⑹且豁検志哂刑魬?zhàn)性的任務[65]。深度偽造圖像檢測的方法目前可分為主動和被動兩種方法。主動方法即和深度圖像和視頻偽造的主動方法類似,利用數(shù)字簽字和水印實現(xiàn)。而被動檢測又可分為獨立和非獨立兩種方式:獨立檢測側重于檢測圖像重采樣和壓縮偽造;非獨立檢測則側重于圖像拼接、復制和移動偽造。
Jeong等人[66]針對傳統(tǒng)深度圖像偽造檢測方法嚴重依賴訓練設置,會導致測試性能的下降的問題,提出雙邊高通濾波器(BiHPF),它通過放大在合成圖像中發(fā)現(xiàn)的頻率水平偽影的效果,實現(xiàn)穩(wěn)健地檢測出各類深度偽造圖像。Liu等人[67]針對目前偽造檢測技術在遇到一些常見轉換(如模糊、調整大?。r出現(xiàn)泛化能力不足的問題,提出了一種新穎的塊混洗學習并結合對抗損失算法克服混洗引入的噪聲帶來的過擬合問題,實現(xiàn)深度圖像偽造檢測的先進泛化能力。Guarnera等人[68]使用期望最大化(EM)算法提取局部特征,然后訓練分類器(K-NN、SVM、LDA)來分辨真實圖像和由當時最新的五種架構生成的圖像的真?zhèn)?,結果表明,這個檢測方案具有可解釋性、對法醫(yī)調查也很有價值。Hooda等人[69]針對基于DNN的深度偽造檢測對于對抗性深度偽造生成的圖像檢測效果不好的問題,提出了正交梯度以減弱深度偽造技術的對抗性,以實現(xiàn)深度偽造檢測器的魯棒性。裘昊軒等人[70]針對偽造圖像問題,提出改進的對抗生成算法APGD,通過使用生成對抗樣本進行擾動,使得深度偽造模型出現(xiàn)失真,實現(xiàn)更快地檢測出偽造圖像,然而該方法只適合白盒攻擊的場景。耿鵬志等人[71]提出了遮擋式增強方法以及光學變換的數(shù)據(jù)增強的偽造檢測方法,實現(xiàn)了高魯棒性的圖像偽造檢測,但存在泛化性不強的問題。
深度圖像偽造檢測是一個需要重點關注的問題、需要不斷地根據(jù)深度圖像偽造生成技術的更新進行對應的檢測技術的升級換代。未來,深度圖像偽造檢測技術可以擴展到多種類型深度偽造圖像檢測以及多數(shù)據(jù)集的圖像偽造檢測實驗,以提升深度圖像偽造檢測技術的精確性和泛化性能。
深度偽造技術生成的一些成熟的偽造成果,被應用于深度偽造檢測技術當中,使得有針對性地提升對應方面深度偽造檢測檢測器的鑒別真?zhèn)蔚哪芰Α?/p>
根據(jù)深度偽造生成內容的差異,深度偽造檢測數(shù)據(jù)集也對應分為了深度音頻偽造檢測、視頻偽造檢測、圖像偽造檢測數(shù)據(jù)集三類。本節(jié)將對這三類數(shù)據(jù)集進行對應的說明和總結。
2.2.1 深度音頻偽造檢測數(shù)據(jù)集
ASVspoof2019[72]:ASVspoof2019數(shù)據(jù)集是基于VCTK2標準的多說話人語音合成數(shù)據(jù)庫,從107位演講者(46名男性、61名女性)中收集的真實語音,該語音沒有明顯的通道或背景噪音影響,再通過深度偽造算法將真實語音數(shù)據(jù)進行深度音頻偽造;該數(shù)據(jù)集完整地分為三個部分,第一部分用于訓練,第二部分用于開發(fā),第三部分用于評估。
DFDC[73]:DFDC(深度偽造檢測挑戰(zhàn))數(shù)據(jù)集是現(xiàn)今最大的偽造視頻數(shù)據(jù)集,包含100 000個視頻和音頻(英文)序列。
2.2.2 深度視頻偽造檢測數(shù)據(jù)集
Celeb-DF[74]:Celeb-DF數(shù)據(jù)集是一個大規(guī)模的深度偽造視頻數(shù)據(jù)集,擁有5 639個高質量的深度偽造視頻,200萬幀數(shù)據(jù)對應于59位名人公開的YouTube視頻片段,包括不同的性別、年齡和種族的合成過程;視頻偽影、拼接邊界、顏色不匹配、分辨率低等情況非常少。
UADFV[75]:UADFV數(shù)據(jù)集是一組深度偽造視頻及其對應的真實視頻,49個真實視頻通過深度偽造技術生成對應的49個深度偽造視頻,視頻平均時長為11.14 s。
DF[76]:DF(Deep Fakes Dataset)是一組在真實世界下采集的肖像視頻數(shù)據(jù)集,數(shù)據(jù)集中的視頻的生成模型、分辨率、壓縮、照明、縱橫比、幀速率等等內容具有多樣性,視頻來源包括媒體來源、新聞文章和研究報告??偣灿?42個視頻、時長32 min、內存占用30 GB。
DFor[77]:DFor(DeeperForensics-1.0)數(shù)據(jù)集由60 000個視頻(50 000個真實視頻、10 000個偽造視頻)組成,1 760萬幀的數(shù)據(jù);DFor數(shù)據(jù)集中所有源視頻都是在可控條件下獲取到,偽造視頻通過10種圖像處理算法外推至10 000個視頻,數(shù)據(jù)集示例如圖4所示。
圖4 DFor數(shù)據(jù)集偽造視頻幀示例Fig.4 Example of fake video frame in DFor dataset
2.2.3 深度圖像偽造檢測數(shù)據(jù)集
由于深度圖像偽造檢測數(shù)據(jù)集中數(shù)據(jù)多是使用源數(shù)據(jù)集經過偽造方法生成的深度偽造圖像,故本文列出一些最近學者們經常用于深度偽造生成圖像的數(shù)據(jù)集。
FFHQ[47]:FFHQ(Flickr Faces-HQ)數(shù)據(jù)集,由分辨率為1 024×1 024的70 000張高質量圖像組成,該數(shù)據(jù)集的圖像是從Flickr上獲得許可后抓取并進行自動對齊與裁剪后形成。
LSUN[78]:LSUN數(shù)據(jù)集中10個場景類別和20個對象類別中的每個都有大約100萬個標記圖像,其中場景類別包含了臥室、客廳、教室等場景圖像;每個類別的圖像以LMDB格式存儲。
MS COCO[79]:(Microsoft Common Objects in Content)MS COCO數(shù)據(jù)集包含91個常見對象類型,其中82個對象有超過5 000個標記實例,總計328 000個圖像250萬個實例;與別的數(shù)據(jù)集相比,COCO數(shù)據(jù)集的類別更少,但每個類別的實例更多,這樣可以幫助計算機進行詳細的學習并精確定位。
CelebA[80]:CelebA數(shù)據(jù)集包含10 000個身份,每個身份擁有20張圖像,總計200 000張人臉圖像;其中CelebA數(shù)據(jù)集被分為三部分,前8 000個身份圖像用于預訓練以及微調,另外1 000個身份用于訓練支持向量機(SVM),剩下的1 000個身份圖像用于測試。
深度偽造生成技術的發(fā)展雖然給學術實驗上提供了便利,但同時也對人類的生活帶來了很多的負面影響。目前深度偽造生成技術帶來的技術風險如下所示。
(1)經濟風險:如假新聞的制作,發(fā)送到社交媒體上,導致股市的波動、市場的混亂。
(2)倫理風險:如色情視頻的制作,涉及到明星名人或者普通人,影響到公民的正常生活。
(3)社會風險:如偽造圖像、視頻的制作,涉及到案件取證照片、人臉識別系統(tǒng)中人臉數(shù)據(jù)庫、案件參與視頻中的人臉等等,這些內容在以后的科技發(fā)展中,深度偽造生成都可能涉及,能夠幫助到犯罪違法分子作案,影響到社會、民眾安全。
(4)政治風險:如國家領導人的假言論制作,并將視頻傳到國內外網站,造成國家間民眾、民族、領導人的誤解,造成政治上的威脅。
雖然目前深度偽造檢測技術,在很多方面都實現(xiàn)了卓越的成果,但隨著深度偽造技術的對抗提升,檢測的難度系數(shù)也在不斷提升。目前深度偽造檢測技術的研究難點如下。
(1)針對對抗性擾動處理(如調整大小、模糊等),深度偽造檢測魯棒性不好。
(2)泛化能力較弱,針對單一數(shù)據(jù)集的檢測效果好,切換其余特定數(shù)據(jù)集的檢測可能會檢測效果下降。
(3)生物信號的偽造效果提升,例如嘴部動作細節(jié)、眼球變化幅度隨著深度偽造生成技術的不斷突破,深度偽造檢測的難度也在不斷地提升。
(4)隨著社交媒體使用量的爆發(fā)性增長,合成視頻、圖像、音頻的數(shù)量也在大幅度地增加,針對互聯(lián)網海量的數(shù)據(jù)資源,目前普通的深度偽造檢測技術都難以做到個個精準檢測。
(5)網絡的全球范圍的覆蓋使得深度偽造生成的成果可以大范圍跨國地傳輸,深度偽造生成技術成果覆蓋率的提升將給深度偽造檢測帶來很大的困難。
(6)目前的深度偽造檢測多是很多公眾人物的檢測,因其數(shù)據(jù)量充足;針對普通大眾的檢測效果并不如意。
針對目前的社會發(fā)展,深度偽造生成技術可以進行如下接續(xù)研究。
(1)研究具有權限性的深度偽造生成技術:由于深度偽造生成技術的研究越發(fā)地趨向成熟,且研究的權限設置不夠嚴謹,使得很多不法分子很容易就能獲取相關技術進行有目的深度偽造生成,生成了許多對社會有害的偽造成果。未來,深度偽造生成技術可以添加一些權限認定功能,例如身份認證、用處認證、地址認證等等,以防止深度偽造生成技術被不法分子用于危害社會、侵犯公眾合法權益等等。
(2)研究生成更加趨近于真實的偽造成果的深度偽造生成技術:目前在深度偽造生成技術方面雖然已經獲得了不少的成果,但在生成效果上看,還是有些差強人意,例如在音頻偽造生成中存在噪音、視頻偽造生成中存在變化僵硬(不連續(xù))、圖像偽造生成的圖像存在紋理上的缺失等等。未來的工作可以就提升深度偽造生成成果的效果進行進一步的研究。
(3)研究更加多元化的深度偽造生成數(shù)據(jù)集:深度偽造生成技術總歸來說多是利用深度學習相關的技術進行實現(xiàn),數(shù)據(jù)作為模型能夠更好訓練的依據(jù),數(shù)據(jù)質量的提升也是必須要完成的。不僅僅是數(shù)據(jù)的量要大,且數(shù)據(jù)集的數(shù)據(jù)標注的正確率也必須對應得到提升;包含的內容也不能僅限于性別、種族、年齡的差異,而應該擴充一下光照程度、嘴部眼部等姿態(tài)變化等等差異數(shù)據(jù)集。
針對目前深度偽造生成技術的發(fā)展,對應深度偽造檢測技術可以如下接續(xù)研究。
(1)研究計算機目前無法學習的生物信號的檢測算法:已有的檢測方法,很大部分是針對眼球變化、嘴唇變化與偽造人臉視頻幀不對應的問題進行檢測研究。未來,人們可以研究針對心跳、血壓等等生理信號進行檢測的研究,以實現(xiàn)檢測準確率的提升。
(2)研究泛化能力強的檢測算法:目前深度偽造生成的方法層出不窮,生成出來的偽造音頻、視頻、圖像數(shù)據(jù)集越來越多,生成能夠檢測更多數(shù)據(jù)集的檢測技術是目前可以研究的方向。
(3)研究魯棒性強的檢測算法:目前的檢測算法均在處理很好的數(shù)據(jù)集上進行檢測,故一遇到對抗性信號、噪聲等問題就會出現(xiàn)檢測率降低的情況。故目前可以研究對復雜數(shù)據(jù)的檢測問題,以實現(xiàn)檢測的強魯棒性。
(4)研究和大數(shù)據(jù)相關的檢測算法:目前的檢測算法大多針對固定的數(shù)據(jù)或數(shù)據(jù)集進行檢測,針對海量的社交媒體數(shù)據(jù)的研究很少。故目前可以結合一些盛行的區(qū)塊鏈、云計算等大數(shù)據(jù)相關的技術一起研究偽造檢測問題,以應對海量的數(shù)據(jù)。
(5)研究多國協(xié)同的檢測算法:目前的檢測技術,都是國家內部的研究,而針對現(xiàn)在網絡的跨國覆蓋,網絡內容安全是國與國之間良好關系的保障。故目前針對深度偽造跨境性問題,可以通過多國之間在網絡內容上的合作交流,實現(xiàn)深度偽造檢測多國深度交流合作進行解決。
(6)研究更加普適的檢測算法:目前的檢測技術,都是基于一些公眾知名人物的檢測。而針對普通大眾的檢測少之又少,這和數(shù)據(jù)量的缺乏有很大的關系。故目前的研究,可以多針對普通大眾進行,以實現(xiàn)所有公民的權力都不受偽造生成的侵害,也可以進一步地提升模型的泛化能力。
隨著深度偽造生成技術的快速發(fā)展,深度偽造檢測技術也在對應著對抗發(fā)展。未來深度偽造生成與檢測技術研究,應多關注研究現(xiàn)存的深度偽造生成與檢測的相關技術問題,并進行相應的改進和創(chuàng)新。本文對深度偽造生成與檢測進行分析和總結,并對其存在的技術風險、研究難點也進行了分析與總結。最后對未來研究方向進行了一定的展望,旨在為推動深度偽造生成與檢測領域的進一步應用和發(fā)展提供指導和參考。