喬通,姚宏偉,潘彬民,徐明,陳艷利
基于深度學(xué)習(xí)的數(shù)字圖像取證技術(shù)研究進(jìn)展
喬通1,姚宏偉1,潘彬民1,徐明1,陳艷利2
(1. 杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,浙江 杭州 310018;2. 法國(guó)特魯瓦工程技術(shù)大學(xué),特魯瓦 10000)
隨著數(shù)字圖像篡改技術(shù)不斷的革新?lián)Q代,傳統(tǒng)的取證方法已經(jīng)無(wú)法對(duì)抗最新的多媒體篡改手段和技術(shù),尤其是深度造假及深度學(xué)習(xí)技術(shù)帶來(lái)的全新挑戰(zhàn)??偨Y(jié)提煉了包括圖像預(yù)處理模塊、特征提取模塊及分類結(jié)果后處理模塊的通用數(shù)字圖像取證框架,并在提出的框架基礎(chǔ)之上分析現(xiàn)有相關(guān)研究的優(yōu)缺點(diǎn),同時(shí)歸納了數(shù)字圖像取證面臨的挑戰(zhàn)并指明未來(lái)的發(fā)展方向。
數(shù)字圖像取證;卷積神經(jīng)網(wǎng)絡(luò);來(lái)源識(shí)別;篡改檢測(cè)
數(shù)字圖像是人類生活中非常重要的信息載體,隨著5G時(shí)代的到來(lái),網(wǎng)絡(luò)傳輸效率進(jìn)一步提升,數(shù)字圖像逐漸覆蓋人們生活的方方面面。與此同時(shí),隨著人工智能技術(shù)的快速發(fā)展,圖像編輯技術(shù)從依托Photoshop、GIMP等軟件手工修改,演變到利用AI技術(shù)實(shí)現(xiàn)智能化、自動(dòng)化圖像篡改。編輯、偽造、傳播數(shù)字圖像變得簡(jiǎn)單易行,導(dǎo)致人們對(duì)數(shù)字圖像產(chǎn)生了信任危機(jī),降低了數(shù)字圖像作為司法證據(jù)的可靠性。
此外,一種基于生成對(duì)抗網(wǎng)絡(luò)(GAN,generative adversarial network)的視頻篡改方式Deepfake[1]快速興起,它可以將目標(biāo)視頻中的人臉替換為合成的待攻擊人臉。精心制作的Deepfake視頻可以制造出一個(gè)人的存在和活動(dòng)假象,這可能導(dǎo)致嚴(yán)重的政治、社會(huì)、經(jīng)濟(jì)和法律后果。例如,2019年3月,技術(shù)人員利用“深度偽造”技術(shù)“換臉”明星的事件引起輿論熱議。圖1給出了潛在的攻擊者如何利用Deepfake技術(shù)偽造合成人臉的實(shí)例,可以看出合成的人臉完全可以達(dá)到以假亂真的效果。2019年12月,我國(guó)發(fā)布了《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》(簡(jiǎn)稱《規(guī)定》)[2],《規(guī)定》第23條明確要求網(wǎng)絡(luò)信息內(nèi)容服務(wù)使用者和網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者、網(wǎng)絡(luò)信息內(nèi)容服務(wù)平臺(tái)不得利用深度學(xué)習(xí)、虛擬現(xiàn)實(shí)等新技術(shù)新應(yīng)用從事法律、行政法規(guī)禁止的活動(dòng)。此外歐盟于2019年4月8日發(fā)布了《人工智能道德準(zhǔn)則》,將隱私和數(shù)據(jù)管理作為可信賴人工智能需要滿足的7個(gè)要素之一。各國(guó)也加大了對(duì)此項(xiàng)技術(shù)的監(jiān)管力度。
圖1 Deepfake實(shí)例
Figure 1 Example of Deepfake
因此,如何鑒定偽造圖像、增加圖像的可信度、避免誤判成為信息時(shí)代必須克服的問(wèn)題。在計(jì)算機(jī)運(yùn)算速度持續(xù)提高、網(wǎng)絡(luò)信息飛速增長(zhǎng)的信息化新時(shí)代下,隨著數(shù)字圖像處理以及取證對(duì)抗理論的不斷進(jìn)步,多媒體信息隱藏[3-4]、數(shù)字圖像偽造[5-6]、對(duì)抗取證[7-8]等技術(shù)飛速發(fā)展。傳統(tǒng)的數(shù)字圖像取證模式在面對(duì)偽造痕跡越來(lái)越難以捕獲、多種偽造算法集成于一幅篡改圖像、對(duì)抗取證算法掩蓋偽造痕跡等挑戰(zhàn)中逐漸失效。數(shù)字圖像的可信度受到前所未有的威脅,網(wǎng)絡(luò)空間安全引發(fā)人們的擔(dān)憂。只有不斷突破固有的取證思維、開(kāi)拓新的取證模式,分析現(xiàn)有算法的抗攻擊性和魯棒性,增強(qiáng)算法在現(xiàn)實(shí)環(huán)境中的可行性,才能在信息化新時(shí)代占據(jù)網(wǎng)絡(luò)空間安全的有利位置。
本文歸納總結(jié)了數(shù)字圖像取證技術(shù)研究進(jìn)展,分析了數(shù)字圖像取證研究面臨的挑戰(zhàn)和應(yīng)對(duì)策略,討論了現(xiàn)有研究方法的主要特征、優(yōu)勢(shì)和缺點(diǎn)。本文提出一種通用的數(shù)字圖像取證框架(如圖2所示),并討論了框架中每個(gè)模塊在實(shí)際應(yīng)用中所面臨的問(wèn)題與挑戰(zhàn);通過(guò)兩個(gè)數(shù)字圖像取證實(shí)例分析取證框架在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用,對(duì)未來(lái)發(fā)展趨勢(shì)進(jìn)行了歸納總結(jié)。
數(shù)字圖像取證技術(shù)是一種分析數(shù)字圖像完整性、真實(shí)性、原始性的新興技術(shù),對(duì)于保障網(wǎng)絡(luò)空間安全、維護(hù)社會(huì)秩序穩(wěn)定具有重要意義。數(shù)字圖像取證包括主動(dòng)取證(active forensics)[9-10]技術(shù)、被動(dòng)取證(passive forensics)[11]技術(shù)。主動(dòng)取證技術(shù)是指“主動(dòng)”地在圖像中添加簽名、水印等認(rèn)證信息,并檢測(cè)這些信息是否受損以鑒定圖像的真實(shí)性及完整性。被動(dòng)取證即盲取證(blind forensics),是一種不依賴任何預(yù)嵌入信息鑒別圖像拍攝來(lái)源和內(nèi)容真?zhèn)蔚募夹g(shù)。與主動(dòng)取證技術(shù)相比,盲取證技術(shù)適用范圍更廣泛、難度更大,目前學(xué)者主要開(kāi)展盲取證研究,因此本文重點(diǎn)討論盲取證技術(shù)的發(fā)展現(xiàn)狀。
圖2 通用的數(shù)字圖像取證框架
Figure 2 Generic framework for digital image forensic
相關(guān)學(xué)者對(duì)數(shù)字圖像盲取證技術(shù)展開(kāi)了深入研究,這些研究主要針對(duì)兩類問(wèn)題:①數(shù)字圖像來(lái)源取證(image origin forensic);②數(shù)字圖像完整性取證(image integrity forensic)。數(shù)字圖像來(lái)源取證的核心問(wèn)題是如何利用圖像的統(tǒng)計(jì)分布信息來(lái)確定數(shù)字圖像拍攝來(lái)源,其中包含兩個(gè)層面:第一層鑒定數(shù)字圖像來(lái)源于計(jì)算機(jī)生成圖像(computer-generated graphic)或自然拍攝圖像(natural image);第二層鑒定自然拍攝圖像的成像設(shè)備(包括設(shè)備品牌、型號(hào)、個(gè)體)。通常這些研究廣泛應(yīng)用于個(gè)體識(shí)別、身份認(rèn)證以及溯源取證。數(shù)字圖像完整性取證分析主要研究數(shù)字圖像內(nèi)容是否被篡改,這些篡改包括復(fù)制?粘貼(copy-move)[12]、拼接(splicing)[13]、物體刪除(removal)[14],以及其他數(shù)字圖像后處理操作,包括中值濾波(median filtering)[15]、重采樣(resampling)[16-17]、JPEG壓縮[18]等。通過(guò)分析數(shù)字圖像完整性,研究學(xué)者可以鑒定新聞報(bào)道中的偽造圖像和法庭上呈現(xiàn)的偽造證據(jù)、對(duì)抗人臉識(shí)別系統(tǒng)的假臉攻擊等,進(jìn)而保障圖像內(nèi)容信息的真實(shí)可靠。
在早期的數(shù)字圖像取證研究中,研究者主要采用手工特征提取算法提取表征圖像固有特征的指紋,并與已知設(shè)備的圖像指紋比對(duì),從而鑒定待檢測(cè)圖像原始性及完整性。一部分研究人員嘗試將數(shù)字圖像取證分為多個(gè)階段獨(dú)立分析。采用分階段模型有助于模塊化取證任務(wù),提高取證模型的通用性。然而,由于不同階段之間獨(dú)立分析,不存在鏈?zhǔn)椒聪騻鞑シ▌t,導(dǎo)致分階段研究模型分析效率低、模塊與模塊之間耦合度松散。另一部分研究人員研究基于卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)模型的端到端數(shù)字圖像取證算法。不同于分離圖像預(yù)處理、提取及分類特征的思想,基于CNN模型的端到端數(shù)字圖像取證算法將圖像預(yù)處理、提取、分類圖像特征等步驟融入(≥1)個(gè)級(jí)聯(lián)或并聯(lián)的神經(jīng)網(wǎng)絡(luò)中,并采用隨機(jī)梯度下降算法自動(dòng)優(yōu)化網(wǎng)絡(luò)模型。在海量數(shù)據(jù)分析場(chǎng)景中,采用端到端取證模型簡(jiǎn)化了分析模型的復(fù)雜流程,使數(shù)據(jù)處理更為高效。近年來(lái),隨著學(xué)者對(duì)CNN的深入研究,CNN模型在海量數(shù)據(jù)處理中的高效性、在數(shù)字圖像指紋提取的精準(zhǔn)性不斷凸顯出來(lái),因此大量多媒體取證分析開(kāi)始采用基于CNN模型的端到端取證框架[19-21]。本文歸納了基于CNN模型的端到端數(shù)字圖像取證框架步驟,這些步驟包括圖像預(yù)處理、圖像特征提取、分類結(jié)果后處理,其中根據(jù)不同的取證問(wèn)題,分類結(jié)果后處理采用的算法有所不同。雖然取證算法種類繁多,但大多數(shù)是在框架下開(kāi)展研究的。表1整理了2017—2019年具有代表性的取證方法,包括特征類型、檢測(cè)級(jí)別、神經(jīng)網(wǎng)絡(luò)類型、研究模塊以及它們主要針對(duì)的問(wèn)題。接下來(lái),本文將簡(jiǎn)述數(shù)字圖像取證框架中3個(gè)步驟的發(fā)展現(xiàn)狀,并歸納現(xiàn)有研究的優(yōu)缺點(diǎn)。
圖像預(yù)處理旨在消除圖像中與分類無(wú)關(guān)的信息,增強(qiáng)像素相關(guān)性以及最大限度地簡(jiǎn)化輸入數(shù)據(jù),從而改進(jìn)特征抽取、匹配和識(shí)別的準(zhǔn)確性和魯棒性。由于網(wǎng)絡(luò)帶寬、存儲(chǔ)容量等限制,社交平臺(tái)通常會(huì)壓縮在線共享的圖片,如重采樣、JPEG壓縮等操作嚴(yán)重破壞圖像內(nèi)在的固有指紋,干擾圖像特征提取器性能。圖像預(yù)處理操作通過(guò)去除與分類問(wèn)題無(wú)關(guān)的干擾信息、恢復(fù)像素相關(guān)性,從而提升數(shù)字圖像取證檢測(cè)的魯棒性。
表1 2017—2019年來(lái)數(shù)字圖像取證領(lǐng)域研究整理
Table 1 A summary of researches in 2017—2019
傳統(tǒng)的圖像預(yù)處理主要根據(jù)不同的分類問(wèn)題做特定分析,手工設(shè)計(jì)有針對(duì)性的靜態(tài)濾波器,這些濾波器不隨輸入信號(hào)動(dòng)態(tài)調(diào)整濾波器參數(shù)。近年來(lái)手工設(shè)計(jì)的濾波器已經(jīng)廣泛應(yīng)用于數(shù)字圖像取證預(yù)處理,其中包括中值濾波、高通濾波(high-pass filtering)[13]、空域富模型(spatial rich model)[23]等。上述靜態(tài)濾波器對(duì)輸入的圖像做卷積運(yùn)算,提取圖像殘差噪聲后送入圖像特征提取器,其有效性已被現(xiàn)有的取證研究驗(yàn)證。然而靜態(tài)濾波器存在一個(gè)無(wú)法忽視的缺點(diǎn),即靜態(tài)濾波器來(lái)源于大量的經(jīng)驗(yàn)分析(empirical analysis),分析過(guò)程漫長(zhǎng)繁雜而且可擴(kuò)展性不高。
隨著進(jìn)一步深入分析,研究者提出了基于神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)濾波器(learnable filter)[20]。靜態(tài)濾波器通過(guò)抑制圖像內(nèi)容、增強(qiáng)表征圖像指紋的高頻信號(hào),濾除數(shù)字圖像中與分類無(wú)關(guān)的干擾信號(hào),以此來(lái)提高分類器的魯棒性。受此啟發(fā),Bayar等[22]提出“模仿”靜態(tài)濾波器工作原理的解決方案,即約束性卷積層(constrained convolution layer)。約束性卷積層限制濾波器參數(shù)總和為0,并作為預(yù)處理層在神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練過(guò)程中優(yōu)化濾波器參數(shù)。Bayar等[22]同時(shí)將這一理論應(yīng)用于數(shù)字圖像來(lái)源識(shí)別,圖像后處理操作鏈檢測(cè)[20,24-25]。約束性的卷積層參與神經(jīng)網(wǎng)絡(luò)的反向傳播優(yōu)化過(guò)程,隨不同的輸入信號(hào)自適應(yīng)優(yōu)化濾波器參數(shù),并在其輸出層保留與圖像指紋相關(guān)的圖像噪聲信號(hào)。圖3給出了靜態(tài)濾波器與可學(xué)習(xí)濾波器工作的流程,靜態(tài)濾波器使用固定的濾波器與輸入圖像做卷積運(yùn)算;可學(xué)習(xí)濾波器首先預(yù)設(shè)濾波器參數(shù),隨后在反向傳播中使用隨機(jī)梯度下降算法自適應(yīng)、自動(dòng)化地更新濾波器參數(shù)。
圖3 不同的圖像預(yù)處理算法流程
Figure 3 Process of different pre-processing algorithms
通過(guò)以上分析可知,相比于靜態(tài)濾波器,可學(xué)習(xí)濾波器的優(yōu)勢(shì)在于:自適應(yīng)學(xué)習(xí),不需要手工設(shè)計(jì)濾波器參數(shù);根據(jù)取證問(wèn)題動(dòng)態(tài)更新卷積核參數(shù),使分類器收斂效果更優(yōu)。然而可學(xué)習(xí)濾波器也存在不可避免的缺點(diǎn)。由于靜態(tài)濾波器使用預(yù)設(shè)內(nèi)核參數(shù),其輸出為預(yù)處理后的殘差噪聲,這些殘差噪聲有效抑制圖像內(nèi)容對(duì)特征提取過(guò)程的干擾,而可學(xué)習(xí)濾波器需要使用大量的樣本訓(xùn)練內(nèi)核參數(shù),導(dǎo)致模型收斂比靜態(tài)濾波器更慢。圖4展示了不同預(yù)處理操作的圖像輸出效果,圖4(b)與圖4(c)分別表示靜態(tài)濾波器和可學(xué)習(xí)濾波器的預(yù)處理結(jié)果。由圖4(b)與圖4(c)可知,靜態(tài)濾波器和可學(xué)習(xí)濾波器均抑制了圖像低紋理區(qū)域(天空、墻壁等低頻分量)的內(nèi)容噪聲,同時(shí)保留圖像高紋理區(qū)域(樹(shù)枝、物體邊緣等高頻分量)的噪聲,這些保留的殘差噪聲與數(shù)字圖像固有指紋緊密相關(guān),從而大大提升了特征提取器的性能。未來(lái)的研究中,隨著理論研究到應(yīng)用研究的不斷擴(kuò)展,以及計(jì)算機(jī)運(yùn)算速度的不斷加快,面對(duì)越來(lái)越復(fù)雜的數(shù)據(jù)集,可學(xué)習(xí)濾波器自適應(yīng)學(xué)習(xí)的優(yōu)勢(shì)將更加凸顯。
圖像特征來(lái)源于成像設(shè)備生產(chǎn)工藝所帶來(lái)的硬件瑕疵和不同圖像處理算法所產(chǎn)生的特定模式。這些瑕疵和模式以圖像噪聲形式遺留在數(shù)字圖像中,共同組成圖像指紋,而這些圖像指紋隱藏在圖像內(nèi)容中,充當(dāng)成像設(shè)備唯一標(biāo)識(shí)的重要線索。
數(shù)字圖像取證分析人員主要通過(guò)研究圖像成像各個(gè)階段遺留的指紋信息,根據(jù)捕獲的圖像指紋差異性鑒定成像來(lái)源,同時(shí)分析圖像指紋的一致性追蹤圖像偽造痕跡。典型的數(shù)碼相機(jī)成像過(guò)程如圖5所示。首先,成像場(chǎng)景發(fā)出的光子通過(guò)相機(jī)鏡頭到達(dá)設(shè)備前端,色彩濾波陣列(CFA,color filter array)[26]收集單一色彩通道的光譜信息,其余兩個(gè)顏色通道采用特定CFA插值算法填充。此時(shí),光信號(hào)被圖像傳感器轉(zhuǎn)換為電信號(hào),并通過(guò)相機(jī)內(nèi)部的模數(shù)轉(zhuǎn)換器(A/D converter)將其轉(zhuǎn)換為數(shù)字信號(hào),這些攜帶大量原始信息的數(shù)字信號(hào)組成 RAW 格式圖像。由于感光元器件對(duì)光子的響應(yīng)不一致,不可避免地引入加性噪聲(如散粒噪聲、讀出噪聲和暗電流等)和乘性噪聲(如光響應(yīng)非均勻性噪聲,通常被稱為PRNU模式噪聲(photo-response non-uniformity noise)),這些模式噪聲構(gòu)成設(shè)備的固有指紋。由于固有指紋與成像設(shè)備物理性質(zhì)直接相關(guān),并且指紋信息差異明顯,通常被用于數(shù)字圖像取證。此階段捕獲的RAW格式圖像在數(shù)字圖像后處理之前完成,因此把這種類型的指紋統(tǒng)稱為前端指紋(或固有指紋)。經(jīng)過(guò)圖像后處理操作(如去馬賽克[27]、白平衡[28]、伽馬校正)后,成像設(shè)備獲得一幅非壓縮格式圖像。在保證可容忍的失真范圍內(nèi),引入壓縮算法(如JPEG壓縮[18]),減少數(shù)字圖像占用的存儲(chǔ)空間。在RAW格式圖像生成后,由后處理操作及圖像壓縮引入的噪聲統(tǒng)稱為后端指紋。后端指紋主要來(lái)源于信號(hào)處理過(guò)程,與成像設(shè)備物理特征相關(guān)性低,因而指紋區(qū)分度比前端指紋低,不利于高精度檢測(cè)(如成像設(shè)備來(lái)源個(gè)體識(shí)別)。在上述的圖像成像過(guò)程中,由于鏡頭元件生產(chǎn)工藝所帶來(lái)的瑕疵,硬件安裝過(guò)程中所產(chǎn)生的誤差和不同圖像后處理算法產(chǎn)生的噪聲,都將在數(shù)字圖像中留下圖像指紋。研究人員往往圍繞以上成像過(guò)程中產(chǎn)生的固有特征尋找表征數(shù)字圖像原始性、真實(shí)性和完整性的指紋信息。
圖4 不同預(yù)處理操作的圖像輸出效果
Figure 4 The image output results for different pre-processing operations
圖5 典型的數(shù)碼相機(jī)成像過(guò)程
Figure 5 Process of typical imaging pipeline within a digital image
根據(jù)數(shù)字圖像特征提取算法原理的不同,取證分析研究可以分為基于指紋匹配模型和基于學(xué)習(xí)模型(本文主要討論后者)。前者使用信號(hào)處理算法手工提取、分析數(shù)字圖像指紋(如噪聲直方圖、均值、方差等),并采用統(tǒng)計(jì)相關(guān)系數(shù)模型,根據(jù)已知模板匹配指紋信息以達(dá)到分類目的。后者主要使用特征提取器捕獲圖像指紋,并通過(guò)已訓(xùn)練的監(jiān)督分類器(如SVM、Softmax分類器)區(qū)分不同指紋信息。為了使特征提取器捕獲有效的圖像指紋,研究人員首先需要使用已標(biāo)記標(biāo)簽的數(shù)據(jù)集訓(xùn)練特征提取器、分類器,隨后使用訓(xùn)練好的模型測(cè)試未標(biāo)記數(shù)據(jù),并完成分類。圖6給出了基于指紋匹配模型和基于深度學(xué)習(xí)模型的數(shù)字圖像取證框架。接下來(lái)將分別歸納這兩種框架的研究進(jìn)展,闡述其存在的優(yōu)缺點(diǎn),并分析未來(lái)的研究方向。
基于指紋匹配模型的研究主要針對(duì)數(shù)字圖像成像過(guò)程殘留的噪聲信號(hào),并將其作為圖像取證的依據(jù)。研究學(xué)者從數(shù)字圖像成像過(guò)程產(chǎn)生的傳感器噪聲入手,尋找隱藏在傳感器中設(shè)備個(gè)體的痕跡。Luká?等[29]對(duì)成像過(guò)程建模,采用靜態(tài)濾波器估計(jì)PRNU噪聲,并驗(yàn)證了PRNU作為圖像指紋鑒定數(shù)字圖像拍攝來(lái)源的可靠性。PRNU噪聲是應(yīng)用比較廣泛的面向設(shè)備個(gè)體識(shí)別的圖像指紋。然而使用PRNU噪聲存在諸多缺點(diǎn):①隨著輸入尺寸增大,指紋提取算法的計(jì)算復(fù)雜度增大,從而影響取證檢測(cè)算法的運(yùn)行效率,不利于實(shí)時(shí)取證檢測(cè);②隨著輸入尺寸減小,圖像PRNU指紋數(shù)據(jù)不足,降低了取證算法的可用性;③圖像后處理操作(如JPEG壓縮、中值濾波操作和重采樣等)擾亂圖像指紋提取器。隨后,大量基于PRNU噪聲的改進(jìn)性研究被提出來(lái)[30-34],在一定限度上,彌補(bǔ)了以上缺點(diǎn)。隨著基于PRNU噪聲的數(shù)字圖像來(lái)源取證研究日趨成熟,研究學(xué)者開(kāi)始將這一理論應(yīng)用于移動(dòng)設(shè)備身份認(rèn)證[35]。然而,基于PRNU噪聲的移動(dòng)設(shè)備認(rèn)證存在諸多挑戰(zhàn):如何設(shè)計(jì)可靠的認(rèn)證協(xié)議以防止重放攻擊(replay attack);如何提高算法可靠性,抗擊圖像偽造攻擊(forgery attack);如何提高算法魯棒性,在圖像經(jīng)歷JPEG二次壓縮后保持取證正確率。綜合以上分析,基于指紋匹配模型的圖像來(lái)源取證研究將著重解決實(shí)際場(chǎng)景中檢測(cè)正確率的問(wèn)題,增強(qiáng)算法的魯棒性,以及提升算法在各種應(yīng)用場(chǎng)合的適用性及高效性。
圖6 基于指紋匹配模型和深度學(xué)習(xí)模型的數(shù)字圖像取證框架
Figure 6 Digital image forensics framework of fingerprint matching model-based and deep learning model-based
基于深度學(xué)習(xí)模型的研究主要圍繞數(shù)據(jù)驅(qū)動(dòng)的CNN模型算法展開(kāi),這類算法的主要特點(diǎn)為特征提取過(guò)程自動(dòng)化。CNN模型算法通過(guò)標(biāo)記大量數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù),并使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)分類器完成未標(biāo)記的數(shù)據(jù)分類。Tuama等[36]提出采用CNN模型識(shí)別數(shù)字圖像拍攝來(lái)源,并且針對(duì)33個(gè)成像設(shè)備模型取得91.9%的正確率。盡管文獻(xiàn)[36]的研究取得重要突破,但由于輸入圖像塊尺寸(如256′256′3)的限制,該研究在小尺寸圖像塊檢測(cè)中存在檢測(cè)魯棒性低、抗攻擊能力差等問(wèn)題。隨后,越來(lái)越多的取證分析人員開(kāi)始研究如何設(shè)計(jì)更高性能的CNN模型以提升數(shù)字圖像來(lái)源檢測(cè)正確率及魯棒性。Bondi等[37]提出4個(gè)卷積層的神經(jīng)網(wǎng)絡(luò)模型提取圖像指紋,通過(guò)使用支持向量機(jī)對(duì)提取的圖像指紋分類以識(shí)別成像設(shè)備型號(hào),并采用切分圖像塊的方法將輸入圖像尺寸降至64′64。在隨后的研究中,Bondi等[38]將上述CNN模型用于檢測(cè)拼接篡改圖像,其中,拼接個(gè)體(造假區(qū)域)和圖像背景(真實(shí)區(qū)域)分別來(lái)源于不同的成像設(shè)備。然而由于缺乏可解釋性的分析以及支持向量機(jī)的低效率,文獻(xiàn)[37-38]也存在一定的缺點(diǎn)。一些學(xué)者開(kāi)始分析設(shè)計(jì)CNN模型網(wǎng)絡(luò)架構(gòu)的原理。在具備充足訓(xùn)練樣本的前提下,具有非多項(xiàng)式激活函數(shù)的多層前饋網(wǎng)絡(luò)能夠模擬復(fù)雜數(shù)學(xué)函數(shù)[39]。Yao等[40]基于這一原理,討論了神經(jīng)網(wǎng)絡(luò)的廣度與深度對(duì)取證結(jié)果的影響。隨著神經(jīng)網(wǎng)絡(luò)寬度增加,CNN模型的記憶能力不斷增強(qiáng),對(duì)函數(shù)模擬能力加強(qiáng),但模型預(yù)測(cè)能力有所下降;相反,隨著神經(jīng)網(wǎng)絡(luò)的深度增加,CNN 模型對(duì)數(shù)據(jù)的預(yù)測(cè)能力不斷增強(qiáng),但對(duì)數(shù)據(jù)的模擬能力受到限制。文獻(xiàn)[40]提出了13個(gè)卷積層的CNN模型,并用投票算法對(duì)多個(gè)64′64圖像塊結(jié)果投票后,達(dá)到接近100%的圖像來(lái)源檢測(cè)正確率,但13個(gè)卷積層導(dǎo)致了文獻(xiàn)[40]提出的模型收斂速度慢等問(wèn)題。考慮到深度神經(jīng)網(wǎng)絡(luò)梯度消失導(dǎo)致網(wǎng)絡(luò)收斂速度慢、檢測(cè)正確率低等問(wèn)題,Chen等[41]引入DenseNet[42]以增強(qiáng)表征分類問(wèn)題特征的傳播,降低深度神經(jīng)網(wǎng)絡(luò)梯度消失的影響,從而提高了CNN模型提取圖像指紋的精確性。文獻(xiàn)[41]驗(yàn)證了這一CNN模型對(duì)11種圖像后處理操作(如重采樣、添加高斯白噪聲、旋轉(zhuǎn)及JPEG壓縮等)痕跡檢測(cè)的有效性,并最終在32′32的小圖像塊檢測(cè)上取得高于91%的正確率。
近年來(lái),CNN的發(fā)展帶來(lái)自適應(yīng)特征提取的熱潮,基于CNN模型的數(shù)字圖像取證分析算法的工作層出不窮[43]。上述分析的CNN模型所提取的圖像指紋不僅包括傳感器模式噪聲,還包括成像過(guò)程各個(gè)階段所產(chǎn)生的噪聲。相比基于指紋匹配模型手工提取圖像指紋的算法,基于CNN模型算法存在以下優(yōu)勢(shì):一方面,傳統(tǒng)手工提取指紋算法需要分析大尺寸圖像(如512′512矩陣),而CNN模型能夠?qū)崿F(xiàn)小圖像(如64′64或32′32矩陣)指紋提取,這一優(yōu)勢(shì)不僅降低了圖像指紋的復(fù)雜度,而且進(jìn)一步提升了檢測(cè)單元的精細(xì)度;另一方面,CNN模型算法在自適應(yīng)提取圖像指紋方面具有明顯優(yōu)勢(shì),提取過(guò)程無(wú)須根據(jù)取證先驗(yàn)知識(shí)修改圖像指紋提取算法。此外,基于數(shù)據(jù)驅(qū)動(dòng)的CNN模型在處理海量數(shù)據(jù)集時(shí)更高效,訓(xùn)練所得的模型具有更強(qiáng)的魯棒性。然而基于機(jī)器學(xué)習(xí)模型的取證方法也存在一些缺點(diǎn)。例如,目前的研究很難實(shí)現(xiàn)成像設(shè)備個(gè)體級(jí)別的圖像來(lái)源檢測(cè),以及在像素級(jí)別的圖像篡改定位精細(xì)度仍然有待提高。綜合以上分析,未來(lái)基于CNN模型的圖像指紋提取算法將面向檢測(cè)單元精細(xì)化、提取的圖像指紋正確率不斷提高、算法魯棒性不斷增強(qiáng)的方向發(fā)展。
圖像分類結(jié)果后處理的核心任務(wù)是根據(jù)圖像指紋特征做出分類決策,同時(shí),利用數(shù)字圖像空域?qū)用娴南嚓P(guān)性特征修正特征提取器異常導(dǎo)致的誤判,進(jìn)而提高檢測(cè)正確率。由于分類任務(wù)直接與圖像分類結(jié)果后處理算法相關(guān),因而針對(duì)不同的取證檢測(cè)問(wèn)題其后處理算法的設(shè)計(jì)亦不相同。針對(duì)圖像來(lái)源取證,分類結(jié)果后處理使用多個(gè)圖像塊結(jié)果投票決策整幅圖像設(shè)備來(lái)源[40];針對(duì)圖像內(nèi)容完整性取證,其檢測(cè)包括了圖像后處理操作和圖像內(nèi)容偽造檢測(cè)。常見(jiàn)的分類結(jié)果后處理算法包括融合[38,44-47]等,這些后處理操作最終生成偽造區(qū)域檢測(cè)二值圖,完成偽造區(qū)域定位。
通常來(lái)說(shuō),分類結(jié)果后處理存在3種不同的檢測(cè)精度:全尺寸圖像級(jí)別、小尺寸圖像塊級(jí)別、像素級(jí)別。其中,圖像級(jí)別檢測(cè)以圖像為檢測(cè)單元鑒定圖像原始性與完整性,圖像塊或像素級(jí)別檢測(cè)主要用于定位圖像偽造區(qū)域。由于數(shù)字圖像偽造算法多種多樣、偽造區(qū)域大小不一,以及偽造區(qū)域邊緣像素干擾嚴(yán)重等,內(nèi)容完整性取證比來(lái)源取證的后處理算法更復(fù)雜、難度更高。為了提升圖像篡改區(qū)域定位的精度,研究學(xué)者提出“滑動(dòng)窗口”算法將整幅圖像切分為圖像塊,并以圖像塊為檢測(cè)單元單獨(dú)分析圖像區(qū)域真?zhèn)??;凇盎瑒?dòng)窗口”的取證算法存在“窗口”尺寸大小選擇問(wèn)題,太小的“窗口”導(dǎo)致特征提取不足,太大的“窗口”導(dǎo)致檢測(cè)精度下降。Korus等[45]認(rèn)為基于“滑動(dòng)窗口”圖像內(nèi)容篡改定位算法在檢測(cè)精度層面受限于窗口的大小,因此提出使用大小不同的切分窗口作為檢測(cè)單元,并將多種尺寸圖像塊檢測(cè)結(jié)果融合,以提升檢測(cè)準(zhǔn)確率和篡改區(qū)域定位精度。
除此之外,數(shù)據(jù)集中包含多種偽造算法的偽造檢測(cè)需求也是取證分析面臨的難題之一。為了在取證檢測(cè)器中同時(shí)檢測(cè)復(fù)制?粘貼和拼接偽造,Li等[48]首先采用PatchMatch[49]算法提取復(fù)制?粘貼偽造痕跡遺留的圖像指紋,并拼接偽造操作指紋;隨后分析了這兩種算法對(duì)檢測(cè)性能的影響;同時(shí),提出了基于概率模型的融合算法,將兩種指紋特征融合生成偽造區(qū)域檢測(cè)概率圖。這種方法的優(yōu)點(diǎn)在于能夠同時(shí)檢測(cè)多種偽造痕跡,缺點(diǎn)在于提取高維度圖像指紋特征耗費(fèi)大量計(jì)算時(shí)間。
綜合以上兩種圖像分類結(jié)果后處理算法可知,這兩類算法主要通過(guò)手工分析指紋特征設(shè)定窗口尺寸、概率模型閾值等。另外有關(guān)研究嘗試將圖像分類結(jié)果后處理算法加入神經(jīng)網(wǎng)絡(luò)隨機(jī)梯度下降優(yōu)化過(guò)程中,生成端到端模式取證分析系統(tǒng)。Wu[44]等首先設(shè)計(jì)了深度卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)字圖像后處理痕跡指紋,隨后提出本地異常檢測(cè)網(wǎng)絡(luò)(local anomaly detection network)對(duì)提取的圖像指紋進(jìn)一步分析以提升檢測(cè)精度、增強(qiáng)模型的可擴(kuò)展性。該算法使用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶(LSTM,long short term memory)模型,神經(jīng)網(wǎng)絡(luò)模擬決策者鑒定圖像塊檢測(cè)結(jié)果的過(guò)程,并討論模型對(duì)385種圖像后處理操作的檢測(cè)正確率。CNN善于提取信號(hào)的空域特征,而LSTM網(wǎng)絡(luò)善于提取信號(hào)的序列特征。相對(duì)于早期的手工設(shè)計(jì)多種窗口尺寸[45]或多種不同的特征提取器[48],Wu等[44]提出本地異常檢測(cè)網(wǎng)絡(luò)在自適應(yīng)、自動(dòng)化決策方面優(yōu)勢(shì)明顯。
常見(jiàn)的分類結(jié)果后處理算法的基本流程如圖7所示。本質(zhì)上來(lái)說(shuō),分類結(jié)果后處理算法主要利用圖像塊之間的相關(guān)性,通過(guò)修正CNN誤分類結(jié)果,從而提升圖像塊的檢測(cè)正確率。面向數(shù)字圖像取證問(wèn)題,分類結(jié)果后處理具備以下優(yōu)點(diǎn):針對(duì)數(shù)字圖像來(lái)源取證,分類結(jié)果后處理提升了圖像級(jí)別來(lái)源檢測(cè)正確率;針對(duì)數(shù)字圖像內(nèi)容完整性取證,分類結(jié)果后處理修正偽造區(qū)域檢測(cè)結(jié)果,降低了誤判率,從而提升了偽造檢測(cè)在圖像塊及像素級(jí)別的檢測(cè)精度即篡改定位精度。
圖7 不同分類結(jié)果后處理算法的流程
Figure 7 Process of different post-processing algorithms
在數(shù)字圖像取證領(lǐng)域,除了需要研究上述傳統(tǒng)問(wèn)題,面對(duì)新興的多媒體篡改手段,學(xué)者提出了一系列取證對(duì)策。針對(duì)兩類篡改攻擊手段,即GAN偽造圖像與Deepfake偽造視頻,本文簡(jiǎn)單歸納了以下幾種典型的檢測(cè)方法。
GAN偽造圖像檢測(cè)方法主要可以分為以下3種。第一種方法是利用傳統(tǒng)圖像取證技術(shù)來(lái)對(duì)GAN偽造圖像檢測(cè)。例如,Nataraj等[50]提出了利用共生矩陣和深度學(xué)習(xí)相結(jié)合的方法,檢測(cè)GAN偽造圖像。GAN圖像在生成過(guò)程中往往會(huì)改變?cè)紙D像中的一些特征信息,因此第二種方法是利用真?zhèn)螆D像的某些差異化特征來(lái)訓(xùn)練分類器,實(shí)現(xiàn)對(duì)GAN偽造圖像檢測(cè)。例如,Mccloskey和Albright[51]發(fā)現(xiàn)GAN生成的圖像與真實(shí)圖像相比,二者飽和度明顯不同,因此提出了利用飽和度來(lái)對(duì)偽造圖像進(jìn)行檢測(cè)。Matern等[52]發(fā)現(xiàn)GAN生成的人臉圖像在眼睛、牙齒和面部輪廓上存在偽影,并提出利用偽影進(jìn)行檢測(cè)。第三種方法是利用神經(jīng)網(wǎng)絡(luò)模型搭建檢測(cè)器。例如,Mo等[53]設(shè)計(jì)了自定義的卷積神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別GAN生成的人臉圖像。此外,Afchar等[54]提出利用MesoNet來(lái)對(duì)GAN生成的人臉圖像進(jìn)行檢測(cè)。
相比于圖像的偽造,針對(duì)視頻的偽造技術(shù)帶來(lái)更大的危害,本文梳理了目前流行的Deepfake視頻篡改類型以及典型的檢測(cè)方法。篡改類型大致可分為兩種:面部表情篡改和合成人臉攻擊。
(1)面部表情篡改。此類篡改方式也可稱為人臉再扮演(face reenactment),其最大的特點(diǎn)是不改變目標(biāo)人臉的身份信息,只改變目標(biāo)人臉的面部表情動(dòng)作。例如,文獻(xiàn)[55]提出的Face2Face是第一個(gè)將面部表情從源視頻的人臉轉(zhuǎn)移到目標(biāo)視頻人臉的技術(shù)。此外,諸如“木偶主人”(puppet-master)和“嘴唇同步”(lip-sync)均屬于此類型的篡改方式。在此類型中,源視頻(主人)提供面部表情、嘴部動(dòng)作及頭部姿勢(shì),并讓目標(biāo)視頻(木偶)做出相同的面部表情、嘴部動(dòng)作及頭部姿勢(shì)。
(2)合成人臉攻擊。這種篡改方式也可以稱為換臉技術(shù)(Faceswap),此類方法改變了目標(biāo)視頻中的人物身份,即目標(biāo)視頻中的人臉被替換為合成的待攻擊人臉。隨著GAN的日漸普及,基于人工智能的篡改手段層出不窮。例如,F(xiàn)akeApp充分提取源視頻和目標(biāo)視頻中的人臉面部結(jié)構(gòu),從而生成更高質(zhì)量、更加逼真的換臉視頻。以上類型的篡改視頻在一些社交平臺(tái)上被廣泛傳播,其危害不可估量。因此,亟須采取相應(yīng)的檢測(cè)方法進(jìn)行取證。
Deepfake視頻檢測(cè)方法可以分為以下3類。第一類方法是利用視頻中的人臉生物特征信息的不一致來(lái)對(duì)深度偽造視頻檢測(cè)。例如,偽造視頻中的人物無(wú)法正常眨眼[56]、真實(shí)視頻與偽造視頻頭部姿態(tài)的不一致[57]、兩類視頻中面部表情和頭部動(dòng)作的相關(guān)特征[58]來(lái)對(duì)偽造視頻進(jìn)行檢測(cè)。第二類方法是利用全新的深度神經(jīng)網(wǎng)絡(luò)模型來(lái)檢測(cè)。例如,Zhou等[59]提出了利用雙流網(wǎng)絡(luò)來(lái)進(jìn)行檢測(cè),Nguyen[60]等發(fā)現(xiàn)深度偽造視頻人物五官位置與真實(shí)視頻存在差異,提出了利用CapsuleNet進(jìn)行檢測(cè),Rossler等[61]利用FaceForensic++數(shù)據(jù)集訓(xùn)練XceptionNet,實(shí)現(xiàn)了對(duì)深度偽造視頻的檢測(cè)。第三類方法是通過(guò)提取真?zhèn)我曨l之間的差異化特征,訓(xùn)練分類器實(shí)現(xiàn)深度偽造視頻的檢測(cè)。例如,Koopman等[62]提出了利用PRNU來(lái)對(duì)深度偽造視頻進(jìn)行檢測(cè),結(jié)果表明真實(shí)視頻與深度偽造視頻的平均標(biāo)準(zhǔn)化相關(guān)系數(shù)存在顯著差異。Amerini等[63]發(fā)現(xiàn)真?zhèn)我曨l中圖像光流場(chǎng)存在差異,因此利用此差異實(shí)現(xiàn)了對(duì)深度偽造視頻的檢測(cè)。篡改區(qū)域和圖像剩余區(qū)域分辨率不一致,會(huì)導(dǎo)致偽造視頻產(chǎn)生偽影,Li等[64]提出利用偽影對(duì)偽造視頻進(jìn)行檢測(cè)。
大多數(shù)檢測(cè)方法需要通過(guò)大量數(shù)據(jù)驅(qū)動(dòng)模型學(xué)習(xí),但在實(shí)際場(chǎng)景中能獲得的樣本卻很少。為了解決此問(wèn)題,Durall等[65]提出了一種利用圖像功率譜的小樣本檢測(cè)方法來(lái)對(duì)偽造視頻進(jìn)行檢測(cè)。偽造視頻在圖像融合過(guò)程中往往存在融合邊界,Li等[66]提出了利用“Face X-ray”檢測(cè)偽造視頻,該方法的訓(xùn)練數(shù)據(jù)不依賴特定換臉技術(shù)生成的視頻,可以直接采用普通的人臉圖像進(jìn)行訓(xùn)練,因此該方法的檢測(cè)通用性更強(qiáng)。此外,Liu等提出[67]的Gram-Net通過(guò)分析圖像全局紋理對(duì)GAN圖像進(jìn)行檢測(cè),該網(wǎng)絡(luò)不僅在跨數(shù)據(jù)集場(chǎng)景下表現(xiàn)良好,而且面對(duì)圖像下采樣、JPEG壓縮、模糊等攻擊時(shí),具有較強(qiáng)的魯棒性。
本文提出的數(shù)字圖像取證框架包含從圖像預(yù)處理到特征提取,再到分類結(jié)果后處理等步驟,這一框架將數(shù)字圖像取證研究模塊化,有利于本領(lǐng)域的學(xué)者深入研究和探討。縱觀近年來(lái)數(shù)字圖像取證技術(shù)的發(fā)展,大多數(shù)算法往往基于CNN模型設(shè)計(jì)完成。接下來(lái),本文將圍繞圖像來(lái)源和內(nèi)容完整性取證的方法實(shí)例,在CNN模型理論框架下進(jìn)一步闡述該領(lǐng)域研究現(xiàn)狀及未來(lái)發(fā)展趨勢(shì)。
數(shù)字圖像來(lái)源取證完成圖像成像設(shè)備鑒定的過(guò)程,其本質(zhì)原理是利用成像過(guò)程中模式噪聲信號(hào)的差異區(qū)分不同的成像設(shè)備源。這些噪聲來(lái)源于傳感器工藝缺陷、光電轉(zhuǎn)換誤差及圖像后處理算法差異等。利用模式噪聲信號(hào)差異,研究者設(shè)計(jì)分類器鑒別成像設(shè)備源。數(shù)字圖像來(lái)源取證算法廣泛應(yīng)用于身份認(rèn)證[35]、網(wǎng)絡(luò)圖像溯源[68]以及網(wǎng)絡(luò)視頻溯源[69]等領(lǐng)域。
通常在多階層(hierarchical)的數(shù)字圖像來(lái)源取證算法中,第一步主要鑒定數(shù)字圖像的成像類型,即計(jì)算機(jī)生成圖像和自然圖像[21,70],第二步鑒定自然圖像中的成像設(shè)備型號(hào),其中包括成像設(shè)備品牌[29]、成像設(shè)備型號(hào)[30]、成像設(shè)備個(gè)體鑒定[71]。圖8給出了在CNN模型理論下,一種通用的數(shù)字圖像來(lái)源取證框架。在圖像預(yù)處理中,待檢測(cè)圖像首先被切分成圖像塊(圖8(a)中的P表示第個(gè)圖像塊),隨后使用CNN提取表征拍攝來(lái)源的圖像指紋,輸出每個(gè)圖像塊的檢測(cè)結(jié)果Y(圖8(c)中的Y表示特征提取器對(duì)第個(gè)圖像塊預(yù)測(cè)標(biāo)簽),并采用多數(shù)投票算法融合個(gè)圖像塊檢測(cè)結(jié)果,輸出圖像級(jí)別的預(yù)測(cè)結(jié)果,即設(shè)備型號(hào)多分類鑒別。
根據(jù)文獻(xiàn)[40]的闡述,圖9給出了20個(gè)型號(hào)測(cè)試相機(jī)來(lái)源取證檢測(cè)的混淆矩陣(歸一化概率為0~1),其中“?”表示數(shù)值低于0.01。在混淆矩陣中,每一行代表來(lái)源取證檢測(cè)器的檢測(cè)結(jié)果,而每一列表示真實(shí)數(shù)據(jù)被預(yù)測(cè)為該類別的概率。沿矩陣對(duì)角線的概率被定義為預(yù)測(cè)標(biāo)簽正確的概率,正確率越高表明檢測(cè)器性能越優(yōu)。
通過(guò)觀察可以發(fā)現(xiàn),文獻(xiàn)[40]提出的相機(jī)來(lái)源取證檢測(cè)器可以有效且精準(zhǔn)地篩選出不同類別的成像設(shè)備。值得注意的是,該多分類檢測(cè)器對(duì)“Nikon D200”“Kodak M1063”“Rollei RCP-7325XS”的分類正確率均達(dá)到99%以上;同時(shí),平均檢測(cè)正確率達(dá)到89%。需要特別注意的是,檢測(cè)器基本無(wú)法鑒別相機(jī)“Nikon D70”和“Nikon D70s”所拍攝的數(shù)字圖像。通過(guò)文獻(xiàn)[72]可知,由于Dresden數(shù)據(jù)集中“Nikon D70”和“Nikon D70s”采用相同型號(hào)的鏡頭拍攝,因此兩者的模式噪聲非常相似,導(dǎo)致其檢測(cè)正確率不佳。在這種情況下,首先將兩種不同來(lái)源的型號(hào)視為同一個(gè)相機(jī)型號(hào),記為“Nikon D70_70s”,然后采用文獻(xiàn)[71]所提出的圖像來(lái)源設(shè)備個(gè)體檢測(cè)器鑒別兩者。另外,相機(jī)型號(hào)“Sony DSC-T77”和“Sony DSC-W170”可視為相似情況進(jìn)行解釋與處理。
圖8 基于CNN模型的數(shù)字圖像來(lái)源取證框架
Figure 8 Digital image source framework based on CNN
雖然近年來(lái)各種性能優(yōu)異的數(shù)字圖像來(lái)源取證模型不斷被提出,但在現(xiàn)實(shí)場(chǎng)景中,這些研究的可行性仍有待進(jìn)一步探索。一方面,現(xiàn)有的研究主要局限于實(shí)驗(yàn)室的數(shù)據(jù)集,其圖像特征不經(jīng)歷JPEG二次壓縮等編輯操作,即由成像設(shè)備直接捕獲原始數(shù)據(jù)。因此,現(xiàn)有方法在實(shí)現(xiàn)環(huán)境中的檢測(cè)正確率往往不及預(yù)期。另一方面,基于CNN模型的數(shù)字圖像來(lái)源取證算法雖然能夠在處理海量數(shù)據(jù)時(shí)保持算法的檢測(cè)準(zhǔn)確度,卻很難實(shí)現(xiàn)成像設(shè)備個(gè)體鑒定;基于指紋匹配模型的算法雖然實(shí)現(xiàn)了設(shè)備個(gè)體級(jí)別的拍攝來(lái)源檢測(cè),但在現(xiàn)實(shí)環(huán)境中其魯棒性仍然有待進(jìn)一步提升。此外,采用全尺寸圖像矩陣輸入分類器,導(dǎo)致計(jì)算復(fù)雜度大幅提升,成為兩類算法的一大問(wèn)題。
數(shù)字圖像內(nèi)容完整性取證檢測(cè)圖像內(nèi)容是否遭受篡改攻擊。通常來(lái)說(shuō),在多階層的數(shù)字圖像內(nèi)容取證分析中,第一步主要在圖像級(jí)別鑒定數(shù)字圖像是否被篡改,第二步定位圖像篡改區(qū)域以及篡改類型,其中包括圖像內(nèi)容的惡意偽造和圖像后處理操作(語(yǔ)義內(nèi)容未受攻擊)等。從本質(zhì)上講,內(nèi)容完整性取證涉及數(shù)字圖像成像過(guò)程的各個(gè)步驟。例如,利用成像設(shè)備模式噪聲差異鑒定拼接個(gè)體(造假區(qū)域)和圖像背景(真實(shí)區(qū)域)分別來(lái)源于不同成像設(shè)備的拼接篡改[38],利用造假區(qū)域與真實(shí)區(qū)域存在的圖像指紋信息不連續(xù)檢測(cè)拼接篡改[73],利用造假區(qū)域與真實(shí)區(qū)域存在重采樣特征差異定位偽造區(qū)域[74],以及基于經(jīng)典圖像特征SIFT[75]、LBP[76]等設(shè)計(jì)的取證算法。此外,隨著數(shù)字圖像取證技術(shù)日趨成熟,一些學(xué)者相繼提出取證鏈應(yīng)用研究[20,41],通過(guò)分析數(shù)字圖像拍攝來(lái)源,鑒定數(shù)字圖像內(nèi)容真?zhèn)?,定位篡改區(qū)域,排序各種篡改操作歷史,最終完成數(shù)字圖像操作鏈取證。另一些研究學(xué)者則提出設(shè)計(jì)針對(duì)多種圖像篡改手段的通用取證方法,旨在一次性檢測(cè)多種篡改痕跡[43]。
圖9 20個(gè)型號(hào)相機(jī)來(lái)源取證檢測(cè)的混淆矩陣
Figure 9 Confusion matrix for source forensics of 20 cameras
圖10給出了數(shù)字圖像篡改檢測(cè)的基本流程,其中紅框中的區(qū)域?yàn)閳D像篡改區(qū)域。待檢測(cè)圖像首先通過(guò)圖10(a)濾波器做預(yù)處理并保留圖像殘差噪聲,隨后使用圖10(b)中列舉的CNN模型提取圖像指紋,最后將提取的圖像指紋分類并融合,在此階段排除誤判圖像塊,篩選正檢圖像塊,從而提升篡改定位精準(zhǔn)度,其可視化檢測(cè)結(jié)果如圖10(c)所示。相比于圖像來(lái)源取證,圖像完整性取證難度更高。首先,圖像篡改區(qū)域通常不大,并且需要定位篡改區(qū)域,對(duì)取證分析算法提出巨大的挑戰(zhàn)。其次,惡意篡改者通常使用中值濾波、JPEG二次壓縮等后處理操作隱藏偽造區(qū)域,這些操作不可避免地干擾了特征提取器對(duì)圖像指紋的有效提取,降低了圖像篡改的檢測(cè)正確率。
圖10 數(shù)字圖像篡改檢測(cè)的基本流程
Figure 10 Basic process of digital image forgery detection based on CNN
根據(jù)上述檢測(cè)過(guò)程,本文進(jìn)一步展示檢測(cè)大規(guī)模數(shù)據(jù)集的結(jié)果。實(shí)驗(yàn)采用局部正確率(local accuracy)和全局正確率(global accuracy)評(píng)估算法精確度,以及精度(fineness)評(píng)估取證檢測(cè)器的最小檢測(cè)單元。其中,局部正確率評(píng)估偽造區(qū)域的正檢率,全局正確率評(píng)估整幅圖像的正檢率。檢測(cè)結(jié)果如表2所示。
表2 圖像篡改定位實(shí)驗(yàn)結(jié)果
數(shù)字圖像內(nèi)容取證技術(shù)在若干問(wèn)題上已經(jīng)取得突破,然而在現(xiàn)實(shí)場(chǎng)景中算法的魯棒性[22]、抗攻擊性[7]仍然存在一定缺陷?,F(xiàn)有研究通常忽略JPEG二次壓縮、重采樣,以及對(duì)抗攻擊環(huán)境產(chǎn)生的干擾攻擊,導(dǎo)致現(xiàn)有的理論研究在現(xiàn)實(shí)應(yīng)用場(chǎng)景中受到限制。為了適應(yīng)現(xiàn)實(shí)場(chǎng)景的應(yīng)用,未來(lái)的理論研究需要面向抗對(duì)抗樣本攻擊、增強(qiáng)魯棒性的研究方向發(fā)展。
隨著數(shù)字圖像取證技術(shù)不斷發(fā)展,目前一些瓶頸已經(jīng)突破,如在檢測(cè)小尺寸圖像拍攝來(lái)源[22,37],在層次化取證鏈中檢測(cè)多種類別數(shù)字圖像偽造痕跡[20,77],在定位數(shù)字圖像像素級(jí)別的偽造區(qū)域[43],定位針對(duì)非壓縮格式的圖像來(lái)源識(shí)別[78]等。然而,數(shù)字圖像取證研究仍存在許多亟待解決的難題,并且該技術(shù)推廣至實(shí)際應(yīng)用面臨諸多挑戰(zhàn),現(xiàn)有的理論研究仍需要進(jìn)一步改進(jìn)。當(dāng)前數(shù)字圖像取證技術(shù)主要面臨的問(wèn)題與挑戰(zhàn)有以下幾方面。
(1)開(kāi)放數(shù)據(jù)集環(huán)境中的檢測(cè)正確率和魯棒性問(wèn)題。目前的研究主要集中于實(shí)驗(yàn)室搭建的數(shù)據(jù)集環(huán)境中,這些數(shù)據(jù)集通常沒(méi)有經(jīng)過(guò)裁剪、編輯等圖像后處理操作。然而數(shù)字圖像在實(shí)際網(wǎng)絡(luò)傳輸環(huán)境中,通常會(huì)經(jīng)歷JPEG壓縮、重采樣等后處理操作。如何在開(kāi)放數(shù)據(jù)集環(huán)境中保持高檢測(cè)正確率、強(qiáng)魯棒性對(duì)取證研究提出巨大的挑戰(zhàn)。
(2)在惡意攻擊的環(huán)境中如何保證算法的可靠性問(wèn)題。隨著反取證技術(shù)的不斷更新,基于各種假設(shè)場(chǎng)景的對(duì)抗攻擊算法廣泛流行。然而近年來(lái)提出的CNN模型算法通常沒(méi)有考慮對(duì)抗樣本的惡意攻擊場(chǎng)景,使對(duì)抗算法可以輕易攻擊神經(jīng)網(wǎng)絡(luò)模型。因此,如何增強(qiáng)算法的抗攻擊性對(duì)當(dāng)前取證研究提出嚴(yán)峻的挑戰(zhàn)。
(3)實(shí)際應(yīng)用場(chǎng)景中取證檢測(cè)的精確率與精細(xì)度問(wèn)題。目前基于CNN模型的數(shù)字圖像來(lái)源取證研究很難實(shí)現(xiàn)成像設(shè)備個(gè)體級(jí)別檢測(cè),以及數(shù)字圖像篡改定位在像素級(jí)別的檢測(cè)正確率仍然無(wú)法滿足實(shí)際需求。隨著取證研究的應(yīng)用普及,成像設(shè)備個(gè)體溯源的身份認(rèn)證系統(tǒng)精確率,及數(shù)字圖像篡改定位系統(tǒng)的精細(xì)度是數(shù)字圖像取證研究的重要挑戰(zhàn)。
(4)目前取證方法的泛化能力不夠理想。首先,針對(duì)不同的篡改手段,現(xiàn)有的通用性取證方法的檢測(cè)效果并沒(méi)有達(dá)到較高的水平。雖然深度學(xué)習(xí)算法給通用性取證方法的設(shè)計(jì)帶來(lái)福音,但距離理想的檢測(cè)正確率還存在一定差距。取證問(wèn)題不同于其他類型的識(shí)別,作為數(shù)字證據(jù)在法庭上呈現(xiàn),力圖達(dá)到完美的檢測(cè)正確率是學(xué)者長(zhǎng)期追求的目標(biāo)。同時(shí),當(dāng)訓(xùn)練集與測(cè)試集的樣本分布存在明顯差異時(shí),現(xiàn)有的檢測(cè)方法往往效果不佳。因此,跨數(shù)據(jù)集檢測(cè)問(wèn)題是目前亟待解決的一大難題。
針對(duì)數(shù)字圖像取證技術(shù)面臨的問(wèn)題與挑戰(zhàn),研究者既需要深入研究數(shù)字圖像取證的理論、模型和方法,也需要全面考慮實(shí)際場(chǎng)景中數(shù)字圖像取證技術(shù)的局限性。因此,數(shù)字圖像取證技術(shù)未來(lái)主要的研究方向歸納如下。
(1)從數(shù)字圖像取證的實(shí)際需求出發(fā),排查理論算法在現(xiàn)實(shí)網(wǎng)絡(luò)平臺(tái)(如微信、Flickr、Instagram等)性能下降的原因,探索增強(qiáng)算法魯棒性的方案,使取證算法在實(shí)際環(huán)境中保持其理論研究的正確率;構(gòu)建來(lái)源于網(wǎng)絡(luò)平臺(tái)的數(shù)據(jù)收集中心,收集網(wǎng)絡(luò)環(huán)境中海量數(shù)字圖像。
(2)為應(yīng)對(duì)反取證技術(shù)的挑戰(zhàn),研究反取證算法的本質(zhì)原理,探索對(duì)抗攻擊算法原理,達(dá)到拒絕接受惡意訓(xùn)練樣本的目的。同時(shí),逆向分析神經(jīng)網(wǎng)絡(luò)模型,檢測(cè)模型是否受污染,拒絕受污染模型在現(xiàn)實(shí)取證場(chǎng)景中使用。在此基礎(chǔ)上,分析如何提升神經(jīng)網(wǎng)絡(luò)模型的魯棒性以對(duì)抗現(xiàn)有的反取證攻擊。此外,在現(xiàn)實(shí)場(chǎng)景中可以融入交互式檢測(cè)機(jī)制,鑒別對(duì)抗樣本。
(3)針對(duì)實(shí)際應(yīng)用場(chǎng)景中的精確率和精細(xì)度問(wèn)題,研究者需要進(jìn)一步探索如何提高成像設(shè)備個(gè)體溯源的精確率,以及像素級(jí)別的數(shù)字圖像內(nèi)容偽造定位精細(xì)度。為了實(shí)現(xiàn)成像設(shè)備個(gè)體來(lái)源檢測(cè),研究者需融合指紋匹配算法和深度學(xué)習(xí)算法的優(yōu)勢(shì),提升指紋提取效率以及增強(qiáng)圖像指紋可區(qū)分度[84-85];為了實(shí)現(xiàn)像素級(jí)別圖像內(nèi)容偽造定位,研究者將采取更精細(xì)的圖像塊分析模型,進(jìn)一步探究鄰域內(nèi)像素間的相關(guān)特性。
(4)針對(duì)模型泛化能力弱的弊端,從數(shù)據(jù)樣本、特征選擇、分類器3個(gè)角度提出了解決方案。從數(shù)據(jù)樣本角度分析,在訓(xùn)練模型前對(duì)數(shù)據(jù)樣本進(jìn)行增廣,目前大規(guī)模偽造視頻數(shù)據(jù)集的多樣性不足,通過(guò)數(shù)據(jù)增廣提高訓(xùn)練數(shù)據(jù)集的多樣性進(jìn)而提高檢測(cè)模型的泛化能力;從特征選擇角度分析,尋找區(qū)分度大、泛化性強(qiáng)的特征,如通過(guò)融合多種檢測(cè)特征、構(gòu)造不同偽造技術(shù)留下的指紋特征等手段來(lái)提高檢測(cè)模型的泛化能力,此外,可以對(duì)特征進(jìn)行域泛化(如圖11所示),將在源域中無(wú)法區(qū)分的測(cè)試樣本(左圖),轉(zhuǎn)換為目標(biāo)域中可以有效區(qū)分的測(cè)試樣本(右圖),進(jìn)而提高檢測(cè)器的泛化能力;從分類器角度分析,可以設(shè)計(jì)集成分類器,對(duì)不同篡改技術(shù)生成的數(shù)據(jù)集單獨(dú)訓(xùn)練子分類器,通過(guò)融合子分類器的輸出結(jié)果,進(jìn)一步提高檢測(cè)模型的泛化能力。
圖 11 域泛化示例
Figure 11 Example of domain generalization
隨著數(shù)字圖像取證研究理論到應(yīng)用研究的不斷推廣與發(fā)展,本文提出的數(shù)字圖像取證框架需要根據(jù)實(shí)際應(yīng)用場(chǎng)景不斷改進(jìn),以應(yīng)對(duì)實(shí)際取證場(chǎng)景提出的新問(wèn)題和新挑戰(zhàn),從而滿足人們對(duì)于數(shù)字圖像原始性、真實(shí)性和完整性鑒定日益增長(zhǎng)的需求。
[1] 梁瑞剛, 呂培卓, 趙月, 等. 視聽(tīng)覺(jué)深度偽造檢測(cè)技術(shù)研究綜述[J].信息安全學(xué)報(bào), 2020, 5(2): 1-17.
LIANG R G, LYU P Z, ZHAO Y, et al. A survey of audiovisual Deepfake detection techniques[J]. Journal of Cyber Security, 2020, 5(2): 1-17.
[2] 國(guó)家互聯(lián)網(wǎng)信息辦公室.網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定[R]. 2019.
Cyberspace Administration of China. Regulations on the Governance of Network Information Content[R]. 2019.
[3] QIAO T, LUO X, WU T, et al. Adaptive steganalysis based on statistical model of quantized DCT coefficients for JPEG images[J]. IEEE Transactions on Dependable and Secure Computing, 2019(99): 1-16.
[4] QIAO T, RETRAINT F, COGRANNE R, et al. Steganalysis of JSteg algorithm using hypothesis testing theory[J]. EURASIP Journal on Information Security, 2015(1): 1-16.
[5] USMAN B, DUFOUR N, SAENKO K, et al. PuppetGAN: cross-domain image manipulation by demonstra-tion[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2019: 9450-9458.
[6] LIANG X, ZHANG H, LIN L, et al. Generative semantic manipulation with mask-contrasting GAN[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 558-573.
[7] PENG F, YIN L P, ZHANG L B, et al. CGR-GAN: CG facial image regeneration for anti-forensics based on generative adversarial network[J]. IEEE Transactions on Multimedia, 2020(3): 1-14.
[8] CHEN C, ZHAO X, STAMM M C. Generative adversarial attacks against deep-learning-based camera model identification[J]. IEEE Transactions on Information Forensics and Security, 2019(99): 1-16.
[9] PENG P, NING P, REEVES D S. On the secrecy of tim-ing-based active watermarking trace-back techniques[C]//IEEE Symposium on Security and Privacy (S&P). 2006: 1-15.
[10] ZHOU G, LYU D. An overview of digital watermarking in image forensics[C]//IEEE International Joint Conference on Compu- tational Sciences and Optimization (CSO). 2011: 332-335.
[11] ZHAO J, WANG Q, GUO J, et al. An overview on passive image forensics technology for automatic computer forgery[J]. International Journal of Digital Crime and Forensics (IJDCF), 2016, 8(4): 14-25.
[12] SONI B, DAS P K, THOUNAOJAM D M. Copy-Move tampering detection based on local binary pattern histogram fourier feature[C]//Proceedings of the 7th International Conference on Computer and Communication Technology. 2017: 78-83.
[13] YAO H, WANG S, ZHANG X, et al. Detecting image splicing based on noise level inconsistency[J]. Multimedia Tools and Applications, 2017, 76(10): 12457-12479.
[14] JIN X, SU Y, ZOU L, et al. Video logo removal detection based on sparse representation[J]. Multimedia Tools and Applications, 2018, 77(22): 29303-29322.
[15] CHEN J, KANG X, LIU Y. Median filtering forensics based on convolutional neural networks[J]. IEEE Signal Processing Letters, 2015, 22(11): 1849-1853.
[16] QIAO T, ZHU A, RETRAINT F. Exposing image resampling forgery by using linear parametric model[J]. Multimedia Tools and Applications, 2018, 77(2): 1501-1523.
[17] QIAO T, SHI R, LUO X, et al. Statistical model-based detector via texture weight map: application in re-sampling authentication[J]. IEEE Transactions on Multimedia, 2019, 21(5): 1077-1092.
[18] THAI T H, COGRANNE R, RETRAINTETAL F. JPEG quantization step estimation and its applications to digital image forensics[J]. IEEE Transactions on Information Forensics and Security, 2017, 12(1): 123-133.
[19] QIAN Y, DONG J, WANG W, et al. Deep learning for steganalysis via convolutional neural networks[J]. Media Watermarking, Security, and Forensics, 2015(9409): 94090J1-94090J10.
[20] BAYAR B, STAMM M C. Constrained convolutional neural networks: a new approach towards general purpose image manipulation detection[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(11): 2691-2706.
[21] QUAN W, WANG K, YAN D M. Distinguishing between natural and computer-generated images using convolutional neural networks[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(11): 2772-2787.
[22] BAYAR B, STAMM M C. Augmented convolutional feature maps for robust CNN-based camera model identifica-tion[C]//2017 IEEE International Conference on Image Processing (ICIP). 2017: 4098-4102.
[23] FRIDRICH J, KODOVSKY J. Rich models for steganalysis of digital images[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 868-882.
[24] BAYAR B, STAMM M C. A generic approach towards image manipulation parameter estimation using convolutional neural networks[C]//Proceedings of the 5th ACM Workshop on Information Hiding and Multimedia Security (IH&MMSec). 2017: 147-157.
[25] BAYAR B, STAMMM C.A deep learning approach to universal image manipulation detection using a new convolutional layer[C]// Proceedings of the 4th ACM Workshop on Information Hiding and Multimedia Security (IH&MMSec). 2016: 5-10.
[26] BAYRAM S, SENCAR H, MEMON N, et al. Source camera identification based on CFA interpolation[C]//IEEE International Conference on Image Processing (ICIP). 2005: 1-4.
[27] CAO H, KOTA C. Accurate detection of demosaicing regularity for digital image forensics[J]. IEEE Transactions on Information Forensics and Security, 2009, 4(4): 899-910.
[28] FAN J, CHEN T, KOT A C. Exif-white balance recognition for image forensic analysis[J]. Multidimensional Systems and Signal Processing, 2017, 28(3): 795-815.
[29] LUKá? J, FRIDRICH J, GOLJAN M. Digital camera identification from sensor pattern noise[J]. IEEE Transactions on Information Forensics and Security, 2006, 1(2): 205-214.
[30] FILLER T, FRIDRICH J, GOLJAN M. Using sensor pattern noise for camera model identification[C]//IEEE International Conference on Image Processing(ICIP). 2008: 1296-1299.
[31] MARRA F, POGGI G, SANSONE C, et al. Blind PRNU-based image clustering for source identification[J]. IEEE Transactions on Information Forensics and Security, 2017, 12(9): 2197-2211.
[32] COZZOLINO D, MARRA F, GRAGANIEEL O D, et al. Combining PRNU and noiseprint for robust and efficient device source identification[J]. EURASIP Journal on Information Security, 2020, 2020(1): 1-12.
[33] GOLJAN M, FRIDRICH J, KIRCHNER M. Image manipulation detection using sensor linear pattern[J]. Electronic Imaging, 2018(7).
[34] LAWGALY A, KHELIFI F. Sensor pattern noise estimation based on improved locally adaptive DCT filtering and weighted averaging for source camera identification and verification[J]. IEEE Transactions on Information Forensics and Security, 2016, 12(2): 92-404.
[35] VALSESIA D, COLUCCIA G, BIANCHI T, et al. User authentication via PRNU-based physical unclonable functions[J]. IEEE Transactions on Information Forensics and Security. 2017, 12(8): 1941-1956.
[36] TUAMA A, COMBY F, CHAUMONT M. Camera model identification with the use of deep convolutional neural networks[C]// IEEE Int Workshop Information Forensics Security (WIFS). 2016: 1-6.
[37] BONDI L, BAROFFIO L, GüERA D, et al. First steps toward camera model identification with Convolutional Neural Networks[J].IEEE Signal Processing Letters, 2017, 24(3): 259-263.
[38] BONDI L, LAMERI S, GüERA D, et al. Tampering detection and localization through clustering of camera-based CNN features[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2017: 1855-1864.
[39] LESHNO M, LINV Y, PINKUS A. Multilayer feedforward networks with a non-polynomial activation function can approximate any function[J]. Neural Networks, 1993, 6(6): 861-867.
[40] YAO H, QIAO T, XU M, et al. Robust multi-classifier for camera model identification based on convolution neural network[J]. IEEE Access, 2018(6): 24973-24982.
[41] CHEN Y, KANG X, SHIY Q, et al. A multi-purpose image forensic method using densely connected convolutional neural networks[J]. Journal of Real-Time Image Processing, 2019,16(3): 725-740.
[42] HUANG G, LIU Z, VAN DE R MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 4700-4708.
[43] LIU Y, GUAN Q, ZHAO X, et al. Image forgery localization based on multi-scale convolutional neural net-works[C]//Proceedings of the 6th ACM Workshop on Information Hiding and Multimedia Security (IH&MMSec). 2018: 85-90.
[44] WU Y, ABD-ALMAGEED W, NATARAJAN P. Mantra-net: Manipulation tracing network for detection and localization of image forgeries with anomalous features[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 9543-9552.
[45] KORUS P, HUANG J. Multi-scale fusion for improved localization of malicious tampering in digital images[J]. IEEE Transactions on Image Processing, 2016, 25(3): 1312-1326.
[46] DENG C, LI Z, GAO X, et al. Deep multi-scale discriminative networks for double JPEG compression forensics[J]. ACM Transactions on Intelligent Systems and Technology, 2019, 10(2): 1-20.
[47] LI H, LUO W, QIU X, et al. Image forgery localization via integrating tampering possibility maps[J]. IEEE Transactions on Information Forensics and Security, 2017, 12(5): 1240-1252.
[48] LI H, LUO W, QIU X, et al. Identification of various image operations using residual-based features[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 28(1): 31-45.
[49] BARNES C, SHECHTMAN E, FINKELSTEIN A, et al. Patchmatch: a randomized correspondence algorithm for structural image editing[J]. ACM Transactions on Graphics (ToG), 2009, 28(3): 1-11.
[50] NATARAJ L, MOHAMMED T M, CHANDRASEKARANS, et al. Detecting GAN generated fake images using co-occurrence matrices[J]. Electronic Imaging, 2019, 5.
[51] MCCLOSKEY S, ALBRIGHT M. Detecting GAN-Generated Imagery Using Saturation Cues[C]//IEEE International Conference on Image Processing (ICIP). 2019: 4584-4588.
[52] MATERN F, RIESS C, STAMMINGER M. Exploiting visual artifacts to expose Deepfakes and face manipulations[C]//IEEE Winter Applications of Computer Vision Workshops (WACVW). 2019: 83-92.
[53] MO H, CHEN B, LUO W. Fake faces identification via convolutional neural network[C]//Proceedings of the 6th ACM Workshop on Information Hiding and Multimedia Security (IH&MMSec). 2018: 43-47.
[54] AFCHAR D, NOZICK V, YAMAGISHI J, et al. MesoNet: a compact facial video forgery detection network[C]//IEEE International Workshop on Information Forensics and Security (WIFS). 2018: 1-7.
[55] THIES J, ZOLLHOFER M, STAMMINGER M, et al.Face2face: real-time face capture and reenactment of RGB videos[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016: 2387-2395.
[56] LI Y, CHANGM C, LYU S. In ICTU oculi: exposing AI generated fake face videos by detecting eye blinking[C]//In IEEE International Workshop on Information Forensics and Security (WIFS). 2018: 1-7.
[57] YANG X, LI Y, LYU S. Exposing deep fakes using inconsistent head poses[C]//IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019: 8261-8265.
[58] AGARWAL S, FARID H, GU Y, et al. Protecting world leaders against Deepfakes[C]//IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2019: 38-45.
[59] ZHOU P, HAN X, MORARIU V I, et al. Two-stream neural networks for tampered face detection[C]//IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2017: 839.
[60] NGUYEN H H, YAMAGISHI J, ECHIZEN I. Capsule-forensics: Using capsule networks to detect forged images and videos[C]//IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019: 2307-2311.
[61] ROSSLER A, COZZOLINO D, VERDOLIVA L, et al. FaceForensics++: learning to detect manipulated facial images[C]//IEEE International Conference on Computer Vision (ICCV). 2019: 1-11.
[62] KOOPMAN M, RODRIGUEZ A M, GERADTS Z. Detection of Deepfake video manipulation[C]//IMVIP. 2018: 133-136.
[63] AMERINI I, GALTERI L, CALDELLI R, et al. Deepfake video detection through optical flow basedCNN[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. 2019: 1-3.
[64] LI Y, LYU S. Exposing Deepfake videos by detecting face warping artifacts[C]//IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2019: 46-52.
[65] DURALL R, KEUPER M, KEUPER J. Watch your up-convolution: CNN based generative deep neural networks are failing to reproduce spectral distributions[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 2020: 7890-7899.
[66] LI L, BAO J, ZHANG T, et al. Face X-ray for more general face forgery detection[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 2020: 5001-5010.
[67] LIUZ, QIX, TORRP H. Global texture enhancement for fake face detection in the wild[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 2020: 8060-8069.
[68] AMERINII, LIC T, CALDELLI R. Social network identification through image classification with CNN[J]. IEEE Access, 2019, 7: 35264-35273.
[69] JúNIORP R M, BONDI L, BESTAGINI P, et al. A PRNU-based method to expose video device compositions in open-set setups[C]//2019 IEEE International Conference on Image Processing (ICIP). 2019: 96-100.
[70] HE P, JIANG X, SUN T, et al. Computer graphics identification combining convolutional and recurrent neural networks[J]. IEEE Signal Processing Letters, 2018, 25(9): 1369-1373.
[71] QIAO T, RETRAINT F, COGRANNE R, et al. Individual camera device identification from JPEG images[J]. Signal Processing: Image Communication, 2017, 52: 74-86.
[72] GLOE T, B?HME R. The dresden image database for benchmarking digital image forensics[C]//Proceedings of the 2010 ACM Symposium on Applied Computing. 2010: 1584-1590.
[73] HUH M, LIU A, OWENS A, et al. Fighting fake news: image splice detection via learned self-consistency[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 101-117.
[74] BUNK J, BAPPYJ H, MOHAMMEDT M, et al. Detection and localization of image forgeries using resampling features and deep learning[C]//IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2017: 1881-1889.
[75] HUANG H, GUO W, ZHANG Y. Detection of copy-move forgery in digital images using sift algorithm[C]//2008 IEEE Pacific-Asia Workshop on Computational Intelligence and Industrial Application. 2008: 272-276.
[76] LI L, LI S, ZHU H, et al. An efficient scheme for detecting copy-move forged images by local binary patterns[J]. Journal of Information Hiding and Multimedia Signal Processing (IIH-MSP), 2013, 4(1): 46-56.
[77] GAO S, LIAO X, LIU X. Real-time detecting one specific tampering operation in multiple operator chains[J]. Journal of Real-Time Image Processing, 2019, 16(3): 741-750.
[78] QIAO T, RETRAINT F. Identifying individual camera device from raw images[J]. IEEE Access, 2018, 6: 78038-78054.
[79] WU Y, ABD-ALMAGEED W, NATARAJAN P. Deep matching and validation network: an end-to-end solution to constrained image splicing localization and detection[C]//Proceedings of the 25th ACM International Conference on Multimedia. 2017: 1480-1502.
[80] BONDI L, BESTAGINI P, PEREZ-GONZALEZ F, et al. Improving PRNU compression through preprocessing, quantization, and coding[J].IEEE Transactions on Information Forensics and Security, 2018, 14(3): 608-620.
[81] MOHAMMEDT M, BUNK J, NATARAJ L, et al. Boosting image forgery detection using resampling features and copy-move analysis[J]. Electronic Imaging, 2018(7): 1-7.
[82] MARRA F, GRAGNANIELLO D, VERDOLIVA L, et al. A full-image full-resolution end-to-end trainable CNN framework for image forgery detection[J]. arXiv preprint arXiv:1909.06751, 2019.
[83] BI X, WEI Y, XIAO B, et al. RRU-Net: the ringed residual u-net for image splicing forgery detection[C]//IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2019: 1-10.
[84] MANDELLI S, COZZOLINO D, BESTAGINI P, et al. CNN-based fast source device identification[J]. arXiv preprint arXiv: 2001.11847, 2020.
[85] COZZOLINO D, MARRA F, GRAGNANIELLO D, et al. Combining PRNU and noise print for robust and efficient device source identification[J]. EURASIP Journal on Information Security, 2020(1): 1-12.
Research progress of digital image forensic techniques based on deep learning
QIAO Tong1, YAO Hongwei1, PAN Binmin1, XU Ming1, CHENYanli2
1. School of Cyberspace, Hangzhou Dianzi University, Hangzhou 310018, China 2. University of Technology of Troyes, Troyes 10000, France
In the new era of rapid development of internet, where massive forgery images with updated tampering techniques flood into,traditional algorithms are no longer able to deal with the latest multimedia tampering techniques, especially those caused by Deepfake and deep learning techniques. Thus, a universal framework for image forensics including image pre-processing module, feature extraction module and post-processing module designed for specific classification were proposed creatively. Accordingly, the state-of-the-art algorithms were reviewed,and meanwhile the main strength and limitations of current algorithms were generalized. More importantly, the future studies were also listed for advancing the development of digital image forensics.
digital image forensic, convolution neural network, origin identification, forgery detection
TP37
A
10.11959/j.issn.2096?109x.2021047
2020?06?23;
2020?09?25
徐明,mxu@hdu.edu.cn
浙江省屬高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(GK219909299001-007);國(guó)家自然科學(xué)基金(61702150);浙江省基礎(chǔ)公益研究項(xiàng)目(LGG19F020015);網(wǎng)絡(luò)空間安全重點(diǎn)專項(xiàng)基金(2016YFB0800201)
The Fundamental Research Funds for the Provincial Universities of Zhejiang (GK219909299001-007), The National Natural Science Foundation of China (61702150), The Public Research Project of Zhejiang Province, China (LGG19F020015), The Cyberspace Security Major Program in National Key Research and Development Plan of China (2016YFB0800201)
喬通, 姚宏偉, 潘彬民, 等. 基于深度學(xué)習(xí)的數(shù)字圖像取證技術(shù)研究進(jìn)展[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2021, 7(5): 13-28.
QIAO T, YAO H W, PAN B M, et al. Research progress of digital image forensic techniques based on deep learning[J]. Chinese Journal of Network and Information Security, 2021, 7(5): 13-28.
喬通(1986? ),男,河南新鄉(xiāng)人,博士,杭州電子科技大學(xué)副教授,主要研究方向?yàn)閿?shù)字圖像取證、信息隱藏。
姚宏偉(1993? ),男,福建泉州人,杭州電子科技大學(xué)碩士生,主要研究方向?yàn)閿?shù)字圖像取證、人工智能安全。
潘彬民(2000? ),男,浙江溫州人,主要研究方向?yàn)閳D像隱寫(xiě)分析。
徐明(1972? ),男,浙江杭州人,博士,杭州電子科技大學(xué)教授、博士生導(dǎo)師。主要研究方向?yàn)閿?shù)字圖像取證、網(wǎng)絡(luò)安全。
陳艷利(1992? ),女,山東青島人,法國(guó)特魯瓦工程技術(shù)大學(xué)博士生,主要研究方向?yàn)閿?shù)字圖像取證。