侯春暉, 田華偉, 肖延輝, 郝昕澤
(1.中國人民公安大學(xué)國家安全學(xué)院, 北京 100038; 2.中國人民公安大學(xué)公安情報研究中心, 北京 100038)
在大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為一種重要的戰(zhàn)略資源,在各個領(lǐng)域都有著重要的實際應(yīng)用價值。數(shù)據(jù)的類型多種多樣,圖像作為信息交流的重要載體,是數(shù)據(jù)的重要組成部分,并且其中蘊(yùn)含著大量的情報信息,在偵查取證與司法訴訟中都發(fā)揮著重要的作用。
現(xiàn)階段對于圖像的分析多是基于對圖像內(nèi)容進(jìn)行的分析,但是圖像中還有大量的其他信息可以利用。在成像時,由于數(shù)字成像設(shè)備傳感器硅芯片的光響應(yīng)非均質(zhì)性(photo-response non-uniformity, PRNU)的影響,會在圖像中留下特定的痕跡。對于每個成像設(shè)備而言,這個痕跡都是獨(dú)一無二的,同時具有一定的穩(wěn)定性,就像人的指紋一樣,因此被研究人員稱為“設(shè)備指紋”。通過對圖像中提取的設(shè)備指紋進(jìn)行分析,可以進(jìn)一步識別圖像的成像設(shè)備?;谶@種技術(shù),偵查人員可以對獲得的圖像進(jìn)行溯源,這不僅有利于進(jìn)一步明確偵查方向,進(jìn)行串并案分析,還可以在司法鑒定中作為一種重要的補(bǔ)充證據(jù),輔助形成完整的證據(jù)鏈條。
在數(shù)字圖像成像時,場景內(nèi)容首先在設(shè)備中轉(zhuǎn)化為數(shù)字信號。這個過程中,信號要經(jīng)過鏡頭、顏色濾波矩陣和圖像傳感器等進(jìn)行處理,輸出的數(shù)字信號再經(jīng)過去馬賽克、降采樣、伽馬校正等操作最終輸出保存為我們所看到的圖片。因此,在圖像的成像過程中,會引入各種類型的噪聲,研究者們將這些噪聲作為數(shù)字圖像取證的重要參考依據(jù)。傳感器中的像素壞點(diǎn)[1-2]、CFA差值痕跡[3-4]、JEPG壓縮痕跡[5-6]、鏡頭的色散[7-8]以及圖像固有特征的組合[9-10]等都可以用于數(shù)字圖像的取證。但是其中應(yīng)用最多、效果最好的還是基于圖像傳感器模式噪聲(sensor pattern noise, SPN)的圖像來源取證算法。SPN中主要包括兩個部分[11],即固定模式噪聲(fixed pattern noise, FPN)和光響應(yīng)非均質(zhì)性噪聲,如圖1所示。
圖1 傳感器模式噪聲的組成
固定模式噪聲,即暗電流噪聲,其主要是由傳感器在沒有受到光照的時候傳感器像素之間的差異所造成的。同時固定模式噪聲會受到曝光度和溫度的影響,因此不易作為圖像來源取證的依據(jù)。另外,在自然圖像中,傳感器模式噪聲中最主要的部分是光響應(yīng)非均質(zhì)性噪聲,其主要是由于傳感器在制造過程中,由于硅芯片制造工藝缺陷而產(chǎn)生的固有噪聲,具有唯一性。PRNU不受溫度和濕度的影響,具有一定的穩(wěn)定性。此外,PRNU中還有一部分是由于鏡頭上的灰塵顆?;蛘哏R頭的參數(shù)設(shè)置等因素而產(chǎn)生,但是這一部分噪聲不能代表特定相機(jī)傳感器的特點(diǎn),不能用于成像設(shè)備來源取證。綜上所述,在PRNU中,僅僅是像素差異噪聲(pixel non-uniformity, PNU)能夠用于圖像來源取證技術(shù)中。
成像設(shè)備指紋的提取流程可以分為濾波、聯(lián)合與增強(qiáng)這3個階段[12-13]。在濾波階段,模式殘差即噪聲殘差可以通過濾波前后的圖像差值求得。傳統(tǒng)的圖像濾波方法有很多,如基于稀疏表示的方法[14],基于非局部相似性的方法[15],基于小波變換的方法[16]以及基于機(jī)器學(xué)習(xí)的方法[17]等。這些圖像濾波方法往往基于高斯模型對自然圖像中的噪聲進(jìn)行建模,但是基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法的自然圖像去噪的性能已經(jīng)收斂,降噪水平難以得到進(jìn)一步的顯著提升[18]。在濾波之后,還要經(jīng)過進(jìn)一步的噪聲殘差聯(lián)合以及增強(qiáng)操作,從而去除噪聲殘差中共有的且不能用于圖像溯源的成分。經(jīng)過上述操作后提取的圖像設(shè)備指紋中,可以保留更多的PRNU,從而能夠更好地應(yīng)用于圖像來源取證任務(wù)當(dāng)中。
近年來,深度學(xué)習(xí)技術(shù)在圖像去噪領(lǐng)域中的研究取得了巨大進(jìn)展。在文獻(xiàn)[19]中,Jain和Seung等人最早采用了5層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來完成圖像去噪任務(wù),Burger等人則采用了多層感知神經(jīng)網(wǎng)絡(luò)[20],之后還有一些研究中采用了基于自編碼器網(wǎng)絡(luò)的圖像去噪算法[21,22]。最引人注目的就是在文獻(xiàn)[23]中提出的基于前饋去噪卷積神經(jīng)網(wǎng)絡(luò)的算法(DnCNN),其在高斯圖像去噪任務(wù)中達(dá)到了優(yōu)秀的性能。但是由于真實圖像中的噪聲分布更加復(fù)雜,因此其在真實圖像去噪任務(wù)中的表現(xiàn)并不突出。還有一些其他的進(jìn)行圖像去噪的卷積神經(jīng)網(wǎng)絡(luò),如RED[24],MemNet[25],NLRN[26],以及VDN[27]等。但是基于卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪模型的訓(xùn)練需要大量成對數(shù)據(jù)集,這是其面臨的最大問題。
生成對抗網(wǎng)絡(luò)的興起為圖像去噪網(wǎng)絡(luò)的構(gòu)建提供了新的可能,這一部分的研究大體包括兩個方向:直接設(shè)計生成對抗網(wǎng)絡(luò)來進(jìn)行圖像去噪[28]以及用生成對抗網(wǎng)絡(luò)生成成對的訓(xùn)練數(shù)據(jù)來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)完成圖像去噪[29-32]。后者可以通過對真實圖像中的噪聲分布進(jìn)行學(xué)習(xí)[33-34],也可以通過建模圖像生成過程中相機(jī)內(nèi)部的噪聲引入過程來構(gòu)建[35-36]。但是基于生成對抗網(wǎng)絡(luò)的噪聲建模往往有大量的超參數(shù)需要人工預(yù)先設(shè)置,以滿足特定相機(jī)之間的差異。
為了更好地擬合真實圖像中的噪聲分布規(guī)律并有效解決生成對抗網(wǎng)絡(luò)中經(jīng)常出現(xiàn)的訓(xùn)練不穩(wěn)定的問題,文獻(xiàn)[37]中提出了一種對偶生成對抗網(wǎng)絡(luò)模型(dual adversarial network)。該模型中包括噪聲生成網(wǎng)絡(luò)與圖像去噪網(wǎng)絡(luò)兩個子網(wǎng)絡(luò),基于對抗學(xué)習(xí)的策略,能夠?qū)崿F(xiàn)對子網(wǎng)絡(luò)的聯(lián)合訓(xùn)練。同時噪聲生成網(wǎng)絡(luò)中生成的數(shù)據(jù)集又能進(jìn)一步加強(qiáng)對圖像去噪網(wǎng)絡(luò)的訓(xùn)練,提升其去噪能力。
對偶生成對抗網(wǎng)絡(luò)由圖像去噪網(wǎng)絡(luò)、噪聲生成網(wǎng)絡(luò)以及判別器網(wǎng)絡(luò)組成,如圖2所示。因UNet網(wǎng)絡(luò)訓(xùn)練速度較快并且對GPU的占用很少,因此去噪網(wǎng)絡(luò)和噪聲生成網(wǎng)絡(luò)均使用的是UNet網(wǎng)絡(luò)結(jié)構(gòu)聯(lián)合殘差學(xué)習(xí)的策略,如圖3所示。判別器網(wǎng)絡(luò)則由5層卷積神經(jīng)網(wǎng)絡(luò)以及一層全連接網(wǎng)絡(luò)組成,如圖4所示。
圖2 對偶生成對抗網(wǎng)絡(luò)的結(jié)構(gòu)
圖3 圖像去噪網(wǎng)絡(luò)和噪聲生成網(wǎng)絡(luò)的結(jié)構(gòu)
圖4 判別器網(wǎng)絡(luò)的結(jié)構(gòu)
在對偶生成對抗網(wǎng)絡(luò)中,未經(jīng)處理的成對數(shù)據(jù)(x,y)代表SIDD數(shù)據(jù)集中提供的圖像去噪網(wǎng)絡(luò)訓(xùn)練集中的一對數(shù)據(jù),x即無噪聲圖像,y即有噪聲圖像。在噪聲生成網(wǎng)絡(luò)中,還需要添加一個符合各向同性正態(tài)分布的變量z代表相機(jī)在成像時引入的與硬件相關(guān)的噪聲。y經(jīng)過圖像去噪網(wǎng)絡(luò)之后輸出去噪之后的圖像,無噪聲圖像x與變量z經(jīng)過噪聲生成網(wǎng)絡(luò)之后生成有噪聲圖像,如公式(1)(2)所示。
=R(y)
(1)
=G(x,z)
(2)
在對偶生成對抗網(wǎng)絡(luò)的訓(xùn)練過程中,一方面,噪聲生成網(wǎng)絡(luò)與圖像去噪網(wǎng)絡(luò)通過相互之間的對偶正則化而不斷增強(qiáng)。另一方面,通過圖像去噪網(wǎng)絡(luò)和噪聲生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)之間的對抗學(xué)習(xí),使得在去噪網(wǎng)絡(luò)中,y與之間的聯(lián)合分布關(guān)系pR(,y)以及在噪聲生成網(wǎng)絡(luò)中,x與之間的聯(lián)合分布關(guān)系pG(x,)最大程度地符合真實的含噪聲圖像與無噪聲圖像之間的聯(lián)合分布關(guān)系p(x,y)。其中,超參數(shù)α控制著圖像去噪網(wǎng)絡(luò)R和噪聲生成網(wǎng)絡(luò)G之間的相對重要性,如公式(3)所示。
(1-α)E(x,)[D(x,)]
(3)
噪聲生成網(wǎng)絡(luò)一方面可以促進(jìn)圖像去噪網(wǎng)絡(luò)的訓(xùn)練,另一方面也可以生成相應(yīng)的噪聲數(shù)據(jù)集,以進(jìn)一步對圖像去噪網(wǎng)絡(luò)進(jìn)行增強(qiáng)訓(xùn)練,提高圖像去噪網(wǎng)絡(luò)的去噪效果,這有效解決了圖像去噪網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)不足的問題。在對偶生成對抗網(wǎng)絡(luò)框架下,圖像去噪網(wǎng)絡(luò)和噪聲生成網(wǎng)絡(luò)也可以用其他的模型進(jìn)行替代。
本文中提出了一種基于對偶生成對抗網(wǎng)絡(luò)的成像設(shè)備指紋的提取模型,算法的整體框架如圖5所示,具體步驟如圖所示。
圖5 算法框架圖
(1)真實噪聲提取
輸入同一成像設(shè)備獲取的M幅圖像Ii,i=1,2,…,M,利用對偶生成對抗網(wǎng)絡(luò)中的圖像去噪模型對原始圖像Ii進(jìn)行去噪處理,得到去噪圖像i。
(2)計算噪聲殘差
根據(jù)公式(4)計算任意各個圖像Ii對應(yīng)的噪聲殘差Wi,其中i=1,…,N。
Wi=Ii-i
(4)
(3)估計成像設(shè)備指紋
如前所述,成像設(shè)備指紋能夠反應(yīng)特定相機(jī)傳感器的特點(diǎn),因而能作為圖像來源取證的重要依據(jù)。但是傳感器中的成像設(shè)備指紋是非常微弱的,其尺寸與傳感器的尺寸是一致的。根據(jù)相機(jī)的成像過程,可以建立如下手機(jī)傳感器輸出模型,如公式(5)所示。
I=I0+I0K+θ
(5)
其中,I為手機(jī)拍攝的自然圖像,I0為原始的沒有任何噪聲的真實場景圖像,K即是最終想要計算的成像設(shè)備指紋。這里的成像設(shè)備指紋K以乘性運(yùn)算作用于I0。Θ表示隨機(jī)噪聲,也是多種其他噪聲,如量化噪聲、散射噪聲、輸出噪聲等的混合。根據(jù)成像設(shè)備指紋的特性,通過上述步驟可以計算出來噪聲殘差Wi和輸入圖像Ii,可以求出成像設(shè)備指紋K的最大似然估計值為
(6)
(4)溯源圖像噪聲殘差計算
輸入溯源圖像Iz,利用對偶生成對抗網(wǎng)絡(luò)模型可以得到去噪后的圖像z,進(jìn)一步根據(jù)公式(4),可以得到對應(yīng)的噪聲殘差Wz。
(5)相似度計算
判斷溯源圖像與成像設(shè)備指紋之間的相似度,可以利用峰值相關(guān)能量比(peak to correlation energy ratio, PCE)來進(jìn)行計算。當(dāng)PCE值超過設(shè)定的閾值,就可以判定溯源圖像來自比對設(shè)備。計算PCE值,首先需要求出最大正則化的相關(guān)系數(shù)ρ[38],如公式(7)所示。
(7)
其中,
(8)
‖·‖ 為L2范數(shù),X=I,Y=WZ,圖像大小為m×n。然后,假設(shè)峰值出現(xiàn)在公式(7)最大值speak=[s1,s2]時,可以進(jìn)一步得到
(9)
為了驗證基于對偶生成對抗網(wǎng)絡(luò)的成像設(shè)備指紋提取模型在真實自然圖像中的性能表現(xiàn),本文在當(dāng)前圖像規(guī)模最大的智能手機(jī)來源取證數(shù)據(jù)集Daxing[39]中進(jìn)行了實驗,并基于同一數(shù)據(jù)集與經(jīng)典的同類算法進(jìn)行了比較。Daxing數(shù)據(jù)集中包含了22個不同型號的90部智能手機(jī)拍攝的43 400幅不同場景下的JEPG圖像,可以有效驗證本文模型在不同品牌的手機(jī)設(shè)備及不同的拍攝場景下的實際應(yīng)用效果。為了驗證本文中的模型在不同的圖像分辨率下的性能表現(xiàn),本文將圖像統(tǒng)一裁剪為了3種尺寸:128×128,256×256,512×512。直接訓(xùn)練得到的圖像去噪網(wǎng)絡(luò)記為DANet,而基于噪聲生成網(wǎng)絡(luò)生成的數(shù)據(jù)進(jìn)一步訓(xùn)練得到的圖像去噪網(wǎng)絡(luò)記為DANet+。本文中的成像設(shè)備指紋提取模型先后采用了這兩個網(wǎng)絡(luò)進(jìn)行實驗,實驗結(jié)果及過程分析如下。
為了驗證算法的有效性,本文中的算法與基于塊匹配3D濾波(BM3D)的算法[40]以及基于前饋去噪卷積神經(jīng)網(wǎng)絡(luò)(xDnCNN)的算法[41]在相同的數(shù)據(jù)集上進(jìn)行了比較實驗。針對每部手機(jī),隨機(jī)選取了50張用于設(shè)備指紋的提取,然后從剩余的圖像中隨機(jī)選取了100張,并計算這些圖像的噪聲殘差,最后計算圖像噪聲殘差與圖像的設(shè)備指紋之間的PCE值。對這些PCE值,根據(jù)不同的閾值計算出真陽率TPR和假陽率FPR,進(jìn)而得出圖6中的ROC曲線。
從圖6可以看出,在手機(jī)源取證數(shù)據(jù)集Daxing上,在128×128、256×256、512×512這3種不同分辨率下,本文算法既優(yōu)于基于卷積神經(jīng)網(wǎng)絡(luò)的算法xDnCNN,又優(yōu)于傳統(tǒng)的BM3D算法。同時比較DANet和DANet+的實驗結(jié)果可以發(fā)現(xiàn),基于DANet+的實驗效果要明顯好于基于DANet的實驗效果。因此,用噪聲生成網(wǎng)絡(luò)生成的實驗數(shù)據(jù)進(jìn)行訓(xùn)練,可以進(jìn)一步提高圖像去噪網(wǎng)絡(luò)的實驗效果。
圖6 實驗結(jié)果比較
本文設(shè)計了一種基于對偶生成對抗網(wǎng)絡(luò)的成像設(shè)備指紋提取模型,該模型的實驗效果既優(yōu)于傳統(tǒng)的BM3D成像設(shè)備指紋提取算法,同時也優(yōu)于基于前饋去噪卷積神經(jīng)網(wǎng)絡(luò)的成像設(shè)備指紋提取算法。對偶生成對抗網(wǎng)絡(luò)中的噪聲生成模型還可以生成成對的訓(xùn)練數(shù)據(jù)集,以進(jìn)一步提高網(wǎng)絡(luò)模型在成像設(shè)備指紋提取中的性能表現(xiàn)。同時,本文在對偶生成對抗網(wǎng)絡(luò)框架下采用了基于UNet的子網(wǎng)絡(luò)模型,在未來的進(jìn)一步研究中,可以探索其他子網(wǎng)絡(luò)模型在對偶生成對抗框架下的成像設(shè)備指紋提取效果。