中圖分類號(hào):TP929 文獻(xiàn)標(biāo)志碼:A
Screen-shooting resilient digital watermarking based on invertible neural network in wavelet domain
CHENG Senmao1, GUO Daidou’,LIFengyong2, HAN Yanfang1,QIN Chuan1 (1.SchoolofOptical-ElectricalandComputerEnginering,UniversityofanghaifoienceandThologangha03, China;2.CollgeofComputer ScienceandTechnology,Shanghai UniversityofElectricPower,Shanghai 2Ol306,China)
Abstract: Multimedia security in screen-shooting channel transmisson remains a major challenge in the digital watermarking research. In view of the problems of differences in light intensities and sampling distortions during the screen-shooting process, watermarking schemes designed based on digital channels are not suitable for screen-shooting channels. Therefore, a screen-shooting resilient watermarking scheme based on invertible neural networks in the wavelet domain was proposed to address the issue of \"cross-media robustness\". First, the watermark message and the original image were preprocessed using a preprocessing network based on the U-Net structure to generate the residual image. Next, the residual image was subjected to discrete wavelet transform with the original image, and the invertible neural network was used to embed and extract watermarks in the wavelet domain. Finally, a noise pool was integrated into the model training process to enhance the robustness against screenshooting noise atacks. Simulation results demonstrate that the proposed scheme generates watermarked images with better visual quality and achieves high accuracy of watermark extraction at diffrent distances, angles, and light intensities of screen-shooting.
Keywords: robust watermarking; screen-shooting; invertible neural network; wavelet domain
隨著智能便攜攝影設(shè)備擁有越來(lái)越高的拍照性能和普及率,拍照成為了日常生活中最簡(jiǎn)單高效的信息傳遞方式之一。人們只需要對(duì)顯示在屏幕上的多媒體內(nèi)容進(jìn)行拍照就可以實(shí)現(xiàn)信息的獲取,且不會(huì)留下任何記錄痕跡。因此,屏幕拍照過程中的信息泄露問題亟需解決??蛊翑z數(shù)字水印的目標(biāo)是通過在多媒體數(shù)據(jù)中嵌入水印信息,使得顯示在屏幕上的多媒體數(shù)據(jù)即使被相機(jī)所捕獲,水印信息仍然能夠保證可提取,從而達(dá)到版權(quán)保護(hù)和追蹤溯源的目的[1-2]
相較于人為設(shè)計(jì)嵌入規(guī)則的傳統(tǒng)魯棒水印方法,基于深度學(xué)習(xí)的魯棒水印方法可以更好地發(fā)揮特征擬合能力,并通過端到端的聯(lián)合訓(xùn)練實(shí)現(xiàn)高質(zhì)高效嵌入,包括一般的深度魯棒水印技術(shù)[3-7]和針對(duì)跨媒介通信的深度魯棒水印技術(shù)[8-12]。然而,一般的深度魯棒水印方法通常只考慮數(shù)字傳輸信道的魯棒性,例如噪聲、平移、縮放、JPEG壓縮和濾波等,忽略了跨媒介傳輸信道,特別是屏攝傳輸信道所帶來(lái)的噪聲攻擊。與數(shù)字傳輸信道相比,屏攝傳輸信道中涉及的噪聲更加復(fù)雜,例如屏幕顯示和相機(jī)成像之間的數(shù)模轉(zhuǎn)換、傳感器以及后處理操作等,導(dǎo)致成像過程不僅受到硬件設(shè)備(如顯示器類型和攝像頭質(zhì)量)的影響,還受到人為和環(huán)境因素(如環(huán)境光源、拍攝角度和拍攝距離)的影響。因此,真實(shí)屏攝環(huán)境下的噪聲對(duì)含水印圖像的干擾性更強(qiáng),這就對(duì)水印信息的提取精度提出了更高的要求。
為了解決該問題,研究者們提出了一系列基于深度神經(jīng)網(wǎng)絡(luò)的抗屏攝數(shù)字水印方法。例如,Zhu 等[13]提出了HiDDeN水印框架,通過在端到端的訓(xùn)練中引入噪聲層來(lái)增強(qiáng)魯棒性。Liu等[14]提出了一種基于深度學(xué)習(xí)的兩階段可分離水印框架。第一階段采用多層特征編碼策略來(lái)訓(xùn)練編碼器;第二階段結(jié)合真實(shí)的噪聲攻擊生成噪聲圖像,利用噪聲圖像對(duì)解碼器進(jìn)行訓(xùn)練,以增強(qiáng)解碼器的魯棒性。Tancik等[15]提出了適用于“打印-拍照”過程的水印方法——StegaStamp,并使用生成對(duì)抗網(wǎng)絡(luò)[1](generative adversarial network,GAN)對(duì)圖像進(jìn)行對(duì)抗訓(xùn)練。此外,還有SSDeN[17]、RIHOOP[18]和 PIMoG[19] 等深度抗屏攝數(shù)字水印方法。上述抗屏攝水印方法基本上都遵循著編碼器-噪聲層-解碼器的結(jié)構(gòu),雖然在不同程度上提升了抗屏攝攻擊的能力,但是,該結(jié)構(gòu)也存在著一些局限性。例如,解碼器及其隱變量是由數(shù)據(jù)推斷出的近似似然評(píng)估,這意味著模型訓(xùn)練目標(biāo)不是一個(gè)精確的形式,會(huì)導(dǎo)致不可逆的特征丟失,不利于水印信息的提取。
針對(duì)上述問題,本文提出了一種基于可逆神經(jīng)網(wǎng)絡(luò)(invertibleneuralnetwork,INN)的小波域抗屏攝水印方法,通過構(gòu)建一個(gè)基于U-Net網(wǎng)絡(luò)結(jié)構(gòu)的預(yù)處理網(wǎng)絡(luò),對(duì)水印信息和原始圖像進(jìn)行預(yù)編碼,提高含水印圖像的視覺質(zhì)量與魯棒性。另外,基于可逆神經(jīng)網(wǎng)絡(luò)參數(shù)共享機(jī)制,在Haar小波域內(nèi)實(shí)現(xiàn)水印信息的嵌入和提取,提升模型的訓(xùn)練效率和不可感知性,并增加了一個(gè)集成有數(shù)字攻擊和真實(shí)屏攝攻擊的噪聲池,加強(qiáng)抵抗屏攝噪聲攻擊的能力。
1 基于可逆神經(jīng)網(wǎng)絡(luò)的小波域抗屏攝水印方法
如圖1所示,本文所提出的基于可逆神經(jīng)網(wǎng)絡(luò)的小波域抗屏攝水印方法包括5個(gè)部分:預(yù)處理模塊、可逆模塊、噪聲池、矯正模塊和信息提取模塊。圖中:DWT和IWT分別表示離散小波變換(discretewavelettransform,DWT)和逆離散小波變換(inversewavelet transform,IWT); Fo 和 Fr 分別表示原始圖像特征和殘差圖像特征; Fe 和 Ft 分別表示含水印圖像特征和原始圖像特征 Fo 的輸出; S 為縮放強(qiáng)度因子; Fd1 和 Fd2 分別為噪聲圖像特征和輔助變量; Fr′ 和 F0' 為恢復(fù)殘差圖像特征和恢復(fù)圖像特征; ?(?) 、 ρ(?) 和 η(?) 是任意函數(shù)。
1.1 預(yù)處理模塊
預(yù)處理模塊由一個(gè)全連接層(fullyconnectedlayer,F(xiàn)C)和一個(gè)簡(jiǎn)化版的U-Net網(wǎng)絡(luò)[20]組成。簡(jiǎn)化版U-Net網(wǎng)絡(luò)有6層網(wǎng)絡(luò)結(jié)構(gòu),其中包括:2個(gè)下采樣層,用于降低輸入圖像尺寸,增強(qiáng)圖像局部特征的提?。恢虚g的1個(gè)卷積層,用于提取圖像局部特征;2個(gè)上采樣層,用于將特征圖恢復(fù)到原始輸入圖像的尺寸;上采樣和下采樣之間的跳躍連接可以更多地傳遞上下文信息和保留細(xì)節(jié);最后1層為信息分類層。相較于常規(guī)的全連接層網(wǎng)絡(luò),U-Net網(wǎng)絡(luò)的設(shè)計(jì)使其在圖像處理時(shí)能夠更好地保留空間信息,有效地融合了深層特征和淺層特征,從而能夠同時(shí)捕獲圖像的全局信息和細(xì)節(jié)信息。為了提升模型的訓(xùn)練速度,本文設(shè)計(jì)了簡(jiǎn)化版的U-Net網(wǎng)絡(luò)作為預(yù)處理模塊,減少模型的深度和卷積層中的參數(shù)數(shù)量,在保證圖像質(zhì)量的同時(shí)降低了過擬合風(fēng)險(xiǎn)。
首先,預(yù)處理網(wǎng)絡(luò)將水印信息 M∈(0,1)K 通過全連接層形成 C×(H/4)×(W/4) 的張量;然后,再經(jīng)過上采樣操作生成與原始圖像 具有相同大小的張量;最后,將該張量和原始圖像進(jìn)行級(jí)聯(lián)并輸入到U-Net網(wǎng)絡(luò)中,得到含有水印信息的殘差圖像 Ir 。其中: C 表示通道數(shù); H 表示圖像的高度; W 表示圖像的寬度; K 表示水印信息的長(zhǎng)度。由于預(yù)處理模塊實(shí)現(xiàn)了水印信息到原始圖像的預(yù)編碼,因此,該模塊的加入會(huì)增強(qiáng)含水印圖像的視覺質(zhì)量和魯棒性,其處理過程如下:
式中,fFc(.)、fus、fu和 fPM(?) 分別表示全連接操作、上采樣操作、經(jīng)過U-Net和經(jīng)過預(yù)處理模塊處理的操作。
1.2 基于頻域的可逆神經(jīng)網(wǎng)絡(luò)
在INN中,給定一個(gè)變量 x 和正向計(jì)算 y=f(x) ,可以通過反向計(jì)算 x=f-1(y) 直接恢復(fù)出變量 x ,正向函數(shù) f 與反向函數(shù) f-1 共享相同的參數(shù)[21-22]。受此啟發(fā),為了提升模型的訓(xùn)練效率和降低訓(xùn)練難度,本文使用INN作為骨干網(wǎng)絡(luò)實(shí)現(xiàn)水印的嵌入和提取。此外,根據(jù)人類視覺系統(tǒng)(humanvisualsystem,HVS)的掩蔽效應(yīng),水印信息可以被嵌入到原始圖像中不易被感知的區(qū)域,特別是離散小波變換域中的高頻區(qū)域。因此,為了提高不可感知性,本研究將INN與Haar小波域相結(jié)合。與傳統(tǒng)的U-Net網(wǎng)絡(luò)相比,INN的設(shè)計(jì)允許在網(wǎng)絡(luò)的正向和反向傳播中精確地重建輸入數(shù)據(jù),這意味著在頻域上進(jìn)行水印的嵌入和提取時(shí),它能夠更好地保留圖像的原始信息和細(xì)節(jié)。另外,INN能夠區(qū)分和處理圖像信號(hào)的不同頻率成分,這使得它在面對(duì)噪聲干擾時(shí),特別是在處理高頻噪聲時(shí)表現(xiàn)出更好的魯棒性。INN的逆向過程通過執(zhí)行與正向過程相反的操作來(lái)進(jìn)行,其中,正向傳播和逆向傳播共享參數(shù)。
在嵌入過程中,大小為 C×H×W 的原始圖像Io 和殘差圖像 Ir 經(jīng)過DWT后分別被轉(zhuǎn)換成大小為 4C×(H/2)×(W/2) 的張量,得到 Fo 和 Fr ,其變換過程如下:
F0=fDWT(I0)
Fr=fDWT(Ir)
式中, fDWT(?) 表示離散小波變換。
接著,在將 Fo 和 Fr 輸入到INN的正向傳播過程中,獲得 Fe 和 Ft° 將 Fe 經(jīng)強(qiáng)度因子 S 縮放并添加到 Ft 中,通過IWT后得到含水印圖像 Ie∈(0,255)C×H×W ,計(jì)算過程如下:
Fe=Fr⊕?(Fo)
(5)式中: ⊕ 表示加法運(yùn)算; ? 表示點(diǎn)積運(yùn)算;fiwr表示逆離散小波變換。這里使用了swintransformer[23]的網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。
提取過程中,噪聲圖像 Id 通過DWT后得到Fd1 ,將其復(fù)制并作為輔助變量 Fd2 ,同時(shí)輸入到INN的反向傳播過程中,得到 Fr' 和 F0' 。由于所提方法的最終目標(biāo)是恢復(fù)水印信息 M′ ,本文將 Fo' 丟棄,只保留 Fr' 。最后,通過IWT得到恢復(fù)殘差圖像 Ir′ ,公式如下:
式中, 表示減法運(yùn)算。
1.3 噪聲池
為了提升抵抗噪聲攻擊的能力,本研究設(shè)計(jì)了一個(gè)噪聲池來(lái)模擬屏攝過程中可能存在的攻擊,噪聲池主要集成了5種攻擊:透視變換、裁剪攻擊、JPEG壓縮、組合噪聲攻擊、摩爾紋攻擊。針對(duì)攻擊透視變換-攻擊組合噪聲攻擊,本文使用可微函數(shù)進(jìn)行近似模擬。例如:使用一個(gè)隨機(jī)單應(yīng)性模擬與圖像傾斜的相機(jī)效果模擬透視變換;使用高斯噪聲模型來(lái)解釋成像噪聲;結(jié)合Shin 等[24]的方法運(yùn)用分段函數(shù)逼近量化步長(zhǎng)來(lái)模擬JPEG壓縮。
由于無(wú)法使用可微函數(shù)對(duì)屏攝過程中產(chǎn)生的摩爾紋進(jìn)行定量分析,本文借鑒Wengrowski等[25]的方法,采用CameraDisplay 1M數(shù)據(jù)集對(duì)類似于U-Net網(wǎng)絡(luò)的失真網(wǎng)絡(luò)進(jìn)行訓(xùn)練來(lái)模擬摩爾紋攻擊,具體結(jié)構(gòu)如圖3所示。
對(duì)含水印圖像的攻擊可表示為
Id=fNP(Ie)=A(Ie)+Z
式中: Id 表示受到攻擊后的含水印圖像,即噪聲圖像; Z 表示疊加的失真摩爾紋; A(?) 表示5種隨機(jī)噪聲攻擊; 表示經(jīng)過噪聲池處理的操作。
1.4 矯正模塊
在屏攝過程中,通過相機(jī)捕獲的屏攝圖像Is 可能不僅包括含水印圖像本身,還包括部分多余的背景信息。這些背景信息的存在會(huì)嚴(yán)重干擾水印信息的提取精度。所以,去除多余的背景信息非常必要。為了解決該問題,本文采用了DeepLab V3+[26] 語(yǔ)義分割模型實(shí)現(xiàn)目標(biāo)區(qū)域的定位和分割,如圖4所示。同時(shí),使用基于中值濾波的Canny檢測(cè)方法和Hough變換對(duì)分割區(qū)域的邊緣進(jìn)行平滑處理和角點(diǎn)定位。通過已定位角點(diǎn)對(duì)得到的分割圖像進(jìn)行透視變換處理,最后獲得矯正圖像 Ip ,計(jì)算過程如下:
Ip=fCN(Is)=(fHough(fCamy(fDM(Is))))
式中, fDM(?)?Γ,ΓfCanny(?)?ΓfHough(?) 和 fCN(?) 分別表示定位分割操作、Canny檢測(cè)、Hough變換和經(jīng)過矯正模塊處理的操作。
1.5 信息提取模塊
信息提取模塊由4個(gè)卷積層和1個(gè)全連接層組成,其主要目標(biāo)是從恢復(fù)的殘差圖像 Ir' 中提取出已嵌入的二進(jìn)制水印信息 M'∈(0,1)K ,水印信息的提取過程如下:
式中, fIE(?) 表示信息提取模塊處理的操作。
1.6 損失函數(shù)
為了保證含水印圖像的視覺質(zhì)量以及水印信息的提取準(zhǔn)確率,在訓(xùn)練過程中,分別使用了3種不同的損失函數(shù)對(duì)模型進(jìn)行監(jiān)督:縮小含水印圖像 Ie 與原始圖像 Io 之間感知差異的損失函數(shù)Lc ;提高信息恢復(fù)準(zhǔn)確率的信息損失函數(shù) LR ;增強(qiáng)水印隱蔽性的低頻小波損失函數(shù) Lf°
為了使編碼后的含水印圖像 Ie 與原始圖像Io 在視覺感知上盡可能相似,設(shè)計(jì)了感知相似度損失函數(shù) Lc
式中, 表示對(duì)每個(gè)元素的平方求和,然后再計(jì)算平方根。
在信息提取過程中,給定含水印圖像 Ie ,信息提取網(wǎng)絡(luò)應(yīng)該能夠盡可能準(zhǔn)確地恢復(fù)出長(zhǎng)度為K 的二進(jìn)制水印信息 M′ ,本文通過信息損失函數(shù)LR 監(jiān)督該過程:
由于人眼對(duì)圖像高頻子帶噪聲的敏感度較低,將水印信息嵌入到DWT域的高頻成分中,可以提高隱蔽性。受此啟發(fā),文中提出了低頻小波損失(low frequencywaveletloss, LL)Lf 來(lái)增強(qiáng)所提方法的隱蔽性。通過最小化原始圖像和含水印圖像在 Lf 上的差值,使更多的水印信息嵌入到圖像的高頻成分中,低頻小波損失函數(shù)的定義如下:
式中: IoLL 表示原始圖像在離散小波域的低頻子帶信息; IeLL 表示含水印圖像在離散小波域的低頻子帶信息。
最后,總損失函數(shù) Ltotal 是 Lc 、 Lf 的加權(quán)和,即
Ltotal=λcLc+λRLR+λfLf
式中, λc 、R和 λf 是超參數(shù)。在模型訓(xùn)練初始階段,只有 Lc 和 LR 參與訓(xùn)練,隨著模型逐漸收斂,最后將 Lf 添加到端到端的訓(xùn)練過程中。
2 實(shí)驗(yàn)結(jié)果及分析
2.1 實(shí)驗(yàn)數(shù)據(jù)集及參數(shù)設(shè)置
實(shí)驗(yàn)中所使用的原始圖像均來(lái)自于COCO2014數(shù)據(jù)集[27],其中,訓(xùn)練集包括 40000張圖像,測(cè)試集包括10000張圖像,訓(xùn)練集中的圖像數(shù)據(jù)與測(cè)試集中的圖像數(shù)據(jù)均不相同。為了保證圖像尺寸的統(tǒng)一性,使用中心裁剪的方式對(duì)原始圖像進(jìn)行統(tǒng)一裁剪,像素大小設(shè)置為 256×256 。二進(jìn)制水印信息則采用隨機(jī)生成的方式獲取,長(zhǎng)度設(shè)置為64bit。整個(gè)模型使用雙Nvidia3090顯卡進(jìn)行訓(xùn)練,其中,批量大小設(shè)置為8,學(xué)習(xí)率設(shè)置為0.0001,優(yōu)化算法選擇Adam算法。圖像分割模型DeepLabV3+所使用的數(shù)據(jù)集則為自建屏攝數(shù)據(jù)集,采集標(biāo)準(zhǔn)如下:相機(jī)拍攝角度控制在±25° 的偏轉(zhuǎn)范圍內(nèi),拍攝距離小于等于 50cm ,所拍攝的圖像來(lái)自于ImageNet 數(shù)據(jù)集[28],并對(duì)每張屏攝圖像的角點(diǎn)進(jìn)行標(biāo)記,生成訓(xùn)練標(biāo)簽。
超參數(shù) λc 、R和 λf 取值分為以下3種情況:無(wú)噪聲池參與的模型在訓(xùn)練過程中,參數(shù)分別設(shè)置為5.0、0.1和5.0;只添加數(shù)字攻擊對(duì)模型進(jìn)行訓(xùn)練時(shí),參數(shù)分別設(shè)置為5.0、1.0和5.0;同時(shí)添加數(shù)字攻擊和屏攝攻擊對(duì)模型進(jìn)行訓(xùn)練時(shí),參數(shù)分別設(shè)置為1.0、1.0和1.0。
縮放強(qiáng)度因子 S 隨著訓(xùn)練的進(jìn)行而逐步減小,初始取值為1.5,每個(gè)訓(xùn)練周期之后衰減0.05。20個(gè)訓(xùn)練周期之后衰減到最小值0.5,之后不再變化。
2.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)通過計(jì)算水印信息的提取精度(accuracy,ACC)進(jìn)行魯棒性評(píng)估,如式(16)所示,誤碼率(biterrorrate,BER)如式(17)所示。
A=1-B
式中: A 為提取精度; B 為誤碼率; Mi 表示原始水印信息的第 i 個(gè)比特; Mi′ 表示恢復(fù)水印信息的第 i 個(gè)比特。
通過使用峰值信噪比(peaksignal-to-noiseratio,PSNR)和結(jié)構(gòu)相似性(structural similarityindex,SSIM)對(duì)含水印圖像的圖像質(zhì)量進(jìn)行評(píng)估:
式中: P 為峰值信噪比; EMSE 為均方誤差(meansquared error,MSE), Ie(x,y)]2 ;
為衡量結(jié)構(gòu)相似性的指標(biāo); Io(x, y) 和 Ie(x,y) 分別表示原始圖像 Io 和含水印圖像
Ie 在坐標(biāo) (x,y) 處的像素; IMAX 指圖像的最大像素值; o(i) 和 e(i) 是 Io 和 Ie 的第 i 個(gè)塊; N 是指塊的總數(shù); μo(i) 和 μe(i) 指 o(i) 和 e(i) 的均值; σoe(i) 指 o(i) 和 e(i) 的協(xié)方差; σo(i) 和 σe(i) 指 o(i) 和 e(i) 的標(biāo)準(zhǔn)差; C1 和C2 是兩個(gè)趨近于0的小常數(shù)。
2.3 圖像質(zhì)量比較
對(duì)于含水印圖像的質(zhì)量分析,實(shí)驗(yàn)分別與StegaStamp、HiDDeN、 CIN[29] ! UDH[30] 和PIMoG方法進(jìn)行比較。所有方法均使用來(lái)自于COCO2014數(shù)據(jù)集中相同的1000張?jiān)紙D像,水印信息的長(zhǎng)度設(shè)置為 64bit 。圖5是一組原始圖像以及分別用5種方法所生成的含水印圖像示例。通過圖5可以看到,與其他5種方法相比,通過本文方法生成的含水印圖像在大塊純色區(qū)域上,陰影大幅度減少,較好地保留了圖像的細(xì)節(jié)特征,在生成的含水印圖像質(zhì)量上也有著較為明顯的優(yōu)勢(shì),詳細(xì)實(shí)驗(yàn)結(jié)果見表1。由表1可知,本文方法生成的含水印圖像,其PSNR值和SSIM值分別達(dá)到35.07dB和0.9736,相較于抗屏攝水印模型 StegaStamp,PSNR值提高了 7.82dB ,SSIM值提高了0.0709。同時(shí),表1數(shù)據(jù)說(shuō)明,本文方法也分別優(yōu)于CIN、HiDDeN、UDH和PIMoG這4種模型
2.4 魯棒性比較
為了更加全面客觀地評(píng)價(jià)本文方法的魯棒性,實(shí)驗(yàn)分別對(duì)6種方法所生成的含水印圖像進(jìn)行了數(shù)字攻擊,對(duì) StegaStamp、CIN、UDH、PIMoG和本文方法進(jìn)行了真實(shí)屏攝攻擊,其中,水印信息的長(zhǎng)度同樣設(shè)置為64bit。
2.4.1抗數(shù)字攻擊的性能評(píng)估
實(shí)驗(yàn)隨機(jī)選取了來(lái)自COCO2014數(shù)據(jù)集中的1000張圖像作為原始圖像,并使用3種常見的數(shù)字攻擊,即裁剪、JPEG壓縮和組合噪聲對(duì)含水印的圖像進(jìn)行測(cè)試。a.裁剪攻擊:現(xiàn)實(shí)屏攝過程中,異物遮擋鏡頭常導(dǎo)致拍攝到的圖像不完整。為了模擬物體遮擋的情況,本研究選用不同比例大小的黑色像素塊隨機(jī)覆蓋含水印圖像,實(shí)驗(yàn)結(jié)果見圖6。b.JPEG壓縮:在圖像存儲(chǔ)和傳輸過程中,為了節(jié)省圖像存儲(chǔ)空間以及增加傳輸效率,一般會(huì)采用JPEG格式對(duì)圖像進(jìn)行有損壓縮,本研究使用了不同的壓縮質(zhì)量因子對(duì)含水印圖像進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果見圖7。c.組合噪聲:實(shí)驗(yàn)中主要考慮了最常見的椒鹽噪聲和高斯噪聲。椒鹽噪聲在圖像中表現(xiàn)為離散分布的純白色或黑色像素點(diǎn),高斯噪聲是指噪聲密度函數(shù)服從高斯分布的噪聲,標(biāo)準(zhǔn)方差的大小代表了噪聲強(qiáng)度。實(shí)驗(yàn)主要對(duì)含水印圖像隨機(jī)添加不同強(qiáng)度的椒鹽噪聲和高斯噪聲進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果見圖8。通過圖 6~ 8可以看出,相較于StegaStamp、HiDDeN、CIN、PIMoG和UDH,本文方法在不同類型和不同強(qiáng)度的數(shù)字攻擊下均有著較高的提取準(zhǔn)確率。
2.4.2抗屏攝攻擊的性能評(píng)估
針對(duì)真實(shí)的屏攝攻擊,實(shí)驗(yàn)隨機(jī)選取了來(lái)自COCO2014數(shù)據(jù)集中的50張圖像作為原始圖像,并對(duì)各方法生成的含水印圖像在不同的拍攝距離、拍攝角度和光照度條件下進(jìn)行測(cè)試。
a.不同拍攝距離:實(shí)驗(yàn)分別在20、35、50cm 下對(duì)含水印圖像進(jìn)行拍攝。圖9顯示了在不同距離下的屏攝結(jié)果和對(duì)應(yīng)的矯正圖像示例,實(shí)驗(yàn)結(jié)果見表2。通過表2可以看出,本文方法的水印信息提取準(zhǔn)確率優(yōu)于StegaStamp、CIN、UDH和PIMoG模型。
b.不同的拍攝角度:實(shí)驗(yàn)選擇了 60° 、 45° 和30° 作為拍攝位置與屏幕所在位置的夾角,正號(hào)(+) 和負(fù)號(hào)(-)分別代表左向拍攝和右向拍攝,垂直拍攝距離設(shè)置為 35cm ,實(shí)驗(yàn)結(jié)果見圖10和表3。根據(jù)表3可知,在不同的拍攝角度下,本文方法的水印提取準(zhǔn)確率依然有著較為明顯的優(yōu)勢(shì)。
c.不同的光照度:在低光照環(huán)境下拍攝圖像時(shí),為了實(shí)現(xiàn)理想曝光,通常需要提高感光度,但高感光度會(huì)顯著增加畫面噪點(diǎn)。本研究分別在光照強(qiáng)度為50、150、 300lx 的環(huán)境下進(jìn)行了實(shí)驗(yàn),垂直拍攝距離為 35cm 。圖11展示了不同光照強(qiáng)度下的屏幕拍攝圖像及其對(duì)應(yīng)的矯正圖像示例。另外,通過表4可以看出,本文方法在不同光照度下的水印提取準(zhǔn)確率同樣優(yōu)于StegaStamp、CIN、UDH和PIMoG方法。
2.5 消融實(shí)驗(yàn)
本研究主要對(duì)以下3種情況進(jìn)行了消融實(shí)驗(yàn):
a.對(duì)預(yù)處理模塊PM的重要性討論。本文方法的預(yù)處理模塊PM主要用于提升含水印圖像的質(zhì)量。因此,為進(jìn)一步驗(yàn)證預(yù)處理模塊PM的重要性,對(duì)其進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)的參數(shù)設(shè)置與上文保持一致,實(shí)驗(yàn)結(jié)果見表5。通過表5可以看出,在未添加PM模塊的情況下,PSNR值和SSIM值分別為33.96dB和0.9685,而添加PM之后,PSNR值和SSIM值均有明顯提升。
b.對(duì)PM中有/無(wú)原始圖像 Io 參與的討論。對(duì)該問題進(jìn)行兩種情況的討論: (a)預(yù)處理模塊PM的輸人僅與水印信息 M 有關(guān),原始圖像 Io 不參與此模塊的輸入;(b)水印信息 M 和原始圖像Io 均作為預(yù)處理模塊PM的輸入。通過對(duì)上述兩種情況生成的含水印圖像 Ie"進(jìn)行分析,實(shí)驗(yàn)結(jié)果見表6。通過表6可以看出,有原始圖像 Io"參與PM訓(xùn)練的情況下,PSNR值和SSIM值均優(yōu)于原始圖像 Io"不參與PM訓(xùn)練情況下的相應(yīng)數(shù)值。
表6原始圖像 I0"是否參與PM訓(xùn)練的含水印圖像質(zhì)量 Tab.6Watermarked image quality with or without Io
c.對(duì)函數(shù) ?(?) 、 ρ(?) 和 η(?) 不同結(jié)構(gòu)的討論。實(shí)驗(yàn)針對(duì)不同結(jié)構(gòu)的 ?(?) 、 ρ(?) 和 η(?) 進(jìn)行了比較,候選結(jié)構(gòu)分別為RDB (residual dense block)[28]模塊與文中使用的ST (swin transformer)模塊,實(shí)驗(yàn)結(jié)果見表7。通過該表可以看出,在使用ST結(jié)構(gòu)的情況下,含水印圖像的PSNR值和SSIM值均優(yōu)于使用RDB結(jié)構(gòu)的相應(yīng)數(shù)值。
3結(jié)論
本文提出了一種基于可逆神經(jīng)網(wǎng)絡(luò)的小波域抗屏攝噪聲攻擊的水印方法。為了提高含水印圖像的質(zhì)量,提出了一種基于U-Net網(wǎng)絡(luò)結(jié)構(gòu)的預(yù)處理網(wǎng)絡(luò)。此外,可逆神經(jīng)網(wǎng)絡(luò)用于預(yù)處理后的水印信息的嵌入和提取。本文還在噪聲池中加入了真實(shí)的屏攝攻擊,使得模型對(duì)現(xiàn)實(shí)世界中不可微的噪聲也具有較強(qiáng)的魯棒性。相較于抗屏攝數(shù)字水印方法StegaStamp,本文方法在含水印圖像質(zhì)量上有極大的提升。相較于基于可逆神經(jīng)網(wǎng)絡(luò)的CIN數(shù)字水印方法和基于深度學(xué)習(xí)的UDH和HiDDeN魯棒水印方法,本文方法提升了抵抗多種噪聲攻擊的能力。
參考文獻(xiàn):
[1]易開祥,石教英,孫鑫.數(shù)字水印技術(shù)研究進(jìn)展[J].中國(guó) 圖象圖形學(xué)報(bào),2001,6(A)(2): 111-117.
[2]徐軍軍,毛倩,董德存.一種基于人類視覺系統(tǒng)的彩色圖 像水印算法[J].上海理工大學(xué)學(xué)報(bào),2010,32(5): 475-478,492.
[3]付笛,孔平,周亮,等.一種密文域醫(yī)學(xué)圖像可逆信息隱 藏算法[J].上海理工大學(xué)學(xué)報(bào),2022,44(3):262-268.
[4]LIUG,XIANGRT,LIUJ,etal.Aninvisibleand robust watermarkingschemeusingconvolutionalneural networks[J]. Expert Systems with Applications, 2022, 210: 118529.
[5] CU V L,NGUYEN T, BURIE J C,et al. A robust watermarking approach for security issue of binary documentsusingfullyconvolutionalnetworks[J]. InternationalJournalon DocumentAnalysisand Recognition, 2020,23(3): 219-239.
[6] LI F, WAN C, HUANG F J. Adaptive robust watermarking method based on deep neural networks[C]//Proceedings of the 2lst International Workshop on Digital Forensics and Watermarking. Cham: Springer, 2022: 162-173.
[7]王馨雅,華光,江昊,等.深度學(xué)習(xí)模型的版權(quán)保護(hù)研究 綜述[J].網(wǎng)絡(luò)與信息安全學(xué)報(bào),2022,8(2):1-14.
[8] NAKAMURA T, KATAYAMA A, YAMAMURO M, et al.Fast watermark detection scheme for camera-equipped cellular phone[C]//Proceedings of the 3rd International Conference on Mobile and Ubiquitous Multimedia. Colege Park Maryland: ACM, 2004: 101-108.
[9] KIM W G, LEE S H, SEO Y S. Image fingerprinting scheme for print-and-capture model[C]//Proceedings of the 7th Pacific Rim Conference on Multimedia on Advances in Multimedia Information Processing. Hangzhou: Springer, 2006: 106-113.
[10] PRAMILA A, KESKINARKAUS A, SEPPANEN T. Toward an interactive poster using digital watermarking and a mobile phone camera[J]. Signal, Image and Video Processing, 2012, 6(2): 211-222.
[11] YAMADA T, KAMITANI M. A method for detecting watermarks in print using smart phone: finding no mark[C]//Proceedings of the 5th Workshop on Mobile Video. Oslo: ACM, 2013: 49-54.
[12] FANG H, ZHANG W M, ZHOU H, et al. Screen-shooting resilientwatermarking[J].IEEETransactionson Information ForensicsandSecurity, 2019,14(6): 1403-1418.
[13] ZHU JR, KAPIAN R, JOHNSON J, et al. HiDDeN: hiding data with deep networks[C]//Proceedings of the 15th European Conference on Computer Vision. Munich: Springer,2018: 682-697.
[14] LIU Y, GUO M X, ZHANG J, et al. A novel two-stage separable deep learning framework for practical blind watermarking[C]//Proceedingsofthe27thACM International Conference on Multimedia. Nice: ACM, 2019: 1509-1517.
[15] TANCIK M, MILDENHALL B, NG R. StegaStamp: invisiblehyperlinksinphysicalphotographs[C]// Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE,2020: 2114-2123.
[16] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal: MIT Press,2014: 2672-2680.
[17] BAI R, LI L, ZHANG S Q, et al. SSDeN: framework for screen-shooting resilient watermarking via deep networks in the frequency domain[J]. Applied Sciences,2022, 12(19): 9780.
[18] JIA J, GAO Z P, CHEN K, et al. RIHOOP: robust invisible hyperlinks in offline and online photographs[J]. IEEE Transactions on Cybernetics, 2022, 52(7): 7094-7106.
[19] FANG H, JIA Z Y, MA Z H, et al. PIMoG: an effective screen-shooting noise-layer simulation for deep-learningbased watermarking network[C]//Proceedings of the 30th ACM International Conference on Multimedia. Lisboa: ACM,2022: 2267-2275.
[20] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-Net: convolutionalnetworksforbiomedicalimage segmentation[C]//Proceedings of the 18th International Conference on Medical Image Computing and ComputerAssisted Intervention. Munich: Springer, 2015: 234-241.
[21] DINH L,KRUEGER D, BENGIO Y. NICE: non-linear independent components estimation[DB/OL]. [2014-10- 30]. ttps://arxiv.org/abs/1410.8516.
[22]DINH L, SOHL-DICKSTEIN J,BENGIO S. Density estimation using real NVP[C]/Proceedings of the 5th International Conference on Learning Representations. Toulon: ICLR, 2017.
[23]LIU Z, LIN Y T, CAO Y,et al. Swin transformer: hierarchical vision transformer using shifted windows[C]//ProceedingsofIEEE/CVFInternational Conference on Computer Vision. Montreal: IEEE,2021: 9992-10002.
[24] SHINR, SONGD.Jpeg-resistantadversarial images[C]/Proceedingsofthe3lstInternational Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc.,2017: 8.
[25] WENGROWSKI E, DANA K. Light field messaging with deep photographic steganography[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 1515-1524.
[26] CHENL C, ZHU Y K,PAPANDREOU G, et al. Encoderdecoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018: 833-851.
[27]LIN T Y, MAIRE M, BELONGIE S,et al. Microsoft COCO: common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer,2014: 740-755.
[28] DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248-255.
[29]MA R, GUO M X,HOU Y,et al. Towards blind watermarking: combining invertible and non-invertible mechanisms[C]//Proceedingsofthe30thACM International Conference on Multimedia. Lisboa: ACM, 2022: 1532-1542.
[30] ZHANG C N, BENZ P, KARJAUV A,et al. UDH: universal deep hiding for steganography, watermarking, and light field messaging[C]/Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver: Curran Associates Inc.,2020: 857.
(編輯:丁紅藝)