曾嘉忻,張衛(wèi)明,張榮
(1.中國科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230027;2.中國科學(xué)技術(shù)大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,安徽 合肥 230027)
隨著人工智能技術(shù)的進步,深度學(xué)習(xí)模型在許多領(lǐng)域的性能已經(jīng)匹敵甚至超過人類,在醫(yī)療[1]、金融[2]、人臉識別[3]、自動駕駛[4]等行業(yè)得到了廣泛應(yīng)用,與此同時,模型版權(quán)保護也引起了人們的關(guān)注。一個訓(xùn)練好的高性能模型意味著高昂的數(shù)據(jù)集籌備成本和訓(xùn)練成本,可以視為一種價值昂貴的知識資產(chǎn),但是深度學(xué)習(xí)模型非常容易被竊取并擴散[5]。因此,如何保護深度學(xué)習(xí)模型的知識產(chǎn)權(quán),成為了亟需研究的問題。
研究者們將保護傳統(tǒng)多媒體數(shù)字產(chǎn)品的數(shù)字水印的概念拓展到深度學(xué)習(xí),為需要保護的模型嵌入水印。當(dāng)模型擁有者懷疑某個模型涉嫌竊用,便可以通過提取隱藏在模型中的水印信息,鑒別其是否為竊用。根據(jù)驗證階段需求的不同,模型水印大致可分為兩類:白盒模型水印驗證時需要訪問模型內(nèi)部,獲得模型權(quán)值等內(nèi)部信息;而黑盒模型水印只需要訪問模型獲得輸出,不需要內(nèi)部信息。由于黑盒模型水印的這種特性,其應(yīng)用場景更為廣泛,是模型水印的主流發(fā)展方向。
黑盒模型水印方法使用后門或者對抗樣本等作為水印圖片加入模型訓(xùn)練,水印圖片只有輸入嵌入水印的模型才能得到指定輸出,以此驗證模型版權(quán)。黑盒模型水印根據(jù)水印嵌入階段的不同,又可以分為前向模型水印和后向模型水?。呵跋蚰P退≡谀P陀?xùn)練之初就嵌入水印;而后向模型水印在模型原始任務(wù)訓(xùn)練好之后再進行水印嵌入。相比前向模型水印,后向模型水印可以兼容已訓(xùn)練好的模型,嵌入更加靈活,需求的計算量更小,更適用于真實場景。后向模型水印的缺點是面臨微調(diào)等水印擦除攻擊時,魯棒性較弱,版權(quán)認證的可靠性降低。當(dāng)前的黑盒模型水印方法主要關(guān)注前向模型水印,不重視對后向模型水印的性能提升。
為提升后向模型水印的魯棒性,分析后向模型水印相較于前向模型水印更加脆弱的原因,并提出相應(yīng)的改進方案:在基于后門的黑盒模型水印框架的基礎(chǔ)上進行優(yōu)化,在后向嵌入水印的過程中引入對水印模型輸出和中間層特征的約束。最后,在多個數(shù)據(jù)集和微調(diào)、剪枝等攻擊下進行實驗,驗證所提方法的有效性。
模型水印技術(shù)是隨著深度學(xué)習(xí)技術(shù)發(fā)展而出現(xiàn)的新興研究領(lǐng)域,主要建立在計算機視覺、數(shù)字水印、深度學(xué)習(xí)等研究領(lǐng)域的基礎(chǔ)上。近年來,由于深度學(xué)習(xí)技術(shù)的普及和推廣,保護深度學(xué)習(xí)模型安全的需求也與日俱增。本節(jié)以圖像任務(wù)為主要載體,介紹近年來國內(nèi)外的模型水印研究現(xiàn)狀。
模型水印的方法有多種,但總體而言,有一個通用的框架,即生成水印、植入水印、提取水印。首先根據(jù)身份信息和待水印模型,設(shè)計可植入模型的水印形式;然后通過訓(xùn)練,將水印信息嵌入模型;嵌入后,新生成的模型能夠在給定輸入中檢驗并提取水印信息,將提取的水印信息與嵌入的水印信息對比,從而完成模型所有權(quán)的驗證。水印技術(shù)并不能避免模型版權(quán)的非法使用,它的目的是使侵權(quán)行為變得更容易識別,從而阻止這種行為(如作為證明所有權(quán)的證據(jù)向法庭提供)。
評價模型水印通常使用以下指標(biāo)[6]:一個合格的模型水印首先需要達到一定的保真度和有效性,其中,保真度指水印任務(wù)對原任務(wù)的影響盡可能小,有效性指水印信息的提取成功率高。由于攻擊者可以嘗試檢測并刪除模型中的水印或以某種方式使它們無效,因此模型水印也應(yīng)具有魯棒性,即保證模型水印抵抗水印擦除攻擊的能力。隱蔽的模型水印能夠迷惑攻擊者,使其無法采取針對性的方式去除、無效化或偽造水印。
從驗證階段所需模型信息量的角度進行分類,模型水印大致可以分為兩類:白盒模型水印和黑盒模型水印。
白盒模型水印需要獲取模型結(jié)構(gòu)和權(quán)值等內(nèi)部參數(shù),通常做法是將水印信息嵌入模型內(nèi)部參數(shù),引起模型權(quán)重的定向變化,從模型中提取這種定向變化來進行水印驗證[7-9]。由于白盒方法必須知道深度神經(jīng)網(wǎng)絡(luò)模型參數(shù)等具體細節(jié)才能進行水印驗證,因此在實際應(yīng)用中受限較大。
黑盒模型水印提取的過程中不需要訪問模型內(nèi)部參數(shù),通過訪問模型輸出對水印進行提取。常見的黑盒模型水印方法多利用后門或?qū)箻颖镜臋C制。ADI 等[10]提出在黑盒場景下,利用后門技術(shù)添加水印,保護模型版權(quán)。在模型的訓(xùn)練或微調(diào)過程中,模型擁有者將抽象圖片作為后門樣本加入模型訓(xùn)練集,使模型在原任務(wù)上分類準(zhǔn)確,并把抽象圖片分類到指定類別。模型擁有者想要驗證版權(quán),只需要檢驗抽象圖片分類到指定類別的成功率,以及干凈圖片的分類成功率即可。由于正常的模型不會在給定抽象圖片的情況下輸出指定類別,因此這樣的特殊輸出使得水印驗證成立。ZHANG 等[11]提出用隨機噪聲、不相關(guān)樣本、添加文本水印等作為不同類型的后門觸發(fā)器,探討了水印形式對水印性能的影響。CHEN 等[12]提出將模型所有者的二進制簽名包含在輸出激活中作為模型的水印,提升了水印容量。NAMBA 等[13]提出將后門水印對參數(shù)的影響指數(shù)加權(quán)在較大值的權(quán)重參數(shù)上,減小了后門任務(wù)對模型整體的影響。
LE MERRER 等[14]指出可以利用對抗樣本構(gòu)建模型水印。對抗樣本的原理是:通過向原始數(shù)據(jù)添加人為的擾動,使得模型以高置信度輸出錯誤分類[15],而模型則可以通過對抗訓(xùn)練調(diào)整決策邊界,正確分類其中一部分對抗樣本,另一部分對抗樣本仍被錯誤分類。這種水印算法主要依賴于對抗樣本在不同模型之間的遷移性,在遷移過程中,水印的準(zhǔn)確率是否會下降是一個有待解決的問題。在沒有此水印的模型上,對抗樣本因為自身的遷移性也可能會以較高概率被判別錯誤,被誤識別為水印,從而發(fā)生誤報。因此,本文設(shè)計不考慮基于對抗樣本的模型水印方法。
對于基于后門的黑盒模型水印,有的工作同時適用于前向模型水印和后向模型水?。?0],有的工作在水印嵌入時需要已訓(xùn)練好的模型,屬于后向模型水印[12],但這些工作都沒有關(guān)注到后向模型水印相較于前向模型水印優(yōu)越的應(yīng)用價值和性能缺陷。
對于模型水印的攻擊多圍繞著魯棒性、隱蔽性展開,但同時攻擊應(yīng)保持原模型的保真度(攻擊者不愿意失去原模型的性能,因為需要使用去除水印后的模型進行服務(wù))。由于本文旨在提升后向模型水印的魯棒性,因此本節(jié)重點介紹針對水印魯棒性的模型擦除攻擊。為了方便描述,定義原有的未含水印的模型為M,模型原任務(wù)為T,水印任務(wù)為W,模型M 的擁有者O 將W 嵌入M 得到MW。
常見的模型擦除攻擊主要有微調(diào)[16]、剪枝[17]等。攻擊者的目標(biāo)是在保持必要模型性能的情況下使模型水印無法被驗證。如果攻擊者擁有一個與原模型訓(xùn)練集規(guī)模、數(shù)據(jù)分布相當(dāng)?shù)臄?shù)據(jù)集,攻擊者可以重新訓(xùn)練一個性能相當(dāng)?shù)男履P?。所以,通常假設(shè)攻擊者只能使用少量、甚至不使用原模型訓(xùn)練樣本進行模型水印攻擊。微調(diào)方法不對原始模型的結(jié)構(gòu)進行操作,而是直接采用帶有標(biāo)簽的數(shù)據(jù)進行模型的重訓(xùn)練。模型本身包含兩部分任務(wù)(水印任務(wù)W 和原任務(wù)T),而重訓(xùn)練僅使用T 相關(guān)的干凈數(shù)據(jù)進行訓(xùn)練,因此,隨著訓(xùn)練的進行,W 會被逐漸遺忘,但T會保持不變或增強(過擬合),從而使得水印W 逐漸去除。剪枝方法原本用于模型壓縮,但它的原理是削減不重要參數(shù)來壓縮模型結(jié)構(gòu),也能應(yīng)用于水印擦除,迫使原始模型遺忘部分已有的任務(wù)(包括任務(wù)W 和任務(wù)T),攻擊者同時需要使用訓(xùn)練數(shù)據(jù)進行任務(wù)T 的增強。事實上,由于神經(jīng)網(wǎng)絡(luò)的難以解釋性,任務(wù)W 和T 激活的神經(jīng)元很難區(qū)分,因此剪枝方法通常對任務(wù)T 具有較大影響,在水印W 被去除之前,原任務(wù)T 的性能已經(jīng)下降到攻擊者不能承受的程度。
黑盒模型水印根據(jù)水印嵌入階段的不同可分為前向模型水印和后向模型水印。后向水印相較于前向水印,嵌入過程更為靈活,需要的算力更低,應(yīng)用場景更廣,代價就是魯棒性遠弱于前向水印,難以抵御微調(diào)、剪枝等水印擦除攻擊。改進后向水印的挑戰(zhàn)在于:在模型原任務(wù)訓(xùn)練完成之后才進行水印圖片訓(xùn)練,可水印空間小,水印任務(wù)難以與原任務(wù)耦合,同時激活的神經(jīng)元差距較大,難以抵抗水印擦除攻擊。
針對上述問題,本文在經(jīng)典的黑盒后向水印嵌入框架上進行優(yōu)化,在訓(xùn)練過程中引入輸出和特征空間的雙重約束,減少水印任務(wù)對原任務(wù)的影響,同時使水印任務(wù)與原任務(wù)激活的神經(jīng)元相似,增強后向水印的魯棒性。
后向模型水印的嵌入流程如圖1 所示,具體步驟如下:
圖1 魯棒的后向模型水印嵌入流程Fig.1 Robust backward model watermarking embedding process
步驟1使用干凈圖片訓(xùn)練隨機初始化權(quán)值的模型,得到干凈模型。
步驟2根據(jù)干凈圖片及其分類標(biāo)簽,生成水印圖片并指定其標(biāo)簽(與原圖標(biāo)簽不同)。
步驟3在干凈模型的基礎(chǔ)上進行再訓(xùn)練嵌入水印,在訓(xùn)練時的損失中加入輸出空間約束項和特征空間約束項,直至模型收斂。
2.2.1 輸出空間約束
后向水印任務(wù)的加入,會影響模型在原任務(wù)上的性能,即使訓(xùn)練時有對于干凈數(shù)據(jù)分類的交叉熵損失約束,也只能保證干凈數(shù)據(jù)經(jīng)模型分類后logit向量的argmax 值(即分類結(jié)果)不變,而logit 向量的分布會發(fā)生改變[18],即后向水印嵌入會隱性地影響干凈任務(wù)的性能。
本文約束訓(xùn)練好的干凈模型與后向水印模型在干凈數(shù)據(jù)上的性能表現(xiàn),如式(1)所示:
其中:si(θ,x)表示內(nèi)部參數(shù)為θ的干凈模型在標(biāo)簽為第i類的輸入x下的logit 向量輸出;si(θ+δ,x)表示內(nèi)部參數(shù)為(θ+δ)的后門模型在標(biāo)簽為第i類的輸入x下的logit 輸出,標(biāo)簽共有C類。
2.2.2 特征空間約束
基于后門的模型水印主要是通過給干凈圖片添加某種圖形,并使模型將圖片分到指定類別實現(xiàn)。這樣的水印圖片雖然與部分干凈圖片產(chǎn)生同樣的分類結(jié)果,但在特征空間上的表現(xiàn)形式卻不一致,這就意味著水印任務(wù)與干凈任務(wù)激活的神經(jīng)元相差較大。因此,本文在水印嵌入過程中加入特征空間的約束,使水印任務(wù)的特征分布與干凈任務(wù)盡可能相似。受到JIA 等[19]提出的糾纏水印嵌入方法的啟發(fā),本文采用軟最近鄰丟失(SNNL)損失[20]進行約束,衡量模型學(xué)習(xí)到的干凈數(shù)據(jù)和水印數(shù)據(jù)的特征表示之間的糾纏程度,如下所示:
SNNL 損失可用于測量不同組(通常是類)樣本之間的距離相對于同一組內(nèi)樣本的平均距離。在本文中,m表示圖像在水印模型上的中間層特征,y為圖像類別,T為超參數(shù),用于控制距離對SNNL 損失的影響大小。本文借助SNNL 損失,將被分類到指定類別的水印樣本與類別恰好相同的干凈樣本在特征空間上糾纏到一起,試圖去除與干凈數(shù)據(jù)糾纏的水印的攻擊者也會被迫犧牲干凈數(shù)據(jù)的性能。
2.2.3 總約束
除了以上2 個約束項,還要考慮實現(xiàn)后向水印任務(wù)的損失,即限制水印模型將水印圖片分類為指定類別,將干凈圖片分類到其正確類別的交叉熵損失(LCross-Entropy)。
最終,后向水印的損失項如下:
本文采取以下幾種約束方式向模型中添加后向水印,通過調(diào)節(jié)超參α與β實現(xiàn):不添加其他約束,只使用常規(guī)的交叉熵損失(后向水印基線);只添加輸出約束(Llogit);只添加特征約束(LSNNL);添加雙重約束(Llogit&LSNNL)。
本文選用了以下4個數(shù)據(jù)集:CIFAR-10[21],CIFAR-100[21],GTSRB[22],CALTECH-101[23]。CIFAR-10數(shù)據(jù)集共有60 000張彩色圖像,圖像尺寸為32×32×3,分為10 個類,每類有6 000 張;CIFAR-100 數(shù)據(jù)集共有60 000 張彩色圖像,圖像尺寸為32×32×3,分 為100 類;GTSRB 為交通標(biāo)志識別圖像數(shù)據(jù)集,包括43 種交通信號,圖像尺寸接近CIFAR-10 數(shù)據(jù)集;CALTECH-101 數(shù)據(jù)集包含了101 類圖像,每類約有40~800 張 圖像,大部分是50 張/類,圖像尺寸約為300×200。本文對ResNet-18 模型[24]進行了典型的后向水印實驗。
由于ADI 等[10]和ZHANG 等[11]的工作是黑盒后向水印中的經(jīng)典,且在實驗設(shè)置中隱含前向模型水印和后向模型水印的區(qū)分,因此將這兩篇工作作為前后向水印的基線,與本文結(jié)果進行比較。本文的實驗也參考了基線的實驗設(shè)置:在水印注入的設(shè)置上,對于抽象型圖片水印,參考ADI 等[10]的工作,使用100 張抽象圖片作為水?。粚τ趦?nèi)容型圖片水印,參考ZHANG 等[11]的工作,對1%的訓(xùn)練集添加內(nèi)容型水印“TEST”并指定分類類別。在訓(xùn)練時,對于干凈模型和前向水印模型,本文訓(xùn)練60 個epoch;對于后向水印模型,本文在干凈模型的基礎(chǔ)上,訓(xùn)練20 個epoch。超參α設(shè)置為0.5,超參β設(shè)置為0.01。使用經(jīng)典的攻擊設(shè)置,即微調(diào)使用RTAL(Re-Train All Layers)設(shè)置,剪枝使用基于權(quán)值的剪枝方式。
對于評價的實驗指標(biāo),本文主要關(guān)注水印任務(wù)對模型的性能影響(干凈任務(wù)的準(zhǔn)確率下文稱為ACC),以及水印擦除攻擊下后門的魯棒性(后門的成功率下文稱為SR)。
本文首先對前后向水印進行了性能上的比較,在表1 中可以看到:當(dāng)沒有受到水印擦除攻擊時,兩者在保真度和水印驗證成功率上相當(dāng);而在微調(diào)攻擊下,兩者的模型性能下降不超過1%,部分情況下甚至性能略有提升,這是由干凈數(shù)據(jù)的多次訓(xùn)練帶來的模型過擬合導(dǎo)致的;后向水印的魯棒性大幅下滑,前向水印雖然也有下滑,但幅度小于后向水印。
表1 后向水印與前向水印的基線性能比較 Table 1 The baseline performance comparison between backward watermarking and forward watermarking %
之前的研究工作[25]探討了模型權(quán)值修改幅度與植入后門的關(guān)聯(lián),本文據(jù)此進行實驗,比較了前向水印與后向水印對模型的修改。從表2 中可以看到,后向水印相對于前向水印,對模型的權(quán)值修改相對幅度和絕對幅度都更大。因此,筆者認為后向模型水印的魯棒性弱于前向模型水印的原因可能是:對于前向水印,水印任務(wù)與權(quán)值任務(wù)一起訓(xùn)練,兩者互相影響,當(dāng)攻擊者試圖擦除水印時,勢必影響原任務(wù)的性能,擦除水印極大地損害了模型保真度;而對于后向水印,由于其在干凈模型的基礎(chǔ)上進行權(quán)值調(diào)整,要想水印任務(wù)不過分影響干凈任務(wù)的性能,模型權(quán)值的調(diào)節(jié)范圍是受限的。
表2 后向水印與前向水印的權(quán)值修改幅度比較 Table 2 Comparison of weight modification amplitude between backward watermarking and forward watermarking
已有的實驗證明,在后向模型水印訓(xùn)練過程中,添加對于模型權(quán)值的直接約束不可行(直接約束包括約束模型的絕對權(quán)值和相對權(quán)值變化),會導(dǎo)致后門無法成功注入,如果逐步放松對權(quán)值變化的限制,直到后門基本注入,對擦除攻擊的魯棒性也不佳。因此,本文間接地約束水印嵌入時模型的權(quán)值變化,在水印嵌入的過程中對模型的中間層特征和輸出進行約束,目標(biāo)是使后向水印對干凈模型的權(quán)值和性能影響最小化,從而增強后向水印在水印擦除攻擊下的魯棒性。
本文選用CIFAR-10 數(shù)據(jù)集,在抽象型圖片水印和內(nèi)容型圖片水印的設(shè)置下,比較基線后向水印與添加了各種約束的后向水印在微調(diào)攻擊、剪枝攻擊和微調(diào)-剪枝(fine-pruning)攻擊下的性能。
3.3.1 微調(diào)攻擊下的魯棒性分析
如表3 所示,只添加輸出約束(Llogit)、只添加特征約束(LSNNL)和添加雙重約束(Llogit&LSNNL)情況下的魯棒性都優(yōu)于基線設(shè)置(不添加Llogit或LSNNL約束)。
表3 后向水印在不同約束下的抗微調(diào)性能比較 Table 3 Comparison of performances after fine-tuning of backward watermarking under different constraints %
具體分析如下:
1)在加入logit 約束后,后門對微調(diào)攻擊的魯棒性有所提升,在微調(diào)攻擊者的權(quán)限更高時(可用于微調(diào)的干凈圖像比例更大),logit 對魯棒性提升得更多,這符合實驗預(yù)期,模型擁有者嵌入水印時使用logit 約束,使后門模型與干凈模型的logit 分布相似,從而減小了攻擊者使用干凈圖片微調(diào)對logit分布的調(diào)整空間。
2)直接添加SNNL 損失對于抽象型水印的提升效果更加突出,筆者認為這主要是由于抽象圖片在分布上與原任務(wù)圖片有較大差距,SNNL 損失的加入在特征域上減小了這種差距,所以,使用部分原任務(wù)數(shù)據(jù)集微調(diào)時,難以將2 個任務(wù)觸發(fā)的神經(jīng)元區(qū)分,從而增強了水印魯棒性。
3)如果同時使用2 種約束,整體而言,能夠進一步提升后門對于微調(diào)攻擊的魯棒性。在內(nèi)容型水印設(shè)置下,使用全部數(shù)據(jù)集微調(diào)的SR 略低于單項logit約束,這是因為2 種約束也會互相制衡,從而影響最終的性能。
3.3.2 剪枝攻擊下的魯棒性分析
對在CIFAR-10 數(shù)據(jù)集下訓(xùn)練的ResNet-18 網(wǎng)絡(luò)添加內(nèi)容型水印。如圖2 所示,后向水印的性能與模型原任務(wù)性能曲線基本糾纏在一起,擦除模型水印就需要犧牲一定的模型性能。當(dāng)模型性能下降到90.5%時(考慮到CIFAR-10 數(shù)據(jù)集相對簡單,這是一個較大的性能犧牲),后向水印基線SR 為66.2%,logit 約束下的后向水印SR 為81.2%,SNNL約束下的后向水印SR 為82.4%,即在同等強度的剪枝攻擊下,加入約束的后向水印更加魯棒。
圖2 不同設(shè)置的內(nèi)容型后向水印在剪枝攻擊下的性能Fig.2 Performance of content-type backward watermarking with different settings under pruning attack
3.3.3 微調(diào)-剪枝攻擊下的魯棒性分析
進一步探究在更強的微調(diào)-剪枝攻擊下本文方法的性能。微調(diào)-剪枝攻擊參照文獻[26]設(shè)置實現(xiàn),微調(diào)與剪枝迭代進行,模型添加抽象型水印。實驗結(jié)果如圖3 所示,添加了約束的后向水印,曲線上更接近前向水印,在性能降低到91%時,前向水印基線SR 為47%,后向水印基線SR 為28%,而3 種約束下的后門水印SR 均比基線有所提升,這說明本文方法在強力的攻擊設(shè)置下也能一定程度上提升后向水印的魯棒性。
圖3 不同設(shè)置的抽象型后向水印在微調(diào)-剪枝攻擊下的性能Fig.3 Performance of abstract-type backward watermarking with different settings under fine-pruning attack
3.3.4 與其他同類方法的魯棒性比較
上文將ADI等[10]和ZHANG 等[11]的工作作為后向模型水印的基線進行比較。本節(jié)將與NAMDA 等[13]的工作進行比較。在NAMDA 等提出的方法中,水印嵌入發(fā)生在后向階段,在水印嵌入時對各層權(quán)值進行指數(shù)加權(quán),使水印主要影響模型各層的大數(shù)值權(quán)值,以此增強水印魯棒性。由于指數(shù)加權(quán)的性質(zhì),此方法對基于權(quán)值大小的剪枝攻擊防御效果較好。該方法與本文使用雙重約束方法的對比結(jié)果如表4 所示,水印設(shè)置選取內(nèi)容型水印和抽象型水印,數(shù)據(jù)集使用CIFAR-10,參照NAMDA 等文中說明進行指數(shù)加權(quán)的水印嵌入,使用10%訓(xùn)練集進行微調(diào)攻擊。從表4 中可以看出,指數(shù)加權(quán)的方法無法防御微調(diào)攻擊,而本文方法在魯棒性上更加全面,能夠抵御多種攻擊方式。
表4 本文方法與指數(shù)加權(quán)方法的比較 Table 4 Comparison between the proposed method and the exponential weighting method %
為了證明本文方法的通用性,使用CIFAR-100、CALTECH-101、GTSRB 數(shù)據(jù)集進行魯棒性實驗,嵌入抽象型水印,對比基線設(shè)置和雙重約束設(shè)置下的性能。如表5 所示:在CIFAR-100 和CALTECH-101數(shù)據(jù)集下,本文的水印嵌入方式對模型的原任務(wù)性能有一定提升;在GTSRB 數(shù)據(jù)集下,模型性能有一些損失,這可能是由于GTSRB 為交通指示牌數(shù)據(jù)集,其原任務(wù)的特征空間比較簡單,而本文方法引入了更復(fù)雜的約束機制,一定程度上制約了模型性能。
表5 后向水印的基線與雙重約束設(shè)置在不同數(shù)據(jù)集下的性能比較 Table 5 Comparison of performances between baseline and double constraints setting of backward watermarking under different datasets %
關(guān)于魯棒性,在CALTECH-101 和GTSRB 數(shù)據(jù)集下,本文提出的帶約束的后向水印比后向水印基線都有一定的提升??紤]到CIFAR-10 數(shù)據(jù)集僅有10 個類別,另外幾個數(shù)據(jù)集甚至有100 個分類,水印圖片被分到指定類別的難度更大,這已經(jīng)達到了比較理想的實驗效果。但是對于CIFAR-100 數(shù)據(jù)集幾乎沒有性能,本文認為這是由于CIFAR-100 數(shù)據(jù)集不僅有100 個分類,并且每個類別只含500 張訓(xùn)練集圖片,圖像尺寸也較小,模型學(xué)習(xí)到的特征不足以支持引入多種約束來嵌入水印。
實驗結(jié)果表明,本文方法對多種數(shù)據(jù)集訓(xùn)練出的模型都能增強其嵌入的后向模型水印的魯棒性,是一種通用的增強水印性能的方法。
從復(fù)雜性和安全性2 個方面分析本文方法的可行性。
首先是算法復(fù)雜性,如上文介紹,后向模型水印相較于前向模型水印最大的優(yōu)勢,就是要求的計算量少、部署靈活。比如在本文的實驗設(shè)置中,前向水印需要跟原任務(wù)一起訓(xùn)練60 個epoch,而后向水印只需要在訓(xùn)練好原任務(wù)模型的基礎(chǔ)上再訓(xùn)練20 個epoch,實際上只需要10~15 個epoch 就能很好地嵌入水印??紤]到現(xiàn)在深度學(xué)習(xí)模型的結(jié)構(gòu)越來越復(fù)雜,所用數(shù)據(jù)集的規(guī)模也在增大,模型原任務(wù)需要訓(xùn)練遠不止60 個epoch,比如在文獻[27]中,模型需要訓(xùn)練500 個epoch。在實際場景中,后向水印的計算量可能遠小于前向水印。本文方法在水印嵌入時引入了2 種約束,這增加了一定的計算量。輸出約束Llogit只需要對水印嵌入時的每張圖片計算模型logit輸出與干凈模型logit 輸出的L2 損失函數(shù),幾乎不影響計算量;特征約束LSNNL則需要計算同一個batch 內(nèi)水印圖片與干凈圖片在選定層的中間特征的L2 損失函數(shù),并計算其SNNL 損失,這一定程度上增加了計算量,但考慮到后向水印與前向水印的計算量差距,本文提出的魯棒后向模型水印嵌入方法仍是可行的。
本文提出一種通用的提升后向模型水印魯棒性的方法,在添加水印的過程中加入特征約束和輸出約束,通過約束使類別相同的干凈圖片和水印圖片在水印模型上具有相似的中間層特征,同時減小干凈圖片在干凈模型和水印模型上的輸出差異。本文方法在多種數(shù)據(jù)集訓(xùn)練的不同模型上和不同水印攻擊下表現(xiàn)出了泛用的對后向水印魯棒性的提升,即使面對較為強力的水印擦除攻擊,也能提升一定的性能。該方法可以應(yīng)用在其他基于后門的模型水印方法中,拓寬模型水印的應(yīng)用場景,提升后向模型水印的魯棒性。本文中采用的水印設(shè)置為經(jīng)典的內(nèi)容型水印和抽象型水印,后續(xù)可將本文提出的魯棒模型水印嵌入方法與隱蔽型水印結(jié)合,進一步提升后向模型水印的性能,增強對模型版權(quán)的保護。