屈詳顏,于 靜,熊 剛,蓋珂珂
(1.中國(guó)科學(xué)院信息工程研究所,北京 100085;2.中國(guó)科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100049;3.北京理工大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100081)
在當(dāng)前生成式人工智能技術(shù)的迅猛發(fā)展推動(dòng)下,深度學(xué)習(xí)模型的版權(quán)保護(hù)問(wèn)題日益受到關(guān)注。深度學(xué)習(xí)模型,尤其是大規(guī)模和高性能的模型,因其昂貴的訓(xùn)練成本,容易遭受未授權(quán)的復(fù)制或再現(xiàn),導(dǎo)致版權(quán)侵犯和模型所有者的經(jīng)濟(jì)損失[1-2]。
傳統(tǒng)的版權(quán)保護(hù)方法大多依賴于水印技術(shù)[3-4],通過(guò)在模型中嵌入特定的水印來(lái)確認(rèn)所有權(quán)。盡管這類方法可以提供確切的所有權(quán)驗(yàn)證,但它們對(duì)原有模型具有侵入性,可能會(huì)影響模型性能或引入新的安全風(fēng)險(xiǎn);并且這些方法對(duì)適應(yīng)性攻擊和新興的模型提取攻擊的魯棒性不足[5-6]。非侵入性的版權(quán)保護(hù)方法[7]通過(guò)量化比較兩個(gè)深度學(xué)習(xí)模型之間的相似性來(lái)判斷是否存在版權(quán)侵犯[8-9]。然而,非侵入性版權(quán)保護(hù)方法的測(cè)試樣本生成過(guò)程為確定性算法,效率低下且易被攻擊;其用于相似性判斷的指標(biāo)大多僅適用于白盒模型。
本文提出了一種基于黑盒測(cè)試框架的高效且健壯的版權(quán)保護(hù)新方法。通過(guò)采用隨機(jī)性算法優(yōu)化樣本生成策略,本研究顯著提升了測(cè)試的效率,同時(shí)降低了對(duì)抗攻擊的風(fēng)險(xiǎn)。此外,引入了一系列新的測(cè)試指標(biāo)和算法,增強(qiáng)了黑盒防御的能力,確保評(píng)判指標(biāo)間的正交性,從而提高版權(quán)判斷的準(zhǔn)確性和可靠性。值得注意的是,本研究是一種通用的深度學(xué)習(xí)模型版權(quán)保護(hù)算法,可以直接遷移到現(xiàn)有的生成式模型中。
傳統(tǒng)的深度學(xué)習(xí)模型版權(quán)保護(hù)技術(shù)主要基于水印(watermarking),通過(guò)在模型中嵌入特定水印來(lái)聲明所有權(quán)[1,3-4,10]。這些方法能夠精確驗(yàn)證所有權(quán),但它們侵入性強(qiáng),需要改變訓(xùn)練過(guò)程,可能影響模型的實(shí)用性或引入新的安全風(fēng)險(xiǎn);容易受到適應(yīng)性攻擊的影響,這些攻擊試圖移除或替換水印,或故意阻止水印的檢索;并且對(duì)新興的模型提取攻擊的魯棒性不強(qiáng)[1,4,10-11]。
近期研究轉(zhuǎn)向非侵入式方法,如模型指紋(fingerprinting)技術(shù),通過(guò)提取模型的獨(dú)特特征來(lái)驗(yàn)證所有權(quán)。IPGuard[5]利用接近分類邊界的數(shù)據(jù)點(diǎn)來(lái)指紋化所有者模型的邊界屬性。如果一個(gè)疑似模型對(duì)大多數(shù)邊界數(shù)據(jù)點(diǎn)的預(yù)測(cè)與所有者模型相同,則判定為盜用的副本。Conferrable Ensemble Method (CEM)[12]指紋技術(shù)是一種可轉(zhuǎn)移的混合方法,通過(guò)制作可轉(zhuǎn)移的對(duì)抗性示例來(lái)指紋化兩個(gè)模型決策邊界或?qū)棺涌臻g的重疊部分。雖然上述指紋技術(shù)是非侵入性的,但在對(duì)抗多樣化和不斷增長(zhǎng)的攻擊場(chǎng)景時(shí)顯得不足[7]。
隨后,DEEPJUDGE[7]針對(duì)模型微調(diào)、剪枝和提取等典型的版權(quán)侵犯場(chǎng)景進(jìn)行了廣泛實(shí)驗(yàn),對(duì)模型提取攻擊和適應(yīng)性攻擊相當(dāng)魯棒。該方法通過(guò)定量比較不同模型間的相似性來(lái)檢測(cè)潛在的版權(quán)侵犯,通過(guò)多維度的測(cè)試指標(biāo)和測(cè)試用例生成方法[8-9],以支持非入侵式的版權(quán)驗(yàn)證。然而,非入侵式方法采用確定性的樣本生成算法,容易被攻擊者識(shí)破,導(dǎo)致保護(hù)效果下降;且種子選取算法作用到整個(gè)數(shù)據(jù)集,測(cè)試用例生成時(shí)間較長(zhǎng)。此外,選取的評(píng)判指標(biāo)大多針對(duì)白盒場(chǎng)景,且各指標(biāo)相關(guān)性較強(qiáng),多個(gè)指標(biāo)之間的區(qū)分度不足,在各指標(biāo)強(qiáng)相關(guān)的基礎(chǔ)上,容易出現(xiàn)集體誤判的情況。
本研究針對(duì)上述問(wèn)題,通過(guò)改進(jìn)樣本采樣方法和測(cè)試指標(biāo),顯著提升了在黑盒防御環(huán)境下的檢測(cè)效率并降低了對(duì)抗攻擊的風(fēng)險(xiǎn)。
版權(quán)威脅模型(Copyright Threat Model)考慮了典型的攻擊-防御情景,包括兩方:受害者和對(duì)手。模型所有者(即受害者)使用私有資源訓(xùn)練了一個(gè)模型(即受害者模型)。對(duì)手嘗試盜取受害者模型的副本,該副本模型模仿其功能,同時(shí)不能被輕易識(shí)別為副本模型?;谶@種設(shè)定,三種常見(jiàn)的對(duì)深度學(xué)習(xí)模型版權(quán)的威脅包括模型微調(diào)、模型剪枝、模型提取。圖1所示為三種版權(quán)威脅模型的示意圖。
圖1 常見(jiàn)的三種版權(quán)威脅模型
(1)模型微調(diào)
假設(shè)對(duì)手擁有受害者模型的全部知識(shí),包括模型架構(gòu)和參數(shù),并且擁有一小部分?jǐn)?shù)據(jù)集用于微調(diào)模型。這種情況可能發(fā)生在受害者出于學(xué)術(shù)目的公開(kāi)了模型,但對(duì)手嘗試微調(diào)模型以構(gòu)建商業(yè)產(chǎn)品。
(2)模型剪枝
假設(shè)對(duì)手了解受害者模型的架構(gòu)和參數(shù)。模型剪枝的對(duì)手首先使用一些剪枝方法剪枝受害者模型,然后使用一小部分?jǐn)?shù)據(jù)微調(diào)模型。
(3)模型提取
假設(shè)對(duì)手只能查詢受害者模型以獲取預(yù)測(cè)(即概率向量)。對(duì)手可能知道受害者模型的架構(gòu),但不知道訓(xùn)練數(shù)據(jù)或模型參數(shù)。模型提取的目標(biāo)是通過(guò)預(yù)測(cè)API準(zhǔn)確地竊取受害者模型的功能。對(duì)手首先通過(guò)查詢受害者模型獲取一組輔助樣本,然后在標(biāo)注過(guò)的數(shù)據(jù)集上訓(xùn)練受害者模型的副本。輔助樣本可以從公開(kāi)數(shù)據(jù)集中選擇,或者使用某些適應(yīng)性策略合成。
黑盒測(cè)試框架如圖2所示,其核心是量化兩個(gè)深度學(xué)習(xí)模型之間的相似性。兩個(gè)深度學(xué)習(xí)模型分別是受害者模型(victim model)和嫌疑模型(suspect model)。共需經(jīng)過(guò)測(cè)試用例生成、樣例測(cè)試和指標(biāo)評(píng)判三個(gè)階段。
圖2 黑盒測(cè)試框架
(1)測(cè)試用例生成
從數(shù)據(jù)集D中選擇一組種子(Seed selection),這些種子樣本選自受害者模型的訓(xùn)練或測(cè)試集,旨在反映模型獨(dú)有的特征。選擇一組高置信度的種子樣本,因?yàn)檫@些樣本被受害者模型很好地學(xué)習(xí),所以能夠承載更多關(guān)于受害者模型的獨(dú)特特征。
(2)樣例測(cè)試
將生成的測(cè)試用例同時(shí)輸入受害者模型和可疑模型,計(jì)算多層次距離指標(biāo)所定義的距離分?jǐn)?shù),這些指標(biāo)作為判斷模型是否被盜用的證據(jù)。
(3)指標(biāo)評(píng)判
最終的評(píng)判機(jī)制包括設(shè)定閾值和投票兩個(gè)步驟。閾值設(shè)定步驟根據(jù)一組負(fù)面嫌疑模型的統(tǒng)計(jì)數(shù)據(jù)為每個(gè)測(cè)試指標(biāo)確定適當(dāng)?shù)拈撝怠M镀辈襟E則是檢查嫌疑模型針對(duì)每個(gè)測(cè)試指標(biāo)的表現(xiàn),并在其與受害者模型的距離低于該指標(biāo)的閾值時(shí)給予正面評(píng)價(jià)(即模型未侵權(quán))。
先前非侵入式模型版權(quán)保護(hù)算法的樣本生成算法是確定的,這使得攻擊者更容易發(fā)現(xiàn)并破壞保護(hù)機(jī)制,從而削弱了其防護(hù)效能;同時(shí),其種子選擇算法需要遍歷整個(gè)數(shù)據(jù)集,至少要抽取1 000個(gè)樣本作為種子,要保證抽樣的效果,則需要的集合更加龐大,導(dǎo)致生成測(cè)試用例的過(guò)程耗時(shí)較多。本研究采用隨機(jī)抽樣的方法,并且減少了樣本需求,只需要數(shù)十個(gè)樣本。選擇測(cè)試樣本的隨機(jī)性也為基于該測(cè)試方案的對(duì)抗攻擊造成困難。
通過(guò)重復(fù)引入隨機(jī)擾動(dòng)的方法,測(cè)試出樣本點(diǎn)到?jīng)Q策邊界的距離度量,選取邊界點(diǎn)作為測(cè)試數(shù)據(jù)。對(duì)于一個(gè)樣本點(diǎn),通過(guò)均勻分布或高斯分布,可以給其引入一個(gè)隨機(jī)的噪聲。隨著噪聲的能量逐漸增大,其分類結(jié)果可能產(chǎn)生改變。而引起改變的最小噪聲的能量,可以認(rèn)為是該樣本點(diǎn)到?jīng)Q策邊界最小的距離。隨機(jī)采樣算法具體如下:
輸入:隨機(jī)產(chǎn)生的種子集合,受害者模型以及嫌疑模型。
輸出:一組測(cè)試數(shù)據(jù),包含種子集合中的樣本沿不同噪聲方向的決策邊界探索的距離度量。
(1)從種子樣本集合中選擇一個(gè)初始樣本。
(2)根據(jù)選定樣本的維度,生成一個(gè)隨機(jī)噪聲向量。
(3)將隨機(jī)噪聲疊加到初始樣本上,創(chuàng)建一個(gè)干擾樣本。然后將這個(gè)干擾樣本分別輸入到受害者模型和嫌疑模型中,并獲取它們的輸出向量。計(jì)算兩個(gè)輸出向量的Jensen-Shannon(JS)散度,并將結(jié)果記錄下來(lái)。
(4)比較受害者模型和嫌疑模型的分類結(jié)果。如果與原始樣本的分類結(jié)果不同,則記錄下分類改變時(shí)的模型歸屬和噪聲大小。這將用于衡量模型在該噪聲方向的決策邊界探索距離。
(5)重復(fù)步驟(3)和(4),直到達(dá)到預(yù)設(shè)的循環(huán)次數(shù)上限,或者兩個(gè)模型都產(chǎn)生了與原始樣本不同的分類結(jié)果。
(6)多次重復(fù)步驟(2)~(5),在不同噪聲方向上獲得兩個(gè)模型對(duì)同一樣本的決策邊界探索距離度量。
(7)持續(xù)進(jìn)行上述測(cè)試步驟,直到種子樣本集合中的每一個(gè)樣本都被測(cè)試過(guò)。
本文保留了DEEPJUDGE算法的黑盒評(píng)判指標(biāo),同時(shí),添加了多個(gè)正交化的黑盒評(píng)價(jià)指標(biāo),如表1所示,提高黑盒場(chǎng)景下模型版權(quán)判斷的準(zhǔn)確性和可靠性。
表1 模型的評(píng)價(jià)指標(biāo)
3.3.1 K-S統(tǒng)計(jì)
K-S統(tǒng)計(jì)(Kolmogorov-Smirnov Statistic,KSS)是用于檢驗(yàn)兩個(gè)分布是否相同的非參數(shù)檢驗(yàn)統(tǒng)計(jì)量。當(dāng)受害者模型和嫌疑模型預(yù)測(cè)分布間的相似程度超過(guò)某一閾值,則投票為侵權(quán)模型,具體公式如下所示:
(1)
3.3.2 皮爾遜相關(guān)系數(shù)
皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PSR)用來(lái)評(píng)估兩個(gè)變量線性相關(guān)程度。當(dāng)受害者模型和嫌疑模型存在線性相關(guān)即投票為侵權(quán)模型。具體公式如下:
(2)
3.3.3 均方根相對(duì)誤差
均方根相對(duì)誤差(Root Relative Mean Squared Error,RRMSE)用來(lái)評(píng)價(jià)模型預(yù)測(cè)值與實(shí)際值之間的相對(duì)誤差,當(dāng)RRMSE值小于給定閾值則投票為侵權(quán)模型。具體公式如下:
(3)
3.3.4 余弦相似度
余弦相似度(Cosine Similarity,COS)用來(lái)評(píng)價(jià)兩個(gè)向量在方向上的相似度。當(dāng)兩者夾角小于一定閾值,則投票為侵權(quán)模型,具體公式如下所示:
(4)
3.3.5 詹森-香農(nóng)散度
詹森-香農(nóng)散度(Jensen-Shannon Divergence,JSD)是測(cè)量?jī)蓚€(gè)概率分布相似性的指標(biāo),是KL散度(Kullback-Leibler Divergence)的對(duì)稱版本。當(dāng)受害者模型和可疑模型的JSD低于一定閾值,則投票為侵權(quán)模型。具體公式如下:
(5)
(6)
其中,P和Q代表受害者模型和嫌疑模型的預(yù)測(cè)概率分布,M代表P和Q的平均分布。
采用投票機(jī)制判定可疑模型是否侵權(quán)。以單邊t檢驗(yàn)在顯著性水平等于0.05和0.2的拒絕域作為贊成票的臨界值和懷疑票的臨界值。顯著性水平超過(guò)0.05有95%以上的可能性認(rèn)為侵權(quán),記為1票;顯著性水平超過(guò)0.2有80%以上的可能性認(rèn)為侵權(quán),記為0.5票。如果一個(gè)模型得到不小于2.5票,則認(rèn)為其存在侵權(quán)。
本文提出的深度學(xué)習(xí)模型的版權(quán)保護(hù)方法是通用算法,可直接遷移到生成式人工智能模型中。本文選取了基于LeNet5模型的MNIST圖像識(shí)別、基于ResNet20的CIFAR10圖像識(shí)別和基于LSTM的音頻識(shí)別作為基準(zhǔn)受害者模型。下面將介紹實(shí)驗(yàn)中測(cè)試樣本的選取和侵權(quán)模型的訓(xùn)練方式。
4.1.1 測(cè)試樣本的選取
每次實(shí)驗(yàn)均測(cè)試60個(gè)隨機(jī)樣本,從數(shù)據(jù)集中的測(cè)試集隨機(jī)選取。每個(gè)樣本測(cè)試10個(gè)隨機(jī)噪聲,隨機(jī)噪聲由標(biāo)準(zhǔn)正態(tài)分布生成。非侵權(quán)或侵權(quán)模型均重復(fù)實(shí)驗(yàn)5次,以說(shuō)明其數(shù)據(jù)的可靠性。
4.1.2 侵權(quán)模型的訓(xùn)練方式
原模型與非侵權(quán)模型:將整個(gè)訓(xùn)練集一分為二,前50%用于訓(xùn)練原始模型,而后50%則用于訓(xùn)練非侵權(quán)模型(NEG)。
模型微調(diào):分為微調(diào)最后一層(FT-LL)、微調(diào)所有層(FT-AL)和重新訓(xùn)練所有層(RT-AL)。
模型剪枝:修剪去除模型中r%的絕對(duì)值最小的分支,然后微調(diào)恢復(fù)精度。實(shí)驗(yàn)中r取20和60。
模型提?。耗P吞崛》譃閮煞N策略,一種是從測(cè)試集中選取一組數(shù)據(jù)作為種子,輸入原模型得到一組數(shù)據(jù)作為侵權(quán)模型的訓(xùn)練數(shù)據(jù)(JBA方法);另一種則是利用與原數(shù)據(jù)集相似的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)(KOF方法)。
利用三個(gè)不同的數(shù)據(jù)集來(lái)評(píng)估所提出方法在模型版權(quán)保護(hù)方面的有效性。實(shí)驗(yàn)結(jié)果如表2、表3和表4所示。結(jié)果表明,方法能夠有效地識(shí)別出大多數(shù)的侵權(quán)模型。在對(duì)照組(NEG組)中,方法未將任何模型錯(cuò)誤地識(shí)別為侵權(quán),這進(jìn)一步證明了方法的準(zhǔn)確性和可靠性。
表2 MNIST數(shù)據(jù)集上各指標(biāo)間的相關(guān)性
表3 音頻識(shí)別數(shù)據(jù)集上各指標(biāo)間的相關(guān)性
表4 CIFAR10數(shù)據(jù)集上各指標(biāo)間的相關(guān)性
表2顯示了在MNIST數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),各項(xiàng)指標(biāo)間的相關(guān)性評(píng)估結(jié)果表明,絕大多數(shù)情況下,侵權(quán)模型(如FT-AL、FT-LL、RT-AL、pr-20、pr-60和KOF)的指標(biāo)值均超出了設(shè)定的閾值,表明有很高的剽竊嫌疑。相比之下,NEG(負(fù)面控制組)的指標(biāo)值普遍較低,沒(méi)有超出閾值,表明模型很可能是獨(dú)立開(kāi)發(fā)的,而非剽竊。值得注意的是,在JBA設(shè)置下,其竊取模型的準(zhǔn)確率僅為87%,顯著低于原始模型,這可能是本文方法失效的原因。
在音頻識(shí)別數(shù)據(jù)集的實(shí)驗(yàn)中(表3),結(jié)果顯示了類似的模式。侵權(quán)模型在PSR和COS等指標(biāo)上的值普遍超出閾值,且普遍得分大于2.5票;而NEG模型的值較低,表明了該模型是原創(chuàng)的。在JBA侵犯模型中未檢測(cè)成功,原因可能是其竊取模型的準(zhǔn)確率顯著低于受害者模型導(dǎo)致的。
CIFAR10數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果(表4)也證實(shí)了上述發(fā)現(xiàn)。例如,pr-20模型在PSR指標(biāo)上的值為0.87,遠(yuǎn)高于0.2的閾值,暗示了高度的剽竊可能性。而NEG模型的值為0.73,雖然接近顯著性水平0.2的閾值,但仍沒(méi)有超過(guò),表明其為原創(chuàng)模型。在JBA和KOF設(shè)置下本文方法未成功檢測(cè),這可能是由于侵權(quán)模型準(zhǔn)確率本身較低導(dǎo)致的。這表明本文方法在不同數(shù)據(jù)集上具有穩(wěn)定的判定能力,能夠有效識(shí)別出潛在的版權(quán)侵犯行為。
本文方法和DEEPJUDGE算法的模型版權(quán)識(shí)別平均運(yùn)行時(shí)長(zhǎng)如表5所示??梢钥闯?,本文方法的運(yùn)行時(shí)長(zhǎng)相較于DEEPJUDGE有顯著降低,這得益于本文提出的基于隨機(jī)采樣的測(cè)試樣本選擇算法,將從整個(gè)數(shù)據(jù)集確定性采樣轉(zhuǎn)變?yōu)殡S機(jī)抽取采樣樣本的分類邊界點(diǎn),極大地提高了模型版權(quán)識(shí)別效率。
表5 模型版權(quán)識(shí)別的高效性比較
本部分探討了測(cè)試指標(biāo)的正交性。本文在三個(gè)數(shù)據(jù)集上對(duì)各測(cè)試指標(biāo)之間的相關(guān)性進(jìn)行了詳細(xì)分析,其結(jié)果如表6~表8所示。相關(guān)性分析顯示,除了皮爾遜相關(guān)系數(shù)(PSR)之外,其他測(cè)試指標(biāo)與侵權(quán)可能性主要呈現(xiàn)負(fù)相關(guān)關(guān)系。在相關(guān)性熱力圖中,PSR與其他指標(biāo)的相關(guān)性數(shù)值均為負(fù)。通過(guò)觀察相關(guān)系數(shù)的絕對(duì)值,可發(fā)現(xiàn)高相關(guān)性(大于0.9)的案例明顯減少,同時(shí)出現(xiàn)了多個(gè)低相關(guān)性(小于0.5)的實(shí)例,這進(jìn)一步證明了指標(biāo)間的相互獨(dú)立性。
表6 MNIST數(shù)據(jù)集上各指標(biāo)間的相關(guān)性
表7 音頻識(shí)別數(shù)據(jù)集上各指標(biāo)間的相關(guān)性
表8 CIFAR10數(shù)據(jù)集上各指標(biāo)間的相關(guān)性
實(shí)驗(yàn)數(shù)據(jù)進(jìn)一步揭示了每個(gè)指標(biāo)的獨(dú)特解釋能力,這意味著在版權(quán)判斷過(guò)程中每個(gè)指標(biāo)都能發(fā)揮作用,而非冗余。與DEEPJUDGE模型相比,改進(jìn)后的測(cè)試指標(biāo)不僅保持了其有效性,而且在衡量模型間相似度時(shí)提供了更加細(xì)致的視角。
本文提出了一種基于黑盒測(cè)試框架的深度學(xué)習(xí)模型版權(quán)保護(hù)方法,通過(guò)引入基于隨機(jī)性算法的樣本生成策略,有效提高了測(cè)試效率,顯著降低了對(duì)抗攻擊的風(fēng)險(xiǎn)。此外,為增強(qiáng)黑盒防御能力,引入了新的測(cè)試指標(biāo)和算法,確保每個(gè)指標(biāo)具有足夠的正交性。實(shí)驗(yàn)驗(yàn)證表明,所提方法在版權(quán)判斷準(zhǔn)確性和可靠性上有高效的表現(xiàn),有效降低了高相關(guān)性指標(biāo)的數(shù)量。未來(lái)的研究將探索此方法擴(kuò)展到更多類型的生成式人工智能模型中,并進(jìn)一步優(yōu)化測(cè)試效率和準(zhǔn)確性。
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2023年12期