陳晉音,上官文昌,張京京,鄭海斌,鄭雅羽,張旭鴻
(1.浙江工業(yè)大學(xué)網(wǎng)絡(luò)空間安全研究院,浙江 杭州 310012;2.浙江工業(yè)大學(xué)信息工程學(xué)院,浙江 杭州 310012;3.軍事科學(xué)院系統(tǒng)工程研究院信息系統(tǒng)安全技術(shù)國防科技重點(diǎn)實(shí)驗(yàn)室,北京 100039;4.浙江大學(xué)控制科學(xué)與工程學(xué)院,浙江 杭州 310007)
隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,深度學(xué)習(xí)模型已成功應(yīng)用于多種任務(wù),包括圖像分類[1-4]、文本識(shí)別[5-6]、語音識(shí)別[7-8]、社交網(wǎng)絡(luò)挖掘[9-10]、電磁信號(hào)處理[11-12]等,且均取得了令人滿意的性能。
伴隨應(yīng)用任務(wù)的復(fù)雜化,以及對(duì)任務(wù)性能的需求日益增高,深度學(xué)習(xí)模型日趨復(fù)雜化[13-14],通過本地獨(dú)立完成這些復(fù)雜模型的訓(xùn)練需要大量的訓(xùn)練數(shù)據(jù)與計(jì)算資源的支持。例如,OpenAI 公司花費(fèi)了將近1.4 TB 的訓(xùn)練數(shù)據(jù)和460 萬美元來訓(xùn)練GPT-3 模型[15]。通常情況下,個(gè)體研究人員和小公司負(fù)擔(dān)不了這么多的資源。針對(duì)這一問題,近期研究提出了遷移學(xué)習(xí),即通過在一個(gè)或多個(gè)源領(lǐng)域訓(xùn)練獲得模型,總結(jié)有用的知識(shí)并將其應(yīng)用于新的目標(biāo)任務(wù)。常用的遷移學(xué)習(xí)方法之一是在已有的預(yù)訓(xùn)練模型(教師模型)的基礎(chǔ)上進(jìn)行微調(diào)訓(xùn)練,獲得性能較好的學(xué)生模型。這種方式使個(gè)體研究人員不需要大量訓(xùn)練數(shù)據(jù)和訓(xùn)練資源也能獲得性能良好的模型,提高模型的利用效率,降低訓(xùn)練成本。例如,應(yīng)用于文本處理預(yù)訓(xùn)練模型Transformer[16],可以通過微調(diào)訓(xùn)練的方法應(yīng)用于眾多不同任務(wù)(如情感分類、文本識(shí)別等)中,且取得較好性能。
深度學(xué)習(xí)在現(xiàn)實(shí)商業(yè)中的應(yīng)用日益廣泛,其數(shù)據(jù)的誤用和不充足的法律基礎(chǔ)所導(dǎo)致的數(shù)據(jù)隱私問題頻繁發(fā)生。例如,DeepMind 項(xiàng)目中存在濫用國家健康服務(wù)數(shù)據(jù)的問題。在眾多深度學(xué)習(xí)技術(shù)的安全問題中,較嚴(yán)重的一個(gè)是數(shù)據(jù)隱私問題,即模型的惡意使用者通過成員推理攻擊(MIA,membership inference attack)實(shí)現(xiàn)對(duì)模型訓(xùn)練數(shù)據(jù)的竊取。具體而言,成員推理攻擊是指給定數(shù)據(jù)樣本和模型的訪問權(quán)限,判定該樣本是否存在于模型的訓(xùn)練數(shù)據(jù)集中。至今為止,針對(duì)成員推理攻擊的研究[17-28]已引起學(xué)術(shù)界的廣泛關(guān)注。成員推理攻擊根據(jù)攻擊的方式可以分為2 種類型:1)基于模型的成員推理攻擊[21],通過攻擊者訓(xùn)練攻擊模型,利用攻擊模型判斷待測(cè)樣本是否為目標(biāo)模型的成員樣本;2)基于指標(biāo)的成員推理攻擊[20,23],不需要訓(xùn)練攻擊模型,通過計(jì)算預(yù)測(cè)向量的指標(biāo)并與預(yù)設(shè)閾值進(jìn)行比較來給出成員關(guān)系的推理。
通常假設(shè)成員推理攻擊的攻擊方具有目標(biāo)模型的數(shù)據(jù)知識(shí)、訓(xùn)練知識(shí)和輸出知識(shí),獲取數(shù)據(jù)知識(shí)表明攻擊者已知訓(xùn)練數(shù)據(jù)的分布特征,訓(xùn)練知識(shí)意味著攻擊者知道目標(biāo)模型的訓(xùn)練方法,輸出知識(shí)表示攻擊者可以得到目標(biāo)模型的輸出。根據(jù)攻擊者是否能夠訪問模型參數(shù)的模型知識(shí),MIA 可分為黑盒推理攻擊[20-21,23]和白盒推理攻擊[24-25]。然而,上述工作都是在所有樣本中不加選擇地進(jìn)行攻擊,這種場(chǎng)景下的攻擊成功率在所有目標(biāo)樣本上平均,而不考慮誤判的代價(jià)。文獻(xiàn)[26]首次研究了針對(duì)單個(gè)樣本點(diǎn)的MIA,從另一個(gè)角度清晰地闡明了隱私風(fēng)險(xiǎn),但是該攻擊需要獲取目標(biāo)模型的置信度信息,在目標(biāo)模型只輸出標(biāo)簽信息的情況下無法正常工作。
鑒于遷移學(xué)習(xí)的優(yōu)勢(shì),即利用較少訓(xùn)練資源獲得較高性能的深度學(xué)習(xí)模型,通過遷移學(xué)習(xí)的方式獲取深度模型成為主流方式之一,隨之而來的是遷移學(xué)習(xí)的隱私安全問題,例如,面向遷移學(xué)習(xí)模型的成員推理攻擊。遷移學(xué)習(xí)中主要包含2 種模型:教師模型和學(xué)生模型。與現(xiàn)有的針對(duì)單獨(dú)模型的成員推理攻擊不同,本文面向遷移學(xué)習(xí)的MIA 根據(jù)攻擊對(duì)象不同和攻擊者的訪問權(quán)限不同,提出了分別竊取教師模型和學(xué)生模型的數(shù)據(jù)隱私,判斷目標(biāo)樣本是否為目標(biāo)模型的訓(xùn)練數(shù)據(jù)。例如,當(dāng)攻擊者攻擊教師模型且可以訪問教師模型時(shí),可以判斷目標(biāo)樣本是否為教師模型的訓(xùn)練數(shù)據(jù)。文獻(xiàn)[27]首次研究了面向遷移學(xué)習(xí)的成員推理攻擊,該方法在模型處于過擬合狀態(tài)下取得較好攻擊效果,當(dāng)模型處于正常擬合狀態(tài)時(shí),攻擊性能有明顯的下降。這一現(xiàn)象也普遍存在于針對(duì)非遷移學(xué)習(xí)的MIA 方法中,包括Salem[20]、Yeom[23]、Nasr[24]和Lenio[25]等。為了表明這些方法只能在過擬合的深度學(xué)習(xí)模型上取得較好的攻擊效果,而當(dāng)模型是正常擬合的情況下攻擊性能大幅下降。本文在 VGG16 模型、Caltech101 數(shù)據(jù)集上復(fù)現(xiàn)了上述攻擊方法,攻擊結(jié)果如圖1 所示。在過擬合與正常擬合情況下,各種MIA 方法的攻擊性能均存在明顯下降。具體而言,當(dāng)模型處于過擬合時(shí),攻擊有較高的精確率;當(dāng)模型處于正常擬合時(shí),攻擊性能明顯降低,而實(shí)際應(yīng)用中的大部分深度學(xué)習(xí)模型都是正常訓(xùn)練且處于正常擬合的情況。針對(duì)這一問題,文獻(xiàn)[26]提出了模型處于正常擬合環(huán)境下的成員推理攻擊,然而該攻擊需要獲取置信度信息,在目標(biāo)模型只輸出標(biāo)簽的情況下則無法展開攻擊,限制了其實(shí)際應(yīng)用的可操作性。
圖1 訓(xùn)練集為Caltech101 的VGG16 模型的攻擊樣本精確率
綜上所述,本文提出了針對(duì)遷移學(xué)習(xí)的深度學(xué)習(xí)模型在正常擬合情況下的成員推理攻擊方法,通過搜索對(duì)目標(biāo)模型預(yù)測(cè)產(chǎn)生特殊影響的異常樣本,利用異常樣本在目標(biāo)模型的訓(xùn)練集中存在與否對(duì)預(yù)測(cè)結(jié)果產(chǎn)生較大差異,通過異常樣本展開成員推理攻擊,實(shí)現(xiàn)正常擬合模型的成員推理攻擊。此外,針對(duì)現(xiàn)有成員推理攻擊需要獲取置信度才能實(shí)現(xiàn)攻擊的問題,本文提出了一種只需要輸出標(biāo)簽不需要置信度的更高效的MIA 方法,采用置信度分?jǐn)?shù)表示樣本與模型決策邊界的距離,并使用對(duì)抗噪聲進(jìn)行衡量,從而實(shí)現(xiàn)置信度重構(gòu),通過對(duì)抗攻擊和回歸分析獲取攻擊樣本所需對(duì)抗噪聲的大小與樣本在模型下的置信度關(guān)系,僅獲取模型輸出標(biāo)簽的情況下,實(shí)現(xiàn)與置信度攻擊相當(dāng)?shù)墓粜阅堋?/p>
本文的主要?jiǎng)?chuàng)新點(diǎn)如下。
1) 研究了遷移學(xué)習(xí)的模型處于正常擬合時(shí)的成員推理攻擊。設(shè)計(jì)了3 種攻擊模式,分別實(shí)現(xiàn)對(duì)教師模型和學(xué)生模型的成員推理攻擊,提出了異常樣本檢測(cè)和置信度重構(gòu)方法,實(shí)現(xiàn)了面向正常擬合遷移學(xué)習(xí)模型的成員推理攻擊(TMIA,transfer membership inference attack)。
2) 在目標(biāo)模型只輸出標(biāo)簽的情況下,通過置信度重構(gòu),尋找對(duì)抗攻擊成功時(shí)對(duì)抗噪聲的大小與置信度的邏輯關(guān)系,實(shí)現(xiàn)了成員推理攻擊,即在最小信息量的情況下,依然達(dá)到了與擁有置信度的MIA相當(dāng)?shù)墓粜阅堋?/p>
3) 展開對(duì)不同數(shù)據(jù)集的實(shí)驗(yàn)驗(yàn)證,證明了本文所提出的成員推理攻擊在不同遷移學(xué)習(xí)方式下的攻擊有效性,并與現(xiàn)有的多種MIA 方法展開對(duì)比,本文方法在大部分情況下達(dá)到了最優(yōu)攻擊性能(SOTA,state-of-the-art)。另外,在特征提取器的遷移方式下,揭示了凍結(jié)層數(shù)對(duì)攻擊性能的影響。
4) 為了進(jìn)一步驗(yàn)證本文提出的TMIA 攻擊的有效性,假設(shè)實(shí)際應(yīng)用中存在對(duì)TMIA 的防御方法,對(duì)防御模型展開適應(yīng)性攻擊,實(shí)驗(yàn)結(jié)果表明,即使存在防御,本文的TMIA 依然具有較高的攻擊精確率。
本節(jié)主要介紹面向機(jī)器學(xué)習(xí)模型的成員推理攻擊方法,以及遷移學(xué)習(xí)安全性研究。
成員推理攻擊主要是為了竊取模型的數(shù)據(jù)隱私,當(dāng)數(shù)據(jù)包含大量敏感信息時(shí),如生物醫(yī)學(xué)數(shù)據(jù)[28-29]和移動(dòng)跟蹤數(shù)據(jù)[30],將造成嚴(yán)重的隱私風(fēng)險(xiǎn),因此,成員推理攻擊引起廣泛關(guān)注。
文獻(xiàn)[21]首次提出了針對(duì)機(jī)器學(xué)習(xí)模型的成員推理攻擊,利用影子模型模擬目標(biāo)模型的行為,為攻擊模型生成訓(xùn)練數(shù)據(jù),通過攻擊模型判定樣本是否為成員樣本。然而該攻擊的前提是需要獲取目標(biāo)模型的結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)的分布,而實(shí)際應(yīng)用中大部分情況下,目標(biāo)模型的結(jié)構(gòu)與訓(xùn)練數(shù)據(jù)分布獲取異常困難,限制了其實(shí)際應(yīng)用。因此,文獻(xiàn)[20]提出目標(biāo)模型結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)分布未知情況下的成員推理攻擊,在訓(xùn)練攻擊模型時(shí)不使用所有的置信度分?jǐn)?shù),只從中選取前3 個(gè)最大的值進(jìn)行訓(xùn)練。另外,文獻(xiàn)[20]也提出了基于閾值的成員推理攻擊,通過比較閾值和置信度分?jǐn)?shù)的最大值進(jìn)行成員推理,當(dāng)置信度大于設(shè)定閾值,則判定為成員樣本。文獻(xiàn)[23]提出了2 種成員推理攻擊:第一種只利用標(biāo)簽信息,將樣本的真實(shí)標(biāo)簽與預(yù)測(cè)的標(biāo)簽相比,如果相同則認(rèn)為是成員樣本;第二種攻擊計(jì)算樣本的交叉熵?fù)p失,并將計(jì)算出的損失與所有訓(xùn)練樣本的平均損失相比,從而判斷是否是成員樣本。文獻(xiàn)[24]評(píng)估了針對(duì)深度學(xué)習(xí)算法的白盒成員推理攻擊,認(rèn)為白盒場(chǎng)景是黑盒場(chǎng)景的拓展,不同于黑盒環(huán)境下只能使用模型最后一層的輸出,白盒環(huán)境則可利用任意層的輸出進(jìn)行攻擊,但攻擊性能并沒有明顯的提升。隨后,他們又提出了一種預(yù)測(cè)損失對(duì)模型訓(xùn)練參數(shù)求導(dǎo)的方法,利用得到的梯度信息進(jìn)行白盒攻擊,并表明該攻擊的性能優(yōu)于黑盒攻擊。但這種攻擊需要得到模型的訓(xùn)練數(shù)據(jù),在實(shí)際應(yīng)用中面臨較大困難。文獻(xiàn)[25]針對(duì)這一問題,提出了一種不需要模型訓(xùn)練數(shù)據(jù)的白盒成員推理攻擊。
總結(jié)上述攻擊的有效性保證是模型處于過擬合狀態(tài),而當(dāng)模型處于正常擬合狀態(tài)時(shí),攻擊性能會(huì)大大降低。
除了針對(duì)批量成員數(shù)據(jù)的推理攻擊,文獻(xiàn)[26]首次提出了針對(duì)單個(gè)樣本點(diǎn)的成員推理攻擊。該方法只對(duì)部分樣本點(diǎn)進(jìn)行攻擊,即使在模型處于正常擬合狀態(tài)下,依然有較高的攻擊準(zhǔn)確率。然而,該方法需要獲取模型輸出的置信度信息,在模型輸出標(biāo)簽的環(huán)境下無法正常工作。
綜上,現(xiàn)有工作尚未對(duì)面向正常擬合遷移學(xué)習(xí)模型的成員推理攻擊進(jìn)行研究,且在目標(biāo)模型只輸出標(biāo)簽的情況下無法達(dá)到較好的攻擊效果。
面向深度學(xué)習(xí)的遷移學(xué)習(xí)方法在計(jì)算機(jī)視覺[31-34]、語音分析[35-38]和文本處理[39-40]等領(lǐng)域均取得了較好的性能。但已有研究表明,遷移學(xué)習(xí)存在安全隱患,包括對(duì)抗攻擊[41]、中毒攻擊[42]和成員推理攻擊[27]。
文獻(xiàn)[41]提出了一種針對(duì)遷移學(xué)習(xí)的對(duì)抗攻擊。常用的對(duì)抗攻擊[38-40]主要是優(yōu)化圖像,使其被預(yù)測(cè)為目標(biāo)標(biāo)簽,與已有方法的不同之處是,文獻(xiàn)[41]提出的方法的核心思想是優(yōu)化圖像來模仿目標(biāo)圖像的內(nèi)部表現(xiàn)。文獻(xiàn)[42]提出了一種針對(duì)詞嵌入的數(shù)據(jù)中毒攻擊,基于嵌入的自然語言處理任務(wù)遵循遷移學(xué)習(xí)模式,其中嵌入模型和下游模型分別被視為教師模型和學(xué)生模型。目標(biāo)可以是使目標(biāo)單詞在單詞中排名更高,也可以將目標(biāo)單詞與特定的單詞集的距離進(jìn)行移近或者移遠(yuǎn)。論文進(jìn)行了大量的實(shí)驗(yàn),表明對(duì)嵌入模型(教師模型)進(jìn)行攻擊可以嚴(yán)重影響多個(gè)下游模型(學(xué)生模型)。文獻(xiàn)[27]利用影子模型模仿目標(biāo)模型,通過影子模型的輸出訓(xùn)練攻擊模型,最后使用攻擊模型判斷樣本是否為成員樣本,首次研究了面向遷移學(xué)習(xí)的成員推理攻擊,但是該攻擊只能在目標(biāo)模型處于過擬合狀態(tài)時(shí)有較好的攻擊效果。
綜上,現(xiàn)有的面向遷移學(xué)習(xí)成員隱私的研究只在模型處于過擬合的狀態(tài)下進(jìn)行,所提方法無法在模型正常擬合時(shí)有較好的攻擊效果。
本節(jié)首先介紹了攻擊模式和威脅模型,隨后對(duì)提出的攻擊方法展開詳細(xì)描述。
與成員推理攻擊[22-25]不同,遷移學(xué)習(xí)場(chǎng)景中包含教師模型和學(xué)生模型2 種模型,微調(diào)和特征提取器2 種遷移方式。微調(diào)是指不凍結(jié)教師模型,直接用學(xué)生數(shù)據(jù)集訓(xùn)練教師模型得到學(xué)生模型。特征提取器是指假設(shè)教師模型共n層,凍結(jié)其前k層,只用學(xué)生數(shù)據(jù)集訓(xùn)練教師模型的n-k層。另外,從攻擊者能獲得的權(quán)限來看,攻擊者在某些情況下可能獲得教師模型的訪問權(quán)限,在某些情況下可能獲得學(xué)生模型的訪問權(quán)限。從攻擊者的目標(biāo)來看,攻擊者可能想要推斷教師模型的訓(xùn)練數(shù)據(jù),也可能想要推斷學(xué)生模型的訓(xùn)練數(shù)據(jù)。根據(jù)上述遷移方式的不同和攻擊者的能力及需求,本文將攻擊分為以下3 種模式。
攻擊Ⅰ:微調(diào)模式下,攻擊者攻擊教師模型,能且僅能訪問教師模型。
攻擊Ⅱ:特征提取器模式下,攻擊者攻擊教師模型,能且僅能訪問學(xué)生模型。
攻擊Ⅲ:微調(diào)模式下,攻擊者攻擊學(xué)生模型,能且僅能訪問學(xué)生模型。
與現(xiàn)有成員推理攻擊[25]相似,本文假設(shè)攻擊者可以獲得目標(biāo)模型的結(jié)構(gòu)和數(shù)據(jù)分布,并且可以訪問目標(biāo)模型,獲得目標(biāo)模型的輸入輸出對(duì)。
攻擊Ⅰ模式下,攻擊者A攻擊教師模型ft,能且僅能訪問教師模型。攻擊目標(biāo)是判斷一個(gè)數(shù)據(jù)樣本點(diǎn)(x,y)是否是教師模型的訓(xùn)練數(shù)據(jù),計(jì)算式為
該模式下,本文默認(rèn)攻擊者A可以獲得以下內(nèi)容。
1) 教師模型結(jié)構(gòu)和訓(xùn)練方式。
2) 教師模型訓(xùn)練集的特征分布和其同分布的數(shù)據(jù)集。
3) 教師模型的黑盒訪問權(quán)限。
攻擊Ⅱ模式下,攻擊者A攻擊教師模型ft,能且僅能訪問學(xué)生模型fs。攻擊目標(biāo)是判斷一個(gè)數(shù)據(jù)樣本點(diǎn)(x,y)是否是教師模型的訓(xùn)練數(shù)據(jù),計(jì)算式為
該模式下,A可以獲得以下內(nèi)容。
1) 教師模型和學(xué)生模型的結(jié)構(gòu)和訓(xùn)練方式。
2) 教師模型和學(xué)生模型的訓(xùn)練集的特征分布和其同分布的數(shù)據(jù)集。
3) 學(xué)生模型的黑盒訪問權(quán)限。
攻擊Ⅲ模式下,攻擊者A攻擊學(xué)生模型fs,能且僅能訪問學(xué)生模型fs。攻擊目標(biāo)是判斷一個(gè)數(shù)據(jù)樣本點(diǎn)(x,y)是否是學(xué)生模型的訓(xùn)練數(shù)據(jù),計(jì)算式為
該模式下,本文默認(rèn)攻擊者A可以獲得以下內(nèi)容。
1) 教師模型和學(xué)生模型的結(jié)構(gòu)和訓(xùn)練方式。
2) 教師模型和學(xué)生模型訓(xùn)練集的特征分布和其同分布的數(shù)據(jù)集。
3) 學(xué)生模型的黑盒訪問權(quán)限。
本節(jié)對(duì)攻擊方法進(jìn)行整體概述。本文方法的整體框架如圖2 所示,主要分為3 種攻擊模式。
圖2 面向正常擬合模型的成員推理攻擊方法整體框架
1) 攻擊Ⅰ
攻擊Ⅰ模式下,攻擊者攻擊教師模型,判斷待測(cè)樣本是否為教師模型的訓(xùn)練數(shù)據(jù),且僅能訪問教師模型。為實(shí)現(xiàn)這一目標(biāo),本文建立了對(duì)比模型。對(duì)比模型的作用有2 個(gè),首先是構(gòu)建樣本特征,然后是生成輸出特征累計(jì)概率分布圖。對(duì)比模型的結(jié)構(gòu)與目標(biāo)模型相同,對(duì)比模型的訓(xùn)練集與目標(biāo)模型的訓(xùn)練集特征分布一致。為構(gòu)建樣本特征,本文構(gòu)建k個(gè)對(duì)比模型,考慮到攻擊者存在獲得的數(shù)據(jù)集樣本數(shù)量不足的問題,使用bootstrap 采樣[27]來生成對(duì)比數(shù)據(jù)集,bootstrap 采樣減少了對(duì)比訓(xùn)練集之間的重疊,使對(duì)比模型之間的相似性降低。對(duì)比模型的訓(xùn)練方法與目標(biāo)模型一致。
隨后,將待測(cè)樣本輸入k個(gè)對(duì)比模型,獲取其中間層輸出并將其合并構(gòu)建樣本特征,通過異常樣本檢測(cè)得到異常樣本,本文只針對(duì)異常樣本進(jìn)行成員推理攻擊。
將異常樣本輸入對(duì)比模型,繪制其輸出特征累計(jì)概率分布圖,對(duì)數(shù)損失函數(shù)在訓(xùn)練模型時(shí)常用作標(biāo)準(zhǔn)函數(shù),故本文采用對(duì)數(shù)損失函數(shù)構(gòu)建輸出特征分布圖,定義為
其中,M表示分類器,x表示輸入樣本,yx表示輸入樣本的標(biāo)簽,表示分類器M將樣本x分類為yx的置信度。
具體步驟如下。首先將目標(biāo)樣本輸入對(duì)比模型獲取其輸出L,利用L構(gòu)建累積分布函數(shù)(CDF,cumulative distribution function)圖D(L),函數(shù)形式表示為F(L)。然后將異常樣本輸入教師模型,使用置信度重構(gòu)方法獲取教師模型預(yù)測(cè)該樣本的置信度。最后是成員推理階段,本文根據(jù)假設(shè)檢驗(yàn)評(píng)估樣本x是目標(biāo)模型訓(xùn)練數(shù)據(jù)的置信度。零假設(shè)H0:樣本x不是目標(biāo)模型的訓(xùn)練數(shù)據(jù)。備擇假設(shè)H1:樣本x是目標(biāo)模型的訓(xùn)練數(shù)據(jù)。根據(jù)假設(shè)檢驗(yàn),存在p值和顯著性水平β,當(dāng)p>β時(shí),零假設(shè)H0正確;反之,備擇假設(shè)H1正確。顯著性水平β由人為設(shè)置,p值計(jì)算式為將重構(gòu)的置信度輸入式(4)計(jì)算得到對(duì)數(shù)損失,再將其輸入式(5)計(jì)算,獲取p值,若p>β,則認(rèn)為該樣本不是成員樣本,反之,則是成員樣本。
2) 攻擊Ⅱ
攻擊Ⅱ模式下,攻擊者攻擊教師模型,判斷待測(cè)樣本是否為教師模型的訓(xùn)練數(shù)據(jù),且僅能訪問學(xué)生模型。與攻擊Ⅰ不同,攻擊Ⅱ建立了學(xué)生模型的對(duì)比模型,其訓(xùn)練集分布與學(xué)生模型訓(xùn)練集分布一致,訓(xùn)練方式相同。
構(gòu)建樣本特征時(shí)將異常樣本輸入對(duì)比模型獲取其中間層輸出并合并,通過異常樣本檢測(cè)得到異常樣本。隨后將異常樣本分別輸入對(duì)比模型繪制輸出特征累計(jì)概率分布圖,輸入學(xué)生模型利用置信度重構(gòu)得到置信度。與攻擊Ⅰ不同,攻擊Ⅱ繪制輸出特征累計(jì)概率分布圖時(shí),將目標(biāo)模型輸出的最大置信度代入式(4)計(jì)算對(duì)數(shù)損失。最后通過假設(shè)檢驗(yàn),推理該樣本是否為成員樣本。
3) 攻擊Ⅲ
攻擊者攻擊學(xué)生模型,判斷待測(cè)樣本是否是學(xué)生模型的訓(xùn)練數(shù)據(jù),能且僅能訪問學(xué)生模型。與上述攻擊不同,攻擊Ⅲ攻擊目標(biāo)是學(xué)生模型,待測(cè)樣本與學(xué)生模型訓(xùn)練集相同。攻擊者建立對(duì)比模型,模型的結(jié)構(gòu)與學(xué)生模型相同,其訓(xùn)練數(shù)據(jù)分布與學(xué)生模型的訓(xùn)練數(shù)據(jù)分布一致,訓(xùn)練方式與學(xué)生模型相同。
隨后,將待測(cè)樣本輸入對(duì)比模型,提取中間層輸出并將其合并得到樣本特征,通過異常樣本檢測(cè)獲取異常樣本,并只對(duì)異常樣本進(jìn)行成員推理攻擊。將異常樣本輸入對(duì)比模型繪制輸出特征累計(jì)概率分布圖,與攻擊Ⅱ不同之處在于繪制輸出特征累計(jì)概率分布圖時(shí),將目標(biāo)模型輸出的預(yù)測(cè)類對(duì)應(yīng)的置信度代入式(4)計(jì)算對(duì)數(shù)損失,后將異常樣本輸入學(xué)生模型,利用置信度重構(gòu)方法獲取異常樣本在目標(biāo)模型下的預(yù)測(cè)置信度。最后利用假設(shè)檢驗(yàn),推理異常樣本是否為學(xué)生模型的成員樣本。
本文只對(duì)檢測(cè)到的異常樣本進(jìn)行成員推理攻擊,這些異常樣本在特征分布上與其他待測(cè)樣本存在較大差異,故在訓(xùn)練模型時(shí),異常樣本會(huì)對(duì)模型產(chǎn)生特殊的影響。在模型訓(xùn)練集包含與不包含異常樣本時(shí),模型對(duì)異常樣本的預(yù)測(cè)會(huì)有明顯的差別,故能達(dá)到較好的攻擊效果,異常樣本檢測(cè)算法如算法1 所示。
算法1異常樣本檢測(cè)算法
輸入待測(cè)樣本與對(duì)比模型訓(xùn)練樣本n,類別數(shù)k,最大迭代次數(shù) max_iter,當(dāng)前迭代次數(shù)num_iter,距離閾值α
輸出待測(cè)樣本中的異常樣本集合Q
樣本類別計(jì)算式為
其中,ci表示第i個(gè)樣本的類,j表示第j個(gè)類,uj表示第j個(gè)類的中心,表示第i個(gè)樣本特征,即樣本xi在k個(gè)對(duì)比模型中間層輸出的組合。
簇中心計(jì)算式為
其中,uj表示第j個(gè)類的中心,n表示樣本特征的個(gè)數(shù),c i表示第i個(gè)樣本的類,j表示第j個(gè)類,表示第i個(gè)樣本特征。當(dāng)ci為j時(shí),1{ci=j}的值為1,否則為0。
樣本間距離計(jì)算式為
本文提出置信度重構(gòu)技術(shù),即使模型只輸出預(yù)測(cè)標(biāo)簽,也能使攻擊有較好的攻擊性能。
置信度重構(gòu)基于的思想是將一個(gè)樣本輸入深度模型,模型輸出的置信度越大,則該樣本越難被對(duì)抗攻擊,即攻擊成功所需要的對(duì)抗噪聲越大。本文提出的置信度重構(gòu)主要分為2 個(gè)部分:首先通過對(duì)抗攻擊,獲取攻擊成功所需要的對(duì)抗噪聲大?。蝗缓罄没貧w分析,獲取對(duì)抗噪聲和置信度的邏輯關(guān)系。“HopSkipJump”攻擊[41]是最近提出的攻擊效率最高的對(duì)抗攻擊,具有查詢次數(shù)少、添加噪聲少的特點(diǎn),本文選用該攻擊作為攻擊方法。第一步,將樣本輸入對(duì)比模型,獲取其置信度,隨后將樣本輸入目標(biāo)模型進(jìn)行對(duì)抗攻擊,獲取對(duì)抗噪聲大小。第二步,將第一步中獲取的置信度-噪聲大小對(duì)進(jìn)行回歸分析,獲取其對(duì)應(yīng)關(guān)系?;貧w分析采用最小二乘法,具體步驟如下。
1)根據(jù)樣本點(diǎn)分布特征,初始化近似函數(shù)y=f(w,x)。
2)計(jì)算殘差函數(shù)
3)更新w,取殘差函數(shù)最小時(shí)的w為近似函數(shù)的最終參數(shù)。
因?yàn)閷?duì)比模型的訓(xùn)練數(shù)據(jù)分布與目標(biāo)模型的訓(xùn)練數(shù)據(jù)分布一致,本文認(rèn)為在對(duì)比模型上得到的置信度和噪聲的大小關(guān)系與目標(biāo)模型的基本一致。
本節(jié)在多個(gè)真實(shí)數(shù)據(jù)集和模型上進(jìn)行實(shí)驗(yàn)驗(yàn)證正常擬合遷移學(xué)習(xí)模型的3 種成員推理攻擊有效性。首先,在4 種攻擊模式下評(píng)估了攻擊的性能,分別分析了成員推理攻擊在訪問教師模型時(shí)對(duì)教師模型造成的成員隱私風(fēng)險(xiǎn)、訪問學(xué)生模型時(shí)對(duì)教師模型造成的成員隱私風(fēng)險(xiǎn)和訪問學(xué)生模型時(shí)對(duì)學(xué)生模型造成的成員隱私風(fēng)險(xiǎn)。其次,對(duì)本文方法的有效性進(jìn)行分析,解釋了本文方法在正常擬合模型下有效的原因,隨后解釋了相比于其他攻擊需要獲得置信度信息,而本文方法僅需獲得標(biāo)簽信息就能有效的原因。再次,進(jìn)行了參數(shù)敏感性分析,評(píng)估了異常樣本檢測(cè)階段不同參數(shù)對(duì)攻擊性能造成的影響。最后,進(jìn)行了適應(yīng)性攻擊實(shí)驗(yàn),對(duì)添加了防御的模型進(jìn)行攻擊,以說明本文所提方法的普適性。
本節(jié)主要介紹了實(shí)驗(yàn)環(huán)境、數(shù)據(jù)集、模型和評(píng)價(jià)指標(biāo)、對(duì)比算法等信息。
實(shí)驗(yàn)硬件及軟件平臺(tái):i7-7700K 4.20GHzx8(CPU),TITAN Xp 12GiBx2 (GPU),16GBx4 memory(DDR4),Ubuntu16.04 (OS),Python(3.6),tensorflow-gpu (1.12.0),keras (2.2.4),torch (0.4.1)和torchvision (0.2.1)。
數(shù)據(jù)集:本文實(shí)驗(yàn)采用4 個(gè)公共數(shù)據(jù)集。
Caltech101[43]。該數(shù)據(jù)集包含5 486 個(gè)訓(xùn)練圖像和3 658 張測(cè)試圖像,分為101 個(gè)不同的物體類別(如人臉、手表、螞蟻、鋼琴等)和一個(gè)背景類別。每個(gè)類別大約有40~800 張圖片,大多數(shù)類別大約有50 張圖片。
CIFAR100[44]。該數(shù)據(jù)集是廣泛用于評(píng)價(jià)圖像識(shí)別算法的基準(zhǔn)數(shù)據(jù)集,由彩色圖像組成,這些圖像被平均分為100 類,如食物、人、昆蟲等。每個(gè)類別有500 張訓(xùn)練圖片和100 張測(cè)試圖片。
Flowers102[45]。該數(shù)據(jù)集包含102 種常見的花卉類別,包含6 149 張訓(xùn)練圖像和1 020 張測(cè)試圖像。
PubFig83[46]。該數(shù)據(jù)集由8 300 張裁剪面部圖像組成,這些圖像來自83 張公共人臉圖像,每一張人臉圖像包含100 個(gè)變體。PubFig83 中的圖片是從網(wǎng)上獲取的,并不是在可控的環(huán)境中收集的。
本文選用4 個(gè)常用的深度模型,分別是VGG16模型[47]、VGG19 模型[47]、ResNet50 模型[48]和Inception_v3 模型[49]。模型訓(xùn)練階段,優(yōu)化算法采用Adam 方法,batch_size 設(shè)置為64,epoch 設(shè)置為100。訓(xùn)練完成后,模型均處于正常擬合狀態(tài),訓(xùn)練準(zhǔn)確率與測(cè)試準(zhǔn)確率較高且無明顯差異。
精確率是衡量成員推理攻擊[10]的常用指標(biāo),精確率越大表示攻擊性能越高,定義為
其中,TP 表示實(shí)際為成員樣本預(yù)測(cè)為成員樣本的樣本個(gè)數(shù),F(xiàn)P 表示實(shí)際為非成員樣本預(yù)測(cè)為成員樣本的樣本個(gè)數(shù)。
另外,本文引入覆蓋率衡量成員推理攻擊性能,覆蓋率越大,表示攻擊性能越好。
其中,TP 表示實(shí)際為成員樣本預(yù)測(cè)為成員樣本的樣本個(gè)數(shù),N表示成員樣本總數(shù)。
本文采取Zou 等[27](FMIA)、Salem 等[20](GMIA)和Long 等[26](PMIA)這3 種攻擊方法作為本文方法的對(duì)比算法。FMIA 和GMIA 在攻擊過程中都建立了攻擊模型,區(qū)別是FMIA 針對(duì)每一類樣本建立了一個(gè)攻擊模型,GMIA 只需要建立一個(gè)攻擊模型。攻擊模型由兩層全連接層組成,第一層包含64 個(gè)神經(jīng)元,激活函數(shù)選用ReLU,輸出層選用Softmax。PMIA 不建立攻擊模型,通過建立參考模型獲取樣本在不同模型下的輸出差異進(jìn)行攻擊。為評(píng)估攻擊方法的性能,本文建立100 個(gè)目標(biāo)模型進(jìn)行測(cè)試,其中50 個(gè)包含待測(cè)樣本,另外50 個(gè)不包含待測(cè)樣本。
本節(jié)在微調(diào)的遷移方式下評(píng)估了本文提出的成員推理攻擊性能。攻擊I 模式下,攻擊者攻擊教師模型,判斷輸入樣本是否為教師模型的成員樣本,且攻擊者能且僅能訪問教師模型。本文教師模型分別在4 種數(shù)據(jù)集和3 種常見的深度模型上訓(xùn)練。實(shí)驗(yàn)結(jié)果如表1 所示。本文用精確率和覆蓋率來衡量不同攻擊方法之間的攻擊性能。
表1 攻擊I:訪教-攻教模式下不同攻擊的攻擊性能比較
首先,本文比較了PMIA 和TMIA 檢測(cè)的異常樣本數(shù)量。TMIA 檢測(cè)到的異常樣本比PMIA 多,這主要是因?yàn)镻MIA 基于密度檢測(cè)異常樣本,只能在樣本分布稀疏時(shí)檢測(cè)到較多異常樣本,而TMIA基于距離檢測(cè)異常樣本,更具普適性。FMIA 和GMIA 本身無異常檢測(cè)步驟,為與本文方法TMIA對(duì)比,測(cè)試時(shí)攻擊TMIA 檢測(cè)到的異常樣本,故其異常樣本數(shù)量與TMIA 相同。
其次,本文比較了不同攻擊方法在不同數(shù)據(jù)集和不同模型下的精確率。在任意模型和任意數(shù)據(jù)集中,TMIA 和PMIA 的精確率均高于FMIA 和GMIA,F(xiàn)MIA 和GMIA 在Caltech101 數(shù)據(jù)集的Resnet50 模型下的精確率分別為45.12%和51.01%,這主要是因?yàn)镕MIA 和GMIA 是針對(duì)過擬合模型的成員推理攻擊,它們基于成員樣本和非成員樣本在目標(biāo)模型下的輸出差異進(jìn)行攻擊,然而,在攻擊正常擬合模型時(shí),成員樣本和非成員樣本在目標(biāo)模型下的輸出差異較小,F(xiàn)MIA 和GMIA 攻擊性能大大降低。
本文所提方法PMIA 和TMIA 的攻擊性能相近,均有較好的攻擊性能,例如在Flowers102 數(shù)據(jù)集的VGG16 模型下,精確率分別為94.22%和93.49%,這是因?yàn)門MIA 和PMIA 利用異常樣本檢測(cè)找到了容易受到攻擊的樣本,這些樣本對(duì)模型的預(yù)測(cè)輸出有特殊的影響,有較高的概率被攻擊成功。
與PMIA 需要獲取置信度不同,本文所提方法只需要獲取樣本在目標(biāo)模型下輸出的標(biāo)簽信息,獲得的信息更少,但是攻擊性能與PMIA 相比并沒有明顯的降低,表明了TMIA 的優(yōu)越性。
最后,本文比較了不同攻擊方法在不同模型和不同數(shù)據(jù)集下的覆蓋率。在任意模型和數(shù)據(jù)集下,TMIA 的覆蓋率明顯高于FMIA 和GMIA,這顯示了TMIA 較好的攻擊性能。與PMIA 需要置信度相比,TMIA 只需要獲取標(biāo)簽信息,在獲得信息較少的情況下,性能并沒有明顯的降低,再次表現(xiàn)了TMIA 的優(yōu)越性。
本節(jié)在特征提取器的遷移方式下評(píng)估了本文提出的成員推理攻擊性能。攻擊II 模式下,攻擊者攻擊教師模型,判斷輸入樣本是否為教師模型的成員樣本,且攻擊者能且僅能訪問學(xué)生模型。本節(jié)教師模型均由Caltech101 數(shù)據(jù)集訓(xùn)練,學(xué)生模型在另外3 種數(shù)據(jù)集上訓(xùn)練,教師模型和學(xué)生模型都采用VGG16。實(shí)驗(yàn)結(jié)果如圖3 所示,其中橫坐標(biāo)表示凍結(jié)教師模型的層數(shù),縱坐標(biāo)表示攻擊的性能指標(biāo)。本文用精確率和覆蓋率來衡量不同攻擊方法之間的攻擊性能。
由圖3 可知,隨著凍結(jié)層數(shù)的增加,攻擊的性能也會(huì)上升。這是因?yàn)閮鼋Y(jié)的層數(shù)越多,學(xué)生模型會(huì)更多地保留教師模型訓(xùn)練集的特征,增加了攻擊的成功率。上述結(jié)果表明,即使在不訪問教師模型的情況下,只訪問學(xué)生模型,也會(huì)造成教師模型訓(xùn)練數(shù)據(jù)的成員隱私泄露。這主要是因?yàn)閷W(xué)生模型也包含教師模型訓(xùn)練數(shù)據(jù)的特征,故存在泄露其數(shù)據(jù)隱私的可能。
圖3 不同攻擊方法在不同凍結(jié)層數(shù)下的性能比較
其次,在任意數(shù)據(jù)集下,TMIA 的精確率和覆蓋率均大于FMIA 和GMIA,表明了本文方法有較好的攻擊性能。這主要因?yàn)镕MIA 和GMIA 基于成員樣本和非成員樣本在模型下的輸出差異進(jìn)行攻擊,而模型處于正常擬合狀態(tài)下,輸出幾乎無差異,而TMIA 只攻擊異常樣本,這些異常樣本對(duì)目標(biāo)模型的預(yù)測(cè)產(chǎn)生特殊影響,當(dāng)模型訓(xùn)練集中存在和不存在異常樣本時(shí),模型對(duì)異常樣本的預(yù)測(cè)會(huì)有較大的差異,對(duì)比模型訓(xùn)練集中不包含異常樣本,在推理階段,利用假設(shè)檢驗(yàn),若異常樣本在目標(biāo)模型下的輸出特征不符合異常樣本在對(duì)比模型下的輸出特征分布,則認(rèn)為該樣本為成員樣本,有較高的精確率推理成功。
最后,TMIA 在只獲得標(biāo)簽信息的情況下,獲得的信息更少,但是和PMIA 性能幾乎無差異,再次表明了TMIA 方法的優(yōu)越性。
本節(jié)在微調(diào)的遷移模式下評(píng)估了本文提出的成員推理攻擊性能。攻擊III 模式下,攻擊者攻擊學(xué)生模型,判斷輸入樣本是否為學(xué)生模型的成員樣本,且攻擊者能且僅能訪問學(xué)生模型。本節(jié)教師模型均由Caltech101 數(shù)據(jù)集訓(xùn)練,學(xué)生模型在另外3 種數(shù)據(jù)集上訓(xùn)練,分別在3 種常見的深度模型上進(jìn)行成員推理攻擊。本文用精確率和覆蓋率來衡量不同攻擊方法之間的攻擊性能。
如表2 所示,在任意模型和任意數(shù)據(jù)集中,TMIA 和PMIA 的精確率和覆蓋率均高于FMIA 和GMIA,例如在Flowers102 上訓(xùn)練的VGG19 的精確率分別為53.55%和53.06%,PMIA 和TMIA 的精確率分別為94.37%和93.53%。這是因?yàn)镕MIA和GMIA是基于成員樣本和非成員樣本在模型輸出下的置信度差異進(jìn)行攻擊,當(dāng)模型處于正常擬合時(shí),成員樣本和非成員樣本的置信度差異很小,導(dǎo)致FMIA 和GMIA 攻擊性能大大降低。本文所提方法TMIA 和PMIA 的攻擊性能更強(qiáng),因?yàn)門MIA 和PMIA 挑選對(duì)模型輸出有特殊影響的樣本,這些樣本更容易被攻擊。
表2 攻擊III:訪學(xué)-攻學(xué)模式下不同攻擊的攻擊性能比較
與PMIA 需要獲取置信度不同,本文所提方法TMIA 只需要獲取樣本在目標(biāo)模型下輸出的標(biāo)簽信息,獲得的信息更少,但是攻擊性能與PMIA 相比并沒有明顯的降低,這也表明了本文置信度重構(gòu)的有效性。
本節(jié)分析了TMIA 有較強(qiáng)攻擊性能的原因。為此,本文給出了異常樣本在模型in 和模型out 下輸出的置信度概率累計(jì)分布,模型in 表示該模型的訓(xùn)練數(shù)據(jù)包含異常樣本,模型out 表示該模型的訓(xùn)練數(shù)據(jù)不包含異常樣本。
如圖4 所示,異常樣本在模型in 和模型out 下的輸出分布有著明顯差異。異常樣本在模型in 下的輸出置信度明顯大于在模型out 下的輸出置信度,這說明了本文方法的攻擊有效性,解釋了本文方法可以推斷出樣本成員狀態(tài)的原因。
圖4 異常樣本累計(jì)概率分布
最后,本節(jié)給出了置信度重構(gòu),如圖5 所示。構(gòu)成對(duì)抗樣本的噪聲大小和模型對(duì)樣本預(yù)測(cè)的置信度有明顯的邏輯關(guān)系,置信度越大,攻擊該樣本所需要的噪聲就越大,說明了本文所提置信度重構(gòu)方法的有效性,解釋了即使在模型只輸出標(biāo)簽信息的情況下TMIA 依然能有較好攻擊性能的原因。
圖5 置信度重構(gòu)
本節(jié)主要對(duì)異常樣本檢測(cè)過程中距離閾值α進(jìn)行敏感性分析,評(píng)估了不同閾值α對(duì)攻擊性能的影響。實(shí)驗(yàn)結(jié)果如表3 所示,隨著閾值α的增加,檢測(cè)到的異常樣本數(shù)量會(huì)減少,精確率和覆蓋率有一定增加,這表明閾值的增高會(huì)讓更少的樣本被認(rèn)為是異常樣本,這些異常樣本離聚類中心更遠(yuǎn),特征差異越大,對(duì)模型預(yù)測(cè)造成的影響也越大,更容易被攻擊成功。
表3 參數(shù)敏感性分析
本節(jié)主要對(duì)TMIA 方法在施加了防御后的模型的攻擊效果進(jìn)行分析?,F(xiàn)有研究[19]表明,Dropout對(duì)成員推理攻擊有較好的防御性能。本節(jié)在Caltech101 數(shù)據(jù)集上訓(xùn)練的目標(biāo)模型上應(yīng)用了Dropout,隨后用TMIA 進(jìn)行攻擊。
表4 給出了應(yīng)用Dropout 前后,模型的準(zhǔn)確率和攻擊性能的差異。結(jié)果顯示,Dropout 方法降低了異常樣本檢測(cè)環(huán)節(jié)檢測(cè)到的異常樣本數(shù)量,但是檢測(cè)出的異常樣本仍然以較高的精確率被攻擊成功。例如,當(dāng)Dropout 的參數(shù)被設(shè)置為0.1 時(shí),檢測(cè)到了6 個(gè)異常樣本,這些異常樣本以高達(dá)96.15%的精確率被推理成功。
表4 不同Dropout 下TMIA 的攻擊性能
綜上,Dropout 在一定程度上緩解了成員推理攻擊,但是并沒有完全解決成員推理攻擊的隱私威脅,防御效果有限,進(jìn)一步說明了本文方法對(duì)成員隱私的危害。
本節(jié)在微調(diào)的遷移方式下展示了Flowers102數(shù)據(jù)集在VGG16、VGG19 和Resnet50 模型上的對(duì)數(shù)損失L累計(jì)分布。攻擊I 模式下,攻擊者攻擊教師模型,判斷輸入樣本是否為教師模型的成員樣本,且攻擊者能且僅能訪問教師模型。TMIA 在VGG16、VGG19 和Resnet50 模型上分別檢測(cè)到了42、43 和40 個(gè)異常樣本。本文將檢測(cè)到的異常樣本輸入對(duì)比模型,得到輸出標(biāo)簽后,利用回歸分析得到其置信度,最后通過式(4)計(jì)算其對(duì)數(shù)損失。根據(jù)獲得的對(duì)數(shù)損失,繪制累計(jì)分布圖。
累計(jì)概率分布如圖6 所示,其中橫坐標(biāo)表示對(duì)數(shù)損失L,縱坐標(biāo)表示累計(jì)概率。判別輸入樣本是否為成員樣本時(shí),將輸入樣本輸入目標(biāo)模型,得到輸入樣本在目標(biāo)模型下真實(shí)標(biāo)簽類的置信度,隨后利用式(4)計(jì)算其對(duì)數(shù)損失,最后根據(jù)假設(shè)檢驗(yàn)判別輸入樣本是否為成員樣本。
圖6 累計(jì)概率分布
本文對(duì)不同遷移學(xué)習(xí)下,正常擬合模型的數(shù)據(jù)成員隱私風(fēng)險(xiǎn)進(jìn)行了系統(tǒng)的研究。針對(duì)過去的工作主要面向過擬合模型,本文考慮的是正常擬合這一更加符合現(xiàn)實(shí)條件的環(huán)境,通過異常點(diǎn)檢測(cè)選擇容易受到成員推理攻擊的目標(biāo)數(shù)據(jù)并根據(jù)假設(shè)檢驗(yàn)保守地做出成員關(guān)系預(yù)測(cè),使攻擊失敗成本降至最低。針對(duì)過去的工作主要面向個(gè)人獨(dú)自訓(xùn)練的模型,本文在遷移學(xué)習(xí)環(huán)境中設(shè)置了2 種不同遷移方式,并設(shè)計(jì)了3 種不同的攻擊模式。本文系統(tǒng)地設(shè)計(jì)了攻擊框架,并根據(jù)實(shí)驗(yàn)結(jié)果評(píng)估了3 種攻擊對(duì)4 個(gè)真實(shí)數(shù)據(jù)集的攻擊性能。針對(duì)模型只能在標(biāo)簽信息情況下過去攻擊無法正常工作的問題,本文提出了置信度重構(gòu)方法,在獲得信息更少的情況下,達(dá)到了與基于置信度攻擊幾乎一致的性能。
此外,本文TMIA 方法存在異常樣本檢測(cè)數(shù)量少的問題,這是由于本文提出的異常樣本檢測(cè)技術(shù)可能無法找到所有對(duì)模型預(yù)測(cè)產(chǎn)生特殊影響的樣本。另外,本文方法需要獲取目標(biāo)模型的訓(xùn)練集分布,當(dāng)攻擊者無法獲取目標(biāo)模型訓(xùn)練集分布時(shí),攻擊性能有一定降低。因此,在未來的研究中,作者將繼續(xù)研究異常樣本的檢測(cè)方法,找到更多的異常樣本,并找到一種不需要獲取目標(biāo)模型訓(xùn)練集的通用方法。