基于BERT模型的文本對(duì)抗樣本生成方法

2023-10-21 07:11:50李宇航楊玉麗馬垚于丹陳永樂

計(jì)算機(jī)應(yīng)用 2023年10期

李宇航，楊玉麗，馬垚，于丹，陳永樂

李宇航，楊玉麗，馬垚，于丹，陳永樂*

（太原理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院（大數(shù)據(jù)學(xué)院），太原 030600）（ ? 通信作者電子郵箱chenyongle@tyut.edu.cn）

針對(duì)現(xiàn)有對(duì)抗樣本生成方法需要大量訪問目標(biāo)模型，導(dǎo)致攻擊效果較差的問題，提出了基于BERT （Bidirectional Encoder Representations from Transformers）模型的文本對(duì)抗樣本生成方法（TAEGM）。首先采用注意力機(jī)制，在不訪問目標(biāo)模型的情況下，定位顯著影響分類結(jié)果的關(guān)鍵單詞；其次通過BERT模型對(duì)關(guān)鍵單詞進(jìn)行單詞級(jí)擾動(dòng)，從而生成候選樣本；最后對(duì)候選樣本進(jìn)行聚類，并從對(duì)分類結(jié)果影響更大的簇中選擇對(duì)抗樣本。在Yelp Reviews、AG News和IMDB Review數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，相較于攻擊成功率（SR）次優(yōu)的對(duì)抗樣本生成方法CLARE（ContextuaLized AdversaRial Example generation model），TAEGM在保證對(duì)抗攻擊SR的前提下，對(duì)目標(biāo)模型的訪問次數(shù)（QC）平均減少了62.3%，時(shí)間平均減少了68.6%。在此基礎(chǔ)之上，進(jìn)一步的實(shí)驗(yàn)結(jié)果驗(yàn)證了TAEGM生成的對(duì)抗樣本不僅具有很好的遷移性，還可以通過對(duì)抗訓(xùn)練提升模型的魯棒性。

對(duì)抗樣本；注意力機(jī)制；BERT；對(duì)抗攻擊；聚類算法

0 引言

針對(duì)機(jī)器學(xué)習(xí)模型容易受到對(duì)抗樣本威脅的問題［1］，國內(nèi)外學(xué)者開展了關(guān)于對(duì)抗樣本生成技術(shù)的深入研究，并取得一系列的研究成果。目前的研究主要集中在圖像領(lǐng)域［2］，涉及文本領(lǐng)域的研究較少［3-4］。原因主要為以下兩方面：1）文本領(lǐng)域中單詞的離散屬性。與具備連續(xù)性的圖像空間不同，句子中的單詞是離散的，在圖像領(lǐng)域，像素級(jí)別的改變并不會(huì)影響圖片表達(dá)的意思；而在文本領(lǐng)域，任意單詞的替換卻會(huì)改變語句整體的含義。2）語法要求。單詞的改變可能會(huì)使修改后的語句出現(xiàn)語法錯(cuò)誤，使對(duì)抗樣本很容易被發(fā)現(xiàn)［5-6］。

目前，在文本領(lǐng)域中，典型的對(duì)抗技術(shù)為基于同義詞替換的單詞級(jí)對(duì)抗樣本生成技術(shù)。該技術(shù)是基于本地的打分函數(shù)，挑選出句子中對(duì)分類結(jié)果影響最大的關(guān)鍵單詞，通過處理這些關(guān)鍵單詞，產(chǎn)生單詞級(jí)別的擾動(dòng)生成對(duì)抗樣本。但是這種技術(shù)依然存在以下問題：1）在打分函數(shù)的處理過程中，需要將相關(guān)單詞替換為無意義的占位符標(biāo)簽，導(dǎo)致輸入文本的語義被改變，在此情況下，打分函數(shù)的輸出無法代表相關(guān)單詞的重要性［7］。2）打分函數(shù)的處理過程需要大量訪問目標(biāo)模型，但實(shí)際應(yīng)用中的模型，對(duì)訪問次數(shù)（Query Counts， QC）都有一定的限制，在此情況下，采用傳統(tǒng)方法攻擊這些模型會(huì)受到很大的限制，生成對(duì)抗樣本的效率會(huì)大幅降低。因此在保證攻擊成功率（Success Rate， SR）的前提下，減少對(duì)目標(biāo)模型的訪問次數(shù)是亟須解決的問題。

針對(duì)上述問題，本文提出一種基于BERT（Bidirectional Encoder Representations from Transformers）模型［8］的對(duì)抗樣本生成方法（Text Adversarial Examples Generation Method based on BERT model， TAEGM）。TAEGM采用了基于注意力機(jī)制的關(guān)鍵單詞定位技術(shù)，基于BERT模型的單詞級(jí)擾動(dòng)生成技術(shù)和基于聚類算法的候選樣本篩選技術(shù)，在保證對(duì)抗攻擊成功率的前提下，可以有效地減少對(duì)目標(biāo)模型的訪問次數(shù)。

1 相關(guān)工作

Kuleshov等［9］和Alzantot等［10］分別提出了基于貪婪搜索的同義詞替換攻擊算法，這種算法通過盡可能多地替換句子中單詞為它的同義詞，以生成對(duì)抗樣本；但是通過這種方法生成的對(duì)抗樣本的語義會(huì)發(fā)生較大的改變，也會(huì)產(chǎn)生語法錯(cuò)誤。在此基礎(chǔ)上，Ren等［11］提出了一種新型算法PWWS（Probability Weighted Word Saliency），該算法在選擇關(guān)鍵單詞時(shí)采用的打分函數(shù)［12］不僅考慮了單詞在句子中的重要程度，還考慮了原始輸入和對(duì)抗樣本對(duì)模型分類結(jié)果的影響，但算法生成的對(duì)抗樣本進(jìn)行攻擊的成功率較低。仝鑫等［13］提出了一種詞級(jí)黑盒對(duì)抗樣本生成方法CWordAttacker，該方法采用定向詞刪除評(píng)分機(jī)制，可完成定向和非定向兩種攻擊模式。Maheshwary等［14］提出了一種基于決策的攻擊策略，引入基于種群的優(yōu)化算法，進(jìn)一步提高了對(duì)抗樣本的質(zhì)量。雖然上述方法較好地提升生成效果，但在面對(duì)基于BERT的模型時(shí)依然存在有很大的改進(jìn)空間。因此，Li等［15］將BERT引入了基于同義詞替換的對(duì)抗樣本生成算法中，該算法在尋找單詞的同義詞時(shí)，通過BERT模型根據(jù)關(guān)鍵單詞的上下文生成最符合語法和語義的替代詞。然而上述方法都沒有很好地協(xié)調(diào)訪問模型次數(shù)和攻擊成功率之間的關(guān)系。

2 對(duì)抗樣本生成方法

2.1　TAEGM的框架

本文提出一種基于BERT模型的對(duì)抗樣本生成方法TAEGM，在保證攻擊成功率的前提下，顯著減少針對(duì)目標(biāo)模型的訪問次數(shù)。如圖1所示，TAEGM框架主要分為3部分：

1）關(guān)鍵單詞定位。使用BERT自帶的注意力矩陣，采用基于注意力機(jī)制的關(guān)鍵單詞定位技術(shù)，定位輸入文本中對(duì)分類影響最大的關(guān)鍵單詞。

2）生成單詞級(jí)擾動(dòng)。使用BERT模型生成上下文相關(guān)的單詞級(jí)擾動(dòng)，產(chǎn)生候選的對(duì)抗樣本。

3）對(duì)抗樣本生成。通過基于聚類算法的候選樣本篩選技術(shù)，縮小候選樣本的范圍，選擇對(duì)分類影響最大的簇，在該簇中挑選最終的對(duì)抗樣本。

圖1　對(duì)抗樣本生成示意圖

2.2　TAEGM具體流程

2.2.1關(guān)鍵單詞定位

為了得到高質(zhì)量的對(duì)抗樣本，必須對(duì)語句中的關(guān)鍵單詞或關(guān)鍵詞組擾動(dòng)。因此，本節(jié)聚焦于在不訪問目標(biāo)模型的情況下，通過注意力機(jī)制定位語句中的關(guān)鍵單詞。

最后，在得到文本中所有單詞的重要性分?jǐn)?shù)后，將分?jǐn)?shù)最大的前個(gè)單詞選為關(guān)鍵單詞。特別地，不是每次單獨(dú)給一個(gè)單詞打分，而是在一次遍歷中給所有的單詞打分。這樣就實(shí)現(xiàn)了在不需要訪問目標(biāo)模型的情況下，準(zhǔn)確定位關(guān)鍵單詞的位置，從而顯著減少對(duì)目標(biāo)模型的訪問。

另一方面，隨著的增大，對(duì)抗攻擊的成功率、對(duì)目標(biāo)模型的訪問次數(shù)也隨之增加，對(duì)抗樣本的語義相似度會(huì)下降，句子中改變的單詞數(shù)也會(huì)增加，這就導(dǎo)致攻擊效率下降和生成的對(duì)抗樣本質(zhì)量變差，所以的選擇需要在對(duì)抗攻擊的成功率與對(duì)抗樣本的質(zhì)量之間權(quán)衡。

2.2.2生成單詞級(jí)擾動(dòng)

因?yàn)殛P(guān)鍵單詞對(duì)模型分類的貢獻(xiàn)大于其他單詞，所以本文通過對(duì)它們進(jìn)一步處理，即對(duì)原始文本添加擾動(dòng)從而欺騙目標(biāo)模型。同時(shí)，為了生成高質(zhì)量的對(duì)抗樣本，保證對(duì)抗樣本在語義和視覺效果上和原始文本相似，本文采用單詞級(jí)的擾動(dòng)。單詞級(jí)的擾動(dòng)是指在不改變文本語義的情況下，將單詞替換為它在嵌入空間中距離最近的單詞，并且這種操作可以使得模型產(chǎn)生錯(cuò)誤的輸出。

在生成候選樣本后，使用語義過濾機(jī)制過濾與原始文本語義差異過大的候選樣本，減小候選樣本的范圍，如式（5）所示：

2.2.3對(duì)抗樣本生成

使用BERT對(duì)定位的關(guān)鍵單詞完成單詞級(jí)擾動(dòng)之后，會(huì)生成大量的候選樣本。檢驗(yàn)所有的候選樣本需要大量地訪問目標(biāo)模型，因此本節(jié)通過有效縮小候選樣本的范圍，進(jìn)一步提高算法的性能。

因?yàn)閷儆谕活惖木渥釉诟呔S的編碼空間中的距離很近，使得它們對(duì)模型分類結(jié)果造成的影響也很相似，所以可以使用聚類算法分類，將針對(duì)所有候選樣本的操作轉(zhuǎn)換為針對(duì)一個(gè)子集合的操作，從而顯著減少候選樣本的數(shù)量，減少針對(duì)目標(biāo)模型的訪問次數(shù)。

此外，每次需要處理的候選樣本數(shù)量只有幾千個(gè)，屬于樣本數(shù)較少的情況，傳統(tǒng)的-means++算法收斂快、可解釋性強(qiáng)，聚類效果較好，所以本文采用該算法聚類。

聚類候選樣本后，如果在每個(gè)簇中選擇具有代表性的樣本，需要處理不同簇中的所有候選樣本，這種方法雖然可以縮小候選樣本的范圍，但需要大量訪問目標(biāo)模型，導(dǎo)致算法性能下降。考慮到簇中所有樣本都可以對(duì)模型造成相似的影響，可以隨機(jī)選擇簇中的一個(gè)樣本代表整個(gè)簇，再通過打分函數(shù)選擇最優(yōu)的簇作為候選樣本集，該方法只需要很少地訪問目標(biāo)模型，就可以有效縮小候選樣本的范圍。通過實(shí)驗(yàn)可以發(fā)現(xiàn)，前一種方法所需要的訪問次數(shù)遠(yuǎn)多于后一種，并且兩種方法得到的候選樣本集合在實(shí)驗(yàn)中的效果很相似，因此本文選擇后一種方法。

最后，進(jìn)一步處理候選樣本，如果其中的樣本可以改變模型的輸出，則將它選為對(duì)抗樣本；如果不能改變，則重復(fù)上述步驟。通過上述步驟生成的對(duì)抗樣本可以大幅減少訪問模型的次數(shù)，并且每個(gè)關(guān)鍵單詞也只會(huì)進(jìn)行一種單詞級(jí)的擾動(dòng)，且不影響其他位置的操作。

與傳統(tǒng)的算法相比，TAEGM的優(yōu)勢主要體現(xiàn)在以下3方面：1）采用注意力機(jī)制，可以在不訪問目標(biāo)模型的情況下，準(zhǔn)確定位關(guān)鍵單詞的位置；2）通過BERT模型，在只改變關(guān)鍵單詞的情況下生成候選樣本；3）在處理候選樣本時(shí)，采用聚類技術(shù)聚類候選樣本，將針對(duì)所有候選樣本的操作轉(zhuǎn)換為針對(duì)一個(gè)樣本子集合的操作，再從中選擇最合適的樣本進(jìn)行后續(xù)的操作，顯著減少候選樣本的數(shù)量，從而減少了對(duì)目標(biāo)模型的訪問次數(shù)。TAEGM的具體實(shí)現(xiàn)過程如算法1所示。

算法1 TAEGM。

4） end for

11） end if

12） end for

18） end if

3 實(shí)驗(yàn)與結(jié)果分析

3.1　實(shí)驗(yàn)設(shè)置

3.1.1實(shí)驗(yàn)平臺(tái)及測試數(shù)據(jù)集

實(shí)驗(yàn)框架中采用的BERT版本是RoBERTa-distill［16］，RoBERTa-distill是RoBERTa［17］的蒸餾版本；語義過濾機(jī)制采用USE（Universal Sentence Encoder）［18］。

本文實(shí)驗(yàn)的服務(wù)器配置為內(nèi)存64 GB，機(jī)械硬盤1 TB，1塊32 GB顯存的HPE NVIDIA Tesla V100PCIe GPU和4塊Intel Xeon Gold 6226R CPU。

實(shí)驗(yàn)采用以下3個(gè)數(shù)據(jù)集，數(shù)據(jù)集的詳細(xì)信息如表1所示。

1）Yelp Reviews［19］。該數(shù)據(jù)集是一個(gè)二元情感分類的數(shù)據(jù)集，包含了正面和負(fù)面兩個(gè)標(biāo)簽。

2）AG News。該數(shù)據(jù)集包括超過2 000篇新聞源的新聞文章，數(shù)據(jù)集僅僅援用了標(biāo)題和描述字段。

3）IMDB Review［20］。該數(shù)據(jù)集包括50 000條情感二元分布的評(píng)論。

表1　三個(gè)數(shù)據(jù)集的詳細(xì)信息

3.1.2對(duì)比方法

本文的對(duì)比方法如下：

1）Textfooler［21］。該方法的評(píng)分函數(shù)會(huì)處理原始文本，通過刪掉單詞前后得到的分?jǐn)?shù)置信度的變化程度計(jì)算該單詞的重要程度，找出關(guān)鍵單詞，再將該關(guān)鍵詞替換為同義詞生成對(duì)抗樣本。

2）TextHoaxer［22］。在生成對(duì)抗樣本的過程中使用擾動(dòng)矩陣優(yōu)化框架，提高了生成對(duì)抗樣本的效率。

3）CLARE（ContextuaLized AdversaRial Example generation model）［23］。對(duì)文本中的單詞采用BERT模型生成擾動(dòng)，再通過訪問目標(biāo)模型確定對(duì)抗樣本是否合格。

3.1.3評(píng)價(jià)指標(biāo)

1）攻擊成功率（SR）。對(duì)抗樣本可以成功攻擊目標(biāo)模型的概率，如式（7）所示：

2）目標(biāo)模型的訪問次數(shù)（QC）：

5）生成1 000個(gè)對(duì)抗樣本消耗的時(shí)間。

6）精確率（ACCuraacy， ACC）：預(yù)測正確的樣本數(shù)占總樣本數(shù)的比例。計(jì)算公式如下：

以上各指標(biāo)中，SR、Sim、SCR和ACC的值越大性能越好；QC和時(shí)間越小，性能越好。

3.2　對(duì)比實(shí)驗(yàn)分析

實(shí)驗(yàn)采用將本文方法和3種對(duì)比方法，在Yelp Reviews、AG News和IMDB Review數(shù)據(jù)集上生成1 000個(gè)對(duì)抗樣本，攻擊BERT base-uncased的分類器，實(shí)驗(yàn)結(jié)果如表2所示。

從表2中可以看出，相較于其他對(duì)比方法，TAEGM具有最好的綜合性能。在Yelp Reviews數(shù)據(jù)集上，使用TAEGM進(jìn)行攻擊的SR達(dá)到了89.9%，相較于Textfooler、TextHoaxer和CLARE分別提高了15.6%、15.3%和14.2%；同時(shí)TAEGM的Sim和SCR也是所有算法中最優(yōu)的；而在QC和時(shí)間這兩項(xiàng)指標(biāo)上，TAEGM僅次于Textfooler?？梢钥闯?，TAEGM可以通過注意力機(jī)制，能夠準(zhǔn)確定位語句中的關(guān)鍵單詞并進(jìn)行處理，使得生成的對(duì)抗樣本具有很高的質(zhì)量。在AG New數(shù)據(jù)集上，TAEGM的SR、SCR和Sim全都優(yōu)于其他對(duì)比算法，并且QC和時(shí)間也是所有算法中的次優(yōu)結(jié)果。在IMDB Review數(shù)據(jù)集上，相較于CLARE，TAEGM的SR降低了1.0%，但是QC和時(shí)間降低了55.6%和62.9%，并且Sim和SCR達(dá)到了最優(yōu)結(jié)果。由此可以看出TAEGM通過聚類算法，可以在只使用較少Q(mào)C和時(shí)間的情況下高效地確定候選樣本，從而提高生成對(duì)抗樣本的效率。

從表2中還可以看出，在3個(gè)數(shù)據(jù)集上，Textfooler的QC和時(shí)間都少于TAEGM，這是因?yàn)門extfooler相當(dāng)于只使用了本文的BERT_Replace擾動(dòng)，最后得到候選樣本數(shù)較少，質(zhì)量較差，因此所需要的QC和Time也較少；但相應(yīng)地，Textfooler的攻擊效果弱于TAEGM。

表2　四種方法在3個(gè)數(shù)據(jù)集上進(jìn)行對(duì)抗攻擊的性能比較

注：加粗?jǐn)?shù)據(jù)為最優(yōu)值，下劃線數(shù)據(jù)為次優(yōu)值。

綜上所述，TAEGM具有所有算法中最好的綜合性能，相較于SR次優(yōu)的CLARE，TAEGM的QC平均減少了62.3%，時(shí)間平均減少了68.6%。

3.3　對(duì)抗樣本示例

表3展示了在Yelp Reviews數(shù)據(jù)集上TAEGM生成的對(duì)抗樣本。所有的原始文本都只需要非常小的擾動(dòng)就可以生成對(duì)抗樣本，從而誤導(dǎo)目標(biāo)模型BERT，使它輸出錯(cuò)誤的分類結(jié)果，并且對(duì)抗樣本和原始文本的語義非常相似。

表3　在BERT上利用TAEGM生成的對(duì)抗樣本展示

注：斜體表示TAEGM生成的3種擾動(dòng)；“（）”內(nèi)是原始文本；“【】”內(nèi)則標(biāo)注了進(jìn)行的擾動(dòng)。

4 綜合性能分析

4.1　超參數(shù)k對(duì)攻擊結(jié)果的影響

關(guān)鍵單詞范圍是算法中的主要參數(shù)，的選取對(duì)攻擊的結(jié)果具有很大的影響，因此，在3個(gè)數(shù)據(jù)集上分別生成150個(gè)對(duì)抗樣本進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如圖2所示。

圖2　關(guān)鍵單詞的范圍k對(duì)不同指標(biāo)的影響

由圖2（a）可知，SR先隨著的增大而迅速增大，當(dāng)>20后，SR的增長變慢，表明關(guān)鍵單詞的主要分布范圍為≤20。通常認(rèn)為隨著的增大，對(duì)抗樣本中發(fā)生改變的單詞數(shù)會(huì)增加，而文本的Sim也會(huì)大幅下降，但如圖2（b）～（c）所示，當(dāng)>20后，這兩個(gè)指標(biāo)都只發(fā)生了很小的改變。在Yelp Reviews數(shù)據(jù)集上，Sim保持在［0.781，0.787］，SCR也保持在［9.3，9.9］，說明此時(shí)選擇的關(guān)鍵單詞都很合理，所以Sim和SCR呈現(xiàn)趨于平緩的趨勢。從圖2（d）可知，QC與的取值正相關(guān)。綜上，通過圖2可知，當(dāng)=20時(shí)，在保證攻擊效率和對(duì)抗樣本質(zhì)量的情況下，TAEGM可以達(dá)到較高的攻擊成功率。

4.2　對(duì)抗樣本遷移性

本節(jié)采用了3個(gè)在Yelp Reviews數(shù)據(jù)集上訓(xùn)練的自然語言處理模型：TEXTCNN1、TEXTCNN2和BERT。其中：TEXTCNN1含有1個(gè)輸入層/3個(gè)并行的卷積層（卷積核大小分別為3、4、5）、3個(gè)并行的最大池化層和1個(gè)全連接層；TEXTCNN2相較于TEXTCNN1增加了1個(gè)全連接層。為了驗(yàn)證TAEGM生成的對(duì)抗樣本的遷移性，在Yelp Reviews數(shù)據(jù)集上，使用TAEGM和上述模型生成對(duì)抗樣本，再使用這些對(duì)抗樣本分別攻擊這3個(gè)模型，結(jié)果見表4。

從表4可以看出，由TEXTCNN1生成的對(duì)抗樣本，在攻擊TEXTCNN2和BERT模型的SR仍達(dá)到了68.7%和65.3%。而由BERT模型生成的對(duì)抗樣本，攻擊TEXTCNN1和TEXTCNN2模型時(shí)的SR仍然達(dá)到了74.6%和72.9%。這表明由TAEGM生成的對(duì)抗樣本可以在多個(gè)模型之間進(jìn)行遷移攻擊，具有一定的遷移性。

表4　在Yelp Reviews數(shù)據(jù)集上的遷移攻擊成功率單位：%

4.3　對(duì)抗訓(xùn)練

為了驗(yàn)證本文方法是否可以通過對(duì)抗訓(xùn)練提升模型的魯棒性。在3個(gè)數(shù)據(jù)集上通過將生成的對(duì)抗樣本加入訓(xùn)練集中，訓(xùn)練得到新的基于BERT base-uncased的分類器，其中由于Yelp Reviews數(shù)據(jù)集和AG News數(shù)據(jù)集較大，本文只選擇了其中一部分?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn)，表5為實(shí)驗(yàn)結(jié)果。

表5　TAEGM在3個(gè)數(shù)據(jù)集上對(duì)抗訓(xùn)練的結(jié)果

如表5所示，在Yelp Reviews數(shù)據(jù)集上訓(xùn)練模型時(shí)，在原始大小為124 000的訓(xùn)練集中加入2 500個(gè)對(duì)抗樣本，經(jīng)過對(duì)抗訓(xùn)練后得到模型的ACC為98.0%；接著使用TAEGM攻擊該模型，只實(shí)現(xiàn)53.7%的SR，遠(yuǎn)低于表2中的數(shù)據(jù)。而在AG News數(shù)據(jù)集和IMDB Review數(shù)據(jù)集上進(jìn)行對(duì)抗訓(xùn)練時(shí)，SR只有51.0%和52.5%?？梢钥闯瞿Ｐ褪褂肨AEGM生成的對(duì)抗樣本進(jìn)行對(duì)抗訓(xùn)練后，與表2相比可以有效降低攻擊的SR，這表明了對(duì)抗訓(xùn)練可以提高模型防御對(duì)抗樣本的能力，即有效提升了模型的魯棒性。

5 結(jié)語

本文提出了一種基于BERT模型的對(duì)抗樣本生成方法TAEGM。該方法首先通過注意力機(jī)制定位句子中的關(guān)鍵單詞，通過BERT在這些關(guān)鍵單詞的位置生成單詞級(jí)的擾動(dòng)，生成候選樣本；其次，通過聚類選擇對(duì)分類結(jié)果影響大的候選樣本，得到高質(zhì)量的對(duì)抗樣本。通過大量的實(shí)驗(yàn)結(jié)果表明了本文方法可以將降低訪問目標(biāo)模型的次數(shù)，同時(shí)具有較高的攻擊效率和攻擊成功率。此外，還驗(yàn)證了生成的對(duì)抗樣本不但具有很好的遷移性，還可以通過對(duì)抗訓(xùn)練的方式提升模型的魯棒性。在未來的工作中，需要進(jìn)一步改進(jìn)算法，使得針對(duì)目標(biāo)模型的訪問次數(shù)進(jìn)一步下降，同時(shí)可以對(duì)文本分類模型進(jìn)行定向攻擊，進(jìn)一步提升算法的性能和靈活性。

[1] PAPERNOT N， McDANIEL P， SWAMI A， et al. Crafting adversarial input sequences for recurrent neural networks［C］// Proceedings of the 2016 IEEE Military Communications Conference. Piscataway： IEEE， 2016： 49-54.

[2] SAMANGOUEI P， KABKAB M， CHELLAPPA R， et al. Defense-GAN： protecting classifiers against adversarial attacks using generative models［EB/OL］. （2018-05-18）［2022-07-13］.https：//arxiv.org/pdf/1805.06605.pdf.

[3] 潘文雯，王新宇，宋明黎，等. 對(duì)抗樣本生成技術(shù)綜述［J］. 軟件學(xué)報(bào)， 2020， 31（1）：67-81.（PAN W W， WANG X Y， SONG M L， et al. Survey on generating adversarial examples［J］. Journal of Software， 2020， 31（1）： 67-81.）

[4] 王文琦，汪潤，王麗娜，等. 面向中文文本傾向性分類的對(duì)抗樣本生成方法［J］. 軟件學(xué)報(bào)， 2019， 30（8）：2415-2427.（WANG W Q， WANG R， WANG L N， et al. Adversarial examples generation approach for tendency classification on Chinese texts［J］. Journal of Software， 2019， 30（8）： 2415-2427.）

[5] LI J， JI S， DU T， et al. TextBugger： generating adversarial text against real-world applications［C］// Proceedings of the 26th Annual Network and Distributed System Security Symposium. Reston， VA： Internet Society， 2019： No.23138.

[6] SONG L， YU X， PENG H T， et al. Universal adversarial attacks with natural triggers for text classification［C］// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA： ACL， 2021： 3724-3733.

[7] MAHESHWARY R， MAHESHWARY S， PUDI V. A strong baseline for query efficient attacks in a black box setting［C］// Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： ACL， 2021： 8396-8409.

[8] DEVLIN J， CHANG M W， LEE K， et al. BERT： pre-training of deep bidirectional Transformers for language understanding［C］// Proceedings of the2019 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies， Volume 1 （Long and Short Papers）. Stroudsburg， PA： ACL， 2019： 4171-4186.

[9] KULESHOV V， THAKOOR S， LAU T， et al. Adversarial examples for natural language classification problems［EB/OL］. ［2022-07-13］.https：//openreview.net/pdf？id=r1QZ3zbAZ.

[10] ALZANTOT M， SHARMA Y， ELGOHARY A， et al. Generating natural language adversarial examples［C］// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： ACL， 2018： 2890-2896.

[11] REN S， DENG Y， HE K， et al. Generating natural language adversarial examples through probability weighted word saliency［C］// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： ACL， 2019： 1085-1097.

[12] GARG S， RAMAKRISHNAN G. BAE： BERT-based adversarial examples for text classification［C］// Proceedings of the 2020 Conference on Empirical Methods in Natural. Stroudsburg， PA： ACL， 2020： 6174-6181.

[13] 仝鑫，王羅娜，王潤正，等. 面向中文文本分類的詞級(jí)對(duì)抗樣本生成方法［J］. 信息網(wǎng)絡(luò)安全， 2020， 20（9）：12-16.（TONG X， WANG L N， WANG R Z， et al. A generation method of word-level adversarial samples for Chinese text classification［J］. Netinfo Security， 2020， 20（9）：12-16.）

[14] MAHESHWARY R， MAHESHWARY S， PUDI V. Generating natural language attacks in a hard label black box setting［C］// Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2021： 13525-13533.

[15] LI L， MA R， GUO Q， et al. BERT-ATTACK： adversarial attack against BERT using BERT［C］// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： ACL， 2020： 6193-6202.

[16] MA X， ZHOU C， LI X， et al. FlowSeq： non-autoregressive conditional sequence generation with generative flow［C］// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg， PA： ACL， 2019： 4282-4292.

[17] LIU Y， OTT M， GOYAL N， et al. RoBERTa： a robustly optimized BERT pretraining approach［EB/OL］. （2019-07-26）［2022-07-13］.https：//arxiv.org/pdf/1907.11692.pdf.

[18] CER D， YANG Y， KONG S Y， et al. Universal sentence encoder for English［C］// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing： System Demonstrations. Stroudsburg， PA： ACL， 2018： 169-174.

[19] ZHANG X， ZHAO J， LeCUN Y. Character-level convolutional networks for text classification［C］// Proceedings of the 28th International Conference on Neural Information Processing Systems — Volume 1. Cambridge： MIT Press， 2015：649-657.

[20] MAAS A L， DALY R E， PHAM P T， et al. Learning word vectors for sentiment analysis［C］// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA： ACL， 2011：142-150.

[21] JIN D， JIN Z， ZHOU J T， et al. Is BERT really robust？ natural language attack on text classification and entailment［C］// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2020： 8018-8025.

[22] YE M， MIAO C， WANG T， et al. TextHoaxer： budgeted hard-label adversarial attacks on text［C］// Proceedings of the 36th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2022： 3877-3884.

[23] LI D， ZHANG Y， PENG H， et al. Contextualized perturbation for textual adversarial attack［C］// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA： ACL， 2020： 5053-5069.

Text adversarial example generation method based on BERT model

LI Yuhang， YANG Yuli， MA Yao， YU Dan， CHEN Yongle*

（（），，030600，）

Aiming at the problem that the existing adversarial example generation methods require a lot of queries to the target model， which leads to poor attack effects， a Text Adversarial Examples Generation Method based on BERT （Bidirectional Encoder Representations from Transformers） model （TAEGM） was proposed. Firstly， the attention mechanism was adopted to locate the keywords that significantly influence the classification results without query of the target model. Secondly， word-level perturbation of keywords was performed by BERT model to generate candidate adversarial examples. Finally， the candidate examples were clustered， and the adversarial examples were selected from the clusters that have more influence on the classification results. Experimental results on Yelp Reviews， AG News， and IMDB Review datasets show that compared to the suboptimal adversarial example generation method CLARE （ContextuaLized AdversaRial Example generation model） on Success Rate （SR）， TAEGM can reduce the Query Counts （QC） to the target model by 62.3% and time consumption by 68.6% averagely while ensuring the SR of adversarial attacks. Based on the above， further experimental results verify that the adversarial examples generated by TAEGM not only have good transferability， but also improve the robustness of the model through adversarial training.

adversarial example; attention mechanism; BERT (Bidirectional Encoder Representations from Transformers); adversarial attack; clustering algorithm

This work is partially supported by Basic Research Program of Shanxi Province （20210302123131， 20210302124395）.

LI Yuhang， born in 1998， M. S. candidate. His research interests include artificial intelligence.

YANG Yuli， born in 1979， Ph. D.， lecturer. Her research interests include trusted cloud service computing， blockchain.

MA Yao， born in 1982， Ph. D.， lecturer. His research interests include Web security.

YU Dan， born in 1988， Ph. D. Her research interests include wireless sensor network， internet of things.

CHEN Yongle， born in 1983， Ph. D.， professor. His research interests include internet of things security.

1001-9081（2023）10-3093-06

10.11772/j.issn.1001-9081.2022091468

2022?10?08；

2023?02?19；

山西省基礎(chǔ)研究計(jì)劃項(xiàng)目（20210302123131，20210302124395）。

李宇航（1998—），男，山西臨汾人，碩士研究生，CCF會(huì)員，主要研究方向：人工智能；楊玉麗（1979—），女，山西臨汾人，講師，博士，CCF會(huì)員，主要研究方向：可信云服務(wù)計(jì)算、區(qū)塊鏈；馬垚（1982—），男，山西太原人，講師，博士，CCF會(huì)員，主要研究方向：Web安全；于丹（1988—），女，北京人，博士，CCF會(huì)員，主要研究方向：無線傳感網(wǎng)絡(luò)、物聯(lián)網(wǎng)；陳永樂（1983—），男，山西太原人，教授，博士，CCF會(huì)員，主要研究方向：物聯(lián)網(wǎng)安全。

TP309

2023?02?23。

基于BERT模型的文本對(duì)抗樣本生成方法

0 引言

1 相關(guān)工作

2 對(duì)抗樣本生成方法

2.1 TAEGM的框架

2.2 TAEGM具體流程

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

3.2 對(duì)比實(shí)驗(yàn)分析

3.3 對(duì)抗樣本示例

4 綜合性能分析

4.1 超參數(shù)k對(duì)攻擊結(jié)果的影響

4.2 對(duì)抗樣本遷移性

4.3 對(duì)抗訓(xùn)練

5 結(jié)語

2.1　TAEGM的框架

2.2　TAEGM具體流程

3.1　實(shí)驗(yàn)設(shè)置

3.2　對(duì)比實(shí)驗(yàn)分析

3.3　對(duì)抗樣本示例

4.1　超參數(shù)k對(duì)攻擊結(jié)果的影響

4.2　對(duì)抗樣本遷移性

4.3　對(duì)抗訓(xùn)練