陳佳豪,白炳松,王冬華,嚴(yán)迪群,王讓定
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
深度學(xué)習(xí)的發(fā)展極大地改善了ASR的性能,使得端到端ASR操作性得到了提高.ASR系統(tǒng)接收語音,并將其翻譯成相應(yīng)的命令,使人們可以遠(yuǎn)程控制這些設(shè)備.由于該方法的便捷性和易操作性,ASR系統(tǒng)已被廣泛應(yīng)用于各種智能手機(jī)和家用設(shè)備.ASR系統(tǒng)正在影響和改變著人類與智能設(shè)備的交互方式.例如,人們能夠通過語音遠(yuǎn)程控制智能家居設(shè)備.正因其與日俱增的影響力,ASR系統(tǒng)的安全問題也引起了廣泛的關(guān)注.
盡管ASR系統(tǒng)已經(jīng)有了一定的發(fā)展基礎(chǔ),但也存在潛在的安全問題.基于深度學(xué)習(xí)的識(shí)別方法近期已被證明易受對(duì)抗樣本的攻擊.在正常語音中加入特定的噪聲,能夠使ASR系統(tǒng)產(chǎn)生惡意命令.盡管對(duì)抗樣本攻擊在圖像分類、圖像分割、目標(biāo)檢測(cè)等領(lǐng)域早已得到了廣泛研究,但語音領(lǐng)域的對(duì)抗樣本在近年才開始引起人們的關(guān)注.
攻擊者的目標(biāo)是產(chǎn)生既能夠使人類無法察覺,或僅被視為背景噪聲的對(duì)抗樣本,同時(shí)使得ASR系統(tǒng)識(shí)別錯(cuò)誤.圖1展示了原始語音輸入及其對(duì)抗樣本的輸出.Vaidya[1]最早提出了針對(duì)ASR系統(tǒng)的對(duì)抗攻擊方法.之后Carlini[2]對(duì)這種方法進(jìn)行了改進(jìn),使其能夠產(chǎn)生更強(qiáng)的攻擊效果.然而,他們是利用ASR系統(tǒng)的脆弱性來合成新的不可識(shí)別語音,而不是通過對(duì)原始語音的修改來達(dá)到攻擊效果.本文將討論面向ASR系統(tǒng)的對(duì)抗樣本攻擊及其防御策略,并給出當(dāng)前的對(duì)抗樣本所帶來的挑戰(zhàn).
本文討論并總結(jié)了語音對(duì)抗樣本的生成方法及相應(yīng)的防御策略.與已有的綜述[3]相比,本文提出了更詳細(xì)的分類方法,并介紹了語音對(duì)抗樣本方向的最新工作.本文的主要貢獻(xiàn):1)根據(jù)對(duì)抗樣本的攻擊模式、擾動(dòng)模式和基準(zhǔn),提出了相應(yīng)的分類方法.2)通過對(duì)現(xiàn)有工作簡(jiǎn)要回顧,介紹了對(duì)抗樣本在ASR系統(tǒng)中的發(fā)展.3)討論語音對(duì)抗樣本領(lǐng)域中的挑戰(zhàn),并提出了幾個(gè)有價(jià)值的研究方向.
圖1 語音對(duì)抗樣本示意Fig.1 Illustration of speech adversarial sample attack
在本節(jié)中,本文首先對(duì)ASR根據(jù)識(shí)別模型進(jìn)行了簡(jiǎn)單分類,之后回顧目前較為先進(jìn)的語音識(shí)別系統(tǒng)的工作原理,給出了語音對(duì)抗樣本的生成過程.
自動(dòng)語音識(shí)別(ASR):即給定一段語音,輸出對(duì)應(yīng)的語言文字序列.該技術(shù)發(fā)展已久,從早期的混合模型到后來如Attention等各類深度模型在語音識(shí)別領(lǐng)域的應(yīng)用.按照發(fā)展階段來看,可以分為傳統(tǒng)模型,基于時(shí)序分類(CTC)的模型,Transducer模型,基于Attention的模型.傳統(tǒng)模型即基于傳統(tǒng)機(jī)器學(xué)習(xí)算法如早期的GMM/HMM,隨著深度學(xué)習(xí)的發(fā)展可以用深度神經(jīng)網(wǎng)絡(luò)替換GMM即DNN-HMM模型隨之產(chǎn)生.而CTC則進(jìn)一步取代HMM來處理該問題.Transducer則解決了單個(gè)發(fā)音對(duì)多個(gè)輸出的問題,此后基于Attention的模型由于全局處理能力較強(qiáng)取代了之前的大部分模型,成為當(dāng)前的研究主流方向.
考慮到ASR系統(tǒng)的普及性,這里主要介紹了兩種目前較為先進(jìn)的基于深度學(xué)習(xí)技術(shù)的ASR系統(tǒng):Kaldi和DeepSpeech.這兩種系統(tǒng)廣泛應(yīng)用于商業(yè)應(yīng)用,因此也更適合作為研究的受害者模型.
2.2.1 Kaldi
Kaldi[6]是一個(gè)非常普及的開源語音識(shí)別工具包.它是基于DNN-HMM的模型,能夠?yàn)锳SR系統(tǒng)提供各類先進(jìn)的算法,在GitHub[注]https://github.com/kaldi-asr/kaldi有8600多顆星.該工具包用C++編寫,并在GitHub保持更新.多項(xiàng)研究表明Kaldi在商業(yè)場(chǎng)景中應(yīng)用廣泛,如Amazon Echo[7]、IBM[4]、Microsoft[5]等.系統(tǒng)實(shí)現(xiàn)主要包括3個(gè)步驟:特性提取、深度神經(jīng)網(wǎng)絡(luò)(DNN)訓(xùn)練和解碼.第1步是從原始語音中提取梅爾倒譜系數(shù)(MFCC,Mel Frequency Cepstral Coefficients)或感知線性預(yù)測(cè)系數(shù)(Perceptual Linear Predictive)等聲學(xué)特征.然后將這些特征輸入到訓(xùn)練好的DNN中,計(jì)算后驗(yàn)概率矩陣.最后利用靜態(tài)解碼圖對(duì)后驗(yàn)概率矩陣進(jìn)行解碼,并找到出現(xiàn)可能性最大的詞序列.
2.2.2 DeepSpeech
DeepSpeech[8]是一個(gè)開源的能夠?qū)崿F(xiàn)語音到文本的引擎.它使用了基于Mozilla[注]https://github.com/mozilla/DeepSpeech的訓(xùn)練模型,這個(gè)工作在GitHub已經(jīng)有超過13600顆星.DeepSpeech的開發(fā)者聲稱,百度將把DeepSpeech與自動(dòng)駕駛、CoolBox以及可穿戴設(shè)備相結(jié)合[9].圖2展示了系統(tǒng)實(shí)現(xiàn)的主要過程,包括特征提取和模型推斷.DeepSpeech的輸入是從原始語音中提取的聲學(xué)特征如MFCC.將聲學(xué)特征輸入到一個(gè)使用連接時(shí)序分類(CTC,Connectionist Temporal Classification)損失的多層雙向模型中[10],
圖2 DeepSpeech系統(tǒng)示意Fig.2 Illustration of DeepSpeech system
為聲學(xué)特征的每一幀生成一個(gè)字符水平的概率.最后將模型輸出解碼并得到詞序列.
為了系統(tǒng)地分析現(xiàn)有的對(duì)抗樣本,本文將從攻擊模式、擾動(dòng)模式和評(píng)估基準(zhǔn)3個(gè)方面來討論語音對(duì)抗樣本的分類方法.分類結(jié)果見表1.
表1 語音對(duì)抗樣本分類Table 1 Taxonomy of the speech adversarial examples
對(duì)抗樣本的攻擊模式有很多種分類,按攻擊者是否知曉目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù),可以將對(duì)抗攻擊分為白盒攻擊和黑盒攻擊.其中白盒攻擊場(chǎng)景下,假設(shè)攻擊者可以獲得目標(biāo)網(wǎng)絡(luò),它允許攻擊方使用目標(biāo)模型的信息,包括訓(xùn)練數(shù)據(jù),模型架構(gòu),超參數(shù)和模型權(quán)重等.而黑盒攻擊時(shí),則假設(shè)攻擊者不能訪問目標(biāo)網(wǎng)絡(luò).攻擊方和普通用戶一樣,只知道目標(biāo)模型輸出.
另一方面,按照目標(biāo)網(wǎng)絡(luò)最終得到的分類結(jié)果是否是攻擊者預(yù)先設(shè)計(jì)的,可以將對(duì)抗攻擊分為非目標(biāo)攻擊和目標(biāo)攻擊.其中非目標(biāo)攻擊對(duì)輸出沒有特定要求,可以是除正確結(jié)果以外的任意值.它有更多的選擇和空間來使系統(tǒng)識(shí)別錯(cuò)誤.這種攻擊通常會(huì)最大化生成的樣本與原始樣本之間識(shí)別結(jié)果距離.而目標(biāo)攻擊則能夠使識(shí)別系統(tǒng)輸出攻擊者指定目標(biāo),因而更具有現(xiàn)實(shí)意義和挑戰(zhàn)性,尤其是對(duì)ASR的攻擊,因?yàn)樗枰淖冏R(shí)別結(jié)果.這種攻擊通常會(huì)最小化生成樣本與原始樣本之間識(shí)別結(jié)果的距離.
ASR系統(tǒng)任務(wù)的對(duì)抗樣本可描述如下:使用一個(gè)訓(xùn)練好的ASR系統(tǒng),用戶輸入一段語音來獲得識(shí)別結(jié)果.在原始語音中加入微小的擾動(dòng)就會(huì)導(dǎo)致ASR系統(tǒng)識(shí)別錯(cuò)誤.給定一個(gè)訓(xùn)練好的ASR系統(tǒng)f和一個(gè)原始語音樣本x,生成對(duì)抗樣本xadv.因此,該問題可以描述為一個(gè)優(yōu)化問題.
min‖δ‖
s.t.f(x+δ)=t′
f(x)=t
t≠t′
(1)
其中δ表示擾動(dòng),t和t′分別表示x和xadv的識(shí)別結(jié)果,‖·‖表示原始語音其對(duì)抗樣本之間的距離.這個(gè)優(yōu)化模型能夠使系統(tǒng)識(shí)別錯(cuò)誤的同時(shí)最小化擾動(dòng).
刻意生成的擾動(dòng)能夠確保對(duì)抗樣本可以欺騙目標(biāo)模型,但人類卻無法察覺.針對(duì)不同的擾動(dòng)產(chǎn)生方法,本文將從擾動(dòng)產(chǎn)生、擾動(dòng)作用范圍等方面進(jìn)行分析.
基于梯度符號(hào)的擾動(dòng)生成方法,最早在圖像對(duì)抗樣本中提出[11-15].隨后被證明在語音對(duì)抗樣本中也是有效的.這類攻擊利用梯度信息來生成對(duì)抗樣本,將梯度損失視為擾動(dòng)并作為原始輸入.而基于目標(biāo)優(yōu)化的生成方法將生成擾動(dòng)作為一個(gè)優(yōu)化問題,通過最小化目標(biāo)函數(shù)來獲得最佳擾動(dòng).基于進(jìn)化算法的生成方法利用了自由梯度的優(yōu)勢(shì),使得ASR系統(tǒng)攻擊更加可操作.
就擾動(dòng)攻擊范圍而言,單一擾動(dòng)攻擊會(huì)對(duì)每個(gè)輸入產(chǎn)生一個(gè)單獨(dú)的擾動(dòng),而通用擾動(dòng)攻擊則是對(duì)整個(gè)數(shù)據(jù)集生成一個(gè)通用的擾動(dòng),可以添加到任意良性語音輸入中.現(xiàn)有的攻擊大多為單一擾動(dòng)攻擊.然而,通用對(duì)抗擾動(dòng)適用于任意語音輸入.在更改輸入時(shí)也無需更改擾動(dòng),因此它們?cè)诂F(xiàn)實(shí)場(chǎng)景中更容易部署.
最后,從擾動(dòng)攻擊的目標(biāo)來看,聲學(xué)特征擾動(dòng)是將聲學(xué)特征作為目標(biāo).這類方法需要考慮重構(gòu)聲學(xué)特征對(duì)語音波形的重構(gòu)損失.原始語音擾動(dòng)則是把原始語音信號(hào)的時(shí)域采樣值作為擾動(dòng)目標(biāo).目的是最小化擾動(dòng),使得人毫無察覺的同時(shí)欺騙ASR系統(tǒng).
對(duì)于模型的評(píng)估有助于統(tǒng)一模型的優(yōu)劣.一般對(duì)抗樣本的效果評(píng)估可以從多個(gè)方向進(jìn)行,包括識(shí)別結(jié)果的統(tǒng)計(jì)測(cè)量、擾動(dòng)感知測(cè)量和播放方式等.統(tǒng)計(jì)測(cè)量可以分為攻擊性能測(cè)量和語音失真測(cè)量.攻擊性能包括編輯距離、字符錯(cuò)誤率(CER)、單詞錯(cuò)誤率(WER)、攻擊成功率(Success rate).失真測(cè)量包括信噪比(SNR)和語音質(zhì)量感知評(píng)估(PESQ).物理感知測(cè)量語音的感知質(zhì)量,即真人測(cè)試,包括AMT(Advanced Manufacturing Technology),ABX(Automatic Branch Exchange)測(cè)試等.另外,Over-the-Air則是測(cè)量當(dāng)樣本在由播放器或錄制設(shè)備播放時(shí),對(duì)抗樣本是否能保持攻擊效果.這是對(duì)攻擊的魯棒性和實(shí)用性的重要評(píng)估.
攻擊者對(duì)其方法在不同數(shù)據(jù)集和目標(biāo)模型上的有效性進(jìn)行評(píng)估,這使得難以評(píng)估這些方法的有效性和聲學(xué)模型的魯棒性.前沿ASR系統(tǒng)和語音數(shù)據(jù)集使攻擊難以得到較好的效果.因此,有必要對(duì)現(xiàn)有攻擊中使用的受害者模型和數(shù)據(jù)集進(jìn)行一些討論.
1)受害者模型:通常選擇已有的主流聲學(xué)模型作為目標(biāo)模型.聲學(xué)模型可以分為分類模型和識(shí)別模型.分類模型一般為基于CNN(Convolutional Neural Networks)的模型.識(shí)別模型包括DeepSpeech、Kaldi、Lingvo[27]等.
2)數(shù)據(jù)集:根據(jù)不同的目標(biāo)模型,選擇公開的主流數(shù)據(jù)集來評(píng)估攻擊性能.包括但不限于:MCVD[注]https://voice.mozilla.org/en,Speech Command Dataset(SCD)[注]http://download. tensorflow. org/data/speech,Librispeech[16],IEMOCAP[17]等.
在本節(jié)中,本文將針對(duì)單一對(duì)抗擾動(dòng)和通用對(duì)抗擾動(dòng)分析現(xiàn)有的方法.其中單一擾動(dòng)包括基于目標(biāo)優(yōu)化的方法、基于進(jìn)化算法的方法和基于梯度符號(hào)的方法.
單一對(duì)抗擾動(dòng)是目前研究的主要方向,它對(duì)每一個(gè)輸入語音都單獨(dú)產(chǎn)生對(duì)抗擾動(dòng).當(dāng)前基于目標(biāo)優(yōu)化、梯度符號(hào)和基于進(jìn)化算法的對(duì)抗樣本方法基本上都屬于這一類.
4.1.1 基于目標(biāo)優(yōu)化的對(duì)抗樣本生成方法
該優(yōu)化方法的目標(biāo)是最小化擾動(dòng),使得識(shí)別錯(cuò)誤的同時(shí)人卻不能察覺.因此,這種方法通常有兩個(gè)優(yōu)化目標(biāo):較小的擾動(dòng)量和較高的攻擊成功率.通過最小化以上兩個(gè)目標(biāo)損失來獲得擾動(dòng).
Vaidya[1]等人提出第一個(gè)生成語音對(duì)抗樣本的方法.他們對(duì)MFCC提取的參數(shù)進(jìn)行微調(diào),直到能夠被ASR系統(tǒng)錯(cuò)誤識(shí)別,然后將MFCC特征重構(gòu)回語音.2016年,Carlini[2]等人對(duì)Vaidya的工作進(jìn)行了改進(jìn),提出了Hidden Voice Command.通過考慮更實(shí)際的場(chǎng)景和背景噪聲,提高了攻擊的效率和實(shí)用性.同時(shí),生成的語音對(duì)抗樣本中的擾動(dòng)被人們看作是隨機(jī)噪聲.
為了解決Hidden Voice Command中語音感知質(zhì)量差的問題,2017年,Zhang等人提出DolphinAttack[18],利用麥克風(fēng)的漏洞對(duì)超聲波語音命令進(jìn)行調(diào)制.他們通過在真實(shí)場(chǎng)景中對(duì)幾個(gè)ASR系統(tǒng)進(jìn)行攻擊(如Siri和Google Now)來評(píng)估該方法.結(jié)果表明,該方法生成的對(duì)抗樣本能夠成功攻擊ASR系統(tǒng),但人卻無法聽到語音.他們只關(guān)注硬件的特性,而不直接修改原始語音,這使得他們的方法難以復(fù)現(xiàn).
與上一種方法不同,2018年,Yuan[19]將惡意命令注入音樂中.為了實(shí)現(xiàn)效果,他們提出了新的目標(biāo)優(yōu)化方法CommanderSong.與現(xiàn)有的直接修改原始語音的方法相比,由于音樂的普遍性,它們選擇了歌曲片段作為命令語音的載體,使得生成的對(duì)抗樣本難以被人識(shí)別.此外,他們通過硬件設(shè)備噪聲實(shí)現(xiàn)噪聲模型產(chǎn)生的對(duì)抗樣本,使得他們的方法可以實(shí)現(xiàn)Over-the-Air攻擊.實(shí)驗(yàn)表明,該方法對(duì)Kaldi的攻擊成功率達(dá)到100%,驗(yàn)證了噪聲模型的有效性.然而,該方法中使用的噪聲模型僅適用于特定設(shè)備,而且攻擊必須近距離操作.
Cisse等人[20]提出了Houdini方法,能夠攻擊一系列不同的應(yīng)用,如語音識(shí)別、姿態(tài)估計(jì)和語義分割.為了使用Houdini攻擊端到端ASR模型,他們首先得到目標(biāo)值和當(dāng)前預(yù)測(cè)值之間的損失,然后使用前向-后向算法找到對(duì)抗樣本.他們的方法成功地使DeepSpeech2[21]在Librispeech數(shù)據(jù)集上達(dá)到了12%的單詞錯(cuò)誤率和1.5%的字符錯(cuò)誤率.他們還評(píng)估了用DeepSpeech2生成的對(duì)抗樣本對(duì)Google Voice模型的黑盒攻擊效果.遺憾的是,該方法生成的擾動(dòng)并沒有被深入地研究.
Iter等人[22]利用訓(xùn)練好的WaveNet模型來修改MFCC特征,從而生成對(duì)抗樣本.他們將快速梯度法(FGSM)和欺騙梯度法相結(jié)合,迭代生成MFCC的對(duì)抗擾動(dòng),并將擾動(dòng)后的MFCC反變換為語音.他們證明,盡管MFCC重構(gòu)是有損耗的,但產(chǎn)生的語音對(duì)抗樣本與原始語音具有一致性.
Abdullah[23]提出了一種利用信號(hào)處理算法的新型攻擊方法.他們?cè)O(shè)計(jì)了一個(gè)擾動(dòng)引擎,可以產(chǎn)生4類擾動(dòng),并且可以根據(jù)選定的參數(shù)來產(chǎn)生對(duì)抗樣本,包括語音、高頻強(qiáng)度和窗口大小.他們分別評(píng)估了他們對(duì)12種識(shí)別模型的攻擊效果,包括在線語音識(shí)別模型和離線語音識(shí)別模型(如Google Speech Ai,DeepSpeech等).但是,他們沒有給出生成對(duì)抗樣本的參數(shù)選擇策略.盡管他們的方法能夠成功地攻擊目標(biāo)模型,但是生成的對(duì)抗樣本的語音感知質(zhì)量并不好.
Carlini等人[24]提出了一種基于迭代優(yōu)化的方法,通過對(duì)原始語音波形進(jìn)行優(yōu)化并修改來生成對(duì)抗樣本.他們提出的新方法能夠確保整個(gè)ASR系統(tǒng)實(shí)現(xiàn)快速收斂,同時(shí)改進(jìn)的損失函數(shù)能夠確保更低的擾動(dòng)幅度.實(shí)驗(yàn)結(jié)果表明,該方法對(duì)DeepSpeech的攻擊成功率達(dá)到了100%,而原始語音與對(duì)抗樣本的相似度達(dá)到了99%.他們證明了目標(biāo)攻擊的確存在于語音領(lǐng)域.然而,攻擊者能夠訪問目標(biāo)模型的假設(shè)在實(shí)際場(chǎng)景種往往是不合理的,另外該方法也沒有對(duì)Over-the-Air攻擊進(jìn)行研究.
為了實(shí)現(xiàn)Over-The-Air攻擊,Yakura等人[25]提出了一種新的攻擊方法.他們將真實(shí)場(chǎng)景中的語音回放整合到生成過程中,以獲得一個(gè)更健壯的對(duì)抗樣本,并提出了3種技術(shù):帶通濾波器、脈沖響應(yīng)和高斯白噪聲.實(shí)驗(yàn)表明,該方法在Over-the-Air攻擊中達(dá)到100%的攻擊成功率.然而,構(gòu)造單個(gè)對(duì)抗樣本的計(jì)算效率相對(duì)較低.此外,該方法的有效性還需要在不同的語音數(shù)據(jù)集和其他目標(biāo)文本上進(jìn)行驗(yàn)證.
為了實(shí)現(xiàn)Over-The-Air攻擊,Schonherr等人[7,28]引入了一種基于心理聲學(xué)的新方法來生成針對(duì)Kaldi的對(duì)抗樣本.在文獻(xiàn)[8]中,他們將對(duì)抗擾動(dòng)限制在原始語音的聽覺掩蔽閾值以下,并利用反向傳播算法尋找最小擾動(dòng),以確保生成對(duì)抗樣本的噪聲最小.為了生成對(duì)抗樣本,不同的語音載體(例如對(duì)話和音樂)都進(jìn)行了研究.結(jié)果表明,原始語音的選擇對(duì)對(duì)抗樣本的質(zhì)量有很大的影響.在后來的工作[28]中,他們將心理聲學(xué)和空間脈沖響應(yīng)(RIR)模擬器結(jié)合起來,生成了具有魯棒性的對(duì)抗樣本.與現(xiàn)有Over-the-Air攻擊相關(guān)的研究[2,7,24,26]僅在一個(gè)特定的靜態(tài)房間設(shè)置下有效,或者在不同環(huán)境下就無法攻擊物理ASR系統(tǒng)不同的是,作者使用了RIR發(fā)生器來保證在不同的空間中攻擊都能保持有效性.然而,作者并沒有對(duì)擾動(dòng)的大小進(jìn)行研究.而且,在真實(shí)場(chǎng)景下得到關(guān)于目標(biāo)網(wǎng)絡(luò)的信息也是不現(xiàn)實(shí)的.
受文獻(xiàn)[8]的啟發(fā),Carlini的團(tuán)隊(duì)[26]利用聽覺掩蔽原理生成了對(duì)抗樣本.選取聽覺掩蔽閾值以下的部分進(jìn)行擾動(dòng),使擾動(dòng)對(duì)人不敏感.他們將優(yōu)化分為兩個(gè)階段:1)尋找一個(gè)擾動(dòng)來欺騙目標(biāo)網(wǎng)絡(luò);2)優(yōu)化擾動(dòng)以確保人類難以察覺.他們還引入環(huán)境噪聲,使他們的方法在Over-the-Air攻擊中也同樣有效.生成的對(duì)抗樣本在Lingvo[27]分類器上對(duì)任意長(zhǎng)度的目標(biāo)文本實(shí)現(xiàn)了100%的攻擊成功率.然而,他們能夠訪問目標(biāo)網(wǎng)絡(luò)的假設(shè)同樣是不現(xiàn)實(shí)的.
受文獻(xiàn)[7,26]的啟發(fā),Szurley等人[29]提出了一種基于心理聲學(xué)的優(yōu)化方法.他們通過設(shè)計(jì)基于心理聲學(xué)特性的損失函數(shù)和自動(dòng)生成空間脈沖響應(yīng),生成魯棒對(duì)抗樣本.然后采用投影梯度下降法(PGD)求解優(yōu)化問題.實(shí)驗(yàn)結(jié)果表明,該方法達(dá)到了100%的攻擊成功率.然而,他們并沒有研究對(duì)抗攻擊的可轉(zhuǎn)移性.
在最新的對(duì)ASR攻擊的研究中,Liu等人[30]中提出了一種改進(jìn)的對(duì)抗攻擊方法,包括采樣擾動(dòng)技術(shù)(SPT)和加權(quán)擾動(dòng)技術(shù)(WPT).SPT減少了語音信號(hào)中的擾動(dòng)數(shù),減少了樣本生成過程中的計(jì)算資源和時(shí)間開銷.該方法分為兩步:1)通過增加語音序列定位模型中關(guān)鍵點(diǎn)的權(quán)重來降低時(shí)間開銷;2)利用梯度法求精確的擾動(dòng).此外,他們還研究了哪些度量可以使生成的對(duì)抗樣本有更強(qiáng)的魯棒性.實(shí)驗(yàn)表明,該方法在較少的擾動(dòng)和計(jì)算資源的情況下,達(dá)到了100%的攻擊成功率.然而,他們沒有對(duì)Over-the-Air攻擊的影響進(jìn)行研究.
考慮到現(xiàn)實(shí)的場(chǎng)景,例如,在軍事環(huán)境中使用對(duì)抗樣本來欺騙敵人的竊聽裝置,同時(shí)被己方的竊聽裝置正確地識(shí)別.Kwon等人[31]提出了一個(gè)選擇性語音對(duì)抗樣本,被攻擊的ASR系統(tǒng)會(huì)將其解釋為目標(biāo)文本,但被保護(hù)的分類器正確地將其解釋為原始文本.他們利用分貝水平損失來衡量原始語音樣本和生成對(duì)抗樣本之間的失真.該問題可以利用受害者模型當(dāng)前預(yù)測(cè)和目標(biāo)值之間的識(shí)別距離以及保護(hù)模型的原始值和當(dāng)前預(yù)測(cè)之間的識(shí)別損失來解決.所生成的語音對(duì)抗樣本在DeepSpeech上的攻擊成功率為91.67%,保護(hù)正確率為85.67%.需要注意的是,受害者模型和被保護(hù)模型應(yīng)該滿足相同的結(jié)構(gòu),參數(shù)不同.評(píng)估中使用的受害者模型和受保護(hù)模型的體系結(jié)構(gòu)是相同的.但他們的方法在受害者模型和受保護(hù)模型之間的不同體系結(jié)構(gòu)上的性能可能還需要進(jìn)一步研究.
4.1.2 基于梯度符號(hào)的對(duì)抗樣本生成方法
基于符號(hào)梯度方法主要是利用了模型的梯度信息來生成擾動(dòng),通過梯度符號(hào)的反向來迭代,使得識(shí)別準(zhǔn)確率降低.
在快速梯度符號(hào)法(FGSM)中,可以獲取并利用目標(biāo)模型的信息來生成對(duì)抗樣本.對(duì)于一段語音,F(xiàn)GSM利用輸入語音的損失梯度,并通過目標(biāo)模型和目標(biāo)標(biāo)簽的預(yù)測(cè)計(jì)算使得損失最小來獲得一個(gè)新語音.該方法最大的優(yōu)點(diǎn)是生成對(duì)抗樣本的時(shí)間成本很低,因?yàn)樗鼉H需要幾次迭代即可生成目標(biāo)要求的擾動(dòng).Gong等人[36]首次提出了基于梯度符號(hào)的方法,通過直接修改原始語音波形生成語音對(duì)抗樣本.他們使用卷積層代替循環(huán)層來解決消失梯度問題.對(duì)3種不同語音識(shí)別模型的評(píng)價(jià)結(jié)果表明,在擾動(dòng)因子為0.032的情況下,識(shí)別錯(cuò)誤率提高了約30%.然而,知道目標(biāo)模型在實(shí)際場(chǎng)景中是不現(xiàn)實(shí)的,并且對(duì)抗樣本的可轉(zhuǎn)移性也是未知的.
與語音識(shí)別系統(tǒng)相比,Kreuk等人[37]提出一種攻擊方法來欺騙說話人驗(yàn)證系統(tǒng).他們利用梯度符號(hào)來干擾聲學(xué)特征(如MFCC),然后將聲學(xué)特征重構(gòu)為語音波形,生成對(duì)抗樣本.將假陽性率提高到近90%.然而,對(duì)目標(biāo)網(wǎng)絡(luò)有充分的了解是不現(xiàn)實(shí)的,同時(shí)也沒有研究擾動(dòng)的大小.
4.1.3 基于進(jìn)化算法的對(duì)抗樣本生成方法
與前兩類方法相比,基于進(jìn)化算法的方法是一種無梯度的方法.它不需要目標(biāo)模型的信息,因此使對(duì)ASR進(jìn)行黑盒攻擊成為可能,這也是這類方法的優(yōu)點(diǎn).Alzantot等人[38]提出了第一種基于遺傳算法生成語音對(duì)抗樣本的方法.首先,他們通過只向給定的語音片段的最低有效位添加噪聲,來初始化候選對(duì)抗樣本的總體;然后,通過選擇、交叉和變異等方法,獲取候選樣本中適應(yīng)度得分較高的個(gè)體,使之成為下一代.他們的攻擊在目標(biāo)模型達(dá)到87%的成功率,并且能使89%的測(cè)試者對(duì)添加的噪聲無察覺.然而,他們的方法只在單個(gè)詞的語音和基于CNN的語音分類網(wǎng)絡(luò)上有效,對(duì)于攻擊ASR系統(tǒng)是否有效還有待進(jìn)一步研究.
和在單詞數(shù)據(jù)集[38]上的攻擊語音分類相比,Taori等人[39]將Alzantot等人[38]的方法擴(kuò)展到更長(zhǎng)的短語和語句數(shù)據(jù)集.他們將遺傳算法和梯度估計(jì)相結(jié)合,提出了一種改進(jìn)的黑盒對(duì)抗樣本生成方法.他們使用遺傳算法在候選群體中探索合適的樣本,并當(dāng)對(duì)抗的樣本接近它的目標(biāo)時(shí),使用梯度估計(jì)來發(fā)現(xiàn)更多的特殊噪聲.動(dòng)量變異具有收斂性好、可提高變異速率等優(yōu)點(diǎn),可以替代傳統(tǒng)變異方法.原始樣本與生成樣本之間的聲學(xué)相似度可達(dá)到89.25%,并且迭代次數(shù)越多,相似度越高.然而,他們的方法在攻擊DeepSpeech模型時(shí)攻擊成功率只能達(dá)到35%.
Khare等人[40]提出了一種基于多目標(biāo)進(jìn)化算法的對(duì)抗樣本生成方法.他們的目的是在增加ASR系統(tǒng)誤差的同時(shí),產(chǎn)生聲學(xué)相似度更高的樣本.首先,他們將最小化原始樣本與生成樣本之間的MFCC歐氏距離,減小原始樣本與生成樣本識(shí)別文本之間的編輯距離作為目標(biāo).其次,在原始語音信號(hào)中加入隨機(jī)的均勻噪聲來初始化種群,然后計(jì)算每個(gè)種群候選的兩個(gè)目標(biāo)的適應(yīng)度分?jǐn)?shù).在得分較高的樣本中,優(yōu)先選擇利用各種選擇方案進(jìn)行交配選擇,其次是交叉和變異.結(jié)果顯示,在保持輸入對(duì)抗樣本和原始樣本與生成樣本的聲學(xué)相似度良好的情況下,DeepSpeech和Kaldi的單詞錯(cuò)誤率(WER)有所增加(分別為0.98、0.97).然而,生成的對(duì)抗樣本能否成功地識(shí)別為目標(biāo)文本,有待進(jìn)一步研究.
與此同時(shí),Du等人[9]提出了一種基于粒子群優(yōu)化(PSO)的新方法,稱為SirenAttack.在白盒攻擊時(shí),他們利用粒子群算法搜索粗粒度噪聲,并利用欺騙梯度法,通過對(duì)粗粒度噪聲的輕微修正找到精確的對(duì)抗噪聲;而在黑盒攻擊場(chǎng)景中,只使用粒子群算法來尋找精確的對(duì)抗噪聲.使用最先進(jìn)的基于深度學(xué)習(xí)的ASR系統(tǒng)進(jìn)行方法評(píng)估,結(jié)果表明,他們的方法在IEMOCAP數(shù)據(jù)集上對(duì)ResNet18[41]模型的攻擊成功率達(dá)到99.45%.此外,生成的對(duì)抗樣本也能欺騙在線ASR系統(tǒng)(如Google Cloud Speech).然而,他們只評(píng)估了黑盒攻擊場(chǎng)景下,由單個(gè)單詞語音組成的語音命令數(shù)據(jù)集的有效性,并沒有研究在長(zhǎng)句語音數(shù)據(jù)集上對(duì)ASR系統(tǒng)的有效性.
相較于針對(duì)單一樣本生成的擾動(dòng),通用對(duì)抗擾動(dòng)則對(duì)大部分樣本都有效,因此危害性比單一對(duì)抗擾動(dòng)危害性更大:基于通用對(duì)抗擾動(dòng)的攻擊在測(cè)試階段不需要目標(biāo)模型的任何信息;實(shí)施對(duì)抗攻擊的門檻極大降低,可能會(huì)在攻擊者之間迅速流傳;只需要一個(gè)擾動(dòng)就能產(chǎn)生極大的危害作用.
通用對(duì)抗擾動(dòng)在近年來開始受到語音領(lǐng)域研究者的關(guān)注.然而,這方面的研究目前還仍然十分有限.Abdoli等人[32]首次提出了聲學(xué)系統(tǒng)的通用對(duì)抗擾動(dòng)法.他們提出了兩種產(chǎn)生全局對(duì)抗擾動(dòng)的方法:1)受圖像全局對(duì)抗樣本的啟發(fā),利用迭代貪心算法生成通用對(duì)抗擾動(dòng)向量;2)他們?cè)O(shè)計(jì)了一種新的懲罰公式,該公式找到了有針對(duì)性和無針對(duì)性的通用對(duì)抗擾動(dòng).他們利用分貝(dB)損失來約束擾動(dòng)的大小,以保持語音的質(zhì)量,并使用鉸鏈損失作為懲罰函數(shù),以確保他們的擾動(dòng)能夠欺騙目標(biāo)模型.針對(duì)一維CNN結(jié)構(gòu)聲學(xué)模型,他們能夠?qū)崿F(xiàn)85.4%和83.1%的攻擊成功率.然而,他們的攻擊只能在分類模型中進(jìn)行評(píng)估,全局語音擾動(dòng)在Over-the-Air播放時(shí)攻擊效果不佳.
與Abdoli[32]不同,Vadillo等人[33]利用圖像對(duì)抗擾動(dòng)生成方法[13,34]生成針對(duì)語音命令分類的通用對(duì)抗擾動(dòng).他們?cè)谖墨I(xiàn)[13]中重新設(shè)計(jì)了算法,并利用DeepFool[34]通過積累擾動(dòng)來產(chǎn)生滿足生成樣例的擾動(dòng).此外,他們提出了一個(gè)實(shí)驗(yàn)框架,以深入評(píng)估產(chǎn)生的例子中的失真.他們對(duì)SCD(Speech Command Dataset)數(shù)據(jù)集訓(xùn)練的分類網(wǎng)絡(luò)進(jìn)行了評(píng)估.結(jié)果表明,它們的普遍擾動(dòng)能使受擾動(dòng)的語音誤分類為原始語音以外的其他類別.然而,他們的擾動(dòng)方法是否能實(shí)現(xiàn)目標(biāo)攻擊則沒有研究.
相比于對(duì)基于語音分類的模型產(chǎn)生通用對(duì)抗擾動(dòng)[32,33],Neekhara[35]提出了一種通用對(duì)抗擾動(dòng)來攻擊識(shí)別系統(tǒng).他們通過最小化目標(biāo)函數(shù)來解決這個(gè)問題.他們的目標(biāo)是找到一個(gè)小的通用對(duì)抗擾動(dòng)向量,能夠添加到任意語音中同時(shí)可以使ASR識(shí)別錯(cuò)誤.通過最大化原識(shí)別和預(yù)測(cè)識(shí)別之間的字符錯(cuò)誤率(CER)來實(shí)現(xiàn),對(duì)DeepSpeech的攻擊成功率為89.06%.然而,假設(shè)攻擊成功時(shí)的CER小于0.5而不是0,則意味著他們的攻擊無法實(shí)現(xiàn)目標(biāo)攻擊.
本節(jié)將從被動(dòng)式和主動(dòng)式兩個(gè)方面討論現(xiàn)有對(duì)抗樣本的防御策略,如表2所示.二者的區(qū)別在于被動(dòng)式是對(duì)輸入的樣本被動(dòng)進(jìn)行檢測(cè),而主動(dòng)式則可以在主動(dòng)通過對(duì)抗訓(xùn)練等方式來增加模型的魯棒性.其中具體包含了對(duì)抗檢測(cè)、網(wǎng)絡(luò)驗(yàn)證、對(duì)抗訓(xùn)練、模型魯棒性強(qiáng)化等防御對(duì)策.
表2 語音對(duì)抗樣本防御策略總結(jié)Table 2 Speech adversarial sample defense strategy
1)被動(dòng)式:在ASR系統(tǒng)建立后,檢測(cè)生成的對(duì)抗樣本.已有研究工作可以進(jìn)一步劃分為對(duì)抗檢測(cè)、網(wǎng)絡(luò)驗(yàn)證.
2)主動(dòng)式:使ASR系統(tǒng)對(duì)潛在對(duì)抗攻擊具有更強(qiáng)的魯棒性.根據(jù)不同的策略,主動(dòng)對(duì)抗可以分為對(duì)抗(再)訓(xùn)練和聲學(xué)模型魯棒性增強(qiáng).
被動(dòng)對(duì)抗的重點(diǎn)是在ASR系統(tǒng)建立后發(fā)現(xiàn)對(duì)抗樣本.根據(jù)防御策略不同特點(diǎn),將被動(dòng)式對(duì)抗分為對(duì)抗檢測(cè)和網(wǎng)絡(luò)驗(yàn)證兩類.
5.1.1 對(duì)抗檢測(cè)
對(duì)抗檢測(cè)可以看作是一種二分類任務(wù),其目的是將對(duì)抗樣本和正常樣本進(jìn)行二分類.該類型的防御方法通常設(shè)計(jì)一個(gè)分類器,對(duì)聲學(xué)特征或語音波形進(jìn)行分類.這些策略的優(yōu)點(diǎn)是檢測(cè)精度比較高.但缺點(diǎn)是需要訓(xùn)練一種新的分類方法.針對(duì)Alzantot等人[38]提出的對(duì)抗攻擊,Rajaratnam等人[45]提出了一種基于檢測(cè)的防御方法.他們分別利用多種語音預(yù)處理方法(壓縮、語音編碼、濾波等)檢測(cè)對(duì)抗樣本.此外,考慮到可能的預(yù)處理防御,他們采用不同的集成策略來集成這些方法.結(jié)果表明,該方法的正確率為93.5%,查全率為91.2%.然而,他們的防御是否能對(duì)更復(fù)雜的對(duì)抗樣本產(chǎn)生作用有待研究.
Samizade等人[47]將對(duì)抗檢測(cè)任務(wù)視為分類問題.他們?cè)O(shè)計(jì)了一個(gè)基于CNN的二維倒譜特征輸入分類神經(jīng)網(wǎng)絡(luò).對(duì)Carlini等人[24]和Alzantot等人[38]和常規(guī)樣本生成的對(duì)抗樣本構(gòu)建的數(shù)據(jù)集進(jìn)行評(píng)價(jià),檢測(cè)正確率可以達(dá)到近100%.此外,他們的方法可以檢測(cè)未知的攻擊.
5.1.2 網(wǎng)絡(luò)驗(yàn)證
網(wǎng)絡(luò)驗(yàn)證即利用不同網(wǎng)絡(luò)的特有信息來檢測(cè)當(dāng)前的樣本是否為對(duì)抗樣本,對(duì)于單一擾動(dòng)而言,在不同的網(wǎng)絡(luò)上產(chǎn)生的效果可能會(huì)有很大差異,可以據(jù)此進(jìn)行對(duì)抗樣本檢測(cè).為了防御對(duì)抗攻擊,原始樣本與對(duì)抗樣本之間的差異受到廣泛探究.網(wǎng)絡(luò)驗(yàn)證利用該差異來防御對(duì)抗樣本,如在不同ASR上的識(shí)別結(jié)果差異,在網(wǎng)絡(luò)中加入微小噪聲而產(chǎn)生的輸出差異等.該防御方法可以檢測(cè)到新的不可見攻擊,是對(duì)抗樣本防御的一種有研究潛力的解決方案.受多版本編程原理的啟發(fā),Zeng等人[43]提出了一種檢測(cè)語音對(duì)抗樣本的新方法.基于不同ASR系統(tǒng)對(duì)正常語音的識(shí)別結(jié)果應(yīng)該相同的事實(shí),他們并行計(jì)算了幾個(gè)ASR系統(tǒng)中每?jī)蓚€(gè)ASR系統(tǒng)輸出的相似度分?jǐn)?shù),低于閾值的樣本的相似度得分被歸類為對(duì)抗樣本.對(duì)由[2,39]和正常樣本生成的對(duì)抗樣本組成的數(shù)據(jù)集進(jìn)行評(píng)估,結(jié)果表明該方法的檢測(cè)正確率可以達(dá)到98.6%以上.
受語音分類器對(duì)自然噪聲具有相對(duì)魯棒性這一事實(shí)的啟發(fā),Rajaratnam等人[46]提出了一種新的對(duì)抗攻擊防御方法.與利用語音預(yù)處理檢測(cè)對(duì)抗樣本不同,他們?cè)谔囟l帶中加入隨機(jī)噪聲,然后通過計(jì)算訓(xùn)練數(shù)據(jù)集中對(duì)抗樣本和良性樣本的泛洪分?jǐn)?shù)來尋找閾值.泛洪值小于閾值的測(cè)試樣本被視為對(duì)抗樣本.此外,為了使防御方法更具魯棒性,他們采用集成方法對(duì)不同配置下的泛洪評(píng)分進(jìn)行綜合.評(píng)價(jià)結(jié)果表明,該方法檢測(cè)正確率為91.8%,查全率為93.5%.
Kwon等人[49]根據(jù)在原始樣本和對(duì)抗樣本之間加入使用語音修改的低水平失真后識(shí)別結(jié)果前后的差異,檢測(cè)對(duì)抗樣本.不同的識(shí)別結(jié)果被視為對(duì)抗樣本.Carlini等人[24]生成的對(duì)抗樣本和普通樣本構(gòu)建的數(shù)據(jù)集的評(píng)價(jià)結(jié)果表明,該方法能夠消除對(duì)抗樣本中的擾動(dòng).然而,他們的檢測(cè)方法需要原始樣本和對(duì)應(yīng)的對(duì)抗樣本,這顯然不現(xiàn)實(shí).因?yàn)橥ǔG闆r下防御者很難同時(shí)獲得上述兩類樣本.
與Yang等人[48]類似,Ma等人[50]提出了一種基于音視頻時(shí)間相關(guān)性的新型對(duì)抗樣本檢測(cè)方法.根據(jù)對(duì)抗樣本中音頻與視頻之間的相關(guān)性低于正常樣本的特點(diǎn),他們利用同步置信度作為音頻與視頻相關(guān)性的閾值,將低于該閾值的樣本視為對(duì)抗樣本.對(duì)Carlini等人[24]生成的對(duì)抗樣本和良性樣本組成的數(shù)據(jù)集進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,他們的檢測(cè)方法對(duì)此類攻擊的檢測(cè)是有效的.
主動(dòng)式防御方法的重點(diǎn)是使ASR系統(tǒng)對(duì)潛在的對(duì)抗攻擊具有更強(qiáng)的魯棒性.根據(jù)主動(dòng)式防御技術(shù)的不同,本文將從對(duì)抗訓(xùn)練和模型強(qiáng)化兩個(gè)方面對(duì)主動(dòng)防御進(jìn)行展開.
5.2.1 對(duì)抗訓(xùn)練
對(duì)抗訓(xùn)練即生成對(duì)抗樣本來訓(xùn)練網(wǎng)絡(luò)使對(duì)特定攻擊具有魯棒性.對(duì)抗訓(xùn)練是對(duì)抗樣本的常用防御方法.這些方法的原理是通過對(duì)抗樣本重新訓(xùn)練網(wǎng)絡(luò),使網(wǎng)絡(luò)對(duì)攻擊具有魯棒性.盡管它能抵抗現(xiàn)有的對(duì)抗樣本,但是再訓(xùn)練的網(wǎng)絡(luò)可能無法抵御更先進(jìn)的攻擊.Sun等人[42]提出了一種動(dòng)態(tài)對(duì)抗訓(xùn)練方法,使ASR更具魯棒性.該算法將FGSM生成的對(duì)抗樣本動(dòng)態(tài)集成到訓(xùn)練集中,替換原始輸入,對(duì)語音識(shí)別模型進(jìn)行再訓(xùn)練.此外,他們利用教師-學(xué)生訓(xùn)練模型,使方法更可靠.他們的對(duì)抗式訓(xùn)練方法使相對(duì)錯(cuò)誤率降低了23%,但是他們沒有評(píng)估ASR系統(tǒng)中現(xiàn)有的攻擊方法.
5.2.2 模型魯棒性強(qiáng)化
模型魯棒性強(qiáng)化即通過降噪去噪等方法對(duì)樣本進(jìn)行處理.近年來,以消除對(duì)抗擾動(dòng)為核心的防御方法得到了廣泛關(guān)注.由于對(duì)抗擾動(dòng)小,所以該方法通常是有效的.Latif[44]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)(GAN)[52]的防御方法.他們利用生成器消除對(duì)抗樣本中的對(duì)抗擾動(dòng).對(duì)將多種環(huán)境噪聲添加到良性樣本中生成的對(duì)抗樣本和良性樣本組成的對(duì)抗樣本數(shù)據(jù)集進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,該方法能夠去除對(duì)抗樣本中的一些擾動(dòng).
Esmaeilpour等人[51]提出了一種新型防御方法.它結(jié)合了卷積去噪深度學(xué)習(xí)的優(yōu)點(diǎn)和支持向量機(jī)的分類性能,然后利用神經(jīng)網(wǎng)絡(luò)對(duì)譜圖進(jìn)行平滑處理,以減少對(duì)抗擾動(dòng)帶來的影響.對(duì)平滑后的譜圖進(jìn)行動(dòng)態(tài)分區(qū)和網(wǎng)格移動(dòng)處理,然后提取加速魯棒特征,最后作為SVM的輸入.對(duì)BackDoor[53]和DolphineAttack[18]生成的對(duì)抗樣本數(shù)據(jù)集和合法樣本數(shù)據(jù)集進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,該方法能夠較好地平衡深度學(xué)習(xí)模型和支持向量機(jī)的準(zhǔn)確性和魯棒性.
Yang[48]通過分析語音特性,提出了一種基于時(shí)間相關(guān)性的檢測(cè)方法.他們首先對(duì)語音對(duì)抗樣本使用了幾種基本的輸入轉(zhuǎn)換,包括量化、局部平滑、降采樣和自動(dòng)編碼.然后,根據(jù)語音序列具有顯式的時(shí)間依賴性,計(jì)算整個(gè)序列的前k部分識(shí)別結(jié)果與整個(gè)序列的前k部分識(shí)別結(jié)果的一致性.一般來說,在原始樣本中k部分的識(shí)別結(jié)果相同,而在對(duì)抗樣本中k部分的識(shí)別結(jié)果不同.對(duì)Alzantot等人[38]、Yuan等人[19]、Carlini等人[24]構(gòu)建的數(shù)據(jù)集進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,他們的防御方法可以達(dá)到相對(duì)較高的檢測(cè)精度.他們的方法為研究對(duì)抗樣本和防御對(duì)策提供了一種新的思路.
類似于Zeng等人[43],Tamura等人[54]比較不同ASR輸入的識(shí)別結(jié)果,提出了一種基于沙箱的防御方法來保護(hù)ASR系統(tǒng).他們首先利用擾動(dòng)消除技術(shù)(即動(dòng)態(tài)降采樣和去噪)來消除對(duì)抗樣本中的擾動(dòng),然后比較原始輸入和修改輸出的DeepSpeech識(shí)別結(jié)果的CER,將CER大于閾值的樣本作為對(duì)抗樣本.對(duì)構(gòu)建的數(shù)據(jù)集進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,該方法能夠成功防御對(duì)抗攻擊.然而,他們沒有指定評(píng)估中使用的具體攻擊,因此不能評(píng)估他們對(duì)現(xiàn)有攻擊防御的有效性.
Yang等人[55]提出了一種基于U-Net(語義分割網(wǎng)絡(luò))的注意模型U,使ASR系統(tǒng)對(duì)對(duì)抗攻擊具有魯棒性.受U-Net語音增強(qiáng)的啟發(fā),他們將注意力門集成到上采樣塊中,從輸入中提取高級(jí)特征,從而保持語音特性.最后,U-Net輸出增強(qiáng)的語音和對(duì)抗噪聲.Khare等人[40]和Yakura等人[25]對(duì)由對(duì)抗樣本組成的數(shù)據(jù)集進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,該方法可以消除增強(qiáng)對(duì)抗樣本中的擾動(dòng),提高樣本的質(zhì)量.
本節(jié)將討論當(dāng)前ASR系統(tǒng)中所面臨的對(duì)抗樣本挑戰(zhàn)和可能的解決方案.雖然近年來已經(jīng)提出了許多對(duì)抗樣本攻擊和防御的方法,但如何構(gòu)建更嚴(yán)格、更符合實(shí)際的攻擊方法和防御更先進(jìn)的攻擊仍是亟待解決的問題.另外,ASR系統(tǒng)中存在對(duì)抗樣本的內(nèi)在原因也有待研究.研究語音特性有助于構(gòu)建更穩(wěn)健的對(duì)抗策略.接下來的部分,首先討論對(duì)抗樣本的挑戰(zhàn)和研究方向.
盡管已經(jīng)提出許多對(duì)抗攻擊,但仍然存在幾個(gè)問題需要解決.下文將從構(gòu)建嚴(yán)格攻擊和可移植性兩個(gè)方面探討當(dāng)前研究熱點(diǎn)和存在的問題.
6.1.1 嚴(yán)格攻擊的構(gòu)建
在白盒攻擊場(chǎng)景中,Liu等人[30]提出的方法可以將任意長(zhǎng)句作為目標(biāo),生成高質(zhì)量語音的對(duì)抗樣本.盡管該方法可以達(dá)到先進(jìn)的性能,但完全了解目標(biāo)模型在實(shí)踐中是不現(xiàn)實(shí)的.為了克服這一局限性,Alzantot等人[38]提出了無梯度生成對(duì)抗樣本的方法,但該方法只對(duì)語音分類網(wǎng)絡(luò)有效.因此Taori等人[39]擴(kuò)展到攻擊ASR系統(tǒng).但他們只將短語層面作為攻擊目標(biāo),而沒有將句子層面作為攻擊目標(biāo);此外,他們需要目標(biāo)模型的邏輯輸出,這在Over-The-Air攻擊中是不現(xiàn)實(shí)的.因此,可以通過定義一個(gè)更嚴(yán)格的黑盒設(shè)置,提出了一種更切合實(shí)際的攻擊.該攻擊假設(shè)中,對(duì)手只能從目標(biāo)ASR系統(tǒng)獲取識(shí)別結(jié)果.在此定義下,如何設(shè)計(jì)出滿足任意設(shè)置長(zhǎng)句子作為目標(biāo)、實(shí)現(xiàn)Over-The-Air攻擊的嚴(yán)格黑盒攻擊,是值得進(jìn)一步研究的
6.1.2 對(duì)抗樣本的可移植性
所謂對(duì)抗樣本的可移植性,是指模型A生成的對(duì)抗樣本不僅可以攻擊模型A,還可以攻擊未知模型B,其中模型A和模型B具有不同的架構(gòu).在圖像領(lǐng)域,研究人員利用集成方法使對(duì)抗樣本具有一定的可移植性.然而,關(guān)于語音對(duì)抗樣本的相關(guān)研究還很少.Cisse等人[20]的方法表明,由DeepSpeech2系統(tǒng)生成的對(duì)抗樣本對(duì)Google Voice是有效的.Kruek等人[37]的方法表明,對(duì)抗樣本可以保持在同一架構(gòu)下的不同數(shù)據(jù)集上訓(xùn)練的兩個(gè)模型之間的可移轉(zhuǎn)性.Vadillo等人[33]證明了用于分類網(wǎng)絡(luò)的泛對(duì)抗樣本在大量類的情況下具有較好的可移植性,但相應(yīng)的結(jié)論不適用于ASR系統(tǒng).因此,構(gòu)建更多可移植的對(duì)抗樣本可從以下兩個(gè)方面考慮:一方面,深入挖掘ASR系統(tǒng)的通用對(duì)抗擾動(dòng);另一方面,研究ASR系統(tǒng)中現(xiàn)有的對(duì)抗樣本理論也有助于發(fā)現(xiàn)通用對(duì)抗擾動(dòng).
對(duì)抗樣本存在的原因目前仍是一個(gè)懸而未決的問題,如何保證ASR的安全性也是一個(gè)挑戰(zhàn).本節(jié)將從被動(dòng)式防御和主動(dòng)式防御兩方面探討一些可行的防御對(duì)策.
6.2.1 被動(dòng)式防御
雖然近年來提出了幾種對(duì)抗防御方法,但由于語音檢測(cè)方法具有多樣性,因此被動(dòng)防御研究仍具有前景.對(duì)于分類網(wǎng)絡(luò),可以利用語音預(yù)處理來檢測(cè)對(duì)抗樣本的方法較少.此外,聲學(xué)特征及其高階版本在語音檢測(cè)任務(wù)中應(yīng)用和利用多樣性集成方法檢測(cè)對(duì)抗樣本有待研究.在識(shí)別系統(tǒng)方面,Zeng等人[43]利用ASR的多樣性差異識(shí)別結(jié)果來檢測(cè)對(duì)抗樣本;Kwon等人[49]利用ASR的擾動(dòng)樣本和正常樣本的不同識(shí)別結(jié)果來檢測(cè)對(duì)抗樣本.此外,一些攻擊[7,39]選擇人類的不敏感區(qū)域作為擾動(dòng)區(qū)域.今后,探索擾動(dòng)特征將有助于檢測(cè)對(duì)抗樣本.
6.2.2 主動(dòng)式防御
該對(duì)策的目標(biāo)是使ASR系統(tǒng)具有更高的魯棒性.下面將從以下兩點(diǎn)來討論這個(gè)問題,即對(duì)抗(再)訓(xùn)練和消除對(duì)抗擾動(dòng).在圖像領(lǐng)域,對(duì)抗(再)訓(xùn)練已被證明可以有效提高網(wǎng)絡(luò)模型的魯棒性.在語音對(duì)抗樣本中,Sun等人[42]提出了動(dòng)態(tài)對(duì)抗訓(xùn)練來提高語音分類網(wǎng)絡(luò)的魯棒性.然而,尚無研究證明對(duì)抗訓(xùn)練可以使ASR系統(tǒng)具有魯棒性.因此,利用最新的對(duì)抗樣本進(jìn)行對(duì)抗(再)訓(xùn)練是提高反卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng)魯棒性的一種有前景的方法.此外,利用語音增強(qiáng)去噪,對(duì)ASR系統(tǒng)的輸入進(jìn)行預(yù)處理,也是一種有前景的防御對(duì)抗樣本的方法.如Latif等人[44]使用生成對(duì)抗網(wǎng)絡(luò)(GAN)消除對(duì)抗擾動(dòng),Yang等人[55]使用基于U-Net的模型去消除對(duì)抗擾動(dòng).此外,挖掘語音特征也是一種很有前景的防御對(duì)抗樣本的方法,有利于深入研究對(duì)抗樣本.
近期研究表明,基于DNN的ASR系統(tǒng)易受到對(duì)抗樣本的影響.本文回顧了ASR系統(tǒng)中已有的對(duì)抗樣本,提出分類方法,對(duì)存在的語音對(duì)抗攻擊進(jìn)行分類.通過對(duì)現(xiàn)有對(duì)抗攻擊及其防御的介紹,討論了語音領(lǐng)域?qū)箻颖镜难芯?最后,本文介紹了語音對(duì)抗樣本的研究熱點(diǎn)與存在的問題,對(duì)于日后的研究工作有著積極的引領(lǐng)作用.面向語音識(shí)別系統(tǒng)的對(duì)抗樣本研究還有很多可拓展的空間,如對(duì)大多數(shù)對(duì)抗攻擊的檢測(cè)與防御仍有待進(jìn)一步深入研究.