馬健 羅達(dá)
(1.東莞理工學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東東莞 523808;2. 東莞理工學(xué)院 網(wǎng)絡(luò)空間安全學(xué)院,廣東東莞 523808)
近年來,對(duì)抗樣本[1]的研究在語音識(shí)別領(lǐng)域發(fā)展迅速。作為對(duì)抗樣本技術(shù)在語音識(shí)別中的特殊應(yīng)用,可通過添加特定的對(duì)抗擾動(dòng)噪音,使語音識(shí)別系統(tǒng)的識(shí)別結(jié)果發(fā)生改變,甚至變成攻擊者指定的句子。雖然如今端到端語音識(shí)別系統(tǒng)在性能上十分優(yōu)秀,但存在音頻對(duì)抗樣本技術(shù)使語音識(shí)別系統(tǒng)的安全受到了嚴(yán)重的威脅,因此有必要對(duì)音頻對(duì)抗樣本進(jìn)行深入的研究。
自動(dòng)語音識(shí)別系統(tǒng)(ASR)的任務(wù)是語音到文本的轉(zhuǎn)換。許多現(xiàn)代的自動(dòng)語音識(shí)別系統(tǒng)都是基于深度神經(jīng)網(wǎng)絡(luò)(DNNs)模式,性能突出,如Deep-Speech[3]、Lingvo[4]和Amazon Transcribe。在端到端的語音識(shí)別的背景下,有可能向一段音頻片段注入對(duì)抗擾動(dòng)噪音,以此篡改語音識(shí)別的結(jié)果。比如:
原始識(shí)別結(jié)果:The password has given to Alice;
Key-word篡改:The password has given to Bob;
Sentence篡改:I do not have the password.
在第一種情況下,對(duì)抗樣本只將句子中的關(guān)鍵詞從Alice改為Bob,被稱為關(guān)鍵詞篡改。在第二種情況整個(gè)文本被替換,被稱為句子篡改。
語音識(shí)別領(lǐng)域的對(duì)抗樣本研究分為攻擊方面和防御方面[2]。在攻擊方面的研究,文獻(xiàn)中展示了幾種ASR對(duì)抗樣本攻擊方法[5-8]。其中一些關(guān)鍵的技術(shù)是共通于圖像領(lǐng)域的,如使用梯度下降法來對(duì)擾動(dòng)噪點(diǎn)進(jìn)行更新。與對(duì)抗樣本攻擊方法不同,音頻對(duì)抗樣本檢測(cè)與圖像領(lǐng)域的對(duì)抗樣本檢測(cè)方法相比,更具挑戰(zhàn)性。首先,由于序列的依賴性,基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[9]生成音頻對(duì)抗性樣本更慢、更復(fù)雜,導(dǎo)致訓(xùn)練二進(jìn)制分類器作為音頻對(duì)抗樣本檢測(cè)器的訓(xùn)練樣本更少。此外,音頻輸入轉(zhuǎn)換對(duì)對(duì)抗樣本攻擊的抵抗效果并不明顯[10],主要是因?yàn)檎Z音數(shù)據(jù)具有一定時(shí)序的依賴性。在現(xiàn)有ASR對(duì)抗樣本防御研究中,Zeng等人[11]提出以音頻文件在不同架構(gòu)和不同參數(shù)下的語音識(shí)別系統(tǒng)中的識(shí)別結(jié)果相似度作為檢測(cè)音頻對(duì)抗樣本的指標(biāo)。Yang等人[10]利用音頻數(shù)據(jù)中固有的時(shí)間依賴性進(jìn)行檢測(cè),音頻切幀前后的識(shí)別結(jié)果差異被用作檢測(cè)的指標(biāo)。此方法將作為對(duì)比方法在實(shí)驗(yàn)中部分使用。Jayashankar等人[12]在語音識(shí)別的神經(jīng)網(wǎng)絡(luò)推理中使用了dropout機(jī)制[13],dropout機(jī)制是指在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中使部分的神經(jīng)元權(quán)重為0,增強(qiáng)模型的泛化性。在模型推理過程中使用dropout機(jī)制會(huì)使神經(jīng)網(wǎng)絡(luò)的參數(shù)信息異動(dòng),進(jìn)而使音頻對(duì)抗樣本的攻擊失效,但使用此方法會(huì)在一定程度上導(dǎo)致模型的性能下降。Zhu等人[14]提出了使用對(duì)抗訓(xùn)練的方法來訓(xùn)練模型,是在訓(xùn)練模型的過程中,同時(shí)對(duì)模型進(jìn)行對(duì)抗樣本攻擊,使模型在對(duì)抗樣本的攻擊下繼續(xù)進(jìn)行正確的推理,增強(qiáng)模型的魯棒性。上文提及的音頻對(duì)抗樣本檢測(cè)方法的檢測(cè)準(zhǔn)確率還存在提升空間,且現(xiàn)有的音頻對(duì)抗樣本防御檢測(cè)工作缺乏對(duì)音頻對(duì)抗樣本分布特征的分析,因此筆者從對(duì)音頻對(duì)抗樣本分布特征的分析入手,提出準(zhǔn)確率更高的音頻對(duì)抗樣本檢測(cè)方法。
文中在時(shí)域和頻域上對(duì)音頻對(duì)抗樣本的擾動(dòng)噪音的分布特點(diǎn)進(jìn)行了分析,發(fā)現(xiàn)擾動(dòng)噪音在時(shí)域和頻域上的分布特征:在時(shí)域上,音頻對(duì)抗樣本的擾動(dòng)噪音會(huì)廣泛分布于整段原始音頻;在頻域上,音頻對(duì)抗樣本擾動(dòng)噪音會(huì)集中在中高頻部分。據(jù)此,筆者提出一種基于多頻譜的音頻對(duì)抗樣本檢測(cè)方法,實(shí)驗(yàn)結(jié)果表明,所提出的方法可以顯著提高音頻對(duì)抗樣本檢測(cè)的準(zhǔn)確率,在公共語音數(shù)據(jù)集上,與基線方法和最先進(jìn)的方法相比,該方法的檢測(cè)準(zhǔn)確率提升超過30%。
考慮用兩種有代表性的攻擊方法來生成音頻對(duì)抗樣本:C&W攻擊[5]和Taori攻擊[8]。前者是基于梯度下降優(yōu)化的白盒攻擊,后者是最先進(jìn)的黑盒攻擊。C&W攻擊部署在DeepSpeech v0.4.1上,而Taori攻擊部署在DeepSpeech v0.1.1上。
1) C&W攻擊方法:Carlini和Wagner提出了通過一個(gè)優(yōu)化函數(shù)來生成對(duì)抗性擾動(dòng)。該方法需要獲取目標(biāo)的參數(shù)信息。具體來說,DeepSpeech使用連接主義時(shí)間分類(CTC)損失函數(shù)[15],因此,C&W攻擊的目標(biāo)函數(shù)表示為:
suchthatdB(δ)≤τ,
(1)
(2)
2)Taori攻擊方法:Taori攻擊是一種針對(duì)ASR系統(tǒng)的黑盒攻擊方法,黑盒攻擊不需要訪問受害模型的內(nèi)部信息。攻擊有兩個(gè)步驟組:首先,使用帶有動(dòng)量突變的遺傳算法來獲得一個(gè)近似的解決方案,再使用梯度估計(jì)方法來完善對(duì)抗擾動(dòng)噪音。與C&W攻擊相比,Taori攻擊是以較慢的速度產(chǎn)生音頻對(duì)抗樣本,并帶來相對(duì)大的擾動(dòng)噪音。
At=h(Utxt+WtAt-1) ,
(3)
模型的輸出計(jì)算方式為:
(4)
圖1 idirectional-RNN 網(wǎng)絡(luò)結(jié)構(gòu)示意圖
在攻擊過程中,將對(duì)抗樣本擾動(dòng)噪音信號(hào)定義為語音篡改前后的音頻樣本之差,即,其中,為了篡改,必須改變時(shí)間序列中的整個(gè)話語序列。不失一般性地,用表示篡改后的輸出。因此,在范數(shù)攻擊中,關(guān)于的目標(biāo)函數(shù)是,再使用梯度下降法來優(yōu)化這個(gè)目標(biāo)函數(shù)。由以上的推斷可知,無論是篡改整段語句還是篡改關(guān)鍵詞,對(duì)抗樣本擾動(dòng)的噪音都會(huì)影響整段音頻信號(hào)。
C&W方法產(chǎn)生的音頻對(duì)抗樣本數(shù)據(jù)被作為挖掘音頻對(duì)抗樣本頻域特征的研究對(duì)象。攻擊的方法分為關(guān)鍵詞篡改與句子篡改兩種情形。在音頻對(duì)抗樣本頻域特征的研究中,首先將干凈的音頻與該音頻對(duì)應(yīng)音頻的對(duì)抗樣本波形圖進(jìn)行比較,從圖2中的上部分可見波形圖,分別為干凈音頻的關(guān)鍵詞篡改情況下的音頻對(duì)抗樣本與句子篡改情況下的音頻對(duì)抗樣本。在波形圖上難以察覺出差異,這符合音頻對(duì)抗樣本難以被人耳察覺的特性。由于在波形圖上難以觀測(cè)到音頻對(duì)抗樣本的特征,因此使用短時(shí)傅立葉變換(Short-time Fourier Transform, STFT)將音頻轉(zhuǎn)換為頻譜圖,再使用功率譜圖研究音頻在各個(gè)頻率上的能量分布,功率信號(hào)在某一時(shí)間段的平均功率可以表示為:
(5)
若式(5)中的f(t)在有限時(shí)間段內(nèi)用fT(t)表示,fT(t)的傅立葉變換表達(dá)式為FT(ω)=F[fT(t)],則平均功率譜的計(jì)算公式為:
(6)
(7)
通過計(jì)算干凈音頻與音頻對(duì)抗樣本的功率譜圖,可以發(fā)現(xiàn)音頻對(duì)抗樣本在頻域上的分布特點(diǎn),從圖2的下部分功率譜圖可以看出,音頻對(duì)抗樣本的功率譜圖比起干凈音頻的功率譜圖在6 000至7 000 Hz的能量更大,且該現(xiàn)象在句子篡改情況的音頻對(duì)抗樣本上更為明顯。
圖2 音頻對(duì)抗樣本的波形圖與功率譜圖分析
單獨(dú)對(duì)一段干凈音頻及其對(duì)應(yīng)的關(guān)鍵詞篡改情況的音頻對(duì)抗樣本進(jìn)行分析,使用Welch方法[17]計(jì)算二者之間的相關(guān)性,結(jié)果如圖3上圖,干凈音頻與其對(duì)應(yīng)的音頻對(duì)抗樣本在0至4 000 Hz范圍內(nèi)的相似度達(dá)0.9以上,它們的主要區(qū)別集中于5 000 Hz以上的頻率范圍。為進(jìn)一步驗(yàn)證干凈音頻與其對(duì)應(yīng)的音頻對(duì)抗樣本在頻域上的分布特點(diǎn),筆者進(jìn)一步進(jìn)行交叉功率譜相位(Cross-Spectrum Phase)分析,音頻功率譜密度由式(8)計(jì)算:
Pxy(ω)=∑Rxy(m)e-jωm,
(8)
其中互相關(guān)系數(shù)序列(cross-correlation sequence)定義為:
Rxy(m)=Ex[n+m]y=Ex[n]y[n-m] ,
(9)
式(8)中的x和y為要進(jìn)行對(duì)比的兩個(gè)音頻信號(hào),-∞ 圖3 音頻對(duì)抗樣本相關(guān)性分析與音頻交叉功率譜相位(Cross-Spectrum Phase)分析 進(jìn)一步在Common Voice語音數(shù)據(jù)集[18]上進(jìn)行信號(hào)相似度的統(tǒng)計(jì)分析。每個(gè)樣本的持續(xù)時(shí)間為3 ~ 4 s,每隔0.1 s切成幀,總共產(chǎn)生了3 890對(duì)從100對(duì)干凈的和敵對(duì)的樣本中切分出來的幀。圖4以箱線圖的形式總結(jié)了關(guān)鍵詞和句子篡改的結(jié)果??偟膩碚f,與關(guān)鍵詞修改相比,句子修改的對(duì)抗性擾動(dòng)在信號(hào)的能量和相位方面造成更大干擾。這種影響在高頻段尤為顯著。如相似度分析中在5 kH之后急劇下降,關(guān)鍵詞篡改的均值降至0.7以下,句子篡改均值降至0.4以下。大量數(shù)據(jù)支持下的分析結(jié)果符合上文的推測(cè),音頻對(duì)抗樣本的擾動(dòng)噪音主要活躍在高頻部分,這與人耳的聽力敏感范圍主要在相對(duì)低頻部分,而對(duì)高頻部分的聲音不敏感相關(guān)。并且,該現(xiàn)象在句子篡改的音頻對(duì)抗樣本的擾動(dòng)噪音分布中更加明顯。 在以上實(shí)驗(yàn)中,音頻對(duì)抗樣本在時(shí)域和頻域的分布特征得到了挖掘。在頻域上,音頻對(duì)抗樣本的擾動(dòng)噪音主要在高頻部分擁有較高的能量。在時(shí)域上,由于語音識(shí)別系統(tǒng)模型架構(gòu)的特性,音頻對(duì)抗樣本的擾動(dòng)噪音會(huì)散布在整段干凈音頻序列中?;谝陨戏治隹芍?,音頻對(duì)抗樣本的擾動(dòng)噪音在頻域上更易被察覺,在頻域上捕捉音頻對(duì)抗樣本擾動(dòng)噪音更容易,并且基于音頻對(duì)抗樣本擾動(dòng)噪音在時(shí)域的分布特點(diǎn),檢測(cè)方法以音頻的幀作為檢測(cè)單位效果更好。據(jù)此筆者提出一種基于多頻譜的音頻對(duì)抗樣本檢測(cè)方法。 圖5為筆者提出檢測(cè)方法的流程圖,先將待檢測(cè)音頻切成幀,每一幀的時(shí)長(zhǎng)為100 ms,記每一幀音頻數(shù)據(jù)為。通過離散傅立葉變換(Discrete Fourier Trans- form, DFT)將每幀音頻數(shù)據(jù)轉(zhuǎn)換到頻域,轉(zhuǎn)換形式為: 圖4 通過(a)關(guān)鍵字篡改情況和(b)句子篡改情況從100對(duì)干凈和對(duì)抗樣本中音頻中切出的3890對(duì)幀之間的一致性估計(jì)(coherence estimatesy)和互功率譜相位(cross-spectrum phase)的箱線圖 圖5 基于多頻譜的音頻對(duì)抗樣本檢測(cè)方法流程圖 (10) 式(10)中的ω[m],序列長(zhǎng)度為L(zhǎng),m=0,1,…,L,N是用來進(jìn)行DFT轉(zhuǎn)換的數(shù)據(jù)長(zhǎng)度。在本文實(shí)驗(yàn)中,使用常見的分窗方法——漢寧窗(Hanning Window),長(zhǎng)度L為512。輸入音頻切片信號(hào)通過漢寧窗后利用傅立葉變換轉(zhuǎn)換到頻域,這里用到了兩個(gè)時(shí)域上的參數(shù)和。轉(zhuǎn)換后的二維頻譜圖作為檢測(cè)器的輸入樣本。由于在頻域上的頻譜圖特征較復(fù)雜,筆者使用端到端的學(xué)習(xí)方法來訓(xùn)練一個(gè)二分類器來提取頻譜的特征后進(jìn)行檢測(cè)。特別地,在分類器中先使用卷積神經(jīng)網(wǎng)絡(luò)[19](Convolutional Neural Networks, CNN)進(jìn)行特征提取,再使用交叉熵[20](Cross-Entropy, CE)損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行建模。頻譜圖被標(biāo)記為干凈樣本或音頻對(duì)抗樣本后被送入神經(jīng)網(wǎng)絡(luò),以此來訓(xùn)練檢測(cè)器神經(jīng)網(wǎng)絡(luò)。 為提高檢測(cè)精度,在CNN基礎(chǔ)上采用能量模型的訓(xùn)練方法,最近的研究發(fā)現(xiàn),基于能量的模型(EBM)[21]可以幫助改善自我監(jiān)督學(xué)習(xí)的判別式模型。EBM依賴于這樣一個(gè)認(rèn)識(shí):x∈D的任何觀測(cè)概率密度p(x)均可用所謂的能量函數(shù)表示,即Eθ:D←,將輸入的x映射成一個(gè)標(biāo)量。在二分類器的情況下,能量函數(shù)可以定義為: Eθ(Y,x)=-Y·Fθ(x) , (11) 其中,CNN的logit被重新用于fθ(x),Y是x的類別標(biāo)簽,表示是干凈的數(shù)據(jù)還是對(duì)抗樣本的數(shù)據(jù),即Y∈{-1,1}。當(dāng)預(yù)測(cè)正確且置信度高時(shí),能量值Eθ(Y,x)會(huì)降低。通過應(yīng)用極大似然估計(jì)與Gibbs分布的準(zhǔn)則進(jìn)行訓(xùn)練,使能量模型的能量值盡可能小,遵循的損失函數(shù)遵循極大似然估計(jì)的損失(Negative Log-likelihood, NLL)[22]函數(shù)設(shè)計(jì),定義為: LNLL(Y,x;θ)= (12) 損失函數(shù)中的對(duì)數(shù)項(xiàng)是對(duì)所有可能的輸出標(biāo)簽{E(y,x),y屬于Y}的對(duì)數(shù)概率之和,記為free energy。由于模型的輸出結(jié)果的改變,對(duì)比項(xiàng)會(huì)根據(jù)模型輸出正確值時(shí)而變大,以此來制衡能量損失函數(shù)的更新,以免模型過度學(xué)習(xí)某一個(gè)輸入樣本的特征,該項(xiàng)起到對(duì)比學(xué)習(xí)的作用,能讓模型在學(xué)習(xí)過程帶有自監(jiān)督的效果,從而提升了模型的泛化性能,以此提升模型的性能。參數(shù)β是一個(gè)正常數(shù),用來控制損失函數(shù)中的對(duì)比項(xiàng)的工作強(qiáng)度,實(shí)驗(yàn)中將β設(shè)置為常見的0.5。 根據(jù)上文分析,筆者提出的在頻譜域中設(shè)計(jì)音頻對(duì)抗樣本檢測(cè)器有三個(gè)優(yōu)點(diǎn):1)在幀的功率譜中,對(duì)抗擾動(dòng)噪音的特征更為顯著;2)如上文分析,在頻譜上可以更好地利用時(shí)空信息處理高度而非平穩(wěn)的擾動(dòng)噪音信號(hào),特別是當(dāng)擾動(dòng)噪音的分布位置遍布在整段音頻信號(hào)中時(shí);3)通過將語音段切成多個(gè)頻譜幀,有更多的對(duì)抗樣本數(shù)據(jù)用來訓(xùn)練一個(gè)有效的檢測(cè)器,從而緩解了第一節(jié)中討論的音頻對(duì)抗樣本檢測(cè)訓(xùn)練中訓(xùn)練數(shù)據(jù)較少的問題。 實(shí)驗(yàn)在兩個(gè)公共語音數(shù)據(jù)集即LibriSpeech[23]和Mozilla Common Voice數(shù)據(jù)集[17]上評(píng)估了本文所提出方法對(duì)音頻對(duì)抗樣本的檢測(cè)準(zhǔn)確性。LibriSpeech是包含有聲讀物的錄音,這些錄音被切割并組織成文本注釋的音頻文件,每個(gè)文件約15 s。Common Voice數(shù)據(jù)集包含短的音頻片段,每個(gè)片段約4 s。實(shí)驗(yàn)中使用LibriSpeech數(shù)據(jù)集中的57個(gè)音頻片段和Common Voice數(shù)據(jù)集中的60個(gè)音頻片段作為訓(xùn)練數(shù)據(jù)集。C&W攻擊方法和Taori攻擊方法將在本實(shí)驗(yàn)中用作生成音頻對(duì)抗樣本數(shù)據(jù)的攻擊方法。特別的,C&W攻擊方法為白盒攻擊,Taori攻擊方法為黑盒攻擊。為了在有限的時(shí)間內(nèi)完成黑盒攻擊,將LibriSpeech數(shù)據(jù)集中的音頻片段分成10 s的片段和5 s的片段,來生成黑盒攻擊的音頻對(duì)抗樣本。實(shí)驗(yàn)中使用LibriSpeech和Common Voice數(shù)據(jù)集生成了187個(gè)白盒攻擊音頻對(duì)抗樣本和100個(gè)黑盒攻擊音頻對(duì)抗樣本,分別作為用于測(cè)試關(guān)鍵詞和句子的篡改的數(shù)據(jù)集。DeepSpeech[3]被用作受害的語音識(shí)別模型,其中白盒攻擊部署在DeepSpeech v0.4.1模型上,黑盒攻擊部署在DeepSpeech v0.1.1模型上。 對(duì)音頻對(duì)抗樣本檢測(cè)效果實(shí)驗(yàn),使用真陽性率 (True Positive Rate, TPR)和假陽性率(False Positive Rate, FPR) 作為檢測(cè)的評(píng)價(jià)指標(biāo)。在檢測(cè)過程中,將檢測(cè)結(jié)果為真陽性的個(gè)數(shù)記為TP,檢測(cè)結(jié)果為假陰性的個(gè)數(shù)記為FN,檢測(cè)結(jié)果為假陽性的個(gè)數(shù)為FP,檢測(cè)結(jié)果為真陰性的個(gè)數(shù)為FN,則有: 1)真陽性率 TPR: (13) 2)假陽性率 FPR: (14) 實(shí)驗(yàn)使用了四種不同方法對(duì)數(shù)據(jù)進(jìn)行檢測(cè)并對(duì)檢測(cè)效果進(jìn)行比較。1)基線方法使用語音識(shí)別常用的手工提取特征作為RBF-SVM[24]的輸入,而不是使用端到端方法。在基線方法中使用廣泛用于語音識(shí)別和音頻檢測(cè)系統(tǒng)的手工提取特征的 Mel Frequency Cepstral Coefficients(MFCCs)[25];2)最先進(jìn)的音頻對(duì)抗樣本檢測(cè)方案,通過利用音頻中固有的時(shí)間依賴性(TD)[10],在時(shí)間序列域中分辨出音頻對(duì)抗樣本;3)在本文提出的多幀頻譜檢測(cè)框架下,使用CNN模型進(jìn)行特征提取和分類器學(xué)習(xí),具體來說,CNN架構(gòu)依次包括5層(3個(gè)卷積層和2個(gè)max-pooling層),3個(gè)卷積層的核大小分別為9×9、5×5和5×5,通道外大小為24、36和60,2個(gè)max-pooling層的核大小分別為5×5和3×3,訓(xùn)練epoch設(shè)置為15;4)在CNN logits的基礎(chǔ)上使用的EBM進(jìn)行模型訓(xùn)練的方法。表1顯示了TPR在5%FPR下對(duì)關(guān)鍵詞和句子篡改的檢測(cè)精度。 表1 在白盒和黑盒攻擊下對(duì)關(guān)鍵詞和句子篡改情況下的音頻對(duì)抗樣本檢測(cè)精度(TPR @5% FPR) 由表1的數(shù)據(jù)可以看出,EBM在所有攻擊下表現(xiàn)最好,其中,在LibriSpeech的長(zhǎng)音頻數(shù)據(jù)上產(chǎn)生的句子篡改的黑盒攻擊對(duì)抗樣本較少,且成功的黑盒攻擊有較大的擾動(dòng)強(qiáng)度,這導(dǎo)致所有四種方法都相對(duì)容易進(jìn)行檢測(cè)。實(shí)驗(yàn)通過用LibriSpeech上產(chǎn)生的音頻對(duì)抗樣本數(shù)據(jù)本來訓(xùn)練檢測(cè)器,并用Common Voice上產(chǎn)生的音頻對(duì)抗樣本數(shù)據(jù)來測(cè)試。EBM訓(xùn)練的檢測(cè)性能顯示了顯著的適用性,這表明該模型在不同的攻擊下的檢測(cè)性能更可靠。為考察本文提出的方法在面對(duì)跨數(shù)據(jù)集場(chǎng)景時(shí)的可行性,實(shí)驗(yàn)中使用長(zhǎng)音頻數(shù)據(jù)集LibriSpeech作為訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型,并在短音頻數(shù)據(jù)集Common Voice上進(jìn)行測(cè)試(如表1),本文提出的方法在跨數(shù)據(jù)集也可行。圖 6為白盒攻擊與黑盒攻擊下的關(guān)鍵詞篡改情況與句子篡改情況的四種檢測(cè)方法ROC曲線圖。ROC曲線圖是由真陽性率TPR和假陽性率FPR共同決定,F(xiàn)PR越小TPR越高,代表檢測(cè)方法的性能越好,即檢測(cè)方法的ROC曲線包圍的面積越大代表檢測(cè)性能越好,從圖6中可以看出本文提出的多頻譜檢測(cè)方法CWC和EBM在關(guān)鍵詞篡改情況下的檢測(cè)成功率要好于基線方法和TD方法。 圖6 白盒攻擊與黑盒攻擊下的關(guān)鍵詞篡改情況與句子篡改情況的檢測(cè)器 ROC 曲線圖 文中先對(duì)音頻對(duì)抗樣本在時(shí)域和頻域的分布特征進(jìn)行分析,發(fā)現(xiàn)了音頻對(duì)抗樣本在時(shí)域和頻域上的分布特點(diǎn),根據(jù)分析得到的音頻對(duì)抗樣本特點(diǎn),提出了一種基于多頻譜的音頻對(duì)抗樣本的檢測(cè)方法,并提出了利用音頻對(duì)抗樣本的擾動(dòng)噪音會(huì)分散在干凈的音頻以及擾動(dòng)噪音主要分布于高頻段的特點(diǎn),以幀為檢測(cè)單位在頻域上進(jìn)行檢測(cè),利用能量模型的訓(xùn)練方法對(duì)檢測(cè)模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果顯示提出的方法在白盒攻擊與黑盒攻擊上都取得了更好的實(shí)驗(yàn)結(jié)果,且在關(guān)鍵詞篡改情況下的音頻對(duì)抗樣本檢測(cè)的效果上提升更為明顯。1.3 基于多頻譜的檢測(cè)框架
2 實(shí)驗(yàn)以及結(jié)果分析
2.1 實(shí)驗(yàn)環(huán)境
2.2 評(píng)價(jià)指標(biāo)
2.3 實(shí)驗(yàn)結(jié)果分析
3 結(jié)語