張雄偉,張星昱,孫 蒙,鄒 霞
(陸軍工程大學(xué)指揮控制工程學(xué)院,南京210007)
自動說話人驗(yàn)證(Automatic speaker verification,ASV)技術(shù)是一種重要的生物特征識別技術(shù),主要用于門禁控制、司法取證和軍事偵察等領(lǐng)域[1-2]。然而,攻擊者們利用包括欺騙攻擊和對抗攻擊在內(nèi)的各種手段,有可能攻破未受保護(hù)的ASV系統(tǒng)。因此,如何檢測并防御針對ASV系統(tǒng)的攻擊行為,成為學(xué)者們研究的熱點(diǎn)[3]。這些針對攻擊行為的檢測與防御已經(jīng)成為提高ASV系統(tǒng)安全性的重要課題之一。
ASVspoof系列挑戰(zhàn)賽[4]是社區(qū)驅(qū)動的標(biāo)準(zhǔn)化項(xiàng)目,旨在解決語音欺騙攻擊及其防御中存在的種種問題。其中,語音欺騙攻擊包括語音轉(zhuǎn)換(Voice conversion,VC)、語音合成(Text-to-speech synthesis,TTS)、語音模仿(Impersonation)和語音重放(Replay)[5]。在語音欺騙攻擊中,攻擊者通常會利用各種算法生成和目標(biāo)說話人盡可能相似的語音,而不會直接使用被攻擊的ASV系統(tǒng)的內(nèi)部信息。例如,VC和TTS任務(wù)中,通常以最大化生成音頻的語音質(zhì)量和感知相似度為目標(biāo)函數(shù),而不是以攻破ASV系統(tǒng)為直接目標(biāo)。
除了研究魯棒的欺騙對抗對策之外,研究ASV系統(tǒng)的脆弱性,從而保護(hù)其免受多種類型的攻擊同樣十分重要。為了找出ASV系統(tǒng)的缺陷,需要進(jìn)一步審視語音欺騙攻擊的局限性。作為一名希望攻破ASV系統(tǒng)的黑客,最理想的攻擊方式是能夠通過ASV系統(tǒng)內(nèi)部的功能模塊進(jìn)行攻擊[4]。但是這類要求通常來說都難以實(shí)現(xiàn),因?yàn)樯鲜龉粜枰L問ASV系統(tǒng)內(nèi)部的各種模塊,而ASV系統(tǒng)內(nèi)部模塊一般均拒絕非開發(fā)者進(jìn)行訪問。另一種能夠攻破ASV系統(tǒng)的方法是利用對抗樣本(Adversarial examples)[6]進(jìn)行語音對抗攻擊。對抗樣本是利用被攻擊系統(tǒng)的先驗(yàn)知識,在原始語音中通過故意添加細(xì)微的擾動所形成的語音樣本。將這些語音樣本輸入ASV系統(tǒng),將會導(dǎo)致ASV系統(tǒng)輸出錯(cuò)誤的識別結(jié)果。在諸如圖像處理、自然語言處理等分類任務(wù)中,對抗攻擊受到了很多的關(guān)注[7],但是在語音領(lǐng)域,尤其是ASV領(lǐng)域,關(guān)于對抗樣本的研究還相對較少。關(guān)于對抗樣本攻擊和防御的研究一方面可以提升ASV系統(tǒng)的安全性,另一方面還可以用生成的對抗樣本對訓(xùn)練集進(jìn)行擴(kuò)充,從而提升ASV系統(tǒng)的魯棒性。
圖1 為欺騙攻擊和對抗攻擊的示意圖。由圖1可以看出,欺騙攻擊不需要與被攻擊的ASV系統(tǒng)進(jìn)行交互,而對抗攻擊需要與被攻擊的ASV系統(tǒng)進(jìn)行交互。語音欺騙攻擊主要是通過生成或者獲取與目標(biāo)說話人特征接近的語音,從而使ASV系統(tǒng)在判別時(shí)產(chǎn)生錯(cuò)誤。當(dāng)攻擊者實(shí)施欺騙攻擊時(shí),需要通過語音欺騙系統(tǒng)得到欺騙音頻樣本,然后用欺騙音頻樣本對ASV系統(tǒng)進(jìn)行欺騙。由于語音欺騙攻擊并未利用ASV系統(tǒng)的先驗(yàn)知識,因此攻擊成功率相對并沒有那么高。
圖1 欺騙攻擊和對抗攻擊Fig.1 Spoofing attack and adversarial attack
語音對抗攻擊是指利用語音對抗樣本實(shí)現(xiàn)的攻擊。在對抗攻擊中,攻擊者可以利用被攻擊的ASV系統(tǒng)(或者其他類似的ASV系統(tǒng))的先驗(yàn)知識,來生成對抗樣本。對抗樣本攻擊大致可以分為黑盒、灰盒和白盒攻擊[8]。在黑盒攻擊中,攻擊者只能夠獲取到ASV系統(tǒng)的輸出結(jié)果(說話人相似性得分、接收/拒絕的結(jié)果等),以此作為先驗(yàn)知識來指導(dǎo)對抗樣本的生成[9]?;液泄魟t需要攻擊者掌握更多的信息,例如說話人的特征或者這些特征的實(shí)現(xiàn)過程,但是不需要掌握ASV系統(tǒng)的具體模型結(jié)構(gòu)[10]。白盒攻擊是最具威脅性的攻擊,因?yàn)樵诎缀泄糁?,攻擊者完全掌握了ASV系統(tǒng)的模型結(jié)構(gòu),因此具有豐富的先驗(yàn)信息。最近針對對抗攻擊的研究表明,對抗樣本具有迷惑機(jī)器學(xué)習(xí)系統(tǒng)行為的威脅性[6,11-12]。近些年來,涌現(xiàn)出一些針對ASV系統(tǒng)進(jìn)行對抗攻擊的研究工作[13-17],這些研究工作揭示了ASV系統(tǒng)中存在著新型的潛在安全性威脅。
本文總結(jié)和探討了針對ASV系統(tǒng)的欺騙攻擊和對抗攻擊方法,并展望了這兩類攻擊及其應(yīng)對措施的未來發(fā)展方向。
說話人驗(yàn)證系統(tǒng)的任務(wù)是通過測試語音樣本和已注冊的說話人模型進(jìn)行比較,來決定接受或者拒絕該說話人[1]。其中,ASV系統(tǒng)又分為文本相關(guān)和文本無關(guān)兩類。文本相關(guān)的ASV系統(tǒng)采用固定或者帶提示的短語,這些短語通常在說話人測試和驗(yàn)證時(shí)保持不變。文本無關(guān)的ASV系統(tǒng)則允許說話人用任意語句進(jìn)行注冊和測試。文本相關(guān)的ASV系統(tǒng)通常更適用于身份驗(yàn)證場景,因?yàn)槭褂霉潭ǖ?、較短的語句能夠?qū)崿F(xiàn)更高的識別率。文本無關(guān)的ASV系統(tǒng)同樣具有實(shí)用價(jià)值,例如電話銀行中的說話人驗(yàn)證。典型的ASV系統(tǒng)如圖2所示。
圖2 典型的ASV系統(tǒng)Fig.2 Typical ASV
通常來講,ASV算法可以分為分級(Stage-wise)ASV算法和端到端(End-to-end)ASV算法。分級ASV算法的前端用于提取說話人特征,后端用于計(jì)算特征相似性。前端將時(shí)域或時(shí)頻域表征的語音轉(zhuǎn)化為高維特征矢量。后端首先計(jì)算注冊說話人特征和測試說話人特征之間的相似性得分,然后將分?jǐn)?shù)與閾值比較
式中:f(?)表示計(jì)算相似度的函數(shù),w表示后端的參數(shù),xe和xt分別表示注冊和測試說話人的特征,ξ表示閾值,H0表示xe和xt屬于同一個(gè)說話人,H1表示xe和xt屬于不同說話人。后端的主要作用之一是消除信道變異性,降低干擾,例如:減弱語言間的不匹配帶來的干擾[18]。相比分級ASV算法,端到端ASV算法直接以一組語音作為輸入,直接輸出它們之間的相似度。基于Speaker embedding的說話人驗(yàn)證方法是當(dāng)前的研究重點(diǎn),接下來對常見的Embedding方法進(jìn)行概述。
20世紀(jì)90年代以后,高斯混合模型(Gaussian mixture model,GMM)以其簡單、靈活、有效以及較好的魯棒性,迅速成為當(dāng)時(shí)文本無關(guān)說話人識別領(lǐng)域中的主流技術(shù),將說話人識別研究帶入了嶄新的階段。2000年,Reynolds在說話人確認(rèn)任務(wù)中提出了GMM通用背景模型(GMM universal background model,GMM-UBM)結(jié)構(gòu),為說話人識別從實(shí)驗(yàn)室走向?qū)嵱米龀隽酥匾暙I(xiàn)[1]。但是基于GMM-UBM的ASV算法在很大程度上受到說話人本身和信道變化的影響。為解決這一問題,Dehak等[19]提出利用聯(lián)合因子分析(Joint factor analysis,JFA)方法將GMM-UBM中的超矢量降為低維矢量,并命名為i-vector。GMM/i-vector系統(tǒng)能夠有效地消除說話人內(nèi)部和信道帶來的可變性,從而顯著地改進(jìn)ASV系統(tǒng)的性能。這類能夠表征說話人身份的特征矢量又被稱作Speaker embedding。GMM/i-vector系統(tǒng)如圖3所示。其中常用梅爾倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)作為表征說話人的聲學(xué)特征。由于深度學(xué)習(xí)在語音識別領(lǐng)域的成功應(yīng)用,有許多研究者做了很多努力,從而將GMM/i-vector中的GMM-UBM模型用深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)來替代,這一類算法有兩個(gè)分支,分別是DNN-UBM/i-vector和基于DNN的瓶頸特征(Bottleneck feature,BNF)DNN-BNF/i-vector。接下來對這兩類算法進(jìn)行簡要介紹。
圖3 GMM/i-vector系統(tǒng)Fig.3 GMM/i-vector framework
由于在收集充分統(tǒng)計(jì)量時(shí),只需要用到語音幀的后驗(yàn)概率即可生成i-vector,因此,理論上可以使用除GMMUBM以外的任意概率模型來計(jì)算后驗(yàn)?;谶@一觀點(diǎn),Lei等[20]提 出 了DNN-UBM/i-vector框 架,如 圖4所 示。該框架利用了經(jīng)過自動語音識別(Automatic speech recognition,ASR)系統(tǒng)訓(xùn)練的DNN聲學(xué)模型,記為DNNUBM,以此來替代GMM-UBM生成后驗(yàn)概率[20]。其中的后驗(yàn)概率由DNN聲學(xué)模型產(chǎn)生,充分統(tǒng)計(jì)量由ASV系統(tǒng)計(jì)算得出。
圖4 DNN-UBM/i-vector系統(tǒng)Fig.4 DNN-UBM/i-vector framework
具體來說,DNN-UBM使用一組多元音素(例如三音態(tài))來模擬GMM-UBM中的混合分量。首先訓(xùn)練一個(gè)基于DNN的ASR聲學(xué)模型,使每個(gè)訓(xùn)練幀都與每個(gè)多元音素對齊,然后從DNN聲學(xué)模型的softmax輸出層生成多元音素上每個(gè)幀的后驗(yàn)概率。由于DNN相比GMM有更加強(qiáng)大的表示能力,因此基于DNN-UBM/i-vector架構(gòu)的ASV系統(tǒng)相比基于GMM/i-vector架構(gòu)的ASV系統(tǒng)有30%左右的性能提升。
DNN聲學(xué)模型對內(nèi)容相關(guān)的音素狀態(tài)的清晰建模能力強(qiáng),不僅能夠生成高度緊湊的數(shù)據(jù)表示,還能夠提供精準(zhǔn)的幀間對齊。這種優(yōu)勢在文本相關(guān)的ASV任務(wù)中尤其明顯。然而,相比傳統(tǒng)的GMMUBM/i-vector架構(gòu),DNN帶來了急劇增加的計(jì)算復(fù)雜度。此外,基于DNN的聲學(xué)模型需要大量已標(biāo)記訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練。為了克服這一缺點(diǎn),Snyder等[21]基于DNN聲學(xué)模型,提出了有監(jiān)督的GMMUBM。盡管有監(jiān)督的GMM降低了訓(xùn)練中的計(jì)算復(fù)雜度,但是訓(xùn)練DNN聲學(xué)模型依然需要大量已標(biāo)記的訓(xùn)練數(shù)據(jù)。
DNN-BNF/i-vector框架的基本思想是,從DNN的瓶頸層提取一個(gè)緊湊的特征,將其輸入JFA模塊。瓶頸層是DNN中的一種特殊隱藏層,它的隱藏單元比其他隱藏層要少得多。
在實(shí)際使用中,DNN-BNF/i-vector有多種變體,如圖5所示。JFA的輸入可以是瓶頸層產(chǎn)生的BNF,也可以是BNF和其他聲學(xué)特征的串接[22-23],也可以是經(jīng)過主成分分析(Principal component analysis,PCA)或線性判別分析(Linear discriminant analysis,LDA)處 理 過 后 的 特 征[22-23]。無 論 是 單 獨(dú) 使 用BNF[24],還 是 將 其 與 其 他 聲 學(xué) 特 征 串 接[25],DNNBNF/i-vector的性能都要明顯優(yōu)于傳統(tǒng)的GMM/ivector。
圖5 DNN-BNF/i-vector框架Fig.5 DNN-BNF/i-vector framework
d-vector是最早的基于DNN的Speaker embedding之一[26]。d-vector的核心思想是,在訓(xùn)練階段,將一條訓(xùn)練語音對應(yīng)的真實(shí)說話人身份分配給每一幀作為其標(biāo)簽,這種做法可以將模型訓(xùn)練轉(zhuǎn)化為分類問題。如圖6所示,d-vector使用上下文信息對每條訓(xùn)練幀進(jìn)行擴(kuò)展,并使用帶有maxout激活函數(shù)的DNN將訓(xùn)練語言中的各幀分類到該語音對應(yīng)的說話人身份上去。其中DNN使用softmax作為輸出層,從而最小化各幀真實(shí)標(biāo)簽與網(wǎng)絡(luò)輸出之間的交叉熵?fù)p失。
圖6 d-vector框架Fig.6 d-vector framework
在測試階段,提取DNN最后隱藏層的輸出激活函數(shù)作為每一幀的深度身份特征,然后將一條語音中所有幀對應(yīng)的身份特征進(jìn)行平均,便得到了該語音緊湊的身份特征表示矢量,命名為d-vector。
x-vector是d-vector的一種重要的變體[27-28],x-vector通過聚合過程將ASV任務(wù)從逐幀分析發(fā)展到逐句分析。x-vector的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。首先,通過時(shí)延層提取幀級(Frame-level)的特征矢量。然后通過統(tǒng)計(jì)池化層將幀級特征矢量的均值和標(biāo)準(zhǔn)差連接起來生成段級特征(Segment-level)。最后,通過標(biāo)準(zhǔn)的前饋網(wǎng)絡(luò)將段級特征進(jìn)行分類。在訓(xùn)練時(shí),時(shí)延層、統(tǒng)計(jì)池化層和前饋網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。一般取倒數(shù)第2個(gè)隱層作為表征說話人身份的矢量,稱為x-vector。
圖7 x-vector框架Fig.7 x-vector framework
攻擊者將語音偽裝成目標(biāo)說話人,以此來獲取ASV系統(tǒng)的準(zhǔn)入權(quán)限,這一過程被稱為語音欺騙攻擊。每個(gè)人的聲音信息都很容易被他人獲取,因此語音欺騙攻擊的發(fā)生難以避免。在語音欺騙過程中,攻擊者需要利用各種手段獲得和目標(biāo)說話人接近的語音,再將該語音送入ASV系統(tǒng)的麥克風(fēng),從而實(shí)現(xiàn)欺騙。語音欺騙攻擊主要包含4種主要的攻擊方式,分別是:語音模仿、語音重放、VC和TTS。下文分別介紹這4種欺騙攻擊方式。
語音模仿被定義為產(chǎn)生與目標(biāo)說話人聲音相似的聲音模式或者語音行為的過程[29-31]。語音模仿是利用人類改變的聲音進(jìn)行攻擊,因此也稱為“人類模仿”。語音模仿攻擊可以由專業(yè)的模仿者執(zhí)行(利用行為特征),或者由雙胞胎執(zhí)行(利用生理特征)[32]。模仿者通常不需要任何的技術(shù)背景或者機(jī)器輔助,即可模仿目標(biāo)說話人。
Lau等[33]的研究表明,如果仿冒者知道目標(biāo)說話人的聲音,并且用類似的聲音模式說話,就可以攻破聲紋認(rèn)證系統(tǒng)。通常為了更好地模仿目標(biāo)說話人,專業(yè)的模仿者都會嘗試模仿韻律、口音、發(fā)音、常用詞等高級特征[34]。這種模仿可能會導(dǎo)致人類產(chǎn)生誤判,但是對攻擊ASV系統(tǒng)的作用不大,因?yàn)榇蟛糠諥SV系統(tǒng)都使用基于頻譜的聲學(xué)特征來生成判決結(jié)果。
Hautam?ki等[35]分析了GMM-UBM和i-vector系統(tǒng)面對語音模仿攻擊時(shí)的性能。在這項(xiàng)研究中,5名芬蘭的公共人物被選定為目標(biāo)說話人,之后用專業(yè)的模仿者去模仿他們的聲音,以此來攻破ASV系統(tǒng)。和Mariéthoz等[36]的研究相似,模仿者依然無法成功攻破ASV系統(tǒng)。Hautam?ki等[37]還研究了語音模仿攻擊對常見3種ASV系統(tǒng)的影響,實(shí)驗(yàn)結(jié)果同樣證明語音模仿攻擊會導(dǎo)致ASV系統(tǒng)產(chǎn)生一定的誤判。
在ASV任務(wù)中,需要從語音數(shù)據(jù)中提取每個(gè)人獨(dú)特的說話人特征,然而,雙胞胎之間的說話人特征十分相似,區(qū)分性不強(qiáng)[38]。通常ASV系統(tǒng)中使用頻譜特征來區(qū)分說話人身份。但是Kersta等[39]的研究表明,同樣的技術(shù)手段無法有效區(qū)分雙胞胎。Patil等[40]的研究也表明,雙胞胎之間的語音信號模式,基音周期(F0)輪廓,共振峰輪廓和頻譜盡管不完全相同,但也非常相似。由于缺少語音特征獨(dú)特性,因此在面對雙胞胎時(shí),ASV系統(tǒng)的錯(cuò)誤接受率(False accept rate,F(xiàn)AR)會顯著提升。
總之,語音模仿攻擊對ASV系統(tǒng)的安全性有一定的影響,但由于這類攻擊的效果和具體模仿者的模仿水平有強(qiáng)相關(guān)關(guān)系,因此一般不被認(rèn)為是ASV系統(tǒng)的主要威脅之一。但是關(guān)于雙胞胎模仿攻擊的有效性和原理值得進(jìn)一步進(jìn)行研究。
語音重放是最常見的欺騙攻擊手段之一。攻擊者希望通過重放預(yù)先錄制的目標(biāo)說話人的語音,來達(dá)到獲取ASV系統(tǒng)準(zhǔn)入權(quán)限的目的[41-43]。在高質(zhì)量的音頻錄音重放設(shè)備的加持下,重放語音將會和原始語音高度相似,由于設(shè)備的脈沖響應(yīng),只有頻譜內(nèi)容會產(chǎn)生微弱的變化。因此,語音重放對ASV系統(tǒng)具有比較嚴(yán)重的威脅。ASVspoof 2017挑戰(zhàn)賽將注意力瞄準(zhǔn)了針對文本相關(guān)ASV系統(tǒng)的語音重放及其檢測[44]。ASVspoof2019挑戰(zhàn)賽中同樣也涉及了對重放攻擊的研究,包括模擬場景下的重放攻擊和真實(shí)場景下的重放攻擊[5]。在此之前,針對語音重放的工作比較有限。語音重放主要包括兩種,一種是通過錄音和重放設(shè)備進(jìn)行攻擊,另一種是通過拷貝的語音副本進(jìn)行攻擊,如圖8所示。
圖8 語音重放場景Fig.8 Replay attack scenario
在語音重放中,真實(shí)語音信號記為s[n],該信號可以視為聲門氣流p[n]和聲帶沖激響應(yīng)h[n]的卷積
因此,重放語音信號r[n]可以建模為真實(shí)語音信號s[n]和中間設(shè)備(錄音和重放設(shè)備)的沖激響應(yīng)的卷積η[n]
式中,η[n]中是多種因素的卷積,包括錄音設(shè)備的沖激響應(yīng)hmic[n],錄音環(huán)境a[n],重放設(shè)備(多媒體麥克風(fēng))hspk[n],以及重放環(huán)境b[n]
下面介紹一些關(guān)于語音重放的研究。Lindberg等[41]首先在隱馬爾科夫模型(Hidden Markov model,HMM)模型上研究了針對文本相關(guān)系統(tǒng)的語音重放。男性說話人的FAR從1.1%增長到89.5%,女性說話人的FAR從5.6%增長到100%。Shang等[45]對說話人進(jìn)行了多種錄音,并評估了這些錄音用來進(jìn)行語音重放的效果。Wang和Villalba等的團(tuán)隊(duì)還研究了基于信道噪聲的語音重放。Wang等[46]采用支持向量機(jī)(Support vector model,SVM)對信道噪聲進(jìn)行訓(xùn)練,以此來評估輸入語音是重放語音還是原始真實(shí)語音,實(shí)驗(yàn)發(fā)現(xiàn)經(jīng)語音重放后的系統(tǒng)錯(cuò)誤率約為40%。Villalba等[47]采用JFA方法的研究基于兩種因子:第1種是麥克風(fēng)中是否有擴(kuò)音器的重放錄音;第2種是語音樣本是復(fù)制粘貼的可能性。實(shí)驗(yàn)結(jié)果表明,經(jīng)過欺騙后的系統(tǒng)等錯(cuò)誤率(Equal error rate,EER)為20%,F(xiàn)AR為40%。
Wu等[48]在RSR2015數(shù)據(jù)集上驗(yàn)證了語音重放對GMM-UBM和HMM-UBM系統(tǒng)的有效性。預(yù)先錄制好的語音樣本對HMM和GMM模型進(jìn)行重放。EER從2.92%提高到25.56%,F(xiàn)AR則高達(dá)78.36%。Galka等[49]研究了電話信道中的語音重放,并提出了一種針對電話信道語音重放的檢測手段,并且能夠以極高成功率檢測出這類語音重放。Delgado等[50]的一項(xiàng)分析表明,在干凈環(huán)境下通過高質(zhì)量的錄音和重放設(shè)備生成的重放語音很難被檢測出來。Yoon等[51]提出了一種新型的重放攻擊及防御方式,這種攻擊只包括嵌入在ASV系統(tǒng)中的一個(gè)錄音設(shè)備的屬性,真正的語音只通過錄音設(shè)備一次,重放語音則要通過同一錄音設(shè)備兩次。針對現(xiàn)實(shí)場景中的語音控制系統(tǒng),Gong等[52]開發(fā)了新一代的重放攻擊數(shù)據(jù)集(Realistic replay attack microphone array speech corpus,ReMASC),數(shù)據(jù)集中包含真實(shí)的語音控制指令和重放設(shè)備播放的指令,該數(shù)據(jù)集對語音控制系統(tǒng)中的重放攻擊研究提供了公開的研究素材。
總之,ASV系統(tǒng)很容易受到預(yù)先錄制好的說話人語音樣本帶來的語音重放攻擊。由于語音重放的語音樣本中包含了大量目標(biāo)說話人本身的特征,因此語音重放對任何不受保護(hù)的ASV系統(tǒng)都具有嚴(yán)重的威脅,尤其是對文本無關(guān)ASV和沒有錯(cuò)誤口令保護(hù)的文本相關(guān)ASV。對于擁有錯(cuò)誤口令保護(hù)的ASV系統(tǒng)來說,由于需要預(yù)先錄制相同內(nèi)容的語音樣本,因此無法實(shí)現(xiàn)較為靈活的語音重放攻擊。
語音轉(zhuǎn)換(VC)的目標(biāo)是將源說話人的語音波形進(jìn)行變換處理,使其聽起來像目標(biāo)說話人的語音[53]。VC是對聲調(diào)、語音時(shí)長、響度和音色等不同語音特征的頻譜映射。VC的一般流程分為3步,分別是語音特征提取、語音特征轉(zhuǎn)換和重新合成語音信號。在提取特征階段,常用的算法包括諧波噪聲模型(Harmonic noise model,HNM)[54]、自適應(yīng)加權(quán)譜內(nèi)插(Speech transformation and representation using adaptive interpolation of weighted spectrum,STRAIGHT)方法[55]等。通常來說,最常使用也是最重要的語音特征是頻譜包絡(luò)特征(或者M(jìn)FCC),它表示具體發(fā)音。除此之外,基頻(表示音高)、語速、韻律等特征有時(shí)也會用于語音轉(zhuǎn)換。在重新合成語音的過程中,一般使用聲碼器。傳統(tǒng)的聲碼器合成出的語音質(zhì)量通常很差,因此,在2018年開展的語音轉(zhuǎn)換挑戰(zhàn)賽報(bào)告中提出[56],使用WaveNet[57]來替代傳統(tǒng)的聲碼器,可以獲得語音質(zhì)量的提升。在ASVspoof2019中[58],利用了兩種語音轉(zhuǎn)換算法來生成欺騙語音,分別是基于神經(jīng)網(wǎng)絡(luò)的方法和基于轉(zhuǎn)換函數(shù)的方法。
2.3.1 傳統(tǒng)語音轉(zhuǎn)換方法
傳統(tǒng)的語音轉(zhuǎn)換方法中,需要固定源說話人和目標(biāo)說話人的身份,同時(shí)需要幀間對齊的訓(xùn)練數(shù)據(jù)。因?yàn)橛袛?shù)據(jù)對齊的要求,因此傳統(tǒng)的語音轉(zhuǎn)換方法一般難以進(jìn)行跨語種的語音轉(zhuǎn)換,即源說話人和目標(biāo)說話人的訓(xùn)練數(shù)據(jù)不能是不同語種。
Abe等[59]提出了基于統(tǒng)計(jì)頻譜映射的矢量量化(Vector quantization,VQ)方法。Pellom等[60]針對GMM-UBM系統(tǒng),在包含138個(gè)說話人的YOHO數(shù)據(jù)集上進(jìn)行了VC攻擊實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,F(xiàn)AR從1%急劇上升到了81%,這說明VC對未經(jīng)防御的ASV系統(tǒng)存在嚴(yán)重的威脅。Patrick等[61]和Matrouf等[62]利用VC攻擊GMM-UBM系統(tǒng),錯(cuò)誤率分別從16%和8%上升到26%和63%。Bonastre等[63]同樣對GMM-UBM系統(tǒng)進(jìn)行語音轉(zhuǎn)換攻擊,使系統(tǒng)錯(cuò)誤率從6.61%提升到28.07%。Kinnunen等[64]對JFA系統(tǒng)進(jìn)行攻擊后,使錯(cuò)誤率從3.24%提升到7.61%。Wu等[65-66]和Alegre等[67-69]則使用VC對不同ASV系統(tǒng)實(shí)現(xiàn)了攻擊。
高斯混合模型(Gaussian mixture model,GMM)[70-72]GMM是最主流的傳統(tǒng)方法,這種方法的基本思路為,用一個(gè)GMM對輸入特征和轉(zhuǎn)換后的特征的聯(lián)合分布進(jìn)行擬合,然后在轉(zhuǎn)換時(shí),根據(jù)輸入特征和得到的GMM即可推斷出轉(zhuǎn)換后的特征。語音轉(zhuǎn)換中,GMM的每一個(gè)分量表示如下
式中:X和Y分別代表輸入的特征和轉(zhuǎn)換后的特征;ΣXX,ΣXY和ΣYY均為對角矩陣,即只有X和Y對應(yīng)維度之間是相關(guān)的,X和Y內(nèi)部各維度、以及X和Y的不同維度之間相互獨(dú)立。因此在選取特征時(shí),最好選取各維度之間本來就相互獨(dú)立的特征(如MFCC)。
頻率彎折法(Frequency warping)[73]頻率彎折法主要包含3步。首先,對訓(xùn)練數(shù)據(jù)中的輸入、輸出語音分別提取共振峰信息;然后從匹配的輸入、輸出的共振峰數(shù)據(jù)中,擬合出一個(gè)分段線性彎折函數(shù)[74];在轉(zhuǎn)換時(shí),利用擬合出的彎折函數(shù)對語音的頻譜包絡(luò)進(jìn)行伸縮變換。分段線性的彎折函數(shù)可以調(diào)整頻譜包絡(luò)中各個(gè)共振峰的位置和寬度,從而使輸入、輸出頻譜包絡(luò)盡可能相似。但是頻率彎折法由于對頻譜包絡(luò)改動過少,因此局限較大。不過也正因?yàn)楦膭虞^少,導(dǎo)致轉(zhuǎn)換后的音質(zhì)較好。
基于模板的方法(Example-based method)[75]這種方法的一般思路是,將語音的語譜圖分解成許多基本元素(即模板)的疊加。如圖9所示。Y表示語譜圖;F表示詞典,每一列表示一個(gè)元素;G表示增益矩陣,其元素表示每個(gè)樣本的強(qiáng)度,一般來說G是稀疏的。詞典和增益矩陣都是非負(fù)矩陣,因此這個(gè)過程稱為非負(fù)矩陣分解(Non-negative matrix factorization,NMF)?;谀0宓恼Z音轉(zhuǎn)換步驟主要分為兩步:
圖9 語譜圖NMFFig.9 Non-negative matrix factorization of spectrogram
(1)在訓(xùn)練時(shí),把對齊后的源說話人和目標(biāo)說話人的語譜圖進(jìn)行NMF。用Xi和Yi表示源說話人和目標(biāo)說話人的第i條語音的語譜圖,則有
式中,詞典矩陣F只和說話人相關(guān),同一說話人全部語音的詞典都相同;而增益矩陣G與說話人無關(guān)。
(2)在轉(zhuǎn)換時(shí),先將輸入語音的語譜圖X用原說話人的詞典F1分解,得到增益矩陣G,再根據(jù)該增益矩陣和目標(biāo)說話人詞典F2合成轉(zhuǎn)換后的語譜圖Y
2.3.2 新型語音轉(zhuǎn)換方法
相比傳統(tǒng)的語音轉(zhuǎn)換方法,新型的語音轉(zhuǎn)換方法除了在音質(zhì)和說話人相似性兩方面對傳統(tǒng)方法實(shí)現(xiàn)了超越,而且新型語音轉(zhuǎn)換不需要訓(xùn)練數(shù)據(jù)幀間對齊,其中有些方法還突破了源說話人和目標(biāo)說話人身份固定的限制[76]。
生成對抗式網(wǎng)絡(luò)(Generative adversarial network,GAN)
GAN是一種生成式網(wǎng)絡(luò),GAN的模型中除了有一個(gè)生成器G以外,還有一個(gè)判別器D。GAN應(yīng)用于圖像、語音等數(shù)據(jù)時(shí),生成的結(jié)果往往能以假亂真,但缺點(diǎn)是訓(xùn)練比較困難。Kaneko等[77]利用Cycle-GAN實(shí)現(xiàn)了語音轉(zhuǎn)換。CycleGAN中含有兩個(gè)生成器G和F,如圖10所示。G負(fù)責(zé)把源說話人語音x轉(zhuǎn)換成目標(biāo)說話人語音y,F(xiàn)的作用則是將y變成x。使用CycleGAN進(jìn)行語音轉(zhuǎn)換,突破了需要平行語音訓(xùn)練數(shù)據(jù)的限制,但是仍然要提前指定源說話人和目標(biāo)說話人的身份。
圖10 CycleGAN示意圖Fig.10 Schematic diagram of Cycle-GAN
i?vector+PLDA(Probabilistic linear discriminant analysis)之前介紹的語音轉(zhuǎn)換方法都需要指定源說話人和目標(biāo)說話人的身份,Kinnunen等[78]借鑒了ASV中的i-vector和PLDA,只需要訓(xùn)練一個(gè)系統(tǒng),就可以處理多個(gè)源說話人和目標(biāo)說話人。首先提取輸入語音的i-vectorω1,假設(shè)源和目標(biāo)說話人的i-vector分別為y1和y2,為了保持語音內(nèi)容不變,只改變說話人身份,則按照式(10)轉(zhuǎn)換得到轉(zhuǎn)換后的ivectorω2。
然后通過i-vector的改變量,逆推出GMM中各分量偏移量,并求出每幀語音特征屬于GMM各分量的概率,以這些概率為權(quán)重對各分量偏移量進(jìn)行加權(quán)平均,得到每幀語音應(yīng)該改變的數(shù)值。最后用修改后的MFCC重新合成語音。
自編碼器(Autoencoder)通過自編碼器進(jìn)行語音轉(zhuǎn)換,也不需要指定源說話人和目標(biāo)說話人。自編碼器中含有一個(gè)編碼器和一個(gè)解碼器,編碼器負(fù)責(zé)把數(shù)據(jù)的表層特征轉(zhuǎn)換成隱特征,解碼器負(fù)責(zé)從隱特征中恢復(fù)出表層特征。在語音轉(zhuǎn)換任務(wù)中,數(shù)據(jù)的表層特征可以是波形、語譜圖、MFCC序列等,隱特征則蘊(yùn)含了語音的內(nèi)容和說話人的身份信息。如果能通過某種手段,將隱特征中內(nèi)容和身份兩部分信息分開,那就可以實(shí)現(xiàn)任意替換隱特征中的身份信息,實(shí)現(xiàn)語音轉(zhuǎn)換。Hsu等[79]、Chou等[80]、Qian等[81]利用自編碼器的這種特性,提出了多種語音轉(zhuǎn)換方法。使用語音轉(zhuǎn)換對ASV系統(tǒng)進(jìn)行攻擊,通常是通過最小化生成語言和目標(biāo)語音之間的頻譜距離來實(shí)現(xiàn)的。雖然頻譜距離測度和ASV系統(tǒng)中的說話人相似性度量之間的聯(lián)系性很弱,但是多項(xiàng)研究表明,ASV系統(tǒng)仍然對這些攻擊很敏感[63-64,82-83]。
語音合成(TTS)是一種可以將任意文本信息轉(zhuǎn)換為自然語音的技術(shù),如圖11所示。TTS系統(tǒng)包含兩個(gè)主要過程:第一步是文本分析,在這一步文本被轉(zhuǎn)化成語音或者其他形式;第二步是利用上一步生成的信息合成語音信號,其中第一步通常被稱為前端,第二步被稱為后端。之前有許多關(guān)于ASV系統(tǒng)面對TTS時(shí)表現(xiàn)出脆弱性的研究[41-42,84]。早在2000年,Masuko等[85]就發(fā)現(xiàn)了ASV系統(tǒng)面對基于HMM的TTS技術(shù)時(shí)具有脆弱性。后來,De Leon等[86]分別對GMM-UBM和SVM兩類ASV系統(tǒng)進(jìn)行了TTS攻擊,攻擊使FAR分別從0.28%和0%上升到86%和81%。Galou等[87]針對商用的ASV系統(tǒng)進(jìn)行攻擊,也取得了類似的效果。在ASVspoof2019挑戰(zhàn)賽中[58],使用了多種TTS算法,包括波形串接、使用源濾波編碼器的參數(shù)TTS和使用Wavenet的TTS。這些合成語音均由公開的TTS工具M(jìn)erlin[88]、CURRENT[89]和MaryTTS[90]生成。
圖11 TTS流程圖Fig.11 Flow chart of TTS
2.4.1 結(jié)合深度學(xué)習(xí)的傳統(tǒng)TTS
TTS中傳統(tǒng)方法主要包括拼接法、參數(shù)法。由于深度學(xué)習(xí)的快速發(fā)展,將神經(jīng)網(wǎng)絡(luò)引入傳統(tǒng)的TTS系統(tǒng)中,用于替代各個(gè)模塊,是一種有效的方法。代表方法有Deep Voice-1[91]和Deep Voice-2[92]。Deep Voice-1的合成速度較快,合成質(zhì)量也很高。Deep Voice-2則進(jìn)一步將i-vector引入了模型訓(xùn)練過程。但是這兩種系統(tǒng)是模塊化系統(tǒng),因此在訓(xùn)練時(shí)難以進(jìn)行聯(lián)合優(yōu)化。到Deep Voice-3系統(tǒng)已經(jīng)實(shí)現(xiàn)了端到端TTS。
2.4.2 端到端TTS
Wang等[93]于2016年首次提出了端到端TTS模型。后來,在Interspeech2017上發(fā)布了Tacotron-1 TTS端到端系統(tǒng)[94]。2018年開發(fā)者又對其進(jìn)行了改進(jìn),在Tacotron-1的基礎(chǔ)上改用Wavenet作為聲碼器[95]。總體上講,相比非端到端TTS系統(tǒng),Tacotron系列系統(tǒng)架構(gòu)相對較為簡單,同時(shí)也能得到高質(zhì)量的合成語音。百度于2018年在Deep Voice-2的基礎(chǔ)上也開發(fā)了自己的端到端TTS系統(tǒng)——Deep Voice-3[96]。Deep Voice-3是一個(gè)基于全卷積注意力機(jī)制的TTS系統(tǒng),其中的聲學(xué)模型可以生成多種中間表征形式。Deep Voice-3相比之前的TTS系統(tǒng),大幅度提升了訓(xùn)練速度和TTS速度。
現(xiàn)代的VC和TTS系統(tǒng)都不是為特定的說話人量身打造的。通過將多說話人語音數(shù)據(jù)訓(xùn)練出的模型自適應(yīng)調(diào)整到預(yù)期目標(biāo)[83],或者使用全局說話人變量來調(diào)節(jié)模型[97],可以生成高質(zhì)量的目標(biāo)說話人語音。這些說話人調(diào)節(jié)變量和ASV系統(tǒng)中的說話人身份矢量類似。這些技術(shù)的發(fā)展使得ASV系統(tǒng)和TTS/VC系統(tǒng)更加接近,也因此會對ASV系統(tǒng)產(chǎn)生更大的威脅。
語音對抗攻擊是指利用語音對抗樣本對ASV系統(tǒng)進(jìn)行攻擊。對抗樣本是指在數(shù)據(jù)集中通過故意添加細(xì)微的擾動所形成的輸入樣本,該樣本會導(dǎo)致機(jī)器學(xué)習(xí)模型以高置信度給出一個(gè)錯(cuò)誤的輸出。包括深度學(xué)習(xí)模型在內(nèi)的機(jī)器學(xué)習(xí)模型對于對抗攻擊十分敏感,攻擊者可以只對原始語音樣本進(jìn)行微弱的改動,即可導(dǎo)致ASV系統(tǒng)無法正常進(jìn)行識別、分類任務(wù)。隨著DNN在諸如ASR、說話人識別、情感識別和行為識別等語音信號處理任務(wù)中的應(yīng)用,研究ASV系統(tǒng)針對對抗樣本的脆弱性并研究如何防御對抗樣本變得越來越重要。下面簡要介紹國內(nèi)外學(xué)者針對ASV系統(tǒng)的對抗樣本攻擊研究。
給定音頻樣本x,則語音對抗樣本的生成過程表示為
式(11)的目標(biāo)是使分類器無法正確完成對x?的分類。如果原始音頻x的標(biāo)簽為yori,則攻擊者的目標(biāo)就是使對抗樣本的分類結(jié)果y?≠yori。在語音領(lǐng)域,式(11)中的范數(shù)p通常為無窮范數(shù)或者2范數(shù)。
目前針對ASV系統(tǒng)進(jìn)行的對抗攻擊,按照攻擊者是否掌握ASV內(nèi)部信息(包括模型結(jié)構(gòu),參數(shù),損失函數(shù)和梯度信息等),可以分為白盒攻擊、灰盒攻擊和黑盒攻擊。通常來說,白盒攻擊和灰盒的攻擊成功率更高,但是黑盒攻擊更加符合現(xiàn)實(shí)攻擊場景。對抗攻擊還可以分為有目標(biāo)和無目標(biāo)攻擊。在無目標(biāo)攻擊中,只需要使ASV系統(tǒng)產(chǎn)生錯(cuò)誤的輸出結(jié)果即可;在有目標(biāo)攻擊中,需要指定ASV系統(tǒng)輸出特定的識別結(jié)果。
關(guān)于說話人識別系統(tǒng)的對抗樣本研究在近幾年剛剛開始起步。2018年,Kreuk[98]和Gong等[99]首次提出了針對端到端長短時(shí)記憶網(wǎng)絡(luò)(Long short term memory,LSTM)說話人識別系統(tǒng)的對抗樣本生成方法。之后,又出現(xiàn)了針對x-vector和i-vector系統(tǒng)的對抗樣本攻擊。2020年,Li等[100]使用快速梯度符號法(Fast gradient sign method,F(xiàn)GSM)實(shí)現(xiàn)了對GMM/i-vector和x-vector系統(tǒng)的攻擊。Xie等[101]提出了一種實(shí)時(shí)的通用黑盒攻擊方法,該方法生成的對抗樣本不僅能夠?qū)崿F(xiàn)實(shí)時(shí)攻擊,而且可以適應(yīng)不同說話人發(fā)出的不同時(shí)長的語音。在實(shí)驗(yàn)中,該通用對抗攻擊方法成功攻擊了基于Kaldi[102]時(shí)延神經(jīng)網(wǎng)絡(luò)(Time-delay neural network,TDNN)的x-vector系統(tǒng)。Li等[103]引入了通用對抗擾動(Universal adversarial perturbations,UAPs),文中提出了一種生成模型,該模型能夠?qū)W習(xí)從低維正態(tài)分布到UAPs子空間的映射,因此使用任何輸入語音均可生成UAPs。實(shí)驗(yàn)表明生成的UAPs可以以高成功率欺騙已訓(xùn)練的ASV模型。Wang等[104]利用心理聲學(xué)概念,對x-vector系統(tǒng)實(shí)現(xiàn)了白盒攻擊,并且顯著減弱了擾動的可感知性。Villalba等[105]研究了利用對抗樣本攻擊基于x-vector的ASV系統(tǒng),并且成功利用小型白盒ASV系統(tǒng)中生成的對抗樣本攻擊了規(guī)模更大的黑盒ASV系統(tǒng)。Zhang等[106]提出了動量迭代FGSM(Momentum iterative FGSM,MI-FGSM),并用該方法成功攻擊了ASV欺騙對抗系統(tǒng)。Chen等[107]提出了FakeBob對抗攻擊系統(tǒng)。FakeBob通過向原始語音添加細(xì)微擾動從而實(shí)現(xiàn)了黑盒攻擊,并且能夠在多種現(xiàn)實(shí)場景中實(shí)現(xiàn)攻擊。研究中包含了多種說話人識別系統(tǒng)的架構(gòu)(包含商用系統(tǒng)),攻擊的可轉(zhuǎn)移性,不可感知性分析和在現(xiàn)實(shí)場景中進(jìn)行播放實(shí)現(xiàn)攻擊。Li等[108]和Xie等[101]的研究通過在訓(xùn)練中添加混響,探究了真實(shí)場景下對抗攻擊的實(shí)時(shí)性和可行性。
Marras等[109]嘗試使用字典攻擊(Dictionary attack)來攻擊ASV系統(tǒng)。這類攻擊允許有大量的目標(biāo)說話人,而且不需要了解關(guān)于目標(biāo)說話人的聲音特點(diǎn)或者語音模型。字典攻擊通過向主聲(Master voice)中添加對抗擾動,來最大化主聲和大部分說話人的語譜圖相似度。當(dāng)語譜圖相似度超過閾值,主聲和人群中大量說話人相接近時(shí),就通過語譜圖反向生成時(shí)域波形。
Nakamura等[110]利用白盒ASV系統(tǒng)實(shí)現(xiàn)了一種驗(yàn)證-合成攻擊(Verification-to-synthesis,VTS)。在這種對抗攻擊中,使用沒有目標(biāo)說話人訓(xùn)練數(shù)據(jù)的白盒ASV模型對VC系統(tǒng)進(jìn)行訓(xùn)練。由于訓(xùn)練后的網(wǎng)絡(luò)可能會對輸入語音的語音特性進(jìn)行扭曲,因此在優(yōu)化過程中,文中添加了一個(gè)ASR模型,以彌補(bǔ)語音信息的損失。這樣輸出的語音不僅能夠欺騙ASV系統(tǒng),而且保持了感知質(zhì)量。
Liu等[111]針對ASV系統(tǒng)的抗欺騙系統(tǒng)(Anti-spoof)進(jìn)行了黑盒和白盒攻擊。作者使用FGSM和投影梯度下降法生成對抗樣本,以此來攻擊基于輕量卷積神經(jīng)網(wǎng)絡(luò)(Light convolutional neural network,LCNN)的抗欺騙系統(tǒng)。通過實(shí)驗(yàn)表明,使用黑盒和白盒生成對抗樣本,均可以有效欺騙性能良好的ASV抗欺騙系統(tǒng)。
接下來,對已經(jīng)應(yīng)用于ASV系統(tǒng)的幾種對抗樣本生成算法進(jìn)行簡要介紹。
3.2.1 FGSM
FGSM是一種計(jì)算效率高的單步攻擊方法[11],計(jì)算中僅僅使用梯度函數(shù)的符號,并沿著梯度的方向來最大化誤分類,從而生成對抗樣本
式中:x為給定的源說話人的語音樣本,~x為最終生成的對抗樣本,y為待攻擊的目標(biāo)說話人標(biāo)簽,θ為網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),L為交叉熵函數(shù),ε為限定的最大擾動值。通常來說,最大擾動ε越大,ASV系統(tǒng)產(chǎn)生誤分類的可能性越高,但是擾動的不可感知性也越差。FGSM是一種能夠快速生成對抗樣本的算法,但是攻擊成功率并不是很高。
3.2.2 迭代FGSM或基本迭代法
相比FGSM在梯度方向上取單步下降,迭代FGSM(Iterative FGSM,IFGSM)或基本迭代法(Basic iterative method,BIM)[112]在梯度方向上進(jìn)行多次步長較小的迭代,迭代步長為α,即
3.2.3 Carlini-Wagner(CW)攻擊
CW攻擊[113]嘗試找到能夠欺騙分類器并且保持不可感知性的最小擾動
式中g(shù)(·)定義的目標(biāo)函數(shù)表示為
式中:Z(·)為包含所有類別后驗(yàn)概率的輸出矢量,t表示真實(shí)標(biāo)簽對應(yīng)的輸出節(jié)點(diǎn),δ為置信邊界參數(shù),[·]+表示max(·,0)。直觀上看,CW攻擊嘗試找到錯(cuò)誤類別中后驗(yàn)概率最大的類別,并使其后驗(yàn)概率超過真實(shí)標(biāo)簽的后驗(yàn)概率。范數(shù)p可以取2或者∞。
3.2.4 投影梯度下降攻擊(Projected gradient descent,PGD)
Madry等[114]提出了迭代梯度l∞攻擊的廣義版本
式中:α為梯度下降更新的步長,x+S表示如果擾動超出了一定范圍,就要映射回規(guī)定的范圍S內(nèi)。PGD算法會規(guī)定最大的迭代次數(shù)T。因此經(jīng)過T輪迭代的PGD一般記為PGD-T。
本文從語音欺騙攻擊和對抗樣本攻擊兩個(gè)角度,介紹了針對ASV系統(tǒng)的攻擊方法,梳理總結(jié)了近些年來國內(nèi)外專家學(xué)者對ASV系統(tǒng)安全性研究方面所取得的進(jìn)展??傮w上說,目前關(guān)于語音欺騙攻擊和檢測的研究遠(yuǎn)多于對抗樣本的攻擊與防御研究。但是由于對抗樣本攻擊的攻擊成功率更高,不可感知性更強(qiáng),因此比語音欺騙攻擊對ASV系統(tǒng)的威脅更大。當(dāng)前最先進(jìn)的語音欺騙攻擊和對抗樣本攻擊都已經(jīng)取得了很高的攻擊成功率,但是仍需要以下幾個(gè)方面進(jìn)行進(jìn)一步的研究。
語音欺騙攻擊方面:
(1)多欺騙攻擊手段聯(lián)合
目前主流的研究都關(guān)注于單一欺騙手段的研究,未來攻擊者可能結(jié)合多種欺騙攻擊手段,從而實(shí)現(xiàn)攻擊。例如語音轉(zhuǎn)換合語音模仿相結(jié)合,可以在頻譜域和時(shí)間域?qū)SV系統(tǒng)進(jìn)行欺騙。因此,對于這類多欺騙攻擊手段的聯(lián)合攻擊,需要研究者們繼續(xù)關(guān)注。
(2)欺騙檢測方法的普適性
目前的欺騙檢測和防御手段大多都只能降低某種特定欺騙攻擊的威脅。同時(shí),針對未知類型的欺騙攻擊手段,目前的檢測方法還不能做到較好地區(qū)分欺騙語音和真實(shí)語音。未來應(yīng)該著重研究具有通用性和普適性的欺騙檢測方法,從而能夠在沒有任何先驗(yàn)知識的情況下,檢測出未知的欺騙攻擊手段。
(3)欺騙攻擊和檢測方法的魯棒性
現(xiàn)實(shí)場景中存在大量的噪聲和混響,會帶來注冊和測試之間的不匹配問題,從而影響欺騙攻擊或者檢測的效果。因此需要進(jìn)一步降低噪聲和混響帶來的不利影響,提高復(fù)雜的聲學(xué)環(huán)境下欺騙攻擊和檢測的成功率,使欺騙攻擊和檢測更加貼近真實(shí)應(yīng)用場景[115]。
語音對抗攻擊方面:
(1)攻擊與防御的評判標(biāo)準(zhǔn)
目前,針對ASV系統(tǒng)的對抗樣本攻擊與防御的研究較少,現(xiàn)有的對抗攻擊研究還沒有在評估數(shù)據(jù)集和評估指標(biāo)上實(shí)現(xiàn)統(tǒng)一,大多數(shù)工作都利用現(xiàn)有的說話人識別數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。因此,考慮到對抗樣本攻擊與防御的實(shí)用性,需要有一個(gè)共同的協(xié)議、評估指標(biāo)和評估數(shù)據(jù)集來統(tǒng)一評判標(biāo)準(zhǔn)。此外,無論語音欺騙攻擊和對抗樣本攻擊,都是對ASV系統(tǒng)嚴(yán)重的威脅,如何將二者統(tǒng)一到同一評判標(biāo)準(zhǔn)仍值得進(jìn)一步研究。
(2)ASV系統(tǒng)防御手段
針對ASV系統(tǒng)的對抗樣本攻擊,深刻地揭示了ASV系統(tǒng)的脆弱性。因此,應(yīng)該進(jìn)一步研究針對此類攻擊的防御方法。如何能夠同時(shí)應(yīng)對和防御多種攻擊類型,將是防御領(lǐng)域的重點(diǎn)之一。此外,對抗樣本攻擊可以利用有關(guān)于任何系統(tǒng)的先驗(yàn)信息,因此可以將對抗樣本攻擊施加在帶有欺騙對抗策略的ASV系統(tǒng)上。目前尚未有類似工作發(fā)表。由于現(xiàn)實(shí)場景中的許多ASV系統(tǒng)都結(jié)合了欺騙對抗系統(tǒng),因此,針對此類組合系統(tǒng)的攻擊具有很強(qiáng)的現(xiàn)實(shí)意義,同時(shí)可以進(jìn)一步提高此類系統(tǒng)的安全性。
(3)提高不可感知性和攻擊成功率
通過生成具有高度不可感知性的對抗樣本,從而使人類無法察覺對抗樣本的存在,進(jìn)而以高成功率實(shí)現(xiàn)攻擊,是目前許多研究者正在努力的方向。同時(shí),如何對這類對抗樣本進(jìn)行檢測和防御,也是一個(gè)值得研究的課題。
語音的欺騙攻擊和對抗樣本攻擊是當(dāng)前的研究熱點(diǎn),在語音信號處理領(lǐng)域和信息安全領(lǐng)域均受到了廣泛關(guān)注。隨著錄音設(shè)備質(zhì)量的提高,對抗樣本攻擊技術(shù)的發(fā)展,以及TTS、VC等語音生成技術(shù)的進(jìn)步,ASV系統(tǒng)面對的安全性威脅將會越來越嚴(yán)重。當(dāng)前,越來越多的國內(nèi)外研究者參與到了語音系統(tǒng)的安全性研究之中,相信在眾多研究者的努力下,語音系統(tǒng)的安全性將會得到顯著提升。