關(guān)鍵詞:音頻深度偽造檢測;深度學(xué)習(xí);特征融合;聲碼器偽跡
中圖分類號:TN912.3 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2025)07-025-2109-07
doi:10.19734/j.issn.1001-3695.2024.11.0460
Abstract:Advancements inartificialinteligence have madedistinguishingsynthesized speech fromgenuinespeech increasinglychallenging,complicating audio deepfake detection.Existing methods often exhibit low acuracy,poor generalization, and weakrobustness.Thisstudy proposed MFF-STViT,amethod integratingthreeaudio features with vocoderartifactfeatures through anovelfeature fusionmoduletoenhance representation.The fused features were processdusing animproved Transformer model,STViT,toreduce redundancyand improve detectionperformance.Onthe ASVspoof2019LA testset,the method reduced the equal error rate(EER)by 71.38% on average. On the ASVspoof2O21 LA dataset, it achieved average reductions of 44.41% in EERand 18.11% intheminimum tandem detection cost function(min-tDCF).For the ASVspoof2021 DF dataset, the average EER decreased by 57.81% ,with reductions exceeding 80% in specific partitions. These findings demonstrate the efectiveness of MFF-STViT in improving accuracy,generalization,and robustness.
Keywords:audio deepfake detection;deep learning;feature fusion;vocoder artifacts
0 引言
近年來,自動(dòng)說話人確認(rèn)(automaticspeakerverification,ASV)系統(tǒng)因其采集方式簡便、特異性高、成本低等優(yōu)點(diǎn)被廣泛應(yīng)用于語音郵件、電話銀行、呼叫中心、生物特征認(rèn)證、法醫(yī)應(yīng)用等領(lǐng)域[1]。然而,隨著越來越多算法的出現(xiàn)和人工智能技術(shù)的發(fā)展,合成人類語音越來越難以辨別。常見的合成語音方法包括文本到語音(texttospeech,TTS)[2]、語音轉(zhuǎn)換(conver-ting speech from source speaker to target speaker,VC)[3]等。
文本到語音(TTS)技術(shù)是一種將輸人的文本內(nèi)容轉(zhuǎn)換為語音輸出的技術(shù),能夠模仿特定或任意說話者的聲音特征,完成文本至語音的轉(zhuǎn)換。語音轉(zhuǎn)換(VC)則是通過特征提取、特征映射及語音重建等操作完成不同說話人語音之間的轉(zhuǎn)換。
如果這些方法被惡意地應(yīng)用在ASV系統(tǒng)中,會構(gòu)成嚴(yán)重的安全威脅。因此,音頻深度偽造檢測任務(wù)(audiodeepfakedetection,ADD)受到了廣泛關(guān)注。深人研究語音真?zhèn)舞b別技術(shù),對于有效抵御由語音合成技術(shù)引發(fā)的風(fēng)險(xiǎn)具有至關(guān)重要的作用。目前主要的工作集中在兩類:a)改善并使用不同的聲學(xué)特征;b)改進(jìn)或設(shè)計(jì)新的分類模塊。
選取適合偽造檢測的音頻特征在ADD任務(wù)中具有重要意義。Alzantot 等人[4]使用了 MFCC(Mel-frequency cepstral coef-ficients)作為偽造檢測的特征,MFCC通過計(jì)算短時(shí)傅里葉變換(STFT),然后通過濾波器組將頻譜映射到梅爾頻譜,最后計(jì)算離散余弦變換(DCT)來實(shí)現(xiàn)。Sahidullah等人[5]通過線性濾波器取代了梅爾尺度濾波器,提出了線性頻率倒譜系數(shù)(linearfrequencycepstralcoefficients,LFCC),LFCC比MFCC更加聚焦于高頻段特征。Tak等人[在RawGAT-ST中利用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,模型直接對原始波形進(jìn)行操作,并使用Sinc卷積濾波器進(jìn)行前端特征學(xué)習(xí)。Wang等人[將一個(gè)LFCC前端替換為wav2vec2.0前端并進(jìn)行微調(diào)。Tak等人[8]利用wav2vec 2.0微調(diào)前端結(jié)合自注意力機(jī)制在偽造檢測領(lǐng)域進(jìn)行了探索,兩者均取得了較大的效果提升。此外, Sun 等人提出通過檢測音頻信號中的聲碼器偽跡來識別合成人聲。除了使用單一特征外,Arif等人[10]和Wang等人[1]還提出使用多特征融合的方式進(jìn)行音頻偽造檢測。
另一種方法是對分類模型進(jìn)行改進(jìn)和設(shè)計(jì)。分類模型可以根據(jù)提取出來的特征進(jìn)行音頻真?zhèn)巫R別。高斯混合模型(Gaussianmixturemodel,GMM)和支持向量機(jī)(supportvectormachine,SVM)是比較常用的分類模型,通過學(xué)習(xí)和分析真?zhèn)握Z音之間的特征差異進(jìn)行分類判斷。隨著深度學(xué)習(xí)的發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,DNN)的音頻偽造檢測技術(shù)逐漸成為主流,提取出來的特征被輸入到DNN中進(jìn)行學(xué)習(xí)和分類,常見的DDN深度偽造檢測網(wǎng)絡(luò)有ECAPA-TDNN[12]和殘差網(wǎng)絡(luò)(residual network,ResNet)[13]等。這兩類方法均被證明在音頻偽造檢測領(lǐng)域方面是有效的,表明了恰當(dāng)?shù)穆晫W(xué)特征和高效的后端分類模塊對ADD任務(wù)都是至關(guān)重要的。
雖然上述工作已經(jīng)在音頻偽造檢測領(lǐng)域取得了可觀的表現(xiàn),但其仍存在以下三點(diǎn)不足:a)當(dāng)前工作集中關(guān)注特征的局部信息,無法綜合利用全局信息和局部信息進(jìn)行綜合判斷;b)從單一維度提取的特征往往缺乏泛化能力,導(dǎo)致音頻偽造檢測模型對未知類型的欺騙攻擊的通用性和抗干擾性較差;c)融合特征存在特征之間冗余、融合方式多樣和權(quán)重分配復(fù)雜等問題,在一定程度上影響了模型性能的進(jìn)一步提升。
針對以上問題,本文提出了一種基于多特征融合的音頻偽造檢測方法MFF-STViT。與之前大部分研究方法只考慮單一音頻特征不同,本文方法綜合考慮音頻的手工特征、預(yù)訓(xùn)練特征和深度特征,同時(shí)引入了聲碼器偽跡作為輔助特征進(jìn)行訓(xùn)練;設(shè)計(jì)一個(gè)特征融合模塊,融合多種特征中的信息。另外,為了進(jìn)一步提高融合信息的質(zhì)量,使用STViT網(wǎng)絡(luò)[14]進(jìn)一步對全局特征進(jìn)行特征提取,以減少特征冗余。實(shí)驗(yàn)結(jié)果表明,MFF-STViT能有效提高音頻深度偽造檢測的準(zhǔn)確性和泛化能力,增強(qiáng)了模型的通用性和抗干擾性。綜上所述,本文的主要貢獻(xiàn)可歸納為:a)將聲碼器偽跡作為輔助特征進(jìn)行特征融合,豐富特征表示信息;b)設(shè)計(jì)了一個(gè)特征融合模塊,將三種音頻特征和聲碼器偽跡特征進(jìn)行融合,進(jìn)而得到表達(dá)能力更強(qiáng)的融合特征;c)使用STViT網(wǎng)絡(luò)對特征進(jìn)行進(jìn)一步優(yōu)化處理,去除冗余信息,有效結(jié)合特征圖的全局與局部信息,實(shí)現(xiàn)高質(zhì)量的特征融合,從而提升模型在偽造語音檢測任務(wù)中的性能。
1聲碼器偽跡
神經(jīng)聲碼器是一種專門的神經(jīng)網(wǎng)絡(luò),它從梅爾頻譜等時(shí)頻表示中合成音頻波形。神經(jīng)聲碼器是大多數(shù)深度偽造音頻合成模型中的最后一步。TTS系統(tǒng)通常由三部分組成:文本分析模塊、語言特征生成梅爾頻譜圖形式的聲學(xué)模型和聲碼器?;谏疃壬窠?jīng)網(wǎng)絡(luò)的 TTS 模型有 WaveNet[15] 和 Tacotron[16]等。VC模型通常使用變分自編碼器(variationalauto-encoder,VAE)或生成對抗網(wǎng)絡(luò)(generativeadversarialnetwork,GAN)等神經(jīng)風(fēng)格遷移方法來捕獲輸入語音中的語句元素,然后將其與輸出語音的風(fēng)格相結(jié)合,最后使用神經(jīng)聲碼器將得到的梅爾頻譜圖重建為音頻波形。因此,聲碼器偽跡可以為識別合成人聲提供線索。
神經(jīng)聲碼器主要包括自回歸模型、擴(kuò)散模型和基于GAN的模型,這三類方法各有優(yōu)缺點(diǎn)和適用場景。自回歸模型如WaveNet,通過預(yù)測每個(gè)音頻波形樣本的分布生成語音,生成質(zhì)量較高但速度較慢,可應(yīng)用于高保真語音合成任務(wù),比如TTS和VC。擴(kuò)散模型如DiffWave[17],生成效率更高,但與自回歸模型相比,其重建質(zhì)量略遜,生成語音可能包含較多噪聲和偽跡,對細(xì)節(jié)的保留能力有限?;贕AN的模型如Mel-GAN[18] ,通過生成器建模時(shí)域波形,使用判別器對生成質(zhì)量進(jìn)行評估,兼顧生成速度和質(zhì)量,整體性能優(yōu)于自回歸模型和擴(kuò)散模型。文獻(xiàn)[9]將聲碼器偽跡作為單一特征應(yīng)用于ADD任務(wù),盡管該方法能夠有效捕捉合成語音中的聲碼器偽跡特征,但忽略了真實(shí)人聲中固有的音頻特征,限制了檢測的全面性和準(zhǔn)確性,導(dǎo)致整體效果存在一定局限性。本文認(rèn)為,將其他音頻特征作為主要特征,同時(shí)將聲碼器偽跡作為輔助特征,可以在保留真實(shí)人聲固有特征的基礎(chǔ)上充分挖掘聲碼器偽跡的辨別信息。通過這種方式,不僅能夠彌補(bǔ)單一特征的不足,還能構(gòu)造一種表達(dá)能力更強(qiáng)的融合特征,顯著提升檢測性能和適應(yīng)性。
2 本文方法
本文提出的MFF-STViT音頻深度偽造檢測模型結(jié)構(gòu)如圖1所示,它由特征提取模塊、特征融合模塊、分類器三個(gè)部分組成。首先,在特征提取模塊部分,分別使用相應(yīng)的特征提取方法對輸入的待鑒音頻信號 s 進(jìn)行處理,得到聲碼器偽跡特征Svoc 、手工特征 Slfcc 、預(yù)訓(xùn)練特征 Swav 和深度特征 Sresnet ;然后,四種特征被送入特征融合模塊,并結(jié)合相應(yīng)權(quán)重進(jìn)行融合,進(jìn)而得到融合后的特征 Sfasion ;最后,將融合后的特征送入分類器進(jìn)行特征冗余處理,完成真假音頻的判斷。
2.1 特征提取模塊
選取并構(gòu)造合適的音頻特征是提高深度偽造檢測模型性能的關(guān)鍵。手工特征中的LFCC獲取方式簡單快捷,并且與人類聽覺系統(tǒng)處理聲音的方式更為接近,是應(yīng)用最廣泛的聲學(xué)特征之一;預(yù)訓(xùn)練特征利用經(jīng)過大量數(shù)據(jù)訓(xùn)練的模型提取信息,具有較強(qiáng)的泛化性,在多種預(yù)訓(xùn)練模型中,wav2vec2在偽造檢測任務(wù)中的通用性尤其顯著;聲碼器偽跡特征提取模塊基于Sinc濾波器和特征塊的結(jié)構(gòu),能夠從音頻中提取細(xì)粒度的聲碼器偽跡信息,進(jìn)一步增強(qiáng)聲碼器偽跡特征的表示能力,這種設(shè)計(jì)可以有效地提高檢測系統(tǒng)的魯棒性;深度特征使用神經(jīng)網(wǎng)絡(luò)挖掘更深層次的語音信息,捕捉了音頻的隱藏信息,能夠?yàn)闄z測模型提供更具區(qū)分性的特征支持。因此,本文的特征提取模塊包含手工特征、預(yù)訓(xùn)練特征、聲碼器偽跡特征和深度特征四種提取方式,用于后續(xù)構(gòu)建融合特征,匯聚來自不同特征的信息以提升模型的檢測表現(xiàn)。
2.1.1聲碼器偽跡特征提取模塊
大多數(shù)深度偽造音頻合成模型使用的是神經(jīng)聲碼器,其本質(zhì)是一種神經(jīng)網(wǎng)絡(luò),它從時(shí)間-頻率表示中生成波形,在生成波形的過程中會引入聲碼器偽跡,這種偽跡可以作為識別偽造語音的重要特征。使用聲碼器偽跡定義的二分類音頻檢測模型為
Fθ(x)=BθB(RθR(x))
其中: RθR(x) 是前端特征提取網(wǎng)絡(luò),其參數(shù)為 θR;BθB 是分類器, θB 是具體的參數(shù)信息; 。Yang等人[19通過式(2)直接求解分類器。
但是這種方法假設(shè)有大量的合成人聲樣本可用,有很大的局限性,并且這種方法沒有考慮到神經(jīng)聲碼器的獨(dú)特統(tǒng)計(jì)特性,而神經(jīng)聲碼器可以作為合成音頻的重要檢測指標(biāo)。因此,Sun 等人[9提出了一種結(jié)合二分類和聲碼器識別任務(wù)的多任務(wù)學(xué)習(xí)方法來強(qiáng)調(diào)識別合成音頻信號中聲碼器偽跡的重要性。在檢測模型中增加了聲碼器標(biāo)識符 MθM ,該標(biāo)識符將合成語音分類為可能的神經(jīng)聲碼器模型( c∈[0,C],C?2; )中的一個(gè),確保特征提取器被訓(xùn)練來捕獲聲碼器的獨(dú)特統(tǒng)計(jì)特征,使其對這些特征更加敏感。求解分類器的方式為
其中: L?m 是一個(gè)多分類損失函數(shù); T′ 是包含不同神經(jīng)聲碼器產(chǎn)生的合成人類聲音的數(shù)據(jù)集LibriSeVoc; λ 是可調(diào)的超參數(shù),控制了兩個(gè)損失項(xiàng)之間的平衡。該模型在ASVspoof2019數(shù)據(jù)集上的表現(xiàn)存在一定的局限性,可能是因?yàn)閱我惶卣鞯姆夯芰Σ蛔銓?dǎo)致的。所以,本文提出將該模型提取出的聲碼器偽跡作為輔助特征,與其他音頻特征融合后共同進(jìn)行偽造音頻的檢測。
本文在文獻(xiàn)[9]方法的基礎(chǔ)上重新訓(xùn)練基于神經(jīng)聲碼器偽跡的合成語音檢測模型,控制超參數(shù)入,使其專注于聲碼器識別的損失函數(shù)為主要部分,二分類模型損失函數(shù)為輔助部分,將重點(diǎn)引導(dǎo)到聲碼器偽跡特征提取上,并將其中的聲碼器偽跡識別器提取出來作為本文的聲碼器偽跡特征提取模塊。
圖2展示了聲碼器偽跡提取模塊的骨干網(wǎng)絡(luò),該模塊基于改進(jìn)的 RawNet2[20] 架構(gòu)設(shè)計(jì)。首先,音頻信號 s 通過Sinc濾波器提取原始特征 Ssinc 。接著,特征 Ssinc 被送人六個(gè)特征模塊進(jìn)行處理,生成最終的特征 Sextract 。
在使用Sinc濾波器提取特征時(shí),本文對濾波器長度進(jìn)行了優(yōu)化,使其更適用于檢測音頻中的欺騙特征。六個(gè)特征模塊主要由殘差塊(ResBlock)和基于sigmoid機(jī)制的特征圖縮放(featuremapscaling,F(xiàn)MS)組成。文獻(xiàn)[21]表明,分析高維空間中的微小變化可以顯著提升模型的判別能力。因此,F(xiàn)MS的引入有助于放大細(xì)微擾動(dòng),從而提升聲碼器偽跡特征提取模塊的性能。例如,在第一個(gè)特征模塊中,F(xiàn)MS的計(jì)算方式為
z=x*y+y
提取出的特征經(jīng)過批歸一化處理,并通過一個(gè)包含1024隱藏節(jié)點(diǎn)的GRU層作進(jìn)一步處理。最終,利用一個(gè)額外的全連接層對聲碼器偽跡特征進(jìn)行輸出,生成用于聲碼器偽跡檢測的特征表示,為后續(xù)特征融合提供基礎(chǔ)。
2.1.2深度特征提取模塊
ResNet在語音深度偽造檢測領(lǐng)域得到了廣泛的應(yīng)用。在語音特征提取中,通過引入殘差機(jī)制,不僅能夠有效保留原始特征信息,還可以在殘差塊中對特征進(jìn)行進(jìn)一步提取后與原始特征相加,從而得到更加豐富的音頻信息表示。
本文在文獻(xiàn)[22]的基礎(chǔ)上對其殘差塊結(jié)構(gòu)進(jìn)行了精簡,將其從六個(gè)殘差塊精簡為四個(gè)殘差塊,減少了網(wǎng)絡(luò)冗余,并在下采樣的過程中使用二維卷積代替?zhèn)鹘y(tǒng)的最大池化層。使用該殘差網(wǎng)絡(luò)作為殘差特征提取模塊對音頻進(jìn)行深度特征提取,在保留了特征提取效果的基礎(chǔ)上減少了模型的參數(shù)量,提升了音頻特征提取的效率。具體結(jié)構(gòu)如圖3所示。
Sinc濾波器用于從音頻中提取信息,四個(gè)改進(jìn)的殘差塊主要由二維卷積、批歸一化以及SeLU激活函數(shù)構(gòu)成。其中,二維卷積和SeLU激活函數(shù)組合可以優(yōu)化特征提取的非線性能力,批歸一化使得模型對不同數(shù)據(jù)分布更加魯棒,提高模型的泛化性。整體計(jì)算過程如式(5)所示。其中DS代表下采樣操作,conv代表卷積操作。
2.2特征融合模塊
使用不同方式提取的特征包含不同的信息,有效的特征融合方法可以融合多種特征信息,解決單一特征泛化能力不足的問題,進(jìn)而增強(qiáng)偽造檢測模型的通用性和抗干擾性。受文獻(xiàn)[23]的啟發(fā),本文設(shè)計(jì)了一種特征融合模塊,專為本文特征提取模塊而構(gòu)建。該特征融合模塊包含兩部分,分別是音頻特征融合模塊和聲碼器偽跡特征處理模塊。
給定待鑒音頻數(shù)據(jù) xi ,在空間 中進(jìn)行預(yù)處理,其中 L(i) 表示語音長度。特征提取包括三個(gè)音頻特征 fvoice,i 和一個(gè)聲碼器偽跡特征 fvocder,i ,在
空間中融合為 fi=[fvoice,i,fvocder,i] 。
特征提取模塊提取出的音頻特征包含語音節(jié)奏、音調(diào)和能量分布等信息,這在一定程度上可以反映音頻是否屬于真人。許多研究者使用深度學(xué)習(xí)模型,尤其是卷積網(wǎng)絡(luò)(CNN)進(jìn)行特征的處理,處理后的特征可以有效反映語音中包含的信息;聲碼器在進(jìn)行語音合成時(shí)需要學(xué)習(xí)語言學(xué)表征和音頻波形之間的關(guān)系,這通常涉及到豐富的時(shí)頻信息,LSTM可以有效捕獲時(shí)間依賴性。基于此,CNN被用于處理音頻特征 fvoice,i ,優(yōu)化音頻特征提?。宦暣a器偽跡特征 fvocder,i 則使用長短時(shí)記憶網(wǎng)絡(luò)(LSTM)進(jìn)行時(shí)序分析,同時(shí),使用注意力機(jī)制為特征賦予權(quán)重,增強(qiáng)相關(guān)性和上下文。
2.2.1音頻特征融合模塊
音頻特征融合模塊針對手工特征、預(yù)訓(xùn)練特征和深度特征分為三個(gè)音頻特征處理模塊,每個(gè)音頻特征處理模塊主要包含CNN和池化模塊,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
將提取的三種語音特征送人由多層卷積級聯(lián)組成的CNN模塊,提取局部時(shí)頻信息,從而得到具有強(qiáng)辨別能力的高層次特征。將得到的高層次特征送入最大池化模塊,降低特征圖維度,同時(shí)對特征圖的顯著特征進(jìn)行保留。最后,三個(gè)特征在拼接前分別乘相應(yīng)的權(quán)重,該權(quán)重代表對應(yīng)特征在融合特征中的重要程度,得到最后的音頻融合特征 Svoice 。
2.2.2聲碼器偽跡特征處理模塊
為了處理聲碼器偽跡中的豐富時(shí)頻信息,本文結(jié)合LSTM和多頭注意力機(jī)制(multi-headattention),設(shè)計(jì)了聲碼器偽跡特征處理模塊,如圖5所示。
在時(shí)間維度上,LSTM通過順序處理每個(gè)時(shí)間步的數(shù)據(jù),確保當(dāng)前時(shí)間步的計(jì)算依賴于前一時(shí)間步的隱藏狀態(tài)與當(dāng)前輸入,因此該過程具有嚴(yán)格的時(shí)間依賴性。相較之下,注意力機(jī)制通過全局上下文的信息捕捉賦予每個(gè)時(shí)間步不同的權(quán)重,使得每一步的輸出都能夠關(guān)注到序列中最相關(guān)的特征。
在頻率維度,LSTM單元通過狀態(tài)的更新與傳遞來保持時(shí)間步之間的連續(xù)信息流,而注意力機(jī)制則通過加權(quán)平均的方式對不同時(shí)間步的信息進(jìn)行選擇性聚合。通過這種加權(quán)處理,注意力模塊能夠動(dòng)態(tài)調(diào)節(jié)每個(gè)時(shí)間步的特征貢獻(xiàn),最終輸出經(jīng)過強(qiáng)化或削弱的信息。LSTM隱狀態(tài)計(jì)算方式如式(6)所示。
其中: ot 是輸出門激活值; ct 是細(xì)胞狀態(tài); ? 表示逐元素乘。
注意力機(jī)制的加權(quán)平均計(jì)算公式如式(7)所示。
其中: αj 是時(shí)間步 j 的注意力權(quán)重,由softmax函數(shù)確定; hj 是相應(yīng)的隱藏狀態(tài)。
2.3 后端分類模塊
經(jīng)過融合后的特征包含豐富的信息,在獲得了表達(dá)能力更強(qiáng)的特征的同時(shí),也存在特征冗余問題。為了解決這個(gè)問題,本文對融合后的特征進(jìn)一步處理,提高融合特征的質(zhì)量。
基于本文得到的融合特征特點(diǎn),處理融合特征 Sfusion 時(shí)應(yīng)更加關(guān)注特征的全局表示,在減少冗余的前提下保留融合特征的豐富信息,在早期階段獲得高效且有效的全局表示。文獻(xiàn)[14]提出了將STT(super tokenTransformer)引人到Transformer中來解決原始Transformer在捕獲早期特征時(shí)容易產(chǎn)生高度冗余的問題。因此,本文使用 STViT[14] 對融合特征進(jìn)行進(jìn)一步處理,如圖6所示。
STT模塊包含STA(supertokenattention)、條件位置編碼( CPE[24] )和卷積前饋網(wǎng)絡(luò)(convFFN)三部分:
給定輸人張量 Vin∈RC×H×W ,首先使用CPE模塊將位置信息添加到所有特征圖中,與絕對位置編碼和相對位置編碼相比,CPE可以通過零填充學(xué)習(xí)絕對位置,使用更加靈活;隨后使用STA進(jìn)行高效探索和充分地利用長程依賴來提取全局上下文表示;最后采用ConvFFN模塊來增強(qiáng)局部探索表示。其中,CPE和ConvFFN中的兩個(gè)深度卷積可以補(bǔ)償局部相關(guān)學(xué)習(xí)的能力。因此,使用STViT對融合特征進(jìn)行處理后可以同時(shí)捕獲局部和全局依賴關(guān)系,提高了融合特征的質(zhì)量。
3實(shí)驗(yàn)結(jié)果及分析
3.1 實(shí)驗(yàn)配置
在PyTorch深度學(xué)習(xí)框架上進(jìn)行實(shí)驗(yàn),主要配置為NVIDIATesla V100(32 GB)。
3.1.1數(shù)據(jù)集
本文使用ASVspoof2019LA數(shù)據(jù)集進(jìn)行模型訓(xùn)練,該數(shù)據(jù)集的真實(shí)語音采集自46名男性和61名女性,共計(jì)107人;偽造語音則由17種不同的TTS和VC系統(tǒng)生成,其中,6種( A01~ A06)用于訓(xùn)練集和驗(yàn)證集,另外13種(A07\~A19)用于測試集,所有語音信號均為純凈信號,未受到任何加性噪聲、混響或其他信道變動(dòng)因素的影響。ASVspoof2019LA數(shù)據(jù)集的詳細(xì)信息如表1所示。
本文選取ASVspoof2019LA數(shù)據(jù)集中的測試集以及ASVspoof2021LA和ASVspoof2021DF數(shù)據(jù)集進(jìn)行模型評估。ASVspoof2021數(shù)據(jù)集中的LA場景是對ASVspoof2019中的LA場景的處理。為了縮小實(shí)驗(yàn)室條件與真實(shí)環(huán)境下的差距,ASVspoof2021LA測試集由通過各種電話系統(tǒng)(公共電話交換網(wǎng)絡(luò)(publicswitchedtelephonenetwork,PSTN)和網(wǎng)絡(luò)電話(voice-over-Internet-protocol,VoIP))傳輸?shù)恼鎸?shí)語音和欺騙語音組成,可分為七個(gè)不同的場景C1\~C7。其中C1場景作為基準(zhǔn),與ASVspoof2019LA相同。具體場景分類如表2所示。
同時(shí)ASVspoof2021挑戰(zhàn)賽引入了DF場景,該場景中的數(shù)據(jù)來源除了ASVspoof2019LA評估集,還包含了2018和2020語音轉(zhuǎn)換挑戰(zhàn)賽(VoiceConversionChallenge,VCC)的數(shù)據(jù),音頻樣本更豐富。這些樣本首先被特定的編解碼器進(jìn)行編碼,隨后通過相應(yīng)的解碼過程,試圖恢復(fù)到未壓縮的原始音頻形式。這個(gè)過程引入依賴于編解碼器及其配置的失真。9個(gè)條件分別對應(yīng)C1\~C9,其中C1條件中的“無編解碼器”條件對應(yīng)于原始音頻樣本。使用相同編解碼器的條件之間的差異在于使用不同的可變比特率(VBR)配置,一個(gè)較低,一個(gè)較高,如表3所示。
3.1.2 評估指標(biāo)
本文使用官方評價(jià)指標(biāo):等錯(cuò)誤率(equalerrorrate,EER)和串聯(lián)檢測代價(jià)函數(shù)(minimum tandem detection cost function,min-tDCF)作為實(shí)驗(yàn)的評價(jià)指標(biāo)。
EER用于評估單一的反欺騙系統(tǒng)性能,EER越小,說明偽造檢測模型的效果越好。min-tDCF用于評估組合了偽造檢測模型和ASV系統(tǒng)的整體性能,它綜合考慮了錯(cuò)誤接受率(1acceptancerate,F(xiàn)AR)、|錯(cuò)誤拒絕率(1rejectionrate,F(xiàn)RR)以及兩者之間的代價(jià)權(quán)衡,min-tDCF越小,表示偽造檢測模型與ASV模型融合后的系統(tǒng)泛化性越好。EER和min-tDCF的計(jì)算公式為
EER=Pmiss(τ)=Pfa(τ)
其中: Pmiss 和 Pfa 分別表示在閾值 τ 下偽造語音檢測系統(tǒng)的錯(cuò)誤拒絕率和錯(cuò)誤接受率; C0L0L1 和 C2 表示三種錯(cuò)誤成本,其值取決于t-DCF參數(shù)和ASV錯(cuò)誤率。
3.2 對比實(shí)驗(yàn)
本文將所提方法MFF-STViT分別在ASVspoof2019LA、ASVspoof2021LA和ASVspoof2021DF數(shù)據(jù)集上與其他幾種先進(jìn)的偽造檢測方法在整體上進(jìn)行了對比;同時(shí),針對ASVspoof2021LA和DF數(shù)據(jù)集進(jìn)一步在分區(qū)上進(jìn)行了對比。
3.2.1 整體評估
表4展示了本文模型MFF-STViT在ASVspoof2019LA測試集上的實(shí)驗(yàn)結(jié)果,并與較為先進(jìn)的模型FTC-SGAAMO、FTC-SGAAMO2、AASIST-SAMO(b23)、AASIST-SAMO(b16)和wav2vec-FC進(jìn)行了比較。需要特別指出的是,在AASIST-SAMO模型中,b16和b23分別表示批處理大小為16和23。從實(shí)驗(yàn)結(jié)果可以看出,MFF-STViT的EER為 0.41% ,顯著低于其他幾種對比模型,展示了優(yōu)越的檢測性能。
尤其值得注意的是,相比于同樣使用了預(yù)訓(xùn)練特征的wav2vec-FC模型,本文模型MFF-STViT的EER下降了86.24% ,表明其在檢測任務(wù)中的顯著優(yōu)勢。此外,表4還對各種模型的計(jì)算量(FLOPs)進(jìn)行了統(tǒng)計(jì)。MFF-STViT不僅在檢測性能上優(yōu)于對比模型,計(jì)算量也是最小的。具體而言,相較于EER為 0.95% 的FTC-SGAAMO模型,MFF-STViT的計(jì)算量降低了 31.26% ,在保證高檢測性能的同時(shí),資源消耗更小。
表5展示了MFF-STViT在ASVspoof2021LA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,并與多個(gè)基準(zhǔn)模型進(jìn)行了比較。從表中可以看出,MFF-STViT在對比模型中表現(xiàn)最佳,EER為 3.59% , min -tDCF為0.2798,顯著優(yōu)于其他模型。
AASIST是一個(gè)在ASVspoof2019LA數(shù)據(jù)集中表現(xiàn)良好的模型,采用了異構(gòu)圖架構(gòu)以識別偽造語音。然而,其在ASVspoof2021LA數(shù)據(jù)集上的性能明顯下降,EER僅為 11.47% min-tDCF為0.5081,遠(yuǎn)遠(yuǎn)不及本文模型MFF-STViT。此外,與幾種其他類型模型的對比進(jìn)一步驗(yàn)證了MFF-STViT的優(yōu)勢。具體而言,MFF-STViT在EER方面相較于使用手工特征的LFCC-LCNN、使用預(yù)訓(xùn)練特征的 wav2+LCNN+BLSTM 模型以及使用了殘差結(jié)構(gòu)提取特征的Rawformer模型,分別降低了60% 50% 和 20% ;在min-tDCF上分別降低了 11%22% 和 9% 。此外,MFF-STViT在與另外一種融合方案[1的對比中也有顯著改進(jìn),EER降低了 23% ,min-tDCF降低了 3% 。這些結(jié)果充分說明,MFF-STViT模型中的融合特征能夠有效捕捉偽造語音中更豐富的偽造信息,同時(shí),所采用的STViT分類網(wǎng)絡(luò)能夠通過結(jié)合全局和局部信息的提取,進(jìn)一步提升了融合特征的表達(dá)能力和質(zhì)量。這些改進(jìn)顯著提高了檢測性能,驗(yàn)證了MFF-STViT在處理復(fù)雜偽語音檢測任務(wù)中的有效性和優(yōu)越性。
表6展示了本文模型在ASVspoof2021DF數(shù)據(jù)集上與其他基準(zhǔn)模型的比較實(shí)驗(yàn)結(jié)果。從表6中可以看出,本文提出的模型MFF-STViT均優(yōu)于其他對比模型,EER為 3.73% 。與本文提出的將聲碼器偽跡特征引入不同,其他對比模型僅使用語音特征,沒有考慮聲碼器偽跡的影響。
相比于ResNet(Ensemble) Φ.GMM+LCNN (Ensemble)和LCNN+ResNet+RawNet 模型,MFF-STViT的EER降低超過 75% 以上,偽造檢測效果取得了明顯的提升。相比于 wav2+LCNN+ BLSTM和wav2 + FFlayer,MFF-STViT的EER也分別下降了31% 和 25% ,說明了在偽造檢測任務(wù)上,聲碼器偽跡可以被分類器捕捉并利用,聲碼器偽跡特征的引入可以提高深度偽造檢測效果。
3.2.2不同場景下的評估
為了進(jìn)一步討論模型面對未知編解碼、壓縮方式以及傳輸?shù)耐ㄓ眯院涂垢蓴_性,本文對ASVspoof2021LA和ASVspoof2021DF中不同場景的EER和min-tDCF進(jìn)行了計(jì)算,并與四個(gè)基線系統(tǒng)LFCC-GMM[5]、 CQCC-GMM[34] 、LFCC-LCNN[35]、Raw-Net2[19] 和一個(gè)由Chen等人[36]提出的較為先進(jìn)的系統(tǒng)進(jìn)行了比較。LA和DF的實(shí)驗(yàn)結(jié)果分別如圖7和8所示。可以看出,MFF-STViT在LA和DF的不同場景下均取得了更好的性能。
從圖7(a)中可以看出,在LA任務(wù)中,MFF-STViT在C1\~C7所有場景下,EER均取得了最小值。相比于其他方法,本文方法在LA-C1場景下的EER降幅最大,超過了 80% ,效果提升最明顯;另在 C2~C7 場景中,取得了 50% %,20%,73%,59% 、56% 42% 以上的降幅。從圖7(b)中可以看出,在LA-C3場景中,所有方法的min-tDCF均為最高值,且本文方法MFF-STViT的min-tDCF略高于Chen等人[36]提出的方法,這可能是因?yàn)長A-C3使用了PSTN進(jìn)行傳輸,而其他場景使用的是VoIP傳輸,文中對比方法及所提MFF-STViT方法,在處理PSTN傳輸后的數(shù)據(jù)時(shí),其特征提取能力仍有待增強(qiáng)。
從圖8中可以看出,在DF任務(wù)中,面對不同的壓縮編解碼方式,MFF-STViT的魯棒性最強(qiáng),在 C1~C9 各個(gè)場景下的EER均取得了最低值,相比于其他結(jié)果,均取得了 70% 以上的降幅,其中在DF-C5場景中效果最好,下降幅度均超過 81% ,說明MFF-STViT在面對 壓縮編解碼時(shí),通用性最強(qiáng)。這進(jìn)一步證明了本文方法具有較強(qiáng)的通用性和抗干擾性。
3.3 消融實(shí)驗(yàn)
本章針對特征融合模塊和聲碼器偽跡特征進(jìn)行了消融。其中 w/o fusion_model代表不使用特征融合模塊,w/ovocder代表去除聲碼器偽跡特征。結(jié)果如表7所示。
在LA數(shù)據(jù)集上,去除特征融合模塊的EER上升了4.1百分點(diǎn),min-tDCF提升了 44% ;去除聲碼器偽跡特征的EER上升了2.17百分點(diǎn),min-tDCF提升了 25% 。表明特征融合模塊和聲碼器偽跡特征對保證深度語音偽造檢測的有效性具有積極意義,融合模塊能夠提供高質(zhì)量的融合特征,聲碼器偽跡特征能夠提供聲碼器合成音頻的偽影,兩者結(jié)合可以提供更好的偽造檢測能力。在DF數(shù)據(jù)集上,去除特征融合模塊和去除聲碼器偽跡特征的效果相差O.9百分點(diǎn),說明在DF任務(wù)中,聲碼器偽跡特征對深度偽造語音檢測起到了較大的積極作用,將聲碼器偽跡特征引人有助于更好地識別偽造語音,進(jìn)一步提升系統(tǒng)的性能。
4結(jié)束語
語音深度偽造檢測近年來逐漸成為研究熱點(diǎn)。針對現(xiàn)有工作中融合特征研究不足以及偽造檢測模型通用性和抗干擾能力的局限,本文設(shè)計(jì)了一種特征融合模塊,綜合多種特征的優(yōu)勢并有效融合,提出將聲碼器偽跡作為輔助特征加入融合過程,以增強(qiáng)特征表達(dá)能力;同時(shí),引入STViT分類器優(yōu)化融合特征的質(zhì)量,減少特征冗余。實(shí)驗(yàn)結(jié)果表明,本文方法MFF-STViT在ASVspoof2019LA測試集及ASVspoof2021的LA和DF數(shù)據(jù)集上表現(xiàn)優(yōu)異,生成的高質(zhì)量融合特征具有良好的通用性和抗干擾能力,在應(yīng)對未知編解碼器及噪聲干擾時(shí)效果突出,且計(jì)算量低于對比模型。然而,對于經(jīng)過PSTN傳輸或有損音頻編碼器處理過的偽造音頻,模型檢測性能還有一定的提升空間,這可能是因?yàn)榻?jīng)過上述操作后,音頻質(zhì)量變低,丟失了一定程度上偽造音頻的特征信息。未來工作將進(jìn)一步探索不同特征組合的融合效果及融合方式,優(yōu)化權(quán)重分配策略,探索相位信息等新特征,并拓展至跨域偽造檢測任務(wù),以驗(yàn)證方法的廣泛適用性。
參考文獻(xiàn):
[1]CohenA,RimonI,Aflalo E,et al.A study on data augmentation in voice anti-spoofing[J].Speech Communication,2022,141: 56-67.
[2]Kaur N,Singh P.Conventional and contemporary approaches used in text to speech synthesis: a review [J]. Artificial Inteligence Review,2023,56(7):5837-5880.
[3]王光,劉宗澤,董浩,等.融合信息擾動(dòng)與特征解耦的單樣本語 音轉(zhuǎn)換[J].計(jì)算機(jī)應(yīng)用研究,2024,41(10):3081-3086. (Wang Guang,Liu Zongze,Dong Hao,et al. One-shot voice conversionintegrating information perturbation and feature decoupling [J]. ApplicationResearchof Computers,2024,41(10):3081-3086.)
[4]Alzantot M,Wang Ziqi,Srivastava MB.Deep residual neural networks for audio spoofing detection [C]//Proc of InterSpeech.2019:1078-1082.
[5]Sahidullah M, Kinnunen T,Hanilci C. Acomparison of features for synthetic speech detection[C]//Proc of InterSpeech.2015:2087-2091.
[6]Tak H,JungJW,PatinoJ,etal.End-to-end spectro-temporal graph attention networks for speaker verification anti-spoofing and speech deepfake detection[C]//Proc of Automatic Speaker Verification and Spoofing Countermeasures Challenge. 2021: 1-8.
[7]Wang Xin,Yamagishi J. Investigating self-supervised front ends for speech spoofing countermeasures [C] //Proc of Speaker and Language Recognition Workshop.2022:100-106.
[8]Tak H,Todisco M ,WangXin,etal.Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation[C]//Proc of Speaker and Language Recognition Workshop. 2022:333-340.
[9]Sun Chengzhe,Jia Shan,Hou Shuwei,et al.AI-synthesized voice detection using neural vocoder artifacts[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ: IEEE Press,2023:904-912.
[10]Arif T,Javed A,Alhameed M,et al. Voice spoofing countermeasure for logical access attacks detection[J].IEEE Access,2021,9: 162857-162868.
[11]Wang Chenglong, Yi Jiangyan,Tao Jianhua,et al.Detection of crossdataset fake audio based on prosodic and pronunciation features [C]//Proc of InterSpeech. 2023:3844-3848.
[12]Zhang Li,Li Yue,Zhao Huan,et al.Backend ensemble for speaker verification and spoofing countermeasure [C]//Proc of InterSpeech. 2022:4381-4385.
[13]Lei Zhenchun,Yan Hui,Liu Changhong,et al. Two-path GMMResNet and GMM-SENet for ASV spoofing detection[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ: IEEE Press,2022:6377-6381.
[14]Huang Huaibo,Zhou Xiaoqiang,Cao Jie,et al.Vision Transformer with super token sampling [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,,2023:22690-22699.
[15]van den OordA,Dieleman S,Zen Heiga,et al.WaveNet:a generative model for raw audio[EB/OL].(2016-09-12).htps://arxiv. org/abs/1609.03499.
[16]Wang Yuxuan,Skerry-Ryan RJ,Stanton D,et al. Tacotron;afully end-to-end text-to-speech synthesis model[EB/OL].(2017-04-06) [2024-07-08].https://arxiv.org/abs/1703.10135.
[17]Kong Zhifeng,PingWei,Huang Jiaji,et al.DiffWave:a versatile diffusion model for audio synthesis[EB/OL]. (2020-09-21).https://arxiv.org/abs/2009.09761.
[18]Kumar K,Kumar R,De Boissiere T,et al. MelGAN:generative adversarial networks for conditional waveform synthesis[C]//Proc of Conference on Neural Information Processing Systems. Cambridge, MA:MIT Press,2020:14843-14854.
[19]Yang Geng,Yang Shan,Liu Kai,et al. Multi-band MelGAN: faster waveform generation for high-qualitytext-to-speech[C]//Proc of IEEE Spoken Language Technology Workshop. Piscataway,NJ: IEEE Press,2021:492-498.
[20]Tak H,Patino J,Todisco M,et al.End-to-endanti-spoofing with RawNet2[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2021: 6369-6373.
[21]Zhang Jiacen,Inoue N, Shinoda K. I-vector transformation using conditional generative adversarial networks for short utterance speaker verification[C]//Proc of InterSpeech.2018:3613-3617.
[22]JungJW,HeoHS,KimJH,et al.RawNet:advanced end-to-end deep neural network using raw waveforms for text-independent speaker verification [C]//Proc of InterSpeech.2019:1268-1272.
[23] Xu Xiao, Wang Yang,Wei Xinru,et al.Atention-based acoustic feature fusion network for depression detection [J].Neurocomputing,2024,601:128209.
[24]Chu Xiangxiang,Tian Zhi,Zhang Bo,etal.Conditional positional encodings for vision Transformers[C]//Proc of International Conference on Learning Representations.2024.
[25]陸華慶,葛子瑞,王天朗,等.基于圖注意力機(jī)制和對抗訓(xùn)練的 語音反欺騙方法[J].信號處理,2025,41(1):161-173.(Lu Huaqing,Ge Zirui,Wang Tianlang,et al.Speech anti-spoofing method based on graph atention mechanism and adversarial training [J].Journal of Signal Processing,2025,41(1):161-173.)
[26]Ding Siwen,Zhang You,Duan Zhiyao.SAMO:speaker atractor multi-center one-class learning for voice anti-spoofing[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ: IEEE Press,2023:1-5.
[27]Yamagishi J,Wang Xin,Todisco M,et al.ASVspoof 2021:accelerating progress in spoofed and deepfake speech detection [C]//Proc of Edition of the Automatic Speaker Verification and Spofing Countermeasures Challenge. 2021.
[28]Liu Xiaohui,Liu Meng,Wang Longbiao,et al.Leveraging positionalrelated local-global dependency for synthetic speech detection [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2023:1-5.
[29]JungJW,Heo HS,Tak H,et al.AASIST:audio anti-spoofing using integrated spectro-temporal graph attention networks [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2022: 6367-6371.
[30]Martin-Dofias JM,Alvarez A.The vicomtech audio deepfake detection system based on wav2vec2 for the 2022 ADD challenge[C]// Proc of the 47th International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2022: 9241-9245.
[31]Tomilov A, Svishchev A, Volkova M,et al. STC antispofing systems for theASVspoof2021 challenge[C]//Proc ofEdition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge. 2021: 61- 67 :
[32]ChenTianxiang,KhouryE,Phatak K,et al.Pindrop labs’submission to the ASVspoof 2O21 challenge[C]//Proc of Edition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge.2021:89-93.
[33]Das R K.Known-unknown data augmentation strategies for detection of logical access,physical access and speech deepfake attacks: ASVspoof 2021[C]//Proc of Edition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge. 2O21:29-36.
[34] Todisco M ,Delgado H,EvansN.A new feature for automatic speaker verificationanti-spoofing:constant Q cepstral coefficients[C]//Proc of Speaker and Language Recognition Workshop.20l6: 283-290.
[35]Wang Xin, Yamagishi J. A comparative study on recent neural spoofing countermeasures for synthetic speech detection[C]//Proc of InterSpeech.2021:4259-4263.
[36] Chen Xinhui,Zhang You, Zhu Ge,et al.UR channel-robust synthetic speech detection system for ASVspof 2021[EB/OL].(2021- 08-23)[2024-09-22]. htps://arxiv.org/abs/2107.12018.