王成龍 易江燕 陶建華,3 馬浩鑫 田正坤 傅睿博
1(中國科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院 合肥 230027)
2(模式識別國家重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院自動化研究所) 北京 100080)
3(中國科學(xué)院大學(xué)人工智能學(xué)院 北京 100049)
自動說話人驗(yàn)證(automatic speaker verification, ASV)[1-3]是指通過分析說話人的語音來自動接受或拒絕其身份.它作為一種身份識別技術(shù),已經(jīng)廣泛應(yīng)用于各種場景,例如:電子購物、電話銀行、電子商務(wù)等.最近,越來越多的研究表明:ASV系統(tǒng)面臨著各種偽造語音攻擊的問題.常見的偽造語音可以分為4種方式:語音模仿、錄音重放、語音合成和語音轉(zhuǎn)換[4].因此,研究人員設(shè)法開發(fā)出有效的反欺騙系統(tǒng),以保護(hù)ASV系統(tǒng)免受偽造語音的欺騙攻擊.
為了提高反欺騙系統(tǒng)的性能,最近的工作主要集中在2個方面:1)改善音頻的聲學(xué)特征;2)設(shè)計新的分類模型.選取能夠有效區(qū)別真實(shí)語音和偽造語音的聲學(xué)特征尤為重要.Todisco等人[5]將常數(shù)Q變換倒譜系數(shù)(constant Q cepstral coefficients, CQCC)應(yīng)用于語音鑒偽中,使用常數(shù)Q變換(constant Q transform, CQT)而不是短時傅里葉變換來處理語音信號,其性能優(yōu)于普通的梅爾倒譜系數(shù)(Mel frequency cepstrum coefficients, MFCC).Sahidullah等人[6]用線性濾波代替了梅爾刻度濾波,提出了線性頻率倒譜系數(shù)(linear frequency cepstrum coeffi-cients, LFCC),使其更加關(guān)注高頻段特征.此外,Sahidullah等人[6]還嘗試了翻轉(zhuǎn)梅爾倒譜系數(shù)(inverse Mel frequency cepstrum coefficients, IMFCC),將原先的梅爾刻度翻轉(zhuǎn)過來,使其在高頻段分布更密,從而更專注于高頻特征.另一種方法是設(shè)計新的分類模型,該模型可以學(xué)習(xí)到真?zhèn)握Z音的區(qū)分表示.高斯混合模型(Gaussian mixture model, GMM)是最常用的分類模型.隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)的性能,要比直接使用GMM更好[7-10].例如具有最大特征圖(max feature map, MFM)激活功能的輕量型卷積神經(jīng)網(wǎng)絡(luò)(light convolution neural network, LCNN)[11],通過競爭學(xué)習(xí)的方法不僅可以分離噪聲信號和信息信號,還可以起到特征選擇的作用.殘差網(wǎng)絡(luò)(residual network, ResNet)[12]提出了殘差模塊,解決了網(wǎng)絡(luò)“退化”的問題,即隨著網(wǎng)絡(luò)模型的加深,學(xué)習(xí)效果反而變差.這2種方法均被證明是有效的,這表明使用適當(dāng)?shù)那岸寺晫W(xué)特征以及出色的深度學(xué)習(xí)模型對于偽造語音檢測都是至關(guān)重要的.
雖然以上工作已經(jīng)取得了比較好的表現(xiàn),但仍存在2個方面問題:1)現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)及其變種忽視了每一維上特征圖的不同位置強(qiáng)調(diào)的信息是不一樣的,它們假設(shè)送入卷積神經(jīng)網(wǎng)絡(luò)的特征圖的每一維對結(jié)果的影響是相同的.2)當(dāng)前工作集中關(guān)注特征圖的局部信息,無法利用全局視圖中特征圖之間的關(guān)系.如何更全面精準(zhǔn)地分析利用這些屬性特性找到真實(shí)語音和偽造語音的區(qū)別,將有限的注意力集中在重點(diǎn)信息上是目前語音偽造檢測研究所面臨的一項重要挑戰(zhàn).
注意力機(jī)制在圖像識別、自然語言處理、語音識別等領(lǐng)域[13-17]有了很多成功應(yīng)用.受到這些應(yīng)用的啟發(fā),我們考慮引入注意力機(jī)制來解決將有限的注意力集中在重點(diǎn)信息上這一挑戰(zhàn).Lai等人[9]在語音偽造檢測領(lǐng)域中引入SE-Net,從全局維度分配注意力權(quán)重.Sarthak等人[18]在說話人識別領(lǐng)域引入時頻注意力,關(guān)注局部的注意力分配.但是他們沒有考慮到將全局注意力模塊和時頻注意力模塊聯(lián)合使用.本文融合了全局-時頻注意力模塊,同時從全局和時頻特征圖2個層面的注意力機(jī)制為不同的特征賦予不同的注意力權(quán)重,實(shí)現(xiàn)了真?zhèn)握Z音特征更全面精準(zhǔn)的區(qū)分,從而保證了真?zhèn)握Z音的準(zhǔn)確預(yù)測.此外,為了進(jìn)一步獲得更具有區(qū)分性的真?zhèn)握Z音嵌入,我們將softmax損失函數(shù)替換成了angular softmax[19]損失函數(shù),從優(yōu)化內(nèi)積空間到優(yōu)化角度空間,使得類間距離擴(kuò)大,類內(nèi)距離縮小,從而使得真?zhèn)握Z音的區(qū)分性更大了.最后,我們在ASVspoof2019公開數(shù)據(jù)集上進(jìn)行一系列實(shí)驗(yàn),結(jié)果顯示所提的模型取得不錯的效果,最佳模型的等錯誤率(equal error rate, EER)達(dá)到4.12%,刷新了單個模型的最好成績.
本文的主要貢獻(xiàn)包括2個方面:
1) 融合了全局-時頻注意力網(wǎng)絡(luò),從全局和時頻特征圖2個層面的注意力機(jī)制為不同的特征賦予不同的注意力權(quán)重,實(shí)現(xiàn)了真?zhèn)握Z音特征更全面精準(zhǔn)的區(qū)分;
2) 將softmax損失函數(shù)替換成了angular softmax損失函數(shù),進(jìn)一步提升了模型的性能.
本節(jié)從輕量型卷積神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、前端聲學(xué)特征研究和angular softmax損失函數(shù)4個方面介紹相關(guān)工作.
輕量型卷積神經(jīng)網(wǎng)絡(luò)(LCNN)最早應(yīng)用于人臉識別,此后在ASVspoof2017比賽中,第1名的隊伍使用了LCNN的方法,隨后在語音偽造檢測領(lǐng)域中大量被使用.在LCNN中,每一個卷積層都用了最大特征圖MFM如圖1所示,具體而言就是將原輸入層分為2個部分,通過競爭學(xué)習(xí),丟棄了輸出較小的部分,剩下輸出較大的部分.此外,LCNN相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不僅可以獲得更好的性能,還可以減少參數(shù)量.本文所提的整體網(wǎng)絡(luò)框架就在LCNN的基礎(chǔ)上進(jìn)行了改進(jìn).
Fig. 1 Max feature map圖1 最大特征圖
眾所周知,注意力在人類感知中起著重要的作用.注意力機(jī)制最早在計算機(jī)視覺領(lǐng)域廣泛應(yīng)用[13,20],當(dāng)一幅場景擺在我們面前時,我們所能注意到的東西是不一樣的,換句話說,該場景下我們對每一處空間的注意力分布是不一樣的.同樣,這種情況也適用于語音場景.最近,一些基于卷積注意力的工作在說話人識別中開展[21-23].文獻(xiàn)[24]引入SE-Net到說話人嵌入提取器中來提高對說話人嵌入之間的微妙差異的學(xué)習(xí)能力.SE-Net可以通過動態(tài)地分配通道維度的權(quán)重來提高網(wǎng)絡(luò)的表達(dá)能力.具體而言,SE-Net是一個簡化的網(wǎng)絡(luò),它可以插入基于CNN的網(wǎng)絡(luò)中,以學(xué)習(xí)通道之間的相互依賴性,并生成一組通道層面的權(quán)重,以強(qiáng)調(diào)有用的信息抑制無用的信息.這種從全局考慮長時說話人語音的方法被證實(shí)在說話人識別中是有效的.
在本節(jié)中,我們將介紹在DNN框架下不同的前端聲學(xué)特征.
1) 線性頻率倒譜系數(shù)LFCC
LFCC是一種基于三角濾波器組的倒譜特征,類似于廣泛使用的梅爾頻率倒譜系數(shù)(MFCC).它的提取方法于MFCC類似,但是濾波器是線性的而不是梅爾刻度.因此,LFCC在高頻區(qū)域可能具有更好的分辨率.
2) 翻轉(zhuǎn)梅爾倒譜系數(shù)IMFCC
IMFCC也是一種基于三角濾波器組的倒譜特征,與MFCC不同的是,IMFCC采用的的濾波器是逆梅爾刻度,即在高頻比較密集,在低頻比較稀稠.因此IMFCC也更關(guān)注高頻區(qū)域.
3) 常數(shù)Q變換倒譜系數(shù)CQCC
CQCC使用常數(shù)Q變換(即CQT)而不是短時傅里葉變換來處理語音信號,其性能優(yōu)于普通的梅爾倒譜系數(shù)MFCC.
4) 濾波器組(Fbank)
Fbank是一種基于三角濾波器組的倒譜特征,它的提取過程與MFCC類似,在離散余弦變換之前得到的特征我們就稱為Fbank.
5) 語譜圖
給定語音序列t(n),Tn(ω)是其經(jīng)過窗函數(shù)ω(n)的短時傅里葉結(jié)果.Tn(ω)可以表示為
Tn(ω)=|Tn(ω)|ejθn(ω),
(1)
其中,|Tn(ω)|指的是短時幅度譜,θn(ω)指的是相位譜.
傳統(tǒng)的softmax損失函數(shù)定義為
(2)
其中,N是訓(xùn)練樣本的個數(shù),xi是第i個樣本,yi是其對應(yīng)的標(biāo)簽w是最后一層全連接網(wǎng)絡(luò)的參數(shù).
(3)
其中,θi,yi是矢量Wyi和xi之間的夾角,為了進(jìn)一步讓真?zhèn)握Z音的分類間隔擴(kuò)大,我們引入了一個參數(shù)m,使得cos(mθ1)>cos(θ2),就得到了angular-softmax損失函數(shù),其表達(dá)式為
La=
(4)
其中,m是固定的角度間隔,m值越大角度間隔越大.
在本節(jié)中,我們首先介紹全局-時頻注意力網(wǎng)絡(luò)的總體框架,然后分別介紹2個注意力模塊,它們分別捕獲時頻局部信息和全局信息.
Fig. 2 Global and temporal-frequency attention based network圖2 全局-時頻注意力網(wǎng)絡(luò)
總體注意力過程可以概括為
X′=Mg(X)?X,
X″=Mtf(X)?X,
(5)
X?=X′⊕X″,
1) 全局注意力模塊
Fig. 3 Global attention module圖3 全局注意力模塊
(6)
其次是激活操作,它類似循環(huán)神經(jīng)網(wǎng)絡(luò)中門的機(jī)制,通過參數(shù)來為每個特征通道生成權(quán)重,其中參數(shù)被學(xué)習(xí)用來顯式地建模特征通道間的相關(guān)性:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z)),
(7)
其中,δ指的是ReLU激活函數(shù),σ指的是sigmoid激活函數(shù).
Fig. 4 Temporal-frequency module圖4 時頻注意力模塊
最后是重新分配權(quán)重,我們將上一步輸出的權(quán)重看作是經(jīng)過特征選擇后的每個特征通道的重要性,然后通過乘法逐個通道加權(quán)到先前的特征上,完成在通道維度上的對原始特征的重新標(biāo)定.
2) 時頻注意力模塊
(8)
其中,sji表示第i個位置對第j個位置的影響,2個位置的特征表示越相似,他們之間的相關(guān)性越高.
(9)
其中,α初始化為0并逐漸學(xué)會分配權(quán)重.從式(9)可以得出,每個位置上的結(jié)果特征D是所有位置上的特征與原始特征的加權(quán)和.因此,它具有全局前后幀視圖,并根據(jù)時頻注意力圖選擇性地聚合前后幀.相似的語音特征實(shí)現(xiàn)了共同的促進(jìn),從而改善了類內(nèi)部的緊湊性.
本文所有的實(shí)驗(yàn)都在ASVspoof2019[24]數(shù)據(jù)集上進(jìn)行,我們關(guān)注的重點(diǎn)是合成語音和轉(zhuǎn)換語音對真實(shí)語音的干擾,因此我們采用的是logical access(LA)數(shù)據(jù)集.數(shù)據(jù)集的詳細(xì)說明可以在表1看到.LA數(shù)據(jù)集包含3個子集:訓(xùn)練集、開發(fā)集和測試集.訓(xùn)練集包含2 580條真實(shí)語音和22 800條用6種方式合成或轉(zhuǎn)換的偽造語音;開發(fā)集包含2 548條真實(shí)語音和22 296條用6種方式合成或轉(zhuǎn)換的偽造語音;測試集包含了7 355條真實(shí)語音和64 578條未知算法生成的偽造語音.
Table 1 ASVspoof2019 LA Dataset表1 ASVspoof2019 LA數(shù)據(jù)集
本文采用等錯率(EER)來描述系統(tǒng)的指標(biāo).等錯率是一種權(quán)衡錯誤拒絕率和錯誤接受率的一項指標(biāo).
(10)
EER=Pfa(θEER)=Pmiss(θEER).
其中,Pfa(θ)是錯誤接受率,是指偽造語音被判定為真實(shí)語音的數(shù)量除以總的偽造語音的數(shù)量;Pmiss(θ)指的是錯誤拒絕率,指的是真實(shí)語音判定為偽造語音的數(shù)量除以總的真實(shí)語音的數(shù)量.錯誤接受率和錯誤拒絕率的值相等時,此值就是等錯率.
本文在基于LCNN的語音偽造檢測的基礎(chǔ)上增加了批量歸一化層和全局-時頻注意力模塊,在減少其內(nèi)部相關(guān)變量的偏移和加速網(wǎng)絡(luò)收斂的同時從全局和時頻特征圖2個層面的注意力機(jī)制為不同的特征賦予不同的注意力權(quán)重,實(shí)現(xiàn)了真?zhèn)握Z音特征更全面精準(zhǔn)的區(qū)分.其網(wǎng)絡(luò)結(jié)構(gòu)如表2所示:
Table 2 LCNN Architecture表2 LCNN網(wǎng)絡(luò)結(jié)構(gòu)
首先對輸入的語音數(shù)據(jù)進(jìn)行預(yù)處理、特征提取(如1.3節(jié)提到的LFCC,Fbank,CQCC,IMFCC等).其次基于全局-時頻注意力的LCNN網(wǎng)絡(luò),提取語音的深層次非線性因子特征.最后,由全局-時頻注意力網(wǎng)絡(luò)的最后一層輸出輸入到全連接層,計算真實(shí)語音和偽造語音的得分,用于預(yù)測真?zhèn)握Z音類別的標(biāo)簽.
為了驗(yàn)證本文所提方法的有效性和聲學(xué)特征的影響,我們主要設(shè)置了11組實(shí)驗(yàn),具體配置為
1) LFCC-GMM.LFCC-GMM是ASVspoof2019提供的基線系統(tǒng),其中高斯混合數(shù)為512.LFCC的提取參照基線系統(tǒng)——窗口長度設(shè)為20 ms,F(xiàn)FT維數(shù)為512,并且濾波器組數(shù)為20,并對其作一階和二階差分.
2) LFCC-LCNN.LCNN參照表2,但是沒有包含注意力模塊,總共有9層卷積層.LFCC的提取方式和LFCC-GMM類似.
3) LFCC-CMVN-LCNN.整個框架與LFCC-LCNN類似,不過在LFCC提取過程中作了均值和方差的歸一化處理.
4) CQCC-LCNN.CQCC的提取采用常規(guī)的默認(rèn)值,即每八度音階96個譜線,窗口大小為1 724,步長為0.008 1.
5) Fbank-LCNN.Fbank的提取窗口長度設(shè)為20 ms,F(xiàn)FT維數(shù)為512,并且濾波器組數(shù)為40.
6) Spectrum-LCNN.語譜圖的提取窗口長度設(shè)為20 ms,F(xiàn)FT維數(shù)為512.
7) LFCC-LCNN-Global&TF.LCNN-Global& TF指的是含有全局-時頻注意力模塊的LCNN,其結(jié)構(gòu)如表2所示.LFCC的提取方式和LFCC-GMM類似.
8) LFCC-LCNN-CBAM.同上,將注意力模塊換成了CBAM[15]模塊.
9) LFCC-LCNN-Global.整體框架與LFCC-LCNN-Global&TF保持一致,注意力模塊只選擇了全局注意力模塊.
10) LFCC-LCNN-TF.同上,注意力模塊方面只選擇了時頻注意力模塊.
11) LFCC-LCNN-Global&TF-Asoftmax.整體框架與LFCC-LCNN-Global&TF類似,不過將softmax換成了A-softmax.
本文所提模型基于深度學(xué)習(xí)框架PyTorch展開實(shí)驗(yàn).優(yōu)化器為Adam,其中batchsize=32,初始學(xué)習(xí)率為0.0005,動量為0.9,模型迭代次數(shù)為200.
3.4.1 前端聲學(xué)特征的影響
為了探究前端聲學(xué)特征對系統(tǒng)的影響,本文在保持后端分類器LCNN不變的情況下,設(shè)置了不同的前端聲學(xué)特征.實(shí)驗(yàn)結(jié)果如表3所示.對比5種聲學(xué)特征,可以看出,LFCC的性能最好,這與先前的分析保持一致,這是由于LFCC的濾波器是線性的而不是梅爾刻度,因此在高頻區(qū)域有更好的分辨率.此外,對比表3中行5和行6,可以看出對LFCC做了均值和方差歸一化后效果反而變差了.這是由于測試集和訓(xùn)練集、開發(fā)集的差異較大,因此做了歸一化結(jié)果變差.
Table 3 The Result of Front-End Acoustic Characteristics表3 前端聲學(xué)特征的結(jié)果 %
3.4.2 全局-時頻注意力的影響
由于表3的實(shí)驗(yàn)驗(yàn)證了LFCC的有效性,因此接下來我們統(tǒng)一將前端聲學(xué)特征固定為LFCC,通過更改后端網(wǎng)絡(luò)分類器來驗(yàn)證本文所提的全局-時頻注意力網(wǎng)絡(luò)的有效性.實(shí)驗(yàn)結(jié)果如表4所示.分別對比表4行1和行2~5,可以得到結(jié)論,加了注意力模塊的系統(tǒng)相較于原系統(tǒng)對結(jié)果都有提升.此外,我們還對全局-時頻注意力模塊做了消融實(shí)驗(yàn),以說明不同注意力模塊對整體性能的影響.具體而言,我們比較了3種注意力模塊:只包含全局注意力模塊(LCNN-Global)、只包含時頻注意力模塊(LCNN-TF)和并行的全局-時頻注意力模塊(LCNN-Global& TF).表4的行3到行5總結(jié)了不同注意力模塊安排方式的結(jié)果.從結(jié)果中,我們可以發(fā)現(xiàn)并行地使用全局-時頻注意力模塊要優(yōu)于單獨(dú)使用任一注意力模塊,這表明將2種注意力模塊并行使用是有效果的.此外,單獨(dú)使用全局注意力模塊的性能要略好于單獨(dú)使用時頻注意力模塊.
Table 4 The Result of Attention Module表4 注意力模塊的結(jié)果 %
3.4.3 A-softmax損失函數(shù)的影響
我們還驗(yàn)證了A-softmax損失函數(shù)的有效性.從表5可以看出,將損失函數(shù)從softmax替換成了A-softmax之后,EER從4.33%下降到了4.12%,性能提升了5.1%.這一結(jié)果表明:A-softmax損失函數(shù)通過優(yōu)化角度空間,使得類間距離擴(kuò)大,類內(nèi)距離縮小,從而擴(kuò)大了真?zhèn)握Z音的區(qū)分性.此外,我們還對表4的5個系統(tǒng)和表6的A-softmax系統(tǒng)做了分?jǐn)?shù)層面的融合,融合后的EER為3.21%.表6中,文獻(xiàn)[25]的方法與本文表2的LFCC方法類似,但是由于其沒有提供公開代碼,不能完全復(fù)現(xiàn),性能比它略低.融合了表4的5個系統(tǒng)和表5的A-softmax系統(tǒng),總共6個系統(tǒng).
Table 5 The Influence of A-softmax Loss Function表5 A-softmax損失函數(shù)的影響 %
Table 6 Comparison of Proposed Method with State-of-the-art System表6 與其他方法比較的結(jié)果 %
Table 7 Multi-system Fusion表7 多系統(tǒng)融合 %
3.4.4 與其他最先進(jìn)的系統(tǒng)對比
為了進(jìn)一步證明本文所提方法的有效性,我們將本文的方法與其他在ASVspoof2019 LA數(shù)據(jù)集上的先進(jìn)系統(tǒng)的結(jié)果做了對比.為了公平起見,我們將結(jié)果與其他系統(tǒng)的單個系統(tǒng)進(jìn)行比較.從表6可以看出,本文所提的方法在單個系統(tǒng)中達(dá)到了最佳的性能,等錯誤率達(dá)到了4.12%,這個分?jǐn)?shù)也是目前我們能了解到的在ASVspoof2019 LA數(shù)據(jù)集上單個系統(tǒng)的最佳成績,進(jìn)一步地證明了本文方法的有效性.
據(jù)3.4節(jié)實(shí)驗(yàn)結(jié)果可見,本文所提的方法在測試集上的EER均有明顯下降.
在單獨(dú)使用全局注意力模塊或時頻注意力模塊相較于原系統(tǒng)都有性能上的提升.此外,并行使用全局-時頻注意力模塊會進(jìn)一步提升系統(tǒng)性能.這是由于全局-時頻注意力能夠有效地從全局維度和時頻維度關(guān)注全局和時頻特征的有效信息,抑制那些無用信息,從而提高了實(shí)驗(yàn)結(jié)果.
除此之外,在損失函數(shù)層面用A-softmax代替softmax之后,性能進(jìn)一步提升,在ASVspoof2019 LA數(shù)據(jù)集上單個系統(tǒng)上取得最佳成績.這是由于A-softmax損失函數(shù)通過優(yōu)化角度空間,使得類間距離擴(kuò)大,類內(nèi)距離縮小,從而擴(kuò)大了真?zhèn)握Z音的區(qū)分性.
語音偽造檢測是近年一個研究熱點(diǎn).本文針對目前工作沒有考慮到每一維上特征圖的不同位置強(qiáng)調(diào)的信息是不同的問題,引入了一種基于全局-時頻注意力網(wǎng)絡(luò)的語音偽造檢測模型.首先,我們從卷積神經(jīng)網(wǎng)絡(luò)輸出的三維特征圖壓縮到只剩下通道維度,再將其經(jīng)過一個類似循環(huán)神經(jīng)網(wǎng)絡(luò)中門控制的機(jī)制,通過參數(shù)為每個特征通道生成權(quán)重,其中參數(shù)被學(xué)習(xí)用來顯式建模特征通道間的相關(guān)性.通過這種辦法,我們可以得到特征通道上響應(yīng)的全局分布.與此同時,我們通過使用加權(quán)求和在所有時頻特征圖上聚合特征來進(jìn)行更新,其中權(quán)重由對應(yīng)2個時頻點(diǎn)之間的相似性決定.此外,為了進(jìn)一步獲得更具有區(qū)分性的真?zhèn)握Z音嵌入,我們將softmax損失函數(shù)替換成了A-softmax損失函數(shù),從優(yōu)化內(nèi)積空間到優(yōu)化角度空間,使得類間距離擴(kuò)大,類內(nèi)距離縮小,從而使得真?zhèn)握Z音的區(qū)分性更大了.最后,在ASVspoof2019 LA這個公開數(shù)據(jù)集中,通過一系列的實(shí)驗(yàn)表明本文所提的全局-時頻注意力網(wǎng)絡(luò)模型取得了最好的分類結(jié)果,充分證明了模型在語音偽造檢測問題上的有效性.
未來的研究工作中,可以針對不同的特征組合拼接或者相位信息的聲學(xué)特征對語音偽造檢測的影響上進(jìn)行更多的考慮和設(shè)計.
作者貢獻(xiàn)聲明:王成龍進(jìn)行了該論文的模型設(shè)計、實(shí)驗(yàn)編碼及運(yùn)行、論文撰寫等工作;易江燕進(jìn)行了前期方法的討論設(shè)計與論文修改;陶建華進(jìn)行了論文修改;馬浩鑫進(jìn)行了補(bǔ)充實(shí)驗(yàn)以及模型調(diào)優(yōu);田正坤進(jìn)行了損失函數(shù)的代碼支持,以及從語音識別角度對方法提供改良;傅睿博從語音偽造角度提出引入全局模塊.