李 波,蔡曉東,侯珍珍,陳 思
(桂林電子科技大學 信息與通信學院,廣西 桂林 541004)
說話人識別因為語音獲取方便、成本低廉以及支持遠程識別,在安防、金融和生活上發(fā)揮了重要作用。但因為聲音容易被高保真設備錄音,會導致說話人識別系統(tǒng)的安全性受到極大威脅,這就是回放語音攻擊。語音回放攻擊不需要專業(yè)手段,只需要一個錄音設備即可,獲取錄音的成本低廉,獲取方便,因此語音回放攻擊成為說話人識別領域一個巨大的挑戰(zhàn)。為了應對這種挑戰(zhàn),一般從2個方面著手:1)改進信號層面特征;2)改進模型。
一般信號層面的特征有如下幾種:梅爾倒譜系數(shù)(mel frequency cepstrum coefficient,簡稱MFCC)[1],constant Q transform,簡稱CQT[2],constant Q cepstral coefficients,簡稱CQCC[3],fast fourier transformation,簡稱FFT。梅爾倒譜系數(shù)被廣泛使用于各種語音場景,如語音識別、說話人識別、語言識別等。而CQT特征則被用來檢測各種語音攻擊場景,起到了非常好的效果。CQCC特征在語音攻擊場景下也是使用廣泛的一種特征,它最先被使用于基于語音合成和聲音變換的語音攻擊場景,后被使用于語音回放攻擊場景。FFT特征是對一段語音進行時頻變換得到的語譜圖,其特征信息較為全面,適合作為神經(jīng)網(wǎng)絡訓練的輸入特征。本研究采用的信號層面特征為FFT特征。
在模型層面上,傳統(tǒng)模型如高斯混合模型(gaussian mixture model,簡稱GMM)[4],采用2個高斯混合模型分別對真實語音和回放語音進行建模,再利用支持向量機(support vector machine,簡稱SVM)作為分類器,可取得不錯的效果。隨著深度學習技術(shù)的興起,深度神經(jīng)網(wǎng)絡(deep neural networks,簡稱DNN)[5]被用來作為特征提取器對語音樣本進行特征提取,通過訓練可以對真實語音及回放語音進行分類。更進一步,隨著卷積神經(jīng)網(wǎng)絡(convolutional neural networks,簡稱CNN)[6]在圖像識別領域出色的表現(xiàn),CNN被引入說話人識別領域,并針對語音回放攻擊場景下的說話人識別取得了很好的效果。在ASVspoof 2017挑戰(zhàn)賽中,基于最大特征圖(max-feature-map,簡稱MFM)[7]結(jié)構(gòu)的 (light convolutional neural networks,簡稱LCNN)[8]網(wǎng)絡的性能取得了不錯的效果。
但LCNN網(wǎng)絡結(jié)構(gòu)中存在一個問題,容易導致過擬合。針對該問題,提出一種基于 (anti overfitting-light convolutional neural networks,簡稱AOF-LCNN)的端到端神經(jīng)網(wǎng)絡。首先,設計了一個新的DNN結(jié)構(gòu)分類器作為后端分類網(wǎng)絡,將該DNN結(jié)構(gòu)級聯(lián)在LCNN網(wǎng)絡之后,形成一套新的端到端網(wǎng)絡結(jié)構(gòu);其次,因為LCNN結(jié)構(gòu)中的MFM結(jié)構(gòu)可能是造成過擬合的原因,因此在DNN后端結(jié)構(gòu)中采用LeakyReLU作為激活函數(shù),以抵消MFM的過擬合影響。
提出的網(wǎng)絡結(jié)構(gòu)主要思路如下:
1)提出的在LCNN網(wǎng)絡結(jié)構(gòu)后級聯(lián)本設計的新的DNN架構(gòu),可形成一個新的端到端網(wǎng)絡結(jié)構(gòu),從而可以聯(lián)合優(yōu)化,不用分別優(yōu)化局部模塊,因此達到全局最優(yōu);
2)設計新的DNN網(wǎng)絡后端分類模塊,可作為一個良好的分類器將LCNN提取的特征進行分類,可以得到更好的分類結(jié)果;
3)在DNN中采用LeakyReLU作為激活函數(shù),可抵消可能由MFM結(jié)構(gòu)帶來的過擬合影響。
LCNN系統(tǒng)[8]是一種使用了最大特征圖[7]激活函數(shù)的CNN網(wǎng)絡結(jié)構(gòu)。最大特征圖激活函數(shù)定義為:
?i=1~H,j=1~W,k=1~N/2。
(1)
其中:x是尺寸為H×W×N的輸入;y是尺寸為H×W×N/2的輸出;i、j為時間域和頻率域指數(shù);k為信道指數(shù)。相對于ReLU激活函數(shù),最大特征圖激活函數(shù)使用了一個閾值來抑制神經(jīng)元,從而形成神經(jīng)元之間的競爭關(guān)系,因此最大特征圖是一個特征選擇器。
LCNN[8]結(jié)構(gòu)包含了5個卷積層,4個NIN(network in network)層[9],10個最大特征圖層,4個最大池化層和2個全連接層。
在LCNN系統(tǒng)中,最大特征圖激活函數(shù)用來計算卷積層后每2個信道元素級別的最大值。在整個網(wǎng)絡中,使用最大池化層在時間和頻率維度進行降維。最大池化層的卷積核尺寸為2×2,步長為2。全連接層FC6的作用是將信號轉(zhuǎn)化為一個低維高級別特征表示。全連接層FC7是一個softmax分類層,用來區(qū)分真實語音和回放語音。
在LCNN網(wǎng)絡結(jié)構(gòu)中存在過擬合的問題,提出一種基于AOF-LCNN的網(wǎng)絡結(jié)構(gòu)以解決該問題。因為LCNN結(jié)構(gòu)中的最大特征圖結(jié)構(gòu)可能是導致過擬合的主要原因,在保留最大特征圖結(jié)構(gòu)的情況下,使用LeakyReLU對系統(tǒng)進行補償,從而減輕過擬合的影響。因此,AOF-LCNN系統(tǒng)中,首先,設計了一個新的DNN結(jié)構(gòu)分類器作為后端分類網(wǎng)絡,將該DNN結(jié)構(gòu)級聯(lián)在LCNN網(wǎng)絡之后,形成一套新的端到端網(wǎng)絡結(jié)構(gòu);其次,因為LCNN結(jié)構(gòu)中的最大特征圖結(jié)構(gòu)可能是造成過擬合的原因,因此在DNN后端結(jié)構(gòu)中采用LeakyReLU作為激活函數(shù),以抵消MFM的過擬合影響。
AOF-LCNN網(wǎng)絡結(jié)構(gòu)如圖1所示。圖1中:Conv為卷積層;MFM為最大特征圖激活層;Maxpool為最大池化層;FC為全連接層。在AOF-LCNN網(wǎng)絡結(jié)構(gòu)的前端部分,與LCNN網(wǎng)絡結(jié)構(gòu)基本保持一致,區(qū)別在于其少了一個全連接層FC7,其結(jié)構(gòu)為第一個卷積層后連接了4個卷積塊,其中每個卷積塊之間通過最大池化層連接,最后連接了一個全連接層,以生成語音的特征表示。在每個卷積層和卷積塊中,均以最大特征圖作為激活函數(shù),稱為MFM層,其使用在每個卷積層后。其中,在第一個卷積層中,采用卷積核尺寸為5×5,步長為1×1,第一個MFM層的通道數(shù)為16。在其后的每個卷積塊中,含有2個卷積層和2個MFM層,其卷積層a的卷積核尺寸均為1×1,步長均為1×1,卷積層b的卷積核尺寸均為3×3,步長均為1×1。在每個卷積塊中,第一個卷積層后的MFM層,其通道數(shù)跟前一個卷積層后的MFM層通道數(shù)保持一致,第二個卷積層后的MFM層的通道數(shù)分別為24,32,16,16。其中每個最大池化層的卷積核尺寸為2×2,步長為2×2。
圖1 AOF-LCNN網(wǎng)絡結(jié)構(gòu)
DNN后端結(jié)構(gòu)由5個全連接層構(gòu)成,每個全連接層的節(jié)點數(shù)為1 024。輸入尺寸為256,輸出尺寸為2,分別表示真實語音和回放語音。采用LeakyReLU作為激活函數(shù),并對每層采用批歸一化操作和Dropout(隨機丟棄),隨機丟棄率為0.5。
3.1.1 數(shù)據(jù)集
本實驗采用的數(shù)據(jù)集來自于ASVspoof 2017挑戰(zhàn)賽,該數(shù)據(jù)集中包含3個部分:Train、Dev和Eval。其中Train部分是為了訓練模型,Dev數(shù)據(jù)集是為了驗證性能和調(diào)參,而Eval部分不同于Train和Dev部分,其包含了新的說話人、環(huán)境、回放錄音設備以及新的攻擊形式。因此,系統(tǒng)的性能主要體現(xiàn)在Eval部分的測試結(jié)果,其反映了系統(tǒng)的泛化性能。
3.1.2 實驗配置
本實驗采用的數(shù)據(jù)集的語音按照每幀25 ms,10 ms幀移進行分幀,每個語音文件生成一個FFT語譜圖,其中語譜圖橫軸為時間幀數(shù),縱軸為頻率,其尺寸為864×400,其中語音文件長短不一,若幀數(shù)小于400幀,則通過補零方式處理,若大于400幀,則通過截斷方式處理。在AOF-LCNN網(wǎng)絡中,隨機丟棄率為0.5,優(yōu)化器為Adam,其中學習率設置為0.007 5,損失函數(shù)采用交叉熵損失。
ASVspoof 2017挑戰(zhàn)賽官方給出的基線系統(tǒng)是高斯混合模型(gaussian mixture model,簡稱GMM)[8],其使用了29維的CQCC特征及其一階微分及二階微分作為輸入特征,后端模型部分采用了2個GMM模型,這2個模型使用EM(expectation maximization)算法和隨機初始化方法分別針對真實語音和回放語音進行訓練。
將LCNN網(wǎng)絡與AOF-LCNN網(wǎng)絡結(jié)構(gòu)分別在ASVspoof 2017數(shù)據(jù)集上開展實驗,得到的實驗結(jié)果及基線系統(tǒng)GMM的結(jié)果對比如表1所示,其DET(detection error tradeoff)曲線如圖2及圖3所示。
表1 本方法與基線方法實驗結(jié)果對比 %
圖2 Dev數(shù)據(jù)集上DET曲線對比圖
圖3 Eval數(shù)據(jù)集上DET曲線對比圖
從表1可知,AOF-LCNN方法在Dev數(shù)據(jù)集上得到的等錯誤率為3.59%,比ASVspoof 2017挑戰(zhàn)賽官方提供的基線系統(tǒng)方法GMM降低了6.76%,比對標系統(tǒng)LCNN方法降低了2.12%。在Eval數(shù)據(jù)集上,本方法得到的等錯誤率為13.79%,比GMM方法降低了16.81%,比LCNN方法降低了3.51%。由圖2和圖3的DET曲線可知,在Dev和Eval數(shù)據(jù)集上,本方法得到的DET曲線均處于LCNN系統(tǒng)的下方。
從實驗結(jié)果可知,本方法在Dev數(shù)據(jù)集上相對于LCNN系統(tǒng)和GMM系統(tǒng)有了較大提高,同樣,在Eval數(shù)據(jù)集上也表現(xiàn)了出色的性能,有了較大提高。而Dev數(shù)據(jù)集中的說話人和Train數(shù)據(jù)集中保持一致,且場景相似,在此數(shù)據(jù)集上本方法的等錯誤率相對于比賽官方提供的基線系統(tǒng)降低了6.76%,相對于LCNN方法對基線系統(tǒng)降低的等錯誤率,有了非常大的提高。而在添加了大量無關(guān)說話人和變換場景的Eval數(shù)據(jù)集上,LCNN系統(tǒng)表現(xiàn)較差,表現(xiàn)出了強烈的過擬合,而本方法在Eval數(shù)據(jù)集上的表現(xiàn)較為出色,相對于LCNN系統(tǒng)在等錯誤率上降低了3.51%,改善了過擬合,也表現(xiàn)了較好的魯棒性。
提出一種基于AOF-LCNN網(wǎng)絡結(jié)構(gòu)的語音回放攻擊場景下的說話人識別方法,以區(qū)分真實語音和回放語音。在ASVspoof 2017挑戰(zhàn)賽數(shù)據(jù)集上的結(jié)果顯示,提出的基于AOF-LCNN網(wǎng)絡結(jié)構(gòu)的方法在Dev數(shù)據(jù)集上的性能要顯著優(yōu)于LCNN系統(tǒng),同時在與訓練數(shù)據(jù)有非常大差異的Eval數(shù)據(jù)集上也表現(xiàn)出很好的性能,從而說明本方法不僅在等錯誤率上提高了系統(tǒng)的性能,而且表現(xiàn)出了較好的魯棒性。在本研究中,只針對神經(jīng)網(wǎng)絡中存在的問題進行了探究,下一步可在信號層面特征上做更深入的研究。