柯宏宇,高奕寧,郝雪營(yíng),黃 濤,2
(1.武漢郵電科學(xué)研究院,湖北 武漢 430074;2.武漢烽火眾智數(shù)字技術(shù)有限責(zé)任公司,湖北 武漢 430074)
近年來(lái),人工智能快速發(fā)展,促進(jìn)了人機(jī)交互應(yīng)用的加深。生物識(shí)別作為人機(jī)交互的重要一環(huán),具有廣闊的研究前景[1]。該技術(shù)利用人體與生俱來(lái)的較穩(wěn)定特征進(jìn)行身份驗(yàn)證,包括指紋、聲紋、虹膜等,其中聲紋識(shí)別具有非接觸、高可靠、低成本等優(yōu)勢(shì),成為了目前主流身份判定特征之一。然而,隨著具備高保真錄音功能電子設(shè)備的普及,清晰度較高的錄音獲取變得簡(jiǎn)單,這在一定程度上降低了不法分子偷錄語(yǔ)音假冒認(rèn)證的難度。如何在聲紋識(shí)別任務(wù)中,有效區(qū)分輸入語(yǔ)音是否為回放語(yǔ)音,對(duì)守護(hù)公民財(cái)產(chǎn)安全具有重大意義。目前,關(guān)于回放攻擊檢測(cè)的研究,大多與說(shuō)話人識(shí)別聯(lián)系在一起,缺乏對(duì)這一問(wèn)題的單獨(dú)探究。該文針對(duì)偷錄語(yǔ)音與真實(shí)語(yǔ)音在信道中存在的信道噪聲長(zhǎng)時(shí)統(tǒng)計(jì)特征差異,提出一種有效的檢測(cè)手段,從模型魯棒性、有效性兩個(gè)方面對(duì)回放攻擊展開研究。
回放語(yǔ)音攻擊可分為4類:錄音重放、波形拼接、語(yǔ)音合成和語(yǔ)音模仿[2]。后三類攻擊模式需對(duì)說(shuō)話人聲道模型建模,由于個(gè)體間的聲道差異性較大,語(yǔ)音模仿的普適性較差,且合成拼接技術(shù)精度難以保證,因此實(shí)際案例應(yīng)用較少。錄音重放與真實(shí)語(yǔ)音具有相同的聲紋信息與語(yǔ)音特征,因此最具威脅。盡管語(yǔ)音識(shí)別研究始于二十世紀(jì)五十年代,但是直到1999年才首次使用一男一女的語(yǔ)音樣本評(píng)估錄音重放攻擊對(duì)系統(tǒng)的破壞性[3]。文獻(xiàn)[4]使用遠(yuǎn)場(chǎng)偷錄的語(yǔ)音進(jìn)行錄音回放攻擊,實(shí)驗(yàn)結(jié)果表明,該錄音回放檢測(cè)系統(tǒng)在信噪比較低環(huán)境中的錯(cuò)誤接受率(false acceptance rate,F(xiàn)AR)較高。為提高識(shí)別精度,文獻(xiàn)[5]提出基于語(yǔ)譜圖的檢測(cè)算法,并在后續(xù)工作中引入了均值和方差參數(shù)進(jìn)行相似度比對(duì)[6],有效降低等錯(cuò)誤率(equal error rate,EER)。文獻(xiàn)[7]在語(yǔ)譜圖上引入中點(diǎn)相對(duì)位置這一概念,并著重研究麥克風(fēng)采集距離對(duì)識(shí)別的影響,同時(shí)比對(duì)了不同信噪比下的檢測(cè)結(jié)果。針對(duì)遠(yuǎn)場(chǎng)偷錄所產(chǎn)生的低頻無(wú)關(guān)因素,文獻(xiàn)[8]提出了一種基于光譜比率(spectral ratio,SR)、低頻比率(low frequency ratio,LFR)和調(diào)制系數(shù)構(gòu)成特征集的語(yǔ)音檢測(cè)算法,并使用支持向量機(jī)(support vector machine,SVM)進(jìn)行分類,提高了不同場(chǎng)景下的識(shí)別正確率。除了采用語(yǔ)音特征參數(shù)對(duì)錄音回放進(jìn)行研究,有部分研究者從信道信息著手。文獻(xiàn)[9]基于高通濾波器和統(tǒng)計(jì)幀,文獻(xiàn)[10]采用經(jīng)驗(yàn)?zāi)B(tài)分解濾波器,均實(shí)現(xiàn)了信道特征的提取,并在錄音回放檢測(cè)時(shí)獲得了較好效果;文獻(xiàn)[11]通過(guò)借鑒高斯混合模型和通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)在說(shuō)話人識(shí)別中的應(yīng)用模式,成功提取了語(yǔ)音靜音段特征,有效降低了EER,但是實(shí)驗(yàn)規(guī)模較小,有待進(jìn)一步擴(kuò)充。除此之外,文獻(xiàn)[12]采用了自適應(yīng)子帶譜熵法進(jìn)行靜音區(qū)提取,并改進(jìn)了梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)提取過(guò)程,包括在預(yù)處理時(shí)不進(jìn)行預(yù)加重,加窗時(shí)使用多級(jí)窗代替單級(jí)窗,以及采用歸一化Mel濾波器組進(jìn)行特征提取等措施,實(shí)驗(yàn)結(jié)果表明,系統(tǒng)EER有效降低,但該研究假設(shè)環(huán)境安靜無(wú)干擾,而這與實(shí)際使用存在差異。2018年,文獻(xiàn)[13]在總結(jié)現(xiàn)有對(duì)抗措施后,提出采用線性預(yù)測(cè)(linear prediction,LP)參數(shù)替代傳統(tǒng)的光譜相關(guān)信息,實(shí)驗(yàn)結(jié)果證明,相較于已有參數(shù),LP參數(shù)具有更強(qiáng)的魯棒性。但是選取單個(gè)參數(shù)作為性能指標(biāo)進(jìn)行訓(xùn)練時(shí),所需訓(xùn)練數(shù)據(jù)量較大才可得到泛化性能較好的系統(tǒng)模型,且容易出現(xiàn)過(guò)擬合現(xiàn)象。
基于此,該文提出了一種基于決策融合的信道信息回放檢測(cè)算法,提取Legendre系數(shù)及其統(tǒng)計(jì)特征,語(yǔ)音基頻特征以及MFCC特征,并使用三個(gè)SVM進(jìn)行決策,而后以一定權(quán)重融合以上三個(gè)參數(shù)進(jìn)行總體決策,實(shí)現(xiàn)回放攻擊檢測(cè)。
本節(jié)將針對(duì)文中所提問(wèn)題,簡(jiǎn)要回顧語(yǔ)音信號(hào)的一般處理流程,包括語(yǔ)音信號(hào)的預(yù)處理與一些常用語(yǔ)音特征的提取方法。
語(yǔ)音信號(hào)包含人類發(fā)聲器官本身以及采集設(shè)備帶來(lái)的混疊,通常存在高次諧波失真、高頻分量不足等缺陷。實(shí)際中,需要進(jìn)行預(yù)處理以平滑信號(hào),為后續(xù)處理提供良好基礎(chǔ)。常用預(yù)處理手段包括:預(yù)加重、端點(diǎn)檢測(cè)、分幀、加窗處理四部分。預(yù)加重能消除發(fā)聲過(guò)程中聲帶和嘴唇對(duì)高頻語(yǔ)音信號(hào)的抑制效應(yīng)[14],從而使高頻段信號(hào)的能量衰減得到補(bǔ)償。具體的預(yù)加重公式如下:
H(z)=1-αz-1
其中,α表示預(yù)加重系數(shù),依據(jù)經(jīng)驗(yàn),文中設(shè)置α=0.98。端點(diǎn)檢測(cè)是指在輸入信號(hào)中檢測(cè)語(yǔ)音的起止位置,將語(yǔ)音的沉默片段去除[15]。端點(diǎn)檢測(cè)可以在減少計(jì)算量的同時(shí)消除無(wú)關(guān)變量對(duì)系統(tǒng)識(shí)別的影響,常用檢測(cè)指標(biāo)包括信號(hào)能量和短時(shí)過(guò)零率等統(tǒng)計(jì)特性。分幀可以將長(zhǎng)時(shí)、非穩(wěn)態(tài)信號(hào)分成短時(shí)、近似平穩(wěn)信號(hào),進(jìn)而可采用語(yǔ)音短時(shí)分析技術(shù),通常采用的幀長(zhǎng)為10 ms~30 ms,為保證信號(hào)過(guò)渡的連續(xù)性,幀移往往小于幀長(zhǎng),文中將幀長(zhǎng)設(shè)置為10 ms。加窗是指將語(yǔ)音幀與一個(gè)窗函數(shù)相乘,減小語(yǔ)音信號(hào)的截?cái)嘈?yīng),使語(yǔ)音幀兩端平滑過(guò)渡到零。
生理學(xué)研究表明,人的聽覺系統(tǒng)是一個(gè)出色的說(shuō)話人識(shí)別系統(tǒng),對(duì)不同頻率的聲波有不同程度的靈敏度,其敏感程度可以由對(duì)數(shù)函數(shù)較好的表征。為了更好地?cái)M合人耳聽覺特性,通常采用倒譜系數(shù)刻畫語(yǔ)音特征,倒譜系數(shù)由對(duì)語(yǔ)音信號(hào)的功率譜取對(duì)數(shù)得到,目前已廣泛應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域。常用的語(yǔ)音倒譜系數(shù)特征包括線性預(yù)測(cè)倒譜系數(shù)(linear predictive cepstrum coefficient,LPCC)、梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)、逆梅爾倒譜系數(shù)(inverted-mel frequency cepstrum coefficient,IMFCC)、耳蝸倒譜系數(shù)(cochlear frequency cepstrum coefficient,CFCC)等[16]。其中,MFCC源于對(duì)人耳聽覺特性的分析,計(jì)算較為方便,因而使用廣泛。實(shí)際頻率f與Mel頻率間對(duì)應(yīng)關(guān)系可由下式表示:
Fmel=2 595lg(1+f/700)
其中,f單位為赫茲,梅爾頻率單位為Mel。具體說(shuō)來(lái),在對(duì)MFCC特征進(jìn)行提取時(shí),可以依據(jù)兩者間的對(duì)應(yīng)關(guān)系,劃分出三角濾波器組,即Mel濾波器組,該濾波器組在以赫茲為頻率的軸上呈非等距分布,而在Mel頻率軸上呈等間距分布。濾波器組一般由若干個(gè)三角濾波器排列構(gòu)成,濾波器組帶寬大致范圍為4 000赫茲,包含人耳聽覺敏感頻率范圍3 000赫茲至4 000赫茲。MFCC濾波器組分布如圖1所示。
圖1 MFCC濾波器組分布圖
該文提出一種基于信道信息的多參數(shù)回放攻擊檢測(cè)系統(tǒng),系統(tǒng)整體框圖如圖2所示。對(duì)預(yù)處理后的語(yǔ)音信號(hào)提取Legendre多項(xiàng)式系數(shù)與其統(tǒng)計(jì)特征用以擬合信道模式噪聲,同時(shí)提取基頻特征與MFCC特征作為輔助特征,用于描述信道信息,在最后進(jìn)行融合決策。
圖2 系統(tǒng)整體框圖
該文采用Legendre多項(xiàng)式擬合信道模式噪聲。Legendre多項(xiàng)式是一種正交基底,較好地反映了幀間的關(guān)聯(lián),在作為錄音回放檢測(cè)指標(biāo)時(shí)有較強(qiáng)的魯棒性[17]。目前常采用六階多項(xiàng)式系數(shù)對(duì)信道模式噪聲進(jìn)行模擬,其擬合表達(dá)式如下:
其中,Ln表示多項(xiàng)式系數(shù),n表示階數(shù),Pn(x)則為L(zhǎng)egendre多項(xiàng)式通項(xiàng)公式:
目前常采用六階多項(xiàng)式(L0,L1,L2,L3,L4,L5)系數(shù)對(duì)噪聲進(jìn)行模擬。零階矢量表示信道模式噪聲直流分量;一階矢量表示信道噪聲分布曲線斜率;二階矢量表示信道噪聲分布曲線曲率;高階矢量則表示信道噪聲分布曲線細(xì)節(jié)信息??紤]到信道短時(shí)特征隨時(shí)間變化較為緩慢,該文采用12階向量表征信道模式噪聲特征,其中前六階參數(shù)表征零階到五階Legendre多項(xiàng)式系數(shù),后六階參數(shù)加入Legendre多項(xiàng)式系數(shù)的長(zhǎng)時(shí)統(tǒng)計(jì)特征,分別表征信道模式噪聲的最大值,最小值,均值,中值,極差與標(biāo)準(zhǔn)差。
基音是指話音中頻率最低的分音,其頻率被稱為基頻,可以用于反映說(shuō)話人生物學(xué)特征,如年齡、性別等,是一種較為穩(wěn)定的特征,目前常應(yīng)用于刑偵破案中。常用的提取方法主要分為時(shí)域法、頻域法以及統(tǒng)計(jì)法[18]。時(shí)域法包含兩類,分別為自相關(guān)算法以及平均幅度差算法。自相關(guān)算法通過(guò)自相關(guān)函數(shù)求取基頻特征,自相關(guān)函數(shù)是用于計(jì)算語(yǔ)音信號(hào)序列的功率譜密度,可以反映語(yǔ)音信號(hào)在時(shí)間上的關(guān)聯(lián)性,其公式表示如下:
其中,Sn(m)為采樣后的語(yǔ)音信號(hào)表達(dá)式,N為窗長(zhǎng),k為采樣點(diǎn)數(shù)。由于相關(guān)函數(shù)在基音周期整數(shù)倍處取得極值,因此,通過(guò)計(jì)算相鄰兩個(gè)最大峰值間距,并將距離參數(shù)由時(shí)域變換到頻域,即可得出基頻值。同時(shí)噪聲信號(hào)經(jīng)自相關(guān)運(yùn)算后主要集中于零點(diǎn)低頻段,故該算法可以一定程度上區(qū)分噪聲與輸入語(yǔ)音[19];平均幅度差算法與自相關(guān)算法原理類似,不同之處在于自相關(guān)函數(shù)計(jì)算功率譜時(shí)為求乘積,算法時(shí)間復(fù)雜度往往較高,為了規(guī)避較大的運(yùn)算量,可以采用平均幅度差計(jì)算方式求取基頻。語(yǔ)音信號(hào)的短時(shí)平均幅度差函數(shù)公式表示如下:
其中,Sn(m)為某采樣點(diǎn)的幅度,Sn(m+k)為相鄰采樣點(diǎn)的幅度,N為窗長(zhǎng),k為采樣點(diǎn)數(shù)。該算法原理是周期信號(hào)中,相距為周期整數(shù)倍的采樣點(diǎn)的幅值相等。除了計(jì)算方式的區(qū)別,平均幅度差算法所關(guān)注的性能指標(biāo)是波谷而非自相關(guān)算法中的波峰。這是因?yàn)椴ü认噍^于波峰更加陡峭,錯(cuò)判率更低,且采用中心削波后準(zhǔn)確率更高[20]。
頻域法以倒譜法為主,該方法利用語(yǔ)音信號(hào)倒譜特征提取基頻,由于語(yǔ)音信號(hào)倒譜特征中含有聲門激勵(lì)周期,即基頻信息,通過(guò)計(jì)算該周期即可得出基頻[21]。在倒譜域中,由于激勵(lì)信息與聲道響應(yīng)為加性關(guān)系,但由于所處頻段不同,所以波形上分離度明顯,計(jì)算基頻精度較高,但是計(jì)算量過(guò)大,不適用于實(shí)時(shí)性要求較高的場(chǎng)合。
統(tǒng)計(jì)法是通過(guò)機(jī)器學(xué)習(xí)方法,提取時(shí)域特征或者頻域特征后,分析自相關(guān)函數(shù)的周期性或者相鄰采樣點(diǎn)間幅度差,算出基頻值后,得出基頻值與輸入語(yǔ)音時(shí)頻域特征間的對(duì)應(yīng)關(guān)系,生成訓(xùn)練模型,進(jìn)而在新輸入語(yǔ)音時(shí)可直接求出其基頻值[22]。為對(duì)抗噪聲帶來(lái)的干擾,同時(shí)更好地確保說(shuō)話對(duì)象的唯一性,該文融合基頻特征作為一個(gè)輔助指標(biāo),減少語(yǔ)音回放信道攻擊對(duì)檢測(cè)系統(tǒng)的影響。
一般的機(jī)器學(xué)習(xí)方法將訓(xùn)練重心放在單個(gè)性能指標(biāo)上,忽略了其他可能優(yōu)化性能指標(biāo)的信息。而實(shí)際應(yīng)用場(chǎng)景中測(cè)試集與訓(xùn)練集往往存在一定差異。因此測(cè)試時(shí),訓(xùn)練模型如果僅采用單個(gè)指標(biāo)進(jìn)行決策,出現(xiàn)擬合失真的概率往往較高[23]。決策融合是一種通過(guò)共享多個(gè)性能指標(biāo)的表征,同時(shí)使各指標(biāo)之間相互影響的策略,具有較好的泛化性能。該文采用如下公式進(jìn)行決策融合:
f(x)=αx1+βx2+γx3
其中,α、β、γ分別為各個(gè)決策的融合權(quán)重,x1、x2、x3分別為L(zhǎng)egendre多項(xiàng)式?jīng)Q策結(jié)果,基頻決策結(jié)果以及基于MFCC特征的決策結(jié)果。由于信道模式噪聲特征在安靜無(wú)噪聲場(chǎng)景下已具有較好的錄音回放檢測(cè)表現(xiàn),而該文在此基礎(chǔ)上進(jìn)一步考慮了多種信噪比條件下的錄音回放檢測(cè),因此本實(shí)驗(yàn)中,α=0.7、β=0.2、γ=0.1,采用信道模式噪聲作為主要判別依據(jù),基頻特征權(quán)重次之,最后是MFCC特征參數(shù)權(quán)重。經(jīng)過(guò)調(diào)試,最終的接受閾值設(shè)置為0.75。
本節(jié)將對(duì)文中實(shí)驗(yàn)中涉及的數(shù)據(jù)集構(gòu)造以及實(shí)驗(yàn)方法進(jìn)行說(shuō)明。實(shí)驗(yàn)計(jì)算機(jī)的CPU為AMD Ryzen 7 3800X 8-Core,32G內(nèi)存,Windows 10操作系統(tǒng)。實(shí)驗(yàn)平臺(tái)為MATLAB 2017b。
由于目前針對(duì)錄音重放的開源數(shù)據(jù)集較少且不易直接獲得,文中基于語(yǔ)音數(shù)據(jù)集AISHELL-2019B-EVAL[24]對(duì)所需數(shù)據(jù)進(jìn)行了制作,用以研究不同偷錄設(shè)備翻錄語(yǔ)音對(duì)檢測(cè)的影響。制作時(shí)通過(guò)運(yùn)行轉(zhuǎn)錄程序播放原數(shù)據(jù)集語(yǔ)音,同時(shí)采用監(jiān)測(cè)麥克風(fēng)進(jìn)行收聲,具體轉(zhuǎn)錄設(shè)備信息如表1所示。
表1 基于AISHELL數(shù)據(jù)集語(yǔ)音樣本制作詳情
在信號(hào)處理中,信號(hào)功率與噪聲功率的比值稱為信噪比,其定義式如下:
SNR=10lg(S/N)
其中,S為信號(hào)功率,N為噪聲功率,SNR單位為dB。為確保系統(tǒng)性能的魯棒性,將表1所獲得數(shù)據(jù)按0 dB、3 dB、5 dB、10 dB、20 dB的信噪比與白噪聲進(jìn)行混合后,作為現(xiàn)有方法的對(duì)照組進(jìn)行后續(xù)實(shí)驗(yàn)。
在對(duì)輸入語(yǔ)音進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理流程后,計(jì)算信道模式噪聲特征。同時(shí)對(duì)比文獻(xiàn)[9,11-12]的方法,實(shí)驗(yàn)結(jié)果如表2所示。可以看到,噪聲的引入對(duì)回放語(yǔ)音檢測(cè)有一定的影響,隨著信噪比的降低,識(shí)別精度總體呈下降趨勢(shì),其中,噪聲對(duì)文獻(xiàn)[11]的方法影響較為嚴(yán)重,原因之一在于低信噪比環(huán)境下無(wú)法有效進(jìn)行端點(diǎn)檢測(cè)。文獻(xiàn)[9]采用信道模式噪聲統(tǒng)計(jì)特征作為判別依據(jù),隨著輸入語(yǔ)音信噪比的增加,識(shí)別率穩(wěn)定上升。但是由于決策指標(biāo)單一,相比而言,文中提出的決策融合算法,能在有效對(duì)抗干擾的同時(shí),提高模型在噪音環(huán)境中的表現(xiàn)。
表2 不同信噪比下對(duì)比識(shí)別精度結(jié)果
實(shí)驗(yàn)結(jié)果表明,該文所提出的基于決策融合的信道信息檢測(cè)方法簡(jiǎn)潔有效,系統(tǒng)的識(shí)別精度在不同信噪比環(huán)境下較為穩(wěn)定,實(shí)現(xiàn)了攻擊檢測(cè)目標(biāo)。
提出了一種回放攻擊檢測(cè)算法,并在噪聲環(huán)境下研究了模型的魯棒性,取得較為穩(wěn)定的效果。除此之外,該模型是輕量級(jí)的,因此可以部署在移動(dòng)端,具有一定實(shí)際應(yīng)用價(jià)值。一部分研究認(rèn)為,信道信息主要集中在高頻部分,為了在高頻上獲得較高的分辨率,挖掘高頻部分的有效信息,一些新的濾波器組或特征被設(shè)計(jì)并用于實(shí)踐,該文也對(duì)部分特征進(jìn)行了實(shí)驗(yàn),識(shí)別效果有待進(jìn)一步提升。如何提取更有效更穩(wěn)定的特征,也是未來(lái)工作的一個(gè)方向。