徐嘉,簡志華,金宏輝,吳超,游林,吳迎笑
研究與開發(fā)
基于中心對稱局部二值模式的合成偽裝語音檢測方法
徐嘉1,簡志華1,金宏輝1,吳超1,游林2,吳迎笑3
(1. 杭州電子科技大學通信工程學院,浙江 杭州 310018;2.杭州電子科技大學網(wǎng)絡(luò)空間安全學院,浙江 杭州 310018;3.杭州電子科技大學計算機學院,浙江 杭州 310018)
針對基于局部二值模式的偽裝語音檢測方法的合成語音檢測準確度較低的情況,提出了一種基于中心對稱局部二值模式的偽裝語音檢測方法。該方法通過短時傅里葉變換得到語音信號的語譜圖,再利用中心對稱局部二值模式提取語譜圖的紋理特征,并用該紋理特征訓(xùn)練隨機森林分類器,從而實現(xiàn)真?zhèn)握Z音的判別。該方法綜合考慮語譜圖中像素點的數(shù)值大小和位置關(guān)系,包含了更加全面的紋理信息,并將特征維度降低至16維,有利于減少計算量。實驗結(jié)果表明,在ASVspoof 2019數(shù)據(jù)集上,與傳統(tǒng)的基于局部二值模式的偽裝語音檢測方法相比,所提方法將合成偽裝語音的串聯(lián)檢測代價函數(shù)(t-DCF)降低了16.98%,檢測速度提高了89.73%。
說話人驗證;偽裝語音檢測;中心對稱局部二值模式;隨機森林
語音是人機交互的一種重要方式,語音信號中包含了說話人特有的身份信息。隨著科技的進步,語音合成技術(shù)不斷發(fā)展,生成的語音信號足以欺騙人類聽覺系統(tǒng)和計算機[1]。通過語音合成技術(shù)生成的高質(zhì)量語音,若被應(yīng)用在銀行的身份認證上,將對個人的財產(chǎn)安全造成重大影響;若利用合成語音操控智能家居等設(shè)備,將造成隱私的泄露;若利用合成語音進行電信詐騙,將對社會治安產(chǎn)生不良影響。使用偽裝語音檢測技術(shù)對語音信號進行分析,從而實現(xiàn)真?zhèn)握Z音的判別,對于提高聲紋識別系統(tǒng)的安全性具有重要意義,應(yīng)用前景廣闊[2]。
偽裝語音檢測技術(shù)通過提取語音信號的特征參數(shù)并應(yīng)用分類模型實現(xiàn)真?zhèn)握Z音的判別。常用的特征參數(shù)包括以下兩大類。一類是短時譜特征,比如梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)、線性預(yù)測倒譜系數(shù)(linear prediction cepstral coefficient,LPCC)等。文獻[3]比較了MFCC等特征的檢測性能,在ASVspoof 2019數(shù)據(jù)庫的LA數(shù)據(jù)集上,利用MFCC進行偽裝語音檢測的等錯誤率(equal error rate,EER)為9.33%。崔兆國[4]比較了MFCC、LPCC特征以及36階MFCC及其差分倒譜系數(shù)的偽裝檢測效果,實驗結(jié)果表明,這3種特征均可用于偽裝語音檢測且36階MFCC及其差分倒譜系數(shù)具有更優(yōu)的效果。另一類是短時相位特征,比如修正群延遲(modified group delay,MGD)、相對相移(relative phase shift,RPS)等。文獻[5]發(fā)現(xiàn)群時延特征保留了較多的共振峰結(jié)構(gòu),證明了其對于語音處理的魯棒性。文獻[6]比較了MGD和RPS兩種特征的檢測性能,在使用MGD進行偽裝語音檢測時,EER為4.918 7%,利用RPS做特征時,EER為4.473 0%。上述聲學特征都可以實現(xiàn)真?zhèn)握Z音的判別,但對合成語音提取這些特征時,僅保留了原始語音中的幅度或相位信息,保留信息不全面,影響了檢測性能。
近年來,紋理分析成為圖像處理領(lǐng)域的研究熱點,局部二值模式(local binary pattern,LBP)是一種較為常用的紋理描述方法。文獻[7-8]利用LBP特征實現(xiàn)了顏色紋理分類,文獻[9-10]通過提取面部圖像的LBP特征,實現(xiàn)了人臉識別。在語音偽裝檢測領(lǐng)域,Alegre等[11]提出了一種利用LBP描述符實現(xiàn)偽裝語音檢測的方法,該方法對語音分幀后提取特征向量,將每一幀的特征向量級聯(lián)后運用LBP描述符進行紋理信息提取,實現(xiàn)真?zhèn)握Z音的區(qū)分,在NIST數(shù)據(jù)集上將EER降低至0.5%。文獻[12]提出了對語譜圖直接進行紋理分析的方法,在ASVspoof 2015數(shù)據(jù)集上將EER從2.589%降至0.796%。然而LBP特征維數(shù)為256維,維數(shù)較高,檢測效率有待提高,且LBP特征只利用了像素點之間的大小關(guān)系,包含的紋理信息較為單一,檢測準確率有待提升。本文提出了一種利用中心對稱局部二值模式的合成語音偽裝檢測方法,通過短時傅里葉變換(short-time Fourier transform,STFT)得到語音信號的語譜圖,再利用中心對稱局部二值模式(central-symmetric local binary pattern,CSLBP)對語譜圖進行紋理分析得到紋理特征圖,將特征圖映射至統(tǒng)計直方圖得到16維特征向量,用該向量訓(xùn)練隨機森林實現(xiàn)合成語音的偽裝檢測。該方法直接對語譜圖提取CSLBP特征,綜合考慮了語音信號的幅度和相位信息,并利用語譜圖像素點之間的大小和位置關(guān)系,降低了特征維數(shù),提高了系統(tǒng)的檢測性能。
LBP是一種描述圖像局部紋理信息的紋理描述方法,該方法將圖像劃分為若干個3×3的鄰域,將每個鄰域中心像素點的灰度值作為閾值,將周圍8個像素點的灰度值與閾值進行比較,若周圍像素點的灰度值大于或等于閾值,則該像素點被標記為1,否則為0,LBP紋理示意圖如圖1所示[13]。
圖1 LBP紋理示意圖
經(jīng)比較,每個鄰域可按順時針得到一個8位二進制數(shù),該8位二進制數(shù)可轉(zhuǎn)換成十進制,這個十進制數(shù)值代表了該鄰域中心像素點的LBP特征值,且每個十進制數(shù)表示一種LBP紋理模式,因此LBP特征值共有256種不同的模式,計算式如下[14]:
圖2 CSLBP紋理示意圖
CSLBP的計算式如下:
用CSLBP進行紋理描述時,每個像素點僅由4位二進制數(shù)表示,因此CSLBP共有16種不同的模式,大大降低了紋理特征的維數(shù),且包含了梯度方向上的信息[16]。
基于CSLBP的偽裝語音檢測方法,首先將語音信號轉(zhuǎn)換為語譜圖,再提取語譜圖的CSLBP紋理特征,然后將該特征輸入隨機森林網(wǎng)絡(luò)進行訓(xùn)練和分類,從而實現(xiàn)偽裝語音檢測。CSLBP特征提取流程如圖3所示。
首先通過STFT得到語音信號的語譜圖,然后將語譜圖轉(zhuǎn)換為灰度圖,再將灰度圖劃分為若干個3×3鄰域,對每一鄰域內(nèi)的像素點提取十進制的CSLBP值,即可得到整幅圖像的CSLBP矩陣,最后對整幅圖像的CSLBP值進行直方圖統(tǒng)計,統(tǒng)計每種模式下像素點的數(shù)目,最終得到16維的CSLBP特征向量。
圖3 CSLBP特征提取流程
本文提出的利用CSLBP的偽裝語音檢測整體流程如圖4所示,首先用圖3的方法獲取訓(xùn)練集中語音信號的CSLBP特征向量,并輸入隨機森林網(wǎng)絡(luò)進行訓(xùn)練得到分類器,檢測時提取待測語音的CSLBP特征向量,然后利用隨機森林分類器實現(xiàn)真?zhèn)握Z音的判別。
圖4 利用CSLBP的偽裝語音檢測整體流程
實驗是在ASVspoof 2019語音數(shù)據(jù)庫中的LA數(shù)據(jù)集上進行的,其中包含真實、合成和轉(zhuǎn)換3種語音,本實驗僅采用其中的真實語音和合成語音進行訓(xùn)練和測試。LA數(shù)據(jù)集分為訓(xùn)練集、開發(fā)集和評估集,3個子集之間無重復(fù)語音,LA數(shù)據(jù)集見表1。該數(shù)據(jù)集中的語音由神經(jīng)波形模型、聲碼器、波形拼接等17種算法生成[17]。
表1 LA數(shù)據(jù)集
本實驗采用串聯(lián)檢測代價函數(shù)(tandem detection cost function,t-DCF)作為語音偽裝檢測性能的評價方法[18]。在實際應(yīng)用中,偽裝語音檢測系統(tǒng)往往需要與自動說話人驗證(automatic speaker verification,ASV)系統(tǒng)結(jié)合使用,且檢測結(jié)果同時受到偽裝語音檢測系統(tǒng)和ASV系統(tǒng)的影響,若僅使用EER作為評價標準,無法反映檢測模型的整體性能。t-DCF綜合考慮了錯誤拒絕和錯誤接受發(fā)生的代價、錯誤率以及真?zhèn)握Z音的先驗概率,用來評估偽裝語音檢測系統(tǒng)較為合理,且t-DCF值越小,系統(tǒng)檢測效果越好。
t-DCF的計算式為:
表2 不同閾值T下CSLBP特征的t-DCF
為了驗證CSLBP特征的有效性,比較了36 維MFCC特征、LPCC特征、對語譜圖提取的LBP特征和對語譜圖提取的CSLBP特征在SVM和隨機森林做后端分類器時的t-DCF,在這里用訓(xùn)練集中的真實語音和A01~A04 4種類型的合成語音進行訓(xùn)練,用評估集中的真實語音和A07~A16類型的合成語音一起進行評估。4種特征的t-DCF見表3。同時,對4種不同特征的檢測時間進行了比較,4種特征的檢測耗時見表4。
表3 幾種特征的t-DCF
表4 幾種特征的檢測耗時
從表3和表4來看,利用CSLBP特征訓(xùn)練隨機森林的方法在合成語音檢測時取得了最佳檢測結(jié)果,與LBP相比,CSLBP特征的t-DCF降低了16.98%,且檢測速度提高了89.73%,這是因為CSLBP特征不僅利用了像素點之間的大小關(guān)系,還利用了像素點之間的空間位置關(guān)系,紋理信息更為全面,極大地提高了合成語音的檢測性能。評估集中不同類型合成語音檢測的t-DCF見表5。
表5對評估集中不同類型的合成語音檢測性能進行了比較,在這個比較實驗中,訓(xùn)練所用樣本是訓(xùn)練集中的真實語音和A01~A04 4種類型的合成語音,然后對評估集中A07~A16 10種類型的合成語音分別進行偽裝檢測。在檢測A07、A08、A14類型的合成語音時,CSLBP的t-DCF值比LBP略高,這是因為對于這幾種類型的合成語音來說,其語譜圖中鄰域中心像素點的灰度值包含了豐富的紋理信息,而CSLBP特征沒有將中心像素點的灰度值利用起來,因此效果相對較差。另外,從表5可以看出,這幾種檢測方法在檢測A14、A15這兩種類型的合成語音時,相比于其他幾種類型,t-DCF值較高。原因在于A14、A15這兩種類型的語音在生成時不僅利用了語音合成算法,還利用了語音轉(zhuǎn)換技術(shù),生成的語音更加貼近真實語音,保留了較多的紋理信息。雖然A13的語音也采用了類似于A14、A15的生成方法,但檢測效果優(yōu)于A14、A15,這是因為A14、A15采用基于長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)的聲學模型生成語音[20]。而生成A13語音時,采用傳統(tǒng)的語音轉(zhuǎn)換方法以及基于矩匹配的損失函數(shù)進行訓(xùn)練[21],用直接波形修改的方式生成輸出波形,紋理信息也隨之改變,因此易于檢測。整體來看,CSLBP特征降低了合成語音的t-DCF,減少了檢測所需時間,提高了合成語音檢測系統(tǒng)的整體性能。
表5 評估集中不同類型合成語音檢測的t-DCF
本文提出了一種利用CSLBP特征的合成語音檢測方法。該方法首先通過STFT得到語音信號的語譜圖,然后利用語譜圖中像素灰度值和空間位置的差異,提取CSLBP特征進行紋理分析,再進行直方圖統(tǒng)計得到特征向量,然后利用隨機森林對特征向量進行訓(xùn)練和分類,實現(xiàn)偽裝語音的檢測。該方法不僅比較了像素點之間的灰度值,還利用了像素點之間的位置關(guān)系,提取了更多的紋理信息,降低了特征維度,有效地改善了傳統(tǒng)LBP特征的檢測性能,提高了檢測速度,降低了t-DCF。實驗結(jié)果表明,在全局閾值為5時,由CSLBP特征和隨機森林構(gòu)建的合成語音檢測系統(tǒng)在ASVspoof 2019數(shù)據(jù)集上取得了最佳的檢測性能。利用CSLBP的合成語音檢測方法雖較傳統(tǒng)方法有所改進,但仍存在問題需要解決,如全局閾值自適應(yīng)化等,在未來的工作中,將繼續(xù)進行優(yōu)化。
[1] KANERVISTO A, HAUTAM?KI V, KINNUNEN T, et al. Optimizing tandem speaker verification and anti-spoofing systems[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022, 30: 477-488.
[2] LEI Z C, YAN H, LIU C H, et al. Two-path GMM-ResNet and GMM-SENet for ASV spoofing detection[C]//Proceedings of ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2022: 6377-6381.
[3] ALZANTOT M, WANG Z Q, SRIVASTAVA M B. Deep residual neural networks for audio spoofing detection[C]//Proceedings of Interspeech 2019. Cary: ISCA, 2019: 1078-1082.
[4] 崔兆國. 基于SVM的反蓄意模仿說話人識別研究[D]. 桂林: 桂林電子科技大學, 2013.
CUI Z G. Research on speaker recognition of anti-deliberate imitation based on SVM[D]. Guilin: Guilin University of Electronic Technology, 2013.
[5] PADMANABHAN R, PARTHASARATHI S H K, MURTHY H A. Robustness of phase based features for speaker recognition[C]//Proceedings of Interspeech 2009. Cary: ISCA, 2009: 2299-2302.
[6] SARATXAGA I, SANCHEZ J, WU Z, et al. Synthetic speech detection using phase information[J]. Speech Communication, 2016(81): 30-41.
[7] HOANG V T. Unsupervised LBP histogram selection for color texture classification via sparse representation[C]//Proceedings of 2018 IEEE International Conference on Information Communication and Signal Processing. Piscataway: IEEE Press, 2018: 79-84.
[8] SHU X, SONG Z, SHI J, et al. Multiple channels local binary pattern for color texture representation and classification[J]. Signal Processing: Image Communication, 2021(98): 116392.
[9] KARANWAL S. A comparative study of 14 state of art descriptors for face recognition[J]. Multimedia Tools and Applications, 2021, 80(8): 12195-12234.
[10] SHI L, WANG X, SHEN Y. Research on 3D face recognition method based on LBP and SVM[J]. Optik: International Journal for Light and Electron Optics, 2020(220):165157.
[11] ALEGRE F, VIPPERLA R, AMEHRAYE A, et al. A new speaker verification spoofing countermeasure based on local binary patterns[C]//Proceedings of Interspeech 2013. Cary: ISCA, 2013: 940-944.
[12] 徐劍, 簡志華, 于佳祺, 等. 采用完整局部二進制模式的偽裝語音檢測[J]. 電信科學, 2021, 37(5): 91-99.
XU J, JIAN Z H, YU J Q, et al. Completed local binary pattern based speech anti-spoofing[J]. Telecommunications Science, 2021, 37(5): 91-99.
[13] XIA Z H, YUAN C S, LYU R, et al. A novel weber local binary descriptor for fingerprint liveness detection[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2018, 50(4): 1526-1536.
[14] TOFFA O K, MIGNOTTE M. Environmental sound classification using local binary pattern and audio features collaboration[J]. IEEE Transactions on Multimedia, 2021(23): 3978-3985.
[15] SHAH A, EL-ALFY E. Comparative analysis of feature extraction and fusion for blind authentication of digital images using chroma channels[J]. Signal Processing: Image Communication, 2021(95): 116271.
[16] 王科俊, 曹逸, 邢向磊. 基于MB-CSLBP的手指靜脈加密算法研究[J]. 智能系統(tǒng)學報, 2018, 13(4): 543-549.
WANG K J, CAO Y, XING X L. Finger-vein encryption algorithm based on MB-CSLBP[J]. CAAI Transactions on Intelligent Systems, 2018, 13(4): 543-549.
[17] WANG X, YAMAGISHI J, TODISCO M, et al. ASVspoof 2019: a large-scale public database of synthesized, converted and replayed speech[J]. Computer Speech & Language, 2020(64): 101114.
[18] KINNUNEN T , DELGADO H , EVANS N , et al. Tandem assessment of spoofing countermeasures and automatic speaker verification: fundamentals[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020(28): 2195-2210.
[19] HEIKKILA M, PIETIKAINEN M. A texture-based method for modeling the background and detecting moving objects[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(4): 657-662.
[20] LIU L J, LING Z H, JIANG Y, et al. WaveNet vocoder with limited training data for voice conversion[C]//Proceedings of Annual Conference of the International Speech Communication Association (Interspeech). Cary: ISCA, 2018: 1983-1987.
[21] LI Y J, SWERSKY K, ZEMEL R. Generative moment matching networks[C]//Proceedings of International Conference on Machine Learning (ICML). [S.l.: s.n.], 2015: 1718-1727.
Synthetic spoofing speech detection method based on center-symmetric local binary pattern
XU Jia1, JIAN Zhihua1, JIN Honghui1, WU Chao1, YOU Lin2, WU Yingxiao3
1. School of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China 2. School of Cyberspace Security, Hangzhou Dianzi University, Hangzhou 310018, China 3. School of Computer, Hangzhou Dianzi University, Hangzhou 310018, China
In view of the fact that the local binary pattern (LBP) based speech spoofing detection method has low detection accuracy when detecting synthetic speech, a spoofing speech detection method based on center-symmetric local binary pattern (CSLBP) was proposed. In this method, the spectrogram of the speech signal was obtained through short-time Fourier transform (STFT), and then the texture feature was extracted from the spectrogram using the CSLBP. The random forest classifier was trained by the extracted texture feature to realize the discrimination of genuine and spoofing speech. The CSLBP-based method comprehensively considered the value and position relationship of pixels in the spectrogram so as to contain more texture information, and reduced the feature dimension to 16 beneficial to decrease the amount of computation. Experimental results on the ASVspoof 2019 dataset show that, compared with the LBP-based spoofing detection method, the proposed method reduced the tandem detection cost function (t-DCF) of synthetic spoofing speech by 16.98% and increased the detection speed by 89.73%.
speaker verification, spoofing speech detection, CSLBP, random forest
TP391.42
A
10.11959/j.issn.1000–0801.2023005
2022-05-16;
2022-12-15
簡志華,jianzh@hdu.edu.cn
國家自然科學基金資助項目(No.61201301,No.61772166,No.61901154)
The National Natural Science Foundation of China (No.61201301, No.61772166, No.61901154)
徐嘉(1998-),女,杭州電子科技大學通信工程學院碩士生,主要研究方向為偽裝語音檢測。
簡志華(1978-),男,杭州電子科技大學通信工程學院副教授、碩士生導(dǎo)師,主要研究方向為語音轉(zhuǎn)換、偽裝語音檢測、聲紋識別等。
金宏輝(1999-),男,杭州電子科技大學通信工程學院碩士生,主要研究方向為語音轉(zhuǎn)換和偽裝語音檢測。
吳超(1988-),男,杭州電子科技大學通信工程學院講師,主要研究方向為導(dǎo)航信號處理及欺騙干擾檢測。
游林(1966-),男,杭州電子科技大學網(wǎng)絡(luò)空間安全學院教授、博士生導(dǎo)師,主要研究方向為生物信息處理、信息安全、密碼學等。
吳迎笑(1980-),女,杭州電子科技大學計算機學院特聘教授,主要研究方向為毫米波感知用于聲紋識別與認證、射頻信息處理和工業(yè)互聯(lián)網(wǎng)。