• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    合成語音檢測方法的研究現(xiàn)狀及展望

    2022-01-28 08:07:30魏為民孟繁星
    上海電力大學學報 2022年1期
    關鍵詞:分類器頻譜語音

    魏為民, 劉 暢, 才 智, 孟繁星

    (上海電力大學 計算機科學與技術學院, 上海 200090)

    相比傳統(tǒng)的身份認證,生物身份認證被認為是一種更加便捷有效的認證方案,這是由于生物的身份信息蘊含于自身且獨一無二,因此不存在遺失的風險且不容易更改。聲紋認證作為一種生物認證方式被越來越廣泛地應用,如門禁、銀行等。同時,由于互聯(lián)網(wǎng)的飛速發(fā)展,用戶的信息非常容易泄露,導致犯罪分子在獲取用戶的語音信息后,利用合成技術進行語音詐騙,威脅群眾的財產(chǎn)安全。因此,開發(fā)針對語音識別系統(tǒng)的惡意欺騙的對策已經(jīng)越來越重要。

    使用合成語音對抗說話人驗證系統(tǒng)(Automatic Speaker Verification,ASV)的欺騙問題是由MASUKO T等人在1999年首次發(fā)表的[1]。合成語音檢測通常需要先提取語音信息特征,包括語音的信號處理等。在對語音信號處理時需要進行基音周期檢測,以得到與聲音振動頻率吻合較好的基音周期變化軌跡曲線,這樣才能高效地識別語音[2]。然后,針對語音信息特征建立分類器。融合了合成語音檢測算法的說話人驗證系統(tǒng)可以有效地抵抗合成語音的攻擊。傳統(tǒng)的合成語音檢測方法包括利用頻譜信息[3-4]、相位特征[5-6]、倒譜系數(shù)特征與相位信息結合[7-9]、余弦歸一化相位和修正的群時延倒譜系數(shù)特征[10-11]、動態(tài)聲學特征[12],而近年來機器學習算法[13-15]的發(fā)展使得語音識別得到了跨越性的提升,深度神經(jīng)網(wǎng)絡[16-17]和卷積神經(jīng)網(wǎng)絡[18-19]都被證明在合成語音檢測方面有著很好的效果。

    本文從基于前端特征的檢測方法和基于后端分類器的檢測方法兩個方面,對常用的合成語音檢測方法進行了介紹,并綜合研究方法和研究現(xiàn)狀對未來的研究方向進行了展望。

    1 基于前端特征的檢測方法

    1.1 頻譜特征

    語音頻譜是語音信號在頻域中信號的能量與頻率的分布關系。對于語音信號的頻譜分析包括頻譜、功率譜、倒頻譜、頻譜包絡分析等。各種頻譜包含著豐富的內(nèi)容以及各自的特性,它們之間存在著相互關系,在語音信號處理領域被廣泛應用。

    頻譜信息用于說話人驗證,在2000年MASUKO T等人[20]的研究中就已經(jīng)涉及,其中提出了一種利用音高信息和頻譜信息的文本提示說話人驗證技術,并測試合成語音能否被系統(tǒng)識別出。實驗結果表明,對于合成語音還需要開發(fā)相應的技術來進行檢測。

    由于語音信息中的高維特征優(yōu)于低維特征,TIAN X H等人[21]檢測了高維特征的使用,其中采用了6種高維特征,對每種特征分別提取原始高維特征、對應的低維特征、原始高維特征的低頻和高頻區(qū)域來進行評估。實驗結果表明,高維特征對欺騙攻擊檢測是有用的。

    上述研究證明了頻譜信息可用于合成語音檢測,但是否還具有更健壯的特征來檢測此類欺騙攻擊仍未可知。

    1.2 梅爾倒譜系數(shù)特征

    在語音識別和說話人識別方面,最常用的語音特征就是梅爾倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient,MFCC)。該方法是在1980年由DAVIS S B和MERMELSTEIN P提出的,是一種在自動語音和說話人識別中廣泛使用的特征。MFCC特征提取包含梅爾頻率分析和倒譜分析兩個關鍵步驟。對于人類聽覺感知的實驗表明,人類聽覺的感知只聚焦在某些特定的區(qū)域,而不是整個頻譜包絡,而梅爾頻率分析就是基于這一實驗結果。梅爾刻度的濾波器組在低頻部分的分辨率較高,與人耳的聽覺特性相符,此為梅爾刻度的物理意義。梅爾刻度描述了人耳頻率的非線性特性,與頻率f的關系為

    (1)

    倒譜分析可用于信號分解,將乘性信號轉化為加性信號。首先將輸入的時域信號進行離散傅里葉變換得到信號頻譜,取其對數(shù)后得到信號的對數(shù)譜,再進行離散傅里葉逆變換即可得到倒譜。

    提取MFCC特征的流程如圖1所示。

    圖1 提取MFCC特征的流程示意

    一般來說,基于模塊的MFCC系統(tǒng)為經(jīng)典方法,通常被用作基準。在基準系統(tǒng)上,研究人員提出了不同的策略以探究算法的優(yōu)勢。AKAGAWA S等人[22]將傳統(tǒng)的基于MFCC的說話人識別方法與相位信息相結合,與傳統(tǒng)的MFCC的特征提取方法相比較,可以提高識別準確率。PATEL T B等人[23]提出將人工耳蝸過濾系數(shù)和瞬時頻率變化與MFCC特征相融合,同樣取得了不錯的性能。

    1.3 修正的群時延倒譜系數(shù)特征

    群時延是指系統(tǒng)在某頻率處的相位(相移)對于頻率的變化率,可用來衡量相頻譜的非線性程度。其定義為

    (2)

    式中:XR(k),Xl(k)——傅里葉變換XDFT(k)的實部和虛部;

    YR(k),Yl(k)——傅里葉變換YDFT(k)的實部和虛部;

    X(k)——連續(xù)時間信號中的傅里葉變換。

    群時延特性與MFCC功能互補,在語音識別方面應用前景良好。2009年PADMANABHAN R等人[24]證明了基于群時延的特征對語音處理的魯棒性,即使是在噪聲中,群延遲函數(shù)仍然保留了共振峰結構,并與傳統(tǒng)的MFCC特性做了比較,實驗證明基于群時延特性的說話人驗證系統(tǒng)的錯誤率更低。但群時延的數(shù)值型可能會遭受很大的變化,具有不確定性。同年,KUA J M K等人[25]用最小二乘正則化來減少群時延特征中的可變性,且將此系統(tǒng)與基于MFCC的基線系統(tǒng)融合,使得系統(tǒng)的相對效率有所提高。WU Z Z等人[26]提出了基于余弦歸一化相位和修正群延遲函數(shù)相位譜的特征來區(qū)分虛假語音和真實語音。2017年,PAL M等人[27]提出了全極群延遲函數(shù)與常數(shù)Q倒譜系數(shù)和基頻變化的積分級融合前端特征檢測方法,在已知和未知攻擊方面均取得了很好的性能。

    1.4 常數(shù)Q倒譜系數(shù)特征

    近年來,為了保護自動說話人驗證系統(tǒng)免受欺騙干擾,研究人員提出了一種新的合成語音檢測方法——基于常數(shù)Q變換的欺騙檢測。與短時傅立葉變換一樣,該方法是重要的時頻分析工具,特別適用于音樂信號的分析。基于常數(shù)Q變換所產(chǎn)生的頻譜最大的特點是其頻率軸為對數(shù)標度而不是線性標度,且窗口長度會隨著頻率的改變而改變?;诔?shù)Q變換與傳統(tǒng)的倒譜分析相結合,被稱為常數(shù)Q倒譜系數(shù)(Constant Q Cepstrum Coefficient,CQCC)。該方法提供了頻譜的一種可變分辨率、時頻表示,能夠捕捉到更經(jīng)典的特征提取方法所沒有的詳細特征,對于欺騙干擾的檢測非常有用。

    CQCC的特征提取過程如圖2所示。

    圖2 CQCC特征提取過程示意

    傳統(tǒng)倒譜特征提取使用的是傅里葉變換,而CQCC使用的是常數(shù)Q變換(The Constant Q Transfrom,CQT)。CQT是指中心頻率按指數(shù)規(guī)律分布,濾波帶寬不同,但中心頻率與帶寬比為常數(shù)Q的濾波器組。CQT在一定程度上對傅里葉變換有彌補作用。其頻譜的橫軸頻率不是線性的,而是以log2為底,可以根據(jù)譜線頻率的不同改變?yōu)V波窗的長度,對于短時平穩(wěn)的信號可以獲得更好的性能。此外,傅里葉變換在低頻缺乏頻率分辨率,在高頻缺乏時間分辨率,CQT對此分別都有很好的補充。

    2016年,TODISCO M等人[28]將CQCC與基于高斯混合模型的分類器相結合,在標準數(shù)據(jù)庫上進行評估時,CQCC特征在欺騙檢測方面勝過所有現(xiàn)有的方法?;诖私Y論,2017年,TODISCO M等人[29]進行了進一步的拓展,對3個不同數(shù)據(jù)庫的CQCC推廣評估,證明了它們在每個案例中都能提供最先進的性能。

    基于CQT,但不局限于CQCC特征,YANG J C等人[30]研究了基于長期CQT特性的高頻信息。2019年,YANG J C等人首先利用離散余弦變換對倒倍頻功率譜和倒倍線性功率譜分別推導出兩個新的特征,即倒倍頻常數(shù)Q系數(shù)和倒倍頻常數(shù)Q倒倍頻系數(shù)。在此基礎上,利用重疊塊變換與離散余弦變換相結合的方法進行了擴展,避免了從全頻段提取的特征在某些特定頻段容易受到局部噪聲的影響。結果表明,基于CQT的新特征在ASVspoof2015、嘈雜的ASVspoof2015及ASVspoof2019邏輯訪問語料庫上都表現(xiàn)出了最好的性能。

    新特征CQCC的優(yōu)點來自可變的光譜-時間分辨率,與大多數(shù)自動說話人驗證系統(tǒng)使用的分辨率不同,但同樣可靠地捕獲了欺騙跡象。

    1.5 數(shù)據(jù)庫及評估結果對比

    ASVspoof數(shù)據(jù)庫為谷歌發(fā)布的合成語音數(shù)據(jù)庫,包括來自45名男性和61名女性的真實和虛假樣本。該數(shù)據(jù)庫中的攻擊由10種不同的語音合成和語音轉換算法生成。訓練集和開發(fā)集包括5種類型的攻擊(S1~S5),評估中有10種類型的攻擊(S1~S10)。其中,S1~S5為已知類型,S6~S10為未知類型。一般評估準則使用等錯誤率(Equal Error Rate,EER)進行評估,即誤報率與錯報率相等時的閾值。EER的值越小說明系統(tǒng)性能越好。

    在同樣的數(shù)據(jù)庫和評估準則下,基于MGDC,MFCC,CQCC特征的說話人驗證系統(tǒng)的等錯誤率值如表1所示。

    表1 基于3種不同特征的說話人驗證系統(tǒng)的等錯誤率值對比

    表1中每行數(shù)據(jù)基于相同的數(shù)據(jù)集和評估標準,分別取自不同的文獻進行結果對比。由表1可知,基于MGDC特征的檢測方法的等錯誤率值較另外兩種高出很多,MFCC作為經(jīng)典基準系統(tǒng)表現(xiàn)良好,CQCC作為近年來新研究的特征表現(xiàn)相對更好。在以后的研究中,可以基于基準系統(tǒng)進一步研究CQCC的性能。

    2 基于后端分類器的檢測方法

    深度學習是機器學習領域中一個新的研究方向,學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次。這一過程中獲得的信息對文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。深度學習是一種復雜的機器學習算法,在語音和圖像識別方面取得的效果遠超過先前的相關技術。 深度學習使機器模仿視聽和思考人類的活動,解決了很多復雜的模式識別難題。深度學習在語音識別上的應用將會成為未來的主流趨勢。

    2.1 深度神經(jīng)網(wǎng)絡

    深度神經(jīng)網(wǎng)絡(Deep Neural Net,DNN)可以理解為有很多層隱藏層的神經(jīng)網(wǎng)絡,有時也稱為多層感知機。DNN內(nèi)部的神經(jīng)網(wǎng)絡層可以分為輸入層、隱藏層和輸出層3類,層與層之間采用全連接的方式。其框架如圖3所示。

    圖3 DNN框架示意

    2015年,自動說話人驗證欺騙干擾挑戰(zhàn)賽(ASVspoof2015)中,VILLALBA J等人[32]提出了基于DNN與譜的對數(shù)濾波器組和相移特征的分類器輸入方法,試驗使用了DNN后驗來確定測試的真假,以及將DNN的瓶頸特性作為一個單類支持向量機的輸入兩種方法。實驗證明,DNN的表現(xiàn)比支持向量機好,且在光譜特征方面,DNN相對于高斯混合模型基線有顯著改善。雖然不同的分類器融合在一起最后取得了可觀的效果,但是此方法依賴于聲碼器,因此仍有后續(xù)工作要做。在此基礎上,QIAN Y M等人[13]基于神經(jīng)網(wǎng)絡的特征提出了3種模型結構,分別為疊加自編碼器、欺騙判別深度神經(jīng)網(wǎng)絡和多任務聯(lián)合學習深度神經(jīng)網(wǎng)絡。其中欺騙判別神經(jīng)網(wǎng)絡更適用于欺騙檢測任務。將基于深度神經(jīng)網(wǎng)絡與基于循環(huán)神經(jīng)網(wǎng)絡的深度特性相結合實現(xiàn)了更好的系統(tǒng)性能。經(jīng)研究,將前端動態(tài)聲學特性作為特征來訓練DNN欺騙檢測分類器,也具有不錯的性能[14]。

    由于DNN特殊的深層結構以及有數(shù)千萬參數(shù)需要學習,導致其訓練非常耗時,因此如何加速DNN的訓練過程是未來需要研究的方向。

    2.2 卷積神經(jīng)網(wǎng)絡

    卷積神經(jīng)網(wǎng)絡(Convoluntional Neural Net,CNN)是一種深度學習模型,類似于人工神經(jīng)網(wǎng)絡的多層感知器。該方法包括數(shù)據(jù)輸入層、卷積計算層、ReLU激勵層、池化層和全連接層。數(shù)據(jù)輸入層主要對原始輸入數(shù)據(jù)進行預處理;卷積計算層是根據(jù)深度、步長、填充值進行卷積計算;ReLU激勵層對卷積層輸出結果進行非線性映射;池化層夾在連續(xù)的卷積層中間,用于壓縮數(shù)據(jù)和參數(shù)的量,進行特征降維;全連接層通常在卷積神經(jīng)網(wǎng)絡尾部,整合卷積層和池化層的分類特征并加以區(qū)分。

    CNN示意圖如圖4所示。

    圖4 CNN示意

    2016年,TIAN X H等人[33]發(fā)現(xiàn),與基于全連接神經(jīng)網(wǎng)絡的分類器相比,基于時態(tài)CNN的分類器能夠有效地提高基于單位選擇的欺騙攻擊檢測性能。2017年,MUCKENHIRN H等人[31]以端到端的方式學習原始語音信號的相關特征和分類器,該方法可以作為對線性判別分析分類器方法的補充。2018年,KORSHUNOV P等人[34]的研究也表明CNN是比基于傳統(tǒng)方法更好的選擇,但對于跨數(shù)據(jù)庫場景、何種結構最適合語音欺騙攻擊以及如何找到這種結構等問題還需要進一步的研究。2019年,ALZANTOT M等人[35]在CNN的基礎上研究了殘差卷積網(wǎng)絡(ResNet),成為當前應用最為廣泛的CNN特征提取網(wǎng)絡,對比結果表明模型取得了一定的改進成果。未來的研究方向仍是提高模型對未知攻擊的泛化能力。

    2.3 結果對比

    表2為基于DNN和基于CNN的檢測方法的等錯誤率值對比。

    表2 兩種方法的說話人驗證系統(tǒng)等錯誤率值對比

    由表2可以看出,基于CNN的合成語音檢測方法優(yōu)于基于DNN的方法,但神經(jīng)網(wǎng)絡作為近年來語音識別最熱門的方向值得深入研究。比如,CNN分層提取特征,后面疊加長短時記憶網(wǎng)絡或深層神經(jīng)網(wǎng)絡,同時結合多種機制,是否可以優(yōu)化如今的基于神經(jīng)網(wǎng)絡的方法;或者由于對CNN的研究局限在訓練集或數(shù)據(jù)差異較小的任務上,在未來是否可以通過疊加卷積網(wǎng)絡的方式來優(yōu)化性能,或利用與圖形處理器結合的方式來優(yōu)化運算時間等。

    4 結 語

    本文對合成語音檢測方法從前端特征和后端分類器兩方面進行了綜述,傳統(tǒng)手工方法可以在欺騙攻擊方面有不錯的表現(xiàn),但深度學習的發(fā)展也為語音檢測提供了新的方向。隨著人們隱私意識的增強,欺騙語音檢測面臨著更高的要求和更強的挑戰(zhàn)。

    在接下來的研究工作中,合成語音檢測技術的發(fā)展方向主要有以下幾個方面:現(xiàn)有的合成語音檢測方法大多是基于無噪的環(huán)境,因此有必要開發(fā)在噪聲條件下的檢測方法;深度學習方面的進展促進了直接輸入原始波形的說話人驗證系統(tǒng)的設計,即不再局限于某一特定特征,而是提取話語層面的特征,端到端輸入原始波形的深度神經(jīng)網(wǎng)絡為合成語音檢測提供了全新的可能;神經(jīng)網(wǎng)絡被應用于合成語音算法中,各種新型的合成方法層出不窮,專用方法檢測當然是一種選擇,但如何進一步增強算法的泛化性能,檢測各種方式的攻擊,以及檢測方法與說話人驗證系統(tǒng)的融合也是未來研究的方向。

    猜你喜歡
    分類器頻譜語音
    一種用于深空探測的Chirp變換頻譜分析儀設計與實現(xiàn)
    魔力語音
    基于MATLAB的語音信號處理
    電子制作(2019年14期)2019-08-20 05:43:38
    基于MQ3與MP3的價廉物美的酒駕語音提醒器
    電子制作(2019年9期)2019-05-30 09:42:10
    一種基于稀疏度估計的自適應壓縮頻譜感知算法
    測控技術(2018年7期)2018-12-09 08:58:22
    對方正在輸入……
    小說界(2018年5期)2018-11-26 12:43:42
    BP-GA光照分類器在車道線識別中的應用
    電子測試(2018年1期)2018-04-18 11:52:35
    加權空-譜與最近鄰分類器相結合的高光譜圖像分類
    結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
    認知無線電頻譜感知技術綜述
    枝江市| 喀什市| 临颍县| 和顺县| 东港市| 永登县| 行唐县| 丰顺县| 方山县| 巴塘县| 仪征市| 建平县| 格尔木市| 南昌市| 纳雍县| 棋牌| 井冈山市| 廉江市| 皮山县| 调兵山市| 金乡县| 自贡市| 丘北县| 桓仁| 新竹县| 冀州市| 凤台县| 岑巩县| 彰武县| 锡林郭勒盟| 上蔡县| 义马市| 姚安县| 中江县| 临武县| 胶州市| 含山县| 芜湖县| 正蓝旗| 泽普县| 永福县|