鄭琳琳 ,孫 蒙 ,張雄偉 ,潘志欣
(1.陸軍工程大學(xué),江蘇 南京 210007;2.海軍工程大學(xué),湖北 武漢 430000)
語音是人們?nèi)粘=涣髦械囊环N最直接、最有效和最常用的傳遞信息方式。由于說話人發(fā)音器官的生理差異和后天成長環(huán)境形成的行為差異,每個人的語音都帶有強烈的個性特征,能夠像虹膜、指紋、人臉等生物認證技術(shù)一樣,成為身份驗證的重要手段,稱為聲紋識別技術(shù)。聲紋技術(shù)因其具有經(jīng)濟、可靠、交互自然等優(yōu)勢而備受關(guān)注,具有重要研究意義和廣泛應(yīng)用前景[1]。
雖然每個說話人的語音有自己的個性特征,但是語音也是可以被模仿和偽裝的。目前,市面上流行的各類變聲器及變聲軟件可以對說話人的語音進行個性化改變,致使人耳甚至部分聲紋識別技術(shù)產(chǎn)品很難識別出說話人的身份[2]。犯罪分子利用特定手段來偽裝自己的語音不被辨識出來,實施電話詐騙、恐嚇、綁架勒索等相關(guān)新聞報道也是數(shù)見不鮮。軍事上,某些組織成員通過使用全新的電話號碼和語音偽裝的方式來逃脫政府監(jiān)控的識別[3]。隨著智能語音交互技術(shù)被廣泛應(yīng)用到商業(yè)活動和軍事應(yīng)用中,人們對信息安全的要求也越來越高。然而,語音偽裝嚴重影響聲紋識別效果,使犯罪分子有機可乘。
語音偽裝(Voice Disguise)是指對于正常語音的任何改變、扭曲或者偏離[4]。它涵蓋了故意偽裝和非故意偽裝兩種形式。網(wǎng)絡(luò)空間安全領(lǐng)域更多關(guān)注的是故意偽裝,即“以掩蓋真實身份為目的,有意識地改變聲音,使其模糊、畸變、扭曲的發(fā)音方式”[5]。偽裝語音的相關(guān)研究工作最早可追溯至20 世紀六十年代初期的法庭說話人辨認,至今已有50 多年的研究歷史[6]。近年來,語音信號處理和互聯(lián)網(wǎng)技術(shù)的進步,以及語音數(shù)據(jù)獲取和共享的更加便捷,有力地推動了語音偽裝技術(shù)的發(fā)展[7]。特別是基于機器學(xué)習(xí)和深度學(xué)習(xí)的語音合成技術(shù)[8]能夠生成特定說話人的語音樣本,對聲紋識別接口的用戶構(gòu)成了嚴重的隱私威脅[9]。因此,語音偽裝受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,諸多國內(nèi)外學(xué)者開展了與語音偽裝相關(guān)的研究。日本東京國立資訊研究所、法國國家信息與自動化研究所以及美國伊利諾理工大學(xué)等開展了語音偽裝方式的研究,進一步提高了偽裝語音的匿名化程度;中國刑警學(xué)院和多地公安部門針對偽裝語音變聲規(guī)律及其對自動說話人確認系統(tǒng)(Automatic Speaker Verification,ASV)的影響展開了相關(guān)工作;清華大學(xué)、南京郵電大學(xué)以及中山大學(xué)等在偽裝語音防御對策方面做了相關(guān)研究,并相繼取得了一些研究成果。
本文在簡要梳理語音偽裝的典型模型和基本方法的基礎(chǔ)上,介紹了語音偽裝的威脅量化評估方法,歸納了語音偽裝的防御對策,并總結(jié)了目前語音偽裝防御對策研究中仍存在的問題和挑戰(zhàn),對未來的發(fā)展方向作出了展望。
語音的個性特征通常包括音色、音調(diào)、韻律特征和說話風(fēng)格等方面,主要受到聲道譜信息、共振峰頻率和基音頻率等參數(shù)的影響。語音偽裝就是通過改變說話人的語音個性特征,故意隱藏或偽造說話人的身份。根據(jù)偽裝方式的不同,語音偽裝可以分為兩種類型:人為偽裝和電子偽裝[10]。深入了解語音偽裝的基本方法能夠更好地防御偽裝語音帶來的安全威脅。
人為偽裝是說話人借助本身的技能實施的語音偽裝,大致可分為兩種情況,一是刻意模仿某人的聲音,如冒充領(lǐng)導(dǎo);還有一種是故意改變自己原有的發(fā)音習(xí)慣,如捏鼻、咬物等,來偽裝自己的聲音不被辨識出來。人為偽裝的具體偽裝類型主要有調(diào)音、改變音素、改變韻律及變形等方式[2]。在調(diào)音偽裝中,有改變音調(diào)、緊喉音、吸氣音及耳語偽裝等;改變音素偽裝主要有使用方言、變更方言、鼻音化和模仿說話等;改變韻律的偽裝有語調(diào)的改變,重音位置的調(diào)整,音段的拉長和縮短以及言語節(jié)奏的變化等方式;而變形主要指依靠外力阻礙正常的發(fā)音,如捏鼻子、捂嘴、咬物以及嚼物等。
人為偽裝雖然能達到一定的偽裝說話人身份的目的,但偽裝效果受制于說話人自身的偽裝能力。張翠玲等[11]研究了 10 種刑偵情況下的偽裝形式,發(fā)現(xiàn)不同說話人受自身的調(diào)音能力和發(fā)音習(xí)慣的影響,偽裝水平差異是普遍存在的,沒有偽裝經(jīng)驗的人偽裝后更容易暴露身份。即使是專業(yè)的模仿者,也是模仿目標說話人的某些特定特征,如方言、韻律或者說話風(fēng)格等[12],雖然改變了人耳的聽覺感受,但是對自動說話人確認系統(tǒng)的欺騙干擾作用并不是特別明顯。
電子偽裝是指采用電子設(shè)備或語音處理軟件對說話人的原始語音進行的變聲偽裝。與人為偽裝相比,電子偽裝使用電子設(shè)備及內(nèi)置算法對語音時域或頻域特性進行變形,得到的偽裝語音要更加自然。隨著深度學(xué)習(xí)技術(shù)的不斷進步,可用于語音偽裝的模型也越來越多,產(chǎn)生的偽裝語音能更有效地隱藏說話人身份。因此,電子偽裝以其高質(zhì)量的偽裝效果和便捷的實現(xiàn)方式,得到了越來越廣泛的應(yīng)用。目前成熟的電子偽裝技術(shù)主要分為三類:基于基頻線性變換的電子偽裝、基于頻譜非線性變換的電子偽裝以及使用復(fù)雜轉(zhuǎn)換函數(shù)的語音轉(zhuǎn)換。
1.2.1 基于基頻線性變換的電子偽裝
語音基音頻率(Fundamental Frequency),簡稱基頻,是指發(fā)濁音時聲帶振動所引起的周期性振動頻率,它反映了語音激勵源的重要特征。語音學(xué)中,人類心理對語音基音頻率的感知量可以用音調(diào)(Pitch)來描述?;诨l線性變換的電子偽裝主要是通過簡單地修改基音頻率來達到修改音調(diào)的目的。提高音調(diào),語音變得尖銳;降低音調(diào),語音變得低沉[13]。根據(jù)偽裝作用域不同,基于基頻線性變換的電子偽裝可以分為頻域偽裝和時域偽裝。
(1)頻域基頻線性變換偽裝
頻域基頻線性變換偽裝是指通過直接在語音頻域內(nèi)拉伸或壓縮頻譜來改變基音頻率,從而提高或降低音調(diào)的偽裝方式,該方式可以改變語音的音調(diào)而保持語音節(jié)奏不變。其偽裝步驟示意圖如圖1所示。
圖1 頻域偽裝示意圖
首先對語音信號分幀,然后對每一幀語言信號進行短時快速傅里葉變換(Short-Time Fourier Transform,STFT),得到語音信號頻域分析結(jié)果。對每一幀信號進行頻譜的壓縮伸展變換,同時利用插值法[14]對幅度譜進行相應(yīng)處理。將變換后的頻譜進行快速傅里葉逆變換(Inverse Fast Fourier Transform,IFFT),即可得到頻域偽裝的語音信號。
頻域基頻線性變換電子偽裝可以在很大偽裝程度范圍內(nèi)對語音進行變形偽裝,同時保持語音的自然度和可懂度。但是,利用基于頻域的電子偽裝方法對語音進行升調(diào)偽裝時,頻譜擴展,會造成語音高頻部分缺失,偽裝語音音頻質(zhì)量略顯不足。
(2)時域基頻線性變換偽裝
時域基頻線性變換偽裝一般通過調(diào)整采樣率和采用基音同步疊加(Pitch-Synchronous Overlap and Add Method,PSOLA)[15]相結(jié)合的方法來實現(xiàn),這種偽裝方式既改變了語音的音調(diào),又改變了語速。調(diào)整采樣率能夠改變語音信號的基音頻率從而改變音調(diào)。但是語音信號時頻結(jié)構(gòu)之間的約束性使得信號的時域特性和頻域特性緊密相關(guān),只利用調(diào)整采樣率生成的偽裝語音往往聽起來不自然,需要結(jié)合PSOLA 對語音進行進一步處理。PSOLA 可以在誤差最小準則下丟棄或重復(fù)部分語音幀,使偽裝之后的語音與原來語音的頻譜有著基本相同的包絡(luò),PSOLA 工作原理如圖2 所示。
圖2 基音同步疊加
由于時域基頻線性變換偽裝方法同時改變了語音音調(diào)和語速,因此,要保證偽裝語音的自然度和可懂度,偽裝程度的變化范圍會受到限制,進而制約了偽裝效果,故該方法在實際應(yīng)用中有一定局限。
1.2.2 基于頻譜非線性變換的電子偽裝
基于頻譜非線性變換的電子偽裝方法是基于聲道歸一化(Vocal Tract Length Normalization,VTLN)技術(shù)實現(xiàn)的。人們認為,對于同樣內(nèi)容的語音,說話人聲道長度的變化導(dǎo)致了語音波形的變化。VTLN可以通過翹曲函數(shù)(Warping Function)調(diào)整頻譜的頻率軸,來改變共振峰的位置和帶寬,從而隱藏聲道長度的個性特征[16]。從理論上講,任何從定義域[0,π]到值域[0,π]的映射函數(shù)都可以作為 VTLN中的翹曲函數(shù),前提是翹曲函數(shù)需要保持偽裝后語音的自然度和可懂度。
基于頻譜非線性變換的電子偽裝方法主要分為 6 個步驟:音調(diào)標記、幀分割、FFT、VTLN、IFFT 和PSOLA。音調(diào)標記和幀分割的目的是將語音信號分割成與語音基音頻率所決定的濁音偽周期性相匹配的幀,從而使輸出的偽裝語音具有最佳的音質(zhì)。VTLN 是頻率彎折偽裝中的關(guān)鍵步驟,它使用頻率翹曲函數(shù)來修改每一幀的頻譜。常用的翹曲函數(shù)包括對稱分段線性函數(shù)、冪函數(shù)、二次函數(shù)及雙線性函數(shù)等[17]。
為了抵御去匿名化攻擊(De-anonymization Attacks),提高偽裝語音的偽裝效果,基于頻譜非線性變換的電子偽裝方法的研究經(jīng)歷了從單幀變換到音段變換、從單一方法到多方法融合的過程,偽裝質(zhì)量不斷提升。目前,基于頻譜非線性變換的電子偽裝方法研究主要集中在魯棒性的頻譜參數(shù)偽裝變換函數(shù)方面。文獻[17]提出了分段VTLN 的方法,這種方法的翹曲函數(shù)參數(shù)是可變的,隨著時間的推移將頻率軸向不同的方向變形。文獻[18]通過隨機選取翹曲函數(shù)參數(shù)、復(fù)合多種翹曲函數(shù)等方法來提高語音偽裝機制的魯棒性。
研究顯示,基于頻譜非線性變換的電子偽裝方法能夠最大程度地保持語音自然度,且魯棒性能較好,但是其在偽裝語音質(zhì)量方面略顯不足,還需結(jié)合其他方法以獲得進一步提升。
1.2.3 基于語音轉(zhuǎn)換的電子偽裝
語音轉(zhuǎn)換(Voice Conversion,VC)是指在保持說話內(nèi)容信息不變的情況下,將一個人的聲音特征通過修改變換,使其聽起來像另一個人的聲音?;谡Z音轉(zhuǎn)換的電子偽裝方法就是利用語音轉(zhuǎn)換技術(shù)來隱藏源說話人身份信息,其原理如圖3 所示。與基頻變換偽裝方法和頻譜變換偽裝方法相比,基于語音轉(zhuǎn)換的電子偽裝方法需要目標說話人信息,偽裝轉(zhuǎn)換模型更加復(fù)雜。
圖3 基于語音轉(zhuǎn)換的電子偽裝方法原理圖
基于語音轉(zhuǎn)換的偽裝方法核心思想是說話人的身份信息在整個說話過程中是靜態(tài)的,而內(nèi)容信息是動態(tài)的[19]。該方法可以基于神經(jīng)網(wǎng)絡(luò)變換,使用說話人編碼器和內(nèi)容編碼器來分離身份信息和內(nèi)容信息,對身份信息進行匿名化處理,然后再利用語音合成模型生成偽裝語音[20]。這樣,源說話人身份信息被壓制,取而代之的是一種匿名的偽身份信息。
隨著神經(jīng)網(wǎng)絡(luò)模型的不斷改進和發(fā)展,結(jié)合不同語音特征采用不同的網(wǎng)絡(luò)轉(zhuǎn)換模型的偽裝方法不斷提出。文獻[21]提出了利用目前最先進的說話人身份特征x-vector[22]和神經(jīng)波形模型相結(jié)合的偽裝方法。該方法使用基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的自動語音識別系統(tǒng)(Automatic Speech Recognition,ASR)以音素后驗圖(Phoneme Posteriorgram,PPG)[23]的形式捕獲語言信息,并使用預(yù)先訓(xùn)練的x-vector 系統(tǒng)對說話人身份進行編碼,然后通過多個隨機x-vector 組合派生出匿名的偽說話人身份。在給定 PPG 和偽裝的x-vector 的情況下,通過神經(jīng)聲學(xué)和波形模型[24]來生成偽裝語音。實驗結(jié)果表明,該方法能在保持偽裝語音高質(zhì)量的同時,有效地隱藏說話人身份。
基于語音轉(zhuǎn)換的電子偽裝方法的本質(zhì)是參數(shù)的多元回歸模型,通過添加網(wǎng)絡(luò)層數(shù)、高維特征序列和訓(xùn)練數(shù)據(jù)量等多種手段可以有效提升偽裝語音的質(zhì)量。隨著參數(shù)的增多,偽裝轉(zhuǎn)換模型的表示能力會不斷增強。但當訓(xùn)練數(shù)據(jù)不充分時,就會發(fā)生過擬合現(xiàn)象,導(dǎo)致性能急速下降。同時,目標說話人語音信息的依賴也成為制約此類方法偽裝效果的一個重要因素。
語音偽裝研究的主要目的是增大說話人身份識別系統(tǒng)的辨識難度,同時保持偽裝語音的可懂度及算法的低復(fù)雜度。由此可知,如果想要對語音偽裝方法進行威脅量化評估,可以利用說話人識別系統(tǒng)的性能指標來實現(xiàn):利用某種語音偽裝方法對待測語音進行偽裝處理,然后利用說話人識別系統(tǒng)進行身份識別,說話人識別系統(tǒng)性能下降越明顯,說明該語音偽裝方法威脅越大。目前,語音偽裝方法的威脅評估測試主要有主觀和客觀兩種手段。
主觀評估就是以人為主體,通過人的主觀感受來對語音進行測試。由于語音偽裝最直接的目的是改變?nèi)硕穆犛X感受,因而主觀評估是最基本的評估 方法。檢測 錯誤率(Detection Error Rate,DER)是語音偽裝的主觀威脅量化評估的常用標準之一。這種測試方法使用若干組語音對進行測試,每對語音有50%的概率來自同一個說話人。測評人需要判斷所聽到的每對語音是否來自同一個說話人,全體測評人判斷錯誤的百分比就是DER 得分,包含虛警(False Alarm)和 誤 識(False Rejection)。
主觀評估是建立在人的感覺的基礎(chǔ)上,測試結(jié)果可能因人而異。為了盡可能減小個體差異的影響,主觀評估的方案設(shè)計必須要周密,參加測試的測評人要足夠多,測試環(huán)境應(yīng)該盡量保持相同,所測語音音頻也要足夠豐富。測試語音必須仔細地選擇發(fā)音,以保證所選樣本具有代表性,同時還要保證能夠覆蓋所有類型的語音。例如,有的語音偽裝方法在濁音的處理上比較好,但偽裝后的清音則太模糊;而有的語音偽裝方法在低頻段的性能較好,甚至?xí)苯訉⒏哳l段丟棄。所以,在選擇測試樣本時,不僅要包含男聲、女聲,同時還應(yīng)該選擇不同年齡段的語音。
通過以上對主觀評估方法的簡單介紹可以看出,主觀評估雖然是語音偽裝威脅量化評估最基本的方法,但它的缺點也很明顯:靈活性差、費時費力以及可重復(fù)性差等。針對主觀評估方法的不足,基于主觀測度的客觀評估方法被提出。
目前,說話人身份偽裝效果的主要客觀衡量指標是自動說話人確認系統(tǒng)的等錯誤率(Equal Error Rate,EER)。在自動說話人確認系統(tǒng)中,系統(tǒng)可能把偽裝者誤認為目標說話人而錯誤地接受,為錯誤接受率(False Acceptance Rate,F(xiàn)AR);也可能把目標說話人誤認為偽裝者而錯誤地拒絕,為錯誤拒識率(False Rejection Rate,F(xiàn)RR)。兩個 指標 對 應(yīng)的 公式如下[25]:
FAR 和FRR 是兩個矛盾的參量指標,一個指標降低會導(dǎo)致另一參量上升。自動說話人確認系統(tǒng)的性能指標用 EER 來表示,它是 FAR 和 FRR 相等時系統(tǒng)的性能,代表了 FAR 和 FRR 的一個平衡點。當利用EER 評估偽裝效果時,EER 的數(shù)值越大,說明自動說話人確認系統(tǒng)的識別效果越差,同時也說明了語音偽裝造成的威脅越大,偽裝效果越好。
語音偽裝防御系統(tǒng)具有的先驗知識的不同,造成了語音偽裝防御效果的很大差別。根據(jù)語音偽裝防御系統(tǒng)對語音偽裝方式及其參數(shù)的知情程度,可以將語音偽裝防御場景分為三種類型:
(1)黑盒系統(tǒng)。語音偽裝防御系統(tǒng)完全不知道測試語音經(jīng)過了語音偽裝處理。
(2)白盒系統(tǒng)。語音偽裝防御系統(tǒng)知道測試語音采用的完整偽裝策略,包括偽裝處理方法和確切參數(shù)值。
(3)灰盒系統(tǒng)。在以上兩種極端情況之間,可以定義第三種語音偽裝防御系統(tǒng),該系統(tǒng)知道測試語音采用的部分偽裝策略。例如,灰盒系統(tǒng)知道語音偽裝方法,但不知道它的參數(shù)值。這種防御場景可能更實際,因為語音偽裝處理方法可能是開源的,但偽裝者使用的具體參數(shù)策略則不太容易獲取到。
語音偽裝技術(shù)的出現(xiàn)給說話人識別系統(tǒng)帶來很大的困難,實驗發(fā)現(xiàn),不采取偽裝防御策略,利用當前最先進的基于x-vector 的自動說話人確認模型對電子偽裝后的語音進行識別,EER 高達30%以上,幾乎無法辨認出偽裝者的身份。但是,采用了語音偽裝防御策略的說話人識別系統(tǒng)EER明顯降低,白盒語音偽裝防御系統(tǒng)的EER 可以降至3.9%[26]。
隨著智能語音交互應(yīng)用的不斷發(fā)展,語音代表個人身份特征的場景日益廣泛,急需有效的語音偽裝防御對策的出現(xiàn)。本節(jié)將概括目前已有的語音偽裝判別策略,并分別介紹針對人為偽裝語音和電子偽裝語音的身份辨識對策。
在進行說話人身份鑒定之前,有效判斷待測語音是否經(jīng)過偽裝以及經(jīng)過何種類型的偽裝,是后續(xù)選擇合適說話人身份辨識系統(tǒng)的前提,可有效提高聲紋識別的識別率。
語音偽裝判別的研究主要基于語音偽裝能夠?qū)σ糍|(zhì)和部分語音特征產(chǎn)生一些重要的影響。研究人員在仔細分析了偽裝語音的生成原理后發(fā)現(xiàn),語音偽裝過程可能會導(dǎo)致生成的偽裝語音與自然語音在某些語音特征方面存在差異,因此可以利用這些不一致性構(gòu)建檢測特征。例如,文獻[27]提出了MGDCC(Modified Group Delay Cepstral Coefficients) 特征,它同時綜合了語音頻譜中的幅度和相位信息;文獻[28]根據(jù)偽裝語音與正常語音基音周期之間的差異,利用PP(Pitch Pattern)特征進行語音偽裝鑒定。
目前,關(guān)于語音偽裝鑒定方法的研究已經(jīng)取得了不錯的成果,采用圖4 所示的特征參數(shù)與分類器相結(jié)合的方法能達到較高的檢出率。HUANG J W 等[29-31]提出了利用 MFCC 作為聲學(xué)特征,采用 SVM 分類器從真實語音中檢出電子偽裝語音的算法。采用交叉?zhèn)窝b法和交叉語料庫對算法進行測試,偽裝語音的檢出率均可達到 90%以上。李燕萍等[32]在前人工作的基礎(chǔ)上提出了一種SVM 分類器結(jié)合高斯混合模型(Gaussian Mixture Model,GMM)均值組合特征參數(shù)的電子語音偽裝鑒定方法,通過GMM 模型對電子偽裝語音建模,將其均值矢量構(gòu)成組合特征向量作為SVM 分類器訓(xùn)練和鑒別的特征參數(shù)。實驗結(jié)果證明,這種方法對于電子偽裝語音的鑒定率達到90%。
圖4 電子偽裝鑒定原理框圖
為了提高對低失真語音的檢測,一些機器學(xué)習(xí)及深度學(xué)習(xí)模型也被應(yīng)用到語音偽裝判別工作中。文獻[33]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來識別檢測電子偽裝語音信息,準確率高于95%。文獻[34]提出了一種基于稠密卷積網(wǎng)絡(luò)的偽語音檢測方法,通過對核約簡的優(yōu)化和對瓶頸層的利用,達到了較高的計算效率,對數(shù)據(jù)庫內(nèi)部和跨數(shù)據(jù)庫的平均準確率為96.45%,優(yōu)于目前已有的方法。
當前關(guān)于語音偽裝鑒定算法的研究主要集中于降低特征參數(shù)維度及計算復(fù)雜性、提高跨庫交叉檢出率、減輕對后續(xù)聲紋識別系統(tǒng)的冗余影響等方面。
由于人為偽裝的偽裝效果受到偽裝者自身偽裝能力的影響,即使是專業(yè)的模仿者,也僅僅是模仿目標說話人的部分特征。因此,人為偽裝的防御主要集中在研究偽裝過程中不變的語音特征參數(shù)。
為了探求人為偽裝與語音特征參數(shù)之間的關(guān)系,研究人員針對不同的偽裝方法及不同的語音特征參數(shù)做了相關(guān)研究。例如,文獻[35]分析了咬物偽裝對元音共振峰的影響,并詳細描述了共振峰的比例變化;文獻[36]研究了改變音調(diào)及捏鼻子等非電子語音偽裝對語音基音頻率的影響;而文獻[37]研究了耳語偽裝對基音頻率、語音強度及音質(zhì)的影響。研究發(fā)現(xiàn),說話人識別中常用的特征參數(shù)會受到人為偽裝的干擾,一定程度影響ASV 系統(tǒng)的識別效果。
清華大學(xué)信息技術(shù)研究院語音和語言技術(shù)中心(CSLT)王東在研究中發(fā)現(xiàn),人與人對話中無處不在的瑣碎事件,如咳嗽、大笑、“喂”等,雖然時長較短且不清晰,但在偽裝語音身份鑒定的情況下是非常有價值的。因為它們較少受到人為故意改變,所以可以用來從偽裝語音中識別說話人身份[38]。實驗發(fā)現(xiàn),利用瑣碎事件對人為偽裝進行聲紋識別,識別效果有了很大改進[39]。
對于電子偽裝語音的身份辨識主要考慮兩種思路:一種是將偽裝語音還原得到正常語音,然后利用目前發(fā)展成熟的 i-vector 或 x-vector 等自動說話人確認系統(tǒng)進行識別;另一種是設(shè)計偽裝語音特征補償算法,對現(xiàn)有的自動說話人確認系統(tǒng)進行改進。
3.3.1 電子偽裝語音的還原
電子偽裝語音的還原是指通過一定的算法來消除語音中的電子偽裝特征,生成更為接近原始音頻的語音。電子偽裝語音還原最直接的方法是推導(dǎo)出變聲算法的逆運算,然后根據(jù)逆運算算法處理偽裝語音,從而得到原始正常語音。然而這種方法受到偽裝算法的封閉性和多樣性制約,很難得到推廣。但是原始語音轉(zhuǎn)換為電子偽裝語音的過程存在一定的變化規(guī)律,因此可以通過統(tǒng)計對比原始語音與電子偽裝語音之間的聲紋偏差特征,為電子偽裝語音的還原提供依據(jù)。目前,偽裝語音還原算法可分為基于特征變化規(guī)律的傳統(tǒng)還原方法以及基于深度學(xué)習(xí)技術(shù)的還原方法[40]。
(1)基于特征變化規(guī)律的還原方法
南京郵電大學(xué)林樂[41]根據(jù)電子偽裝語音的變聲規(guī)律,利用語音信號重采樣技術(shù)和基音同步疊加方法實現(xiàn)了電子偽裝語音的還原。該方法首先采用重采樣技術(shù)將電子偽裝語音的基音頻率調(diào)整至與正常語音相接近的程度,然后利用PSOLA 的方法在保持基音頻率相對穩(wěn)定的情況下,將語音時長調(diào)整至正常水平。
實驗發(fā)現(xiàn),利用這種方法還原后的電子偽裝語音雖然丟失了部分語音細節(jié),但仍然保留了用于辨認說話人身份的信息(主要集中在低頻部分),因此可以通過還原處理后的電子偽裝語音識別出該語音的說話人。
(2)基于深度學(xué)習(xí)技術(shù)的還原方法
隨著深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,華東政法大學(xué)王永全提出了一種基于擴大的因果卷積神經(jīng)網(wǎng)絡(luò)(Dilated Casual Convolution Neural Network,DC-CNN)的電子偽裝語音還原模型[42]。該還原模型具有非線性映射性、擴展性、多適應(yīng)性與條件性、并發(fā)性等明顯特點,能有效削減語音中的電子偽裝特征。將還原語音與原始語音進行聲紋特征比對、LPC數(shù)據(jù)分析和語音同一性的人耳測聽辨識,結(jié)果表明,還原語音與原始語音的聲紋特征十分吻合,且實現(xiàn)了高質(zhì)量的共振峰波形復(fù)原,鋼琴曲和英文語音的共振峰參數(shù)總體還原擬合率分別達到79.03%和79.06%,遠超電子偽裝語音與原始語音35%的相似比例,較好地實現(xiàn)了電子偽裝的鋼琴曲和英文語音的還原。
3.3.2 自動說話人確認系統(tǒng)補償策略
(1)基于DTW 模型補償?shù)淖R別方法
南京郵電大學(xué)陶定元[43]提出了基于DTW 模型補償?shù)碾娮觽窝b語音說話人識別方法,如圖5 所示。該方法提取語音的梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)作為特征參數(shù),通過動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)模型進行偽裝程度鑒定,再利用矢量量化(Vector Quantization,VQ)模型進行說話人識別,從而設(shè)計了DTW 與VQ 相結(jié)合的電子偽裝語音說話人識別系統(tǒng)。實驗結(jié)果表明,該系統(tǒng)一定程度上緩解了VQ 說話人識別系統(tǒng)對電子偽裝語音識別率過低的問題,識別效果得到了明顯改善。
(2)利用基頻比補償特征參數(shù)的識別方法
圖5 基于DTW 模型補償?shù)膫窝b語音說話人識別框圖
針對基于基頻線性變換的電子偽裝語音,文獻[44]提出用基頻比來估計偽裝程度,進而還原語音特征參數(shù)的抗偽裝攻擊的說話人識別系統(tǒng),其原理框圖如圖6 所示。該方法根據(jù)待測語音與注冊語音的基頻比估計偽裝程度,利用估計出的偽裝程度修正待測語音的 MFCC,從而得到還原后的 MFCC 特征。將提出的方法作為特征還原工具應(yīng)用于GMMUBM 說話人識別系統(tǒng)的前端,可提高電子偽裝語音偽裝者的識別準確率,EER 僅為 3%~4%,明顯優(yōu)于未經(jīng)還原的MFCC 特征的40%。
雖然關(guān)于偽裝語音防御對策研究經(jīng)過了幾十年的發(fā)展,但是目前仍然存在一些問題和挑戰(zhàn),歸納起來有以下幾個方面:
(1)對于偽裝語音的語料質(zhì)量要求過于苛刻。研究發(fā)現(xiàn),當偽裝語音含有噪聲或者偽裝語音由多種偽裝方式組合生成時,利用現(xiàn)有防御對策得到的說話人識別EER 明顯增大,這說明當前存在的語音偽裝防御對策在應(yīng)對復(fù)雜情況下的偽裝語音語料時失效。偽裝語音的說話人身份鑒定技術(shù)真正應(yīng)用到實際中時,通常情況下不可避免地受到各種噪聲的污染,很難直接獲取高質(zhì)量的偽裝語音。由于錄音環(huán)境及偽裝手段未知,噪聲及其統(tǒng)計特性都難以獲取,給偽裝語音的研究帶來了新的問題。
圖6 利用基頻比補償特征參數(shù)的電子偽裝語音說話人識別框圖
(2)偽裝語音還原算法的研究還有待發(fā)展。雖然目前偽裝語音還原算法取得了一定發(fā)展和改善,但是與原始正常語音相比還是存在一定差距。例如,基于基頻線性變換的電子偽裝語音的高頻部分會存在缺失,目前的還原算法側(cè)重于還原人耳聽覺系統(tǒng)敏感的低頻部分,對高頻部分的還原質(zhì)量不高,會引入一些不必要的噪聲,因此還需進一步提升還原語音與原始語音的相似度。另外,當前現(xiàn)有的還原方法過于依賴先驗知識,只針對特定的偽裝方式,這顯然不符合實際要求。
(3)偽裝語音防御策略通用性不強。當前偽裝語音防御策略的相關(guān)研究針對的偽裝語音偽裝方式都比較單一,但現(xiàn)實應(yīng)用中,偽裝軟件種類繁多,偽裝手段不盡相同,偽裝者可能會將人為偽裝方法和電子偽裝方法結(jié)合運用。因此,需要提出一個具體的、穩(wěn)健的、普遍的解決方案,即使不知道語音偽裝方法,依然能夠有效鑒別偽裝語音的說話人身份。
目前語音偽裝防御策略還存在很多問題和挑戰(zhàn),語音偽裝的相關(guān)研究也一直是語音信號處理領(lǐng)域以及網(wǎng)絡(luò)空間安全領(lǐng)域的熱點問題。本文認為,未來偽裝語音身份鑒定相關(guān)研究也必將著力解決當前偽裝語音中存在的現(xiàn)實問題,朝著下述方向不斷發(fā)展:
(1)普適的偽裝語音防御方法
目前偽裝語音的身份鑒定容易受到偽裝方式的影響,未來的研究方向必定是研究具有通用性、高效性的偽裝身份鑒定方式,提升偽裝語音身份鑒定效果。針對由人為偽裝和電子偽裝結(jié)合產(chǎn)生的偽裝語音,可以考慮在進行電子偽裝語音鑒定前消除非電子偽裝方式的影響;對于復(fù)雜多變的電子偽裝語音還原方法,可以試圖尋找一個通用的非線性還原函數(shù),通過調(diào)節(jié)還原函數(shù)的參數(shù),來逼近偽裝函數(shù)的反函數(shù),從而實現(xiàn)電子偽裝語音的還原,為偽裝語音身份識別奠定基礎(chǔ)。
(2)魯棒的偽裝語音防御方法
偽裝語音的研究最終將會真正運用到實際,而真實情況下,偽裝語音噪聲信號混雜,語言也會出現(xiàn)各種各樣的情況。針對目前偽裝語音防御策略在真實含噪數(shù)據(jù)集上效果不理想問題,下一步的研究可以結(jié)合當前發(fā)展比較成熟的語音信號預(yù)處理和語音增強技術(shù),在不損失待測語音音質(zhì)的條件下有效去除噪聲,然后再進行語音偽裝判別及偽裝語音身份鑒別,這將會是另一個提高偽裝語音防御系統(tǒng)性能的重要方式。
(3)可靠的偽裝語音防御方法
偽裝語音的防御對策研究的最終目標是要保證識別結(jié)果準確。近年來,神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)以及深度學(xué)習(xí)的發(fā)展使得語音增強、語音合成以及說話人識別等相關(guān)技術(shù)取得了較大進展。未來可以嘗試采用這些先進技術(shù)相結(jié)合,選取更加優(yōu)秀的匹配方法來提高偽裝語音身份鑒定準確度。另外,有效地提高訓(xùn)練鑒定速度和系統(tǒng)的穩(wěn)定性是可靠的偽裝語音防御模型的必備條件,這也將是以后的研究重點之一。
聲紋識別技術(shù)的普及給人們的生活帶來了極大的便利,同時人們對于信息安全有著越來越高的需求和期望。然而,語音偽裝技術(shù)的出現(xiàn)給聲紋認證產(chǎn)品帶來了極大挑戰(zhàn)。本文概括了常用的語音偽裝方法,介紹了偽裝語音的威脅量化評估指標,討論了語音偽裝防御對策目前存在的問題并給出研究方向。未來的偽裝語音防御對策會朝著普適性、魯棒性、可靠性方向發(fā)展,同時,抗偽裝的說話人識別技術(shù)的發(fā)展也必將進一步推動聲紋識別技術(shù)的落地應(yīng)用和發(fā)展。