何朝霞,潘 平,羅 輝
(1.長江大學工程技術(shù)學院,湖北 荊州 434023;2.貴州大學計算機科學與信息學院,貴州 貴陽 550025;3.哈爾濱工業(yè)大學計算機科學與技術(shù)學院,黑龍江 哈爾濱 150001)
音色變換音頻信號的篡改檢測技術(shù)研究
何朝霞1,潘 平2,羅 輝3
(1.長江大學工程技術(shù)學院,湖北 荊州 434023;2.貴州大學計算機科學與信息學院,貴州 貴陽 550025;3.哈爾濱工業(yè)大學計算機科學與技術(shù)學院,黑龍江 哈爾濱 150001)
針對音色變換軟件帶來的社會安全問題,提出一種音頻信號篡改檢測方法。首先根據(jù)語音信號的混沌特性和人耳的聽覺特性,利用美爾頻率倒譜系數(shù)(Mel frequency cepstral coefficients,MFCC)特征提取原理,提取待測音頻的杜芬頻率倒譜系數(shù)(Duffing frequency cepstral coefficients,DFCC),然后將特征參數(shù)的幅度進行提升,利用支持向量機(SVM)將特征參數(shù)與語料庫里的特征進行分類。分類成功的情況下,根據(jù)幅度提升的大小判斷待測音頻信號是否經(jīng)過篡改;同時根據(jù)幅度提升的大小和待測音頻的性別判斷說話人的真實性別。大量的實驗結(jié)果表明,該方法在音頻信號的篡改檢測和音頻信號說話人的真實性別判斷方面均具有較高的準確率,并且性能穩(wěn)定。
篡改檢測;特征提??;杜芬頻率倒譜系數(shù);支持向量機
音色變換是指改變一個說話人的語音個性特征,使之具有另外一個說話人的語音個性特征。音色變換在數(shù)字娛樂領(lǐng)域有著廣泛的應(yīng)用,例如AV VCS[1]軟件,可以對語音進行某種變換使之產(chǎn)生性別和音色個性上的變化,包括在男聲、女聲、老年人聲和童聲之間互相轉(zhuǎn)換,從而達到偽裝的效果;在通信領(lǐng)域,手機客戶端也可以便捷地下載使用變聲軟件達到音色變換的效果。音色變換一方面娛樂了大眾,但也對社會安全產(chǎn)生了一定的威脅,例如,犯罪分子在綁架或詐騙中,語音聊天時通過變聲軟件改變自己的音色和音調(diào),隱藏其真實身份,給偵查和取證帶來了極大的困難。因此針對說話人音色變換的音頻信號篡改檢測技術(shù)的研究有著重要的意義。目前國內(nèi)外針對音色變換的音頻信號篡改檢測的研究相對較少,尤其是自動檢測技術(shù)。
文獻[2-3]針對提高或者降低音調(diào)、手掩口、捏鼻子等偽裝方法,提出用美爾頻率倒譜系數(shù)(Mel frequency cepstral coefficients,MFCC)及其差分等特征鑒別音頻信號是否偽裝,其中文獻[3]以12階MFCC及其一階差分作為分類特征,用支持向量機(support vector machine,SVM)對特征進行分類,取得了較好的檢測效果;文獻[4]針對利用算法進行語音變換的音頻信號,通過比較相鄰的基音同步幀的相似度檢測音頻信號是否經(jīng)過了篡改。文獻[5]針對利用變聲軟件進行語音變換的音頻信號,提取音頻信號的聲道參數(shù)及相關(guān)統(tǒng)計量等特征參數(shù),然后使用SVM進行特征分類,判斷音頻信號是否進行了音色變換。文獻[6]提出一種基于線性預(yù)測系數(shù)(linear predictive coefficient,LPC)和SVM的語音改變篡改檢測方法。
本文試圖根據(jù)語音信號的混沌特性和人耳的聽覺特性,利用MFCC特征參數(shù)提取原理,提取語音信號的DFCC(Duffing frequency cepstral coefficients)參數(shù)及其一階差分,利用SVM對變換語音的特征進行分類,檢測語音信號是否經(jīng)過音色變換,如果是則判別變換語音說話人的真實性別。同時與文獻[3]中的方法比較,驗證本論文方法的有效性。
1.1 音色變換原理
人類的語音是由說話人的發(fā)音器官各部分協(xié)同動作所產(chǎn)生的,例如聲帶顫動而產(chǎn)生的聲帶音是通過喉腔、咽腔、口腔、唇腔和鼻腔這5個共振腔才傳到人的耳朵里??諝饬鹘?jīng)過聲帶時,如果聲帶是繃緊的,則聲帶將產(chǎn)生張弛振動,即聲帶將周期性地開啟和閉合。聲帶開啟時,空氣流從聲門噴射出來,形成一個脈沖,聲帶閉合時相應(yīng)于脈沖序列的間隙期。因此,在這種情況下,聲門處產(chǎn)生一個準周期脈沖狀的空氣流。該空氣流經(jīng)過聲道后最終從嘴唇輻射出聲波,這個準周期脈沖的周期即為基音周期[7]?;纛l率是由聲帶張開閉合的周期所決定的。男性的基音頻率一般為50~250Hz,女性的基音頻率為100~500Hz。說話人的個性化音色就是和基音頻率和共振峰頻率的分布有關(guān)。在進行性別變聲時,主要考慮基頻和共振峰頻率的變化。當基頻伸展,共振峰頻率也同時伸展時,可由男聲變成女聲,女聲變成童聲;反之,基頻收縮,共振峰頻率也同時收縮時,則由童聲變女聲,女聲變男聲[8]。目前市面上的語音變換軟件如AV VCS等幾乎都是基于基頻移動的原理實現(xiàn)的。
由原理可知,如果設(shè)計一種方法能夠檢測出音色變換語音信號的基音頻率和移動頻率,就可以判斷出語音信號是否經(jīng)過音色變換,根據(jù)基音頻率可以估計出說話人的真實性別。
1.2 基于Duffing方程的語音特征提取
語音信號,特別是摩擦音與爆破音之類的送氣音,會在聲道邊界產(chǎn)生渦流,并最終形成湍流,而這種湍流則是一種混沌,因此可以考慮建立混沌模型來處理語音信號[9]。1918年,Duffing在經(jīng)典力學中引入了一個具有擺動的非線性振動方程,現(xiàn)稱為Duffing方程,該方程是混沌現(xiàn)象的一個典型例子。本文從Duffing方程著手,同時結(jié)合人耳的聽覺特性,建立非線性系統(tǒng)的數(shù)學模型,實現(xiàn)對說話人語音信號的特征提取。
Duffing方程[10]的一般形式為
式中:γ——阻尼系數(shù);
κ、ζ——常數(shù);
Fcos(Ω0+Ωi)t——系統(tǒng)的外力項;
Ω0+Ωi——外力項頻率,在這里,Ω0表示基音頻率,Ωi表示移動的頻率。
考慮有外力驅(qū)動的情況,當 2πfi=Ω0+Ωi時,系統(tǒng)發(fā)生共振。在t(0+)時刻輸入一個脈沖響應(yīng)δ(t),Duffing共振系統(tǒng)的時域函數(shù)為h(t),由δ(t)·h(t)= x(t),可以得出H(s)=X(s),即h(t)=x(t)。
阻尼系數(shù)在一定程度上決定了脈沖響應(yīng)的衰減速度,與濾波器的帶寬有關(guān)。由此可以得到系統(tǒng)的時域表達式[11]為
式中:α——濾波器增益;
b(fi)——濾波器的帶寬,-2πb(fi)<0,說明該系統(tǒng)具有穩(wěn)定性。
語音信號通過該系統(tǒng)可以檢測出Ω0和Ωi。
同時考慮到人耳的聽覺特性,由于人耳基底膜的橫纖維長短不同,靠近蝸底較窄,靠近蝸頂較寬,猶如一部豎琴的琴弦[12],其長短呈非線性變化,所有的音按自然七聲音階排列。可以認為人耳基底膜的振動實質(zhì)上是由多個Duffing模型的線性疊加組合而成。每一個Duffing模型,構(gòu)成一個聽覺共振點,其輸出就是該共振點的頻率,所以該系統(tǒng)是由一個濾波器組實現(xiàn)的。
同時,由于鋼琴的十二聲調(diào)式體系是由同主音6個自然七聲調(diào)式混合而成,考慮將聲樂的十二韻律[13]運用到濾波器的頻率特性中。
十二韻律是通過連續(xù)的乘法每次上一頻率乘得出下一頻率的結(jié)果。同理,只要確定了第一通道濾波器的中心頻率f0,就可以確定各通道濾波器的中心頻率fi。
式中N為濾波器組的通道數(shù)。
每個濾波器帶寬可由式(4)確定。
只要確定了濾波器的中心頻率fi,濾波器的特性就可以確定。圖1所示是中心頻率為1 000 Hz Duffing濾波器的時域響應(yīng)波形。
圖1 中心頻率為1000Hz的Duffing濾波器時域沖激響應(yīng)
將其進行傅里葉變換就可以得到頻率響應(yīng)特性。不同中心頻率的Duffing濾波器的幅頻響應(yīng)曲線如圖2所示。
圖2 不同中心頻率Duffing濾波器的幅頻響應(yīng)
由于說話人語音信號頻率的覆蓋范圍一般為60~3500Hz,選定最低頻率f0=60Hz,按照式(4)可求得各通道濾波器的中心頻率,共需72通道(表1)才能夠覆蓋整個頻率范圍。圖3為72通道Duffing濾波器組(每4個通道取一條曲線)的幅頻響應(yīng)曲線。表1中,當前通道數(shù)k=(n-1)×12+m,表格中的數(shù)據(jù)表示當前通道濾波器的中心頻率。
圖3 72通道Duffing濾波器組的幅頻特性
表1 各通道濾波器的中心頻率 Hz
MFCC特征參數(shù)提取是將語音信號加窗分幀后用快速傅里葉變換(FFT)轉(zhuǎn)化為頻域信號,然后通過Mel頻率濾波器組得到Mel頻譜,最后進行DCT變換獲得Mel倒譜系數(shù)。利用MFCC特征參數(shù)提取原理,音頻信號DFCC特征參數(shù)提取流程如圖4所示,具體步驟如下:
1)語音信號經(jīng)過抗混疊、預(yù)加重等預(yù)處理后,分幀加窗,128點作為一幀,幀移40個點,加漢明窗。
2)將加窗分幀后的短時信號,用快速傅里葉變換(FFT)轉(zhuǎn)化為頻域信號,求出頻譜平方,即能量譜。
3)將短時能量信號通過第1節(jié)設(shè)計的Duffing濾波器組,并通過對數(shù)能量的處理得到對數(shù)頻譜。
4)將上述對數(shù)頻譜經(jīng)過離散余弦變換(DCT)得到L個Duffing頻率倒譜系數(shù)。DFCC系數(shù)為
圖4 音頻信號特征提取流程
其中x′(k)為短時能量信號。濾波器組的通道數(shù)為72,上式中的L為72。
5)將這種直接得到的DFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征做一階差分,得到相應(yīng)的動態(tài)特征。
6)對提取出的DFCC靜態(tài)特征、一階差分,合并作為音色變換篡改檢測的特征參數(shù)。
3.1 實驗可行性分析
有5段待測音頻,都為同一女生的錄音,內(nèi)容均為“你好”。分別命名為“自然音”、“女性”、“男性”、“男孩”、“男老人”。 其中,“自然音”是采用語音編輯軟件Cool Edit Pro V2.1簡體中文版錄制的自然語音;“女性”、“男性”、“男孩”、“男老人” 均采用AV VCS軟件錄制的變換語音。圖5是以“自然音”的特征參數(shù)為基準,音頻信號的特征參數(shù)對比圖;圖6是以“男孩”語音的特征參數(shù)為基準,音頻信號的特征參數(shù)對比圖。由于Duffing帶通濾波器有72通道,所以特征參數(shù)為72維,圖5和圖6均只取了其中的第一維特征參數(shù)進行比較,其中橫坐標為語音幀,縱坐標為特征參數(shù)的幅度。
觀察圖5,由于說話人為女性,其中“自然音”和“女性”變換音的特征參數(shù)極其相似,并且幅度接近;而“自然音”與“男性”、“男孩”和“男老人”等變換音的特征參數(shù)雖然波形相似,但是幅度相差較大。
對比圖5和圖6,發(fā)現(xiàn)相同性別的變換音的特征參數(shù)波形和幅度的近似程度較大,而不同性別的變換音的特征參數(shù)幅度相差較大。
在本實驗的基礎(chǔ)上,又將特征參數(shù)的其他維進行了測試,所得結(jié)果與圖5、圖6的結(jié)果基本吻合。由于變聲器是通過調(diào)整輸入音頻信號的基頻參數(shù),改變聲音的音色、音調(diào),使輸出聲音在感官上與原聲音不同。基頻參數(shù)的改變壓縮或者擴展了語音頻譜中的諧波成分,而短時譜包絡(luò)和時間尺度保持不變。本文提出的DFCC參數(shù)包含了說話人的個性特征,能夠檢測出語音信號的說話人基音頻率和移動的頻率。呈現(xiàn)在特征參數(shù)圖形上就是:變換語音的特征參數(shù)與自然語音的特征參數(shù)在波形上有較大的相似性,但是不同性別年齡的變換音與自然語音特征參數(shù)的幅度相差不一樣。
圖5 以“自然音”的特征參數(shù)為基準,音頻信號的特征參數(shù)對比圖
圖6 以“男孩”的特征參數(shù)為基準,音頻信號的特征參數(shù)對比圖
因此,為了檢測待測音頻信號是否經(jīng)過篡改,可以將該音頻信號的DFCC特征參數(shù)的幅度進行提升(可正可負),然后將提升后的特征參數(shù)與該說話人的自然語音的DFCC特征進行比較,如果相似程度較大,則是該說話人的語音,從而檢測說話人的真實性別;同時根據(jù)幅度提升的大小判斷待測音頻信號是否經(jīng)過語音變換。
3.2 語音轉(zhuǎn)換檢測和分析
為了進一步的驗證實驗,又進行了大量的測試。測試的基礎(chǔ)是龐大的語料庫,語料庫的音頻都是由語音編輯軟件Cool Edit Pro V2.1簡體中文版錄制的說話人自然語音,總共有50個女性和50個男性。每個說話人都訓練了10段語音,根據(jù)第2節(jié)的內(nèi)容提取其特征,作為語料庫的樣本。待測信號有1000段,都是語料庫中的說話人利用AV VCS軟件或Cool Edit Pro V2.1簡體中文版錄制的音色變換音頻信號或自然語音音頻信號。
音色變換檢測和說話人真實性別判斷的具體步驟如下:
1)按照第2節(jié)的步驟獲取待測音頻信號的特征參數(shù),賦初值m=-10。
2)待測音頻信號的特征參數(shù)+m,利用SVM將該特征參數(shù)和語料庫中自然語音音頻信號的特征進行比較分類。
3)如果分類失敗,m=m+0.1,重復(fù) 2),如果m>20,結(jié)束,識別失敗。
4)如果分類成功,根據(jù)待測音頻的性別和當前m的大小判斷待測音頻信號的說話人性別。如果m∈[-0.5,0.5],待測音頻信號沒有進行音色變換,如果m?[-0.5,0.5]則待測音頻信號進行了語音變換。
待測音頻的性別、當前m值和識別結(jié)果之間的關(guān)系如表2所示。
待測音頻信號音色變換篡改檢測準確率如表3所示。
表2 待測音頻的性別、當前m值和識別結(jié)果之間的關(guān)系
表3 待測音頻信號的篡改檢測準確率 %
觀察表3,雖然文獻[3]的方法在變換音性別與說話人性別相同時,具有較高的準確率,但整體性能不夠穩(wěn)定,特別是對于女性變換效果的平均檢測準確率偏低,緣于MFCC特征參數(shù)及其一階差分對說話人的個性特征比較敏感。本文方法待測音頻信號的篡改檢測平均準確率在75%以上,性能比較穩(wěn)定,這是因為DFCC參數(shù)在提取過程中既考慮了語音的混沌特性,同時也考慮了人耳的聽覺特性,可以較準確地檢測出說話人語音的基頻和移動頻率,是一種很好的說話人個性特征,并且對外界的影響不敏感。
待測音頻信號的說話人性別判斷準確率如表4所示。
表4 待測音頻信號的說話人性別判斷準確率 %
從表4平均準確率來看,本文方法對各種效果的說話人真實性別判斷準確率均大于90%,性能非常的穩(wěn)定。文獻[3]方法對于說話人性別和變換語音性別相同時的檢測準確率略高于本文方法,但是對于男性變換效果的平均檢測準確率偏低。表明DFCC及其一階差分是一個穩(wěn)定的能夠表述說話人個性的特征參數(shù),在說話人性別的識別中仍然具有較大的優(yōu)勢。
本文提出了一種針對音色變換的音頻信號篡改檢測方法,首先根據(jù)語音信號的混沌特性和人耳的聽覺特性,利用MFCC特征提取原理,提取待測音頻的DFCC特征參數(shù),然后將特征參數(shù)的幅度進行提升,利用SVM將特征參數(shù)與語料庫里的特征進行分類,如果分類失敗,則此次識別不成功,無法檢測是否有篡改;如果分類成功,則根據(jù)幅度提升的大小判斷待測音頻信號是否經(jīng)過篡改,同時根據(jù)幅度提升的大小和待測音頻的性別判斷說話人的真實性別。從實驗結(jié)果來看,DFCC特征參數(shù)穩(wěn)定,對外界影響不敏感,是一種重要的說話人個性特征,將它運用到音色變換音頻信號的篡改檢測中具有較高的準確率,為音色變換的音頻信號篡改檢測提供了一個新的思路。
[1]AV voice change software[EB/OL].(2005-01-01)[2009-06-08].http:∥www.audio4fun.com/voice-changer.html.
[2]PERROT P,MOREL M,RAZIK J,et al.Vocal forgery inforensic sciences[J].Forensics Intelecommunications, Information and Multimedia,Lecture Notes ofthe Institute for Computer Sciences Social Informatics and Telecommunications Engineering,2009,8(1):179-185.
[3]PERROT P,CHOLLET G.The question of disguised voice[J].The Journal of the Acoustical Society of America,2008,123(5):3878.
[4]SHEN Y F,JIA J,CAI L H.Detection on PSOLA-modified voice by seeking out duplicated fragments[C]∥IEEE International Conference on Systems and Informatics,2012:2177-2182.
[5]丁琦,平西建.針對語音變換的語音篡改檢測[J].數(shù)據(jù)采集與處理,2012,27(1):57-62.
[6]王飛.基于語譜圖和基音同步的音頻信號篡改檢測方法[D].大連:大連理工大學,2013.
[7]晁浩,宋成,彭維平.基于發(fā)音特征的聲效相關(guān)魯棒語音識別算法[J].計算機應(yīng)用,2015,35(1):257-261.
[8]陸成剛.語音性別變換的實時實現(xiàn)[J].電聲技術(shù),2009,33(12):50-53.
[9]孫穎,姚慧,張雪英,等.基于混沌特性的情感語音特征提取[J].天津大學學報(自然科學與工程技術(shù)版),2015,48(8):681-685.
[10]王海波.Duffing方程非線性振動特性的計算與分析[D].西安:西安建筑科技大學,2009.
[11]何朝霞,潘平.基于非線性共振的說話人特征提取研究與仿真[J].科學技術(shù)與工程,2012,12(25):6507-6510.
[12]胡航.語音信號處理 [M].哈爾濱:哈爾濱工業(yè)大學出版社,2009:42-136.
[13]志揚.一位科學家對音樂的貢獻[J].樂器,1990(2):36.
(編輯:劉楊)
Study on tamper detection technology for voice transformation
HE Zhaoxia1,PAN Ping2,LUO Hui3
(1.College of Technology&Engineering,Yangtze University,Jingzhou 434023,China;2.Computer Science and Information Institute,Guizhou University,Guiyang 550025,China;3.School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)
To address the social security issue brought up by voice transformation software,a method for sound signal tamper detection is proposed.Firstly,with the extraction method of Mel frequency cepstral coefficients(MFCC),Duffing frequency cepstral coefficients(DFCC)characteristic parameters of audio signals are extracted based on the human hearing characteristics and chaos characteristics of speech signal.Then,the amplitude of characteristic parameters is enhanced and support vector machine(SVM)is used to classify the characteristic parameters and characteristics in corpus.In case of successful classification,the audio signal will be judged whether it is tampered as per the size of the amplitude enhanced.Meanwhile,the speaker gender will be judged according to the size of the amplitude enhanced and the gender of the audio.Through a large number of experiments,it shows that the method has stable performance and high accuracy both in the audio signal tampering detection and audio speaker real gender judgement.
tamper detection;feature extraction;DFCC;SVM
A
:1674-5124(2017)02-0098-06
10.11857/j.issn.1674-5124.2017.02.020
2016-06-16;
:2016-08-03
貴州省科學技術(shù)基金項目(黔科合J字[2012]2132);貴陽市科技計劃項目(筑科合同[2011101]1-2);長江大學工程技術(shù)學院科學研究發(fā)展基金(15j0401)
何朝霞(1984-),女,湖北黃岡市人,講師,碩士,研究方向為語音信號處理。