江婧,王潤(rùn),張金連,郗濤,顏普
(1.安徽建筑大學(xué) 數(shù)理學(xué)院,安徽 合肥 230601;2.安徽建筑大學(xué) 電子與信息工程學(xué)院,安徽 合肥 230601)
隨著信息網(wǎng)絡(luò)時(shí)代的迅猛發(fā)展,越來(lái)越多的社交軟件涌現(xiàn)出來(lái),如QQ、微信等。這些社交軟件功能相對(duì)豐富,支持貨幣交易,也成為新的付款方式。同時(shí)其語(yǔ)音消息功能也給生活帶來(lái)極大便利。然而帶給人們生活便利的同時(shí),也滋生出一些新的詐騙手段——冒充親友來(lái)侵害人身財(cái)產(chǎn)安全的語(yǔ)音詐騙[1]。如:親朋好友的微信或QQ 等平臺(tái)賬號(hào)被盜,盜號(hào)者進(jìn)行要求轉(zhuǎn)賬的語(yǔ)音詐騙,盜號(hào)者通過(guò)發(fā)來(lái)與賬號(hào)持有者音色相似的要求轉(zhuǎn)賬等內(nèi)容的語(yǔ)音實(shí)施詐騙。通常這類語(yǔ)音是盜號(hào)者通過(guò)對(duì)賬號(hào)持有者語(yǔ)料的了解及收集,然后利用計(jì)算機(jī)篡改語(yǔ)音,因此人耳有時(shí)候難以辨別真假?gòu)亩袭?dāng)受騙。此類詐騙事件不僅使受害者的財(cái)產(chǎn)安全受到了威脅,而且大大降低了受害者對(duì)網(wǎng)絡(luò)安全的信任。
對(duì)于計(jì)算機(jī)篡改的語(yǔ)音,大部分鑒別算法都是將語(yǔ)音信號(hào)由時(shí)域變換到頻域,從幅度或者相位信息提取檢測(cè)特征[2]。通過(guò)提取語(yǔ)音信號(hào)本身的一種特征參數(shù),使用支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等模型進(jìn)行訓(xùn)練,對(duì)特征參數(shù)及訓(xùn)練模型進(jìn)一步優(yōu)化并最終鑒別語(yǔ)音的真?zhèn)?。李燕萍[3]利用語(yǔ)音的MFCC(Mel Frequency Cepstral Coefficients)對(duì)電子偽裝語(yǔ)音進(jìn)行鑒定;Paul D[4]利用語(yǔ)音的短時(shí)譜特征完成了對(duì)合成語(yǔ)音和自然語(yǔ)音的鑒別;余建潮[5]利用語(yǔ)音的MFCC 和LPCC (Linear Predictive Cepstral Coding)大大增加了說(shuō)話人識(shí)別的準(zhǔn)確率;黃秀彬[6]利用語(yǔ)音的LPCC 進(jìn)一步增加了語(yǔ)音識(shí)別的準(zhǔn)確率;張立[7]利用語(yǔ)音的高頻信息提出了一種能同時(shí)檢測(cè)多種偽裝語(yǔ)音類型的鑒別算法。然而,在實(shí)際鑒別中,使用單一語(yǔ)音特征參數(shù)有很大的局限性。隨著單一參數(shù)語(yǔ)音鑒偽算法的出現(xiàn),詐騙者也開(kāi)始對(duì)計(jì)算機(jī)合成偽裝語(yǔ)音技術(shù)進(jìn)一步提升,使得合成偽裝語(yǔ)音的自然度越來(lái)越貼近自然語(yǔ)音,因此單一的語(yǔ)音特征參數(shù)鑒偽算法的準(zhǔn)確率可能會(huì)大大降低。
針對(duì)單一的語(yǔ)音特征鑒偽算法準(zhǔn)確率低的情況,本文通過(guò)融合梅爾倒譜系數(shù)以及聲譜圖灰度共生矩陣的平均能量E、平均熵H、平均慣性矩I、相關(guān)性C、音頻信號(hào)的平均基因周期、平均短時(shí)能量、平均幅度等特征,利用BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,從而鑒別原始語(yǔ)音和纂改語(yǔ)音。實(shí)驗(yàn)結(jié)果表明,本文所提出的多特征參數(shù)融合的語(yǔ)音鑒偽算法較傳統(tǒng)的單一特征參數(shù)鑒別合成偽語(yǔ)音算法在鑒別準(zhǔn)確率上有較大提升,同時(shí)比起傳統(tǒng)的鑒別算法可以鑒別的偽裝語(yǔ)音范圍更廣,使用局限性更低。
BP (Back Propagation) 網(wǎng)絡(luò)模型[8]處理信息的基本原理是:輸入信號(hào)Xi通過(guò)中間節(jié)點(diǎn)(隱層點(diǎn))作用于輸出節(jié)點(diǎn),經(jīng)過(guò)非線形變換,產(chǎn)生輸出信號(hào)Yk,網(wǎng)絡(luò)訓(xùn)練的每一個(gè)樣本包含輸入向量X 和期望輸出量t,網(wǎng)絡(luò)輸出值Y 與期望輸出值t 之間的偏差,通過(guò)調(diào)整輸入節(jié)點(diǎn)與隱層節(jié)點(diǎn)的聯(lián)接強(qiáng)度取值Wij和隱層節(jié)點(diǎn)與輸出節(jié)點(diǎn)之間的聯(lián)接強(qiáng)度取值Tjk以及閾值,使誤差沿梯度方向下降,經(jīng)過(guò)重復(fù)學(xué)習(xí)訓(xùn)練,確定與最小誤差相對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù)(權(quán)值和閾值),訓(xùn)練停止。
(1)節(jié)點(diǎn)輸出模型
其中f 代表非線性激活函數(shù);q 表示神經(jīng)元閾值。
(2)激活函數(shù)模型
激活函數(shù)是反映下層輸入對(duì)上層節(jié)點(diǎn)刺激脈沖強(qiáng)度的函數(shù),又稱刺激函數(shù),一般取為(0,1)連續(xù)取值Sigmoid 函數(shù):
(3)誤差計(jì)算模型
誤差計(jì)算模型是反映神經(jīng)網(wǎng)絡(luò)期望輸出與計(jì)算輸出之間誤差大小的函數(shù):
其中tpi- i 代表節(jié)點(diǎn)的期望輸出值;Qpi- i 表示節(jié)點(diǎn)計(jì)算輸出值。
本文提出一種基于多特征融合的合成語(yǔ)音鑒偽算法,其算法流程圖如圖1 所示。分別提取真實(shí)語(yǔ)音和偽造語(yǔ)音的聲譜圖灰度共生矩陣的四項(xiàng)指標(biāo)(平均能量E、平均熵H、平均慣性矩I 和相關(guān)性C)、音頻的平均短時(shí)能量、音頻信號(hào)的平均幅度、平均基因周期、梅爾頻率倒譜系數(shù)等特征,用多特征融合的43 維特征參數(shù)訓(xùn)練BP 神經(jīng)網(wǎng)絡(luò),輸入神經(jīng)元的個(gè)數(shù)為43,輸出神經(jīng)元的個(gè)數(shù)為1,根據(jù)經(jīng)驗(yàn)不斷調(diào)整中間神經(jīng)元的個(gè)數(shù)并不斷迭代,在中間神經(jīng)元為19 時(shí),得到一個(gè)結(jié)構(gòu)為43×19×1 的BP神經(jīng)網(wǎng)格模型。
圖1 鑒別偽語(yǔ)音流程圖
2.2.1 聲譜圖灰度共生矩陣
將語(yǔ)音信號(hào)作傅里葉變換,以橫軸為時(shí)間,縱軸為頻率,用顏色表示幅值繪制出聲譜圖如圖2。從紋理特征的角度研究音頻對(duì)應(yīng)聲譜圖的特征,對(duì)聲譜圖進(jìn)行灰度共生矩陣[9]的計(jì)算。首先將各顏色分量轉(zhuǎn)化為灰度(所用圖像灰度級(jí)均為256),對(duì)原始圖像灰度級(jí)壓縮,將Gray 量化成16 級(jí);對(duì)共生矩陣計(jì)算能量、熵、慣性矩、相關(guān)性4 個(gè)紋理參數(shù),得到平均能量E,平均熵H,平均慣性矩I,相關(guān)性C 的四個(gè)特征參數(shù)均值。
圖2 聲譜圖
2.2.2 平均短時(shí)能量
語(yǔ)音信號(hào)是隨時(shí)間變化的非平穩(wěn)隨機(jī)過(guò)程,因此對(duì)于語(yǔ)音信號(hào)的分析一般為短時(shí)分析。語(yǔ)音的狀態(tài)不會(huì)發(fā)生突變,在短時(shí)間內(nèi)語(yǔ)音信號(hào)的特性基本不變,稱之為語(yǔ)音的短時(shí)平穩(wěn)性。通過(guò)對(duì)語(yǔ)音的分幀加窗,得到語(yǔ)音信號(hào)的短時(shí)能量特征。
利用公式
可求得n 時(shí)刻某語(yǔ)音信號(hào)的短時(shí)平均能量,語(yǔ)音信號(hào)的平均短時(shí)能量能夠在較高程度上反映短時(shí)信號(hào)的頻率特性。
2.2.3 平均幅度
短時(shí)能量對(duì)信號(hào)電平值敏感,需要計(jì)算信號(hào)樣值的平方和,在定點(diǎn)出現(xiàn)時(shí)容易產(chǎn)生溢出。短時(shí)平均幅度函數(shù)計(jì)算小取樣值和大取樣值不會(huì)因電平而存在較大差異,因而可以用來(lái)衡量語(yǔ)音幅度的變化,對(duì)語(yǔ)音進(jìn)行表征。
短時(shí)平均幅度定義為
利用短時(shí)平均幅度函數(shù)
可求得語(yǔ)音信號(hào)的短時(shí)平均幅值。
2.2.4 平均基音周期
聲帶振動(dòng)的頻率稱為基頻,相應(yīng)的周期就稱為基音周期[10]。
利用短時(shí)平均幅度差函數(shù)
rw( )
l 可呈現(xiàn)與濁音語(yǔ)音周期一致的周期特性。
提取語(yǔ)音數(shù)據(jù)庫(kù)七類特征參數(shù)值,取部分表格為例。對(duì)原始語(yǔ)音①及其對(duì)應(yīng)篡改音頻的特征參數(shù)表格截取如表1 所示。
2.2.5 梅爾頻率倒譜系數(shù)
梅爾頻率倒譜系數(shù)(MFCC)就是組成梅爾頻率倒譜的系數(shù)[11]。梅爾頻率倒譜的頻帶根據(jù)梅爾刻度等距劃分,比正常的對(duì)數(shù)倒頻譜中線性間隔的頻帶能更好地模擬人耳聽(tīng)覺(jué)系統(tǒng)。梅爾頻率倒譜系數(shù)可以準(zhǔn)確地表征短時(shí)間功率譜的包絡(luò)線。
表1 特征參數(shù)值
梅爾頻率倒譜系數(shù)先將線性頻譜映射到基于聽(tīng)覺(jué)感知的梅爾頻率倒譜系數(shù)非線性頻譜中,然后轉(zhuǎn)換到倒譜上。
將普通頻率轉(zhuǎn)化到梅爾頻率:
其中,Mel( )
f 的單位為Mel ,f 的單位為Hz。
將原語(yǔ)音信號(hào)經(jīng)過(guò)傅里葉變換得到頻譜,將頻譜通過(guò)一組梅爾濾波器得到梅爾頻譜。
其中,logX[ k ]是頻譜信號(hào),spectrum 是語(yǔ)音信號(hào)的原頻譜。
在log X[k]上進(jìn)行倒譜分析:
其中l(wèi)ogH[ k ]表示頻譜的包絡(luò),logE[ k ]表示頻譜的細(xì)節(jié)。
其中x[ k ]就是倒譜,h[ k ]描述了頻譜的包絡(luò)。
在梅爾頻譜上獲得的倒譜系數(shù)h[ k ]就稱為梅爾頻率倒譜系數(shù),簡(jiǎn)稱MFCC。但梅爾頻率倒譜系數(shù)只能描述人耳的靜態(tài)特性,不能夠表達(dá)出語(yǔ)音幀之間的變化特性,為了更好的對(duì)語(yǔ)音信號(hào)進(jìn)行表征,將梅爾頻率倒譜系數(shù)的靜態(tài)頻譜轉(zhuǎn)換為動(dòng)態(tài)頻譜,從頻譜中提取梅爾頻率倒譜系數(shù)的一階差分倒譜系數(shù)[12],將一階差分倒譜系數(shù)再次差分處理,得到特征參數(shù)的二階差分倒譜系數(shù),可以表達(dá)語(yǔ)音信號(hào)幀與幀瞬間變化的動(dòng)態(tài)特性。
3.1.1 原音頻的獲取
為求在有限的語(yǔ)料數(shù)據(jù)量?jī)?nèi),對(duì)音頻的音節(jié)音子、類型、音調(diào)、音連以及韻律等盡可能全面的覆蓋,從標(biāo)貝(北京)科技有限公司的免費(fèi)開(kāi)放中文標(biāo)準(zhǔn)女聲音庫(kù)獲取專門用來(lái)語(yǔ)音研究的原音頻10000 條(專業(yè)錄音環(huán)境中錄音的音頻,單聲道錄音,采樣格式均為無(wú)壓縮PCM WAV 格式,采樣率為48 kHz,16 bit)。此語(yǔ)音庫(kù)錄音語(yǔ)料涵蓋各領(lǐng)域,語(yǔ)料設(shè)計(jì)綜合語(yǔ)料樣本量。取其中300 條語(yǔ)音作為原始音頻并編號(hào)。
3.1.2 篡改音頻的獲取
實(shí)驗(yàn)用于篡改音頻的方式采用較為基礎(chǔ)的語(yǔ)音合成方法,從基礎(chǔ)篡改出發(fā)研究音頻特性。實(shí)驗(yàn)語(yǔ)音的篡改方式貼近生活實(shí)際,保持語(yǔ)音的篡改與原語(yǔ)音有一定相似度。對(duì)部分原始音頻進(jìn)行基礎(chǔ)合成篡改(升降音階、加入各種特效、局部篡改等),得到160 段經(jīng)篡改的篡改音頻并編號(hào)。將原始語(yǔ)音和篡改后的語(yǔ)音放入同一個(gè)數(shù)據(jù)庫(kù),最終得到樣本容量為460 的實(shí)驗(yàn)語(yǔ)音數(shù)據(jù)庫(kù)。
提取實(shí)驗(yàn)語(yǔ)音數(shù)據(jù)庫(kù)中全部460 條語(yǔ)音樣本的各類特征參數(shù)(聲譜圖灰度共生矩陣的四項(xiàng)指標(biāo)的各自均值:平均能量E、平均熵H、平均慣性矩I和相關(guān)性C;平均基因周期;音頻的平均短時(shí)能量;音頻信號(hào)的平均幅度;梅爾頻率倒譜系數(shù)),用六種方法測(cè)試實(shí)驗(yàn)。方法一使用音頻的12 維梅爾頻率倒譜系數(shù)作為BP 神經(jīng)網(wǎng)絡(luò)的輸入層進(jìn)行訓(xùn)練;方法二使用音頻的梅爾頻率倒譜系數(shù)的12 維一階差分系數(shù)[13]作為BP 神經(jīng)網(wǎng)絡(luò)的輸入層進(jìn)行訓(xùn)練;方法三使用音頻的梅爾頻率倒譜系數(shù)的12 維二階差分系數(shù)[13]作為BP 神經(jīng)網(wǎng)絡(luò)的輸入層進(jìn)行訓(xùn)練;方法四使用結(jié)合一階差分以及二階差分后的36 維梅爾頻率倒譜系數(shù)作為BP 神經(jīng)網(wǎng)絡(luò)的輸入層進(jìn)行訓(xùn)練;方法五使用七類特征參數(shù)(聲譜圖灰度共生矩陣的四項(xiàng)指標(biāo)的各自均值:平均能量E、平均熵H、平均慣性矩I 和相關(guān)性C[9];平均基因周期;音頻的平均短時(shí)能量;音頻信號(hào)的平均幅度)作為BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入層進(jìn)行訓(xùn)練;方法六作為本文所提算法采用多特征融合的方式,將全部43 維特征參數(shù)作為BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入層進(jìn)行訓(xùn)練。
每種方法得到網(wǎng)絡(luò)模型的鑒別準(zhǔn)確率如表2所示,對(duì)比六種測(cè)試方法發(fā)現(xiàn):使用多特征融合參數(shù)作為訓(xùn)練輸入層的BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)語(yǔ)音鑒偽準(zhǔn)確率更高,最高準(zhǔn)確率可達(dá)94.1%,再由均方差訓(xùn)練補(bǔ)償圖可知用43 維(結(jié)合36 維MFCC 和七個(gè)一維特征參數(shù))作為多特征融合特征參數(shù)做輸入神經(jīng)元的迭代誤差最小。
圖3 均方差訓(xùn)練補(bǔ)償圖
圖3 為均方差訓(xùn)練補(bǔ)償圖,每個(gè)子圖中三條曲線分別代表訓(xùn)練(藍(lán)色),驗(yàn)證(綠色),測(cè)試(紅色)曲線,橫坐標(biāo)為迭代次數(shù),縱坐標(biāo)為每次迭代樣本的均方根誤差。圖3(a)至圖3(f)分別是第一種方法到第六種本文所提算法的均方差訓(xùn)練補(bǔ)償圖,可以看出本文所提算法的迭代誤差最小,在五次迭代左右迭代誤差已達(dá)很小。
表2 鑒別準(zhǔn)確率及迭代最小誤差
針對(duì)計(jì)算機(jī)篡改語(yǔ)音,本文對(duì)語(yǔ)音鑒偽進(jìn)行主要研究,并取得一定的研究成果:通過(guò)融合語(yǔ)音多特征參數(shù),將融合后的多特征參數(shù)投入神經(jīng)網(wǎng)絡(luò)進(jìn)一步優(yōu)化訓(xùn)練,建立了鑒別準(zhǔn)確率可達(dá)94.1% 的43×19×1 語(yǔ)音鑒偽網(wǎng)絡(luò)模型。使用模型訓(xùn)練結(jié)果表明與常用的單一特征鑒偽相比,
本文所提的多維融合特征鑒別準(zhǔn)確率更高。本文對(duì)于計(jì)算機(jī)篡改語(yǔ)音的研究工作具有一定的意義,期望本文所提多特征融合語(yǔ)音鑒偽算法能為篡改語(yǔ)音鑒偽提供新的研究方向,就本文而言仍然有很多值得深入探討的內(nèi)容。
安徽建筑大學(xué)學(xué)報(bào)2020年6期