王小穩(wěn)
摘? ?要:本文介紹了一種基于計算多個音頻信號物理特征值相關(guān)系數(shù)的音頻內(nèi)容比對算法。利用兩路音頻的時域幀序列、短時過零率序列、譜質(zhì)心序列和梅爾倒頻系數(shù)序列,再將這四組參數(shù)進(jìn)行相關(guān)性統(tǒng)計,計算出它們的相關(guān)性函數(shù),獲得最大相關(guān)性系數(shù)。從而判斷兩路音頻是否內(nèi)容一致的音頻比對算法。是信號處理領(lǐng)域,更進(jìn)一步涉及音頻信號處理領(lǐng)域中的一種基于相似度的音頻比對方法。
關(guān)鍵詞:音頻內(nèi)容比對? 音頻比對算法? 時域相關(guān)系數(shù) 過零率相關(guān)系數(shù) 梅爾倒頻系數(shù)? 譜質(zhì)心相關(guān)系數(shù)
中圖分類號:TN912.3? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)02(a)-0141-02
語言是我們?nèi)祟惖闹匾涣鞴ぞ?,自然高效、方便?zhǔn)確。對于語音信號處理的研究最早可以追溯到1876年貝爾發(fā)明電話。把模擬音頻信號轉(zhuǎn)換成電信號,再將電信號轉(zhuǎn)換成模擬信號完成電話的功能。對音頻的處理在我們身邊無處不在。與我們的生活息息相關(guān)。近年來在工作中接觸到對音頻內(nèi)容的判別,實時、準(zhǔn)確的判斷傳輸鏈路上的音頻內(nèi)容是否一致,都要靠人工去判別,當(dāng)播出節(jié)目是非漢語節(jié)目時,判別起來也是件很困難的事情。為了使我們的工作更簡便,有效地減少人為播出事故,更迅速的發(fā)現(xiàn)播出音頻的異常。為此我們早在十幾年前,就研究了幾種公開發(fā)表的關(guān)于音頻比對的文章、算法和專利,以便學(xué)習(xí)研究出一種新的擁有自主知識產(chǎn)權(quán)的音頻內(nèi)容比對算法。下面將介紹這種由我們自己研究的音頻比對的方法。供大家一起研討。
1? 比對算法簡介
本算法的功能是比對從不同設(shè)備或相同設(shè)備不同通道采集的兩路音頻信號,判斷音頻信號內(nèi)容是否是相同。它是信號處理領(lǐng)域,更進(jìn)一步涉及音頻信號處理領(lǐng)域中的一種基于相似度的音頻比對方法,是利用時頻分析法計算語音信號物理特征值進(jìn)行相關(guān)性統(tǒng)計的方法。
2? 本算法的具體思路
獲得兩路需要比對的音頻信號,對音頻信號進(jìn)行預(yù)處理,分別取長度為N的音頻采樣序列計算兩路音頻的相關(guān)性參數(shù),并計算兩路的延遲,然后通過延遲值將兩路信號重新對齊,再重新計算兩路音頻的相關(guān)性參數(shù)。最后取分別長度為M的音頻采樣序列,計算相關(guān)性來得到兩路音頻信號的相似度。計算的音頻物理特征值有它們的時域幀序列、短時過零率序列、譜質(zhì)心和梅爾倒頻系數(shù)序列。再將這四組參數(shù)進(jìn)行相關(guān)性統(tǒng)計,計算出它們的相關(guān)性函數(shù),獲得最大相關(guān)性系數(shù)。從而判斷兩路音頻是否內(nèi)容一致。
3? 具體步驟
3.1 音頻信號預(yù)處理
讀取兩路音頻信號數(shù)據(jù)重采樣并取長度為 N的采樣序列進(jìn)行預(yù)加重,歸一化音頻序列;然后對音頻信號進(jìn)行音頻幀劃分,將其劃分為M 個不同的幀。
3.2 提取音頻幀的過零率
先計算提取音頻幀的包絡(luò)序列,然后提取音頻幀包絡(luò)序列的過零率。
3.3 提取音頻幀的MFCC(梅爾倒頻系數(shù))系數(shù)
對每一個音頻幀進(jìn)行FFT變換,求得每幀信號的頻率譜,根據(jù)頻率譜求得每個音頻幀的幅度譜;再根據(jù)音頻的參數(shù)設(shè)計一組Mel濾波器;求得濾波器的輸出,并將輸出取對數(shù);將上一步中的輸出作離散余弦變換(DCT),從而求得MFCC(梅爾倒頻系數(shù))系數(shù),最后組成MFCC(梅爾倒頻系數(shù))系數(shù)序列。
3.4 提取音頻幀的譜質(zhì)心
分別對M個音頻幀進(jìn)行傅里葉變換,將其轉(zhuǎn)換到頻域得到M個音頻幀頻譜;將每個音頻幀頻譜劃分為L個子帶,并分別計算頻譜子帶的質(zhì)心;將頻譜子帶質(zhì)心歸一化,組成譜質(zhì)心序列。
3.5 計算歸一化譜質(zhì)心序列的相關(guān)函數(shù)
分別對兩個音頻譜質(zhì)心序列進(jìn)行離散傅里葉變換得到序列XA和XB序列;取序列XA的共軛并與序列XB逐元素相乘得到序列XC;對序列XC進(jìn)行逆離散傅里葉變換得到兩路音頻的相關(guān)函數(shù)序列;對相關(guān)函數(shù)序列重新進(jìn)行排序,取出序列的后半部分與前半部分重新拼接成新的相關(guān)函數(shù)序列;對相關(guān)函數(shù)序列進(jìn)行歸一化處理,并求得最大的相關(guān)系數(shù)。
3.6 計算音頻時域序列的相關(guān)函數(shù)
根據(jù)計算歸一化譜質(zhì)心序列的相關(guān)函數(shù)的方法求預(yù)處理后音頻時域序列的相關(guān)函數(shù);對相關(guān)函數(shù)序列進(jìn)行歸一化處理,并求得最大的相關(guān)系數(shù)。
3.7 計算過零率序列的相關(guān)函數(shù)
根據(jù)計算歸一化譜質(zhì)心序列的相關(guān)函數(shù)的方法求過零率序列的相關(guān)函數(shù);對相關(guān)函數(shù)序列進(jìn)行歸一化處理,并求得最大的相關(guān)系數(shù)。
3.8 計算MFCC(梅爾倒頻系數(shù))系數(shù)序列的相關(guān)函數(shù)
根據(jù)計算歸一化譜質(zhì)心序列的相關(guān)函數(shù)的方法求MFCC(梅爾倒頻系數(shù))系數(shù)序列的相關(guān)函數(shù);對相關(guān)函數(shù)序列進(jìn)行歸一化處理,并求的最大的相關(guān)系數(shù)。
3.9 計算音頻信號延遲
記錄譜質(zhì)心序列、過零率序列和MFCC(梅爾倒頻系數(shù))序列的相關(guān)函數(shù)最大位置和中點位置;相關(guān)函數(shù)最大位置與中點位置的差值乘以音頻信號采樣頻率來求的延遲時間,求三個延遲的平均值即為信號延遲時間。
3.10 重新對齊音頻信號
如果兩路音頻信號存在延遲,剪切延遲時間,將兩路信號重新對齊,重新執(zhí)行3.2~3.7內(nèi)的步驟;如果兩路音頻信號不存在延遲,直接執(zhí)行下一步。
3.11 獲得音頻信號相關(guān)系數(shù)
選擇譜質(zhì)心相關(guān)系數(shù)、時域相關(guān)系數(shù)、過零率相關(guān)系數(shù)和MFCC(梅爾倒頻系數(shù))相關(guān)系數(shù),采用加權(quán)的方式求得音頻的相關(guān)系數(shù)。
通過這個算法,我們可以實現(xiàn)對音頻內(nèi)容的判斷,把這個算法封裝成庫文件,應(yīng)用軟件將要比對的兩路音頻送給庫文件的接口,并讀取返回的相似度的數(shù)值。根據(jù)最大的相似度數(shù)值判別音頻內(nèi)容是否一致。
4? 算法仿真實驗
本算法的效果可以通過下面的仿真實驗得到進(jìn)一步證明。
4.1 仿真條件
本發(fā)明的仿真平臺用Inter(R)Core(TM)i5-8250U 1.6GHz,內(nèi)存為8GB,運行Windows10專業(yè)版的PC機(jī),開發(fā)工具為Microsoft Visual Studio2010。
4.2 仿真內(nèi)容與結(jié)果分析
仿真實驗是對從設(shè)備上不同的兩個通道,直接采集的相同音頻信號進(jìn)行處理,采樣頻率為:22050Hz,其中一路音頻信號相對另一路有延遲。
如圖1所示,為利用本文所述的音頻比對算法計算的,從設(shè)備不同通道中采集相同的兩段音頻信號,逐段比對的相關(guān)系數(shù)分布圖,從圖中可以看出兩路音頻信號的相關(guān)系數(shù)基本穩(wěn)定在0.3~0.6之間,有很強(qiáng)的相關(guān)性,可以有效的對音頻信號進(jìn)行比對。實現(xiàn)對音頻內(nèi)容是否一致的判斷。
5? 結(jié)語
實現(xiàn)音頻比對的功能有很多不同的方法,尤其是最近一兩年來,各種實現(xiàn)的比對算法層出不窮。像音頻聲紋比對識別技術(shù)、基于時域相似度算法、基于頻域相似度的算法、還有現(xiàn)在最流行的時頻分析法,如Gabor變換、小波變換等等。各有各自的優(yōu)缺點。這些都是對語音信號處理的研究。音頻內(nèi)容的比對只是其中一個簡單的應(yīng)用。語音信號處理技術(shù)正處于蓬勃發(fā)展的時期,不斷有新產(chǎn)品被研發(fā)出來、市場需求逐漸增加,具有良好的應(yīng)用前景。伴隨著人工智能、機(jī)器人的發(fā)展,語音識別成為熱門研究課題,語音的信號處理技術(shù)正發(fā)揮越來越重要的作用,并且出現(xiàn)了新的研究方向,例如語音檢索技術(shù)、語音的訓(xùn)練與矯正技術(shù)、語種的識別技術(shù)、語音的情感處理研究等等。
參考文獻(xiàn)
[1] 韓紀(jì)慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學(xué)出版社,2013.
[2] 趙力.語言信號處理[M].北京:機(jī)械工業(yè)出版社,2018.
[3] 嚴(yán)勤,呂勇.語言信號處理與識別[M].北京:防工業(yè)出版社,2015.