梅鐵民,路瑞茜
(沈陽(yáng)理工大學(xué) 自動(dòng)化與電氣工程學(xué)院,沈陽(yáng) 110159)
?
一種音頻分類算法
梅鐵民,路瑞茜
(沈陽(yáng)理工大學(xué) 自動(dòng)化與電氣工程學(xué)院,沈陽(yáng) 110159)
在綜合分析了不同音頻信號(hào)的有效區(qū)別性特征后,根據(jù)低能量幀率和子帶能量在不同音頻信號(hào)中的特征,對(duì)音頻信號(hào)分類算法進(jìn)行了研究。提出了一種綜合利用低能量幀率和子帶能量比的音頻信號(hào)分類算法。通過仿真和實(shí)驗(yàn),對(duì)連續(xù)噪聲信號(hào)、音樂信號(hào)、語音信號(hào)進(jìn)行了分類,結(jié)果證明該算法具有較好的分類效果。
音頻分類;低能量幀率;子帶能量比
不同音頻信號(hào)具有明顯不同的信號(hào)特征,音頻信號(hào)分類就是根據(jù)這些特征對(duì)一段包含多種不同聲音(如語音、音樂、噪聲等)的錄音信號(hào)進(jìn)行分門別類,從而可以對(duì)不同聲音實(shí)現(xiàn)快速檢索、識(shí)別等工作,因此它在音頻檢索、語音文本轉(zhuǎn)換、語音識(shí)別等方面有著重要應(yīng)用。在這些應(yīng)用中,音頻分類作為音頻信號(hào)的一種預(yù)處理手段,它的準(zhǔn)確性和可靠性直接影響著后續(xù)工作能否順利進(jìn)行以及工作效率的高低。當(dāng)前的音頻信號(hào)分類方法大多采用基于各種音頻信號(hào)的不同特征值的分類模式進(jìn)行分類,常用的特征值有低過零率、低能量幀率、子帶能量比、功率譜、倒譜、梅爾頻率倒譜系數(shù)等[1-3]。然而這些方法的可靠性和準(zhǔn)確率有待提高,此外,有些技術(shù)由于計(jì)算量大,不具備實(shí)時(shí)性。
文中通過分析音頻信號(hào)的時(shí)域及頻域特征,選取低能量幀率、子帶能量比這兩個(gè)特征進(jìn)行進(jìn)一步綜合分析。在文獻(xiàn)[4]的基礎(chǔ)上,文中采用較好的子帶劃分方法,進(jìn)行子帶能量比的計(jì)算,得到更明顯的音頻類別的區(qū)分特征,實(shí)現(xiàn)音頻信號(hào)的有效實(shí)時(shí)分類。所選取的特征參數(shù)具有計(jì)算量小、結(jié)果直觀可見,且算法具有簡(jiǎn)單容易理解的特點(diǎn)。
通常情況下語音信號(hào)不能用處理平穩(wěn)信號(hào)的信號(hào)處理方法進(jìn)行處理,因?yàn)槠涮卣鲄?shù)是時(shí)變的、非平穩(wěn)的,但是語音信號(hào)具有短時(shí)平穩(wěn)特性,即在一個(gè)短時(shí)間內(nèi)是相對(duì)穩(wěn)定的?;谶@個(gè)特性常采用分幀[5]的方法對(duì)語音信號(hào)進(jìn)行分析,所謂分幀就是通過加窗的方法將信號(hào)分成若干個(gè)小段(通常為10~30ms,本文為20ms),每小段為一幀。對(duì)每一幀信號(hào)進(jìn)行分析計(jì)算得到相應(yīng)的特征參數(shù)序列,從宏觀上可得到整段音頻信號(hào)的特征。
基于發(fā)聲特點(diǎn)和說話特點(diǎn),語音信號(hào)通常具有短暫的靜音區(qū)間,使得語音信號(hào)具有較高的低能量幀率。音樂信號(hào)相比較來說比語音信號(hào)連續(xù)很多,有較低的低能量幀率。噪聲信號(hào)通常是連續(xù)的,其低能量幀率最低。文中首先根據(jù)三類音頻的這一特征,利用低能量幀率進(jìn)行算法的第一步計(jì)算。
音頻信號(hào)在頻域上可以劃分成若干個(gè)子帶,不同的音頻信號(hào)在每個(gè)子帶上的能量分布有所不同。其中語音信號(hào)主要分布在低頻區(qū),音樂信號(hào)和噪聲信號(hào)分布的頻域范圍較寬廣,即語音信號(hào)能量主要在第一子帶,音樂信號(hào)能量在第一子帶的分布較少,噪聲信號(hào)在各個(gè)子帶有較均勻的分布。因此,在將信號(hào)進(jìn)行子帶劃分以后子帶能量比的比值也是將音頻信號(hào)分類的一個(gè)特征。
1.1 短時(shí)能量
短時(shí)能量[6]即一幀信號(hào)的能量值,其計(jì)算公式為
(1)
式中:x(n)為輸入音頻信號(hào);n表示第n幀音頻信號(hào);w(n)為窗函數(shù);h(n)=w2(n);E(n)表示所計(jì)算信號(hào)的短時(shí)能量值。根據(jù)式(1)可以將短時(shí)能量看作是語音信號(hào)平方后通過一個(gè)線性濾波器輸出的值,該濾波器的單位沖激響應(yīng)為h(n),線性濾波過程如圖1所示。
圖1 語音信號(hào)線性濾波過程
實(shí)驗(yàn)中,選擇三種不同類型的音頻信號(hào)進(jìn)行比較和分析,分別是噪聲信號(hào)、音樂信號(hào)和語音信號(hào)。這三種音頻信號(hào)的典型短時(shí)能量波形圖分別如圖2~圖4所示。
圖2 噪聲信號(hào)的短時(shí)能量波形圖
圖3 音樂信號(hào)的短時(shí)能量波形圖
圖4 語音信號(hào)的短時(shí)能量波形圖
對(duì)比圖2~圖4可以看出,噪聲信號(hào)的短時(shí)能量波動(dòng)幅度很小,基本維持在其自身能量的較大值范圍內(nèi);由于說話特點(diǎn),語音信號(hào)字與字之間存在短暫停頓,因此存在較多的低能量段,若設(shè)定一個(gè)閾值,則低于該閾值的語音段所占比例較大;音樂信號(hào)的短時(shí)能量波動(dòng)范圍在兩者之間,若設(shè)定一個(gè)閾值,能量低于該閾值的時(shí)間比例相比較語音信號(hào)明顯較少。由圖2~圖4可以明顯看出三者的短時(shí)能量特征。為了更簡(jiǎn)單直觀地進(jìn)行比較和計(jì)算,引進(jìn)了低能量幀率這一概念。低能量幀率用數(shù)字的形式將音頻信號(hào)短時(shí)能量的波動(dòng)特點(diǎn)體現(xiàn)出來。
1.2 低能量幀率
在一段音頻信號(hào)中,由于能量值的不同,如果設(shè)置一個(gè)閾值,則能量值低于這個(gè)閾值的幀占這段音頻信號(hào)總幀數(shù)的比例稱為低能量幀率[7](low energy frame ratio)。低能量幀率是在音頻段上將音頻信號(hào)能量的規(guī)律以數(shù)字的形式直觀地表示出來,其計(jì)算公式如下:
(2)
式中:N表示該段音頻信號(hào)中的幀總數(shù);E(n)表示第n幀的短時(shí)能量值;Eavg是計(jì)算該片段中幀的總能量后得到的均值;r是閾值系數(shù),可以控制閾值的高低。取rEavg作為閾值的好處是閾值根據(jù)每段信號(hào)取不同的值,具有針對(duì)性。閾值系數(shù)r取不同值時(shí)三種音頻的低能量幀率值如表1所示。
表1 不同閾值下的三種音頻信號(hào)的低能量幀率
由表1看出,典型的連續(xù)噪聲信號(hào)、音樂信號(hào)、語音信號(hào)的低能量幀率依次增高。對(duì)于同一信號(hào),不同閾值對(duì)應(yīng)的低能量幀率值變化不大。只要閾值選擇合適,可以保證不同音頻信號(hào)低能量幀率變化在不同的范圍內(nèi),基本互不重合。因此可以利用低能量幀率初步區(qū)分出三類信號(hào),完成算法的第一步。然而,這是針對(duì)一般情況的,不能準(zhǔn)確確定音頻類型,因此需要進(jìn)一步用其他特征值進(jìn)行分析,進(jìn)而引入子帶能量比。
1.3 子帶能量比
子帶能量比[8]是信號(hào)在頻域上分布均勻性的描述。將頻域劃分為若干個(gè)子帶,不同的音頻信號(hào)因頻率特性的不同,分布情況也會(huì)有所不同。語音信號(hào)絕大部分能量分布在第一子帶;音樂信號(hào)的分布區(qū)域較寬廣,可能大部分能量分布在兩個(gè)子帶,甚至因樂器的不同可能分布在第三或第四子帶;連續(xù)白噪聲信號(hào)則基本均勻分布在整個(gè)頻域范圍內(nèi)[9]。由于語音信號(hào)的短時(shí)平穩(wěn)性,將音頻信號(hào)進(jìn)行分段,每一小段取20ms,進(jìn)行傅里葉變換。進(jìn)行仿真發(fā)現(xiàn)其頻譜基本在fs/4以內(nèi),因此根據(jù)人耳的聽覺特性具有對(duì)數(shù)增長(zhǎng)的特性,在fs/4頻帶內(nèi)將頻譜進(jìn)行非均勻劃分,得到4個(gè)子帶sbj(j=1,2,3,4),對(duì)四個(gè)子帶的頻率區(qū)間分別取[0,ω0/8]、[ω0/8,ω0/4]、[ω0/4,ω0/2]、[ω0/2,ω0],其中ω0=fs/4 。子帶能量比的計(jì)算方法如下:
(3)
表2 不同音頻類型的子帶能量比
綜合圖2~圖4和表2數(shù)據(jù)可以看出,連續(xù)噪聲信號(hào)的能量在fs/4內(nèi)的頻域上分布基本均勻;音樂信號(hào)的能量在各個(gè)子帶都有分布,第一子帶占大部分比重,但相比較而言音樂信號(hào)在第二子帶也有一定的能量分布;語音信號(hào)的能量幾乎都分布在第一子帶。
在圖5~圖7中給出了三種不同音頻信號(hào)的典型功率譜。
圖5 噪聲信號(hào)的功率譜密度
圖6 音樂信號(hào)的功率譜密度
圖7 語音信號(hào)的功率譜密度
實(shí)驗(yàn)中所用測(cè)試數(shù)據(jù)共90段音頻,共計(jì)150min,其中30段語音信號(hào),30段音樂信號(hào)和30段噪聲信號(hào)。本文采用的音頻數(shù)據(jù)采樣率為44.1kHz,量化精度為16bit。
本文的算法主要分為兩部分,首先根據(jù)噪聲信號(hào)、語音信號(hào)和音樂信號(hào)的低能量幀率的特點(diǎn),噪聲信號(hào)的低能量幀率明顯低于音樂信號(hào)和語音信號(hào),閾值系數(shù)r取值0.5時(shí),根據(jù)表1的數(shù)據(jù),當(dāng)LER小于0.3的時(shí)候判斷該信號(hào)為噪聲信號(hào)。對(duì)于LER大于0.3的部分信號(hào),將閾值系數(shù)r設(shè)為0.3,重新計(jì)算LER,這時(shí)若LER大于0.4,則判斷為語音信號(hào),否則判斷為音樂信號(hào)。通過以上步驟,初步對(duì)語音和音樂信號(hào)進(jìn)行了分類,但是由于語音和音樂信號(hào)有時(shí)低能量幀率值不是絕對(duì)界限分明的,可能出現(xiàn)混疊的現(xiàn)象,因此需要進(jìn)行進(jìn)一步判斷。根據(jù)語音信號(hào)和音樂信號(hào)頻域能量特性的不同,利用子帶能量比對(duì)語音和音樂信號(hào)進(jìn)行分類。對(duì)于初步判斷為噪聲的信號(hào)再確認(rèn)是否第一子帶和第二子帶的子帶能量比相差不大于0.2,若滿足該條件則信號(hào)為噪聲信號(hào),若不滿足則判別為音樂信號(hào);對(duì)初步分類為音樂信號(hào)的音頻信號(hào)再確認(rèn)是否滿足第一子帶能量比小于0.9,若滿足則該信號(hào)為音樂信號(hào),若不滿足則為語音信號(hào);對(duì)初步分類為語音信號(hào)的音頻信號(hào)確認(rèn)是否滿足第一子帶的子帶能量比大于0.9,若滿足則該段為語音信號(hào),若不滿足則該段信號(hào)為音樂信號(hào)。用上述算法對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類結(jié)果如表3所示。
表3 分類結(jié)果
從表3看出,分類具有較好的效果。其中噪聲的分類效果較差,出現(xiàn)漏判的原因是少量噪聲信號(hào)中間存在時(shí)間間隔,造成低能量幀率較高,加上特定的聲音如掌聲、撞擊聲頻率偏高或偏低會(huì)影響判斷效果。音樂信號(hào)出現(xiàn)誤判的原因是音樂信號(hào)中往往混合著歌聲或其他形式的語音成分,這對(duì)音樂信號(hào)的準(zhǔn)確分類造成了一定的影響。此外,音樂信號(hào)由于音樂器材的類型不同,所在頻域范圍不同,信號(hào)的特征也存在差異。語音信號(hào)出現(xiàn)誤判的原因是語音信號(hào)能量值低或語速過快時(shí)會(huì)導(dǎo)致低能量幀率偏低??梢酝ㄟ^改變閾值(改變閾值系數(shù)r的值)和改變子帶劃分方式的方法提高分類準(zhǔn)確率。
分析了音頻信號(hào)的時(shí)域和頻域特征,選取低能量幀率和子帶能量比兩個(gè)特征進(jìn)行不同音頻的比較從而進(jìn)行分類。將兩者結(jié)合起來,首先用低能量幀率進(jìn)行初步判斷,低能量幀率很低的是噪聲信號(hào),在不同閾值下低能量幀率值差別大的是音樂信號(hào)。然后用子帶能量比進(jìn)一步分析判斷,分布在低頻區(qū)的是語音信號(hào),分布均勻的是噪聲信號(hào),主要能量在中高頻的是音樂信號(hào)。實(shí)驗(yàn)結(jié)果表明,本文的算法思路清晰,計(jì)算量小,效果較好。
[1]石家瑞.基于內(nèi)容的音頻檢索[D].天津:天津大學(xué),2002.
[2]Song Y Q,Zhang C S,Lee J G.Semi-supervised discriminative classification with application to tumorous tissues segmentation of MR brain images[J].Pattern Analysis &Applications,2009,12(2):99-115.
[3]吳海霞,李艷玲,劉潞鋒.基于內(nèi)容和旋律的音頻片段識(shí)別與檢索[J].太原師范學(xué)院學(xué)報(bào),2015,14(2):33-39.
[4]崔玉強(qiáng).基于內(nèi)容的音頻分類方法研究[D].武漢:華中科技大學(xué),2007.
[5]趙力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版,2003.
[6]韓紀(jì)慶,馮濤,鄭貴濱,等.音頻信息處理技術(shù)[M].北京:國(guó)防工業(yè)出版社,2007.
[7]吳順妹,許麗靜,許洪光,等.一種基于音調(diào)的語音/音樂實(shí)時(shí)分類算法[J].電聲技術(shù),2010,34(2):66-68.
[8]曹梅雙,曾慶寧,陳芙蓉.基于子帶能量的語音端點(diǎn)檢測(cè)方法研究[J].大眾科技,2009,114(2):53-54.
[9]孟永輝,蔣冬梅,付中華,等.一種新穎的語言/音樂分割與分類方法[J].計(jì)算機(jī)工程與科學(xué),2009,31(4):106-109.
(責(zé)任編輯:馬金發(fā))
An Algorithm for Real-time Audio Classification
MEI Tiemin,LU Ruiqian
(Shenyang Ligong University,Shenyang 110159,China)
Audio signal classification plays an important role in audio signal processing,and is an important previous job in many audio signal analysis progress.After a comprehensive analysis of the effective distinguishing features for different audio signals,audio classification research is carried out.A new audio classification algorithm is proposed according to the low-energy frame rate and sub-band energy in the different audio signals.Simulation results show that the proposed algorithm is of low complexity and high classification accuracy.
audio classification;low-energy frame rate;sub-band energy rate
2015-10-16
梅鐵民(1964—),男,教授,博士,研究方向:自適應(yīng)信號(hào)處理。
1003-1251(2016)05-0023-05
TN911
A