李 應(yīng) 陳秋菊
?
基于優(yōu)化的正交匹配追蹤聲音事件識(shí)別
李 應(yīng)*陳秋菊
(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院 福州 350116)
針對(duì)各種環(huán)境聲對(duì)聲音事件識(shí)別的影響,該文提出一種基于優(yōu)化的正交匹配追蹤(Orthogonal Matching Pursuit, OMP)聲音事件識(shí)別方法。首先,利用OMP稀疏分解并重構(gòu)聲音信號(hào),保留聲音信號(hào)的主體部分,減小噪聲的影響。其中,使用粒子群(Particle Swarm Optimization, PSO)算法優(yōu)化搜索最優(yōu)原子,實(shí)現(xiàn)OMP的快速稀疏分解。接著,對(duì)重構(gòu)聲音信號(hào)提取Mel頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCCs),與OMP時(shí)-頻特征和基頻(PITCH)特征,組成優(yōu)化OMP的復(fù)合特征。最后,通過(guò)優(yōu)化OMP復(fù)合特征,使用隨機(jī)森林(Random Forests, RF)對(duì)40種聲音事件在不同環(huán)境不同信噪比下進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,優(yōu)化OMP復(fù)合特征結(jié)合RF的方法能有效地識(shí)別各種環(huán)境下的聲音事件。
聲音事件識(shí)別;正交匹配追蹤;稀疏分解;粒子群優(yōu)化;隨機(jī)森林
近年來(lái)聲音事件識(shí)別引起廣泛的關(guān)注。聲音事件的識(shí)別在音頻取證[1]、環(huán)境聲音識(shí)別[2]、聲場(chǎng)景分析[3]、環(huán)境安全監(jiān)控[4]、定位跟蹤和聲源分類[5]、病人監(jiān)護(hù)[6]和非正常事件檢測(cè)[7]等領(lǐng)域具有重要意義。
上述方法在聲音事件識(shí)別上取得一定的效果。然而,真實(shí)環(huán)境中存在著復(fù)雜多變的噪聲,它們對(duì)聲音事件識(shí)別產(chǎn)生較大的干擾。常用的降低噪聲影響的方法有維納濾波[13],卡爾曼濾波[14],小波增強(qiáng)[15],多頻帶譜減法[16]等。這些方法需要先驗(yàn)地獲得待檢測(cè)信號(hào)或噪聲信號(hào)的統(tǒng)計(jì)特性。基于匹配追蹤(Matching Pursuit, MP)的方法利用信號(hào)的稀疏性,將信號(hào)稀疏分解重構(gòu)進(jìn)行自適應(yīng)表示,不需要先驗(yàn)地獲得待檢測(cè)信號(hào)和噪聲信號(hào)的統(tǒng)計(jì)特性,適合于各種環(huán)境下聲音事件的識(shí)別。
關(guān)于MP的研究,主要有:Chu等人[17]把MP結(jié)合Mel頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCCs),用kNN和高斯混合模型(Gaussian Mixture Model, GMM)分類器對(duì)聲音事件進(jìn)行分類識(shí)別;Wang等人[18]利用MP從Gabor字典中選擇重要的原子,用主成分分析(Principal Component Analysis, PCA)和線性判別分析(Linear Discriminant Analysis, LDA)確定聲音事件的特征,采用SVM分類器對(duì)聲音事件進(jìn)行分類識(shí)別;Mallat等人[19]提出利用過(guò)完備原子字典將原信號(hào)進(jìn)行稀疏分解,通過(guò)稀疏逼近重構(gòu)信號(hào)。由于MP在稀疏分解時(shí)需要迭代次數(shù)較多,收斂較慢,文獻(xiàn)[20]在MP的基礎(chǔ)上提出正交匹配追蹤(Orthogonal Matching Pursuit, OMP)算法,該算法可以在較少的迭代中完成信號(hào)的收斂。
然而,OMP稀疏分解在搜索最優(yōu)原子時(shí)存在計(jì)算復(fù)雜度高的問(wèn)題。為了實(shí)現(xiàn)OMP快速稀疏分解,本文提出基于優(yōu)化的OMP聲音事件識(shí)別方法。首先,從聲音事件樣本庫(kù)中選擇聲音事件,將其分為訓(xùn)練樣本集和測(cè)試樣本集;然后,在保證收斂精度的前提下,采用粒子群優(yōu)化算法(Particle Swarm Optimization, PSO)對(duì)選擇的樣本進(jìn)行OMP稀疏分解;接著,對(duì)重構(gòu)信號(hào)提取優(yōu)化OMP復(fù)合特征;最后,使用隨機(jī)森林[21](Random Forests, RF)對(duì)優(yōu)化OMP復(fù)合特征進(jìn)行分類識(shí)別。為此,本文進(jìn)行如下組織:第2節(jié)介紹OMP稀疏分解重構(gòu)的基本原理;第3節(jié)提出基于優(yōu)化的OMP聲音事件識(shí)別架構(gòu);第4節(jié)給出各種環(huán)境下,聲音事件識(shí)別的實(shí)驗(yàn)設(shè)計(jì);第5節(jié)為實(shí)驗(yàn)的結(jié)果與分析;第6節(jié)對(duì)本文進(jìn)行總結(jié)。
OMP算法在MP算法的基礎(chǔ)上利用Gram- Schmidt方法將選擇的最優(yōu)原子與已選擇原子集合進(jìn)行正交化處理,以保證在相同精度的前提下,收斂速度更快。
2.1 OMP字典
實(shí)現(xiàn)OMP稀疏分解的關(guān)鍵在于選擇一個(gè)過(guò)完備的字典。本文選擇的Gabor字典[19]是由一個(gè)調(diào)制的高斯窗函數(shù)構(gòu)成。
(2)
圖1 不同時(shí)-頻參數(shù)的原子波形
2.2 OMP信號(hào)稀疏分解
(4)
即對(duì)聲音信號(hào)進(jìn)行OMP稀疏分解重構(gòu)。
如果以重構(gòu)信號(hào)和原始信號(hào)的均方誤差(Mean Squared Error, MSE)
圖2為褐雨燕聲音信號(hào)經(jīng)過(guò)OMP稀疏分解重構(gòu)后的質(zhì)量MSE圖。從圖2中可以看出,隨著稀疏度增加,MSE值逐漸減小,即重構(gòu)信號(hào)的質(zhì)量越來(lái)越好。當(dāng)稀疏度在10以上時(shí),MSE下降逐漸平緩,并且逐漸趨于0。
3.1 PSO最優(yōu)原子搜索策略
PSO的基本思想是利用粒子之間的協(xié)作與競(jìng)爭(zhēng),實(shí)現(xiàn)對(duì)復(fù)雜空間最優(yōu)解的搜索[22,23]。在每一次的搜索中,粒子通過(guò)跟蹤兩個(gè)“極值”來(lái)更新自己的信息,一個(gè)是當(dāng)前粒子的極值點(diǎn);另一個(gè)是當(dāng)前整個(gè)粒子種群找到的最優(yōu)解,即全局極值點(diǎn)。
圖2 OMP稀疏分解重構(gòu)信號(hào)的MSE
對(duì)OMP稀疏分解,瓶頸主要集中在2.2節(jié)步驟(2)的最優(yōu)原子搜索過(guò)程。為此,我們利用PSO對(duì)最優(yōu)原子搜索過(guò)程進(jìn)行優(yōu)化。
PSO優(yōu)化搜索詳細(xì)過(guò)程如下:
(2)更新每個(gè)粒子的速度與位置。判斷粒子的速度是否超出界限,如果出界更新;判斷粒子的位置是否在過(guò)完備原子字典中,如果不在,則取邊界值代替粒子的位置。
(10)
重復(fù)多次上述過(guò)程,實(shí)現(xiàn)優(yōu)化的OMP信號(hào)稀疏分解,保存分解結(jié)果并重構(gòu)信號(hào)。
3.2 優(yōu)化OMP復(fù)合特征提取
OMP稀疏分解采用的Gabor原子是由調(diào)制的高斯窗函數(shù)構(gòu)成,而高斯型函數(shù)在時(shí)域和頻域都是局部化的,其局部特性保證了原子時(shí)-頻參數(shù)能夠較好地刻畫(huà)信號(hào)的非平穩(wěn)時(shí)變特性。OMP稀疏分解將待提取的有用信息作為稀疏成分,將噪聲作為殘差成分,對(duì)噪聲進(jìn)行低維投影后,噪聲不具有稀疏性[24]。在重構(gòu)信號(hào)時(shí),殘差部分的噪聲很難恢復(fù),從而達(dá)到消除噪聲成分,增強(qiáng)聲音事件信號(hào)的目的。
通過(guò)優(yōu)化OMP稀疏分解聲音信號(hào),獲得表示該信號(hào)的時(shí)-頻參數(shù)組中伸縮因子和頻率因子的均值和標(biāo)準(zhǔn)差,構(gòu)成OMP特征。對(duì)于長(zhǎng)度為幀的聲音信號(hào),,,其中,第幀OMP特征可以表示為
對(duì)于聲音信號(hào),重構(gòu)精度隨著稀疏度的增加而不斷提升。但是,稀疏度過(guò)高,在重構(gòu)聲音信號(hào)主體時(shí),噪聲信號(hào)的重構(gòu)比例也會(huì)相應(yīng)地提升。所以,在保證重構(gòu)精度的前提下,本文經(jīng)過(guò)實(shí)驗(yàn)確定OMP稀疏分解稀疏度為20時(shí)重構(gòu)效果最好。
由于OMP特征維數(shù)較少,單獨(dú)使用OMP特征的識(shí)別效果不理想。MFCCs將線性頻譜映射到基于聽(tīng)覺(jué)感知的Mel非線性頻譜中再轉(zhuǎn)換到倒譜上,能夠較好地刻畫(huà)聲音特征,但是在噪聲環(huán)境下,MFCCs的性能大幅下降。此外,真實(shí)環(huán)境中不同聲音存在不同的PITCH范圍,而PITCH作為特征描述聲音具有很好的區(qū)分性。針對(duì)這些問(wèn)題,本文提取優(yōu)化OMP稀疏分解后重構(gòu)聲音信號(hào)的MFCCs特征和PITCH特征,來(lái)補(bǔ)充OMP特征,組成一個(gè)優(yōu)化OMP復(fù)合特征。
3.3 RF識(shí)別
RF是一種利用多個(gè)決策樹(shù)分類器來(lái)對(duì)數(shù)據(jù)進(jìn)行判別的集成分類器算法[21]。其原理是通過(guò)自助重采樣(Bootstrap)技術(shù)[21],對(duì)原始訓(xùn)練樣本集有放回地隨機(jī)抽樣次,生成新的個(gè)訓(xùn)練數(shù)據(jù)集。然后這些新生成的個(gè)訓(xùn)練數(shù)據(jù)集,按照決策樹(shù)的構(gòu)建方法生長(zhǎng)成棵決策樹(shù),并組合在一起形成森林。測(cè)試數(shù)據(jù)的判別結(jié)果由森林中棵樹(shù)投票形成的分?jǐn)?shù)而定。
本文通過(guò)提取的優(yōu)化OMP復(fù)合特征訓(xùn)練RF,進(jìn)行各種環(huán)境下聲音事件的識(shí)別。使用RF對(duì)未知測(cè)試樣本的識(shí)別過(guò)程如下:首先,將待測(cè)試聲音樣本的特征置于RF中所有棵決策樹(shù)的根節(jié)點(diǎn)處;然后,按照決策樹(shù)的分類規(guī)則,從根節(jié)點(diǎn)處向下傳遞到一個(gè)葉節(jié)點(diǎn)處,這個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)的類標(biāo)簽就是這棵決策樹(shù)對(duì)特征所屬類別所做的投票;最后,RF中的棵決策樹(shù)均對(duì)每一個(gè)待測(cè)試聲音樣本的特征的類別進(jìn)行投票,統(tǒng)計(jì)這個(gè)投票,其中票數(shù)最多的便成為特征對(duì)應(yīng)的類標(biāo)。
4.1聲音樣本
實(shí)驗(yàn)采用的40類聲音均來(lái)自Freesound[25]聲音數(shù)據(jù)庫(kù)。分為哺乳動(dòng)物叫聲、鳥(niǎo)叫聲和昆蟲(chóng)叫聲3大類,每類聲音有30個(gè)樣本,具體如表1所示。每個(gè)樣本是單聲道“.wav”格式,采樣率為44.1 kHz,聲音長(zhǎng)度為2 s,量化精度為16位的聲音片段。為了保持實(shí)驗(yàn)數(shù)據(jù)的相對(duì)獨(dú)立性,訓(xùn)練聲音樣本和測(cè)試聲音樣本沒(méi)有重復(fù)數(shù)據(jù)。從每一類樣本中隨機(jī)選取20個(gè)純凈聲音樣本作為訓(xùn)練樣本,剩余的10個(gè)樣本混合不同的環(huán)境噪聲組成多組測(cè)試樣本。實(shí)驗(yàn)用到的3種噪聲為SONY ICD-UX512F錄音棒以44.1 kHz的采樣頻率錄取的真實(shí)環(huán)境噪聲,分別為風(fēng)聲、雷雨聲和雨天湖邊聲。按信噪比0 dB, 10 dB, 20 dB, 30 dB混入純凈聲音用于測(cè)試。
表1聲音事件樣本集
類別聲音構(gòu)成種類樣本數(shù) 哺乳動(dòng)物蝙蝠、熊、貓、猩猩、奶牛、鹿、狗、海豚、驢、大象、獅子、猴子、馬、豬、海豹、海獅、羊、老虎、鯨、羚羊、狼21630 鳥(niǎo)類赭紅尾鴝、禿鷹、烏鴉、杜鵑、鴿子、喜鵲、貓頭鷹、海鷗、鴨子、天鵝、燕鷗、褐雨燕、知更鳥(niǎo)13390 昆蟲(chóng)蜜蜂、蚊子、蟋蟀、蟬、蚱蜢、蒼蠅6180 環(huán)境噪聲風(fēng)聲、雨天湖邊聲、雷雨聲33
4.2 參數(shù)設(shè)定
(1)提取MFCCs特征中,采用24階Mel三角帶通濾波器組,提取12維離散余弦變換系數(shù),加上對(duì)數(shù)能量作為第13維特征;采用循環(huán)平均幅度差函數(shù)(Circle Average Magnitude Difference Function, CAMDF)提取每幀聲音信號(hào)的1維PITCH特征;對(duì)于APNCC特征,采用32階的Gammatone濾波器,提取12維離散余弦變換系數(shù)。
(2)PSO算法中的參數(shù)根據(jù)文獻(xiàn)[22,23]以及多次實(shí)驗(yàn)的經(jīng)驗(yàn)做如下設(shè)定:種群大小為20,最大迭代次數(shù)為20次,粒子搜索范圍最大值為聲音長(zhǎng)度,速度最大值為,收斂因子為0.729,學(xué)習(xí)因子為2,權(quán)重最大值為0.95,最小值為0.4,變異概率為0.2。
(3)在對(duì)比實(shí)驗(yàn)中用到APNCC方法[11]和MP方法[18]。其中,APNCC方法[11]是對(duì)聲音信號(hào)提取APNCC特征,放入SVM分類器進(jìn)行分類識(shí)別;MP方法[18]是采用PCA和LDA對(duì)聲音信號(hào)做降維處理后提取MP特征,放入SVM分類器進(jìn)行分類識(shí)別。這兩種方法中用到的SVM分類器參數(shù)設(shè)置是直接利用LIBSVM[26]工具箱進(jìn)行SVM的訓(xùn)練和測(cè)試建模。其中,核函數(shù)為徑向基核函數(shù),懲罰因子,核參數(shù)。
(4) RF分類器中的兩個(gè)參數(shù):決策樹(shù)的個(gè)數(shù)和分類屬性個(gè)數(shù),綜合考慮本文實(shí)驗(yàn)樣本數(shù)量和特征維度以及文獻(xiàn)[21]建議,分別設(shè)置為500和5。
5.1 優(yōu)化OMP稀疏分解計(jì)算量
優(yōu)化OMP稀疏分解和原始OMP稀疏分解計(jì)算量比較。表2給出一個(gè)包含2個(gè)有效音節(jié)、長(zhǎng)度為2 s的山斑鳩聲音信號(hào),在稀疏度為20時(shí),采用原始OMP方法和優(yōu)化OMP方法,對(duì)聲音信號(hào)進(jìn)行稀疏分解時(shí)的計(jì)算量和重構(gòu)信號(hào)的質(zhì)量評(píng)估。其中,重構(gòu)信號(hào)的質(zhì)量評(píng)估采用2.2節(jié)中提到的均方誤差MSE。
從表2可以看出,原始OMP方法的MSE值為0.005,而優(yōu)化OMP方法的MSE值為0.007,比原始OMP方法的MSE值高0.002。也就是說(shuō),在重構(gòu)質(zhì)量相近的前提下,經(jīng)過(guò)PSO優(yōu)化后的OMP方法,在時(shí)耗上比原始OMP提高近70倍,在搜索次數(shù)和內(nèi)積次數(shù)的計(jì)算量上比原始OMP提高近300倍。其機(jī)理在于原始OMP搜索找到全部原子,而PSO優(yōu)化OMP后找到的原子都是最優(yōu)的,原子較少,是原始OMP的部分原子。從而也說(shuō)明了經(jīng)過(guò)PSO優(yōu)化的OMP能有效降低最優(yōu)原子搜索過(guò)程的計(jì)算復(fù)雜度,提高了搜索效率,實(shí)現(xiàn)了OMP的快速稀疏分解。
表2 OMP稀疏分解計(jì)算量與重構(gòu)信號(hào)的質(zhì)量評(píng)估
5.2優(yōu)化OMP稀疏分解對(duì)聲音信號(hào)的增強(qiáng)
優(yōu)化OMP稀疏分解重構(gòu)信號(hào)與小波[15]和多頻帶譜減法[16]兩種聲音增強(qiáng)方法的對(duì)比。圖3(a)和圖3(f)是一段包含2個(gè)有效音節(jié)的山斑鳩聲音信號(hào)的波形和聲譜圖,圖3(b)和圖3(g)是對(duì)該聲音信號(hào)添加10 dB的流水噪聲的波形和聲譜圖。圖3(c)和圖3(h)是采用小波增強(qiáng)對(duì)圖3(b)和圖3(g)進(jìn)行重構(gòu)后的波形和聲譜圖。圖3(d)和圖3(i)是采用多頻帶譜減法進(jìn)行重構(gòu)后的波形和聲譜圖。而圖3(e)和圖3(j)是經(jīng)過(guò)優(yōu)化OMP稀疏分解后進(jìn)行重構(gòu)的波形和聲譜圖。從圖3中可以看出,采用小波增強(qiáng)和多頻帶譜減法對(duì)帶噪聲音信號(hào)增強(qiáng)后,噪聲殘留成分較多。經(jīng)過(guò)優(yōu)化OMP稀疏分解重構(gòu)后,聲音信號(hào)的主體部分得到保留,而與信號(hào)相關(guān)度低的噪聲信號(hào)被去除,聲音增強(qiáng)效果較好。圖3(e)和圖3(j)初步說(shuō)明,優(yōu)化OMP稀疏分解在聲音增強(qiáng)性能上優(yōu)于小波增強(qiáng)和多頻帶譜減法。
圖3 優(yōu)化OMP稀疏分解重構(gòu)信號(hào)與相關(guān)方法的波形和聲譜圖對(duì)比
5.3在無(wú)環(huán)境聲和不同環(huán)境不同信噪比下比較
這里,我們選取OMP特征、MFCCs特征、OMP+MFCCs特征和優(yōu)化OMP復(fù)合特征(表、圖中的CFeature),進(jìn)行識(shí)別率對(duì)比。在無(wú)噪聲條件下進(jìn)行的識(shí)別率實(shí)驗(yàn),結(jié)果如表3所示。由表3可知,在無(wú)噪聲條件下,除了OMP特征外,其它3個(gè)特征對(duì)聲音事件的識(shí)別率都較高。單獨(dú)使用OMP特征,由于特征維數(shù)過(guò)低,識(shí)別效果不理想。而采用OMP特征和MFCCs特征結(jié)合后,識(shí)別效果得到大幅提升,再用PITCH特征補(bǔ)充后,優(yōu)化OMP復(fù)合特征識(shí)別效果達(dá)到最佳。
表3無(wú)噪聲條件下不同特征的比較
方法MFCCsOMPOMP+MFCCsCFeature 識(shí)別率(%)89.053.392.398.5
對(duì)測(cè)試樣本分別添加信噪比為0 dB, 10 dB, 20 dB和30 dB的3種環(huán)境聲,4個(gè)不同特征的平均識(shí)別率如表4所示。從表4中可以看出,MFCCs特征的平均識(shí)別率最低,說(shuō)明MFCCs特征不適合噪聲環(huán)境下的聲音事件識(shí)別。OMP特征的平均識(shí)別率稍好于MFCCs特征,但是效果也不理想。而優(yōu)化OMP復(fù)合特征平均識(shí)別率比MFCCs特征、OMP特征和OMP+MFCCs特征分別高38.5%, 35.2%和11.8%,說(shuō)明經(jīng)過(guò)OMP特征、MFCCs特征和PITCH特征的結(jié)合,形成的優(yōu)化OMP復(fù)合特征,能有效地提高識(shí)別性能,具有較好的抑制環(huán)境噪聲的特性。
表4不同特征在不同噪聲環(huán)境下的平均識(shí)別率
噪聲類型不同特征提取方法的平均識(shí)別率(%) MFCCsOMPOMP+MFCCsCFeature 風(fēng)聲43.947.668.183.7 雷雨聲40.143.673.282.4 雨天湖邊37.740.160.371.2 均值40.543.867.279.0
圖4表示4個(gè)特征在3種環(huán)境聲下,不同信噪比的識(shí)別率。從圖4我們可以看出,不同的噪聲環(huán)境,對(duì)識(shí)別性能的影響不一樣。相比起來(lái),雨天湖邊噪聲環(huán)境對(duì)識(shí)別率的影響最大,而風(fēng)聲和雷雨聲噪聲的影響相對(duì)較小。優(yōu)化OMP復(fù)合特征識(shí)別率遠(yuǎn)高于單獨(dú)的OMP特征和MFCCs特征,也優(yōu)于OMP+MFCCs特征,從而說(shuō)明優(yōu)化OMP復(fù)合特征是一個(gè)較好的特征,適合用于各種環(huán)境下的聲音事件識(shí)別。
5.4不同聲音增強(qiáng)方法在不同環(huán)境和信噪比下比較
利用風(fēng)聲、雷雨聲和雨天湖邊聲來(lái)模擬真實(shí)的環(huán)境聲音。分別對(duì)測(cè)試樣本添加信噪比為0 dB, 10 dB和20 dB的3種環(huán)境聲,提取它們的優(yōu)化OMP復(fù)合特征(圖中的CFeature),同樣,也分別提取它們經(jīng)小波[15]和多頻帶譜減法[16]增強(qiáng)后的兩組MFCCs。采用RF分別對(duì)3組特征進(jìn)行識(shí)別。圖5給出3種方法和不同噪聲環(huán)境下得到的識(shí)別率。從圖5可以看出,3種聲音增強(qiáng)方法中,在各種環(huán)境各種信噪比下,小波增強(qiáng)的性能相對(duì)來(lái)說(shuō)較差,其平均識(shí)別率為42.6%。多頻帶譜減法的平均識(shí)別率為57.6%,而優(yōu)化OMP復(fù)合特征的平均識(shí)別率為69.2%,從而說(shuō)明了在各種環(huán)境及各種信噪比下,優(yōu)化OMP復(fù)合特征抑制噪聲的效果優(yōu)于小波和多頻帶譜減法。
圖4 4種特征在3種噪聲環(huán)境下不同信噪比的識(shí)別率
圖5 3種噪聲環(huán)境下不同方法的識(shí)別率
圖6 本文方法與新方法在3種環(huán)境下的識(shí)別率
表5不同方法3種噪聲下不同信噪比的平均識(shí)別率
方法3種噪聲下不同信噪比的平均識(shí)別率(%) 0 dB10 dB20 dB30 dB均值 本文方法43.771.889.895.275.1 APNCC-SVM[11]33.454.570.176.958.7 MP-SVM[18]18.747.159.467.148.1
5.5 與新方法的比較
我們把優(yōu)化OMP復(fù)合特征結(jié)合RF的方法與文獻(xiàn)[11]中APNCC結(jié)合SVM的方法和文獻(xiàn)[18]中MP結(jié)合SVM的方法分別進(jìn)行比較。在3種噪聲環(huán)境下的識(shí)別效果如圖6所示。同時(shí),在表5中也給出在3種噪聲下,本文方法與APNCC結(jié)合SVM的方法[11]和MP結(jié)合SVM的方法[18]在不同信噪比下的平均識(shí)別率。從圖6及表5可以看出,在3種噪聲環(huán)境下,MP結(jié)合SVM的方法的識(shí)別率最低,尤其在0 dB時(shí),都無(wú)法正常地進(jìn)行聲音事件的識(shí)別。APNCC結(jié)合SVM的方法的識(shí)別效果高于MP結(jié)合SVM的方法,但其識(shí)別效果還是差于本文優(yōu)化OMP復(fù)合特征結(jié)合RF的方法。本文提出的方法,在3種噪聲環(huán)境下,無(wú)論是高信噪比還是低信噪比,識(shí)別率都高于APNCC結(jié)合SVM和MP結(jié)合SVM的方法。
實(shí)驗(yàn)表明,本文提出的優(yōu)化OMP復(fù)合特征結(jié)合RF的聲音事件識(shí)別方法,能有效進(jìn)行各種環(huán)境下不同信噪比聲音事件的識(shí)別。而且在不同環(huán)境不同信噪比下,本文方法與現(xiàn)有的APNCC結(jié)合SVM的方法和MP結(jié)合SVM方法進(jìn)行比較,識(shí)別性能有一定優(yōu)勢(shì)。說(shuō)明本文提出的方法對(duì)于各種環(huán)境下聲音事件識(shí)別具有一定效果。下一階段,我們將結(jié)合聲譜圖等方法,研究分析聲音信號(hào)更為微弱,環(huán)境更為復(fù)雜和信噪比更低的聲音事件識(shí)別。
[1] MALIK H. Acoustic environment identification and its applications to audio forensics[J]., 2013, 8(11): 1827-1837. doi: 10.1109/tifs.2013.2280888.
[2] HEITTOL T, MESAROS A, VIRTANEN T,. Sound event detection in multisource environments using source separation[C]. CHiME 2011 Workshop on Machine Listening in Multisource Environments, Florence, Italy, 2011: 36-40.
[3] SHI Z, HAN J, ZHENG T,. Identification of objectionable audio segments based on pseudo and heterogeneous mixture models[J].,,, 2013, 21(3): 611-623. doi: 10.1109/tasl.2012.2229980.
[4] NTALAMPIRAS S, POTAMITIS I, and FAKOTAKIS N. An adaptive framework for acoustic monitoring of potential hazards[J].,,, 2009, 2009(1): 1-15. doi: 10.1155/2009/594103.
[5] ZHAO H and MALIK H. Audio recording location identification using acoustic environment signature[J]., 2013, 8(11): 1746-1759. doi: 10.1109/tifs.2013.2278843.
[6] VARGHEES V N and RAMACHANDRAN K I. A novel heart sound activity detection framework for automated heart sound analysis[J]., 2014, 13: 174-188. doi: 10.1016/j.bspc.2014.05.002.
[7] NTALAMPIRAS S, POTAMITIS I, and FAKOTAKIS N. On acoustic surveillance of hazardous situations[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Taipei, China, 2009: 165-168. doi: 10.1109/icassp. 2009.4959546.
[8] MCLOUGHLIN I, ZHANG H, XIE Z,. Robust sound event classification using deep neural networks[J].,,, 2015, 23(3): 540-552. doi: 10.1109/taslp.2015.2389618.
[9] SHARAN R V and MOIR T J. Robust audio surveillance using spectrogram image texture feature[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, South Brisbane, Australia, 2015: 1956-1960. doi: 10.1109/icassp.2015.7178312.
[10] DENNIS J, TRAN H D, and CHNG E S. Image feature representation of the subband power distribution for robust sound event classification[J].,,, 2013, 21(2): 367-377. doi: 10.1109/tasl.2012.2226160.
[11] 顏鑫, 李應(yīng). 利用抗噪冪歸一化倒譜系數(shù)的鳥(niǎo)類聲音識(shí)別[J]. 電子學(xué)報(bào), 2013, 41(2): 295-300. doi: 10.3969/j.issn.0372-2112. 2013.02.014.
YAN X and LI Y. Anti-noise power normalized cepstral coefficients in bird sounds recognition[J]., 2013, 41(2): 295-300. doi: 10.3969/j.issn.0372-2112. 2013.02.014.
[12] LI Y and WU Z. Animal sound recognition based on double feature of spectrogram in real environment[C]. IEEE International Conference on Wireless Communications & Signal Processing, Nanjing, China, 2015: 1-5. doi: 10.1109/ wcsp.2015.7341003.
[13] CHANG K M and LIU S H. Gaussian noise filtering from ECG by Wiener filter and ensemble empirical mode decomposition[J]., 2011, 64(2): 249-264. doi: 10.1007/s11265-009-0447-z.
[14] LEE Y K, JUNG G W, and KWON O W. Speech enhancement by Kalman filtering with a particle filter-based preprocessor[C]. IEEE International Conference on Consumer Electronics, Las Vegas, NV, USA, 2013: 340-341. doi: 10.1109/ice.2013.6486919.
[15] VERMA N and VERMA A K. Real time adaptive denoising of musical signals in wavelet domain[C]. Nirma University International Conference on Engineering, Ahmedabad, India, 2012: 1-5. doi: 10.1109/nuicone.2012.649323.
[16] 周曉敏, 李應(yīng). 基于 Radon 和平移不變性小波變換的鳥(niǎo)類聲音識(shí)別[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(5): 1391-1396. doi: 10. 11772/j.issn.1001-9081.2014.05.1391.
ZHOU X and LI Y. Bird sounds recognition based on Radon and translation invariant discrete wavelet transform[J]., 2014, 34(5): 1391-1396. doi: 10.11772/j.issn.1001-9081.2014.05.1391.
[17] CHU S, NARAYANAN S, and KUO C C J. Environmental sound recognition with time-frequency audio features[J].,,, 2009, 17(6): 1142-1158. doi: 10.1109/tasl.2009. 2017438.
[18] WANG J C, LIN C H, CHEN B W,. Gabor-based nonuniform scale-frequency map for environmental sound classification in home automation[J]., 2014, 11(2): 607-613. doi: 10.1109/tase.2013.2285131.
[19] MALLAT S G and ZHANG Z. Matching pursuits with time-frequency dictionaries[J]., 1993, 41(12): 3397-3415. doi: 10.1109/78.258082.
[20] SOUSSEN C, GRIBONVAL R, IDIER J,. Joint k-step analysis of orthogonal matching pursuit and orthogonal least squares[J]., 2013, 59(5): 3158-3174. doi: 10.1109/tit.2013.2238606.
[21] BREIMAN L. Random forests[J]., 2001, 45(1): 5-32. doi: 10.1023/A:1010933404324.
[22] KENNEDY J. Particle Swarm Optimization[M]. Washington, US: Springer, 2011: 760-766. doi: 10.1007/978-0-387-30164- 8_630.
[23] 馬超, 鄧超, 熊堯, 等. 一種基于混合遺傳和粒子群的智能優(yōu)化算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 50(11): 2278-2286. doi: 10.7544/issn1000-1239.2013.20111484.
MA C, DENG C, XIONG Y,. An intelligent optimization algorithm based on hybrid of GA and PSO[J]., 2015, 50(11): 2278-2286. doi: 10.7544/issn1000-1239.2013.20111484.
[24] LI S and FANG L. Signal denoising with random refined orthogonal matching pursuit[J]., 2012, 61(1): 26-34. doi: 10.1109/tim.2011.2157547.
[25] Universitat Pompeu Fabra. Repository of sound under the creative commons license[OL]. http://www.freesound.org, 2012.5.14.
[26] CHANG C C and LIN C J. LIBSVM: A library for support vector machines[J]., 2011, 2(3): 1-27. doi: 10.1145/1961189. 1961199.
李 應(yīng): 男,1964年生,教授,研究方向?yàn)槎嗝襟w數(shù)據(jù)檢索、信息安全.
陳秋菊: 女,1989年生,碩士生,研究方向?yàn)槎嗝襟w數(shù)據(jù)檢索.
Sound Event Recognition Based on Optimized Orthogonal Matching Pursuit
LI Ying CHEN Qiuju
(,,350116,)
A sound event recognition method based on optimized Orthogonal Matching Pursuit (OMP) is proposed for decreasing the influence of sound event recognition on various environments. Firstly, OMP is used for sparse decomposition and reconstruction of sound signal to decrease the influence of noise and reserve the main body of sound signal, where Particle Swarm Optimization (PSO) is adopted to accelerate the best atom searching in the process of sparse decomposition. Then, an optimized composited feature of Mel-Frequency Cepstral Coefficients (MFCCs), time-frequency OMP feature, and PITCH feature is extracted from reconstructed signal. Finally, Random Forests (RF) classifier is employed to recognize 40 classes of sound events in different environments and Signal-to-Noise Rates (SNRs). The experiment result shows that the proposed method can effectively recognize sound events in various environments.
Sound event recognition; Orthogonal Matching Pursuit (OMP); Sparse decomposition; Particle Swarm Optimization (PSO); Random Forests (RF)
TP391.42
A
1009-5896(2017)01-0183-08
10.11999/JEIT160120
2016-01-26;改回日期:2016-12-06;
2016-12-14
李應(yīng) fj_liying@fzu.edu.cn
國(guó)家自然科學(xué)基金(61075022)
The National Natural Science Foundation of China (61075022)