張一楊 姚明林
(唐山學(xué)院 河北 唐山 063000)
對公共場所的突發(fā)事件實(shí)時安全監(jiān)控,有益于提高人民生活質(zhì)量,而開始受到越來越高的重視,因此針對聲音事件的精確檢測和準(zhǔn)確識別對輔助公共安全監(jiān)控具有重要的研究意義[1]。
借鑒語音信號檢測領(lǐng)域的研究成果,已有算法大多提取信號的MCFF[2]、短時能量譜[3]、相關(guān)系數(shù)、聲譜圖[4]、ESMD排列熵[5]、多頻帶能量[6]及稀疏合成NMF[7]等特征,或通過α分布分析[6]、T分布[7]減少環(huán)境噪聲對特征干擾,然后借助k-近鄰、混合高斯模型、SVM及DNN網(wǎng)絡(luò)[4]等傳統(tǒng)分類器及其組合模式實(shí)現(xiàn)對環(huán)境噪聲中異常聲音信號的檢測和識別。雖然取得較好的識別效果,但上述算法往往需要大樣本量支撐訓(xùn)練[2]及存在階數(shù)難以合理設(shè)置[3]、多隱層錯誤[5]等問題,且公共場所的強(qiáng)背景噪聲對已有算法的特征提取和檢測識別存在較強(qiáng)的干擾。
隨著深度學(xué)習(xí)的興起,深度神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于處理環(huán)境聲音識別分類問題[8-11]。馮陳定等[8]基于改進(jìn)深度學(xué)習(xí)卷積網(wǎng)絡(luò),以堆疊遞減卷積核提取多尺度歸一化局部特征,以動態(tài)學(xué)習(xí)率提高算法的收斂速度與穩(wěn)定性,取得了更好的識別率。史秋瑩等[9]以三隱層深度神經(jīng)網(wǎng)絡(luò)對聲信號的MCFF特征進(jìn)行識別,取得了比SVM和GMM更好的識別結(jié)果[10-11]。深度學(xué)習(xí)網(wǎng)絡(luò)相比于傳統(tǒng)分類器提高了異常聲信號的檢測精度,但其龐大的參數(shù)需求、復(fù)雜的參數(shù)設(shè)置及計算需求,使得在實(shí)際應(yīng)用中,需要對其做進(jìn)一步的優(yōu)化和改進(jìn)。
匹配追蹤(Matching Pursuit,MP)無需先驗(yàn)信息而實(shí)現(xiàn)信號的稀疏分解和降噪,對非平穩(wěn)環(huán)境下的噪聲干擾具有較好的適應(yīng)性。陳秋菊等[12]借助過MP稀疏分解提取聲信號特征,以DBN網(wǎng)絡(luò)進(jìn)行異常聲信號檢測。Varghees等[13]采用二次稀疏分解和重構(gòu)聲音信號來消除背景噪聲干擾,然后提取對重構(gòu)信號特征用以識別。Jorge等[14]對聲音信號進(jìn)行MP稀疏分解后,利用PCA和LDA進(jìn)行降維提取聲信號特征進(jìn)行異常聲信號檢測與識別。
在已有研究基礎(chǔ)上,本文提出基于自適應(yīng)粒子群優(yōu)化MP稀疏分解的聲音事件識別算法。算法首先基于粒子與種群進(jìn)化率改進(jìn)PSO的參數(shù)自適應(yīng)設(shè)置,建立參數(shù)自適應(yīng)PSO,實(shí)現(xiàn)自適應(yīng)PSO優(yōu)化MP稀疏分解的優(yōu)化,并基于PSO的連續(xù)空間搜索特性構(gòu)建連續(xù)Gabor超完備原子集,以提高進(jìn)化過程最優(yōu)原子匹配度,最后通過SVM算法實(shí)現(xiàn)事件事件的識別,實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性和魯棒性。
設(shè)集合D={gi,i=1,2,…,Q}中的元素gi為空間H=RN的單位向量,任意信號f∈H都可表示為D中相應(yīng)元素的線性組合,即f=a·g,a為展開系數(shù),g={g1,g2,…,gm}為稀疏分解原子集,則在所有表達(dá)式中,m值最小的表示為f∈H的稀疏分解。
但在實(shí)際應(yīng)用中,原子集的離散性和超完備集的冗余性存在一定的矛盾。粒子群算法具有連續(xù)空間搜索特性[11],如果引入到MP稀疏分解過程中,則可以改善原子集離散化影響。
PSO[12]易陷入局部最優(yōu),為避免這一問題,粒子在初期迭代時需要較大的速度繼承以保持全局搜索能力,而在后期則需要較高的局部搜索能力以保持穩(wěn)定解[14],基于此提出了參數(shù)自適應(yīng)調(diào)整策略。
算法迭代時粒子與種群的進(jìn)化能力分別為:
(1)
(2)
進(jìn)化描述了粒子對一上次迭代的信息繼承性,則算法的慣性權(quán)重因子的自適應(yīng)設(shè)置為:
(3)
可以看出,粒子當(dāng)次迭代慣性因子受前次迭代的粒子和種群進(jìn)化能力影響,粒子的全局尋優(yōu)能力影響其搜索范圍,而其自身決定其獨(dú)立慣性因子的設(shè)置。
自我學(xué)習(xí)因子c1和社會學(xué)習(xí)因子c2分別控制著個體歷史最優(yōu)和群體歷史最優(yōu)迭代過程中對其后續(xù)信息繼承性的影響程度,本文根據(jù)粒子的進(jìn)化變化率調(diào)整學(xué)習(xí)因子,以增加粒子初期自身學(xué)習(xí)能力和后期的社會學(xué)習(xí)能力,實(shí)現(xiàn)最優(yōu)全局搜索和精準(zhǔn)局部搜索。同時粒子間由于進(jìn)化能力不同而形成的不同進(jìn)化率,還可以進(jìn)一步對學(xué)習(xí)因子進(jìn)行調(diào)整,使粒子根據(jù)自身迭代情況調(diào)整學(xué)習(xí)模式,從而增加粒子的多樣性。本文學(xué)習(xí)因子控制方式為:
(4)
式中:cmax、cmin分別表示學(xué)習(xí)最大值和最小值;T為迭代次數(shù)。式(4)表明改進(jìn)算法的各粒子根據(jù)其進(jìn)化變化率自適應(yīng)地調(diào)整其學(xué)習(xí)因子。在初期迭代時,粒子具有較強(qiáng)的自我學(xué)習(xí)能力,因而其c1值占主導(dǎo)地位,若此時某粒子的進(jìn)化率較小,則其c1要比同代的其他粒子的值要稍大,從而更利于進(jìn)行全局最優(yōu)搜索;隨著迭代進(jìn)化加深,粒子的社會學(xué)習(xí)能力變強(qiáng),其c2值占主導(dǎo)地位,若此時某粒子的進(jìn)化率較大,則其c2要比同代的其他粒子的值要稍大,從而更利于該粒子進(jìn)行局部尋優(yōu)搜索。
為進(jìn)一步避免算法限于局部最優(yōu),本文采用粒子重組策略,將在粒子進(jìn)化迭代過程中進(jìn)化能力較弱的部分粒子重新選擇,使其向進(jìn)化能力強(qiáng)的粒子學(xué)習(xí),重組這些粒子。對每個重組粒子的每一維度生成隨機(jī)數(shù)pid,如果pid>Pc(Pc為學(xué)習(xí)概率),則粒子xid在第d維向進(jìn)化能力較強(qiáng)粒子的該維度xkd學(xué)習(xí),如果pid≤Pc,粒子xid保持不變,這樣重組粒子過程為:
(5)
粒子重組后與進(jìn)化能力強(qiáng)的粒子一同進(jìn)入迭代過程。重組策略既有效拓寬粒子的搜索范圍,增加粒子多樣性,又保證了算法的收斂速度和搜索精度。
超完備集中原子的信號特性與聲音事件信號特性相匹配是完成信號稀疏分解的關(guān)鍵,借助粒子群算法的連續(xù)空間搜索特性[14],本文采用改進(jìn)Gabor函數(shù)計算式生成稀疏分解所需的超完備連接Gabor原子集D,即:
(6)
式中:λ為歸一化參數(shù);參數(shù)集γi={s,u,v,ω}用于描述原子的特性,其參數(shù)組構(gòu)成了待稀疏分解信號的頻譜特性。連續(xù)Gabor集使得其原子數(shù)遠(yuǎn)超離散化集,保證了原子集的冗余性,以及最優(yōu)匹配原子對原信號結(jié)構(gòu)特性的匹配程序。同時可以實(shí)時根據(jù)式(6)生成匹配原子,有效節(jié)省時間開銷。
(7)
(8)
fs=‖f‖·J·gbest
(9)
式中:gbest為最優(yōu)匹配的原子集。gbest對應(yīng)的時頻參數(shù)γbest={s,u,v,ω}反映了含噪信號的純凈聲信號的特征。
根據(jù)上文描述,本文自適應(yīng)粒子群優(yōu)化MP稀疏分解算法的計算流程為:
1) 初始化改進(jìn)粒子算法的相關(guān)參數(shù),設(shè)置邊界條件為[xmin,xmax]、[vmin,vmax],隨機(jī)生成粒子的初始位置和速度,并計算適應(yīng)度值f[xi(k)]。
2) 更新粒子的速度和位置,并根據(jù)邊界值pbi、gbi進(jìn)行越界限制:
(10)
式中:r(·)為在(0,1]間隨機(jī)取值的隨機(jī)函數(shù);w為自適應(yīng)取值的慣性因子。w取值過大會造成粒子過速而跳出迭代,而取值太小,又不利于算法收斂,為此在自適應(yīng)取值基礎(chǔ)上,進(jìn)一步對慣性因子進(jìn)行如下調(diào)節(jié):
(11)
(12)
4) 由式(9)重構(gòu)聲信號,用于后續(xù)檢測識別。
稀疏分解后,連續(xù)域最優(yōu)匹配原子的時頻特征較好的匹配原聲信號結(jié)構(gòu)特征[11],因而根據(jù)文獻(xiàn)[12],采用伸縮因子與頻率因子的均值u(sλ,vλ)和標(biāo)準(zhǔn)差σ(sλ,vλ)及ESMD排列熵[9]和MFCCs組成復(fù)合特征F(λ)={u(sλ,vλ),σ(sλ,vλ),FESMD(λ),FMFCCs(λ)},同時解決與分類結(jié)果緊密相關(guān)的多結(jié)點(diǎn)排列結(jié)構(gòu)選擇問題,采用以識別率最大值的二分SVM作為決策導(dǎo)向無環(huán)圖根節(jié)點(diǎn)的改進(jìn)SVM多分類擴(kuò)展算法[13],在不增加計算量情況下以不同的決策方法處理不同數(shù)據(jù),從而優(yōu)化訓(xùn)練及最終決策精度。識別率定義為:
p=(U1/U)×100%
(13)
式中:U和U1分別表示評估樣本總數(shù)和準(zhǔn)確分類的樣本數(shù)。
以Freesound[15]聲音庫中30種聲信號及網(wǎng)站獲得的玻璃破碎、爆炸等5種異常聲音為實(shí)驗(yàn)數(shù)據(jù),分析本文算法(簡記為IAPSO-MP算法)的性能,噪聲為雨天噪聲和babble噪聲。自適應(yīng)粒子群算法的速度邊界與位置邊界分別為V=[5,5,π/100,π/100]和X=[N,N,π,2π],迭代次數(shù)為200,粒子維數(shù)為4。
經(jīng)典PSO存在易陷入局部最優(yōu)及“早熟”[5]問題,主要原因?yàn)樵诘諗亢笃冢N群中粒子的多樣性極巨下降。以Schwefel函數(shù)[9]為性能分析實(shí)驗(yàn)用例,分析比較改進(jìn)的參數(shù)自適應(yīng)粒子群算法(IAPSO)與經(jīng)典粒子群算法(PSO)在迭代收斂后期的粒子多樣性,其粒子分布結(jié)果如圖1所示。圖中粒子分布所在時刻為算法未收斂但全局最優(yōu)值為3 000。
(a) PSO粒子分布
(b) IAPSO算法粒子分布圖圖1 算法迭代后期粒子分布圖
可以看出,在算法的迭代后期,IAPSO的粒子仍具有較高的多樣分布,粒子散布較均勻,說明此時粒子仍具有強(qiáng)的進(jìn)化性能。而經(jīng)典PSO粒子分布較集中,多樣性分布均勻性要比IAPSO差一些。更優(yōu)的粒子多樣性有利于全局最優(yōu)解的搜索,從而驗(yàn)證IAPSO的性能更優(yōu)。
為了驗(yàn)證本文改進(jìn)算法IAPSO-MP的性能,隨機(jī)取100組聲樣本,并與2種噪聲以-5 dB信噪比進(jìn)行混合,以稀疏分解并重構(gòu)的信號與原始純凈聲信號間的波形相似性為實(shí)驗(yàn)指標(biāo),分別測試算法在不同觀測值下的重構(gòu)性能,其結(jié)果如圖2所示。可以看出,隨著觀測值的逐漸增大,IAPSO-MP的波形相似性變得高于PSO-MP,且表現(xiàn)出更好的穩(wěn)定性,說明算法重構(gòu)信號更接近原始純凈信號,從而驗(yàn)證算法較好的信號重構(gòu)性能。
圖2 算法在不同觀測值下的重構(gòu)性能
進(jìn)一步以搜索次數(shù)、運(yùn)行時間、均方誤差(MSE)和信噪比(SNR)等為指標(biāo)對重構(gòu)信號進(jìn)行評估,實(shí)驗(yàn)結(jié)果如表1所示,表中相關(guān)數(shù)據(jù)為多次實(shí)驗(yàn)后實(shí)驗(yàn)結(jié)果的平均值。
表1 算法重構(gòu)性能比較
可以看出,IAPSO-MP算法的搜索數(shù)及運(yùn)行時間明顯低于經(jīng)典算法,說明改進(jìn)算法降低了計算量提高運(yùn)算效率,主要因?yàn)檫B續(xù)集的使用使得每次迭代時最優(yōu)匹配原子可以實(shí)時計算而無須在原子集中搜索,節(jié)省了時間開銷。
以式(13)所示聲信號的識別率為實(shí)驗(yàn)結(jié)果評價指標(biāo),以MPSVM[5]、APSO-MP[2]、S-CNN[8]、MPDBN[12]作為實(shí)驗(yàn)比較算法進(jìn)行環(huán)境異常聲信號識別性能比較實(shí)驗(yàn):MPSVM算法對原始聲信號進(jìn)行PCA降維后提取MP稀疏分解時頻特征,并采用SVM作為分類器;APSO-MP算法采用經(jīng)典PSO改進(jìn)MP分解,并采用多特征進(jìn)行聲信號識別;S-CNN算法基于改進(jìn)的深度學(xué)習(xí)技術(shù),以堆疊遞減卷積核提取聲信號局部特征,利用動態(tài)衰減學(xué)習(xí)率提高模型收斂速度;MPDBN算法提取MP稀疏分解最優(yōu)原子的時頻參數(shù),并通過深度學(xué)習(xí)技術(shù)的深度置信網(wǎng)絡(luò)(DBN)作為分類器。實(shí)驗(yàn)結(jié)果為不同噪聲下20次實(shí)驗(yàn)結(jié)果的平均值,如圖3所示。
圖3 實(shí)驗(yàn)算法在不同噪聲環(huán)境的聲音識別率
可以看出,參與比較的算法在分段信噪比較高時,都取得較好的聲信號識別率,說明基于MP稀疏分解提取聲信號的時頻特征對于聲信號識別是有效的;MPSVM算法平均識別率較低,主要因?yàn)槠鋽?shù)據(jù)聊維后,直接采用MP對信號進(jìn)行分解并提取特征,特征對背景噪聲的魯棒性較低;深度學(xué)習(xí)S-CNN算法在不同信噪比下都下的識別率較穩(wěn)定,但其要提高識別率,還需要借助其他特征;MPDBN算法識別率略低于本文算法,主要因?yàn)槠鋮?shù)對不同信噪比信號的適應(yīng)性有待提高,但相比于僅用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行聲識別的S-CNN算法,識別率有了大幅度提高;PSO-MP算法取得較好的識別率,說明基于粒子群改進(jìn)MP稀疏分解并提取匹配原子的時頻參數(shù)進(jìn)行聲信號識別是有效的,但識別率低于本文算法。在低信噪比和高信噪比下,本文算法都取得較好的平均識別率,說明其對環(huán)境噪聲具有較好的識別魯棒性。
針對公共環(huán)境中的異常聲信號識別時存在的強(qiáng)背景噪聲干擾及檢測效率問題,本文提出自適MP稀疏分解的異常聲信號識別算法。首先基于粒子和種群的進(jìn)化率改進(jìn)PSO參數(shù)的自適應(yīng)設(shè)置,并構(gòu)建新的目標(biāo)函數(shù),實(shí)現(xiàn)自適應(yīng)MP稀疏分解,再以連續(xù)超完備集,提高最優(yōu)原子與聲信號的特征匹配度,最后采用SVM實(shí)現(xiàn)異常聲信號的準(zhǔn)確識別。實(shí)驗(yàn)結(jié)果表明,與已有算法相比,該算法取得最優(yōu)的聲音識別率,且具有較好的識別魯棒性。