程 飛,陳建峰,馬 馳,常躍躍
(西北工業(yè)大學(xué)航海學(xué)院,陜西西安 710072)
目前,公共場(chǎng)所使用的監(jiān)控裝置主要由視頻監(jiān)控設(shè)備組成,絕大多數(shù)不具有聲音采集與監(jiān)控功能。在多個(gè)視場(chǎng)頻繁切換的過程中,值班人員容易產(chǎn)生疲勞,難以辨認(rèn)存在安全隱患的地點(diǎn)。同時(shí),單純的視頻監(jiān)控受到光線、視角等因素的限制,無法有效地對(duì)環(huán)境進(jìn)行全天候的實(shí)時(shí)監(jiān)控,在許多情況下監(jiān)控不全面,貽誤救援時(shí)機(jī)。
由于在一定的環(huán)境中,聲音往往是反映人類行為的重要特征[1,2],比如:敲門聲、爆炸聲、腳步聲等各種環(huán)境聲音。因此,對(duì)聲音事件進(jìn)行有效地探測(cè)和識(shí)別,可以有助于分析人類的行為。目前,環(huán)境聲音識(shí)別技術(shù)的研究已開展多年,國(guó)際上為此設(shè)立每年一度的聲音事件識(shí)別競(jìng)賽CLEAR[3,4],對(duì)其進(jìn)行應(yīng)用研究越來越受到重視。一些國(guó)家已經(jīng)進(jìn)行了相關(guān)的應(yīng)用嘗試。2006年,荷蘭警方在街道安置麥克風(fēng)和攝像機(jī)聯(lián)合安防,通過計(jì)算機(jī)進(jìn)行監(jiān)測(cè)并預(yù)警。2007年,新加坡資訊信息研究所研制犯人在獄室內(nèi)的行為監(jiān)測(cè)系統(tǒng),通過聲音監(jiān)控獄室內(nèi)的活動(dòng)情況,避免斗毆等惡性事件的發(fā)生,獲得成功應(yīng)用。
人們?cè)诼曇羰录R(shí)別方面取得了一定的進(jìn)展,初步建立了用于聲音事件識(shí)別的數(shù)據(jù)庫,確定了聲音事件識(shí)別系統(tǒng)的評(píng)估方法。但在實(shí)際生活中,對(duì)環(huán)境聲音識(shí)別技術(shù)的應(yīng)用尚不普及。而且對(duì)于單節(jié)點(diǎn)傳感器而言,無法對(duì)大范圍的環(huán)境進(jìn)行監(jiān)測(cè),只能有選擇地針對(duì)特定的范圍進(jìn)行檢測(cè)。在多聲源存在時(shí),容易發(fā)生干擾和誤判,無法有效判斷聲音來源。
本文提出一種基于統(tǒng)計(jì)的分布式聲音事件監(jiān)測(cè)系統(tǒng),該系統(tǒng)通過傳感器節(jié)點(diǎn)的分布式布防,感知監(jiān)控區(qū)域的聲音信息。采用基于統(tǒng)計(jì)的檢測(cè)方法,并聯(lián)合攝像機(jī)進(jìn)行視頻確認(rèn),以滿足實(shí)際的監(jiān)控需求。
如圖1所示,一個(gè)分布式聲音事件監(jiān)測(cè)系統(tǒng)由基站、中繼和多個(gè)分布式傳感器節(jié)點(diǎn)構(gòu)成。
圖1 系統(tǒng)結(jié)構(gòu)框圖Fig 1 Block diagram of system structure
基站主要由PC機(jī)和監(jiān)控軟件組成。根據(jù)情況,基站和中繼之間可通過無線或有線網(wǎng)絡(luò)傳輸聲音特征信息、視頻信息和控制命令?;緦⒔邮盏降穆曇籼卣餍畔⑦M(jìn)行顯示、存儲(chǔ)、分析和識(shí)別等相應(yīng)處理,為異常聲音事件的判定提供依據(jù)。
中繼主要由無線射頻模塊、數(shù)據(jù)處理模塊、網(wǎng)絡(luò)通信模塊和電源組成。中繼處附帶有網(wǎng)絡(luò)攝像機(jī)、轉(zhuǎn)臺(tái)及控制模塊,可控制攝像機(jī)360°全方位轉(zhuǎn)動(dòng),監(jiān)控異常情況。
傳感器節(jié)點(diǎn)主要由聲音傳感器、放大電路、單片機(jī)、無線射頻模塊、電源構(gòu)成,具體組成框圖見圖2。
圖2 傳感器節(jié)點(diǎn)系統(tǒng)組成框圖Fig 2 Composition block diagram of sensor node system
傳感器節(jié)點(diǎn)首先將環(huán)境聲音轉(zhuǎn)換為電信號(hào),然后經(jīng)過放大濾波、MSP430單片機(jī)A/D采樣,最終將特征提取的數(shù)據(jù)通過無線射頻模塊發(fā)送到中繼。
傳感器節(jié)點(diǎn)按照一定的地理位置布防,節(jié)點(diǎn)位置精確已知。為了滿足節(jié)點(diǎn)的機(jī)動(dòng)性,將其設(shè)為較低的發(fā)射功率以降低功耗。這時(shí)通信距離僅數(shù)百米。為此,專門設(shè)置中繼(Sink node)來將節(jié)點(diǎn)的數(shù)據(jù)傳送到數(shù)公里外的基站(base station)。
系統(tǒng)工作方式:系統(tǒng)初始化完成后,啟動(dòng)傳感器節(jié)點(diǎn)。基站通過中繼向傳感器節(jié)點(diǎn)發(fā)出工作命令,傳感器節(jié)點(diǎn)開始監(jiān)控周圍環(huán)境,分析采集數(shù)據(jù),提取特征,并通過中繼將特征值傳給基站?;咎幗⒐?jié)點(diǎn)信息數(shù)據(jù)庫,同時(shí)計(jì)算并更新節(jié)點(diǎn)處的環(huán)境背景門限?;就ㄟ^一系列的規(guī)則判定是否有異常聲音事件出現(xiàn)。當(dāng)判斷出有異常情況時(shí),控制攝像機(jī)轉(zhuǎn)向相應(yīng)節(jié)點(diǎn)部署區(qū)域進(jìn)行觀察,同時(shí)向基站返回視頻圖像信息。
除了語音識(shí)別技術(shù)外,對(duì)環(huán)境聲音的分類和識(shí)別技術(shù)的工程應(yīng)用尚不普及。一些略有相關(guān)的應(yīng)用包括:利用語音進(jìn)行話者識(shí)別[5]、情緒鑒別[6]、利用機(jī)械振動(dòng)進(jìn)行故障診斷[7]等。
在利用語音進(jìn)行人的情緒鑒別時(shí),通過對(duì)語音信號(hào)中若干與情緒有關(guān)特征的分析、對(duì)比,建立起各種情緒語音的特征庫,利用相應(yīng)的判決準(zhǔn)則和分類器對(duì)語音情緒分類。
在計(jì)算機(jī)輔助機(jī)械故障診斷時(shí),通過對(duì)特定機(jī)械振動(dòng)的聲音或振動(dòng)信號(hào)進(jìn)行采集、時(shí)域頻域處理后,與正常情況下的結(jié)果進(jìn)行對(duì)比,通過建模、統(tǒng)計(jì)等方法進(jìn)行判定。
以上技術(shù)雖涉及對(duì)不同聲音的分類識(shí)別,不過其均有明確的聲源,便于聚類,能夠形成較為集中的類別和模型。然而環(huán)境聲音種類繁多,復(fù)雜多樣,來源廣泛,模型難以建立,沒有一個(gè)完整、確定的集合,上述方法難以勝任。
為此,本文擬從環(huán)境中直接訓(xùn)練模型,通過對(duì)其代表性特征,如短時(shí)能量和短時(shí)過零率等特征進(jìn)行統(tǒng)計(jì),形成判別“正?!迸c“異常”的準(zhǔn)則,而不直接去分辨究竟是什么類型的聲音,以此來進(jìn)行異常事件監(jiān)測(cè)。然后,當(dāng)發(fā)現(xiàn)某些聲音被檢測(cè)出異常后,通知攝像頭轉(zhuǎn)向事發(fā)地點(diǎn)進(jìn)一步確認(rèn)。當(dāng)然,也可利用以往的方法對(duì)其進(jìn)行精細(xì)地分類識(shí)別,以判斷其嚴(yán)重性。
模型建立框圖如圖3。
圖3 模型建立框圖Fig 3 Block diagram of model set up
2.1.1 預(yù)處理
預(yù)處理包括了信號(hào)的放大、濾波、采集,在必要時(shí)再進(jìn)行數(shù)字濾波,對(duì)于環(huán)境聲音,需要在以下幾部分重點(diǎn)考慮:
1)動(dòng)態(tài)范圍:由于聲音事件的動(dòng)態(tài)范圍較大,需要既能探測(cè)到微弱的聲音,如腳步聲等,也能獲取巨大的聲響,如爆炸聲等。因此,在設(shè)計(jì)聲音前置放大電路時(shí)需要選取合理參數(shù)的傳感器。
2)采樣頻率:由于環(huán)境聲音頻帶較寬,因此,為確保信息能比較完整地采集下來,采樣頻率應(yīng)不低于16 kHz。
3)A/D精度:16位以上的A/D可以獲得比較良好的效果。
2.1.2 特征提取
在絕大多數(shù)識(shí)別問題中,選取適當(dāng)?shù)奶卣鲗?duì)最終的識(shí)別效果影響很大。目前,常用的各種聲音信號(hào)的統(tǒng)計(jì)特征有短時(shí)能量、短時(shí)過零率、短時(shí)自相關(guān)、線性預(yù)測(cè)編碼(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、對(duì)數(shù)頻率能量系數(shù)(LFPC)、子帶能量、Mel倒譜系數(shù)(MFCC)、語音持續(xù)時(shí)間、小波變換(WT)、共振頻率等。
一般來講,對(duì)于特定的場(chǎng)所,其聲音的統(tǒng)計(jì)規(guī)律是有一定的周期性的。例如:一個(gè)辦公室的聲音變化情況通常來講會(huì)按天發(fā)生周期變化。當(dāng)然,周末和節(jié)假日會(huì)有些特殊處理。對(duì)聲音的某些特征進(jìn)行統(tǒng)計(jì)分析,就希望對(duì)各統(tǒng)計(jì)周期中相同時(shí)段的信號(hào)進(jìn)行處理,從而找到其分布規(guī)律。
一般假設(shè)聲音信號(hào)在較短的時(shí)間內(nèi)是平穩(wěn)的。通常稱這個(gè)較短的時(shí)間為幀,在語音處理中,一般取幀長(zhǎng)為10~30 ms。統(tǒng)計(jì)特征直接從數(shù)據(jù)中獲取,分析其統(tǒng)計(jì)特性。本文以聲音信號(hào)的短時(shí)平均能量為例,其定義如下:
經(jīng)過處理的聲音信號(hào)為一組離散值{x[1],x[2],…,x[n]},定義以m為幀長(zhǎng)的第k幀聲音信號(hào)的短時(shí)能量E(k)為
2.1.3 特征分析和規(guī)律統(tǒng)計(jì)
將一個(gè)傳感器節(jié)點(diǎn)置于待監(jiān)測(cè)環(huán)境中,從每天相同時(shí)刻開始,采集相同時(shí)長(zhǎng)的聲音信息,得到每天的數(shù)據(jù)樣本。
通過上述方法得到D天同一時(shí)刻第k幀的數(shù)據(jù)樣本,帶入式(1)中計(jì)算短時(shí)能量得到E1(k),E2(k),…,ED(k)。
對(duì)采集的樣本的短時(shí)能量做概率統(tǒng)計(jì)得到如圖4所示。圖中發(fā)現(xiàn),聲音樣本的短時(shí)能量主要集中在相對(duì)較小的范圍內(nèi),而且短時(shí)能量的動(dòng)態(tài)范圍較大,難以統(tǒng)計(jì)其分布。
圖4 短時(shí)能量概率分布圖Fig 4 Short-term energy probability distribution
為此,將短時(shí)能量取自然對(duì)數(shù)后作為特征值δ來減小其動(dòng)態(tài)范圍
對(duì)特征值設(shè)置合理的間隔,統(tǒng)計(jì)間隔內(nèi)特征值出現(xiàn)的概率,求出特征值的均值μ和標(biāo)準(zhǔn)差σ。歸一化處理后相應(yīng)的概率密度分布和相應(yīng)正態(tài)分布如圖5所示。
從圖5中可以看出:實(shí)際的概率密度近似趨近于正態(tài)分布,因此,在應(yīng)用和計(jì)算中可認(rèn)為特征值的概率密度函數(shù)滿足正態(tài)分布
圖5 歸一化特征值概率密度Fig 5 Probability density of normalized characteristic value
其中,μ和σ分別為特征值的均值和標(biāo)準(zhǔn)差。
對(duì)于實(shí)際的系統(tǒng)而言,要確定聲音事件正常與否的概率比較困難,因此,可以在一定的虛警門限的條件下檢測(cè)概率最大為準(zhǔn)則[8],即采用Neyman-Person準(zhǔn)則。根據(jù)檢測(cè)系統(tǒng)性能的要求,指定一個(gè)虛警概率的允許值(如PF=ε),使得檢測(cè)概率PD達(dá)到最大
根據(jù)正態(tài)分布的特點(diǎn),得到
式中 δ0為檢測(cè)門限。
實(shí)際生活中,一個(gè)突發(fā)的聲音事件大約在2~5 s。因此,將所需處理的聲音數(shù)據(jù)以5 s為間隔進(jìn)行等分后,每5 s幀處理后計(jì)算特征值,得到該5 s特征值的方差σ2和均值μ,帶入式(5)求得相應(yīng)的檢測(cè)門限。
實(shí)驗(yàn)首先要采集背景聲音,節(jié)點(diǎn)數(shù)據(jù)采樣設(shè)定單通道輸入,采樣頻率16 kHz,采樣位數(shù)16位,虛警概率PF=0.05,幀長(zhǎng)50 ms。在實(shí)驗(yàn)室環(huán)境下,無外界聲音干擾時(shí),采集到相同時(shí)段的多段時(shí)長(zhǎng)10 min的數(shù)據(jù)。
實(shí)驗(yàn)首先求得各段數(shù)據(jù)的檢測(cè)門限,然后求檢測(cè)門限的平均值,得到整個(gè)10 min的門限如圖6所示。
圖6 門限值分布圖Fig 6 Threshold value distribution
圖6中得到了10 min時(shí)段的門限,由圖可知,該門限值處于一個(gè)比較穩(wěn)定的范圍。以此門限為標(biāo)準(zhǔn),通過門限檢測(cè)來判斷相應(yīng)時(shí)刻下異常聲音事件的發(fā)生。
這里實(shí)驗(yàn)驗(yàn)證該門限檢測(cè)的準(zhǔn)確性:實(shí)驗(yàn)條件為上述實(shí)驗(yàn)室條件,通過傳感器節(jié)點(diǎn)采集到400段時(shí)長(zhǎng)10 min的聲音數(shù)據(jù),其中,200段數(shù)據(jù)人為地加入一些例如敲擊或者開門等聲音事件。對(duì)于無聲音事件的數(shù)據(jù)希望盡可能地降低其虛警概率,而對(duì)于有聲音事件發(fā)生的數(shù)據(jù)則希望提高其檢測(cè)概率。上述實(shí)驗(yàn)數(shù)據(jù)的識(shí)別情況見表1。
表1 特征值門限檢測(cè)識(shí)別結(jié)果Tab 1 Identification results of characteristic value threshold detection
實(shí)驗(yàn)結(jié)果表明:對(duì)于有聲音事件發(fā)生的情況采用上述方法可到較高的檢測(cè)率;無聲音事件發(fā)生時(shí),得到的虛警概率接近理論值。因此,采用該方法可有效判定聲音事件的發(fā)生。
但在實(shí)際應(yīng)用中,由于外部環(huán)境并不是固定不變的。在相對(duì)比較安靜,噪聲背景比較平穩(wěn)的情況下,門限檢測(cè)可以達(dá)到較好的檢測(cè)效果。而對(duì)一些背景變化較大的地方,使用自適應(yīng)算法[9]可有效提高門限穩(wěn)定性和系統(tǒng)的可靠性,這將是下一步研究的重點(diǎn)。
本文提出了一種基于統(tǒng)計(jì)的分布式聲音事件監(jiān)測(cè)系統(tǒng)的實(shí)現(xiàn)方案,詳細(xì)介紹了整個(gè)系統(tǒng)的硬件組成和檢測(cè)方法,系統(tǒng)通過分布式傳感器節(jié)點(diǎn)有效收集監(jiān)控區(qū)域信息,對(duì)所收集到的聲音信息進(jìn)行特征提取,統(tǒng)計(jì)其分布規(guī)律,采用Neyman-Pearson準(zhǔn)則得到相應(yīng)的環(huán)境門限值,為基站進(jìn)一步數(shù)據(jù)處理和信息融合提供了重要保障。
[1] 劉波霞,陳建峰.基于特征分析的環(huán)境聲音事件識(shí)別算法[J].計(jì)算機(jī)工程,2011,37(22):261-263.
[2] 李舜酩,李香蓮.振動(dòng)信號(hào)的現(xiàn)代分析技術(shù)與應(yīng)用[M].北京:國(guó)防工業(yè)出版社,2008.
[3] Temko A,Malkin R,Zieger C,et al.CLEAR evaluation of acoustic event detection and classification systems[C]∥Proc of the 1st International Evaluation Conference on Classification of Events,Activities and Relationships,Heidelberg,Germany:Springer-Verlag,2007:311-322.
[4] Heittola T,Klapuri A.TUT acoustic event detection system[C]∥Proc of the 2nd International Evaluation Conference on Classification of Events,Activities and Relationships,Heidelberg,Germany:Springer-Verlag,2008:364-370.
[5] 周 萍,唐李珍.基于信息融合的短語音說話人識(shí)別方法研究[J].計(jì)算機(jī)工程,2011,37(2):169-171.
[6] 羅憲華,楊大利,徐明星.面向非特定人的語音情感識(shí)別特征研究[J].北京信息科技大學(xué)學(xué)報(bào):自然科學(xué)版,2011,26(2):72-76.
[7] 常西暢.機(jī)械設(shè)備噪聲故障診斷的新進(jìn)展[C]∥2002年全國(guó)振動(dòng)工程及應(yīng)用學(xué)術(shù)會(huì)議論文集,上海,2002:347-349.
[8] 梁 紅,張效民.信號(hào)檢測(cè)與估值[M].西安:西北工業(yè)大學(xué)出版社,2011.
[9] 朱 莉.連續(xù)語音關(guān)鍵詞識(shí)別系統(tǒng)中自適應(yīng)技術(shù)的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.