薛 珊,李廣青,呂瓊瑩,毛逸維
1) 長春理工大學(xué)機(jī)電工程學(xué)院,長春 130022 2) 長春理工大學(xué)重慶研究院,重慶 400000
近年來,無人機(jī)市場需求量不斷攀升,但是由于人們?nèi)狈舶踩庾R且無人機(jī)易被不法分子利用,“黑飛”無人機(jī)給國家公共安全造成了嚴(yán)重危害.2015年4月22日,日本首相人身安全受到無人機(jī)威脅;2015年5月14日,無人機(jī)入侵白宮事件;2017年4月,成都雙流機(jī)場多次受到來歷不明的小型無人機(jī)的干擾,客機(jī)起飛、降落受到不同程度的影響,甚至航班取消.無人機(jī)帶來的安全問題多種多樣,給社會安全問題造成了極大的隱患.如何識別和治理無人機(jī)迫在眉睫,而如何檢測無人機(jī)更是重中之重,是當(dāng)前必須要解決的難點(diǎn)問題.
到目前為止檢測無人機(jī)的方法有多種,陳唯實(shí)等[1]使用低空監(jiān)視雷達(dá)檢測無人機(jī)是否存在;但是雷達(dá)檢測無人機(jī)設(shè)備價(jià)格昂貴,存在強(qiáng)人體輻射,并且存在檢測盲區(qū).Bisio等[2]提出了一種基于WIFI統(tǒng)計(jì)指紋的無人機(jī)檢測方法,該方法能夠識別附近的無人機(jī)威脅;但是無人機(jī)信號為跳頻輸出[3],WIFI檢測技術(shù)難度較高,工藝繁瑣,并且無人機(jī)“靜默”時(shí)無法進(jìn)行檢測.基于此,本文提出了聲音檢測[4-5]無人機(jī)的方法.聲音作為無人機(jī)的固有屬性,區(qū)別于周圍的其它聲音,而且聲音檢測不受光線、電子的干擾,具有可以穿透遮擋物,價(jià)格低,使用方便等優(yōu)點(diǎn).首先對無人機(jī)聲音進(jìn)行預(yù)處理,然后提取梅爾頻率倒譜系數(shù)(MFCC)和Gammatone頻率倒譜系數(shù)(GFCC)特征,最后使用多層卷積神經(jīng)網(wǎng)絡(luò)(CNN)對無人機(jī)進(jìn)行聲音識別.
卷積神經(jīng)網(wǎng)絡(luò)首先應(yīng)用于圖像識別領(lǐng)域,在該領(lǐng)域得到了廣泛應(yīng)用[6-7],在2012年之后,開始應(yīng)用于聲音識別領(lǐng)域中.2013年,Sainath等[8]使用卷積神經(jīng)網(wǎng)絡(luò)在Broadca st News和Switchboard task任務(wù)上進(jìn)行實(shí)驗(yàn).本文將卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用在無人機(jī)的聲音檢測中,用來識別“黑飛”無人機(jī).
根據(jù)奈奎斯特抽樣定理,要想抽樣后能夠不失真地還原出原始信號,則采樣頻率必須大于等于兩倍信號譜的最高頻率,如式(1):
式中,fs表示信號抽樣頻率,fh表示無人機(jī)聲音的最高頻率.無人機(jī)主要聲音頻段小于16 kHz,本文選取抽樣頻率為32 kHz.
由于噪聲的干擾,無人機(jī)的聲音信息在空氣中傳播時(shí)會受到不同程度的衰減,并且高頻部分受到衰減的程度會大于低頻部分.所以為了彌補(bǔ)高頻聲音信息的損失,防止聲音信息部分的丟失,要對其進(jìn)行預(yù)加重.公式如式(2):
本文選取預(yù)加重系數(shù)a=0.97,d(n)表示第n個(gè)采樣點(diǎn)的幅值,無人機(jī)聲音樣本預(yù)加重后圖像如圖1所示,綠色曲線表示聲音時(shí)域原始圖像,黃色曲線表示預(yù)加重后的聲音圖像.
圖1 無人機(jī)聲音樣本預(yù)加重圖Fig.1 Pre-weighting diagram of an UAV sound sample
由于無人機(jī)聲音樣本很長無法直接提取特征,所以為了方便進(jìn)行分析和提取特征,并進(jìn)入到卷積神經(jīng)網(wǎng)絡(luò),所以要對聲音樣本進(jìn)行分幀,使其變?yōu)橐粋€(gè)個(gè)的小片段.每個(gè)小片段之間會有重疊部分,約占整個(gè)片段的1/5~1/2.本次實(shí)驗(yàn)選擇分幀長度25 ms,幀移10 ms.
為了防止聲音樣本進(jìn)行分幀后兩端的不連續(xù)性,所以要進(jìn)行加窗.本文選用的是漢明窗,公式如式(3):
在預(yù)加重圖像的基礎(chǔ)上進(jìn)行加漢明窗操作,結(jié)果如圖2所示,綠色曲線表示聲音經(jīng)過預(yù)加重后的圖像,黃色曲線是在預(yù)加重圖像基礎(chǔ)上經(jīng)過加窗的圖像.
圖2 無人機(jī)聲音樣本加漢明窗函數(shù)圖Fig.2 Function diagram of an UAV sound sample plus a Hamming window
梅爾頻率倒譜系數(shù)(MFCC)廣泛應(yīng)用于聲音識別領(lǐng)域,是在梅爾頻率域得到的一種參數(shù),可以準(zhǔn)確地還原原始聲音信息[9].
先對錄取的聲音進(jìn)行預(yù)處理,得到關(guān)于聲音的幀信號;由于在時(shí)域內(nèi)難以判別聲音信號的特性,所以接著再進(jìn)行快速傅立葉變換(FFT)變換,使其變換到頻域;在頻域內(nèi)將信號經(jīng)過26個(gè)非線性的Mel濾波器組,而且Mel濾波器組從低頻到高頻的分布由密變疏;然后對濾波后的信號取對數(shù),便于對信號進(jìn)行倒譜分析;最后經(jīng)過離散余弦變換得到關(guān)于聲音的13維特征參數(shù)[10].
梅爾頻率倒譜系數(shù)是在Mel頻率域中得到的,相比于線性頻率域可以更好的描述聲音特征.Mel頻率和Hz頻率的關(guān)系如式(4)
式中,f為頻率,單位為Hz.
Mel頻率和Hz頻率的轉(zhuǎn)換曲線如圖3.
雖然MFCC特征在聲音識別領(lǐng)域中得到廣泛使用,但是由于其受到環(huán)境噪聲的干擾很大,在部分情況下無法達(dá)到人們的期望值[11].所以本文使用MFCC與GFCC[12-13]融合的特征來對無人機(jī)聲音進(jìn)行識別.
GFCC與MFCC相比使用的是Gammatone濾波器,Gammatone濾波器[14]被廣泛用于模擬人類聽覺系統(tǒng)對信號的處理方式,而且對噪聲有較好的抗干擾性,可以增大識別系統(tǒng)的魯棒性[15],有效彌補(bǔ)MFCC特征的不足.使用MFCC與GFCC融合的特征,既可有效提取聲音特征,又可克服隨機(jī)噪音帶來的干擾.
圖3 線性頻率與梅爾頻率轉(zhuǎn)換曲線圖Fig.3 Conversion curve of linear frequency and Mel frequency
Gammatone濾波器的時(shí)域表達(dá)式如式(5):
式中,t為時(shí)間,φ為相位,fc為中心頻率,k是常數(shù),p為濾波器階數(shù),b是濾波器的帶寬.b的公式如式(6):
ERB(fc)為Gammatone濾波器的等價(jià)矩形帶寬.
Gammatone濾波器如圖4所示.
圖4 Gammatone濾波器幅頻特性圖Fig.4 Amplitude frequency characteristics of a gammatone filter
本文使用MFCC+GFCC的特征參數(shù)來識別無人機(jī)聲音,MFCC特征參數(shù)為13維,GFCC特征參數(shù)為13維,經(jīng)過線性疊加后特征參數(shù)為26維.既有Mel濾波器的特征參數(shù),又包含經(jīng)過Gammatone濾波器的特征參數(shù),對周圍環(huán)境噪聲具有較強(qiáng)的魯棒性.
截取一段1 s的無人機(jī)聲音片段,對其分別提取MFCC、GFCC和MFCC+GFCC特征參數(shù),特征頻譜圖如圖5所示.其中,X軸表示特征參數(shù)的維度,Y坐標(biāo)表示1 s分幀的數(shù)量,Z坐標(biāo)表示幅值,兩種特征為縱向結(jié)合.右側(cè)圖例體現(xiàn)圖形的表面顏色,數(shù)值表示幅值
針對本文樣本數(shù)量集少的問題,使用了支持向量機(jī)(SVM)和CNN進(jìn)行對比試驗(yàn).支持向量機(jī)在小樣本數(shù)據(jù)集和非線性分析上的實(shí)驗(yàn)結(jié)果十分優(yōu)秀,具有很強(qiáng)的適應(yīng)性、很好的分類能力和泛化能力[16],是目前使用最廣泛、效果最好的分類器之一.
支持向量機(jī)[17-19]是一種典型的分類模型,其主要目的就是尋找一個(gè)超平面,超平面可以正確地把訓(xùn)練數(shù)據(jù)集分割開來,并且保證幾何間隔最大.
本文使用支持向量機(jī)時(shí),選取的樣本是無人機(jī)聲音數(shù)據(jù)和環(huán)境聲音數(shù)據(jù).首先提取聲音數(shù)據(jù)特征,然后將兩類聲音數(shù)據(jù)合并到同一維度空間.如圖6所示,紅色標(biāo)志代表無人機(jī)的聲音數(shù)據(jù),藍(lán)色標(biāo)志代表環(huán)境聲音數(shù)據(jù).目的是尋找紫色平面,將兩種數(shù)據(jù)集正確劃分.對某些數(shù)據(jù)集,這樣的超平面有無窮多個(gè),超平面需要滿足兩側(cè)的點(diǎn)到超平面的最小距離是最大的.
由于有時(shí)樣本在原空間不是線性可分的,所以需要將它映射到高維空間中,在高維空間中樣本是線性可分的.推導(dǎo)可得到式(8)[20]:
其中:i,j=1,2,···,m,m為樣本個(gè)數(shù);樣本為(x1,y1),(x2,y2),···,(xm,ym);αi和αj為拉格朗日乘子,且αi,αj≥0;G(xi)TG(xj)是在空間中的內(nèi)積,但是在高維空間中計(jì)算它會很難.所以提出一種核函數(shù)K(xi,xj)使其在低維空間計(jì)算,但其效果等價(jià)于高維空間中的內(nèi)積.顯然,核函數(shù)的選擇至關(guān)重要,本文選擇的是線性核函數(shù)[21],公式如式(9):
圖5 特征頻譜圖.(a)MFCC+GFCC 特征頻譜圖;(b)MFCC 特征頻譜圖;(c)GFCC 特征頻譜圖Fig.5 Characteristic spectra: (a) characteristic spectrum of mel frequency cepstral coefficient (MFCC) + gammatone frequency cepstral coefficient(GFCC); (b) characteristic spectrum of MFCC; (c) characteristic spectrum of GFCC
圖6 SVM分類示意圖Fig.6 Schematic of support vector machine classification
設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示.
卷積神經(jīng)網(wǎng)絡(luò)各層參數(shù)設(shè)置如表1所示.
3.2.1 輸入層
將代表無人機(jī)樣本的MFCC+GFCC特征的特征矩陣作為輸入,輸入矩陣的特征維度是26.
3.2.2 卷積層
卷積層初步提取無人機(jī)MFCC+GFCC矩陣的特征.本文使用兩個(gè)卷積層,卷積核大小都為5×5,步長均為1,padding 設(shè)置為SAME,必要時(shí)進(jìn)行數(shù)據(jù)擴(kuò)長.卷積核的個(gè)數(shù)分別為32個(gè)和64個(gè).
3.2.3 激勵層
卷積和池化的過程都是一種線性運(yùn)算,而激勵層的作用是在其中加入非線性成分,來增加訓(xùn)練模型的表達(dá)能力.本文使用的是經(jīng)典Relu[22]函數(shù).
3.2.4 池化層
池化層[23]的目的就是為了簡化卷積層的輸出,降低特征矩陣的維數(shù).池化方式分為最大池化和均值池化,本文運(yùn)用最大池化,設(shè)計(jì)兩個(gè)池化層,池化窗口大小均為2×2,水平垂直步長均為2.
圖7 設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 Structure of a CNN
表1 CNN參數(shù)設(shè)置Table 1 CNN parameter setting
3.2.5 全連接層
全連接層是將卷積和池化操作后的特征進(jìn)行重新擬合,由于用到了全部的局部特征,故叫做全連接.本文設(shè)置2層全連接層,增強(qiáng)特征表達(dá)能力.
3.2.6 輸出層
使用的是softmax分類器,它把一些輸入映射為0~1之間的實(shí)數(shù),并且歸一化保證和為1,因此多分類的概率之和也剛好為1[24-25].
本實(shí)驗(yàn)在長春理工大學(xué)東校區(qū)停車場和操場進(jìn)行,使用遠(yuǎn)距離聲音采集器對100 m范圍內(nèi)的無人機(jī)、鳥叫聲和人說話的聲音進(jìn)行聲音采集,采集頻率為32000 Hz,實(shí)驗(yàn)照片如圖8所示.經(jīng)過分割后每個(gè)聲音樣本時(shí)間長1 s,數(shù)量如表2所示,訓(xùn)練和測試的數(shù)據(jù)集數(shù)量(段數(shù))分別為4500和900,比例為5∶1.
圖8 采集樣本實(shí)驗(yàn)圖.(a)白天停車場采集樣本圖;(b)晚間操場采集樣本圖Fig.8 Sample collection experiment map: (a) sample collection map of parking lot during day; (b) sample collection map of playground at night
表2 各類音頻樣本數(shù)量表Table 2 Number of audio samples
將無人機(jī)聲音作為目標(biāo)聲音事件,其余聲音為干擾聲音.
實(shí)驗(yàn)所用計(jì)算機(jī)是Windows10系統(tǒng),Intel(R)Core(TM) i7-9750U CPU@2.60 GHz,8 G 內(nèi)存,基于開源深度學(xué)習(xí)框架tensorflow[26]和開源科學(xué)計(jì)算庫scipy,采用Python3.7編寫預(yù)處理和識別程序,文本編輯器為Sublime.其中,tensorflow為1.13.1版本,scipy為1.4.1版本.實(shí)驗(yàn)設(shè)備為深圳市科視達(dá)電子有限公司的遠(yuǎn)距離聲音采集器,采樣頻率為32 kHz.
4.3.1 不同神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果及對比
使用設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)在Python中對相同樣本進(jìn)行實(shí)驗(yàn),訓(xùn)練次數(shù)均為1500次,實(shí)驗(yàn)結(jié)果如圖9和圖10.對比結(jié)果如表3.
圖9 卷積神經(jīng)網(wǎng)絡(luò)結(jié)果顯示圖.(a)python 顯示圖;(b)測試集識別準(zhǔn)確率變化曲線圖Fig.9 CNN results display: (a) python display; (b) change curve of test set recognition accuracy
圖10 支持向量機(jī)結(jié)果顯示圖Fig.10 SVM results display
表3 不同模型實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different models
對比分析表明,設(shè)計(jì)的CNN網(wǎng)絡(luò)模型識別無人機(jī)的性能優(yōu)于SVM.
4.3.2 改變卷積層個(gè)數(shù)進(jìn)行試驗(yàn)
卷積層可以初步提取音頻特征,其層數(shù)對實(shí)驗(yàn)結(jié)果具有重要的影響,本文對四種不同情況下的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行試驗(yàn),測試集準(zhǔn)確率結(jié)果如表4.
表4 不同卷積層測試集準(zhǔn)確率實(shí)驗(yàn)結(jié)果Table 4 Experimental results on accuracy of test sets of different convolution layers
如表4所示,網(wǎng)絡(luò)迭代次數(shù)隨卷積層層數(shù)的增加而增加,在網(wǎng)絡(luò)達(dá)到收斂的前提下,測試集準(zhǔn)確率隨卷積層層數(shù)的增加有小幅度上升,但準(zhǔn)確率增加幅度有限,而網(wǎng)絡(luò)訓(xùn)練時(shí)間卻急劇上升.在此條件下,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)了兩層卷積層,測試集準(zhǔn)確率達(dá)到了要求,并且訓(xùn)練時(shí)間較短.
4.3.3 部分Urbansound8K數(shù)據(jù)集驗(yàn)證
為驗(yàn)證所設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)對聲音識別的可行性,除在自行建立的數(shù)據(jù)集上進(jìn)行測試外,還在典型的數(shù)據(jù)集Urbansound8K上進(jìn)行測試.本文選取Urbansound8K數(shù)據(jù)集中的冷氣機(jī)、發(fā)動機(jī)空轉(zhuǎn)和警笛三種聲音進(jìn)行驗(yàn)證,每個(gè)種類數(shù)據(jù)集600個(gè),總計(jì)1800個(gè),訓(xùn)練與測試數(shù)量之比為5∶1.實(shí)驗(yàn)結(jié)果如圖11所示,訓(xùn)練1500次時(shí)達(dá)到收斂狀態(tài),測試集準(zhǔn)確率為90%.
圖11 部分 Urbansound8K 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果顯示圖.(a)python顯示圖;(b)識別準(zhǔn)確率變化曲線圖Fig.11 Experimental results display of some Urbansound8K datasets:(a) python display; (b) recognition accuracy change curve
(1)針對“黑飛”無人機(jī)的檢測問題,提出一種反無人機(jī)系統(tǒng)中運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)識別無人機(jī)聲音進(jìn)而檢測無人機(jī)的方法.
(2)采集無人機(jī)聲音樣本,濾波和預(yù)處理后輸入到設(shè)計(jì)的支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,實(shí)驗(yàn)結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)能夠識別,準(zhǔn)確率達(dá)到要求,并且準(zhǔn)確率高于支持向量機(jī).
(3)將經(jīng)典聲音數(shù)據(jù)集輸入所設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò),測試所設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)的性能.實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)識別性能良好,達(dá)到要求.