徐峰, 李平
(華僑大學 信息科學與工程學院, 福建 廈門 361021)
聲場景分類(ASC)和聲事件檢測(SED)是聲音場景分析領域中的兩個獨立任務[1-2].許多研究把重點放在一般用途的環(huán)境聲識別上,很少有專門用于人類活動檢測的方法[3].一般的聲音分類技術與室外人類活動、環(huán)境分類之間存在差距,需要考慮室外更加豐富、嘈雜的噪聲環(huán)境,以及提取的聲音特征是否融合了環(huán)境和人類活動.
傳統(tǒng)的基于隱馬爾科夫模型(HMM)[4]、高斯混合模型(GMM)[5]和支持向量機(SVM)[6]的研究方法需考慮聲音的持續(xù)時間,從而便于對上、下文進行標記[7-8],此外,使用音頻中的關鍵信息區(qū)分場景或事件,往往需要人工設定和精心選擇,適用性較差.隨著神經網絡的發(fā)展,深度學習方法比傳統(tǒng)方法具有更好的性能[9-11].由于聲學事件和環(huán)境密切相關,近期的相關研究已著眼于二者的聯(lián)合分析[12-13].
多任務識別模型學習的關鍵是輸入數(shù)據中是否包含不同任務的區(qū)分特征.人的連續(xù)腳步聲數(shù)據是一種近似周期信號的數(shù)據,可以提取單個周期或單個腳步聲信號,即把模型建立在事件的較短持續(xù)時間上,使事件和環(huán)境的聯(lián)合識別重點避開模型的復雜度.就數(shù)據處理的角度而言,因為音頻信號具有時變特性,基于短幀的特征能夠逼近時不變函數(shù)和表達細節(jié)[14],所以可將音頻流切割成指定長度幀(毫秒級),并提取特征構建模型.基于此,本文構建一個復雜室外環(huán)境下的人體活動數(shù)據集,分析交叉雙腳步聲分割算法和兩種融合特征,提出一種室外人體腳步聲事件及環(huán)境聯(lián)合識別方法.
在音頻信息中區(qū)分非周期信號是音頻信號處理領域最重要的問題之一[15].在一段特定的時間范圍內,腳步聲音頻信號可近似為周期信號,一連串的腳步聲中包含的特征具有重復性,需要將腳步聲音頻信號進行分割,從而降低數(shù)據冗余.
考慮到腳步聲的類周期性,一些研究將分割得到的單個腳步聲數(shù)據作為處理對象,用于后續(xù)任務[16].然而,就人的運動特點而言,雙腳步聲數(shù)據含有更明顯的行為特征,因為人的行走和腳步運動往往以左右或者右左為一個運動周期.同時,如果只按照雙腳步分割原始腳步聲,一方面,會造成部分連續(xù)性特征的損失,另一方面,背景聲的切割會破壞數(shù)據,降低識別精度.因此,提出一種基于包絡波谷值的交叉雙腳步聲分割算法.
基于包絡波谷值的交叉雙腳步聲分割算法如下.
輸入:原始腳步聲數(shù)據data;時間窗Tw.
步驟1初始化變量i,j,n,througmin,troughstepi,dstepj.
步驟2去掉data前無聲的數(shù)據,遍歷數(shù)據,找到最小的波谷點troughmin,troughstepi=troughmin.
步驟4重復步驟3,直至找不到新的腳步波谷值.
步驟5按照時間順序排列troughstepi,再初始化i,分割出第1個交叉雙腳步dstep0=data[0]~troughstepi,第j個交叉雙腳步dstepj=stepi+stepi+1,i=i+1,j=j+1.
通過信號波形,可清晰判斷腳步聲的靜音段,利用中間的靜音分割出一個行動周期內的腳步聲.由于腳步聲音頻數(shù)據極不平滑,無法直接從原始數(shù)據波形中找到單個腳步聲的波谷值,故先對腳步聲數(shù)據取包絡.3個腳步聲的波形及包絡,如圖1所示.圖1中:A為振幅;ts為腳步聲持續(xù)時間;Ns為腳步聲采樣點數(shù).根據包絡中的單個腳步聲波谷值判定單個腳步聲的結束位置,再進行分割,可得交叉雙腳步聲.
(a) 波形 (b) 包絡圖1 3個腳步聲的波形及包絡 Fig.1 Waveforms and envelopes of three footsteps
交叉雙腳步聲切割時,完整地切割了腳步聲數(shù)據,切割后的數(shù)據長度不同,因此,在特征提取時需保證特征數(shù)固定.聲音可以平行地被觀察到,通過室外人體腳步聲數(shù)據可對活動和環(huán)境進行聯(lián)合識別,用于該多任務學習的特征需隨時間的推移而建立.因此,分別從事件、環(huán)境和平衡3個角度進行特征提取.
聲音以壓力波的形式存在于當前時刻,聲音現(xiàn)象只能當作事件,而不能當作物體.從腳步聲判斷人的活動是對跨時間依賴事件的分析,提取的特征必須從時間維度進行考慮.
圖2 腳步聲的時間表示 Fig.2 Time representation of footsteps
(1)
基于人耳聽覺特性提取的梅爾倒譜系數(shù)(MFCC)[17]不依賴于信號的性質,可反映語音信號的靜態(tài)特征,在語音識別和環(huán)境聲分析中得到了廣泛的應用[11].
圖3 MFCC特征的提取過程 Fig.3 Extraction process of MFCC features
MFCC是利用梅爾頻率(Mel)和物理頻率(f)的非線性對應關系得到的物理頻率特征,梅爾頻率和物理頻率之間的關系為
Mel=2 595×lg(1+f/700).
(2)
MFCC特征的提取過程(圖3)如下.
1) 將統(tǒng)一采樣后的交叉雙腳步聲數(shù)據y(n)通過預加重濾波器進行預加重,有
y(n)′=y(n)-α×y(n-1),α=0.95.
(3)
式(3)中:y(n)′為預加重后的數(shù)據;α為預加重系數(shù).
2) 將y(n)′分成短時幀s(n),n=0,1,…,N-1,N為幀的大小,N=512;統(tǒng)一采樣率rs為22 050.經計算可得覆蓋時間tc(單位為ms)為
tc=1 000N/rs≈23.
(4)
3) 采用漢明窗W(n)進行加窗,窗外值設定為0,將每一幀與漢明窗相乘,可得時域信號s(n)′,有
(5)
4) 將時域信號s(n)′轉化到頻域后,進行頻率分析,經離散傅里葉變換(DFT)后的頻譜S(k)為
(6)
式(6)中:k為傅里葉變換的點數(shù);Nw為加窗后的采樣點數(shù).
5) 計算功率譜,并將每幀譜線能量|S(k)|2通過Mel濾波器組后取對數(shù),得到對數(shù)能量Hm(k)和S(m),有
(7)
式(7)中:f(m)為第m個三角濾波器中心頻率;M為三角濾波器的個數(shù),也表示MFCC的維度.
S(m)經離散余弦變換(DCT),得到梅爾倒譜系數(shù),表示為
(8)
式(8)中:L為MFCC階數(shù).
圖4 wetleaves和metal的MFCC特征可視化 Fig.4 MFCC visualization of wetleaves and metal
MFCC特征是經Librosa 0.7數(shù)據處理庫調整數(shù)據維度計算得到,其中,wetleaves和metal的MFCC特征可視化,如圖4所示.由圖4可知:不同環(huán)境下腳步聲數(shù)據的MFCC特征區(qū)別較大.周期性聲音信號通常是由一個基波和若干諧波組成,這些諧波由聲源按照特定的關系隔開,諧波的混合決定了聲音的音色;頻率的分布是非局部分布的,信號特征能夠表示當前的活動環(huán)境.
雖然只采用MFCC特征區(qū)分環(huán)境聲的效果更加突出,但會破壞聯(lián)合識別多任務學習的平衡性.因此,提取一階差分MFCC_Δ和二階差分MFCC_Δ2,以反映音頻信號的動態(tài)特征,加大特征對事件的敏感度.MFCC_Δ表示當前MFCC相鄰兩項的差,可體現(xiàn)交叉雙腳步聲相鄰兩幀的關系;MFCC_Δ2表示當前MFCC_Δ相鄰兩項的關系,可體現(xiàn)交叉雙腳步聲相鄰3幀的動態(tài)關系.
單個領域的特征只代表有限信息,為使模型學習更加平衡,從2個融合特征方向進行考慮.1) MFCC+T;2) MFCCs,MFCCs=MFCC+MFCC_Δ+MFCC_Δ2.為便于比較,融合特征維度保持一致,取36維.其中,MFCC+T由MFCC∶T=30∶6組成;MFCCs由MFCC∶MFCC_Δ∶MFCC_Δ2=12∶12∶12組成.wetdirleaves和wood_r的MFCC,MFCC_Δ,MFCC_Δ2的特征對比,如圖5所示.
(a) wetdirleaves (b) wood_r 圖5 wetdirleaves和wood_r的MFCC,MFCC_Δ,MFCC_Δ2的特征對比 Fig.5 Characteristics comparison of MFCC, MFCC_Δ, MFCC_Δ2 of wetdirleaves and wood_r
為了研究室外人體腳步聲活動事件和環(huán)境的聯(lián)合識別,構建一個數(shù)據集,其相關資料,如表1所示.通過學習數(shù)據本身的性質實現(xiàn)事件和環(huán)境的聯(lián)合識別.
表1 數(shù)據集的相關資料Tab.1 Relevant information of data set
圖6 腳步聲數(shù)據分布 Fig.6 Footstep data distribution
通過交叉腳步聲分割的方法,得到模型的輸入數(shù)據,切割后的腳步聲數(shù)據分布,如圖6所示.圖6中:b為腳步聲數(shù)據的數(shù)量.由于腳步聲的類周期性,實驗數(shù)據不需要非常大.數(shù)據類型分為11類,共586個腳步聲數(shù)據.為了增加模型的泛化能力,勝任多任務識別,采用的數(shù)據類別和數(shù)量都是特定選取的,數(shù)據類標簽帶有_r的表示跑步狀態(tài),其他表示行走狀態(tài).該設計可保證模型能從腳步聲中區(qū)分多種環(huán)境.特別的,如wetdirleaves和wetleaves這兩種類別的腳步聲較為相似,需仔細聆聽才能區(qū)分出兩種腳步聲的場景.此外,選取一組wood場景下,活動類型為跑步和行走的腳步聲,用于訓練模型活動類別的區(qū)分能力.數(shù)據集特別選取了兩對場景相似的跑步和行走狀態(tài)的腳步聲(wetsones_r/wetsand,ice_r/mud),以保證模型能夠在區(qū)分活動類型的同時也能區(qū)分相似的活動場景.
腳步聲對象本身相對較簡單,重點在于設計融合特征,在保證較高精度的前提下,實現(xiàn)事件和環(huán)境
圖7 卷積模型 Fig.7 Convolution model
的聯(lián)合識別.適合的融合特征設計能夠簡化任務,采用較為簡單的模型即可達到多任務識別的要求.建立如下3種較為簡單的深度學習模型,對室外腳步聲事件和環(huán)境進行聯(lián)合識別.
1) 四層感知機(MLP)模型(無狀態(tài)分類算法).每個隱層神經元個數(shù)為50,激活函數(shù)采用ReLU,輸出層采用Softmax.
2) 卷積(CNN)模型(無狀態(tài)分類算法),如圖7所示.圖7中:Max_pooling層后Dropout設置為0.3.
3) 循環(huán)神經網絡(GRU)模型(有狀態(tài)分類算法).在任務中,實驗處理得到交叉雙腳步聲數(shù)據,針對活動事件的識別,提取的特征與時間密切相關,采用有狀態(tài)分類算法門控循環(huán)單元網絡完成任務,單個隱層神經元個數(shù)為50.同時,與前兩種無狀態(tài)分類算法進行比較.
采用3種模型進行實驗對比.學習率為0.01,batch_size為200,迭代次數(shù)為1 000次.
對交叉雙腳步聲數(shù)據提取兩種融合特征MFCC+T,MFCCs,分別采用3種模型訓練,進行聯(lián)合識別.從實驗結果中統(tǒng)計11類數(shù)據的真正例(TP)、假正例(FP)、真反例(TN)及假反例(FN),得到分類結果的混淆矩陣.定義查準率P、查全率R及F1分數(shù)分別為
(9)
(10)
(11)
不同模型的MFCC+T,MFCCs融合特征分類精度,如表2,3所示.表2,3中:δ為分類精度.由表2,3可得以下3點結論.1) 兩種融合特征起到很好的識別效果.2) 相較于MLP模型、GRU模型,CNN模型的建模效果更加突出.同時,MFCC+T比MFCCs表現(xiàn)得更加穩(wěn)定,這是因為除了MFCC特征,還額外從事件的角度上提取特征T,融合特征MFCC+T一方面保證了分類精度,另一方面,使分類模型在事件和環(huán)境上建模平衡.3) 在MLP模型下,MFCCs的效果最差,其對文中數(shù)據集相似環(huán)境的區(qū)分效果不佳,這是由于增加任務復雜性后,設計的數(shù)據中部分環(huán)境容易混淆.混淆矩陣(圖8,d為識別結果的實際數(shù)量)中wetleaves,wetdirleaves的識別效果最差,兩類環(huán)境非常相似.相較而言,采用CNN模型后,MFCC+T能達到最佳效果.實驗中發(fā)現(xiàn)GRU模型在迭代多次后才開始收斂,雖然收斂速度最快,但非常不穩(wěn)定,效果一般.此外,MFCC+T可在無狀態(tài)分類算法中起到比有狀態(tài)分類算法更好的效果.
由實驗可知,原始室外人體腳步聲經過交叉雙腳步聲分割后,提取事件與環(huán)境的融合特征,采用較為簡單的深度模型就能實現(xiàn)室外人體腳步聲事件與環(huán)境聯(lián)合識別.
表2 不同模型的MFCC+T融合特征分類精度Tab.2 Classification accuracy of MFCC+T fusion feature of different models
表3 不同模型的MFCCs融合特征分類精度Tab.3 Classification accuracy of MFCCs fusion feature of different models
(a) MFCCs(MLP模型) (b) MFCC+T(CNN模型)圖8 混淆矩陣 Fig.8 Confusion matrix
提出一種室外人體腳步聲事件及環(huán)境聯(lián)合識別的多任務學習方法,對提出的復雜相似環(huán)境下的人體跑動和行走腳步聲數(shù)據設計分割算法,得到交叉雙腳步聲數(shù)據,從而便于腳步聲事件及環(huán)境特征的提取,通過融合事件與環(huán)境特征平衡任務,能夠用簡單的模型較精準地實現(xiàn)室外人體腳步聲事件及環(huán)境的聯(lián)合識別.由此可知,部分聯(lián)合識別任務從預處理和特征融合的角度出發(fā),可采用簡單模型實現(xiàn)精準識別,簡化任務.