辛欣, 陳曙東, 仝明磊, 胡文皓, 劉陳偉, 葛浩棟
(1. 中國(guó)科學(xué)院大學(xué) 電子電氣與通信工程學(xué)院, 北京 100049;
2. 中國(guó)科學(xué)院微電子研究所, 北京 100029;
3. 中國(guó)物聯(lián)網(wǎng)研究發(fā)展中心, 江蘇 無錫 214135;
4. 上海電力學(xué)院 電子與信息工程學(xué)院, 上海 200090)
?
采用潛在概率語義模型和K近鄰分類器的音頻分類算法
辛欣1,3, 陳曙東2,3, 仝明磊4, 胡文皓1,3, 劉陳偉1,3, 葛浩棟3
(1. 中國(guó)科學(xué)院大學(xué) 電子電氣與通信工程學(xué)院, 北京 100049;
2. 中國(guó)科學(xué)院微電子研究所, 北京 100029;
3. 中國(guó)物聯(lián)網(wǎng)研究發(fā)展中心, 江蘇 無錫 214135;
4. 上海電力學(xué)院 電子與信息工程學(xué)院, 上海 200090)
摘要:提出一種基于潛在概率語義(PLSA)模型和K近鄰分類器的音頻分類算法.首先,將信號(hào)特征向量送入潛在概率語義模型中訓(xùn)練,獲得聲音主題詞袋模型;然后,使用K近鄰分類器(KNN)進(jìn)行分類.實(shí)驗(yàn)結(jié)果表明:與傳統(tǒng)的K近鄰分類算法相比,提出的算法在分類效果上有較明顯的改善.
關(guān)鍵詞:梅爾頻率倒譜系數(shù); 詞-頻共現(xiàn)矩陣; 聲音主題詞袋模型; 潛在概率語義模型; K近鄰分類器
音頻分類是異常聲音檢測(cè)系統(tǒng)中的重要模塊,可以依據(jù)音頻特征區(qū)分不同的音頻信號(hào).在音頻分類研究中,Radhakrishnan等[1]給出在電梯里檢測(cè)罪案的音頻分類系統(tǒng)框架.該系統(tǒng)提取梅爾倒譜系數(shù)(Mel frequency cepstral coefficients,MFCC)特征,用高斯混合模型(GMM)進(jìn)行分類和識(shí)別報(bào)警聲、撞墻聲等聲音事件.Atrey等[2]采用過零率ZCR和線性倒譜系數(shù)(linear frequency cepstral coefficient,LFCC)等特征參數(shù),使用GMM模型進(jìn)行分類.結(jié)合詞袋模型,Aucouturier[3]提出了對(duì)應(yīng)的幀袋模型,將音頻中的一些連續(xù)的音頻幀作為一個(gè)整體提取相應(yīng)的音頻特征.冀中等[4]提出了一種與HMM相結(jié)合的分層音頻分類算法.Zeng等[5]采用一些常用的音頻特征,如梅爾倒譜系數(shù)、聲音功率等進(jìn)行聚類和分類,利用潛在概率語義模型(PLSA)對(duì)音樂片段進(jìn)行分類.容寶華[6]提出了一種基于MFCC的簡(jiǎn)化的特征,選取最近鄰分類器和 K 近鄰分類器,對(duì)音頻進(jìn)行分類.目前,音頻分類算法在異常聲音監(jiān)測(cè)系統(tǒng)中的效果仍然不夠理想.為了改善分類準(zhǔn)確率,本文在傳統(tǒng)的K近鄰分類算法基礎(chǔ)上進(jìn)行改進(jìn),在提取音頻信號(hào)特征以后不立即進(jìn)行分類,而是先送入PLSA概率語義模型獲取聲音主題詞袋模型,降低語音信號(hào)特征矩陣的維數(shù),再使用分類器進(jìn)行分類.
1音頻分類算法
算法分為3個(gè)模塊:特征提取與處理模塊、概率潛在語義模型模塊和分類器模塊,分別完成特征矩陣提取、獲取聲音主題詞袋模型和分類功能.
1.1特征提取與處理
由于梅爾頻率倒譜系數(shù)含有語義信息,并結(jié)合人耳感知特性與語音信號(hào)的產(chǎn)生機(jī)制,具有良好的識(shí)別能力和抗噪性能.而差分倒譜系數(shù)能表現(xiàn)出2個(gè)音頻幀之間的關(guān)聯(lián),體現(xiàn)幀與幀之間的信息量.因此,選擇提取前12維的MFCC系數(shù)和12維的MFCC一階差分系數(shù).
在特征提取之前,需要對(duì)每一段音頻進(jìn)行預(yù)處理.首先,對(duì)原始音頻信號(hào)進(jìn)行預(yù)加重處理,以提升高頻部分的能量,減少尖銳噪聲的影響;然后,分割音頻為1 s大小的片段,相鄰片段間無重疊部分;再對(duì)每個(gè)片段加漢明窗形成幀,幀長(zhǎng)約23 ms,相鄰幀之間有50%的重疊部分.特征提取流程,如圖1所示.
圖1 特征提取流程圖Fig.1 Feature extraction flow chart
對(duì)得到的語音信號(hào)進(jìn)行濾波、去噪,獲取24維MFCC特征向量.類似于文本文件,每一段語音信號(hào)相當(dāng)于一篇文本.文本中的詞對(duì)應(yīng)語音信號(hào)中的MFCC幀向量.對(duì)于已知類別的語音信號(hào)訓(xùn)練集,由于每段語音信號(hào)長(zhǎng)度不一樣,假如第i個(gè)語音信號(hào)di包含M幀,每一幀是N維,那么每一個(gè)語音信號(hào)表示為di={w1,w2,w3,…,wM}∈RM×N,i=1,2,3,…,n.全部音頻文件構(gòu)成一個(gè)V×N的矩陣,其中,V=M×n.這個(gè)矩陣是一個(gè)由幀向量構(gòu)成的全部特征集合,進(jìn)而可以得到一個(gè)V×n的詞-頻共現(xiàn)矩陣Ti,j=num(wj,di),它由音頻文件在這個(gè)特征集合中出現(xiàn)的頻率構(gòu)成.對(duì)于測(cè)試音頻文件(語音信號(hào))集dtest,i,i=1,2,3,…,ntest,同樣會(huì)得到一個(gè)V×ntest的詞-頻共現(xiàn)矩陣Ttest=num(wj,dtest).
1.2概率潛在語義分析模型
概率潛在語義分析模型(probabilisticlatentsemanticanalysis,PLSA)通過[7]奇異值分解,將高維詞匯-文檔共現(xiàn)矩陣降到低維的潛在語義空間,使表面上不相關(guān)的詞匯能體現(xiàn)深層次的語義聯(lián)系,從而能解決部分文檔語義分析中同義詞與異義詞的問題.
在PLSA的方法中,將隱含變量z∈Z={z1,z2,z3,…,zk}與詞匯w∈W={w1,w2,…,wM}在文檔d∈D={d1,d2,…,dN}中出現(xiàn)的頻率(詞頻共現(xiàn)矩陣)聯(lián)系起來,該統(tǒng)計(jì)模型表示為[8]詞匯與文檔的聯(lián)合概率.
P(di)是每段語音信號(hào)出現(xiàn)的概率,P(zk|di)表示潛在主題類別zk的條件概率,P(wi|zk)表示在潛在主題zk下產(chǎn)生音頻幀wi的概率,即
(1)
(2)
PLSA模型假設(shè)詞-文檔對(duì)之間相互獨(dú)立,潛在語義詞zk在詞和文檔上的分布獨(dú)立.模型給出目標(biāo)函數(shù)為
上式中:f(di,wj)為詞匯wj在文檔di中的概率.
采用EM算法求解參數(shù),有如下2個(gè)步驟.
步驟E
(3)
步驟M
(4)
(5)
通過不停地迭代步驟E和步驟M,直到收斂,使得L最大化.訓(xùn)練結(jié)束后,得到的P(zk|di)即為聲音主題詞袋模型.而對(duì)于測(cè)試語音,則得到P(zk|dtest).P(zk|di)和P(zk|dtest)作為分類器的輸入進(jìn)行分類.由于文中算法是在K近鄰算法上的改進(jìn),所以選擇K近鄰(K-nearest neighbor,KNN)分類器.
1.3分類器
(6)
當(dāng)p=2時(shí),Lp稱為歐氏距離(Euclideandistance).文中算法的KNN采用歐氏距離.
K近鄰算法具體如下.
輸入:訓(xùn)練數(shù)據(jù)集
其中:xi∈χRn為訓(xùn)練實(shí)例的特征向量;yi∈γ={c1,c2,…,ck}為實(shí)例的類別,i=1,2,…,N.
特征向量x為P(zk|di),y通過人工方法標(biāo)注為已知的.測(cè)試特征向量xtest為P(zk|dtest).
輸出:實(shí)例xtest所屬的類y.
1) 根據(jù)距離度量,在訓(xùn)練集T中找出與xtest最近鄰的k個(gè)點(diǎn),涵蓋k個(gè)點(diǎn)的x的鄰域記為Nk(x).
2) 在Nk(x)中,根據(jù)分類決策準(zhǔn)則(如多數(shù)表決規(guī)則)決定x的類別y,即
(7)
式(7)中:I為指示函數(shù),即當(dāng)yi=cj時(shí),I為1;否則,I為0.
2實(shí)驗(yàn)與結(jié)果分析
2.1訓(xùn)練樣本
為了驗(yàn)證文中算法的有效性,采用已獲得標(biāo)記后的音頻樣本集,在單機(jī)實(shí)驗(yàn)環(huán)境中驗(yàn)證,并與傳統(tǒng)的KNN算法作對(duì)比.
1) 測(cè)試環(huán)境搭建:4GB內(nèi)存的PC機(jī);Windows7操作系統(tǒng);MatlabR2010b.
2) 測(cè)試數(shù)據(jù)集:4類音頻文件,分別是爆炸聲、槍聲、警報(bào)聲、人聲(呼救聲).其中,訓(xùn)練聲音文件192個(gè),測(cè)試音頻文件90個(gè).聲音是未經(jīng)過去噪的原始語音.
這4類聲音是異常聲音檢測(cè)系統(tǒng)中最重要的檢測(cè)對(duì)象,能夠檢測(cè)出這幾種聲音有很重要的實(shí)際價(jià)值.因此,實(shí)驗(yàn)中以此為測(cè)試數(shù)據(jù)集.訓(xùn)練語音的各類別樣本,如圖2所示.圖2中:t為時(shí)間;f為頻率;
(a) 爆炸聲信號(hào)波形 (b) 警報(bào)聲信號(hào)波形 (c) 槍聲信號(hào)波形
(d) 人聲信號(hào)波形 (e) 爆炸聲信號(hào)頻譜 (f) 警報(bào)聲信號(hào)頻譜
(g) 槍聲信號(hào)頻譜 (h) 人聲信號(hào)頻譜圖2 訓(xùn)練語音波形圖和頻譜圖Fig.2 Training voice waveform and spectrum
M為幅度.
2.2實(shí)驗(yàn)驗(yàn)證
分別提取訓(xùn)練聲音信號(hào)和測(cè)試聲音信號(hào)的MFCC和一階差分MFCC特征后,構(gòu)建詞-頻共現(xiàn)矩陣,送入PLSA模型進(jìn)行訓(xùn)練獲得P(zk|di)和P(zk|dtest),再送入KNN分類器中,得到分類結(jié)果.
使用K近鄰分類,當(dāng)k取值不同時(shí),分類的準(zhǔn)確率是不同的.當(dāng)k取值不同時(shí),使用PLSA+KNN的分類方法與直接使用KNN分類方法的結(jié)果對(duì)比,如圖3所示.圖3中:η為分類準(zhǔn)確率;k為最近鄰的數(shù)目.
圖3 k取不同值時(shí)分類結(jié)果Fig.3 Classification results of different values of k
由圖3可知:當(dāng)k=11時(shí),分類準(zhǔn)確率最高.取k=11,對(duì)比其他分類方法的準(zhǔn)確率(η),如表1所示.
表1 k=11時(shí)不同算法分類結(jié)果對(duì)比
由于文中實(shí)驗(yàn)數(shù)據(jù)處理及環(huán)境、參數(shù)設(shè)置的問題,實(shí)驗(yàn)的結(jié)果與原始論文中的算法的結(jié)果之間可能有所差別.
2.3結(jié)果分析
在實(shí)驗(yàn)中,對(duì)于4類音頻文件組成的訓(xùn)練集,先構(gòu)建詞-頻共現(xiàn)矩陣,使用PLSA模型計(jì)算隱含主題類別的條件概率,獲得聲音主題詞袋模型,再送入KNN分類器的方法比直接用KNN分類器處理詞頻矩陣的分類方法有更高的準(zhǔn)確率,準(zhǔn)確率提高了大約3.3%.對(duì)于KNN分類器,k值的選取也會(huì)影響到算法的分類精度.文中算法對(duì)比了PLSA+KNN算法與傳統(tǒng)KNN算法分別在k取最優(yōu)值時(shí)的分類效果.此外,如果使用SVM[10]分類器(PLSA+SVM),相較于KNN也有約2.2%的提高.而同樣是先送入PLSA模型中,選擇了不同的分類器時(shí),PLSA+KNN算法比PLSA+SVM算法有更好的性能表現(xiàn),提高了約1.1%.由于音頻數(shù)據(jù)樣本量少、特征提取方法等原因,整體準(zhǔn)確率偏低.但是,不同分類方法之間的區(qū)別還是較為明顯的.實(shí)驗(yàn)結(jié)果表明:文中算法相較于傳統(tǒng)算法,在分類效果上有較明顯的改善.
3結(jié)束語
音頻分類模塊屬于異常聲音監(jiān)測(cè)系統(tǒng)的重要模塊.目前,采用的傳統(tǒng)分類算法在分類效果方面不能很好地滿足實(shí)際的需求.提出一種基于潛在概率語義模型和K近鄰算法的音頻分類算法.該算法首先對(duì)音頻信號(hào)進(jìn)行信號(hào)處理獲取特征矩陣,然后送入潛在概率語義模型,再使用K近鄰分類器進(jìn)行分類.實(shí)驗(yàn)中,將文中算法應(yīng)用于4類音頻文件組成的數(shù)據(jù)集,并與傳統(tǒng)的KNN分類算法進(jìn)行了分類效果對(duì)比.結(jié)果表明:文中算法在分類效果方面有較明顯的改善.同時(shí),驗(yàn)證了使用其他分類器(PLSA+SVM)時(shí)的分類效果.由于驗(yàn)證用的實(shí)驗(yàn)對(duì)象數(shù)量和品種不夠,算法本身也有一些局限,整個(gè)研究還有進(jìn)一步提升的空間,未來將繼續(xù)改進(jìn).
參考文獻(xiàn):
[1]RADHAKRISHNAN R,DIVAKARAN A.Systematic acquisition of audio classes for elevator surveillance[C]∥SPIE Image and Video Communications and Processing.San Jose:[s.n.],2005:64- 71.
[2]ATREY P K, MADDAGE N C, KANKANHALLI M S. Audio based event detection for multimedia surveillance[C]∥International Conference on Acoustics, Speech and Signal Processing.Toulouse:IEEE Press,2006:3-5.
[3]AUCOUTURIER J J.The bag-of-frames approach to audio pattern recognition: A sufficient model for urban sound scapes but not for polyphonic music [J].Journal of Acoustical Society of America,2007,122(2):881-891.
[4]冀中.面向新聞視頻內(nèi)容分析的音頻分層分類算法[J].計(jì)算機(jī)應(yīng)用研究,2009,26(5):1673-1675.
[5]ZENG Zhi,ZHANG Shuwu.A novel approach to musical genre classification using probabilistic latent semantic analysis model[C]∥International Conference on Multimedia and Expo.New York:IEEE Press,2009:486- 489.
[6]容寶華.基于最小距離的音頻分類方法的研究[J].電聲技術(shù),2012,36(11):46-51,65.
[7]張寶印.面向情感的電影背景音樂分類分類方法研究[D].武漢:華中科技大學(xué),2011:26.
[8]石晶,戴國(guó)忠.基于PLSA模型的文本分割[J].計(jì)算機(jī)研究與發(fā)展,2007,44(2):242-248.
[9]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2013:37-40.
[10]郭金玲,王文劍.一種基于數(shù)據(jù)分布的SVM核選擇方法統(tǒng)計(jì)學(xué)習(xí)方法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,34(5):525-528.
(責(zé)任編輯: 黃曉楠英文審校: 吳逢鐵)
Audio Classification Algorithm Using Probabilistic Latent Semantic Models and K Nearest Neighbor Classifier
XIN Xin1,3, CHEN Shudong2,3, TONG Minglei4,HU Wenhao1,3, LIU Chenwei1,3, GE Haodong3
(1. School of Electronic, Electrical and Communication Engineering,University of Chinese Academy of Sciences, Beijing 100049, China;2. Institute of Microelectronics, Chinese Academy of Sciences, Beijing 100029, China;3. China R&D Center for Internet of Things, Wuxi 214135, China;4. School of Electronics and Information Engineering, Shanghai University of Electric Power, Shanghai 200090, China)
Abstract:The paper proposed an audio classification algorithm based on probabilistic latent semantic analysis model (PLSA) and K-nearest neighbor classifiers (KNN). The algorithm first feed the audio signal feature vector into the PLSA model training to get a bag of sound frames models, then classify with the KNN classifier. Experimental results showed that the proposed classification algorithm has better classification effect compared with the traditional KNN algorithm.
Keywords:Mel frequency cepstral coefficients; word-frequency of co-occurrence matrix; bag of sound frames models; probabilistic latent semantic analysis model; K-nearest neighbor classifiers
中圖分類號(hào):TP 391
文獻(xiàn)標(biāo)志碼:A
基金項(xiàng)目:江蘇省基礎(chǔ)研究計(jì)劃(自然科學(xué)基金)面上項(xiàng)目(BK20141116)
通信作者:陳曙東(1977-),女,研究員,博士,主要從事大數(shù)據(jù)管理的研究.E-mail:chenshudong@ciotc.org.
收稿日期:2015-09-18
doi:10.11830/ISSN.1000-5013.2016.02.0196
文章編號(hào):1000-5013(2016)02-0196-05