楊貴安,邵玉斌,龍 華,杜慶治
(昆明理工大學(xué),云南 昆明 650500)
在如今信息爆炸的時(shí)代,互聯(lián)網(wǎng)、廣播和視頻中充斥著大量的音頻信息,語音和音樂是音頻數(shù)據(jù)中最重要的兩類。在音頻檢索、語音識(shí)別、語音文字轉(zhuǎn)換以及新聞?wù)浀阮I(lǐng)域中都需要音頻分類這項(xiàng)預(yù)處理技術(shù)以提高整體工作效率,降低錯(cuò)誤率。
音頻分類的關(guān)鍵在于音頻特征選取,現(xiàn)有技術(shù)通常在頻域和時(shí)域內(nèi)尋找區(qū)分度明顯的特征用于音頻分類。例如文獻(xiàn)[1]選取過零率和頻譜作為特征,文獻(xiàn)[2]選取二號(hào)逆Mel濾波器(Energy Variance of Inverse Mel Filter No.2,EVIMF2)的能量方差作為特征,兩篇文獻(xiàn)中分類準(zhǔn)確率最高為文獻(xiàn)[1]的99.3%,但兩篇文獻(xiàn)均以1秒作為分類單元,對(duì)精度小于1秒的音頻類型變化片段難以進(jìn)行準(zhǔn)確劃分。文獻(xiàn)[3]選取過零率(Zero-Crossing Rate,ZCR)的平均值和標(biāo)準(zhǔn)差等7維數(shù)據(jù)作為特征,文獻(xiàn)[4]選取短時(shí)能量和短時(shí)平均過零率等117維數(shù)據(jù)作為特征,兩篇文獻(xiàn)在特征提取部分計(jì)算量較大,對(duì)音頻最終分類效率造成影響。文獻(xiàn)[7]、文獻(xiàn)[8]、文獻(xiàn)[9]均以單一語音和音樂的混合音頻作為分類對(duì)象。文獻(xiàn)[7]對(duì)數(shù)梅爾能量、調(diào)制頻譜等特征進(jìn)行非線性映射和組合用于混合音頻的分割及分類,在特征計(jì)算上將耗費(fèi)較多時(shí)間和資源。文獻(xiàn)[8]采用較新的深度置信網(wǎng)絡(luò)算法對(duì)混合音頻進(jìn)行分割及分類,但以實(shí)驗(yàn)結(jié)果來看最終分類準(zhǔn)確率93.94%有待提高。文獻(xiàn)[9]將一維音頻信號(hào)處理和二維圖像信號(hào)處理結(jié)合起來提取多個(gè)特征用于音頻分類,其最終分類準(zhǔn)確率95.68%仍然不是最佳效果。
因此,本文提出一種基于音頻分割的音頻分類算法,對(duì)待分類音頻先進(jìn)行分割再進(jìn)行分類。在分割階段,結(jié)合能熵比和文獻(xiàn)[1]中提到的幅度均方根(Root Mean Square,RMS)實(shí)現(xiàn)音頻分割,音頻分割目的是檢測(cè)出所有音頻類型變化點(diǎn),而基于能熵比的音頻分割中以8 ms為幀移逐幀進(jìn)行計(jì)算,所以對(duì)音頻類型變化點(diǎn)的檢測(cè)能精確到8 ms。音頻分割對(duì)單一音頻不存在過分割現(xiàn)象,因此不會(huì)對(duì)單一音頻分類結(jié)果產(chǎn)生影響,對(duì)混合音頻而言可能存在過分割現(xiàn)象,此問題在同類型的相鄰音頻段合并時(shí)得到解決。文中用統(tǒng)計(jì)方法證明了選取幅度的峰態(tài)系數(shù)和平均基頻作為分類特征的可行性,因此在分類階段,對(duì)分割所得音頻段提取幅度的峰態(tài)系數(shù)和平均基頻兩個(gè)特征,并利用高斯混合模型作為后端分類器進(jìn)行分類,將同類型的相鄰音頻段合并便得到最終分類結(jié)果。僅提取二維特征的先分割再分類算法不僅提高了分類效率,還獲得了良好的分類效果。
音頻分割需要兩個(gè)步驟,第一步基于能熵比特征進(jìn)行分割,第二步基于幅值均方根特征進(jìn)行分割。將第一步中滿足閾值條件的結(jié)果與第二步的結(jié)果進(jìn)行組合形成新的音頻段,即音頻分割結(jié)果。
說話人在講話間隙會(huì)出現(xiàn)停頓,所以語音信號(hào)存在大量靜音段,而音樂本身呈現(xiàn)的連續(xù)性較好,音樂信號(hào)一般不存在靜音段,因此兩類音頻信號(hào)的能熵比在時(shí)間軸上高于設(shè)定能熵比閾值的點(diǎn)的密集程度會(huì)有所區(qū)別,如圖1(b)所示為能熵比高于0.05的點(diǎn),利用此特點(diǎn)對(duì)音頻進(jìn)行分割。
圖1 基于能熵比的音頻分割
待分割音頻以32 ms為幀長(zhǎng),8 ms為幀移進(jìn)行分幀,一幀信號(hào)數(shù)據(jù)的能熵比(Energy entropy ratio,Er)計(jì)算如下:
式中,y(n)為一幀信號(hào)中第n個(gè)采樣點(diǎn)所對(duì)應(yīng)的幅度,n=1,2,3,…,L,L為幀長(zhǎng),H為一幀音頻信號(hào)的譜熵值。
一段音頻內(nèi)幀信號(hào)的能熵比(Er)大于0.05的其中兩幀為第r幀和第s幀,其中r<s,若s-r大于1,則第r幀處為一個(gè)分割點(diǎn)。分割結(jié)果如圖1(c)所示,可以看出音樂信號(hào)的分割較為準(zhǔn)確,而語音信號(hào)被分割為非靜音段和靜音段,即對(duì)語音信號(hào)進(jìn)行了過度分割,此問題在基于幅度均方根的音頻分割中將得到較好的解決。
待分隔音頻以20 ms為幀長(zhǎng),零幀移進(jìn)行分幀,50幀即1 s作為一個(gè)單元,幅度均方根(RMS)計(jì)算如下:
對(duì)于每一個(gè)單元而言,不同參數(shù)的廣義x2分布很好地?cái)M合了語音和音樂信號(hào)的幅度均方根統(tǒng)計(jì)直方圖[5]。兩個(gè)單元之間的相似度表示如下:
式中:
式中,σi和μi為第i個(gè)單元信號(hào)幅度均方根的均值和標(biāo)準(zhǔn)差。
對(duì)于第i個(gè)單元,其相鄰兩個(gè)單元的音頻類型是否發(fā)生變化由單元之間相似度的距離來決定,距離計(jì)算如下:
若相鄰單元的音頻類型發(fā)生變化,其相似度距離D(i)較大,反之D(i)較小。
由于音頻信號(hào)活動(dòng)是時(shí)變的,因此對(duì)D(i)進(jìn)行局部標(biāo)準(zhǔn)化[5],計(jì)算如下:
式中,V(i)為當(dāng)前單元距離D(i)與前后相鄰兩單元距離的均值之差,即
DM(i)為與當(dāng)前單元前后相鄰兩單元距離的最大值,即
音頻信號(hào)的歸一化距離如圖2(a)所示。在所有小于1的Dn中尋找出最大值并求其二分之一作為閾值,大于閾值的Dn所對(duì)應(yīng)的時(shí)間點(diǎn)即為音頻的分割點(diǎn)。分割結(jié)果如圖2(b)所示,語音信號(hào)的分割較為完整,但是對(duì)音頻信號(hào)的分割不夠準(zhǔn)確。
圖2 基于幅值均方根的音頻分割
因此需要結(jié)合兩種分割方法的優(yōu)點(diǎn),使得分割點(diǎn)盡可能精確。將基于能熵比的音頻分割結(jié)果中幀數(shù)大于T1或幀數(shù)減去T2再除于T2取整不為0的音頻段與基于幅度均方根的音頻分割結(jié)果進(jìn)行組合,T1、T2的計(jì)算如下:
式中,fs為音頻的采樣率,I為基于能熵比的音頻分割中分幀時(shí)所設(shè)幀移。
式中,v為基于能熵比的音頻分割結(jié)果中所有音頻段的幀數(shù)。
音頻分割的目的是檢測(cè)出所有音頻類型的變化點(diǎn),而基于能熵比的音頻分割中以8 ms為幀移逐幀進(jìn)行計(jì)算,所以對(duì)音頻類型變化點(diǎn)的檢測(cè)能精確到8 ms。整個(gè)音頻分割過程如圖3所示,將兩種分割方法分割所得音頻段的起始點(diǎn)和終止點(diǎn)升序排列并兩兩組合形成新的音頻段作為音頻分割結(jié)果。音頻分割結(jié)果如圖4所示,語音/音樂信號(hào)內(nèi)部仍存在分割點(diǎn),此類分割點(diǎn)在音頻段分類后進(jìn)行同類型的相鄰音頻段合并時(shí)可消除。
圖3 音頻分割過程
圖4 音頻分割結(jié)果
選取區(qū)分度明顯的音頻特征用于音頻分類既可以降低所提取特征的維度,又能保證分類的準(zhǔn)確率。本文選取幅度的峰態(tài)系數(shù)和平均基頻作為分類特征。
觀察語音和音樂信號(hào)的波形可以發(fā)現(xiàn)兩者有較大差別,因此波形的統(tǒng)計(jì)特征可以用其幅度的概率密度函數(shù)來描述,而峰態(tài)系數(shù)是表征概率密度分布曲線在平均值處峰值高低的特征數(shù),一段音頻信號(hào)幅度的峰態(tài)系數(shù)K計(jì)算如下:
式中,N為音頻信號(hào)采樣點(diǎn)數(shù),xj為音頻信號(hào)第j個(gè)采樣點(diǎn)所對(duì)應(yīng)的幅度。
圖5為采樣率8 kHz,時(shí)長(zhǎng)10 s,單聲道的150段音樂信號(hào)(包括各種風(fēng)格的歌唱聲、樂器音等)和150段語音信號(hào)(包括男女混合音、男音、女音)幅度的峰態(tài)系數(shù)統(tǒng)計(jì)圖。統(tǒng)計(jì)結(jié)果表明,音樂信號(hào)幅度的峰態(tài)系數(shù)大部分集中在5附近,而語音信號(hào)幅度的峰態(tài)系數(shù)大部分集中在10附近,這是因?yàn)橐魳沸盘?hào)波形更連續(xù),其幅度范圍廣泛,概率密度分布曲線平緩,所以峰態(tài)系數(shù)較小,而語音信號(hào)波形較離散,其幅度更集中于某一個(gè)值,概率密度分布曲線陡峭,所以峰態(tài)系數(shù)較大。
圖5 音頻信號(hào)幅度的峰態(tài)系數(shù)統(tǒng)計(jì)直方圖
基音頻率是語音信號(hào)的一個(gè)重要屬性,可以作為區(qū)分語音和音樂信號(hào)的一個(gè)特征,因此對(duì)基頻進(jìn)行進(jìn)一步統(tǒng)計(jì)分析。本文采用傳統(tǒng)的倒譜法計(jì)算基音頻率,對(duì)每一段音頻的基音頻率求均值并進(jìn)行統(tǒng)計(jì)。圖6所示是對(duì)各150段音樂信號(hào)和語音信號(hào)的平均基頻進(jìn)行統(tǒng)計(jì)的結(jié)果,可以看出語音信號(hào)的平均基頻主要分布在100~200 Hz,而音樂信號(hào)的平均基頻主要分布在200~350 Hz。
圖6 音頻信號(hào)平均基頻統(tǒng)計(jì)直方圖
對(duì)分割所得音頻段提取幅度的峰態(tài)系數(shù)和平均基頻兩個(gè)特征,并利用高斯混合模型作為后端分類器進(jìn)行分類,將同類型的相鄰音頻段合并便得到最終分類結(jié)果。最終分類結(jié)果如圖7所示,字母“M”代表音頻段類型為音樂,字母“S”代表音頻段類型為語音。
圖7 音頻最終分類結(jié)果
以MATLAB為平臺(tái)進(jìn)行算法實(shí)驗(yàn),實(shí)驗(yàn)所使用的音頻包括單一語音、音樂音頻及其兩者的混合音頻,音樂含有經(jīng)典、藍(lán)調(diào)、流行和爵士等七種風(fēng)格,語音來自中國(guó)之聲和清華大學(xué)王東教授的語音數(shù)據(jù)集,所有音頻均為采樣率8 kHz、16位精度的單聲道Wave文件。
實(shí)驗(yàn)使用時(shí)長(zhǎng)3秒的單一語音和單一音樂音頻各150段訓(xùn)練高斯混合模型,對(duì)300段待識(shí)別音頻進(jìn)行識(shí)別測(cè)試,300段音頻包含時(shí)長(zhǎng)為10 s、5 s、3 s、2 s和1 s的單一音樂和單一語音音頻各30段。音頻分類準(zhǔn)確率計(jì)算如下:
分類結(jié)果如表1所示。
表1 單一音頻分類結(jié)果
分類結(jié)果表明上述所提取的兩個(gè)特征用于音頻分類是非常有效的。
實(shí)驗(yàn)使用15段5 s和60 s單一語音和音樂的混合音頻進(jìn)行分割和分類測(cè)試。分類時(shí),若分割時(shí)間與人工標(biāo)注的時(shí)間相差超過0.5 s,就認(rèn)為分割時(shí)間和標(biāo)準(zhǔn)時(shí)間之間的音頻段是錯(cuò)誤分類[6]。分類精度定義為:
分類結(jié)果如表2所示。分類后,同類型的相鄰音頻段進(jìn)行合并便得到最終分類結(jié)果。
表2 混合音頻分類結(jié)果
將漏檢和多檢(譬如實(shí)際只有一個(gè)分割點(diǎn),卻被檢測(cè)為多個(gè)分割點(diǎn))定義為檢測(cè)錯(cuò)誤,結(jié)果如表3所示。
表3 混合音頻分割結(jié)果
通過表2和表3的實(shí)驗(yàn)結(jié)果數(shù)據(jù)可以看出,針對(duì)單一語音和音樂的混合音頻而言,本文結(jié)合兩種不同分割方法的優(yōu)點(diǎn)進(jìn)行音頻分割的方式效果理想,正是由于對(duì)音頻分割點(diǎn)(音頻變化點(diǎn))的計(jì)算較為準(zhǔn)確,因此對(duì)混合音頻的分類效果和對(duì)單一音頻的分類效果能達(dá)成一致,準(zhǔn)確率仍能達(dá)到98.61%。分類的準(zhǔn)確性降低了同類音頻合并時(shí)出錯(cuò)的概率,因此對(duì)過分割點(diǎn)的消除也更為準(zhǔn)確,最終混合音頻分割準(zhǔn)確率達(dá)到98.24%。與年份較近的文獻(xiàn)[7-9]相比較,本文提出的音頻分割和分類算法在保證準(zhǔn)確率的前提下,僅提取二維特征,大大降低了運(yùn)算量,能更好滿足實(shí)時(shí)性要求,且從實(shí)驗(yàn)結(jié)果來看,最終分類的準(zhǔn)確率比文獻(xiàn)[8]提高了4.67%,比文獻(xiàn)[9]提高了2.93%,準(zhǔn)確率平均提高3.80%。綜合實(shí)際情況分析,本文所提出的音頻分割和分類算法計(jì)算量小、效果穩(wěn)定、整體結(jié)構(gòu)易于實(shí)現(xiàn),具有一定的實(shí)際應(yīng)用價(jià)值。
本文提出了一種基于音頻分割的音頻分類算法。首先結(jié)合基于能熵比特征和基于幅度均方根特征的兩種分割方法對(duì)待分類音頻進(jìn)行分割,對(duì)分割所得音頻段提取幅度的峰態(tài)系數(shù)和平均基頻兩個(gè)特征,并利用高斯混合模型作為后端分類器進(jìn)行分類,將同類型的相鄰音頻段合并便得到最終分類結(jié)果。與現(xiàn)有分類算法相比,本文提出的算法對(duì)單一語音和音樂的混合音頻進(jìn)行分類更為適用。本文算法具有很高的分割準(zhǔn)確率,僅提取二維特征便得到較高的分類準(zhǔn)確率,既減小了特征計(jì)算、建模等時(shí)間代價(jià),又提高了對(duì)單一語音、音樂音頻及其混合音頻進(jìn)行分類的效率和準(zhǔn)確率,算法效果穩(wěn)定、整體結(jié)構(gòu)易于實(shí)現(xiàn),該語音/音樂分割與分類算法具有一定可行性和實(shí)用性。在后續(xù)工作中,考慮使用更多音頻樣本測(cè)試本文算法的分類準(zhǔn)確率。