莊 嚴(yán),于鳳芹
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫214122)
其中,p代表譜圖成分的掩膜權(quán)重系數(shù),通常p取值1,2。
利用掩膜從混合原復(fù)數(shù)譜圖中分離得到打擊與和聲成分譜圖和:
基于節(jié)奏和韻律調(diào)制譜特征的音樂流派分類
莊 嚴(yán),于鳳芹
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫214122)
音樂主要包括形成節(jié)奏的沖擊成分和形成韻律的和聲成分,直接從音樂信號(hào)中提取特征會(huì)受到這2種成分相互影響。利用節(jié)奏與和聲在時(shí)頻平面具有不同規(guī)律的特點(diǎn),通過對(duì)音樂信號(hào)進(jìn)行譜圖濾波,分離出音樂中的打擊成分與和聲成分。對(duì)打擊與和聲譜圖分別進(jìn)行小波調(diào)制,得到表現(xiàn)音樂節(jié)奏和韻律譜規(guī)律的調(diào)制譜特征,將其作為音樂流派分類中的長(zhǎng)時(shí)特征。仿真實(shí)驗(yàn)結(jié)果表明,分離后的打擊與和聲成分譜圖清晰地表征了音樂節(jié)奏和韻律的特點(diǎn)和規(guī)律;對(duì)8類音樂流派提取打擊與和聲調(diào)制譜特征,經(jīng)線性鑒別分析降維后利用支持向量機(jī)進(jìn)行分類,分類準(zhǔn)確率達(dá)到73.54%。
譜圖分離;中值濾波;小波調(diào)制譜;節(jié)奏和韻律;中級(jí)特征;音樂流派分類
音樂分類檢索系統(tǒng)的研究和應(yīng)用近年來受到廣泛關(guān)注[1]。音樂風(fēng)格流派是最主要的分類依據(jù),它取決于音樂的文化背景、演奏樂器、藝術(shù)家等諸多因素。目前,多數(shù)音樂流派分類的特征都是基于時(shí)頻譜圖的短時(shí)特征,如倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)特征、頻譜對(duì)比度特征等[2],通常為20 ms~30 ms,忽略了音樂長(zhǎng)時(shí)特征所包含的語義性,1 s~2 s的中時(shí)特征能夠反映音符的變化和顫音,更長(zhǎng)的音樂片段乃至整個(gè)音樂樣本的長(zhǎng)時(shí)特征能夠統(tǒng)計(jì)節(jié)拍快慢、情感變化[3];另一方面,音樂樣本由多種音樂元素組成,在特征提取階段,往往并不考察音樂元素之間的差異,直接對(duì)成分混合的整個(gè)樣本提取特征,不同成分間相互干擾,使特征提取困難,所提取的特征也不能較好反映流派特點(diǎn),最終導(dǎo)致分類識(shí)別率較低。文獻(xiàn)[4]提出了調(diào)制譜對(duì)比度特征來表征音樂信號(hào)隨時(shí)間變化的長(zhǎng)時(shí)信息,來彌補(bǔ)短時(shí)特征的不足,但并沒有考慮不同音樂元素時(shí)變信息的差異和相互間干擾。文獻(xiàn)[5]模擬人類聽覺系統(tǒng)對(duì)音樂信號(hào)的處理,得到音樂的聽覺譜圖再提取特征,從而得到時(shí)變信息,但聽覺系統(tǒng)同時(shí)也過濾了音樂某些細(xì)節(jié)信息,對(duì)GTZAN庫(kù)仿真實(shí)驗(yàn)取得了74%的平均準(zhǔn)確率。文獻(xiàn)[6]提取音樂和聲序列作為流派分類的長(zhǎng)時(shí)特征,對(duì)9類流派分類達(dá)到了68%的準(zhǔn)確率,但其忽略了至關(guān)重要的節(jié)奏信息。文獻(xiàn)[7]利用互聯(lián)網(wǎng)標(biāo)簽、藝術(shù)家姓名等語義特征進(jìn)行流派分類,同時(shí),節(jié)拍、主旋律、樂器信息等中級(jí)特征模型被不斷提出[8-10],為信息檢索和分類系統(tǒng)研究提供了新思路。
本文提出基于譜圖分離的節(jié)奏和韻律調(diào)制譜特征的音樂流派分類算法。針對(duì)成分混疊引起的相互干擾,利用中值濾波法對(duì)音樂原始譜圖分離得到打擊與和聲成分譜圖。根據(jù)2種成分時(shí)頻分布特點(diǎn),對(duì)打擊成分采用短窗譜圖、和聲成分采用長(zhǎng)窗譜圖,再對(duì)打擊成分譜圖進(jìn)行小波尺度時(shí)域調(diào)制、和聲譜圖進(jìn)行小波尺度時(shí)域調(diào)制和頻域調(diào)制,得到打擊與和聲的長(zhǎng)時(shí)特征以及和聲成分的頻率分布特征。聯(lián)合節(jié)奏和韻律調(diào)制譜對(duì)比度、峰谷值及其均值方差等特征作為音樂流派分類特征,利用線性判別分析(Linear Discriminant Analysis,LDA)降維后再進(jìn)行支持向量機(jī)(Support Vector Machine,SVM)分類,以降低特征維數(shù),提高分類效率[11]。
2.1 打擊與和聲譜圖分離
打擊成分與和聲成分在時(shí)頻譜圖中具有不同表現(xiàn),前者表現(xiàn)為短時(shí)連續(xù)的頻譜分量,后者有典型的諧波性[12],對(duì)這2種成分進(jìn)行譜分離。在給定的時(shí)間幀內(nèi),能量較大的諧波頻率成分代表和聲成分,呈現(xiàn)峰值特性,打擊成分呈現(xiàn)寬帶平滑特點(diǎn),通過濾除能量較大的峰值頻率成分就得到了分離的打擊成分;類似地,對(duì)于和聲成分,由于打擊成分持續(xù)時(shí)間較短,能量集中,在給定的頻點(diǎn)上屬于峰值部分,通過濾除能量峰值就得到了分離的和聲成分。打擊與和聲成分分離利用中值濾波能夠?yàn)V除峰值較大的奇異值這一特性,實(shí)現(xiàn)了2種成分譜圖的分離[13],給定一音樂樣本,計(jì)算其譜圖S:
第i時(shí)間幀的譜圖為Si,對(duì)Si運(yùn)用中值濾波得到打擊成分增強(qiáng)的譜圖幀Pi:
其中,lper為打擊成分譜圖增強(qiáng)的中值濾波器分析窗長(zhǎng);median為中值濾波器。
其中,輸入向量x(n)經(jīng)過窗長(zhǎng)為l的中值濾波器輸出為y(n),此處l為奇數(shù)、l為偶數(shù)時(shí),y(n)取按大小排列的中間2個(gè)采樣點(diǎn)的均值,所有譜圖幀Pi構(gòu)成打擊成分增強(qiáng)的譜圖P。
同理,對(duì)第h頻率幀的譜圖Sh運(yùn)用窗長(zhǎng)為lhar的中值濾波器得到和聲成分增強(qiáng)的譜圖幀Hh:
所有譜圖幀Hh構(gòu)成和聲增強(qiáng)的譜圖H。為了能夠分離打擊與和聲成分,P和H用來生成軟閾值掩膜MH和MP:
其中,p代表譜圖成分的掩膜權(quán)重系數(shù),通常p取值1,2。
利用掩膜從混合原復(fù)數(shù)譜圖中分離得到打擊與和聲成分譜圖和:
其中,?代表矩陣對(duì)應(yīng)元素相乘。
2.2 小波調(diào)制譜特征
譜圖能夠表現(xiàn)音樂重要的時(shí)頻信息,對(duì)于節(jié)奏,譜圖能體現(xiàn)打擊樂器的能量強(qiáng)度、節(jié)拍的快慢變化、樂器的音色等諸多信息;對(duì)于韻律,譜圖能體現(xiàn)和聲音高,伴奏樂器的基頻、諧波分布、音調(diào)的高低變化。然而這些長(zhǎng)時(shí)信息要想直接從譜圖中提取出來并不容易,信號(hào)的低頻時(shí)域調(diào)制特征通常包含了隨時(shí)間變化的重要信息[14]。通過對(duì)譜圖再進(jìn)行快速傅里葉變換(Fast Fourier Transform,FFT)算法或小波變換,能夠進(jìn)一步得到音樂信息隨時(shí)間變化的動(dòng)態(tài)特征。
其中,對(duì)譜圖y(t,Ω)沿時(shí)域方向應(yīng)用小波變換,得到離散調(diào)制尺度s、小波時(shí)移ζ、頻率Ω 3個(gè)參數(shù)的調(diào)制譜圖Px(s,ζ,Ω);ψ(t)是小波函數(shù)。
為綜合時(shí)間方向上譜圖能量的變化,得到長(zhǎng)時(shí)動(dòng)態(tài)特征,對(duì)Px(s,ζ,Ω)在小波時(shí)移ζ方向上作積分,如式(8)所示,得到調(diào)制尺度-頻率聯(lián)合表示調(diào)制譜,調(diào)制尺度s可以按式(9)轉(zhuǎn)換成調(diào)制頻率Fs,Fc是所采用小波的中心頻率,Δ是采樣周期,于是得到調(diào)制頻率與頻率聯(lián)合的調(diào)制譜,調(diào)制譜特征反映了譜圖中各頻率分量的能量之和隨時(shí)間動(dòng)態(tài)變化的情況[15]。
本文音樂流派分類算法的具體步驟如下:
(1)對(duì)音樂樣本計(jì)算其譜圖,運(yùn)用中值濾波算法分離打擊成分與和聲成分譜圖。
(2)2種成分的譜圖參數(shù)設(shè)置為,打擊成分采用短窗,窗函數(shù)長(zhǎng)度1 024點(diǎn),幀移256點(diǎn),和聲成分采用寬窗,窗函數(shù)長(zhǎng)度4 096點(diǎn),幀移1 024點(diǎn)。
(3)對(duì)打擊與和聲成分譜圖進(jìn)行小波時(shí)域調(diào)制求調(diào)制譜特征:1)按八度頻率劃分成8個(gè)子帶,對(duì)各子帶進(jìn)行時(shí)域小波尺度調(diào)制,得到離散尺度與八度頻率子帶的調(diào)制譜表示8×尺度總數(shù)維,求取8個(gè)子帶調(diào)制譜的如下特征:子帶內(nèi)調(diào)制譜均值、方差(8×2=16維);2)峰值、谷值、對(duì)比度(8×3=24維);3)在每個(gè)子帶內(nèi)根據(jù)尺度再劃分尺度子帶,求取各尺度子帶內(nèi)調(diào)制譜的峰谷值和對(duì)比度的均值和方差,能夠得到子帶內(nèi)更細(xì)致的特征(8×6=48維),共88維特征。
(4)對(duì)和聲成分譜圖進(jìn)行小波頻域調(diào)制:對(duì)和聲成分每幀譜圖按頻率方向應(yīng)用小波尺度調(diào)制,得到和聲成分頻域調(diào)制譜,對(duì)其求各尺度調(diào)制譜的均值、方差、峰值、谷值、對(duì)比度,并計(jì)算它們?cè)跁r(shí)間上的均值和方差,即10維特征。
(5)為了降低特征維數(shù),對(duì)步驟(3)中時(shí)域調(diào)制譜特征集1),2),3)用LDA分別降至7維,即7×3=21維,對(duì)步驟(4)中和聲頻域調(diào)制譜特征降至7維;一個(gè)樣本的特征向量包括:打擊成分時(shí)域調(diào)制譜特征(21維)+和聲成分時(shí)域調(diào)制譜特征(21維)+和聲成分頻域調(diào)制譜特征(7維),共49維。
(6)對(duì)音樂庫(kù)GTZAN 8類音樂流派,按每類100個(gè)樣本提取特征,構(gòu)成800×49維分類特征矩陣。
(7)通過10折交叉驗(yàn)證的SVM分類器,得到最終音樂流派分類準(zhǔn)確率。
仿真實(shí)驗(yàn)采用GTZAN音樂樣本庫(kù)中藍(lán)調(diào)、經(jīng)典、鄉(xiāng)村、迪斯科、嘻哈、爵士、重金屬、流行等8種流派音樂片段各100個(gè),共800個(gè)音樂樣本。每個(gè)樣本為時(shí)長(zhǎng)30 s,采樣頻率22.05 kHz的16 bit單聲道數(shù)字信號(hào)。
打擊成分與和聲成分分離是特征提取的前提步驟,如圖1所示,圖1(a)為音樂樣本Disco.00055分離前的譜圖,圖1(b)為分離的打擊成分譜圖,圖1(c)為分離的和聲成分譜圖,分離譜圖的中值濾波器采用長(zhǎng)度 17點(diǎn),打擊成分譜圖分幀窗長(zhǎng)1 024點(diǎn),幀移 256點(diǎn),和聲成分譜圖分幀窗長(zhǎng)4 096點(diǎn),幀移1 024點(diǎn),對(duì)比可以發(fā)現(xiàn),分離后譜圖能更清晰地表現(xiàn)打擊、和聲的音樂特征。
圖1 音樂樣本Disco.00055成分分離前后的譜圖
表1為不同特征集的10折交叉驗(yàn)證分類結(jié)果對(duì)比,由表中第2行、第3行可以看出,經(jīng)成分分離后,打擊成分的MFCC特征的分類準(zhǔn)確率比未分離的高出了5.25%,聯(lián)合打擊與和聲成分的MFCC特征分類準(zhǔn)確率更是達(dá)到了71.82%,對(duì)于小波調(diào)制譜也得到了同樣的結(jié)果。由此可見,分離這2種成分有助于提高分類識(shí)別結(jié)果。同時(shí),小波調(diào)制譜特征相比MFCC,在和聲成分的分類準(zhǔn)確率較高,總體分類準(zhǔn)確率相當(dāng),經(jīng)LDA降維后的聯(lián)合分類準(zhǔn)確率較MFCC有所提高,達(dá)到了73.54%,且特征維數(shù)明顯減少,提高了分類效率。
表1 不同特征集分類效果對(duì)比
表2列出了8類樣本具體正確與錯(cuò)分的情況,加粗?jǐn)?shù)據(jù)為正確分類數(shù),其中,經(jīng)典分類準(zhǔn)確率最高,達(dá)到了97%,最低為鄉(xiāng)村,僅有54%,藍(lán)調(diào)、鄉(xiāng)村易相互錯(cuò)分,綜其原因是兩者多數(shù)抒情緩和,節(jié)奏和韻律的譜圖表現(xiàn)較相似,但演唱者歌聲、伴奏樂器有明顯區(qū)別[16],應(yīng)進(jìn)一步尋找有效鑒別特征;爵士易錯(cuò)分為經(jīng)典,主要是因?yàn)閮烧呔玫搅撕芏喙诺錁菲?譜分布比較類似,都具有規(guī)律的和聲諧波特點(diǎn),導(dǎo)致錯(cuò)分的出現(xiàn),但爵士多數(shù)使用銅管樂器,如薩克斯,而經(jīng)典常用弦樂器,如小提琴、大提琴等,因此樂器信息將有助于避免這種錯(cuò)分情況[17],提高分類準(zhǔn)確率。
表2 本文算法的8類樣本分類情況
本文提出基于譜圖濾波分離調(diào)制譜特征的音樂流派分類算法,通過對(duì)譜圖濾波分離打擊與和聲成分,減少兩者之間的互相干擾,優(yōu)化特征提取效果,并且通過提取音樂的長(zhǎng)時(shí)動(dòng)態(tài)特征,彌補(bǔ)短時(shí)特征的不足。對(duì)8類音樂流派類別進(jìn)行仿真實(shí)驗(yàn),與未進(jìn)行成分分離的調(diào)制譜特征以及MFCC特征比較,本文算法的分類準(zhǔn)確率有明顯提高,達(dá)到73.54%,但藍(lán)調(diào)與鄉(xiāng)村、爵士與經(jīng)典等類別還存在較多的錯(cuò)分現(xiàn)象,因此需要進(jìn)一步尋找新的特征以提高分類準(zhǔn)確率。
[1] Michael A,Remco V.Content-based Music Information Retrieval:Current Directions and Future Challenges[J]. Proceedings of the IEEE,2008,96(4):668-696.
[2] Lee Chang-Hsing,Shih Jau-Ling.Fusion of Static and Transitional Information of Campestral and Spectral Features for Music Genre Classification[C]// Proceedings of IEEE Asia-Pacific Services Computing Conference.[S.l.]:IEEE Press,2008:751-756.
[3] Anders M,Peter A.Temporal Feature Integration for Music Genre Classification[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(5): 1654-1664.
[4] Lee Chang-Hsing,Shih Jau-Ling.Automatic Music Genre Classification Using Modulation Spectral Contrast Feature[C]//Proceedings of IEEE International Conference on Multimedia and Expo.[S.l.]:IEEE Press,2007:204-207.
[5] Yannis P,Constantine K.Non-negative Multilinear Principal Component Analysis of Auditory Temporal Modulations for Music Genre Classification[J].IEEE Transactions on Audio, Speech, and Language Processing,2010,18(3):576-588.
[6] Carlos P S,David R.Genre Classification of Music by Tonal Harmony[J].Intelligent Data Analysis,2010, 14(5):533-545.
[7] 甄 超,鄭 濤,許潔萍.基于音樂語義信息的音樂流派分類研究[C]//第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集.上海:[出版者不詳],2009.
[8] Islam M K,Lee H J.Content-based Music Retrieval Using Beat Information[C]//Proceedings of the 4th International Conference on Fuzzy Systems and Knowledge Discovery.[S.l.]:IEEE Computer Society, 2007:317-321.
[9] Poliner G E,Ellis D P W.Melody Transcription from Music Audio:Approaches and Evaluation[J].IEEE Transactions on Audio, Speech, and Language Processing,2007,15(4):1247-1256.
[10] Durrieu J K,David B.A Musically Motivated Mid-level Representation for Estimation and Musical Audio Source Separation[J].IEEE Selected Topics in Signal Processing,2011,5(6):1180-1191.
[11] 徐 星.基于最小一范數(shù)的稀疏表示音樂流派與分類器分類算法研究[D].天津:天津大學(xué),2011.
[12] Thoshkahna B,Ramakrishnan K R.A Modified Spectrogram Diffusion Algorithm for Improved Harmonic/Percussion Separation in Music Signals[C]// Proceedings of 2012 International Conference on Signal Processing and Communications.[S.l.]:IEEE Press, 2012:1-5.
[13] Fitzgerald D.Harmonic/Percussive Separation Using Median Filtering[C]//Proceedings of Conference on Digital Audio Effects.[S.l.]:IEEE Press,2010:1-4.
[14] Somsak S,Les E A.Modulation-scale Analysis for Content Identification[J].IEEE Transactions on Signal Processing,2004,52(10):3023-3035.
[15] 謝秀琴,劉若倫.音樂信號(hào)的時(shí)頻分析[J].聲學(xué)技術(shù), 2008,27(4):543-546.
[16] Ezzaidi H,Bahoura M.Singer and Music Discrimination Based Threshold in Polyphonic Music[C]//Proceedings of 2010 IEEE InternationalSymposium on Signal Processing and Information Technology.Luxor,Egypt: IEEE Press,2011:445-450.
[17] Durrieu J,David B.A Musically Motivated Mid-level Representation for Pitch Estimation and Musical Audio Source Separation[J].IEEE Selected Topics in Signal Processing,2011,5(6):1180-1191.
編輯 陸燕菲
Music Genre Classification Based on Modulation Spectrum Features of Rhythm and Rhyme
ZHUANG Yan,YU Fengqin
(School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)
Music is mainly composed of percussive component and harmonic component,and the former forms the rhythm while the latter forms melody and harmony.Extracting features from the music samples directly are affected by the interaction between the two components.As the rhythm and harmony presenting different distributions in the timefrequency plane,the percussive component and the harmonic component can be separated by applying filtering on the spectrogram.It modulates the percussive and harmonic spectrograms with wavelet respectively and then gets the music rhythm and rhyme modulation spectrum features,which describes the long-term mid-level features of music genres. Experimental results show that the music rhythm and rhyme features represent feature and rule of rhythm and rhyme after the percussive and harmonic spectrogram separation.And the classification accuracy is 73.54% for eight music genres classification applying this method with Linear Discriminant Analysis(LDA)and afterward Support Vector Machine(SVM).
spectrogram separation;median filtering;wavelet modulation spectrum;rhythm and rhyme;intermediate feature;music genre classification
1000-3428(2015)01-0186-04
A
TP37
10.3969/j.issn.1000-3428.2015.01.034
國(guó)家自然科學(xué)基金資助項(xiàng)目(61075008)。
莊 嚴(yán)(1989-),男,碩士,主研方向:模式識(shí)別,信號(hào)處理;于鳳芹,教授、博士。
2014-01-17
2014-03-12 E-mail:yanzhuangzz@126.com
中文引用格式:莊 嚴(yán),于鳳芹.基于節(jié)奏和韻律調(diào)制譜特征的音樂流派分類[J].計(jì)算機(jī)工程,2015,41(1):186-189.
英文引用格式:Zhuang Yan,Yu Fengqin.Music Genre Classification Based on Modulation Spectrum Features of Rhythm and Rhyme[J].Computer Engineering,2015,41(1):186-189.