王 飛,于鳳芹
(江南大學 物聯(lián)網工程學院,江蘇 無錫 214100)
樂器識別作為音樂信息檢索(Music Information Retrieval, MIR)的一部分,可用于對音樂的自動標注、音樂分類、音樂情感識別[1]。
已有樂器識別模型基于四大特征:倒譜特征、時域頻域特征、稀疏特征、概率特征。文獻[2]使用改進的梅爾倒譜系數(Mel-Frequency Cepstral Coefficient, MFCC)特征結合主成分分析(Principle Component Analysis, PCA)降維進一步提高樂器識別準確率,但MFCC對樂音諧波特征描述不足且對無明顯共振峰的打擊樂器識別較差。文獻[3]從時域、頻域對樂器提取特征從而獲得穩(wěn)定的識別,但樂器音色并非只是時域或頻域的[4]。此外,特征的組合依賴訓練集,不同的訓練集擁有不同的最佳特征。文獻[5]利用稀疏倒譜編碼對單、多聲部樂器識別比現有方法更精確;文獻[6]首次使用稀疏過濾進行單聲部樂器識別,但稀疏特征忽略了時域信息。概率特征是樂器識別的另一研究方向:文獻[7]提出一種可在單聲道多聲部音樂中同時識別樂器類型和估計音階的概率混合模型;文獻[8]對多聲部音樂的頻譜結構提出不變最大高斯包絡(Uniform MAx Gaussian Envelope, UMAGE);文獻[9]針對樂器二分類問題利用概率潛在模型(Probabilistic Latent Component Analysis, PLCA)對樂器的聲譜進行建模,但它們需先驗啟奏時間與樂器數量的前提假設。
從聽覺角度看,人耳處理聲音信號的本質是耳蝸將聲信號頻率分解轉換成聽覺表示,隨后傳入初級聽覺系統(tǒng)進行多尺度時頻調制[10]。耳蝸輸出的聽覺表示稱為聽覺譜圖(Auditory Spectrum, AS)[11],聽覺譜圖包含樂器時頻信息。利用多尺度時頻調制對聽覺譜圖進行時間與頻率維度的多分辨率濾波分解以獲取樂音時頻變化信息,這些時頻變化信息是樂器音色的表示,利用這些表示可進行樂器識別。由于時頻調制特征是冗余的多維數組,若使用PCA對多維數組降維會破壞特征結構,因此本文使用多線性主成分分析(Multilinear Principal Component Analysis, MPCA)對其降維以保留特征內在相關性,降維后的特征被送入支持向量機(Support Vector Machine, SVM)進行識別。本文首先提取薩克斯管、大號、長笛、吉他、鋼琴、小提琴等9種樂音的聽覺譜圖并利用多尺度時頻調制獲取樂音的時頻信息,隨后利用MPCA對時頻信息降維,最后利用支持向量機進行樂器識別研究。
聽覺譜圖是耳蝸模型的輸出,樂音經過基底膜濾波、側抑制作用、外毛細胞濾波后生成聽覺譜圖。它包含樂音的諧波隨時間變化信息,相比語譜圖更接近人耳對聲信號的感知且冗余度更低,這有利于多尺度時頻調制獲得樂音的時頻變化。耳蝸模型由基底膜模型和外毛細胞模型兩部分組成[12]。
1)基底膜模型?;啄つP屠肎ammatone帶通濾波器組將樂音s(t)分解為多個對應中心頻率不同的通道,每個通道包含樂音的諧波成分隨時間變化的信息。為提高對樂音中高頻的分辨率,本文增加Gammatone帶通濾波器組h(t;s)至128個,其中心頻率s覆蓋8.6個倍頻程(62.5~20 kHz),可表示為:
y1(t;s)=s(t)*th(t;s)
(1)
其中:卷積符號下標*t表示對時間t進行卷積,s對應于濾波器組的中心頻率。
2)外毛細胞模型。對濾波器組的通道進行差分,模擬側抑制作用,緊接著使用積分窗來模擬神經元無法對快速變化的信號進行響應。整個過程可表示為:
y2(t;s)=?sy1(t;s)*tμ(t;τ)
(2)
圖1為鋼琴和小提琴Bb5音符的聽覺譜圖:橫軸表示時間,它含有某一頻率隨時間波動的信息;縱軸表示帶通濾波器組的中心頻率,它包含某一時刻頻率信息??梢钥闯鲣撉僦C波衰減比小提琴更快,小提琴諧波比鋼琴更豐富,所以聽覺譜圖包含了樂器時間與頻率信息。
圖1 鋼琴與小提琴Bb5音符的聽覺譜圖 Fig. 1 Auditory spectrum of piano Bb5 and violin Bb5
聽覺譜圖包含樂音信號諧波隨時間變化的信息,對聽覺譜圖多尺度時頻調制可以獲取樂音信號的時頻特征。所謂時頻調制,就是時域調制和頻域調制的組合,其中時域調制反映包絡沿時間軸的波動,頻域調制則描述聲譜沿頻率的起伏。多尺度是為了對不同分量進行“篩選”并細致觀察。
多尺度時頻調制為一組沿頻率和時間軸抽取調制信息的濾波器組,其輸出為四維數組:
r(t,s;Rc;Ωc)=y2(t;s)*t,s(g(t;Rc)·h(s;Ωc))
(3)
其中:g(t)=t3e-4tsin 2πt表示對時間維度上的濾波,h(s) = (1-2(πs)2)e-(πs)2表示對頻率維度上的濾波。g(t;Rc)=Rcg(tRc),h(s;Ωc)=Ωch(sΩc)相當于一系列等品質因數帶通濾波器。卷積符號下標*t,s表示對變量t與s進行卷積。
從小波角度來看,時間尺度Rc使得g(t)能夠在不同尺度下去觀測樂音不同頻率隨時間的變化,頻率尺度Ωc使得h(s)在不同尺度下去觀測樂音頻率成分的變化。因此,調制輸出與音色感知是直接相關的。本文中時間尺度Rc選取為±25,±24.5,…,±20.5共計18個,頻率尺度選取為2-2,2-1.5,…,23共計11個,t可視為平穩(wěn)而平均,因此時頻調制的輸出可用三維數組r(s,Rc,Ωc)表示。
圖2分別為小提琴和鋼琴Bb5音符的時頻調制輸出,顏色越亮幅值越高。為便于觀察,將時頻調制輸出分別對s、Rc和Ωc平均后得圖2(a)~(c)。由于小提琴比鋼琴具有更多明顯的諧波成分,小提琴比鋼琴在圖2(b)與圖2(c)中具有更多的譜線。Ωc越大對應信號中頻率越高的成分,圖2(b)含諧波的變化信息。圖2(c)描繪同一時刻不同頻率成分的變化情況,Rc值越大對應頻率成分變化越劇烈,它表明了小提琴和鋼琴頻率成分隨時間變化的信息。圖2(a)則表明多時間頻率尺度下樂音的響應,不同的樂音具有不同的響應,因此多尺度時頻調制輸出可以作為樂音音色表示。
(4)
(5)
利用局部最優(yōu)化的投影矩陣可得維度更小的張量ym:
(6)
投影矩陣將張量xm投射到維度更小的張量ym,在不破壞數據結構的情況下實現了降維。
圖2 小提琴和鋼琴多尺度時頻調制輸出 Fig. 2 Multiscale time-frequency modulation output of violin and piano
本文采用10折交叉驗證來確定樂器識別的準確率。基于多尺度時頻調制的樂器識別具體步驟如下:
1)將樣本庫中每類樣本隨機等分10份,任選9份作為訓練集,剩余1份作為測試集。
2)使用耳蝸模型獲取聽覺譜圖。
3)使用多尺度時頻調制對聽覺譜圖分解,獲取時頻調制特征r(s,Rc,Ωc) 。該特征為128×18×11維的張量。
4)利用MPCA算法對訓練集的時頻調制輸出進行降維并獲取張量各模態(tài)的投影矩陣,降維并保留98%的方差得到10×3×2維的降維后的張量,將張量展開為60維向量作為SVM的分類器訓練輸入。
5)重復步驟1)和2)提取測試集中的多尺度時頻調制特征,用步驟3)得出的各模態(tài)的投影矩陣對測試集特征進行降維,選取同樣的60維主成分作為測試集的SVM分類器輸入。
6)從樣本庫中重新選1份作為測試集,其余9份作為訓練集,重復步驟2)~4),共計10次,直到訓練和測試覆蓋整個樂音的樣本庫,得到10折交叉驗證的樂音識別結果。
本文采用愛荷華大學電子音樂實驗中心(University of IOWA Electronic Music Studio)的音響庫[15]作為樂器識別的實驗樣本庫,該樣本庫錄制于不同生產廠家與演奏者的單聲部演奏。樂音樣本包木管樂器(低音管、長笛)、銅管樂器(薩克斯管、大號)、撥弦樂器(吉他)、擊弦樂器(鋼琴)、拉弦樂器(小提琴、大提琴)、打擊樂器(木琴)共9種樂器。每種樂器選取300個樣本,每個樣本為采樣頻率44.1 kHz,16 b單聲道數字信號。
為驗證本文模型的有效性,使用音色描述符特征+SVM、MFCC+SVM、基于K-SVD字典[16]的正交匹配追蹤(Orthogonal Matching Pursuit,OMP)特征+SVM、基于高斯混合模型-隱馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)的概率模型在相同數據庫中作橫向對比實驗。在選取音色描述符特征時使用Relief算法選擇7個最佳特征:頻譜重心、諧波譜延展、譜偏度、譜峭度、啟降奏時間、啟降奏能量密度、時域重心。在獲取稀疏特征前利用K-SVD算法訓練最佳字典,并利用該字典對樂音信號進行OMP分解,匹配追蹤7次至殘差能量小于0.5%后得到7個匹配系數。GMM-HMM模型使用12維MFCC作為GMM輸入,該模型共有9種狀態(tài),對應于9種樂器的9種發(fā)聲結構,通過訓練集生成9個模型。
表1顯示各模型對同族樂器(管類、弦類)的錯分率以及對打擊樂器的識別準確率,以此衡量各個模型對共振腔相似樂器識別性能以及對打擊樂器的識別性能。
表1 不同模型識別準確率 %Tab. 1 Recognition accuracy of different model %
管樂和弦樂音色差別主要體現在共振體上,它們的音色差異反映了激勵源和共振體的不同。MFCC基于激勵源-濾波器模型[17]的分析方法容易對管弦樂器錯分,尤其弦樂器的平均錯分率高達26.75%,吉他、提琴都具有結構相似的共振腔,倒譜特征不利于對其識別。本文模型對打擊樂器的識別率比MFCC高30個百分點,這是由于打擊樂器頻譜平坦,沒有明顯的共振峰,利用時頻特征比倒譜特征更有利于對其識別。GMM-HMM模型以MFCC特征為基礎,同樣無法避免對打擊樂器與結構相似樂器的錯分。OMP作為一種貪婪算法,只將樂音信號投射到字典中,卻忽略時域信息,而樂器的時域變化對樂器識別起著同樣重要的作用。
為驗證MPCA降維有效性,本文對多尺度時頻調制+PCA降維的特征進行縱向對比實驗。將時頻調制輸出展開為向量并同樣保留98%方差后利用SVM降維。MPCA方式識別準確率為92.74%,PCA則為86.31%,兩種降維方式對9種樂器的識別結果混淆圖如圖3所示。MPCA降維方式比PCA降維方式的平均提高識別準確率6.43%。
特征降維的本質是將高維數據投影到低維空間,投影方式決定數據可分度,最終影響分類器識別的準確率。實驗結果驗證了PCA降維破壞原始數據固有的高階結構和內在相關性,不利于對張量特征的處理,MPCA相比PCA能夠將數據投射到更易分的低維空間。
圖3 MPCA降維與PCA降維混淆圖 Fig. 3 Confusion graph of MPCA and PCA
樂器的發(fā)音機理各有差異,管弦樂器具有明顯共振結構且同類樂器結構相似,打擊樂器無明顯共振峰。此外,諧波具有重要作用,而倒譜處理忽略了諧波信息,所以倒譜特征并不能反映樂音的聽覺特性。音色描述符對頻譜或包絡進行定量描述,這些特征的選取會隨著樂庫的改變而改變。稀疏表示將信號投影至字典,并不能表征樂音波形的時域信息。概率特征對樂音的種類與啟奏時刻有前提假設??紤]到音色定義為使人在聽覺上區(qū)分不同樂器的屬性,基于人耳聽覺特性的特征必然更有利于音色的識別。本文利用多尺度時頻調制對樂音進行特征提取從而提取樂音的時頻信息,基于多尺度時頻調制特征對打擊樂器的與結構相似的樂器識別率比音色描述符特征、倒譜特征、稀疏特征、概率特征更高。
本文研究表明基于MFCC的識別模型更適合針對共振腔更加明顯的樂器進行識別,比如弦樂器和管樂器,但對結構相似的樂器錯分率較高,對于共振不明顯的打擊樂器識別準確率較低。基于多尺度時頻調制的特征描述了樂音頻率成分隨時間的變化信息,類似于聽覺感受,它并不依賴樂器的機理構造,它描述的是樂器頻率成分變化的特點,不同的樂器擁有不同頻率變化方式,所以對打擊樂器與結構相似的樂器識別比其他特征更加準確。對于張量數據的降維處理,傳統(tǒng)PCA方式破壞數據內在相關性使得數據可分性變差,MPCA能夠將數據投影到易分的低維空間。
本文中樂器的識別的樣本是高信噪比且無混響的單聲部音符,樣本均錄制于錄音棚的理想環(huán)境,在存在噪聲以及混響的實際環(huán)境進行樂器識別以及對多聲部音樂信號進行識別是今后進一步研究的內容。
參考文獻(References)
[1] STURM B L. The state of the art ten years after a state of the art: future research in music information retrieval [J]. Journal of New Music Research, 2014, 43(2): 147-172.
[2] BHALKE D G, RAO C B R, BORMANE D S. Automatic musical instrument classification using fractional Fourier transform based-MFCC features and counter propagation neural network [J]. Journal of Intelligent Information Systems, 2016, 46(3): 425-446.
[3] LOUGHRAN R, WALKER J, O’NEILL M, et al. Musical instrument identification using principal component analysis and multi-layered perceptrons [C]// ICALIP 2008: Proceedings of the 2008 International Conference on Audio, Language and Image Processing. Piscataway, NJ: IEEE, 2008: 643-648.
[4] BURRED J J, ROBEL A, SIKORA T. Dynamic spectral envelope modeling for timbre analysis of musical instrument sounds [J]. IEEE Transactions on Audio Speech & Language Processing, 2010, 18(3): 663-674.
[5] YU L F, SU L, YANG Y H. Sparse cepstral codes and power scale for instrument identification [C]// ICASSP 2014: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2014: 7460-7464.
[6] HAN Y, LEE S, NAM J, et al. Sparse feature learning for instrument identification: effects of sampling and pooling methods [J]. Journal of the Acoustical Society of America, 2016, 139(5): 2290-2298.
[7] HU Y, LIU G. Instrument identification and pitch estimation in multi-timbre polyphonic musical signals based on probabilistic mixture model decomposition [J]. Journal of Intelligent Information Systems, 2013, 40(1): 141-158.
[8] WEESE J L. A convolutive model for polyphonic instrument identification and pitch detection using combined classification [J]. Machine Learning, 2013, 15(2): 12-17.
[9] ARORA V, BEHERA L. Instrument identification using PLCA over stretched manifolds [C]// NCC 2014: Proceedings of the 2014 20th National Conference on Communications. Piscataway, NJ: IEEE, 2014: 1-5.
[10] PATIL K, PRESSNITZER D, SHAMMA S, et al. Music in our ears: the biological bases of musical timbre perception [J]. PLOS Computational Biology, 2012, 8(11): e1002759.
[11] BINER L, SCHAFER R. Theory and Applications of Digital Speech Processing [M]. Upper Saddle River, NJ: Prentice Hall Press, 2011: 124-136.
[12] MEDDIS R, LOPEZPOVEDA E, FAY R R, et al. Computational Models of the Auditory System [M]. Berlin: Springer, 2010: 135-149.
[13] ABDI H, WILLIAMS L J. Principal component analysis [J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2010, 2(4): 433-459.
[14] LU H, PLATANIOTIS K N, VENETSANOPOULOS A N. MPCA: multilinear principal component analysis of tensor objects [J]. IEEE Transactions on Neural Networks, 2008, 19(1): 1-18.
[15] University of IOWA Electronic Music Studio. A musical instrument database [DB/OL]. [2017- 03- 08]. http://theremin.music.uiowa.edu/MISflute.html.
[16] JIANG Z, LIN Z, DAVIS L S. Label consistent K-SVD: learning a discriminative dictionary for recognition [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(11): 2651-2664.
[17] 韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2004:76-85.(HAN J Q, ZHANG L, ZHENG T R. Voice Signal Processing [M]. Beijing: Tsinghua University Press, 2004: 76-85.)
WANGFei, born in 1991, M. S. candidate. His research interests include audio signal processing, deep learning.
YUFengqing, born in 1962, Ph. D., professor. Her research interests include audio signal processing, time-frequency analysis of non-stationary signals.