劉興永,李 鏘,關(guān) 欣
(天津大學(xué) 電子信息工程學(xué)院,天津 300072)
基于多樣本字典的單音符實時穩(wěn)健識別算法
劉興永,李 鏘,關(guān) 欣
(天津大學(xué) 電子信息工程學(xué)院,天津 300072)
在時域線性疊加識別法原理的基礎(chǔ)上,提出多樣本字典、多樣本字典后處理等技術(shù),這些技術(shù)克服了單樣本字典中單輸入對應(yīng)單輸出權(quán)重系數(shù)α,導(dǎo)致正確識別幀數(shù)少,從而引起結(jié)果可靠性降低的缺點,提高了音符識別正確率和穩(wěn)健度。經(jīng)實驗驗證,本文音符識別算法與單樣本字典識別法相比,識別率提高了3%,穩(wěn)健度提高近2倍(尤其對于高八度區(qū)音符識別穩(wěn)健度更高),實現(xiàn)了對輸入單音符音頻實時、準(zhǔn)確的識別。
單音符;時域識別;多樣本字典;實時;穩(wěn)健度
音樂轉(zhuǎn)錄是計算機自動將實際音樂音頻轉(zhuǎn)換到音樂抽象符號的技術(shù),與人工音樂轉(zhuǎn)錄相比,可大大提高轉(zhuǎn)錄效率與質(zhì)量,是音樂信息檢索領(lǐng)域中重要且具有挑戰(zhàn)性的研究問題之一[1]。本文主要針對單基音音樂進行轉(zhuǎn)錄(音頻信號來源于實際鋼琴演奏的88個單基音音樂),提取音頻信號中的音符信息,即根據(jù)演奏者演奏的實際音樂音頻,確定某特定時間片段內(nèi)的聲音由哪些單音符組合而成。該技術(shù)在樂器輔助練習(xí)、計算機自動伴奏、音樂信息檢索等相關(guān)領(lǐng)域具有廣泛的應(yīng)用價值。
早期單基音音樂音頻中音符識別方法通過分析所錄制音頻頻域信息得到音符信息[2-3],klapuri采用迭代估計、消除機制來估算音樂音頻中存在的基頻f0[4]。但由于跨八度音符的基音頻率、諧波頻率重合與時頻分辨率等問題,音符頻域識別較為困難。Raphael采用模式識別的方法,在提取和弦序列頻域特征的基礎(chǔ)上,用隱形馬爾科夫模型來描述和弦序列,進而實現(xiàn)音符的識別[5],RBF神經(jīng)網(wǎng)絡(luò)模型也可用于鋼琴音符的識別[6]。但是模式識別只適用于非實時識別,且計算量大。日本學(xué)者Yoshiaki Tadokoro提出采用梳狀濾波器的方法,即建立多個并行濾波器,僅濾掉或保留特定頻率的信號(88單音符所在頻率),從而判斷輸入信號的頻率即音符名,達到了較好的識別效果[7]。法國學(xué)者Juan Bello提出時域音符識別方法,建立88個獨立音符的樣本字典,將輸入數(shù)據(jù)與樣本字典中各音符樣本數(shù)據(jù)分別做互相關(guān),得出輸入信號中各單基音音符所占權(quán)重系數(shù)[8]。Juan Bello時域識別法使用單樣本字典,正確識別幀數(shù)較少,識別結(jié)果不穩(wěn)健,難以應(yīng)用到實際音符識別系統(tǒng)。
筆者在Juan Bello線性疊加時域識別法的基礎(chǔ)上,采用多樣本字典、多樣本字典后處理與能量檢測技術(shù),將正確識別率提高到98%,穩(wěn)健度提高了2倍,實現(xiàn)對鋼琴單音符實時、穩(wěn)健的識別,達到較好的實際應(yīng)用效果。
時域線性疊加模型假設(shè)任何音樂音頻都是由一個或多個單基音音符線性組合而成的,通過與事先建立的單基音音符樣本字典比較,即可得到音樂音頻中所包含的單音符音名。xi(n)為歸一化后的鋼琴單音符時域信號(i=1,2,…,M,M=88)。定義樣本字典D={xi},i=1,2,…,M,即包括88個單音符波形的數(shù)據(jù)庫。s(n)為測試輸入信號波形(n=1,2…,N,這里輸入信號時長為100 ms,則N=0.1×fs,fs為音頻采樣率)。本文假設(shè)樣本庫中單音符xi(n)與其響度無關(guān),即波形與按鍵力度、速度無關(guān)。測試輸入信號s(n)是由一個或多個單音同時發(fā)聲組成的,這些單音符是線性無關(guān)的,即實驗中忽略了單音發(fā)聲時的耦合現(xiàn)象,簡化為下列線性模型:
ε.
(1)
(2)
在上述定義下,音符識別任務(wù)轉(zhuǎn)換為計算輸入信號中各音符的權(quán)重系數(shù)αi,只需通過簡單的矩陣計算,即可得到權(quán)重系數(shù),即s(n)中包含的單音符的音名。樣本字典D是M×N矩陣,包括M個單音符歸一化后的波形。由于D中各行是線性無關(guān)的[8],因此M×M矩陣DDT是非奇異矩陣,即可逆。s是輸入信號s(n)的矩陣形式,因此權(quán)重系數(shù)可用下式求取:
α=(DDT)-1Ds-ε′.
(3)
其中ε′=(DDT)-1Dε.
測試輸入信號s(n)與樣本字典D中xi(n)的相位一般不同步,同時和弦s(n)中不同單音符發(fā)聲的時刻可能存在差異,因此上述算法得到的結(jié)果并不精確,必須調(diào)整二者相位,以便得到更為精確的權(quán)重系數(shù)矩陣。相位調(diào)整具體過程:輸入信號s(n)與樣本字典D中的每個xi(n)做互相關(guān)運算,求出對應(yīng)的相位延時ti:
ti=arg max{xcorr(xi,s)}.
(4)
.
(5)
在實際應(yīng)用中,預(yù)先無法得到線性模型和輸入實際信號的差值ε′,因此還需依據(jù)特定規(guī)則(2.2規(guī)則I)對計算所得α系數(shù)矩陣進行篩選,最終取出符合規(guī)則的α系數(shù)矩陣,其最大值對應(yīng)的midi即可轉(zhuǎn)換音符名。
2.1 構(gòu)建多樣本字典
(6)
(7)
2.2 多樣本字典后續(xù)處理
多樣本字典后續(xù)處理主要目的在于選出最優(yōu)的α矩陣。幀長為100 ms的測試輸入信號s(n)分別與6個樣本字典D代入(8)式計算,得到6個權(quán)重系數(shù)α矩陣。在6個α矩陣中,實驗只選取滿足一定規(guī)則的α(k)(k=1,2,…,6),從有效α(k)結(jié)果中得到輸入信號s所包含的音符名。不失一般性,這里假設(shè)αi(k)(i=1,2,…,88)權(quán)重系數(shù)矩陣中最大值為αi max(k),則α(k)結(jié)果有效的準(zhǔn)則I為:
1)α(k)中大于0.35×αi max(k)的個數(shù)不超過2個,且其midi號相差為12或24(一個或兩個八度);
2)α(k)中大于0.25×αi max(k)的個數(shù)不超過5個;
3)α(k)中大于0.15×αi max(k)的個數(shù)不超過10個。
圖1 多樣本字典權(quán)重系數(shù)
只有同時滿足上述三個條件,多樣本字典后處理部分才認(rèn)為α(k)權(quán)重系數(shù)矩陣是有效的,即α(k)矩陣中取到的最大值的midi號可作為測試輸入信號s的結(jié)果輸出。圖1是測試信號為midi 63的音符計算得到的6組α(k)。樣本字典D2,D3,D4,D5,D6所得αi(k)矩陣中最大值都為α63(k),且每個矩陣的剩余元素都符合規(guī)則I中的條件1、2、3,因此保留這四組權(quán)重系數(shù)矩陣,且midi63為識別結(jié)果。
多樣本字典后處理部分保證了在多個樣本字典條件下,結(jié)果的唯一性和準(zhǔn)確性,不僅適用于音符多樣本字典處理而且適用于單樣本字典的處理,是多樣本字典音符識別系統(tǒng)必不可少的環(huán)節(jié)。
實驗中,測試數(shù)據(jù)一個月內(nèi)每天隨機選取時間所錄制的88單音符音頻數(shù)據(jù):data1、data2、…、data30(安靜室內(nèi)錄制88個單音符,采樣率為44.1 kHz),其中隨機取某一天所錄制數(shù)據(jù)作為樣本字典D中數(shù)據(jù)來源。對于測試數(shù)據(jù),本文方法的平均識別率為98%。在音符起始階段出現(xiàn)少數(shù)幾幀跨八度的識別錯誤,即識別結(jié)果與正確音符相差一個八度,能量檢測算法的應(yīng)用在一定程度上遏制了這種情況的出現(xiàn)。對于單數(shù)據(jù)庫和多數(shù)據(jù)庫識別效果差異主要體現(xiàn)在對低八度區(qū)音符(midi號21~60)的識別上,因為低八度區(qū)音符的持續(xù)時間較高八度區(qū)(midi號61~108)長近400 ms。表1是Juan Bello單樣本字典與本文多樣本字典兩種方法下,88單音符的平均識別幀數(shù)。
表1 測試結(jié)果
使用多樣本字典D情況時,測試輸入幀與6個樣本字典中某一樣本字典相匹配概率的較大,即對于完整測試音符,與樣本庫相匹配的概率為各幀相匹配概率P(S/Di)之和。匹配概率增大意味著存在連續(xù)多幀的正確識別結(jié)果。而單樣本字典情況下,對于一完整測試音符,只有與樣本庫中相位正好相近的少數(shù)測試幀才會出現(xiàn)匹配,此情況下,整個音符的匹配概率為max(P(S/Di)),即存在下式:
(8)
本實驗程序在代碼優(yōu)化后,耗時有望控制在100 ms內(nèi),完全能滿足實時音符檢測。實驗結(jié)果表明,多樣本字典比單樣本字典音符識別算法的識別率提高了3%,穩(wěn)健度提高近2倍,即相比于單樣本字典在低八度區(qū)僅1~2幀能正確識別,多樣本字典平均連續(xù)近5幀測試結(jié)果正確,結(jié)果更為可靠穩(wěn)健,且識別率達98%,更具有實用性。
本文主要討論了在音符時域識別基礎(chǔ)上,采用能量檢測和多樣本字典來提高識別率、降低計算時間以及避免單樣本字典對端點檢測的依賴性。在實際應(yīng)用中,基于此算法的系統(tǒng)在識別率、運算速度與穩(wěn)健度等方面完全能滿足實時、穩(wěn)健的識別。但是,本文時域音符識別算法唯一的缺點就是構(gòu)建樣本字典的數(shù)據(jù)和測試數(shù)據(jù)必須來源于同一架鋼琴,這是由鋼琴的物理特性決定的。在此單音符識別基礎(chǔ)上,若要將其拓展為多音符檢測系統(tǒng),則需要對多數(shù)據(jù)庫后處理端的規(guī)則進行調(diào)整,這個調(diào)整需要根據(jù)經(jīng)驗值確定。
[1]Sebastian Bock, Markus Schedl.polyphonic piano transcription with recurrent neural networks[J]. IEEE 2012.
[2]M Piszczalski, B A Galler. Automatic music transcription[J]. Computer Music Journal, 1977(4):24-31.
[3]J AMoorer. On the transcription of music sound by computer[J]. Computer Music Journal, 1997,1(4):32-38.
[4]A Klapuri. T Virtanen, J M Holm.Robust multipitch estimation for the analysis and manipulation of polyphonic musical signals[C]∥ In proceedings of the COST-G6 conference on Digital Audio Effects Verona, Italy, 2000.
[5]C Raphael.Automatic transcription of piano music[C]∥In proceedings of the 3rdinternational conference on Music Information Retrieval. Paris, France, 2002.
[6]張雪英,陳潔,孫穎.改進的HMM系統(tǒng)在英語語音合成中的研究[J].太原理工大學(xué)學(xué)報,2013,44(1),16 -19.
[7]Tadokoro Y, Matsushita F. Signal identification for a wide-range sound(piano) using notch and resonator-type comb filter[C]∥ICSPCS 2008 2ndinternational conference on signal processing and communication system, 2008.
[8]J P Bello, L Daudet, M B Sandler.Automatic piano transcription using frequency and time-domain information[C]∥ IEEE transactions on Audio Speech and Language Processing, 14:2242-2251.
(編輯:賈麗紅)
Real-timeandRobustNoteRecognitionBasedontheMutil-sampleDictionary
LIUXingyong,LIQiang,GUANXin
(CollegeofElectronicsandInformationEngineering,TianjinUniversity,Tianjin300072,China)
Real-time and robust note recognition algorithm is the fundamental of the note music transcription and music track for the practical application. On the basis of the time domain linear superposition principle of recognition method, the article proposed the techniques of mutil-sample dictionary and mutil-sample dictionary post-processing.The techniques overcame the shortcomings that, in the single sample, the single input corresponds to the single output weight coefficient α, leading to the less correctly identified frame, thus resulting in reduced reliability.Therefore,they improved the recognition accuracy rate and soundness. The experiments prove that, compared to the single sample dictionary, under the help of this article’s note recognition algorithms, the recognition rate increased by 3%, and the soundness increased nearly two-fold, achieving the goal of real-time accurate identification of the audio-input single-note.
single-note; time-domain recognition; mutil-sample dictionary; real-time; soundness
2013-08-06
國家自然科學(xué)基金資助項目(61101225)
劉興永(1989-),男,天津人,碩士,主要從事音樂信號處理、模式識別研究,(Tel)13302029660
李鏘,教授,碩士生導(dǎo)師,(Tel)13820516837
1007-9432(2014)02-0252-03
TP391
:A