豐 上,徐忠亮,馬 琳,李海峰
(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001)
稀疏分解作為一種目前相對(duì)比較成熟的信號(hào)壓縮存儲(chǔ)、傳輸及成分解析的手段,一直以來(lái)都受到學(xué)界的廣泛關(guān)注,并已獲得了長(zhǎng)足的發(fā)展[1].這一方法通過(guò)構(gòu)建過(guò)完備稀疏字典可以把信號(hào)分解為字典原子與稀疏系數(shù)構(gòu)成的線性組合方程,實(shí)現(xiàn)信號(hào)高精度的壓縮存儲(chǔ)、傳輸;同時(shí),對(duì)由學(xué)習(xí)過(guò)程得到的非確定基字典而言,其字典原子可以視作由訓(xùn)練樣本集得出的特征集合,而稀疏系數(shù)則可以視為這些特征的強(qiáng)度系數(shù),由此即可進(jìn)行對(duì)信號(hào)內(nèi)在結(jié)構(gòu)和本質(zhì)屬性的鑒別和分析.在各類信號(hào)之中,音樂(lè)信號(hào)的結(jié)構(gòu)相對(duì)固定、特征比較顯著、噪聲成分與信號(hào)本征成分特征差異明顯,尤其適合利用稀疏化分析方法進(jìn)行分析與識(shí)別;同時(shí),借由低信息量泄露的分解算法,可以對(duì)音樂(lè)信號(hào)進(jìn)行精確可靠的定量分析,這對(duì)音樂(lè)相關(guān)領(lǐng)域的研究也具有重要的意義和價(jià)值.
對(duì)稀疏分解字典的學(xué)習(xí),目前有若干種有效算法,如最優(yōu)方向法(Method of Optimal Direction, MOD)[2]、K-SVD算法(K-means Singular Value Decomposition)[3]及在線字典學(xué)習(xí)(Online Dictionary Learning Algorithm)[4]等.使用字典對(duì)語(yǔ)音信號(hào)進(jìn)行稀疏建??傻玫矫總€(gè)信號(hào)對(duì)應(yīng)的稀疏分解系數(shù)矩陣,作為原始數(shù)據(jù)的壓縮表征.稀疏建模算法主要分為兩類: 凸松弛法和貪婪法.凸松弛法中最有代表性的是基追蹤(Basis Pursuit, BP)算法[5].貪婪法中比較常用的是匹配追蹤(Matching Pursuit,MP)算法[1]和正交匹配追蹤(Orthogonal Matching Pursuit, OMP)算法[6].
在信號(hào)處理及分析領(lǐng)域,稀疏分解算法一直受到廣泛關(guān)注和應(yīng)用.如Jafari等提出了一種運(yùn)用稀疏字典實(shí)現(xiàn)立體聲音信號(hào)識(shí)別的算法[7],董麗夢(mèng)等利用稀疏表示分類器對(duì)音樂(lè)中和弦進(jìn)行識(shí)別[8],Panagakis等將稀疏表示技術(shù)與時(shí)間調(diào)制結(jié)合,用于音樂(lè)體裁的分類[9],都達(dá)成了較好的識(shí)別效果;此外,Plumbley等還用稀疏編碼實(shí)現(xiàn)了復(fù)調(diào)音樂(lè)的轉(zhuǎn)錄[10],Cogliati等也用快速卷積稀疏編碼完成了鋼琴音樂(lè)的轉(zhuǎn)錄[11],等等.以上這些工作涵蓋音樂(lè)和弦、體裁、樂(lè)器分類以及其他調(diào)制分析方法,充分說(shuō)明了稀疏分解在音樂(lè)信號(hào)解析領(lǐng)域的有效性.
目前稀疏分解問(wèn)題的求解對(duì)象包括l0,l1及l(fā)2范式,其中求解l0范數(shù)是稀疏分解的根本問(wèn)題,但對(duì)其直接求解非常困難;在近似求解模型中,使用l2范式求解會(huì)導(dǎo)致重構(gòu)系數(shù)矩陣中系數(shù)絕對(duì)值小而數(shù)量眾多,若將該矩陣應(yīng)用于特征提取和分析領(lǐng)域,將會(huì)消耗大量不必要的計(jì)算;l1范式的使用最為廣泛,但其分解得到的重構(gòu)系數(shù)矩陣中仍存在一定的系數(shù)均一化情況,對(duì)特征提取和分析仍然存在一定影響.
因此,為了實(shí)現(xiàn)音樂(lè)信號(hào)的高區(qū)分度特征提取及精密分析,有必要對(duì)對(duì)稀疏分解重構(gòu)矩陣的系數(shù)分布情況進(jìn)行研究,以此作為現(xiàn)有求解范式及分析方法的補(bǔ)充.另外,作為近似求解方法,基于l1及l(fā)2范式的求解模型難以避免地會(huì)產(chǎn)生相當(dāng)程度的誤差,會(huì)對(duì)分析結(jié)果產(chǎn)生影響;為了精確地評(píng)估這種偏差的程度,也有必要對(duì)音樂(lè)信號(hào)的稀疏質(zhì)量進(jìn)行研究.在本文中,我們嘗試將一類稀疏質(zhì)量評(píng)價(jià)指標(biāo)應(yīng)用于音樂(lè)信號(hào)的分析之中,并評(píng)估該指標(biāo)與稀疏分解重構(gòu)誤差(模型精度)的相關(guān)性,并進(jìn)一步嘗試探討將該指標(biāo)應(yīng)用于音樂(lè)分析與識(shí)別的可能性.
信號(hào)的稀疏建模即是通過(guò)一個(gè)N×k維的字典矩陣D=[d1|d2|…|dk]∈N×k中的原子dk進(jìn)行線性組合,對(duì)信號(hào)y∈N進(jìn)行表示的過(guò)程,其中k為字典維數(shù),N為信號(hào)長(zhǎng)度,如式(1)所示:
y=Dα+e,
(1)
式中:e∈N為模型的逼近誤差,‖e‖?‖y‖.1×k維稀疏系數(shù)向量α中只有很少的非零值,即‖α‖0?K.信號(hào)的稀疏建模問(wèn)題就是對(duì)以下問(wèn)題求解:
(2)
或
(3)
式中: ‖·‖0表示l0范數(shù);ε為誤差限制;(P(0,ε))和(P0)表示包含或不包含誤差限制的l0稀疏建模問(wèn)題.字典學(xué)習(xí)的過(guò)程是對(duì)一組訓(xùn)練信號(hào)Y={yi|i=1,2,…,M},尋找字典D,基于該字典求解問(wèn)題(P0)或(P(0,ε)),可以對(duì)每一個(gè)訓(xùn)練信號(hào)yi建模,得到對(duì)應(yīng)的稀疏模型ai.
在實(shí)際應(yīng)用中,字典D可以是確定基字典,也可以是非確定基字典.確定基字典的原子的形態(tài)事先已知,很難與較復(fù)雜的音頻信號(hào)的特征完全匹配,重構(gòu)效果相對(duì)較差.非確定基字典由目標(biāo)信號(hào)集訓(xùn)練得出,可以對(duì)任意類別音樂(lè)信號(hào)進(jìn)行針對(duì)性的特征提取,從而實(shí)現(xiàn)更精確的重構(gòu).通常來(lái)說(shuō),這一類字典的學(xué)習(xí)和訓(xùn)練都是在特定的約束下,通過(guò)最小化目標(biāo)函數(shù)完成的.由于求解l0范數(shù)是一個(gè)NP難問(wèn)題,所以常使用l1范數(shù)作為l0范數(shù)的近似.用l1范數(shù)代替l0范數(shù)作為約束條件的稀疏字典求解目標(biāo)函數(shù)可以表述如下:
(4)
式中:D表示稀疏字典;αi,yi分別表示第i個(gè)訓(xùn)練樣本的稀疏重構(gòu)矩陣及該樣本本身;λ為罰函數(shù)的修正系數(shù).在優(yōu)化求解過(guò)程中,一般需要在確保l1范數(shù)不大于事先設(shè)定閾值τ的限制下,對(duì)稀疏字典D及稀疏模型{ai}進(jìn)行迭代更新.迭代過(guò)程分為兩個(gè)步驟,即在稀疏模型{ai}及訓(xùn)練集{yi}確定的情況下更新字典D,而后在稀疏字典D與訓(xùn)練集{yi}確定的情況下更新稀疏模型{ai},同時(shí)保證‖αi‖1≤τ.
當(dāng){ai}及{yi}確定:
(5)
當(dāng)D及{yi}確定:
(6)
與其他類別信號(hào)類似,對(duì)音樂(lè)信號(hào)進(jìn)行稀疏化分析需要首先對(duì)其進(jìn)行稀疏分解.首先將信息量充分(包含待分析樣本集中所有特征的小規(guī)模訓(xùn)練集),以此訓(xùn)練得到稀疏分解字典,而后使用最小絕對(duì)值收斂和選擇算子(Least Absolute Shrinkage and Selection Operator, LASSO)、OMP等算法對(duì)所有待分析樣本進(jìn)行稀疏建模,將得到的稀疏系數(shù)矩陣作為提取后的特征.在某些稀疏分解算法如K-SVD算法中,這兩步是同時(shí)進(jìn)行的.在特征提取完成后,可以使用聚類、支持向量機(jī)(Support Vector Machine, SVM)、深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)等具體分類方法和訓(xùn)練樣本的標(biāo)記對(duì)分類模型進(jìn)行訓(xùn)練,完成最終的分類識(shí)別模型.
值得注意的是,使用可靠的分解算法對(duì)音樂(lè)信號(hào)進(jìn)行稀疏分解后,其稀疏系數(shù)矩陣中的系數(shù)分布情況根據(jù)音頻性質(zhì)會(huì)出現(xiàn)很大的差異.其中,樣本重構(gòu)系數(shù)矩陣中非零值越少、能量的集中程度越高(有效原子的絕對(duì)值越大),表示重構(gòu)矩陣的稀疏質(zhì)量越好、重構(gòu)中使用的字典原子(音樂(lè)基礎(chǔ)特征)越接近樣本的本征特征.這種分布情況本身既可作為待識(shí)別樣本的一類特征,參與到后續(xù)的分析及識(shí)別工作中;另外,這種分布情況也跟稀疏分解的復(fù)原誤差存在很高的相關(guān)性,這一點(diǎn)我們將在后文的實(shí)驗(yàn)中進(jìn)行詳細(xì)證明.
為了將這種分布情況納入實(shí)際的分析識(shí)別工作中,需要對(duì)其進(jìn)行準(zhǔn)確、快速的分析和度量,接下來(lái),我們將詳細(xì)介紹由稀疏分解后的重構(gòu)系數(shù)矩陣(特征矩陣)出發(fā),度量樣本當(dāng)前稀疏性能特征的方法.
對(duì)稀疏性能矩陣進(jìn)行稀疏性能度量需要考慮以下幾個(gè)因素: 首先,最關(guān)鍵的因素就是矩陣中非零元素的個(gè)數(shù),這一指標(biāo)在稀疏問(wèn)題中受到最多關(guān)注、同時(shí)也易于評(píng)價(jià);其次,另一個(gè)同樣重要的因素就是樣本中主要成分(絕對(duì)值較大的重構(gòu)系數(shù))相對(duì)于其他成分的強(qiáng)度,這個(gè)因素對(duì)稀疏性能的影響同樣重大,但受到關(guān)注相對(duì)較少;此外,數(shù)據(jù)的偏移程度(絕對(duì)值的差異)還會(huì)受到原始信號(hào)能量(也即音樂(lè)音量)的影響.故為了準(zhǔn)確地評(píng)價(jià)稀疏系數(shù)矩陣內(nèi)元素的偏移程度(即稀疏性能),必須消除信號(hào)的l1范數(shù)或能量的影響.
基于以上評(píng)價(jià)準(zhǔn)則,本文使用所有元素間差的累加和作為基礎(chǔ),使用如下稀疏性能統(tǒng)計(jì)指標(biāo)SPS(Sparse Performance Statistics)統(tǒng)計(jì)系數(shù)矩陣αi的稀疏性能:
(7)
式中:αij,αik表示重構(gòu)系數(shù)向量αi的第j,k個(gè)元素.易知SPS(αi)>0.
該統(tǒng)計(jì)指標(biāo)的物理意義即是在除去待重構(gòu)樣本音量的影響之后,稀疏系數(shù)的相對(duì)偏移程度.該指標(biāo)的值越大就表示稀疏系數(shù)相對(duì)偏移量越大,即系數(shù)的分布情況傾向于只有極少數(shù)絕對(duì)值較大的系數(shù);在這種情況下,重構(gòu)誤差能量一般也較小.然而,傳統(tǒng)方法使用l1范數(shù)求解模型(4),該模型要求最小化目標(biāo)函數(shù).因SPS(αi)>0,且SPS(αi)越大,稀疏性能越好,故SPS(αi)指標(biāo)的優(yōu)化方向與字典求解模型的優(yōu)化方向是相反的.為了將二者統(tǒng)一起來(lái),我們實(shí)際應(yīng)用的重構(gòu)系數(shù)矩陣的稀疏性能評(píng)價(jià)指標(biāo)SPI(Sparse Performance Index)可以表示為:
(8)
由SPI(αi)的定義方式可知,同樣的稀疏建模算法和稀疏度限制下,較小的SPI(αi)說(shuō)明待重構(gòu)信號(hào)可以被更少的字典原子線性表示,意味著字典對(duì)αi對(duì)應(yīng)的訓(xùn)練樣本完備程度較好;而對(duì)若干個(gè)不同的字典,同一樣本yi對(duì)應(yīng)SPI(αi)更小的字典也可以更好地匹配yi的固有特征.在實(shí)際應(yīng)用中,只需計(jì)算所有樣本重構(gòu)矩陣對(duì)應(yīng)的SPI并將其排序,重構(gòu)矩陣SPI指標(biāo)較大的即是稀疏性能較差的樣本.該指標(biāo)只需讀取稀疏分解系數(shù)矩陣即可計(jì)算,與稀疏字典無(wú)關(guān),實(shí)際操作起來(lái)也較簡(jiǎn)便.
接下來(lái),我們將通過(guò)實(shí)驗(yàn)驗(yàn)證該指標(biāo)與音樂(lè)樣本信號(hào)重構(gòu)誤差的關(guān)系,并探討其與音樂(lè)本質(zhì)特征的相關(guān)性.
為了令實(shí)驗(yàn)結(jié)果精確可靠,我們首先選取K-SVD算法訓(xùn)練稀疏字典,對(duì)音樂(lè)樣本進(jìn)行分析.樣本分為兩組: 第一組包含兩首樂(lè)曲,來(lái)自兩類不同音樂(lè)體裁(肖邦夜曲第20號(hào)及貝多芬第五交響曲“命運(yùn)”),驗(yàn)證本文方法對(duì)音樂(lè)類別進(jìn)行分類的效果;第二組包含4首小提琴獨(dú)奏曲,驗(yàn)證本方法對(duì)統(tǒng)一類型不同內(nèi)容的音樂(lè)進(jìn)行鑒別的效果.選取音樂(lè)信息見(jiàn)表1.
表1 實(shí)驗(yàn)選取的音樂(lè)信息
在訓(xùn)練稀疏字典時(shí),參數(shù)如下: 音樂(lè)數(shù)據(jù)先分為長(zhǎng)度為256采樣點(diǎn)的幀,幀間交疊為128點(diǎn).字典維數(shù)為256維,樣本重構(gòu)稀疏度限制為非零元素小于等于50,使用K-SVD算法迭代10輪,并對(duì)其進(jìn)行統(tǒng)計(jì)分析.實(shí)驗(yàn)參數(shù)的設(shè)計(jì)綜合考慮了稀疏性和計(jì)算復(fù)雜度兩方面,幀長(zhǎng)影響了字典原子數(shù)和幀數(shù),而過(guò)高的幀長(zhǎng)會(huì)導(dǎo)致字典原子數(shù)的大量增長(zhǎng),降低幀數(shù)會(huì)導(dǎo)致字典訓(xùn)練不足,無(wú)法獲得稀疏的系數(shù)矩陣,進(jìn)而影響SPI的參考價(jià)值.
首先,使用肖邦夜曲第20號(hào)(升C小調(diào))作為訓(xùn)練集,共得到93238個(gè)分析樣例,對(duì)其根據(jù)SPI指標(biāo)進(jìn)行排序后結(jié)果如圖1所示.
圖1 1號(hào)音樂(lè)樣本分析試驗(yàn)結(jié)果Fig.1 Experiment results of music sample No.1
從實(shí)驗(yàn)結(jié)果中可以看出,該指標(biāo)在音樂(lè)分析結(jié)果中與重構(gòu)誤差存在高度的相關(guān)性,即該指標(biāo)可以相當(dāng)精確地度量樣本實(shí)際稀疏情況和復(fù)原效果.
接下來(lái),作為比較,我們將貝多芬C小調(diào)第5號(hào)交響曲“命運(yùn)”作為不同類別的樣本,同樣分為長(zhǎng)度為256采樣點(diǎn)的幀,幀間交疊128采樣點(diǎn),得到151536個(gè)分析樣本,使用同一稀疏字典進(jìn)行稀疏建模,對(duì)其SPI指標(biāo)排序后結(jié)果如圖2所示.
圖2 2號(hào)音樂(lè)樣本分析實(shí)驗(yàn)結(jié)果Fig.2 Experiment results of music sample No.2
由實(shí)驗(yàn)結(jié)果可見(jiàn),“命運(yùn)”交響曲與肖邦夜曲的整體趨勢(shì)皆相同,但由于兩者調(diào)式和體裁的不同,其SPI分布及對(duì)應(yīng)的誤差能量分布都存在著較大的差異.
圖3所示為第二組音樂(lè)的分析試驗(yàn)結(jié)果.圖中(a),(b),(c),(d)分別對(duì)應(yīng)第二組樂(lè)曲的各個(gè)樂(lè)曲;第一列為SPI的時(shí)變曲線,第二列為排序后的相對(duì)誤差分布,第三列為相對(duì)誤差趨勢(shì).
從第二組的結(jié)果來(lái)看,利用本文的方法可以較好地展示同一種樂(lè)器在演奏不同樂(lè)曲時(shí)的時(shí)域特征,從而提供了較好的區(qū)分度.同時(shí)利用相對(duì)誤差分布,可以發(fā)現(xiàn)樂(lè)器演奏不同樂(lè)曲的共同特征,可以用于樂(lè)器的識(shí)別應(yīng)用中.
由此可見(jiàn),SPI指標(biāo)不僅與單一樣本的稀疏性能、重構(gòu)精度存在很高的相關(guān)性,同時(shí)其分布也可以用來(lái)度量不同類別的音樂(lè)調(diào)式和體裁,對(duì)基于稀疏分解的音樂(lè)類別分析具有顯著的參考價(jià)值.
本文面向音樂(lè)的稀疏化分析,介紹了使用稀疏分解思想進(jìn)行音樂(lè)類別鑒別分析的具體思路,并給出了將稀疏系數(shù)分布情況進(jìn)行精確統(tǒng)計(jì)并納入音樂(lè)類型識(shí)別體系中的方法,且通過(guò)實(shí)驗(yàn)驗(yàn)證了我們給出的指標(biāo)與音樂(lè)樣本本身稀疏分布情況及重構(gòu)精度的關(guān)系,探討了使用這類指標(biāo)進(jìn)行音樂(lè)體裁和調(diào)式分別的可能性.若能對(duì)該指標(biāo)與音樂(lè)體裁、調(diào)式的內(nèi)在關(guān)聯(lián)進(jìn)行進(jìn)一步的探討和研究,這一指標(biāo)將可以成為音樂(lè)類型分析工作的一個(gè)有力參照和依據(jù).
圖3 第二組音樂(lè)的分析試驗(yàn)結(jié)果Fig.3 Experiment results of music sample group 2