• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向混合樂器音樂分析的稀疏特征提取方法

      2021-07-28 12:36:56徐忠亮郭繼峰
      計算機工程與應用 2021年14期
      關鍵詞:字典音頻樂器

      岳 琪,徐忠亮,郭繼峰

      東北林業(yè)大學 信息與計算機工程學院,哈爾濱150040

      音樂信號是一類典型的音頻時變數(shù)據(jù),也是一種常見的混合源復雜數(shù)據(jù),其組成元素(音符)相對固定,但是組合方式和強度多變,形成了其復雜的時變特征。在音樂的分析和處理過程中,演奏樂器是最關鍵的要素之一,特別是在室內(nèi)樂、協(xié)奏曲以及交響樂的分析和研究中起到至關重要的作用;然而由于這些音樂體裁多樂器合奏的特性,以及不同樂器強度(音量)的相對變化,真實混合音樂音頻經(jīng)常無法得到用于機器學習的可靠標簽,人工合成數(shù)據(jù)往往與真實數(shù)據(jù)存在較大差異,樂器識別也很難得到理想的結果。這在很大程度上影響了音樂音頻的分析效果,同樣的問題也存在于其他混合源數(shù)據(jù)分析過程中。解決這一問題的關鍵在于可解釋的特征提取方法。傳統(tǒng)的音樂音頻分析識別方法經(jīng)常建立在頻域分析或物理特征的基礎上,如傅里葉變換(FFT)、常數(shù)Q 變換(CQT)、梅爾頻率倒譜(MFCC)、離散余弦變換(DCT)或小波變換(WT)等;這些特征提取方法能夠在一定程度上反映音樂音頻信號的頻域變化,但音樂的混合樂器組成通常與主要的頻域特征沒有顯著的關聯(lián)(頻域特征的變化主要受到和弦與音高的影響),需要利用多次諧波等特征才能實現(xiàn)樂器的識別;而在混合音樂的應用場景中,由于樂器之間的互相疊加和強度的變化,多次諧波等特征的精確性會受到更大的影響,這使得利用這些方法解析混合樂器組成變得更加困難。

      稀疏分解作為一種相對成熟的信號壓縮和成分解析的手段[1],一直以來受到學界的廣泛關注,并已獲得了長足的發(fā)展。稀疏分解算法的典型應用涵蓋圖像、音頻等多類信號的壓縮存儲[2],超分辨率重建和融合[3-4],對統(tǒng)計獨立噪聲的消除[5],信號分析相關的事件或成分探測[6]以及稀疏表示分類[7-8]等。音樂信號本身由形態(tài)相對確定、但強度和組合方式多變的音符單元構成,對其進行稀疏分解的物理意義明確,因此結合稀疏分解方法可以對音樂信號的音樂體裁、調(diào)式等進行定量的分析研究,具有廣闊的研究和應用前景,如董麗夢等利用稀疏表示分類器對音樂中和弦進行識別[9],Panagakis等將稀疏表示技術與時間調(diào)制結合、用于音樂體裁的分類[10],Han 等將稀疏特征用于樂器識別[11],Wu 等利用稀疏特征評價音樂演奏[12],都達成了較好的識別效果;此外,Plumbley 等還用稀疏編碼實現(xiàn)了復調(diào)音樂的轉(zhuǎn)錄[13],Cogliati等也用快速卷積稀疏編碼完成了普通和上下文相關鋼琴音樂的轉(zhuǎn)錄[14-15],等等。以上這些工作涵蓋音樂和弦、體裁、樂器分類以及其他調(diào)制分析方法,充分說明了稀疏分解在音樂信號解析領域的有效性。

      與其他傳統(tǒng)分析方法不同,稀疏分解可以被認為是一種基于時域波形、由訓練數(shù)據(jù)驅(qū)動的方法,這為包括混合樂器分析和音樂分析可視化在內(nèi)的音樂分析和處理提供了一種新的視角。已有很多工作證明音樂的稀疏特征與其體裁和情緒存在明顯的關聯(lián)關系[10,16]。本文提出一種基于樣本重構向量稀疏性能的特征計算方法(Sparse Performance Index,SPI),探討在混合樂器演奏的音樂音頻中使用SPI 作為特征進行樂器識別和音樂時域分析的方法,針對量化困難的無標注混合音樂音頻數(shù)據(jù)的分析與識別問題,建立多種樂器成分字典、基于這些字典提取SPI 稀疏特征對音樂樣本進行實時的混合樂器分析和可視化,并通過實驗驗證該方案的可行性。

      1 稀疏分解基本原理

      使用字典D對樣本yi進行稀疏分解,有以下通用表示如式(1):

      式中,D={d1,d2,…,dM},每個原子dj長度為L;yi=表示第i個樣本及其重構系數(shù)向量;表示該分解結果的重構誤差。包含l0范數(shù)的稀疏分解問題已被證明是一個NP 難問題,故在實際應用中通常使用l1范數(shù)代替l0范數(shù),此時稀疏分解迭代求解模型可以表示為式(2)、(3):

      實際計算中通常把l1范數(shù)視為約束條件,以把該問題轉(zhuǎn)化為凸優(yōu)化問題進行求解,如常用的K-SVD 字典學習方法[17-18]和OMP 回歸分析方法[19]及其變種都采取這一類方法解決稀疏分解的計算問題。在稀疏分解結果中,稀疏字典可以認為是對樣本集內(nèi)成分的近似擬合,稀疏系數(shù)向量則是對這些樣本分布情況的表征,可以作為一些分類任務的特征使用;然而,系數(shù)向量的分布會在很大程度上受到字典的影響,其語義特性通常不很明確。為了解決普通方法對數(shù)據(jù)標簽的依賴和特征可解釋性問題,需要在稀疏系數(shù)向量基礎上進一步進行特征加工和語義解釋,以獲得更有效的稀疏特征體系。

      2 面向混合樂器成分解析的音樂稀疏分析方法

      2.1 基于稀疏分解的混合數(shù)據(jù)分析理論

      本文概述中已經(jīng)提到,對訓練數(shù)據(jù)的標簽的依賴是現(xiàn)在混合數(shù)據(jù)分析和識別的一個主要限制條件。具體到混合音樂分析領域,深度神經(jīng)網(wǎng)絡(DNN)等方法訓練過程中必須首先對訓練用混合數(shù)據(jù)進行標記,這些標簽一般由人工標注、工作量大,且通常只包括主要樂器種類標簽,對于次要樂器的強度變化沒有度量能力,對由幾個強度相近成分組成的混合數(shù)據(jù)也無法保證標簽的準確性。考慮一個數(shù)據(jù)樣本y和兩個不同的稀疏字典Da、Db,其中Da由與y同質(zhì)的數(shù)據(jù)集訓練得出,Db則由無關的數(shù)據(jù)集得出。假設Ci為y中存在的一個獨立成分,daj、dbk分別為字典Da、Db中的任意原子,易知有式(4)所示結論:

      由此,若樣本y使用Da、Db建模所得系數(shù)向量分別為Va、Vb,易知E(max(Va))>E(max(Vb));以此類推,y中所有成分與字典Da中的相關度最大值都更高,單一系數(shù)期望值更大。由此可知,系數(shù)向量能量較集中、稀疏性能較好的稀疏字典與樣本匹配性更高,即若能對系數(shù)向量能量分布進行精確的度量,則度量結果就被賦予了明確的語義信息——數(shù)據(jù)樣本與特定成分字典的匹配程度。由此,可以在不依賴混合源數(shù)據(jù)標簽的前提下,僅使用有標簽的單一成分數(shù)據(jù)和無標簽的混合源數(shù)據(jù)實現(xiàn)混合源數(shù)據(jù)識別,以及進一步的語義層面上的數(shù)據(jù)分析。

      2.2 音樂SPI稀疏特征的計算方法

      由于音樂信號本身是由確定的少量單音構成,且音樂信號集中的隨機噪聲強度相對較低,則該數(shù)據(jù)集必然具備稀疏性,適合使用稀疏分解算法進行分析。提出了一個基于稀疏分解,能夠有效度量樣本內(nèi)成分復雜度的稀疏性能指標SPI(Sparse Performance Index),該指標被視為稀疏特征時的計算方式可以被定義如式(5):

      式中,M為字典原子個數(shù),αij、αik分別表示系數(shù)向量αi的第j、k個系數(shù)。當‖αi‖0=1,SPI(αi)=0,取得最小值,表示樣本稀疏情況最好;當‖αi‖0=M且對所有j、k都有|αij|=|αik|時,SPI(αi)=1,取得最大值表示樣本稀疏情況最差(系數(shù)完全均一化)。該特征指標通過計算重構系數(shù)兩兩差值之和,能夠直接度量稀疏模型內(nèi)部的系數(shù)能量分布情況,從而對音樂信號的變化產(chǎn)生即時響應,且對字典規(guī)模的變化不敏感,可以應用于多種類型的音樂分析。本文將以SPI稀疏特征為基礎,介紹一種使用多種樂器的音樂成分字典,提取具有明確語義信息的多維稀疏特征向量的方法。該方法只需要使用相對容易獲取的單樂器音頻數(shù)據(jù),不需要對混合音樂數(shù)據(jù)進行標注,對人工標注的需求量幾乎為零,且容易拓展至其他混合成分數(shù)據(jù)分析識別領域,具有較高的潛在研究和應用價值。

      2.3 稀疏特征向量的建立方法

      參數(shù)選擇是影響稀疏分解算法表現(xiàn)的最主要因素之一,包括分幀長度、字典規(guī)模和稀疏度約束(稀疏建模所使用的原子數(shù))三項。對于較常見的44.1 kHz采樣率的音樂信號,可以取中央C(261.63 Hz)為基準,保證每幀至少有一個完整波形,通常來說256采樣點是一個合適的幀長。字典規(guī)模方面,需要覆蓋絕大部分單音的波形及相位,同時兼顧字典的過完備性和計算效率,一般來說1 024 或2 048 維字典可以滿足大部分獨奏或室內(nèi)樂音頻分析的要求。稀疏度約束方面,考慮到一般音樂信號內(nèi)的多次諧波和噪聲情況,獨奏和室內(nèi)樂的最適稀疏度約束一般不超過10,交響曲則在35左右。

      確定字典學習參數(shù)后,需要針對每一種基礎樂器或樂器組合訓練字典。所有字典需要使用同一參數(shù)訓練,特別是稀疏度約束,以保證計算出的SPI值不會受到影響。針對不同的識別需求和數(shù)據(jù)情況,可以任意選取成分字典和SPI 特征的維數(shù),以弦樂四重奏為例,可以分別訓練小提琴、中提琴、大提琴和弦樂四重奏四類字典,每一幀樣本分別使用這四類字典建模并計算SPI,也可以引入其中幾種樂器合奏的數(shù)據(jù)訓練更多字典、獲取更多的SPI時序特征向量以提升識別準確率,也可以僅使用有可靠數(shù)據(jù)的少數(shù)樂器訓練字典,這為該方法的應用賦予了較高的靈活性。

      稀疏建模和字典學習算法方面,由于稀疏分解算法本身具有一定不確定性,所得的SPI時間序列需要平滑以便觀察和分析,平滑窗長決定該分析算法的時間分辨率,窗長越長則算法穩(wěn)定性越好,但時間分辨率會相應降低。在幀長256 采樣點、幀間交疊50%的情況下,400~800 幀是一個合適的范圍。由于平滑窗會覆蓋一定的時間長度,所以分析結果相對真實的音樂信號變化會產(chǎn)生一個長度固定的時延;窗覆蓋400 幀時,該時延約為1.16 s,不會對正常的實時分析產(chǎn)生顯著影響。完成上述步驟后,即可得到與不同樂器成分字典一一對應的多個音樂稀疏分析時序特征向量,可以直觀地展示樂曲本身的時序特性。

      在得到了可靠的樂曲時序稀疏特征后,即可使用任何通用分類器,包括SVM、神經(jīng)網(wǎng)絡等對其進行樂器種類的識別或時域混合情況的分析,特征提取方法的整體流程框圖如圖1所示。

      圖1 特征提取方法流程圖

      3 實驗與討論

      實驗部分中,首先使用真實的混合樂器短樂段音頻驗證提出的SPI 稀疏特征識別混合樂器音樂中主要樂器成分的能力,而后在特定的音樂體裁下(弦樂四重奏)給出基于SPI的時域分析圖譜并與樂段的信息作比對,驗證SPI 稀疏特征反映樂曲樂段差異和樂器組成變化的能力。在實際的分析操作中,選取相對成熟的K-SVD字典學習方法和OMP回歸分析方法進行稀疏分解的計算。

      3.1 單一樂器的識別分類

      在該部分中,使用IRMAS 音樂數(shù)據(jù)庫[20]中的混合樂器音頻數(shù)據(jù)集驗證稀疏特征對單一樂器的識別效果。該數(shù)據(jù)庫的訓練數(shù)據(jù)往往以一種樂器為主導,但是同時混合著鼓聲、伴奏聲等其他樂器或聲音信息,且包含各種不同的音樂風格,訓練數(shù)據(jù)段長為3 s,采樣率44.1 kHz,符合真實環(huán)境下對混合樂器音頻識別的需求。

      SPI特征的維數(shù)選取由識別分析任務需求的標簽種類數(shù)量和可用的可靠單成分樣本數(shù)據(jù)集數(shù)量共同決定,SPI 特征總的特征維數(shù)介于二者之間,必須選取分析目標所需標簽對應的所有種類單成分樣本數(shù)據(jù),也可以選擇其他類型數(shù)據(jù)集作為參考。受到公開數(shù)據(jù)集內(nèi)容的限制,舍去了一些不常見樂器和缺乏單樂器訓練數(shù)據(jù)的數(shù)據(jù)集(如電吉他和人聲等),但在實際應用中單成分數(shù)據(jù)集相對容易采集,故不會影響本文方法的應用表現(xiàn)。最終選取的識別對象包括:大提琴、黑管、長笛、鋼琴、薩克斯、小號和小提琴七種樂器,對每種樂器分別計算片段的平均SPI 值得到7 維特征向量,所有識別率都為五折交叉驗證的平均結果。

      為了直觀展示特征提取方法的性能,首先選擇SVM作為分類器,將SPI特征與使用廣泛的傳統(tǒng)MFCC特征,文獻[21]使用的大規(guī)模(2 023 維)融合特征,matlab Timbre工具箱特征[22],以及SPI、MFCC的融合特征做出比較。不同樂器及整體加權平均識別準確率如表1。

      表1 每種樂器與其他樂器的區(qū)分準確率 %

      可以看到,不同樂器間的識別準確率有所差異,這是由樂器相似度和數(shù)據(jù)集的不同樂器標注質(zhì)量差異所導致的,如該數(shù)據(jù)集中薩克斯片段以合奏為主,大提琴片段以協(xié)奏曲為主,故識別率相對較低,而小號樂段以獨奏為主,且與其他樂器差異較大,故識別率相對較高。作為對比,單純MFCC及其改進型對單一樂器音頻單音的識別準確率約為95.32%和96.28%[23],由此可見提出的特征提取方法在復雜得多的IRMAS混合樂器短樂段數(shù)據(jù)集上已經(jīng)達到了與之接近的效果。另外還使用了普通神經(jīng)網(wǎng)絡分類器對同樣的數(shù)據(jù)集進行分類識別,結果如表2所示。

      表2 不同特征的ANN七分類識別準確率

      作為對比,在該數(shù)據(jù)集上使用2 023 維時頻域融合特征的識別準確率約為68.3%,63維Timbre音色工具箱特征的7分類識別準確率約為67.2%??紤]到以上兩種都為維數(shù)較高的融合特征,提出的SPI+MFCC的融合特征識別性能依然有明顯的優(yōu)勢,驗證了實驗結果的可信度。

      從兩組實驗結果中可以看到,SPI 特征在不同分類器上的識別能力都稍優(yōu)于傳統(tǒng)MFCC特征,而二者的融合特征則顯著優(yōu)于傳統(tǒng)MFCC 特征的識別表現(xiàn)。這是因為SPI是一種包含語義信息的特征,而MFCC是一種對數(shù)據(jù)物理特性進行度量的特征,二者融合無疑可以達成更好的識別結果。同時,考慮到訓練數(shù)據(jù)的復雜程度以及使用的特征維數(shù)非常少(7維),可以認為稀疏特征作為一種樂器區(qū)分特征是有效、可靠的,既可獨立使用,也可以與其他特征共同使用以達成更好的識別效果。

      3.2 混合音樂音頻數(shù)據(jù)的無監(jiān)督分析

      在這一部分,為了有效地驗證提出的方法對無標簽混合樂器數(shù)據(jù)分析的效果,選取F.X.里赫特的F大調(diào)弦樂四重奏作為實驗對象,樣本數(shù)據(jù)由敖德薩四重奏樂團演奏。考慮到混合音樂數(shù)據(jù)幾乎無法獲取可靠的標簽(特別是在樂器強度相近的合奏樂段),故不以識別率作為評價手段,而是直接展示SPI稀疏特征的時域變化圖譜,通過對SPI特征圖譜的分析,以直觀的方式證明SPI稀疏特征反映混合音樂樂器組成變化的能力。該類別實驗需要建立小提琴、中提琴三類稀疏成分字典,選取與其作曲年代和演奏方式相近,同時較具權威性的巴赫小提琴、大提琴無伴奏奏鳴曲和提勒曼的12 首中提琴無伴奏幻想曲作為訓練樣本集,演奏者分別為Nathan Milstein、Petr P?ibyl和Maurice Gendron。

      為了有效地進行對比,首先展示了上述三種獨奏樂曲的SPI時域分析圖譜。作為參考,也使用了無標注的弦樂四重奏數(shù)據(jù)訓練字典,在圖譜中繪制對應的曲線。SPI 曲線的平滑窗長400 幀,相當于1.16 s,每種樂器數(shù)據(jù)隨機選擇一首作為測試樣本,其余作為訓練樣本建立256×2 048 的樂器成分字典,重構單幀樣本最多使用10個不同的字典原子,繪制四種SPI 時域特征曲線、構成SPI 時域特征圖譜。進行了大量實驗,篇幅所限只展示其中部分結果,一些單樂器音頻的時序分析實驗結果如圖2所示。

      圖2 單樂器音頻SPI圖譜實驗結果

      其他所有實驗趨勢均與所示結果基本一致??梢钥吹剑谒袉螛菲鲾?shù)據(jù)的SPI圖譜中,幾條SPI曲線的相對位置在所有樂段都保持穩(wěn)定,在小提琴和中提琴實驗中,對應樂器的曲線幾乎始終比其他樂器曲線更低,而在大提琴實驗中,大提琴曲線只是稍低于中提琴及四重奏分析曲線。這是因為大提琴音色相對渾厚,因此其復雜度也會相對較高,這一點也可由其他樂器實驗中大提琴對應曲線的高位置得到驗證。三種樂器獨奏時的SPI 特征分布都具有明顯特點:小提琴獨奏時小提琴曲線處于最低位置,其他曲線分布較分散;中提琴獨奏時中提琴曲線處于最低位置,所有曲線分布都比較集中;大提琴獨奏時大提琴曲線位置較低,而小提琴曲線處于最高位置。由此,不同樂器的SPI特征分布目視即可見典型差異,從而可以進行直觀的識別和分析,從而使特征體系具備了極高的可解釋性,這一點是其他特征體系不具備的。

      接下來,展示弦樂四重奏的實驗結果。樂段選取自F.X.里赫特F大調(diào)弦樂四重奏Op.26:II.Presto,部分樂段分析結果如圖3所示。

      圖3 弦樂四重奏SPI圖譜實驗結果

      在四重奏實驗中,幾類樂器的SPI曲線出現(xiàn)了依段落的交替起伏;由于大部分時間是多種樂器合奏,故很多時段SPI曲線差異不如獨奏樂段明顯,但每個樂器曲線處于最低位置、與該樂器獨奏時曲線分布特征相似的時段在時間軸上與演奏過程中對應樂器聲音占主導地位的時段完全吻合,如5~20 s的大提琴主導樂段,35~48 s的小提琴樂段,和210~215 s 的中提琴主導樂段等。除了一些樂器獨奏段落外,整個樂曲中四重奏曲線在絕大部分時間處于最低的位置,反映了該曲目的體裁。

      以上的實驗結果可以表明SPI 特征指標體系的諸多有意義的特性。首先,它可以在僅使用單一成分數(shù)據(jù)和無標簽數(shù)據(jù)作為訓練數(shù)據(jù)的基礎上,直接對無標注的混合成分音樂數(shù)據(jù)進行有效的分析,從圖譜的分布形態(tài)(或比較SPI 值的大小)就可以得到準確度很高的識別結果。其次,它對相對較弱、不占主要地位的成分的強度變化也有較強的表征能力,對于分析和研究這些次要成分有重要的意義和價值。最后,SPI 圖譜的共性變化與音樂本身的時域情感、內(nèi)容存在著明顯的關聯(lián),而這些現(xiàn)象也是下一步重要的研究對象之一。

      4 結束語

      本文介紹了一種基于多樂器字典稀疏分解的音樂信號時域分析方法,通過建立多種不同樂器的成分字典,以及使用SPI 指標對其進行時域復雜度度量、提取稀疏特征,可以有效區(qū)分混合樂器的組合情況,同時也能夠直觀地反映音樂本身的情感和內(nèi)容變化,對音樂的定量分析具有明確的意義和價值。需要強調(diào)的是,該方法的應用并不僅限于音樂領域,所有能夠獲取明確的成分數(shù)據(jù)集的聲音信號,乃至于其他各類數(shù)據(jù)信號都可以使用該方法進行數(shù)據(jù)成分字典的訓練和基于稀疏復雜度評價的成分時序變化分析,這使得本文所述方法在諸如野外生物的聲音捕捉和識別、機械故障雜音的捕捉和預警、生物電信號異常波動的捕捉等多個方面具備直觀和潛在的研究和應用前景。在后續(xù)工作中,可以對協(xié)奏曲、交響曲及包含人聲的演唱等更復雜的音樂形式進行分析和探索,同時對不同樂器的固有復雜度特性進行研究,并在其他可能的應用領域拓展該方法的應用方式和適用范圍,以服務于更廣泛的音樂和其他各類時變信號的分析需要。

      猜你喜歡
      字典音頻樂器
      開心字典
      家教世界(2023年28期)2023-11-14 10:13:50
      開心字典
      家教世界(2023年25期)2023-10-09 02:11:56
      學樂器
      樂器
      小太陽畫報(2019年5期)2019-06-25 10:56:04
      必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      音頻分析儀中低失真音頻信號的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      我是小字典
      正版字典
      讀者(2016年14期)2016-06-29 17:25:50
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      绥阳县| 钦州市| 乌恰县| 临沭县| 日土县| 靖安县| 同江市| 高雄市| 新晃| 古交市| 泰兴市| 三门峡市| 北京市| 阿尔山市| 大冶市| 庆元县| 松江区| 同仁县| 文化| 阳谷县| 铜川市| 建昌县| 宜城市| 融水| 龙胜| 东阿县| 于都县| 乡城县| 涪陵区| 涡阳县| 济源市| 丹凤县| 南雄市| 商丘市| 彭水| 万盛区| 霍邱县| 太仆寺旗| 靖江市| 依安县| 衡山县|