劉萬(wàn)軍,王佳銘,曲海成,董利兵,曹欣宇
基于頻譜空間域特征注意的音樂(lè)流派分類(lèi)算法
劉萬(wàn)軍,王佳銘*,曲海成,董利兵,曹欣宇
(遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105)( ? 通信作者電子郵箱wjm0703@126.com)
為了提升深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)音樂(lè)頻譜流派特征的提取效果,提出一種基于頻譜空間域特征注意的音樂(lè)流派分類(lèi)算法模型DCNN-SSA。DCNN-SSA模型通過(guò)對(duì)不同音樂(lè)梅爾譜圖的流派特征在空間域上進(jìn)行有效標(biāo)注,并且改變網(wǎng)絡(luò)結(jié)構(gòu),從而在提升特征提取效果的同時(shí)確保模型的有效性,進(jìn)而提升音樂(lè)流派分類(lèi)的準(zhǔn)確率。首先,將原始音頻信號(hào)進(jìn)行梅爾濾波,以模擬人耳的濾波操作對(duì)音樂(lè)的音強(qiáng)及節(jié)奏變化進(jìn)行有效過(guò)濾,所生成的梅爾譜圖進(jìn)行切割后輸入網(wǎng)絡(luò);然后,通過(guò)深化網(wǎng)絡(luò)層數(shù)、改變卷積結(jié)構(gòu)及增加空間注意力機(jī)制對(duì)模型在流派特征提取上進(jìn)行增強(qiáng);最后,通過(guò)在數(shù)據(jù)集上進(jìn)行多批次的訓(xùn)練與驗(yàn)證來(lái)有效提取并學(xué)習(xí)音樂(lè)流派特征,從而得到可以對(duì)音樂(lè)流派進(jìn)行有效分類(lèi)的模型。在GTZAN數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于空間注意的音樂(lè)流派分類(lèi)算法與其他深度學(xué)習(xí)模型相比,在音樂(lè)流派分類(lèi)準(zhǔn)確率和模型收斂效果上有所提高,準(zhǔn)確率提升了5.36個(gè)百分點(diǎn)~10.44個(gè)百分點(diǎn)。
音樂(lè)流派分類(lèi);深度卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);空間注意力機(jī)制;梅爾頻譜
音樂(lè)是以聲音為媒介的一種藝術(shù)表現(xiàn)形式,是由不同的旋律、節(jié)奏、和聲等元素依照一定規(guī)律組合而成[1]。隨著互聯(lián)網(wǎng)與多媒體技術(shù)的飛速發(fā)展,參與音樂(lè)等藝術(shù)作品創(chuàng)作的人數(shù)及音樂(lè)作品的數(shù)量也與日俱增。傳統(tǒng)音樂(lè)作品的分類(lèi)方法,通常是由專(zhuān)業(yè)人員對(duì)作品的音樂(lè)流派[2]進(jìn)行分析后分類(lèi),但由于人工分類(lèi)的局限性已無(wú)法適應(yīng)當(dāng)下需求。音樂(lè)信息檢索(Music Information Retrieval, MIR)作為一門(mén)橫跨音樂(lè)學(xué)、機(jī)器學(xué)習(xí)等多個(gè)專(zhuān)業(yè)的跨學(xué)科科學(xué),通過(guò)計(jì)算機(jī)對(duì)音樂(lè)進(jìn)行自動(dòng)分類(lèi),在克服人工分類(lèi)局限性的同時(shí)大幅度提升了分類(lèi)效率[3],其中流派分類(lèi)應(yīng)用廣泛。
音樂(lè)流派自動(dòng)分類(lèi)步驟:1)對(duì)原始音頻信號(hào)進(jìn)行預(yù)處理,提取具有流派屬性的特征;2)通過(guò)對(duì)不同流派特征進(jìn)行進(jìn)一步的提取并訓(xùn)練,使得分類(lèi)器具有良好的流派分類(lèi)效果;3)將待分類(lèi)音樂(lè)進(jìn)行上述操作,通過(guò)訓(xùn)練得到的分類(lèi)器進(jìn)行屬性判定。傳統(tǒng)機(jī)器學(xué)習(xí)應(yīng)用于音樂(lè)流派分類(lèi)領(lǐng)域時(shí),影響流派分類(lèi)效果的主要因素為流派特征的提取和分類(lèi)器的選取。Wold等[4]通過(guò)對(duì)原始音頻信號(hào)進(jìn)行均值、自相關(guān)系數(shù)等處理提取音頻特征,然后通過(guò)NN(-Nearest Neighbors)算法[5]進(jìn)行流派屬性判別。Tzanetakis等[3]將音樂(lè)的音高、音色和節(jié)奏等屬性組合為特征集合,通過(guò)高斯混合模型[6]等算法進(jìn)行特征集選取后分類(lèi)。徐星[7]引入頻譜方差等音頻特征,結(jié)合主成分分析及稀疏編碼理論進(jìn)行降維,分析并研究了稀疏表示的模型分類(lèi)。傳統(tǒng)機(jī)器學(xué)習(xí)在音樂(lè)流派分類(lèi)領(lǐng)域已經(jīng)證明了流派自動(dòng)分類(lèi)的效果,但存在容易過(guò)擬合和難以處理大規(guī)模樣本等問(wèn)題[8]。隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的流派分類(lèi)方法可以有效地解決上述問(wèn)題。
神經(jīng)網(wǎng)絡(luò)憑借其多層非線性變換的屬性,對(duì)高維數(shù)據(jù)復(fù)雜表示的學(xué)習(xí)具有優(yōu)勢(shì)[8]。隨著深度學(xué)習(xí)在人工智能各領(lǐng)域的廣泛應(yīng)用[9-12],其在音樂(lè)流派分類(lèi)領(lǐng)域的優(yōu)勢(shì)也隨之凸顯。Li等[13]通過(guò)三個(gè)一維卷積層構(gòu)成的卷積神經(jīng)網(wǎng)絡(luò)對(duì)音頻信號(hào)的梅爾倒譜系數(shù)進(jìn)行學(xué)習(xí)并分類(lèi)。Dieleman等[14]以一維卷積和一維最大池化為主設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò),并驗(yàn)證了在特征預(yù)處理階段梅爾頻譜在特征表達(dá)上的有效性。Yang等[15]對(duì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),通過(guò)重復(fù)的卷積層和與其對(duì)應(yīng)的池化層,增大網(wǎng)絡(luò)深度,提升網(wǎng)絡(luò)模型的特征提取效果。上述深度學(xué)習(xí)模型在音樂(lè)流派分類(lèi)領(lǐng)域的應(yīng)用,顯著提升了流派分類(lèi)效果,但仍存在問(wèn)題:1)特征預(yù)處理方法對(duì)音樂(lè)流派特征提取缺乏適用性;2)單純堆疊卷積層深化網(wǎng)絡(luò),難以在確保模型有效性的同時(shí)對(duì)特征進(jìn)行高維抽象提取;3)普通卷積容易忽略音頻譜圖中對(duì)音樂(lè)節(jié)奏特性的表達(dá)。
本文在對(duì)比了多種特征預(yù)處理方法與模型結(jié)構(gòu)后,對(duì)音頻譜圖流派特征提取的算法模型進(jìn)行增強(qiáng),提出了一種基于頻譜空間域特征注意的音樂(lè)流派分類(lèi)算法模型——DCNN-SSA(Deep Convolutional Neural Network Spectral Spatial Attention),旨在增強(qiáng)算法模型對(duì)音樂(lè)音頻譜圖中流派特征的提取性能,進(jìn)而提升算法模型音樂(lè)流派分類(lèi)的準(zhǔn)確率。
不同流派音樂(lè)在音強(qiáng)、節(jié)奏等音樂(lè)特性表達(dá)上具有一定差異,模型通過(guò)對(duì)這些差異進(jìn)行有效學(xué)習(xí)實(shí)現(xiàn)對(duì)不同流派音樂(lè)的良好判定。通過(guò)對(duì)原始音頻信號(hào)進(jìn)行梅爾頻譜和梅爾頻譜倒譜系數(shù)兩種特征的提取,對(duì)比兩種方法對(duì)音樂(lè)流派特性表達(dá)的優(yōu)異程度。梅爾頻譜的處理過(guò)程與人耳聽(tīng)覺(jué)系統(tǒng)濾波類(lèi)似,而梅爾頻譜倒譜系數(shù)是在梅爾頻譜的基礎(chǔ)上進(jìn)行對(duì)數(shù)能量譜變換,但在音樂(lè)流派特征提取中離散余弦變換容易丟失部分音頻信號(hào)的信息,降低音頻信號(hào)間的相關(guān)性[16],因此選擇梅爾頻譜對(duì)原始音頻信號(hào)進(jìn)行特征提取。
在時(shí)域范圍內(nèi),音頻信號(hào)的狀態(tài)是非穩(wěn)定的,所以要先對(duì)音樂(lè)原始音頻信號(hào)進(jìn)行分幀、加窗操作,在短時(shí)間內(nèi)假定音頻信號(hào)的穩(wěn)定性[17];其次對(duì)得到的音頻信號(hào)進(jìn)行快速傅里葉變換;然后將變換后的音頻信號(hào)通過(guò)梅爾濾波器組,提取音頻信號(hào)的梅爾頻譜;最后將得到的所有頻譜進(jìn)行拼接,得到原始音頻信號(hào)的梅爾頻譜。梅爾頻譜計(jì)算過(guò)程如圖1所示。
圖1 梅爾頻譜計(jì)算過(guò)程
由于梅爾濾波會(huì)對(duì)音頻信號(hào)進(jìn)行數(shù)據(jù)降維,并且將分窗操作的數(shù)據(jù)進(jìn)行單純拼接生成梅爾頻譜,對(duì)音頻信號(hào)間的相關(guān)性及音樂(lè)的節(jié)奏性表達(dá)容易產(chǎn)生損失。針對(duì)上述問(wèn)題,對(duì)梅爾濾波后的數(shù)據(jù)進(jìn)行數(shù)據(jù)維度上的還原,細(xì)化局部特征。通過(guò)對(duì)比多種還原方法,本文采用線性插值運(yùn)算代替原有的拼接操作,在還原數(shù)據(jù)維度的同時(shí),對(duì)數(shù)據(jù)間的相關(guān)變化進(jìn)行擬合,增強(qiáng)音頻信號(hào)間的相關(guān)性。
維度還原前后的梅爾譜圖如圖2所示。
圖2 維度還原前后的梅爾譜圖
在音樂(lè)流派分類(lèi)領(lǐng)域,流派判別過(guò)程中不需要對(duì)整體音樂(lè)信息進(jìn)行分析,在訓(xùn)練階段以音樂(lè)的整體梅爾譜圖為單元輸入網(wǎng)絡(luò)將造成大量的冗余計(jì)算。本文以227×227×1大小為譜圖單元,將提取到的梅爾譜圖進(jìn)行切割后輸入網(wǎng)絡(luò)。
以切割后的譜圖集合作為模型輸入的優(yōu)點(diǎn):
在訓(xùn)練階段,可以降低模型輸入大小,提升模型計(jì)算速度的同時(shí),也提高了模型對(duì)局部細(xì)節(jié)特征的提取效果,并且擴(kuò)大訓(xùn)練規(guī)模,有利于模型訓(xùn)練。
在測(cè)試階段,對(duì)音樂(lè)譜圖集合的流派判別結(jié)果進(jìn)行統(tǒng)計(jì),輸出判別概率最大的流派作為最終結(jié)果,有助于提升流派分類(lèi)性能。
為增強(qiáng)DCNN對(duì)音頻譜圖處理的適應(yīng)性,提升模型對(duì)譜圖流派性特征的提取效果,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化。通過(guò)多次實(shí)驗(yàn),對(duì)比不同模型結(jié)構(gòu),最終構(gòu)建本文DCNN-SSA模型的網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。
圖3 DCNN-SSA網(wǎng)絡(luò)模型結(jié)構(gòu)
DCNN-SSA模型對(duì)原始音頻信號(hào)的梅爾頻譜進(jìn)行提取后,進(jìn)行數(shù)據(jù)維度上的還原,以細(xì)化音頻信號(hào)的局部特征。將處理后的譜圖切割后輸入網(wǎng)絡(luò),首先通過(guò)兩次小核卷積、池化操作,減少冗余參數(shù),加快模型收斂;其次經(jīng)過(guò)4個(gè)疊加的卷積層增強(qiáng)輸入網(wǎng)絡(luò)的音頻信號(hào)間的相關(guān)性依賴(lài),對(duì)即將進(jìn)行的空間域標(biāo)注進(jìn)行預(yù)處理;然后將特征增強(qiáng)后的音頻信號(hào)輸入空間注意模塊,在空間域上對(duì)音頻信號(hào)間的流派特性進(jìn)行表達(dá);最后將標(biāo)注后的音頻信號(hào)輸入殘差模塊,以殘差特性對(duì)多層次音頻特征進(jìn)行融合,對(duì)空間域標(biāo)注后的音頻信號(hào)進(jìn)行細(xì)節(jié)描述,對(duì)音頻信號(hào)的流派特性進(jìn)行有效的提取。
模型訓(xùn)練時(shí),將模型對(duì)訓(xùn)練集中全部音樂(lè)文件進(jìn)行一次訓(xùn)練,對(duì)驗(yàn)證集中全部音樂(lè)文件進(jìn)行一次驗(yàn)證作為一個(gè)批次,多次迭代訓(xùn)練模型和驗(yàn)證模型,在到達(dá)指定批次時(shí)輸出音樂(lè)流派分類(lèi)模型。
改進(jìn)1 堆疊4個(gè)卷積層,增加感受野,增強(qiáng)音頻譜圖中特征的全局化表達(dá),通過(guò)進(jìn)行多次非線性映射,增加網(wǎng)絡(luò)模型的非線性擬合能力。
改進(jìn)2 引入空間注意力機(jī)制,通過(guò)對(duì)特征的空間域注意,增強(qiáng)音頻譜圖中空間維度上的相關(guān)性依賴(lài),進(jìn)一步增強(qiáng)網(wǎng)絡(luò)模型對(duì)音頻譜圖中節(jié)奏性特征的提取效果。
改進(jìn)3 在音頻譜圖的空間域注意后引入殘差思想,通過(guò)殘差特性對(duì)空間標(biāo)注后音頻譜圖進(jìn)行細(xì)節(jié)描述,進(jìn)一步增強(qiáng)音頻譜圖中流派性特征的表達(dá)。
空間注意力機(jī)制可以通過(guò)其空間域敏感屬性對(duì)音頻譜圖的全局與局部細(xì)節(jié)特征進(jìn)行多層次空間域標(biāo)注。在空間注意模塊前預(yù)先疊加多個(gè)卷積層,增強(qiáng)譜圖中信息的相關(guān)性依賴(lài),為空間注意模塊的特征提取提供預(yù)處理。通過(guò)多次實(shí)驗(yàn)驗(yàn)證,疊加4個(gè)卷積層時(shí)效果最佳,過(guò)多疊加卷積層易造成大量計(jì)算冗余,且對(duì)實(shí)驗(yàn)結(jié)果影響甚微??臻g注意模塊結(jié)構(gòu)如圖4所示。
圖4 空間注意模塊結(jié)構(gòu)
從圖4可以看出,該模塊對(duì)輸入的音頻譜圖同時(shí)進(jìn)行全局平均池化與全局最大池化,將得到的特征圖進(jìn)行拼接。得到的拼接特征圖再經(jīng)過(guò)一層卷積,通過(guò)Sigmoid函數(shù)對(duì)特征空間域的相關(guān)性進(jìn)行顯示。將得到的相關(guān)性參數(shù)作為權(quán)重,通過(guò)乘法對(duì)音頻譜圖原信號(hào)進(jìn)行運(yùn)算,完成在空間域上對(duì)音頻譜圖特征的重新標(biāo)定。最后,將重新標(biāo)定的音頻譜圖特征輸入下一層,完成空間注意模塊對(duì)音頻譜圖特征的有效標(biāo)注,提高音頻譜圖節(jié)奏性特征提取的空間指向性,進(jìn)一步提升音樂(lè)流派分類(lèi)效果。
在空間注意模塊后,引入以殘差思想設(shè)計(jì)的殘差模塊。殘差思想的設(shè)計(jì),主要是為解決網(wǎng)絡(luò)深度增加伴隨的梯度消失等問(wèn)題。殘差思想通過(guò)殘差映射的方法,使網(wǎng)絡(luò)提升深度的同時(shí)確保訓(xùn)練效率。
本文通過(guò)殘差直連通道的思想,對(duì)空間域特征提取后的音頻譜圖進(jìn)行卷積操作,對(duì)空間注意模塊得到的譜圖進(jìn)行更為抽象的高層次特征提取。通過(guò)對(duì)不同層次的特征提取,提升特征的多樣性與有效性;并在殘差模塊后添加一層卷積一層池化層,對(duì)融合得到的特征譜圖進(jìn)行一次過(guò)濾,從而增強(qiáng)對(duì)音頻譜圖中流派特性的細(xì)節(jié)描述,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)對(duì)流派性特征的提取性能。殘差模塊結(jié)構(gòu)如圖5所示。
圖5 殘差模塊結(jié)構(gòu)
本文實(shí)驗(yàn)服務(wù)器配置為Intel Core i9-10900K 3.70 GHz CPU+NVIDIA TITAN RTX GPU,對(duì)比實(shí)驗(yàn)采用基于Python語(yǔ)言的Tensorflow深度學(xué)習(xí)框架構(gòu)建深度學(xué)習(xí)模型。
GTZAN數(shù)據(jù)集為音樂(lè)流派分類(lèi)領(lǐng)域常用的公開(kāi)數(shù)據(jù)集[3]。該數(shù)據(jù)集共有1 000條音樂(lè)數(shù)據(jù),且這1 000條音樂(lè)數(shù)據(jù)平均分布在10個(gè)音樂(lè)流派中,每一條音樂(lè)數(shù)據(jù)的時(shí)長(zhǎng)約為30 s。本文實(shí)驗(yàn)將數(shù)據(jù)集中的音樂(lè)文件轉(zhuǎn)換為頻譜圖后對(duì)音頻特征進(jìn)行提取,以800條音樂(lè)數(shù)據(jù)作為訓(xùn)練集,100條音樂(lè)數(shù)據(jù)作為驗(yàn)證集進(jìn)行監(jiān)督學(xué)習(xí),100條音樂(lè)數(shù)據(jù)作為測(cè)試集進(jìn)行音樂(lè)流派分類(lèi)準(zhǔn)確率測(cè)試。
以學(xué)習(xí)率0.001、迭代次數(shù)37 000對(duì)模型驗(yàn)證集進(jìn)行實(shí)驗(yàn),迭代37 000次實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 迭代37 000次的實(shí)驗(yàn)結(jié)果
根據(jù)圖6實(shí)驗(yàn)結(jié)果分布可以看出,流派分類(lèi)準(zhǔn)確率隨迭代次數(shù)增加先提升,后趨向穩(wěn)定。由圖可得,可認(rèn)為模型相關(guān)參數(shù)在迭代31 000次后趨向穩(wěn)定。
為了說(shuō)明梅爾頻譜對(duì)流派分類(lèi)結(jié)果的影響,以學(xué)習(xí)率0.001、迭代次數(shù)31 000,對(duì)驗(yàn)證集進(jìn)行特征預(yù)處理消融實(shí)驗(yàn)。特征預(yù)處理消融實(shí)驗(yàn)結(jié)果如圖7所示。特征預(yù)處理消融實(shí)驗(yàn)流派分類(lèi)準(zhǔn)確率見(jiàn)表1。
圖7 特征預(yù)處理消融實(shí)驗(yàn)結(jié)果
表1特征預(yù)處理消融實(shí)驗(yàn)的流派分類(lèi)準(zhǔn)確率 單位:%
Tab.1 Genre classification accuracy of ablation experiment of feature preprocessing unit:%
通過(guò)分析圖7及表1中實(shí)驗(yàn)結(jié)果可得,梅爾頻譜對(duì)音樂(lè)流派特征的提取較傳統(tǒng)傅里葉變換,可在驗(yàn)證集上對(duì)音樂(lè)流派分類(lèi)準(zhǔn)確率提升1.92個(gè)百分點(diǎn)。
為了驗(yàn)證DCNN-SSA模型主要模塊的有效性,以學(xué)習(xí)率0.001、迭代次數(shù)31 000,分別對(duì)驗(yàn)證集進(jìn)行消融實(shí)驗(yàn)。驗(yàn)證集模型主要模塊消融實(shí)驗(yàn)結(jié)果如圖8所示。模型主要模塊消融實(shí)驗(yàn)流派分類(lèi)準(zhǔn)確率見(jiàn)表2。
表2中,實(shí)驗(yàn)a為原始模型,實(shí)驗(yàn)b為增強(qiáng)空間域注意模型,實(shí)驗(yàn)c、d為在空間注意模塊前后分別輔助增強(qiáng)的模型,實(shí)驗(yàn)d為增強(qiáng)后模型。通過(guò)分析圖8及表2中實(shí)驗(yàn)結(jié)果,對(duì)比實(shí)驗(yàn)a、b可知特征的空間域注意對(duì)音樂(lè)流派分類(lèi)效果上獲得了1.27%的增益。分別對(duì)比實(shí)驗(yàn)b、c與實(shí)驗(yàn)b、d可知,在空間注意模塊前通過(guò)四重卷積對(duì)特征進(jìn)行預(yù)處理可以在音樂(lè)流派分類(lèi)效果上提升0.63個(gè)百分點(diǎn),在空間注意模塊后通過(guò)殘差模塊細(xì)化標(biāo)注后的特征可以在音樂(lè)流派分類(lèi)效果上提升1.72個(gè)百分點(diǎn)。分別對(duì)比實(shí)驗(yàn)e、c與實(shí)驗(yàn)e、d可知,在空間注意模塊前后均添加輔助增強(qiáng)模塊在音樂(lè)流派分類(lèi)效果上提升1.52個(gè)百分點(diǎn)~2.61個(gè)百分點(diǎn)。由此可得,空間注意模塊對(duì)音樂(lè)流派分類(lèi)準(zhǔn)確率有所提升,且殘差模塊與四重卷積均對(duì)空間注意模塊具有輔助增強(qiáng)效果,同時(shí)對(duì)空間注意模塊進(jìn)行增強(qiáng)可以達(dá)到較優(yōu)效果。
圖8 模型主要模塊的消融實(shí)驗(yàn)結(jié)果
表2模型主要模塊消融實(shí)驗(yàn)流派分類(lèi)準(zhǔn)確率
Tab.2 Genre classification accuracies in ablation experiment for main modules of model
將DCNN-SSA模型同其他常用深度學(xué)習(xí)模型以相同數(shù)據(jù)預(yù)處理進(jìn)行訓(xùn)練,當(dāng)學(xué)習(xí)率0.001、迭代次數(shù)為31 000時(shí),各網(wǎng)絡(luò)均趨于穩(wěn)定。所以選取學(xué)習(xí)率0.001、迭代次數(shù)31 000進(jìn)行網(wǎng)絡(luò)模型對(duì)比實(shí)驗(yàn),多次實(shí)驗(yàn)后采用最優(yōu)值作為對(duì)比實(shí)驗(yàn)結(jié)果。不同網(wǎng)絡(luò)在驗(yàn)證集上的流派分類(lèi)準(zhǔn)確率對(duì)比見(jiàn)表3。
表3不同網(wǎng)絡(luò)在驗(yàn)證集上的流派分類(lèi)準(zhǔn)確率對(duì)比 單位:%
Tab.3 Genre classification accuracy comparison of different networks on verification set unit:%
表3中實(shí)驗(yàn)結(jié)果表明,DCNN-SSA模型較其他常用深度學(xué)習(xí)模型在驗(yàn)證集上流派分類(lèi)準(zhǔn)確率提升了5.36個(gè)百分點(diǎn)~10.44個(gè)百分點(diǎn)。由此可得,DCNN-SSA模型在音頻譜圖中具有更好的流派特征提取性能。將本文模型與其他常用深度學(xué)習(xí)模型對(duì)GTZAN數(shù)據(jù)集的測(cè)試集音樂(lè)進(jìn)行流派分類(lèi)。網(wǎng)絡(luò)測(cè)試集上的流派分類(lèi)準(zhǔn)確率對(duì)比見(jiàn)表4。
實(shí)驗(yàn)結(jié)果表明,使用維度還原后的梅爾頻譜對(duì)音樂(lè)文件進(jìn)行特征表達(dá)后,通過(guò)空間注意力機(jī)制增強(qiáng)模型對(duì)音頻譜圖空間域特征的提取,并通過(guò)四重卷積和殘差模塊對(duì)空間注意模塊進(jìn)行輔助增強(qiáng),構(gòu)建增強(qiáng)頻譜空間域注意的DCNN-SSA模型對(duì)GTZAN數(shù)據(jù)集中測(cè)試集進(jìn)行流派分類(lèi),音樂(lè)流派分類(lèi)準(zhǔn)確率達(dá)到82.00%,比其他深度學(xué)習(xí)模型高出6個(gè)百分點(diǎn)~12個(gè)百分點(diǎn)。由此可得,較其他常用深度學(xué)習(xí)模型, DCNN-SSA模型具有更好的音樂(lè)流派分類(lèi)效果。
表4不同網(wǎng)絡(luò)在測(cè)試集上的流派分類(lèi)準(zhǔn)確率對(duì)比 單位:%
Tab.4 Genre classification accuracy comparison of different networks on test set unit:%
為增強(qiáng)深度學(xué)習(xí)模型在音樂(lè)流派分類(lèi)領(lǐng)域的流派特征提取效果,本文分析并設(shè)計(jì)了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的DCNN-SSA模型。在音樂(lè)流派特征表達(dá)方面,將維度還原的梅爾頻譜進(jìn)行分割后作為訓(xùn)練集輸入網(wǎng)絡(luò),使訓(xùn)練樣本在提升自身特征表達(dá)的同時(shí),提升計(jì)算速度;在音樂(lè)流派特征提取方面,通過(guò)四重卷積與殘差結(jié)構(gòu)輔助空間注意力機(jī)制對(duì)DCNN進(jìn)行增強(qiáng)。四重卷積可以預(yù)先提升音頻譜圖內(nèi)部特征的相關(guān)性依賴(lài),使得在空間域標(biāo)注時(shí)得到更強(qiáng)的節(jié)奏特性;殘差結(jié)構(gòu)可以在空間注意模塊后提升空間標(biāo)注后音頻譜圖的細(xì)節(jié)表達(dá)??臻g注意力機(jī)制可以對(duì)音樂(lè)頻譜特征相關(guān)性進(jìn)行有效增強(qiáng),增強(qiáng)對(duì)音頻譜圖中節(jié)奏特征的提取,使網(wǎng)絡(luò)對(duì)音頻譜圖特征提取的指向性增強(qiáng),從而提升流派分類(lèi)效果。
[1] 伊恩?本特,戴明瑜. 音樂(lè)分析學(xué)導(dǎo)論[J]. 中國(guó)音樂(lè), 1995(4): 50-51.(BENT I B, DAI M Y. Introduction to music analysis[J]. Chinese Music, 1995(4): 50-51.)
[2] SAMSON J. Genre[J/OL]. Grove music online.[2021-02-20]. https://www.oxfordmusiconline.com/grovemusic/view/10.1093/gmo/9781561592630.001.0001/omo-9781561592630-e-0000040599?rskey=lxSqC9.
[3] TZANETAKIS G, COOK P. Musical genre classification of audio signals[J]. IEEE Transactions on Speech and Audio Processing, 2002, 10(5):293-302.
[4] WOLD E, BLUM T, KEISLAR D, et al. Content-based classification, search, and retrieval of audio[J]. IEEE Multimedia, 1996, 3(3): 27-36.
[5] COVER T, HART P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1967, 13(1): 21-27.
[6] DUDA R O, HART P E, STORK D G. Pattern Classification[M]. 2nd ed. New York: John Wiley & Sons, Inc., 2000: 5-6.
[7] 徐星. 基于最小一范數(shù)的稀疏表示音樂(lè)流派與樂(lè)器分類(lèi)算法研究[D]. 天津:天津大學(xué), 2012: 154-171.(XU X. Research on the musical genre and instruments classification based on sparse representation-based classification via L1-minimization[D]. Tianjin: Tianjin University, 2012: 154-171.)
[8] 焦李成,楊淑媛,劉芳,等. 神經(jīng)網(wǎng)絡(luò)七十年:回顧與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2016, 39(8): 1697-1716.(JIAO L C, YANG S Y, LIU F, et al. Seventy years beyond neural networks: retrospect and prospect[J]. Chinese Journal of Computers, 2016, 39(8): 1697-1716.)
[9] 曹玉紅,徐海,劉蓀傲,等. 基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(8):2273-2287.(CAO Y H, XU H, LIU S A, et al. Review of deep learning-based medical image segmentation[J]. Journal of Computer Applications, 2021, 41(8):2273-2287.)
[10] 孔伶旭,吳海鋒,曾玉,等. 使用深度學(xué)習(xí)和不同頻率維度的腦功能性連接對(duì)輕微認(rèn)知障礙的診斷[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(2):590-597.(KONG L X, WU H F, ZENG Y, et al. Diagnosis of mild cognitive impairment using deep learning and brain functional connectivities with different frequency dimensions[J]. Journal of Computer Applications, 2021, 41(2):590-597.)
[11] 史文旭,鮑佳慧,姚宇. 基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測(cè)與識(shí)別[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(12):3558-3562.(SHI W X, BAO J H, YAO Y. Remote sensing image target detection and identification based on deep learning[J]. Journal of Computer Applications, 2020, 40(12):3558-3562.)
[12] 彭育輝,鄭瑋鴻,張劍鋒. 基于深度學(xué)習(xí)的道路障礙物檢測(cè)方法[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(8):2428-2433.(PENG Y H, ZHENG W H, ZHANG J F. Deep learning-based on-road obstacle detection method[J]. Journal of Computer Applications, 2020, 40(8):2428-2433.)
[13] LI T L H, CHAN A B, CHUN A H W. Automatic musical pattern feature extraction using convolutional neural network[C]// Proceedings of the 2010 International MultiConference of Engineering and Computer Scientists. [S.l.]: International Association of Engineers, 2010:546-550.
[14] DIELEMAN S, SCHRAUWEN B. End-to-end learning for music audio[C]// Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2014:6964-6968.
[15] YANG H S, ZHANG W Q. Music genre classification using duplicated convolutional layers in neural networks[C]// Interspeech 2019: Proceedings of the 20th Annual Conference of the International Speech Communication Association. [S.l.]: International Speech Communication Association, 2019: 3382-3386.
[16] 杜佑宸. 基于卷積神經(jīng)網(wǎng)絡(luò)的音樂(lè)流派分類(lèi)研究[D]. 大連:大連理工大學(xué), 2019: 26-27.(DU Y C. Research of music genre classification based on convolutional neural network[D]. Dalian: Dalian University of Technology, 2019:26-27.)
[17] MANNEPALLI K, SASTRY P N, SUMAN M. MFCC-GMM based accent recognition system for Telugu speech signals[J]. International Journal of Speech Technology, 2016, 19(1): 87-93.
LIU Wanjun, born in 1959, M. S., professor. His research interests include digital image processing, moving target detection and tracking.
WANG Jiaming, born in 1996, M. S. His research interests include deep learning, pattern recognition.
QU Haicheng, born in 1981, Ph. D., associate professor. His research interests include rapid remote sensing image processing, intelligent big data processing.
DONG Libing, born in 1996, M. S. Her research interests include deep learning, pedestrian detection.
CAO Xinyu, born in 2002. Her research interests include deep learning.
Music genre classification algorithm based on attention spectral-spatial feature
LIU Wanjun, WANG Jiaming*, QU Haicheng, DONG Libing, CAO Xinyu
(,,125105,)
In order to improve the extraction effect of the deep convolutional neural network on music spectrum genre features, a music genre classification algorithm model based on attention spectral-spatial feature, namely DCNN-SSA (Deep Convolutional Neural Network Spectral Spatial Attention), was proposed. In DCNN-SSA model, the genre features of different music Mel spectrograms were effectively annotated in the spatial domain, and the network structure was changed to improve the feature extraction effect while ensuring the effectiveness of the model, thereby improving the accuracy of music genre classification. Firstly, the original audio signals were Mel-filtered to effectively filter the sound intensity and rhythm change of the music by simulating the filtering operation of the human ear, and the generated Mel spectrograms were cut and input into the network. Then, the model was enhanced in genre feature extraction by deepening the number of network layers, changing the convolution structure and adding spatial attention mechanism. Finally, through multiple batches of training and verification on the dataset, the features of music genres were extracted and learned effectively, and a model that can effectively classify music genres was obtained. Experimental results on GTZAN dataset show that compared with other deep learning models, the music genre classification algorithm based on spatial attention increases the music genre classification accuracy by 5.36 percentage points to 10.44 percentage points and improves model convergence effect.
music genre classification; deep convolutional neural network; deep learning; spatial attention mechanism; Mel spectrogram
This work is partially supported by National Natural Science Foundation of China (41701479), General Project of Educational Department of Liaoning Province (LJ2019JL010).
TP181
A
1001-9081(2022)07-2072-06
10.11772/j.issn.1001-9081.2021050740
2021?05?10;
2021?11?05;
2021?11?24。
國(guó)家自然科學(xué)基金資助項(xiàng)目(41701479);遼寧省教育廳一般項(xiàng)目(LJ2019JL010)。
劉萬(wàn)軍(1959—),男,遼寧錦州人,教授,碩士,CCF高級(jí)會(huì)員,主要研究方向:數(shù)字圖像處理、運(yùn)動(dòng)目標(biāo)檢測(cè)與跟蹤; 王佳銘(1996—),男,河北秦皇島人,碩士,主要研究方向:深度學(xué)習(xí)、模式識(shí)別; 曲海成(1981—),男,山東煙臺(tái)人,副教授,博士,CCF會(huì)員,主要研究方向:遙感影像快速處理、智能大數(shù)據(jù)處理; 董利兵(1996—),女,遼寧葫蘆島人,碩士,主要研究方向:深度學(xué)習(xí)、行人檢測(cè); 曹欣宇(2002—),女,遼寧錦州人,主要研究方向:深度學(xué)習(xí)。