郭聯(lián)俊, 侯峰
(陜西鐵路工程職業(yè)技術學院, 工程管理與物流學院, 陜西, 渭南 714000)
人們的生活情感可以通過音樂得以體現(xiàn),在人們的日常生活和精神生活中音樂屬于重要構成部分[1]。數(shù)字音樂資源在數(shù)字時代中的數(shù)量直線上升,管理海量音樂資源的基礎是對音樂風格進行分類[2]。國內對音樂風格分類的研究與國外相比起步較晚,但越來越多的國內外學者開始研究音樂風格分類,在音樂風格特征提取和分類等領域取得了一定的成就,并提出了部分音樂風格分類模型。
文獻[3]提出基于PNN的音樂風格分類方法,該方法建立音樂情感與特征之間的聯(lián)系模型,并提取音樂播放的特征參數(shù),將其輸入神經網(wǎng)絡中,實現(xiàn)音樂風格的分類。該方法具有較好的準確率,但無法對獲取的音樂特征參數(shù)進行融合處理,分類結果的ROC曲線不理想,存在F1值低的問題。文獻[4]提出基于度量學習和特征提取的MP3音樂分類模型。度量學習過程考慮使用結構化預測方法從包含多個音樂流派的一組MP3音頻文件中學習一組參數(shù)化距離。利用Mel倒譜系數(shù)(MFCC)提取聲學信息,并利用主成分分析進行降維,實現(xiàn)MP3音樂分類。該方法能夠有效實現(xiàn)音樂分類,但沒有對音樂標簽進行融合處理,導致處理候選標簽所用的時間較長,存在時間復雜度高的問題。
為了解決上述方法中存在的問題,本文提出基于改進深度學習網(wǎng)絡的音樂風格分類模型優(yōu)化方法。利用D-S證據(jù)理論,融合處理提取的音樂特征,縮短了特征數(shù)據(jù)所用時間,進而降低了時間復雜度。融合處理后的音樂特征,采用改進深度學習網(wǎng)絡,構建音樂風格分類模型,實現(xiàn)音樂風格分類,提高了方法的有效性。
本文主要從音色、節(jié)奏和音高三個方面進行音樂特征提取。具體的特征提取過程如下。
1) 音色特征提取
音色主要由頻域統(tǒng)計特征決定,音色特征提取實際上就是頻域統(tǒng)計特征的提取。由于頻率通常情況下會影響音色的概率,因此采用短時傅里葉變換方法,提取頻域統(tǒng)計特征[5]。在提取頻域統(tǒng)計特征之前,首先用x(n)描述音樂信號的原始時域,通過傅里葉變換音樂時域獲得序列Y(k)=FFT(x(n))。
在此基礎上,對于音頻信號,常見的頻譜統(tǒng)計特征包括譜質心、譜擴散、譜偏度、譜峰度、滾降截止頻率、譜通量及譜平坦度。計算頻譜統(tǒng)計特征及其公式如下。
(1) 譜質心
設μ代表譜質心,可通過式(1)計算得到:
(1)
式中,f(k)代表第k個頻帶對應的中心頻率,m1代表頻率對應的一階中心距。頻率通常情況下屬于隨機變量,歸一化的幅值即為頻率的概率密度p(f(k))[6]:
(2)
(2) 譜擴散
譜擴散σ描述的是普矩心在頻譜中的擴散程度[3],可通過式(3)計算得到:
(3)
式中,m2代表頻率對應的二階中心距。
(3) 譜偏度
譜偏度的表達式如下:
(4)
式中,m3代表頻率對應的三階中心距。
(4) 譜峰度
譜峰度代表在中心附近頻率分布的平坦程度:
(5)
式中,m4代表頻率對應的四階中心距。
(5) 滾降截止頻率
滾降截止頻率描述的是當音樂信號總量衰減為95%的狀態(tài)下能量對應的頻率,其表達式如下:
(6)
式中,fc代表衰減截止頻率,sr代表采樣率。頻譜形狀的特性在一般情況下可以通過滾降截止頻率進行度量[7]。
(6) 譜通量
頻率幅度的變化情況可以通過譜通量Flux進行反映[8]:
(7)
式中,Yt(k)代表經過傅里葉變換后第t幀序列。
(7) 譜平坦度
譜平坦度SFM可以通過式(8)計算:
(8)
通過上述公式,對音色特征進行提取。
2) 節(jié)奏特征提取
節(jié)奏特征的提取實際上就是提取節(jié)拍相關特征,即獲取節(jié)拍分布直方圖。通過在信號中尋找節(jié)拍顯著性最強的周期性,實現(xiàn)音樂節(jié)奏特征的提取[9]。本文基于離散小波變換方法,結合節(jié)拍的低頻特征獲取音樂節(jié)拍,具體過程如下。
通過Mallat算法獲取小波系數(shù),每一層中都存在采樣過程以及低通、高通濾波表示為
(9)
式中,x1,L(n)代表高通濾波結果,x1,H(n)代表低通濾波結果,h(k)、g(k)分別代表低通和高通濾波器。小波分解流程如圖1所示。
圖1 小波分解流程
利用小波分解對低通、高通濾波進行分解,得到序列信號α和干擾信號β,選取合適的低通和高通濾波器進行重構,獲取序列信號在低通和高通濾波器上的重構信號表示為
(10)
3) 音高特征提取
音高特征提取實際上就是獲取基音周期?;谧韵嚓P函數(shù)算法,在頻域上提取音高特征。音高特征的提取流程如圖2所示。
根據(jù)圖2可知,首先輸入初始信號,并對輸入的初始信號進行預處理,當頻率小于1 kHz時,通過低通濾波進行周期檢測;當頻率大于1 kHz時,經過周期檢測后,再通過半波濾波進行周期檢測。采用自相關函數(shù)算法,獲取基音周期,實現(xiàn)音高特征提取。
圖2 音高特征提取流程
在完成音樂特征提取后,利用D-S證據(jù)理論對上述提取的特征進行融合處理,用樣本空間(a1,a2,…,an)描述上述過程提取的音樂特征信息作為證據(jù),通過M(ai)=exp DEN-7/G對樣本空間(a1,a2,…,an)進行處理,獲得證據(jù)置信函數(shù)M1(a1),M2(a2),…,Mn(an),其中,ai描述的是DT-CWT紋理特征。
通過式(11)融合目標多元證據(jù)置信函數(shù):
(11)
設Pl(A)代表融合似然函數(shù),Bel(A)代表融合置信度函數(shù),其表達式分別如下:
(12)
式中,2D由D的全部子集構成。
通過最大類概率函數(shù)f(A)對音樂特征進行判斷,實現(xiàn)音樂特征的融合:
(13)
式中,|A|、|D|分別代表A、D中元素的數(shù)量。
在實現(xiàn)音樂特征融合后,將融合的音樂特征輸入改進深度學習網(wǎng)絡,構建音樂風格分類模型。
(1) 將音樂特征輸入網(wǎng)絡,對深度學習網(wǎng)絡的權值矩陣W進行初始化處理,將隱含層和可見層的偏置a、b初始化為0。
(3) 神經元在隱含層對應的激活概率值p(h|v)通常情況下為實數(shù),對其進行二值化處理。
(4) 在深度學習網(wǎng)絡中反向傳播隱含層單元對應的概率值,獲得重構值v′。用p(v′|h)描述激活概率:
(14)
(5) 在改進深度學習網(wǎng)絡中正向傳播重構的v′,計算反向傳播概率和激活概率。
(6) 利用上述計算結果獲取可見層中偏置b對應的增量,同時在隱含層h中獲取偏置a對應的增量。權值矩陣W的增量可通過反向傳播概率和正向傳播概率計算得到,通過式(15)構建音樂風格分類模型表示為
(15)
式中,ε代表學習率。
通過上述步驟,輸出音樂風格分類結果。
為了驗證基于改進深度學習網(wǎng)絡的音樂風格分類模型優(yōu)化方法的整體有效性,需要對本文所提方法進行測試,仿真環(huán)境選擇 MATLAB 2021,從九酷音樂平臺中1 500首歌曲作為實驗所需的音樂文件,包括6種音樂風格,每種風格有250首歌曲。其中,1 000首作為訓練級數(shù)據(jù),500首作為測試集數(shù)據(jù),本次測試的實驗環(huán)境如表1所示。
表1 實驗環(huán)境
采用基于改進深度學習網(wǎng)絡的音樂風格分類模型優(yōu)化方法(方法1)、基于PNN的音樂風格分類方法(方法2)和基于用戶評論的音樂風格分類方法(方法3)分別進行測試。
實驗選取F1值、時間復雜度和ROC曲線作為測試指標。其中,F(xiàn)1值是用來衡量模型精確度的一種指標,F(xiàn)1值越接近于1,表明方法模型的有效性越好。F1值表達式為
(16)
式中,macro_P代表樣本總體的精確率,macro_R代表樣本總體的召回率。
方法1、方法2和方法3的F1值測試結果如圖3所示。
圖3 F1值測試結果
分析圖3可知,在多次迭代中方法1的F1值遠遠高于方法2和方法3的F1值。F1值越高對應的有效性越好,因而方法1可有效地實現(xiàn)音樂風格的分類。其原因是方法1在音高、節(jié)奏和音色三個方面提取音樂風格的特征,融合提取的特征實現(xiàn)音樂風格的分類,提高了方法的有效性。
時間復雜度是一個算法的時間耗費,時間耗費越長,時間復雜度就越高。但時間耗費理論上是計算不出的,需要上機運行測試進行估計。通過運行時間對方法1、方法2和方法3的時間性能進行測試,不同方法的運行時間測試結果如圖4所示。
由圖4可知,在多次迭代中方法1的運行時間均在20 s以內,方法2在第1次迭代中獲得的運行時間高達60 s,方法3的運行時間在第2次迭代中高達70 s。通過上述分析發(fā)現(xiàn),方法1的運行時間最短。因為方法1利用D-S證據(jù)理論對提取的音樂特征進行了融合處理,縮短了特征數(shù)據(jù)所用的時間,進而降低了方法1的時間復雜度。
ROC曲線是用來描述模型的性能,ROC曲線接近于1,表明方法模型的特異性和靈敏性越高。圖5中的橫縱坐標分別代表特異性和靈敏度,不同方法的ROC曲線如圖5所示。
由圖5可知,方法1的ROC曲線接近于1,表明方法1對音樂風格分類的特異性和靈敏度較好,因為方法1根據(jù)融合處理后的音樂特征采用改進深度學習網(wǎng)絡構建了音樂風格分類模型,利用分類模型實現(xiàn)音樂風格的分類,提高了方法的特異性和靈敏度。根據(jù)方法2和方法3的ROC曲線可知,以上2種方法在音樂風格分類的過程中無法同時滿足靈敏性和特異性,獲取的音樂風格分類結果效果不理想。
音樂曲庫的規(guī)模隨著多媒體技術的發(fā)展不斷擴大,并且還有大量的新曲目增加到音樂曲庫中,在上述背景下亟需有效的方法對音樂風格進行分類,方便用戶在海量音樂庫中檢索出自己喜歡的音樂曲目。目前音樂風格分類方法存在分類有效性差和時間復雜度高的問題,為此提出基于改進深度網(wǎng)絡的音樂風格分類模型優(yōu)化方法,提取音樂特征并進行融合處理,通過改進深度學習網(wǎng)絡構建音樂風格分類模型,實現(xiàn)音樂風格的分類,解決了目前方法中存在的問題,為音樂曲庫規(guī)模的擴大提供了保障。