陳長風
(杭州電子科技大學 計算機學院,浙江 杭州 310018)
隨著計算機技術的發(fā)展,現(xiàn)代人們的音樂體驗已經(jīng)從之前的錄音磁帶和光盤唱片發(fā)展為數(shù)字音樂形式。音樂中含有豐富的人類情感信息,并且可以讓人直觀感受到其中的情感傾向。當海量音樂數(shù)據(jù)出現(xiàn)時,對其進行情感分析有助于對音樂數(shù)據(jù)進行有效的組織和檢索。人工智能技術的興起,能夠讓機器實現(xiàn)主觀化的情感分析,許多對情感特征提取和分類方法的研究也在相應展開。
歌曲音頻情感分析技術起源于語音情感分析,但由于歌曲音頻的復雜性,其特征參數(shù)往往表現(xiàn)出維度多、數(shù)量大以及難以分析的特點,相較語音情感分析難度更高。大多數(shù)學者的研究圍繞如何從時域特征和頻域特征等諸多音頻特征中選取能夠表達歌曲中隱含情感信息的特征,并通過傳統(tǒng)的機器學習和深度學習建立訓練模型對歌曲進行情感分 類[1-5]。本文就特征選取與分類方法兩個方向為出發(fā)點,研究不同音頻特征參數(shù)對情感分類的影響,并試圖構建新的分類模型,提高歌曲情感分類性能。
聲音以波的形式存在,模擬的音頻信號通過采樣量化編碼三步操作完成模擬信號到數(shù)字信號的轉換。數(shù)字音頻文件讀取到計算機后,表現(xiàn)為一行由數(shù)據(jù)組成的數(shù)組。這個數(shù)組的維度由歌曲本身的時長和采樣頻率共同決定。
音頻信號的預處理一般包含以下步驟[6]。
預加重:在求音頻信號頻譜時,往往高頻率部分的頻譜比低頻率部分難求,因此需要加入預加重步驟,目的是提高高頻部分,使信號的頻譜走勢變得平坦,以便進行頻譜分析。通常采用數(shù)字濾波器實現(xiàn)預加重。
分幀:為了進行短時分析,可以對整段音頻信號進行時域內的分段處理,其中每一段稱為一幀。一般取10~30 ms,保持短時平穩(wěn)性。為了使幀與幀之間過渡平滑,可使用交疊分段的方法。
加窗:加窗的目的是解決分幀后起始和終止不連續(xù)帶來的吉布斯效應。具體操作是將每個短段音頻數(shù)據(jù)與一個窗函數(shù)相乘,常見的窗函數(shù)有矩形窗、漢明窗和漢寧窗。
從音頻信號中可以提取到非常豐富的特征參數(shù),其中包括時域特征和頻域特征等。選擇合適的特征參數(shù),有助于提高情感分類準確性。在情感分類中,普遍使用的特征參數(shù)為梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)[7]。MFCC是基于人耳聽覺系統(tǒng)所提出的倒頻參數(shù),考慮了人類發(fā)出聲音與接受聲音的過程和特點,其頻率的增長與人耳的聽覺特性一致[8]。MFCC的提取過程如圖1所示。
圖1 MFCC提取流程
對預處理后的每一幀音頻信號進行快速傅里葉變化,得到每幀信號的頻譜,然后通過頻率與Mel頻率關系:
將實際頻率尺度轉換為Mel頻率尺度。再將信號經(jīng)過M個Mel尺度的三角形濾波器組,并計算每組濾波器對信號幅度濾波后的輸出。對所有輸出作對數(shù)運算,再進一步做離散余弦變換(DTC),即可得到每幀音頻信號的M維MFCC。由于標準的MFCC只能夠反映音頻參數(shù)的靜態(tài)特征,后續(xù)可以進行一階差分和二階差分系數(shù)的提取,然后組合為完整的MFCC特征向量。
除了上述MFCC特征外,音頻信號還具有其他一些包含情感信息的特征參數(shù)[9],如表1所示。在實驗中通過分析不同特征參數(shù)對各情感子類的影響,適當選取特征,可以大大提高情感分類性能。
表1 情感特征參數(shù)列表
支持向量機(Support Vector Machine,SVM)是一種傳統(tǒng)的二元分類算法,核心思想是在高維或無限維空間內構造超平面集合,然后將該平面作為決策邊界來劃分分類數(shù)據(jù)。SVM主要對線性可分的情況進行分析,若訓練樣本是線性不可分的,可以通過非線性映射將低維特征空間特征映射到高維以達到線性可分。SVM的分類效果取決于合適的核函數(shù)和懲罰變量,實際中使用RBF核函數(shù)往往能達到更好的分類效果。針對情感分類這種多分類問題,可以通過“一對一”和“一對多”兩種策略,構造多個二元分類器來達到多分類的效果。
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)是一種前饋神經(jīng)網(wǎng)絡,由若干個卷積層、池化層以及全連接層組成。卷積的結構使得CNN能夠很好地利用輸入數(shù)據(jù)的二維結構處理圖像和語音數(shù)據(jù)。卷積層的功能是對輸入的音頻特征參數(shù)進行進一步特征提取,其內部包含多個卷積核,然后通過池化層進行特征選擇和信息過濾,輸入到全連接層解除多維結構展開為向量,并通過激勵函數(shù)傳遞到下一層網(wǎng)絡。經(jīng)過最后一個全連接層后,使用歸一化指數(shù)函數(shù)softmax輸出分類標簽結果。經(jīng)典的卷積神經(jīng)網(wǎng)絡包括VGGNet[10]和ResNet[11]。
循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNN) 是一類處理序列化數(shù)據(jù)的神經(jīng)網(wǎng)絡。特殊的網(wǎng)絡結構解決了序列化信息保存?zhèn)鬟f的問題,對處理時間序列和語言文本序列問題具有獨特優(yōu)勢。在RNN中,一個神經(jīng)元的輸出可以在下一時刻繼續(xù)作用到自身。但是,隨著時間間隔的增大,RNN可能會喪失學習距離較遠信息的能力(梯度消失),難以處理長序列數(shù)據(jù)。
長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)是一種特殊結構的RNN,能夠解決長期依賴問題。LSTM與RNN的區(qū)別在于算法中添加了一個用于判斷信息是否有用的判決器,這種判決結構通常稱為cell。一個cell中放置了輸入門、遺忘門以及輸出門三種門結構,只有算法判斷有用的信息才能留下,否則被遺忘門遺忘。實際應用中,雙向LSTM結構和注意力機制的引入,能夠給模型帶來更好的分類效果[12]。
在圖像和文本處理領域,已經(jīng)有不少學者開展了組合網(wǎng)絡模型的研究。R Girshick等通過CNN與SVM組合的方式,解決了目標物體檢測的問題,相較傳統(tǒng)方法性能大大提升[13]。B Shi等提出了CRNN的結構,通過CNN與LSTM網(wǎng)絡的組合和CTC實現(xiàn)端到端不定長的圖像文本識別[14]。
CNN網(wǎng)絡中的卷積層和池化層起到了特征提取和特征選擇的作用,可以利用CNN網(wǎng)絡的部分結構輸出一組特征向量,作為新的特征輸入到SVM和LSTM。本文就歌曲音頻情感分類研究為前提,以VGG-16作為基礎網(wǎng)絡,構造了兩種組合網(wǎng)絡模型,如圖2所示。
圖2 兩類組合網(wǎng)絡分類模型
本文用于實驗的數(shù)據(jù)集來自Million Song Dataset(百萬歌曲數(shù)據(jù)集)中的Last.fm標簽子集[15],從中抽取4種情感標簽歌曲列表,情感標簽分別為憤怒(angry)、高興(happy)、放松(relaxed)和悲傷(sad)。通過python編寫腳本工具,從各大音樂網(wǎng)站爬取標簽列表下的歌曲音頻文件,并進行人工篩選。對歌曲文件進行預處理,去掉多為背景音的前5 s數(shù)據(jù),拆分為30 s的歌曲片段,用來統(tǒng)一不定長的音頻數(shù)據(jù)。設定采樣頻率為8 kHz、單聲道,每個30 s音頻片段提取到的實際幀數(shù)為469幀,并通過隨機劃分的方式,將歌曲片段樣本集劃分為80%訓練集和20%測試集。數(shù)據(jù)集組成如表2所示。
表2 數(shù)據(jù)集組成
本組實驗驗證不同音頻特征對各分類性能的影響,將13維的MFCC特征參數(shù)與過零率、頻譜質心等其他6種特征參數(shù)進行特征拼接,得到19維融合特征。實驗中用SVM作為分類器,分別使用單獨的MFCC特征和融合特征作為分類器的輸入,并通過主成分分析(PCA)進行特征降維[16],采取 5折交叉驗證進行參數(shù)尋優(yōu),分類準確率如表3所示。
表3 不同音頻特征的分類準確率比較
實驗表明,單一MFCC特征參數(shù)能夠在一定程度上表征情感信息,但在“高興”情感上分類表現(xiàn)較差;融合情感特征相比單一MFCC特征,分類準確率在整體上有所提升,且大大彌補了“高興”分類性能的不足。其中“憤怒”分類性能相比其他三種表現(xiàn)突出,是因為相比其他三種情感標簽,“憤怒”情感的歌曲類型一般為金屬、朋克等風格,歌曲情感極性突出、節(jié)奏較快,特征參數(shù)與其他三種類型差別較大,能夠獲得較好的分類效果。
本組實驗驗證不同分類方法對各分類性能的影響。實驗中分別使用SVM、LSTM以及CNN作為情感分類器,將融合后的特征作為各分類器輸入,訓練得到分類結果如表4所示。
表4 不同分類方法的分類準確率比較
實驗可見,CNN相比SVM,在分類準確率上有6%的提升。由于輸入特征維度較低但序列維度較高,使用LSTM進行分類,整體上沒有取得較好的分類效果,但在“放松”分類下效果突出。分類結果說明,深度學習的方法可以更好地壓縮和提取情感特征參數(shù),相比較淺層學習方法具有更好的魯棒性。因此,使用深度學習的方式進行歌曲音頻情感分類是可行的。
本組實驗將2.4節(jié)中的兩種組合網(wǎng)絡分類模型與3.3節(jié)中取得較好分類效果的單一CNN分類方法進行比較,輸入?yún)?shù)均為融合后的19維情感特征,訓練后的分類效果如表5所示。
表5 組合網(wǎng)絡模型與單一分類方法準確率比較
可見,相對于單一的CNN分類模型,兩種組合網(wǎng)絡模型都取得了較好的分類效果,其中CNN+LSTM的平均分類準確率相較CNN提升了5%,且彌補了在“放松”情感上分類效果不佳的問題。CNN+LSTM組合方法在各子分類下性能表現(xiàn)穩(wěn)定,魯棒性高,表明了組合網(wǎng)絡模型在情感分類下的適用性。
歌曲音頻情感分類的效果取決于提取到的音頻特征參數(shù)和使用的分類方法。在特征參數(shù)選取上,本文采用融合的情感特征彌補了MFCC特征在特定子類別下分類效果的不足。針對歌曲情感分類這一主題,本文構建了兩種組合網(wǎng)絡分類模型,相比較SVM、CNN以及LSTM分類方法,CNN+LSTM組合模型在情感分類準確性上有較大提升。