王晶晶, 黃 如
( 華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
從古至今,音樂一直都是人類活動中不可或缺的一部分,不僅可以代表作者表達(dá)自己的內(nèi)心情感活動,也可以使傾聽者接受音樂的力量,與之共鳴,從而達(dá)到一些正面的精神引導(dǎo)。在這個追求智能化的時(shí)代,眾多影視作品和多媒體視頻層出不窮,音樂情感識別也可以根據(jù)語音視頻內(nèi)容所傳遞的情感進(jìn)行實(shí)時(shí)配樂。
目前對音樂情感識別的研究主要分為兩個方面,一個是如何更好地提取音樂的情感特征;一個是如何提高情感識別的分類器效果。陳穎呈等[1]為了確保音頻特征提取的魯棒性和泛化能力,提高特征在表現(xiàn)音樂非線性深層語義的特性,在音頻特征提取階段采用了基于深度學(xué)習(xí)的音級輪廓(Deep Pitch Class Profile, DPCP)特征。Weninger等[2]使用音樂的底層特征輸入循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以此完成音樂情感識別。Markov等[3]使用高斯過程(Gaussian Process, GP)和支持向量機(jī)(Support Vector Machines,SVM)來研究不同的特征,包括梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient, MFCC)、線性預(yù)測系數(shù)(Linear Prediction Coefficient, LPC)、音色特征及其各種組合特征,然后用于音樂曲風(fēng)分類和VA(Valence-Arousal)情感估計(jì)。從他們的實(shí)驗(yàn)可以看出,GP方法的分類結(jié)果確實(shí)比SVM方法優(yōu)秀,但是GP方法的算法復(fù)雜度要高于SVM方法,所以在大規(guī)模任務(wù)中很難實(shí)際應(yīng)用。Chen等[4]將節(jié)奏、力度、音色、音高和音調(diào)相關(guān)的特征拼接為38維的音樂特征,使用基于深度高斯過程(Deep Gaussian Process, DGP)方法進(jìn)行音樂情感識別,為每一個情感種類構(gòu)建一個GP回歸器,使用回歸方式來分類音樂情感。雖然這種方法達(dá)到了比較不錯的情感分類效果,但是模型訓(xùn)練完成之后不能擴(kuò)充音樂樣本。Li等[5]提出了一種基于DBLSTM(Deep Bidirectional Long Short-Term Memory)的方法來動態(tài)預(yù)測音樂的情感,該方法根據(jù)不同尺度的時(shí)間序列來訓(xùn)練多個DBLSTM,然后使用超限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)將多個尺度的DBLSTM的結(jié)果進(jìn)行融合得到最終結(jié)果。魏琛等[6]和宋振振等[7]則利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)及其變體來自動提取情感樣本的抽象特征,省去了人工選擇特征與降維的過程。Sarkar等[8]遵循基于深度學(xué)習(xí)的方法提出了一種圍繞VGGNet構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)和一種新穎的Post-Processing技術(shù)來改善音樂情感識別的性能。唐霞等[9]則提出了一種深度學(xué)習(xí)模型,該模型使用音樂信號特征語譜圖作為音樂特征輸入,使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對語譜圖進(jìn)行特征提取和情感分類。Issa等[10]引入了一種新的體系結(jié)構(gòu),從聲音文件中提取MFCC、色譜圖、梅爾尺度頻譜圖、Tonnetz表示和頻譜對比度特征,然后將它們輸入到一維的卷積神經(jīng)網(wǎng)絡(luò),之后利用一種增量方法來修改初始模型,以提高分類精度。該方法與某些前期的方法不同,所有模型都可以直接處理原始聲音數(shù)據(jù),而無需轉(zhuǎn)換為視覺表示。Nalini等[11]將MFCC和RP (Residual Phase)結(jié)合提取音樂情感特征,在自聯(lián)想神經(jīng)網(wǎng)絡(luò)(Autoassociative Neural Network,AANN)、SVM和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network, RBFNN)3種算法模型上進(jìn)行情感分類訓(xùn)練,結(jié)果表明融合特征識別結(jié)果一致優(yōu)于單一音樂情感特征,但是在傳統(tǒng)深度學(xué)習(xí)中訓(xùn)練模型普遍耗時(shí)較長,效率低下,尤其是在動態(tài)增加樣本數(shù)量方面。大多數(shù)音樂用于情感識別的算法都從兩個方面入手:首先是特征提取,盡量將音樂信號中包含的情感特征信息提取出來,用作模型輸入;其次是分類器設(shè)計(jì),最大化音樂情感識別分類的準(zhǔn)確率,設(shè)計(jì)更好的學(xué)習(xí)模型。這些算法雖然取得了不錯的識別效果,但是仍然有可改進(jìn)的地方:(1)提取的音樂情感特征種類較多,而算法的靈活性不足,不能適配各種特征。(2)深度學(xué)習(xí)網(wǎng)絡(luò)搭建簡單,但是內(nèi)部結(jié)構(gòu)十分復(fù)雜而且超參數(shù)的數(shù)量龐大,不易修改,從理論上分析其內(nèi)部結(jié)構(gòu)是一件非常困難的事情。(3)情感是比較主觀的,如何更好地提取其音樂特征,從哪方面入手進(jìn)行創(chuàng)新也是不容易把握的。
寬度學(xué)習(xí)系統(tǒng)提供了一種深度學(xué)習(xí)網(wǎng)絡(luò)的替代方法,寬度學(xué)習(xí)結(jié)構(gòu)簡單,處理數(shù)據(jù)快速。Tang等[12]使用隨機(jī)卷積神經(jīng)網(wǎng)絡(luò)對音頻進(jìn)行特征提取,然后使用寬度學(xué)習(xí)網(wǎng)絡(luò)來進(jìn)行標(biāo)簽預(yù)測,將深度學(xué)習(xí)和寬度學(xué)習(xí)進(jìn)行順序拼接,有效地提高了模型分類精度和訓(xùn)練效率。為了同時(shí)兼顧深度學(xué)習(xí)和寬度學(xué)習(xí)的優(yōu)點(diǎn),Chen等[13]提出了一種基于卷積特征映射節(jié)點(diǎn)的級聯(lián)寬度學(xué)習(xí)網(wǎng)絡(luò),實(shí)驗(yàn)證明該網(wǎng)絡(luò)在特征提取和訓(xùn)練效率方面大大超過了傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)。受此啟發(fā),本文將LSTM[14]和BLS[15]相結(jié)合,使用LSTM作為BLS的特征映射節(jié)點(diǎn),搭建了一種新型寬深學(xué)習(xí)網(wǎng)絡(luò)(Long Short-Term Memory-Broad Learning System, LSTM-BLS)來提高音樂情感分類精度。LSTM-BLS使用增量學(xué)習(xí)算法來處理新增節(jié)點(diǎn)的訓(xùn)練,不用重新處理所有數(shù)據(jù),大大縮短了模型運(yùn)行時(shí)間。首先,在音樂特征提取階段,使用基于內(nèi)容的聲學(xué)特征MFCC來增加情感的敏感度,從音樂信號導(dǎo)出殘差相位來提取出特定的音樂情感信息,將兩者進(jìn)行加權(quán)結(jié)合作為模型輸入;其次將輸入數(shù)據(jù)進(jìn)行LSTM模型訓(xùn)練,提取出音樂的前后文關(guān)系,生成特征節(jié)點(diǎn)集作為BL增強(qiáng)節(jié)點(diǎn)的輸入,經(jīng)過映射生成增強(qiáng)層輸出,將特征節(jié)點(diǎn)與增強(qiáng)節(jié)點(diǎn)集的組合使用全局違逆得到最終輸出;最后利用訓(xùn)練好的模型對音樂情感的種類進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果證明本文算法增加的音樂特征更有效地提取出了音頻信息,構(gòu)建的LSTM-BLS提高了音樂情感識別的精度以及效率。
1.1.1 MFCC 目前基于內(nèi)容的聲學(xué)特征主要分為音色、節(jié)奏、音高、和聲和時(shí)間特征這幾類。音色特征包括倒譜特征,比如MFCC;節(jié)奏內(nèi)容特征主要包括節(jié)拍數(shù)、節(jié)奏直方圖等;音高內(nèi)容特征主要表現(xiàn)為頻率信息;和聲特征包括色度圖;時(shí)間特征包括時(shí)間質(zhì)心[16]。其中MFCC利用了聽覺原理以及倒譜的去相關(guān)特性,在眾多實(shí)驗(yàn)中脫穎而出,成為語音和音樂相關(guān)識別任務(wù)中最成功的頻譜特征之一。為了提取該特征,首先,對音頻信號進(jìn)行預(yù)處理,進(jìn)行分幀加窗,使用Blackman-Harris窗口將采樣率為44.1 kHz的原始信號分割成2 048個樣本的幀,將音頻信號加窗后,每幀信號的兩端會漸變?yōu)?,因此信號兩端會被削弱。為了克服這個問題,分幀時(shí)相鄰幀會重疊一部分,一般取幀長的一半或固定為10 ms。本文取相鄰幀重疊50%,既能保證減免頻譜泄露,也能減少不必要的工作量。然后,在每個幀上應(yīng)用離散短時(shí)傅里葉變換來獲得頻譜能量,再通過k1個梅爾濾波器頻率響應(yīng)來加權(quán),進(jìn)一步濾波以生成梅爾譜圖,其中心頻率和帶寬大致與聽覺臨界帶濾波器相匹配。最后,將整個梅爾譜圖序列分割成L個擁有k2個幀大小的塊,沿時(shí)間軸表示為Iq,q=1,···,L。因此,每個塊的大小為k1×k2。
1.1.2 RP 根據(jù)文獻(xiàn)[11],RP定義為從音樂信號的線性預(yù)測(Linear Predictive, LP)殘差中導(dǎo)出的解析信號的相位函數(shù)的余弦。在時(shí)刻t,音樂樣本s(t) 可以估計(jì)為過去p個樣本的線性組合,所以預(yù)測的音樂樣本可以表示為
其中:p為預(yù)測的時(shí)刻順序;系數(shù) {ak},k=1,2,···,p,為線性預(yù)測系數(shù)(Linear Prediction Coefficients, LPCs)的集合。
預(yù)測誤差e(t) 定義為實(shí)際值s(t) 與預(yù)測值的差值,公式如下:
通過最小化預(yù)測誤差e(t) 得到LPCs,即音樂信號的LP殘差r(t) 。由r(t) 可以得到解析信號ra(t) :
有很多關(guān)于音樂情感的信息就存在于LP殘差中,通過計(jì)算剩余相位可以幫助提取出音樂信號中存在的情感特定信息。剩余相位即解析信號相位的余弦,計(jì)算公式如下:
文獻(xiàn)[17]已經(jīng)證明了RP中包含與MFCC特征互補(bǔ)的音頻特定信息,而RP定義為從音樂信號的LP殘差導(dǎo)出的解析信號的相位函數(shù)的余弦。在深度學(xué)習(xí)模型中的識別率表明,音樂信號中存在特定的情感信息,而RP可以提取出這些特定信息。將MFCC特征和RP特征進(jìn)行加權(quán)結(jié)合得到最終輸出,可以提高模型對音樂信號包含的情感特征提取能力。特征提取流程圖如圖1所示。
1.2.1 BLS BLS的建立過程如下:首先網(wǎng)絡(luò)的特征節(jié)點(diǎn)由輸入數(shù)據(jù)映射的特征組合而成;其次,將映射特征節(jié)點(diǎn)的輸出集輸入到增強(qiáng)層被增強(qiáng)為隨機(jī)生成權(quán)重的增強(qiáng)節(jié)點(diǎn);最后,通過對映射特征節(jié)點(diǎn)和增強(qiáng)結(jié)點(diǎn)的輸出集進(jìn)行快速偽逆運(yùn)算得到最終結(jié)果輸出。給定訓(xùn)練數(shù)據(jù) {X,}∈RN×(M+C)和n個特征節(jié)點(diǎn)映射 ?i,則第i個映射的特征為
其中:權(quán)重Wei和偏置項(xiàng) βei是按照數(shù)據(jù)的相應(yīng)維度隨機(jī)生成的矩陣。
把Zn[Z1,Z2,···,Zn] 看作是n組特征節(jié)點(diǎn)的集合,然后,將Zn連接到增強(qiáng)節(jié)點(diǎn)層中。
同樣,第j個增強(qiáng)節(jié)點(diǎn)集的輸出為
其中: ξj是非線性激活函數(shù);Whj為權(quán)重; βhj為偏置項(xiàng);權(quán)重和偏置項(xiàng)是按照數(shù)據(jù)的相應(yīng)維度隨機(jī)生成的矩陣。然后,將增強(qiáng)節(jié)點(diǎn)層的輸出看作Hm[H1,H2,···,Hm]。
為了簡化,在不失去通用性的情況下,省略特征映射 ?i的下標(biāo)和 ξj激活函數(shù),而且在建立模型時(shí)也可以根據(jù)需要選擇不同的 ?i和 ξj激活函數(shù)。
為了獲得輸入數(shù)據(jù)的稀疏表示,應(yīng)用線性逆問題對隨機(jī)初始化的權(quán)重矩陣Wei進(jìn)行微調(diào),因此,BLS的輸出Y有以下形式:其中:Wm是連接特征節(jié)點(diǎn)層和增強(qiáng)節(jié)點(diǎn)層到輸出層的權(quán)重,Wm[Zn,Hm]+Y,可以很容易地利用偽逆[Zn,Hm]+來計(jì)算。
1.2.2 LSTM-BLS 本文利用LSTM作為寬度學(xué)習(xí)網(wǎng)絡(luò)的特征節(jié)點(diǎn),將上一層LSTM的輸出和輸入數(shù)據(jù)X作為下一層LSTM的輸入,并將特征節(jié)點(diǎn)的最后一層數(shù)據(jù)輸出連接到增強(qiáng)節(jié)點(diǎn)。最后通過直接結(jié)合映射特征節(jié)點(diǎn)和增強(qiáng)結(jié)點(diǎn)的輸出來得到最終結(jié)果輸入,然后進(jìn)行快速偽逆運(yùn)算得到最終結(jié)果輸出,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 LSTM-BLS網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Netuork structure of LSTM-BLS model
LSTM-BLS網(wǎng)絡(luò)模型理論推導(dǎo)如下:首先計(jì)算特征映射節(jié)點(diǎn)Zt,根據(jù)LSTM的網(wǎng)絡(luò)更新方式對輸入層信息進(jìn)行計(jì)算,公式如(10)所示。
其中:wxa為輸入數(shù)據(jù)與隱藏層之間的權(quán)值;wha為上一時(shí)刻的輸出權(quán)值;ba為偏置量。
對輸入門進(jìn)行計(jì)算,公式如(11)所示。其中:wxi為輸入門與輸入信息之間的權(quán)值;whi為輸入門與上一時(shí)刻輸出之間的權(quán)值;bi為偏置量。
同理,對遺忘門進(jìn)行計(jì)算,公式如(12)所示。
其中:wx f為遺忘門與輸入信息之間的權(quán)值;whf為遺忘門與上一時(shí)刻輸出之間的權(quán)值;bf為偏置量。
對Cell中的狀態(tài)值進(jìn)行計(jì)算,公式如(13)所示。
對輸出門狀態(tài)值進(jìn)行計(jì)算,公式如(14)所示。
每一組節(jié)點(diǎn)都使用相同的計(jì)算過程,所有n組特征映射節(jié)點(diǎn)都表示為
其次,預(yù)期網(wǎng)絡(luò)通過公式(17)進(jìn)行功能增強(qiáng)
利用偽逆 [Zn,Hm]+可以很容易地計(jì)算出權(quán)重Wm[Zn,Hm]+Y。LSTM-BLS總體模型框圖如圖3所示。
圖3 LSTM-BLS模型框圖Fig. 3 Block diagram of LSTM-BLS model
本文使用Emotion音樂數(shù)據(jù)集來測試評估深度學(xué)習(xí)復(fù)雜模型以及寬深學(xué)習(xí)網(wǎng)絡(luò)在情感分類中的性能。該數(shù)據(jù)集由2 906首歌曲組成,共包含4個情感類別,憤怒歌曲639首、快樂歌曲753首、放松歌曲750首和悲傷歌曲764首。為了實(shí)驗(yàn)的便利和整齊性,只使用每首歌曲的前30 s,而不足30 s的則進(jìn)行補(bǔ)零操作。數(shù)據(jù)集按照8∶1∶1的比例隨機(jī)分成3份,分別為訓(xùn)練、驗(yàn)證和測試集,可以最大化保證實(shí)驗(yàn)的公平性。
為了驗(yàn)證基于寬深學(xué)習(xí)網(wǎng)絡(luò)的模型分類有效性,選取了4個復(fù)雜網(wǎng)絡(luò)進(jìn)行對比,分別為文獻(xiàn)[12]提出的RCNNBL結(jié)構(gòu)、文獻(xiàn)[18]提出的基于三通道(MCC-3)模型和文獻(xiàn)[19]提出的MCCLSTM模型結(jié)構(gòu)、文獻(xiàn)[13]提出的級聯(lián)卷積特征映射節(jié)點(diǎn)的寬度學(xué)習(xí)系統(tǒng)(Broad Learning Systems: Cascade of Convolution Feature Mapping Nodes, CCFBLS),以及兩個基礎(chǔ)深度學(xué)習(xí)網(wǎng)絡(luò)CNN和LSTM。其中RCNNBL模型、MCC-3模型和MCCLSTM模型結(jié)構(gòu)的參數(shù)設(shè)置分別參考各自文獻(xiàn),LSTM-BLS和CCFBLS的參數(shù)設(shè)置見表1。實(shí)驗(yàn)在具有12 GB內(nèi)存的NVIDIATITANXP GPU上進(jìn)行。
表1 模型參數(shù)設(shè)置Table 1 Parameters for models
在預(yù)處理階段,采用40個梅爾濾波器組和80個幀長提取MFCC特征,采用16階LP來導(dǎo)出LP殘差。利用一階數(shù)字濾波器和20 ms幀大小,相鄰幀之間重疊50%,通過預(yù)先強(qiáng)調(diào)輸入音樂數(shù)據(jù),從情感音樂信號中提取LP殘差,提取每個幀的最高Hilbert包絡(luò)生成RP特征,將兩種特征進(jìn)行加權(quán)結(jié)合提取出特征時(shí)序圖,對每種類型的音樂信號進(jìn)行特征提取,得到時(shí)序特征圖。圖4分別示出了從4種情感類型的音頻信號中提取出的3幀時(shí)序特征。網(wǎng)絡(luò)的輸入?yún)?shù)形式是[batch_size, height, width, channels],根據(jù)電腦內(nèi)存大小以及分類模型的復(fù)雜度,batch_size取128,也就是一次輸入128張的時(shí)序圖。在LSTM-BLS網(wǎng)絡(luò)中使用3層LSTM進(jìn)行節(jié)點(diǎn)映射,輸出維度分別為400、200和100,經(jīng)過實(shí)驗(yàn)對比選取效果最好的模型結(jié)構(gòu),然后將LSTM的輸出映射到增強(qiáng)層。在CCFBLS網(wǎng)絡(luò)中共有4個卷積塊,每個CNN塊都包括卷積層、池化層和Dropout層,卷積層中濾波器的數(shù)量為64,形狀固定為 3×3 ,步幅為1,池化方式選擇最大池化,Dropout參數(shù)為0.5,其中4個卷積輸出都連接到CCFBLS的輸出節(jié)點(diǎn)。
圖4 4種情感音樂的時(shí)序特征圖Fig. 4 Timing features extracted from four music emotions
由于不確定哪種LSTM模型結(jié)構(gòu)和寬度學(xué)習(xí)系統(tǒng)相結(jié)合可以達(dá)到更高的音樂情感分類準(zhǔn)確率,本文首先進(jìn)行LSTM模型結(jié)構(gòu)實(shí)驗(yàn),用于選擇映射層LSTM節(jié)點(diǎn)個數(shù)。實(shí)驗(yàn)分別對比了1~3層的LSTM和寬度學(xué)習(xí)相結(jié)合的模型,試圖找出LSTM層數(shù)對總體模型分類準(zhǔn)確率的影響,分類結(jié)果如圖5所示??梢钥闯觯瑑蓪覮STM模型的分類準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于其他兩個模型,并且增加層數(shù)并沒有使結(jié)果更加優(yōu)秀反而增加了訓(xùn)練時(shí)間,因此選擇兩層LSTM模型輸出作為映射層輸入,與寬度學(xué)習(xí)系統(tǒng)相結(jié)合進(jìn)行音樂情感分類訓(xùn)練。
圖5 不同LSTM層數(shù)的分類準(zhǔn)確率比較Fig. 5 Classification accuracy comparison of different LSTM layers
將本文模型與文獻(xiàn)[12]中的4種分類模型(MCCLSTM、MCCBL、RCNNLSTM、RCNNBL)相比,評價(jià)所提出的分類模型的準(zhǔn)確性和效果。為了進(jìn)行公平的比較,對每個方案進(jìn)行10倍的交叉驗(yàn)證,以獲得分類精度,分類結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果表明本文模型在音樂情感分類方面遠(yuǎn)遠(yuǎn)優(yōu)于基于深度學(xué)習(xí)的模型,也比RCNNBL模型的分類效果好得多。因?yàn)橐魳返那楦蟹治霰揪头浅V饔^,所以在音樂情感識別中,如何使用物理參數(shù)從音頻信號的特征來描述音樂情感非常困難,而且對于音樂情感分類,目前研究結(jié)果并不能使人滿意,只能是在微小的優(yōu)勢中辨別出可能的方向。
從表2可以看出,LSTM在音樂情感分類方面擁有微弱的優(yōu)勢,而MCCLSTM[19]使用多通道CNN結(jié)合LSTM進(jìn)行音樂情感識別分類任務(wù),雖然比LSTM的識別準(zhǔn)確率要穩(wěn)定一點(diǎn),但是復(fù)雜的模型將會增加模型訓(xùn)練時(shí)間,因此本文選擇使用LSTM和寬度學(xué)習(xí)進(jìn)行結(jié)合。
表2 模型分類準(zhǔn)確率比較Table 2 Classification accuracy comparison of different models
使用級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的寬度學(xué)習(xí)系統(tǒng)在音樂情感分類中已經(jīng)展露出明顯的優(yōu)勢,對比其他復(fù)雜模型,音樂情感分類的準(zhǔn)確率有了大幅提升,從而證明了寬深學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)越性。而本文提出的網(wǎng)絡(luò)結(jié)構(gòu)充分利用了BLS的快速處理復(fù)雜數(shù)據(jù)的能力,它的優(yōu)勢在于結(jié)構(gòu)簡單,模型訓(xùn)練時(shí)間短,從而提高了識別效率。LSTM在提取時(shí)間序列數(shù)據(jù)中的時(shí)序特征方面表現(xiàn)優(yōu)秀,它能提取出音樂的時(shí)序關(guān)系,從而最大保留音樂情感特征,將兩者的優(yōu)勢相結(jié)合,得到LSTM-BLS網(wǎng)絡(luò)模型進(jìn)行音樂情感分類任務(wù)。圖6示出了不同模型分類準(zhǔn)確性的比較結(jié)果,LSTM-BLS模型的識別準(zhǔn)確率比MCCLSTM提高了10%左右,比RCNNBL提高了7.2%左右,比CCFBLS提高了6.5%左右,從而證明了LSTM-BLS模型更準(zhǔn)確地實(shí)現(xiàn)了音樂的情感分類。
圖6 不同模型分類準(zhǔn)確性分布比較Fig. 6 Classification accuracy distribution comparison of different models
為了驗(yàn)證LSTM-BLS模型與其他復(fù)雜預(yù)測模型的訓(xùn)練效率,分別對所有模型提取的特征進(jìn)行預(yù)測。對于相同的特征,表3示出了這幾種模型所需的10倍交叉驗(yàn)證訓(xùn)練時(shí)間的平均值。可以看出,在Emotion數(shù)據(jù)集上,基于BLS模型的訓(xùn)練效率遠(yuǎn)高于基于LSTM模型的訓(xùn)練效率,LSTM- BLS模型的訓(xùn)練效率也比MCCLSTM+BLS模型的訓(xùn)練效率要高。對比CCFBLS模型和LSTM-BLS模型,前者的訓(xùn)練效率比后者要高,這是由于LSTM模型本身就比CNN要復(fù)雜,所以出現(xiàn)訓(xùn)練效率略低的結(jié)果并不反常。
表3 模型訓(xùn)練效率比較Table 3 Training efficiency comparison of different models
本文提出了基于寬度學(xué)習(xí)和深度學(xué)習(xí)的LSTMBLS網(wǎng)絡(luò)模型來進(jìn)行音樂情感識別分類。在音頻預(yù)處理階段,使用MFCC特征和RP特征加權(quán)結(jié)合,可以提取出更多、更全面的音樂情感特征;在情感預(yù)測階段,使用級聯(lián)LSTM網(wǎng)絡(luò)映射節(jié)點(diǎn)的寬度學(xué)習(xí)系統(tǒng)進(jìn)行模型訓(xùn)練。該模型的網(wǎng)絡(luò)結(jié)構(gòu)充分利用了BLS的快速處理復(fù)雜數(shù)據(jù)的能力,它的優(yōu)勢在于結(jié)構(gòu)簡單,模型訓(xùn)練時(shí)間短,從而提高識別效率;LSTM在提取時(shí)間序列數(shù)據(jù)中的時(shí)序特征方面表現(xiàn)優(yōu)秀,它能提取出音樂的時(shí)序關(guān)系,從而最大的保留音樂情感特征,將兩者的優(yōu)勢相結(jié)合,得到LSTM-BLS網(wǎng)絡(luò)模型進(jìn)行音樂情感分類任務(wù)。實(shí)驗(yàn)結(jié)果證明,LSTM-BLS網(wǎng)絡(luò)模型達(dá)到了比單一深度學(xué)習(xí)模型以及將CNN和寬度學(xué)習(xí)相結(jié)合的RCNNBL模型都更高的識別準(zhǔn)確率,同時(shí)實(shí)現(xiàn)了比基于LSTM的復(fù)雜模型更低的時(shí)間復(fù)雜度,有效地實(shí)現(xiàn)了音樂的情感分類,為音樂情感識別方向提供了一個新的可行性發(fā)展思路。