董曉斌,王 亮
(沈陽(yáng)化工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 沈陽(yáng) 110020)
隨著時(shí)代與互聯(lián)網(wǎng)的快速發(fā)展,越來(lái)越多的音樂(lè)創(chuàng)作者能夠在網(wǎng)絡(luò)上盡情地展示自己的作品。音樂(lè)作為一個(gè)信息的載體,其中蘊(yùn)含了豐富的情感信息。由于音樂(lè)的組成特性,創(chuàng)作者能夠通過(guò)歌詞、旋律、聲調(diào)、海報(bào)等形式來(lái)傳達(dá)自己想要表達(dá)的情感。傳統(tǒng)的音樂(lè)情感識(shí)別采用單一的模態(tài)對(duì)音樂(lè)這種復(fù)雜的作品進(jìn)行情感識(shí)別,這樣往往會(huì)帶來(lái)信息丟失、識(shí)別準(zhǔn)確度不高等問(wèn)題,因此多模態(tài)音樂(lè)情感識(shí)別逐漸成為學(xué)者們的研究重點(diǎn)。
本文提出一種XLNet-CBGRU 音樂(lè)歌詞情感識(shí)別模型,首先通過(guò)XLNet 模型,充分考慮上下文位置信息,學(xué)習(xí)到文本的動(dòng)態(tài)特征向量,之后通過(guò)雙向GRU 網(wǎng)絡(luò)學(xué)習(xí)文本的深層語(yǔ)義得到音樂(lè)歌詞的情感特征。對(duì)于音樂(lè)音頻使用卷積神經(jīng)網(wǎng)絡(luò)提取局部特征后再作為輸入,輸入到雙向GRU 學(xué)習(xí)音頻的時(shí)序信息得到音樂(lè)的音頻情感特征。最后利用互注意力機(jī)制對(duì)歌詞和音頻特征進(jìn)行加權(quán)融合,最終對(duì)音樂(lè)的情感類型進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果證明,本文所使用的方法在預(yù)測(cè)準(zhǔn)確度上有一定的提升。
隨著深度學(xué)習(xí)的不斷發(fā)展,目前音樂(lè)音頻情感識(shí)別的研究重心以從傳統(tǒng)的機(jī)器學(xué)習(xí)轉(zhuǎn)移到深度學(xué)習(xí)。Li 等人提出了一種基于DBLSTM-ELM 的動(dòng)態(tài)音樂(lè)情感識(shí)別模型,該模型將LSTM 與極限學(xué)習(xí)機(jī)相結(jié)合,在DBLSTM 訓(xùn)練出結(jié)果后再由ELM 進(jìn)行融合[1]。鄭艷等人結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)的特性,提出了一種新的模型CGRU,模型由CNN 與GRU 相結(jié)合,對(duì)MFCC 特征進(jìn)行提取后再由隨機(jī)深林進(jìn)行特征的選取,提高了識(shí)別的精度[2]。Xie 等人提出了一種基于幀級(jí)音頻特征并結(jié)合LSTM 的情感識(shí)別方法,用幀級(jí)特征代替?zhèn)鹘y(tǒng)的統(tǒng)計(jì)特征,并根據(jù)注意力機(jī)制傳統(tǒng)的LSTM 進(jìn)行改進(jìn),最終在模型性能上獲得了提升[3]。王晶晶等人為了提高模型效率,提出了新的網(wǎng)絡(luò)模型LSTM-BLS,該模型將深度學(xué)習(xí)與寬帶學(xué)習(xí)相結(jié)合,利用寬帶學(xué)習(xí)快速處理數(shù)據(jù)能力,將LSTM 當(dāng)作BLS 的特征映射節(jié)點(diǎn),提高了情感識(shí)別的效率[4]。鐘智鵬等人針對(duì)LSTM 的效率低下以及長(zhǎng)距離依賴問(wèn)題,提成了一種新的網(wǎng)絡(luò)模型CNN-BiLSTM-SA[5]。
隨著自然語(yǔ)言處理領(lǐng)域的快速發(fā)展,音樂(lè)的歌詞情感識(shí)別也得到了學(xué)者的重視。吳迪等人針對(duì)傳統(tǒng)文本情感識(shí)別模型不能根據(jù)上下文信息動(dòng)態(tài)獲取詞向量問(wèn)題,提出一種基于ELMo-CNN-BiGRU 的情感識(shí)別模型,對(duì)ELMo 和Glove 兩種預(yù)訓(xùn)練模型生成的動(dòng)態(tài)與靜態(tài)詞向量通過(guò)堆疊得到輸入向量,再通過(guò)CNN 和BiGRU 提取局部特征和全局特征,最終完成情感識(shí)別[6]。Liu Ning 等人提出了一種基于BERT 的文本情感識(shí)別算法,該算法利用BERT 提取出句子級(jí)向量,再結(jié)合CNN 和對(duì)抗網(wǎng)絡(luò)完成情感識(shí)別[7]。梁淑蓉等人針對(duì)BERT 模型上下游任務(wù)不一致的問(wèn)題,提出一種基于XLNet-LSTM-Att 的文本情感識(shí)別模型,該模型首先通過(guò)XLNet 生成考慮上下文信息的特征向量,再通過(guò)LSTM 進(jìn)一步提取上下文特征,最后結(jié)合注意力機(jī)制完成情感識(shí)別[8]。
音樂(lè)作為一種人類情感的載體,它是由多個(gè)部分共同組成的。一首歌曲的曲調(diào)、歌詞、海報(bào)、演唱者的聲調(diào)等都在傳遞著情感信息。多模態(tài)融合主要有早期融合和晚期融合兩大類型。早期融合是在數(shù)據(jù)級(jí)和特征級(jí)的融合,而晚期融合是在決策級(jí)的融合。決策級(jí)融合存在忽略了模態(tài)之間的關(guān)聯(lián)性以及不能對(duì)不同類別賦予不同權(quán)重的問(wèn)題。王蘭馨等人提出一種結(jié)合Bi-LSTM-CNN 的雙模態(tài)情感識(shí)別模型,該模型包括基于文本的Bi-LSTM-CNN 模型和CNN 模型,并分別驗(yàn)證了特征級(jí)融合和決策級(jí)融合的效果[9]。張昱等人提出一種基于雙向掩碼注意力的多模態(tài)情感分析模型BMAM,該模型通過(guò)掩碼注意力動(dòng)態(tài)地調(diào)整不同模態(tài)間的權(quán)重,繼而獲得更準(zhǔn)確的模態(tài)表示[10]。文獻(xiàn)[11]是從不同模態(tài)中提取數(shù)據(jù)并使用數(shù)據(jù)級(jí)的融合完成情感識(shí)別。奚晨是在特征級(jí)融合的基礎(chǔ)上引入互注意力機(jī)制,通過(guò)計(jì)算自動(dòng)為不同模態(tài)添加權(quán)重以體現(xiàn)模態(tài)間的重要性程度[12]。
音頻信號(hào)是一組在8 ~44.1 kHz 頻率范圍內(nèi)的離散時(shí)間序列。與其他的機(jī)器學(xué)習(xí)任務(wù)一樣,音頻信號(hào)的特征提取在音樂(lè)情感識(shí)別(MER)中也非常的重要。大多數(shù)情況下,音頻特征可分為時(shí)域特征、頻域特征、倒譜域特征和其他特征。語(yǔ)譜圖(Spectrogram)是頻譜分析視圖,橫坐標(biāo)為時(shí)間,縱坐標(biāo)為頻率,是音頻在時(shí)域和頻域特性上的綜合描述。Spectrogram 本身包含了音樂(lè)信號(hào)的所有頻譜信息,沒(méi)有經(jīng)過(guò)任何加工,所以Spectrogram 關(guān)于音樂(lè)的信息是無(wú)損的。
本文采用的音頻情感識(shí)別模型如圖1 所示。該模型主要包括卷積層、BiGRU 層、全連接層和分類層。
圖1 音頻情感識(shí)別模型圖
(1)卷積層
卷積層的輸入為音頻的語(yǔ)譜圖IT×N(T為時(shí)間,N為頻率),利用CNN 的局部數(shù)據(jù)處理能力,對(duì)語(yǔ)譜圖進(jìn)行特性提取。通過(guò)卷積、池化、dropout 等操作后,得到了時(shí)間乘以特征數(shù)目的頻率面情感特征。
(2)BiGRU 層
RNN 是處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),可以有效地學(xué)習(xí)序列信息。傳統(tǒng)的RNN 難以捕獲長(zhǎng)距離依賴信息且在反向傳播時(shí)經(jīng)常會(huì)出現(xiàn)梯度消失,而LSTM 在內(nèi)部門控制機(jī)制下有效地解決了這些問(wèn)題。GRU 是LSTM 的優(yōu)化版本,簡(jiǎn)化了其內(nèi)部結(jié)果,在提升訓(xùn)練效率的同時(shí)保持了幾乎相同的效果。GRU 結(jié)構(gòu)如圖2 所示。
圖2 GRU 內(nèi)部結(jié)構(gòu)
在GRU 內(nèi)部有重置門rt和更新門zt,前向的計(jì)算公式如下:
式中:wr、wz和w分別為重置門、更新門和候選特征的參數(shù)矩陣;σ為sigmoid 激活函數(shù);ht為t時(shí)刻的隱藏狀態(tài);ht-1為上一時(shí)刻的隱藏狀態(tài);為t時(shí)刻的候選信息。
本層的輸入為CNN 層提取出的情感局部關(guān)鍵特征和低水平特征(MFCC、RP)。在文獻(xiàn)[13]中已證明RP 能夠與MFCC 實(shí)現(xiàn)信息的互補(bǔ)。通過(guò)兩個(gè)獨(dú)立的隱藏層,分別學(xué)習(xí)前向和后向序列信息。最終將提取出的語(yǔ)譜圖中和LLD 中的情感特征進(jìn)行全連接后輸入到softmax 層進(jìn)行分類。
目前主流的文本情感識(shí)別主要是使用預(yù)訓(xùn)練語(yǔ)言模型。BERT 模型是在谷歌大腦于2018 年提出的一種基于Encoder-Decoder 架構(gòu)的語(yǔ)言模型,在NLP 各項(xiàng)領(lǐng)域取得了優(yōu)異的成績(jī);但其也存在上下游任務(wù)不一致、忽略了預(yù)測(cè)詞之間的依賴關(guān)系的問(wèn)題。于是谷歌大腦于2019 年發(fā)布了XLNet 模型,在多個(gè)任務(wù)上超越了BERT 的性能。
XLNet-BiGRU 模型主要由XLNet 層和BiGRU 層組成,其具體結(jié)構(gòu)如圖3 所示。
圖3 基于XLNet-BiGRU 的模型結(jié)構(gòu)圖
現(xiàn)階段的預(yù)訓(xùn)練語(yǔ)言模型有自回歸語(yǔ)言模型(Auto Regressive Language Model, ARLM)和自編碼語(yǔ)言模型(Auto Encoder Language Model, AELM)。ARLM 不能同時(shí)學(xué)習(xí)前后文的信息,但是其考慮到了單詞之間的依賴關(guān)系,而AELM 可以同時(shí)學(xué)習(xí)到前后文的信息,但忽略了單詞之間的依賴關(guān)系,同時(shí)存在預(yù)訓(xùn)練階段和微調(diào)階段的不一致問(wèn)題。XLNet 結(jié)合了ARLM 和AELM 的優(yōu)點(diǎn),提出了排列語(yǔ)言模型(Permutation Language Model, PLM)方法,對(duì)句子中的Token 進(jìn)行全排列,通過(guò)采樣不同的序列順序進(jìn)行預(yù)測(cè)。
該模型的工作流程如下:
(1)將歌詞數(shù)據(jù)Xn(n=1, 2, ...,N)輸入到XLNet 層,Xi表示為歌詞中第i個(gè)單詞。
(2)將文本數(shù)據(jù)轉(zhuǎn)化為在字典中對(duì)應(yīng)的編碼,利用XLNet 模型學(xué)習(xí)到文本的動(dòng)態(tài)特征向量Tn,向量T充分地利用了上下文的位置關(guān)系,能夠很好地表現(xiàn)單詞在不同句子中的含義。
(3)將特征向量Tn作為輸入矩陣,輸入到BiGRU 層,分別通過(guò)正向BiGRU 層和反向BiGRU 層得到hli和hri,加權(quán)連接后得到深層語(yǔ)義特征hi。
(4)通過(guò)全連接層對(duì)hi進(jìn)行全連接,輸出的維度為情感標(biāo)簽的種類數(shù)量。
(5)最后在softmax 層對(duì)全連接層的輸出結(jié)果歸一化處理,得到音樂(lè)的情感類別。
多模態(tài)融合方式一般可以分為早期融合和晚期融合。早期融合是對(duì)不同模態(tài)間特征的融合,這種融合方式可以較好地考慮到不同模態(tài)間信息的互相補(bǔ)充。晚期融合是指決策的融合,不同模態(tài)的數(shù)據(jù)分別通過(guò)不同的模型得到分類決策,然后對(duì)不同的結(jié)果進(jìn)行融合。
一般的特征融合是對(duì)不同模態(tài)的特征向量進(jìn)行直接的拼接,這樣不能很好地考慮不同模態(tài)之間的差異性,以及在決策中模態(tài)之間不同的權(quán)重。因此,本文采用互注意力機(jī)制的特征融合,具體公式如下:
式中:Fa為音頻的特征;Ft為文本的特征;Wa和Wt為參數(shù)矩陣。通過(guò)計(jì)算后分別得到語(yǔ)音關(guān)于文本的互注意力特征Fat和文本關(guān)于語(yǔ)音的互注意力特征Fta,最后通過(guò)向量的級(jí)聯(lián)得到音頻-文本互注意力特征Fat。
本文針對(duì)音樂(lè)情感識(shí)別實(shí)驗(yàn)的數(shù)據(jù)集來(lái)自Million Song Dataset(百萬(wàn)音樂(lè)數(shù)據(jù)集)。在其標(biāo)簽子集Last.fm,根據(jù)憤怒、悲傷、快樂(lè)、放松四種情緒類別,抽取音樂(lè)2 000 首。具體分類情況見(jiàn)表1 所列。
表1 實(shí)驗(yàn)數(shù)據(jù)集
由于整首音樂(lè)存在重復(fù)的部分,且一般音樂(lè)的副歌部分是整首歌曲的情感爆發(fā)點(diǎn),因此選取每首歌的15 ~45 s 之間的30 s 作為音頻數(shù)據(jù),并按照8 ∶2 的比例隨機(jī)劃分訓(xùn)練集和測(cè)試集。
在本次實(shí)驗(yàn)中,分別采取了不同特征選取、不同分類模型和不同融合方法進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)具體結(jié)果見(jiàn)表2 所列。
表2 實(shí)驗(yàn)對(duì)比結(jié)果
由表2 可見(jiàn),在音頻情感識(shí)別部分把語(yǔ)譜圖作為二維特征輸入到CNN,取得0.588 的準(zhǔn)確率,通過(guò)CNN 和GRU的組合方式,準(zhǔn)確率有一定的提升,而本文中所使用模型對(duì)LLD 和語(yǔ)譜圖中感情信息的融合進(jìn)一步提升了分類的準(zhǔn)確率,達(dá)到了0.69。在歌詞情感識(shí)別部分,本文使用的XLNet語(yǔ)言模型,相對(duì)于之前的Word2Vec 和BERT 有2%~9%的提升,準(zhǔn)確率達(dá)到了0.794。在多模態(tài)情感識(shí)別部分可以看出,決策級(jí)的融合對(duì)比單一的模態(tài)準(zhǔn)確率并沒(méi)有提升,是因?yàn)椴煌臎Q策具有相同的權(quán)重,對(duì)最終分類結(jié)果造成了負(fù)面的影響。而在考慮了互注意力機(jī)制的特征融合下,分類效果提升了3%左右。
本文針對(duì)音樂(lè)情感識(shí)別領(lǐng)域,提出了一種基于XLNet-CNN-BiGRU 的音樂(lè)情感識(shí)別模型。在音頻部分,采用MFCC 與RP 相互融合,再結(jié)合語(yǔ)譜圖以獲得更加豐富的情感信息,模型充分利用了CNN 的局部特征提取能力和GRU的結(jié)合上下文的序列特征提取能力。在歌詞文本部分,首先利用預(yù)訓(xùn)練模型XLNet 動(dòng)態(tài)獲取包含上下文語(yǔ)義的特征向量,再利用雙向GRU 網(wǎng)絡(luò)再次提取上下文相關(guān)信息。最后在模態(tài)融合部分,結(jié)合互注意力機(jī)制對(duì)不同特征加權(quán),對(duì)歌曲情感進(jìn)行識(shí)別。經(jīng)過(guò)對(duì)比實(shí)驗(yàn),該方法在一定程度上提高了分類的準(zhǔn)確度。日后的工作中,對(duì)音頻更加高效的特征提取是研究的重點(diǎn)。