本文引用格式:,.融合情感的異構圖神經(jīng)網(wǎng)絡音樂會話推薦算法[J].自動化與信息工程,2025,46(3):9-16
LU Zhenye, DU Yuxiao. Emotion-enhanced heterogeneous graph neural network for music session-based recommendation algorithm[J]. Automationamp; Information Engineering,2025,46(3):9-16.
關鍵詞:會話推薦;異構圖神經(jīng)網(wǎng)絡;音樂情感;匿名用戶推薦中圖分類號:TP391.3 文獻標志碼:A 文章編號:1674-2605(2025)03-0002-08DOI: 10.12475/aie.20250302 開放獲取
Emotion-enhanced Heterogeneous Graph Neural Network for Music Session-based Recommendation Algorithm
LU Zhenye DU Yuxiao (School of Automation, Guangdong University of Technology, Guangzhou 510oo6, China)
Abstract: To addressthe limitations ofcurrent music session-based recommendation methods foranonymous or new users such a simplisticrecommendations based solelyon short-term sesions and neglect ofemotional factors influencinguserchoices this studyproposes anemotion-enhanced heterogeneous graph neuralnetwork for music sesson-basedrecommendationalgorithm. Thealgorithmconstructsasession-basedrecommendationsystemusinghistoricaldatafromallusersandcurentsessionsviagraph neural networks,integratingmusical emotional semantics toprovide more acuraterecommendationsforanonymous/nwusers. ExperimentalresultsontheNowplayingdatasetdemonstrate thatcomparedtothesuboptimal GNN-basedesionrecommedation method, the proposed algorithm achieves a 2.1% improvement in P@20 and a 6.8% increase in MRR @20 , effectively enhancing recommendation performance.
Keywords: sesion-based recommendation; heterogeneous graph neural network; music emotion; anonymous user recommendation
0 引言
信息技術的飛速發(fā)展,如5G、智能手機、云服務等,為音樂傳播帶來了前所未有的機遇。根據(jù)酷狗音樂發(fā)布的《2023年度音樂生活白皮書》顯示,2023年新歌總量突破了2600萬首,平均約每秒產(chǎn)出一首新歌[1]。隨著音樂作品數(shù)量的不斷增長,在有限的時間和認知資源下,用戶有效篩選音樂變得越來越困難。
而推薦系統(tǒng)[2]通過分析用戶偏好和行為模式,向用戶推送符合其興趣的音樂,有效緩解了信息過載的困境,提升了用戶的音樂體驗。然而,推薦系統(tǒng)面對匿名用戶或新用戶時,由于缺乏歷史數(shù)據(jù)作為參考,推薦效果不盡如人意[3-4]。
基于會話的推薦主要利用當前會話中的交互信息來生成推薦。文獻[5]于2015年首次將循環(huán)神經(jīng)網(wǎng)絡(recurrentneuralnetwork,RNN)應用于會話推薦,提出基于RNN的會話推薦模型,其采用多層門控遞歸單元來模擬用戶與音樂項目的交互序列,即使缺乏用戶的歷史數(shù)據(jù),也能準確捕捉用戶的短期興趣并生成推薦。文獻[6]提出基于注意力機制的會話推薦模型其將注意力機制與門控循環(huán)單元(gatedrecurrentunit,GRU)編碼器相結合,捕捉會話序列中不同項目的重要性和依賴關系,自動學習用戶的興趣變化和項自之間的相關性,并生成個性化的推薦結果。文獻[7]提出基于注意力機制的短期記憶網(wǎng)絡推薦模型,通過記憶網(wǎng)絡獲取用戶的當前興趣特征。除RNN外,卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)也被廣泛應用于會話推薦。文獻[8]提出基于內(nèi)容特征的三維CNN協(xié)同過濾模型,利用CNN提取用戶行為序列的局部特征,并結合內(nèi)容特征來增強推薦的準確性。然而,上述基于深度學習的會話推薦方法主要關注相鄰項目的序列建模,難以處理非連續(xù)項目之間的復雜轉(zhuǎn)換,限制了推薦性能的進一步提升。
基于圖神經(jīng)網(wǎng)絡的會話推薦(sessionrecommen-dation based on graph neural networks, SR-GNN) 算法[9]可根據(jù)用戶的歷史數(shù)據(jù)和當前會話,捕捉用戶興趣變化和項目之間的關聯(lián),提高了推薦的準確性和個性化程度。隨著SR-GNN算法的深入研究,學者們提出了許多改進算法,如基于GNN的會話行為建模算法[10]、融合社交關系信息的圖推薦模型[]、以及引入多粒度用戶意圖建模的強化GNN[I2]等。然而,上述算法仍存在冷啟動和數(shù)據(jù)稀疏等問題[13]。
在音樂推薦領域,考慮到情感是影響用戶選擇的重要因素,本文提出一種融合情感的異構GNN音樂會話推薦算法(以下簡稱“音樂會話推薦算法”)。首先,通過異構GNN對用戶播放音樂行為進行建模,學習用戶長、短期音樂偏好;然后,對音頻數(shù)據(jù)和歌詞文本進行音樂情感分析,生成音樂情感向量;最后,將用戶播放音樂行為與音樂情感向量結合,利用融合推薦模型以期提供更精準的個性化音樂推薦。
1算法架構與步驟
音樂會話推薦算法先為當前會話的用戶建立匿名用戶異構會話圖,再根據(jù)所有用戶的歷史會話構建一個用戶-音樂項目會話圖,最后通過注意力機制引入音樂情感向量,提高音樂推薦的準確性。音樂會話推薦算法框架如圖1所示。
假設當前會話中,用戶播放的音樂集合為V,用戶播放的第 i 首音樂為 ui ,對應的會話序列為 S= {ν1,ν2,...,νn} ,則音樂會話推薦算法的具體步驟如下:1)將用戶的每次播放音樂行為視為一次會話,并以此構建匿名用戶異構會話圖 Gn ,其主要包含用戶節(jié)點和音樂節(jié)點,這兩類節(jié)點蘊含不同音樂項目之間的轉(zhuǎn)換信息;
2)利用異構GNN提取 Gn 中的節(jié)點特征,有效捕捉不同類型節(jié)點之間的復雜關系,從而更準確地表征用戶與音樂之間的互動和轉(zhuǎn)換情況;
3)利用注意力機制對音樂節(jié)點的向量表示h1,h2,...,hn 進行加權,生成全局會話表示 sg ;通過線性融合模塊將全局會話表示 sg 與上下文信息整合,得到的最終會話表示 s200×10 作為表征用戶短期興趣與行為偏好的向量表示;
4)從音頻數(shù)據(jù)和歌詞文本中分別提取音頻特征和歌詞特征,并利用CNN與長短時記憶(longshort-termmemory,LSTM)網(wǎng)絡提取音樂情感特征,生成音樂情感向量 e2×1 ;
5)將最終會話表示和音樂情感向量輸入全連接層,通過非線性轉(zhuǎn)換得到一組 200×10 的向量,即候選推薦音樂列表;
6)將候選推薦音樂列表輸入Softmax預測層,計算音樂集合 V 中各音樂的推薦概率,最終選取得分最高的若干音樂作為推薦結果。
1.1 會話圖構建
1.1.1匿名用戶異構會話圖構建
設當前匿名用戶的會話序列為 S={ν1,ν2,...,νi} 其中, ui 表示用戶播放的第 i 首音樂。若將用戶在當前會話中播放的音樂看作節(jié)點,不同音樂的播放順序?qū)獮橛邢蜻?,則用戶的音樂播放行為序列可轉(zhuǎn)化為一個有向的匿名用戶異構會話圖,如圖2所示。
表示異構會話圖中節(jié)點和邊的信息。本文將所有的用戶和音樂項目構建一個用戶-音樂項目會話圖,并將其作為本文會話圖的初始節(jié)點特征。用戶-音樂項目會話圖如圖3所示,其中, u1 、u2、 u3 分別表示用戶1、用戶2、用戶3,A表示匿名用戶。
1.2 異構GNN
為了能夠?qū)Ξ悩嫊拡D中的節(jié)點關系與語義信息進行有效建模,需將其中各節(jié)點及其關聯(lián)關系轉(zhuǎn)化為統(tǒng)一的向量表示,以提取不同類型節(jié)點間的潛在依賴,從而支持后續(xù)的用戶偏好建構與推薦。
異構GNN可有效傳遞不同類型節(jié)點之間的信息。由于用戶節(jié)點和音樂節(jié)點對推薦任務的影響不同,因此異構GNN先分別聚合異構鄰居和同種類型鄰居的節(jié)點信息,再將所有類型的鄰居節(jié)點信息聚合成一個向量,即節(jié)點的向量表示,具體計算過程如下:
1.1.2用戶-音樂項目會話圖構建
異構GNN通過異構圖注意力機制,有效學習和
式中: f1(ν) 為異構鄰居的節(jié)點信息; f2(ν) 為同種類型鄰居的節(jié)點信息; f2(t) 為匯聚了所有節(jié)點的節(jié)點信息集; aνi,t 為每種類型的節(jié)點對節(jié)點 ui 的注意力權重; hi 為節(jié)點 i 的向量表示;arr為異構會話圖中的節(jié)點, Arr 為異構會話圖中節(jié)點的屬性集; ′ 為向量,包含用戶和音樂兩種類型; fj 為 f2(t) 集合與和 f1(ν) 集合的并集; FC 為向量轉(zhuǎn)換層,可將節(jié)點的屬性轉(zhuǎn)換為向量,如文字屬性采用one-hot編碼,圖像屬性采用CNN模型等;LSTM為LSTM架構獲取特征的相關性;LeakyReLU為激活函數(shù); U 為注意力參數(shù)。
1.3 會話表示
將當前會話中最后一首音樂 un 的向量表示 hn 作為局部會話表示 sι :
sl=hn
全局會話表示 sg 需了解當前會話中的所有音樂之間的相關性信息,計算公式為
ai=WTσ(W1νi+W2νn+c)
式中: ai 為音樂 i 的節(jié)點表示權重系數(shù); WT 為注意力權重的投影矩陣,用于計算節(jié)點間的相似度;W1 、 W2 為權重矩陣; c 為偏置向量; σ 為激活函數(shù),用于引入非線性變換,以增強模型對復雜關系的建模能力。
會話表示計算公式為
s=W3[sl;sg]
式中: W3 為調(diào)節(jié)局部會話表示和全局會話表示的權重。
在最終會話表示 s200×10 中,200 為異構GNN 的節(jié)點數(shù)量,10為每個會話序列的最大長度上限。
1.4音樂情感提取
音樂是一種充滿情感的藝術形式。情感不僅包含在音樂的旋律中,還隱藏在歌詞里。為了更準確地對
音樂進行情感分類,需同時提取音樂的音頻特征和歌詞特征。
1.4.1 音頻特征提取
為了提升音頻數(shù)據(jù)的質(zhì)量和可用性,進一步提高音頻特征的提取效果,先對音樂進行降噪、均衡化等預處理,再采用開源多媒體特征提取器openSMILE提取音頻特征,主要包括音量、頻譜、梅爾頻率倒譜系數(shù)等。
1.4.2 歌詞特征提取
歌詞特征提取是捕捉歌詞文本中的情感詞匯、情感強度、情感表達方式等方面的特征,主要步驟如下:
1)對歌詞文本進行預處理,包括去除標點符號、停用詞和特殊字符等,以減少噪聲并規(guī)范化歌詞文本;
2)采用word2vec對預處理后的歌詞文本進行分詞處理,分割成單詞或詞組,以獲取歌詞文本中的詞向量表示;
3)結合情感詞典、情緒標簽詞表等外部資源,篩選具有情感傾向的核心單詞,并統(tǒng)計其出現(xiàn)頻率、分布位置和詞性組合等特征;使用池化(如平均池化或加權池化)操作將詞向量表示聚合為固定長度的歌詞向量表示,為后續(xù)的情感判別與融合建模提供輸入,
1.4.3 CNN中的情感特征提取
為了有效提取音樂的情感特征,本文采用CNN分別對音頻特征與歌詞特征進行處理。首先,CNN對音頻特征和歌詞特征進行卷積、歸一化等操作,提取局部模式并增強情感特征表達能力;然后,在Sigmoid激活函數(shù)中引入非線性變換,以增強CNN算法對復雜情感的表達能力;最后,利用最大池化操作對卷積輸出進行下采樣,壓縮特征維度、保留關鍵信息,同時減少冗余干擾。該過程為音樂情感向量提供了高質(zhì)量的深層語義特征表示。
1.4.4LSTM網(wǎng)絡中的情感時序建模
LSTM網(wǎng)絡能夠有效處理音頻數(shù)據(jù)中的時間依賴關系,捕捉時序特征;通過自適應學習單詞之間的依賴關系,捕捉歌詞文本中單詞之間的長距離依賴關系,從而更好地建模上下文信息。雙向長短時記憶(bi-directional long short-termmemory,BiLSTM) 網(wǎng)絡同時考慮過去和未來的信息,能夠更全面地理解歌詞特征與音頻特征的模式和結構。
在BiLSTM網(wǎng)絡中,通過注意力機制融合處理音頻特征和歌詞特征,并生成一個二維向量 e ,即效價和喚醒度。通過對效價和喚醒度的量化描述,可判別音樂的情感類別,如積極、消極、中性、快樂、憂傷、激昂、平靜等,作為音樂會話推薦算法的輔助語義信息輸入。
1.5 融合推薦
全連接層將最終會話表示( s200×10 )和音樂情感向量( e2×1 )拼接生成一個長向量( I1×2002 )。在融合推薦模型訓練過程中,通過反向傳播算法進行學習、自動調(diào)整權重,從而對最終會話表示與音樂情感向量輸入進行特征提取、非線性變換和映射。全連接層模型如圖4所示。
將全連接層拼接生成的長向量進行非線性轉(zhuǎn)換,可得到候選推薦音樂列表 y :
y=W4(s⊕e)
式中: 為一個 1×100 維的向量,代表100首候選推薦音樂; W4 為投影矩陣;
為全連接層。
為了得到候選推薦音樂列表中各音樂項目的預測得分,在預測層利用Softmax函數(shù)計算100首音樂的概率分布 p ,即每首音樂被用戶偏好的概率:
p=soffmax(y)
式中: pi 為候選推薦音樂列表中第 i 首音樂被推薦的概率, 為音樂 i,j 在特征空間 z 下的特征向量。
用戶下次最可能播放的音樂就是推薦概率最大的音樂,則目標函數(shù)可表示為對數(shù)似然:
式中: N 為訓練樣本總數(shù), pk 為融合推薦模型對第 k 個訓練樣本生成的音樂推薦概率。
2性能評估與結果分析
2.1 數(shù)據(jù)集
本文采用用戶音樂播放行為數(shù)據(jù)集Nowplaying[14]驗證本文提出的音樂會話推薦算法的有效性。該數(shù)據(jù)集由Last.fm平臺采集,記錄了大量用戶在真實環(huán)境中的音樂播放行為,包括會話ID、用戶ID、音樂項目ID及時間戳等信息。參照SR-GNN模型[15]的預處理方法,將該數(shù)據(jù)中會話長度為1首的數(shù)據(jù)和出現(xiàn)次數(shù)少于5次的音樂項目過濾掉。將最近一周的數(shù)據(jù)作為測試集,其余歷史數(shù)據(jù)作為訓練集。Nowplaying數(shù)據(jù)集預處理結果如表1所示。
2.2 對比算法
為驗證本文算法的有效性,將其與以下算法進行對比實驗:
1)基于熱度的推薦(popularity-based recommen-dation,POP)算法,通過統(tǒng)計訓練集中出現(xiàn)頻次最高的 N 個音樂項目進行推薦預測;2)基于項目的K近鄰(item-basedK-nearestneighbors,Item-KNN)算法[16],通過計算相鄰音樂項目的相似度,推薦與歷史興趣相似的音樂項目;3)因式分解個性化馬爾可夫鏈(factorizingpersonalizedMarkov chains,F(xiàn)PMC)算法[17],采用馬爾可夫鏈捕獲用戶偏好,推薦下一首可能播放的音樂;4)基于GRU的會話序列推薦(gated recurrentunits for recommendations,GRU4Rec)算法[5],基于GRU對用戶行為序列建模,挖掘用戶短期興趣,預測并推薦下一首用戶可能感興趣的音樂;5)基于神經(jīng)注意力機制的會話推薦(neuralattentivesession-based recommendation,NARM)算法[6],在GRU4Rec 算法中引入注意力機制;6)短時注意力記憶優(yōu)先(short-termattention/memory priority model,STAMP)算法[7],依賴當前會話的最后一個音樂項目進行推薦預測;7)協(xié)同會話推薦與并行記憶模塊(collabora-tive session-based recommendation with parallel mem-orymodules,CSRM)算法[14],利用記憶網(wǎng)絡將會話推薦轉(zhuǎn)化為圖分類問題,以更好地捕捉會話的復雜依賴關系;
8)SR-GNN算法[9],先通過GNN捕捉當前會話的信息,再進行下一音樂項目的推薦預測。
2.3 評估指標
本文采用會話推薦中常用的 和MRR
作為算法的性能評估指標。
P@k(precision)表示正確推薦音樂項目的比例,用于評估推薦準確性,計算公式為
式中: N 為推薦的音樂項目數(shù), nhit 為被正確推薦的音樂項目數(shù)。
MRR @k (meanreciprocal rank,MRR)表示被正
確推薦的音樂項目在候選推薦音樂列表中的排名,計算公式為
式中: sν 為前 N 個推薦音樂項目中包含正確音樂項目的樣本集,rank(i)為音樂項目 i 在候選推薦音樂列表中的排名。
2.4對比實驗結果
9 種算法在Nowplaying數(shù)據(jù)集上的評估指標如表2所示。其中,每列的最佳結果以粗體顯示,次優(yōu)結果以下劃線顯示。
由表2可以看出:由于Item-KNN算法引入了用戶相似度,在POP、Item-KNN、FPMC3種傳統(tǒng)推薦算法中取得最好效果;但考慮到時間順序?qū)ν扑]性能的影響,NARM、STAMP等算法將音樂序列的最后一個音樂項目作為用戶的主要偏好,導致基于RNN的推薦算法性能普遍優(yōu)于傳統(tǒng)推薦算法;CSRM、SR-GNN算法利用其他會話的有效信息,提升了推薦性能;本文算法與次優(yōu)算法SR-GNN相比, 提高了 2.1% , MRR(?20 提高了 6.8% ,驗證了本文算法在會話推薦任務中的有效性。
2.5 消融實驗
為驗證本文算法各模塊的有效性,進行消融實驗
1) model-1,僅使用全局會話表示;
2) model-2,僅使用局部會話表示;
3)model-3,使用全局會話表示與局部會話表示,但不加入音樂情感向量;
4)本文算法,使用全局會話表示與局部會話表示,并加入音樂情感向量。
4種算法的評估指標如表3所示。
由表3可知:基于短期偏好形成的局部會話表示在推薦過程中作用更明顯;全局會話表示在捕獲靜態(tài)、長期偏好方面具有一定效果,這兩種會話表示相互補充,可提高算法的推薦性能;引入音樂情感向量后,推算法薦性能有所提升,驗證了引入音樂情感向量的有效性。
3結論
為了應對匿名會話冷啟動和數(shù)據(jù)稀疏等挑戰(zhàn),本文提出一種融合情感的異構GNN音樂會話推薦算法。該算法通過構建異構會話圖,更有效地學習所有用戶與音樂之間的關系。為了進一步提升算法性能,引入了音樂情感向量。實驗結果表明,該算法提升了音樂推薦的效果。
然而,用戶播放音樂行為的影響因素眾多,如音樂流派、天氣、情景等。因此,下一步研究將綜合考慮上述因素,進一步提升算法的推薦性能,有助于更全面地理解和滿足用戶的多樣化需求,使音樂推薦算法更貼近實際應用場景。
參考文獻
[1]酷狗.2023年度音樂生活白皮書[R/OL].(2024-01-12)[2024- 01-19].htps://activity.kugou.com/whitebook/v-fd506630/index. html.
[2]GOLDBERGD,NICHOLSD,TERRYD, etal.Usingcollaborative filtering to weave an information tapestry[J]. Communications of the ACM,1992,35(12):61-70.
[3]毛騫,謝維成,喬逸天,等.推薦系統(tǒng)冷啟動問題解決方法研究 綜述[J].計算機科學與探索,2023,16(2):1-14.DOI:10.3778/j. issn.1673-9418.2308044.
[4] 馬福軍,胡力勤.密度峰值聚類算法在管廊大數(shù)據(jù)挖掘中應 用[J].機電工程技術,2022,51(2):94-97.
[5] HIDASI B, KARATZOGLOU A, BALTRUNAS L, et al. Session-based recommendations with recurrent neural networks [EB/OL]. arXiv:1511.06939, 2015[2024-06-13]. https://rxiv. org/abs/1511.06939.
[6] LI J, REN P, CHEN Z, et al. Neural attentive session-based recommendation[J].ACM,2017(CIKM'17):1419-1428. DOI: 10.1145/3132847.3132926.
[7] LIU Q, ZENG Y, MOKHOSI R, et al. STAMP: Short-term attention/memory priority model for session-based recommenddation[J]. SIGKDD Explorations,2018(Udisk): 1812-1820.
[8]TUAN TX,PHUONG T M. 3D convolutional networks for session-based recommendation with content features[J]. ACM, 2017, (RecSys'17):138-146.DOI:10.1145/3109859.3109900.
[9]WU S, TANG Y, ZHU Y, et al. Session-based recommendation with graph neural networks[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2019,33(1):346-353. DOI:10.1609/aai.v33i01.3301346.
[10] GUO J, YANG Y, SONG X, etal. Modeling multi-granularity user intent evolving via heterogeneous graph neural networks forsession-based recommendation[J]. Proceedings of the Fifteenth ACM Intemational Conference on Web Search and Data Mining,2021,(WSDM'22):343-352.DOI:10.48550/ arXiv.2112.13197.
[11] FAN W, MA Y,LI Q, et al. Graph neural networks for social recommendation[J]. CoRR,2019, (WWW'19):417-426.DOI: 10.1145/3308558.3313488.
[12] RUIHONG Q, JINGJING L, ZI H, et al. Rethinking the item order in session-based recommendation with graph neural networks[J].ACM,2019,(CIKM'19):579-588.DOI:10.1145/ 3357384.3358010.
[13] OUYANG W,ZHANG X, REN S, et al. Leaming graph meta embeddings for cold-start ads in click-through rate prediction [J]. ACM,2021,(SIGIR 21):1157-1166. DOI:10.1145/3404835. 3462879.
[14] WANGM,RENP,MEIL,et al.Acollaborative session-based recommendation approach with paralel memory modules [C]//International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2019.DOI:10. 1145/3331184.333121
[15]SONGJ,SHENH, OUZ, etal.ISLF:Interest shift and latent factorscombinationmodelforsession-basedrecommendation [C]//Twenty-Eighth International Joint Conference on ArtificialIntelligence{IJCAI-19.2019.DOI:10.24963/ijcai.2019/ 799.
[16]SARWAR,BADRUL,KARYPIS,etal. Item-basedcollaborativefilteringrecommendationalgorithmus[J].Proceedings ofthe Tenth ACMInternational Conference on Information
andKnowledgeManagement,2001,(CIKM01),285-286.DOI: 10.1145/502585.502607.
[17]RENDLE S,F(xiàn)REUDENTHALERC,SCHMIDT-THIEMEL. Factorizing personalized Markov chains for next-basket recommendation[C]//Proceedingsof the 19thInternational ConferenceonWorldWideWeb,WWW2010,Raleigh,North Carolina,USA,April26-30,2010.ACM,2010.DOI:10.1145/ 1772690.1772773.
作者簡介:
盧振業(yè),男,1998年生,碩士研究生,主要研究方向:信號處理。杜玉曉(通信作者),男,1973年生,博士研究生,副教授,主要研究方向:自動化裝備與集成、數(shù)字圖像處理、醫(yī)療器械設備及腦機接口(BCI)技術。E-mail:yuxiaodu@gdut.edu.cn