劉國楨 戰(zhàn)庭軍 王廷勇 趙超
摘? 要:針對推薦系統(tǒng)中的數(shù)據(jù)稀疏問題,提出一種基于圖神經(jīng)網(wǎng)絡(luò)的注意力因子分解機(jī)模型,利用注意力因子分解機(jī)對用戶和項(xiàng)目中不同鄰域的特征信息進(jìn)行二階交互,注意力機(jī)制可以對二階交互進(jìn)行權(quán)重參數(shù)的重分配,一定程度上緩解了數(shù)據(jù)的稀疏性問題,提高了推薦系統(tǒng)的性能。在4個不同數(shù)據(jù)集上的評分預(yù)測實(shí)驗(yàn)表明,該文所提算法的均方根誤差(RMSE)相較于目前比較優(yōu)秀的算法分別提升了2.2%、4.3%、10.6%、2.6%。
關(guān)鍵詞:圖神經(jīng)網(wǎng)絡(luò);因子分解機(jī);評分預(yù)測;推薦系統(tǒng)
中圖分類號:TP391;TP183? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)15-0053-05
Attention Factor Decomposition Machine Recommendation System Based on Graph Neural Network
LIU Guozhen, ZHAN Tingjun, WANG Tingyong, ZHAO Chao
(R&D Center of SunRui Marine Environment Engineering Company Ltd., Qingdao? 266101, China)
Abstract: A graph neural network-based attention factor decomposition machine model is proposed to address the problem of data sparsity in recommendation systems. The attention factor decomposition machine is used to perform second-order interaction on feature information of different neighborhoods in users and projects. The attention mechanism can redistribute weight parameters for second-order interactions, alleviating the problem of data sparsity to a certain extent and improving the performance of recommendation systems. The scoring prediction experiments on four different datasets show that the Root-mean-square deviation (RMSE) of the proposed algorithm is 2.2%, 4.3%, 10.6% and 2.6% higher than the current excellent algorithm.
Keywords: graph neural network; factor decomposition machine; rating prediction; recommender system
0? 引? 言
在互聯(lián)網(wǎng)時代,推薦系統(tǒng)被廣泛應(yīng)用于網(wǎng)絡(luò)平臺和應(yīng)用軟件,其可以快速發(fā)現(xiàn)用戶的偏好規(guī)律并且主動向用戶推送個性化內(nèi)容,因此推薦系統(tǒng)在緩解信息過載問題中起著至關(guān)重要的作用。傳統(tǒng)矩陣分解無法從多個維度提取用戶的偏好,泛化能力較差,達(dá)不到個性化推薦的目的[1]。研究人員從基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的方法出發(fā),對傳統(tǒng)推薦模型進(jìn)行改進(jìn),模型的性能得到顯著的提升。
從用戶和項(xiàng)目的歷史數(shù)據(jù)中對其建模是個性化推薦中的重要一環(huán)。Okura等[2]利用門控循環(huán)單元(Gated Recurrent Unit, GRU)網(wǎng)絡(luò)從歷史序列數(shù)據(jù)中學(xué)習(xí)用戶和項(xiàng)目的表征。Chen等[3]利用注意力網(wǎng)絡(luò)從用戶的行為數(shù)據(jù)中學(xué)習(xí)重要特征。然而,上述方法不能有效地對用戶和項(xiàng)目間的關(guān)系信息進(jìn)行建模,這些關(guān)系信息在用戶興趣建模過程中發(fā)揮著至關(guān)重要的作用。Rendle[4]提出了因子分解機(jī)模型(Factorization Machines, FM),通過數(shù)據(jù)特征間的交互,一定程度上提高了模型的泛化能力,但卻無法挖掘用戶的深層特征。He[5]等人提出NFM模型,在FM中引入DNN,使得DNN可以更好地學(xué)習(xí)深層交互信息,降低了模型學(xué)習(xí)高階交互的難度,節(jié)省了計算資源,但傳統(tǒng)DNN只能學(xué)習(xí)特征的高階內(nèi)部關(guān)系,無法對用戶和項(xiàng)目的關(guān)系信息進(jìn)行建模。
針對以上問題,本文提出一種基于圖神經(jīng)網(wǎng)絡(luò)的注意力因子分解機(jī)推薦系統(tǒng),GNN所獲目標(biāo)節(jié)點(diǎn)的多個鄰域特征可以看作是該節(jié)點(diǎn)含有社交內(nèi)容的背景信息,利用注意力因子分解機(jī)對鄰域特征進(jìn)行二階交互可以增加特征信息的數(shù)量,從而有利于模型參數(shù)的優(yōu)化,提高評分預(yù)測的準(zhǔn)確度。在4個公開數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了GAFM推薦算法的準(zhǔn)確率優(yōu)于對比算法。
1? 相關(guān)工作
推薦系統(tǒng)集成了機(jī)器學(xué)習(xí)、信息檢索和用戶識別等技術(shù),旨在為用戶提供更加有效的搜索環(huán)境,幫助用戶在海量數(shù)據(jù)中獲得有用的信息,該系統(tǒng)目前被廣為研究。
針對推薦系統(tǒng)存在數(shù)據(jù)稀疏性問題,Juan等[6]提出FFM模型,在不同類別特征間的同階交互中加入特征隱藏因子并采用并行結(jié)構(gòu)。相較于傳統(tǒng)FM,該模型的預(yù)測準(zhǔn)確率顯著提高,被廣泛應(yīng)用于基于上下文的點(diǎn)擊率預(yù)測任務(wù)中。Lu等[7]提出一種可用于處理大規(guī)模問題的SFMs模型,該模型具有線性復(fù)雜度,專門用于學(xué)習(xí)公共潛在空間中的多視圖張量,而且可以自動調(diào)節(jié)每一個視圖的重要等級。Hong等[8]提出的IFM模型,首次將字段信息引入交互學(xué)習(xí)中,該模型在獲得特征交互的同時還能獲得特征字段的交互信息,進(jìn)一步豐富模型的輸入信息,同時加入特定的采樣方案以提高推薦性能。
針對推薦系統(tǒng)中繁雜的多源異構(gòu)數(shù)據(jù),傳統(tǒng)DNN不能有效解決這一問題,然而圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks, GNN)可以較為輕松地對此類數(shù)據(jù)進(jìn)行建模。Ma等[9]提出一種記憶增強(qiáng)的MA-GNN推薦算法,其利用記憶增強(qiáng)網(wǎng)絡(luò)去捕捉項(xiàng)目的短期上下文信息和長期依賴關(guān)系,然后利用門控機(jī)制將長短期記憶進(jìn)行融合,最終借助一個雙線性方程捕捉項(xiàng)目間的關(guān)聯(lián)性,該模型在序列推薦領(lǐng)域大放異彩。Mu等[10]提出的GAT-NSR社交推薦模型,采用注意力機(jī)制精確的學(xué)習(xí)用戶和項(xiàng)目的潛在因子向量,將用戶項(xiàng)目圖和社交圖進(jìn)行深度融合,最后采用神經(jīng)協(xié)同過濾模塊描述用戶和項(xiàng)目的固有復(fù)雜交互特征。
2? GNN信息聚合
依據(jù)歷史評分?jǐn)?shù)據(jù)可以將用戶和項(xiàng)目歸到異質(zhì)圖中,如圖1所示。與用戶有歷史交互的項(xiàng)目可以直接反映出用戶的偏好[11],同理,給項(xiàng)目評分的用戶也可以視為項(xiàng)目的特征。
2.1? 一階關(guān)系信息聚合
一對直接相連的用戶和項(xiàng)目稱為一階關(guān)系,并把從項(xiàng)目i流向用戶u的信息定義為:
如圖2所示,將用戶u2的所有一階鄰居節(jié)點(diǎn)信息進(jìn)行聚合,與自身信息綜合后共同更新用戶u2的表示向量:
2.2? 高階鄰居節(jié)點(diǎn)信息聚合
節(jié)點(diǎn)的一階關(guān)系聚合來源于該節(jié)點(diǎn)的歷史交互信息,通過對一階關(guān)系信息的聚合,用戶節(jié)點(diǎn)獲得了其一階鄰居的信息。通過對一階關(guān)系信息聚合框架進(jìn)行堆疊來實(shí)現(xiàn)對高階協(xié)同信號的建模。在用戶對項(xiàng)目的評分預(yù)測任務(wù)中,如果用戶與項(xiàng)目存在連通性,那么用戶項(xiàng)目之間一定存在二階以上的連通關(guān)系。因此,在評分預(yù)測任務(wù)中對高階協(xié)同信號的建模至關(guān)重要。
在圖1中,屬于用戶u1的一條高階連通路徑為i4—u2—i2—u1。通過對三層一階關(guān)系聚合框架進(jìn)行連接可以捕獲項(xiàng)目i與用戶u1之間的高階協(xié)同信息。
如圖3所示,對l層一階信息提取架構(gòu)進(jìn)行堆疊,用戶和項(xiàng)目節(jié)點(diǎn)就會獲得來自其l階鄰居節(jié)點(diǎn)的高階協(xié)同信息。因此,經(jīng)過l層信息傳播后用戶u的向量表達(dá)形式為:
為了提高計算效率,以及為全局的高階節(jié)點(diǎn)信息提取提供一個清晰的概念,本文將以矩陣的形式描述全局節(jié)點(diǎn)的表示向量更新規(guī)則:
其中,E (l )表示全局節(jié)點(diǎn)提取l階協(xié)同信息后的表示向量矩陣,E (0) = E作為信息提取的初始輸入。D表示度矩陣,A表示鄰接矩陣,R表示評分矩陣。通過以上矩陣形式的規(guī)則可以同時對全局用戶節(jié)點(diǎn)和項(xiàng)目節(jié)點(diǎn)向量進(jìn)行更新。
3? GAFM算法與實(shí)現(xiàn)
3.1? GNN獲取高階特征
2.2節(jié)中介紹了節(jié)點(diǎn)的高階信息聚合模塊,通過堆疊任意層數(shù)該模塊可以得到全局節(jié)點(diǎn)的任意階次表示向量矩陣E (l )。本節(jié)將討論如何利用各階次的用戶(項(xiàng)目)向量有效地進(jìn)行評分預(yù)測。
不同階層下的節(jié)點(diǎn)特征可以通過一系列節(jié)點(diǎn)傳遞到目標(biāo)節(jié)點(diǎn),它們包含了目標(biāo)節(jié)點(diǎn)不同的潛在偏好和特征信息??梢詫⑦@些不同階層下的節(jié)點(diǎn)看作目標(biāo)節(jié)點(diǎn)潛在的背景信息,如果只是簡單地用線性回歸模型來對這些隱式信息進(jìn)行建模,將會由于數(shù)據(jù)的稀疏性而導(dǎo)致泛化效果不佳,于是本文利用注意力因子分解機(jī)對特征進(jìn)行二階交互,其中的注意力機(jī)制可以使模型獲得不同階鄰居節(jié)點(diǎn)的重要性參數(shù),然后利用多層感知機(jī)(Multi-Layer Perception, MLP)對二階特征交互進(jìn)行特征壓縮,以取得更好的泛化能力。為此本文提出了GAFM推薦算法,并給出其整體結(jié)構(gòu)框架,如圖4所示。
通過L層GAFM模型可以得到用戶u和項(xiàng)目i的L階特征向量集合:
3.2? FM特征交互
階特征交互向量集合:
3.3? GAFM評分預(yù)測
最后,將所得到的用戶u和i項(xiàng)目的基于注意力因子分解機(jī)的二階交互輸入MLP,得到預(yù)測輸出:
其中,MLP(·)表示MLP網(wǎng)絡(luò),將式(13)與FM的一階回歸模型進(jìn)行綜合,得到用戶u對項(xiàng)目i的最終評分預(yù)測模型:
其中,β0和βj分別表示全局偏置參數(shù)和一階回歸模型參數(shù)。本文中研究的主要內(nèi)容為用戶和項(xiàng)目之間的交互預(yù)測模型。
評分預(yù)測作為線性回歸問題,采用平方誤差作為本模型的損失函數(shù),將GAFM的損失函數(shù)定義為:
4? 實(shí)驗(yàn)與結(jié)果
4.1? 數(shù)據(jù)集與參數(shù)設(shè)置
采用4個公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別是Personality、Yahoo Music、Movielens-100k(ML-100K)、ML-1M。
將表1中的數(shù)據(jù)集分組為80%的訓(xùn)練集、10%的驗(yàn)證集和10%的測試集。
4個數(shù)據(jù)集上GAFM采用的層數(shù)均為3,訓(xùn)練批尺寸均為2 048,學(xué)習(xí)率為0.01。不同數(shù)據(jù)集下的嵌入維度、迭代次數(shù)、MLP模塊層數(shù)及每層所采用的隱藏因子數(shù)目略有不同,詳細(xì)參數(shù)如表2所示。
4.2? 評估指標(biāo)
GAFM與3個推薦算法進(jìn)行對比:NCF算法、神經(jīng)矩陣分解(Neural Matrix Factorization, NeuMF)算法和NGCF算法[12,13]均采取RMSE作為預(yù)測值的評估指標(biāo),RMSE定義如下:
4.3? 實(shí)驗(yàn)結(jié)果
4個模型在4個公共數(shù)據(jù)集上的RMSE對比如表3所示。在4個數(shù)據(jù)集上,GAFM的性能相比于NCF、NeuMF、NGCF均有不同程度的提升。
在Yahoo Music數(shù)據(jù)集上,表3中4個算法的預(yù)測表現(xiàn)普遍較差。由于Yahoo Music數(shù)據(jù)集的數(shù)據(jù)密度遠(yuǎn)遠(yuǎn)低于其他數(shù)據(jù)集,在學(xué)習(xí)數(shù)據(jù)特征時模型參數(shù)得不到很好的泛化,導(dǎo)致預(yù)測性能欠佳。但是GAFM在Yahoo Music上有較明顯的性能提升,RMSE指數(shù)比NCF和NeuMF分別降低了0.125 5和0.115 7,這是因?yàn)镚AFM利用GNN挖掘出了用戶項(xiàng)目間的隱式協(xié)同關(guān)系,而傳統(tǒng)的NCF、NeuMF模型卻無法利用數(shù)據(jù)中的潛在信息。與此同時,GAFM利用注意力因子分解機(jī)模塊來構(gòu)建用戶和項(xiàng)目的交互方程,對二階特征交互進(jìn)行建模,豐富了特征數(shù)量,在很大程度上緩解了Yahoo Music數(shù)據(jù)集稀疏度高的問題,并且模型通過注意力模塊可以區(qū)分不同交互特征的權(quán)重分?jǐn)?shù),進(jìn)一步提高了模型的推薦性能。4個模型在Personality數(shù)據(jù)集上的預(yù)測準(zhǔn)確度普遍優(yōu)于在其他數(shù)據(jù)集上的預(yù)測準(zhǔn)確度,這是因?yàn)镻ersonality數(shù)據(jù)集規(guī)模較大,并且有著較高的數(shù)據(jù)密度,評分等級劃分更為細(xì)致,因此模型參數(shù)在訓(xùn)練過程中會很好地泛化用戶對項(xiàng)目的偏好行為,從而做出更為準(zhǔn)確的預(yù)測。
從4個模型在4個數(shù)據(jù)集上的整體表現(xiàn)來看,NCF和NeuMF的性能比較相似,二者在ML-100K、ML-1M和Personality上的預(yù)測精度幾乎一致,二者在Yahoo Music上的預(yù)測精度略有差異,這是因?yàn)檫@兩個模型的主要結(jié)構(gòu)都是MLP。GAFM和NGCF的性能明顯優(yōu)于NCF和NeuMF的性能,可以看出利用GNN來挖掘用戶和項(xiàng)目間的潛在關(guān)系對預(yù)測準(zhǔn)確度的提升有很大的幫助。GAFM的性能明顯優(yōu)于NGCF,這是因?yàn)镚AFM利用注意力因子分解機(jī)模型對用戶和項(xiàng)目不同階層的表示向量進(jìn)行交互,并預(yù)測評分結(jié)果,從而緩解了數(shù)據(jù)稀疏性問題;NGCF僅僅對各階次向量進(jìn)行簡單拼接,并采用內(nèi)積方進(jìn)行預(yù)測,由此可以看出,對用戶項(xiàng)目進(jìn)行交互建模有利于預(yù)測精度的提高。
5? 結(jié)? 論
GAFM旨在解決推薦系統(tǒng)的數(shù)據(jù)稀疏性問題。本文研究利用注意力因子分解機(jī)對用戶和項(xiàng)目的各階特征信息進(jìn)行評分預(yù)測的交互建模。首先將用戶和項(xiàng)目關(guān)系轉(zhuǎn)化為圖結(jié)構(gòu),利用FM對用戶和項(xiàng)目不同鄰域的特征信息進(jìn)行二階交互,利用注意力機(jī)制對二階交互進(jìn)行權(quán)重參數(shù)的重分配,緩解了數(shù)據(jù)的稀疏性問題,提高了推薦系統(tǒng)的性能。在未來的工作中,將通過引入視覺、文本等多元數(shù)據(jù)來提高推薦性能。
參考文獻(xiàn):
[1] 于蒙,何文濤,周緒川,等.推薦系統(tǒng)綜述 [J].計算機(jī)應(yīng)用,2022,42(6):1898-1913.
[2] OKURA S,TAGAMI Y,ONO S,et al. Embedding-based news recommendation for millions of users [C]//KDD '17: Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2017:1933-1942.
[3] CHEN J Y,ZHANG H W,HE X N,et al. Attentive Collaborative Filtering: Multimedia Recommendation with Item- and Component-Level Attention [C]//SIGIR '17: Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2017:335-344.
[4] RENDLE S. Factorization Machines [C]//2010 IEEE International Conference on Data Mining. Sydney:IEEE,2010:995-1000.
[5] HE X N,CHUA T S. Neural Factorization Machines for Sparse Predictive Analytics [C]//SIGIR '17: Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2017:355-364.
[6] JUAN Y C,ZHUANG Y,CHIN W S,et al. Field-aware Factorization Machines for CTR Prediction [C]//RecSys '16: Proceedings of the 10th ACM Conference on Recommender Systems.New York:ACM,2016:43-50.
[7] LU C T,HE L F,DING H,et al. Learning from Multi-View Multi-Way Data via Structural Factorization Machines [C]//WWW '18: Proceedings of the 2018 World Wide Web Conference.Geneva:International World Wide Web Conferences Steering Committee,2018:1593-1602.
[8] HONG F X,HUANG D B,CHEN G. Interaction-Aware Factorization Machines for Recommender Systems [J/OL].arXiv:1902.09757 [cs.LG].[2023-02-04].https://arxiv.org/abs/1902.09757.
[9] MA C,MA L,ZHANG Y X,et al. Memory Augmented Graph Neural Networks for Sequential Recommendation [C]//Proceedings of the AAAI Conference on Artificial Intelligence.New York:AAAI,2020:5045-5052.
[10] MU N,ZHA D,HE Y Y,et al. Graph Attention Networks for Neural Social Recommendation [C]//2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI). Portland:IEEE,2019:1320-1327.
[11] KABBUR S,NING X,KARYPIS G. FISM: Factored Item Similarity Models for Top-N Recommender Systems [C]//KDD '13: Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining.New York:ACM,2013:659-667.
[12] HE X N,LIAO L Z,ZHANG H W,et al. Neural Collaborative Filtering [C]//WWW '17: Proceedings of the 26th International Conference on World Wide Web.New York:ACM,2017:173-182.
[13]WANG X,HE X N,WANG M,et al. Neural Graph Collaborative Filtering [C]//SIGIR'19: Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2019:165-174.