摘要:基于會(huì)話的推薦旨在從當(dāng)前會(huì)話和以往的匿名會(huì)話中預(yù)測用戶的下一個(gè)行為。在基于會(huì)話的推薦系統(tǒng)中,捕獲項(xiàng)目之間的長期依賴關(guān)系是一個(gè)至關(guān)重要的挑戰(zhàn)。本文提出了一種基于Transformer架構(gòu)的會(huì)話推薦方法。具體來說,通過Transformer的編碼器部分捕獲會(huì)話中所有項(xiàng)目之間的全局依賴關(guān)系,而不考慮它們之間的距離。本文的模型將嵌入層中得到的嵌入向量傳輸至注意力機(jī)制進(jìn)行聚合,最終通過預(yù)測頭預(yù)測當(dāng)前會(huì)話的下一推薦項(xiàng)目。筆者在開放的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的方法展現(xiàn)了良好的效果。
關(guān)鍵詞:會(huì)話推薦;注意力機(jī)制;推薦系統(tǒng)
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)23-0001-04
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)
0 引言
面對人們生活中的海量信息,如何從海量數(shù)據(jù)中獲取有效信息成為一個(gè)迫切需要解決的問題。推薦系統(tǒng)可以為不同的用戶提供個(gè)性化的推薦,使得每個(gè)用戶都可以從推薦系統(tǒng)篩選的有限的、多樣的信息中獲得他們想要的信息。
傳統(tǒng)的推薦系統(tǒng)通常利用豐富的用戶信息來模擬用戶偏好并推薦用戶可能感興趣的項(xiàng)目。換句話說,每個(gè)用戶必須有足夠的交互記錄,并且用戶身份必須在每個(gè)交互事件中可見。然而,在許多在線系統(tǒng)中,例如電子商務(wù)網(wǎng)站和大多數(shù)新聞媒體網(wǎng)站,推薦系統(tǒng)只能依靠當(dāng)前會(huì)話信息來提供準(zhǔn)確的推薦,因?yàn)樾掠脩舻纳矸菀约拔吹卿浀挠脩羰俏粗?,這使得歷史信息在這些場景中不可用。為此,基于會(huì)話的推薦系統(tǒng)對如何為新用戶提供準(zhǔn)確的推薦做了大量的研究。
早期基于會(huì)話的推薦工作主要集中在發(fā)現(xiàn)項(xiàng)目間的關(guān)系,如轉(zhuǎn)移關(guān)系和共現(xiàn)關(guān)系。典型方法如ItemKNN[1]和馬爾可夫鏈[2]依靠會(huì)話中的最后一個(gè)元素來產(chǎn)生建議。然而,僅僅依賴會(huì)話的最后一個(gè)元素并不能在整個(gè)會(huì)話中反映用戶的興趣。由于深度學(xué)習(xí)在各個(gè)研究領(lǐng)域取得巨大進(jìn)展,越來越多的深度學(xué)習(xí)模型用在了會(huì)話推薦中,它們習(xí)慣將會(huì)話中的一系列點(diǎn)擊建模為一個(gè)序列,并利用神經(jīng)網(wǎng)絡(luò)來建模整個(gè)動(dòng)作序列。例如,GRU4Rec[3]將遞歸神經(jīng)網(wǎng)絡(luò)應(yīng)用于基于會(huì)話的推薦,并將該問題視為時(shí)間序列預(yù)測。又如SR-GNN[4]將會(huì)話建模為圖形,以捕捉復(fù)雜的項(xiàng)目交互。然而,眾所周知,由于梯度消失和爆炸問題,RNN呈現(xiàn)出很難訓(xùn)練的缺點(diǎn)[5]。像LSTM和GRU這樣的各種變體緩解了上述問題,但仍然難以捕捉長期依賴性。
隨著Transformer[6]在近幾年的爆火,其在推薦任務(wù)中實(shí)現(xiàn)了較為可觀的性能和效率。與基于RNN的方法不同,Transformer允許模型訪問歷史的任何部分,而不管距離遠(yuǎn)近,這使得它可能更適合于捕捉具有長期依賴性的會(huì)話模式。本文選擇了Transformer模型的編碼器部分作為模型的框架,實(shí)現(xiàn)了一種較為高效的自注意力網(wǎng)絡(luò)會(huì)話推薦方式。本文的主要貢獻(xiàn)如下:
1) 實(shí)現(xiàn)了一種基于Transformer架構(gòu)的會(huì)話推薦方法,該模型能夠捕獲并保留所有項(xiàng)目之間的完全依賴關(guān)系,而不管它們的距離如何。
2) 在生成基于會(huì)話的推薦過程中,上述方法能夠較好地提取出項(xiàng)與項(xiàng)之間的共現(xiàn)關(guān)系,對后續(xù)研究有引導(dǎo)作用。
3) 本文這種相對簡單的方法在公開數(shù)據(jù)集上取得了不錯(cuò)的效果,具有一定的實(shí)際應(yīng)用意義。
1 相關(guān)研究
會(huì)話推薦作為一種重要的個(gè)性化推薦技術(shù),旨在根據(jù)用戶在會(huì)話中的隱式反饋為用戶進(jìn)行相應(yīng)的推薦預(yù)測,以增強(qiáng)用戶體驗(yàn)和滿足其個(gè)性化需求。以往的推薦系統(tǒng)主要關(guān)注單個(gè)項(xiàng)目或商品的推薦,而會(huì)話推薦則更關(guān)注推薦一系列相關(guān)項(xiàng)目或話題,從而可以更好地滿足用戶在會(huì)話過程中的連續(xù)性需求。
傳統(tǒng)的基于會(huì)話推薦方法,使用較為廣泛的有矩陣分解方法[7] (Matrix Factorization)和馬爾可夫鏈的方法[8] (Markov Chains)。這兩種方法的核心思想是利用用戶的歷史行為數(shù)據(jù)來預(yù)測可能引起其興趣的交互項(xiàng)目。因此,為了實(shí)現(xiàn)這一目標(biāo),首先需要獲取用戶的歷史行為數(shù)據(jù),并以此為基礎(chǔ)進(jìn)行分析和預(yù)測。這在一定程度上,使得預(yù)測較為依賴用戶-物品矩陣中的用戶評分,若缺失對應(yīng)評分或者無法有效建模序列中的上下文信息等問題,都將不能有效完成推薦任務(wù),因此在實(shí)際會(huì)話推薦中的效果欠佳。
最近,神經(jīng)網(wǎng)絡(luò)和基于注意力的模型在基于會(huì)話的推薦系統(tǒng)中很受歡迎。GRU4Rec[3]首創(chuàng)并利用了會(huì)話并行訓(xùn)練的小批量技術(shù),這是GRU首次被用于處理基于會(huì)話的推薦系統(tǒng)。此外,文獻(xiàn)[9]的研究通過融合帶注意力機(jī)制的編碼器來對用戶的歷史行為順序進(jìn)行分析,并抓住用戶在當(dāng)前會(huì)話中的關(guān)鍵意圖。STAMP[10]通過應(yīng)用網(wǎng)絡(luò)和關(guān)注網(wǎng)絡(luò)捕捉用戶的一般和當(dāng)前興趣。SR-GNN[4]將會(huì)話建模為圖形結(jié)構(gòu),以捕捉復(fù)雜的項(xiàng)目交互,同時(shí)通過注意力機(jī)制將用戶的全局偏好和當(dāng)前興趣結(jié)合起來,這些方法都為會(huì)話推薦帶來了新的啟示。自從Transformer[6]在自然語言處理領(lǐng)域表現(xiàn)出優(yōu)異的性能以來,自注意機(jī)制被廣泛用于對序列數(shù)據(jù)建模,并在推薦系統(tǒng)中取得了顯著的效果,文獻(xiàn)[11-13]等工作實(shí)現(xiàn)了基于Transformer架構(gòu)的會(huì)話推薦方法,但大多過于復(fù)雜,顯得較為臃腫。我們在參考上述結(jié)構(gòu)的基礎(chǔ)上,通過一種簡單的方式實(shí)現(xiàn)了會(huì)話推薦。
2 模型
2.1 問題描述
基于會(huì)話的推薦系統(tǒng)基于當(dāng)前用戶會(huì)話數(shù)據(jù)進(jìn)行預(yù)測,因此僅需考慮當(dāng)前會(huì)話中的項(xiàng)目。定義一個(gè)項(xiàng)目集合[V],其包含所有會(huì)話中出現(xiàn)的不同項(xiàng)目,記作[V={v1,v2,...,vv}]。匿名會(huì)話系列則可以表示為一個(gè)列表[S],記作[S=s1,s2,...,sn],這里的[si]屬于集合V,代表用戶在會(huì)話[S]中點(diǎn)擊的項(xiàng)目。針對基于會(huì)話的推薦系統(tǒng),其目標(biāo)是預(yù)測出序列S的下一點(diǎn)擊項(xiàng)[sn+1]。筆者設(shè)計(jì)并訓(xùn)練了一個(gè)模型,這個(gè)模型以分類器的形式出現(xiàn),它的任務(wù)是為集合[V]中的每個(gè)可能選項(xiàng)打分。輸出分?jǐn)?shù)向量用[Y]表示,記作[Y={y1,y2,...,yn}],這里的第[i]項(xiàng)即為與項(xiàng)目[vi]相對應(yīng)的得分。模型將會(huì)根據(jù)這些預(yù)測分?jǐn)?shù),挑選得分最高的k個(gè)項(xiàng)目作為推薦候選。
2.2 模型總覽
對于會(huì)話推薦任務(wù),充分挖掘項(xiàng)目之間的依賴關(guān)系是進(jìn)行推薦的關(guān)鍵所在。本文提出基于Transformer的會(huì)話推薦模型,該模型架構(gòu)分為三個(gè)部分:(1)數(shù)據(jù)輸入和嵌入層;(2)Transformer架構(gòu),包括注意力塊、多頭注意力、前饋網(wǎng)絡(luò)等部分;(3)偏好概率輸出。模型架構(gòu)如圖1所示。
模型流程可概述為:將交互集[S={v1,v2,…,vm}]映射到嵌入向量空間為[X={x1,x2,…,xm}],通過Transfomer層后輸出為當(dāng)前會(huì)話對于所有物品的偏好概率分布[Y={y1,y2,…,yv}],其中得分最高的Top-K個(gè)物品即被選擇為推薦項(xiàng)目。以下為各個(gè)部分的處理細(xì)節(jié)。
嵌入層:在數(shù)據(jù)處理過程中,通過對原始會(huì)話進(jìn)行拆分的方式,增加相似會(huì)話提升對共現(xiàn)特征的學(xué)習(xí)效率。在嵌入層的過程中,設(shè)置了一個(gè)項(xiàng)目矩陣[M∈RI×d],通過嵌入層將交互集中的交互項(xiàng)轉(zhuǎn)化為指定維度[d]的向量,即[vi∈Rd]。
[EmbS=MT×S] (1)
自注意力塊:模型通過自注意力塊來計(jì)算項(xiàng)目之間的關(guān)聯(lián)程度。注意力機(jī)制可以定義為一種映射方式,它將一個(gè)查詢向量與一系列鍵值對關(guān)聯(lián),產(chǎn)生一個(gè)輸出向量。該輸出是值向量的加權(quán)組合,權(quán)重則是根據(jù)查詢與各個(gè)鍵之間的兼容性函數(shù)計(jì)算得出的。在模型中,[X]為項(xiàng)目嵌入集,輸出的Attention可以反映出會(huì)話的共現(xiàn)依賴和意圖。
注意力計(jì)算如下:
[Attention=softmaxXWQXWKTdXWV] (2)
式中:投影矩陣[wQ,wK,wv∈Rd×d],[d]為潛在維度,[d]為比例因子,在潛在維度[d]過高情況下,可以避免內(nèi)積值過大。
多頭自注意力:此機(jī)制使模型能同時(shí)捕獲不同位置以及不同子空間表征的信息。這種方法的有效性已由先前研究所驗(yàn)證。在模型中,筆者并行使用了[h]個(gè)具有不同參數(shù)的獨(dú)立注意力模型,允許不同的注意力頭關(guān)注不同位置的信息,并將所有注意力模型的輸出連接起來以生成最終值,這有助于捕捉到不同層次的共現(xiàn)信息。
[O=Concathead1,head2,…,headh] (3)
[headi(Attention)=sofimaxXWQiXWKiTdXWVi] (4)
式中:投影矩陣[WQi,WKi,WVi∈Rd×d],[headi]為單次注意力機(jī)制的輸出結(jié)果。
前饋網(wǎng)絡(luò)和殘差連接:上述多頭注意力的實(shí)現(xiàn)主要基于不同空間的線性投影。為了在模型中引入非線性能力和維度相互作用,自注意力機(jī)制的輸出會(huì)被輸入到前饋網(wǎng)絡(luò)中。該網(wǎng)絡(luò)采用點(diǎn)狀前饋架構(gòu),并選擇ReLU作為激活函數(shù),進(jìn)而實(shí)現(xiàn)非線性并允許不同隱藏維度之間的交互。同時(shí),本文還使用了殘差連接來充分利用低層信息,這在以往的工作中被證實(shí)是有效的[14]。
[F=ReLUOW1+b1W2+b2+O] (5)
式中[:W1],[W2∈Rd×d]是參數(shù)矩陣,[b1],[b2∈Rd]是偏置向量。
預(yù)測頭(Prediction Head) :預(yù)測頭本質(zhì)是一個(gè)線性層,該映射操作由一個(gè)權(quán)重矩陣和一個(gè)可選的偏置項(xiàng)組成。在獲得會(huì)話[S]中交互項(xiàng)目經(jīng)過上述多頭自注意力機(jī)制的最終輸出[F]后,預(yù)測頭將該高維度的特征表示映射到與項(xiàng)目集[V]種類相同的維度,并最終經(jīng)過[softmax]函數(shù)輸出概率。預(yù)測頭用于生成每個(gè)項(xiàng)目的概率分布,將模型的表示與項(xiàng)目類別之間建立聯(lián)系,從而實(shí)現(xiàn)對輸出序列的建模和生成。
[Y=softmax(WpF+bp)] (6)
式中:[Wp,bp]為預(yù)測頭的參數(shù)矩陣和偏置向量。此外,筆者在嵌入層和預(yù)測頭共享權(quán)值來減輕過度擬合并減小模型大小。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集及基線
為了驗(yàn)證模型的有效性,本文在公開的數(shù)據(jù)集Yoochoose和Diginetica上進(jìn)行實(shí)驗(yàn)。Yoochoose數(shù)據(jù)集來自數(shù)據(jù)挖掘競賽RecSys2015,由電子商務(wù)用戶會(huì)話中的點(diǎn)擊和購買事件組成。由于Yoochoose數(shù)據(jù)集較為龐大,筆者使用了Yoochoose1/64作為訓(xùn)練序列。此外,筆者還使用了來自2016年CIKM杯競賽的Diginetica交易數(shù)據(jù)集。兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表1所示。
為了驗(yàn)證本文提出的基于Transformer的會(huì)話推薦模型的性能,在實(shí)驗(yàn)中使用以下基線模型進(jìn)行對比,并在上述兩個(gè)數(shù)據(jù)集上評估本文模型與基線模型的效果:
1) POP。最基本的會(huì)話推薦方法,依據(jù)訓(xùn)練數(shù)據(jù)集中出現(xiàn)頻率最高的條目來進(jìn)行推薦。
2) S-POP。該會(huì)話推薦算法會(huì)選出當(dāng)前會(huì)話中最頻繁出現(xiàn)的互動(dòng)項(xiàng)目作為推薦項(xiàng)。
3) Item-KNN?;谥皶?huì)話中用戶點(diǎn)擊的商品的相似度推薦產(chǎn)品,這里的相似度是通過計(jì)算商品間會(huì)話向量的余弦相似度得出的。
4) FPMC。這種方法采用序列預(yù)測技術(shù)基于馬爾可夫鏈原理,通過結(jié)合矩陣分解與馬爾可夫鏈理論,構(gòu)建一個(gè)推薦系統(tǒng)模型,專門推薦接下來可能感興趣的物品。
5) GRU4REC[3]。在會(huì)話推薦中采用RNN對用戶序列建模,利用并行小批處理訓(xùn)練過程將會(huì)話拼接,使用基于排序的損失函數(shù)學(xué)習(xí)模型。
6) STAMP[10]。該模型整合了用戶的長遠(yuǎn)興趣和即時(shí)興趣,形成了對會(huì)話的全面表征。
7) SR-GNN[4]。為了獲得會(huì)話的特征表征,該模型應(yīng)用圖神經(jīng)網(wǎng)絡(luò)(GNN) 對會(huì)話內(nèi)的項(xiàng)目序列構(gòu)建成會(huì)話圖結(jié)構(gòu),并利用注意力機(jī)制來提煉會(huì)話信息。
3.2 評價(jià)指標(biāo)和損失函數(shù)
筆者采用準(zhǔn)確率(Precision) 和平均倒置排名(Mean Reciprocal Rank, MRR) 作為評價(jià)指標(biāo),以便準(zhǔn)確地比較基準(zhǔn)模型的性能。
P@K:精準(zhǔn)度指標(biāo)在會(huì)話推薦系統(tǒng)中被廣泛采用,用于衡量系統(tǒng)的預(yù)測正確性。精準(zhǔn)度表示在排名前k的位置中有正確推薦項(xiàng)的測試案例所占的比例。在本文的實(shí)驗(yàn)中,筆者主要使用P@20的指標(biāo),具體定義如下:
[P@K=nhitN] (7)
式中:N為會(huì)話推薦任務(wù)中參與測試的項(xiàng)目總數(shù),[nhit]表示在推薦的前[k]個(gè)排名項(xiàng)目中有會(huì)話需要項(xiàng)目的數(shù)量。
MRR@K:平均倒置排名用于衡量推薦系統(tǒng)在預(yù)測中的整體性能,特別關(guān)注正確推薦項(xiàng)目在序列中的位置。MRR指的是所有測試會(huì)話中,第一個(gè)被正確推薦項(xiàng)的倒數(shù)排名的平均值。當(dāng)排名超過[k]時(shí),倒數(shù)排名會(huì)被設(shè)置為0。在本文的部分實(shí)驗(yàn)中,筆者采用了MRR@20,具體定義如下:
[MRR@K=1Nv∈V1Rankvtarget] (8)
式中:[Rankv]為交互項(xiàng)目[vtarget]在總項(xiàng)目集[V]中的排名。
在訓(xùn)練過程中,筆者使用的損失函數(shù)為Top1loss。該損失函數(shù)在預(yù)測結(jié)果中僅選擇置信度最高的檢測結(jié)果作為正樣本,而將其他檢測結(jié)果視為負(fù)樣本。已有的研究工作和筆者的實(shí)驗(yàn)均證明了這一損失函數(shù)的有效性。Top1loss定義如下:
[Ltop1=1Nsj=1Nsσrs,j-rs,i+σr2s,j] (9)
其中,[Ns]表示樣本集中的樣本數(shù)量,[rs,j-rs,i]表示預(yù)測得分之間的差值,[σ(·)]表示sigmoid函數(shù)。
3.3 實(shí)驗(yàn)結(jié)果
為進(jìn)一步展示本文所提出基于Transfomer的推薦算法的性能,筆者最終確定了以下超參數(shù):交互項(xiàng)目維度[d:256]、訓(xùn)練批處理大小[batchsize:64]、模型層數(shù)[n:2]、多頭注意力頭數(shù)[head:4]。在訓(xùn)練過程中,筆者使用小批量Adam優(yōu)化器對這些參數(shù)進(jìn)行優(yōu)化。此外,由于數(shù)據(jù)集較為龐大迭代次數(shù)較多,筆者將訓(xùn)練的初始學(xué)習(xí)率[lr]設(shè)置為[10-4],并在經(jīng)過若干輪迭代后,將學(xué)習(xí)率降至[5-4]和[10-5]。筆者對模型進(jìn)行了與其他推薦算法或模型的性能比較,如表2所示。
從表1可以看出,本文提出的基于Transformer的會(huì)話推薦模型TransREC除了P@20指標(biāo)外,其他指標(biāo)均處于領(lǐng)先地位。這為本文所提出的推薦算法的有效性提供了有力的驗(yàn)證,初步證明了基于Transformer架構(gòu)的推薦方法在會(huì)話推薦中的可行性。筆者進(jìn)一步分析了隨著輪次迭代,模型損失的變化情況,如圖2所示。
筆者使用了30輪的訓(xùn)練數(shù)據(jù)作為分析對象。從圖2中可以清晰地看出,隨著訓(xùn)練輪數(shù)的增加,損失逐漸減小,驗(yàn)證損失也呈現(xiàn)出相似的趨勢。在訓(xùn)練輪數(shù)達(dá)到15輪左右時(shí),損失的下降空間逐漸變小,達(dá)到了一個(gè)亞飽和狀態(tài)。筆者預(yù)計(jì),隨著后續(xù)訓(xùn)練輪數(shù)的逐步增加,損失的下降空間將進(jìn)一步減少,最終可能會(huì)呈現(xiàn)出訓(xùn)練損失不斷下降而驗(yàn)證損失逐漸上升的過擬合狀態(tài)。
同時(shí),筆者也分析了訓(xùn)練輪數(shù)對評價(jià)指標(biāo)P和MRR的影響。從圖3可以看出,對于兩個(gè)不同的數(shù)據(jù)集而言,P和MRR兩個(gè)指標(biāo)同樣在15輪左右達(dá)到最高值。對于Yoochoose64數(shù)據(jù)集而言,其指標(biāo)在15輪以后保持了一個(gè)相對穩(wěn)定的狀態(tài);而Diginetica數(shù)據(jù)集在達(dá)到最大值后,則呈現(xiàn)出性能逐步緩慢下降的情況。整體而言,筆者的模型在不同數(shù)據(jù)集上均取得了良好的訓(xùn)練效果且變化趨勢相近。
4 結(jié)論
在本文中,筆者提出了一種基于Transformer架構(gòu)的會(huì)話推薦方法。該模型通過注意力機(jī)制,在相對簡單的架構(gòu)下實(shí)現(xiàn)了項(xiàng)目與項(xiàng)目之間共現(xiàn)關(guān)系的捕獲,完成了對會(huì)話中項(xiàng)目特征的學(xué)習(xí)和聚合,從而實(shí)現(xiàn)會(huì)話的下一項(xiàng)推薦。
在實(shí)驗(yàn)過程中,筆者將上述架構(gòu)的模型與其他基線模型在Yoochoose64和Diginetica兩個(gè)數(shù)據(jù)集上進(jìn)行了性能對比,證明了其在會(huì)話推薦領(lǐng)域的可行性及性能的優(yōu)異性。此外,筆者還通過分析訓(xùn)練輪數(shù)對模型損失函數(shù)及評價(jià)指標(biāo)變化的影響,驗(yàn)證了本文方法的準(zhǔn)確性。后續(xù)的研究可以進(jìn)一步挖掘該方法在推薦任務(wù)上的潛力。
參考文獻(xiàn):
[1] LINDEN G,SMITH B,YORK J.Amazon.com recommendations:item-to-item collaborative filtering[J].IEEE Internet Computing,2003,7(1):76-80.
[2] GARCIN F,DIMITRAKAKIS C,F(xiàn)ALTINGS B.Personalized news recommendation with context trees[C]//Proceedings of the 7th ACM conference on Recommender systems.China.ACM,2013:105-112.
[3] HIDASI B,KARATZOGLOU A,BALTRUNAS L,et al.Session-based recommendations with recurrent neural networks[EB/OL].2015:1511.06939.https://arxiv.org/abs/1511.06939v4
[4] WU S,TANG Y Y,ZHU Y Q,et al.Session-based recommendation with graph neural networks[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33(1):346-353.
[5] PASCANU R, MIKOLOV T, BENGIO Y. On the difficulty of training recurrent neural networks[C]//International conference on machine learning.PMLR, 2013: 1310-1318..
[6]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017(30): 5998-6008.
[7] KOREN Y,BELL R,VOLINSKY C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.
[8] GU W R,DONG S B,ZENG Z Z.Increasing recommended effectiveness with Markov chains and purchase intervals[J].Neural Computing and Applications,2014,25(5):1153-1162.
(下轉(zhuǎn)第13頁)
(上接第4頁)
[9] LI J,REN P J,CHEN Z M,et al.Neural attentive session-based recommendation[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management.Singapore Singapore.ACM,2017:1419-1428.
[10] LIU Q,ZENG Y F,MOKHOSI R,et al.STAMP:short-term attention/memory priority model for session-based recommendation[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.London United Kingdom.ACM,2018:1831-1839.
[11] LUO A, ZHAO P, LIU Y, et al..Collaborative co-attention network for session-based recommendation[C].//Proceedings of the 29th International Joint Conference on Artificial Intelligence (IJCAI), 2020: 2591-2597.
[12] SUN S M,TANG Y H,DAI Z M,et al.Self-attention network for session-based recommendation with streaming data input[J].IEEE Access,2019,7:110499-110509.
[13] FANG J.Session-based recommendation with self-attention networks[EB/OL].2021:2102.01922.https://arxiv.org/abs/2102.01922v1
[14] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778.
【通聯(lián)編輯:唐一東】