韓滕躍,牛少彰*,張文
基于對比學(xué)習(xí)的多模態(tài)序列推薦算法
韓滕躍1,牛少彰1*,張文2
(1.北京郵電大學(xué) 計算機學(xué)院,北京 100876; 2.東南數(shù)字經(jīng)濟發(fā)展研究院,浙江 衢州 324000)(*通信作者電子郵箱szniu@bupt.edu.cn)
針對如何利用商品的多模態(tài)信息提高序列推薦算法準(zhǔn)確性的問題,提出一種基于對比學(xué)習(xí)技術(shù)的多模態(tài)序列推薦算法。該算法首先通過改變商品顏色和截取商品圖片中心區(qū)域等手段進(jìn)行數(shù)據(jù)增強,并把增強后的數(shù)據(jù)與原數(shù)據(jù)進(jìn)行對比學(xué)習(xí),以提取到商品的顏色和形狀等視覺模態(tài)信息;其次對商品的文本模態(tài)信息進(jìn)行低維空間嵌入,從而得到商品多模態(tài)信息的完整表達(dá);最后根據(jù)商品的時序性,采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)建模多模態(tài)信息的序列交互特征,得到用戶的偏好表達(dá),從而進(jìn)行商品推薦。在兩個公開的數(shù)據(jù)集上進(jìn)行實驗測試的結(jié)果表明,與現(xiàn)有的序列推薦算法LESSR相比,所提算法排序性能有所提升,且該算法在特征維度值到達(dá)50后,推薦性能基本保持不變。
對比學(xué)習(xí);多模態(tài);神經(jīng)網(wǎng)絡(luò);序列推薦;特征交互
近年來,電子商業(yè)發(fā)展迅猛并取得了巨大的成功。在線上購物平臺中,用戶可以自由選擇自己需要的商品。但線上購物平臺中包含數(shù)以百萬計的商品,用戶需要從海量的商品中挑選出滿足自己喜好的商品,這無疑會增加人們尋求目標(biāo)商品的難度。應(yīng)運而生的推薦算法[1-2]主要根據(jù)用戶的歷史購買記錄推測用戶的偏好,為每個用戶進(jìn)行商品推薦,從而提供更加智能化的服務(wù)。在推薦算法中融合社交信息[3]、序列信息[4]、多模態(tài)信息[5]等都有助于提升推薦性能。序列推薦是一類考慮用戶購買行為時序性特征的推薦算法[6]。序列推薦中建模商品的序列交互特征對提高推薦結(jié)果準(zhǔn)確性具有非常重要的意義[7-8]。
在序列推薦中,引入商品的多模態(tài)信息可以豐富商品的表達(dá),提高深度神經(jīng)網(wǎng)絡(luò)算法建模能力,提升推薦性能。目前,國內(nèi)外眾多學(xué)者將商品的視覺模態(tài)信息或文本模態(tài)信息引入到推薦算法中,其工作主要可以分為三個大類:基于視覺模態(tài)的推薦算法、基于文本模態(tài)的推薦算法和基于多模態(tài)的推薦算法。
文獻(xiàn)[9-12]將商品的圖片信息整合到推薦算法中,提高了深度神經(jīng)網(wǎng)絡(luò)的建模能力。文獻(xiàn)[9]中建模用戶對商品視覺關(guān)系的概念,并根據(jù)商品的視覺關(guān)系(匹配或者不匹配)進(jìn)行商品的組合推薦;文獻(xiàn)[10]在傳統(tǒng)的基于矩陣分解的推薦算法基礎(chǔ)上,引入視覺偏好的矩陣分解,利用用戶視覺偏好表達(dá)與商品圖片特征表達(dá)的內(nèi)積即可建模視覺模態(tài),反映用戶對商品的喜愛程度,擴展了傳統(tǒng)的基于矩陣分解的推薦算法;文獻(xiàn)[11]中采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)學(xué)習(xí)商品間的視覺語義嵌入以及適配性關(guān)系,該算法采用端到端的訓(xùn)練方式訓(xùn)練一個雙向的RNN,預(yù)測下一個商品是否能與已有商品組成套裝,從而進(jìn)行套裝推薦;文獻(xiàn)[12]將注意力機制引入到傳統(tǒng)的協(xié)同過濾算法中,建模用戶對商品圖片不同區(qū)域的不同注意力分?jǐn)?shù),以便捕捉到用戶最感興趣的商品圖片區(qū)域,更加細(xì)粒度地捕捉用戶的視覺偏好。
文獻(xiàn)[13-16]將文本模態(tài)的信息融入到推薦算法中,旨在挖掘文本中對推薦算法有幫助的信息。文獻(xiàn)[13]從文本評論中提取商品的特定屬性,將用戶與商品二元關(guān)系豐富為用戶與商品與屬性的三元關(guān)系,并將三元關(guān)系建模為異構(gòu)三方圖,將推薦任務(wù)作為頂點排序任務(wù);文獻(xiàn)[14]中建模用戶對商品的評分,同時將預(yù)測用戶對商品的評論作為輔助任務(wù)訓(xùn)練算法,以豐富用戶和商品的表達(dá);文獻(xiàn)[15]中通過有效地結(jié)合評論和評分,提出了一種用于評分預(yù)測的方面感知算法;文獻(xiàn)[16]中提出了一種以商品評論信息作為商品表達(dá)的神經(jīng)網(wǎng)絡(luò)算法,用豐富的語義信息增強商品的表達(dá)而進(jìn)行序列推薦。
文獻(xiàn)[17-19]將多模態(tài)的信息引入到推薦算法中,旨在利用多種模態(tài)信息的豐富性和互補性提升推薦算法的準(zhǔn)確度。文獻(xiàn)[17]中利用注意力機制建模用戶視覺模態(tài)的偏好,同時將文本模態(tài)的評論預(yù)測作為輔助任務(wù)聯(lián)合訓(xùn)練算法,以提升算法預(yù)測的準(zhǔn)確度;文獻(xiàn)[18]中提出了一個多模態(tài)圖卷積神經(jīng)網(wǎng)絡(luò),該算法學(xué)習(xí)用戶與商品在視覺、文本和聽覺三個模態(tài)下的表達(dá),最終利用這些表達(dá)進(jìn)行推薦;文獻(xiàn)[19]中用商品多模態(tài)的表達(dá)增強商品的表達(dá),利用RNN做下一次行為推薦,采用多任務(wù)訓(xùn)練的方式提升算法的泛化能力。
上述研究在利用商品單模態(tài)或多模態(tài)的信息提升推薦算法的準(zhǔn)確性方面做了大量的工作,但存在兩點不足:1)現(xiàn)有工作在提取視覺模態(tài)信息時,都采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN),如Visual Geometry Group (VGG)等,但是這些預(yù)訓(xùn)練算法是針對圖片分類任務(wù)而設(shè)計的,并不完全適用于提取推薦系統(tǒng)中的視覺模態(tài)特征,例如商品視覺模態(tài)的細(xì)粒度特征、形狀和顏色等;2)現(xiàn)有工作大多著重研究單個商品的多模態(tài)特征交互,忽略了時序上多模態(tài)特征的交互,建模序列數(shù)據(jù)上的多模態(tài)特征交互對提升推薦性能亦有助益。本文主要考慮如何利用多模態(tài)的細(xì)粒度信息提升推薦性能,例如在視覺模態(tài)中,如何提取商品的顏色和形狀的特征表達(dá),在文本模態(tài)如何利用品牌和類別等特征表達(dá),以及如何建模序列上這些多模態(tài)特征之間的交互。故面臨的挑戰(zhàn)主要分為兩部分:1)如何從商品的多種模態(tài)中準(zhǔn)確提取出商品的細(xì)粒度特征,如商品的顏色、形狀等;2)如何在序列數(shù)據(jù)上建模多模態(tài)特征之間的交互,形成用戶偏好的表達(dá)。
為了解決以上問題,本文提出了一種基于對比學(xué)習(xí)技術(shù)的多模態(tài)序列推薦算法。該算法采用對比學(xué)習(xí)的框架處理視覺模態(tài)特征,通過改變商品顏色和裁剪圖片中心區(qū)域等方式做數(shù)據(jù)增強,增強后的數(shù)據(jù)與原數(shù)據(jù)進(jìn)行對比學(xué)習(xí),提取商品中顏色和形狀的特征表達(dá);采用低維向量嵌入的方式處理文本模態(tài)的信息,用低維向量表示商品類別和品牌信息,最后將商品的多模態(tài)特征輸入到RNN中,建模多種模態(tài)間的序列交互,生成用戶偏好的表達(dá),從而進(jìn)行下一次購買行為預(yù)測。該算法的創(chuàng)新之處在于對任何無標(biāo)簽的商品圖片數(shù)據(jù),都可以提取出圖片數(shù)據(jù)中的多模態(tài)信息,包括形狀和顏色特征,并且能夠建模序列數(shù)據(jù)上的多模態(tài)特征之間的交互,提升推薦系統(tǒng)的準(zhǔn)確性。實驗結(jié)果表明,本文算法可以有效提升推薦結(jié)果的準(zhǔn)確性。
本文提出的基于對比學(xué)習(xí)的多模態(tài)序列推薦算法主要由視覺模態(tài)處理、文本模態(tài)處理、序列交互和算法訓(xùn)練及預(yù)測四個模塊組成,如圖1所示。
圖1 本文算法的整體框架
針對視覺模態(tài),本文算法需要從每個商品圖片中提取出形狀和顏色的特征表達(dá),主要通過對比學(xué)習(xí)的方式學(xué)習(xí)這兩種特征。首先,對圖片做一些預(yù)處理工作,從而達(dá)到豐富圖片數(shù)據(jù)集的目的,即數(shù)據(jù)增強。第一種圖片增強方式是采用預(yù)訓(xùn)練的Mask-RCNN對每張圖片商品區(qū)域用不同顏色的掩模覆蓋,這樣就實現(xiàn)了在保持圖片背景不變的前提下,改變商品的顏色,每個商品的形狀信息并沒有更改,每個商品圖片與其改變顏色的商品圖片的形狀特征表達(dá)是一致的,利用對比學(xué)習(xí)的技術(shù),縮小這兩張圖片形狀表達(dá)的差異,訓(xùn)練網(wǎng)絡(luò),從而達(dá)到提取商品形狀特征表達(dá)的目的。第二種圖片增強的方式是截取每張圖片的中心區(qū)域,中心區(qū)域的顏色基本可以代表該商品所屬的色系,故每張圖片與其截取后的圖片顏色特征的表達(dá)是一致的,利用對比學(xué)習(xí)的技術(shù),縮小這兩張圖片顏色表達(dá)的差異,從而達(dá)到提取出商品顏色特征表達(dá)的目的。視覺模態(tài)處理流程如圖2所示。
圖2 視覺模態(tài)處理流程
圖3 文本模態(tài)處理流程
序列交互模塊即建模序列數(shù)據(jù)上這些特征間的交互作用。該模塊采用RNN[21-22]建模多模態(tài)特征間的序列交互。RNN是為建模序列數(shù)據(jù)的交互而設(shè)計的,長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)是RNN中經(jīng)典的一種,主要分為遺忘門、輸入門和輸出門三個部分:遺忘門控制傳遞到下一時刻的信息;輸入門控制每個時刻的輸入信息;輸出門控制每個時刻輸出的信息。具體操作過程如下:
本文實驗使用公開的亞馬遜數(shù)據(jù)集[23],選用其中兩個廣泛被使用的領(lǐng)域:手機和衣物。每個商品都有圖片、類別以及品牌信息。每個用戶購買商品都含有時間戳信息,本文按照時間戳將每個用戶購買過的商品做成序列,作為一條訓(xùn)練數(shù)據(jù)。需要注意的是,本文將每個用戶購買的倒數(shù)第二個商品作為驗證集,倒數(shù)第一個商品作為測試集。實驗中,刪除了圖片缺失或者沒有類別品牌信息的商品,并且刪除購買次數(shù)小于5的用戶。兩個數(shù)據(jù)集的統(tǒng)計情況如表1所示。
表1 實驗數(shù)據(jù)集的統(tǒng)計情況
文本實驗環(huán)境采用Windows 10系統(tǒng)(64位),CPU配置為Intel Core i7-9700K CPU @3.60 GHz,GPU配置為GTX 2080Ti,內(nèi)存容量為11 GB。本文中所有涉及到的實驗代碼采用Python編寫,所用版本為3.6.9,實驗框架采用Pytorch,所用版本為1.4.0。
本文采用ResNet18作為視覺模態(tài)處理模塊基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用到的其他參數(shù)配置如表2所示。
采用推薦算法中最常用的兩個評價指標(biāo)來衡量本文算法的性能,即召回率(Hit-Ratio)和歸一化累積折扣信息增益(Normalized Discounted Cumulative Gain, NDCG)[23-24]。在測試時,考慮到算法時間復(fù)雜度等問題,算法隨機負(fù)采樣100個商品,對推薦的商品進(jìn)行排序,選取排名前十(Top-10)的商品進(jìn)行推薦。
1)Hit-Ratio是常用的衡量召回率的指標(biāo),計算方式如下:
表2 實驗參數(shù)設(shè)置
2)NDCG是一種衡量推薦商品順序的指標(biāo),折損累計增益(Discounted Cumulative Gain, DCG)以及NDCG計算方式如下:
3.5.1 主實驗結(jié)果
本文在兩個數(shù)據(jù)集上進(jìn)行實驗,并將實驗結(jié)果與經(jīng)典的序列推薦算法進(jìn)行比較。進(jìn)行對比的經(jīng)典序列推薦算法包括VBPR[10]、MV-RNN[19]、GRU4Rec[6]、Caser[25]、SASRec[26]、BERT4Rec[27]和LESSR[28]。其中:VBPR采用預(yù)訓(xùn)練的視覺特征提取器提取視覺模態(tài)信息;MV-RNN采用預(yù)訓(xùn)練的視覺和文本特征提取器提取多模態(tài)特征。選取這兩個算法作為對比算法主要是為了驗證本文提出的視覺特征模塊的有效性。GRU4Rec、Caser、SASRec、BERT4Rec和LESSR屬于序列推薦算法,選取它們做對比實驗主要是為了驗證多模態(tài)特征序列交互的有效性。實驗結(jié)果如表3所示。
從表3可以看出,本文算法的性能優(yōu)于對比的經(jīng)典算法。算法VBPR只采用了視覺模態(tài)的信息,而MV-RNN采用了視覺模態(tài)和文本模態(tài)的信息,MV-RNN優(yōu)于VBPR,這說明多模態(tài)的推薦算法優(yōu)于單一模態(tài)的推薦算法。MV-RNN將視覺模態(tài)和文本模態(tài)的信息作為直接輸入,而本文算法將視覺模態(tài)和文本模態(tài)的信息分別進(jìn)行細(xì)粒度的提取和處理,因此性能更優(yōu),由此可見,本文算法能夠更好地建模多模態(tài)的序列交互特征。GRU4Rec用RNN建模商品標(biāo)號之間的序列交互,Caser用卷積神經(jīng)網(wǎng)絡(luò)建模商品標(biāo)號之間的序列特征,SASRec用自注意力機制建模商品標(biāo)號之間的序列交互,BERT4Rec在自注意力機制的基礎(chǔ)上改變了算法的訓(xùn)練方式,LESSR用圖神經(jīng)網(wǎng)絡(luò)建模序列商品標(biāo)號之間的交互特征,而本文算法則是將多模態(tài)的特征融入到序列數(shù)據(jù)中,建模多模態(tài)數(shù)據(jù)的特征交互。從實驗結(jié)果可以看出,本文算法優(yōu)于經(jīng)典的序列推薦算法GRU4Rec、Caser、SASRec、BERT4Rec和LESSR,這說明在序列推薦場景中,融合商品的多模態(tài)特征對于提高推薦性能很有幫助。
從表3可以看出,本文算法的性能在衣物類數(shù)據(jù)集上提升較為明顯,這更加符合實際購物場景,因為人們在購物時,衣物類的商品多模態(tài)信息所占比重比手機等電子產(chǎn)品類更高。
表3 與經(jīng)典序列推薦算法的對比
3.5.2 特征維度實驗分析
在神經(jīng)網(wǎng)絡(luò)算法中,特征的維度會影響算法的表達(dá)能力,因此本節(jié)研究了不同的特征維度對本文算法推薦性能的影響。在實驗中,保持其他參數(shù)不變,分別將特征維度設(shè)置為10、20、30、40、50、60,與BERT4Rec算法進(jìn)行比較,結(jié)果如圖4所示。
圖4 特征維度大小對推薦性能的影響
從圖4可以看出,隨著特征維度的增加,算法的推薦性能也越來越好,但是特征維度值到達(dá)50之后,推薦性能基本保持不變。當(dāng)推薦性能穩(wěn)定之后,如果再增加特征維度,會使得算法計算復(fù)雜度增加而性能提升很小,因此本文算法選取特征維度的值為50。
與BERT4Rec算法相比,在相同的特征維度下,本文算法性能優(yōu)于BERT4Rec,這是因為本文算法融合了商品多模態(tài)的信息,從而可以學(xué)習(xí)到更加豐富的多模態(tài)特征之間的交互,算法的表達(dá)能力得到了提升。
本文主要研究了多模態(tài)信息在序列推薦中的應(yīng)用,提出了一種基于對比學(xué)習(xí)技術(shù)的多模態(tài)序列推薦算法。本文算法分別對視覺模態(tài)信息、文本模態(tài)信息進(jìn)行細(xì)粒度的提取,利用對比學(xué)習(xí)從視覺模態(tài)中提取商品顏色和形狀特征,利用低維嵌入的方式從文本模態(tài)中提取類別和品牌信息,得到多模態(tài)的特征表達(dá)之后,用RNN建模多模態(tài)特征間的序列交互,生成用戶偏好的表達(dá),從而對該用戶下一次購買行為進(jìn)行預(yù)測。實驗結(jié)果表明,本文所提取的多模態(tài)細(xì)粒度特征有助于推薦性能的提升。本文主要建模了購物場景下,商品視覺和文本兩個模態(tài)的特征交互,但隨著移動互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,許多商品在購物平臺上都有短視頻的介紹和講解,即商品新添加了聽覺模態(tài)的信息,故融合商品三個模態(tài)信息的特征的推薦算法將會是本工作的延伸。
)
[1] 鄧凱,黃佳進(jìn),秦進(jìn). 基于物品的統(tǒng)一推薦模型[J]. 計算機應(yīng)用, 2020, 40(2):530-534.(DENG K, HUNAG J J, QIN J. Item-based unified recommendation model[J]. Journal of Computer Applications, 2020, 40(2): 530-534.)
[2] 張文龍,錢付蘭,陳潔,等. 基于雙重最相關(guān)注意力網(wǎng)絡(luò)的協(xié)同過濾推薦算法[J]. 計算機應(yīng)用, 2020, 40(12):3445-3450.(ZHANG W L, QIAN F L, CHEN J, et al. Collaborative filtering recommendation algorithm based on dual most relevant attention network[J]. Journal of Computer Applications, 2020, 40(12): 3445-3450.)
[3] 郭寧寧,王寶亮,侯永宏,等. 融合社交網(wǎng)絡(luò)特征的協(xié)同過濾推薦算法[J]. 計算機科學(xué)與探索, 2018, 12(2):208-217.(GUO N N, WANG B L, HOU Y H, et al. Collaborative filtering recommendation algorithm based on characteristics of social network[J]. Journal of Frontiers of Computer Science and Technology, 2018, 12(2): 208-217.)
[4] 孫金楊,劉柏嵩,任豪,等. NHRec:一種基于長短期興趣的神經(jīng)混合推薦模型[J]. 小型微型計算機系統(tǒng), 2020, 41(11): 2298-2302.(SUN J Y, LIU B S, REN H, et al. Neural hybrid recommendation model based on long-term and short-term interests[J]. Journal of Chinese Computer Systems, 2020, 41(11): 2298-2302.)
[5] 歐輝思,曹健. 面向跨領(lǐng)域的推薦系統(tǒng)研究現(xiàn)狀與趨勢[J]. 小型微型計算機系統(tǒng), 2016, 37(7):1411-1416.(OU H S, CAO J. Survey on research and progress of cross-domain recommendation[J]. Journal of Chinese Computer Systems, 2016, 37(7): 1411-1416.)
[6] HIDASI B, KARATZOGLOU A, BALTRUNAS L, et al. Session-based recommendations with recurrent neural networks[EB/OL]. (2016-03-29)[2021-06-30].https://arxiv.org/pdf/1511.06939.pdf.
[7] YU F, LIU Q, WU S, et al. A dynamic recurrent model for next basket recommendation[C]// Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2016: 729-732.
[8] 黃立威,江碧濤,呂守業(yè),等. 基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J]. 計算機學(xué)報, 2018, 41(7):1619-1647.(HUANG L W, JIANG B T, LYU S Y, et al. Survey on deep learning based recommender systems[J]. Chinese Journal of Computers, 2018, 41(7): 1619-1647.)
[9] McAULEY J, TARGETT C, SHI Q F, et al. Image-based recommendations on styles and substitutes[C]// Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2015: 43-52.
[10] HE R N, McAULEY J. VBPR: visual Bayesian personalized ranking from implicit feedback[C]// Proceedings of the 30th Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 144-150.
[11] HAN X T, WU Z X, JIANG Y G, et al. Learning fashion compatibility with bidirectional LSTMs[C]// Proceedings of the 25th ACM International Conference on Multimedia. New York: ACM, 2017: 1078-1086.
[12] CHEN J Y, ZHANG H W, HE X N, et al. Attentive collaborative filtering: multimedia recommendation with item- and component-level attention[C]// Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2017: 335-344.
[13] HE X N, CHEN T, KAN M Y, et al. TriRank:review-aware explainable recommendation by modeling aspects[C]// Proceedings of the 24th ACM International Conference on Information and Knowledge Management. New York: ACM, 2015: 1661-1670.
[14] ZHANG Y F, AI Q Y, CHEN X, et al. Joint representation learning for top-N recommendation with heterogeneous information sources[C]// Proceedings of the 2017 ACM Conference on Information and Knowledge Management. New York: ACM, 2017: 1449-1458.
[15] CHENG Z Y, DING Y, ZHU L, et al. Aspect-aware latent factor model: rating prediction with ratings and reviews[C]// Proceedings of the 2018 World Wide Web Conference. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2018: 639-648.
[16] LI C L, NIU X C, LUO X Y, et al. A review-driven neural model for sequential recommendation[C]// Proceedings of the 28th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2019: 2866-2872.
[17] CHEN X, CHEN H X, XU H T, et al. Personalized fashion recommendation with visual explanations based on multimodal attention network: towards visually explainable recommendation[C]// Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2019: 765-774.
[18] WEI Y W, WANG X, NIE L Q, et al. MMGCN: multi-modal graph convolution network for personalized recommendation of micro-video[C]// Proceedings of the 27th ACM International Conference on Multimedia. New York: ACM, 2019: 1437-1445.
[19] CUI Q, WU S, LIU Q, et al. MV-RNN: a multi-view recurrent neural network for sequential recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 32(2): 317-331.
[20] CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations[C]// Proceedings of the 37th International Conference on Machine Learning. New York: JMLR.org, 2020: 1597-1607.
[21] LIPTON Z C, BERKOWITZ J, ELKAN C. A critical review of recurrent neural networks for sequence learning[EB/OL]. (2015-10-17)[2021-06-30]. https://arxiv.org/pdf/1506.00019.pdf.
[22] GERS F A, SCHMIDHUBER J. Recurrent nets that time and count[C]// Proceedings of the 2000 IEEE-INNS-ENNS International Joint Conference on Neural Networks. Piscataway: IEEE, 2000: 189-194.
[23] HE R N, KANG W C, McAULEY J. Translation-based recommendation[C]// Proceedings of the 11th ACM Conference on Recommender Systems. New York: ACM, 2017: 161-169.
[24] HE X N, LIAO L Z, ZHANG H W, et al. Neural collaborative filtering[C]// Proceedings of the 26th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2017: 173-182.
[25] TANG J X, WANG K. Personalized top-sequential recommendation via convolutional sequence embedding[C]// Proceedings of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM, 2018: 565-573.
[26] KANG W C, McAULEY J J. Self-attentive sequential recommendation[C]// Proceedings of the 2018 IEEE International Conference on Data Mining. Piscataway: IEEE, 2018: 197-206.
[27] SUN F, LIU J, WU J, et al. BERT4Rec: sequential recommendation with bidirectional encoder representations from transformer[C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 1441-1450.
[28] CHEN T W, WONG R C W. Handling information loss of graph neural networks for session-based recommendation[C]// Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2020: 1172-1180.
Multimodal sequential recommendation algorithm based on contrastive learning
HAN Tengyue1, NIU Shaozhang1*, ZHANG Wen2
(1,,100876,;2,324000,)
A multimodal sequential recommendation algorithm based on contrastive learning technology was proposed to improve the accuracy of sequential recommendation algorithm by using multimodal information of commodities. Firstly, to obtain the visual representations such as the color and shape of the product, the visual modal information of the product was extracted by utilizing the contrastive learning framework, where the data enhancement was performed by changing the color and intercepting the center area of the product. Secondly, the textual information of each commodity was embedded into a low-dimensional space, so that the complete multimodal representation of each commodity could be obtained. Finally, a Recurrent Neural Network (RNN) was used for modeling the sequential interactions of multimodal information according to the time sequence of the product, then the preference representation of user was obtained and used for commodity recommendation. The proposed algorithm was tested on two public datasets and compared with the existing sequential recommendation algorithm LESSR. Experimental results prove that the ranking performance of the proposed algorithm is improved, and the recommendation performance remains basically unchanged after the feature dimension value reaches 50.
contrastive learning; multimodal; neural network; sequential recommendation; feature interaction
This work is partially supported by National Natural Science Foundation of China (U1536121, 61370195).
HAN Tengyue, born in 1990, Ph. D. candidate. Her research interests include recommendation algorithm, data mining.
NIU Shaozhang, born in 1963, Ph. D., professor. His research interests include intelligent big data analysis, network information security, digital image processing.
ZHANG Wen, born in 1981, Ph. D. His research interests include intelligent big data analysis, mobile Internet security.
TP181
A
1001-9081(2022)06-1683-06
10.11772/j.issn.1001-9081.2021081417
2021?08?06;
2021?10?15;錄用日期:2021?10?29。
國家自然科學(xué)基金資助項目(U1536121, 61370195)。
韓滕躍(1990—),女,河北衡水人,博士研究生,主要研究方向:推薦算法、數(shù)據(jù)挖掘;牛少彰(1963—),男,北京海淀人,教授,博士,主要研究方向:大數(shù)據(jù)智能分析、網(wǎng)絡(luò)信息安全、數(shù)字圖像處理;張文(1981—),四川內(nèi)江人,博士,主要研究方向:大數(shù)據(jù)智能分析、移動互聯(lián)網(wǎng)安全。