摘 要:針對(duì)協(xié)同過(guò)濾推薦過(guò)度依賴(lài)共同評(píng)分項(xiàng)目導(dǎo)致交互數(shù)據(jù)不足,及不同時(shí)間段共享同一相似矩陣無(wú)法準(zhǔn)確度量用戶(hù)相似度等問(wèn)題,提出一種基于平滑插值和自適應(yīng)相似矩陣的推薦算法。首先,在線性插值技術(shù)基礎(chǔ)上,結(jié)合均值和標(biāo)準(zhǔn)差設(shè)定動(dòng)態(tài)區(qū)間,并通過(guò)sigmoid函數(shù)平滑調(diào)整原始評(píng)分,消除用戶(hù)評(píng)分習(xí)慣差異。其次,使用時(shí)序變換函數(shù)量化用戶(hù)偏好遵循的不同動(dòng)態(tài)模式和遺忘規(guī)律,增強(qiáng)用戶(hù)偏好表示。最后,利用標(biāo)簽語(yǔ)義、標(biāo)簽質(zhì)量、時(shí)序變換函數(shù)和相對(duì)評(píng)分差異信息熵,構(gòu)建標(biāo)簽感知機(jī)制和全局評(píng)分機(jī)制,并利用生成的相似矩陣重構(gòu)用戶(hù)自適應(yīng)相似矩陣。仿真實(shí)驗(yàn)結(jié)果表明,相較于其他基線算法,該算法推薦性能最優(yōu),召回率提升5.27和4.73百分點(diǎn),歸一化折損累計(jì)增益(NDCG)提升6.67和5.90百分點(diǎn),驗(yàn)證了算法的有效性。
關(guān)鍵詞:協(xié)同過(guò)濾;平滑插值;時(shí)序變換函數(shù);標(biāo)簽語(yǔ)義;相對(duì)評(píng)分差異信息熵;標(biāo)簽感知機(jī)制;全局評(píng)分機(jī)制;自適應(yīng)相似矩陣
中圖分類(lèi)號(hào):TP301.6"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2025)04-019-1108-07
doi: 10.19734/j.issn.1001-3695.2024.09.0335
Recommendation algorithm based on smooth interpolation and adaptive similarity matrix
Gao Meizhu, Yu Wanjun, Chen Ying
(School of Computer Science amp; Information Engineering, Shanghai Institute of Technology, Shanghai 201418, China)
Abstract:Aimed at the problems where the collaborative filtering recommendation overly relied on common item ratings and lacked dense interaction data, and where sharing the same similarity matrix across different time periods could not accurately measure user similarity, this paper proposed a recommendation algorithm based on smooth interpolation and adaptive similarity matrix. Firstly, based on linear interpolation technique, dynamic intervals set the mean and standard deviation, and the sigmoid function smoothly adjusted the original ratings to eliminate differences in user rating habits. Next, the temporal transformation function quantified the different dynamic patterns and forgetting behaviors that user preferences followed, enhancing the representation of user preferences. Finally, the label semantics, label quality, temporal transformation function, and relative rating diffe-rence entropy constructed the label perception mechanism and global rating mechanism, and the generated similarity matrix was used to reconstruct the user-adaptive similarity matrix. The simulation results show that, compared to other baseline algorithms, the proposed algorithm achieves the best recommendation performance. The recall rate improved by 5.27 and 4.73 percentage points, and the normalized discounted cumulative gain (NDCG) improved by 6.67 and 5.90 percentage points, which verifies the effectiveness of the algorithm.
Key words:collaborative filtering; smooth interpolation; temporal transformation functions; label semantics; relative scoring difference information entropy; label sensing mechanisms; global scoring mechanisms; adaptive similarity matrices
0 引言
推薦算法根據(jù)用戶(hù)歷史交互行為,為目標(biāo)用戶(hù)推薦可能感興趣的項(xiàng)目,主要包括基于內(nèi)容的推薦[1]、協(xié)同過(guò)濾推薦[2]和混合推薦[3]。其中,僅利用評(píng)分挖掘用戶(hù)偏好的協(xié)同過(guò)濾推薦居于主導(dǎo)地位,但存在兩個(gè)缺陷:a)無(wú)法為新注冊(cè)的用戶(hù)或新加入的項(xiàng)目進(jìn)行推薦,存在冷啟動(dòng)問(wèn)題[4];b)用戶(hù)僅對(duì)少數(shù)項(xiàng)目有交互行為,存在數(shù)據(jù)稀疏性問(wèn)題[5]。
基于用戶(hù)的協(xié)同過(guò)濾推薦核心思想是根據(jù)目標(biāo)用戶(hù)的歷史行為和偏好,尋找最相似的N個(gè)近鄰用戶(hù),為其預(yù)測(cè)未接觸項(xiàng)目的評(píng)分值[6]。其中,用戶(hù)間相似度的計(jì)算是核心步驟,早期常用的方法包括皮爾森相關(guān)系數(shù)(Pearson correlation coefficient, PCC)[7]、修正余弦相似度(adjusted cosine, Acos)[8]、余弦相似度(cosine, COS)[9]和杰卡德相似系數(shù)(Jaccard)[10]。但上述度量方法均聚焦于用戶(hù)間的共同項(xiàng)目評(píng)分,當(dāng)評(píng)分交互數(shù)據(jù)稀疏時(shí),計(jì)算得到的相似度不能準(zhǔn)確表示用戶(hù)間的相似程度。
近年來(lái),國(guó)內(nèi)外學(xué)者利用評(píng)論[11]、標(biāo)簽[12]和時(shí)間[13]等輔助信息,深入挖掘用戶(hù)歷史交互數(shù)據(jù)[14],極大促進(jìn)推薦算法的研究。Zong等人[15]通過(guò)挖掘標(biāo)簽相關(guān)性的共現(xiàn)模式來(lái)利用標(biāo)簽相關(guān)性,基于相關(guān)性矩陣構(gòu)建標(biāo)簽圖,對(duì)標(biāo)簽依賴(lài)關(guān)系和標(biāo)簽特征聯(lián)合建模,形成語(yǔ)義標(biāo)簽聚類(lèi)。Zhu等人[16]為精確提取用戶(hù)對(duì)項(xiàng)目中標(biāo)簽的偏好,提出了新穎的模型CTMVM,有助于在更細(xì)粒度的級(jí)別上預(yù)測(cè)用戶(hù)標(biāo)簽偏好。杜曉宇等人[17]通過(guò)解耦用戶(hù)、項(xiàng)目和標(biāo)簽的特征,實(shí)現(xiàn)精細(xì)化的標(biāo)簽感知推薦,并利用標(biāo)簽語(yǔ)義信息,解釋推薦結(jié)果。標(biāo)簽通常為詞語(yǔ)或短語(yǔ),是對(duì)項(xiàng)目語(yǔ)義的凝練,也是用戶(hù)對(duì)項(xiàng)目的關(guān)注點(diǎn)表示。因此,本文算法引入標(biāo)簽特征,深入挖掘用戶(hù)偏好,增加用戶(hù)間交互數(shù)據(jù)的稠密度。
用戶(hù)偏好在一天中遵循動(dòng)態(tài)模式,提取用戶(hù)產(chǎn)生交互行為的時(shí)間特征,更能區(qū)分不同用戶(hù)的偏好。傳統(tǒng)協(xié)同過(guò)濾給用戶(hù)產(chǎn)生交互行為的時(shí)間設(shè)定同等權(quán)重,但用戶(hù)近期交互行為更能反映用戶(hù)當(dāng)前偏好。張岐山等人[18]通過(guò)擬合時(shí)間遺忘函數(shù),分析用戶(hù)近期行為對(duì)用戶(hù)興趣的影響。Wu等人[19]提出了一種用于項(xiàng)目分?jǐn)?shù)預(yù)測(cè)的時(shí)間衰減自適應(yīng)潛在因子模型(TDADLFM),利用兩個(gè)時(shí)間衰減函數(shù)來(lái)強(qiáng)調(diào)用戶(hù)最近的偏好。上述算法利用時(shí)間特征,捕獲用戶(hù)動(dòng)態(tài)偏好,推薦質(zhì)量顯著提升。因此,本文算法融合時(shí)間特征,增強(qiáng)用戶(hù)偏好表示,并重構(gòu)用戶(hù)間自適應(yīng)相似矩陣,實(shí)現(xiàn)高質(zhì)量的推薦。
評(píng)論中含有豐富語(yǔ)義,利用特征提取技術(shù)可獲取用戶(hù)偏好和項(xiàng)目特征。Xi等人[20]將評(píng)論與評(píng)分?jǐn)?shù)據(jù)結(jié)合,在進(jìn)行評(píng)分預(yù)測(cè)的同時(shí)保留評(píng)論的更多語(yǔ)義信息。Dolog等人[21]提出一種將聚類(lèi)、評(píng)論和推薦嵌入相結(jié)合的方法,提高推薦性能。評(píng)分預(yù)測(cè)是推薦系統(tǒng)的一個(gè)核心問(wèn)題,旨在量化用戶(hù)對(duì)項(xiàng)目的偏好[22]。田歡歡等人[23]利用Vague集的KL散度衡量相似度,定義權(quán)重因子,強(qiáng)調(diào)評(píng)分?jǐn)?shù)量信息的重要性,通過(guò)整合多種評(píng)分信息調(diào)整和優(yōu)化預(yù)測(cè)結(jié)果。陳壯等人[24]利用用戶(hù)向量和項(xiàng)目集向量間的關(guān)聯(lián)關(guān)系生成推薦列表,考慮用戶(hù)評(píng)分交互數(shù)據(jù)的差異,同時(shí)兼顧推薦質(zhì)量和推薦結(jié)果的多樣性。分析上述算法可知:a)僅利用評(píng)分交互行為,無(wú)法深入挖掘用戶(hù)偏好,難以緩解數(shù)據(jù)稀疏問(wèn)題;b)評(píng)分由用戶(hù)主觀意志支配,用戶(hù)評(píng)分習(xí)慣存在差異,直接利用原始評(píng)分無(wú)法準(zhǔn)確度量用戶(hù)間相似性。因此,本文算法重構(gòu)用戶(hù)-項(xiàng)目評(píng)分矩陣,在線性插值技術(shù)的基礎(chǔ)上,設(shè)定動(dòng)態(tài)區(qū)間,消除用戶(hù)評(píng)分習(xí)慣差異。同時(shí),將評(píng)分交互行為擴(kuò)大至全局范圍,并定義相對(duì)評(píng)分差異細(xì)劃評(píng)分區(qū)間,以修正評(píng)分差值信息熵。
針對(duì)上述問(wèn)題,本文提出基于平滑插值和自適應(yīng)相似矩陣的推薦算法(SIASM),進(jìn)一步優(yōu)化相似度計(jì)算方法,提高協(xié)同過(guò)濾算法推薦性能。主要工作如下:a)利用平滑插值技術(shù),校訂用戶(hù)原始評(píng)分,減少評(píng)分習(xí)慣差異對(duì)相似性和推薦性能的影響;b)利用時(shí)序變換函數(shù):標(biāo)簽偏好持久度和時(shí)序衰減因子,量化用戶(hù)偏好遵循的動(dòng)態(tài)模式和遺忘規(guī)律,增強(qiáng)用戶(hù)偏好表示;借助時(shí)序變換函數(shù)、標(biāo)簽及全局項(xiàng)目構(gòu)建標(biāo)簽感知機(jī)制和全局評(píng)分機(jī)制,獲取自適應(yīng)相似矩陣,優(yōu)化相似度;c)利用自適應(yīng)相似矩陣和近鄰評(píng)分,預(yù)測(cè)目標(biāo)用戶(hù)對(duì)未接觸項(xiàng)目的評(píng)分,并給出項(xiàng)目長(zhǎng)度為K的推薦列表;d)在稀疏度不同的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),其結(jié)果表明,優(yōu)化后的相似度更準(zhǔn)確,推薦性能均優(yōu)于基線算法。
1 基于平滑插值和自適應(yīng)相似矩陣的推薦算法
1.1 問(wèn)題定義
在推薦算法中,設(shè)用戶(hù)Su={u1,u2,…,um}、項(xiàng)目Si={i1,i2,…,in},標(biāo)簽St={t1,t2,…,ts},Su=m,Si=n,St=s。由用戶(hù)ui對(duì)交互項(xiàng)目的評(píng)分Rui={ri1,ri2,…,rin},可得用戶(hù)-項(xiàng)目評(píng)分矩陣R(m×n)。評(píng)分值設(shè)定為0~5,值越大,用戶(hù)偏愛(ài)程度越高。特別地,構(gòu)建用戶(hù)-項(xiàng)目交互矩陣A(m×n),當(dāng)用戶(hù)ui未與項(xiàng)目in產(chǎn)生交互行為時(shí),ain=0,否則為1。同理亦可得,用戶(hù)-標(biāo)簽交互矩陣T(m×s)、項(xiàng)目-標(biāo)簽交互矩陣E(n×s)。標(biāo)簽感知機(jī)制和全局評(píng)分機(jī)制引入時(shí)序變換函數(shù),深入挖掘用戶(hù)動(dòng)態(tài)偏好,增強(qiáng)用戶(hù)偏好表示。給定目標(biāo)用戶(hù)ui前N個(gè)近鄰用戶(hù)的相似度和評(píng)分列表,SIASM算法依次為用戶(hù)ui預(yù)測(cè)未接觸項(xiàng)目的評(píng)分,并返回長(zhǎng)度為K的推薦列表。
1.2 平滑插值技術(shù)
不同用戶(hù)對(duì)于所偏好的項(xiàng)目評(píng)分不同,即有喜歡評(píng)高分、評(píng)低分的,也有喜歡評(píng)同一分?jǐn)?shù)的。用戶(hù)評(píng)分習(xí)慣差異,不僅影響用戶(hù)間相似性的度量,也影響推薦性能。因此,重構(gòu)用戶(hù)-項(xiàng)目評(píng)分矩陣,計(jì)算用戶(hù)評(píng)分均值,采用線性插值技術(shù)將高于均值的評(píng)分放大至4~5,低于均值的評(píng)分縮小至1~2,與均值相同的評(píng)分統(tǒng)一設(shè)定為3分。
采用線性插值技術(shù)映射用戶(hù)評(píng)分列表{1,2,1,1.2,1.5},其結(jié)果為{1,5,1,1.59,4.24}。觀察可得:a)映射后的評(píng)分列表分布不均衡;b)原始評(píng)分1.2與1.5映射后的結(jié)果差異大,出現(xiàn)評(píng)分跳躍現(xiàn)象。因此,本文算法在線性插值技術(shù)基礎(chǔ)上,利用動(dòng)態(tài)區(qū)間和sigmoid函數(shù)平滑調(diào)整用戶(hù)原始評(píng)分,減少評(píng)分極端造成的異?,F(xiàn)象,定義評(píng)分校訂值rjk,計(jì)算公式如式(1)所示。
4 實(shí)驗(yàn)與結(jié)果分析
4.1 數(shù)據(jù)集
為驗(yàn)證基于平滑插值和自適應(yīng)相似矩陣的推薦算法的有效性,本文選取稀疏度不同的MovieLens 10M、MovieLens 25M和Last-FM數(shù)據(jù)集,進(jìn)行仿真實(shí)驗(yàn)。數(shù)據(jù)精準(zhǔn)與否直接影響推薦性能,在實(shí)驗(yàn)開(kāi)始前,清洗數(shù)據(jù)集中的異常值,刪除數(shù)據(jù)集中使用頻率少于5次的標(biāo)簽及所在行全部數(shù)據(jù),即將評(píng)分?jǐn)?shù)據(jù)和標(biāo)簽數(shù)據(jù)通過(guò)userId和itemId連接,重新編號(hào)構(gòu)建聯(lián)合數(shù)據(jù)集。特別地,將數(shù)據(jù)集Last-FM用戶(hù)對(duì)藝術(shù)家的權(quán)重映射為1~5,預(yù)處理后數(shù)據(jù)集及稀疏度如表3所示。
實(shí)驗(yàn)采用五折交叉驗(yàn)證的方法訓(xùn)練和測(cè)試算法,測(cè)試性能取平均值作為最終結(jié)果。
4.2 評(píng)價(jià)指標(biāo)
為全面評(píng)估算法的推薦性能,本文在top-K推薦和評(píng)分預(yù)測(cè)兩個(gè)實(shí)驗(yàn)場(chǎng)景下進(jìn)行,分別采用NDCG@K、Recall@K及MAE作為評(píng)價(jià)指標(biāo),計(jì)算公式如式(15)~(17)所示。
(17)
其中:Test是測(cè)試集;MAE與推薦性能呈負(fù)相關(guān),即MAE值越小,預(yù)測(cè)評(píng)分越接近真實(shí)評(píng)分,推薦性能越高;reli是處于位置i的項(xiàng)目的相關(guān)性分?jǐn)?shù),其值是用戶(hù)對(duì)項(xiàng)目的真實(shí)評(píng)分,若ri=0,表示用戶(hù)未對(duì)推薦列表中第i個(gè)項(xiàng)目評(píng)分;K是推薦列表長(zhǎng)度;IDCG是理想狀態(tài)下的折損累計(jì)增益NDCG@K、Recall@K值越大,推薦算法的性能越優(yōu)。
4.3 基線算法
為驗(yàn)證本文算法SIASM的有效性,選取以下基線算法:
a)C2TRE[21]:聚合用戶(hù)評(píng)分項(xiàng)目的評(píng)論嵌入與用戶(hù)嵌入,將用戶(hù)和項(xiàng)目嵌入分別與用戶(hù)和項(xiàng)目所屬的聚類(lèi)簇連接。
b)RGA[24]:利用用戶(hù)向量和項(xiàng)目集向量之間的關(guān)聯(lián)關(guān)系緩解用戶(hù)評(píng)分偏好的差異,同時(shí)兼顧推薦質(zhì)量和推薦結(jié)果的多樣性。
c)CTMVM[16]:一種新穎的模型,在更細(xì)粒度的級(jí)別上預(yù)測(cè)用戶(hù)對(duì)項(xiàng)目中標(biāo)簽的精確偏好。
d)BGNN[15]:挖掘標(biāo)簽相關(guān)性的共現(xiàn)模式,基于相關(guān)性矩陣構(gòu)建標(biāo)簽圖,誘導(dǎo)語(yǔ)義標(biāo)簽聚類(lèi),以緩解數(shù)據(jù)稀疏性。
e)DETR[17]:解耦用戶(hù)、項(xiàng)目和標(biāo)簽的特征,實(shí)現(xiàn)精細(xì)化的標(biāo)簽感知推薦,利用標(biāo)簽語(yǔ)義信息解釋推薦結(jié)果。
f)DRTID[19]:利用兩個(gè)時(shí)間衰減函數(shù),分析用戶(hù)近期行為對(duì)用戶(hù)偏好的影響。
4.4 算法性能及復(fù)雜度分析
在top-K推薦場(chǎng)景下,選取MovieLens 10M和MovieLens 25M兩個(gè)稀疏度不同的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。本文算法SIASM將與六個(gè)基線算法進(jìn)行比較,評(píng)估其在NDCG@50和Recall@50兩個(gè)指標(biāo)上的表現(xiàn),并通過(guò)運(yùn)行時(shí)間評(píng)估算法時(shí)間復(fù)雜度。其中,最優(yōu)以加粗字體標(biāo)識(shí),次優(yōu)以下畫(huà)畫(huà)標(biāo)識(shí),詳見(jiàn)表4。
根據(jù)表4可知,C2TRE推薦性能最差,運(yùn)行時(shí)間最慢。這是因?yàn)槔锰卣魈崛脑u(píng)論文本中提取的關(guān)鍵詞語(yǔ)義模糊,無(wú)法準(zhǔn)確挖掘用戶(hù)興趣,預(yù)處理消耗大量時(shí)間。RGA主要依賴(lài)于用戶(hù)間評(píng)分交互行為,不進(jìn)行特征提取與處理,運(yùn)行時(shí)間最快,但數(shù)據(jù)集最稀疏,推薦性能并不理想。DETR、CTMVM和BGNN算法推薦性能顯著提升,但運(yùn)行時(shí)長(zhǎng)明顯增加,主要原因是借助標(biāo)簽深入挖掘用戶(hù)偏好,所需時(shí)間較長(zhǎng)。DRTID通過(guò)產(chǎn)生交互行為的時(shí)間特征,挖掘用戶(hù)動(dòng)態(tài)偏好,推薦性能優(yōu)于CTMVM和BGNN。相比所選的基線算法,本文算法運(yùn)行所需時(shí)間第三長(zhǎng),這是因?yàn)镾IASM算法將評(píng)估的項(xiàng)目擴(kuò)大至全局范圍。數(shù)據(jù)集規(guī)模和稀疏度的增加,對(duì)本文算法和基線算法的運(yùn)行時(shí)間無(wú)明顯影響。特別地,本文算法SIASM在兩個(gè)稀疏度不同的數(shù)據(jù)集MovieLens 10M和MovieLens 25M上推薦性能最優(yōu)。相較于次優(yōu)算法DETR,SIASM算法在Recall@50分別提升5.27和4.73百分點(diǎn),NDCG@50上分別提升6.67和5.90百分點(diǎn),其推薦性能表現(xiàn)最優(yōu),故其時(shí)間成本是可接受的。
4.5 參數(shù)分析
為評(píng)估標(biāo)簽感知機(jī)制和全局評(píng)分機(jī)制占比對(duì)SIASM的性能影響。令調(diào)節(jié)因子α=0,0.1,0.2,…,1,近鄰N∈[10,90]。在評(píng)分預(yù)測(cè)場(chǎng)景下,選取MovieLens 25M數(shù)據(jù)集開(kāi)展實(shí)驗(yàn)。為便于觀察,僅給出參數(shù)α=0.2,0.4,0.6,0.8時(shí)的MAE結(jié)果,詳見(jiàn)圖2。
根據(jù)圖2可知,在α=0,0.2,…,1條件下,MAE值均隨近鄰N遞增而逐漸減小。特別地,當(dāng)近鄰N遞增至50后,MAE的減小速度逐漸緩慢,說(shuō)明算法的推薦性能已趨于穩(wěn)定,增加N值對(duì)推薦性能提升效果不顯著。由此,限定近鄰N取值區(qū)間在[50,60],進(jìn)一步觀察不同取值的調(diào)節(jié)因子α對(duì)推薦性能的作用程度。當(dāng)α=1時(shí),MAE最大,推薦性能最差,當(dāng)α=0時(shí),推薦性能有所提升,說(shuō)明標(biāo)簽感知機(jī)制相較于全局評(píng)分機(jī)制對(duì)算法性能影響更為顯著,其主要原因是標(biāo)簽更能深入挖掘用戶(hù)偏好,緩解數(shù)據(jù)稀疏性問(wèn)題。當(dāng)α=0.2,0.4,0.6,0.8時(shí),推薦性能顯著提升,這是因?yàn)樗惴ㄈ诤蠘?biāo)簽感知機(jī)制和全局評(píng)分機(jī)制,結(jié)合多特征增強(qiáng)用戶(hù)偏好表示,并通過(guò)重構(gòu)用戶(hù)自適應(yīng)相似矩陣優(yōu)化用戶(hù)相似度。特別地,當(dāng)α=0.4時(shí),MAE最小,推薦性能最優(yōu)。
4.6 算法性能影響因素
4.6.1 平滑插值技術(shù)有效性分析
為研究SIASM算法中平滑插值技術(shù)的有效性,在top-K推薦場(chǎng)景下,選取Last-FM和MovieLens 10M數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。設(shè)計(jì)對(duì)比實(shí)驗(yàn):第一組采用平滑插值法處理評(píng)分,第二組是未經(jīng)處理的原始評(píng)分。對(duì)比實(shí)驗(yàn)結(jié)果如表5所示。
根據(jù)表5可知,使用平滑插值技術(shù)校訂后的評(píng)分值,相較于用戶(hù)原始評(píng)分表現(xiàn)出更好的性能。尤其是在數(shù)據(jù)集Last-FM,這是因?yàn)長(zhǎng)ast-FM數(shù)據(jù)集中用戶(hù)對(duì)藝術(shù)家的評(píng)分與Movie-Lens 10M數(shù)據(jù)集相比,用戶(hù)評(píng)分習(xí)慣存在的不一致性更為顯著,其極大影響相似度計(jì)算和推薦性能。為提高推薦性能,SIASM算法對(duì)原始評(píng)分進(jìn)行平滑插值處理,獲取評(píng)分校訂值,緩解用戶(hù)評(píng)分不一致性。
4.6.2 時(shí)序變換函數(shù)有效性分析
為研究SIASM算法中時(shí)序變換函數(shù),即標(biāo)簽偏好持久度和時(shí)序衰減因子的有效性,在top-K推薦場(chǎng)景下,設(shè)計(jì)兩組對(duì)比實(shí)驗(yàn):第一組在MovieLens 10M數(shù)據(jù)集上開(kāi)展實(shí)驗(yàn),探究標(biāo)簽偏好持久度對(duì)標(biāo)簽感知機(jī)制的作用程度;第二組在Movie-Lens 25M數(shù)據(jù)集上開(kāi)展實(shí)驗(yàn),探究時(shí)序衰減因子對(duì)全局評(píng)分機(jī)制的作用程度,實(shí)驗(yàn)結(jié)果如表6所示。
由表6可知,使用時(shí)序變換函數(shù)的算法性能更佳,這是因?yàn)闃?biāo)簽感知機(jī)制中的標(biāo)簽偏好持久度引入自適應(yīng)因子,其能夠靈活適應(yīng)不同用戶(hù)偏好隨時(shí)間的演變過(guò)程。同時(shí),全局評(píng)分機(jī)制借鑒遺忘規(guī)律準(zhǔn)確捕獲不同用戶(hù)對(duì)相同項(xiàng)目的偏好衰減過(guò)程,更準(zhǔn)確地反映用戶(hù)間的相似性,相較于未考慮用戶(hù)偏好的動(dòng)態(tài)演變和衰減過(guò)程的算法表現(xiàn)出的性能更優(yōu)。
4.7 消融實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證基于平滑插值和自適應(yīng)相似矩陣的推薦算法在緩解數(shù)據(jù)稀疏性問(wèn)題及推薦性能的有效性。在評(píng)分預(yù)測(cè)場(chǎng)景下,選取稀疏度不同的MovieLens 10M和MovieLens 25M數(shù)據(jù)集開(kāi)展實(shí)驗(yàn)。設(shè)計(jì)消融算法w/o T、w/o R與SIASM進(jìn)行消融實(shí)驗(yàn)。其中,w/o T是去除標(biāo)簽感知機(jī)制,w/o R是去除全局評(píng)分機(jī)制。不同數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果,如圖3、4所示。
根據(jù)圖3和4可知,無(wú)論是去除標(biāo)簽感知機(jī)制的w/o T算法,還是去除全局評(píng)分機(jī)制的w/o R算法,其性能與本文算法SIASM相比顯著下降。特別地,在不同稀疏度數(shù)據(jù)集上展現(xiàn)的性能不同,w/o R算法在MovieLens 25M數(shù)據(jù)集上的性能優(yōu)于w/o T,這是因?yàn)樵诟叨认∈璧那闆r下,標(biāo)簽中含有的偏好信息價(jià)值高于全局項(xiàng)目隱含的信息,亦可說(shuō)明本文算法有效緩解了數(shù)據(jù)稀疏性問(wèn)題。
為進(jìn)一步評(píng)估標(biāo)簽感知機(jī)制和全局評(píng)分機(jī)制對(duì)所提算法SIASM時(shí)間復(fù)雜度的影響,在數(shù)據(jù)集MovieLens 10M和Movie-Lens 25M上開(kāi)展實(shí)驗(yàn)。不同算法運(yùn)行時(shí)間對(duì)比如表7所示。
根據(jù)表7可知,在兩個(gè)不同稀疏度的數(shù)據(jù)集上,標(biāo)簽感知機(jī)制運(yùn)行時(shí)間明顯低于全局評(píng)分機(jī)制,進(jìn)一步分析,全局評(píng)分機(jī)制的時(shí)間復(fù)雜度為O(m2n),標(biāo)簽感知機(jī)制為O(m2s)。全局評(píng)分機(jī)制運(yùn)行時(shí)間長(zhǎng)主要是因?yàn)槠淅萌猪?xiàng)目獲取用戶(hù)偏好,且在實(shí)際生活中,項(xiàng)目數(shù)量遠(yuǎn)大于用戶(hù)和標(biāo)簽數(shù)量。
4.8 實(shí)例分析
為直觀分析SIASM算法的有效性,在評(píng)分預(yù)測(cè)場(chǎng)景下,選取MovieLens 25M數(shù)據(jù)集進(jìn)行案例分析,預(yù)測(cè)目標(biāo)用戶(hù)對(duì)未接觸項(xiàng)目的評(píng)分。a)在測(cè)試集中隨機(jī)選取5名用戶(hù),獲取每名用戶(hù)任意3個(gè)項(xiàng)目的實(shí)際評(píng)分值;b)利用SIASM算法計(jì)算用戶(hù)對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分值;c)比較實(shí)際評(píng)分和預(yù)測(cè)評(píng)分的差值。為便于觀察,對(duì)差異較大的數(shù)據(jù)加粗處理。實(shí)例結(jié)果如表8所示。
根據(jù)表8可知,用戶(hù)78、249和71 534對(duì)所選項(xiàng)目的預(yù)測(cè)評(píng)分與實(shí)際評(píng)分接近,而用戶(hù)48和18 666個(gè)別項(xiàng)目的預(yù)測(cè)評(píng)分與實(shí)際評(píng)分存在差異較大,但仍在可控范圍內(nèi)。上述結(jié)果表明,本文算法SIASM能夠較為準(zhǔn)確地預(yù)測(cè)用戶(hù)對(duì)未接觸項(xiàng)目的評(píng)分,具有較好的應(yīng)用性。
5 結(jié)束語(yǔ)
為緩解數(shù)據(jù)稀疏性問(wèn)題及提升推薦性能,本文提出基于平滑插值和自適應(yīng)相似矩陣的推薦算法,利用平滑插值技術(shù)處理用戶(hù)原始評(píng)分,確保用戶(hù)評(píng)分一致性;借助時(shí)序變換函數(shù)量化用戶(hù)偏好遵循的動(dòng)態(tài)模式和遺忘規(guī)律,增強(qiáng)用戶(hù)偏好表示;融合標(biāo)簽、時(shí)間和評(píng)分特征,構(gòu)建標(biāo)簽感知機(jī)制和全局評(píng)分機(jī)制,生成自適應(yīng)相似矩陣,優(yōu)化相似度計(jì)算方法。其中,全局評(píng)分機(jī)制考慮非共同項(xiàng)目存在的潛在價(jià)值,將評(píng)估項(xiàng)目擴(kuò)大至全局范圍。標(biāo)簽感知機(jī)制為緩解數(shù)據(jù)稀疏性問(wèn)題,深入挖掘標(biāo)簽交互行為。為驗(yàn)證所提算法的有效性,在三個(gè)稀疏度不同的數(shù)據(jù)集上開(kāi)展實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該算法推薦性能均優(yōu)于其他基線算法。
在未來(lái)的工作中,進(jìn)一步嘗試將協(xié)同知識(shí)圖譜引入推薦算法中,并考慮利用注意力機(jī)制獲取長(zhǎng)短期動(dòng)態(tài)偏好模型。
參考文獻(xiàn):
[1]Oppermann M, Kincaid R, Munzner T. VizCommender: computing text-based similarity in visualization repositories for content-based recommendations [J]. IEEE Trans on Visualization and Computer Graphics, 2021, 27(2): 495-505.
[2]Martinez A, Tufis M, Boratto L. Unmasking privacy: a reproduction and evaluation study of obfuscation-based perturbation techniques for collaborative filtering[C]// Proc of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2024: 1753-1762.
[3]于旭, 何亞?wèn)|, 杜軍威, 等. 一種結(jié)合顯式特征和隱式特征的開(kāi)發(fā)者混合推薦算法 [J]. 軟件學(xué)報(bào), 2022, 33(5): 1635-1651. (Yu Xu, He Yadong, Du Junwei, et al. A hybrid recommendation algorithm for developers combining explicit and implicit features [J]. Journal of Software, 2022, 33(5): 1635-1651. )
[4]Tang Gu, Gan Xiaoying, Wang Jinghe,et al. EditKG: editing know-ledge graph for recommendation[C]// Proc of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2024: 112-122.
[5]Gupta M, Gupta P, Narwariya J,et al. SCM4SR: structural causal model-based data augmentation for robust session-based recommendation[C]// Proc of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2024: 2609-2613.
[6]Guo Jiayan, Du Lun, Chen Xu,et al. On manipulating signals of user-item graph: a Jacobi polynomial-based graph collaborative filtering[C]// Proc of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2023: 602-613.
[7]Hayashi K. Rethinking correlation-based item-item similarities for recommender systems[C]// Proc of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2022: 2287-2291.
[8]Jain G, Mahara T, Sharma S C,et al. A cognitive similarity-based measure to enhance the performance of collaborative filtering-based recommendation system [J]. IEEE Trans on Computational Social Systems, 2022, 9(6): 1785-1793.
[9]許馨, 郭家赫, 喬宇, 等. 一種基于遺忘機(jī)制與余弦相似度的智能推薦算法 [J]. 軟件工程, 2023, 26(10): 15-18. (Xu Xin, Guo Jiahe, Qiao Yu, et al. An intelligent recommendation algorithm based on forgetting mechanism and cosine similarity [J]. Journal of Software, 2023, 26(10): 15-18. )
[10]Nunes I, Heddes M, Vergés P,et al. DotHash: estimating set similarity metrics for link prediction and document deduplication[C]// Proc of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2023: 1758-1769.
[11]Qiao Pengpeng, Zhang Zhiwei, Li Zhetao,et al. TAG: joint triple-hierarchical attention and GCN for review-based social recommender system [J]. IEEE Trans on Knowledge and Data Engineering, 2022, 35(10): 9904-9919.
[12]Zhu Chenxu, Du Peng, Zhu Xianghui,et al. User-tag profile mode-ling in recommendation system via contrast weighted tag masking[C]// Proc of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2022: 4630-4638.
[13]Zhu Yongchun, Chen Jingwu, Chen Ling,et al. Interest clock: time perception in real-time streaming recommendation system[C]// Proc of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2024: 2915-2919.
[14]王慧, 梁興柱, 張緒, 等. 基于鄰接矩陣優(yōu)化和負(fù)采樣的圖卷積推薦 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(12):3628-3633. (Wang Hui, Liang Xingzhu, Zhang Xu, et al. Graph convolutional recommendation based on adjacency matrix optimization and negative sampling [J]. Application Research of Computers, 2024, 41(12): 3628-3633. )
[15]Zong Daoming, Sun Shiliang. BGNN-XML: bilateral graph neural networks for extreme multi-label text classification [J]. IEEE Trans on Knowledge and Data Engineering, 2023, 35(7): 6698-6709.
[16]Zhu Xianghui, Du Peng, Shao Shuo,et al. A feature-based coalition game framework with privileged knowledge transfer for user-tag profile modeling[C]// Proc of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2023: 5739-5749.
[17]杜曉宇, 陳正, 項(xiàng)欣光. 基于解耦圖神經(jīng)網(wǎng)絡(luò)的可解釋標(biāo)簽感知推薦算法 [J]. 軟件學(xué)報(bào), 2023, 34(12): 5670-5685. (Du Xiao-yu, Chen Zheng, Xiang Xinguang. Explainable tag-aware recommendation based on disentangled graph neural network [J]. Journal of Software, 2023, 34(12): 5670-5685. )
[18]張岐山, 朱猛. 融合時(shí)間加權(quán)信任與用戶(hù)偏好的協(xié)同過(guò)濾算法 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58 (3): 112-118. (Zhang Qi-shan, Zhu Meng. Collaborative filtering algorithm combining time-weighted trust and user preferences [J]. Computer Engineering and Applications, 2022, 58(3): 112-118. )
[19]Wu Jiaqi, Chen Yanliang, Ye Yixin. A deep recommendation model considering the impact of time and individual diversity [J]. IEEE Trans on Computational Social Systems, 2024, 11(2): 2558-2569.
[20]Xi Wudong, Huang Ling, Wang Changdong,et al. Deep rating and review neural network for item recommendation [J]. IEEE Trans on Neural Networks and Learning Systems, 2022, 33(11): 6726-6736.
[21]Dolog P, Sadikaj Y, Velaj Y,et al. The impact of cluster centroid and text review embeddings on recommendation methods[C]// Proc of the ACM Web Conference. New York: ACM Press, 2024: 589-592.
[22]Wu Yuexin, Huang Xiaolei. A gumbel-based rating prediction framework for imbalanced recommendation[C]// Proc of the 31st ACM International Conference on Information amp; Knowledge Management. New York: ACM Press, 2022: 2199-2209.
[23]田歡歡, 趙文濤, 吳巖, 等. 面向稀疏數(shù)據(jù)的物品相似度和評(píng)分預(yù)測(cè)算法研究 [J]. 小型微型計(jì)算機(jī)系統(tǒng), 2023, 44(7): 1449-1454. (Tian Huanhuan, Zhao Wentao, Wu Yan, et al. Research on item similarity and prediction algorithms for sparse data [J]. Journal of Chinese Computer Systems, 2023, 44(7): 1449-1454. )
[24]陳壯, 鄒海濤, 鄭尚, 等. 基于用戶(hù)覆蓋及評(píng)分差異的多樣性推薦算法 [J]. 計(jì)算機(jī)科學(xué), 2022, 49(5): 159-164. (Chen Zhuang, Zou Haitao, Zheng Shang, et al. Diversity recommendation algorithm based on user coverage and rating differences [J]. Computer Science, 2022, 49(5): 159-164. )
[25]Rogers D, Preece A, Innes M,et al. Real-time text classification of user-generated content on social media: systematic review [J]. IEEE Trans on Computational Social Systems, 2022, 9(4): 1154-1166.
[26]Wang Lei, Ma Chen, Wu Xian,et al. Causally debiased time-aware recommendation[C]// Proc of ACM Web Conference. New York: ACM Press, 2024: 3331-3342.
[27]Wu Xiaofu, Zhang Suofei, Zhou Quan,et al. Entropy minimization versus diversity maximization for domain adaptation [J]. IEEE Trans on Neural Networks and Learning Systems, 2023, 34(6): 2896-2907.