摘 要:推薦系統(tǒng)中因交互數(shù)據(jù)稀疏性和曝光不均導(dǎo)致的強曝光偏差,會集中推薦高曝光物品,忽略低曝光物品的潛在價值,從而限制用戶選擇并降低用戶體驗。為解決這一問題,提出一種結(jié)合神經(jīng)協(xié)同過濾和線性置信上界算法的去曝光偏差模型。首先,通過分析用戶與物品之間的交互數(shù)據(jù),利用神經(jīng)協(xié)同過濾算法學(xué)習(xí)用戶和物品的特征,捕捉其潛在偏好;其次,引入線性置信上界算法,并將其生成的獎勵值特征嵌入到神經(jīng)協(xié)同過濾模型中,以增強模型對低曝光物品的探索能力;最后,在MovieLens-100K和MovieLens-1M數(shù)據(jù)集上進行實驗,結(jié)果顯示,與傳統(tǒng)的神經(jīng)協(xié)同過濾模型相比,該模型的曝光度提升了約60%,說明其能夠有效地緩解曝光偏差,并提高推薦的準確性和公平性,進一步驗證了該模型的有效性。
關(guān)鍵詞:神經(jīng)協(xié)同過濾;線性置信上界;曝光偏差;個性化推薦
中圖分類號:TP301.6"" 文獻標志碼:A"" 文章編號:1001-3695(2025)01-011-0078-08
doi: 10.19734/j.issn.1001-3695.2024.05.0184
Neural collaborative filtering recommendation model for de-exposure bias based on fused rewards
Abstract: In recommendation systems, strong exposure bias caused by sparse interaction data and uneven exposure tends to concentrate recommendations on highly exposed items, neglecting the potential value of low-exposure items, thus limiting user choices and diminishing user experience. To address this issue, this paper proposed a model that integrated neural collaborative filtering and the linear upper confidence bound (LinUCB) algorithm to mitigate exposure bias. Firstly, the model used neural collaborative filtering to analyze interaction data between users and items, learning their features and capturing latent preferences. Secondly, it introduced the LinUCB algorithm, embedding its generated reward feature into the neural collaborative filtering model to enhance the exploration capabilities for low-exposure items. Finally, experiments conducted on the Mo-vieLens-100K and MovieLens-1M datasets demonstrated that this model increased exposure by approximately 60% compared to traditional neural collaborative filtering models. This enhancement suggests that the proposed method effectively mitigates exposure bias and improves both the accuracy and fairness of recommendations, thereby validating the effectiveness of the model.
Key words:neural collaborative filtering; linear upper confidence bound; exposure bias; personalized recommendation
0 引言
在電子商務(wù)領(lǐng)域,推薦系統(tǒng)作為用戶與商品間的關(guān)鍵橋梁,通過優(yōu)化用戶的購物體驗以滿足個性化需求。隨著互聯(lián)網(wǎng)的快速發(fā)展,電商平臺上的商品和服務(wù)種類日益豐富,推薦算法通過分析用戶的歷史行為數(shù)據(jù),預(yù)測其潛在偏好,進而提供個性化推薦。這一過程不僅使用戶能夠快速找到其所需商品,提升購物滿意度,同時也有助于電商平臺吸引并留住用戶,增加了用戶粘性,提高轉(zhuǎn)換率,推動企業(yè)的持續(xù)發(fā)展。
然而,隨著電商平臺業(yè)務(wù)覆蓋范圍逐步擴大,在線用戶數(shù)量和商品種類呈指數(shù)型增長,傳統(tǒng)的信息過濾算法已無法滿足海量用戶對個性化推薦的精細化需求[1]。為維持用戶忠誠度,電商平臺亟需改進和升級其推薦系統(tǒng)。在此背景下,神經(jīng)網(wǎng)絡(luò)協(xié)同過濾(neural collaborative filtering,NCF)算法作為一種創(chuàng)新技術(shù),通過建模用戶與物品間的交互信息,學(xué)習(xí)用戶和物品的嵌入向量,從而更好地理解其復(fù)雜聯(lián)系,已被廣泛應(yīng)用于推薦系統(tǒng)的優(yōu)化。盡管NCF算法已取得一定成效,但其隱式反饋機制仍存在局限性:用戶傾向與高曝光物品頻繁交互,導(dǎo)致數(shù)據(jù)集中高曝光物品的比例顯著高于低曝光物品,這并不代表用戶對低曝光物品不感興趣,而更可能是由于缺乏接觸這些物品的機會。若推薦系統(tǒng)未能識別并利用低曝光物品的潛在價值,其推薦范圍將逐漸縮小至僅包括高曝光物品,從而加劇曝光偏差問題。目前,學(xué)術(shù)界對這一曝光偏差問題的研究工作相對欠缺?,F(xiàn)有的方法主要集中在通過調(diào)整模型參數(shù)、引入潛在變量等手段來部分緩解這一問題,但在應(yīng)對低曝光物品時往往難以平衡探索與利用,導(dǎo)致推薦系統(tǒng)過度依賴高曝光物品的數(shù)據(jù),從而忽略了低曝光物品的潛在價值。線性置信上界(linear upper confidence bound,LinUCB)算法作為一種基于置信區(qū)間的多臂賭博機算法,以其出色的探索-利用平衡能力著稱,能夠有針對性地探索那些未被充分曝光但具有潛在價值的物品。因此本文提出了一種新的解決策略:將LinUCB算法生成的獎勵值特征整合到NCF模型中來實現(xiàn)對低曝光物品的挖掘。
本文將定量分析神經(jīng)協(xié)同過濾算法中存在的曝光偏差問題,并利用線性置信上界算法確定物品的獎勵值特征,將其嵌入到神經(jīng)協(xié)同過濾算法中以減少曝光偏差。通過對比實驗,并以基尼系數(shù)、平均曝光度和歸一化折損累計增益等為評估指標與現(xiàn)有去曝光偏差模型進行比較,結(jié)果表明,該方法在降低曝光偏差的同時提高了推薦的準確性。
本文的主要貢獻如下:
a)提出結(jié)合神經(jīng)協(xié)同過濾和線性置信上界算法的去曝光偏差模型,通過引入獎勵值特征,提升對低曝光物品的推薦能力,有效緩解推薦系統(tǒng)中的曝光偏差。
b)應(yīng)用線性置信上界算法,增強模型在特征探索與利用之間的平衡,優(yōu)化對用戶行為和物品特性的深度挖掘,從而提升系統(tǒng)對用戶偏好的適應(yīng)性和響應(yīng)能力。
c)在MovieLens-100K和MovieLens-1M數(shù)據(jù)集上的實驗結(jié)果表明,本研究提出的模型在曝光度上提高了約60%,明顯優(yōu)于對比模型,證明了模型的有效性。
1 相關(guān)工作
1.1 相關(guān)研究
曝光偏差問題源于一個基本假設(shè):用戶只能與推薦系統(tǒng)中的部分物品進行交互,無法與未被系統(tǒng)推薦的物品進行交互,然而,未觀察到的交互并不總是代表用戶對該物品不感興趣,實際上是因為用戶根本不知道它們的存在[2]。這種情況導(dǎo)致推薦系統(tǒng)可能會過度依賴用戶與高曝光物品的交互數(shù)據(jù),從而忽略了用戶對低曝光物品的真實偏好,使得系統(tǒng)難以發(fā)現(xiàn)并推薦那些用戶可能感興趣但尚未被充分探索的物品,進一步加劇曝光偏差[3]。為解決這一問題,學(xué)術(shù)界提出了多種研究方法。Liang等人[4]提出的新概率模型Exposure MF,通過將用戶與物品的曝光程度作為潛在變量來更準確地捕捉用戶對物品的曝光情況,但該模型在處理訓(xùn)練與測試期間用戶行為的動態(tài)差異時顯示出局限性,且在在線環(huán)境中缺乏驗證,限制了其廣泛應(yīng)用。2022年,杜清月等人[5]提出一種基于曝光的負采樣策略,通過引入對抗正則化器,旨在降低曝光偏差并達到帕累托最優(yōu),但數(shù)據(jù)的敏感屬性使得該模型在推薦未曝光物品方面的能力受限。Damak等人[6]推出一種解釋損失函數(shù)和矩陣因子化的模型explainable Bayesian personalized ranking(EBPR),旨在揭示曝光偏差的根源并構(gòu)建無偏估計器,盡管引入新的傾向評分機制以消除偏差,但在現(xiàn)實動態(tài)環(huán)境中的適應(yīng)性仍需提升。此外,Lee等人[7]設(shè)計出雙邊自我無偏見推薦器(BISER)模型,通過結(jié)合自逆傾向性加權(quán)和雙邊無偏學(xué)習(xí)兩部分,有效降低了物品曝光偏差和計算成本。
同時,新模型的開發(fā)也引起了學(xué)者們的關(guān)注。2022年,劉超等人[8]利用注意力機制和門控循環(huán)網(wǎng)絡(luò)提取用戶長短期偏好,強調(diào)解決偏差問題對提升系統(tǒng)性能的重要性,盡管如此,該方法在極端數(shù)據(jù)稀疏情況下的有效性尚未得到充分驗證,這在實際環(huán)境中可能帶來挑戰(zhàn)。Kim等人[9]開發(fā)的去偏方法Navip,通過獲取每個用戶-物品交互的逆傾向得分,并將這些得分的拉普拉斯范數(shù)用作鄰居權(quán)重,有效消除圖神經(jīng)網(wǎng)絡(luò)鄰居聚合過程中的曝光偏差,雖然該方法在圖結(jié)構(gòu)數(shù)據(jù)上表現(xiàn)出色,但其對傳統(tǒng)推薦系統(tǒng)的適應(yīng)性和擴展性有待進一步研究。武子騰等人[10]提出的多模態(tài)深度游走與偏差校準因子融合推薦模型,通過引入物品多模態(tài)屬性特征和構(gòu)建多模態(tài)深度游走圖嵌入模塊,有效緩解了低曝光物品的交互數(shù)據(jù)稀疏問題,并精確預(yù)測了用戶偏好,然而,該模型性能強烈依賴于多模態(tài)數(shù)據(jù)的質(zhì)量和完整性,且在不同數(shù)據(jù)集上的表現(xiàn)不穩(wěn)定。2023年,Liu等人[11]提出的新框架PropCare通過利用交互數(shù)據(jù)來估計用戶偏好和物品曝光度,嘗試克服現(xiàn)有方法對額外輸入數(shù)據(jù)的依賴問題,但這種方法在面對數(shù)據(jù)質(zhì)量和完整性問題時會受限。Krause等人[12]采用離散選擇模型來減輕曝光偏差,并優(yōu)化模型選擇機制,探索了曝光偏差的新處理方法,但由于研究未在真實數(shù)據(jù)集上進行驗證,其結(jié)論的廣泛適用性和實際可推廣性受到限制。此外,Krause的研究突出了一個關(guān)鍵點:為防止推薦系統(tǒng)無意中的自我影響,必須詳細了解用戶在數(shù)據(jù)集中看到的物品[13]。這為深入探索曝光偏差的復(fù)雜性提供了重要方向。
在推薦模型的優(yōu)化與設(shè)計方面,2022年,Dash等人[14]提出公平相關(guān)物品推薦系統(tǒng)(FaiRIR)框架,引入基于公平性的干預(yù)措施,修改推薦算法以更均衡地分配商品曝光,以減少雙邊平臺中的商品曝光偏差,模型的性能在不同數(shù)據(jù)集上表現(xiàn)不穩(wěn)定,且強依賴于多模態(tài)數(shù)據(jù)的質(zhì)量和完整性。He等人[15]提出的NCF框架雖然通過引入傳統(tǒng)的協(xié)同過濾模型為基于深度學(xué)習(xí)的推薦研究開辟了新途徑,但其在實時數(shù)據(jù)集的動態(tài)適應(yīng)能力上還存在不足;他們在2023年進一步提出動態(tài)嵌入尺寸搜索方法[16],專門針對動態(tài)推薦系統(tǒng)的需求,通過動態(tài)調(diào)整模型的嵌入維度,有效捕捉曝光數(shù)據(jù)中的時序特性,為實時推薦提供了新的解決方案。解決曝光偏差問題還需考慮到其中平衡探索和利用的問題,Wang等人[17]提出一種基于貝葉斯深度學(xué)習(xí)的探索-利用方法,結(jié)合深度學(xué)習(xí)以利用用戶和物品屬性,從而獲得用戶-物品交互中的隱式反饋數(shù)據(jù),為推薦系統(tǒng)提供了新的平衡策略,但在大規(guī)模實際應(yīng)用中的效率和可行性尚未得到充分驗證。2023年,Ma等人[18]利用貝葉斯深度學(xué)習(xí)模型來處理推薦系統(tǒng)中的不確定性問題,通過貝葉斯方法對用戶偏好進行建模,顯著提高了個性化推薦的準確性。但是目前對緩解神經(jīng)協(xié)同過濾算法中的曝光偏差問題研究相對較少。
在近幾年的研究中,神經(jīng)網(wǎng)絡(luò)與多臂賭博機(MAB)算法在推薦系統(tǒng)方面的結(jié)合已經(jīng)取得了顯著的進步。神經(jīng)網(wǎng)絡(luò)利用深度學(xué)習(xí)從大量用戶-物品交互數(shù)據(jù)中學(xué)習(xí)用戶的偏好[19],而多臂賭博機算法則用來在探索和利用之間找到最佳的平衡,在探索未知物品以發(fā)現(xiàn)可能符合用戶興趣的新物品的同時,也需要利用已知的、可能受用戶喜歡的物品進行推薦[20]。LinUCB作為最早被提出的一種基于上下文賭博機算法的個性化新聞文章推薦方法[21],其主要思想是根據(jù)用戶和文章的上下文信息,選擇文章推薦給用戶,同時基于用戶對文章的點擊行為動態(tài)調(diào)整策略,以最大化用戶的點擊行為。2023年,Zhu等人[22]提出基于上下文信息和用戶行為數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)多臂賭博機框架epistemic neural recommendation(ENR),此框架整合了用戶行為和上下文信息,克服以往推薦系統(tǒng)處理大規(guī)模數(shù)據(jù)的不足,有效提升了對用戶潛在偏好的捕捉能力。Shi等人[23]提出了DeepLinUCB(deep linucb upper confidence bound)模型,充分利用深度神經(jīng)網(wǎng)絡(luò)的高度表征能力來學(xué)習(xí)獎勵函數(shù)中的原始上下文特征,但該模型目前主要關(guān)注于單一行為,如點擊預(yù)測,并未應(yīng)用于在線推薦系統(tǒng)中的其他重要特征,包括播放時長和分享等,不能全面評估和滿足用戶多樣化需求。2024年,F(xiàn)eng等人[24]進一步推動了這個領(lǐng)域的進步,他們提出了一種新的序列推薦方法contextual MAB based embedding denoising(COMED),提供上下文多臂賭博機進行嵌入去噪,以提升序列推薦的精度和多樣性。然而,這些研究在處理低曝光物品推薦和降低曝光偏差方面仍存在不足。
本文考慮到LinUCB算法在探索與利用之間具有出色的平衡能力,通過該算法提取用戶和物品的關(guān)鍵特征信息來確定推薦的獎勵值,并將其嵌入到神經(jīng)協(xié)同過濾模型中,利用NCF模型強大的深度學(xué)習(xí)能力,進一步挖掘和模擬用戶與物品間的復(fù)雜關(guān)系,旨在降低推薦結(jié)果中的曝光偏差,同時增強系統(tǒng)的推薦性能。
1.2 神經(jīng)協(xié)同過濾算法
1.3 線性置信上界算法
線性置信上界算法是一個用于上下文多臂賭博機問題的算法,其利用用戶的特征和上下文信息來預(yù)測潛在的獎勵,并通過構(gòu)建置信區(qū)間來動態(tài)調(diào)整選擇的策略,平衡探索與利用的矛盾,從而實現(xiàn)更精確的個性化推薦。
各用戶對應(yīng)每個物品所獲得的期望獎勵如式(2)所示。
E[rt,a|Xt,a]=XTt,aθ*a(2)
其中:a表示待選物品集合;XTt,a表示第t次實驗時物品a對應(yīng)的特征向量;偏好向量θ*a是未知的,但是在每一輪交互中其估計值可通過嶺回歸來計算,每個物品維護一個θ*a。物品的真實獎勵記為rt,a,基于預(yù)估獎勵值計算置信區(qū)間,如式(3),系統(tǒng)最終會選擇置信區(qū)間上界最高的物品進行推薦:
2 模型構(gòu)建
盡管神經(jīng)協(xié)同過濾模型相較于傳統(tǒng)模型在性能上取得了顯著提升,但其在輔助信息的利用和深層次特征提取方面仍存在局限。NCF模型基于用戶與物品之間的歷史交互數(shù)據(jù)來構(gòu)建嵌入特征,并通過多層感知機(multilayer perceptron, MLP)模擬兩者的復(fù)雜交互,有效克服了某些傳統(tǒng)推薦算法的局限。然而,NCF模型主要依賴用戶與物品的交互數(shù)據(jù),對于豐富的輔助信息,如用戶和物品的屬性標簽等,尚未充分利用。
輔助信息的整合對于提高模型的個性化推薦精度與緩解曝光偏差問題至關(guān)重要。通過將這些輔助信息融合進NCF模型中,可以提高推薦的相關(guān)性和可解釋性。針對NCF模型在這方面的局限性,本文提出了一種創(chuàng)新的改進模型——融合獎勵的神經(jīng)協(xié)同過濾去曝光偏差推薦模型。該模型在傳統(tǒng)NCF模型的基礎(chǔ)上,引入了由LinUCB算法生成的獎勵特征,旨在增強模型對低曝光物品的探索能力,進而有效緩解推薦系統(tǒng)中的曝光偏差問題。其流程如圖3所示。
2.1 用戶和物品特征提取
MovieLens-100K和MovieLens-1M數(shù)據(jù)集除數(shù)據(jù)量以外,在結(jié)構(gòu)和特征上基本相同,因此本節(jié)以MovieLens100k數(shù)據(jù)集為例詳細介紹用戶和物品特征提取的過程。特征的選擇基于其在減少曝光偏差以及提高推薦系統(tǒng)準確性和多樣性中的潛在作用,通過分析數(shù)據(jù)結(jié)構(gòu)和屬性,確定對用戶偏好和推薦效果有顯著影響的特征。
首先將用戶特征屬性通過嵌入層轉(zhuǎn)換為特征向量,過程中需確定每個屬性的向量維度。用戶ID用于唯一標識每個用戶,通過關(guān)聯(lián)用戶的歷史行為數(shù)據(jù),幫助模型準確地追蹤和學(xué)習(xí)個性化偏好;職業(yè)信息能夠反映用戶的社會經(jīng)濟背景和生活方式,不同職業(yè)的用戶對物品和服務(wù)類型的偏好存在差異,有助于進一步提升個性化推薦效果;用戶年齡影響行為偏好,例如,用戶年齡年輕用戶傾向于科幻片,而年長用戶則更偏好劇情片,從而使模型更精確地預(yù)測不同年齡段用戶的偏好?;诖耍脩舻穆殬I(yè)信息通過預(yù)定義的職業(yè)字典進行映射,轉(zhuǎn)換為21維的one-hot編碼向量;用戶的年齡則作為連續(xù)值特征直接輸入模型中。這些特征拼接成一個高維向量后,通過全連接層降維至32維,以匹配模型的目標特征維度。通過ReLU激活函數(shù)引入非線性,最終得到用戶的特征向量。
物品特征的提取過程與用戶特征提取類似,主要分析物品ID和類型信息。物品ID作為每個物品的唯一標識符,幫助系統(tǒng)精確追蹤和分析物品的曝光度及用戶互動情況。類型信息作為用戶選擇物品的重要因素,能夠提升推薦的相關(guān)性和用戶滿意度。為防止過大的向量維度導(dǎo)致信息冗余以及過小的維度無法充分表達物品特征,物品ID通過嵌入層映射為16維向量。同時類型信息根據(jù)類型字典轉(zhuǎn)換為19維的one-hot編碼向量。這些類型特征與物品ID的嵌入向量拼接后,形成了35維向量。在分析大量實驗數(shù)據(jù)和參考領(lǐng)域內(nèi)的最佳實踐后,考慮到優(yōu)化模型性能與維持合理計算效率的需求,選擇通過全連接層將此向量降至32維,并通過ReLU激活函數(shù)處理,以獲得物品的最終特征表示。這種處理方式既保證了信息的有效捕捉,也保持了模型的高效運行。
2.2 獎勵值特征提取
2.1節(jié)中討論了如何從預(yù)訓(xùn)練模型中提取用戶和物品的特征向量,并運用這些上下文特征來預(yù)測各推薦選項的潛在價值。用戶互動的量化反饋是通過將用戶的評分(1~5)映射至對應(yīng)的獎勵值來實現(xiàn)的。具體來說,對于已評分的物品,直接應(yīng)用相應(yīng)的獎勵值。對于未評分的物品,本模型評估物品與用戶歷史偏好的匹配程度來估算獎勵值。這一過程基于類型相似度,并利用伯努利分布來進行隨機獎勵決策,確定最終獎勵值。高相似度的采樣結(jié)果將導(dǎo)致較高的獎勵值,反之則較低。此外,通過計算置信上界評分,模型優(yōu)化推薦過程,選擇預(yù)期獎勵最高的物品進行推薦。用戶與推薦物品的互動后,根據(jù)反饋更新模型參數(shù),進一步細化推薦策略。最終,所提取的獎勵值特征將被記錄,為推薦系統(tǒng)的后續(xù)優(yōu)化與分析提供數(shù)據(jù)支持。
式(2)中,LinUCB算法通常采用嶺回歸(ridge regression)方法求解θ*a,以增強模型的泛化能力。首先,輸入多次實驗結(jié)果{(x1,reward1),…,(xt,rewardt)},優(yōu)化目標如下:
loss(θ)=‖Rewards-XTt,aθ*a‖2+‖Iθ*a‖2(4)
其中:Rewards=[reward1,…,rewardt]是t次實驗的結(jié)果,reward=1和reward=0分別代表用戶對該推薦的接受和拒絕;X=[x1,…,xt]T是t次實驗觀測到的特征向量矩陣,其中每一行對應(yīng)一個特征向量;‖Iθ*a‖2,即L2正則化,其中I為對角線矩陣,可有效避免過擬合現(xiàn)象。
求解θ*a的過程涉及將式(5)對θ*a求導(dǎo)后設(shè)為0,有
可得
θ*a=(XTt,aXt,a+ITI)-1XTt,aRewards(6)
假設(shè)第a個物品已經(jīng)推薦了na遍,則能夠算出該物品獲得獎勵的概率為
對于任意δgt;0,都存在
因此,置信區(qū)間Δ為
其中:δ是超參數(shù)。因此,LinUCB的選擇機制滿足
2.3 基于融合獎勵的神經(jīng)協(xié)同過濾模型
本節(jié)所設(shè)計的基于融合獎勵的神經(jīng)協(xié)同過濾模型(NCF_Reward),最底層的輸入層由七個特征組成,分別是用戶ID、用戶性別、用戶年齡、用戶職業(yè)、物品ID、物品類型以及獎勵值特征,將獎勵值數(shù)據(jù)輸入神經(jīng)協(xié)同過濾網(wǎng)絡(luò)模型中,得到各自的用戶、物品獎勵值嵌入向量,再與對應(yīng)的最近鄰居特征向量拼接,得到矩陣分解和多層感知機對應(yīng)的用戶和物品表示。對于矩陣分解MF部分,將用戶和物品表示進行元素積得到向量νMFuir。對于多層感知器MLP部分,將用戶和物品表示拼接得到向量νuir,再將νuir輸入多層感知器中,去學(xué)習(xí)用戶與物品之間的交互函數(shù),得到多層感知器的輸出向量νMLPuir。公式如下:
VMLPuir=ReLU(Wlνl-1uir+bl)(11)
其中:ReLU為激活函數(shù);Wl為第l層權(quán)重矩陣;νl-1uir為l-1層輸出;bl為偏置向量。
然后將矩陣分解和多層感知器兩個部分的輸出向量拼接起來,輸入一個全連接層中,得到用戶u和物品i及獎勵值r之間的預(yù)測分數(shù),公式如下:
其中:h為輸出層的權(quán)重向量;b表示輸出層的偏置項;σ(·)為sigmoid函數(shù)。
輸出層完成預(yù)測任務(wù),輸出用戶對物品的偏好概率,由于該模型采用隱式反饋數(shù)據(jù),故采用二元交叉熵損失優(yōu)化函數(shù)。正樣本表示用戶-物品存在交互,負樣本表示用戶-物品沒有交互。將預(yù)測轉(zhuǎn)換為二分類問題,預(yù)測概率的取值為[0,1]。二元交叉熵損失的公式如下:
其中:y表示正樣本集合;y-表示負樣本集合。
3 實驗結(jié)果及分析
3.1 數(shù)據(jù)集分析
MovieLens數(shù)據(jù)集[25]被公認為推薦系統(tǒng)領(lǐng)域中最具權(quán)威性的數(shù)據(jù)集,由明尼蘇達大學(xué)GroupLens研究團隊收集整理。本文選擇MovieLens-100K和MovieLens-1M數(shù)據(jù)集,利用其多樣的用戶評分和豐富的交互數(shù)據(jù)來訓(xùn)練模型,以準確模擬用戶行為并有效優(yōu)化曝光偏差,確保符合實驗驗證要求。因此在本文中,隨機選擇60%的數(shù)據(jù)作為訓(xùn)練集,20%作為驗證集,剩下的20%作為測試集,具體數(shù)據(jù)如表1所示。
本實驗在以下硬件和軟件環(huán)境下進行:操作系統(tǒng)為64位Windows 10,處理器為Intel CoreTM i5-8265U,內(nèi)存容量為32 GB,GPU為NVIDIA GeForce MX250。編譯環(huán)境采用Python 3.7.0,開發(fā)框架為PyTorch 1.13.1,采用Adam優(yōu)化器進行模型訓(xùn)練與優(yōu)化。主要實驗參數(shù)如表2所示。
在假定用戶僅能和曝光在該系統(tǒng)中的物品進行交互的條件下,交互頻次即等同于曝光數(shù),物品的交互頻次愈高,意味著其曝光程度亦隨之增強,兩者之間呈現(xiàn)出正相關(guān)的關(guān)系。本文對MovieLens-100K和MovieLens-1M數(shù)據(jù)集中的用戶交互數(shù)據(jù)進行統(tǒng)計分析,記錄分析每個物品的交互頻次,從而獲得物品交互頻次(即曝光度)的分布情況。一般來說,物品的交互頻次越高就越受到用戶的青睞。如圖4所示,兩個數(shù)據(jù)集的物品交互頻次(曝光度)均呈現(xiàn)出顯著的非均勻分布特征。在MovieLens-100K數(shù)據(jù)集中,只有極少數(shù)物品的互動頻次超過200。同樣地,在MovieLens-1M數(shù)據(jù)集中,大部分物品的交互頻次也主要分布在0~500次內(nèi)。
在MovieLens-100K和MovieLens-1M數(shù)據(jù)集中,用戶評分數(shù)據(jù)分布情況存在明顯偏差,評分為3、4的用戶較多,分布如圖5所示。再結(jié)合圖6評分數(shù)量對比,其中評分為0代表空缺的評分,即用戶未與物品產(chǎn)生過交互的位置,對比發(fā)現(xiàn),當(dāng)前收集到的數(shù)據(jù)十分稀疏?;谝陨蟽蓤D分析,當(dāng)前有大量的物品未與用戶產(chǎn)生過交互,單純將評分數(shù)據(jù)應(yīng)用于推薦系統(tǒng)往往不能反映用戶的真實偏好。這種數(shù)據(jù)稀疏性和評分偏差會加劇推薦系統(tǒng)中的曝光偏差問題,導(dǎo)致高曝光物品頻繁被推薦,而低曝光物品則被忽視。
3.2 評估指標
為了更全面且準確地評估推薦模型的性能,本文實驗采用公平性和準確度兩種類型的評估指標。公平性指標則包括曝光度(exposure)、基尼系數(shù)(Gini),聚焦于評估推薦系統(tǒng)是否為所有物品提供了均等的曝光機會,以確保算法的公平性和無偏性。準確度指標包括命中率(hits ratio,HR)、歸一化折損累計增益(normalized discounted cumulative gain,NDCG)、準確度(precision)、召回率(recall)、覆蓋率(coverage),主要衡量推薦結(jié)果的相關(guān)性和多樣性,反映算法在滿足用戶個性化需求方面的能力。通過這兩類指標的綜合考量,全面評估并優(yōu)化推薦算法,有效降低曝光偏差,進而提升系統(tǒng)的整體性能和用戶滿意度。
曝光度指標可以反映對低曝光物品的推薦能力,計算公式為
式(14)用于衡量本模型校準不均衡分布的合理性,值越大,證明模型的效果越好。
基尼系數(shù)定量評估系統(tǒng)中存在的曝光偏差,公式如下:
其中:p(ik|L)表示物品i在推薦列表中出現(xiàn)的概率。
HR用于衡量推薦的準確性,它能夠直觀地顯示測試物品是否位于前k個推薦物品中,具體計算公式如下:
NDCG常用于推薦列表排序質(zhì)量的評估,反映推薦物品的相關(guān)性和排序位置,其值越大表明模型預(yù)測的推薦結(jié)果與用戶真實偏好越接近,推薦效用越好。
其中:reli表示物品i對應(yīng)的相關(guān)度評分值;k表示推薦列表中物品的個數(shù);IDCG表示理想情況下的DCG。
精確度是top-N模型中常用的評價指標,用來確定推薦列表中用戶真正喜歡的物品所占比例,其計算公式如下:
其中:R(u)表示用戶推薦列表中的所有物品集合;T(u)表示用戶在原始數(shù)據(jù)集中用戶真實喜歡的物品集合;R(u)∩T(u)表示用戶推薦列表中推薦準確的物品集合。計算給每一個用戶推薦列表中推薦準確的比例,再對其取平均值就是最后精確度的值。
召回率也是top-N模型中常用的評價指標,用于計算推薦列表中用戶喜歡的物品在系統(tǒng)中所有喜歡的物品中所占的比例,其計算公式如下:
覆蓋率低意味著大部分物品都沒有展示給用戶,也不可能被用戶反饋,故系統(tǒng)的覆蓋率越高越好。
3.3 消融實驗
為驗證NCF_Reward模型中各組成部分的有效性,分別移除模型中的神經(jīng)協(xié)同過濾組件和獎勵值特征融合部分,并在MovieLens-100K和MovieLens-1M數(shù)據(jù)集上進行消融實驗,以確定各自在捕捉用戶與物品間復(fù)雜交互關(guān)系中的作用及減少曝光偏差和提升推薦公平性中的影響。
實驗結(jié)果如表3所示,其中w/o NCF和w/o LinUCB分別代表去除了神經(jīng)協(xié)同過濾和獎勵值特征的變體。NCF_Reward模型在HR@10和NDCG@10指標上均優(yōu)于其他兩變體,進一步證明了神經(jīng)協(xié)同過濾組件和獎勵值特征融合部分在提升推薦系統(tǒng)性能方面的重要作用。
3.4 對比實驗
本文在與NCF模型進行比較的基礎(chǔ)上,進一步與三項最新的相關(guān)研究進行深入的對比分析。
EBPR[6]:結(jié)合傳統(tǒng)的貝葉斯個性化排序算法與可解釋性損失函數(shù),通過對矩陣分解模型進行擴展,量化了過程中額外產(chǎn)生的曝光偏差,并提出新的無偏估計方法來緩解,以提高推薦結(jié)果的透明度和用戶的信任度。
對比傳統(tǒng)NCF、EBPR、FaiRIR_RL、FaiRIR_Sim以及本文改進的NCF_Reward模型,將五個模型分別在MovieLens-100K和MovieLens-1M兩個數(shù)據(jù)集上進行實驗,用公平性指標和準確度指標對其推薦性能進行評估,結(jié)果如表4與圖7所示。結(jié)果表明:
a)在不同數(shù)據(jù)集中,五種模型的曝光度表現(xiàn)各異,但都在一定程度上起到了去曝光偏差的作用。具體而言,NCF模型在各推薦個數(shù)下的曝光度普遍較低;與其相比,EBPR模型的曝光度表現(xiàn)出較為穩(wěn)定的提升,證明其具備緩解曝光偏差的能力;在推薦個數(shù)為10和20時,F(xiàn)aiRIR_Sim模型的曝光度相較于NCF模型有顯著提高,突出了其在初期階段的優(yōu)勢;FaiRIR_RL模型相較前三個模型均表現(xiàn)出較高的曝光度,表明了其在持續(xù)優(yōu)化曝光平衡方面的有效性;而本文提出的NCF_Reward模型在所有推薦個數(shù)下均表現(xiàn)出最高的曝光度,有效地降低了曝光偏差,相比傳統(tǒng)的NCF模型,曝光度提升了約60%。
b)在不同數(shù)據(jù)集上,通過基尼系數(shù)評估五種模型在不同推薦個數(shù)下的公平性表現(xiàn),基尼系數(shù)越低,表明推薦系統(tǒng)的公平性越高。在MovieLens-100K數(shù)據(jù)集中,傳統(tǒng)的NCF模型顯示出相對較高的基尼系數(shù),指出其公平性最低;而EBPR、Fai-RIR_Sim和FaiRIR_RL模型在較低推薦個數(shù)時顯示出較好的公平性,特別是FaiRIR_RL模型在這些階段的表現(xiàn)稍優(yōu)。相比之下,NCF_Reward模型在所有推薦個數(shù)下都維持了最低的基尼系數(shù),尤其在40~60推薦個數(shù)的階段,其公平性提升最為顯著。在數(shù)據(jù)量更大的MovieLens-1M數(shù)據(jù)集上,這些模式得到了類似的確認,其中NCF_Reward模型在所有推薦階段連續(xù)展現(xiàn)出最優(yōu)的公平性。
3.5 超參數(shù)實驗
在模型訓(xùn)練過程中,學(xué)習(xí)率(learning rate, lr)作為一個關(guān)鍵的超參數(shù),對模型的收斂速度和最終推薦性能具有決定性影響。為了精確探索學(xué)習(xí)率對模型表現(xiàn)的影響,本文采用網(wǎng)格搜索策略在一組預(yù)定義的學(xué)習(xí)率值{0.000 01,0.000 1,0.000 5,0.001,0.005}中進行優(yōu)化,在保持其他參數(shù)不變的條件下,通過實驗比較不同學(xué)習(xí)率對模型在MovieLens-100K數(shù)據(jù)集上的表現(xiàn),實驗結(jié)果如圖8所示。
實驗結(jié)果表明,不適當(dāng)?shù)膶W(xué)習(xí)率設(shè)置,無論過高或過低,會使得模型效果變差。當(dāng)學(xué)習(xí)率設(shè)定在較低水平(0.000 01和0.000 1)時,模型表現(xiàn)穩(wěn)定,兩指標都保持在較高的水平,尤其在學(xué)習(xí)率為0.000 1時,HR@10和NDCG@10都達到了最高值,顯示出該學(xué)習(xí)率下模型的優(yōu)越性能。隨著學(xué)習(xí)率增加至0.001,模型的性能開始略有下降,開始受到收斂速度過快的影響,不能充分學(xué)習(xí)數(shù)據(jù)特征。當(dāng)學(xué)習(xí)率進一步提高到0.005時,模型的性能急劇下降,HR@10和NDCG@10均顯著降低,這表明過高的學(xué)習(xí)率導(dǎo)致模型在訓(xùn)練過程中過度調(diào)整,從而越過最優(yōu)點。故當(dāng)學(xué)習(xí)率lr=0.000 1時,模型在MovieLens-100K數(shù)據(jù)集上取得的效果最佳。
在矩陣分解模型的訓(xùn)練階段,num_factors參數(shù)用于定義用戶和物品嵌入向量的維度,該參數(shù)的選擇直接影響模型捕捉潛在特征的能力,以及在推薦任務(wù)中的泛化效果。本文將num_factors的取值設(shè)定為{8, 16, 32, 64},其他參數(shù)設(shè)置保持不變,通過實驗比較不同維度下模型的表現(xiàn),以確定最優(yōu)的嵌入維度。實驗結(jié)果如表5所示。
由表5可以看出,隨著嵌入維度的增加,模型在曝光度和覆蓋率兩個指標上均呈現(xiàn)上升趨勢。具體而言,曝光度從8維的0.063 5逐步提升至64維的0.064 6,覆蓋率也從0.910 8增加至0.918 5,反映了較高嵌入維度能更有效地捕捉用戶和物品間的細微差異,增強對低曝光物品的探索能力。同時,召回率(recall)在不同嵌入維度設(shè)置下保持相對穩(wěn)定,在0.177 6~0.178 3,表明模型在不同嵌入維度下推薦相關(guān)物品的能力較為均衡。此外,精確度(precision)隨著嵌入維度的增加而略有提升,從0.924 2增至0.927 0,這表明增加嵌入維度有助于提高推薦物品的相關(guān)性。
盡管在16維時精確度略高,但曝光度、覆蓋率這兩個指標的改善對于緩解曝光偏差和提高系統(tǒng)的整體推薦質(zhì)量具有重要意義。綜合考慮,選擇64維作為嵌入向量的最優(yōu)維度。該選擇在提升曝光度和覆蓋率的同時,保持了召回率的穩(wěn)定性,并小幅提高了精確度,從而在推薦系統(tǒng)的性能優(yōu)化中實現(xiàn)均衡。
3.6 實例分析
為驗證NCF_Reward模型在實際應(yīng)用中的有效性,分別從MovieLens-100K和MovieLens-1M數(shù)據(jù)集中隨機抽取一個用戶,并在其推薦列表中隨機抽取兩個高曝光物品和兩個低曝光物品,通過實例分析比較不同曝光度物品在去偏前后的排序情況,如表6和7所示。對用戶ID為075的去偏分析結(jié)果顯示,應(yīng)用NCF_Reward模型進行去偏處理后,排序位置明顯變動。低曝光物品的排名顯著提升,例如排在第265位的物品提升至第14位,排在第342位的物品提升至第38位。相反,高曝光物品的排名有所下降,其中一個從第5位下降至第12位,另一個從第23位的物品降至第30位。此結(jié)果表明,在原始模型中,低曝光度物品通常排列在推薦列表的后端,因此獲得用戶關(guān)注的機會較少。在應(yīng)用NCF_Reward模型去偏處理后,這些低曝光物品的排名明顯提升,從而獲得更多的用戶關(guān)注。由此可見,本文模型能夠有效地減少推薦系統(tǒng)中的曝光偏差,具有較高的應(yīng)用性。
4 結(jié)束語
本文提出了一種基于融合獎勵的神經(jīng)協(xié)同過濾去曝光偏差推薦模型,旨在解決推薦系統(tǒng)中因交互數(shù)據(jù)稀疏性和曝光不均導(dǎo)致的曝光偏差問題。通過在MovieLens-100K和Mo-vieLens-1M數(shù)據(jù)集上的實驗,結(jié)果表明本文提出的模型在多個指標上均優(yōu)于傳統(tǒng)的神經(jīng)協(xié)同過濾模型及其他去曝光偏差模型,顯著提升了曝光度,減少了曝光偏差。通過引入獎勵值特征,模型在提高對低曝光物品探索能力的同時,保持了推薦的精度和多樣性,更全面地考慮到推薦選項,減少了對高曝光物品的過度推薦,有效緩解曝光偏差問題,實現(xiàn)了推薦結(jié)果的公平性。本文工作的創(chuàng)新之處在于將線性置信上界算法與神經(jīng)協(xié)同過濾模型相結(jié)合,提出在推薦系統(tǒng)中有效減緩曝光偏差的新方法。實驗結(jié)果驗證了這一方法的有效性,不僅在曝光度和公平性方面有顯著提升,還在保持推薦系統(tǒng)的精度和用戶滿意度方面表現(xiàn)出色。未來的研究可以進一步優(yōu)化獎勵值特征的提取方法,考慮采用動態(tài)獎勵調(diào)整或基于用戶行為的自適應(yīng)機制,以更精確地反映用戶偏好和需求變化,并在更大規(guī)模的數(shù)據(jù)集和更多樣化的應(yīng)用場景中驗證模型的泛化能力。此外,還可以進一步研究如何有效地融合上下文信息,如時間、地點和設(shè)備等,以更全面地理解用戶行為,這包括探索其他基于上下文的多臂賭博機算法,以及深度學(xué)習(xí)和因果推斷等技術(shù)在推薦系統(tǒng)中的應(yīng)用,以進一步提升推薦效果,減少曝光偏差問題。
參考文獻:
[1]關(guān)菲, 周藝, 張晗. 個性化推薦系統(tǒng)中協(xié)同過濾推薦算法優(yōu)化研究 [J]. 運籌與管理, 2022, 31(11): 9-14. (Guan Fei, Zhou Yi, Zhang Han. Research on collaborative filtering recommendation algorithm optimization in personalized recommendation [J]. Operations Research and Management Science, 2022, 31(11): 9-14.)
[2]郭楠, 黃慧慧. 面向偏差問題的推薦方法研究綜述 [J]. 計算機應(yīng)用研究, 2022, 39(10): 2881-2890, 2915. (Guo Nan, Huang Huihui. Review of recommendation methods for problem of bias [J]. Application Research of Computers, 2022, 39(10): 2881-2890, 2915.)
[3]Chen Jiawei, Dong Hande, Wang Xiang, et al. Bias and debias in recommender system: a survey and future directions [J]. ACM Trans on Information Systems, 2023, 41(3): 1-39.
[4]Liang Dawen, Charlin L, McInerney J, et al. Modeling user exposure in recommendation [C]// Proc of the 25th International Conference on World Wide Web. New York: ACM Press, 2016: 951-961.
[5]杜清月, 黃曉雯, ?;w. 基于帕累托效應(yīng)視角下的推薦系統(tǒng)多角度公平性 [J]. 太原理工大學(xué)學(xué)報, 2022, 53(1): 89-97. (Du Qingyue, Huang Xiaowen, Sang Jitao. A multi-side fairness-aware recommendation system based on a pareto-efficient perspective [J]. Journal of Taiyuan University of Technology, 2022, 53(1): 89-97.)
[6]Damak K, Khenissi S, Nasraoui O. Debiased explainable pairwise ranking from implicit feedback [C]// Proc of the 15th ACM Confe-rence on Recommender Systems. New York: ACM Press, 2021: 321-331.
[7]Lee J W, Park S, Lee J, et al. Bilateral self-unbiased learning from biased implicit feedback [C]// Proc of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2022: 29-39.
[8]劉超, 任夢瑤, 馮祿華. 基于輔助信息與長短期偏好的序列推薦 [J]. 計算機應(yīng)用研究, 2024, 41(9):2628-2634. (Liu Chao, Ren Mengyao, Feng Luhua. Sequence recommendation based on side information and long-short term preferences [J]. Application Research of Computers, 2024, 41(9): 2628-2634.)
[9]Kim M, Oh J, Do J, et al. Debiasing neighbor aggregation for graph neural network in recommender systems [C]// Proc of the 31st ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2022: 4128-4132.
[10]武子騰, 宋承云. 融合多模態(tài)深度游走與偏差校準因子的推薦模型 [J]. 計算機應(yīng)用, 2022, 42(8): 2432-2439. (Wu Ziteng, Song Chengyun. Recommendation model incorporating multimodal DeepWalk and bias calibration factor [J]. Journal of Computer Applications, 2022, 42(8): 2432-2439.)
[11]Liu Zhongzhou, Fang Yuan, Wu Min. Estimating propensity for causality-based recommendation without exposure data [EB/OL]. (2023) [2024-05-30]. https://arxiv. org/pdf/2310. 20388.
[12]Krause T, Deriyeva A, Beinke J H, et al. Mitigating exposure bias in recommender systems-a comparative analysis of discrete choice models [J/OL]. ACM Trans on Recommender Systems. (2024-01-27) [2024-05-30]. https://doi. org/10. 1145/3641291.
[13]Krause T, Stattkus D, Deriyeva A, et al. Beyond the rating matrix: debiasing implicit feedback loops in collaborative filtering [C]// Proc of the 17th International Conference on Wirtschaftsinformatik. Atlanta, GA: AIS Press, 2022.
[14]Dash A, Chakraborty A, Ghosh S, et al. FaiRIR: mitigating exposure bias from related item recommendations in two-sided platforms [J]. IEEE Trans on Computational Social Systems, 2023, 10(3): 1301-1313.
[15]He Xiangnan, Liao Lizi, Zhang Hanwang, et al. Neural collaborative filtering [C]// Proc of the 26th International Conference on World Wide Web. New York: ACM Press, 2017: 173-182.
[16]He Bowei, He Xu, Zhang Renrui, et al. Dynamic embedding size search with minimum regret for streaming recommender system [C]// Proc of the 32nd ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2023: 741-750.
[17]Wang Xin, Kadioglu S. Bayesian deep learning based exploration-exploitation for personalized recommendations [C]// Proc of the 31st International Conference on Tools with Artificial Intelligence. Wa-shington DC: IEEE Computer Society, 2019: 1715-1719.
[18]Ma Dehua, Wang Yufeng, Ma Jianhua, et al. SGNR: a social graph neural network based interactive recommendation scheme for e-commerce [J]. Tsinghua Science and Technology, 2023, 28(4): 786-798.
[19]Wang Xin, Kadolu S. Modeling uncertainty to improve personalized recommendations via Bayesian deep learning [J]. International Journal of Data Science and Analytics, 2023, 16(2): 191-201.
[20]Cao Tianwen, Xu Qianqian, Yang Zhiyong, et al. Mitigating confounding bias in practical recommender systems with partially inaccessible exposure status [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2024, 46(2): 957-974.
[21]Li Lihong, Chu Wei, Langford J, et al. A contextual-bandit approach to personalized news article recommendation [C]// Proc of the 19th International Conference on World Wide Web. New York: ACM Press, 2010: 661-670.
[22]Zhu Zheqing, Van Roy B. Scalable neural contextual bandit for re-commender systems [C]// Proc of the 32nd ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2023: 3636-3646.
[23]Shi Qicai, Xiao Feng, Pickard D, et al. Deep neural network with LinUCB: a contextual bandit approach for personalized recommendation [C]// Proc of the 32nd World Wide Web Conference. New York: ACM Press, 2023: 778-782.
[24]Feng Zhichao, Wang Pengfei, Li Kaiyuan, et al. Contextual MAB oriented embedding denoising for sequential recommendation [C]// Proc of the 17th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2024: 199-207.
[25]Harper F M, Konstan J A. The MovieLens datasets: history and context [J]. ACM Trans on Interactive Intelligent Systems, 2015, 5(4): 1-19.