林 威
(華南師范大學(xué)計算機學(xué)院,廣東 廣州 510631)
在線新聞服務(wù)的便捷性使得許多用戶的新聞閱讀習(xí)慣已經(jīng)從傳統(tǒng)的實體報紙轉(zhuǎn)向數(shù)字新聞內(nèi)容,但新聞平臺上無時無刻都在發(fā)布的海量內(nèi)容也讓用戶不堪重負(fù)。因此,個性化的新聞推薦技術(shù)對于緩解信息過載和提高用戶閱讀體驗極為重要,被廣泛應(yīng)用于今日頭條、微軟新聞等主流的在線新聞平臺。近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,個性化的新聞推薦技術(shù)也越來越受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[1]。
現(xiàn)有的大多數(shù)新聞推薦方法都依賴于用戶的點擊行為來推斷用戶興趣并基于固定數(shù)據(jù)集進行迭代訓(xùn)練。然而,在線新聞平臺每時每刻都會出現(xiàn)大量新的新聞數(shù)據(jù)和用戶交互記錄,在現(xiàn)實世界中運行的新聞推薦系統(tǒng)需要從持續(xù)的新聞平臺數(shù)據(jù)流中動態(tài)學(xué)習(xí)新的新聞和新的用戶。
為此,本文基于以上現(xiàn)實場景提出增量學(xué)習(xí)設(shè)置,在新聞推薦任務(wù)中引入增量學(xué)習(xí)方法幫助模型進行增量更新。具體而言,新聞推薦模型以數(shù)據(jù)更新周期為單位不斷更新,更新后的新聞推薦模型在下一個數(shù)據(jù)更新周期前為用戶提供新聞推薦。
增量學(xué)習(xí)的主要挑戰(zhàn)為災(zāi)難性遺忘問題[2],表現(xiàn)為在新任務(wù)上訓(xùn)練完成后的模型在過往的舊任務(wù)上的性能發(fā)生斷崖式下跌。最簡單的解決方案為聯(lián)合訓(xùn)練(Joint Training),在每個數(shù)據(jù)更新周期都使用所有歷史數(shù)據(jù)重新訓(xùn)練模型,但對于在線新聞平臺來說,歷史數(shù)據(jù)的不斷累積會導(dǎo)致新聞推薦模型的訓(xùn)練時間和存儲開銷不斷增大,無法直接應(yīng)用。
新聞推薦模型進行增量學(xué)習(xí)需要處理新聞推薦任務(wù)輸入流的非平穩(wěn)分布導(dǎo)致的災(zāi)難性遺忘問題。通常,新聞推薦任務(wù)數(shù)據(jù)流隨著時間變化,在t時刻,僅利用當(dāng)前時刻的數(shù)據(jù)進行更新的新聞推薦模型Ft對于t時刻前的新聞和用戶的建模不可避免地發(fā)生偏移,無法很好地擬合舊數(shù)據(jù)。新聞推薦模型的關(guān)鍵在于新聞文本的建模和用戶偏好的建模。目前,以BERT[3]為代表的預(yù)訓(xùn)練語言模型(Pre-trained Language Models)憑借其強大的文本建模能力已經(jīng)在自然語言處理領(lǐng)域取得了巨大的成功,并且可以很好地應(yīng)用于新聞推薦任務(wù)以挖掘新聞文本的深層語義特征[4]。因此,本文的研究重點在于如何在新聞推薦模型增量學(xué)習(xí)過程保持相對穩(wěn)定的用戶偏好,使得模型不會忘記之前的用戶偏好。
針對上述問題,本文提出基于自監(jiān)督學(xué)習(xí)[5]和數(shù)據(jù)回放(Self-supervised Learning and Data Replay)的新聞推薦模型增量學(xué)習(xí)方法SSL-DR。SSL-DR 方法通過構(gòu)建自監(jiān)督學(xué)習(xí)任務(wù)來捕獲用戶在新聞推薦模型增量學(xué)習(xí)過程中的穩(wěn)定偏好,使得用戶特征具有任務(wù)無關(guān)性。代表用戶穩(wěn)定偏好的用戶特征繼續(xù)參與新聞推薦模型的訓(xùn)練,可以適應(yīng)任務(wù)輸入流的變化,有效地減輕災(zāi)難性遺忘問題。此外,鑒于基于回放的增量方法的優(yōu)越性能,SSL-DR 方法提出基于用戶對于候選新聞的點擊概率分?jǐn)?shù)的采樣策略,從舊任務(wù)中選取具有代表性的數(shù)據(jù),在新任務(wù)的訓(xùn)練階段進行回放和新任務(wù)的數(shù)據(jù)聯(lián)合訓(xùn)練。在此基礎(chǔ)上,SSLDR 方法基于知識蒸餾[6]的思想將舊模型的知識強制轉(zhuǎn)移至新模型中,進一步加強對于已學(xué)知識的記憶。
本文的主要工作如下:
1)出于對現(xiàn)實世界中的新聞推薦場景的考慮,本文在新聞推薦任務(wù)中引入增量學(xué)習(xí)設(shè)置,并通過自監(jiān)督學(xué)習(xí)來學(xué)習(xí)用戶的穩(wěn)定偏好。
2)為了鞏固對于已學(xué)知識的記憶,本文提出基于用戶對于候選新聞的點擊概率分?jǐn)?shù)的采樣策略實現(xiàn)樣本回放,并通過知識蒸餾策略加強約束。
3)在公開新聞推薦數(shù)據(jù)集MIND[7](包括2 個版本:MIND_large 和MIND_small)的實驗結(jié)果表明了SSL-DR 方法在新聞推薦模型的增量學(xué)習(xí)方面的優(yōu)越性能和減輕災(zāi)難性遺忘的能力。
傳統(tǒng)的新聞推薦方法通?;趨f(xié)同過濾技術(shù),根據(jù)用戶和新聞之間的相似性預(yù)測新聞的排名。然而,基于協(xié)同過濾的方法通常存在冷啟動和數(shù)據(jù)稀疏性等問題。為此,大量基于內(nèi)容的新聞推薦方法或混合推薦方法被提出。比如,Son 等人[8]提出了一種基于位置進行分析的新聞推薦方法,每個位置對應(yīng)一個與該位置相關(guān)的地理主題。
近年來,基于深度學(xué)習(xí)的方法廣泛應(yīng)用于新聞推薦領(lǐng)域,可以很好地建模用戶和新聞之間的交互。其中,Zhu 等人[9]利用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolution Neural Network)和注意力機制,綜合考慮用戶的歷史序列和用戶當(dāng)前的興趣偏好。Wu 等人[10]提出了基于個性化注意力機制的新聞推薦模型,將用戶ID 作為用戶偏好動態(tài)選擇新聞的重要信息。Zhang 等人[11]將知識圖譜視為輔助信息的來源,基于用戶行為中的主題和實體挖掘用戶偏好。
然而,現(xiàn)有的新聞推薦方法專注于用戶偏好建模或新聞建模,對于現(xiàn)實場景下的增量學(xué)習(xí)設(shè)置以及相應(yīng)的災(zāi)難性遺忘問題仍待探索。
增量學(xué)習(xí)旨在使得模型不斷學(xué)習(xí)新任務(wù),同時保持在已學(xué)習(xí)任務(wù)上的性能。通常,增量學(xué)習(xí)分為3 種類型[12],即:任務(wù)增量、類增量和域增量。任務(wù)增量需要每個任務(wù)與之對應(yīng)的輸出單元,類增量學(xué)習(xí)需要不斷學(xué)習(xí)從未出現(xiàn)過的新類別,域增量學(xué)習(xí)則需要處理非平穩(wěn)分布的數(shù)據(jù)流。
增量學(xué)習(xí)面臨的主要挑戰(zhàn)為災(zāi)難性遺忘問題,現(xiàn)有方法可簡單分為:基于正則化的方法、基于回放的方法以及基于動態(tài)網(wǎng)絡(luò)結(jié)構(gòu)的方法?;趧討B(tài)網(wǎng)絡(luò)結(jié)構(gòu)的方法在增量學(xué)習(xí)過程中動態(tài)擴展網(wǎng)絡(luò)結(jié)構(gòu),在現(xiàn)實場景下持續(xù)擴展網(wǎng)絡(luò)結(jié)構(gòu)是不切實際的,因此本文只關(guān)注前面2類方法。
1.2.1 基于正則化的方法
基于正則化的方法主要通過在新任務(wù)的損失函數(shù)增加正則化項來緩解災(zāi)難性遺忘。Li 等人[13]提出通過知識蒸餾的方式保留之前任務(wù)的知識,將舊模型的知識強制轉(zhuǎn)移至新模型中。Kirkpatrick 等人[14]通過FIM(Fisher Information Matrix)近似估計模型參數(shù)的重要性,約束重要參數(shù)在增量訓(xùn)練中不會發(fā)生明顯變化。Zenke 等人[15]以及Chaudhry 等人[16]進一步擴展了此類方法。
1.2.2 基于回放的方法
增量學(xué)習(xí)通常假設(shè)模型在學(xué)習(xí)新任務(wù)時無法獲取舊任務(wù)數(shù)據(jù)?;诨胤诺姆椒ǚ艑掃@一限制,允許保存部分舊任務(wù)數(shù)據(jù)。Rebuffi 等人[17]首次提出基于回放的方法并通過Herding 技術(shù)來選擇舊任務(wù)的樣本,與新數(shù)據(jù)組合用于模型訓(xùn)練。Riemer 等人[18]提出經(jīng)驗回放ER(Experience Replay)方法,通過Reservoir Sampling 進行樣本選取并將其結(jié)合到當(dāng)前任務(wù)的訓(xùn)練批中。Buzzega 等人[19]在ER 的基礎(chǔ)上,依靠暗知識提取舊任務(wù)的經(jīng)驗。
自監(jiān)督學(xué)習(xí)旨在提供強大的深度特征學(xué)習(xí),而不需要大規(guī)模的標(biāo)記數(shù)據(jù)集,在許多下游任務(wù)中幾乎達到甚至超過監(jiān)督學(xué)習(xí)的性能[20]。
最初,基于實例判別的對比學(xué)習(xí)方法取得了巨大成功,基本思想是將每個實例視為一個類,在嵌入空間中將同一實例的視圖拉得更近,不同實例的視圖推得更遠。然而,這類方法需要從內(nèi)存[21]或當(dāng)前批中[5]搜索不同實例,成本較高。最近,Grill 等人[22]和Chen 等人[23]引入不對稱的自監(jiān)督學(xué)習(xí)架構(gòu),只使用輸入的一個扭曲版本進行更新,而來自另一個扭曲版本的特征表示則用作固定目標(biāo),很好地解決了以上問題。通過自監(jiān)督學(xué)習(xí),模型可以學(xué)習(xí)到可轉(zhuǎn)移的通用特征。受此啟發(fā),本文在新聞推薦任務(wù)中引入自監(jiān)督學(xué)習(xí)任務(wù),學(xué)習(xí)通用的用戶特征。
本文的新聞推薦問題可以定義為根據(jù)用戶在新聞平臺上的新聞點擊歷史預(yù)測用戶是否會點擊之前沒看過的候選新聞。給定候選新聞xt以及用戶u的新聞點擊歷史,新聞推薦系統(tǒng)根據(jù)候選新聞的特征表示和用戶的特征表示之間的相關(guān)性計算得分并決定是否向用戶推薦該新聞。
基于深度學(xué)習(xí)的新聞推薦模型通常由新聞編碼器(News Encoder)、用戶編碼器(User Encoder)和點擊預(yù)測器(Click Predictor)組成。新聞編碼器N和用戶編碼器U分別對新聞和用戶進行建模,點擊預(yù)測器C根據(jù)新聞特征和用戶特征計算得分。
訓(xùn)練過程中通過負(fù)采樣聯(lián)合預(yù)測k+1 個新聞(k個負(fù)樣本和1 個正樣本)的點擊得分,相應(yīng)的損失函數(shù)為:
其中,y?′i為點擊預(yù)測器的得分,S+為正樣本集合,yj為樣本真實標(biāo)簽。不失一般性,本文方法將基于以上結(jié)構(gòu)的NPA模型[10]作為基礎(chǔ)模型。
新聞推薦任務(wù)的增量學(xué)習(xí)場景屬于域增量學(xué)習(xí)的研究范疇,因此在本節(jié)中,為新聞推薦任務(wù)制定了域增量學(xué)習(xí)設(shè)置,以模擬增量訓(xùn)練新聞推薦模型的實際場景。新聞推薦任務(wù)數(shù)據(jù)通常隨著時間變化。具體而言,在t時刻,新聞推薦模型Ft僅利用t時刻的數(shù)據(jù)Dt進行訓(xùn)練,并在t+1 時刻的數(shù)據(jù)來臨之前為用戶進行新聞推薦。
本節(jié)將詳細(xì)描述SSL-DR 方法的主要內(nèi)容,包括基于自監(jiān)督學(xué)習(xí)的用戶穩(wěn)定偏好和基于用戶點擊概率分?jǐn)?shù)的樣本回放2個方面,總體架構(gòu)如圖1所示。
圖1 總體架構(gòu)
2.3.1 基于自監(jiān)督學(xué)習(xí)的用戶穩(wěn)定偏好
通常,用戶的興趣偏好在瀏覽新聞的過程應(yīng)是保持相對穩(wěn)定的,不會劇烈變化,但通過增量學(xué)習(xí)更新的新聞推薦模型無法直接保持舊用戶的特征表示,使得舊用戶的興趣偏好發(fā)生偏移。自監(jiān)督學(xué)習(xí)的廣泛應(yīng)用已經(jīng)表明了其在學(xué)習(xí)可泛化的通用特征方面發(fā)揮著關(guān)鍵作用[20]。
為此,本文提出在用戶編碼器上構(gòu)建自監(jiān)督學(xué)習(xí)任務(wù)來捕獲用戶在新聞推薦模型增量學(xué)習(xí)過程中的穩(wěn)定偏好,從而可以學(xué)習(xí)到具有任務(wù)無關(guān)性的用戶特征,適應(yīng)任務(wù)輸入流的變化。
具體而言,用戶的點擊歷史通過新聞編碼器得到的新聞特征集合為V={h1,h2,…,hci},其中ci表示當(dāng)前用戶點擊歷史的數(shù)量。首先,需要在新聞特征集合上進行不同的數(shù)據(jù)增強。
實驗表明[24],用戶點擊歷史的序列信息不會導(dǎo)致新聞推薦性能的明顯差異。不難推斷,不同順序的用戶點擊新聞序列可能對應(yīng)相同用戶偏好。為此,本文使用用戶點擊新聞的逆序列和打亂用戶點擊新聞的序列來生成新的視角:
Va和Vb分別經(jīng)過用戶編碼器U得到新的用戶特征u=U(V),用戶特征通過投影層G得到z=G(u),投影層對用戶特征進行改造用于進行自監(jiān)督學(xué)習(xí)任務(wù)。
本文選擇VICReg[25]作為SSL-DR 方法的自監(jiān)督損失函數(shù),以最小批作為單位,構(gòu)建Za={z1,z2,…,zn},Zb={z′1,z′2,…,z′n},其中zi,z′i∈Rd,n為批次大小,d為向量維度,zj表示Za中每個向量的第j個元素組成的向量。
VICReg從方差(Variance)、不變性(Invariance)以及協(xié)方差(Covariance)這3個角度進行了考慮。
方差項v(Z)為最小批中向量的方差,以Hinge 損失函數(shù)的形式進行計算:
其中,γ=1,ε=0.0001,S為正則化標(biāo)準(zhǔn)差。
不變性項s(Za,Zb)為Za和Zb之間每對向量的歐幾里得距離,Za和Zb未經(jīng)過歸一化處理:
協(xié)方差項c(Z)為最小批中向量的協(xié)方差:
VICReg完整的損失函數(shù)包含以上三者:
其中,本文設(shè)置μ=0.5,λ=1,v=0.05。至此,原始點擊歷史V通過U可以得到具有任務(wù)無關(guān)性的用戶特征u,和通過新聞編碼器N得到的新聞特征一起輸入到點擊預(yù)測器進行計算。
2.3.2 基于用戶點擊概率分?jǐn)?shù)的樣本回放
為了保持新聞推薦模型對于舊任務(wù)知識的記憶,SSL-DR方法存儲舊任務(wù)的部分樣本,并在新的時刻t回放數(shù)據(jù)參與新模型的訓(xùn)練。
通常,用戶對于候選新聞的點擊概率分?jǐn)?shù)越高,新聞推薦系統(tǒng)越可能將其推薦給該用戶。反之,分?jǐn)?shù)越低,推薦的概率也更低。正樣本分?jǐn)?shù)越高,負(fù)樣本分?jǐn)?shù)越低,新聞推薦模型的推薦性能越佳。
為此,本文認(rèn)為,符合以上原則的樣本更有助于模型訓(xùn)練。因此,本文提出根據(jù)點擊概率分?jǐn)?shù)高低進行舊任務(wù)的樣本選取。具體而言,k+1 個新聞(k個負(fù)樣本和1 個正樣本)經(jīng)過點擊預(yù)測器會得到相應(yīng)的點擊概率分?jǐn)?shù){y?′1,…,y?′k,y?′k+1},正樣本分?jǐn)?shù)不變,負(fù)樣本分?jǐn)?shù)累加,得到排序主體為:
其中,ypos為正樣本分?jǐn)?shù),yneg為負(fù)樣本{y?′1,…,y?′k}分?jǐn)?shù)之和,sort(·)函數(shù)根據(jù)ypos倒序、yneg升序排序,S為經(jīng)過sort(·)函數(shù)排序的樣本集合。
為了便于在整個增量過程中對內(nèi)存進行管理,本文通過內(nèi)存緩沖區(qū)M存儲總數(shù)為m的樣本。t時刻訓(xùn)練完成后,從S中選擇m/t個樣本,放入M中,M中t時刻前的每個任務(wù)對應(yīng)樣本數(shù)量更新為m/t。假定新來的數(shù)據(jù)為Dt,此時緩沖區(qū)中舊任務(wù)數(shù)據(jù)為Mt,t+1 時刻的數(shù)據(jù)集更新為Et+1=Dt+1?Mt。
基于E進行訓(xùn)練,新聞推薦模型預(yù)測用戶會否點擊候選新聞的損失函數(shù)為:
其中,為E中的正樣本集合。
為了加強新模型對于舊的新聞和用戶的記憶,本文進一步基于知識蒸餾的思想,讓新聞推薦模型Ft對于新樣本的點擊得分趨近于Ft-1對于當(dāng)前樣本的點擊得分,將Ft-1的知識轉(zhuǎn)移至Ft中:
注意,此處不能直接作用于用戶特征,否則會破壞其任務(wù)無關(guān)性。
結(jié)合自監(jiān)督學(xué)習(xí)任務(wù)損失,新聞推薦模型增量學(xué)習(xí)最終的損失函數(shù)為:
本文選用MIND[7]作為實驗數(shù)據(jù)集,官方下載地址為https://msnews.github.io。MIND 是目前新聞推薦算法研究領(lǐng)域應(yīng)用最廣泛的大規(guī)模數(shù)據(jù)集,主要包含behaviors.tsv 和news.tsv 這2 個文件。behaviors.tsv 收集了微軟新聞平臺下匿名用戶的行為日志。news.tsv 為新聞文章的文本信息。MIND 數(shù)據(jù)集有2個版本:MIND_small 和MIND_large,具體統(tǒng)計信息如表1所示。
表1 數(shù)據(jù)集信息
為了模擬新聞推薦模型增量學(xué)習(xí)場景,本文根據(jù)用戶行為日志的日期對數(shù)據(jù)集以天為單位進行劃分,可以得到2019 年11 月9 日至11 月15 日的日志,即7個數(shù)據(jù)更新周期,仍命名為MIND_small 和MIND_large。其中,MIND_small 每個周期的數(shù)據(jù)量為10000,MIND_large每個周期的數(shù)據(jù)量為30000,80%作為訓(xùn)練集,20%作為測試集。
本文實驗中的評估指標(biāo)包括4 個常用的新聞推薦評估指標(biāo),即AUC(Area Under the Curve)、MRR(Mean Reciprocal Rank)、NDCG@5 (Normalized Discounted Cumulative Gain)、NDCG@10。每個實驗獨立重復(fù)5次,并報告平均性能。
本文提出方法與以下主流增量方法比較:
1)Finetune:在每個更新周期中僅使用新數(shù)據(jù)對新聞推薦模型進行微調(diào),存在災(zāi)難性遺忘問題。
2)Joint:在每個更新周期都使用所有歷史數(shù)據(jù)重新訓(xùn)練模型,作為實驗性能的上界。
3)LWF[13]:基于知識蒸餾的思想,強制新舊模型對新來數(shù)據(jù)的輸出一致。
4)oEWC[26]:EWC (Elastic Weight Consolidation)首次提出通過約束重要參數(shù)來減少災(zāi)難性遺忘,oEWC(Online EWC)進行改進只需一個正則化項。
5)iCaRL[17]:第一個基于回放的增量方法,存儲先前任務(wù)的樣本用于新任務(wù)的訓(xùn)練。
6)DER++[21]:在ER的基礎(chǔ)上匹配暗知識。
以上方法都是基于先進的新聞推薦模型NPA[10]進行增量訓(xùn)練,使用ADAM 優(yōu)化器優(yōu)化模型,基于回放的方法在MIND_small和MIND_large 上回放的樣本數(shù)量分別為2000和3000。
注意,本文實驗比較的不是單個新聞推薦模型的推薦性能,而是在新聞推薦模型中應(yīng)用增量學(xué)習(xí)方法后在增量學(xué)習(xí)過程中的整體推薦性能。
3.3.1 與基線方法的對比實驗
本節(jié)將3.2節(jié)中的基線方法與本文方法SSL-DR進行對比,表2 和表3 顯示了所有方法在MIND_small 和MIND_large上經(jīng)過7個更新周期后的平均推薦性能。
表2 MIND_small數(shù)據(jù)集上的性能比較
表3 MIND_large數(shù)據(jù)集上的性能比較
從表2 可以看出,F(xiàn)inetune 方法在新聞推薦模型的增量學(xué)習(xí)過程中能取得不錯性能。Finetune 與Joint之間的差距較小,主要是因為新聞推薦任務(wù)流的數(shù)據(jù)變化過程較為緩慢,舊的用戶和新聞會重復(fù)出現(xiàn)?;谡齽t化的方法如LWF 和oEWC 的推薦性能略優(yōu)于Finetune 方法。顯而易見,一般的正則化手段不能有效緩解災(zāi)難性遺忘問題;與之相比,基于回放的方法如iCaRL 和DER++通過重放數(shù)據(jù)參與新任務(wù)的訓(xùn)練,表現(xiàn)出更好的推薦性能。最后,參與新任務(wù)的訓(xùn)練,表現(xiàn)出更好的推薦性能。SSL-DR 方法在MIND_small 和MIND_large 中所有評估指標(biāo)都能取得最優(yōu)性能。例如,在表3中,本文方法的4個指標(biāo)比目前最好的性能分別提升了0.71、0.61、0.69和0.62個百分點。這主要是因為:1)基于自監(jiān)督學(xué)習(xí)的用戶穩(wěn)定偏好具有任務(wù)無關(guān)性,即使任務(wù)輸入流是非平穩(wěn)的,也不會影響對于舊的用戶的偏好特征;2)基于回放的方法對于增量學(xué)習(xí)的災(zāi)難性遺忘有明顯作用,并且SSL-DR方法通過知識蒸餾進一步鞏固了所學(xué)知識。
3.3.2 消融實驗
本節(jié)通過消融實驗檢驗本文所提方法中各主要組件的有效性。實驗包含3種變種方法:
1)M1:在SSL-DR方法中,只使用自監(jiān)督學(xué)習(xí)學(xué)習(xí)用戶穩(wěn)定偏好,而不使用數(shù)據(jù)回放。
2)M2:在SSL-DR 方法中,只使用數(shù)據(jù)回放,而不使用自監(jiān)督學(xué)習(xí)。
3)M3:在SSL-DR方法中,同時使用自監(jiān)督學(xué)習(xí)學(xué)習(xí)用戶穩(wěn)定偏好和數(shù)據(jù)回放。
圖2 和圖3 給出3 種變種方法在MIND_small 和MIND_large 數(shù)據(jù)集上不同指標(biāo)的對比結(jié)果。不難發(fā)現(xiàn),相對M1 和M2,M3 的4 個指標(biāo)都能在MIND_small 和MIND_large 數(shù)據(jù)集上取得最佳性能。這說明,無論是通過自監(jiān)督學(xué)習(xí)來學(xué)習(xí)用戶穩(wěn)定偏好,還是通過數(shù)據(jù)回放鞏固已學(xué)知識,對于提高新聞推薦模型增量學(xué)習(xí)的整體推薦性能和緩解災(zāi)難性遺忘問題,均有作用。
3.3.3 不同自監(jiān)督損失函數(shù)的對比實驗
本節(jié)主要研究不同自監(jiān)督損失函數(shù)對于SSLDR方法的性能影響。實驗考慮了目前有效的自監(jiān)督學(xué)習(xí)損失函數(shù),包括BYOL[22]、SimCLR[5]、Sim-Siam[23]、Barlow Twins[26]和VICReg[25]。SSL-DR 方法使用以上損失函數(shù)分別在MIND_small 和MIND_large上進行測試,結(jié)果如表4和表5所示。一般而言,使用VICReg 作為損失函數(shù)可以獲得更好的性能。結(jié)合表2和表3中基線方法的性能,SSL-DR方法的用戶穩(wěn)定偏好可以通過不同的自監(jiān)督學(xué)習(xí)損失函數(shù)來實現(xiàn)并取得不錯的性能。
表4 不同自監(jiān)督損失函數(shù)在MIND_small的對比實驗
表5 不同自監(jiān)督損失函數(shù)在MIND_large的對比實驗
考慮到現(xiàn)實世界中的新聞推薦場景,本文提出了基于自監(jiān)督學(xué)習(xí)和數(shù)據(jù)回放的新聞推薦模型增量學(xué)習(xí)方法SSL-DR。SSL-DR 通過在新聞推薦任務(wù)中加入自監(jiān)督學(xué)習(xí)任務(wù)輔助學(xué)習(xí)代表用戶穩(wěn)定偏好的用戶特征,可以適應(yīng)增量學(xué)習(xí)的過程。特別地,SSL-DR針對新聞推薦任務(wù)的特點,提出基于用戶點擊概率分?jǐn)?shù)進行采樣以實現(xiàn)基于數(shù)據(jù)回放的策略,有效緩解了災(zāi)難性遺忘問題。
然而,基于回放的方法帶有更多的內(nèi)存占用的同時,也會引發(fā)數(shù)據(jù)隱私泄露問題(學(xué)習(xí)新任務(wù)時獲取舊任務(wù)數(shù)據(jù))。因此,解決數(shù)據(jù)隱私問題將作為未來工作的重點。