顧軍華,樊 帥,李寧寧,張素琪
(1.河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401;2.河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室(河北工業(yè)大學(xué)),天津 300401;3.天津商業(yè)大學(xué)信息工程學(xué)院,天津 300134)
隨著互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)量呈現(xiàn)指數(shù)級的增長。由于信息超載,用戶很難在眾多的選擇中挑選出自己感興趣的物品。為了提高用戶體驗(yàn),推薦系統(tǒng)應(yīng)運(yùn)而生,已廣泛應(yīng)用于音樂推薦、電影推薦和網(wǎng)上購物等場景。
早期的推薦系統(tǒng)主要采用基于協(xié)同過濾的方法,但該方法存在數(shù)據(jù)稀疏和冷啟動問題?;谥R圖譜(Knowledge Graph,KG)的推薦方法緩解了上述問題,并進(jìn)一步提高了推薦的準(zhǔn)確性、多樣性和可解釋性,因此該方法成為現(xiàn)階段研究的熱點(diǎn)。2018 年,Wang 等提出RippleNet(Ripples Network)模型,在KG 中RippleNet 通過計(jì)算項(xiàng)目與頭實(shí)體在關(guān)系空間的相似程度來聚合鄰域信息;2019 年,Wang 等提出知識圖譜卷積網(wǎng)絡(luò)(Knowledge Graph Convolutional Network,KGCN)模型,Wang 等提出了知識圖譜注意力(Knowledge Graph ATtention,KGAT)模型,在KG 中KGCN 通過計(jì)算用戶對知識圖譜中關(guān)系的偏好程度來聚合鄰域信息,KGAT 通過計(jì)算頭實(shí)體和尾實(shí)體在關(guān)系空間的距離來聚合鄰域信息。RippleNet 和KGAT 模型提出的聚合方式?jīng)]有考慮用戶信息,而用戶信息的引入對聚合鄰域信息有較好的可解釋性。KGCN 在聚合鄰域信息時,雖然考慮了用戶信息,但沒有考慮KG 中實(shí)體信息,實(shí)體的信息也會影響鄰域?qū)嶓w的聚合。另外,這些模型僅利用用戶的長期興趣做推薦,忽略了用戶的短期興趣,而用戶的短期興趣對用戶的整體偏好有重要的影響。因此,為了結(jié)合用戶的長期興趣和短期興趣做推薦以及解決聚合方式存在的問題,本文提出了基于知識圖偏好注意力網(wǎng)絡(luò)的長短期推薦(Knowledge Graph Preference Attention network based Long-and Short-term recommendation,KGPATLS)模型。該模型提出偏好注意力網(wǎng)絡(luò)的聚合方式以及結(jié)合用戶長期興趣和短期興趣的用戶表示方法。
當(dāng)模型需要更新時,多采用基于歷史數(shù)據(jù)的全量更新和基于新數(shù)據(jù)的增量更新。然而隨著海量數(shù)據(jù)的積累,全量更新存在嚴(yán)重的計(jì)算壓力和龐大的存儲開銷,而基于新數(shù)據(jù)的增量更新方法又存在著災(zāi)難性遺忘問題。為了緩解增量更新存在的災(zāi)難性遺忘,針對上面提出的基于知識圖偏好注意力網(wǎng)絡(luò)的長短期推薦模型,本文提出了融合預(yù)測采樣和知識蒸餾的增量更新方法(incremental updating method of Fusing Predict Sampling and Knowledge Distillation,F(xiàn)PSKD)以緩解KGPATLS 在增量更新過程中存在的災(zāi)難性遺忘問題,即減輕模型對用戶舊偏好的遺忘。
u
。根據(jù)用戶交互的所有歷史項(xiàng)目訓(xùn)練得到用戶的長期興趣表示。用戶的長期興趣表示u
和用戶的短期興趣表示u
通過多層感知機(jī)(MultiLayer Perceptron,MLP)結(jié)合起來得到用戶的向量表示u
;最后,通過內(nèi)積的方式計(jì)算用戶對待推薦項(xiàng)目的評分。圖1 KGPATLS模型結(jié)構(gòu)Fig.1 KGPATLS model structure
偏好注意力網(wǎng)絡(luò)是知識圖偏好注意力網(wǎng)絡(luò)中鄰域信息的聚合方式。該聚合方式既考慮了用戶的信息,又綜合考慮了知識圖譜中關(guān)系和尾實(shí)體的信息,具有較好的可解釋性。
示例如圖2 所示,用戶喜歡看《泰坦尼克號》,該電影由詹姆斯·卡梅隆執(zhí)導(dǎo),萊昂納多·迪卡普里奧主演?!短┨鼓峥颂枴吩谥R圖譜中對應(yīng)的關(guān)系和尾節(jié)點(diǎn)分別為(執(zhí)導(dǎo),詹姆斯·卡梅隆)、(主演,萊昂納多·迪卡普里奧),如果用戶更關(guān)注執(zhí)導(dǎo)關(guān)系,則執(zhí)導(dǎo)關(guān)系占比重較大,但用戶本身如果不喜歡詹姆斯·卡梅隆,此時聚合鄰域信息,會加強(qiáng)噪聲的引入,影響用戶偏好。因此,需要結(jié)合關(guān)系和尾節(jié)點(diǎn)綜合考慮。
圖2 示例圖Fig.2 Example diagram
KGPAT 以項(xiàng)目為中心節(jié)點(diǎn)實(shí)體構(gòu)建知識圖譜,每一個項(xiàng)目都可以構(gòu)建一個知識圖譜KG,然后利用KGPAT 得到項(xiàng)目的向量表示。KG 可以由實(shí)體―關(guān)系―實(shí)體三元組(h
,r
,t
)表示。這里的h
∈E
、r
∈R
和t
∈E
分別表示KG 的頭實(shí)體、關(guān)系和尾節(jié)點(diǎn),E
和R
分別是知識圖譜中的實(shí)體集合和關(guān)系集合。圖3 為KGPAT 模型結(jié)構(gòu)。圖3(a)以項(xiàng)目為中心構(gòu)建知識圖譜,通過隨機(jī)采樣節(jié)點(diǎn)數(shù)和偏好注意力網(wǎng)絡(luò)計(jì)算權(quán)重得分獲得圖3(b)。通過式(3),即可獲得圖3(c)中的一階實(shí)體表示v
。將上述操作重復(fù)K
層,即可獲得實(shí)體的K
階實(shí)體表示v
。圖3 KGPAT模型結(jié)構(gòu)Fig.3 KGPAT model structure
下面主要介紹一層KGPAT 模型結(jié)構(gòu),最后再向多層結(jié)構(gòu)做擴(kuò)展。對于一個項(xiàng)目v
,N
(v
)表示與v
直接相連的一跳鄰域集合。使用如下偏好注意力網(wǎng)絡(luò)公式計(jì)算權(quán)重得分:u
∈R、e
∈R和r
∈R分別為用戶、尾實(shí)體的向量表示和實(shí)體e
和e
之間關(guān)系,d
為向量維度;σ
為非線性函數(shù);W
∈R和b
∈R為權(quán)重和偏置;u
·r
e
表示用戶對關(guān)系和實(shí)體綜合考慮的偏好程度。e
是項(xiàng)目v
鄰域?qū)嶓w的向量表示。式(4)為權(quán)重得分的歸一化處理:σ
為非線性函數(shù),W
∈R和b
∈R為權(quán)重和偏置。模型為多層結(jié)構(gòu),低層時可獲取低階實(shí)體信息,高層時可以挖掘高階實(shí)體信息。若將KGPAT 模型從一層擴(kuò)展到多層,則間接相連的實(shí)體也會影響項(xiàng)目的最終表示。一個實(shí)體的K
階向量表示是實(shí)體本身與其K
跳鄰域?qū)嶓w信息聚合。使用如下公式計(jì)算項(xiàng)目的K
階向量表示v
作為最終的項(xiàng)目向量表示。v
為基準(zhǔn),{v
,v
,…,v
}為用戶u
近期交互的L
個歷史項(xiàng)目向量表示,使用如下公式計(jì)算用戶的短期興趣表示u
。α
為注意力系數(shù),計(jì)算公式為:W
∈R和b
∈R為注意力機(jī)制的權(quán)重和偏置。根據(jù)用戶交互的所有歷史項(xiàng)目訓(xùn)練得到用戶的長期興趣表示u
,將用戶的長期興趣表示u
∈R和用戶的短期興趣表示u
∈R一起輸入到MLP 中,這里取一層隱藏層,即可完整地獲得用戶偏好,記為u
∈R。W
∈R和b
∈R為MLP 的權(quán)重和偏置。最后,將用戶表示u
和待推薦項(xiàng)目表示v
通過內(nèi)積獲得用戶交互待推薦項(xiàng)目的概率。t
做模型更新,周期t
的數(shù)據(jù)是新數(shù)據(jù)N
(New data),周期t
之前的數(shù)據(jù)都是歷史數(shù)據(jù)D
(All history data)。周期t
前一周期t
-1 已經(jīng)訓(xùn)練好的舊模型命名為f
(θ
)。首先,用預(yù)測采樣方法從t
周期之前的所有歷史數(shù)據(jù)D
(All history data)中采樣出模型f
(θ
)預(yù)測準(zhǔn)確的數(shù)據(jù)S
(Accuracy data)和預(yù)測不準(zhǔn)確的數(shù)據(jù)S
′
(Inaccuracy data)與N
合并作為在線數(shù)據(jù)(Online data)更新模型,S
用于知識蒸餾(Knowledge Distillation),聯(lián)合預(yù)測采樣和知識蒸餾的目標(biāo)函數(shù)一起更新模型。圖4 KGPATLS模型的更新方法Fig.4 Updating method of KGPATLS model
使用預(yù)測采樣方法是為了得到有代表性的歷史數(shù)據(jù)和新數(shù)據(jù)一塊更新模型,來鞏固模型之前學(xué)到的知識,緩解災(zāi)難性遺忘問題。
預(yù)測采樣方法需要考慮如何采樣S
和S
′
。定義兩個超參數(shù)m
和m
,分別用來限定采樣S
的數(shù)據(jù)量和采樣S
′
的數(shù)據(jù)量。針對于周期t
,f
(θ
)對所有的歷史數(shù)據(jù)D
做預(yù)測,將D
的預(yù)測結(jié)果按照順序排序。取出S
的公式如下:n
表示t
-1 周期采樣出來的前n
預(yù)測準(zhǔn)確的數(shù)據(jù)量。取出S
′
公式如下:衡量預(yù)測準(zhǔn)確與否的公式如下:
label
表示真實(shí)值(0 或1),pre_score
表示模型對歷史數(shù)據(jù)的預(yù)測結(jié)果。distance
越小,表明模型對該數(shù)據(jù)的預(yù)測結(jié)果和真實(shí)值越接近,即預(yù)測準(zhǔn)確的數(shù)據(jù);反之,即預(yù)測不準(zhǔn)確的數(shù)據(jù)。模型在更新過程中歷史數(shù)據(jù)會不斷地增加,考慮到實(shí)驗(yàn)運(yùn)行效率的問題預(yù)測采樣較少的數(shù)據(jù)是合適的,因此僅僅依賴于預(yù)測采樣的舊數(shù)據(jù)來約束參數(shù)是不夠的。為了加強(qiáng)對舊模型參數(shù)的約束減輕遺忘,提出在損失函數(shù)中加入知識蒸餾損失來更好地鞏固用戶舊的偏好。提出的知識蒸餾損失如下:
L
是推薦任務(wù)的損失函數(shù),λ
是超參數(shù)。計(jì)算公式如下:為了驗(yàn)證KGPATLS 模型和FPSKD 的有效性,實(shí)驗(yàn)分為兩部分:1)將KGPATLS 模型應(yīng)用到MovieLens-1M 和Last.FM兩個公共數(shù)據(jù)集上,通過實(shí)驗(yàn),驗(yàn)證模型的有效性;2)將提出的FPSKD 應(yīng) 用 到KGPATLS 模 型,在MovieLens-1M 和Last.FM 兩個公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析,驗(yàn)證FPSKD 在保持模型性能的同時,可以高效地更新模型。
本文選用來自電影領(lǐng)域和音樂領(lǐng)域的兩個基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集內(nèi)容如下:
1)MovieLens-1M:是電影推薦中廣泛使用的基準(zhǔn)數(shù)據(jù)集,其中包含來自大約3 900 部電影的6 040 個用戶的753 772 個顯式評級。每個評級是1 到5 之間的整數(shù)。
2)Last.FM:來自在線音樂系統(tǒng),其中包含來自大約4 000 部電影的1 872 個用戶的42 346 顯式評級。數(shù)據(jù)集的具體統(tǒng)計(jì)結(jié)果見表1。
表1 數(shù)據(jù)集統(tǒng)計(jì)Tab 1 Dataset statistics
本文實(shí)驗(yàn)為點(diǎn)擊率預(yù)測,即判斷用戶是否會對待推薦項(xiàng)目感興趣。評估模型性能的評價指標(biāo)為曲線下面積(Area Under Curve,AUC)和準(zhǔn)確率(Accuracy,Acc)。
3.3.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)的參數(shù)設(shè)置見表2。N
表示知識圖譜中鄰域節(jié)點(diǎn)的采樣個數(shù),d
表示向量維度,K
表示知識圖譜的迭代層數(shù),L
表示用戶近期交互項(xiàng)目的個數(shù),λ
為正則化系數(shù),lr
為學(xué)習(xí)率,batch
為批處理大小。實(shí)驗(yàn)中將每一個數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測試集,三者的比例為6∶2∶2。每個實(shí)驗(yàn)重復(fù)3 次,取平均實(shí)驗(yàn)結(jié)果。表2 實(shí)驗(yàn)參數(shù)設(shè)置Tab 2 Experimental parameter setting
3.3.2L
值選擇選取不同的L
值,將KGPATLS 模型在兩組數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。不同L
值所對應(yīng)KGPATLS 模型實(shí)驗(yàn)性能實(shí)驗(yàn)結(jié)果如表3 所示。表3 不同L值下KGPATLS模型實(shí)驗(yàn)性能Tab 3 Experimental performance of KGPATLS model with different L values
從表3 中可以看到,在MovieLens-1M 數(shù)據(jù)集上,當(dāng)L
=5 時模型的效果最佳;在Last.FM 數(shù)據(jù)集上,當(dāng)L
=7 時模型的效果最佳。當(dāng)L
較小時模型的效果不佳,因?yàn)楫?dāng)L
值選擇過小,利用的用戶歷史項(xiàng)目過少,不能有效地挖掘用戶的短期興趣特征;當(dāng)L
值選擇過大,會導(dǎo)致過擬合,使用戶短期興趣表示不準(zhǔn)確。3.3.3 對比模型
將本文提出的KGPATLS 與下面的四種模型在相同的兩組數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)結(jié)果比較。
1)CKE(Collaborative Knowledge base Embedding)。利用TransE(Translating Embeddings)表示知識圖譜,并將該類信息與文本以及圖像信息融入到模型中以共同學(xué)習(xí)用戶和項(xiàng)目表示。
2)LibFM(Factorization Machine Library)。將基于特征因子分解機(jī)的方法應(yīng)用在點(diǎn)擊率預(yù)測任務(wù)。
3)RippleNet。使用了多跳鄰域結(jié)構(gòu),通過在知識圖譜實(shí)體集上傳播用戶興趣,從而自主迭代地沿著知識圖譜中的鏈接來擴(kuò)展用戶的潛在興趣。
4)KGCN。通過采樣固定數(shù)量的鄰域作為候選項(xiàng)目的感受野,利用圖卷積網(wǎng)絡(luò)自動捕獲高階結(jié)構(gòu)和語義信息。
3.3.4 對比實(shí)驗(yàn)結(jié)果及分析
對比實(shí)驗(yàn)結(jié)果如表4 所示??梢钥闯?,相較于經(jīng)典的推薦模型CKE、LibFM 以及僅考慮用戶長期興趣的知識圖譜推薦模型RippleNet 和KGCN,本文所提模型在兩個公共數(shù)據(jù)集上性能都有所提高。相較于最優(yōu)基線模型KGCN,KGPATLS模型的AUC 指標(biāo)在兩個數(shù)據(jù)集上分別有2.2%和1.4%的提升,Acc 指標(biāo)在兩個數(shù)據(jù)集分別有2.5%和2.9%的提升。
表4 不同模型的實(shí)驗(yàn)結(jié)果Tab 4 Experimental results of different models
實(shí)驗(yàn)中,CKE 表現(xiàn)不佳,說明TransE 方法不能有效學(xué)習(xí)知識圖譜的信息;LibFM 相較于CKE 取得了較好的性能,表明額外使用實(shí)體嵌入可以提高推薦性能。相較于上述兩種模型,RippleNet 和KGCN 表現(xiàn)出了滿意的性能。RippleNet 在知識圖譜上傳播用戶興趣,從而自主迭代地沿著知識圖譜中的路徑擴(kuò)展用戶潛在的興趣,但沒有考慮待推薦項(xiàng)目的圖譜信息;KGCN 通過圖卷積網(wǎng)絡(luò)得到項(xiàng)目向量表示,但KGCN 沒有有效利用用戶的歷史項(xiàng)目挖掘用戶的潛在興趣。
對比上述四種模型,KGPATLS 模型取得了較好的實(shí)驗(yàn)結(jié)果。KGPATLS 模型根據(jù)用戶歷史交互信息較全面地分析用戶的長期興趣和短期興趣,結(jié)合用戶的長期興趣表示和短期興趣表示得到用戶的表示,而且通過KGPAT 有效地利用了項(xiàng)目的知識圖譜信息。
3.4.1 增量更新的數(shù)據(jù)集劃分
將MovieLens-1M 數(shù)據(jù)集均分為9 份,分別命名為train,day,day,…,day。每一份數(shù)據(jù)集都是按照用戶索引和時間戳預(yù)處理順序排序。使用train 數(shù)據(jù)集來訓(xùn)練初始的模型Base Model,day,day,…,day這8 天的數(shù)據(jù)集用來模擬增量更新。
針對Last.FM 數(shù)據(jù)集,將50%的Last.FM 數(shù)據(jù)劃分為train,然后從完整的Last.FM 數(shù)據(jù)集中再均等地劃分4 個數(shù)據(jù)集命名為day,day,…,day。同樣使用train 數(shù)據(jù)集來訓(xùn)練初始的模型Base Model,day,day,…,day這4 天的數(shù)據(jù)集用來模擬增量更新。
3.4.2 增量更新的實(shí)驗(yàn)設(shè)置
增量更新的實(shí)驗(yàn)設(shè)置如圖5 所示。day中的train用來做增量訓(xùn)練,eval用來評估模型,day用來測試模型。其中,train和eval的劃分比例為6∶4。如train 數(shù)據(jù)中的train用來訓(xùn)練得到初始模型Base Model,train 數(shù)據(jù)中的eval用來評估該模型,day數(shù)據(jù)用來測試該模型。圖5 增量更新實(shí)驗(yàn)設(shè)置Fig.5 Setting of incremental updating experiment
實(shí)驗(yàn)采用評價指標(biāo)AUC、Acc 和訓(xùn)練時間(Training Time)來驗(yàn)證模型的性能。AUC、Acc:每次模型更新,對應(yīng)測試數(shù)據(jù)的實(shí)驗(yàn)結(jié)果是取最優(yōu)模型所對應(yīng)的AUC、Acc 值作為實(shí)驗(yàn)的結(jié)果。
Training Time:i
表示模型更新的次數(shù)。本實(shí)驗(yàn)取i
次運(yùn)行時間的總和作為評估指標(biāo)。為了評估增量更新應(yīng)用到KGPATLS 模型的有效性,模擬真實(shí)的場景,使用第t
天的數(shù)據(jù)來訓(xùn)練和評估模型,第t
+1天的數(shù)據(jù)來測試模型。對于AUC、Acc 使用增量更新過程中i
次實(shí)驗(yàn)結(jié)果評估指標(biāo)的平均值作為最后增量更新方法的評估結(jié)果。對Training Time,使i
次模型更新花費(fèi)時間的總和作為最后增量更新方法的評估結(jié)果。保存Base Model 中評估指標(biāo)AUC 最好實(shí)驗(yàn)結(jié)果所對應(yīng)的參數(shù)。使用該保存好的參數(shù)做接下來的模型更新。對數(shù)據(jù)集MovieLens-1M,Last.FM 保存的Base Model 參數(shù)如表5 所示。表5 Base Model的參數(shù)Tab 5 Parameters of Base Model
3.4.3 增量更新方法對比
為了證明FPSKD 在KGPATLS 模型上的有效性,對比增量更新方法。
FT(Fine Tune):只使用新數(shù)據(jù)來更新舊模型。
RS(Random Sampling):使用新數(shù)據(jù)和隨機(jī)采樣的一部分舊數(shù)據(jù)來更新模型。
FPSKD:結(jié)合預(yù)測采樣和知識蒸餾的增量更新方法。考慮到實(shí)驗(yàn)效率的問題預(yù)測采樣較少的數(shù)據(jù)是合理的,因此僅僅依賴于預(yù)測采樣的舊數(shù)據(jù)來約束參數(shù)是不夠的。為了加強(qiáng)對舊模型參數(shù)的約束避免遺忘,提出在損失函數(shù)中加入知識蒸餾損失更好地鞏固用戶老的興趣。
FB(Full Batch):每次更新模型,都使用舊數(shù)據(jù)和新數(shù)據(jù)全部的數(shù)據(jù)來重新訓(xùn)練模型。
3.4.4 增量更新的實(shí)驗(yàn)結(jié)果及分析
在MovieLens-1M 和Last.FM 兩個數(shù)據(jù)集上,模型更新的具體實(shí)驗(yàn)結(jié)果如表6 所示。
表6 增量更新方法的對比結(jié)果Tab 6 Comparative experimental results of incremental updating methods
針對MovieLens-1M,表6 中的AUC、Acc 使用增量更新過程中7 次實(shí)驗(yàn)結(jié)果的平均值作為增量更新方法的評估結(jié)果。Training Time中i
=7;針對Last.FM,表6 中的AUC、Acc 使用增量更新過程中3 次實(shí)驗(yàn)結(jié)果的平均值作為增量更新方法的評估結(jié)果。Training Time,i
=3。通過實(shí)驗(yàn)結(jié)果的對比可以發(fā)現(xiàn):1)在MovieLens-1M 數(shù)據(jù)集上,F(xiàn)T 已經(jīng)具有較好的實(shí)驗(yàn)結(jié)果,與FB 實(shí)驗(yàn)結(jié)果相差不多,災(zāi)難性遺忘不嚴(yán)重。在AUC和Acc 指標(biāo)上,F(xiàn)PSKD 的優(yōu)于FT 和RS,與FB 實(shí)驗(yàn)結(jié)果相接近,而且在AUC 指標(biāo)上優(yōu)于FB;在Training Time指標(biāo)上,F(xiàn)PSKD 明顯優(yōu)于FB。2)在Last.FM 數(shù)據(jù)集上,F(xiàn)T 與FB 比MovieLens-1M 數(shù)據(jù)集上存在更嚴(yán)重的災(zāi)難性遺忘問題。FPSKD 的AUC 和Acc 優(yōu)于FT 和RS,與FB 實(shí)驗(yàn)結(jié)果相差不大,且FPSKD 的Training Time明顯優(yōu)于FB。圖6 展示了每次模型更新的實(shí)驗(yàn)結(jié)果和實(shí)驗(yàn)數(shù)據(jù)的整體趨勢。
圖6 各數(shù)據(jù)集上模型每次更新的AUC和Acc值Fig.6 ACC and Acc values of each update by different models on different datasets
綜上可以得出實(shí)驗(yàn)結(jié)論,F(xiàn)PSKD 是有效的增量更新方法,可以在保持模型性能的前提下,高效地更新模型。
3.4.5 FPSKD消融實(shí)驗(yàn)對比
為了分析預(yù)測采樣和知識蒸餾在FPSKD 中起到的作用,進(jìn)行了FPSKD 的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7 所示。PS 是基于預(yù)測采樣的增量更新方法,使用預(yù)測采樣得到的兩部分?jǐn)?shù)據(jù)和用戶最近交互的新數(shù)據(jù)合并形成在線數(shù)據(jù)來更新舊模型,沒有融合知識蒸餾。PA(Predict Accuracy)是只采樣舊模型預(yù)測準(zhǔn)確的數(shù)據(jù)和新數(shù)據(jù)合并形成在線數(shù)據(jù)更新模型的方法;PI(Predict Inaccuracy)是只采樣舊模型預(yù)測不準(zhǔn)確的數(shù)據(jù)和新數(shù)據(jù)合并形成在線數(shù)據(jù)更新模型的方法。
表7 FPSKD變體實(shí)驗(yàn)結(jié)果的對比Tab 7 Comparison of experimental results of FPSKD variants
實(shí)驗(yàn)結(jié)果表明,PS 比PA 和PI 應(yīng)用到KGPATLS 模型上表現(xiàn)出更好的性能。因此,PS 是合理的。FPSKD 優(yōu)于PS,說明知識蒸餾在解決災(zāi)難性遺忘的問題上起到了一定的作用。
本文首先提出基于知識圖偏好注意力網(wǎng)絡(luò)的長短期推薦模型,該模型提出偏好注意力網(wǎng)絡(luò)的聚合方式以及結(jié)合用戶長期興趣和短期興趣的用戶表示方法;其次,將融合預(yù)測采樣和知識蒸餾的增量更新方法應(yīng)用于該模型進(jìn)行模型更新;最后,通過實(shí)驗(yàn)證明了本文提出模型和增量更新方法的有效性。在未來,考慮到用戶的長期興趣是穩(wěn)定的不容易變化的,而用戶的短期興趣是容易隨時間改變的,針對長短期模型的特性,分別設(shè)計(jì)用戶的長期興趣和短期興趣不同的增量更新方法來更新模型。