蔡曉東 洪濤 曹藝
(桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541000)
采用知識(shí)圖譜來(lái)構(gòu)建推薦模型可以充分利用圖結(jié)構(gòu)特性對(duì)商品及用戶進(jìn)行準(zhǔn)確的刻畫(huà),從而提升推薦啟動(dòng)速度及準(zhǔn)確率。Zeno等[1]首次采用知識(shí)圖譜來(lái)解決冷啟動(dòng)問(wèn)題并提升了推薦準(zhǔn)確率,第三代推薦模型[2]由此開(kāi)啟了新紀(jì)元。不同于第一、二代推薦模型[2],第三代基于知識(shí)圖譜的推薦模型具有更高的推薦準(zhǔn)確率,并且能夠以此為依托實(shí)現(xiàn)冷啟動(dòng)推薦[2]。第二代推薦模型主要解決的是數(shù)據(jù)稀疏問(wèn)題,而第三代模型主要解決冷啟動(dòng)及準(zhǔn)確推薦問(wèn)題。
本研究所提方法本質(zhì)是解決推薦準(zhǔn)確率低和冷啟動(dòng)問(wèn)題。楊志等[3]提出了一種間接交互與因式分解相融合的推薦方法,解決模型訓(xùn)練時(shí)間過(guò)長(zhǎng)的問(wèn)題。該方法為第二代推薦模型的最新研究,其基本思路借鑒了因子分解機(jī)(FM)[4]及協(xié)同過(guò)濾(CF)[5]模型,在訓(xùn)練時(shí)間上快于圖注意力推薦網(wǎng)絡(luò)(KGAT)模型。不同于傳統(tǒng)研究(第一和第二代推薦模型),前沿方法不僅強(qiáng)調(diào)圖譜信息的準(zhǔn)確表述與挖掘,同時(shí)也注重對(duì)推薦過(guò)程的準(zhǔn)確描述。Wang等[6]等提出的KGAT模型為相關(guān)領(lǐng)域在解決推薦過(guò)程準(zhǔn)確表述問(wèn)題上的前沿研究。
基于嵌入學(xué)習(xí)或網(wǎng)絡(luò)表述學(xué)習(xí)的知識(shí)圖譜表述及學(xué)習(xí)方法由于其輕便及節(jié)點(diǎn)不固定的特性受到了研究人員的青睞。Bordes等[7]提出了TransE分?jǐn)?shù)策略模型,而后在推薦領(lǐng)域不斷演進(jìn)出了TransD、TransH、TransR[8- 10]。同樣,在鏈接預(yù)測(cè)領(lǐng)域TransE的演進(jìn)模型RotatE[11]也有不俗的表現(xiàn)。這里,本文所提的極化關(guān)系表述學(xué)習(xí)模型受RotatE和TransH的啟發(fā),通過(guò)酉空間特性[12]對(duì)節(jié)點(diǎn)間的關(guān)系進(jìn)行表述,不僅考慮節(jié)點(diǎn)間的關(guān)系在實(shí)數(shù)域的表達(dá),同時(shí)也充分利用其復(fù)數(shù)域。通過(guò)準(zhǔn)確的模型表示,知識(shí)圖譜中的有效信息可以得到更加充分的挖掘,從而使該過(guò)程獲得更多的有效信息。
目前,實(shí)現(xiàn)利用知識(shí)圖譜實(shí)現(xiàn)準(zhǔn)確推薦的方法大致可以分為兩種,一是在推薦過(guò)程中增加有效信息,PMN[13]、ATBRG[14]等算法都采用這一思路;二是減少推薦過(guò)程中的無(wú)效信息,但這一方法往往會(huì)和其他方法結(jié)合,如協(xié)同濾波[5]中就將濾波網(wǎng)絡(luò)和特征機(jī)結(jié)合;同時(shí)類似DLALSTM[15]這類通過(guò)注意力學(xué)習(xí)的方式亦可粗略地看作是一種減少無(wú)效信息的方法。充分考慮低維信息是一種增加有效信息的方法,Rendle[4]就提出了FM模型解決低維信息挖掘不充分問(wèn)題,但是該方法卻不能很好的適用于圖網(wǎng)絡(luò)推薦場(chǎng)景。所以Zhang等[16]提出了一種多任務(wù)學(xué)習(xí)的方式解決上述問(wèn)題,但是該方法卻沒(méi)能充分考慮知識(shí)圖譜中的結(jié)構(gòu)及屬性信息。 Wang等[6]在2019年提出的KGAT模型能夠高效地挖掘知識(shí)圖譜中的結(jié)構(gòu)有效信息,但是卻沒(méi)有對(duì)推薦過(guò)程中的低維數(shù)據(jù)信息以及節(jié)點(diǎn)關(guān)系信息進(jìn)行進(jìn)一步的挖掘,使得上述算法預(yù)測(cè)指標(biāo)均未能到達(dá)一個(gè)最優(yōu)值。
為了解決上述問(wèn)題,本研究提出了一種融合了知識(shí)圖譜中結(jié)構(gòu)信息以及推薦過(guò)程中的低維交互信息的推薦模型,使得推薦中低維信息及圖譜中有效結(jié)構(gòu)信息得到充分的挖掘,進(jìn)而提高了推薦準(zhǔn)確率。首先本文采用了KGAT的基本算法結(jié)構(gòu),與其不同的是本研究提出了一種基于極化關(guān)系的圖網(wǎng)絡(luò)表述方式,而非沿用TransH策略。該方法解決了知識(shí)圖譜中節(jié)點(diǎn)間關(guān)系表述不充分而導(dǎo)致的推薦不準(zhǔn)確問(wèn)題。同時(shí)為了學(xué)習(xí)推薦過(guò)程中的低維信息,本研究增加并改進(jìn)了一種圖譜與低維推薦數(shù)據(jù)間的交互學(xué)習(xí)方式,同時(shí)提出了相應(yīng)的分?jǐn)?shù)策略,并且設(shè)計(jì)了相關(guān)損失函數(shù)。該過(guò)程有效挖掘了知識(shí)圖譜及推薦過(guò)程中的低維信息,在Recall、NDCG等常見(jiàn)的推薦指標(biāo)下較傳統(tǒng)方法展現(xiàn)出了良好的性能。
本研究定義的極化關(guān)系表述是一種嵌入的知識(shí)圖譜表述方式,指的是嵌入向量在酉空間上的映射,使其在物理空間上能夠更明顯地區(qū)分。同時(shí),本研究對(duì)知識(shí)圖譜和推薦數(shù)據(jù)進(jìn)行關(guān)聯(lián)學(xué)習(xí),進(jìn)而挖掘推薦過(guò)程中的低維有效信息,以提升推薦準(zhǔn)確率。
圖1示出了基于極化關(guān)系表述與數(shù)據(jù)關(guān)聯(lián)學(xué)習(xí)的算法過(guò)程。其中知識(shí)圖譜學(xué)習(xí)是指對(duì)圖中信息進(jìn)行挖掘,并對(duì)其中節(jié)點(diǎn)間關(guān)系進(jìn)行表述學(xué)習(xí)的過(guò)程。節(jié)點(diǎn)聚合方法采用GraphSage[17]模型,該模型能夠?qū)D網(wǎng)絡(luò)中的用戶和商品進(jìn)行數(shù)學(xué)描述。推薦學(xué)習(xí)是一種得到用戶與商品間關(guān)聯(lián)特征的方法。交互指的是聚合節(jié)點(diǎn)與推薦過(guò)程中上一狀態(tài)的信息交互及融合過(guò)程。
圖1 基于極化關(guān)系表述與數(shù)據(jù)關(guān)聯(lián)學(xué)習(xí)的算法過(guò)程Fig.1 Process of learning algorithm based on polarization relation representation and data association
考慮到酉空間[12]特性,本研究提出了一種新的極化關(guān)系表述方法,它通過(guò)酉空間使得節(jié)點(diǎn)間的關(guān)系在物理空間上更易于區(qū)分,使節(jié)點(diǎn)間關(guān)系得到更準(zhǔn)確的區(qū)分與刻畫(huà)。與TransH[9]相比進(jìn)一步利用了酉空間特性,豐富了關(guān)系表述中的有效信息量,與RotatE[11]相比,本研究提出的方法能夠更好地凸顯節(jié)點(diǎn)間高階數(shù)據(jù)特性,使其能更加有效適應(yīng)于知識(shí)圖譜推薦中。
1.1.1 極化關(guān)系表述的可行性分析
基于知識(shí)圖譜的推薦系統(tǒng)一般是異構(gòu)網(wǎng)絡(luò),即頭節(jié)點(diǎn)h和尾節(jié)點(diǎn)t所代表的實(shí)體是不一樣的,故h和t可相互轉(zhuǎn)換。在建模過(guò)程中通常將h代表用戶,h代表商品。當(dāng)采用TransH時(shí),由于向量的方向性以及高維映射的結(jié)果,使其能夠很好地凸顯h和t的不同,但在較大的知識(shí)圖譜中由于采用向量相減的形式,使得節(jié)點(diǎn)間的關(guān)系在映射空間上很難被準(zhǔn)確區(qū)分。而RotatE的實(shí)現(xiàn)則依靠h和t的相互轉(zhuǎn)換,其比較適合于同構(gòu)圖。本研究提出的方法結(jié)合上述優(yōu)點(diǎn),引入復(fù)數(shù)空間,使得即使采用向量相減的分?jǐn)?shù)策略,也能通過(guò)角度特征對(duì)節(jié)點(diǎn)間的關(guān)系加以區(qū)分,使得其表述得更加準(zhǔn)確。由此可得圖2,即3種表述方式在物理空間上的對(duì)比。
1.1.2 節(jié)點(diǎn)關(guān)系組極化過(guò)程
圖2 極化關(guān)系的三維空間表示及對(duì)比Fig.2 Representation of polarization relations with three dimension and comparison with others
輸入:ζ={(e1,r1,2,e2),(e1,r1,3,e3),…,(ei,ri, j,ek)}
輸出:極化后的h、r、t
定義變量和常量:
定義極化函數(shù):
fori= 1,2,…,k;j=1,2,…,kandj!=ido
hi=Ρ(ei)
ti=Ρ(ej)
ri=Ρ(rij)
Ω={(h1,r1,t2),(h1,r2,t3),...,(hi,ri,tk)}
end for
Return
Ω
其中Ω是(頭節(jié)點(diǎn),關(guān)系,尾結(jié)點(diǎn))三元組合的集合。參考[11]將ε和ω分別設(shè)置為24、2.0。
1.1.3 基于極化關(guān)系表述的分?jǐn)?shù)策略
極化的目的是得到具有酉空間特性的向量表述,為了學(xué)習(xí)節(jié)點(diǎn)間的關(guān)系特性,在關(guān)系學(xué)習(xí)過(guò)程中采用分?jǐn)?shù)策略來(lái)對(duì)節(jié)點(diǎn)間的關(guān)系進(jìn)行描述。這里本研究定義了節(jié)點(diǎn)間的權(quán)重矩陣W,其可以理解為用高維特征表示節(jié)點(diǎn),然后通過(guò)映射將低維信息進(jìn)行表示,該過(guò)程降低了不必要升維而引起的計(jì)算量的增加。極化后節(jié)點(diǎn)間關(guān)系的分?jǐn)?shù)策略如下:
ζ=‖WCeiθh-eiθr+WCeiθt‖
(1)
其中,C為向量模長(zhǎng),eiθh、eiθr、eiθt分別表示h、r、t的復(fù)數(shù)形式,且有
eiθ=sinθ+icosθ
(2)
這里i為復(fù)數(shù)。
引入知識(shí)圖譜,能夠深度挖掘數(shù)據(jù)中的非歐式特征。但往往知識(shí)圖譜所提取信息中并不包含推薦過(guò)程中完備的低維信息。本研究借鑒Zhang等[16]提出的低維數(shù)據(jù)間關(guān)聯(lián)學(xué)習(xí)方法,通過(guò)在圖譜與推薦間建立一個(gè)分?jǐn)?shù)策略使圖與推薦數(shù)據(jù)產(chǎn)生關(guān)聯(lián),然后通過(guò)本研究定義的策略進(jìn)行關(guān)聯(lián)學(xué)習(xí)。本方法改進(jìn)了圖譜與推薦過(guò)程的數(shù)據(jù)交互學(xué)習(xí)方式,解決了基于知識(shí)圖譜的推薦方法中低維信息挖掘不充分的問(wèn)題;同時(shí),采用KGAT中的方法,聚合學(xué)習(xí)知識(shí)圖譜中節(jié)點(diǎn)間的結(jié)構(gòu)及屬性信息,最后將交互信息、用戶信息、商品信息、知識(shí)圖譜信息進(jìn)行融合,得到一個(gè)更加準(zhǔn)確的預(yù)測(cè)表述模型。該過(guò)程盡可能多地增加推薦過(guò)程的有效信息,進(jìn)而加速了推薦過(guò)程的啟動(dòng),并提高了推薦準(zhǔn)確率。
本研究定義了推薦用戶集U={u1,u2,…,uk};以及商品集I={i1,i2,…ij},其中用戶及商品節(jié)點(diǎn)u和i與圖譜中節(jié)點(diǎn)e存在對(duì)應(yīng)關(guān)系。為使推薦數(shù)據(jù)與圖譜數(shù)據(jù)更好的區(qū)分,本文定義了一個(gè)圖譜S=(eu,et,r),其中eh指的是圖譜中的用戶節(jié)點(diǎn);商品及其描述節(jié)點(diǎn)包含于et即ei∈et,r指的是圖譜中各個(gè)節(jié)點(diǎn)間的關(guān)系。
1.2.1 用戶節(jié)點(diǎn)特征聚合
為了解決圖譜信息挖掘不充分的問(wèn)題,本研究采用了KGAT[6]對(duì)節(jié)點(diǎn)信息的學(xué)習(xí)方法,通過(guò)對(duì)用戶節(jié)點(diǎn)和商品節(jié)點(diǎn)的聚合學(xué)習(xí),有效地挖掘用戶節(jié)點(diǎn)和商品節(jié)點(diǎn)中的結(jié)構(gòu)和屬性信息,從而對(duì)其進(jìn)行準(zhǔn)確的刻畫(huà),進(jìn)而為推薦過(guò)程提供更多的圖譜有效信息,表達(dá)式如下:
yg=σ(W1(e+ek))+σ(W2(e·ek))
(3)
(4)
(5)
(6)
(7)
1.2.2 推薦過(guò)程
(8)
eu+1=κ*WVV+κT*WEV
(9)
ei+1=κ*WVE+κT*WEE
(10)
其中:κ表示兩個(gè)嵌入向量的乘積;{eu,ei}∈e,e表示節(jié)點(diǎn)的集合,包括用戶節(jié)點(diǎn)和商品節(jié)點(diǎn);V表示u分量;E表示i分量。為了更好地將節(jié)點(diǎn)間的信息進(jìn)行交互學(xué)習(xí),本文設(shè)計(jì)了如下策略:
(11)
(12)
在低維數(shù)據(jù)間關(guān)聯(lián)學(xué)習(xí)中,本方法融合了知識(shí)圖譜中的結(jié)構(gòu)信息和屬性信息以及推薦過(guò)程中的低維信息,使得該過(guò)程有效信息得到進(jìn)一步豐富。推薦表達(dá)式如下:
(13)
其中,σ為Sigmoid函數(shù),f為內(nèi)積函數(shù)。
1.2.3 損失函數(shù)的設(shè)計(jì)
本方法由兩個(gè)部分組成,即圖譜學(xué)習(xí)和推薦過(guò)程。這里本方法的損失設(shè)計(jì)對(duì)應(yīng)算法過(guò)程的組成分為兩部分,即圖損失和推薦損失,表達(dá)式如下:
(1-yui(u,i+))lg (1-yui(u,i+))
(14)
(15)
α=α+β
(16)
其中,α表示推薦損失,i+和i-分別表示正負(fù)樣本,σ是Sigmoid函數(shù)。β表示交互損失,由正負(fù)樣本數(shù)據(jù)得到
θ=‖∑φ(-(ξ--ξ+))‖
(17)
其中:θ表示基于知識(shí)圖譜的損失;ξ-、ξ+分別表示正負(fù)樣本的值;φ表示Softplus損失函數(shù),表示權(quán)重值。由上可得總損失值:
Γ=Wweight1*α+Wweight2*θ
(18)
本實(shí)驗(yàn)采用容天超算服務(wù)器SCS4850完成,硬件上采用GTX1080顯卡進(jìn)行運(yùn)算,軟件上采用Ubuntu18.04系統(tǒng),并采用Python3.6進(jìn)行開(kāi)發(fā),采用開(kāi)發(fā)框架Tensorflow1.12.0完成相關(guān)實(shí)驗(yàn)。
本次實(shí)驗(yàn)采用Amazon-book、Last-FM數(shù)據(jù)集完成相關(guān)實(shí)驗(yàn),具體的數(shù)據(jù)集參數(shù)見(jiàn)表1。
表1 數(shù)據(jù)集基本信息Table 1 Basic information of datasets
其中Amazon-book是亞馬遜書(shū)城的購(gòu)買(mǎi)記錄數(shù)據(jù),采用該數(shù)據(jù)的原因?yàn)椋涸摂?shù)據(jù)集具有足夠多的用戶節(jié)點(diǎn)和商品節(jié)點(diǎn)以及商品描述信息,該數(shù)據(jù)集是以商品為中心的,并具有節(jié)點(diǎn)間數(shù)據(jù)特性,在現(xiàn)實(shí)中有比較多的應(yīng)用場(chǎng)景。Last-FM是其APP統(tǒng)計(jì)出來(lái)的用戶音樂(lè)播放數(shù)據(jù),采用該數(shù)據(jù)集能模擬線上商城的推薦方式。
由于本方法主要在解決冷啟動(dòng)推薦下實(shí)現(xiàn)準(zhǔn)確推薦的問(wèn)題。故本實(shí)驗(yàn)主要圍繞相同數(shù)據(jù)集下相關(guān)研究是否能夠提升推薦啟動(dòng)速度或收斂速度,以及是否能夠提升推薦準(zhǔn)確率兩個(gè)問(wèn)題進(jìn)行論證分析。本實(shí)驗(yàn)由算法整體性能、極化關(guān)系有效性、低維數(shù)據(jù)間的關(guān)聯(lián)學(xué)習(xí)有效性等3部分分析構(gòu)成。本實(shí)驗(yàn)采用召回率和歸一化累積增益作為算法衡量指標(biāo)。同時(shí)本實(shí)驗(yàn)所采用的指標(biāo)都是在@20(即輸出20個(gè)商品,正確結(jié)果在其中的概率)的基礎(chǔ)上得出的。除了上述指標(biāo)外,本實(shí)驗(yàn)還在圖表分析中引入了Hits@20(輸出20個(gè)預(yù)測(cè)結(jié)果,正確結(jié)果在其中的概率)以及精準(zhǔn)率等指標(biāo)來(lái)對(duì)本方法進(jìn)行評(píng)價(jià)。同時(shí),為了進(jìn)一步論證本方法在解決冷啟動(dòng)問(wèn)題上的有效性,本實(shí)驗(yàn)還將對(duì)訓(xùn)練過(guò)程中的損失值進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果及對(duì)比見(jiàn)表2。
表2 實(shí)驗(yàn)結(jié)果整體性對(duì)比Table 2 Overall comparison of experimental results
2.2.1 算法整體性能分析
由于楊志等[3]主要在解決相關(guān)模型訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題,而非本文所要解決的冷啟動(dòng)及推薦準(zhǔn)確率提升問(wèn)題,故在本研究中將主要以表2中KGAT模型為參照進(jìn)行實(shí)驗(yàn)分析。由表2可知,本方法在Amazon-book、Last-FM兩個(gè)數(shù)據(jù)集中的回調(diào)率和NDCG指標(biāo)相比近些年提出的同類算法均有明顯提升。其中在Amazon-book中的回調(diào)率較KGAT的提升了3.09%,NDCG較其提升了3.58%。同時(shí),在Last-FM數(shù)據(jù)集中,本研究提出的方法較KGAT在回調(diào)率、NDCG上分別提升了3.33%和3.70%。在Amazon-book這類節(jié)點(diǎn)多、關(guān)系復(fù)雜、商品數(shù)與用戶數(shù)的比值相對(duì)小的數(shù)據(jù)集中有明顯的提升,特別地在NDCG值的提升上達(dá)到了3.58%。在Last-FM數(shù)據(jù)集中,本研究提出的方法NDCG提升明顯,故本方法相對(duì)于商品節(jié)點(diǎn)與用戶節(jié)點(diǎn)比值較大的數(shù)據(jù)集,其推薦準(zhǔn)確率有明顯的提升效果。
為驗(yàn)證上述分析,本研究采用圖3、圖4對(duì)上述過(guò)程進(jìn)行了進(jìn)一步驗(yàn)證分析。圖中,每個(gè)訓(xùn)練批次有1 024條數(shù)據(jù),回調(diào)率為每20次回調(diào)數(shù)/總次數(shù),精準(zhǔn)度為每20次中準(zhǔn)確預(yù)測(cè)數(shù)/總次數(shù),鏈接搜索率為每20次響應(yīng)總數(shù)/總次數(shù),歸一化折損增益為每20次增益總值/總次數(shù)。由圖可得,本方法在各項(xiàng)指標(biāo)上均明顯優(yōu)于KGAT算法。在第100批次后,由于對(duì)數(shù)據(jù)間的低維信息進(jìn)行了挖掘,本方法在后續(xù)的訓(xùn)練中一直表現(xiàn)出了緩慢上升的態(tài)勢(shì)。即使采用了動(dòng)量?jī)?yōu)化,訓(xùn)練過(guò)程在第400個(gè)批次時(shí)仍未停止。由此可得,本研究提出的方法在上述實(shí)驗(yàn)過(guò)程中受數(shù)據(jù)量的限制,所得實(shí)驗(yàn)指標(biāo)未達(dá)到最優(yōu)值。為了證明本方法在Last-FM數(shù)據(jù)集的穩(wěn)定性及有效性,采用損失值與KGAT進(jìn)行對(duì)比,結(jié)果如圖4所示(由于起始批次損失值過(guò)大,這里的取值起點(diǎn)為第2個(gè)批次)。本方法的損失收斂速度明顯快于對(duì)標(biāo),同時(shí),在收斂值上也明顯優(yōu)于對(duì)標(biāo)。綜上可得,本研究提出的方法能有效地提升推薦準(zhǔn)確度和獲得更快的收斂速度,特別是在節(jié)點(diǎn)多、數(shù)據(jù)量大的知識(shí)圖譜中。即本方法與相關(guān)領(lǐng)域前沿研究相比,具有更快的啟動(dòng)速度同時(shí)能夠?qū)崿F(xiàn)更準(zhǔn)確的推薦。
(a)回調(diào)率對(duì)比
(b)精準(zhǔn)度對(duì)比
(c)鏈接搜索率對(duì)比
(d)歸一化折損增益對(duì)比圖3 在Amazon-book數(shù)據(jù)集中本方法與KGAT的對(duì)比Fig.3 Comparison of the proposed method with KGAT in Amazon-book datasets
(a)Amazon-book中KGAT的損失值
(b)Amazon-book中本方法的損失值
(c)Last-FM中KGAT的損失值
(d)Last-FM中本方法的損失值圖4 在Amazon-book和Last-FM數(shù)據(jù)集中本方法的損失值與KGAT的對(duì)比Fig.4 Comparison of the loss value between the proposed me-thod and KGAT in Amazon book and Last-FM datasets
2.2.2 極化關(guān)系表述的有效性分析
為驗(yàn)證本研究提出的極化關(guān)系表述方法的有效性,將KGAT中的TransH分?jǐn)?shù)策略換成本研究提出的極化表達(dá)方法,并與之進(jìn)行了對(duì)比及分析。如表3所示,本研究提出的方法在Amazon-book、Last-FM兩個(gè)數(shù)據(jù)集中的回調(diào)率、NDCG均明顯優(yōu)于對(duì)標(biāo)。為了更好地進(jìn)行對(duì)比和分析,本研究取了120批次以前的數(shù)據(jù)進(jìn)行分析,這樣可以更加清晰明了地將本方法與KGAT的實(shí)驗(yàn)特性展現(xiàn),如圖5所示。由圖可得,本方法在各項(xiàng)指標(biāo)的表現(xiàn)上均優(yōu)于KGAT中采用TransH時(shí)的表現(xiàn),且具有較快的收斂速度。同時(shí)也可以看出,本方法在Last-FM這個(gè)節(jié)點(diǎn)相對(duì)少且關(guān)系少的數(shù)據(jù)集中表現(xiàn)并不明顯。其可能的原因是,在該數(shù)據(jù)集中原有的TransH策略已經(jīng)能夠基本準(zhǔn)確地表述該圖譜。綜上可得,本研究提出的極化關(guān)系表述方法是有效的,特別是在節(jié)點(diǎn)多、關(guān)系多的數(shù)據(jù)集中。
表3 本方法的極化關(guān)系表述與KGAT的對(duì)比Table 3 Comparison of polarization relation representation of the proposed method with KGAT
2.2.3 低維數(shù)據(jù)關(guān)聯(lián)學(xué)習(xí)有效性分析
為了驗(yàn)證本研究提出的低維數(shù)據(jù)間的關(guān)聯(lián)學(xué)習(xí)方法的有效性,在不采用極化關(guān)系表述方法的情況下,將本方法與KGAT進(jìn)行了對(duì)比,結(jié)果如表4及圖5所示。值得注意的是,在Amazon-book及Last-FM數(shù)據(jù)集中雖然本方法在回調(diào)率及NDCG指標(biāo)上沒(méi)取得明顯的優(yōu)勢(shì),但其收斂速度明顯高于對(duì)標(biāo)。由此可得,采用低維數(shù)據(jù)關(guān)聯(lián)學(xué)習(xí)方法在提升收斂速度上是有效的。同時(shí),當(dāng)單獨(dú)采用該方法時(shí)雖然沒(méi)有提升實(shí)驗(yàn)準(zhǔn)確性,但由整體性分析可得,本方法在結(jié)合極化關(guān)系表述后,其推薦準(zhǔn)確率相比采用上述表述方法時(shí)的回調(diào)率和NDCG有明顯的提升。
表4 本方法的低維數(shù)據(jù)關(guān)聯(lián)學(xué)習(xí)與KGAT對(duì)比Table 4 Comparison of low-dimension data association learning of the proposed method compared with KGAT
(a)Amazon-book中的對(duì)比試驗(yàn)
(b)Last-FM中的對(duì)比試驗(yàn)圖5 以KGAT為參照在Amazon-book及Last-FM數(shù)據(jù)集上的對(duì)比試驗(yàn)Fig.5 Comparative experiments in Amazon-book and Last-FM datasets with KGAT as the reference
同樣值得注意的是,圖5中的數(shù)據(jù)為本文對(duì)KGAT復(fù)現(xiàn)所得結(jié)果,實(shí)驗(yàn)所得數(shù)據(jù)由于軟硬件及參數(shù)原因可能并未達(dá)到最優(yōu)值。故在對(duì)比實(shí)驗(yàn)中,本研究提出的低維數(shù)據(jù)關(guān)聯(lián)學(xué)習(xí)方法在兩個(gè)數(shù)據(jù)集中的回調(diào)率、NDCG均優(yōu)于對(duì)標(biāo)。
實(shí)驗(yàn)結(jié)果與分析表明,本研究提出的基于極化關(guān)系表述與低維數(shù)據(jù)關(guān)聯(lián)學(xué)習(xí)推薦方法是有效的,特別是在Amazon-book這類用戶節(jié)點(diǎn)數(shù)與商品數(shù)比值大的數(shù)據(jù)集上。由于對(duì)節(jié)點(diǎn)間的關(guān)系更豐富的表述并挖掘了低維推薦信息,使得其準(zhǔn)確率有著明顯的提升。但在研究過(guò)程中觀察到本方法在節(jié)點(diǎn)、關(guān)系多的數(shù)據(jù)中,由于相對(duì)數(shù)據(jù)量不足、有效信息挖掘不充分等原因,其推薦準(zhǔn)確率還有待提升。所以為了提升推薦準(zhǔn)確率,降低用戶消費(fèi)記錄、知識(shí)圖譜數(shù)、用戶及商品數(shù)量大小等因素對(duì)推薦的影響。在后續(xù)研究中可以考慮解決知識(shí)圖譜不完備而導(dǎo)致其有效信息未充分被挖掘,進(jìn)而引起的推薦不準(zhǔn)確問(wèn)題。