錢夢薇,過 弋,2,3
(1. 華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237;2. 大數(shù)據(jù)流通與交易技術(shù)國家工程實(shí)驗(yàn)室 商業(yè)智能與可視化研究中心,上海 200436;3. 上海大數(shù)據(jù)與互聯(lián)網(wǎng)受眾工程技術(shù)研究中心,上海 200037)
隨著信息技術(shù)的不斷發(fā)展,人們工作生活所需要的各種服務(wù)和產(chǎn)品基本都能在互聯(lián)網(wǎng)上得到滿足。隨著這種趨勢的不斷演變,互聯(lián)網(wǎng)所提供的服務(wù)和產(chǎn)品的種類也越來越多,這在給人們帶來更多選擇的同時(shí),也增加了信息過載現(xiàn)象帶來的問題。在信息過載時(shí)代,互聯(lián)網(wǎng)用戶很難從各種各樣的產(chǎn)品和服務(wù)中做出選擇[1]。在這種情況下,推薦系統(tǒng)應(yīng)運(yùn)而生,并隨著人們的需求不斷發(fā)展提升。
目前,推薦系統(tǒng)的實(shí)現(xiàn)方式可以大致分為兩個(gè)途徑,評分預(yù)測和物品排序。評分預(yù)測任務(wù)是要根據(jù)用戶對不同物品的歷史評分來預(yù)測用戶對未產(chǎn)生過交互行為的物品的評分,將預(yù)測評分較高的物品推薦給用戶。而物品排序則是根據(jù)用戶與物品之間的歷史交互行為,對每個(gè)用戶可能感興趣的物品進(jìn)行排序,給用戶推薦排序靠前的物品。鑒于評分預(yù)測任務(wù)不僅能給用戶推薦其可能感興趣的物品,也能讓提供物品的電商平臺更精準(zhǔn)地了解不同物品在用戶中的評分口碑,捕捉大眾興趣風(fēng)向,以此提升平臺服務(wù)質(zhì)量。本文以準(zhǔn)確預(yù)測用戶評分為靶向,深入研究,在距離分解算法思路的啟發(fā)下,結(jié)合深度學(xué)習(xí)能夠良好捕捉數(shù)據(jù)非線性特征的長處,提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的距離分解模型,在評分預(yù)測任務(wù)中,準(zhǔn)確度優(yōu)于傳統(tǒng)推薦算法和前沿深度推薦算法。
由于矩陣分解的點(diǎn)積運(yùn)算只通過用戶和物品特征向量的長度和向量夾角來計(jì)算用戶之間的相似度,不滿足三角不等式,無法準(zhǔn)確衡量不同用戶之間的偏好關(guān)系。如圖1(a)所示,根據(jù)Jaccard相似度計(jì)算,對于用戶U1,U2,U3,用S表示相似度,存在s23>s12>s13,此時(shí),對于用戶U4,他與用戶U1的相似度最高,理應(yīng)也滿足s42>s43,但實(shí)際上,s42 圖1 矩陣分解特例 在Zhang等[2]提出的距離分解模型中,通過將矩陣分解轉(zhuǎn)化為距離分解的方式,已經(jīng)能夠解決上述問題。距離值可通過相似度來獲得,如式(1)所示。 Distance(u,i)=MaxSim-Sim(u,i) (1) 用戶u與物品i的距離值為最大相似度Max Sim與相似度Sim(u,i)的差值。在評分預(yù)測中,由于用戶對物品的評分越高,表明用戶對物品的興趣度越高,即用戶與物品的相似度越高,因此,用評分值來代替相似度,用最大評分值來代替最大相似度。 但距離分解與矩陣分解都是淺層線性模型,在對矩陣進(jìn)行特征提取的時(shí)候,得到的特征向量往往表征能力不夠強(qiáng)。因此,本文基于距離分解的思路,通過深度神經(jīng)網(wǎng)絡(luò)的多層感知器,將潛在的距離特征向量擴(kuò)展到多層的神經(jīng)網(wǎng)絡(luò)中,最終具有非線性特征輸出的距離特征向量,能夠更有效地預(yù)測用戶和物品之間的距離值,進(jìn)而更準(zhǔn)確地預(yù)測用戶評分。鑒于傳統(tǒng)機(jī)器學(xué)習(xí)多用于分類和聚類問題,本文算法非基于用戶或基于物品的協(xié)同過濾,不涉及對用戶和物品的聚類,因此考慮使用神經(jīng)網(wǎng)絡(luò)對距離特征向量進(jìn)行訓(xùn)練。由于本文只依賴用戶對物品的評分,不包含用戶評論、用戶和物品信息等文本數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò)無法使用,故采用無監(jiān)督的深度學(xué)習(xí)來訓(xùn)練更能表征用戶和物品的距離特征向量。 此外,為了驗(yàn)證本文模型的有效性和實(shí)用性,本文還結(jié)合了新冠疫情現(xiàn)狀,基于人們在疫情環(huán)境下生活方式和關(guān)注熱點(diǎn)的變化,設(shè)計(jì)了一個(gè)全新的應(yīng)用場景。 本文的主要貢獻(xiàn)如下: 將距離分解與深度學(xué)習(xí)相結(jié)合,將距離矩陣通過深度神經(jīng)網(wǎng)絡(luò)映射到一個(gè)低維空間,結(jié)合用戶和物品的顯式特征與訓(xùn)練得到的具有非線性特征的隱式距離特征,提高對用戶和物品的距離特征向量的表征能力,同時(shí)也彌補(bǔ)了距離分解只用單一的線性模型對距離矩陣進(jìn)行交互的不足。 針對疫情下人們對熱點(diǎn)話題的熱切關(guān)注設(shè)計(jì)了新的應(yīng)用場景,爬取了微博上與疫情相關(guān)的熱搜話題,建模計(jì)算用戶對不同話題的興趣度,并用模型進(jìn)行興趣度預(yù)測,為用戶推薦其興趣度較高的熱搜話題,有效證明了本文模型的實(shí)用性。 推薦系統(tǒng)目前的主流算法主要包括傳統(tǒng)推薦算法,如基于內(nèi)容的過濾算法、協(xié)同過濾算法和混合算法,以及一些改進(jìn)算法。這些算法也被廣泛地實(shí)驗(yàn)在不同領(lǐng)域的公開數(shù)據(jù)集和實(shí)際項(xiàng)目數(shù)據(jù)集上,推薦效果均有所提升。 協(xié)同過濾算法使用大量的用戶歷史評分信息為當(dāng)前用戶提供推薦列表[3],找出與當(dāng)前用戶興趣相似度較高的群體,用該群體的歷史行為去預(yù)測當(dāng)前用戶可能偏好的東西。協(xié)同過濾算法主要分為兩類,基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾[4-5]。 1.1.1 基于用戶的協(xié)同過濾 基于用戶的協(xié)同過濾主要思想是,通過找出相似用戶喜歡的項(xiàng)目, 預(yù)測目標(biāo)用戶對目標(biāo)物品的評分,根據(jù)評分對物品進(jìn)行降序排列,最后給用戶推薦評分靠前的物品。 Karabadji等[6]采用遺傳算法為每個(gè)活躍用戶選擇最優(yōu)的鄰居子群,且排除了該用戶可能認(rèn)識的用戶,在保證了用戶對推薦物品的滿意度的同時(shí),也能給用戶推薦一些新穎的物品。Zhang等[7]改進(jìn)了傳統(tǒng)基于用戶的協(xié)同過濾算法沒有為不同用戶屬性分配權(quán)重的問題,在數(shù)據(jù)集上學(xué)習(xí)了用戶不同屬性的權(quán)重,并對用戶的打分進(jìn)行了歸一化處理,最終在推薦物品的準(zhǔn)確性、覆蓋范圍和受歡迎程度上均取得了良好的效果。 1.1.2 基于物品的協(xié)同過濾 基于物品的協(xié)同過濾是一個(gè)以檢測物品共現(xiàn)現(xiàn)象為基礎(chǔ)的經(jīng)典算法,即用戶與物品A交互的同時(shí)也可能與物品B交互[8],它的一個(gè)經(jīng)典案例是啤酒和紙尿褲往往會(huì)同時(shí)被客戶購買。 Najafabadi等[9]在傳統(tǒng)基于物品的協(xié)同過濾算法上,結(jié)合了基于圖的物品關(guān)系模型,與PageRank類似,它將節(jié)點(diǎn)類型由網(wǎng)頁變?yōu)槲锲罚眯蛄谐浞滞诰蛭锲烽g的先后關(guān)系,在超市和電影數(shù)據(jù)集上取得了優(yōu)于傳統(tǒng)算法的效果。Cuo等[10]從用戶數(shù)據(jù)隱私保護(hù)的角度,對算法進(jìn)行了改進(jìn),先對用戶數(shù)據(jù)在客戶端做一個(gè)數(shù)據(jù)擾動(dòng)處理,再在服務(wù)器端通過差分隱私重新整合數(shù)據(jù),以達(dá)到對用戶隱私數(shù)據(jù)的雙重保護(hù)作用。 協(xié)同過濾算法的優(yōu)勢在于,能夠給用戶推薦新奇的物品。但由于需要大量的歷史數(shù)據(jù),很多模型在冷啟動(dòng)和數(shù)據(jù)稀疏的情況下無法保持穩(wěn)定的預(yù)測和推薦效果。 矩陣分解作為推薦系統(tǒng)中的一個(gè)經(jīng)典模型,它的主要思路是將用戶對物品的評分矩陣,轉(zhuǎn)換成兩個(gè)新矩陣的點(diǎn)積,這兩個(gè)新矩陣可以看作是用戶和物品的特征矩陣。矩陣分解算法最早是在2006年Netflix比賽中被用來預(yù)測電影評分的[11]。 由于矩陣分解在評分預(yù)測上的優(yōu)越表現(xiàn),越來越多的專家學(xué)者研究并提出了相應(yīng)的變種和改進(jìn)算法,如SVD[12]、SVD++[13]、概率矩陣分解[14],算法預(yù)測評分的準(zhǔn)確性也在不斷提升。此外,王運(yùn)等[15]為了解決數(shù)據(jù)稀疏問題,通過用戶評分獲得用戶偏好特征,結(jié)合物品的外部數(shù)據(jù)計(jì)算物品的相似度,將用戶偏好和物品相似度融入概率矩陣分解模型,豐富了訓(xùn)練數(shù)據(jù)攜帶的信息量,良好地提高了評分預(yù)測的效果。Teng等[16]將概率矩陣分解與深度學(xué)習(xí)結(jié)合,用學(xué)習(xí)到的用戶潛在特征為用戶生成更為可靠的推薦列表。Chen等[17]又在此基礎(chǔ)上,通過不采樣學(xué)習(xí)的方式,進(jìn)一步提高了模型的效率。 以上這些文獻(xiàn)中提出的模型雖然已經(jīng)在用戶推薦上獲得了一定成效,但是仍然存在著數(shù)據(jù)稀疏的問題。一些算法嘗試引入外部數(shù)據(jù),在一定程度上增加了數(shù)據(jù)的信息量,但隨著數(shù)據(jù)集的類別變化,需要重新獲取相關(guān)外部數(shù)據(jù),考慮到物品種類繁雜,外部數(shù)據(jù)匹配難度高,因此很難收集每個(gè)物品的詳細(xì)信息,從而模型也很難體現(xiàn)出實(shí)際價(jià)值。為了提高模型的通用性,在不同場景下保持穩(wěn)定的評分預(yù)測效果,本文模型從最經(jīng)典的矩陣分解出發(fā),只依賴用戶的評分?jǐn)?shù)據(jù),將評分矩陣轉(zhuǎn)換成距離矩陣,由于評分矩陣比較稀疏,轉(zhuǎn)換后的距離矩陣反而會(huì)更稠密。再利用深度學(xué)習(xí),進(jìn)一步獲得用戶和物品的隱式特征,結(jié)合顯式評分?jǐn)?shù)據(jù)和隱式特征,最終提高模型預(yù)測評分的準(zhǔn)確性。 記物品的評分矩陣為RM×N,其中M是用戶的總數(shù),N是物品的總數(shù),元素Rij表示用戶i對物品j的評分,將用戶-物品的評分矩陣轉(zhuǎn)化為用戶-物品的距離矩陣D,作為算法的輸入,Dij表示用戶i與物品j之間的距離,則 Dij=Rmax-Rij (2) 其中,Rmax表示用戶對物品評分的上限值。用戶對物品的評分值越高,用戶與該物品之間的距離值就越小,當(dāng)用戶對物品的評分為Rmax時(shí),距離值Dij為0;當(dāng)用戶未對物品評分時(shí),評分值置為0,距離值Dij相應(yīng)地置為最大值Rmax。 具體轉(zhuǎn)化過程如圖2所示。 圖2 距離矩陣轉(zhuǎn)換過程 在一個(gè)k維的歐氏空間內(nèi),兩個(gè)點(diǎn)u和i之間的距離D(u,i)可以表示為兩個(gè)k維向量之間的距離,如式(3)所示。對于距離分解任務(wù)來說,距離的實(shí)際數(shù)值對應(yīng)距離矩陣中的Dij,模型需要在這個(gè)k維的空間內(nèi)找到用戶的距離特征向量Pu和物品的距離特征向量Qi,使得兩個(gè)維度相同的特征向量之間的距離值D(u,i)與實(shí)際距離值近似,而距離特征向量Pu和Qi通過深度學(xué)習(xí)得到 將距離矩陣分別按行和按列輸入兩個(gè)全連接的深度神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到距離特征向量Pu和Qi。網(wǎng)絡(luò)模型如圖3所示。 圖3 深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖 以用戶u的距離特征向量訓(xùn)練為例,記輸入的向量為Yu*,輸出向量為Pu,隱藏層為li,i=1,…,N-1,網(wǎng)絡(luò)的層數(shù)為N,每層對應(yīng)的權(quán)重矩陣為Wi,偏置項(xiàng)為bi,模型最終輸出的隱式特征向量為Pu,則 l1=W1Yi* (5) li=f(Wi -1li -1+bi- 1),i=2,…,N-1 (6) Pu=f(WNlN -1+bN) (7) 其中,激活函數(shù)為ReLU,f(x)=max(0,x),網(wǎng)絡(luò)輸出的距離特征向量為 Pu=fUN(…fU3(WU2fU2(WU1Yu*))…) (8) (9) 其中,Yu*表示用戶u的輸入距離向量,Y*j表示物品j的輸入距離向量。WU1和WI1分別是用戶和物品深度網(wǎng)絡(luò)第一層的權(quán)重矩陣,WU2和WI2分別為第二層的權(quán)重矩陣。fU2()和fI2()分別是用戶和物品深度網(wǎng)絡(luò)第二層的激活函數(shù),fU3()和fI3()分別為第三層的激活函數(shù),fUN和fIN則對應(yīng)第N層的激活函數(shù)。 考慮到不同用戶的打分習(xí)慣不同,有的用戶傾向于給高分,而有的傾向于給低分。類似地,不同的物品得到的評分也有一定偏差,有的物品得分偏高,有的物品得分偏低。因此,為了使預(yù)測的距離值更接近實(shí)際情況,在用戶u與物品i的距離公式中加入三個(gè)偏置因子bu、bi和μ (10) 其中,bu是用戶u的偏置項(xiàng),bi是物品i的偏置項(xiàng)。μ是全局偏置項(xiàng),取所有距離的均值。 將式(1)和式(2)代入上式得 (11) 此時(shí),損失函數(shù)可表示為 (12) 其中,Yui表示用戶u和物品i之間的實(shí)際距離值,Y′表示預(yù)測距離值,cui為置信度,取 cui=1+α·g(Yui-Dmax/2) (13) 以增大距離值偏大或偏小值的置信度。Dmax表示所有距離值中的最大值,α用來控制置信度的大小,在實(shí)驗(yàn)中,α取值為0.1。由于極限距離值(如1,5)比中間距離值(如2,3,4)更具有可信度,因此,用g(x)=|x|絕對值函數(shù)來增大極限距離值的置信度。 最后,再將距離通過式(1)的逆過程轉(zhuǎn)化為用戶對物品的評分。為了防止過擬合,在預(yù)測距離值時(shí),從k維的特征向量Pu和Qi中隨機(jī)丟棄一部分維度,如式(14)所示。 (14) 在上式中,隨機(jī)丟棄了第2維的特征值,在每一輪的訓(xùn)練中,都會(huì)按一定的丟棄率丟棄某些維度的特征值,以避免過擬合現(xiàn)象。 本文實(shí)驗(yàn)有三個(gè)主要步驟: 數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、評分預(yù)測及結(jié)果評估。具體流程如圖4所示。下面首先詳細(xì)介紹實(shí)驗(yàn)數(shù)據(jù)集的具體信息和預(yù)處理過程,再用本文模型和對比實(shí)驗(yàn)?zāi)P蛯?shù)據(jù)集進(jìn)行評分預(yù)測,對結(jié)果進(jìn)行對比分析,最后對模型的關(guān)鍵參數(shù)進(jìn)一步考量,分析不同參數(shù)對模型預(yù)測結(jié)果的影響。 圖4 實(shí)驗(yàn)流程圖 本文實(shí)驗(yàn)采用了三個(gè)公開數(shù)據(jù)集和一個(gè)從微博爬取的數(shù)據(jù)集。三個(gè)公開數(shù)據(jù)集分別是MovieLens 100K、MovieLens 1M和Amazon數(shù)據(jù)集中的子數(shù)據(jù)集Jazz。為了驗(yàn)證模型的實(shí)用性和社會(huì)價(jià)值,本文結(jié)合新型冠狀病毒突然在全球范圍內(nèi)突然爆發(fā),使人們的生活進(jìn)入隔離狀態(tài),只能依靠各大社交平臺獲取信息的現(xiàn)狀,選取了用戶群體較大、話題熱度較高的新浪微博作為數(shù)據(jù)來源??紤]到微博話題的時(shí)效性,歷史話題的時(shí)間跨度不宜太大,因此爬取了從2020年4月6日到2020年4月12日,微博熱搜話題榜上與疫情相關(guān)的23個(gè)話題下用戶的所有微博,共一萬余條,基于用戶在部分話題上的參與度來預(yù)測該用戶可能對其他話題產(chǎn)生的興趣度。用戶i對話題j的興趣度的計(jì)算如式(15)所示。 (15) 其中,N表示用戶i在話題j下發(fā)表的微博總數(shù),Nmax表示在話題j下發(fā)表微博總數(shù)最多的用戶發(fā)表的微博總數(shù)。 四個(gè)數(shù)據(jù)集的用戶數(shù)量、物品數(shù)量、評分?jǐn)?shù)量,以及數(shù)據(jù)集的稀疏度如表1所示。其中,需要指出,MovieLens-100K(簡寫為ML-100K)、MovieLens-1M(簡寫為ML-1M)和Amazon-Jazz數(shù)據(jù)集的評分范圍為0~5,式(1)中的Rmax需設(shè)置為5。微博興趣度的取值范圍為0~1,Rmax需設(shè)置為1。 表1 數(shù)據(jù)集詳細(xì)統(tǒng)計(jì)信息 針對推薦系統(tǒng)的評分預(yù)測任務(wù),均方根誤差(RMSE)和平均絕對誤差(MAE)是常用的評價(jià)指標(biāo),計(jì)算如式(16)、式(17)所示。 其中,N表示測試集中評分的數(shù)量,Rui表示用戶u對物品i實(shí)際的評分,R′ui表示模型預(yù)測的評分。 本文選擇了以下五個(gè)基線模型,其中包括了經(jīng)典的矩陣分解推薦算法,以及一些最新的改進(jìn)算法。具體如下: MF(Matrix Factorization): 最經(jīng)典,也是最基本的矩陣分解算法。 DMFN(Deep Matrix Factorization Network)[18]: 其將深度學(xué)習(xí)應(yīng)用到矩陣分解中,用多層感知器將潛在特征向量擴(kuò)展到多層的神經(jīng)網(wǎng)絡(luò)。 NRR(Neural Rating Regression)[19]: 其用神經(jīng)網(wǎng)絡(luò)回歸來獲取用戶和物品之間的交互關(guān)系。 U-AutoRec(User-bsed AutoRec)[20]: 其設(shè)計(jì)了一個(gè)基于用戶的自動(dòng)編碼器,將已有的用戶評分投射到一個(gè)低維度的潛在空間,然后在輸出空間中重構(gòu)該用戶的評分矩陣,從而預(yù)測出丟失的評分。 MetricF(Metric Factorization)[2]: 該算法將傳統(tǒng)矩陣分解算法對具體評分值進(jìn)行分解的思路,轉(zhuǎn)變?yōu)閷嚯x矩陣的分解,為每個(gè)用戶和物品在低維空間內(nèi)生成一個(gè)點(diǎn),以此計(jì)算用戶與物品之間的距離。 本文模型與所有對比模型在四個(gè)數(shù)據(jù)集上的訓(xùn)練集和測試集均按9∶1劃分,即從總數(shù)據(jù)集中隨機(jī)抽取90%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為測試集。且在四個(gè)數(shù)據(jù)集上,用于訓(xùn)練距離特征向量的深度神經(jīng)網(wǎng)絡(luò)層數(shù)均設(shè)置為1層。 各模型的實(shí)驗(yàn)結(jié)果具體數(shù)值如表2所示,表中加粗的數(shù)據(jù)表示在該數(shù)據(jù)集下該模型的預(yù)測結(jié)果最優(yōu)。 表2 不同模型的評分預(yù)測實(shí)驗(yàn)結(jié)果對比 可以看到,本文的模型在所有數(shù)據(jù)集上均表現(xiàn)出了優(yōu)越的評分預(yù)測能力,具有一定的通用性。對比模型中的MetricF和DMFN算法次優(yōu)于本文模型,MetricF算法是將距離作為特征的推薦算法,它的評分預(yù)測結(jié)果優(yōu)于其他將評分值作為特征的算法,說明了將評分值轉(zhuǎn)換為距離值有助于緩解數(shù)據(jù)稀疏問題,解決矩陣分解不滿足三角不等式的缺點(diǎn),通過預(yù)測的距離值獲取的評分值比直接預(yù)測評分值的準(zhǔn)確率更高。而DMFN和U-AutoRec都是基于深度學(xué)習(xí)的推薦算法,其實(shí)驗(yàn)結(jié)果說明了深度學(xué)習(xí)能夠?qū)W習(xí)到隱藏于數(shù)據(jù)中的復(fù)雜的非線性特征。 在ML-1M這樣的大數(shù)據(jù)集上,模型也保持了穩(wěn)定的評分預(yù)測準(zhǔn)確性。Amazon-Jazz數(shù)據(jù)集極為稀疏,以至于U-AutoRec模型出現(xiàn)了無法收斂的現(xiàn)象,但本文模型的預(yù)測誤差依然低于對比模型,表現(xiàn)出了較強(qiáng)的穩(wěn)定性。特別是在爬取的微博數(shù)據(jù)集上,模型能夠有效預(yù)測用戶對不同疫情相關(guān)熱搜話題的興趣度,有助于為用戶及時(shí)推薦其感興趣的話題,幫助用戶及時(shí)獲取疫情下最關(guān)心的消息動(dòng)態(tài)。 為了探究模型中的重要參數(shù)對評分預(yù)測結(jié)果的影響,本文進(jìn)一步在ML-100K數(shù)據(jù)集上,對模型的激活函數(shù)、特征維度、丟棄率、學(xué)習(xí)率四個(gè)關(guān)鍵參數(shù)進(jìn)行了深入實(shí)驗(yàn)。 3.5.1 激活函數(shù) 對神經(jīng)網(wǎng)絡(luò)的激活函數(shù)實(shí)驗(yàn)了relu、relu6、sigmoid、tanh和softplus的效果。其中,relu是線性整流函數(shù);relu6將relu的最大值限制在6;sigmoid是S型函數(shù);tanh是雙曲函數(shù);softplus是relu的平滑函數(shù)。 實(shí)驗(yàn)結(jié)果如表3所示,從表中可以看出,relu6和softplus的實(shí)驗(yàn)效果相對較好,其中,softplus效果最優(yōu),說明relu6和softplus能夠彌補(bǔ)tanh和sigmoid函數(shù)兩端飽和的缺點(diǎn),同時(shí)解決relu函數(shù)輸入小于0時(shí),輸出為0的問題。 表3 不同激活函數(shù)實(shí)驗(yàn)結(jié)果對比 3.5.2 特征維度 對特征維度的維數(shù)分別取8、16、32、64、128層進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。 表4 不同特征維度實(shí)驗(yàn)結(jié)果對比 顯然,模型的效果在特征維度為64層時(shí)達(dá)到最優(yōu)。從8維增加到64維時(shí),預(yù)測誤差在逐漸減小,當(dāng)增加到128維時(shí),誤差上升,開始出現(xiàn)過擬合現(xiàn)象。 3.5.3 丟棄率 對模型的丟棄率從0.01~0.15,按一定梯度實(shí)驗(yàn)了不同丟棄率對實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)結(jié)果如表5所示。 表5 不同特征維度實(shí)驗(yàn)結(jié)果對比 顯然,模型的效果在丟棄率為0.9時(shí)達(dá)到最優(yōu),且在丟棄率小于0.85時(shí),模型無法收斂。當(dāng)丟棄率取0.01,接近0時(shí),實(shí)驗(yàn)誤差陡增,說明一定的丟棄率能夠避免過擬合現(xiàn)象。 3.5.4 學(xué)習(xí)率 對模型的學(xué)習(xí)率進(jìn)行實(shí)驗(yàn)研究時(shí),發(fā)現(xiàn)學(xué)習(xí)率對最終結(jié)果的影響不太大,學(xué)習(xí)率主要影響收斂速度。實(shí)驗(yàn)結(jié)果如表6所示。 表6 不同學(xué)習(xí)率實(shí)驗(yàn)結(jié)果對比 可以看到,學(xué)習(xí)率越小,收斂速度越快,但卻很難收斂到最優(yōu)結(jié)果。綜合來看,當(dāng)學(xué)習(xí)率為0.05時(shí),效果最好。 在推薦系統(tǒng)的用戶評分預(yù)測任務(wù)中,為了緩解數(shù)據(jù)稀疏問題,同時(shí)解決矩陣分解模型不滿足三角不等式的矛盾,本文基于距離分解模型,并結(jié)合深度神經(jīng)網(wǎng)絡(luò),通過用戶的顯式評分?jǐn)?shù)據(jù)訓(xùn)練生成具有線性和非線性特征的距離特征向量,增強(qiáng)了模型對數(shù)據(jù)中隱藏的特征信息的學(xué)習(xí)能力,最終在MovieLens數(shù)據(jù)集和Amazon數(shù)據(jù)集上表現(xiàn)出了良好的用戶評分預(yù)測準(zhǔn)確性和穩(wěn)定性。另外,本文基于新型冠狀病毒對人們生活產(chǎn)生的影響,從人們關(guān)注度較高的微博熱搜話題入手,用模型預(yù)測了用戶對不同疫情熱搜話題的興趣度,從而實(shí)現(xiàn)為用戶推薦其更感興趣的話題,幫助用戶第一時(shí)間了解話題最新動(dòng)態(tài),良好地體現(xiàn)了模型的實(shí)用性和時(shí)效性。 在未來的研究工作中,我們將考慮如何降低模型的計(jì)算復(fù)雜度,使模型在更大的數(shù)據(jù)集上減少運(yùn)行時(shí)間,節(jié)約計(jì)算資源。另一方面,網(wǎng)絡(luò)模型的結(jié)構(gòu)也可以進(jìn)一步優(yōu)化改進(jìn),以提升網(wǎng)絡(luò)生成的隱式特征的表征能力。1 相關(guān)工作
1.1 協(xié)同過濾
1.2 矩陣分解
2 基于深度距離分解模型的推薦
2.1 距離矩陣
2.2 距離分解
2.3 深度學(xué)習(xí)
2.4 評分預(yù)測
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)設(shè)計(jì)
3.2 實(shí)驗(yàn)數(shù)據(jù)
3.3 評價(jià)指標(biāo)
3.4 對比實(shí)驗(yàn)
3.5 參數(shù)實(shí)驗(yàn)
4 總結(jié)