關(guān)鍵詞: 推薦算法; 跨平臺; 異質(zhì)信息網(wǎng)絡(luò); 用戶偏好; 深度學(xué)習(xí)
DOI:10.3969 / j.issn.1008-0821.2024.09.003
〔中圖分類號〕G252.0 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821 (2024) 09-0031-11
隨著社交網(wǎng)絡(luò)用戶規(guī)模的急劇擴(kuò)張和數(shù)據(jù)資源的爆炸性增長, 推薦系統(tǒng)被廣泛地應(yīng)用在各大社交網(wǎng)絡(luò)平臺, 成為解決信息過載問題的有效途徑。同時(shí), 用戶不再局限于利用單個(gè)社交平臺的信息, 而是在不同社交平臺間進(jìn)行切換和轉(zhuǎn)移以滿足不同的服務(wù)需求[1] , 形成相應(yīng)的跨平臺行為。用戶跨平臺數(shù)據(jù)的遷移共享為個(gè)性化推薦服務(wù)帶來了嶄新的機(jī)遇與挑戰(zhàn), 跨平臺推薦系統(tǒng)以同一用戶作為連接源平臺與目標(biāo)平臺的橋梁, 使用用戶在源平臺中的信息豐富目標(biāo)平臺的數(shù)據(jù), 輔助模型在目標(biāo)平臺的精準(zhǔn)推薦[2-3] 。但是, 跨平臺多源信息間存在交叉關(guān)聯(lián)、重復(fù)錯(cuò)節(jié)的關(guān)系, 對用戶模糊性和多樣化的信息偏好進(jìn)行準(zhǔn)確識別和融合的難度較大[4-5] 。面向跨平臺異質(zhì)環(huán)境的用戶偏好融合與信息推薦研究仍然有大量的理論和關(guān)鍵技術(shù)亟待解決。
跨域推薦融合多個(gè)輔助領(lǐng)域的信息, 通過知識遷移解決目標(biāo)領(lǐng)域的數(shù)據(jù)稀疏問題, 可以提供更加合理和個(gè)性化的推薦服務(wù)[3] 。在跨域推薦的相關(guān)研究中, 學(xué)者通常平行地在每個(gè)領(lǐng)域場景訓(xùn)練模型,或者通過聯(lián)合協(xié)同過濾矩陣、共享參數(shù)或共享數(shù)據(jù)等方法訓(xùn)練一個(gè)多領(lǐng)域共享模型來實(shí)現(xiàn)信息的跨域流動[5] 。前者忽略了用戶、項(xiàng)目和內(nèi)容層面的跨域關(guān)聯(lián), 后者對于不同場景下大規(guī)模特征的共性和差異性解讀與探索存在明顯不足[6] 。多數(shù)研究基于用戶與推薦項(xiàng)目之間的歷史交互數(shù)據(jù)來建模用戶興趣,對跨平臺多源異構(gòu)的輔助信息的利用尚不充分[7] ,針對異質(zhì)性、大規(guī)模和分布不均的跨平臺用戶數(shù)據(jù)缺少通用的特征提取和遷移融合方法[8] 。
跨平臺數(shù)據(jù)對于推薦系統(tǒng)具有重要意義, 然而現(xiàn)有關(guān)于融合跨平臺異構(gòu)數(shù)據(jù)的信息推薦框架仍不夠完善。鑒于此, 本文將跨平臺的多領(lǐng)域異質(zhì)信息引入推薦系統(tǒng), 提出融合跨平臺用戶偏好與異質(zhì)信息網(wǎng)絡(luò)的推薦算法(CPHAR), 旨在全面挖掘跨平臺數(shù)據(jù)要素價(jià)值, 緩解由數(shù)據(jù)分布不均產(chǎn)生的稀疏性和用戶冷啟動問題。本文順應(yīng)情報(bào)學(xué)領(lǐng)域的研究發(fā)展趨勢, 強(qiáng)調(diào)多源異構(gòu)信息的集成整合與融合統(tǒng)一[9] 。研究成果將為應(yīng)對推薦系統(tǒng)實(shí)際應(yīng)用中面臨的跨平臺數(shù)據(jù)的復(fù)雜特點(diǎn)和解決跨平臺信息推薦的瓶頸問題提供新的思路, 為實(shí)現(xiàn)深度挖掘跨平臺數(shù)據(jù)內(nèi)的巨大價(jià)值提供新的解決途徑, 進(jìn)一步提升推薦的效率和準(zhǔn)確度。本文的主要貢獻(xiàn)如下:
1) 本文考慮到不同平臺知識獨(dú)立性和服務(wù)差異性的存在, 在跨平臺用戶異質(zhì)信息融合的基礎(chǔ)上開展推薦研究, 通過構(gòu)建用戶跨平臺的核心興趣朋友圈, 結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制建模用戶跨平臺的信息偏好, 實(shí)現(xiàn)了對目標(biāo)平臺冷啟動用戶進(jìn)行特征增強(qiáng)的目的, 為跨平臺多源異構(gòu)數(shù)據(jù)的融合和遷移提供了新的解決方案。
2) 本文通過提出合理的關(guān)系剪枝和補(bǔ)全策略,使用異質(zhì)圖注意力網(wǎng)絡(luò)(Heterogeneous Graph Atten?tion Network, HAN)提升對異質(zhì)節(jié)點(diǎn)特征的聚合能力。跨平臺用戶核心興趣朋友圈有效地降低了網(wǎng)絡(luò)的噪聲與差異, 從語義層面和用戶行為的角度建立項(xiàng)目的隱式關(guān)聯(lián), 為模型提供了更為全面和深入的推薦依據(jù)。
3) 優(yōu)化了矩陣分解模型。經(jīng)典的矩陣分解模型僅使用用戶和項(xiàng)目之間的交互信息來學(xué)習(xí)對應(yīng)的潛在因子, 對于冷啟動用戶和未知項(xiàng)目的特征提取能力較弱。本文利用神經(jīng)網(wǎng)絡(luò)模型將跨平臺用戶偏好和異質(zhì)信息網(wǎng)絡(luò)中的高階特征納入模型之中進(jìn)行聯(lián)合矩陣分解, 增強(qiáng)模型的預(yù)測能力。
1相關(guān)研究
經(jīng)典的推薦模型包括基于內(nèi)容的過濾、協(xié)同過濾和混合推薦[10] , 通常依賴于用戶與推薦項(xiàng)目豐富的歷史交互進(jìn)行推薦。大數(shù)據(jù)環(huán)境下稀疏的高維數(shù)據(jù)以及不斷涌入系統(tǒng)的新用戶和新項(xiàng)目使傳統(tǒng)模型的局限性逐漸突出[11] 。學(xué)者們通過引入文本、圖像、標(biāo)簽、知識圖譜等輔助信息, 來解決推薦系統(tǒng)存在的上述問題[12-13] 。李丹陽等[4] 通過神經(jīng)網(wǎng)絡(luò)融合多源信息構(gòu)建項(xiàng)目特征體系, 結(jié)合加權(quán)矩陣分解的潛在因子向量預(yù)測用戶對項(xiàng)目的偏好。丁浩等[14] 使用漂移矩陣捕獲用戶興趣隨時(shí)間的動態(tài)變化, 提出一種基于時(shí)序漂移的潛在因子分解模型。錢聰?shù)龋郏保担?考慮到用戶興趣的遺忘, 在丁浩等[14] 的基礎(chǔ)上結(jié)合用戶多重偏好特征時(shí)間權(quán)重對模型進(jìn)行改進(jìn)。Yang M 等[16] 提出, MMDIN 使用多模態(tài)模塊提取圖像特征, 利用多頭注意力機(jī)制從不同維度提取特征, 增強(qiáng)了模型的交叉組合和預(yù)測能力。為提升推薦算法的時(shí)間效率和可擴(kuò)展性, Das J 等[17]在Voronoi 圖的基礎(chǔ)上提出了一種基于分區(qū)的推薦方法, 在每個(gè)分區(qū)中單獨(dú)執(zhí)行協(xié)同過濾算法, 將基準(zhǔn)協(xié)同過濾算法的運(yùn)行時(shí)間縮短了至少65%, 而且保證了較好的推薦質(zhì)量。
跨域推薦將用戶興趣和項(xiàng)目特征在不同領(lǐng)域之間進(jìn)行融合, 通過用戶偏好的跨域轉(zhuǎn)移解決單域推薦的數(shù)據(jù)稀疏和冷啟動問題[18-19] 。Zhang Q 等[20-21]認(rèn)為, 直接將源領(lǐng)域的評分模式轉(zhuǎn)移到無重疊的目標(biāo)領(lǐng)域可能會導(dǎo)致負(fù)遷移, 采用領(lǐng)域自適應(yīng)函數(shù)確保轉(zhuǎn)移知識的一致性, 并使用內(nèi)核誘導(dǎo)的知識轉(zhuǎn)移方式來對具有部分用戶重疊的目標(biāo)領(lǐng)域進(jìn)行推薦。Zhao C 等[19] 提出一種基于方面級轉(zhuǎn)移網(wǎng)絡(luò)的跨領(lǐng)域推薦框架, 從評論文檔中提取用戶和項(xiàng)目抽象的方面級特征, 利用重疊用戶的方面特征來識別全局跨域方面相關(guān)性, 以更細(xì)的粒度揭示跨領(lǐng)域用戶的方面級聯(lián)系。Xu Z 等[5] 提出一種基于層次超圖網(wǎng)絡(luò)的相關(guān)偏好轉(zhuǎn)移框架, 包括動態(tài)項(xiàng)目轉(zhuǎn)移和自適應(yīng)用戶聚合兩個(gè)核心模塊, 模型將多域用戶項(xiàng)目交互表示為一個(gè)統(tǒng)一的超圖, 利用超邊來建立跨領(lǐng)域關(guān)系和獲取相關(guān)知識。
異質(zhì)信息網(wǎng)絡(luò)在網(wǎng)絡(luò)拓?fù)鋵用鎸ο到y(tǒng)中包含的異質(zhì)輔助信息進(jìn)行整合和利用, 為推薦算法的進(jìn)一步優(yōu)化創(chuàng)造了新的可能性[7,22] 。異質(zhì)信息網(wǎng)絡(luò)中不同類型的節(jié)點(diǎn)和鏈接代表了不同類型的對象和關(guān)系,集成了更為豐富的語義信息, 可以通過挖掘高階關(guān)系特征進(jìn)行充分的語義關(guān)聯(lián)和知識融合[11,23] 。Shi C等[24] 將異質(zhì)信息表示學(xué)習(xí)的特征向量嵌入矩陣分解模型, 相較于傳統(tǒng)矩陣分解模型, 推薦性能得到有效提升。Li L 等[25] 在異質(zhì)網(wǎng)絡(luò)中通過提取用戶和項(xiàng)目相鄰節(jié)點(diǎn)來補(bǔ)充元路徑的缺失信息, 根據(jù)卷積層和注意力機(jī)制得到的節(jié)點(diǎn)和元路徑的嵌入進(jìn)行推薦。熊回香等[26] 對異質(zhì)網(wǎng)絡(luò)中的關(guān)系進(jìn)行加權(quán), 通過對加權(quán)異質(zhì)網(wǎng)絡(luò)的表示學(xué)習(xí)進(jìn)行學(xué)術(shù)信息的推薦研究。近年來, 異質(zhì)信息網(wǎng)絡(luò)開始逐漸應(yīng)用于跨域推薦。易明等[3] 在源領(lǐng)域和目標(biāo)領(lǐng)域分別建立異質(zhì)信息網(wǎng)絡(luò), 通過元路徑、DeepWalk 算法獲取網(wǎng)絡(luò)中的特征信息, 采用擴(kuò)展的聯(lián)合矩陣分解模型進(jìn)行推薦預(yù)測。HCDIR 在源領(lǐng)域采用門控遞歸單元建模用戶興趣,在目標(biāo)域構(gòu)建異質(zhì)信息網(wǎng)絡(luò), 通過注意力機(jī)制和多層感知機(jī)學(xué)習(xí)跨域的特征映射[27] 。
綜上, 推薦系統(tǒng)的研究取得了一定的進(jìn)展, 但仍存在一些不足。首先, 跨域推薦對輔助域的信息挖掘不夠充分, 對于用戶跨域多源異構(gòu)數(shù)據(jù)的融合和交互缺乏深入研究, 在用戶偏好遷移的有效性和準(zhǔn)確性方面還有較大的改進(jìn)空間; 其次, 基于異質(zhì)信息網(wǎng)絡(luò)的推薦主要以淺層模型為基礎(chǔ), 無法有效捕獲大規(guī)模、復(fù)雜異質(zhì)網(wǎng)絡(luò)的語義信息; 此外, 異質(zhì)信息網(wǎng)絡(luò)中的高階信息聚合方案大多是基于節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)模型, 未能考慮到不同元路徑的重要性及其對推薦結(jié)果的影響; 最后, 異質(zhì)信息網(wǎng)絡(luò)中普遍存在的噪聲和差異問題也沒有得到較好的解決,聚合與推薦無關(guān)的信息會干擾模型性能[28] 。為彌補(bǔ)以上不足, 本文一方面通過對用戶跨平臺產(chǎn)生的屬性信息、興趣知識、社交網(wǎng)絡(luò)等異質(zhì)信息進(jìn)行融合和遷移利用, 以全面識別用戶的核心興趣和建模用戶偏好; 另一方面, 使用包含雙重注意力的HAN聚合復(fù)雜的多類型特征和高階交互信息, 識別不同元路徑下對推薦有用的異質(zhì)信息, 以共同提升模型的整體性能。
2 模型構(gòu)建
本文提出的融合跨平臺用戶偏好與異質(zhì)信息網(wǎng)絡(luò)的推薦模型主要包括3 部分內(nèi)容: ①基于跨平臺異質(zhì)信息融合的用戶偏好特征建模: 使用用戶在不同平臺中的屬性、內(nèi)容和社交關(guān)系數(shù)據(jù)構(gòu)建用戶跨平臺的核心興趣朋友圈, 利用卷積神經(jīng)網(wǎng)絡(luò)模型捕捉用戶在源平臺和目標(biāo)平臺發(fā)布內(nèi)容中所體現(xiàn)的信息偏好特征, 通過注意力機(jī)制進(jìn)行加權(quán)融合, 得到跨平臺遷移后的用戶偏好特征; ②基于HAN 的高階特征聚合: 根據(jù)用戶核心興趣朋友圈以及用戶和推薦項(xiàng)目相關(guān)的實(shí)體關(guān)系構(gòu)建異質(zhì)信息網(wǎng)絡(luò), 使用TransE 算法學(xué)習(xí)節(jié)點(diǎn)的初始嵌入向量, 分別提取異質(zhì)信息網(wǎng)絡(luò)中用戶和項(xiàng)目相關(guān)的元路徑, 使用HAN 模型得到多跳路徑下的高階聚合特征; ③基于改進(jìn)矩陣分解模型的推薦預(yù)測: 將跨平臺用戶偏好和實(shí)體的高階特征納入矩陣分解模型中, 計(jì)算用戶與項(xiàng)目之間的推薦概率得分, 模型最終為每個(gè)用戶生成對應(yīng)的推薦列表。本文所提模型的框架結(jié)構(gòu)如圖1所示。
2.1 跨平臺用戶偏好特征建模
跨平臺用戶偏好特征建模部分通過對用戶跨平臺的異質(zhì)信息進(jìn)行處理, 提取具有相同興趣的跨平臺核心興趣朋友圈, 以及獲取完整的跨平臺用戶信息偏好特征。
Nie Y 等[29] 提出, 用戶關(guān)注有相似興趣的朋友,如果兩個(gè)用戶屬于同一個(gè)體, 那么他們在不同平臺中將具有部分相似的核心興趣, 并且用戶的核心興趣在不同平臺中將會同步改變。用戶核心興趣朋友圈的這種群組思想在社交媒體中的社群發(fā)現(xiàn)、用戶身份識別、用戶推薦和異常用戶行為檢測等方面得到廣泛應(yīng)用[30-31] 。結(jié)合已有研究, 本研究將同一用戶所關(guān)注的具有相似跨平臺信息和興趣的朋友認(rèn)定為該用戶的跨平臺核心興趣朋友圈, 綜合考慮用戶跨平臺的屬性信息、發(fā)布內(nèi)容和社交網(wǎng)絡(luò)關(guān)系構(gòu)建用戶跨平臺的核心興趣朋友圈。構(gòu)建跨平臺核心興趣朋友圈的流程如下。
3實(shí)驗(yàn)分析
3.1數(shù)據(jù)集
由于目前尚未有公開的與推薦算法相關(guān)的跨平臺數(shù)據(jù)集, 本研究選取知乎和微博平臺分別作為目標(biāo)平臺和源平臺, 以推薦知乎用戶所關(guān)注的問題為實(shí)驗(yàn)?zāi)繕?biāo), 自主構(gòu)建所需數(shù)據(jù)集。本文通過網(wǎng)絡(luò)爬蟲技術(shù)在知乎中隨機(jī)爬取生活、娛樂、學(xué)習(xí)和時(shí)政4個(gè)領(lǐng)域的問題及關(guān)注該問題的知乎用戶數(shù)據(jù)。知乎為用戶提供了公開其他社交媒體賬號的功能, 通過解析知乎用戶的JSON 數(shù)據(jù)可以得到部分用戶的微博ID,以匹配的同一用戶作為實(shí)驗(yàn)的用戶集來源。進(jìn)一步地, 爬取匹配用戶在知乎以及微博中的屬性和發(fā)布內(nèi)容, 由于微博的系統(tǒng)限制, 無法獲取全部的微博用戶關(guān)注信息, 本文僅爬取知乎用戶的關(guān)注列表以提取匹配用戶之間的社交結(jié)構(gòu)信息。
在獲取數(shù)據(jù)集之后, 為降低冗余數(shù)據(jù)對模型效果的潛在負(fù)面影響, 在4個(gè)領(lǐng)域的數(shù)據(jù)集中分別刪除關(guān)注量少于20的問題和關(guān)注問題數(shù)量不足10的用戶。數(shù)據(jù)集最終的基本統(tǒng)計(jì)信息如表1 所示, 本文構(gòu)造的跨平臺信息推薦的數(shù)據(jù)集規(guī)模較大, 且信息種類多樣, 不僅彌補(bǔ)了推薦領(lǐng)域中跨平臺多屬性和細(xì)粒度數(shù)據(jù)集的空缺, 也對實(shí)驗(yàn)?zāi)P偷臐撛诜€(wěn)健性提出了較高要求。各數(shù)據(jù)集中的用戶—問題交互關(guān)系的稀疏程度均在99%以上, 稀疏的交互數(shù)據(jù)對模型性能提出了更高要求。重疊用戶的微博內(nèi)容數(shù)據(jù)量顯著高于知乎內(nèi)容量, 為使用源平臺的密集數(shù)據(jù)解決目標(biāo)平臺推薦的冷啟動問題提供契機(jī)。本文構(gòu)造的大規(guī)??缙脚_數(shù)據(jù)集不僅體現(xiàn)了研究的廣度和深度, 也為評估模型在不同數(shù)據(jù)稠密度下的適應(yīng)性和穩(wěn)健性提供了實(shí)驗(yàn)基礎(chǔ)。
3.2實(shí)驗(yàn)設(shè)置
本文根據(jù)問題、用戶、問題作者、問題標(biāo)簽和問題分詞5 種類型的節(jié)點(diǎn)及其之間的關(guān)系構(gòu)建異質(zhì)信息網(wǎng)絡(luò), 使用TransE 模型訓(xùn)練各個(gè)節(jié)點(diǎn)的初始向量。提取異質(zhì)網(wǎng)絡(luò)中以用戶和問題分別作為開頭和結(jié)尾的元路徑, 不同的元路徑代表不同的語義或相互關(guān)系, 各元路徑的語義含義及其對應(yīng)的關(guān)系數(shù)量如表2 所示。HAN 可以捕獲異質(zhì)圖中復(fù)雜的關(guān)系結(jié)構(gòu)、聚合多層次信息以及動態(tài)調(diào)整關(guān)系權(quán)重。表2 中的數(shù)據(jù)展示出用戶間、問題間的多維度關(guān)系具有異質(zhì)性和不均勻性等特點(diǎn), 符合HAN 能夠發(fā)揮最大效果的應(yīng)用場景, 模型可以最大化地利用具有豐富多樣性和復(fù)雜性的數(shù)據(jù)。
使用Stanford CoreNLP 對用戶的內(nèi)容文本進(jìn)行命名實(shí)體識別, 保留與用戶行為密切相關(guān)的組織、人員和地點(diǎn)類型的命名實(shí)體[1] , 將命名實(shí)體映射到騰訊AI 大型中文詞向量數(shù)據(jù)集中進(jìn)行向量化表示。本模型基于Pytorch框架實(shí)現(xiàn)。在參數(shù)設(shè)置方面, 經(jīng)過多輪實(shí)驗(yàn), 最終確認(rèn)參數(shù)為: HAN 和一維卷積網(wǎng)絡(luò)的輸出節(jié)點(diǎn)特征維度均為64 維, HAN的多頭注意力數(shù)量為4, 隱層單元大小為4, 卷積核大小為3; 使用Xavier 初始化模型參數(shù), 學(xué)習(xí)率0.01,批量為128,迭代訓(xùn)練30 次。在數(shù)據(jù)集處理方面, 將用戶集合劃分為90%的訓(xùn)練集與10%的測試集。隨機(jī)生成負(fù)樣本, 保證訓(xùn)練集的正負(fù)樣本比例1∶1,以達(dá)到提高訓(xùn)練穩(wěn)定性和防止模型過擬合的目的。
3.3對比模型和評估指標(biāo)
為驗(yàn)證本文所提模型的有效性, 將本模型與以下模型進(jìn)行對比。
1) MF: 經(jīng)典的矩陣分解模型, 將用戶—項(xiàng)目交互矩陣分解為低維度的潛在特征向量的乘積。該模型依賴用戶—項(xiàng)目交互信息進(jìn)行因子分解, 通過學(xué)習(xí)用戶和項(xiàng)目在潛在空間上的表示, 進(jìn)而預(yù)測用戶對未知項(xiàng)目的偏好程度。
2) RippleNet: 一種基于知識圖譜的推薦算法[38] 。旨在通過模擬用戶興趣在知識圖譜中的“漣漪” 傳播來提高推薦質(zhì)量, 核心思想是通過圖譜傳播用戶興趣點(diǎn), 以捕獲用戶多樣化的潛在興趣, 使推薦算法有效地利用圖中的結(jié)構(gòu)化信息。
3) PGPR: 一種基于強(qiáng)化知識圖譜推理的推薦算法[39] 。將推薦問題轉(zhuǎn)化為知識圖譜上的一個(gè)確定性馬爾可夫決策過程, 提出了一種策略性路徑推理的方法, 將知識圖譜路徑推理的思想應(yīng)用于推薦系統(tǒng), 采用強(qiáng)化學(xué)習(xí)的方法使智能體學(xué)習(xí)如何導(dǎo)航到用戶潛在感興趣的項(xiàng)目。
模型將為每個(gè)用戶生成一個(gè)推薦列表, 本文采用平均倒數(shù)排名(Mean Reciprocal Rank, MRR)和前K 位命中率Hits@ K 作為評估模型性能的指標(biāo)。
1) MRR: 用于衡量推薦結(jié)果排序質(zhì)量的指標(biāo),它通過計(jì)算用戶實(shí)際互動項(xiàng)在推薦列表中排名倒數(shù)的平均值來評估推薦系統(tǒng)的效果。具體計(jì)算過程如式(16) 所示:
2) Hits@ K: 測量前K 個(gè)推薦結(jié)果的命中率指標(biāo), 表示推薦列表的前K 項(xiàng)中有正確推薦的概率。具體計(jì)算過程如式(17) 所示:
其中, I 是指示函數(shù), 如果ranku≤K, 則I 為1, 否則為0。
3.4實(shí)驗(yàn)結(jié)果
為更好地體現(xiàn)模型效果, 選擇在兩個(gè)平臺均有發(fā)布內(nèi)容的用戶進(jìn)行實(shí)驗(yàn), 表3 列出了4 種模型在不同數(shù)據(jù)集下得到的MRR、Hits@ 1、Hits@ 3 和Hits@ 10 指標(biāo)??傮w來看, MF 模型取得的推薦效果較差, 沒有在特定指標(biāo)上表現(xiàn)出突出的優(yōu)勢, MF主要依賴于用戶—項(xiàng)目交互數(shù)據(jù), 無法充分獲取用戶偏好和領(lǐng)域知識, 限制了其在處理復(fù)雜推薦場景時(shí)的性能。RippleNet 和PGPR 都能夠利用異質(zhì)信息網(wǎng)絡(luò)為推薦提供額外的語義信息, 因此在推薦效果上優(yōu)于MF。RippleNet 在MRR 和Hits@ 1 指標(biāo)上表現(xiàn)較好, 用戶興趣點(diǎn)在網(wǎng)絡(luò)中的傳播增強(qiáng)了Rip?pleNet 的推薦的精確度和相關(guān)性, 但是由于其特征融合和信息利用的效率較低, 模型在Hits@ 3 和Hits@10的表現(xiàn)不佳。PGPR 在Hits@ 3 和Hits@ 10的表現(xiàn)較好, PGPR 通過強(qiáng)化學(xué)習(xí)路徑搜尋的方式,在為用戶提供多樣化推薦方面有一定的優(yōu)勢, 但是在精準(zhǔn)匹配用戶核心需求方面的能力有限。通過高效地融合用戶跨平臺信息偏好, 同時(shí)結(jié)合HAN 增強(qiáng)用戶和項(xiàng)目特征的表示能力, 本文提出的CPHAR模型推薦效果均優(yōu)于以上對比模型, 能夠有效地解決用戶冷啟動和項(xiàng)目數(shù)據(jù)稀疏性的問題, 提升推薦結(jié)果的準(zhǔn)確性、多樣性和覆蓋度。
3.5跨平臺用戶偏好建模效果分析
為探究模型中跨平臺用戶偏好建模的效果, 使用本模型對僅在源平臺和僅在目標(biāo)平臺有內(nèi)容信息的用戶進(jìn)行推薦, 在保證用戶數(shù)量一致的情況下與具有跨平臺內(nèi)容信息用戶的推薦結(jié)果進(jìn)行比較, 實(shí)驗(yàn)結(jié)果如圖2、圖3 所示??傮w來看, 相較于僅在單平臺中具有內(nèi)容信息的用戶, 模型對于具有跨平臺內(nèi)容的用戶推薦效果更好, 說明本模型能夠有效地融合和利用跨平臺內(nèi)容中的關(guān)鍵信息, 實(shí)現(xiàn)更優(yōu)的推薦效果。同時(shí), 模型對于僅在源平臺有數(shù)據(jù)的用戶也實(shí)現(xiàn)了較好的推薦效果, 這一意外的實(shí)驗(yàn)發(fā)現(xiàn)不僅說明引入用戶在其他平臺的內(nèi)容信息對目標(biāo)平臺用戶數(shù)據(jù)進(jìn)行補(bǔ)充具有一定的合理性, 驗(yàn)證了Nie Y 等[29] 提出的用戶在不同平臺中具有相似興趣偏好的論點(diǎn), 也進(jìn)一步證明了本模型對于目標(biāo)平臺中完全冷啟動的用戶同樣具有較好的推薦性能, 模型具有一定的普適性。
3.6消融實(shí)驗(yàn)
消融實(shí)驗(yàn)進(jìn)一步探究模型構(gòu)建的用戶跨平臺核心興趣朋友圈以及HAN 高階特征聚合模塊對模型結(jié)果的影響。具體來講, CPHAR_DU 模型將CPHAR模型中的核心興趣朋友圈替換為用戶關(guān)注朋友列表,CPHAR_DH 模型移除了CPHAR 模型中的HAN 模塊, 直接使用TransE 得到的用戶和項(xiàng)目向量進(jìn)行實(shí)驗(yàn), 各數(shù)據(jù)集的消融實(shí)驗(yàn)結(jié)果如圖4 所示。整體來看, CPHAR 模型的性能要顯著優(yōu)于兩個(gè)消融模型, 證明了CPHAR 在進(jìn)行用戶核心興趣挖掘和高階特征聚合方面的有效性和優(yōu)越性。CPHAR_DU使用用戶全部的社交結(jié)構(gòu)關(guān)系, 未考慮到不同朋友的差異性特征以及關(guān)鍵用戶產(chǎn)生的重要影響, 融合所有具有社交關(guān)系的用戶在一定程度上干擾了對用戶自身特征的識別, 且大大降低了模型的運(yùn)行效率。CPHAR_DH 使用TransE進(jìn)行節(jié)點(diǎn)和關(guān)系的向量化,只關(guān)注了異質(zhì)實(shí)體之間的直接關(guān)系, 而無法有效應(yīng)用異質(zhì)信息網(wǎng)絡(luò)中復(fù)雜的多跳路徑關(guān)系, 對實(shí)體在不同元路徑下的特征表達(dá)能力有限。CPHAR_DH 模型的推薦性能相對較差, 證明了HAN 高階特征聚合對提升模型預(yù)測能力發(fā)揮重要貢獻(xiàn)。
4結(jié)論
針對當(dāng)前信息推薦領(lǐng)域存在的數(shù)據(jù)稀疏和用戶冷啟動的問題, 本文提出一種融合跨平臺用戶偏好與異質(zhì)信息網(wǎng)絡(luò)的推薦模型。該模型整合跨平臺多源異構(gòu)數(shù)據(jù)識別用戶核心興趣朋友圈, 通過卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制挖掘用戶跨平臺的信息偏好特征, 結(jié)合項(xiàng)目語義相似度和PMI 數(shù)值挖掘推薦項(xiàng)目的隱形關(guān)聯(lián)。不僅完成了對跨平臺大規(guī)模異質(zhì)信息網(wǎng)絡(luò)拓?fù)潢P(guān)系的降噪和完善, 也進(jìn)一步實(shí)現(xiàn)了對用戶模糊性和多樣化偏好的準(zhǔn)確識別和遷移融合的優(yōu)化目標(biāo)。此外, 優(yōu)化了傳統(tǒng)矩陣分解模型, 利用神經(jīng)網(wǎng)絡(luò)模型將用戶跨平臺信息偏好和使用HAN 聚合后的用戶和項(xiàng)目高階特征納入推薦模型中, 較全面地融合了不同元路徑上的語義信息, 達(dá)到了有效利用平臺間豐富特征信息以提升模型預(yù)測能力的目的。在真實(shí)數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果表明, 本文模型在各項(xiàng)評估指標(biāo)上均表現(xiàn)出了顯著的優(yōu)勢, 對于目標(biāo)平臺中完全冷啟動的用戶同樣具有較好的推薦表現(xiàn),說明模型在提高推薦效果和優(yōu)化用戶冷啟動方面更具優(yōu)越性和穩(wěn)定性。消融實(shí)驗(yàn)進(jìn)一步證明了模型構(gòu)建的跨平臺核心興趣朋友圈和HAN 高階特征聚合模塊對模型性能的提升發(fā)揮重要作用。
在實(shí)現(xiàn)上述技術(shù)創(chuàng)新的同時(shí), 本研究還具有廣闊的延伸應(yīng)用價(jià)值。本文所提模型將為多領(lǐng)域多情景下的用戶偏好特征建模及推薦應(yīng)用提供借鑒, 為基于場景精細(xì)化和跨域關(guān)聯(lián)式的信息資源推薦提供范式拓新。本文模型的普適性和可擴(kuò)展性較強(qiáng), 可以基于用戶在不同場景下的不對稱、不均勻的異構(gòu)數(shù)據(jù)實(shí)現(xiàn)全方位的用戶偏好建模, 通過充分挖掘和融合多場景下用戶和項(xiàng)目的復(fù)雜關(guān)聯(lián), 突破單場景下推薦算法的認(rèn)知局限與偏差, 實(shí)現(xiàn)跨平臺或者跨領(lǐng)域的精準(zhǔn)推薦。具體來講, 本文模型可從跨平臺的信息推薦應(yīng)用擴(kuò)展至圖書、專利、科技文獻(xiàn)、在線出版物等信息資源的推薦, 全面激活與整合數(shù)據(jù)的價(jià)值要素, 進(jìn)一步提升信息資源的利用效率, 助力算法技術(shù)的革新與信息資源管理的高質(zhì)量發(fā)展。
本文模型也存在一些不足, 對于用戶跨平臺的屬性和發(fā)布內(nèi)容數(shù)據(jù), 模型僅提取了其中的文本特征, 忽略了其他相關(guān)的多模態(tài)數(shù)據(jù)特征。在后續(xù)研究中, 將考慮結(jié)合圖片、視頻以及用戶的地理位置等信息, 更全面地解讀用戶跨平臺信息偏好特征,進(jìn)一步拓展本研究的內(nèi)容。此外, 未來研究可以進(jìn)一步結(jié)合用戶在更多平臺和領(lǐng)域中的異質(zhì)特征信息,在復(fù)雜推薦場景下對模型進(jìn)行進(jìn)一步優(yōu)化。