摘" 要: 針對原始圖卷積神經(jīng)網(wǎng)絡(luò)推送模型存在的冷啟動和過平滑問題,文中基于堆疊重構(gòu)網(wǎng)絡(luò)和改進(jìn)自編碼器網(wǎng)絡(luò),提出一種針對用戶畫像的多信息推送模型。對于冷啟動問題,在圖卷積網(wǎng)絡(luò)的輸出部分,將用戶畫像中的評價信息嵌入到網(wǎng)絡(luò)中,之后通過注意力網(wǎng)絡(luò)層提取特征信息,并對模型進(jìn)行堆疊,以提升用戶交互數(shù)據(jù)的質(zhì)量。對于過平滑問題,增加網(wǎng)絡(luò)層數(shù)的同時,使用改進(jìn)的自編碼器和度預(yù)測模塊對動態(tài)圖網(wǎng)絡(luò)進(jìn)行局部訓(xùn)練,從而提升算法的個性化推薦能力。在實(shí)驗(yàn)測試中,相較基線最優(yōu)算法,所提算法的HR指標(biāo)分別提升22.7%、12.2%,NDCG指標(biāo)分別提升4.7%和6.5%。證明了該算法性能良好,能夠?yàn)橛脩籼峁┚_化的推送服務(wù)。
關(guān)鍵詞: 圖卷積神經(jīng)網(wǎng)絡(luò); 堆疊重構(gòu)網(wǎng)絡(luò); 用戶精準(zhǔn)畫像; 自注意力模型; 度預(yù)測模塊; 推送算法
中圖分類號: TN911.73?34; TP391" " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)06?0175?05
Design of accurate customer profiling and push algorithm based on
multi?information fusion analysis
QI Guangpeng1, 2
(1. School of Physics and Electronic Engineering, Northeast Petroleum University, Daqing 163318, China;
2. Inspur Yunzhou Industrial Internet Co., Ltd., Jinan 250000, China)
Abstract: In allusion to the problems of cold start and oversmooth in the original graph convolutional neural network push model, a multi?information push model for user profiles is proposed based on stacked reconstruction network and improved autoencoder network. For the cold start problem, in the output part of the graph convolutional network, the evaluation information from the user profiles is embedded into the network, and then the feature information is extracted by means of the attention network layer, and the model is stacked to improve the quality of user interaction data. For the oversmooth problem, an improved autoencoder and degree prediction module are used to locally train the dynamic graph network while increasing the number of network layers, thereby enhancing the personalized recommendation ability of the algorithm. In experimental testing, in comparison with the baseline optimal algorithm, the HR index of the proposed algorithm was improved by 22.7% and 12.2%, respectively, and the NDCG index was improved by 4.7% and 6.5% respectively, proving that the algorithm has good performance and can provide users with precise push services.
Keywords: graph convolutional neural network; stacked reconstruction network; accurate user profiling; self attention model; degree prediction module; push algorithm
0" 引" 言
隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,用戶在互聯(lián)網(wǎng)中獲取信息的行為也發(fā)生了改變。伴隨著網(wǎng)絡(luò)數(shù)據(jù)量的激增,推薦系統(tǒng)的出現(xiàn)給用戶和企業(yè)都帶來了巨大的收益[1?3]。對用戶而言,推薦系統(tǒng)可以根據(jù)自身的畫像標(biāo)簽輔助用戶篩選出有價值的信息;對企業(yè)而言,推薦系統(tǒng)可以根據(jù)不同的用戶特征制定不同類型的營銷方案或推薦方案,有效吸引用戶,并為用戶帶來更佳的使用體驗(yàn)。當(dāng)前,推薦系統(tǒng)在社交、自媒體、購物等軟件平臺中應(yīng)用極為廣泛。
推薦算法與人工智能算法的發(fā)展過程相輔相成。目前主流的推薦算法按照發(fā)展歷程可分為3類模型,分別是淺層網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)以及圖神經(jīng)網(wǎng)絡(luò)。淺層網(wǎng)絡(luò)模型主要利用標(biāo)簽匹配法,根據(jù)用戶屬性來匹配推薦內(nèi)容,但是這種方法無法獲取到用戶特征與目標(biāo)內(nèi)容的深層次關(guān)聯(lián)信息。因此,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型應(yīng)運(yùn)而生。雖然這類模型可以提高算法的特征表達(dá)能力,但它也忽略了用戶的高階屬性信息。本文基于圖神經(jīng)網(wǎng)絡(luò)和用戶畫像,提出了一種多信息融合的推薦算法。
1" 基于多信息融合分析的客戶精準(zhǔn)畫像與推送算法設(shè)計
1.1" 圖卷積神經(jīng)網(wǎng)絡(luò)
圖是一種典型的數(shù)據(jù)結(jié)構(gòu)。在推薦系統(tǒng)中,用戶和信息是一種典型的交互模型,這類模型需要使用圖結(jié)構(gòu)進(jìn)行表達(dá)[4]。由于用戶屬性和內(nèi)容信息是隨時間不停變化的,因此需要使用連續(xù)時間內(nèi)的動態(tài)圖結(jié)構(gòu)來表達(dá)交互關(guān)系。t時刻的連續(xù)時間動態(tài)圖結(jié)構(gòu)如圖1所示。
圖1中:un表示用戶的信息節(jié)點(diǎn);ij表示項(xiàng)目的信息節(jié)點(diǎn);tk表示邊時間戳。
為求解動態(tài)圖目標(biāo),現(xiàn)有的技術(shù)方案通常采用圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)來進(jìn)行實(shí)現(xiàn)。GNN主要是聚合中心信息節(jié)點(diǎn)的特征信息,并通過傳播層將全局和節(jié)點(diǎn)局部特征信息相結(jié)合,從而得到更加豐富的高階特征信息。為了提高計算效率,本文使用圖神經(jīng)網(wǎng)絡(luò)中的圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)[5?7]來進(jìn)行具體的求解與計算。
首先基于傳統(tǒng)的卷積網(wǎng)絡(luò),GCN從文本和圖像中獲取特征信息并將其引申到圖數(shù)據(jù)中;然后GCN再通過學(xué)習(xí)數(shù)據(jù)特征得到映射關(guān)系,并利用該映射關(guān)系學(xué)習(xí)下一個節(jié)點(diǎn)。GCN結(jié)構(gòu)圖如圖2所示。
GCN由輸入層、隱藏層和輸出層組成。輸入層由圖節(jié)點(diǎn)特征和鄰居矩陣構(gòu)成,對于某個動態(tài)圖而言,假定其特征維度為k,輸入節(jié)點(diǎn)構(gòu)成的輸入矩陣為X,圖的相鄰矩陣為A。在隱藏層中,動態(tài)圖各節(jié)點(diǎn)的數(shù)據(jù)傳輸方式為:
式中:[A]為矩陣A和單位矩陣的和;[D]為矩陣A的度矩陣;H為每層輸出的特征向量;l為網(wǎng)絡(luò)層數(shù);W為權(quán)值矩陣。
當(dāng)隱藏層運(yùn)算完畢后,由輸出層輸出目標(biāo)節(jié)點(diǎn)的特征向量。但在實(shí)際應(yīng)用中,GCN仍存在以下問題。
1) 冷啟動問題。在推薦系統(tǒng)的初始化階段,或者是在動態(tài)圖網(wǎng)絡(luò)有新用戶加入時,由于歷史交互行為過少,會導(dǎo)致系統(tǒng)無法進(jìn)行準(zhǔn)確推薦。
2) 過平滑問題。隨著圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)的增加,節(jié)點(diǎn)的特征信息會逐步趨于相似,這會導(dǎo)致推薦結(jié)果個性化特征較弱。
基于上述考慮,本文對GCN進(jìn)行了改進(jìn)。
1.2" 基于堆疊重構(gòu)網(wǎng)絡(luò)的冷啟動問題改善算法
在推薦模型中,用戶對目標(biāo)的主動評分可以看作是用戶對目標(biāo)的主觀喜惡判斷,這對用戶下次的選擇行為有著較為明顯的指導(dǎo)性。為了改善冷啟動現(xiàn)象[8],本文將用戶的評價信息嵌入到GCN中,之后再通過自注意力(Self?Attention)網(wǎng)絡(luò)來提取特征信息,組成嵌入?自注意力模型(EAT)。EAT模型結(jié)構(gòu)圖如圖3所示。
在圖3中,用戶需要將交互序列數(shù)據(jù)轉(zhuǎn)換為嵌入層,其交互關(guān)系如圖1所示。嵌入層將un、ij以及時間序列T進(jìn)行嵌入,長度統(tǒng)一設(shè)定為m,則嵌入層公式如下:
嵌入層數(shù)據(jù)需要經(jīng)過時間上下文模塊完成計算并輸出,本文主要使用門控循環(huán)單元(Gated Recurrent Unit, GRU)[9?10]模型來完成訓(xùn)練過程。時間上下文模塊結(jié)構(gòu)圖如圖4所示。
完成計算后,輸出時間評分信息CT和上下文評估信息CR。使用自注意力網(wǎng)絡(luò)對特征信息權(quán)重進(jìn)行判斷,輸出結(jié)果為:
此外,還采用殘差網(wǎng)絡(luò)(Residual Network, ResNet)來獲取深層次特征,并對其進(jìn)行歸一化,同時利用GELU損失函數(shù)來減少過擬合現(xiàn)象,以提升模型對非線性數(shù)據(jù)的訓(xùn)練能力。輸出結(jié)果如下:
為了進(jìn)一步增強(qiáng)模型的訓(xùn)練準(zhǔn)確性,對自注意力層進(jìn)行重復(fù)堆疊,最終可得到輸出結(jié)果,如下:
1.3" 基于改進(jìn)自編碼器的過平滑問題改善算法
增加網(wǎng)絡(luò)的層數(shù)是解決過平滑問題的主要手段,然而這也意味著算法對計算性能需求的提升。此次使用改進(jìn)的自編碼器(Auto Encoder, AE)模塊對過平滑問題進(jìn)行處理,模型的整體框架如圖5所示。
在圖5的模型結(jié)構(gòu)中,為了降低堆疊網(wǎng)絡(luò)的復(fù)雜性,使用自編碼器作為特征編碼器,其結(jié)構(gòu)如圖6所示。
自編碼器可通過調(diào)整輸入層、隱藏層、輸出層的神經(jīng)元數(shù)量對數(shù)據(jù)進(jìn)行降維操作[11?13],但這樣做的同時也可能會忽略節(jié)點(diǎn)的特征信息。因此,本文使用度預(yù)測模塊來增強(qiáng)節(jié)點(diǎn)結(jié)構(gòu)信息的學(xué)習(xí)能力。度預(yù)測模塊結(jié)構(gòu)如圖7所示。
在圖7中,設(shè)[H(L)e]參數(shù)是自編碼器節(jié)點(diǎn),該參數(shù)是前饋網(wǎng)絡(luò)的輸入值。前饋網(wǎng)絡(luò)會將預(yù)測結(jié)果輸出,d是圖相鄰矩陣A的節(jié)點(diǎn)度,可由式(8)計算得到。
1.4" 算法模型的總體設(shè)計
本文算法模型如圖8所示。整個系統(tǒng)由用戶畫像提取、數(shù)據(jù)預(yù)處理和特征提取三大核心模塊構(gòu)成模塊化協(xié)同工作機(jī)制。各模塊的具體技術(shù)實(shí)現(xiàn)如下。
1) 用戶畫像提取模塊基于多源異構(gòu)數(shù)據(jù)融合技術(shù)構(gòu)建了多維用戶表征體系。該模塊采用基于規(guī)則引擎的實(shí)時采集系統(tǒng),通過API網(wǎng)關(guān)整合用戶行為日志、社交關(guān)系圖譜和UGC內(nèi)容,運(yùn)用自然語言處理技術(shù)對原始數(shù)據(jù)進(jìn)行語義解析。用戶畫像提取模塊分為屬性畫像、興趣畫像以及情感畫像共3個類別[14?15]。其中,屬性畫像涵蓋人口統(tǒng)計學(xué)特征、設(shè)備指紋等靜態(tài)維度,采用基于知識圖譜的實(shí)體鏈接技術(shù)進(jìn)行結(jié)構(gòu)化存儲;興趣畫像結(jié)合知識圖譜構(gòu)建動態(tài)偏好向量;情感畫像對用戶輸入文本進(jìn)行細(xì)粒度情感分析,捕捉隱式情感傾向。3類畫像通過特征交叉網(wǎng)絡(luò)進(jìn)行聯(lián)合建模,最終形成稠密表征向量。
2) 數(shù)據(jù)預(yù)處理模塊針對動態(tài)圖網(wǎng)絡(luò)特性提出雙重優(yōu)化策略。首先,構(gòu)建時空感知的圖結(jié)構(gòu)處理器,用來提取動態(tài)圖網(wǎng)絡(luò)中的鄰居網(wǎng)絡(luò);其次,引入自編碼網(wǎng)絡(luò),通過對抗訓(xùn)練策略解決梯度消失問題,進(jìn)而改善算法的不平滑性能。
3) 特征提取模塊對GCN進(jìn)行堆疊,同時將網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)進(jìn)行嵌入化,并使用自注意力網(wǎng)絡(luò)輸出最終結(jié)果,提升模型的特征提取能力。
2" 實(shí)驗(yàn)分析
2.1" 實(shí)驗(yàn)環(huán)境配置與數(shù)據(jù)集
為進(jìn)一步評估所提模型的性能,實(shí)驗(yàn)樣本數(shù)據(jù)選擇了公開數(shù)據(jù)集Amazon?Book和Movielens?1M。其中:Amazon?Book數(shù)據(jù)集是亞馬遜購物網(wǎng)站產(chǎn)品推薦數(shù)據(jù)集;Movielens?1M數(shù)據(jù)集是一個電影推薦數(shù)據(jù)集。數(shù)據(jù)集相關(guān)信息如表1所示。
在評估指標(biāo)方面,使用推薦系統(tǒng)最為常見的HR@K和NDCG@K作為性能評價指標(biāo)。其中:HR@K表征推薦準(zhǔn)確性;NDCG@K表征排序相關(guān)性得分;K表示推薦項(xiàng)的數(shù)量。算法運(yùn)行環(huán)境如表2所示。
2.2" 算法測試
為驗(yàn)證算法性能,本文在相同環(huán)境下對不同模型進(jìn)行實(shí)驗(yàn)測試,實(shí)驗(yàn)基于兩個數(shù)據(jù)集展開,分別進(jìn)行10次實(shí)驗(yàn)后取平均值。對比算法選擇了基于貝葉斯的傳統(tǒng)推薦算法(BPR)、融合淺層網(wǎng)絡(luò)和矩陣分解的推薦算法(NCF)、融合隱向量和矩陣分解的推薦算法(CBMF)、融合圖神經(jīng)網(wǎng)絡(luò)的推薦算法(GCMC)以及GCN。實(shí)驗(yàn)對比結(jié)果如表3和表4所示。
從測試結(jié)果可以看出,本文所提算法的性能良好,在對比算法中最優(yōu)。相較于兩組實(shí)驗(yàn)中的基線最優(yōu)算法CBMF,在數(shù)據(jù)集Amazon?Book中,本文所提算法的HR指標(biāo)分別提升了22.7%、12.2%,NDCG指標(biāo)分別提升了4.7%和6.5%。通過對比實(shí)驗(yàn)可以發(fā)現(xiàn),BPR算法在所有對比算法中的性能最差,這說明傳統(tǒng)算法使用的抽樣方法在應(yīng)對多維、海量數(shù)據(jù)時性能較差;同時也可以看出,NCF、CBMF兩種算法的整體性能較優(yōu),表明矩陣分解以及神經(jīng)網(wǎng)絡(luò)模型在稠密數(shù)據(jù)集中的表現(xiàn)良好,可以有效表征用戶興趣。
除了性能測試外,模型訓(xùn)練收斂速度也是評估機(jī)器學(xué)習(xí)系統(tǒng)效率的重要指標(biāo)。收斂速度直接影響開發(fā)迭代成本和資源消耗,尤其在處理大規(guī)模數(shù)據(jù)或復(fù)雜模型時更為關(guān)鍵。因此,本文還進(jìn)行了收斂速度的對比算法實(shí)驗(yàn)測試,具體結(jié)果如圖9所示。
根據(jù)圖9數(shù)據(jù)顯示:本文算法在訓(xùn)練過程中展現(xiàn)出了顯著的準(zhǔn)確率優(yōu)勢,從初始的55%穩(wěn)步提升至最終的93%,全程無波動且收斂速度最快,80次迭代后的訓(xùn)練準(zhǔn)確率即可達(dá)90%,明顯優(yōu)于其他對比算法;而NCF雖以92%的準(zhǔn)確率接近本文算法,但后期增速放緩;GCMC在80次迭代后準(zhǔn)確率從82%回落至78%,疑似出現(xiàn)了過擬合的現(xiàn)象。通過對比觀察實(shí)驗(yàn)結(jié)果表明,本文所提算法在保證穩(wěn)定性的同時也實(shí)現(xiàn)了效率與精度的雙重提升。
綜合來看,本文所提算法可以根據(jù)用戶畫像推送更加精準(zhǔn)的信息,表明了對算法改進(jìn)的有效性,且算法推薦性能更高。
3" 結(jié)" 語
本文提出一種由用戶畫像提取、數(shù)據(jù)預(yù)處理和特征提取模塊組成的信息推送算法,用于解決原始圖卷積神經(jīng)網(wǎng)絡(luò)模型中的冷啟動問題和過平滑問題。用戶畫像提取模塊采集用戶畫像并對其進(jìn)行分類,通過數(shù)據(jù)預(yù)處理模塊和特征提取模塊改善了算法的平滑性能,提升了模型的特征提取能力。經(jīng)過實(shí)驗(yàn)測試表明,所提算法的性能指標(biāo)良好,優(yōu)于多種現(xiàn)有主流算法,證明了本文進(jìn)行的算法改進(jìn)是有效、可行的。
參考文獻(xiàn)
[1] 孫紅,鹿梅珂.融合用戶行為序列預(yù)測的混合推薦算法[J].電子科技,2023,36(4):84?89.
[2] 劉張榕.信息智能推薦系統(tǒng)目標(biāo)特征數(shù)據(jù)挖掘方法[J].信息技術(shù),2022(3):162?165.
[3] 王大勇,李麗,孫時光.基于深度學(xué)習(xí)的推薦系統(tǒng)發(fā)展與領(lǐng)域應(yīng)用研究進(jìn)展[J].遼寧大學(xué)學(xué)報(自然科學(xué)版),2023,50(4):318?324.
[4] 富坤,郝玉涵,孫明磊,等.基于優(yōu)化圖結(jié)構(gòu)自編碼器的網(wǎng)絡(luò)表示學(xué)習(xí)[J].計算機(jī)應(yīng)用,2023,43(10):3054?3061.
[5] 李波,許云峰.一種基于圖卷積網(wǎng)絡(luò)的文本情感分類方法[J].長江信息通信,2024,37(2):4?6.
[6] 沈鑫科,李勇,陳建偉,等.融合協(xié)同知識圖譜和圖卷積網(wǎng)絡(luò)的推薦算法[J].計算機(jī)技術(shù)與發(fā)展,2024,34(1):150?157.
[7] 韓虎,范雅婷,徐學(xué)鋒.面向方面情感分析的多通道增強(qiáng)圖卷積網(wǎng)絡(luò)[J].電子與信息學(xué)報,2024,46(3):1022?1032.
[8] 李璐,張志軍,范鈺敏,等.面向冷啟動用戶的元學(xué)習(xí)與圖轉(zhuǎn)移學(xué)習(xí)序列推薦[J].山東大學(xué)學(xué)報(工學(xué)版),2024,54(2):69?79.
[9] 杜琰,孫弋.融合GRU和注意力機(jī)制的圖卷積關(guān)系抽取[J].計算機(jī)與數(shù)字工程,2023,51(11):2568?2572.
[10] 黃振峰,王浩洋.一種基于GRU的增量學(xué)習(xí)算法[J].廣西大學(xué)學(xué)報(自然科學(xué)版),2023,48(3):683?691.
[11] 白雪擎,王宏志,程超.基于自編碼器的網(wǎng)絡(luò)零日攻擊檢測[J].長春工業(yè)大學(xué)學(xué)報,2023,44(6):529?538.
[12] 張孚容,顧磊.基于圖偏差網(wǎng)絡(luò)的外部自編碼器時間序列異常檢測[J].計算機(jī)系統(tǒng)應(yīng)用,2024,33(3):24?33.
[13] 張梓軒,齊子森,許華,等.基于自編碼器的陣列時變幅相誤差校正算法[J].西北工業(yè)大學(xué)學(xué)報,2023,41(6):1134?1145.
[14] 房志明,吳鑫卓,林原,等.基于用戶畫像的高校采購評審專家推薦算法[J].實(shí)驗(yàn)技術(shù)與管理,2024,41(4):228?237.
[15] 賀前程,曹炳堯.面向用戶畫像的輕量化數(shù)據(jù)中臺研究[J].工業(yè)控制計算機(jī),2023,36(11):137?139.
作者簡介:齊光鵬(1981—),男,陜西寶雞人,碩士研究生,教授級高級工程師,研究方向?yàn)殡娮有畔⒐こ獭?/p>
收稿日期:2024?10?14" " " " " "修回日期:2024?11?28
基金項(xiàng)目:中華人民共和國科學(xué)技術(shù)部項(xiàng)目(2023YFF0905500)