劉靜 艾鵬 楊德升 王鳳 侯波
摘要:為了實現(xiàn)對用戶行為的準確預測和個性化興趣的深度表達,本研究基于大規(guī)模用戶日志數(shù)據(jù)構(gòu)建了融合深度學習和機器學習的行為序列預測模型,并將其應用于個性化推薦領(lǐng)域。實證結(jié)果顯示,相比于各個單一模型,將決策行為特征遷移到推薦方法中能夠取得更好的效果。本研究驗證了跨領(lǐng)域遷移用戶表達特征以優(yōu)化個性化推薦的有效性,為深入理解用戶復雜興趣奠定了堅實的基礎(chǔ)。
關(guān)鍵詞:用戶行為預測;個性化推薦;遷移學習;決策模式
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2024)13-0075-02 開放科學(資源服務)標識碼(OSID) :
隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的用戶通過網(wǎng)絡獲取信息和進行在線消費,分析和預測用戶的在線行為、實現(xiàn)個性化推薦服務已成為提高用戶體驗的重要手段[1]。用戶大數(shù)據(jù)的獲取為這項工作提供了基礎(chǔ)。本研究基于用戶行為數(shù)據(jù),通過數(shù)據(jù)分析方法預測用戶行為,結(jié)合個性化推薦算法實現(xiàn)對用戶的精確擬合和商業(yè)價值的提高。早在20世紀90年代,就有學者嘗試基于用戶歷史數(shù)據(jù)進行協(xié)同過濾,提供個性化推薦服務。進入21世紀,隨著Web2.0時代的到來,用戶參與型網(wǎng)站數(shù)量激增,這為收集和分析海量用戶行為數(shù)據(jù)提供了可能。同時,機器學習等算法在推薦系統(tǒng)中的應用日趨成熟?,F(xiàn)在,利用深度學習等前沿技術(shù)預測和影響用戶行為已成為推薦系統(tǒng)研究的熱點。
1 基于數(shù)據(jù)分析的用戶行為預測方法
1.1 用戶行為數(shù)據(jù)采集與處理
用戶行為數(shù)據(jù)的采集與處理是整個預測體系的基礎(chǔ),直接關(guān)系到后續(xù)分析的深入性與結(jié)果的準確性。本研究選擇某大型電商平臺2021年100萬隨機用戶的瀏覽、收藏、加購物車、支付等行為日志作為原始數(shù)據(jù)源??紤]到用戶信息保密與數(shù)據(jù)應用規(guī)范性,在提取研究所需特征的同時,對用戶身份相關(guān)數(shù)據(jù)進行了匿名化處理。原始用戶行為日志結(jié)構(gòu)包括用戶ID、商品ID、行為類型、時間戳等。其中用戶ID經(jīng)過哈希運算生成隨機編碼,商品ID保留的目的是關(guān)聯(lián)商品屬性信息。行為類型主要有6類,分別為瀏覽、加入收藏、添加購物車、結(jié)算、支付、評價??紤]到數(shù)據(jù)應用價值,本研究主要利用前4類行為數(shù)據(jù)進行建模分析。時間戳屬性中包含年、月、日、時、分、秒信息,對基于時間序列建模至關(guān)重要。在采集到初始日志后,需要對其進行數(shù)據(jù)清洗、補全、排序、格式轉(zhuǎn)換等處理[2]。例如剔除時間戳不合理、商品ID缺失、行為類型無效的異常數(shù)據(jù)。同時調(diào)用商品屬性數(shù)據(jù)集,補全日志中的商品信息,構(gòu)建用戶與商品交互關(guān)系圖。隨后對數(shù)據(jù)集按時間戳進行升序排列,這對保證時間跨度一致、分割數(shù)據(jù)實現(xiàn)模型訓練與評估十分重要。最后將處理完畢的數(shù)據(jù)集存儲為平面文件或數(shù)據(jù)庫格式,備份多份,以便建模時加載使用。經(jīng)過采集與處理,本研究獲得了包含100萬用戶近1億條互動日志的數(shù)據(jù)集,時間跨度為365天。這為深入挖掘用戶行為特征,構(gòu)建行為預測模型,提供了可靠的數(shù)據(jù)支撐。結(jié)合數(shù)字化處理手段,這些看似簡單的用戶操作記錄能夠呈現(xiàn)出人們的消費興趣、購物偏好、社交意向等深層行為傾向。
1.2 用戶行為特征提取與分析
在獲取規(guī)范化的用戶行為日志數(shù)據(jù)集后,作為構(gòu)建預測模型的基礎(chǔ)[3],本研究采用特征工程的方法深入挖掘影響用戶行為的決定因素。主要考慮三個角度設(shè)計特征,包括用戶行為頻率特征、用戶行為時間特征以及用戶價格敏感性特征。從行為頻率角度,分析不同類別行為的平均每用戶發(fā)生次數(shù),例如用戶瀏覽商品日志數(shù)平均為562條,添加收藏夾的平均數(shù)目為23個。同時計算各類行為的組成占比,瀏覽行為、收藏行為、加購物車行為和結(jié)算行為的占比分別為76.25%、13.47%、8.15% 和1.38%。并評估不同連續(xù)行為之間的轉(zhuǎn)化率,例如用戶收藏到購物車的轉(zhuǎn)化率為15.6%,而結(jié)算到支付的轉(zhuǎn)化率高達76.3%??紤]到時間分布特性,本研究提取了用戶平均瀏覽時長(35.7 秒)、高峰期操作時段出現(xiàn)概率(晚上8~10點為用戶高峰期操作時段,概率達到16.8%) 等時間相關(guān)統(tǒng)計量構(gòu)成特征向量。對四類主要行為分別提取發(fā)生時間的均值、標準差和最大最小值,表征用戶時間偏好的個體差異。在特征提取時還考慮了商品價格因素對不同用戶行為的影響程度,評估了用戶對平臺優(yōu)惠的敏感性,構(gòu)建了用戶價值敏感型特征,這對于預測高金額購買類行為具有重要意義。
1.3 用戶行為預測模型構(gòu)建
在用戶行為特征工程的基礎(chǔ)上,構(gòu)建預測模型是實現(xiàn)用戶行為準確預測的關(guān)鍵。本研究采用LSTM等深度學習模型與GBDT等機器學習模型的整體混合方法,形成模型組合,提高了預測性能與魯棒性[4]。本研究中,LSTM網(wǎng)絡模型采用Keras框架構(gòu)建,包含輸入層、2個LSTM隱層、全連接層和輸出層。輸入特征包括上一節(jié)提取的用戶行為頻率特征、時間特征和價格敏感特征。同時還輸入最近10天內(nèi)的歷史行為作為時間序列,以學習行為時間依賴性。LSTM隱層節(jié)點數(shù)均為128,使用ReLU激活函數(shù)。全連接層節(jié)點數(shù)為64,輸出層依據(jù)預測行為類別設(shè)置節(jié)點數(shù),如瀏覽行為、收藏行為等。機器學習模型中,選擇Gradient Boosting Tree 模型(GBDT)。該模型可以處理異構(gòu)特征,對異常值和過擬合也較為魯棒。構(gòu)建GBDT模型時,設(shè)置最大樹深度為8,子葉節(jié)點最少樣本數(shù)為3,正則化系數(shù)為1e-2。學習率設(shè)為0.05,最多迭代300次。在模型訓練中,本研究將用戶行為日志分割為訓練數(shù)據(jù)和測試數(shù)據(jù)。通過5折交叉驗證方法調(diào)參優(yōu)化模型,選擇F1分數(shù)指標評價模型表現(xiàn)。獲得最優(yōu)模型后,在測試集上評估模型預測性能以減小過擬合風險。最后,本研究將調(diào)整后的LSTM模型和GBDT模型按2:1權(quán)重組合,形成混合模型。這種集成學習思想下的混合模型結(jié)合了深度學習和機器學習方法的優(yōu)點,數(shù)據(jù)集的變化更為穩(wěn)健,提升了最終分類性能。
2 個性化推薦算法研究
2.1 用戶興趣模型構(gòu)建
在互聯(lián)網(wǎng)環(huán)境下,用戶的興趣偏好往往散布在復雜的特征空間內(nèi),準確抓取用戶興趣模型對提供個性化推薦服務具有重要意義[5]。本研究中,通過深度網(wǎng)絡提取多維用戶特征,構(gòu)建了基于注意力機制的用戶興趣表示方法。具體而言,首先采集用戶的歷史瀏覽記錄、搜索查詢?nèi)罩竞秃灥轿恢脭?shù)據(jù)等,獲取原始行為數(shù)據(jù)。其中瀏覽商品數(shù)量、查詢詞條數(shù)和簽到地點數(shù)的數(shù)量級分別為562條、251條和176個。針對三類行為數(shù)據(jù)分別進行嵌入,獲得稠密的向量表示。本研究中,產(chǎn)品和詞條的嵌入維度為128,地點向量維度為64。接下來,將三類行為表示按時間步整合為序列數(shù)據(jù),依次輸入Bi-LSTM網(wǎng)絡,學習用戶行為的時序布局。其中LSTM使用tanh激活函數(shù),節(jié)點數(shù)為256。獲得所有時間步的LSTM輸出后,構(gòu)建注意力層以對時序信息進行加權(quán),輸出用戶的時間感知表示。本研究采用點積作為加權(quán)評分函數(shù)。最后,將聚合后的注意力向量與原始行為嵌入拼接,輸入全連接網(wǎng)絡,學習多維特征之間的相互作用,輸出用戶的綜合興趣表達。全連接層中設(shè)置了3層,節(jié)點數(shù)分別為512、256、128,使用ReLU激活函數(shù),應用了0.5的dropout概率??偟膩碚f,本研究通過深度網(wǎng)絡依次學習特征、時序和注意力表示用戶多維興趣偏好,為個性化推薦系統(tǒng)的構(gòu)建奠定了基礎(chǔ)。
2.2 推薦算法實現(xiàn)與評估
在構(gòu)建用戶興趣模型的基礎(chǔ)上,研發(fā)高效的推薦算法和評價體系是實現(xiàn)個性化推薦的關(guān)鍵。本研究設(shè)計了基于用戶實時轉(zhuǎn)化率的排序策略,并采用多維度指標進行算法效果評測。具體來說,通過用戶興趣模型輸出商品的匹配分數(shù),初步獲得個性化的候選集。接下來考慮實時性,估計用戶近期內(nèi)發(fā)生目標行為的概率,例如購買商品的可能性。本方法通過用戶近10天內(nèi)的目標行為轉(zhuǎn)化率,調(diào)整商品的推薦權(quán)重。如果用戶最近購買意愿較高,排序上權(quán)重較高的是購買屬性的商品。該方案綜合考慮了用戶的長期偏好和短期意圖。在推薦系統(tǒng)部署后,需要從多個角度評估算法的效果,作為后續(xù)優(yōu)化的參考。本研究構(gòu)建了包含用戶滿意度、商業(yè)轉(zhuǎn)化率和推薦覆蓋率三個維度的指標體系。每隔一周進行評估,部分指標統(tǒng)計如表1所示。
從指標的觀察中可以發(fā)現(xiàn),用戶對推薦商品的喜好度較高,但商業(yè)轉(zhuǎn)化率仍有提升空間。此外,算法覆蓋了部分長尾商品。這為后續(xù)工作提供了持續(xù)改進的方向,如增強推薦策略對冷啟動用戶的適應性等。
2.3 個性化推薦系統(tǒng)設(shè)計與優(yōu)化
設(shè)計一個可運營、可擴展的個性化推薦系統(tǒng)需要考慮技術(shù)實現(xiàn)難度、業(yè)務融合性和優(yōu)化余地等因素。本研究構(gòu)建了基于微服務的系統(tǒng)架構(gòu),同時對數(shù)據(jù)、服務和應用三個層面進行了深度優(yōu)化。在系統(tǒng)架構(gòu)設(shè)計中,參考近些年流行的設(shè)計范式,采用了松耦合、高內(nèi)聚的微服務理念。在數(shù)據(jù)層面,通過Kafka、HBase、ElasticSearch等分布式存儲系統(tǒng),構(gòu)建了穩(wěn)定、高效的數(shù)據(jù)中臺。在服務層面上,單獨搭建了用戶行為處理服務、模型預測服務、推薦排序服務等。在應用層面上,通過定制化配置能夠為不同場景生成個性化輸出結(jié)果。在多次業(yè)務驗證迭代后,從穩(wěn)定性和魯棒性等角度持續(xù)優(yōu)化系統(tǒng)。例如,增設(shè)了模型監(jiān)控模塊,以10分鐘為單位檢測線上服務狀態(tài)。推薦失敗情況的緊急故障率已從0.82% 下降至0.17%。此外,還通過異步更新策略加速了算法迭代速度,有效保證了系統(tǒng)穩(wěn)定性的前提下生成更及時的推薦結(jié)果,總體快速失敗概率(QPS)由79.2% 提升至86.5%??梢钥吹?,經(jīng)過初期搭建和后續(xù)優(yōu)化,目前該系統(tǒng)能很好地滿足個性化推薦應用的在線穩(wěn)定性需求。
3 基于數(shù)據(jù)分析的用戶行為預測與個性化推薦算法的結(jié)合應用
3.1 用戶行為預測與個性化推薦算法的融合模型
為了有效利用用戶行為預測與個性化推薦之間的協(xié)同作用,本研究構(gòu)建了一種新的融合模型。該方法基于遷移學習框架,在用戶行為預測任務中學習了表示用戶決策模式的特征表示,并遷移應用到推薦場景中來擬合用戶的個性化偏好,實現(xiàn)了跨域知識遷移。具體而言,通過之前構(gòu)建的且融合了LSTM 和GBDT的行為預測模型,分析得到每個用戶的特征層次結(jié)構(gòu),主要包括用戶活躍度、用戶消費決策力、用戶瀏覽意愿、用戶價格敏感度等多維特征。這些復雜的行為屬性能夠反映用戶決策動機的個體差異,是實施精準營銷的核心要素。這些特征會作為遷移層(維度為32)的輸入,用于推薦領(lǐng)域的表征學習。在推薦領(lǐng)域中,基準的矩陣分解機制主要基于用戶與商品交互行為(點擊、收藏、加購、支付等)進行預訓練。本研究模型在此基礎(chǔ)上新增了上述用戶特征的遷移層表示,維度為32,通過特征重構(gòu)學習用戶的興趣表示。新舊特征的拼接作為預訓練的監(jiān)督信號,經(jīng)過模型微調(diào)后,相比基準模型,在測試集上獲得了更低的平均損失(0.83 vs 0.91)和更高的NDCG評分(0.762 vs 0.701)。這證明了跨領(lǐng)域遷移用戶決策模式特征的有效性。
3.2 算法在實際應用中的效果評估
在研發(fā)出用戶行為預測與個性化推薦融合模型后,有必要在實際業(yè)務環(huán)境中檢驗其效果。本研究與某消費品電商合作,在其App上集成了該算法服務,并進行了為期一個月的在線評估。整體比較了四種模式,包括基準模型、單獨使用行為預測模型、單獨使用推薦模型以及兩者的融合。部分關(guān)鍵業(yè)務指標統(tǒng)計見表2。
從中可以明顯觀察到,單獨使用行為預測或個性化推薦都能獲得一定程度的業(yè)務提升,而兩者結(jié)合的融合模型效果最好,支付轉(zhuǎn)化率、付費用戶數(shù)和用戶留存率均有顯著提高。這證明了預測與推薦融合范式的實際應用價值。
4 結(jié)束語
本研究基于大規(guī)模用戶行為數(shù)據(jù),通過數(shù)據(jù)挖掘和算法優(yōu)化的技術(shù)手段,實現(xiàn)了對用戶決策模式的深入預測與個性化偏好的準確擬合。在用戶行為特征工程、時間序列建模、遷移學習等方面進行了有益的探索,證明了用戶興趣表達與行為預測模型在推薦系統(tǒng)中的協(xié)同應用效果。展望未來,隨著教育AI等前沿技術(shù)和方法的發(fā)展,用戶行為數(shù)據(jù)的獲取會更加便捷,分析技術(shù)也會更加智能化,本研究必將在這一研究領(lǐng)域取得新的進展。
參考文獻:
[1] 石釗蔚. 基于大數(shù)據(jù)分析的電商用戶購買行為預測方法研究[D]. 北京:北京郵電大學,2021.
[2] 皇甫漢聰,肖招娣. 基于用戶行為數(shù)據(jù)分析的個性化推薦算法分析[J]. 電子設(shè)計工程,2019,27(7):38-41,46.
[3] 馬天男,王超,彭麗霖,等. 多源異構(gòu)大數(shù)據(jù)下綜合能源系統(tǒng)用戶用能行為預測分析研究[J]. 智慧電力,2018,46(10):86-95.
[4] 王斌,陳琳,侯翔宇,等. 透明計算中用戶訪問行為特征分析與預測[J]. 計算機工程與應用,2018,54(16):49-54,62.
[5] 邵云蛟,占曉云,吳屏. 互聯(lián)網(wǎng)用戶行為的分析方法探討[J]. 數(shù)字技術(shù)與應用,2016(11):252,254.
【通聯(lián)編輯:張薇】