郝曉培,朱建生,單杏花
(中國鐵道科學(xué)研究院,北京 100081)
互聯(lián)網(wǎng)產(chǎn)品的多樣化以及智能終端的普及,已促使互聯(lián)網(wǎng)成為當今社會信息傳遞最快捷有效的媒介,互聯(lián)網(wǎng)公司為用戶提供服務(wù)的同時,也為廣告平臺的推送帶來了極大的便利,在用戶享受產(chǎn)品帶來的服務(wù)的時候,廣告平臺會為用戶推送各種各樣的廣告,在一定程度上提高了用戶對新產(chǎn)品的認知。然而用戶基本屬性的差異,大量無差別的廣告推送不能滿足所有用戶的個性化需求,不僅會導(dǎo)致用戶對互聯(lián)網(wǎng)產(chǎn)品產(chǎn)生抵觸情緒,嚴重影響用戶體驗,同時也會降低廣告的點擊率以及轉(zhuǎn)化率,難以保證公司廣告平臺的可持續(xù)穩(wěn)定的發(fā)展。為了解決數(shù)據(jù)冗余以及信息過載為用戶獲取有效信息帶來的困擾,以及最大化廣告平臺的經(jīng)濟收益,基于用戶基本特征以及歷史行為信息構(gòu)建個性化推薦系統(tǒng)成為相關(guān)領(lǐng)域的研究熱點[1]。
文獻[2]提出了一種基于在線貝葉斯概率回歸模型的點擊率評估方法,但是該模型只在確定廣告特征的場景取得較好的效果;文獻[3]第一次提出了“滿意度”的概念,并基于“滿意度”構(gòu)建頁面的相關(guān)性,最后通過動態(tài)貝葉斯網(wǎng)絡(luò)模型進行評估;文獻[4]將梯度增強決策樹運用到廣告點擊率預(yù)估,該模型解決了貝葉斯網(wǎng)絡(luò)中各項特征必須相互獨立的缺點,可以學(xué)習特征之間的相關(guān)性,達到了較好的預(yù)估效果。傳統(tǒng)的推薦算法中,龐大的用戶量以及產(chǎn)品量使得評分矩陣極其稀疏,且存在冷啟動的問題,為產(chǎn)品的精準推薦帶來了極大的挑戰(zhàn)。隨著深度學(xué)習以及社交網(wǎng)絡(luò)在電商、資訊、短視頻等互聯(lián)網(wǎng)產(chǎn)品的普及,不同的產(chǎn)品已積累了大量復(fù)雜的社交關(guān)系數(shù)據(jù),為基于社交關(guān)系的個性化推薦提供了數(shù)據(jù)基礎(chǔ)。文獻[5-6]從社交關(guān)系中挖掘信任關(guān)系,并將其運用到了推薦算法中,其在推薦精度以及TOP-K推薦能力方面有明顯提高。文獻[7]提出了Wide&Deep模型,該模型融合了線下邏輯回歸以及非線性的神經(jīng)網(wǎng)絡(luò),提高了模型的“記憶性”及“泛化性”,取得了不錯的效果,在該模型的基礎(chǔ)上越來越多的研究人員開始對此進行改進并運用到生產(chǎn)環(huán)境。針對目前廣告CTR預(yù)估存在的問題,該文綜合考慮現(xiàn)有預(yù)估模型的特點,設(shè)計了一種基于圖注意力網(wǎng)絡(luò)的特征處理,以及Wide&Deep模型的CRT評估模型Wide&Deep-GR,通過圖注意力網(wǎng)絡(luò)將鐵路12306互聯(lián)網(wǎng)售票系統(tǒng)中旅客之間存在的同行關(guān)系、購票關(guān)系、廣告的交互信息以及個體特征相結(jié)合生成用戶以及廣告的特征向量,并將此特征向量作為Wide&Deep的輸入進行CRT評估,綜合考慮了用戶的個體特征以及相關(guān)用戶特征,提高了推薦算法的準確度。
相對于傳統(tǒng)的機器算法模型,深度學(xué)習在個性推薦以及CTR預(yù)測中表現(xiàn)出了巨大的潛力。近兩年科研高校,互聯(lián)網(wǎng)公司已經(jīng)將其作為了研究重點,極大地提高了推薦系統(tǒng)的準確率[8]。
該文在GAT與Wide&Deep兩個模型的基礎(chǔ)上,構(gòu)造了兩個模塊:特征處理,點擊通過率預(yù)測。其中特征處理包括:用戶特征、用戶關(guān)系、廣告特征、用戶與廣告關(guān)系。用戶特征采用用戶的出行行為特征以及廣告點擊情況構(gòu)建完整的用戶特征;用戶關(guān)系主要基于用戶同行以及購票關(guān)系生成關(guān)系網(wǎng)絡(luò);廣告特征主要通過廣告主以及數(shù)據(jù)分析人員標注生成特征向量;用戶針對廣告的點擊行為生成用戶與廣告的關(guān)系網(wǎng)絡(luò),針對構(gòu)建的關(guān)系網(wǎng)絡(luò)采用圖神經(jīng)網(wǎng)絡(luò)算法進行預(yù)處理,將自身的特征以及相鄰節(jié)點的特征進行融合,生成最終的個體特征向量表示;最后基于特征處理的用戶及廣告特征向量進行點擊通過率預(yù)測。整體結(jié)構(gòu)見圖1。
圖1 整體結(jié)構(gòu)
基于圖神經(jīng)網(wǎng)絡(luò)的特征將個體特征信息以及個體的關(guān)系結(jié)果數(shù)據(jù)進行有效的融合,通過聚合個體特征以及鄰居節(jié)點特征的方式,將多維個體特征以及個體關(guān)系嵌入到低維的向量中對個體進行特征提取,得到中心節(jié)點的特征向量。
(1)個體特征。
針對廣告推薦主要采用兩類特征:類別型特征,數(shù)值型特征。類別型特征一般不能直接進行預(yù)測運算,通常采用one-hot或者multi-hot向量的方式將類別性特征轉(zhuǎn)換成數(shù)值型特征,其中對數(shù)值型特征進行缺失值、異常值、歸一化等處理,將處理后的標簽進行拼接生成特征向量,基于旅客的出行行為以及與12306平臺的交互行為產(chǎn)生的數(shù)據(jù)構(gòu)建的用戶特征以及廣告特征如表1和表2所示。
表1 用戶特征列
表2 廣告特征列表
續(xù)表2
(2)關(guān)系特征。
關(guān)系特征主要包括三類:購票關(guān)系、同行關(guān)系、交互關(guān)系。關(guān)系特征采用圖學(xué)習方式可以同時聚合與目標用戶相關(guān)的鄰居用戶以及鄰居產(chǎn)品的特征生成目標用戶的特征向量。
購票關(guān)系如圖2所示。
圖2 用戶購票關(guān)系
用Gbuying=
同行關(guān)系如圖3所示。
圖3 用戶同行關(guān)系
用Gpeers=
交互關(guān)系如圖4所示。
圖4 交互關(guān)系
用Gclick=
鐵路12306互聯(lián)網(wǎng)售票系統(tǒng)作為線上唯一的鐵路售票渠道,通過PC端、手機端等進行票務(wù)交易,在交易過程中與其他旅客產(chǎn)生了購票關(guān)系以及同行關(guān)系,隨著網(wǎng)絡(luò)的發(fā)展以及研究,發(fā)現(xiàn)相對陌生人,用戶更愿意接收具有信任關(guān)系的人的建議和推薦,同時其特征更接近于其有信任關(guān)系的用戶,故特征處理主要是將鄰居節(jié)點的特征與當前節(jié)點的特征通過特征融合生成當前節(jié)點的特征向量。
(1)鄰居節(jié)點采樣。
鐵路客運用戶量大,且存在部分異常賬戶,導(dǎo)致個別節(jié)點同行關(guān)系,購票關(guān)系復(fù)雜,每個節(jié)點的相鄰節(jié)點數(shù)量相差較多,為了提高模型的訓(xùn)練效率,需要針對鄰居節(jié)點多的用戶節(jié)點的鄰居節(jié)點進行抽樣。假設(shè)相鄰節(jié)點個數(shù)為N,抽樣規(guī)則如下:
若N≤20,將所有節(jié)點作為關(guān)系網(wǎng)絡(luò)節(jié)點;
(2)注意力機制。
圖神經(jīng)網(wǎng)絡(luò)主要將個體特征以及關(guān)系網(wǎng)絡(luò)作為入?yún)?,將其轉(zhuǎn)換為低維的特征向量,常見的圖神經(jīng)網(wǎng)絡(luò)算法通常采用采樣和聚合構(gòu)建的Inductive learning框架,比如:GraphSAGE[9]。在構(gòu)建購票關(guān)系、同行關(guān)系、交互關(guān)系等圖的過程中用購票次數(shù)、同行次數(shù)、點擊次數(shù)等表示節(jié)點之間的關(guān)聯(lián)程度,但是綜合分析相鄰節(jié)點特征相似度,發(fā)現(xiàn)關(guān)系數(shù)據(jù)包含的噪音影響了節(jié)點之間邊的可靠性,同時相鄰節(jié)點的特征也存在較大的差異。綜合考慮多方面因素,該文主要采用GAT[10](圖注意力網(wǎng)絡(luò))進行處理,在圖表示算法中引入“注意力”機制,從空間上綜合考慮目前節(jié)點與其他節(jié)點的關(guān)系網(wǎng)絡(luò),能夠自適應(yīng)的對圖中鄰居節(jié)點進行聚合并。
注意力機制的核心思想是:在考慮現(xiàn)有次數(shù)權(quán)重的基礎(chǔ)上,基于相似性對給定的信息進行權(quán)重分配,對權(quán)重高的信息進行重點加工,其定義如下:
Attention(Query,Source)=
(1)
其中,Source表示信息源,通常包含多種信息,用Key-Value的形式進行表示,Query表示先驗信息或者某種條件,Attentionvalue是在給定Query的情況下,采用注意力機制從信息源提取到的信息,similarity(Query,Keyi)表示采用向量內(nèi)積的方式
(3)特征向量計算。
圖注意力層就是將注意力機制應(yīng)用到圖神經(jīng)網(wǎng)絡(luò)聚合鄰居節(jié)點特征的操作過程中,其輸入是節(jié)點的個體特征以及關(guān)系特征,輸出是節(jié)點新的特征向量。
假設(shè)目標節(jié)點為V2,其包含多個鄰居節(jié)點Vi,基于注意力機制原理,通過節(jié)點特征相似度計算可以得到節(jié)點之間的相似度rij,并進行SoftMax歸一化處理,生成最終的注意力系數(shù)mij。
其中,α表示節(jié)點相關(guān)度計算函數(shù),W表示節(jié)點特征維度相互轉(zhuǎn)化的權(quán)重參數(shù)矩陣,L為激活函數(shù)LeakyReLu。
同時結(jié)合注意力系數(shù),權(quán)重矩陣以及相鄰節(jié)點的特征值進行加權(quán)求和(公式3),生成最終的特征向量。
(3)
CTR預(yù)估模型主要包括單層的Wide模塊以及多層的Deep模塊,其中Wide模塊主要提取一維或者二維的低維特征交互信息,使模型具有了較強的“記憶能力”,Deep模塊通過數(shù)據(jù)集中特征的多次組合,自動學(xué)習高位交互特征,發(fā)掘出特征中潛在的模式,使稀疏的特征向量獲得穩(wěn)定平滑的推薦概率,提高了模型的“泛化能力”[11]。
如圖5所示,該模型主要分為4層:輸入層、Embedding層、多隱層、輸出層。
圖5 Wide&Deep模型
其將Wide部分與Deep層(由Embedding層與多隱層組成)相互組合最終輸入到輸出層。其中Wide部分主要處理系數(shù)特征,Deep部分主要利用神經(jīng)網(wǎng)絡(luò)表達能力強的特點,進行特征交叉計算,挖掘隱藏的數(shù)據(jù)模型,最終在輸出層利用邏輯回歸將Wide層的結(jié)果以及Deep層的結(jié)果進行數(shù)據(jù)整合,形成最終的CTR預(yù)估模型。
文中Deep部分輸入主要包括用戶的特征與經(jīng)過圖注意力網(wǎng)絡(luò)進行Embedding處理的特征向量拼接的全量用戶特征向量,Wide部分的數(shù)據(jù)包括用戶與廣告的歷史交互特征以及待曝光的廣告特征,通過對有交互的廣告與待曝光廣告特征的交叉積轉(zhuǎn)化,充分發(fā)揮Wide部分“記憶能力”強的優(yōu)勢。
在廣告平臺收集了2020年下半年的廣告點擊數(shù)據(jù)以及近三年(2018年-2020年)的用戶出行數(shù)據(jù),構(gòu)建用戶個體特征及關(guān)系網(wǎng)絡(luò),對樣本數(shù)據(jù)進行離線化、缺失值處理、異常值處理等數(shù)據(jù)預(yù)處理及特征選擇以降低模型的計算難度,最后生成了包括64 925個用戶以及6條廣告物料在內(nèi)所生成的72 088條交互信息,151 264條同行關(guān)系以及132 423條購票關(guān)系數(shù)據(jù),按照9∶1隨機生成訓(xùn)練樣本以及測試樣本。
數(shù)據(jù)主要包括5類特征:用戶個體特征、廣告物料屬性、購票關(guān)系、同行關(guān)系、交互行為。
將預(yù)測精度、AUC以及對數(shù)損失函數(shù)作為評價指標對模型進行評估。預(yù)測精度表示真正例除以(真正例+假正例)的和,假正例指的是模型將實際上是反例的樣本誤判為正例的情況;AUC[12](公式4)用以評估模型性能問題;對數(shù)損失函數(shù)[13](公式5)計算預(yù)測分數(shù)與實際值之間的距離。
(4)
其中,rankinsi表示第i個樣本的序號,M、N分別表示正樣本和負樣本的個數(shù)。
(5)
為了證明Wide&Deep-GR模型的整體性能,分別采用協(xié)同過濾[14]、FM算法[7]、Wide&Deep模型以及Wide&Deep-GR模型進行比較,實驗結(jié)果如圖6所示。
圖6 基于不同模型的預(yù)測結(jié)果
如圖6所示,在預(yù)測精度,AUC以及對數(shù)損失函數(shù)這三個性能指標方面,Wide&Deep模型明顯優(yōu)于協(xié)同過濾以及FM算法,當將用戶的購票關(guān)系、同行關(guān)系以及與廣告的交互關(guān)系網(wǎng)絡(luò)融入Wide&Deep-GR模型的特征模型時,發(fā)現(xiàn)其性能相對Wide&Deep提升不少,在算法復(fù)雜度方面,由于Wide&Deep-GR模型增加了關(guān)系網(wǎng)絡(luò)的構(gòu)建,基于圖注意力機制的個體特征的Embedding,相對于Wide&Deep模型提高了計算復(fù)雜度,不適用于在線的廣告CTR預(yù)測,適合用于離線的運算。
廣告精準投放是提升用戶體驗以及平臺收益的重要技術(shù),深度學(xué)習以及社交網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用到了CTR預(yù)測中,并取得了客觀的效果。該文在深入研究深度學(xué)習模型以及鐵路12306互聯(lián)網(wǎng)售票系統(tǒng)廣告平臺數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,以Wide&Deep模型為基礎(chǔ),綜合考慮個體特征以及關(guān)系網(wǎng)絡(luò),利用圖注意力網(wǎng)絡(luò)融合相鄰節(jié)點的特征構(gòu)建完整的個體特征向量,豐富個體特征的同時解決數(shù)據(jù)稀疏性的問題,并將其作為CTR評估模型的輸入,實現(xiàn)了廣告點擊預(yù)估。最后基于廣告平臺半年的真實數(shù)據(jù)集驗證了該模型的準確度。