覃朝勇, 謝佳麟, 胡查娟
(1.廣西大學(xué)工商管理學(xué)院, 廣西南寧530004;2.廣西大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院, 廣西南寧530004)
隨著科技的進(jìn)步和大數(shù)據(jù)的發(fā)展,以互聯(lián)網(wǎng)為媒介的在線廣告已成為當(dāng)前廣告投放的主流模式,點(diǎn)擊率(click-through rate,CTR)預(yù)測是其中的一個重要研究主題。由于單次活動中可提供的廣告位數(shù)量有限,因此廣告商往往根據(jù)點(diǎn)擊率(CTR)預(yù)測結(jié)果選擇最有價值的廣告進(jìn)行投放。點(diǎn)擊率模型預(yù)測結(jié)果的準(zhǔn)確性將會影響用戶對推薦商品的滿意度,進(jìn)而影響廣告商收入以及之后的營銷策略。目前,CTR預(yù)測已廣泛應(yīng)用于各種在線廣告系統(tǒng),如贊助搜索[1]、展示廣告[2]等。總之,準(zhǔn)確預(yù)測點(diǎn)擊率對廣告商而言至關(guān)重要。
研究者們通常將用戶響應(yīng)問題視為二分類問題,即以用戶是否點(diǎn)擊或購買某一廣告為分類標(biāo)簽,并根據(jù)用戶特征信息、歷史信息和廣告特征向量對該廣告的點(diǎn)擊或購買情況進(jìn)行分類估計(jì)。圖1給出了點(diǎn)擊率預(yù)測任務(wù)的圖解。點(diǎn)擊率預(yù)測任務(wù)是當(dāng)特定廣告展示給用戶時,根據(jù)廣告信息估計(jì)用戶點(diǎn)擊該廣告的概率,即P=P(click|ad)。
圖1 CTR預(yù)測模型圖解Fig.1 An illustration of the CTR prediction model
以點(diǎn)擊率為用戶響應(yīng)的主要預(yù)測指標(biāo),可將用戶響應(yīng)預(yù)測模型大致分為傳統(tǒng)的預(yù)測模型和基于深度學(xué)習(xí)的預(yù)測模型兩類。
傳統(tǒng)研究思路一般將點(diǎn)擊率預(yù)測問題建模為回歸問題,并基于實(shí)際數(shù)據(jù)建立回歸模型。Richardson等[3]利用Logistic回歸模型(logistical regression, LR)擬合廣告特征數(shù)據(jù),預(yù)測搜索廣告的點(diǎn)擊率,并采用隨機(jī)梯度下降算法更新參數(shù)。Graepel等[4]則利用貝葉斯Probit回歸模型,將權(quán)重建模成隨機(jī)變量,并假定該變量服從正態(tài)分布,再通過模型學(xué)習(xí)更新后驗(yàn)權(quán)重,預(yù)測搜索廣告的點(diǎn)擊率。但是這些基于回歸方法擬合的模型結(jié)構(gòu)較為簡單,通常需要通過大量手動特征工程來間接提高模型的表達(dá)能力。同時,回歸模型一般無法有效處理海量數(shù)據(jù),其學(xué)習(xí)能力有限,無法有效捕捉廣告信息中的非線性特征,難以消除點(diǎn)擊率預(yù)測問題中的數(shù)據(jù)稀疏和過擬合等問題。因此,以GBDT+LR[5]為代表的兩階段模型和以因子分解機(jī)(factorization machine, FM)[6-7]為代表的端到端的隱向量學(xué)習(xí)模型被應(yīng)用到預(yù)測當(dāng)中。He等[5]利用梯度提升決策樹自動地進(jìn)行特征交叉,然后把交叉特征輸入到回歸模型中進(jìn)行訓(xùn)練。Rendle等[6-7]提出的因子分解機(jī)模型則是一種基于矩陣分解的機(jī)器學(xué)習(xí)算法,該算法可以解決大規(guī)模稀疏數(shù)據(jù)的特征組合問題。為解決刪失數(shù)據(jù)預(yù)測結(jié)果的有偏問題,Zhang等[8]從生存模型中推導(dǎo)出一種具有競價意識的梯度下降算法,以實(shí)現(xiàn)邏輯回歸和因子分解機(jī)以及神經(jīng)網(wǎng)絡(luò)模型的無偏預(yù)測。
基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型被引入到點(diǎn)擊率預(yù)測領(lǐng)域[9],Zhang等[10]首次利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)預(yù)測點(diǎn)擊率,并提出了基于因子分解機(jī)的神經(jīng)網(wǎng)絡(luò)模型(factorization machine-supported neural network,FNN1)。該模型為兩階段模型:第一階段的任務(wù)是采用因子分解機(jī)模型提取原始特征向量;第二階段的任務(wù)是將前一階段中提取的特征向量輸入到前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network,FNN2)中,以預(yù)測最終的點(diǎn)擊率。該模型(FNN1)給出了關(guān)于解決點(diǎn)擊率預(yù)測模型構(gòu)建的新思路,既含有兩階段模型思想,又結(jié)合了端到端的學(xué)習(xí)模式。Cheng等[11]提出了廣度和深度模型(Wide &Deep),該模型將以LR為代表的傳統(tǒng)線性模型稱作廣度(Wide)模型,將深度神經(jīng)網(wǎng)絡(luò)模型(DNN)稱作深度(Deep)模型,并將廣度模型和深度模型整合在一起,統(tǒng)一訓(xùn)練,同時擁有2種模型的優(yōu)點(diǎn),為之后的模型優(yōu)化提供了思路,并逐漸形成2個獨(dú)立的研究體系,即在廣度上不斷挖掘更多特征表達(dá)以提高模型記憶能力的特征工程[12]和在深度上不斷提高網(wǎng)絡(luò)復(fù)雜度以增強(qiáng)模型泛化能力的深度學(xué)習(xí)[13-15]。此后,一系列基于廣度和深度的優(yōu)化模型相繼被提出并應(yīng)用到點(diǎn)擊率預(yù)測任務(wù)上來。如深度因子分解機(jī)(Deep FM)[16]、深度交叉網(wǎng)絡(luò)(deep &cross network,DCN)[17]、多視圖特征轉(zhuǎn)換(multiview feature transfer,MTF)[18]、深度遞歸交互網(wǎng)絡(luò)(deep recursive interactive network,DRIN)[19]等。此外,注意力機(jī)制也被逐漸引入到點(diǎn)擊率預(yù)測當(dāng)中[20-23],并相繼形成諸如注意力因子分解機(jī)(attentional factorization machine,AFM)[24]、深度興趣網(wǎng)絡(luò)(deep interest network,DIN)[25]、深度興趣進(jìn)化網(wǎng)絡(luò)(deep interest evolution network,DIEN)[26]、動態(tài)興趣感知網(wǎng)絡(luò)(dynamic interest perception network,DIPN)[27]等模型。Liu等[28]在Deep FM和Wide &Deep模型的基礎(chǔ)上,進(jìn)一步設(shè)計(jì)了一個新的聯(lián)合學(xué)習(xí)模型。該模型結(jié)合了2個不同的殘差網(wǎng)絡(luò)來自動探索特征交互,并引入了一個神經(jīng)注意網(wǎng)絡(luò)來學(xué)習(xí)來自不同領(lǐng)域特征的每個二階交互的重要性。Liu等[29]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的卷積點(diǎn)擊預(yù)測模型(convolutional click prediction model,CCPM),提取局部來自具有不同元素的輸入實(shí)例的全局關(guān)鍵特征,可用于單個廣告印象和順序廣告印象。楊妍婷等[30]提出一種基于增強(qiáng)型因子分解向量輸入神經(jīng)網(wǎng)絡(luò)(enhanced factorization machine supported neural network,EFNN)的預(yù)測模型,在基于因子分解機(jī)的神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上增加了新特征生成層,對數(shù)據(jù)進(jìn)行通道變換后引入Inception結(jié)構(gòu)進(jìn)行卷積,將生成的新特征和原始特征結(jié)合。
以上模型都是在曝光數(shù)據(jù)集上處理數(shù)據(jù),忽視了實(shí)際模型應(yīng)用時需要針對曝光情況未知的全體數(shù)據(jù)集處理數(shù)據(jù),同時這些模型也沒有充分考慮廣告數(shù)據(jù)不平衡的特點(diǎn),從而導(dǎo)致廣告信息利用不足[31]。為了緩解曝光偏差問題,Yuan等[32]提出了一種新的反事實(shí)點(diǎn)擊率預(yù)測框架,通過降低傾向分?jǐn)?shù)擴(kuò)展雙重魯棒模型,即無傾向雙魯棒方法(propensity-free doubly robust method,PFDR),但該模型并不能緩解樣本不平衡問題。為了緩解樣本不平衡問題,Xie等[33]提出了一種魯棒集成局部內(nèi)核嵌入(robust integrated local kernel embedding,RILKE)模型,并將無監(jiān)督轉(zhuǎn)移學(xué)習(xí)引入到RILKE中,形成一種改進(jìn)的新模型,即魯棒轉(zhuǎn)移集成局部內(nèi)核嵌入式(robust transition integrated local kernel embedding,RTILKE),但該模型沒有考慮曝光偏差問題。
現(xiàn)有預(yù)測方法,如邏輯回歸[4]、因子分解機(jī)[34]和深度學(xué)習(xí)方法[35-39]等,大都只專注于在曝光空間中挖掘用戶點(diǎn)擊興趣,忽視了未曝光樣本情況。廣告被用戶點(diǎn)擊的前提是其被用戶看到,但未曝光廣告并不代表用戶不感興趣[3],比如投放的是一個從未曝光的新廣告。Yuan等[32]通過實(shí)驗(yàn)論證了處理未曝光數(shù)據(jù)的重要性,并指出由于曝光和未曝光樣本分布不一致,因此忽略了未曝光數(shù)據(jù)可能會導(dǎo)致強(qiáng)烈的偏差和不準(zhǔn)確的預(yù)測。此外,曝光數(shù)據(jù)相對所有競價數(shù)據(jù)而言是少量的,而已曝光數(shù)據(jù)集中也只有小部分樣本會被點(diǎn)擊。樣本的不平衡問題也是CTR預(yù)測中的重要問題??傊?CTR預(yù)測面臨2個挑戰(zhàn):①曝光偏差導(dǎo)致預(yù)測結(jié)果不可靠;②樣本不平衡導(dǎo)致預(yù)測精度低。
為了解決上述問題,課題組從曝光和點(diǎn)擊的依賴關(guān)系出發(fā),結(jié)合現(xiàn)有反事實(shí)學(xué)習(xí)方法,提出了一種全空間多任務(wù)神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊率聯(lián)合估計(jì)模型(whole space multi-task neural network, WMN)。WMN模型首先構(gòu)建了一個多任務(wù)的主體框架,將全體廣告請求空間視為包括曝光空間和未曝光空間的全空間,通過神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)不同任務(wù)目標(biāo),并改進(jìn)了模型的損失函數(shù)實(shí)現(xiàn)無偏預(yù)測。
本節(jié)將詳細(xì)描述點(diǎn)擊率預(yù)測中的預(yù)測偏差問題,并證明該偏差的存在。針對該問題提出一個點(diǎn)擊率聯(lián)合估計(jì)模型,以消除偏差,并用理論證明了該模型估計(jì)的無偏性。
本文中使用的符號說明見表1。
表1 符號說明Tab.1 Summary of symbols and descriptions
CTR預(yù)測常被描述為關(guān)于二分類數(shù)據(jù)的建模問題,即
P=P(click|ad)。
(1)
(2)
設(shè)全空間S內(nèi),對每個廣告xi,其對應(yīng)的市場價格為zi,廣告商預(yù)期競價為bi,可得曝光空間為Sw={(xi,yi)|zi 圖2 全空間、曝光空間與點(diǎn)擊空間Fig.2 Whole space, exposure space and click space 從圖2可以看出,對實(shí)際樣本數(shù)據(jù)而言,點(diǎn)擊空間是包含在曝光空間中的,而全空間遠(yuǎn)大于點(diǎn)擊空間和曝光空間,因此,現(xiàn)有的點(diǎn)擊率模型f(·)一般在曝光空間Sw上直接預(yù)測點(diǎn)擊率,即 f(·)=P(y=1|xw),xw∈Xw。 (3) 模型簡化為 (4) CTR預(yù)測問題便轉(zhuǎn)化為模型參數(shù)求解的優(yōu)化問題,即 (5) l(a,b)=alogb+(1-a)log(1-b), (6) 因此,全樣本空間上的預(yù)測偏差為 (7) 曝光空間上預(yù)測偏差的期望為 (8) 根據(jù)模型偏差的定義,即由所有的可能訓(xùn)練數(shù)據(jù)集訓(xùn)練出的所有模型的輸出平均值與模型的期望輸出值之間的差異,最終模型f(·)偏差為 (9) 即只在曝光空間上預(yù)測點(diǎn)擊率的模型均存在曝光偏差。 本文給出解決曝光偏差和樣本不平衡問題的方法,構(gòu)建一種全空間內(nèi)多任務(wù)神經(jīng)網(wǎng)絡(luò)聯(lián)合估計(jì)模型(WMN)。在理論上證明該模型的無偏性。根據(jù)廣告流程反饋中由曝光到點(diǎn)擊的順序模式,可得出貝葉斯概率聯(lián)結(jié)公式,即 (10) 基于此,本文中提出的WMN模型組成如圖3所示。從圖3可以看出,WMN模型整體是一個多任務(wù)框架結(jié)構(gòu),主要涉及3個任務(wù),即CTR預(yù)測任務(wù)、WIR預(yù)測任務(wù)和WICTR預(yù)測任務(wù)。這3個任務(wù)中,WIR任務(wù)和CTR任務(wù)采用并聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)連接,WICTR任務(wù)與這2個任務(wù)采用級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)連接。而CTR任務(wù)是模型的主任務(wù),WIR任務(wù)和WICTR任務(wù)作為模型的輔助任務(wù)幫助準(zhǔn)確預(yù)測點(diǎn)擊率。從結(jié)構(gòu)上看,該模型主要由底層模塊(shared bottom layer)和頂層模塊(tasks of CTR, WIR and WICTR)組成,其中底端網(wǎng)絡(luò)的輸入為經(jīng)過特征嵌入層、交互層等作用后的廣告特征信息,整個底層網(wǎng)絡(luò)通過共享參數(shù)嵌入擴(kuò)展訓(xùn)練空間,經(jīng)過底層訓(xùn)練后得到初步的數(shù)據(jù)特征表示,之后分別輸出到2個獨(dú)立的任務(wù)網(wǎng)絡(luò)(CTR和WIR)中,并且根據(jù)概率公式得到WICTR,而WIR和WICTR都將作為輔助任務(wù)幫助改進(jìn)模型整體的損失函數(shù),最終的CTR模型可以學(xué)習(xí)數(shù)據(jù)中更為復(fù)雜且準(zhǔn)確的高階特征表示,并得到無偏的輸出結(jié)果,提高點(diǎn)擊率預(yù)測任務(wù)的準(zhǔn)確性。 圖3 全空間多任務(wù)神經(jīng)網(wǎng)絡(luò)模型示例圖Fig.3 An illustration of the whole space multi-task neural network model 根據(jù)公式(10),可以推導(dǎo)出P(yi=1|xi,bi)和P(yi=0|xi,bi)的表達(dá)式,即 P(yi=1|xi,bi)=P(yi=1,z =P(yi=1|xi,z =θiWz(bi|xi,ω), (11) P(yi=0|xi,bi)=P(yi=0,z =P(yi=0|xi,z =(1-θi)Wz(bi|xi,ω)+(1-Wz(bi|xi,ω))。 (12) 則樣本的經(jīng)驗(yàn)似然函數(shù)為 (13) 式中:I1={i|yi=1},I0={i|yi=0};ω為權(quán)重。 似然函數(shù)是一種關(guān)于統(tǒng)計(jì)模型參數(shù)的函數(shù),一般在求解模型參數(shù)時可以采用最大似然估計(jì)的方法求解。最大期望算法(expectation maximization, EM)是一種可以有效尋找概率模型參數(shù)最大似然估計(jì)的迭代算法,主要針對需要依賴于無法觀測的隱變量的概率模型。然后將對數(shù)似然函數(shù)作為損失函數(shù),并利用EM算法改進(jìn)多任務(wù)學(xué)習(xí)模型的損失函數(shù),得到最終的聯(lián)合點(diǎn)擊率模型(WMN)。下面用EM算法幫助尋找參數(shù)的最大似然估計(jì)。 E步:對給定樣本,i∈I1,αi=1;i∈I0,設(shè) (14) M步:最終損失函數(shù)為 (15) 可以發(fā)現(xiàn),模型最終的損失函數(shù)由兩部分組成,前者反應(yīng)了點(diǎn)擊的損失,后者是曝光的情況。同時,該損失函數(shù)區(qū)分了不同分布的樣本,并對不同的樣本賦予了不同的權(quán)重,有助于緩解樣本不平衡的問題。 下面將證明該方法的無偏性。證明過程如下: 已知全空間為S和曝光空間Sw={(xi,yi)|zi (16) BiasWMN=|Sw[EWMN]-E| =0。 (17) 結(jié)合式(9)、(14)、(17)可知,在不考慮其他誤差的情況下,其他模型的估計(jì)偏差不為0,而該模型的誤差為0,因此該模型可以實(shí)現(xiàn)無偏估計(jì),證畢。 為了驗(yàn)證模型的有效性,在品友數(shù)據(jù)集上進(jìn)行測試實(shí)驗(yàn)。 2.1.1 數(shù)據(jù)集與預(yù)處理 使用ipinyou在2013年全球RTB算法競賽中提供的數(shù)據(jù)集,也是目前RTB學(xué)術(shù)研究領(lǐng)域較常使用的數(shù)據(jù)集之一。該數(shù)據(jù)集包含2013年10 d內(nèi)的9個不同廣告活動,涉及6 475萬次競價、1 950萬次印象、1 479萬次點(diǎn)擊和1 253次轉(zhuǎn)換。對于每個活動,前7 d的數(shù)據(jù)用作訓(xùn)練數(shù)據(jù),其余用作測試數(shù)據(jù)。其中訓(xùn)練數(shù)據(jù)按9∶1劃分訓(xùn)練集與驗(yàn)證集,驗(yàn)證集將用于選取模型中的超參數(shù)。 原始數(shù)據(jù)集由競價、印象、點(diǎn)擊和轉(zhuǎn)化4種不同類型的日志組成,且都按行記錄。經(jīng)過初步處理后,每個記錄的數(shù)據(jù)形式可表示為四元組(x,y,b,z),其中x表示具有相應(yīng)廣告信息的每個競價請求的高維特征向量,y為二分類的用戶反饋(即點(diǎn)擊與否),b是針對該廣告的競價,z是相應(yīng)的市場價格,即為了贏得競價而出價的最低價格。 2.1.2 評估指標(biāo) 為了驗(yàn)證模型有效性并確保可比性,在此沿用之前學(xué)者常用的比較指標(biāo),即使用ROC曲線下的面積(AUC)作為模型的評估指標(biāo)。AUC值越大,點(diǎn)擊率預(yù)測模型性能越好,該評估指標(biāo)在正負(fù)樣本比例不平衡下也適用。 2.1.3 對比模型 該模型將與以下現(xiàn)有先進(jìn)的點(diǎn)擊率預(yù)測模型進(jìn)行對比。 ①LR[10]:LR模型是基礎(chǔ)的用于擬合二分類數(shù)據(jù)的線性回歸模型。 ②FM[13]:FM模型是一種可以解決大規(guī)模稀疏數(shù)據(jù)的特征組合問題的模型。 ③FNN[9]:FNN模型首先采用FM模型預(yù)訓(xùn)練得到原始特征的低維特征表示,然后將預(yù)訓(xùn)練后得到的特征表示向量直接輸入到前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)一步學(xué)習(xí)高階的組合特征信息。 ④DeepFM[15]:DeepFM模型由深度學(xué)習(xí)模型和FM模型組合而得,深度學(xué)習(xí)模型學(xué)習(xí)特征深度,FM模型學(xué)習(xí)特征廣度,可以端到端地訓(xùn)練模型。 ⑤DCN[16]:Deep&Cross模型采用一個自定義的交互層來顯式地學(xué)習(xí)高階組合特征信息,并與前饋神經(jīng)網(wǎng)絡(luò)結(jié)合進(jìn)行預(yù)測。 ⑥AFM[6]:AFM模型主要用來學(xué)習(xí)不同組合特征的重要性,有區(qū)分地對組合特征進(jìn)行預(yù)測。 為了驗(yàn)證廣告數(shù)據(jù)存在的樣本不平衡問題,更好地體現(xiàn)該模型的有效性,對原始樣本中的假陰性樣本(全樣本集中那些未被曝光導(dǎo)致無法點(diǎn)擊的樣本)采用以下2種處理方式:直接剔除(Naive)和標(biāo)記為負(fù)樣本(Base)。 ①Naive:將假陰性樣本從訓(xùn)練集中剔除,這樣得到的結(jié)果實(shí)際上就是在曝光樣本集中訓(xùn)練的結(jié)果。 ②Base:對假陰性樣本不做處理,即在全空間中將假陰性樣本默認(rèn)為負(fù)樣本處理。 若實(shí)際樣本的分布是一致的,這2種處理方式所得結(jié)果應(yīng)當(dāng)也是一樣的,通過同一模型在這2種不同的處理上所得結(jié)果的不同,側(cè)面說明樣本不平衡問題的存在。 數(shù)值實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境為Anaconda3 2020.3(Python 3.8.4 64-bit) tensorflow2.3.0。該文將所提出的點(diǎn)擊率模型與現(xiàn)有的經(jīng)典模型進(jìn)行對比,其實(shí)驗(yàn)結(jié)果見表2。從表2中可以得出如下結(jié)論: 表2 點(diǎn)擊率預(yù)測模型在不同廣告商數(shù)據(jù)集上的性能Tab.2 Performance of click-through rate prediction model on different advertiser data sets ①在所有預(yù)測模型中,Naive處理方式后的結(jié)果與Base處理后的結(jié)果整體有明顯差別,但因數(shù)據(jù)集的不同而有不同的趨勢。在ID為1 458、2 259數(shù)據(jù)集中,相同模型的Naive處理結(jié)果優(yōu)于Base處理結(jié)果;而ID為3 427的數(shù)據(jù)集中則相反。這是因?yàn)閿?shù)據(jù)集的不同性質(zhì)而導(dǎo)致的,但2種處理方式下各模型的整體變化趨勢也反映了曝光數(shù)據(jù)處理的必要性。 ②所提模型在各數(shù)據(jù)集上的AUC均高于其余各模型。在ID為1 458數(shù)據(jù)集中,WMN的性能相對于DeepFM、FNN、AFM、DCN分別提高0.56%、0.42%、1.67%、1.31%,在ID為2 259數(shù)據(jù)集中,WMN的性能相對于DeepFM、FNN、AFM、DCN分別提高12.04%、2.21%、1.38%、7.43%,在ID為3 427數(shù)據(jù)集中,WMN的性能相對于DeepFM、FNN、AFM、DCN分別提高1.86%、2.05%、4.19%、3.09%。所提模型的Logloss值也優(yōu)于大多對比模型。 為了解決點(diǎn)擊率預(yù)測中的曝光偏差和樣本不平衡問題,本文中提出了全空間多任務(wù)神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊率聯(lián)合估計(jì)模型(WMN)。該模型以一個多任務(wù)框架為主體,并將多任務(wù)框架與神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合,在底層利用共享機(jī)制在2個任務(wù)中傳遞參數(shù),解決曝光偏差問題;頂層則由2個并行的任務(wù)(WIR和CTR)與一個級聯(lián)的任務(wù)(WICTR)組成,其中WIR和CTR任務(wù)允許網(wǎng)絡(luò)同時學(xué)習(xí)點(diǎn)擊和曝光信息,WICTR作為輔助任務(wù)幫助改進(jìn)損失函數(shù)。在公開的數(shù)據(jù)集上進(jìn)行的數(shù)值實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了所提出模型的性能表現(xiàn)優(yōu)于現(xiàn)有的預(yù)測模型。 本文構(gòu)建的多任務(wù)神經(jīng)網(wǎng)絡(luò)模型雖然在一定程度上提升了預(yù)測性能,但其主要依據(jù)廣告數(shù)據(jù)中的已有特征信息進(jìn)行建模,并未針對實(shí)時數(shù)據(jù)進(jìn)行檢測。此外,該模型還可以進(jìn)一步完善用戶興趣的捕捉機(jī)制,以及將模型適用在高階特征、時序等領(lǐng)域方面。1.2 點(diǎn)擊率聯(lián)合估計(jì)模型
1.3 無偏性證明
2 實(shí)驗(yàn)
2.1 實(shí)驗(yàn)設(shè)計(jì)
2.2 實(shí)驗(yàn)結(jié)果分析
3 結(jié)語