福建農(nóng)業(yè)職業(yè)技術(shù)學(xué)院 吳忠斌
關(guān)于計(jì)算廣告相關(guān)算法的解析
福建農(nóng)業(yè)職業(yè)技術(shù)學(xué)院 吳忠斌
通過對計(jì)算廣告中相關(guān)算法的解釋與分析,明確了DSP優(yōu)化傳統(tǒng)交互流程及其要點(diǎn),展現(xiàn)了DSP工作流量,并對計(jì)算廣告的相關(guān)算法進(jìn)行了綜合闡述,提出了對計(jì)算廣告過程中可以采用的幾種算法策略,供相關(guān)技術(shù)研究人員參考.
計(jì)算廣告;DSP;算法
計(jì)算廣告已經(jīng)成為一門新興的多學(xué)科的交叉學(xué)科,與大型搜索、文本分析、信息檢索、機(jī)器學(xué)習(xí)、分類、優(yōu)化和微觀經(jīng)濟(jì)學(xué)等諸多學(xué)科緊密融合.計(jì)算廣告就是以追求廣告投放的綜合收益最大化為目標(biāo),重點(diǎn)解決用戶與廣告匹配的相關(guān)性和廣告的競價(jià)模型的問題.隨著海量用戶數(shù)據(jù)的挖掘、實(shí)時(shí)大數(shù)據(jù)計(jì)算(流計(jì)算)、用戶與廣告特征提取與匹配、語義網(wǎng)絡(luò)的構(gòu)建不斷發(fā)展,計(jì)算廣告的運(yùn)作系統(tǒng)以廣告算法、廣告、語境、受眾為內(nèi)容,采取基于文本分析、用戶分析、用戶參與的計(jì)算廣告.
從原來Ad Network交互流程到目前主要模式為RTB模式的演變,原來從媒體來的每一個(gè)廣告請求,通常都會獲得展現(xiàn)機(jī)會,現(xiàn)在不一定了.原來用戶沒點(diǎn)擊,Ad Network不用出錢(當(dāng)時(shí)采用CPC結(jié)算),現(xiàn)在則需要出錢(現(xiàn)在采用CMP結(jié)算).原來穩(wěn)賺不賠,現(xiàn)在做不好就虧本.媒體壟斷優(yōu)勢沒有了,競爭者變多了,廣告主可能變少了.不用去和各家媒體一一談合作了.DSP(Demand Side Platform)作為需求方平臺,負(fù)責(zé)接受投放需求,找人群數(shù)據(jù),實(shí)現(xiàn)投放競價(jià)等功能的那么一個(gè)中央管理控制平臺.DMP(Data Management Platform)作為數(shù)據(jù)管理平臺,負(fù)責(zé)數(shù)據(jù)匯集和按需要與DSP進(jìn)行數(shù)據(jù)交換.而站在廣告主的角度來看,運(yùn)用投放新技術(shù)幫助廣告主選擇合適的展現(xiàn),并對展現(xiàn)出價(jià)(CMP)的DSP比Ad Network更能代表自己的利益,可以提出更多個(gè)性化的投放要求.并且更容易在投放中定制化地使用廣告主自己的數(shù)據(jù)和第三方數(shù)據(jù).
以往的互聯(lián)網(wǎng)廣告投放方式不同,DSP模式的主要特征是精準(zhǔn)定位目標(biāo)人群,先按照投放需求來圈定目標(biāo)受眾,如在某地區(qū)的某個(gè)年齡段喜歡奢侈品平均消費(fèi)多少金額.還需要設(shè)置投放條件,如某客戶使用PC或移動終端每次點(diǎn)擊廣告的單價(jià)不超過2分錢.然后這些條件就交到了DSP系統(tǒng)那,DSP會跟DMP溝通,找出條件匹配的人群,并根據(jù)競爭程度(實(shí)時(shí)競價(jià)),可使用的媒體資源等實(shí)際環(huán)境,來進(jìn)行廣告投放.其涉及到了RTB(Realtime bidding),即實(shí)時(shí)競價(jià).多個(gè)廣告主的目標(biāo)用戶經(jīng)常是重疊的,投放資源也需要去搶,就會產(chǎn)生競價(jià),在同一時(shí)間進(jìn)行PK.DSP的優(yōu)化效果可能比Ad Network更好,但是,做不好的話也可能更差.誠然,前置和后置精準(zhǔn)相結(jié)合才能夠?qū)崿F(xiàn)相對靠譜的精準(zhǔn)投放,技術(shù)并不能完全決定投放,用戶行為的不穩(wěn)定性導(dǎo)致了前置數(shù)據(jù)的不夠精確,需要通過后置數(shù)據(jù)進(jìn)行修正,所以,海量數(shù)據(jù)很重要.從媒體主的角度來看,收益理論上會增加,但在早期市場競爭不激烈時(shí),收益可能降低.計(jì)算廣告的核心問題,是為一系列用戶與環(huán)境的組合找到最合適的廣告投放策略以優(yōu)化整體廣告活動的利潤.必須說明的是,廣告問題優(yōu)化是一組展示的效果,而非孤立的某一次展示的效果.這是由于廣告活動中普遍存在著量的約束,在這一約束下進(jìn)行利潤優(yōu)化,其最優(yōu)解往往與每次展示獨(dú)立決策時(shí)有很大的不同.另外,在某些廣告產(chǎn)品中,系統(tǒng)并不一定能拿到確定的用戶或上下文唯一標(biāo)識,但這并不意味著完全無法進(jìn)行計(jì)算優(yōu)化,并且優(yōu)化的結(jié)果是"廣告投放策略"而不一定是具體的廣告.
想了解算法,就必須先了解DSP的工作流程(如圖1所示).
圖1 DSP工作流程
1)廣告主的數(shù)據(jù)(Action Data).DMP公司在廣告主的網(wǎng)站上埋點(diǎn)(通常是放上一個(gè)1X1的不可見像素),這樣當(dāng)網(wǎng)民訪問廣告主的網(wǎng)站時(shí),DMP公司會得到該信息.在廣告主授權(quán)下,DMP公司把該數(shù)據(jù)傳給DSP.
2)媒體的數(shù)據(jù)(Mapping Data).DSP還會和第三方網(wǎng)站合作(如新浪、網(wǎng)易).在它們的網(wǎng)站上也埋點(diǎn),或者向DMP公司購買網(wǎng)民行為數(shù)據(jù),這樣就可以追蹤到網(wǎng)民在這些網(wǎng)站上的行為.網(wǎng)民在每個(gè)網(wǎng)站上留下的Cookie不一樣,需要做Cookie Mapping.
其一,離線計(jì)算每個(gè)Campaign的目標(biāo)投放用戶集;
其二,廣告主(或賬戶操作人員)可以通過配置來管理這些目標(biāo)投放用戶集.
1)當(dāng)Ad Exchange(廣告交換)把請求發(fā)過來的時(shí)候,DSP會得到以下2條信息:一個(gè)是當(dāng)前廣告位的信息;另一個(gè)是當(dāng)前用戶的Cookie和基本信息.
2)DSP需要在100ms內(nèi),根據(jù)對當(dāng)前用戶的理解,并且考慮當(dāng)前廣告位,依據(jù)自己的Bidding算法來決定:一是否要對這次展現(xiàn)機(jī)會進(jìn)行競價(jià);二是投放哪個(gè)Campaign的廣告;三是出價(jià)是多少.
如果出價(jià)最高,贏得了展現(xiàn)機(jī)會,則DSP返回創(chuàng)意,網(wǎng)民就會在該廣告位看到該創(chuàng)意(圖片、文字、Flash).
1)Ad Exchange向DSP反饋該DSP競價(jià)成功的展現(xiàn)是否造成點(diǎn)擊或轉(zhuǎn)化.
2)根據(jù)這些數(shù)據(jù)統(tǒng)計(jì)點(diǎn)擊率(CTP)、轉(zhuǎn)化率(CVR)、每個(gè)轉(zhuǎn)化平均成本(CPA)等各種指標(biāo),匯總成報(bào)表展示給廣告主.
對于上述過程中的算法,其運(yùn)算過程大致如下:
找到每個(gè)Campaign的目標(biāo)投放用戶集.
1)基于標(biāo)簽的做法(與Ad Network差異不大).
DSP對所有能追蹤到的網(wǎng)民,根據(jù)其行為為每個(gè)網(wǎng)民打上各種標(biāo)簽(User Profiling).
廣告主(或賬戶操作員)對每個(gè)Campaign選擇一系列標(biāo)簽,從而確定自己的目標(biāo)投放用戶集.
2)基于重定向的做法.
重定向的方式很多,如KT重定向、Cookie重定向.Cookie重定向就是記錄曾經(jīng)訪問過廣告主網(wǎng)站的Cookie,然后廣告主只對這些Cookie進(jìn)行投放.
3)基于Look-alike模型的做法(以M6D)的做法為例)
對每個(gè)Campaign,建立模型預(yù)估用戶發(fā)生轉(zhuǎn)化的概率P(c|u).正例是在廣告主網(wǎng)站發(fā)生轉(zhuǎn)化的用戶,反之為負(fù)例,P(c|u)由兩級模型來構(gòu)建.
根據(jù)每個(gè)用戶的P(c|u)將用戶劃分到不同的Segments.
不同Segments的P(c|u)范圍也不一樣,平均每個(gè)Campaign有10~50個(gè)Segments.廣告主根據(jù)自己的需求,決定開啟或關(guān)閉某些Segments.
當(dāng)Ad Exchange發(fā)送競價(jià)請求時(shí),攜帶了網(wǎng)民Cookie信息和廣告位信息.
1)檢索.DSP先根據(jù)Cookie找到所有目標(biāo)投放用戶集中包含該Cookie的Campaign.
2)過濾.篩掉那些達(dá)到預(yù)算限制的Campaign,以及對當(dāng)前用戶達(dá)到展次數(shù)上限的Campaign.
3)出價(jià).對每個(gè)Campaign計(jì)算出一個(gè)出價(jià).
4)內(nèi)部競價(jià).選擇出價(jià)最高的Campaign,并把出價(jià)返回給Ad Exchange.
在線上生產(chǎn)環(huán)境中進(jìn)行實(shí)際競價(jià)時(shí),通常需要對競價(jià)模型的參數(shù)做調(diào)整.主要原因有兩點(diǎn):一是線上的數(shù)據(jù)分布與線下用的訓(xùn)練數(shù)據(jù)的分布不一樣,需要對參數(shù)做調(diào)整;二是線上的環(huán)境是動態(tài)變化的,參數(shù)也應(yīng)隨之變化.
其常見的算法有兩種:
1)預(yù)測
預(yù)測對象:流量,即預(yù)估未來的流量大小;在不同的出價(jià)下,能贏得展現(xiàn)的概率分布,體現(xiàn)競爭對手的出價(jià)情況.
預(yù)測范圍:全流量下的預(yù)估;不同定向條件下的預(yù)估.
2)反饋控制
以消費(fèi)控制為例,計(jì)算公式為:
注:式中λ為參數(shù).
上式控制每個(gè)時(shí)間間隔的消費(fèi)一致,但實(shí)際應(yīng)用中通常不是一致的:
注:式中f(t,T)為t-1到t時(shí)間段的消費(fèi)控制目標(biāo).
1)目標(biāo)用戶選擇.其作用就是找到每個(gè)Cappaign的目標(biāo)投放用戶集,通常采用3種算法:基于標(biāo)簽的做法(與Ad Network差異不大);基于重定向的做法;基于Look-alike模弄的做法.
2)出價(jià).可以實(shí)現(xiàn)實(shí)時(shí)競價(jià)過程,采用基于價(jià)值的出價(jià)算法.
3)調(diào)整出價(jià).主要用于實(shí)時(shí)調(diào)整出價(jià)策略,采用預(yù)測和反饋控制的算法.
現(xiàn)在,全球進(jìn)入信息世界的數(shù)字化時(shí)代,廣告成了全世界互聯(lián)網(wǎng)行業(yè)的大部分收入.不了解計(jì)算廣告,也不太容易真正理解大數(shù)據(jù),因?yàn)榇髷?shù)據(jù)最早的應(yīng)用在線廣告,也是獲得規(guī)?;癄I收的應(yīng)用.面對日益增多大數(shù)據(jù)的廣告信息,對于技術(shù)從業(yè)研究者來說,應(yīng)從行業(yè)的、宏觀的視角著手,進(jìn)而掌握相應(yīng)的思考方法和技術(shù),根據(jù)相應(yīng)不同的動態(tài),采用不同的相關(guān)算法,而不是糾結(jié)于"點(diǎn)擊率模型應(yīng)該用什么比較好"這樣的問題.當(dāng)前,國家政府部門已經(jīng)確立人工智能領(lǐng)域發(fā)展的一個(gè)的重點(diǎn)方向,將會從認(rèn)知和模擬自然世界,向認(rèn)知和響應(yīng)社會現(xiàn)象進(jìn)發(fā).在傳統(tǒng)的語音識別、人臉識別這樣的人工智能應(yīng)用中,對一個(gè)基本確定的、變化不快的數(shù)據(jù)空間進(jìn)行建模;在計(jì)算廣告這樣的應(yīng)用中,人們面對的是有千萬網(wǎng)民的反饋形成的、快速變化的數(shù)據(jù)空間.在此情況下,并沒有確定的ground truth,也無法通過均勻地對總體空間進(jìn)行采樣構(gòu)建魯棒的訓(xùn)練集,并且更為嚴(yán)重的是,由于建模的是人的行為,而人的行為又極大程度地受到系統(tǒng)輸出的影響.
總之,計(jì)算廣告學(xué)的最終目的是在特定語境下特定用戶和相應(yīng)的廣告之間找到"最佳匹配". 而"最佳匹配"面臨的挑戰(zhàn)可能導(dǎo)致在復(fù)雜約束條件下的大規(guī)模優(yōu)化和搜索問題.因此,計(jì)算廣告的相關(guān)算法就顯得尤其重要,利用大數(shù)據(jù)數(shù)據(jù)或者事實(shí)說話才是根本.所以說,不了解計(jì)算廣告,就不可能深入地了解互聯(lián)網(wǎng),也不太容易真正理解大數(shù)據(jù).技術(shù)從業(yè)者需要從行業(yè)、宏觀的角度認(rèn)識這個(gè)領(lǐng)域,進(jìn)而掌握相應(yīng)的思考方法和技術(shù),包括商業(yè)產(chǎn)品的思路和工作方法,信息檢索、機(jī)器學(xué)習(xí)、最優(yōu)化、博弈論等基礎(chǔ)數(shù)學(xué)工具,以及Hadoop、Spark和其他開源工具為核心的大數(shù)據(jù)基礎(chǔ)設(shè)施等.
[1]劉鵬,王超.計(jì)算廣告:互聯(lián)網(wǎng)商業(yè)變現(xiàn)的市場與技術(shù)[M].北京:人民郵電出版社,2015.
[2]朱志北,李斌等.基于LDA的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測研究[J].計(jì)算機(jī)應(yīng)用研究,2016(04).
[3]嚴(yán)嶺.展示廣告中點(diǎn)擊率預(yù)估問題研究[D].上海:上海交通大學(xué),2015.
[4]劉慶振,趙磊.計(jì)算廣告學(xué):智能媒體時(shí)代的廣告研究新思維[M].北京:人民日報(bào)出版社,2017.
吳忠斌(1969-),男,漢族,福建邵武人,福建農(nóng)業(yè)職業(yè)技術(shù)學(xué)院講師,工程碩士(計(jì)算機(jī)科學(xué)方向),研究方向:計(jì)算機(jī)應(yīng)用.