王準(zhǔn)
(廣州工商學(xué)院,廣東 廣州 510850)
基于大數(shù)據(jù)的網(wǎng)絡(luò)廣告精確投放研究
王準(zhǔn)
(廣州工商學(xué)院,廣東 廣州 510850)
隨著社會(huì)日新月益的發(fā)展,互聯(lián)網(wǎng)在人們生活中得到了普及,人們對(duì)其的使用范圍越來越寬廣,所以,人們逐步進(jìn)入互聯(lián)網(wǎng)的大數(shù)據(jù)時(shí)代.在互聯(lián)網(wǎng)廣告中,借助應(yīng)用大數(shù)據(jù)能夠有效促進(jìn)廣告精準(zhǔn)投放的成效,為網(wǎng)絡(luò)廣告的發(fā)展帶來很大程度的發(fā)展.本文旨在分析基于大數(shù)據(jù)的網(wǎng)絡(luò)廣告精確投放的平臺(tái)、算法、系統(tǒng)模型等,為實(shí)現(xiàn)廣告精準(zhǔn)投放提供借鑒.
大數(shù)據(jù);網(wǎng)絡(luò)廣告;精確投放
大數(shù)據(jù)非常具有影響力,能夠給人們的生產(chǎn)和生活帶來諸多的改變,因此,大家深有體會(huì)大數(shù)據(jù)時(shí)代給人們所帶來的影響,使得大數(shù)據(jù)時(shí)代已成事實(shí).在電子商務(wù)以及網(wǎng)絡(luò)的快速發(fā)展中,大數(shù)據(jù)作用越來越凸顯,使得網(wǎng)絡(luò)廣告方面也發(fā)生一定的改變,在現(xiàn)代大數(shù)據(jù)快速發(fā)展的時(shí)代中,憑借以往經(jīng)驗(yàn)決策的時(shí)代早已成為過去,現(xiàn)在靠的是迅速、準(zhǔn)確找到用戶的特點(diǎn)、需求,進(jìn)而提高廣告投放的準(zhǔn)確度.所以,隨著數(shù)字信息化的發(fā)展和對(duì)各類客戶的行為數(shù)據(jù)等方面進(jìn)行不斷的積累,大數(shù)據(jù)將賦予網(wǎng)絡(luò)廣告精確投放將會(huì)更上一個(gè)臺(tái)階.
數(shù)據(jù)管理平臺(tái),簡(jiǎn)稱DMP,是集中分析上網(wǎng)數(shù)據(jù)的平臺(tái),能夠定向推送服務(wù)廣告,并且功能明顯.DMP關(guān)乎能否提取用戶上網(wǎng)行為的特點(diǎn),如果沒有DMP,就沒有用戶行為特點(diǎn)與廣告相匹配,定向廣告無法實(shí)現(xiàn).所以,在網(wǎng)絡(luò)定向廣告的推動(dòng)中,數(shù)據(jù)管理平臺(tái)所發(fā)揮作用非常重要.同時(shí),DMP是DSP的核心,能夠管控廣告代理商和廣告商家對(duì)大眾數(shù)據(jù)進(jìn)行有效管控,借助這些數(shù)據(jù),進(jìn)而有效實(shí)現(xiàn)廣告計(jì)劃的管理和媒體購(gòu)買.
1.1 對(duì)用戶數(shù)據(jù)進(jìn)行預(yù)處理
每天有批量人員進(jìn)行網(wǎng)絡(luò)操作,所以用戶將產(chǎn)生眾多的網(wǎng)絡(luò)日志文件,因此,對(duì)用戶網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行處理,主要是利用DMP在Hadoop集群的基礎(chǔ)進(jìn)行處理,對(duì)Web日志進(jìn)行預(yù)處理工作主要包括截取關(guān)鍵字段和識(shí)別獨(dú)立用戶兩個(gè)方面,預(yù)處理之后,web日志就變成規(guī)范的數(shù)據(jù).借助關(guān)鍵字段截取功能,對(duì)海量的日志文件進(jìn)行有目的性的截取,從而降低運(yùn)行成本的開銷.截取字段可以包括用戶訪問網(wǎng)址、ip地址以及訪問時(shí)間等方面的信息.這些web日志經(jīng)過預(yù)處理后,將轉(zhuǎn)變?yōu)橐?guī)范化的數(shù)據(jù),由關(guān)鍵字段組成,主要包括訪問網(wǎng)址、時(shí)間以及標(biāo)識(shí)等方面,這些將有利于對(duì)用戶行為進(jìn)行針對(duì)性的分析.
1.2 對(duì)用戶行為特征進(jìn)行分析
用戶行為特征分析作為DMP的關(guān)鍵部分,主要任務(wù)是對(duì)用戶上網(wǎng)的行為數(shù)據(jù)借助一定的方式方法進(jìn)行有效的分析,進(jìn)而得到用戶興趣的數(shù)據(jù)統(tǒng)計(jì).其具體流程如圖1所示.
圖1 用戶行為特征分析流程圖
1.3 更新用戶特征的數(shù)據(jù)
數(shù)據(jù)更新指的是要隨著時(shí)間的改變更新用戶興趣特征方面的數(shù)據(jù),而且這非常有必要,因?yàn)?,用戶?huì)隨著時(shí)間的延長(zhǎng),興趣行為特征有可能進(jìn)行改變.比如:一個(gè)女士用戶在雙十一的時(shí)候想購(gòu)買一條牛仔褲,因此,瀏覽網(wǎng)頁(yè)都是牛仔褲方面的網(wǎng)頁(yè),但是,當(dāng)她購(gòu)買完成這個(gè)牛仔褲后,下次再瀏覽網(wǎng)頁(yè)的時(shí)候,就不會(huì)再繼續(xù)瀏覽與牛仔褲相關(guān)的網(wǎng)頁(yè),而是失去了購(gòu)買的興趣,經(jīng)過一段時(shí)間,該女士又想購(gòu)買外套,所以又瀏覽了和外套相關(guān)的網(wǎng)頁(yè),所以,興趣特征發(fā)生改變,如果不第一時(shí)間將此數(shù)據(jù)進(jìn)行更新,將會(huì)對(duì)推送廣告與用戶興趣產(chǎn)生差距.因此,用戶數(shù)據(jù)特征的及時(shí)更新反應(yīng)著DMP的優(yōu)劣.
2.1 建立向量空間模型
在對(duì)用戶進(jìn)行網(wǎng)頁(yè)瀏覽的過程進(jìn)行興趣行為的特征分析的時(shí)候,用戶行為的特征不同,那么所對(duì)應(yīng)的關(guān)鍵詞的重要性也不盡相同,以往的向量空間的模型不能計(jì)算這種差異性的要求,所以,對(duì)此空間向量模型進(jìn)行優(yōu)化、改進(jìn),分析用戶瀏覽行為進(jìn)行分析,重新權(quán)衡用戶興趣行為特征的關(guān)鍵性的重要性,盡量接近用戶表現(xiàn)出來的興趣愛好.例如:一個(gè)用戶進(jìn)行了n中瀏覽行為,而且每一個(gè)都不一樣,且每一個(gè)對(duì)用戶興趣的影響程度均不一致,利用權(quán)重來進(jìn)行區(qū)分,關(guān)鍵詞Wi用ε1,ε2,...εn來表示,n種不同瀏覽行為的權(quán)重用fi1,fi2,…Fin來表示,那么,用戶有效瀏覽n個(gè)文檔時(shí)行為特征的關(guān)鍵詞用出現(xiàn)的詞的頻率,在傳統(tǒng)向量空間模型中tfi為:
優(yōu)化后的權(quán)重計(jì)算方法為:
廣告dj和網(wǎng)頁(yè)di的相似度計(jì)算方法是:
其中w'(wki)表示關(guān)鍵詞wk在網(wǎng)頁(yè)di中的權(quán)重,w'(wkj)表示關(guān)鍵詞wk,在廣告dj中的權(quán)重.
2.2 向量模型的語(yǔ)義擴(kuò)展
本文主要是對(duì)向量空間模型進(jìn)行了語(yǔ)義擴(kuò)展,算法的流程具體如圖2所示.算法首先借助前面優(yōu)化的向量空間模型來計(jì)算用戶興趣模型關(guān)鍵詞的權(quán)重,并對(duì)向量進(jìn)行裁剪,包括m個(gè)權(quán)重最高的關(guān)鍵詞.借助語(yǔ)義關(guān)聯(lián)的工具可以對(duì)關(guān)鍵詞進(jìn)行詞匯擴(kuò)展,利用其同義詞、近義詞以及予以相同的詞.但是用戶興趣新的模型和其擴(kuò)展詞匯沒有直接的關(guān)系,所以,W構(gòu)建與貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算擴(kuò)展詞匯的權(quán)重相似.首先,借助基于中文維基百科分類體系和鏈接結(jié)構(gòu)的多路徑語(yǔ)義相關(guān)度算法計(jì)算關(guān)鍵詞和擴(kuò)展詞的語(yǔ)義相關(guān)度,然后再利用這一相關(guān)度及關(guān)鍵詞在原用戶興趣模型中的權(quán)重構(gòu)建類貝葉斯網(wǎng)絡(luò)來計(jì)算擴(kuò)展詞在新模型中的權(quán)重.
圖2 向量空間模型擴(kuò)展流程圖
2.3 更新用戶興趣模型
利用向量聚類算法主要是對(duì)向量空間模型進(jìn)行語(yǔ)義擴(kuò)展,然后再按關(guān)鍵詞進(jìn)行聚類,用公式計(jì)算出聚類形成的每個(gè)詞向量簇的權(quán)重WUi,進(jìn)而計(jì)算出每個(gè)詞向量簇的質(zhì)心dQEi,最終用于評(píng)價(jià)廣告和用戶匹配得分的計(jì)算公式是:
其中,詞向量簇質(zhì)心dQEi與廣告ak的相似度Sim(dQEi,ak)用改進(jìn)的向量空間模型計(jì)算.廣告和每個(gè)興趣簇質(zhì)也都有一個(gè)得分,選取值最大的作為該廣告的最終得分.按照這個(gè)得分對(duì)待投放的廣告進(jìn)行排序并將得分最高的廣告投放給用戶.
因?yàn)閮?nèi)容定向精確投放廣告的算法僅僅是選取了網(wǎng)頁(yè)的一些關(guān)鍵詞并按照網(wǎng)頁(yè)的主題去投放廣告,該方法基于網(wǎng)頁(yè)種的內(nèi)容,并未有效挖掘用戶的興趣和喜好,因此廣告的投放效果不是很理想,常常投放的廣告對(duì)于用戶而言并不感興趣.文章提出一個(gè)建立在用戶瀏覽行為基礎(chǔ)上的廣告精確投放算法,這種算法在提取用戶瀏覽網(wǎng)頁(yè)所用關(guān)鍵詞的同時(shí)還考慮到各種瀏覽行為的特點(diǎn)對(duì)關(guān)鍵詞所形成的影響,任一瀏覽行為其所相應(yīng)的瀏覽內(nèi)容均有不一樣的權(quán)重,在特性分析的同時(shí)對(duì)傳統(tǒng)的向量空間模型予以改進(jìn),從而使向量空間模型可以更為準(zhǔn)確的體現(xiàn)出用戶的興趣.不過改進(jìn)的向量空間模型與廣告間仍然有一定的語(yǔ)義失配,故而要運(yùn)用語(yǔ)義關(guān)聯(lián)工具對(duì)可體現(xiàn)用戶興趣的關(guān)鍵詞予以詞匯上的擴(kuò)展并計(jì)算出其權(quán)重.考慮到這個(gè)問題,文章先提出在維基百科基礎(chǔ)上的多路徑語(yǔ)義的算法,用來計(jì)算關(guān)鍵詞及其擴(kuò)展詞的相關(guān)度,繼而結(jié)合用戶的興趣和關(guān)鍵詞的相關(guān)性以及關(guān)鍵詞和擴(kuò)展詞的巧關(guān)性,構(gòu)建出一個(gè)很像貝葉斯網(wǎng)絡(luò)的模型去計(jì)算擴(kuò)展詞的權(quán)重.
3.1 需求分析
目前的網(wǎng)絡(luò)廣告投放主要有下面3種形式:
(1)傳統(tǒng)媒體,這種投放形式是依據(jù)時(shí)間的長(zhǎng)短在媒體上買廣告位,該模式的投放成本非常大,而且資源比較分散,往往不可有針對(duì)性的尋得目標(biāo)受眾.
(2)網(wǎng)絡(luò)聯(lián)盟,通過該投放方式,廣告主以及代理商能夠依次買到一百家以上媒體,能夠執(zhí)行跨媒體的頻次控制,其長(zhǎng)處是投入的成本比較低,而且曝光度較足,其短板是廣告常常出現(xiàn)于一些小型網(wǎng)站中,對(duì)品牌的影響力很有限,僅可按網(wǎng)站本身的屬性進(jìn)行初步的定向.
(3)需求方平臺(tái)DSP,通過這個(gè)平臺(tái),廣告主可以借助交易平臺(tái)去購(gòu)買受眾.它借助cookie分析人群的行業(yè)習(xí)慣以及個(gè)人特點(diǎn),從而把廣告精確的投放至最需要的用戶,這種方式的用戶覆蓋面非常廣,其投放的成本也很低,且投放的效果比較好,發(fā)展前景非常廣闊.
3.2 總體流程設(shè)計(jì)
本系統(tǒng)主要是對(duì)用戶興趣行為進(jìn)行分析,然后定向廣告投放算法進(jìn)行分析,然后針對(duì)用戶的興趣行為特征選擇相關(guān)的廣告,匹配度高,讓廣告交易平臺(tái)參與廣告的競(jìng)價(jià).系統(tǒng)W能夠通過對(duì)用戶的興趣分析,能夠?qū)崿F(xiàn)廣告的精準(zhǔn)投放,很大程度上提高了廣告投放的成效,在增加廣告收入的基礎(chǔ)上,實(shí)現(xiàn)了多方的共贏.系統(tǒng)的總體流程設(shè)計(jì)如圖3所示.
圖3 網(wǎng)絡(luò)廣告精確投放系統(tǒng)流程圖
3.3 功能模塊設(shè)計(jì)
按照模塊功能,可以將精準(zhǔn)廣告投放系統(tǒng)的原型DP分為:廣告模塊、用戶信息處理模塊及系統(tǒng)管理員模塊,其中,廣告投放系統(tǒng)按照模塊功能可用圖4來表示.
圖4 網(wǎng)絡(luò)廣告精確投放系統(tǒng)模塊圖
3.4 廣告投放的效果
本文設(shè)置投放次數(shù)10萬(wàn)次,手機(jī)廣告以及汽車廣告均是10萬(wàn)次的投放次數(shù),分別利用大數(shù)據(jù)網(wǎng)絡(luò)廣告的投放方式和傳統(tǒng)方式進(jìn)行投放,對(duì)投放效果進(jìn)行量化,可以采用廣告點(diǎn)擊率的方式,結(jié)果顯示,在用戶瀏覽行為的基礎(chǔ)上,大數(shù)據(jù)的廣告精確投放算法能夠充分挖掘用戶的興趣行為特征,能夠?qū)Υ送斗排c之相近的廣告,雖然投放的次數(shù)與傳統(tǒng)的投放次數(shù)有所減少,但是投放廣告的點(diǎn)擊率和有效率得到了提高,即有效投放,投其所好,較傳統(tǒng)投放,點(diǎn)擊率提高了一倍多,成效明顯.
綜上,文章首先對(duì)網(wǎng)絡(luò)廣告數(shù)據(jù)管理平臺(tái)如何構(gòu)建進(jìn)行了概述,結(jié)合目前網(wǎng)絡(luò)廣告投放不能夠夠精確表達(dá)用戶興趣等方面的問題,提出了基于用戶興趣瀏覽行為大數(shù)據(jù)的廣告精確投放算法,并在此基礎(chǔ)上建立了定向廣告投放系統(tǒng)模型,形成網(wǎng)絡(luò)廣告精確投放系統(tǒng),進(jìn)而實(shí)現(xiàn)了廣告精準(zhǔn)投放的目標(biāo).
〔1〕俞淑平,陳剛.一種髙效的行為定向廣告投放算法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(1):4-7.
〔2〕施燦燦.網(wǎng)絡(luò)定向廣告中用戶興趣模型研究應(yīng)用[D].合肥工業(yè)大學(xué),2013.22-30.
〔3〕周蒙.面向互聯(lián)網(wǎng)用戶的個(gè)性化廣告推送服務(wù)研究[D].上海:東華大學(xué),2014.22-29.
〔4〕李志.互聯(lián)網(wǎng)廣告精準(zhǔn)投放平臺(tái)的研究[D].武漢華中師范大學(xué),2013.5-6.
〔5〕王中華.網(wǎng)絡(luò)廣告模式現(xiàn)存問題及解決思路探討[J].經(jīng)濟(jì)研究導(dǎo)刊,2010(1):22-25.
〔6〕劉鐵巖.方興未艾的計(jì)算廣告學(xué)[J].中國(guó)作者姓名.
F713
A
1673-260X(2017)01-0100-03
2016-10-27
2015年廣東省教育廳重點(diǎn)平臺(tái)及科研項(xiàng)目(青年創(chuàng)新人才類項(xiàng)目(No.2015KQNCX196));2016年廣東省高等教育學(xué)會(huì)高職高專云計(jì)算與大數(shù)據(jù)專業(yè)委員會(huì)課題(No.GDYJSKT16-06)