劉子靖,于潤童
(南京工程學院,江蘇 南京 211100)
在互聯(lián)網(wǎng)技術(shù)急速發(fā)展的背景下,廣告行業(yè)發(fā)生了巨大的變革,逐步從傳統(tǒng)的線下、電視廣告形式轉(zhuǎn)變成線上、互聯(lián)網(wǎng)廣告形式。目前的廣告投放主流相比于傳統(tǒng)的投放形式,擁有較高的針對性,內(nèi)容也更加豐富,這足以在很大程度上減少企業(yè)的人力資源成本,并提高資源利用率。目前只有部分大公司才有一些技術(shù)能力以及開發(fā)資源,但是還是會存在系統(tǒng)數(shù)據(jù)不夠完善、技術(shù)不夠扎實等情況,同時中小型企業(yè)沒有能力進行相關(guān)技術(shù)研究,因此市場還存在著很大的空缺。
在此背景下,建立了基于用戶畫像廣告精準投放系統(tǒng)。本項目主要分為兩部分:第一部分是基于flink流處理對用戶畫像進行分析描寫并生成分析后的數(shù)據(jù);第二部分是基于Spring Boot與Spring Cloud并加上vue.js前端,讀取分析的數(shù)據(jù),顯示在html上。旨在降低企業(yè)廣告投放成本,提高資源利用率,加強廣告投放針對性,使企業(yè)產(chǎn)品更好地定點推銷,提高購買率。
在過去,市場大多數(shù)為企業(yè)生產(chǎn)什么樣的產(chǎn)品,消費者就消費什么的供需關(guān)系。而隨著經(jīng)濟的發(fā)展,市場供需關(guān)系也發(fā)生了改變,現(xiàn)在企業(yè)需要迎合消費者多樣、精細的需求。為了企業(yè)能夠更精確地了解消費者需求,用戶畫像發(fā)揮了重要作用。企業(yè)通過對消費者基本信息以及行為數(shù)據(jù)的收集處理,獲得消費者標簽化畫像,之后企業(yè)基于用戶畫像實行精準的廣告投放。
用戶畫像是交互設計之父阿蘭庫珀提出的一個概念,被定義為“用戶信息標簽化”,也可以被理解為企業(yè)通過收集與分析消費者主要信息的數(shù)據(jù)之后,呈現(xiàn)出一個用戶的商業(yè)全貌。這些信息主要包括社會屬性、生活習慣、消費行為等,足以為企業(yè)提供充分的信息基礎(chǔ),幫助企業(yè)快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。
一方面用戶畫像本質(zhì)就是從業(yè)務角度出發(fā)對用戶進行分析,了解用戶需求,尋找目標客戶。另一方面就是,金融企業(yè)利用統(tǒng)計的信息,開發(fā)出適合目標客戶的產(chǎn)品。提到用戶畫像,很多廠商都會提到360度用戶畫像,其實360度客戶畫像經(jīng)常是一個廣告宣傳用語,根本不存在數(shù)據(jù)可以全面描述客戶、透徹了解客戶。人是非常復雜的生物,信息緯度非常復雜,僅僅依靠外部信息來刻畫客戶內(nèi)心需要根本不可能[1]。用戶畫像使得投放過程更加可控,投放效果更加量化。網(wǎng)絡廣告精準投放活動,憑借可控化、可量化的優(yōu)勢,獲得了眾多廣告主的青睞,所占的網(wǎng)絡廣告市場份額進一步提升[2]。
目前,大多數(shù)企業(yè)所掌握的大數(shù)據(jù)技術(shù)還不夠成熟,他們通常只是將大量數(shù)據(jù)按照某一標準進行分析(見圖1—2),根據(jù)比例權(quán)重來進行廣告投放。如此一來,就不能保障廣告的命中率,會增加不必要的成本投入。
圖1 互聯(lián)網(wǎng)購物性別比例
因此,本系統(tǒng)更注重于用戶自身特點。系統(tǒng)在分析數(shù)據(jù)時會創(chuàng)建用戶特有的標簽,而不再是僅僅關(guān)注某一信息進行大數(shù)據(jù)分析。如表1所示,系統(tǒng)會通過用戶的動態(tài)信息以及靜態(tài)信息來繪制標簽化形象,該用戶畫像能夠簡潔準確地表現(xiàn)用戶的信息以及產(chǎn)品偏好。通過系統(tǒng)繪制出的畫像,企業(yè)可以向其投放中等價位的服飾,這樣便可以在很大程度上減少廣告投放成本。
表1 用戶畫像圖例
本文主要闡述了用戶畫像概念研究以及用戶數(shù)據(jù)研究兩個方面。通過描述用戶畫像的概念、原理并將用戶畫像與傳統(tǒng)的大數(shù)據(jù)分析進行對比,體現(xiàn)使用用戶畫像可以提高廣告的命中率,以確保該系統(tǒng)運用到廣告投放系統(tǒng)的合理性。
圖2 互聯(lián)網(wǎng)購物年齡段比例
傳統(tǒng)的廣告類型,根據(jù)內(nèi)容主要可分為三類:服務廣告、公關(guān)廣告以及商業(yè)廣告,這三類廣告有各自所適用的情況以及特點。
涉及酒店、餐館、房屋租賃、車輛出租、電器維修等服務性內(nèi)容的廣告一般稱為服務廣告。這類廣告都擁有明確的信息,使用簡潔明了的文字、圖片傳達最核心的內(nèi)容,為人們提供服務性信息,讓讀者能夠按照自己的需求尋找并得到幫助。
公關(guān)廣告主要是企業(yè)或組織單位進行知名度提高的廣告類型,一般這類廣告是免費的。其側(cè)重點在于公關(guān),通過各種方式在企業(yè)、單位與大眾之間建立關(guān)系,將品牌文化轉(zhuǎn)化為公眾共識。例如摩拜單車,通過創(chuàng)始人不斷出鏡反復強調(diào)創(chuàng)業(yè)理念,培養(yǎng)公眾對產(chǎn)品的好感,這就是公關(guān)廣告的一個鮮明案例。用公關(guān)塑造品牌,用廣告?zhèn)鞑テ放?,公關(guān)與廣告相輔相成,最終達到企業(yè)產(chǎn)品廣為人知的目的。
系統(tǒng)主要投放的廣告類型是需要企業(yè)經(jīng)營者承擔一定的費用,通過電視、互聯(lián)網(wǎng)等媒介進行介紹的商業(yè)廣告。
想要詳盡、直觀地描述產(chǎn)品,面對面推銷無疑是最好的辦法。但是由于人口基數(shù)過大,面對面推銷所需要的人力和物力過于龐大,使得這樣的方式讓企業(yè)力不從心,因此商業(yè)廣告這樣的宣傳形式誕生了。商業(yè)廣告也就是產(chǎn)品廣告,主要是通過介紹產(chǎn)品的品牌、用途、價格、特點等基本要素,加上獨到的廣告詞來吸引消費者進行購買,從而使企業(yè)獲得經(jīng)濟收益。
本系統(tǒng)通過接口將描繪的用戶畫像傳送到企業(yè)前端,企業(yè)可以根據(jù)該用戶的品牌偏向、消費能力以及行為數(shù)據(jù)等信息,選擇適合他的廣告進行投放。比如,某一用戶多次搜索按摩儀,系統(tǒng)將此信息寫成畫像送到前端,企業(yè)獲取這一信息,便可以在其設備上投放本公司的產(chǎn)品廣告。
廣告主根據(jù)廣告形式的不同會選擇不同的計費模式。廣告計費模式主要包括CPT,CPM,CPC(Cost Per Click,按點擊計費),CPV(Cost Per View,按觀看次數(shù)計費),CPS(Cost Per Sales,按照銷售量計費),CPA(Cost Per Action,按行為計費),oCPM(Optimized Cost per Mille,優(yōu)化的千次展示出價)等[3]。企業(yè)在獲取本系統(tǒng)描繪的用戶畫像之后,可以根據(jù)自身需要選擇合適的計費模式。如,只有個別用戶對于香水比較感興趣,那么企業(yè)便可以選擇按點擊計費的模式;或者有很大一部分用戶對于電子產(chǎn)品類型感興趣,那么企業(yè)便可以選擇千次展示計費模式。
廣告作為廣泛推銷商品的方式已經(jīng)深入每個人的生活,但是投放廣告的代價也是巨大的。本文通過闡述廣告類型以及廣告計費方式,表達使用本系統(tǒng)不僅可以提高產(chǎn)品的購買率,還大大降低了企業(yè)投放廣告的成本。比起傳統(tǒng)模式下的廣告投放,本系統(tǒng)可以在很大程度上考慮目標用戶之間的差異性,并為用戶提供更具個性化的服務。
在基于用戶畫像廣告精準投放系統(tǒng)構(gòu)建中,本系統(tǒng)是采用分布式服務架構(gòu),基于虛擬機來進行創(chuàng)建的,可以處理較為復雜的大規(guī)模數(shù)據(jù)。采用分布式服務架構(gòu)的原因是為了確保系統(tǒng)能夠較快地讀取用戶信息然后進行緩存,并在系統(tǒng)運行的過程中,將不穩(wěn)定因素降到最低。
創(chuàng)建過程中將系統(tǒng)主體細分為4個部分:第一部分是使用Flume與Kafka等技術(shù)采集來自用戶行為、日志的數(shù)據(jù);第二部分是將所收集到的數(shù)據(jù)存儲進Hadoop文件系統(tǒng)和HBase、MongoDB等數(shù)據(jù)庫中;第三部分是利用Flink等算法分析所得數(shù)據(jù)并得到標簽化用戶畫像;最后一部分是將最后的畫像通過動態(tài)接口展示在頁面上(見圖3)。
圖3 用戶畫像分析流程
構(gòu)建用戶畫像系統(tǒng),首先要進行數(shù)據(jù)收集與統(tǒng)計。從用戶行為、日志所獲取的數(shù)據(jù)越多越完善,用戶畫像就會越精準,從而提高廣告投放的準確性。本系統(tǒng)使用Flume,Kafka等相關(guān)組件進行數(shù)據(jù)的采集并進行簡單處理。首先是由Flume系統(tǒng)中Source組件與數(shù)據(jù)源進行對接,當用戶產(chǎn)生新的行為數(shù)據(jù)或數(shù)據(jù)發(fā)生改變時,F(xiàn)lume會連接接口并通過Channel組件傳送到下沉組件Sink中,再將數(shù)據(jù)傳送到Kafka,Kafka會將獲得的數(shù)據(jù)進行清洗然后復制以防止數(shù)據(jù)丟失。在此過程中,有多級agent共同工作,以便同時處理大量數(shù)據(jù)。
本系統(tǒng)所傳輸?shù)臄?shù)據(jù)一般分為靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)是指用戶的注冊信息(姓名、性別、年齡、籍貫、省份等)、商品信息(價格、產(chǎn)地、生產(chǎn)日期等)、商家信息(地址、名稱、負責人等)。但是靜態(tài)信息有些是不準確的,因此為了保證數(shù)據(jù)的精準,需要在采集過程中進行簡單的處理,進一步糾正。動態(tài)信息主要指用戶的行為動作,比如注冊、瀏覽、點擊、購買、評價等。對于本系統(tǒng)所需要的畫像,比較重要的數(shù)據(jù)有瀏覽商品、收藏商品、加入購物車、最大消費、訂單數(shù)量等信息。
當信息采集完成后,會由Sink組件將數(shù)據(jù)下沉到HDFS中進行備份,這是為了防止運行過程中數(shù)據(jù)發(fā)生丟失或錯誤,因為agent會同樣將數(shù)據(jù)傳到HBase和MongoDB數(shù)據(jù)庫中。
對于數(shù)據(jù)庫,本系統(tǒng)主要使用了Hadoop的高擴展性、高效性以及高容錯性。Hadoop開源平臺主要由分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)和MapReduce編程框架組成。HDFS是一種分布式的文件系統(tǒng),主要的工作就是以分布式的形式存儲大規(guī)模的海量數(shù)據(jù)。HDFS中包含兩類節(jié)點,分別稱之為名稱節(jié)點(NameNode)和數(shù)據(jù)節(jié)點(DataNode)。其中,NameNode主要負責分布式文件系統(tǒng)的命名空間,在其中保存了兩個核心的數(shù)據(jù)結(jié)構(gòu),即FsImage和EditLog。DataNode則是HDFS的工作節(jié)點,主要負責數(shù)據(jù)的存儲和讀取,它會根據(jù)客戶端或NameNode的調(diào)度來進行數(shù)據(jù)的存儲和檢索,并向NameNode定期發(fā)送自己所存儲的塊的列表。通常存儲在HDFS中的數(shù)據(jù)會被分割為相互獨立的數(shù)據(jù)塊,然后交給Map對其進行并行處理,而Map的輸出接著會變成Reduce的輸入,接著執(zhí)行Reduce計算得到最終結(jié)果,并存入HDFS[4]。作為介于關(guān)系數(shù)據(jù)庫與非關(guān)系數(shù)據(jù)庫之間的MongoDB會把所獲得的數(shù)據(jù)文件映射到內(nèi)存中,進行提高性能的操作。
在數(shù)據(jù)分析階段,主要使用了K-means,TF-IDF等算法。當系統(tǒng)完成數(shù)據(jù)采集之后,系統(tǒng)會獲得由Kafka下沉的數(shù)據(jù)。緊接著會使用K-means的算法,將數(shù)據(jù)分成若干個聚類,并設置一個質(zhì)點。然后將相關(guān)聯(lián)的數(shù)據(jù)劃分到質(zhì)點范圍內(nèi),將質(zhì)點移動到聚類觀測點的中心,不斷重復這些步驟。同時,系統(tǒng)在某些情況下也使用TF-IDF進行數(shù)據(jù)處理。通過TF-IDF技術(shù),系統(tǒng)會根據(jù)詞頻來尋找區(qū)分能力較強的詞條作為年度關(guān)鍵詞。比如某一用戶經(jīng)常瀏覽品牌服飾,但是其他用戶很少瀏覽,那么對于該用戶來說,品牌服飾就是他畫像中區(qū)別能力較強的年度關(guān)鍵詞。如果在分析過程中,數(shù)據(jù)發(fā)生了錯誤或丟失,那么系統(tǒng)可以調(diào)用數(shù)據(jù)庫中的備份數(shù)據(jù)。
為了能夠使企業(yè)更精準地投放廣告,提高廣告的命中率,本系統(tǒng)在分析用戶畫像階段做出了創(chuàng)新。系統(tǒng)會對企業(yè)產(chǎn)品標注特定顏色并與Kafka簡單處理后的數(shù)據(jù)一同進行分析處理。系統(tǒng)會通過K-means算法,將與產(chǎn)品存在關(guān)聯(lián)度的用戶數(shù)據(jù)打上標簽并使用色階標注。例如,某一用戶與某一產(chǎn)品關(guān)聯(lián)度很高,那么他的標簽顏色就會越接近,隨著關(guān)聯(lián)度的降低,顏色也會逐步演變成反差色。因此,在數(shù)據(jù)呈現(xiàn)階段,如果某一用戶的標簽顏色與產(chǎn)品顏色很接近,那么企業(yè)便可以在其設備上投放廣告。如果另一個用戶的標簽顏色與產(chǎn)品顏色呈反差色,那么企業(yè)便可以不對其投放廣告。
通過以上兩種方法,系統(tǒng)能夠較為完善地將用戶數(shù)據(jù)標簽化,緊接著系統(tǒng)會將數(shù)據(jù)再次傳入數(shù)據(jù)庫中。
在數(shù)據(jù)呈現(xiàn)階段,系統(tǒng)會通過Spring Boot與Spring Cloud創(chuàng)建的分布式查詢接口與前端查詢接口從數(shù)據(jù)庫獲得畫像并傳送到前端頁面上。前端頁面,本系統(tǒng)使用了Vue.js與node.js技術(shù),因為Vue.js是較為簡潔的以數(shù)據(jù)驅(qū)動和組件化的前端框架;并且系統(tǒng)還使用highcharts在前端構(gòu)建圖表,目的是為了使用戶畫像更加的簡潔明了。
在此階段,企業(yè)能夠明確地了解用戶不同的畫像,以及對于產(chǎn)品的契合度,根據(jù)信息來決定廣告投放的次數(shù)、人員以及平臺等,從而減少企業(yè)在廣告投放過程中的成本消耗。
在國家政策法規(guī)的支持和引導下,網(wǎng)絡廣告精準投放正蓬勃發(fā)展。用戶畫像利用大數(shù)據(jù)技術(shù)將客戶的特征進行了數(shù)據(jù)化的描述,并在互聯(lián)網(wǎng)上進行整合,以用戶數(shù)據(jù)為基礎(chǔ),借助其可視化、標簽化、信息化的特性對目標消費用戶的動機行為進行歸納。用戶畫像策略選擇和特征維度選擇建模對新媒體廣告投放有著重要的意義,而如何更高效率收集歸納并利用這些用戶畫像便成為關(guān)注的焦點。
目前,部分大公司才有一些開發(fā)體系和技術(shù)資源,但由于系統(tǒng)數(shù)據(jù)不完善、客戶留存率低、業(yè)務局限、成本較高等原因,同時中小型公司沒有條件開發(fā),市場還存在著很大的空缺。如果今后大多數(shù)企業(yè)能夠運用用戶畫像技術(shù),并實行相應的廣告投放服務,再通過消費者的反饋進行改進,那么企業(yè)的營銷會更加精準化,產(chǎn)品命中率也會提高。