張 春 劉 超 劉旭東 陳志豪 江 勇 張 輝 周 輝 胡建村
(1.中移信息技術(shù)有限公司,黑龍江 哈爾濱 150000;2.哈爾濱工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,黑龍江 哈爾濱 150000)
商圈,即商業(yè)區(qū)域,是指商店以其所在地點(diǎn)為中心,沿著一定的方向和距離擴(kuò)展,吸引顧客的輻射范圍[1]。本文所研究的商圈更具體為商場及其鄰近街區(qū)內(nèi)的消費(fèi)場所。商圈是各類線下商業(yè)活動集中活躍區(qū)域,但越來越多的消費(fèi)者選擇線上消費(fèi),商圈的客流日趨減少。截至2020年6月我國手機(jī)網(wǎng)民規(guī)模達(dá)到9.32億,網(wǎng)民使用手機(jī)上網(wǎng)比例高達(dá)99.2%,網(wǎng)絡(luò)購物消費(fèi)者規(guī)模達(dá)到7.49億[2]。傳統(tǒng)的發(fā)傳單及無差別短信推送的營銷方式,無法掌握消費(fèi)者信息,營銷效率低下。如何掌握更多的消費(fèi)者信息,識別商圈的忠誠消費(fèi)者及潛在消費(fèi)者,是線下商圈與線上購物平臺爭奪客流面臨的關(guān)鍵問題。解決該問題,將有助于線下商圈的持續(xù)發(fā)展。
在大數(shù)據(jù)背景下,一種解決該問題的方式是通過自動數(shù)據(jù)收集和智能數(shù)據(jù)提取獲取更多的消費(fèi)者信息,創(chuàng)建消費(fèi)者畫像并標(biāo)記出不同消費(fèi)者的需求,為市場營銷提供決策依據(jù),獲取商業(yè)的成功[3]。消費(fèi)者畫像,是針對消費(fèi)者信息內(nèi)容的整合,即信息的標(biāo)簽化,是通過分析消費(fèi)者的社會屬性、生活習(xí)慣以及消費(fèi)行為特點(diǎn)等信息而抽象出的一種標(biāo)簽化的消費(fèi)者模型[4]。利用大數(shù)據(jù)構(gòu)建消費(fèi)者畫像進(jìn)行消費(fèi)者分析成為了營銷的新手段[5],在民用航空的競爭[6]、供應(yīng)鏈銷售[7]、新產(chǎn)品的推廣[8]、汽車的銷售[9]等多領(lǐng)域中都進(jìn)行了應(yīng)用,取得了顯著成效。但既有研究沒有關(guān)注到線下商圈的營銷,也沒有為其設(shè)計構(gòu)造消費(fèi)者畫像挖掘潛在消費(fèi)者。
針對以上問題,本文研究聯(lián)合中移信息技術(shù)有限公司,圍繞哈爾濱市主城區(qū)內(nèi)152個商圈及覆蓋的基站,利用信令數(shù)據(jù)搜集2020年1月1日至2020年1月21日到訪的400萬消費(fèi)者的信息。消費(fèi)者信息經(jīng)過匿名、清洗后,根據(jù)數(shù)據(jù)的特征建立了客戶畫像、社交關(guān)系畫像、消費(fèi)偏好畫像的多維度畫像體系。畫像以消費(fèi)者忠誠度指標(biāo)為核心,劃分了忠誠消費(fèi)者和非忠誠消費(fèi)者。本文利用邏輯回歸對各個商圈忠誠消費(fèi)者進(jìn)行回歸分析,構(gòu)建不同商圈的核心客戶簇特征,再結(jié)合隨機(jī)森林方法,對各個商圈的非忠誠消費(fèi)者進(jìn)行分類及預(yù)測,識別潛在的消費(fèi)者。經(jīng)過結(jié)算與檢驗,本文建立的消費(fèi)者畫像與潛在消費(fèi)者挖掘方法的識別準(zhǔn)確度較高,能用于實(shí)際的營銷活動中。
近年來,圍繞“大數(shù)據(jù)”,或利用新的數(shù)據(jù)源,或利用大數(shù)據(jù)處理分析技術(shù),解決傳統(tǒng)領(lǐng)域難以解決的問題的研究方興未艾。如利用消費(fèi)者的網(wǎng)頁點(diǎn)擊數(shù)據(jù),根據(jù)矩陣計算分析競爭對手在美國航空市場中的表現(xiàn)[6];利用消費(fèi)者在線評論,通過自然語言處理技術(shù)幫助企業(yè)測試新產(chǎn)品[8];利用微博等社交平臺的用戶數(shù)據(jù),通過構(gòu)建消費(fèi)者畫像,為汽車企業(yè)捕捉潛在消費(fèi)者[9]等等,不一而足。注意到,這些“新數(shù)據(jù)源”都是與互聯(lián)網(wǎng)相關(guān)的數(shù)據(jù),但由于互聯(lián)網(wǎng)自身局限與匿名化特征,搜集而來的數(shù)據(jù)維度不夠廣,真實(shí)程度存疑[10]。
當(dāng)前有一種特殊的數(shù)據(jù)源,是由通信運(yùn)營商提供的匿名化的消費(fèi)者信令數(shù)據(jù),以及與之相關(guān)的話單數(shù)據(jù)、客戶資料等。信令數(shù)據(jù)是通信運(yùn)營商用戶與發(fā)射基站之間的數(shù)據(jù),包含了用戶當(dāng)前的經(jīng)緯數(shù)據(jù)、用戶通信數(shù)據(jù)等。由于我國實(shí)行手機(jī)卡實(shí)名制且手機(jī)使用者數(shù)量龐大,其所產(chǎn)生的信令數(shù)據(jù)是當(dāng)前包含用戶數(shù)據(jù)規(guī)模最大、維度最廣的數(shù)據(jù)源。既有研究中,利用信令數(shù)據(jù)識別用戶的軌跡,幫助城市進(jìn)行道路交通規(guī)劃[11],識別不同興趣點(diǎn)的消費(fèi)者在畫像特征上有明顯差異[12],都取得了顯著的成果。但限于數(shù)據(jù)的敏感性,利用該數(shù)據(jù)源進(jìn)行的研究較少。
消費(fèi)者畫像,或稱用戶畫像,是標(biāo)簽化的模型[13]。當(dāng)前結(jié)合大數(shù)據(jù),利用消費(fèi)者畫像進(jìn)行目標(biāo)客戶挖掘的常用的算法有分類算法[14]、聚類算法[15]、因子模型[16]等。不同的算法具有不同的特點(diǎn),需結(jié)合數(shù)據(jù)集特征進(jìn)行選擇[17]。需要特別注意的是,基于消費(fèi)者畫像的潛在/目標(biāo)消費(fèi)者識別,都是根據(jù)消費(fèi)者畫像特征的相似程度進(jìn)行識別[18]。
綜上,圍繞著大數(shù)據(jù)的精準(zhǔn)營銷應(yīng)用,既有的研究重點(diǎn)在于新的、規(guī)模大的數(shù)據(jù)源的利用。鮮有利用通信運(yùn)營商的數(shù)據(jù)進(jìn)行精準(zhǔn)營銷的研究,也鮮有圍繞商圈的消費(fèi)者畫像識別的研究。既有的研究關(guān)于利用消費(fèi)者畫像識別潛在消費(fèi)者的原理一致,但使用何種方法更好,因研究場景而異。
本研究基于通訊運(yùn)營商提供的涉及訪商圈消費(fèi)者的數(shù)據(jù)集建立消費(fèi)者畫像。具體地,基于信令數(shù)據(jù)進(jìn)行忠誠度計算,建立客戶畫像;基于話單數(shù)據(jù)進(jìn)行社交親密度計算,建立社交關(guān)系畫像;基于APP 使用數(shù)據(jù)進(jìn)行消費(fèi)傾向計算,建立消費(fèi)偏好畫像。再基于三種畫像構(gòu)建的多維畫像體系,依據(jù)忠誠度將商圈的消費(fèi)者劃分為忠誠消費(fèi)者、非忠誠消費(fèi)者。進(jìn)行隨機(jī)采樣后,進(jìn)行邏輯回歸計算得到各個商圈的核心消費(fèi)者特征。再根據(jù)特征建立隨機(jī)森林,將全部的非忠誠消費(fèi)者進(jìn)行分類,將作為正例輸出的消費(fèi)者識別為潛在消費(fèi)者。
客戶畫像用于反應(yīng)客戶對商場的關(guān)注度、忠誠度。本文設(shè)計核心客戶忠誠度指標(biāo),在運(yùn)營商數(shù)據(jù)基礎(chǔ)上描述某商場核心消費(fèi)者的質(zhì)量,從而提高以核心消費(fèi)者為基礎(chǔ)的潛在消費(fèi)者識別的準(zhǔn)確度。本文提出了忠誠度計算及迭代方法,以同時考慮消費(fèi)者對商場訪問程度相對核心消費(fèi)者群整體的水平和消費(fèi)者對商場的歷史訪問情況。
消費(fèi)者的周訪問總時長為t,周訪問次數(shù)為n,則每周訪問平均時長λ可以表示為:
顯然λ≥0,為了根據(jù)數(shù)據(jù)分布得到更合理的估計,對λ作如下對數(shù)變換得到周訪問度λln:
對所有消費(fèi)者計算周訪問度λln,計算得到λln的均值μλ和標(biāo)準(zhǔn)差σλ,則消費(fèi)者x的周訪問時長得分scoret,x和周訪問次數(shù)得分scoren,x的計算公式如下:
這里需要說明的是scoren,x的取值原則是考慮消費(fèi)者一周內(nèi)1次長時間訪問近似等效于3次短時間訪問對忠誠度產(chǎn)生的影響。本周忠誠度得分Lx與上周忠誠度得分之間的迭代計算關(guān)系為:
綜上,客戶畫像構(gòu)成如表1所示。
表1 客戶畫像屬性表
社交關(guān)系的親密程度高的兩消費(fèi)者更可能有著相似的生活水平和消費(fèi)習(xí)慣。本文定義社交親密度屬性衡量消費(fèi)者間的社交親密程度,社交親密度指特定雙方消費(fèi)者之間的親密程度,以多種通話記錄屬性作為衡量基礎(chǔ)。由于主要屬性如通話時長、通話次數(shù)與消費(fèi)者職業(yè)、所處社會環(huán)境有較大關(guān)聯(lián),不適合給定同一標(biāo)準(zhǔn),故使用局部排名作為衡量依據(jù)。此處先介紹單向?qū)傩缘挠嬎?,即以雙方消費(fèi)者中的一方作為研究對象,研究其主叫時長、主要次數(shù)等影響。
下文以消費(fèi)者A與消費(fèi)者B為例,以消費(fèi)者A為研究對象介紹算法。對于主叫時長屬性,定義平均主叫時長降序排名rankduravg,即消費(fèi)者A 主叫消費(fèi)者B 的通話平均時長在消費(fèi)者A 的所有主叫通話平均時長中的排名??紤]到A 和B可能因為工作關(guān)系有較長的通話時間,為了降低此類影響,綜合考慮通話的閑忙時段,參與排名計算的矯正通話時長calling'與原始通話時長calling之間的關(guān)系如下:
其中,busy為忙時通話時長,called為被叫時長,即消費(fèi)者B主叫消費(fèi)者A的通話時長。對于主叫次數(shù)屬性,定義主叫次數(shù)降序排名rankcnt,即消費(fèi)者A主叫消費(fèi)者B的通話次數(shù)在消費(fèi)者A的所有主叫通話次數(shù)中的排名。
此外,考慮到社交關(guān)系較近即社交親密度較高的消費(fèi)者間應(yīng)該有較高的通話頻率。定義通話密度排名rankdense,實(shí)現(xiàn)為對一個月內(nèi)A到B的通話記錄,在A的對端通話中先根據(jù)通話天數(shù)降序排序,再根據(jù)通話最長間隔天數(shù)升序排名的最終排名。為避免其中某一屬性因特殊情況有較大偏差影響整體排名,做調(diào)和平均處理,獲得消費(fèi)者B 在消費(fèi)者A 視角下的單向排名rankcalling,其計算公式如下:
同理可獲得消費(fèi)者A 在消費(fèi)者B 視角下的單向排名rankcalled。則消費(fèi)者A與消費(fèi)者B的親密度intsocial定義為:
由上述公式可知,intsocial取值越大,消費(fèi)者間親密度越強(qiáng)。由于排名均為大于1 的正數(shù),故親密度intsocial的取值范圍為(0,1],當(dāng)且僅當(dāng)雙方均在對方的社交圈中取得最高排名時親密度達(dá)到最大值。
社交關(guān)系畫像單方畫像描繪社交網(wǎng)絡(luò)中消費(fèi)者個人的顯著性與影響力,除上述社交影響力外,還應(yīng)考慮:1)消費(fèi)者的通話強(qiáng)度得分,即通話時長對數(shù)化后相對對數(shù)分布均值偏移量scorecall,time;2)消費(fèi)者的通話頻率得分,即通話次數(shù)對數(shù)化后相對對數(shù)分布均值偏移量scorecall,stren。這兩種指標(biāo)的通用計算方式如下:
上述公式為通用公式,metriccall指消費(fèi)者通話的衡量指標(biāo),具體為通話時長或通話頻率,metriclncall為對數(shù)化通話指標(biāo),μlncall與σlncall分別為metriclncall分布的均值與標(biāo)準(zhǔn)差,則scorecall即為最終得分。
綜上,建立的社會關(guān)系畫像如表2所示。
表2 社交關(guān)系畫像屬性表
消費(fèi)偏好畫像反映消費(fèi)者的線上購物APP 使用行為和線下商場訪問行為的特征,消費(fèi)偏好畫像的數(shù)據(jù)周期為7天。
圖1 消費(fèi)者畫像構(gòu)建與潛在消費(fèi)者挖掘方法流程框架
3.4.1 線上消費(fèi)偏好
線上消費(fèi)偏好識別專注于分析消費(fèi)者的消費(fèi)類APP 使用狀態(tài)變化,除常規(guī)消費(fèi)頻次、強(qiáng)度統(tǒng)計外,還關(guān)注近期消費(fèi)類APP使用情況的變化量,作為衡量消費(fèi)者短期線上消費(fèi)意圖的重要因素。
線上購物情況主要考慮某消費(fèi)者使用購物類APP 的強(qiáng)度相對目標(biāo)消費(fèi)者整體使用情況的水平,以及消費(fèi)者近期購物APP使用強(qiáng)度的變化程度。
本文分析先對消費(fèi)者對于不同購物類APP 的使用情況在全體消費(fèi)者下的水平進(jìn)行評估,得到scoreapp評分,以避免結(jié)果向單一大流量APP 偏斜。考慮到不同消費(fèi)者有一定的APP 使用偏好,故對不同購物類APP 的使用水平,即所有的取scoreapp評分最大值作為該消費(fèi)者的購物類APP 使用強(qiáng)度scoreshopping。相關(guān)計算公式如下:
其中,flowapp表示消費(fèi)者使用某一APP產(chǎn)生的流量,uapp和σapp為的flowlnapp分布均值和標(biāo)準(zhǔn)差。
通過上述公式變換,消費(fèi)者對某一APP 未產(chǎn)生使用流量,則使用強(qiáng)度評分為0;若產(chǎn)生流量,則使用強(qiáng)度評分區(qū)間為[1,5]。此外,設(shè)計近期線上購物傾向?qū)傩?,描述消費(fèi)者近期購物類APP 使用情況的變化量。定義近期線上購物傾向△scoreshopping為本周與上周的購物類APP 使用強(qiáng)度差值,計算公式如下:
由于△scoreshopping與消費(fèi)者APP 使用流flowapp之間存在對數(shù)關(guān)系,故△scoreshopping的實(shí)際意義為本周與上周購物類APP的流量使用增長率。
3.4.2 線下消費(fèi)偏好
線下購物意圖分析模型專注于分析消費(fèi)者訪問商場的狀態(tài)及其變化,除在客戶畫像中獲得的常規(guī)消費(fèi)頻次、強(qiáng)度統(tǒng)計外,關(guān)注近期訪問商場時長變化量incrvisit,time、強(qiáng)度變化量incrvisit,stren,作為衡量消費(fèi)者短期線下消費(fèi)意圖的重要因素。
定義近期線下消費(fèi)傾向?qū)傩裕≈禐榫€下商場訪問時長變化率。定義近期線下活躍傾向?qū)傩裕≈禐檩^前一周的目標(biāo)消費(fèi)者活躍度變化率。其統(tǒng)一計算公式如下:
其中,visit為本周線下消費(fèi)傾向?qū)傩曰蚓€下活躍傾向?qū)傩浴R詖isit為本周線下消費(fèi)傾向?qū)傩詾槔?,visit'表示上周線下消費(fèi)傾向?qū)傩裕瑒tincrvisit即為線下商場訪問時長變化率。綜上,建立的消費(fèi)偏好畫像如表3所示。
表3 消費(fèi)偏好畫像屬性表
3.5.1 Logistics Regression
根據(jù)已經(jīng)得到多維消費(fèi)者畫像,也即每個樣本的特征,一個直觀的想法是計算出各個商圈的忠誠客戶的在不同特征上的范圍或系數(shù),作為區(qū)分商圈與識別忠誠消費(fèi)者的依據(jù)?;谶@種想法,考慮使用線性分類機(jī)器學(xué)習(xí)算法,基于Spark 平臺的候選算法有Logistics Regression(邏輯回歸)及SVM 模型。本文使用邏輯回歸,根據(jù)構(gòu)建的忠誠消費(fèi)者簇特征,對各個商圈的消費(fèi)者進(jìn)行劃分。
3.5.2 Random Forest
Random Forest即隨機(jī)森林算法,是一種由若干決策樹通過bagging 方式構(gòu)成的繼承算法,在很多應(yīng)用中都有不錯的表現(xiàn)。隨機(jī)森林具有過擬合風(fēng)險低、支持并行、支持高緯度特征、訓(xùn)練速度快等特點(diǎn)。本文使用隨機(jī)森林,根據(jù)各個商圈的邏輯回歸結(jié)果,對各個商圈的非忠誠消費(fèi)者進(jìn)行分類及預(yù)測,識別出潛在消費(fèi)者。
本研究與中國移動通信集團(tuán)合作,以哈爾濱市區(qū)為核心,自2020年1月1日至2020年1月21日,搜集了152個大型商場輻射的400萬的消費(fèi)者的信令數(shù)據(jù)、話單數(shù)據(jù)、APP使用數(shù)據(jù),如圖2所示。數(shù)據(jù)包括脫敏的消費(fèi)者個人特征及消費(fèi)者的移動數(shù)據(jù)與上網(wǎng)數(shù)據(jù),具體包括消費(fèi)者的年齡、消費(fèi)者各個時段的經(jīng)緯度及各個時段的通信與流量去向。
圖2 信令數(shù)據(jù)覆蓋的商圈
由于本研究的目的包括評價消費(fèi)者社交影響力等,對消費(fèi)者通話記錄較為敏感,故需要過濾特殊職業(yè)如外賣、快遞、客服等產(chǎn)生的高頻通話記錄。
圖3 平均通話時長對數(shù)分布
圖4 一分鐘內(nèi)通話次數(shù)對數(shù)分布
根據(jù)上述分析,在系統(tǒng)實(shí)現(xiàn)時,對于平均通話時長、一分鐘內(nèi)通話次數(shù)使用4σ過濾標(biāo)準(zhǔn)。為了提高識別準(zhǔn)確度,本文進(jìn)一步約束在該距離外的消費(fèi)者樣本同時滿足通話次數(shù)分布在1σ距離外時,才作為離群點(diǎn)過濾。對于其余屬性,使用3σ過濾標(biāo)準(zhǔn),即認(rèn)為該距離外的消費(fèi)者樣本為離群點(diǎn),并過濾。
圖5以購物類APP流量使用為例,統(tǒng)計了所有目標(biāo)消費(fèi)者在2020年1月1日至2020年1月7日的主要購物類APP中所使用的流量隨時間的分布圖。
圖5 購物類APP不同時段流量分布圖
由曲線可以看出,不同APP的流量使用在整體上均呈現(xiàn)晚上至睡前時間段達(dá)到高峰,而在白天尤其是工作時間段水平較低。這說明通過對消費(fèi)者APP 使用的活躍時段可以在一定程度上描繪消費(fèi)者的生活習(xí)慣。而從表4中可以看出,不同的購物類APP的流量使用存在較大差異,在進(jìn)行APP使用強(qiáng)度統(tǒng)計時,需進(jìn)行歸一化處理。
表4 購物類APP人均流量使用統(tǒng)計
男性和女性有著天然的偏好差異,但從圖6中可以明顯看出,對于商圈涉及的消費(fèi)者而言,不同性別的消費(fèi)者的年齡分布極為相似,因此在構(gòu)建商圈的消費(fèi)者畫像時,僅考慮年齡,而不進(jìn)行性別區(qū)分,也是合理的。
圖6 商圈消費(fèi)者性別年齡分布圖
樣本數(shù)據(jù)的忠誠消費(fèi)者類由忠誠度前60%的高質(zhì)量核心客戶組成,實(shí)際忠誠度閾值約為3.0。為了提升訓(xùn)練效率,本研究對總數(shù)據(jù)進(jìn)行了隨機(jī)采樣,最終得到訓(xùn)練樣本數(shù)據(jù)組成如表5所示。
表5 樣本數(shù)據(jù)的組成
本文基于Spark框架spark-mllib模塊實(shí)現(xiàn)分布式模型訓(xùn)練。將訓(xùn)練數(shù)據(jù)隨機(jī)劃分為80%的訓(xùn)練集和20%的測試集。模型的最大迭代次數(shù)為100次,誤差容忍度為1e-6,采用L2 正則化。在采用L2 正則化的情況下,模型效果在較低程度上受正則化系數(shù)影響,經(jīng)測試在正則化系數(shù)為0.5 的情況下達(dá)到局部最優(yōu)效果。模型在測試集上取得的效果評價如表6所示。
表6 Logistic Regression模型評價
圖8和圖9展示了基分類器個數(shù)和最大樹深度對模型效果的影響?;诸惼髂P蛿?shù)量對模型性能影響不明顯,考慮到模型更關(guān)注召回率指標(biāo),故確定模型基分類器數(shù)量參數(shù)為40 個。由于運(yùn)行環(huán)境資源限制,最多測試到最大樹深為14層,為避免深度過大導(dǎo)致過擬合,確定模型最大樹深度參數(shù)為14層。
圖7 基分類器數(shù)量對模型的影響
圖8 最大樹深度對模型的影響
圖9 預(yù)測標(biāo)簽結(jié)果組成
根據(jù)上述結(jié)果,模型最終在測試集上取得了94.1%的精確率,其他評價指標(biāo)得分見表7。
表7 隨機(jī)森林模型評價
本研究最終采用隨機(jī)森林分類預(yù)測算法模型作為識別潛在消費(fèi)者算法。用該模型對全部約113萬不屬于忠誠消費(fèi)者群的消費(fèi)者進(jìn)行預(yù)測,共得到正例64879人作為潛在消費(fèi)者。預(yù)測結(jié)果的標(biāo)簽組成如圖10所示。
圖10 預(yù)測概率分布
注意到隨機(jī)森林分類需要對概率閾值進(jìn)行設(shè)置,默認(rèn)為0.5,則不同閾值下的正例人數(shù)分布如圖11 所示??梢婋S概率的增加區(qū)間內(nèi)人數(shù)加速減少,在以識別潛在消費(fèi)者人數(shù)最大為目標(biāo)時,默認(rèn)概率是最佳的選擇。
圖11 社交關(guān)系對識別結(jié)果的影響
既有研究認(rèn)為社會關(guān)系接近的消費(fèi)者相似度大,進(jìn)而更有可能屬于同一類人群?;诒狙芯繕?gòu)建的方法,社交關(guān)系對識別結(jié)果的影響如圖12所示。結(jié)果顯示,在識別出的潛在消費(fèi)者中僅4%的消費(fèi)者與其他潛在消費(fèi)者有緊密的社交關(guān)系,也即任意一個潛在消費(fèi)者,其關(guān)系緊密的朋友中有一個也為潛在消費(fèi)者的概率低于0.05。社交關(guān)系對潛在消費(fèi)者沒有預(yù)測性。
圖12 到訪記錄對識別結(jié)果的影響
同一商圈,相對于既有的忠誠消費(fèi)者,識別出的潛在消費(fèi)者雖然與既有消費(fèi)者在畫像上具有高相似度,但很有可能由于居住地點(diǎn)與該商圈相距過遠(yuǎn)等客觀因素的約束,因而并不會去該商圈消費(fèi)。根據(jù)識別結(jié)果,統(tǒng)計識別出的商圈潛在消費(fèi)者有無到該商圈的歷史到訪記錄,結(jié)果如圖13所示。約38%的潛在消費(fèi)者,有到訪目標(biāo)商圈的記錄,即接近40%的潛在消費(fèi)者沒有客觀條件約束。這意味著約4成的潛在消費(fèi)者,能轉(zhuǎn)化為忠誠消費(fèi)者。
大數(shù)據(jù)背景下,如何尋找到數(shù)據(jù)源,從新的視角解決傳統(tǒng)場景中的難題是當(dāng)前的研究熱點(diǎn)。其中,利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營銷,被廣泛證實(shí)是可行的。但如何獲取數(shù)據(jù)源,并在處理分析中保證消費(fèi)者的隱私,也是難點(diǎn)之一。本研究嘗試與中國移動通信集團(tuán)合作,獲取匿名處理后的消費(fèi)者信令數(shù)據(jù)、話單數(shù)據(jù)、APP 使用數(shù)據(jù)。通過對商圈到訪消費(fèi)者建立客戶畫像、社交關(guān)系、消費(fèi)傾向的多維畫像體系,幫助商圈識別忠誠消費(fèi)者;并利用邏輯回歸與隨機(jī)森林方法,幫助商圈識別忠誠消費(fèi)者的特征及識別潛在消費(fèi)者。根據(jù)計算結(jié)果,本研究提出的消費(fèi)者畫像構(gòu)建與潛在消費(fèi)者識別方法準(zhǔn)確度較高,潛在消費(fèi)者識別準(zhǔn)確度為94.1%。通過識別結(jié)果的討論發(fā)現(xiàn),基于通話記錄構(gòu)建的社交關(guān)系對識別潛在消費(fèi)者幫助極低,潛在消費(fèi)者之間的社交關(guān)系并不強(qiáng);商圈約有38%的潛在消費(fèi)者有到訪記錄,但超過半數(shù)的潛在消費(fèi)者由于各種原因沒有到訪過該商圈。本研究的意義在于利于大數(shù)據(jù)突破了商圈傳統(tǒng)的營銷手段,能幫助商圈快速且準(zhǔn)確地掌握忠誠消費(fèi)者的畫像特征,并找到一大批潛在的消費(fèi)者,不僅提高了營銷效率,還增加線下商圈面對線上購物平臺的競爭力,同時豐富了利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營銷的研究。
本研究的特點(diǎn)在于使用了與既有研究不相同的數(shù)據(jù)集,并用于新領(lǐng)域;構(gòu)建了多維度的消費(fèi)者畫像,用于精準(zhǔn)營銷。基于本文的研究成果,未來可以對識別效果的影響因素進(jìn)行探索與規(guī)律驗證,并討論不同算法在識別潛在消費(fèi)者的準(zhǔn)確度方面的表現(xiàn),進(jìn)一步提升營銷的準(zhǔn)確度。