周露露,鐘玲,思永坤
(中移在線服務(wù)有限公司云南分公司,云南 昆明 650221)
隨著物質(zhì)生活的不斷豐富,消費者的需求越來越精細(xì)化,以市場為導(dǎo)向的傳統(tǒng)營銷模式難以滿足客戶的個性化需求,這就要求企業(yè)在制定營銷策略時,更精準(zhǔn)地識別各細(xì)分市場的目標(biāo)客戶[1-2]。
隨著公司對直接溝通銷售的重視,需要更精準(zhǔn)、可衡量和高投資回報的營銷溝通,更注重結(jié)果和回報的營銷傳播方法及對直接溝通銷售的投資[3]。美國學(xué)者Jeff Zabin 認(rèn)為如果要影響目標(biāo)客戶的購買決策,就必須依靠精準(zhǔn)營銷[4]。運營商擁有多元、海量的用戶特征和行為信息,通過建立精準(zhǔn)營銷模型,識別目標(biāo)客戶并制定不同的營銷計劃,可以在降低營銷成本的同時提升用戶粘性,從而提高營銷產(chǎn)品的轉(zhuǎn)化率[5]。
面對復(fù)雜多變的市場環(huán)境和客戶需求,移動通信運營商現(xiàn)行的營銷策略難以滿足客戶的實際需求。一方面,任何企業(yè)都是生存在市場環(huán)境中的,在制定營銷策略時必須以市場環(huán)境為依據(jù),宏觀環(huán)境因素包括政策環(huán)境、經(jīng)濟(jì)發(fā)展?fàn)顩r、地理環(huán)境等,同時,企業(yè)內(nèi)部環(huán)境、營銷渠道等微觀環(huán)境也影響著營銷策略的實施。另一方面,在電信市場增速放緩、存量用戶爭奪愈發(fā)激烈的形勢下,如果策略實施不當(dāng),不僅會降低客戶滿意度和品牌信任度,還可能造成客戶流失。本文從維系現(xiàn)有存量客戶角度出發(fā),通過精準(zhǔn)定位目標(biāo)客戶,定制適配產(chǎn)品及營銷服務(wù)策略,在滿足客戶實際需求和消費偏好的同時,發(fā)掘產(chǎn)品的潛在高價值用戶群體[6-7]。
本文根據(jù)呼叫中心客戶的基本信息數(shù)據(jù)(號碼、歸屬地、年齡、在網(wǎng)時長及星級等)和消費行為數(shù)據(jù)(月均消費、流量/語音使用情況及活動辦理等),構(gòu)建精準(zhǔn)營銷模型的核心指標(biāo)體系。在此指標(biāo)體系基礎(chǔ)上,提出基于機(jī)器學(xué)習(xí)的5G 精準(zhǔn)營銷模型。模型構(gòu)建的主要步驟如下:
(1)建立基于客戶的核心指標(biāo)體系,根據(jù)類別識別規(guī)則,將指標(biāo)向量作為非類別屬性,對應(yīng)的標(biāo)簽向量作為類別屬性[8];
(2)確定模型的關(guān)鍵參數(shù)集,使用決策樹、邏輯回歸、支持向量機(jī)機(jī)器學(xué)習(xí)算法構(gòu)建目標(biāo)客戶識別模型,在測試數(shù)據(jù)集上驗證模型效果;
(3)選擇最優(yōu)的模型應(yīng)用于生產(chǎn)運營。
基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營銷模型步驟如圖1 所示。
為構(gòu)建精準(zhǔn)模型,梳理了可能對標(biāo)簽向量有影響的特征指標(biāo)?;诳刹杉臄?shù)據(jù)源,主要包含運營數(shù)據(jù)和過程數(shù)據(jù)。其中,運營數(shù)據(jù)包括BOSS 計費系統(tǒng)、CRM客戶關(guān)系管理系統(tǒng)、賬務(wù)系統(tǒng)的數(shù)據(jù),可細(xì)分為用戶基本信息數(shù)據(jù)、訂購關(guān)系數(shù)據(jù)、營銷數(shù)據(jù)、消費數(shù)據(jù)等;過程數(shù)據(jù)指用戶在業(yè)務(wù)使用過程中產(chǎn)生的數(shù)據(jù),包括用戶上網(wǎng)日志數(shù)據(jù)、語音通話與短信發(fā)送/接收的行為數(shù)據(jù)及終端與網(wǎng)絡(luò)交互的信令數(shù)據(jù)等。
定義次月生效套餐為5G 智享系列套餐的客戶為正類樣本,反之則為負(fù)類樣本,作為模型預(yù)測的類別屬性。除標(biāo)簽列外,選取21 個重點變量作為樣本的特征指標(biāo)體系。每個變量的具體描述如下所示:
(1)USER_ID:用戶編碼;
(2)MSISDN:手機(jī)號碼;
(3)CITY_NAME:所屬地州,包含昆明、曲靖、昭通等16 個地州;
(4)VILLAGE_FLAG:農(nóng)村城市屬性,1 個農(nóng)村、0 個城市、9 個不祥;
(5)CREDIT:客戶星級,包含未評級、準(zhǔn)星、一至五星;
(6)AGE:年齡;
(7)USER_ONLINE_MONTH:在網(wǎng)時長(月);
(8)USE_DURA:終端使用時長(月);
(9)AVG_MON3_APRU:近三月月均用戶收入;
(10)AVG_MON3_MOU:近三月月均使用通話分鐘數(shù);
(11)AVG_MON3_DOU:近三月月均使用流量;
(12)USED_OUT_VOICE:已使用套餐外通話時長(分鐘);
(13)USED_OUT_FLOW:已使用套餐外流量;
(14)AVG_MON3_2G_FLOW:近三個月月均2G 流量;
(15)APP_YX_FLOW_RATE:近三個月游戲類軟件使用流量占比;
(16)APP_SP_FLOW_RATE:近三個月視頻類軟件使用流量占比;
(17)BANDWIDTH_DESC:寬帶帶寬;
(18)TARGET_CUST_MARKER_ID:營銷活動標(biāo)簽;
圖1 基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營銷模型
(19)APP_MOST:當(dāng)月使用流量最高的三個視頻類APP;
(20)PURCHASE_DESC:辦理的營銷活動;
(21)CALLS_NUM:月均來電次數(shù)。
在進(jìn)行模型訓(xùn)練前,需要對數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理的方法與步驟如下:
(1)去除唯一屬性,刪除用戶編碼、手機(jī)號碼字段;
(2)缺失值處理:將空值用數(shù)值0 替代,減少數(shù)據(jù)缺失,提升模型預(yù)測結(jié)果的準(zhǔn)確性;
(3)數(shù)據(jù)映射:將文本屬性標(biāo)簽(如所屬地州)映射為數(shù)字;
(4)數(shù)據(jù)派生:依據(jù)業(yè)務(wù)場景需求,若客戶滿足活動規(guī)則,則將享受套餐折扣優(yōu)惠。根據(jù)用戶的網(wǎng)時長、寬帶帶寬和客戶標(biāo)簽等字段,判斷用戶可享受的折扣。5G 套餐設(shè)計包含了綜合視頻類、移動音樂類和音頻娛樂等權(quán)益,為判斷用戶對權(quán)益的偏好,根據(jù)用戶視頻類APP 的流量消耗以及視頻會員權(quán)益活動辦理情況,構(gòu)造視頻類APP 偏好、會員權(quán)益偏好字段。
派生變量及描述如下所示:
1)DISCOUNT:折扣,“1”表示不打折,“0.8”表示八折,“0.7”表示7 折;
2)VIDEO_PRE:視頻類APP 偏好,如會員權(quán)益包含該APP,該字段為“1”,否則為“0”;
3)MEMBER_PRE:會員權(quán)益偏好,如辦理隨心系權(quán)益,該字段為“1”,否則為“0”。
在設(shè)計決策樹精準(zhǔn)營銷模型時,主要步驟如下:1)首先輸入經(jīng)過預(yù)處理的用戶數(shù)據(jù)集,將樣本數(shù)據(jù)分成訓(xùn)練集和驗證集;2)計算集中訓(xùn)練用戶的年齡、網(wǎng)齡、星級、月均收入及使用流量等24 個指標(biāo)的信息熵、信息增益和增益率等指標(biāo),選定最優(yōu)劃分屬性[9];3)重復(fù)步驟2),層層劃分,直至將樣本劃分為5G 智享套餐目標(biāo)客戶或非5G 智享套餐目標(biāo)客戶[10];4)對決策樹進(jìn)行剪枝,使得模型能盡可能正確地劃分訓(xùn)練數(shù)據(jù)集外的用戶;5)在驗證集上計算模型評價指標(biāo),評估模型性能。
訓(xùn)練數(shù)據(jù)通常會受到錯誤分類樣本的噪聲、訓(xùn)練樣例數(shù)量太少、節(jié)點純度的錯誤度量等因素影響,導(dǎo)致訓(xùn)練模型的過度擬合[11]。決策樹的剪枝主要是為了解決決策樹的過擬合問題,在節(jié)點劃分前后,判斷當(dāng)前節(jié)點的劃分是否能帶來模型泛化性能的提升[12]。
Berkson 最早將邏輯回歸(LR,Logistic Regression)方法應(yīng)用于藥物自催化反應(yīng)過程的研究[13],現(xiàn)已被廣泛應(yīng)用于用戶預(yù)測和尋找影響因變量的因素[14]。
基于邏輯回歸訓(xùn)練精準(zhǔn)營銷模型時,主要步驟如下:1)輸入用戶數(shù)據(jù)集,將地市、星級等定性變量轉(zhuǎn)化成定量變量;2)劃分模型訓(xùn)練數(shù)據(jù)集與驗證集;3)確定回歸的因變量和自變量,訓(xùn)練模型并得到各自變量的回歸系數(shù)以及目標(biāo)客戶的概率輸出;4)使用Sigmoid 函數(shù)將樣本的概率輸出映射到[0,1]范圍內(nèi),選定閾值為0.5,當(dāng)概率大于0.5 時,將其判定為目標(biāo)客戶,反之為非目標(biāo)客戶;5)在驗證集上計算模型評價指標(biāo),評估邏輯回歸模型性能。
支持向量機(jī)(SVM,Support-Vector Network)是一種用于二分類問題的新型學(xué)習(xí)器,其基本思想是將輸入向量非線性地映射到高維特征空間。在該特征空間中構(gòu)造線性超平面,分離訓(xùn)練數(shù)據(jù),并確保學(xué)習(xí)器具有較高的泛化能力[15]。簡而言之,就是找到一個最優(yōu)劃分超平面,使得它能夠盡可能多地將兩類樣本正確分開,同時使分開的兩類數(shù)據(jù)點距離分離面最遠(yuǎn)(最大間隔),如圖2 所示:
圖2 最優(yōu)劃分超平面與最大間隔
基于支持向量機(jī)的精準(zhǔn)營銷模型主要步驟如下:1)首先輸入用戶數(shù)據(jù)集,并劃分訓(xùn)練集和驗證集;2)確定分類變量為二分類,分別是5G 智享套餐目標(biāo)客戶和非5G 智享套餐目標(biāo)客戶,其余變量作為自變量;3)根據(jù)訓(xùn)練集樣本年齡、月均使用流量、視頻偏好等屬性取值與所屬類別之間的關(guān)系,尋找兩類樣本的最優(yōu)劃分超平面,確定法向量w和位移項b[16],形成一個凸二次規(guī)劃問題[17]并求解;4)最終將樣本聚為兩類,分別是5G 智享套餐目標(biāo)客戶和非5G 智享套餐目標(biāo)客戶;5)對驗證集樣本進(jìn)行分類,并計算準(zhǔn)確率等模型評價指標(biāo)。
本文采用了中國移動云南公司的用戶基本屬性和用戶通信行為數(shù)據(jù)進(jìn)行模型研究。數(shù)據(jù)來源于公司Gbase數(shù)據(jù)庫,系統(tǒng)運行環(huán)境主要為CPU:i5 2.80 G;內(nèi)存:8 192 MB;操作系統(tǒng):Window 7 64 位;數(shù)據(jù)庫:Gbase集群管理器(版本:8.5.1.2_build40_2_24)。
由于正類和負(fù)類樣本存在著嚴(yán)重的數(shù)據(jù)不平衡,可能會導(dǎo)致模型訓(xùn)練結(jié)果偏向多數(shù)類樣本,少數(shù)類樣本的正確率較低[18]。為降低數(shù)據(jù)不平衡,提高分類器的性能,保證模型運算效率,本文篩選5 000 條正類樣本和15 000條負(fù)類樣本,共20 000 條樣本作為模型訓(xùn)練的數(shù)據(jù)集。并基于R 語言的集成開發(fā)環(huán)境R Studio,運用rpart、caret、pRoc、e1071 等安裝包進(jìn)行模型訓(xùn)練。
對于機(jī)器學(xué)習(xí)模型,往往存在著泛化能力不足的問題。模型的泛化能力即指模型對于未知數(shù)據(jù)的預(yù)測能力,因此,本文采用交叉驗證的方法來提高模型的泛化能力,基本思想是將數(shù)據(jù)集反復(fù)劃分為多組訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,在訓(xùn)練數(shù)據(jù)集上交叉驗證得到最佳模型參數(shù),使用測試數(shù)據(jù)集衡量最終模型性能。這種基于多組模型訓(xùn)練進(jìn)行調(diào)參的方式,可有效地避免模型對某些樣本的過擬合,提高其泛化性能。
為了避免過度擬合,本文采用k折交叉驗證來構(gòu)建集成分類器。該方法的基本思想是將原始數(shù)據(jù)集劃分成k份相同樣本量的數(shù)據(jù)子集,每次使用其中k-1 份數(shù)據(jù)子集的集合訓(xùn)練模型,余下的1 份數(shù)據(jù)子集用作模型測試集,并計算模型的評價指標(biāo)。重復(fù)k次,得到k組評價指標(biāo),取平均值作為最終評價指標(biāo)[19]。本文進(jìn)行的實驗中,取k=10,10 折交叉驗證的示意圖如圖3 所示:
圖3 10折交叉驗證的示意圖
本文主要采用的性能度量指標(biāo)包括準(zhǔn)確率、一類錯誤率、二類錯誤率和AUC 值,對模型效果進(jìn)行評估。在介紹各度量指標(biāo)之前,以二分類為例,構(gòu)造混淆矩陣如下所示:
(1)預(yù)測值:正類;真實值:正類,則為真正類(TP);
(2)預(yù)測值:正類;真實值:負(fù)類,則為假正類(FP);
(3)預(yù)測值:負(fù)類;真實值:正類,則為假負(fù)類(FN);
(4)預(yù)測值:負(fù)類;真實值:負(fù)類,則為真負(fù)類(TN)。
在機(jī)器學(xué)習(xí)領(lǐng)域,最常用的度量模型預(yù)測能力的指標(biāo)是準(zhǔn)確率。對于二分類問題,將準(zhǔn)確率定義為模型分類結(jié)果中真正類和真負(fù)類占總樣本的比例,簡而言之,就是模型分類正確的比例。準(zhǔn)確率的計算公式為:
對于二分類問題,正類和負(fù)類樣本錯誤分類的代價差異較大。本文的正類樣本是5G 智享套餐的目標(biāo)客戶,對其錯誤分類會直接導(dǎo)致?lián)p失其更改套餐的可能性。若對非目標(biāo)客戶錯誤分類為目標(biāo)客戶,僅可能損失部分營銷成本。因此本文還將分別采用兩類樣本的分類錯誤率對模型性能進(jìn)行評價,兩類錯誤率的計算公式如下:
在數(shù)據(jù)存在嚴(yán)重的不平衡時,準(zhǔn)確率或錯誤率等指標(biāo)對分類器性能的評估會過于樂觀[20],此外,通過分類精度進(jìn)行的評估還假設(shè)兩類樣本錯誤分類的成本是相同的[21]。但在目標(biāo)客戶識別場景,將非目標(biāo)客戶識別為目標(biāo)客戶,與將目標(biāo)客戶識別為非目標(biāo)客戶的代價是不同的。為此,本文引入了受試者工作特征(ROC,Receiver Operating Characteristic)曲線,這是醫(yī)學(xué)診斷中信號檢測理論的經(jīng)典方法,現(xiàn)已廣泛應(yīng)用于機(jī)器學(xué)習(xí)分類器的模型效果評價[22]。在進(jìn)行分類器性能比較時,僅僅通過觀察ROC 曲線還不夠直觀,可通過比較ROC 曲線下的面積(AUC,Area Under the Curve)的值,判斷分類器性能高低[23]。
本文基于R 語言編程工具,采用10 折交叉驗證法,設(shè)計并實現(xiàn)了三組模型。首先是決策樹模型,模型的輸入為用戶的24 個屬性,輸出為是否為5G 智享套餐目標(biāo)客戶。按照10 折交叉驗證的方法劃分訓(xùn)練集和驗證集,18 000 位用戶為訓(xùn)練集,2 000 位用戶為驗證集,鑒于實驗設(shè)計過程,取10 次實驗結(jié)果的算術(shù)平均值為最終結(jié)果,經(jīng)節(jié)點劃分和屬性歸類,生成的決策樹如圖4 所示。
圖4 決策樹結(jié)果圖
其次是邏輯回歸模型,模型的目的是尋找目標(biāo)變量(是否為5G 智享套餐目標(biāo)客戶)與多個自變量(所屬地州、星級、月均使用通話分鐘數(shù)等)之間的線性關(guān)系。根據(jù)實驗設(shè)計方法,按9:1 比例劃分訓(xùn)練集和驗證集,進(jìn)行10 次實驗。通過尋找回歸參數(shù),預(yù)測自變量在不同的取值下,是5G 智享套餐目標(biāo)客戶的概率。確定閾值為0.5,將模型概率輸出轉(zhuǎn)換為二分類輸出,計算模型評價指標(biāo)并計算算術(shù)平均值。
對于支持向量機(jī)分類模型,將樣本的24 個屬性作為特征空間,是否為5G 智享套餐目標(biāo)套餐作為待分類屬性。每次取18 000 條樣本作為尋找劃分超平面的訓(xùn)練集,根據(jù)樣本自變量取值的空間分布,尋找最優(yōu)劃分超平面對樣本進(jìn)行區(qū)分。進(jìn)行10 次實驗,獲得10 組指標(biāo)值,計算其算術(shù)平均值為最終結(jié)果。以其中兩個屬性為例,訓(xùn)練的支持向量機(jī)如圖5 所示:
圖5 支持向量機(jī)結(jié)果圖
為評估模型性能,計算每組模型準(zhǔn)確率、錯誤率、AUC值作為模型評價指標(biāo),并對三組實驗結(jié)果進(jìn)行對比分析,選擇最優(yōu)的模型進(jìn)行應(yīng)用。模型評價指標(biāo)的對比如表1 所示:
表1 模型評價指標(biāo)對比
從總體的分類準(zhǔn)確率來看,決策樹同其他模型相比是最高的。對于目標(biāo)客戶預(yù)測模型來說,更關(guān)注的是將目標(biāo)客戶錯誤預(yù)測為非目標(biāo)客戶的樣本,也就是第一類錯誤率。結(jié)果表中顯示決策樹的第一類分類錯誤率最低。與此同時,AUC 作為評價不平衡數(shù)據(jù)集模型/性能的重要指標(biāo),可輔助模型效果對比。本實驗中支持向量機(jī)模型的AUC 取得最大值,但決策樹與其結(jié)果相差不大。因此,決策樹的綜合性能表現(xiàn)最佳,并且在目標(biāo)客戶精準(zhǔn)營銷場景具有很好的適用性。
在模型的落地應(yīng)用方面,將底層的算法邏輯與業(yè)務(wù)運營需求緊密結(jié)合,訓(xùn)練決策樹模型識別重點業(yè)務(wù)目標(biāo)客戶,將客戶偏好的產(chǎn)品通過合適的渠道,在最佳的時機(jī)推送給目標(biāo)客戶群體。應(yīng)用的渠道包括瞬時運營、短信群發(fā)、IOP 彈窗等。其中,瞬時運營是指用戶在達(dá)到觸發(fā)條件(如流量超套、新?lián)Q5G 手機(jī))的瞬間,啟動互動式語音應(yīng)答(IVR,Interactive Voice Response)外呼,詢問是否需更改套餐,客戶可選擇是否轉(zhuǎn)入人工。短信群發(fā)是指向目標(biāo)客戶發(fā)送模板短信,宣傳5G 智享套餐相關(guān)信息。IOP 彈窗是在客戶接入10086 人工后,系統(tǒng)自動彈窗5G 智享套餐目標(biāo)客戶,提示客服代表進(jìn)行套餐營銷。經(jīng)統(tǒng)計,瞬時運營外呼的5G 業(yè)務(wù)轉(zhuǎn)化率達(dá)到36.96%;短信群發(fā)測試的營銷轉(zhuǎn)化率最高達(dá)到17.62%;IOP 彈窗的營銷轉(zhuǎn)化率較模型上線前有明顯的提升。
本文從精準(zhǔn)營銷模型的角度出發(fā),將機(jī)器學(xué)習(xí)模型應(yīng)用于呼叫中心的生產(chǎn)運營?;谥袊苿釉颇瞎居脩舻臉颖緮?shù)據(jù),構(gòu)造用戶基本信息、訂購關(guān)系、消費、交互行為4 個維度的24 個指標(biāo),搭建自適應(yīng)快速迭代的機(jī)器學(xué)習(xí)模型,預(yù)測5G 套餐目標(biāo)客戶,旨在描繪通信運營商呼叫中心客戶的全息畫像,明確目標(biāo)客戶群體的特征和產(chǎn)品定位方向。在建模過程中,經(jīng)歷了定位、分析、驗證、跟蹤、迭代優(yōu)化等環(huán)節(jié),是大數(shù)據(jù)分析和人工智能在傳統(tǒng)通信行業(yè)領(lǐng)域的大膽嘗試,也是精細(xì)化運營的重要體現(xiàn)。模型預(yù)測結(jié)果的準(zhǔn)確率超過90%,在精準(zhǔn)營銷場景具有很好的適用性,也能輔助優(yōu)化制定策略。最后本文提出了針對性的建議方案,為5G 套餐目標(biāo)客戶的精準(zhǔn)營銷提供了有益借鑒。
在本文的研究過程中還存在一些待改進(jìn)的地方。首先,通信運營商擁有著海量用戶數(shù)據(jù),本文采用的是用戶部分基本信息和消費行為數(shù)據(jù),未來可挖掘其他數(shù)據(jù)的內(nèi)在價值,還可結(jié)合外部數(shù)據(jù),構(gòu)建更為完善的模型;其次,本文研究產(chǎn)品單一,為提升營銷轉(zhuǎn)化率、提高客戶感知價值,在設(shè)計營銷方案時,可加入與主套餐搭配的語音包、流量包等,通過交叉銷售滿足不同客戶需求。