摘 ?要:電信運營商擁有著龐大的客戶群體、海量的數(shù)據(jù)資源,如何挖掘大數(shù)據(jù)價值,精準把握客戶需求,將成為運營商保持行業(yè)領先的關鍵。為吸引更多優(yōu)質(zhì)異網(wǎng)用戶在攜號轉網(wǎng)過程中攜入,本次研究通過大數(shù)據(jù)技術,借助DPI[1,2]解析信息構建異網(wǎng)號碼池,運用邏輯回歸、決策樹、boosting算法[3]等原理搭建轉網(wǎng)傾向評估模型,最后通過客戶畫像、異網(wǎng)策反目標用戶分群[4],并配置針對性營銷策略,構建起一個較為完善的“異網(wǎng)獲客系統(tǒng)”,提升運營商在攜號轉網(wǎng)過程中的客戶經(jīng)營服務能力。
關鍵詞:攜號轉網(wǎng);DPI;數(shù)據(jù)挖掘;客戶分群;營銷標簽
中圖分類號:TP301.6 ? ? 文獻標識碼:A
Abstract:Telecom operators have a huge customer base and massive data resources.How to extract the value of big data and grasp the real needs of customers will become the key for operators to maintain the leading position.In order to better attract more high-quality users from different networks,this study establishes the different network number pool by DPI analytic information,and uses logic regression,decision tree,boosting algorithm to build the transfer tendency evaluation model.Finally,with customer portrait,we will output the differentiation of target users in different networks,and configure targeted marketing strategies,so as to build a relatively complete system of “different network customers acquisition” and improve the customer service capability.
Keywords:number portability;DPI;data mining;customer group;marketing label
1 ? 引言(Introduction)
電信運營商擁有著龐大的客戶群體,積累了海量的數(shù)據(jù)資源,如何挖掘沉淀的大數(shù)據(jù)價值,精準把握客戶的真實需求和痛點,提升客戶服務體驗,將成為運營商保持行業(yè)領先地位并保持市場份額的關鍵。新的競爭形勢下,電信產(chǎn)業(yè)鏈和客戶行為發(fā)生著深刻變化??蛻舫蔀樾聝r值鏈模式下的“核心”,客戶體驗越來越偏向互聯(lián)網(wǎng)業(yè)務。隨著大數(shù)據(jù)的深入應用,客戶畫像及精準營銷體系建設迫在眉睫,同時如何快速準確識別用戶,是業(yè)務部門面對的新挑戰(zhàn)。為積極應對攜號轉網(wǎng)帶來的不確定競爭風險,運營商急需要系統(tǒng)性構建全方位潛在客戶獲取系統(tǒng)。
2 ? 異網(wǎng)獲客系統(tǒng)的構建(Construction of different network customers acquisition system)
通過深挖用戶消費特征,對當前主要關注的攜號轉網(wǎng)策反進行持續(xù)的深入跟蹤分析和建模。為更好地吸引更多異網(wǎng)有效用戶攜入,本次研究方向就是“攜號轉網(wǎng)異網(wǎng)獲客模型的構建”,具體建模思路為:借助構建異網(wǎng)號碼池、轉網(wǎng)傾向評估模型、異網(wǎng)策反目標用戶分群等模型鎖定目標用戶群,制定針對性策略實施攜入引導,異網(wǎng)獲客系統(tǒng)搭建思路如圖1所示。
2.1 ? 模型介紹
2.1.1 ? 異網(wǎng)高價值用戶識別模型
簡介:對異網(wǎng)用戶接觸本網(wǎng)的各類渠道進行針對性異網(wǎng)用戶數(shù)據(jù)采集設計和開發(fā),包括解析固網(wǎng)DPI[1,2]、人工采集、爬蟲采集[5]等。并對已采集的數(shù)據(jù)進行數(shù)據(jù)清洗、轉換和整合,在已有數(shù)據(jù)基礎上形成異網(wǎng)用戶基礎標簽。
目標:通過各類渠道采集用戶號碼及相關行為,沉淀異網(wǎng)號碼,形成異網(wǎng)用戶號碼池,為獲客系統(tǒng)提供基礎數(shù)據(jù)支撐。
思路與方法:利用計費詳單、DPI[1,3]、CRM、翼支付等數(shù)據(jù),識別異網(wǎng)用戶,同時根據(jù)異網(wǎng)用戶的通話行為[6],剔除快遞員、外賣送餐員用戶,對異網(wǎng)用戶進行持續(xù)過濾沉淀。如圖2所示。
通過蒙特卡洛模擬,將沉淀池中的號碼的過網(wǎng)通話時長提取出來,模擬估測這批異網(wǎng)用戶的實際通話時長,具體如圖3所示。
以同一行業(yè)人群行為結構相同的原理,雖然運營商不同,但通話次數(shù)、通話時長及其他通話行為相似,推測其ARPU值也相近,因此,通過多元線性回歸擬合異網(wǎng)用戶ARPU值,并以其交往圈電信用戶平均價值量為參考,估測異網(wǎng)用戶真實價值量,從而篩選出高價值量用戶。
2.1.2 ? 轉網(wǎng)傾向評估模型
簡介:本模型擬采樣logistic模型對異網(wǎng)用戶的特征進行訓練,計算出每個異網(wǎng)用戶的轉網(wǎng)概率,并輸出標簽。
目標:通過評估異網(wǎng)用戶的轉網(wǎng)傾向,為一線攜號轉網(wǎng)營銷提供名單支撐。
建模設計:將一定周期內(nèi)轉網(wǎng)的異網(wǎng)用戶作為正樣本,沒有轉網(wǎng)的用戶作為負樣本,從業(yè)務角度選取異網(wǎng)用戶的通話行為,如聯(lián)系過網(wǎng)號碼個數(shù)、通話次數(shù)、通話時長等,業(yè)務使用行為,如翼支付使用數(shù)據(jù),電信固網(wǎng)下異網(wǎng)用戶行為[7]監(jiān)測四個維度,通過口徑判別,識別歷史被成功策反為電信用戶,對這些用戶進行特征提取,并進行決策樹C5.0建模,通過不斷調(diào)整訓練集,反復訓練模型,采用boosting算法及交叉驗證,直至模型效果較為優(yōu)良為止,根據(jù)模型生成的規(guī)則,輸出異網(wǎng)用戶是否轉網(wǎng)及轉網(wǎng)概率的標簽。
數(shù)據(jù)準備:結合異網(wǎng)用戶轉網(wǎng)的影響因素,整理相關的數(shù)據(jù)字段如詳單類信息、寬帶連接信息、翼支付信息、終端信息等。
數(shù)據(jù)加工:將以上與目標分析相關的字段提取出來,得到的數(shù)據(jù)難免會有缺失值和極值,需要對數(shù)據(jù)進行質(zhì)量檢查。結合業(yè)務經(jīng)驗,對有數(shù)據(jù)缺失的字段進行處理,填充為-1或者平均值。離群值定義為數(shù)據(jù)與部分樣本不符合的特征,這些樣本會影響建模結果,故本次建模對離群值進行丟棄處理。
變量篩選:數(shù)據(jù)挖掘中數(shù)據(jù)量非常龐大,特別是特征字段,需要對特征字段進行提取,選取與目標變量最重要且變量之間相關性較弱的變量。若自變量為分類變量,利用卡方檢驗的方法看是否顯著相關;若自變量為連續(xù)變量,利用相關性矩陣確定變量的重要性,當連續(xù)變量之間相關性大于0.7時,只需選擇其中與目標變量相關性較強的變量。本次變量選取通過以上方法進行逐步篩選,最終將篩選后的變量納入模型。篩選過程如圖4所示。
模型建設:使用LR算法,將轉網(wǎng)傾向打分模型訓練到最優(yōu),并驗證、測試模型效果。LR模型易于理解,而且便于處理非線性數(shù)據(jù)的描述數(shù)據(jù),能提取數(shù)據(jù)中隱藏的知識規(guī)則。本次模型采用三個月的行為數(shù)據(jù),建立異網(wǎng)用戶轉網(wǎng)模型,不斷訓練模型,直至達到較好的模型效果為止。
2.1.3 ? 異網(wǎng)策反目標用戶分群及策略配置模型
模型簡介:利用大數(shù)據(jù)畫像技術,從異網(wǎng)用戶的轉網(wǎng)傾向、價值度及各基礎標簽信息對用戶進行群體劃分,并為每個異網(wǎng)用戶進行打標簽。
模型目標:針對已在異網(wǎng)號碼池中的異網(wǎng)用戶目標群體,例如寬帶到期的用戶,根據(jù)寬帶用戶的使用行為特征進行寬帶到期續(xù)費新裝進行識別,并輸出其概率,使得業(yè)務人員可以更好地開展營銷工作。
模型構建:根據(jù)對電信用戶構建的用戶畫像標簽[8](如年齡標簽、價值標簽、通話使用行為標簽、家庭圈-同事圈標簽等),結合對異網(wǎng)用戶轉網(wǎng)傾向的評估,選擇轉網(wǎng)傾向高、價值度高的用戶優(yōu)先進行營銷分群。
數(shù)據(jù)準備:從基礎信息表、資產(chǎn)表進行篩選、匯總和整理出各個屬性的寬表數(shù)據(jù)信息。
模型算法:此次分群模型采用層次聚類算法[8],層次聚類是聚類算法的一種,通過計算不同類別數(shù)據(jù)點間的相似度來創(chuàng)建一棵有層次的嵌套聚類樹。在聚類樹中,不同類別的原始數(shù)據(jù)點是樹的最低層,樹的頂層是一個聚類的根節(jié)點。創(chuàng)建聚類樹有自下而上合并和自上而下分裂兩種方法。
此次通過層次聚類來對異網(wǎng)號碼的特征進行挖掘,根據(jù)異網(wǎng)號碼接觸的寬帶信息包括訪問url的信息和訪問app的信息來對這些異網(wǎng)號碼進行聚類,根據(jù)聚類結果分析每一類異網(wǎng)號碼的特征。再匹配分群后的營銷策略,主要的匹配思路有:(1)套餐匹配分群:選取家庭圈覆蓋下的高價值依附異網(wǎng)用戶作為最終策反目標,分場景匹配最佳營銷終端及套餐;(2)終端匹配分群:選取家庭圈覆蓋下終端到期的異網(wǎng)用戶,推薦套餐捆綁進行策反。具體流程如圖5所示。
2.2 ? 模型評估
通過模型評估一方面對模型進行進一步的優(yōu)化,使模型性能夠更準確;另一方面,通過模型評估看模型實際運行效果,對采取的維系策略的有效性進行評價。評估模型本身的準確性,通過命中率、覆蓋率兩個重要指標。命中率:描述模型預測準確性性指標,命中率=預測成功轉網(wǎng)的用戶數(shù)/預測轉網(wǎng)的用戶數(shù);覆蓋率:描述模型預測結果與實際結果對比情況指標,覆蓋率=預測成功轉網(wǎng)的用戶數(shù)/實際轉網(wǎng)的用戶數(shù)。
本次建模利用當月數(shù)據(jù)和隔月數(shù)據(jù)進行驗證。通過不斷的選取訓練集,反復訓練模型,最終實現(xiàn)模型命中率和覆蓋率符合預期要求。
3 ? 輸出成果(The output results)
(1)建立異網(wǎng)號碼池:根據(jù)識別的異網(wǎng)用戶號碼池,可開展異網(wǎng)用戶的初步畫像,并為后續(xù)的深度畫像提供基礎數(shù)據(jù)資源。
(2)建立轉網(wǎng)概率較高的異網(wǎng)高價值用戶庫:輸出異網(wǎng)高價值用戶中,預估高概率攜號轉入的異網(wǎng)策反目標用戶,包含:設備號、轉網(wǎng)概率、是否轉網(wǎng)等。
(3)建立不同群體的異網(wǎng)用戶策反策略庫:根據(jù)異網(wǎng)用戶的分群特征,結合匹配本省的營銷策略,指導營銷人員開展策反營銷。
4 ? 結論(Conclusion)
此次研究成果,依托大數(shù)據(jù)技術篩選出的適合攜號轉網(wǎng)異網(wǎng)策反的移動用戶對象,建立了異網(wǎng)用戶號碼池,并篩選出了一批高價值客戶,還增加了客戶畫像的標簽維度,如價值標簽、同事圈標簽、家庭圈標簽等。有利于推動公司開展精細化營銷工作的實施,提高存量、增量經(jīng)營效能和市場占有率。同時,進一步推進大數(shù)據(jù)應用,持續(xù)提升用戶的洞察能力,為后續(xù)運營商可針對每一類用戶群監(jiān)測攜號轉網(wǎng)營銷轉化率,并根據(jù)轉化率變化情況及時調(diào)整策略。
此次研究挖掘了更深層次的數(shù)據(jù)價值。強化了既有系統(tǒng)的客戶行為洞察能力,又提升了運營商客戶經(jīng)營服務能力。目前,運用大數(shù)據(jù)技術開展異網(wǎng)用戶獲取,還處于初步的研究階段,階段性的研究成果也不一定很成熟,本文所研究的在通信運營商領域內(nèi)的數(shù)據(jù)挖掘模型技術還需要更多的業(yè)務應用與實踐相結合,不斷改進優(yōu)化,在普及性和深入性上開展更多的研究和應用。
參考文獻(References)
[1] SHENG,ZHANG,LI,YANBIAO.Multi-stride Indexing:Improve NFA for Fast and Scalable DPI[J].Chinese Journal of Electronics,2018,27(1):86-92.
[2] 呂錦揚.DPI技術在移動數(shù)據(jù)網(wǎng)絡分析的應用[J].電信技術,2013(6):72-75.
[3] L Miclet,S Bayoudh,A Delhay.Analogical Dissimilarity:Definition,Algorithms and Two Experiments in Machine Learning[J].Journal of Artificial Intelligence Research,2014,32(3):793-824.
[4] YANG,TONG,XIE,GAOGANG,LI,YANBIAO.Guarantee IP Lookup Performance with FIB Explosion[J].Computer Communication Review:A Quarterly Publication of the Special Interest Group on Data Communication,2014,4(4):39-50.
[5] 耿貞偉,保富.網(wǎng)絡環(huán)境下的大數(shù)據(jù)采集和處理[J].軟件工程,2019,22(6):47-49.
[6] 宋竹,秦志光,羅嘉慶,等.電信數(shù)據(jù)中用戶行為特征測量與分析[J].電子科技大學學報,2015,(6):934-939.
[7] 崇林.基于運營商大數(shù)據(jù)的互聯(lián)網(wǎng)海量用戶行為分析系統(tǒng)設計與實現(xiàn)[D].南京郵電大學,2016:1-74.
[8] 梁睿博,王思遠.基于RAKEL算法的商品評論多標簽分類研究與實現(xiàn)[J].軟件工程,2019,22(1):8-11.
作者簡介:
談俊林(1982-),男,碩士,工程師.研究領域:大數(shù)據(jù)挖掘.