李吏豫
(中國(guó)移動(dòng)通信集團(tuán)山西有限公司市場(chǎng)經(jīng)營(yíng)部,山西 太原 030002)
2020年,由于疫情原因,人民受限在家白天“小孩上網(wǎng)課、父母遠(yuǎn)程辦公”,晚上個(gè)性化“影視、游戲、看直播”,充分享受到在線教育或者遠(yuǎn)程辦公的便捷服務(wù)。疫情為家庭用戶的消費(fèi)習(xí)慣和生活習(xí)慣都帶來(lái)了深遠(yuǎn)影響,同時(shí)進(jìn)一步凸顯出家庭寬帶對(duì)全民社會(huì)經(jīng)濟(jì)活動(dòng)的深遠(yuǎn)影響。
目前工信部發(fā)布的通信業(yè)經(jīng)濟(jì)運(yùn)行情況顯示,截至2020年10月末,三家基礎(chǔ)電信企業(yè)的固定互聯(lián)網(wǎng)寬帶接入用戶總數(shù)達(dá)4.81億戶,其中100Mb/s 及以上接入速率的固定互聯(lián)網(wǎng)寬帶接入用戶達(dá)4.27億戶。另?yè)?jù)國(guó)家衛(wèi)生計(jì)生委發(fā)布的《中國(guó)家庭發(fā)展報(bào)告(2015年)》,我國(guó)共有家庭 4.3 億戶左右。也就是說(shuō),我國(guó)城市家庭和絕大部分農(nóng)村家庭已經(jīng)普及百兆光纖寬帶服務(wù),增加了家庭寬帶發(fā)展對(duì)精準(zhǔn)營(yíng)銷(xiāo)的要求。
家庭寬帶發(fā)展對(duì)運(yùn)營(yíng)商增收、保有存量用戶有著重要意義,然而目前仍缺乏家庭級(jí)客戶畫(huà)像、家庭級(jí)業(yè)務(wù)推薦能力,更多依賴一線人員憑經(jīng)驗(yàn)行銷(xiāo)擺攤或電話營(yíng)銷(xiāo)時(shí),數(shù)字化獲客水平低。為了進(jìn)一步提高營(yíng)銷(xiāo)效率,需有的放矢針對(duì)性開(kāi)展精準(zhǔn)營(yíng)銷(xiāo)工作。因此,本文對(duì)如何精準(zhǔn)定位家庭寬帶營(yíng)銷(xiāo)目標(biāo)用戶進(jìn)行了系統(tǒng)研究。
Boosting 算法的思想主要來(lái)源于Valiant[1]提出的計(jì)算學(xué)習(xí)理論——PAC(Probably Approxi-mately Correct)學(xué)習(xí)模型。該算法的提出對(duì)弱學(xué)習(xí)算法與強(qiáng)學(xué)習(xí)算法的等價(jià)性問(wèn)題作出了肯定的回答,將許多弱學(xué)習(xí)算法進(jìn)行組合迭代,最終生成一種強(qiáng)學(xué)習(xí)算法。也就是說(shuō),Boosting 算法可以通過(guò)集成一些預(yù)測(cè)精度高于隨機(jī)預(yù)測(cè)的學(xué)習(xí)算法獲得高性能的學(xué)習(xí)算法。
XGBoost 算法是一種基于梯度決策樹(shù)的Boosting 算法,相對(duì)于普通的決策樹(shù)算法,XGBoost 算法因其更高的準(zhǔn)確性以及對(duì)數(shù)據(jù)的普適性,近年來(lái)被廣泛應(yīng)用于商品推薦算法等方面。本文基于XGBoost 算法,建立分類(lèi)預(yù)測(cè)模型,預(yù)判用戶辦理家庭寬帶的需求。結(jié)果表明,與其他機(jī)器學(xué)習(xí)算法相比,XGBoost 速度更快、準(zhǔn)確度更高。
山西移動(dòng)2020年8-10月訂購(gòu)家庭寬帶業(yè)務(wù)的21.0萬(wàn)用戶作為正樣本,隨機(jī)選擇42.0萬(wàn)未辦理業(yè)務(wù)用戶作為負(fù)樣本;11-12月訂購(gòu)家庭寬帶業(yè)務(wù)的10.9萬(wàn)戶作為驗(yàn)證集。
通過(guò)文件數(shù)據(jù)采集及入庫(kù)、數(shù)據(jù)同步、網(wǎng)絡(luò)爬取3種方式采集到B 域與O 域的家庭相關(guān)數(shù)據(jù)。B 域數(shù)據(jù)包括用戶包括信息數(shù)據(jù)、業(yè)務(wù)使用數(shù)據(jù)、投訴數(shù)據(jù)、活動(dòng)及業(yè)務(wù)訂購(gòu)數(shù)據(jù)等,O 域數(shù)據(jù)包括用戶APP 使用數(shù)據(jù)、用戶軌跡數(shù)據(jù)、DPI 信令數(shù)據(jù)等。最終選擇14大類(lèi)347個(gè)字段作為原始特征,詳見(jiàn)表1。
表1 原始特征
對(duì)數(shù)據(jù)預(yù)處理后,通過(guò)逐步回歸方法對(duì)原始特征進(jìn)行相關(guān)性分析,篩選出與辦理家庭寬帶行為關(guān)聯(lián)性較高的特征,并剔除自相關(guān)特征,最終選擇56個(gè)特征入模,詳見(jiàn)表2。
表2 入模特征
通過(guò)數(shù)據(jù)處理后用XGBoost 算法進(jìn)行數(shù)據(jù)建模并輸出模型結(jié)果,同時(shí)使用決策樹(shù)與隨機(jī)森林算法建模。通過(guò)查準(zhǔn)率、召回率、F1值、提升率指標(biāo)來(lái)評(píng)估模型效果,XGBoost 算法效果最佳。詳見(jiàn)表3。
表3 模型評(píng)估結(jié)果
整個(gè)研究項(xiàng)目初步達(dá)成了如下成果:
本次研究完善了家庭圈標(biāo)簽,并首次將小區(qū)網(wǎng)絡(luò)指標(biāo)、友商APP 使用及搜索類(lèi)特征作為家庭寬帶潛客研究對(duì)象特征。通過(guò)對(duì)基礎(chǔ)特征分析建模,輸出潛在家庭寬帶用戶,作為標(biāo)簽上線。完善家庭類(lèi)、寬帶類(lèi)標(biāo)簽體系,直接應(yīng)用至家庭寬帶及家庭類(lèi)產(chǎn)品營(yíng)銷(xiāo)中,產(chǎn)生了更好的營(yíng)銷(xiāo)效果。
在家庭寬帶潛在客戶基礎(chǔ)上,形成“高價(jià)值小區(qū)模型”。使用家庭寬帶潛在用戶常駐地的經(jīng)緯度和小區(qū)位置數(shù)據(jù)進(jìn)行關(guān)聯(lián),計(jì)算用戶所屬小區(qū),并結(jié)合家庭圈、B域與O 域的數(shù)據(jù),以小區(qū)為粒度進(jìn)行整合,從而將家庭寬帶潛在用戶聚類(lèi)至小區(qū)中,生成高價(jià)值小區(qū)清單。在一線人員營(yíng)銷(xiāo)工具中增加“寬帶作戰(zhàn)專區(qū)”,將模型輸出高價(jià)值小區(qū)按顏色高亮展示,助力其優(yōu)選重點(diǎn)小區(qū)攻堅(jiān),提升公司家庭寬帶業(yè)務(wù)發(fā)展成功率。
本研究整合運(yùn)營(yíng)商B 域和O 域信息,完善了基于小區(qū)和用戶畫(huà)像特征,結(jié)合用戶位置信息、用戶消費(fèi)信息、用戶使用相關(guān)APP 信息、用戶的通話行為等用戶特征數(shù)據(jù),利用XGBoost 算法,形成家庭寬帶潛在客戶清單及高價(jià)值小區(qū)清單,實(shí)現(xiàn)家庭業(yè)務(wù)的精準(zhǔn)推薦。