傅俊鋒,孫 紅(中國聯(lián)通網(wǎng)絡(luò)技術(shù)研究院,北京100048)
在移動(dòng)互聯(lián)網(wǎng)充分發(fā)展和提速降費(fèi)持續(xù)推進(jìn)的背景下,當(dāng)前的個(gè)人移動(dòng)通信市場,從用戶數(shù)量上來看已經(jīng)接近峰值;從用戶結(jié)構(gòu)來看4G用戶占比也漸趨穩(wěn)定。因此對于運(yùn)營商而言,迫切需要利用大數(shù)據(jù)分析方法,對省市用戶、業(yè)務(wù)有一個(gè)清晰的畫像,從而進(jìn)一步挖掘現(xiàn)有用戶潛力、提升業(yè)務(wù)量和收入。
本文以單個(gè)城市為基本單元,提出了一套城市畫像方法,用于對不同城市的用戶、業(yè)務(wù)現(xiàn)狀進(jìn)行刻畫,通過對比,了解其在市場和網(wǎng)絡(luò)方面的優(yōu)勢和短板。在此基礎(chǔ)上以2G用戶轉(zhuǎn)網(wǎng)為例,研究用戶、業(yè)務(wù)變更的規(guī)律,從而實(shí)現(xiàn)對不同城市在下一周期內(nèi)發(fā)展趨勢的預(yù)測?;诂F(xiàn)狀和預(yù)測,運(yùn)營商在市場推廣上可以早作準(zhǔn)備,抓住市場發(fā)展先機(jī);在網(wǎng)絡(luò)建設(shè)上能提前部署,及時(shí)滿足業(yè)務(wù)需求。
用戶畫像是根據(jù)用戶社會屬性、生活習(xí)慣和消費(fèi)行為等信息而抽象出來的一個(gè)標(biāo)簽化的用戶模型。構(gòu)建用戶畫像的核心工作是給用戶貼“標(biāo)簽”,而標(biāo)簽是通過用戶信息分析而來的高度精煉的特征標(biāo)識。
所謂城市畫像,既包含用戶畫像的概念,又比用戶畫像更宏觀,偏向于從整體上對城市的特點(diǎn)、規(guī)律進(jìn)行把握。本文提出的城市畫像方法從用戶及業(yè)務(wù)總量、用戶模型、用戶結(jié)構(gòu)這3個(gè)角度進(jìn)行分析,通過精煉的關(guān)鍵指標(biāo)對單個(gè)城市進(jìn)行刻畫,最終通過散點(diǎn)圖和雷達(dá)圖的方式將城市畫像的最終結(jié)果直觀地呈現(xiàn)出來。
下面以中國聯(lián)通A省及A1市、B省及B1市為例,對其畫像指標(biāo)進(jìn)行對比分析(原始數(shù)據(jù)已通過函數(shù)進(jìn)行了變換,與現(xiàn)網(wǎng)真實(shí)情況無關(guān))。
總量指標(biāo)反映了城市的用戶和業(yè)務(wù)規(guī)模的大小,具體指標(biāo)取定:用戶數(shù)、收入。
2省的用戶數(shù)、收入指標(biāo)分布如圖1所示(A省為橙色,B省為藍(lán)色)。
圖1 2省用戶數(shù)、收入指標(biāo)分布
從圖1中可以看出,收入指標(biāo)同用戶數(shù)指標(biāo)呈正比例分布;2省大部分地(市)的分布區(qū)域比較接近,各有2個(gè)地(市)規(guī)模較為突出;A1市、B1市在所在省內(nèi)規(guī)模都相對較小。
模型指標(biāo)反映了城市內(nèi)用戶的業(yè)務(wù)使用情況,具體指標(biāo)取定:平均ARPU、平均DOU、平均MOU。
2省的平均ARPU、平均DOU指標(biāo)分布見圖2。
圖2 2省平均ARPU、平均DOU指標(biāo)分布
A省平均DOU普遍高于B省,說明A省用戶使用數(shù)據(jù)流量更為活躍;B省雖然平均DOU較低,但也有部分地(市)平均ARPU分布在頭部;A1市在A省內(nèi)的模型指標(biāo)數(shù)值相對較大,平均DOU更是排在第1位;B1市在B省內(nèi)的這2個(gè)指標(biāo)都分布在尾部,用戶較不活躍。
2省的平均DOU、平均MOU指標(biāo)分布見圖3。
圖3 2省平均DOU、平均MOU指標(biāo)分布
2省平均MOU分布區(qū)域接近;B省有2個(gè)地(市)平均MOU顯著高于2省其他地(市),而A省則有2個(gè)地(市)平均DOU顯著高于2省其他地(市),說明B省少數(shù)地(市)側(cè)重于語音業(yè)務(wù);A1市的用戶使用數(shù)據(jù)業(yè)務(wù)最多,而B1市語音、數(shù)據(jù)業(yè)務(wù)均不活躍。
結(jié)構(gòu)指標(biāo)反映了城市內(nèi)不同用戶群的構(gòu)成,具體指標(biāo)取定:平均年齡、移動(dòng)互聯(lián)網(wǎng)用戶占比、2G用戶占比、2I2C用戶(互聯(lián)網(wǎng)套餐)占比。
2省的平均年齡、移動(dòng)互聯(lián)網(wǎng)用戶占比指標(biāo)分布如圖4所示。
圖4 2省平均年齡、移動(dòng)互聯(lián)網(wǎng)用戶占比指標(biāo)分布
A省用戶普遍比B省年輕,其移動(dòng)互聯(lián)網(wǎng)用戶占比更高;A1市平均年齡在2省各地(市)中分布在頭部,相對更年輕,大部分用戶都是移動(dòng)互聯(lián)網(wǎng)用戶;B1市平均年齡分布在尾部,移動(dòng)互聯(lián)網(wǎng)用戶也較少。
2省的2G用戶占比、2I2C用戶占比分布見圖5。
A省2I2C用戶占比普遍高于B??;B省部分地(市)2G用戶占比偏高,也存在部分地(市)2G用戶占比較低;A1市2I2C用戶占比最高,2G用戶占比分布在頭部,而B1市則正好相反。
圖5 2省2G用戶占比、2I2C用戶占比指標(biāo)分布
最終的畫像結(jié)果如圖6所示(橙色為城市級,藍(lán)色為省級,紫色為全國級;為方便圖形顯示及對比,以三者最大數(shù)值為單個(gè)指標(biāo)軸的最高點(diǎn))。從分布形狀來看,A、B 2省的差異十分明顯,A1、B1 2市的差異更加顯著。
圖6 A省及A1市、B省及B1市畫像
2省用戶及業(yè)務(wù)規(guī)模相當(dāng),但由于用戶結(jié)構(gòu)的較大差異,A省用戶使用數(shù)據(jù)業(yè)務(wù)更多,B省用戶則更偏向于語音業(yè)務(wù)。A省的收入主要由年輕的移動(dòng)互聯(lián)網(wǎng)用戶產(chǎn)生,而B省的收入主要依賴于年齡偏大的語音型用戶。
A1、B1 2市的用戶及業(yè)務(wù)規(guī)模在省內(nèi)都較小,但其用戶構(gòu)成完全不同:A1市的2I2C用戶占比、平均DOU明顯高出全國平均水平,其他指標(biāo)同全國平均水平相近;而B1市的移動(dòng)互聯(lián)網(wǎng)用戶占比、2I2C用戶占比、平均ARPU、平均DOU都很低,而2G用戶占比很高。
因此初步的結(jié)論是,B省及B1市需加大年輕用戶的市場發(fā)展力度,同時(shí)利用市場手段將2G用戶轉(zhuǎn)為4G,在提升移動(dòng)互聯(lián)網(wǎng)用戶占比的同時(shí),也能提升其平均ARPU。
在對不同城市進(jìn)行精準(zhǔn)畫像的基礎(chǔ)上,運(yùn)用大數(shù)據(jù)分析的方法,對用戶行為的規(guī)律和原因進(jìn)行深入分析,通過市場手段有針對性地對用戶進(jìn)行引導(dǎo),從而能預(yù)測出下一個(gè)周期不同城市的畫像變化情況。根據(jù)城市畫像的變化,還可以進(jìn)一步細(xì)化出用戶和業(yè)務(wù)在地理上的分布,為網(wǎng)絡(luò)的精準(zhǔn)建設(shè)提供數(shù)據(jù)支撐。
中國聯(lián)通運(yùn)營4G網(wǎng)絡(luò)已經(jīng)多年,但目前仍有相當(dāng)比例的2G網(wǎng)絡(luò)用戶,不少本地網(wǎng)2G網(wǎng)絡(luò)用戶占比達(dá)到50%。大量的2G用戶導(dǎo)致2G網(wǎng)絡(luò)無法退網(wǎng),長期運(yùn)營3張無線網(wǎng)絡(luò),運(yùn)營成本居高不下。2G網(wǎng)絡(luò)還占用了寶貴的低頻資源,無法釋放出來用于建設(shè)4G L900網(wǎng)絡(luò)。因此,2G用戶的轉(zhuǎn)網(wǎng)對于提升ARPU值和企業(yè)收入、降低運(yùn)維成本、提高4G建網(wǎng)效率具有重要的意義,是中國聯(lián)通未來幾年更好更快發(fā)展的一個(gè)關(guān)鍵因素。
本文以2G用戶轉(zhuǎn)網(wǎng)為例,通過SPSS Modeler對歷史數(shù)據(jù)進(jìn)行建模分析,得出影響2G用戶流向的關(guān)鍵因素,預(yù)測哪些2G用戶更有可能轉(zhuǎn)為3G/4G用戶,哪些2G用戶會離網(wǎng)。對轉(zhuǎn)網(wǎng)后的用戶,通過統(tǒng)計(jì)其轉(zhuǎn)網(wǎng)前后業(yè)務(wù)量的變化,從而得到實(shí)施2G轉(zhuǎn)網(wǎng)對不同城市畫像指標(biāo)的影響。
提取A省、B省最近2年的部分2G用戶數(shù)據(jù)進(jìn)行建模,根據(jù)2G用戶流向的變化,打上4類標(biāo)簽:未轉(zhuǎn)網(wǎng)、離網(wǎng)、轉(zhuǎn)為3G、轉(zhuǎn)網(wǎng)4G。用于建模的主要字段如表1所示。
表1 建模主要字段列表
在SPSS Modeler軟件中構(gòu)建如圖7所示數(shù)據(jù)流。
圖7 SPSS Modeler數(shù)據(jù)流
在數(shù)據(jù)流中,通過“2G用戶流向分析”導(dǎo)入整理好的源數(shù)據(jù),經(jīng)過多個(gè)模型的對比分析,最后選擇2種模型進(jìn)行用戶流向的建模。
2.2.1 隨機(jī)森林
隨機(jī)森林指的是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器,主要應(yīng)用于回歸和分類,能夠很好地處理高維度的數(shù)據(jù)。采用隨機(jī)森林模型的預(yù)測結(jié)果,準(zhǔn)確率達(dá)到82.9%。其預(yù)測的各個(gè)變量的重要性如圖8所示。
圖8 隨機(jī)森林預(yù)測變量重要性
可以看到,“入網(wǎng)年份”對預(yù)測結(jié)果的重要性最高,其次為“客戶年齡”及“DOU”。
2.2.2 C5.0
C5.0是經(jīng)典的決策樹模型算法之一,可生成多分支的決策樹,目標(biāo)變量為分類變量,使用C5.0算法可以生成決策樹或者規(guī)則集。采用C5.0模型的預(yù)測結(jié)果,準(zhǔn)確率達(dá)到93.2%。其預(yù)測的各個(gè)變量的重要性如圖9所示。
圖9 C5.0預(yù)測變量重要性
可以看到,仍然是“入網(wǎng)年份”對預(yù)測結(jié)果的重要性最高,其次為“融合類型”及“DOU”。
綜合這2種模型的預(yù)測結(jié)果,可知“入網(wǎng)年份”對2G用戶流向的影響最大,另外這2個(gè)模型中都出現(xiàn)的重要變量還有“DOU”“主叫通話次數(shù)占比”“中國聯(lián)通通話次數(shù)占比”“客戶年齡”。
下面對2G用戶流向在不同指標(biāo)中的分布進(jìn)行統(tǒng)計(jì)驗(yàn)證(見圖10)。
從圖10中可以了解到:
a)入網(wǎng)年份。2008年以前入網(wǎng)的2G用戶基本上都離網(wǎng)了,2008年以后入網(wǎng)的2G用戶轉(zhuǎn)為4G的比例更高??赡艿脑蚴?,2008年以前入網(wǎng)的用戶到了其客戶生命周期的末期,對號碼的依存度較低;2008年后入網(wǎng)的用戶,由于中國聯(lián)通推出了3G/4G業(yè)務(wù),增加了網(wǎng)絡(luò)對用戶的吸引力,因此轉(zhuǎn)網(wǎng)用戶更多。
b)融合類型。圖10中“1.0”為智慧沃家,“2.0”為主副卡,“3.0”為沃家庭,“0.0”為非融合套餐。融合套餐中轉(zhuǎn)網(wǎng)3G/4G的用戶比例高,非融合套餐離網(wǎng)比例高。說明融合套餐增加了用戶黏性,對保有用戶起到了較大的作用。
c)DOU、年齡。DOU低、年齡大的用戶離網(wǎng)比例高,而DOU高且年輕的用戶更傾向于轉(zhuǎn)網(wǎng)3G/4G。說明中國聯(lián)通3G/4G網(wǎng)絡(luò)對年輕的移動(dòng)互聯(lián)網(wǎng)用戶吸引力更大。
d)主叫通話次數(shù)占比、中國聯(lián)通通話次數(shù)占比。這2個(gè)指標(biāo)對2G用戶轉(zhuǎn)網(wǎng)的影響雖然不如前幾個(gè)指標(biāo)顯著,但同轉(zhuǎn)網(wǎng)3G/4G用戶比例也存在著正相關(guān)的關(guān)系。說明對中國聯(lián)通網(wǎng)絡(luò)黏性大的用戶轉(zhuǎn)網(wǎng)3G/4G的概率更大。
最終選擇C5.0模型對A省、B省的2G用戶進(jìn)行流向的預(yù)測。
圖10 2G用戶流向分布
根據(jù)模型預(yù)測的結(jié)果,A省總的2G用戶離網(wǎng)的比例為41%,轉(zhuǎn)網(wǎng)3G/4G用戶的比例為37%;B省總的2G用戶離網(wǎng)的比例為47%,轉(zhuǎn)網(wǎng)3G/4G用戶的比例為26%。對2省的歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)2G用戶轉(zhuǎn)網(wǎng)后其平均ARPU增長為15元,平均DOU增長6倍,平均MOU基本持平,轉(zhuǎn)網(wǎng)3G/4G的用戶中10%轉(zhuǎn)為2I2C用戶。由此計(jì)算出2省各個(gè)地(市)的城市畫像指標(biāo)。
圖11和圖12分別給出了2G用戶轉(zhuǎn)網(wǎng)后2省用戶數(shù)、收入指標(biāo)、平均ARPU、平均DOU的分布情況,與圖1和圖2(2G用戶轉(zhuǎn)網(wǎng)前)相比可以看出,推動(dòng)2G用戶轉(zhuǎn)網(wǎng)后,2省各地(市)的用戶數(shù)、收入普遍略有下降,但用戶模型和用戶結(jié)構(gòu)得到了改善。
從最終的城市畫像圖(見圖13)來看:
圖11 2省用戶數(shù)、收入指標(biāo)分布
圖12 2省平均ARPU、平均DOU指標(biāo)分布
圖13 A省及A1市、B省及B1市畫像
a)A1市變化較大的指標(biāo)為平均年齡、移動(dòng)互聯(lián)網(wǎng)用戶占比和2G用戶占比,2G用戶占比的變化較B1市更為顯著,其原因是轉(zhuǎn)網(wǎng)3G/4G的2G用戶比例高,剩余2G用戶更少。
b)B1市變化較大的指標(biāo)為平均年齡、移動(dòng)互聯(lián)網(wǎng)用戶占比和2G用戶占比,平均年齡、移動(dòng)互聯(lián)網(wǎng)用戶占比的變化較A1市更為顯著,其原因是B1市3G/4G用戶本身基數(shù)較小,在轉(zhuǎn)網(wǎng)后年輕的3G/4G用戶快速增加。
A1市2G用戶占比從轉(zhuǎn)網(wǎng)前的23.7%下降到10.0%,2G用戶的減少在市區(qū)的高校、商場、寫字樓等區(qū)域會表現(xiàn)得更顯著。需關(guān)注這些區(qū)域的2G基站負(fù)荷,及時(shí)對負(fù)荷低的基站進(jìn)行減頻或者退網(wǎng)。
B1市用戶平均DOU從轉(zhuǎn)網(wǎng)前的1.7 GB增加到2.3 GB,增長了35.3%,而商場、景點(diǎn)等熱點(diǎn)區(qū)域的流量增幅更大。因此從網(wǎng)絡(luò)建設(shè)的角度,需了解轉(zhuǎn)網(wǎng)后流量的地理分布情況,從而提前對網(wǎng)絡(luò)進(jìn)行擴(kuò)容。
本文通過對2G用戶轉(zhuǎn)網(wǎng)的建模分析,對比了轉(zhuǎn)網(wǎng)前后2個(gè)省及2個(gè)典型地(市)的城市畫像變化趨勢。為了解用戶和業(yè)務(wù)現(xiàn)狀、了解業(yè)務(wù)發(fā)展趨勢并在網(wǎng)絡(luò)建設(shè)上及時(shí)應(yīng)對提供了詳細(xì)的數(shù)據(jù)支撐。本文提出的方法,還可以同其他熱點(diǎn)專題相結(jié)合,如2I2C用戶、視頻業(yè)務(wù)等專題,運(yùn)用大數(shù)據(jù)和模型分析,滾動(dòng)刷新全國不同城市的畫像指標(biāo),實(shí)現(xiàn)網(wǎng)絡(luò)的精準(zhǔn)運(yùn)營。