文/王振 陳天池
隨著通信技術(shù)的發(fā)展,4G業(yè)務(wù)的拓展,改善了未來移動(dòng)用戶質(zhì)態(tài),然而現(xiàn)在非4G用戶升4G的速率趨于平緩,接近飽和,從而挖掘潛在非4G換機(jī)用戶具有重要意義,能夠?qū)崿F(xiàn)整體市場的4G終端的遷轉(zhuǎn)、滲透。如何細(xì)化非4G用戶升4G場景,利用大數(shù)據(jù)手段精準(zhǔn)挖掘潛在非4G目標(biāo)換機(jī)用戶,拓展4G業(yè)務(wù),同時(shí)統(tǒng)籌各業(yè)務(wù)場景對非4G用戶、4G用戶價(jià)值的發(fā)展變化,實(shí)現(xiàn)非4G潛在目標(biāo)用戶換機(jī)的精準(zhǔn)挖掘。
此文基于新業(yè)務(wù)場景、及模型算法優(yōu)缺點(diǎn)等,利用隨機(jī)森林算法對模型算法進(jìn)行優(yōu)化。Random Forest(隨機(jī)森林)是基于眾多決策樹、構(gòu)建集成的Bagging集成學(xué)習(xí)器,同時(shí)在訓(xùn)練過程中引入隨機(jī)特征,改進(jìn)了決策樹算法,即將多個(gè)決策樹合并在一起,且分別依賴獨(dú)立的抽取樣本集,每棵樹具有相同分布。特征選擇采用隨機(jī)方法分裂每個(gè)節(jié)點(diǎn),比較不同情況下誤差。通過檢測內(nèi)在估計(jì)誤差、分類能力,決定特征的選取數(shù)目。隨機(jī)產(chǎn)生大量決策樹后,測試樣品通過每棵樹的分類結(jié)果經(jīng)統(tǒng)計(jì)后選擇最可能的分類結(jié)果,包括:
(1)隨機(jī)樣本數(shù)據(jù)選擇(放回抽樣)。
(2)隨機(jī)特征選擇。
(3)構(gòu)建決策樹。
(4)隨機(jī)森林投票(平均)。
其中樣本數(shù)據(jù)的隨機(jī)選擇、待選樣本特征的選擇更能體現(xiàn)其優(yōu)勢,前者包括放回抽樣,構(gòu)建子數(shù)據(jù)集;根據(jù)子數(shù)據(jù)集、構(gòu)建子決策樹、輸出子結(jié)果,通過新輸入數(shù)據(jù)對子決策樹的判斷結(jié)果投票,獲得整個(gè)輸出結(jié)果。如圖 1所示。
圖1:隨機(jī)森林算法流程圖
圖2:模型流程圖
其中隨機(jī)特征選擇即在樹的構(gòu)建中,首先從樣本集特征中隨機(jī)選擇部分特征,然后再從此子集中選擇最優(yōu)特征用于劃分,此隨機(jī)性導(dǎo)致隨機(jī)森林的偏差會有稍微的增加(相比于單棵樹),提升了算法多樣性,但由于隨機(jī)森林的平均特性,使得方差減小,模型具有更好效果。隨機(jī)森林通常基于Gini準(zhǔn)則進(jìn)行分裂節(jié)點(diǎn)純度度量,過程如下:
(1)假設(shè)原始訓(xùn)練集為N,用bootstrap法有放回隨機(jī)抽取k個(gè)新樣本集,構(gòu)建k棵分類樹,每次未被抽到的樣本組成k個(gè)袋外數(shù)據(jù)。
(2)設(shè)有m個(gè)變量,則每一棵樹的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取n個(gè)變量,然后在n中選取一個(gè)最具分類能力的變量,閾值通過檢查每一個(gè)分類點(diǎn)確定。
(3)每棵樹最大限度地生長, 不做任何修剪。
將生成的多棵分類樹組成隨機(jī)森林,用隨機(jī)森林分類器對新的數(shù)據(jù)進(jìn)行判別、分類,分類結(jié)果按投票多少而定,達(dá)到預(yù)測、分類目的。相比決策樹算法,它是決策樹算法的升級、集成,優(yōu)點(diǎn)如下:
(1)可以并行計(jì)算、效率高;
(2)既可處理離散型數(shù)據(jù),也可處理連續(xù)型數(shù)據(jù),無需規(guī)范化;
(3)不易產(chǎn)生過擬合,抗噪能力好。
目前存量3G終端升級為4G時(shí),往往需進(jìn)行相關(guān)終端、套餐等多種升級,不同的產(chǎn)品升級組合對于用戶的價(jià)值變化都會產(chǎn)生不同影響,需統(tǒng)籌考慮、加以引導(dǎo),有效提升4G業(yè)務(wù)量,機(jī)卡匹配率,達(dá)到如下期望目標(biāo):
(1)準(zhǔn)確定位3G升4G目標(biāo)用戶。
(2)估算潛在換機(jī)的目標(biāo)用戶數(shù),把握市場發(fā)展動(dòng)態(tài)。
(3)完成精準(zhǔn)換機(jī)建模思路、模型設(shè)計(jì)開發(fā)。
利用已有3G升4G換機(jī)模型,充分考慮前模型的優(yōu)缺點(diǎn),且結(jié)合最新的業(yè)務(wù)場景,優(yōu)化、豐富數(shù)據(jù)源特征標(biāo)簽、精細(xì)數(shù)據(jù)預(yù)處理、優(yōu)化模型算法,提升模型性能。整個(gè)優(yōu)化后模型框架包括業(yè)務(wù)理解、模型輸入、模型算法、模型輸出及模型應(yīng)用等部分。如圖2所示。
建模中,如何獲取高質(zhì)量數(shù)據(jù)源,對提高模型質(zhì)量、預(yù)測效果有重要影響,決定模型好壞,因此在選取數(shù)據(jù)源特征標(biāo)簽時(shí),要充分考慮所選特征標(biāo)簽數(shù)據(jù)對模型的貢獻(xiàn)度。
已有模型選取特征標(biāo)簽時(shí),僅僅考慮用戶所用終端的一些基本終端信息、所選套餐信息、相關(guān)補(bǔ)貼信息等,數(shù)據(jù)源特征標(biāo)簽有待進(jìn)一步優(yōu)化、豐富。隨著終端設(shè)備性能的提高,使用方式變得多樣性,產(chǎn)生一些新的特征標(biāo)簽來刻畫用戶的使用行為。首先現(xiàn)在用戶對于手機(jī)終端的使用不僅僅局限于傳統(tǒng)的通話、語音、短信等,更多是通過它,滿足一些興趣偏好,例如視頻、直播、游戲、購物等互聯(lián)網(wǎng)偏好;其次人們在考慮更換手機(jī)終端時(shí),通常基于性能已不能很好滿足自己的使用需求了,包括存儲性能、內(nèi)存性能等硬件指標(biāo);最后隨著用戶的換機(jī)頻率、更新頻率加快,需考慮終端的使用周期,即終端使用天數(shù),終端的平均使用天數(shù)等?;谏鲜隹紤],需針對已有數(shù)據(jù)源特征標(biāo)簽進(jìn)行完善、優(yōu)化利用優(yōu)化的特征標(biāo)簽數(shù)據(jù),作為模型輸入。由于數(shù)據(jù)源獲取中,常常含有噪聲、不完整,甚至不一致的數(shù)據(jù),需進(jìn)行相關(guān)預(yù)處理,提高數(shù)據(jù)質(zhì)量,主要包括:數(shù)據(jù)變量轉(zhuǎn)換、缺失值處理、壞數(shù)據(jù)處理、數(shù)據(jù)歸一化等數(shù)據(jù)預(yù)處理后,進(jìn)入整個(gè)模型的核心,即算法部分。綜合考慮,我們采用上面已詳細(xì)介紹的隨機(jī)森林算法。數(shù)據(jù)預(yù)處理后,并不是所有的特征標(biāo)簽字段都作為模型訓(xùn)練的輸入,將利用隨機(jī)森林特征重要度對數(shù)據(jù)源眾多特征標(biāo)簽進(jìn)行關(guān)聯(lián)性、重要性排序,選取重要性靠前、貢獻(xiàn)度大的特征標(biāo)簽作為模型輸入,繼而提高模型訓(xùn)練的效果。
以概率的形式給出,例如原始價(jià)值量、視頻偏好、購物偏好、總流量對模型的貢獻(xiàn)度較高,均超過10%,其次游戲偏好、套餐流量贈送量均超過5%,從而選取重要性靠前的若干Top特征標(biāo)簽作為模型輸入,少用或舍棄重要性靠后的特征標(biāo)簽。
基于現(xiàn)有各分類算法的特點(diǎn),采用隨機(jī)森林算法作為模型算法、進(jìn)行目標(biāo)用戶預(yù)測,整個(gè)隨機(jī)森林算法的偽代碼如下所示:
(1) For b=1 to B:
(a) Draw a bootstrap sample Z*of size N from the training data.
(b) Grow a random_forest tree Tbto the bootstrapped data by cursively repeating the following steps for each terminal node of the tree, until the minimum node size nminis reached.
i. Select m variable at random from the pvariables.
ii. Pick the best variable/ split-point among the m
iii. Split the node into two daughter nodes.
(2) Output the ensemble of trees
To make a prediction at a new point x:
整個(gè)過程包括數(shù)據(jù)選擇、模型訓(xùn)練、模型驗(yàn)證、模型測試、模型調(diào)優(yōu)等部分,采用沙箱模式,整個(gè)算法及常見算法包已封裝,重點(diǎn)關(guān)注于數(shù)據(jù)源、特征標(biāo)簽選取、模型參數(shù)調(diào)優(yōu)等,其中這里三個(gè)主要參數(shù)需調(diào)優(yōu):
(1)結(jié)點(diǎn)規(guī)模:隨機(jī)森林不像決策樹,每一棵樹葉結(jié)點(diǎn)所包含的觀察樣本數(shù)量可能較少,即生成樹時(shí),盡可能保持小偏差。
(2)樹的數(shù)量:根據(jù)實(shí)踐,往往根據(jù)實(shí)際情況,選擇相適應(yīng)的樹的規(guī)模。
(3)預(yù)測器采樣數(shù):一般來說,如果我們一共有D個(gè)預(yù)測器,那么我們可以在回歸任務(wù)中使用D/3個(gè)預(yù)測器數(shù)作為采樣數(shù),在分類任務(wù)中使用D^(1/2)個(gè)預(yù)測器作為抽樣。
模型訓(xùn)練、固化完畢,如何評價(jià)模型性能,現(xiàn)有一系列模型評價(jià)指標(biāo)對其進(jìn)行評判,包括準(zhǔn)確率、召回率、F1-Score值,平滑曲線、混淆矩陣等。所謂混淆矩陣即用矩陣中真實(shí)的與預(yù)測的因變量1的變化,來直觀觀察模型的質(zhì)量。通常以關(guān)注類為正類,其他類為負(fù)類,分類器在測試集上進(jìn)行正確與否的預(yù)測,4種情況總數(shù)分別記作:Tp—將正類預(yù)測為正類、Fn—將正類預(yù)測為負(fù)類、Fp—將負(fù)類預(yù)測為正類、Tn—將負(fù)類預(yù)測為負(fù)類。
從而可得出模型另外的一系列評價(jià)指標(biāo),準(zhǔn)確率p、召回率R、F1-Score值分別定義如下:
下面為特征標(biāo)簽優(yōu)化前后,模型混淆矩陣的優(yōu)劣程度對比,從而得出特征標(biāo)簽、算法優(yōu)化后模型的準(zhǔn)確率、召回率、F1值分別為80%、26%、19.7%,具有明顯提高。
由于正負(fù)樣本比例問題、模型參數(shù)的優(yōu)化等綜合考慮,我們采用正負(fù)樣本比例1:5的進(jìn)行模型固化,全量預(yù)測4月3G用戶在未來5、6、7三個(gè)月?lián)Q機(jī)情況,818076萬總量目標(biāo)用戶7月?lián)Q機(jī)情況,如下表3.5所示,預(yù)測的換機(jī)目標(biāo)用戶數(shù)為13220,進(jìn)一步查看8月真實(shí)3G換4G成功的用戶為2258,真實(shí)換機(jī)成功率為17%左右,模型優(yōu)化明顯。
相比已有模型,模型質(zhì)量、效果有所提高,但也存在著不足,具有進(jìn)一步提升空間,將來將基于下面內(nèi)容對模型進(jìn)一步優(yōu)化:
(1)目前特征標(biāo)簽僅基于終端基本信息、互聯(lián)網(wǎng)偏好、補(bǔ)貼基本信息,套餐使用情況等方面進(jìn)行優(yōu)化,尚有不足,后期可以基于時(shí)間跨度等方面構(gòu)造新的特征標(biāo)簽。
(2)數(shù)據(jù)源正負(fù)樣本比例近1:6.3,雖采用了采樣方式來規(guī)避樣本不均衡問題,但也存在諸多弊端,如何平衡正負(fù)樣本比例,是后期優(yōu)化的一個(gè)方向。
(3)此次模型采用了隨機(jī)森林算法,后期可以考慮算法融合、或引入新算法,對模型進(jìn)一步優(yōu)化。
綜上所述,分析已有模型的優(yōu)劣,進(jìn)行相應(yīng)處理,包括數(shù)據(jù)源特征標(biāo)簽優(yōu)化、數(shù)據(jù)源預(yù)處理、模型算法的選擇、模型參數(shù)優(yōu)化等方面,提升模型效果,提高目標(biāo)用戶換機(jī)成功率。此過程中,我們通過大數(shù)據(jù)、數(shù)據(jù)挖掘手段精準(zhǔn)挖掘潛在的非4G換機(jī)目標(biāo)用戶,并分析潛在目標(biāo)用戶的終端偏好、渠道觸點(diǎn)偏好、終端信息偏好、互聯(lián)網(wǎng)興趣偏好、套餐業(yè)務(wù)偏好等,針對性開展終端推介和渠道引導(dǎo),指導(dǎo)用戶換機(jī)、提升潛在目標(biāo)用戶換機(jī)成功率,拓展業(yè)務(wù),達(dá)到智慧營銷目的。