王雪瓊,熊珺潔,姚曉輝
(中國(guó)電信股份有限公司上海研究院,上海 200122)
基于大數(shù)據(jù)挖掘的終端換機(jī)模型
王雪瓊,熊珺潔,姚曉輝
(中國(guó)電信股份有限公司上海研究院,上海 200122)
目前,移動(dòng)終端已成為運(yùn)營(yíng)商維系用戶、拓展市場(chǎng)的戰(zhàn)略重心,提升移動(dòng)終端銷(xiāo)量、擴(kuò)大終端規(guī)模是各運(yùn)營(yíng)商的工作重點(diǎn)?;跀?shù)據(jù)挖掘技術(shù),從用戶屬性、終端使用信息、終端搜索訪問(wèn)信息等維度出發(fā),挖掘海量用戶行為數(shù)據(jù)價(jià)值,建立終端換機(jī)模型,具體包括基于決策樹(shù)算法的用戶換機(jī)傾向識(shí)別模型和基于聚類(lèi)算法的終端推薦模型,助力移動(dòng)終端精準(zhǔn)營(yíng)銷(xiāo)。
移動(dòng)終端營(yíng)銷(xiāo);數(shù)據(jù)挖掘;決策樹(shù);聚類(lèi)算法
移動(dòng)互聯(lián)網(wǎng)時(shí)代,OTT業(yè)務(wù)迅猛發(fā)展,中國(guó)移動(dòng)、中國(guó)電信和中國(guó)聯(lián)通三大運(yùn)營(yíng)商長(zhǎng)期賴(lài)以依存的語(yǔ)音和短信業(yè)務(wù)受到OTT應(yīng)用的嚴(yán)重侵蝕,2015年語(yǔ)音業(yè)務(wù)收入在移動(dòng)通信業(yè)務(wù)收入占比37.97%,比2014年下降12.7個(gè)百分點(diǎn)。為了應(yīng)對(duì)移動(dòng)互聯(lián)網(wǎng)的沖擊,各大運(yùn)營(yíng)商將流量經(jīng)營(yíng)作為工作重點(diǎn),力圖構(gòu)建智能管道,尋求以流量和增值服務(wù)帶動(dòng)收入增長(zhǎng)的模式。另一方面,電信市場(chǎng)出現(xiàn)一種協(xié)同競(jìng)爭(zhēng)的新局面——“端管云”,即手機(jī)終端、通信傳輸終端、云計(jì)算中心??梢?jiàn)作為OTT應(yīng)用載體的移動(dòng)終端已成為各大運(yùn)營(yíng)商競(jìng)相爭(zhēng)奪的利潤(rùn)高地。
雖然運(yùn)營(yíng)商希望通過(guò)移動(dòng)終端市場(chǎng)突破流量經(jīng)營(yíng)的瓶頸,但是通信市場(chǎng)已趨于飽和,工業(yè)和信息化部通信運(yùn)營(yíng)業(yè)統(tǒng)計(jì)公報(bào)顯示,2015年移動(dòng)電話用戶總數(shù)達(dá)13.06億戶,移動(dòng)電話用戶普及率達(dá)95.5部/百人,已經(jīng)不能通過(guò)大量增加新用戶來(lái)拉動(dòng)電信收入的增長(zhǎng)。當(dāng)前形勢(shì)下,運(yùn)營(yíng)商應(yīng)該更多地關(guān)注存量用戶的移動(dòng)終端使用情況,將終端銷(xiāo)售與高價(jià)值用戶的維系和拓展相結(jié)合。
隨著用戶數(shù)據(jù)量的激增,傳統(tǒng)的數(shù)據(jù)分析方法和營(yíng)銷(xiāo)方式受到巨大的挑戰(zhàn),急需引入大數(shù)據(jù)挖掘技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行深度挖掘,探索用戶消費(fèi)行為數(shù)據(jù)的潛在價(jià)值,支撐終端精準(zhǔn)營(yíng)銷(xiāo)。
目前,大數(shù)據(jù)挖掘技術(shù)在電信業(yè)務(wù)應(yīng)用方面的研究主要有:
[1]提出將大數(shù)據(jù)挖掘技術(shù)應(yīng)用到電信運(yùn)營(yíng)商終端營(yíng)銷(xiāo)上,但是沒(méi)有給出具體的建模方法;
·參考文獻(xiàn)[2]基于售前終端營(yíng)銷(xiāo)和售后終端能力分析兩大功能模塊,構(gòu)建支撐市場(chǎng)部和終端廠商的終端分析體系;
·參考文獻(xiàn)[3]利用大數(shù)據(jù)挖掘技術(shù)剖析用戶離網(wǎng)原因,確定目標(biāo)用戶群,進(jìn)而針對(duì)潛在離網(wǎng)用戶提出合理的營(yíng)銷(xiāo)政策和建議;
·參考文獻(xiàn)[4]基于Hadoop大數(shù)據(jù)架構(gòu)采集電信運(yùn)營(yíng)商網(wǎng)絡(luò)側(cè)的數(shù)據(jù),并對(duì)海量數(shù)據(jù)進(jìn)行加工分析,挖掘掩藏于其中的用戶行為特征,構(gòu)建用戶行為分析模型,展現(xiàn)了用戶行為分析系統(tǒng)的設(shè)計(jì)思路與實(shí)現(xiàn)方法;
·參考文獻(xiàn)[5]基于統(tǒng)計(jì)分析和數(shù)據(jù)挖掘技術(shù),針對(duì)手機(jī)垃圾短信治理效果不佳等問(wèn)題設(shè)計(jì)了垃圾短信過(guò)濾系統(tǒng)。該系統(tǒng)根據(jù)實(shí)時(shí)獲取的垃圾短信自動(dòng)生成過(guò)濾規(guī)則,在短信轉(zhuǎn)發(fā)階段進(jìn)行過(guò)濾。
本文總結(jié)了數(shù)據(jù)處理的主要方法,并基于大數(shù)據(jù)挖掘技術(shù),多角度綜合分析了用戶的消費(fèi)行為數(shù)據(jù)、移動(dòng)DPI數(shù)據(jù)和終端使用數(shù)據(jù),詳細(xì)闡述了數(shù)據(jù)處理、模型構(gòu)建以及模型評(píng)估的具體過(guò)程,實(shí)現(xiàn)以下功能:
·基于決策樹(shù)算法構(gòu)建用戶換機(jī)傾向識(shí)別模型,有效預(yù)測(cè)未來(lái)兩個(gè)月內(nèi)最有可能更換終端的目標(biāo)用戶;
·基于聚類(lèi)算法分別構(gòu)建用戶流量—價(jià)值九宮格、終端價(jià)格—性能九宮格,實(shí)現(xiàn)用戶業(yè)務(wù)價(jià)值和終端的標(biāo)簽細(xì)化;
·根據(jù)業(yè)務(wù)價(jià)值和終端細(xì)化標(biāo)簽結(jié)果,為目標(biāo)用戶匹配合適的終端,引導(dǎo)營(yíng)銷(xiāo)策略。
數(shù)據(jù)挖掘一般指利用算法搜索隱藏于海量數(shù)據(jù)中的重要信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)??缧袠I(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn) (cross-industry standard process for data mining,CRISP-DM)將一個(gè)完整的數(shù)據(jù)挖掘項(xiàng)目周期分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評(píng)估和部署6個(gè)階段。圖1中的箭頭指出了各個(gè)階段之間最重要和頻繁的關(guān)聯(lián)依賴(lài),圖形的外圈表達(dá)了數(shù)據(jù)挖掘本身的循環(huán)特性。
圖1 CRISP-DM標(biāo)準(zhǔn)
2.1 數(shù)據(jù)處理
數(shù)據(jù)質(zhì)量對(duì)數(shù)據(jù)挖掘結(jié)果有至關(guān)重要的影響,在數(shù)據(jù)挖掘項(xiàng)目中,接近60%的時(shí)間和精力用來(lái)熟悉、處理和轉(zhuǎn)換數(shù)據(jù),最大限度保證數(shù)據(jù)的可用性。
(1)數(shù)據(jù)抽樣
若數(shù)據(jù)全集規(guī)模太大,針對(duì)數(shù)據(jù)全集進(jìn)行分析建模會(huì)消耗較多時(shí)間,有時(shí)過(guò)大的數(shù)據(jù)量會(huì)導(dǎo)致軟件運(yùn)行時(shí)崩潰。而采用合理的數(shù)據(jù)抽樣,會(huì)明顯降低這些負(fù)面影響且不會(huì)影響建模效果。在抽樣時(shí)要確保輸入變量的值域、分布,輸出變量的值域、分布與數(shù)據(jù)全集的保持一致。另一種是預(yù)測(cè)小概率事件時(shí)的抽樣,將在第3.6節(jié)介紹。
(2)數(shù)據(jù)審核
在獲取數(shù)據(jù)后對(duì)數(shù)據(jù)進(jìn)行一致性檢查。一致性檢查是指根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否合乎要求,發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù)。進(jìn)一步,統(tǒng)計(jì)缺失值、異常值比例,評(píng)估數(shù)據(jù)可用性。最后處理缺失值和異常值。
(3)數(shù)據(jù)轉(zhuǎn)換
根據(jù)采用轉(zhuǎn)換的邏輯和目的的不同,數(shù)據(jù)轉(zhuǎn)換可分為4類(lèi):產(chǎn)生衍生變量,通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行簡(jiǎn)單、適當(dāng)?shù)臄?shù)學(xué)公式推導(dǎo),產(chǎn)生更加有業(yè)務(wù)意義的新變量;連續(xù)數(shù)據(jù)的離散化,為了降低變量的復(fù)雜性,提升預(yù)測(cè)能力,可以利用分箱變換將連續(xù)型變量轉(zhuǎn)換成名義型變量 (例如年齡變量,每10歲構(gòu)成一個(gè)年齡組,可以有效簡(jiǎn)化數(shù)據(jù));改善變量的分布,針對(duì)不對(duì)稱(chēng)分布的變量,運(yùn)用各種數(shù)學(xué)變換將其分布呈現(xiàn)(或近似)正態(tài)分布;數(shù)據(jù)標(biāo)準(zhǔn)化,該變換的主要目的是將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)小的區(qū)間范圍內(nèi),消除量綱的影響,使其有平等分析和比較的基礎(chǔ)。
(4)篩選有效的輸入變量
過(guò)多的輸入變量會(huì)帶來(lái)干擾和過(guò)擬合等問(wèn)題,導(dǎo)致模型穩(wěn)定性下降,因此要遵循少而精的原則。主要方法有:結(jié)合業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行篩選,很多情況下可以根據(jù)業(yè)務(wù)專(zhuān)家的商業(yè)敏感性有效縮小自變量的考察范圍;計(jì)算變量間的相關(guān)系數(shù)(如皮爾遜相關(guān)系數(shù)),若兩個(gè)變量間的相關(guān)系數(shù)大于或等于0.6,說(shuō)明兩個(gè)變量間存在中度以上線性關(guān)系,建模時(shí)只需保留一個(gè)。
2.2 樣本說(shuō)明
模型總是在某一樣本基礎(chǔ)上建立的,將最大限度反映該樣本的“核心行為”,但由于樣本抽樣的隨機(jī)性,無(wú)法確定該模型在其他樣本上的表現(xiàn)。為了能更好地評(píng)判模型效果,需將建模數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,通常訓(xùn)練集與測(cè)試集樣本比例為1∶1。訓(xùn)練集用于建立模型,包含實(shí)際目標(biāo)值為1的正樣本與實(shí)際目標(biāo)值為0的負(fù)樣本。測(cè)試集用于評(píng)估模型效果,包含實(shí)際目標(biāo)值為1的正樣本與實(shí)際目標(biāo)值為0的負(fù)樣本。模型應(yīng)用數(shù)據(jù)是指用于預(yù)測(cè)的數(shù)據(jù),該部分?jǐn)?shù)據(jù)沒(méi)有目標(biāo)值,將其作用到構(gòu)建好的模型上,得到實(shí)際預(yù)測(cè)用戶名單。樣本說(shuō)明如圖2所示。
本文從中國(guó)電信某省公司本地網(wǎng)中抽取50萬(wàn)戶用戶的數(shù)據(jù)進(jìn)行挖掘分析,首先根據(jù)用戶歷史行為數(shù)據(jù)構(gòu)建換機(jī)傾向識(shí)別模型,識(shí)別出2016年9月和10月份有換機(jī)傾向的用戶;再根據(jù)用戶現(xiàn)用終端和消費(fèi)行為信息構(gòu)建終端推薦模型,為用戶推薦合適的終端,實(shí)現(xiàn)終端的精準(zhǔn)營(yíng)銷(xiāo)。本文結(jié)合SPSSModeler軟件詳細(xì)闡述模型構(gòu)建過(guò)程。
3.1 模型輸入
首先確定寬表的數(shù)據(jù)窗口、觀察月份、目標(biāo)日期(數(shù)據(jù)窗口的最后一天)。本文的數(shù)據(jù)窗口選取2016年4月、5月和6月,觀察月份選取2016年7月和8月。選取的變量維度如下。
(1)用戶基本屬性維度
用戶唯一標(biāo)識(shí)、地市編碼、年齡、性別、在網(wǎng)時(shí)長(zhǎng)、客戶渠道、是否合約用戶、合約到期時(shí)間等。
(2)終端使用信息維度
現(xiàn)用終端上市日期,現(xiàn)用終端主屏幕尺寸,現(xiàn)用和歷史終端價(jià)格、品牌、類(lèi)型、終端注冊(cè)時(shí)間,追溯至n-3款。
(3)用戶消費(fèi)行為信息維度
用戶的ARPU(average revenue per user,每用戶平均收入)值和流量使用量。
(4)終端搜索訪問(wèn)信息(移動(dòng)DPI數(shù)據(jù))維度
視頻、音樂(lè)、游戲、地圖、打車(chē)和網(wǎng)購(gòu)App使用次數(shù),視頻、音樂(lè)、游戲、地圖、打車(chē)和網(wǎng)購(gòu)App流量使用量等。
3.2 數(shù)據(jù)審核
全面審核樣本數(shù)據(jù),利用SPSSModeler軟件中的數(shù)據(jù)審核節(jié)點(diǎn)查看各變量的最小值、最大值、平均值、標(biāo)準(zhǔn)差,異常值、離群值的個(gè)數(shù)以及缺失值的比例,評(píng)估數(shù)據(jù)的可用性,如圖3所示。將離群值和缺失值進(jìn)行強(qiáng)制轉(zhuǎn)換,用最接近的正常值進(jìn)行替換。圖3顯示合約到期時(shí)間缺失值占70%,這主要是由于只有29%左右的用戶辦理合約套餐,在建模時(shí)這個(gè)字段可以不作為輸入變量,但可以計(jì)算剩余協(xié)議時(shí)長(zhǎng),剩余協(xié)議時(shí)長(zhǎng)小于6個(gè)月的用戶優(yōu)先營(yíng)銷(xiāo)。
3.3 生成衍生變量
(1)換機(jī)標(biāo)識(shí)
將在觀察月份內(nèi)更換終端的用戶標(biāo)識(shí)為1,作為建模的正樣本,否則標(biāo)識(shí)為0,作為負(fù)樣本。根據(jù)現(xiàn)用終端注冊(cè)時(shí)間確認(rèn)用戶在觀察月份內(nèi)是否換機(jī)。
圖2 樣本說(shuō)明
圖3 數(shù)據(jù)審核結(jié)果
(2)現(xiàn)用終端持機(jī)時(shí)長(zhǎng)和歷史平均持機(jī)時(shí)長(zhǎng)
根據(jù)目標(biāo)日期和現(xiàn)用終端注冊(cè)時(shí)間計(jì)算現(xiàn)用終端持機(jī)時(shí)長(zhǎng),根據(jù)現(xiàn)用終端注冊(cè)時(shí)間、歷史前一終端注冊(cè)時(shí)間、歷史前二終端注冊(cè)時(shí)間分別計(jì)算歷史前一終端持機(jī)時(shí)長(zhǎng)、歷史前二終端持機(jī)時(shí)長(zhǎng),利用歷史前一終端持機(jī)時(shí)長(zhǎng)和歷史前二終端持機(jī)時(shí)長(zhǎng)計(jì)算歷史平均持機(jī)時(shí)長(zhǎng);進(jìn)一步生成衍生變量是否達(dá)到換機(jī)周期,若現(xiàn)用終端持機(jī)時(shí)長(zhǎng)大于歷史平均持機(jī)時(shí)長(zhǎng),則取值為1,否則取值為0。
(3)剩余協(xié)議時(shí)長(zhǎng)
根據(jù)目標(biāo)日期和合約到期時(shí)間計(jì)算剩余協(xié)議時(shí)長(zhǎng),以月為單位。
(4)ARPU和流量的平均值及趨勢(shì)
通常選取用戶3個(gè)月的行為數(shù)據(jù)進(jìn)行分析,首先分別計(jì)算2016年4月、5月和6月ARPU均值和流量均值。但均值不能衡量用戶消費(fèi)能力的變化,進(jìn)一步計(jì)算兩個(gè)趨勢(shì)變量,分別刻畫(huà)用戶消費(fèi)能力的變化趨勢(shì)及活躍程度。若用戶6月的ARPU(流量)大于或等于ARPU(流量)平均值,則取值為1,否則取值為-1。
(5)應(yīng)用訪問(wèn)總次數(shù)和總流量
本文選取了6種App 3個(gè)月的使用次數(shù)和流量使用量,共36個(gè)字段,字段過(guò)多不能直接用于建模,要生成兩個(gè)能衡量用戶上網(wǎng)偏好的變量。計(jì)算6個(gè)App 3個(gè)月訪問(wèn)次數(shù)的總和得到應(yīng)用訪問(wèn)總次數(shù),同理得到應(yīng)用訪問(wèn)總流量。
(6)品牌忠誠(chéng)度
利用每個(gè)用戶現(xiàn)用和歷史終端品牌分4機(jī)忠誠(chéng)、3機(jī)忠誠(chéng)和2機(jī)忠誠(chéng)計(jì)算忠誠(chéng)品牌,考察用戶是否對(duì)某個(gè)品牌終端有偏好。若有忠誠(chéng)品牌,品牌忠誠(chéng)度變量取值為1,否則取值為0。
3.4 變量離散化
現(xiàn)用終端價(jià)格、在網(wǎng)時(shí)長(zhǎng)、年齡等字段都是連續(xù)型變量,為了降低變量的復(fù)雜性,可以利用SPSSModeler軟件中的分箱節(jié)點(diǎn)對(duì)變量進(jìn)行離散化。該節(jié)點(diǎn)提供多種分箱方法,如固定寬度、分位數(shù)、等級(jí)、最優(yōu)等方法,本文應(yīng)用分位數(shù)方法,將現(xiàn)用終端持機(jī)時(shí)長(zhǎng)、歷史平均持機(jī)時(shí)長(zhǎng)、現(xiàn)用終端價(jià)格、在網(wǎng)時(shí)長(zhǎng)、應(yīng)用訪問(wèn)總流量、應(yīng)用訪問(wèn)總次數(shù)、年齡、ARPU均值、流量均值進(jìn)行離散化。
3.5 變量篩選
經(jīng)過(guò)數(shù)據(jù)預(yù)處理,可以用于建模的變量有性別,品牌忠誠(chéng)度,ARPU趨勢(shì),流量趨勢(shì),是否達(dá)到換機(jī)周期,主屏幕尺寸,離散化的現(xiàn)用終端持機(jī)時(shí)長(zhǎng)、歷史平均持機(jī)時(shí)長(zhǎng)、現(xiàn)用終端價(jià)格、在網(wǎng)時(shí)長(zhǎng)、應(yīng)用訪問(wèn)總流量、應(yīng)用訪問(wèn)總次數(shù)、年齡、ARPU均值、流量均值,本文利用SPSSModeler中的特征選擇節(jié)點(diǎn),計(jì)算每個(gè)變量的重要性,篩選出13個(gè)重要建模變量,剔除品牌忠誠(chéng)度和離散化的歷史平均持機(jī)時(shí)長(zhǎng),結(jié)果如圖4所示。
圖4 變量選擇結(jié)果
3.6 模型構(gòu)建
在建模前需用SPSSModeler中的分區(qū)節(jié)點(diǎn)將建模樣本分為訓(xùn)練集和測(cè)試集,占比為1∶1。數(shù)據(jù)審核發(fā)現(xiàn)本文選取的樣本中只有15%的用戶換機(jī),由于模型總是力爭(zhēng)使錯(cuò)誤率最小化,若直接在這種分布上建立分類(lèi)模型,所得的模型會(huì)偏向占比較高的非換機(jī)用戶,對(duì)該部分用戶的預(yù)測(cè)精度較高,但不能有效識(shí)別出換機(jī)用戶,因此在訓(xùn)練集上要對(duì)樣本進(jìn)行平衡,使得換機(jī)用戶與非換機(jī)用戶的比例為1∶1。
用于分類(lèi)模型的算法主要有決策樹(shù)C5.0、決策樹(shù)CHAID、神經(jīng)網(wǎng)絡(luò)等,如何從眾多的算法中選取最合適的構(gòu)建模型是一個(gè)難點(diǎn)。SPSSModeler中的自動(dòng)分類(lèi)器節(jié)點(diǎn)利用整體精確性和增益等指標(biāo)衡量各個(gè)算法的優(yōu)劣。綜合考慮增益和總體精確性?xún)蓚€(gè)指標(biāo)發(fā)現(xiàn)決策樹(shù)CHAID算法比較理想,如圖5所示,故選取決策樹(shù)CHAID算法進(jìn)一步精準(zhǔn)建模。CHAID模型給出預(yù)測(cè)變量的重要性排序,圖6顯示ARPU趨勢(shì),流量趨勢(shì),離散化的在用終端持機(jī)時(shí)長(zhǎng)、終端價(jià)格、應(yīng)用訪問(wèn)總次數(shù)和主屏幕尺寸這些變量對(duì)模型構(gòu)建起關(guān)鍵作用。
圖5 自動(dòng)分類(lèi)器結(jié)果
圖6 CHAID模型運(yùn)行結(jié)果
3.7 模型評(píng)估
對(duì)建立好的模型做進(jìn)一步的評(píng)估和優(yōu)化,有兩種常用的方法。
(1)SPSSModeler中的分析節(jié)點(diǎn)
該節(jié)點(diǎn)分別給出模型在訓(xùn)練集和測(cè)試集上的正確率,對(duì)模型的準(zhǔn)確性給出整體描述。將分析節(jié)點(diǎn)作用到CHAID模型上,圖7顯示測(cè)試集的正確率為73%,訓(xùn)練集上的正確率為81%。
圖7 分析節(jié)點(diǎn)結(jié)果
(2)在測(cè)試集上計(jì)算命中率和覆蓋率
命中率反映模型輸出的預(yù)測(cè)目標(biāo)對(duì)執(zhí)行效率的提升情況,計(jì)算式為預(yù)測(cè)成功換機(jī)/預(yù)測(cè)換機(jī);覆蓋率反映模型輸出的預(yù)測(cè)目標(biāo)在實(shí)際換機(jī)人群中的覆蓋情況,計(jì)算式為預(yù)測(cè)成功換機(jī)/實(shí)際換機(jī)。針對(duì)本例,預(yù)測(cè)換機(jī)人數(shù)為54 182人,實(shí)際換機(jī)人數(shù)為37 099,預(yù)測(cè)中實(shí)際換機(jī)人數(shù)為22 767人,計(jì)算命中率為42.1%,比原始濃度(15%)提升2.8倍,覆蓋率為61.3%。。
3.8 模型優(yōu)化
模型測(cè)試集的正確率只有73%,需要對(duì)模型做進(jìn)一步的優(yōu)化。重新審視建模過(guò)程,發(fā)現(xiàn)將現(xiàn)用終端持機(jī)時(shí)長(zhǎng)、歷史終端持機(jī)時(shí)長(zhǎng)、現(xiàn)用終端價(jià)格、在網(wǎng)時(shí)長(zhǎng)、應(yīng)用訪問(wèn)總流量、應(yīng)用訪問(wèn)總次數(shù)、年齡、ARPU均值、流量均值進(jìn)行離散化時(shí)都用的是分位數(shù)法,沒(méi)有考慮各變量與目標(biāo)變量(換機(jī)標(biāo)識(shí))間的關(guān)系,因此在離散化時(shí)應(yīng)選取綜合考慮目標(biāo)變量的最優(yōu)法進(jìn)行分箱。調(diào)整后繼續(xù)運(yùn)行自動(dòng)分類(lèi)器節(jié)點(diǎn),如圖8所示。結(jié)合增益和總體精確性?xún)蓚€(gè)指標(biāo)綜合考慮,選取決策樹(shù)CHAID算法進(jìn)一步精準(zhǔn)建模,結(jié)果如圖9、圖10所示。
圖11顯示訓(xùn)練集和測(cè)試集的正確率均超過(guò)94%,預(yù)測(cè)換機(jī)人數(shù)為45 628人,實(shí)際換機(jī)人數(shù)為37 099人,預(yù)測(cè)中實(shí)際換機(jī)人數(shù)為35 002人,計(jì)算命中率為76.7%,比原始濃度(15%)提升5倍,覆蓋率為94.3%,模型效果提升明顯。
圖8 自動(dòng)分類(lèi)器運(yùn)行結(jié)果
圖9 CHAID模型運(yùn)行結(jié)果
圖10 CHAID模型運(yùn)行結(jié)果
圖11 分析節(jié)點(diǎn)結(jié)果
本模型利用全網(wǎng)終端價(jià)格和性能的聚類(lèi)細(xì)分特征,構(gòu)建終端價(jià)格—性能九宮格,并結(jié)合高換機(jī)傾向用戶的終端九宮格標(biāo)簽和價(jià)值標(biāo)簽為其推薦合適的終端。本模型的數(shù)據(jù)處理與換機(jī)傾向識(shí)別模型類(lèi)似,這里不再贅述。
4.1 模型輸入
用戶基本屬性維度:用戶唯一標(biāo)識(shí)、地市、是否合約用戶、合約到期時(shí)間。
終端使用信息維度:現(xiàn)用終端價(jià)格,現(xiàn)用終端型號(hào),現(xiàn)用終端上市日期,現(xiàn)用和歷史終端品牌、類(lèi)型,追溯至n-3款等。
用戶消費(fèi)行為信息維度:用戶的ARPU值和流量使用量。
全網(wǎng)終端信息:全網(wǎng)終端主屏幕尺寸(screen_size)、屏幕分辨率(resolution)、電池容量(battery)、主攝像頭(camera)、RAM和AP主頻(CPU)。
4.2 終端九宮格構(gòu)建
終端九宮格是將在售和已退市(但仍有人使用)的所有終端按性能和價(jià)格分別聚為高中低3類(lèi),為每款終端賦予九宮格標(biāo)簽。根據(jù)終端型號(hào),關(guān)聯(lián)出目標(biāo)用戶終端的九宮格標(biāo)簽。
(1)構(gòu)建終端數(shù)據(jù)庫(kù)
利用集團(tuán)終端自注冊(cè)信息獲取全網(wǎng)用戶在用終端/歷史終端的性能、價(jià)格、上市時(shí)間等信息。若部分終端的價(jià)格和性能信息缺失,可通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具獲取;若終端自注冊(cè)信息覆蓋的終端型號(hào)不全,也需通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具獲取該部分終端的價(jià)格和性能信息。
(2)終端價(jià)格聚類(lèi)
先剔除極端值,再利用k-means算法將終端聚為3類(lèi),分別為高價(jià)格、中價(jià)格和低價(jià)格,再將剔除掉的極大值歸入高價(jià)格類(lèi)中,極小值歸入低價(jià)格類(lèi)中,結(jié)果如圖12所示。
(3)終端性能聚類(lèi)
選取最能反映終端性能的主屏幕尺寸、屏幕分辨率、電池容量、主攝像頭、RAM和AP主頻6個(gè)指標(biāo),利用k-means算法將終端聚為高性能、中等性能和低性能3類(lèi),結(jié)果如圖13所示。
圖12 價(jià)格聚類(lèi)
圖13 性能聚類(lèi)
(4)構(gòu)建終端九宮格
利用k-means算法,為每一個(gè)終端輸出兩類(lèi)標(biāo)簽,分別是價(jià)格標(biāo)簽(高價(jià)格、中價(jià)格、低價(jià)格)和性能標(biāo)簽(高性能、中等性能、低性能)。通過(guò)兩兩組合得到如圖14所示的9個(gè)標(biāo)簽,即每一個(gè)終端的最后標(biāo)簽是9宮格內(nèi)的數(shù)字。將部分終端歸入九宮格內(nèi),結(jié)果如圖15所示。
4.3 用戶價(jià)值標(biāo)簽
體現(xiàn)用戶價(jià)值的指標(biāo)有ARPU值、流量使用量(flux)和語(yǔ)音計(jì)費(fèi)時(shí)長(zhǎng)等,但高性能終端對(duì)語(yǔ)音計(jì)費(fèi)時(shí)長(zhǎng)提升不大,對(duì)流量使用量提升較大,進(jìn)而提升ARPU值。因此在構(gòu)建用戶價(jià)值九宮格時(shí),不考慮語(yǔ)音計(jì)費(fèi)時(shí)長(zhǎng),利用k-means算法分別對(duì)用戶ARPU值和流量進(jìn)行聚類(lèi),處理方法與終端價(jià)格聚類(lèi)相同,結(jié)果如圖16所示。
4.4 用戶—終端標(biāo)簽分析
根據(jù)終端型號(hào)關(guān)聯(lián)目標(biāo)用戶的終端九宮格標(biāo)簽,分析這些用戶的終端和價(jià)值信息,可以看出:
·大量用戶屬于低流量、低ARPU值,并且使用低價(jià)格低性能終端(第9類(lèi));
圖14 終端的9個(gè)標(biāo)簽
·第5、第6類(lèi)終端用戶中,中高流量、中高ARPU值的用戶可以?xún)?yōu)先進(jìn)行終端引導(dǎo)升級(jí);
·使用第1類(lèi)終端,且高ARPU值的用戶為高價(jià)值用戶,需要關(guān)懷,可向其推薦高檔終端,引導(dǎo)其換機(jī)。
4.5 終端推薦遷轉(zhuǎn)路徑
基于兩個(gè)原則設(shè)計(jì)遷轉(zhuǎn)路徑。一是終端性能維度遷移,用戶在花銷(xiāo)變化不大(同價(jià)格段)的基礎(chǔ)上,更愿意購(gòu)買(mǎi)性能升級(jí)的終端;二是終端價(jià)格維度遷移,高ARPU用戶消費(fèi)水平較高,可向其推薦高價(jià)格終端。根據(jù)上述原則,結(jié)合用戶的價(jià)值標(biāo)簽設(shè)計(jì)簽轉(zhuǎn)路徑如圖17所示。本文假定要營(yíng)銷(xiāo)的目標(biāo)終端九宮格標(biāo)簽為1、2、5、6,故遷轉(zhuǎn)路徑的目標(biāo)只包含這4個(gè)格子。
4.6 目標(biāo)終端推薦
首先確定具有換機(jī)傾向用戶的現(xiàn)用終端九宮格標(biāo)簽,再結(jié)合用戶的價(jià)值標(biāo)簽按照?qǐng)D17所示的簽轉(zhuǎn)路徑確定該用戶最適合的終端九宮格標(biāo)簽,應(yīng)向其優(yōu)先推薦該格內(nèi)的目標(biāo)終端。營(yíng)銷(xiāo)時(shí)還要考慮以下兩點(diǎn):
·品牌忠誠(chéng)度。若用戶有忠誠(chéng)品牌,則優(yōu)先推薦該品牌終端;
·剩余協(xié)議時(shí)長(zhǎng)。優(yōu)先向剩余協(xié)議時(shí)長(zhǎng)小于6個(gè)月的用戶推薦終端。
圖15 終端九宮格示例
本文根據(jù)筆者日常工作的實(shí)踐經(jīng)驗(yàn)總結(jié)了數(shù)據(jù)預(yù)處理的相關(guān)方法,并基于中國(guó)電信某省公司本地網(wǎng)50萬(wàn)戶用戶的終端信息和行為數(shù)據(jù),詳細(xì)闡述了用戶換機(jī)傾向識(shí)別模型和終端推薦模型的構(gòu)建、評(píng)估過(guò)程。首先利用換機(jī)傾向識(shí)別模型預(yù)測(cè)出2016年9月和10月具有換機(jī)傾向的用戶,再結(jié)合終端推薦模型給出的這些用戶的現(xiàn)用終端九宮格標(biāo)簽、用戶價(jià)值標(biāo)簽,待營(yíng)銷(xiāo)的目標(biāo)終端九宮格標(biāo)簽和終端遷轉(zhuǎn)路徑向其推薦合適的終端。
圖16 ARPU聚類(lèi)和流量聚類(lèi)
圖17 遷轉(zhuǎn)路徑
參考文獻(xiàn):
[1]鄧逸斌,朱克雋.大數(shù)據(jù)挖掘助力電信運(yùn)營(yíng)商終端營(yíng)銷(xiāo)[J].中國(guó)新通信,2013,43(23):43-44. DENG Y B,ZHU K J.Terminal marketing promotion based on big data[J].China New Telecommunications,2013,43(23): 43-44.
[2]張勇.基于大數(shù)據(jù)挖掘的客戶換機(jī)傾向評(píng)估模型研究 [J].數(shù)字通信世界,2016,144(7). ZHANG Y.Terminal replaced inclination evaluated based on big data[J].Digital Communication World,2016,144(7).
[3]趙一平.運(yùn)用數(shù)據(jù)挖掘技術(shù)控制手機(jī)客戶離網(wǎng)淺析 [J].統(tǒng)計(jì)科學(xué)與實(shí)踐,2013(10):46-47. ZHAO Y P.Analysis of customer churn based on big data[J]. Zhejiang Statistics,2013(10):46-47.
[4]谷紅勛,楊珂.基于大數(shù)據(jù)的移動(dòng)用戶行為分析系統(tǒng)與應(yīng)用案例[J].電信科學(xué),2016,32(3):139-146. GU H X,YANG K.Mobile user behavior analysis system and applications based on big data[J].Telecommunications Science, 2016,32(3):139-146.
[5]沈超,黃衛(wèi)東.數(shù)據(jù)挖掘在垃圾短信過(guò)濾中的應(yīng)用 [J].電子科技大學(xué)學(xué)報(bào),2009,38(s1):21-24. SHEN C,HUANG W D.Application of data mining in short message spam filtering[J].Journal of University of Electronic Science and Technology of China,2009,38(s1):21-24.
王雪瓊(1987-),女,中國(guó)電信股份有限公司上海研究院助理工程師,主要研究方向?yàn)閿?shù)據(jù)分析、數(shù)據(jù)挖掘與建模。
熊珺潔(1983-),女,中國(guó)電信股份有限公司上海研究院工程師,主要研究方向?yàn)榇髷?shù)據(jù)分析與建模、無(wú)線網(wǎng)絡(luò)的可靠性。
姚曉輝(1979-),男,中國(guó)電信股份有限公司上海研究院工程師,大數(shù)據(jù)領(lǐng)域首席技術(shù)支撐,主要研究方向?yàn)閿?shù)據(jù)規(guī)劃、數(shù)據(jù)挖掘、信息管理。
Terminal replacement model based on big data mining
WANG Xueqiong,XIONG Junjie,YAO Xiaohui
Shanghai Research Institute of China Telecom Co.,Ltd.,Shanghai 200122,China
In order to incrementally capture,retain and grow the subscriber bases,mobile operators must more effectively maximize the utilization of big data.Promoting the sale of mobile terminals was one of the focus of the operator’s business currently.By mining the big data of consumer behaviors,including consumers’attributes, mobile terminal information and DPI data,replacing inclination distinguished model was built based on decision tree and recommending model was built based on clustering algorithm to identify target customers.
mobile terminal recommendation,data mining,decision tree,clustering algorithm
F274
A
10.11959/j.issn.1000-0801.2016314
2016-12-02;
2016-12-10