戴 琳,張 悅,韋 玉,景子倩,張 沫,宮 婧
(南京郵電大學(xué) 理學(xué)院,江蘇 南京 210000)
基于WEKA平臺的移動客戶流量消費(fèi)分析
戴 琳,張 悅,韋 玉,景子倩,張 沫,宮 婧
(南京郵電大學(xué) 理學(xué)院,江蘇 南京 210000)
隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,手機(jī)網(wǎng)民規(guī)模迅速擴(kuò)張,作為移動互聯(lián)網(wǎng)關(guān)鍵環(huán)節(jié)的中國移動正面臨著這一機(jī)遇與挑戰(zhàn);如何根據(jù)用戶的業(yè)務(wù)使用情況,對移動客戶流量消費(fèi)進(jìn)行分析是增加業(yè)務(wù)收入、提高用戶滿意度的重要研究課題。文中主要研究了基于WEKA平臺的移動客戶流量消費(fèi)分析。首先,進(jìn)行客戶群與客戶發(fā)展趨勢的細(xì)分,對用戶業(yè)務(wù)數(shù)據(jù)進(jìn)行特征選擇、數(shù)據(jù)清洗以及數(shù)據(jù)類型轉(zhuǎn)換的預(yù)處理。其次,以客戶群作為添加屬性,以客戶發(fā)展趨勢作為目標(biāo)屬性,基于WEKA平臺的決策樹算法對預(yù)處理后的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,建立手機(jī)上網(wǎng)用戶的決策樹模型。最后,根據(jù)移動公司提供的2萬條客戶業(yè)務(wù)數(shù)據(jù)對模型進(jìn)行驗(yàn)證。結(jié)果表明,當(dāng)樣本數(shù)在10 000至20 000時(shí),模型有很好的分類預(yù)測效果,能夠挖掘出潛在的高流量用戶,從而達(dá)到精確營銷的目的。
移動客戶流量消費(fèi);WEKA;決策樹;分類預(yù)測;精確營銷
現(xiàn)如今,移動通信流量業(yè)務(wù)的發(fā)展變得高速化多樣化,經(jīng)營競爭環(huán)境愈演愈烈,對該行業(yè)的服務(wù)需求提出了更高、更新的要求。流量時(shí)代客戶的流量消費(fèi)行為具有更大的彈性和更大的粘性。而移動通信業(yè)流量業(yè)務(wù)的爆炸性增長也成為移動運(yùn)營商必須面對的問題。利用數(shù)據(jù)挖掘[1-2]在這些海量數(shù)據(jù)背后及時(shí)發(fā)現(xiàn)有用的知識,提高流量信息利用率,滿足客戶需求,實(shí)現(xiàn)精細(xì)化營銷[3]變得十分重要。如何盡量滿足客戶對流量的多樣需求,如今對移動通信業(yè)具有革命性的意義。
一直以來,國內(nèi)外學(xué)者致力于改進(jìn)決策樹算法[4-5]來對客戶進(jìn)行分類,從而預(yù)測潛在的高流量用戶[6]。實(shí)踐表明,算法的改進(jìn)確實(shí)提高了模型的效果,但是,改進(jìn)算法畢竟只是一方面,若能從其他方面雙管齊下,必然會取得意想不到的效果。文中的創(chuàng)新點(diǎn)在于先對客戶群進(jìn)行細(xì)分,并添加客戶群作為客戶的屬性,最后建立手機(jī)上網(wǎng)用戶的決策樹模型。
數(shù)據(jù)預(yù)處理[7-8]的效果會直接影響到模型的性能與分類預(yù)測的效果。一方面,通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,可以使建立的模型更準(zhǔn)確、簡單且便于理解;另一方面,可以降低學(xué)習(xí)算法的時(shí)間和空間復(fù)雜度。文中先將客戶群與客戶發(fā)展趨勢作為客戶新衍生出的屬性,然后基于新數(shù)據(jù)進(jìn)行數(shù)據(jù)的微處理,包括特征選擇[9]、數(shù)據(jù)清洗[10]以及數(shù)據(jù)類型的轉(zhuǎn)換。
1.1 客戶群的細(xì)分
分析客戶業(yè)務(wù)數(shù)據(jù),對其進(jìn)一步處理得到客戶群的細(xì)分,將其分為四類,如圖1所示。
圖1 客戶群細(xì)分
為將客戶群劃分為以上四類,文中定義了客戶群閾值作為細(xì)分客戶群的標(biāo)準(zhǔn)。
(1)客戶群閾值的定義。
客戶群閾值:移動互聯(lián)網(wǎng)用戶屬于哪一類客戶群的分界值。文中給出了兩大標(biāo)準(zhǔn):客戶的月平均使用流量和客戶的月平均消費(fèi)額。
(2)客戶群閾值的確定。
文中通過對客戶的月平均使用流量和客戶月平均消費(fèi)額進(jìn)行分析,給出了各種客戶群的判斷閾值,如表1所示。
表1 移動用戶客戶群閾值的判定
(3)客戶群的應(yīng)用。
文中將每個(gè)客戶進(jìn)行歸類,把客戶所屬客戶群作為其添加屬性,為建立決策樹模型打下基礎(chǔ)。
1.2 客戶發(fā)展趨勢的細(xì)分
文中為挖掘潛在的高流量用戶,定性地將客戶發(fā)展趨勢細(xì)分為三類,如圖2所示。
圖2 客戶發(fā)展趨勢細(xì)分
為反映客戶發(fā)展趨勢,文中利用客戶連續(xù)三個(gè)月的流量消費(fèi)情況衍生出流量變化率(BHL)這一屬性,并且將客戶發(fā)展趨勢閾值作為圖2細(xì)分的標(biāo)準(zhǔn)。
(1)流量變化率(BHL)的定義。
(2)客戶發(fā)展趨勢閾值的確定。
有關(guān)客戶發(fā)展趨勢閾值,由于跟客戶群閾值類似,在此不做贅述。各類客戶發(fā)展趨勢閾值判定如表2所示。
表2 客戶發(fā)展趨勢閾值判定
(3)客戶發(fā)展趨勢的應(yīng)用。
分析每個(gè)客戶所屬的發(fā)展趨勢,以其作為目標(biāo)屬性,建立決策樹模型,能夠挖掘出潛在的高流量客戶。
1.3 客戶業(yè)務(wù)數(shù)據(jù)的預(yù)處理
(1)特征選擇。
特征選擇的效果會直接影響到分類模型的性能。通過特征選擇,可以減少樣本的維度,大大減少計(jì)算量,降低時(shí)間和空間復(fù)雜度,簡化學(xué)習(xí)模型。針對該樣本數(shù)據(jù)集,處理方法如下:
①對于類別值唯一或者類別值眾多的特征予以刪除,例如地域(該樣本數(shù)據(jù)集針對某地市,所以地域唯一)、用戶ID(類別值眾多)等特征。
②利用spss對特征之間的相關(guān)性進(jìn)行分析,刪除一些與目標(biāo)特征相關(guān)性小的特征,例如通話費(fèi)、通話時(shí)間等與GPRS通信流量無關(guān)。
(2)數(shù)據(jù)清洗。
數(shù)據(jù)清洗的目的是補(bǔ)全數(shù)據(jù)、處理缺失數(shù)據(jù)、除去噪聲及改進(jìn)不協(xié)調(diào)的數(shù)據(jù)。由于客戶業(yè)務(wù)數(shù)據(jù)樣本較大,文中直接對含缺失值或者含異常數(shù)據(jù)的樣本進(jìn)行刪除。針對該樣本數(shù)據(jù)集,處理方法如下:
①由于該樣本數(shù)據(jù)集樣本眾多,對于含缺失值的樣本直接刪除。
②對于含異常數(shù)據(jù)的樣本直接刪除,例如年齡里小于0的樣本。
③對于已經(jīng)離網(wǎng)或停機(jī)的樣本刪除。
(3)數(shù)據(jù)類型轉(zhuǎn)換。
由于原始數(shù)據(jù)保存在excel中,為了能在WEKA中打開,必須將原始數(shù)據(jù)保存為arff格式文件。具體方法是:將excel的原始數(shù)據(jù)另存為csv文件格式,再在WEKA中打開,最后保存為arff格式。
其次,基于WEKA的J48算法[11]對數(shù)據(jù)類型的要求,文中將數(shù)值屬性轉(zhuǎn)換為分類屬性,如表3所示。
表3 分類屬性的定義
文中對移動客戶流量消費(fèi)進(jìn)行分析,重點(diǎn)建立對潛在高流量用戶的預(yù)測模型。而根據(jù)各類算法的優(yōu)缺點(diǎn),選擇解釋比較方便的決策樹進(jìn)行建模。
決策樹是對數(shù)據(jù)進(jìn)行分類,以此達(dá)到預(yù)測的目的。WEKA中的J48算法就是決策樹C4.5算法[12-13],其核心算法是ID3算法[14]。ID3算法是以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn),從而實(shí)現(xiàn)對數(shù)據(jù)的歸納分類。而C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對ID3算法進(jìn)行了改進(jìn):
(1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;
(2)在樹構(gòu)造過程中進(jìn)行剪枝;
(3)能夠完成對連續(xù)屬性的離散化處理;
(4)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。
J48算法具有產(chǎn)生的分類規(guī)則易于理解、準(zhǔn)確率較高的優(yōu)點(diǎn)。因此,基于WEKA平臺的J48算法對數(shù)據(jù)預(yù)處理后的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析。得到的決策樹模型如圖3所示。
依照建好的決策樹模型,沿決策樹從上到下遍歷,在每個(gè)節(jié)點(diǎn)都會遇到一個(gè)測試,對每個(gè)節(jié)點(diǎn)上問題的不同的測試輸出導(dǎo)致不同的分支,最后會到達(dá)一個(gè)葉子節(jié)點(diǎn)。這個(gè)過程就是利用決策樹進(jìn)行分類的過程,利用若干個(gè)變量來判斷所屬的類別,從而預(yù)測客戶在未來的發(fā)展趨勢,判斷其是否為潛在的高流量用戶,以此實(shí)現(xiàn)精確營銷的目的。
圖3 決策樹模型
由圖3所建立的決策樹模型,可以得到以下重要結(jié)論:
(1)客戶所屬客戶群是決策樹模型的根節(jié)點(diǎn),因此客戶群屬性是信息增益值最大的特征屬性,即決定客戶發(fā)展趨勢最重要的特征屬性。
(2)高流量低消費(fèi)客戶群是潛在的高流量客戶,低流量低消費(fèi)客戶群是潛在易流失客戶。
(3)高流量高消費(fèi)客戶群中未辦理VIP服務(wù)且年紀(jì)較輕的客戶是潛在的高流量客戶,未辦理VIP服務(wù)而年紀(jì)較大的客戶是平穩(wěn)客戶;辦理一級VIP服務(wù)中年紀(jì)較輕的客戶是平穩(wěn)客戶,而辦理一級VIP服務(wù)中年紀(jì)較大的客戶是潛在易流失客戶;辦理二級VIP服務(wù)中男性屬于潛在易流失客戶,而辦理二級VIP服務(wù)中女性屬于平穩(wěn)客戶。
(4)低流量高消費(fèi)客戶中使用神州行服務(wù)的客戶屬于潛在易流失客戶,而使用全球通和動感地帶服務(wù)的客戶屬于潛在高流量客戶。
對于以上所建立的決策樹模型,文中根據(jù)移動公司提供的2萬條客戶業(yè)務(wù)數(shù)據(jù)對模型進(jìn)行驗(yàn)證。采取的方法是:隨機(jī)抽取1 000、2 000、5 000、10 000、20 000條客戶業(yè)務(wù)數(shù)據(jù)來預(yù)測潛在高流量客戶,并將預(yù)測結(jié)果與實(shí)際結(jié)果進(jìn)行比較,得到預(yù)測值與實(shí)際值的比值,從而驗(yàn)證模型的準(zhǔn)確性。結(jié)果如圖4所示。
圖4 潛在高流量用戶的預(yù)測檢驗(yàn)
從圖4中可以看出,當(dāng)樣本數(shù)<1 000時(shí),由于偶然性大,預(yù)測值與實(shí)際值的比值小于0.5,說明預(yù)測效果并不好。當(dāng)樣本數(shù)在1 000至10 000時(shí),預(yù)測值與實(shí)際值的比值越來越大,并逐漸接近于1,說明預(yù)測效果越來越好。當(dāng)樣本數(shù)在10 000到20 000之間時(shí),預(yù)測值與實(shí)際值的比值趨于穩(wěn)定并最接近于1,說明預(yù)測效果最好。但是當(dāng)樣本數(shù)大于20 000后,模型的效果有略微下降趨勢。
綜上,樣本數(shù)在10 000至20 000之間時(shí),模型的預(yù)測效果較好,從而驗(yàn)證了模型的準(zhǔn)確性。
文中通過對移動客戶業(yè)務(wù)數(shù)據(jù)的預(yù)處理包括客戶群的細(xì)分,建立了手機(jī)上網(wǎng)用戶的決策樹模型,并通過大量的測試數(shù)據(jù)對模型進(jìn)行驗(yàn)證與評估,最后發(fā)現(xiàn)樣本數(shù)據(jù)在10 000到20 000之間時(shí)預(yù)測效果較好。這說明該方法對于分類與預(yù)測潛在的高流量用戶有較大的改進(jìn),從而能更好地為移動運(yùn)營商適時(shí)推薦套餐,實(shí)現(xiàn)精確營銷提供決策支持。但由于該樣本數(shù)據(jù)集包含 客戶基本特征有限,例如客戶學(xué)歷、職業(yè)等特征的缺
少,文中所研究的內(nèi)容還有待更進(jìn)一步的深入。
[1] 嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(4):168-172.
[2] 范 明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[3] 陳志競,梁伯瀚.數(shù)據(jù)挖掘助力精細(xì)化流量經(jīng)營[J].電信科學(xué),2012,28(7):1-5.
[4] 徐 鵬,林 森.基于C4.5決策樹的流量分類方法[J].軟件學(xué)報(bào),2009,20(10):2692-2704.
[5] Han Hui,Mao Feng,Wang Wenyuan.Review of recent development in decision tree algorithm in data mining[J].Application Research of Computers,2004,21(12):5-8.
[6] 黃瀟聰.手機(jī)上網(wǎng)零流量用戶"破零"模型的研究與應(yīng)用[J].電信科學(xué),2013(S2):26-29.
[7] 董 艷.數(shù)據(jù)預(yù)處理方法在移動通信行業(yè)中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(11):225-228.
[8] Fayyad U M.Data mining and knowledge discovery:making sense out of data[J].IEEE Expert-Intelligent Systems & Their Applications,1996,11(5):20-25.
[9] 張 靖.面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D].合肥:合肥工業(yè)大學(xué),2014.
[10] 郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學(xué)報(bào),2002,13(11):2076-2082.
[11] 趙 蕊.基于WEKA平臺的決策樹算法設(shè)計(jì)與實(shí)現(xiàn)[D].長沙:中南大學(xué),2007.
[12] Moore A W,Zuev D.Internet traffic classification using Bayesian analysis techniques[C]//Proc of SIGMETRICS.Banff:ACM,2005:50-60.
[13] Moore A W,Papagiannaki K.Toward the accurate identification of network applications[C]//Proc of LNCS.Heidelberg:Springer-Verlag,2005:41-54.
[14] 李 霞.ID3分類算法在銀行客戶流失中的應(yīng)用研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(3):158-160.
Analysis of Mobile Customer Traffic Consumption Based on WEKA Platform
DAI Lin,ZHANG Yue,WEI Yu,JING Zi-qian,ZHANG Mo,GONG Jing
(School of Science,Nanjing University of Posts and Telecommunications,Nanjing 210000,China)
With the rapid development of mobile Internet,mobile Internet users scale expands rapidly,the China mobile,as the key link of the mobile Internet,is facing the opportunities and challenges.How to analyze the mobile client traffic consumption according to the user’s business is important research subject to increase revenue and improve customer satisfaction.The analysis of the mobile customer traffic consumption based on WEKA platform is studied.Firstly,subdivide the development trend of customer base and customer,selecting the user business data feature,cleaning the data and converting the data types.Secondly,adding customers as property,development trend of the customer as the target attribute,analyze business data after pretreatment based on the decision tree algorithm on WEKA platform,mobile Internet users of the decision tree model is established.Lastly,verify this model according to the mobile 20 000 customer business data provided by the company.The results show that the model has good classification prediction effect when the number of samples is from 10 000 to 15 000,able to dig out the potential high flow users so as to achieve the purpose of precise marketing.
mobile customer traffic consumption;WEKA;decision tree;classification prediction;precise marketing
2015-04-14
2015-07-16
時(shí)間:2016-01-04
國家自然科學(xué)基金資助項(xiàng)目(61373135);江蘇省高校自然科學(xué)研究重大項(xiàng)目(12KJA52003);南京郵電大學(xué)大學(xué)生科技創(chuàng)新訓(xùn)練計(jì)劃(STITP)(XYB2014154)
戴 琳(1994-),男,研究方向?yàn)閿?shù)據(jù)挖掘與大數(shù)據(jù)分析;張 沫,講師,研究方向?yàn)榉植际接?jì)算和數(shù)據(jù)挖掘;宮 婧,副教授,研究生導(dǎo)師,研究方向?yàn)閿?shù)據(jù)挖掘、模式識別、智能算法等。
http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1510.042.html
TP39
A
1673-629X(2016)01-0115-04
10.3969/j.issn.1673-629X.2016.01.024