崔偉,夏汛,孫瑜魯
(1.瀘州職業(yè)技術(shù)學(xué)院,瀘州 646000;2.四川大學(xué)電子信息學(xué)院,成都 610064)
基于隨機(jī)KNN特征選擇的高質(zhì)量移動(dòng)通信用戶預(yù)測
崔偉1,夏汛1,孫瑜魯2
(1.瀘州職業(yè)技術(shù)學(xué)院,瀘州 646000;2.四川大學(xué)電子信息學(xué)院,成都 610064)
高價(jià)值移動(dòng)通信用戶預(yù)測是電信企業(yè)客戶管理的一項(xiàng)重要內(nèi)容,針對用戶數(shù)據(jù)維度較高,規(guī)模較大,類不平衡較嚴(yán)重等問題,提出一種基于隨機(jī)KNN的特征選擇的預(yù)測方法,首先對初始數(shù)據(jù)進(jìn)行隨機(jī)采樣構(gòu)建多個(gè)KNN分類器,隨后計(jì)算特征的權(quán)重以評估其重要性,利用廣義順序后退法對特征進(jìn)行選擇獲得最優(yōu)的特征子集,最后在結(jié)合集成學(xué)習(xí)方法中加入加權(quán)投票機(jī)制,建立預(yù)測模型。實(shí)驗(yàn)結(jié)果表明,該預(yù)測模型能夠有效降低樣本特征維度并提升對高價(jià)值移動(dòng)通信用戶預(yù)測性能。
不平衡數(shù)據(jù)集;特征選擇;k近鄰;預(yù)測模型
隨著智能手機(jī)的普及以及4G網(wǎng)絡(luò)通信的快速推廣,移動(dòng)客戶消費(fèi)增長迅速,市場競爭全面展開,如何挖掘并發(fā)展高價(jià)值用戶是電信企業(yè)增加收入并提高市場競爭力的關(guān)鍵。目前對于高價(jià)值用戶并無統(tǒng)一的定義,以往的學(xué)術(shù)研究多關(guān)注用戶分類[1-2]及客戶流失預(yù)測[3-4]等,對于高價(jià)值用戶預(yù)測的研究較少,因此根據(jù)用戶的消費(fèi)記錄等數(shù)據(jù)建立高價(jià)值移動(dòng)用戶預(yù)測模型具有重要的應(yīng)用價(jià)值。然而由于這類數(shù)據(jù)規(guī)模較大,維數(shù)較高,其中可能包含的不相關(guān)或者冗余特征導(dǎo)致模型的學(xué)習(xí)時(shí)間增加,同時(shí)發(fā)生過擬合現(xiàn)象。進(jìn)行特征選擇的目的是為了盡可能減少數(shù)據(jù)集中的冗余特征,因此設(shè)計(jì)有效的特征選擇方法是建立模型核心所在。
根據(jù)特征選擇方法與后續(xù)學(xué)習(xí)算法間的關(guān)系,可將特征選擇算法分為過濾式、嵌入式兩類。在過濾式的特征選擇算法中,依據(jù)特定的度量選擇特征,特征選擇的過程與具體的分類器無關(guān),常用的方法有Relief[5]、CFS[6]等,這類方法較簡單,速度快,然而其評估結(jié)果與后續(xù)學(xué)習(xí)算法的性能偏差較大,對于不同數(shù)據(jù)集的魯棒性和適應(yīng)性有待提高。封裝式的特征選擇方法在特征度量中考慮了分類的錯(cuò)誤率,將特征選擇方法作為學(xué)習(xí)算法的一個(gè)組成部分,直接使用分類性能評價(jià)所選擇的特征子集。由于其評價(jià)限制于具體的分類器,所以封裝式方法的分類精度得到了大幅度的提高,然而其泛化能力較差,時(shí)間復(fù)雜度較高。
文獻(xiàn)[7]將隨機(jī)森林用作特征選擇,通過在每一顆決策樹中隨機(jī)排列特征,通過分類準(zhǔn)確度進(jìn)行特征選擇,在迭代中,逐步剔除不能提高分類性能的特征,最終得到的結(jié)果是構(gòu)成分類誤差最小的特征集合。然而,由于隨機(jī)森林方法其為層次的樹形結(jié)構(gòu),其特征選擇的結(jié)果并不穩(wěn)定,若數(shù)據(jù)發(fā)生微小的改變,隨機(jī)森林可能生成不同數(shù)量的特征,同時(shí),在決策樹中存在高方差的情況[8]。
因此,從集成學(xué)習(xí)的方法出發(fā),結(jié)合高價(jià)值移動(dòng)用戶數(shù)據(jù)集維度較高,類不平衡較嚴(yán)重的特點(diǎn),本文提出一種基于隨機(jī)KNN的特征選擇方法,將其用于高價(jià)值移動(dòng)通信用戶預(yù)測。
電信企業(yè)將用戶平均收益(Average Revenue Per User,ARPU)作為衡量用戶價(jià)值的重要指標(biāo),它注重一個(gè)時(shí)間段內(nèi)電信運(yùn)營商從每個(gè)用戶得到的收入。一般來說,移動(dòng)用戶連續(xù)N月的月均消費(fèi)水平會(huì)隨N值的提高而增長,同時(shí),月均消費(fèi)水平較高的用戶流失率較低,因此,本文將高價(jià)值用戶定義為:入網(wǎng)一年以上且近一年月均消費(fèi)金額在200元以上的用戶。
對于一個(gè)移動(dòng)通信用戶,其消費(fèi)水平增長是一個(gè)較慢的過程,大幅度的增長較為少見。因此,本文的研究目標(biāo)為連續(xù)一年月均ARPU值在100~200元之間的用戶,正類樣本為未來一年內(nèi)會(huì)成長為高價(jià)值用戶的群體,其余用戶標(biāo)為負(fù)類。本文從消費(fèi)特征,終端特征,消費(fèi)行為變化,App下載記錄等4個(gè)方面抽取目標(biāo)用戶的基本特征構(gòu)成特征集合和相關(guān)樣本數(shù)據(jù),最終的數(shù)據(jù)集包括12萬條數(shù)據(jù)記錄,98個(gè)用戶特征,正類樣本越占總樣本的四分之一。其中10萬條數(shù)據(jù)記錄作為訓(xùn)練集及測試集,剩余2萬條記錄構(gòu)成驗(yàn)證集以檢驗(yàn)?zāi)P偷念A(yù)測效果。
隨機(jī)KNN(Random KNN,RKNN)的思想與隨機(jī)森林相似,通過將多個(gè)基礎(chǔ)分類器聯(lián)合為一個(gè)強(qiáng)分類器進(jìn)行學(xué)習(xí)。與隨機(jī)森林不同的是,隨機(jī)KNN中的基礎(chǔ)分類器為KNN,而不是決策樹,因此其沒有層次結(jié)構(gòu)。在每一個(gè)基礎(chǔ)KNN分類器中,通過與測試樣本最近的k個(gè)樣本決定樣本的分類。而最終得到的RKNN通過多個(gè)KNN投票進(jìn)行決策。
令F={f1,f2,...,fp}為輸入的p個(gè)特征,X為包含n個(gè)數(shù)據(jù)的輸入數(shù)據(jù)集合,則X為一個(gè)大小為n×p的矩陣,對于隨機(jī)數(shù)m(m
KNN算法的基本思想為:給定一個(gè)測試樣本x,首先找出與該測試樣本最接近的K個(gè)訓(xùn)練樣本,通過統(tǒng)計(jì)測試樣本與K個(gè)近鄰中各類樣本的相似度之和,作為測試樣本與各類的相似度,最后將該樣本判定為相似度最大的類,步驟如下:
(1)計(jì)算測試樣本與所有訓(xùn)練樣本的距離,而測試樣本x與訓(xùn)練樣本y的距離計(jì)算如下式:
(2)找出與測試樣本x距離最小的K個(gè)最鄰近訓(xùn)練樣本。
(3)分別計(jì)算K個(gè)最近鄰樣本與測試樣本x的相似度。距離越大,相似度越小,反之亦然,即:
(4)統(tǒng)計(jì)測試樣本與各類別的總相似度S(x,Ci):
為了選擇有效的特征,其關(guān)鍵是計(jì)算特征的權(quán)重,為其重要性進(jìn)行排序。本文將KNN的分類準(zhǔn)確率作為特征的特征權(quán)重的計(jì)算依據(jù)。
首先,每一個(gè)KNN對測試集進(jìn)行分類,通過與測試樣本的實(shí)際類別進(jìn)行比較,計(jì)算每一個(gè)KNN的分類準(zhǔn)確率acc(KNN)。令C(f)表示特征f參與的所有的KNN分類器的集合,每一個(gè)KNN的分類結(jié)果對參與其中的特征計(jì)算權(quán)重,如圖1所示。特征權(quán)重越高,則該特征越重要。特征f權(quán)重可計(jì)算為:
(5)將測試樣本判別為相似度最大的類:
圖1 特征權(quán)值計(jì)算流程圖
在得到特征權(quán)重以后,可以直接選擇權(quán)重較高的特征作為特征選擇的輸出結(jié)果,但由于在基礎(chǔ)KNN進(jìn)行分類時(shí),其樣本集合的特征是隨機(jī)選取的,這樣的做法并不可靠。因此,考慮到算法速度和分類性能的平衡,本文將特征選擇的過程分為兩步,不斷采用序列后向搜索方法進(jìn)行迭代構(gòu)造新的樣本集選擇特征。在第一步的迭代中,算法每次迭代,特征的數(shù)量減小為原來的q(0 對于預(yù)測模型,常用的評價(jià)指標(biāo)包括:精確率(Pre?cision),召回率(Recall),F(xiàn) 測度(F-measure)評價(jià)跟蹤算法的性能。其定義分別為: 精確率(Precision),表示“正確被檢索到的條目(TP)”在“實(shí)際被檢索的條目(TP+FP)”中所占的比例: 召回率(Recall),表示所有“正確被檢索的條目(TP)”在“應(yīng)該被檢索到的條目(TP+FN)”中所占的比例: F測度(F-measure),表示召回率(R)和精確率(P)的加權(quán)調(diào)和平均數(shù),其一般化的公式為: 當(dāng)β=1,就是F1-measure: 為了驗(yàn)證本文方法在高價(jià)值移動(dòng)通信用戶預(yù)測研究中的有效性,本文選用特征子集的維度和F測度兩個(gè)指標(biāo)對模型性能進(jìn)行評估,并與隨機(jī)森林的特征選擇方法進(jìn)行對比試驗(yàn),采用其提供的原始算法建立預(yù)測模型。本文選用了UCI數(shù)據(jù)庫中3個(gè)不同數(shù)據(jù)集及本文研究在數(shù)據(jù)搜集階段得到的某電信公司提取的初始數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),如表1所示。 表1 不同數(shù)據(jù)集比較 不同方法對4個(gè)數(shù)據(jù)集的預(yù)測結(jié)果如表2所示。本文方法KNNFS的降維效果最好,相對于RFFS,在特征維數(shù)上減小了29.85%,其平均F測度提高了2.25%,這表明KNN相對于隨機(jī)森林的樹狀結(jié)構(gòu)更適合解決此類包含較多冗余特征的大規(guī)模不平衡而分類問題。從表2中可以看出,本文方法對于低維數(shù)據(jù),本文方法除能降低特征集合的維度外,在提升模型預(yù)測性能方面并無特別優(yōu)勢。但從D3可以看出,對于高維、正負(fù)樣本不平衡度較大的數(shù)據(jù)集,RKNNFS的降維效果及對模型性能的提升作用得以體現(xiàn),驗(yàn)證了本文方法的有效性。 表2 不同算法的性能比較 經(jīng)過一系列特征選擇及算法參數(shù)調(diào)優(yōu),得出RKNNFS和High-value mobile user數(shù)據(jù)集的最優(yōu)特征子集為:套餐金額,在網(wǎng)天數(shù),近半年月均活動(dòng)基站數(shù),近3月月均通話時(shí)長,漫游通話次數(shù),增值業(yè)務(wù)費(fèi)用,近三月月均流量,月均長途通話時(shí)長,終端銷售價(jià)格,近3月月均通話時(shí)長,用戶ARPU增長速度。 表3 預(yù)測模型在不同數(shù)據(jù)集上的結(jié)果比較 預(yù)測模型在高質(zhì)量移動(dòng)用戶驗(yàn)證集和D2測試集上的預(yù)測結(jié)果如表3所示,可以看出,算法相對于在D1上的結(jié)果,預(yù)測模型在驗(yàn)證集中準(zhǔn)確率僅略微下降了1.1%,然而F測度提高了5.2%,體現(xiàn)本文預(yù)測模型的泛化能力較強(qiáng)。 因此,基于RKNN的特征選擇方法建立的高價(jià)值移動(dòng)用戶預(yù)測模型具有一定的實(shí)用性,能夠處理大規(guī)模高維不平衡數(shù)據(jù)集上的二分類問題,能夠較好地為企業(yè)決策提供參考。 針對移動(dòng)高價(jià)值移動(dòng)通信用戶,本文提出隨機(jī)KNN方法進(jìn)行特征選擇并建立預(yù)測模型,通過在隨機(jī)森林的框架下利用KNN作為基礎(chǔ)分類器,避免了隨機(jī)森林的缺陷,可以有效處理高維度不平衡數(shù)據(jù)集上的特征選擇問題,通過與傳統(tǒng)方法的實(shí)驗(yàn)結(jié)果進(jìn)行對比,驗(yàn)證了該方法的有效性和實(shí)用性,未來計(jì)劃將該方法用于其他應(yīng)用,并提高模型的預(yù)測精度。 [1]梁霄波.電信客戶細(xì)分中基于聚類算法的數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2016(15):95-98. [2]張煥國,呂莎,李瑋.C均值算法的電信客戶細(xì)分研究[J].計(jì)算機(jī)仿真,2011(06):185-188. [3]張慧,徐勇.數(shù)據(jù)挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J].平頂山學(xué)院學(xué)報(bào),2016,(02):68-73. [4]梁路,王彪,王劍輝,劉冬寧.基于細(xì)精度關(guān)聯(lián)規(guī)則挖掘的電信客戶流失分析[J].智能系統(tǒng)學(xué)報(bào),2015(03):407-413. [5]Dash M,Ong Y.RELIEF-C:Efficient Feature Selection for Clustering over Noisy Data[C].International Conference on Tools with Artificial Intelligence,2011:869-872. [6]Liu L,Zhang J,Li P,et al.A Label Correlation Based Weighting Feature Selection Approach for Multi-label Data[C].Web Age Information Management,2016:369-379. [7]姚登舉,楊靜,詹曉娟.基于隨機(jī)森林的特征選擇算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2014(01):137-141. [8]Mcinerney D O,Nieuwenhuis M.A Comparative Analysis of kNN and Decision Tree Methods for the Irish National Forest Inventory[J].International Journal of Remote Sensing,2009,30(19):4937-4955. Abstract:The prediction for high value mobile communication user plays an important role in the telecom enterprise customer management.Aiming at the problems such as high user data dimension,large scale and serious unbalanced class,proposes a method of feature selection based on random KNN.Firstly,the initial data is randomly sampled to construct multiple KNN classifiers,and then the weights of the features are computed to measure its importance,and the generalized sequential backward selection method is used to select the optimal features sub?set.Finally,the weighted voting mechanism is added in the ensemble learning method to establish a predictive model.The experimental re?sults show that the model can effectively reduce the dimensions of the sample features and improve the prediction performance of the high value mobile communication users. Keywords:Imbalanced Dataset;Feature Selection;K-NN;Prediction Model Prediction for High-Value Mobile Users Based on Random KNN Feature Selection CUI Wei1,XIA Xun1,SUN Yu-lu2 (1.Luzhou Vocational and Technical College,Luzhou 646000;2.College of Electronic&Information Engineering,Sichuan University,Chengdu 610064) 川大-瀘州戰(zhàn)略合作科技項(xiàng)目(No.2015CDLZ-S12) 1007-1423(2017)26-0009-04 10.3969/j.issn.1007-1423.2017.26.002 崔偉(1983-),男,四川自貢人,碩士,講師,網(wǎng)絡(luò)工程師,研究方向?yàn)槠髽I(yè)信息化和新一代互聯(lián)網(wǎng)應(yīng)用 夏汛(1984-),男,四川瀘州人,碩士,講師,研究方向?yàn)榇髷?shù)據(jù)應(yīng)用、企業(yè)信息化 孫瑜魯(1991-),女,山東泰安人,在讀碩士研究生,研究方向?yàn)閳D像處理,模式識(shí)別,Email:sunylcn@163.com 2017-06-27 2017-09-103 實(shí)驗(yàn)結(jié)果與分析
4 結(jié)語