簡宋全,李青海,黃心蕊,秦于欽
(廣東精點數(shù)據(jù)科技股份有限公司,廣州510630)
基于One Class SVM的電信用戶流失情況研究
簡宋全,李青海,黃心蕊,秦于欽
(廣東精點數(shù)據(jù)科技股份有限公司,廣州510630)
在對數(shù)據(jù)進行分類的過程中,如何用機器學習的方法使數(shù)據(jù)分類更加準確一直是研究的重點。在對電信用戶流失情況的研究中,通??梢员容^容易對流失用戶進行標記,但是還未流失用戶并不代表用戶不會流失,所以并不能作為準確的2分類負樣本,用One Class SVM提取未知樣本中密度較高的部分作為真負樣本,將源數(shù)據(jù)分為正樣本,負樣本與未知樣本三部分,方便以后研究。
用戶是企業(yè)獲取利潤的直接來源,因此對用戶進行分析,可以使企業(yè)在市場中更具競爭力,生產(chǎn)出更符合市場要求的產(chǎn)品。在對電信的用戶群進行分析時,通過對流失的用戶群進行分析,可以使企業(yè)做出的決策更符合市場規(guī)律。在對用戶群進行分類時,往往是將用戶群分為已流失的和未流失的兩種,然而在實際的用戶群分類中,通??梢源_定已流失的用戶群,可是未流失的部分并不代表未來不會流失,因此很難直接確定用戶群是否流失,為了解決這個問題,在分類中,我們采用One Class SVM對數(shù)據(jù)進行預處理,重新構建分類特征,從未確定特征中提取出真負樣本,構建模型,最終找出可能流失的用戶群。
One Class SVM是SVM算法中的一個分支,在機器學習領域,支持向量SVM(Support Vector Machine)是一個有監(jiān)督的學習模型,通常用來進行模式識別,分類,以及回歸分析。
SVM的主要思想主要是:在線性可分情況下直接進行分箱,在線性不可分的情況,通過非線性映射把輸入空間的低維線性不可分的樣本轉(zhuǎn)化為輸出空間的高維特征空間使其線性可分,再對高維特征空間采用線性算法對樣本的非線性特征進行線性分析。SVM是基于結構風險最小化理論之上在特征空間中建構最優(yōu)分割超平面,使得學習器得到全局最優(yōu)化,并在整個樣本空間的期望風險以某個概率滿足一定上界。
在SVM中,我們通過核函數(shù)將一組數(shù)據(jù)分為兩類,由于核函數(shù)的確定只與特征空間中的向量的點積有關(所有這些向量間的距離),因此,不需要對空間進行顯式投影,只需要用核函數(shù)K來分類,這就是運用核函數(shù)展開定理的技巧,它使SVM可以分析非線性可分離數(shù)據(jù)的強大功能。特征空間F可以是無限維度的,因此,分離數(shù)據(jù)的超平面可能非常復雜,在我們的計算中,運用核函數(shù)的展開定理,則可以避免這種復雜性。
在一般情況下,核函數(shù)可以是線性的,多項式的,S形的,高斯型的,在本文中使用的核函數(shù)是RBF One Class SVM算法是用來檢測新的數(shù)據(jù)是否屬于原始數(shù)據(jù)的一種算法,通過提供常規(guī)的訓練數(shù)據(jù),創(chuàng)建一個(具有代表性的)數(shù)據(jù)模型。形象地說,它就是構造一個高維超球,把數(shù)據(jù)包起來,盡可能收緊,又盡可能不受外界影響。如果新遇到的數(shù)據(jù)與訓練數(shù)據(jù)區(qū)別較大,在這個模型中就將他定義為類別外的數(shù)據(jù)。當出現(xiàn)一個分類問題時,只有一種類型的樣本,或有兩種類型樣本,但其中一類型樣本數(shù)目遠少于另一類樣本數(shù)目時,此時采用二分類器,由于正負樣本不均衡,可能造成分類器過雨偏向數(shù)目多的樣本類別,因此可以考慮使用One Class SVM進行分類。
(1)在對電信用戶群進行分析的過程中,將用戶群分為兩類,正樣本數(shù)據(jù)是已經(jīng)流失的用戶群,負樣本數(shù)據(jù)是未確定是否流失的用戶群,該樣本中的一部分可能在下個時段變成正樣本。
(2)用one class SVM的方式對負樣本進行訓練,得出負樣本特征較為密集的部分,定義這些部分的負樣本為真負樣本,再以同樣的思路對正樣本進行訓練,對正樣本的訓練的目的在于去除正樣本中的一些離群噪聲點,從而得到真正的正樣本。
(3)通過計算可以從結果中可以發(fā)現(xiàn),正樣本中總共1502個目標,計算后后出現(xiàn)了362個離群點,負樣本中17048個目標,計算后出現(xiàn)5670個離群點,且兩個計算后的高密度群互不相交,可以從此處看出其二維分布應該如下圖所示:
圖1
其具體根據(jù)算法計算后的分類邊界應該如下圖所示:
圖2
故利用該分類邊界將原始數(shù)據(jù)重新劃分為3類,真正類,未知類,真負類:
圖3
(4)利用該方式將得到的真正樣本與真負樣本進行一般分類器的訓練,就可以提取未知樣本中的真正樣本與真負樣本,對未知樣本部分進行分類。
該方式可以較好的解決負樣本不確定的問題,利用密度較高的樣本的情況來判斷其離群點情況,得到結果后,只采用特征較為明顯的正負樣本進行分類器的訓練,防止了離群點和不明確點對模型的影響。
但是該方法存在一定的缺點,由于使用該方法得出的正負樣本由于特征較為明確,也就是說在二維圖中兩種樣本距離較為分散,因此可能有多種分類方式都能將樣本進行分類,使得分類器的泛化能力減弱如概念圖所示:
圖4
所以采用該方式進行特征工程后的數(shù)據(jù)建議采用泛化能力較為強的模型,例如隨機森林等;同樣也可以采用三分類器進行分類,將離群點作為第三分類進行訓練。
[1]劉文,吳陳.一種新的中文文本分類算法——One Class SVM-KNN算法[J].計算機技術與發(fā)展,2012(05)
[2]張彬.基于One-class SVM的人臉識別研究[J].江南大學,2016(02)
[3]黃謙,王震,韋韜,陳昱.基于One-class SVM的實時入侵檢測系統(tǒng)[J].計算機工程,2006(08)
簡宋全(1971-),男,廣東廣州人,碩士研究生,工程師,研究方向為機器學習算法
李青海(1980-),男,廣東廣州人,碩士研究生,工程師,研究方向為機器學習算法
黃心蕊(1994-),女,福建三明人,本科,助理工程師,研究方向為機器學習算法
秦于欽(1993-),男,廣東廣州人,本科,助理工程師,研究方向為機器學習算法
2017-07-27
2017-09-25
Machine Learning;One Class SVM
Research on Telecom User Churn Based on One Class SVM
JIAN Song-quan,LI Qing-hai,HUANG Xin-rui,QIN Yu-qin
(Guangdong Fine Point Data Polytron Technologies Inc,Guangzhou 510630)
It's an emphasis to make data classification more accurate in classifying data,when we do research in the loss of telecom users.It's easier to mark the loss of users,but the users not yet lost don't mean that the user does not leak,when studying telecom user loss.So it's not an ac?curate classification of 2 negative samples,uses One Class SVM to extract the unknown sample density higher part as a true negative sam?ple,the source data is divided into positive samples and negative samples with unknown samples of three parts,for the future study.
機器學習;One Class SVM
天河區(qū)科技計劃項目(No.201502YH019)
1007-1423(2017)29-0032-03
10.3969/j.issn.1007-1423.2017.29.008