潘莉英,曹 巖
(1.陜西省寶雞教育學院 數(shù)學系,寶雞 721004;2.西安工業(yè)大學 機電工程學院,西安 710021)
邏輯回歸算法在通信GPRS業(yè)務中的應用
潘莉英1,曹 巖2
(1.陜西省寶雞教育學院 數(shù)學系,寶雞 721004;2.西安工業(yè)大學 機電工程學院,西安 710021)
為了對通信GPRS業(yè)務用戶的流失情況進行有效的預測,對預測中常用三種算法的優(yōu)劣勢進行了比較,選取能很好處理0/1分類問題的邏輯回歸算法,并基于邏輯回歸算法建立了GPRS業(yè)務流失預測模型.提取了廣東省移動公司GPRS業(yè)務用戶流失概率最高的前5%和10%用戶,通過查準率、查全率和提升率這三個指標對該模型進行檢驗,發(fā)現(xiàn)該模型定位流失用戶的準確率和確定流失用戶的覆蓋率都是相當高的,說明其能對GPRS套餐使用客戶的流失情況進行有效地預測.另外,通過把利用邏輯回歸算法與利用決策樹算法建立的預測模型的應用效果進行了對比,結果充分說明了利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型在實際應用中更具優(yōu)越性.最后,根據該模型解在決實際預測問題中的效果,進一步驗證了其具有很強的實用性.
GPRS業(yè)務;邏輯回歸;流失預測模型;查準率;查全率
通用分組無線服務技術(General Packet Radio Service,GPRS),它是第二代全球移動通信系統(tǒng)向第三代全球移動通信系統(tǒng)的過渡、銜接性技術,GPRS業(yè)務是全球手機系統(tǒng)移動電話用戶可用的一種移動數(shù)據業(yè)務[1],這項業(yè)務推動了電信事業(yè)的飛速發(fā)展.但是,隨著各種實際因素不斷增多,加之各因素間又存在著相當復雜的關系,GPRS業(yè)務市場也受到了一定的影響.近年來,盡管電信運營商靠對計費政策進行的調整,也對移動增值市場收入產生了一些負面的影響,但是根據文獻[2-3]所述可知,伴隨著智能手機的普及,移動互聯(lián)網已成為人們日常生活里不可或缺的東西,手機電子商務、手機搜索等業(yè)務領域也有了良好的市場表現(xiàn),這些都推動著移動互聯(lián)網市場規(guī)模平穩(wěn)增長.
目前,全球移動商GPRS數(shù)據流量在2013至2015年這三年之內已出現(xiàn)井噴式發(fā)展,收入也將隨之攀升.全球2013年移動商GPRS數(shù)據總流量達到112PB/月,預計2018將達到1400PB/月,平均增長速度高達67%;而且,全球承載在GPRS管道上的移動內容應用總收入2013年達到了2.5千億美元,預計未來5年將以14%的速度提升[4].另外,隨著越來越多的人使用智能手機,手機終端智能化也將對GPRS業(yè)務發(fā)展起著必然的推動作用.因此,在很長一段時間內,GPRS業(yè)務將呈增長趨勢.值得注意的是,雖然近年來GPRS業(yè)務整體新增市場很大,但客戶流失的問題也不容小覷,如果不及時對流失用戶的情況進行科學的分析,不制定出有效的針對性挽留策略,隨著時間的推移,將會給移動公司及其子公司的營銷業(yè)務造成更大的損失.因此,有必要組織專門的研究人員通過科學的方法對GPRS業(yè)務的流失情況進行預測,以便制定有效對策,從而最大限度地阻止這種不良情況的發(fā)生.
線性回歸與邏輯回歸都可以用來做預測,但它們之間不存在包含關系.一般情況下,線性回歸只可用來進行連續(xù)值預測,可以準確的劑量各個因素之間的相關程度與擬合程度的高低,提高預測方程式的效果,但它忽略了交互效應和非線性的因果關系,而且不能處理0/1分類問題,只能處理比如預測投入一定的營銷費用時會帶來多少收益的連續(xù)型變量問題.
邏輯回歸和決策樹算法則可以輕松處理0/1分類問題,常用來進行二值預測,比如預測一個客戶是否會流失,只有0-不流失,1-流失.其中,決策樹算法擅長分析數(shù)據局部結構,能夠對不完整數(shù)據進行處理,可以自動處理大量的自變量,容易上手,需要的數(shù)據預處理較少,更適合于對各種復雜的聯(lián)系進行分析.但它對線性關系把握較差,需要較大的樣本量,無法支持對多變量的同時檢驗,不能對影響因素的作用大小進行精確的定量描述,對于結果的解釋和應用過于靈活,沒有嚴格的標準可循;邏輯回歸算法適用于任何形式變量,擅長分析數(shù)據整體結構和線性關系,始終著眼整個數(shù)據的擬合,對全局把握較好,可以提供數(shù)據中每個觀點的概率,結果細膩.但對極值比較敏感,容易受極端值的影響,缺乏探查局部結構的內在機制,運用時需要一定的訓練和技巧.
通過以上對幾種常用預測算法優(yōu)劣勢的分析,發(fā)現(xiàn)邏輯回歸和決策樹算法都可用來解決GPRS業(yè)務流失問題,但經過實際應用對比評估后,邏輯回歸預測法能更好地解決這個問題,具體評估比較情況將在本文第3部分進行詳細的說明.
2.1 邏輯回歸算法原理
邏輯回歸是一種特殊的回歸模型,與古典的線性回歸模型不同,其響應變量是分類變量而非連續(xù)變量.例如,研究客戶是否會購買某種產品(即買抑或不買),或者研究客戶交易是否存在欺詐(即欺詐交易抑或非欺詐交易),等等都屬于這類情況.由于現(xiàn)實中存在大量類似的問題,邏輯回歸被廣泛運用以解決所謂的分類問題.
在邏輯回歸問題中,自變量xi(i=1,…,m)與發(fā)生率p之間通常都不存在線性關系,更不能保證在自變量的各種取值下,因變量的取值仍能限制在0~1范圍內,因此,需作如下變換[5]
y=β0+β1x1+…+βmxm
(1)
(2)
(3)
式(3)即為邏輯回歸算法下的發(fā)生率p的計算公式,式(1)中的β0是常數(shù)項,表示自變量取值全為0時,事件發(fā)生與不發(fā)生時的概率之比的自然對數(shù)值;βi(i=1,…,m)為邏輯回歸系數(shù),表示當其它自變量取值保持不變時,該自變量取值增加一個單位引起比數(shù)比自然對數(shù)值的變化量.
2.2 基于邏輯回歸算法的GPRS套餐流失預測模型的建立
2.2.1 數(shù)據準備
這個階段的工作比較繁瑣,主要是根據目標問題確定所需數(shù)據的來源,對得到的數(shù)據進行適當?shù)暮Y選和分類.主要做法是:排除掉那些記錄為空的或記錄不完整的無效數(shù)據;再將符合條件的數(shù)據分成訓練集和測試集兩個部分,一部分用來建立符合要求的模型,另一部分用來進對該模型的測試能力做出科學的評估[6].
為了滿足數(shù)據的合理性、有效性和完整性等實際要求,根據現(xiàn)有條件,本文的研究采用了廣東省GPRS標準套餐用戶在2015年8、9、10這三個月內的通信數(shù)據來進行研究.為了得到有效信息,首先需準備這三個月內GPRS標準套餐用戶的相關資料,包括:用戶基本資料表、用戶接觸資料、用戶通話資料、用戶賬單資料、清單月匯總表、GPRS標準套餐產品關系歷史、家庭網用戶信息歷史、集團客戶基本資料歷史等.
根據模型的實際開發(fā)需求,采集了廣東省GPRS標準套餐用戶在2015年8份停機用戶記錄共2387711個,為了確保建模用戶不重復,保證數(shù)據的有效性,信息采集時,有先保障用戶為月初信控停機,只保留了首次停機用戶記錄共1870229個;采集的指標共有65個,但其中有11個指標由于數(shù)據缺失或數(shù)據失效等原因,無法使用,不納入建模寬表,最終保留了54個指標.
接下來的工作,就是對采集用戶和指標數(shù)據進行清洗,主要是對采集的指標進行數(shù)據降噪處理,主要處理對象為:數(shù)據值缺失較多的指標、出現(xiàn)異常值的指標、內容相似的指標、含單一值過多的指標、離散指標值過多的指標、不能直接進入模型的指標等[7-9],具體處理情況歸納如下:
1) 是否為集團客戶和是否為VIP客戶這兩個指標值缺失的比較多,為了方便處理,就用0來替代.
2) 部分用戶的年齡高于100歲,這些數(shù)據值不在正常范圍內(異常值),就要對其進行規(guī)定,用100歲來替代.
3) 用戶總流量和GPRS總流量所代表的內容相近,交往圈人數(shù)和交往圈GPRS使用人數(shù)所代表的內容相近,參與活動個數(shù)和數(shù)據業(yè)務使用個數(shù)相似,就需將用戶總流量合并到GPRS總流量中,交往圈人數(shù)合并到交往圈GPRS使用人數(shù)中,參與活動個數(shù)合并到數(shù)據業(yè)務使用個數(shù)中,然后對這三個指標重新編碼.
4) 經統(tǒng)計,呼轉異網號碼的用戶極少,導致異網互轉指標0值達到95%以上,單一值所占比率太高,單獨研究的意義不大,可將其納入主叫計費時長指標中.
5) 隨著智能手機的飛速發(fā)展,各種手機型號就有成百上千個,這就會導致終端型號指標值非常多,使得離散指標值過多,需將其進行歸類,重新編碼為“蘋果”“三星”和“華為”等終端大類(品牌)才可以進入模型.
6) 由于活動合約期截止日期、離網時間等與日期、時間等相關的指標,不能直接進入模型,必須經過處理,衍生出參與活動時長、入網時長等新的數(shù)值指標才可以進入模型.
使用以上六種方法,對確定采集的1870229個用戶和65個指標數(shù)據進行清洗,有11個指標不能直接使用,經處理后,最終得到1869209個有效用戶和54個有效指標.
2.2.2 數(shù)據處理
數(shù)據處理的過程是對清洗過的干凈的數(shù)據進行數(shù)據分析,量化指標對目標的影響性.這個階段的工作,主要是對上一階段工作中準備好的數(shù)據進行進一步的分析和探索,判斷其是否符合建模指標.根據模型分析的具體業(yè)務目標,對所采集的數(shù)據集按照指標逐項進行凈化和質量檢查,舍棄不符合要求的數(shù)據,以充分保證數(shù)據集的質量.然后,考察所選數(shù)據之間的關系,以便對其進行整理.
針對數(shù)據準備中的最基礎原始清單數(shù)據,根據模型分析的業(yè)務目標,通過對連續(xù)性指標進行分箱,使其離散化,剔除那些與流失的關系比較復雜或者和流失的關系不是很緊密的變量;通過相關性分析剔除相關性大的指標變量.對各個字段進行不同粒度的分解與匯總,經過這些篩選工作之后,最終有38個指標被納入“聰明變量”,進入模型寬表,對能進入模型寬表的38個指標變量進行歸類分析后,最終得到23個有效指標變量,為方便起見,分別用x1,x2,……,x23表示每個用戶相對應的23個GPRS標準套餐流失模型使用的指標變量.對于每一個用戶來說,xi(i=1,…,23)代表的具體指標變量名稱見表1.
表1 每個用戶對應的23個指標變量名稱
2.2.3GPRS業(yè)務流失預測模型的構建過程
由于對GPRS業(yè)務是否流失進行預測的問題是一個二元預測問題,而且,經過對相關數(shù)據進行探索和分析后,發(fā)現(xiàn)與此問題相關的數(shù)據有數(shù)值型的也有離散型的指標數(shù)據.所以,要解決這個問題可以用決策樹和邏輯回歸這兩種算法來建立模型.但經過對模型優(yōu)越性進行檢驗后,確定選用邏輯回歸算法,具體原因詳見文中3部分所述.
1) 訓練模型
接下來的主要工作是根據準備好的訓練集,使用前向迭代法對模型進行訓練.迭代進行時,通過-2對數(shù)似然值、考克斯-斯奈爾R方(Cox&SnellR方)、內戈爾科R方(NagelkerkeR方)等指標來考察模型的擬合效果.具體迭代步驟及相關數(shù)據見表2.
表2 模型摘要
當?shù)M行到第21步時,所有變量對應的顯著性均為0.000;-2對數(shù)似然值從9691.442降為8777.954,其中從第1步到第18步,-2對數(shù)似然值降了近900,但從第19步到21步,-2對數(shù)似然值每次只降了5,說明此時步差的幅度已經很小了,已達到模型迭代的終止條件,表明模型擬合效果較好;大部分Cox&SnellR方和NagelkerkeR方都超過了0.1,表明模型擬合效果較好.所以,利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型擬合度高,性能好,可以使用.
2) 優(yōu)化模型
模型訓練好后,還要對模型進行優(yōu)化分析,主要利用偏回歸系數(shù)(B)、標準誤差(S.E.)和卡方值(Wald)三個指標進行檢驗,以便考察方程中隨著自變量的變化因變量的變化情況,以及自變量與因變量的密切程度.根據檢驗結果,對模型進行調整,最終得到性能最好的模型.根據模型訓練情況,對建立的GPRS業(yè)務流失預測模型優(yōu)化了三次,最終得到最優(yōu)模型.具體模型見表3.
表3 GPRS業(yè)務流失預測模型
具體模型輸出結果見表4.
表4 GPRS業(yè)務流失預測模型輸出結果
對上表中的數(shù)據進行分析后,發(fā)現(xiàn)在控制其他變量的前提下,自變量每變化一個單位,因變量會變化0~1.1897個單位,因變量變化對自變量變化的影響比前三個模型都大;標準誤差均小于0.05;相應的卡方值也足夠大.由此說明,這23個指標自變量的變化能夠引起因變量的變化,也就是說該用戶是否流失直接與這些因素有著密不可分的關系.所以,這次所建模型就是最優(yōu)的模型,可以用來解決實際問題.
當一個模型建立之后,要通過科學的方法對其使用效果進行評估檢驗,來衡量其有效性和優(yōu)越性,進而確定是否能用此模型很好地解決實際問題.下面,就對第三部分中所建立的GPRS業(yè)務流失預測模型的有效性和優(yōu)越性進行評估和檢驗.
3.1 模型評估
為了檢驗利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型的科學性和有效性,就要對其預測效果進行評估,以確保其能在現(xiàn)實環(huán)境中使用.
3.1.1 模型評估的方法
常用的模型評估方法是:根據模型輸出的結果,依據一定的順序,提取范圍合理的預測對象,通過計算查準率、查全率和提升率等指標,對所建立的模型進行評估[10],進而確定所建立的模型是否能更好地解決目標問題.
以廣州移動公司2015年11、12兩個月的GPRS套餐用戶為例,對模型進行評估。首先,將根據公式(3)算出的測試集中各個用戶流失的概率按由大到小的順序進行排序,確定出每個概率對應的實際流失用戶數(shù)和不流失用戶數(shù),為評估提供有力的數(shù)據支撐[11].具體流失概率排序和用戶是否流失情況見表5.
表5 利用邏輯回歸算法求得的流失概率排序表
根據表5中的數(shù)據,計算出相應的查全率、查準率和提升率這三個指標值,根據這些數(shù)值,即可對建立的模型的有效性進行評估,下面就對這三個指標的概念和具體作用作以介紹[12-15].
查準率 表示提取的用戶中實際流失的用戶數(shù)與提取的用戶總數(shù)的比率,即所提取用戶的流失率.查準率常用來衡量定位流失用戶的準確率,而且查準率值越高,模型越好.
查全率 表示提取的用戶中實際流失的用戶數(shù)與總流失用戶數(shù)的比率,即提取用戶中流失用戶占全部流失用戶的比例.查全率常用來確定流失用戶的覆蓋率,而且查全率越高,模型越好.
提升率 表示提取用戶的查準率與全部用戶查準率的比率,模型相對于總體的提升倍率.提升率與用戶提取量有關,而且提升率值越高,模型越好.
為了方便計算,根據定義總結出查全率、查準率和提升率這三個指標的計算公式:
查準率=提取的用戶中實際流失的用戶數(shù)/提取的用戶數(shù)
查全率=提取的用戶中實際流失的用戶數(shù)/總體的流失用戶數(shù)
提升率=提取用戶的查準率/全部用戶的查準率.
3.1.2 模型評估結果
一般情況下,在利用查全率、查準率和提升率這三個指標對建立的GPRS業(yè)務流失預測模型進行檢驗評估時,所要提取用戶數(shù)的確定十分關鍵,會直接影響到這三個指標值,進而影響到模型的檢測效果.如果提取的用戶數(shù)少于所有用戶數(shù)的5%,則覆蓋面太小,會影響到預測流失用戶的覆蓋率;如果提取的用戶數(shù)多于所有用戶數(shù)的10%,則會降低預測的命中率.因此,提取了流失概率較高的排名前5%和10%的用戶,認為他們是流失的用戶,計算出相應的查全率、查準率和提升率.具體數(shù)據見表6.
表6 利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型的查全率、查準率和提升率
由表6中的數(shù)據可知,提取廣州移動公司2015年11、12兩個月的GPRS套餐用戶流失率最高的前5%用戶,準確率達57%,將覆蓋60%的流失用戶,提取的這些用戶是隨機抽取用戶準確率的6.4倍;提取流失率最高的前10%用戶,準確率達40%,將覆蓋72%的流失用戶,提取的這些用戶是隨機抽取用戶準確率的4.4倍.所有這些數(shù)據說明,利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型定位流失用戶的準確率和確定流失用戶的覆蓋率都是相當高的,也就是說,這一模型能對GPRS套餐使用客戶的流失情況進行有效地預測.
3.2 模型優(yōu)越性檢驗
通過上面的評估,知道利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型能科學有效地對使用GPRS套餐用戶的流失情況進行預測,但它是不是可用來解決這一問題的最好方法呢?這就需將這種預測法與同樣可以用來解決預測問題其它方法的預測效果進行比較,來衡量該模型的優(yōu)越性.
其實,利用決策樹算法也可以建立模型,對GPRS業(yè)務流失情況進行科學預測.在利用決策樹算法建立預測模型時,通過對廣州移動公司2015年11、12兩個月的GPRS套餐用戶數(shù)據進行探索分析,確定了ARPU、GPRS費用波動、交往圈中的GPRS用戶數(shù)、GPRS上網次數(shù)、GPRS實際單價、單次上網流量、GPRS流量、GPRS超流量;GPRS
套餐類型、GPRS利用率、ARPU趨勢、GPRS上網次數(shù)趨勢、GPRS流量趨勢、GPRS超流量趨勢、GPRS利用率趨勢、數(shù)業(yè)ARPU趨勢、入網時長、賬戶余額等18個有效指標,它們與利用邏輯回歸算法建立的預測模型中的約80%的關鍵因子重合.與前面利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型的評估方法相同,先把根據公式(3)算出的測試集中各個用戶流失的概率按由大到小的順序進行排序,確定出每個概率對應的實際流失用戶數(shù)和不流失用戶數(shù).具體流失概率排序和用戶是否流失情況見表7.
根據上表中的數(shù)據,提取流失率較高的前5%和10%用戶,利用公式計算出相應的查全率、查準率和提升率,具體數(shù)據見表8.
通過對比分析表6和表8中的數(shù)據發(fā)現(xiàn),利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型的查準率、查全率、提升率分別約是利用決策樹算法建立的預測模型的5.8倍、6倍、10—20倍.從這些數(shù)據可以看出,利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型比利用決策樹算法建立的預測模型定位流失用戶的準確率更高,確定流失用戶的覆蓋面更廣,按比率提取的用戶比隨機抽取用戶的準確率更高.所以,利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型比利用決策樹算法建立的預測模型更優(yōu).
表7 利用決策樹算法求得的流失概率排序表
其實,任何模型都不可能是完美無缺的,雖然利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型能有效解決0/1分類的預測問題,但卻也無法避免指標間的相關性對預測結果帶來的影響.如果兩個或兩個以上的指標間相關性太強,就會相互產生抵消作用,進而影響到預測的準確性.雖然利用邏輯回歸算法建立的預測模型有這樣的不足,但這卻是目前使用效果最好的建立預測模型的方法.
表8 利用決策樹算法建立的GPRS業(yè)務流失預測模型的查全率、查準率和提升率
在2015年底,利用建立的GPRS業(yè)務流失預測模型對廣州移動公司2016年上半年的GPRS套餐用戶流失情況進行預測,制定合理的挽留策略,以便為公司減少損失,創(chuàng)造更多的價值.
4.1 按流失級別劃分GPRS套餐用戶
根據2015年底廣州移動公司使用GPRS套餐客戶數(shù)(19 267 390人),為方便起見,假定2016年上半年廣州移動公司使用GPRS套餐客戶數(shù)為12 000 000人,根據表1中的23個有效指標和對應數(shù)據,利用式(1)、式(3)和流失預測模型能給每個GPRS套餐用戶計算出一個流失概率,概率值越高說明流失的可能性越大;概率越低則說明流失的可能性越小[16].經計算,流失的總用戶數(shù)約為120萬.根據流失概率可將流失用戶劃分為三個流失級別:
第一級別 高流失級別.在這一流失級別中,用戶的流失概率都大于0.62,約有用戶24萬,占到了總流失用戶的20%,流失率高達28%,明顯高于GPRS套餐總體流失率(8%).流失率在這一級別的用戶是挽留的重點.
第二級別 中流失級別.這一級別中的用戶流失概率都處于[0.47,0.62]之間,約有用戶36萬,占到了總流失用戶的30%,流失率約為5.7%,略低于總體流失概率.
第三級別 低流失級別.這一級別中的用戶流失概率都低于0.47,有用戶60萬,占到了總流失用戶的50%,流失率不到3.2%,遠遠低于GPRS套餐總體流失率.
4.2 挽留策略
為了有效挽留這24萬高流失用戶,廣州移動公司針對2016年上半年GPRS標準套餐制定了新的資費標準.由以前的5元、10元、20元、50元、100元和200元套餐擴展到5元、10元、20元、30元、40元、50元、58元、100元、130元、180元和200元等多種類型套餐,以加大用戶選擇的余地,盡量避免因業(yè)務資費和上網體驗而造成的客戶流失。
除了GPRS標準套餐資費進行調整之外,廣州移動公司還根據流失原因開展了四個挽留營銷活動:
活動一 使用58元以上(含58元)GPRS標準套餐的用戶,在2016年1—6月份每月均可獲得1G的贈送量;
活動二 入網3個月以上且正在使用58元以上GPRS標準套餐的老客戶,從2016年1月起,即可領取12G流量半年包,分6個月贈送,每月2G;
活動三 針對包月流量不夠的客戶,開通流量加油包業(yè)務,資費標準為:5元30M、10元70M和20元150M;
活動四 針對當月臨時有較高上網流量需求的用戶,推出手機流量疊加包.在不影響原有套餐的基礎上,可同時購買流量包,資費標準為:10元100M、20元300M、30元500M、50元1G、70元2G、100元3G、180元6G.
廣州移動公司把使用全球通、神州行、動感地帶、TD品牌這四種品牌的客戶的高流失級別用戶分別按流失概率從高到低進行排名,指派專門的營銷人員按從上往下的順序派發(fā)挽留營銷活動單,以此來維系老用戶,達到防止客戶流失的目的.
經GPRS標準套餐制資費標準調整和開展挽留營銷活動半年后,2016年7月,對廣州移動公司2016年上半年使用GPRS業(yè)務流失預測模型及維挽策略后的效果進行了評估.發(fā)現(xiàn)實際流失客戶數(shù)(1 103 200個)比預測流失客戶數(shù)(1 200 000個)少了很多,連續(xù)6個月GPRS流失率出現(xiàn)下降趨勢,總降幅達30%,為公司挽留用戶50多萬,節(jié)省營銷成本200多萬,提升了流量業(yè)務整體利潤,促進了GPRS營收和業(yè)務的健康發(fā)展.
1) 本文主要利用邏輯回歸算法建立了GPRS業(yè)務流失預測模型,通過科學的方法對其進行評估,并將其在實際問題當中檢驗了該模型的應用效果.對解決預測問題中常用的三種算法優(yōu)劣勢進行了比較,明確了利用邏輯回歸算法能很好處理0/1分類問題.利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型擬合效果好,性能優(yōu)良.
2) 通過查準率、查全率和提升率三個指標對該模型進行檢驗,發(fā)現(xiàn)利用邏輯回歸算法建立的GPRS業(yè)務流失預測模型定位流失用戶的準確率和確定流失用戶的覆蓋率都是相當高的,能對GPRS套餐使用用戶的流失情況進行有效地預測.而且比利用決策樹算法建立的預測模型定位流失用戶的準確率更高,因此更具優(yōu)越性.
3) 通過將該模型應用在廣州移動公司2016年上半年GPRS標準套餐流失用戶的預測和維挽營銷中后,連續(xù)6個月GPRS流失率出現(xiàn)下降趨勢,為公司挽留用戶50多萬,節(jié)省營銷成本200多萬,提升了流量業(yè)務整體利潤,進一步說明了該模型實用效果明顯.
由于條件限制,本文研究所采用的數(shù)據均來自廣州移動公司GPRS業(yè)務使用客戶,有一定的局限性,在今后的研究中爭取能得到西安、寶雞等更多地區(qū)移動公司的支持,獲得相關用戶數(shù)據,進一步優(yōu)化GPRS業(yè)務流失預測模型;本文所研究的模型和算法還可應用到醫(yī)學、農林、消防等多個領域,對這些領域中有可能產生的不良情況進行預測,以便及時制定對策,進行有效預防;根據實際需要,還可利用類似方法建立GPRS業(yè)務挽留機會模型和GPRS業(yè)務流失原因模型,以便找出需要挽留且值得挽留的客戶和識別最可能導致用戶流失的原因,進而制定有效對策,最大可能地保留老用戶、發(fā)展新客戶.
[1] 張愛華.WiTi技術與GPRS技術比較[J].信息通信,2015(6):235.
ZHANG Aihua.The Comparison of WiFi Technology and GPRS Technology[J].Information & Communication,2015(6):235(in Chinese)
[2] 高弋坤.移動互聯(lián)網“地位爭奪戰(zhàn)”[J].通信世界周刊,2011(38):13.
GAO Yikun.“Battle for Position” of the Mobile Internet[J].Communications World Weekly ,2011,(38):13.(in Chinese)
[3] SUKI N M.Students’ Demand for Smartphones Structural Relationships of Product Features,Brand Name,Product Price and Social Influence[J].Campus-Wide Information Systems,2013,30(4):236.
[4] 中研普華寬帶網絡行業(yè)分析專家.2014—2018中國寬帶網絡產業(yè)市場前景預測及投資價值評估報告[R].北京:中研普華公司,2014.
Broadb and Network Industry Analysts of Zero Power Intelligence Group.Annual Research and Consultation Report of Pan-orama Survey and Investment Strategy on China Industry(2014-2018)[R].Beijing:Zero Power Intelligence Group,2014.(in Chinese)
[5] 張秀蘭.邏輯回歸模型下的企業(yè)財務預測實證研究[J] .求索,2012(1):36.
ZHANG Xiulan.Logistic Regression Model of Enterprise Financial Forecast and Empirical Research [J].Seeker,2012,(1):36.(in Chinese)
[6] 米子川.統(tǒng)計建模的數(shù)據來源和數(shù)據準備的方法[J].統(tǒng)計與決策,2012,(17):16.
MI Zichuan.Statistical Modeling Method of Data Source and Data Preparation[J].Statistics & Decision,2012,(17):16.(in Chinese)
[7] ASHURI A,AMIRI A.Evaluating Estimation Methods of Missing Data on a Multivariate Process Capability Index [J].Inter-national Journal of Engineering,2015:88.
[8] 宋哲.淺談化探數(shù)據異常下限處理方法及其評價[J].甘肅科技,2015,31(22):38.
SONG Zhe.Introduction to Geochemical Anomaly Threshold Data Processing Method and Its Evaluation[J].Gansu Science and Technology,2015,31(22):38.(in Chinese)
[9] 司亞清,孟亞楠.基于Logistic模型的電信業(yè)務潛在用戶預測研究[J].軟件,2012,33(11):218.
SI Yaqing,MENG Yanan.Research of Predicting Potential Customers Based on Logistic Model in Telecommunications[J].Software,2012,33(11):218.
(in Chinese)
[10] 彭凱,秦永彬,許道云.基于邏輯回歸的客戶穩(wěn)定度建模[J].計算機程,2011,37(9):12.
PENG Kai,QIN Yongbin,XU Daoyun.Customer Stability Modeling Based on Logistic Regression[J].Computer Engineering,2011,37(9):12.(in Chinese)
[11] 肖遠.電信企業(yè)客戶的流失概率模型探討[J].無線互聯(lián)科技,2015 (19):58.
XIAO Yuan.Exploration on the Loss Probability Model of Telecom Enterprise Customers[J].Wireless Internet Technology,2015(19):58.(in Chinese)
[12] 趙小蘇.科技查新中的查全率與查準率[J].警察技術,2012 (5):71.
ZHAO Xiaosu.Recall Rate and Precision Rate in the Science and Technology movelty Search[J].Police Technology,2012,(5):71.(in Chinese)
[13] HU J,SHIH W,LIN Y.Development of Stock Evaluation System Based on Quasi-Linear Regression Model[J].International Journal of Electronic Business Mangement,2013,11(1):23.
[14] 周生寶,郭俊芳.客戶流失預測模型設計與實現(xiàn)[J].實踐經驗,2012(5):170.
Zhou Shengbao,Guo Junfang.Design and implementation of Customers Churn prediction Model in Telecommunication[J].Practical Experience,2009,(5):170.(in Chinese)
[15] STEFAN B,CHARLES L A C,GORDON V.Cormack.Information Retrieval:Implementing and Evaluation[M].Boston:MIT Press,2012.
[16] 劉曉.提高信息檢索效率的途徑——提高查全率與查準率 [J].科技信息,2013(22):236.
LIU Xiao.Ways to Improve the Efficiency of Information Retrieval-Impring the Recall Rate and Precision Rate[J].Science & Technology Information,2013,(22):236.(in Chinese)
(責任編輯、校對 肖 晨)
Application of Logistic Regression Algorithm in GPRS Business
PANLiying,CAOYan
(1.Math Department,Baoji Education Institute of Shaanxi,Baoji 721004,China; 2.School of Mechatronic Engineering,Xi’an Technological University,Xi’an 710021,China)
In order to effectively predict the loss of the users of communication GPRS business,a comparison between three algorithms was made that are commonly used in practical predictions.The Logistic algorithm which is better for the 0/1classification was selected,on the basis of which the model for predicting the loss of users of GPRS business was built.The top 5% and 10% users of the GPRS business in the Guangzhou Mobile Company were extracted whose loss probabilities were the highest.The model was tested with three indicators,including accuracy rate,recall rate and increase rate.It is found that both the accuracy rate of positioning the loss of the users and the coverage rate of confirming the loss of the users are fairly high,showing that the model can effectively predict the loss of the GPRS package users .In addition,the applications of the two predicting models built respectively on the Logistic algorithm and the Decision tree algorithm were compared.The comparison shows that the model built on the Logistic algorithm is superior in practical use.And its practicality was further verified.
GPRS business;logistic regression;loss-predicting model;accuracy rate;recall rate
10.16185/j.jxatu.edu.cn.2016.11.007
2016-03-18 基金資助:廣東移動數(shù)據部流量業(yè)務專項運營項目(G001-YDSH-BX-140020)
潘莉英(1980-),女,寶雞教育學院講師,主要研究方向為應用數(shù)學.E-mail:481322320@qq.com.
F626.3
A
1673-9965(2016)11-0897-09