涂 瑩,林士勇,歐陽柳,黃 金(.浙江省電力公司,杭州 30007;.樂清市供電公司,浙江 樂清 35600)
基于市場細分的邏輯回歸模型在電費回收風險預測中的應用研究
涂 瑩1,林士勇2,歐陽柳1,黃 金2
(1.浙江省電力公司,杭州 310007;2.樂清市供電公司,浙江 樂清 325600)
在大數(shù)據(jù)的基礎上,通過數(shù)據(jù)挖掘技術,借助SAS工具,構建了基于邏輯回歸的用戶電費回收風險預測模型。同時,根據(jù)市場細分理論,針對高壓用戶、低壓非居民用戶、低壓居民用戶分別構建了預測模型。預測結(jié)果顯示:3類模型預測準確率較高,為降低電費回收風險、提升電費回收率提供了數(shù)據(jù)支撐。
電費回收;邏輯回歸;市場細分;風險預測
電費回收是電力企業(yè)經(jīng)營成果的重要指標,做好電費風險預控一直以來既是營銷管理的重點也是難點。近年來,中國經(jīng)濟進入轉(zhuǎn)型期,增速放緩,部分企業(yè)面臨著產(chǎn)量下降、銷售困難等問題,對供電主體意味著這些用戶欠費風險加大。
一般而言,各地供電企業(yè)提升電費回收率主要從政策、規(guī)章、制度、措施出發(fā),以定性研究為主。如文獻[1]提出“加強用電合同管理”、“采取電費擔保措施”、“大用戶電費分次結(jié)算”、“電費回收內(nèi)部預警”;文獻[2]提出“建立強有力的領導班子”、“爭取政府支持”、“加大宣傳力度”、“運用法律手段”等;文獻[3]提出“轉(zhuǎn)變傳統(tǒng)繳費方式”、“建立信用體系”等;文獻[4]提出“嚴格落實抄表體制”、“加強核算管理規(guī)范化”等;文獻[5]提出“落實電費回收責任制”、“推進新型繳費方式”等;文獻[6]提出“幫助困難企業(yè)用戶改善經(jīng)營”等。
在實證研究方面,文獻[7]提出了運用層次分析法,從“經(jīng)營能力、社會交往、發(fā)展前景、電力法規(guī)、用電合作”5個維度,對用戶進行信用評分;文獻[8]從“盈利能力、營運能力、償債能力、發(fā)展能力、繳費風險”5個維度對大型用戶進行評價;文獻[9]從“企業(yè)素質(zhì)、資金信用、經(jīng)營管理、經(jīng)濟效益、發(fā)展前景、銀行信用等級”6個維度對用戶信用進行評價;文獻[10]從“財務特征、行為特征、環(huán)境特征”3方面對客戶進行信用評價。這些評價體系中,使用了較多的用戶數(shù)據(jù)和外部數(shù)據(jù),相對難以獲取,不利于實際落地應用。
隨著大數(shù)據(jù)時代的到來,供電企業(yè)積累了大量用戶數(shù)據(jù),數(shù)據(jù)是巨大的財富,筆者試圖從供電企業(yè)內(nèi)部數(shù)據(jù)出發(fā),通過數(shù)據(jù)挖掘技術,借用SAS、R等分析工具,對用戶歷史數(shù)據(jù)進行分析,通過數(shù)學模型預測用戶電費回收的風險,為電費回收工作提供數(shù)據(jù)支持。
1.1 時間序列分析
時間序列主要根據(jù)歷史數(shù)據(jù),使用長期趨勢(T)、季節(jié)變動(S)、循環(huán)變動(C)、不規(guī)則變動(I)4個要素預測某一指標數(shù)值的變化。主要應用于事務的整體趨勢,如:某供電企業(yè)某月的總供電量、全部用電用戶的總欠費金額等。
1.2 線性模型
線性模型包括線性回歸、方差分析、混合效應模型等,廣泛應用于生物、經(jīng)濟、氣象等領域[11]。其一般形式為
線性模型一般要求自變量X與因變量Y之間呈線性關系,否則預測準確度會下降。由于實際生活中情況比較復雜,研究者一般使用多元回歸模型。
1.3 邏輯回歸模型
邏輯回歸是一種研究二分變量Y與一系列影響因素Xn之間關系的多變量分析方法,是在線性模型基礎上的進一步發(fā)展。其一般形式為
式中:P是變量Y發(fā)生的概率,P的取值在0~1之間。比如:預測某用戶下月欠費的概率是0.85,即表明100個類似的用戶中,實際發(fā)生欠費的用戶有85個。
邏輯回歸模型可用于研究自變量與因變量之間的非線性關系,經(jīng)過幾十年的發(fā)展,已逐漸成熟。邏輯回歸模型計算速度快,對數(shù)據(jù)質(zhì)量要求相對不高,結(jié)果顯性化且穩(wěn)定性較好[12],目前在大數(shù)據(jù)、機器學習、經(jīng)濟學、廣告學、電信、金融等領域得到了廣泛的應用。嚴格意義上說,銀行業(yè)的信用卡評級、電信行業(yè)的星級服務、阿里巴巴芝麻信用[13]也是邏輯回歸模型的實際應用。
2.1 市場細分理論簡介
市場細分理論是市場營銷學中的重要概念,它強調(diào)目標用戶的差異性,假設不同的用戶特征不同、需求不同、行為不同、表現(xiàn)不同。
市場細分一般可通過地理歸屬、人口特征、行為、心理等開展,通過市場細分,可提升營銷行為的針對性、營銷方案的接受度、營銷資源的使用效率。
電力市場上的目標用戶是一個龐大的群體,對用戶開展分析、營銷、服務的過程中,必須遵循市場細分的原則,分別對待。
2.2 用戶欠費風險預測中市場細分的必要性
在用戶欠費風險預測中,初期,筆者并未對高壓用戶、低壓非居民用戶、低壓居民用戶3類用戶分別建模,而是將客戶類型作為一個分類變量納入模型中。模型預測結(jié)果不甚理想。比如:在同參數(shù)水平下,模型查準率為58%,查全率為21%。同時圈定的高風險客戶中,低壓非居民客戶占86%,與實際情況不符。
其次,從最終的模型結(jié)果來看,3類客戶的預測模型中,入模變量均有一定差異,甚至部分變量的系數(shù)正負向也不一致。原因在于3類客戶差異過大,在客戶量、電費、欠費金額、欠費率、繳費行為等方面均有量級的差異。
2.3 電費回收現(xiàn)狀分析
某省某縣供電公司有30萬電力用戶,月應收電費約2億元。欠費率,即產(chǎn)生滯納金的用戶占比約2.2%,這給電力公司的生產(chǎn)經(jīng)營帶來巨大的風險。
從市場細分的理論分析,電費拖欠呈現(xiàn)以下特點。
首先,每年春節(jié)期間,受“柔性催費”策略的影響,欠費率突增,比其它月份高1個百分點以上。
其次,高壓用戶、低壓非居民用戶、低壓居民用戶欠費率明顯不同。前2類用戶數(shù)量少,但欠費率普遍在10%以上;居民用戶占總用戶的85%以上,但欠費率僅在0.4%左右,欠費人數(shù)占總欠費用戶的1/5。
第三,不同行業(yè)欠費率有明顯差異。照明、紡織、印染等行業(yè)欠費率高,滯納金占比高,反映出傳統(tǒng)制造業(yè)經(jīng)營狀況不佳,電費違約風險大。
另外,城市與鄉(xiāng)村用戶、高壓與低壓用戶、大用戶與小用戶、不同合同容量用戶等多種維度上看,欠費率均有較大差異。
由于不同類型的用電用戶的欠費率上有顯著差異,在各個維度上的特征也有很大不同,經(jīng)探索研究,如果對全部用戶統(tǒng)一建模,預測結(jié)果準確性不高。故根據(jù)市場細分理論,從用戶類型出發(fā),對高壓用戶、低壓非居民用戶、低壓居民分別建模。
本研究使用的分析工具為SAS9.2版本。
3.1 高壓用戶電費回收風險預測
3.1.1 高壓用戶特征
高壓用戶與欠費有關的主要特征如下。
(1)高壓用戶主要繳費方式有:特約委托繳費,金融機構代扣,電力機構柜臺收費,其中特約委托繳費占比超過50%。
(2)高壓用戶繳費日主要分布在出賬單日后的10天內(nèi),2天內(nèi)繳費業(yè)務量較大,5天內(nèi)未繳費的用戶欠費風險高。
(3)高壓用戶一般執(zhí)行分次結(jié)算,違約金起算日與出賬單日間隔較短,產(chǎn)生的電費違約金絕對值較大。
3.1.2 建模過程
(1)數(shù)據(jù)搜集。從業(yè)務經(jīng)驗出發(fā),經(jīng)過專家討論,借鑒其它行業(yè)的成熟做法,諸如電信、銀行、保險等,從營銷業(yè)務系統(tǒng)、用電采集系統(tǒng)、95598用戶服務系統(tǒng)等系統(tǒng)中提取數(shù)據(jù),包括用戶標識、姓名、用戶類別、合同容量、城鄉(xiāng)類別、立戶日期、當前狀態(tài)、行業(yè)分類、高耗能行業(yè)類別、負荷性質(zhì)、電費通知方式、費控方式、抄表例日、用電量、電費金額、實收金額、應收違約金、實收違約金、付費方式等幾十個變量。
(2)數(shù)據(jù)核查。獲取數(shù)據(jù)以后,對清單數(shù)據(jù)的完整性(記錄數(shù)是否與報表一致、字段是否缺失)、準確性(匯總值是否與報表一致、是否有異常值)、邏輯一致性等進行核查。
(3)構造變量。在原始變量的基礎上,構建衍生變量。構建方法包括求和、平均值、方差、同比、環(huán)比、連續(xù)變量離散化等。比如:過去6個月停機次數(shù)、用電量環(huán)比變化、3個月用電量方差、回款時長、立戶時長、電費單價、電費分段、繳費日分布、繳費間隔等。
(4)相關性分析。對“待建?!钡淖兞?,包括原始變量和衍生變量,進行相關性分析,衡量變量間的相關性。一般而言,相關系數(shù)>0.8時,2個變量高度相關,需要刪除其中之一。經(jīng)過相關性分析和經(jīng)驗判斷,可刪除一部分變量。
(5)單變量分析。在進行邏輯回歸分析之前,一般需要對單變量進行分析,包括和因變量之間的相關性分析和卡方分析。以確定某一變量是否可用于建模,以及是否需要對該變量進行轉(zhuǎn)化。步驟(5)與步驟(2)經(jīng)常交叉同步進行。
以2014年7月—2015年6月欠費次數(shù)與2015 年7月是否欠費的關系為例,如圖1所示。
圖1 不同歷史欠費次數(shù)用戶的次月欠費率
分析圖1可知,過去1年都沒有發(fā)生欠費的用戶次月欠費概率極低,而歷史欠費次數(shù)越高,次月發(fā)生欠費的概率越高。
卡方分析,即使用單變量與因變量作回歸分析,得到其卡方值。一般卡方值越大,說明該變量對因變量的預測顯著性越高,反之越小。
經(jīng)過單變量相關性分析和單變量卡方分析,進一步減少入模變量。
(6)回歸分析。把經(jīng)過步驟(4)、步驟(5)過濾的變量集合納入回歸方程,使用SAS的proc logistic程序步進行運算。
從3個變量開始,運用逐步回歸法,分別計算3 到N個變量的回歸方程的C值,選擇C值最大的回歸方程作為最優(yōu)方程。
注:C值指ROC曲線以下的面積,一般而言,C值大于0.75時,認為回歸方程有效。C值越大,回歸方程越可靠。
確定回歸變量后,代入邏輯回歸方程,得出各變量的系數(shù)。最終確定的方程為
式中:X1為近12個月用戶產(chǎn)生罰金的總次數(shù),X1與欠費風險正相關;X2為近12個月用戶在25日之后繳費的總次數(shù),繳費越晚,欠費風險越高;X3為近12個月用戶在20—25日之間繳費的總次數(shù),由于高壓用戶一般需多次繳費,20—25號距離產(chǎn)生違約金的期限較長,故這段時間內(nèi)繳費的用戶欠費概率低;X4為近12個月用戶逾期的總次數(shù)(逾期指繳費日距出賬單日超過10天);X5為前一個月用戶最后一次繳清費用前所繳的費用占應收費用的比重,由于高壓用戶一般需多次繳費,繳費進度越快,欠費概率越低;X6為近12個月用戶繳清每筆應收電費的平均天數(shù)。
(7)結(jié)果檢驗。得到回歸方程后,更重要的是對其預測準確性進行檢測。一般使用時間平移驗證的方法。即使用N月及N月之前的數(shù)據(jù),對因變量在N+1,N+2,…的表現(xiàn)進行驗證。采用2015年7月之前數(shù)據(jù)進行建模,驗證效果如表1所示。
查全率與查準率是互斥的關系,一方提升另一方必然降低,可根據(jù)實際應用情況進行調(diào)整。
P值:P值的選擇以實際應用為主,P值越大,預測準確率越高,但覆蓋的目標用戶過少,對整體欠費防控意義較?。籔值越小,覆蓋的目標用戶越多,但準確率越低,欠費防控的工作難度越大。在本模型的應用中,選取P≥0.4為高風險標準,篩選約700戶用于輔助實際電費催收工作。
表1 高壓用戶預測準確度(P≥0.4)
3.2 低壓非居民用戶電費回收風險預測
低壓非居民用戶具體建模和數(shù)據(jù)處理過程與高壓用戶類似,不再詳述。
針對低壓非居民用戶建模,最終確定的方程為
式中:X1為近12個月用戶產(chǎn)生罰金的總次數(shù);X2為近12個月用戶在25日之后繳費的總次數(shù);X3為近12個月用戶繳清每筆應收電費的平均天數(shù);X4為近12個月用戶逾期總次數(shù),由于X4與X3正相關,2個變量的對欠費風險的綜合影響為正向,而由于量級的差異,二者同時入模時,X4的系數(shù)呈負向;X5為用戶是否近3個月連續(xù)逾期,低壓居民連續(xù)3個月逾期用戶極少,而高壓用戶逾期連續(xù)3個月逾期用戶較多,這2類用戶中X5顯著性不高,X5僅在低壓非居民用戶中顯著。
驗證效果如表2所示。
表2 低壓非居民用戶預測準確度(P≥0.4)
3.3 低壓居民用戶電費回收風險預測
針對低壓居民用戶建模,最終確定的方程為
式中:X1為近12個月用戶產(chǎn)生罰金的總次數(shù);X2為近12個月用戶在25日之后繳費的總次數(shù);X3為近12個月用戶在15—20日之間繳費的總次數(shù);X4為近12個月用戶在20—25日之間繳費的總次數(shù);X5為近12個月用戶繳清每筆應收電費的平均天數(shù),X2、X3、X4與X5對欠費風險的綜合影響為正向,而由于量級的差異,四者同時入模時,前3個變量的系數(shù)呈負向;X6為用戶前一個月繳清費用距出賬單日是否超過25天,用戶繳費越晚,欠費風險越大;X7為用戶前一個月抄表例日是否在3日之前,抄表例日在3日之前的用戶,違約金起算日相對較早,欠費概率較高。
驗證效果如表3所示。
表3 低壓居民用戶預測準確度(P≥0.5)
(1)欠費風險模型的應用:聚焦高風險用戶,提升催費的針對性。
目前,在電費的收取過程中,一般要開展提醒、通知、催繳3個環(huán)節(jié)。針對低風險用戶,可以適當減少提醒、通知環(huán)節(jié),降低催費頻率,優(yōu)先推廣電子賬單;重點針對高風險用戶開展催收工作,提升催費的頻率,比如:提醒短信由2天一次提高到1天一次。
(2)欠費風險模型的優(yōu)化:首先,納入更多變量,提升模型的預測能力。比如:在實際催收工作中,出租戶電費回收風險明顯較高,但“出租戶”這個標簽是缺失的,需要考慮如何建設該標簽,完善客戶基礎信息;其次,優(yōu)化模型的可理解性。盡管在統(tǒng)計學領域,邏輯回歸是一個較為直觀、易理解的模型,但對普通人而言仍然是一個黑箱。在后期的優(yōu)化過程中,筆者考慮以評分表的模式對用戶的風險進行評分,以便于理解。
[1] 鄭文華.供電企業(yè)實施電費回收的措施及應注意的問題[J].電力技術經(jīng)濟,2009,3(6):59-63.
[2] 劉桂華.電費回收工作存在的問題及對策研究[J].湖南農(nóng)機,2009,36(2):68-69.
[3] 趙瑞霞.電費回收中存在的問題及其對策[J].企業(yè)研究,2011,9(18):187-188.
[4] 王剛,吳菊平.電費回收風險預控管理探討[J].經(jīng)營者,2013(11):28-30.
[5] 舒文平,許新蘭.電費回收工作存在的問題與對策[J].安徽電氣工程職業(yè)技術學院學報,2008(4):83-87.
[6] 王娟.電費回收的策略與對策[J].價值工程,2011,30 (33):298.
[7] 王綿斌,譚忠富,張蓉.供電企業(yè)規(guī)避電費回收風險的用戶信用評價方法[J].華東電力,2007,35(1):21-25.
[8] 劉一民.節(jié)能減排政策下電網(wǎng)企業(yè)收益風險管理研究[D].北京:華北電力大學,2012.
[9] 谷林峰.交納電費信用等級評定與風險預警管理系統(tǒng)的研究與開發(fā)[D].長沙:湖南大學,2005.
[10] 劉小平.婁底電業(yè)局電費回收風險管理研究[D].長沙:中南大學,2010.
[11] 徐禮文.幾類統(tǒng)計模型的估計和預測理論[D].北京:北京工業(yè)大學,2006.
[12] Jiawei Han,Micheling Kamber,Jian Pei.數(shù)據(jù)挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2012:240.
[13] 李小曉.芝麻信用“摸石頭過河”[J].新世紀周刊,2015(7):38-41.
Research on the risk prediction of electricity fee recovery using logistic regression based on the market segmentation theory
TU Ying1,LIN Shi?yong2,OUYANG Liu1,HUANG Jin2
(1.Zhejiang Electric Power Company,Hangzhou 310007,China;2.Leqing Electric Power Supply Company,Leqing 325600,China)
Based on large data theory,using data mining technology with the SAS software,we construct a model on the risk prediction of electricityfee recovery using logistic regression.More importantly,we construct separated models for high-voltage users,low-voltage non-family users and low-voltage family users based on the market segmentation theory.All the accuracy rates are satisfied,and provide data supporting to cut off the risk of electricity fee recovery and promote the rate of tariff recovery.
electricity cost recovery;logistic regression;market segmentation theory;risk prediction
2016-01-04;修回日期:2016-02-01
F407.61
B
10.3969/j.issn.1009-1831.2016.04.010