耿俊成,張小斐,袁少光,萬迪明
(國網(wǎng)河南省電力公司 電力科學研究院,鄭州 450052)
電網(wǎng)公司客戶規(guī)模大,生產(chǎn)經(jīng)營情況復雜,長期以來在故障處理、客戶服務(wù)方面面臨較大壓力。通過對近年來客戶咨詢、投訴記錄的統(tǒng)計分析,發(fā)現(xiàn)客戶的訴求主要集中在“停電”、“電能質(zhì)量”、“服務(wù)態(tài)度”等方面。對停電有著強烈反應(yīng),進而通過95598服務(wù)熱線、營業(yè)廳、在線客服等方式進行報修、咨詢或者投訴的客戶,可稱其為停電敏感客戶。開展電力客戶停電敏感度分析,準確識別停電高敏感客戶,及時做好用電服務(wù),既可以提升客戶滿意度,也有助于減少95598服務(wù)熱線的呼入量。
目前,針對電力客戶咨詢、投訴行為的分析預警,一些專家學者提出了較好的研究思路。文獻[1]、文獻[2]提出采用數(shù)據(jù)挖掘技術(shù)中的邏輯回歸算法模型構(gòu)建客戶停電敏感度分析模型,并對客戶停電敏感度進行分析預測,但是邏輯回歸模型輸出結(jié)果比較復雜,營銷業(yè)務(wù)人員不容易理解與應(yīng)用。本文提出基于邏輯回歸模型構(gòu)建電力客戶停電敏感度評分卡,通過表格形式直觀展示停電敏感度主要影響因素以及影響程度,方便計算每個客戶停電敏感度評分以預測其敏感程度。該方法在某地市公司營銷服務(wù)工作中進行了試點應(yīng)用,取得了良好效果。
邏輯回歸模型是當前業(yè)界比較常用的機器學習方法,用來估計某種事物發(fā)生的可能性。例如:某用戶購買某種商品的可能性;某病人患有某種疾病的可能性。它源于多元線性回歸,是一種研究目標變量Y與一系列影響因素X1,X2,...,Xm之間關(guān)系的多變量分析方法。邏輯回歸的目標變量Y是二值變量,表示事件的發(fā)生或不發(fā)生,通常編碼為1和0。用邏輯回歸模型計算事件發(fā)生的概率為
式中:e為自然數(shù),約等于2.718 28;β0,β1,...,βm為模型參數(shù),β0也稱為截距。
對公式(1)進行簡單轉(zhuǎn)換,可以得到
邏輯回歸模型學習時,對于給定的訓練數(shù)據(jù)集T={(x1,y1),(x2,y2),...,(xn,yn)},通常應(yīng)用最大似然估計法計算模型參數(shù)值,即β0,β1,...,βm,從而得到邏輯回歸模型[3—4]。
電網(wǎng)公司營銷業(yè)務(wù)人員根據(jù)邏輯回歸模型輸出結(jié)果計算某個客戶發(fā)生停電投訴的概率時,公式(1)計算過程仍然比較復雜。
證據(jù)權(quán)重轉(zhuǎn)換(weight of evidence,WOE)用于衡量同一屬性變量的各個取值對分類結(jié)果的貢獻。它可以將分類屬性變量轉(zhuǎn)化為數(shù)值型變量,以降低建模過程的復雜性,其計算公式如下
式中:p(Y=yk|Xi=xij)、p(Y≠yk|Xi=xij)表示屬性變量Xi=xij時,樣本類別分別為Y=yk及Y≠yk的概率值??梢钥闯觯琖OE越大,Y=yk實例越多,權(quán)重越大。因此可以使用WOE作為判斷屬性的某種取值對分類結(jié)果導向性的一種度量[5]。
假設(shè)分類變量Xi可以分為ni類,對Xi進行WOE轉(zhuǎn)換,可得
式中:δi1,...,δini為二元虛擬變量,即對于所有的j=1,...,ni,如果Xi的取值為第j類即Xi=xij,則δij=1,否則δij=0。
采用經(jīng)WOE轉(zhuǎn)換后WOE(X1),...,WOE(Xm)替代原變量X1,X2,...,Xm,公式(2)可表示為
接著,合并公式(4)和公式(5)可得
公式(6)表現(xiàn)形式就是評分卡。首先,賦予每個客戶一個基礎(chǔ)分值β0;接著,如果X1取值為x11將增加β1WOE(x11)分;如果X1取值為X12將增加β1WOE(X12)分,依次類推。
經(jīng)過WOE轉(zhuǎn)換,分類變量被轉(zhuǎn)化為數(shù)值型變量,同時可以將邏輯回歸模型輸出結(jié)果轉(zhuǎn)變?yōu)樵u分卡形式,以利于后續(xù)模型結(jié)果的理解與應(yīng)用。
評分卡是一種對邏輯回歸模型輸出結(jié)果進行轉(zhuǎn)化的技術(shù)。通過制作評分卡,邏輯回歸模型輸出結(jié)果變得容易理解與應(yīng)用。
評分卡的分值刻度可以通過將分值表示為比率對數(shù)的線性表達式來定義,具體形式如下
式中:Sbase、K為常數(shù)??梢酝ㄟ^將2個已知或假設(shè)的分值代入公式計算得到。通常假設(shè):①在某個特定比率設(shè)置特定的預期分值;②制定比率翻番的分數(shù)(Sdouble)。
首先,設(shè)定比率為θ0的特定點的分值為Sθ0,比率 2θ0的分值為Sθ0+Sdouble。代入式(7)可以得到如下2個方程
解上述2個方程中的常數(shù)Sbase和K,可得到
例如:如果設(shè)定評分卡比率為(某電網(wǎng)公司停電敏感客戶與非敏感客戶的實際比率)時的分值為60分,且Sdouble=10,則計算出的K=14.43,Sbase=91.84。
合并公式(6)和公式(7),基于邏輯回歸的評分卡形式如下
式中:Sbase+Kβ0稱為基準點??梢酝ㄟ^給每一個評分卡變量都增加將基準點分值平均分配到各變量之間,以消除基礎(chǔ)分值,從而得到零基準點的評分卡。具體形式如表1。
表1 零基準點評分卡
依據(jù)停電敏感客戶的定義,提取某省級電網(wǎng)公司6.3萬戶高壓客戶2016年全年敏感客戶及全量正??蛻舻南嚓P(guān)數(shù)據(jù)構(gòu)建停電敏感度評分卡??紤]到高壓客戶、低壓非居民客戶、低壓居民客戶在停電敏感度影響因素差異顯著,在停電敏感度評分卡實施時分別對它們進行建模。電力客戶停電敏感度評分卡實施的流程如圖1。
圖1 電力客戶停電敏感度評分卡實施流程
從電網(wǎng)公司營銷業(yè)務(wù)系統(tǒng)、95598系統(tǒng)提取客戶停電敏感相關(guān)屬性數(shù)據(jù)。以高壓客戶停電敏感度分析為例,主要數(shù)據(jù)包括以下幾類。
(1)基本屬性:用電類型、行業(yè)分類、立戶日期、供電電壓、城農(nóng)網(wǎng)標志、城鄉(xiāng)類別、供電單位等。
(2)用電行為:停電次數(shù)、停電時長、停電通知方式、用電量、電價等。
(3)95598信息:咨詢、報修、投訴、舉報記錄等。
獲取數(shù)據(jù)后,首先需要對數(shù)據(jù)記錄的離群點、缺失值、異常值進行清洗;其次是構(gòu)建衍生變量,即對原始數(shù)據(jù)進行處理和加工以獲取更有預測力和解釋性的變量,例如:歷史撥打95598次數(shù)等。
模型的變量篩選是比較復雜的過程,需要考慮的因素很多,例如:變量的預測能力,變量之間的相關(guān)性,變量在業(yè)務(wù)上的可解釋性等,其中最主要和最直接的衡量標準是變量的預測能力。通??梢酝ㄟ^輸入變量與輸出變量之間的關(guān)聯(lián)分析篩選出最有預測力的變量。
信息值(Information value,IV)是衡量2個分類變量Xi和Y(其中變量Y為二元變量)之間關(guān)聯(lián)性的指標[6],它的定義如下
式中:n為變量Xi的類別數(shù);pj=p(Y=yk|Xi=xij)表示屬性變量Xi=xij時樣本類別為Y=yk的概率值;qj=(Y≠yk|Xi=xij)表示屬性變量Xi=xij時,樣本類別為Y≠yk的概率值。高壓客戶模型各變量的IV值如表2所示。
表2 高壓客戶模型各變量的IV值
一般情況下,若某個屬性與目標屬性之間信息值小于0.02,可認為該屬性不具備預測能力,因此舍棄電壓等級和客戶重要性等級2個屬性變量。
篩選出模型變量后,需要將數(shù)值變量轉(zhuǎn)化為分類變量以進行證據(jù)權(quán)重轉(zhuǎn)換。通??梢圆捎玫阮l/等距直方圖分析方法將數(shù)值變量轉(zhuǎn)化為分類變量。以“平均停電時長”為例,該變量區(qū)間為[0,422](單位:h),采用等距直方圖分析方法,以0.5為步長構(gòu)建該變量的等差數(shù)列,共有845個分組[7]。該變量分組數(shù)量過多,將會導致模型計算復雜度急劇增長,還需要將其分組合并以減少屬性類別數(shù)量;若將其類別縮減至9個類別,共有種合并方式,可按照信息值計算公式(13)計算每一種方式的信息值,最終選擇信息值最大的合并方式。
將各數(shù)值變量轉(zhuǎn)換為分類變量后,依據(jù)公式(3)計算各屬性變量的證據(jù)權(quán)重轉(zhuǎn)換值。“平均停電時長”的變量類別以及證據(jù)權(quán)重轉(zhuǎn)換值如表3所示。
計算每個樣本用戶分析時間范圍內(nèi)各個屬性的證據(jù)權(quán)重轉(zhuǎn)換值,運用邏輯回歸模型構(gòu)建客戶停電敏感度模型,形式如下
表3 平均停電時長分組情況及WOE值
模型訓練時采用最大似然估計法計算β0和各屬性模型參數(shù)值,其中β0=-4.089 4,各屬性模型參數(shù)即β1,...,βm如表4所示。
表4 高壓客戶各屬性模型參數(shù)值
基于客戶停電敏感度模型輸出的模型參數(shù)和各屬性證據(jù)權(quán)重轉(zhuǎn)換值構(gòu)建客戶停電敏感度評分卡。通過將分值表示為比率對數(shù)的線性表達式來定義評分卡的分值刻度,具體形式如下
設(shè)(0.47%是高壓用戶中停電敏感客戶的實際占比)時,時,Score=65;代入公式(7)得Sbase=98.67;K=7.21。
參照表1電力客戶停電敏感度零基準點評分卡形式,最終可得到高壓用戶停電敏感度的評分卡如表5所示。
基于高壓客戶停電敏感度評分卡,在獲取某一高壓客戶相關(guān)信息后,營銷業(yè)務(wù)人員可以很方便計算出該客戶的敏感度評分。
表5 高壓客戶停電敏感度模型評分卡
依據(jù)停電敏感客戶的定義,提取某省級電網(wǎng)公司6.3萬戶高壓客戶2016年全年敏感客戶及全量正??蛻舻南嚓P(guān)數(shù)據(jù)構(gòu)建客戶停電敏感度評分卡,然后根據(jù)其2017年1月停電敏感客戶實際數(shù)據(jù)驗證模型準確性。模型驗證結(jié)果如下圖2所示。
圖2 客戶停電敏感度評分卡評估
圖2中命中率為模型判斷為敏感客戶且實際為敏感客戶數(shù)與模型判斷為敏感客戶數(shù)的比值;覆蓋率為模型判斷為敏感客戶且實際為敏感客戶數(shù)與全量實際停電敏感客戶數(shù)的比值;提升度為命中率與停電實際敏感客戶占比的比值。
1月份高壓客戶中,實際產(chǎn)生的、有戶號可查的有關(guān)停電的咨詢、投訴客戶占比是2.71%。停電敏感度評分在前5%的客戶中高敏感客戶的命中率31%,覆蓋率為57.0%,提升度為11.4。
依據(jù)該停電敏感度評分卡,該電網(wǎng)公司可以更精準的定位停電高敏感客戶,針對不同程度的敏感客戶采取個性化的措施,以降低客戶投訴,提升客戶滿意度。
針對當前基于邏輯回歸的客戶敏感度分析模型輸出結(jié)果復雜、不易理解與應(yīng)用問題,本文提出了一種基于邏輯回歸模型的客戶停電敏感度評分卡實施方法。首先,從電網(wǎng)公司營銷業(yè)務(wù)系統(tǒng)、95598系統(tǒng)提取客戶停電敏感相關(guān)屬性數(shù)據(jù),通過信息值篩選出具有高預測力的屬性;接著,計算各屬性的證據(jù)權(quán)重轉(zhuǎn)換值,運用邏輯回歸模型構(gòu)建客戶停電敏感度分析模型;最后,基于停電敏感度分析模型的輸出參數(shù)和各屬性證據(jù)權(quán)重轉(zhuǎn)換值構(gòu)建客戶停電敏感度評分卡。通過客戶停電敏感度評分卡電網(wǎng)公司營銷業(yè)務(wù)人員可以方便地計算每一個客戶的停電敏感度,進而為精準營銷和差異化服務(wù)提供數(shù)據(jù)支撐。D
[1] 嚴宇平,吳廣財.基于數(shù)據(jù)挖掘技術(shù)的客戶停電敏感度研究與應(yīng)用[J].新技術(shù)新工藝,2015(9):89-93.
[2] 鄭芒英.用電客戶停電敏感度分析[D].廣州:華南理工大學,2014.
[3] 涂瑩,林士勇,歐陽柳,等.基于市場細分的邏輯回歸模型在電費回收風險預測中的應(yīng)用研究[J].電力需求側(cè)管理,2016,18(4):46-49.
[4] 趙永良,秦萱,吳尚遠,等.基于數(shù)據(jù)挖掘的高壓用戶電費回收風險預測[J].電力信息與通信技術(shù),2015,13(9):57-61.
[5] Mamdouh Refaat.信用風險評分卡研究:基于SAS的開發(fā)與實施[M].王松奇,林治乾,譯.北京:社會科學文獻出版社,2013:181-191.
[6] 楊秋潔.基于Ⅳ屬性選擇的隨機森林模型研究[D].合肥:合肥工業(yè)大學,2010.
[7] 劉業(yè)政,焦寧,姜元春.連續(xù)屬性離散化算法比較研究[J].計算機應(yīng)用研究,2007,24(9):28-30.