曾 錚,劉光明
(廣東電網(wǎng)有限責(zé)任公司東莞供電局,廣東東莞 523000)
電力資源一直是關(guān)乎國計(jì)民生的頭等大事。隨著我國經(jīng)濟(jì)體制改革的不斷深入,電力行業(yè)面臨著諸多挑戰(zhàn)[1]。一直以來,電費(fèi)回收是電力營銷的關(guān)鍵內(nèi)容,同時作為供電企業(yè)營銷的最后一部分起著決定性的作用[2]。但在實(shí)際工作中,經(jīng)常會出現(xiàn)用電客戶拖欠電費(fèi)的情況。導(dǎo)致電費(fèi)拖欠的原因有很多,比如沒有按時繳納電費(fèi)的意識或者用電客戶財(cái)務(wù)困難[3]。為此,電力公司多年來一直致力于通過各種方法提高電費(fèi)回收率,而這些方法往往側(cè)重于對管理手段的運(yùn)用,如改善加強(qiáng)電力公司的領(lǐng)導(dǎo)工作[4]以及聚焦重點(diǎn)企業(yè)[5]等。
近年來,針對電力公司所存在的電費(fèi)回收率不高的問題,各種不同的用戶風(fēng)險預(yù)測方法被提出。例如基于大數(shù)據(jù)的用戶風(fēng)險預(yù)測方法、基于支持向量機(jī)算法的風(fēng)險預(yù)警模型[6]、電力客戶欠款風(fēng)險的評估預(yù)測系統(tǒng)[7]以及基于邏輯回歸的風(fēng)險預(yù)測[8]。但是由于以上預(yù)測方法對于差異化服務(wù)策略和策略應(yīng)用評價缺乏深入研究,且對于特征工程部分沒有進(jìn)行詳細(xì)地分析[9],所以其預(yù)測的準(zhǔn)確率并不高。
基于對以上預(yù)測方法的分析與了解,本文采用集成學(xué)習(xí)方法構(gòu)建了一種電費(fèi)回收風(fēng)險預(yù)測模型。為了檢測其預(yù)測效果,首先通過針對數(shù)據(jù)的特征工程處理來得到適合模型訓(xùn)練的數(shù)據(jù),然后分別采用集成學(xué)習(xí)方法和傳統(tǒng)的邏輯回歸算法構(gòu)建電費(fèi)回收風(fēng)險預(yù)測模型,并對用電客戶下月違約的概率進(jìn)行預(yù)測。同時根據(jù)所得概率值將用電客戶分為高風(fēng)險、中風(fēng)險和低風(fēng)險3個不同的風(fēng)險等級,最后對用電客戶在3個不同的風(fēng)險級別中是否會拖欠電費(fèi)進(jìn)行合理預(yù)測。實(shí)驗(yàn)分析發(fā)現(xiàn),與傳統(tǒng)的邏輯回歸算法相比,集成學(xué)習(xí)方法可以更加有效地對用電客戶的支付行為進(jìn)行評估以及對用電客戶是否會拖欠電費(fèi)做出更準(zhǔn)確地預(yù)測。
在本節(jié)中,將分別對集成學(xué)習(xí)方法中的梯度學(xué)習(xí)決策樹、隨機(jī)森林、演算法以及邏輯回歸進(jìn)行簡要介紹。
集成學(xué)習(xí)方法中的梯度學(xué)習(xí)決策樹模型是由Jerome Friedman[10]在1999年提出的。當(dāng)使用決策樹進(jìn)行信息分類時,實(shí)際結(jié)果和預(yù)測結(jié)果總會有一定的殘差,而這個殘差便是梯度學(xué)習(xí)決策樹中下一個決策樹的訓(xùn)練數(shù)據(jù),以此得到對應(yīng)的各個決策樹的預(yù)測結(jié)果。然后通過對各個決策樹的預(yù)測結(jié)果進(jìn)行匯總,便可以得到模型的最終預(yù)測結(jié)果,其相關(guān)公式如下:
隨機(jī)森林是一種集成算法,其可以通過結(jié)合多個弱分類器來對最終的預(yù)測結(jié)果進(jìn)行投票,從而使整個模型的結(jié)果具有較高的準(zhǔn)確性和泛化性。其分類決策公式為:
式中:H(x)為組合分類模型;hi(x)為單決策樹分類模型;Y為輸出變量;I為相關(guān)的函數(shù)。
當(dāng)分類結(jié)果集合包含該決策樹模型的分類結(jié)果時,函數(shù)值為1,否則為0。最后以票數(shù)的多少來決定最終的預(yù)測結(jié)果。
集成學(xué)習(xí)方法中的演算法是一種迭代算法。在演算法的訓(xùn)練中,樣本的初始權(quán)值通常是相同的。首先,需要對一個弱分類器進(jìn)行訓(xùn)練,然后計(jì)算分類器的錯誤率。在每次模型訓(xùn)練結(jié)束后,再根據(jù)之前的學(xué)習(xí)結(jié)果調(diào)整樣本的權(quán)重。也就是說,演算法學(xué)習(xí)過程的本質(zhì)是不斷變化的重量樣本學(xué)習(xí),直到其誤差是0或?qū)W習(xí)者的數(shù)量達(dá)到預(yù)設(shè)值,才可以輸出結(jié)果。
最后,對邏輯回歸進(jìn)行介紹。邏輯回歸的本質(zhì)是一種基于概率的廣義線性回歸方法,其廣泛應(yīng)用于健康評估和風(fēng)險評估中[9]。在本研究中,假設(shè)樣本為{X,y},y用0或1來分別表示無欠費(fèi)狀態(tài)和欠費(fèi)狀態(tài),X為n維樣本的特征向量。同時假設(shè)x1,x2,…,xn為n個特征值,且D(x)為模型參數(shù)回歸系數(shù),由此可得拖欠概率的函數(shù)公式為:
由式(2)~(3)可知,如果確定了回歸系數(shù)的值,則邏輯回歸模型的預(yù)測值是唯一的。
基于上節(jié)介紹,對電費(fèi)回收風(fēng)險預(yù)測模型的結(jié)構(gòu)、工程特性以及模型對于風(fēng)險的評估和預(yù)測進(jìn)行簡單地說明。
首先,對電費(fèi)回收風(fēng)險預(yù)測模型進(jìn)行介紹。電費(fèi)回收風(fēng)險預(yù)測模型結(jié)構(gòu)如圖1 所示,其可以分為4 個部分。(1) 數(shù)據(jù)獲?。簭拇髷?shù)據(jù)平臺讀取原始數(shù)據(jù),并通過數(shù)據(jù)分析提取出風(fēng)險用戶的基礎(chǔ)數(shù)據(jù)。(2)數(shù)據(jù)準(zhǔn)備:通過特征工程對風(fēng)險用戶數(shù)據(jù)進(jìn)行處理,并得到相關(guān)的訓(xùn)練集和測試集,從而為下一步建模做準(zhǔn)備。(3)模型訓(xùn)練:通過對用電客戶全年用電歷史數(shù)據(jù)的訓(xùn)練來得到相應(yīng)的訓(xùn)練模型,然后利用訓(xùn)練模型預(yù)測下個月用戶拖欠電費(fèi)的概率,并輸出結(jié)果。(4)風(fēng)險評估與預(yù)測:根據(jù)概率值將用戶劃分為高風(fēng)險、中風(fēng)險和低風(fēng)險3種不同的風(fēng)險級別,然后對處于相同風(fēng)險級別的用戶是否拖欠電費(fèi)進(jìn)行預(yù)測,繼而將預(yù)測結(jié)果反饋到大數(shù)據(jù)平臺。
圖1 電費(fèi)回收風(fēng)險模型結(jié)構(gòu)
其次對電費(fèi)回收風(fēng)險預(yù)測模型中的工程特性進(jìn)行介紹。由于數(shù)據(jù)是模型建立的基礎(chǔ),數(shù)據(jù)處理的好壞會在一定程度上對模型的效果造成影響,因此需要對數(shù)據(jù)進(jìn)行特征工程處理,從而獲得適合模型訓(xùn)練的數(shù)據(jù)。
由于特征工程處理可以有效提高模型的精確度,因此將特征選擇工作進(jìn)行了2 次。第一次選擇了50 個特征原始數(shù)據(jù),通過計(jì)算特征間的相關(guān)系數(shù)來對冗余特性進(jìn)行剔除,從而最終選擇了30 個合理特性,部分特性如表1 所示。基于第一次的特征選擇結(jié)果,在第二次特征選擇過程中主要對剩下的30個合理特性進(jìn)行重要度分析,并逐步去除重要度較低的特性,從而選擇最有效的特征集進(jìn)行模型訓(xùn)練。
表1 功能特性列表
同時,由于本文采用集成學(xué)習(xí)方法來對電費(fèi)回收風(fēng)險預(yù)測模型進(jìn)行構(gòu)建,所以其往往通過分階段訓(xùn)練不同的決策樹來得到多個輸出結(jié)果,然后再通過對特征工程處理后的模型進(jìn)行訓(xùn)練來得到最終的模型預(yù)測結(jié)果。
最后,對電費(fèi)回收風(fēng)險預(yù)測模型的風(fēng)險評估和預(yù)測進(jìn)行簡單的敘述。在電費(fèi)回收風(fēng)險預(yù)測模型中,根據(jù)違約的概率將用電客戶分為高風(fēng)險、中風(fēng)險和低風(fēng)險3 個不同的風(fēng)險等級,具體的劃分原則如表2所示。由表可知,將拖欠概率大于或等于60%的用戶定義為高風(fēng)險用戶;拖欠概率在20%~60%的用戶定義為中風(fēng)險用戶;拖欠概率小于20%的用戶定義為低風(fēng)險用戶。然后將風(fēng)險水平相同的用戶分為有拖欠用戶和無拖欠用戶,從而完成對于電費(fèi)回收風(fēng)險的評估和預(yù)測。
表2 風(fēng)險分類原則
由于通過對大量用電客戶的用電信息以及相關(guān)的支付記錄進(jìn)行仔細(xì)分析后發(fā)現(xiàn):在所有的用電客戶中只有0.6%的用電客戶在1個月內(nèi)有欠費(fèi)記錄,其正階級和負(fù)階級的分布極不平衡。基于這種情況,只需要重點(diǎn)關(guān)注那些有欠款記錄的風(fēng)險用電客戶即可。
同時基于以上說明,為了對采用算法的電費(fèi)回收風(fēng)險預(yù)測模型的評估以及預(yù)測效果進(jìn)行驗(yàn)證,分別采用集成學(xué)習(xí)方法和傳統(tǒng)邏輯回歸算法進(jìn)行模型構(gòu)建,然后對用電客戶是否會拖欠電費(fèi)進(jìn)行預(yù)測,并得出相應(yīng)的預(yù)測結(jié)果,具體如表3 所示。
表3 2個模型的預(yù)測結(jié)果
由表3 數(shù)據(jù)可以發(fā)現(xiàn),在中、高風(fēng)險水平的精確度方面,集成學(xué)習(xí)模型具有明顯的優(yōu)勢,而且集成學(xué)習(xí)模型的召回率和檢索率也均高于傳統(tǒng)的邏輯回歸模型。雖然在低風(fēng)險水平下,邏輯回歸模型的召回率高于集成學(xué)習(xí)模型,達(dá)到了85.92%,但是邏輯回歸模型的檢索率僅為12.38%,約為集成學(xué)習(xí)模型的1/2。由于在召回率和檢索率不能同時考慮確定的情況下,需要對2個模型的調(diào)和平均精確度進(jìn)行比較。在低風(fēng)險水平下,集成學(xué)習(xí)模型的精確度值為29.86%,而邏輯回歸模型的精確度值僅為22.18%,由此可以認(rèn)為對于低風(fēng)險用電客戶而言,集成學(xué)習(xí)模型仍優(yōu)于傳統(tǒng)的邏輯回歸模型。
此外,由表中數(shù)據(jù)還可以看出無論是提出的集成學(xué)習(xí)模型,還是傳統(tǒng)的邏輯回歸模型,對于低風(fēng)險用電客戶皆沒有很好的預(yù)測效果?;诖饲闆r,對其進(jìn)行了抽樣分析,發(fā)現(xiàn)低風(fēng)險用戶在支付行為上具有較高的不確定性,其欠款時間具有一定的波動性。因此,如果想更準(zhǔn)確地預(yù)測這些用電客戶是否會拖欠電費(fèi),就需要添加更多的外部特性。同時可以根據(jù)低風(fēng)險用戶數(shù)據(jù)不平衡的特點(diǎn),考慮借鑒其他算法來進(jìn)行優(yōu)化調(diào)試。
綜上所述,與傳統(tǒng)的邏輯回歸模型相比,本文提出的集成學(xué)習(xí)方法更適合于建立電費(fèi)回收風(fēng)險預(yù)測模型。實(shí)驗(yàn)結(jié)果還表明,集成學(xué)習(xí)方法模型可以更加有效地對電力客戶的支付行為進(jìn)行評估,并且可以更加準(zhǔn)確地對用戶是否會欠費(fèi)進(jìn)行預(yù)測。
本文提出了一種集成學(xué)習(xí)方法,并且利用該方法構(gòu)建了電費(fèi)回收風(fēng)險預(yù)測模型。電力公司可以通過該電費(fèi)回收風(fēng)險預(yù)測模型來對用電客戶進(jìn)行風(fēng)險評估,從而預(yù)測出用電客戶下個月違約的概率。同時,本文將實(shí)驗(yàn)結(jié)果與傳統(tǒng)的邏輯回歸算法相比較,集成學(xué)習(xí)方法可以更加有效地對電力客戶的支付行為進(jìn)行評估,并且可以更加準(zhǔn)確地對用戶是否會欠費(fèi)進(jìn)行預(yù)測。