薛峪峰, 羅紅郊, 馬曉琴
(國(guó)網(wǎng)青海省電力公司信息通信公司,青海,西寧 810008)
電能是不可儲(chǔ)存的特殊商品,生產(chǎn)與銷售需同時(shí)進(jìn)行,因此一般采用“先使用、后付費(fèi)”的信用銷售模式[1-2]。由于社會(huì)信用建設(shè)相對(duì)滯后,給電費(fèi)回收的風(fēng)險(xiǎn)管控帶來(lái)較大壓力。為規(guī)避電費(fèi)回收風(fēng)險(xiǎn),及早發(fā)現(xiàn)欠費(fèi)風(fēng)險(xiǎn)用戶,建立電力用戶信用管理制度,迫切需要在歷史數(shù)據(jù)集上應(yīng)用信用評(píng)價(jià)模型識(shí)別欠費(fèi)風(fēng)險(xiǎn)用戶。因此,構(gòu)建高效、準(zhǔn)確的電力用戶信用評(píng)價(jià)模型是開展電力用戶信用管理工作的基礎(chǔ)。
信用評(píng)價(jià)模型通?;跈C(jī)器學(xué)習(xí)算法構(gòu)建[3]。研究顯示,綜合特征選擇、分類等算法步驟的混合算法是保證用戶信用評(píng)分模型性能的有效方法,這是因?yàn)橛脩粜庞迷u(píng)價(jià)數(shù)據(jù)集中包含大量和冗余的特征,需要通過特征約簡(jiǎn)降低計(jì)算復(fù)雜度和提升分類準(zhǔn)確度[4-5]。
由于“自我優(yōu)化”“靈活性”和“簡(jiǎn)單的基本規(guī)則集”等特性,元啟發(fā)式算法可有效解決特征選擇問題[6]。文獻(xiàn)[7]將GA應(yīng)用于ANN的圖像特征選擇,加快了網(wǎng)絡(luò)收斂速度。文獻(xiàn)[8]提出了一種基于PSO的特征選擇與基于SVM的分類相結(jié)合的信用風(fēng)險(xiǎn)識(shí)別及預(yù)警模型,提升了分類精度。文獻(xiàn)[9]使用蝙蝠算法優(yōu)化了基于SVM的故障分類算法,有效防止了局部收斂,取得了較好的預(yù)測(cè)精度。
本文基于結(jié)合數(shù)據(jù)預(yù)處理、特征選擇和分類器的混合算法,設(shè)計(jì)了一種電力用戶信用評(píng)價(jià)模型,以識(shí)別存在欠費(fèi)風(fēng)險(xiǎn)的電力用戶。在模型構(gòu)建方面,使用改進(jìn)蝙蝠算法提高特征選擇質(zhì)量,使用優(yōu)化的適應(yīng)度函數(shù)提升分類精度和降低計(jì)算成本,使用徑向基函數(shù)網(wǎng)絡(luò)(RBFN)基于所選特征子集進(jìn)行電力用戶的分類。在模型應(yīng)用方面,基于模型計(jì)算結(jié)果制定個(gè)性化電費(fèi)催繳措施,從而主動(dòng)應(yīng)對(duì)電費(fèi)回收風(fēng)險(xiǎn),確保電費(fèi)回收風(fēng)險(xiǎn)可控、能控、在控,保障電費(fèi)回收管理規(guī)范高效。應(yīng)用結(jié)果證明,該模型能夠有效支撐電費(fèi)回收管理工作的高效開展。
電力用戶信用評(píng)價(jià)模型的主要目標(biāo)是確定電力用戶屬于信用良好或信用較差(可能在不久的將來(lái)做出欠費(fèi)行為)用戶群體。該模型主要由數(shù)據(jù)預(yù)處理、特征選擇和分類器三個(gè)主要流程組成,如圖1所示。
圖1 所提電力用戶信用評(píng)價(jià)模型架構(gòu)
電力用戶可分為居民生活用戶、工業(yè)用戶、商業(yè)用戶以及農(nóng)業(yè)生產(chǎn)用戶。依據(jù)用戶分類,信用指標(biāo)(即特征)又可分為商業(yè)信用指標(biāo)(企業(yè)形象、資產(chǎn)負(fù)債率、繳納電費(fèi)占比等)、安全信用指標(biāo)(安全檢查記錄、安全事故記錄等)、合作信用指標(biāo)(綜合能源服務(wù)記錄、配合檢查記錄、調(diào)度合作記錄等)以及法律信用(違章用電、電費(fèi)繳納情況等)[10]。如果不根據(jù)對(duì)屬性不同、數(shù)值差異較大以及包含缺失值的龐雜數(shù)據(jù)集進(jìn)行適當(dāng)處理,將難以直接進(jìn)行分類計(jì)算。
數(shù)據(jù)預(yù)處理的第一步是剔除具有缺失值的數(shù)據(jù)樣本。其次,對(duì)非實(shí)數(shù)類型的特征屬性進(jìn)行處理,將其屬性值轉(zhuǎn)換成唯一的實(shí)數(shù),因?yàn)樯窠?jīng)網(wǎng)絡(luò)分類器只支持實(shí)數(shù)的輸入向量。最后,由于在信用評(píng)分?jǐn)?shù)據(jù)集中特征取值差異過大,為防止具有大數(shù)值范圍的特征支配具有小數(shù)值范圍的特征,使用式(1)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,
(1)
其中,x表示具有N個(gè)特征值的數(shù)據(jù)樣本,Nvalue表示新分配的特征值。
為從原始特征集中確定一個(gè)最小規(guī)模的特征子集,且該特征子集足以描述給定數(shù)據(jù)集中電力用戶的信用特征,設(shè)計(jì)基于改進(jìn)蝙蝠算法的特征選擇算法。
1.2.1 改進(jìn)蝙蝠算法
蝙蝠發(fā)出一個(gè)短脈沖的聲音并等待,在接收到回聲返回后估計(jì)物體的距離。借鑒蝙蝠這種特殊的回聲定位能力,文獻(xiàn)[11]設(shè)計(jì)了一種新的元啟發(fā)式優(yōu)化算法,即蝙蝠算法(BA)。在BA中,一群蝙蝠利用回聲定位能力追蹤食物?;隍鸹芈暥ㄎ恍袨楹筒妒承袨?BA給出了蝙蝠的短脈沖頻率、位置和速度的計(jì)算規(guī)則[11]如式(2)、式(3)和式(4):
Freqi=Freqmin+(Freqmax-Freqmin)×β
(2)
Vli(t+1)=Vli(t)+(Posi(t)-Gbest)×Freqi
(3)
Posi(t+1)=Posi(t)+Vli(t+1)
(4)
式中,Freqi表示每次迭代更新的第i個(gè)蝙蝠的短脈沖頻率,β∈[0,1]是0到1之間的隨機(jī)生成數(shù),Gbest是得到的最佳解,Vli(t)和Posi(t)表示第t次迭代時(shí)第i個(gè)蝙蝠的速度和位置。
式(2)、式(3)和式(4)已可以保證BA正常迭代運(yùn)行,但為增強(qiáng)BA的收斂性能,在正常迭代過程中添加了一個(gè)隨機(jī)游走過程,如式(5)~式(7):
Posnew=Posold+ε×Lt
(5)
Li(t+1)=α×Li(t)
(6)
Ri(t+1)=Ri(0)[1-e-γt]
(7)
式中,ε∈[0,1]是0到1之間的隨機(jī)生成數(shù),Li和Ri表示第i個(gè)蝙蝠在第t次迭代時(shí)的脈沖幅值和脈沖發(fā)射率。在算法迭代過程中,Li和Ri分別按照式(6)和式(7)進(jìn)行更新。
在BA中,蝙蝠位置在連續(xù)搜索空間中變化,但是在本文的二分類問題中,需要在離散空間或二進(jìn)制空間中對(duì)蝙蝠位置進(jìn)行搜索,蝙蝠位置需要用1或0表示。因此,使用二進(jìn)制蝙蝠算法(BBA)在離散空間中更新蝙蝠位置[12]。BBA將連續(xù)搜索空間映射到離散搜索空間,如式(8):
(8)
在完成搜索空間的映射后,使用式(9)更新蝙蝠位置,
(9)
式(8)和式(9)通過閾值限制將蝙蝠位置值轉(zhuǎn)換為1或0。這導(dǎo)致當(dāng)蝙蝠速度增加時(shí),蝙蝠位置不會(huì)改變。為解決該問題,修改空間映射函數(shù)和位置更新方法如式(10)、式(11):
(10)
(11)
1.2.2 特征選擇
在特征選擇算法中,將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集兩部分,分別表示Tr和Ts。前75%的數(shù)據(jù)樣本指定為Tr,其余25%的數(shù)據(jù)樣本指定為Ts。在特征選擇算法中,首先初始化蝙蝠的種群、位置、脈沖響度和脈沖發(fā)射率。蝙蝠初始位置是隨機(jī)選擇的,其值為0或1。蝙蝠種群大小與該數(shù)據(jù)集中的特征總數(shù)相同。如果位置值為1,則表示該位置對(duì)應(yīng)特征存在,否則不存在。此外,根據(jù)蝙蝠位置從Tr和Ts中生成新的訓(xùn)練和測(cè)試數(shù)據(jù)集,即D1和D2。分類器在D1上進(jìn)行訓(xùn)練并在D2上進(jìn)行測(cè)試,以計(jì)算每個(gè)蝙蝠的適應(yīng)度值。此外,如果已經(jīng)接受了新的位置,則分別根據(jù)式(6)和式(7)更新幅值Li和脈沖發(fā)射率Ri。一般來(lái)說,蝙蝠捕捉到獵物后,脈沖發(fā)射率會(huì)增加,幅值會(huì)降低。特征選擇算法步驟如下。
(1) 初始化蝙蝠的種群和位置。蝙蝠種群大小與數(shù)據(jù)集特征數(shù)量相同,蝙蝠位置隨機(jī)取值1或0。其中,1表示對(duì)應(yīng)位置特征存在,0表示不存在。
(2) 初始化蝙蝠的速度、幅值和頻率。
(3) 從原始數(shù)據(jù)集創(chuàng)建訓(xùn)練集和測(cè)試數(shù)據(jù)集。
(4) 為每個(gè)蝙蝠生成具有選定特征的訓(xùn)練和測(cè)試數(shù)據(jù)集(D1和D2)。
(5) 計(jì)算每只蝙蝠的適應(yīng)度值,并根據(jù)適應(yīng)度值找到局部最佳值。
(6) 更新蝙蝠的速度、響度和頻率。
(7) 重復(fù)步驟(2)直到迭代次數(shù)和適應(yīng)度值分別小于最大迭代次數(shù)和或閾值。
(8) 找到全局最優(yōu)Gbest,并將Gbest對(duì)應(yīng)的位置作為選擇特征。
1.2.3 適應(yīng)度函數(shù)
提升分類精度和降低所選特征集的計(jì)算成本是設(shè)計(jì)適應(yīng)度函數(shù)的主要目標(biāo)。在電力用戶信用評(píng)價(jià)數(shù)據(jù)集中,可能有一些特征比其他特征更有價(jià)值,例如對(duì)于居民生活用戶而言,電費(fèi)繳納情況比繳納電費(fèi)占比更有價(jià)值。因此,針對(duì)每個(gè)特征的準(zhǔn)確性、特征數(shù)量和權(quán)重,設(shè)計(jì)如式(12)所示的適應(yīng)度函數(shù),
(12)
式中,Wa表示分類精度的權(quán)重系數(shù),Acc表示分類精度,Wf表示所選特征成本的權(quán)重系數(shù),Fi表示第i個(gè)特征,Wi表示第i個(gè)特征的權(quán)重系數(shù),N表示數(shù)據(jù)集中特征的總數(shù)。
在式(12)中,準(zhǔn)確度與預(yù)定義的權(quán)重系數(shù)Wa相關(guān),如果準(zhǔn)確度是信用評(píng)價(jià)中最重要的問題,則可以調(diào)整其為1。此外,每個(gè)特征都與權(quán)重系數(shù)Wa相關(guān)聯(lián),這表明該特征對(duì)信用評(píng)價(jià)的價(jià)值,即最有價(jià)值特征被分配最大的權(quán)重系數(shù)。
為了在迭代過程中使得具有更高適應(yīng)度值的蝙蝠被保留概率更高,可根據(jù)不同的電力用戶類型優(yōu)化調(diào)整準(zhǔn)確度權(quán)重系數(shù)和特征集的計(jì)算成本權(quán)重系數(shù)值。
分類是指輸入向量到某個(gè)輸出類的映射。主流的分類器有“多層前饋神經(jīng)網(wǎng)絡(luò)(MLFN)”“多層感知器網(wǎng)絡(luò)(MLPN)”等。這些分類方法采用迭代的方法訓(xùn)練,需要較長(zhǎng)時(shí)間來(lái)進(jìn)行網(wǎng)絡(luò)收斂。與MLFN和MLPN不同,徑向基函數(shù)網(wǎng)絡(luò)(RBFN)是非迭代模型,需要單次迭代進(jìn)行訓(xùn)練,因此訓(xùn)練時(shí)間較短。研究表明,RBFN的分類性能也優(yōu)于MLFN和MLPN模型[13]。因此,本文基于RBFN設(shè)計(jì)的分類器如圖2所示。
圖2 所設(shè)計(jì)的RBFN結(jié)構(gòu)
所設(shè)計(jì)的RBFN具有四層前饋架構(gòu),第一層是輸入層,第二層是隱藏層,第三層是求和層,第四層是輸出層。RBFN使用徑向基函數(shù)作為激活函數(shù)。在輸入層,神經(jīng)元的數(shù)量與輸入特征向集上的特征數(shù)量相同。該層完全連接至隱藏層。隱藏層包含M個(gè)神經(jīng)元,M等于訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)樣本數(shù)。該層完全連接到求和層。求和層中神經(jīng)元的激活函數(shù)為徑向基函數(shù),如式(13)所示。求和層有少量神經(jīng)元,相當(dāng)于訓(xùn)練數(shù)據(jù)集中類標(biāo)簽的數(shù)量。最后,輸出層只有一個(gè)輸出神經(jīng)元,代表分類的類別標(biāo)簽。
(13)
式中,φ(x)是隱藏層的輸出向量,x是隱藏層的輸入向量,σi是第i個(gè)隱藏神經(jīng)元的輸出,μi是中心向量。
(14)
式中,R是徑向基矩陣,T是訓(xùn)練數(shù)據(jù)集的目標(biāo)向量。
α=[R′×R]
(15)
W=α-1×R′×T
(16)
式中,R′是矩陣R的轉(zhuǎn)置,α是方差矩陣。
Yi=Wi×φ(x),i=1,2,…,M
(17)
式中,Yi是第i個(gè)求和層神經(jīng)元的輸出,Wi是式(16)所計(jì)算得出的第i個(gè)求和層神經(jīng)元的權(quán)重系數(shù)。
根據(jù)某市級(jí)供電公司從2020年1月至7月于試點(diǎn)區(qū)域收集的歷史數(shù)據(jù),使用本文所提出的模型計(jì)算信用較差的電力用戶,并將該計(jì)算結(jié)果與8月欠費(fèi)用戶進(jìn)行比對(duì),以驗(yàn)證模型的性能。按此方法,依次計(jì)算9~12月的存在欠費(fèi)風(fēng)險(xiǎn)的電力用戶。
收集的歷史數(shù)據(jù)包含120個(gè)居民生活用戶、40個(gè)大工業(yè)用戶、100個(gè)一般商業(yè)用戶以及60個(gè)農(nóng)業(yè)生產(chǎn)用戶,一共3840個(gè)數(shù)據(jù)樣本。數(shù)據(jù)集中的信用指標(biāo)分為商業(yè)信用、安全信用、合作信用以及法律信用4大類,共16個(gè)特征指標(biāo)。模型應(yīng)用結(jié)果如下。
對(duì)信用評(píng)價(jià)模型輸出的信用較差用戶與實(shí)際發(fā)生欠費(fèi)用戶進(jìn)行對(duì)比,用準(zhǔn)確率、完整率、有效率三個(gè)評(píng)價(jià)指標(biāo)來(lái)評(píng)估電力用戶信用評(píng)價(jià)模型實(shí)施效果。準(zhǔn)確率即在模型輸出的信用較差用戶中,真實(shí)發(fā)生欠費(fèi)的用戶占比,該指標(biāo)用以衡量模型的準(zhǔn)確性;完整率則是在模型輸出的信用較差用戶中,真實(shí)發(fā)生欠費(fèi)的用戶占全體信用較差用戶的比例,該指標(biāo)用以衡量模型的全面性;有效率指模型輸出結(jié)果的準(zhǔn)確率與隨機(jī)篩選的準(zhǔn)確率的比值,該指標(biāo)用以衡量模型的有效性。
將所輸出信用較差用戶與實(shí)際欠費(fèi)用戶對(duì)比,發(fā)現(xiàn)工業(yè)用戶的識(shí)別準(zhǔn)確率最高,表1顯示8~11月準(zhǔn)確率平均為75.9%,完整率為63.5%。在12月,為了提升模型完整率,準(zhǔn)確率有所降低。
表1 工業(yè)用戶識(shí)別結(jié)果
商業(yè)用戶識(shí)別較為準(zhǔn)確,表2顯示8~11月準(zhǔn)確率平均為70.8%,完整率為 43.2%。在12月,為了提升模型完整率,準(zhǔn)確率有所降低。
表2 商業(yè)用戶識(shí)別結(jié)果
居民生活用戶識(shí)別準(zhǔn)確率類似一般商業(yè)用戶,表3顯示8~11月準(zhǔn)確率平均為70.0%,完整率為43.0%。在12月,為了提升模型完整率,準(zhǔn)確率有所降低。
表3 居民生活用戶識(shí)別結(jié)果
農(nóng)業(yè)用戶預(yù)測(cè)準(zhǔn)確率稍低,表4顯示8~11月準(zhǔn)確率平均為66.9%,完整率為44.1%。在12月,為了提升模型完整率,準(zhǔn)確率有所降低。
表4 農(nóng)業(yè)用戶識(shí)別結(jié)果
根據(jù)電力用戶信用評(píng)價(jià)模型的輸出結(jié)果,結(jié)合具體業(yè)務(wù)應(yīng)對(duì)策略,按照電費(fèi)風(fēng)險(xiǎn)防控管理流程,將相應(yīng)業(yè)務(wù)策略推送至相應(yīng)崗位,主動(dòng)開展電費(fèi)催繳。
對(duì)于工業(yè)客戶,模型計(jì)算結(jié)果的準(zhǔn)確率最高,因此可依據(jù)模型結(jié)果制定完備的電費(fèi)回收風(fēng)險(xiǎn)管控措施,包括風(fēng)險(xiǎn)用戶信息發(fā)布、風(fēng)險(xiǎn)用戶信息收集、用戶信用評(píng)估報(bào)告生成、電費(fèi)催繳措施確認(rèn)、電費(fèi)催繳措施執(zhí)行與催繳措施執(zhí)行效果評(píng)估等環(huán)節(jié),對(duì)已實(shí)施催繳措施的用戶進(jìn)行催繳成效追蹤,催繳結(jié)果可納入案例庫(kù),完善催繳策略。
對(duì)于一般商業(yè)用戶、居民生活用戶以及農(nóng)業(yè)用戶,模型計(jì)算結(jié)果不夠準(zhǔn)確,且這部分用戶數(shù)量極大,因此需要將模型計(jì)算結(jié)果整理分發(fā)給相關(guān)電費(fèi)催繳責(zé)任人,由責(zé)任人依據(jù)具體情況定期開展針對(duì)風(fēng)險(xiǎn)用戶的催繳、專項(xiàng)核抄等,確定具體的真實(shí)的欠費(fèi)風(fēng)險(xiǎn)用戶,為提高欠費(fèi)催繳的效率提供必要的數(shù)據(jù)支撐。
根據(jù)模型計(jì)算結(jié)果,于2021年1月份對(duì)信用較差電力用戶采取針對(duì)性的應(yīng)對(duì)策略,試點(diǎn)區(qū)域電費(fèi)回收率得到提升。
試點(diǎn)區(qū)域中工業(yè)用戶欠費(fèi)數(shù)減少2%,欠費(fèi)率降低0.81%;商業(yè)用戶欠費(fèi)數(shù)減少8.2%,欠費(fèi)率降低6.64%;居民生活用戶欠費(fèi)數(shù)減少8.6%,欠費(fèi)率降低4.06%;農(nóng)業(yè)用戶欠費(fèi)數(shù)減少4.6%,欠費(fèi)率降低0.09%。
將試點(diǎn)區(qū)域應(yīng)用結(jié)果與其他區(qū)域?qū)Ρ?試點(diǎn)區(qū)域欠費(fèi)率總體下降2.9個(gè)百分點(diǎn),其他區(qū)縣下降0.05個(gè)百分點(diǎn)。其中,工業(yè)用戶欠費(fèi)率試點(diǎn)區(qū)域下降 0.81 個(gè)百分點(diǎn),其他區(qū)域上升0.02 個(gè)百分點(diǎn)。具體見表5和表6。
表5 試點(diǎn)區(qū)域應(yīng)用結(jié)果
表6 其他區(qū)域?qū)Ρ冉Y(jié)果
研究表明,基于電力用戶信用評(píng)價(jià)模型電費(fèi)風(fēng)險(xiǎn)管控策略能夠快速響應(yīng)業(yè)務(wù)需求,幫助業(yè)務(wù)人員從海量電費(fèi)數(shù)據(jù)中預(yù)測(cè)潛在的風(fēng)險(xiǎn)用戶,提高欠費(fèi)催繳效率。本文以信用評(píng)估與電費(fèi)風(fēng)險(xiǎn)防控主題為例,證明了電力用戶信用評(píng)價(jià)模型能有效預(yù)警電力繳費(fèi)信用較差人群,推動(dòng)催繳工作的主動(dòng)開展,提升試點(diǎn)區(qū)域電力用戶總體電費(fèi)回收率。該模型在青海等地試點(diǎn)應(yīng)用,取得了較好的效果,為精準(zhǔn)實(shí)施電費(fèi)回收風(fēng)險(xiǎn)管控,提高客戶服務(wù)的個(gè)性化、精準(zhǔn)度提供了有力支撐。