王洋 呂斌斌 嚴(yán)冬 聞俊義 季小雨 陳力
摘要: 停電敏感預(yù)測(cè)是保障停電管理工作,提升客戶體驗(yàn)的有效舉措。本文將隨機(jī)森林模型引入停電敏感預(yù)測(cè)中,并將預(yù)測(cè)結(jié)果與停電工單結(jié)合輸出停電敏感高風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)用戶。在此基礎(chǔ)上,以浙江湖州市2016年1月1日至2018年12月31日的數(shù)據(jù)為例進(jìn)行了實(shí)例驗(yàn)證。模型結(jié)果顯示,隨機(jī)森林的預(yù)測(cè)結(jié)果準(zhǔn)確性為88%,模型覆蓋率為76.5%,模型的AUC值為0.77,結(jié)果優(yōu)于邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型,模型的優(yōu)良性為電網(wǎng)客戶服務(wù)風(fēng)險(xiǎn)提供有力的數(shù)據(jù)參考。
關(guān)鍵詞: 停電敏感模型 ??大數(shù)據(jù)? ?隨機(jī)森林算法
Abstract: blackout sensitive prediction is an effective measure to ensure blackout management and improve customer experience. In this paper, the stochastic forest model is introduced into the blackout sensitive forecasting, and the forecasting results are combined with the blackout work in order to output the users with high, medium and low risk. On this basis, the data from January 1, 2016 to December 31, 2018 in Huzhou City, Zhejiang Province are taken as an example to verify. The results of the model show that the accuracy of the prediction results of random forest is 88%, the coverage rate of the model is 76.5%, and the AUC value of the model is 0.77, which is superior to the logistic regression and neural network models. The excellence of the model provides a powerful data reference for the risk of grid customer service.
Key words: blackout sensitive model big data random forest algorithm
1 引言
隨著電力體制改革的縱向推進(jìn),電網(wǎng)正由生產(chǎn)型性質(zhì)向營(yíng)銷型性質(zhì)轉(zhuǎn)變。【1】如何把握客戶對(duì)電網(wǎng)公司的消費(fèi)體驗(yàn),關(guān)系到電網(wǎng)公司對(duì)市場(chǎng)的占有程度。準(zhǔn)確分析影響客戶用電體驗(yàn)的因素,成為各大售電公司搶占市場(chǎng)先機(jī)的前提條件。當(dāng)前,停電問(wèn)題依然是影響客戶體驗(yàn)的核心問(wèn)題,對(duì)停電敏感用戶的精準(zhǔn)識(shí)別則是電網(wǎng)公司進(jìn)行差異化預(yù)維護(hù)的重要舉措。【2】而停電敏感識(shí)別中停電敏感用戶的概念界定在營(yíng)銷側(cè)仍然存在著爭(zhēng)議,在此基礎(chǔ)上形成的標(biāo)簽規(guī)則不盡相同。另一方面,電網(wǎng)數(shù)據(jù)量的急劇增長(zhǎng),以傳統(tǒng)的統(tǒng)計(jì)手段不足以支撐海量數(shù)據(jù)的處理。【3】因此,對(duì)停電敏感用戶的分析研究仍然有待加強(qiáng)。
針對(duì)停電敏感用戶的概念界定,文獻(xiàn)大多是從客戶行為、停電影響、用電特征上進(jìn)行界定??蛻粜袨樯?,一般認(rèn)為客戶在發(fā)生停電事故后撥打95598客服熱線投訴定義為停電敏感用戶。停電影響上,停電敏感用戶主要是指一旦發(fā)生停電事件,將會(huì)帶來(lái)巨大經(jīng)濟(jì)損失的用戶。【4】而在用電特征上,往往將用電高峰期(夏季、冬季或者晚上)頻繁停電的用戶歸為停電敏感用戶。【5】本文認(rèn)為,客戶行為上的界定僅針對(duì)客戶的停電投訴行為。從停電影響上去定義停電敏感用戶,還需要進(jìn)一步區(qū)分經(jīng)濟(jì)損失的級(jí)別。從停電影響上定義,則會(huì)泛化停電敏感,并且用電高峰的定義同樣需要進(jìn)一步界定。結(jié)合現(xiàn)有文獻(xiàn)對(duì)停電敏感的界定,本文認(rèn)為停電敏感用戶是指用戶在發(fā)生停電事故后撥打95598客服熱線投訴或者客戶向95598熱線提出停電方面的意見(jiàn)。之所以將提出停電方面的意見(jiàn)納入概念考量是因?yàn)橥k娨庖?jiàn)工單在某種程度上隱含了停電影響、用電特征方面界定的停電敏感。一般而言,用戶只有在停電將會(huì)給自身效用造成損失的情況下才會(huì)傾向于提出意見(jiàn)。從客戶行為上完善停電敏感的定義,將會(huì)更加有效地篩選出停電敏感人群。
對(duì)于海量數(shù)據(jù)的處理,當(dāng)前的大數(shù)據(jù)技術(shù)已經(jīng)滲透到諸多領(lǐng)域。電信公司針對(duì)各類消費(fèi)群體,運(yùn)用機(jī)器學(xué)習(xí)方法,制定不同套餐策略,顯著降低客戶流失率;阿里巴巴集團(tuán)利用大數(shù)據(jù)技術(shù)為用戶提供信用服務(wù),并針對(duì)用戶的瀏覽記錄推薦相應(yīng)的產(chǎn)品。【6】電力大數(shù)據(jù)應(yīng)用方面,包含通過(guò)神經(jīng)網(wǎng)絡(luò)模型對(duì)用電客戶分時(shí)電價(jià)進(jìn)行分類【7】;通過(guò)聚類算法對(duì)停電敏感用戶進(jìn)行分類【8】;通過(guò)決策樹(shù)模型和邏輯回歸模型刻畫停電敏感用戶【9】。諸多研究中,甚少根據(jù)機(jī)器學(xué)習(xí)方法對(duì)停電敏感用戶領(lǐng)域進(jìn)行分析并預(yù)測(cè)。基于此,本文將根據(jù)隨機(jī)森林算法構(gòu)建停電敏感用戶模型,并根據(jù)算法預(yù)測(cè)結(jié)果結(jié)合用戶停電敏感標(biāo)簽對(duì)用戶進(jìn)行停電高敏感、中敏感、低敏感劃分,幫助營(yíng)銷、運(yùn)檢、客戶部門提供數(shù)據(jù)支撐,助力電網(wǎng)營(yíng)銷管理。
本文首先對(duì)用電敏感用戶進(jìn)行概念界定,通過(guò)業(yè)務(wù)梳理和專家建議構(gòu)建指標(biāo)體系;其次,運(yùn)用隨機(jī)森林算法進(jìn)行停電敏感用戶預(yù)測(cè);最后,結(jié)合預(yù)測(cè)結(jié)果和事實(shí)敏感用戶區(qū)分停電高敏感、中敏感、低敏感用戶。本文的創(chuàng)新點(diǎn)在于:(1)將停電敏感用戶定義進(jìn)行完善,并在概念界定基礎(chǔ)上構(gòu)建停電指標(biāo)體系。(2)將機(jī)器學(xué)習(xí)中隨機(jī)森林算法運(yùn)用到停電敏感模型中,并比較神經(jīng)網(wǎng)絡(luò)、邏輯回歸模型,加強(qiáng)了模型的穩(wěn)健性。(3)將隨機(jī)森林算法得到的停電敏感用戶預(yù)測(cè)與事實(shí)停電敏感用戶結(jié)合,區(qū)分了停電高敏感、停電中敏感、停電低敏感用戶。
2基于隨機(jī)森林預(yù)測(cè)模型的建立
2.1隨機(jī)森林算法原理
隨機(jī)森林算法于2001年由Leo Breiman提出,是一種集成學(xué)習(xí)方法,以決策樹(shù)為基本學(xué)習(xí)單元,包含多個(gè)由Bagging集成學(xué)習(xí)理論和隨機(jī)子空間方法訓(xùn)練得到的決策樹(shù)輸入待分類的樣本,由各個(gè)決策樹(shù)產(chǎn)生各分類結(jié)果,最終的分類結(jié)果由各個(gè)決策樹(shù)的結(jié)果進(jìn)行投票決定。其核心思想包含Bagging思想和隨機(jī)子空間思想,其本質(zhì)是利用組合多顆決策樹(shù)做出預(yù)測(cè)的多決策樹(shù)模型。如圖1所示,隨機(jī)森林的具體操作步驟如下:
(1)基于原始訓(xùn)練集,運(yùn)用bootstrap方法有放回地隨機(jī)抽取K個(gè)新的自助樣本集。在此基礎(chǔ)上構(gòu)建K棵分類樹(shù),未被抽取的樣本集歸入
(2)設(shè)置N個(gè)特征項(xiàng),在每棵樹(shù)的對(duì)應(yīng)節(jié)點(diǎn)處隨機(jī)抽取個(gè)特征,計(jì)算每個(gè)特征蘊(yùn)含的信息量,通過(guò)選取最具分類能力的特征進(jìn)行節(jié)點(diǎn)分裂。
(3)綜合生成的分類樹(shù)組合成隨機(jī)森林,再在新的數(shù)據(jù)上進(jìn)行分類,根據(jù)分類器挑選、評(píng)估并最終確定分類結(jié)果。
隨機(jī)森林不僅可以克服決策樹(shù)的一些不足,而且具有良好的可擴(kuò)展性和并行性,能夠有效解決大數(shù)據(jù)的快速處理問(wèn)題。因其分類速度快,可解釋性強(qiáng),可操作變量集大等優(yōu)點(diǎn)被廣泛應(yīng)用于電力、能源、醫(yī)學(xué)、金融等各行業(yè)分類問(wèn)題中。本文的停電敏感用戶識(shí)別問(wèn)題中,需要根據(jù)用戶停電維度、用戶信息維度、用戶標(biāo)簽維度的數(shù)據(jù)進(jìn)行特征分類,輸出停電敏感分類結(jié)果??紤]到隨機(jī)森林模型能夠有效地解釋每個(gè)維度的重要性,并對(duì)于輸出結(jié)果有較高的準(zhǔn)確性,因此,本文依據(jù)隨機(jī)森林算法區(qū)分停電敏感事件。模型預(yù)測(cè)結(jié)果的可靠性一般由模型準(zhǔn)確率、模型覆蓋率、模型提升度反映,具體公式為:
對(duì)模型評(píng)判效果評(píng)價(jià)的另一重要指標(biāo)為ROC,ROC曲線簡(jiǎn)稱受試者工作特征曲線,它關(guān)注的是TPR、FPR兩個(gè)指標(biāo)。其中,TPR是判定的停電敏感數(shù)占真正停電敏感數(shù)的比重,F(xiàn)PR是判定為停電敏感的非停電敏感占真正非停電敏感的比重。ROC曲線的橫坐標(biāo)是特異度(FPR),縱坐標(biāo)是靈敏度(TPR)。以中間的基線作為參照線,參照線和下部分組成的面積是0.5,越靠近參照線的準(zhǔn)確率越低。我們稱ROC曲線下的面積為AUC (Area Under Curve) ,AUC的值小于1。 AUC的值越大分類器的正確率越高。AUC=1,完美分類器,絕大多數(shù)預(yù)測(cè)場(chǎng)合不存在完美分類器; 0. 5
2.2停電敏感用戶模型構(gòu)建
考慮到對(duì)業(yè)務(wù)的理解和專家咨詢,我們對(duì)停電敏感用戶的定義為用戶在發(fā)生停電事故后撥打95598客服熱線投訴或者向95598熱線提出停電方面意見(jiàn)的工單用戶。因此將投訴和意見(jiàn)工單中涉及到停電問(wèn)題的工單用戶列為標(biāo)簽項(xiàng),特征項(xiàng)選取了停電信息、用戶信息、客戶標(biāo)簽三個(gè)維度的13個(gè)指標(biāo)。具體指標(biāo)體系見(jiàn)表1,數(shù)據(jù)源取自營(yíng)銷系統(tǒng)、客服系統(tǒng)、用采系統(tǒng)。樣本數(shù)據(jù)預(yù)處理步驟如下:
通過(guò)對(duì)樣本數(shù)據(jù)的預(yù)處理,確保數(shù)據(jù)的完整性、有效性、可用性。在此基礎(chǔ)上,將樣本數(shù)據(jù)進(jìn)行bootstrap自助取數(shù),并用隨機(jī)森林算法進(jìn)行訓(xùn)練。通過(guò)調(diào)整模型參數(shù)來(lái)不斷優(yōu)化模型性能,最終建立最佳的評(píng)價(jià)模型以得到理想的實(shí)驗(yàn)結(jié)果。
得到一個(gè)理想的實(shí)驗(yàn)結(jié)果后,本文根據(jù)隨機(jī)森林預(yù)測(cè)的結(jié)果結(jié)合歷史訴求工單記錄,輸出停電敏感高、中、低風(fēng)險(xiǎn)用戶。如表2所示,當(dāng)隨機(jī)森林算法預(yù)測(cè)出用戶為停電敏感用戶時(shí),如果歷史工單中也存在歷史訴求工單,那么將該用戶識(shí)別為停電敏感高風(fēng)險(xiǎn)用戶;當(dāng)隨機(jī)森林算法預(yù)測(cè)出用戶為停電敏感用戶時(shí),如果歷史工單中未存在歷史訴求工單,那么將該用戶識(shí)別為停電敏感中風(fēng)險(xiǎn)用戶;當(dāng)隨機(jī)森林算法預(yù)測(cè)出用戶為非停電敏感用戶時(shí),如果歷史工單中存在歷史訴求工單,那么將該用戶識(shí)別為停電敏感低風(fēng)險(xiǎn)用戶。
3實(shí)例驗(yàn)證
本文選取了2016年1月1日至2018年12月31日的浙江湖州所有投訴、意見(jiàn)工單中停電用戶數(shù)據(jù)作為標(biāo)簽數(shù)據(jù),并關(guān)聯(lián)客戶基本屬性、停復(fù)電記錄及電費(fèi)繳納情況,通過(guò)樣本的預(yù)處理整理出28349例樣本數(shù)據(jù),其中771例正樣本,27578例負(fù)樣本。
將整理出的數(shù)據(jù)進(jìn)行隨機(jī)森林訓(xùn)練,以特征數(shù)據(jù)與標(biāo)注數(shù)據(jù)配對(duì)的形式作為模型輸入,輸出每行樣本對(duì)應(yīng)的停電敏感度(值域介于0-1之間)。隨機(jī)森林的原始算法默認(rèn)選擇0.5樣本判定標(biāo)準(zhǔn)(即敏感度大于0.5被標(biāo)記敏感用戶),通過(guò)手動(dòng)調(diào)整閾值,來(lái)改變潛在停電敏感用戶數(shù)占參與建模用戶總數(shù)的比例,使之與實(shí)際業(yè)務(wù)情況相匹配。通過(guò)不同閾值的調(diào)整(調(diào)整精度為0.05),經(jīng)過(guò)上述公式的計(jì)算結(jié)果對(duì)比,如圖所示,當(dāng)閾值大于等于0.45以后覆蓋率下降十分明顯,而準(zhǔn)確率提升不明顯,同樣當(dāng)閾值小于等于0.45后,模型覆蓋率提升不明顯,而準(zhǔn)確率下降明顯。故最終確定模型閾值為0.45,對(duì)應(yīng)的準(zhǔn)確率為88%,模型覆蓋率為76.5%。
算法通過(guò)標(biāo)注數(shù)據(jù)不斷修正內(nèi)部參數(shù),直到輸出值域標(biāo)注數(shù)據(jù)最大程度的接近,最終選定150棵決策樹(shù)及7個(gè)分支。在閾值為0.45的水平下,模型的模型覆蓋率準(zhǔn)確率為88%,模型覆蓋率為76.5%。圖2是正樣本數(shù)據(jù)的模型覆蓋情況,可以看出,對(duì)于事實(shí)停電敏感用戶,隨機(jī)森林算法預(yù)測(cè)出的正確性為77%。
在算法訓(xùn)練過(guò)程中進(jìn)行結(jié)構(gòu)參數(shù)、標(biāo)準(zhǔn)化規(guī)則、變量篩選、閾值參數(shù)等超參調(diào)整,算法訓(xùn)練過(guò)程ROC曲線圖如圖1所示,得到的AUC值為0.77,表明隨機(jī)森林算法預(yù)測(cè)模型得到有效驗(yàn)證。
4穩(wěn)健性檢驗(yàn)
為了驗(yàn)證模型的穩(wěn)健性,本文樣本數(shù)據(jù)還進(jìn)行了邏輯回歸、神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。邏輯回歸算法的資源占用率低,實(shí)現(xiàn)難度低,被廣泛應(yīng)用于工業(yè)領(lǐng)域,易于解釋和理解,但是邏輯回歸算法僅支持二分類,對(duì)高維數(shù)據(jù)的擬合能力較差,準(zhǔn)確度不高,無(wú)法有效處理多類和非線性特征變量。而神經(jīng)網(wǎng)絡(luò)模型應(yīng)用領(lǐng)域同樣廣泛,算法準(zhǔn)確性上限極高,且具備較強(qiáng)的自我學(xué)習(xí)能力,但是模型往往缺乏可解釋性,且必須基于海量數(shù)據(jù)進(jìn)行學(xué)習(xí)。資源占用量及時(shí)間成本模型復(fù)雜度呈指數(shù)級(jí)增長(zhǎng)。
依據(jù)邏輯回歸算法、神經(jīng)網(wǎng)絡(luò)模型算法得到的結(jié)果顯示,邏輯回歸的Auc值為0.62,算法處理時(shí)間為2.7秒,神經(jīng)網(wǎng)絡(luò)的Auc值為0.7,處理時(shí)間為380秒。相比較于邏輯回歸算法和神經(jīng)網(wǎng)絡(luò)算法,隨機(jī)森林具有較高的Auc值(0.77),時(shí)間上僅用9.7秒。綜合訓(xùn)練結(jié)果,隨機(jī)森林算法最適合于停電敏感用戶識(shí)別場(chǎng)景,具體訓(xùn)練結(jié)果如表2所示:
5結(jié)論
本文基于隨機(jī)森林算法構(gòu)建電力敏感模型,根據(jù)整理的28349例樣本數(shù)據(jù)進(jìn)行隨機(jī)森林算法訓(xùn)練,訓(xùn)練結(jié)果顯示模型閾值為0.45,對(duì)應(yīng)的準(zhǔn)確率為88%,模型覆蓋率為76.5%。在與邏輯回歸、神經(jīng)網(wǎng)路模型進(jìn)行對(duì)比時(shí)發(fā)現(xiàn),隨機(jī)森林的Auc值為0.77,邏輯回歸的Auc值為0.62,神經(jīng)網(wǎng)絡(luò)的Auc值為0.77,可以得出,在用電敏感用戶識(shí)別模場(chǎng)景型中,隨機(jī)森林要優(yōu)于邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型。在此基礎(chǔ)上,本文還進(jìn)一步區(qū)分了停電高敏感風(fēng)險(xiǎn)、停電中敏感風(fēng)險(xiǎn)、停電低敏感風(fēng)險(xiǎn)用戶。
當(dāng)前,我國(guó)經(jīng)濟(jì)社會(huì)正由高速度發(fā)展向高質(zhì)量發(fā)展轉(zhuǎn)型,客戶對(duì)供電服務(wù)預(yù)期水平不斷提高,供電服務(wù)風(fēng)險(xiǎn)也隨之增加。傳統(tǒng)的電力客戶細(xì)分營(yíng)銷體系已經(jīng)不能適應(yīng)供電服務(wù)風(fēng)險(xiǎn)防控的現(xiàn)實(shí)需要,而識(shí)別停電敏感風(fēng)險(xiǎn),個(gè)性化服務(wù)用戶為提升用戶體驗(yàn)提供一種思路。本文的建議是以提前預(yù)判停電敏感風(fēng)險(xiǎn)為抓手,集中主要精力應(yīng)對(duì)停電高敏感、中敏感用戶,差異化策略營(yíng)銷,將會(huì)逐步提升用戶滿意度,助力電網(wǎng)體制改革的縱向推進(jìn)。
參考文獻(xiàn)
[1]胡晨,杜松懷,蘇娟,等.新電改背景下我國(guó)售電公司的購(gòu)售電途徑與經(jīng)營(yíng)模式探討[J].電網(wǎng)技術(shù),2016,40(11):3293-3299.
[2]葛睿,陳龍翔,王軼禹,等.中國(guó)電力市場(chǎng)建設(shè)路徑優(yōu)選及設(shè)計(jì)[[J].電力系統(tǒng)自動(dòng)化,2017,41(24).
[3]張海云.基于數(shù)據(jù)挖掘的供電企業(yè)客戶關(guān)系評(píng)估及系統(tǒng)開(kāi)發(fā)[D].華北電力大學(xué);華北電力大學(xué)(北京),2015.
[4]嚴(yán)宇平,吳廣財(cái).基于數(shù)據(jù)挖掘技術(shù)的客戶停電敏感度研究與應(yīng)用[J].新技術(shù)新工藝,2015(9):89-93.
[5]李天友,趙會(huì)茹,乞建勛,等.短時(shí)停電及其影響分析[J].中國(guó)電力,2012,(5):48-51.
[6]譚建豪等.數(shù)據(jù)挖掘技術(shù)[M].中國(guó)水利水電出版社,2009.
[7]程麗冰.大數(shù)據(jù)時(shí)代的電力客戶分群管理應(yīng)用研究[D].華南理工大學(xué),2016.
[8]鄭芒英.用電客戶停電敏感度分析[D].華南理工大學(xué),2014.
[9]黃敏如.基于大數(shù)據(jù)挖掘的東莞電力客戶價(jià)值分析及應(yīng)用[D].華南理工大學(xué),2015.
[10]何清,李寧,羅文娟,等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2013,26(4):327-336.
[11]王雷.基于數(shù)據(jù)挖掘的電力行業(yè)客戶細(xì)分模型研究[D].上海交通大學(xué),2007.