王雍, 侯慧娟, 姚瓊瓊
(國(guó)網(wǎng)河南省電力公司營(yíng)銷服務(wù)中心,鄭州 450050)
對(duì)于智能電能表的質(zhì)量分析工作,無(wú)論是作為生產(chǎn)者的廠商,還是作為使用者的國(guó)家電網(wǎng)公司,都還沒(méi)有一個(gè)定量的標(biāo)準(zhǔn)。2014年,國(guó)家電網(wǎng)公司開(kāi)展了電能計(jì)量裝置狀態(tài)檢驗(yàn)方面的探索和研究,文獻(xiàn)[1]的研究成果是根據(jù)對(duì)電能表的當(dāng)前運(yùn)行狀態(tài)的評(píng)價(jià),指導(dǎo)電能表現(xiàn)場(chǎng)檢驗(yàn)及輪換周期的動(dòng)態(tài)調(diào)整工作;2015年,文獻(xiàn)[2]研究基于大數(shù)據(jù)技術(shù)的智能電能表運(yùn)行狀態(tài)分析系統(tǒng)通過(guò)分布式存儲(chǔ)、分布式分析計(jì)算和數(shù)據(jù)挖掘,將用電信息采集系統(tǒng)、計(jì)量生產(chǎn)調(diào)度平臺(tái)、營(yíng)銷業(yè)務(wù)系統(tǒng)等系統(tǒng)中的電能表信息的海量數(shù)據(jù)轉(zhuǎn)化成智能電能表運(yùn)行狀態(tài)報(bào)告。但是,上述研究是從智能電能表全壽命周期的部分環(huán)節(jié)入手,缺少智能電能表關(guān)鍵環(huán)節(jié)的質(zhì)量分析方法研究。
文中梳理電能表關(guān)鍵環(huán)節(jié)質(zhì)量相關(guān)數(shù)據(jù),研究質(zhì)量影響特征提取方法;對(duì)比各類大數(shù)據(jù)分析技術(shù),建立智能電能表質(zhì)量分析模型;使用該模型對(duì)智能電能表質(zhì)量問(wèn)題隱患進(jìn)行預(yù)測(cè)分析,并進(jìn)行現(xiàn)場(chǎng)驗(yàn)證,根據(jù)驗(yàn)證結(jié)果持續(xù)優(yōu)化模型[3]。
電能表質(zhì)量分析模型的任務(wù)是依據(jù)電能表關(guān)鍵環(huán)節(jié)相關(guān)數(shù)據(jù),挖掘已拆回電能表發(fā)生故障的規(guī)律,預(yù)測(cè)具備同特征在運(yùn)電能表發(fā)生故障的概率,并進(jìn)行現(xiàn)場(chǎng)數(shù)據(jù)驗(yàn)證。
對(duì)電能表質(zhì)量影響較大的研發(fā)設(shè)計(jì)、物料采購(gòu)、生產(chǎn)制造、驗(yàn)收檢測(cè)、安裝運(yùn)行、拆回報(bào)廢環(huán)節(jié)被定義為關(guān)鍵環(huán)節(jié),針對(duì)每個(gè)環(huán)節(jié)數(shù)據(jù)情況進(jìn)行梳理便于后續(xù)數(shù)據(jù)選取[4-6]。
針對(duì)關(guān)鍵環(huán)節(jié)數(shù)據(jù),利用皮爾遜相關(guān)系數(shù)及卡方檢驗(yàn)對(duì)數(shù)據(jù)字段進(jìn)行相關(guān)性分析。結(jié)合業(yè)務(wù)專家給定的閾值參考,刪除相關(guān)系數(shù)大于0.6的部分字段,最終使用電能表關(guān)鍵環(huán)節(jié)數(shù)據(jù),經(jīng)過(guò)清洗轉(zhuǎn)換,生成可以進(jìn)行建模分析的數(shù)據(jù)。模型訓(xùn)練集的樣本數(shù)據(jù)采用河南歷史數(shù)據(jù),樣本數(shù)據(jù)集來(lái)源如表1所示。數(shù)據(jù)選取階段選取原始數(shù)據(jù)共計(jì)132個(gè)字段。
表1 樣本數(shù)據(jù)來(lái)源
按照以下步驟對(duì)基于電能表關(guān)鍵環(huán)節(jié)的132個(gè)原始特征進(jìn)行分析:
第一步,數(shù)據(jù)可視化。為了直觀呈現(xiàn)特征和電能表是否故障的關(guān)系,分別使用這132個(gè)原始特征畫出故障電能表和正常電能表在各個(gè)特征的分布圖形。故障表和正常表在幾個(gè)較典型特征上的分布如圖1所示。由圖可知,電能表是否故障在每個(gè)特征上的分布無(wú)明顯差異,需要通過(guò)量化指標(biāo)進(jìn)一步提取特征。
圖1 故障表和正常表在各特征上的分布對(duì)比圖
第二步,根據(jù)基尼不純度方法選擇特征。計(jì)算公式如式(1)所示。
(1)
式中m為類別總數(shù);fi為樣本點(diǎn)屬于第i類的概率。
對(duì)基尼不純度求倒數(shù)得出各特征的基尼重要度,計(jì)算公式如式(2)所示,結(jié)果如表2所示。
(2)
表2 特征重要度(部分)
計(jì)算每個(gè)特征的重要度在所有特性重要度的總和中所占用的比例, 計(jì)算公式如式(3)所示。
(3)
統(tǒng)計(jì)學(xué)中通常認(rèn)為概率低于5%的事件為小概率事件,此處選擇5%作為比例閾值篩選特征,將大于重要度占比5%的特征進(jìn)行保留。通過(guò)篩選保留13個(gè)特征進(jìn)行建模。全部特征如表3所示,以符號(hào)A來(lái)表示。
表3 保留特征
第三步,構(gòu)造特征。構(gòu)造特征是根據(jù)業(yè)務(wù)和專家經(jīng)驗(yàn),將電能表警告記錄、異常代碼記錄按照業(yè)務(wù)邏輯構(gòu)造出新的特征,并將特征分為一票否決特征、重要特征。
電能表若出現(xiàn)過(guò)一票否決特征對(duì)應(yīng)的異常,則該電能表肯定已發(fā)生故障;電能表若出現(xiàn)過(guò)重要特征對(duì)應(yīng)的異常,則該電能表可能已發(fā)生故障[7-9]。構(gòu)造特征包含一票否決特征13條、重要特征30條。部分特征如表4所示,以符號(hào)B來(lái)表示。
表4 構(gòu)造特征(部分)
第四步,匯總上述所有特征字段共計(jì)56條,該部分特征如表5,以符號(hào)C來(lái)表示,C=A∪B。
表5 特征匯總(部分)
基于電能表關(guān)鍵環(huán)節(jié),按照上述特征數(shù)據(jù)建立故障率預(yù)測(cè)模型,完成電能表批次故障預(yù)測(cè)。預(yù)測(cè)批次故障率有兩種解決方案,一是直接預(yù)測(cè)批次電能表故障率;二是預(yù)測(cè)單個(gè)表是否發(fā)生故障,然后根據(jù)批次的故障數(shù)和總數(shù)計(jì)算批次電能表的故障率。
直接預(yù)測(cè)故障率可采用:(1)使用回歸模型擬合獲得的特征和批次故障率的線性關(guān)系,此方法可得到批次故障率與各特征之間的最優(yōu)權(quán)重關(guān)系;(2)使用拆回表數(shù)據(jù)里面得出不同時(shí)間的故障率數(shù)據(jù),套用時(shí)間序列模型,可得到批次故障率在時(shí)間軸上的趨勢(shì)預(yù)測(cè)。
另一種方案,先預(yù)測(cè)單表故障,再通過(guò)故障數(shù)除以批次的總數(shù)得到批次的故障率。預(yù)測(cè)單只表是否故障是一個(gè)二分類問(wèn)題,可使用簡(jiǎn)單分類器模型,包括決策樹(shù)、SVM、貝葉斯等,此類模型結(jié)果容易解釋,但準(zhǔn)確率一般,且容易過(guò)擬合;也可使用集成學(xué)習(xí)模型,包括隨機(jī)森林算法、XGBoost算法、lightgbm算法等,此類模型是在簡(jiǎn)單模型基礎(chǔ)上進(jìn)行集成,與單一模型相比準(zhǔn)確率往往較高且有效避免過(guò)擬合,但計(jì)算規(guī)則復(fù)雜,模型可解釋性較差[7]。
按照時(shí)間順序把隨機(jī)事件變化發(fā)展的過(guò)程記錄下來(lái)就構(gòu)成了一個(gè)時(shí)間序列,對(duì)時(shí)間序列進(jìn)行觀察、研究,尋找它的變化發(fā)展規(guī)律,預(yù)測(cè)它將來(lái)的走勢(shì),就是時(shí)間序列分析(Time Series Analysis)。
時(shí)間序列預(yù)測(cè)只需要一組待預(yù)測(cè)變量的歷史數(shù)據(jù)。同回歸預(yù)測(cè)模型相比,這種方法不需要花費(fèi)精力去判定變量之間的因果關(guān)系,而只需將時(shí)間序列模型所確定的歷史趨勢(shì)向外延伸便可預(yù)測(cè)未來(lái)的變動(dòng)。時(shí)間序列預(yù)測(cè)往往適用于回歸模型所需的自變量數(shù)據(jù)比較缺乏,而所要預(yù)測(cè)變量的歷史數(shù)據(jù)又比較完整,足以反映其變動(dòng)趨勢(shì)的場(chǎng)合[10-12]。
回歸分析(Regression Analysis)是一種統(tǒng)計(jì)分析方法,目的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系。按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。在大數(shù)據(jù)分析中,回歸分析是一種預(yù)測(cè)性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測(cè)器)之間的關(guān)系。這種技術(shù)通常用于預(yù)測(cè)分析,時(shí)間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系[13-14]。
集成學(xué)習(xí)是機(jī)器學(xué)習(xí)一種框架,思想是將多個(gè)模型組合起來(lái),達(dá)到提高模型整體泛化能力的效果。集成學(xué)習(xí)有三種類型:Bagging,Boosting,和Stacking。XGBoost算法是改進(jìn)的梯度提升學(xué)習(xí)算法,是Boosting中的一種方法,算法原理與傳統(tǒng)GBDT算法不同。傳統(tǒng)的GBDT,訓(xùn)練過(guò)程中只利用一階導(dǎo)數(shù)信息,而XGBoost算法對(duì)損失函數(shù)做了二階的泰勒展開(kāi),并且在損失函數(shù)之外增加了正則化項(xiàng)求取最優(yōu)解,既保證模型精度的前提,又限制了模型的復(fù)雜度,避免模型過(guò)擬合。XGBoost算法是建立在樹(shù)模型的基礎(chǔ)上[15-17]。
(4)
模型目標(biāo)函數(shù)定義如式(5)所示。式中t代表樹(shù)的數(shù)量,Ω代表正則項(xiàng)。
(5)
對(duì)式(3)進(jìn)行二階泰勒展開(kāi),約去常數(shù)項(xiàng)可得第t次迭代的目標(biāo)函數(shù)如式(6)所示。式中g(shù)i為損失函數(shù)一階導(dǎo)數(shù),hi為損失函數(shù)二階導(dǎo)數(shù)。
(6)
由式(6)可知XGBoost算法損失函數(shù)能夠進(jìn)行自定義(必須存在一階和二階導(dǎo)數(shù)),且使用了二階導(dǎo)數(shù),二階信息使得梯度收斂更快更準(zhǔn)確。
使用現(xiàn)有的河南拆回表數(shù)據(jù)分別建立線性回歸、時(shí)間序列、XGBoost算法模型。三種模型超參數(shù)均設(shè)置為默認(rèn)取值,均選擇99%作為故障概率閾值,預(yù)測(cè)結(jié)果超出閾值則判定為故障表,其中線性回歸、時(shí)間序列將批次判定故障表,XGBoost算法僅作單表故障判定。模型選擇2020年第一季度數(shù)據(jù)共計(jì)1 190 673條進(jìn)行訓(xùn)練。將檔案信息、研發(fā)設(shè)計(jì)數(shù)據(jù)、物料采購(gòu)數(shù)據(jù)、生產(chǎn)制造數(shù)據(jù)、采集異常數(shù)據(jù)和計(jì)量異常數(shù)據(jù)作為自變量,拆回分揀數(shù)據(jù)里電能表是否故障作為因變量輸入XGBoost算法及線性回歸模型;將批次故障率作為時(shí)間序列進(jìn)行建模。模型通過(guò)訓(xùn)練得出數(shù)據(jù)最優(yōu)的聯(lián)合概率分布,并將該分布應(yīng)用于在運(yùn)電能表判斷其是否故障,實(shí)現(xiàn)智能電能表關(guān)鍵環(huán)節(jié)質(zhì)量分析[17-19]。
在相同判定標(biāo)準(zhǔn)下,三種模型準(zhǔn)確率對(duì)比如圖2所示。
圖2 模型準(zhǔn)確率對(duì)比
XGBoost算法模型在預(yù)測(cè)準(zhǔn)確度上遠(yuǎn)高于其他模型,故選擇XGBoost算法模型進(jìn)行后續(xù)的電能表質(zhì)量預(yù)測(cè)分析工作,模型流程圖如圖3所示。
圖3 電能表質(zhì)量分析模型流程圖
使用河南2015年4月~2020年4月共計(jì)5年21 177 697條歷史故障電能表數(shù)據(jù)建立智能電能表質(zhì)量分析模型,預(yù)測(cè)河南2020年4~12月份共三個(gè)季度的故障數(shù)據(jù),并在2020年終和實(shí)際拆回?cái)?shù)據(jù)進(jìn)行比對(duì)驗(yàn)證。
驗(yàn)證情況如下:參與預(yù)測(cè)的總電能表數(shù)量為3 231 306只,涉及到貨批次6 103個(gè),其中針對(duì)每只表計(jì)預(yù)測(cè)其是否發(fā)生故障,并在2020年終和實(shí)際結(jié)果進(jìn)行比對(duì)。
模型前期訓(xùn)練階段驗(yàn)證數(shù)據(jù)為2020年2季度數(shù)據(jù)電能表數(shù)量為971 661只,預(yù)測(cè)正確數(shù)量為2 312 969只,占比71.58%;預(yù)測(cè)錯(cuò)誤數(shù)量為918 337只,占比28.42%,詳細(xì)結(jié)果如表6所示。
表6 模型驗(yàn)證結(jié)果情況
模型初步訓(xùn)練后準(zhǔn)確率達(dá)到0.72,召回率達(dá)到0.39。經(jīng)檢驗(yàn)?zāi)P涂梢詫?4.87%的故障表識(shí)別出來(lái),但也存在28.42%的誤判情況,模型精確率有待提高,模型效果評(píng)價(jià)指標(biāo)如表7所示。模型準(zhǔn)確率P、召回率R的定義如式(7)所示:
P=TP/(TP+FP)
R=TP/(TP+FN)
(7)
表7 模型效果評(píng)價(jià)指標(biāo)
模型進(jìn)行初始學(xué)習(xí)后,觀察模型在訓(xùn)練集和測(cè)試集的結(jié)果,得到訓(xùn)練集精確率接近于 1,測(cè)試集精確率穩(wěn)定于 0.7 左右。最后評(píng)估驗(yàn)證集,得到精確率為0.45。驗(yàn)證結(jié)果表明模型的泛化能力不強(qiáng)并且可能出現(xiàn)了過(guò)擬合情況,需要對(duì)模型參數(shù)進(jìn)行優(yōu)化。
為了提高模型學(xué)習(xí)效果,提高模型泛化能力,降低模型過(guò)擬合風(fēng)險(xiǎn),模型后期調(diào)優(yōu)階段逐步加入2020年第三、第四季度的電能表故障數(shù)據(jù)擴(kuò)充模型驗(yàn)證集,通過(guò)使用增量數(shù)據(jù)的驗(yàn)證形式驗(yàn)證模型對(duì)未知數(shù)據(jù)的泛化能力。通過(guò)下列兩個(gè)步驟對(duì)模型進(jìn)行調(diào)優(yōu):
(1)基于K折交叉驗(yàn)證方法對(duì)模型進(jìn)行調(diào)優(yōu)
交叉驗(yàn)證的基本思想是把在某種意義下將原始數(shù)據(jù)進(jìn)行分組,一部分作為訓(xùn)練集,另一部分作為測(cè)試集,首先用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,再利用測(cè)試集來(lái)測(cè)試訓(xùn)練得到的模型,以此作為評(píng)價(jià)分類器的性能指標(biāo)。在第一次模型調(diào)優(yōu)的過(guò)程中,使用了K折交叉驗(yàn)證來(lái)提高模型的泛化能力[20-22]。
K折交叉驗(yàn)證的基本思想是把原始數(shù)據(jù)均分為K份,并將數(shù)據(jù)進(jìn)行K次劃分,第i(i∈[1,2,…,K])次選擇第i份數(shù)據(jù)作為測(cè)試集,剩余K-1份數(shù)據(jù)作為訓(xùn)練集。對(duì)K份測(cè)試集上的評(píng)價(jià)結(jié)果求平均值作為最終模型評(píng)價(jià)指標(biāo)結(jié)果。模型在此評(píng)價(jià)指標(biāo)約束下求使得模型收斂的最優(yōu)參數(shù)。在此使用了5折交叉驗(yàn)證,選擇精確率作為評(píng)價(jià)指標(biāo)。
通過(guò)K折交叉驗(yàn)證,訓(xùn)練集精確率達(dá)到0.65,召回率達(dá)到0.62,測(cè)試集精確率達(dá)到0.55,召回率達(dá)到0.54,驗(yàn)證集精確率達(dá)到 0.45,召回率達(dá)到0.42,雖然訓(xùn)練集和測(cè)試集的精確率有所提升,但驗(yàn)證集的精確率低于0.5難以滿足實(shí)際需求,需要對(duì)模型超參數(shù)進(jìn)行優(yōu)化;
(2)基于網(wǎng)格搜索方法對(duì)模型進(jìn)行調(diào)優(yōu)
第二次模型調(diào)優(yōu)使用網(wǎng)格搜索方法對(duì)模型超參數(shù)的取值進(jìn)行優(yōu)化。
網(wǎng)格搜索方法是將模型的超參數(shù)劃定一個(gè)具有有限取值的區(qū)間,程序通過(guò)循環(huán)遍歷所有超參數(shù)的取值組合,并依據(jù)設(shè)定好的評(píng)價(jià)指標(biāo)選擇最佳結(jié)果下的模型參數(shù)作為最優(yōu)參數(shù)[23-25]。文中模型篩選的超參數(shù)如表8所示。
表8 模型超參數(shù)
通過(guò)網(wǎng)格搜索方法,找到最優(yōu)的參數(shù)設(shè)置,使訓(xùn)練集精確率達(dá)到0.85,召回率達(dá)到0.83,測(cè)試集精確率達(dá)到 0.8,召回率達(dá)到0.79,驗(yàn)證集精確率達(dá)到 0.73,召回率達(dá)到0.81。模型優(yōu)化前后效果對(duì)比如圖4所示。
圖4 調(diào)優(yōu)前后模型效果對(duì)比
模型在2020年2季度~4季度各季度的驗(yàn)證數(shù)據(jù)如圖5所示,模型優(yōu)化后結(jié)果如表9所示。
圖5 模型逐月驗(yàn)證結(jié)果
表9 模型驗(yàn)證結(jié)果情況
通過(guò)優(yōu)化調(diào)整,模型在訓(xùn)練階段參數(shù)能夠迅速收斂,在訓(xùn)練集表現(xiàn)出優(yōu)秀的擬合能力,在驗(yàn)證集的精確率達(dá)到0.73,整體評(píng)價(jià)效果比較理想,能夠滿足電網(wǎng)業(yè)務(wù)實(shí)際需求。
文章主要基于電能表關(guān)鍵環(huán)節(jié)質(zhì)量數(shù)據(jù),預(yù)測(cè)故障發(fā)生規(guī)律并構(gòu)建電能表質(zhì)量分析模型,研究智能電能表關(guān)鍵環(huán)節(jié)質(zhì)量分析方法,主要研究?jī)?nèi)容包含以下兩個(gè)方面:
(1)梳理電能表關(guān)鍵環(huán)節(jié)質(zhì)量相關(guān)數(shù)據(jù),研究影響電能表質(zhì)量的關(guān)鍵環(huán)節(jié)數(shù)據(jù)和質(zhì)量影響特征提取方法,提取拆回電能表發(fā)生故障的規(guī)律特征,使用XGBoost算法模型學(xué)習(xí)拆回表中的規(guī)則,構(gòu)建故障預(yù)測(cè)模型;
(2)利用質(zhì)量分析模型對(duì)智能電能表質(zhì)量問(wèn)題開(kāi)展分析,并使用歷史數(shù)據(jù)建立模型,預(yù)測(cè)河南2020年4月份的故障數(shù)據(jù),并在2020年5月初和實(shí)際拆回?cái)?shù)據(jù)進(jìn)行比對(duì)驗(yàn)證,根據(jù)驗(yàn)證結(jié)果優(yōu)化模型。使用交叉驗(yàn)證方法和網(wǎng)格搜索方法對(duì)模型進(jìn)行調(diào)優(yōu),最終模型在驗(yàn)證集精確率達(dá)到 0.73,召回率達(dá)到0.81,能夠滿足電網(wǎng)業(yè)務(wù)實(shí)際需求。
文中提出了一種運(yùn)行中智能電能表質(zhì)量分析及預(yù)測(cè)方法研究的方法。該方法以電能表關(guān)鍵環(huán)節(jié)相關(guān)數(shù)據(jù)為基礎(chǔ),選取電能表在研發(fā)設(shè)計(jì)、物料采購(gòu)、生產(chǎn)制造、驗(yàn)收檢測(cè)、安裝運(yùn)行、拆回報(bào)廢環(huán)節(jié)數(shù)據(jù)作為模型構(gòu)建的樣本數(shù)據(jù),利用XGBoost算法分類方法建立智能電能表質(zhì)量分析模型。經(jīng)過(guò)實(shí)際驗(yàn)證,結(jié)果表明,該方法精確率達(dá)到0.73,能夠較為客觀地反應(yīng)智能電能表關(guān)鍵環(huán)節(jié)質(zhì)量情況。