王文博,曾小梅,趙引川,張?jiān)圃?,?達(dá)
(1.華北電力大學(xué) 數(shù)理學(xué)院,北京 102206;2.華北電力大學(xué) 智慧能源研究所,北京 102206;3.中國能源建設(shè)集團(tuán)安徽省電力設(shè)計(jì)院有限公司,安徽 合肥 230602)
變壓器作為電力系統(tǒng)中的重要設(shè)備,在電力傳輸過程中至關(guān)重要[1,2]。變壓器缺陷可能會(huì)造成極大的經(jīng)濟(jì)損失和不利的社會(huì)影響。準(zhǔn)確預(yù)測(cè)變壓器缺陷可以有效避免災(zāi)難性損失的發(fā)生[3]。因此,準(zhǔn)確診斷變壓器缺陷情況尤為重要。
在大數(shù)據(jù)背景下,電網(wǎng)企業(yè)不斷更新在線監(jiān)測(cè)設(shè)備和計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)系統(tǒng),這有助于實(shí)現(xiàn)電力設(shè)備的缺陷與故障診斷[4]。目前關(guān)于變壓器缺陷預(yù)測(cè)的方法頗多,主要包括基于統(tǒng)計(jì)學(xué)的方法與機(jī)器學(xué)習(xí)方法?;诮y(tǒng)計(jì)學(xué)的方法有多元線性回歸[5]和時(shí)間序列[3,6]。但這兩種方法都存在一定的局限性。多元線性回歸方法僅適用于線性可分的情況,對(duì)缺陷發(fā)生與否的二分類預(yù)測(cè)問題有很大的偏差。時(shí)間序列的方法雖然降低了模型的建模難度,但缺陷影響因素多,導(dǎo)致預(yù)測(cè)精度較低。目前適用于數(shù)據(jù)集大且預(yù)測(cè)精度要求較高的變壓器缺陷診斷模型是機(jī)器學(xué)習(xí)模型,如支持向量機(jī)[7,8]、邏輯回歸[9]等。
在實(shí)際生產(chǎn)中發(fā)生故障的變壓器數(shù)量往往小于正常的數(shù)量。即無缺陷的樣本數(shù)量遠(yuǎn)大于有缺陷的樣本數(shù)量。因此,變壓器狀態(tài)數(shù)據(jù)集是不平衡數(shù)據(jù)集。這種類別不平衡的分布很大程度上影響了監(jiān)督分類方法的準(zhǔn)確性[10,11],導(dǎo)致模型無法準(zhǔn)確地預(yù)測(cè)變壓器的健康狀態(tài)。普通分類器通常以最小化總體訓(xùn)練誤差為目標(biāo),這使得模型在訓(xùn)練過程中對(duì)多數(shù)樣本的類別會(huì)重點(diǎn)考慮而產(chǎn)生過擬合;而對(duì)于占比較少的樣本,由于沒有特殊考慮而產(chǎn)生欠擬合[12,13]。這導(dǎo)致分類結(jié)果對(duì)無缺陷的變壓器數(shù)據(jù)集更有利,分類器的泛化能力較差。因此,有效解決在類別不平衡的情況下的缺陷預(yù)測(cè)問題尤為重要。
然而,現(xiàn)有考慮變壓器缺陷數(shù)據(jù)的類別不平衡問題的研究很有限[14,15]。文獻(xiàn)[14]利用SMOTE和決策樹模型對(duì)變壓器狀態(tài)進(jìn)行評(píng)估,取得較好的效果。文獻(xiàn)[15]利用SMOTE和SVM模型對(duì)變壓器故障進(jìn)行預(yù)測(cè),結(jié)果表明該模型可以有效提升缺陷預(yù)測(cè)精度。這些結(jié)合SMOTE采樣和機(jī)器學(xué)習(xí)算法的研究都取得了不錯(cuò)的預(yù)測(cè)效果。因此,本文在此研究基礎(chǔ)上提出一種基于SMOTE-XGBoost(Extreme Gradient Boosting)的變壓器缺陷預(yù)測(cè)模型,以期進(jìn)一步提高變壓器缺陷預(yù)測(cè)精度。XGBoost模型是一種集成算法,是經(jīng)過優(yōu)化的分布式梯度提升庫,可進(jìn)行大規(guī)模并行運(yùn)算,具有高效、靈活且可移植等優(yōu)點(diǎn),對(duì)于設(shè)備的實(shí)時(shí)診斷很有意義。
本研究分別對(duì)不平衡數(shù)據(jù)集的處理方法和預(yù)測(cè)模型進(jìn)行了對(duì)比分析,即分別采用隨機(jī)上采樣(Up_sample)、隨機(jī)下采樣(Down_sample)、SMOTE和代價(jià)敏感學(xué)習(xí)(Cost Sensitive Learning,CSL)算法對(duì)不平衡數(shù)據(jù)集進(jìn)行處理,然后分別采用Logistic、CART、SVM和XGBoost四種預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。實(shí)證結(jié)果表明,SMOTE-XGBoost模型的預(yù)測(cè)效果最佳。
在大數(shù)據(jù)背景下,可基于用電信息采集系統(tǒng)和營配數(shù)據(jù)共享渠道獲取電網(wǎng)大數(shù)據(jù)。就變壓器設(shè)備而言,設(shè)備的屬性、所處環(huán)境、負(fù)荷等數(shù)據(jù)可實(shí)時(shí)存儲(chǔ),可采集終端數(shù)據(jù)獲取變壓器特征信息。根據(jù)數(shù)據(jù)集的特點(diǎn)進(jìn)行智能化處理,實(shí)現(xiàn)變壓器設(shè)備的缺陷預(yù)測(cè)。
數(shù)據(jù)的類別不平衡問題是指數(shù)據(jù)的某一類別數(shù)量要遠(yuǎn)多于其他類。特別是對(duì)于二分類問題,一類數(shù)據(jù)是大樣本數(shù)據(jù),而另一類數(shù)據(jù)僅有少數(shù)樣本。類別不平衡問題在生產(chǎn)和生活場(chǎng)景中很普遍。例如,故障診斷[16,17]、異常檢測(cè)[18,19]、電子郵件歸檔[20]等。在模型訓(xùn)練過程中如果直接使用不平衡數(shù)據(jù)集進(jìn)行訓(xùn)練,很容易導(dǎo)致分類失效。因?yàn)槟P驮诜诸悤r(shí)會(huì)受樣本量多的類別的影響,容易產(chǎn)生“少數(shù)服從多數(shù)”的分類結(jié)果[21]。而很多時(shí)候,樣本少的類別更具有研究?jī)r(jià)值[22]。所以對(duì)于不平衡數(shù)據(jù)集而言,一個(gè)優(yōu)秀的分類模型應(yīng)該是在少數(shù)類別中有更高的識(shí)別率,同時(shí),不會(huì)嚴(yán)重影響多數(shù)類的預(yù)測(cè)準(zhǔn)確性。
目前,不平衡數(shù)據(jù)的處理方法主要分四類,分別是數(shù)據(jù)采樣、算法改進(jìn)、代價(jià)敏感學(xué)習(xí)和集成學(xué)習(xí)。數(shù)據(jù)采樣是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理來解決數(shù)據(jù)不平衡問題,這種方法的主要優(yōu)點(diǎn)是獨(dú)立于底層分類器,可以很容易地嵌入到集成學(xué)習(xí)中,是處理不平衡數(shù)據(jù)集的積極可行的解決方案[23,24];算法改進(jìn)和代價(jià)敏感方法更依賴于問題;集成學(xué)習(xí)方法與數(shù)據(jù)采樣方法一樣都可以獨(dú)立于基本分類器使用[12];因此,數(shù)據(jù)采樣和集成方法在處理不平衡數(shù)據(jù)時(shí)更為通用。
本文選擇了較有代表性的4種數(shù)據(jù)平衡算法,隨機(jī)上采樣(Up_sample)、隨機(jī)下采樣(Down_sample)、SMOTE和代價(jià)敏感學(xué)習(xí)(Cost Sensitive Learning,CSL)算法來解決變壓器數(shù)據(jù)集的不平衡問題。
1.2.1 隨機(jī)上采樣與隨機(jī)下采樣
隨機(jī)上采樣是上采樣的一種最常見的方法,是從變壓器缺陷樣本中隨機(jī)地抽取樣本添加到樣本空間中,以達(dá)到缺陷樣本與無缺陷樣本的數(shù)據(jù)平衡。隨機(jī)下采樣是下采樣方法的一種,其思想是通過減少無缺陷樣本數(shù)以達(dá)到數(shù)據(jù)類別平衡。
1.2.2 代價(jià)敏感學(xué)習(xí)
代價(jià)敏感學(xué)習(xí)解決類別不平衡問題是通過定義錯(cuò)誤分類的正樣本和負(fù)樣本的不同成本來防止過度擬合。對(duì)于變壓器缺陷預(yù)測(cè)來說,要盡量避免將缺陷樣本誤分為無缺陷樣本,為缺陷樣本賦予更高的學(xué)習(xí)權(quán)重,從而讓算法更加專注于缺陷樣本的分類情況。
1.2.3 SMOTE算法
SMOTE算法是一種通過創(chuàng)造少數(shù)類樣本來解決數(shù)據(jù)集不平衡問題的算法[25]。SMOTE算法是計(jì)算距離最近K個(gè)樣本,然后隨機(jī)地從中選擇數(shù)據(jù)從而生成新樣本,是一種基于“插值”來合成新樣本的方法。
(1)
對(duì)于變壓器的預(yù)測(cè)問題,一個(gè)有n個(gè)樣本m個(gè)特征的數(shù)據(jù)集D={(xi,yi)}(|D|=n,xi∈Rm),需要預(yù)測(cè)主變壓器是否會(huì)發(fā)生缺陷,發(fā)生缺陷為1,不發(fā)生缺陷為0。也就是說任務(wù)是一個(gè)二分類問題,使用XGBoost算法來實(shí)現(xiàn)梯度提升決策樹(Gradient Boosting Decision Tree,GBDT),XGBoost是一種基于梯度增強(qiáng)決策樹的改進(jìn)算法,集合了大量弱而互補(bǔ)的分類器,可以有效地構(gòu)造提升樹并實(shí)現(xiàn)并行運(yùn)行。該模型引進(jìn)直方圖算法生成分割點(diǎn),被廣泛應(yīng)用在二分類問題上且達(dá)到較高的精度。其核心思想是優(yōu)化目標(biāo)函數(shù)的值[26]。
本文基于此背景構(gòu)建了變壓器缺陷預(yù)測(cè)模型。圖1展示了建模流程。
圖1 建模流程圖
(1)數(shù)據(jù)收集:通過物聯(lián)網(wǎng)技術(shù)來采集變壓器的環(huán)境、運(yùn)行狀況與設(shè)備信息等相關(guān)數(shù)據(jù)。
(2)數(shù)據(jù)清洗與整理:將收集的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)的清洗整理,然后進(jìn)行特征的向量化,最后使用SMOTE 算法平衡數(shù)據(jù)集。
(3)模型構(gòu)建:將平衡后的數(shù)據(jù)集作為XGBoost模型的輸入來進(jìn)行模型訓(xùn)練,最后預(yù)測(cè)變壓器缺陷。
在評(píng)估不平衡數(shù)據(jù)的算法時(shí),常使用精確度、召回率和F1值來衡量,精確度是針對(duì)預(yù)測(cè)結(jié)果而言,它表示正確預(yù)測(cè)為正的占全部預(yù)測(cè)為正的比例;而召回率是針對(duì)原樣本而言,它表示正確預(yù)測(cè)為正的占全部實(shí)際為正的比例;F1值能夠?qū)⒁粋€(gè)類的精度和召回率結(jié)合在同一個(gè)指標(biāo)當(dāng)中,故最終采用F1值來評(píng)估。精確度(Prec)、召回率(Rec)和F1值如式(2)~(4)所示:
(2)
(3)
(4)
式中:TP,FP,TN,FN分別表示真陽性,假陽性,真陰性和假陰性。即TP表示預(yù)測(cè)為有缺陷,實(shí)際也為有缺陷;FP表示預(yù)測(cè)為有缺陷,實(shí)際為無缺陷;TN表示預(yù)測(cè)為無缺陷,實(shí)際為無缺陷;FN表示預(yù)測(cè)為無缺陷,實(shí)際為有缺陷。
本文收集某省電網(wǎng)2000年4月7日到2018年9月29日主變壓器缺陷采樣數(shù)據(jù),有效數(shù)據(jù)共計(jì)31 342條,其中缺陷樣本有5 660條,無缺陷樣本25 682條。模型輸出為1或0,1代表缺陷發(fā)生,0代表缺陷不發(fā)生。每一條數(shù)據(jù)包含變壓器的24個(gè)屬性特征,如表1所示。
表1 變壓器屬性表
為了解決變壓器缺陷數(shù)據(jù)集的不平衡問題,本文分別采用Up_sample,CSL,SMOTE和Down_Sample四種不平衡數(shù)據(jù)集處理方法對(duì)原始數(shù)據(jù)集進(jìn)行預(yù)處理,然后將原始數(shù)據(jù)集和處理后的數(shù)據(jù)集分別表示為A_1,A_2,A_3,A_4和A_5,并且進(jìn)行對(duì)比驗(yàn)證。不平衡數(shù)據(jù)集處理參數(shù)及結(jié)果見表2,平衡后的樣本量見表3。
表2 不平衡數(shù)據(jù)集處理過程及參數(shù)
表3 不平衡數(shù)據(jù)處理后樣本量
對(duì)處理后的數(shù)據(jù)集采用五折交叉驗(yàn)證劃分?jǐn)?shù)據(jù)集。即第一步將數(shù)據(jù)集分為五份;第二步,選擇其中四份為訓(xùn)練集,一份為驗(yàn)證集;第三步,重復(fù)第二步五次,每次選取的訓(xùn)練集不同。
最后,本文采用XGBoost算法預(yù)測(cè)變壓器是否會(huì)發(fā)生缺陷,同時(shí)還采用了三種目前主流的變壓器缺陷預(yù)測(cè)模型:決策樹(Classification And Regression Trees,CART)、支持向量機(jī)(Support Vector Machine,SVM)和Logistic回歸來進(jìn)行對(duì)比驗(yàn)證。本文選取準(zhǔn)確率,召回率和F1值三種評(píng)價(jià)指標(biāo)評(píng)價(jià)模型性能。XGBoost算法使用Python的XGBoost包。其中XGBoost的超參數(shù)的含義及其設(shè)置見表4。圖2為使用XGBoost模型預(yù)測(cè)SMOTE算法平衡后的迭代過程。
表4 XGBoost超參數(shù)列表
圖2 迭代過程圖
本文在利用XGBoost對(duì)變壓器缺陷預(yù)測(cè)的過程中得到各個(gè)屬性的重要性得分,可衡量特征在模型中的價(jià)值。變壓器缺陷預(yù)測(cè)模型的前十個(gè)重要特征得分如圖3所示。
圖3 重要特征排序
在所有特征中,役齡是最重要的影響因素,說明變壓器的使用時(shí)間對(duì)變壓器缺陷的發(fā)生有重要影響。其他的重要特征包括變壓器的負(fù)載情況和屬性特征,反映了變壓器的性能對(duì)缺陷的影響。
本文將分類模型Logistic,SVM,CART,XGBoost分別表示為M_1,M_2,M_3和M_4,然后各模型分別結(jié)合A_1,A_2,A_3,A_4和A_5數(shù)據(jù)處理方法進(jìn)行缺陷預(yù)測(cè)。最后,分別采用召回率、精確度和F1值對(duì)各模型進(jìn)行評(píng)價(jià)。實(shí)證結(jié)果見表5~表7,并利用箱線圖對(duì)四種不平衡算法的預(yù)測(cè)效果進(jìn)行可視化對(duì)比,如圖4~圖7所示。
圖7 預(yù)測(cè)算法F1值對(duì)比
表5 缺陷預(yù)測(cè)召回率值
表6 缺陷預(yù)測(cè)精確度值
表7 缺陷預(yù)測(cè)F1值
圖4 不平衡算法召回率對(duì)比
各不平衡算法模型的召回率如表5和圖4所示,召回率越高,代表實(shí)際缺陷變壓器被預(yù)測(cè)出來的概率越高。結(jié)果證實(shí),與未進(jìn)行不平衡數(shù)據(jù)處理的模型(origin)相比,不平衡數(shù)據(jù)算法處理后的模型,召回率顯著提高。
各不平衡數(shù)據(jù)模型的精確度如表6和圖5所示,4個(gè)不平衡算法中,SMOTE表現(xiàn)最好,即使圖4中顯示Down_sample的召回率最高,但Down_sample的精確度最差,這可能是由于算法隨機(jī)地移除無缺陷樣本數(shù)據(jù)造成信息損失而導(dǎo)致預(yù)測(cè)精度下降。
圖5 不平衡算法精確度對(duì)比
本文采用F1值作為最終的評(píng)價(jià)指標(biāo),如圖6所示SMOTE算法在四種算法中效果最優(yōu)。隨機(jī)上采樣和代價(jià)敏感學(xué)習(xí)的效果稍弱,而隨機(jī)下采樣算法的效果最差。
圖6 不平衡算法F1值對(duì)比
通過上述分析可知SMOTE模型處理數(shù)據(jù)的最優(yōu)選擇,為了進(jìn)一步確定最佳預(yù)測(cè)模型,本研究對(duì)各預(yù)測(cè)模型的F1值進(jìn)行可視化,如圖7所示。從圖7可知,決策樹和XGBoost在各個(gè)方面都優(yōu)于SVM和logistic回歸,這可能是因?yàn)閷?shí)驗(yàn)數(shù)據(jù)的特征大都沒有數(shù)值關(guān)系,所以樹模型更適用于本實(shí)驗(yàn)。而XGBoost又優(yōu)于決策樹,因?yàn)閄GBoost為集成算法,在單模型的基礎(chǔ)上可以有效提高預(yù)測(cè)精度。
綜上,四種不平衡處理方法都在一定程度上增加了正例類的召回率。但結(jié)合精確度和F1值指標(biāo),可以看出四種預(yù)測(cè)算法中SMOTE表現(xiàn)最優(yōu)。當(dāng)使用決策樹和XGBoost時(shí),SMOTE均表現(xiàn)最好。其中,SMOTE-XGBoost略勝一籌,因而以SMOTE-XGBoost作為最終預(yù)測(cè)方案,這一方案優(yōu)于之前的變壓器缺陷預(yù)測(cè)模型[7,9],可以有效的預(yù)測(cè)變壓器缺陷問題。
變壓器是電力設(shè)備中的重要組成部分,其健康狀態(tài)的診斷監(jiān)測(cè)對(duì)電網(wǎng)的正常運(yùn)行至關(guān)重要。但變壓器狀態(tài)數(shù)據(jù)集存在嚴(yán)重的類別不平衡問題,這降低了診斷的正確率。因此,提高變壓器不平衡樣本的缺陷預(yù)測(cè)精度非常關(guān)鍵。而現(xiàn)有對(duì)變壓器缺陷預(yù)測(cè)的研究很少考慮樣本不平衡問題。為了豐富這方面的研究,本文利用SMOTE-XGBoost模型進(jìn)行預(yù)測(cè)以提高變壓器缺陷診斷的準(zhǔn)確率。
本文采用四種不平衡數(shù)據(jù)集處理方法對(duì)變壓器缺陷樣本進(jìn)行處理,然后分別采用四種預(yù)測(cè)模型進(jìn)行對(duì)比分析實(shí)驗(yàn)。實(shí)證結(jié)果表明基于SMOTE-XGBoost模型在變壓器缺陷預(yù)測(cè)中表現(xiàn)最優(yōu)。該模型不僅解決了變壓器的數(shù)據(jù)集的不平衡問題,且提高了缺陷預(yù)測(cè)精度。SMOTE方法簡(jiǎn)單有效地減輕了數(shù)據(jù)不平衡對(duì)預(yù)測(cè)精度的影響。在預(yù)測(cè)變壓器的缺陷時(shí),XGBoost支持并行處理,可以加快算法的計(jì)算速度,該算法比其他算法快十倍以上[26]。參數(shù)調(diào)整后,SMOTE和XGBoost算法可較為準(zhǔn)確快速地預(yù)測(cè)變壓器的缺陷,有效幫助電力企業(yè)開展變壓器健康狀態(tài)監(jiān)測(cè)工作,實(shí)現(xiàn)電力設(shè)備管理維護(hù)智能化。