陳杰,張浩天,湯奕
(1.國(guó)網(wǎng)江蘇省電力有限公司溧陽(yáng)市供電分公司,江蘇省溧陽(yáng)市 213300;2.東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,南京市 210096;3.東南大學(xué)電氣工程學(xué)院,南京市 210096)
隨著電力企業(yè)改革的不斷深化和發(fā)展,高耗能行業(yè)的節(jié)能降耗工作對(duì)解決我國(guó)能源問(wèn)題至關(guān)重要,國(guó)家能源局和政府部門進(jìn)行電力監(jiān)管統(tǒng)計(jì)工作時(shí)十分重視節(jié)能降耗相關(guān)指標(biāo)的真實(shí)有效性[1]。但現(xiàn)行的發(fā)電統(tǒng)計(jì)模式缺乏有效的數(shù)據(jù)質(zhì)量管控體系,甚至存在部分電廠為滿足節(jié)能降耗和碳排放等要求上報(bào)虛假數(shù)值,形成異常數(shù)據(jù)的可能,影響相關(guān)部門和企業(yè)對(duì)發(fā)電情況的認(rèn)知。因此,需要針對(duì)電廠統(tǒng)計(jì)數(shù)據(jù)開(kāi)展異常數(shù)據(jù)辨識(shí)工作,以監(jiān)管電廠實(shí)際運(yùn)行水平。
隨著智能電網(wǎng)部署大量的智能電表和檢測(cè)設(shè)備,電網(wǎng)統(tǒng)計(jì)數(shù)據(jù)已具備數(shù)據(jù)體量巨大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)實(shí)時(shí)性要求高等特征[1]。伴隨著人工智能算法性能提升與云計(jì)算的出現(xiàn),利用大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘可大幅提升基于專家經(jīng)驗(yàn)方法的準(zhǔn)確率與效率。目前,基于人工神經(jīng)網(wǎng)絡(luò)[2]、支持向量機(jī)[3]、決策樹(shù)[4]、隨機(jī)森林[5]等算法的異常數(shù)據(jù)辨識(shí)模型已取得一定進(jìn)展。這些傳統(tǒng)機(jī)器學(xué)習(xí)算法在類別分布均勻且樣本數(shù)量充足的數(shù)據(jù)集上均有較好的表現(xiàn)[6]。然而實(shí)際電力統(tǒng)計(jì)數(shù)據(jù)中異常樣本數(shù)量極為匱乏,正負(fù)樣本分布極度不均衡,導(dǎo)致數(shù)據(jù)分布中相同類別之間的分布嚴(yán)重重疊,使得機(jī)器學(xué)習(xí)分類模型易將樣本歸為多數(shù)類,整體查準(zhǔn)率下降[7]。因此,提升標(biāo)準(zhǔn)學(xué)習(xí)算法在類別分布不均勻的數(shù)據(jù)集上的表現(xiàn)是當(dāng)前的關(guān)鍵問(wèn)題。
目前解決非均衡數(shù)據(jù)集的方法主要分為兩個(gè)方面:從算法的角度出發(fā)和從數(shù)據(jù)的角度出發(fā)。算法層面的提升主要包括利用集成學(xué)習(xí)的思想和基于代價(jià)敏感學(xué)習(xí)方法,如EasyEnsemble[8]和Adacost[9]等。另外可以將不均衡數(shù)據(jù)集轉(zhuǎn)化為一分類問(wèn)題或者異常檢測(cè)問(wèn)題,代表的算法有One-class SVM;數(shù)據(jù)上主要方法為采樣,分為欠采樣和過(guò)采樣方法以及對(duì)應(yīng)的一些改進(jìn)方法。欠采樣算法去除一些多數(shù)類中的樣本使得正例、反例數(shù)目接近,然后再進(jìn)行學(xué)習(xí),然而也可能會(huì)導(dǎo)致分類器丟失有關(guān)多數(shù)類的重要信息[10]。相對(duì)應(yīng)地,過(guò)采樣算法增加一些少數(shù)類樣本使得正、反數(shù)目接近,然后再進(jìn)行學(xué)習(xí)。過(guò)采樣代表性算法為隨機(jī)過(guò)采樣算法(random over-sampling,ROS)[11],由于隨機(jī)過(guò)采樣是直接對(duì)少數(shù)類進(jìn)行重采樣,容易造成產(chǎn)生的模型過(guò)擬合問(wèn)題。相對(duì)于采樣隨機(jī)的方法進(jìn)行過(guò)采樣,還有一種比較流行的過(guò)采樣改進(jìn)方式為合成少數(shù)類過(guò)采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)[12],該算法對(duì)少數(shù)類樣本進(jìn)行分析并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中。然而該算法缺點(diǎn)也十分明顯:增加了類之間重疊的可能性以及沒(méi)有生成可以提供有益信息的樣本,對(duì)于模型分類性能的提升較為有限[13]。
2014年提出的生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[14]可以在不需要知道顯式的真實(shí)數(shù)據(jù)分布的情況下生成新的人工樣本。目前已有研究將GAN應(yīng)用于電力系統(tǒng)數(shù)據(jù)生成。文獻(xiàn)[15]利用等效模型擴(kuò)充小樣本數(shù)據(jù),進(jìn)而提高神經(jīng)網(wǎng)絡(luò)性能。文獻(xiàn)[16]基于條件生成式對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial nets,CGAN)生成電力系統(tǒng)失穩(wěn)樣本,用增強(qiáng)后的原始樣本訓(xùn)練分類器實(shí)現(xiàn)在線暫態(tài)穩(wěn)定評(píng)估。文獻(xiàn)[17]利用Wasserstein克服了原始GAN訓(xùn)練不穩(wěn)定的問(wèn)題,進(jìn)一步構(gòu)建了自編碼器診斷模型用于診斷設(shè)備故障。
綜上,本文提出基于Wasserstein GAN(Wasserstein GAN, WGAN)[18]的電網(wǎng)異常數(shù)據(jù)辨識(shí)方法。使用Wasserstein距離作為優(yōu)化目標(biāo),約束生成數(shù)據(jù)的生成損失,有效地解決原始GAN訓(xùn)練困難和不穩(wěn)定、模式坍塌等問(wèn)題。與此同時(shí),利用生成的高精度異常數(shù)據(jù)樣本均衡原始樣本數(shù)據(jù)集。在分類算法方面,考慮到發(fā)電統(tǒng)計(jì)數(shù)據(jù)之間的強(qiáng)相關(guān)性,利用孤立森林模型中孤立樹(shù)的構(gòu)造方式,通過(guò)對(duì)樣本點(diǎn)的孤立來(lái)檢測(cè)異常值,提升整體辨識(shí)精度。算例結(jié)果表明,本文提出的異常數(shù)據(jù)辨識(shí)方法能夠更為有效地提升辨識(shí)模型面對(duì)非均衡數(shù)據(jù)集時(shí)的分類性能,減少對(duì)多數(shù)類樣本的分類傾向。
電力發(fā)電統(tǒng)計(jì)數(shù)據(jù)的構(gòu)建問(wèn)題從本質(zhì)上可以理解為一個(gè)學(xué)習(xí)數(shù)據(jù)分布的生成問(wèn)題。通過(guò)GAN學(xué)習(xí)原始數(shù)據(jù)分布后,選擇與原樣本差異最小的數(shù)據(jù)來(lái)擴(kuò)充原始樣本集。
假設(shè)電網(wǎng)中存在i組量測(cè)xi時(shí),由于這些電力量測(cè)值之間分布較為復(fù)雜,設(shè)為pr(x),顯式的數(shù)學(xué)模型難以對(duì)pr(x)進(jìn)行建模。因此,GAN生成器接受一組滿足聯(lián)合高斯分布pz(z)的噪聲向量z,通過(guò)多層神經(jīng)網(wǎng)絡(luò)建立起pz(z)與pr(x)之間的映射關(guān)系,此時(shí)生成器可生成滿足原數(shù)據(jù)分布關(guān)系的新數(shù)據(jù)。接著,訓(xùn)練判別器來(lái)區(qū)分該數(shù)據(jù)是真實(shí)電網(wǎng)數(shù)據(jù)還是來(lái)自生成器生成的虛假數(shù)據(jù)。
原始生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)如下所示:
Ex~pr(x)[D(x)]-Ez~pz(z)[D(G(z))]
(1)
式中:E(·)為期望的分布;G(z)為生成數(shù)據(jù);D(·)為判別器判斷樣本是否為真實(shí)樣本的概率。
原始GAN在訓(xùn)練過(guò)程中的優(yōu)化目標(biāo)為減小真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布的JS(Jensen-Shannon)距離。然而,原始GAN的JS距離無(wú)法保證隨參數(shù)變化而連續(xù)變化,這等價(jià)于最小化一個(gè)不合理的距離衡量,進(jìn)而導(dǎo)致梯度不穩(wěn)定,生成器寧可生成一些重復(fù)但是很“安全”的樣本,也不愿意去生成多樣性的樣本。
WGAN與原始GAN基本結(jié)構(gòu)類似,不同點(diǎn)在于WGAN引入Wasserstein距離替代傳統(tǒng)的JS距離,既解決了訓(xùn)練不穩(wěn)定的問(wèn)題,也提供了一個(gè)可靠的訓(xùn)練進(jìn)程指標(biāo),利用該指標(biāo)可指導(dǎo)生成更高精度的電網(wǎng)數(shù)據(jù)。Wasserstein距離相比JS距離的優(yōu)越性在于,即使兩個(gè)分布沒(méi)有重疊,Wasserstein距離仍然能夠反映他們的遠(yuǎn)近。Wasserstein距離的定義為:
(2)
式中:pr表示原始數(shù)據(jù)的分布;pg表示生成器數(shù)據(jù)的分布;(pr,pg)表示以pr和pg為邊緣分布的聯(lián)合概率分布γ的集合;W(pr,pg)表示將pg擬合到pr所需要的將x移動(dòng)到y(tǒng)的距離。
(3)
對(duì)偶式大大降低了Wasserstein距離的求解難度,此時(shí)WGAN通過(guò)最小化真實(shí)電網(wǎng)數(shù)據(jù)分布與生成數(shù)據(jù)分布之間的Wasserstein距離來(lái)拉近真實(shí)樣本與生成異常樣本的分布。由于原始GAN的判別器做的是真假二分類任務(wù),所以最后一層采用sigmoid層。而在電網(wǎng)異常樣本生成任務(wù)中,WGAN的判別器是近似擬合Wasserstein距離,屬于回歸任務(wù),因此要把最后一層的sigmoid層去掉。
本文選擇發(fā)電量、煤折、耗用原煤、標(biāo)準(zhǔn)煤耗等物理量原始數(shù)據(jù),同時(shí)計(jì)算各指標(biāo)間的一階統(tǒng)計(jì)量如標(biāo)準(zhǔn)差、偏度、峰度等擴(kuò)充樣本信息。
本文考慮不同發(fā)電統(tǒng)計(jì)數(shù)據(jù)篡改程度下的辨識(shí)情況。將數(shù)據(jù)篡改程度分為20%、50%、80%,即每一條樣本數(shù)據(jù)中有20%、50%、80%的部分遭到篡改,為異常數(shù)據(jù)。對(duì)于分類變量,采用One-Hot編碼進(jìn)行轉(zhuǎn)換,編碼結(jié)果如表1所示。
表1 發(fā)電統(tǒng)計(jì)數(shù)據(jù)狀態(tài)編碼
本文算例中采取的發(fā)電統(tǒng)計(jì)數(shù)據(jù)為一維時(shí)序數(shù)據(jù),然而由于一維卷積模型在訓(xùn)練樣本數(shù)量有限、參數(shù)輸入更多時(shí),容易引起過(guò)擬合,且抗噪性能不如二維模型。因此需要將一維的發(fā)電統(tǒng)計(jì)數(shù)據(jù)進(jìn)行二維等同信息度變換,轉(zhuǎn)為灰度圖數(shù)據(jù)來(lái)適配模型。若直接以曲線圖輸入,則會(huì)增加大量無(wú)用信息,因此本文采取對(duì)一維統(tǒng)計(jì)數(shù)據(jù)進(jìn)行等長(zhǎng)截取,將其按行或列映射到二維灰度空間這種方式,實(shí)現(xiàn)數(shù)據(jù)的二維灰度圖重構(gòu)變換。
實(shí)際上,發(fā)電統(tǒng)計(jì)數(shù)據(jù)通常基于日、周、月、季、年等不同時(shí)間單元進(jìn)行指標(biāo)分析,通過(guò)對(duì)統(tǒng)計(jì)數(shù)據(jù)一定長(zhǎng)度進(jìn)行截取并二維轉(zhuǎn)換這種方式,對(duì)于具有典型周期性特征的電力數(shù)據(jù)會(huì)有更直觀的可視效果并更利于對(duì)特征分布的分析。
由于發(fā)電異常數(shù)據(jù)辨識(shí)問(wèn)題存在異常樣本極少的問(wèn)題,當(dāng)正負(fù)樣本分布不均勻時(shí),單獨(dú)依靠準(zhǔn)確率無(wú)法有效衡量模型性能。本文定義如下指標(biāo)綜合評(píng)判辨識(shí)模型的性能:
(4)
(5)
(6)
式中:λTPR表示預(yù)測(cè)為正常的正確結(jié)果在所有正常樣本中的占比,即查全率;λTFR表示預(yù)測(cè)為異常的正確結(jié)果在所有異常樣本中的占比,即查準(zhǔn)率,λTFR越大,漏警率(異常樣本判斷成正常)越低;λAcc表示總體準(zhǔn)確率;fTP表示實(shí)際為正常且預(yù)測(cè)為正常的樣本數(shù)量;fFN表示實(shí)際為正常但預(yù)測(cè)為異常的樣本數(shù)量;fTN表示實(shí)際為異常且預(yù)測(cè)為異常的樣本數(shù)量;fFP表示實(shí)際為異常但預(yù)測(cè)為正常的樣本數(shù)量。
生成器的輸入為100維隨機(jī)噪聲向量,在層級(jí)之間采用批標(biāo)準(zhǔn)化操作來(lái)加速收斂并減緩過(guò)擬合,使梯度傳播層次更深。并在輸出層采用tanh激活函數(shù),其余層采用修正線性單元(rectified linear unit,ReLU)函數(shù)激活,最終生成通道數(shù)為1、大小為10×10的偽數(shù)據(jù)。
判別器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)計(jì)與生成器網(wǎng)絡(luò)基本對(duì)稱。為減少靜默神經(jīng)元的出現(xiàn),判別器卷積層的激活函數(shù)使用帶泄露修正線性單元函數(shù)(leaky rectified linear unit,LeakyReLU),網(wǎng)絡(luò)最終使用全連接層和sigmoid激活函數(shù)輸出該批次數(shù)據(jù)為真實(shí)電網(wǎng)數(shù)據(jù)的概率。
首先對(duì)判別器網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),從真實(shí)數(shù)據(jù)分布數(shù)據(jù)集和隨機(jī)噪聲分布數(shù)據(jù)中隨機(jī)采樣,構(gòu)成一個(gè)批次訓(xùn)練數(shù)據(jù)。將訓(xùn)練數(shù)據(jù)輸入生成器得到虛假數(shù)據(jù),判別器對(duì)虛假數(shù)據(jù)進(jìn)行判別,求出損失誤差反向傳播進(jìn)行判別器網(wǎng)絡(luò)參數(shù)調(diào)整,更新判別器模型參數(shù)。其次,在訓(xùn)練生成器網(wǎng)絡(luò)時(shí),固定判別器網(wǎng)絡(luò)權(quán)重,根據(jù)判別器反饋的輸出和樣本標(biāo)簽來(lái)計(jì)算誤差,利用反向傳播進(jìn)行生成器網(wǎng)絡(luò)參數(shù)調(diào)整。
為解決電力發(fā)電統(tǒng)計(jì)數(shù)據(jù)實(shí)際數(shù)據(jù)集所存在的類別非均衡問(wèn)題,本文提出一種采用WGAN的異常數(shù)據(jù)辨識(shí)模型,其具體流程框架如圖1所示。
圖1 基于WGAN的異常數(shù)據(jù)辨識(shí)模型
異常數(shù)據(jù)辨識(shí)分為以下幾個(gè)步驟:
1)采用bootstrap方法對(duì)數(shù)據(jù)集進(jìn)行劃分,保持?jǐn)?shù)據(jù)分布的一致性,避免劃分過(guò)程引入額外的偏差。
2)對(duì)訓(xùn)練樣本進(jìn)行歸一化處理,以提高后續(xù)機(jī)器學(xué)習(xí)模型的數(shù)據(jù)處理效率。
3)將訓(xùn)練樣本轉(zhuǎn)化為10×10的二維圖像輸入生成器模型。
4)在生成器開(kāi)始訓(xùn)練之前,先訓(xùn)練一個(gè)能判別真假的判別器;接著每訓(xùn)練一次判別器,訓(xùn)練一次生成器,直至達(dá)到納什均衡點(diǎn)。
5)使用訓(xùn)練好的生成器生成人工異常數(shù)據(jù)樣本,合并原始訓(xùn)練集以均衡樣本分布;在擴(kuò)充后的訓(xùn)練集上采用孤立森林算法進(jìn)行擬合。
6)將測(cè)試集數(shù)據(jù)輸入iForest分類器進(jìn)行異常辨識(shí),根據(jù)查全率λTPR、查準(zhǔn)率λTFR、準(zhǔn)確率λAcc等指標(biāo)對(duì)比數(shù)據(jù)增強(qiáng)前后的模型分類效果。
本文采用某省2010年1月至2018年10月發(fā)電廠生產(chǎn)情況月報(bào)表作為數(shù)據(jù)集。本文構(gòu)建的發(fā)電統(tǒng)計(jì)數(shù)據(jù)集共包含4 610條原始樣本。為防止過(guò)擬合,訓(xùn)練集與測(cè)試集按照2∶1的比例進(jìn)行劃分。其中,訓(xùn)練集包含3 226條樣本,測(cè)試集包含1 384條樣本,每條樣本中包含發(fā)電量、發(fā)電廠用電率、煤折、耗用原煤、標(biāo)準(zhǔn)煤耗等指標(biāo)數(shù)據(jù)。具體的樣本分布情況如表2所示。
表2 發(fā)電統(tǒng)計(jì)樣本數(shù)據(jù)具體分布
由于發(fā)電指標(biāo)之間存在勾稽關(guān)系,如上網(wǎng)電量=發(fā)電量-綜合廠用電量-發(fā)電廠廠用電量等,實(shí)際指標(biāo)間的關(guān)系比簡(jiǎn)單等式計(jì)算更為復(fù)雜,若只篡改一項(xiàng)指標(biāo),則很容易發(fā)現(xiàn)該條數(shù)據(jù)為虛假數(shù)據(jù)。已知數(shù)據(jù)集不平衡率的定義為多數(shù)類樣本對(duì)少數(shù)類樣本的比例,由表2可知,不同篡改程度的不平衡率最大為27.16%,最小為17.32%,本文以其均值22.42%作為發(fā)電統(tǒng)計(jì)數(shù)據(jù)集整體分布的不平衡率。
在WGAN訓(xùn)練中,判別器所近似的Wasserstein距離與生成器的生成數(shù)據(jù)質(zhì)量高度相關(guān)。因此,考慮將Wasserstein距離作為訓(xùn)練進(jìn)程的數(shù)值指標(biāo)。采取網(wǎng)格搜索優(yōu)化方法確定數(shù)據(jù)生成模型和分類模型中的最優(yōu)參數(shù),最終模型參數(shù)如表3所示。
表3 異常數(shù)據(jù)辨識(shí)模型的最優(yōu)參數(shù)
在迭代訓(xùn)練約1 000輪次后Wasserstein距離收斂,此時(shí)生成器已學(xué)到原始異常樣本的分布。本文通過(guò)降維可視化的方法來(lái)直觀展示原始樣本與生樣本之間分布的相似性。分別對(duì)篡改程度20%、50%、80%的異常樣本進(jìn)行主成分分析法降維,降維后的數(shù)據(jù)分布情況如圖2所示。
圖2 不同篡改程度數(shù)據(jù)降維后的分布情況
圖2中橫縱坐標(biāo)為降維后歸一化的數(shù)值,直觀看來(lái),20%和80%篡改程度的異常數(shù)據(jù)的生成樣本與原始樣本較為相近,50%篡改程度的異常數(shù)據(jù)的生成效果不如20%和80%,但生成樣本總體分布和原始樣本分布大致相似。
在直觀的可視化基礎(chǔ)上,本文利用余弦相似度[19]來(lái)衡量原始樣本與生成樣本的相似性。余弦相似度在SeqGAN(sequence generative adversarial nets)中被用來(lái)衡量生成樣本的質(zhì)量好壞,若余弦值越接近1,就表明生成樣本與原始樣本越相似。原始GAN和WGAN在不同篡改程度下的異常生成樣本與異常原始樣本的余弦相似度結(jié)果如表4所示。
表4 余弦相似度結(jié)果對(duì)比
由表4可知,從總體來(lái)看,使用WGAN的生成樣本的相似性分?jǐn)?shù)均超過(guò)0.850,較好地還原了原始樣本的分布特點(diǎn)和規(guī)律,避免了隨機(jī)欠采樣引起的關(guān)鍵信息丟失。雖然生成樣本和原始樣本并不完全相同,但避免了樣本重疊問(wèn)題,樣本生成的多樣性可以更全面地展現(xiàn)原始發(fā)電統(tǒng)計(jì)數(shù)據(jù)特點(diǎn),提升非均衡數(shù)據(jù)的重新構(gòu)建效果。
本文考慮不同數(shù)據(jù)篡改程度下,數(shù)據(jù)增強(qiáng)前后iForest分類器的性能提升。由于不同篡改程度中的原始異常樣本數(shù)量并不相同,為保證實(shí)驗(yàn)準(zhǔn)確性,分別為不同篡改程度的數(shù)據(jù)集中添加對(duì)應(yīng)的人工異常樣本,使得各程度的訓(xùn)練集中的類別均衡。異常檢測(cè)結(jié)果如表5所示。
表5 數(shù)據(jù)增強(qiáng)前后分類結(jié)果對(duì)比
從表5可知,在20%篡改程度下λTPR、λTFR、λAcc指標(biāo)較數(shù)據(jù)增強(qiáng)前分別提高8.3%、31.3%和18.5%;在50%篡改程度下λTPR、λTFR、λAcc指標(biāo)較數(shù)據(jù)增強(qiáng)前分別提高10.5%、39.3%和10.7%;在80%篡改程度下λTPR、λTFR、λAcc指標(biāo)較數(shù)據(jù)增強(qiáng)前分別提高9.4%、33.5%和8.5%。因此,利用WGAN可有效生成近似于原始樣本分布的生成樣本,進(jìn)而均衡原始樣本集,提升異常辨識(shí)模型的整體性能。
在虛假數(shù)據(jù)篡改程度同為50%以及相同分類器的情況下,將本文的數(shù)據(jù)合成方法與合成少數(shù)過(guò)采樣技術(shù)(SMOTE)和隨機(jī)過(guò)采樣(ROS)等數(shù)據(jù)合成方法進(jìn)行比較。
受試者工作特征曲線(receiver operating characteristic curve,ROC)具有當(dāng)正負(fù)樣本的分布發(fā)生變化時(shí),形狀能夠基本保持不變的特性。該特點(diǎn)可以盡量降低非均衡數(shù)據(jù)集帶來(lái)的干擾,更加客觀地衡量模型本身的性能,恰好契合本文非均衡問(wèn)題的特性。因此,本文通過(guò)繪制ROC曲線來(lái)衡量不同方法的分類性能,具體結(jié)果如圖3、表6所示。
表6 不同數(shù)據(jù)合成方法的異常數(shù)據(jù)辨識(shí)結(jié)果
由圖3的分類結(jié)果可以看出,在相同虛假數(shù)據(jù)篡改程度和相同分類器的情況下,本文方法的ROC曲線將SMOTE方法和ROS方法的ROC曲線完全包裹。通過(guò)計(jì)算曲線下面積(area under curve,AUC)可知,本文方法的AUC值均大于另外2種方法。
圖3 不同數(shù)據(jù)合成方法的ROC
由表6中的分類結(jié)果可以看出,ROS方法從原始數(shù)據(jù)中復(fù)制異常樣本,容易導(dǎo)致樣本之間互相重疊,進(jìn)而引發(fā)過(guò)擬合問(wèn)題;SMOTE算法基于線性插值的方法容易造成邊界重疊。本文提出的WGAN是基于分布學(xué)習(xí)的方法,所以在數(shù)據(jù)分布特性上接近原始數(shù)據(jù)分布,可以合成原始數(shù)據(jù)從未出現(xiàn)過(guò)而又“真實(shí)”的數(shù)據(jù),其在3種數(shù)據(jù)合成方法中都具有最高的λTPR、λTFR、λAcc和AUC值。
在驗(yàn)證本文方法有效性時(shí)不僅需要考慮不同異常檢測(cè)算法之間的性能,而且需要比較不同數(shù)據(jù)合成方法之間的性能。因此,本文將GAN與WGAN相比較,基于K-means[20]、GBDT(gradient boost decision tree)[21]和iForest等不同的分類模型,在使用不同方法平衡后的數(shù)據(jù)上對(duì)模型進(jìn)行訓(xùn)練,然后基于原有的不平衡數(shù)據(jù)測(cè)試集進(jìn)行分類檢測(cè),在相同篡改程度50%的情況下對(duì)比檢測(cè)準(zhǔn)確率,結(jié)果如表7所示。
表7 多種數(shù)據(jù)合成與異常檢測(cè)結(jié)合的辨識(shí)結(jié)果
由表7可知,在經(jīng)過(guò)WGAN擴(kuò)充樣本后,3種異常檢測(cè)算法的λTPR、λTFR、λAcc均高于經(jīng)過(guò)GAN擴(kuò)充樣本后的結(jié)果。雖然在λTPR上iForest無(wú)法保證最優(yōu)值,但λTFR、λAcc均優(yōu)于另外2種異常檢測(cè)算法。在異常數(shù)據(jù)識(shí)別工作中,算法識(shí)別出異常數(shù)值后還需依靠專家經(jīng)驗(yàn)進(jìn)行人工核實(shí),這是十分耗時(shí)耗力的工作。因此,確保λTPR、λTFR、λAcc之間的平衡更為重要,本文方法在保證良好誤報(bào)率和正報(bào)率的同時(shí),精確率也有更好的表現(xiàn)。
綜上所述,文章分別從不同虛假數(shù)據(jù)篡改程度下,原始樣本與擴(kuò)充樣本的辨識(shí)效果以及相同虛假數(shù)據(jù)篡改程度下,不同數(shù)據(jù)生成方法和不同異常值檢測(cè)方法3個(gè)方面對(duì)比說(shuō)明了本文方法的有效性。
針對(duì)電力發(fā)電統(tǒng)計(jì)異常數(shù)據(jù)辨識(shí)中存在的數(shù)據(jù)非均衡問(wèn)題,本文提出一種基于WGAN和孤立森林算法的異常數(shù)據(jù)分析方法,在某省實(shí)際電網(wǎng)統(tǒng)計(jì)數(shù)據(jù)上進(jìn)行了計(jì)算,得到如下結(jié)論:
1)改進(jìn)的WGAN模型使用Wasserstein距離代替JS散度作為優(yōu)化目標(biāo),提高模型訓(xùn)練的穩(wěn)定性,解決了模式坍塌的問(wèn)題。
2)相較于K-means、GBDT等傳統(tǒng)異常數(shù)據(jù)辨識(shí)算法,本文方法能減少辨別模型對(duì)多數(shù)類樣本的分類傾向問(wèn)題,提高整體辨識(shí)精度。相較于傳統(tǒng)數(shù)據(jù)生成方法,WGAN并非對(duì)數(shù)據(jù)簡(jiǎn)單線性合成,而是學(xué)習(xí)原始數(shù)據(jù)分布并生成近似的人工數(shù)據(jù)。
3)本文提出的異常樣本辨識(shí)技術(shù)可以推廣應(yīng)用至不同結(jié)構(gòu)類型的數(shù)據(jù)對(duì)象,具有良好的泛化能力。
如何生成更高精度的少數(shù)類樣本數(shù)據(jù),并應(yīng)用于提高數(shù)據(jù)平衡性將是未來(lái)研究的重點(diǎn)。