張明達(dá),崔昊楊,余豪華,孫益輝,王思謹(jǐn),王浩乾
(1.國(guó)網(wǎng)浙江奉化區(qū)供電有限公司,浙江 奉化 315500;2.上海電力大學(xué),上海 200090)
從數(shù)據(jù)的角度揭示電力設(shè)備內(nèi)部狀態(tài)變化規(guī)律,是捕捉故障先兆信息、追溯故障過(guò)程、預(yù)測(cè)故障概率的重要依據(jù)。然而,電力設(shè)備狀態(tài)數(shù)據(jù)不僅來(lái)源多,還會(huì)由狀態(tài)監(jiān)測(cè)系統(tǒng)可靠性差、測(cè)量失誤、設(shè)備系統(tǒng)擾動(dòng)等情況導(dǎo)致不完整、冗余、遺漏、錯(cuò)誤等無(wú)效異常數(shù)據(jù)的存在。這些無(wú)效、異常數(shù)據(jù)的出現(xiàn)導(dǎo)致設(shè)備狀態(tài)真實(shí)規(guī)律難以挖掘,嚴(yán)重者可能導(dǎo)致?tīng)顟B(tài)規(guī)律挖掘錯(cuò)誤。因此,如何避免無(wú)效異常值對(duì)設(shè)備真實(shí)規(guī)律挖掘的影響,以及如何提高數(shù)據(jù)挖掘算法的魯棒性成了電力大數(shù)據(jù)的核心問(wèn)題。
目前,電力大數(shù)據(jù)分析常采用的方法按應(yīng)用場(chǎng)景可分為:以整合移動(dòng)平均自回歸模型(Autoregressive Integrated Moving Average model,ARIMA)為代表的統(tǒng)計(jì)分析,以神經(jīng)網(wǎng)絡(luò)(Back Propagation,BP)、支持向量機(jī)(Support Vector Machine, SVM)等為代表的智能學(xué)習(xí)方法,以及以長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)等為代表的深度智能學(xué)習(xí)方法。其中,以ARIMA為代表的統(tǒng)計(jì)分析方法不需大量樣本進(jìn)行訓(xùn)練,并且具有較高的準(zhǔn)確率,但是當(dāng)數(shù)據(jù)增大到一定規(guī)模后,該類(lèi)算法容易陷入局部最優(yōu)(即只反映短期規(guī)律,不能反映長(zhǎng)期規(guī)律);以BP、SVM為代表的智能學(xué)習(xí)方法雖然容易訓(xùn)練,但是海量數(shù)據(jù)處理時(shí)存在梯度消失的情況;而以LSTM、GRU等為代表的深度智能學(xué)習(xí)方法,由于具備長(zhǎng)期的“記憶細(xì)胞”,可以輕松處理海量數(shù)據(jù),并且具有極高的準(zhǔn)確率,但是這類(lèi)方法對(duì)數(shù)據(jù)的有效性、一致性、完整性的要求嚴(yán)苛。由于監(jiān)測(cè)系統(tǒng)產(chǎn)生的無(wú)效異常值將破壞LSTM、GRU這類(lèi)算法的“記憶細(xì)胞”,進(jìn)而導(dǎo)致規(guī)律挖掘出錯(cuò)或無(wú)法挖掘。
針對(duì)當(dāng)前狀態(tài)數(shù)據(jù)存在的問(wèn)題和現(xiàn)有GRU算法的不足,提出了基于改進(jìn)GRU的電力大數(shù)據(jù)分析模型。該模型首先針對(duì)狀態(tài)數(shù)據(jù)一致性、有效性較差,以及沖擊、無(wú)效數(shù)據(jù)影響數(shù)據(jù)真實(shí)性的問(wèn)題,利用自適應(yīng)閾值的小波變換對(duì)數(shù)據(jù)進(jìn)行清洗;其次,以周期為單位將清洗后的數(shù)據(jù)分為多個(gè)數(shù)據(jù)段,通過(guò)對(duì)各數(shù)據(jù)段同一時(shí)刻的記憶進(jìn)行求和,并將求和結(jié)果的平均值作為標(biāo)準(zhǔn)記憶,以此消除不完整數(shù)據(jù)對(duì)狀態(tài)規(guī)律挖掘的影響;最后,根據(jù)數(shù)據(jù)段的質(zhì)量高低對(duì)GRU的“記憶”進(jìn)行更新,即數(shù)據(jù)質(zhì)量好的多記,數(shù)據(jù)質(zhì)量差的忘記。實(shí)驗(yàn)結(jié)果表明,提出的預(yù)測(cè)模型在數(shù)據(jù)未濾波和濾波后的預(yù)測(cè)均方根誤差(Root Mean Square Error , RMSE)均低于 ARIMA 、LSTM和GRU 模型。
狀態(tài)數(shù)據(jù)貫穿設(shè)備全壽命運(yùn)行的整個(gè)時(shí)期,具有總量大(Volume)、增長(zhǎng)快(Variability)、密度低(Value)等特點(diǎn)。并且,從圖1的光伏發(fā)電可知,新能源光伏發(fā)電數(shù)據(jù)以0.25h為單位進(jìn)行采樣,故光伏發(fā)電的數(shù)據(jù)在總量、增長(zhǎng)速度方面均比設(shè)備狀態(tài)數(shù)據(jù)大;此外,由于光伏發(fā)電易受氣候影響,其價(jià)值密度不僅低于狀態(tài)數(shù)據(jù)的價(jià)值密度,還多了圖1中周四光伏發(fā)電波動(dòng)數(shù)據(jù)的無(wú)效異常數(shù)據(jù)。因此,本文以“迎刃而解”為思路(能挖掘困難的新能源發(fā)電數(shù)據(jù)規(guī)律,那也能挖掘較為簡(jiǎn)單的狀態(tài)數(shù)據(jù)規(guī)律),對(duì)本文算法的有效性進(jìn)行驗(yàn)證。同時(shí),為了便于比較,采用RMSE作為評(píng)價(jià)依據(jù),計(jì)算公式如下:
(1)
式中:′、分別為預(yù)測(cè)數(shù)據(jù)、現(xiàn)實(shí)數(shù)據(jù)。
圖1 一周內(nèi)光伏發(fā)電的負(fù)荷
由于光伏發(fā)電都在8之后,于是采用08:00-20:00的發(fā)電數(shù)據(jù)進(jìn)行預(yù)測(cè)分析,ARIMA、LSTM、GRU預(yù)測(cè)準(zhǔn)確度如表1所示,預(yù)測(cè)結(jié)果如圖2所示。結(jié)合表1和圖2可知,ARIMA預(yù)測(cè)準(zhǔn)確率最低,RMSE達(dá)到了135,而LSTM及LSTM變體GRU的RMSE雖然比ARIMA較小,分別為41和39,但預(yù)測(cè)準(zhǔn)確率依舊有待提高。由此可見(jiàn),類(lèi)似周四的異常數(shù)據(jù)不僅加大了數(shù)據(jù)規(guī)律挖掘的難度,還降低了挖掘算法的準(zhǔn)確率。
表1 ARIMA、LSTM、GRU預(yù)測(cè)光伏發(fā)電的負(fù)荷與真實(shí)值的RMSE對(duì)比
圖2 ARIMA、LSTM、GRU預(yù)測(cè)光伏發(fā)電的負(fù)荷與真實(shí)值的對(duì)比
從圖1可知,類(lèi)似周四的數(shù)據(jù)由于受氣候影響,其波動(dòng)性影響了整天發(fā)電數(shù)據(jù)的規(guī)律性,這些無(wú)效的異常數(shù)據(jù)造成當(dāng)天發(fā)電數(shù)據(jù)呈現(xiàn)出一個(gè)假的“駝峰規(guī)律”性。因此,針對(duì)這些無(wú)效、異常數(shù)據(jù)的影響,以及當(dāng)前算法的不足,本文通過(guò)數(shù)據(jù)質(zhì)量改善和算法改進(jìn)兩部分進(jìn)行改進(jìn)。
針對(duì)無(wú)效、異常數(shù)據(jù)的影響,參照文獻(xiàn)[12],利用自適應(yīng)小波濾波算法進(jìn)行數(shù)據(jù)質(zhì)量提升。傳統(tǒng)的小波濾波常用閾值選取公式為:
(2)
式中:、和分別為噪聲均方差、信號(hào)提升層數(shù)和信號(hào)范圍。由于無(wú)效異常值的出現(xiàn)是隨機(jī)不可預(yù)知的,無(wú)法得到數(shù)據(jù)和噪聲的統(tǒng)計(jì)特性先驗(yàn)規(guī)律,故針對(duì)規(guī)律失真的情況,利用數(shù)據(jù)真實(shí)性定義其自適應(yīng)閾值范圍,改進(jìn)后的自適應(yīng)閾值小波濾波為:
(3)
(4)
式中:和分別為當(dāng)前采樣值和上次濾波結(jié)果。
作為L(zhǎng)STM改進(jìn)體的GRU雖然簡(jiǎn)化了輸入和輸出,即LSTM的輸入、輸出、忘記門(mén)簡(jiǎn)化為更新門(mén)和重置門(mén),但是依舊保持了LSTM預(yù)測(cè)準(zhǔn)確率高的優(yōu)點(diǎn)。標(biāo)準(zhǔn)的GRU門(mén)控邏輯如圖3所示,時(shí)刻GRU狀態(tài)輸出為:
式中:、、和⊙ 分別為Sigmoid激活函數(shù)、權(quán)重矩陣、偏置向量和數(shù)據(jù)對(duì)應(yīng)位置的點(diǎn)乘運(yùn)算。
圖3 標(biāo)準(zhǔn)的GRU門(mén)控邏輯
從圖3中GRU的門(mén)控邏輯可知,重置門(mén)決定了如何將新數(shù)據(jù)與之前記憶結(jié)合,而更新門(mén)則決定了多少之前記憶的作用。因此,提高算法對(duì)無(wú)效異常數(shù)據(jù)魯棒性的關(guān)鍵在于如何和。為此,本文對(duì)GRU進(jìn)行改進(jìn),改進(jìn)后的GRU門(mén)控邏輯如圖4所示。本文根據(jù)自適應(yīng)小波濾波對(duì)數(shù)據(jù)質(zhì)量提升程度,將數(shù)據(jù)分為個(gè)周期段,將各周期段同一時(shí)刻的平均記憶作為標(biāo)準(zhǔn)記憶。利用標(biāo)準(zhǔn)記憶對(duì)GRU的重置門(mén)進(jìn)行選擇性記憶,即數(shù)據(jù)質(zhì)量高的多記憶、數(shù)據(jù)質(zhì)量差的少記憶。改進(jìn)后的GRU為:
(7)
(8)
圖4 改進(jìn)后的GRU門(mén)控邏輯
為了驗(yàn)證本文模型在異常、無(wú)效數(shù)據(jù)影響情況下均具有較高的準(zhǔn)確率和可靠性,進(jìn)行了以下實(shí)驗(yàn)。實(shí)驗(yàn)分為兩部分:原始數(shù)據(jù)情況下不同算法之間對(duì)比和數(shù)據(jù)濾波后不同算法之間對(duì)比。從圖5和表2的對(duì)比中可知,無(wú)效異常數(shù)據(jù)導(dǎo)致的失真規(guī)律雖然對(duì)GRU的記憶造成了影響,但是本文對(duì)重置門(mén)進(jìn)行了選擇性記憶,失真較大的規(guī)律被遺忘,預(yù)測(cè)準(zhǔn)確率相對(duì)于ARIMA、LSTM和GRU分別提高了76%、16%和11%。
另外,經(jīng)過(guò)本文方法濾波后的光伏發(fā)電數(shù)據(jù)的質(zhì)量得以提升,以周三和周四數(shù)據(jù)改善結(jié)果最為明顯,數(shù)據(jù)上升沿和下降沿的失真得到了抑制。本文模型、ARIMA、LSTM和GRU利用濾波后數(shù)據(jù)進(jìn)行預(yù)測(cè)的準(zhǔn)確率相對(duì)于未濾波數(shù)據(jù)預(yù)測(cè)準(zhǔn)確率分別提高了28%、56%、13%、13.8%;利用失真得到抑制的數(shù)據(jù)進(jìn)行預(yù)測(cè),本文模型預(yù)測(cè)準(zhǔn)確率相對(duì)于ARIMA、LSTM和GRU分別提高了61%、30%和25%。
圖5 數(shù)據(jù)未濾波情況下,本文方法與ARIMA、LSTM、GRU預(yù)測(cè)結(jié)果對(duì)比
圖6 本文方法與Kalman濾波對(duì)數(shù)據(jù)質(zhì)量提升情況對(duì)比
圖7 數(shù)據(jù)濾波后,本文方法與ARIMA、LSTM、GRU預(yù)測(cè)結(jié)果對(duì)比
表2 ARIMA、LSTM、GRU和本文方法預(yù)測(cè)光伏發(fā)電的負(fù)荷與真實(shí)值的RMSE對(duì)比
針對(duì)電力大數(shù)據(jù)分析過(guò)程中存在無(wú)效、異常數(shù)據(jù)導(dǎo)致數(shù)據(jù)質(zhì)量較差,以及當(dāng)前數(shù)據(jù)分析方法難以在規(guī)律失真情況下分析真實(shí)規(guī)律的問(wèn)題,提出了基于改進(jìn)GRU的調(diào)控大數(shù)據(jù)分析模型。該模型采取自適應(yīng)小波濾波的方法提高數(shù)據(jù)質(zhì)量,降低數(shù)據(jù)規(guī)律失真率;并通過(guò)改進(jìn)GRU的重置門(mén)的記憶細(xì)胞提高模型抗數(shù)據(jù)失真魯棒性。