花 潔,李 偉
(廣東電網(wǎng)有限責(zé)任公司 佛山供電局,廣東 佛山 528000)
在進(jìn)入能源時(shí)代后,社會對于電力的需求都在逐年上升,與此同時(shí)產(chǎn)生了大量的電網(wǎng)負(fù)荷數(shù)據(jù)。電網(wǎng)負(fù)荷數(shù)據(jù)中包含著電力系統(tǒng)對用戶的電力供應(yīng)、電價(jià)計(jì)算、電力負(fù)荷預(yù)測等,具備極為廣闊的現(xiàn)實(shí)意義。在電力系統(tǒng)中若電網(wǎng)負(fù)荷數(shù)據(jù)出現(xiàn)錯(cuò)誤,會導(dǎo)致一段時(shí)間內(nèi)該地區(qū)的電力供應(yīng)都會失去調(diào)配能力。為能夠更高效率地利用電網(wǎng)負(fù)荷數(shù)據(jù),對其進(jìn)行數(shù)據(jù)分類處理[1]。
文獻(xiàn)[2]通過收集大量的電網(wǎng)負(fù)荷數(shù)據(jù),基于K-均值算法對電力數(shù)據(jù)進(jìn)行了分析與預(yù)測。通過大數(shù)據(jù)的關(guān)聯(lián)分析,遞增電網(wǎng)數(shù)據(jù)的維度,提供了一個(gè)電力數(shù)據(jù)的分類模型。這種方法需要首先建立電網(wǎng)數(shù)據(jù)的數(shù)學(xué)模型,依賴于大數(shù)據(jù)的云計(jì)算能力,在計(jì)算時(shí)耗時(shí)較長,效率較差。文獻(xiàn)[3]通過神經(jīng)網(wǎng)絡(luò)算法針對數(shù)據(jù)集進(jìn)行了改進(jìn),以采樣技術(shù)為中心,改變了數(shù)據(jù)集的識別能力,并創(chuàng)建原始數(shù)據(jù)集和測試數(shù)據(jù)集作為電網(wǎng)負(fù)荷數(shù)據(jù)的分類樣本。這種方法通常只適用于比例適中的小樣本數(shù)據(jù)集,對于大數(shù)據(jù)樣本的計(jì)算能力較差。文獻(xiàn)[4]通過聚類算法,設(shè)計(jì)了一種能夠向上采樣的數(shù)據(jù)集,在調(diào)整計(jì)算樣本的過程中,設(shè)定合適的參數(shù)結(jié)構(gòu),進(jìn)而提高后續(xù)算法的計(jì)算準(zhǔn)確性,保證冗余數(shù)據(jù)被及時(shí)刪查,但是這種算法需要改變數(shù)據(jù)的分布結(jié)構(gòu),才能增強(qiáng)數(shù)據(jù)分類效果,因此在某種情況下無法使用。
為解決以上傳統(tǒng)方法存在的問題,本文通過人工神經(jīng)網(wǎng)絡(luò)算法,對電網(wǎng)負(fù)荷數(shù)據(jù)的分類算法進(jìn)行改進(jìn)優(yōu)化設(shè)計(jì)。從另一個(gè)角度,刪減數(shù)據(jù)庫中的冗余數(shù)據(jù),減少數(shù)據(jù)的數(shù)量,進(jìn)而增強(qiáng)電網(wǎng)負(fù)荷數(shù)據(jù)的分類效率。
假設(shè)在數(shù)據(jù)集中,需要保證分類器的整體性能近似于平衡狀態(tài),此時(shí)數(shù)據(jù)密度計(jì)算公式為:
(1)
式中,ρd為數(shù)據(jù)集M中,當(dāng)分類器處于平衡狀態(tài)時(shí)樣本數(shù)據(jù)的密度;Nd為樣本數(shù)據(jù)大類中的樣本數(shù)量;Nx為樣本數(shù)據(jù)小類中的樣本數(shù)量;Nl為樣本數(shù)據(jù)的鄰近樣本數(shù)量。
當(dāng)ρd的函數(shù)區(qū)間位于[0,1]時(shí),其最大容忍度可以表示為:
(2)
式中,ξmax為歐式幾何模型中數(shù)據(jù)樣本的最大容忍度;ρNd為數(shù)據(jù)模型中大類樣本的密度;ρi為數(shù)據(jù)模型中樣本的總密度[5-6]。一般的鄰近樣本需要在數(shù)據(jù)集Ui中得到采樣的最近鄰密度,因此可以通過計(jì)算局部密度的方式得到其距離中心點(diǎn)的可達(dá)性。
(3)
式中,ρlrd(Hn)為數(shù)據(jù)集Hn局部的面積最大值;Im為距離數(shù)據(jù)集Hn最近的對象與數(shù)據(jù)集Hn中心的距離;d(xn-xi)為數(shù)據(jù)集一段端點(diǎn)xn與另一端端點(diǎn)xm的距離;Nh(Pl)為離群點(diǎn)數(shù)據(jù)與數(shù)據(jù)集中心的可達(dá)性[7-8]。通過計(jì)算ρlrd(Hn)的最大值,可以得到離群點(diǎn)數(shù)據(jù)的采樣依據(jù),若ρlrd(Hn)大于1,則表明可以檢測到離群點(diǎn)的采樣數(shù)據(jù),若ρlrd(Hn)小于1,則表明無法檢測到離群點(diǎn)的采樣數(shù)據(jù)。
在人工神經(jīng)網(wǎng)絡(luò)算法中,對數(shù)據(jù)集的訓(xùn)練大致可以分為4個(gè)步驟,首先需要通過計(jì)算可達(dá)性得到離群點(diǎn)數(shù)據(jù)的采樣結(jié)果,并保留下采樣中的邊界樣本。在構(gòu)造原始數(shù)據(jù)集時(shí),需要將子集中的樣本整理到母集中,以保證數(shù)據(jù)集的噪聲數(shù)據(jù)可以被移除。第2步需要將數(shù)據(jù)集中所有的噪聲數(shù)據(jù)全部清除,以下為檢驗(yàn)噪聲數(shù)據(jù)的公式:
(4)
式中,Tr(θ)為數(shù)據(jù)集θz中需要被清理的噪聲數(shù)據(jù)的位置;Nz為在找到噪聲數(shù)據(jù)前最后一個(gè)被訓(xùn)練的數(shù)據(jù);λn為對樣本λ第一個(gè)計(jì)算初始目標(biāo)的神經(jīng)元輸出值;λm(θ)為對樣本第一個(gè)計(jì)算初始目標(biāo)的神經(jīng)元目標(biāo)值[9-11]。在得到噪聲數(shù)據(jù)的檢驗(yàn)方法后,需要將上文中的數(shù)據(jù)分區(qū)塊小規(guī)模訓(xùn)練,通過權(quán)值迭代的方法將隱藏節(jié)點(diǎn)作為分區(qū)標(biāo)志,計(jì)算隱藏節(jié)點(diǎn)與輸出節(jié)點(diǎn)之間的向量坐標(biāo):
(5)
式中,λj(θ)為在以隱藏節(jié)點(diǎn)為邊界的小規(guī)模數(shù)據(jù)庫中,隱藏節(jié)點(diǎn)與輸出節(jié)點(diǎn)之間的向量坐標(biāo);Hn(θ)為隱藏節(jié)點(diǎn)的數(shù)據(jù)變化梯度;Gm(θ)為輸出節(jié)點(diǎn)的數(shù)據(jù)變化梯度。為了提高學(xué)習(xí)效率,可以將隱藏節(jié)點(diǎn)與輸出節(jié)點(diǎn)設(shè)定為雙向激勵(lì)函數(shù):
(6)
式中,αm為通過人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的效率值[12]。通過這個(gè)雙向激勵(lì)函數(shù),在大范圍的數(shù)據(jù)庫中建立訓(xùn)練集,并獲得相應(yīng)的訓(xùn)練閾值,以達(dá)到人工神經(jīng)網(wǎng)絡(luò)算法中數(shù)據(jù)集的訓(xùn)練目的。
利用以上神經(jīng)網(wǎng)絡(luò)算法,可以分別計(jì)算隱藏節(jié)點(diǎn)與輸出節(jié)點(diǎn)之間的激勵(lì)函數(shù),并確定冗余數(shù)據(jù)的確切位置,在此之后,需要進(jìn)一步優(yōu)化人工神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)分類功能,使其成為特征區(qū)間中的最優(yōu)值。數(shù)據(jù)分類流程如圖1所示。
圖1 數(shù)據(jù)分類優(yōu)化Fig.1 Data classification optimization
如圖1所示,通過離群點(diǎn)的可達(dá)性判定,可以將數(shù)據(jù)母集分為不同的子集,其中數(shù)量較大的部分為大類樣本,數(shù)量較小的部分為小類樣本[13-14]。在計(jì)算了隱藏節(jié)點(diǎn)的輸出矩陣后,可以通過計(jì)算矩陣向量排序的方式獲取其最大數(shù)值,再計(jì)算每個(gè)樣本的累計(jì)誤差,該誤差的最小化計(jì)算方法為:
(7)
式中,μmax為數(shù)據(jù)樣本中累計(jì)誤差的最小化參數(shù);αm為調(diào)節(jié)參數(shù)的累加平均值;αn為調(diào)節(jié)參數(shù)的極值識別系數(shù)。計(jì)算出μmax最大的數(shù)據(jù),就可以得到特征區(qū)間中的最優(yōu)值。
在訓(xùn)練了數(shù)據(jù)集之后,還需要將數(shù)據(jù)集中作為邊界的冗余數(shù)據(jù)全部清除。通常情況下,需要設(shè)定原始的數(shù)據(jù)樣本n1,n2,n3,…,nx,在每一個(gè)小范圍的樣本數(shù)據(jù)集中,都能夠得到冗余數(shù)據(jù)的周期平均值:
(8)
該周期平均值的周期指數(shù)可以表示為:
(9)
式中,Ti為該周期平均值的周期指數(shù)。
通過以上周期平均值和周期指數(shù)的計(jì)算,可以直接通過網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算出冗余數(shù)據(jù)的誤差更新閾值:
(10)
式中,F(xiàn)wc為網(wǎng)絡(luò)結(jié)構(gòu)中冗余數(shù)據(jù)的誤差更新閾值;nx為數(shù)據(jù)集中最后一個(gè)冗余數(shù)據(jù)的位置坐標(biāo);ni為數(shù)據(jù)集中第i個(gè)冗余數(shù)據(jù)的位置坐標(biāo)。
在電網(wǎng)負(fù)荷數(shù)據(jù)中,這個(gè)冗余數(shù)據(jù)的閾值就可以通過二分法進(jìn)一步確定縮小其區(qū)間范圍,計(jì)算公式為:
(11)
式中,θr為該數(shù)據(jù)集中電網(wǎng)負(fù)荷冗余數(shù)據(jù)的位置坐標(biāo);tr-1為該電網(wǎng)負(fù)荷冗余數(shù)據(jù)篩查模型的前2個(gè)區(qū)間范圍中位置坐標(biāo);tr-1為該電網(wǎng)負(fù)荷冗余數(shù)據(jù)篩查模型的前一個(gè)區(qū)間范圍中位置坐標(biāo)[16]。
通過式(11)可以逐步確定冗余數(shù)據(jù)的位置,并將其清除,該公式就是電網(wǎng)負(fù)荷冗余數(shù)據(jù)周期性篩查模型。
本文實(shí)驗(yàn)主要目的為檢驗(yàn)上文中基于人工神經(jīng)網(wǎng)絡(luò)算法的電網(wǎng)負(fù)荷數(shù)據(jù)分類方法的性能,在此過程中,將其與常規(guī)的3種算法進(jìn)行對比,以此判斷文中的數(shù)據(jù)分類方法是否實(shí)現(xiàn)了性能的優(yōu)化。收集電網(wǎng)中的運(yùn)行數(shù)據(jù),分3次在其中隨機(jī)抽取100組數(shù)據(jù),分別為數(shù)據(jù)集A、數(shù)據(jù)集B、數(shù)據(jù)集C,這3個(gè)數(shù)據(jù)集的屬性設(shè)置見表1。
表1 數(shù)據(jù)集屬性設(shè)置Tab.1 Dataset property settings
在若干電網(wǎng)負(fù)荷數(shù)據(jù)中,分類的操作十分復(fù)雜,其中包含著許多沒有作用的冗余數(shù)據(jù),在分類之前因此需要將這些冗余數(shù)據(jù)首先篩除,此時(shí)就需要通過信噪比來判斷4種算法中電網(wǎng)負(fù)荷數(shù)據(jù)分類方法的性能,其計(jì)算公式為:
(12)
式中,gx(t)為某算法中電網(wǎng)負(fù)荷數(shù)據(jù)分類信噪比的計(jì)算結(jié)果,一般情況下gx(t)越大,說明該段數(shù)據(jù)中的冗余數(shù)據(jù)含量越小,反之則越大;ηx1為在數(shù)據(jù)庫中數(shù)據(jù)集A所含有的水平均值;ηx2為在數(shù)據(jù)庫中數(shù)據(jù)集B所含有的水平均值;ηx3為在數(shù)據(jù)庫中數(shù)據(jù)集C所含有的水平均值;δy1為在數(shù)據(jù)庫中數(shù)據(jù)集A所含有的水平標(biāo)準(zhǔn)差;δy2為在數(shù)據(jù)庫中數(shù)據(jù)集B所含有的水平標(biāo)準(zhǔn)差;δy3為在數(shù)據(jù)庫中數(shù)據(jù)集C所含有的水平標(biāo)準(zhǔn)差。
在3個(gè)數(shù)據(jù)集中構(gòu)建10個(gè)隱藏節(jié)點(diǎn),每經(jīng)過一個(gè)隱藏節(jié)點(diǎn)計(jì)算一次電網(wǎng)負(fù)荷數(shù)據(jù)的信噪比。將文中設(shè)計(jì)的數(shù)據(jù)分類方法作為實(shí)驗(yàn)組,將文獻(xiàn)[2]方法、文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法作為對照組1、對照組2和對照組3,分別將以上數(shù)據(jù)代入到數(shù)據(jù)分類方法中進(jìn)行測試,得到如圖2所示的實(shí)驗(yàn)結(jié)果。
圖2 電網(wǎng)負(fù)荷數(shù)據(jù)信噪比測試Fig.2 Power grid load data signal-to-noise ratio test
電網(wǎng)負(fù)荷數(shù)據(jù)在10個(gè)隱藏節(jié)點(diǎn)中的信噪比如圖2所示,整理圖中的數(shù)據(jù),得到表2—表4。
表2 數(shù)據(jù)集ATab.2 Dataset A
表3 數(shù)據(jù)集BTab.3 Dataset B
表4 數(shù)據(jù)集CTab.4 Dataset C
對照組1在3個(gè)數(shù)據(jù)集中的信噪比分別為76.35、75.48、75.96 dB,對照組2在3個(gè)數(shù)據(jù)集中的信噪比分別為82.75、80.25、79.24 dB,對照組3在3個(gè)數(shù)據(jù)集中的信噪比分別為80.46、81.22、80.99 dB。綜上所述,文中設(shè)計(jì)的基于人工神經(jīng)網(wǎng)絡(luò)的電網(wǎng)負(fù)荷數(shù)據(jù)分類方法較常規(guī)的3種方法信噪比更高,對冗余數(shù)據(jù)的清除更徹底,可以得到更準(zhǔn)確的分類方法。
在以上3個(gè)數(shù)據(jù)集中,4組算法得到的最大信噪比即是其最終信噪比。其中,實(shí)驗(yàn)組在數(shù)據(jù)集A中的信噪比為102.95 dB,在數(shù)據(jù)集B中的信噪比為101.37 dB,在數(shù)據(jù)集C中的信噪比為100.96 dB。
將文中設(shè)計(jì)的數(shù)據(jù)分類方法作為實(shí)驗(yàn)組,文獻(xiàn)[2]方法、文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法作為對照組1、對照組2和對照組3,測試不同方法的負(fù)荷數(shù)據(jù)分類綜合性能(分類準(zhǔn)確率、精度、召回率),得到如圖3所示的實(shí)驗(yàn)結(jié)果。
根據(jù)圖3的實(shí)驗(yàn)結(jié)果可知,與對照組的3種方法相比,研究方法具有更高的分類準(zhǔn)確率、精度以及召回率。在30次的實(shí)驗(yàn)迭代過程中,研究方法的準(zhǔn)確率可穩(wěn)定在90%以上,精度和召回率可達(dá)80%以上。以上實(shí)驗(yàn)結(jié)果表明研究方法具有理想性能,應(yīng)用性更強(qiáng)。
圖3 3種方法的分類性能對比Fig.3 Comparison of classification performance of three methods
通過人工神經(jīng)網(wǎng)絡(luò)算法設(shè)計(jì)了一種電網(wǎng)負(fù)荷數(shù)據(jù)分類方法,該方法以清除冗余數(shù)據(jù)為核心,保證了數(shù)據(jù)庫中數(shù)據(jù)節(jié)點(diǎn)的完整性和簡潔性,提高了電網(wǎng)負(fù)荷數(shù)據(jù)的信噪比,從另一個(gè)角度提高了數(shù)據(jù)分類的運(yùn)算速度,保證了數(shù)據(jù)分類的準(zhǔn)確性。