伍棟文,于艾清,俞林剛,朱 亮,林順富
(1.國網(wǎng)江西電力科學研究院,江西南昌 330096;2.上海電力大學電氣工程學院,上海 200090)
降低配電網(wǎng)低壓臺區(qū)線損有助于節(jié)能減排,對推動我國能源企業(yè)的低碳化發(fā)展,實現(xiàn)“雙碳”目標具有重要意義?;诖髷?shù)據(jù)挖掘結(jié)合智能算法進行線損計算,可解決精細化低壓臺區(qū)中理論線損值計算難度大、分布式電源接入配電網(wǎng)導致傳統(tǒng)線損計算方法不適用等問題,是當前研究的主要方向[1-5]。
目前關(guān)于低壓臺區(qū)線損計算的研究多集中在聚類算法和線損模型的改進上。文獻[6-11]采用K-means聚類算法對低壓臺區(qū)線損集進行聚類分析,將聚類數(shù)據(jù)樣本通過反向傳播(Back Propagation,BP)和徑向基(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡方法進行建模,缺點分別為K-means 算法結(jié)果依賴于初始聚類中心、BP 及RBF 網(wǎng)絡結(jié)構(gòu)參數(shù)設置不當容易導致局部收斂。文獻[12-15]通過將布谷鳥搜索算法與K-means 算法相結(jié)合來優(yōu)化初始聚類中心的選取,從而大幅度提升其聚類效果并加快收斂。文獻[16-21]提出專家樣本庫、特征選擇、深度學習等方法進行低壓臺區(qū)線損計算,缺點為在線損數(shù)據(jù)集的選取上計算量大、主觀性強,未考慮含有分布式電源的電氣特征指標選取方法。
綜上所述,本文基于最大互信息系數(shù)(Maximum Information Coefficient,MIC)的相關(guān)性分析法,對分布式電源接入的低壓臺區(qū)線損的影響因子進行分析篩選,提出用改進布谷鳥搜索K 均值(Improved Cuckoo Search K-means,ICS-K-means)聚類算法對高維數(shù)據(jù)進行聚類并定義加權(quán)歐式距離,用反正切函數(shù)定義自適應步長和自適應鳥巢淘汰概率。然后,針對各聚類數(shù)據(jù)集進行有源低壓臺區(qū)線損估算,采用Morlet 母小波構(gòu)建小波神經(jīng)網(wǎng)絡(Wavelet Neural Network,WNN)模型。最后,通過某地區(qū)含光伏低壓臺區(qū)的線損數(shù)據(jù)樣本驗證了該方法的有效性。本文所提方法的優(yōu)點在于考慮了電氣指標的非線性相關(guān)性,可以保證種群間的多樣性,并提高聚類準確度和線損計算精度。
在根據(jù)大數(shù)據(jù)對相關(guān)性進行分析的過程中發(fā)現(xiàn)線損影響因子間相關(guān)性較為復雜且為非線性,常規(guī)方法無法對其進行描述。Reshef 等專家學者在2011 年首次提出MIC[22]這一概念,MIC 以歸一化的互信息和信息熵相關(guān)理論為基礎(chǔ),能夠?qū)Σ煌S機變量間任何一種相關(guān)性進行衡量。因此,本文基于MIC 的相關(guān)分析對有源低壓臺區(qū)線損基礎(chǔ)指標中的線損影響因子進行選取。
結(jié)合傳統(tǒng)低壓臺區(qū)線損理論計算公式、分布式電源模型與用電信息采集系統(tǒng)數(shù)據(jù),采集下列4 類共13 個影響因子作為構(gòu)建有源低壓臺區(qū)的線損指標特征體系的基礎(chǔ)指標。
1)網(wǎng)架類指標:線路長度、供電半徑。
2)容量類指標:用戶總數(shù)、光伏用戶數(shù)。
3)電量類指標:總表正向有功電量、總表反向有功電量、光伏用戶總發(fā)電量、供電量、售電量。
4)運行類指標:首端電壓、末端電壓、總表功率因數(shù)、三相不平衡度。
MIC 采用互信息以及網(wǎng)格劃分的方法來計算,物理量符號為MIC。把數(shù)據(jù)集D劃分成a×b的網(wǎng)格G,記為G=(a,b)。在a和b滿足a×b<n0.6不同取值的劃分下,取其互信息的最大值并進行歸一化,可得最大信息系數(shù)MIC(X,Y),其表達式為:
式中:ρ(x,y)為向量X和Y的聯(lián)合概率密度;ρ(x)和ρ(y)分別為X和Y的邊緣概率密度;xi和yi分別為X和Y的各分量;i為樣本序號。
由式(1)可知,MIC 的值越大,則變量相關(guān)性越大,反之亦然。采用MIC 的數(shù)值對某地區(qū)若干含光伏有源低壓臺區(qū)的實際線損數(shù)據(jù)進行影響因子的相關(guān)性分析并降維篩選,結(jié)合Spearman 系數(shù)參與評價線損影響因子相關(guān)性,分析結(jié)果對比圖如圖1所示。
由圖1 可知,在陰影閾值±0.1 以內(nèi)的影響因子與線損之間不存在線性相關(guān),除總表正向有功電量、售電量、供電半徑、供電量之外,其余9 個指標被剔除(圖1 中用表示)。由于影響因子與線損之間為非線性相關(guān),引入MIC 能夠分析影響因子和線損之間的非線性關(guān)聯(lián)程度,進而確定影響因子的重要性。圖2 為影響因子MIC 相關(guān)系數(shù)矩陣熱力圖。
圖2 影響因子MIC相關(guān)系數(shù)矩陣熱力圖Fig.2 Influence factor MIC correlation coefficient matrix heat map
圖2 中采用MIC 判別影響因子間的非線性冗余特征。由圖2 可知,總表正向有功電量與售電量冗余,總表正向有功電量與供電量冗余,供電量與售電量冗余。結(jié)合圖1,剔除售電量和供電量指標,建立由其余11 個影響因子構(gòu)成的有源低壓臺區(qū)線損指標特征體系,后續(xù)精細化線損計算將以此為依據(jù)展開。
由于有源低壓臺區(qū)線損數(shù)據(jù)集的各類電氣特征參數(shù)量綱不同,本文采用“零—均值”法進行數(shù)據(jù)歸一化處理(文中所有物理量均為無量綱量),其基本表達式為:
式中:d*為歸一化的數(shù)據(jù);d為線損原始數(shù)據(jù);M為中位數(shù);σ為絕對標準差。
本文基于MIC,ICS-K-means 聚類算法以及WNN 理論,經(jīng)過篩選線損影響因子、聚類以及線損建模等步驟進行有源低壓臺區(qū)線損計算,具體流程如圖3 所示。
圖3 有源低壓臺區(qū)線損計算流程圖Fig.3 Flow chart of line loss calculation in active low voltage station area
歸一化的有源低壓臺區(qū)樣本由數(shù)據(jù)驅(qū)動進行聚類,為線損計算提供相應依據(jù)。針對聚類效果依賴初始聚類中心問題,本文提出改進布谷鳥搜索聚類算法,主要改進之處有以下4 點:
1)建立初始種群。
每個鳥巢用C表示,C為k個聚類中心的集合(C∈Rk×S,R為實數(shù)集)。在樣本數(shù)據(jù)集中隨機生成popsize(鳥巢個數(shù))個的C當作初始鳥巢,減少K-means 對單組初始聚類的敏感性并保證多樣性。
2)適應度計算。
基于MIC 的線損影響因子相關(guān)性分析,計算影響因子的加權(quán)系數(shù)為:
式中:wh為第h個影響因子的加權(quán)系數(shù);MICh為第h個影響因子的MIC 數(shù)值;MICl為第l個影響因子的MIC 數(shù)值。
采取基于加權(quán)歐幾里得距離dist(Di,Dj)的Kmeans 算法來進行聚類,計算方法為:
式中:Di和Dj分別為第i個和第j個數(shù)據(jù)樣本向量;dih*和djh*分別為Di和Dj的第h個線損影響因子分量。
選取誤差平方之和(Sum of Square Error,SSE)作準則函數(shù),將其定義成適應度函數(shù)對每一個鳥巢進行評價,表達式為:
式中:Eq為第q個聚類簇;gq為簇Eq的聚類中心樣本向量。
3)自適應萊維飛行更新。
對每一個鳥巢所代表的聚類中心進行自適應萊維飛行,按公式(6)計算其更新位置為:
4)自適應鳥巢淘汰概率。
鳥巢淘汰概率的形式為反正切函數(shù),為保證種群的多樣性,使算法后期的淘汰概率增大,自適應鳥巢淘汰概率為:
式中:P為自適應鳥巢淘汰概率;Pmin,Pmax分別為P的最小值和最大值。
ICS-K-means 聚類算法的流程如圖4 所示。
圖4 ICS-K-means聚類算法流程圖Fig.4 Flow chart of ICS-K-means clustering algorithm
本文在聚類分析的基礎(chǔ)上對每一類線損數(shù)據(jù)集進行線損計算,采用WNN 建立模型。WNN 的基礎(chǔ)是BP 神經(jīng)網(wǎng)絡的拓撲結(jié)構(gòu),利用小波函數(shù)來進行隱層節(jié)點傳遞[23-24]。WNN 的信號傳輸形式為前向傳輸,其誤差信號則采用反向傳輸?shù)男问?,使得輸出信號逐漸靠近期望值。根據(jù)文獻[25]的理論,本文采用3 層WNN 網(wǎng)絡,其小波神經(jīng)網(wǎng)絡拓撲結(jié)構(gòu)見圖5。
圖5 小波神經(jīng)網(wǎng)絡拓撲結(jié)構(gòu)Fig.5 Wavelet neural network topology
圖5 中輸入節(jié)點數(shù)為m,隱層節(jié)點數(shù)為r,輸出層節(jié)點數(shù)為1。v1,v2,vm分別為第1,2,m個輸入節(jié)點,W2r為第2 個輸入節(jié)點與第r個隱層節(jié)點的連接權(quán)值,ψ1,ψ2,ψr為第1,2,r個隱層神經(jīng)元的激勵函數(shù),Wr1為第r個隱層節(jié)點與輸出層節(jié)點的連接權(quán)值,f為輸出神經(jīng)元的激勵函數(shù),z為輸出節(jié)點。
基于WNN 的線損計算模型為:
式中:Wuo為第u個輸入節(jié)點與第o個隱層節(jié)點的連接權(quán)值;vu為第u個輸入節(jié)點;αo和βo分別為第o個隱層節(jié)點的伸縮與平移因子;ψ(θ)為采取Morlet母小波的隱層神經(jīng)元激勵函數(shù);f(θ)為采用Sigmoid函數(shù)的輸出神經(jīng)元激勵函數(shù);θ為函數(shù)的自變量;e為自然指數(shù);Wo1為第o個隱層節(jié)點與輸出層節(jié)點的連接權(quán)值。
WNN 將人工神經(jīng)網(wǎng)絡與小波分析的優(yōu)勢進行融合,其優(yōu)點在于收斂速度快、防止陷至局部最優(yōu)且計算精度高,可用于臺區(qū)線損計算。
本文采用某地區(qū)410 個含光伏有源低壓臺區(qū)的典型負荷日樣本數(shù)據(jù)進行聚類及線損建模計算并與實際線損對比,驗證分析了所提方法的科學有效性。
在ICS-K-means 聚類算法中設定參數(shù)maxiter=100,popsize=20,發(fā)現(xiàn)概率范圍為(0.25,0.55),步長變化范圍為(0.000 1,1)。
3.1.1 聚類算法結(jié)果對比
從統(tǒng)計學角度出發(fā)選取不同k值,采用Kmeans 算法、基本布谷鳥K-means(Cuckoo Search K-means,CS-K-means)算法和基于歐氏距離的準則函數(shù)的ICS-K-means 算法,分別運行聚類算法50 次,結(jié)果對比如表1 所示。
表1 K-means、CS-K-means和ICS-K-means算法的結(jié)果對比Table 1 Results comparison of K-means,CS-Kmeans and ICS-K-means algorithms
由表1 可知,k值為2 時,ICS-K-means 算法的平均值等于或者優(yōu)于另外2 種算法。隨著k值增大平均值差值也逐漸增大,表明在針對K-means 算法的結(jié)果過于依賴初始聚類中心這一問題上ICS-Kmeans 算法做出了改善。準則函數(shù)最優(yōu)值的對比結(jié)果,體現(xiàn)了ICS-K-means 算法在解決局部最優(yōu)問題上能力更優(yōu)。
3.1.2 聚類效果對比
采用離散點檢測圖可準確分析加權(quán)歐式距離對聚類效果的影響。設定k=3,檢測閾值為15,對比傳統(tǒng)歐式距離的ICS-K-means 與加權(quán)歐式距離的ICS-K-means 的離散點,得到k=3 時樣本離散點檢測圖如圖6 所示。由圖6 可知,本文所提方法結(jié)合了數(shù)據(jù)相關(guān)特性,聚類效果更好。
圖6 k=3時樣本離散點檢測圖Fig.6 Sample discrete point detection map when k=3
3.1.3 參數(shù)確定
聚類參數(shù)k值基于手肘法則最佳初始分類圖來確定。取不同k值下適應度函數(shù)的平均值畫出最佳初始分類圖,如圖7 所示。
圖7 最佳初始分類圖Fig.7 Best initial classification plot
由圖7 可知,隨著初始分類k值增大,平均值迅速下降,在經(jīng)過圖7 中所示的拐點后,下降速度開始變慢,拐點即為最佳初始分類。針對本文中實際算例,得到k=3 時為最佳初始數(shù)值。
當選定k=3 時,ICS-K-means 算法的適應度進化曲線如圖8 所示。
圖8 k=3時ICS-K-means算法的適應度進化曲線Fig.8 Fitness evolution curve of ICS-K-means algorithm when k=3
由圖8 可知,ICS-K-means 算法在進化初期5代之內(nèi)即求得聚類優(yōu)化結(jié)果,求解效率較高。聚類算法輸出結(jié)果中,k=3 表示樣本被聚類為3 類,各類占比分別為3%、17%和80%。將聚類結(jié)果實施基于t分布的隨機近鄰嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)算法將數(shù)據(jù)降維可視化,三維坐標表示三維映射后數(shù)據(jù)點之間的相似度,k=3 時降維分類顯示圖如圖9 所示。
圖9 k=3 時降維分類顯示圖Fig.9 Dimensionality reduction classification display map when k=3
依據(jù)聚類分析結(jié)果,樣本集被分成3 類數(shù)據(jù)集,用聚類1、聚類2 和聚類3 表示。將樣本集以8:2 的比例分成訓練樣本和測試樣本。每類數(shù)據(jù)集均采用WNN 來計算,并與列文伯格-馬夸爾特算法優(yōu)化的 BP神經(jīng)網(wǎng)絡(Levenberg-Marquardt Back Propagation,LMBP)結(jié)果作對比。WNN 參數(shù)設定如下:隱含層神經(jīng)元數(shù)量為12,最大迭代數(shù)為500,權(quán)值學習速率為0.01,伸縮與平移因子學習速率為0.000 1。LMBP 神經(jīng)網(wǎng)絡參數(shù)設定如下:隱含層神經(jīng)元數(shù)量為12,中間層神經(jīng)元數(shù)量為4,權(quán)值學習速率為0.01,訓練目標誤差為0.001。WNN 和LMBP 的輸入節(jié)點數(shù)均為刪選后影響因子的個數(shù)。考慮隨機性,將2 個神經(jīng)網(wǎng)絡各運行50 次,取各聚類數(shù)據(jù)集線損率計算結(jié)果的均方根誤差(Root Mean Square Error,RMSE)的最優(yōu)值與平均值和運行時間t進行對比,結(jié)果如表2 所示,表2 中ERMS為均方根誤差的值。由表2 可知,WNN 計算結(jié)果的精度要比LMBP 神經(jīng)網(wǎng)絡更優(yōu)。
表2 LMBP和WNN計算結(jié)果對比Table 2 Comparison of LMBP and WNN calculation results
用WNN 計算各聚類數(shù)據(jù)集的線損計算結(jié)果如圖10 所示。
圖10 各聚類數(shù)據(jù)集的線損計算結(jié)果Fig.10 Line loss calculation results of each clustered data set
將線損的估計值與真實值進行比較。由圖10(a)可知,即使在聚類1 樣本數(shù)據(jù)較少的情況下,WNN 的最優(yōu)值計算精度依然較高。由圖10(b)、圖10(c)可知,隨著聚類的不同及樣本數(shù)據(jù)的增多,WNN 平均值計算精度不斷提升,體現(xiàn)了WNN 較高的應用價值。
本文針對有源低壓臺區(qū)線損分析的復雜性,提出了一種基于ICS-K-means 聚類算法和WNN 的線損估算方法,得出以下結(jié)論:
1)MIC 相關(guān)性分析表明線損影響因子與線損存在非線性相關(guān)性。
2)將K-means 算法與改進布谷鳥算法結(jié)合,提出加權(quán)歐式距離的聚類準則函數(shù),并改進自適應參數(shù),解決了傳統(tǒng)聚類算法對初始聚類中心太過敏感的問題,可提高聚類準確度。
3)采用WNN 對聚類的線損數(shù)據(jù)進行計算,計算結(jié)果表明比LMBP 精度更高。