(國網浙江海鹽縣供電有限公司,浙江 嘉興 314300)
配電網同期線損異常治理作為“分區(qū)、分壓、分線、分臺區(qū)”同期線損監(jiān)測治理工作中重要一環(huán),目前正面臨著多方面挑戰(zhàn)。其中10(20)kV分線線損分析工作為配電線路同期線損異常治理的重要內容[1]。PMS2.0 系統(tǒng)中的拓撲關系是線損率的計算基礎,也關系到現場電力線損治理作業(yè)人員的安全。在實際配電網拓撲異常的治理過程中,線損治理人員需要查詢電網GIS(地理信息系統(tǒng))、PMS2.0 系統(tǒng)、用電采集系統(tǒng)、營銷業(yè)務系統(tǒng)等系統(tǒng),提取圖形信息、檔案信息、電量負荷等多源數據,對不合理線損率進行判斷。線路拓撲異常點分析對線損管理人員業(yè)務和數據分析處理能力要求極高,同時存在基礎數據量大、拓撲異常診斷分析復雜和排查難度較高等問題,目前缺少量化分析和綜合分析的手段[2]。
目前有關電網拓撲異常的國內研究較少,從管理和理論角度說明配電網拓撲異常對線損率影響的分析流程和處理策略,沒有依靠數據搭建基于大數據的數據挖掘和機器學習模型并提出有效的解決方法[3]。
為此,本文從實際應用場景出發(fā),首先分析了浙江省嘉興海鹽地區(qū)的中壓線損異常原因,針對配電網線路拓撲異常造成臺區(qū)線損異常的情況進行分析,通過大數據挖掘技術,協(xié)同營配專業(yè)合理分工,充分挖掘每條10(20)kV 配電線路拓撲異常的數據價值。以機器學習算法為基礎,規(guī)則引擎為補充,構建了線變關系、雙電源和線路轉供3 個子分析模型,并使用浙江某市的現場數據進行模型驗證。結果表明本模型可以有效的識別定位配電網拓撲異常,減少配電網中高損、負損線路,大大縮短了人工排查時間和精力,大幅提升線損異常排查效率,夯實基礎數據質量管理,成為泛在電力物聯(lián)網的建設應用典型。
經過調研,2018 年海鹽公司共有公用配電網線路220 條,全年累計發(fā)生線路“負損、高損”495 起,其中409 起為線路拓撲異常引起,占比高達82.63%,強化線損拓撲異常治理迫在眉睫。
傳統(tǒng)治理模式以人工排查為主,手段有限,數據量大,異常排查無目的性,診斷工作復雜,治理效果差[4-5]。結合大數據挖掘我們發(fā)現:線變關系異常、雙電源問題、轉供是3 種常見配電網拓撲異常。
線路-變壓器問題是線路在建檔和運維過程中,檔案記錄未及時更新等原因,導致10 kV 線路與變壓器對應關系混亂,存在異常(簡稱線變關系異常)。
雙電源問題是指一個高壓用戶存在兩個或多個計量點,每個計量點分別對應著一條線路[6]。由于現場實際操作和系統(tǒng)檔案錄入等方面出入,導致線路與計量點關系錯誤。
轉供則是一種倒閘操作,需要線路停電對設備進行檢修時,為了保證供電可靠性,電力人員會切換配電變壓器或專變用戶的供電線路,稱為倒閘。轉供倒閘操作通常是臨時性操作,會導致檔案數據變化,從而影響線損計算或配電線路相關的分析[7-8]。因此,需要從運行數據的變化特征上進行分析,識別轉供的情況。
在本文統(tǒng)稱為配電網拓撲異常,如圖1 所示。實際場景中原屬于線路A 的變壓器A3,A4轉移到線路B,而系統(tǒng)計算線損時,按照原先檔案拓撲計算,則線路A 會發(fā)生大損,線路B 會發(fā)生負損的情況。將直接導致供電企業(yè)對每條線路的成本核算錯誤,影響供電企業(yè)的正常經營和長期規(guī)劃[9]。線路停電時無法及時告知用電客戶,造成用電客戶的經濟損失。
圖1 配電網拓撲異常
上一章對海鹽地區(qū)中壓線損原因進行調研,根據調研結果,建立適用于海鹽地區(qū)的配電網臺區(qū)線損智能診斷模型,基于運行數據的配電線變關系分析,雙電源分析和線路轉供分析3 個模型如圖2 所示。
圖2 多維特征量融合配電網拓撲異常模型
本研究對浙江省某市2 527 條線路,35 841個公變和25 574 個專變用戶進行建模,結合電力營銷系統(tǒng),用電信息采集系統(tǒng)和調度OPEN3000等系統(tǒng),獲取運行數據如:負荷、電量、電壓、線路日電量和線損率等,根據設備采集狀態(tài)對數據異常值和缺失值過濾篩選處理,剔除電壓數據中非整時刻(15,30,45)的數據,確保采集電量數據、負荷數據的準確性,匯總、關聯(lián)有效的信息進行數據挖掘。
本文在長期穩(wěn)定運行的線路中,選擇10 546個公變臺區(qū)和高壓用戶作為基礎樣本。根據2019年現場已核實發(fā)生過檔案異常的變壓器中,隨機選擇282 個公變或專變?yōu)楫惓颖?,其余未發(fā)生過檔案異常的變壓器為正常樣本。
2.1.1 樣本特征構造
基于供電企業(yè)現有采集數據進行樣本特征構造,從用電信息采集系統(tǒng)中獲取配電變壓器的負荷數據,如電壓、電流、功率等數據。對檔案異常的特征進行了電壓曲線對比分析如圖3 所示,橫坐標表示異常發(fā)生時間某天的96 個時刻點,縱坐標表示變壓器電壓、實際正常供電線路與錯誤供電線路電壓。分析發(fā)現變壓器與實際供電線路的電壓具有明顯的相似性,而錯誤供電線路則無相似性。
因此,本文基于電壓數據進行特征構造。使用皮爾遜相關系數探索線路與線路下所有變壓器的電壓相關性如式(1)所示[10]:
式中:Cp為電壓相關性特征;Cp,ij為線路下變壓器i 與變壓器j 之間的電壓相關性;Cp,il為變壓器i 與線路l 的電壓相關性。
考慮到每條線路的配變數量不一致,無法直接將電壓相關性矩陣代入模型,所以對計算得到的電壓相關性特征做列聚合,計算每一行統(tǒng)計學中的最大值、最小值、平均值、標準差等[11],得到關于電壓相關性的統(tǒng)計矩陣,如式(2)所示:
式 中:pi,mean,pi,std,pi,max,pi,min,pi,skew,pi,kurt分 別 為變壓器i 與同線路下所有變壓器及線路的皮爾遜相關系數平均值、標準差、最大值、最小值、偏度和峰度,用于描述變壓器i 與線路的電壓相關性分布特征。以pi,mean為例,其計算為:
同時加入變壓器自身的電壓數據統(tǒng)計值,如式(4)所示:
式中:ci,mean,ci,std,ci,max,ci,min,ci,skew,ci,kurt分別為在指定時間內變壓器i 對所屬線路l 電壓比值的平均值、標準差、最大值、最小值、偏度和峰度等。以ci,mean為例,其計算式為:
式中:Ui,k為變壓器k 在時刻的電壓值;Ul,k為線路l 在時刻k 的電壓值。
為了從全局觀測短期、中期的線路和變壓器的運行狀態(tài)。研究選取當前日期前1,3,7,15,30,60,90,120,150 天作為不同的觀測時間尺度特征。
在固定的觀測周期內,統(tǒng)計負荷特征可反映線路以及變壓運行狀態(tài),研究統(tǒng)計了不同線路在不同時間尺度下電壓相關性的統(tǒng)計學數據,如均值、最大值、最小值、方差、標準差、分位數等數據作為入模特征,得到樣本數據集X:
式中:p1,p3,p7分別為基于1 天、3 天、7 天的電壓數據構建的相關性特征;c1,c3,c7分別為基于1 天、3 天、7 天電壓數據構建的統(tǒng)計學特征。
2.1.2 模型構造
在Kaggler 比賽發(fā)布的《實踐中模型堆疊指南》中提出一種Stacking(堆疊)模型融合的思想[12],Stacking 算法是一種特殊的集成方法,通過結合不同個體學習器的預測結果產生元層學習器,對數據進行預測。當訓練數據量大時,可以有效的避免單模出現過擬合或者欠擬合而造成模型的預測準確率低的現象[13]。因此本文采用Stacking 思想對模型結果進行堆疊表決。
Stacking 模型投票表決法如圖4 所示,模型構造流程如圖5 所示。首先,分別采用邏輯回歸、樸素貝葉斯、支持向量機、決策樹、隨機森林、梯度提升決策樹、極端梯度提升和輕量梯度提升算法構建8 個一級子模型y1,mdl,j,各個一級子模型輸出樣本被判別為1的概率值p1,mdl,i,p1,mdl,i∈[0,1][14-17]。
隨后,通過不重復組合7 個一級子模型的輸出,作為二級子模型的輸入特征值,以此構建7個LR(邏輯回歸)二級子模型,并預測第j 個二級子模型的輸出y2,mdl,j,其中j=1,2,…,7。
進而統(tǒng)計7 個二級子模型中輸出為0 和1 的數目count0和count1,計算公式為:
圖5 模型構造流程
最后,通過投票法決定該樣本的輸出(0/1),即是否發(fā)生線變,投票機制為:
式中:count0和count1分別是7 個二級子模型預測出來0 和1 的數目統(tǒng)計;yfinal為樣本的二分類類別。
根據雙電源的特點,對雙電源用戶進行定義,即1 名用戶對應2 塊電表,且這2 塊電表分別由不同線路供電。
對浙江某供電企業(yè)的所有專變用戶進行分析,得到雙電源用戶174 名。獲取雙電源變壓器供電的線路以及同線路的所有變壓器電壓數據,對異常和缺失數據進行刪除,保留近1 個月數據完整度超過70%的配電變壓器[18-20],計算待檢測的雙電源線路中變壓器與同側、對側兩條線路的電壓相關性和差值。
2.2.1 變壓器電壓相關性計算
由于雙電源用戶的戶號都存在兩塊不同的電表,且2 個電表分屬2 條線路。分別計算每個電表與同用戶下所有線路電表的電壓相關性。定義本側線路為檔案所屬線路,對側線路為同用戶下另一個表計的檔案所屬線路。
統(tǒng)計6 月份15 天每個電表與本側、對側線路的電壓相關性,得到本側線路15 天相關性箱型圖如圖6 所示,對側線路15 天相關性箱型圖如圖7 所示。從圖中我們發(fā)現,每日電壓相關性均在0.75~1.0 之間,大多數相關性在0.9 左右,并保持穩(wěn)定。
圖6 本側線路15 天相關性箱型圖
圖7 對側線路15 天相關性箱型圖
計算每個電表15 天內的本側和對側線路相關性的平均值,得到分布統(tǒng)計特征如圖8 和9 所示。圖8 本側線路15 天相關性平均值分布圖中相關性平均值更聚集在0.9~1.0 之間,計數均在100 以上,平均值0.8 以下分散計數,均不足30。圖9 對側線路15 天相關性平均值分布圖中事件也聚集在0.9~1.0 之間,但計數在75 以上,0.8以下分布較多且不等計數25 左右。由此可見,本側線路相關性平均值比對側線路相關性更聚集,發(fā)生計數更頻繁,分布在0.95 左右,所以可以根據電壓相關性來構造特征。
圖8 本側線路15 天相關性平均值分布圖
圖9 對側線路15 天相關性平均值分布圖
2.2.2 特征構造
設專變用戶ID 為u,兩組變壓器分別接終端m,線路為l。電壓相關系數為Pml,u。例如:專變用戶1,有兩個終端,終端1(meterno1)與本側線路1(lineid1)電壓相關系數為P11,1,與對側線路2(lineid2)電壓相關系數為P12,1;終端2(meterno2)與本側線路2(lineid2)相關系數為P21,1,與 對側線路2(lineid2)相關系數為P22,1。
終端1 的特征Pm1,1=P12,1-P11,1,終端2 的特征Pm2,1=P21,1-P22,1,兩個特征共同構成用戶u 的特征Pu1=[Pm1,1,Pm2,1]。
對每個用戶,以終端1 的相關性差值為X 坐標,終端2 的相關性差值為Y 坐標,以Pm1為X軸,Pm2為Y 軸繪制得到熱力圖如圖10 所示。得到最多的特征值分布在0~0.1 之間??梢杂^察到大多數雙電源用戶分布在原點和第三象限附近,第一、二、四象限分布較少。
2.2.3 雙電源異常指標構建
圖10 用戶與終端的相關性差值熱力圖
雙電源用戶只存在變壓器與線路所屬關系不一致的情況,不存在兩個變壓器終端接在同一個線路上的情況[21]。比如,用戶1 的特征為Pu1=[Pm1,1,Pm2,1]。根據業(yè)務經驗和樣本統(tǒng)計分析,若Pm1,1大于0,說明對終端1 與線路2 的相關性大于線路1,即終端1 屬于線路2 的概率較大。因此,研究定義雙電源發(fā)生的概率為異常嫌疑度Psp1,雙電源異常發(fā)生的概率(嫌疑度)計算結合以上樣本特征分析得到以下4 種判斷情況。
(1)Pm1,1和Pm2,1均大于0,其發(fā)生雙電源異常的概率較大,公式為:
(2)Pm1,1和Pm2,1均小于0,確定為正常用戶,雙電源發(fā)生概率(嫌疑度)為0。
(3)當Pm1,1>0 且Pm2,1<0 時,若說明用戶正常,雙電源發(fā)生概率(嫌疑度)為0;若確定為雙電源發(fā)生概率(嫌疑度)較大的用戶,計算公式為:
(4)當Pm1,1<0 且Pm2,1>0 時,與情況(3)類似。
經過以上計算,雙電源異常發(fā)生的概率(嫌疑度)分布如圖11 所示。圖中大部分用戶嫌疑度集中在0.1 以下。所以,雙電源分析引擎設定嫌疑度大于0.1 的用戶即為雙電源異常懷疑對象。
變壓器A 在線路A 下,變壓器B 屬于線路B,在實際電網運維檢修過程中,線路AB 之間增加導線和斷路器,當斷路器發(fā)生動作時,變壓器A3 和A4 從線路A 供電轉換到線路B 供電,由于檔案所屬線路A,會導致線路A 發(fā)生負損,線路B 發(fā)生大損[22-24]。結合轉供特征大數據分析,發(fā)現轉供線路的有功功率具有突變性,計算線路功率當前時刻與下一時刻的差值,正常供電時差值小且穩(wěn)定,一旦發(fā)生轉供,差值波動大。
圖11 嫌疑度分布和異常用戶分布圖
2.3.1 特征計算
根據轉供記錄獲取對應線路和電壓器的當天和前后1 天(總計3 天)的數據,得到變壓器與線路的時序數據,計算每個時刻線路功率和和上一個時刻的功率差值,計為功率差ΔA:
獲取ΔA 的時間序列數據,計算均值、標準差按照6sigma 管理策略,定義功率差的均值±3sigma為合理區(qū)間。
2.3.2 異常識別
因為每個時刻發(fā)生轉供的事件與其他時間的事件無關,所以每個時刻發(fā)生轉供的概率符合正態(tài)分布。本文針對每條線路的每個時刻,觀察當前時刻及后續(xù)5 個時刻的差值。利用正態(tài)分布計算這6 個時刻值是異常點的概率,計算公式為:
同時,每個時刻發(fā)生轉供事件為隨機事件,任何時刻都為隨機變量,服從同一分布,并且互相獨立。所以每個時刻發(fā)生轉供事件獨立同分布計算,得出時刻ti是異常的整體概率pti,公式為:
當pti大于基于經驗判斷的閾值0.01,則判定為時刻ti線路發(fā)生了轉供。將轉供線路電量差值時間序列數據可視化如圖12 所示。可發(fā)現發(fā)生轉供的線路電量明顯突變,模型可以準確的感知到線路發(fā)生轉供。
轉供操作是電網運行的常規(guī)操作方式,因此需要每日監(jiān)控線損情況,分析線損異常線路。通過本模型的分析,能夠及時發(fā)現轉供線路,計算真實的線損數據。
圖12 發(fā)生轉供線路的電量波形
本研究數據采自“浙電云”大數據平臺,穿透多系統(tǒng)進行數據整合,數據來源廣、容量大[25]。采用8 種子模型優(yōu)劣對比,形成最優(yōu)Stacking 頂層模型,輸出結果更具有科學性,三大算法模型相輔相成,對全量數據進行分析,精準推送異常配變,結合歷史數據和樣本數據,融合分為訓練集和測試集不斷訓練得出優(yōu)化模型。
為確保評估準確,采用選擇AUC 作為評估指標。計算分類準確程度,ACC=模型正確預測樣本數/總樣本數,得到各模型在測試集上的使用效果如表1 所示。
表1 各模型測試效果
對應的ROC_AUC 曲線如圖13 所示。
圖13 ROC_AUC 曲線
根據樣本標簽統(tǒng)計出正、負樣本的數量,假設正樣本數量為P,負樣本數量為N;接下來,把橫軸的刻度間隔設置為1/N,縱軸的刻度間隔設置為1/P;再根據模型輸出的預測概率對樣本進行排序(從高到低);依次遍歷樣本,同時從零點開始繪制ROC 曲線,每遇到一個正樣本就沿縱軸方向繪制一個刻度間隔的曲線,每遇到一個負樣本就沿橫軸方向繪制一個刻度間隔的曲線,直到遍歷完所有樣本,曲線最終停在(1,1)點,整個ROC 曲線繪制完成。這樣每一組圖像在圖中都會有一個坐標,可以連成一條折線。一般的,希望分類器得到的分類結果是完全正確的,也就是正例樣本全部都能夠被檢測出來,并且不會混入反例樣本,這個時候TPR→1 且FPR→0,反應在圖像上好的分類器的折線應更加接近左上角,當樣本足夠多時,折線就近似為圓滑的曲線。所以,從圖13 和 表1 中可以發(fā)現,前4 個算法Naive Bayes,LogisticRegression SVM,DecisioTree的AUC 曲線(實線)未貼近左上角1.0,因此準確率較低,但是泛化能力比后幾個模型高,可以充分證明經過Stacking 后可以結合各個模型的優(yōu)點,削弱缺點的影響。
最終模型輸出得到混淆矩陣,67 個異常用戶中,可以準確定位64 個用戶,異常識別命中率達96%。本線變關系模型能夠有效識別線變關系異常的中壓線路,輔助進行線損異常排查,保證線損指標的真實可靠,有助于提高線變關系準確性。
研究對浙江某供電企業(yè)的1 027 名專變用戶進行分析,將雙電源異常發(fā)生的概率(嫌疑度)大于0.1 的用戶進行標注,并繪制電壓相關性差值結果散點如圖14 所示。
圖14 用戶與終端的電壓相關性差值散點圖
圖14 中,橫、縱坐標分別標識用戶與終端1和2 相關性數值。從圖中可以看出用戶與終端電壓相關性差值在第二象限,標識點的用戶即為雙電源異常用戶,共識別出22 個異常用戶。經過與現場電力人員核實,準確識別雙電源異常用戶20 戶。證明本分析引擎可以有助于梳理雙電源用戶真實的線變關系,提高專變用戶的供電可靠性。
由于當前國內外研究工作主要是針對低壓用戶所屬臺區(qū)的校驗和饋線拓撲結構關系的校驗,并未涉及臺區(qū)配變所屬10 kV 中壓線路的校驗(即線變關系校驗),也無利用大數據機器學習的方法進行配電網拓撲識別。所以本文與傳統(tǒng)人工10 kV 配電網拓撲識別方法對比如表2 所示。本研究3 種方法可以有效的提高配電網拓撲異常識別準確率,其中線變異常識別準確率為96%,雙電源為85%,轉供為60%,傳統(tǒng)人工排查拓撲治理準確率為20%。配電網線路拓撲異常排查時間下降,治理效率提高由傳統(tǒng)2 個/天/人,最高可提高到5 個/天/人。識別時間從傳統(tǒng)人工現場排查2 h,縮短到系統(tǒng)算法判別40 min 以內。
表2 配電網拓撲識別方法對比
綜上,運用本研究3 種方法配電網拓撲識別模型,可有效指導營配協(xié)同治理,協(xié)同現場開展現場集中核查、數據整治工作,現場核查準確率高達91.3%,同期線損高損、負損線路數下降82.6%。某市公司10(20)kV 分線達標率情況2018年為79.04%,2019 年提升至98.14%。
另外,可減少高壓用戶信息報送錯誤,減少高壓用戶投訴風險,提升用戶滿意度。通過模型,尋找線損最小下線路聯(lián)絡開關最優(yōu)位置,提升電網運行效益。強化現場驗證與模型識別相結合,提升治理效率,循環(huán)迭代最優(yōu)模型[26],推廣應用將推進配電網線損精益化管控。
配電網拓撲異常模型的研究,可以幫助現場人員快速定位10 kV 線路線損拓撲異常,找出線變關系異常,輔助電網人員制定合理的配電網拓撲方案。從而提高現場排查工作效率,提升線損治理水平,將帶來大量的經濟效益、社會效益和管理效益,模型應用前景廣泛,可以推廣復制至各個地區(qū)。下一步,將在現有模型的基礎上,使用更多地域的電網運營數據,對現有模型進行改進,提出適用范圍更廣的配電網拓撲診斷模型。