方 超, 仲春林, 季 聰
(江蘇方天電力技術有限公司,江蘇 南京 211102)
隨著我國電力市場化改革的不斷深入,供電企業(yè)作為市場經(jīng)濟中的主體,秉承自主經(jīng)營、自負盈虧和追求效益最大化的市場原則。因此,電網(wǎng)企業(yè)必須在充分考慮社會效益的同時,追求投資經(jīng)濟效益的最大化[1]。電網(wǎng)項目的投資效益分析是電網(wǎng)建設項目決策科學化、減少和避免決策失誤以及提高項目建設經(jīng)濟效益的重要手段[2]。配電網(wǎng)作為智能電網(wǎng)的重要組成部分,其安全、可靠、經(jīng)濟運行對于保障主電網(wǎng)的平穩(wěn)運行和為電力用戶提供優(yōu)質(zhì)的電力產(chǎn)品具有重要意義[3-5]。其中,依據(jù)負荷特性對配電網(wǎng)中的公變進行有效的用途劃分,進而分析公變用電量需求及用電趨勢是一種評價配電網(wǎng)投資效益的有效方式。
目前負荷特性分析的方法眾多,文獻[6—8]提出由于數(shù)據(jù)匱乏,配電網(wǎng)的負荷研究需要采用對典型用戶進行采樣測量的方式進行,從概率分布函數(shù)、置信度、均值和方差等多種角度對測量數(shù)據(jù)進行統(tǒng)計分析,得到典型負荷模式。此種分析方法比較合理且全面,但需要以大量的人力物力為代價,在我國運用這種方法不太實際。文獻[9]提出了有序用電用戶可中斷負荷分析方法,通過對用戶的歷史負荷進行聚類,得到用戶典型日負荷曲線,在此基礎上制定用戶有序用電策略。文獻[10]通過問卷調(diào)查和相關文獻分析居民用電負荷特性,總結居民峰谷電價用電特性及影響因素。文獻[11]運用模糊均值聚類(fuzzy C-means, FCM)方法對工業(yè)用戶進行分類并對負荷特性進行分析。文獻[12]采用先確定聚類數(shù)目和聚類中心后的改進型FCM聚類方法對典型用戶日負荷進行分類和分析。文獻[13—16]以某一地區(qū)作為研究對象分析了負荷特性。行業(yè)的歸類劃分可以從負荷特性分析的角度進行,但是公變的負荷特性分析則需要采用聚類分析方法?;贑anopy的改進K-means聚類算法[17-19]是一個被廣泛使用的聚類算法,可以用于公變的負荷特性分析。
本文從負荷特性分析的角度對公變用途進行劃分,首先對多種負荷數(shù)據(jù)進行清洗,將可能影響行業(yè)劃分的各種異常數(shù)據(jù)做相應的處理。在高質(zhì)量數(shù)據(jù)的基礎上再進行各行業(yè)負荷的歸類,歸類出行業(yè)負荷特性曲線。然后,對需要劃分用途的公變負荷數(shù)據(jù)利用基于Canopy的改進K-means聚類算法進行聚類分析,得到公變負荷特性曲線。最后,利用余弦相似性算法計算不同維度公變與各行業(yè)的相似度,最終擬合出相似度最高的行業(yè)即為該公變的所屬行業(yè),完成公變的用途劃分?;诠兊挠猛緞澐纸Y果,相關部門可以依據(jù)相關特點分析配電網(wǎng)的投資經(jīng)濟效益,總體框架流程如圖1所示。
圖1 總體框架流程Fig.1 Overall framework flow chart
高質(zhì)量的配電網(wǎng)負荷數(shù)據(jù)是實現(xiàn)公變用途劃分的重要保障,也是電力部門分析配電網(wǎng)投資效益的主要事實依據(jù)。數(shù)據(jù)庫的不良數(shù)據(jù)可能會對系統(tǒng)的安全運行造成重大影響,因此在公變用途劃分前對配電網(wǎng)負荷數(shù)據(jù)進行清洗是十分必要的。
負荷數(shù)據(jù)一般為高精度數(shù)且數(shù)值敏感性強,加之公變用途分析方法較為復雜,即使對少量數(shù)據(jù)處理也需要較高的存儲和計算成本。整個江蘇省有四十幾萬公變設備,每天會產(chǎn)生大量的負荷數(shù)據(jù),面對如此龐大的數(shù)據(jù),數(shù)據(jù)清洗的開銷可想而知。因此,數(shù)據(jù)清洗對公變用途劃分是十分重要的。
負荷數(shù)據(jù)在采集過程中存在如下的現(xiàn)實問題:
(1) 一天內(nèi)采集的數(shù)據(jù)點個數(shù)不同,根據(jù)設備類型分為24點(每1 h采一個數(shù)據(jù)),48點(每0.5 h采一個數(shù)據(jù))和96點(每15 min采一個數(shù)據(jù))。
(2) 部分數(shù)據(jù)由于各種原因沒有及時獲取,導致數(shù)據(jù)點的缺失。
(3) 部分數(shù)據(jù)出現(xiàn)明顯的偏差,導致異常數(shù)據(jù)入庫。
針對以上問題,需要對負荷數(shù)據(jù)進行清洗操作,具體的清洗方法如下。
針對24點,48點原始數(shù)據(jù)作規(guī)范化處理,統(tǒng)一換算到96點負荷。
24點負荷數(shù)據(jù)處理方法如下:由于數(shù)據(jù)處理過程中需要用到次日0點的數(shù)據(jù),但采集系統(tǒng)還沒有采集到次日數(shù)據(jù),因此將當日0點數(shù)據(jù)復制到24點負荷數(shù)據(jù)序列的末尾,形成一個25點數(shù)據(jù)序列。假定25點數(shù)據(jù)序列為{A1,A5,…,A93,A97},中間空缺的數(shù)據(jù)序列即需要補全的數(shù)據(jù),計算公式如下:
(1)
48點負荷數(shù)據(jù)處理方法如下:在48點負荷數(shù)據(jù)序列后添加當日0點負荷數(shù)據(jù),形成49點數(shù)據(jù)序列{A1,A3,…,A95,A97},中間空缺的數(shù)據(jù)序列即需要補全的數(shù)據(jù),計算公式如下:
(2)
針對缺失的負荷數(shù)據(jù),例如當負荷Ai,Aj(其中i>j)已成功采集入庫,而Ai,Aj之間j-i-1個點沒有成功采集,這時需要將缺失的數(shù)據(jù)補全。補全方法采用構建Ai,Aj兩點確定的線性方程,補算中間缺失的負荷值:
(3)
針對超大或超小數(shù)據(jù)處理,先確定比例閥值N,在一連續(xù)的負荷數(shù)據(jù)序列An={A1,A2, … ,An}中,數(shù)據(jù)是否異常的判定方法如下:
(4)
超大數(shù)據(jù)和超小數(shù)據(jù)的修正公式如下:
(5)
根據(jù)用戶容量參數(shù),校驗用戶負荷數(shù)據(jù),排查不符合容量的異常數(shù)據(jù),同時應用超大或超小校驗,排查并換算此類異常數(shù)據(jù),最終得到經(jīng)清洗后的用戶96點的日負荷數(shù)據(jù)。
目前國內(nèi)外對負荷特性的分析大多采用典型日負荷特性分析方法,即先確定行業(yè)的典型日或者典型時間段,然后根據(jù)選定的典型日或典型時間段采用相應的聚類方法獲得行業(yè)的負荷特性分析結果。采用這種方法分析負荷特性存在一定問題,例如典型日選取一旦出現(xiàn)偏差會對行業(yè)負荷特性分析結果產(chǎn)生較大影響。本文對于行業(yè)負荷特性的分析采用對大量行業(yè)負荷數(shù)據(jù)直接歸類的方法。在大數(shù)據(jù)技術的支持下,直接產(chǎn)生行業(yè)負荷特性分析結果,使大數(shù)據(jù)量的同行業(yè)負荷數(shù)據(jù)的累計效應得以展現(xiàn)。
首先劃分四季時間段,3、4、5月為春季,6、7、8為夏季,9、10、11月為秋季,12、1、2月為冬季。根據(jù)大數(shù)據(jù)量負荷曲線展現(xiàn)出的負荷特性,剔除離散程度較大的曲線或者負荷點,將特性一致的負荷曲線進行歸類統(tǒng)一,形成汽車、摩托車、燃料及零配件專門零售業(yè)四季負荷特性曲線,如圖2所示。
圖2 汽車、摩托車、燃料及零配件專門零售業(yè)四季負荷特性Fig.2 Four seasons load characteristics of automobile, motorcycle, fuel and spare parts specialized retail industry
按照同樣的方法,可以得到紡織、服裝及日用品批發(fā)業(yè)四季負荷特性曲線,如圖3所示。
圖3 紡織、服裝及日用品批發(fā)業(yè)四季負荷特性Fig.3 Four seasons load characteristics of textile, clothing and daily necessities wholesale industry
從兩個行業(yè)的四季負荷特性曲線可以發(fā)現(xiàn)汽車、摩托車、燃料及零配件專門零售業(yè)冬、夏負荷高,紡織、服裝及日用品批發(fā)業(yè)夏季負荷高,體現(xiàn)了不同行業(yè)在不同季節(jié)的需求量的差異。
為了突出負荷特性曲線的行業(yè)特點,減少因數(shù)據(jù)絕對值差異導致的行業(yè)負荷特點分散的現(xiàn)象,需要將行業(yè)負荷特性數(shù)據(jù)做歸一化處理,便于后續(xù)的行業(yè)匹配。
通過大數(shù)據(jù)匯集產(chǎn)生的行業(yè)本身的負荷特性展現(xiàn)方法可以很好地歸類出行業(yè)間的負荷特性區(qū)別,此方法不僅可以歸類出行業(yè)四季負荷特性,也可以獲取行業(yè)節(jié)假日負荷特性等信息,為后續(xù)公變的負荷特性匹配提供多維度的參考角度。
公變負荷特性分析是根據(jù)公變的歷史負荷數(shù)據(jù),采用聚類算法進行多次迭代聚類,聚合出公變的四季、節(jié)假日等負荷特性分析結果,用于對公變的用途進行劃分。
為了提高普通K-means聚類算法的運算效率,對于公變的負荷特性聚類采用基于Canopy的改進K-means聚類算法。分兩個階段執(zhí)行:第一階段把處理后的每一個數(shù)據(jù)看做一個中心點,按Canopy算法產(chǎn)生一些可覆蓋的劃分,初始劃分以隨機選的第一個數(shù)據(jù)作為本集合標識。對于后續(xù)每個數(shù)據(jù)都須判斷它是否落入先前產(chǎn)生的集合中,如果沒有落入集合中則產(chǎn)生一個新的集合,并以此數(shù)據(jù)為集合標識。然后對每個集合內(nèi)的點采用不同的距離度量方法,形成重疊的集合。第二階段用根據(jù)Canopy算法計算產(chǎn)生的眾多集合代替K-means算法初始隨機選擇的K個聚類中心點,由于已經(jīng)對數(shù)據(jù)進行可覆蓋的劃分,在計算數(shù)據(jù)間距離時不必計算所有的距離,只需要計算本集合內(nèi)的數(shù)據(jù)距離即可,然后對子集內(nèi)的點進行迭代聚類,可以得到公變的負荷特性聚類分析結果。這種改進的聚類方法進一步提高了聚類算法的計算效率,減少了傳統(tǒng)聚類算法中對所有數(shù)據(jù)點進行精確計算的計算量,另外允許有重疊的子集合也起到了增加容錯性和消除孤立點作用。
通過前面介紹的公變負荷特性分析方法對公變的四季、節(jié)假日等不同維度負荷特性進行聚類分析,得到公變各維度的聚類結果。在負荷特性曲線上取合適的比較點(一般為96點),根據(jù)余弦相似度算法計算各維度中行業(yè)負荷特性與公變負荷聚類結果的相似度,得到公變四季和節(jié)假日的最相似行業(yè),由于不同維度計算出的相似行業(yè)不盡相同,需要通過各維度分析結果擬合出最相似的行業(yè),擬合過程如下。
四季負荷分析:計算春、夏、秋、冬四季的公變負荷與各行業(yè)負荷相似度,為了擴大分析范圍,提高行業(yè)劃分準確度,取每個季節(jié)中相似度最高的3個行業(yè),分行業(yè)計算所有季節(jié)的相似度之和。
節(jié)假日負荷分析:與四季負荷類似,計算清明節(jié)、勞動節(jié)、端午節(jié)和國慶節(jié)的公變負荷與各行業(yè)負荷的相似度,取每個節(jié)假日中相似度最高的3個行業(yè)。分行業(yè)計算所有節(jié)假日的相似度之和。
最相似行業(yè)擬合:取四季和節(jié)假日維度中相似度之和最高的兩個行業(yè)進行比較,記相似度之和較高的行業(yè)為公變的所屬行業(yè)。根據(jù)負荷歷史數(shù)據(jù)比較發(fā)現(xiàn),四季的行業(yè)特性優(yōu)于節(jié)假日的行業(yè)特性,因此,如果兩者的相似度之和相等,則取四季負荷中相似度之和最高的行業(yè)為公變所屬行業(yè),完成公變用途劃分。
以江蘇省為例,從四季負荷特性中的春季負荷角度出發(fā)對公變用途劃分進行說明,利用全省春季行業(yè)數(shù)據(jù)歸類提取行業(yè)負荷特性曲線,為了便于比較,對數(shù)據(jù)進行歸一化處理,得到全省各行業(yè)春季負荷特性曲線,其中部分行業(yè)春季負荷特性曲線如圖4所示。
圖4 部分行業(yè)春季負荷曲線Fig.4 Part of the industry spring load curve
對全省四十幾萬公變的歷史春季負荷數(shù)據(jù)利用基于Canopy的改進K-means聚類算法進行迭代聚類,得到12類公變春季負荷聚類數(shù)據(jù)。再進行歸一化處理,得到公變春季負荷聚類曲線,如圖5所示。
圖5 公變春季負荷聚類曲線Fig.5 Spring load clustering curve of public transformers
利用余弦相似度算法,將公變春季負荷各聚類結果與行業(yè)春季負荷特性進行匹配。例如,有公變設備A存在于聚類8集合中,而與聚類8最相似的前3個行業(yè)分別是房地產(chǎn)業(yè)、水的生產(chǎn)和供應業(yè)以及農(nóng)業(yè),相似度分別為98.21%,91.23%和85.34%。圖6為與聚類8最相似的前3個行業(yè)春季負荷特性匹配圖。
圖6 聚類8春季行業(yè)負荷匹配Fig.6 Clustering 8 spring industry load matching chart
由春季負荷分析可知,公變A最有可能屬于房地產(chǎn)業(yè)。繼續(xù)按照同樣方法計算公變A所處聚類結果集夏、秋、冬三季以及各節(jié)假日負荷與各行業(yè)的相似度,每個維度中取相似度最高的3個行業(yè)納入比較范圍。分行業(yè)計算四季和節(jié)假日中相似度之和,取四季維度內(nèi)相似度之和最高的行業(yè)與節(jié)假日維度內(nèi)相似度之和最高的行業(yè)比較。相似度之和較高的行業(yè)即為公變A的所屬行業(yè);如果相似度之和相等,則取四季負荷中相似度之和最高的行業(yè)為公變A的所屬行業(yè),完成公變用途劃分。
對江蘇省公變設備采用該方法進行公變用途劃分并對劃分結果進行統(tǒng)計分析,將分析結果與公變檔案信息進行對比分析后發(fā)現(xiàn)用途劃分平均準確率達到91%,其中,工業(yè)的用途劃分準確率最高,達到95%。
本文以一個新的角度分析配電網(wǎng)投資效益,即根據(jù)公變的行業(yè)特性劃分用途,進而根據(jù)公變所屬行業(yè)分析配電網(wǎng)投資的經(jīng)濟效益。公變用途劃分過程中先對初始數(shù)據(jù)進行數(shù)據(jù)清洗,保證數(shù)據(jù)質(zhì)量。再根據(jù)大數(shù)據(jù)匯集方法分析行業(yè)的負荷特性,從四季和節(jié)假日的角度對公變負荷特性采用基于Canopy的改進K-means聚類算法進行負荷特性分析,利用余弦相似性算法計算行業(yè)相似度,最后根據(jù)相似度比較分析出公變的所屬行業(yè),完成公變用途劃分。實踐證明,采用該方法對公變進行用途劃分是行之有效的。