鄒云峰,梅 飛,李 悅,程 云,涂 旺,梅 軍
(1.江蘇省電力公司 電力科學(xué)研究院,南京 210000;2.河海大學(xué) 能源與電氣學(xué)院,南京 211100;3.東南大學(xué) 電氣工程學(xué)院,南京 210096)
線損率作為一種綜合反映電力系統(tǒng)中規(guī)劃設(shè)計(jì)、生產(chǎn)運(yùn)行、經(jīng)營管理水平的經(jīng)濟(jì)技術(shù)指標(biāo),是電力部門日常管理工作中所關(guān)注的重要內(nèi)容。降低線損率能夠帶來非常可觀的經(jīng)濟(jì)與社會(huì)效益。我國對(duì)低壓客戶全面實(shí)行分臺(tái)區(qū)管理,臺(tái)區(qū)線損直接反映了一個(gè)地區(qū)的電網(wǎng)營銷管理水平。臺(tái)區(qū)線損管理通過比較理論線損與實(shí)際線損的差值,對(duì)不合理線損進(jìn)行分析和預(yù)測,提供較為科學(xué)有效的降損措施,有利于提升電力部門的管理水平與經(jīng)濟(jì)效益,促進(jìn)電網(wǎng)的建設(shè)與改造的科學(xué)性與合理性。
傳統(tǒng)的臺(tái)區(qū)線損管理中采取一刀切的方式,通過人工設(shè)定臺(tái)區(qū)合理線損率,缺乏科學(xué)依據(jù),也與精益化的管理目標(biāo)背道而馳。實(shí)現(xiàn)臺(tái)區(qū)合理線損的準(zhǔn)確快速預(yù)測成為亟待解決的重要問題。傳統(tǒng)對(duì)于理論線損的計(jì)算主要是包括基于潮流計(jì)算的方法[1—2],神經(jīng)網(wǎng)絡(luò)[3—4]、支持向量機(jī)[5]、核心向量機(jī)[6]等及其他改進(jìn)算法[7]。但是由于低壓臺(tái)區(qū)下分支線路復(fù)雜,元件多樣,設(shè)備臺(tái)賬數(shù)據(jù)不全,理論線損計(jì)將非常困難,實(shí)時(shí)性不高。同時(shí),臺(tái)區(qū)線損數(shù)據(jù)龐大,以江蘇省為例,全省臺(tái)區(qū)多達(dá)40余萬個(gè),傳統(tǒng)的理論臺(tái)區(qū)線損計(jì)算將難以在低壓臺(tái)區(qū)線損評(píng)估中進(jìn)行實(shí)際應(yīng)用。
隨著智能電能表的推廣應(yīng)用以及用電信息采集系統(tǒng)建設(shè)工作的快速推進(jìn),低壓臺(tái)區(qū)關(guān)口計(jì)量點(diǎn)和用戶計(jì)量點(diǎn)實(shí)現(xiàn)遠(yuǎn)程準(zhǔn)點(diǎn)抄表,極大提高了低壓臺(tái)區(qū)線損管理的實(shí)時(shí)性與準(zhǔn)確性。江蘇省電力公司從2013年開始基于用電信息采集數(shù)據(jù)進(jìn)行低壓臺(tái)區(qū)線損管理,幾年來,全省線損率在-1%至10%間的臺(tái)區(qū)比重從65%提高到2014年底的91%,降損增效顯著。隨著電力改革的深入,如何進(jìn)一步提高臺(tái)區(qū)線損管理精益化水平,給出每個(gè)臺(tái)區(qū)可參照的合理線損率范圍,實(shí)現(xiàn)線損在線監(jiān)控,指導(dǎo)并及時(shí)發(fā)現(xiàn)異常臺(tái)區(qū),分析原因,及時(shí)解決問題,成為電力營銷工作迫切需要解決的問題。
近年來,隨著用電信息采集系統(tǒng)的全面建設(shè)以及數(shù)據(jù)挖掘技術(shù)在電力系統(tǒng)中的廣泛應(yīng)用,利用數(shù)據(jù)挖掘技術(shù)深入發(fā)掘電力系統(tǒng)臺(tái)區(qū)線損實(shí)時(shí)采集數(shù)據(jù),找出其中蘊(yùn)含的潛在規(guī)律,并應(yīng)用于臺(tái)區(qū)線損預(yù)測成為可能。文獻(xiàn)[8]介紹了數(shù)據(jù)挖掘在線損計(jì)算中的實(shí)施;文獻(xiàn)[9]提出用電量預(yù)測的多元回歸模型并探討了模型中相關(guān)參數(shù)檢驗(yàn)。
本文的主要思想在于:特征相類似的臺(tái)區(qū)應(yīng)該具有較為近似的線損率,且通過線損治理大部分臺(tái)區(qū)線損處于合理范圍之內(nèi)。因此,本文基于數(shù)據(jù)挖掘技術(shù),首先通過聚類方法按照臺(tái)區(qū)特征對(duì)海量的臺(tái)區(qū)數(shù)據(jù)進(jìn)行分類;其次,對(duì)每一類典型臺(tái)區(qū)通過回歸方式建立數(shù)學(xué)模型;最后將所要預(yù)測的數(shù)據(jù)輸入模型,預(yù)測線損值。由于K均值(K-means)算法優(yōu)點(diǎn)是可以處理大數(shù)據(jù)集[10],具有很好的可伸縮性,很高的效率,簡單快速,以及易于工程實(shí)現(xiàn)等特點(diǎn),故本文采用了K-means聚類方法,嘗試對(duì)電力營銷與用電信息采集相關(guān)數(shù)據(jù)進(jìn)行多維聚類分析,建立預(yù)測模型,并用某個(gè)月份的全省40多萬個(gè)臺(tái)區(qū)的數(shù)據(jù)進(jìn)行了分析與驗(yàn)證,為在線線損評(píng)估系統(tǒng)的布置以及進(jìn)一步改進(jìn)算法提高預(yù)測精度提供標(biāo)準(zhǔn)和參考。
作為一種硬聚類算法,K-means主要思想是:首先確定樣本數(shù)據(jù)的聚類數(shù)K;接著任選K個(gè)數(shù)據(jù)作為初始聚類中心;然后每個(gè)數(shù)據(jù)按照歐氏距離大小置于與它最相似的類中;重新計(jì)算每個(gè)新類的平均值,并以此平均值作為新的聚類中心;反復(fù)迭代,直到滿足收斂條件,即目標(biāo)函數(shù)達(dá)到最小值。
歐氏距離定義為
式中:dij表示第i個(gè)樣品xik與第j個(gè)樣品xjk間的距離。dij越小,2個(gè)樣本越接近。
目標(biāo)函數(shù)通常采用平方誤差準(zhǔn)則
式中:E表示所有聚類對(duì)象的平方誤差;xq為聚類對(duì)象;mi是類Ci的各聚類對(duì)象的平均值,其計(jì)算公式為
式中:|Ci|表示類Ci的聚類對(duì)象的數(shù)目。
聚類結(jié)果對(duì)孤立點(diǎn)和噪聲點(diǎn)十分敏感,因此如果聚類結(jié)果中由某類數(shù)據(jù)相對(duì)于其它類數(shù)據(jù)可以忽略不計(jì),那么應(yīng)該剔除該類數(shù)據(jù),重新聚類。
根據(jù)特征類似的臺(tái)區(qū)擁有較為接近的線損率的原則,本文算法模型實(shí)際包含K-means聚類與線性回歸2個(gè)部分。通過K-means聚類按照與臺(tái)區(qū)線損率相關(guān)的基本特征屬性分為K類,然后將每一類數(shù)據(jù)分別建立各自的線性回歸模型,通過回歸模型代入對(duì)應(yīng)臺(tái)區(qū)特征數(shù)據(jù),得到預(yù)測的臺(tái)區(qū)線損率,定義為合理線損率。合理線損與實(shí)際線損之差即為預(yù)測誤差。算法的基本流程如圖1所示。
圖1 基于K均值聚類與線性回歸的算法流程
(1)K-means模型建立:將原始數(shù)據(jù)輸入到K-means聚類模型中,設(shè)定聚類數(shù)K為2—15。設(shè)定相應(yīng)的輸入輸出變量。
(2)最優(yōu)聚類結(jié)果的選擇:計(jì)算得到聚類數(shù)為2—15的各聚類結(jié)果,通過比較輪廓系數(shù)確定最優(yōu)聚類數(shù),得到最優(yōu)化的聚類結(jié)果。
(3)聚類結(jié)果的進(jìn)一步優(yōu)化:分析聚類結(jié)果,由于K-means聚類對(duì)噪聲點(diǎn)和孤立點(diǎn)敏感,可能出現(xiàn)聚類結(jié)果中有的類的數(shù)據(jù)相對(duì)其他類的數(shù)據(jù)特別少的情況,可以剔除此類數(shù)據(jù)以重新聚類,提高聚類質(zhì)量。
(4)回歸模型建立:將生成的K類數(shù)據(jù)按照類別分別輸入回歸模型,設(shè)定回歸的輸入輸出變量以及異常值容差,建立K個(gè)回歸模型。
(5)回歸方程生成及預(yù)測質(zhì)量分析:通過K個(gè)回歸模型得出K個(gè)回歸方程;觀察預(yù)測變量重要性,可將重要性很低的輸入過濾以進(jìn)行重新建模;分析生產(chǎn)模型的顯著性結(jié)果,即Sig.指標(biāo);通過回歸模型對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)測驗(yàn)證,檢驗(yàn)預(yù)測效果,并分析是否出現(xiàn)奇異點(diǎn)。
(6)測試數(shù)據(jù)代入相應(yīng)類的回歸公式中,得到預(yù)測結(jié)果,并分析評(píng)價(jià)線損預(yù)測結(jié)果。
本文將利用用戶采集系統(tǒng)的實(shí)際采集數(shù)據(jù),基于軟件平臺(tái),對(duì)上述算法在臺(tái)區(qū)合理線損預(yù)測中的應(yīng)用進(jìn)行驗(yàn)證。
以江蘇省部分農(nóng)網(wǎng)實(shí)際穩(wěn)定臺(tái)區(qū)數(shù)據(jù)為樣本數(shù)據(jù)(共130 109個(gè)),作為聚類模型的輸入。聚類樣本特征輸入量包括:總用戶數(shù)、居民戶數(shù)、非居民戶數(shù)、居民容量、非居民容量、變壓器容量、居民容量占比、居民戶均容量、供電量。選擇K-means聚類,初始聚類數(shù)設(shè)定為2—15。各聚類數(shù)對(duì)應(yīng)的輪廓系數(shù)如表1所示。
表1 K-means輪廓系數(shù)比較
通過對(duì)輪廓系數(shù)的分析對(duì)比,可知在聚類數(shù)為3時(shí),聚類質(zhì)量最好,其對(duì)應(yīng)的聚類結(jié)果分別如圖2所示。
由圖2可知,聚類數(shù)為3時(shí),3類數(shù)據(jù)的占比分別為43.7%、41.7%、14.6%。聚類后樣本數(shù)分別為56 875個(gè)、54 298個(gè)、18 936個(gè)。聚類后各變量均值如表2所示。
由表2可以看出,聚類-3居民容量占比為0.14,可以認(rèn)為此類為非居民用戶類。聚類-1和聚類-2居民容量占比分別為0.89和0.93,可以認(rèn)為這2類為居民用戶類,同時(shí)戶均容量分別為5.15 kVA和8.34 kVA,可認(rèn)為是2種不同規(guī)格臺(tái)區(qū)(對(duì)應(yīng)4 kVA與8 kVA)。可見,分類特征顯著,具有較為明顯的物理意義,K-means聚類結(jié)果較為合理。
圖2 聚類數(shù)為3時(shí)聚類模型概要及聚類大小
表2 最優(yōu)聚類各聚類中心
線性回歸建模的思路是根據(jù)聚類數(shù)據(jù)結(jié)果,將3類數(shù)據(jù)分別作為線性回歸模型的輸入,以線損率作為輸出,建立線性回歸模型,并對(duì)結(jié)果做相應(yīng)分析,并對(duì)出現(xiàn)的奇異點(diǎn)做具體分析。數(shù)據(jù)源是上述K-means聚類的3類數(shù)據(jù):聚類-1、聚類-2、聚類-3。建模特征參數(shù)包括:用戶總數(shù)、居民戶數(shù)、非居民戶數(shù)、居民戶容量、非居民容量、居民戶均容量、居民容量占比、變壓器容量、供電量。輸出參數(shù)為:線損率。異常值誤差設(shè)定為1.0×10-4。表3所示為3個(gè)線性回歸模型的相關(guān)系數(shù)。
3個(gè)模型的Sig.都小于0.000 5,非常顯著,因此生成的模型均具有明顯的統(tǒng)計(jì)學(xué)意義。圖3至圖5為預(yù)測線損率與實(shí)際線損率之間的預(yù)測誤差直方圖。
由圖3—圖5可知,實(shí)際線損和預(yù)測線損之差在0附近的占絕大多數(shù),數(shù)據(jù)主要集中在[-1.5,1.5],且不存在奇異點(diǎn),殘差符合正態(tài)分布,取得了良好的回歸預(yù)測效果。圖6—圖8所示為3個(gè)回歸模型的預(yù)測線損率與實(shí)際線損率散點(diǎn)圖。圖中實(shí)線A為預(yù)測線損和實(shí)際線損相等的點(diǎn)的集合,虛線B、C確定的區(qū)域?yàn)榫€損合格的區(qū)域(95%置信區(qū)間)。表4給出了3個(gè)模型95%置信區(qū)間的界限值。
表3 3類線性回歸模型系數(shù)
圖3 模型1實(shí)際—預(yù)測線損率分布直方圖
圖4 模型2實(shí)際—預(yù)測線損率分布直方圖
圖5 模型3實(shí)際—預(yù)測線損率分布直方圖
圖6 模型1實(shí)際—預(yù)測線損率散點(diǎn)圖
圖7 模型2實(shí)際—預(yù)測線損率散點(diǎn)圖
圖8 模型3實(shí)際—預(yù)測線損率散點(diǎn)圖
表4 95%置信區(qū)間對(duì)應(yīng)的殘差
為驗(yàn)證圖1中所述算法的有效性,本文利用線性回歸模型對(duì)高淳、金壇兩地的采樣數(shù)據(jù)分別進(jìn)行了回歸預(yù)測,采用歐氏距離來判別測試樣本的類別屬性,即計(jì)算測試樣本與3個(gè)聚類中心的距離,取最短距離的類別作為測試樣本的類別屬性,也就是說,采用該類別的回歸方程。表5表示為3類測試樣本線損率預(yù)測絕對(duì)誤差在2.5%以上的臺(tái)區(qū)數(shù)目。
表5 測試樣本預(yù)測誤差
本文認(rèn)為預(yù)測偏差較大意味著臺(tái)區(qū)線損不合理,同時(shí)也對(duì)預(yù)測誤差較大的樣本進(jìn)行了進(jìn)一步的分析比較。以模型1中的數(shù)據(jù)為例,經(jīng)查預(yù)測誤差超出范圍的樣本數(shù)為680個(gè),其中實(shí)際測量線損值超過10%的臺(tái)區(qū)143個(gè),小于-1%的臺(tái)區(qū)76個(gè),這部分臺(tái)區(qū)屬于需要進(jìn)行整改的臺(tái)區(qū);實(shí)際測量線損值在5%~10%區(qū)間內(nèi)的臺(tái)區(qū)共229個(gè),這些臺(tái)區(qū)需要進(jìn)一步深入考察,確定是否具有提升的空間;剩余樣本231個(gè),這部分樣本屬于實(shí)測線損合格,但預(yù)測值與實(shí)際值存在差異,需要重點(diǎn)加強(qiáng)監(jiān)測,確認(rèn)誤差來源于表計(jì)誤差還是建模誤差,以提升建模精度。
本文所述數(shù)據(jù)挖掘算法可以與現(xiàn)有配電網(wǎng)線損管理系統(tǒng)的有機(jī)融合,實(shí)現(xiàn)線損數(shù)據(jù)的實(shí)時(shí)在線處理,推動(dòng)線損精益化管理的發(fā)展。通過C/C++將算法編譯為dll模塊以實(shí)現(xiàn)管理系統(tǒng)調(diào)用。dll模塊實(shí)現(xiàn)線損預(yù)測的具體功能如下:
(1)建立與Oracle數(shù)據(jù)庫的聯(lián)系,讀取數(shù)據(jù)庫中的上月線損數(shù)據(jù)表,計(jì)算日均的線損率與供電量。
(2)合理數(shù)據(jù)的篩選與干擾數(shù)據(jù)的排除,保留較為穩(wěn)定的數(shù)據(jù)進(jìn)行建模工作。
(3)數(shù)據(jù)分類,利用K-means算法實(shí)現(xiàn)線損數(shù)據(jù)的合理在線分類。
(4)對(duì)每一類數(shù)據(jù)進(jìn)行回歸建模,給出各模型的回歸系數(shù),并給出95%置信區(qū)間對(duì)應(yīng)的殘差。
(5)線損預(yù)測,提取Oracle數(shù)據(jù)庫中當(dāng)日線損數(shù)據(jù),按照歐式距離原則歸類。
(6)利用回歸模型計(jì)算當(dāng)日線損率,并與線損系統(tǒng)實(shí)測數(shù)據(jù)進(jìn)行對(duì)比,對(duì)超出殘差值的臺(tái)區(qū)進(jìn)行歸納總結(jié),以便進(jìn)一步處理。
基于數(shù)據(jù)挖掘技術(shù),通過對(duì)用戶數(shù)據(jù)的聚類分析,回歸建模,給出了基于大數(shù)據(jù)挖掘技術(shù)線損線性回歸模型。該方法具有數(shù)據(jù)獲取便捷、計(jì)算速度快的特點(diǎn),能夠適應(yīng)線損精細(xì)化管理的需求。本文通過實(shí)例詳細(xì)介紹了聚類和線性回歸建模的具體實(shí)現(xiàn)步驟,并對(duì)結(jié)果進(jìn)行分析,證明本模型在低壓臺(tái)區(qū)線損管理中適用性、快速性、簡便性。
實(shí)際線損和預(yù)測線損殘差的給定,是判斷合理線損的重要判別條件,該差值的具體數(shù)值,需要根據(jù)各地實(shí)際的配網(wǎng)運(yùn)行方式和條件,用電量的實(shí)際水平來劃定,結(jié)合回歸模型進(jìn)行進(jìn)一步的優(yōu)化。
[1]李晨,丁曉群,劉小波,等.基于實(shí)時(shí)系統(tǒng)數(shù)據(jù)的電網(wǎng)綜合線損分析方法及其應(yīng)用[J].電力自動(dòng)化設(shè)備,2005,25(3):47-50.
[2]李戰(zhàn)鷹,任震,陳永進(jìn).直流輸電系統(tǒng)網(wǎng)損研究[J].電力自動(dòng)化設(shè)備,2007,27(1):9-12.
[3]辛開遠(yuǎn),楊玉華,陳富.計(jì)算配電網(wǎng)線損的GA與BP結(jié)合的新方法[J].中國電機(jī)工程學(xué)報(bào),2002,22(2):79-82.
[4]姜惠蘭,安敏,劉曉津,等.基于動(dòng)態(tài)聚類算法徑向基函數(shù)網(wǎng)絡(luò)的配電網(wǎng)線損計(jì)算[J].中國電機(jī)工程學(xué)報(bào),2005,25(10):35-39.
[5]徐茹枝,王宇飛.粒子群優(yōu)化的支持向量回歸機(jī)計(jì)算配電網(wǎng)理論線損方法[J].電力自動(dòng)化設(shè)備,2012,32(5):86-93.
[6]彭宇文,劉克文.基于改進(jìn)核心向量機(jī)的配電網(wǎng)理論線損計(jì)算方法[J].中國電機(jī)工程學(xué)報(bào),2011,31(34):120-126.
[7]陳得治,郭志忠.基于負(fù)荷獲取和匹配潮流方法的配電網(wǎng)理論線損計(jì)算[J].電網(wǎng)技術(shù),2005,29(1):80-84.
[8]朱潔.數(shù)據(jù)挖掘技術(shù)在電力營銷系統(tǒng)線損計(jì)算中的應(yīng)用研究[D].蘭州:蘭州理工大學(xué),2011.
[9]李昉,羅漢武.基于多元線性回歸理論的河南省用電量預(yù)測[J].電網(wǎng)技術(shù),2008,32(1):124-126.
[10]周麗娟,王慧,王文伯,等.面向海量數(shù)據(jù)的并行KMeans算法[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2012,40(增刊1):150-152.