林順富,謝潮,湯波,潘愛強,周健
(1.上海電力學院電氣工程學院,上海200090;2.國網上海電力公司電力科學研究院,上海200437)
隨著我國經濟的持續(xù)發(fā)展,電力用戶對電能需求日益增加的同時,對電能質量的要求也越來越高。電力公司在電網各電壓等級監(jiān)測點安裝了大量電能質量監(jiān)測設備,構成了電能質量監(jiān)測系統(tǒng),系統(tǒng)長期不間斷的監(jiān)測形成電能質量海量數據[1-2]。
近年來,人們逐漸意識到電能質量海量監(jiān)測數據本身承載著大量涉及系統(tǒng)和設備運行狀態(tài)的有用信息。其應用價值已遠遠超出傳統(tǒng)電能質量所關注的范圍,對故障的定位、系統(tǒng)異常預警、運行狀態(tài)檢測等具有重要意義[3-5]。在電能質量海量數據分析時,傳統(tǒng)統(tǒng)計學方法已不能滿足需求。數據挖掘技術能從海量數據中尋找出有用的隱含信息,逐漸被應用于電能質量數據分析中[6-8]。
文獻[9]概述了數據挖掘技術在電能質量分析中的應用并指出了其廣闊的應用前景,但由于多項電能質量擾動問題的存在導致目前仍然處于初級階段。文獻[10]采用基于最小信息長度的聚類算法檢測監(jiān)測點可能出現的異常電能質量事件,根據得到的集群特征通過分類技術推斷未來監(jiān)測點的電能質量事件。文獻[11]采用支持向量機(SVM)有效識別大范圍內參數任意變化的各類電能質量擾動,而且具備識別精確率高,實時性能好,對噪聲干擾不敏感等優(yōu)點。文獻[12]結合模糊數學的有關知識,建立了電能質量模糊評價模型,并根據二級模糊綜合評判方法結合多組實測數據進行評判分析,證實了所提方法的有效性和合理性。文獻[13]提出的適用于配電網的優(yōu)選組合預測模型,根據南方電網某變電站電能質量監(jiān)測數據預測電能質量的未來狀況,相比單個預測模型具有誤差小、預測精度高等優(yōu)點。
當前國內外研究多數將數據挖掘技術應用于電能質量擾動事件識別[14]、指標預測等方面,而對于電能質量指標受環(huán)境、氣象等因素影響的規(guī)律,以及電能質量指標之間內在關聯性的研究較少。本文從實際應用出發(fā),提出一種基于數據挖掘技術處理電能質量數據的分析體系,并應用于國內某城市電網電能質量監(jiān)測數據分析中,采用數據清理、數據集成、聚類分析和相關性分析等技術,分析了不同電能質量指標之間的相關性以及氣溫對電能指標的影響。
基于數據挖掘的電能質量數據分析體系主要包括數據庫創(chuàng)建、數據挖掘分析及應用分析。本文構建的基于數據挖掘的電能質量數據分析體系結構圖如圖1所示。
圖1 基于數據挖掘的電能質量數據分析體系結構圖Fig.1 Structure diagram of power quality data analysis system based on data mining
電能質量分析數據庫除包括電能質量監(jiān)測數據外,還包括電網運行的氣象數據、電網操作數據等。由于相關數據量綱、存儲格式存在差異,并且受電網運行狀態(tài)及外部相關因素的影響,在進行數據分析前須進行數據集成、離群點檢測、填補缺失值等預處理。數據集成可將不同來源數據進行科學合理的綜合處理,因此首先將電能質量監(jiān)測系統(tǒng)與氣象監(jiān)測系統(tǒng)不用數據庫中的數據進行集成,形成一致性的數據模型,然后進行離群點檢測與缺失值填補。數據挖掘技術是處理海量數據的有效工具。電能質量數據挖掘主要包括數據的聚類分析、相關性分析及預測分析等。根據最大化類內相似性與最小化類間相似性的原則把一個數據對象劃分成子集的過程稱為聚類。相關性分析指對具有相關性的變量元素進行分析以衡量變量因素之間的相關密切程度。通過相關性分析研究不同電能質量指標之間相關性、氣溫對電能指標的影響以及工休差異性分析具有重要意義。預測分析則是指根據現有的電能質量指標預測未來的趨勢,為電網的運行提供有價值的參考。
電能質量監(jiān)測網的海量數據大部分通過安裝在監(jiān)測點的復雜傳感器進行采集,進而傳輸到終端系統(tǒng)內。在數據轉換與通信的各個環(huán)節(jié)都有可能受到干擾,導致數據缺失或大量異常點的出現,影響數據的精度和可靠性。數據預處理主要是保證數據具有準確性、完整性與一致性三個要素。本文用到的預處理方法主要包括數據集成、離群點檢測與缺失數據處理。
離群點是指與其他數據集不一致的數據。直觀的說離群點是一個對象,它屬于小的偏遠簇,或者不屬于任何簇[6]。本文采用聚類方法尋找數據集中可能存在的離群點,并對其進行處理。
對于每個指標c,可以根據該指標與最近簇中心的距離,給予該指標一個離群點判定系數。如果到指標c的最近中心為x,則c與x之間的歐氏距離為dist(c,x),中心x與指派到x的指標之間的平均距離為lx。采用比值 dist(c,x)/lx衡量 dist(c,x)與平均距離的差異程度,超出閾值范圍內的視為離群點。
對于缺失數據主要采取基于相似性的遞推方法,主要包括短時相似性、日相似性及月相似性數據遞推等,具體處理方法如下。
(1)假設缺失數據在1小時之內,短時間內數據變化不是太大,取該指標前兩個小時內的數據進行修正后填補缺失值;
(2)假設缺失數據在1小時與1天之間,取與該天同類型的日期進行填補。具體為:若缺失數據所在日期為工作日,取前兩個工作日相同時刻的平均值作為填補數據。若缺失數據所在日期為非工作日,取前一周非工作日的平均值作為填補數據;
(3)假設缺失數據大于1天,取同一季節(jié)下一個月相同的日期進行填補。若缺失數據大于1個月,無論采取何種處理方法都對結果影響較大。則舍棄缺失嚴重數據,采用相對完整的數據進行處理分析。
Mac Queen于1967年首次提出了 K-means算法。該算法的核心思想是找出K個聚類中心c1,c2,c3…ck,使得每一個數據點和與其最近的聚類中心的平方距離和最小化。
文中進行聚類的指標主要包括電壓偏差、頻率偏差、三相不平衡、長時短時閃變、總諧波畸變率、有功功率等。以有功功率與氣溫為例開展聚類分析。具體步驟如下:
(1)設原始數據集合 X={x1,x2,…,xi,…,xn},其中xi為d維的向量。首先設定聚類個數K,從集合X中任意選定k個向量作為各個類的中心ck(k=1,2,...,K);
(2)計算集合X中剩余向量到各中心ck的歐氏距離,根據距離最近原則將剩余向量分配到與其相異度最低的類,形成K個簇B={bk,k=1,2,…,K}。每個簇bk代表一個類。計算各類聚類中心ck到各元素的距離平方和J(bk):
(3)計算各類樣本到其所在類別聚類中心ck總距離平方和J(B),直至最小。
其中若 xi∈bk,rki=1;若 xi?bk,rki=0。取每個類中所有向量的平均值作為該類新的聚類中心;
(4)轉到步驟(2),直到聚類中心不發(fā)生改變且J(B)小于設定閾值,聚類結束。
考慮聚類的收斂速度以及數據量級差別過大對算法的敏感性,需要在聚類前對原始數據進行歸一化處理。首先確定歷史PQ數據的最大值xmax與最小值 xmin,利用式(3)將數據映射到區(qū)間[0,1]。
然后利用式(4)將歸一化數據換算為真實值。
引入 Davies-Bouldin指數[15](DBI)來評估聚類結果好壞。DBI是計算類內距離之和與類外距離之比,根據最小DBI值選擇最優(yōu)聚類k值。對某監(jiān)測點2012年全年有功功率與氣溫歸一化后數據開展聚類分析,得到不同k值對應的DBI值,如表1所示,當k=4時,DBI值最小,聚類效果最佳。
表1 有功功率-氣溫聚類有效性評估Tab.1 Cluster validity index evaluation of active power and temperature
圖2代表有功功率與氣溫在k=4時的聚類效果圖。分層現象反映出負荷中存在氣溫敏感負荷和氣溫非敏感負荷,當氣溫高于25℃或低于15℃時氣溫敏感負荷開始投入運行。
圖2 有功功率-氣溫聚類圖Fig.2 Clustering results of active power versus temperature
相關性分析指對具有相關性的變量元素進行分析以衡量變量因素之間的相關密切程度。通過相關性分析研究不同電能質量指標之間的相關性以及溫度對電能指標的影響具有重要意義。用來描述變量之間線性相關密切程度的Pearson積距相關系[6]ρxy定義為:
式中x,y是兩個連續(xù)變量;lxy是x與y的離均差交叉乘積和;lxx,lyy分別是x和y的離均差平方和;n為指標序列的樣本個數;xi,yi為計算區(qū)間段的2個指標時間序列第i個數值,為指標在區(qū)間段內的平均值;若 ρxy<0,表明兩個指標為負相關;若 ρxy>0,表明兩個指標為正相關;|ρxy|越接近0說明相關性越小,|ρxy|越接近1說明相關性越大。
以長時、短時電壓閃變值與氣溫為例開展相關性分析。根據某監(jiān)測點2012年全年的閃變值與氣溫數據,對各氣溫對應的所有閃變值取均值,從而得到圖3所示各氣溫與相對應閃變值的關系曲線圖。長時電壓閃變與短時電壓閃變變化趨勢基本相同,兩者Pearson積距相關系數為0.781 3,相關性較強;短時閃變值大部分小于長時閃變值;閃變在2℃~6℃及25℃~32℃時閃變水平最高,在其他氣溫相對較低且平穩(wěn),這間接反映出上述氣溫時段中溫控負荷的頻繁變化導致閃變發(fā)生。
圖3 閃變與氣溫關系曲線圖Fig.3 Relation curves of flicker and temperature
本文采用國內某城市電網電能質量監(jiān)測系統(tǒng)數據,數據管理軟件采用PQView。數據庫中不僅包含各監(jiān)測點電壓、電流、頻率、有功、無功與視在功率,還包括三相不平衡、諧波、間諧波、閃變與暫態(tài)事件等。除了實時數據外,也包含最大值、最小值、平均值以及95%概率值等各類統(tǒng)計數據。PQView軟件數據采樣間隔為5 min,氣象監(jiān)測部門提供的數據精確到1 h。
以有功功率與溫度為例開展相關性分析。選擇夏季、冬季代表月份作為研究目標。根據某監(jiān)測點2012年8月份與12月份的工作日數據,做出8月份日最大負荷與最高氣溫的關系圖見圖4。做出12月份日最大負荷與最低氣溫的關系圖見圖5。日最高、平均、最低氣溫與日最大有功功率的Pearson積距相關系數見表2。由關系圖與相關系數的分析可知,夏季時日最大負荷與最高氣溫的線性相關度較強,并且為正相關,即最高氣溫越高,有功消耗越大。相關性強是由于溫度較高時大量降溫負荷的開啟。冬季時(12月份)日最大有功功率與最低氣溫的線性相關度較強,是負相關,即最低氣溫越低,有功消耗越大,主要原因是大量取暖負荷的工作。
圖5 2012年12月日最大負荷與日最低氣溫關系圖Fig.5 Relation curves of the maximum daily load and the minimum daily temperature(December 2012)
表2 日最大負荷與氣溫相關系數Tab.2 Correlation coefficient of daily peak load and temperature
預測每天的峰值負荷對電網調度有重要意義,基于上述分析得出峰值負荷與氣溫有一定線性關系。取某監(jiān)測點2012年日最高氣溫與最大負荷做散點圖,工作日和周末采用不同標記以觀察周工作模式。從圖6可知絕大多數周末的日最大負荷遠小于工作日最大負荷,夏季的日最大負荷要高于冬季。在氣溫20℃左右時日最大負荷最低,隨著氣溫升高或降低,有功功率呈現線性遞增關系。主要原因是最讓人感覺舒適的氣溫在20℃左右,此時空調負荷最低。
圖6 2012年日最大負荷與日最高氣溫散點圖Fig.6 Scatter diagram of the maximum daily load versus temperature in 2012
為了研究三相電壓、電流不平衡度之間的相關性,采用某監(jiān)測點2012年8月份三相不平衡度數據,取每小時最大值做散點圖如圖7所示。分析可知在一定時間內,隨著三相電壓不平衡度的增大三相電流不平衡度也會在一定程度上增大,兩者呈正相關??赡艿脑虬▎蜗啻笕萘控摵稍陔姎馕恢蒙戏植疾缓侠?,大容量負荷開啟的瞬間也會同時影響三相電壓、電流不平衡度。
圖7 三相電壓-電流不平衡度散點圖Fig.7 Scatter diagram of three-phase voltage balance factor and three-phase current unbalance factor
大部分諧波由非線性設備產生,但對于環(huán)境、氣象等因素與諧波的相關性研究較少。根據某監(jiān)測點電壓總諧波畸變率與各次諧波電壓的大小,做出電壓總諧波畸變率THDu、5次諧波電壓含有率與氣溫的散點圖見圖8。電壓總諧波畸變率與5次諧波電壓含有率受氣溫的影響較為明顯,在20℃左右時兩者處于最低水平,隨著氣溫升高或降低呈現上升趨勢。主要原因是氣溫高于25℃或低于10℃時,空調等非線性負荷啟動且占比較大,產生諧波進入電網。
圖8 電壓總諧波畸變率,5次諧波電壓含有率與氣溫散點圖Fig.8 Scatter diagram of voltage THD,5th voltage harmonic ratio versus temperature
圖9表示某監(jiān)測點電流總諧波畸變率THDi與負載電流有效值的散點圖??梢钥闯鲈谪摵奢^小時諧波畸變反而更嚴重,圖中擬合曲線反應了電流總諧波畸變率隨負載電流的變化趨勢,可根據回歸方程與負載電流粗略預測THDi的大小。
圖9 電流總諧波畸變率-電流關系圖Fig.9 Scatter diagram of current THD and current RMS
提出了一種基于數據挖掘技術處理電能質量數據的分析體系,并應用于國內某城市電網電能質量監(jiān)測網數據分析中,采用數據清理、數據集成、聚類分析和相關性分析等技術,分析了不同電能質量指標之間的相關性以及氣溫對電能指標的影響,獲得了有意義的電能質量指標變化規(guī)律,為電網規(guī)劃、調度和運行提供了有價值的參考。