劉豐碩,劉然,董子慧
(內蒙古電力(集團)有限責任公司電力營銷服務與運營管理分公司電能計量中心,內蒙古呼和浩特 010010)
k-means 聚類算法是一種迭代求解型的聚類分析方法,在處理過程中,首先將所有數(shù)據(jù)分為k個組別,然后隨機選取k個對象作為初始聚類操作的賦值中心,最后計算各個對象到其賦值中心之間的物理距離,并順帶將每個對象分配至距其最近的聚類中心之中[1-2]。一般來說,聚類中心分配給它們的數(shù)據(jù)對象就代表一個完整的聚類組織。在實施分配操作時,每增加一個新的分配樣本,聚類中心都會根據(jù)現(xiàn)有對象的存儲水平對其進行重新計算,在此過程中,聚類計算的操作將會不斷重復,直至完全滿足某個聚類賦值中心的數(shù)值終止條件。
電能量采集設備故障會導致所得電量數(shù)據(jù)信息出現(xiàn)明顯的缺失情況,這也是導致異常數(shù)據(jù)出現(xiàn)的主要原因。所謂異常數(shù)據(jù)是指不符合電量預期行為的運行數(shù)據(jù)參量,在智能電網環(huán)境中,異常數(shù)據(jù)的傳輸行為越明顯,智能電表中顯示數(shù)據(jù)與常規(guī)電量數(shù)據(jù)之間的補償誤差水平也就越高。傳統(tǒng)回歸分析型檢測方法根據(jù)常規(guī)電表電量數(shù)據(jù)與異常測量數(shù)據(jù)之間的相對距離水平,確定電表主機對于電量截斷信號的依賴程度,再以此為基礎,突出異常點數(shù)據(jù)與檢測中心點數(shù)據(jù)之間聯(lián)系的緊密性[3]。然而該方法測定出的誤差百分比數(shù)值水平較高,并不能有效控制常規(guī)電表電量數(shù)據(jù)與異常測量數(shù)據(jù)之間的補償誤差水平。為應對上述問題,提出基于k-means 聚類的智能電表異常動態(tài)數(shù)據(jù)檢測方法。
由于智能電表異常動態(tài)數(shù)據(jù)檢測是對常規(guī)負荷數(shù)據(jù)與異常負荷數(shù)據(jù)之間補償誤差水平的研究,所以在計算過程中,應對個別信息參量進行初步剔除,也就是對電量負荷異常數(shù)據(jù)的預處理[4-5]。因此,為了加快k-means 聚類算法的收斂運算速度,在進行電量負荷異常數(shù)據(jù)的預處理之前,需要對數(shù)據(jù)信息樣本進行歸一化處理。具體運算公式如下:
其中,ymax表示電量負荷異常數(shù)據(jù)歸一化后變量的最大值,ymin表示變量的最小值,在異常數(shù)據(jù)預處理運算過程中,分別取值為1 和0。p為待歸一化的電量負荷異常數(shù)據(jù)原始變量,pmax代表待歸一化電量負荷異常數(shù)據(jù)變量的最大值,pmin代表待歸一化變量的最小值。完成電量負荷異常數(shù)據(jù)預處理后,可將各類變量作為后續(xù)檢測處理的初始特征數(shù)據(jù)。
由于k-means 聚類算法的存在,智能電表異常數(shù)據(jù)的動態(tài)傳輸行為并不能完全表現(xiàn)出來,因此在預處理原則的支持下,需要根據(jù)數(shù)據(jù)樣本的檢測權限值系數(shù),確定密度偏差值的實際數(shù)值水平[6-7]。對于一個數(shù)據(jù)分組而言,為保障異常電量負荷信息與常規(guī)電量負荷信息被抽取到的概率相同,應使密度偏差值的分布特征與原始數(shù)據(jù)集合的分布特征保持一致。而對于異常動態(tài)數(shù)據(jù)的檢測條件而言,為使密度偏差值計算結果更加貼合實際運算需求,應將智能電表異常數(shù)據(jù)集合中的樣本期望結果保持在最大值狀態(tài)[8-9]。設I表示與智能電表異常數(shù)據(jù)匹配的檢測權限值系數(shù),h代表電量負荷信息的被抽取概率值,e表示異常數(shù)據(jù)的動態(tài)傳輸系數(shù),聯(lián)立公式(1),可將密度偏差值計算結果表示為:
式中,λ表示異常電量負荷信息的分布系數(shù),we代表傳輸系數(shù)為e時的異常數(shù)據(jù)分組向量,wmin代表分組向量的最小值,f代表智能電表異常數(shù)據(jù)的初始密度條件。若異常數(shù)據(jù)集合中不存在明顯的參量轉折點,則可認為密度偏差值指標能夠直接影響異常數(shù)據(jù)的動態(tài)檢測結果。
由于智能電表異常數(shù)據(jù)集中信息節(jié)點越密集的地方,k-means 聚類函數(shù)的原始數(shù)值越大,因此為獲得較為準確的數(shù)據(jù)信息檢測結果,應確保聚類k值與數(shù)據(jù)密集區(qū)域中心的信息參量值十分接近。為縮小常規(guī)電表電量數(shù)據(jù)與異常測量數(shù)據(jù)之間的補償誤差水平,可以選擇密度偏差值最大的數(shù)據(jù)點作為kmeans 聚類函數(shù)的初始迭代中心[10-11]。另外,可以通過設置聚類k值的方式,將電表異常數(shù)據(jù)與常規(guī)數(shù)據(jù)之間的半徑閾值歸并到一個類別之中。對比多個半徑閾值之間的數(shù)值參量差,就可確定一個標準的聚類k值,當數(shù)據(jù)集總量相對較大時,可以對密度偏差值進行歸一化處理,從而實現(xiàn)對數(shù)據(jù)信息參量檢測結果的動態(tài)求解。設δ、σ代表兩個不同的異常數(shù)據(jù)動態(tài)聚類條件,聯(lián)立式(2),可將聚類k值計算結果表示為:
式中,β表示智能電表異常數(shù)據(jù)的動態(tài)檢測系數(shù),j代表異常數(shù)據(jù)參量的初始設定值。由于待處理的數(shù)據(jù)樣本相對較大,所以聚類k值的設置應考慮以常規(guī)電表電量數(shù)據(jù)與異常測量數(shù)據(jù)之間的補償誤差為基礎。
在k-means 聚類算法的支持下,按照電表數(shù)據(jù)異常值設定、異常數(shù)據(jù)清洗、動態(tài)檢測特征值計算的處理流程,實現(xiàn)智能電表異常動態(tài)數(shù)據(jù)檢測方法的順利應用。
異常值就是智能電表數(shù)據(jù)集中明確存在但又不符合動態(tài)集群規(guī)則的數(shù)據(jù)點,也叫電表數(shù)據(jù)的離群值。若某一數(shù)據(jù)值在兩個集合中均保持相同的離群規(guī)律,且每個集合中的其他數(shù)據(jù)點都不符合該規(guī)律,則可認定該數(shù)據(jù)點為電表數(shù)據(jù)的異常值[12-13]。智能電表異常數(shù)據(jù)在不同時間序列上的表現(xiàn)情況完全不同,且隨著電表負荷能力的增強,數(shù)據(jù)參量之間聯(lián)系的緊密性也會不斷增強,這也是異常測量數(shù)據(jù)會對常規(guī)電表電量數(shù)據(jù)補償誤差能力造成直接影響的主要原因。設r表示智能電表異常數(shù)據(jù)的離群系數(shù),gr代表離群系數(shù)為r時的電表負荷能力數(shù)值,代表電表負荷能力均值。電表異常值表示為:
綜上所述,采用瑞替普酶治療急性心肌梗死冠狀動脈再通率效果更佳,再通時間早、方便給藥、藥物作用時間長,臨床效果好,是治療急性心肌梗死的較理想的溶栓藥物。
由于智能電表數(shù)據(jù)的選取隨機性較強,所以在實施異常值設定時,應將電表結構的所有負荷行為全部考慮在內。
異常數(shù)據(jù)清洗是實現(xiàn)動態(tài)數(shù)據(jù)檢測的關鍵操作步驟,從智能電表中采集到的原始數(shù)據(jù)不能直接用來進行檢測與分析。原始數(shù)據(jù)中往往存在著大量污染參量,如電信息缺失、電負荷數(shù)據(jù)格式不一致等,且引發(fā)這些問題的原因并不唯一[14]。但對于k-means 聚類算法而言,為保證檢測結果的準確性,應將所獲信息參量中的常規(guī)數(shù)據(jù)與異常數(shù)據(jù)進行全部選取處理,前者用于驗證電表數(shù)據(jù)異常值設定結果的時效性,后者則直接用來完成異常數(shù)據(jù)清洗[15]。設N1、N2代表兩個不同的電表異常數(shù)據(jù)傳輸特征向量,ξ代表與智能電表數(shù)據(jù)相關的異常量化差系數(shù),α代表污染源系數(shù),聯(lián)立公式(4),可將異常數(shù)據(jù)清洗表達式定義為:
一般來說,完成清洗后的智能電表異常數(shù)據(jù)始終保持相對密集的分布態(tài)勢。
動態(tài)檢測特征值決定了智能電表異常動態(tài)數(shù)據(jù)檢測方法的實際應用能力,在k-means 聚類算法的作用下,該項指標參量的數(shù)值水平越大,單位時間內異常用電負荷數(shù)據(jù)的累積量也就越大[16]。假設在一個檢測周期內,c和v代表兩個不同的k系數(shù)聚類條件,且由于電表示數(shù)結果的多變性,c≠v關系恒成立。在已知異常數(shù)據(jù)清洗原則的情況下,動態(tài)檢測特征值計算基本等同于異常數(shù)據(jù)檢測運算強度的統(tǒng)計。規(guī)定在k系數(shù)聚類條件為c時,電表異常數(shù)據(jù)的傳輸特征量可以達到vc,在k系數(shù)聚類條件為v時,電表異常數(shù)據(jù)的傳輸特征量可以達到vv,聯(lián)立式(5),可將動態(tài)檢測特征值表示為:
動態(tài)檢測特征值可在已知異常數(shù)據(jù)清洗原則的情況下,對電表異常信息進行深度檢測處理,該項物理指標的存在,也使得縮小常規(guī)電表電量數(shù)據(jù)與異常測量數(shù)據(jù)之間的補償誤差水平成為可能。
為了驗證基于k-means 聚類的智能電表異常動態(tài)數(shù)據(jù)檢測方法的有效性,進行對比實驗。實驗電路圖如圖1 所示。
圖1 實驗電路圖
首先采用基于k-means 聚類的智能電表異常動態(tài)數(shù)據(jù)檢測方法對實驗電路進行控制,所得示數(shù)參量作為實驗組數(shù)據(jù);然后采用回歸分析型檢測方法對實驗電路進行控制,所得示數(shù)參量作為對照組數(shù)據(jù);最后對比實驗組、對照組檢測數(shù)據(jù)。
在電網環(huán)境中,由于異常負荷數(shù)據(jù)信息的存在,智能電表的顯示數(shù)據(jù)極易與實際數(shù)值出現(xiàn)較大誤差。常規(guī)電表電量數(shù)據(jù)、異常測量數(shù)據(jù)之間的顯示數(shù)值差可表示為補償誤差,一般來說,補償誤差水平越高,常規(guī)電表電量數(shù)據(jù)、異常測量數(shù)據(jù)之間的顯示數(shù)值差也就越大,反之則越小。
在50 min 的實驗時間內,對比實驗組、對照組電量負荷與常規(guī)電量負荷數(shù)值。電量負荷對比曲線如圖2 所示。
圖2 電量負荷對比曲線圖
分析圖2 可知,常規(guī)電量負荷數(shù)值在實驗過程中始終保持上升、下降交替出現(xiàn)的變化情況,整個實驗過程中的最大數(shù)值為709 kW、最小值為398 kW。實驗組電量負荷數(shù)值在實驗過程中的變化趨勢基本與常規(guī)電量負荷保持一致,整個實驗過程中的最大數(shù)值為651 kW、最小值為303 kW,與常規(guī)電量負荷極限數(shù)值之間的物理差值水平相對較低。對照組電量負荷數(shù)值在實驗過程中的變化形式則相對較為單一,整個實驗過程中的最大值為784 kW、最小值為63 kW,與常規(guī)電量負荷極限數(shù)值之間的物理差值水平遠高于實驗組。
在50 min 的實驗時間內,對比實驗組、對照組電量負荷值與常規(guī)電表電量數(shù)據(jù)之間的補償誤差百分比數(shù)值情況。補償誤差百分比統(tǒng)計如表1 所示。
分析表1 可知,第50 min 時,實驗組補償誤差百分比達到最大數(shù)值23.9%,整個實驗過程中的平均值水平僅為7.8%。第35 min 時,對照組補償誤差百分比達到最大數(shù)值86.8%,整個實驗過程中的平均值為41.5%,遠高于實驗組。
表1 補償誤差百分比統(tǒng)計表
綜合上述實驗研究結果可知,應用基于k-means聚類的檢測方法,能夠縮小電表異常顯示數(shù)據(jù)與常規(guī)顯示數(shù)據(jù)之間的物理差值水平,這對于縮小測量數(shù)據(jù)的補償誤差水平起到一定的促進性作用。
在k-means 聚類算法的作用下,新型智能電表異常動態(tài)數(shù)據(jù)檢測方法在回歸分析型檢測方法的基礎上[17-19],對異常電量數(shù)據(jù)的特征值進行了預處理,通過聚類k值的約束作用,完成對異常數(shù)據(jù)的初步清洗,再根據(jù)已知的電表數(shù)據(jù)異常值設定結果,實現(xiàn)對動態(tài)檢測特征值的準確計算。分析對比實驗結果可知,k-means 聚類型檢測方法與回歸分析型檢測方法相比,能夠有效控制異常電量負荷數(shù)據(jù)的顯示情況,從而為縮小常規(guī)電表電量數(shù)據(jù)與異常測量數(shù)據(jù)之間的補償誤差水平提供保障。