張鐵峰,張 靖
(華北電力大學(xué) 電氣與電子工程學(xué)院,河北 保定 071003)
隨著智能配電網(wǎng)和高級量測體系的不斷發(fā)展,配用電數(shù)據(jù)逐漸呈現(xiàn)出體量大、類型多、增速快等大數(shù)據(jù)特征[1]。但是受設(shè)備故障、通信故障、電網(wǎng)波動和用電管理等因素的影響,這些數(shù)據(jù)中包含大量異常的用電數(shù)據(jù)[2,3]。在智能配電網(wǎng)中,利用有效的異常檢測方法可以及時監(jiān)測到用電異常故障情況,從而進(jìn)行處理,減小企業(yè)的非技術(shù)損失[4]。因此,用電異常檢測對于提高電力服務(wù)水平,減少電網(wǎng)的非技術(shù)性損失(non-technical losses,NTLs),節(jié)約大量人力資源以及降低運(yùn)營成本有著重要意義[5]。
由于電能的不可大量存儲特性,傳統(tǒng)的用電異常檢測一直都是以反竊電技術(shù)為主,從源頭上防止異常用電,然后以現(xiàn)場檢測為輔進(jìn)行的。傳統(tǒng)的異常用電檢測有定期巡檢、定期校驗(yàn)電表、用戶舉報竊電等方法來發(fā)現(xiàn)竊電或計量裝置故障等[6,7]。這些方法存在耗費(fèi)人力物力大,誤報多,耗時長,效率低的問題,同時,也難以發(fā)現(xiàn)用電異常背后的關(guān)聯(lián)事件信息。因此,需要開發(fā)新的用電異常檢測方法。
當(dāng)前,國內(nèi)外研究人員針對用電異常檢測提出多種不同方法。文獻(xiàn)[8]提出一種基于密度聚類技術(shù)的用電異常檢測算法,根據(jù)基于密度的聚類技術(shù),將局部離群點(diǎn)轉(zhuǎn)化為異常用電波動區(qū)間的離群度,利用關(guān)聯(lián)分析法構(gòu)造關(guān)聯(lián)規(guī)則,同時給出關(guān)聯(lián)規(guī)則支持度,結(jié)合當(dāng)前用電量總和來分析獲取異常用電的得分,從而進(jìn)行用電異常檢測。文獻(xiàn)[9]提出一種基于人工神經(jīng)網(wǎng)絡(luò)的用電異常檢測方法,首先搭建了用于處理海量用電數(shù)據(jù)的分布式存儲Hadoop平臺,選取了總電能示值、電能峰值、電能谷值、電壓電流、功率因數(shù)等12個用電數(shù)據(jù)指標(biāo),然后分析和改進(jìn)了適用于并行處理的BP神經(jīng)網(wǎng)絡(luò)算法,進(jìn)而提出了基于人工神經(jīng)網(wǎng)絡(luò)的用電異常嫌疑分析模型。文獻(xiàn)[10]提出LOF和支持向量機(jī)相結(jié)合的異常判別方法,根據(jù)各節(jié)點(diǎn)LOF值的大小實(shí)現(xiàn)智能配電網(wǎng)異常定位,然后對電壓進(jìn)行小波變換,以三相電壓的小波奇異熵值建立異常特征樣本庫進(jìn)行預(yù)分類,并以此為基礎(chǔ)建立SVM異常類型判別預(yù)測模型。綜合國內(nèi)外研究現(xiàn)狀,目前對用電異常檢測的分析研究存在以下不足:
(1)局部離群因子算法的時間復(fù)雜度高,參數(shù)的設(shè)置對用戶的依賴性比較強(qiáng),并且算法的可伸縮性較差[11]。
(2)基于神經(jīng)網(wǎng)絡(luò)方法的異常識別模型存在著以下的缺點(diǎn):神經(jīng)網(wǎng)絡(luò)高度依賴網(wǎng)絡(luò)的訓(xùn)練過程,所選擇待測數(shù)據(jù)及其代表性將直接關(guān)系到最終所得到的檢測結(jié)果;檢測過程中需要選擇適當(dāng)?shù)拈撝?,以便比較得到結(jié)果,而閾值的選擇具有主觀性;容易出現(xiàn)殘差淹沒和殘差污染,從而造成漏檢和誤檢[12]。
(3)基于支持向量機(jī)的異常識別模型不適用于大規(guī)模訓(xùn)練樣本,且對多分類問題的解決也存在困難[12]。
k-means聚類算法由于其算法復(fù)雜度低、速度快的優(yōu)點(diǎn)常用于電力負(fù)荷模式的提取,以滿足電網(wǎng)與用戶交互的處理時間要求[13,14]?;诖耍疚奶岢鲆环N基于k-means聚類算法的兩階段異常檢測方法。同時,方法考慮了影響電力負(fù)荷變化的溫濕度影響并修正[15,16],而季節(jié)、節(jié)假日、工作日與周末則在負(fù)荷模式提取時加以考慮。
首先選取用戶用電負(fù)荷歷史曲線進(jìn)行k-means聚類以提取其典型負(fù)荷模式,然后用灰色關(guān)聯(lián)分析確定影響負(fù)荷變化的溫度和濕度因素以獲得典型負(fù)荷曲線的修正系數(shù),再以兩種不同的方法將待測日曲線和典型負(fù)荷曲線進(jìn)行比較,給出用電異常嫌疑用戶列表供用電稽查參考,兩種不同比較方法的互校驗(yàn)驗(yàn)證了方法的有效性。選取山東某酒店的實(shí)際用電數(shù)據(jù)進(jìn)行分析,與稽查結(jié)果對比表明,該方法具有較高的異常檢測準(zhǔn)確率,在電力用戶的用電異常檢測方面具有應(yīng)用前景。
該方法流程如圖1所示。
圖1 基于k-means聚類算法的用電異常檢測流程
其步驟如下:
(1)數(shù)據(jù)選擇。從用電終端獲取用戶用電負(fù)荷數(shù)據(jù),包括某地溫度、濕度以及相對應(yīng)時刻的電力用戶負(fù)荷數(shù)據(jù)。
(2)數(shù)據(jù)預(yù)處理。通過用電終端獲得的數(shù)據(jù)可能有缺失值,同時需要將文本型數(shù)據(jù)進(jìn)行量化處理以及對數(shù)據(jù)進(jìn)行規(guī)范化處理。
(3)關(guān)聯(lián)性分析。電力負(fù)荷受到諸多非線性因素影響,用灰色關(guān)聯(lián)分析法確定影響負(fù)荷變化的關(guān)鍵因素以及對負(fù)荷結(jié)果的影響程度。
(4)負(fù)荷模式提取。采用k-means聚類算法提取用戶典型負(fù)荷曲線。季節(jié)、節(jié)假日、工作日與周末在此步驟考慮。得到待測數(shù)據(jù)中和聚類后與典型負(fù)荷曲線距離最小的那一類數(shù)據(jù),將他們和對應(yīng)的溫度、濕度數(shù)據(jù)提取出來。
(5)修正系數(shù)。利用灰色關(guān)聯(lián)分析法確定負(fù)荷影響因素,獲取典型負(fù)荷曲線溫濕度修正系數(shù)。
(6)用電異常檢測。將待測日負(fù)荷曲線和修正的典型負(fù)荷曲線進(jìn)行比較,按相似度距離大小提供嫌疑用戶列表,供用電稽查參考。
k-means算法是一種基于劃分的聚類方法,由J.B.MacQueen于1967年提出。它以k為參數(shù),把n個對象分為k個簇,以使簇內(nèi)具有較高的相似度,而簇間的相似度則較低。相似度的計算根據(jù)簇的質(zhì)心(一個簇中對象的平均值)來進(jìn)行[17]。
輸入:參數(shù)k,數(shù)據(jù)集N(n個對象)
輸出:k個簇Ck
步驟1:任意選擇k個對象{w1,w2,…,wk}作為初始聚類中心,其中wj=xi,j∈{1,2,…,k},i={1,2,…,n};
步驟2:計算每個樣本與簇Cj的聚類中心xCj的距離d(xi,xCj),i=(1,2,…,n/s),j∈{1,2,…,k},若d(xi,xCj)=min{d(xi,xCj),j=1,2,…,k},則xi∈Cj;
步驟3:更新簇的平均值即聚類中心;
步驟 5:若E值收斂,則算法終止;否則返回步驟2。
2.2.1 灰色關(guān)聯(lián)分析
灰色關(guān)聯(lián)分析方法是基于灰色系統(tǒng)理論而形成的一種數(shù)據(jù)分析方法,對于兩個系統(tǒng)之間的因素,其隨時間或不同對象而變化的關(guān)聯(lián)性大小的量度,稱為關(guān)聯(lián)度[18]。
將反映系統(tǒng)數(shù)據(jù)特征數(shù)據(jù)序列作為參考序列,將對系統(tǒng)產(chǎn)生影響組成的數(shù)列{x1,x2,…,xp},作為比較數(shù)列。設(shè)有p個比較數(shù)列,參考數(shù)列為x0,參考數(shù)列與比較數(shù)列的影響因子ξi(s)由下列公式給出:
ξl(k)=
(1)
由于比較數(shù)列和參考數(shù)列在N個點(diǎn)都對應(yīng)一個關(guān)聯(lián)系數(shù),故取其平均值,得到最終關(guān)聯(lián)度為:
(2)
采用k-means聚類算法提取用戶典型負(fù)荷曲線,得到待測數(shù)據(jù)中和聚類后與典型負(fù)荷曲線距離最小的那一類數(shù)據(jù),將他們和對應(yīng)的溫度、濕度數(shù)據(jù)提取出來進(jìn)行研究,分析負(fù)荷與其對應(yīng)溫濕度的關(guān)系。
通過關(guān)聯(lián)性分析可知,負(fù)荷與溫度存在正相關(guān)性,二者之間存在線性關(guān)系。設(shè)負(fù)荷為L,溫度為T。
通過實(shí)驗(yàn)測定和理論推算,最宜人的室內(nèi)溫濕度是:冬天溫度為18~25 ℃,濕度為30%~80%;夏天溫度為23~28 ℃,濕度為30%~60%[19]。基于此,在探究負(fù)荷與溫度關(guān)系時控制日平均濕度為30%~60%,即認(rèn)為在此濕度范圍內(nèi)可忽略濕度對負(fù)荷的影響。
因此,通過實(shí)驗(yàn)計算得到溫度修正模型如下:
(3)
式中:α為負(fù)荷和溫度的關(guān)聯(lián)度;T為日最高溫;LT0為20 ℃時的平均負(fù)荷值。
2.2.3 濕度修正
通過關(guān)聯(lián)性分析可知,負(fù)荷與濕度存在負(fù)相關(guān)性,二者之間存在線性關(guān)系。設(shè)負(fù)荷為L,濕度為H。
由標(biāo)準(zhǔn)[19]可知,可在探究負(fù)荷與濕度關(guān)系時控制日最高溫為20~30 ℃,即認(rèn)為在此溫度范圍內(nèi),負(fù)荷主要受濕度的影響。
因此,通過實(shí)驗(yàn)得到濕度修正模型如下:
(4)
式中:β為負(fù)荷與濕度的關(guān)聯(lián)度;H為日平均濕度;LH0為30%相對濕度時的平均負(fù)荷值。
設(shè)有k種典型負(fù)荷模式,m組測試數(shù)據(jù),提取的典型負(fù)荷模式曲線為Y(y1,y2,…,yk),經(jīng)過修正的典型負(fù)荷曲線為Z(z1,z2,…,zk),測試數(shù)據(jù)為U(u1,u2,…,um)。
2.3.1 模型1
對待測數(shù)據(jù)U按式(5)進(jìn)行最大—最小標(biāo)準(zhǔn)化處理,得到經(jīng)過標(biāo)準(zhǔn)化處理的樣本數(shù)據(jù)V(v1,v2,…,vm)。最大—最小值標(biāo)準(zhǔn)化也叫離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換。設(shè)u=U(u1,u2,…,um),建立映射f:
(5)
其中,umax=max(u)=max(u1,u2,…,um),umin=min(u)=min(u1,u2,…,um)。
按式(6)計算V和Z的歐氏距離。
(6)
分別對Z中每個元素和V各個元素之間的距離進(jìn)行降序排序,可取所有用戶中那些用戶典型負(fù)荷曲線與其待測曲線距離相差最大的前10個作為嫌疑用戶列表。
2.3.2 模型2
對經(jīng)過修正的典型負(fù)荷模式曲線Z進(jìn)行反標(biāo)準(zhǔn)化處理,得到數(shù)據(jù)集W(w1,w2,…,wk),
(7)
其中:wmax=max(w)=max(w1,w2,…,wm),wmin=min(w)=min(w1,w2,…,wm)。
按式(8)計算U和W的歐氏距離。
d2=
(8)
分別對W中每個元素和U各個元素之間的距離進(jìn)行降序排序,得到每種典型負(fù)荷曲線下與其距離相差最大的前10個樣本對應(yīng)的標(biāo)號,即為嫌疑用戶列表。
以山東某電力公司轄區(qū)某酒店的日整點(diǎn)負(fù)荷數(shù)據(jù)為例,進(jìn)行實(shí)證分析,篩選具備日期類型數(shù)據(jù)、氣象數(shù)據(jù)(包括氣溫相關(guān)數(shù)據(jù)、濕度相關(guān)數(shù)據(jù)等)等屬性的有效數(shù)據(jù)共900條,將分析結(jié)果與實(shí)際稽查結(jié)果對比驗(yàn)證其有效性。在正常數(shù)據(jù)中隨機(jī)抽取750條數(shù)據(jù)作為樣本數(shù)據(jù),剩余150條作為測試數(shù)據(jù)。對樣本數(shù)據(jù)和測試數(shù)據(jù)分別進(jìn)行存儲,測試數(shù)據(jù)中第120條數(shù)據(jù)后被證實(shí)為異常用電數(shù)據(jù)。
對用電終端采集到的數(shù)據(jù)進(jìn)行預(yù)處理:對于單個點(diǎn)的缺失值,進(jìn)行剔除工作;對于標(biāo)識型的數(shù)據(jù),利用數(shù)值予以替代。
3.1.1 數(shù)據(jù)標(biāo)準(zhǔn)化處理
采用比較簡單的最大—最小標(biāo)準(zhǔn)化處理方法,最大—最小值標(biāo)準(zhǔn)化也叫離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換。設(shè)x=(x1,x2,…,xm),建立映射f:
(9)
其中,xmax=max(x)=max(x1,x2,…,xm),xmin=min(x)=min(x1,x2,…,xm)。按式(9)對負(fù)荷數(shù)據(jù)進(jìn)行處理,
3.1.2 文本數(shù)據(jù)量化處理
對于聚類模型而言,所輸入的樣本數(shù)據(jù)必須是量化的數(shù)據(jù),而日類型、季節(jié)屬性等都是非結(jié)構(gòu)化數(shù)據(jù),需要進(jìn)行量化處理。
通過對電力負(fù)荷數(shù)據(jù)的分析可知,周一到周五的工作日負(fù)荷具有極大的相似性,不同于周六與周日的休息日負(fù)荷;同時,節(jié)假日、季節(jié)對電力負(fù)荷也有極大的影響。
將類型屬性量化為{工作日,周末節(jié)假工作日,周末節(jié)假}={1,2,3},將季節(jié)屬性量化為{夏,冬,春,秋}={4,3,2,1}。
利用k-means聚類算法進(jìn)行負(fù)荷模式提取。由文獻(xiàn)[20]可知,選取聚類數(shù)為5時聚類效果最佳。該算法通過在迭代過程中不斷移動簇集成員,直至得到理想的簇集為止。對電力用戶負(fù)荷數(shù)據(jù)進(jìn)行聚類得到典型負(fù)荷曲線,如圖2所示。
圖2 典型負(fù)荷曲線
負(fù)荷的外在影響因素分析是指對負(fù)荷變化起主導(dǎo)性作用的影響因素與負(fù)荷變化曲線之間的相關(guān)性分析?;疑P(guān)聯(lián)分析法的優(yōu)點(diǎn)在于對樣本量的多少和有無規(guī)律性無硬性要求,并且計算量小,算法簡單,可定量分析外在影響因素與負(fù)荷變化間的相關(guān)程度,非常適合在大數(shù)據(jù)下進(jìn)行電力負(fù)荷特性分析。
利用灰色關(guān)聯(lián)分析法研究溫度、濕度對電力負(fù)荷的影響,結(jié)果如圖3、圖4 所示。圖中曲線1表示溫度曲線或者濕度曲線,曲線2表示負(fù)荷曲線,橫軸為時刻,縱軸分別為溫度或者濕度以及負(fù)荷。
圖3 溫度對電力負(fù)荷的影響
圖4 濕度對電力負(fù)荷的影響
由圖3和圖4可知,溫度與負(fù)荷呈正相關(guān)性,濕度與負(fù)荷呈負(fù)相關(guān)性,計算得溫度與負(fù)荷的關(guān)聯(lián)度為0.533,濕度與負(fù)荷的關(guān)聯(lián)度為0.427。按2.2.2和2.2.3節(jié)所示方法對提取的典型負(fù)荷曲線進(jìn)行預(yù)測修正,如圖5、圖6分別為溫度34.5 ℃時以及濕度為52%的預(yù)測負(fù)荷和實(shí)際負(fù)荷的對比圖。圖中曲線1為負(fù)荷預(yù)測曲線,曲線2為實(shí)際負(fù)荷曲線。
圖5 溫度在34.5 ℃時預(yù)測值和實(shí)際值的對比圖
圖6 濕度在52%時預(yù)測值和實(shí)際值的對比圖
3.4.1 模型1的實(shí)現(xiàn)
導(dǎo)入150條測試數(shù)據(jù)(包括電力負(fù)荷數(shù)據(jù)和對應(yīng)的溫、濕度數(shù)據(jù)),對電力負(fù)荷數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,并與經(jīng)過修正的典型負(fù)荷曲線進(jìn)行比較,分別計算每條負(fù)荷曲線和經(jīng)過修正的典型負(fù)荷曲線之間的歐氏距離,并對測試數(shù)據(jù)和所有模式下的歐氏距離的最小值進(jìn)行降序排序。取前10名測試數(shù)據(jù)對應(yīng)的標(biāo)號列表顯示作為嫌疑用戶名單。表1所示為模型1 下的嫌疑用戶列表,如表1所示,標(biāo)號為32、77、88、127、125、120、119、52、62、54的數(shù)據(jù)與標(biāo)準(zhǔn)負(fù)荷曲線差異最大,這幾天具有用電異常嫌疑。
表1 模型1 下的嫌疑用戶列表
3.4.2 模型2的實(shí)現(xiàn)
導(dǎo)入150條測試數(shù)據(jù)(包括電力負(fù)荷數(shù)據(jù)和對應(yīng)的溫、濕度數(shù)據(jù)),對經(jīng)過修正的典型負(fù)荷曲線進(jìn)行反標(biāo)準(zhǔn)化處理,并對每條負(fù)荷曲線和經(jīng)過反標(biāo)準(zhǔn)化修正的典型負(fù)荷曲線進(jìn)行比較,分別計算每條負(fù)荷曲線和經(jīng)過反標(biāo)準(zhǔn)化修正的典型負(fù)荷曲線之間的歐氏距離,并對測試數(shù)據(jù)和所有模式下歐氏距離的最小值進(jìn)行降序排序。取前10名測試數(shù)據(jù)對應(yīng)的標(biāo)號,即為嫌疑用戶名單。表2所示為模型2下的嫌疑用戶列表,如表2所示,標(biāo)號為120、119、121、122、147、132、60、47、53、31的數(shù)據(jù)與標(biāo)準(zhǔn)負(fù)荷曲線差異最大,這幾天具有用電異常嫌疑。
表2 模型2 下的嫌疑用戶列表
對以上用戶進(jìn)行稽查,結(jié)果表明,標(biāo)號為120的用戶確實(shí)為用電異常用戶,證明本文方法有效。
針對傳統(tǒng)用電異常檢測方法耗時長、準(zhǔn)確率低、效率低的問題,本文提出一種基于k-means聚類算法的兩階段用電異常檢測方法。
主要特點(diǎn)如下:
(1)本文提出的基于k-means聚類算法的異常用電檢測方法充分挖掘大數(shù)據(jù)的價值,利用負(fù)荷曲線獲取負(fù)荷模式檢測異常,算例表明其有效性。
(2)所提方法中,采用灰色關(guān)聯(lián)對影響電力負(fù)荷的溫濕度因素進(jìn)行關(guān)聯(lián)性分析,對典型負(fù)荷模式通過系數(shù)進(jìn)行修正,可以進(jìn)一步提高檢測精度。
(3)為防止標(biāo)準(zhǔn)化過程中的信息丟失產(chǎn)生的影響,采取兩種方法對待測數(shù)據(jù)和經(jīng)過修正的典型負(fù)荷曲線進(jìn)行比較,經(jīng)交叉驗(yàn)證,得到可信的用電異常用戶嫌疑清單,對于當(dāng)前用電稽查工作提供了有力的支持,具有推廣應(yīng)用價值。