馮歆堯 黃劍文 孟禹
摘 要: 針對傳統(tǒng)竊電行為的識別方法難以有效解決竊電技術提升帶來的高頻竊電問題,研究了電力企業(yè)已有數據現狀,提出半監(jiān)督分類模型識別竊電用戶。通過深入分析業(yè)務并設計特征指標,圍繞廣東電網高壓用戶的海量用電行為數據,開展半監(jiān)督三訓方法的竊電用戶識別研究與應用。研究結果發(fā)現,半監(jiān)督分類模型預測提升度超過1.5,對比最優(yōu)的有監(jiān)督學習模型,效率提升7.3%,有效提升竊電用戶識別效率為電網企業(yè)的反竊電工作提供有力的支撐。
關鍵詞: 竊電用戶; 半監(jiān)督學習; 三訓方法; 竊電識別; 識別效率
中圖分類號: TM ? ? ?文獻標志碼: A
Research and Applcaton of dentfcaton Stealng Users
Based on Sem-supervsed Three Tranng Methods
FENG Xnyao1, HUANG Janwen1, MENG Yu2
(1.Guangdong Power Grd Co. Ltd., Guangzhou 510000;
2.Guangzhou Brllant Data Analytcs nc. Ltd., Guangzhou 510000)
Abstract: Amng at the dffculty n effectvely solvng the problem of hgh frequency power larceny caused by the mprovement of electrc larceny technology by usng the tradtonal method of dentfyng electrc larceny behavor, ths paper explores the exstng data status of electrc power enterprses, and proposes sem-supervsed classfcaton model to dentfy electrc larceny users. Through n-depth analyss of busness and desgn of characterstc ndcators, ths paper conducts research and applcaton on dentfcaton of electrc stealng users by sem-supervsed tr-tranng based on massve electrcty behavor data of hgh voltage users of Guangdong Power Grd. The results show that the forecast mprovement degree of sem-supervsed classfcaton model s more than 1.5, the effcency s mproved by 7.3% compared wth the optmal supervsed learnng model, and the dentfcaton effcency of power-stealng users s effectvely mproved, provdng strong support for the ant-power-stealng work of power grd enterprses.
Key words: Power-stealng users; Sem-supervsed learnng; Three tranng methods; dentfcaton of electrc larceny; dentfyng effcency
0 引言
隨著經濟與技術的發(fā)展,在電力行業(yè)中,竊電主體逐漸團隊化,竊電技術逐漸科技化,竊電行為逐漸隱秘化,使供電企業(yè)的反竊電難度不斷變大。電力企業(yè)的信息化發(fā)展為供電企業(yè)的數據挖掘提供了基礎支撐,通過深入挖掘計量系統(tǒng)的海量監(jiān)測數據,對竊電用戶的類型及規(guī)律進行特征刻畫與分析,建立數據分析模型,實時監(jiān)測竊漏電情況,篩選風險用戶、確定檢查方向并制定檢查計劃。
針對反竊電的數據挖掘問題,王穎琛等利用隨機矩陣分析法構建竊電風險識別模型篩選竊電風險用戶[1],喬亮等根據報警事件發(fā)生前后客戶計量點有關的電流、電壓、負荷數據情況等,構建基于指標加權的用電異常分析模型檢查竊電行為 [2],曹崢等使用有監(jiān)督方法,構建大量業(yè)務指標并轉換為數據指標,構建竊電風險模型[3],這些研究應用一定程度上提高了反竊電的工作效率。大部分電力業(yè)務系統(tǒng)的竊電標識較少,常規(guī)分析挖掘方法對竊電風險用戶的識別效率有限,但電力業(yè)務系統(tǒng)累積了海量的竊電未標識數據,所以,應用效果與實際需求還有一定的提升空間。
本文以有效識別竊電風險用戶為研究目的,基于營銷系統(tǒng)、生產系統(tǒng)及計量系統(tǒng)等信息化系統(tǒng)的數據,借助半監(jiān)督分類方法,使用Oracle 11g與R-3.3.0等工具進行數據挖掘,充分利用海量竊電未標識數據,有效識別竊電風險用戶。
1 半監(jiān)督分類模型
許多實際應用中,樣本的有類標識的判定成本較高,由此,許多情況下,樣本中包含極少量的有類標識的樣本和過剩的無類標簽的樣例[4-6]。半監(jiān)督分類為了彌補有類標識的樣本L不足的缺陷,在有限的有類標識的樣本中加入大量的無類標簽的樣例U,期望訓練得到分類性能更優(yōu)的分類器,從而識別無類標簽的樣例T的類標簽[7, 8]。
協同訓練方法的是最初提出的基于差異的半監(jiān)督分類方法[9],這個方法需要滿足兩個假設條件:(1)視角充分冗余假設,即有類標簽的樣本數量足夠;(2)條件獨立假設,即每個視角的特征描述都條件獨立于另一視角的特征描述。
在有類標簽的樣本Y={y1,…,yl}中,從兩個不同視角出發(fā),根據已知標識及特征,每個視角獲得樣本Lj={(x1,y1),…,(xl,yl)},學習特征到標識的映射f為式(1)。f:X→Y
(1) ?得到學習機兩個不同的學習機Hj=f(x),j∈{1,2},其中,樣本x∈Rm,類標識y{c1,c2,…,cC},cm∈N,=1,…,l。
然后用這兩個學習機Hj=f(x),j∈{1,2}預測無類標簽樣例U={xl+1,…,xl+n}的類標簽,每個學習機選擇標記結果置信度最高的預測類標簽V1={(xl+1,yl+1),…,(xl+k,yl+k)},k≤n,加入另一個學習機的有類標簽的樣本集中L2。
這個過程反復迭代進行,直到滿足停止條件,獲得最終的識別模型H,用于預測樣本T={xtest1,…,xtestt}的分類標識為式(2)。H(t)≈y, y∈{c1,c2,…,cC}
(2)2 半監(jiān)督分類的三訓算法
在竊電風險識別的實際問題中,訓練數據往往不滿足視角充分冗余假設,三訓算法是由Zhou提出的一種協同機制的半監(jiān)督分類算法[10],算法通過構造三個不同的分類器進行協同訓練,最后通過Baggng算法進行集成[11-13],對于數據集不需要兩個冗余角度。
假設初始的少量有標記樣本集為L={(x1,y1),…,(xl,yl)},未標記樣本集為U={x,x∈U};首先對有標記樣本集進行可重復采樣 [14]以獲得三個有標記訓練集L1,L2,L3;對三個不同的訓練集進行訓練為式(3)。L1={(x11,y11),…,(x1l,y1l)};f1:X1→Y1
L2={(x21,y21),…,(x2l,y2l)};f2:X2→Y2
L3={(x31,y31),…,(x3l,y3l)};f3:X3→Y3
(3) ?得到三個初始分類器H1={H1,H1∈H1},1≤≤3;在三訓算法的迭代過程中,每個分類器新增的訓練樣本由另外兩個分類器協作提供。對于分類器H11,如果H12和H13對同一個未標記樣本x(x∈U)有相同的標記,那么將x標記為H12(x),并將x加入到H11的訓練集L11,可得到新的H11訓練集為式(4)。L11=L1∪{x∈U,H12(x)=H13(x)}
(4) ?同理,H12和H13的訓練集分別擴充為L12、L13。
用新擴充的訓練集分別重新訓練為式(5)。L11={(x11,y11),…,(x1l1,y1l1)};f11:X11→Y11
L12={(x21,y21),…,(x2l1,y2l1)};f12:X12→Y12
L13={(x31,y31),…,(x3l1,y3l1)};f13:X13→Y13
(5) ?獲得三個分類器H2={H2,H2∈H2},1≤≤3。
如此重復迭代,每次迭代獲得三個分類器為式(6)。Hj={Hj,Hj∈Hj}, 1≤≤3, j>1
(6) ?直到三個分類器不再變化為式(7)。Hn-1≈Hn, n>1
(7) ?訓練過程結束。
3 建模及仿真研究
3.1 特征設計
本文分析竊電相關業(yè)務整體流程,從業(yè)務角度刻畫業(yè)務特征,并設計業(yè)務指標,共設計出14個業(yè)務指標,有關業(yè)務指標的含義如表1所示。
3.2 算例數據
本文選取廣東電網的高壓用戶相關數據進行研究與應用,將業(yè)務指標映射到業(yè)務系統(tǒng)的數據字段,包括“用電客戶表”、“運行變壓器”、“應收電費記錄”等九張源數據表,選取各個源數據表的時間范圍為2017年7月-2018年6月。利用數據量化業(yè)務指標,獲得業(yè)務指標的數據計算規(guī)則。
基于數據計算規(guī)則對多個數據源進行聚合匯總,提取檢查項目結果表中高壓用戶的特征數據與標識數據,以2018年6月的竊電標識結果及其前1年的行為特征數據構建訓練集,其中,訓練數據集包括322 768條樣本記錄。同時,對源數據進行質量檢查,包括檢查原始數據的完整性、取數范圍、異常情況等。
本文對數據集中大量缺失值、異常值等臟數據進行相應預處理,獲得含有類別標識的數據集6 747條樣本及218 473條未知標識樣本,其中有類標識樣本包括446條竊電用戶標識樣本及6 301條非竊電用戶標識樣本。
3.3 評估方案
針對二分類問題,普遍采用混淆矩陣對分類模型的預測結果進行效果評估。如圖1所示。
其中,針對竊電風險用戶的識別問題,供電企業(yè)實際業(yè)務人員更為關注竊電用戶識別的正確率,因此,研究人員通常采用反映模型預測全面性的覆蓋率、反映模型預測準確性的命中率及反映模型識別效率的提升度刻畫識別正確率為式(8)-式(10)。TPC=TPTP+FN
(8)
TPH=TPTP+FP
(9)
lft=TPH(TP+FN)/(TP+FP+FN+TN)
(10) ?本文將獲取的數據集按照7∶3的比例進行劃分,70%的數據作為訓練數據集,30%的數據作為測試數據集。
3.4 研究結果
針對當前常用的有監(jiān)督算法,選擇logstc模型、隨機森林、支持向量機作為三訓方法的3個分類器,通過擬合本文準備的數據,三訓算法的最大迭代次數為16。
利用測試數據集測試不同算法的竊電用戶識別率,獲得竊電用戶識別的命中率、覆蓋率及提升度,有監(jiān)督分類模型的命中率最高46.4%,半監(jiān)督分類模型的命中率可以48.3%,有監(jiān)督分類模型的覆蓋率最高達到59.8%,半監(jiān)督分類模型的覆蓋率則達到64.1%,半監(jiān)督分類模型對比空模型可提升53%的識別效率,如圖2、圖3所示。
4 總結
對比傳統(tǒng)地利用有監(jiān)督學習模型進行竊電排查,本文通過半監(jiān)督學習模型,基于已知竊電標識數量少的實際情況,利用廣東電網海量的無類標識數據,有效提升竊電用戶識別效率。本文的研究與實踐過程中,根據半監(jiān)督學習模型識別的用戶,向實際業(yè)務人員提供竊電高風險用戶清單,并分析竊電用戶的用電行為,探索竊電行為規(guī)律,幫助業(yè)務人員更高效地進行反竊電排查工作。實踐證明,模型可以為電網企業(yè)的反竊電工作提供有力的支撐。
參考文獻
[1] 王穎琛,顧潔,金之儉. 基于高維隨機矩陣分析的竊電識別方法[J]. 現代電力2017,34(6):71-78.
[2] 喬亮,楊麗.地區(qū)電網在線安全穩(wěn)定預警與輔助決策系統(tǒng).電力系統(tǒng)保護與控制.2016,44(24):164-169.
[3] 曹崢,楊鏡非,劉曉娜.BP神經網絡在反竊電系統(tǒng)中的研究與應用[J].水電能源科學,2011,29(9):199-202.
[4] 劉建偉,劉媛,羅雄麟.半監(jiān)督學習方法[J].計算機學報,2015,38(8):1592-1617.
[5] 崔宇童,牛強,王志曉.基于信號傳遞的半監(jiān)督譜聚類社區(qū)發(fā)現算法[J].計算機工程與設計,2018(5):1201-1205.
[6] 蔡毅,朱秀芳,孫章麗, 等.半監(jiān)督集成學習綜述[J].計算機科學,2017(S1):7-13.
[7] 孟巖,汪云云. 典型半監(jiān)督分類算法的研究分析[J].計算機技術與發(fā)展,2017(10):43-48.
[8] 許勐璠,李興華,劉海.基于半監(jiān)督學習和信息增益率的入侵檢測方案[J].計算機研究與發(fā)展,2017(10):2255-2267.
[9] Blum A, Mtchell T. Combnng labeled and unlabeled data wth co-tranng[C]//Proceedngs of the 11th Annual Conference on Computatonal Learnng Theory. Madson, USA, 1998:92-100.
[10] Zhou Z H, L M. Tr-tranng: explotng unlabeled data usng three classfers[J]. EEE Transactons on Knowledge & Data Engneerng,2005,17(11):1529-1541.
[11] Blum A. Combnng labeled and unlabeled data wth co-tranng[C]//Proceedngs of the eleventh annual conference on Computatonal learnng theory(地點), 2000:92-100.
[12] 高玉微.CBR 系統(tǒng)中基于半監(jiān)督 ELM 的相關反饋研究[D].保定:河北大學,2014.
[13] 夏陸岳,王海寧,朱鵬飛,等. KPCA-baggng集成神經網絡軟測量建模方法[J].信息與控制,2015,44(5):519-524.
[14] 王焱,汪震,黃民翔,等.基于OS-ELM和Bootstrap方法的超短期風電功率預測[J].電力系統(tǒng)自動化,2014,38(6):14-19.
(收稿日期: 2018.09.07)
作者簡介:馮歆堯(1991-),男,天津市人,大數據工程師,研究方向:大數據研究及數據挖掘技術。
黃劍文(1962-),男,廣東梅州人,教授級高級工程師,研究方向:電力信息系統(tǒng)建設與技術管理。
孟禹(1982-),男,廣東廣州人,大數據項目經理,研究方向:電力系統(tǒng)的大數據挖掘項目建設與管理工作。文章編號:1007-757X(2020)01-0154-03