楊 婧,石云輝,盧啟芳
(貴州電網(wǎng)有限責任公司計量中心,貴州 貴陽 550000)
電量異常數(shù)據(jù)會導致電網(wǎng)系統(tǒng)中的數(shù)據(jù)出現(xiàn)較大變化,對電網(wǎng)穩(wěn)定運行產(chǎn)生直接影響,因此應避免電量異常數(shù)據(jù)產(chǎn)生。而電網(wǎng)異常數(shù)據(jù)識別是避免電量異常數(shù)據(jù)產(chǎn)生的主要技術[1-3]。
針對電量異常數(shù)據(jù)問題,有學者采用大數(shù)據(jù)技術建立電量異常數(shù)據(jù)識別模型[4]。該模型采用大數(shù)據(jù)挖掘Spark模塊采集和處理電表數(shù)據(jù);制定了表碼和電量異常數(shù)據(jù)判定規(guī)則;采用大數(shù)據(jù)直線差值擬合表碼,生成異常數(shù)據(jù)預警結果。有學者在電量異常數(shù)據(jù)風險識別過程中引入了概率預測模型[5]。該模型基于狀態(tài)空間模型建立用電量結構化模型;采用變分貝葉斯推斷模型進行用電量的概率分布預測,根據(jù)預測標準分數(shù)實現(xiàn)異常數(shù)據(jù)的在線識別。以上電量異常數(shù)據(jù)智能識別方法存在未對識別指標進行降維處理、異常識別指標不合理、使用的識別算法容易陷入局部最優(yōu)的問題,導致識別準確率較低,難以滿足電量數(shù)據(jù)安全管理的實際應用需求[6-8]。
數(shù)據(jù)挖掘算法可以從電量異常數(shù)據(jù)的歷史數(shù)據(jù)中尋找電量異常數(shù)據(jù)的變化規(guī)律[9-11]。為了解決電量異常數(shù)據(jù)識別結果不準確的問題,本文設計了基于數(shù)據(jù)挖掘的電量異常數(shù)據(jù)智能識別方法。本文設計識別流程,構建異常識別指標體系;創(chuàng)新性地采用主成分分析算法對識別指標進行線性組合降維處理,構建合理性更高的異常識別綜合指標;基于相關系數(shù)矩陣,采用數(shù)據(jù)挖掘算法確定指標權重;使用數(shù)據(jù)挖掘技術中的模糊C均值算法進行電量異常特征聚類,融合徑向基神經(jīng)網(wǎng)絡構建異常識別模型,以提高算法識別的尋優(yōu)效果、實現(xiàn)電量異常數(shù)據(jù)智能識別。本文通過仿真試驗分析電量異常數(shù)據(jù)智能識別效果。試驗結果表明,本文方法能得到較高的電量異常數(shù)據(jù)智能識別正確率,提高了電量異常數(shù)據(jù)的智能識別效率。
基于數(shù)據(jù)挖掘的電量異常數(shù)據(jù)智能識別方法流程如圖1所示。
圖1 電量異常數(shù)據(jù)智能識別方法流程圖
圖1流程首先構建電量異常數(shù)據(jù)識別指標體系,采集相關指標數(shù)據(jù),并對數(shù)據(jù)實施數(shù)據(jù)清洗、缺失補全以及結構轉換等預處理;然后采用主成分分析算法對電量異常數(shù)據(jù)指標進行降維處理;最后使用數(shù)據(jù)挖掘技術,根據(jù)降維處理后的數(shù)據(jù)建立電量異常數(shù)據(jù)識別模型。
本文獲取待識別電量數(shù)據(jù),設定電量異常標準值,構建電量異常數(shù)據(jù)識別指標體系。電量異常數(shù)據(jù)智能識別指標如表1所示。
表1 電量異常數(shù)據(jù)智能識別指標
電量異常數(shù)據(jù)識別過程需要分析指標之間的關系。電量異常數(shù)據(jù)識別指標的主成分分析流程如圖2所示。
圖2 主成分分析流程圖
本文采用主成分分析算法對初始電量異常數(shù)據(jù)識別指標實施線性組合,以構建新的電量異常數(shù)據(jù)識別綜合指標。F1表示第一主成分,可令電量異常數(shù)據(jù)識別綜合指標的方差足夠大。由于方差同F(xiàn)1內(nèi)所含信息之間成正比,在全部線性組合內(nèi)選取F1方差最大的指標。如果F1無法描述初始指標包含的全部信息,選取第二個線性組合F2,將其定義為第二主成分。循環(huán)上述過程能夠獲取p個彼此間不具備關聯(lián)性的主成分。這些主成分的方差依次遞減。在實際電量異常數(shù)據(jù)識別過程中,一般選取前幾個方差最大的主成分。這樣就減少了電量異常數(shù)據(jù)識別模型的輸入,提升了電量異常數(shù)據(jù)識別方法的工作效率。
電量異常數(shù)據(jù)識別指標權重確定步驟如下。
①讀取初始電量異常數(shù)據(jù)識別指標,對其實施標準化處理后,對指標數(shù)據(jù)進行統(tǒng)計量檢驗、球形檢測。這2種檢測均以相關系數(shù)矩陣為基礎。統(tǒng)計量檢驗的取值范圍為[0,1],其值越大,表示電量異常數(shù)據(jù)識別指標越優(yōu)。球形檢測需進行相關系數(shù)矩陣與單位矩陣間的相關性分析。若指標樣本數(shù)據(jù)檢驗結果為0.001,代表異常指標間具有相關性。
②確定模型主成分特征值及其貢獻率,選取特征值大于1%的若干個主成分構建評價指標。
③利用數(shù)據(jù)挖掘法實施因子旋轉,獲取因子載荷矩陣。根據(jù)因子載荷矩陣數(shù)據(jù),構建電量異常數(shù)據(jù)智能識別主成分因子模型,計算不同主成分貢獻率的乘積。
④評價一致性矩陣。根據(jù)計算權重,評價一致性矩陣為:
R=(txy)n×n
(1)
式中:txy為模型主成分特征值x和y的貢獻率,%;n×n為因子載荷矩陣。
對評價一致性矩陣進行規(guī)范化處理,則:
(2)
式中:Rmax和Rmin為權值指標的最大值和最小值;u為因子旋轉系數(shù)。
⑤數(shù)據(jù)挖掘方法根據(jù)計算權重設定關聯(lián)規(guī)則,建立電量異常數(shù)據(jù)智能識別模型。
本文使用數(shù)據(jù)挖掘技術中的模糊C均值算法實現(xiàn)電量異常特征聚類。本文采用X={x1,x2,…,xn}表示異常指標樣本。其聚類中心及模糊分類矩陣分別用C=[c1、c2,…,cc′]T、A=[aij]c′×n描述。模糊C均值算法的表達式如式(3)所示。
(3)
式中:n為異常指標j的數(shù)量;c為聚類中心;c′為c的數(shù)量;aij為指標j的聚類隸屬度。
聚類數(shù)量的最優(yōu)結果可通過模糊聚類有效性指標函數(shù)獲取,用Vx描述:
(4)
Vx的值越小,聚類結果越優(yōu)。本文以最優(yōu)聚類結果為基準,通過分類提取出與異常特征聚類中心最接近的電量數(shù)據(jù),從而獲得電量異常數(shù)據(jù)特征。
本文利用數(shù)據(jù)樣本與異常特征的相似性,通過正態(tài)分布理論確定識別閾值,以識別電量異常數(shù)據(jù)。
待識別的電量數(shù)據(jù)集合用P描述。其隸屬類的特征用Q描述。P中的某識別樣本為p={1,2,…,k},相似性對比因數(shù)用y1描述:
y1(p)=P(p)-Q(p)
(5)
異常數(shù)據(jù)相似性特征符合式(6):
(6)
式中:δ1為y1的均方差;E1為δ1的均值;θ1為相似性識別閾值。
若電量數(shù)據(jù)符合式(6),則該數(shù)據(jù)為異常數(shù)據(jù)。
為了保證異常識別結果的準確性,本文使用徑向基函數(shù)(radial basis functions,RBF)神經(jīng)網(wǎng)絡構建異常識別模型,對樣本集進行訓練,以增強模型的識別能力,從而獲得相似性識別閾值內(nèi)的最優(yōu)識別結果。
RBF神經(jīng)網(wǎng)絡輸出結果用式(7)描述:
(7)
式中:wik為連接權值向量;s為輸出節(jié)點k的數(shù)量;Ri(k)為RBF。
為了獲得最優(yōu)值,需增加計算節(jié)點數(shù)量。各節(jié)點構建RBF神經(jīng)網(wǎng)絡,將訓練樣本均分給各節(jié)點實現(xiàn)并行處理,以訓練各節(jié)點的RBF神經(jīng)網(wǎng)絡。為了提高訓練準確率,需優(yōu)化連接權值向量。優(yōu)化后的連接權值向量為:
(8)
式中:αi′為節(jié)點i′對于全部節(jié)點所占比重;wi′為節(jié)點權重;m為節(jié)點數(shù)量。
本文采用某市電網(wǎng)18個電量數(shù)據(jù)采集節(jié)點作為研究對象,并將其分別命名為M01~M18。節(jié)點分布式環(huán)境采用Hadoop框架配置。仿真平臺為多個節(jié)點組成Cluster,搭建Hadoop節(jié)點集群,集群通信基于多點接口(multi point interface,MPI)庫實現(xiàn)。電量數(shù)據(jù)集選擇該市電網(wǎng)公司這18個節(jié)點的開放數(shù)據(jù)集數(shù)據(jù)樣本(共53 GB),寫入Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)中。仿真環(huán)境配置如下:網(wǎng)絡環(huán)境為DDR 20 GB Infiniband;單節(jié)點內(nèi)存為6 GB;節(jié)點連接網(wǎng)絡為天河-1A;MPI版本為MPICH-2;處理器為Intel Xeon 64 2.33 GHz;操作系統(tǒng)為Centors 7.0;Hadoop版本為Cloudera Hadoop 5.0。
測試過程為:按照設計的識別流程,構建指標體系;對原始數(shù)據(jù)進行預處理,采用主成分分析算法對識別指標進行線性組合降維處理;利用數(shù)據(jù)挖掘算法確定指標權重(貢獻率)并進行指標排序;使用數(shù)據(jù)挖掘技術中的模糊C均值算法進行電量異常特征聚類,利用RBF神經(jīng)網(wǎng)絡構建異常識別模型;設定相似度識別閾值,通過模型訓練獲得最優(yōu)識別結果。本文分別通過指標貢獻率、識別準確性和識別效率測試本文方法的應用性能。
本文以M16為識別對象,對其進行電量異常數(shù)據(jù)識別。21個評價指標主成分特征值的貢獻率如圖3所示。
圖3 評價指標主成分特征值的貢獻率
由圖3可知,主成分特征值的累計貢獻率達到92.087%。這說明主成分分析能夠體現(xiàn)識別指標的信息,有效實現(xiàn)降維。
本文采用本文方法對18個對象進行電量異常數(shù)據(jù)智能識別,并進行排序。各研究對象電量異常數(shù)據(jù)識別結果如圖4所示。
圖4 各研究對象電量異常數(shù)據(jù)識別結果
本文將電量異常數(shù)據(jù)相似度識別閾值設定為-0.253~-0.185,取這2個數(shù)值的均值,即電量異常數(shù)據(jù)的識別閾值分界點設定為-0.219。分析圖4可知,M17~M11不存在電量異常數(shù)據(jù),而M13~M04具有一定的電量異常數(shù)據(jù)。這說明本文方法能夠識別各種電量異常數(shù)據(jù)。
本文將本文方法和文獻[4]方法識別出的電量異常數(shù)據(jù)與實際情況進行對比,以分析電量異常數(shù)據(jù)識別準確率。電量異常數(shù)據(jù)識別準確率結果如圖5所示。
圖5 識別準確率結果
由圖5可知,本文方法識別準確率高于70%,而文獻[4]方法的準確率低于70%。這說明采用本文方法對電量異常數(shù)據(jù)進行識別的準確性較高。
本文進行異常識別效率測試。本文選擇3個電量數(shù)據(jù)集作為測試對象。各數(shù)據(jù)集大小分別為1.56 GB、1.89 GB、2.01 GB。數(shù)據(jù)條數(shù)均為700條。本文對不同數(shù)據(jù)條數(shù)下數(shù)據(jù)識別效率進行測試。數(shù)據(jù)識別效率的測試結果如圖6所示。
圖6 數(shù)據(jù)識別效率的測試結果
由圖6可知,本文方法對3個試驗數(shù)據(jù)集的識別時間均較少。其中:數(shù)據(jù)量為1.56 GB的試驗數(shù)據(jù)集的識別時間平均為402.32 ms;數(shù)據(jù)量為1.89 GB的試驗數(shù)據(jù)集的識別時間平均為543.25 ms;數(shù)據(jù)量為2.01 GB的試驗數(shù)據(jù)集的識別時間平均為596.32 ms。綜上分析可知,本文方法的數(shù)據(jù)識別速度快,具有良好的識別效率。
針對當前電量異常數(shù)據(jù)智能識別過程存在的問題,如識別時間長、錯誤率高等,本文設計了基于數(shù)據(jù)挖掘的電量異常數(shù)據(jù)智能識別方法。該方法采用主成分分析算法對識別指標進行降維處理,構建異常識別綜合指標;利用數(shù)據(jù)挖掘算法確定指標權重;創(chuàng)新性地融合模糊C均值算法和RBF神經(jīng)網(wǎng)絡構建電量異常數(shù)據(jù)識別模型,實現(xiàn)電量異常數(shù)據(jù)智能識別。試驗結果表明,本文方法能夠準確識別不同電網(wǎng)數(shù)據(jù)異?,F(xiàn)象,為電力數(shù)據(jù)安全管理提供支持。本文方法具有十分廣闊的應用前景。