萬嬋, 馮歆堯, 梁盈威
(廣東電網(wǎng)有限責任公司, 廣東, 廣州 510000)
客戶關(guān)系圖譜(customer relationship map,CRM)可以有效識別客戶自身的屬性數(shù)據(jù)與其他領(lǐng)域融合度的數(shù)據(jù)[1-2],并對電網(wǎng)企業(yè)與客戶之間的流動數(shù)據(jù)進行關(guān)系評定,為電網(wǎng)企業(yè)的數(shù)據(jù)分析、設(shè)備調(diào)度提供客觀、準確的支持[3-4]。本文以行業(yè)動態(tài)、氣象信息、工商等為跨領(lǐng)域范圍,構(gòu)建電網(wǎng)企業(yè)與客戶之間的圖譜模型,分析模型的有效性、準確性以及計算時間,為電網(wǎng)企業(yè)的整體調(diào)度與管理提供數(shù)據(jù)和案例支持。
為進一步增加圖譜的構(gòu)建關(guān)系,需要對電網(wǎng)企業(yè)客戶關(guān)系進行數(shù)學分析,后期的量化分析奠定基礎(chǔ)[5]。
跨域數(shù)據(jù)融合存在2個難點問題:① 海量的非結(jié)構(gòu)化數(shù)據(jù),部分半結(jié)構(gòu)化數(shù)據(jù)以及低價值數(shù)據(jù),增加融合數(shù)據(jù)的處理量;② 多源性的動態(tài)數(shù)據(jù),提高了融合的復雜度。上述2個難點降低了客戶關(guān)系圖譜分析的準確性和有效性[6-7],如圖1所示。
由圖1可知,客戶關(guān)系圖譜要針對金融、電力行業(yè)、氣象等領(lǐng)域進行數(shù)據(jù)的綜合分析,并對結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進行動態(tài)分析、推理和評價,最終得到客戶需求、檢測、反饋和服務效果判斷,以判斷電網(wǎng)的負荷、運行情況和供電質(zhì)量結(jié)果。
圖1 客戶關(guān)系圖譜的數(shù)據(jù)流動過程
為了更加準確、高效地進行數(shù)據(jù)融合分析,構(gòu)建客觀的電網(wǎng)企業(yè)關(guān)系圖,需要進行數(shù)據(jù)流描述。目前,對于數(shù)據(jù)流的綜合算法包括遺傳算法、人工魚群算法、貝葉斯算法等[8]??缬驍?shù)據(jù)具有大數(shù)據(jù)特征,需要進行特征數(shù)據(jù)抽取處理,以簡化數(shù)據(jù)的計算量。具體數(shù)學描述如下。
(3) 不同領(lǐng)域數(shù)據(jù)的融合,采用融合函數(shù)φ(x)計算融合程度,并調(diào)整融合的比例。融合函數(shù)的計算公式如下:
(1)
其中,αi描述為i行業(yè)的融合調(diào)節(jié)體系,該系數(shù)是各行業(yè)實踐經(jīng)驗統(tǒng)計的結(jié)果;ξ為各行業(yè)調(diào)節(jié)誤差的平均值,調(diào)節(jié)誤差是實際統(tǒng)計與理論分析的統(tǒng)計結(jié)果。
(4) 不同領(lǐng)域的數(shù)據(jù)以電網(wǎng)企業(yè)調(diào)度中心的服務器為基礎(chǔ),計算客戶關(guān)系圖譜的構(gòu)建時間T、計算效果θ以及融合數(shù)據(jù)的簡化率wI(以出現(xiàn)頻率作為參照,進行簡化率計算),具體公式如下:
(2)
其中,GIj為j類型數(shù)據(jù)的I行業(yè)信息的出現(xiàn)次數(shù),GI為I行業(yè)信息在電網(wǎng)融合數(shù)據(jù)庫中的總量,Gj為j類型數(shù)據(jù)的總量,wI為I行業(yè)信息的簡化程度。
本文采用退火模擬算法的Metropolis接受準則,對重要性進行判斷,其初始依據(jù)為50%,即數(shù)據(jù)融合對圖譜模型的價值>50%,才能被選為初始數(shù)據(jù)。假設(shè)數(shù)據(jù)的初始價值為VI,那么其是否需要提升自身的價值,即VI向VI+1轉(zhuǎn)變進行以下公式計算:
(3)
2.2 跨域數(shù)據(jù)與電網(wǎng)企業(yè)客戶間的數(shù)據(jù)關(guān)系算子構(gòu)建
跨域數(shù)據(jù)與電網(wǎng)企業(yè)客戶之間建立復雜的多元關(guān)系,可以通過局部擬合Pc和整體擬合Pm的方式進行判斷[9-10]。局部擬合分為跨域數(shù)據(jù)局部擬合Pc1和電網(wǎng)企業(yè)客戶局部擬合Pc2,整體擬合為跨域數(shù)據(jù)與電網(wǎng)企業(yè)客戶間關(guān)系的反映,即本模型構(gòu)建要得到的最終擬合值。
如下:
(4)
在初始精度要求的情況[11-12]下,對數(shù)據(jù)擬合的3方面內(nèi)容進行精準判斷,以得到關(guān)系圖譜的計算精準度,計算公式如下:
(5)
針對上述各算子的模型構(gòu)建,進行以下幾方面的計算。
(1) 構(gòu)建跨域數(shù)據(jù)融合的信息集合,C={c1,c2,…,ci},剔除數(shù)據(jù)中影響價值<50%的數(shù)據(jù),并設(shè)置預設(shè)的閾值、權(quán)重和計算精度。
(3) 預處理后的數(shù)據(jù)進行局部擬合和整體擬合分析,得到Pc和Pm的擬合值。
(4) 對整個數(shù)據(jù)擬合進行遍歷,直到所有的數(shù)值均被遍歷,并依據(jù)預設(shè)的迭代次數(shù)進行MATLAB仿真分析,計算不同迭代結(jié)果的平均準確度、模型構(gòu)建時間、依據(jù)模型與原有BP算法的精準度差異。
以中國電力網(wǎng)(http:∥www.chinapower.com.cn/)、《2020年中國統(tǒng)計年鑒》、中國商業(yè)數(shù)據(jù)網(wǎng)數(shù)據(jù)為輔助。同時,借助Neo4j、Flock DB、AllegroGraph等融合技術(shù),利用模型進行客戶關(guān)系圖分析。電網(wǎng)的運行負荷xi、客戶與電網(wǎng)企業(yè)間的狀態(tài)xj、客戶得到電能質(zhì)量xk的輸出精度設(shè)置為0.1,并將擬合初始值設(shè)定為78%,局部閾值設(shè)定為69%,迭代次數(shù)為150次。數(shù)據(jù)采集樣本為2 031份,商業(yè)類數(shù)據(jù)占23.1%,電力行業(yè)類占72.3%,氣象類占3.6%,其他類數(shù)據(jù)占1%。采集數(shù)據(jù)通信采用TCP/IP、HTTP協(xié)議,數(shù)據(jù)傳輸采用光纖、Wi-Fi、GPS和ZigBee通信。
利用Metropolis接受準則和k-means聚類對采集的數(shù)據(jù)進行簡化,剔除不符合閾值要求的數(shù)據(jù),即簡化程度=剔除后的數(shù)據(jù)/原采集數(shù)據(jù)總量。對跨域數(shù)據(jù)進行簡化,在特征值的不斷計算過程中,數(shù)據(jù)的簡化程度大幅提高,如圖2所示。
由圖2可知,不同領(lǐng)域的數(shù)據(jù)簡化程度比較理想,且均>35%(注:如果曲線不收斂,則調(diào)整閾值,直至曲線收斂)。其中,氣象數(shù)據(jù)的簡化程度最高,其次為商業(yè)類數(shù)據(jù)和其他類數(shù)據(jù),最低的是電力數(shù)據(jù)。商業(yè)類數(shù)據(jù)與電網(wǎng)企業(yè)客戶的密切程度較高,但固定利率和長期的金融政策也使得其簡化程度提高[13]。雖然實時監(jiān)控使得數(shù)據(jù)量激增,但電網(wǎng)系統(tǒng)的智能化水平大幅提高,有價值信息比例較高,所以復雜程度的簡化率僅為35%左右。
圖2 不同領(lǐng)域數(shù)據(jù)的簡化程度
在0.1精度標準下計算電網(wǎng)負荷判斷xi、電網(wǎng)運行狀態(tài)判斷xj、電能質(zhì)量xk的結(jié)果準確率,并分析金融、電力行業(yè)、氣象等領(lǐng)域電網(wǎng)企業(yè)客戶關(guān)系的融合程度Pc以及整體融合程度Pm。具體結(jié)果圖3所示。
圖3 跨域數(shù)據(jù)、電網(wǎng)企業(yè)客戶、整體融合程度與計算結(jié)果的準確性
模型整體融合程度較高,均高于90%,模型的計算結(jié)果,精準度>90%,符合電力系統(tǒng)智能化管理要求以及電網(wǎng)供電服務的要求。電網(wǎng)負荷判斷xi、電網(wǎng)運行狀態(tài)判斷xj、電能質(zhì)量xk檢測精度標準為0.1,是目前電網(wǎng)企業(yè)整體的運行要求,所以整體的精準度計算結(jié)果較好。
關(guān)系圖譜的生成時間涉及節(jié)點結(jié)算、節(jié)點間關(guān)系,以及圖譜的整體生成時間。針對上述3個方面進行分析,得到下面的仿真結(jié)果,如圖4所示。
圖4 客戶關(guān)系圖譜各階段生成效果及運算時間
通過上述分析可知,客戶關(guān)系圖譜的節(jié)點、關(guān)系和整體生成時間均50 s以內(nèi),符合電網(wǎng)智能化管理的標準,也符合《電網(wǎng)運行準則》(GB/T 31464)的準則。圖3中圖形的具體生成過程如圖5所示。由于Microsoft系統(tǒng)中的圖形是自上而下地輸出的,所有本文的關(guān)系模型也是自上而下輸出的。圖4中的圖譜比例=圖形以生成面積/總圖形面積×100%,如圖5所示,直至完成所有節(jié)點的分析。其中,整體時間=節(jié)點生成時間+客戶關(guān)系生成時間+圖形整體審核時間。
圖4迭代過程的輸出結(jié)果如圖5所示。在圖5中,客戶關(guān)系圖譜模型自上而下進行節(jié)點、客戶關(guān)系進行圖譜構(gòu)建。第一~第三階段是對整個圖譜中節(jié)點、客戶關(guān)系的分析;第四階段是對整個關(guān)系圖譜進行審核,審核各個節(jié)點、關(guān)系是否符合各自閾值,并最終輸出結(jié)果。
隨著電網(wǎng)智能化的快速發(fā)展,跨域分析客戶關(guān)系成為客觀需求。如何融合氣象、商業(yè)、電力等領(lǐng)域的數(shù)據(jù)[12-13],促進相關(guān)數(shù)據(jù)的融合,并構(gòu)建精準度較高的分析模型,是目前亟待解決的問題。本文利用k-means聚類和Metropolis接受準則,構(gòu)建基于跨域數(shù)據(jù)融合的電網(wǎng)企業(yè)客戶關(guān)系圖譜模型,并進行MATLAB仿真分析。結(jié)果顯示: 不同領(lǐng)域的數(shù)據(jù)復雜程度處理比較理想,且均>35%; 整體融合程度較高,均高于90%,模型的計算結(jié)果,精準度>90%,符合電力系統(tǒng)智能化管理要求以及電網(wǎng)供電服務的要求; 客戶關(guān)系圖譜的節(jié)點、關(guān)系和整體生成時間均在50 s以內(nèi),符合電網(wǎng)智能化管理的標準。