張凡,陳浩敏,姚森敬,鄧遠(yuǎn)發(fā)
(1.南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司,廣東廣州 510700;2.南方電網(wǎng)深圳數(shù)字電網(wǎng)研究院有限公司,廣東 深圳 518000)
知識圖譜是一種大型的語義網(wǎng)絡(luò),用于描述客觀世界的概念實體時間以及實體映射關(guān)系[1-2]。與電網(wǎng)結(jié)構(gòu)傳統(tǒng)語義網(wǎng)絡(luò)相比,構(gòu)建電力知識圖譜能夠全面覆蓋電力網(wǎng)絡(luò)實體,能夠有效采集電網(wǎng)數(shù)據(jù)屬性、關(guān)系、實體信息等[3]。文獻(xiàn)[4]給出了基于知識圖譜的安全分析架構(gòu)圖,整個架構(gòu)分為數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理層和安全分析層。通過數(shù)據(jù)采集層采集構(gòu)建知識圖譜所需的原始安全數(shù)據(jù)。利用數(shù)據(jù)預(yù)處理層加工安全數(shù)據(jù),從而獲得更深層次的知識。選擇安全分析層預(yù)處理電網(wǎng)數(shù)據(jù),構(gòu)建安全分析知識圖譜。安全分析層可以制定查詢規(guī)則,查詢異常行為、異常實體,同時可以基于已有的風(fēng)險評估模型進(jìn)行資產(chǎn)風(fēng)險評估。文獻(xiàn)[5]基于知識圖譜技術(shù),探索電力設(shè)備缺陷記錄檢索方法,提升缺陷記錄檢索效果。但上述方法存在重復(fù)采集電網(wǎng)數(shù)據(jù)問題,使最終生成的知識圖譜置信度過低,效果不理想。因此,該文提出基于電網(wǎng)多源數(shù)據(jù)的電力知識圖譜構(gòu)建方法,提高知識圖譜置信度。
采集實體電網(wǎng)多元素數(shù)據(jù)時,以電力發(fā)電廠與電網(wǎng)客服系統(tǒng)作為采集對象[6]。實體電網(wǎng)多源數(shù)據(jù)采集架構(gòu)如圖1 所示。
整合實體電網(wǎng)架構(gòu)中相同源頭的電力知識數(shù)據(jù)[7],賦予實體電力知識權(quán)重:
其中,E|ε|表示電網(wǎng)中實體電力知識數(shù)量。電力知識間的相似性表示為:
其中,a、b分別表示不同的電力知識實體,φ(a)、φ(b)分別表示知識相似性函數(shù)和變換約束函數(shù)。定義上述得到的相似性電網(wǎng)多源數(shù)據(jù)的實體集合為E。為了減少相同電網(wǎng)知識的重復(fù)采集[8-9],將可能含有語義相似的實體進(jìn)行平滑處理:
其中,ei、ej分別表示含有相同電力知識的電力知識實體,計算得到重復(fù)采集的電力知識實體:
其中,wij表示采集得到電力知識實體間的連接矩陣,N(ei)表示參與計算的電力實體數(shù)量。將采集處理后的電網(wǎng)多源數(shù)據(jù)作為處理對象,抽取實體內(nèi)的電力知識。
將電力知識間的關(guān)系轉(zhuǎn)變?yōu)榉诸惼骺勺R別的特征數(shù)值[10],轉(zhuǎn)變過程為:
其中,M(r)表示差異參數(shù),vr(ei,ej)表示電力知識的差異函數(shù)。轉(zhuǎn)化處理電網(wǎng)多源數(shù)據(jù)后,計算可識別知識變量中的互信息表征:
其中,f表示電力知識類別中的變量,P(r)P(f)表示變量與特征數(shù)值間的聯(lián)合分布[11]。
在標(biāo)注互信息表征關(guān)系的同時構(gòu)建最大熵模型,電力知識的抽取過程如圖2 所示。
圖2 電力知識抽取過程
根據(jù)圖2 可知,電力知識最終生成一個具有實體關(guān)系的三元組[12],構(gòu)建電力特征篩選過程:
其中,fi(x,y)表示第i個電力知識關(guān)系三元組的特征方程,λi表示特征方程的權(quán)重參數(shù),k表示得到的三元組數(shù)量,Z(X)表示歸一化因子。
計算上述抽取得到的電力知識邏輯參數(shù):
其中,z表示電力知識集合,Q(z(i))表示具有邏輯性的電力知識,P(x(i),z(i))表示電力知識的似然函數(shù)[13-14]。
構(gòu)建電力知識圖譜前,消除該部分冗余,消除過程為:
其中,E(Δ)表示電力知識冗余結(jié)構(gòu)參數(shù)[15],γ表示冗余的間隔參數(shù)[16]。消除該部分冗余后,匯總上述邏輯參數(shù)對應(yīng)的電力知識[17],知識譜構(gòu)建過程如圖3 所示。
圖3 電力知識譜構(gòu)建過程
在電力知識譜構(gòu)建過程,控制實際電力知識采用自頂向下的構(gòu)建方向。設(shè)定電網(wǎng)多源數(shù)據(jù)開放獲取鏈接,不斷更新電力知識的實體關(guān)系。綜合上述處理,最終完成基于電網(wǎng)多源數(shù)據(jù)的電力知識圖譜構(gòu)建。
以表1 電力系統(tǒng)運(yùn)行標(biāo)準(zhǔn)參數(shù)為準(zhǔn),搭建電力實驗平臺。
表1 電力系統(tǒng)運(yùn)行標(biāo)準(zhǔn)參數(shù)設(shè)置
采用集中部署的電力平臺作為電網(wǎng)多源數(shù)據(jù)的采集對象,采集數(shù)據(jù)的電網(wǎng)結(jié)構(gòu)如圖4 所示。
圖4 電網(wǎng)多源數(shù)據(jù)目標(biāo)采集結(jié)構(gòu)
在電網(wǎng)多源數(shù)據(jù)目標(biāo)采集結(jié)構(gòu)下,使用文獻(xiàn)[4]方法、文獻(xiàn)[5]方法以及文中設(shè)計的方法進(jìn)行實驗,對比不同知識圖譜構(gòu)建方法的性能。
對圖4中的電網(wǎng)多源數(shù)據(jù)采集20次,將電力知識常識作為標(biāo)準(zhǔn),構(gòu)建知識圖譜準(zhǔn)確率,計算公式為:
其中,T1表示被正確預(yù)測的知識關(guān)系數(shù)量,T2表示預(yù)測出的知識關(guān)系數(shù)量。
不同圖譜構(gòu)建方法的準(zhǔn)確率結(jié)果如圖5 所示。
圖5 不同圖譜構(gòu)建方法準(zhǔn)確率結(jié)果
根據(jù)圖5 可知,文中設(shè)計的知識圖譜構(gòu)建方法最終產(chǎn)生的準(zhǔn)確率數(shù)值較高。在處理相同數(shù)量的多源數(shù)據(jù)數(shù)量時,準(zhǔn)確率保持在97%左右。
保持上述實驗環(huán)境不變,將構(gòu)建知識圖譜中各項指標(biāo)作為處理對象,對多源數(shù)據(jù)進(jìn)行召回,獲取不同方法的召回率,計算公式為:
其中,T3表示電網(wǎng)多源數(shù)據(jù)包含的知識圖譜關(guān)系。不同構(gòu)建方法產(chǎn)生的召回率結(jié)果如圖6 所示。
圖6 不同圖譜構(gòu)建方法召回率結(jié)果
根據(jù)圖6 可知,文獻(xiàn)[4]方法平均召回率約為0.50%,知識圖譜構(gòu)建時對電網(wǎng)多源數(shù)據(jù)的召回數(shù)量較小。文獻(xiàn)[5]方法產(chǎn)生的平均召回率約為0.58%,實際召回的電網(wǎng)多源數(shù)據(jù)數(shù)量較多。而文中設(shè)計的方法平均召回率約為0.78%,召回處理的電網(wǎng)多源數(shù)據(jù)數(shù)量高于文獻(xiàn)[4]方法和文獻(xiàn)[5]方法,最終得到的知識圖譜結(jié)構(gòu)更加完整。
以不同知識圖譜構(gòu)建得到的三元組F 值作為對比對象。知識圖譜三元組中的F 值越大,則表示構(gòu)建得到的電力知識圖譜置信度越高,計算公式為:
變換構(gòu)建方法處理的多源數(shù)據(jù)組數(shù)量后,計算并統(tǒng)計不同方法的F 值。F 值大小如表2 所示。
表2 不同圖譜構(gòu)建方法F值結(jié)果
根據(jù)表2 可知,文獻(xiàn)[4]方法得到的F 值在53 左右,實際構(gòu)建得到的電力知識圖譜的置信度較弱。文獻(xiàn)[5]方法得到的F 值在73 左右,對應(yīng)得到的電力知識圖譜的置信度較高。而文中設(shè)計的方法得到F 值在93 左右,與文獻(xiàn)[4]方法和文獻(xiàn)[5]方法相比,文中設(shè)計的方法實際構(gòu)建得到的知識圖譜置信度較高。
隨著電力電網(wǎng)規(guī)模增大,電力數(shù)據(jù)管理工作趨于復(fù)雜。為此,以電網(wǎng)多源數(shù)據(jù)為基礎(chǔ),構(gòu)建電力知識圖譜具有一定意義。電網(wǎng)多源數(shù)據(jù)的電力知識圖譜構(gòu)建方法能夠改善現(xiàn)有圖譜構(gòu)建方法的不足,為今后電力知識圖譜系統(tǒng)設(shè)計提供理論支持。