畢艷冰,于希永,杜旭光,朱春艷,李明
(北京國網(wǎng)信通埃森哲信息技術(shù)有限公司,北京 100052)
在電力系統(tǒng)中,電網(wǎng)必須實時保持發(fā)電量與電網(wǎng)之間的動態(tài)平衡,一旦超出需求范圍,將影響電力系統(tǒng)的運行狀態(tài)。這種情況一旦發(fā)生,不僅增加了用電成本,浪費了能源,同時也對電能質(zhì)量造成了嚴(yán)重影響,無法保證電力系統(tǒng)的安全運行,合理分配電能是預(yù)測未來負荷變化的重要手段。目前,使用的基于關(guān)聯(lián)分析算法的挖掘技術(shù),通過處理跨系統(tǒng)的電網(wǎng)多維數(shù)據(jù),構(gòu)建相關(guān)性指標(biāo)模型,并校驗冗余數(shù)據(jù)。結(jié)合關(guān)聯(lián)分析算法,挖掘跨系統(tǒng)電網(wǎng)數(shù)據(jù)[1];基于灰靶理論與云模型的挖掘技術(shù),利用自適應(yīng)高斯云變換算法,處理跨系統(tǒng)電網(wǎng)數(shù)據(jù)。構(gòu)建實際場景與多維數(shù)據(jù)匹配模型,挖掘跨系統(tǒng)電網(wǎng)多維數(shù)據(jù)[2]。上述兩種方法由于受到來源多、結(jié)構(gòu)化程度復(fù)雜數(shù)據(jù)的影響,導(dǎo)致挖掘結(jié)果與理想結(jié)果不一致。為了解決以上存在的問題,該文提出了基于知識圖譜的跨系統(tǒng)電網(wǎng)多維數(shù)據(jù)自動挖掘方法。
為充分展示跨系統(tǒng)多維數(shù)據(jù)間的相互關(guān)系,更直觀、有效地挖掘跨系統(tǒng)的多維數(shù)據(jù),采用基于知識圖譜的三維融合顯示方法,使各種數(shù)據(jù)的相關(guān)特性可視化。
為實現(xiàn)多維數(shù)據(jù)的知識圖譜可視化,在系統(tǒng)電網(wǎng)上對多維數(shù)據(jù)進行投影,具體步驟如下:
第一步:選擇最佳的低階子空間,選取最大范數(shù)的行列向量,保證了稀疏矩陣的逼近性,確定低水平空間,并對子空間進行抽樣和特征分析[3];
第二步:計算低層樣本子空間中每一類物體的類別比例的概率;
第三步:在低水平空間內(nèi)嵌入樣本數(shù)據(jù),保證輸入樣本與低水平空間的數(shù)據(jù)差異最小[4]。
通過這三個步驟,實現(xiàn)了低層空間大規(guī)模數(shù)據(jù)的可視化。
該方法融合了空間和時間可視化的重要性,在動態(tài)大數(shù)據(jù)領(lǐng)域具有以下獨特的性能:
1)時間效率:該可視化方法的運行時間是線性的,與其他可視化方法相比,它的時間復(fù)雜度為O(n2)。另外,對于高精度可視化方法,時空域數(shù)據(jù)要比空域數(shù)據(jù)快。
2)空間效率:該可視化方法在空間復(fù)雜性方面具有很強的可視化能力,空間復(fù)雜度為O(n),而其他算法一般需要O(n2)存儲單元。此外,對時空域數(shù)據(jù)有意義的可視化方法并沒有分配所有的歷史日歷數(shù)據(jù)空間,因此在處理變化的數(shù)據(jù)和無法一次裝載的大量數(shù)據(jù)時特別有用[5]。
3)稀疏性:在時空域數(shù)據(jù)可視化方法中,保留最低空間的稀疏數(shù)據(jù)。
4)解釋性:分解特征子空間矩陣,形成三個子空間,并對子空間進行選擇和更新,避免數(shù)據(jù)排列的混亂和重疊。
基于空域和時空域顯著可視化特征,進行了跨系統(tǒng)電網(wǎng)多維數(shù)據(jù)的分析與交互,基于知識圖譜的三維融合顯示結(jié)果如圖1 所示。
圖1 基于知識圖譜的三維融合展示
由圖1 可知,圖(a)、(b)分別為t-1 時刻的可視化和t時刻的可視化,其中每一點代表了視頻中特征點的分布。圖中顯示記錄數(shù)量遞增的視覺分布變化很小,代表了一段時間的一致性。圖(c)不僅增強了知識圖譜的可視化程度,還可以更新數(shù)據(jù)。通過整合圖(a)、(b)、(c),可確定完整的可視化區(qū)域,將該區(qū)域轉(zhuǎn)換為放大視圖來顯示詳細數(shù)據(jù)[6-7]。
在計算機上挖掘多維數(shù)據(jù)時,如果將供電可靠性提高,并用0 到5 六個不同字符來表示,則可使用[1,0,0]表示改進。因此,當(dāng)一個數(shù)據(jù)被映射到一個D維向量時,這個數(shù)據(jù)不對應(yīng)向量矩陣L。這種表示方式存在兩個潛在的問題:一是容易產(chǎn)生數(shù)據(jù)稀疏性,二是數(shù)據(jù)屬性相似[8]。為此,提出了一種適用于計算機多維數(shù)據(jù)挖掘的方法,結(jié)合知識圖譜,將電網(wǎng)多維數(shù)據(jù)中得到的原始數(shù)據(jù)進行變換,并對數(shù)據(jù)向量矩陣L進行優(yōu)化[9]。構(gòu)建基于知識圖譜的多維數(shù)據(jù)挖掘模型,如圖2所示。由圖2 可知,對于確定的n元任意組,利用中心數(shù)據(jù)的向量f(αi)來預(yù)測跨系統(tǒng)電網(wǎng)多維數(shù)據(jù)中的第t個數(shù)據(jù)αt的概率,計算公式為:
圖2 基于知識圖譜的多維數(shù)據(jù)挖掘模型
式中,αi表示中心數(shù)據(jù);f(αi)∈Rn表示中心數(shù)據(jù)對應(yīng)的n維數(shù)據(jù)向量,該向量可通過檢索n維數(shù)據(jù)向量矩陣L可以獲取[10-11]。
基于知識圖譜的目標(biāo)函數(shù)是一種n維數(shù)據(jù)向量矩陣,使全部數(shù)據(jù)的對數(shù)似然最大化,該過程可描述為:
式中,C表示挖掘背景窗口大小。
跨系統(tǒng)電網(wǎng)多維數(shù)據(jù)經(jīng)過挖掘后,獲取優(yōu)化后的n維數(shù)據(jù)向量矩陣包含了所有挖掘目標(biāo)的分布式向量[12]。
結(jié)合構(gòu)建的基于知識圖譜的多維數(shù)據(jù)挖掘模型,詳細設(shè)計了跨系統(tǒng)電網(wǎng)多維數(shù)據(jù)挖掘流程:
步驟一:初始化處理實時數(shù)據(jù)庫、已知故障區(qū)域、未知故障區(qū)域。在已知的故障區(qū)域和實時數(shù)據(jù)庫分別添加初始訓(xùn)練樣本集,共有N個待測樣本[13]。
步驟二:該算法以現(xiàn)有的實時數(shù)據(jù)庫為樣本,采用迭代優(yōu)化方法,獲得懲罰系數(shù)λ。在選定多維數(shù)據(jù)挖掘模型參數(shù)的基礎(chǔ)上建立了新的多維數(shù)據(jù)挖掘模型參數(shù)[14]。
步驟三:提出了一個新的多維數(shù)據(jù)挖掘模型來檢測第n個樣本。設(shè)樣本xi是n維數(shù)據(jù),通過非線性映射?將數(shù)據(jù)映射到高維空間中,結(jié)合SVDD 算法檢索最小區(qū)間,保證所有非線性映射樣本φ(xi)均包含在該區(qū)間,可將SVDD算法的求解轉(zhuǎn)化為式(3)優(yōu)化問題:
式中,R表示區(qū)間周長;λ表示懲罰系數(shù);ξi表示變量系數(shù);O表示區(qū)間中心[15]。如果計算結(jié)果大于0,則判斷樣本為已知的故障類型,并轉(zhuǎn)移至已知的故障區(qū)域;反之則移入未知故障區(qū)域。
得到多維數(shù)據(jù)自動分類樣本如式(4)所示:
步驟四:如果故障區(qū)中的樣本數(shù)增量為numi,則執(zhí)行步驟六;否則,繼續(xù)執(zhí)行步驟三。
步驟五:當(dāng)未知故障區(qū)域樣本數(shù)達到上限numuni時,利用知識圖譜聯(lián)合搜索未知分組故障,總搜索次數(shù)總計numuni-1 次。在第nuni(0 ≤nuni≤numuni-1)次搜索過程時,基于知識圖譜聚類后,確定某一類未知故障的樣本數(shù)目達到設(shè)定下限numunf。在第numi次聚類中,此類別中樣本數(shù)目最大的組可被視為新故障,并把這組新故障的樣本群從未知故障區(qū)域轉(zhuǎn)移至實時數(shù)據(jù)庫中,并更新未知故障區(qū)域[16]。
步驟六:對當(dāng)前已知故障區(qū)域的樣本集聚類后,判斷每個樣本的類別。更新群集結(jié)構(gòu)(群集分布、群集中心)到實時數(shù)據(jù)庫。如果已知故障區(qū)域中的樣本數(shù)量等于N,則執(zhí)行步驟七;如果已知的錯誤區(qū)域的樣本量小于N,則執(zhí)行步驟二。
步驟七:判斷所有N個測試樣本的故障類型,完成跨系統(tǒng)電網(wǎng)多維數(shù)據(jù)自動挖掘。
研究基于知識圖譜的跨系統(tǒng)電網(wǎng)多維數(shù)據(jù)自動挖掘方法在某市公司試點進行仿真實驗分析。其數(shù)據(jù)來源于110 kV 變電站工程,非結(jié)構(gòu)化數(shù)據(jù)為該工程實驗報告,實驗數(shù)據(jù)為2 900 個字符串和35個長度為150 的列表,為了方便實驗分析,需抽取實驗數(shù)據(jù)。
對于來源多、結(jié)構(gòu)化程度復(fù)雜的跨系統(tǒng)電網(wǎng)多維數(shù)據(jù),獲取設(shè)備名稱、種類、材料和成本明細描述四類實體數(shù)據(jù)共500 個,屬性關(guān)系489 條。其數(shù)據(jù)庫的結(jié)構(gòu)如圖3 所示。
由圖3 可知,過濾重復(fù)數(shù)據(jù),完成數(shù)據(jù)庫的開發(fā)。從word 文件和excel 文件中抽取四類實體數(shù)據(jù)共400 個。
圖3 數(shù)據(jù)庫結(jié)構(gòu)
將準(zhǔn)確率、召回率和F 值作為指標(biāo),對比分析基于關(guān)聯(lián)分析算法、灰靶理論與云模型的基于知識圖譜的挖掘技術(shù)字符串抽取結(jié)果。其三個指標(biāo)計算公式,如下所示:
式中,Recall 表示準(zhǔn)確率;Precision 表示召回率;f表示正確劃分?jǐn)?shù)據(jù)種類數(shù);M表示實際劃分?jǐn)?shù)據(jù)種類數(shù);G表示劃分?jǐn)?shù)據(jù)種類數(shù)。
三種方法在1 000 個測試字符串上,共劃分為150 種類別,對應(yīng)的三個指標(biāo)計算結(jié)果如表1 所示。
表1 三種方法三個指標(biāo)計算結(jié)果對比分析
由表1 可知,使用基于知識圖譜的挖掘技術(shù)表現(xiàn)明顯優(yōu)于關(guān)聯(lián)分析算法和灰靶理論與云模型挖掘方法。抽取數(shù)據(jù)間的屬性關(guān)系,確定考慮依存關(guān)系指標(biāo)和不考慮依存關(guān)系指標(biāo),如下所示:
式中,U表示考慮依存關(guān)系指標(biāo);L′表示不考慮依存關(guān)系指標(biāo);r表示核心數(shù)據(jù)正確的數(shù)量;r′表示核心數(shù)據(jù)正確且依存關(guān)系也正確的數(shù)據(jù)量;R′表示總數(shù)據(jù)量。使用三種方法對比分析不同數(shù)據(jù)字符串間的依存關(guān)系,對比結(jié)果如表2 所示。
表2 三種方法不同數(shù)據(jù)字符串間依存關(guān)系對比結(jié)果
由表2 可知,使用的基于知識圖譜的挖掘技術(shù)可以取得比基于關(guān)聯(lián)分析算法、灰靶理論與云模型挖掘技術(shù)更加精確的結(jié)果。
利用知識圖譜實現(xiàn)跨系統(tǒng)電網(wǎng)多維數(shù)據(jù)的自動挖掘方法,既能滿足不同用戶的自動檢索需求又能解決基礎(chǔ)設(shè)施項目間數(shù)據(jù)跨系統(tǒng)交換的障礙。隨著現(xiàn)代化智能電網(wǎng)的不斷建設(shè)與發(fā)展,知識圖譜的構(gòu)建也需要不斷更新和完善。未來應(yīng)考慮數(shù)據(jù)一致性和ETL 技術(shù),以研究知識庫的自動更新,確保知識庫的有效性。