趙軍,董勤偉,吳 俊,戴威
(國網(wǎng)江蘇省電力有限公司,江蘇 南京 210000)
隨著我國經(jīng)濟(jì)的發(fā)展,配電網(wǎng)絡(luò)的配置和規(guī)模受用電需求的增長而不斷發(fā)生改變,如何對配電網(wǎng)絡(luò)進(jìn)行科學(xué)的管理、及時(shí)發(fā)現(xiàn)潛在故障的誘因、快速確定故障的類型與解決方案成為了業(yè)界關(guān)注的焦點(diǎn)[1-3]。為了保障供電安全,較多先進(jìn)的監(jiān)測設(shè)備和管理措施被應(yīng)用在現(xiàn)代電力系統(tǒng)中,尤其是數(shù)據(jù)中臺的建設(shè)促使電力行業(yè)數(shù)據(jù)實(shí)現(xiàn)了邏輯集中,使得各類電力系統(tǒng)所產(chǎn)生的數(shù)據(jù)得以有效采集、存儲、處理和分析[4-8]。除了上述數(shù)據(jù)外,來自互聯(lián)網(wǎng)等其他領(lǐng)域的公開數(shù)據(jù)逐漸被應(yīng)用在電網(wǎng)安全風(fēng)險(xiǎn)評估、安全維護(hù)等應(yīng)用領(lǐng)域[9]。
隨著數(shù)據(jù)來源的增多,海量、異構(gòu)數(shù)據(jù)的高效處理成為制約電力行業(yè)數(shù)字化發(fā)展的瓶頸。如何進(jìn)行電力行業(yè)內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)的有效融合,成為相關(guān)學(xué)者的研究課題之一[10-11]。目前為止,網(wǎng)絡(luò)本體語言、資源描述框架被提出用來進(jìn)行異構(gòu)數(shù)據(jù)的表示,并取得了一定的進(jìn)展。2012 年,知識圖譜由谷歌公司提出,因其嚴(yán)謹(jǐn)、強(qiáng)大的數(shù)據(jù)表示能力以及完善的各類配套工具,成為多源數(shù)據(jù)融合的重要方法之一[12-16]。
針對以上問題,該文開展了電力工程知識圖譜架構(gòu)算法研究。通過構(gòu)建電力工程知識圖譜將電力行業(yè)與外部數(shù)據(jù)進(jìn)行系統(tǒng)性整理,同時(shí)理清相關(guān)專業(yè)概念,便于相關(guān)從業(yè)者查詢;針對多源、異構(gòu)數(shù)據(jù),采用CRF 算法把非結(jié)構(gòu)化文本信息通過分詞以及提取詞向量的手段轉(zhuǎn)化為結(jié)構(gòu)化信息;最終將典型相關(guān)分析(CCA)和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,通過逐層語義匹配,構(gòu)建出深度語義匹配模型。
電力工程知識圖譜的構(gòu)建目的在于對電力系統(tǒng)中的各項(xiàng)數(shù)據(jù)進(jìn)行系統(tǒng)性地整理、分析,從而發(fā)現(xiàn)電力系統(tǒng)管理中的不足和潛在故障誘因,提高電網(wǎng)管理和應(yīng)急保障能力。知識圖譜是一種由節(jié)點(diǎn)和邊線構(gòu)成的圖數(shù)據(jù)結(jié)構(gòu),每一個(gè)節(jié)點(diǎn)代表電力系統(tǒng)中一類信息來源,通過連線的方式表征來自不同信息源數(shù)據(jù)之間的邏輯關(guān)系,進(jìn)而得到實(shí)體關(guān)系網(wǎng)絡(luò)。而多源異構(gòu)數(shù)據(jù)的融合,有效提升了電力數(shù)據(jù)的數(shù)據(jù)挖掘能力,進(jìn)而提高預(yù)測電力故障的精度。通過基于多源異構(gòu)數(shù)據(jù)融合的電力工程知識圖譜架構(gòu)算法,可以有效提高電力系統(tǒng)管理的綜合能力。
基于多源異構(gòu)數(shù)據(jù)融合的電力工程知識圖譜架構(gòu)算法主要分為兩個(gè)部分,如圖1 所示。第一個(gè)部分為知識圖譜構(gòu)建,首先整理相關(guān)領(lǐng)域的專業(yè)術(shù)語,并將其轉(zhuǎn)化為知識圖譜的節(jié)點(diǎn),再以各專業(yè)概念之間的邏輯關(guān)系為各節(jié)點(diǎn)的連線;第二個(gè)部分為非結(jié)構(gòu)化的概念和信息的結(jié)構(gòu)化轉(zhuǎn)換與數(shù)據(jù)融合。
圖1 電力工程知識圖譜架構(gòu)算法的總體框架
伴隨著國家電網(wǎng)建設(shè)規(guī)模的增大,電網(wǎng)數(shù)據(jù)呈現(xiàn)大幅增長的趨勢,且數(shù)據(jù)類型繁多,具體表現(xiàn)為:不同的采集周期所呈現(xiàn)出來的數(shù)據(jù)信息略有不同;電網(wǎng)數(shù)據(jù)地域化特征明顯,由于不同地區(qū)所開展業(yè)務(wù)的情況不同,相關(guān)數(shù)據(jù)考核指標(biāo)也略有不同;配電站、輸電網(wǎng)絡(luò)等內(nèi)部數(shù)據(jù),以及來自互聯(lián)網(wǎng)等外部數(shù)據(jù)促使電網(wǎng)數(shù)據(jù)來源廣泛。
為了改善傳統(tǒng)數(shù)據(jù)存儲、分析技術(shù)的不足,構(gòu)建了電力系統(tǒng)多源異構(gòu)數(shù)據(jù)信息模型,將電力數(shù)據(jù)劃分為三個(gè)類別:電網(wǎng)數(shù)據(jù)、用戶數(shù)據(jù)和社會(huì)數(shù)據(jù)。電網(wǎng)數(shù)據(jù)覆蓋了電能的產(chǎn)生、傳輸、故障檢修和質(zhì)量評估,涉及到電力生產(chǎn)系統(tǒng)、供電電壓自動(dòng)采集系統(tǒng)、故障搶修管理系統(tǒng)以及數(shù)據(jù)采集控制系統(tǒng)等;用戶數(shù)據(jù)主要是指采集系統(tǒng)數(shù)據(jù)、充電樁數(shù)據(jù)、CMS 系統(tǒng)數(shù)據(jù)等;社會(huì)數(shù)據(jù)主要是指公共服務(wù)系統(tǒng)數(shù)據(jù)、氣象系統(tǒng)數(shù)據(jù)和地理系統(tǒng)數(shù)據(jù),具體如表1 所示。
表1 電力系統(tǒng)數(shù)據(jù)分類表
為了降低文本等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)的難度,電力系統(tǒng)多源異構(gòu)數(shù)據(jù)信息模型在進(jìn)行數(shù)據(jù)采集和輸出時(shí),應(yīng)具有統(tǒng)一的格式。該文將電力系統(tǒng)多源異構(gòu)數(shù)據(jù)信息模型的數(shù)據(jù)物理結(jié)構(gòu)設(shè)計(jì)成三級形式:表頭、索引和存儲,如圖2 所示。
圖2 多源異構(gòu)數(shù)據(jù)信息模型的數(shù)據(jù)物理結(jié)構(gòu)
無論是電網(wǎng)數(shù)據(jù)、用戶數(shù)據(jù)還是社會(huì)數(shù)據(jù),均存在大量的文本信息。文本信息與數(shù)字信息不同,屬于非結(jié)構(gòu)化信息,并不能直接進(jìn)行特征提??;且由于文本信息通常是連續(xù)的文本序列,并摻雜著大量、無實(shí)際意義的語氣詞,因此需要進(jìn)行中文分詞。該文采用CRF 算法,利用事先標(biāo)記好的樣本數(shù)據(jù)進(jìn)行模型訓(xùn)練,進(jìn)而將概率最大的詞作為分詞結(jié)果輸出。
由于電力系統(tǒng)中某些模態(tài)的數(shù)據(jù)實(shí)例數(shù)目較少,造成了特征提取不準(zhǔn)確的現(xiàn)象,該文采用遷移學(xué)習(xí)來解決數(shù)據(jù)實(shí)例較少的域的特征學(xué)習(xí)。其具體過程為:將典型相關(guān)分析(CCA)和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,通過分詞后的多源異構(gòu)模態(tài)數(shù)據(jù)的逐層語義匹配,構(gòu)建滿足域私有網(wǎng)絡(luò)和域共有網(wǎng)絡(luò)的深度語義匹配模型。
深度神經(jīng)網(wǎng)絡(luò)通常包含:輸入層、隱藏層和輸出層,這些層也包含了多種分支。該文使用深度置信網(wǎng)絡(luò)作為多源異構(gòu)數(shù)據(jù)融合算法的基本模型,其由多個(gè)受限玻爾茲曼機(jī)組成,采用逐層正向、反向進(jìn)行網(wǎng)絡(luò)參數(shù)的訓(xùn)練。在文中將典型相關(guān)分析融入深度置信網(wǎng)絡(luò)中,參與源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)的相關(guān)性分析。而深度置信網(wǎng)絡(luò)可作為初始參數(shù)的預(yù)訓(xùn)練,以提高模型的性能和收斂速度。
典型相關(guān)分析可以將不同數(shù)據(jù)域中相關(guān)的特征,通過矩陣映射到某個(gè)特征子空間,由此可將強(qiáng)相關(guān)性的特征提取出來??紤]到電力行業(yè)數(shù)據(jù)和外部數(shù)據(jù)存在多個(gè)數(shù)據(jù)源,且不同數(shù)據(jù)源的體量大小不一,使用典型相關(guān)分析來提取不同數(shù)據(jù)源之間的共享特征,進(jìn)而實(shí)現(xiàn)遷移學(xué)習(xí)。在這一過程中,不同數(shù)據(jù)源的共生數(shù)據(jù)CS、CT的隱層特征在轉(zhuǎn)換矩陣的作用下被提取出來,并得到相關(guān)匹配系數(shù)矩陣。具體過程如下:
1)利用棧式自動(dòng)編碼機(jī)對源域以及目標(biāo)域進(jìn)行編碼,通過編碼結(jié)果將跨域共生數(shù)據(jù)提取出來,進(jìn)而得到其對應(yīng)的隱層特征。
在以上兩式中,US(1)、UT(1)分別表示源域和目標(biāo)域的網(wǎng)絡(luò)權(quán)重矩陣,bS(1)、bT(1)分別被用來表示源域和目標(biāo)域相應(yīng)的偏置向量,f()為Sigmoid 非線性激活函數(shù);
2)將編碼后的源域和目標(biāo)域進(jìn)行典型相關(guān)分析,根據(jù)共生數(shù)據(jù)特征可得到這兩個(gè)數(shù)據(jù)域之間的最大相關(guān)系數(shù)矩陣US(2)和UT(2)。利用最大相關(guān)系數(shù)矩陣可將源和目標(biāo)域的共生數(shù)據(jù)特征映射到語義共享子空間中;
3)為了增強(qiáng)源域與目標(biāo)域之間的相關(guān)性,需要對深度置信網(wǎng)絡(luò)模型參數(shù)進(jìn)行優(yōu)化。在深度置信網(wǎng)絡(luò)模型反向傳播過程中,即從目標(biāo)域到源域的過程,使用矩陣US(2)和UT(2)對域網(wǎng)絡(luò)參數(shù)(US,bS,UT,bT)進(jìn)行微調(diào)。
在圖3 所示的遷移學(xué)習(xí)模型中,目標(biāo)函數(shù)的作用被設(shè)定為:1)最小化源域和目標(biāo)域的重構(gòu)誤差;2)最大化跨域深度網(wǎng)絡(luò)的相關(guān)性。因此目標(biāo)函數(shù)的表達(dá)式為:
圖3 基于深度學(xué)習(xí)的異構(gòu)遷移學(xué)習(xí)模型框架
上式中,HS(US,bS)、HT(UT,bT)分別表示為源域和目標(biāo)域在編碼后,經(jīng)過深度置信網(wǎng)絡(luò)訓(xùn)練后的重構(gòu)誤差。p與源域、目標(biāo)域的最大相關(guān)系數(shù)矩陣VT、VS的投影向量有關(guān),其代表兩者之間的相關(guān)匹配函數(shù)。利用最大相關(guān)系數(shù)矩陣的投影向量VT、VS,可進(jìn)一步地將源域和目標(biāo)域的共生數(shù)據(jù)最大化轉(zhuǎn)換為特征相關(guān)性最大化的問題。
目標(biāo)函數(shù)中共有六種參數(shù):WS、bS、WT、bT、VT、VS。若同時(shí)優(yōu)化這六種參數(shù),則會(huì)帶來極大的計(jì)算量。該文使用拉格朗日乘子與隨機(jī)梯度下降法分別對(WS、bS)、(WT、bT)和(VT、VS)進(jìn)行優(yōu)化。由于目標(biāo)函數(shù)中(VT、VS)僅存在第三部分,因此可以給定源域和目標(biāo)域的(WS、bS)、(WT、bT),對(VT、VS)進(jìn)行拉格朗日轉(zhuǎn)換,即可求得VT和VS。而(WS、bS)、(WT、bT)的優(yōu)化,則需要給定相關(guān)系數(shù)矩陣[VT,VS]。源域和目標(biāo)域的優(yōu)化過程相同,這里僅敘述源域的優(yōu)化。在深度學(xué)習(xí)訓(xùn)練反向傳播過程中,利用梯度下降算法對WS、bS進(jìn)行調(diào)整,具體為:
以上兩式中,μS表示學(xué)習(xí)率。
該文采用江蘇省某地區(qū)近三年的電力系統(tǒng)數(shù)據(jù)作為原始數(shù)據(jù)進(jìn)行方案驗(yàn)證,數(shù)據(jù)涉及電力行業(yè)數(shù)據(jù)和外部數(shù)據(jù)兩個(gè)部分。其中,電力行業(yè)數(shù)據(jù)涉及了項(xiàng)目合同主數(shù)據(jù)、項(xiàng)目執(zhí)行過程數(shù)據(jù)和用戶評價(jià)數(shù)據(jù)等;外部數(shù)據(jù)涉及三年內(nèi)氣象數(shù)據(jù)、當(dāng)?shù)亟?jīng)濟(jì)效益數(shù)據(jù)等。文中將這些數(shù)據(jù)隨機(jī)分成四種數(shù)據(jù)集對所提出的多源異構(gòu)數(shù)據(jù)融合算法進(jìn)行驗(yàn)證。上述四種數(shù)據(jù)集中均含有1 000 個(gè)文本實(shí)例,每種實(shí)例使用不同語言描述。為了驗(yàn)證該文所述算法的性能,將對照組算法設(shè)定為典型相關(guān)分析和深度匹配網(wǎng)絡(luò)兩種算法。實(shí)驗(yàn)組和對照組均使用相同的硬件配置:英特爾酷睿i7-7500U 的處理器、2.70 GHz 的主頻、32 GB 的內(nèi)存配置,軟件平臺則是使用Matlab。
圖4 展示了實(shí)驗(yàn)組和兩種對照組算法在四種數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)下的結(jié)果。從圖中可以看出,該文方案在四種數(shù)據(jù)集下的精度均優(yōu)于典型相關(guān)分析和深度匹配網(wǎng)絡(luò),平均精度分別高出8.32%和11.7%。這是因?yàn)槲闹兴龅幕诙嘣串悩?gòu)數(shù)據(jù)融合算法在本質(zhì)上是面向域私有網(wǎng)絡(luò)和域共有網(wǎng)絡(luò)的深度語義匹配模型,通過將典型相關(guān)分析和深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)合,可利用多層非線性轉(zhuǎn)換來挖掘多層特征結(jié)構(gòu)。遷移學(xué)習(xí)的應(yīng)用可彌補(bǔ)跨域數(shù)據(jù)實(shí)例的語義誤差,實(shí)現(xiàn)源域到目標(biāo)域的知識遷移。
圖4 實(shí)驗(yàn)組和對照組對比
圖5 分別展示了深度學(xué)習(xí)網(wǎng)絡(luò)中隱藏層層數(shù)和神經(jīng)元個(gè)數(shù)對語義誤差的影響。從圖中可以看出,隨著隱藏層層數(shù)和神經(jīng)元個(gè)數(shù)的增加,語義誤差均呈現(xiàn)出快速下降趨勢。值得注意的是,隨著隱藏層層數(shù)的增加,語義誤差下降的速度更快。且當(dāng)神經(jīng)元個(gè)數(shù)為50 時(shí),語義誤差曲線基本趨于平穩(wěn),這表示結(jié)果已收斂。隱藏層層數(shù)和神經(jīng)元個(gè)數(shù)的增加均有助于提高多層相關(guān)匹配效果,可有效彌補(bǔ)異構(gòu)模態(tài)數(shù)據(jù)之間的語義偏差。
圖5 隱藏層層數(shù)和神經(jīng)元個(gè)數(shù)對語義誤差的影響
該文采用知識圖譜將電力行業(yè)以及外部數(shù)據(jù)進(jìn)行系統(tǒng)性整理,并將相關(guān)概念進(jìn)行網(wǎng)絡(luò)化關(guān)聯(lián),然后又將典型相關(guān)分析和深度學(xué)習(xí)網(wǎng)絡(luò)相結(jié)合,構(gòu)建了一種多源異構(gòu)數(shù)據(jù)的融合算法。測試和試驗(yàn)結(jié)果表明,該文所述方案具有一定的可行性和優(yōu)越性。