毛先胤,文 屹,馬曉紅,黃 歡,張 輝,余 容
(1.貴州電網(wǎng)有限責任公司電力科學研究院,貴州貴陽 550002;2.中國電建集團貴州電力設計研究院有限公司,貴州貴陽 550000)
隨著我國電力系統(tǒng)發(fā)展的規(guī)模不斷擴大,通信技術、互聯(lián)網(wǎng)技術、傳感器等新科技的不斷發(fā)展,電網(wǎng)數(shù)據(jù)的數(shù)量及種類已開始呈現(xiàn)出爆炸式的增長趨勢,電網(wǎng)發(fā)展已經(jīng)逐步邁入大數(shù)據(jù)時代。由大量監(jiān)測設備采集、各監(jiān)測分析系統(tǒng)以及計算機系統(tǒng)分析產(chǎn)生了的海量形式結構不同的數(shù)據(jù),這些數(shù)據(jù)從全方位反映著智能電網(wǎng)的運行環(huán)境與運行狀態(tài),已成為非常珍貴的資源。而如何迅速篩選并充分利用海量數(shù)據(jù)堆中的有用信息,是目前電力系統(tǒng)建設面臨的巨大挑戰(zhàn)[1]。因此對多源信息進行融合已大勢所趨。它可以把來自多方面的數(shù)據(jù)融合在一起,實現(xiàn)對雜亂無章的電網(wǎng)數(shù)據(jù)整理并得出關于研究對象更詳細、全面的分析[2-3]。
隨著電力企業(yè)朝著集約化、經(jīng)濟化的發(fā)展,整合電力大數(shù)據(jù)挖掘電力大數(shù)據(jù)的潛能,實現(xiàn)電力企業(yè)的可靠、安全、高效、經(jīng)濟化運營成為一個亟需解決的難題。一個高維復雜的電力系統(tǒng)包含有電力流、業(yè)務流、故障流、信息流和氣象流等不同的數(shù)據(jù)流。電力系統(tǒng)內(nèi)部各類數(shù)據(jù)的流向以及電力大數(shù)據(jù)的應用架構如圖1所示。電力大數(shù)據(jù)的應用架構包括各個環(huán)節(jié),主要由電力數(shù)據(jù)的采集、MIS系統(tǒng)、電能計量系統(tǒng)、存儲系統(tǒng)、大數(shù)據(jù)處理系統(tǒng)以及數(shù)據(jù)檢測系統(tǒng)、預測系統(tǒng)數(shù)據(jù)、電網(wǎng)運維監(jiān)測管理系統(tǒng)等構成。
電力大數(shù)據(jù)在電力企業(yè)中的應用前景十分廣闊,在單獨的電網(wǎng)應用系統(tǒng)中,通過單獨應用實現(xiàn)其使用的價值,如電網(wǎng)運維監(jiān)測中的輸電線路覆冰監(jiān)測系統(tǒng)直接應用電網(wǎng)覆冰監(jiān)測,實現(xiàn)對輸電線路覆冰厚度的估算預警。同時也可以通過打通與各個系統(tǒng)之間的通道實現(xiàn)系統(tǒng)之間數(shù)據(jù)融合及共享使用,如輸電線路山火監(jiān)測系統(tǒng)、輸電線路覆冰監(jiān)測系統(tǒng)、輸電線路地質(zhì)災害監(jiān)測系統(tǒng),輸電線路用戶管理系統(tǒng)構建一個大數(shù)據(jù)平臺?;诖诉M行數(shù)據(jù)挖掘與分析,構建電力輸電線路安全風險綜合評估系統(tǒng),實現(xiàn)對輸電線路狀態(tài)的風險評估,及時下達輸電線路運維任務,并制定輸電線路運維管理策略,發(fā)掘出以往不可能實現(xiàn)的應用[4-5]。
1.2.1 電力大數(shù)據(jù)缺乏統(tǒng)一的標準
隨著電網(wǎng)信息化、數(shù)字化建設的不斷加快,電網(wǎng)信息化程度逐年呈上升態(tài)勢,與電力相關的各個企業(yè)對電網(wǎng)信息化建設的投資也逐年增大,但是不同省級電網(wǎng)企業(yè)的信息化建設相對獨立,缺乏統(tǒng)一的標準與規(guī)范;而且同一個電力企業(yè)內(nèi)部,會根據(jù)不同部門的實際需求,開發(fā)出的系統(tǒng)僅僅是針對某方面的應用,可擴展性比較差。它們在開發(fā)的語言、開發(fā)的框架、開發(fā)的標準、數(shù)據(jù)的存儲格式、系統(tǒng)的結構上存在比較大的差異,系統(tǒng)之間難以打通形成共享,造成信息利用的連貫性比較差,同時造成資源的浪費,在整個電網(wǎng)中,形成了多個“信息孤島”,進而影響了整個南方電網(wǎng)甚至是國家電網(wǎng)的的電力發(fā)展戰(zhàn)略[6]。在電網(wǎng)企業(yè)中,內(nèi)部的調(diào)度中心運行方式與電力自動化控制、繼電保護等電力管理部門各自根據(jù)業(yè)務的需求建立了不同的數(shù)據(jù)庫和數(shù)據(jù)模型,不同的數(shù)據(jù)庫的數(shù)據(jù)編碼格式與存儲模式都有所不同,導致多元電網(wǎng)運行參數(shù)不一致,無法共享參數(shù)信息,互相辨識數(shù)據(jù),缺乏彼此協(xié)同機制與一致性,進而使得數(shù)據(jù)在電網(wǎng)企業(yè)內(nèi)部也不能實現(xiàn)數(shù)據(jù)的共享,各系統(tǒng)之間的數(shù)據(jù)的協(xié)同作用無法發(fā)揮出來,在企業(yè)的內(nèi)部電網(wǎng)中就形成了“一個電網(wǎng),多套數(shù)據(jù)”的問題,對電網(wǎng)建設的可持續(xù)發(fā)展十分不利。
1.2.2 電網(wǎng)企業(yè)協(xié)作比較困難
在現(xiàn)代電網(wǎng)企業(yè)的發(fā)展中,特別是智能電網(wǎng)企業(yè)發(fā)展中,只有電網(wǎng)企業(yè)內(nèi)部各個部門以及電網(wǎng)企業(yè)之間相互協(xié)調(diào)、相互協(xié)作,才能夠有效地完成電網(wǎng)自動化調(diào)動;統(tǒng)一協(xié)調(diào)管理、運營等,只有在電力大數(shù)據(jù)統(tǒng)一運行與管理的情況下才能夠?qū)崿F(xiàn)。現(xiàn)代電網(wǎng)中,尤其是智能電網(wǎng)的發(fā)展,企業(yè)中各個部門之間、各企業(yè)之間相互協(xié)調(diào)協(xié)作才能更好的完成電力業(yè)務的自動化調(diào)度、運營以及管理。例如電力數(shù)據(jù)需要按照業(yè)務的流傳模式從一個部門轉移到另一個部門時,或者數(shù)據(jù)從上級發(fā)送到下級以及不同的部門在數(shù)據(jù)共享時,當數(shù)據(jù)的格式、標準不同,需要通過數(shù)據(jù)的轉換才能實現(xiàn)數(shù)據(jù)的共享,進而造成部門之間、電力企業(yè)之間協(xié)作繁瑣、數(shù)據(jù)共享效率低。
1.2.3 電力大數(shù)據(jù)發(fā)展與電力企業(yè)的發(fā)展不一致
電網(wǎng)逐步向智能化邁進的過程中,電網(wǎng)的高效安全可靠的運營需要依賴數(shù)據(jù)的交換。在電力企業(yè)設備建設的過程中,不同區(qū)域因各自的區(qū)域特點往往會采用不同的電力設備,在不同的區(qū)域與地點,就會產(chǎn)生大量的結構化與半結構化的數(shù)據(jù),如何有效實現(xiàn)這些電力大數(shù)據(jù)的融合,實現(xiàn)數(shù)據(jù)的統(tǒng)一與共享,成為電力企業(yè)在發(fā)展過程中面臨的主要問題。因此,在電力企業(yè)發(fā)展的過程中,需要解決電力大數(shù)據(jù)與電力企業(yè)統(tǒng)一管理的標準,將多源異構的電力大數(shù)據(jù)融合在一起,形成一個統(tǒng)一的數(shù)據(jù)標準,以便于實現(xiàn)電力大數(shù)據(jù)的互聯(lián)互通、交換共享。
因此,亟需一套行之有效的多源異構融合算法使得多源異構的電力大數(shù)據(jù)融合。實現(xiàn)電力大數(shù)據(jù)的互聯(lián)互通、交換共享,以便實現(xiàn)各企業(yè)、各系統(tǒng)的協(xié)同,充分發(fā)掘電力大數(shù)據(jù)的潛在價值[7]。
數(shù)據(jù)融合是一項新興技術。它能夠在設計好的一套完整的算法結構內(nèi)對所采集的數(shù)據(jù)按照預定規(guī)律進行自動的關聯(lián)和特征提取,能夠更迅速的進行研究對象的狀態(tài)評估和決策任務的信息處理。
信息融合可從以下三個層次進行描述,如圖2所示。
數(shù)據(jù)融合的作用主要有以下三種。
(1)電力系統(tǒng)中信息采集點在一定范圍內(nèi)感知到的數(shù)據(jù)可能會存在數(shù)據(jù)冗余性,在一定程度上占用了有限的帶寬。
(2)在數(shù)據(jù)傳輸中,多個數(shù)據(jù)采集點的數(shù)據(jù)利用單通道影響數(shù)據(jù)傳輸速度,造成數(shù)據(jù)擁塞,增大數(shù)據(jù)處理時延。
(3)單一的數(shù)據(jù)監(jiān)測系統(tǒng)當遇到故障時,如果僅僅依賴故障監(jiān)測系統(tǒng)采集的數(shù)據(jù)會造成錯誤數(shù)據(jù)的蔓延,造成整個線路狀態(tài)分析不準確,擴大電網(wǎng)線路故障范圍。
傳統(tǒng)數(shù)據(jù)融合算法主要利用反向傳播(back propagation,BP)網(wǎng)絡。傳統(tǒng)的BP神經(jīng)網(wǎng)絡從性能方面看,收斂速度慢,在BP網(wǎng)絡中,BP算法決定收斂速度關鍵的兩個因素就在于學習率參數(shù)和相關傳遞函數(shù)導數(shù)數(shù)值的大小;局部極小點有待改進。BP算法下降沿著負梯度方向時,其誤差函數(shù)達到了梯度0狀態(tài)時,閾值、權值的更新就會停止。當誤差函數(shù)是嚴格的凹函數(shù),存在著唯一極小點,也就是全局最小點,最終得到最優(yōu)權值、閾值。當誤差函數(shù)不是嚴格凹函數(shù)的時候,此時的局部極小點在全局來看并不一定是最小點;從結構上看,其網(wǎng)絡結構不確定、學習率難以選取。網(wǎng)絡結構的確定主要關鍵在于兩個數(shù)值,即網(wǎng)絡隱含層數(shù)目和神經(jīng)元個數(shù)。通常來說,這兩者的數(shù)目的變化都會直接造成網(wǎng)絡結構的改變,網(wǎng)絡隱含層數(shù)目過大會出現(xiàn)過擬合現(xiàn)象,隱含層數(shù)目過小,網(wǎng)絡學習和逼近性能就會變差。一個性能良好的網(wǎng)絡結構離不開準確的隱含層數(shù)目和和神經(jīng)元數(shù)的選取。只是目前還沒有一套完整的理論體系適用于如何來確定網(wǎng)絡結構中最合適的網(wǎng)絡隱含層數(shù)目及神經(jīng)元個數(shù),只能憑經(jīng)驗和實驗探索。
Hermite正交基前向神經(jīng)網(wǎng)絡從多項式插值和逼近理論出發(fā),是一種以正交多項式作為隱含層神經(jīng)元的激勵函數(shù)直接確定權值的神經(jīng)網(wǎng)絡算法。本算法省略掉繁瑣的迭代訓練過程,極大的節(jié)約了網(wǎng)絡訓練時間。Hermite正交多項式激勵的前向神經(jīng)網(wǎng)絡模型如圖3所示。Hermite正交基神經(jīng)網(wǎng)絡采用三層前向結構,該前向神經(jīng)網(wǎng)絡采用了一組Hermite正交多項式函數(shù)為隱含層神經(jīng)元的激勵函數(shù),而其輸入層和輸出層神經(jīng)元使用線性激勵函數(shù)并巧妙固定其權閾值[8-9]。
Hermite正交基前向神經(jīng)網(wǎng)絡算法本身設計是適用于少量嚴格樣本數(shù)據(jù),并不適合處理大數(shù)據(jù)樣本。在處理大數(shù)據(jù)時存在耗時長、I/O操作頻繁甚至計算不出權值的問題,從而導致內(nèi)存不足。況且在目前智能電網(wǎng)的日常監(jiān)測與檢測中時時刻刻都在采集數(shù)據(jù),所獲得到的數(shù)據(jù)量并不是只依靠算法這一種工具能夠有效處理的。而MapReduce(分布式處理框架)可在集群上并發(fā)處理大數(shù)據(jù)集。MapReduce一共包含兩個部分,一個是“Map”對應“映 射 ”,一 個 是 “Reduce”對 應 “歸 約 ”[10]。MapReduce可以將大數(shù)據(jù)樣本集自動地被分為很多個數(shù)據(jù)塊,每一個數(shù)據(jù)塊對應一個計算任務,并自動調(diào)度計算節(jié)點來處理相應的數(shù)據(jù)塊。作業(yè)和任務調(diào)度功能主要負責分配和調(diào)度計算Map節(jié)點或Reduce節(jié)點。同時負責監(jiān)控這些節(jié)點的執(zhí)行狀態(tài),并負責Map節(jié)點執(zhí)行的同步控制。為了減少數(shù)據(jù)通信開銷,中間結果數(shù)據(jù)進入Reduce節(jié)點前會進行一定的合并處理。一個Reduce節(jié)點所處理的數(shù)據(jù)可能會來自多個Map節(jié)點,為了避免Reduce計算階段發(fā)生數(shù)據(jù)相關性,Map節(jié)點輸出的中間結果使用一定的策略進行適當?shù)膭澐痔幚?,保證相關性數(shù)據(jù)發(fā)送到同一個Reduce節(jié)點;此外,MapReduce還進行一些計算性能優(yōu)化處理,如對最慢的計算任務采用多備份執(zhí)行、選最快完成者作為結果,提高處理速度從而達到系統(tǒng)優(yōu)化的目的。同時節(jié)點硬件(主機、磁盤、內(nèi)存等)出錯和軟件出錯,MapReduce能檢測并隔離出錯節(jié)點,并調(diào)度分配新的節(jié)點接管出錯節(jié)點的計算任務[11]。
MapReduce從客戶的任務提交到任務完成的全過程 主 要 依 靠 Client、Job Tracker、Task Tracker、HDFS四個獨立部分。Client(客戶端)主要任務是編寫調(diào)制程序以及程序任務的提交。Job Tracker協(xié)調(diào)作業(yè)的運行,對并行處理進行管理,負責整個節(jié)點群的資源配置及任務規(guī)劃。Task Tracker運行作業(yè)劃分后的任務,一個是從Job Tracker接受并執(zhí)行命令,一個是將工作完成狀態(tài)依靠心跳機制向 Job Tracker進行反饋。HDFS(分布式文件系統(tǒng))用來在實體間共享作業(yè)文件,主要使用其數(shù)據(jù)高吞吐量優(yōu)勢對訪問程序進行保存,并且HDFS可以實現(xiàn)流動數(shù)據(jù)的形式訪問數(shù)據(jù)中心。
將一個大樣本分解為多個小樣本并且由多個處理器分別計算的并行計算,其與傳統(tǒng)串行計算相比,明顯提高了運行效率。基于MapReduce模型的Hermite正交基前向神經(jīng)網(wǎng)絡算法的并行處理流程圖如圖4。
在Hermite正交基前向神經(jīng)網(wǎng)絡方法在作業(yè)時,具備數(shù)據(jù)塊分別處理時各自獨立的特點,因此可以將Hermite正交基前向神經(jīng)網(wǎng)絡方法結合MapReduce對其并行化處理。在樣本數(shù)據(jù)集融合起初使用Map映射機制可將樣本數(shù)據(jù)集等分為子數(shù)據(jù)集1、子數(shù)據(jù)集2…子數(shù)據(jù)集n,然后根據(jù)任務分配節(jié)點分配到各任務執(zhí)行節(jié)點,最后結合本文融合算法按照規(guī)定的指標進行數(shù)據(jù)融合,并通過多個Reduce函數(shù)把每一個節(jié)點計算處理的子集進行匯總。
在當前電力大數(shù)據(jù)背景下,基于分布式系統(tǒng)基礎架構Hadoop平臺,利用HDFS進行海量數(shù)據(jù)存儲,利用MapReduce為電力大數(shù)據(jù)分析提供快速處理能力[12]。本文使用風力發(fā)電廠的發(fā)電功率預測為目標,其數(shù)據(jù)并行處理的步驟如圖5。
基于MapReduce并行化模式下的數(shù)據(jù)融合關鍵步驟如下。
(1)數(shù)據(jù)離散化。根據(jù)本文的目標,需要采集的數(shù)據(jù)多為歷史發(fā)電功率、溫度,風速,氣溫,濕度等。數(shù)據(jù)的離散化處理目前僅僅需要針對連續(xù)變化的數(shù)據(jù)進行處理,其中開關量、枚舉量均為離散變量,無需離散化,現(xiàn)階段的數(shù)據(jù)離散化方法主要是等距、等頻以及基于聚類的方法。根據(jù)本文處理的數(shù)據(jù)有溫度、濕度、發(fā)電量、歷史發(fā)電功率、氣溫等等,因此采用了等距離散方法。
(2)數(shù)據(jù)矩陣化處理。假設向量N是某一時刻采集到的數(shù)據(jù),N=(n1,n2,…,nm,t)。其中 m表示維數(shù),ni表示第i維樣本數(shù)據(jù)取值,t表示采集時刻。某一個風機某一時刻采集到的數(shù)據(jù)矩陣為Nq:
則在某一時間段內(nèi)多個設備所收集到的數(shù)據(jù)為矩陣M:
(3)根據(jù)基于MapReduce并行化算法進行訓練預測。
本文在分布式系統(tǒng)基礎架構Hadoop平臺上結合風電場采集的數(shù)據(jù),對海量數(shù)據(jù)進行融合分析,發(fā)現(xiàn)其關聯(lián)關系,對輸出功率進行預測[13]。HDFS采用了主從(Master/Slave)結構模型,一個HDFS集群是由一個NameNode和若干個DataNode組成的。其中NameNode作為主服務器,管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作;集群中的DataNode管理存儲的數(shù)據(jù)[14-15]。根據(jù)前文所提到的MapReduce數(shù)據(jù)處理過程特點,構建10臺電腦配置相同的節(jié)點組成整個實驗平臺建立基礎,其中1臺機器作為Name Node和Job Tracker服務節(jié)點,另外9臺作為Date Node和Task Tracker服務節(jié)點,在Eclipse開發(fā)環(huán)境上實現(xiàn)。
本實驗中分布式系統(tǒng)基礎架構Hadoop集群平臺各節(jié)點機器的配置如表1。
表1 各機器配置Tab.1 Configuration of each machine
實驗采用某風電場2019年8月風機的歷史監(jiān)測數(shù)據(jù),其大小為5GB,并選取相電流(A)、有功功率(kw)、無功功率(kw)、齒輪油溫溫度(℃)、齒輪箱軸承溫度(℃)、發(fā)電機溫度(℃)、相電壓(V)、機艙溫度(℃)、環(huán)境溫度(℃)、風向角(°)、總電量(kW·h)、風速(m/s)狀態(tài)參數(shù)作為數(shù)據(jù)輸入,對風電場發(fā)電功率進行預測分析。
針對風電場發(fā)電功率預測目標本實驗采用標準誤差(RMSE)、平均絕對百分誤差(MAPE)兩個評價標準當作最終結果的評價標準。標準誤差的公式如下:
式中Yt表示預測值,yt表示實際值,n為預測點的個數(shù)(n>1),根據(jù)標準誤差的計算結果,標準誤差越小則說明預測效果越精確。
平均絕對百分誤差 MAPE(mean absolute percentage error),表示誤差整體的情況即預測數(shù)據(jù)整體上和實際數(shù)據(jù)的匹配程度,其表達式為:
其中Yt表示預測值,yt表示實際值,n為預測點的個數(shù)。對于MAPE值大小代表預測的準確度,當MAPE值越小時,其預測越準確。
本實驗將BP網(wǎng)絡算法、本文算法進行比較,在通過上文的誤差分析求得兩種算法的標準誤差(RMSE)和平均絕對百分誤差(MAPE),從表2可以看出,無論是標準誤差還是平均絕對百分誤差,本文算法相對于傳統(tǒng)BP算法在誤差值上均有所降低,且平均絕對百分誤差的波動更小,本文算法的結果相比于BP神經(jīng)網(wǎng)絡算法更接近于真實值。精度更準確的原因在于Hermite神經(jīng)網(wǎng)絡算法以正交多項式作為隱含層神經(jīng)元的激勵函數(shù),且僅需一步就可以計算出網(wǎng)絡連接的最優(yōu)權值,在對變量進行選擇訓練時不僅能實現(xiàn)數(shù)據(jù)融合,還能保留原始數(shù)據(jù)的特征信息,這樣才使結果更逼近于真實結果。
表2 兩種算法標準誤差對比Tab.2 Standard error comparison of two algorithms
為了全方位及準確地驗證本文算法的優(yōu)勢,下面從計算時效性方面考慮,下面從計算時效性方面考慮,本實驗將數(shù)據(jù)分為四組,將數(shù)據(jù)擴充后分別取5GB、10GB、40GB、120GB,分別記錄其在傳統(tǒng)單處理系統(tǒng)的時間及在本文中MapReduce系統(tǒng)處理的時間,分別采用傳統(tǒng)方法與本文算法進行實驗對比。以處理時間為衡量標準,四組數(shù)據(jù)下兩種算法分別用時如表3。
表3 兩種算法并行運算消耗時間對比結果Tab.3 Comparison results of parallel operation time of two algorithms
由表3可以看出,當數(shù)據(jù)集較小時,兩種算法數(shù)據(jù)處理效率差異不顯著,隨著數(shù)據(jù)量逐漸增多,分布式系統(tǒng)基礎架構Hadoop平臺表現(xiàn)出高效的處理速率。與傳統(tǒng)算法比較而言更適合于電力大數(shù)據(jù)的處理。集群相對傳統(tǒng)處理速度接近2.5倍。
本文介紹了Hermite正交基前向神經(jīng)網(wǎng)絡的數(shù)據(jù)融合方法,同時為了應對大數(shù)據(jù)海量的特點,結合了MapReduce并行化模式將本文算法進行并行化。通過借助分布式系統(tǒng)基礎架構Hadoop搭建大數(shù)據(jù)處理平臺,以風電場發(fā)電功率預測為例,并與傳統(tǒng)BP網(wǎng)絡算法數(shù)據(jù)融合效果進行比對。發(fā)現(xiàn)本文算法較BP算法不僅在功率預測精度上有明顯效果更有效的縮短數(shù)據(jù)處理的時間,從而在時效性上更能滿足電力系統(tǒng)的要求。給智能電網(wǎng)大數(shù)據(jù)分析與處理理論提供了有益的研究價值。