袁智勇,肖澤坤,于力,徐全,林躍歡,李培強,何西
(1.南方電網(wǎng)科學(xué)研究院有限責(zé)任公司,廣東 廣州 510663;2.湖南大學(xué) 電氣與信息工程學(xué)院,湖南 長沙 410082;3.湖南工學(xué)院 電氣與信息工程學(xué)院,湖南 衡陽 421002)
大數(shù)據(jù)被認(rèn)為是促進現(xiàn)代社會發(fā)展的智力“石油”,越來越受到人們的重視,早期主要應(yīng)用于商業(yè)、金融等領(lǐng)域,后來逐漸擴展到交通、醫(yī)療、能源、電力等行業(yè)[1-3],大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用被看做是電力行業(yè)發(fā)展的重要技術(shù)之一[4-6]。智能終端設(shè)備與大數(shù)據(jù)技術(shù)的應(yīng)用使得傳統(tǒng)單向電網(wǎng)逐漸被智能電網(wǎng)(smart grid,SG)取代,相比于傳統(tǒng)電網(wǎng),智能電網(wǎng)在自我修能力、可再生能源消納能力、態(tài)勢感知能力與暫態(tài)穩(wěn)定性方面具有更多的優(yōu)勢[7]。一方面,智能電網(wǎng)快速發(fā)展,智能電表大量部署,傳感技術(shù)廣泛應(yīng)用,電力工業(yè)產(chǎn)生了大量結(jié)構(gòu)多樣、來源復(fù)雜的數(shù)據(jù),如何存儲和應(yīng)用這些數(shù)據(jù),這些是電力公司面臨的難題;另一方面,這些數(shù)據(jù)的利用價值巨大,不僅可以將電網(wǎng)自身的管理和運行水平提升到新的高度,甚至產(chǎn)生根本性變革,為電力公司拓展增值業(yè)務(wù)提供條件。
2012年以來,國內(nèi)外在智能電網(wǎng)工程應(yīng)用[8-9]和大數(shù)據(jù)技術(shù)研究[10-14]方面開展了相關(guān)研究工作,奠定了一定的基礎(chǔ)。例如意大利的ENEL Telegestore項目是智能電網(wǎng)現(xiàn)場建設(shè)的第一次嘗試[8],此外還有加拿大的Hydro One工程[9]、葡萄牙的InovGrid工程和德國的Modelstadt Mannheim(Moma)工程;但這些工作仍處于起步階段,智能電網(wǎng)大數(shù)據(jù)的研究和應(yīng)用仍是一個長期而復(fù)雜的工作??陀^來說,大數(shù)據(jù)理論尚未形成,大數(shù)據(jù)相關(guān)技術(shù)尚不成熟。文獻[13]全面綜述了大數(shù)據(jù)在能源分類與安全方面的應(yīng)用,但這些研究成果均難以直接應(yīng)用在智能電網(wǎng)和數(shù)字電網(wǎng)中;同時,智能電網(wǎng)通信信息系統(tǒng)的互操作問題仍然存在,數(shù)據(jù)模型尚未統(tǒng)一,給數(shù)據(jù)的獲取與應(yīng)用帶來一定的問題。主觀來說,電力公司在大數(shù)據(jù)的基本概念、研究方法、應(yīng)用價值方面的認(rèn)識不足,缺乏戰(zhàn)略性研究與頂層設(shè)計指導(dǎo),也給大數(shù)據(jù)在智能電網(wǎng)中的應(yīng)用帶來一定的障礙[14]。
基于現(xiàn)有研究,本文針對智能電網(wǎng)中的大數(shù)據(jù)問題進行全面的總結(jié)與分析;進而為智能電網(wǎng)和數(shù)字電網(wǎng)的發(fā)展提供借鑒,闡述智能電網(wǎng)大數(shù)據(jù)的應(yīng)用現(xiàn)狀,并分析智能電網(wǎng)大數(shù)據(jù)應(yīng)用的優(yōu)勢與挑戰(zhàn);然后分析對比幾種主流的大數(shù)據(jù)平臺與數(shù)據(jù)挖掘方法;最后提出智能電網(wǎng)大數(shù)據(jù)未來的研究方向與面臨的挑戰(zhàn)。
傳統(tǒng)電網(wǎng)中的實時量測數(shù)據(jù)主要來源于數(shù)據(jù)采集與監(jiān)視控制(supervisory control and data acquisition,SCADA)系統(tǒng),采樣周期為2~4 s,由于采樣頻率的限制,SCADA系統(tǒng)無法觀測電力系統(tǒng)的暫態(tài)穩(wěn)定和振蕩。而在智能電網(wǎng)中,大數(shù)據(jù)的來源多種多樣,其中數(shù)據(jù)采集所用的相量測量單元(phasor measurement unit,PMU)具有更快的掃描速度(每秒30~60個樣本),能夠?qū)崿F(xiàn)電壓/電流幅值以及相角的同步高精度量測[15-16]。截至2015年底,美國《復(fù)蘇與再投資法案》(ARRA)批準(zhǔn)的PMU總裝機已超過1 380臺,覆蓋了美國近100%的輸電系統(tǒng)。在中國,截至2013年底,國家電網(wǎng)和南方電網(wǎng)已經(jīng)安裝了1 717臺PMU[17-18]。除了PMU之外,具有15 min讀取間隔的自動抄表(automatic meter reading,AMR)裝置的部署取代了傳統(tǒng)的每月1次抄表,每臺電表可每日讀取96個數(shù)據(jù),每月執(zhí)行2 880個數(shù)據(jù),這意味著僅在電能計量領(lǐng)域就增加了2 880倍的電能計量數(shù)據(jù)。PMU、AMR、智能電子設(shè)備(intelligent electronic device,IED)、數(shù)字故障錄波器(digital fault recorder,DFR)、順序事件錄波器(sequence event recorder,SER)等先進測量設(shè)備的大量涌現(xiàn),為電力系統(tǒng)的存儲、管理、挖掘、共享和可視化帶來了巨大的數(shù)據(jù)量。文獻[19]指出,全球智能電表的安裝數(shù)量將從2011年的1 030萬臺增加到2017年底的2 990萬臺,這表明,在60 Hz的采樣率下,100臺PMU每天將產(chǎn)生超過100 GB的數(shù)據(jù)[20-22]。大量數(shù)據(jù)為觀測電力系統(tǒng)運行、安排電力調(diào)度和提高系統(tǒng)效率奠定了基礎(chǔ)。
態(tài)勢感知的概念最早在航空工業(yè)領(lǐng)域被提出,并被引入電力系統(tǒng)領(lǐng)域[23-26]。一般系統(tǒng)中的態(tài)勢感知流程如圖1所示,態(tài)勢感知分為3個層次,即感知、理解和預(yù)測。主要流程為:首先覺察到來自于系統(tǒng)的各種數(shù)據(jù),然后理解數(shù)據(jù)對于振蕩或不穩(wěn)定系統(tǒng)的意義,最后根據(jù)以上2個步驟評估系統(tǒng)未來可能的發(fā)展趨勢。持續(xù)且合理的預(yù)測可使操作員有足夠的反應(yīng)時間來防止連鎖故障的發(fā)生。在廣域態(tài)勢感知的現(xiàn)實應(yīng)用場景中,存在2個問題:一是同步相量測量裝置全網(wǎng)安裝的局限性,二是決策算法導(dǎo)致的延遲。
圖1 態(tài)勢感知流程Fig.1 Situation awareness process
在電網(wǎng)中,由于PMU的一次性投資成本高、安裝復(fù)雜,對電網(wǎng)進行PMU優(yōu)化配置尤為重要。研究學(xué)者提出了許多PMU優(yōu)化配置方法,如混合整數(shù)規(guī)劃[27]、基于模型的PMU優(yōu)化配置方法[28]、零注入總線降維方法[29]、通用算法[30]以及其他方法[31-33]。Sodhi等提出一種改進的相量最優(yōu)配置(optimal placement of phasor,OPP)框架,該框架通過5種應(yīng)用程序來評估潛在的PMU站點,即改進狀態(tài)估計、評估電壓/角度穩(wěn)定性、監(jiān)控聯(lián)絡(luò)線振蕩和通信基礎(chǔ)設(shè)施的可用性[34]。
當(dāng)發(fā)生瞬時性故障時,自動保護裝置的動作時間一般在100 ms以內(nèi),且無需人工操作就能恢復(fù);當(dāng)系統(tǒng)長期穩(wěn)定運行時,操作員有足夠的時間通過仿真和實驗得知當(dāng)前的運行情況。然而,當(dāng)介于上述2種情況之間時,由于算法的延遲問題不可忽略,操作員的瞬時決策尤為重要,而決策樹對處理這種情況有著很好的效果。Domingos和Hulten提出一種基于Hoeffding界的數(shù)據(jù)流決策樹[35],采用主樹分類器和基于cache的高速數(shù)據(jù)流分類器進行智能決策。數(shù)據(jù)流挖掘技術(shù)不需要建立模型就可以實現(xiàn)具有合理精度、處理時間和計算資源的在線態(tài)勢感知[36-38]。
目前有一些廣域態(tài)勢感知應(yīng)用的例子,如:SMDA(ver5.0)態(tài)勢系統(tǒng)被用于魁北克水電站的廣域監(jiān)控和事件檢測[39];NYISO使用實時和離線數(shù)據(jù)在儀表板上顯示電壓降、瞬態(tài)振蕩、線路跳閘等信息,提醒操作員異常情況的發(fā)生;Peppanen等人開發(fā)了配電網(wǎng)狀態(tài)估計和態(tài)勢感知系統(tǒng),來監(jiān)控喬治亞理工大學(xué)校園配電系統(tǒng)狀態(tài),并部署了3D圖形用戶界面以增強態(tài)勢感知[40];俄克拉荷馬州天然氣和電力公司通過PMU收集數(shù)據(jù),在俄克拉荷馬州和阿肯色州西部進行了廣域態(tài)勢感知(wide-area situational awareness,WASA)測試。
自Schweppe和Wildes在電力系統(tǒng)靜態(tài)估計方面做出開創(chuàng)性工作以來[41],電力系統(tǒng)狀態(tài)估計已成為電力系統(tǒng)自動化的重要組成部分。傳統(tǒng)的狀態(tài)估計問題都是通過SCADA系統(tǒng)的非線性測量迭代求解,效率低下且容易出現(xiàn)異常數(shù)據(jù),對配電網(wǎng)狀態(tài)估計精度的影響很大。隨著大數(shù)據(jù)和智能電網(wǎng)的發(fā)展,新的算法和技術(shù)被提出和應(yīng)用。為了提高算法的魯棒性,文獻[42]提出一種基于PMU的魯棒狀態(tài)估計方法,該方法通過權(quán)值分配函數(shù)來消除干擾數(shù)據(jù)。
在電力系統(tǒng)狀態(tài)估計中有2個主要問題:一是不良數(shù)據(jù)的過濾,二是大數(shù)據(jù)的降維。在實際應(yīng)用中,導(dǎo)致不良數(shù)據(jù)的原因很多,如計量裝置故障、電磁干擾等。檢測不良數(shù)據(jù)的最新技術(shù)可分為2類:預(yù)估計和后估計[43]。預(yù)估計方法使用標(biāo)準(zhǔn)化殘差檢測并重新估計狀態(tài),在這種情況下,不良數(shù)據(jù)是迭代過程的一部分;與預(yù)估計相比,后估計具有更高的可靠性、更快的速度和非迭代性,適合于電力系統(tǒng)狀態(tài)估計應(yīng)用中的不良數(shù)據(jù)檢測。智能電網(wǎng)中降低大數(shù)據(jù)的維度是狀態(tài)估計的關(guān)鍵,主成分分析(principal component analysis,PCA)是一種常用的降維方法,它不僅計算速度快,而且具有良好的原始數(shù)據(jù)保存性能[44]。
許多電力公司對輸電網(wǎng)或配電網(wǎng)進行狀態(tài)估計,如:美國輸電公司使用PMU數(shù)據(jù)對其狀態(tài)估計器模型進行驗證;杜克能源公司利用能源數(shù)據(jù)來改進狀態(tài)估計方法,提高系統(tǒng)模型精度以及縮短事后分析時間;ISO-NE對基于數(shù)據(jù)的345 kV電網(wǎng)狀態(tài)估計進行了可行性論證,并對混合PMU/SCADA狀態(tài)估計器進行評估。
電力系統(tǒng)擾動涉及多種類型,包括故障、線路跳閘、切負(fù)荷、發(fā)電損耗、振蕩等,常見的事件檢測方法是基于模型/拓?fù)涞氖潞蠓治?。在智能電網(wǎng)中,大量的數(shù)據(jù)和信息使得采用數(shù)據(jù)驅(qū)動的方法進行實時事件分類和檢測成為可能。
事件檢測和定位的前提是要做到事件分類,擾動事件分類方法如圖2所示。例如,“電壓驟降”事件是指額定電壓下降超過10%(最多30%),持續(xù)時間超過8 ms(最多1 min),所有電壓和頻率事件可分為振蕩或非振蕩2種類型,值得注意的是,這種分級分類只考慮電力系統(tǒng)中發(fā)生頻率最高的事件。文獻[45]針對2007—2010年新墨西哥州公共服務(wù)公司(PNM)存儲的2 226個擾動,提出一種綜合無監(jiān)督聚類的方法。Chen等人提出一種基于散點圖的事件分類算法來進行分類,分散在核心子空間外的點表示一種擾動,而拓?fù)湫螤顩Q定了事件的類型[46]。
圖2 電網(wǎng)擾動事件分類Fig.2 Classification of power grid disturbance events
當(dāng)前的PMU標(biāo)準(zhǔn)IEEE C37.118沒有對電力系統(tǒng)穩(wěn)定性至關(guān)重要的暫態(tài)或動態(tài)事件進行定義。文獻[47]針對并行MapReduce結(jié)構(gòu)的快速檢測問題,提出一種改進的并行去趨勢波動分析(parallel detrended fluctuation analysis,PDFA)算法,該方法適用于數(shù)據(jù)量較大的動態(tài)事件檢測?;谏窠?jīng)元間的連接強度和突觸權(quán)值,將神經(jīng)網(wǎng)絡(luò)和模糊邏輯應(yīng)用于暫態(tài)事件檢測,監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是傳導(dǎo)神經(jīng)網(wǎng)絡(luò)的2種方式。文獻[48]提出一種監(jiān)督和無監(jiān)督的組合方案。對于多事件識別和檢測,連續(xù)的干擾可能被掩蓋和忽略,事件分解和非負(fù)稀疏事件分解算法已被證明是多干擾事件分離和檢測的一種有效方法[49]。
1.5.1 電廠模型驗證和校準(zhǔn)
長期以來,電廠模型的驗證和校準(zhǔn)只能通過分階段性能測試,要求關(guān)閉工廠,每次成本大約為15 000~35 000美元。由于有了新的量測裝置,可以利用PMU、IED、FDR測量獲得大數(shù)據(jù),開發(fā)新的數(shù)據(jù)驅(qū)動方法來驗證電廠模型,對比實測的擾動記錄與仿真結(jié)果,從而補充基線測試來調(diào)整模型。
1.5.2 短期負(fù)荷預(yù)測
近年來,有學(xué)者提出了許多基于數(shù)據(jù)的短期負(fù)荷預(yù)測方法[50-52],這些方法的核心是在智能計量數(shù)據(jù)的基礎(chǔ)上,結(jié)合歷史負(fù)荷數(shù)據(jù)和環(huán)境數(shù)據(jù)(如溫度、濕度、降雨量等),采用關(guān)聯(lián)聚類分析的方法對負(fù)荷模式進行分類。傳統(tǒng)的抽象指標(biāo)如平均絕對誤差(MAE)和均方根誤差(RMSE)都不足以估計預(yù)測值與實際值之間的殘差。負(fù)荷預(yù)測模型的出現(xiàn),加上更精細的時空粒度數(shù)據(jù),使得回歸樹學(xué)習(xí)[53]和人工神經(jīng)網(wǎng)絡(luò)[54]等復(fù)雜技術(shù)的應(yīng)用成為可能。
1.5.3 配電網(wǎng)校驗
GIS輸入數(shù)據(jù)的精度較低,因此定期對網(wǎng)絡(luò)的連通性進行驗證非常重要。大數(shù)據(jù)分析有助于配電網(wǎng)拓?fù)涞尿炞C,特別是對于難以檢查的地下饋線部分,此校驗是典型的基于數(shù)據(jù)驅(qū)動的關(guān)聯(lián)統(tǒng)計算法用例。其他類似的應(yīng)用還有二次建模[55]、變壓器識別[56]和防竊電等。
1.5.4 大數(shù)據(jù)驅(qū)動需求響應(yīng)
需求響應(yīng)管理是降低高峰時段負(fù)荷的有效方法,相較于切斷預(yù)定負(fù)荷的方法更為靈活。在文獻[57]中,太平洋天然氣和電力公司(PG&E)使用超過20萬個智能電表每24 h采集66 434 179個負(fù)荷剖面數(shù)據(jù),來執(zhí)行客戶需求響應(yīng)目標(biāo)。為解決最優(yōu)客戶選擇中的隨機減縮問題,采用了高效的啟發(fā)式算法和貪婪算法。
1.5.5 配電系統(tǒng)參數(shù)估計
由于配電網(wǎng)量測匱乏及復(fù)雜的拓?fù)浣Y(jié)構(gòu),一般情況下,自動參數(shù)估計只用于輸電系統(tǒng)而不用于配電系統(tǒng)。隨著智能電網(wǎng)中傳感器的大量應(yīng)用,來自先進計量基礎(chǔ)設(shè)施(advanced metering infrastructure,AMI)和其他傳感器的大數(shù)據(jù)為二次系統(tǒng)實現(xiàn)線路阻抗校準(zhǔn)提供了可能,并提出配電系統(tǒng)二次網(wǎng)絡(luò)參數(shù)估計的新方法。如Peppanen等人利用AMI采集的數(shù)據(jù)和一些光伏測量數(shù)據(jù),提高了喬治亞理工大學(xué)校園配電二次回路參數(shù)的校準(zhǔn)精度[58]。
1.5.6 系統(tǒng)安全與保護
由于系統(tǒng)各組成部分和網(wǎng)絡(luò)之間的互聯(lián)互通關(guān)系,網(wǎng)絡(luò)攻擊被認(rèn)為是智能電網(wǎng)安全的最大威脅之一。傳統(tǒng)的入侵檢測系統(tǒng)(invasion detection system,IDS)是基于主機的知識密集型系統(tǒng),在可擴展性和靈活性方面存在一定的局限性。文獻[59]提出一種混合IDS的系統(tǒng)化和自動化方法,用以構(gòu)建全方位的系統(tǒng)監(jiān)控和保護。與常見網(wǎng)絡(luò)安全領(lǐng)域的密碼學(xué)相比,實時、緊密的網(wǎng)絡(luò)物理耦合給智能電網(wǎng)安全帶來了新的變化。智能電網(wǎng)具有開放性和自主性的特點,使其容易受到網(wǎng)絡(luò)攻擊,盡管人們已經(jīng)為智能電網(wǎng)制訂了許多安全解決方案,但這些方法大多數(shù)都不是基于數(shù)據(jù)的。目前,在數(shù)據(jù)安全和隱私方面有3個典型的成果:①面向大數(shù)據(jù)的密碼系統(tǒng);②面向大數(shù)據(jù)的異常檢測;③面向大數(shù)據(jù)的智能應(yīng)用。除此之外,大數(shù)據(jù)分析還有其他方面的應(yīng)用,如孤島檢測[60]、振蕩檢測[61]、實時轉(zhuǎn)子角度監(jiān)測[62]等。
大數(shù)據(jù)給公用事業(yè)和電力用戶帶來了諸多便利,有如下幾點優(yōu)勢:
a)提高系統(tǒng)穩(wěn)定性和可靠性。安全在電網(wǎng)的優(yōu)先級中始終處于首位,主要包括穩(wěn)定性和可靠性兩大方面,而穩(wěn)定性和可靠性又可進一步分為振蕩檢測、電壓穩(wěn)定性、事件檢測與恢復(fù)、孤島檢測與恢復(fù)、事后分析等幾個方面。上述諸多問題在近十年來被廣泛研究,隨著大數(shù)據(jù)和先進數(shù)據(jù)分析技術(shù)的出現(xiàn),不少研究者不斷探索新功能和改進過時的監(jiān)測和控制方法。
b)提高資產(chǎn)利用率和效率。在實踐中,大數(shù)據(jù)分析可以提高資產(chǎn)利用率和效率,可以更好地了解資產(chǎn)的經(jīng)營特征和物理極限,更好地驗證和校準(zhǔn)模型以及可再生資源的整合。文獻[63]中,作者利用智能電表和地理信息系統(tǒng)(GIS)的數(shù)據(jù)進行變壓器耐久度分析,使操作人員能夠提前檢修或更換變壓器;文獻[64-68]為大數(shù)據(jù)在模型驗證與校準(zhǔn)中的應(yīng)用進行了許多工作。
c)更好的客戶體驗與滿意度。近年來,智能電表的部署取得了重大進展,使計費、欺詐檢測、停電預(yù)警、智能實時定價、需求響應(yīng)和高效能源利用變得更加容易;然而,這些應(yīng)用都需要高采樣率的儀表和先進的數(shù)據(jù)分析技術(shù),以及信息通信技術(shù)。
為了更好地實現(xiàn)大數(shù)據(jù)分析的優(yōu)勢,必須找到合適的平臺或模型來適應(yīng)這些應(yīng)用[69-72]。云存儲與計算作為一門新興技術(shù),由于其在許多方面的優(yōu)勢,得到了廣泛的關(guān)注和應(yīng)用。Chang等人從數(shù)據(jù)存儲的角度對云與非云大數(shù)據(jù)進行了比較,結(jié)果表明,基于云計算的實際執(zhí)行時間較低,且一致性和效率比非云計算結(jié)果更高。
圖3所示為普遍存在于智能電網(wǎng)中的數(shù)據(jù)云模型,圖中API為應(yīng)用程序接口,S1—Sn為各類電網(wǎng)數(shù)據(jù)采集設(shè)備。異構(gòu)數(shù)據(jù)由傳感器進行計量,然后通過應(yīng)用編程接口和網(wǎng)絡(luò)傳輸?shù)綌?shù)據(jù)云子中心。所有云存儲數(shù)據(jù)都可以由合法參與者(如控制室操作員、第三方服務(wù)提供商)針對特定的應(yīng)用程序進行查詢。該方案具有成本分?jǐn)偂⒒ゲ僮餍?、可擴展性、并行計算效率高、分布式管理、容錯性和數(shù)據(jù)安全性高等優(yōu)點。
事實上,已經(jīng)有很多工業(yè)云平臺被用于處理智能電網(wǎng)大數(shù)據(jù),比如:微軟公司開發(fā)的Azure云平臺,它托管基于云的應(yīng)用程序并進行數(shù)據(jù)處理;Holm為私人家庭能源管理工具,是第一個基于云平臺Azure的應(yīng)用程序[62];基于谷歌應(yīng)用引擎云平臺的Google PowerMerer是一款追蹤家庭能源消耗的應(yīng)用程序;InterPSS是基于互聯(lián)網(wǎng)技術(shù)的開源電力系統(tǒng)仿真的簡稱,旨在為智能電網(wǎng)的新應(yīng)用開發(fā)基于云數(shù)據(jù)的仿真平臺[73]。文獻[74]提出一種基于云計算的智能電網(wǎng)大數(shù)據(jù)信息管理框架,包括頂層、區(qū)域級和最終用戶級3個層次,該框架在開源云計算平臺Eucalyptus上的原型中得到了應(yīng)用。其他平臺或云計算模塊正在研究或已經(jīng)被應(yīng)用,如MapReduce、Chord、Dynamo、Zookeeper、Chubby等[75-77]。
圖3 智能電網(wǎng)大數(shù)據(jù)云模型Fig.3 Cloud model of smart grid big data
目前智能電網(wǎng)中最常用的2個平臺為Hadoop MapReduce平臺和Apache spark平臺。
2.2.1 Hadoop MapReduce平臺
MapReduce平臺最初由谷歌在2004年開發(fā),是最流行的、用于大規(guī)模數(shù)據(jù)處理的編程模型,它有多種實現(xiàn)方法,如Hadoop、Mars、Phoenix、Dryad和Sector/Sphere。Hadoop最早由Doug Cutting和Mike Cafarella于2005年開發(fā),廣泛應(yīng)用于谷歌、雅虎、Facebook、YouTube、IBM和微軟等大型科技公司,因其可擴展性、高靈活性和自動故障恢復(fù)技術(shù)等優(yōu)點,很快成為Apache的頂級項目。Hadoop MapReduce框架的體系結(jié)構(gòu)如圖4所示,其核心由2部分組成:數(shù)據(jù)處理組件MapReduce和Hadoop分布式文件系統(tǒng)(HDFS)。
圖4 Hadoop MapReduce體系結(jié)構(gòu)Fig.4 Hadoop MapReduce architecture
由于能源大數(shù)據(jù)的獨特性,需要對信息科學(xué)平臺進行改造,使之應(yīng)用于電力系統(tǒng)。文獻[78]中,Zhang等人提出一種新的增量式MapReduce,并將其命名為i2MapReduce,用于執(zhí)行鍵-值式增量處理,以支持電力系統(tǒng)中更復(fù)雜的迭代計算。
2.2.2 Apache Spark平臺
處理大數(shù)據(jù)的方法主要有3種:批處理、流處理和迭代處理。文獻[79]指出,Hadoop MapReduce適合于實證數(shù)據(jù)和靜態(tài)數(shù)據(jù)分析,而不適用于實時數(shù)據(jù)和流數(shù)據(jù)分析。Spark是由加州大學(xué)伯克利分校的AMP實驗室在基于Map Reduce分布式計算思想的基礎(chǔ)上開發(fā)的迭代計算框架和開源通用并行云計算平臺。與Hadoop相比,該平臺能夠處理實時流式數(shù)據(jù)。根據(jù)Spark官方文檔提供數(shù)據(jù)顯示,Spark從內(nèi)存中讀取數(shù)據(jù)的速度比Hadoop高100多倍。
Spark的通用性較強,Spark SQL、Spark Streaming、MLLib和GraphX等組件組成了Spark豐富的生態(tài)圈。Spark SQL的即時查詢、Streaming的流式處理、MLLib的機器學(xué)習(xí)和GraphX的圖處理,能夠完美集成并提供一站式解決平臺方案。北美電網(wǎng)頻率監(jiān)測網(wǎng)(FNET/GridEye)是Spark技術(shù)在智能電網(wǎng)中應(yīng)用的典型例子[80]。該系統(tǒng)在美國部署了150臺頻率擾動記錄儀,在全球其他地區(qū)部署了約50臺,其體系結(jié)構(gòu)包括面向?qū)崟r應(yīng)用的openPDC、用于近實時應(yīng)用的分布式分析集群和用于事后統(tǒng)計分析的Apache Spark。得益于高速、廣泛的監(jiān)測數(shù)據(jù)和分布式數(shù)據(jù)分析平臺,一些電力系統(tǒng)事件能夠被及時發(fā)現(xiàn),如2012年颶風(fēng)桑迪期間James A.Fitzpatrick發(fā)電廠的發(fā)電機脫落事件。
單獨收集的數(shù)據(jù)是無用的,關(guān)鍵是從數(shù)據(jù)集中提取信息,而數(shù)據(jù)挖掘被認(rèn)為是最有用的知識提取技術(shù)之一。數(shù)據(jù)挖掘在電力系統(tǒng)中并不新鮮,但過去幾十年使用的技術(shù)主要基于結(jié)構(gòu)化查詢語言(structured query language,SQL)數(shù)據(jù)庫甚至電子表格統(tǒng)計的方法。在智能電網(wǎng)背景下,需要新的、更高效的算法和工具來處理大量涌入的數(shù)據(jù)。
最初的數(shù)據(jù)挖掘方法比較原始,如靜態(tài)知識和單源挖掘方法[81],它們不適用于包含大量異構(gòu)和流數(shù)據(jù)的智能電網(wǎng)場景,針對這一問題,學(xué)者們提出了多源挖掘機制和動態(tài)數(shù)據(jù)挖掘方法。文獻[82]首次提出一種局部模式分析方法,為多源挖掘機制的建立奠定了基礎(chǔ)。相較于低效率、高成本傳統(tǒng)集中式數(shù)據(jù)處理的分析方法,分布式計算更加高效,已被廣泛應(yīng)用于地質(zhì)、氣候和環(huán)境分析、人類基因組計劃、暗能量測量計劃等領(lǐng)域[83-84]。
隨著計算能力的大幅提高和硬件成本的降低,一些新的信息提取方法被提出,機器學(xué)習(xí)就是其中之一。最常用的機器學(xué)習(xí)算法有9種,包括k-均值、線性支持向量機(linear support vector machine,LSVM)、邏輯回歸(logic regression,LR)、局部加權(quán)線性回歸(local weight linear regression,LWLR)、高斯判別分析(Gauss discriminant analysis,GDA)、反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)、期望最大化(expectation maximization,EM)、樸素貝葉斯(naive Bayes,NB)和自變量分析(independent variable analysis,IVA)。每種算法都有其各自的特點,因此可以在不同的場景中使用。文獻[85-86]采用混合k-聚類和主成分分析相結(jié)合的方法,進行數(shù)據(jù)降維和估計映射。文獻[87]基于3 639個用戶電表數(shù)據(jù),利用回歸分析的方法進行用戶負(fù)荷分類。
淺層學(xué)習(xí)模型(如k-均值、LSVM和LR)在約束良好的簡單問題優(yōu)化中效果較好,但對于復(fù)雜案例(如自然語言問題),其結(jié)果還遠不能令人滿意,取而代之的是一種更精細、更復(fù)雜的方法,即深度學(xué)習(xí)[88]。
深度學(xué)習(xí)的起源要追溯到神經(jīng)網(wǎng)絡(luò),早期采用的反向傳播(BP)算法在訓(xùn)練深層網(wǎng)絡(luò)時效果不高。2006年多倫多大學(xué)的Hinton等人使用無監(jiān)督的逐層貪婪預(yù)訓(xùn)練(greedy layer-wise pre-train)方法,減輕了深度模型優(yōu)化困難問題[89],從而掀起了深度學(xué)習(xí)的浪潮。Bengio等人基于自動編碼器(auto-encoder)提出非概率的無監(jiān)督深度學(xué)習(xí)模型[90],也取得了類似的效果。近幾年,深度學(xué)習(xí)在語音、圖像以及自然語言理解方面取得了一些類重大進展。從2009年開始,微軟研究院的Dahl等人率先在語音處理中使用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN),顯著降低了語音識別錯誤率[91];Facebook人工智能實驗室的Taigman等人使用DNN技術(shù),在人臉識別上也取得了突出的效果[92];在Google Brain項目中,Le等人基于無監(jiān)督的深度學(xué)習(xí)開展研究,在圖像分類中取得了很好的效果[93];2011年科大訊飛首次將DNN技術(shù)運用到語音云平臺,并在訊飛語音輸入法和訊飛口訊等產(chǎn)品中取得較好的應(yīng)用效果。
大數(shù)據(jù)的概念并不新鮮,它可以用來提高社會透明度、反映人們的需求、替代人工決策等。然而,大數(shù)據(jù)技術(shù)在電力系統(tǒng)中的應(yīng)用目前還處于起步階段,擁有廣闊的發(fā)展前景。智能電網(wǎng)大數(shù)據(jù)技術(shù)在以下幾個方面仍有很大的空間值得研究探索:
a)多源數(shù)據(jù)集成與存儲。傳統(tǒng)的數(shù)據(jù)分析通常處理來自單一領(lǐng)域的數(shù)據(jù),因此尋找一種能夠融合不同模式、格式和表示的數(shù)據(jù)集的方法十分必要。在大數(shù)據(jù)存儲方面,雖然信息科學(xué)領(lǐng)域的某些技術(shù)看似可行,仍需要對其進行裁剪和修改,以適應(yīng)電網(wǎng)大數(shù)據(jù)的要求。
b)實時數(shù)據(jù)處理技術(shù)。對于一些緊急應(yīng)用,如故障檢測和瞬態(tài)振蕩檢測,其時間尺度為毫秒級,雖然云計算系統(tǒng)能夠提供快速的計算服務(wù),但是網(wǎng)絡(luò)擁塞、算法復(fù)雜、數(shù)據(jù)量大等問題仍然會導(dǎo)致延遲?;趦?nèi)存的數(shù)據(jù)庫似乎是解決這一問題的一種可行方法[94]。
c)數(shù)據(jù)壓縮。在廣域監(jiān)控系統(tǒng)中,數(shù)據(jù)壓縮技術(shù)必不可少,數(shù)據(jù)壓縮應(yīng)具有高保真度的特點。此外,為了在實現(xiàn)高壓縮比的同時檢測瞬態(tài)擾動,還需要一些特殊的壓縮方法。
d)大數(shù)據(jù)可視化技術(shù)??梢暬膱D形和圖表可以將電壓和頻率的粒度和變化呈現(xiàn)給操作員,但如何有效地發(fā)現(xiàn)和表示多源數(shù)據(jù)之間的相關(guān)性或趨勢是很大的挑戰(zhàn)。此外,還存在可視化算法、信息提取以及圖像合成技術(shù)等方面的挑戰(zhàn)[95]。
e)數(shù)據(jù)隱私和安全。在可預(yù)見的將來,傳統(tǒng)SCADA系統(tǒng)將與新的同步相量量測系統(tǒng)共存。防止網(wǎng)絡(luò)攻擊不在SCADA系統(tǒng)設(shè)計的考慮范圍之內(nèi),多種類型攻擊可能發(fā)生,如元數(shù)據(jù)欺騙、釣魚攻擊等。在客戶方面,家庭用電設(shè)備的增多需要更多的智能電表,但同時也產(chǎn)生了更多的個人信息[96]。由于數(shù)據(jù)在不同的實體之間共享,私有數(shù)據(jù)泄漏可能是一場災(zāi)難。
大數(shù)據(jù)技術(shù)被認(rèn)為是智能電網(wǎng)建設(shè)的主要技術(shù),本文從能源大數(shù)據(jù)來源、大數(shù)據(jù)在智能電網(wǎng)中的優(yōu)勢、大數(shù)據(jù)支持的理論和實際應(yīng)用,以及當(dāng)前大數(shù)據(jù)分析平臺和技術(shù)等方面對智能電網(wǎng)大數(shù)據(jù)問題進行了綜述。
在智能電網(wǎng)中,最新部署的PMU、AMR、DFR等智能電表和傳統(tǒng)的電網(wǎng)現(xiàn)場設(shè)備共同構(gòu)成了公用事業(yè)大數(shù)據(jù)場景,實際上,這種建設(shè)形式不僅給電網(wǎng)帶來了許多好處,同時也帶來了許多挑戰(zhàn)。本文深入探討了大數(shù)據(jù)分析在電網(wǎng)中的理論和實際應(yīng)用,與傳統(tǒng)的非數(shù)據(jù)驅(qū)動方法相比,所討論的一些應(yīng)用是較新穎和有效的。此外,由于大數(shù)據(jù)分析的平臺和方法最初來自信息/計算機科學(xué)領(lǐng)域,需要對其進行修改和定制。最后,總結(jié)了大數(shù)據(jù)在智能電網(wǎng)中的應(yīng)用所面臨的挑戰(zhàn),以及未來的發(fā)展前景。