馬義松, 武志剛
(華南理工大學(xué)電力學(xué)院, 廣東 廣州 510640)
基于Neo4j的電力大數(shù)據(jù)建模及分析
馬義松, 武志剛
(華南理工大學(xué)電力學(xué)院, 廣東 廣州 510640)
電力大數(shù)據(jù)的處理離不開大數(shù)據(jù)技術(shù)的支持,如何存儲電力大數(shù)據(jù)并從中挖掘出有價值的信息來促進(jìn)電網(wǎng)的發(fā)展是當(dāng)前的研究熱點(diǎn)。本文首先從數(shù)據(jù)存儲方式和數(shù)據(jù)檢索功能兩方面對圖數(shù)據(jù)庫Neo4j進(jìn)行詳細(xì)介紹;然后提出基于Neo4j構(gòu)建電網(wǎng)的全景數(shù)據(jù)庫,根據(jù)電力網(wǎng)絡(luò)拓?fù)浣⒃O(shè)備映射表,將目前電網(wǎng)中分散、隔離的海量數(shù)據(jù)有序地整合起來,同時利用Neo4j自身封裝的圖論算法提出基于圖論的電力數(shù)據(jù)聚類分析方法;最后基于Neo4j數(shù)據(jù)庫分析了兩個具體的算例,對Neo4j數(shù)據(jù)庫的信息檢索性能和數(shù)據(jù)聚類分析功能進(jìn)行了測試。
電力大數(shù)據(jù); Neo4j; 數(shù)據(jù)分析; 網(wǎng)絡(luò)拓?fù)浞治?/p>
隨著電網(wǎng)智能化、信息化不斷發(fā)展,電力數(shù)據(jù)采集粒度越來越小,數(shù)據(jù)類型越來越多,精細(xì)化程度越來越高,電力大數(shù)據(jù)環(huán)境正在形成[1,2]。大數(shù)據(jù)為電力企業(yè)帶來了新的發(fā)展機(jī)遇,大數(shù)據(jù)能夠?qū)崿F(xiàn)資源的優(yōu)化配置,幫助建立更有效的用戶需求側(cè)管理系統(tǒng),提高電網(wǎng)對災(zāi)難的預(yù)警和應(yīng)對能力等。另一方面海量數(shù)據(jù)的產(chǎn)生也給電力系統(tǒng)信息平臺建設(shè)帶來巨大挑戰(zhàn)[3-5],如何解決數(shù)據(jù)量劇增、數(shù)據(jù)結(jié)構(gòu)復(fù)雜化帶來的瓶頸是當(dāng)前的研究熱點(diǎn)。
電力數(shù)據(jù)根據(jù)數(shù)據(jù)類型的不同可以細(xì)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)代電網(wǎng)企業(yè)數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)體量呈爆炸性增長趨勢,然而傳統(tǒng)電網(wǎng)信息平臺數(shù)據(jù)存儲大多采用關(guān)系數(shù)據(jù)庫,隨著數(shù)據(jù)規(guī)模的膨脹與數(shù)據(jù)復(fù)雜程度的增加,數(shù)據(jù)平臺已無法充分滿足電網(wǎng)數(shù)據(jù)處理的需求。關(guān)系數(shù)據(jù)庫不能很好地適應(yīng)電力數(shù)據(jù)的動態(tài)性,易導(dǎo)致數(shù)據(jù)冗余和性能損失等問題,也不能支持類似“連接某設(shè)備的設(shè)備有哪些”等多層次的復(fù)雜數(shù)據(jù)結(jié)構(gòu)查詢??紤]到現(xiàn)代電力系統(tǒng)規(guī)模龐大、結(jié)構(gòu)復(fù)雜,對電力系統(tǒng)復(fù)雜演化網(wǎng)絡(luò)模型做實(shí)質(zhì)性的研究需要一個更靈活高效的數(shù)據(jù)平臺作為基礎(chǔ),這可借助于在IT業(yè)界中長期存在的另一類數(shù)據(jù)庫模型NOSQL[6]。文獻(xiàn)[7]提出利用NOSQL的列族存儲技術(shù)Hadoop[8]對電力大數(shù)據(jù)進(jìn)行處理,Hadoop能夠?qū)A繑?shù)據(jù)進(jìn)行分布式處理,但Hadoop僅適用于數(shù)據(jù)能夠被分解為鍵值對存儲、且不需要考慮數(shù)據(jù)之間隱性結(jié)構(gòu)關(guān)系的對象,而電網(wǎng)數(shù)據(jù)中往往包含著各種隱性結(jié)構(gòu)關(guān)系,其數(shù)據(jù)結(jié)構(gòu)往往和數(shù)據(jù)本身一樣重要[9],而Hadoop并未顯式利用電網(wǎng)的拓?fù)湫畔ⅰ?/p>
針對電力大數(shù)據(jù)動態(tài)變化且數(shù)據(jù)內(nèi)在聯(lián)系復(fù)雜的特點(diǎn),本文提出利用圖數(shù)據(jù)庫Neo4j[10]對電力大數(shù)據(jù)進(jìn)行建模和分析。文中首先介紹了Neo4j的數(shù)據(jù)存儲方式和數(shù)據(jù)檢索功能,然后闡述基于Neo4j構(gòu)建電網(wǎng)全景數(shù)據(jù)庫的一般方法,介紹其圖論算法并提出基于圖論的數(shù)據(jù)聚類分析功能,最后基于Neo4j分析了具體的電網(wǎng)算例,對其信息檢索性能和數(shù)據(jù)聚類分析功能進(jìn)行測試。
Neo4j是基于Java的高性能、高可靠性、可擴(kuò)展性強(qiáng)的開源圖數(shù)據(jù)庫,完全兼容ACID,即原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。作為一種新興的數(shù)據(jù)庫技術(shù),圖數(shù)據(jù)庫的內(nèi)核是一種極快的拓?fù)湟?,重點(diǎn)關(guān)注大數(shù)據(jù)量以及數(shù)據(jù)內(nèi)部復(fù)雜依賴的處理。
2.1 基于Neo4j的數(shù)據(jù)存儲
Neo4j的信息建模包括節(jié)點(diǎn)、邊和屬性三種構(gòu)造單元,如圖1所示。每兩個節(jié)點(diǎn)間可存在多條不同方向、類型的邊,并且所有節(jié)點(diǎn)和邊均具有可變的屬性列表。
圖1 Neo4j構(gòu)造單元Fig.1 Structural unit of Neo4j
圖數(shù)據(jù)庫的創(chuàng)建和維護(hù)簡單,每個節(jié)點(diǎn)對應(yīng)于關(guān)系數(shù)據(jù)庫中的一個記錄,節(jié)點(diǎn)和邊的屬性則相當(dāng)于記錄中的字段,屬性內(nèi)容和個數(shù)可以動態(tài)變化,節(jié)點(diǎn)之間的邊也可以自由刪減并且不會影響已有數(shù)據(jù)結(jié)構(gòu)的邏輯,這對于關(guān)系數(shù)據(jù)庫來說是異常困難的[11]。
盡管電力系統(tǒng)的很多元件的模型都可以給出固定不變的數(shù)據(jù)結(jié)構(gòu),但也存在大量的元件類型需要經(jīng)常改變其數(shù)據(jù)結(jié)構(gòu),甚至可能涌現(xiàn)出以前從來沒有在電力系統(tǒng)里出現(xiàn)過的新的元件類型,再加上電網(wǎng)數(shù)據(jù)的動態(tài)變化經(jīng)常會引起字段變化,增刪字段會引起表的重構(gòu)并導(dǎo)致關(guān)系數(shù)據(jù)庫性能的耗損,頻繁的字段操作更會造成存儲結(jié)構(gòu)的零碎化,使得訪問性能下降。Neo4j中電網(wǎng)數(shù)據(jù)動態(tài)變化時則只需要修改相應(yīng)節(jié)點(diǎn)、邊的屬性,有效地解決了關(guān)系數(shù)據(jù)庫應(yīng)對數(shù)據(jù)動態(tài)變化時能力不足的問題。
2.2 基于Neo4j的數(shù)據(jù)檢索
關(guān)系數(shù)據(jù)庫在遍歷具有圖數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)并抽取信息的能力上比較弱,互相鏈接數(shù)據(jù)的查詢會導(dǎo)致大量的表鏈接(即所謂JOIN操作)。Neo4j可直接存儲電力網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)而不需將其映射成二維表,數(shù)據(jù)結(jié)構(gòu)關(guān)系在錄入時就已經(jīng)建立完畢,對數(shù)據(jù)網(wǎng)絡(luò)遍歷的時間復(fù)雜度僅為O(n),利用圖數(shù)據(jù)庫的高度可擴(kuò)展性可準(zhǔn)確體現(xiàn)電力系統(tǒng)的演化特征。
Neo4j中集成了Traversal數(shù)據(jù)遍歷接口以及Lucene數(shù)據(jù)索引功能,不僅能以相同速度遍歷所有節(jié)點(diǎn)和邊,而且遍歷速度幾乎不受構(gòu)成圖形的數(shù)據(jù)量影響,有利于實(shí)現(xiàn)快速的數(shù)據(jù)網(wǎng)絡(luò)遍歷。而且,Neo4j不僅提供了類似聯(lián)機(jī)分析處理(Online Analytical Processing, OLAP)的分析方法,還集成了Dijkstra、A*等高性能的圖論算法,可提供高性能的特征遍歷、最短路徑搜索等功能,這在基于二維表存儲的關(guān)系數(shù)據(jù)庫或者基于MapReduce并行分布處理的Hadoop等數(shù)據(jù)庫技術(shù)中幾乎是不可能實(shí)現(xiàn)的。本小節(jié)介紹的Neo4j具備的各類遍歷算法在第3節(jié)的數(shù)據(jù)存儲與第4節(jié)的數(shù)據(jù)分析中將得到應(yīng)用。
3.1 電力信息資源現(xiàn)狀
電力信息化經(jīng)過幾十年的發(fā)展,已經(jīng)積累了大量電力系統(tǒng)生產(chǎn)、運(yùn)行管理和電力市場運(yùn)營等方面的數(shù)據(jù),具有良好的數(shù)據(jù)基礎(chǔ)。但是由于各個時期的技術(shù)水平不同以及標(biāo)準(zhǔn)規(guī)范的差異,電力企業(yè)間大都是豎井式的、孤立存儲的業(yè)務(wù)數(shù)據(jù),甚至形成信息孤島[12]。
電力大數(shù)據(jù)的信息價值具有隱蔽性,數(shù)據(jù)的共性和網(wǎng)絡(luò)的整體特性往往隱藏在不同類型、分散存儲的業(yè)務(wù)數(shù)據(jù)中,因此電力大數(shù)據(jù)的處理應(yīng)該是對跨地域、跨時間、跨空間信息資源所構(gòu)成的全景數(shù)據(jù)進(jìn)行分析。
3.2 基于Neo4j數(shù)據(jù)資源的整合
電力企業(yè)各方面的業(yè)務(wù)數(shù)據(jù)實(shí)際上描述的是同一個實(shí)際電網(wǎng),只是由于業(yè)務(wù)需求不同,對電網(wǎng)的映射方式及提取的信息有所差異。電網(wǎng)具有典型的拓?fù)涮匦裕鶕?jù)電網(wǎng)的拓?fù)浣Y(jié)構(gòu)特征建立設(shè)備映射表是進(jìn)行電網(wǎng)數(shù)據(jù)整合的關(guān)鍵,而以圖引擎為內(nèi)核的圖數(shù)據(jù)庫Neo4j非常適合作為構(gòu)建統(tǒng)一數(shù)據(jù)平臺的載體?;贜eo4j建立設(shè)備映射表只需將設(shè)備抽象為節(jié)點(diǎn),設(shè)備連接關(guān)系抽象為邊,設(shè)備的電氣屬性和連接屬性抽象為節(jié)點(diǎn)和邊的屬性(實(shí)際應(yīng)用中需要更加詳細(xì)的標(biāo)準(zhǔn)規(guī)范)。
Neo4j數(shù)據(jù)庫的復(fù)用性和擴(kuò)展性強(qiáng),當(dāng)網(wǎng)絡(luò)中新增某個設(shè)備或者電氣元件特性動態(tài)更新時無需進(jìn)行大量修改,符合未來智能電網(wǎng)發(fā)展的需求;同時Neo4j中通過將關(guān)系型數(shù)據(jù)庫中使用連接表來表達(dá)的連接和從屬關(guān)系抽象為一個基本單元表達(dá),能大大提高處理復(fù)雜關(guān)聯(lián)數(shù)據(jù)時的運(yùn)行效率。
基于Neo4j進(jìn)行電力數(shù)據(jù)建模時可以遵循國際通用的公共信息模型(Common Information Model,CIM),以Neo4j數(shù)據(jù)庫構(gòu)建數(shù)據(jù)接口體系,從而互聯(lián)不同的電網(wǎng)系統(tǒng)數(shù)據(jù),如圖2所示。數(shù)據(jù)建模具體描述規(guī)則如下。
(1)點(diǎn):表示一個具體設(shè)備,根據(jù)研究的數(shù)據(jù)粒度大小不同而不同,即按實(shí)際需求的不同可以是一個變電站也可以為一個開關(guān)。
(2)邊:表示設(shè)備間的關(guān)聯(lián),可以帶方向。例如電氣設(shè)備A和B是單向連通的話為A=>B或B=>A,雙向連通則為A<=>B。
(3)屬性:表示點(diǎn)和邊的屬性,不做任何具體約定且屬性可以動態(tài)更新,適用于處理電網(wǎng)實(shí)時變化的復(fù)雜數(shù)據(jù)。所有的設(shè)備信息都轉(zhuǎn)化為節(jié)點(diǎn)和邊的屬性存儲到圖數(shù)據(jù)庫。
圖2 基于Neo4j的系統(tǒng)接口體系Fig.2 Data interface architecture based on Neo4j
基于Neo4j進(jìn)行電網(wǎng)數(shù)據(jù)整合不僅能夠保證數(shù)據(jù)的完整性,而且能夠兼顧電網(wǎng)的拓?fù)涮匦訹13],有利于從圖論的角度挖掘數(shù)據(jù)網(wǎng)絡(luò)的基本參數(shù),如復(fù)雜網(wǎng)絡(luò)平均特征路徑長度、節(jié)點(diǎn)度及度的分布、聚類系數(shù)、節(jié)點(diǎn)介數(shù)等特征參數(shù)。利用Neo4j高效的數(shù)據(jù)檢索性能和豐富的圖論算法功能還可以擴(kuò)展出多種具有電力行業(yè)特色的拓?fù)渌惴╗14,15],如基于節(jié)點(diǎn)連通性遍歷的電網(wǎng)故障影響范圍分析等。
目前大多數(shù)傳統(tǒng)的聚類方法需要對電力數(shù)據(jù)進(jìn)行預(yù)處理并人為給定聚類數(shù)目,聚類結(jié)果的有效性對指定的初始聚類中心較為敏感,并且對大規(guī)模電網(wǎng)數(shù)據(jù)的處理性能往往不能滿足要求。本節(jié)基于圖數(shù)據(jù)庫Neo4j的圖數(shù)據(jù)存儲結(jié)構(gòu)提出一種電力大數(shù)據(jù)聚類方法,動態(tài)擬合數(shù)據(jù)對象之間的相關(guān)性。該聚類方法無需預(yù)先深入認(rèn)知數(shù)據(jù)和給定聚類個數(shù),通過對集成的各類電力數(shù)據(jù)對象進(jìn)行相似度的計(jì)算,從而實(shí)現(xiàn)關(guān)聯(lián)度分析。本節(jié)提出的聚類方法主要分為兩個部分:首先根據(jù)數(shù)據(jù)特征,計(jì)算數(shù)據(jù)對象之間的相似度;其次界定核心節(jié)點(diǎn),從而為聚類提供參考的節(jié)點(diǎn)強(qiáng)度,并指定核心節(jié)點(diǎn)的強(qiáng)度為聚類時的核心度。相似度和核心度確定后就可進(jìn)行聚類分析。
4.1 相似度計(jì)算
基于圖數(shù)據(jù)庫擬合數(shù)據(jù)對象間的相似度,將數(shù)據(jù)的聚類問題轉(zhuǎn)換成網(wǎng)絡(luò)的模塊化問題。計(jì)算相似度之前需先計(jì)算數(shù)據(jù)對象間的相異度,根據(jù)對象間的不匹配率進(jìn)行相異度計(jì)算,如式(1)所示:
(1)
式中,d(i,j)代表數(shù)據(jù)對象i和j之間的相異度;m為匹配的數(shù)目,即i和j取值相同狀態(tài)的數(shù)目;p為全部數(shù)據(jù)的數(shù)目。在得到對象間的相異度后需將其轉(zhuǎn)換為相似度,為計(jì)算方便需將其進(jìn)行適當(dāng)規(guī)范化處理。定義規(guī)范化的對象相似度計(jì)算如式(2)所示:
(2)
式中,dmax為數(shù)據(jù)集中所有對象間相異度的最大值;dmin為數(shù)據(jù)集中所有對象間相異度的最小值;相似度滿足條件:0≤s(i,j)≤1。
4.2 節(jié)點(diǎn)強(qiáng)度計(jì)算
在空間聚類過程中,數(shù)據(jù)對象間的相似度越大,該節(jié)點(diǎn)的重要性越明顯,在局部范圍內(nèi)具有較大的凝聚力。對一個數(shù)據(jù)網(wǎng)絡(luò)G(V,E,S),其中V={v1,v2,…,vn}表示節(jié)點(diǎn)集合,E={e12,e13,…,eij,…}表示邊集合,S={s12,s13,…,sij,…}表示節(jié)點(diǎn)的相似度集合,定義節(jié)點(diǎn)j的強(qiáng)度如式(3)所示:
(3)
F(j)取最大值的節(jié)點(diǎn)即該研究狀態(tài)下數(shù)據(jù)對象的核心節(jié)點(diǎn)。以強(qiáng)度最大的節(jié)點(diǎn)作為初始對象,以其節(jié)點(diǎn)強(qiáng)度作為核心度,進(jìn)行第一次聚類,然后將屬于這個聚類的節(jié)點(diǎn)及其邊移除,采用同樣的方法依次處理數(shù)據(jù)網(wǎng)絡(luò)的其他節(jié)點(diǎn),最終完成聚類過程。
本文首先在圖數(shù)據(jù)庫Neo4j和關(guān)系數(shù)據(jù)庫MySQL[16]中分別建立南方A地區(qū)輸電主網(wǎng)(下稱A輸電網(wǎng))和南方B地區(qū)輸電主網(wǎng)(下稱B輸電網(wǎng))的數(shù)據(jù)模型,對Neo4j和MySQL進(jìn)行信息檢索性能的測試對比,并基于Neo4j統(tǒng)計(jì)數(shù)據(jù)模型的拓?fù)涮卣鲄?shù);然后以某地區(qū)45個220kV變電站綜合負(fù)荷特性數(shù)據(jù)為研究對象,分別采用本文基于圖論的數(shù)據(jù)聚類分析方法和模糊C均值算法進(jìn)行聚類性能對比分析。結(jié)果表明基于圖數(shù)據(jù)庫Neo4j的電力數(shù)據(jù)處理不僅具備高效的信息檢索能力,而且有更優(yōu)的聚類性能和分類精度,在大數(shù)據(jù)研究背景下該優(yōu)勢將更加明顯。
5.1 檢索性能對比及網(wǎng)絡(luò)特征參數(shù)分析
表1為A輸電網(wǎng)和B輸電網(wǎng)的數(shù)據(jù)模型信息。利用Neo4j的Traversal遍歷接口和MySQL的SQL語句分別進(jìn)行數(shù)據(jù)結(jié)構(gòu)查詢,查詢分別執(zhí)行10次,去除最短時間和最長時間,取其他8次查詢時間的平均值作為查詢時間。
表1 電網(wǎng)數(shù)據(jù)模型參數(shù)
注:NG、NB、NBR、NT和NL分別代表電網(wǎng)發(fā)電機(jī)節(jié)點(diǎn)數(shù)、母線節(jié)點(diǎn)數(shù)、線路支路數(shù)、變壓器數(shù)和負(fù)荷節(jié)點(diǎn)數(shù)。
Neo4j中Traversal遍歷語句如下所示,其中參數(shù)k為遍歷深度(即起始點(diǎn)的第k層鄰接點(diǎn)):
Path=Traversal.description().breadthFirst().Relation-ships(RelTypes.OUT,Direction.BOTH).evaluator(Evaluators.excludeStartPosition()).evaluator(Evaluators.toDepth(k)).traverse(node);
MySQL主要的SQL查詢語句如下所示,其中參數(shù)k為遍歷深度:
for (inti=1;i sql="select IF(bus.BusID=branch.I_ID,branch.J_ID, branch.I_ID)as ID from branch JOIN bus ON bus.BusID=branch.I_ID or bus.BusID=branch.J_ID WHERE bus.BusID IN ("+ sql +")";} A電網(wǎng)中以525kV節(jié)點(diǎn)LB-H為遍歷起始點(diǎn),B電網(wǎng)中則以20kV節(jié)點(diǎn)LuoLa3為遍歷起始點(diǎn),遍歷時長與遍歷深度的變化關(guān)系如圖3和圖4所示。由圖可見,遍歷深度較低(低于6)時Traversal和SQL的檢索性能相當(dāng),兩者遍歷時間接近;但隨著遍歷深度增加,SQL語句的遍歷時長明顯增加,Traversal則相對穩(wěn)定,由圖4可見遍歷深度為9時Traversal的時長已遠(yuǎn)遠(yuǎn)低于SQL。圖數(shù)據(jù)庫這一優(yōu)點(diǎn)在進(jìn)行電力系統(tǒng)連鎖故障分析等特定任務(wù)時顯得尤為重要。 圖3 查詢結(jié)果(最大遍歷深度6)Fig.3 Query results (biggest traversal depth of 6) 圖4 查詢結(jié)果(最大遍歷深度9)Fig.4 Query results (biggest traversal depth of 9) 表2為電網(wǎng)的拓?fù)涮卣鲄?shù),基于Neo4j統(tǒng)計(jì)出了數(shù)據(jù)模型的平均度數(shù)、平均特征路徑長度和聚類系數(shù)等特征參數(shù)。 表 2 電網(wǎng)拓?fù)涮卣鲄?shù) 注:K、D、L和C分別代表電網(wǎng)的平均度、網(wǎng)絡(luò)直徑、平均特征路徑長度和聚類系數(shù)。 限于篇幅,只給出基于Neo4j圖論算法的平均特征路徑長度程序,如下所示。 public Path findShortestPath(Node fnode, Node tnode,int N) {PathFinder path=finder.findSinglePath(fnode, tnode); 實(shí)驗(yàn)組患者主訴良好達(dá)到100%(55例),并表示愿意再次接受檢查治療;常規(guī)組患者主訴良好,且表示愿意再次接受診療的患者占比76.36%(42例),兩組數(shù)據(jù)比較具有統(tǒng)計(jì)學(xué)意義(P<0.05,X2=14.7423)。 return path;} shortestPath.add(findShortestPath(fnode, tnode,N)); for (Path shortest: shortestPath) {count=count+shortest.length();} APL=2*count/((N-1)*N); 一般認(rèn)為介數(shù)和度數(shù)較高的聯(lián)絡(luò)節(jié)點(diǎn)在保障電網(wǎng)連通性的同時有導(dǎo)致連鎖故障發(fā)生的潛在風(fēng)險(xiǎn)[17]。Neo4j能夠根據(jù)電力系統(tǒng)實(shí)時工作狀態(tài)形成相應(yīng)的數(shù)據(jù)模型,并利用自身優(yōu)越的拓?fù)錂z索功能找出這些存在風(fēng)險(xiǎn)的節(jié)點(diǎn),由于算例中節(jié)點(diǎn)數(shù)較多,本文程序設(shè)置以找出風(fēng)險(xiǎn)最大的5個節(jié)點(diǎn)為目標(biāo),運(yùn)行結(jié)果如表3所示。 表3 風(fēng)險(xiǎn)節(jié)點(diǎn)檢索 利用Neo4j能夠快速地實(shí)現(xiàn)電網(wǎng)數(shù)據(jù)模型的搭建并對其進(jìn)行特征參數(shù)的分析,這對于大型電網(wǎng)的脆弱性評估和研究電網(wǎng)中故障傳播的內(nèi)在機(jī)理具有重要的意義[18,19]。 5.2 聚類性能對比 表4為某地區(qū)變電站六大用電行業(yè)的典型負(fù)荷特性數(shù)據(jù),該數(shù)據(jù)為標(biāo)準(zhǔn)化后的負(fù)荷容量百分比。 表4 綜合負(fù)荷特性數(shù)據(jù) 聚類數(shù)目c是影響模糊C均值算法性能及最終聚類結(jié)果的關(guān)鍵參數(shù),本文算法不需預(yù)先給定聚類個數(shù),而是通過聚類過程得出該參數(shù)。本文將從“農(nóng)業(yè)~居民用電”6種負(fù)荷中分別抽取k(2≤k≤6)種類型進(jìn)行聚類分析,并利用本文算法計(jì)算得到不同的聚類數(shù)目c,再根據(jù)得到的聚類數(shù)目設(shè)置模糊C均值算法的聚類數(shù)目c。針對不同c值,應(yīng)用二種算法分別仿真50次,去除最大值和最小值,取其他48次的平均值作為目標(biāo)函數(shù)優(yōu)化結(jié)果。兩種算法的目標(biāo)函數(shù)優(yōu)化結(jié)果如圖5所示。 圖5 優(yōu)化結(jié)果對比Fig.5 Comparison of optimal values 由圖5可見,在相同的聚類數(shù)目下,本文算法的目標(biāo)函數(shù)最優(yōu)解始終優(yōu)于模糊C均值算法,聚類性能更加高效,對不同聚類數(shù)目的適應(yīng)能力更強(qiáng)。為了檢驗(yàn)聚類結(jié)果的可信度,本文在相同的聚類數(shù)目c=5時,分別計(jì)算二種算法的分離熵SE、分離系數(shù)SF和模糊劃分有效性VI指標(biāo)檢驗(yàn)聚類結(jié)果的有效性,如表5所示。 表5 有效性評價 較好的聚類算法應(yīng)該使得各聚類中心間的距離盡量大,各樣本元素與其對應(yīng)的聚類中心距離盡量小,即SE接近0或1、SF接近1并且VI接近0時聚類結(jié)果越有效,分類更加精確。由表5可見本文算法的聚類結(jié)果更加可信。 本文提出利用圖數(shù)據(jù)庫Neo4j作為電網(wǎng)的統(tǒng)一數(shù)據(jù)平臺對電力大數(shù)據(jù)進(jìn)行存儲和分析。Neo4j可以處理內(nèi)在關(guān)系復(fù)雜、動態(tài)變化的數(shù)據(jù),同時能夠高效地執(zhí)行多重操作。Neo4j中還集成了多種高性能的查詢方法,能夠?qū)?shù)據(jù)模型中的風(fēng)險(xiǎn)節(jié)點(diǎn)等關(guān)鍵信息快速地進(jìn)行檢索,這解決了傳統(tǒng)關(guān)系數(shù)據(jù)庫應(yīng)對電力大數(shù)據(jù)性能不足的問題,同時基于數(shù)據(jù)庫圖存儲的結(jié)構(gòu)提出的數(shù)據(jù)聚類方法能夠?qū)崿F(xiàn)電力大數(shù)據(jù)的快速聚類分析。本文分別在MySQL和Neo4j中搭建了兩個輸電網(wǎng)的數(shù)據(jù)模型,并進(jìn)行了相應(yīng)的信息檢索,分析了其特征參數(shù),驗(yàn)證了Neo4j對數(shù)據(jù)網(wǎng)絡(luò)參數(shù)的數(shù)據(jù)檢索和信息提取能力的高效性。此外,通過對某地區(qū)45個變電站負(fù)荷數(shù)據(jù)的聚類對比分析可得,本文提出的基于圖論的聚類方法具備更高效的聚類性能和更精確的分類效果。Neo4j是基于Java開發(fā)的開源數(shù)據(jù)庫,兼容多種操作平臺,結(jié)合其他功能強(qiáng)大的數(shù)據(jù)分析工具可以進(jìn)一步開發(fā)基于Neo4j的電力大數(shù)據(jù)處理技術(shù),在電力系統(tǒng)大數(shù)據(jù)分析領(lǐng)域具有廣闊的應(yīng)用前景。 [ 1] Xi Fang, Satyajayant Misra, Guoliang Xue, et al.Smart grid, the new and improved power grid: A survey [J]. IEEE Communications Surveys and Tutorials (COMST), 2012, 14(4): 944-980. [ 2] 張文亮,湯廣福,查鯤鵬,等 (Zhang Wenliang, Tang Guangfu, Zha Kunpeng, et al.).先進(jìn)電力電子技術(shù)在智能電網(wǎng)中的應(yīng)用 (Application of advanced power electronics in smart grid) [J].中國電機(jī)工程學(xué)報(bào)(Proceedings of the CSEE), 2010, 30(4):1-7. [ 3] 宋亞奇, 周國亮, 朱永利 (Song Yaqi, Zhou Guoliang, Zhu Yongli). 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)(Present status and challenges of big data processing in smart grid) [J]. 電網(wǎng)技術(shù) (Power System Technology), 2013, 37(4): 927-935. [ 4] 徐彭亮, 何光宇, 梅生偉, 等 (Xu Pengliang, He Guangyu, Mei Shengwei, et al.). 上海AEMS與EMS數(shù)據(jù)交換平臺的設(shè)計(jì)和實(shí)現(xiàn)(Research of data exchange between AEMS and EMS) [J]. 電工電能新技術(shù) (Advanced Technology of Electrical Engineering and Energy), 2014, 33(1): 74-77. [ 5] 毛鵬, 李穎, 李健, 等 (Mao Peng, Li Ying, Li Jian, et al.). 遵從OSI體系的CIM數(shù)據(jù)一致性測試框架研究(Research on framework of CIM conformance test based on OSI architecture) [J]. 電工電能新技術(shù)(Advanced Technology of Electrical Engineering and Energy), 2013, 32(1): 81-84. [ 6] Not only structured query language, NOSQL [DB/OL]. http://www.NOSQL-database.org/. [ 7] Lin Lu, Hongbin Dong, Chao Yang, et al. A novel mass data processing framework based on Hadoop for electrical power monitoring system [A]. 2012 Asia-Pacific Power and Energy Engineering Conference (APPEEC)[C]. Shanghai, China, 2012. 1-4. [ 8] Apache software foundation, Apache Hadoop [DB/OL]. http://hadoop.apache.org/. [ 9] 蔡澤祥, 王星華, 任曉娜 (Cai Zexiang, Wang Xinghua, Ren Xiaona). 復(fù)雜網(wǎng)絡(luò)理論及其在電力系統(tǒng)中的應(yīng)用研究綜述 (A review of complex network theory and its application in power systems) [J]. 電網(wǎng)技術(shù) (Power System Technology), 2012,36 (11): 114-121. [10] Neo4j Org. The Neo4j mannual v2.1 - SNAPSHOT [DB/OL]. http://docs.neo4j.org/chunked/snapshot/. 2014-04-09. [11] 王余藍(lán) (Wang Yulan). 圖形數(shù)據(jù)庫NEO4J與關(guān)系據(jù)庫的比較研究 (Comparison of graphic database NEO4J and relational database) [J]. 現(xiàn)代電子技術(shù)(Modern Electronics Technique), 2012, 35(20): 77-79. [12] Robin Hecht, Stefan Jablonski. NoSQL evaluation: A use case oriented survey [A]. Proceedings of 2011 International Conference on Cloud and Service Computing [C]. 2011. 336-341. [13] 石俊杰, 李毅松, 彭清, 等 (Shi Junjie, Li Yisong, Peng Qing, et al.). 國家電網(wǎng)公司調(diào)度系統(tǒng)數(shù)據(jù)整合總體方案的思考 (Consideration on the overall scheme of data integration of the China State Grid Corp dispatching system) [J]. 電力信息化 (Electric Power Information Technology), 2006,4 (6): 28-31. [14] 吳文傳, 張伯明 (Wu Wenchuan, Zhang Boming). 基于圖形數(shù)據(jù)庫的網(wǎng)絡(luò)拓?fù)浼捌鋺?yīng)用 (A graphic database based network topology and its application) [J]. 電網(wǎng)技術(shù)(Power System Technology), 2002, 26(2): 14-18. [15] 蔣厚明, 孫昊, 孔震 (Jiang Houming, Sun Hao, Kong Zhen). 一種基于圖形數(shù)據(jù)庫的快速電力網(wǎng)絡(luò)拓?fù)浞治龇椒?(A quick electric network topology technology based on graph database) [J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用(Computer Systems & Applications), 2012, 21(12): 173-176. [16] Oracle Corporation. MySQL community server (GPL) [DB/OL]. http://www.mysql.com/downloads/. [17] 丁明, 韓平平 (Ding Ming, Han Pingping). 基于小世界拓?fù)淠P偷拇笮碗娋W(wǎng)脆弱性評估算法 (Small-world topological model based vulnerability assessment algorithm for large-scale power grid) [J]. 電力系統(tǒng)自動化 (Automation of Electric Power Systems), 2006, 30(8): 7-10. [18] 曹一家, 陳曉剛, 孫可 (Cao Yijia, Chen Xiaogang, Sun Ke). 基于復(fù)雜網(wǎng)絡(luò)理論的大型電力系統(tǒng)脆弱線路辨識(Identification of vulnerable lines in power grid based on complex network theory) [J]. 電力自動化設(shè)備 (Electric Power Automation Equipment), 2006, 26(12): 1-5. [19] 陳為化,江全元,曹一家,等 (Chen Weihua, Jiang Quanyuan, Cao Yijia, et al.). 基于風(fēng)險(xiǎn)理論的復(fù)雜電力系統(tǒng)脆弱性評估 (Risk-based vulnerability assessment in complex power system) [J]. 電網(wǎng)技術(shù) (Power System Technology), 2005, 29 (4): 12-17. Modeling and analysis of big data for power grid based on Neo4j MA Yi-song, WU Zhi-gang (Electric Power College, South China University of Technology, Guangzhou 510640, China) The process of big data for power grid requires the support of big data technology. The topics such as how to store the big data for power grid and how to mining out valuable information to promote the development of the grid are very hot currently. In this paper, both data storage and data retrieval function of the graph database Neo4j are introduced in detail firstly. Secondly, a method to build panoramic database based on Neo4j is proposed, which can integrate the scattered and isolated data in power grid with large-scale orderly according to the device mapping table based on power network topology. Furthermore, with the help of graph theory algorithm packaged in Neo4j, clustering methods for analysis of big data in power grid can be put forward. Finally, two real power grids are analyzed based on Neo4j, while the performance of information retrieval and data clustering analysis with Neo4j is tested as well. big data for power grid; Neo4j; data analysis; network topology analysis 2015-03-19 國家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)資助項(xiàng)目(2012AA050209) 馬義松(1990-), 男, 廣東籍, 碩士研究生, 研究方向?yàn)殡娏ο到y(tǒng)運(yùn)行與控制; 武志剛(1975-), 男, 吉林籍, 副教授, 博士, 研究方向?yàn)殡娏ο到y(tǒng)仿真、 復(fù)雜網(wǎng)絡(luò)理論在電力系統(tǒng)的應(yīng)用。 TM769 A 1003-3076(2016)02-0024-076 結(jié)論