張 軍,陳 霄,何 育,張 旺,姜英涵
(1.國網(wǎng)江蘇省電力有限公司,江蘇 南京 210000;2.國網(wǎng)江蘇省電力有限公司經(jīng)濟(jì)技術(shù)研究院,江蘇 南京 210000;3.國網(wǎng)經(jīng)濟(jì)技術(shù)研究院有限公司,北京 100000)
近幾年,全球不可再生能源含量加速減少,加之工業(yè)、貿(mào)易等多個行業(yè)的迅速崛起,導(dǎo)致對電能的需求逐漸攀升[1-2]。為滿足電能需求,我國不斷擴(kuò)大電網(wǎng)建設(shè)規(guī)模。而對于電網(wǎng)而言,配電網(wǎng)是關(guān)鍵部分之一,其能夠起到輸電網(wǎng)與用戶之間的“橋梁”作用。配電網(wǎng)在輸電網(wǎng)接收電能,通過配電設(shè)備將電能合理分配至用戶,其由架空線路、桿塔、電纜、配電電壓器、無功補(bǔ)償器、隔離開關(guān)及附屬設(shè)施等構(gòu)成,在電網(wǎng)中承擔(dān)著分配電能的關(guān)鍵功效。
配電網(wǎng)設(shè)備在長期運(yùn)行過程中會受到電、熱、負(fù)荷與自然環(huán)境等因素的影響,導(dǎo)致設(shè)備出現(xiàn)磨損、腐蝕及老化等現(xiàn)象,進(jìn)而致使設(shè)備性能與可靠性下降。此外,長期在高溫度與高電壓的環(huán)境下工作,配電網(wǎng)設(shè)備絕緣材料性能也會隨之出現(xiàn)一定程度的變化,導(dǎo)致絕緣性能下降甚至消失。為了保障配電網(wǎng)的順利運(yùn)行,國內(nèi)外相關(guān)學(xué)者對配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型做了研究,并取得了一定的研究成果。文獻(xiàn)[3]提出一種多機(jī)構(gòu)分布式數(shù)據(jù)存儲網(wǎng)絡(luò)設(shè)計,其將相同存儲節(jié)點(diǎn)的數(shù)據(jù)集合至一個簡單的網(wǎng)絡(luò)模型中,并融合多機(jī)構(gòu)分布式數(shù)據(jù)存儲網(wǎng)絡(luò),設(shè)計該模型的代碼框架,以此得到配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型。文獻(xiàn)[4]提出配電網(wǎng)剩余供電能力實(shí)用模型,通過RSC(Residual Supply Capacity)模型改進(jìn)配電網(wǎng)供電數(shù)據(jù)模型,并考慮網(wǎng)絡(luò)重構(gòu),進(jìn)而提出適用于分段開關(guān)的剩余供電能力模型。
上述方法能夠及時對設(shè)備運(yùn)行狀態(tài)進(jìn)行了解,力爭最快速度地維修或更換配電網(wǎng)設(shè)備,避免安全事故的發(fā)生。但隨著配電網(wǎng)規(guī)模的擴(kuò)大及設(shè)備復(fù)雜程度的提升,配電網(wǎng)設(shè)備數(shù)據(jù)呈現(xiàn)海量化特性,這就對配電網(wǎng)設(shè)備數(shù)據(jù)存儲提出了更高的要求。智能配電網(wǎng)環(huán)境下,設(shè)備運(yùn)行數(shù)據(jù)量劇增,遠(yuǎn)超出傳統(tǒng)配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型的范疇,為此該文提出了一種新的配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型。對電網(wǎng)設(shè)備數(shù)據(jù)進(jìn)行預(yù)處理,并引入CMCH(Copies Multiple Consistent Hashing)算法對配電網(wǎng)設(shè)備多源數(shù)據(jù)進(jìn)行并行關(guān)聯(lián)處理,實(shí)現(xiàn)同類型數(shù)據(jù)的歸類融合;再通過BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)算法計算各配電網(wǎng)設(shè)備并行關(guān)聯(lián)數(shù)據(jù)庫的質(zhì)心;且利用證據(jù)理論完成各數(shù)據(jù)庫代表性信息的組合,從而實(shí)現(xiàn)配電網(wǎng)設(shè)備多源數(shù)據(jù)的融合。同時通過Hadoop 分布式平臺構(gòu)建配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型的整體架構(gòu),并利用Hbase 數(shù)據(jù)管理實(shí)現(xiàn)電網(wǎng)數(shù)據(jù)的關(guān)聯(lián)融合、管理與查詢。通過海量信息處理降低配電網(wǎng)設(shè)備數(shù)據(jù)存儲的壓力,以滿足現(xiàn)今智能配電網(wǎng)設(shè)備數(shù)據(jù)的存儲需求,且保障配電網(wǎng)及電力系統(tǒng)正常、穩(wěn)定及可靠地運(yùn)行,進(jìn)而為用戶提供更加優(yōu)質(zhì)的電能供給。
構(gòu)建配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型,首先需要搭建配電網(wǎng)設(shè)備數(shù)據(jù)存儲架構(gòu)?;贖adoop 分布式平臺及Hbase 數(shù)據(jù)處理方案對設(shè)備數(shù)據(jù)進(jìn)行有效的管理;針對設(shè)備多源數(shù)據(jù),先利用CMCH 算法過濾無用信息,再通過設(shè)置組建和標(biāo)記對多源數(shù)據(jù)進(jìn)行關(guān)聯(lián)輸出,并對多源數(shù)據(jù)進(jìn)行融合處理,以此提升配電網(wǎng)設(shè)備海量數(shù)據(jù)的存儲性能。
為滿足現(xiàn)今智能配電網(wǎng)設(shè)備數(shù)據(jù)存儲需求,基于Hadoop 分布式平臺搭建配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型架構(gòu),如圖1 所示。
圖1 配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型架構(gòu)
由圖可知,配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型架構(gòu)中,利用可擴(kuò)展采集模塊獲取配電網(wǎng)設(shè)備數(shù)據(jù),并將全部數(shù)據(jù)上傳至Hadoop 云計算模塊;再利用Hbase 對設(shè)備數(shù)據(jù)進(jìn)行有效管理與查詢;同時,通過數(shù)據(jù)分析與存儲模塊對設(shè)備數(shù)據(jù)進(jìn)行預(yù)處理、并行關(guān)聯(lián)及融合;最終,對設(shè)備數(shù)據(jù)進(jìn)行分布式存儲。
依據(jù)上述搭建的配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型架構(gòu),獲取配電網(wǎng)設(shè)備海量數(shù)據(jù)[5]。設(shè)備數(shù)據(jù)獲取過程中,受電力干擾、惡劣環(huán)境、設(shè)備自身脆弱性等多種因素的影響,設(shè)備數(shù)據(jù)中存在海量的干擾、重復(fù)數(shù)據(jù)等。因此,為降低設(shè)備數(shù)據(jù)存儲壓力,需對配電網(wǎng)設(shè)備海量數(shù)據(jù)加以處理。
1.2.1 配電網(wǎng)設(shè)備多源數(shù)據(jù)并行關(guān)聯(lián)
配電網(wǎng)設(shè)備數(shù)據(jù)包含設(shè)備標(biāo)識、數(shù)據(jù)采集時間、環(huán)境微氣象數(shù)據(jù)等,為方便設(shè)備數(shù)據(jù)的存儲與讀取,對設(shè)備多源數(shù)據(jù)實(shí)現(xiàn)并行關(guān)聯(lián),構(gòu)建關(guān)系數(shù)據(jù)庫[6]。
基于CMCH 算法并行關(guān)聯(lián)配電網(wǎng)設(shè)備多源數(shù)據(jù),具體流程如圖2 所示。
圖2 并行關(guān)聯(lián)設(shè)備多源數(shù)據(jù)流程
依據(jù)圖2 所示流程,以電纜、配電電壓器、無功補(bǔ)償器與隔離開關(guān)等設(shè)備為例,展示配電網(wǎng)設(shè)備海量數(shù)據(jù)并行關(guān)聯(lián)流程[7]。配電網(wǎng)設(shè)備并行關(guān)聯(lián)數(shù)據(jù)庫主要包含設(shè)備標(biāo)識文件表、數(shù)據(jù)采集時間文件表與環(huán)境微氣象數(shù)據(jù)文件表三部分,具體如表1-3所示。
表1 設(shè)備標(biāo)識文件表
表2 數(shù)據(jù)采集時間文件表
表3 環(huán)境微氣象數(shù)據(jù)文件表
將上述3 個文件表數(shù)據(jù)進(jìn)行并行關(guān)聯(lián),以降低設(shè)備數(shù)據(jù)存儲的文件數(shù)量,獲得設(shè)備數(shù)據(jù)并行關(guān)聯(lián)結(jié)果如表4 所示。
表4 設(shè)備數(shù)據(jù)并行關(guān)聯(lián)結(jié)果
1.2.2 配電網(wǎng)設(shè)備多源數(shù)據(jù)融合
根據(jù)上述配電網(wǎng)設(shè)備多源數(shù)據(jù)并行關(guān)聯(lián)結(jié)果,利用BIRCH 算法對設(shè)備多源數(shù)據(jù)進(jìn)行融合處理。BIRCH 算法計算出各配電網(wǎng)設(shè)備并行關(guān)聯(lián)數(shù)據(jù)庫的質(zhì)心。并以此為代表,利用模糊隸屬度函數(shù)對融合目標(biāo)涉及的質(zhì)心信息與屬性的基本概率進(jìn)行賦值,形成各數(shù)據(jù)庫的代表性信息[8]。最后,利用證據(jù)理論完成各數(shù)據(jù)庫代表性信息的組合,實(shí)現(xiàn)配電網(wǎng)設(shè)備多源數(shù)據(jù)的融合[9]?;贐IRCH 算法的配電網(wǎng)設(shè)備多源數(shù)據(jù)融合主要步驟如下。
步驟1:依據(jù)采集配電網(wǎng)設(shè)備多源數(shù)據(jù)的特征[10],確定融合目標(biāo)涉及全部屬性,記為A1,A2,…,An;
步驟2:依據(jù)步驟1 確定的融合目標(biāo)屬性A1,A2,…,An,結(jié)合配電網(wǎng)設(shè)備多源數(shù)據(jù)規(guī)模及特征來確定BIRCH 算法的分支因子B與閾值T,并設(shè)置分支因子與閾值初始值分別為B=10 與T=1;
步驟3:加載上節(jié)生成的配電網(wǎng)設(shè)備并行關(guān)聯(lián)數(shù)據(jù)庫,將其記為C1,C2,…,Cr;
步驟4:計算配電網(wǎng)設(shè)備并行關(guān)聯(lián)數(shù)據(jù)庫C1,C2,…,Cr的質(zhì)心信息,記為Q1,Q2,…,Qr;
步驟5:根據(jù)實(shí)際配電網(wǎng)設(shè)備數(shù)據(jù)存儲需求[11-12],明確辨識框架為Θ:{H1,H2,…,Hk} ;
步驟6:構(gòu)建模糊模型標(biāo)記,依據(jù)Θ:{H1,H2,…,Hk}的樣本數(shù)據(jù),針對樣本數(shù)據(jù)的某個屬性Ai,確定該屬性下的最小值、最大值及平均值,并以此為基礎(chǔ)構(gòu)建一個三角形模糊數(shù)[13],描述命題Hj,其所對應(yīng)的隸屬函數(shù)為,i=1,2,…,n;j=1,2,…,k。
步驟7:針對屬性Ai,計算每個配電網(wǎng)設(shè)備并行關(guān)聯(lián)數(shù)據(jù)庫的平均方差,以此為基礎(chǔ),將實(shí)際采集設(shè)備數(shù)據(jù)擴(kuò)展為能夠表示的三角模糊數(shù),從而獲取觀測函數(shù),記為gAi(x);
步驟8:計算采集設(shè)備數(shù)據(jù)與模糊模型標(biāo)記間的似然度,即觀測函數(shù)gAi(x)與模糊模型標(biāo)記曲線相交部分縱坐標(biāo)最大值,記為
步驟10:針對步驟4 得到的質(zhì)心信息,基于選定的屬性A1,A2,…,An,重復(fù)步驟6-9,生成每個質(zhì)心信息所對應(yīng)的n條證據(jù);
步驟11:依據(jù)證據(jù)理論組合公式,并融合步驟10 獲得的n條證據(jù),構(gòu)成反映配電網(wǎng)設(shè)備并行關(guān)聯(lián)數(shù)據(jù)庫Ci對融合目標(biāo)支持程度的合成證據(jù)cmj(Hj);
步驟12:計算cmj(Hj)的權(quán)重數(shù)值,計算公式為:
步驟13:依據(jù)證據(jù)理論組合公式與權(quán)重數(shù)據(jù),融合處理步驟11 合成證據(jù)cmj(Hj),獲取最終配電網(wǎng)設(shè)備多源數(shù)據(jù)融合結(jié)果。
對基于BIRCH 算法的配電網(wǎng)設(shè)備多源數(shù)據(jù)融合方法進(jìn)行算法計算代價分析,算法時間復(fù)雜度O(n)的計算公式為:
式中,ni為算法迭代總次數(shù),為每次迭代中基本操作執(zhí)行次數(shù)。由此得到算法計算代價分析,如圖3 所示。
圖3 算法計算代價分析
由圖可知,隨著迭代次數(shù)的增加,時間復(fù)雜度數(shù)值增長的趨勢也逐步變大。這表明算法基本操作所執(zhí)行的次數(shù)較多,可行性較好。
以上述獲取配電網(wǎng)設(shè)備海量數(shù)據(jù)處理結(jié)果為基礎(chǔ),在Hadoop 分布式平臺上采用一致性哈希算法(consistent Hashing)來存儲配電網(wǎng)設(shè)備數(shù)據(jù),并實(shí)現(xiàn)其數(shù)據(jù)存儲模型的運(yùn)行。
一致性哈希算法的基本思想為:依據(jù)數(shù)據(jù)關(guān)聯(lián)性,應(yīng)用該算法將關(guān)聯(lián)數(shù)據(jù)映射并存儲在相同節(jié)點(diǎn)上,進(jìn)而實(shí)現(xiàn)設(shè)備數(shù)據(jù)的存儲[14]。此種設(shè)備數(shù)據(jù)存儲模型在數(shù)據(jù)查詢時,極大地減少了Map 節(jié)點(diǎn)與Reduce 節(jié)點(diǎn)間的通信開銷,從而提升了模型的整體存儲性能。
基于一致性哈希算法[15]的配電網(wǎng)設(shè)備數(shù)據(jù)存儲流程描述如下:
步驟1:加載配電網(wǎng)設(shè)備海量數(shù)據(jù)融合結(jié)果,通過配置文件定義數(shù)據(jù)副本數(shù)量;
步驟2:計算Hadoop 分布式平臺各個數(shù)據(jù)節(jié)點(diǎn)的哈希值,并依據(jù)規(guī)則將其配置到一個0~232的哈希環(huán)區(qū)間上,再應(yīng)用MD5 散列算法(Message Digest Algorithm 5)形成128 bit 散列值,并選取其中的32 bit作為哈希值;
步驟3:依據(jù)配電網(wǎng)設(shè)備數(shù)據(jù)采集時間屬性、關(guān)聯(lián)數(shù)據(jù)屬性計算設(shè)備數(shù)據(jù)的哈希值,并將其依次映射到哈希環(huán)上;
步驟4:依據(jù)步驟2-3 獲取的數(shù)據(jù)節(jié)點(diǎn)及數(shù)據(jù)哈希值確定設(shè)備數(shù)據(jù)的存儲位置,并按照逆時針方向?qū)⒃O(shè)備數(shù)據(jù)映射至最小距離的數(shù)據(jù)節(jié)點(diǎn)上;
步驟5:若設(shè)備數(shù)據(jù)存儲節(jié)點(diǎn)出現(xiàn)失效或異常等現(xiàn)象,此時需將失效或異常數(shù)據(jù)節(jié)點(diǎn)上的設(shè)備數(shù)據(jù)進(jìn)行重新映射與分布,直至設(shè)備數(shù)據(jù)全部存儲結(jié)束。
基于上述過程,構(gòu)建配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型,如圖4 所示。
圖4 配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型
通過上述過程實(shí)現(xiàn)了配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型的運(yùn)行,為配電網(wǎng)設(shè)備故障預(yù)防提供了精準(zhǔn)的數(shù)據(jù)支撐,且保證了配電網(wǎng)穩(wěn)定運(yùn)行[16]。
為證實(shí)構(gòu)建模型與傳統(tǒng)模型的性能差異,采用Matlab 軟件設(shè)計仿真對比實(shí)驗(yàn),具體實(shí)驗(yàn)過程如下。
仿真實(shí)驗(yàn)Hadoop 分布式平臺包含一個主控節(jié)點(diǎn),19 個數(shù)據(jù)節(jié)點(diǎn),共計20 個節(jié)點(diǎn)的集群。其中,主控節(jié)點(diǎn)與數(shù)據(jù)節(jié)點(diǎn)配置相同,具體配置數(shù)據(jù)如表5所示。
表5 主控節(jié)點(diǎn)與數(shù)據(jù)節(jié)點(diǎn)配置表
依據(jù)表5 數(shù)據(jù)搭建Hadoop 分布式平臺,示意圖如圖5 所示。
圖5 Hadoop分布式平臺示意圖
為驗(yàn)證構(gòu)建模型的存儲性能,選取了不同大小的實(shí)驗(yàn)數(shù)據(jù)集,其規(guī)格如表6 所示。
表6 實(shí)驗(yàn)數(shù)據(jù)集
如表4 所示,csv 表示的是文本格式文件;dat 表示的是二進(jìn)制文件。
依據(jù)上述所搭建的Hadoop 分布式平臺,選取實(shí)驗(yàn)數(shù)據(jù)集并進(jìn)行仿真對比實(shí)驗(yàn)。通過數(shù)據(jù)上傳速率與數(shù)據(jù)壓縮比來反映模型性能,實(shí)驗(yàn)結(jié)果分析過程如下[17]。
2.3.1 數(shù)據(jù)上傳速率分析
通過仿真實(shí)驗(yàn)獲取數(shù)據(jù)的上傳速率,如表7所示。
表7 數(shù)據(jù)上傳速率數(shù)據(jù)表
從表7 中可以看出,構(gòu)建模型數(shù)據(jù)上傳速率范圍為3 011~3 498 kB/s,傳統(tǒng)模型數(shù)據(jù)上傳速率范圍為2 413~3 012 kB/s。通過對比發(fā)現(xiàn),構(gòu)建模型的數(shù)據(jù)上傳速率遠(yuǎn)高于傳統(tǒng)模型。
2.3.2 數(shù)據(jù)壓縮比分析
通過仿真實(shí)驗(yàn)獲取壓縮比數(shù)據(jù),如表8 所示。
表8 數(shù)據(jù)壓縮比數(shù)據(jù)表
如表8 中數(shù)據(jù)顯示,構(gòu)建模型數(shù)據(jù)壓縮比范圍為4.258~4.784,傳統(tǒng)模型數(shù)據(jù)壓縮比范圍為3.010~3.945。通過對比發(fā)現(xiàn),構(gòu)建模型的數(shù)據(jù)壓縮比遠(yuǎn)高于傳統(tǒng)模型。上述實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)模型相比,該文構(gòu)建模型的數(shù)據(jù)上傳速率較高、數(shù)據(jù)壓縮比更大,驗(yàn)證了該模型設(shè)備數(shù)據(jù)存儲性能更優(yōu)。
選取某省市內(nèi)8家供電公司管轄的配電網(wǎng),來對基于海量信息處理的配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型進(jìn)行實(shí)證研究。統(tǒng)計選取2019年10-12月8家供電公司的電力數(shù)據(jù)共1 000 MB,包括正常運(yùn)行信息500 MB、停電檢修信息300 MB 及裝置故障信息200 MB,對1 000 MB 電力數(shù)據(jù)進(jìn)行分類整理,得到數(shù)據(jù)存儲結(jié)果如表9 所示[18]。
表9 數(shù)據(jù)存儲結(jié)果
分析表9 可知,采用所構(gòu)建的模型對電力數(shù)據(jù)的分類結(jié)果與實(shí)際數(shù)據(jù)一致,而傳統(tǒng)模型的數(shù)據(jù)分類結(jié)果與實(shí)際值差別較大。通過實(shí)證分析可知,所設(shè)計模型的數(shù)據(jù)分類存儲效果較好,能夠?qū)崿F(xiàn)配電網(wǎng)設(shè)備數(shù)據(jù)的準(zhǔn)確存儲。
為提升智能配電網(wǎng)設(shè)備數(shù)據(jù)的存儲效率及安全性,此研究構(gòu)建配電網(wǎng)設(shè)備數(shù)據(jù)存儲模型,并將海量信息處理引入至該存儲模型中,實(shí)現(xiàn)數(shù)據(jù)的安全存儲。實(shí)驗(yàn)結(jié)果表明,應(yīng)用所設(shè)計的模型后,極大地提升了模型的數(shù)據(jù)上傳速率與數(shù)據(jù)壓縮比,節(jié)省了海量的存儲空間,并有效提升了電網(wǎng)數(shù)據(jù)的存儲性能,從而為配電網(wǎng)設(shè)備數(shù)據(jù)存儲提供了新的手段支撐。