趙昱翰
(貴州電網(wǎng)公司遵義供電局,貴州 遵義 563000)
在新發(fā)展階段,越來越多的先進技術(shù)能夠被應(yīng)用到配電網(wǎng)運行發(fā)展的過程中,以技術(shù)規(guī)范配電網(wǎng)相關(guān)工作的行為。將大數(shù)據(jù)技術(shù)用于支持配電網(wǎng)的穩(wěn)定運行,能夠基于高效的數(shù)據(jù)處理和便利的數(shù)據(jù)傳遞途徑來發(fā)揮預(yù)警預(yù)測與分析的作用,對各類安全風(fēng)險對配電網(wǎng)運行的影響,在提高配電網(wǎng)運行穩(wěn)定性的同時,也能夠更好地滿足市場對電能供應(yīng)的大量需求。
在配電網(wǎng)的運行過程中,配電自動化系統(tǒng),電網(wǎng)管理平臺等系統(tǒng)在運行中會產(chǎn)生大量的數(shù)據(jù)信息。這些數(shù)據(jù)能夠呈現(xiàn)出以下幾方面的特點:首先,基于當(dāng)前配電網(wǎng)自動化和智能化發(fā)展的方向趨勢,但應(yīng)用各類信息化和物聯(lián)網(wǎng)技術(shù),開展電力行業(yè)業(yè)務(wù)的過程中都會產(chǎn)生大量的數(shù)據(jù),且這些數(shù)據(jù)大多分布于不同的數(shù)據(jù)源,難以直接進行集成和收集[1]。同時,配電網(wǎng)運行過程中的數(shù)據(jù)能夠體現(xiàn)出明顯的異構(gòu)性特點,能夠具體分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)三種形式。結(jié)合以往的數(shù)據(jù)處理經(jīng)驗,發(fā)現(xiàn)配電網(wǎng)運行過程中的可利用數(shù)據(jù)密度較低,單一的數(shù)據(jù)信息難以明確反映出信息背后蘊含的規(guī)律特點,因而容易對配電網(wǎng)的運行決策造成阻礙。
在考慮配電網(wǎng)運行中的數(shù)據(jù)量過于龐大這一特點的前提下,考慮將分布式系統(tǒng)用于大數(shù)據(jù)的處理分析當(dāng)中,實現(xiàn)對于這些數(shù)據(jù)的集中儲存與計算。以Hadoop這一分布式系統(tǒng)為例,該系統(tǒng)具有更便于擴展和更高效的數(shù)據(jù)交互,在應(yīng)用中能夠體現(xiàn)出明顯的可靠性,因而能夠滿足處理大數(shù)據(jù)的要求。該分布式系統(tǒng)主要以符合配電網(wǎng)運行情況的編程模型為基礎(chǔ),對大規(guī)模數(shù)據(jù)進行并行處理。在這一過程中被處理的大規(guī)模數(shù)據(jù),應(yīng)能夠劃分為數(shù)據(jù)大小角的子數(shù)據(jù)集,且各個子數(shù)據(jù)集之間無須進行額外的通信[2]。在這一前提下進行大規(guī)模數(shù)據(jù)量的存儲,應(yīng)選擇能夠儲存數(shù)據(jù)文件的有效工具,既能夠擁有充足的空間對冗余的數(shù)據(jù)進行備份和存儲也能夠分類存放,并能夠以周期性的方式接受從來源下的檢測信息和校驗數(shù)據(jù),從而保障輸入數(shù)據(jù)的可靠性。
在大數(shù)據(jù)計算方面,主要依賴深度學(xué)習(xí)算法,以構(gòu)建深度學(xué)習(xí)模型的方式,基于非線性變化的原理角度來對數(shù)據(jù)進行抽象化的處理,提取數(shù)據(jù)信息中蘊含的規(guī)律和特點。現(xiàn)階段能夠用于大數(shù)據(jù)計算的深度學(xué)習(xí)算法模型,以各種類型的學(xué)習(xí)網(wǎng)絡(luò)為主。
數(shù)據(jù)預(yù)處理時配電網(wǎng)數(shù)據(jù)處理的首要環(huán)節(jié),為實現(xiàn)對于配電網(wǎng)運行過程中產(chǎn)生的各項數(shù)據(jù)預(yù)處理,具體包括配電網(wǎng)運行異常數(shù)據(jù)識別、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約等預(yù)處理工作。在考慮大數(shù)據(jù)技術(shù)本身應(yīng)用特點的前提下,考慮配電網(wǎng)運行中存在的大量文本,需要將這些數(shù)據(jù)信息轉(zhuǎn)化為能夠被系統(tǒng)程序認可的數(shù)據(jù)形式。
具體而言,以配電網(wǎng)運行的文本為例,在數(shù)據(jù)預(yù)處理過程中,從資產(chǎn)全生命周期管理、工作票和操作票、運維日志、報告、國家/行業(yè)/企業(yè)標準等方面入手,考慮不同單位對配電網(wǎng)運行產(chǎn)生的文本需求差異,應(yīng)用合適的數(shù)據(jù)處理方法[3]。例如,由于資產(chǎn)配置,信息等在現(xiàn)階段的企業(yè)單位管理中有著較為規(guī)范的書寫和呈現(xiàn)形式,具有較強的結(jié)構(gòu)性,可以直接從語法規(guī)則的角度,在系統(tǒng)程序中,通過建立向量空間的方式,直接在結(jié)構(gòu)中填充相應(yīng)的文本內(nèi)容。假設(shè)ys為開始年份,ds代表開始日為該年第幾日,ms代表開始分鐘數(shù)為該日的第幾分鐘,mr代表操作持續(xù)分鐘,則可以將文本信息的轉(zhuǎn)換過程表示為操作時間:[ys,ds,ms,mr]。
操作任務(wù)表示如下。
以保證配電網(wǎng)供電可靠性為主要目的,在配電網(wǎng)的運行中發(fā)揮大數(shù)據(jù)技術(shù)的作用,主要可以從以下3個方面來減少配電網(wǎng)運行中的安全隱患問題。
對配電網(wǎng)噪聲數(shù)據(jù)識別與替補的分析,主要建立在明確配電網(wǎng)整體架構(gòu)的基礎(chǔ)上。配電網(wǎng)運行造成主要來源于各種電氣設(shè)施設(shè)備,噪聲數(shù)據(jù)主要體現(xiàn)在發(fā)電側(cè)、輸電側(cè)與配電側(cè)、用電側(cè)3 個方面。在受到網(wǎng)絡(luò)或設(shè)備問題影響的情況下,都會產(chǎn)生噪聲數(shù)據(jù),噪聲會對配電網(wǎng)的采集數(shù)據(jù)產(chǎn)生干擾,進而影響數(shù)據(jù)的真實性和質(zhì)量[4]。在考慮配電網(wǎng)系統(tǒng)實際運行需求的前提下,應(yīng)那個加強對噪聲數(shù)據(jù)的識別,并通過對噪聲數(shù)據(jù)的及時替換,保障配電網(wǎng)整體的運行安全與效率效果。
基于這一前提,主要可以選擇應(yīng)用大數(shù)據(jù)中的聚類算法和決策樹算法,以分階段的形式來對配電網(wǎng)的噪聲數(shù)據(jù)進行識別。以聚類算法為例,應(yīng)用該算法來對配電網(wǎng)的噪聲數(shù)據(jù)進行識別,主要基于聚類算法應(yīng)用流程(圖1)實現(xiàn)??紤]應(yīng)用該算法對噪聲數(shù)據(jù)進行識別主要分為兩個階段,在第一階段,主要以規(guī)劃數(shù)據(jù)集的方式,當(dāng)配電網(wǎng)運行過程中產(chǎn)生的大數(shù)據(jù)集受到噪聲污染而產(chǎn)生噪聲數(shù)據(jù)時,以引入相關(guān)系數(shù)這一概念的方式,通過分析大數(shù)據(jù)集中兩個數(shù)據(jù)之間的相關(guān)系數(shù)方式,對兩個數(shù)據(jù)之間的相關(guān)度進行分析。通常情況下,計算得到的系數(shù)值越大,則相對應(yīng)的兩個數(shù)據(jù)之間也具有更緊密的關(guān)系。在此基礎(chǔ)上,還需要依據(jù)計算的相關(guān)系數(shù)次數(shù)來計算其平均值,在將計算得到的平均相關(guān)系數(shù)按照降序方式排列后,選出平均相關(guān)系數(shù)高的數(shù)據(jù)作為初始聚類中心。在聚類結(jié)束后,需要將平均相關(guān)系數(shù)作為半徑,對聚集簇的密度進行計算。
圖1 聚類算法應(yīng)用流程
而在二階段的噪聲識別部分,主要發(fā)揮決策樹算法的作用。在獲得一階段的噪聲數(shù)據(jù)分析結(jié)果之后,基于對疑似噪聲數(shù)據(jù)簇進行分類的目的,在訓(xùn)練決策樹的過程中,以正常簇和噪聲簇數(shù)據(jù)為標準依據(jù)[5]。在應(yīng)用該算法的過程中,需要引入信息熵和信息增益兩個概念來進行數(shù)據(jù)信息的計算。其中,依據(jù)信息增益大小可以對信息熵進行計算,當(dāng)信息熵的計算值越小時,可以代表計算依據(jù)的集合樣本擁有更高的純度。
對于配電網(wǎng)噪聲數(shù)據(jù)的替補,則主要基于距離分布權(quán)重,應(yīng)用KNN 替補方法來實現(xiàn)。該替補方法在實際應(yīng)用中,需要對目標數(shù)據(jù)與正常簇中的所有數(shù)據(jù)的歐式距離進行計算。在這一過程中,歐式距離的計算公式如下:
依據(jù)得到的計算結(jié)果,在所有的歐式距離值中,選擇最小的數(shù)據(jù)作為目標數(shù)據(jù)的最近鄰。在此基礎(chǔ)上,當(dāng)計算得到的歐式距離值較大時,則距離噪聲數(shù)據(jù)更近的數(shù)據(jù)在整體中占據(jù)的比重也更大。
用電行為分析也是配電網(wǎng)運行中涉及的主要內(nèi)容,用戶產(chǎn)生的用電行為中包含大量的信息,且不同地區(qū)的用電行為能夠呈現(xiàn)出多樣化的特點。以重點識別異常用電數(shù)據(jù)為主要目的,對配電網(wǎng)中用電行為的分析,應(yīng)能夠在應(yīng)用聚類算法的基礎(chǔ)上,結(jié)合DBSCAN 算法,發(fā)揮兩種算法的互補作用,從而提升用電行為分析結(jié)果的準確性與科學(xué)性。
結(jié)合以上用電行為架構(gòu),對用戶用電行為進行分析,最主要的就是能夠及時發(fā)現(xiàn)其中可能存在的竊電行為,進而導(dǎo)致用電數(shù)據(jù)異常的情況。從大數(shù)據(jù)和應(yīng)用算法的角度來看,可以將離群點作為對用戶竊電行為進行判斷的主要依據(jù)。在實際應(yīng)用該方法進行用戶用電行為分析時,在將配電網(wǎng)中的用戶用電量數(shù)據(jù)收集起來后,首先進行聚類分析,待形成離群點后,再依據(jù)k-means 算法來對這些離群點數(shù)據(jù)進行進一步處理,從而形成聚集簇。在此基礎(chǔ)上通過構(gòu)建結(jié)合兩種聚類算法的互補模型方式,實現(xiàn)對用戶用電行為的分析。
具體而言,以DBSCAN 聚類算法為例,該算法在實際應(yīng)用中,應(yīng)能夠手動輸入樣本的鄰域距離以及某一樣本在鄰域距離下的鄰域中樣本個數(shù)最大值,以這種組合參數(shù)的方式來對空間中樣本周圍分布的緊密程度進行描述。
在構(gòu)建結(jié)合兩種聚類算法的互補模型時,需要首先應(yīng)用k-means 算法,對預(yù)處理后獲得的數(shù)據(jù)集進行聚類分析,從而形成k 個聚類簇,然后再應(yīng)用DBSCAN聚類算法對得到的數(shù)據(jù)集進行聚類,在找出其中的N個離群數(shù)據(jù)集后,判斷其中是否包含離群點聚類簇中的數(shù)據(jù)。如果其中含有離群數(shù)據(jù),則需要將該數(shù)據(jù)點從聚類簇中劃分出去。
在配電網(wǎng)的運行過程中,也可以應(yīng)用大數(shù)據(jù)來實現(xiàn)對配電網(wǎng)短期運行負荷的預(yù)測分析。基于當(dāng)前市場對電網(wǎng)運行規(guī)模以及電能供應(yīng)需求的不斷提升,以保障配電網(wǎng)運行可靠性為主要目的,在應(yīng)用大數(shù)據(jù)技術(shù)時,依據(jù)對歷史用電數(shù)值的總結(jié)分析,對未來一段時間配電網(wǎng)的復(fù)合數(shù)據(jù)指進行預(yù)測,以便能夠及時應(yīng)對可能出現(xiàn)的缺點或電能浪費等情況。而基于對配電網(wǎng)運行負荷進行預(yù)測分析的需求,應(yīng)能夠考慮滿足復(fù)合預(yù)測飛機的實時性和準確性。
基于這一目的,主要應(yīng)用聚類分析和Elman 的方法來實現(xiàn)對配電網(wǎng)短期負荷的預(yù)測??紤]電力負荷預(yù)測會受到歷史數(shù)據(jù)值以及運行環(huán)境下各項因素的影響,最重要的就是能夠確保用于預(yù)測負荷的歷史數(shù)據(jù)真實準確。受到現(xiàn)階段配電網(wǎng)運行中歷史數(shù)據(jù)數(shù)量較多且分類困難的影響,在應(yīng)用聚類算法的基礎(chǔ)上,引入均值函數(shù)的概念,依靠定義數(shù)據(jù)的均值函數(shù)來確定不同年份配電網(wǎng)的運行負荷數(shù)據(jù)。同時也需要引入方差函數(shù)、反常函數(shù)以及平滑函數(shù),實現(xiàn)對異常數(shù)據(jù)的有效處理。用這一方法對配電網(wǎng)的短期負荷預(yù)測進行分析的過程(數(shù)據(jù)預(yù)處理流程)如圖2 所示。
圖2 數(shù)據(jù)預(yù)處理流程
在實際進行數(shù)據(jù)預(yù)處理時,首先應(yīng)用均值函數(shù)E(x)和方差函數(shù)V(x),來對電力復(fù)合樣本數(shù)據(jù)的均值和方差進行計算,然后再應(yīng)用反常函數(shù)p(x)找出其中疑似異常的數(shù)據(jù)信息。基于DBSCAN 算法來對配電網(wǎng)的原始數(shù)據(jù)集進行聚類,將通過聚類得到的異常數(shù)據(jù)與經(jīng)過函數(shù)得到的異常數(shù)據(jù)共同作為異常數(shù)據(jù)的主要范圍,則可以及時發(fā)現(xiàn)配電網(wǎng)實際運行中可能存在的各種故障問題。
而在應(yīng)用Elman 進行短期負荷預(yù)測的過程中,可以引入動態(tài)神經(jīng)元網(wǎng)絡(luò),從而更直觀形象的反映系統(tǒng)運行過程中呈現(xiàn)的動態(tài)特性。Elman 是一種前向神經(jīng)網(wǎng)絡(luò),是對以往神經(jīng)網(wǎng)絡(luò)算法功能的優(yōu)化與改進。在實際該方法時,需要借助經(jīng)過反常函數(shù)預(yù)處理過的數(shù)據(jù)集,作為Elman 神經(jīng)網(wǎng)絡(luò)的輸入。在對隱層和輸出層的輸出值、誤差值進行計算之后,對各層間的權(quán)值和閾值進行修改,從而得到全局誤差。在對這一得到的誤差值進行對比分析之后,如果達到正常情況下的系統(tǒng)運行標準,則網(wǎng)絡(luò)訓(xùn)練過程結(jié)束。根據(jù)這一流程來反映配電網(wǎng)系統(tǒng)的運行情況,也能夠及時發(fā)現(xiàn)配電網(wǎng)運行中可能存在的缺電或超負荷情況。
綜上所述,將大數(shù)據(jù)技術(shù)應(yīng)用到配電網(wǎng)的運行過程中,能夠從配電網(wǎng)的噪聲控制、用電行為分析以及短期運行復(fù)合預(yù)測等角度,加強對于配電網(wǎng)的進行管理與控制,從而有效提升供電可靠性。在實際應(yīng)用中應(yīng)能夠明確大數(shù)據(jù)技術(shù)的應(yīng)用原理與特點,從數(shù)據(jù)預(yù)處理的角度,考慮大數(shù)據(jù)技術(shù)能夠滿足配電網(wǎng)供電可靠性要求的途徑和方法,以便能夠在保障配電網(wǎng)安全運行的同時,也能夠促進電力行業(yè)的發(fā)展。