張 敏 錢(qián)霜秋 吳仲麒 王資遠(yuǎn)
(1. 國(guó)網(wǎng)江蘇省電力公司南通供電公司,江蘇 南通 226000; 2. 天津天電清源科技有限公司,天津 300000)
電力負(fù)荷的中長(zhǎng)期預(yù)測(cè)可以幫助電力部門(mén)做年度規(guī)劃、調(diào)度計(jì)劃及檢修計(jì)劃,對(duì)變電站選擇建址、制定規(guī)劃也有著重要的指導(dǎo)意義[1]。但經(jīng)濟(jì)社會(huì)、產(chǎn)業(yè)結(jié)構(gòu)、相關(guān)政策、氣候條件、電價(jià)水平等多種因素互相交織影響、關(guān)系復(fù)雜,難以區(qū)分出各類(lèi)因素對(duì)中長(zhǎng)期負(fù)荷的影響水平[2]。針對(duì)中長(zhǎng)期負(fù)荷預(yù)測(cè)國(guó)內(nèi)外學(xué)者已進(jìn)行了大量研究,主要研究方法是構(gòu)建電力負(fù)荷歷史時(shí)序數(shù)據(jù)與各類(lèi)影響因素的相關(guān)性數(shù)學(xué)模型,然后通過(guò)時(shí)序外推法實(shí)現(xiàn)預(yù)測(cè),但是這類(lèi)方法預(yù)測(cè)精度不高,非線(xiàn)性擬合能力差[3]。
近年來(lái),基于智能技術(shù)的負(fù)荷預(yù)測(cè)方法主要應(yīng)用在中長(zhǎng)期負(fù)荷預(yù)測(cè)中。文獻(xiàn)[4]采用改進(jìn)的進(jìn)化算法——基因表達(dá)式編程算法解決了傳統(tǒng)算法容易陷入局部最優(yōu)的問(wèn)題,但存在過(guò)擬合的問(wèn)題。文獻(xiàn)[5]采用長(zhǎng)短期記憶(long-short term memory, LSTM)神經(jīng)網(wǎng)絡(luò),將歷史負(fù)荷數(shù)據(jù)、氣候、經(jīng)濟(jì)等影響因素?cái)?shù)據(jù)整合到模型中,有效解決了過(guò)擬合的問(wèn)題,但是LSTM神經(jīng)網(wǎng)絡(luò)用于短期負(fù)荷預(yù)測(cè)較多,在中長(zhǎng)期預(yù)測(cè)中精度不高。文獻(xiàn)[6]利用主成分分析法對(duì)負(fù)荷的影響因素進(jìn)行特征提取,降低數(shù)據(jù)維度,然后與BP(back propagation)神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,有效克服了收斂速度慢和容易陷入局部最優(yōu)的缺陷,雖然主成分分析法可以消除變量值間的相互影響,但是降維不可避免地會(huì)使變量意義不明確。文獻(xiàn)[7]先使用關(guān)聯(lián)矩陣篩選出強(qiáng)相關(guān)因素,然后使用時(shí)間序列法X12-ARIMA(autoregressive integrated moving average model)模型對(duì)負(fù)荷和影響因素進(jìn)行分解,但是非線(xiàn)性擬合度較差。最近幾年,科研人員又提出一種新的思路,即先使用聚類(lèi)分析,將海量的負(fù)荷數(shù)據(jù)聚類(lèi),然后再對(duì)這些簇類(lèi)分別進(jìn)行預(yù)測(cè),最后每類(lèi)負(fù)荷的預(yù)測(cè)值之和就是整個(gè)負(fù)荷數(shù)據(jù)的預(yù)測(cè)值。文獻(xiàn)[8]基于K-均值(K-means)算法對(duì)農(nóng)村發(fā)展模式進(jìn)行聚類(lèi),針對(duì)不同農(nóng)村發(fā)展模式進(jìn)行預(yù)測(cè),最終驗(yàn)證了方法的可行性,但是K-means是一種硬劃分聚類(lèi)算法,一些饋線(xiàn)負(fù)荷可能屬于不同的行業(yè),但是卻具有相似的用電特性。文獻(xiàn)[9]采用模糊C均值(fuzzy C-means, FCM)聚類(lèi)法改善了聚類(lèi)算法用于負(fù)荷分類(lèi)時(shí)不夠精確的缺陷,但是其在考慮影響因素時(shí)預(yù)先建立了影響因素關(guān)聯(lián)度矩陣,并未達(dá)到精細(xì)化探究影響因素相關(guān)關(guān)系的目的。
綜上所述,本文在考慮負(fù)荷預(yù)測(cè)時(shí),先采用模糊C均值聚類(lèi)分析方法使饋線(xiàn)負(fù)荷數(shù)據(jù)按照彼此相近的負(fù)荷特性劃分為同一簇類(lèi),隨后使用相關(guān)性分析和灰色關(guān)聯(lián)分析挖掘出不同饋線(xiàn)簇類(lèi)的差異化影響因素中對(duì)各類(lèi)饋線(xiàn)影響較大的因素;徑向基(radial basis function, RBF)神經(jīng)網(wǎng)絡(luò)具有模型結(jié)構(gòu)簡(jiǎn)單、預(yù)測(cè)精度高且適用于大數(shù)據(jù)大樣本的優(yōu)點(diǎn),因此最后選用RBF神經(jīng)網(wǎng)絡(luò)對(duì)各簇類(lèi)饋線(xiàn)負(fù)荷進(jìn)行電力需求預(yù)測(cè)。圖1為本研究的技術(shù)路線(xiàn)。
圖1 技術(shù)路線(xiàn)
聚類(lèi)算法是數(shù)據(jù)挖掘中常用的一種算法,按照一定的計(jì)算規(guī)則把一些未知類(lèi)型的數(shù)據(jù)分為具有相似特性的若干簇類(lèi)[10]。聚類(lèi)分析算法可以作為其他數(shù)據(jù)挖掘算法的數(shù)據(jù)預(yù)處理步驟,也可以作為一個(gè)獨(dú)立的數(shù)據(jù)挖掘算法進(jìn)行信息挖掘,從而進(jìn)行數(shù)據(jù)特性研究。我國(guó)現(xiàn)行的傳統(tǒng)負(fù)荷分為:農(nóng)業(yè)負(fù)荷、工業(yè)負(fù)荷、商業(yè)負(fù)荷、城鎮(zhèn)居民及其他負(fù)荷四大 類(lèi)[11]。在電力負(fù)荷預(yù)測(cè)中,可通過(guò)聚類(lèi)分析算法把海量的負(fù)荷數(shù)據(jù)聚類(lèi),對(duì)用戶(hù)負(fù)荷進(jìn)行更為細(xì)致的分類(lèi)。本文采用FCM算法對(duì)饋線(xiàn)日負(fù)荷特性數(shù)據(jù)進(jìn) 行聚類(lèi)分析[12]。
相較于傳統(tǒng)的“硬劃分法”——“非此即彼”,F(xiàn)CM算法是一種“軟劃分”的方法,即通過(guò)模糊聚類(lèi)得到樣本屬于各個(gè)類(lèi)別的隸屬程度,突破了樣本僅屬于一個(gè)分類(lèi)的界限,表達(dá)了樣本的“中間性”[13]。FCM聚類(lèi)方法屬于基于目標(biāo)函數(shù)的模糊劃分法[14]。FCM算法引入隸屬度的概念,以一種模糊的形式劃分表示樣本屬于各聚類(lèi)中心的隸屬程度。對(duì)于給定的 數(shù)據(jù)集合,X劃分為c(2≤cn≤ )類(lèi),聚類(lèi)中心向量為,令表示jx屬于第i類(lèi)的隸屬度,隸屬度矩陣為,且有。
FCM算法的目標(biāo)函數(shù)是基于歐式距離判定樣本隸屬程度,目標(biāo)是使目標(biāo)函數(shù)值達(dá)到最小。其目標(biāo)函數(shù)為
式中:dij為樣本ijx到聚類(lèi)中心vi之間的歐氏距離;m為模糊加權(quán)指數(shù)(m>1)。算法步驟如下:
1)設(shè)置目標(biāo)函數(shù)精度 0ε>。
2)初始化模糊聚類(lèi)中心。
3)計(jì)算隸屬度。
4)計(jì)算聚類(lèi)中心。
5)若式(4)滿(mǎn)足范數(shù)矩陣式,則停止迭代;若不滿(mǎn)足,則設(shè)置 1kk= +,轉(zhuǎn)向步驟3)。
相關(guān)性分析可以定量地衡量?jī)山M數(shù)據(jù)之間的相關(guān)程度,因此做相關(guān)性分析的數(shù)據(jù)都應(yīng)該是成對(duì)出現(xiàn)的[15]。本文采用Pearson相關(guān)系數(shù)作為度量指標(biāo),Pearson相關(guān)系數(shù)計(jì)算式為[16]根據(jù)表1確定變量間的相關(guān)強(qiáng)度。
表1 相關(guān)強(qiáng)度明細(xì)
本文對(duì)采集到的信息先采用相關(guān)性分析,剔除相關(guān)性較弱的影響因素,對(duì)剩下的影響因素進(jìn)行灰色關(guān)聯(lián)分析,分析出電力需求與其他影響因素的關(guān)聯(lián)程度,從而使對(duì)電力需求的預(yù)測(cè)更加精確?;疑P(guān)聯(lián)分析的主要技術(shù)路線(xiàn)如下[17]:
2)數(shù)據(jù)變換。對(duì)原始數(shù)據(jù)進(jìn)行處理變換,保證灰色關(guān)聯(lián)分析在同一量綱下進(jìn)行。本文采用極差最大化變換方法,即
3)計(jì)算關(guān)聯(lián)度。采用典型的關(guān)聯(lián)度模型——鄧氏關(guān)聯(lián)度模型,Xi與 0X的關(guān)聯(lián)度為
式中:X0(k)為參考序列數(shù)據(jù)變換后的序列,即饋線(xiàn)數(shù)據(jù);Xi(k)為比較序列,即經(jīng)相關(guān)性分析篩選后的影響因素序列;ξ(X0(k),Xi(k))為關(guān)聯(lián)系數(shù),有
一般灰色關(guān)聯(lián)分析不評(píng)價(jià)關(guān)聯(lián)強(qiáng)度,而是關(guān)注于比較序列的關(guān)聯(lián)度排序,評(píng)價(jià)哪種因素與參考序列關(guān)聯(lián)度最高。本文選擇關(guān)聯(lián)度最高的前兩個(gè)因子作為影響因素集合。
神經(jīng)網(wǎng)絡(luò)模型是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,可以自行根據(jù)環(huán)境變化總結(jié)規(guī)律完成識(shí)別與控制的模型,其基本工作原理如圖2所示。一個(gè)神經(jīng)網(wǎng)絡(luò)由許多神經(jīng)元構(gòu)成,一般包括三個(gè)層級(jí)——輸入層、隱藏層、輸出層[18]。輸入層用于接收外界輸入信息,輸入層的神經(jīng)元數(shù)量與輸入變量有關(guān),每個(gè)輸入變量都應(yīng)有一個(gè)對(duì)應(yīng)的輸入節(jié)點(diǎn),外加一個(gè)偏置節(jié)點(diǎn)構(gòu)成輸入層;輸出層則是為了輸出最終的預(yù)測(cè)結(jié)果;隱藏層介于輸入層和輸出層之間,實(shí)現(xiàn)輸入層到輸出層的線(xiàn)性變換[19]。
圖2 神經(jīng)網(wǎng)絡(luò)基本工作原理
本文所使用的RBF神經(jīng)網(wǎng)絡(luò)從輸入層到隱藏層為非線(xiàn)性變換,將輸入直接映射到隱藏層,而不再需要權(quán)重鏈接,從隱藏層到輸出層為有權(quán)鏈接。
RBF神經(jīng)網(wǎng)絡(luò)的基本思想是用徑向基構(gòu)成隱藏層,本文的隱藏層激活函數(shù)使用高斯函數(shù),即
式中:ci為第i個(gè)基函數(shù)的中心值,與輸入向量同維數(shù);σi為基函數(shù)第i個(gè)中心點(diǎn)寬度的標(biāo)準(zhǔn)化常數(shù);為x和ci的距離。
本文選取江蘇省南通市2019年7月最大負(fù)荷發(fā)生日4 299條饋線(xiàn)的96點(diǎn)日負(fù)荷曲線(xiàn)數(shù)據(jù),利用FCM聚類(lèi)算法對(duì)這些用戶(hù)進(jìn)行聚類(lèi),綜合比較下,可分為18類(lèi)聚類(lèi),隨機(jī)選取其中8類(lèi)饋線(xiàn)簇進(jìn)行舉例,分析用電特征。圖3為經(jīng)歸一化處理的聚類(lèi)中心饋線(xiàn)負(fù)荷曲線(xiàn),圖3(a)為用電水平較低的饋線(xiàn),圖3(b)為用電水平較高的饋線(xiàn)。圖中,縱軸表示用電水平,橫軸表示一天內(nèi)從00:00—23:45時(shí)段內(nèi)96個(gè)時(shí)間點(diǎn)??梢钥偨Y(jié)出這8種聚類(lèi)的用電特征:聚類(lèi)1的饋線(xiàn)全天處于較高的負(fù)荷水平,具有三個(gè)用電高峰期,可能為三班倒工作制,屬于需要全天高負(fù)荷工作的重工業(yè);聚類(lèi)5的饋線(xiàn)整體負(fù)荷水平不是很高,且表現(xiàn)出白天休息晚上工作的特征,應(yīng)為以公共照明為主的公共服務(wù)業(yè);聚類(lèi)6的饋線(xiàn)在11:00—12:00迎來(lái)第一個(gè)用電高峰期,在晚上18:00—22:00迎來(lái)用電最高峰,其中20:00達(dá)到最高負(fù)荷,應(yīng)屬于以餐飲業(yè)為主導(dǎo)的服務(wù)業(yè);聚類(lèi)8的負(fù)荷用電高峰在10:00—21:00,且中間用電水平未出現(xiàn)過(guò)明顯低谷,應(yīng)為商業(yè)或金融業(yè)用戶(hù);聚類(lèi)11的總體用電較為穩(wěn)定,應(yīng)為兩班制的輕工業(yè)負(fù)荷;聚類(lèi)14整體用電水平不高,且表現(xiàn)出白天休息晚上工作的特征,應(yīng)為夜班制的輕工業(yè)用戶(hù);聚類(lèi)16的用戶(hù)全天都有較高的用電水平,且在20:00—22:00有一個(gè)用電高峰,應(yīng)為全天工作的工業(yè)主導(dǎo)的用戶(hù),且會(huì)在白天避開(kāi)其他負(fù)荷用電高峰,在晚上投入更多的負(fù)荷;聚類(lèi)17整體用電水平較低,具有三個(gè)用電高峰,應(yīng)為公共服務(wù)業(yè)[20]。
圖3 經(jīng)歸一化處理的聚類(lèi)中心饋線(xiàn)負(fù)荷曲線(xiàn)
對(duì)得到的負(fù)荷特征曲線(xiàn)進(jìn)行相關(guān)性分析和灰色關(guān)聯(lián)分析,分別考慮外部因素對(duì)這八類(lèi)用戶(hù)特征的影響。本文采用南通市2016~2019年電力消費(fèi)數(shù)據(jù) 和GDP、第一產(chǎn)業(yè)增加值、第二產(chǎn)業(yè)增加值、第三產(chǎn)業(yè)增加值、規(guī)模以上工業(yè)增加值增長(zhǎng)率、人均GDP、城鎮(zhèn)化率、城鎮(zhèn)居民人均可支配收入、城鎮(zhèn)居民人均住房建筑面積、居民消費(fèi)價(jià)格總指數(shù)等數(shù)據(jù)作為原始數(shù)據(jù)進(jìn)行相關(guān)性分析和灰色關(guān)聯(lián)分析,數(shù)據(jù)來(lái)源于江蘇省年鑒及南通市政府工作報(bào)告。表2為電力需求數(shù)據(jù)與其他外部因素的皮爾遜相關(guān)分析數(shù)據(jù)。在經(jīng)過(guò)相關(guān)性分析后,提取出各聚類(lèi)結(jié)果中相關(guān)性為強(qiáng)的因素,進(jìn)一步做灰色關(guān)聯(lián)分析,得出關(guān)聯(lián)性更強(qiáng)的影響因素,以聚類(lèi)1和聚類(lèi)6為例進(jìn)行實(shí)例說(shuō)明。
表2 相關(guān)分析結(jié)果
由上述用電特征分析可知,聚類(lèi)1應(yīng)為重工業(yè)饋線(xiàn),其受到經(jīng)濟(jì)類(lèi)因素影響較強(qiáng),受規(guī)模以上工業(yè)增加值增長(zhǎng)率影響也比較強(qiáng),這與相關(guān)分析結(jié)果是一致的,聚類(lèi)6應(yīng)為餐飲服務(wù)業(yè)為主的饋線(xiàn)聚類(lèi),受經(jīng)濟(jì)類(lèi)和社會(huì)發(fā)展因素影響比較大,受第三產(chǎn)業(yè)影響比較大,這兩種聚類(lèi)對(duì)于氣候因素的影響都不敏感,接下來(lái)做灰色關(guān)聯(lián)分析。表3和表4分別為聚類(lèi)1、6的灰色關(guān)聯(lián)分析結(jié)果。
表3 聚類(lèi)1灰色關(guān)聯(lián)分析結(jié)果(保留四位有效數(shù)字)
表4 聚類(lèi)6灰色關(guān)聯(lián)分析結(jié)果(保留四位有效數(shù)字)
分析表3和表4結(jié)果,與聚類(lèi)1關(guān)聯(lián)度最高的為GDP和第二產(chǎn)業(yè)增加值,與聚類(lèi)6關(guān)聯(lián)度最高的是GDP和城鎮(zhèn)居民人均可支配收入。
使用SPSS Modeler數(shù)據(jù)挖掘軟件做神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),以最大負(fù)荷發(fā)生時(shí)刻每類(lèi)聚類(lèi)的負(fù)荷作為歷史數(shù)據(jù),然后將關(guān)聯(lián)性較強(qiáng)的作為影響因子與歷史數(shù)據(jù)一起作為輸入,組成神經(jīng)網(wǎng)絡(luò)原始數(shù)據(jù),進(jìn)行負(fù)荷預(yù)測(cè)。
以聚類(lèi)1和聚類(lèi)6負(fù)荷預(yù)測(cè)過(guò)程為例,其中聚類(lèi)1的輸入層為2016~2019年時(shí)間序列負(fù)荷值與同時(shí)期GDP和第二產(chǎn)業(yè)增加值,輸出層為2020年最大負(fù)荷時(shí)刻負(fù)荷值;聚類(lèi)6的輸入層為2016~2019年時(shí)間序列負(fù)荷值與同時(shí)期GDP和人均可支配收入,輸出層為2020年最大負(fù)荷時(shí)刻負(fù)荷值。
應(yīng)用SPSS Modeler數(shù)據(jù)挖掘軟件,選用RBF神經(jīng)網(wǎng)絡(luò)-增強(qiáng)模型準(zhǔn)確度模塊,構(gòu)建負(fù)荷預(yù)測(cè)模型,設(shè)定訓(xùn)練分區(qū)比例為80%,測(cè)試分區(qū)比例為20%,預(yù)測(cè)結(jié)果見(jiàn)表5。
表5 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果
各聚類(lèi)的預(yù)測(cè)值之和即為總饋線(xiàn)負(fù)荷預(yù)測(cè)結(jié)果。為驗(yàn)證本方法的有效性,與線(xiàn)性回歸模型、不考慮聚類(lèi)的RBF神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型(輸入層為2001~2019年年最大負(fù)荷時(shí)刻負(fù)荷值,輸出為2020年年最大負(fù)荷時(shí)刻負(fù)荷值)對(duì)比,結(jié)果見(jiàn)表6。
表6 結(jié)果對(duì)比
傳統(tǒng)的線(xiàn)性回歸法面對(duì)海量復(fù)雜的數(shù)據(jù)時(shí)無(wú)法建立準(zhǔn)確模型,不能很好地?cái)M合非線(xiàn)性數(shù)據(jù),而本研究基于數(shù)據(jù)挖掘技術(shù),能對(duì)海量電力數(shù)據(jù)進(jìn)行有效挖掘處理,因此預(yù)測(cè)精度明顯提高,而電力負(fù)荷之間由于用電行為不同,用電規(guī)律也有所不同,使用聚類(lèi)算法將饋線(xiàn)分類(lèi)后再分別進(jìn)行神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)有效提高了預(yù)測(cè)精度。
本文經(jīng)過(guò)研究多篇文獻(xiàn),對(duì)模糊算法進(jìn)行了分析對(duì)比,最終選用模糊C均值算法對(duì)負(fù)荷數(shù)據(jù)進(jìn)行聚類(lèi)。案例數(shù)據(jù)選自南通市2019年7月最大負(fù)荷發(fā)生日的日負(fù)荷曲線(xiàn),對(duì)各饋線(xiàn)進(jìn)行匯總聚類(lèi),得出八個(gè)不同用電特征的聚類(lèi)結(jié)果。對(duì)具有不同特征的負(fù)荷分別進(jìn)行相關(guān)性分析,找出對(duì)電力消費(fèi)起到強(qiáng)作用的影響因素。以聚類(lèi)1負(fù)荷為例,GDP、第一產(chǎn)業(yè)增加值、第二產(chǎn)業(yè)增加值、人均GDP、城鎮(zhèn)居民人均可支配收入等因素對(duì)聚類(lèi)1的用戶(hù)具有強(qiáng)關(guān)聯(lián)的影響作用,將這些影響因素與電力數(shù)據(jù)一起用神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,最終得出聚類(lèi)1的預(yù)測(cè)結(jié)果。
本文采用聚類(lèi)、相關(guān)性分析、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù)使電力數(shù)據(jù)得到有效利用,并且使預(yù)測(cè)結(jié)果比傳統(tǒng)方法預(yù)測(cè)結(jié)果更加精確。本文提出的基于數(shù)據(jù)挖掘的方法可為負(fù)荷預(yù)測(cè)、負(fù)荷控制甚至電價(jià)的制定提供指導(dǎo)。