鄔浩澤,朱晨烜,張貽山,龍艷花
(1.上海電機學院電氣學院,上海 201306;2.上海師范大學信息與機電工程學院,上海 200234)
電力負荷預測工作中存在與預測日相似的歷史日,稱為典型日負荷。獲取典型日負荷曲線是電力負荷預測研究的一個重要的環(huán)節(jié),典型日負荷曲線可以用來分析負荷特性,并且獲得典型日的最大(最?。┴摵珊推骄摵?,對負荷調度計劃的制定及電網(wǎng)的運行控制有著重要意義。
隨著人工智能技術的發(fā)展,一系列智能算法被應用于典型日負荷曲線的選取中。文獻[1]以溫度為指標選取典型日負荷曲線,但指標太少不能完全描述負荷曲線的特性。文獻[2]使用果蠅優(yōu)化算法選取典型日負荷曲線,但運算成本較大且計算復雜也無普遍的適用性。文獻[3]以負荷類型為參考目標選取典型日負荷曲線。文獻[4]提出了利用自組織特征指標提取法選取典型日負荷曲線。聚類算法是分析規(guī)模大且雜亂的原始數(shù)據(jù)的有效手段,應用于選取典型日負荷曲線。文獻[5]通過特性指標降維,結合K-means 算法進行日負荷曲線聚類分析。然而單一算法的精度不高,處理大量原始數(shù)據(jù)計算復雜。因此,結合多種人工智能算法,得到的集成算法有更好聚類效果。文獻[6]通過貪心搜索方法建立數(shù)據(jù)分析的K-Medoids 聚類算法,并將該算法應用到不同電網(wǎng)工程中。文獻[7]針對模糊C 均值(Fuzzy C-Means,F(xiàn)CM)算法容易受到初始聚類中心矩陣影響,并且容易在局部收斂得到最優(yōu)值,在日負荷曲線的電力特性很難通過簡單的距離得到展示的問題,提出了基于灰狼算法(Grey Wolf Optimizer,GWO)優(yōu)化的FCM 算法。文獻[8]將自適應和概率統(tǒng)計相結合對原有的模糊聚類算法進行改進,著重負荷畸變?nèi)諏垲愋Ч挠绊?,所選負荷典型日優(yōu)于原算法。由于光伏輸出功率取決于環(huán)境因素,文獻[9]選取典型日的8 個特征指標都基于環(huán)境變化。文獻[10]以輻照度作為特征指標選取典型日負荷曲線。文獻[11]對高維數(shù)據(jù)以特征指標提取進行降維,提出了統(tǒng)計學方法與自適應相結合的改進模糊聚類算法典型日負荷曲線選取新方法,但所選特征指標存在重復描述負荷特性的問題。
聚類分析中事先給定聚類數(shù)目至關重要,直接影響聚類效果。文獻[12]針對模糊聚類的聚類數(shù)不明確導致聚類效果不佳的情況,提出了自適應的方法確定聚類數(shù),但其數(shù)學模型較為簡單,對于處于2類結合部的樣本點難以準確劃分。文獻[13]由聚類有效性指標確定最佳聚類數(shù)再對電力用戶進行分類。文獻[14]基于改進的遺傳算法,通過負荷特征分類的方式對最佳聚類數(shù)和聚類中心進行動態(tài)搜索。文獻[15]將多目標遺傳算法和FCM 算法相結合,首先給定初始聚類數(shù)和聚類中心矩陣,再使用多目標遺傳算法找到最優(yōu)解。文獻[16]對FCM 算法改進并得到1 個新的有效性指標。
綜上,本文提出了一種基于自適應改進模糊聚類算法的典型日選取方法。首先用6 個特征指標對原數(shù)據(jù)進行降維,并引入σ2協(xié)方差概念[17],將現(xiàn)有的可能C 均值算法(Possible C-Means,PCM)中參數(shù)進行優(yōu)化再與FCM 相結合得到改進的可能模糊C 均值算法(Possible Fuzzy C-Means,PFCM)方法,考慮了數(shù)據(jù)集中樣本的緊湊性,提高了聚類精度。然后由改進的PFCM 算法和自適應目標函數(shù),確定最佳聚類數(shù)c。再通過模糊線性判別法(Fuzzy Linear Discriminant Analysis,F(xiàn)LDA)在最優(yōu)特征空間上進行迭代計算,得到最佳聚類中心矩陣,進一步優(yōu)化聚類效果。通過皮爾森相關系數(shù)選取與聚類中心點最近的樣本點為典型日負荷曲線,并引入相對誤差百分比公式對選取的典型日負荷曲線進行評價。最后以某電網(wǎng)負荷數(shù)據(jù)進行實例仿真,通過與FCM方法的對比分析,說明所提方法的有效性和優(yōu)越性。
以1 d 每個時刻點直接測量得到負荷曲線存在維數(shù)較大的問題。如果對原始數(shù)據(jù)直接聚類,會造成某個樣本向量到設定聚類中心向量的歐氏距離相近且均較小的后果,最終會產(chǎn)生此樣本點被誤分到同一類的問題。因此,聚類前通過特征指標的提取對原矩陣進行降維處理,能大大提高其運行效率和聚類質量。
由于日峰谷差率與峰期負載率、谷期負載率在定義上有重疊,對7 個特征指標進行優(yōu)化[11]。最終選取日負荷率、日最大負荷利用時間、峰期負載率、谷期負載率、最大負荷出現(xiàn)時刻、最小負荷出現(xiàn)時刻6 個指標來體現(xiàn)負荷用電特性。
日負荷率k1(全天負荷變化)為:
式中:Pave為日負荷平均值;Pmax為日負荷最大值。
日最大負荷利用時間k2(時間利用效率)為:
峰期負載率k3(峰期負荷變化)為:
谷期負載率k4(谷期負荷變化)為:
式中:P(t)為t時刻的負荷值;Pmax.ave為日最大負荷平均值;Pmin.ave為日最小負荷平均值。
最小負荷出現(xiàn)時刻k5和最大負荷出現(xiàn)時刻k6分別為Tmin和Tmax,即:
1.2.1 原始數(shù)據(jù)標準化
原始數(shù)據(jù)集X為:
式中:n為樣本數(shù);s為特征量的維數(shù);xjs為第j個樣本(j=1,2,...,n)。
原始負荷數(shù)據(jù)具有同趨性,但為了消除負荷自身變異大小和數(shù)值大小對數(shù)據(jù)的影響,在使用數(shù)據(jù)前進行標準化處理十分必要。
本文采用Min-Max 方法進行標準化處理,標準化后得到的數(shù)據(jù)為:
式中:Bjs為提取特征指標后的數(shù)據(jù);[Bjs]min為第s列元素的最小值;[Bjs]max為第s列元素的最大值。得到標準后的數(shù)據(jù)集,記為矩陣B′。
1.2.2 負荷畸變?nèi)毡孀R
畸變數(shù)據(jù)是遠離聚類中心的樣本點,對后期基準日的選取和各特征指標的權重計算會造成誤差,需事先進行篩除。原始負荷數(shù)據(jù)測量次數(shù)較多,而拉依達準則在測量次數(shù)足夠大時有很好的準確性。因此,本文采用拉依達準則篩除畸變數(shù)據(jù)日。
殘余誤差Tjs為:
標準偏差δ為:
拉依達準則先假設1 組檢測數(shù)據(jù)只含有隨機誤差,然后計算出B′的列平均值及殘余誤差Tjs,計算標準偏差δ。當 |Tjs|>3δ時,認為是粗大誤差而不是隨機誤差,此作為畸變數(shù)據(jù)應剔除。得到篩除畸變數(shù)據(jù)日的數(shù)據(jù)集,記為矩陣B″。
1.2.3 特征指標加權處理
特征指標的權重能客觀地反映不同特征指標在描述負荷曲線特征時的重要性,合理分配權重能提高聚類結果的準確性。由熵權法計算各項指標的權重。
比重Pjs為:
熵值Es為:
權重Ws為:
特征加權后的矩陣X′為:
式中:k為特征指標數(shù);n′為剔除數(shù)據(jù)畸變?nèi)蘸蟮臉颖究倲?shù);為剔除畸變數(shù)據(jù)后的數(shù)據(jù)。B″為剔除畸變數(shù)據(jù)后的矩陣。
特征加權后的矩陣,記為矩陣X′。
模糊隸屬度是聚類中心與樣本點緊密度的度量,且依賴于初始聚類中心矩陣的選擇,PCM 算法[18]只重視了典型性卻忽略了模糊隸屬度,導致產(chǎn)生聚類一致性的問題[19]。PFCM 算法[20-21]結合FCM 和PCM 算法的優(yōu)點,克服了PCM 算法的缺點。但目標函數(shù)的求取需先運算FCM 中的參數(shù),提高了運算成本。
針對PFCM 方法需先計算FCM 算法中參數(shù)增加運算成本的問題,先將PCM 算法的目標函數(shù)JPCM改進為:
式中:c為聚類數(shù);m為模糊加權數(shù);dij為樣本xj到聚類中心Vi的歐氏距離;為第j個樣本點對第i類典型值;σ2為協(xié)方差矩陣,用來描述數(shù)據(jù)矩陣的緊密程度,能提高聚類有效性;xˉ為樣本向量平均值。改進后的PFCM 算法的目標函數(shù)JPFCM為:
樣本的典型值tij為:
類中心矩陣vij為:
模糊隸屬度矩陣uij為:
式中:uij為第j個樣本點屬于第i類的隸屬度;a,b,p為參數(shù);γ為迭代次數(shù)。
眾多研究者以各種形式提出模糊線性判別(FLDA)方法[22-25],將模糊度與線性判別法(Linear Discriminant Analysis,LDA)相結合得到了FLDA,并用于模糊聚類分析中。在處理后的數(shù)據(jù)空間利用FLDA 求出最優(yōu)變換向量將原矩陣投影到最優(yōu)空間上,可使得類與類之間距離更大,類內(nèi)樣本更緊湊。模糊類間散布矩陣SfB為:
模糊總散布矩陣SfT為:
式中:vi為第i類的聚類中心向量。
模糊總散布矩陣SfT在后續(xù)計算中需滿足為非奇異矩陣,若為奇異矩陣需先進行正則化處理。
特征值λ和特征向量ω的計算式為:
特征空間yj為:
FLDA 在最優(yōu)特征空間上進行迭代計算得到最優(yōu)變換向量,結合模糊聚類算法可提高其聚類精度。將FLDA 和改進后PFCM 算法相結合,得到以下算法。
特征空間中的聚類中心矩陣vi為:
特征空間中樣本到聚類中心的歐氏距離為:
在特征空間內(nèi)計算模糊隸屬度函數(shù)值為:
在特征空間內(nèi)計算典型值為:
在特征空間內(nèi)計算聚類中心矩陣為:
FLDA-改進后PFCM 算法的具體步驟如下:
1)初始化改進后的PFCM 算法,通過式(16)計算出樣本的協(xié)方差σ2,通過式(18)—式(20)得到uij,tij,vij的值。
2)通過式(21)—式(22)計算出模糊類間散布矩陣SfB和模糊總散布矩陣SfT。
3)通過式(23)計算出特征值λ和特征向量ω。
4)通過式(24)將原始樣本xj投影到特征空間得到y(tǒng)j。
定義1:DCBC(c,U)為類之間的結合度,即:
式中:p,q分別為2 類;1 ≤i≤c;upj為第j個樣本點對p類的隸屬度;uqj為第j個樣本點對q類的隸屬度;β為閾值。
對于未處于結合部的樣本xj,即最大隸屬度大于設定的閾值0.6,或者對p類和q類的隸屬度的絕對差值超過設置的2 倍閾值(β=0.1),在此設置=0。對于處于結合部的樣本xj,即最大隸屬度小于設定的閾值0.6:如果滿足對類p和類q的隸屬度的絕對差值小于設置的閾值,那么此樣本同時屬于p和q這2 類,在此設置=1。如果滿足對類p和類q的隸屬度的絕對差值大于設置的閾值且小于設置的2 倍閾值,那么此樣本同時對p和q這2 類可能有相同的隸屬度,在此設置=0.5 。由式(30)可知結合度DCBC(c,U)越低,此模糊類和其他模糊類之間距離越大。
定義2:MSCC(c,U,V)為類間分離度和類內(nèi)緊密度的度量,即:
式中:sep為類與類之間的分離度;comp為類內(nèi)的緊密度;pen為懲罰項。
類與類之間的分離度sep為:
式中:Vi,Vk為任意2 個不同的類中心向量;為聚類中心向量平均值。
由式(33)可得,類中心與類中心平均值相差越大,類與類之間的最小距離越大,說明2 類越分離。因此,sep越大則類之間越分離。
類內(nèi)的緊密度comp為:
式中:nc(i)為第i類中含有數(shù)據(jù)對象的個數(shù);λ(i)為權值。式(34)加入這一項,是為了避免畸變數(shù)據(jù)被當成一類來處理后,造成λ(i)接近于1,則類的權值將會大于其他類使緊密度的值變大。
由式(34)可得,樣本與類中心距離越小,則類內(nèi)越緊密。因此,comp越小則類內(nèi)緊密度越大。
懲罰項pen為:
式中:xk,xj為數(shù)據(jù)集中2 個任意樣本點。
式(35)為數(shù)據(jù)矩陣中任意2 個樣本點之間的平均距離。因此,由式(32)可知,MSCC(c,U,V)度量的值越大,聚類效果更好。
聚類結果是希望類與類分離度越大、結合程度越低,類內(nèi)樣本越緊湊,基于以上目標和定義,聚類數(shù)c的自適應目標函數(shù)為:
綜上所述,由式(36)的改進后的模糊聚類有效性指標目標函數(shù)可知,L(c)的值越小,聚類的效果越好。自適應目標函數(shù)基于本文改進的PFCM 算法,優(yōu)化了參數(shù)減少了運算成本,并且引入的協(xié)方差矩陣考慮了數(shù)據(jù)集的緊密度。
具體算法步驟如下:
2)根據(jù)式(19)和式(20)修正類中心矩陣vij和隸屬度矩陣uij。
4)通過式(30)—式(35)計算DCBC(c,U) 和MSCC(c,U,V),根據(jù)式(36)計算出L(c)。
5)若c≤cmax,則c=c+1 并重復步驟1)以下步驟,否則到步驟6)。
6)比較L(c)的大小,找到最小值,并選取相應的最佳聚類數(shù)。
本文在聚類分析得到聚類中心矩陣后用皮爾森相關系數(shù)確定某年中12 個月的所屬類別。最后引入相對誤差公式對選取的典型日負荷曲線進行評價。
2.4.1 分類方法
皮爾森相關系數(shù)是一種線性相關系數(shù),反映2 個變量線性相關程度的統(tǒng)計量。用相關系數(shù)R來描述2 個變量間線性相關強弱的程度。若R絕對值越大,則相關性越強。
皮爾森相關系數(shù)公式為:
式中:為每個月的平均負荷值向量;v為每類的聚類中心向量;s為向量維數(shù)。
本文選用皮爾森相關系數(shù)法來確定每類聚類中心向量與每月基準日向量之間的相關性,以相關性最強的1 類為分類依據(jù)。
2.4.2 誤差表征
引入相對誤差百分比公式來比較原算法和本文算法的相對誤差,說明樣本之間的緊密度。
相對誤差百分比Z計算式為:
式中:n為樣本數(shù);P(i)為基準日負荷向量;Q(i)為選取的典型日向量。
為驗證本文所提算法的有效性,選取某電網(wǎng)全年負荷數(shù)據(jù),在MATLAB 2018 b 版本中進行實例仿真。將所選數(shù)據(jù)特征指標選取后進行降維處理,再進行數(shù)據(jù)標準化處理和畸變?nèi)諗?shù)據(jù)剔除,最后通過熵權法將選取的特征指標加權處理;使改進的PFCM 方法和自適應目標函數(shù)確定最佳聚類數(shù);運用本文提出的FLDA-改進的PFCM 方法進行聚類分析,得到聚類中心矩陣后,用皮爾森相關系數(shù)確定分類結果;選取每類中隸屬度最大的樣本點為典型日負荷曲線;對FCM 方法和FLDA-改進的PFCM方法進行相對誤差分析評價。
以全年日負荷曲線為研究對象,采樣頻率為1 h/點,每條曲線有24 個采樣點,共計366 條日負荷曲線,得到原始數(shù)據(jù)矩陣X。利用式(1)—式(5)對矩陣X進行降維處理,得到366×6 階的特征降維矩陣,記為矩陣B。通過式(7)對矩陣B進行標準化,得到矩陣B′。
通過式(1)—式(8)得到2016 年16 個數(shù)據(jù)畸變?nèi)?,分別為2 月8 日,2 月10-12 日,5 月14-15日,8 月13-16 日,8 月18-21 日,8 月24-25 日。經(jīng)分析,2 月8 日為2016 年農(nóng)歷正月初一,而二月的數(shù)據(jù)畸變?nèi)站鶠榇汗?jié)假期中,5 月的5 個數(shù)據(jù)畸變?nèi)諡殡p休日,8 月由于氣溫影響使得負荷急劇變化。剔除數(shù)據(jù)畸變?nèi)蘸蟮玫?50×24 階的負荷數(shù)據(jù)矩陣,記為矩陣B″。
通過式(11)—式(13)計算,得到本文提取的日負荷率、日最大負荷利用時間、峰期負載率、谷期負載率、最大負荷出現(xiàn)時刻、最小負荷出現(xiàn)時刻6 個特征指標的權重分別為0.032 6,0.032 6,0.251 4,0.251 4,0.097 0,0.334 9。通過式(14)得到特征指標加權后的矩陣X′。
導入數(shù)據(jù)處理后的矩陣X′,實驗輸入數(shù)據(jù)cmin=2,cmax=12,m=2.0,ζ=0.000 01,計算自適應目標函數(shù)L(c)中的相關指標。
圖1 為通過式(36)的自適應目標函數(shù)計算所得,其中,C 為聚類數(shù);L(c)為無度量自適應目標函數(shù)值。
圖1 自適應結果Fig.1 Adaptive computation by adaptive objective function
MSCC(c,U,V)指標為描述類間結合度,當c=4時類間結合度最小;DCBC(c,U)指標包含對sep(類與類分離度)和comp(類內(nèi)樣本緊密度)描述,當c=4時,DCBC(c,U)指標最大。
由圖1 可知,當c=4 時,目標函數(shù)值最小,本組數(shù)據(jù)最佳聚類數(shù)為4。因此,本文以下實驗均選聚類數(shù)4 進行研究。
輸入:數(shù)據(jù)矩陣X′,最佳聚類數(shù)c=4,模糊指數(shù)m=2.0,p=2.0,參數(shù)a=1.0,b=1.0,誤差參數(shù)ζ=0.000 01,樣本數(shù)n,初始迭代次數(shù)γ=1,最大迭代次數(shù)γmax=100,初始類中心。
輸出:聚類中心矩陣VPF
通過式(26)-式(29)對矩陣X′進行聚類分析,得到聚類中心矩陣為:
將每月剔除數(shù)據(jù)畸變?nèi)蘸蟮钠骄摵汕€作為月基準日負荷曲線。由式(37)可得每月基準日向量與第Ⅰ,Ⅱ,Ⅲ和Ⅳ類聚類中心向量的皮爾森相關系數(shù),得到各月皮爾森相關系數(shù),見表1。
表1 各月皮爾森相關系數(shù)Table 1 Pearson correlation coefficient of each month
由表1 可選出每月對應相關性最強的類別,得到如下結果:2,3,6,9,10 月屬于第Ⅰ類;1,7,8,11 月屬于第Ⅱ類;4,5 月屬于第Ⅲ類;12 月屬于第Ⅳ類。
選取每類隸屬度最大的樣本點作為該類的典型日,得到各月典型日選取結果,見表2。
表2 各月典型日選取Table 2 Typical day selection of each month
將分類后的每月基準日負荷曲線與本文方法和FCM 方法選出的典型日負荷曲線繪制成圖2-圖5。
圖2 第Ⅰ類典型日負荷曲線比較Fig.2 Comparison of typical daily load curves for Type Ⅰ
圖3 第Ⅱ類典型日負荷曲線比較Fig.3 Comparison of typical daily load curves for Type Ⅱ
圖4 第Ⅲ類典型日負荷曲線比較Fig.4 Comparison of typical daily load curves for Type Ⅲ
圖5 第Ⅳ類典型日負荷曲線比較Fig.5 Comparison of typical daily load curves for Type Ⅳ
引入相對誤差百分比比較FCM 方法和本文方法的相對誤差,說明樣本之間的緊密度。算例中n=24,用FCM 方法和本文方法通過式(38)計算,得到表3 的相對誤差百分比。
表3 各月典型日相對誤差百分比Table 3 Relative error percentage of typical days in each month %
由表3 可知,本文方法較FCM 方法最小提升0.01%,在所有月份均有提升,在5 月相對誤差提升了0.2%。由此可見,本文算法在類內(nèi)樣本之間聚類效果優(yōu)于FCM。
根據(jù)實驗結果,本文算法優(yōu)于FCM 算法。在程序運行上本文算法經(jīng)過53 次收斂,而FCM 算法經(jīng)過88 次才收斂,提高了工作效率。
本文提出的基于自適應FLDA-改進后PFCM算法的典型日選取方法特點有:(1)改進的1 個自適應函數(shù)L(c)能夠自主確定最佳聚類數(shù),避免人為干預,提高工作效率;(2)改進的PFCM 方法彌補了PCM 一致性的缺點和FCM 對畸變數(shù)據(jù)敏感性的不足;(3)利用FLDA 進一步在模糊空間上交替優(yōu)化,提高了聚類精度;最后通過皮爾森相關系數(shù)確定分類結果,以每類中隸屬度最大的樣本點為典型日。
需要注意的是,本文算法僅適用于原數(shù)據(jù)為非奇異矩陣,若非奇異矩陣需對其先進行正則化處理。今后研究可對式(17)的參數(shù)繼續(xù)優(yōu)化得到更好的聚類效果;本文選用皮爾森相關系數(shù)確定分類結果,對不同的分類方法可進一步研究改進,得到更好的分類結果;對FLDA 的概念進行拓展,研究并驗證新的聚類中心評價指標。