宋軍英,崔益?zhèn)ィ钚廊?,?偉,劉韜文,李培強(qiáng)
(1. 國網(wǎng)湖南省電力有限公司,湖南省長沙市410077;2. 湖南大學(xué)電氣與信息工程學(xué)院,湖南省長沙市410082)
變電站綜合負(fù)荷是由數(shù)量眾多、特性各異的電力用戶構(gòu)成的,通過在線掌握用戶的負(fù)荷特性,可實(shí)現(xiàn)變電站綜合負(fù)荷構(gòu)成特性的在線解析。其基本思路是:運(yùn)用聚類分析的方法,對用戶的日負(fù)荷曲線進(jìn)行分類與綜合,獲得典型用電行業(yè)的分類負(fù)荷特性,進(jìn)而在線解析得到綜合負(fù)荷的用電行業(yè)構(gòu)成比例,最終實(shí)現(xiàn)在線負(fù)荷建模[1-2]。
隨著智能電網(wǎng)建設(shè)的深入,用戶日負(fù)荷曲線數(shù)據(jù)量及維度大幅提高,對電網(wǎng)大數(shù)據(jù)平臺(tái)負(fù)荷特性提取的準(zhǔn)確性、魯棒性及運(yùn)算效率提出了更高的要求[3-4]。負(fù)荷曲線采樣頻率的提升雖然能更完整地反映用戶的日用電特性,但高維數(shù)據(jù)集應(yīng)用于聚類算法時(shí)會(huì)導(dǎo)致運(yùn)算效率下降,且由于采樣點(diǎn)增多,某一時(shí)間段的小幅噪聲(以某一采樣值水平線為基準(zhǔn)上下波動(dòng)的采樣點(diǎn))會(huì)影響曲線動(dòng)態(tài)特性的刻畫,從而導(dǎo)致相似度衡量誤差。此時(shí)如果依然采用傳統(tǒng)算法(如K 均值(K-means)算法),直接應(yīng)用原始數(shù)據(jù)進(jìn)行聚類,就會(huì)存在以下3 個(gè)缺點(diǎn)[5]:①聚類數(shù)目需事先劃定,初始聚類中心曲線的選取過程完全隨機(jī);②相似度衡量方法難以準(zhǔn)確估量高維曲線的動(dòng)態(tài)特性;③魯棒性較差,擾動(dòng)點(diǎn)對算法聚類質(zhì)量負(fù)面影響較大。因此,對于基于電網(wǎng)大數(shù)據(jù)平臺(tái)的在線負(fù)荷建模,如何從海量的日負(fù)荷曲線中提取有價(jià)值的信息,高質(zhì)量、高效率地進(jìn)行實(shí)時(shí)準(zhǔn)確聚類,完成變電站綜合負(fù)荷解析,就成為亟須解決的重要問題[6]。
解決上述問題的有效方法之一就是對用戶日負(fù)荷曲線集進(jìn)行降維處理,提取能準(zhǔn)確表征用戶用電特性的特征點(diǎn)或特征指標(biāo)進(jìn)行聚類。文獻(xiàn)[7]采用峰谷期負(fù)載率、最大最小負(fù)荷對應(yīng)時(shí)刻等特征指標(biāo)對日負(fù)荷曲線降維;文獻(xiàn)[8]通過對日負(fù)荷曲線進(jìn)行奇異值分解,以提取負(fù)荷曲線的負(fù)荷特征;文獻(xiàn)[9]提出一種基于離散小波變換(discrete wavelet transformation,DWT)的模糊聚類方法;文獻(xiàn)[10]基于子空間聚類算法進(jìn)行負(fù)荷曲線集的特征提取,嘗試在相同數(shù)據(jù)集的不同子空間上發(fā)現(xiàn)聚類??v觀上述文獻(xiàn),大多采用等分辨率降維方法,強(qiáng)制使數(shù)據(jù)集統(tǒng)一降至某一維度,一定程度上忽略了某些負(fù)荷曲線的斜率、極值點(diǎn)等關(guān)鍵負(fù)荷特性[11]。同時(shí),以歐氏距離作為相似度衡量方法,無法準(zhǔn)確衡量負(fù)荷曲線的動(dòng)態(tài)特性,也不適用于自適應(yīng)降維所構(gòu)成的不等維時(shí)間序列集的相似度衡量[12-13]。
文獻(xiàn)[13]研究表明,以動(dòng)態(tài)時(shí)間彎曲(dynamic time warping,DTW)距離代替歐氏距離作為時(shí)間序列相似度衡量指標(biāo),能更充分地反映序列的整體動(dòng)態(tài)特性,但在效率上存在一定的劣勢,因此對于高維度曲線,難以滿足在線、實(shí)時(shí)的應(yīng)用要求。
本文在文獻(xiàn)[13]研究的基礎(chǔ)上,提出一種改進(jìn)分 段 線 性 表 示(improved piecewise linear representation,IPLR)與DTW 距離相結(jié)合的基于Canopy 的K-means(CK-means)日負(fù)荷曲線聚類方法。首先,該方法以相鄰及間隔采樣點(diǎn)變化量為依據(jù),對原始曲線集進(jìn)行基于IPLR 方法的自適應(yīng)重構(gòu),得到一組不等維度的降維數(shù)據(jù)組;然后,采用Canopy 算法獲取聚類數(shù)目及初始聚類中心;最后,利用以DTW 距離作為相似度衡量手段的K-means算法對其進(jìn)行聚類處理。算例結(jié)果表明,本文方法所采取的IPLR 自適應(yīng)降維方法與DTW 距離相似度衡量手段相契合,所得聚類結(jié)果與實(shí)際相符,且在聚類質(zhì)量、魯棒性及運(yùn)算效率上較傳統(tǒng)方法均具有一定的優(yōu)越性,滿足基于電網(wǎng)大數(shù)據(jù)平臺(tái)的實(shí)時(shí)在線負(fù)荷建模的要求。
傳 統(tǒng) 分 段 線 性 表 示(piecewise linear representation,PLR)算法基于相鄰采樣點(diǎn)的采樣值變化量對原始時(shí)間序列進(jìn)行重構(gòu)。首先,計(jì)算每個(gè)采樣點(diǎn)的相鄰采樣值變化量;然后,根據(jù)變化量是否超過給定閾值,以判斷其是否為特征點(diǎn);最后,將所有特征點(diǎn)按先后順序依次連接,即完成時(shí)間序列的降維重構(gòu)[14]。但是該算法的特征點(diǎn)提取條件過于寬松,僅關(guān)注時(shí)間序列的局部特性,受擾動(dòng)影響較大[15-16]。當(dāng)時(shí)間序列中某一時(shí)間段的采樣點(diǎn)維持某一水平采樣值進(jìn)行近似的等幅小額振動(dòng),且此一系列頻繁振動(dòng)導(dǎo)致此時(shí)間段的采樣點(diǎn)相鄰變化量皆超過閾值,則降維重構(gòu)序列中將包含大量擾動(dòng)點(diǎn)。為解決這一問題,本文在傳統(tǒng)算法的基礎(chǔ)上加入對采樣點(diǎn)間隔變化量的限制,以達(dá)到通過提取少量采樣點(diǎn)即可反映序列的關(guān)鍵特性,并增強(qiáng)算法的抗干擾能力的目的。算法流程如圖1 所示。
圖1 IPLR 算法流程圖Fig.1 Flow chart of IPLR algorithm
對于具有m條時(shí)間序列的n維數(shù)據(jù)集G=[G1,G2,…,Gm],其中第i條時(shí)間序列為Gi=[gi1,gi2,…,gin]。通過IPLR 算法對Gi進(jìn)行自適應(yīng)降維得到u維的降維序列Hi=[hi1,hi2,…,hiu]的具體步驟如下。
步驟1:首先,取原始序列Gi的首尾兩端的采樣點(diǎn)作為降維序列的首尾兩端,即hi1=gi1,hiu=gin;然后,輸入相鄰采樣點(diǎn)變化量閾值參數(shù)λ1和λ2[17]及間隔采樣點(diǎn)變化量閾值參數(shù)σ和ε。其中σ通過設(shè)定間隔采樣點(diǎn)變化量差閾值,選取間隔變化量絕對值變化較大的特征點(diǎn);ε通過設(shè)定采樣點(diǎn)的間隔變化量乘積閾值,選取左右間隔變化量絕對值相近但值較大的特征點(diǎn)。λ1,λ2,σ和ε的取值,由數(shù)據(jù)集G中隨機(jī)選取m條時(shí)間序列集的每條時(shí)間序列的相鄰采樣點(diǎn)的平均變化量與間隔采樣點(diǎn)的平均變化量決定,如式(1)至式(3)所示。
步驟2:計(jì)算第j個(gè)采樣點(diǎn)的相鄰變化量k1=xj+1-xj,k2=xj-xj-1,以及間隔變化量k3=xj+2-xj,k4=xj+1-xj-1,其中2 ≤j≤n-2。
步驟3:對于時(shí)間序列點(diǎn)gin,若|k1+k2|>λ1或|k1-k2|>λ2,則進(jìn)入步驟4,否則j=j+1,進(jìn)入步驟5。
步驟4:若||k3|-|k4||>σ或|k3k4|>ε,則提取該點(diǎn),進(jìn)入步驟5,否則j=j+1,進(jìn)入步驟5。
步驟5:若j=n-2,輸出降維重構(gòu)曲線,否則進(jìn)入步驟2。
現(xiàn)對一條維度為96 的日負(fù)荷曲線A進(jìn)行降維分析,該曲線在0~24 和48~65 采樣時(shí)段分別維持0.5 和0.85 的負(fù)荷水平進(jìn)行小額波動(dòng)。若應(yīng)用基于SEEP 序列的PLR 算法,曲線維度降至49,得到降維曲線A',如圖2 所示。不難看到,該方法將負(fù)荷低谷期及雙峰間谷端的處于波動(dòng)時(shí)間段的采樣點(diǎn)采納為特征點(diǎn),導(dǎo)致重構(gòu)的降維曲線維數(shù)較高,且含有大量擾動(dòng)點(diǎn),無法準(zhǔn)確反映原始曲線的動(dòng)態(tài)特性。若應(yīng)用本文的IPLR 算法對日負(fù)荷曲線進(jìn)行降維重構(gòu),得到降維曲線A″,如圖3 所示,維度降至39,大部分波動(dòng)時(shí)間段的擾動(dòng)點(diǎn)被剔除。
圖2 PLR 降維示意圖Fig.2 Schematic diagram of dimension reduction of PLR
圖3 IPLR 降維示意圖Fig.3 Schematic diagram of dimension reduction of IPLR
應(yīng)用文獻(xiàn)[14]中的時(shí)間序列壓縮度計(jì)算方法,對2 種降維方法關(guān)于原始日負(fù)荷曲線A的壓縮率進(jìn)行計(jì)算對比分析,可以發(fā)現(xiàn)IPLR 降維方法的壓縮率較PLR 降維方法高25.64%。定義Ddtw(X,Y)為時(shí)間序列X與Y之間基于DTW 距離的相似度。將原始曲線A分別與降維曲線A'與A″進(jìn)行擬合度分析,則 可 得Ddtw(A,A')=0.024 8,Ddtw(A,A″)=0.017 8。不難發(fā)現(xiàn),IPLR 降維方法所得降維曲線與原始曲線擬合程度更高,更能反映負(fù)荷曲線的負(fù)荷特性。
現(xiàn)從數(shù)據(jù)集中隨機(jī)選取負(fù)荷曲線B(B'與B″分別為曲線B經(jīng)PLR 算法與IPLR 算法所得的降維曲線)與負(fù)荷曲線A作相似度分析,以DTW 距離為相似度衡量指標(biāo)[18],結(jié)果如表1 所示。其中,Ⅰ,Ⅱ,Ⅲ分別對應(yīng)不降維處理、PLR 降維處理及IPLR 降維處理。
表1 相似度衡量方法對比Table 1 Comparison of similarity measuring methods
由表1 可知,通過對負(fù)荷曲線降維,可以顯著提升DTW 距離應(yīng)用于負(fù)荷曲線間相似度衡量的運(yùn)算效率,使運(yùn)算時(shí)間縮減至接近原來的1/4。同時(shí),IPLR 降維方法與原始曲線的相似度指標(biāo)值及運(yùn)算時(shí)間分別比PLR 降維方法降低近11%和10%。
綜上可知,本文所提IPLR 降維方法通過提取負(fù)荷曲線的特征點(diǎn)對原始曲線進(jìn)行自適應(yīng)降維,能以盡可能低維度的降維曲線反映原始負(fù)荷曲線的關(guān)鍵動(dòng)態(tài)特性。該方法所得降維曲線擬合度高、運(yùn)算時(shí)間短、抗干擾能力強(qiáng),適用于用戶日負(fù)荷曲線的聚類運(yùn)算。
CK-means 算法為基于Canopy 聚類結(jié)果的Kmeans 聚類算法,相比于K-means 算法,其首先應(yīng)用Canopy 算法選取聚類數(shù)目及初始聚類中心,然后再采用K-means 算法進(jìn)行聚類。
Canopy 算法是一種快速簡單但精準(zhǔn)度一般的聚類算法,其最大特點(diǎn)是無須確定聚類數(shù)目,適用于預(yù)處理階段對原始數(shù)據(jù)集進(jìn)行粗聚類處理,將此聚類結(jié)果作為初始聚類中心,雖同樣具有一定的隨機(jī)性,但代表性更強(qiáng)。算法基本運(yùn)算流程如下[19]。
步驟1:設(shè)定閾值T1與T2(一般T2取所有曲線平均距離的2 倍,且T1=2T2),并滿足T1>T2。
步驟2:從數(shù)據(jù)集中任取一點(diǎn),作為第1 個(gè)Canopy(作為Canopy 的數(shù)據(jù)點(diǎn)應(yīng)從數(shù)據(jù)集中刪去)。
步驟3:計(jì)算數(shù)據(jù)集中其他每個(gè)點(diǎn)Zi與所有Canopy(Rj)的距離Ui-j。若Ui-j<T2,則將其歸入此Rj類別;若其關(guān)于所有Canopy 的距離滿足Ui-j>T1,則將其當(dāng)作一個(gè)新的Canopy;若該點(diǎn)到某個(gè)Canopy 距離Ui-j<T1,并在其與所有Canopy距離計(jì)算完成后依然未加入任何Canopy,則將其作為一個(gè)新的Canopy。
步驟4:重復(fù)步驟3,直至數(shù)據(jù)集為空。
聚類的有效性一般通過以下2 個(gè)方面反映:一是同一種類的對象間相似度較高;二是不同種類的對象間差異性較大。
由文獻(xiàn)[20]可知,DBI(Davies-Bouldin index)指標(biāo)同時(shí)考慮聚類結(jié)果的類內(nèi)及類間的聚類效果,如式(4)所示。IDBI為類內(nèi)距離之和與類外距離的比值,其計(jì)算公式簡單且指標(biāo)值變化范圍小,能直觀反映聚類質(zhì)量。因此,相比于其他指標(biāo),DBI 指標(biāo)更適用于評定電力用戶日負(fù)荷曲線聚類的有效性。
式中:K為聚類個(gè)數(shù);Si為第i個(gè)類中曲線集與該類聚類中心曲線的平均距離,用于反映第i個(gè)類中曲線集的聚攏程度;Mij為第i類中心與第j類聚類中心曲線的距離,以反映類間第i類與第j類曲線集的分散程度。
由于不同相似度衡量手段側(cè)重于衡量曲線的不同特性,故本文以歐氏距離作為相似度的指標(biāo)定義為I1,以DTW 距離作為相似度的指標(biāo)定義為I2,分別以負(fù)荷曲線的整體分布特性與整體動(dòng)態(tài)特性評估聚類質(zhì)量[13]。
首先,本文算法基于IPLR 對原始數(shù)據(jù)集進(jìn)行降維處理;然后,應(yīng)用Canopy 算法確定算法的聚類數(shù)目及初始聚類中心;最后,應(yīng)用基于DTW 距離的K-means 算法對降維數(shù)據(jù)集進(jìn)行聚類運(yùn)算。具體步驟如下。
步驟1:預(yù)處理。首先,對于部分采樣點(diǎn)缺失的日負(fù)荷曲線進(jìn)行插值補(bǔ)全,并基于曲線相鄰采樣點(diǎn)波動(dòng)量篩除異常波動(dòng)曲線[21];然后,對日負(fù)荷曲線集采取極值歸一化處理[22],得到含有m條曲線的歸一化數(shù)據(jù)集Y=[y1,y2,…,ym]T。
步驟2:初始化。對數(shù)據(jù)集Y進(jìn)行IPLR 降維處理,得到不等維數(shù)據(jù)集P=[p1,p2,…,pm]T,并對原始數(shù)據(jù)組進(jìn)行基于Canopy 算法的粗聚類運(yùn)算,得到聚類數(shù)目L與初始聚類中心曲線集C=[C1,C2,…,CL]T。
步驟3:相似度的衡量。首先,對不等維數(shù)據(jù)組P=[p1,p2,…,pm]T中的曲線關(guān)于每類聚類中心曲線進(jìn)行基于DTW 距離的相似度計(jì)算,之后,將每條負(fù)荷曲線分至與其最相似(即DTW 距離值最?。┑念悇e中[23]。
步驟4:對聚類中心矩陣C=[C1,C2,…,CL]T進(jìn)行更新,如式(5)所示。當(dāng)算法進(jìn)行至滿足以下任一條件時(shí),結(jié)束運(yùn)算,本次循環(huán)的聚類中心曲線即為最終聚類結(jié)果:①2 次迭代所得成本損失函數(shù)Serror滿 足|Serror(I+1)-Serror(I)| <e(I表 示 算 法 迭 代次數(shù),e為收斂閾值),成本損失函數(shù)如式(6)所示[24];②2 次迭代所得聚類中心曲線的誤差在閾值范圍內(nèi)[25]。否則,繼續(xù)進(jìn)行步驟3 與4,直至完成規(guī)定最大迭代次數(shù)或滿足以上條件之一。
式中:CL(I)為算法進(jìn)行第I次迭代后的第L類聚類中心曲線;Ddtw(Yn,CL(I))為Yn與CL(I)之間基于DTW 距離的相似度。
本文隨機(jī)選取某省區(qū)電網(wǎng)110 kV 變電站下屬1 200 個(gè)典型用戶(包含工商業(yè)及居民用戶)的不同采樣頻率(采樣頻率分別為15 min/點(diǎn)和30 min/點(diǎn))的一天的日負(fù)荷曲線數(shù)據(jù)集作為實(shí)驗(yàn)對象。為了驗(yàn)證本文所提降維方法與所采用相似度衡量手段的合理性及優(yōu)越性,本文對基于歐氏距離的CK-means算法(方法1)、基于DTW 距離的CK-means 算法[13](方法2)、基于PLR 與DTW 距離的CK-means 算法(方法3)和基于IPLR 與DTW 距離的CK-means 算法(本文方法)展開聚類分析,并對這4 種方法的聚類結(jié)果(聚類中心曲線)、聚類質(zhì)量(DBI 指標(biāo))及聚類效率(運(yùn)算時(shí)間及迭代次數(shù))進(jìn)行綜合比較。實(shí)驗(yàn)所用機(jī)器:單臺(tái)計(jì)算機(jī),配置為i5-4570s CPU@2.90 GHz,1050 Ti 4 GB,操作系統(tǒng)為Windows 7,內(nèi)存為16 GB。
對48 點(diǎn)日負(fù)荷曲線數(shù)據(jù)集展開聚類分析。在預(yù)處理步驟中,本算例認(rèn)為若曲線相鄰負(fù)荷點(diǎn)變化超過20%,即為異常波動(dòng)曲線,需排除。本算例降維算法閾值參數(shù)取值為:λ1=0.055,λ2=0.035,σ=0.025,ε=0.000 45。
4 種算法所提取的不同行業(yè)類別的聚類結(jié)果如附錄A 圖A1 至圖A4 所示,可以發(fā)現(xiàn),每一行業(yè)的聚類中心曲線相似度較高。其中降維算法(方法3和本文方法)與方法1 和方法2 的分歧點(diǎn)主要集中在第3 類負(fù)荷的劃分上。附錄A 圖A1 與圖A2 中第3 類負(fù)荷特征體現(xiàn)為白天負(fù)荷水平較高,負(fù)荷高峰期主要集中于11:30—12:30 與17:00—20:00,且晚高峰負(fù)荷遠(yuǎn)大于午間負(fù)荷;圖A3 與圖A4 的第3 類負(fù)荷特征體現(xiàn)為三峰負(fù)荷曲線,3 段峰值集中在07:30—09:00,11:30—12:30 與17:00—20:00,同樣,晚高峰負(fù)荷遠(yuǎn)大于前2 段峰值負(fù)荷,這一類負(fù)荷的負(fù)荷特征屬于市政生活用電類型。定義Ic為類內(nèi)距離指標(biāo),以衡量各算法第3 類聚類中心曲線的聚類質(zhì)量,公式如式(7)所示,結(jié)果如附錄A 圖A5所示,可知本文方法的類內(nèi)聚攏效果最佳。
式 中:m0為 屬 于 第3 類 的 負(fù) 荷 曲 線 數(shù) 目;xi為 第j條曲線第i個(gè)采樣點(diǎn)的采樣值;ci為第3 類聚類中心曲線第i個(gè)采樣時(shí)刻的對應(yīng)值。
分析另外3 類聚類中心曲線:第1 類負(fù)荷曲線白天除午間出現(xiàn)相對低谷期,整體變化較平緩,晚間負(fù)荷水平較低,反映的是采用單班制的輕工業(yè)企業(yè)的用電行為;第2 類負(fù)荷曲線全天基本保持在一個(gè)高負(fù)荷水平,反映的是以采礦、煉鋼行業(yè)為代表,一般采用三班制作業(yè)的重工業(yè)企業(yè)的用電行為;第4 類負(fù)荷曲線從08:00—22:00 變化較平緩,反映的是以服務(wù)業(yè)為代表的第三產(chǎn)業(yè)用電行為。因此,這4 種算法聚類結(jié)果均與實(shí)際相符,具有一定的實(shí)際工程參考價(jià)值。
附錄A 圖A6 所示為4 種算法的聚類指標(biāo)隨迭代次數(shù)變化的曲線;表2 所示為4 種算法對日負(fù)荷曲線數(shù)據(jù)進(jìn)行聚類分析的耗時(shí)、迭代次數(shù)及最終聚類指標(biāo)的性能對比。由附錄A 圖A6 與表2 可知,通過對原始負(fù)荷曲線集進(jìn)行降維重構(gòu),本文方法的算法性能得到顯著提升,相比于方法2,聚類指標(biāo)優(yōu)化明顯,運(yùn)算時(shí)間降低近50%;相比于方法1,雖然犧牲了一定的運(yùn)算效率,但也因此獲得了更高的聚類質(zhì)量(I1指標(biāo)下降16.51%、I2指標(biāo)下降53.02%);而相比于同樣對原始負(fù)荷曲線集進(jìn)行了降維重構(gòu)的方法3,本文方法由于采用了更為嚴(yán)格的特征點(diǎn)篩選條件,在運(yùn)算效率及聚類質(zhì)量上都得到了進(jìn)一步提升。因此,本文方法相比于其他3 種方法,具有最優(yōu)的綜合性能。
表2 不同算法的48 點(diǎn)曲線集聚類指標(biāo)Table 2 Clustering indices of 48-point curves of different algorithms
對96 點(diǎn)日負(fù)荷曲線數(shù)據(jù)集展開聚類分析。在預(yù)處理步驟中,本算例認(rèn)為若曲線相鄰負(fù)荷點(diǎn)變化超過15%,即為異常波動(dòng)曲線,需排除。本算例中,降維算法閾值參數(shù)取值為:λ1=0.05,λ2=0.03,σ=0.025,ε=0.000 45。
在該工況下,4 種算法的聚類結(jié)果與48 點(diǎn)負(fù)荷曲線數(shù)據(jù)集的聚類結(jié)果基本一致,限于篇幅,此處不再展示。聚類指標(biāo)如表3 所示。由表可知,本文方法的綜合性能相比于其他3 種方法依然為最優(yōu),但其相比于對48 點(diǎn)負(fù)荷曲線數(shù)據(jù)集進(jìn)行聚類,算法運(yùn)算效率出現(xiàn)顯著下滑,耗時(shí)增長170.89%。這是因?yàn)閷τ谝粋€(gè)維度為n的負(fù)荷曲線集,DTW 距離算法復(fù)雜度為o(n2),當(dāng)數(shù)據(jù)集的維度翻倍時(shí),運(yùn)算效率將大幅下降。
表3 不同算法的96 點(diǎn)曲線集聚類指標(biāo)Table 3 Clustering indices of 96-point curves of different algorithms
綜上可知,本文算法得到的聚類結(jié)果符合工程實(shí)際,且相比于其他方法綜合性能更優(yōu),但受限于算法運(yùn)算效率,所以更適用于48 點(diǎn)負(fù)荷曲線數(shù)據(jù)集的聚類運(yùn)算。
為檢驗(yàn)本文方法的魯棒性,對3.1 節(jié)所選曲線集加入大小為r(r=5%,10%,15%,20%,25%)的隨機(jī)擾動(dòng),以模擬實(shí)際用戶負(fù)荷曲線采樣過程中因天氣等隨機(jī)因素造成的負(fù)荷波動(dòng)。然后,本節(jié)分別采用3.1 節(jié)中的4 種方法對擾動(dòng)曲線集進(jìn)行聚類對比分析,并以聚類質(zhì)量指標(biāo)DBI 作為魯棒性考量指標(biāo)。
由表4 可知,隨著對負(fù)荷曲線所加擾動(dòng)的增加,各類方法的聚類質(zhì)量指標(biāo)基本呈下降趨勢。方法1與方法2 在小擾動(dòng)干擾下,聚類質(zhì)量指標(biāo)尚可,但當(dāng)擾動(dòng)r≥10%時(shí),聚類質(zhì)量指標(biāo)出現(xiàn)大幅下降,且方法2 的I2指標(biāo)下降速度要低于方法1。這是因?yàn)?方法1 與方法2 直接應(yīng)用原始負(fù)荷曲線數(shù)據(jù)集進(jìn)行聚類,導(dǎo)致每個(gè)采樣點(diǎn)的采樣值都會(huì)對聚類結(jié)果產(chǎn)生直接影響,從而使其無法準(zhǔn)確提取曲線的動(dòng)態(tài)特性,產(chǎn)生較大的聚類偏差,但方法2 由于采取DTW 距離作為相似度衡量手段,所以在動(dòng)態(tài)特性指標(biāo)I2上表現(xiàn)出更強(qiáng)的魯棒性。方法3 和本文方法由于對原始曲線進(jìn)行了特征點(diǎn)提取,并以DTW 距離作為相似度衡量方法,綜合考慮負(fù)荷曲線的動(dòng)態(tài)特性,因此受擾動(dòng)影響較前兩者小,故在中小擾動(dòng)工況下(r≤20%)都能表現(xiàn)出較好的魯棒性。但在大擾動(dòng)工況下,方法3 和本文方法魯棒性出現(xiàn)了較大幅度下滑,這主要是因?yàn)殚撝祬?shù)是按照一般工況進(jìn)行的設(shè)定,取的是日負(fù)荷曲線相關(guān)特性參數(shù)的平均值,當(dāng)擾動(dòng)過大時(shí),部分?jǐn)_動(dòng)點(diǎn)將被誤提取為特征點(diǎn)。但是,本文方法在中小擾動(dòng)及大擾動(dòng)工況下的魯棒性,依然略優(yōu)于方法3,這主要得益于其更嚴(yán)格的特征點(diǎn)提取方法,進(jìn)一步降低了擾動(dòng)的負(fù)面影響。
表4 不同算法的聚類指標(biāo)Table 4 Clustering indices of different algorithms
綜上可知,本文方法魯棒性較強(qiáng),在一般工況(中小擾動(dòng)工況)下依然能以較高質(zhì)量提取用戶原始負(fù)荷曲線的負(fù)荷特性;但在大擾動(dòng)的極端工況下,魯棒性會(huì)出現(xiàn)一定程度的下降??傮w而言,本文方法能夠滿足基于大數(shù)據(jù)的在線負(fù)荷建模要求。
為準(zhǔn)確提取負(fù)荷曲線的特征點(diǎn),并提升現(xiàn)有聚類算法的聚類質(zhì)量,本文提出一種基于IPLR 降維與DTW 距離相似度衡量的CK-means 算法。首先,該算法基于IPLR,根據(jù)原始數(shù)據(jù)集中負(fù)荷曲線自身負(fù)荷特性進(jìn)行自適應(yīng)分辨率降維;然后,應(yīng)用基于DTW 距離相似度衡量方法的CK-means 算法對此不等維降維數(shù)據(jù)組進(jìn)行聚類運(yùn)算分析,以準(zhǔn)確提取不同用電特性用戶的用電特征。本文算例得到如下結(jié)論。
1)IPLR 降維方法采用合理。其可在一定程度上過濾負(fù)荷曲線的擾動(dòng)采樣點(diǎn),準(zhǔn)確提取出負(fù)荷曲線的關(guān)鍵特征點(diǎn)。
2)DTW 距離相似度衡量手段采用合理。此相似度衡量方法能較準(zhǔn)確地衡量負(fù)荷曲線間的動(dòng)態(tài)特性相似度,且其可衡量不等維時(shí)間序列間相似度的特點(diǎn)與IPLR 降維方法可對數(shù)據(jù)組進(jìn)行自適應(yīng)降維的優(yōu)點(diǎn)相契合。
3)本文所提聚類方法較傳統(tǒng)方法具有更高的綜合性能,滿足基于電網(wǎng)大數(shù)據(jù)平臺(tái)的實(shí)時(shí)在線負(fù)荷建模的要求,對變電站綜合負(fù)荷構(gòu)成比例解析具有重要參考價(jià)值。
但本文方法對數(shù)據(jù)預(yù)處理要求較高,且運(yùn)算效率有進(jìn)一步提升的空間。下一步工作將在現(xiàn)有工作基礎(chǔ)上,針對大擾動(dòng)工況下魯棒性較低及DTW 距離算法計(jì)算耗時(shí)較長的問題,對本文算法做進(jìn)一步研究改進(jìn)。
本文得到湖南省電力公司重點(diǎn)計(jì)劃項(xiàng)目(5216A5180018)的資助,特此感謝!
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。