金偉超,張 旭,劉晟源,黃榮國(guó),潘柏良,林振智
(1. 浙江大學(xué)電氣工程學(xué)院,浙江省杭州市310027;2. 國(guó)網(wǎng)浙江省電力有限公司營(yíng)銷(xiāo)部,浙江省杭州市310007;3. 國(guó)網(wǎng)浙江省電力有限公司營(yíng)銷(xiāo)服務(wù)中心,浙江省杭州市311121;4. 浙江華云信息科技有限公司,浙江省杭州市310008)
隨著新一輪電力體制改革,用電量大且用電穩(wěn)定的工商業(yè)用戶(hù)將直接參與雙邊交易[1]、電力現(xiàn)貨市場(chǎng)、需求側(cè)響應(yīng)并承擔(dān)清潔能源配額[2],對(duì)發(fā)電調(diào)度計(jì)劃、電網(wǎng)運(yùn)行方式、電網(wǎng)調(diào)峰能力、新能源消納等有重要影響。基于用電信息采集系統(tǒng)中積累的海量用戶(hù)歷史用電數(shù)據(jù),挖掘并掌握各行業(yè)的生產(chǎn)特點(diǎn)和用電需求,不僅能夠提高配電公司負(fù)荷預(yù)測(cè)精度和調(diào)度管理水平[3],而且也能夠?yàn)殡妰r(jià)制定、經(jīng)濟(jì)調(diào)度、需求響應(yīng)[4]等提供支撐。因此,辨識(shí)各行業(yè)的典型負(fù)荷曲線對(duì)于配電網(wǎng)的精細(xì)化管理和售電公司的營(yíng)銷(xiāo)服務(wù)、風(fēng)險(xiǎn)管理均有重要意義。
分析某一(類(lèi))用戶(hù)一定時(shí)段內(nèi)的用電行為,可以獲得用戶(hù)的典型負(fù)荷曲線與特征。目前國(guó)內(nèi)外在電力負(fù)荷曲線分類(lèi)與辨識(shí)方面已有一定的研究。文獻(xiàn)[5]采用混合高斯分布模擬用戶(hù)的用電模式,并提出了基于對(duì)稱(chēng)化廣義Kullback-Leibler(KL)散度的分布距離量度方法,有效辨識(shí)了居民用戶(hù)的典型負(fù)荷模式。文獻(xiàn)[6]提出了一種基于時(shí)間馬爾可夫模型的電力負(fù)荷動(dòng)態(tài)行為建模方法,并采用密度峰值快速搜索聚類(lèi)(clustering by fast search and find of density peaks,CFSFDP)算法獲得典型的動(dòng)態(tài)負(fù)荷行為。文獻(xiàn)[7]提出一種基于自適應(yīng)k-means 的分布式聚類(lèi)方法,采用兩階段聚類(lèi)實(shí)現(xiàn)了海量用戶(hù)的用電態(tài)勢(shì)感知。文獻(xiàn)[8-9]提出了用電特征的互信息量、相關(guān)系數(shù)和聚類(lèi)結(jié)果的準(zhǔn)確度、有效度等評(píng)價(jià)指標(biāo),以確定負(fù)荷曲線聚類(lèi)的最優(yōu)特征集和最優(yōu)聚類(lèi)數(shù)。與居民用戶(hù)相比,工商業(yè)用戶(hù)的生產(chǎn)需求及用電特征與其行業(yè)特點(diǎn)有緊密聯(lián)系[10],因此需要分不同行業(yè)對(duì)負(fù)荷曲線分別進(jìn)行分析。文獻(xiàn)[11]采用向量誤差修正(vector error correction,VEC)理論識(shí)別不同行業(yè)之間電力需求的關(guān)聯(lián)關(guān)系,并在此基礎(chǔ)上提出了一種新型的中長(zhǎng)期負(fù)荷預(yù)測(cè)方法,避免了用電結(jié)構(gòu)突變對(duì)負(fù)荷預(yù)測(cè)帶來(lái)的不良影響。文獻(xiàn)[12]構(gòu)建了人口、氣象、經(jīng)濟(jì)等影響因素與不同行業(yè)的關(guān)聯(lián)度矩陣,并針對(duì)不同行業(yè)構(gòu)建了基于深度信念網(wǎng)絡(luò)的中長(zhǎng)期負(fù)荷預(yù)測(cè)模型。
綜上所述,現(xiàn)有研究通常采用聚類(lèi)等方法對(duì)用戶(hù)用電數(shù)據(jù)進(jìn)行挖掘分析,并辨識(shí)用戶(hù)的典型負(fù)荷曲線。然而,現(xiàn)有研究采用的歐氏距離或特征降維方法對(duì)負(fù)荷曲線之間的形態(tài)相似性量度不夠準(zhǔn)確。此外,當(dāng)前行業(yè)用電分析的研究與應(yīng)用中[10-12],均未考慮電網(wǎng)公司營(yíng)銷(xiāo)管理系統(tǒng)中存在的檔案行業(yè)信息錯(cuò)誤對(duì)分析效果的影響。鑒于此,本文提出一種基于剪枝策略和密度峰值聚類(lèi)的行業(yè)典型負(fù)荷曲線辨識(shí)方法。該方法將快速動(dòng)態(tài)時(shí)間扭曲(fast dynamic time warping,F(xiàn)DTW)距離作為電力負(fù)荷曲線相似性指標(biāo)以準(zhǔn)確量度負(fù)荷形態(tài)相似性,采用加權(quán)密度峰值聚類(lèi)算法和重心平均(barycenter averaging,BA)算法對(duì)行業(yè)負(fù)荷進(jìn)行準(zhǔn)確分類(lèi)并辨識(shí)具有共同形態(tài)特征的典型負(fù)荷曲線。
基于電力負(fù)荷曲線的形態(tài)進(jìn)行聚類(lèi)是實(shí)現(xiàn)典型負(fù)荷曲線辨識(shí)的重要手段[13]。在負(fù)荷聚類(lèi)分析中,必須選取合適的負(fù)荷形態(tài)相似性量度才能得到合理的結(jié)果。在比較時(shí)間序列時(shí),距離相似性量度方法需要能識(shí)別其多種變化才有實(shí)際意義[14]。時(shí)間序列常見(jiàn)的變化有:尺度變化,即時(shí)間序列在尺度(縮放)中存在差異;位移變化,即時(shí)間序列具有相似的形態(tài),單相位(時(shí)刻)具有一定偏差;噪聲變化,即時(shí)間序列在采集中受到不同程度噪聲干擾。
在電力負(fù)荷曲線相似性量度中,尺度變化和位移變化是常見(jiàn)的。例如,同一地區(qū)兩家相同行業(yè)的企業(yè),可能僅在工作時(shí)間存在一定的偏差。同一用戶(hù)的日負(fù)荷也容易受天氣、交通等因素影響,在短時(shí)間內(nèi)也會(huì)發(fā)生一定的位移變化。尺度變化則主要由負(fù)荷數(shù)據(jù)采集缺失或者采集頻率不同引起。當(dāng)前用電信息采集系統(tǒng)的采集精度和采集成功率均已達(dá)到較高水平,解決了電力負(fù)荷曲線存在的尺度變化問(wèn)題。位移變化由于電力用戶(hù)自身用電的隨機(jī)性和不同用戶(hù)的差異性始終存在,已成為電力負(fù)荷曲線相似性量度的主要難點(diǎn)[5]。
量度電力負(fù)荷曲線、語(yǔ)音信號(hào)等時(shí)間序列的相似性有很多種方法,常見(jiàn)量度方法有閔可夫斯基距離[3](包括歐氏距離、曼哈頓距離等)、相關(guān)系數(shù)[3]、Kullback-Leibler(KL)散度[5]等。閔可夫斯基距離和相關(guān)系數(shù)對(duì)位移變化和尺度變化較為敏感;KL散度是2 個(gè)概率分布間差異的非對(duì)稱(chēng)量度距離,對(duì)位移變化和尺度變化不敏感,但是在對(duì)稱(chēng)化中會(huì)損失部分精度。為了解決電力負(fù)荷曲線存在的位移變化、尺度變化等問(wèn)題,本文采用FDTW[15]距離量度電力負(fù)荷曲線的相似性。動(dòng)態(tài)時(shí)間扭曲(dynamic time warping,DTW)通過(guò)對(duì)時(shí)間序列進(jìn)行延伸和縮短,來(lái)計(jì)算2 個(gè)時(shí)間序列之間的相似性,已被應(yīng)用于電力系統(tǒng)的故障檢測(cè)[16]、負(fù)荷辨識(shí)[17]、誤差監(jiān)測(cè)[18]等研究。FDTW 是對(duì)DTW 的改進(jìn),通過(guò)約束搜索空間在提高計(jì)算效率的同時(shí)避免了時(shí)間軸過(guò)度扭曲引起的量度異常。下面介紹DTW 距離以及適用于負(fù)荷曲線形態(tài)相似性量度的FDTW 算法。
假設(shè)2 個(gè)電力負(fù)荷曲線A 和B,相同采集時(shí)段內(nèi)的采集點(diǎn)數(shù)分別為m 和n,即A=[a1,a2,…,am]和B=[b1,b2,…,bn]。首先構(gòu)建大小為m×n 的代價(jià)矩陣D(m,n),元素d(ai,bj)表示電力負(fù)荷曲線A 在第i 個(gè)采集點(diǎn)ai與負(fù)荷曲線B 在第j 個(gè)采集點(diǎn)bj的功率差異,一般采用歐氏距離衡量。DTW 可以歸結(jié)為尋找一條從代價(jià)矩陣D 的起點(diǎn)(1,1)到終點(diǎn)(m,n)的最佳路徑,使得路徑通過(guò)的矩陣點(diǎn)累積距離最小。定義路徑W=[w1,w2,…,wK]且滿(mǎn)足邊界性、連續(xù)性和單調(diào)性[16]約束,則最優(yōu)路徑的目標(biāo)為累積距離DDTW(A,B)最小,即
式中:d(wk)為wk中從ai到bj的距離;K 為路徑W 的長(zhǎng)度。
在尋找路徑的過(guò)程中,借助動(dòng)態(tài)規(guī)劃的思想,使用迭代的方法計(jì)算,定義一個(gè)累積距離S(i,j),并從邊界點(diǎn)(1,1)開(kāi)始匹配這2 個(gè)負(fù)荷曲線。邊界起點(diǎn)為S(1,1)=d(a1,b1),則累積距離可表示為:
FDTW 的實(shí)現(xiàn)方法主要有分段近似計(jì)算和空間約束2 種方法。其中分段近似計(jì)算通過(guò)犧牲DTW 精確度以提高計(jì)算效率,空間約束則通過(guò)限制代價(jià)矩陣中可用單元的數(shù)量以減少DTW 搜索路徑。與其他一般的時(shí)間序列相比,電力負(fù)荷數(shù)據(jù)的采集時(shí)刻是對(duì)齊的,其位移變化主要由電力用戶(hù)自身用電的隨機(jī)性和同類(lèi)型用戶(hù)的微小差異引起,變化值較小。因此,采用約束搜索空間不僅更加合理,還可以避免2 種完全不同的負(fù)荷曲線在DTW 匹配中的過(guò)度扭曲。
FDTW 常見(jiàn)的空間約束有Itakura 平行四邊形約束和Sakoe-Chiba 帶狀約束[19],與Itakura 平行四邊形約束相比,Sakoe-Chiba 帶狀約束適用于任意位置發(fā)生位移變化的時(shí)間序列匹配。本文選取的電力負(fù)荷數(shù)據(jù)采樣間隔為15 min,采集長(zhǎng)度均為1 d,即m=n=96。由于負(fù)荷的位移變化具有不確定性,無(wú)法確定位移變化發(fā)生的時(shí)段,因此本文選擇Sakoe-Chiba 帶狀約束,則DFDTW的表達(dá)式為:
式中:τ 為路徑空間約束參數(shù)。
Sakoe-Chiba 帶狀約束下FDTW 路徑空間如圖1 所示。
圖1 Sakoe-Chiba 帶狀約束下FDTW 路徑空間Fig.1 FDTW path space under Sakoe-Chiba band constraint
通過(guò)約束FDTW 路徑空間,不僅避免了負(fù)荷曲線匹配過(guò)度扭曲,還減小了路徑的搜索空間(圖1 綠色部分),使計(jì)算復(fù)雜度從O(m2)減少為O(τm),其中O(·)為復(fù)雜度函數(shù),提高了FDTW 的計(jì)算效率。
電力負(fù)荷曲線之間的形態(tài)相似性準(zhǔn)確量度是負(fù)荷曲線準(zhǔn)確分類(lèi)和辨識(shí)的前提。位移變化主要存在于形態(tài)相似的電力負(fù)荷曲線之間,而形態(tài)差異較大的負(fù)荷曲線則存在用電習(xí)慣的區(qū)別。為了更好地衡量負(fù)荷之間位移變化后的相似性并提高其計(jì)算效率,本文提出一種基于剪枝策略和FDTW 距離的負(fù)荷曲線相似性量度方法。其中剪枝策略通過(guò)選取FDTW 距離的上下界來(lái)估計(jì)FDTW 距離的范圍值,搜索相似的負(fù)荷曲線并采用FDTW 距離衡量其形態(tài)相似性以避免位移變化的影響;對(duì)差異較大的負(fù)荷曲線之間的FDTW 距離則進(jìn)行剪枝[20],即不進(jìn)行進(jìn)一步的FDTW 距離求解,從而在保證負(fù)荷聚類(lèi)距離計(jì)算精度的基礎(chǔ)上提高相似性量度距離計(jì)算效率?;诩糁Σ呗院虵DTW 距離的負(fù)荷曲線相似性量度矩陣的計(jì)算流程如下。
步驟1:對(duì)于某一行業(yè)的用戶(hù)負(fù)荷數(shù)據(jù)集X∈RM×N,M 表示分析時(shí)段采集分析的負(fù)荷樣本數(shù),N表示一個(gè)分析時(shí)段內(nèi)負(fù)荷的采樣點(diǎn)數(shù),本文取N=96,將用戶(hù)負(fù)荷曲線樣本X=[X1,X2,…,XM]作為輸入,計(jì)算其上、下界距離矩陣DUB和DLB,且上、下界 距 離 滿(mǎn) 足 DLB(Xi,Xj) 步驟2:對(duì)于負(fù)荷曲線聚類(lèi)待求取剪枝后的距離矩陣D,其距離搜索的剪枝判據(jù)如下。 判據(jù)1:DLB(Xi,Xj)>dc或DUB(Xi,Xj) 判據(jù)2:DUB(Xi,Xi(k)) 判據(jù)1 和2 分別適用于基于dc和基于距離排序的聚類(lèi)算法。當(dāng)滿(mǎn)足判據(jù)1 或2 時(shí),可以對(duì)負(fù)荷樣本Xi和Xj之間的FDTW 距離進(jìn)行剪枝,即令D(Xi,Xj)=DUB(Xi,Xj),否 則D(Xi,Xj)=DFDTW(Xi,Xj)。 采用以上FDTW 距離搜索的剪枝策略,可以基于電力負(fù)荷樣本集的上、下界距離矩陣確定負(fù)荷曲線聚類(lèi)所需的FDTW 距離集。剪枝后的FDTW 距離計(jì)算復(fù)雜度為βO(DFDTW)+O(DLB+DUB),其中β為剪枝保留的比例。因此剪枝策略提高FDTW 距離計(jì)算效率的關(guān)鍵是選取能準(zhǔn)確估計(jì)FDTW 距離范圍值且計(jì)算復(fù)雜度低的上、下界距離。目前已有多種計(jì)算FDTW 距離下界的算法,其中LB_Keogh算法是目前最準(zhǔn)確的FDTW 距離下界算法,滿(mǎn)足DLB(A,B) 由于FDTW 距離是基于歐氏距離矩陣動(dòng)態(tài)規(guī)劃所得最小路徑的距離,故滿(mǎn)足DLB(A,B) 本文采用的CFSFDP 算法是一種密度聚類(lèi)方法。該方法基于截?cái)嗑嚯xdc判斷樣本的鄰域密度,故可以采用基于剪枝策略的FDTW 距離矩陣進(jìn)行聚類(lèi),在保證聚類(lèi)準(zhǔn)確性的同時(shí)提高聚類(lèi)效率。 與居民用戶(hù)的用電習(xí)慣相比,工商業(yè)用戶(hù)的用電特征與其行業(yè)特點(diǎn)有緊密聯(lián)系,其檔案的行業(yè)信息正確率會(huì)影響該行業(yè)典型負(fù)荷曲線的辨識(shí)效果。因此,本文在電網(wǎng)公司行業(yè)分類(lèi)信息的基礎(chǔ)上,采用加權(quán)CFSFDP[22]算法對(duì)各行業(yè)的負(fù)荷曲線進(jìn)一步分類(lèi),并采用密度異常指標(biāo)識(shí)別該行業(yè)用戶(hù)中存在的檔案信息錯(cuò)誤與異常用電。 CFSFDP 是一種基于密度的聚類(lèi)算法,其核心思想是認(rèn)為聚類(lèi)簇的中心由一些局部密度比較低的點(diǎn)圍繞,并且這些點(diǎn)與其他有高局部密度的點(diǎn)距離都比較大。該算法分別計(jì)算了局部密度ρ 和密度相對(duì)距離δ 來(lái)確定聚類(lèi)中心。對(duì)于某一行業(yè)的用戶(hù)負(fù)荷數(shù)據(jù)集X=[X1,X2,…,XM],任一負(fù)荷曲線樣本Xi的局部密度ρi和密度相對(duì)距離δi的表達(dá)式分別為: 式中:χ(x)為距離截?cái)嗪瘮?shù),用于判斷其他樣本是否在Xi的鄰域內(nèi);密度相對(duì)距離δi為樣本Xi與密度更大的其他樣本間的最小距離,若樣本Xi的局部密度為最大,則密度相對(duì)距離取δi=max(D(Xi,Xj));j=1,2,…,M。 與居民用戶(hù)負(fù)荷相比,同一行業(yè)的工商業(yè)用戶(hù)由于企業(yè)規(guī)模、產(chǎn)值的差異,在日用電量上的差異很大。日用電量數(shù)十千瓦時(shí)和數(shù)十兆瓦時(shí)的工商業(yè)用戶(hù)對(duì)于該行業(yè)生產(chǎn)的代表程度不同,因此在聚類(lèi)中有必要基于用戶(hù)的用電量對(duì)其負(fù)荷曲線賦予權(quán)重。工商業(yè)用戶(hù)的負(fù)荷對(duì)其行業(yè)用電的代表程度主要體現(xiàn)在用電量上,但是直接以電量作為聚類(lèi)權(quán)重會(huì)導(dǎo)致聚類(lèi)結(jié)果完全以大型用戶(hù)為中心??紤]一個(gè)行業(yè)內(nèi)的用戶(hù)規(guī)模及用電量通常呈對(duì)數(shù)正態(tài)分布[23],其電量經(jīng)過(guò)對(duì)數(shù)變換后滿(mǎn)足正態(tài)分布,故可認(rèn)為是一種較為合理的權(quán)重賦值分布[24]。因此本文對(duì)行業(yè)內(nèi)用戶(hù)負(fù)荷樣本的日用電量進(jìn)行對(duì)數(shù)變換并歸一化,將其作為負(fù)荷曲線聚類(lèi)分析的權(quán)重。負(fù)荷曲線Xi的權(quán)重ωi表達(dá)式為: 式中:Ei為負(fù)荷曲線Xi對(duì)應(yīng)的日用電量;E=[E1,E2,…,EM]為該行業(yè)的M 條負(fù)荷曲線對(duì)應(yīng)的日用電量向量。 在獲得該行業(yè)內(nèi)各用戶(hù)負(fù)荷曲線的聚類(lèi)權(quán)重后,本文對(duì)CFSDFP 算法進(jìn)行相應(yīng)的改進(jìn)[7],改進(jìn)后的加權(quán)局部密度可表示為: 加權(quán)CFSFDP 算法根據(jù)樣本集原始空間距離分布確定加權(quán)局部密度ρW和密度相對(duì)距離δ,如圖2所示,其中樣本的大小表示對(duì)應(yīng)的權(quán)重,ζc為異常指標(biāo)閾值。 圖2 加權(quán)CFSFDP 指標(biāo)示意圖Fig.2 Schematic diagram of weighted CFSFDP index 由圖2(a)可知,在原始的樣本空間分布中,樣本10、14 處于高密度簇的中心且具有較高的加權(quán)權(quán)重,而樣本4、11 和20 則屬于離群點(diǎn)。根據(jù)樣本加權(quán)局部密度ρW和密度相對(duì)距離δ 可以快速確定聚類(lèi)中心和離群點(diǎn)并完成聚類(lèi)。圖2(b)中具有高樣本加權(quán)局部密度ρW和高密度相對(duì)距離δ 的負(fù)荷樣本意味著處于某一類(lèi)負(fù)荷曲線簇的中心且具有較大的用電量,因此可以作為負(fù)荷曲線聚類(lèi)中心;圖2(b)中具有低樣本加權(quán)局部密度ρW和高密度相對(duì)距離δ 的負(fù)荷樣本意味著用電量較少或用電特征與該行業(yè)其他用戶(hù)負(fù)荷差異均較大,可能存在行業(yè)檔案信息錯(cuò)誤、異常用電、特殊生產(chǎn)等情況,故將其視為離群點(diǎn)。為了定量確定行業(yè)中的離群點(diǎn)負(fù)荷樣本,本文采用密度異常指數(shù)[25]衡量樣本的離群程度,即 ζi越大,則認(rèn)為該用戶(hù)負(fù)荷的用電異常程度越高,存在行業(yè)信息錯(cuò)誤、異常用電等情況的可能性越大,故將該部分用戶(hù)負(fù)荷曲線作為離群點(diǎn)并排除在負(fù)荷聚類(lèi)劃分之外。其余樣本點(diǎn)則劃分到離它最近的簇中心所在的簇。 基于形態(tài)相似性距離對(duì)負(fù)荷曲線樣本集進(jìn)行聚類(lèi)劃分后,其典型負(fù)荷曲線可以用來(lái)描述該類(lèi)負(fù)荷樣本集合的整體形態(tài)特征。傳統(tǒng)k-means 方法取每一類(lèi)負(fù)荷曲線的算術(shù)平均值作為典型負(fù)荷曲線,但是該方法辨識(shí)的典型負(fù)荷曲線會(huì)因?yàn)槲灰谱兓瘬p失關(guān)鍵特征。因此,本文采用BA[26]算法辨識(shí)典型負(fù)荷曲線。BA 算法以最小化典型負(fù)荷曲線與簇內(nèi)樣本的FDTW 距離之和為目標(biāo),其表達(dá)式為: 綜上所述,基于剪枝策略和加權(quán)CFSFDP 的行業(yè)典型負(fù)荷曲線辨識(shí)流程如附錄B 圖B1 所示。 本文以浙江省某市的金屬加工機(jī)械制造行業(yè)為例,選取該行業(yè)200 個(gè)用戶(hù)于2019 年4 月9 至13 日的共計(jì)1 000 條負(fù)荷曲線作為分析樣本,以驗(yàn)證本文所提算法的有效性。 選取如圖3 所示的金屬加工機(jī)械制造行業(yè)3 個(gè)用戶(hù)的日負(fù)荷曲線作為研究對(duì)象,分析不同負(fù)荷相似度量度距離的準(zhǔn)確性。圖3 中用戶(hù)1 和用戶(hù)2 具有同類(lèi)型的日間雙峰型負(fù)荷,用戶(hù)3 則在夜間(18:00—21:00)依然有較大的用電負(fù)荷,三者的歐氏距離、DTW 距離以及Sakoe-Chiba 約束的FDTW距離如表1 所示。 圖3 金屬加工機(jī)械制造行業(yè)的3 條負(fù)荷曲線Fig.3 Three power load curves of metal processing and machinery manufacturing industry 從負(fù)荷分類(lèi)的角度來(lái)說(shuō),用戶(hù)1 和用戶(hù)2 的用電習(xí)慣更加接近,兩者僅在用電時(shí)間上相差約40 min;相比之下,用戶(hù)1、2 和用戶(hù)3 在夜間的3 h 有明顯的用電差異。歐氏距離是負(fù)荷曲線各時(shí)刻功率差異的平方和,因此會(huì)將用戶(hù)1 負(fù)荷和用戶(hù)2 負(fù)荷在位移變化上的差異進(jìn)一步放大,導(dǎo)致其歐氏距離值大于用戶(hù)1 負(fù)荷和用戶(hù)3 負(fù)荷的歐氏距離。DTW會(huì)將負(fù)荷曲線的時(shí)間軸匹配過(guò)度扭曲,造成3 個(gè)用戶(hù)負(fù)荷之間的距離值均過(guò)小。FDTW 算法則通過(guò)分析相似負(fù)荷曲線之間的位移變化,辨識(shí)出用戶(hù)1負(fù)荷和用戶(hù)2 負(fù)荷的相似性距離值為最小,且用戶(hù)2負(fù)荷和用戶(hù)3 負(fù)荷之間距離值最大,這與用電習(xí)慣差異分析結(jié)果更加一致;同時(shí)FDTW 距離通過(guò)Sakoe-Chiba 約束避免了DTW 時(shí)間軸過(guò)度扭曲的問(wèn)題。因此,相比歐氏距離和DTW 距離,本文所提的FDTW 距離能更加準(zhǔn)確地衡量3 位用戶(hù)之間的負(fù)荷曲線差異。 表1 負(fù)荷曲線之間的距離值Table 1 Distance values between load curves 考慮到FDTW 距離的計(jì)算復(fù)雜度較高,本文采用基于上、下界的FDTW 距離搜索剪枝策略,求解得到金屬加工機(jī)械制造行業(yè)1 000 個(gè)日負(fù)荷樣本兩兩之間剪枝后的距離d,結(jié)果如圖4 所示,其中粉色點(diǎn)為剪枝后保留的FDTW 距離,共計(jì)28 221 個(gè),各距離計(jì)算所需時(shí)長(zhǎng)如表2 所示。 圖4 金屬加工機(jī)械制造行業(yè)負(fù)荷樣本曲線的不同距離值Fig.4 Different distance values of power load sample curves of metal processing and machinery manufacturing industry 表2 不同方法計(jì)算全部樣本距離值所需的時(shí)間Table 2 Time required for calculating distance values of all samples by different methods 由表2 可得,歐氏距離計(jì)算效率最快,但是由表1 可知?dú)W氏距離無(wú)法量度位移變化后的負(fù)荷曲線相似性;FDTW 距離通過(guò)Sakoe-Chiba 約束限制了FDTW 路徑的搜索空間,因此計(jì)算效率高于DTW算法。本文選取的上、下界距離嚴(yán)格滿(mǎn)足DLB 從表2 可以看出:由于FDTW 上、下界距離計(jì)算復(fù)雜度遠(yuǎn)低于FDTW 距離,因此剪枝FDTW 距離集的計(jì)算時(shí)長(zhǎng)仍明顯低于未剪枝的FDTW 距離計(jì)算時(shí)長(zhǎng)。由此可得,本文所提FDTW 距離搜索的剪枝策略可以在保留負(fù)荷曲線聚類(lèi)所需FDTW 距離的前提下,避免不相似負(fù)荷的相似性距離精確量度帶來(lái)的計(jì)算成本。 金屬加工機(jī)械制造行業(yè)負(fù)荷曲線樣本集的日電量分布如附錄B 圖B2 所示,經(jīng)過(guò)對(duì)數(shù)變換后可以得到接近正態(tài)分布的負(fù)荷曲線聚類(lèi)權(quán)重?;诮饘偌庸C(jī)械制造行業(yè)負(fù)荷樣本集的權(quán)重和剪枝后的FDTW 距離集,對(duì)負(fù)荷樣本集進(jìn)行聚類(lèi)分析以辨識(shí)該行業(yè)的典型負(fù)荷曲線。首先計(jì)算負(fù)荷樣本的ρW和δ 分布,如圖5(a)所示。由圖5(a)可得,點(diǎn)1 至5同時(shí)具有較高ρW和δ,故選取為聚類(lèi)中心;設(shè)定異常指標(biāo)閾值ζc=2,則圖5(a)中紅色虛線左側(cè)的樣本被判定為離群點(diǎn),不參與進(jìn)一步的聚類(lèi);其余樣本點(diǎn)則根據(jù)最近的聚類(lèi)中心劃入同一簇。為了進(jìn)一步分析聚類(lèi)簇的分布情況及離群點(diǎn)相對(duì)位置,本文采用非經(jīng)典多維縮放(non-classical multi-dimensional scaling,NCMDS)[27]將聚類(lèi)結(jié)果分布從原始距離空間映射至二維平面,并使映射前后各樣本點(diǎn)在高維和二維特征空間中的分布位置及相對(duì)距離保持不變,其結(jié)果如圖5(b)所示。圖5(b)中,X、Y 軸為中心化的正交二維坐標(biāo)軸,樣本點(diǎn)在該坐標(biāo)系中的歐氏距離可認(rèn)為是原始負(fù)荷曲線之間的FDTW 距離,黑色點(diǎn)表示離群點(diǎn),其余顏色表示不同的簇,點(diǎn)的大小表示樣本負(fù)荷權(quán)重,簇1 至5 具體對(duì)應(yīng)的5 類(lèi)的典型負(fù)荷曲線如附錄B 圖B3 所示。 由附錄B 圖B3 可得,金屬加工機(jī)械制造行業(yè)的負(fù)荷主要可以分為5 類(lèi),其中,第1 類(lèi)為加班型日間負(fù)荷;第2 類(lèi)為典型的日間雙峰型負(fù)荷;第3 類(lèi)為平穩(wěn)型負(fù)荷;第4 類(lèi)為較為平穩(wěn)的日間雙峰型負(fù)荷;第5 類(lèi)為避峰型負(fù)荷。第1 類(lèi)和第2 類(lèi)的負(fù)荷類(lèi)型差異較小,第3 類(lèi)和第4 類(lèi)的負(fù)荷類(lèi)型差異也較小,這與圖5(b)中簇1 和簇2 樣本分布相鄰、簇3 和簇4 的樣本分布相鄰的現(xiàn)象是一致的。由圖B3 可得,BA算法在FDTW 距離的基礎(chǔ)上,所辨識(shí)的典型負(fù)荷曲線中心的爬坡斜率、峰谷差等關(guān)鍵特征均與原始負(fù)荷簇相近;而算數(shù)平均方法由于無(wú)法處理負(fù)荷簇的位移變化,導(dǎo)致所辨識(shí)的典型負(fù)荷曲線峰谷差減小、爬坡斜率平緩及其他關(guān)鍵特征損失。 圖5 金屬加工機(jī)械制造行業(yè)CFSFDP 聚類(lèi)結(jié)果Fig.5 CFSFDP results of metal processing and machinery manufacturing industry 分別采用本文算法、自適應(yīng)k-means 算法[28]和基于密度的噪聲應(yīng)用空間聚類(lèi)(density-based spatial clustering of application with noise,DBSCAN)算法[29]對(duì)金屬加工機(jī)械制造行業(yè)負(fù)荷樣本集進(jìn)行聚類(lèi)分析和對(duì)比,并采用DB 和Calinski-Harabas(CH)指標(biāo)[4]衡量不同負(fù)荷相似性量度距離和聚類(lèi)算法對(duì)負(fù)荷曲線分類(lèi)的效果。DB 指數(shù)是衡量聚類(lèi)性能常見(jiàn)指標(biāo),為分類(lèi)簇內(nèi)的平均距離和簇間的最小距離之比,其值越小越好;CH 指標(biāo)通過(guò)簇內(nèi)離差矩陣量度緊密度,簇間離差矩陣量度分離度,其值越大,表明簇內(nèi)樣本越緊密,簇間區(qū)別越大,則聚類(lèi)效果越好。DB 和CH 指標(biāo)值的表達(dá)式見(jiàn)附錄C,其中CH 指標(biāo)基于用電負(fù)荷的5 個(gè)形態(tài)特征指標(biāo),用于衡量聚類(lèi)算法對(duì)不同需求響應(yīng)潛力的負(fù)荷分類(lèi)效果[4]。不同算法的最優(yōu)聚類(lèi)數(shù)(由DB 確定的)及其聚類(lèi)結(jié)果的性能指標(biāo)和計(jì)算時(shí)長(zhǎng)如表3 所示,其中k-means 聚類(lèi)不是密度聚類(lèi),因此采用未剪枝的FDTW 距離。 表3 不同負(fù)荷曲線聚類(lèi)算法性能指標(biāo)及計(jì)算時(shí)長(zhǎng)Table 3 Indicator values and calculation time of different power load curve clustering algorithms 由表3 可得,本文所提方法聚類(lèi)結(jié)果的DB 值和CH 值分別為1.385 和2 119,優(yōu)于其他聚類(lèi)算法的指標(biāo)。基于FDTW 距離的k-means 算法的DB 和CH 指標(biāo)與本文方法接近,但是k-means 算法由于迭代不穩(wěn)定,需要多次聚類(lèi)才可以收斂獲得較優(yōu)的聚類(lèi)結(jié)果,且無(wú)法應(yīng)用剪枝策略,因此計(jì)算效率較低。DBSCAN 算法計(jì)算效率略快于CFSFDP 算法,其聚類(lèi)結(jié)果的CH 指標(biāo)較低,說(shuō)明該方法聚類(lèi)所得負(fù)荷曲線簇的簇內(nèi)形態(tài)特征相似性較低。由此可得,本文采用的加權(quán)CFSFDP 算法聚類(lèi)性能優(yōu)于其他算法,可以基于FDTW 距離對(duì)電力負(fù)荷曲線進(jìn)行快速有效分類(lèi)。基于FDTW 距離的3 種聚類(lèi)分析結(jié)果的CH 指標(biāo)值分別為2 119、2 039 和683,分別優(yōu)于采用歐氏距離和DTW 距離的相同聚類(lèi)算法結(jié)果的CH 值,說(shuō)明FDTW 可以更好地辨識(shí)不同負(fù)荷類(lèi)型形態(tài)上的差異,從而使分類(lèi)后的負(fù)荷曲線簇在日負(fù)載率、日峰谷差率、峰平谷時(shí)段負(fù)載率等特征具有更高的簇內(nèi)相似性和簇間差異性。 選取浙江省某市其他重要行業(yè)的用戶(hù)樣本并采用本文方法進(jìn)行分析。以互聯(lián)網(wǎng)接入及相關(guān)服務(wù)、棉紡織及印染精加工等行業(yè)為例,各行業(yè)負(fù)荷樣本的ρ 和δ 分布及聚類(lèi)結(jié)果分布如附錄D 圖D1 所示,其典型負(fù)荷曲線如附錄D 圖D2 至圖D6 所示。為了核實(shí)CFSFDP 算法識(shí)別的離群點(diǎn)中是否存在行業(yè)檔案錯(cuò)誤,該市供電公司于2019 年7 月對(duì)日負(fù)荷曲線多次被識(shí)別為離群點(diǎn)的工商業(yè)用戶(hù)進(jìn)行了現(xiàn)場(chǎng)排查,具體的用戶(hù)行業(yè)信息和排查統(tǒng)計(jì)結(jié)果如附錄D表D1 和表4 所示。 表4 各行業(yè)離群點(diǎn)用戶(hù)檔案信息排查結(jié)果Table 4 Investigation results of users’profile information of outliers in various industries 由表4 排查結(jié)果可以看出,互聯(lián)網(wǎng)接入及相關(guān)服務(wù)、棉紡織及印染精加工、金屬加工機(jī)械制造這3 個(gè)行業(yè)中識(shí)別出較多的檔案行業(yè)信息錯(cuò)誤樣本?;ヂ?lián)網(wǎng)接入及相關(guān)服務(wù)行業(yè)的用電負(fù)荷類(lèi)型比較單一,以平穩(wěn)型負(fù)荷為主,當(dāng)其他行業(yè)非平穩(wěn)型負(fù)荷的樣本誤標(biāo)記為互聯(lián)網(wǎng)接入及相關(guān)服務(wù)行業(yè)時(shí),采用本方法可有效識(shí)別出來(lái)。本文所提方法通過(guò)密度異常指標(biāo)識(shí)別檔案行業(yè)信息錯(cuò)誤的工商業(yè)用戶(hù),在提高行業(yè)典型負(fù)荷曲線辨識(shí)準(zhǔn)確性的同時(shí),也可以作為供電公司進(jìn)行工商業(yè)用戶(hù)行業(yè)信息校驗(yàn)的參考,從而節(jié)省營(yíng)銷(xiāo)系統(tǒng)檔案信息管理與更新所需的人力成本。 本文提出一種基于剪枝策略和密度峰值聚類(lèi)的行業(yè)典型負(fù)荷曲線辨識(shí)方法。FDTW 距離解決了常規(guī)距離量度中的負(fù)荷位移變化敏感問(wèn)題,實(shí)現(xiàn)對(duì)不同負(fù)荷曲線形態(tài)相似性的精準(zhǔn)量度;基于上、下界的FDTW 距離搜索的剪枝策略,在滿(mǎn)足負(fù)荷曲線聚類(lèi)精度的前提下,提高了聚類(lèi)的準(zhǔn)確性與效率;CFSFDP 算法和BA 算法可以實(shí)現(xiàn)對(duì)行業(yè)負(fù)荷準(zhǔn)確分類(lèi)并辨識(shí)具有共同形態(tài)特征的行業(yè)典型負(fù)荷曲線。 浙江省某市部分行業(yè)的負(fù)荷樣本分析表明,本文方法可以在準(zhǔn)確量度負(fù)荷曲線形態(tài)相似性的基礎(chǔ)上,對(duì)營(yíng)銷(xiāo)管理系統(tǒng)存在的部分行業(yè)信息錯(cuò)誤進(jìn)行識(shí)別,實(shí)現(xiàn)對(duì)行業(yè)典型負(fù)荷曲線的準(zhǔn)確辨識(shí),也能為供電公司營(yíng)銷(xiāo)部門(mén)糾正工商業(yè)用戶(hù)行業(yè)信息提供參考。本文所述方法的未來(lái)研究包括利用所得行業(yè)典型負(fù)荷曲線指導(dǎo)負(fù)荷預(yù)測(cè)、用能優(yōu)化、電價(jià)設(shè)計(jì)等應(yīng)用,并研究基于應(yīng)用場(chǎng)景需求的自適應(yīng)或可控聚類(lèi)算法,以期滿(mǎn)足工程差異化需求的同時(shí)提高算法準(zhǔn)確率。 附錄見(jiàn)本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。2 基于加權(quán)密度峰值聚類(lèi)的行業(yè)典型負(fù)荷曲線辨識(shí)
3 算例分析
3.1 負(fù)荷曲線形態(tài)相似性量度距離
3.2 行業(yè)典型負(fù)荷曲線辨識(shí)及對(duì)比
3.3 基于典型負(fù)荷辨識(shí)的檔案錯(cuò)誤排查應(yīng)用
4 結(jié)語(yǔ)