王新剛,趙舫,朱文君
(國網(wǎng)上海市電力公司電力科學(xué)研究院,上海 200437)
智能化電力網(wǎng)絡(luò)集發(fā)輸配用于一體,與國民經(jīng)濟運行息息相關(guān)。隨著用戶對供電質(zhì)量的要求越來越高,智能電網(wǎng)在用戶側(cè)的革新已迫在眉睫。
當前智能電網(wǎng)正在引進更多的新成分和新技術(shù),并逐漸發(fā)展為一個越來越復(fù)雜的綜合性系統(tǒng),對電網(wǎng)調(diào)度管理機制提出了全新要求。在電網(wǎng)企業(yè)制定重要決策時,深入了解用戶的用電行為習(xí)慣至關(guān)重要[1-3]。對一定區(qū)域內(nèi)的用電行為進行分析,可以有效提升電網(wǎng)運營商在電力供需兩端的管理優(yōu)化能力,并維持日益復(fù)雜的智能電網(wǎng)系統(tǒng)的安全穩(wěn)定運行[4]。隨著具備“多表合一”能力的新型用能采集系統(tǒng)推廣,電網(wǎng)企業(yè)在記錄用電信息的同時可以便捷地獲取用戶的用水、用氣等其他用能數(shù)據(jù)。居民用戶的各類用能數(shù)據(jù)呈現(xiàn)高度的相關(guān)性,這些用電數(shù)據(jù)之外的能耗信息有助于更精準全面地刻畫用戶的用能特性[5-6]。
用能特性分析不僅有助于電網(wǎng)企業(yè)的優(yōu)化運營,同時也為自來水與天然氣等供應(yīng)商的運營調(diào)度提供了重要參考,便于運營商之間的協(xié)同調(diào)度。針對“多表合一”背景下的新型用能特性分析問題,本文以電力與燃氣消費數(shù)據(jù)為例,通過層次聚類與自組織映射(self organized maps,SOM)聚類算法分別刻畫與挖掘了高耗能地區(qū),完成了基于綜合能源計量數(shù)據(jù)的區(qū)域用能特性分析。
聚類是一類典型的無監(jiān)督機器學(xué)習(xí)方法[7-11]。在電力研究領(lǐng)域中,聚類技術(shù)已經(jīng)被較多地應(yīng)用在用戶負載特征分布描述問題中,而這一問題對于電力服務(wù)和管理有重要意義。在實際研究中,具體的聚類方式選擇取決于可用數(shù)據(jù)本身的特征以及對生成聚類的要求。常用的聚類算法如下。
(1)K-均值聚類根據(jù)樣本點之間的幾何距離迭代地將相近的樣本點劃分為同一類別,是一種距離聚類算法。其目標函數(shù)J為
式中:xn為第n個樣本;mk為第k個聚類中心;N為樣本總數(shù);K為聚類中心總數(shù);rnk為指示變量,若樣本xn被劃分到mk所代表的類別,則rnk為1,否則為0。
(2)模糊C-均值聚類可以視為“軟”分類版本的K-均值聚類。在模糊C-均值聚類中,一個樣本點可以被同時劃分到多個聚類簇中,此時指示變量由隸屬度代替,該值表示樣本xn屬于mk所代表類別的概率。
(3)層次聚類可不斷地將數(shù)據(jù)集中最相近的兩個樣本合并為一個樣本,直到所有樣本都被合并。層次聚類最終會將所有樣本組織為一棵聚類樹,每個樣本占據(jù)聚類樹的一個葉子結(jié)點[12]。
(4)SOM聚類是一種神經(jīng)網(wǎng)絡(luò)型的聚類算法,來源于自組織學(xué)習(xí)思想。自組織映射通過神經(jīng)網(wǎng)絡(luò)的權(quán)值變化來表現(xiàn)樣本的歸類過程,可以用于無法指定合適初始聚類中心的情形[13-16]。
在這些常見的聚類算法中,K-均值聚類與模糊C-均值聚類都需要預(yù)先設(shè)置類別數(shù)量,因此并不適合用能數(shù)據(jù)等模式較為復(fù)雜的情況。根據(jù)上述分析,本文基于層次聚類與SOM聚類進行用能特性分析,從而進一步體現(xiàn)原始數(shù)據(jù)的特征。
本文采集某地區(qū)19個城市的16種類型建筑在每小時內(nèi)的用能信息,包括商業(yè)建筑與住宅建筑。每個城市都關(guān)聯(lián)多個數(shù)據(jù)文件,本文主要使用用電與燃氣消耗數(shù)據(jù),以便進一步探索不同用能數(shù)據(jù)的分析方法。
在聚類過程中,使用距離d刻畫兩個城市x與y之間用電數(shù)據(jù)的距離,即
式中:xi、yi分別為第i小時城市x、y的負載水平。
本文從城際與城內(nèi)兩個方面對用戶的用能數(shù)據(jù)進行層次聚類分析。其中城際分析關(guān)注用能特性在空間上的分布,城內(nèi)分析則關(guān)注城市居民用能的時間分布特征。
數(shù)據(jù)集中19個城市用電數(shù)據(jù)層次聚類結(jié)果如圖1所示。在圖1中,縱軸表示所有二元聚類中兩個樣本的相對相異度。相對相異度的具體算法可以參考文獻[17-18],其數(shù)值越小表示相似程度越高,也就是可以越早被聚類為一組。從圖1可以看出,19個城市在用電行為特征上大致可以分為紅色與藍色群集,城市內(nèi)部相似性較高,城市之間差異較大,相異度接近80%。與此同時,藍色群集所有城市之間的相似程度都較高且十分接近,在用電管理政策制定時,可作為一個超大型城市處理。紅色群集僅有2號與10號城市相似性較高,其用電特征模型更為多樣化。
圖1 用電數(shù)據(jù)城際層次聚類Fig. 1 Inter-city hierarchical clustering for power consumption
為進一步說明在引入燃氣消耗數(shù)據(jù)后,各城市的層次聚類結(jié)果,在計算聚類空間中各城市所對應(yīng)點的距離時,使用拼接用電量構(gòu)成的向量與用氣量構(gòu)成的向量的方式得到用能數(shù)據(jù)城際層次聚類如圖2所示。本文以相異度30%為閾值,19個城市依然可以分為紅色與藍色兩個群集,且具體分組情況與圖1相似。因此,在結(jié)合燃氣數(shù)據(jù)后,城市之間的相似程度受到了影響,但用能行為特征分布依然保持穩(wěn)定。
圖2 用能數(shù)據(jù)城際層次聚類Fig. 2 Inter-city hierarchical clustering for energy consumption
與城際分析不同,城內(nèi)分析注重城市用能行為在時間上的分布情況。具體地,將城市中每小時的用能信息作為樣本進行聚類,故城內(nèi)分析結(jié)果可以有效地指導(dǎo)電力企業(yè)在用能峰谷期的運營調(diào)度。以城市1為例,對某天的用電數(shù)據(jù)進行層次聚類可以得到城市1的用電數(shù)據(jù)城內(nèi)層次聚類結(jié)果如圖3所示。從圖3可以看出,全天用電量能被清晰地劃分為2個階段。
圖3 城市1的用電數(shù)據(jù)城內(nèi)層次聚類Fig. 3 Intra-city hierarchical clustering for power consumption of City 1
基于文獻[19-21]的方法,可以求出城市1每天聚類結(jié)果的共性分類相關(guān)系數(shù)(cophenetic correlation coefficient,CPCC)矩陣,該系數(shù)體現(xiàn)了層次聚類結(jié)果對樣本相異程度的表現(xiàn)能力,其值越接近1說明聚類模型表現(xiàn)力越強。本文通過Matlab軟件包中的cophenetic函數(shù)直接計算CPCC的值,通過分析發(fā)現(xiàn)用電特性在每小時時段上的分布與具體日期關(guān)系較小,這也說明聚類分析可以更好地挖掘峰谷模式,而不會受具體負載水平的影響。城內(nèi)時間分布聚類方法也可以用在其他種類的用能特性分析問題上。
城市1天然氣消耗量的層次聚類結(jié)果如圖4所示。結(jié)合圖3和圖4可以看出,用氣數(shù)據(jù)與用電數(shù)據(jù)在時間上的分布表現(xiàn)出一定的相關(guān)性,且存在部分差異。
圖4 城市1的用氣數(shù)據(jù)城內(nèi)層次聚類Fig. 4 Intra-city hierarchical clustering for gas consumption of City 1
本文使用SOM聚類對用能數(shù)據(jù)進行深入分析。SOM聚類是基于大量神經(jīng)元自組織的競爭-合作過程[22-26]。若輸入特征空間為D維,輸入單元i與神經(jīng)元的連接權(quán)重為wi,則判別函數(shù)f為各神經(jīng)元的輸入值構(gòu)成的向量與各神經(jīng)元的連接權(quán)重構(gòu)成的向量的平方歐氏距離,即
在競爭過程中,使權(quán)值向量最接近輸入特征向量的神經(jīng)元作為勝利者,從而使連續(xù)的輸入空間映射到一個神經(jīng)元上。合作過程能夠反映輸入信息在網(wǎng)絡(luò)中的擴散程度[27-31]。當某個神經(jīng)元在競爭過程中獲勝后,選擇一部分相鄰的其他神經(jīng)元,按指數(shù)衰減規(guī)律將輸入特征進行映射,并重新開始競爭過程。反復(fù)執(zhí)行這兩個步驟直至勝利的神經(jīng)元不再變化,從而該神經(jīng)元就代表了輸入特征所歸屬的聚類。
本文以城市為單位,將19個城市一年數(shù)據(jù)作為輸入進行比較,將全年數(shù)據(jù)作為輸入。網(wǎng)絡(luò)規(guī)模為6×4個神經(jīng)元,每小時對應(yīng)一個神經(jīng)元。
網(wǎng)絡(luò)神經(jīng)元中各城市的權(quán)值如圖5所示。從圖5可以看出,19個城市被清晰地分為高耗能組與低耗能組,分別對應(yīng)層次聚類中的紅色群集與藍色群集。綜上所述,相比簡單的層次聚類,SOM方法的優(yōu)勢在于不僅能有效地發(fā)現(xiàn)群集,還可以深入揭示不同群集的數(shù)值特征。
圖5 網(wǎng)絡(luò)神經(jīng)元中各城市的權(quán)值Fig. 5 Weights per neuron of cities in SOM network
本文研究了聚類方法與“多表合一”計量數(shù)據(jù)在區(qū)域用戶用能時空分布特性分析問題中的應(yīng)用。以真實的城市用電與燃氣數(shù)據(jù)進行實驗,基于層次聚類與自組織映射網(wǎng)絡(luò)方法刻畫用能特征分布,所提方法有助于電力運營商制定調(diào)度和規(guī)劃方案。與此同時,本文方法可以發(fā)現(xiàn)用能特性相似的用戶群體,能夠基于聚類方法定量分析群集的數(shù)值特征,對于綜合能源計量數(shù)據(jù)分析與用能政策制定有一定參考意義。