魏 偉, 韓 穎, 劉怡君, 張 偉
(1.鄭州大學(xué) 管理學(xué)院 河南 鄭州 450001;2.墨爾本大學(xué) 商學(xué)院 澳大利亞 維多利亞州 墨爾本 3010; 3.鄭州大學(xué) 生態(tài)與環(huán)境學(xué)院 河南 鄭州 450001)
近年來,隨著我國電力市場化進(jìn)程加快,主動配電網(wǎng)智能化程度不斷提高,積累了海量的用電負(fù)荷數(shù)據(jù)[1]。電力負(fù)荷曲線是描述用電負(fù)荷數(shù)據(jù)隨時間變化的特性曲線[2]。利用電力負(fù)荷數(shù)據(jù)對用戶群體進(jìn)行劃分,然后對不同子群體的用電負(fù)荷曲線進(jìn)行分析有助于供電機(jī)構(gòu)掌握用戶行為習(xí)慣,為其在供需側(cè)進(jìn)行能效管理、制定合理的營銷計劃和發(fā)展戰(zhàn)略提供幫助[3-4]。
目前關(guān)于電力負(fù)荷聚類的研究主要基于用戶負(fù)荷的基本特性,主要采用基于劃分、基于層次、基于密度、基于模型和基于網(wǎng)格的聚類算法。還有一些新的方法包括基于熵的聚類算法、自適應(yīng)遞歸聚類算法、蟻群優(yōu)化算法和社區(qū)發(fā)現(xiàn)方法[5-6]。谷紫文等為提高聚類質(zhì)量,從信號角度出發(fā),提出了變分模態(tài)分解和密度峰值快速搜索算法的聚類方法[4]。段秦剛等針對原有電力負(fù)荷聚類算法加入新負(fù)荷數(shù)據(jù)時,只能重新進(jìn)行聚類而產(chǎn)生的結(jié)果不穩(wěn)定問題,提出了改進(jìn)的蟻群半監(jiān)督聚類算法[5]。蘇適等提出了一種基于密度空間聚類和引力搜索算法的用戶用電模式分類模型,分析了不同類用戶的用電模式及其參與需求側(cè)響應(yīng)的潛力[7]。林錦波基于聚類融合方法得到了雙峰型、三峰型、平穩(wěn)型以及避峰型四類用電負(fù)荷曲線,論證了聚類融合算法的效果優(yōu)于單一聚類方法[8]。然而,上述無論是基于單聚類方法或是多種聚類融合方法,都是基于單一采樣數(shù)據(jù)視角出發(fā)進(jìn)行研究,忽視了采樣數(shù)據(jù)在不同粒度視角下的內(nèi)部度量信息差異。魏偉等針對上述問題提出了基于多視角網(wǎng)絡(luò)融合的典型用電負(fù)荷模式挖掘方法,證明了使用多視角數(shù)據(jù)比單視角數(shù)據(jù)效果更好[9]。但僅挖掘出用戶靜態(tài)典型用電負(fù)荷模式,無法反映動態(tài)變化趨勢。
為此,本文從不同粒度視角下的電力負(fù)荷數(shù)據(jù)出發(fā),將用戶看成電力社區(qū)成員,基于多視角網(wǎng)絡(luò)融合矩陣,結(jié)合社區(qū)發(fā)現(xiàn)算法對用戶群體進(jìn)行劃分,然后依據(jù)不同子社區(qū)內(nèi)用戶的社區(qū)屬性識別各個子社區(qū)的典型用電負(fù)荷曲線,挖掘其動態(tài)模式,從而為電力系統(tǒng)掌握用戶行為和進(jìn)行電力負(fù)荷差異化調(diào)控提供理論支持。
圖1 研究框架Figure 1 Research framework
圖1展示了典型用電負(fù)荷曲線模式挖掘的總體研究框架,總共包含以下5個關(guān)鍵步驟。
1) 多視角數(shù)據(jù)獲取和預(yù)處理。將一個月的用戶用電負(fù)荷數(shù)據(jù)按照周一到周日進(jìn)行映射,然后分別按照每天96、24和4次采樣間隔獲取多視角數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理。
2) 相似性度量。針對三個視角數(shù)據(jù)先采用歐氏距離進(jìn)行距離度量,然后采用歸一化指數(shù)相似度核方法進(jìn)行相似性度量。
3) 多視角相似度網(wǎng)絡(luò)融合。用相似度網(wǎng)絡(luò)融合方法對三個視角下的相似度網(wǎng)絡(luò)計算整體的相似度矩陣。
4) 社區(qū)發(fā)現(xiàn)?;谌诤舷嗨贫染仃?選用合適的社區(qū)發(fā)現(xiàn)方法將用戶群體劃分到不同社區(qū)。
5) 典型用電負(fù)荷曲線識別與趨勢分析。以各個社區(qū)成員的介數(shù)中心性為權(quán)重,對各個社區(qū)成員進(jìn)行加權(quán),得到各個社區(qū)的典型用電負(fù)荷曲線,然后分別進(jìn)行趨勢分析。
實驗數(shù)據(jù)包括用戶基本信息和用戶每日用電負(fù)荷數(shù)據(jù),按照每日96次采樣頻率,在2017年1月1日至2017年1月31日期間連續(xù)采集江蘇省59家教育機(jī)構(gòu)和41家房地產(chǎn)機(jī)構(gòu)數(shù)據(jù)信息。用戶基本信息數(shù)據(jù)包括用戶名稱、供電機(jī)構(gòu)名稱、電壓等級、用戶用電目的、用戶用電總量、專變數(shù)量和專變總供電量。原始用戶用電負(fù)荷數(shù)據(jù)集合表示為Dorigin,為方便后續(xù)以周為單位進(jìn)行典型用電負(fù)荷曲線的趨勢分析,將原始的31 d數(shù)據(jù)以平均值形式映射到周一到周日7個集合中。映射后的用戶用電負(fù)荷數(shù)據(jù)集為
其中:n表示用戶總數(shù)。目前用電負(fù)荷采樣頻率為每日96次(每15分鐘1次),由于數(shù)據(jù)粒度較細(xì),導(dǎo)致單次采樣數(shù)值變化不大。為解決單一視角下數(shù)值變化幅度過小導(dǎo)致的社群劃分效果不佳的問題,本文考慮增加每日24次(每1小時1次)和每日4次(每6小時一次)兩種粒度視角進(jìn)行分析。每日96次采樣數(shù)據(jù)集D96即為Dorigin_week。每日24次采樣數(shù)據(jù)集D24和每日4次采樣數(shù)據(jù)集D4的表示方式與D96類似,僅在列的維度上存在差異。然后對三個粒度視角數(shù)據(jù)集D96、D24、D4進(jìn)行標(biāo)準(zhǔn)化處理,以消除數(shù)據(jù)間的量綱差異。
假定有n個用戶,每個用戶有m次用電負(fù)荷采樣數(shù)據(jù),基于三個粒度視角下用戶之間用電負(fù)荷的相似性構(gòu)建三個異質(zhì)圖Gm=(Vm,Em),m∈{4,24,96},其中:節(jié)點集合Vm={u1,u2,…,un}表示每個圖對應(yīng)的n個用戶;邊集合Em={S(u1,u2),…,S(un-1,un)}表示每個圖對應(yīng)的用戶用電負(fù)荷相似度。本文首先對三個粒度視角數(shù)據(jù)集D96、D24、D4分別采用歐氏距離度量用戶ux和用戶uy之間的用電負(fù)荷距離,計算公式為
(1)
然后,采用指數(shù)相似度核對用戶ux和用戶uy之間的用電負(fù)荷相似性進(jìn)行度量,計算公式為
uxk,uyk∈Dm,m∈{4,24,96},
(2)
其中:μ是一個超參數(shù),且μ∈[0.3,0.8];ε(ux,uy)用來消除比例縮放問題,其計算公式為
εm(ux,uy)=[mean(sm(ux,Nux))+
mean(sm(uy,Nuy))+sm(ux,uy)]/3,
(3)
其中:Nux表示用戶ux的K個鄰居集合;mean(sm(ux,Nux))表示用戶ux與它的K個鄰居特征向量間的歐氏距離平均值。根據(jù)公式(1)~(3)可以分別計算三個粒度視角數(shù)據(jù)集D96、D24、D4的相似度矩陣S96、S24和S4。
本文基于Wang等[10]提出的相似度網(wǎng)絡(luò)融合方法對S96、S24和S4進(jìn)行融合,基本思想為,利用存儲所有樣本相似度信息的矩陣Pm和存儲最近K個樣本相似度信息的矩陣Sm,經(jīng)過融合迭代得到最終的融合相似度矩陣。相較于傳統(tǒng)的線性加權(quán)融合方法,該方法作為一種非線性融合方法,一方面無須依賴專家經(jīng)驗去設(shè)置權(quán)重,另一方面在應(yīng)對數(shù)據(jù)噪聲和異質(zhì)性問題時具有更強(qiáng)的魯棒性,對于大規(guī)模數(shù)據(jù)具有更好的可擴(kuò)展性[11]。
首先對相似度矩陣Sm(m∈{4,24,96})進(jìn)行歸一化操作得到Pm,計算公式為
(4)
(5)
然后計算用戶與最近鄰的相似度矩陣Sm,假設(shè)用戶之間距離越近則越親密,超過一定閾值后,用戶之間的親密度為0,故用戶ux與K個鄰居之間的相似信息計算公式為
(6)
m∈{4,24,96}。
(7)
經(jīng)過t次迭代后,最終多視角相似度網(wǎng)絡(luò)為
社區(qū)發(fā)現(xiàn)旨在通過一定的方法和手段在復(fù)雜網(wǎng)絡(luò)中劃分出若干個群組。本文基于用戶用電負(fù)荷相似性,采用社區(qū)發(fā)現(xiàn)算法對用戶群體進(jìn)行劃分,進(jìn)而識別每個社區(qū)的典型用電負(fù)荷模式。Leiden算法對社區(qū)發(fā)現(xiàn)領(lǐng)域中流行的Louvain算法進(jìn)行了兩處改進(jìn)。1) 結(jié)合快速局部移動、智能局部移動和隨機(jī)鄰居移動方法使得Leiden算法的耗時比Louvain算法更短。2) 針對Louvain算法在多次迭代過程中可能產(chǎn)生任意連接不良或斷連社區(qū)的問題,Leiden算法通過提供明確的界限能夠更好地進(jìn)行分區(qū)[12]。
本文使用的社區(qū)發(fā)現(xiàn)結(jié)果的評價指標(biāo)為該領(lǐng)域通用的評價指標(biāo)模塊度,模塊度指標(biāo)旨在最大化社區(qū)中實際邊緣數(shù)與此類邊緣的預(yù)期數(shù)量之間的差異,計算公式為
(8)
其中:Eg表示社區(qū)G中的實際邊緣數(shù);Kg表示社區(qū)g中所有節(jié)點的度之和;M表示網(wǎng)絡(luò)G中所有邊緣的總數(shù);γ是一個大于0的分辨率參數(shù),該參數(shù)越大則劃分的社區(qū)個數(shù)越多。
通過上一節(jié)中的社區(qū)發(fā)現(xiàn)算法,可以將用戶劃分到L個社區(qū)中,進(jìn)而識別每個社區(qū)的典型用電負(fù)荷曲線。傳統(tǒng)方法是將一個社區(qū)內(nèi)所有成員的每次采樣電力負(fù)荷取平均值,這樣可以得到m次采樣電力負(fù)荷均值點,然后基于這些點繪制出一條典型用電負(fù)荷曲線。但該方式會造成嚴(yán)重的信息損失且容易受到極值影響,若采用加權(quán)平均的方式則需要考慮權(quán)重的設(shè)置問題。節(jié)點的介數(shù)中心性是社區(qū)的基本屬性之一,表示通過該節(jié)點的最短路徑數(shù),一定程度上可以衡量這個節(jié)點的重要程度[13]。故本文以每個社區(qū)成員節(jié)點的介數(shù)中心性作為權(quán)重,與其對應(yīng)的采樣電力負(fù)荷值進(jìn)行加權(quán)平均,最終利用加權(quán)平均的m次均值點繪制每個社區(qū)的典型用電負(fù)荷曲線,典型用電負(fù)荷曲線cE的計算公式為
(9)
假定一個社區(qū)中有g(shù)個成員,每天采樣次數(shù)m為24,E為g個用戶的用電負(fù)荷矩陣,B為一個社區(qū)內(nèi)g個成員節(jié)點的介數(shù)中心性集合,表示為B=[b1,b2,…,bg]T。每個成員歸一化介數(shù)中心性的計算公式為
(10)
其中:σuouq(ui)表示通過節(jié)點ui的節(jié)點uo?uq的最短路徑數(shù);uo和uq為社區(qū)g個節(jié)點中的兩個節(jié)點;σuouq表示uo?uq的最短路徑數(shù)。
識別出各個子社區(qū)的典型用電負(fù)荷曲線后,可以基于各個子社區(qū)中節(jié)點的介數(shù)中心性進(jìn)一步分析。具體做法為篩選每個子社區(qū)介數(shù)中心性最高的前兩個節(jié)點,對一周時間內(nèi)篩選出的節(jié)點頻率進(jìn)行排序,選擇頻率最高的前3個點作為每個子社區(qū)的代表點。
本節(jié)首先對社區(qū)發(fā)現(xiàn)的結(jié)果進(jìn)行評價,針對社區(qū)發(fā)現(xiàn)結(jié)果的演化過程進(jìn)行初步分析。然后結(jié)合領(lǐng)域知識對典型用電負(fù)荷曲線趨勢變化規(guī)律進(jìn)行分析。
分別對教育機(jī)構(gòu)和房地產(chǎn)機(jī)構(gòu)用戶電力負(fù)荷數(shù)據(jù)進(jìn)行社區(qū)發(fā)現(xiàn),在多視角相似度網(wǎng)絡(luò)融合步驟中,選用的超參數(shù)μ為0.5,鄰居個數(shù)K為10,迭代次數(shù)為10。本文采用的社區(qū)發(fā)現(xiàn)算法為Leiden算法,對比基線算法為Louvain算法、Walktrap算法、快速貪婪算法、邊介中心性算法和特征中心性算法。表1展示了6種社區(qū)發(fā)現(xiàn)算法劃分的子社區(qū)個數(shù)及模塊度大小。
由表1可知,對于學(xué)校和房地產(chǎn)用電負(fù)荷數(shù)據(jù),使用Leiden算法進(jìn)行社區(qū)發(fā)現(xiàn)的效果最好(表中黑體數(shù)據(jù)),其模塊度大小均優(yōu)于其他社區(qū)發(fā)現(xiàn)算法,且周一到周日每天劃分的子社區(qū)個數(shù)均為3。對比教育機(jī)構(gòu)和房地產(chǎn)機(jī)構(gòu)社區(qū)發(fā)現(xiàn)結(jié)果的模塊度,發(fā)現(xiàn)房地產(chǎn)機(jī)構(gòu)的模塊度數(shù)值均小于教育機(jī)構(gòu),原因可能是房地產(chǎn)機(jī)構(gòu)用電負(fù)荷數(shù)據(jù)極差波動較大,導(dǎo)致社區(qū)發(fā)現(xiàn)任務(wù)難度提升。圖2展示了59家教育機(jī)構(gòu)(圖2(a)~(g))和41家房地產(chǎn)機(jī)構(gòu)(圖2(h)~(n))在周一至周日的社區(qū)發(fā)現(xiàn)結(jié)果的演化過程。節(jié)點大小表示介數(shù)中心性數(shù)值,節(jié)點越大表示該節(jié)點的介數(shù)中心性越大;邊的粗細(xì)表示節(jié)點之間彼此的相似度大小,邊越粗表示節(jié)點之間的相似度越高;顏色的深淺表示各個節(jié)點的子社區(qū)歸屬。由圖2可知,教育機(jī)構(gòu)用戶劃分的三個子社區(qū)在持續(xù)一周的演化過程中保持了相同的社區(qū)結(jié)構(gòu),具備穩(wěn)定性。整體上子社區(qū)3成員數(shù)量最多,子社區(qū)2成員數(shù)量其次,子社區(qū)1成員數(shù)量最少。房地產(chǎn)機(jī)構(gòu)劃分的3個子社區(qū)呈現(xiàn)出兩種模式,且除周日外子社區(qū)的界限都十分明晰。整體上子社區(qū)1成員數(shù)量最多,子社區(qū)2成員數(shù)量其次,子社區(qū)3成員數(shù)量最少。
表1 社區(qū)發(fā)現(xiàn)子社區(qū)個數(shù)及模塊度Table 1 The number of sub-communities and modules by the community detection
圖2 教育機(jī)構(gòu)與房地產(chǎn)機(jī)構(gòu)社區(qū)發(fā)現(xiàn)結(jié)果演化過程Figure 2 The evolutionary process of the educational and real estate organization institution by community detection
圖3展示了59家教育機(jī)構(gòu)與41家房地產(chǎn)機(jī)構(gòu)典型用電負(fù)荷趨勢曲線。結(jié)合用戶基本信息數(shù)據(jù)進(jìn)行分析。
1) 教育機(jī)構(gòu)典型用電負(fù)荷趨勢曲線分析。教育機(jī)構(gòu)各個子社區(qū)的代表點分別為:子社區(qū)1為南京大學(xué)、南京旅游學(xué)院和河海大學(xué);子社區(qū)2為江蘇健康職業(yè)學(xué)院、南京鐵道職業(yè)技術(shù)學(xué)院和江蘇警官學(xué)院;子社區(qū)3為南京工業(yè)大學(xué)、南京財經(jīng)大學(xué)和南京曉莊學(xué)院。在教育機(jī)構(gòu)社區(qū)發(fā)現(xiàn)結(jié)果演化過程的分析中可知教育機(jī)構(gòu)的社區(qū)發(fā)現(xiàn)結(jié)果具備穩(wěn)定性,圖3的結(jié)果驗證了這一觀點。除此之外,在一周時間里,子社區(qū)1的用電負(fù)荷量和峰值波動最大,其次是子社區(qū)3,最后是子社區(qū)2;子社區(qū)1的用電負(fù)荷量遠(yuǎn)高于其他兩個子社區(qū)。出現(xiàn)上述結(jié)果的原因可能是子社區(qū)1的成員所屬的學(xué)校層次水平和辦學(xué)規(guī)模較高,子社區(qū)3其次,子社區(qū)2最低,因而上述教育機(jī)構(gòu)兩種屬性的差異導(dǎo)致了典型用電負(fù)荷曲線趨勢的差異性。
圖3 教育機(jī)構(gòu)與房地產(chǎn)機(jī)構(gòu)典型用電負(fù)荷趨勢曲線Figure 3 Typical power load trend curves of educational institution and real estate organization
2) 房地產(chǎn)機(jī)構(gòu)典型用電負(fù)荷趨勢曲線分析。房地產(chǎn)機(jī)構(gòu)各個子社區(qū)的代表點分別為:子社區(qū)1為南京天悅置業(yè)投資顧問有限公司、南京萬尚城有限公司和南京高科股份有限公司;子社區(qū)2為南京紅太陽房地產(chǎn)開發(fā)有限公司、銀城地產(chǎn)集團(tuán)股份有限公司、南京華歐舜都置業(yè)有限公司;子社區(qū)3為南京新宇房產(chǎn)開發(fā)有限公司、南京凱潤房地產(chǎn)有限公司、江蘇徐礦置業(yè)有限公司。在房地產(chǎn)機(jī)構(gòu)社區(qū)發(fā)現(xiàn)結(jié)果演化過程中有兩種模式:周一、周二、周三、周五和周六;周四和周日。這與房地產(chǎn)機(jī)構(gòu)典型用電負(fù)荷趨勢曲線的兩種模式(周二;除周二之外)并沒有完全對應(yīng),表明社區(qū)發(fā)現(xiàn)結(jié)果的演化過程與典型用電負(fù)荷曲線趨勢變化之間可能不存在顯著的相關(guān)關(guān)系。在圖3中展示的房地產(chǎn)機(jī)構(gòu)典型用電負(fù)荷趨勢曲線中:在整體上子社區(qū)3的用電負(fù)荷量與峰值波動最高,存在午高峰和晚高峰用電負(fù)荷負(fù)載較高的情況;子社區(qū)2在一周時間里的典型用電負(fù)荷趨勢大致呈現(xiàn)出工作日(周一至周五)和雙休日(周六及周日)兩種模式,除周二外的工作日用電負(fù)荷量呈現(xiàn)單峰分布情況,且整體數(shù)值較高,而雙休日的用電負(fù)荷量呈現(xiàn)雙峰分布情況,且整體數(shù)值比工作日更低;子社區(qū)1在一周時間里的用電負(fù)荷趨勢變化不大,相對穩(wěn)定。3個子社區(qū)的用電負(fù)荷相關(guān)屬性包括用戶容量、專變數(shù)量和專變?nèi)萘亢嫌?。子社區(qū)1~3的用戶容量均值分別為12 506.7、21 466.7和28 800 kVA;專變數(shù)量均值分別為4.7、6.7和11.3個;專變?nèi)萘亢嫌嬀捣謩e為6 253.3、10 733.3和17 000.6 kVA。三個子社區(qū)在用戶容量、專變數(shù)量和專變?nèi)萘亢嫌嬋齻€屬性均值上,均為子社區(qū)3>子社區(qū)2>子社區(qū)1。與房地產(chǎn)機(jī)構(gòu)典型用電負(fù)荷趨勢曲線的整體趨勢保持一致,因此可以考慮利用以上三個用電負(fù)荷屬性作為各個子社區(qū)典型用電負(fù)荷曲線的判別因素。
本文針對當(dāng)前研究中忽視了多視角電力負(fù)荷采樣數(shù)據(jù)的問題,提出了一種基于多視角數(shù)據(jù)與社區(qū)發(fā)現(xiàn)的典型用電負(fù)荷模式挖掘方法。并利用江蘇省59家教育機(jī)構(gòu)和41家房地產(chǎn)機(jī)構(gòu)的用電負(fù)荷真實數(shù)據(jù)進(jìn)行實驗,結(jié)果表明本文提出的方法能夠識別出各個子社區(qū)的典型用電負(fù)荷曲線,并且能夠結(jié)合用戶自身的屬性信息對典型用電負(fù)荷曲線的趨勢進(jìn)行進(jìn)一步的解釋與分析。對于教育機(jī)構(gòu),各個子社區(qū)的典型用電負(fù)荷曲線趨勢具備穩(wěn)定性,可能與教育機(jī)構(gòu)用電行為較為穩(wěn)定且單一有關(guān)。對于供電機(jī)構(gòu)而言,可以根據(jù)教育機(jī)構(gòu)所屬學(xué)校的層次水平及辦學(xué)規(guī)模進(jìn)行差異化供電。對于房地產(chǎn)機(jī)構(gòu),可以通過用戶容量、專變數(shù)量和專變?nèi)萘?個屬性來大致判斷其典型用電負(fù)荷曲線的數(shù)值大小。3個子社區(qū)呈現(xiàn)出不同的峰值分布模式,供電機(jī)構(gòu)可以根據(jù)對應(yīng)的模式進(jìn)行錯峰供電,用削峰填谷等措施進(jìn)行供電,為用戶提供個性化的供電服務(wù)。