(國(guó)網(wǎng)浙江省電力有限公司,杭州 310007)
2020 年初,為有效控制新冠肺炎疫情的傳播、蔓延,從中央到各地政府紛紛出臺(tái)了嚴(yán)厲的管控措施,嚴(yán)格限制人員流動(dòng)并對(duì)企業(yè)的復(fù)工復(fù)產(chǎn)進(jìn)行重點(diǎn)監(jiān)控。春節(jié)過(guò)后,受疫情影響,人員流動(dòng)率和企業(yè)復(fù)工率仍然較低,對(duì)國(guó)民經(jīng)濟(jì)的高速發(fā)展造成較大影響[1]。為將新冠肺炎疫情影響降到最低,保持經(jīng)濟(jì)平穩(wěn)運(yùn)行和社會(huì)和諧穩(wěn)定,努力實(shí)現(xiàn)黨中央制定的各項(xiàng)目標(biāo)任務(wù),也為了輔助地方政府準(zhǔn)確全面地掌握企業(yè)復(fù)工情況,電力公司充分利用已有的電力數(shù)據(jù)資源[2-3],通過(guò)大數(shù)據(jù)分析的方法得到各地區(qū)重點(diǎn)企業(yè)的復(fù)工電力指數(shù),為各級(jí)政府制定管控決策提供依據(jù);同時(shí),支撐政府根據(jù)各地區(qū)疫情情況進(jìn)行分類指導(dǎo),有序推動(dòng)各類企業(yè)復(fù)工復(fù)產(chǎn)。
此前,已經(jīng)有相關(guān)學(xué)者基于電力大數(shù)據(jù)開展了經(jīng)濟(jì)發(fā)展預(yù)測(cè)、房地產(chǎn)景氣度等相關(guān)應(yīng)用研究。鄧雪晴[4]研究了電力消費(fèi)彈性指數(shù)的變動(dòng)特點(diǎn)及其相關(guān)影響因素,同時(shí)以電力數(shù)據(jù)為基礎(chǔ)對(duì)國(guó)內(nèi)經(jīng)濟(jì)增長(zhǎng)規(guī)律和趨勢(shì)進(jìn)行了探索。田傳波[5]等人利用神經(jīng)網(wǎng)絡(luò)技術(shù)建立城市宏觀經(jīng)濟(jì)走勢(shì)預(yù)測(cè)模型,研究城市宏觀經(jīng)濟(jì)發(fā)展中電力數(shù)據(jù)影響因素與城市宏觀經(jīng)濟(jì)發(fā)展走勢(shì)之間的關(guān)系。楊東偉[6]通過(guò)解析產(chǎn)業(yè)結(jié)構(gòu)和不同能(電)耗地區(qū)消費(fèi)差異這兩個(gè)因素對(duì)于電力消費(fèi)彈性指數(shù)變動(dòng)的影響,探索了電力消費(fèi)與經(jīng)濟(jì)增長(zhǎng)的規(guī)律和趨勢(shì)。李海[7]運(yùn)用皮爾遜相關(guān)系數(shù)分析、時(shí)間軌跡分析、分布滯后模型與阿爾蒙估計(jì)法進(jìn)行建模分析,研究了電力消費(fèi)量與國(guó)房景氣指數(shù)關(guān)系。劉玉嬌[8]等人提出一種基于X13-ARIMA 季節(jié)調(diào)整算法的電力景氣指數(shù)模型,對(duì)我國(guó)宏觀經(jīng)濟(jì)發(fā)展?fàn)顟B(tài)進(jìn)行分析。但是目前尚無(wú)基于電力數(shù)據(jù)開展復(fù)工情況分析的相關(guān)研究。
本文研究對(duì)象是一個(gè)地區(qū)內(nèi)能夠有效組織生產(chǎn)的企業(yè),小電量企業(yè)、已經(jīng)報(bào)停企業(yè)以及為抗疫提供支持的各級(jí)企事業(yè)單位不在本次研究范圍之內(nèi)。
根據(jù)文獻(xiàn)研究及相關(guān)實(shí)踐[9-10],衡量一個(gè)地區(qū)的企業(yè)復(fù)工復(fù)產(chǎn)水平,一般從兩方面進(jìn)行考量:一是該地區(qū)已復(fù)工企業(yè)占該地區(qū)所有企業(yè)總數(shù)的比例,即復(fù)工企業(yè)比例;二是該地區(qū)復(fù)工后電量恢復(fù)到春節(jié)前的狀態(tài)水平,即復(fù)工電量比例?;诖?,以復(fù)工企業(yè)比例和復(fù)工電量比例為基本點(diǎn),構(gòu)建企業(yè)復(fù)工電力指數(shù)計(jì)算公式如下:
企業(yè)復(fù)工電力指數(shù)F=(復(fù)工電量比例×0.5+復(fù)工企業(yè)比例×0.5)×100%。
其中,對(duì)于復(fù)工電量比例,需要計(jì)算該地區(qū)企業(yè)用電量相較歷史正常水平的比例,其計(jì)算公式為:
復(fù)工電量比例=統(tǒng)計(jì)范圍內(nèi)企業(yè)當(dāng)日用電量總和/統(tǒng)計(jì)范圍內(nèi)企業(yè)2019 年12 月日均用電量總和×100%。
對(duì)復(fù)工企業(yè)比例,需根據(jù)企業(yè)開始復(fù)工的時(shí)間節(jié)點(diǎn)來(lái)判斷,具體應(yīng)結(jié)合企業(yè)自身用電規(guī)律進(jìn)行分析,本文將針對(duì)此問(wèn)題進(jìn)行重點(diǎn)研究。
判斷企業(yè)春節(jié)后是否復(fù)工,需要根據(jù)企業(yè)自身用電規(guī)律進(jìn)行分析。不同企業(yè)在春節(jié)期間用電規(guī)律不一致:部分企業(yè)在春節(jié)期間繼續(xù)保持營(yíng)業(yè),春節(jié)后一般會(huì)繼續(xù)進(jìn)行相關(guān)的生產(chǎn)工作;其余企業(yè)在春節(jié)期間,由于員工返鄉(xiāng)導(dǎo)致其停產(chǎn)或停工,隨著春節(jié)假期的結(jié)束,逐步恢復(fù)生產(chǎn),用電水平也逐漸上升。這兩類企業(yè)的用電規(guī)律明顯不同,需分別進(jìn)行分析。
為了對(duì)企業(yè)復(fù)工復(fù)產(chǎn)信息進(jìn)行有效的數(shù)據(jù)分析,首先需要搜集企業(yè)相關(guān)用電數(shù)據(jù)信息,具體包括企業(yè)檔案數(shù)據(jù)和2018—2020 年春節(jié)前一個(gè)季度及春節(jié)后一個(gè)月的用電數(shù)據(jù)。
2.1.1 用戶分群方法
英國(guó)統(tǒng)計(jì)學(xué)家辛普森曾于1951 年提出辛普森悖論[11],即在某個(gè)條件下的兩組數(shù)據(jù),分別討論時(shí)都會(huì)滿足某種性質(zhì),但是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論,換句話說(shuō),變量在不同的空間中可能與目標(biāo)變量形成完全不同的相關(guān)趨勢(shì)。
辛普森悖論同樣會(huì)發(fā)生在電力領(lǐng)域:不同用戶的用電規(guī)律通常有較大的差異,而春節(jié)期間是否停工決定了用戶的用電規(guī)律,但如果用相同復(fù)工標(biāo)準(zhǔn)判斷兩類用戶,將會(huì)得到錯(cuò)誤的結(jié)論。為了避免辛普森悖論,需要將其在不同的子空間中單獨(dú)進(jìn)行分析。因此,根據(jù)春節(jié)用電規(guī)律將用戶分群,并使用Knee point 算法對(duì)春節(jié)期間停工用戶是否復(fù)工進(jìn)行判斷,同時(shí)可以較好地平衡局部差異優(yōu)化和模型運(yùn)行時(shí)間之間的關(guān)系。
根據(jù)春節(jié)用電規(guī)律進(jìn)行分群的方法屬于無(wú)監(jiān)督模型分群。常見的模型有K-means[12-13],Kmedoids[14-16],Mean Shift[13],層次聚類[14-15],DBSCAN[16],GMM(高斯混合模型)等[17-21]。其中GMM 利用多個(gè)高斯分布對(duì)數(shù)據(jù)集進(jìn)行擬合,在實(shí)踐中有更好的表現(xiàn),因此本文選用GMM 進(jìn)行用戶分群。
GMM 本身是一種概率式的聚類方法,設(shè)xi(i=1,2,…,m)為第i 個(gè)數(shù)據(jù)觀察值,假設(shè)樣本服從高斯混合分布:
2.1.2 基于GMM 的聚類分析
具體步驟如下:
(1)初始化高斯混合分布的模型參數(shù)Wl,ul,∑l。
(2)計(jì)算樣本Xj由各混合成分生成的后驗(yàn)概率,即觀測(cè)數(shù)據(jù)xj,引入一個(gè)隱變量zj∈{1,2,…,k},表示得到樣本xj的高斯分布模型。由第i個(gè)分模型生成的概率為p(zj=),記為γji=
(3)計(jì)算新的模型參數(shù):
(4)按照新的模型參數(shù)重復(fù)步驟2 和步驟3,直到滿足終止條件。
2.1.3 聚類分析結(jié)果
收集統(tǒng)計(jì)范圍內(nèi)所有有效企業(yè)的電量信息、基礎(chǔ)檔案信息,構(gòu)建春節(jié)用電比例特征K 和日電量方差N,其中:
K=春節(jié)期間平均日電量/春節(jié)前3 個(gè)月平均日電量。
N 指春節(jié)期間平均日電量方差,包括春節(jié)前3 個(gè)日電量方差。
使用GMM 算法進(jìn)行聚類,由于模型不一定剛好將用戶聚為2 類,需要根據(jù)模型收斂情況,選擇合適的聚類數(shù)m,最終聚類結(jié)果如圖1 所示。
圖1 GMM 算法聚類結(jié)果
根據(jù)聚類的收斂情況,選擇最適合的聚類數(shù)為3 類。由于各類企業(yè)的日電量方差差異不明顯,本次僅使用春節(jié)用電比例K 劃分用戶,各類企業(yè)春節(jié)用電比例K 如表1 所示。
表1 GMM 算法聚類結(jié)果
根據(jù)聚類結(jié)果以及業(yè)務(wù)目標(biāo),合并第一類和第二類群體,將企業(yè)劃分為春節(jié)停工企業(yè)和春節(jié)不停工企業(yè),具體如表2 所示。
表2 基于聚類結(jié)果劃分企業(yè)類別
根據(jù)聚類結(jié)果,用電比例大于0.26 的春節(jié)期間不停工企業(yè),在節(jié)后停工的概率較低,因此直接默認(rèn)其節(jié)后復(fù)工;對(duì)于春節(jié)停工的企業(yè),可利用相關(guān)的拐點(diǎn)算法進(jìn)行分析。
2.2.1 企業(yè)復(fù)工判斷標(biāo)準(zhǔn)及算法原理
企業(yè)用電水平會(huì)隨著經(jīng)營(yíng)情況發(fā)生變化,形成一條具有明顯波動(dòng)性的用電曲線。春節(jié)停工企業(yè)在春節(jié)期間處于較低的用電水平,到復(fù)工節(jié)點(diǎn)會(huì)出現(xiàn)電量驟增的現(xiàn)象,屆時(shí)用電曲線將會(huì)出現(xiàn)明顯的拐點(diǎn)。基于此特征,本文采用Knee point算法判斷歷史上同時(shí)期春節(jié)后其用電量出現(xiàn)拐點(diǎn)的時(shí)間,確定相對(duì)于正常生產(chǎn)時(shí)達(dá)到復(fù)工狀態(tài)的用電量,并計(jì)算其與春節(jié)前平均用電量水平的比值,以此作為企業(yè)復(fù)工的判斷標(biāo)準(zhǔn)。
Knee point 算法[22-24]的基礎(chǔ)定義如下:
對(duì)于任何連續(xù)的函數(shù)f(x),存在一個(gè)標(biāo)準(zhǔn)的閉合形式Kf(x),它將f(x)在任何點(diǎn)的曲率定義為其一階和二階導(dǎo)數(shù)的函數(shù):
給定一組(xi,yi),將曲線基于點(diǎn)(xmin,ymin)和(xmax,ymax)構(gòu)成的直線順時(shí)針旋轉(zhuǎn)θ,則最大曲率點(diǎn)的數(shù)據(jù)集近似為曲線中局部最大值的點(diǎn)集,即數(shù)據(jù)曲線變平坦時(shí),曲率變小,拐點(diǎn)也就會(huì)被檢測(cè)到。因此,模型最后返回曲率最大的點(diǎn),即達(dá)到識(shí)別曲線拐點(diǎn)的效果。
2.2.2 Knee point 算法步驟
Knee point 算法具體步驟如下:
(1)使用多項(xiàng)式插值法對(duì)源數(shù)據(jù)集進(jìn)行擬合,盡可能保持源數(shù)據(jù)集的形狀,也可用到如指數(shù)加權(quán)移動(dòng)平均等方法。用Ds表示平滑曲線上點(diǎn)(x,y)的有限集:
式中:xsi,ysi為給定的x,y 擬合后的數(shù)據(jù)。
(2)為消除異常值對(duì)平滑曲線中最大曲率的影響,對(duì)平滑曲線上的點(diǎn)進(jìn)行歸一化處理,用Dsn表示處理后的數(shù)據(jù)集,則有:
其中,
式中:xsni,ysni分別為歸一化處理后的x 和y 值;xs,ys分別為x,y 值形成的序列;min{xs},min{ys}指的是xs,ys序列中的最小值。
(3)尋找平滑曲線何時(shí)從平緩變化到急劇下降,設(shè)立差分曲線數(shù)據(jù)集,用Dd代表x 和y-x 的差分?jǐn)?shù)據(jù)集,則有:
其中,
(4)尋找標(biāo)準(zhǔn)化曲線中的拐點(diǎn),對(duì)曲線下降處,則需要計(jì)算差分曲線的局部最大值,這些局部最大值點(diǎn)最后都有可能成為源數(shù)據(jù)曲線的拐點(diǎn),將可能的局部最大值點(diǎn)數(shù)據(jù)集表示如下:
其中,
式中:xdi,ydi為差分過(guò)后的數(shù)據(jù)。
(5)對(duì)于差分曲線中計(jì)算得到的每個(gè)局部最大值xlmxi,ylmxi,用連續(xù)x 值與模型敏感度參數(shù)S之間的平均差定義唯一的閾值Tlmxi。敏感度參數(shù)S決定了拐點(diǎn)檢測(cè)的快慢及檢測(cè)出的數(shù)量,閾值計(jì)算公式如下:
式中:Tlmxi為閾值;S 指的是對(duì)于一個(gè)曲線,輸出的拐點(diǎn)數(shù),S 越大,模型越敏感,一般設(shè)為1。
(6)進(jìn)行拐點(diǎn)檢測(cè)時(shí),如果在達(dá)到差分曲線下一個(gè)局部最大值之前,任意差值(xdj,ydj)低于(xlmxi,ylmxi)(其中j>i)處的閾值y=Tlmxi,則Knee point 算法在x=xlmxi處存在拐點(diǎn)。如果在達(dá)到y(tǒng)=Tlmxi之前,差值達(dá)到局部最小值并開始增大,則將閾值重置為0,等待下一個(gè)局部最大值。
2.2.3 應(yīng)用實(shí)例
應(yīng)用上述理論方法進(jìn)行實(shí)例分析,具體結(jié)果如下:
(1)對(duì)企業(yè)用電數(shù)據(jù)進(jìn)行平滑處理,接著利用Knee point 算法識(shí)別2018 年、2019 年春節(jié)期間拐點(diǎn)日期及當(dāng)日日電量T1 和T2,結(jié)果如圖2 所示。基于Knee Point 算法分析可知,2018 年春節(jié)期間,某企業(yè)在2 月21 日電量突增,表明該企業(yè)此時(shí)開始復(fù)工,T1=1 786 kWh。同理,由圖3可知,2019 年春節(jié)期間,該企業(yè)于2 月10 日開始復(fù)工,T2=1 874 kWh。
(2)分別用T1,T2 除以2018 年及2019 年春節(jié)前30 天日均電量,得到相應(yīng)的企業(yè)復(fù)工比例K1和K2,再求均值得到該企業(yè)復(fù)工用電比例K=0.642,并以此為閾值對(duì)2020 年該企業(yè)是否復(fù)工進(jìn)行判斷。例如,2020 年2 月11 日某企業(yè)日電量為2 690 kWh,其春節(jié)前30 天的日均電量為2 798 kWh,計(jì)算得2 690/2 798=0.961>K,則判斷該企業(yè)已復(fù)工。
圖2 基于Knee Point 算法判斷企業(yè)2018 復(fù)工情況
圖3 基于Knee Point 算法判斷企業(yè)2019 復(fù)工情況
針對(duì)統(tǒng)計(jì)范圍內(nèi)的數(shù)據(jù),采用上述方法對(duì)每個(gè)企業(yè)的復(fù)工狀態(tài)進(jìn)行研判,得到浙江全省復(fù)工企業(yè)數(shù)量,最終計(jì)算得到區(qū)域內(nèi)企業(yè)復(fù)工比例。
(3)結(jié)合復(fù)工電力指數(shù)計(jì)算公式(1),計(jì)算出浙江全省企業(yè)的復(fù)工電力指數(shù)。
在全省范圍內(nèi)通過(guò)電話調(diào)研的方式,按照企業(yè)規(guī)模和行業(yè)類別隨機(jī)抽取500 家企業(yè)進(jìn)行驗(yàn)證,得知復(fù)工時(shí)間準(zhǔn)確率達(dá)96.3%,驗(yàn)證了本文所提算法的有效性及準(zhǔn)確性。
基于前文所述企業(yè)復(fù)工電力指數(shù)計(jì)算方法,評(píng)估浙江省范圍內(nèi)企業(yè)復(fù)工復(fù)產(chǎn)情況,為政府疫情防控工作提供參考。
根據(jù)前文提出的企業(yè)復(fù)工電力指數(shù)計(jì)算方法,得到浙江各地企業(yè)復(fù)工情況如圖4 所示。可以看出,指數(shù)最高的為舟山(71.33),最低的為臺(tái)州(21.89)。經(jīng)計(jì)算,2 月16 日(正月廿三)浙江省復(fù)工電力指數(shù)為36.01,相較2 月15 日(正月廿二)的32.94 上升明顯。
圖4 浙江各地2020-02-16 企業(yè)復(fù)工電力指數(shù)分布
為了研究全省企業(yè)復(fù)工趨勢(shì),連續(xù)計(jì)算每日的復(fù)工電力指數(shù),結(jié)果如圖5 所示。對(duì)比發(fā)現(xiàn),2020 年正月同時(shí)段企業(yè)復(fù)工電力指數(shù)與2019 年差距較大,2019 年正月十七至正月廿三全省復(fù)工電力指數(shù)增長(zhǎng)速度較快,2020 年此段時(shí)間仍處于疫情防控狀態(tài),指數(shù)以較穩(wěn)定的速度緩慢上升。
圖5 2019 年、2020 年浙江省企業(yè)復(fù)工電力指數(shù)趨勢(shì)對(duì)比
根據(jù)分析需要,對(duì)復(fù)工電力指數(shù)分析對(duì)象作進(jìn)一步細(xì)化,剔除國(guó)家行政機(jī)構(gòu)、醫(yī)院等公共服務(wù)及管理組織企業(yè)(7.3 萬(wàn)戶),調(diào)整后得到新的企業(yè)復(fù)工電力指數(shù)如圖6 所示。對(duì)比圖5 可知,剔除相關(guān)公服企業(yè)后,2020 年企業(yè)復(fù)工電力指數(shù)均有所下降,這說(shuō)明當(dāng)前復(fù)工的企業(yè)中,醫(yī)院等公共服務(wù)機(jī)構(gòu)較多。
圖6 2019 年、2020 年浙江省企業(yè)復(fù)工電力指數(shù)趨勢(shì)對(duì)比(剔除公服企業(yè))
圖7 給出了浙江各地市企業(yè)2019 年、2020年同期復(fù)工電力指數(shù),可以看出,2020 年正月廿三浙江各地市企業(yè)復(fù)工電力指數(shù)情況較2019 年同期均有明顯下降。通過(guò)對(duì)比分析可知,受疫情影響,目前浙江各地市企業(yè)復(fù)工指數(shù)雖然穩(wěn)步上升,但總體復(fù)工情況相比2019 年,還有較大的提升空間,后續(xù)根據(jù)疫情的防控情況,政府可以出臺(tái)相應(yīng)的鼓勵(lì)復(fù)工舉措。
圖7 浙江省各地市企業(yè)2019 年、2020 年同期復(fù)工電力指數(shù)對(duì)比
同時(shí),由于各個(gè)地區(qū)疫情防控程度不同,后續(xù)建議因城施策,各地根據(jù)實(shí)際情況制定復(fù)工舉措,例如:溫州由于受到疫情影響比較嚴(yán)重,因此復(fù)工受到較大影響,后續(xù)應(yīng)采取更加靈活的復(fù)工措施;舟山企業(yè)受疫情影響較低,復(fù)工指數(shù)較高,是因其屬于海島型城市,隔離方便。
為有效輔助政府對(duì)新冠疫情形式下企業(yè)復(fù)工復(fù)產(chǎn)情況進(jìn)行管控,供電公司充分發(fā)揮自身電力數(shù)據(jù)資源優(yōu)勢(shì),在深入開展數(shù)據(jù)挖掘的基礎(chǔ)上,提出了企業(yè)復(fù)工電力指數(shù)的具體計(jì)算方法?;谄髽I(yè)復(fù)工電力指數(shù)計(jì)算方法,對(duì)浙江省的企業(yè)復(fù)工情況進(jìn)行測(cè)算,并將其與實(shí)際情況進(jìn)行對(duì)比分析,驗(yàn)證了所提計(jì)算方法的有效性。實(shí)際應(yīng)用表明,本文提出的企業(yè)復(fù)工電力指數(shù)可以準(zhǔn)確全面反映企業(yè)的復(fù)工狀況,為后續(xù)企業(yè)復(fù)工相關(guān)政策的制定提供重要支撐。