毛秋云,李 璟,畢鳳娟,潘一洲,蔡 慧,郭 倩,盧子萌
(1.中國計(jì)量大學(xué) 機(jī)電工程學(xué)院,浙江 杭州 310018;2.浙江華云信息科技有限公司,浙江 杭州 310012)
隨著社會的發(fā)展,電網(wǎng)的覆蓋面越來越廣。電力企業(yè)擁有大量的用戶用電數(shù)據(jù),包括用戶的年用電量、日用電量、繳費(fèi)方式等。在這些數(shù)據(jù)之中隱藏著用戶的用電特性信息,能夠反映用戶的類型和用電習(xí)慣[1-2]。然而由于電力用戶數(shù)量龐大,這些數(shù)據(jù)往往十分繁雜多樣,難以直觀地看出用戶特性。而對這些數(shù)據(jù)進(jìn)行處理,進(jìn)而提取出有價(jià)值的信息,成為當(dāng)前的一大研究發(fā)展趨勢。通過大數(shù)據(jù)分類方法可對這些數(shù)據(jù)進(jìn)行分析分類,根據(jù)用戶的用電習(xí)慣的不同將用戶分為多個(gè)類別,得到不同的用戶用電分類模型。常用于電力系統(tǒng)數(shù)據(jù)分析的方法有邏輯回歸、支持向量機(jī)、決策樹、神經(jīng)網(wǎng)絡(luò)等[3-6]。應(yīng)用于預(yù)測分類的常用方法有神經(jīng)網(wǎng)絡(luò)、K-means聚類和模糊C均值法等,其中采用模糊C均值進(jìn)行分類容易陷入局部最優(yōu)的問題[7-9]。文獻(xiàn)[10]將邏輯回歸與支持向量機(jī)應(yīng)用于某項(xiàng)指標(biāo)敏感性評價(jià),得到了較好的分類結(jié)果。文獻(xiàn)[11]使用的支持向量機(jī)模型在電力系統(tǒng)故障分類方面表現(xiàn)出了比決策樹和k近鄰更好的分類特性。
近年來政府提出動員全黨全國全社會力量,堅(jiān)持精準(zhǔn)扶貧、精準(zhǔn)脫貧。貧困用戶的精確識別就是精準(zhǔn)扶貧的前提。傳統(tǒng)的貧困用戶識別采用實(shí)地走訪方式進(jìn)行貧困狀況調(diào)查,該方式對人力資源要求高,走訪時(shí)間長,存在信息延遲性且有走訪對象表述不真實(shí)的隱患。而使用機(jī)器學(xué)習(xí)算法結(jié)合大數(shù)據(jù)進(jìn)行分析越來越廣泛地被應(yīng)用于精準(zhǔn)扶貧研究[12-14]。通過機(jī)器學(xué)習(xí)算法基于用戶電量數(shù)據(jù)對貧困用戶進(jìn)行在線識別,相較傳統(tǒng)調(diào)查方法更加準(zhǔn)確,更具時(shí)效性。
本文的研究內(nèi)容是基于用戶電量信息分別采用支持向量機(jī)、邏輯回歸和神經(jīng)網(wǎng)絡(luò)方法對電力用戶進(jìn)行分類,對三種分類方法的分類效果進(jìn)行分析比較。該研究能夠面向貧困用戶進(jìn)行分類,找出更適用于電力用戶分類的方法。同時(shí)該研究通過分類定位出貧困用戶,為精準(zhǔn)幫扶提供基礎(chǔ),提高工作效率,具有一定的社會價(jià)值。
本文的數(shù)據(jù)來源是浙江省某地區(qū)3 591戶家庭用戶一年360 d的日用電量。即每個(gè)用戶作為一個(gè)樣本,共3 591個(gè)樣本,每個(gè)樣本包含了360個(gè)日用電量值。其中958戶樣本為貧困用戶,2 633戶樣本為非貧困用戶。貧困用戶的樣本標(biāo)簽判定依據(jù)為該戶是否持有政府開具的低保證明。分類目標(biāo)是對該地區(qū)用戶進(jìn)行貧困與非貧困用戶識別。整體貧困用戶與非貧困用戶的分布比例接近1∶2.7,樣本分布不平衡。在對數(shù)據(jù)進(jìn)行分類時(shí),需要根據(jù)特征量來進(jìn)行區(qū)分。一個(gè)合適的特征量能夠體現(xiàn)出數(shù)據(jù)本身的特點(diǎn),且能準(zhǔn)確反映出不同類型數(shù)據(jù)之間的差別。因此特征量的選取十分關(guān)鍵,當(dāng)特征量過多時(shí),會導(dǎo)致分類過程過于復(fù)雜;而特征量過少時(shí),會導(dǎo)致分類結(jié)果不夠精確。進(jìn)行貧困用戶識別時(shí)需要先對以上用戶用電信息進(jìn)行有效特征提取,再對提取的特征量進(jìn)行處理后用于用戶識別。
在貧困用戶和非貧困用戶中各隨機(jī)選取兩個(gè)用戶,繪制四個(gè)用戶的年用電量曲線如圖1。
圖1 電力用戶年用電量對比Figure 1 Annual power consumption comparison of power users
圖1(a)和圖1(b)各選取了一個(gè)貧困用戶和一個(gè)非貧困用戶進(jìn)行對比。由圖1(a)中可見,非貧困用戶的日最高用電量可達(dá)24度,日用電量主要分布于5度上下,日平均用電量為6.33度;貧困用戶年用電量的整體分布情況低于非貧困用戶,最高用電量達(dá)到8度,日用電量主要分布在0~5度之間,日平均用電量為3.29度。
同理由圖1(b)中可見,非貧困用戶的日最高用電量可達(dá)17度,日用電量主要分布于5度上下,日平均用電量為5.53度;貧困用戶年用電量的整體分布情況低于非貧困用戶,最高用電量達(dá)到10度,日用電量主要分布在0~4度之間,日平均用電量為2.61度。
由以上分析可知,一年中貧困用戶的日用電量整體低于非貧困用戶。原因是貧困用戶在自身經(jīng)濟(jì)條件限制下,用電習(xí)慣較為節(jié)省,且家用電器不多。所以貧困用戶的日用電量均值普遍低于非貧困用戶。
從用電量變化情況來看,兩類用戶在春節(jié)期間和夏季七八月份均出現(xiàn)了用電高峰。其中夏季的用電量變化情況較為明顯,原因是在氣溫變化影響下,用戶使用了空調(diào)、電風(fēng)扇和取暖器等較大功率的制冷制熱家用電器。但貧困用戶的家用電器種類往往較少,使用頻率相比非貧困用戶而言也更低。在日常用電活動中用電量的波動程度不會太大,相較非貧困用戶更加平穩(wěn),因而年用電量方差會小于非貧困用戶。另外,貧困用戶的用電量整體波動范圍也會小于非貧困用戶,相應(yīng)的年用電量極值差會較小。
從數(shù)據(jù)細(xì)節(jié)變化方面來看,對數(shù)據(jù)進(jìn)行差分處理后取方差和平均值,能夠更加明顯地體現(xiàn)出數(shù)據(jù)細(xì)節(jié)的變化。而從數(shù)據(jù)整體變化方面來看,冬季和夏季會出現(xiàn)用電高峰,波形前后會有明顯的上升下降。為了更加明顯地呈現(xiàn)出數(shù)據(jù)的整體變化趨勢,降低噪聲影響,首先對年用電量進(jìn)行濾波,選取濾波周期為15 d,該周期長度能使數(shù)據(jù)不僅能明顯地體現(xiàn)出整體變化而且不會丟失過多的細(xì)節(jié)信息,然后對濾波后的數(shù)據(jù)取方差。圖2為圖1數(shù)據(jù)進(jìn)行濾波后的結(jié)果,可見濾波后的數(shù)據(jù)降低了噪聲的影響,使得數(shù)據(jù)的整體變化趨勢更加明顯。
圖2 濾波后電力用戶年用電量對比Figure 2 Comparison of annual electricity consumption of power users after filtering
圖2(a)中貧困用戶的用電量方差為0.72,非貧困用戶的用電量方差為3.72。圖2(b)中貧困用戶的用電量方差為1.07,非貧困用戶的用電量方差為1.35。從用電量整體變化情況上來看,非貧困用戶的用電量方差普遍高于貧困用戶。
同時(shí),對一年的日用電量提取四分位數(shù)也可反映數(shù)據(jù)的變化趨勢。四分位數(shù)通過把所有數(shù)值由小到大排列并分成四等份,提取其中三個(gè)分割點(diǎn)位置的數(shù)值得到,可避免個(gè)別極大值或極小值的影響。經(jīng)過對貧困用戶的用電特性進(jìn)行分析及多次驗(yàn)證后,選取方差、極值差、差分后方差、四分位數(shù)等多項(xiàng)特征值作為本次貧困用戶識別的特征量。最后,為提升數(shù)據(jù)處理速度和分類精度,對提取出的多個(gè)特征量進(jìn)行歸一化處理。
支持向量機(jī)是一個(gè)二元分類器,其本質(zhì)是在樣本中尋找一個(gè)超平面,將樣本分隔開來。而該超平面的訓(xùn)練要求是幾何間隔最大化。幾何間隔是離超平面最近的樣本點(diǎn)距超平面的歐式距離,幾何間隔越大,分類誤差越小[15]。
當(dāng)給定一組樣本數(shù)據(jù),采用支持向量機(jī)法對數(shù)據(jù)進(jìn)行分類時(shí)。首先需要提取樣本的特征量,設(shè)樣本中某個(gè)點(diǎn)到超平面的距離為d,即
(1)
尋找超平面的要求,就是尋找?guī)缀伍g隔最大化,即
(2)
在很多情況下,樣本是線性不可分的。此時(shí)在樣本中難以找到一個(gè)合適的超平面將兩者區(qū)分,需要通過核函數(shù)將樣本映射到高維空間,使樣本在這個(gè)空間中可分。本次采用了徑向基函數(shù)(Radial basis function,RBF)核函數(shù)對貧困用戶進(jìn)行識別。
邏輯回歸是一種經(jīng)典的分類方法,常用于二分類問題[16-17]。采用邏輯回歸法對數(shù)據(jù)進(jìn)行分類的步驟如下。
1)構(gòu)建預(yù)測函數(shù)
將預(yù)測函數(shù)應(yīng)用于分類時(shí)得到的結(jié)果只能為兩個(gè)值,非此即彼。本文利用Logistic函數(shù)來構(gòu)建預(yù)測函數(shù),Logistic函數(shù)形式如下:
(3)
在對數(shù)據(jù)分類時(shí),需要建立一個(gè)邊界對其進(jìn)行劃分:
(4)
式(4)中x為多維輸入變量,θ為多維輸入變量對應(yīng)的權(quán)值。
得到預(yù)測函數(shù)為
(5)
式(5)中的hθ(x)即為數(shù)據(jù)被判斷為1的概率,那么判定為0的概率即為1-hθ(x)。
2)構(gòu)建損失函數(shù)
損失函數(shù)的大小反映了分類效果。在構(gòu)建損失函數(shù)時(shí),需要利用多個(gè)樣本所提供的特征量進(jìn)行參數(shù)學(xué)習(xí),通過不斷的迭代修改參數(shù)使得損失函數(shù)降到最小。本次選取了擬牛頓法作為邏輯回歸損失函數(shù)的優(yōu)化方式。
另外,由于此次分類的樣本分布比例并不平衡,所以選擇根據(jù)訓(xùn)練樣本量來計(jì)算類型權(quán)重。
多層感知機(jī)(Multilayer Perceptron,MLP)也叫人工神經(jīng)網(wǎng)絡(luò)[18-19]。它由大量的節(jié)點(diǎn)彼此聯(lián)接構(gòu)成。不同的連接方式、權(quán)重值和激勵函數(shù)所構(gòu)成的神經(jīng)網(wǎng)絡(luò)輸出值也有所不同。多層感知機(jī)的最底層為輸入層,中間是隱藏層,最后是輸出層。隱藏層輸出為f(w1x+b1),其中w1為權(quán)重值,b1是偏置。本次采用tanh函數(shù)作為激活函數(shù)f(*),使用了三層神經(jīng)網(wǎng)絡(luò),內(nèi)部含有一個(gè)隱藏層,優(yōu)化方式使用擬牛頓法。
本文分別采用支持向量機(jī)、邏輯回歸和神經(jīng)網(wǎng)絡(luò)三種模型,根據(jù)提取出的特征量對用戶進(jìn)行識別分類。為保證實(shí)驗(yàn)環(huán)境的統(tǒng)一,均采用python軟件進(jìn)行識別分析。
本文研究的機(jī)器學(xué)習(xí)方法都屬于有監(jiān)督學(xué)習(xí),該性質(zhì)決定了需要給定樣本對模型進(jìn)行訓(xùn)練。因此每次分類都按照2∶1的比例隨機(jī)選取用戶數(shù)據(jù)作為訓(xùn)練集和測試集,其中貧困用戶和非貧困用戶的比例與總體樣本比例相同。另外為了避免特殊情況的影響,共進(jìn)行20次分類,并記錄分類結(jié)果數(shù)據(jù)。每次分類時(shí)都先對數(shù)據(jù)進(jìn)行隨機(jī)排序,分為訓(xùn)練集和測試集兩個(gè)不重疊的部分,且每次分類時(shí)三種分類模型采用的訓(xùn)練集和測試集相同。
由于實(shí)際應(yīng)用時(shí)識別貧困用戶后需要進(jìn)行實(shí)地查證,考慮到節(jié)省過程中的人力物力消耗,本文研究的主要目標(biāo)是保證查找出的貧困用戶的識別準(zhǔn)確率,而不是盡量找出所有貧困用戶。因此本文更注重識別模型的高精準(zhǔn)率,而非整體高準(zhǔn)確率和高召回率,主要針對貧困用戶的分類精準(zhǔn)率進(jìn)行分析。這里貧困用戶的分類精準(zhǔn)率解釋為真實(shí)貧困用戶在分類得到的貧困用戶中所占比例。
分別采用三種分類模型對貧困用戶進(jìn)行訓(xùn)練及分類,訓(xùn)練集與測試集的比例為2∶1,得到針對貧困用戶的分類精準(zhǔn)率結(jié)果如表1和圖3。
表1 分類結(jié)果精準(zhǔn)率
精準(zhǔn)率:分類得到的貧困用戶中分類正確的用戶數(shù)/分類得到的貧困用戶總數(shù);
最高精準(zhǔn)率:20次分類中,精準(zhǔn)率的最高值;
最低精準(zhǔn)率:20次分類中,精準(zhǔn)率的最低值;
平均精準(zhǔn)率:20次分類的精準(zhǔn)率平均值。
圖3 分類結(jié)果精準(zhǔn)率對比曲線圖Figure 3 Comparison curve of classification precision
表1反映了三種分類精準(zhǔn)率的高低分布,圖3是經(jīng)過20次分類得到的貧困用戶分類精準(zhǔn)率結(jié)果。由表1和圖3可知支持向量機(jī)的分類精準(zhǔn)率分布在80%~100%,平均精準(zhǔn)率是88.20%,對該批樣本中的貧困用戶整體識別精準(zhǔn)度較高。神經(jīng)網(wǎng)絡(luò)的分類精準(zhǔn)率主要分布在50%~70%,波動幅度較大,平均精準(zhǔn)率為56.91%。而邏輯回歸的分類精準(zhǔn)率在該類型的分類中表現(xiàn)較差,基本分布在40%~50%。由于該類型數(shù)據(jù)的分類存在樣本分布不平衡的問題,且選擇了分類精準(zhǔn)率而不是準(zhǔn)確率作為評價(jià)指標(biāo),因此分類結(jié)果普遍精準(zhǔn)率不高。另一方面,針對一批相同數(shù)據(jù)進(jìn)行多次分類時(shí),支持向量機(jī)和邏輯回歸表現(xiàn)出了較強(qiáng)的穩(wěn)定性,每次分類得到的結(jié)果都相同,而神經(jīng)網(wǎng)絡(luò)得到的結(jié)果會產(chǎn)生變化,分類精準(zhǔn)率也會隨之產(chǎn)生變化,整體穩(wěn)定性較弱。
使用混淆矩陣對結(jié)果進(jìn)行可視化,混淆矩陣中的概念定義如下。
a) TP(真正):將電力用戶中的貧困用戶識別為貧困用戶;
b) TN(真負(fù)):將電力用戶中的非貧困用戶識別為非貧困用戶;
c) FP(假正):將電力用戶中的非貧困用戶識別為貧困用戶;
d) FN(假負(fù)):將電力用戶中的貧困識別為非貧困用戶。
根據(jù)以上概念分別取三個(gè)分類模型的最佳分類效果繪制混淆矩陣如表2。
結(jié)合表2的混淆矩陣經(jīng)過計(jì)算后可分別得到三個(gè)模型的精準(zhǔn)率和召回率,如表3。
根據(jù)混淆矩陣的分析結(jié)果可知支持向量機(jī)有最高的精準(zhǔn)率和最低的召回率,神經(jīng)網(wǎng)絡(luò)有較高的精準(zhǔn)率,但召回率同樣不高。支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)識別的貧困用戶整體較少,召回率較低。而邏輯回歸識別的貧困用戶數(shù)量較多,相應(yīng)的召回率高于前兩個(gè)分類模型。數(shù)據(jù)分類本身特性決定了精準(zhǔn)率越高,相應(yīng)的召回率就會越低。分類用戶數(shù)的增加是召回率上升的主要原因,同時(shí)也意味著更多的非貧困用戶被歸類為貧困用戶。邏輯回歸每次分類都傾向于將測試集的三分之一分為貧困用戶,原因可能是在分類模型參數(shù)設(shè)置時(shí)根據(jù)訓(xùn)練樣本量來計(jì)算類型權(quán)重參數(shù)。通過用戶的日用電量進(jìn)行分析查找貧困用戶進(jìn)而為精準(zhǔn)扶貧提供基礎(chǔ)是本文研究的主要目的,從該目標(biāo)要求來看,首先需要保證的是貧困用戶查找的精準(zhǔn)率。因此,支持向量機(jī)分類模型相較于邏輯回歸模型和神經(jīng)網(wǎng)絡(luò)模型在電力貧困用戶的識別中應(yīng)用效果更好。
表2 混淆矩陣
表3 識別模型的精準(zhǔn)率和召回率
本文基于電力用戶的日用電量信息,研究了支持向量機(jī)、邏輯回歸和神經(jīng)網(wǎng)絡(luò)三種分類模型在電力貧困用戶識別中的應(yīng)用。由以上數(shù)據(jù)和分析結(jié)果可見,使用擬牛頓法進(jìn)行迭代建立的支持向量機(jī)模型的正樣本分類精準(zhǔn)率高于另外兩種方法,且分類結(jié)果也較為平穩(wěn)。而邏輯回歸存在將更多的用戶劃為貧困用戶的現(xiàn)象,導(dǎo)致了正樣本分類精準(zhǔn)率較低。神經(jīng)網(wǎng)絡(luò)識別在本次的應(yīng)用結(jié)果精準(zhǔn)率介于以上二者之間,但穩(wěn)定性有所欠缺。三種方法均具有一定的局限性,但由于高精準(zhǔn)率是本次針對電力貧困用戶進(jìn)行識別的主要目標(biāo)。因此,相較之下,支持向量機(jī)法更加適用于電力貧困用戶識別的實(shí)際應(yīng)用。
同時(shí),本文的研究仍存在一些問題。支持向量機(jī)法應(yīng)用于電力貧困用戶識別方面時(shí)的召回率不高,后期研究需要在保證高精準(zhǔn)率的同時(shí)提升召回率。該問題也可能與數(shù)據(jù)前期處理有關(guān)系,故對于數(shù)據(jù)的前期處理可進(jìn)行更加深入的研究。針對神經(jīng)網(wǎng)絡(luò)識別模型則需要改進(jìn)它的分類穩(wěn)定性,同時(shí)可以考慮采用多種分類方法相結(jié)合的方式對分類精準(zhǔn)率進(jìn)行提升。對于邏輯回歸分類模型則可考慮對樣本權(quán)重參數(shù)進(jìn)行改進(jìn)設(shè)置,也可通過改進(jìn)懲罰函數(shù)等以提升它的分類精準(zhǔn)率。另外,對電力用戶的不平衡分類進(jìn)行進(jìn)一步探討也可成為下一步的研究方向。