余以勝
摘要:以用戶歷史用電量為基礎(chǔ),提出了基于隨機(jī)森林的用戶行為識(shí)別模型,井在實(shí)驗(yàn)分析中與多個(gè)分類算法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,在用戶竊電行為識(shí)別問(wèn)題上,隨機(jī)森林組合模型具有更高良好的識(shí)別效果。
關(guān)鍵詞:特征提??;用戶行為識(shí)別;隨機(jī)森林
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)07-0156-02
根據(jù)國(guó)家電網(wǎng)公司統(tǒng)計(jì),近年因竊電導(dǎo)致的損失達(dá)上千萬(wàn)元。目前,竊電行為檢測(cè)更多還是采用人工現(xiàn)場(chǎng)檢測(cè)的方法,該方法效率低、成本高,而且有人為的參與,不利于電力企業(yè)的管理。因此,如何使用科學(xué)的方法實(shí)現(xiàn)智能化的用戶檢測(cè)是供電企業(yè)的重要研究?jī)?nèi)容。
1基于隨機(jī)森林的用戶行為識(shí)別模型
(1)特征提取
本文以用戶最近一年的用電數(shù)據(jù)為基礎(chǔ),提取用戶行為特征并進(jìn)行用戶行為識(shí)別,主要從以下四個(gè)方面進(jìn)行特征提?。阂皇怯脩舾鱾€(gè)月份的用電情況,二是對(duì)用電量進(jìn)行分段統(tǒng)計(jì),三是用戶用電的趨勢(shì),四是相鄰月份用電變化情況。用戶行為特征如表1所示。
(2)隨機(jī)森林模型
隨機(jī)森林是由Breiman L于2001年提出的分類預(yù)測(cè)算法,目前在個(gè)人信貸、機(jī)器用戶識(shí)別、用戶流失預(yù)測(cè)等分類問(wèn)題上有著廣泛的應(yīng)用,與單模型相比,隨機(jī)森林具有更強(qiáng)的泛化能力,能夠克服單個(gè)模型過(guò)擬合的問(wèn)題。
隨機(jī)森林由一組決策樹組成的組合分類器(h(x,θk),k=1,2,3…K),其中θk表示獨(dú)立隨機(jī)變量,K表示決策樹的數(shù)目,在給定X的條件下,隨機(jī)森林由K棵決策樹投票決定最優(yōu)的分類類別。
本文在選擇分裂特征時(shí)采用Gini值測(cè)度方法,Gini值計(jì)算公式為:
(1)
其中,pi表示該類別i在該節(jié)點(diǎn)處的頻率,Gini值越小,表示該節(jié)點(diǎn)的類別越純,當(dāng)該節(jié)點(diǎn)只有一個(gè)類別時(shí),Gini值為0。
隨機(jī)森林一般情況下采用簡(jiǎn)單的投票方法進(jìn)行最終的決策,即選擇所有決策樹中得票數(shù)最多的類別作為最終的分類結(jié)果。
(2)
其中,H(x)表示組合分類模型,hi(x)表示單個(gè)決策樹模型,y表示目標(biāo)變量,I(·)為示性函數(shù)。
2實(shí)驗(yàn)分析結(jié)果
本文以國(guó)家電網(wǎng)公司提供的用戶用電行為數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),并與其他算法進(jìn)行對(duì)比。
本文采用多次隨機(jī)實(shí)驗(yàn)的分類準(zhǔn)確率平均值和方差兩個(gè)維度來(lái)評(píng)估模型的性能。設(shè)分類類別標(biāo)簽y∈{0,1},其中0表示正常用戶,1表示竊電用戶。用TP表示類別為1識(shí)別為1的數(shù)目,F(xiàn)P表示類別為0的用戶識(shí)別為1的數(shù)目,TN表示類別為0識(shí)別為0的數(shù)目,F(xiàn)N表示類別為1識(shí)別為0的數(shù)目。預(yù)測(cè)準(zhǔn)確率表示為:
(3)
本文采用50次隨機(jī)實(shí)驗(yàn),每次實(shí)驗(yàn)按照8:2的比例從原始數(shù)據(jù)中隨機(jī)抽取訓(xùn)練集和測(cè)試集。
每組實(shí)驗(yàn)中,RF算法與以下分類算法進(jìn)行對(duì)比:(1)樸素貝葉斯;(2)邏輯回歸(LR);采用u正則化;(3)KNN:參數(shù)K=5;(4)CART:使用Gini指標(biāo)進(jìn)行最優(yōu)分類特征選取;(5)SVM.采用高斯核函數(shù),懲罰項(xiàng)C=1;(6)GBDT:學(xué)習(xí)率為0.01,決策樹深度為3。隨機(jī)森林的模型參數(shù)設(shè)置為;決策樹數(shù)目200,隨機(jī)特征數(shù)m=7。50組實(shí)驗(yàn)的測(cè)試結(jié)果如下所示:從表中的結(jié)果可以看出,不同算法的預(yù)測(cè)效果差別較大。NB的預(yù)測(cè)效果很差,precision只有不到65%。而RF的precision達(dá)到了91.3%,這個(gè)結(jié)果與單決策樹相比,準(zhǔn)確率相差超過(guò)10%。SVM的準(zhǔn)確率也非常高,到達(dá)了86.6%,是單模型中表現(xiàn)最好的算法,但是RF的準(zhǔn)確率仍然要比SVM高,而且方差更小性能更加穩(wěn)定。另一個(gè)組合分類器GBDT的平均分類準(zhǔn)確率要比較高,達(dá)到了87.5%,但無(wú)論在準(zhǔn)確率和穩(wěn)定性上RF都要更勝一籌。總體而言,與其他幾個(gè)分類算法相比,RF在用戶竊電行為識(shí)別問(wèn)題上具有更加優(yōu)秀的識(shí)別效果。
3結(jié)論
本文以用戶歷史數(shù)據(jù)為基礎(chǔ),從四個(gè)層面提取用戶竊用電行為特征,并將隨機(jī)森林引入用戶行為識(shí)別中,建立基于組合模型的用戶行為識(shí)別模型。實(shí)驗(yàn)表明,隨機(jī)森林無(wú)論在竊電行為識(shí)別的準(zhǔn)確率還是穩(wěn)定性上與其他分類器相比有更好的性能。隨機(jī)森林分類器與單模型相比,不僅分類的準(zhǔn)確性很高,并且能夠處理噪聲數(shù)據(jù),能夠克服單模型容易出現(xiàn)的過(guò)擬合問(wèn)題。用戶用電數(shù)據(jù)量大而且噪聲較多,使隨機(jī)森林進(jìn)行建模,對(duì)實(shí)際應(yīng)用具有重要的參考價(jià)值。