湯衛(wèi)東,肖大軍,談林濤,于文娟
(國家電網(wǎng)有限公司華中分部,湖北 武漢 430077)
隨著互聯(lián)網(wǎng)和信息技術(shù)的不斷進(jìn)步,以大數(shù)據(jù)為依托的機(jī)器學(xué)習(xí)和人工智能成為熱門的發(fā)展方向,面對大量的數(shù)據(jù)和信息,對其進(jìn)行快速的分類并從中找出潛在的規(guī)律是機(jī)器學(xué)習(xí)的主要目的,目前,數(shù)據(jù)挖掘?qū)Ψ诸惣夹g(shù)的研究已經(jīng)取得了非常重要的進(jìn)步,以決策樹和深度學(xué)習(xí)為代表的數(shù)據(jù)分析模型不僅操作簡單而且效果顯著。
隨著人們的生活質(zhì)量不斷提高,對于數(shù)據(jù)處理的需求也越來越高。由于神經(jīng)網(wǎng)絡(luò)在連續(xù)處理大量數(shù)據(jù)的過程中容易產(chǎn)生過度擬合的問題,同時(shí)對于數(shù)據(jù)樣本的要求也比較高,所以在許多領(lǐng)域都有非常廣泛的應(yīng)用。但程中還存在局限性。在這樣的背景下,以決策樹為核心的多分類隨機(jī)森林算法(Random Forest Algorithm, RFA) 得到了研究學(xué)者的關(guān)注,作為一種典型的多分類器算法,隨機(jī)森林可以很好地對數(shù)據(jù)進(jìn)行集成學(xué)習(xí),同時(shí)根據(jù)數(shù)據(jù)的多樣性進(jìn)行分類處理,避免了神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的過度擬合,因此隨機(jī)森林算法擁有非常強(qiáng)大的適用性,可以在許多領(lǐng)域進(jìn)行廣泛應(yīng)用,特別是針對一些非線性高維數(shù)據(jù),隨機(jī)森林算法也可以很快地進(jìn)行處理,此外,隨機(jī)森林算法對噪聲和隨機(jī)誤差的防控非常到位,可以極大地減少因數(shù)據(jù)產(chǎn)生的誤差,從而降低了數(shù)據(jù)處理難度,節(jié)約了大量的人力物力,幫助數(shù)據(jù)得到快速、準(zhǔn)確的分析。
基于大數(shù)據(jù)時(shí)代背景,通過閱讀和查找大量的相關(guān)文獻(xiàn)和資料對電網(wǎng)系統(tǒng)的故障分析進(jìn)行評級,然后利用隨機(jī)森林算法的決策樹分類模型對電網(wǎng)系統(tǒng)的故障進(jìn)行預(yù)測分析,將隨機(jī)森林算法與其他應(yīng)用較廣泛的算法的預(yù)測準(zhǔn)確率進(jìn)行對比驗(yàn)證隨機(jī)森林算法的實(shí)用性和優(yōu)越性,然后在Weka平臺上利用當(dāng)?shù)仉娏值臄?shù)據(jù)樣本進(jìn)行仿真模擬,對電網(wǎng)故障的預(yù)測準(zhǔn)確率結(jié)果進(jìn)行分析,驗(yàn)證故障分析模型的科學(xué)性和準(zhǔn)確性。對于電網(wǎng)系統(tǒng)的故障預(yù)測具有非常重要的指導(dǎo)意義。
(1)
(2)
(3)
解方程(1)-(3)可得:
(4)
(5)
(6)
將其表示為矩陣的形式:
=
(7)
(8)
最后對電壓進(jìn)行變換:
=
(9)
此外,對稱電路故障主要是根據(jù)電源三相系統(tǒng)進(jìn)行分析,因?yàn)榘l(fā)生短路前后,電源的電壓和頻率不會(huì)發(fā)生變化,所以設(shè)短路前的電壓和電流分別為、:
=sin(+)
(10)
=sin(+-)
(11)
其中相電流的有效值為:
(12)
(13)
其中,和分別為每相電路的電阻和電感,當(dāng)電路發(fā)生短路后,a相的電流表達(dá)式可表示為:
(14)
(15)
當(dāng)電網(wǎng)系統(tǒng)發(fā)生故障時(shí),工作人員必須及時(shí)對故障進(jìn)行排查,確定故障來源和故障所在區(qū)域,利用對稱故障和非對稱故障法可以快速地實(shí)現(xiàn)對故障的定性處理,通過電壓、電流及其他參數(shù)的變化來確定故障類型,從而幫助電網(wǎng)系統(tǒng)解決故障,恢復(fù)電路正常運(yùn)行,保障居民的用電需求。
機(jī)器學(xué)習(xí)(Machine Learning)是利用計(jì)算機(jī)模擬人類大腦學(xué)習(xí)過程的一種多學(xué)科交叉理論,信息時(shí)代,對數(shù)據(jù)信息進(jìn)行篩選和處理,是當(dāng)下研究的熱點(diǎn)話題。機(jī)器學(xué)習(xí)領(lǐng)域廣泛,可以完成大量數(shù)據(jù)的快速分類和處理,實(shí)現(xiàn)數(shù)據(jù)預(yù)測和分析。
隨機(jī)森林算法是機(jī)器學(xué)習(xí)領(lǐng)域中一種普適性良好的數(shù)據(jù)挖掘方法。其運(yùn)行原理是在決策樹算法的理論之上結(jié)合 boot strap 重采樣方法,集合多個(gè)單樹型分類器,最后結(jié)果通過投票的策略進(jìn)行分類和預(yù)測。隨機(jī)森林算法具有多重優(yōu)點(diǎn),調(diào)整參數(shù)較少,抗噪聲能力強(qiáng),最重要的是在實(shí)際的應(yīng)用中分類性高,不容易發(fā)生過擬合等。但也有其缺點(diǎn),隨機(jī)森林算法的特征選擇具有隨意性,導(dǎo)致忽略特征對類別的重要性以及特征與特征之間的相關(guān)性,采用重抽樣技術(shù)通過隨機(jī)抽取樣本形成新的訓(xùn)練集,然后利用自主數(shù)據(jù)集進(jìn)行決策樹建模,并組成隨機(jī)森林,分類結(jié)果進(jìn)行投票決策。隨機(jī)森林的數(shù)學(xué)定義如下:首先設(shè)置一系列的決策()、()、…,()構(gòu)建森林,同時(shí)隨機(jī)取兩個(gè)向量、,則邊緣函數(shù)為:
(,)=((()=)-
max((()=)
(16)
=,((,)<0)
(17)
其中為正確的分類分量,為錯(cuò)誤的分類向量,表示取平均值,表示泛化誤差,邊緣函數(shù)的值越大,說明該模型的可信度越高。而隨機(jī)森林的邊緣函數(shù)為:
(,)=(()=)-
max(()=)
(18)
其中,(()=)表示判斷正確的分類概率,(()=)為判斷錯(cuò)誤的分類概率。
隨機(jī)森林算法主要運(yùn)用于數(shù)據(jù)分類和預(yù)測中,根據(jù)數(shù)據(jù)集中元素的特點(diǎn)可以分為正類和負(fù)類,和分別表示正確分類中正類和負(fù)類的樣本數(shù)量,而和分別表示錯(cuò)誤分類中正類和負(fù)類的樣本數(shù)量,則隨機(jī)森林算法的分類精確度為:
(19)
精確度越高說明其分類效果越好,此外,靈敏度和特異度的定義分別為:
=+
(20)
=+
(21)
其中靈敏度表示隨機(jī)森林對正類數(shù)據(jù)的分類精度,特異度表示對負(fù)類數(shù)據(jù)法分類精度。隨機(jī)森林的設(shè)計(jì)總原則是要保證靈敏度和特異度的平衡性,也就是兩者總體均值的最大化,評價(jià)指標(biāo)為幾何均值-:
-=
(22)
最后,負(fù)類數(shù)據(jù)對應(yīng)的三個(gè)評價(jià)指標(biāo)為查全率和查準(zhǔn)率以及負(fù)類檢驗(yàn)值:
=+
(23)
=+
(24)
(25)
其中,查全率表示正確分類中的負(fù)類樣本在全部負(fù)樣本中的比例,查準(zhǔn)率表示正確分類的負(fù)類樣本在所有預(yù)測為負(fù)類樣本中的比例,而負(fù)類檢驗(yàn)值-是隨機(jī)森林算法中一個(gè)綜合的評價(jià)指標(biāo)。隨機(jī)森林算法的示意圖如圖1所示:
圖1 隨機(jī)森林算法示意圖
實(shí)驗(yàn)對象:當(dāng)?shù)仉娏值墓╇娤到y(tǒng),以輸電網(wǎng)絡(luò)為主要分析對象,利用數(shù)據(jù)挖掘技術(shù)查找近三年的電網(wǎng)故障發(fā)生的時(shí)間和故障原因,并進(jìn)行收集整理。
實(shí)驗(yàn)數(shù)據(jù)來源:采取數(shù)據(jù)挖掘技術(shù)對當(dāng)?shù)仉娏纸甑妮旊姅?shù)據(jù)進(jìn)行收集,以2019年到2020年的數(shù)據(jù)作為訓(xùn)練樣本,以2021年1月的數(shù)據(jù)作為測試樣本數(shù)據(jù),2-3月的數(shù)據(jù)作為預(yù)測樣本。其中按照每個(gè)月的輸電故障為標(biāo)準(zhǔn),每個(gè)月的故障次數(shù)在2次及以內(nèi)為正常,評級為1;故障次數(shù)在3-6次評評級2,故障次數(shù)在7以上為故障高峰,評級為3。
實(shí)驗(yàn)環(huán)境:隨機(jī)森林算法使用randomForest4.6語言軟件來實(shí)現(xiàn),主要參數(shù)設(shè)置為:決策樹的數(shù)量為1000,隨機(jī)屬性的個(gè)數(shù)為3。在Weka數(shù)據(jù)挖掘平臺上建立電網(wǎng)故障分析模型,對比不同算法對電網(wǎng)故障的分析效果和精確度。
引入決策樹(decision tree)算法的一種(C4.5)、神經(jīng)網(wǎng)絡(luò)算法(Neural Network Algorithm, NNA)以及支持向量機(jī)(Support Vector Machines)算法和隨機(jī)森林算法(RFA)進(jìn)行對比,預(yù)測準(zhǔn)確率和統(tǒng)計(jì)值指標(biāo)如圖2所示。
由圖2可知,隨機(jī)森林算法的預(yù)測準(zhǔn)確率和統(tǒng)計(jì)值指標(biāo)要明顯高于其他三種算法,準(zhǔn)確率高達(dá)93%,而其他三種算法的準(zhǔn)確率均在90%以下,隨機(jī)森林算法的優(yōu)越性得到了驗(yàn)證。隨機(jī)森林算法決策樹的隨機(jī)性使數(shù)據(jù)多樣性得到提高,使環(huán)境和人為因素引入的誤差相對降低,避免了數(shù)據(jù)過度擬合的問題,增強(qiáng)模型的普適性。
圖2 不同算法下電網(wǎng)故障的預(yù)測準(zhǔn)確率與統(tǒng)計(jì)指標(biāo)
利用隨機(jī)森林算法的電網(wǎng)故障分析模型進(jìn)行檢測,不同故障等級的樣本數(shù)量對比如圖3所示。
圖3 不同故障等級的樣本數(shù)量(橫坐標(biāo)1-3分別表示訓(xùn)練樣本、測試樣本、預(yù)測樣本)
由圖3可知,訓(xùn)練樣本的數(shù)量要遠(yuǎn)遠(yuǎn)高于測試樣本和預(yù)測樣本的數(shù)量,同時(shí)故障等級為1的樣本數(shù)量遠(yuǎn)遠(yuǎn)超過其他兩個(gè),說明該電力局的電網(wǎng)系統(tǒng)相對比較安全,故障發(fā)生的概率較低。
根據(jù)預(yù)測樣本的故障等級和實(shí)際故障對比,電網(wǎng)故障的預(yù)測結(jié)果如圖4所示。
由圖4所示,電網(wǎng)故障分析模型在2月和3月的預(yù)測中,總的預(yù)測準(zhǔn)確率分別為95%和96.8%,其中等級為1的故障準(zhǔn)確率均在95%以上,而故障等級為2的準(zhǔn)確率為70%和89%,等級為3的預(yù)測準(zhǔn)確率為66%和100%,這是由于樣本數(shù)量較少,容易出現(xiàn)隨機(jī)誤差從而導(dǎo)致準(zhǔn)確率降低。整體而言,故障等級越高其預(yù)測難度越大,相對準(zhǔn)確率也較不穩(wěn)定,而故障等級越低,預(yù)測準(zhǔn)確率越高。
圖4 電網(wǎng)故障的預(yù)測結(jié)果
基于機(jī)器學(xué)習(xí)背景,首先對電網(wǎng)故障的原理展開分析,介紹了機(jī)器學(xué)習(xí)和隨機(jī)森林算法,根據(jù)電網(wǎng)故障的特點(diǎn)利用隨機(jī)森林算法對電網(wǎng)故障的等級進(jìn)行分析預(yù)測。并引入決策樹算法(C4.5)、NNA神經(jīng)網(wǎng)絡(luò)和SVM算法作為對照組檢驗(yàn)隨機(jī)森林算法的預(yù)測性能,并利用隨機(jī)森林算法在Weka平臺軟件上對當(dāng)?shù)仉娏纸诘碾娏收线M(jìn)行預(yù)測。結(jié)果表明,隨機(jī)森林算法的預(yù)測準(zhǔn)確率和統(tǒng)計(jì)值指標(biāo)要明顯高于其他三種算法,準(zhǔn)確率高達(dá)93%。故障等級為1的預(yù)測準(zhǔn)確率在95%以上,等級為3故障的預(yù)測準(zhǔn)確率不穩(wěn)定,最低僅為66%,相對準(zhǔn)確率也較不穩(wěn)定,故障等級越低,預(yù)測難度越低,準(zhǔn)確率越高。由于受到客觀因素的限制,本研究存在一些局限,在收集數(shù)據(jù)時(shí)未進(jìn)行預(yù)處理,可能存在虛假數(shù)據(jù)和無效數(shù)據(jù),對實(shí)驗(yàn)的準(zhǔn)確性造成影響。在后續(xù)的研究過程中需要對數(shù)據(jù)進(jìn)行預(yù)處理,提高研究結(jié)果的說服力。