賀寧
摘 要:電力行業(yè)貿(mào)易結(jié)算用智能電表功能多,故障類(lèi)型多樣。隨著運(yùn)行時(shí)間的延長(zhǎng),故障發(fā)生的概率增加。本文是針對(duì)智能電表故障類(lèi)型、發(fā)生概率等數(shù)據(jù)的分析和總結(jié),探究智能電表數(shù)據(jù)倉(cāng)庫(kù)模型建立,對(duì)進(jìn)一步做好智能表質(zhì)量評(píng)估和運(yùn)行電能表故障預(yù)測(cè)提出解決方法。
關(guān)鍵詞:智能電表;故障;數(shù)據(jù);分析
中圖分類(lèi)號(hào): TM93 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1673-1069(2016)19-142-4
1 故障數(shù)據(jù)整理及數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建
1.1 故障數(shù)據(jù)整理
通過(guò)已有的SG186系統(tǒng)、MDS系統(tǒng)、拆回表分揀系統(tǒng),對(duì)智能電表故障數(shù)據(jù)進(jìn)行匯總。通過(guò)整理發(fā)現(xiàn),智能電表故障數(shù)據(jù)維度高,信息條目數(shù)多。在眾多維度中選擇和電表故障問(wèn)題關(guān)系比較緊密的影響因子信息,并且將它們整合在一起。對(duì)數(shù)據(jù)本身的一些問(wèn)題進(jìn)行清理,對(duì)缺失值、不合理數(shù)據(jù)以及不符合書(shū)寫(xiě)規(guī)范的數(shù)據(jù)。
通過(guò)對(duì)各維度離散化標(biāo)稱(chēng)數(shù)據(jù)的數(shù)目,并將他們進(jìn)行編號(hào),最后以編號(hào)的形式存入數(shù)據(jù)倉(cāng)庫(kù)中。對(duì)于日期型的數(shù)據(jù),統(tǒng)一成天、月、年三種緯度來(lái)進(jìn)行儲(chǔ)存。電表的使用壽命長(zhǎng)度以天為單位計(jì)算,電表的讀數(shù)統(tǒng)一為小數(shù)點(diǎn)后兩位。
1.2 建立數(shù)據(jù)倉(cāng)庫(kù)
通過(guò)對(duì)已有故障數(shù)據(jù)的匯總分類(lèi),初步建立數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)包含7個(gè)維度表、2個(gè)事件表。維度表分別為通訊接口表(CommunicationInterface)、芯片廠商表(ChipManufactory)、電流型號(hào)表(ElectricCurrent)、電表廠商表(ElectricMeterManufactory)、時(shí)間表(Time)、電表故障表(MeterFault)、地區(qū)表(DArea)。事件表是電表信息表(Meter)和壞表信息表(BadMeter)。
故障數(shù)據(jù)倉(cāng)庫(kù)各表字段包括條形碼編號(hào)、表故障編號(hào)、安裝時(shí)間、拆除時(shí)間、地區(qū)編號(hào)、電池使用時(shí)間、電池電壓、開(kāi)蓋次數(shù)、電表讀數(shù)、芯片型號(hào)編號(hào)、芯片型號(hào)、通訊接口編號(hào)、通訊接口型號(hào)、地區(qū)名稱(chēng)、建檔日期、故障類(lèi)型、故障編號(hào)。
各表中的數(shù)據(jù),根據(jù)對(duì)于舊表數(shù)據(jù)的統(tǒng)計(jì),共有7個(gè)芯片型號(hào)、8種通訊接口、5種電流型號(hào)、30個(gè)電表廠家和28種電表故障。按照天津區(qū)域分布,將天津分為10個(gè)區(qū)域,把時(shí)間分為日、月、年三個(gè)維度,在決策時(shí)可以按照不同時(shí)間緯度來(lái)進(jìn)行統(tǒng)計(jì)工作。
2 故障分布與相關(guān)性分析
2.1 各個(gè)廠商電表的故障分布分析
針對(duì)各電表生產(chǎn)廠商的故障電表,進(jìn)行以下三項(xiàng)分析:
各電表生產(chǎn)廠商內(nèi)部的故障分布比例;各電表廠商的易發(fā)生故障列表(采用基于t檢驗(yàn)的評(píng)分機(jī)制);各電表廠商的特有故障列表(廠商的特有故障為相對(duì)于其他電表生產(chǎn)廠商,該廠商更易出現(xiàn)的故障,采用tf/idf法分析)。
從分析結(jié)果發(fā)現(xiàn),多數(shù)廠商和地區(qū)的故障分布均具有一定特殊性,可以通過(guò)深入分析找到某廠商或地區(qū)區(qū)別于其他地區(qū)的特有故障類(lèi)型。
2.2 故障之間的相關(guān)性分析
對(duì)各故障之間的相關(guān)程度進(jìn)行分析(采用經(jīng)過(guò)t檢驗(yàn)的斯皮爾曼等級(jí)相關(guān)系數(shù),保留相關(guān)度>0.9的高度相關(guān)故障,共20對(duì))。
從分析結(jié)果中我們可以看到,部分故障類(lèi)型之間存在極高的相關(guān)性。
3 故障/參數(shù)間因果關(guān)系檢驗(yàn)
3.1 Granger因果檢驗(yàn)原理及方法
Granger因果檢驗(yàn)通過(guò)比較“已知上一時(shí)刻所有信息,這一時(shí)刻X的概率分布情況”和“已知上一時(shí)刻除Y以外的所有信息,這一時(shí)刻X的概率分布情況”來(lái)進(jìn)行假設(shè)檢驗(yàn),進(jìn)而判斷Y對(duì)X是否存在因果關(guān)系。
在本任務(wù)中,我們首先對(duì)芯片型號(hào)、電流型號(hào)、通訊接口型號(hào)、地區(qū)、生產(chǎn)廠家、電表使用時(shí)間、電表讀數(shù)、電表故障組成的矩陣進(jìn)行單位根檢驗(yàn),以判斷序列是否是平穩(wěn)的。如果平穩(wěn)則進(jìn)一步兩列兩列之間進(jìn)行Granger因果檢驗(yàn)。
3.2 Granger因果檢驗(yàn)結(jié)果
在進(jìn)行單位根檢驗(yàn)后,ADF-Fisher Chi-square的P值為0,小于0.05,因此序列是平穩(wěn)的。在進(jìn)行Granger因果檢驗(yàn)后得到如下實(shí)驗(yàn)結(jié)果。
①對(duì)于電表故障來(lái)說(shuō),芯片型號(hào)、使用地區(qū)、電表生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表讀數(shù)、使用時(shí)間都是影響的原因。
②對(duì)于電表壽命來(lái)說(shuō),芯片型號(hào)、使用地區(qū)、電表生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表讀數(shù)都是影響的原因。
③同時(shí)我們發(fā)現(xiàn)使用地區(qū)的不同,對(duì)于電表完整的生存周期中的讀數(shù)有因果關(guān)系。我們由此可以猜測(cè)不同地區(qū)的用電習(xí)慣可能會(huì)有不同。
4 故障預(yù)測(cè)
在因果分析中,我們驗(yàn)證了和電表故障與壽命相關(guān)的影響因素,現(xiàn)在我們用這些影響因素來(lái)訓(xùn)練基礎(chǔ)的分類(lèi)器。在原始數(shù)據(jù)中,我們總共統(tǒng)計(jì)出了28種故障。故障類(lèi)型過(guò)于細(xì)化且各種故障發(fā)生的數(shù)量相差極大,對(duì)于我們分類(lèi)器的分類(lèi)精度造成了非常大的影響。因此我們參照《智能電能表故障原因分類(lèi)表.xls》,將28種故障分為3大類(lèi)。我們的分類(lèi)工作主要是針對(duì)這3大類(lèi)進(jìn)行分類(lèi)。
第一類(lèi),也可以稱(chēng)作管理問(wèn)題,主要包括外觀有污跡和無(wú)載波模塊兩類(lèi)。
第二類(lèi)是等待報(bào)廢的問(wèn)題,主要包括表殼損壞、按鍵失靈、銘牌損壞、鉛封損壞、接線端子損壞等。
剩下的問(wèn)題都包含在第三種中,主要包括ERR-01到ERR-08、RS485通訊故障、繼電器故障、黑屏白屏花屏、卡槽壞、密鑰恢復(fù)不成功、日計(jì)時(shí)誤差不合格、液晶顯示故障等等。
接下來(lái)我們就針對(duì)這三種故障進(jìn)行了分類(lèi)器的訓(xùn)練。目標(biāo)有兩個(gè):
一是在電表入庫(kù)時(shí)就預(yù)先判斷該電表的可能故障。
二是對(duì)已使用電表可能發(fā)生故障的預(yù)測(cè)。
4.1 樸素貝葉斯模型
4.1.1 樸素貝葉斯原理
樸素貝葉斯法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類(lèi)方法。樸素貝葉斯分類(lèi)器基于一個(gè)簡(jiǎn)單的假定:給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。貝葉斯公式是:
P(C|X)=(P(X|C)P(C))/P(X)
其中C代表的是我們需要判斷的類(lèi)別,而X代表的各維參數(shù)所組成的向量。
基于假定我們可以把P(Ci|X)的概率轉(zhuǎn)化為P(Ci|X)=P(x1|Ci)P(x2|Ci)...P(xn|Ci)P(Ci)。然后我們比較所得的概率大小,選取概率最大的類(lèi)別作為我們分類(lèi)器的預(yù)測(cè)類(lèi)別。
4.1.2 樸素貝葉斯的實(shí)現(xiàn)
首先我們從數(shù)據(jù)倉(cāng)庫(kù)中把我們所需要緯度的數(shù)據(jù)提取出來(lái),并按照我們需要的格式編排完畢。然后分別統(tǒng)計(jì)我們需要的各種先驗(yàn)知識(shí)并訓(xùn)練模型。
4.1.3 樸素貝葉斯模型的結(jié)果
①入庫(kù)電表故障預(yù)測(cè)
經(jīng)檢驗(yàn)我們的樸素貝葉斯模型的分類(lèi)準(zhǔn)確度是65.2216%。(如表1)
表1 入庫(kù)電表故障預(yù)測(cè)
[A\&B\&C\&Classified as\&17301\&323\&17461\&A=1\&2467\&243\&2376\&B=2\&13418\&576\&51133 C=3\&C=3\&]
從表格中可以看出我們的樸素貝葉斯分類(lèi)器對(duì)于第三類(lèi)故障的分類(lèi)準(zhǔn)確度最高,對(duì)于第一類(lèi)的分類(lèi)準(zhǔn)確度次之,對(duì)于第二類(lèi)的分類(lèi)準(zhǔn)確度最差。
以下是分類(lèi)器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)構(gòu)建成一個(gè)向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城南、生產(chǎn)廠家是浙江萬(wàn)勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A的電表將各維信息轉(zhuǎn)化為(2,7,25,3,5)的向量輸入我們的模型,經(jīng)過(guò)模型計(jì)算輸出結(jié)果是3,表示模型預(yù)測(cè)這塊表以后發(fā)生第3類(lèi)故障的概率最高。
關(guān)于具體的模型數(shù)據(jù),可參考《電表故障樸素貝葉斯結(jié)果.doc》以及《TJDW_Problem_NaiveBayes.model》
②已用電表故障預(yù)測(cè)
經(jīng)檢驗(yàn)我們的樸素貝葉斯模型的分類(lèi)準(zhǔn)確度是65.288%。(如表2)
從表格中可以看出我們的樸素貝葉斯分類(lèi)器對(duì)于第三類(lèi)故障的分類(lèi)準(zhǔn)確度最高,對(duì)于第一類(lèi)的分類(lèi)準(zhǔn)確度次之,對(duì)于第二類(lèi)的分類(lèi)準(zhǔn)確度最差。
以下是分類(lèi)器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表使用時(shí)間、電表讀數(shù)構(gòu)建成一個(gè)向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城南、生產(chǎn)廠家是浙江萬(wàn)勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉(zhuǎn)化為(2,7,25,3,5,2,2)的向量輸入我們的模型中,經(jīng)過(guò)模型計(jì)算輸出結(jié)果是3,表示模型預(yù)測(cè)這塊表如果將會(huì)發(fā)生故障那么發(fā)生第三類(lèi)故障的可能性最高。
關(guān)于樸素貝葉斯模型分類(lèi)器訓(xùn)練模型及參數(shù)的具體信息,可參考《電表故障樸素貝葉斯結(jié)果預(yù)測(cè).doc》以及《TJDW_Problem_NaiveBayes_Prediction.model》。
4.2 決策樹(shù)模型
4.2.1 決策樹(shù)原理簡(jiǎn)介
決策樹(shù)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。
4.2.2 決策樹(shù)實(shí)現(xiàn)
首先通過(guò)統(tǒng)計(jì)工作以及數(shù)據(jù)變換,我們需要構(gòu)造出輸出數(shù)據(jù)。然后按照計(jì)算信息熵,以信息熵衰減程度從大到小的順序構(gòu)建樹(shù)結(jié)構(gòu)。最后在葉子節(jié)點(diǎn)中,通過(guò)投票多數(shù)通過(guò)的方式?jīng)Q定分類(lèi)結(jié)果
4.2.3決策樹(shù)模型結(jié)果分析
①入庫(kù)電表故障預(yù)測(cè)
經(jīng)檢驗(yàn)我們的決策樹(shù)模型分類(lèi)準(zhǔn)確率為68.0%。其中對(duì)第三類(lèi)故障的分類(lèi)準(zhǔn)確度較高,第一類(lèi)次之,對(duì)第二類(lèi)的分類(lèi)效果較差。
表3 決策樹(shù)入庫(kù)電表故障預(yù)測(cè)結(jié)果
以下是分類(lèi)器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)構(gòu)建成一個(gè)向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬(wàn)勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A的電表,將各維信息轉(zhuǎn)化為(2,6,25,3,5)的向量輸入我們的模型中,經(jīng)過(guò)模型計(jì)算輸出得出故障為第一類(lèi)的概率是0.22、第二類(lèi)的概率是0.05、第三類(lèi)的概率是0.73,那么我們預(yù)測(cè)這塊表將來(lái)發(fā)生第三類(lèi)故障的概率最高。
②已用電表故障預(yù)測(cè)
經(jīng)檢驗(yàn)我們的決策樹(shù)模型分類(lèi)準(zhǔn)確率為69.1%。其中對(duì)第三類(lèi)故障的分類(lèi)準(zhǔn)確度較高,第一類(lèi)次之,對(duì)第二類(lèi)的分類(lèi)效果較差。
表4 決策樹(shù)已用電表故障預(yù)測(cè)結(jié)果
以下是分類(lèi)器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表使用時(shí)間、電表讀數(shù)構(gòu)建成一個(gè)向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬(wàn)勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉(zhuǎn)化為(2,6,25,3,5,2,2)的向量輸入我們的模型中,經(jīng)過(guò)模型計(jì)算輸出得出故障為第一類(lèi)的概率是0.38、第二類(lèi)的概率是0.13、第三類(lèi)的概率是0.49,那么我們預(yù)測(cè)這塊表將來(lái)發(fā)生第三類(lèi)故障的概率最高。
4.3 softmax神經(jīng)網(wǎng)絡(luò)
4.3.1 softmax神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介
神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類(lèi)似于大腦神經(jīng)突觸連接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。我們所采用的多層感知器是一種前饋神經(jīng)網(wǎng)絡(luò)模型,可以將輸入的多個(gè)數(shù)據(jù)集映射到單一的輸出的數(shù)據(jù)集上。我們?cè)谳敵鰧拥募せ詈瘮?shù)選擇了softmax回歸函數(shù)。Softmax回歸函數(shù)是Logistic回歸模型在多分類(lèi)問(wèn)題上的推廣,可以將目標(biāo)變量分為K類(lèi)。最后我們可以得到樣本屬于各個(gè)類(lèi)的概率分別是多少。
4.3.2 softmax神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)
首先進(jìn)行數(shù)據(jù)變換,將數(shù)據(jù)變換成我們需要的格式,然后初始化我們的多層感知機(jī)并應(yīng)用調(diào)整的共軛梯度下降算法反復(fù)迭代更新神經(jīng)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的權(quán)值,輸出結(jié)果使用softmax回歸函數(shù)進(jìn)行激活。等參數(shù)收斂后,我們就得到了一個(gè)softmax神經(jīng)網(wǎng)絡(luò)模型。
4.3.3 softmax神經(jīng)網(wǎng)絡(luò)結(jié)果分析
①入庫(kù)電表故障預(yù)測(cè)
我們選擇芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)作為緯度,將各個(gè)可取的屬性值改為0-1表示的布爾值,這樣我們就構(gòu)建了有60個(gè)節(jié)點(diǎn)的輸入層,有兩個(gè)節(jié)點(diǎn)數(shù)分別為12和9的隱藏層以及有3個(gè)輸出節(jié)點(diǎn)的輸出層的softmax多層感知機(jī)。(如表5)
可以看出,在入庫(kù)電表故障預(yù)測(cè)中我們的softmax多層感知機(jī)模型對(duì)于第三類(lèi)故障分類(lèi)準(zhǔn)確率最高,對(duì)于第一類(lèi)次之,對(duì)于第二類(lèi)效果最差。
以下是分類(lèi)器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)構(gòu)建成一個(gè)60維0-1向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬(wàn)勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A,將各維信息轉(zhuǎn)化為向量輸入我們的模型中,經(jīng)過(guò)模型計(jì)算輸出得出故障為第一類(lèi)的概率是0.155、第二類(lèi)的概率是0.030、第三類(lèi)的概率是0.815,那么我們預(yù)測(cè)這塊表將來(lái)發(fā)生第三類(lèi)故障的概率最高。
②已用電表故障預(yù)測(cè)
我們選擇芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表使用時(shí)間、電表讀數(shù)作為緯度,將各個(gè)可取的屬性值改為0-1表示的布爾值,這樣我們就構(gòu)建了有70個(gè)節(jié)點(diǎn)的輸入層,有兩個(gè)節(jié)點(diǎn)數(shù)分別為13和10的隱藏層以及有3個(gè)輸出節(jié)點(diǎn)的輸出層的softmax多層感知機(jī)。(表6)
可以看出在已用電表故障預(yù)測(cè)中,我們的softmax多層感知機(jī)模型對(duì)于第三類(lèi)故障分類(lèi)準(zhǔn)確率最高,對(duì)于第一類(lèi)次之,對(duì)于第二類(lèi)效果最差。
以下是分類(lèi)器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表使用時(shí)間、電表讀數(shù)構(gòu)建成一個(gè)70維0-1向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬(wàn)勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉(zhuǎn)化為向量輸入我們的模型中,經(jīng)過(guò)模型計(jì)算輸出得出故障為第一類(lèi)的概率是0.307、第二類(lèi)的概率是0.022、第三類(lèi)的概率是0.672,那么我們預(yù)測(cè)這塊表將來(lái)發(fā)生第三類(lèi)故障的概率最高。
5 結(jié)論
兩種方案唯一的區(qū)別在于RS485總線、低壓電力線載波混合抄表系統(tǒng)增加了一層物理設(shè)備,即采集終端,使得系統(tǒng)由主站、集中器、采集終端和RS485總線電能表四層物理設(shè)備構(gòu)成。
①綜合性能(性?xún)r(jià)比),方案1占優(yōu);
②在通信性能、遠(yuǎn)程斷送電控制、抗擾能力方面,方案1優(yōu)勢(shì)明顯;
③在功能擴(kuò)展、設(shè)備成本方面,方案2占優(yōu);
④方案2最大缺點(diǎn)是安裝、調(diào)試和維護(hù)工作量大,且RS485總線抗干擾能力相對(duì)較弱;
⑤方案1最大缺點(diǎn)是一體化載波電能表成本相對(duì)較高。
參 考 文 獻(xiàn)
[1] 多功能電能表通訊協(xié)議[M].中國(guó)電力出版社,2008.