張照鑫,朱允剛,虞玉峰,趙山博,張勝男,陶紫涵
(吉林大學(xué) 計(jì)算機(jī)學(xué)院,吉林 長(zhǎng)春 130023)
電能表是每家每戶都會(huì)使用的電子測(cè)量?jī)x器,而智能電表已經(jīng)和傳統(tǒng)電表有了很大的不同,它的功能有本地?cái)?shù)據(jù)處理、遠(yuǎn)程數(shù)據(jù)通信以及電網(wǎng)運(yùn)行參數(shù)采集等。同時(shí)智能電表質(zhì)量以及運(yùn)行狀態(tài)直接影響到采集系統(tǒng)的穩(wěn)定性和安全性,而現(xiàn)有針對(duì)智能電表狀態(tài)評(píng)價(jià)方法的研究較少,大量的質(zhì)量數(shù)據(jù)和監(jiān)測(cè)數(shù)據(jù)并沒(méi)有得到充分的價(jià)值挖掘和合理利用,國(guó)內(nèi)的智能電表狀態(tài)監(jiān)測(cè)技術(shù)仍處于起步狀態(tài),因此,尋找一個(gè)合理化、高效化的智能電表評(píng)價(jià)方法就成為了重要的探索方向。
貝葉斯網(wǎng)是一種概率網(wǎng)絡(luò)模型,它以貝葉斯公式為基礎(chǔ),基于概率推理,廣泛應(yīng)用于人工智能領(lǐng)域,被認(rèn)為是推理領(lǐng)域和不確定知識(shí)表達(dá)領(lǐng)域最有效的理論模型之一[1-3]。通過(guò)對(duì)智能電表運(yùn)行過(guò)程中與運(yùn)行狀態(tài)相關(guān)的多種數(shù)據(jù)的選取,根據(jù)貝葉斯網(wǎng)絡(luò)知識(shí)訓(xùn)練有效模型,并利用集成學(xué)習(xí)方法融合構(gòu)建最優(yōu)網(wǎng)絡(luò),作為評(píng)價(jià)智能電表運(yùn)行狀態(tài)的高效模型[4],同時(shí)利用Visual Studio 2019實(shí)現(xiàn)評(píng)價(jià)算法,通過(guò)輸入其他相關(guān)方面運(yùn)行數(shù)據(jù)推算智能電表各狀態(tài)概率,得出最符合實(shí)際的狀態(tài)評(píng)價(jià),以此作為評(píng)價(jià)智能電表運(yùn)行狀態(tài)的合理方法。
利用貝葉斯網(wǎng)絡(luò)進(jìn)行智能電表的狀態(tài)評(píng)價(jià)就需要選擇準(zhǔn)確的數(shù)據(jù)離散化方法以及高效合理的貝葉斯網(wǎng)訓(xùn)練方法。而電能表狀態(tài)評(píng)價(jià)是典型的有序命題類問(wèn)題,為此該文提出適用于智能電能表狀態(tài)融合的凸函數(shù)證據(jù)理論方法,結(jié)合選擇性集成學(xué)習(xí)方法進(jìn)一步提高了狀態(tài)評(píng)價(jià)的準(zhǔn)確性和科學(xué)性,最終實(shí)現(xiàn)對(duì)電能表狀態(tài)的高準(zhǔn)確判定。
為了有效地進(jìn)行智能電表狀態(tài)評(píng)價(jià),根據(jù)生活經(jīng)驗(yàn)選取了基本誤差、有功準(zhǔn)確度等級(jí)、運(yùn)行誤差、運(yùn)行時(shí)間、運(yùn)行故障率、全檢退貨率、監(jiān)測(cè)異常、安裝環(huán)境、用戶信譽(yù)、家族缺陷、狀態(tài)評(píng)分等相關(guān)因素[5](148),并結(jié)合智能電能表性能退化數(shù)據(jù)的典型時(shí)間點(diǎn)對(duì)應(yīng)的可靠性值、實(shí)際驗(yàn)證的運(yùn)行狀態(tài)等數(shù)據(jù)組成電能表狀態(tài)評(píng)價(jià)數(shù)據(jù)集,并同時(shí)進(jìn)行數(shù)據(jù)離散化。同時(shí),為了提高準(zhǔn)確度,運(yùn)用集成學(xué)習(xí)思想,對(duì)訓(xùn)練集進(jìn)行R次采集m個(gè)樣本的隨機(jī)采樣,形成R組均包含m個(gè)樣本的數(shù)據(jù)集,分別對(duì)每組進(jìn)行貝葉斯網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練,同時(shí)根據(jù)數(shù)據(jù)訓(xùn)練結(jié)果不斷修改貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu),尋找最優(yōu)的貝葉斯網(wǎng)絡(luò)模型[6]。然后利用聚類算法,對(duì)這R個(gè)貝葉斯網(wǎng)進(jìn)行聚類,從中挑選出M個(gè)精度高,符合實(shí)際情況的貝葉斯網(wǎng)絡(luò)集合F,利用網(wǎng)絡(luò)集合F中的所有貝葉斯網(wǎng)作為融合模型,分別計(jì)算出智能電能表處于各評(píng)分狀態(tài)的概率值。基于凸函數(shù)的理論,對(duì)貝葉斯網(wǎng)絡(luò)進(jìn)行有效融合,以此得到較為準(zhǔn)確的最終狀態(tài)評(píng)價(jià)結(jié)果。設(shè)計(jì)的模型框架如圖1所示。
圖1 基于貝葉斯網(wǎng)絡(luò)的智能電能表狀態(tài)評(píng)價(jià)模型框架
為了數(shù)據(jù)表示和處理方便,將上述的基本誤差、有功準(zhǔn)確度等級(jí)、運(yùn)行誤差、運(yùn)行時(shí)間、運(yùn)行故障率、全檢退貨率、監(jiān)測(cè)異常、安裝環(huán)境、用戶信譽(yù)、家族缺陷、狀態(tài)評(píng)分等相關(guān)因素表示為變量X1,X2,…,X11。
由于采集的智能電能表數(shù)據(jù)有一部分是一系列連續(xù)值,而貝葉斯網(wǎng)絡(luò)只能處理離散數(shù)值,所以首先要將數(shù)據(jù)進(jìn)行離散化,離散方法[4](148)如下:
對(duì)于以上所有區(qū)間,設(shè)計(jì)處理算法,將任意兩個(gè)區(qū)間合并后成k-1個(gè)區(qū)間,計(jì)算出每個(gè)區(qū)間出現(xiàn)的概率,根據(jù)每個(gè)區(qū)間出現(xiàn)的概率值計(jì)算合并后的指標(biāo)X的信息熵H(k-1),然后計(jì)算H(k)-H(k-1);計(jì)算任意合并情況下前后的信息熵之差,尋找出差值最小的合并策略作為本次合并策略[7-8]。若同時(shí)出現(xiàn)兩種或兩種以上差值最小的合并策略,則隨機(jī)選擇一種策略進(jìn)行合并。根據(jù)合并后的信息熵H(k-1)計(jì)算Sj=(k0-1)×H(k-1)-(k-2)×H(k0),其中j的初始值為1;若Sj≤Sj-1,此時(shí)每個(gè)區(qū)間對(duì)應(yīng)指標(biāo)X的一個(gè)離散值。否則令k=k-1,j=j+1,重復(fù)上述操作[9]。利用Visual Studio 2019實(shí)現(xiàn)上述算法處理所得數(shù)據(jù),部分連續(xù)數(shù)據(jù)離散化后結(jié)果見(jiàn)表1(表中數(shù)字代表數(shù)據(jù)所處離散后的區(qū)間)。
表1 部分連續(xù)變量離散表
將離散化后確定的指標(biāo)屬性集合表示為變量集合X={X1,…,Xi,…,Xn}(n=11),基于預(yù)先采集的電能表運(yùn)行狀態(tài)歷史評(píng)價(jià)數(shù)據(jù),通過(guò)遺傳算法進(jìn)行學(xué)習(xí)、訓(xùn)練,結(jié)合集成學(xué)習(xí)思想,生成表示電能表數(shù)據(jù)和電能表狀態(tài)之間關(guān)系的貝葉斯網(wǎng)。
采用Bagging算法[10]從數(shù)據(jù)中訓(xùn)練生成R個(gè)貝葉斯網(wǎng)的集合F,方法[4](148)如下:
步驟1:對(duì)訓(xùn)練集進(jìn)行第R次隨機(jī)采樣,共采集m次,得到包含m個(gè)樣本的采樣集Dr={C1,C2,…,Cm},其中m為數(shù)據(jù)量,Ci為第i組數(shù)據(jù),每組數(shù)據(jù)是一個(gè)長(zhǎng)度為n+1的向量X={X1,…,Xi,…,Xn,Xn+1}(n=11),其中r的初始值是1,1≤r≤R。
步驟2:用采樣集Dr訓(xùn)練第r個(gè)貝葉斯網(wǎng),貝葉斯網(wǎng)包含n+1個(gè)變量,其中X1…Xn表示如前所述的電能表狀態(tài)屬性數(shù)據(jù),Xn+1表示電能表狀態(tài)評(píng)分,有d種可能取值,如d=3(穩(wěn)定、關(guān)注、預(yù)警),訓(xùn)練貝葉斯網(wǎng)方法如下:
基于訓(xùn)練數(shù)據(jù)集Dr={C1,C2,…,Cm}隨機(jī)生成若干個(gè)貝葉斯網(wǎng),作為通過(guò)遺傳算法迭代確定最優(yōu)貝葉斯網(wǎng)的初始種群Popr,其中r的初始值是0,設(shè)置的遺傳算法迭代數(shù)為r0,每個(gè)貝葉斯網(wǎng)作為所述初始種群Qr中的一個(gè)個(gè)體[11]。
(2)
步驟3:將步驟2生成的最優(yōu)貝葉斯網(wǎng)加入到貝葉斯網(wǎng)絡(luò)集合F中。
從產(chǎn)生的R個(gè)貝葉斯網(wǎng)中選擇K個(gè)精度高的貝葉斯網(wǎng)組成新的集合?。方法如下:
(3)
式中,m表示貝葉斯網(wǎng)Bi和Bj的采樣集采樣的樣本數(shù)量。
步驟5:當(dāng)連續(xù)兩次迭代中,所述K個(gè)簇均不發(fā)生變化或達(dá)到最大迭代次數(shù)L時(shí),轉(zhuǎn)至步驟6,否則轉(zhuǎn)至步驟3繼續(xù)執(zhí)行。
步驟6:從K個(gè)簇中的每一個(gè)簇里選擇精度最高的貝葉斯網(wǎng),以得到新的貝葉斯網(wǎng)集合?={?1,?2,…,?k}。
采用凸函數(shù)證據(jù)理論方法[14],對(duì)?中的貝葉斯網(wǎng)進(jìn)行集成,進(jìn)而得到狀態(tài)評(píng)價(jià)結(jié)果(見(jiàn)圖2)。假定x1,x2,…,xn表示當(dāng)前觀測(cè)到的已知的指標(biāo)屬性值,Y表示電能表狀態(tài)。方法如下:
圖2 使用?中的貝葉斯網(wǎng)進(jìn)行狀態(tài)評(píng)價(jià)
步驟1:對(duì)于集合?中的貝葉斯網(wǎng)?1,當(dāng)x1,x2,…,xn表示實(shí)際觀測(cè)到的評(píng)價(jià)智能電能表運(yùn)行狀態(tài)的n個(gè)指標(biāo)的數(shù)值,Yl表示智能電能表的運(yùn)行狀態(tài)d種可能取值中的第l種,則計(jì)算智能電能表的運(yùn)行狀態(tài)Yl的概率λ1(sl)的公式為:
λ1(sl)=P(Yl|x1,x2,…,xn)=P(Yl|πY)·
(4)
式中,1≤l≤d,1≤i≤n+1,Xi∈Children(Y)表示電能表的屬性指標(biāo)Xi是運(yùn)行狀態(tài)Y的子節(jié)點(diǎn),πY是運(yùn)行狀態(tài)Y的父節(jié)點(diǎn)。
步驟2:對(duì)于集合?中的貝葉斯網(wǎng)?j,當(dāng)x1,x2,…,xn表示實(shí)際觀測(cè)到的評(píng)價(jià)智能電能表運(yùn)行狀態(tài)的n個(gè)指標(biāo)的數(shù)值,Yl表示智能電能表的運(yùn)行狀態(tài)d種可能取值中的第l種,則計(jì)算智能電能表的運(yùn)行狀態(tài)Yl的概率λj(sl)的公式為:
λj(sl)=P(Yl|x1,x2,…,xn)=P(Yl|πY)·
(5)
式中,2≤j≤K,j的初始值是2,Xi∈Children(Y)表示電能表的屬性指標(biāo)Xi是運(yùn)行狀態(tài)Y的子節(jié)點(diǎn),πY是運(yùn)行狀態(tài)Y的父節(jié)點(diǎn)。
步驟3:用下式將λ1(sl)和λj(sl)進(jìn)行融合,并將結(jié)果賦給λ1(sl)。
(6)
步驟4:當(dāng)j 步驟5:λ1(sl)即為每種可能的智能電能表運(yùn)行狀態(tài)的概率值。 關(guān)于上式的推導(dǎo)有:設(shè)πY是節(jié)點(diǎn)Y的父節(jié)點(diǎn),Children(Y)是節(jié)點(diǎn)Y的子節(jié)點(diǎn)。由貝葉斯網(wǎng)馬爾可夫覆蓋的特性,可知: P(Y|x1,x2,…,xn)=P(Y|MB(Y))= (7) 由于分母P(x1,x2,…,xn)并不包含Y,即無(wú)論Y取何值,P(x1,x2,…,xn)的值都相同,因此可以將分母看成常數(shù)。而且分子是聯(lián)合概率分布,那么可以把它表示成各節(jié)點(diǎn)的局部條件概率分布的乘積。因此,上式可以表示為: (8) 其中,c是常數(shù)。上式將各節(jié)點(diǎn)的局部條件概率分布分成3部分:Y的局部條件概率分布、Y的子節(jié)點(diǎn)的局部條件概率分布和其他節(jié)點(diǎn)的局部條件概率分布。由于第三部分∏Xj≠Y∩Xj?Children(Y)P(Xj|πXj)并不包含變量Y,所以這部分也可以歸到常數(shù)里,因此上式可以表示為: c·P(Y|πY)·∏Xi∈Children(Y)P(Xi|πY)·∏Xj≠Y∩Xj?Children(Y)P(Xj|πXj)=c'·P(Y|πY)·∏Xi∈Children(Y)P(Xi|πXi) (9) 從上式可以看到,P(Y|MB(Y))與P(Y|πY)·∏Xi∈Children(Y)P(Xi|πXi)成正比。 選用從江蘇、福建省分公司獲取的電能表運(yùn)行狀態(tài)歷史數(shù)據(jù)集D。此數(shù)據(jù)集包含基本誤差、有功準(zhǔn)確度等級(jí)、運(yùn)行誤差、運(yùn)行時(shí)間、運(yùn)行故障率、監(jiān)測(cè)異常、安裝環(huán)境、用戶信譽(yù)、家族缺陷、狀態(tài)評(píng)分等數(shù)據(jù),表示為變量X1,X2,…,Xn(n=11)?;?.2中算法,結(jié)合集成學(xué)習(xí)思想,對(duì)電能表運(yùn)行狀態(tài)歷史集D進(jìn)行R次隨機(jī)采樣(R=10),形成R組數(shù)據(jù)集D1,D2,…,DR。運(yùn)用機(jī)器學(xué)習(xí)的方法訓(xùn)練出R個(gè)貝葉斯網(wǎng)模型B1,B2,…,BR;訓(xùn)練出的每個(gè)貝葉斯網(wǎng)包含變量X1,X2,…,Xn,表示電能表運(yùn)行指標(biāo)數(shù)據(jù)與運(yùn)行狀態(tài)的不確定性因果關(guān)系。 貝葉斯網(wǎng)的基本訓(xùn)練原理是通過(guò)設(shè)計(jì)評(píng)分函數(shù)f(B,D)=P(D|B)來(lái)衡量貝葉斯網(wǎng)與數(shù)據(jù)集的擬合程度,然后運(yùn)用啟發(fā)式搜索算法搜索貝葉斯網(wǎng)結(jié)構(gòu)分值最高的一種,同時(shí)運(yùn)用極大似然法來(lái)學(xué)習(xí)貝葉斯網(wǎng)中的參數(shù),其過(guò)程如圖3所示。 圖3 貝葉斯網(wǎng)集成學(xué)習(xí) 基于2.3中算法,設(shè)計(jì)相似度函數(shù)估算任意兩個(gè)貝葉斯網(wǎng)在狀態(tài)評(píng)價(jià)上的相似度,基于K均值聚類對(duì)生成的R個(gè)貝葉斯網(wǎng)進(jìn)行聚類,將其劃分為K(K 圖4 基于聚類的貝葉斯網(wǎng)選擇性集成 從每個(gè)簇中選擇精度最高的貝葉斯網(wǎng),進(jìn)而可以得到K=4個(gè)精度高、多樣性強(qiáng)的貝葉斯網(wǎng)B2、B4、B9、B10。 基于2.4中算法,使用上步選出的K個(gè)貝葉斯網(wǎng)作為融合模型,分別推理計(jì)算出電能表各狀態(tài)的概率值?;谕购瘮?shù)證據(jù)理論融合各貝葉斯網(wǎng)的決策結(jié)果,獲得最終的狀態(tài)評(píng)價(jià)結(jié)果,其過(guò)程如圖5所示。 圖5 結(jié)合貝葉斯網(wǎng)和凸函數(shù)證據(jù)理論得出的最終評(píng)價(jià)結(jié)果 為了對(duì)智能電表的狀態(tài)進(jìn)行高效而又準(zhǔn)確的評(píng)價(jià),課題組采取了智能電能表狀態(tài)評(píng)價(jià)數(shù)據(jù)集,利用此數(shù)據(jù)集分組進(jìn)行智能電能表狀態(tài)評(píng)價(jià)貝葉斯網(wǎng)絡(luò)的構(gòu)建,并利用集成學(xué)習(xí)思想提高其準(zhǔn)確度,再通過(guò)凸函數(shù)理論進(jìn)行最優(yōu)貝葉斯網(wǎng)的融合,最終得出高效準(zhǔn)確的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。利用貝葉斯網(wǎng)絡(luò)對(duì)智能電表的狀態(tài)評(píng)價(jià)方法相比傳統(tǒng)智能電表檢測(cè)方法節(jié)省了大量的人力和物力,降低了檢測(cè)成本,同時(shí)充分利用了采集的數(shù)據(jù),使檢測(cè)結(jié)果更具科學(xué)性和準(zhǔn)確性。實(shí)際研究表明,貝葉斯網(wǎng)絡(luò)對(duì)于智能電能表的狀態(tài)評(píng)價(jià)具有可行性,準(zhǔn)確性也非常貼近實(shí)際檢測(cè)結(jié)果。但此模型仍存在以下不足:數(shù)據(jù)離散化不一導(dǎo)致的精確度問(wèn)題。貝葉斯網(wǎng)路只能處理離散數(shù)據(jù),因此在進(jìn)行預(yù)測(cè)時(shí)要先將數(shù)據(jù)進(jìn)行離散化,而數(shù)據(jù)離散化有多種方法,精確度不一,該文采用的為基于信息熵的數(shù)據(jù)離散化方法。因此以后要對(duì)如何進(jìn)行數(shù)據(jù)離散化進(jìn)行更加深入的探究。3 應(yīng)用驗(yàn)證
4 結(jié)束語(yǔ)