劉惠華,樊志偉,利雅琳,段春雨
(廣東電網(wǎng)有限責(zé)任公司中山供電局,中山528400)
在人工智能應(yīng)用研究中,使用大數(shù)據(jù)分析方法解決機(jī)器學(xué)習(xí)問(wèn)題,實(shí)際上是一個(gè)求解目標(biāo)函數(shù)(模型)的優(yōu)化問(wèn)題。如使用θ∈Θ(Θ是參數(shù)空間)表示模型的參數(shù),則機(jī)器學(xué)習(xí)問(wèn)題便轉(zhuǎn)化為求θ的問(wèn)題。
現(xiàn)代數(shù)理統(tǒng)計(jì)理論是大數(shù)據(jù)分析的理論基礎(chǔ),目前存在頻率學(xué)派和貝葉斯學(xué)派兩大主流學(xué)派,它們的差異表現(xiàn)在對(duì)研究對(duì)象認(rèn)知層面上的不同。頻率學(xué)派認(rèn)為參數(shù)θ是固定的,模型數(shù)據(jù)是隨機(jī)的;貝葉斯學(xué)派認(rèn)為參數(shù)θ是具有某種分布的隨機(jī)變量。對(duì)參數(shù)θ的認(rèn)知不同,導(dǎo)致建立基于統(tǒng)計(jì)理論機(jī)器學(xué)習(xí)推理模型的方法也有差異。
頻率學(xué)派使用研究對(duì)象的總體信息和樣本信息進(jìn)行建模;貝葉斯學(xué)派除了利用總體信息和樣本信息外,增加了一個(gè)模型參數(shù)θ的先驗(yàn)分布概率信息進(jìn)行建模。
頻率學(xué)派統(tǒng)計(jì)建模的理論依據(jù)是大數(shù)定律,它是概率論與數(shù)理統(tǒng)計(jì)中描述當(dāng)對(duì)研究對(duì)象的觀察次數(shù)足夠大時(shí)所表現(xiàn)出來(lái)的概率性質(zhì)定律:隨著樣本容量n的增加,樣本平均數(shù)將接近于總體平均數(shù)。大數(shù)定律為統(tǒng)計(jì)推斷中依據(jù)樣本平均數(shù)估計(jì)總體平均數(shù)提供了理論依據(jù),大數(shù)定律有嚴(yán)格的數(shù)學(xué)證明。
本文是筆者在研究電力作業(yè)違章事故事件預(yù)控模型時(shí),使用基于頻率學(xué)派觀點(diǎn)進(jìn)行大數(shù)據(jù)分析建模的成果。選擇基于頻率分析的大數(shù)據(jù)分析建模方法,對(duì)電力作業(yè)違章事故事件這一研究對(duì)象是適合的,因?yàn)?,到目前為止,我們還無(wú)法給出電力作業(yè)違章事故事件模型參數(shù)的先驗(yàn)分布概率信息。
本文工作成果解決了電力作業(yè)違章事故事件預(yù)控模型的建模問(wèn)題。基于頻率分析的大數(shù)據(jù)分析方法,揭示了人的不安全行為與電力事故事件的某種內(nèi)在關(guān)系及規(guī)律,直接支持電力事故事件預(yù)控模型的開發(fā)。本文工作對(duì)其他行業(yè)研究開發(fā)基于大數(shù)據(jù)分析和數(shù)據(jù)挖掘的統(tǒng)計(jì)推理機(jī)器學(xué)習(xí)模型,同樣具有直接和間接的參考借鑒意義。
設(shè)刻畫研究對(duì)象的特征向量為:(T1,T2,…,TM),特征Ti(i=1,2,…,M)的取值向量為:(Xi,1,Xi,2,…,Xi,ik),大數(shù)據(jù)分析的目標(biāo)為:(G1,G2,…,GN),則使用表1 定義基于頻率分析的大數(shù)據(jù)分析方法。
本文所述的大數(shù)據(jù)研究對(duì)象是廣東某地市的電力作業(yè)違章事故事件大數(shù)據(jù),刻畫大數(shù)據(jù)使用了5 個(gè)維度77 個(gè)特征,5 個(gè)維度及特征分別是:作業(yè)維36 個(gè)特征、人員維18 個(gè)特征、環(huán)境維3 個(gè)特征、氣象維8 個(gè)特征以及分析維12 個(gè)特征。
應(yīng)用表1 定義的基于頻率分析的大數(shù)據(jù)分析方法,對(duì)電力作業(yè)違章事故事件大數(shù)據(jù)進(jìn)行分析,得到電力作業(yè)違章事故事件大數(shù)據(jù)分析表2。
表2 電力作業(yè)違章事故事件大數(shù)據(jù)分析
設(shè)電力作業(yè)違章事故事件大數(shù)據(jù)案例Wi有M 個(gè)特征Ti,1,Ti,2,…,Ti,M,各特征Ti,1,Ti,2,…,Ti,M彼此獨(dú)立取值且對(duì)應(yīng)違章、事故事件及正常工單的概率分別為:P1i,1,P1i,2,…,P1i,M,P2i,1,P2i,2,…,P2i,M及P3i,1,P3i,2,…,P3i,M,使用表2 的頻率分析結(jié)果代替對(duì)應(yīng)的概率,如下是定義案例Wi對(duì)應(yīng)違章、事故事件及正常案例概率的計(jì)算公式。
(1)案例Wi第j 個(gè)特征對(duì)應(yīng)違章概率P1i,j的計(jì)算公式
(2)案例Wi第j 個(gè)特征對(duì)應(yīng)事故事件概率P2i,j計(jì)算公式
(3)案例Wi第j 個(gè)特征對(duì)應(yīng)正常案例概率P3i,j計(jì)算公式
其中,k=1,2…,jk,jk 為案例Wi第j 個(gè)特征的取值個(gè)數(shù),i=1,2,…,N,N 為案例數(shù),j=1,2,…,M,M 為案例特征數(shù)。
信息熵是人們對(duì)客觀世界研究對(duì)象某種認(rèn)識(shí)(信息量)的度量,信息理論的開創(chuàng)者香農(nóng)把信息熵定義為離散隨機(jī)事件的出現(xiàn)概率。應(yīng)用2.1 小節(jié)定義的概率計(jì)算公式,定義電力作業(yè)違章事故事件大數(shù)據(jù)案例Wi對(duì)應(yīng)違章、事故事件以及正常案例的信息熵計(jì)算公式如表3 所示。
表3 電力作業(yè)違章事故事件大數(shù)據(jù)案例信息熵
表3 中Qj是案例Wi第j 個(gè)特征的權(quán)重,Qj=Kj/N,Kj 是第j 個(gè)特征的取值個(gè)數(shù),N 是案例Wi所有特征取值個(gè)數(shù)之和,N 是一個(gè)常數(shù)。
可以選擇K 均值聚類算法和最近鄰算法設(shè)計(jì)基于頻率分析信息熵的推理機(jī)模型。
下面是選擇K 均值聚類算法設(shè)計(jì)基于頻率分析信息熵推理機(jī)模型的步驟:
(1)計(jì)算電力作業(yè)違章事故事件大數(shù)據(jù)案例信息熵均值表,如表4 所示。
表4 電力作業(yè)違章事故事件大數(shù)據(jù)案例信息熵均值
(2)分別選取K=2,3,4,5,…,P,對(duì)表4 的所示的大數(shù)據(jù)案例進(jìn)行均值聚類,可以得到P 個(gè)聚類模型。
(3)對(duì)上述P 個(gè)聚類模型進(jìn)行交叉驗(yàn)證或使用實(shí)際電力作業(yè)案例進(jìn)行驗(yàn)證,從P 個(gè)聚類模型中選出最優(yōu)分類的聚類模型作為推理機(jī)模型。
電力作業(yè)大數(shù)據(jù)案例數(shù)據(jù)資源由六類數(shù)據(jù)組成,第一類是正常作業(yè)工單數(shù)據(jù),第二類是違章作業(yè)工單數(shù)據(jù),第三類是事故事件作業(yè)工單數(shù)據(jù),第四類是廣東電網(wǎng)某地市自2016 年1 月1 日至2018 年3 月31 日的氣象資料數(shù)據(jù),第五類是廣東電網(wǎng)某地市電網(wǎng)設(shè)備地理環(huán)境數(shù)據(jù),第六類是廣東電網(wǎng)某地市作業(yè)人員資料數(shù)據(jù)(含第三產(chǎn)業(yè)作業(yè)人員)。
第一類和第二類數(shù)據(jù)來(lái)自于廣東電網(wǎng)某地市2016年1 月1 日至2018 年3 月31 日的工作票作業(yè)工單數(shù)據(jù),第三類數(shù)據(jù)來(lái)自于國(guó)內(nèi)自2003 年到目前為止公開發(fā)表的電力行業(yè)事故事件數(shù)據(jù)。第一、二、三類數(shù)據(jù)資源的分布情況如圖1、圖2 及圖3 所示。
圖1 正常作業(yè)案例分布
圖2 違章作業(yè)案例分布
圖3 事故事件作業(yè)案例分布
本文使用電力作業(yè)大數(shù)據(jù)案例資源訓(xùn)練的基于頻率分析信息熵推理機(jī)模型(以下簡(jiǎn)稱模型),對(duì)廣東電網(wǎng)某地市電力作業(yè)數(shù)據(jù)進(jìn)行驗(yàn)證,如下是驗(yàn)證結(jié)果小結(jié)。
(1)對(duì)人工監(jiān)管發(fā)現(xiàn)的違章工單識(shí)別能力的驗(yàn)證
將廣東電網(wǎng)某地市提供的2018.4.1 到2018.7.31人工監(jiān)管發(fā)現(xiàn)的349 個(gè)違章工單作為作業(yè)工單輸入模型,得到模型輸出的結(jié)果如表5 所示。
表5 模型識(shí)別人工監(jiān)管發(fā)現(xiàn)的違章工單能力驗(yàn)證
(2)對(duì)同期作業(yè)工單發(fā)現(xiàn)違章工單能力的驗(yàn)證
將廣東電網(wǎng)某地市提供的2018.4.1 到2018.7.31的7243 個(gè)作業(yè)工單輸入模型,與同期人工監(jiān)管發(fā)現(xiàn)的198 個(gè)違章工單進(jìn)行比對(duì)分析,比對(duì)結(jié)果如表6 所示。
表6 對(duì)同期作業(yè)工單發(fā)現(xiàn)違章工單能力比對(duì)
表5 同期人工監(jiān)管發(fā)現(xiàn)的違章工單數(shù)量是349宗,而表6 同期人工監(jiān)管發(fā)現(xiàn)的違章工單數(shù)量是198宗。注意,表5 與表6 中同期人工監(jiān)管發(fā)現(xiàn)的違章工單數(shù)量是不一致,表6 剔除了其中的人工監(jiān)管發(fā)現(xiàn)的151 宗違章工單,因?yàn)檫@151 宗違章工單不包含在模型輸入的7243 個(gè)作業(yè)工單里面。
本文討論了目前大數(shù)據(jù)分析兩大主流學(xué)派(頻率學(xué)派和貝葉斯學(xué)派)對(duì)客觀世界研究對(duì)象認(rèn)識(shí)層面的差異,指出在人們對(duì)客觀世界研究對(duì)象的先驗(yàn)知識(shí)不足并可以得到足夠多的樣本數(shù)據(jù)情況下,應(yīng)用基于頻率分析的大數(shù)據(jù)分析方法,可以挖掘出隱含在大數(shù)據(jù)資源中有價(jià)值的信息,進(jìn)而建立基于統(tǒng)計(jì)推理的機(jī)器學(xué)習(xí)模型。
本文為基于頻率分析的大數(shù)據(jù)分析方法及數(shù)據(jù)挖掘提供了一個(gè)可以直接借鑒的案例,同時(shí)也對(duì)進(jìn)一步探討基于頻率分析的大數(shù)據(jù)分析方法的理論和應(yīng)用提供了實(shí)際應(yīng)用的支持。本文的研究工作對(duì)其他行業(yè)的大數(shù)據(jù)分析及數(shù)據(jù)挖掘也具有參考借鑒的意義。