代鴻元,王勇飛
(國(guó)電大渡河流域水電開發(fā)有限公司,四川 成都 610041)
國(guó)電大渡河流域水電開發(fā)有限公司(以下簡(jiǎn)稱“國(guó)電大渡河公司”)主要負(fù)責(zé)大渡河干流17個(gè)電站開發(fā)運(yùn)營(yíng),總裝機(jī)約18 000 MW,所屬各單位廣泛分布于大渡河流域及其他支流,工作呈現(xiàn)出點(diǎn)多、面廣、戰(zhàn)線長(zhǎng)等特征,加之面臨著庫(kù)壩規(guī)模大、廠房結(jié)構(gòu)復(fù)雜、設(shè)備形式多樣等諸多難點(diǎn)難題,提升安全生產(chǎn)科技化水平至關(guān)重要。按照國(guó)電大渡河公司智慧企業(yè)建設(shè)的總體目標(biāo)框架,大渡河安全風(fēng)險(xiǎn)管控?cái)?shù)據(jù)中心于2015年開始建立,2018年正式投運(yùn),已經(jīng)有了大量的數(shù)據(jù)積累。這些數(shù)據(jù)中蘊(yùn)含著隱患的特征及演化發(fā)展規(guī)律,為安全管控從業(yè)務(wù)驅(qū)動(dòng)型向數(shù)據(jù)驅(qū)動(dòng)型的轉(zhuǎn)變提供了基礎(chǔ),也為安全管控以人工經(jīng)驗(yàn)為主轉(zhuǎn)變到讓數(shù)據(jù)說話提供了可能。為切實(shí)抓好安全生產(chǎn),防范事故于未然,結(jié)合國(guó)電大渡河流域水電開發(fā)有限公司各單位安全生產(chǎn)實(shí)際情況,利用大渡河安全風(fēng)險(xiǎn)管控?cái)?shù)據(jù)中心安全隱患?xì)v史數(shù)據(jù),力圖挖掘隱藏在數(shù)據(jù)背后的規(guī)律,發(fā)現(xiàn)隱患之間的關(guān)聯(lián)關(guān)系,進(jìn)而開展新生安全隱患預(yù)測(cè)分析,實(shí)現(xiàn)安全隱患超前管控。
該研究以國(guó)電大渡河公司所屬16個(gè)單位的歷史安全隱患為基礎(chǔ)數(shù)據(jù),通過機(jī)器學(xué)習(xí)算法分析出特定空間、時(shí)間范圍內(nèi)安全隱患的關(guān)聯(lián),深挖隱患載體、隱患現(xiàn)象之間存在的促進(jìn)、依存、關(guān)聯(lián)等關(guān)系,自動(dòng)形成隱患之間的關(guān)聯(lián)規(guī)則,以此作為新生安全隱患預(yù)測(cè)的依據(jù),預(yù)測(cè)分析下一階段可能出現(xiàn)安全隱患的類別及概率,根據(jù)預(yù)測(cè)分析結(jié)果加強(qiáng)對(duì)相關(guān)區(qū)域、設(shè)備設(shè)施、工作活動(dòng)等重點(diǎn)管控,以期有效提升遏制安全事故發(fā)生的管控水平。
安全隱患預(yù)測(cè)分析以歷史安全隱患數(shù)據(jù)為基礎(chǔ),建立安全隱患關(guān)鍵詞數(shù)據(jù)辭典,通過對(duì)安全隱患關(guān)鍵詞的辨識(shí)、分析及應(yīng)用,選擇恰當(dāng)?shù)目臻g、時(shí)間維度,通過改進(jìn)Apriori算法挖掘不同安全隱患之間隱患載體和現(xiàn)象的關(guān)聯(lián),通過計(jì)算隱患載體之間的置信度、支持度和提升度,定量表征不同隱患載體之間的依存、促進(jìn)關(guān)系,進(jìn)而得到新生安全隱患發(fā)生的概率。
2.1.1創(chuàng)建安全隱患切詞方法
基于歷史安全隱患數(shù)據(jù)梳理安全隱患內(nèi)容中隱患載體、隱患現(xiàn)象等關(guān)鍵信息的描述文本,采用基于詞庫(kù)的最大概率匹配方法及隱馬爾可夫HMM分詞方法,匹配語料庫(kù)中已有詞匯并發(fā)現(xiàn)可能的未知詞匯,進(jìn)行詞性標(biāo)注,篩選出名詞、動(dòng)詞、形容詞等具有信息量的實(shí)詞,濾除“的、了”等無效字、詞,形成臨時(shí)詞庫(kù);對(duì)于專業(yè)性強(qiáng)的安全隱患文本,當(dāng)前還沒有一種分詞算法能達(dá)到人工分詞的準(zhǔn)確度,因此算法分詞所得結(jié)果僅作為過程詞庫(kù),在此基礎(chǔ)上,由多名安全業(yè)務(wù)專家參與人工校驗(yàn),結(jié)合實(shí)際的隱患記錄,逐條進(jìn)行校驗(yàn),形成修正的詞庫(kù),校驗(yàn)后的結(jié)果結(jié)合分詞算法再次進(jìn)行匹配,當(dāng)過程詞庫(kù)與修正詞庫(kù)完全一致時(shí),過程結(jié)束;否則,進(jìn)入下一輪算法分詞和人工校驗(yàn)的迭代,專用詞庫(kù)建立流程如圖1所示。以上方法既發(fā)揮了算法分詞的優(yōu)勢(shì),又可綜合不同專家的經(jīng)驗(yàn),為進(jìn)一步的隱患分析提供基礎(chǔ)。
圖1 專用詞庫(kù)建立方法
2.1.2建成安全隱患專用詞庫(kù)
采用業(yè)務(wù)模型與數(shù)據(jù)模型相結(jié)合的技術(shù)路線,在算法自動(dòng)分詞的基礎(chǔ)上,結(jié)合業(yè)務(wù)專家經(jīng)驗(yàn),通過迭代的方式創(chuàng)建了適用于國(guó)電大渡河公司的安全隱患特征詞庫(kù);其中載體詞庫(kù)713個(gè),隱患特征描述詞庫(kù)594個(gè),關(guān)鍵詞詞庫(kù)2 695個(gè)。詞庫(kù)有別于其他文本挖掘研究項(xiàng)目所建立的中文詞庫(kù)或是其他公開的常用語詞庫(kù),建成詞庫(kù)均為經(jīng)過人工校驗(yàn)的專業(yè)詞庫(kù),安全隱患詞庫(kù)如表1所示。通用詞庫(kù)并不能直接用于對(duì)專業(yè)性較強(qiáng)的隱患進(jìn)行切詞,建立的專用詞庫(kù),為后期建立有效的關(guān)聯(lián)模型墊定了基礎(chǔ)。
表1 安全隱患詞庫(kù)
2.2.1對(duì)Apriori關(guān)聯(lián)算法模型進(jìn)行適應(yīng)性改進(jìn)
經(jīng)典的Apriori算法在工業(yè)、商業(yè)等不同領(lǐng)域有著成熟的應(yīng)用,其遵循支持度、置信度框架,對(duì)于隱患關(guān)聯(lián)關(guān)系的挖掘而言,具有特殊性:不只是要發(fā)現(xiàn)傳統(tǒng)Apriori算法所能發(fā)現(xiàn)的后項(xiàng)RHS與前項(xiàng)LHS同時(shí)出現(xiàn)的伴隨關(guān)系,更希望能得到前項(xiàng)能促進(jìn)、誘導(dǎo)后項(xiàng)的發(fā)生,甚至是在一定程度上,作為后項(xiàng)出現(xiàn)的條件和原因。為此,本次研究中,除了支持度和置信度外,提出提升度和因果置信度作為關(guān)聯(lián)規(guī)則的主要衡量指標(biāo)。其計(jì)算方法是:
Lift(A→B)=P(AUB)/P(A)P(B)
(1)
casualConfidence=[confidence(X→Y)+confidence(!X→!Y)]/2
(2)
式中,Lift為提升度,其對(duì)于業(yè)務(wù)上的含義為,當(dāng)某個(gè)載體A發(fā)生隱患之后,能顯著提升載體B發(fā)生隱患的概率,如:不將A作為條件時(shí),B發(fā)生隱患的概率是3%,一旦A作為條件,B發(fā)生隱患的概率為9%,則提升度為3;P(A)P(B)為A不作為條件時(shí)B發(fā)生的概率;casualConfidence為因果置信度,其對(duì)于業(yè)務(wù)上的含義為,當(dāng)載體X發(fā)生隱患時(shí),Y發(fā)生隱患的概率較大;當(dāng)X不發(fā)生隱患時(shí),Y不發(fā)生隱患的概率也較大。因此,因果置信度較之于經(jīng)典算法中的置信度,具有更強(qiáng)的推斷能力;confidence(X→Y)為X、Y同時(shí)發(fā)生的置信度;confidence(!X→!Y)]為X、Y同時(shí)不發(fā)生的置信度。
2.2.2形成安全隱患關(guān)聯(lián)規(guī)則
在建立專業(yè)詞庫(kù)的基礎(chǔ)上,為了挖掘隱患載體之間的正向關(guān)聯(lián)關(guān)系,在改進(jìn)Apriori算法的基礎(chǔ)上,通過提升度和因果置信度來挖掘、過濾強(qiáng)關(guān)聯(lián)模式,更加準(zhǔn)確地提供了新生安全隱患的預(yù)測(cè)概率。
關(guān)聯(lián)規(guī)則以7 d為周期,2018年9月30日前安全隱患關(guān)聯(lián)規(guī)則如表2所示,安全隱患關(guān)聯(lián)關(guān)系如圖2所示(大圓代表隱患載體,小圓代表隱患現(xiàn)象,五角星代表關(guān)聯(lián)性強(qiáng)的隱患載體),體現(xiàn)了不同隱患載體與現(xiàn)象之間的關(guān)系。
表2 隱患載體關(guān)聯(lián)規(guī)則
圖2 安全隱患關(guān)聯(lián)關(guān)系
通過安全隱患預(yù)測(cè)與實(shí)際發(fā)生對(duì)比,選取7 d為窗口長(zhǎng)度,以2018年10月出現(xiàn)的安全隱患驗(yàn)證之前形成的關(guān)聯(lián)規(guī)則,正確率為100%;因2018年10月出現(xiàn)的隱患中較之前關(guān)聯(lián)規(guī)則相比,新出現(xiàn)的隱患較多,所以規(guī)則對(duì)2018年10月的安全隱患覆蓋率較低,隨著數(shù)據(jù)不斷積累,覆蓋率將會(huì)增加,計(jì)算公式如下:
正確率precision=同一窗口期三天內(nèi)包含同一規(guī)則后項(xiàng)記錄數(shù)/窗口期內(nèi)包含規(guī)則前項(xiàng)記錄數(shù)
(3)
覆蓋率recall=窗口期內(nèi)記錄中包含規(guī)則前項(xiàng)記錄數(shù)/窗口期內(nèi)記錄數(shù)
(4)
通過10月隱患數(shù)據(jù)預(yù)測(cè)未來3 d的隱患正確率、覆蓋率如表3所示。
2018年10月安全隱患實(shí)際發(fā)生結(jié)果與關(guān)聯(lián)規(guī)則對(duì)比如表4所示,與電纜有關(guān)安全隱患關(guān)系如圖3所示,與通風(fēng)窗有關(guān)的安全隱患關(guān)系如圖4所示。
安全隱患預(yù)測(cè)分析主要是以國(guó)電大渡河公司所屬各水電站歷史發(fā)生的安全隱患數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)庫(kù),建立安全隱患關(guān)鍵詞數(shù)據(jù)辭典,通過對(duì)安全隱患關(guān)鍵詞的辨識(shí)、分析及應(yīng)用,選擇恰當(dāng)?shù)目臻g、時(shí)間、維度,挖掘不同安全隱患之間隱患載體和現(xiàn)象的關(guān)聯(lián),應(yīng)用改進(jìn)的Apriori算法模型計(jì)算出安全隱患關(guān)鍵詞之間的置信度、支持度、提升度、因果置信度等指標(biāo),得到新生安全隱患發(fā)生的概率。通過這一方法,可以及時(shí)預(yù)測(cè)、分析公司各單位安全隱患動(dòng)態(tài),將隱患扼殺于搖籃之中,同時(shí)也為安全管理提供理論基礎(chǔ),讓安全管理決策有據(jù)可依,保障安全生產(chǎn)形勢(shì)持續(xù)穩(wěn)定。
表3 未來3 d隱患預(yù)測(cè)
表4 新生隱患預(yù)測(cè)與實(shí)際發(fā)生對(duì)比結(jié)果
圖3 與電纜有關(guān)的隱患關(guān)聯(lián)關(guān)系
圖4 與通風(fēng)窗相關(guān)的隱患關(guān)聯(lián)關(guān)系
安全隱患預(yù)測(cè)分析從根本上解決了“無人值班(少人值守),遠(yuǎn)方集控”新型生產(chǎn)管理模式下的安全管理問題,也是現(xiàn)代企業(yè)安全管理的發(fā)展趨勢(shì),將安全風(fēng)險(xiǎn)管理與既有安全管理有機(jī)融合,抓好每一個(gè)環(huán)節(jié)的風(fēng)險(xiǎn)的辯識(shí)、評(píng)估、整治,最大程度地降低安全風(fēng)險(xiǎn),使安全生產(chǎn)工作更具超前性、針對(duì)性,將“事后處理”向“事前防控”轉(zhuǎn)變,使企業(yè)真正達(dá)到“本質(zhì)安全”的最終目標(biāo)。
安全隱患預(yù)測(cè)分析在國(guó)電大渡河公司的成功應(yīng)用,可為水電站、流域電站的安全管理提供理論基礎(chǔ)和借鑒,推動(dòng)智慧電廠建設(shè)的步伐。
安全隱患預(yù)測(cè)分析研究是以企業(yè)安全生產(chǎn)預(yù)警體系論為指導(dǎo),針對(duì)電力安全生產(chǎn)隱患排查治理和風(fēng)險(xiǎn)分級(jí)管控雙重機(jī)制建立而提出的一種新型的、具有創(chuàng)造意義的研究課題。充分利用現(xiàn)有的安全隱患數(shù)據(jù)資源,結(jié)合信息化技術(shù)和模型特征對(duì)現(xiàn)場(chǎng)固有隱患排查數(shù)據(jù)進(jìn)行分析論證,建立一種能夠監(jiān)測(cè)、診斷、預(yù)警、預(yù)控新生安全隱患發(fā)生的體系系統(tǒng)。
目前已初步實(shí)現(xiàn)安全隱患分析預(yù)警功能,但局限于采集的隱患排查基礎(chǔ)數(shù)據(jù)完整性、準(zhǔn)確性和關(guān)聯(lián)性還存在欠缺,分析預(yù)警結(jié)果還存在一定的不穩(wěn)定和偏差,尤其是關(guān)聯(lián)規(guī)則覆蓋率較低。下一步,通過持續(xù)的注入大量基礎(chǔ)數(shù)據(jù)來優(yōu)化模型結(jié)果,使其不斷適應(yīng)現(xiàn)場(chǎng)變化的因素,逐步實(shí)現(xiàn)分電站、分區(qū)域、分專業(yè)分析預(yù)警功能;同時(shí),隨著安全隱患預(yù)測(cè)預(yù)警結(jié)果有效性和針對(duì)性的提升,可進(jìn)一步拓展其應(yīng)用在整個(gè)安全生產(chǎn)領(lǐng)域中的關(guān)聯(lián)性,將新生安全隱患和安全風(fēng)險(xiǎn)分級(jí)管控進(jìn)一步關(guān)聯(lián),通過風(fēng)險(xiǎn)評(píng)估等方式方法將新生安全隱患自動(dòng)轉(zhuǎn)換為對(duì)應(yīng)危險(xiǎn)源點(diǎn),按嚴(yán)重程度進(jìn)行分級(jí)預(yù)警,不斷提高安全生產(chǎn)領(lǐng)域安全風(fēng)險(xiǎn)自動(dòng)預(yù)判、自主決策、自我演進(jìn)的智能化功能提升,為安全管理提供有效支持和決策依據(jù)。