詹 平,劉飛翔,趙嘉良
(1.山西潞安集團(tuán) 潞寧煤業(yè)有限責(zé)任公司,山西 忻州 036700;2.華北科技學(xué)院 礦山安全學(xué)院,北京 東燕郊 065201)
隨著煤礦數(shù)字化與智能化進(jìn)程逐步推進(jìn),煤礦安全隱患管理系統(tǒng)已經(jīng)在全國煤礦大范圍使用,這給煤礦事故隱患排查治理工作帶來了非常大的便利[1-3]。然而,在煤礦建設(shè)工作的進(jìn)一步智能化要求面前,安全隱患管理系統(tǒng)中記錄、統(tǒng)計(jì)、過程管控等基本功能已經(jīng)不能滿足日漸提升的智能化要求,缺少行之有效的深度分析方法,對(duì)積累的大量安全生產(chǎn)隱患數(shù)據(jù)分析深度不足[4]。
目前,已有研究對(duì)煤礦隱患挖掘和預(yù)測(cè)進(jìn)行多次探索。趙作鵬等[5]建立煤礦隱患數(shù)據(jù)挖掘模型,分析挖掘算法及隱患多維數(shù)據(jù)間的聯(lián)系;陳運(yùn)啟[6]利用支持度-置信度-Kulczynski度量模式發(fā)現(xiàn)因素間關(guān)聯(lián)規(guī)則,為輔助性決策提供了有利依據(jù);楊中等[7]對(duì)有限煤礦事故樣本統(tǒng)計(jì)并進(jìn)行灰色關(guān)聯(lián)處理,建立相應(yīng)的灰色預(yù)測(cè)模型;趙丹等[8]通過支持向量機(jī)建立分類預(yù)測(cè)模型預(yù)測(cè)爆炸危險(xiǎn)等級(jí),協(xié)助危險(xiǎn)性評(píng)估工作的開展;蘭建義等[9]建立SCGM(1,1)_c預(yù)測(cè)模型,對(duì)我國煤礦事故百萬噸死亡率成功進(jìn)行了預(yù)測(cè);王玉麗、李闖等[10-11]改進(jìn)馬爾科夫預(yù)測(cè)模型,并將其與時(shí)間序列預(yù)測(cè)模型及灰色預(yù)測(cè)GM(1,1)進(jìn)行對(duì)比,證明了預(yù)測(cè)模型在煤礦瓦斯事故數(shù)量、頂板事故致死人數(shù)預(yù)測(cè)中的精確程度與實(shí)用性。
然而,現(xiàn)有研究大多是對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析研究,對(duì)于非結(jié)構(gòu)化文本數(shù)據(jù)研究相對(duì)缺乏。因此,如何從海量隱患文本數(shù)據(jù)中獲取有價(jià)值信息,進(jìn)而指導(dǎo)安全管理,是目前亟待解決的問題。本文利用LDA主題模型對(duì)煤礦安全隱患文本中的主題類型進(jìn)行挖掘與分析后,結(jié)合ARIMA時(shí)間預(yù)測(cè)模型對(duì)煤礦隱患數(shù)量趨勢(shì)進(jìn)行預(yù)測(cè),可為煤礦安全生產(chǎn)管理人員日常隱患管理及決策提供輔助決策支持,保障煤礦安全生產(chǎn)的順利進(jìn)行。
LDA(Latent Dirichlet Allocation)模型是基于概率的統(tǒng)計(jì)模型。該模型分為文檔層、主題層和詞匯層,如圖1所示。LDA主題模型理念認(rèn)為,文檔是由許多具有明確意義的特征詞組成的,其應(yīng)用的意義就在于通過顯化文檔和特征詞,計(jì)算其中隱含的主題信息。
圖1 LDA模型拓?fù)浣Y(jié)構(gòu)示意
以LDA主題模型觀點(diǎn)來看,每篇文檔中存在某些隱含主題,這些主題分別由某些在某方面高度相關(guān)的詞匯組成。其特征值表示對(duì)應(yīng)詞匯在該主題下出現(xiàn)的頻率。該頻率與詞匯、主題關(guān)聯(lián)性成正相關(guān)。同時(shí),整篇文檔又由高度差異化的各類主題構(gòu)成。一個(gè)特征詞可以出現(xiàn)在多個(gè)主題下,但是由于分布概率差異,每個(gè)特征詞大概率會(huì)被歸類至與其關(guān)聯(lián)程度最高的主題,從而實(shí)現(xiàn)特征詞分類。
煤礦事故隱患文本含有大量專業(yè)詞匯,且記錄人員較為繁雜,記錄規(guī)范程度較低,煤礦積累的事故隱患文本數(shù)據(jù)量較大,因此使用LDA主題模型從煤礦事故隱患臺(tái)賬和隱患文本特征詞中探尋煤礦事故隱患的隱含主題,具有一定可行性。
在建立LDA主題模型前,需要提前確定該語料下包含的主題個(gè)數(shù),因此需要考慮最佳主題數(shù)的選取,從而使聚類結(jié)果達(dá)到最優(yōu)。最佳主題數(shù)選取一直是聚類問題的核心,也是影響和評(píng)價(jià)聚類結(jié)果關(guān)鍵性因素之一[12]。
本文采用困惑度來確定最佳主題個(gè)數(shù)。計(jì)算中,LDA主題模型的最終質(zhì)量和困惑度大小成負(fù)相關(guān)。困惑度的計(jì)算公式為:
(1)
式中:分母為文檔集M的總長(zhǎng)度。分子中的p(wd,i)為文檔集M中第d篇文檔出現(xiàn)第i個(gè)單詞的概率,計(jì)算公式為p(wd,i)=p(z|d)×p(w|z),其中p(z|d)為任意主題在某文檔中出現(xiàn)的概率,p(w|z)為任意特征詞在某主題下出現(xiàn)的概率。
ARIMA(自回歸差分移動(dòng)平均模型)是將一個(gè)非平穩(wěn)時(shí)間序列經(jīng)過差分操作從而消除其局部趨勢(shì)后,使其符合ARMA模型要求,從而可以進(jìn)行時(shí)序預(yù)測(cè)的方法。該模型有3個(gè)基本參數(shù):p,d,q.分別為自回歸項(xiàng)階數(shù)、差分次數(shù)、移動(dòng)平均的項(xiàng)數(shù)[13-15]。
煤礦隱患數(shù)量變化趨勢(shì)既受外在人機(jī)環(huán)管等因素的影響,又由于監(jiān)管原因受到自身歷史值影響,因此采用ARIMA模型對(duì)煤礦隱患數(shù)量趨勢(shì)進(jìn)行預(yù)測(cè)是可行的。
建立基于ARIMA的隱患預(yù)測(cè)模型步驟如下:
第1步,獲取被觀測(cè)系統(tǒng)時(shí)間序列數(shù)據(jù)。根據(jù)時(shí)間順序?qū)⒛繕?biāo)序列依次排列,計(jì)算其ACF(自相關(guān)系數(shù))與PACF(偏自相關(guān)函數(shù))并進(jìn)行繪圖,根據(jù)其圖像對(duì)數(shù)據(jù)的平穩(wěn)性進(jìn)行檢驗(yàn)。
第2步,對(duì)該非平穩(wěn)時(shí)序數(shù)據(jù)進(jìn)行差分將序列平穩(wěn)化處理。利用t與t-1時(shí)刻差值進(jìn)行繪圖,再根據(jù)繪制圖形繼續(xù)進(jìn)行多次差分處理,直至圖像趨于平穩(wěn),完成平穩(wěn)化處理。
第3步,根據(jù)識(shí)別規(guī)則(見表1)建立相應(yīng)模型并求解p,q.其中ACF反應(yīng)了同一序列在不同時(shí)刻取值的相關(guān)性,PACF反應(yīng)了某時(shí)刻序列與該序列歷史值的相關(guān)關(guān)系。截尾是指該函數(shù)在某階后突然衰減,從而導(dǎo)致95%點(diǎn)落在置信區(qū)間內(nèi)的性質(zhì)。
表1 ARIMA模型識(shí)別原則
第4步,根據(jù)AIC(赤池信息準(zhǔn)則)或BIC(貝葉斯信息準(zhǔn)則)對(duì)模型參數(shù)定階。
第5步,對(duì)歷史數(shù)據(jù)訓(xùn)練集進(jìn)行假設(shè)檢驗(yàn),診斷其可行性。根據(jù)第4步得到的參數(shù)建立ARIMA模型并得出結(jié)果,診斷模型精度。若模型精度較低,則重新選擇模型參數(shù)。
第6步,若模型通過上述各項(xiàng)檢驗(yàn),則使用歷史數(shù)據(jù)測(cè)試集對(duì)其進(jìn)行檢驗(yàn),對(duì)比模型預(yù)測(cè)結(jié)果和實(shí)際數(shù)據(jù)。ARIMA模型構(gòu)建流程如圖2所示。
圖2 模型構(gòu)建流程
通過收集整理某煤礦安全生產(chǎn)信息系統(tǒng)中隱患排查記錄信息,得到其在2011年6月—2019年9月的歷史記錄。經(jīng)過分析與篩選,保留了其中有數(shù)據(jù)挖掘價(jià)值的信息,其中包括:檢查時(shí)間、班次、隱患內(nèi)容、整改措施等,相關(guān)的字段信息如表2所示。
表2 數(shù)據(jù)集相關(guān)字段信息
以一條隱患文本數(shù)據(jù)“8513回風(fēng)巷部分風(fēng)管接頭處漏風(fēng)”為例,本文選用中文領(lǐng)域內(nèi)的Jieba分詞器對(duì)目標(biāo)事故隱患文本進(jìn)行分詞。其初步分詞結(jié)果為:“8513/回風(fēng)/順槽/部分/風(fēng)/管/接頭/處/漏風(fēng)”。上述的分詞結(jié)果中存在對(duì)文本分析無作用的單字,如“風(fēng)/管接頭”、“回風(fēng)/順槽”等專有名詞被錯(cuò)誤的分割,所以需要設(shè)置停用詞庫處理無意義詞匯,同時(shí)設(shè)置自定義詞庫以正確分割專有名詞。
另外,煤礦事故隱患文本中的專業(yè)詞匯較多,在分詞之前,首先對(duì)自定義詞典進(jìn)行配置,從而提高分詞準(zhǔn)確率。在本文中,自定義詞典來源于搜狗詞庫中的《采礦工程》、《礦山工程》、《煤礦工作》、《煤炭分析庫》和自定義詞匯五部分。本文構(gòu)建一份包括2 139個(gè)煤礦專業(yè)名詞的煤礦事故隱患自定義詞典。在使用煤礦事故隱患定義詞典,同時(shí)通過手動(dòng)自定義建立停用詞庫之后,得到的分詞結(jié)果為:“8513/回風(fēng)順槽/風(fēng)管/接頭/漏風(fēng)”。
將分詞完成的隱患文本構(gòu)建為文本向量,并作為詞典保存,為隱患文本聚類奠定相應(yīng)的基礎(chǔ)。
2.3.1 確定主題數(shù)量
在文本向量轉(zhuǎn)化完畢之后,就可以開始通過計(jì)算機(jī)程序構(gòu)建隱患文本主題模型。首先通過計(jì)算困惑度的方式估計(jì)最佳主題個(gè)數(shù)。令主題數(shù)K依次取10,20,30……,將處理完畢的語料庫帶入構(gòu)建的python程序,得到當(dāng)LDA主題模型取不同主題個(gè)數(shù)時(shí)對(duì)應(yīng)的困惑度變化圖像,如圖3所示。最小困惑度對(duì)應(yīng)的主題個(gè)數(shù)就是計(jì)算得到最優(yōu)主題數(shù)的估計(jì)值,即圖中拐點(diǎn)K=24.
圖3 主題數(shù)量困惑度曲線
2.3.2 LDA主題模型應(yīng)用
確定最佳主題后,代入?yún)?shù),選擇迭代次數(shù)1 000次,對(duì)煤礦事故隱患文本主題進(jìn)行挖掘,經(jīng)LDA主題模型計(jì)算得到24類主題,每個(gè)主題包括概率最高的前15個(gè)詞。根據(jù)《安全生產(chǎn)法》規(guī)定,進(jìn)一步去除噪聲主題,篩選出優(yōu)質(zhì)主題,最終確定14類隱患主題,主題與其關(guān)鍵詞如表3所示。
表3 隱患主題及其關(guān)鍵詞
將挖掘完畢的主題與對(duì)應(yīng)關(guān)鍵詞匹配至原隱患文本,通過Python程序統(tǒng)計(jì)得出各類隱患在歷史發(fā)生情況中的時(shí)間分布并保存,用于下文的預(yù)測(cè)。根據(jù)以上主題挖掘模型可得出,在煤礦安全生產(chǎn)過程中,共有以上14類事故隱患較容易發(fā)生。因此,根據(jù)每個(gè)主題對(duì)應(yīng)的特征詞,可以總結(jié)出各類事故隱患對(duì)應(yīng)的排查要點(diǎn),具體內(nèi)容如表4所示。
表4 各類事故隱患排查要點(diǎn)
2.4.1 數(shù)據(jù)平穩(wěn)性處理與檢驗(yàn)
在確定了煤礦的主題類別后,從中選擇生產(chǎn)設(shè)備類隱患的關(guān)鍵詞統(tǒng)計(jì)數(shù)據(jù)為例,對(duì)該煤礦進(jìn)行生產(chǎn)設(shè)備類隱患數(shù)量的趨勢(shì)預(yù)測(cè)。本文通過整理該礦生產(chǎn)設(shè)備類月隱患數(shù)量,共計(jì)得到101個(gè)月的時(shí)序數(shù)據(jù)。部分原始數(shù)據(jù)如表5所示。
表5 生產(chǎn)設(shè)備類隱患數(shù)量
在對(duì)隱患數(shù)據(jù)進(jìn)行時(shí)序預(yù)測(cè)之前,需要對(duì)檢驗(yàn)數(shù)據(jù)平穩(wěn)性。對(duì)原始隱患統(tǒng)計(jì)數(shù)據(jù)進(jìn)行單位根檢驗(yàn)(ADF檢驗(yàn)),其檢驗(yàn)值如表6所示。從表中可以看出,原數(shù)據(jù)進(jìn)行一階差分后,其中P值遠(yuǎn)小于0.05,此時(shí)數(shù)據(jù)平穩(wěn)性已經(jīng)滿足模型要求,可以在下一步的建模中使用一階差分后的數(shù)據(jù)。
表6 序列變換操作及各項(xiàng)參數(shù)
2.4.2 確定模型參數(shù)
將上述一階差分變換后的數(shù)據(jù)作自相關(guān)與偏自相關(guān)系數(shù)圖像,進(jìn)而確定ARIMA預(yù)測(cè)模型的參數(shù)范圍,如圖4所示。
圖4 ACF與PACF圖像
根據(jù)圖4可知,ACF和PACF圖像都成振蕩狀態(tài),呈現(xiàn)出較好的拖尾性,因此,一階差分變換后的序列數(shù)據(jù)符合ARIMA模型。同時(shí)由于模型階數(shù)通常不會(huì)超過預(yù)測(cè)數(shù)據(jù)的1/10[16],因此確定p、q的取值范圍為[0,10]。在p、q確定的范圍內(nèi)進(jìn)行循環(huán)遍歷計(jì)算,來計(jì)算不同模型的赤池信息值,如圖5所示。
圖5 赤池信息值熱力圖
根據(jù)圖5可以看出,赤池信息值最小值為935.55,從而選擇模型參數(shù)最優(yōu)解為p=9,q=4,d=1,但由于7次自回歸模型相對(duì)較復(fù)雜,考慮到模型簡(jiǎn)化問題,因此選取赤池信息值為942.30時(shí),即p=0,q=6,d=1作為模型參數(shù)。
2.4.3 數(shù)據(jù)擬合及檢驗(yàn)
將101個(gè)月的煤礦生產(chǎn)設(shè)備隱患類時(shí)序數(shù)據(jù)分為訓(xùn)練集(90個(gè)月)和測(cè)試集(21個(gè)月)兩部分。利用ARIMA預(yù)測(cè)模型計(jì)算得到相應(yīng)的擬合效果圖,如圖6所示。
圖6 擬合效果圖
同時(shí),利用Python中的診斷函數(shù)對(duì)擬合出的模型進(jìn)行模型診斷。診斷圖如圖7所示。在圖7中,由標(biāo)準(zhǔn)化殘差圖7(a)可以看出,該模型預(yù)測(cè)值與實(shí)際值的殘差不存在周期性規(guī)律,基本成白噪聲形狀。該結(jié)論可以通過殘差分布直方圖7(b)特性佐證,且殘差分布直方圖的的殘差紅色KDE線與正態(tài)分布曲線基本重合。同樣,理論-實(shí)際分布圖7(c)表示,殘差分布遵循標(biāo)準(zhǔn)正態(tài)分布。自相關(guān)系數(shù)圖像圖7(d)表明,該時(shí)間序列殘差與其本身的滯后值不具有明顯相關(guān)性。綜上所述,本文建立的ARIMA預(yù)測(cè)模型滿足殘差檢驗(yàn)條件,可以對(duì)煤礦生產(chǎn)設(shè)備類的隱患進(jìn)行預(yù)測(cè)。
圖7 模型精度檢驗(yàn)
2.4.4 隱患預(yù)測(cè)
應(yīng)用本文所建立的ARIMA預(yù)測(cè)模型,對(duì)該煤礦2019年10月和11月煤礦生產(chǎn)設(shè)備類隱患數(shù)量進(jìn)行預(yù)測(cè),計(jì)算結(jié)果分別為66和90起。在煤礦下一步的隱患排查治理過程中,需要煤礦安全生產(chǎn)管理人員加強(qiáng)隱患治理相關(guān)的培訓(xùn),同時(shí)加強(qiáng)該煤礦生產(chǎn)設(shè)備類隱患的排查與治理,切實(shí)提高煤礦的隱患排查治理能力,保障煤礦的安全生產(chǎn)。
本文在收集某煤礦歷史隱患數(shù)據(jù)基礎(chǔ)上,建立了LDA主題模型與ARIMA預(yù)測(cè)模型,并在該煤礦進(jìn)行了相關(guān)應(yīng)用研究,得出如下結(jié)論:
1) 利用已構(gòu)建的LDA主題模型對(duì)煤礦非結(jié)構(gòu)化安全隱患信息進(jìn)行了主題信息挖掘,揭示了隱患內(nèi)容與隱患類型之間的關(guān)系。本文確定了該煤礦14類較容易發(fā)生事故的隱患,并根據(jù)每個(gè)主題對(duì)應(yīng)特征詞,總結(jié)出14類事故隱患對(duì)應(yīng)的排查要點(diǎn),為煤礦現(xiàn)場(chǎng)管理人員提供參考并提升煤礦隱患排查治理能力。
2) 運(yùn)用ARIMA算法模型對(duì)該煤礦近2個(gè)月的生產(chǎn)設(shè)備類隱患進(jìn)行了趨勢(shì)預(yù)測(cè),從圖中可以看出,近兩個(gè)月的隱患數(shù)量有增加的趨勢(shì),需要煤礦的相關(guān)管理人員加強(qiáng)隱患方面的培訓(xùn)力度,加大煤礦安全隱患的管理,預(yù)防和控制生產(chǎn)設(shè)備隱患的發(fā)生,保障煤礦安全生產(chǎn)的順利進(jìn)行。