摘要:城鎮(zhèn)燃?xì)夤芫W(wǎng)作為重要的滿足群眾生活需求的基礎(chǔ)設(shè)施,其安全性對于保障廣大人民群眾的財(cái)產(chǎn)與生命安全具有重要意義。以810件國內(nèi)城鎮(zhèn)燃?xì)夤艿佬孤?、爆炸事故案例為樣本,采用文本挖掘技術(shù)對樣本案例進(jìn)行分詞處理,根據(jù)TF-IDF算法統(tǒng)計(jì)詞頻并確定導(dǎo)致燃?xì)夤艿佬孤┑年P(guān)鍵風(fēng)險(xiǎn)因素;通過共現(xiàn)分析實(shí)現(xiàn)風(fēng)險(xiǎn)因素間關(guān)系的可視化,計(jì)算中心性指標(biāo),確定風(fēng)險(xiǎn)因素集合;基于Apriori算法揭示了燃?xì)夤艿腊踩L(fēng)險(xiǎn)因素之間的關(guān)聯(lián)規(guī)則。研究發(fā)現(xiàn):在城鎮(zhèn)燃?xì)夤艿狸P(guān)鍵風(fēng)險(xiǎn)因素識別過程中,文本挖掘方法與傳統(tǒng)方法分析結(jié)果基本一致;在次要因素分析中,管道設(shè)備老化、安全生產(chǎn)過程中的員工培訓(xùn)、安全保護(hù)措施、審批程序不完善等因素,相較以往研究都呈現(xiàn)出了與燃?xì)馐鹿矢鼜?qiáng)的關(guān)聯(lián)程度,這為管道安全管理提供了新的視角。
關(guān)鍵詞:城鎮(zhèn)燃?xì)夤艿溃伙L(fēng)險(xiǎn)因素;文本挖掘;共現(xiàn)分析;關(guān)聯(lián)規(guī)則挖掘
中圖分類號:TU996
文獻(xiàn)標(biāo)識碼:A
文章編號:1673-5595(2024)03-0010-08
一、引言及文獻(xiàn)綜述
隨著我國燃?xì)馄占奥实牟粩嗵岣撸細(xì)夤艿冷佋O(shè)長度快速增長,發(fā)展重心逐漸轉(zhuǎn)移到城鎮(zhèn)民用管道。[1]作為城市安全運(yùn)行管理的重要組成部分,燃?xì)獍踩芾砼c城市日常生活息息相關(guān),一旦發(fā)生燃?xì)夤艿佬孤?、火?zāi)、爆炸事故,將造成財(cái)產(chǎn)損失,甚至嚴(yán)重威脅人民群眾的生命安全。當(dāng)前,我國燃?xì)馐褂靡?guī)模不斷增大,燃?xì)獍踩[患點(diǎn)多面廣,燃?xì)馐鹿蕰r(shí)有發(fā)生。根據(jù)中國城市燃?xì)鈪f(xié)會發(fā)布的《全國燃?xì)馐鹿史治鰣?bào)告》(2022年·全年綜述)統(tǒng)計(jì),2022年全年共收集到媒體報(bào)道的國內(nèi)(不含港澳臺)燃?xì)馐鹿?02起,造成66人死亡、487人受傷,其中重大事故0起、較大事故10起,事故分布在全國30個(gè)省份、249個(gè)城市。[2]近年來,大型燃?xì)馐鹿暑l發(fā),給社會造成了嚴(yán)重后果和不良影響。例如,2016年4月10日,北京海淀區(qū)某小區(qū)進(jìn)行施工作業(yè)時(shí),挖斷燃?xì)夤艿缹?dǎo)致燃?xì)庑孤?,引發(fā)了燃?xì)獗ㄊ鹿?,致?人死亡、2人受傷;2017年7月4日,吉林省松原市寧江區(qū)繁華路發(fā)生城市燃?xì)夤艿佬孤┍ㄊ鹿?,造?人死亡、85人受傷;2021年6月13日,湖北省十堰市張灣區(qū)艷湖小區(qū)發(fā)生天然氣爆炸事故,41廠菜市場被炸毀,爆炸造成25人死亡、138人受傷(其中37人重傷)。由于燃?xì)馐鹿示哂型话l(fā)性、危害性、損失大等特點(diǎn),備受廣大社會民眾、燃?xì)饨?jīng)營企業(yè)、相關(guān)學(xué)術(shù)研究機(jī)構(gòu)和政府機(jī)構(gòu)的關(guān)注。一直以來,我國對安全問題十分重視,2023年,為了避免如“湖北十堰6·13”此類大型安全生產(chǎn)事故再次發(fā)生,國務(wù)院安委會發(fā)布了《全國重大事故隱患專項(xiàng)排查整治2023行動總體方案》,燃?xì)庑袠I(yè)作為重點(diǎn)行業(yè)領(lǐng)域出現(xiàn)在方案中。各級政府及相關(guān)安全管理部門頒布的《關(guān)于在重點(diǎn)行業(yè)和領(lǐng)域開展安全生產(chǎn)隱患排查治理專項(xiàng)行動的通知》和《安全生產(chǎn)事故隱患排查治理暫行規(guī)定》,也對各行各業(yè)安全隱患識別排查及風(fēng)險(xiǎn)管控提出了較高的要求。[3]對城鎮(zhèn)燃?xì)夤艿肋M(jìn)行風(fēng)險(xiǎn)評價(jià),加強(qiáng)事前預(yù)防避免事故發(fā)生,已成為管道安全管理和風(fēng)險(xiǎn)控制的有效手段。[4]風(fēng)險(xiǎn)因素識別作為風(fēng)險(xiǎn)評價(jià)的重要環(huán)節(jié),既是風(fēng)險(xiǎn)管理的基礎(chǔ),也是開展安全生產(chǎn)工作的前提。因此,對燃?xì)夤艿肋\(yùn)營過程中存在的風(fēng)險(xiǎn)因素進(jìn)行識別與分析,對保障人民生命和財(cái)產(chǎn)安全意義重大。
當(dāng)前,燃?xì)夤艿缹?shí)際運(yùn)營管理過程中的風(fēng)險(xiǎn)因素,主要依賴于專家經(jīng)驗(yàn)和現(xiàn)場工作人員人為識別。董宏理[5]、楊茂華等[6]將改進(jìn)的安全檢查表應(yīng)用于燃?xì)獍踩u估過程,建立安全檢查標(biāo)準(zhǔn);曾小康等[7]根據(jù)國家標(biāo)準(zhǔn)和規(guī)范,結(jié)合專家經(jīng)驗(yàn),識別、歸納了105項(xiàng)風(fēng)險(xiǎn)影響因素,并以此建立燃?xì)夤芫W(wǎng)風(fēng)險(xiǎn)評估體系。也有一些學(xué)者為了提高客觀性,對收集到的管道失效數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,并以此作為風(fēng)險(xiǎn)因素識別的依據(jù)。Belvederesi等[8]基于管道數(shù)據(jù)庫,統(tǒng)計(jì)分析管道失效后果與各相關(guān)變量間的關(guān)系,確定了以管道設(shè)計(jì)過程為主的燃?xì)夤艿里L(fēng)險(xiǎn)因素;楊玉鋒等[9]以美國燃?xì)夤艿朗?shù)據(jù)庫為依據(jù)將風(fēng)險(xiǎn)因素歸為7類。近年來,對管道失效風(fēng)險(xiǎn)因素的關(guān)注程度呈上升趨勢,應(yīng)用于風(fēng)險(xiǎn)因素識別的方法也逐漸增多,越來越多的學(xué)者將專家經(jīng)驗(yàn)與數(shù)據(jù)統(tǒng)計(jì)結(jié)合起來識別風(fēng)險(xiǎn)因素,并輔以模型分析。索瑋嵐等[10]利用人工梳理和二元語義表示模型,分析提煉城市管線運(yùn)行的風(fēng)險(xiǎn)因素集合,并通過問卷調(diào)查征求專家及企業(yè)意見進(jìn)行篩選和修正;杜雨霽等[11]利用德爾菲法向燃?xì)夤鞠嚓P(guān)專家展開調(diào)研,確認(rèn)燃?xì)夤芫W(wǎng)風(fēng)險(xiǎn)評估變量集合,并采用因子分析法構(gòu)建風(fēng)險(xiǎn)評估指標(biāo)體系。
隨著技術(shù)的發(fā)展,各個(gè)行業(yè)的風(fēng)險(xiǎn)因素識別開始應(yīng)用各種科學(xué)算法,一些學(xué)者運(yùn)用機(jī)器學(xué)習(xí)算法[12-13]采集施工現(xiàn)場的事故數(shù)據(jù),識別工作活動中的關(guān)鍵事項(xiàng);或運(yùn)用眼動儀技術(shù)[14]分析人為因素對風(fēng)險(xiǎn)因素識別的影響。文本挖掘是一種從非結(jié)構(gòu)化的文本信息中提取潛在知識和模式的過程,其應(yīng)用范圍廣泛。目前該方法在安全領(lǐng)域方面主要應(yīng)用于建筑施工作業(yè)、煤礦生產(chǎn)、交通運(yùn)輸?shù)刃袠I(yè);其應(yīng)用方式主要包括詞頻分析、因果分析,或與其他方法共同使用。譚章祿等[15]、陳聰聰?shù)龋?6]都對煤礦事故隱患描述進(jìn)行文本挖掘分析,統(tǒng)計(jì)高頻隱患,指導(dǎo)隱患治理;Qiu等[17]基于文本挖掘技術(shù),探索煤礦事故致因機(jī)理,構(gòu)建事故因果關(guān)系網(wǎng)絡(luò);Xu等[18]采用文本挖掘方法提取出43個(gè)安全風(fēng)險(xiǎn)因素,并在此基礎(chǔ)上提出了一種多層解釋結(jié)構(gòu)模型確定風(fēng)險(xiǎn)之間的相互作用;Kwayu等[19]使用文本挖掘技術(shù)在運(yùn)輸安全領(lǐng)域挖掘出有效的文本信息,并利用結(jié)構(gòu)主題建模方法和網(wǎng)絡(luò)拓?fù)浞治龇椒?,識別導(dǎo)致交通事故發(fā)生的主要地點(diǎn)和原因;Kim等[20]在分析施工區(qū)域火災(zāi)事故原因時(shí),將文本挖掘技術(shù)與主成分分析法相結(jié)合,以時(shí)間、地點(diǎn)、事故模式等為依據(jù)推斷出季節(jié)性因素。
根據(jù)對已有文獻(xiàn)的梳理,燃?xì)夤艿里L(fēng)險(xiǎn)因素大多以簡單數(shù)據(jù)統(tǒng)計(jì)、經(jīng)驗(yàn)總結(jié)、人為識別或多種方法結(jié)合進(jìn)行分析,缺乏一定的客觀性和系統(tǒng)性。從管道事故報(bào)告、失效統(tǒng)計(jì)數(shù)據(jù)中系統(tǒng)地識別燃?xì)夤艿赖娘L(fēng)險(xiǎn)因素非常重要,且文本挖掘技術(shù)在安全領(lǐng)域已有應(yīng)用,只是目前鮮有學(xué)者將其運(yùn)用于燃?xì)夤艿里L(fēng)險(xiǎn)因素識別。因此,本研究基于全國燃?xì)夤艿朗鹿拾咐龓欤梦谋就诰蚣夹g(shù),以數(shù)據(jù)驅(qū)動的方式識別關(guān)鍵風(fēng)險(xiǎn),構(gòu)建因素之間的共現(xiàn)矩陣和共現(xiàn)網(wǎng)絡(luò),并運(yùn)用Apriori算法挖掘、分析風(fēng)險(xiǎn)因素之間的關(guān)聯(lián)關(guān)系。本研究的創(chuàng)新點(diǎn)主要表現(xiàn)在:
提出風(fēng)險(xiǎn)因素分析流程;采用共現(xiàn)分析和Apriori算法識別風(fēng)險(xiǎn)因素關(guān)聯(lián)性;突顯次要因素重要性,為全面風(fēng)險(xiǎn)管理提供了新視角。
二、研究設(shè)計(jì)
文本挖掘是一種利用機(jī)器學(xué)習(xí)、自然語言處理等技術(shù),從文本數(shù)據(jù)中提取潛在有價(jià)值知識的分析方法,可應(yīng)用于信息提取、主題追蹤、文本分類、信息可視化等領(lǐng)域。文本挖掘的對象通常是半結(jié)構(gòu)化或非結(jié)構(gòu)化的自然語言文本,對于揭示文本數(shù)據(jù)中隱藏的有價(jià)值信息具有重要意義。首先,利用文本挖掘方法統(tǒng)計(jì)分析全國范圍內(nèi)的城鎮(zhèn)燃?xì)夤艿朗?shù)據(jù),識別出關(guān)鍵風(fēng)險(xiǎn)因素;其次,對識別出的風(fēng)險(xiǎn)因素依次進(jìn)行共現(xiàn)分析、中心性分析和關(guān)聯(lián)分析,明確風(fēng)險(xiǎn)因素的重要程度和關(guān)聯(lián)信息。具體識別流程如圖1所示。
三、研究過程
(一)數(shù)據(jù)來源及處理
我國燃?xì)夤艿冷佋O(shè)規(guī)模大、供氣用戶多、運(yùn)輸介質(zhì)具有易燃易爆性,且管網(wǎng)大多位于人口密集區(qū)域,一旦發(fā)生事故可能會造成嚴(yán)重的負(fù)面影響。本文從博燃網(wǎng)、燃?xì)獗ㄎ⑿殴娞?、國際燃?xì)饩W(wǎng)、國家應(yīng)急管理部網(wǎng)站等,收集到2010—2022年間國內(nèi)有詳細(xì)數(shù)據(jù)信息記錄的城鎮(zhèn)燃?xì)夤艿朗鹿?10起,并對事故類型以及詳細(xì)原因進(jìn)行了統(tǒng)計(jì)分析。
這810起國內(nèi)燃?xì)夤艿朗鹿拾咐齺碓础r(shí)間分布廣泛,其數(shù)據(jù)信息基本涵蓋本文所需的城鎮(zhèn)燃?xì)夤艿里L(fēng)險(xiǎn)因素。為保證挖掘效果,本文在分析之前,采用文獻(xiàn)檢索方法,在知網(wǎng)期刊索引數(shù)據(jù)庫中,檢索近年來發(fā)表主題為“燃?xì)夤艿馈薄叭細(xì)馐鹿曙L(fēng)險(xiǎn)因素”“燃?xì)夤艿里L(fēng)險(xiǎn)評價(jià)”等與燃?xì)夤艿腊踩L(fēng)險(xiǎn)因素相關(guān)的文獻(xiàn),記錄文獻(xiàn)中影響城鎮(zhèn)燃?xì)夤艿赖娘L(fēng)險(xiǎn)因素相關(guān)術(shù)語,補(bǔ)充至分詞詞庫當(dāng)中。
在此基礎(chǔ)上,對上述810余條國內(nèi)事故案例文本數(shù)據(jù)進(jìn)行清洗,統(tǒng)一化處理同義詞,清洗后部分案例的文本構(gòu)成如表1所示,最終僅保留了事故發(fā)生時(shí)間、地點(diǎn)和具體的事故原因描述字段,剔除了事故發(fā)生經(jīng)過和事故后果描述部分。
(二)詞云展示
關(guān)鍵詞分析是文本挖掘和自然語言處理中的一項(xiàng)重要任務(wù),旨在從文本數(shù)據(jù)中提取出最具代表性和有意義的關(guān)鍵詞或短語。這些關(guān)鍵詞通常能夠準(zhǔn)確地概括文本的主題、內(nèi)容或特征,對于文本分類具有重要作用。本文在對城鎮(zhèn)燃?xì)夤艿朗鹿蕵颖緮?shù)據(jù)報(bào)告進(jìn)行文本挖掘分詞處理時(shí),選用Python的jieba庫,并基于TF-IDF算法將分詞結(jié)果輸出為詞云圖,如圖2所示。詞云是一種文本數(shù)據(jù)可視化工具,它對文本中的關(guān)鍵詞按照詞頻和權(quán)重進(jìn)行排序,將其展示在一個(gè)圖形中,并予以視覺上的突出,從而有助于直觀地理解文本的主題和內(nèi)容。在詞云圖中,詞語字體的大小表示風(fēng)險(xiǎn)因素在文本數(shù)據(jù)中的相對出現(xiàn)頻率,字體越大代表著出現(xiàn)頻率越高。
根據(jù)城鎮(zhèn)燃?xì)夤艿朗鹿蕡?bào)告風(fēng)險(xiǎn)因素的TF-IDF詞頻分析結(jié)果和風(fēng)險(xiǎn)因素的類型,可以把風(fēng)險(xiǎn)因素分為主要風(fēng)險(xiǎn)因素和一般風(fēng)險(xiǎn)因素。其中,主要風(fēng)險(xiǎn)因素包括第三方破壞、材料/設(shè)備/焊接失效、誤操作、腐蝕、自然破壞5項(xiàng),一般風(fēng)險(xiǎn)因素包括交通事故、私自改造、監(jiān)管失效、施工操作不當(dāng)、用戶操作不當(dāng)、維護(hù)操作不當(dāng)、地面沉降、動物咬噬、違章施工、老化、違章占壓、暴雨、管道標(biāo)識不準(zhǔn)確、安全生產(chǎn)意識缺失、未采取安全保護(hù)措施、野蠻施工等。事故的發(fā)生往往不是由單一因素導(dǎo)致的,而是多個(gè)因素相互疊加的結(jié)果。本文對單個(gè)風(fēng)險(xiǎn)因素進(jìn)行共現(xiàn)分析和關(guān)聯(lián)分析,驗(yàn)證因素之間的相關(guān)關(guān)系。
(三)共現(xiàn)分析
1.共現(xiàn)分析與共現(xiàn)矩陣
共現(xiàn)分析是一種分析文獻(xiàn)、詞匯、實(shí)體等共同出現(xiàn)的頻率和模式的方法,常用于探索多個(gè)變量之間的關(guān)系。其基本原理是,將文本數(shù)據(jù)中出現(xiàn)的因素兩兩配對,通過構(gòu)建共現(xiàn)矩陣記錄文本中兩個(gè)變量的共現(xiàn)次數(shù),使用Gephi、Ucinet、VOS viewer等軟件工具將這些共現(xiàn)關(guān)系可視化,并揭示它們之間的模式、中心性和其他特征。在進(jìn)行燃?xì)夤艿里L(fēng)險(xiǎn)分析時(shí),共現(xiàn)分析可以通過以下步驟實(shí)現(xiàn)。
(1)數(shù)據(jù)預(yù)處理。將原始數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,將數(shù)據(jù)轉(zhuǎn)換為適合共現(xiàn)分析的格式,具體包括對文本進(jìn)行分詞和去除停用詞等處理。
(2)構(gòu)建共現(xiàn)矩陣。共現(xiàn)矩陣是一個(gè)二維矩陣,其中,行和列分別代表數(shù)據(jù)集中的項(xiàng),矩陣元素表示對應(yīng)項(xiàng)的共現(xiàn)頻率。將燃?xì)夤艿朗鹿手谐霈F(xiàn)的風(fēng)險(xiǎn)因素兩兩配對組成詞對,遍歷數(shù)據(jù)集,統(tǒng)計(jì)每對項(xiàng)的共同出現(xiàn)次數(shù),并將其填入共現(xiàn)矩陣的對應(yīng)位置。
(3)分析共現(xiàn)模式。通過分析共現(xiàn)矩陣,可以發(fā)現(xiàn)項(xiàng)之間的共現(xiàn)模式。共現(xiàn)模式可以是項(xiàng)之間的頻繁共現(xiàn),也可以是一些特定的組合出現(xiàn)。
(4)可視化。使用Gephi等可視化工具將共現(xiàn)模式以圖表的形式呈現(xiàn)出來。
共現(xiàn)矩陣中風(fēng)險(xiǎn)因素的頻次能夠體現(xiàn)某項(xiàng)風(fēng)險(xiǎn)因素的相對重要程度。根據(jù)共現(xiàn)矩陣可以形成可視化的共現(xiàn)網(wǎng)絡(luò),其中的節(jié)點(diǎn)與連線分別代表不同因素及各因素之間的關(guān)聯(lián)。利用文本挖掘得到分詞結(jié)果構(gòu)建共現(xiàn)矩陣,其中以主要風(fēng)險(xiǎn)因素為代表的部分共現(xiàn)矩陣如表2所示,運(yùn)用Gephi軟件分析共現(xiàn)矩陣并將其轉(zhuǎn)化為風(fēng)險(xiǎn)因素共現(xiàn)網(wǎng)絡(luò)圖(見圖3)。由表2和圖3可以看出,不同的高頻風(fēng)險(xiǎn)因素及其相互間的聯(lián)系,可反映某個(gè)風(fēng)險(xiǎn)因素在燃?xì)夤艿朗鹿室蛩鼐W(wǎng)絡(luò)中的重要性。
圖3中,邊的權(quán)重表示2個(gè)因素共同出現(xiàn)的頻次,權(quán)重越大,兩個(gè)因素之間的線條就越粗,因素之間的關(guān)系也越緊密。從圖3可以看出,與燃?xì)庑孤┫噙B的邊中,權(quán)重較大、線條較粗的因素主要是第三方破壞、施工操作不當(dāng)、誤操作、材料/設(shè)備/焊接失效、腐蝕,表示這幾個(gè)因素與燃?xì)庑孤┑陌l(fā)生有著較為緊密的聯(lián)系,當(dāng)出現(xiàn)上述幾種情況時(shí),最容易出現(xiàn)泄漏事故,這與風(fēng)險(xiǎn)因素詞頻統(tǒng)計(jì)結(jié)果相一致。
2.中心性分析
“中心性”是衡量相鄰節(jié)點(diǎn)之間緊密程度的指標(biāo)。作為社交網(wǎng)絡(luò)分析和復(fù)雜網(wǎng)絡(luò)研究中的一項(xiàng)重要技術(shù),中心性分析在共現(xiàn)分析中用于識別網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)、衡量節(jié)點(diǎn)在共現(xiàn)網(wǎng)絡(luò)中的重要程度。通過中心性分析,可以識別出在共現(xiàn)網(wǎng)絡(luò)中具有較高中心性的項(xiàng),這些項(xiàng)通常也是網(wǎng)絡(luò)中最重要的節(jié)點(diǎn),其共現(xiàn)關(guān)系對整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)和功能有著重要影響。對這些重要節(jié)點(diǎn)進(jìn)行深入分析,有助于發(fā)現(xiàn)共現(xiàn)模式、探索項(xiàng)之間的關(guān)系,以及理解共現(xiàn)網(wǎng)絡(luò)的特性和功能。
最常用的中心性指標(biāo)包括度中心性(Degree)和介數(shù)中心性(Betweenness Centrality)。其中,度中心性是指與節(jié)點(diǎn)相連接的邊的條數(shù);介數(shù)中心性是指節(jié)點(diǎn)在網(wǎng)絡(luò)中作為中介連接的頻率,表示該節(jié)點(diǎn)在連接其他節(jié)點(diǎn)之間的共現(xiàn)關(guān)系中的中轉(zhuǎn)作用,介數(shù)中心性越高,說明該節(jié)點(diǎn)對相鄰節(jié)點(diǎn)的影響越大。在網(wǎng)絡(luò)中,中心節(jié)點(diǎn)通常與其他節(jié)點(diǎn)有著更多的連接關(guān)系,可以更快地傳播信息,更容易成為信息的聚集點(diǎn),從而具有更大的影響力和控制力。中心性可以用來確定網(wǎng)絡(luò)中最重要的節(jié)點(diǎn)和子群體,幫助理解和分析網(wǎng)絡(luò)結(jié)構(gòu)和功能。設(shè)節(jié)點(diǎn)α和節(jié)點(diǎn)y的最短路徑數(shù)為σ(x,y),最短路徑中通過v的路徑數(shù)為σ(x,yv),則節(jié)點(diǎn)v在N個(gè)風(fēng)險(xiǎn)因素的非帶權(quán)網(wǎng)絡(luò)中的“介數(shù)中心性”定義為
B(v)=∑x≠y2σ(x,y∣v)(N-1)(N-2)σ(x,y)
通過Gephi軟件分析可以得到每個(gè)點(diǎn)的中心性,表3為部分風(fēng)險(xiǎn)因素的中心性。
從表3可以得出,介數(shù)中心性比較高的風(fēng)險(xiǎn)因素分別為第三方破壞、材料/設(shè)備/焊接失效、腐蝕、誤操作。這與前述詞頻分析的結(jié)果大致相同。由于自然破壞導(dǎo)致的事故出現(xiàn)頻率較低,因此在數(shù)據(jù)中體現(xiàn)并不明顯,但結(jié)合現(xiàn)有研究以及國家標(biāo)準(zhǔn),自然破壞雖然出現(xiàn)頻次低,一旦發(fā)生卻是破壞力極大,因此應(yīng)作為獨(dú)立于前述4個(gè)因素的另一類關(guān)鍵因素。同時(shí)通過Gephi展示可以得出與主要因素相連的綜合因素集合,以第三方破壞、誤操作、腐蝕、材料/設(shè)備/焊接失效為例,其相關(guān)風(fēng)險(xiǎn)因素集合如表4所示。
(四)關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則分析是一種在數(shù)據(jù)集中發(fā)現(xiàn)事項(xiàng)之間關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其核心目標(biāo)是從數(shù)據(jù)中挖掘頻繁項(xiàng)集并生成有意義的關(guān)聯(lián)規(guī)則,這些規(guī)則表達(dá)了項(xiàng)之間的搭配或關(guān)聯(lián)情況。關(guān)聯(lián)規(guī)則分析在商業(yè)、市場、醫(yī)療和生物信息學(xué)等領(lǐng)域都有重要應(yīng)用。關(guān)聯(lián)規(guī)則分析主要依賴于“頻繁項(xiàng)集”的概念,關(guān)聯(lián)規(guī)則是基于頻繁項(xiàng)集生成的。頻繁項(xiàng)集是指在數(shù)據(jù)集中同時(shí)出現(xiàn)頻率較高的一組項(xiàng),這些項(xiàng)集反映了在數(shù)據(jù)中某些項(xiàng)之間的普遍關(guān)聯(lián)性。本文就是要探尋導(dǎo)致每起燃?xì)夤艿朗鹿拾l(fā)生的風(fēng)險(xiǎn)因素之間是否具有關(guān)聯(lián)關(guān)系。
本文采用關(guān)聯(lián)規(guī)則挖掘中的Apriori算法,該算法基于“先驗(yàn)原理”,即如果一個(gè)項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的,利用該性質(zhì),逐層篩選出頻繁項(xiàng)集。因此,Apriori算法采用自底向上的逐層搜索策略,經(jīng)過生成候選項(xiàng)集、計(jì)算其支持度、篩選掉不滿足支持度要求的項(xiàng)集等步驟,不斷迭代,最終得到所有的頻繁項(xiàng)集。Apriori算法的步驟如圖4所示。
在Apriori算法中有3個(gè)重要的指標(biāo),分別為支持度、置信度和提升度。支持度,指關(guān)聯(lián)數(shù)據(jù)在數(shù)據(jù)集中出現(xiàn)的次數(shù)占總數(shù)據(jù)集的比重,或幾個(gè)數(shù)據(jù)關(guān)聯(lián)出現(xiàn)的概率。置信度,表示一個(gè)數(shù)據(jù)出現(xiàn)后,另一個(gè)數(shù)據(jù)出現(xiàn)的概率,也稱數(shù)據(jù)的條件概率。提升度,表示含有因素1的條件時(shí)含有因素2的概率與因素2總體發(fā)生的概率之比,可以理解為因素1出現(xiàn)時(shí),對因素2出現(xiàn)概率提升的程度。
本文經(jīng)過反復(fù)迭代,設(shè)置最小支持度為2%,最小置信度為46%,最終得到因素間的關(guān)聯(lián)規(guī)則。表5展示了部分關(guān)聯(lián)規(guī)則。
四、結(jié)果討論
(一)結(jié)果分析
從相關(guān)風(fēng)險(xiǎn)因素集合(見表4)中可以看出,在事故案例文本中,有幾項(xiàng)因素雖然不是關(guān)鍵風(fēng)險(xiǎn)因素,但在各類相關(guān)風(fēng)險(xiǎn)因素集合中出現(xiàn)多次,如老化、安全生產(chǎn)意識缺失、未采取安全保護(hù)措施、審批程序不完善、員工未培訓(xùn)等,從風(fēng)險(xiǎn)因素的中心性(見表3)中也可以看出,這幾項(xiàng)因素的度中心性很高,說明有多項(xiàng)風(fēng)險(xiǎn)因素都與它們同時(shí)出現(xiàn)。因此,在實(shí)際安全生產(chǎn)應(yīng)用中,應(yīng)該加強(qiáng)對燃?xì)夤芫W(wǎng)老化問題的關(guān)注,有效避免因老化引起的管道腐蝕破裂、材料部件失效,降低管道泄漏事故發(fā)生的風(fēng)險(xiǎn)。同時(shí)也需要注重完善管理流程和審核機(jī)制,加強(qiáng)對員工的培訓(xùn)管理等,增強(qiáng)企業(yè)和員工的安全生產(chǎn)意識。
根據(jù)關(guān)聯(lián)規(guī)則(見表5)可以得出不同風(fēng)險(xiǎn)因素間的關(guān)聯(lián)關(guān)系,以3號關(guān)聯(lián)規(guī)則為例,在出現(xiàn)管材老化失效的情況時(shí),有77%的概率會同時(shí)存在腐蝕問題。根據(jù)表5中72條風(fēng)險(xiǎn)因素間關(guān)聯(lián)規(guī)則可得到以下結(jié)論。
(1)城鎮(zhèn)燃?xì)夤艿朗鹿实年P(guān)聯(lián)規(guī)則分析發(fā)現(xiàn),風(fēng)險(xiǎn)因素中有3個(gè)重要因素,分別為第三方破壞、腐蝕以及誤操作,與其相關(guān)的關(guān)聯(lián)規(guī)則數(shù)量較多。具體而言,在所有的關(guān)聯(lián)規(guī)則中,最主要的因素是第三方破壞,有45條相關(guān)規(guī)則。
(2)由關(guān)聯(lián)規(guī)則可知,如果出現(xiàn)溝通失效、違章施工的情況,大概率也會出現(xiàn)第三方破壞風(fēng)險(xiǎn)。從這條規(guī)則可以看出,雖然第三方破壞屬于外部因素,但溝通失效屬于企業(yè)與第三方施工單位協(xié)同安全管理出現(xiàn)問題,通過加強(qiáng)溝通,能夠提升對第三方工程的監(jiān)管效率,提高安全管理水平能夠有效降低第三方破壞燃?xì)夤艿朗录l(fā)生的頻率和概率。
(3)72條關(guān)聯(lián)規(guī)則中置信度為1的規(guī)則共14條,如表5中5號關(guān)聯(lián)規(guī)則frozenset({安全生產(chǎn)意識缺失,施工操作不當(dāng)})→frozenset({第三方破壞}),其置信度為1,說明在發(fā)生燃?xì)夤艿朗鹿蕰r(shí),若存在“安全生產(chǎn)意識缺失”“施工操作不當(dāng)”現(xiàn)象,一定會同時(shí)出現(xiàn)“第三方破壞”。
(二)結(jié)果對比
與傳統(tǒng)燃?xì)夤艿里L(fēng)險(xiǎn)因素識別方法(數(shù)理統(tǒng)計(jì)、專家經(jīng)驗(yàn)、人為識別等)相比,本文在分析管道風(fēng)險(xiǎn)時(shí),除了考慮各因素單獨(dú)對事故造成的影響外,還著重分析了不同因素間的關(guān)系以及它們對管道事故的共同作用。從分析結(jié)果來看,本文采取文本挖掘方法基于歷史失效數(shù)據(jù)進(jìn)行分析,相較于傳統(tǒng)方法更具客觀性,不僅關(guān)注直接失效因素,還能夠避免忽視深層次風(fēng)險(xiǎn)因素,這有助于在管道風(fēng)險(xiǎn)評估過程中更全面地關(guān)注安全管理的重點(diǎn)。從對實(shí)際應(yīng)用的指導(dǎo)作用來看,研究中采用的關(guān)聯(lián)規(guī)則分析方法,其分析結(jié)果可以直接用于指導(dǎo)風(fēng)險(xiǎn)管控措施的制定和實(shí)施,對于實(shí)際風(fēng)險(xiǎn)管理具有很強(qiáng)的實(shí)用性;傳統(tǒng)方法的分析結(jié)果通常用于建立風(fēng)險(xiǎn)評價(jià)指標(biāo)體系,并基于此對管道安全性進(jìn)行評價(jià)。相比之下,本文結(jié)果不僅能用于評價(jià)管道風(fēng)險(xiǎn),而且能夠更直接地指導(dǎo)風(fēng)險(xiǎn)管控措施的執(zhí)行,從而為風(fēng)險(xiǎn)管理提供更有力的支持。
綜上所述,本文的研究方法為燃?xì)夤艿里L(fēng)險(xiǎn)因素識別和管理引入了新的視角,提供了更精確和客觀的分析結(jié)果,強(qiáng)化了對實(shí)際風(fēng)險(xiǎn)管理的指導(dǎo)作用。這對于改進(jìn)燃?xì)夤艿腊踩院徒档蜐撛陲L(fēng)險(xiǎn)具有重要的學(xué)術(shù)和應(yīng)用價(jià)值。
五、結(jié)論
(1)本文對810個(gè)燃?xì)夤艿朗鹿拾咐M(jìn)行文本挖掘,根據(jù)詞云結(jié)果來看,關(guān)鍵因素為第三方破壞、誤操作、材料/設(shè)備/焊接失效、腐蝕,除此之外,由于自然破壞和未知原因?qū)е碌氖鹿示哂休^大的危害性、突發(fā)性,也被列為主要影響因素之一。
(2)對文本進(jìn)行共現(xiàn)分析,使用Gephi展示燃?xì)夤艿里L(fēng)險(xiǎn)因素共現(xiàn)網(wǎng)絡(luò),計(jì)算各個(gè)因素的中心性指標(biāo)和因素間連接的權(quán)重,由此得出與關(guān)鍵風(fēng)險(xiǎn)因素相關(guān)的二級風(fēng)險(xiǎn)因素,為后續(xù)評價(jià)管道風(fēng)險(xiǎn)提供指標(biāo)參考。
(3)運(yùn)用關(guān)聯(lián)分析中的Apriori算法對燃?xì)夤艿里L(fēng)險(xiǎn)因素之間的關(guān)系進(jìn)行了分析,得到關(guān)聯(lián)規(guī)則共72條,通過關(guān)聯(lián)規(guī)則可以得出各類風(fēng)險(xiǎn)因素之間的共同作用關(guān)系。
本文將文本挖掘技術(shù)應(yīng)用于燃?xì)夤艿里L(fēng)險(xiǎn)因素識別,基于我國城鎮(zhèn)燃?xì)夤艿朗鹿饰谋拘畔⑦M(jìn)行燃?xì)夤艿朗б蛩氐淖R別以及因素間的關(guān)聯(lián)分析,探究燃?xì)夤艿朗鹿手兄饕娘L(fēng)險(xiǎn)因素及其相互間的關(guān)系,提高了識別燃?xì)夤艿里L(fēng)險(xiǎn)因素以及判斷其重要程度的客觀性,為后續(xù)建立風(fēng)險(xiǎn)評價(jià)模型和制定風(fēng)險(xiǎn)控制策略奠定了基礎(chǔ)。由于我國尚未建立完善的燃?xì)夤艿朗О咐龓?,最終本文收集了810條事故文本參與挖掘,并將相關(guān)城鎮(zhèn)燃?xì)夤艿姥芯课墨I(xiàn)中的風(fēng)險(xiǎn)因素作為文本挖掘的詞庫,后續(xù)可以將研究文獻(xiàn)、燃?xì)馄髽I(yè)檢修記錄等加入文本識別內(nèi)容中,提高風(fēng)險(xiǎn)因素識別的科學(xué)性和全面性。
參考文獻(xiàn):
[1] 鞠久如.加強(qiáng)燃?xì)夤艿腊踩芾淼膸c(diǎn)建議[J].建筑安全,2015,30(1):62-64.
[2] 全國燃?xì)馐鹿史治鰣?bào)告(2022年·全年綜述)[R/OL].[2023-02-23].http://www.zninfo.gov.cn/upload/mian/infopublicity/publicinformation File/2023/03/24/202303241154504386.pdf.
[3] 胡瑾秋,侯亦純,董紹華,等.基于STAMP的社區(qū)燃?xì)夤艿朗鹿蕬?yīng)急疏散過程中安全隱患識別方法[J].安全與環(huán)境工程,2023,30(2):10-20.
[4] 鄭洪龍,黃維和.油氣管道及儲運(yùn)設(shè)施安全保障技術(shù)發(fā)展現(xiàn)狀及展望[J].油氣儲運(yùn),2017,36(1):1-7.
[5] 董宏理.建立燃?xì)獍踩珯z查標(biāo)準(zhǔn)實(shí)行科學(xué)監(jiān)管[J].煤氣與熱力,2009,29(6):B33-B35.
[6] 楊茂華,黃小美,張毅.基于安全檢查表的燃?xì)馄髽I(yè)安全評估系統(tǒng)研發(fā)[J].煤氣與熱力,2012,32(10):75-78.
[7] 曾小康,馮陽,賴文慶,等.基于AHP-熵權(quán)法的城市燃?xì)夤艿里L(fēng)險(xiǎn)評價(jià)[J].中國安全生產(chǎn)科學(xué)技術(shù),2021,17(5):130-135.
[8] Belvederesi C, Dann M R. Statistical Analysis of Failure Consequences for Oil and Gas Pipelines[J]. International Journal of Safety and Security Engineering,2017,7(2):103-112.
[9] 楊玉鋒,張華兵,程萬洲,等.城市燃?xì)夤艿老到y(tǒng)風(fēng)險(xiǎn)因素分析[J].煤氣與熱力,2014,34(10):15-19.
[10] 索瑋嵐,陳銳.考慮復(fù)雜關(guān)聯(lián)情境的城市典型生命線運(yùn)行風(fēng)險(xiǎn)因素識別方法研究[J].中國管理科學(xué),2014,22(8):130-140.
[11] 杜雨霽,付明,李靜,等.基于Logistic回歸的燃?xì)夤芫W(wǎng)風(fēng)險(xiǎn)因素重要度分析方法研究[J].中國安全生產(chǎn)科學(xué)技術(shù),2023,19(4):114-120.
[12] Nenonen N. Analysing Factors Related to Slipping, Stumbling, and Falling Accidents Atwork: Application of Data Mining Methods to Finnish Occupational Accidents and Diseases Statistics Database[J].Applied Ergonomics,2013,44(2):215-224.
[13] Poh C Q, Ubeynarayana C U, Goh Y M. Safety Leading Indicators for Construction Sites: A Machine Learning Approach[J]. Automation in Construction,2018,93:375-386.
[14] Kovesdi C, Spielman Z, Leblanc K, et al. Application of Eye Tracking for Measurement and Evaluation in Human Factors Studies in Control Room Modernization[J]. Nuclear Technology,2018,202(2-3):220-229.
[15] 譚章祿,陳曉,宋慶正,等.基于文本挖掘的煤礦安全隱患分析[J].安全與環(huán)境學(xué)報(bào),2017,17(4):1262-1266.
[16] 陳聰聰,趙怡晴,姜琳婧,等.基于文本挖掘的尾礦庫隱患因素關(guān)聯(lián)分析[J].礦業(yè)研究與開發(fā),2021,41(11):26-33.
[17] Qiu Z, Liu Q, Li X, et al. Construction and Analysis of a Coal Mine Accident Causation Network based on Text Mining[J]. Process Safety and Environmental Protection,2021,153:320-328.
[18] Xu N, Wang J P, Li J, et al. Analysis on Relationships of Safety Risk Factors in Metro Construction [J].Journal of Engineering Science and Technology Review,2016,9(5):150-157.
[19] Kwayu K M, Kwigizile V, Lee K, et al. DiscoveringLatent Themes in Traffic Fatal Crash Narratives using Text Mining Analytics and Network Topology[J]. Accident Analysis amp; Prevention,2021,150:105899.
[20] Kim J,Jun S. Analysis of Fire-accident Factors using Big-data Analysis Method for Construction Areas[J]. Advanced Engineering Informatics,2015,29(4):918-929.
責(zé)任編輯:曲 紅
Data-Driven Urban Natural Gas Pipeline Risk Factor
Identification and Correlation Analysis
ZHANG Xiaolei1, ZHENG Chunhong2, LIU Lu3, GE Yanze3, XU Xiaofeng3, HUANG Yuping1, MA Jun4
(1.Shandong Branch of PetroChina Natural Gas Sales Co., Ltd., Jinan 250013, Shandong, China;
2.Qingdao PetroChina Kunlun Shengli Gas Co., Ltd., Qingdao 266100, Shandong, China;
3.School of Economics and Management, China University of Petroleum (East China), Qingdao 266580, Shandong, China;
4.Second Quality Safety and Environmental Protection Supervision Center, PetroChina Natural Gas Sales Co., Ltd., Beijing 100034, China)
Abstract: As an important infrastructure to meet the needs of peoples life, the safety of the urban gas pipeline network is of great significance to protect the property and life safety of the general public. With 810 cases of domestic urban gas pipeline leakage and explosion accidents as samples, the text mining technology is used to process the sample cases, and the key risk factors leading to gas pipeline leakage are identified according to the TF-IDF algorithm with word frequency statistics; the visualization of the relationship between risk factors is realized through the co-occurrence analysis, and the centrality indicators are calculated to determine the set of risk factors; the association rules between the safety risk factors of gas pipelines are revealed based on the Apriori algorithm. Based on Apriori algorithm, the correlation rules between gas pipeline safety risk factors are revealed. It is found that in the process of identifying the key risk factors of urban gas pipelines, the text mining method is basically the same as the traditional method; in the analysis of the secondary factors, the aging of pipeline equipment, staff training, safety protection measures, and imperfect approval procedures in the process of safety production show a stronger correlation with gas accidents compared with the previous studies, which provides a new perspective for the management of pipeline safety.
Key words: urban gas pipeline; risk factors; text mining; co-occurrence analysis; association rule mining
英文編校:馬志強(qiáng)