陳志遠,王鐵驪
(南華大學 經(jīng)濟管理與法學學院,湖南 衡陽 421001)
項目施工,安全第一。工程項目施工參與方眾多,施工現(xiàn)場復雜多變,安全管理任務尤為艱巨,不僅關系到各責任主體單位的經(jīng)濟效益,還直接影響到人民群眾的生命財產(chǎn)安全。為明確安全管理工作的內(nèi)容,進行事前風險管控,很多學者聚焦于尋找事故致因的研究,主要包括案例分析、統(tǒng)計分析和構建事故致因模型3類?;诎咐治?,Zhou等[1]引入事故網(wǎng)絡理論,詳細分析杭州地鐵重大基坑坍塌事故的經(jīng)過,提取了11條主要事故致因。統(tǒng)計分析則運用統(tǒng)計學的方法,分析大量有代表性的事故案例,能揭示事故發(fā)生的普遍規(guī)律[2]。鄭霞忠等[3]通過分析152起建筑工程高處墜落事故,揭示了人為失誤在高空墜落事故中的作用路徑。然而統(tǒng)計分析過程需要依賴專家的經(jīng)驗判斷和歸納總結,具有較強的主觀性。同時事故的發(fā)生具有復雜性,是人、物、環(huán)境、管理多因素耦合作用的結果。Suraji等[4]基于項目參與方的約束和響應時間,構建事故致因模型,揭示了風險因素之間潛在的復雜關系。構建事故致因模型雖能系統(tǒng)地分析事故致因間耦合作用的機制,但構建模型時需要依靠理論假設,同時事故樣本數(shù)量也有局限性。
近年,文本挖掘理論和技術快速發(fā)展,為分析大量文本數(shù)據(jù)提供了有力支撐。如Goh等[5]將文本挖掘與6種機器學習算法(LR,RF,KNN,DT,NB,SVM)結合,對美國1 000起工程建設事故進行分類,總結了各類事故的主要原因。Zhong等[6]在文檔分詞的基礎上,借助線性判別分析(LDA)將高維分詞結果劃分為34類,利用專家知識,歸納了34個風險因素。借助專家知識雖能準確地提取事故致因,但過度依賴專家的主觀判斷。多數(shù)研究還局限于提取事故致因,缺乏對風險因素的評估?;陉P聯(lián)規(guī)則(Apriori algorithm)的風險因素評估方法已運用于交通安全領域[7-8],在工程建設領域,結合關聯(lián)規(guī)則的事故致因評估研究尚較為少見。
因此,本文在已有研究的基礎上,把文本挖掘應用到房屋市政較大以上事故的分析中,采用最小詞頻閾值文檔頻的信息增益評估函數(shù)(DFn-IG)對特征集降噪,借助詞頻分析提取安全事故的風險因素,引入復雜網(wǎng)絡評估事故致因因素的重要度。以達到充分挖掘事故調(diào)查報告中的有效信息,為安全管理工作提供參考的目的。
文本挖掘流程包括文本數(shù)據(jù)收集、文本預處理、構建自定義詞庫、文本特征抽取、數(shù)據(jù)分析、知識發(fā)現(xiàn)等步驟,其主要分析過程如圖1。
圖1 基于文本挖掘的事故致因分析流程
1)文本數(shù)據(jù)收集:根據(jù)2010—2019年國內(nèi)房屋市政較大以上生產(chǎn)安全事故的通報信息,收集對應的事故調(diào)查報告文本。
2)文本預處理:提取事故調(diào)查報告文本中闡述事故致因的部分,去除無價值、重復、缺陷的文本數(shù)據(jù)。
3)構建自定義詞庫:添加目前已經(jīng)廣泛運用到文本挖掘領域的成熟詞庫,并在提取事故致因的基礎上,構建添加與事故致因?qū)耐x詞詞表。
4)文本特征抽?。何谋厩蟹趾?,借助DFn-IG評估函數(shù),對分詞結果降噪。利用特征項詞頻,篩選降噪結果,回溯特征項在調(diào)查報告中的具體表述,確定事故致因。
5)數(shù)據(jù)分析:統(tǒng)計詞頻、文檔頻,并根據(jù)事故致因的互現(xiàn)情況,構建無向加權復雜網(wǎng)絡,改進傳統(tǒng)的TF-IDF算法,綜合詞頻和事故致因因素的關聯(lián)特征評估其重要度。
事故調(diào)查報告是非結構化的文本數(shù)據(jù),主要有2類噪聲詞,第1類詞頻繁出現(xiàn)在各調(diào)查報告中,但無助于分析事故致因,如“直接原因”、“事故”等;第2類噪聲詞如地名、企業(yè)名稱等,在各調(diào)查報告中有不同的內(nèi)容,且在每一份調(diào)查報告中出現(xiàn)的頻次較低。
設置最低詞頻閾值可直接去除第2類噪聲詞;陳曉云等[9]由信息增益(IG)、互信息(MI)、χ2統(tǒng)計(CHI)等方法的比較分析,得出在處理低頻特征集和高維特征集時,信息增益法在查全率和查準率上相對其他方法更具優(yōu)勢,能有效去除第1類噪聲詞。因此,本文結合DFn和IG評估函數(shù),處理噪聲詞。計算公式如式(1)所示:
(1)
利用DFn-IG評估函數(shù),對分詞結果降噪,然后根據(jù)調(diào)查報告中的語意,確定特征項代表的事故致因。在此基礎上,構建與事故致因相對應的同義詞詞表。
在TF-IDF的基礎上,Xu等[10]引入信息熵對其進行改進,綜合事故致因的頻次和分布,評估事故致因的重要度。改進的TF-H算法雖然解釋了事故致因重要度與其文檔頻DF正相關的問題,但在相同文檔頻下,事故致因的重要度與其頻次呈反比。此外,以上2種方法僅從事故致因的文檔分布特征來評價其重要度,缺乏對事故致因因素間關聯(lián)關系的考量。
(2)
式中:wij表征網(wǎng)絡節(jié)點i,j間的邊權值;aij*表征邊的關聯(lián)邊權值,以平均邊權值為基準,判定2事故致因因素間關聯(lián)關系的強弱。
節(jié)點的關聯(lián)加權度為Ki*,以衡量與某1事故致因具有強關聯(lián)關系的事故致因因素的數(shù)量,計算公式如式(3)所示:
(3)
式中:N表征事故致因因素的總數(shù),Ki*用來衡量與某一事故致因具有強關聯(lián)關系的事故致因因素的數(shù)量。
基于詞頻-關聯(lián)關系的TF-K*評估函數(shù)的計算公式如式(4)所示,TF-K*值越大,事故致因?qū)Π踩鹿实挠绊懺街匾?/p>
(4)
式中:i表征事故致因因素i;TF(i)表征事故致因因素i的詞頻。TF-K*(i)值越大,事故致因因素i對安全事故的影響越重要。
從住房與城鄉(xiāng)建設部官網(wǎng),抓取2010—2019年的生產(chǎn)安全事故信息,共計6 000起房屋市政類生產(chǎn)安全事故,其中較大及以上生產(chǎn)安全事故共255起[11],歷年生產(chǎn)安全事故情況如圖2(a)所示。
圖2 2010—2019年房屋市政工程生產(chǎn)安全事故分布
針對較大以上事故的通報信息,從各地應急管理部門官網(wǎng)、易安網(wǎng)、安全管理網(wǎng)和建筑企業(yè)官網(wǎng),搜集對應的調(diào)查結果,最終獲得158份事故調(diào)查報告,事故類型分布如圖2(b)所示。
事故調(diào)查中包含大量與事故致因無關的內(nèi)容,如事故基本情況、責任人員和責任劃分等。因此,僅將事故發(fā)生經(jīng)過和原因分析2個部分的內(nèi)容,作為文本挖掘的語料庫。
本文在Python3的環(huán)境下,使用PyCharm借助開源的Jieba算法對文本進行分詞,通過自建停用詞詞庫、分詞詞庫和同義詞詞庫的方式,以提升分析語料庫的能力。
1)停用詞詞庫:停用詞是文檔中經(jīng)常出現(xiàn),對文本分析無價值的一類詞。如“派駐”、“廣場”、“臺階”等。結合目前常用的停用詞詞表:HIT和MIL-SCU等,構建停用詞詞庫。
2)分詞詞庫:直接對調(diào)查報告進行分詞,事故致因會丟失有價值的信息。如“安全意識淡薄”,經(jīng)切分后變成“安全”、“意識”、“淡薄”3個詞語,失去了原本所表達的信息。結合搜狗細胞詞庫、百度詞庫中收納的大量土木建筑類專業(yè)詞匯,構建出基礎分詞詞庫。
3)同義詞詞庫:中文的表述中,不同的詞語可表達相同的含義。如“工人違章操作”在不同的事故調(diào)查報告中,有“工人違規(guī)作業(yè)”、“違章操作”等表述。因此,從158份報告中隨機抽取40份,分析統(tǒng)計同一事故致因的不同表述,形成文本挖掘的同義詞詞庫。
對語料庫分詞,得到29 442個原始特征項。根據(jù)式(1),計算特征項的DFn-IG函數(shù)值。不同最小詞頻閾值下,特征集容量與單次噪聲去除量如圖3。隨著閾值增大,單次去除量逐漸減小,為防止關鍵詞被剔除,取新增幅度最低點n=8為分詞用最小詞頻閾值。
圖3 不同閾值下降噪結果
結合降噪后特征項在調(diào)查報告中的具體描述,提取40個主要事故致因,如表1所示。
表1 房屋市政較大以上生產(chǎn)安全事故致因(部分)
根據(jù)事故致因在調(diào)查報告中的共現(xiàn)情況,計算風險因素的共現(xiàn)矩陣,利用Gephi軟件繪制事故致因共現(xiàn)網(wǎng)絡,如圖4所示。為進一步評估風險因素的重要度,計算評估函數(shù)值如表2所示。
圖4 事故致因共現(xiàn)網(wǎng)絡
從表2可以看出,事故安全風險因素主要包括5類:自然環(huán)境條件、項目安全管理、相關單位安全管理、現(xiàn)場人員和材料設備,涵蓋了張偉等[12]和Hoa等[13]研究中提及的施工安全事故致因。
表2 安全風險因素及其特征指標
A32,A33反映項目實施過程中的自然環(huán)境,由于工程項目的開展與施工環(huán)境密切相關,出現(xiàn)極端的環(huán)境時,現(xiàn)場組織和管理體系多難以應對,極易引發(fā)生產(chǎn)安全事故。
A1,A6,A7,A8,A10,A15,A17,A20,A29,A37體現(xiàn)房屋市政工程依然存在安全管理體系不健全、規(guī)章制度執(zhí)行不到位的問題。貫徹執(zhí)行合理的安全制度,可有效避免風險因素演變成事故。但在工程實踐中,貫徹實施安全措施需要投入大量時間和資源,建筑企業(yè)常會因為經(jīng)濟上的壓力和人員短缺等問題,縮減該方面的支出,帶來一系列安全生產(chǎn)風險隱患。
A11,A14,A16,A30,A38,A39體現(xiàn)房屋市政工程中違法違規(guī)承發(fā)包項目的行為依然存在。由于工程項目建設具有專業(yè)性,不具備生產(chǎn)資質(zhì)的企業(yè)開展生產(chǎn)活動,不僅違反相關法律規(guī)定,還存在大量的安全風險隱患,很容易引發(fā)生產(chǎn)安全事故。
A5,A18,A21,A22,A23,A31,A34,A40體現(xiàn)建筑單位編制施工方案的工作依然存在短板,在編制實施具體的安全措施方面還有很多盲點,這既是安全管理的短板,也是導致生產(chǎn)安全事故的高風險因素。
A2,A3,A4,A26,A27,A28,A35,A36體現(xiàn)項目參與單位的安全管理工作存在短板,施工企業(yè)心存僥幸心理,監(jiān)理單位、政府部門等相關單位在工作中存在漏洞,風險管控工作還有很多不足。
A9,A12,A13,A19,A24反映房屋市政工程的從業(yè)人員,存在安全意識不足,專業(yè)素質(zhì)不高,缺乏系統(tǒng)培訓的問題。Tam等[14]研究表明技術交底和定期的安全訓練能夠提升工人的安全能力,但工程項目通常持續(xù)時間較短,工人流動性大,建筑工人一般只在工程建設的初期接受短暫的安全培訓,這些培訓并不能顯著提升他們的安全意識和專業(yè)水平。
由于TF7=TF8=116,DF8=DF14=45,因此選擇A7,A8,A14因素的數(shù)據(jù)進行對比。盡管A7和A8的詞頻相同,但A7的文檔頻更高、關聯(lián)加權度更高,表明A7在調(diào)查報告中的分布更均勻,與其他致因因素的關聯(lián)更緊密,更容易引發(fā)事故,因此其重要度應更高。表2中的數(shù)據(jù)顯示,TF-H值和TF-K*值判別結果均為A7>A8,與分析結果吻合。以上數(shù)據(jù)的比較,驗證了相較于傳統(tǒng)的TF-IDF值,TF-K*值具備同TF-H值一致的判別能力。
A8和A14具備相同的文檔頻,表明其在相同數(shù)量的事故中出現(xiàn),而二者的WD/K值僅相差0.08,表明二者與其他致因因素的關聯(lián)強度基本相同,但A8的詞頻更高,表明其被強調(diào)的次數(shù)更多,因此綜合詞頻、文檔頻和關聯(lián)加權度來看,認為A8的重要度高于A14。表2的數(shù)據(jù)顯示,TF-K*值的判別結果與分析結論吻合。以上數(shù)據(jù)較好地驗證了相較TF-H值,采用基于關聯(lián)加權度的TF-K*更能全面準確地衡量事故致因的重要度。
Mitropoulos等[15]的研究顯示,事故的發(fā)生與施工作業(yè)的自然環(huán)境密切相關,惡劣的自然環(huán)境會帶來更多的風險因素,但在事故報告中很少提及相關內(nèi)容,所有事故調(diào)查報告中僅14份提及惡劣天氣。因此,盡管自然環(huán)境相關的致因因素出現(xiàn)的頻次不高,但在項目安全管理過程中仍值得關注。Manu等[16]研究發(fā)現(xiàn),不合理的進度目標,會給施工作業(yè)帶來工期壓力,出現(xiàn)材料積壓、交叉作業(yè)、忽視安全風險等問題,極易引發(fā)生產(chǎn)安全事故。調(diào)查報告中很少提及工期設置不合理,所以其重要度評價靠后,但該因素的重要性仍不能忽視。
1)基于DFn-IG評估函數(shù)對分詞結果降噪,在保留大部分關鍵信息的條件下剔除噪聲詞,避免了在提取事故致因時出現(xiàn)維數(shù)災難。
2)基于詞頻分析,從158份事故調(diào)查報告中提取40個事故致因因素,并構建事故致因的同義詞詞庫,完整抽取調(diào)查報告中有關事故致因的信息。
3)引入復雜網(wǎng)絡表征事故致因因素間的關聯(lián)關系,提出基于詞頻—關聯(lián)加權度的重要度評估方法,經(jīng)數(shù)據(jù)驗證,在比較相同文檔頻下的事故致因重要度時,該方法更具優(yōu)勢。