程宇航,張健欽,李江川,張 安
北京建筑大學(xué) 測(cè)繪與城市空間信息學(xué)院,北京100044
交通行業(yè)是我國(guó)經(jīng)濟(jì)結(jié)構(gòu)中的先行和基礎(chǔ)產(chǎn)業(yè),是制約經(jīng)濟(jì)與社會(huì)發(fā)展的重要因素。盡管北京市交通行業(yè)事故起數(shù)、死亡受傷人數(shù)、重特大事故逐年下降,但交通行業(yè)安全生產(chǎn)事故時(shí)有發(fā)生,安全生產(chǎn)形勢(shì)仍然十分嚴(yán)峻[1]。然而現(xiàn)階段通過人工監(jiān)管的方式,遠(yuǎn)遠(yuǎn)不能滿足目前巨大體量的交通行業(yè)管理需要,應(yīng)急防控能力亟待增強(qiáng)[2]。目前交通行業(yè)安全生產(chǎn)事故數(shù)據(jù)仍然采用文本的形式進(jìn)行人工記錄并存儲(chǔ),如何有效挖掘并利用文本數(shù)據(jù),對(duì)提升安全生產(chǎn)事故的防控治理工作能力具有重大意義[3]。
為提高交通行業(yè)管理水平,實(shí)現(xiàn)對(duì)交通事故的預(yù)防預(yù)控,避免交通事故造成重大人員傷亡及財(cái)產(chǎn)損失,國(guó)內(nèi)外學(xué)者通過對(duì)事故的時(shí)空特征進(jìn)行分析,為事故預(yù)防預(yù)控提供輔助。例如陸化普等[3]使用地理編碼生成事故的空間分布,并應(yīng)用密度分析和聚類分析法鑒別,發(fā)現(xiàn)深圳市交通事故在空間分布上存在一定特征。郭璘等[4]應(yīng)用改進(jìn)的K-means算法進(jìn)行聚類并對(duì)事故黑點(diǎn)進(jìn)行識(shí)別分析,為降低事故率提供依據(jù)。國(guó)外學(xué)者Kang等[5]利用時(shí)空立方體等新興熱點(diǎn)技術(shù)對(duì)首爾市老年人交通事故進(jìn)行時(shí)空特征分析,結(jié)果為幫助減少涉及老年人的交通事故數(shù)量提供了參考。在事故致因方面林慶豐等[6]基于廣東省機(jī)-非交通事故,選取道路線形等12個(gè)自變量構(gòu)建Logistic模型,分析事故嚴(yán)重程度的影響因素,研究發(fā)現(xiàn)廣東省事故和死亡人數(shù)呈上升態(tài)勢(shì),且冬天和夜間傷亡率最高。趙丹等[7]通過提取環(huán)境等特征作為自變量,構(gòu)建Probit模型,分析事故形態(tài)和嚴(yán)重程度的相關(guān)性。國(guó)外學(xué)者也對(duì)事故嚴(yán)重程度的影響因素開展相關(guān)研究,例如Mussone等[8]用方向傳播神經(jīng)網(wǎng)絡(luò),分析城市道路交叉口事故影響因素,以保證城市道路交叉口安全。但以上研究所用數(shù)據(jù)格式固定且拓展性較低。在其他行業(yè)領(lǐng)域,吳伋等[9]選取長(zhǎng)江內(nèi)河航道船舶碰撞事故,應(yīng)用文本挖掘技術(shù)分析,發(fā)現(xiàn)人為因素是船舶碰撞事故的首要致因。譚章祿等[10]利用word2vec模型尋找各類煤礦安全隱患相關(guān)詞,并利用?;鶊D解釋相關(guān)特征。以上研究均通過對(duì)文本數(shù)據(jù)的處理和分析,得出了關(guān)鍵性結(jié)論,為相關(guān)行業(yè)管理提供了科學(xué)指導(dǎo)。在計(jì)算機(jī)領(lǐng)域相關(guān)學(xué)者的研究,體現(xiàn)了使用計(jì)算機(jī)技術(shù)對(duì)文本數(shù)據(jù)處理分析的可行性,例如于鳳等[11]在TextRank和詞性標(biāo)注進(jìn)行關(guān)鍵信息抽取的基礎(chǔ)上,使用Word2vec等方法進(jìn)行選擇題求解,在地理選擇題方面準(zhǔn)確度較高。
綜上所述發(fā)現(xiàn),目前針對(duì)交通行業(yè)的事故數(shù)據(jù)研究停留在對(duì)固定結(jié)構(gòu)數(shù)據(jù)的分析,對(duì)于開放性的文本數(shù)據(jù)挖掘分析較少,在其他行業(yè)領(lǐng)域雖有相關(guān)研究,但在交通行業(yè)領(lǐng)域的復(fù)現(xiàn)研究較少。故本文以文本挖掘相關(guān)技術(shù)為突破口,海量的交通行業(yè)安全生產(chǎn)事故為數(shù)據(jù)源,嘗試?yán)肳ord2vec詞向量模型,結(jié)合Sigmoid邏輯回歸算法,從特征及致因關(guān)鍵詞分類提取角度出發(fā),結(jié)合知識(shí)圖譜及總結(jié)分析方法,對(duì)文本型的交通行業(yè)安全生產(chǎn)事故進(jìn)行分析,不僅能夠?yàn)榻煌ㄐ袠I(yè)安全管理提供有價(jià)值的決策,促進(jìn)交通行業(yè)管理方法升級(jí),而且有利于文本挖掘技術(shù)在交通行業(yè)相關(guān)領(lǐng)域的共享和復(fù)用。
以北京市交通行業(yè)安全生產(chǎn)事故臺(tái)賬數(shù)據(jù)為例,從中可以看出,事故臺(tái)賬信息為相關(guān)專業(yè)人員對(duì)事故的解讀描述,數(shù)據(jù)價(jià)值量高但價(jià)值密度較低,如何提取有價(jià)值的信息是本文的主要研究目標(biāo)。交通行業(yè)安全生產(chǎn)事故原始數(shù)據(jù)示例如下:
運(yùn)輸行業(yè)(5起):
(1)7月2日17:20,運(yùn)通XX路公交車行駛至廣寧路鑄造村站附近路口時(shí),車輛右側(cè)與一騎自行車男子(70歲左右)發(fā)生碰撞,騎車人受傷。
(2)8月25日10時(shí)37分,XX路公交車由西向東正常行駛至朝陽區(qū)北辰橋下輔路時(shí),追尾一輛違規(guī)停放在機(jī)動(dòng)車道上的大巴車(京AVXXXX)造成公交車內(nèi)2名乘客受磕碰傷。
詞向量是將每個(gè)詞綁定唯一的索引,從而將文本用向量的形式表示,目的是將自然語言轉(zhuǎn)換成為機(jī)器可以識(shí)別的形式,詞向量的概念在20世紀(jì)80年代由Hinton首次提出。Word2vec(Word to Vector)是一種詞向量構(gòu)建與分析模型,很好地解決了傳統(tǒng)詞袋模型模型VSM(Vector Space Model)[12]維度災(zāi)難的問題,將語義上相近的詞句賦予相似的向量,從而實(shí)現(xiàn)聚類、尋找同義詞、詞性分析等功能[13]。目前Word2vec主要采用跳詞(Skip-Gram)模型和連續(xù)詞袋(CBOW)模型,其中CBOW適用于小型專業(yè)領(lǐng)域數(shù)據(jù),Skip-Gram在大型語料庫(kù)中表現(xiàn)更好[14]。鑒于本次研究數(shù)據(jù)專業(yè)性較強(qiáng)且數(shù)據(jù)規(guī)模有限,故使用CBOW模式構(gòu)建詞向量模型,CBOW模型的工作原理如圖1所示,由圖可知連續(xù)詞袋(CBOW)模型是3層淺層神經(jīng)網(wǎng)絡(luò):
圖1 CBOW模型工作原理示意圖Fig.1 Schematic diagram of CBOW model working principle
輸入層:輸入值為X上下文的詞向量,上下文詞個(gè)數(shù)由窗口大小C決定,V為模型訓(xùn)練設(shè)定的向量維數(shù),X隨著模型訓(xùn)練的過程隨機(jī)產(chǎn)生。
隱藏層:對(duì)輸入的詞向量分別乘以輸入權(quán)重矩陣W(size為V×N),所得向量相加求平均作為隱藏層向量(size為1×N)。
輸出層:通過激活函數(shù)處理得到V-dim概率分布,概率最大的維度指向預(yù)測(cè)出的中間詞,且結(jié)果的精度和適用性在一定范圍內(nèi)受激活函數(shù)影響。
如果不使用激活函數(shù),輸出的結(jié)果都是輸入值的線性組合,神經(jīng)網(wǎng)絡(luò)的層數(shù)也就沒有了實(shí)際意義,而通過激活函數(shù)引入非線性因素,使神經(jīng)網(wǎng)絡(luò)可以應(yīng)用到眾多非線性模型中。其中Sigmoid函數(shù)將變量映射到(0,1)之間,且單調(diào)遞增在數(shù)據(jù)傳遞過程中不易發(fā)散,所以常用于邏輯回歸中,可以作為二分類模型中的輸出層。
知識(shí)圖譜是語義網(wǎng)絡(luò)的一種表現(xiàn)形式,知識(shí)是以三元組的結(jié)構(gòu)存放,在知識(shí)管理及應(yīng)用方面具有多方面的優(yōu)勢(shì):(1)語義網(wǎng)絡(luò)的知識(shí)存儲(chǔ)模式拓展性強(qiáng),有利于交通行業(yè)知識(shí)的持久化存儲(chǔ)。(2)將文本類型的非結(jié)構(gòu)化數(shù)據(jù),處理成價(jià)值密度更高的結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在圖數(shù)據(jù)庫(kù)中。(3)便于交通行業(yè)安全生產(chǎn)突發(fā)事件知識(shí)的整合與擴(kuò)展。故本文使用Neo4j圖數(shù)據(jù)庫(kù)及Gephi圖譜可視化軟件實(shí)現(xiàn)知識(shí)圖譜的構(gòu)建,通過多元、分時(shí)、動(dòng)態(tài)的可視化展示,對(duì)交通行業(yè)安全生產(chǎn)事故特征進(jìn)行挖掘。
由于交通行業(yè)安全生產(chǎn)事故數(shù)據(jù)為文本格式,利用效率較低,為提高數(shù)據(jù)管理及分析效率,需要從文本數(shù)據(jù)中挖掘有價(jià)值的字段,為此設(shè)計(jì)了基于關(guān)鍵詞分類提取的交通行業(yè)安全生產(chǎn)事故分析方法,主要包括文本數(shù)據(jù)預(yù)處理,事故特征、致因關(guān)鍵詞提取,知識(shí)圖譜可視化分析及致因總結(jié),結(jié)果分析及建議4個(gè)主要步驟,具體流程如圖2所示。
圖2 交通行業(yè)安全事故分析流程圖Fig.2 Traffic accident analysis process
本文主要使用Python語言編程實(shí)現(xiàn)Jieba分詞功能,為得到最好的分詞質(zhì)量,避免識(shí)別不到領(lǐng)域?qū)I(yè)詞匯,結(jié)合交通行業(yè)相關(guān)規(guī)范,建立交通行業(yè)安全生產(chǎn)領(lǐng)域用戶字典及停用字典,首先利用停用字典去除事故文本中無意義的連接詞及標(biāo)點(diǎn),再基于用戶字典對(duì)交通行業(yè)安全生產(chǎn)事故數(shù)據(jù)進(jìn)行切分,切分得到事故詞集數(shù)據(jù)示例如表1所示。
表1 事故詞集數(shù)據(jù)示例表Table 1 Example table of accident word set data
根據(jù)圖2所示步驟,使用經(jīng)過Jieba分詞后的2014—2017年交通行業(yè)安全事故詞集數(shù)據(jù)制作不包含分類屬性的數(shù)據(jù)集,通過專家知識(shí)人工標(biāo)定分類屬性值,制作模型語料庫(kù)如表2所示,表中事故ID表示關(guān)鍵詞所屬事故;詞ID表示關(guān)鍵詞在所屬事故中的位置信息,用于匹配上下文信息;關(guān)鍵詞表示內(nèi)容;分類屬性表示關(guān)鍵詞的類別“1”為特征類關(guān)鍵詞、“?1”為致因類關(guān)鍵詞;分類不明顯的關(guān)鍵值定為“0”以減少影響,利用Python結(jié)合Word2vec依賴包,構(gòu)建CBOW詞向量模型。
表2 模型語料庫(kù)示意表Table 2 Example table of model corpus
訓(xùn)練后每個(gè)關(guān)鍵詞以詞向量的形式存儲(chǔ)在空間中,兩個(gè)關(guān)鍵詞相似性越高,其在空間中的詞向量夾角越小,余弦值越大,通過Python編程實(shí)現(xiàn)計(jì)算詞向量間的余弦值,匹配與目標(biāo)關(guān)鍵詞相似度最高的10個(gè)詞,計(jì)算公式如式(1)所示:式中,ω和s分別目標(biāo)詞與匹配詞的詞向量,ωi與si分別代表詞向量第i維的值。計(jì)算出與目標(biāo)詞相似度最高的10個(gè)詞后,為目標(biāo)詞賦予分類分?jǐn)?shù)Score,計(jì)算公式為式(2),其中cosθ為匹配詞與目標(biāo)詞的相似度,fi為第i個(gè)匹配詞的分類屬性值。
使用2018—2019年交通行業(yè)安全事故作為實(shí)驗(yàn)數(shù)據(jù)導(dǎo)入詞向量模型,通過Python編程實(shí)現(xiàn)Score算法公式,自動(dòng)生成關(guān)鍵詞分類屬性,當(dāng)Score>1時(shí)可以認(rèn)為目標(biāo)詞與特征類關(guān)鍵詞相似度更高,故將該次的分類屬性值設(shè)為1,Score<-1時(shí),則認(rèn)為目標(biāo)詞與致因類關(guān)鍵詞相似度更高,為致因類關(guān)鍵詞分類屬性值設(shè)為?1,分類結(jié)果如表3所示,分類結(jié)果經(jīng)過專業(yè)審定符合行業(yè)需求。
表3 關(guān)鍵詞分類結(jié)果示意表Table 3 Keyword classification results
交通行業(yè)安全事故的發(fā)生雖然具有突發(fā)性和不可預(yù)測(cè)性,但也是一系列不穩(wěn)定因素和事件相繼作用的結(jié)果,事故致因論指出人和物的不穩(wěn)定的狀態(tài)是造成事故發(fā)生的主要原因,所以認(rèn)為事故的發(fā)生與時(shí)間、空間具有一定的耦合性。故本文將分類提取出的特征關(guān)鍵詞,通過Neo4j圖數(shù)據(jù)庫(kù)結(jié)構(gòu)化存儲(chǔ)后,使用Gephi及知識(shí)圖譜關(guān)聯(lián)路徑挖掘事故時(shí)空特征,將致因關(guān)鍵詞通過致因總結(jié)統(tǒng)計(jì)分析主要致因因素。
使用Python中pandas和Py2neo工具包,編程實(shí)現(xiàn)自動(dòng)創(chuàng)建實(shí)體節(jié)點(diǎn)并進(jìn)行實(shí)體間的關(guān)系連接。將事故特征關(guān)鍵詞處理入庫(kù)后,Neo4j圖數(shù)據(jù)庫(kù)[15]根據(jù)已處理數(shù)據(jù)自動(dòng)建立實(shí)體并根據(jù)數(shù)據(jù)進(jìn)行關(guān)系連接,初步生成交通行業(yè)安全生產(chǎn)事故特征領(lǐng)域知識(shí)圖譜,示意圖如圖3所示。圖中同類特征關(guān)鍵詞表現(xiàn)為同一種顏色及尺寸,文字標(biāo)注展示實(shí)體名與實(shí)體間關(guān)系。
圖3 交通行業(yè)安全生產(chǎn)事故領(lǐng)域知識(shí)圖譜示意圖Fig.3 Knowledge map of safety accidents in transportation industry
將Neo4j數(shù)據(jù)庫(kù)按需求引入Gephi軟件,可以生成簡(jiǎn)潔、直觀的實(shí)體知識(shí)圖譜。因此本文選取發(fā)生行政區(qū)、行業(yè)類別、發(fā)生月份與安全事故為分析對(duì)象,將數(shù)據(jù)導(dǎo)入軟件生成圖譜如圖4所示,圖中每一個(gè)圓代表一個(gè)實(shí)體,相關(guān)事故數(shù)量與圓的半徑及文字大小成正比,半徑越大相關(guān)事故數(shù)量越多。
圖4 Gephi可視化分析圖Fig.4 Gephi visualization diagram
由圖4可知,在空間維度上分析,可以明顯看出城六區(qū)在事故數(shù)量上明顯高于其他城區(qū),且朝陽區(qū)、海淀區(qū)及西城區(qū)是北京市交通行業(yè)安全生產(chǎn)類突事故最頻發(fā)的兩個(gè)城區(qū);在行業(yè)維度上分析,路政行業(yè)是事故最頻發(fā)的交通行業(yè),且集中發(fā)生在海淀區(qū)及朝陽區(qū),而軌道行業(yè)事故僅發(fā)生在有地鐵運(yùn)行的城區(qū),這可能是城六區(qū)與其他城區(qū)事故數(shù)量差異較大的原因;在時(shí)間維度上分析,北京市6月、7月、9月安全生產(chǎn)事故數(shù)明顯偏多,這可能與第三季度惡劣天氣較多有關(guān)。
在交通行業(yè)日常的安全生產(chǎn)活動(dòng)中,最需要預(yù)防人員傷亡的事故發(fā)生,為分析存在傷亡事故的空間特征,利用“MATCH p=(a1:district)-[r2:發(fā)生行政區(qū)在]-(a2:event)-[r1:存在傷亡]-(a3:SWE)RETURN p”生成傷亡事故與城區(qū)關(guān)聯(lián)路徑圖譜。傷亡事故關(guān)聯(lián)路徑圖譜是以存在傷亡的事故為中心,以安全事故為一級(jí)關(guān)系、發(fā)生城區(qū)為二級(jí)關(guān)系,并向外關(guān)聯(lián)其他無傷亡事故的關(guān)系網(wǎng)絡(luò),該網(wǎng)絡(luò)如圖5所示。
圖5 傷亡事故關(guān)聯(lián)路徑網(wǎng)絡(luò)圖Fig.5 Diagram of associated path of casualty accidents
圖5 中可以看出,城六區(qū)安全事故數(shù)量明顯高于外環(huán)城區(qū),海淀區(qū)、朝陽區(qū)在安全生產(chǎn)事故基數(shù)多的情況下發(fā)生了一定數(shù)量的傷亡事故,相反在外環(huán)城區(qū)如房山、大興、懷柔、平谷等城區(qū),雖然發(fā)生安全生產(chǎn)事故較少,但仍然存在人員傷亡的情況,且發(fā)生傷亡事故的概率更大,提醒相關(guān)部門需要特別關(guān)注,外環(huán)城區(qū)的相關(guān)管控措施是否到位。
參考相關(guān)文獻(xiàn)及專家建議對(duì)事故文本致因類關(guān)鍵詞進(jìn)行分析聚類,將關(guān)鍵詞按致因主題分為:人為因素、設(shè)備因素及其他因素,并根據(jù)關(guān)鍵詞推斷進(jìn)行致因總結(jié),結(jié)果如表4。表4中致因主題揭示出,車輛設(shè)備故障、交通從業(yè)人參與人的忽視、惡劣環(huán)境及突發(fā)情況是北京市交通行業(yè)安全事故多發(fā)的主要原因,關(guān)鍵詞反映事故中的關(guān)鍵細(xì)節(jié),致因總結(jié)是結(jié)合事故文本對(duì)致因主題進(jìn)行更細(xì)致的解讀。
表4 關(guān)鍵詞主題分類及總結(jié)Table 4 Key words subject classification and summary
總結(jié)以上事故特征及致因發(fā)現(xiàn),北京市交通行業(yè)安全生產(chǎn)事故在第三季度普遍增多,其中7月、9月事故數(shù)量最多,這可能受夏季強(qiáng)降雨影響極端天氣偏多,容易引發(fā)路面塌陷、道路積水等事故。從地域分布情況來看,城六區(qū)的事故數(shù)量遠(yuǎn)多于遠(yuǎn)郊城區(qū),同時(shí)城六區(qū)中,海淀區(qū)、朝陽區(qū)事故數(shù)量最多,遠(yuǎn)郊城區(qū)中懷柔區(qū)、平谷區(qū)、延慶區(qū)事故數(shù)量最少,但均存在傷亡情況,這可能與遠(yuǎn)郊城區(qū)工程建設(shè)及大貨車較多有關(guān),安全隱患仍然存在。其中城六區(qū)事故多發(fā),原因可能為軌道交通類事故頻發(fā),事故主要集中在早晚高峰時(shí)段,主要原因可能為客流量大,且地鐵修建較早,基礎(chǔ)設(shè)施老化等。從事故類型情況來看,運(yùn)輸行業(yè)類事故是出現(xiàn)人員傷亡的重點(diǎn)類型,其中人為因素占比最高,如司機(jī)違規(guī)操作、非機(jī)動(dòng)車及行人不遵守交通規(guī)則是出租客運(yùn)類事故高發(fā)原因,公共交通類事故的誘因有交通事故、車輛起火、車輛故障,其中交通事故和車輛起火是發(fā)生傷亡情況的主要誘因。根據(jù)以上安全生產(chǎn)事故特征,綜合行業(yè)安全應(yīng)急管理實(shí)際情況,提出工作建議5點(diǎn),以此促進(jìn)相關(guān)企業(yè)深入排查隱患,提高安全生產(chǎn)能力和水平。
(1)加大汛期期間道路巡查力度,針對(duì)極端天氣制定特殊方案。
(2)根據(jù)城區(qū)實(shí)際情況分別制定防控方案,對(duì)重點(diǎn)區(qū)域和類型加強(qiáng)監(jiān)管。
(3)城六區(qū)應(yīng)重視相關(guān)從業(yè)車輛的養(yǎng)護(hù)與檢修,發(fā)現(xiàn)問題應(yīng)及時(shí)上報(bào),增強(qiáng)駕駛員培訓(xùn),在安全駕駛的基礎(chǔ)上,學(xué)習(xí)突發(fā)事故應(yīng)急處置規(guī)范避免傷亡。同時(shí)加強(qiáng)對(duì)乘客的宣傳教育,提高應(yīng)急逃生能力。
(4)遠(yuǎn)郊城區(qū)應(yīng)嚴(yán)格執(zhí)行治超管理,禁止超載超限車輛上路,嚴(yán)肅打擊交通違法行為。
(5)建立交通行業(yè)內(nèi)相關(guān)部門內(nèi)部的協(xié)調(diào)、報(bào)送、聯(lián)動(dòng)機(jī)制,提高指揮調(diào)度能力。
(1)通過對(duì)事故文本數(shù)據(jù)關(guān)鍵詞的提取,不僅可以獲取事故的位置信息,還可以獲取事故的詳細(xì)描述與致因信息,解決了傳統(tǒng)事故分析中數(shù)據(jù)格式局限性的問題,還實(shí)現(xiàn)了時(shí)空特征與語義信息的結(jié)合,有助于對(duì)交通安全事故的進(jìn)一步認(rèn)識(shí)與分析。
(2)通過Word2vec建立交通行業(yè)安全事故詞向量模型,對(duì)分詞處理得到的關(guān)鍵詞集進(jìn)行分類,通過特征類關(guān)鍵詞分析北京市交通行業(yè)安全生產(chǎn)工作宏觀特征,明確事故頻發(fā)的行業(yè)及區(qū)域,再通過致因類關(guān)鍵詞挖掘事故細(xì)節(jié)中的潛在致因因素,依此為相關(guān)管理部門提出針對(duì)性的工作建議,全面提升交通行業(yè)安全管理水平。
(3)圖譜快速可視化方法與傳統(tǒng)可視化方法相比,簡(jiǎn)化了制圖步驟,從宏觀的角度對(duì)研究目標(biāo)進(jìn)行分析,通過圖文的結(jié)合將多種屬性信息集合,提高了價(jià)值密度便于讀者獲取更多信息。
(4)隨著大數(shù)據(jù)時(shí)代的來臨,開放性的文本數(shù)據(jù)量劇增,數(shù)據(jù)價(jià)值高但價(jià)值密度較低,通過詞向量模型的應(yīng)用可以高效挖掘文本數(shù)據(jù)中的有效信息,在眾多行業(yè)內(nèi)已得到廣泛應(yīng)用。但本文還存在關(guān)鍵詞類別較單一、區(qū)分精度有待提高等問題。為解決相應(yīng)問題,需要更專業(yè)的字典,更全面的數(shù)據(jù)內(nèi)容以及模型方面的進(jìn)一步優(yōu)化。