• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于文本挖掘的內(nèi)河船舶碰撞事故致因因素分析與風(fēng)險(xiǎn)預(yù)測*

    2018-07-26 02:53:46江福才姚厚杰馬全黨
    交通信息與安全 2018年3期
    關(guān)鍵詞:內(nèi)河貝葉斯船舶

    吳 伋 江福才▲ 姚厚杰 黃 明 馬全黨

    (1.武漢理工大學(xué)航運(yùn)學(xué)院 武漢 430063;2.武漢理工大學(xué)內(nèi)河航運(yùn)技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室 武漢 430063 3.武漢理工大學(xué)智能交通系統(tǒng)研究中心 武漢 430063;4.武漢理工大學(xué)國家水運(yùn)安全工程技術(shù)研究中心 武漢 430063)

    0 引 言

    長江黃金水道作為中國最重要的內(nèi)河航道,對接了“一帶一路”和“長江經(jīng)濟(jì)帶”兩大國家戰(zhàn)略,其對我國交通運(yùn)輸?shù)闹匾圆谎远?。然而,長江航運(yùn)安全形勢確有待加強(qiáng),近年來,長江干線事故頻發(fā),根據(jù)統(tǒng)計(jì),在長江干線發(fā)生的水上交通安全事故、險(xiǎn)情中,碰撞事故占到了40%以上,并且也是造成經(jīng)濟(jì)損失、人員傷亡最大的原因之一[1],因此,本研究將內(nèi)河船舶碰撞作為研究重點(diǎn)。

    為了實(shí)現(xiàn)對內(nèi)河船舶碰撞事故的預(yù)控,實(shí)現(xiàn)內(nèi)河船舶碰撞風(fēng)險(xiǎn)的預(yù)測,國內(nèi)外學(xué)者針對內(nèi)河船舶碰撞事故分析開展了大量的工作。這些研究多從事故的角度出發(fā),以事故樣本為基礎(chǔ),通過數(shù)據(jù)處理開展事故因果分析以及事故預(yù)測等研究工作,一般可將這些研究分為對某一類型的事故開展研究和對單個(gè)事故案例開展研究。常用的方法有貝葉斯網(wǎng)絡(luò)、灰色模型等。目前,各國學(xué)者最為常見的研究思路以大量的航行或事故數(shù)據(jù)為樣本,利用信息化手段對船舶事故開展相關(guān)研究。P.Kujala[2]等通過研究某水域近10年間詳細(xì)的水上交通安全事故數(shù)據(jù),建立了船舶航行風(fēng)險(xiǎn)模型來評估船舶碰撞風(fēng)險(xiǎn);M. B. Zaman[3]基于AIS提取的船舶航行數(shù)據(jù)研究了馬六甲海峽船舶碰撞風(fēng)險(xiǎn),并建立了馬六甲海峽船舶航行仿真模型,運(yùn)用實(shí)際數(shù)據(jù)研究了船舶碰撞規(guī)律與碰撞原因,提出了適用于馬六甲海域的船舶避碰方法。張磊[4]使用貝葉斯網(wǎng)絡(luò),以長江水域船舶碰撞事故作為樣本,描繪出完整的貝葉斯網(wǎng)絡(luò)模型,利用該模型分析事故的前因后果。Wu Bing等[5]在通過對大量碰撞事故進(jìn)行分析,找到影響長江流域碰撞的風(fēng)險(xiǎn)因素,利用貝葉斯模型模擬長江流域碰撞風(fēng)險(xiǎn),得到影響碰撞風(fēng)險(xiǎn)的重要因素指標(biāo)。早期在缺少可靠事故數(shù)據(jù)的情況下,有許多學(xué)者針對人因在船舶碰撞中的影響做過很多研究[6-7],也取得了一定的成果,但是數(shù)據(jù)的不足仍舊無法明確人的不安全行為與船舶碰撞之間的影響關(guān)系。魏曉陽等[8]使用Dcmpstcr-Shafcr證據(jù)理論作為工具,從碰撞雙方船舶的行為著手,并在分析的過程中用到了時(shí)間滑動(dòng)窗Ⅱ,提供了一個(gè)更加具體的環(huán)境來判斷雙方船舶駕駛員的決策意圖。陳昌源等[9]引入弱化算子序列對傳統(tǒng)灰色預(yù)測模型GM(1,1)進(jìn)行改進(jìn),并將這種改進(jìn)的模型用于對一段時(shí)間內(nèi)海上交通事故數(shù)進(jìn)行預(yù)測,分別對比了傳統(tǒng)灰色模型預(yù)測、二階弱化模型預(yù)測和改進(jìn)模型預(yù)測的結(jié)果,并證明改進(jìn)后的模型更優(yōu)。尚前明等[10]對單個(gè)沉船事故進(jìn)行研究,以“東方之星”為例,利用事故樹法構(gòu)建了船舶傾覆事故模型,并找到了事故發(fā)生的關(guān)鍵致因。牛佳偉等[11]針對不同水域,使用2種灰色關(guān)聯(lián)理論分析其未來的交通組織形式,并將預(yù)測結(jié)果與實(shí)際數(shù)據(jù)相比較,得到預(yù)測精度,最后獲得所建立的預(yù)測模型的短期預(yù)測精度的大致范圍,得出了加權(quán)灰色關(guān)聯(lián)理論具有結(jié)果更精確和層次更清晰的結(jié)論。

    通過分析國內(nèi)外關(guān)于內(nèi)河船舶碰撞事故的研究成果來看,國內(nèi)外的學(xué)者主要是運(yùn)用統(tǒng)計(jì)法通過統(tǒng)計(jì)分析大量的事故案例或者通過專家分析內(nèi)河船舶碰撞事故案例來分析事故的致因因素,進(jìn)而開展風(fēng)險(xiǎn)評價(jià)研究。但是,通過統(tǒng)計(jì)方法分析大量的事故案例是采用人工讀取事故報(bào)告并記錄事故致因因素,工作量大且容易受到主觀判斷的影響;而事故案例研究為了還原該事故發(fā)生的經(jīng)過,常采用定性分析,使得最后得到的結(jié)果存在諸多不確定因素?;谏鲜鲈?,筆者使用文本挖掘技術(shù)對船舶碰撞事故開展研究。文本挖掘是跨越信息檢索、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和計(jì)算語言學(xué)等學(xué)科的新興學(xué)科[12]。信息中有不少于80%通過文本儲(chǔ)存[13]。知識可以從各種信息源中被發(fā)現(xiàn),而文本則仍然為現(xiàn)有最大信息源。文本知識發(fā)現(xiàn)[14]是提取顯性和隱形的概念并用自然語言處理(nature language processing,NLP)技術(shù)找到其中關(guān)聯(lián)的技術(shù)。其目的在于洞悉海量的文本數(shù)據(jù)。文本挖掘所使用的手段包括信息提取、主題追蹤、信息概述、文本分類、文本聚類、關(guān)聯(lián)分析、信息可視化等[15]。國內(nèi)外學(xué)者在網(wǎng)絡(luò)輿情監(jiān)控、情報(bào)分析、圖書管理、醫(yī)藥研發(fā)等領(lǐng)域均運(yùn)用了文本挖掘技術(shù)[16-18]。文本挖掘的核心可以分為文本流的語言學(xué)處理和數(shù)學(xué)處理2個(gè)步驟。文本流的語言學(xué)處理包括分詞、詞性標(biāo)注、去除停用詞等流程;文本流的數(shù)學(xué)處理就是將文本中的非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息,其最常用的方法就是tf-idf(term frequency-inverse document frequency),即“詞頻-逆文本頻率”。筆者對tf-idf公式進(jìn)行平滑改進(jìn),解決了文本識別過程中無法識別統(tǒng)計(jì)較為生僻的專業(yè)名詞的問題,提升了文本挖掘方法在交通運(yùn)輸領(lǐng)域的適應(yīng)性。本文通過查重率和相關(guān)性檢驗(yàn)證明了文本挖掘識別出的船舶碰撞事故致因因素結(jié)果是可信的,并通過構(gòu)建貝葉斯網(wǎng)絡(luò)模型對船舶碰撞風(fēng)險(xiǎn)進(jìn)行了預(yù)測,為船舶碰撞事故的防控提供了數(shù)據(jù)支撐。

    1 文本挖掘方法

    為了挖掘內(nèi)河船舶碰撞事故報(bào)告中的事故致因因素挖掘,采用文本挖掘方法,文本挖掘是指利用計(jì)算機(jī)技術(shù)或者大數(shù)據(jù)技術(shù)從文本數(shù)據(jù)中獲取有價(jià)值的信息和知識[19]。文本挖掘技術(shù)可用于統(tǒng)計(jì)學(xué)科、自然語言學(xué)科和機(jī)器學(xué)習(xí)等多個(gè)知識領(lǐng)域,為大數(shù)據(jù)背景下的數(shù)據(jù)處理和數(shù)據(jù)挖掘提供了技術(shù)支持。文本挖掘具體流程如圖1所示。

    圖1 文本挖掘一般流程Fig.1 Text mining general process

    1.1 文本挖掘語料的選取

    內(nèi)河船舶碰撞事故風(fēng)險(xiǎn)由風(fēng)險(xiǎn)識別、風(fēng)險(xiǎn)估計(jì)、風(fēng)險(xiǎn)評價(jià)與應(yīng)急措施等流程組成,風(fēng)險(xiǎn)評價(jià)是風(fēng)險(xiǎn)水域通航安全管理的基礎(chǔ),首先要認(rèn)識風(fēng)險(xiǎn),找到風(fēng)險(xiǎn)發(fā)生的規(guī)律,然后才能采取相應(yīng)措施來控制風(fēng)險(xiǎn)[20]。具體參照綜合安全評估(formal safety assessment, FSA)方法制定風(fēng)險(xiǎn)可接受標(biāo)準(zhǔn),該標(biāo)準(zhǔn)由英國海事和海岸警備局(UK Maritime and Coastguard Agency,MCA)提出,F(xiàn)SA方法被IMO批準(zhǔn)為1種正式的政策制定工具。每1個(gè)流程都涉及大量的文本型文件,如水上交通事故風(fēng)險(xiǎn)源識別清單、風(fēng)險(xiǎn)矩陣、風(fēng)險(xiǎn)應(yīng)急手冊和水上交通事故報(bào)告。

    由于船舶碰撞事故報(bào)告詳細(xì)描述了事故的起因、過程和結(jié)論,并且也從工程技術(shù)和管理等方面對船舶碰撞事故中的失誤及各個(gè)階段性文件的缺失或者不足進(jìn)行了補(bǔ)充。船舶碰撞事故報(bào)告都是有官方機(jī)構(gòu)出具的、對事故進(jìn)行調(diào)查的官方文件,它比其他文件更加具有代表性,所以在本文研究過程中,選取事故報(bào)告作為文本挖掘的語料。

    在船舶碰撞事故的選擇上,收集我國內(nèi)河航運(yùn)的典型水道近5年的水上交通事故報(bào)告,并針對性的分析碰撞事故報(bào)告。利用全網(wǎng)搜索與水上交通船舶事故有關(guān)的信息,從長江航務(wù)局、長江海事局、長江航道局等部門網(wǎng)站共收集事故報(bào)告419例。事故報(bào)告數(shù)比較豐富,均為2013-2017年數(shù)據(jù),報(bào)告涉及了近年來較新的事故數(shù)據(jù),以上數(shù)據(jù)可以確保使用文本挖掘的客觀性。

    1.2 文本數(shù)據(jù)挖掘工具選取

    為了實(shí)現(xiàn)內(nèi)河船舶碰撞事故致因因素的文本挖掘,需要根據(jù)數(shù)據(jù)類型進(jìn)行分析,選擇合適的數(shù)據(jù)挖掘工具,根據(jù)上文分析,筆者設(shè)計(jì)的研究主要體現(xiàn)在事故報(bào)告的挖掘,即文本數(shù)據(jù)。較為常用的文本挖掘系統(tǒng)有漢語詞法分析系統(tǒng)(institute of computing technology, chinese lexical analysis system,ICTCLAS),該系統(tǒng)可以對漢語文本數(shù)據(jù)進(jìn)行分詞,統(tǒng)計(jì)等工作,但其缺點(diǎn)是不能夠有效的識別行業(yè)內(nèi)特定的專有名詞,相比該系統(tǒng),R語言則是一個(gè)開放性的平臺(tái),在使用R系統(tǒng)的過程中可以根據(jù)自己的需要添加程序包,來實(shí)現(xiàn)文本挖掘過程中所需要的數(shù)據(jù)統(tǒng)計(jì)、分析處理以及結(jié)果可視化等功能,因此,在內(nèi)河船舶碰撞事故致因因素分析和提取研究是運(yùn)用R語言及相應(yīng)程序包實(shí)現(xiàn)對內(nèi)河船舶碰撞事故報(bào)告的挖掘分析。

    2 基于R語言文本挖掘的內(nèi)河船舶碰撞事故致因因素分析

    為了實(shí)現(xiàn)內(nèi)河水域船舶碰撞事故致因因素的文本挖掘,用于文本挖掘的分析的數(shù)據(jù)來自長江海事局提供的2013-2017年水上交通事故險(xiǎn)情報(bào)告。文中所提到的長江下游航段是指從陽邏大橋到蕪湖大橋之間的長江干線航道。在開展文本挖掘時(shí)所用到的數(shù)據(jù)主要是指2013-2017年5年間長江下游所發(fā)生船舶碰撞險(xiǎn)情,共計(jì)419起,上述碰撞險(xiǎn)情涉及的事故船舶843艘。

    2.1 內(nèi)河船舶碰撞事故致因因素分析

    為了能夠讓文本可以被識別和統(tǒng)計(jì),需要利用R軟件將文本轉(zhuǎn)化為向量空間模型。在文本挖掘的過程中,文本挖掘系統(tǒng)會(huì)將文本進(jìn)行分詞處理,得到一系列的特征項(xiàng),這些特征項(xiàng)和其權(quán)重就構(gòu)成了空間向量,以下是其定義。

    定義1。在文本挖掘中,將一篇文獻(xiàn)或其中一段用D表示,所有文獻(xiàn)記作N。

    定義2。在文本挖掘中,所謂的特征項(xiàng)是指能代表該文本材料的基本語言單位,如字、詞等,用Tk表示。

    定義3。在文本挖掘中,所謂的特征項(xiàng)權(quán)重Wik表示特征項(xiàng)Tk對于文本權(quán)重Di的重要程度,用tf-idf公式進(jìn)行計(jì)算,具體如下。

    (1)

    式中:ni,j為該詞條在文本文件Di中出現(xiàn)的次數(shù);∑knk,j為所有文件中所有詞條中出現(xiàn)的次數(shù)總和。

    (2)

    式中:|D|為文本文件的總數(shù)量;|{j:ti∈dj}|是包含詞條語句ti的文件條目。

    tf-idf=tfi,j×idfi

    (3)

    利用式(3)可以得到每一個(gè)特征項(xiàng)的權(quán)重Wik。

    定義4。在文本挖掘中,所構(gòu)建的向量空間模型是指把特征項(xiàng)看作高維坐標(biāo)系,權(quán)重表示為高維坐標(biāo)的值,計(jì)算獲得的向量集合即為文本的向量空間模型。

    tf-idf是term frequency-inverse document frequency的縮寫,即“詞頻-逆文本頻率”,該方法是自然語言處理中常用的方法。詞頻“tf”即向量化之后文本中各個(gè)詞出現(xiàn)的頻率,而逆文本頻率“idf”反映了1個(gè)詞語在所有文本中出現(xiàn)的頻率。如果1個(gè)詞在很多文本中均有出現(xiàn),那么其idf值應(yīng)該低,表明其對文本的重要程度很低,比如本研究中每篇文檔均會(huì)出現(xiàn)的詞語“碰撞”;反之,一些非常專業(yè)的名詞,比如“拖錨淌航”,其idf應(yīng)該較高。

    筆者在研究過程中發(fā)現(xiàn),idf的計(jì)算公式在使用時(shí),一旦出現(xiàn)語料庫中沒有的生僻詞,其公式中的分母將為0,則計(jì)算無意義,因此,為了解決該問題,對傳統(tǒng)idf公式進(jìn)行平滑處理,改進(jìn)后的公式見式(4)。

    (4)

    經(jīng)過平滑處理后的idf公式可以使語料庫中沒有的詞也能被賦予一個(gè)合適的idf值,但是,通過進(jìn)一步的實(shí)驗(yàn)發(fā)現(xiàn),文本中的某些熱詞,會(huì)出現(xiàn)“|D|=|{j:ti∈dj}|”的情況,這樣也會(huì)導(dǎo)致idf的值為0,影響整個(gè)計(jì)算。因此,筆者對idf公式進(jìn)一步改進(jìn),改進(jìn)后的公式見式(5)。

    (5)

    改進(jìn)后的tf-idf公式可以計(jì)算每一個(gè)特征項(xiàng)的權(quán)重。

    2.2 待挖掘的數(shù)據(jù)源分析及特征值選擇

    通過對船舶碰撞事故報(bào)告的分析,上述數(shù)據(jù)獲得的途徑主要通過“數(shù)據(jù)交換”及“網(wǎng)絡(luò)爬蟲”2種方式獲取。通過數(shù)據(jù)交換可直接獲得結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),但網(wǎng)絡(luò)爬蟲是通過爬取相關(guān)數(shù)據(jù)所在網(wǎng)頁,然后對網(wǎng)頁內(nèi)容進(jìn)行解析得到目標(biāo)數(shù)據(jù)。本章運(yùn)用網(wǎng)絡(luò)爬蟲獲得的數(shù)據(jù)主要包含通航數(shù)據(jù)和事故險(xiǎn)情數(shù)據(jù),通航環(huán)境數(shù)據(jù)中的數(shù)據(jù)包含了半結(jié)構(gòu)化信息;事故險(xiǎn)情數(shù)據(jù)表中包含了部分非結(jié)構(gòu)化信息。在內(nèi)河船舶碰撞事故分析過程各種,需要考慮人為因素、船舶因素、通航環(huán)境因素和管理因素,以下對文本挖掘的數(shù)據(jù)源及目標(biāo)數(shù)據(jù)進(jìn)行分析。

    1) 通航環(huán)境數(shù)據(jù)。由數(shù)據(jù)庫數(shù)據(jù)需求分析中定義的通航環(huán)境數(shù)據(jù),待爬取數(shù)據(jù)的數(shù)據(jù)源分為船舶碰撞事故報(bào)告中的能見度、風(fēng)、流、水位信息、氣象信息、維護(hù)水深和港口水情等若干個(gè)版塊。

    2) 船舶數(shù)據(jù)。船舶數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源為船舶碰撞事故報(bào)告,以自由文本形式對船舶碰撞事故進(jìn)行描述,主要包括船舶設(shè)備故障或失靈、船舶類型、船舶噸位、船舶等級等船舶參數(shù)信息。

    3) 人為因素?cái)?shù)據(jù)。人為因素?cái)?shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源為船舶碰撞事故報(bào)告,以自由文本形式對船舶碰撞事故進(jìn)行描述,主要包括疏忽、經(jīng)驗(yàn)不足、未及時(shí)休息、失誤等級等人為性決策參數(shù)信息。

    4) 管理因素?cái)?shù)據(jù)。管理因素?cái)?shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源為船舶碰撞事故報(bào)告,以自由文本形式對船舶碰撞事故進(jìn)行描述,主要包括未發(fā)現(xiàn)船員不勝任、接班值班安排不當(dāng)、船員配合不當(dāng)?shù)裙芾硎д`信息。

    以上從人為因素、船舶因素、通航環(huán)境因素和管理因素,對文本挖掘的數(shù)據(jù)源及目標(biāo)數(shù)據(jù)進(jìn)行分析。針對上述419起內(nèi)河船舶碰撞事故報(bào)告梳理成文本格式,構(gòu)建基于R語言的文本挖掘的集合,利用分詞程序?qū)ζ溥M(jìn)行處理。為了提高文本挖掘的精度,防止遺漏專業(yè)術(shù)語及誤識別虛詞,在進(jìn)行分詞處理前,需要對詞匯類型進(jìn)行制定和歸納得出歸并詞群表,并對文本中虛詞進(jìn)行剔除。

    上述歸并詞群表的內(nèi)容來源于水上交通工程、安全工程、航運(yùn)、氣象等領(lǐng)域的專業(yè)詞匯,刪除文本中的虛詞需要利用《現(xiàn)代漢語虛詞詞典》。分詞結(jié)果將得到1個(gè)高維稀疏集合,作為原始特征項(xiàng),見表1。由于文本挖掘的對象是船舶碰撞事故報(bào)告,因此文本中一定會(huì)出現(xiàn)大量的“碰撞” “責(zé)任” “事故”等詞匯,這些詞匯能夠幫助判斷文本的屬性,但對于分析事故致因因素沒有明顯的作用,因此在挖掘過程中可以忽略。

    表1 內(nèi)河船舶碰撞事故調(diào)查報(bào)告文本集特征項(xiàng)(部分)Tab.1 Inland river vessel collision investigation report text set Feature item (part)

    運(yùn)用R語言進(jìn)行分詞處理,實(shí)現(xiàn)了對文本數(shù)據(jù)的預(yù)處理,分詞各種獲得了498項(xiàng)原始特征,過高的維度會(huì)影響計(jì)算速度,并且沒有實(shí)際意義。所以需要對內(nèi)河船舶碰撞事故報(bào)告文本的特征項(xiàng)進(jìn)行降維處理和優(yōu)選。χ2統(tǒng)計(jì)在召回率和查準(zhǔn)率方面比其他降維手段更優(yōu),所以本章通過χ2統(tǒng)計(jì)對內(nèi)河船舶碰撞事故數(shù)據(jù)進(jìn)行降維處理,公式為

    (6)

    式中:n為整個(gè)文本的數(shù)量;a為屬于ci類中包含特征項(xiàng)t的文本出現(xiàn)頻率;b為不屬于ci類包含特征項(xiàng)t的文本出現(xiàn)頻率;c為屬于ci類不包含特征項(xiàng)t的文本出現(xiàn)頻率;d為不屬于ci類不包含特征項(xiàng)t的文本出現(xiàn)頻率。

    那么整個(gè)文本語料庫的χ2值可得

    (7)

    然后,通過m值來移除大部分干擾文本信息特征項(xiàng),從而達(dá)到降維的目的。

    2.3 船舶碰撞事故致因因素選取

    根據(jù)1.1中關(guān)于文本挖掘的基本流程,運(yùn)用R語言進(jìn)行分詞處理,實(shí)現(xiàn)了對文本數(shù)據(jù)的預(yù)處理,分詞共獲得了498項(xiàng)原始特征,為了降低維度,精簡文本挖掘的過程,在R語言中調(diào)用Boruta 和Caret 2個(gè)語言特征選擇程序包,并用χ2統(tǒng)計(jì)功能統(tǒng)計(jì)特征項(xiàng)的降維結(jié)果,最終確定影響船舶碰撞的四要素,即人為因素、船舶因素、環(huán)境因素,以及管理因素,獲得了33個(gè)維度的文本特征項(xiàng),確定如表2所示的船舶碰撞風(fēng)險(xiǎn)致因因素。

    結(jié)合內(nèi)河船舶碰撞事故報(bào)告文本以及降維后的事故特征,分析降維后的特征項(xiàng)的詞頻,分析結(jié)果見圖2。

    2.4 事故致因因素空間向量模型構(gòu)建

    根據(jù)2.1中的定義,使用式(1)~(3)求得所有內(nèi)河船舶碰撞事故報(bào)告文本特征項(xiàng)的權(quán)重值,將其轉(zhuǎn)化為空間向量。內(nèi)河船舶碰撞事故調(diào)查報(bào)告向量空間模型如表3所示,其中Ti是指第i項(xiàng)致因因素,Di是指i內(nèi)河船舶碰撞事故報(bào)告。由于文本數(shù)量較多,只列舉10個(gè)文本的空間向量模型。

    利用上述事故調(diào)查報(bào)告空間向量模型可以構(gòu)建內(nèi)河船舶碰撞事故致因因素詞云,通過該詞云可以分析內(nèi)河船舶碰撞事故致因因素。

    圖2 內(nèi)河船舶碰撞風(fēng)險(xiǎn)事故調(diào)查報(bào)告文本特征項(xiàng)降維結(jié)果Fig.2 Inland river vessel collision risk accident investigation report text characteritem dimension reduction result

    Tab.3inlandrivershipcollisioninvestigationreportvectorspacemodel

    DiTi12345678910110.10.20.200000000D2000000.10.20.1000D30.400.100000000D40.20000.2000.1000D50.10000000.2000D6000000.500000.2D7000000000.400D81.100.5000.400000D90000.3000000.10D100.7000.10000000DiTi1213141516171819202122D11.100.4000 0.4000.40D200.5000000000D30.70000000000D40.20.2000.1000000D50.10000000000D6000.50000.50.200.50.2D7000000.4000.400D80.700.40000.4000.40D900000000.1000D100.70000000000DiTi2324252627282930313233D10.400.401.100.4000.40D200.1000000000D3000000.4000.400D40.400.400.700.4000.40D50000000.50000D600.2000.7000000D700.10000.4000.400D80.400.400.700.4000.40D9000000.200000D1000000.700000.10

    2.5 船舶碰撞事故致因因素分析

    通過該空間向量模型,可以將全體內(nèi)河船舶碰撞事故調(diào)查報(bào)告文本轉(zhuǎn)化成向量集合,向量中的特征項(xiàng)就是事故的致因因素,從該向量中既可以得出某一致因因素能夠歸屬于某起事故發(fā)生原因的可能性,也能得到不同事故報(bào)告中同一致因因素的權(quán)重。為了能夠使數(shù)據(jù)可視化,調(diào)用R語言的 Wordcloud程序包,得到如圖3所示的內(nèi)河船舶碰撞事故致險(xiǎn)因素詞云。

    圖3 內(nèi)河船舶碰撞事故致因因素詞云Fig.3 Inland river vessel collision accident cause factor word cloud

    通過圖3可以將419份在不同地點(diǎn)、不同時(shí)間發(fā)生的不同事故的事故報(bào)告關(guān)聯(lián)起來,通過詞云圖中33項(xiàng)因素的字體顯示大小、顏色,以及在圖中的位置可以判斷該項(xiàng)致因因素的重要程度,其中字體越大、顏色越深、位置越靠近中央,表示該項(xiàng)致因因素越重要。

    按照上述內(nèi)河船舶碰撞事故詞云的排布,可以把其描述為主要致因因素和其他致因因素,主要致因因素主要包括錯(cuò)誤估計(jì)碰撞危險(xiǎn)、操縱不當(dāng)、未充分了解信息、瞭望不當(dāng)、大風(fēng)浪、能見度不良、航速過快7種。雖然上述7種主要致因因素構(gòu)成了大部分的事故,但是內(nèi)河船舶碰撞事故不是由單一致因因素所導(dǎo)致的,因此其他致因因素也需要被考慮。為了有效的防控事故的發(fā)生,需從人-船-環(huán)境-管理4個(gè)因素出發(fā)制定防控手段。

    2.6 船舶碰撞事故致因因素驗(yàn)證

    為了檢驗(yàn)文本挖掘得出的船舶碰撞事故致因結(jié)果是否準(zhǔn)確,運(yùn)用專家調(diào)查法對相同的樣本進(jìn)行致因因素識別和評價(jià)。由于本研究中的船舶碰撞致因因素是由事故數(shù)據(jù)分析得出的,因此專家調(diào)查法中的風(fēng)險(xiǎn)評價(jià)體系也需要根據(jù)事故數(shù)據(jù)來決定。為了確定風(fēng)險(xiǎn)評價(jià)指標(biāo),邀請了來自海事管理部門的專家、高級引航員、內(nèi)河船長、船公司管理人員等共5名專家組成專家組,閱讀419份船舶碰撞事故調(diào)查報(bào)告,并經(jīng)過充分討論,匯總得出了本研究水域24項(xiàng)船舶碰撞事故致因因素。圖4為專家調(diào)查法得出的船舶碰撞事故致因網(wǎng)狀圖。

    圖4 船舶碰撞事故致因因素網(wǎng)狀圖Fig.4 Inland river vessel collision accident cause factor networks

    在得到基于專家調(diào)查法的船舶碰撞事故致因因素后,依據(jù)419份船舶碰撞事故調(diào)查報(bào)告,由人工統(tǒng)計(jì)方法計(jì)算出各項(xiàng)致因因素的權(quán)重。將2種方法得出的權(quán)重進(jìn)行歸一化處理,然后將同義的致因因素進(jìn)行合并,以此來對比由專家調(diào)查法得出的權(quán)重和由文本挖掘得出的權(quán)重,對照結(jié)果見表4。

    很多學(xué)者使用查重率和相關(guān)系數(shù)2個(gè)指標(biāo)來驗(yàn)證文本挖掘結(jié)果是否準(zhǔn)確。查重率可以檢驗(yàn)文本挖掘所識別出的致因因素是否也被專家調(diào)查法所識別,有研究表明當(dāng)查重率高于70%時(shí),文本挖掘結(jié)果才是置信的,其計(jì)算見式(8)。

    (8)

    本文研究中專家調(diào)查法共識別出24項(xiàng)致因因素,文本挖掘得出33項(xiàng)致因因素,其Pr=72.7%,結(jié)果是滿足要求的。

    同時(shí),為研究2種方法得出的致因因素之間的相關(guān)性,選用Cronbach的一致性檢驗(yàn)系數(shù)α來作為相關(guān)系數(shù),對結(jié)果的相關(guān)性進(jìn)行檢驗(yàn)。Cronbach′α是一套常用的衡量測驗(yàn)可靠性的方法,依一定公式估量測驗(yàn)的內(nèi)部一致性,作為信度的指標(biāo)。在基礎(chǔ)研究中,信度至少應(yīng)達(dá)到 0.80 才可接受,在探索性研究中,信度只要達(dá)到 0.70 就可接受。其公式見式(9)。

    α=(n/n-1)(1-∑Si/St)

    (9)

    式中:α為信度系數(shù);n為測驗(yàn)題目數(shù);Si為每題各被試得分的方差;St為所有被試所得總分的方差。

    利用SPSS求得2種研究方法的整體α值為0.81,各分項(xiàng)α值也都高于0.7(見表4),結(jié)果也是滿足要求的。

    3 基于貝葉斯網(wǎng)絡(luò)的船舶碰撞風(fēng)險(xiǎn)預(yù)測建模方法

    3.1 貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)分析

    1) 人為因素貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。人為因素是整個(gè)貝葉斯網(wǎng)絡(luò)的重要一環(huán)。其中,以“未充分休息H13”為主要誘因,結(jié)合現(xiàn)有文獻(xiàn)對人為因素進(jìn)行系統(tǒng)全面的分析,建立如圖4所示的船舶碰撞風(fēng)險(xiǎn)人為因素貝葉斯結(jié)構(gòu)。

    表4 船舶碰撞事故致因因素對照表Tab.4 Check list of inland river vesselcollision accident cause factor

    圖5 船舶碰撞風(fēng)險(xiǎn)人為因素貝葉斯結(jié)構(gòu)Fig.5 Ship collision risk Humanfactor Bayesian structure

    2) 船舶因素貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。根據(jù)有關(guān)船舶事故案例,“船舶設(shè)備故障或失靈S21”主要包括“主機(jī)故障或失靈S22”以及“輔機(jī)故障或失靈S23”。根據(jù)船舶故障之間的相互聯(lián)系,建立如圖5所示的船舶碰撞風(fēng)險(xiǎn)船舶因素貝葉斯結(jié)構(gòu)。

    圖6 船舶碰撞風(fēng)險(xiǎn)船舶因素貝葉斯結(jié)構(gòu)Fig.6 Ship collision risk Ship factor Bayesian structure

    3) 環(huán)境因素。由于環(huán)境因素內(nèi)部之間的關(guān)系聯(lián)系較少,故沒有建立相關(guān)的貝葉斯結(jié)構(gòu)圖。環(huán)境因素主要表現(xiàn)在和其他3種因素的聯(lián)系上,在最終的完整貝葉斯結(jié)構(gòu)中有所體現(xiàn)。

    4) 管理因素貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。如前文所述,管理因素“未發(fā)現(xiàn)船員不勝任”和“未發(fā)現(xiàn)設(shè)備隱患”會(huì)使得人為因素和船舶因素的隱患被忽視,造成嚴(yán)重的后果。同時(shí),管理因素內(nèi)部關(guān)系也較為清晰,見圖6。

    5) 基于“人-船-環(huán)境-管理”的船舶碰撞風(fēng)險(xiǎn)貝葉斯結(jié)構(gòu)。在分析完船舶碰撞的四要素之后,從整體的角度出發(fā),挖掘各要素之間的相互關(guān)系,通過廣泛的閱讀文獻(xiàn)及專家調(diào)研,建立基于“人-船-環(huán)境-管理”的船舶碰撞風(fēng)險(xiǎn)貝葉斯結(jié)構(gòu),見圖8。

    圖8 基于“人-船-環(huán)境-管理”的船舶碰撞風(fēng)險(xiǎn)貝葉斯結(jié)構(gòu)Fig.8 Ship collision risk Bayesian structure based on HSEM

    3.2 貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)條件概率

    運(yùn)用構(gòu)建好的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行預(yù)測,需要確定網(wǎng)絡(luò)各節(jié)點(diǎn)條件概率。根據(jù)已有船舶碰撞/險(xiǎn)情事故報(bào)告,結(jié)合貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)概率計(jì)算方法,可以得到各個(gè)節(jié)點(diǎn)的條件概率。下面以“船員配合不當(dāng)M32”為例,介紹條件概率的確定過程。

    在現(xiàn)有的419起船舶碰撞/險(xiǎn)情事故報(bào)告中,涉及到船員配合不當(dāng)?shù)氖鹿试虻谋硎鲋饕小皩﹄p方船舶會(huì)遇態(tài)勢的判斷不準(zhǔn)” “未正確判斷船舶動(dòng)態(tài)”,“未充分交流”等。統(tǒng)計(jì)結(jié)果見表5。

    表5 “船員配合不當(dāng)M32”事故報(bào)告統(tǒng)計(jì)結(jié)果Tab.5 “Crew with improper M32” accident report statistics

    根據(jù)相關(guān)事故報(bào)告統(tǒng)計(jì)結(jié)果,進(jìn)行貝葉斯期望型估計(jì)后,得到相應(yīng)的條件概率見表6。

    表6 “船員配合不當(dāng)M32” 條件概率表Tab.6 “Crew with improper M32”conditional probability table

    3.3 船舶碰撞風(fēng)險(xiǎn)貝葉斯模型驗(yàn)證

    為了對本研究所構(gòu)建的船舶碰撞風(fēng)險(xiǎn)貝葉斯模型進(jìn)行驗(yàn)證,以2011年《百美#8輪碰撞事故》為例進(jìn)行分析。

    事故時(shí)間:2011年5月5日1033時(shí)。

    事故地點(diǎn):福南水道#56浮下約700 m。

    水文氣象:落潮流,東南風(fēng)3~4級,能見度良好。

    船舶概如下。

    1) “百美#8”輪:中國籍內(nèi)貿(mào)散貨船,船長178 m,吃水10.18 m,總噸位19 940、凈噸位11 351,載重量為33 103 t,2007年建造,裝載32 063 t煤炭,由寶山開往鎮(zhèn)江。

    2) 對方船舶:“鹽航拖98”,重載一條龍船隊(duì)(10艘駁船,裝煤炭)。

    將事故經(jīng)過涉及的相關(guān)因素輸入模型,進(jìn)行分析,見圖9。

    圖9 船舶碰撞風(fēng)險(xiǎn)貝葉斯模型驗(yàn)證Fig.9 Ship collision risk Bayesian model verification

    可見,在相關(guān)條件發(fā)生的情況下,發(fā)生碰撞的概率為92%。

    同理,選取419起案例中的典型15起進(jìn)行分析。得到結(jié)果見表7。

    表7 典型碰撞事故/險(xiǎn)情案例分析結(jié)果Tab.7 Typical crash accident/danger case analysis results

    由結(jié)果可知,除3起碰撞事故險(xiǎn)情的概率為87%,88%,85%外,其他碰撞事故/案例分析的預(yù)測結(jié)果均在90%以上,證明了本研究所構(gòu)建模型的有效性。

    3.4 船舶碰撞風(fēng)險(xiǎn)致因貝葉斯推理分析

    在證明船舶碰撞風(fēng)險(xiǎn)貝葉斯模型有效性的基礎(chǔ)上,利用貝葉斯網(wǎng)絡(luò)強(qiáng)大的推理能力,對船舶碰撞致因進(jìn)行分析,將船舶碰撞概率設(shè)為1,反向得到推理結(jié)果見表8。其中船舶碰撞致因較為突出(概率大于60%)的因素以加粗表示。

    表8 船舶碰撞風(fēng)險(xiǎn)致因分析結(jié)果Tab.8 Ship collision risk cause analysis results

    由結(jié)果可知,人為因素是導(dǎo)致船舶碰撞的首要因素,具體而言,“未充分休息H13”“瞭望不當(dāng)H21”“引航不當(dāng)H22”“錯(cuò)誤估計(jì)碰撞風(fēng)險(xiǎn)H32”“反應(yīng)時(shí)間過長H33”“操縱不當(dāng)H41”,以及“航速過快H44”是人為因素中比較突出的碰撞致因。船舶因素影響相對較小,管理因素和環(huán)境因素影響一般。

    4 結(jié) 論

    船舶碰撞事故是典型的高風(fēng)險(xiǎn)水上交通事故,為明確船舶碰撞事故過程中存在的致因因素,為船舶碰撞事故風(fēng)險(xiǎn)的預(yù)控提供依據(jù),選取2013—2017年內(nèi)河水域共發(fā)生的419起船舶碰撞事故報(bào)告為例,借助R語言和本文所提出的文本挖掘方法,首先,對內(nèi)河船舶碰撞事故報(bào)告進(jìn)行分詞處理、特征項(xiàng)選擇處理、向量空間模型構(gòu)建處理、共現(xiàn)規(guī)律識別處理等,為了解決挖掘過程中無法識別統(tǒng)計(jì)較為生僻的專業(yè)名詞的問題,本文對TF-IDF公式進(jìn)行平滑改進(jìn)。其次,利用詞云和網(wǎng)絡(luò)結(jié)構(gòu)圖等方法實(shí)現(xiàn)本挖掘結(jié)果的可視化。最后,從中發(fā)現(xiàn)船舶碰撞風(fēng)險(xiǎn)事故的33個(gè)碰撞事故致因因素,對比基于人工統(tǒng)計(jì)的專家調(diào)查法,筆者所使用的文本挖掘方法在精度和效率上有很大的提升;另外,針對貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的有效性,選取了15個(gè)典型案例進(jìn)行了驗(yàn)證,并在此基礎(chǔ)上反向進(jìn)行了船舶碰撞風(fēng)險(xiǎn)致因貝葉斯推理,結(jié)果表明:人為因素是導(dǎo)致船舶碰撞的首要因素,“未充分休息H13”“瞭望不當(dāng)H21”“引航不當(dāng)H22”“錯(cuò)誤估計(jì)碰撞風(fēng)險(xiǎn)H32”“反應(yīng)時(shí)間過長H33” “操縱不當(dāng)H41”,以及“航速過快H44”等因素是人為因素中比較突出的碰撞致因。

    由于筆者研究的事故樣本為長江干線航道2013-2017年5年間的船舶碰撞事故,時(shí)間和空間跨度較大,不同時(shí)間、不同航段的法律環(huán)境、經(jīng)濟(jì)環(huán)境、社會(huì)環(huán)境存在較大的差異,而本文的船舶碰撞事故致因因素沒有體現(xiàn)出時(shí)序性和空間差異。在后續(xù)的研究中可以考慮劃分不同的航段,在不同的通航環(huán)境下開展船舶碰撞事故致因因素研究。

    猜你喜歡
    內(nèi)河貝葉斯船舶
    《船舶》2022 年度征訂啟事
    船舶(2021年4期)2021-09-07 17:32:22
    船舶!請加速
    如何提高內(nèi)河船舶應(yīng)急部署執(zhí)行有效性
    水上消防(2019年3期)2019-08-20 05:46:06
    BOG壓縮機(jī)在小型LNG船舶上的應(yīng)用
    船舶壓載水管理系統(tǒng)
    中國船檢(2017年3期)2017-05-18 11:33:09
    貝葉斯公式及其應(yīng)用
    基于貝葉斯估計(jì)的軌道占用識別方法
    內(nèi)河集散船艙口角隅甲板應(yīng)力分析
    船海工程(2015年4期)2016-01-05 15:53:28
    一種基于貝葉斯壓縮感知的說話人識別方法
    電子器件(2015年5期)2015-12-29 08:43:15
    內(nèi)河搜救風(fēng)險(xiǎn)評估模型
    中國航海(2014年1期)2014-05-09 07:54:27
    青田县| 新乡县| 吉林省| 山西省| 南丰县| 招远市| 广灵县| 福贡县| 勃利县| 达日县| 杨浦区| 郎溪县| 原平市| 钦州市| 鄂州市| 贵南县| 沙田区| 定边县| 吴堡县| 平乡县| 彰武县| 丹阳市| 惠州市| 日土县| 鲜城| 黔南| 萨迦县| 出国| 伊宁县| 驻马店市| 彰武县| 郧西县| 永泰县| 奉贤区| 宁都县| 晋州市| 沙洋县| 莱阳市| 涿鹿县| 栾城县| 本溪|