楊柏丞, 馬建斌, 王哲凱, 陳紅玉
(大連海事大學(xué) 航海學(xué)院, 遼寧 大連 116026)
在船舶導(dǎo)航系統(tǒng)的智能化、船舶駕駛員的高素質(zhì)化及各國海事主管機關(guān)的努力下,我國沿海海事事故整體呈逐年下降趨勢。但部分海域由于航路復(fù)雜、船舶密集及自然環(huán)境惡劣等原因,保障海上航行安全仍是當(dāng)前研究的熱點問題。鑒于此,為找出海事事故的主要致因,減少船舶航行風(fēng)險,國內(nèi)外專家學(xué)者從不同角度對不同海域的交通事故進行了廣泛研究,且取得的成果頗豐。當(dāng)前主要的研究方法是對復(fù)雜海域進行安全評估,從人-船與貨物-環(huán)境-管理等方面建立指標(biāo)體系,并采用模糊理論、灰色關(guān)聯(lián)及神經(jīng)網(wǎng)絡(luò)等算法,確定不同海域的風(fēng)險等級,并識別出目標(biāo)海域的主要風(fēng)險,為駕駛員在操縱船舶過程中提供一定的指導(dǎo)和借鑒作用;但該類方法在指標(biāo)體系的建立過程中由于存在較多的主觀因素,且沒有事故數(shù)據(jù)作為支撐,在精度和航海實踐驗證方面尚有不足[1-5]。
為更加全面尋找事故的潛在致因,驗證海事事故信息與各致因之間的關(guān)聯(lián)性,GOERLANDT等[6]對2007—2013年間冬季北波羅的海海域的自然環(huán)境與船舶事故進行數(shù)據(jù)可視化挖掘,分析船舶交通事故與海冰、氣象及人為操作之間的關(guān)系,對冬季北波羅的海船舶航行安全風(fēng)險進行識別。與國外相比,我國在海事事故信息統(tǒng)計方面起步較晚,劉正江等[7]調(diào)查國外近百起船舶碰撞事故報告,并提取各事故的致因,對人為因素及其誘發(fā)因素與碰撞事故進行關(guān)聯(lián)挖掘,確定了船舶碰撞過程中人為失誤與誘發(fā)因素之間的對應(yīng)關(guān)系。張曉輝等[8-9]對中國沿海各轄區(qū)水上交通事故進行全因素關(guān)聯(lián)挖掘試驗,識別出碰撞風(fēng)險是長三角水域最突出的風(fēng)險。黃常海等[10]建立了關(guān)聯(lián)規(guī)則模型和事故因素網(wǎng)絡(luò),在支持度為10%、置信度為70%的條件下提取了15條強關(guān)聯(lián)規(guī)則,對輕微事故的關(guān)聯(lián)因素進行詳盡的分析。
在上述研究成果的基礎(chǔ)上,考慮到各水域自然環(huán)境和交通環(huán)境都不盡相同,進一步有針對性地對特定海域的海事事故進行分析,同時,為了防止對事故數(shù)據(jù)進行全因素關(guān)聯(lián)挖掘,導(dǎo)致弱化其他風(fēng)險因子,影響挖掘精度,本文提出一種聚類分析與關(guān)聯(lián)規(guī)則組合挖掘方法,以浙江海域的海事事故作為挖掘?qū)ο?,通過對2008—2014年間824起海事事故進行分析,首先將事故進行聚類,然后對聚類完的數(shù)據(jù)進行深度挖掘試驗,去除負關(guān)聯(lián)規(guī)則并以提升度為規(guī)則再強化標(biāo)準(zhǔn),提取出碰撞類事故8條強關(guān)聯(lián)規(guī)則、非碰撞類事故12條強關(guān)聯(lián)規(guī)則,以特定海域的豐富事故數(shù)據(jù)為素材,以更加嚴(yán)謹(jǐn)?shù)乃惴ㄔ囼灪烷撝翟O(shè)定,確保在自然環(huán)境相同的條件下對海事事故進行深度挖掘,進一步提升挖掘試驗的精度。
數(shù)據(jù)準(zhǔn)備主要包含數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗以及數(shù)據(jù)變換等4個過程[11-12]。
1)在數(shù)據(jù)收集過程中采用調(diào)研方法來獲取我國沿海各轄區(qū)海事事故數(shù)據(jù)。
2)對收集到的數(shù)據(jù)進行預(yù)處理是數(shù)據(jù)挖掘中的關(guān)鍵步驟,數(shù)據(jù)的質(zhì)量也決定了挖掘的精度。以數(shù)據(jù)的質(zhì)量和數(shù)量為參考,對各轄區(qū)事故數(shù)據(jù)進行整理和對比,最終篩選浙江轄區(qū)的事故數(shù)據(jù)作為挖掘試驗的對象。
3)數(shù)據(jù)清洗主要指的是將事故數(shù)據(jù)進行統(tǒng)一化、標(biāo)準(zhǔn)化描述,清理殘缺數(shù)據(jù)和無效數(shù)據(jù),以便于機器識別并處理有效信息。
4)最終將描述性語言轉(zhuǎn)化為數(shù)字或者字母,即可進行聚類與挖掘處理。
為了實現(xiàn)對數(shù)據(jù)的深層次挖掘,首先對事故數(shù)據(jù)庫進行聚類。從全局性和系統(tǒng)性出發(fā),本數(shù)據(jù)庫為完整封閉式數(shù)據(jù)庫,因此采用基于劃分的k-medoids聚類算法。k-medoids算法的聚類流程:
1)從n條事故數(shù)據(jù)中任選k個對象作為初始聚類中心。
2)根據(jù)每個聚類對象的均值(中心對象),計算每個對象到這些中心對象的距離;并根據(jù)最小距離重新對相應(yīng)對象進行劃分。
3)重新計算每個(有變化)聚類的均值(中心對象)。
4)算標(biāo)準(zhǔn)測度函數(shù)。當(dāng)滿足一定條件,如函數(shù)收斂時,則算法終止;如條件不滿足則回到步驟2)。
k-medoids聚類通常采用誤差平方和準(zhǔn)則函數(shù)來評價聚類性能。
假定有混合樣本X={X1,X2,…,Xn},采用某種相似性度量,X被聚類合成k個分離開的子集X1,X2,…,Xk,每個子集是一個類型,他們分別包含n1,n2,…,nk個樣本。為了衡量聚類的質(zhì)量,采用誤差平方和Jk聚類準(zhǔn)則函數(shù),定義為
(1)
以事故數(shù)據(jù)庫作為聚類對象,利用R語言進行k-medoids聚類,并以事故類型和事故致因作為聚類中心,引入PAM函數(shù),對事故全集進行聚類。
關(guān)聯(lián)規(guī)則算法是對數(shù)據(jù)庫中不同的事務(wù)集之間隱含的規(guī)律性進行識別和分析的方法,通常分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。
將聚類完成之后的數(shù)據(jù)庫作為挖掘的基礎(chǔ)數(shù)據(jù)庫進行挖掘,定義事故數(shù)據(jù)庫D={t1,t2,…,tk}和數(shù)據(jù)庫中項集I={i1,i2,…,ik},那么關(guān)聯(lián)規(guī)則是
A?B
(2)
式(2)中:A?I,B?I且A∩B=φ。
項集A′的支持度表示項集A在所有項集I中出現(xiàn)的次數(shù)為
Supp(A)=A/I=P(A)
(3)
那么關(guān)聯(lián)規(guī)則A?B的置信度為
conf(A→B)=Supp(A∪B)/Supp(A)=P(B|A)
(4)
同理,關(guān)聯(lián)規(guī)則A?B的提升度為
lift(A→B)=conf(A→B)/Supp(B)=
P(A∪B)/P(A)P(B)
(5)
式(5)中:提升度lift(A→B)=lift(B→A)。提升度的值反映了關(guān)聯(lián)規(guī)則中A與B的相關(guān)性為
1)提升度>1且越高,表示正相關(guān)性越高。
2)提升度<1且越低,表示負相關(guān)性越高。
3)提升度=1,表示沒有相關(guān)性。
由于關(guān)聯(lián)規(guī)則的Apriori算法在設(shè)定支持度和置信度閾值時,往往與研究對象的數(shù)據(jù)樣本大小和質(zhì)量有關(guān),國內(nèi)外相關(guān)學(xué)者均通過不斷探索支持度和置信度的閾值,最終獲得合理且有效的關(guān)聯(lián)規(guī)則,對算法結(jié)果的分析追求較高的支持度和置信度,卻忽略提升度對規(guī)則的有效性衡量。因此,本文在分析取得的關(guān)聯(lián)規(guī)則結(jié)果中,首先通過探索合適的支持度和置信度閾值,取得合理的強關(guān)聯(lián)規(guī)則條數(shù),再通過去除冗余規(guī)則以及負關(guān)聯(lián)規(guī)則,最終獲得有效的強關(guān)聯(lián)規(guī)則。R語言相較于其他算法內(nèi)置的軟件在處理固定算法的細節(jié)上具有很大的靈活性,因此,通過R語言進行編程,可找出存在數(shù)據(jù)庫中的頻繁項集,此時通過設(shè)置最小支持度閾值和置信度閾值,執(zhí)行剪枝過程,得到所需要的強關(guān)聯(lián)規(guī)則。其流程見圖1。
針對轄區(qū)的事故特征,以船舶噸位和事故類型為聚類中心,利用R語言實現(xiàn)對數(shù)據(jù)庫的動態(tài)聚類。聚類結(jié)果顯示:以事故類型進行聚類,該數(shù)據(jù)庫被聚為兩類,分別為碰撞類事故和非碰撞類事故。將事故聚類完成后,通過對各類之間進行關(guān)聯(lián),將聚類與關(guān)聯(lián)進行可視化,生成以事故類型為導(dǎo)向的網(wǎng)絡(luò)圖和關(guān)聯(lián)規(guī)則分布散點圖。考慮到事故數(shù)據(jù)庫樣本容量以及挖掘試驗的精度,將事故全集聚成兩類,并得到兩組聚類簇(見圖2)。
通過對浙江轄區(qū)海事事故數(shù)據(jù)庫進行k-medoids聚類,最終獲得碰撞事故有效數(shù)據(jù)179條。以事故類型為導(dǎo)向生成船舶碰撞事故信息屬性網(wǎng)絡(luò)見圖3??紤]到事故的節(jié)點、鏈接數(shù)量以及圖形的尺寸限制,最終根據(jù)支持度閾值與總數(shù)據(jù)樣本的積作為鏈接閾值,既保留了頻繁候選集,同時又能準(zhǔn)確和直觀地表達出各關(guān)聯(lián)規(guī)則的強弱程度。
對數(shù)據(jù)庫中碰撞類事故進行分析,取支持度閾值為20%,對生成的碰撞事故導(dǎo)向網(wǎng)絡(luò)圖進行分析可看出:導(dǎo)致碰撞類事故產(chǎn)生的一級致因中的人為因素與碰撞事故的關(guān)聯(lián)性較強;人為因素中的二級致因中出現(xiàn)頻率較高的因素有瞭望疏忽、未使用安全航速、能見度不良和避讓行為不當(dāng)?shù)取?/p>
1)從事故發(fā)生海域來看,碰撞事故主要發(fā)生在沿海海域。
2)從事故船舶類型來看,漁船、砂石船和干雜貨船是發(fā)生碰撞事故的主要船型。
3)從船舶噸位來看,小于3 000總噸的船舶更容易發(fā)生碰撞事故。
4)從時間序列進行分析,2000—2400時段是浙江轄區(qū)水域碰撞事故的多發(fā)時段。
5)從季節(jié)性規(guī)律進行分析,春季是發(fā)生碰撞事故的主要季節(jié),占比達到40%以上,其次是夏季。
6)從碰撞事故導(dǎo)致的損失來看,大部分碰撞事故導(dǎo)致的經(jīng)濟損失均在100萬元人民幣以下。
在對浙江轄區(qū)水域船舶交通事故關(guān)聯(lián)規(guī)則進行分類挖掘中,生成了碰撞類事故關(guān)聯(lián)規(guī)則474條、非碰撞類事故關(guān)聯(lián)規(guī)則304條。以碰撞類事故為例,其全部關(guān)聯(lián)規(guī)則分布散點見圖4。
對支持度閾值和置信度閾值的調(diào)整,最終設(shè)定碰撞類事故的支持度閾值20%、置信度閾值50%的條件下,根據(jù)提升度進行排序,篩選出8條提升度>1.4的碰撞類事故關(guān)聯(lián)規(guī)則。同理,按照提升度排序,在支持度閾值10%、置信度閾值50%的條件下提取出提升度>2.0的非碰撞類事故關(guān)聯(lián)規(guī)則12條。鑒于篇幅限制,選取其中的13條關(guān)聯(lián)規(guī)則進行分析(見表1)。
表1 浙江轄區(qū)海事事故關(guān)聯(lián)規(guī)則
在聚類基礎(chǔ)上通過對浙江轄區(qū)海事事故進行分類和深度挖掘,不僅挖掘出了單一事故特征之間的映射關(guān)系,而且對多因素之間的潛在規(guī)律的識別也有較好的效果。通過此次挖掘試驗得出的關(guān)聯(lián)規(guī)則結(jié)果,可以得出:
1)浙江水域發(fā)生海事事故的主要船型為3 000總噸以下的船舶,且船舶超載、大風(fēng)天氣、能見度不良及人為因素是影響該類船舶發(fā)生海事事故的主要致因。
2)導(dǎo)致船舶發(fā)生自沉事故的船舶貨物因素主要是由于貨物裝載不當(dāng)引起的;當(dāng)船舶噸位≤3 000總噸時,船舶有可能存在超載行為。
3)橋區(qū)水域和港口水域是碰撞事故的多發(fā)水域,該類事故發(fā)生的致因主要是操縱行為不當(dāng)。
4)夜間2000—0400時段是砂石船事故的多發(fā)時間段,且事故主要發(fā)生在沿海水域。
5)大風(fēng)天氣下,轄區(qū)內(nèi)≤3 000噸的船舶易發(fā)生沉沒事故,且可能會導(dǎo)致大事故的發(fā)生。
根據(jù)以上交通事故的潛在規(guī)律,可對事故的屬性、時間序列、事故致因和船舶類型等相互之間的關(guān)聯(lián)性進行識別。對此,根據(jù)以上挖掘試驗的結(jié)果分析,為進一步提高海上交通安全水平,對該海事及漁政部門提出建議如下:
1)鑒于沿海砂石船和漁船是該海域的高風(fēng)險船舶,且由于漁船和部分私有船舶缺乏相應(yīng)的檢查監(jiān)管,而導(dǎo)致部分船舶配員不足或船舶存在缺陷等安全隱患。因此,加強沿海小型船舶與漁船的監(jiān)管、完善海上交通監(jiān)督機制可有效減少事故的發(fā)生。
2)加強對沿海干雜貨船、漁船、砂石船等小于3 000總噸的船舶進行監(jiān)督,對部分船舶配員不足、存在缺陷、船舶老齡化以及船舶貨物裝載和超載等問題進行隱患排查,降低事故率。
3)霧季是全年事故的高發(fā)期,船舶駕駛員經(jīng)常由于疏于瞭望導(dǎo)致事故發(fā)生。因此,督促航運公司制定相關(guān)的安全管理體系,并嚴(yán)格宣貫執(zhí)行,提高船舶駕駛員霧航安全意識,可降低船舶在霧航中的碰撞風(fēng)險。
4)加大夜間巡查力度,加重對于砂石運輸船舶夜間非法運輸?shù)奶幜P力度,降低內(nèi)河沿海干雜貨船、漁船、砂石船的事故率。
5)加強大風(fēng)天氣和能見度不良環(huán)境下的船舶管控,合理對船舶進行組織與疏散,并在霧季和臺風(fēng)季節(jié)來臨前,對船舶缺陷進行集中檢查。
海事事故數(shù)據(jù)是海上交通安全與規(guī)劃的重要資料,本文以數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法為基礎(chǔ),結(jié)合聚類算法對浙江海域事故數(shù)據(jù)庫分類挖掘,不僅掌握事故特征以及其潛在致因及時間地點的分布規(guī)律,還對海事主管機關(guān)在船舶監(jiān)控與航道規(guī)劃上具有借鑒作用,也為海事事故的預(yù)防提供指導(dǎo)性建議。本次挖掘使用的關(guān)聯(lián)規(guī)則算法與聚類算法相結(jié)合,以浙江海域?qū)嶋H事故數(shù)據(jù)為研究對象,在研究中取得支持度與置信度閾值條件下,提高了關(guān)聯(lián)規(guī)則算法的提升度,增強了算法的關(guān)聯(lián)性和應(yīng)用價值。
由于本次挖掘使用的數(shù)據(jù)庫為調(diào)研所得的2008—2014年的事故數(shù)據(jù),且僅以事故類型為聚類中心進行分析,給本次挖掘試驗在普遍適用性上帶來一定影響。在后續(xù)研究中可通過以事故致因作為聚類中心進行分析,并進行深度挖掘;同時建議建立互聯(lián)網(wǎng)模式下的船舶交通事故標(biāo)準(zhǔn)化備案系統(tǒng),對事故的自然環(huán)境、交通環(huán)境、事故特征、事故基礎(chǔ)信息及事故致因信息等進行統(tǒng)一描述,以便對我國沿海海域海上交通安全重點水域及風(fēng)險進行識別,對事故數(shù)據(jù)庫進行標(biāo)準(zhǔn)化,為交通標(biāo)準(zhǔn)化提供參考,并提高后續(xù)的挖掘精度。