李寶德, 呂 靖, 李 晶
(大連海事大學(xué) 交通運(yùn)輸工程學(xué)院,遼寧 大連 116026)
海上事故指的是一種不希望發(fā)生的船舶異常事件,經(jīng)常導(dǎo)致人員傷亡、船舶損傷或者各種財(cái)產(chǎn)損失[1]。盡管國際海事部門已經(jīng)為運(yùn)輸安全做出了巨大的努力,但是海上運(yùn)輸通道發(fā)生事故的風(fēng)險依然存在。因此,探究影響海上通道事故嚴(yán)重程度的因素,對于及時有效的應(yīng)急響應(yīng),降低事故造成的損失具有重要意義。
海上事故發(fā)生后的演變是一個復(fù)雜的過程,受到眾多因素的影響。目前許多學(xué)者從不同視角探究了海上事故嚴(yán)重程度的影響因素。比如,WENG和YANG[2]研究發(fā)現(xiàn)在惡劣天氣和黑暗條件下發(fā)生的碰撞、火災(zāi)/爆炸、接觸等事故其發(fā)生致命事故的概率和死亡人數(shù)都較高。WANG和YANG[3]以事故預(yù)防為視角,開發(fā)了基于貝葉斯網(wǎng)絡(luò)的事故嚴(yán)重程度評估模型,得出事故類型、位置、船舶類型等影響航道事故嚴(yán)重程度的關(guān)鍵風(fēng)險。EROL等[4]對伊斯坦布爾海峽發(fā)生的事故研究發(fā)現(xiàn),無論船舶大小,當(dāng)海峽天氣狀況不佳時,事故嚴(yán)重程度會增加。陳興偉等[5]采用結(jié)構(gòu)方程模型探究了影響因素與事故嚴(yán)重程度之間的關(guān)系,結(jié)果表明客觀因素與事故等級之間存在明顯的影響方向性??偨Y(jié)之前研究可以發(fā)現(xiàn),大多數(shù)是基于獲得的數(shù)據(jù)以自身研究的角度直接分析因素對事故嚴(yán)重程度的影響,對于影響因素對事故嚴(yán)重程度的交互影響及可能存在的干擾因素的影響的考慮相對缺乏。
然而,考慮到海上事故可能發(fā)生在不同的條件下,這導(dǎo)致事故動力學(xué)本質(zhì)的異質(zhì)性,以及某些特定因素對事故后果的影響程度不同甚至方向相反。比如,WENG和YANG[2]研究認(rèn)為船舶類型不能充分解釋對事故后果嚴(yán)重程度的影響,而WANG和YANG[3]研究發(fā)現(xiàn)船舶類型對事故后果嚴(yán)重程度影響顯著,特別是漁船。因此,一些研究為了減少異質(zhì)性的影響,關(guān)注某一特定特征情況下的研究。比如,WENG[6]等研究影響兩船碰撞嚴(yán)重程度的因素,得出春季、能見度低和夜間是導(dǎo)致船舶碰撞嚴(yán)重程度高的重要因素。ANTAO和SOARES[7]采用貝葉斯網(wǎng)絡(luò)評估了不同天氣條件下船舶事故中的人為失誤因素。然而,基于具體特征的分析不能保證所選事故數(shù)據(jù)的最大同質(zhì)性,因此,它對降低未觀測的異質(zhì)性作用不大。
聚類分析已經(jīng)被證實(shí)可以用來識別同質(zhì)類別和降低數(shù)據(jù)的異質(zhì)性[8]。特別地,對于多分類問題,與潛在類別聚類相結(jié)合的多項(xiàng)logit模型比將單個多項(xiàng)logit模型綜合應(yīng)用于整個數(shù)據(jù)更有效[9]。目前,基于聚類的logit模型在交通事故領(lǐng)域有著豐富的應(yīng)用[10]。然而,此種方法在海上通道事故分析中卻很少。另外,先前采用聚類的logit模型很少考慮每個聚類類別內(nèi)的異質(zhì)性,而混合logit模型能夠通過考慮影響因素的潛在變化來解決未觀察到的聚類類別內(nèi)的異質(zhì)性[9]。
本文在現(xiàn)有研究的基礎(chǔ)上,充分考慮海上事故數(shù)據(jù)的異質(zhì)性,旨在構(gòu)建一種結(jié)合潛在類別聚類和混合logit模型的兩步模型來分析影響海上事故嚴(yán)重程度的因素。基于從中國海事局發(fā)布的事故調(diào)查報告中提取的數(shù)據(jù)驗(yàn)證模型的有效性。通過估計(jì)的參數(shù)和相關(guān)的邊際效應(yīng)結(jié)合起來解釋所建立模型的重要變量。此外,通過采用聚類和沒有采用聚類(全數(shù)據(jù))的混合logit模型估計(jì)的結(jié)果對比,來揭示其中隱藏的影響變量。
如圖1所示,構(gòu)建的兩步模型包括潛在類別聚類和混合logit模型。潛在類別聚類是一種概率模型,它假設(shè)整個數(shù)據(jù)被一個未觀察到的或潛在的分類變量劃分為排他性的潛在類別[11]。為了更好地捕獲因素對海上事故嚴(yán)重程度影響的未觀察到的異質(zhì)性。本研究第一步采用潛在類別聚類進(jìn)行分析,但是每個聚類類別內(nèi)仍可能存在異質(zhì)性,因此,本研究第二步采用混合logit模型來分析第一步獲得的每一個聚類。具體每一步的模型構(gòu)建如下:
圖1 海上通道事故嚴(yán)重程度分析兩步模型
(1)
其中,采用期望最大化算法對參數(shù)進(jìn)行極大似然估計(jì)。另外,基于貝葉斯定理,一個事故的后驗(yàn)概率可以表述為:
(2)
在潛在類別聚類分析中,類別nc的最合適數(shù)量是未知的,通過嘗試不同聚類數(shù)量的模型,我們可以找到最合適的聚類數(shù)量。根據(jù)事故的特征,我們可以計(jì)算它們的最大后驗(yàn)概率,然后將它們分配到一個潛在的類別。在這個過程中,選擇聚類的數(shù)量是為了最小化分配誤差,可以通過一些信息準(zhǔn)則來測量模型的分配精度,包括BIC,AIC,CAIC。BIC,AIC和CAIC的統(tǒng)計(jì)可以在考慮復(fù)雜性的同時衡量模型的適用性,BIC,AIC,CAIC值低對應(yīng)的聚類數(shù)量具有較高價值,然而當(dāng)分析大樣本時,增加聚類的數(shù)量可能并不總是達(dá)到最小值,因此有的研究建議使用不同模型之間的BIC的百分比減少來衡量[5]。熵(Entropy)度量本質(zhì)上是個體后驗(yàn)概率的加權(quán)平均值,范圍在0和1之間,熵度量值越大,表明潛在的聚類分離越好。本研究使用AIC,BIC,CAIC和熵來識別合適的聚類數(shù)量。
海上事故發(fā)生后可能造成的后果的嚴(yán)重程度可以采用不同的等級來進(jìn)行衡量。因此,可以將基于潛在類別分析獲得的不同的同質(zhì)類別,分別構(gòu)建影響因素與嚴(yán)重程度之間相關(guān)關(guān)系的離散選擇模型。具體地,描述事故嚴(yán)重程度的效用函數(shù)可以表示如下[12]:
Sij=βjXij+εij
(3)
式中,Sij表示事i故為嚴(yán)重程度j時的效用函數(shù);Xij為事故嚴(yán)重程度影響因素集;βj為影響事故嚴(yán)重程度因素的參數(shù)向量;εij為誤差項(xiàng)。當(dāng)εij服從廣義極值分布型I(Gumbel type1)時,則事故i為嚴(yán)重程度j時的概率可表示為:
(4)
式中,J為事故嚴(yán)重程度等級集合。相比于多項(xiàng)logit模型,混合logit模型認(rèn)為βj不是固定不變的,而是符合一定分布的隨機(jī)向量。則概率密度函數(shù)可表示為:
(5)
式中,f(β|φ)為隨機(jī)參數(shù)β向量的概率密度函數(shù);φ為概率密度函數(shù)的參數(shù)向量。關(guān)于混合logit模型的參數(shù)估計(jì),本文可以采用極大似然估計(jì)法。
此外,本研究還對獲得的模型進(jìn)行邊際效應(yīng)分析和擬合優(yōu)度檢驗(yàn)。邊際效應(yīng)分析的目的是為了評估混合logit模型中重要變量對事故嚴(yán)重程度概率的影響。對于連續(xù)變量來說,邊際效應(yīng)表示結(jié)果的概率相對于該變量單位變化的改變值,而二元變量的邊際效應(yīng)表示自變量從編碼虛變量0到1的概率變化。這兩種類型變量的邊際效應(yīng)可以分別用如下公式(6)和(7)表示[13]:
(6)
(7)
(8)
式中,LL(β)和LL(0)分別為收斂時和僅包含截距項(xiàng)的對數(shù)似然函數(shù)值。ρ2的值越大說明模型擬合的效果越好。對于模型之間的擬合優(yōu)度比較,可以采用似然比與一定置信水平和自由度的卡方臨界值進(jìn)行比較來分析。似然比計(jì)算公式為:
(9)
式中,LL(βaggregate)在本研究為全數(shù)據(jù)模型收斂時的對數(shù)似然函數(shù)值。在本研究為LL(βclusterl)為第l個聚類模型收斂時的對數(shù)似然函數(shù)值。
本文研究的數(shù)據(jù)來源于中國海事局官網(wǎng)發(fā)布的海上事故調(diào)查報告。我們從中篩選了在2014年到2020年間的發(fā)生在海上運(yùn)輸通道上的765份用于分析。
關(guān)于事故嚴(yán)重程度,根據(jù)我國《水上交通事故統(tǒng)計(jì)辦法》,按照人員傷亡情況、直接經(jīng)濟(jì)損失或者水域環(huán)境污染情況將事故分為小事故、一般事故、較大事故,重大事故和特別重大事故。根據(jù)我們的統(tǒng)計(jì)時間段,特別重大事故沒有發(fā)生。因此,為了便于研究,本文將重大事故和特別重大事故定義為非常嚴(yán)重事故(VS)、較大事故定義為嚴(yán)重事故(S)、一般事故定義為輕微嚴(yán)重事故(LS)、小事故定義為海上事件(MI),具體事故嚴(yán)重程度的劃分請參閱《水上交通事故統(tǒng)計(jì)辦法》。
關(guān)于影響因素的選取及分類,主要參考了之前的相關(guān)研究[2,3,14]。對于其中的缺失值,采用均值法進(jìn)行了補(bǔ)充,具體結(jié)果見表1。其中需要說明的是航行環(huán)境指的是航行地理環(huán)境,船舶流指的是事故發(fā)生時周圍船舶數(shù)量;事故類型的分類是依據(jù)《水上交通事故統(tǒng)計(jì)辦法》,將其劃分為7類;船舶類型的分類是參考了歐洲海事安全局發(fā)布的事故統(tǒng)計(jì)報告中對船舶類型的劃分標(biāo)準(zhǔn)。
2.2.1 潛在類別聚類結(jié)果及討論
使用表1所有的影響事故嚴(yán)重程度變量,對不同聚類數(shù)(1-8)的模型進(jìn)行了初步估計(jì),結(jié)果如圖2所示。三種信息準(zhǔn)則值隨著聚類數(shù)的增加而降低。然而,從第四個聚類開始,BIC,AIC和CAIC的信息準(zhǔn)則值下降百分比不到1%,說明四個聚類能夠良好的分離數(shù)據(jù)。此外,四個聚類對應(yīng)的熵值為0.966,表明模型具有良好的適應(yīng)性。因此,海上事故數(shù)據(jù)分為四個聚類類別以供進(jìn)一步分析。
圖2 不同聚類數(shù)下的AIC,BIC,CAIC和熵值
表1 關(guān)鍵影響變量選取及分類
表2 聚類中關(guān)鍵特征變量及分布(%)
表2展示了用于描述每個聚類選定的特征變量及其分布情況。從中可以看出,每個特定的聚類中都有明顯不同其他聚類占比的變量,需要注意的是有些變量占比可能會在不同聚類之間都很高。例如,在聚類1和聚類2中,發(fā)生的事故類型主要為碰撞,占比達(dá)99%以上,而其他聚類在相同條件下碰撞事故占比不到10%,因此,變量“事故類型:碰撞”可以將聚類1和聚類2與其他聚類區(qū)分開來。另外,變量“船員:配備足夠船員且有有效的適任證書”在聚類1中占比最高并且與在其他聚類中占比相比相差很大,說明這個變量可以將聚類1與其他聚類區(qū)別開來。同樣的,每個聚類可以通過自己特有的影響變量分布情況將其與其他聚類分離開來,代表了一種特定情況下的具體事故類型。需要說明的用于描述每個聚類的影響因素與影響事故嚴(yán)重程度的重要因素之間沒有關(guān)系,將在接下來混合logit模型中揭示影響事故嚴(yán)重程度的重要因素。
表3 輕微嚴(yán)重事故模型參數(shù)估計(jì)結(jié)果
2.2.2 混合logit估計(jì)結(jié)果及討論
對于通過聚類獲得的四個聚類類別及全數(shù)據(jù)分別進(jìn)行了建模分析。采用逐步向前回歸技術(shù)對構(gòu)建的混合logit模型進(jìn)行標(biāo)定,在95%置信水平下,每個模型獲得的顯著影響變量參數(shù)估計(jì)的結(jié)果見表3-表5(其中,表中“-”表示該置信水平下不顯著)。對于事故嚴(yán)重程度,本文選擇海上事件作為參考項(xiàng);而對于影響變量,本文以表1分類描述的最后一項(xiàng)作為參考項(xiàng)。研究發(fā)現(xiàn),在聚類1,2,3和4中,影響變量對海上事故嚴(yán)重程度具有統(tǒng)計(jì)上顯著的隨機(jī)影響。結(jié)合估計(jì)出的顯著變量,為進(jìn)一步分析各個因素對海上事故嚴(yán)重程度的影響,對所有重要變量的邊際效應(yīng)進(jìn)行了計(jì)算,具體獲得的邊際效應(yīng)值見表6-表10。
表4 嚴(yán)重事故模型參數(shù)估計(jì)結(jié)果
首先根據(jù)估計(jì)的結(jié)果,可以發(fā)現(xiàn)一些重要的影響事故嚴(yán)重程度的因素。比如事故類型為自沉,相比于其他事故類型,對事故嚴(yán)重程度為輕微嚴(yán)重、嚴(yán)重和非常嚴(yán)重都具有顯著影響,說明這個變量是對事故嚴(yán)重程度的影響一個非常重要變量,這個與汪飛翔等[14]的研究結(jié)果相一致。此外,與WANG和YANG[3]研究得出的結(jié)論相同,差的航行環(huán)境、事故發(fā)生在夜晚(見表3-表5)也會對事故嚴(yán)重程度產(chǎn)生重要的影響。另外,本文研究發(fā)現(xiàn)船舶流少相對于流多會增加嚴(yán)重事故的程度(見表4聚類4),可能原因是事故發(fā)生后,如果周圍參與救援的力量越多,越可能降低事故嚴(yán)重程度。另外,通過估計(jì)模型間的比較分析,可以得出如下發(fā)現(xiàn):
表5 非常嚴(yán)重事故模型參數(shù)估計(jì)結(jié)果
第一,可以發(fā)現(xiàn)基于異構(gòu)數(shù)據(jù)的海上事故分析可能會掩蓋一些重要的影響因素。例如,表4中的變量液體貨船、船齡6-10年和11-15年、裝載情況正常、風(fēng)5-7級、航行環(huán)境差以及船舶流量少在全數(shù)據(jù)模型中沒有統(tǒng)計(jì)學(xué)意義。然而,根據(jù)聚類中的模型這些變量會對輕微嚴(yán)重程度事故產(chǎn)生不同程度的影響。同樣情況在嚴(yán)重事故以及非常嚴(yán)重事故的模型參數(shù)估計(jì)中也存在(見表4和5)。
第二,基于聚類的模型能夠揭示影響變量 對不同特定情況下的事故嚴(yán)重程度概率的變化。例如,發(fā)生的事故船舶類型為漁船,根據(jù)全數(shù)據(jù)模型造成輕微嚴(yán)重事故的概率將增加3.5%(見表6),而根據(jù)聚類1、聚類2和聚類4模型造成輕微嚴(yán)重事故的概率分別增加11.3%(見表7)、12.6%(見表8)和5.7%(見表10)。此外,相比于船齡大于等于20年,發(fā)生的事故船舶船齡在11-15年,根據(jù)聚類1模型造成嚴(yán)重事故的概率將下降6.2%(見表7),而根據(jù)聚類4模型造成嚴(yán)重事故的概率將下降13.8%(見表10)。以上兩個例子說明了僅僅通過全數(shù)據(jù)模型會忽視這種差異,而基于聚類的模型能夠更加完整的揭示這種差異。
表6 全數(shù)據(jù)模型顯著變量平均邊際效應(yīng)
表7 C1模型顯著變量平均邊際效應(yīng)
表8 C2模型顯著變量平均邊際效應(yīng)
表9 C3模型顯著變量平均邊際效應(yīng)
表10 C4模型顯著變量平均邊際效應(yīng)
第三,聚類模型甚至可以揭示某些變量對事故嚴(yán)重程度影響方向的不同。例如,在表4的聚類3模型中顯示船舶流少會降低事故嚴(yán)重程度,而在聚類4模型中顯示相反的結(jié)果。具體地,結(jié)合表9和10,在聚類3模型中事故發(fā)生時周圍船舶流少將會使嚴(yán)重事故的概率降低9.3%,在聚類4模型中會使概率增加5.7%.
2.2.3 模型的擬合優(yōu)度結(jié)果
表11展示了計(jì)算獲得的用于測量每個模型擬合優(yōu)度的參數(shù),得到的似然比值為102.03大于95%置信水平下自由度為29的卡方值(42.56)。說明了基于聚類的模型優(yōu)于全數(shù)據(jù)模型。另外從ρ2值可以看出每個模型都有很好的擬合性。
表11 擬合優(yōu)度測量參數(shù)
本文充分考慮到海上事故數(shù)據(jù)的未觀測到的異質(zhì)性,構(gòu)建了結(jié)合潛在類別聚類和混合logit的海上事故嚴(yán)重程度分析模型。研究表明了基于聚類的混合logit模型可以更加有效的揭示影響因素與事故嚴(yán)重程度的關(guān)系。通過比較分析獲得如下結(jié)論:(1)基于聚類的模型可以揭示新的信息,包括在全數(shù)據(jù)模型中被忽略的重要影響因素以及在基于聚類模型中具有不同影響程度的因素;(2)基于聚類的模型可以揭示不同聚類類別下影響因素對海上事故嚴(yán)重程度的影響的差異。本文依靠從海上事故報告中搜集的信息,獲得的數(shù)據(jù)有限。因此,在未來研究中,隨著數(shù)據(jù)的不斷完善可以進(jìn)行更加完整的分析。