丁振國 張樹奎 胡甚平
摘要:針對支持向量機(support vector machine, SVM)模型在水上交通風險預測中由于其變量較多而導致的計算過程復雜、實用性不強的問題,運用隨機森林模型對變量進行重要度排序,利用篩選后的變量構(gòu)建新的SVM模型。將新模型的分類正確率和可轉(zhuǎn)移性測試結(jié)果與原模型的進行比較。結(jié)果表明:新模型比原模型的分類正確率提高4.12個百分點;在可轉(zhuǎn)移性測試中新模型分類正確率仍處于較高水平,而且誤報率降低2.40個百分點。研究表明新模型計算相對簡單,預測效果更優(yōu),而且具有普適性特征。
關(guān)鍵詞:
長江水道; 風險預測; 隨機森林; 支持向量機; 機器學習
中圖分類號:? U697
文獻標志碼:? A
Optimization of accident risk prediction model for Yangtze River waterway
DING Zhenguo1, ZHANG Shukui1, HU Shenping2
(1. Navigation College, Jiangsu Maritime Institute, Nanjing 211170, China;
2. Merchant Marine College, Shanghai Maritime University, Shanghai 201306, China)
Abstract:
In view of the complicated calculation process and low practicability due to a large number of variables of the support vector machine (SVM) model in the prediction of water traffic risk, the random forest model is used to rank the importance of variables, and the filtered variables are used to construct a new SVM model. The classification accuracy and the transferability test result of the new model are compared with those of the original model. The results show that: the classification accuracy of the new model is 4.12 percentage points higher than that of the original model; in the transferability test, the classification accuracy of the new model is still at a high level, the false alarm rate is reduced by 2.40 percentage points. The research shows that the new model is of relatively simple calculation, better prediction effect, and universal applicability features.
Key words:
Yangtze River waterway; risk prediction; random forest; support vector machine; machine learning
0 引 言
長江下游水道,船舶往來密集,交通流量大,船舶交通事故頻發(fā)。據(jù)中華人民共和國江蘇海事局2019年發(fā)展報告統(tǒng)計,長江江蘇段2016年、2017年、2018年分別發(fā)生水上交通事故28起、18起、19起。交通事故造成了大量人員傷亡和財產(chǎn)損失,甚至是嚴重的環(huán)境污染。隨著綠色、健康發(fā)展理念的貫徹實施,水上交通安全問題受到越來越多的關(guān)注,這給相關(guān)管理部門提出了更高的要求。
水上交通安全管理的前提是掌握交通事故發(fā)生的機理,從而采取有針對性的措施。目前關(guān)于水上交通事故預測的研究成果較多,研究方法主要有灰色關(guān)聯(lián)分析法[1]、貝葉斯網(wǎng)絡[2]、反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡[3]、組合預測方法等[4]。這些方法都能夠較好地預測船舶安全狀況,但也各有缺點:對于非光滑的歷史事故數(shù)據(jù)序列,灰色關(guān)聯(lián)分析法預測精度較低,且需要人為選取適當?shù)哪P蛥?shù)值[5];貝葉斯網(wǎng)絡在模型結(jié)構(gòu)學習時需要大量樣本數(shù)據(jù)才能發(fā)揮其優(yōu)勢,當樣本數(shù)據(jù)較少時其預測誤差較大[6];BP神經(jīng)網(wǎng)絡需要通過不斷調(diào)整相關(guān)參數(shù)來確定最優(yōu)隱含層節(jié)點數(shù)、學習速率和最大誤差值,計算負擔較重[7];組合預測方法雖然可以克服單一模型的不足,但是由于各模型建立的條件不同,在組合預測時各條件易相互制約,導致某一模型優(yōu)勢得不到發(fā)揮,影響預測效果[8]。近年來,支持向量機(support vector machine, SVM)被引入水上交通研究領(lǐng)域,取得了較好的效果,但是采用該方法預測時需要選取的交通安全影響因素多,計算過程較為復雜,實用性不強[9]。隨機森林(random forest,RF)模型可以從眾多影響因素中篩選出重要因素,從而降低后續(xù)的計算復雜度[10]。
本文以長江下游水道為研究對象,首先運用RF模型對影響船舶航行安全的因素進行篩選,然后運用篩選后的變量構(gòu)建新的SVM模型,最后利用長江下游歷史數(shù)據(jù)驗證新模型的有效性和普遍適用性,并與原模型預測結(jié)果進行比較。
1 問題提出
船舶通航安全影響因素眾多,在系統(tǒng)綜合評價時,選擇的影響因素并非越多越好,但也不是越少越好。因素過多則存在重復性,且計算過程復雜;因素過少則缺乏足夠的代表性,會產(chǎn)生片面性。因此,科學合理地篩選船舶通航安全影響因素非常重要[11]。
船舶通航安全風險預測模型的優(yōu)劣直接影響到預測結(jié)果的準確性,進而影響管理者決策的正確性。對預測模型效果進行評價,能夠反映出所建模型的優(yōu)劣。
1.1 通航安全影響因素選取
根據(jù)已有研究成果,結(jié)合長江下游水道特點[12],選取13個影響船舶通航安全的主要因素,分別為:航道長度、航道彎曲率、航道深度、主航道寬度、能見度、大風、交通流密度、船舶速度差、最小會遇時間、船舶縱向加速度、船舶橫向加速度、“船舶縱向加速度+最小會遇時間”及“船舶橫向加速度+最小會遇時間”。
1.2 水上交通風險預測方法的評價指標
研究表明,分類正確率Aca、漏報率Rfn和誤報率Rfp這3個指標能夠較好地評價預測模型的優(yōu)劣[13]。本文利用這3個指標對模型的預測效果進行評價。針對該二分類問題,令實際的交通事故被預測為正確的數(shù)量和被預測為錯誤的數(shù)量分別為YT和YF,實際的非交通事故被預測為錯誤的數(shù)量和被預測為正確的數(shù)量分別為NF和NT。因此,Aca、Rfn和Rfp分別計算如下:
2 水上交通風險預測模型
2.1 RF模型
RF模型是由多棵分類回歸樹(classification and regression tree, CART)構(gòu)成的組合分類模型,在識別變量重要性方面效果較好,是常用的統(tǒng)計算法之一。RF模型的基本原理為:利用自助法重采樣技術(shù)從初始樣本集G={(uq,vq),q=1,2,…,n}中任意抽取s個樣本組成一個訓練樣本集Gs,利用Gs構(gòu)建一棵CART,CART從全部變量T中任意選擇t個變量(t≤T)分割節(jié)點;重復上述步驟s次,建立一個由s棵樹構(gòu)成的RF模型。將測試數(shù)據(jù)輸入該模型中進行分類投票,并計算結(jié)果。
因為采用的是有放回采樣,所以會存在樣本被重復采樣的問題,當然也會存在樣本未被采樣的問題。未被采樣的數(shù)據(jù)稱為袋外(out-of-bag, OOB)數(shù)據(jù),未被采樣的數(shù)據(jù)集記為GOOB。利用由s棵樹構(gòu)成的RF模型對GOOB進行分類,并統(tǒng)計分類正確次數(shù);然后改變自變量uq的值,再利用uq和RF模型對GOOB進行分類,并統(tǒng)計分類正確次數(shù);最后利用兩次分類正確次數(shù),計算uq改變后分類正確率的下降值,得到uq的重要程度。
2.2 SVM模型
SVM模型是一種用于解決分類問題的非參數(shù)方法,廣泛應用于水上交通領(lǐng)域,對于預測交通流量、交通事故等具有優(yōu)勢[14]。SVM的建模思想為:給定一個二分類的特定數(shù)據(jù)集,若該數(shù)據(jù)集具有N個變量,則N個變量構(gòu)成一個N維空間X=(x1,x2,…,xN),即在N維空間內(nèi)存在一個N-1維超平面,其中有一個最優(yōu)解可以有效區(qū)分二分類數(shù)據(jù)。建模過程如下:步驟1 給定一個特定訓練數(shù)據(jù)集,X為其輸入空間,xi為一輸入向量,yi為對應的輸出,Y={yi}={-1,1}。當yi=-1時,xi為負例;當yi=1時,xi為正例。
步驟2 構(gòu)建分離超平面方程,用來確定輸入向量是負例還是正例:
3 算例應用
3.1 數(shù)據(jù)準備
以長江江蘇段水域為研究對象,研究數(shù)據(jù)來自船舶交通服務(vessel traffic service,VTS)中心。長江下游是我國最重要的黃金水道,船舶流量大,交通事故頻發(fā),可采集到的樣本較為豐富。水道交通狀態(tài)分為可能發(fā)生事故和不會發(fā)生事故兩類,因此信息采集包括發(fā)生事故時的水道狀態(tài)信息和未發(fā)生事故時的水道狀態(tài)信息。非事故樣本數(shù)據(jù)采集需要在不同的水道狀態(tài)下隨機選擇。信息采集主要通過以下方法完成:事故樣本數(shù)據(jù)和非事故樣本數(shù)據(jù)由VTS中心提供,其中非事故樣本數(shù)據(jù)包括交通險情、一般以下等級事故及交通正常等,船舶交通密度、船舶航速等數(shù)據(jù)主要來自岸基雷達、閉路電視(closed-circuit television,CCTV)、船舶檢測器、船舶自動識別系統(tǒng)(automatic identification system,AIS)等設(shè)備。
信息采集水道為尹公洲水道,采集時間為2010年4月至2020年3月,采集樣本共1 145個,其中事故樣本116個,非事故樣本1 029個,每個樣本均具有詳細的變量數(shù)據(jù)。
將116個事故樣本和1 029個非事故樣本分別按照約4∶1的比例隨機劃分成訓練集和測試集。由于樣本數(shù)量越充足訓練效果越好[15],所以將事故樣本集中訓練集的數(shù)據(jù)重復輸入9次,使得事故樣本的數(shù)據(jù)量與非事故樣本的數(shù)據(jù)量之比接近1∶1,以保證達到相同的訓練效果。
3.2 模型應用
3.2.1 模型參數(shù)確定
利用模型預測前,需要確定參數(shù)C、η、p的值。根據(jù)歷史經(jīng)驗數(shù)據(jù),3個參數(shù)的取值范圍分別為C∈[0.01,10],η∈[0.01,10],p∈[1,3],具體數(shù)值需對不同參數(shù)組合下的模型預測結(jié)果進行比較并結(jié)合十重交叉驗證法最終確定。利用確定的參數(shù)值構(gòu)建SVM分類器。本文最終確定C、η、p的值為分別為0.5、1、1。
3.2.2 RF模型計算
通過計算機編程,利用MATLAB實現(xiàn)RF模型的計算。將13個主要變量輸入已經(jīng)編寫好的程序中,RF模型對各變量的分類正確率下降值計算結(jié)果見表1。
從表1可知,分類正確率的下降值大于0.020的有5個變量,小于0.020的有8個變量。為證明重要變量的作用,考慮預測正確率的要求,選取下降值大于0.020的5個變量作為SVM模型的輸入變量,以檢驗SVM模型的預測效果。
對訓練集和測試集中樣本的5個重要變量的數(shù)據(jù)進行統(tǒng)計,結(jié)果見表2。
分析表2可知:與非事故樣本相比,除最小會遇時間外,其他4個重要變量對船舶交通事故的發(fā)生影響較大,表現(xiàn)為無論是在訓練集還是在測試集中,事故樣本的這4個變量的均值和標準差均比非事故樣本的小。而對于最小會遇時間變量,除了在訓練集中事故樣本的均值比非事故樣本的大以外,在訓練集中事故樣本的標準差比非事故樣本的小,在測試集中事故樣本的均值和標準差均比非事故樣本的小,說明最小會遇時間也對船舶交通事故的發(fā)生影響較大。統(tǒng)計結(jié)果從側(cè)面驗證了RF模型的科學性。
3.3 模型驗證
3.3.1 模型對比
采用訓練集中5個重要變量的有關(guān)數(shù)據(jù)訓練SVM模型,再將測試集中的相關(guān)數(shù)據(jù)輸入被訓練后的SVM模型中,統(tǒng)計輸出結(jié)果。
為驗證經(jīng)過變量篩選后SVM模型的效果,將變量篩選前后SVM模型的分類結(jié)果進行比較,見表3。
由表3可知,在數(shù)據(jù)相同的條件下,經(jīng)RF篩選變量后所構(gòu)建的SVM模型的分類效果更優(yōu),表現(xiàn)為:分類正確率Aca有所提高,達到88.64%,比篩選前的84.52%提高4.12個百分點;漏報率Rfn和誤報率Rfp基本差不多。通過比較可以得出結(jié)論,經(jīng)RF篩選變量后所構(gòu)建的SVM模型不僅計算相對簡單(變量由原來的13個減少到5個,所需處理的數(shù)據(jù)大幅減少),而且預測效果更優(yōu)。
3.3.2 模型的可轉(zhuǎn)移性測試
可轉(zhuǎn)移性是驗證模型是否具有普遍適用性的重要方法[16]。本文利用經(jīng)過尹公洲水道交通事故數(shù)據(jù)驗證過的兩個SVM模型對福姜沙水道進行普遍適用性測試并比較。尹公洲水道和福姜沙水道均為長江下游內(nèi)河水道,性質(zhì)相似,具備可轉(zhuǎn)移性測試的基本條件。福姜沙水道2010年4月至2020年3月共發(fā)生事故86起。采集這86個事故樣本數(shù)據(jù)和該時間段內(nèi)的793個非事故樣本數(shù)據(jù),對變量篩選前后的SVM模型的可轉(zhuǎn)移性進行測試,結(jié)果見表4。
由表4可知,變量篩選后的SVM模型的可轉(zhuǎn)移性測試結(jié)果比變量篩選前的好,表現(xiàn)為:變量篩選后的SVM模型的分類正確率Aca比變量篩選前的高,變量篩選后的SVM模型的漏報率Rfn和誤報率Rfp均比變量篩選前的低。
綜合比較表3與表4,可知:變量篩選前后的SVM模型對福姜沙水道的分類正確率雖然比對尹公洲水道的低,但仍超過80%,處于較高水平;不管是對尹公洲水道還是對福姜沙水道,變量篩選后的SVM模型分類正確率均比變量篩選前的高;變量篩選前后的SVM模型對尹公洲水道與福姜沙水道的漏報率差不多,均為9%左右;變量篩選后的SVM模型對福姜沙水道的誤報率為10.12%,較對尹公洲水道的誤報率12.52%低了2.40個百分點。因此,變量篩選后的SVM模型在預測特定水域交通風險方面效果較優(yōu),而且具有較好的普遍適用性。
4 結(jié)束語
運用隨機森林模型對影響長江水道船舶航行安全的因素進行重要度排序,選出5個重要變量構(gòu)建了新的支持向量機模型,基于歷史事故數(shù)據(jù)對新模型進行驗證,結(jié)果表明新模型預測效果更優(yōu)。對驗證后的模型進行可轉(zhuǎn)移性測試分析表明,所建新模型具有較好的普遍適用性。需要說明的是,本文模型是基于長江下游水道實際情況建立的,驗證數(shù)據(jù)也來自長江下游歷史數(shù)據(jù),該模型是否適用于其他航行水道還需要進一步驗證。
參考文獻:
[1]徐東星, 尹勇, 張秀鳳, 等. 長江干線水上交通事故的灰色分析與預測[J]. 中國航海, 2019, 42(2): 59-65.
[2]張笛, 粱崢, 范存龍, 等. 基于貝葉斯網(wǎng)絡的船舶自沉事故后果預測[J]. 中國航海, 2018, 41(1): 53-59.
[3]范中洲, 趙羿, 周寧, 等. 基于灰色BP神經(jīng)網(wǎng)絡組合模型的水上交通事故數(shù)預測[J]. 安全與環(huán)境學報, 2020, 20(3): 857-861. DOI: 10.13637/j.issn.1009-6094.2019.0597.
[4]王當利, 呂雪, 王雪佳, 等. 基于IOWA算子的水上交通事故組合預測模型[J]. 上海海事大學學報, 2018, 39(3): 34-40. DOI: 10.13340/j.jsmu.2018.03.006.
[5]徐東星, 尹勇, 張秀鳳, 等. 基于改進三參數(shù)灰色模型的海上交通事故預測[J]. 中國航海, 2020, 43(1): 12-17.
[6]張逸飛, 付玉慧. 基于ARIMA-BP神經(jīng)網(wǎng)絡的船舶交通事故預測[J]. 上海海事大學學報, 2020, 41(3): 47-52. DOI: 10.13340/j.jsmu.2020.03.009.
[7]AHMED M M, ABDEL-ATY M A. The viability of using automatic vehicle identification data for real-time crash prediction[J]. IEEE Transportation on Intelligent Transportation System, 2012, 13(2): 459-465. DOI: 10.1109/TITS.2011.2171052.
[8]方誠, 胡甚平, 方泉根. 港口船舶引航風險預測[J]. 中國航海, 2008, 31(4): 388-391.
[9]PEREZ M A, SUDWEEKS J D, SEARS E, et al. Performance of basic kinematic thresholds in the identification of crash and near-crash events within naturalistic driving data[J]. Accident Analysis & Prevention, 2017, 103: 10-19. DOI: 10.1016/j.aap.2017.03.005.
[10]游錦明, 方守恩, 張?zhí)m芳, 等. 高速公路實時事故風險研判模型及可移植性[J]. 同濟大學學報(自然科學版), 2019, 47(3): 346-352. DOI: 10.11908/j.issn.0253-374x.2019.03.007.
[11]盧艷民. 港口巷道水域交通安全風險評價研究[D]. 大連: 大連海事大學, 2019.
[12]王國波, 陳風云. 長江水上交通安全風險因素分析[J]. 港口科技, 2018(11): 38-42.
[13]ZOU Y J, HUA X D, ZHANG Y R, et al. Hybrid short-term freeway speed prediction methods based on periodic analysis[J]. Canadian Journal of Civil Engineering, 2015, 42(8): 570. DOI: 10.1139/cjce-2014-0447.
[14]苗旭, 王忠宇, 鄒亞杰, 等. 改進的固定交通檢測器缺失數(shù)據(jù)綜合修復方法[J]. 同濟大學學報(自然科學版), 2019, 47(10): 1477-1484. DOI: 10.11908/j.issn.0253-374x.2019.10.013.
[15]CHAN K Y, DILLON T S, CHANG E. An intelligent particle swarm optimization for short-term traffic flow forecasting using on-road sensor system[J]. IEEE Transaction on Industrial Electronics, 2013, 60(10): 4714-4725. DOI: 10.1109/TIE.2012.2213556.
[16]SUN Jie, SUN Jian. Real-time crash prediction on urban expressways identification of key variables and a hybrid support vector machine model[J]. IET Intelligent Transport System, 2016, 10(5): 331-337. DOI: 10.1049/iet-its.2014.0288.
(編輯 賈裙平)
收稿日期: 2021-05-19
修回日期: 2021-09-27
基金項目: 江蘇省教育廳基金(2017JSJG010);江蘇高?!扒嗨{工程”(2019)
作者簡介:
丁振國(1979—),男,黑龍江伊春人,副教授,碩士,研究方向為水上交通安全,(E-mail)jmidzg@126.com;
張樹奎(1973—),男,安徽阜陽人,教授,博士,研究方向為港口、海岸與近海工程,(E-mail)zhangshkfy@163.com;
胡甚平(1974—),男,湖北通城人,教授,博士,研究方向為載運工具運用工程與安全工程,(E-mail)sphu@shmtu.edu.cn