張健豪,韓懿
(中遠海運科技股份有限公司,上海 200135)
自2020年以來,全球新冠疫情蔓延,港口擁堵已成為物流供應鏈中的瓶頸,給班輪運輸的穩(wěn)定性造成了很大的影響。美國是感染人數較多的國家,由于碼頭工人和卡車司機大量感染,造成人員短缺,長灘港和洛杉磯港出現了長期擁堵,國際海運物流供應鏈受到嚴重影響。船舶在港擁堵滯留問題,直接增加了航運企業(yè)的經營成本,以及影響全球物流供應鏈的正常運行。據統(tǒng)計,2021年90%??棵绹迳即壐垩b卸作業(yè)的船舶直接駛向錨泊等待,平均錨泊時間達7.8 天。據美國CNN 新聞報告,洛杉磯港和長灘港在2021年的漂航船舶數量達到歷史峰值。
正常情況下港口擁堵表現為船舶錨泊時間長,但洛杉磯港和長灘港的情況無法用錨泊時間來衡量,因為錨地有限,引發(fā)大量的船舶漂航,這對人力成本和能源消耗是一種巨大的浪費。目前業(yè)界對港口擁堵期船舶無效航行的研究較少,無法直接獲得準確的無效航行時間。我們現在提出一種基于船舶自動識別系統(tǒng)(Automatic Identification System,以下簡稱“AIS”)中船舶航行模式的識別方法。該方法是通過設定目的港考察相關集裝箱船舶的航行速度和里程的變化,通過分段計算速度和里程找到并標識無效航線開始的時間和位置,判斷船舶的航行狀態(tài)進而計算在港船舶等待時間來評估港口的擁堵狀態(tài),用于航運經營人合理調配運輸航線、港口生產調度和行業(yè)管理部門決策參考。本文通過一系列統(tǒng)計變點分析方法處理和分析AIS 數據,并通過真實案例和歷史數據驗證了提出方法的實用性和有效性。
目前AIS 系統(tǒng)中對船舶航行狀態(tài)規(guī)定:0 代表“航行”,1 代表“錨泊”,5 代表“系泊”。但0 狀態(tài)無法識別漂航,因此僅看這個字段會產生誤判,我們無法區(qū)分有效航行和無效、低效航行。
我們通過利用AIS 動態(tài)數據,基于一些統(tǒng)計學習的相關算法,并結合業(yè)務邏輯,提出一種新穎的船舶航行模式識別。我們提出的航行行為識別方法來源于統(tǒng)計信號識別,此方法可以有效地將航程分割成若干段,為后續(xù)的數據分析提供指導意義。
現以集裝箱班輪運輸為例,通過數據采集和預處理等五個步驟來實施。
(1)數據采集和預處理。識別航線過程中需要集裝箱船的AIS 靜態(tài)和動態(tài)信息、集裝箱班輪掛港情況、港口信息等,具體來說包括船舶的水上移動通信業(yè)務標識碼(Maritime Mobile Service Identify,以下簡稱“MMSI”)、船型、每個航段的起始和結束時間及起終點港口、港口所屬的國家和區(qū)域、港口經緯度。獲得上述數據后,先對AIS 數據進行預處理,去掉AIS 有問題(如缺失過多)、修船、起始港和終點港有缺失或港口為未知的數據以及起點港與終點港為相同港口的數據,并將起始港和終點港分別匹配到相應的國家和區(qū)域。由于AIS 數據的采集不均勻,我們需要對任何兩個港口之間的AIS 數據進行降采樣處理,通過降采樣,數據量將由原來的上萬條變成上千條,大大地減少了計算成本,提高了運行速度。
(2)基于機器學習算法識別船舶航行行為?;谏鲜鎏幚磉^的AIS 動態(tài)數據,我們使用fused lasso 算法,以及變點分析(change point analysis)方法對集裝箱船舶的航行行為進行數據挖掘。
(3)結合業(yè)務邏輯對識別出的航線進行進一步處理。由于fused lasso 算法和變點分析方法只是從統(tǒng)計學的角度對航速進行處理,我們同樣也需要結合業(yè)務邏輯對獲得的分段航速進行解釋。在這里我們規(guī)定接近20節(jié)(海里每小時)的航段代表高速正常航向,接近0 節(jié)的航段代表無效航行(漂航)。
(4)航線相關信息提取及分類。為了避免速度分段過程中出現由于航速缺失造成找到的航段不匹配的問題,數據需要進一步地清洗。我們添加航速的插值數據,對缺失的航速數據進行補全;根據航線經過的港口信息,將航線匹配到相應的國家和區(qū)域;找出航段的起始時間和終止時間,確定該航線運營的相關年份時間信息;根據目的港對航行行為進行分類,包括近期擁堵港口以及正常港口。
(5)航線航行行為識別及監(jiān)控。對于設定的任意兩個港口,我們可以找到所有航行于這兩個港口船舶的航行行為,根據已經定義好的航線進行航速統(tǒng)計和航行行為分析。
(1)創(chuàng)新識別船舶航行狀態(tài)。運用統(tǒng)計學方法,結合船舶自動識別系統(tǒng)數據特點和集裝箱航行特征,完成船舶航行模式的識別。
(2)創(chuàng)新航行行為標準,為航行監(jiān)控和港口擁堵分析提供了支撐。同時保留了各航線的船型信息,實現對任意一個目的港港口的任意一個時間段的船舶航行行為,即航線、船型的動態(tài)查詢。
(3)計算出真實航線時間和無效航行時間。
下面我們以MMSI 為373233000 的集裝箱船為例,對提出方法的可行性和有效性進行驗證。
首先從數據庫中取出MMSI 為373233000 的集裝箱船的AIS 歷史動態(tài)數據。清洗后的數據如圖1所示,其中圖中的每一點代表單位小時內的平均速度,通過計算整點時間內實際航行距離,以及整點時間內的實際航行時間的比值得到。
圖1 MMSI 為373233000 的集裝箱船數據預處理結果
根據清洗后數據,我們做出船舶的歷史航速圖,并使用fused lasso 算法和變點分析方法尋找歷史航速的多個突變節(jié)點。兩種方法的結果如圖2所示,可以看出識別結果的差別不大,兩種方法都可以準確地刻畫航速變化趨勢。為了方便闡述,下文僅以變點分析方法的結果進行解釋和分析。
圖2 MMSI 為373233000 的航速使用變點分析方法分段結果
圖3 MMSI 為373233000 的航速使用fused lasso 分段結果
結合業(yè)務邏輯,對上述航行過程進行時間信息匹配,可以識別出大致四個航行狀態(tài),它們分別是:低速啟航段,高速平穩(wěn)段,減速突變段,無效漂航段。其中最復雜并且最需要的是無效漂航段。通過分析,MMSI為373233000 的船舶真實航行時間為496 小時。
由圖2可以看出,該集裝箱船在開始航行的第600多小時開始航速小于2 節(jié),且持續(xù)時間長達約52 小時,此時的航行距離已經超過港間距的上限,所以可以判定該船有無效航行狀態(tài)也就是漂航狀態(tài)。一般基于數據觀測的經驗,我們可以設定無效航行狀態(tài)為:航速小于2節(jié)持續(xù)12 小時并且航行距離超過港間距的70%。一旦識別出漂航的開始的時間節(jié)點,我們可以計算開始漂航到開始靠泊的時間,并將此段時間作為漂航的持續(xù)時間。
提取目的港為長灘港和洛杉磯港在2021年9月到2022年1月內的所有集裝箱船,根據之前的方法做類似的數據分析。最終結果顯示有漂航狀態(tài)的集裝箱船舶大約占所有集裝箱船的20%,說明了港口擁堵非常嚴重。
根據已經識別出的航行行為可以對經過任意兩港的集裝箱班輪航線進行航行行為識別,進而可以進行港口擁堵分析。
目前AIS 數據中缺少判斷漂航的字段,不能自動識別港口真實擁堵情況。為了更加有效地掌握每個目的港的擁堵狀態(tài),我們以2021年目的港為洛杉磯港和長灘港的所有集裝箱船舶為例,判斷出漂航的船舶,并記錄漂航船舶每天累計的漂航時間,更加具體地刻畫出洛杉磯港和長灘港的擁堵狀況。
2021年11月16日,為了減少洛杉磯港和長灘港附近錨泊的船舶,改善空氣質量,提高港口的安全性。太平洋海事協(xié)會、太平洋商船協(xié)會和南加州海事交易所制定一種新的集裝箱船排隊流程,該程序讓船只在外海等待,而不是在港口附近的錨地和游蕩區(qū)等待。
由于現有通過港口等泊時間評價擁堵情況不準確,比如洛杉磯港和長灘港擁堵前期擁堵,錨地狹小,已有部分船舶產生漂航,洛杉磯港和長灘港新政后,港口排隊禁止錨泊進一步加劇了漂航,大量船舶開始漂航,因此無法獲得漂航的時間和里程。
以2021年的AIS 數據為例,在圖4中我們可以發(fā)現在洛杉磯港和長灘港2021年11月16日出臺新規(guī)則之前,每天累計漂航集裝箱船舶的數量長期處于高位,因此代表港口的嚴重擁堵。隨著新規(guī)的實施,漂航船舶數量得到極大地減少。同樣的方法可以應用在全球所有的港口中,從而可以實時掌握港口的擁堵狀態(tài)。
圖4 2021年9月到2022年1月間目的港為長灘港和洛杉磯港的漂航集裝箱船舶數量走勢圖
隨著海上交通智能化,船舶配備了大量先進的信息技術、通訊技術和網絡技術,從而產生海量的數據。對航運大數據,通過結合實際不斷挖掘數據的內在價值,讓數據在科學管理、經營決策等方面發(fā)揮應有的作用,通過不斷創(chuàng)新數據運用,為航運業(yè)高質量發(fā)展提供支持保障。本文基于統(tǒng)計機器學習來識別船舶低效航行狀態(tài)行為新方法,用于判斷港口的擁堵情況,為港航企業(yè)經營管理決策參考。