基于高斯混合模型的船舶到達規(guī)律研究*

2020-04-29 07:52:20劉克中

武漢理工大學學報(交通科學與工程版) 2020年1期

金輝劉克中馬杰楊星

(武漢理工大學航運學院1) 武漢 430063) (內河航運技術湖北省重點實驗室2) 武漢 430063)

0 引言

船舶到達規(guī)律分布是航道通過能力確定的主要依據，也是航道通航尺度設計及航道事故分析的理論基礎，同時，也為船舶行為分析、組織調度和管理等方面提供數據支持.近年來，隨著我國海上貿易的發(fā)展，各大主航道的船舶交通流量急劇增加，港口船舶交通流量的迅速增加使得港口交通趨于復雜化，由于船舶到達種類的混合性、到達時間的隨機性，以及由于經濟和自然等條件帶來的港口差異性，給船舶到達規(guī)律的研究帶來困難.

目前，國內外船舶到達規(guī)律的研究主要是統(tǒng)計分析，反映船舶交通特性與規(guī)律的基本形式是統(tǒng)計分布[1-2].劉亮等[3]通過統(tǒng)計荊州長江大橋船舶交通流量的觀測數據，研究得出船舶的到達規(guī)律服從泊松分布.譚志榮等[4]以2008—2009年荊州長江大橋的船舶交通流量觀測數據為樣本，研究得出船舶到達時間間隔服從二項分布、船舶交通流量服從泊松分布.劉敬賢等[5]使用數理統(tǒng)計的方法以天津港2003—2005年船舶到港觀測數據為樣本，得出天津港主航道的船舶日到達艘數符合正態(tài)分布.初秀民等[6]發(fā)現蕪湖段船舶到達時距符合對數正態(tài)分布，武漢段則符合正態(tài)分布.Kuo[7]評估航道的通過能力時，發(fā)現船舶到達時間間隔符合Erlang分布，其分布系數k隨數據的觀測規(guī)模增大而降低.Lyu[8]在預測防城港交通流量時，對防城港船舶的到達和駛離數據進行詳細統(tǒng)計得到到達的數量直方圖，最后擬合得出船舶到達時距服從負二項分布和t分布.

除了選取某一單一分布模型對船舶到達規(guī)律進行假設外，還可選取多個單一分布模型進行假設通過對比得到更能準確表征到達規(guī)律的模型.孟范立[9]選用泊松分布和負二項分布建立船舶到達規(guī)律模型，實驗發(fā)現負二項分布能夠更好地表征船舶到達規(guī)律.熊振南等[10]在統(tǒng)計研究計算船舶流分布時，發(fā)現負二項分布比泊松分布更能反映出交匯水域中船長超過180 m的船舶到達的實際情況.Chai[11]研究巴西某港口的到達規(guī)律時發(fā)現，PearsonVI型分布相比于韋伯分布、愛爾朗分布和指數分布更能夠反應該港口的到達過程.

上述方法均只考慮了對單個分布的擬合與檢驗，對船舶交通流的復雜性與混合性考慮不足，為了盡可能的減小誤差，在上述研究的基礎上，提出了基于高斯混合模型(GMM)的到船舶到達規(guī)律的建模方法，來提升船舶到達規(guī)律的擬合優(yōu)度.

1 GMM模型

高斯混合模型(Gaussian mixture model)是一個常用的描述混合密度分布的模型，即多個高斯分布的混合分布，改模型融合了參數估計法和非參數估計法的優(yōu)點，既不局限于特定的概率密度函數形式，而且模型的復雜度僅與所求解的問題有關、與樣本集合的大小無關.高斯混合模型的一個重要特性是，如果模型中的成員足夠多，它能夠以任意精度逼近任意的連續(xù)分布.

高斯混合模型作為一種統(tǒng)計模型，能夠很好的刻畫參數空間中數據的分布及其特性，其原理簡單來說就是用高斯概率密度函數精確地量化事物，它是一個將事物分解為K個基于高斯概率密度函數的線性組合而形成的模型，其表達式為

(1)

式中：N(x;θk)為高斯分布函數，每個高斯分布稱為一個高斯部件，每一個分量k有自己的參數集θk={μk,Σk}；μk為均值向量；Σk為協方差矩陣；πk為混合參數，將它作為數據樣本產生自第k個高斯分布的先驗概率，則該先驗概率滿足條件：

(2)

對于給定的數據，在使用GMM進行曲線擬合時必須確定模型中高斯部件個數K以及各個高斯部件內的未知參數，即πk，μk和Σk.

最大期望算法(expectation maximization algorithm，EM算法)，是常用的一種GMM參數估計方法，用于求含有隱含變量的概率參數模型的最大似然估計或極大后驗概率估計.

EM算法的迭代過程可以分為兩步：

1) E-step 根據參數初始值或上一次迭代值來計算對數似然函數的期望，并不斷建立對數似然函數的下界.

2) M-step 用第一步得到的結果將似然函數最大化以獲得新的參數值，即優(yōu)化優(yōu)化對數似然函數的下界.

當高斯混合模型中的高斯部件個數為K時，EM算法E-step中數據xi由第k個部件生成的概率為

(3)

在給定生成的概率后，M-step更新其他參數，以最大化對數似然估計值，參數更新公式為

(4)

(5)

∑(t+1)k=

在使用EM算法進行參數估計時通常需要給出初始值，即模型參數的先驗概率，對于本文研究的船舶到達規(guī)律模型中的參數，無法給出較為可靠的先驗概率.因此，本文結合交叉驗證法來對數據進行分類從而得到高斯部件個數K，交叉驗證的基本思想是將原始數據進行分組，一部分做為訓練集，另一部分做為驗證集，首先用訓練集對分類器進行訓練，再利用驗證集來測試訓練得到的模型，以此來做為評價分類器的性能指標.

在用交叉驗證得到高斯部件個數后采取似然估計值的方法對得到的K進行驗證.通過先確定高斯部件個數再用EM算法對未知參數進行估計的方法，有效的解決了船舶到達參數先驗概率難以確定的難點.

以一月份時間間隔數據為例，使用10折交叉驗證，即將數據等分為10份，其中9份作為訓練集1份作為驗證集，來對數據進行分類，循環(huán)10次得到分類器的平均值為6.在此之后，通過改變EM算法初始高斯部件個數并比較最大似然估計值，并與交叉驗證得到的結果進行對比，結果表明，EM算法的似然估計值在K=6時收斂，與交叉驗證結果相吻合.結果見圖1.

圖1 似然估計值隨高斯分量K的變化

2 例及仿真

2.1 蝦峙門航道介紹

蝦峙門航道呈西北-東南走向，寬5鏈～15鏈，航道水深23.1～123 m，是大型船舶進入寧波-舟山港的主要航道，也是對外籍船舶開放的航道，外籍船舶和超大型船舶一律應由蝦峙門水道進入港域.隨著世界貿易的加強，寧波-舟山港的吞吐量已經躋身世界港口前三強，蝦峙門水道內每日來往的船只數量呈爆炸式增長.

圖2為蝦峙門水域部分船舶的航跡圖.由圖2可知，蝦峙門水道交通流密度較大，交通十分繁忙，因此對蝦峙門水道船舶到達數據的統(tǒng)計與到達規(guī)律的研究就顯得尤為重要.

圖2 蝦峙門水道附近水域AIS航跡圖

2.2 到達船舶數據統(tǒng)計分析

經統(tǒng)計得，2015年全年各類船舶進入蝦峙門航道2.6萬艘·次，除去特殊船舶以外，平均到達數量為1 633艘·次/月.

圖3為將所有船舶數據按船舶類型分類統(tǒng)計的結果，其中，貨船、危險品船、未知船舶類型的船舶以及油輪占比超過了70%，是蝦峙門水道到達船舶的主要類型.

圖4為2015年各月各類船舶到達數量，由圖4可知，進一步對各月的船舶進行統(tǒng)計，各類船舶各月的到達數據分布較為均勻，且每月到達的主要船舶類型也是貨輪、危險品船、未知船舶類型的船舶以及油輪.

圖3 2015年達到船舶分類統(tǒng)計

圖4 2015年各月各類船舶到達數量

2.3 傳統(tǒng)到達規(guī)律模型試驗

為了驗證GMM模型的效果，將其與傳統(tǒng)的到達規(guī)律模型進行比較.首先運用單樣本的Kolmogorov-Smirnov檢驗(KS檢驗)對數據進行常見分布最優(yōu)參數下的假設檢驗，單樣本KS檢驗是檢驗單一樣本是否服從某一預先假設的特定分布的方法，p.value為接收原假設的概率.本文實驗選取的數據分為兩組，一組是全年的數據，包括全年總體數據、全年貨船數據,以及全年油船數據；另一組是一月份的數據，包括一月總體數據、一月貨船數據和一月油船數據，表1為檢驗結果.

表1 不同船舶到達數據的KS檢驗結果

將數據分別對正態(tài)分布、泊松分布、指數分布、瑞麗分布、伽瑪分布等進行KS檢驗，結果如上表所示，其中除了全年油船數據的指數分布、一月油船數據的指數分布以及一月油船數據的伽馬分布的p.value大于0.001，即接受分布的假設，其余的p.value均小于0.001，即不接受分布的假設.也就是說除了特定時間力度下的個別船型以外，常見的一元分布模型難以對蝦峙門水道的船舶到達規(guī)律進行表征.

2.4 GMM模型試驗

用GMM對2015年全年總體數據進行擬合，首先通過交叉驗證對高斯部件個數進行計算，結果為9.在得到高斯部件的個數后，用EM算法對各個高斯部件的參數進行估計.

根據式(1)、(4)、(5)、(6)，2015年船舶到達時間間隔為服從以下參數的高斯混合分布

即：

p(x)=0.1N(39.779 8,8.619 6)+0.18N(14.662 2,5.333 9)+0.45N(7.672 9,3.679 8)+

0.01N(154.400 3,31.838)+0.01N(214.747 2,71.884 9)+0.12N(25.627 3,7.134)+

0.04N(79.157 8,11.228 9)+0.02N(109.346 5,17.617)+0.07N(58.587 6,10.097 6)

同樣的，通過GMM得到2015年一月船舶到達時間間隔服從以下參數的高斯混合分布：

即：

p(x)=0.1N(39.779 8,8.619 6)+0.18N(14.662 2,5.333 9)+0.45N(7.672 9,3.679 8)+

0.01N(154.400 3,31.838)+0.01N(214.747 2,71.884 9)+0.12N(25.627 3,7.134)+

0.04N(79.157 8,11.228 9)+0.02N(109.346 5,17.617)+0.07N(58.587 6,10.097 6)

2.5 實驗結果及分析

將以上模型產生的數據與2015年到達數據進行比對.圖5為真實數據與隨機生成的到達數據的核密度估計曲線，兩圖內的兩曲線誤差很小，用KS檢驗測試兩組數據是否服從同一分布，得到的p.value分別為0.143 3和0.111 9，表明檢驗接受了隨機生成的到達數據與實際數據服從統(tǒng)一分布的假設，證明GMM對船舶到達時間間隔數據進行擬合得到的分布及其參數能夠比較準確的反映船舶到達規(guī)律.

圖5 總體船舶到達數據與模擬數據對比圖

同樣的，使用GMM模型可分別得到貨船和油輪到達數據的分布，且均通過KS檢驗.最后，為了更加直觀的比較GMM模型和傳統(tǒng)模型之間的差異性，使用相對熵(relative entropy)來對兩個概率之間的差異進行描述與比較，兩個分布之間的相對熵越大說明兩個分布之間的差異越大.經過計算，一月油輪數據概率分布與GMM模型、指數分布模型與伽瑪分布模型之間的相對熵分別為：0.553 7，0.863 7，1.022 4.說明一月油輪數據與GMM模型的模擬數據之間最接近，與伽瑪分布模型的模擬數據之間差異最大，不同模型的數據對比見圖6.

圖6 不同模型間數據對比圖

3 結論

1) 通過實驗與分析可知，船舶的到達是一個較為復雜的過程，不同船舶類型的到達規(guī)律是不同的，通過使用GMM建模發(fā)現，在不同時間長度下，船舶的到達時間間隔曲線走勢基本保持一致，即船舶到達時間間隔受研究時間長度的影響較小.全部船舶的到達時間間隔分布與各類船舶的到達時間間隔分布走勢也大體一致，表明全部船舶到達時間間隔分布可以通過各類船舶的到達時間間隔按一定的比例混合而成，這也符合了高斯混合模型的建模思想.

2) 將GMM模型運用到船舶到達規(guī)律的研究中，考慮到了船舶到達過程的隨機性、復雜性與區(qū)域差別性，解決了傳統(tǒng)單一分布模型無法較準確的描述到達規(guī)律的問題，提高了到達規(guī)律曲線的擬合優(yōu)度.

3) GMM模型雖然盡可能的提高了船舶到達規(guī)律曲線的擬合優(yōu)度，但是仍存在一些難以解決的問題，比如：該模型無法像傳統(tǒng)的單一分布模型一樣給出船舶到達規(guī)律的準確λ值，最終的模型參數較為復雜等，在今后的研究過程中將進一步完善.

4) GMM模型的研究對更加精確的掌握船舶通行規(guī)律、交通流量的數學分布，以及科學合理的開展水上交通的控制與管理具有重要意義.