郭乃琨,馬壯壯,岳明橋
(1.中國人民解放軍92493 部隊,遼寧 葫蘆島 125001;2.中船人因工程研究院(青島)有限公司,山東 青島 266000)
船舶軌跡數(shù)據(jù)因其多維、動態(tài)等特征而區(qū)別于一般的導(dǎo)航大數(shù)據(jù),不僅數(shù)據(jù)規(guī)模巨大,而且具有明顯的時序特征。運用簡單、常規(guī)的數(shù)據(jù)分析方法很難從中分析出隱含的信息[1]。因此,需要引入現(xiàn)代數(shù)據(jù)分析手段中的數(shù)據(jù)挖掘技術(shù)對船舶軌跡數(shù)據(jù)進(jìn)行挖掘,提取出其中的深層次潛在信息,然后針對分析和應(yīng)用需求,采用一定的可視化手段對其可視化,進(jìn)而為建立科學(xué)智能的海事監(jiān)管體系奠定理論與技術(shù)基礎(chǔ)。
在我國當(dāng)前“海上絲綢之路”“海洋強國戰(zhàn)略”等大背景下,國內(nèi)海事部門緊跟信息化浪潮,在海洋數(shù)字體系化基礎(chǔ)建設(shè)上不斷邁進(jìn),由此產(chǎn)生了大量的船舶軌跡數(shù)據(jù)[2]。然而,船舶軌跡數(shù)據(jù)因其多維、動態(tài)等特征而區(qū)別于一般的地理空間數(shù)據(jù),不僅數(shù)據(jù)規(guī)模巨大,而且具有明顯的時序特征,運用簡單、常規(guī)的數(shù)據(jù)分析方法很難從中分析出隱含的信息。因此,與船舶軌跡數(shù)據(jù)挖掘與可視化相關(guān)的技術(shù)應(yīng)運而生,飛速發(fā)展[3]。數(shù)據(jù)可視化與數(shù)據(jù)挖掘技術(shù)有機(jī)結(jié)合,從而有效、深入地揭示海量船舶軌跡數(shù)據(jù)中的隱含規(guī)律與潛在價值,并將挖掘結(jié)果準(zhǔn)確、直觀地呈現(xiàn)給用戶,這更體現(xiàn)了衛(wèi)星導(dǎo)航信息服務(wù)的價值所在,同時,也 將 對 我 國BDS(BeiDou Navigation Satellite System,北斗衛(wèi)星導(dǎo)航系統(tǒng))及相關(guān)產(chǎn)業(yè)應(yīng)用起到較為積極的推動作用[4]。因此,需要引入現(xiàn)代數(shù)據(jù)分析手段中的數(shù)據(jù)挖掘技術(shù)對船舶軌跡數(shù)據(jù)進(jìn)行挖掘,提取出其中的深層次潛在信息,然后針對分析和應(yīng)用需求,采用一定的可視化手段對其可視化,進(jìn)而為解釋人類海洋移動行為模式、建立科學(xué)智能的海事監(jiān)管體系奠定理論與技術(shù)基礎(chǔ)。
船舶數(shù)據(jù)和海上融合信息獲取階段主要是通過網(wǎng)絡(luò)爬蟲、直接下載、付費購買等多種途徑,從互聯(lián)網(wǎng)上廣泛搜集船舶數(shù)據(jù)或融合信息;數(shù)據(jù)庫的建立階段主要是面向海量AIS 數(shù)據(jù)等船舶軌跡數(shù)據(jù)存儲,將互聯(lián)網(wǎng)上采集的船舶軌跡數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫中,便于數(shù)據(jù)的集中管理與查詢分析;關(guān)鍵技術(shù)階段主要涉及數(shù)據(jù)預(yù)處理、特征點提取、軌跡相似性度量、軌跡聚類與可視化等多個關(guān)鍵技術(shù),數(shù)據(jù)預(yù)處理主要是由于來自互聯(lián)網(wǎng)的船舶軌跡數(shù)據(jù)通常存在錯值、誤差、缺失、冗余、無效等情況,需要對其進(jìn)行過濾、刪除或差值補全等預(yù)處理工作;軌跡聚類主要依賴于特征點提取、相似性度量,包括顧及時空特征的聚類、顧及行為特征和時空特征的聚類[5]。在完成聚類的基礎(chǔ)上,通過搭建可視化平臺對聚類結(jié)果進(jìn)行直觀呈現(xiàn),最后為海上交通態(tài)勢感知、海上信息情報獲取、海洋生態(tài)環(huán)境保護(hù)、海上戰(zhàn)場環(huán)境輔助分析等實際應(yīng)用場景提供支持。
3.1.1 船舶軌跡數(shù)據(jù)采集
船舶軌跡數(shù)據(jù)一般是指基于AIS 的軌跡數(shù)據(jù),主要是從AIS 基站獲得。每艘船舶在安裝船載AIS 系統(tǒng)時都需要對其初始化,即輸入船舶名稱、呼號、海上移動服務(wù)識別碼等信息[6]。在航行前,由船舶駕駛?cè)藛T輸入起始港、目的港、吃水深度、預(yù)計到達(dá)時間、貨物種類等航次信息;在航行過程中,一般直接接入全球定位系統(tǒng)(GPS)的位置、速度等信息,這些信息經(jīng)由船舶AIS 發(fā)射機(jī)編碼向外發(fā)射,并由附近船舶或岸基AIS 接收機(jī)接收。
3.1.2 船舶軌跡數(shù)據(jù)預(yù)處理
從船舶軌跡網(wǎng)站上獲取的AIS 原始數(shù)據(jù)通常存在噪聲和偏差問題,為了保證后續(xù)軌跡特征點選取的精度和速度,首先需要對數(shù)據(jù)進(jìn)行預(yù)處理:刪除MMSI碼錯誤的數(shù)據(jù);刪除船舶位置的經(jīng)緯度出現(xiàn)負(fù)值或是經(jīng)度大于180°、緯度大于90°的數(shù)據(jù);刪除航速為負(fù)值或大于60kn 的數(shù)據(jù);刪除超過研究水域范圍的數(shù)據(jù)等。此外,可能面臨的預(yù)處理情景還包括以下三個方面:①由于船舶軌跡中的船位點數(shù)量過少,生成的軌跡無法代表其航行軌跡;②由于船舶一直處于靜止或船舶只在一個很小范圍內(nèi)移動,這種軌跡也無法用于航道中心線的提?。虎塾捎诖昂叫兄徐o止報告會出現(xiàn)冗余點,AIS 系統(tǒng)定位異常也會出現(xiàn)異常點,若不對這些點剔除,會嚴(yán)重影響軌跡線聚類。
3.1.3 船舶軌跡數(shù)據(jù)挖掘及軌跡預(yù)測
船舶軌跡數(shù)據(jù)挖掘的目的是從海量的船舶航行歷史軌跡中發(fā)現(xiàn)船舶運動總體動態(tài)演化的宏觀規(guī)律,進(jìn)而為揭示船舶運動模式和時空演變規(guī)律提供可靠依據(jù)。船舶軌跡數(shù)據(jù)具有時變、多維、動態(tài)的特征,這既為提取船舶運動模式特征提供了豐富的信息,也增加了船舶軌跡信息挖掘的難度?,F(xiàn)有的軌跡聚類和其他挖掘技術(shù)難以解決船舶軌跡數(shù)據(jù)挖掘的實際情況,則需要探索新的船舶軌跡數(shù)據(jù)挖掘技術(shù),從不同時期的軌跡數(shù)據(jù)找到普遍的運動趨勢并檢測船舶的異常運動。當(dāng)前常用的船舶軌跡數(shù)據(jù)聚類方法主要分為基于距離的船舶軌跡聚類方法、基于密度的船舶軌跡聚類方法和基于統(tǒng)計學(xué)的船舶AIS 軌跡聚類方法,此外還有基于層次分析的聚類方法、基于圖論的聚類方法等[7]。
基于船舶軌跡數(shù)據(jù)的預(yù)測研究也是數(shù)據(jù)挖掘的重要組成部分,對于船舶未來的航行軌跡分析、運動模式分析等具有重要意義[8]。對于船舶軌跡的預(yù)測不僅可以對航線軌跡進(jìn)行異常檢測,同時還可以預(yù)計航行時間、油耗等,所以對于船舶軌跡的未來行駛航線的研究,也是國內(nèi)外學(xué)者研究的熱點。
在完成船舶AIS 軌跡數(shù)據(jù)聚類的基礎(chǔ)上,需要采用適宜的船舶軌跡數(shù)據(jù)可視化算法對聚類結(jié)果進(jìn)行清晰、直觀地展示,并且提供一定的可視分析功能,因此需要研發(fā)原生的船舶軌跡數(shù)據(jù)可視化平臺[9-10]。可視化平臺研制。通過底層開發(fā)或二次開發(fā)方式,研制面向海量船舶軌跡數(shù)據(jù)的二維可視化平臺,通過總體設(shè)計、需求分析、功能架構(gòu)設(shè)計、數(shù)據(jù)庫設(shè)計、可視化前端設(shè)計以及基于插件式開發(fā)的可視化平臺實現(xiàn),研制較為通用的船舶軌跡數(shù)據(jù)可視化平臺,為海量船舶軌跡數(shù)據(jù)的集中呈現(xiàn)奠定平臺基礎(chǔ)。
在船舶軌跡數(shù)據(jù)挖掘與可視化研究領(lǐng)域,國內(nèi)外已經(jīng)積累起大量的研究成果。然而,船舶AIS 軌跡數(shù)據(jù)是多維時空數(shù)據(jù),并且數(shù)據(jù)量大,其聚類分析還存在一些技術(shù)上亟待解決的問題,例如船舶航行產(chǎn)生的軌跡數(shù)據(jù)具有典型的多維、時變和空間動態(tài)特征,利用傳統(tǒng)的聚類分析方法無法達(dá)到理想的聚類分析效果。如何通過研究船舶軌跡數(shù)據(jù)特有的數(shù)據(jù)結(jié)構(gòu)與時空特征,研究面對復(fù)雜的船舶航行時空環(huán)境時的軌跡聚類方法,實現(xiàn)面向船舶軌跡數(shù)據(jù)挖掘的時空聚類方法,準(zhǔn)確地探測船舶航行的時空分布特征。