雷進(jìn)宇, 初秀民,3, 蔣仲廉, 鐘誠(chéng), 吳明洋, 郭濤
(1. 國(guó)家水運(yùn)安全工程技術(shù)研究中心, 湖北 武漢 430063;2. 武漢理工大學(xué) 能源與動(dòng)力工程學(xué)院, 湖北 武漢 430063;3. 閩江學(xué)院 物理與電子信息工程學(xué)院, 福建 福州 350108;4. 武漢理工大學(xué) 物流工程學(xué)院, 湖北 武漢, 430063)
自動(dòng)識(shí)別系統(tǒng)(automatic identification system, AIS)是集現(xiàn)代通信、網(wǎng)絡(luò)和信息科技于一體的多門(mén)類(lèi)高科技新型助航設(shè)備和安全信息系統(tǒng),廣泛應(yīng)用于海事通信及安全監(jiān)測(cè)中。作為海事數(shù)據(jù)分析的主要數(shù)據(jù)源,大量的數(shù)據(jù)必然引起“臟”數(shù)據(jù)的產(chǎn)生。受制于通信鏈路、信道干擾以及器件自身固有誤差等因素,伴隨有數(shù)據(jù)異常、數(shù)據(jù)缺失等現(xiàn)象。上述現(xiàn)象產(chǎn)生的數(shù)據(jù)也被稱(chēng)之為“臟”數(shù)據(jù)。因此在自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)分析前,數(shù)據(jù)往往需要對(duì)臟數(shù)據(jù)進(jìn)行預(yù)處理,然后將處理后的數(shù)據(jù)導(dǎo)入模型進(jìn)行交通流的分析。
目前,面對(duì)“臟”數(shù)據(jù)的主要預(yù)處理處理方法有數(shù)據(jù)清洗及數(shù)據(jù)重構(gòu)。數(shù)據(jù)清洗通常是依據(jù)某種規(guī)則或多種規(guī)則的結(jié)合對(duì)原始數(shù)據(jù)進(jìn)行篩選過(guò)濾。然后對(duì)篩選出不符合要求的數(shù)據(jù)直接剔除[1-2]。數(shù)據(jù)重構(gòu)則是依據(jù)數(shù)據(jù)本身規(guī)律及特點(diǎn),對(duì)原數(shù)據(jù)缺失部分進(jìn)行修復(fù)還原等工作,文獻(xiàn)[3]利用ER推理的方法過(guò)濾自動(dòng)識(shí)別系統(tǒng)異常數(shù)據(jù)并結(jié)合船舶動(dòng)力學(xué)對(duì)過(guò)濾的自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)進(jìn)行還原。這意味著其中的一些異常的原始數(shù)據(jù)和缺失的數(shù)據(jù)(也稱(chēng)作臟數(shù)據(jù))將被完全濾除。
上述方法的主旨思想均在于如何將“臟”數(shù)據(jù)剔除或者是將“臟”數(shù)據(jù)變“好”,但是卻忽略了“臟”數(shù)據(jù)本身蘊(yùn)藏的價(jià)值。例如數(shù)據(jù)的丟失能反映出內(nèi)河沿線基站的覆蓋范圍和其存在的盲區(qū)?!芭K”數(shù)據(jù)中的信息及特征如果得到有效挖掘利用,對(duì)自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)維護(hù)管理、錯(cuò)誤數(shù)據(jù)產(chǎn)生致因等問(wèn)題,可以提供重要的數(shù)據(jù)支撐。
可視分析方法已經(jīng)成功的應(yīng)用于眾多領(lǐng)域,特別是數(shù)據(jù)分析以及地理信息GIS系統(tǒng)中。文獻(xiàn)[4]提出了基于特征解選取的n維圖表可視化技術(shù)有效去除 了Pareto最優(yōu)解集中性能相近的冗余解。文獻(xiàn)[5]利用標(biāo)簽云可視化模型將文本信息和地理信息結(jié)合分析了位置關(guān)聯(lián)信息中的總體特征和信息。WILLEMS等[6]通過(guò)對(duì)海上船舶軌跡進(jìn)行可視化,分析船舶的異常行為和航行風(fēng)險(xiǎn),證明可視分析方法在船舶異常行為模式方面也有廣闊應(yīng)用前景。
缺失數(shù)據(jù)經(jīng)常被忽視,即使缺失數(shù)據(jù)很重要仍然有些可視分析僅僅利用剩余數(shù)據(jù)并得出相應(yīng)的結(jié)論。文獻(xiàn)[7]利用帶有斷層的折線圖來(lái)可視化數(shù)據(jù)中的缺失。文獻(xiàn)[8]采用的可視化方法是在保持輪廓光滑明亮的情況下通過(guò)調(diào)低色調(diào)來(lái)展示缺失數(shù)據(jù)。文獻(xiàn)[9]則利用統(tǒng)計(jì)學(xué)方法計(jì)算出缺失數(shù)據(jù)的可能范圍并采用類(lèi)似盒圖的方法來(lái)可視化缺失數(shù)據(jù)的不確定性。文獻(xiàn)[10]則利用了空缺,模糊以及空缺加注釋的方法來(lái)進(jìn)行可視化展示,經(jīng)過(guò)實(shí)踐分析表明,空缺加注釋的方法更有助于用戶(hù)對(duì)缺失數(shù)據(jù)的理解。文獻(xiàn)[11]提出一套利用可視分析來(lái)理解數(shù)據(jù)質(zhì)量的流程和方法,并采用不同的可視化模型對(duì)移動(dòng)數(shù)據(jù)進(jìn)行展示分析,發(fā)現(xiàn)了其中一些數(shù)據(jù)的缺失并解釋了其發(fā)生的原因。然而并沒(méi)有對(duì)這些異常數(shù)據(jù)進(jìn)行探索,未對(duì)異常數(shù)據(jù)的規(guī)律及其間接反映出來(lái)的周?chē)h(huán)境特征進(jìn)行深入研究。
異常值是指與大多數(shù)數(shù)據(jù)偏離較大的數(shù)據(jù)。交通定位數(shù)據(jù)可視分析中常見(jiàn)的統(tǒng)計(jì)、聚類(lèi)等方法表達(dá)的則是海量數(shù)據(jù)的統(tǒng)計(jì)信息,無(wú)法揭開(kāi)單個(gè)軌跡點(diǎn)中的臟數(shù)據(jù)信息。為了解決這種弊端,文獻(xiàn)[12]利用最原始的地圖路網(wǎng)信息,在經(jīng)過(guò)后臺(tái)的判斷之后,將含有異常的軌跡映射到二維平面地圖進(jìn)行可視化。由于平行坐標(biāo)可視化模型可以表征高維數(shù)據(jù)中各維度的隱含關(guān)系,因此文獻(xiàn)[13]在網(wǎng)絡(luò)安全異常檢測(cè)中采用了平行坐標(biāo),結(jié)果表明該方法可及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)入侵行為。文獻(xiàn)[14]則提出一種基于3D多層球面空間可視化模型的異常行為識(shí)別模型,該方法能夠更好地表現(xiàn)網(wǎng)絡(luò)活動(dòng),服務(wù)于網(wǎng)絡(luò)安全監(jiān)督。文獻(xiàn)[15-16]中結(jié)合可視化與人機(jī)交互的手段來(lái)從原始定位數(shù)據(jù)中選取出異常數(shù)據(jù)并利用機(jī)器學(xué)習(xí)的方法尋找更多的異常值,從而來(lái)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行數(shù)據(jù)質(zhì)量的評(píng)估。然而并未對(duì)這些檢測(cè)出的異常數(shù)據(jù)進(jìn)行更深入的挖掘研究。
因此本文試圖通過(guò)可視分析方法研究自動(dòng)識(shí)別系統(tǒng)的動(dòng)態(tài)數(shù)據(jù)從而對(duì)內(nèi)河水路交通中存在的幾種主要自動(dòng)識(shí)別系統(tǒng)“臟”數(shù)據(jù)和其致因加以討論分析并循環(huán)利用充分挖掘其中的價(jià)值。本文首先對(duì)幾種常見(jiàn)的數(shù)據(jù)質(zhì)量問(wèn)題及其可視方法進(jìn)行介紹,然后分別闡述了總體分析流程和各個(gè)可視化模型的具體功能及其交互手段。最后在實(shí)際內(nèi)河的船舶交通流數(shù)據(jù)基礎(chǔ)上結(jié)合典型的案例分析對(duì)可視分析方法進(jìn)行實(shí)證測(cè)試。
本文通過(guò)綜合自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)可視化展示和人機(jī)交互手段來(lái)探索異常自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)中的規(guī)律,具體的異常數(shù)據(jù)的分析框架如圖1所示。首先將原始數(shù)據(jù)進(jìn)行相鄰點(diǎn)間的時(shí)空距離差分計(jì)算,然后將計(jì)算結(jié)果投影在散點(diǎn)圖中,其次用戶(hù)可對(duì)散點(diǎn)圖中的正常、異常、靜止以及丟失等不同區(qū)域的軌跡數(shù)據(jù)進(jìn)行交互篩選探索感興趣的數(shù)據(jù),然后通過(guò)對(duì)篩選出的軌跡數(shù)據(jù)聚類(lèi)變換映射在OpenStreetMap(OSM)地圖中,通過(guò)人機(jī)交互對(duì)不同軌跡進(jìn)行標(biāo)記存儲(chǔ)進(jìn)數(shù)據(jù)庫(kù)進(jìn)行下一步分析。
OSM開(kāi)放平臺(tái)提供了基礎(chǔ)地圖編輯組件,用戶(hù)根據(jù)自身數(shù)據(jù)內(nèi)容自由繪制點(diǎn)、線等數(shù)據(jù),如圖2所示。因此本在此基礎(chǔ)上,設(shè)計(jì)了一套可交互的散點(diǎn)圖設(shè)計(jì)來(lái)對(duì)“臟”數(shù)據(jù)進(jìn)行可視分析。散點(diǎn)圖視圖設(shè)計(jì)為一個(gè)橫軸和縱軸分別為同一水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)船舶的相鄰軌跡點(diǎn)的時(shí)間差和距離差如圖3所示。
圖2 基于開(kāi)放街道地圖的地圖展示Fig.2 Map display based on open street map
圖3 軌跡點(diǎn)散點(diǎn)圖示意Fig.3 Scatter plot of space-time difference
圖中實(shí)線、點(diǎn)劃線和虛線依次分別代表最大速度線、最小速度線和最大時(shí)間線,由這3條線則把散點(diǎn)圖分為正常行駛區(qū)域、異常區(qū)域、船舶靜止區(qū)域與自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)丟失區(qū)域,實(shí)際效果如圖4所示,圓點(diǎn)和方框軌跡點(diǎn)分別代表選定的不同種類(lèi)軌跡點(diǎn)。
圖4 軌跡點(diǎn)時(shí)空差分的散點(diǎn)Fig.4 Scatter plot of space-time difference of track point
可視化交互是對(duì)異常自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)可視分析起著關(guān)鍵作用??傮w的交互界面如圖5所示,主要由左、中、右3個(gè)部分組成。界面左邊部分可通過(guò)MMSI列表或時(shí)間范圍對(duì)異常數(shù)據(jù)實(shí)施篩選;界面中間部分可通過(guò)與地圖的放大、縮小以及平移等基本操作交互來(lái)觀察異常數(shù)據(jù)在航道中的位置分布;界面右邊部分可通過(guò)對(duì)散點(diǎn)圖的圈選,縮放等操作來(lái)進(jìn)一步探索感興趣的異常數(shù)據(jù)。
圖5 交互界面Fig.5 User interface
地圖部分除了放大、縮小、平移等基本操作外還包括:拉索圈選、方框圈選、方框放大等,其中拉索圈選可以更自由的對(duì)任意形狀的軌跡進(jìn)行篩選。如圖6中有多條軌跡且相對(duì)密集的情況下用拉索圈選更加自由方便。
圖6 地圖圈選交互Fig.6 Circle the map selection interaction
散點(diǎn)圖圈選操作與地圖部分類(lèi)似,被圈選的點(diǎn)用圓點(diǎn),其中散點(diǎn)圖選中的相應(yīng)的點(diǎn)在地圖中也以相同方式展示,例如圖7(a)和圖7(b)中的相互對(duì)應(yīng)圓點(diǎn)。
圖7 Gps漂移點(diǎn)Fig.7 The Gps drift points
此外,如圖8所示當(dāng)選擇提示工具時(shí)將鼠標(biāo)懸停在對(duì)應(yīng)的數(shù)據(jù)點(diǎn)上則可以展示該數(shù)據(jù)的具體信息,例如時(shí)間、水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI),航速等。
圖8 信息懸停Fig.8 Information hover
時(shí)空過(guò)濾的系統(tǒng)部分由時(shí)間選擇、水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)列表構(gòu)成。由散點(diǎn)圖圈選中的點(diǎn)所代表的船舶水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)以列表形式展現(xiàn)在左側(cè)板塊。當(dāng)在列表選中一個(gè)水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)時(shí),OSM地圖和散點(diǎn)圖對(duì)該水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)進(jìn)行相應(yīng)的展示如圖9。圓點(diǎn)為所有圈選中的水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)軌跡點(diǎn),而當(dāng)前選定的水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)點(diǎn)以方框以便區(qū)別。在OSM地圖將其相鄰軌跡點(diǎn)聯(lián)結(jié)成軌跡線,這樣便可以清楚識(shí)別出軌跡的漂移圖9左半部分。
圖9 交互工具Fig.9 Interactive tools
通過(guò)散點(diǎn)圖中選取位于自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)丟失區(qū)域的數(shù)據(jù),可以發(fā)現(xiàn)對(duì)應(yīng)的軌跡點(diǎn)位于左邊地圖中的位置,如果某區(qū)域數(shù)據(jù)缺失點(diǎn)密集則認(rèn)為是盲區(qū)。點(diǎn)擊選擇左側(cè)相應(yīng)的水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼則可以從自動(dòng)識(shí)別系統(tǒng)軌跡更直觀得展示出明顯的數(shù)據(jù)缺失斷層現(xiàn)象如圖10所示,由于長(zhǎng)時(shí)間無(wú)自動(dòng)識(shí)別系統(tǒng)信號(hào)發(fā)出而造成缺失數(shù)據(jù)的區(qū)域呈現(xiàn)出長(zhǎng)條直線的模式。如果有多條軌跡線在某個(gè)區(qū)域出現(xiàn)這種模式,則可以認(rèn)定該區(qū)域存在盲區(qū)。
圖10 缺失數(shù)據(jù)軌跡Fig.10 Missing data trajectory
由圖11可以看出,左側(cè)存在3處數(shù)據(jù)大量丟失的基站盲區(qū)。
圖11 基站盲區(qū)檢測(cè)Fig.11 Base station blind area detection
船舶異常點(diǎn)可以通過(guò)觀察散點(diǎn)圖可得進(jìn)行提取即其中時(shí)間間隔短但行駛距離過(guò)長(zhǎng)的軌跡點(diǎn)則被認(rèn)為是異常的船舶行為。首先圈選散點(diǎn)圖中的異常軌跡點(diǎn)如圖12所示。
圖12 異常點(diǎn)圈選Fig.12 Selection of abnormal data
被圈選的軌跡點(diǎn)則在地圖和散點(diǎn)圖中皆被標(biāo)記為圓點(diǎn)并且所屬的水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)號(hào)出現(xiàn)在左側(cè)列表中。通過(guò)點(diǎn)選水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI),發(fā)現(xiàn)其中存在2種常見(jiàn)軌跡異?,F(xiàn)象。
第1種是軌跡的跳變從而形成了Z字形的軌跡線如圖13所示,它是由一個(gè)運(yùn)動(dòng)和一個(gè)靜止的船舶形成的軌跡圖。經(jīng)過(guò)分析,該異常是由于長(zhǎng)江航道中存在的船員私自篡改水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)的現(xiàn)象,因此引發(fā)多個(gè)運(yùn)行的船舶在同一時(shí)間段內(nèi)發(fā)出了多條水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)相同的AIS數(shù)據(jù)因此產(chǎn)生蛇形軌跡。
圖13 船舶Z字形軌跡Fig.13 Zigzag trajectory
第2種異常軌跡通常是一段正常軌跡中間出現(xiàn)1、2處的軌跡偏移如圖14所示。經(jīng)過(guò)調(diào)查該現(xiàn)象是由于長(zhǎng)江內(nèi)河信號(hào)經(jīng)常受岸邊無(wú)線電干擾以及通航建筑的遮蔽造成了行駛過(guò)程中的軌跡跳變。
圖14 軌跡跳變Fig.14 Trajectory jitter
1)在武漢段的實(shí)例測(cè)試中,通過(guò)對(duì)缺失數(shù)據(jù)分析,得到了武漢段基站覆蓋盲區(qū)的分布。
2)通過(guò)武漢段異常數(shù)據(jù)的可視分析得出該處異常軌跡發(fā)生往往是因?yàn)榇按?hào)現(xiàn)象和環(huán)境干擾。
當(dāng)前研究中,可視化模型的展示略顯單一,擬增加更為豐富的可視化模型對(duì)軌跡數(shù)據(jù)進(jìn)行多元化的展示。此外,在后續(xù)研究中,將引入Web Graphics Library(webgl)技術(shù),提升可視化圖像生成的效果和效率,使得人機(jī)交互更為流暢高效。目前借助先進(jìn)VR設(shè)備,開(kāi)發(fā)的三維虛擬可視化系統(tǒng)能給用戶(hù)提供一個(gè)更好的沉浸式顯示環(huán)境。在水路交通監(jiān)管中可為控制決策和預(yù)測(cè)風(fēng)險(xiǎn)等提供重要依據(jù)。