李祥民 白潔
摘要:聚類是一種無指導(dǎo)的學(xué)習(xí)過程,無需先驗(yàn)知識(shí)即可完成特征分類。在層次化聚類算法基礎(chǔ)上,介紹聚類方法對(duì)異常行為檢測(cè)理論方法。對(duì)目標(biāo)樣本數(shù)據(jù)特征分析,建立了目標(biāo)運(yùn)動(dòng)特征異常的檢測(cè)工程模型?;诶鄯e數(shù)據(jù)聚類生成了特定區(qū)域目標(biāo)運(yùn)動(dòng)特征知識(shí)庫,對(duì)實(shí)時(shí)數(shù)據(jù)測(cè)試分析,計(jì)算得到了異常目標(biāo)集合。異常目標(biāo)運(yùn)動(dòng)特征數(shù)據(jù)可視化,驗(yàn)證了目標(biāo)運(yùn)動(dòng)特征異常檢測(cè)模型的準(zhǔn)確性與可實(shí)現(xiàn)性。
關(guān)鍵詞:聚類;數(shù)據(jù)挖掘;異常檢測(cè);航跡
中圖分類號(hào):TP311文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2018)14-62-3
Anomaly Detection of Target Behavior Based on Clustering
LI Xiangmin, BAI Jie
(The 54th Research Institute of CETC, Shijiazhuang Hebei 050081, China)
0引言
人工手段處理目標(biāo)活動(dòng)海量數(shù)據(jù)的工作量比較繁重,而數(shù)據(jù)挖掘是一種發(fā)現(xiàn)海量數(shù)據(jù)隱含知識(shí)的技術(shù),是一種有效的數(shù)據(jù)應(yīng)用手段。聚類作為數(shù)據(jù)挖掘的重要方法,是一種無監(jiān)督的學(xué)習(xí)過程,聚類結(jié)果是不同數(shù)據(jù)分布特征的簇。異常數(shù)據(jù)占數(shù)據(jù)總體量較小,但蘊(yùn)含信息量高。目標(biāo)特征聚類結(jié)果形成目標(biāo)行為知識(shí)庫,用于評(píng)估目標(biāo)行為是否正常,異常檢測(cè)結(jié)果有助于業(yè)務(wù)分析人員將有限精力集中于異常目標(biāo)數(shù)據(jù)的分析。
1聚類異常檢測(cè)原理
聚類可以發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)的對(duì)象組,異常檢測(cè)是發(fā)現(xiàn)與正常對(duì)象不強(qiáng)相關(guān)對(duì)象簇的過程。異常簇同樣存在普遍運(yùn)動(dòng)特征,聚類可以用于異常檢測(cè)。聚類是一種無需指導(dǎo)的異常檢測(cè)技術(shù),在未標(biāo)記的數(shù)據(jù)集上進(jìn)行操作,將相似的數(shù)據(jù)劃分到同一個(gè)類中,根據(jù)數(shù)據(jù)分布特征查找異常類數(shù)據(jù)簇。
無監(jiān)督的異常檢測(cè)與有監(jiān)督的異常檢測(cè)相比,無監(jiān)督的異常檢測(cè)不需要訓(xùn)練數(shù)據(jù),只需要未經(jīng)加工的原始數(shù)據(jù),這是聚類模式運(yùn)用到異常檢測(cè)的基礎(chǔ)。無監(jiān)督的異常檢測(cè)數(shù)據(jù)集中,正常數(shù)據(jù)的數(shù)目遠(yuǎn)大于異常數(shù)據(jù)的數(shù)目,大數(shù)據(jù)集聚類結(jié)果評(píng)估目標(biāo)正?;虍惓L卣?。因此,基于聚類的異常檢測(cè)適用于無先驗(yàn)知識(shí)的異常檢測(cè)。
1.1數(shù)學(xué)模型
1.2聚類算法及類間距
聚類算法可分為層次與劃分2類:①層次聚類是指產(chǎn)生一個(gè)嵌套的簇集。在層次體系中,每一層都有一些分開的簇,底層每個(gè)元組都組成一個(gè)單獨(dú)的簇,最高層所有的元組都屬于同一個(gè)簇,層次聚類中不必指定先驗(yàn)簇的數(shù)目。層次聚類算法又可分為凝聚算法和分裂算法。②劃分聚類是指利用算法構(gòu)造一個(gè)簇集,其中簇的數(shù)目由用戶指定或系統(tǒng)指定。劃分方法聚類典型算法有-均值聚類、最近鄰算法及PAM算法等。
非層次聚類或劃分聚類一步就產(chǎn)生所有的簇,不需要多個(gè)步驟。各種算法中,可以在算法內(nèi)部產(chǎn)生幾個(gè)不同的簇,但劃分法聚類的結(jié)果只產(chǎn)生一個(gè)簇集。由于僅有一個(gè)簇集作為輸出,用戶必須輸入期望得到的簇的數(shù)目。此外,需要度量函數(shù)或準(zhǔn)則函數(shù)來判定解的優(yōu)劣程度。
不同的聚類算法產(chǎn)生的簇集都具有高簇內(nèi)相似性與低簇間相似性。聚類初始階段根據(jù)挖掘算法,定義聚類個(gè)數(shù)或相似度閾值。層次聚類算法中,調(diào)節(jié)相似度閾值可以得到對(duì)數(shù)據(jù)總體不同程度的劃分,本文采用層次聚類算法。
數(shù)據(jù)類型屬性通常由類別型變量和數(shù)值型變量組成。運(yùn)動(dòng)特征數(shù)據(jù)屬性一般表示為數(shù)值型變量。運(yùn)動(dòng)特征距離采用高斯相似度的距離函數(shù)。
調(diào)整相似度閾值,可以調(diào)整2類樣本之間的空間關(guān)系,增大或減小2類樣本的空間區(qū)分性,獲得有利于決策分析的檢測(cè)性能。
2目標(biāo)運(yùn)動(dòng)特征及預(yù)處理
大量傳感器獲取的海量目標(biāo)航跡點(diǎn)數(shù)據(jù),大數(shù)據(jù)可視化技術(shù)可以顯示目標(biāo)的軌跡,這些信息包含位置、路線、速度及屬性等維度信息。海量數(shù)據(jù)致使業(yè)務(wù)人員很難將有限的精力集中于更有意義的目標(biāo)信息。通過異常檢測(cè),從海量運(yùn)動(dòng)目標(biāo)數(shù)據(jù)中抽取出異常數(shù)據(jù),異常數(shù)據(jù)出現(xiàn)頻率較小,信息含量高。決策分析人員的注意力可以集中于異常數(shù)據(jù),從而提高目標(biāo)的監(jiān)視效率。
聚類的基礎(chǔ)是運(yùn)動(dòng)特征建模,分析數(shù)據(jù)特征并且利用這些特征建立模型是問題的關(guān)鍵。目標(biāo)運(yùn)動(dòng)特征包含運(yùn)動(dòng)狀態(tài)信息(經(jīng)緯度、高度、速度、航向)和時(shí)間信息。在限定地理區(qū)域內(nèi),目標(biāo)運(yùn)動(dòng)航速和航向相對(duì)固定。受洋流、海洋地形等因素影響,不同區(qū)域目標(biāo)航向、航速呈現(xiàn)不同規(guī)律。對(duì)目標(biāo)活動(dòng)空間區(qū)域進(jìn)行離散化處理,在柵格區(qū)域內(nèi)建立海上目標(biāo)運(yùn)動(dòng)模型,本文選取柵格區(qū)域?yàn)椋航?jīng)度×緯度=1°×1°。
目標(biāo)運(yùn)動(dòng)屬性航向和航速符合正態(tài)分布,且通常認(rèn)為正常行駛的艦船通常占數(shù)據(jù)樣本遠(yuǎn)大于異常行駛目標(biāo)。正常目標(biāo)在特定時(shí)間粒度和特定區(qū)域內(nèi)目標(biāo)的運(yùn)動(dòng)規(guī)律較為穩(wěn)定。比如,一個(gè)月時(shí)間粒度內(nèi)出現(xiàn)在區(qū)域A的目標(biāo)具有相對(duì)穩(wěn)定的運(yùn)動(dòng)特征。
聚類運(yùn)動(dòng)特征模型作為一種知識(shí)庫,評(píng)估實(shí)時(shí)采集數(shù)據(jù)。使用高斯相似度函數(shù)度量數(shù)據(jù)與先驗(yàn)知識(shí)簇的相似度,在滿足相似度閾值條件下,為數(shù)據(jù)標(biāo)記特征分類。運(yùn)動(dòng)目標(biāo)異常檢測(cè)模型如圖1所示。
3實(shí)時(shí)目標(biāo)異常檢測(cè)
目標(biāo)運(yùn)動(dòng)特征隨時(shí)間和地域的變化而變化,因此歷史數(shù)據(jù)的異常檢測(cè)得到知識(shí)庫用于評(píng)估新數(shù)據(jù)記錄時(shí),需保證歷史目標(biāo)運(yùn)動(dòng)特征模型能反映待評(píng)估數(shù)據(jù)的運(yùn)動(dòng)特征。通常狀況下,歷年同一季節(jié)同一區(qū)域的目標(biāo)運(yùn)動(dòng)特征較類似,或臨近時(shí)間段內(nèi)數(shù)據(jù)中提取的目標(biāo)運(yùn)動(dòng)特征也較可靠。
對(duì)數(shù)據(jù)樣本航向、航速為特征量進(jìn)行聚類。聚類結(jié)果如表1所示。其中,結(jié)果含10個(gè)簇,每個(gè)簇中目標(biāo)運(yùn)動(dòng)屬性以航向、航速的均值和標(biāo)準(zhǔn)偏差分布特征描述。群體[3]、[1]合計(jì)約91%。即大多數(shù)運(yùn)動(dòng)目標(biāo)符合此類運(yùn)動(dòng)特征,航向均值分別為214°、35°,標(biāo)準(zhǔn)偏差分別為14、13.5;航速均值分別為26.5、24.4,標(biāo)準(zhǔn)偏差分別為8.8、9.3。群體[6]、[8]、[2]、[4]、[9]、[7]比例小,合計(jì)約9%,且在航速、航向?qū)傩陨媳憩F(xiàn)出較大異常,群體[5]、[7]中,航速的均值和航向標(biāo)準(zhǔn)偏差遠(yuǎn)大于其他群體。此類群體信息量更大。
選取上述時(shí)間粒度臨近時(shí)間段內(nèi)數(shù)據(jù),對(duì)該樣本數(shù)據(jù)進(jìn)行評(píng)估,得到目標(biāo)活動(dòng)情況,評(píng)分結(jié)果如表2所示。每個(gè)目標(biāo)航跡點(diǎn)賦予了一種屬性標(biāo)示,為分析該目標(biāo)屬性提供參考。
目標(biāo)運(yùn)動(dòng)異常檢測(cè)結(jié)果如圖2所示。“C→”所示艦船航跡為以航向和航速特征檢測(cè)的異常結(jié)果。圖中異常軌跡明顯偏離了正常航向。
4結(jié)束語
研究了基于聚類的海上目標(biāo)異常檢測(cè)方法,根據(jù)業(yè)務(wù)背景特點(diǎn),選取適合目標(biāo)運(yùn)動(dòng)數(shù)據(jù)的聚類算法,建立異常檢測(cè)應(yīng)用模型。根據(jù)歷史數(shù)據(jù)聚類結(jié)果建立了目標(biāo)活動(dòng)特征知識(shí)庫,對(duì)實(shí)時(shí)獲取的目標(biāo)航跡和數(shù)據(jù)評(píng)估,發(fā)現(xiàn)異常目標(biāo)的異常行為,應(yīng)用模型可廣泛應(yīng)用于各類目標(biāo)異常行為檢測(cè)。
參考文獻(xiàn)
[1]顏博,張佳驥,張鵬.??者\(yùn)動(dòng)目標(biāo)數(shù)據(jù)的時(shí)序及關(guān)聯(lián)規(guī)律挖掘[J].無線電工程,2008,38(12):12-13.
[2]陳勇.一種目標(biāo)航跡數(shù)據(jù)聚類挖掘分析方法[J].無線電工程, 2015,45(3):22-24.
[3]白潔,田瑞麗,張學(xué)軍.Apriori算法在用戶特性關(guān)聯(lián)分析中的應(yīng)用[J].計(jì)算機(jī)與網(wǎng)絡(luò),2016,42(12):70-72.
[4] Dunham M H.數(shù)據(jù)挖掘教程[M].郭崇慧,田鳳占等,譯.北京:清華大學(xué)出版社,2005.
[5] Tan P N, Steinbach M, Kumar V.數(shù)據(jù)挖掘?qū)д揫M].范明,范宏建等,譯.北京:人民郵電出版社,2006.