康 旭,皮德常,田華東
(1. 南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京211106)(2.中國(guó)空間技術(shù)研究院總體設(shè)計(jì)部,北京100094)
?
一種基于角度偏離的衛(wèi)星分系統(tǒng)異常檢測(cè)方法
康 旭1,皮德常1,田華東2
(1. 南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京211106)(2.中國(guó)空間技術(shù)研究院總體設(shè)計(jì)部,北京100094)
為保證衛(wèi)星穩(wěn)定運(yùn)行,延長(zhǎng)衛(wèi)星壽命,提出一種基于角度偏離的衛(wèi)星異常檢測(cè)算法(ADMAD)。針對(duì)衛(wèi)星遙測(cè)數(shù)據(jù)構(gòu)成的高維數(shù)據(jù)空間,利用共享近鄰(SNN)算法構(gòu)建相關(guān)數(shù)據(jù)集空間,用角度代替距離,采用基于角度偏離的屬性選擇算法篩選與異常相關(guān)的屬性,使用歸一化的馬氏距離計(jì)算異常值,結(jié)合統(tǒng)計(jì)學(xué)知識(shí)計(jì)算得到異常閾值并對(duì)數(shù)據(jù)集進(jìn)行分類。采用某衛(wèi)星2014年7-9月、2015年7-9月控制和電源分系統(tǒng)的遙測(cè)數(shù)據(jù)分別進(jìn)行驗(yàn)證,試驗(yàn)結(jié)果表明,在領(lǐng)域知識(shí)匱乏的情況下,該算法的準(zhǔn)確率可以達(dá)到95%以上,算法魯棒性較高,能夠有效地實(shí)時(shí)檢測(cè)衛(wèi)星分系統(tǒng)異常。
衛(wèi)星分系統(tǒng);角度偏離;屬性選擇;異常檢測(cè)
衛(wèi)星是一種融合遙感、通信、計(jì)算機(jī)科學(xué)等多學(xué)科技術(shù)研制出來的多功能系統(tǒng),它是人類探索宇宙奧秘的首要途徑。由于太陽輻射、外太空溫差變化大等多種因素,衛(wèi)星在軌運(yùn)行期間會(huì)出現(xiàn)各種各樣的異?;蚬收蟍1-2],及時(shí)發(fā)現(xiàn)和避免這些異常和故障能夠保證衛(wèi)星運(yùn)行的可靠性和安全性,延長(zhǎng)衛(wèi)星使用壽命。因此,異常檢測(cè)在衛(wèi)星故障排查和實(shí)時(shí)健康檢測(cè)等領(lǐng)域起著重要的作用。
傳統(tǒng)的異常檢測(cè)算法是基于距離的異常檢測(cè)算法,這類算法能夠在較短的時(shí)間內(nèi)檢測(cè)出局部異常,但是隨著數(shù)據(jù)維度的增加,計(jì)算距離所消耗的成本增加,因此基于距離的異常檢測(cè)算法具有較大的局限性,不能從低維數(shù)據(jù)空間擴(kuò)展到高維數(shù)據(jù)空間。Kriegel[3]指出“在高維空間中,角度比距離更穩(wěn)定”。因此,在高維數(shù)據(jù)空間中可以用角度代替距離。Kriegel等[4]在2008年KDD國(guó)際會(huì)議上提出了一種基于角度的異常檢測(cè)算法(Angle-based outlier detection,ABOD),該算法通過計(jì)算數(shù)據(jù)記錄的角度方差來衡量其是否發(fā)生異常。然而,由于該算法需要掃描全局?jǐn)?shù)據(jù)記錄,故算法復(fù)雜度為O(dn3),效率很低。為解決復(fù)雜度高的問題,Pham和Pagh[5]提出了一種接近線性時(shí)間復(fù)雜度的角度異常檢測(cè)算法,該算法的時(shí)間復(fù)雜度為O(nlogn(d+logn))。隨后,Ye等[6]提出了一種增量式的基于角度的異常檢測(cè)算法,算法時(shí)間復(fù)雜度為O((ylogk+mlogk)·n+(x+y)·(mr+mk+k2+kr)+mkr+mk2),縮短了計(jì)算時(shí)間,提高了效率。這兩種算法雖然效率較高,但仍然沒有達(dá)到衛(wèi)星異常檢測(cè)實(shí)時(shí)性要求。
已有的衛(wèi)星異常檢測(cè)方法大多需要借鑒相關(guān)的領(lǐng)域知識(shí),而本文在上述研究的基礎(chǔ)上,提出了一種無領(lǐng)域知識(shí)的基于角度偏離的衛(wèi)星分系統(tǒng)異常檢測(cè)算法(Anomaly detection method based on angle deviation,ADMAD),該算法采用滑動(dòng)窗口技術(shù)和共享近鄰算法構(gòu)建相關(guān)數(shù)據(jù)集空間,縮小了搜索空間,大大縮短了計(jì)算時(shí)間,同時(shí)使用一種基于角度偏離的方法來選擇特征屬性及構(gòu)建特征屬性空間。在領(lǐng)域知識(shí)匱乏的情況下,通過計(jì)算異常值,避免了某些與異常不相關(guān)的屬性對(duì)異常檢測(cè)結(jié)果的影響。
由于衛(wèi)星的異常通常為突發(fā)情況,判斷遙測(cè)數(shù)據(jù)是否發(fā)生異常,與該遙測(cè)數(shù)據(jù)前某一時(shí)間段之內(nèi)的遙測(cè)數(shù)據(jù)有關(guān)[7],而與其時(shí)間點(diǎn)相差較遠(yuǎn)的遙測(cè)數(shù)據(jù)無關(guān)。因此,本文引入了滑動(dòng)窗口機(jī)制,通過滑動(dòng)窗口提取某條遙測(cè)數(shù)據(jù)之前一段時(shí)間的遙測(cè)數(shù)據(jù)作為該條遙測(cè)數(shù)據(jù)的異常分析子數(shù)據(jù)集,在子數(shù)據(jù)集中計(jì)算該條遙測(cè)數(shù)據(jù)的異常值,縮小了異常分析的數(shù)據(jù)量,大大提高了算法效率,對(duì)衛(wèi)星實(shí)時(shí)異常檢測(cè)具有重要的意義。
當(dāng)滑動(dòng)窗口較大時(shí),算法的搜索空間依然很大,達(dá)不到減小搜索空間,提高算法效率的目的。故可以通過K近鄰算法[8]在滑動(dòng)窗口內(nèi)提取數(shù)據(jù)記錄的近鄰數(shù)據(jù)記錄空間,在此空間中執(zhí)行異常檢測(cè)算法。然而,在高維數(shù)據(jù)空間中,距離和鄰域的概念失去了原始意義,因此,本文采用了一種在高維數(shù)據(jù)空間普遍采用的替代算法,共享最近鄰(Shared nearest neighbors, SNN)算法。
SNN算法最早是由Jarvis和Patrick[9]提出。如果兩個(gè)數(shù)據(jù)對(duì)象越相似,則它們共享的最近鄰個(gè)數(shù)越多。計(jì)算兩條數(shù)據(jù)記錄的共享近鄰相似度即統(tǒng)計(jì)這兩條數(shù)據(jù)記錄的共享近鄰個(gè)數(shù)。假設(shè)原始數(shù)據(jù)空間為D?d,滑動(dòng)窗口為W?d,在空間W中任意一點(diǎn)p,點(diǎn)p的K近鄰數(shù)據(jù)集為Nk(p),空間W中另一點(diǎn)q的K近鄰數(shù)據(jù)集為Nk(q),則SNN相似度為:
(1)
式中:f(·)函數(shù)用于統(tǒng)計(jì)數(shù)據(jù)集Nk(p)和Nk(q)中相同元素的個(gè)數(shù)。
基于SNN算法的基本思想,本文可以選擇點(diǎn)p的SNN相似度最大的s個(gè)數(shù)據(jù)記錄構(gòu)成其最近鄰子空間即為相關(guān)數(shù)據(jù)集空間,記作R(p),其中s≤k。
所謂異常,即某一個(gè)數(shù)據(jù)記錄不同于其他數(shù)據(jù)記錄,如圖1(a)所示。針對(duì)選擇特征參數(shù)的重要性,本文提出一種基于角度偏離的屬性選擇算法。如圖1(b)所示,數(shù)據(jù)記錄p的最近鄰子空間的中心為q(用黑色三角形表示),線段l是p與q的連線,這里用這條線段表示數(shù)據(jù)記錄p與其最近鄰子空間的偏離程度,該線段分別與x軸方向和y軸方向形成兩個(gè)夾角α和β,α小于β。顯然,與線段l有較小偏離角度的坐標(biāo)軸方向上出現(xiàn)了異常,而與線段l有較大偏離角度的坐標(biāo)軸方向上沒有出現(xiàn)異常。正如圖1(b)所示,使用基于角度偏離的屬性選擇算法,x軸對(duì)應(yīng)的屬性會(huì)被作為特征屬性保留下來。
圖1 相關(guān)數(shù)據(jù)集空間映射Fig.1 Mapping of reference point sets
2.1 計(jì)算角度偏差余弦值的平均值
令μd(j),j∈N,表示在d維空間中與第j維屬性方向平行的單位向量。向量Vp是數(shù)據(jù)記錄p的表示向量,Vq是數(shù)據(jù)記錄p的最近鄰空間的中點(diǎn)q的表示向量,向量Vq可以用數(shù)據(jù)記錄p的最近鄰空間中所有點(diǎn)的表示向量的均值來代替。則數(shù)據(jù)記錄p與q之間的連線l的表示向量為l=Vp-Vq,記為l=[l1,l2,…,ld]T,則直線l與每一維屬性方向平行線之間的夾角余弦值為:
(2)
如果有多個(gè)屬性與異常相關(guān)且第j個(gè)屬性是與異常相關(guān)的屬性,在計(jì)算數(shù)據(jù)記錄p與第j維向量夾角的余弦絕對(duì)值時(shí),由于其他與異常相關(guān)屬性的影響使得夾角的余弦值偏小,不能將屬性j正確提取出來。因此,為降低其他與異常相關(guān)屬性對(duì)屬性j的影響,將計(jì)算數(shù)據(jù)記錄p與第j維向量夾角的余弦絕對(duì)值的過程分解為在所有包含j的二維空間中,計(jì)算數(shù)據(jù)記錄p與第j維向量夾角的余弦絕對(duì)值的平均值,計(jì)算式如下:
(3)
式中:d表示向量空間維度,j-表示不同于j的屬性,所有包含j的二維空間的個(gè)數(shù)為d-1。
式(3)中,當(dāng)屬性j和j-均為與異常無關(guān)的屬性時(shí),則lj與lj-的數(shù)值可能均為0,此時(shí)式(3)的分母為0,無意義。因此,為了消除分母為0的影響,本文將連線l中等于0的分量用一個(gè)極小的常數(shù)ε=10-5來代替。
(4)
則,式(4)轉(zhuǎn)變?yōu)椋?/p>
(5)
A(l,μd(j))值越大,屬性j與異常相關(guān)程度越大,屬性j應(yīng)該被保留;否則,A(l,μd(j))值越小,屬性j與異常相關(guān)程度越小,屬性j應(yīng)該被舍棄。
2.2 確定篩選閾值
角度偏差余弦值的平均值A(chǔ)在高維空間中是一種相對(duì)魯棒性的度量標(biāo)準(zhǔn),故本文設(shè)置一個(gè)閾值來篩選特征屬性,閾值的計(jì)算式為:
(6)
(7)
對(duì)于某一數(shù)據(jù)記錄i,在任意屬性j上的A值均小于閾值T,這說明數(shù)據(jù)記錄i在任何屬性維度上都不明顯偏離其最近鄰子空間。因此,可以判定數(shù)據(jù)記錄i不是異常數(shù)據(jù)記錄。故本文定義對(duì)于所有屬性j∈N都有Hi(j)=0的數(shù)據(jù)記錄的異常檢測(cè)值為0。
在馬氏距離的基礎(chǔ)上,為適應(yīng)衛(wèi)星遙測(cè)數(shù)據(jù)的特點(diǎn),本文采用歸一化的馬氏距離來計(jì)算異??梢牲c(diǎn)偏離其最近鄰子空間的程度即異常檢測(cè)值,計(jì)算數(shù)據(jù)記錄i在d維數(shù)據(jù)空間的異常檢測(cè)值S(i),計(jì)算式如下:
S(i)=
(8)
統(tǒng)計(jì)分析發(fā)現(xiàn)S滿足自由度為d-1的χ2分布,因此本文選擇S所形成的χ2分布上概率為α的對(duì)應(yīng)值作為異常檢測(cè)值的閾值,α取99.9%。同時(shí),也可以使用一個(gè)簡(jiǎn)單的分類器對(duì)S進(jìn)行分類,將S值較高的數(shù)據(jù)記錄分為異常數(shù)據(jù)記錄,而S值較低的數(shù)據(jù)記錄分為正常數(shù)據(jù)記錄。
實(shí)驗(yàn)數(shù)據(jù)是某衛(wèi)星控制和電源分系統(tǒng)2014年7月1日-2014年9月30日和2015年7月1日-2015年9月30日的遙測(cè)數(shù)據(jù),共包含76個(gè)遙測(cè)參數(shù),約1600萬條記錄。本實(shí)驗(yàn)包含4個(gè)階段,分別為:數(shù)據(jù)預(yù)處理、采用SNN算法構(gòu)建每個(gè)數(shù)據(jù)記錄的相關(guān)數(shù)據(jù)集空間、篩選每個(gè)數(shù)據(jù)記錄的特征屬性、使用歸一化的馬氏距離計(jì)算異常檢測(cè)值并進(jìn)行異常檢測(cè),具體的操作流程如圖2所示。
圖2 基于角度偏離的異常檢測(cè)模型框架Fig.2 Frame of anomaly detection model based on angle deviation
圖3 周期分析Fig.3 Analysis of period
4.1 數(shù)據(jù)預(yù)處理
使用一維連續(xù)小波對(duì)存在野值的數(shù)據(jù)進(jìn)行去噪,去除原始遙測(cè)數(shù)據(jù)中的噪聲數(shù)據(jù),小波函數(shù)選擇db5,小波尺度為8。為方便進(jìn)行異常檢測(cè),將包含76個(gè)屬性的遙測(cè)數(shù)據(jù),以1min為單位壓縮成132480條均值數(shù)據(jù)。最后,對(duì)均值數(shù)據(jù)進(jìn)行歸一化處理。
結(jié)合衛(wèi)星遙測(cè)數(shù)據(jù)的特點(diǎn),本文將滑動(dòng)窗口的大小設(shè)置為遙測(cè)數(shù)據(jù)的周期。采用小波方差法來獲取數(shù)據(jù)周期,小波方差最高值對(duì)應(yīng)的時(shí)間即為周期。根據(jù)領(lǐng)域?qū)<医ㄗh,對(duì)篩選出的部分屬性進(jìn)行了周期分析,圖3是1025、14417兩個(gè)屬性的小波方差圖。從圖3可以看出,兩個(gè)屬性的周期集中在1440左右,因此,本文將滑動(dòng)窗口大小設(shè)置為1440。
4.2 實(shí)驗(yàn)分析
本文通過實(shí)驗(yàn)分別對(duì)兩個(gè)時(shí)間段內(nèi)的異常檢測(cè)算法參數(shù)k和s的取值進(jìn)行討論。參數(shù)討論使用的評(píng)價(jià)指標(biāo)為準(zhǔn)確度、精確度、召回率、漏報(bào)率、誤報(bào)率和F-score。
針對(duì)2014年7月-9月和2015年7月-9月的遙測(cè)數(shù)據(jù),k值分別取500、750、1000、1250,s值均取200時(shí),分別采用計(jì)算異常閾值和無監(jiān)督分類器來進(jìn)行異常檢測(cè),結(jié)果如表1、2和圖4所示。
對(duì)于2014年7-9月的遙測(cè)數(shù)據(jù),隨著k值的減小,檢測(cè)準(zhǔn)確度和精確度也隨之提高,召回率稍有下降,誤報(bào)率隨之降低,F(xiàn)-score相應(yīng)升高。通過分析表1,當(dāng)k=500時(shí),準(zhǔn)確度、精確度和F-score達(dá)到最高,誤報(bào)率達(dá)到最低,異常檢測(cè)效果最好。
通過分析表2,對(duì)于2015年7-9月的遙測(cè)數(shù)據(jù)也表現(xiàn)出了類似結(jié)果,然而稍有不同的是,當(dāng)k=750時(shí),檢測(cè)準(zhǔn)確度、精確度和F-score達(dá)到最高,誤報(bào)率達(dá)到最低,異常檢測(cè)效果最好,此時(shí)再減小k值,異常檢測(cè)效果并沒有提升。
圖4(a)為異常檢測(cè)受試者工作特征曲線(Receiver operating characteristic curve,ROC),圖4(b)為精確度—召回率曲線(Preclsion recall curve,PRC)。從圖4(a)可以看出,不同的k值,分類器的分類效果都不錯(cuò),從圖4(b)可以看出,不同的k值,其PRC曲線稍有不同。當(dāng)k=500時(shí),ROC曲線下方覆蓋的面積最大,同時(shí)其PRC曲線下方覆蓋的面積也最大,異常檢測(cè)效果最好;隨著k的增大,ROC曲線下方的面積隨之減小。因此,綜合分析閾值判別和分類器分類兩種方法,本文選擇k=500作為2014年7-9月異常檢測(cè)算法參數(shù)。2015年7-9月異常檢測(cè)ROC和PRC曲線與2014年結(jié)果相似。
表1 不同k值異常閾值檢測(cè)結(jié)果(2014年)Table 1 Results based on threshold with different k values (2014)
表2 不同k值異常閾值檢測(cè)結(jié)果(2015年)Table 2 Results based on threshold with different k values (2015)
在構(gòu)建相關(guān)數(shù)據(jù)集空間階段,本文首先使用K近鄰算法篩選K近鄰數(shù)據(jù)集,其中k針對(duì)兩年的數(shù)據(jù)分別取500和750,然后采用SNN算法構(gòu)建共享最近鄰子空間,s分別取50、100、150、200、250,分別采用計(jì)算異常閾值和分類器進(jìn)行異常檢測(cè),結(jié)果如表3~4和圖5所示。
對(duì)于2014年7-9月的衛(wèi)星遙測(cè)數(shù)據(jù),隨著s的增大,檢測(cè)準(zhǔn)確度和精確度也隨之提高,召回率稍有下降,誤報(bào)率隨之降低,F(xiàn)-score相應(yīng)升高。通過分析表3,當(dāng)s=250時(shí),準(zhǔn)確度、精確度和F-score達(dá)到最高,誤報(bào)率達(dá)到最低,異常檢測(cè)效果最好。
通過分析表4,對(duì)于2015年7-9月的衛(wèi)星遙測(cè)數(shù)據(jù)也表現(xiàn)出了類似的結(jié)果,當(dāng)s=250時(shí),檢測(cè)準(zhǔn)確度、精確度和F-score達(dá)到最高,誤報(bào)率達(dá)到最低,異常檢測(cè)效果最好。
從圖5(a)可以看出,不同的s值,分類器得到的ROC曲線差別不大。然而,從圖5(b)可以看出,當(dāng)k=500,s=50時(shí),PRC曲線明顯低于其他曲線,分類器效果最差。隨著s的增大,ROC曲線下方的面積隨之增大。當(dāng)s=250時(shí),ROC曲線下方覆蓋的面積最大,同時(shí)其PRC曲線下方覆蓋的面積也最大,異常檢測(cè)效果最好。綜合分析,本文選擇s=250作為2014年7-9月異常檢測(cè)算法參數(shù)。
圖4 不同k值分類器分類結(jié)果(2014年)Fig.4 Classification results with different k values (2014)
s值50100150200250準(zhǔn)確度96.89%97.37%97.51%97.58%97.6%精確度96.94%97.44%97.58%97.67%97.7%召回率99.11%98.58%98.44%98.35%98.32%漏報(bào)率8.44%7.3%6.81%7.69%7.95%誤報(bào)率3.06%2.56%2.42%2.33%2.3%F?score0.980130.980070.980080.980090.98009
表4 不同s值異常閾值檢測(cè)結(jié)果(2015年)Table 4 Results based on threshold with different s values (2015)
圖5 不同s值分類器分類結(jié)果(2014年)Fig.5 Classification results with different s values (2014)
為對(duì)比本文提出的特征屬性篩選算法的優(yōu)越性,分別采用領(lǐng)域?qū)<液Y選的特征屬性以及采用灰關(guān)聯(lián)分析選擇的屬性,與本文提出的基于角度偏離的特征屬性選擇算法進(jìn)行對(duì)比?;谊P(guān)聯(lián)屬性選擇算法的基本思想是,計(jì)算不同屬性之間的灰關(guān)聯(lián)度,將灰關(guān)聯(lián)度最小的兩個(gè)屬性放入被選擇屬性集合,計(jì)算剩余的屬性與被選擇屬性集合中屬性之間的灰關(guān)聯(lián)度之和,將和最小的屬性放入被選擇屬性集合;重復(fù)上述步驟,直到剩余的屬性之間的灰關(guān)聯(lián)度大于0.8。該方法將原始的76個(gè)屬性經(jīng)過上述方法降維得到以下22個(gè)屬性,表5中的每一項(xiàng)是每一類屬性的一個(gè)代表。表6為領(lǐng)域?qū)<液Y選出的特征屬性。
對(duì)比表5、表6發(fā)現(xiàn),灰關(guān)聯(lián)屬性選擇算法篩選的屬性與專家篩選的屬性有部分重復(fù),這說明灰關(guān)聯(lián)屬性選擇算法有一定的可行性,但是篩選屬性的數(shù)量大約占原始屬性的四分之一,由此看出該算法效果一般,仍然保留了許多與異常無關(guān)的冗余屬性。
表5 灰關(guān)聯(lián)選擇屬性算法篩選的屬性Table 5 Attribute selected by grey relational analysis
表6 領(lǐng)域?qū)<液Y選的屬性Table 6 Attribute selected by experts
從表7~8可以看出,在進(jìn)行異常檢測(cè)時(shí),由于篩選的屬性個(gè)數(shù)過多,維度高,算法運(yùn)行時(shí)間較長(zhǎng),效率低;本文提出的基于角度偏離的屬性選擇算法的運(yùn)行時(shí)間多于領(lǐng)域?qū)<覍傩赃x擇算法,這是因?yàn)轭I(lǐng)域?qū)<医o出的屬性屬于其工作領(lǐng)域的先驗(yàn)知識(shí),是工作經(jīng)驗(yàn)的積累,不需要消耗計(jì)算機(jī)的運(yùn)行時(shí)間。
表7 使用三種屬性選擇算法的異常檢測(cè)算法的運(yùn)行時(shí)間對(duì)比(2014年)Table 7 Comparison of runtime among three attribute selection methods (2014)
表8 使用三種屬性選擇算法的異常檢測(cè)算法的運(yùn)行時(shí)間對(duì)比(2015年)Table 8 Comparison of runtime among three attribute selection methods (2015)
通過分析表9~10,對(duì)于相同的數(shù)據(jù)集,本文提出的基于角度偏離的特征屬性選擇方法效果最好,具有最高的準(zhǔn)確度、精確度、召回率和F-score,同時(shí),其漏報(bào)率和誤報(bào)率最低,異常檢測(cè)效果最好?;谊P(guān)聯(lián)屬性選擇算法和領(lǐng)域?qū)<疫x擇屬性效果略差于本文提出的屬性選擇算法。雖然,本文提出的屬性選擇算法消耗了一定的運(yùn)行時(shí)間,但是異常檢測(cè)效果要優(yōu)于其他兩種算法,更為重要的是,不需要先驗(yàn)知識(shí)。
從圖6(a)可以看出,本文提出的基于角度偏離的屬性選擇算法的ROC曲線明顯高于領(lǐng)域?qū)<疫x擇屬性的ROC曲線,雖然灰關(guān)聯(lián)屬性選擇算法的ROC曲線與基于角度偏差的屬性選擇算法的ROC曲線相差不大,但是從圖6(b)可以看出,基于角度偏離的屬性選擇算法的PRC曲線明顯高于灰關(guān)聯(lián)選擇屬性算法的PRC曲線。因此,綜合分析:雖然基于角度偏離的屬性選擇算法會(huì)消耗一定的運(yùn)行時(shí)間,但是在提高檢測(cè)效果的前提下,必要的消耗是值得的。
表9 不同屬性選擇算法異常閾值檢測(cè)結(jié)果(2014年)Table 9 Results based on threshold with three attribute selection methods (2014)
表10 不同屬性選擇算法異常閾值檢測(cè)結(jié)果(2015年)Table 10 Results based on threshold with three attribute selection methods (2015)
圖6 不同屬性選擇算法分類器分類結(jié)果(2014年)Fig.6 Classification results with three attribute selection methods (2014)
為驗(yàn)證本文提出算法的可靠性,將本文提出的算法(ADMAD)與同領(lǐng)域相關(guān)學(xué)者,如Zhang等[10]提出的基于角度的高維數(shù)據(jù)子空間異常檢測(cè)算法(ABSAD)、Sarah等[11]提出的基于深度信念網(wǎng)絡(luò)的無監(jiān)督高維異常檢測(cè)算法(Deep belief network,DBN)、傳統(tǒng)的基于主成分分析的異常檢測(cè)算法(Principal component analysis,PCA)和改進(jìn)的基于角度方差的異常檢測(cè)算法(Fast angle-based outlier detection,fastABOD)進(jìn)行對(duì)比,對(duì)比結(jié)果如圖7和表11~12所示。從圖7可以看出,本文提出的ADMAD算法在兩個(gè)數(shù)據(jù)集上都具有較高的準(zhǔn)確率,在處理異常數(shù)據(jù)與正常數(shù)據(jù)不平衡問題時(shí)性能穩(wěn)定,而ABSAD算法在兩個(gè)數(shù)據(jù)集上得到的結(jié)果差別較大,說明該算法性能不穩(wěn)定、魯棒性較差。DBN算法和PCA算法在處理異常數(shù)據(jù)與正常數(shù)據(jù)不平衡問題時(shí),異常檢測(cè)的效果不好,從PRC曲線看出,這兩種方法的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果偏離較大。
fastABOD算法的檢測(cè)準(zhǔn)確率最低,從ROC曲線和PRC曲線均可看出,fastABOD算法得到的曲線所包圍的面積最小,異常檢測(cè)效果最差。
表11 不同異常檢測(cè)算法的運(yùn)行時(shí)間對(duì)比(2014年)Table 11 Comparison of runtime among different anomaly detection methods (2014)
表12 不同異常檢測(cè)算法的運(yùn)行時(shí)間對(duì)比(2015年)Table 12 Comparison of runtime among different anomaly detection methods (2015)
圖7 不同異常檢測(cè)算法結(jié)果對(duì)比(2014年)Fig.7 Comparison among different anomaly detection methods (2014)
由表11~12可知,fastABOD算法的運(yùn)行時(shí)間最長(zhǎng),其次是ABSAD算法,DBN算法的運(yùn)行時(shí)間略長(zhǎng)于ADMAD算法,PCA算法的運(yùn)行時(shí)間最短。雖然PCA算法的運(yùn)行時(shí)間最短,但是對(duì)于衛(wèi)星較常出現(xiàn)的局部異常該算法并不適用。DBN在構(gòu)建深度信念網(wǎng)絡(luò)結(jié)構(gòu)時(shí)消耗的學(xué)習(xí)時(shí)間較長(zhǎng)。fastABOD算法時(shí)間復(fù)雜度為O(dn2+dnk2),ABSAD算法時(shí)間復(fù)雜度為O(n2·max(d,k)),這兩種算法復(fù)雜度過高,在數(shù)據(jù)量較大時(shí)難以做到實(shí)時(shí)檢測(cè)。本文提出的算法時(shí)間復(fù)雜度為O(n(m·max(k,d)+k)),大大降低了算法運(yùn)行時(shí)間,提高了算法效率,能夠滿足衛(wèi)星異常實(shí)時(shí)檢測(cè)的需要。
針對(duì)衛(wèi)星遙測(cè)數(shù)據(jù)量大,維度高,異常數(shù)據(jù)難以發(fā)現(xiàn)的問題,提出一種基于角度偏差的異常檢測(cè)算法。采用角度替換距離的思想,將基于距離度量的異常檢測(cè)算法修改為基于角度度量的異常檢測(cè)算法。同時(shí),引入滑動(dòng)窗口機(jī)制,縮小了搜索空間,降低了算法運(yùn)行時(shí)間;采用共享近鄰算法進(jìn)一步縮小搜索空間,使用基于角度偏離的屬性選擇算法篩選特征屬性,并結(jié)合歸一化的馬氏距離計(jì)算數(shù)據(jù)記錄的異常值。在不需要領(lǐng)域知識(shí)的前提下,該方法通過統(tǒng)計(jì)學(xué)知識(shí)計(jì)算異常閾值判斷數(shù)據(jù)記錄是否為異常數(shù)據(jù)記錄,異常檢測(cè)的準(zhǔn)確度較高,其檢測(cè)結(jié)果得到了領(lǐng)域?qū)<业恼J(rèn)可,同時(shí),本文提出的算法可以推廣到其他衛(wèi)星或航天器的異常檢測(cè)中。因此,在領(lǐng)域?qū)<抑R(shí)匱乏的情況下,本文提出算法能夠滿足衛(wèi)星健康監(jiān)測(cè)的異常檢測(cè)需要。
[1] 顧勝, 魏蛟龍, 皮德常. 一種粒子群模糊支持向量機(jī)的航天器參量預(yù)測(cè)方法[J]. 宇航學(xué)報(bào), 2014, 35(11): 1270-1276. [Gu Sheng, Wei Jiao-long, Pi De-chang. Particle swarm optimization-fuzzy support vector machine based prediction of spacecraft parameters[J]. Journal of Astronautics, 2014, 35(11):1270-1276.]
[2] 代成龍, 皮德常, 方針,等. 半球諧振陀螺儀壽命的一種長(zhǎng)周期預(yù)測(cè)方法[J]. 宇航學(xué)報(bào), 2015, 36(1): 109-116. [Dai Cheng-long, Pi De-chang, Fang Zhen, et al. A long-term lifetime prediction method for hemispherical resonator gyroscope[J]. Journal of Astronautics, 2015, 36(1):109-116.]
[3] Krogel P. Outlier detection techniques[C]. The 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Washington, DC, USA, July 25-28, 2010.
[4] Kriegel H P, S Hubert M, Zimek A. Angle-based outlier detection in high-dimensional data[C]. The 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Las Vegas, Nevada, USA, August 24-27, 2008.
[5] Pham N, Pagh R. A near-linear time approximation algorithm for angle-based outlier detection in high-dimensional data[C]. The 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Beijing, China, August 12-16, 2012.
[6] Ye H, Kitagawa H, Xiao J. Continuous angle-based outlier detection on high-dimensional data streams[C]. The 19th International Database Engineering & Applications Symposium, Yokohoma, Japan, July 13-15, 2015.
[7] Cover T M, Hart P E. Nearest neighbor pattern classification [J]. IEEE Transactions on Information Theory, 1967, 13(1): 21-27.
[8] Keller J M, Gray M R, Givens J A. A fuzzy K-nearest neighbor algorithm[J]. IEEE Transactions on Systems Man & Cybernetics, 1985, SMC-15(4):580-585.
[9] Jarvis R A, Patrick E A. Clustering using a similarity measure based on shared near neighbors[J]. Computers IEEE Transactions on, 1973, C-22(11): 1025-1034.
[10] Zhang L, Lin J, Karim R. An angle-based subspace anomaly detection approach to high-dimensional data: with an application to industrial fault detection[J]. Reliability Engineering & System Safety, 2015, 142(10): 482-497.
[11] Erfani S M, Rajasegarar S, Karunasekera S, et al. High-dimensional and large-scale anomaly detection using a linear one-class SVM with deep learning[J]. Pattern Recognition, 2016, 58(10): 121-134.
通信地址:江蘇省南京市江寧區(qū)將軍大道29號(hào)南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院(211106)
E-mail:kx2014vip@163.com
皮德常(1971-),男,博士,教授,主要從事數(shù)據(jù)挖掘、大數(shù)據(jù)處理方向研究。本文通信作者。
通信地址:江蘇省南京市江寧區(qū)將軍大道29號(hào)南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院(211106)
E-mail:dc.pi@nuaa.edu.cn
An Anomaly Detection Method Based on Angle Deviation for Satellite Subsystem
KANG Xu1, PI De-chang1, TIAN Hua-dong2
(1. College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;2. System Design Department of China Academy of Space Technology, Beijing 100094, China)
In order to ensure the stable operation of a satellite and prolong its life, an anomaly detection method based on angle deviation(ADMAD) is proposed. In the high-dimensional data space of the satellite telemetry data, the method applies the shared nearest neighbors (SNN) algorithm to construct the reference point sets. Then the method selects the feature attributes associated with the anomaly by applying a method based on angle deviation using angle replacing distance.Finally, the normalized Mahalanobis distance is used to calculate the anomaly scores of points. Combining with the statistical knowledge, the threshold based on the anomaly scores is obtained, and the data sets are classified. We verified the proposed method using the telemetry data in control and power subsystem of a satellite in July to September, 2014 and July to September, 2015 respectively. The experimental results indicate that the accuracy of the proposed algorithm could reach more than 95% under the condition of lack of the field knowledge.The robustness of the proposed algorithm is higher. Simultaneously, it can detect the anomaly of satellite subsystem timely and effectively.
Satellite subsystem; Angle deviation; Attribute selection; Anomaly detection
2017-01-05;
2017-04-23
國(guó)家自然科學(xué)基金(U1433116);研究生創(chuàng)新基金(實(shí)驗(yàn)室)開放基金(Kfjj20161604)
V241.5+54
A
1000-1328(2017)06-0638-09
10.3873/j.issn.1000-1328.2017.06.011
康 旭(1993-),女,博士生,主要從事數(shù)據(jù)挖掘方向研究。