呂少嵐,王華偉,侯召國,陳凌子
(南京航空航天大學(xué) 民航學(xué)院,江蘇 南京 210016)
無人機(Unmaned Aerial Vehicle,UAV)近年來得到發(fā)展,有望為社會創(chuàng)造巨大的利益。但由于無人機的安全性和可靠性問題,其在社會中尚未被廣泛使用。當(dāng)無人機運行異常時,在影響其自身安全的同時,更大地影響的是公共安全,甚至干擾整個低空空域的管理。無人機的異常一般是指無人機失控、失聯(lián),一方面來自于無人機自身硬件故障或外部環(huán)境的干擾,此類異??梢酝ㄟ^更換無人機組件解決;另外一方面,包括對無人機通信網(wǎng)絡(luò)的攻擊、全球定位系統(tǒng)(Global Positioning System,GPS)欺騙、GPS干擾等。一旦無人機受到入侵,將失去控制,導(dǎo)致無法在空中穩(wěn)定機身,造成安全事故[1-4]。因此,如何快速且準確地識別無人機的異常狀態(tài),成為提高無人機運行安全性的一項關(guān)鍵課題。
無人機系統(tǒng)健康監(jiān)控可視為對無人機的異常檢測。在工程應(yīng)用上,無人機異常檢測是當(dāng)前工程領(lǐng)域的主要研究內(nèi)容。例如,F(xiàn)eng等人[5]使用GA-XGBoost進行高效的無人機劫持檢測,Iannace等人[6]利用人工神經(jīng)網(wǎng)絡(luò)診斷無人機故障。在理論研究上,如何判定異常是重要研究內(nèi)容,異常是與正常實例具有不同數(shù)據(jù)分布的數(shù)據(jù)模式,可能與運行中的故障或漂移有關(guān)。
針對異常檢測,在統(tǒng)計學(xué)上對異常的定義是離群值,即與其他觀測值距離很遠的觀測值[7],其應(yīng)用跨越多個領(lǐng)域[8-9]。在航空航天領(lǐng)域,異常檢測方法大致分為5類:基于聚類的異常檢測[10-11]、基于分類的異常檢測[12]、基于光譜的異常檢測[13]、基于模型的異常檢測[14-15]和基于統(tǒng)計的異常檢測方法[16]。上述方法在很大程度上依賴于明確定義的特征和先驗監(jiān)督知識,并且其中大多數(shù)技術(shù)是從已知條件中衍生出的[17]。
本文提出的無人機異常檢測方法根據(jù)無人機飛行數(shù)據(jù)的分布特點,圍繞無人機安全4要素動力系統(tǒng)、主控制器、通信鏈路模塊和傳感器,通過機器學(xué)習(xí)技術(shù),建立基于無人機4要素的安全飛行狀態(tài)模型,實現(xiàn)無人機系統(tǒng)異常檢測,能夠?qū)o人機攻擊行為及時發(fā)現(xiàn)、預(yù)警,阻止無人機違背指令的飛行,能夠有效保護無人機運行安全。本文解決方法包括以下幾個方面:
① 無人機飛行數(shù)據(jù)的特征屬性值選擇;
② 對無人機飛行數(shù)據(jù)特征屬性值進行數(shù)字化處理,形成規(guī)格化的無人機飛行數(shù)據(jù)集;
③ 分析無人機飛行數(shù)據(jù)集特征維度分布,基于訓(xùn)練樣例,建立無監(jiān)督機器學(xué)習(xí)模型;
④ 通過集成孤立森林的無人機無監(jiān)督異常檢測算法,分析檢測出無人機異常飛行狀態(tài),為無人機健康監(jiān)控研究提供一種新的技術(shù)和手段。
本文選取了不同類型的無人機數(shù)據(jù)集,分別是加拿大安大略理工大學(xué)的無人機攻擊(UAV Attack,UA)數(shù)據(jù)集[18]和卡內(nèi)基梅隆大學(xué)機器人研究所的AirLab故障和異常(ALFA)數(shù)據(jù)集[19]。UA數(shù)據(jù)集由4軸飛行器的原始飛行日志和對無人機系統(tǒng)的網(wǎng)絡(luò)攻擊引起的異常組成,數(shù)據(jù)沒有任何矯正措施并且包含模擬飛行環(huán)境的飛行數(shù)據(jù),數(shù)據(jù)集中的飛行日志分為3類:安全飛行、GPS干擾攻擊下的飛行和GPS欺騙攻擊下的飛行。ALFA數(shù)據(jù)集為運行在真實飛行環(huán)境下的固定翼無人機的原始飛行日志,包含23個引擎故障場景和24個其他7種控制組件故障場景,可以大致分為5類:安全飛行、發(fā)動機異常、方向舵異常、升降舵異常和副翼異常,并且實施一定程度的飛行異常矯正措施。
為了避免維度災(zāi)難并降低無人機異常檢測的時間成本,需要從無人機數(shù)據(jù)中提取最適合的、有關(guān)聯(lián)的、有意義的特征屬性信息,利用篩選出的特征屬性對模型進行訓(xùn)練,對于被選取的特征需要滿足以下3個條件:
① 關(guān)聯(lián)性:選取的特征要與無人機組件是否處于異常狀態(tài)密切相關(guān),因為算法檢測出的“異?!睌?shù)據(jù)不一定是該場景下真正的異常,所以需要保證所選取的特征能體現(xiàn)出不同于安全狀態(tài)的各類異常飛行狀態(tài)模式。
② 穩(wěn)定性:考慮到通信鏈路與傳感器設(shè)備本身的不可靠性以及在惡劣的天氣下導(dǎo)致的信號不穩(wěn)定,這些不確定元素都將致使無法有效獲取無人機傳感器數(shù)據(jù),而這些數(shù)據(jù)的丟失會對模型的建立與異常檢測造成障礙,選取無數(shù)據(jù)丟失的特征,對于缺少個別數(shù)據(jù)的特征,用拉格朗日插值法對數(shù)據(jù)進行補全。
③ 數(shù)據(jù)量:考慮到特征之間相互獨立,無法先驗得知異常數(shù)據(jù),算法需要足夠的數(shù)據(jù)來構(gòu)建一片森林算法。該森林算法能夠識別可能的異常數(shù)據(jù),需要選擇數(shù)據(jù)量大的信息作為特征。
根據(jù)選擇特征的3項條件,實驗對UA數(shù)據(jù)集和ALFA數(shù)據(jù)集里的眾多特征屬性分別進行了篩選,利用篩選出的特征屬性對模型進行訓(xùn)練,從UA數(shù)據(jù)集中提取的特征屬性如表1所示,從ALFA數(shù)據(jù)集中提取的特征屬性如表2所示。
表1 從UA數(shù)據(jù)集中提取的特征屬性Tab.1 Characteristic attributes extracted from UAV attack dataset
表2 從ALFA數(shù)據(jù)集中提取的特征屬性Tab.2 Characteristic attributes extracted from a dataset for ALFA dataset
由于數(shù)據(jù)集中原始飛行數(shù)據(jù)時間尺度不一致,存在非數(shù)字化數(shù)據(jù),需要提前對原始飛行數(shù)據(jù)進行規(guī)格化處理。
1.2.1 時間度量統(tǒng)一規(guī)則
由于傳感器數(shù)據(jù)相互獨立,導(dǎo)致各類特征在不同時段被分別記錄,造成難以描述無人機在特定時間段內(nèi)的狀態(tài),圖1簡單描述了多類特征分布狀態(tài),在相同的時間跨度上,3個特征個數(shù)分別是8,2和4,造成飛行日志不能直接轉(zhuǎn)換為特征向量作為輸入。
圖1 多類特征的數(shù)據(jù)時間排布Fig.1 Time distribution of data for multiple features
為了應(yīng)對這一問題,需要對所選取特征的時間進行尺度統(tǒng)一,分別從每個單位時間段內(nèi)隨機選出一個代表值,以使每個特征具有相同數(shù)量的值。統(tǒng)一時間度量如圖2所示,這一操作會削減數(shù)據(jù)量,為了保證算法的精確度,選取數(shù)據(jù)量最少的特征,將其時間跨度作為單位時間,以單位時間對各類特征向量進行劃分。
圖2 統(tǒng)一時間度量Fig.2 Uniform time measure
1.2.2 數(shù)字化規(guī)則
數(shù)字化處理是指對飛行數(shù)據(jù)中各特征屬性值按照設(shè)定的轉(zhuǎn)換規(guī)則完成相關(guān)特征屬性值從非數(shù)字到數(shù)字的轉(zhuǎn)換工作,集成孤立森林樹基于數(shù)字化的特征屬性值的建樹過程如圖3所示。根據(jù)各類孤立樹構(gòu)建原理,利用隨機分割點、隨機斜率或多維度映射進行分支,小于分割點的數(shù)據(jù)遞給左子樹,否則移動到右子樹,可見算法中的孤立樹無法對非數(shù)字類型數(shù)據(jù)分支,進而影響對異常數(shù)據(jù)的判別,因此無人機攻擊事件數(shù)據(jù)集不可直接用于模型,對數(shù)據(jù)集數(shù)字化處理非常重要。
圖3 根據(jù)數(shù)字化規(guī)則映射特征帶入集成孤立森林Fig.3 Bring into the integrated isolated forest according to the digital rule mapping feature
數(shù)字化規(guī)則為對非數(shù)字屬性去重后進行排序,每個非數(shù)字特征值映射為對應(yīng)編號數(shù)字,保障每個特征值對應(yīng)唯一數(shù)字值,以此構(gòu)建特征屬性數(shù)字化映射表,接著,通過數(shù)字化映射表完成集成孤立森林樹的構(gòu)建[20]。
分別對UA數(shù)據(jù)集和ALFA數(shù)據(jù)集進行特征提取后,考慮到無人機的飛行時長限制,放棄包含null的無用特征向量,接著對得到的2組飛行數(shù)據(jù)分別進行時間尺度統(tǒng)一和數(shù)字化處理后形成規(guī)格化數(shù)據(jù),如表3和表4所示。
表3 對UA數(shù)據(jù)集預(yù)處理后特征向量數(shù)據(jù)量Tab.3 Amount of feature vector data after preprocessing UA dataset
表4 對ALFA數(shù)據(jù)集預(yù)處理后特征向量數(shù)據(jù)量Tab.4 Amount of feature vector data after preprocessing ALFA dataset
由于無人機類型不同所選擇的特征屬性存在差異,并且UA數(shù)據(jù)集在模擬器上生成了大量的原始飛行日志,而ALFA數(shù)據(jù)集記錄的是現(xiàn)實環(huán)境下的原始飛行日志,因此UA數(shù)據(jù)集根據(jù)特征工程過濾了更多的多余原始數(shù)據(jù)。
由于真實環(huán)境下無人機所遭受的攻擊是復(fù)雜的,針對無人機系統(tǒng)異常檢測常常面臨問題和挑戰(zhàn):攻擊未知;人工標記成本高、數(shù)據(jù)缺少標簽;在低計算負載操作下,實現(xiàn)對多異常類型的高精度檢測等。有監(jiān)督的方法依賴于準確標注好的數(shù)據(jù)集進行模型訓(xùn)練,需要充足的正、負樣本,然而由于存在如前所述的挑戰(zhàn),監(jiān)督學(xué)習(xí)模型所能識別出的異常類型有限并且難以避免較長時延,因此現(xiàn)有方法帶來的好處可能不足以彌補其局限性和控制預(yù)期的應(yīng)用風(fēng)險。
針對上述問題,Khan等人[17]采用孤立森林(Isolation Forest,iForest)算法對無人機健康檢測[21],但iForest抓取異常數(shù)據(jù)時呈現(xiàn)出固有弱點[22]:
① iForest會對每個實例得出一個全局評分,導(dǎo)致其對局部異常不敏感。
② 在高維數(shù)據(jù)中,iForest利用維度的子集來創(chuàng)建傳統(tǒng)孤立樹(Isolation Tree,iTree),當(dāng)相關(guān)維度較低時,所抽取的子集量不足以檢測異常。
③ 當(dāng)多個數(shù)據(jù)簇團存在,傳統(tǒng)iTree分支操作時所產(chǎn)生的偽像在頻帶的交點處放大,恰好會掩蓋存在于軸平行簇團之間的全局異常數(shù)據(jù)點,iForest很可能會將此類異常數(shù)據(jù)點歸類為正常數(shù)據(jù)點。
為規(guī)避上述缺點,更好地應(yīng)用孤立森林對無人機進行異常檢測,本文提出集成孤立森林的無人機無監(jiān)督檢測框架,如圖4所示。該異常檢測框架通過無人機原始飛行日志,完成對無人機整個飛行過程中記錄的傳感器讀數(shù)和組件信息的數(shù)據(jù)收集,然后對收集到的各類數(shù)據(jù)進行預(yù)處理,形成結(jié)構(gòu)化的無人機飛行數(shù)據(jù)集。集成孤立森林將擴展孤立森林、分片選擇準分孤立森林和公平分割森林相結(jié)合,彌補了傳統(tǒng)iForest的缺陷并保持算法的低時間負載,滿足無人機異常檢測的要求。
圖4 集成孤立森林的無人機無監(jiān)督檢測框架Fig.4 UAV unsupervised detection framework process integrated with isolated forest
擴展孤立森林(Extended Isolation Forest,EIF)[23]解決了傳統(tǒng)iForest面對數(shù)據(jù)呈現(xiàn)多個數(shù)據(jù)簇團分布或是數(shù)據(jù)波浪曲線分布時存在異常掩蓋的問題,使用具有隨機斜率的超平面對數(shù)據(jù)進行切片,對于N維數(shù)據(jù)集,在訓(xùn)練階段,EIF隨機選擇一個斜率切割分支,判別標準如下:
(x-p)·n≤0,
(1)
式中,n為法向量;p為隨機截距向量。
分片選擇準則孤立森林(Isolation Forest with Split-selection Criterion,SCiForest)[24]通過引入一個新的切割面來隔離離群值。在構(gòu)建樹的過程中,隨機選擇q個特征屬性,將這些屬性結(jié)合投影在一個超平面,超平面f的表達式為:
(2)
式中,Q為所有特征屬性;j為隨機選出的屬性;cj為[-1,1]間隨機選取的值;X′為二次采樣的樣本集;X′j為X′的第j個特征屬性值;p為一個隨機分割點,創(chuàng)建τ個候選超平面,利用Sdgain理論,從τ個候選超平面中選擇最優(yōu)超平面,Sdgain理論公式如下:
(3)
式中,Y為X′通過f投影得到的實值集;Yl∪Yr=Y,隨機分割點p將Yl和Yr分開,SCiForest算法在評估階段設(shè)置了一個可接受的范圍,幫助其隔離任何超出范圍的看不見的異常。
在測試數(shù)據(jù)階段,f(x)存在范圍限制,如圖5所示。
圖5中,v為節(jié)點中最大值與最小值之差,f(x)的范圍為:
圖5 參考超平面f(x)的可接受范圍Fig.5 Acceptable range of reference hyperplane f(x)
f(x)>UpperLimmitorf(x) (4) 公平分割森林(Fair-Cut Forest,F(xiàn)CForest)[25]最初是為了彌補缺失值而產(chǎn)生的,但針對無人機飛行狀態(tài)異常數(shù)據(jù)檢測,其通過類似于SCiForest的超平面進行分支,但使用的是決策樹的劃分信息準則,與iForest完全隨機切割相比,可以更好地對無人機飛行狀態(tài)異常數(shù)據(jù)進行檢測,其劃分信息準則如下: (5) 式中,p(xi)代表X為xi的概率。 集成孤立森林(Integrated Isolated Forest,IIF)通過Bagging技術(shù)隨機選取無人機規(guī)格化數(shù)據(jù)子樣本,在此基礎(chǔ)上將擴展孤立樹(Extended Isolation Tree,EIT)、分片選擇準則孤立樹(Isolation Tree with Split-selection Criterion,SCiTree)和公平分割樹(Fair-Cut Tree,F(xiàn)CTree)進行融合組成新的森林,以適應(yīng)各類無人機數(shù)據(jù)分布,如圖6所示。 圖6 集成孤立森林的無人機無監(jiān)督異常檢測算法主要流程Fig.6 Main flow of UAV unsupervised anomaly detection algorithm integrated with isolated forest 當(dāng)森林滿足100棵樹時,路徑長度已經(jīng)收斂[17],IIF集成了3類孤立樹,因此設(shè)置300棵樹帶來最佳增益,同時,異常得分閾值設(shè)置為0.5,一旦算法得分超過0.5則被分類為異常數(shù)據(jù)。 計算平均路徑長度需要遍歷模型每一棵孤立樹,對于滿足分割條件實例x,將傳遞給左分支,否則向下移動到右分支。根據(jù)分支的平均路徑長度來分配異常分數(shù),ψ為訓(xùn)練樣本二次抽樣的樣本數(shù),c(ψ)公式如下: (6) 式中, H(i)=ln(i)+0.577 216 649。 (7) 路徑長度為: h(x)=e+c(T.size), (8) 式中,e為被觀測的實例x從根節(jié)點到葉子節(jié)點的過程中所經(jīng)過邊的數(shù)目;T.size為被觀測的實例所在的葉子節(jié)點的樣本個數(shù),該實例遍歷的分支的平均路徑長度將使用式(9)轉(zhuǎn)換為異常分數(shù): (9) 式中,E(h(x))是單個數(shù)據(jù)點x在所有樹中所達到路徑長度的平均值。平均路徑越短,異常得分會越大,越會被判定為異常點。 由于集成孤立森林算法檢測中數(shù)據(jù)涉及2種類型的數(shù)據(jù):訓(xùn)練樣本數(shù)據(jù)和測試數(shù)據(jù)。訓(xùn)練樣本數(shù)據(jù)提供給非監(jiān)督學(xué)習(xí)算法學(xué)習(xí),用來提取無人機安全飛行數(shù)據(jù)中的潛在特征量,通過無人機安全飛行數(shù)據(jù)的特征量,實現(xiàn)對測試數(shù)據(jù)集中的異常數(shù)據(jù)檢測。為了進一步保障實驗的可靠性,本文使用留出法對測試數(shù)據(jù)段進行了劃分,如表5所示。 表5 訓(xùn)練樣本集Tab.5 Training sample set 使用F-measure來評價準確度。F-measure即精度和查全率的調(diào)和平均值,同時考慮了測試的精準度和召回率來計算分數(shù)。異常檢測模型評價的混淆矩陣如表6所示,真陽性(TP)為正確檢測到的異常數(shù)據(jù),假陽性(FP)為錯誤檢測到的異常數(shù)據(jù),假陰性(FN)為未檢測到的異常數(shù)據(jù),真陰性(TN)為正確檢測出的正常數(shù)據(jù)。 表6 檢測結(jié)果混淆矩陣Tab.6 Confusion matrix of detection results 可以從這些參數(shù)中推導(dǎo)出精準度、召回率和F-measure: (10) (11) (12) 使用F-measure值作為分類器性能的單一衡量標準,因為它代表異常檢測性能,甚至比精度值或ROC曲線更好[26]。 分別對無矯正措施的無人機飛行異常(UA數(shù)據(jù)集)和有矯正措施的無人機飛行異常(ALFA數(shù)據(jù)集)進行檢測,并且將IIF算法與iForest,EIF,SCiForest,F(xiàn)CForest以及傳統(tǒng)無監(jiān)督異常檢測算法,例如局部異常值因子(Local Outlier Factor,LOF)、一類支持向量機(One-Class SVM,OC SVM),進行對比,實現(xiàn)了不同算法的對比結(jié)果。 4.2.1 無矯正措施的無人機飛行異常檢測 UA數(shù)據(jù)集為當(dāng)無人機出現(xiàn)故障時,沒有任何矯正措施對無人機飛行狀態(tài)進行調(diào)整所產(chǎn)生的飛行數(shù)據(jù),針對無矯正措施的無人機飛行的異常檢測算法性能對比結(jié)果如表7所示。 從表7中不難發(fā)現(xiàn),IIF對于GPS干擾、GPS欺騙以及混合異常的F-measure值都保持在0.9以上。IIF算法精準度相較于傳統(tǒng)LOF和One-Class SVM分別提高了68%和12.6%。對于傳統(tǒng)iForest,IIF算法精準度和召回率分別平均提升了1.3%和62.6%。 表7 針對UA數(shù)據(jù)集的異常檢測算法性能對比Tab.7 Performance comparison of anomaly detection algorithms for UAV attack dataset 通過上述實驗和數(shù)據(jù),在本文提供的UA數(shù)據(jù)集的學(xué)習(xí)樣本集和檢測樣本集中,傳統(tǒng)iForest的弊端導(dǎo)致其無法很好地區(qū)分無人機異常數(shù)據(jù),出現(xiàn)誤檢測,而其優(yōu)化算法IIF效果顯著提升,為了進一步分析IIF算法在無人機攻擊數(shù)據(jù)集上的運算,圖7展現(xiàn)了iForest,EIF,SCiForest,F(xiàn)CForest,IIF在不同攻擊下的異常得分數(shù)據(jù)分布圖以及其對應(yīng)的利用t-sne算法提取數(shù)據(jù)特征,將訓(xùn)練集中正常規(guī)格化數(shù)據(jù)與測試集中異常規(guī)格化數(shù)據(jù)降為3維的數(shù)據(jù)可視化分布圖,利用數(shù)據(jù)維度分布圖來直觀顯示正常數(shù)據(jù)和異常數(shù)據(jù)的空間分布,紅線為0.5閾值線,線左邊為異常得分小于0.5的數(shù)據(jù),線右邊為異常得分大于0.5的數(shù)據(jù)。 由圖7中異常得分分布圖,算法異常得分曲線雙峰值之間的距離可以直觀地看出該算法對于受攻擊的數(shù)據(jù)和正常飛行數(shù)據(jù)的區(qū)分度。由圖7(a)和圖7(b)可知,面對GPS干擾下的異常數(shù)據(jù),其異常數(shù)據(jù)呈現(xiàn)聚類特點,iForest和EIF分支準則相似,導(dǎo)致異常得分出現(xiàn)雙峰但是出現(xiàn)了閾值前移,F(xiàn)CForest則由于其根據(jù)信息增益準則分支,而異常分數(shù)表現(xiàn)為總體后移,SCiForest包含Sdgain理論,該理論保障了在分支時尋找到分割次最優(yōu)解,致使雙峰間距過大,對數(shù)據(jù)異常程度的判斷激進。 (a) GPS干擾下的異常得分分布圖 由圖7(c)和圖7(d)可知,GPS欺騙攻擊下的異常數(shù)據(jù)具有分散、與正常數(shù)據(jù)混雜的特點,ELF相較于傳統(tǒng)iForest有所提升但也未能檢測出GPS欺騙攻擊下的異常數(shù)據(jù);表7中SCiForest的召回率顯示對于GPS欺騙攻擊存在誤報率,進而F-measure值降低了0.07;由于FCForest在無人機數(shù)據(jù)中,以香農(nóng)熵作為分類變量,異常得分分布相對集中,區(qū)分度相對較低。 由圖7(e)和圖7(f)可知,混合攻擊包含了GPS干擾與GPS欺騙2類攻擊,異常數(shù)據(jù)分布呈現(xiàn)部分聚類,總體離散,結(jié)合圖7(a)~圖7(d)和表7分析,面對3類攻擊,IIF算法表現(xiàn)優(yōu)于單個算法,該算法包含了EIF對掩蓋異常的抓取優(yōu)勢、SCiForest對聚類異常的敏感、FCForest對SCiForest過度判斷的修正,能夠在較高精準度的情況下,保證較高的召回率,進而獲得較高的F-measure值。 (a) 發(fā)動機異常的異常得分分布圖 4.2.2 有矯正措施的無人機飛行異常檢測 ALFA數(shù)據(jù)集為當(dāng)無人機出現(xiàn)故障時,有矯正措施對無人機飛行狀態(tài)進行調(diào)整所產(chǎn)生的飛行數(shù)據(jù),針對有矯正措施的無人機飛行的異常檢測算法性能對比結(jié)果如表8所示。 表8 針對ALFA數(shù)據(jù)集的異常檢測算法性能對比Tab.8 Performance comparison of anomaly detection algorithms for ALFA dataset 由表8可以看出,對于有矯正措施的無人機異常數(shù)據(jù),傳統(tǒng)無監(jiān)督異常檢測算法的F-measure值在0.33~0.69。其余算法中,F(xiàn)CForest算法F-measure值最高,分別達到了0.92,0.83,0.84和0.88,進一步分析其精確度和召回率可以發(fā)現(xiàn),其檢測4類異常所得的精確度都低于IIF算法,但反觀其召回率都達到了100%。不難看出,F(xiàn)CForest算法對于檢測有矯正措施的無人機異常數(shù)據(jù)出現(xiàn)了過擬合的情況,即將所有檢測集數(shù)據(jù)都歸位了異常數(shù)據(jù)。IIF檢測發(fā)動機異常、方向舵異常、升降舵異常和副翼異常的F-measure值分別為0.86,0.76,0.75和0.75,其4類異常F-measure值排在第2位。接著是iForest和EIF,而SciForest性能排在最后。 為了進一步分析IIF算法在有矯正措施的無人機飛行數(shù)據(jù)集上的運算,圖8展現(xiàn)了iForest,EIF,SCiForest,F(xiàn)CForest,IIF在不同組件異常的情況下所得異常得分數(shù)據(jù)分布圖以及其對應(yīng)的利用t-sne算法提取數(shù)據(jù)特征,將訓(xùn)練集中正常規(guī)格化數(shù)據(jù)與測試集中異常規(guī)格化數(shù)據(jù)降為3維的數(shù)據(jù)可視化分布圖,紅線為0.5閾值線,線左邊為異常得分小于0.5的數(shù)據(jù),線右邊為異常得分大于0.5的數(shù)據(jù)。 從圖8的4張規(guī)格化數(shù)據(jù)3維分布圖可以看出,F(xiàn)-measure值最高的FCForest算法得到的異常得分全部大于0.5,超過了閾值,確實存在過擬合現(xiàn)象,而iForest,EIF,SCiForest在對于有矯正措施的無人機異常數(shù)據(jù)偏向于低異常得分,IIF得出的異常得分在閾值上下,進一步對4個測試集的規(guī)格化數(shù)據(jù)3維分布圖進行分析,不難發(fā)現(xiàn)相較于無矯正措施的無人機數(shù)據(jù),有矯正措施的無人機數(shù)據(jù)分布更接近正常數(shù)據(jù),因此,導(dǎo)致IIF模型會在一定程度上混淆錯誤狀態(tài)和安全狀態(tài)。 本文提出了一種基于集成孤立森林的無人機無監(jiān)督異常檢測算法,從原始飛行日志中提取無人機GPS位置、角速度、加速度和姿態(tài)角等數(shù)據(jù)作為基本特征,進行集成孤立森林檢測,以識別異常狀態(tài)與安全狀態(tài)的不同模式,并對算法結(jié)果進行了分析。在未來的工作中,為了讓無人機更加多元化融入社會,將進一步對無人機運行安全進行研究,尤其是對于傳感器數(shù)據(jù)的時間相關(guān)性的補充,在更好地實現(xiàn)檢測性能方面還有改進的余地,接下來的工作將對此深入研究,并且將算法真實集成到真實無人機異常檢測架構(gòu)。3.3 公平分割森林
3.4 集成孤立森林
4 實驗驗證
4.1 規(guī)格化數(shù)據(jù)劃分與模型評價指標
4.2 實驗結(jié)果與分析
5 結(jié)束語