胡淼 王開軍
摘 要:針對現(xiàn)有基于隨機森林的異常檢測算法性能不高的問題,提出一種結合雙特征和松弛邊界的隨機森林算法用于異常點檢測。首先,在只使用正常類數(shù)據(jù)構建隨機森林的分類決策樹過程中,在二叉決策樹的每個節(jié)點里記錄兩個特征的取值范圍(每個特征對應一個值域),以此雙特征值域作為異常點判斷的依據(jù)。然后,在進行異常檢測時,當某樣本不滿足決策樹節(jié)點中的雙特征值域時,該樣本被標記為候選異常類;否則,該樣本進入決策樹的下層樹節(jié)點繼續(xù)作特征值域的比較,若無下層節(jié)點則被標記為候選正常類。最后,由隨機森林算法中的判別機制決定該樣本的類別。在5個UCI數(shù)據(jù)集上進行的異常點檢測實驗結果表明,所提方法比現(xiàn)有的異常檢測隨機森林算法性能更好,其綜合性能與孤立森林(iForest)和一類支持向量機(OCSVM)方法相當或更好,且穩(wěn)定于較高水平。
關鍵詞:異常點檢測;隨機森林;雙特征過濾;松弛邊界
中圖分類號:TP311
文獻標志碼:A
文章編號:1001-9081(2019)04-0956-07
Abstract: Aiming at the low performance of existing anomaly detection algorithms based on random forest, a random forest algorithm combining double features and relaxation boundary was proposed for anomaly detection. Firstly, in the process of constructing binary decision tree of random forest with normal class data only, the range of two features (each feature had a corresponding eigenvalue range) were recorded in each node of the binary decision tree, and the double-feature eigenvalue ranges were used as the basis for abnormal point judgment. Secondly, during the anomaly detection, if a sample did not satisfy the double-feature eigenvalue range in the decision tree node, the sample would be marked as a candidate exception class; otherwise, the sample would enter the lower nodes of the decision tree and continue the comparision with the corresponding double-feature eigenvalue range. The sample would be marked as candidate normal class if there were no lower nodes. Finally, the discriminative mechanism in random forest algorithm was used to distinguish the class of the samples. Experimented results on five UCI datasets show that the proposed method has better performance than the existing random forest algorithms for anomaly detection, and its comprehensive performance is equivalent to or better than isolation Forest (iForest) and One-Class SVM (OCSVM), and stable at a high level.
Key words: anomaly detection; Random Forest (RF); double-feature filtering; relaxation boundary
0?引言
異常點檢測問題是許多相關領域的研究熱點。Hawkins的定義[1]揭示了異常點的本質(zhì):“異常點的表現(xiàn)與其他點如此不同,不禁讓人懷疑它是由不同機制產(chǎn)生的”。在數(shù)據(jù)挖掘的工作中開展異常檢測,其任務是發(fā)現(xiàn)與常規(guī)數(shù)據(jù)模式顯著不同的數(shù)據(jù)模式,亦可將異常檢測認為是一種對新模式的發(fā)現(xiàn)。目前,異常點檢測已經(jīng)在信用卡欺詐、電子商務中的犯罪行為探測、 網(wǎng)絡入侵檢測分析等領域得到了廣泛應用。
專家學者針對異常點檢測問題提出了一系列方法[2]:文獻[3]提出一類支持向量機(One-Class SVM, OCSVM)機器學習算法用于異常點檢測,用正常類數(shù)據(jù)訓練OCSVM,然后用訓練好的模型對輸入數(shù)據(jù)分類從而檢測異常值;文獻[4-5]介紹基于統(tǒng)計學習理論的OCSVM在網(wǎng)絡入侵檢測和財務異常檢測中的應用;文獻[6-7]介紹了基于深度學習技術的異常點檢測方法。近年來基于集成學習方法的異常點檢測是一個研究熱點。文獻[8]提出孤立森林(isolation Forest, iForest)算法,依據(jù)隨機選擇訓練集D中的一個特征q及其最大值和最小值之間值p,將D中在q特征上比p大的樣本分至右子節(jié)點,比p小的樣本分至左子節(jié)點;遞歸該步驟直至節(jié)點中只包含一個樣本或多個相同樣本時停止分裂,完成孤立樹(isolation Tree, iTree)的構建;然后根據(jù)根節(jié)點到葉子節(jié)點的路徑長度建立異常指數(shù),當該指數(shù)值趨于1時,該葉節(jié)點的樣本很可能是異常樣本。
文獻[9]基于iTree[8]提出一種改進算法EGITree(Entropy-based Greedy Isolation Tree),該算法通過啟發(fā)式搜索檢測出k個異常度較高的數(shù)據(jù)點。文獻[10]提出一種基于隨機森林的異常點檢測方法,隨機森林訓練時,得到所有樣本的異常點尺度,如果某一個樣本的異常點尺度比較大,則說明這個樣本與其他樣本的相似程度較小,很有可能是異常樣本,把異常點尺度超過某個閾值的樣本當作異常點。文獻[11]提出基于隨機森林的異常點檢測算法RFV(Random Forest based on Votes for anomaly detection)和RFP(Random Forest based on Proximity matrix for anomaly detection)。
RFV通過對正常類別數(shù)據(jù)構建隨機森林模型,得到每一個正常類的投票均值,分類時通過樣本的投票數(shù)是否達到正常類的投票均值,來判斷樣本是否為異常點。
RFP訓練隨機森林時,得到樣本的相似度矩陣,然后計算得到每個類的類內(nèi)相似度,作為閾值;分類時,計算新樣本與每個類的相似度,若小于各類的閾值,則認為是異常點。
對于算法RFV,當樹節(jié)點中最優(yōu)切分點值大于或小于所有異常樣本對應特征值時,致使異常樣本點全部落入同一葉子節(jié)點中,其投票后的分類結果偏向于某一正常類,異常點檢測易失敗。
文獻[10]方法和RFP算法[11]均采用樣本的相似度矩陣計算相似度,這種計算相似度的方式只考慮樣本落在一棵樹同一葉子節(jié)點的情況,對落入不同葉子節(jié)點的樣本間的相似度都統(tǒng)一視為0,故不能全面而完整地度量樣本之間的相似度[12]。這些不足,降低了RFV和RFP算法在異常檢測方面的性能。
文獻[13]中提出一種結合模糊方法的隨機森林進行異常點檢測方法(Random Forest algorithm based on Fuzzy Tree node for anomaly detection, FuzzyTRF),利用關鍵特征在樹節(jié)點中構造模糊值域進行異常點判斷。FuzzyTRF方法中設計的模糊隸屬度函數(shù)對異常檢測的成敗至關重要,而面對復雜應用時,設計出最優(yōu)的模糊隸屬度函數(shù)較為困難。
為了進一步提高基于決策樹的隨機森林方法在異常檢測方面的性能,本文將雙關鍵特征過濾方法引入到隨機森林的決策樹模型中,提出結合雙特征和松弛邊界的異常點檢測(Double Features and Relaxation Boundary for anomaly detection, DFRB)算法。DFRB算法使用正常類樣本構建隨機森林模型過程中,在決策樹節(jié)點中設計兩個關鍵特征的值域用于過濾樣本,異常點檢測階段利用構建好的雙特征值域過濾出異常點。本文算法還可以避免距離度量和相似度矩陣的計算問題。
1?相關工作
本章主要介紹分類與回歸樹(Classification And Regression Tree, CART)算法[14-15]、Bagging分類器[16],以及隨機森林算法[17]。
CART[14]由特征選擇、樹的生成以及剪枝組成,既可用于分類也可用于回歸,具體實現(xiàn)可參見文獻[15]。
Bagging算法[16]是一種通過操作訓練樣本集來生成互異的子分類器的算法,其基礎是自助抽樣法(bootstrap sampling),給定包含m個樣本的數(shù)據(jù)集D,進行有放回的采樣m次,得到含有m個樣本的集合Di(i=1,2,…,m),使用Di構建基分類器,Di不完全包含D中樣本,從而保證了訓練集的差異性。
隨機森林(Random Forest, RF)[17]是Bagging的一個擴展變體,RF是以決策樹為基分類器構建在Bagging基礎上,進一步在決策樹構建過程中引入隨機特征選擇。
算法1?Random Forest算法。
隨機森林算法原理簡單、容易實現(xiàn)、計算開銷小,它在很多現(xiàn)實任務中展現(xiàn)出強大的性能,被譽為“代表集成學習技術水平的方法”, 可看出RF對Bagging只是作了小改動,但是與Bagging中的基分類器的“多樣性”僅通過樣本擾動是不同的,RF中的基分類器的多樣性不僅來自樣本擾動,還來自特征的擾動,這使得最終集成的泛化性能可通過個體分類器之間差異度的增加而進一步提升[18]。
2?結合雙特征和松弛邊界的異常點檢測
2.1?DFRB算法原理
隨機森林算法中的決策樹具有計算簡單,既可處理離散數(shù)據(jù)也可處理連續(xù)型數(shù)據(jù)的優(yōu)點;而且不需要計算樣本相似度,可避免高維樣本的維數(shù)災難問題,且算法不易過擬合[17]。
同時,鑒于異常點的關鍵特征值與正常類樣本取值有較大差異的特性[8],即異常點與正常點在關鍵特征上取值不同,故本文的DFRB以隨機森林算法為基本框架,將關鍵特征過濾機制結合到?jīng)Q策樹中,在樹節(jié)點中記錄關鍵特征的值域,使用該值域進行異常點的過濾。
本文DFRB算法設計為只使用正常類樣本構建隨機森林模型。決策樹的分裂過程可描述為使用垂直于坐標軸的分割超平面進行遞歸劃分,直至滿足停止條件。
如圖1所示,使用2類樣本訓練一棵決策樹,在決策樹分裂過程中設計雙特征值域來刻畫分裂區(qū)域,決策樹訓練完成時,樣本空間被劃分成多個不重疊區(qū)域;
若某樣本落入這些區(qū)域之外,該決策樹將其記為候選異常點。
這個過程即是在決策樹的每個節(jié)點中設計描述正常類樣本取值范圍的雙特征值域,該值域用于過濾出候選異常點;
當某個類別未知的樣本通過DFRB隨機森林模型時,每個決策樹標記該樣本為候選正常類或異常類,最終按照隨機森林算法的判別機制(包括投票規(guī)則),識別該樣本為正常類或異常類。
2.2?決策樹節(jié)點的雙特征值域
基于CART樹,在樹節(jié)點中設計雙特征值域,構造一種結合雙特征值域的CART(CART with Double Features, DF-CART)。構建CART時,在二叉決策樹的節(jié)點中依據(jù)Gini指數(shù)得到該節(jié)點的最優(yōu)特征和最優(yōu)分割點,并且記錄樣本在兩個特征上的取值范圍(稱為特征值域)。最優(yōu)特征對決策樹的分類貢獻最大,將其作為一個重要考量。樹節(jié)點中設計的兩個特征分別是父節(jié)點的最優(yōu)特征和一個隨機特征。
算法2?決策樹及雙特征值域的生成。
輸入?訓練數(shù)據(jù)集D(特征個數(shù)為d);停止計算條件。
輸出?DF-CART決策樹(二叉樹)。
1)在決策樹訓練過程中,從特征集合中隨機選取一個包含k個特征的候選特征集,記為F。
2)在當前節(jié)點統(tǒng)計所有樣本在父節(jié)點的最優(yōu)分裂特征f上的取值,得到取值范圍(值域)R( f);然后,隨機選擇一個特征fr,統(tǒng)計得到值域R( fr)。
根節(jié)點沒有父節(jié)點,隨機從特征集合F中選擇一個特征作為根節(jié)點的父節(jié)點的最優(yōu)特征f。
3)計算F中每個候選特征對當前節(jié)點的基尼指數(shù),對應最小基尼指數(shù)得到最優(yōu)分裂特征fb和最優(yōu)切分點Vb,根據(jù)最優(yōu)切分點生成左、右子節(jié)點。
4)對每個子節(jié)點遞歸重復步驟1)~3),直至滿足停止條件。
停止條件:節(jié)點中的樣本個數(shù)小于預定值,或樣本集的基尼指數(shù)小于預設值(此時樣本基本屬于同一類),或者樹的高度達到預設值。
2.3?結合雙特征和松弛邊界的異常點檢測
本文算法DFRB的實現(xiàn)分為兩個階段:1)訓練階段。構建隨機森林模型,采用算法2的決策樹作為隨機森林模型的基分類器。
訓練完成后,得到的隨機森林模型與傳統(tǒng)隨機森林不同的是在每個決策樹的節(jié)點中記錄了雙特征的值域,用于分類階段進行異常樣本過濾。
隨機森林的決策樹構建時,訓練數(shù)據(jù)是抽樣得到,抽樣數(shù)據(jù)不包含所有數(shù)據(jù)的信息,這就使得由樣本得到的特征值域小于正常類數(shù)據(jù)的真實值域,很容易將正常類樣本誤認為是異常點,故需要對得到的特征值域作松弛處理。
2)檢測階段。引入松弛因子σ對特征值域作松弛操作。檢測算法見算法3。
算法3中:a、b分別為特征值域的左右邊界;|R( f)|即是|a-b|;異常比例ε表示隨機森林中判斷樣本是異常點的決策樹數(shù)量與隨機森林中決策樹總量的比值。
對于某樣本,統(tǒng)計隨機森林的輸出結果,若判斷樣本為異常點的決策樹所占的比例大于ε,則認為該樣本點是異常點;否則歸為多數(shù)票決定的類別。因每棵決策樹所使用的是部分特征,而部分特征不能保證每棵決策樹都能有效檢測異常點,則只有部分樹可以有效檢測出異常點,故將ε設置在區(qū)間[0.1,0.5]內(nèi)。
3?實驗與結果分析
3.1?實驗數(shù)據(jù)和性能指標
本文實驗使用python3.6實現(xiàn)算法編碼。選用UCI[19]中的5個數(shù)據(jù)集對算法進行測試,數(shù)據(jù)集的相關信息如表1所示。
本文選擇OCSVM[3]、RFV[11]、RFP[11]、iForest[8]四種方法作性能對比:OCSVM的程序來源于libSVM[20];iForest算法速度快、精度高,在工業(yè)開發(fā)中得到廣泛應用,被多個機器學習庫集成,本文的測試的程序來源于sklearn庫提供的iForest算法[21];
RFV和RFP算法的程序由作者依據(jù)文獻[11]編寫。
本文實驗采用召回率(Recall, R)、精度(Precision, P)和F1作為評價指標[22]。召回率是完全性的度量(即正元組標記為正的百分比), 本文實驗指異常點標記為異常的百分比;精度是精確性的度量(即標記為正類的元組,實際為正類的百分比), 本文實驗指被標記為異常的元組中,實際為異常點的百分比。
采用F1指標綜合評價算法性能,它是R和P的調(diào)和平均,采用以下定義:
其中:Nr表示系統(tǒng)正確識別的異常樣本數(shù);Nanomaly表示測試集中異常樣本總數(shù);Ndetection表示系統(tǒng)檢測出的異常樣本總數(shù)。
3.2?異常點識別性能對比
實驗時,首先對數(shù)據(jù)進行歸一化處理;然后采用文獻[11]中的仿真模式,對一個數(shù)據(jù)集輪流選擇一個類Ci(i=1,2,3,…,k)作為異常類數(shù)據(jù)(anomaly_data),其余K-1類作為正常類數(shù)據(jù)。采用10折交叉驗證方法評估分類器的性能:將正常類數(shù)據(jù)按順序分成10份,第1次實驗取第1份數(shù)據(jù)和異常類數(shù)據(jù)合并作為測試集(test_data),剩余9份數(shù)據(jù)作為訓練集(train_data)用于構建隨機森林模型,第2次實驗取第2份數(shù)據(jù)和異常類數(shù)據(jù)合并作為測試集(test_data),剩余9份數(shù)據(jù)作為訓練集(train_data),以此類推重復10次實驗,最后將10次實驗的結果平均作為性能指標。
對RFV、RFP、iForest和本文DFRB算法,均設置隨機森林中樹的數(shù)目m=100,決策樹停止分裂的條件是:節(jié)點中的樣本個數(shù)小于3,或節(jié)點樣本集的基尼指數(shù)小于10-7,或者樹的高度達到10層。
OCSVM的參數(shù)取程序設置的默認值nu=0.5;
依據(jù)文獻[8]中所給的參數(shù)contamination(c)范圍為0.02~0.5,iForest的參數(shù)取實驗效果最好時的c=0.5,DFRB的參數(shù)ε、σ分別取0.3和0.01。實驗結果對比如表2~6所示。
對于seeds數(shù)據(jù)集,class1作為異常類進行測試時,本文算法的檢測效果稍低于RFP、iForest和OCSVM,明顯優(yōu)于RFV;class2作為異常類進行測試時,本文算法的檢測效果與iForest和OCSVM相當,明顯高于RFV和RFP;class3作為異常類進行測試時,本文算法的檢測效果低于iForest和OCSVM,明顯高于RFV和RFP,可發(fā)現(xiàn)iForest算法獲得較高召回率的同時犧牲了檢測精度。對于hepato數(shù)據(jù)集,class3作為異常類進行測試時,本文算法檢測效果略低于RFV,其余類作為異常類進行測試時,本文提出的算法與RFV的檢測性能相當,優(yōu)于RFP,檢測效果明顯高于經(jīng)典的iForest和OCSVM方法;class3、class4分布松散,且與其他類別數(shù)據(jù)交叉嚴重,可分性較差,使用class3、class4作為異常類進行測試時,iForest和OCSVM效果不理想,異常點檢測效果較差。wine數(shù)據(jù)集上,class2、class3作為異常點時,本文算法優(yōu)于其他算法;class1類作為異常點時,本文算法的檢測效率略低于iForest,與同類的RFV、RFP方法相當,不難發(fā)現(xiàn)iForest和OCSVM以犧牲精度獲得較高的召回率,精度低于DFRB。對于forestType數(shù)據(jù)集,經(jīng)典方法iForest和OCSVM在class3作為異常點時,表現(xiàn)較好,召回率較高;其余類別作為異常類進行測試時,RFV算法較優(yōu);本文算法在召回率方面低于其他方法,而精度高,即說明本文算法的檢測準確度優(yōu)于其他方法。對于dermatology數(shù)據(jù)集,本文算法整體性能優(yōu)于其他方法,由實驗結果可知,其他方法能獲得較高的召回率,但是犧牲了精度。通過以上結果分析表明,本文算法整體表現(xiàn)優(yōu)越,獲得較高召回率的同時,也能保證檢測準確度。
3.3?雙特征與單特征的對比分析
本文算法利用異常點與正常點在數(shù)值上的取值不同,提出特征值域過濾機制,即在樹節(jié)點中設計兩個特征,訓練過程中統(tǒng)計得到兩個特征值域,并以此為依據(jù),進行異常點的過濾。
圖2是對比單個隨機特征作為過濾條件時,不同數(shù)據(jù)集在召回率、精度、F1的表現(xiàn)。由實驗可得,在召回率和F1上雙值域?qū)Ξ惓|c的檢測效果優(yōu)于單值域,在精度上低于單值域;即隨著樹節(jié)點中設計的過濾條件越多,更多的異常點被檢測出來,召回率增加,但是增加了正常點誤認為是異常點的可能性,導致精度降低。因此,本文算法采用雙特征值域進行異常點檢測,在獲取較高召回率的同時,保證綜合性能F1較高。
3.4?綜合性能F1對比分析及參數(shù)討論
每次實驗使用數(shù)據(jù)集K個類別中的一類作為異常樣本(異常點)進行異常點檢測,采用F1指標來反映算法綜合性能,結果如圖3所示,其中橫軸異常點百分比表示隨機選取的異常點占這類異常測試樣本的比例。
從圖3可看出,本文算法綜合性能F1與對比方法相當或更優(yōu)。例如,對于hepato數(shù)據(jù)集,class3作為異常類進行測試,本文算法的綜合性能F1略低于RFV;其余各類作為異常類進行測試時,與RFV相當,高于iForest和OCSVM。對于forestType數(shù)據(jù)集,本文算法表現(xiàn)出色,與一類模型方法iForest和OCSVM相當,綜合性能明顯優(yōu)于RFV和RFP。對于seeds數(shù)據(jù)集,class3作為異常類進行測試時,本文算法的綜合性能低于一類模型方法iForest和OCSVM,其余類作為異常類進行測試,本文算法的綜合性能與iForest和OCSVM相當,高于RFV和RFP。對于wine數(shù)據(jù)集,class1作為異常類進行測試,本文算法綜合性能略低于iForest,其他類作為異常類進行測試時,本文算法性能較好,高于其他方法。對于dermatology數(shù)據(jù)集,本文算法綜合性能明顯優(yōu)于其他方法。
本文算法中引入異常比例ε和松弛變量σ兩個參數(shù),通過設置不同的ε和σ,觀察不同參數(shù)對算法性能的影響。
圖4~6的仿真實驗分別分析了參數(shù)ε和σ對召回率、精度、F1的影響。
首先,分析不同異常比例ε對F1的影響。固定松弛因子σ=0.01,對于每個數(shù)據(jù)集,每次實驗輪流選取其中一個類作為異常點進行異常檢測,得到在不同異常比例ε下的F1指標,各次實驗的F1均值情況如圖4所示。
由圖4可知,ε的范圍在0.1~0.3,F(xiàn)1指標高,異常檢測性能最好;除seeds數(shù)據(jù)集外,隨著ε的增大,F(xiàn)1先上升后下降,ε≥0.5時,F(xiàn)1趨于穩(wěn)定。隨機森林中,不是所有的決策樹都包含有關鍵特征,即不是所有的樹都能夠識別出異常點,當ε過大時,不能識別異常點的樹會增多,但這些樹不影響檢測性能,故F1趨于穩(wěn)定。
其次,分析松弛因子σ對召回率、 精度和F1的影響。固定異常比例ε=0.3,觀察在不同σ條件下的召回率、精度和F1。觀察圖5可得隨著σ的增大,召回率呈下降趨勢, 精度逐漸升高,表示隨著σ的增大,異常的召回率降低,識別正確率升高,容易理解當樹節(jié)點中特征值域較大時,將異常點誤認為是正常點,導致召回率下降,同時將正常點誤認為是異常點的概率降低,提高了異常點檢測精度。為滿足綜合性能F1較高的要求,選擇σ=0.01時,異常點的檢測效果最佳。
最后,分析異常比例ε和松弛變量σ兩個參數(shù)同時變化,對算法性能的影響。松弛因子σ 從0 漸變至0.07,異常比例ε從0.1漸變至0.7,觀察在不同參數(shù)下的召回率、精度和F1。觀察圖6,隨著ε和σ同時增大,召回率逐漸降低,精度逐漸提高,即隨著過濾條件的放寬,異常點被檢測出的可能性降低,而檢測的正確率提高??紤]算法的綜合性能,算法的預設參數(shù)σ=[0,0.05],ε=[0.1,0.5]是合理的。
4?結語
針對異常點檢測問題,設計了DFRB算法進行異常點檢測,本文算法結合異常點特性,在決策樹節(jié)點中引入特征過濾,通過對關鍵特征的閾值比較達到檢測異常點的目的。實驗結果表明,本文算法相對于傳統(tǒng)隨機森林算法RFV、RFP和iForest在多個數(shù)據(jù)集上有較高的綜合性能,同時本文算法避免了傳統(tǒng)的距離度量以及相似度矩陣計算問題。本文可進一步改進的工作包括選擇更合適的雙特征組合和來自特殊應用的數(shù)據(jù)集參數(shù),以進一步提高異常點檢測的精度。
參考文獻(References)
[1] HAWKINS D M. Identification of outliers[M]. London: Chapman and Hall, 1980: 1-2.
[2] DOMINGUES R, FILIPPONE M, MICHIARDI P, et al. A comparative evaluation of outlier detection algorithms: experiments and analyses [J]. Pattern Recognition, 2018, 74: 406-421.
[3] WANG Y, WONG J, MINER A. Anomaly intrusion detection using one class SVM[C]// Proceedings from the Fifth Annual IEEE SMC Information Assurance Workshop. Piscataway, NJ: IEEE, 2004: 358-364.
[4] SCHOLKOPF B, WILLIAMSON R, SMOLA A, et al. Support vector method for novelty detection[J]. Advances in Neural Information Processing Systems, 2000, 12(3): 582-588.
[5] 張曉惠, 林柏鋼. 基于特征選擇和多分類支持向量機的異常檢測[J]. 通信學報, 2009, 30(增刊1): 68-73. (ZHANG X H, LIN B G. Anomaly detection based on feature selection and multi-class support vector machines[J]. Journal on Communications, 2009, 30(S1): 68-73.
[6] ERFANI S M, RAJASEGARAR S, KARUNASEKERA S, et al. High-dimensional and large-scale anomaly detection using a linear one-class SVM with deep learning[J]. Pattern Recognition, 2016, 58: 121-134.
[7] PAULA E L, LADEIRA M, CARVALHO R N, et al. Deep learning anomaly detection as support fraud investigation in brazilian exports and anti-money laundering[C]// Proceedings of the 2016 IEEE International Conference on Machine Learning and Applications. Piscataway, NJ: IEEE, 2016: 954-960.
[8] LIU F T, TING K M, ZHOU Z H. Isolation-based anomaly detection [J]. ACM Transactions on Knowledge Discovery from Data, 2012, 6(1): 1-39.
[9] SHEN Y, LIU H, WANG Y, et al. A novel isolation-based outlier detection method[C]// PRICAI 2016: Proceedings of the 2016 Pacific Rim International Conference on Artificial Intelligence. Berlin: Springer, 2016: 446-456.
[10] 邱一卉, 林成德. 基于隨機森林方法的異常樣本檢測方法 [J]. 福建工程學院學報, 2007, 5(4): 392-396. (QIU Y H, LIN C D. Outlier detection based on random forest[J]. Journal of Fujian University of Technology, 2007, 5(4): 392-396.)
[11] ZHOU Q F, ZHOU H, NING Y P, et al. Two approaches for novelty detection using random forest [J]. Expert Systems with Applications, 2015, 42(10): 4840-4850.
[12] 李貞貴.隨機森林改進的若干研究[D]. 廈門: 廈門大學, 2013: 28-30. (LI Z G. Several research on random forest improve[D]. Xiamen: Xiamen University, 2013: 28-30.)
[13] 胡淼, 王開軍, 李海超, 等.模糊樹節(jié)點的隨機森林與異常點檢測[J]. 南京大學學報(自然科學版), 2018, 54(6): 1141-1151. (HU M, WANG K J, LI H C, et al. A random forest algorithm based on fuzzy tree node for anomaly detection[J]. Journal of Nanjing University (Natural Science), 2018, 54(6): 1141-1151.)
[14] BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and Regression Trees[M]. New York:Champman & Hall,1984:18-55.
[15] 李航. 統(tǒng)計學習方法[M]. 北京: 清華大學出版社, 2012: 67-71. (LI H. Statistical Learning Method[M]. Beijing: Tsinghua University Press, 2012: 67-71.)
[16] BREIMAN L. Bagging predictors [J]. Machine Learning, 1996, 24(2): 123-140.
[17] BREIMAN L. Random forest [J]. Machine Learning, 2001, 45(1): 5-32.
[18] 周志華.機器學習[M]. 北京: 清華大學出版社, 2016: 179-181. (ZHOU Z H. Machine Learning[M]. Beijing: Tsinghua University Press, 2016: 179-181.)
[19] BLAKE C L, M C J. UCI repository of machine learning databases [EB/OL]. [2018-05-10]. http://mlearn.ics.uci.edu/MLRepository.html.
[20] CHANG C C, LIN C J. LIBSVM: a library for support vector machines [EB/OL]. [2018-05-10]. http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
[21] LIU F T, TING K M, ZHOU Z H. Isolation-based anomaly detection [EB/OL]. [2018-05-10]. http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html.
[22] HAN J W, KAMBER M. 數(shù)據(jù)挖掘: 概念與技術[M]. 范明, 孟小峰, 譯.3版.北京: 機械工業(yè)出版社, 2012: 236-240. (HAN J W, KAMBER M. Data Mining: Concepts and Techniques [M]. FAN M, MENG X F, translated. 3rd ed. Beijing: China Machine Press, 2012: 236-240.)