李沛智, 劉立群, 薄軼帥
(太原科技大學(xué)電子信息工程學(xué)院, 太原 030024)
隨著經(jīng)濟(jì)的快速發(fā)展以及用電量的激增,對智能電網(wǎng)安全穩(wěn)定運(yùn)行的需求日益增強(qiáng)[1-2]。其中,嚴(yán)重的用戶異常用電行為,給電網(wǎng)行業(yè)帶來了巨大的經(jīng)濟(jì)損失,阻礙了智能電網(wǎng)的發(fā)展[3]。因此,如何從海量的用戶用電數(shù)據(jù)中快速、準(zhǔn)確地進(jìn)行異常用電檢測是目前研究的熱點(diǎn)問題之一。
當(dāng)前,中外對異常用電檢測方法的研究成果很多。文獻(xiàn)[4]針對用戶用電數(shù)據(jù)類別不平衡的問題以及傳統(tǒng)集成策略檢測方法的局限性,提出了一種基于熵權(quán)法集成異質(zhì)分類器的竊電檢測模型,實(shí)驗(yàn)結(jié)果表明具有一定的有效性。文獻(xiàn)[5]針對傳統(tǒng)竊電檢測研究只采用單一的基分類器或單一的集成分類器,提出了Stacking集成學(xué)習(xí)策略并構(gòu)造平均準(zhǔn)確率(mean average precision,MAP)作為評價指標(biāo),提升了模型的泛化能力與查準(zhǔn)率。文獻(xiàn)[6]提出了一種將模糊C均值算法和改進(jìn)的粒子群優(yōu)化算法相結(jié)合的電力大數(shù)據(jù)異常檢測方法,實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法能夠準(zhǔn)確地實(shí)現(xiàn)數(shù)據(jù)異常值檢測,改進(jìn)后誤檢率降低了0.31%。文獻(xiàn)[7]針對復(fù)雜用電臺區(qū)中計算模型參數(shù)增多,個別參數(shù)估計失準(zhǔn)導(dǎo)致最終辨識結(jié)果不準(zhǔn)確的問題,提出了最優(yōu)變換關(guān)聯(lián)因子和優(yōu)化平移分裂法,有效解決了大臺區(qū)高維參數(shù)的誤差擾動致使竊電用戶辨識準(zhǔn)確度下降的難題,具有更強(qiáng)的抗擾動性。文獻(xiàn)[8-9]利用Bagging集成學(xué)習(xí)策略,實(shí)驗(yàn)結(jié)果表明該方法的竊電檢測研究方面有更高的精確性和檢出率。文獻(xiàn)[10]針對如何解決特征提取和異常檢測間的解耦問題,提出基于深度自編碼器高斯混合模型檢測方法,相比于現(xiàn)有方法,其檢出率、誤檢率、F1測度及曲線下面積(area under curve,AUC)等評價指標(biāo)均有顯著提高。
雖然上述研究方法可以檢測到異常數(shù)據(jù),但在實(shí)際應(yīng)用中面對海量高維電力數(shù)據(jù)時,未考慮到維數(shù)詛咒以及噪聲效應(yīng)等問題,造成檢測效率低且無法保證檢測精度,需要進(jìn)一步提高適應(yīng)性。孤立森林(isolation forest, IF)算法在異常值檢測中效果突出[11],因此,現(xiàn)提出一種新的基于無監(jiān)督密度的子空間選擇孤立森林算法用于異常檢測,然后在愛爾蘭智能電表數(shù)據(jù)集上對本文提出方法的準(zhǔn)確性和有效性進(jìn)行實(shí)驗(yàn)驗(yàn)證。
孤立森林可視為隨機(jī)森林的一種變體,基于二進(jìn)制搜索樹構(gòu)建[12],是一種用于多元數(shù)據(jù)異常檢測的無監(jiān)督、非參數(shù)檢測方法。其基本思想是使用一個隨機(jī)超平面對數(shù)據(jù)空間不斷進(jìn)行切割,每切割一次就會產(chǎn)生兩個子空間,同時子空間不斷循環(huán)切割,直到每個子空間中只包含一個數(shù)據(jù)點(diǎn)為止。而異常數(shù)據(jù)點(diǎn)往往存在于較為稀疏的子空間中,因此只需要用較少的切割次數(shù)就能找到。
首先,從整個數(shù)據(jù)集中抽取隨機(jī)樣本,并隨機(jī)選擇一個樹節(jié)點(diǎn)。然后,隨機(jī)選取屬性分割值將樣本分成兩個子集。屬性分割值表示為最小屬性值和最大屬性值之間的隨機(jī)值。屬性值小于分割點(diǎn)的元素將移動到節(jié)點(diǎn)的左側(cè),其他元素將移動到右側(cè)。重復(fù)集合的分割,直到集合只有單個元素或達(dá)到樹高極限l。樹高限制的描述公式為
(1)
式(1)中:n為構(gòu)建單個隔離樹的樣本數(shù)。
對于每棵隔離樹,都可以找到此樹中被檢查元素的高度,并檢查元素屬性值是低于還是高于節(jié)點(diǎn)分割值。如果達(dá)到了閾值,則該算法將傳遞到左節(jié)點(diǎn)。否則,將判定為正確節(jié)點(diǎn)。繼續(xù)對樹進(jìn)行探索,直到算法到達(dá)一個沒有后代的葉節(jié)點(diǎn)。記錄得到的高度,并計算最終分?jǐn)?shù),公式[13-15]為
(2)
(3)
H(t)=lnt+0.577 215 664 9
(4)
式中:x為樣本中的節(jié)點(diǎn);s(x,n)為節(jié)點(diǎn)x的異常分?jǐn)?shù),評價分?jǐn)?shù)為0~1范圍內(nèi),數(shù)值越高,異常值可能性越大;H(t)為諧波常數(shù);h(x)為元素x在隔離樹中獲得的高度;E[h(x)]為整個森林的平均高度值;c(n)為E[h(x)]的歸一化。
數(shù)據(jù)歸一化(或特征縮放)是異常檢測中必不可少的預(yù)處理步驟,因?yàn)樵谟嬎銛?shù)據(jù)點(diǎn)之間的距離或識別相鄰數(shù)據(jù)時,數(shù)值較大的特征會支配其他特征。最大-最小歸一化方法,將每個特征歸一到區(qū)間[0,1],在異常檢測中經(jīng)常使用。最大-最小歸一化對特征值f進(jìn)行如下轉(zhuǎn)換[16],即
(5)
互信息(mutual information, MI)是一種依賴性度量,廣泛用于模式識別、特征選擇和特征排序問題[17]。它可以用來衡量每個特征的相關(guān)性和特征之間的冗余度。MI有兩個特性使其區(qū)別于其他依賴性度量:第一,可以衡量變量之間的任何類型的關(guān)系。第二,在空間轉(zhuǎn)換下是不變的。設(shè)A和B是一對具有離散值的隨機(jī)變量,A和B之間的相互信息被定義為
(6)
(7)
(8)
式中:pA,B(a,b)為A和B的聯(lián)合概率函數(shù);pA(a)和pB(b)分別為A和B的邊際概率函數(shù)。
(9)
式(9)中:widthj為第j個特征被劃為每個線段的寬度。
每一個特征都使用等寬的分段劃分,使得不同區(qū)段的密度值具有可比性。通過將所有M個特征劃分為p個區(qū)段,生成pM個M維立方體。
為了計算立方體c中數(shù)據(jù)點(diǎn)的數(shù)量,需要合并具有相同idc的數(shù)據(jù)點(diǎn),并計算密度,公式為
dc=具有相同idc的數(shù)據(jù)點(diǎn)的數(shù)量
(10)
通過合并具有相同idc的數(shù)據(jù)點(diǎn)獲得新的數(shù)據(jù)集DG,即
DG={(idc1,dc1),(idc2,dc2),…,(idcNE,dcNE)
(11)
式(11)中:idci≠idcj(?idci,idcj);NE=非空方塊的數(shù)量;DG中的每個數(shù)據(jù)點(diǎn)都被表示為(idci,idcj),即idci是一個非空的立方體(包含至少一個數(shù)據(jù)點(diǎn)),而dci是該立方體的密度。據(jù)此,將全維空間F中的數(shù)據(jù)集D轉(zhuǎn)換為空間G中的一個新的數(shù)據(jù)集DG。
給定數(shù)據(jù)集DG和特征集G={g1,g2,…,gM},基于互信息的子空間選擇算法的目的是選擇一個特征子集GS={gs1,gs2,…,gsm}?G,然后根據(jù)空間F與空間G中的特征索引之間的一一對應(yīng)關(guān)系來獲得相關(guān)子空間。基于最小冗余-最大相關(guān)-密度準(zhǔn)則(min-redundancy-maximum-relevance-to-density, mRMRD)的特征選擇的核心思想是最大化特征與分類變量之間的相關(guān)性,最小化特征與特征之間的冗余性[18]。
2.1.1 MRD算法
最大相關(guān)性-密度(maximum-relevance-density, MRD)方法用于選擇對目標(biāo)變量密度的依賴性最大的特征。利用互信息準(zhǔn)則I(gj,dc)測量特征gj與目標(biāo)變量dc之間的依賴性,其之間的MRD準(zhǔn)則可以表示為
(12)
式(12)中:|GS|為子集GS中被選特征的數(shù)量;dc_val為dc中的一個變量的值;gj_val為gj中的一個變量的值。
2.1.2 mRMRD準(zhǔn)則
由于MRD準(zhǔn)則選擇的是可能在空間G中具有高冗余度的特征,這些特征在原始空間F中分布的依賴性很大。因此,通過mRMRD準(zhǔn)則選擇一個具有與密度目標(biāo)變量高相關(guān)性,且最小冗余性的特征子集。mRMRD準(zhǔn)則結(jié)合了最小冗余度mR與MRD準(zhǔn)則,mR公式為
(13)
mRMRD準(zhǔn)則為式(12)和式(13)的組合,定義為
maxΦ(D,R),Φ=D-R=
(14)
mRMRD準(zhǔn)則除了最大化相關(guān)性外,還考慮了特征之間的關(guān)系,因此,與已經(jīng)選擇的特性具有相似分布性的特征不太可能被選擇。mRMRD準(zhǔn)則的目的不是選擇獨(dú)立的特征,而是在每一步中,試圖選擇一個最小化冗余和最大化相關(guān)性的特征。由于候選子空間的數(shù)量(2M-1)隨著維數(shù)M的增加而呈指數(shù)增長。因此,mRMRD算法使用一階增量搜索方法來尋找由Φ定義的最優(yōu)的特征。假設(shè)GS是在前t-1步中被選中的一組特征,則第t個特征是根據(jù)公式(15)從G-GS集合中選擇。
(15)
在該方法中,相關(guān)子空間中的第一個特征是利用相互信息來選擇的,從而使其對目標(biāo)變量dc具有最高的依賴性。
在構(gòu)建孤立森林的過程中,算法會隨機(jī)選擇特征,然后,隨機(jī)選擇該特征的分割值遞歸地生成分區(qū),直到將所有數(shù)據(jù)點(diǎn)與其余樣本分開。這種隨機(jī)性會導(dǎo)致在生成隔離樹時產(chǎn)生大量的無關(guān)屬性,且隨著維數(shù)的增加,數(shù)據(jù)變得稀疏,高維空間產(chǎn)生的噪聲效應(yīng)會掩蓋真實(shí)的異常值[19],并對算法的可靠性產(chǎn)生負(fù)面影響。所以,當(dāng)面對海量高維的數(shù)據(jù)時,由于IF算法的隨機(jī)性,可能將漏選異常程度較高的屬性,從而造成IF算法在異常檢測中出現(xiàn)精度較低等問題。
為此,本文提出了相關(guān)子空間選擇方法來有效地檢測異常值,解決了高維數(shù)據(jù)的準(zhǔn)確性低、維度詛咒問題以及降低了子空間各屬性選擇的隨機(jī)性。該方法由兩個主要步驟組成,基于密度的數(shù)據(jù)表示以及應(yīng)用互信息理論與統(tǒng)計準(zhǔn)則進(jìn)行無監(jiān)督子空間選擇。通過引入一種基于密度的表示方法,提出了基于無監(jiān)督互信息的mRMRD準(zhǔn)則,用于測量無監(jiān)督異常檢測中特征的優(yōu)度?;趍RMRD的增量搜索算法選擇一個緊湊的子空間,其特征之間具有最小的冗余,并且與密度有最高的相關(guān)性。然后,在所選子空間中生成隔離樹并集成孤立森林進(jìn)行異常值檢測。相比于傳統(tǒng)IF而言,這種方法降低了構(gòu)建隔離樹時的隨機(jī)性,從而使得隔離樹的分支更加具有差異性。該方法的主要流程如圖1所示,算法具體步驟如下。
圖1 異常檢測方法流程圖Fig.1 Flow chart of the abnormal detection method
步驟1將原數(shù)據(jù)集中的數(shù)據(jù)歸一化生成新數(shù)據(jù)集D*,并設(shè)定每個特征的段數(shù)p。
(16)
(17)
步驟3合并具有相同idc的數(shù)據(jù)點(diǎn)生成新的數(shù)據(jù)集DG。
dc=具有相同idc的數(shù)據(jù)點(diǎn)的數(shù)量
(18)
DG={(idc1,dc1),(idc2,dc2),…,(idcNE,dcNE)
(19)
步驟4設(shè)置要選擇相關(guān)子空間FS的大小m,用密度變量計算互信息,對每個特征gi∈G計算I(gi,dc)。
步驟5選擇第一個特征。
(20)
步驟6重復(fù)步驟5直到|GS|=m,生成相關(guān)特征子集FS。
步驟7設(shè)置孤立森林參數(shù):子采樣數(shù)φ、隔離樹數(shù)量t和樹高限制l。利用生成的相關(guān)特征子集FS計算孤立森林異常得分。
由于不同的評價指標(biāo)通常會產(chǎn)生不同的結(jié)果,因此應(yīng)選擇有效的指標(biāo)進(jìn)行檢測,本文研究基于表1所示的混淆矩陣進(jìn)行評價。在混淆矩陣中,真陽類(true positive, TP)代表樣本為異常數(shù)據(jù),且檢測結(jié)果也為異常數(shù)據(jù),假陰類(false negative, FN)代表異常數(shù)據(jù)被漏檢為正常數(shù)據(jù),假陽類(false positive, FP)代表正常數(shù)據(jù)被誤檢為異常數(shù)據(jù),真陰類(true negative, TN)代表樣本為正常數(shù)據(jù),且檢測結(jié)果也為正常數(shù)據(jù)[20]。
表1 混淆矩陣Table 1 Confusion matrix
利用混淆矩陣可獲得多個評價指標(biāo),本文研究選擇準(zhǔn)確率(accuracy, ACC)、F1測度和AUC進(jìn)行評價。
(1)準(zhǔn)確率。準(zhǔn)確率是最常用的分類性能指標(biāo),可以用來表示模型的精度,一般情況下,模型的精度越高,說明模型的效果越好,公式[21]為
(21)
(2)F1。F1定義為正確率P和召回率R的調(diào)和平均數(shù),F1為從0到1,1為最優(yōu),0為最差。計算公式[22]為
(22)
式(22)中:正確率P=TP/(TP+FP),表示模型正確識別為正的正例樣本占全部識別為正的比例;召回率R=TP/(TP+FN),表示模型正確識別為正的樣本占全部實(shí)際為正的樣本的比值。
(3)AUC。AUC為ROC曲線下的面積[23],ROC曲線以FPR為橫軸,TPR為縱軸,反映FPR和TPR兩個指標(biāo)增長速率的相對關(guān)系,由于ROC曲線一般都處于y=x直線的上方,所以AUC的取值范圍一般為0.5~1,AUC的值越高,該分類器的效果越好。
(23)
式(23)中:ri為在增序序列中第i個正類實(shí)例的位置;n0和n1分別為正類和負(fù)類的個數(shù)。
仿真實(shí)驗(yàn)使用Win10系統(tǒng)下的jupyter notebook(Python 3.9)、計算機(jī)處理器(i7-10875H)、內(nèi)存(16 G)。實(shí)驗(yàn)數(shù)據(jù)來自愛爾蘭CER智能計量項(xiàng)目,該項(xiàng)目有5 000多個愛爾蘭家庭和企業(yè)參加。選取其中3 000家居民用戶42 d用電記錄作為實(shí)驗(yàn)對象(每0.5 h采集一次數(shù)據(jù))[24]。對數(shù)據(jù)集進(jìn)行清洗,篩選并排除空數(shù)據(jù),隨機(jī)選取10%作為異常用電樣本,并結(jié)合文獻(xiàn)[8]中異常用電樣本生成方式進(jìn)行構(gòu)造,構(gòu)造后的異常用電數(shù)據(jù)變化效果圖如圖2所示。
圖2 異常用電樣本變化效果圖Fig.2 Effect diagram of abnormal electricity sample changes
對數(shù)據(jù)集預(yù)處理后,討論算法在參數(shù)t=100、φ=256、p=12條件下產(chǎn)生的不同結(jié)果并分析不同參數(shù)對算法的影響。
在孤立森林中,小數(shù)據(jù)集往往能取得更好的效果,樣本數(shù)較多會降低孤立森林孤立異常點(diǎn)的能力,因?yàn)檎颖緯蓴_隔離的過程,降低隔離異常點(diǎn)的能力。由于子采樣數(shù)φ可以控制每棵孤立樹的數(shù)據(jù)量,因此,需要對子采樣數(shù)φ進(jìn)行討論。首先,設(shè)定t=100,p=12。子采樣值分別設(shè)置為φ=16,32,…,4 096,為了降低實(shí)驗(yàn)偏差帶來的影響,實(shí)驗(yàn)運(yùn)行10次取平均值為最終結(jié)果,得到AUC曲線如圖3所示。由圖3可知,AUC在子采樣值較小時逐步上升,在φ=256時到達(dá)峰值,隨后趨于穩(wěn)定,因此根據(jù)測實(shí)結(jié)果選用φ=256作為最優(yōu)參數(shù)。
圖3 子采樣數(shù)量對AUC的影響Fig.3 Effect of subsampling number on AUC
其次,由于集成學(xué)習(xí)是將若干個弱學(xué)習(xí)器組合后產(chǎn)生一個新的學(xué)習(xí)器,但基分類器的數(shù)量過多會導(dǎo)致整體效率下降,所以為了驗(yàn)證隔離樹數(shù)量t對實(shí)驗(yàn)結(jié)果的影響,設(shè)定φ=256,p=12,將隔離樹數(shù)量分別設(shè)置為t=10,15,…,500,同時運(yùn)行10次取平均值,所得結(jié)果如圖4所示。
圖4 隔離數(shù)數(shù)量對AUC的影響Fig.4 Effect of number of isolations on AUC
由圖4可知,AUC隨著t的增加呈現(xiàn)上升趨勢,在t=100附近達(dá)到峰值,隨后呈下降趨勢,由此選擇t=100為最佳參數(shù)。
最后,由于特征段數(shù)p會影響每個立方體的大小以及對立方體的密度測量,因此,通過在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),來討論p參數(shù)對所提方法精度的影響,實(shí)驗(yàn)運(yùn)行10次取平均值為最后結(jié)果,設(shè)定t=100,φ=256,p的范圍為2~20,所得結(jié)果如圖5所示。
圖5 特征段數(shù)對AUC的影響Fig.5 Effect of number of feature segments on AUC
由圖5可知,p從2增加到12,AUC值有所提高。然而,當(dāng)p超過12時,精度顯著下降。因?yàn)楫?dāng)每個特征的段數(shù)增加時,使得網(wǎng)格立方體的密度增加,相當(dāng)于用一個更局部的視角來測量。當(dāng)p的值很小時,對立方體的密度測量更全面,然后隨著段數(shù)的增加,對立方體密度的測量精度也會增加。但是,當(dāng)每個維度的段數(shù)超過某個值時,會使每個維度都過于局部地觀察,幾乎每個數(shù)據(jù)點(diǎn)都被放置在一個單獨(dú)的立方體中,不能根據(jù)不同段的數(shù)據(jù)分布來區(qū)分不同的維度。對異常值的相關(guān)特征不能進(jìn)行較高精度的選擇,從而降低了該方法的精度。
為了驗(yàn)證所提的基于密度子空間孤立森林算法在異常用戶檢測中的優(yōu)越性,與傳統(tǒng)的孤立森林算法IF[25]、K最鄰近算法KNN[26]、支持向量機(jī)算法SVM[27]以及集成算法AdaBoost[28]算法進(jìn)行對比分析,不同檢測模型的參數(shù)如表2所示。不同檢測模型檢測結(jié)果如表3所示。由表3可知,本文方法的ACC=0.942 6,F1=0.717 4,AUC=0.973 4。與未改進(jìn)的IF算法分別提升了0.109 1、0.537 7和0.316 4,這是因?yàn)槔胢RMRD準(zhǔn)則選擇的子空間過濾了無關(guān)維度疊加產(chǎn)生的噪聲效應(yīng),減少了對孤立樹構(gòu)建的影響。并且避免了由于隨機(jī)性所造成的較高異常度屬性的漏選,從而提高了算法的可靠性。同時,與KNN、SVM和Adaboost算法相比,本文算法的ACC、F1和AUC均為最高,驗(yàn)證了本文算法的分類效果最好。
表2 模型參數(shù)Table 2 Model parameters
表3 不同模型檢測結(jié)果Table 3 Detection results of different models
不同模型在異常檢測上的ROC曲線如圖6所示。由圖6可知,本文算法的ROC曲線相比于其他算法更貼近左上角,曲下面積更接近于1,在FPR較小時TPR更高,因此模型效果更好。這是因?yàn)楸疚乃惴ɡ昧薽RMRD方法篩選出了屬性相關(guān)度較高且差異性較大的子空間,因此在構(gòu)建隔離樹時分支有更明顯的差異,能夠有效檢測出異常數(shù)據(jù)。
圖6 不同模型ROC對比曲線Fig.6 ROC comparison curve of different models
KNN算法的ROC曲線雖然較其他算法更高,但FPR值也較高,說明模型錯誤識別為正常樣本的數(shù)量更高。由表3可知,本文算法比排名第二的AdaBoost算法各參數(shù)均高約2%。雖然AdaBoost算法可以將單個弱分類器加權(quán)聯(lián)合構(gòu)成一個強(qiáng)分類器,但沒有改變單個分類器隨機(jī)性的固有缺陷,并且對錯誤識別的樣本會增加其權(quán)值,影響最終分類器的精度。
為了說明異常樣本所占比例的不同對基于密度子空間孤立森林模型的影響,本文研究構(gòu)造了不同異常用電占比進(jìn)行對比實(shí)驗(yàn)分析,得到5種不同算法的ACC和AUC,結(jié)果如圖7和圖8所示。
圖7 不同模型在不同異常樣本占比上的AUCFig.7 AUC value of different models in different abnormal sample proportions
圖8 不同模型在不同異常樣本占比上的ACCFig.8 ACC value of different models in different abnormal sample proportions
由圖7可知,傳統(tǒng)IF算法的AUC最低,本文算法相較最優(yōu),其次為AdaBoost、KNN和SVM。隨著異常樣本占比的減小,KNN算法的AUC呈下降趨勢,SVM算法的波動最大,IF算法相較平穩(wěn)且呈上升趨勢,而本文算法與AdaBoost算法的AUC在0.93~0.98波動,且本文算法始終最大,證明集成算法在不同異常樣本比例下具有一定的穩(wěn)定性。
由圖8可知,隨著異常樣本占比的減少,5種算法的ACC整體上呈上升趨勢。其中,IF算法上升最快,SVM算法波動最大,而本文算法、AdaBoost和KNN 3種算法波動較為穩(wěn)定,且本文算法的ACC值始終最大,進(jìn)一步說明了本文算法的有效性。
針對傳統(tǒng)檢測算法在面對高維數(shù)據(jù)時準(zhǔn)確率下降,以及孤立森林在構(gòu)建隔離樹時的隨機(jī)性造成檢測能力不足的問題。提出了一種基于無監(jiān)督密度子空間選擇的孤立森林異常用電檢測算法,得出如下結(jié)論。
(1)提出了一種基于密度的數(shù)據(jù)壓縮表示方法,新的數(shù)據(jù)簡化提高了本文子空間選擇策略的效率。
(2)利用mRMRD準(zhǔn)則評價異常值檢測中特征的優(yōu)度,并選擇一個緊湊的子空間,使其特征間具有最小的冗余度與最高的密度相關(guān)性。
(3)通過在子空間中構(gòu)建隔離樹,降低了孤立森林屬性選擇的隨機(jī)性。通過多種實(shí)驗(yàn)驗(yàn)證并與KNN、SVM、IF和AdaBoost算法進(jìn)行對比,實(shí)驗(yàn)結(jié)果表明,本文算法具有更好的異常檢測精度。