張 維 杜 蘭
(西安電子科技大學(xué)雷達信號處理國家重點實驗室 西安710071)
一類分類是一種將感興趣的目標(biāo)類樣本和其他所有不感興趣的非目標(biāo)樣本區(qū)分開的分類方法[1]。和傳統(tǒng)兩類分類需要完備的兩類訓(xùn)練樣本不同,一類分類器在訓(xùn)練時只需要目標(biāo)類樣本,因此可以解決在類樣本數(shù)據(jù)不均衡或某一類樣本缺失時,兩類分類器無法訓(xùn)練的問題。近年來,一類分類器廣泛用于各種任務(wù)中,如數(shù)據(jù)異常檢測[2]、機場異物檢測[3]、網(wǎng)絡(luò)流量異常檢測[4]、異常行為檢測[5]、虛擬網(wǎng)絡(luò)切片異常檢測[6]以及高光譜圖像異常檢測[7]等。
一般來說,目前常見的一類分類方法可以劃分為5類[8]:(1)基于概率的方法;(2)基于距離的方法;(3)基于重構(gòu)的方法;(4)基于域的方法;(5)基于信息論的方法。基于概率的方法假設(shè)目標(biāo)類樣本服從某一種概率分布,并利用訓(xùn)練樣本估計目標(biāo)類樣本的概率密度函數(shù)。當(dāng)測試樣本的概率密度函數(shù)值大于某一閾值時,就認為該測試樣本是目標(biāo)類樣本。常見的概率密度函數(shù)有高斯分布、混合高斯分布和學(xué)生氏分布等?;诰嚯x的方法一般通過定義一個距離度量函數(shù)來衡量兩個樣本之間的相似度,當(dāng)測試樣本和訓(xùn)練樣本集的最小距離度量小于某個閾值時,認為該測試樣本是目標(biāo)類樣本。均值聚類[9]( K-means clustering)就是一種典型的基于距離的一類分類方法?;谥貥?gòu)的方法首先利用訓(xùn)練樣本學(xué)習(xí)一個目標(biāo)類樣本的表示模型,然后將樣本在該表示模型下的重構(gòu)誤差作為判斷準(zhǔn)則,即重構(gòu)誤差小于某一閾值時,樣本屬于目標(biāo)類。自編碼(Auto-Encoder,AE)模型[9]就是一種常用的基于重構(gòu)的一類分類方法?;谟虻姆椒ㄍㄟ^訓(xùn)練目標(biāo)樣本學(xué)習(xí)了目標(biāo)類樣本的分布邊界,即目標(biāo)類樣本的分布范圍,當(dāng)測試樣本位于該范圍之內(nèi)時,該樣本為目標(biāo)類,反之則為非目標(biāo)類。一類支持向量機[10](One-Class Sup p or t Vect or Machine,OCSVM)和一類支持向量數(shù)據(jù)描述[11](One-Class Support Vector Data Description,OC-SVDD)就是兩種經(jīng)典的基于域的一類分類方法?;谛畔⒄摰姆椒ㄍㄟ^定義一個信息量,如熵、相對熵,來度量兩個樣本之間的相似度,且信息量越大,兩個樣本之間的相似度越小。當(dāng)測試樣本與訓(xùn)練目標(biāo)樣本集的最大信息量小于某個閾值時,該樣本是目標(biāo)類樣本。
雖然上述的一類分類方法在很多應(yīng)用中都取得了不錯的效果,但是這些方法針對整個訓(xùn)練樣本集僅僅建立了一個分類器,在樣本分布復(fù)雜時,例如樣本分布為多模分布,這些分類器的分類性能會不同程度地下降。為了提升復(fù)雜分布下的分類性能,本文提出了一種基于Beta過程最大間隔一類分類器的集成式一類分類方法。該方法利用Dirichlet過程混合模型(Dirichlet Process Mixture,DPM)對訓(xùn)練樣本聚類,并在每個聚類學(xué)習(xí)一個Beta過程最大間隔一類分類器。通過多個分類器的集成,可以構(gòu)造一個描述能力更強的分類器,從而提升復(fù)雜分布下的一類分類性能。DPM聚類模型和分類模型在同一個貝葉斯框架下聯(lián)合優(yōu)化,保證了每一個聚類的可分性。此外,在Beta過程最大間隔一類分類器中,加入了服從Beta過程先驗分布的特征選擇因子,從而可以選擇可分性最好的特征,降低特征冗余度以及提升鑒別效果。仿真數(shù)據(jù)、公共數(shù)據(jù)集和實測SAR圖像數(shù)據(jù)的實驗結(jié)果證明:相比于其他相關(guān)的一類分類器,所提方法具有更好的分類效果。
DP是在文獻[12]中于1973年提出的一種用于非參數(shù)貝葉斯模型的隨機過程。若G服從DP,那么G可以表示成
其中,Beta(v c;1,α)表示vc是服從參數(shù)為1和α的Beta分布的隨機變量,Θc是服從基分布G0的隨機變量,z i是樣本xi的聚類指示因子, M ulti(z i;π)表示z i是服從參數(shù)為π的多項式分布,F(xiàn)(x i;Θz i)表示第z i個聚類樣本xi服從參數(shù)為Θz i的F分布,C表示最大的聚類個數(shù)。
集成式Beta過程最大間隔一類分類器是DPM模型和Beta過程最大間隔一類分類器的結(jié)合。在集成式Beta過程最大間隔一類分類器中,訓(xùn)練樣本首先通過DPM模型聚類,然后在每個聚類學(xué)習(xí)一個Beta過程最大間隔一類分類器。在DPM模型中,假設(shè)每個聚類的數(shù)據(jù)服從高斯分布F(x i;Θc)=N(x i;u c,Σc),根據(jù)共軛先驗的思想,基分布G0為Norm-Wishart(NW)分布{u c,Σc}~NW(u c,Σc;u0,Σ0,β0,γ0)。因此集成的Beta過程最大間隔一類分類器的模型可以表示為
其中,式(9)是DPM聚類模型,式(10)是Beta過程最大間隔一類分類器模型。圖1給出了集成的Beta過程最大間隔一類分類器的圖模型,其中紅色虛線框表示聚類模型,藍色虛線框表示貝葉斯最大間隔一類分類器模型。從圖1可以看出,聚類模型和分類模型通過聚類標(biāo)號聯(lián)系在一起,從而實現(xiàn)聯(lián)合優(yōu)化。圖2給出了集成式Beta過程最大間隔一類分類器流程圖。
根據(jù)式(9)和式(10),可以得到全數(shù)據(jù)的偽后驗分布形式為
圖1 集成式Beta過程最大間隔一類分類器的概率圖模型
根據(jù)式(11),可以得到各個參數(shù)的條件后驗分布,然后利用MCMC算法結(jié)合吉布斯采樣,就可以得到最終的模型參數(shù)。
為了更好地可視化聚類以及分類界面,本文從混合高斯分布中采樣了一些2維訓(xùn)練樣本。訓(xùn)練樣本的分布如圖3所示。圖4給出了基于DMP模型的聚類結(jié)果以及每個聚類的鑒別邊界,圖中黑色的實線表示每個聚類的鑒別邊界。從圖4可以看出訓(xùn)練樣本自動聚成了6類,這說明DPM模型確實可以自動確定聚類個數(shù)且很好地將服從相同分布的樣本聚為一類。另外,從6個黑色實線圈可以看出,每個聚類學(xué)到的鑒別邊界完整地包裹了這個聚類的目標(biāo)樣本。因此,提出模型可以很好地區(qū)分屬于每個聚類的目標(biāo)樣本和非目標(biāo)樣本,證明了該方法的有效性。
本節(jié)實驗采用的數(shù)據(jù)集為從UCI Machine Learning Repository中獲取的Benchmark數(shù)據(jù)集,該數(shù)據(jù)集包含了多種不同特征維數(shù)、不同規(guī)模的數(shù)據(jù)。實驗所用數(shù)據(jù)集如表1所示。
圖2 集成式Beta過程最大間隔一類分類器流程圖
實驗采用了9種現(xiàn)存的對比方法:主成分分析(PCA)[17], K 均值聚類( K-means)[9],線性SVDD(L-SVDD)[11],高斯核形式的一類SVM(KOCSVM)[10],最小生成樹(MST)[18],自組織映射(SOM)[19],自編碼網(wǎng)絡(luò)(AE)[9],MPM[20]和LPDD[21]。另外為了分析提出方法中特征選擇因子的影響,我們?nèi)サ籼岢龇椒ㄖ械奶卣鬟x擇因子變量,并將去掉特征選擇因子變量后的方法命名為集成式最大間隔一類分類器,簡稱En-MMOCC。通過比較En-MMOCC和提出方法,來分析特征選擇對實驗結(jié)果的影響。
圖3 訓(xùn)練樣本2維分布圖
圖4 聚類結(jié)果和每個聚類鑒別界面可視圖
表1 實驗所用公共數(shù)據(jù)集介紹
表2 不同方法在Waveform數(shù)據(jù)集上的3個指標(biāo)平均值(%)
表3 不同方法在Landsat數(shù)據(jù)集上的3個指標(biāo)平均值(%)
表4 不同方法在Australia數(shù)據(jù)集上的3個指標(biāo)平均值(%)
表5 不同方法在Pageblocks數(shù)據(jù)集上的3個指標(biāo)平均值(%)
本文采用3個指標(biāo)來描述分類器的性能:鑒別準(zhǔn)確率,F(xiàn)1分?jǐn)?shù)和AUC值。通過對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進行20次數(shù)據(jù)劃分,然后給出20次隨機試驗的平均結(jié)果。不同方法在5組公共數(shù)據(jù)集上的實驗結(jié)果如表2—表5所示。從表2—表5可以看出:在相同特征下,本文提出的分類器在4個數(shù)據(jù)集上都獲得了最高的準(zhǔn)確率,F(xiàn)1分?jǐn)?shù)和AUC值,證明所提分類器確實能提高目標(biāo)鑒別的效果。另外,本文方法可以看作基于聚類的一類分類方法和基于域的一類分類方法的結(jié)合,相比于基于聚類的一類分類方法 K-means以及基于域的一類分類方法KOCSVM,本文方法的分類性能要遠遠好于上述兩種方法,也說明了這種結(jié)合可以很好地提升一類分類性能。最后,從表2—表5可以明顯看出,En-MMOCC的3個分類指標(biāo)要明顯低于本文方法,特別是在訓(xùn)練樣本數(shù)較多的數(shù)據(jù)集上,說明了特征選擇因子在提出方法中的重要性。
在本節(jié)用實測SAR圖像數(shù)據(jù)來驗證所提方法的有效性。實測SAR圖像來自Sandia MiniSAR數(shù)據(jù)集。該數(shù)據(jù)集包含9幅SAR圖像。通過CFAR技術(shù),在9幅SAR圖像中一共獲得了248個目標(biāo)切片以及98個雜波切片。圖5給出了部分目標(biāo)切片和雜波切片的示意圖,其中第1行是目標(biāo)切片,第2行是雜波切片。在248個目標(biāo)切片中,隨機選取150個目標(biāo)切片作為訓(xùn)練樣本集,剩下的98個目標(biāo)切片和98個雜波切片構(gòu)造測試樣本集。
圖5 CFAR之后的一些目標(biāo)和雜波切片示例
和3.2節(jié)一樣,隨機進行20次實驗,然后計算20次實驗平均的鑒別準(zhǔn)確率、F1分?jǐn)?shù)和AUC值,實驗結(jié)果如表6所示。本文方法的鑒別準(zhǔn)確率相比于對比方法的最高值大約有2%的提升,F(xiàn)1分?jǐn)?shù)和AUC值也是最好的,說明相比于對比方法,本文方法不僅有好的鑒別性能,同時也具有較強的泛化能力。另外,和UCI數(shù)據(jù)集上的實驗類似,本文方法的3個指標(biāo)值也要高于En-MMOCC,證明了特征選擇因子在提出方法中的重要性。
(1)吉布斯采樣中的超參數(shù):吉布斯采樣的超參數(shù)設(shè)置是為了保證算法收斂,為了驗證本文方法中算法的收斂性,以Australia數(shù)據(jù)集為例,在圖6中分別給出了分類正確率隨超參數(shù)Tburn?in,Tnum和Tspace的變化曲線圖。從圖6(a)可以看出,在burnin階段的迭代次數(shù)Tburn?in>2000后,訓(xùn)練樣本的分類正確率已經(jīng)穩(wěn)定,基本不再變化,說明模型參數(shù)已經(jīng)穩(wěn)定。因此,在實驗中將超參數(shù)Tburn?in設(shè)置為3000就能保證在所有數(shù)據(jù)集上吉布斯采樣算法均已收斂。從圖6(b)可以看出,在collection階段,當(dāng)采樣次數(shù)Tnum>250后,測試分類正確率收斂到一個穩(wěn)定的值,基本不再變化,說明模型參數(shù)已經(jīng)穩(wěn)定。因此,當(dāng)超參數(shù)Tnum>250時,算法已經(jīng)收斂,在實驗中將超參數(shù)Tnum設(shè)置為300。從圖6(c)可以看出,隨著采樣間隔Tspace的變化,測試分類正確率基本不變。因此,超參數(shù)Tspace對實驗結(jié)果基本沒有影響。采樣間隔Tspace的作用是消除collection階段相鄰兩次采樣值之間的相關(guān)性,一般設(shè)置為一個大于1的常數(shù)即可。
表6 不同方法在實測SAR數(shù)據(jù)集上的3個指標(biāo)平均值(%)
圖6 Australia數(shù)據(jù)集上分類正確率隨超參數(shù)T burn?in, T num 和T space的變化曲線圖
(2)DPM聚類模型的超參數(shù):根據(jù)文獻[22]的理論指導(dǎo),Normal-Wishart分布的超參數(shù)NW(u c,Σc;u0,Σ0,β0,γ0)設(shè) 置為N W(u c,Σc;u x,Σx,1,d)是最合適的,其中u x和Σx為訓(xùn)練樣本的均值向量和協(xié)方差矩陣,d為訓(xùn)練樣本的原始維度。因此,該分布的超參數(shù)也是隨數(shù)據(jù)集變化的。對于Beta分布中的超參數(shù)α,取值范圍為[ 0,1]。由于缺乏關(guān)于該參數(shù)的先驗信息,因此根據(jù)相關(guān)經(jīng)驗,本文將α的取值設(shè)置為其對應(yīng)的中間值,即α=0.5。文獻[23]的研究表明,在分層貝葉斯模型中,一些超參數(shù)的取值對最終的實驗結(jié)果影響很小。為了驗證該理論,本文以Australia數(shù)據(jù)集數(shù)據(jù)集為例,在圖7給出了不同α取值下的測試分類正確率變化曲線??梢钥闯?,超參數(shù)α的取值對實驗結(jié)果基本沒有影響,從而驗證了文獻[23]中理論的正確性。一般來說,DPM中的最大聚類個數(shù)C可以設(shè)置為大于數(shù)據(jù)實際聚類個數(shù)的任意值。不同的數(shù)據(jù)集的實際聚類個數(shù)是不同的,因此對于不同數(shù)據(jù),可以根據(jù)經(jīng)驗設(shè)置不同的最大聚類個數(shù)C。
圖7 不同α 取值下的測試分類正確率變化曲線
(3)Beta過程最大間隔一類分類器的超參數(shù):在該部分,需要設(shè)置的超參數(shù)是變量πk的先驗分布πk~Beta(a0,b0)中的a0和b0。理論表明:a0的值越小,b0的值越大,對應(yīng)的特征選擇因子變量γ中0的個數(shù)越多,因此選擇的特征越少;反之,a0的值越大,b0的值越小,對應(yīng)的特征選擇因子變量γ中1的個數(shù)越多,即選擇的特征越多。若選擇的特征太稀疏,會去掉一些可分性強的特征,降低分類性能;若保留的特征太多,會造成特征冗余,導(dǎo)致“維度災(zāi)難”。因此,我們需要設(shè)置合適的a0和b0值,既能保留可分性的特征,又能去除冗余的特征。為了分析超參數(shù)a0和b0對實驗結(jié)果的影響,本文以Australia數(shù)據(jù)集為例,在圖8分別給出了a0和b0不同取值下測試分類正確率的曲線圖。從圖8可以看出,當(dāng)a0和b0過小或者過大時,都會造成識別率的下降。在實驗中,通過交叉驗證來確定這兩個模型超參數(shù)。
本節(jié)從訓(xùn)練和測試兩個方面比較不同一類分類方法所需的計算時間。以Australia數(shù)據(jù)集和Landsat數(shù)據(jù)集為例,表7給出了不同一類分類方法在這兩個數(shù)據(jù)集上所需的計算時間。整體來說,相比于Australia數(shù)據(jù)集,Landsat數(shù)據(jù)集訓(xùn)練樣本數(shù)更多,樣本維度也更高,因此,所有一類分類器在Landsat數(shù)據(jù)集上的計算時間要大于在Australia數(shù)據(jù)集上的。在訓(xùn)練階段,L-SVDD,KOCSVM,PCA,K-means,MST,MPM和LPDD的計算時間要小于AE,SOM和本文方法。換句話說,本文方法的計算復(fù)雜度和AE以及SOM在同一數(shù)量級上。在測試階段,本文方法和AE的計算復(fù)雜度也要大于其他對比方法。由于本文使用的是吉布斯采樣來估計后驗分布的參數(shù),因此,本文方法的計算負擔(dān)要大于一些對比方法,這是本文方法的一個不足之處。
圖8 不同和a 0和 b0取值下,本文方法在Australia數(shù)據(jù)集的測試分類正確率曲線
表7 不同一類分類方法所需的計算時間(s)
為了提升復(fù)雜分布下的一類分類性能,本文提出了一種集成的Beta過程最大間隔一類分類器。所提方法通過DPM模型對訓(xùn)練樣本聚類,同時在每個聚類學(xué)習(xí)一個Beta過程最大間隔一類分類器。通過多個分類器的集成,可以構(gòu)造出一個描述能力更強的強分類器,從而提升復(fù)雜分布下的一類分類性能。DPM模型和Beta過程最大間隔一類分類器在同一個貝葉斯框架下聯(lián)合優(yōu)化,保證每一個聚類的可分性。在一類分類器中,加入了1個服從Beta過程先驗分布的特征選擇因子,選擇出最具有可分性的特征,降低特征冗余度以及提升鑒別效果。仿真數(shù)據(jù)、公共數(shù)據(jù)集和實測雷達數(shù)據(jù)的實驗結(jié)果表明了本文方法的有效性。