王 軒,張 林,高 磊,蔣昊坤
(西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 成都 610500)(*通信作者電子郵箱linzhang8080@163.com)
分類(lèi)是機(jī)器學(xué)習(xí)[1]的一個(gè)基本問(wèn)題。1982年P(guān)awlak提出了粗糙集理論[2],進(jìn)而衍生出了覆蓋粗糙集[3-4]和鄰域粗糙集[5]。在覆蓋粗糙集的理論基礎(chǔ)上,Zhang等[6]提出了基于代表的粗糙集覆蓋分類(lèi)算法——RBC-CBNRS(Representative-Based Classification through Covering-Based Neighborhood Rough Set)。
RBC-CBNRS算法對(duì)于分類(lèi)問(wèn)題已經(jīng)能取得較高的分類(lèi)精度,在某些分類(lèi)問(wèn)題上分類(lèi)精度超過(guò)ID3[7]、J48[8]等經(jīng)典分類(lèi)算法。然而,RBC-CBNRS算法在模型構(gòu)建過(guò)程中,受訓(xùn)練集抽樣不均勻影響,導(dǎo)致某些正常對(duì)象成為離群對(duì)象或邊界對(duì)象。而這些離群對(duì)象會(huì)影響代表的選舉過(guò)程,進(jìn)而影響最終分類(lèi)結(jié)果;或者有可能成為代表,直接導(dǎo)致周?chē)鷮?duì)象都分類(lèi)錯(cuò)誤。
集成學(xué)習(xí)[9]通過(guò)結(jié)合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù),通常能取得更優(yōu)越的性能。受集成學(xué)習(xí)思想的啟發(fā),為限制離群對(duì)象或邊界對(duì)象對(duì)RBC-CBNRS算法分類(lèi)精度的影響,本文提出了一種留一法集成學(xué)習(xí)算法——LOOELCA (Leave-One-Out Ensemble Learning Classification Algorithm)。LOOELCA以RBC-CBNRS算法為基分類(lèi)算法,采用留一法[10]構(gòu)造一系列同質(zhì)基分類(lèi)器,對(duì)離群對(duì)象與對(duì)應(yīng)的基分類(lèi)器進(jìn)行標(biāo)記。這些被標(biāo)記的基分類(lèi)器和基于全集的RBC-CBNRS分類(lèi)器共同構(gòu)成委員會(huì),并對(duì)未分類(lèi)對(duì)象進(jìn)行標(biāo)簽預(yù)測(cè)。如委員會(huì)表決一致,則直接給該未分類(lèi)對(duì)象貼上類(lèi)標(biāo)簽;否則,基于k最近鄰(k-Nearest Neighbor, kNN)算法并利用標(biāo)注對(duì)象對(duì)未分類(lèi)對(duì)象分類(lèi)。
實(shí)驗(yàn)在UCI的dermatology、zoo、wdbc、ionosphere、wine、 penbased、tic-tac-toe、sonar、mushroom等9個(gè)數(shù)據(jù)集上進(jìn)行,測(cè)試了LOOELCA在不同訓(xùn)練集規(guī)模下的分類(lèi)精度。實(shí)驗(yàn)結(jié)果表明,LOOELCA較RBC-CBNRS算法分類(lèi)精度有提升,且與ID3、J48、Na?ve Bayes[11]、OneR[12]等經(jīng)典的分類(lèi)算法相比,通常能得到更高的分類(lèi)精度。
本文的基本數(shù)據(jù)模型為決策信息系統(tǒng),涉及到覆蓋粗糙集和鄰域粗糙集等相關(guān)概念。
定義1 決策信息系統(tǒng)[13]。決策信息系統(tǒng)S為一個(gè)五元組,定義為:
S=(U,C,d,V,I)
(1)
其中:U是整個(gè)論域;C表示條件屬性集合;d表示決策屬性;V={Va|a∈C∪d}是屬性值域集合;I={Ia|a∈C∪d}表示U→Va的信息函數(shù)。表1是一個(gè)決策信息系統(tǒng)。本文只討論單決策的名詞型決策信息系統(tǒng)。
表1 決策信息系統(tǒng)示例Tab. 1 Examples of decision system
定義2 相似度。任意x,y∈U在A?C中的相似度記為:
sim(x,y,A)=sam(x,y,A)/|A|
(2)
其中:
sam(x,y,A)=|{a∈A|a(x)=a(y)}|
(3)
因?yàn)楸疚倪x擇對(duì)象的全部屬性,即A=C,因此可用sim(x,y)表示sim(x,y,A)。本文采用overlap算法計(jì)算對(duì)象之間相似度。根據(jù)定義2,由表1的決策信息系統(tǒng)可計(jì)算出sim(x1,x6)=5/6。同理可計(jì)算出各對(duì)象之間的相似度。
定義3 鄰域。任意x∈S,設(shè)置相似度閾值θ(θ∈(0,1]),那么定義對(duì)象的鄰域?yàn)?
n(x,θ)={y∈U|sim(x,y) ≥θ}
(4)
相似度閾值θ指的是作為對(duì)象的鄰居所要滿(mǎn)足的最小相似度值。根據(jù)定義2, 相似度閾值取值范圍為{1/|C|,2/|C|,…,1}。如設(shè)定的相似度閾值介于兩個(gè)有效相似度之間,相似度閾值向上取值。例如,根據(jù)表1給出的決策信息系統(tǒng)C=6,如設(shè)定相似度閾值為3/7,此時(shí)2/6<3/7<3/6,那么相似度閾值取3/6。相似度閾值設(shè)置得越小,對(duì)象的鄰域越大;反之,對(duì)象的鄰域越小。結(jié)合表1并根據(jù)式(2)、(4)可知,n(x1, 4/6)={x1,x2,x4,x6,x11},n(x1, 5/6)={x1,x6,x11}。
定義4 最小相似度閾值。給定決策信息系統(tǒng)S=(U,C,d,V,I),d={1,2,…,k},U/ j5i0abt0b={X1,X2, …,Xk},那么任意x∈Xi的最小相似度閾值θ+定義如下:
θx+=min{0<θ≤1|n(x,θ)?Xi}
(5)
θx+由對(duì)象x和決策信息系統(tǒng)S共同決定。具體示例如圖1所示。
定義5 最大鄰域。最小相似度閾值對(duì)應(yīng)的鄰域就是最大鄰域;對(duì)于任意x∈S的最大鄰域可記為:
n*(x)=n(x,θx+)
(6)
最大鄰域就是在決策一致的情況下,覆蓋對(duì)象最多的鄰域。
圖1 n*(x1)的定義示例Fig. 1 Example of n*(x1)
本章首先介紹LOOELCA的基算法RBC-CBNRS算法,并對(duì)RBC-CBNRS算法進(jìn)行時(shí)間復(fù)雜度分析;接著介紹集成學(xué)習(xí)策略的框架和過(guò)程,并對(duì)LOOELCA進(jìn)行算法分析。
受抽樣不均勻的影響,部分正常對(duì)象可能會(huì)成為邊界對(duì)象或者離群對(duì)象,這些點(diǎn)會(huì)影響代表選擇的過(guò)程。例如,這類(lèi)對(duì)象會(huì)影響其他點(diǎn)的鄰域圈定過(guò)程,還有可能成為有效代表,這樣會(huì)影響RBC-CBNRS算法的分類(lèi)精度。因此,離群對(duì)象或邊界對(duì)象對(duì)應(yīng)的分類(lèi)器具有研究?jī)r(jià)值。
本文的LOOELCA的基算法是RBC-CBNRS算法。RBC-CBNRS算法分為兩個(gè)子算法,分別是代表生成算法和標(biāo)簽預(yù)測(cè)算法。
2.2.1 代表生成算法
這個(gè)階段主要選舉出能夠作為代表的對(duì)象,并將代表保存下來(lái)。下面給出代表選舉過(guò)程的偽代碼。
輸入 決策信息系統(tǒng)DS={U,C,j5i0abt0b,V,I}。
輸出 代表集合R及相似度閾值集合T。
1)
R=?,T=?;
2)
根據(jù)式(2)計(jì)算sim(x,y), 其中(x,y)∈(U×U);
3)
for (eachx∈U) do
4)
計(jì)算θx+;
5)
計(jì)算n*(x);
6)
end for
7)
計(jì)算正域U/d={X1,X2, …,Xk};
8)
for (i=1 tok) do
9)
X=Xi;
10)
whileX≠? do
11)
選擇當(dāng)前覆蓋對(duì)象最多的代表x∈U∩Xi;
12)
Ri=Ri∪{x};
13)
X=X-n*(x);
14)
end while
15)
R=R∪Ri;
16)
end for
17)
T={nr+|r∈R};
18)
returnR和T;
其中:
第1)行,定義代表集合R和相似度閾值集合T。
第2)行,根據(jù)式(2)計(jì)算每?jī)蓚€(gè)對(duì)象之間的相似度。
第3)~6)行,根據(jù)式(5)計(jì)算對(duì)象x的最小相似度閾值θx+。根據(jù)式(6)計(jì)算x最大鄰域n*(x)。
第7)行,U是論域,X是U的子集,共分成k個(gè)子集。
第8)~16)行,選出當(dāng)前覆蓋正域?qū)ο笞疃嗟膶?duì)象x,也就是|n*(x)|最大的對(duì)象x。它就是本輪選出的代表,然后從當(dāng)前正域X中刪除x的鄰域包含的所有對(duì)象,并將選出來(lái)的代表x及對(duì)應(yīng)鄰域n*(x)保存。循環(huán)此步驟直至論域U被全部覆蓋。
第17)~18)行,返回代表集合R及代表對(duì)應(yīng)鄰域的相似度閾值集合T。
2.2.2 標(biāo)簽預(yù)測(cè)算法
定義6 距離。設(shè)x是未分類(lèi)對(duì)象,它與代表r之間的距離定義為:
distance=1/sim(x,r) -1 /θr+;
(7)
顯然,未分類(lèi)對(duì)象與代表對(duì)象之間的相似度和距離成反比。一般認(rèn)為未分類(lèi)對(duì)象與距離最近的代表保持決策一致。與未分類(lèi)對(duì)象擁有最小距離的代表組成的集合稱(chēng)為有效代表集。有效代表集記為:
E={r∈R|distance(x,r)=mindis(x,R)}
(8)
其中:
mindis(x,R)=min{distance(x,r) |r∈R}
(9)
根據(jù)有效代表可以對(duì)未分類(lèi)對(duì)象的類(lèi)標(biāo)簽進(jìn)行預(yù)測(cè):只有一個(gè)有效代表時(shí),未分類(lèi)對(duì)象與有效代表的類(lèi)標(biāo)簽一致;有多個(gè)有效代表時(shí),通過(guò)所有有效代表的類(lèi)標(biāo)簽投票來(lái)決定未分類(lèi)對(duì)象類(lèi)標(biāo)簽。
下面給出標(biāo)簽預(yù)測(cè)算法的偽代碼描述。
輸入 未分類(lèi)對(duì)象x, 代表集合R。
輸出 預(yù)測(cè)的類(lèi)標(biāo)簽d′(x)。
1)
E=?;
2)
mindis=MAX_VALUE;
3)
for (eachr∈Y) do
4)
計(jì)算sim(x,r);
5)
計(jì)算distance(x,r);
6)
if (distance(x,r) 7) mindis=distance(x,r); 8) E={r}; 9) else then 10) E=E∪{r}; 11) end if 12) end for 13) Getd′(x); 14) returnd′(x); 其中: 第1)~2)行,初始化有效代表集合E和最小距離。 第4)~5)行,根據(jù)式(7)計(jì)算未分類(lèi)對(duì)象與代表之間的距離。 第6)~10)行,根據(jù)式(8)~(9)找出與未分類(lèi)對(duì)象距離最小的有效代表集合E。 第13)~14)行,有效代表投票決定未預(yù)測(cè)對(duì)象類(lèi)標(biāo)簽并返回。 本文提出的LOOELCA主要分為以下5個(gè)步驟:1)把帶類(lèi)標(biāo)簽的訓(xùn)練集隨機(jī)等分成n份;2)依照留一法的思想進(jìn)行重采樣,形成n組〈訓(xùn)練集-1,測(cè)試集〉;3)調(diào)用RBC-CBNRS算法構(gòu)建基分類(lèi)器;4)根據(jù)第3)步構(gòu)建的分類(lèi)器組成委員會(huì);5)通過(guò)委員會(huì)對(duì)測(cè)試集中的對(duì)象進(jìn)行標(biāo)簽預(yù)測(cè)。 2.3.1 留一法 留一法把訓(xùn)練集TR分層采樣為n份容量為n-1但互斥的子集,每次將1個(gè)子集作為訓(xùn)練集,預(yù)留出來(lái)的1個(gè)對(duì)象作為測(cè)試。正如圖2的基分類(lèi)器構(gòu)建階段、RBC-CBNRS分類(lèi)階段描述:用第一個(gè)子訓(xùn)練集預(yù)測(cè)對(duì)象x1,第二個(gè)子訓(xùn)練集預(yù)測(cè)對(duì)象x2,依此類(lèi)推直至預(yù)測(cè)出xn。其中對(duì)預(yù)留對(duì)象進(jìn)行預(yù)測(cè)時(shí),采用的是RBC-CBNRS算法。 對(duì)于預(yù)測(cè)錯(cuò)誤的預(yù)留對(duì)象進(jìn)行標(biāo)記,并將其放入離群池,如圖2中所示的對(duì)象x2、x3。在離群對(duì)象選擇階段,所有被標(biāo)記的對(duì)象放入離群池。離群池中的對(duì)象用于對(duì)委員會(huì)決策不一致對(duì)象分類(lèi)。 2.3.2 集成策略 把留一法構(gòu)建出來(lái)的基分類(lèi)器進(jìn)行集成。若留一法中RBC-CBNRS算法對(duì)預(yù)留出的對(duì)象分類(lèi)錯(cuò)誤,那么算法認(rèn)為預(yù)留對(duì)象是訓(xùn)練集隨機(jī)抽樣時(shí)產(chǎn)生的離群對(duì)象。對(duì)預(yù)留對(duì)象分類(lèi)錯(cuò)誤:一方面表明這個(gè)分類(lèi)器有缺陷;另一方面說(shuō)明這個(gè)預(yù)留對(duì)象有特點(diǎn)。因此這類(lèi)對(duì)象對(duì)應(yīng)的子訓(xùn)練集比較有研究?jī)r(jià)值。如圖2所示,所有離群對(duì)象對(duì)應(yīng)的分類(lèi)器和原始訓(xùn)練集對(duì)應(yīng)的分類(lèi)器一起組成委員會(huì)。 LOOELCA根據(jù)基分類(lèi)器構(gòu)成的委員會(huì)決定測(cè)試集中未分類(lèi)對(duì)象的標(biāo)簽。會(huì)有兩種情況:委員會(huì)中成員決策一致,那么此時(shí)未分類(lèi)對(duì)象和委員會(huì)保持決策一致;另一種情況,委員會(huì)中各成員決策不一致,利用outlier pool中的對(duì)象采用kNN算法對(duì)未分類(lèi)對(duì)象分類(lèi)。 LOOELCA的基分類(lèi)器是RBC-CBNRS算法,因此要分析算法復(fù)雜度就需先分析RBC-CBNRS算法的復(fù)雜度。下面對(duì)RBC-CBNRS算法的兩個(gè)階段進(jìn)行復(fù)雜度分析。 代表選舉子算法階段:計(jì)算相似度時(shí)每個(gè)對(duì)象有a個(gè)屬性,每個(gè)對(duì)象需要與其他n-1個(gè)對(duì)象計(jì)算相似度,此步的復(fù)雜度為an(n-1),記為O(n2)。計(jì)算最小相似度閾值θx+時(shí),每個(gè)對(duì)象需要與其余n-1個(gè)對(duì)象比較相似度,此步的復(fù)雜度為n(n-1),記為O(n2)。采用貪心算法對(duì)已生成的鄰域進(jìn)行覆蓋時(shí),需要比較選出代表后的其余對(duì)象。選出零個(gè)代表時(shí)需要計(jì)算n次,當(dāng)選出1個(gè)代表時(shí)需要計(jì)算n-1次,依此類(lèi)推,當(dāng)選出p個(gè)代表時(shí), 算法復(fù)雜度為n+(n-1)+…+(n-p+1)=p(2n-p+1)/2,記為O(np)。綜上所述該階段的復(fù)雜度為: O(n2)+O(n2)+O(np)=O(n2) 標(biāo)簽預(yù)測(cè)子算法階段:同樣選出的有效代表為p個(gè),測(cè)試集有m個(gè)對(duì)象。每個(gè)未預(yù)測(cè)對(duì)象需要與p個(gè)代表計(jì)算距離,因此需計(jì)算相似度。由上一步計(jì)算可知,計(jì)算相似度時(shí)的復(fù)雜度為O(n2),所以該階段的復(fù)雜度為O(n2mp)。算出距離之后需要找出最小距離,即每個(gè)未預(yù)測(cè)對(duì)象需與每一個(gè)代表比較距離,所以復(fù)雜度為O(mp)。標(biāo)簽預(yù)測(cè)階段只需計(jì)算相似度和距離,而簡(jiǎn)單的投票階段可以忽略。因此該階段的復(fù)雜度為: O(n2mp)+O(mp)=O(mpn2) 綜上所述,RBC-CBNRS的算法復(fù)雜度為O(mpn2)。本文LOOELCA需要對(duì)基分類(lèi)器進(jìn)行集成,假設(shè)集成的基分類(lèi)器數(shù)目為t。最簡(jiǎn)單的情況委員會(huì)中只有原始訓(xùn)練集構(gòu)成的一個(gè)分類(lèi)器,此時(shí)算法的復(fù)雜度與RBC-CBNRS算法復(fù)雜度相同,可記為O(mpn2)。最復(fù)雜的情況是所有的基分類(lèi)器都進(jìn)入委員會(huì),此時(shí)共有(n+1)個(gè)分類(lèi)器。這時(shí)LOOELCA的復(fù)雜度為mpn2(n+1),可記為O(mpn3)。綜上所述,LOOELCA的復(fù)雜度介于兩者之間為: O(mpn2) ≤O(tmpn2) ≤O(mpn3) 圖2 集成學(xué)習(xí)策略示意圖Fig. 2 Schematic diagram of ensemble learning strategy 實(shí)驗(yàn)在UCI的9個(gè)數(shù)據(jù)集上與RBC-CBNRS算法作了內(nèi)部對(duì)比。另外,本文提出的LOOELCA也和J48、ID3、Na?ve Bayes、OneR等算法作了比較。實(shí)驗(yàn)所用數(shù)據(jù)集詳細(xì)信息如表2所列。 首先,實(shí)驗(yàn)將LOOELCA與RBC-CBNRS算法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表3~4所示。整體上來(lái)看,在實(shí)驗(yàn)所用的9個(gè)數(shù)據(jù)集上,LOOELCA比RBC-CBNRS算法分類(lèi)精度有提升,精度平均提升0.35~2.76個(gè)百分點(diǎn)。其中精度平均提升是指對(duì)應(yīng)數(shù)據(jù)集上各組實(shí)驗(yàn)精度提升值總和除以實(shí)驗(yàn)組數(shù)。 由表3~4可以看出,在penbased、ionosphere、mushroom、wdbc、zoo、dermatology六個(gè)數(shù)據(jù)集上,當(dāng)訓(xùn)練集設(shè)定比例較小時(shí),LOOELCA較RBC-CBNRS算法分類(lèi)精度提升更高。這說(shuō)明當(dāng)選定訓(xùn)練集較小時(shí),更容易產(chǎn)生離群對(duì)象或邊界對(duì)象。在RBC-CBNRS算法中訓(xùn)練集較小時(shí),離群對(duì)象對(duì)分類(lèi)精確度的影響較大;隨著數(shù)據(jù)集的不斷變大,離群對(duì)象使RBC-CBNRS算法分類(lèi)錯(cuò)誤的影響被限制了。 在tic-tac-toe數(shù)據(jù)集上,LOOELCA對(duì)RBC-CBNRS算法精度提升不受訓(xùn)練集比例影響。說(shuō)明這個(gè)數(shù)據(jù)集數(shù)據(jù)分布比較均勻,離群對(duì)象或邊界對(duì)象對(duì)分類(lèi)精確度的影響相對(duì)穩(wěn)定。 有少數(shù)組實(shí)驗(yàn)數(shù)據(jù)分類(lèi)精度不升反降,其他的幾組實(shí)驗(yàn)分類(lèi)精度有提升。同樣,在sonar數(shù)據(jù)集上,第一組實(shí)驗(yàn)數(shù)據(jù)分類(lèi)精度提升不明顯。說(shuō)明在對(duì)應(yīng)數(shù)據(jù)集上,訓(xùn)練集較小時(shí),離群對(duì)象對(duì)分類(lèi)精度的影響不大,此時(shí)訓(xùn)練集對(duì)象較少,有正常對(duì)象被LOOELCA當(dāng)成離群對(duì)象,反而影響了分類(lèi)精度。隨著訓(xùn)練集的增大,離群對(duì)象對(duì)RBC-CBNRS算法分類(lèi)精度的影響凸顯出來(lái),因此LOOELCA對(duì)分類(lèi)精度的提升也更明顯。 實(shí)驗(yàn)在UCI的9個(gè)數(shù)據(jù)集上和J48、Na?ve Bayes、ID3、OneR等經(jīng)典算法作了對(duì)比。圖3繪出了9個(gè)數(shù)據(jù)集上各分類(lèi)算法精度的對(duì)比圖。 在mushroom數(shù)據(jù)集上Na?ve Bayes算法的分類(lèi)精度約為92%;在penbased數(shù)據(jù)集上OneR算法的精度約為35%;在dermatology數(shù)據(jù)集上OneR算法的精度約為45%。為了繪圖清晰,圖3(a)、(c)、(i)只繪出了四種算法的精度對(duì)比。 表2 數(shù)據(jù)集信息Tab. 2 Data set information 表3 小數(shù)據(jù)集上LOOELCA相對(duì)于RBC-CBNRS的分類(lèi)精度提升百分點(diǎn)Tab. 3 Classification accuracy’s percentage point increase of LOOELCA relative to RBC-CBNRS on small data sets 表4 較大數(shù)據(jù)集上LOOELCA相對(duì)于RBC-CBNRS的分類(lèi)精度提升百分點(diǎn)Tab. 4 Classification accuracy’s percentage point increase of LOOELCA relative to RBC-CBNRS on larger data sets 圖3 LOOELCA與經(jīng)典算法對(duì)比Fig. 3 Comparison of LOOELCA and classical algorithms 從總體上看,在實(shí)驗(yàn)所用數(shù)據(jù)集上,LOOELCA分類(lèi)精度高于參與對(duì)比的經(jīng)典算法。部分?jǐn)?shù)據(jù)集上優(yōu)勢(shì)不明顯,例如mushroom、wdbc兩個(gè)數(shù)據(jù)集。由于數(shù)據(jù)集本身對(duì)象較多,屬性較多,所以大部分分類(lèi)算法都能取得不錯(cuò)的分類(lèi)效果。 圖3(d)、(g)、(i)顯示,在對(duì)應(yīng)數(shù)據(jù)集上LOOELCA并不能優(yōu)于所有算法,但總體上看分類(lèi)精度優(yōu)于大部分參與對(duì)比的算法。其他子圖顯示,對(duì)應(yīng)數(shù)據(jù)集上LOOELCA分類(lèi)精度優(yōu)于其他參與對(duì)比的經(jīng)典算法。 如表5所示,列出了9個(gè)數(shù)據(jù)集上參與對(duì)比的五種算法的排名。便于對(duì)比,當(dāng)分類(lèi)精度平均值相差小于0.5%時(shí),排名相同。從平均排名看LOOELCA排名最靠前,排名第二的Na?ve Bayes算法平均排名與LOOELCA差值為1。 表5 每個(gè)數(shù)據(jù)集上的各算法排名Tab. 5 Ranking of each algorithm on each data set 本文提出的LOOELCA分類(lèi)精度較RBC-CBNRS算法有提升,且分類(lèi)性能優(yōu)于J48等經(jīng)典分類(lèi)算法。實(shí)驗(yàn)結(jié)果可看出,離群對(duì)象、邊界對(duì)象對(duì)RBC-CBNRS算法分類(lèi)效果造成顯著影響。本文提出的LOOELCA有效地減小了該影響,提升了分類(lèi)精度。從大部分?jǐn)?shù)據(jù)集來(lái)看,訓(xùn)練集規(guī)模小時(shí),LOOELCA對(duì)RBC-CBNRS算法的精度提升更明顯。這也說(shuō)明當(dāng)訓(xùn)練集規(guī)模小時(shí),抽樣不均勻?qū)λ惴ǖ挠绊懜蟆T跀?shù)據(jù)集較大的mushroom、wdbc兩個(gè)數(shù)據(jù)集上,LOOELCA較RBC-CBNRS算法精度也有提升。這說(shuō)明就算有足夠的訓(xùn)練集數(shù)據(jù),也存在離群對(duì)象或邊界對(duì)象對(duì)分類(lèi)精度影響的問(wèn)題。 與Na?ve Bayes等經(jīng)典算法的對(duì)比實(shí)驗(yàn)可以看出:在實(shí)驗(yàn)所用的大部分?jǐn)?shù)據(jù)集上,LOOELCA分類(lèi)精度更高。結(jié)合實(shí)驗(yàn)結(jié)果和表2可以看出,在數(shù)據(jù)集對(duì)象超過(guò)300時(shí),LOOELCA總能獲得較好的分類(lèi)效果。在實(shí)驗(yàn)所用數(shù)據(jù)集上,LOOELCA分類(lèi)精度變化平緩,分類(lèi)性能穩(wěn)定。 RBC-CBNRS算法中,受抽樣不均勻影響會(huì)出現(xiàn)離群對(duì)象或邊界對(duì)象。為了應(yīng)對(duì)離群對(duì)象或邊界對(duì)象對(duì)分類(lèi)精度的影響,本文提出了一種基于RBC-CBNRS算法的留一法的集成學(xué)習(xí)策略。實(shí)驗(yàn)結(jié)果表明,本文提出的集成策略對(duì)算法的分類(lèi)精度有提升。在進(jìn)一步的工作中,將研究代價(jià)敏感[14-15]問(wèn)題對(duì)RBC-CBNRS算法的影響,如考慮測(cè)試代價(jià)、誤分類(lèi)代價(jià)等因素。2.3 集成學(xué)習(xí)策略
2.4 LOOELCA算法分析
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)集
3.2 與RBC-CBNRS算法對(duì)比
3.3 與經(jīng)典算法對(duì)比
3.4 結(jié)果分析
4 結(jié)語(yǔ)