• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于代表的留一法集成學(xué)習(xí)分類(lèi)

    2018-11-23 00:59:52蔣昊坤
    計(jì)算機(jī)應(yīng)用 2018年10期
    關(guān)鍵詞:離群集上鄰域

    王 軒,張 林,高 磊,蔣昊坤

    (西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 成都 610500)(*通信作者電子郵箱linzhang8080@163.com)

    0 引言

    分類(lèi)是機(jī)器學(xué)習(xí)[1]的一個(gè)基本問(wèn)題。1982年P(guān)awlak提出了粗糙集理論[2],進(jìn)而衍生出了覆蓋粗糙集[3-4]和鄰域粗糙集[5]。在覆蓋粗糙集的理論基礎(chǔ)上,Zhang等[6]提出了基于代表的粗糙集覆蓋分類(lèi)算法——RBC-CBNRS(Representative-Based Classification through Covering-Based Neighborhood Rough Set)。

    RBC-CBNRS算法對(duì)于分類(lèi)問(wèn)題已經(jīng)能取得較高的分類(lèi)精度,在某些分類(lèi)問(wèn)題上分類(lèi)精度超過(guò)ID3[7]、J48[8]等經(jīng)典分類(lèi)算法。然而,RBC-CBNRS算法在模型構(gòu)建過(guò)程中,受訓(xùn)練集抽樣不均勻影響,導(dǎo)致某些正常對(duì)象成為離群對(duì)象或邊界對(duì)象。而這些離群對(duì)象會(huì)影響代表的選舉過(guò)程,進(jìn)而影響最終分類(lèi)結(jié)果;或者有可能成為代表,直接導(dǎo)致周?chē)鷮?duì)象都分類(lèi)錯(cuò)誤。

    集成學(xué)習(xí)[9]通過(guò)結(jié)合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù),通常能取得更優(yōu)越的性能。受集成學(xué)習(xí)思想的啟發(fā),為限制離群對(duì)象或邊界對(duì)象對(duì)RBC-CBNRS算法分類(lèi)精度的影響,本文提出了一種留一法集成學(xué)習(xí)算法——LOOELCA (Leave-One-Out Ensemble Learning Classification Algorithm)。LOOELCA以RBC-CBNRS算法為基分類(lèi)算法,采用留一法[10]構(gòu)造一系列同質(zhì)基分類(lèi)器,對(duì)離群對(duì)象與對(duì)應(yīng)的基分類(lèi)器進(jìn)行標(biāo)記。這些被標(biāo)記的基分類(lèi)器和基于全集的RBC-CBNRS分類(lèi)器共同構(gòu)成委員會(huì),并對(duì)未分類(lèi)對(duì)象進(jìn)行標(biāo)簽預(yù)測(cè)。如委員會(huì)表決一致,則直接給該未分類(lèi)對(duì)象貼上類(lèi)標(biāo)簽;否則,基于k最近鄰(k-Nearest Neighbor, kNN)算法并利用標(biāo)注對(duì)象對(duì)未分類(lèi)對(duì)象分類(lèi)。

    實(shí)驗(yàn)在UCI的dermatology、zoo、wdbc、ionosphere、wine、 penbased、tic-tac-toe、sonar、mushroom等9個(gè)數(shù)據(jù)集上進(jìn)行,測(cè)試了LOOELCA在不同訓(xùn)練集規(guī)模下的分類(lèi)精度。實(shí)驗(yàn)結(jié)果表明,LOOELCA較RBC-CBNRS算法分類(lèi)精度有提升,且與ID3、J48、Na?ve Bayes[11]、OneR[12]等經(jīng)典的分類(lèi)算法相比,通常能得到更高的分類(lèi)精度。

    1 相關(guān)工作

    本文的基本數(shù)據(jù)模型為決策信息系統(tǒng),涉及到覆蓋粗糙集和鄰域粗糙集等相關(guān)概念。

    1.1 決策信息系統(tǒng)

    定義1 決策信息系統(tǒng)[13]。決策信息系統(tǒng)S為一個(gè)五元組,定義為:

    S=(U,C,d,V,I)

    (1)

    其中:U是整個(gè)論域;C表示條件屬性集合;d表示決策屬性;V={Va|a∈C∪d}是屬性值域集合;I={Ia|a∈C∪d}表示U→Va的信息函數(shù)。表1是一個(gè)決策信息系統(tǒng)。本文只討論單決策的名詞型決策信息系統(tǒng)。

    表1 決策信息系統(tǒng)示例Tab. 1 Examples of decision system

    定義2 相似度。任意x,y∈U在A?C中的相似度記為:

    sim(x,y,A)=sam(x,y,A)/|A|

    (2)

    其中:

    sam(x,y,A)=|{a∈A|a(x)=a(y)}|

    (3)

    因?yàn)楸疚倪x擇對(duì)象的全部屬性,即A=C,因此可用sim(x,y)表示sim(x,y,A)。本文采用overlap算法計(jì)算對(duì)象之間相似度。根據(jù)定義2,由表1的決策信息系統(tǒng)可計(jì)算出sim(x1,x6)=5/6。同理可計(jì)算出各對(duì)象之間的相似度。

    1.2 鄰域

    定義3 鄰域。任意x∈S,設(shè)置相似度閾值θ(θ∈(0,1]),那么定義對(duì)象的鄰域?yàn)?

    n(x,θ)={y∈U|sim(x,y) ≥θ}

    (4)

    相似度閾值θ指的是作為對(duì)象的鄰居所要滿(mǎn)足的最小相似度值。根據(jù)定義2, 相似度閾值取值范圍為{1/|C|,2/|C|,…,1}。如設(shè)定的相似度閾值介于兩個(gè)有效相似度之間,相似度閾值向上取值。例如,根據(jù)表1給出的決策信息系統(tǒng)C=6,如設(shè)定相似度閾值為3/7,此時(shí)2/6<3/7<3/6,那么相似度閾值取3/6。相似度閾值設(shè)置得越小,對(duì)象的鄰域越大;反之,對(duì)象的鄰域越小。結(jié)合表1并根據(jù)式(2)、(4)可知,n(x1, 4/6)={x1,x2,x4,x6,x11},n(x1, 5/6)={x1,x6,x11}。

    定義4 最小相似度閾值。給定決策信息系統(tǒng)S=(U,C,d,V,I),d={1,2,…,k},U/ j5i0abt0b={X1,X2, …,Xk},那么任意x∈Xi的最小相似度閾值θ+定義如下:

    θx+=min{0<θ≤1|n(x,θ)?Xi}

    (5)

    θx+由對(duì)象x和決策信息系統(tǒng)S共同決定。具體示例如圖1所示。

    定義5 最大鄰域。最小相似度閾值對(duì)應(yīng)的鄰域就是最大鄰域;對(duì)于任意x∈S的最大鄰域可記為:

    n*(x)=n(x,θx+)

    (6)

    最大鄰域就是在決策一致的情況下,覆蓋對(duì)象最多的鄰域。

    圖1 n*(x1)的定義示例Fig. 1 Example of n*(x1)

    2 問(wèn)題描述及LOOELCA

    本章首先介紹LOOELCA的基算法RBC-CBNRS算法,并對(duì)RBC-CBNRS算法進(jìn)行時(shí)間復(fù)雜度分析;接著介紹集成學(xué)習(xí)策略的框架和過(guò)程,并對(duì)LOOELCA進(jìn)行算法分析。

    2.1 問(wèn)題描述

    受抽樣不均勻的影響,部分正常對(duì)象可能會(huì)成為邊界對(duì)象或者離群對(duì)象,這些點(diǎn)會(huì)影響代表選擇的過(guò)程。例如,這類(lèi)對(duì)象會(huì)影響其他點(diǎn)的鄰域圈定過(guò)程,還有可能成為有效代表,這樣會(huì)影響RBC-CBNRS算法的分類(lèi)精度。因此,離群對(duì)象或邊界對(duì)象對(duì)應(yīng)的分類(lèi)器具有研究?jī)r(jià)值。

    2.2 基于代表選舉的分類(lèi)算法

    本文的LOOELCA的基算法是RBC-CBNRS算法。RBC-CBNRS算法分為兩個(gè)子算法,分別是代表生成算法和標(biāo)簽預(yù)測(cè)算法。

    2.2.1 代表生成算法

    這個(gè)階段主要選舉出能夠作為代表的對(duì)象,并將代表保存下來(lái)。下面給出代表選舉過(guò)程的偽代碼。

    輸入 決策信息系統(tǒng)DS={U,C,j5i0abt0b,V,I}。

    輸出 代表集合R及相似度閾值集合T。

    1)

    R=?,T=?;

    2)

    根據(jù)式(2)計(jì)算sim(x,y), 其中(x,y)∈(U×U);

    3)

    for (eachx∈U) do

    4)

    計(jì)算θx+;

    5)

    計(jì)算n*(x);

    6)

    end for

    7)

    計(jì)算正域U/d={X1,X2, …,Xk};

    8)

    for (i=1 tok) do

    9)

    X=Xi;

    10)

    whileX≠? do

    11)

    選擇當(dāng)前覆蓋對(duì)象最多的代表x∈U∩Xi;

    12)

    Ri=Ri∪{x};

    13)

    X=X-n*(x);

    14)

    end while

    15)

    R=R∪Ri;

    16)

    end for

    17)

    T={nr+|r∈R};

    18)

    returnR和T;

    其中:

    第1)行,定義代表集合R和相似度閾值集合T。

    第2)行,根據(jù)式(2)計(jì)算每?jī)蓚€(gè)對(duì)象之間的相似度。

    第3)~6)行,根據(jù)式(5)計(jì)算對(duì)象x的最小相似度閾值θx+。根據(jù)式(6)計(jì)算x最大鄰域n*(x)。

    第7)行,U是論域,X是U的子集,共分成k個(gè)子集。

    第8)~16)行,選出當(dāng)前覆蓋正域?qū)ο笞疃嗟膶?duì)象x,也就是|n*(x)|最大的對(duì)象x。它就是本輪選出的代表,然后從當(dāng)前正域X中刪除x的鄰域包含的所有對(duì)象,并將選出來(lái)的代表x及對(duì)應(yīng)鄰域n*(x)保存。循環(huán)此步驟直至論域U被全部覆蓋。

    第17)~18)行,返回代表集合R及代表對(duì)應(yīng)鄰域的相似度閾值集合T。

    2.2.2 標(biāo)簽預(yù)測(cè)算法

    定義6 距離。設(shè)x是未分類(lèi)對(duì)象,它與代表r之間的距離定義為:

    distance=1/sim(x,r) -1 /θr+;

    (7)

    顯然,未分類(lèi)對(duì)象與代表對(duì)象之間的相似度和距離成反比。一般認(rèn)為未分類(lèi)對(duì)象與距離最近的代表保持決策一致。與未分類(lèi)對(duì)象擁有最小距離的代表組成的集合稱(chēng)為有效代表集。有效代表集記為:

    E={r∈R|distance(x,r)=mindis(x,R)}

    (8)

    其中:

    mindis(x,R)=min{distance(x,r) |r∈R}

    (9)

    根據(jù)有效代表可以對(duì)未分類(lèi)對(duì)象的類(lèi)標(biāo)簽進(jìn)行預(yù)測(cè):只有一個(gè)有效代表時(shí),未分類(lèi)對(duì)象與有效代表的類(lèi)標(biāo)簽一致;有多個(gè)有效代表時(shí),通過(guò)所有有效代表的類(lèi)標(biāo)簽投票來(lái)決定未分類(lèi)對(duì)象類(lèi)標(biāo)簽。

    下面給出標(biāo)簽預(yù)測(cè)算法的偽代碼描述。

    輸入 未分類(lèi)對(duì)象x, 代表集合R。

    輸出 預(yù)測(cè)的類(lèi)標(biāo)簽d′(x)。

    1)

    E=?;

    2)

    mindis=MAX_VALUE;

    3)

    for (eachr∈Y) do

    4)

    計(jì)算sim(x,r);

    5)

    計(jì)算distance(x,r);

    6)

    if (distance(x,r)

    7)

    mindis=distance(x,r);

    8)

    E={r};

    9)

    else then

    10)

    E=E∪{r};

    11)

    end if

    12)

    end for

    13)

    Getd′(x);

    14)

    returnd′(x);

    其中:

    第1)~2)行,初始化有效代表集合E和最小距離。

    第4)~5)行,根據(jù)式(7)計(jì)算未分類(lèi)對(duì)象與代表之間的距離。

    第6)~10)行,根據(jù)式(8)~(9)找出與未分類(lèi)對(duì)象距離最小的有效代表集合E。

    第13)~14)行,有效代表投票決定未預(yù)測(cè)對(duì)象類(lèi)標(biāo)簽并返回。

    2.3 集成學(xué)習(xí)策略

    本文提出的LOOELCA主要分為以下5個(gè)步驟:1)把帶類(lèi)標(biāo)簽的訓(xùn)練集隨機(jī)等分成n份;2)依照留一法的思想進(jìn)行重采樣,形成n組〈訓(xùn)練集-1,測(cè)試集〉;3)調(diào)用RBC-CBNRS算法構(gòu)建基分類(lèi)器;4)根據(jù)第3)步構(gòu)建的分類(lèi)器組成委員會(huì);5)通過(guò)委員會(huì)對(duì)測(cè)試集中的對(duì)象進(jìn)行標(biāo)簽預(yù)測(cè)。

    2.3.1 留一法

    留一法把訓(xùn)練集TR分層采樣為n份容量為n-1但互斥的子集,每次將1個(gè)子集作為訓(xùn)練集,預(yù)留出來(lái)的1個(gè)對(duì)象作為測(cè)試。正如圖2的基分類(lèi)器構(gòu)建階段、RBC-CBNRS分類(lèi)階段描述:用第一個(gè)子訓(xùn)練集預(yù)測(cè)對(duì)象x1,第二個(gè)子訓(xùn)練集預(yù)測(cè)對(duì)象x2,依此類(lèi)推直至預(yù)測(cè)出xn。其中對(duì)預(yù)留對(duì)象進(jìn)行預(yù)測(cè)時(shí),采用的是RBC-CBNRS算法。

    對(duì)于預(yù)測(cè)錯(cuò)誤的預(yù)留對(duì)象進(jìn)行標(biāo)記,并將其放入離群池,如圖2中所示的對(duì)象x2、x3。在離群對(duì)象選擇階段,所有被標(biāo)記的對(duì)象放入離群池。離群池中的對(duì)象用于對(duì)委員會(huì)決策不一致對(duì)象分類(lèi)。

    2.3.2 集成策略

    把留一法構(gòu)建出來(lái)的基分類(lèi)器進(jìn)行集成。若留一法中RBC-CBNRS算法對(duì)預(yù)留出的對(duì)象分類(lèi)錯(cuò)誤,那么算法認(rèn)為預(yù)留對(duì)象是訓(xùn)練集隨機(jī)抽樣時(shí)產(chǎn)生的離群對(duì)象。對(duì)預(yù)留對(duì)象分類(lèi)錯(cuò)誤:一方面表明這個(gè)分類(lèi)器有缺陷;另一方面說(shuō)明這個(gè)預(yù)留對(duì)象有特點(diǎn)。因此這類(lèi)對(duì)象對(duì)應(yīng)的子訓(xùn)練集比較有研究?jī)r(jià)值。如圖2所示,所有離群對(duì)象對(duì)應(yīng)的分類(lèi)器和原始訓(xùn)練集對(duì)應(yīng)的分類(lèi)器一起組成委員會(huì)。

    LOOELCA根據(jù)基分類(lèi)器構(gòu)成的委員會(huì)決定測(cè)試集中未分類(lèi)對(duì)象的標(biāo)簽。會(huì)有兩種情況:委員會(huì)中成員決策一致,那么此時(shí)未分類(lèi)對(duì)象和委員會(huì)保持決策一致;另一種情況,委員會(huì)中各成員決策不一致,利用outlier pool中的對(duì)象采用kNN算法對(duì)未分類(lèi)對(duì)象分類(lèi)。

    2.4 LOOELCA算法分析

    LOOELCA的基分類(lèi)器是RBC-CBNRS算法,因此要分析算法復(fù)雜度就需先分析RBC-CBNRS算法的復(fù)雜度。下面對(duì)RBC-CBNRS算法的兩個(gè)階段進(jìn)行復(fù)雜度分析。

    代表選舉子算法階段:計(jì)算相似度時(shí)每個(gè)對(duì)象有a個(gè)屬性,每個(gè)對(duì)象需要與其他n-1個(gè)對(duì)象計(jì)算相似度,此步的復(fù)雜度為an(n-1),記為O(n2)。計(jì)算最小相似度閾值θx+時(shí),每個(gè)對(duì)象需要與其余n-1個(gè)對(duì)象比較相似度,此步的復(fù)雜度為n(n-1),記為O(n2)。采用貪心算法對(duì)已生成的鄰域進(jìn)行覆蓋時(shí),需要比較選出代表后的其余對(duì)象。選出零個(gè)代表時(shí)需要計(jì)算n次,當(dāng)選出1個(gè)代表時(shí)需要計(jì)算n-1次,依此類(lèi)推,當(dāng)選出p個(gè)代表時(shí), 算法復(fù)雜度為n+(n-1)+…+(n-p+1)=p(2n-p+1)/2,記為O(np)。綜上所述該階段的復(fù)雜度為:

    O(n2)+O(n2)+O(np)=O(n2)

    標(biāo)簽預(yù)測(cè)子算法階段:同樣選出的有效代表為p個(gè),測(cè)試集有m個(gè)對(duì)象。每個(gè)未預(yù)測(cè)對(duì)象需要與p個(gè)代表計(jì)算距離,因此需計(jì)算相似度。由上一步計(jì)算可知,計(jì)算相似度時(shí)的復(fù)雜度為O(n2),所以該階段的復(fù)雜度為O(n2mp)。算出距離之后需要找出最小距離,即每個(gè)未預(yù)測(cè)對(duì)象需與每一個(gè)代表比較距離,所以復(fù)雜度為O(mp)。標(biāo)簽預(yù)測(cè)階段只需計(jì)算相似度和距離,而簡(jiǎn)單的投票階段可以忽略。因此該階段的復(fù)雜度為:

    O(n2mp)+O(mp)=O(mpn2)

    綜上所述,RBC-CBNRS的算法復(fù)雜度為O(mpn2)。本文LOOELCA需要對(duì)基分類(lèi)器進(jìn)行集成,假設(shè)集成的基分類(lèi)器數(shù)目為t。最簡(jiǎn)單的情況委員會(huì)中只有原始訓(xùn)練集構(gòu)成的一個(gè)分類(lèi)器,此時(shí)算法的復(fù)雜度與RBC-CBNRS算法復(fù)雜度相同,可記為O(mpn2)。最復(fù)雜的情況是所有的基分類(lèi)器都進(jìn)入委員會(huì),此時(shí)共有(n+1)個(gè)分類(lèi)器。這時(shí)LOOELCA的復(fù)雜度為mpn2(n+1),可記為O(mpn3)。綜上所述,LOOELCA的復(fù)雜度介于兩者之間為:

    O(mpn2) ≤O(tmpn2) ≤O(mpn3)

    圖2 集成學(xué)習(xí)策略示意圖Fig. 2 Schematic diagram of ensemble learning strategy

    3 實(shí)驗(yàn)與分析

    3.1 數(shù)據(jù)集

    實(shí)驗(yàn)在UCI的9個(gè)數(shù)據(jù)集上與RBC-CBNRS算法作了內(nèi)部對(duì)比。另外,本文提出的LOOELCA也和J48、ID3、Na?ve Bayes、OneR等算法作了比較。實(shí)驗(yàn)所用數(shù)據(jù)集詳細(xì)信息如表2所列。

    3.2 與RBC-CBNRS算法對(duì)比

    首先,實(shí)驗(yàn)將LOOELCA與RBC-CBNRS算法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表3~4所示。整體上來(lái)看,在實(shí)驗(yàn)所用的9個(gè)數(shù)據(jù)集上,LOOELCA比RBC-CBNRS算法分類(lèi)精度有提升,精度平均提升0.35~2.76個(gè)百分點(diǎn)。其中精度平均提升是指對(duì)應(yīng)數(shù)據(jù)集上各組實(shí)驗(yàn)精度提升值總和除以實(shí)驗(yàn)組數(shù)。

    由表3~4可以看出,在penbased、ionosphere、mushroom、wdbc、zoo、dermatology六個(gè)數(shù)據(jù)集上,當(dāng)訓(xùn)練集設(shè)定比例較小時(shí),LOOELCA較RBC-CBNRS算法分類(lèi)精度提升更高。這說(shuō)明當(dāng)選定訓(xùn)練集較小時(shí),更容易產(chǎn)生離群對(duì)象或邊界對(duì)象。在RBC-CBNRS算法中訓(xùn)練集較小時(shí),離群對(duì)象對(duì)分類(lèi)精確度的影響較大;隨著數(shù)據(jù)集的不斷變大,離群對(duì)象使RBC-CBNRS算法分類(lèi)錯(cuò)誤的影響被限制了。

    在tic-tac-toe數(shù)據(jù)集上,LOOELCA對(duì)RBC-CBNRS算法精度提升不受訓(xùn)練集比例影響。說(shuō)明這個(gè)數(shù)據(jù)集數(shù)據(jù)分布比較均勻,離群對(duì)象或邊界對(duì)象對(duì)分類(lèi)精確度的影響相對(duì)穩(wěn)定。

    有少數(shù)組實(shí)驗(yàn)數(shù)據(jù)分類(lèi)精度不升反降,其他的幾組實(shí)驗(yàn)分類(lèi)精度有提升。同樣,在sonar數(shù)據(jù)集上,第一組實(shí)驗(yàn)數(shù)據(jù)分類(lèi)精度提升不明顯。說(shuō)明在對(duì)應(yīng)數(shù)據(jù)集上,訓(xùn)練集較小時(shí),離群對(duì)象對(duì)分類(lèi)精度的影響不大,此時(shí)訓(xùn)練集對(duì)象較少,有正常對(duì)象被LOOELCA當(dāng)成離群對(duì)象,反而影響了分類(lèi)精度。隨著訓(xùn)練集的增大,離群對(duì)象對(duì)RBC-CBNRS算法分類(lèi)精度的影響凸顯出來(lái),因此LOOELCA對(duì)分類(lèi)精度的提升也更明顯。

    3.3 與經(jīng)典算法對(duì)比

    實(shí)驗(yàn)在UCI的9個(gè)數(shù)據(jù)集上和J48、Na?ve Bayes、ID3、OneR等經(jīng)典算法作了對(duì)比。圖3繪出了9個(gè)數(shù)據(jù)集上各分類(lèi)算法精度的對(duì)比圖。

    在mushroom數(shù)據(jù)集上Na?ve Bayes算法的分類(lèi)精度約為92%;在penbased數(shù)據(jù)集上OneR算法的精度約為35%;在dermatology數(shù)據(jù)集上OneR算法的精度約為45%。為了繪圖清晰,圖3(a)、(c)、(i)只繪出了四種算法的精度對(duì)比。

    表2 數(shù)據(jù)集信息Tab. 2 Data set information

    表3 小數(shù)據(jù)集上LOOELCA相對(duì)于RBC-CBNRS的分類(lèi)精度提升百分點(diǎn)Tab. 3 Classification accuracy’s percentage point increase of LOOELCA relative to RBC-CBNRS on small data sets

    表4 較大數(shù)據(jù)集上LOOELCA相對(duì)于RBC-CBNRS的分類(lèi)精度提升百分點(diǎn)Tab. 4 Classification accuracy’s percentage point increase of LOOELCA relative to RBC-CBNRS on larger data sets

    圖3 LOOELCA與經(jīng)典算法對(duì)比Fig. 3 Comparison of LOOELCA and classical algorithms

    從總體上看,在實(shí)驗(yàn)所用數(shù)據(jù)集上,LOOELCA分類(lèi)精度高于參與對(duì)比的經(jīng)典算法。部分?jǐn)?shù)據(jù)集上優(yōu)勢(shì)不明顯,例如mushroom、wdbc兩個(gè)數(shù)據(jù)集。由于數(shù)據(jù)集本身對(duì)象較多,屬性較多,所以大部分分類(lèi)算法都能取得不錯(cuò)的分類(lèi)效果。

    圖3(d)、(g)、(i)顯示,在對(duì)應(yīng)數(shù)據(jù)集上LOOELCA并不能優(yōu)于所有算法,但總體上看分類(lèi)精度優(yōu)于大部分參與對(duì)比的算法。其他子圖顯示,對(duì)應(yīng)數(shù)據(jù)集上LOOELCA分類(lèi)精度優(yōu)于其他參與對(duì)比的經(jīng)典算法。

    如表5所示,列出了9個(gè)數(shù)據(jù)集上參與對(duì)比的五種算法的排名。便于對(duì)比,當(dāng)分類(lèi)精度平均值相差小于0.5%時(shí),排名相同。從平均排名看LOOELCA排名最靠前,排名第二的Na?ve Bayes算法平均排名與LOOELCA差值為1。

    表5 每個(gè)數(shù)據(jù)集上的各算法排名Tab. 5 Ranking of each algorithm on each data set

    3.4 結(jié)果分析

    本文提出的LOOELCA分類(lèi)精度較RBC-CBNRS算法有提升,且分類(lèi)性能優(yōu)于J48等經(jīng)典分類(lèi)算法。實(shí)驗(yàn)結(jié)果可看出,離群對(duì)象、邊界對(duì)象對(duì)RBC-CBNRS算法分類(lèi)效果造成顯著影響。本文提出的LOOELCA有效地減小了該影響,提升了分類(lèi)精度。從大部分?jǐn)?shù)據(jù)集來(lái)看,訓(xùn)練集規(guī)模小時(shí),LOOELCA對(duì)RBC-CBNRS算法的精度提升更明顯。這也說(shuō)明當(dāng)訓(xùn)練集規(guī)模小時(shí),抽樣不均勻?qū)λ惴ǖ挠绊懜蟆T跀?shù)據(jù)集較大的mushroom、wdbc兩個(gè)數(shù)據(jù)集上,LOOELCA較RBC-CBNRS算法精度也有提升。這說(shuō)明就算有足夠的訓(xùn)練集數(shù)據(jù),也存在離群對(duì)象或邊界對(duì)象對(duì)分類(lèi)精度影響的問(wèn)題。

    與Na?ve Bayes等經(jīng)典算法的對(duì)比實(shí)驗(yàn)可以看出:在實(shí)驗(yàn)所用的大部分?jǐn)?shù)據(jù)集上,LOOELCA分類(lèi)精度更高。結(jié)合實(shí)驗(yàn)結(jié)果和表2可以看出,在數(shù)據(jù)集對(duì)象超過(guò)300時(shí),LOOELCA總能獲得較好的分類(lèi)效果。在實(shí)驗(yàn)所用數(shù)據(jù)集上,LOOELCA分類(lèi)精度變化平緩,分類(lèi)性能穩(wěn)定。

    4 結(jié)語(yǔ)

    RBC-CBNRS算法中,受抽樣不均勻影響會(huì)出現(xiàn)離群對(duì)象或邊界對(duì)象。為了應(yīng)對(duì)離群對(duì)象或邊界對(duì)象對(duì)分類(lèi)精度的影響,本文提出了一種基于RBC-CBNRS算法的留一法的集成學(xué)習(xí)策略。實(shí)驗(yàn)結(jié)果表明,本文提出的集成策略對(duì)算法的分類(lèi)精度有提升。在進(jìn)一步的工作中,將研究代價(jià)敏感[14-15]問(wèn)題對(duì)RBC-CBNRS算法的影響,如考慮測(cè)試代價(jià)、誤分類(lèi)代價(jià)等因素。

    猜你喜歡
    離群集上鄰域
    Cookie-Cutter集上的Gibbs測(cè)度
    稀疏圖平方圖的染色數(shù)上界
    鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
    基于鄰域競(jìng)賽的多目標(biāo)優(yōu)化算法
    復(fù)扇形指標(biāo)集上的分布混沌
    關(guān)于-型鄰域空間
    離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷(xiāo)售潛在客戶(hù)中的應(yīng)用
    離群的小雞
    應(yīng)用相似度測(cè)量的圖離群點(diǎn)檢測(cè)方法
    一種基于核空間局部離群因子的離群點(diǎn)挖掘方法
    友谊县| 南康市| 资源县| 鄯善县| 东源县| 雅江县| 凤山市| 土默特右旗| 沂源县| 荔波县| 疏附县| 黔西| 中西区| 贡觉县| 平邑县| 皋兰县| 庆城县| 蓝田县| 石河子市| 霍州市| 凉山| 西藏| 左贡县| 来凤县| 晋江市| 海城市| 环江| 洪雅县| 阳谷县| 芮城县| 沅陵县| 崇义县| 保德县| 应城市| 扎赉特旗| 奈曼旗| 米林县| 泰顺县| 宣威市| 读书| 临沭县|