• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      最小差異采樣的主動(dòng)學(xué)習(xí)圖像分類方法

      2014-10-29 08:26:26吳健盛勝利趙朋朋崔志明
      通信學(xué)報(bào) 2014年1期
      關(guān)鍵詞:類別分類器委員會(huì)

      吳健,盛勝利,趙朋朋,崔志明

      (1. 蘇州大學(xué) 智能信息處理及應(yīng)用研究所,江蘇 蘇州 215006;2. 美國阿肯色中央大學(xué) 計(jì)算機(jī)科學(xué)系,阿肯色州 康威 72035-0001)

      1 引言

      圖像分類是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域中的一個(gè)重要問題,其主要內(nèi)容是采用分類算法建立分類器模型,然后利用模型進(jìn)行待分類圖像的分類[1,2]。目前圖像分類技術(shù)正在國民經(jīng)濟(jì)中發(fā)揮著越來越大的作用。比如,借助圖像分類技術(shù)可以高效地從大量細(xì)胞圖片中準(zhǔn)確識(shí)別出病變細(xì)胞,并確定其對(duì)應(yīng)癌癥類別,提高醫(yī)務(wù)人員的工作效率與治療水平[3];遙感圖像信息含量大、物體種類多,遙感圖像分類也一直是遙感圖像研究的核心問題[4]。不同的分類器模型性能不盡相同,訓(xùn)練分類器是分類研究的關(guān)鍵部分。分類器訓(xùn)練是在訓(xùn)練樣本集上進(jìn)行優(yōu)化的過程,是一個(gè)機(jī)器學(xué)習(xí)過程。在傳統(tǒng)的監(jiān)督學(xué)習(xí)中,分類器通過對(duì)大量有標(biāo)注的訓(xùn)練樣本進(jìn)行學(xué)習(xí),從而建立模型用于預(yù)測(cè)未見樣本的類別。隨著數(shù)據(jù)收集和存儲(chǔ)技術(shù)的飛速發(fā)展,收集大量未標(biāo)注的樣本已變得相當(dāng)容易,而獲取大量有標(biāo)注的樣本則相對(duì)較為困難,因?yàn)楂@得這些標(biāo)注可能需要耗費(fèi)大量的人力物力。因此,在有標(biāo)注樣本較少時(shí),如何利用大量的未標(biāo)注樣本來改善學(xué)習(xí)性能成為當(dāng)前機(jī)器學(xué)習(xí)研究中最受關(guān)注的問題之一。

      主動(dòng)學(xué)習(xí)是一種新的利用未標(biāo)注樣本的學(xué)習(xí)技術(shù),主動(dòng)學(xué)習(xí)的核心思想是通過啟發(fā)式學(xué)習(xí)策略,從樣本數(shù)據(jù)集中挑選少部分的高信息含量的樣本子集訓(xùn)練得到性能優(yōu)良的分類器模型[5]。在學(xué)習(xí)過程中,學(xué)習(xí)引擎將優(yōu)選的未標(biāo)注樣本交由人工專家進(jìn)行標(biāo)注。主動(dòng)學(xué)習(xí)在很多現(xiàn)代的機(jī)器學(xué)習(xí)問題中有很廣泛的應(yīng)用需求,比如,大量未標(biāo)注樣本易于獲得,但是標(biāo)注困難,耗時(shí)、代價(jià)較大。Lewis等人[6]提出了基于池的主動(dòng)學(xué)習(xí)采樣策略,算法維護(hù)一個(gè)固定分布的由大量未標(biāo)注樣本組成的樣本池,采樣策略計(jì)算所有未標(biāo)注樣本的信息含量進(jìn)行比較,選擇信息含量高的未標(biāo)注樣本交由人工專家標(biāo)注。Lewis等人指出,不確定性采樣能夠大幅度地減小訓(xùn)練數(shù)據(jù)的規(guī)模,可以有效地應(yīng)用于小樣本的訓(xùn)練環(huán)境?;诔氐牟蓸硬呗猿蔀楫?dāng)前研究最為深入、應(yīng)用最為廣泛的采樣策略,在文本分類[7,8]、圖像分類[9,10]、圖像檢索[11]、視頻檢索[12]等領(lǐng)域都有較好的應(yīng)用。

      主動(dòng)學(xué)習(xí)中的樣本采樣策略主要可以分成 2類:不確定性采樣(uncertainty sampling)和委員會(huì)投票選擇(QBC, query-by-committee)[13]。

      基于不確定性的采樣策略是適用性最廣的一類采樣策略,最基本的做法是使用分類器直接估計(jì)未標(biāo)注樣本屬于各類別的后驗(yàn)概率值,選擇后驗(yàn)概率最接近于0.5的樣本。例如,Lewis等人[14]采用了不確定性采樣的主要思想將其應(yīng)用于決策樹模型,采用一個(gè)分類器模型計(jì)算所有未標(biāo)注樣本的不確定性,選擇分類器最不確定的樣本作為返回的待標(biāo)注樣本。樣本采樣策略的第2類方法是QBC算法。QBC的方法首先由Seung等人[15]提出,該方法通過構(gòu)建委員會(huì),選擇委員會(huì)成員模型投票不一致性最高的樣本作為待標(biāo)注樣本交由人工專家標(biāo)注。自從 Seung等人構(gòu)建第1個(gè)由2個(gè)隨機(jī)假設(shè)模型組成的委員會(huì)后,QBC算法在各種分類模型的實(shí)際應(yīng)用中收到了較好的效果[16]。

      委員會(huì)投票選擇是一種基于版本空間縮減的主動(dòng)學(xué)習(xí)采樣策略,其核心是構(gòu)建高效的具有較強(qiáng)泛化能力的委員會(huì)。針對(duì)委員會(huì)成員模型投票不一致性的度量問題,提出了一種基于最小差異采樣的主動(dòng)學(xué)習(xí)圖像分類方法。利用委員會(huì)成員模型投票概率較高的 2個(gè)類別的概率值的差異來度量委員會(huì)的投票不一致性,選擇概率差異最小的樣本交由人工專家標(biāo)注。在本文實(shí)驗(yàn)部分,將提出的新方法與EQB算法及nEQB算法在多個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,并對(duì)組成決策委員會(huì)的成員模型的數(shù)目設(shè)置問題進(jìn)行分析和討論,結(jié)果表明本文方法在標(biāo)注樣本數(shù)量相同的情況下能夠有效提高分類準(zhǔn)確率。

      2 委員會(huì)投票

      針對(duì)未標(biāo)注樣本集,與之一致的所有統(tǒng)計(jì)學(xué)習(xí)模型被稱為它的解釋空間。解釋空間越大,則能夠選擇的模型就越多。當(dāng)解釋空間只有一個(gè)點(diǎn)時(shí),統(tǒng)計(jì)學(xué)習(xí)模型就被唯一確定。因此,一種基于理論驅(qū)動(dòng)的查詢選擇框架總是優(yōu)先選擇那些能夠顯著縮減其解釋空間的樣本進(jìn)行人工標(biāo)注。QBC算法基于這種思想被提出,它是一種通過版本空間縮減實(shí)現(xiàn)主動(dòng)樣本采樣的被廣泛使用的著名算法。通過給定不同的假設(shè)條件,QBC構(gòu)建出不同的委員會(huì)成員模型來度量未標(biāo)注樣本集中每一個(gè)樣本的信息含量。最具信息含量的樣本是委員會(huì)成員模型投票最不一致的那些樣本,這種策略可以高效地提升分類器模型的分類性能,本質(zhì)上與不確定性采樣策略相似。

      版本空間縮減采樣策略的主導(dǎo)思想是選擇能最大程度縮減版本空間的樣本進(jìn)行標(biāo)注,Seung等人基于該思想構(gòu)建了第1個(gè)由2個(gè)隨機(jī)假設(shè)模型構(gòu)成的委員會(huì)。QBC算法的工作原理如圖1所示。

      QBC算法的具體步驟是:首先,基于初始訓(xùn)練樣本集根據(jù)給定的假設(shè)條件,構(gòu)建出由n個(gè)成員模型組成的委員會(huì);然后由組成委員會(huì)的各個(gè)成員模型對(duì)未標(biāo)注樣本集中的每一個(gè)樣本進(jìn)行投票,選出委員會(huì)成員模型投票最不一致的樣本交由人工專家進(jìn)行標(biāo)注;最后將所選樣本更新到標(biāo)注樣本集進(jìn)行分類器更新。如此重復(fù)直至滿足停止條件。

      這種采樣策略的目的是構(gòu)建一個(gè)高效的具有很強(qiáng)泛化能力的委員會(huì),通過對(duì)基于 QBC思想提出的各種現(xiàn)有方法進(jìn)行歸類分析,該采樣策略主要包括2個(gè)研究?jī)?nèi)容:一是如何構(gòu)建一個(gè)高效的委員會(huì),比如Abe等人[17]采用boosting和bagging 2種集成學(xué)習(xí)方法構(gòu)建委員會(huì),分別提出了 boosting-QBC和bagging-QBC的委員會(huì)構(gòu)建策略。另一個(gè)是如何度量委員會(huì)成員模型對(duì)于未標(biāo)注樣本集的投票不一致性,比如Tuia等人提出的EQB[18](entropy query-by-bagging)方法以及在此基礎(chǔ)上改進(jìn)得到的nEQB[19](normalized entropy query-by- bagging)方法。本文擬對(duì)樣本投票不一致性的度量進(jìn)行深入研究,下面對(duì)EQB和nEQB進(jìn)行簡(jiǎn)要介紹。

      Tuia等人提出了原始的EQB算法,采用bagging構(gòu)建委員會(huì)。首先基于自展法定義n個(gè)訓(xùn)練集,然后使用訓(xùn)練集訓(xùn)練SVM分類器預(yù)測(cè)候選樣本的標(biāo)簽,最后得到針對(duì)每一個(gè)候選樣本的n個(gè)可能標(biāo)簽。在文獻(xiàn)[18]中,基于n個(gè)分類器預(yù)測(cè)結(jié)果計(jì)算投票熵的采樣策略被應(yīng)用到多分類問題中。一種新的用于度量委員會(huì)成員模型投票不一致性的采樣策略被提出,如式(1)所示。

      其中, Hbag(xi)是熵的實(shí)證測(cè)度,定義為

      然而,EQB中投票熵的值存在著被未標(biāo)注樣本xi所屬預(yù)測(cè)類別的個(gè)數(shù)Ni所影響的問題??紤]到這一現(xiàn)實(shí),Copa等人提出了無偏置的樣本不確定性度量函數(shù),以考慮采樣樣本的多樣性。EQB方法的一種改進(jìn)算法 nEQB算法被提出,這種方法對(duì) EQB方法進(jìn)行歸一化處理,基于歸一化最大熵的啟發(fā)式采樣策略描述如下

      nEQB算法保持了EQB算法的優(yōu)點(diǎn),同時(shí)強(qiáng)化了被采樣樣本的多樣性。所有決策邊界上的樣本的不確定性較高,這些樣本被優(yōu)先考慮。

      3 本文方法

      3.1 問題分析

      QBC算法的研究重點(diǎn)是如何有效地構(gòu)建委員會(huì),以及如何度量成員模型對(duì)未標(biāo)注樣本的投票不一致程度。根據(jù)文獻(xiàn)[19]的分析,EQB算法中投票熵的計(jì)算會(huì)隨著未標(biāo)注樣本所屬類別個(gè)數(shù)的變化而變化,當(dāng)所屬類別數(shù)目增加時(shí),未標(biāo)注樣本投票熵值的上限也將增加。比如,某樣本被預(yù)測(cè)為2個(gè)類別時(shí)的最大熵值要比被預(yù)測(cè)為多個(gè)類別時(shí)的最大熵值小,這種情況則會(huì)優(yōu)選那些被預(yù)測(cè)為多個(gè)類別的樣本,導(dǎo)致樣本的不平衡采樣。nEQB算法針對(duì)該問題進(jìn)行了歸一化處理,在計(jì)算樣本投票熵值的同時(shí)考慮樣本所屬類別數(shù)目的變化,將求得的 EQB值除以 Ni值以消除樣本所屬類別數(shù)對(duì)投票熵值的消極影響,使樣本采樣保持無偏置。

      根據(jù)以上分析,可以看到 nEQB算法對(duì) EQB算法存在的偏置采樣問題進(jìn)行了校正,但該問題并沒有得到有效的解決,以下對(duì)該問題進(jìn)行深入分析。在此假定已構(gòu)建一個(gè)具有100個(gè)成員模型的委員會(huì),未標(biāo)注樣本集樣本的類別總共為10類,圖2是對(duì)熵度量方法缺陷的分析,圖2(a)為樣本a采用EQB算法和nEQB算法計(jì)算得到的熵值,從圖中可以看出樣本 a所屬類別數(shù)目為 7。圖 2(b)為樣本 b采用EQB算法和nEQB算法計(jì)算得到的熵值,從圖中可以看出樣本b所屬類別數(shù)目為8。通過對(duì)比可以發(fā)現(xiàn) EQB確實(shí)存在偏置采樣的問題,即樣本所屬類別數(shù)目較高時(shí)樣本熵值偏大,由于樣本b的熵值較高,則認(rèn)為其信息含量較高。

      根據(jù)EQB算法的采樣策略,樣本b由于熵值較高,將會(huì)被優(yōu)先選中。而綜觀委員會(huì)的100個(gè)成員模型針對(duì)樣本a和樣本b預(yù)測(cè)類別的概率分布,樣本a從屬于第2類和第6類的概率非常接近,而樣本b從屬于第6類的概率明顯較大,可以看出,樣本a比樣本b具有更大的不確定性,從最大程度優(yōu)化分類器性能的角度而言,樣本a能夠更大程度地提升分類器的泛化性能。但是,EQB算法的投票結(jié)果與此相反,會(huì)優(yōu)選樣本b。

      nEQB算法在EQB算法的基礎(chǔ)上考慮了無偏置樣本采樣問題,除以樣本所屬類別數(shù)目的對(duì)數(shù),降低樣本所屬類別數(shù)目對(duì)投票熵值的不利影響。經(jīng)過歸一化處理后,樣本a和樣本b的熵值分別被校正為0.284 5和0.315 7,但校正后的結(jié)果并不理想,可以看出樣本b的熵值依然高于樣本a的熵值,根據(jù)信息熵的定義,樣本b的信息含量高于樣本a,采樣結(jié)果仍是樣本b。

      圖2 熵度量的缺陷分析

      綜上所述,雖然基于熵的方法度量委員會(huì)成員模型對(duì)樣本的投票不確定性常常好于隨機(jī)采樣,且易于擴(kuò)展應(yīng)用到多分類問題中,但它存在著一定的缺陷。采用熵方法的問題之一是它的值會(huì)受到不重要類別的嚴(yán)重影響,如圖2所示,委員會(huì)對(duì)樣本a的預(yù)測(cè)類別主要集中在第2類和第6類,對(duì)樣本b的預(yù)測(cè)類別主要集中在第6類,而在計(jì)算熵的時(shí)候則考慮了所有的預(yù)測(cè)類別,這導(dǎo)致了概率較小的預(yù)測(cè)類別對(duì)投票熵計(jì)算的影響。而從分類角度來講,分類器對(duì)圖2(a)的情形更為不確定,因?yàn)樗峙淞?個(gè)相近的概率值給2個(gè)預(yù)測(cè)類別。對(duì)于圖2(b),分類器對(duì)于樣本b的分類結(jié)果具有較高的自信,但那些不重要的預(yù)測(cè)類別導(dǎo)致了較高的熵值,這個(gè)問題在分類任務(wù)的類別更高時(shí)會(huì)更加突出。因此,筆者更為關(guān)心的是投票概率相近類別對(duì)樣本不確定性度量準(zhǔn)則的影響。

      3.2 最小差異采樣

      與基于投票熵度量委員會(huì)成員模型投票不一致性不同的是,本文基于投票概率較低的類別是樣本真正類別的可能性較低的假設(shè),擬采用一種更為貪婪的方法來考慮委員會(huì)投票不一致性度量問題。本文將委員會(huì)投票概率較高的2個(gè)類別概率值的差異作為成員模型投票不一致性的度量,以此為依據(jù)選擇高信息含量樣本。本文首先給出投票概率差異的定義。

      定義1 投票概率差異

      由于這是2個(gè)預(yù)測(cè)類別投票概率差異的比較,差異越小的樣本其投票不一致性越高,亦即樣本不確定性越高,筆者稱之為最小差異采樣(MDS,minimal difference sampling)。從分類角度來看,該度量方法是委員會(huì)成員模型投票不一致性估計(jì)的一種更為直接的方法,以圖2中的樣本a和樣本b為例,樣本a從屬于類別2和類別6的投票概率差異較大,樣本b從屬于類別1和類別6的投票概率差異較大,從最小差異的定義來說,樣本a將會(huì)被優(yōu)先選擇。

      本文采用一種基于最小差異采樣的準(zhǔn)則,其只考慮樣本分類可能性最大的2個(gè)類別,忽略其他對(duì)該樣本的分類結(jié)果影響較小的類別。從另外一個(gè)角度解釋,該準(zhǔn)則可看作是對(duì)樣本分類不確定性估計(jì)的一種貪婪近似。通過最小化最高類別和次高類別的概率差值,即最大化樣本的分類不確定性,可得MDS度量準(zhǔn)則如式(5)所示。

      投票熵是一種樣本分類不確定性的估計(jì),而MDS度量是一種貪婪估計(jì)。從改變分類器分類邊界的角度來看,MDS度量可以被認(rèn)為是一種選擇高信息含量樣本的高效估計(jì)方法。基于MDS度量準(zhǔn)則,衡量所有未標(biāo)注樣本相對(duì)于當(dāng)前分類器的不確定性,從中選出最不確定的樣本集合。

      3.3 算法描述

      由以上分析可知,MDS方法利用委員會(huì)投票概率較高的2個(gè)類別的概率值的差異來度量成員模型的投票不一致性,從而有效地選擇最不確定的樣本。通過從未標(biāo)注樣本集中選出最具信息含量的樣本,交由人工專家標(biāo)注,并更新至標(biāo)注樣本集,從而更新分類器模型,如此迭代,直至完成分類器的學(xué)習(xí)。

      本文方法的完整描述如圖3所示。

      圖3 MDS主動(dòng)學(xué)習(xí)圖像分類方法

      在圖3算法中,首先需要基于標(biāo)注樣本集L進(jìn)行bagging(bootstrap aggregation)采樣[20]定義n個(gè)訓(xùn)練集,bagging算法過程是從樣例分布中進(jìn)行多次獨(dú)立同分布采樣,使用所選樣本訓(xùn)練候選假設(shè),其能夠減少假設(shè)偏置的影響。然后,基于 bagging重采樣技術(shù)得到的結(jié)果構(gòu)建一個(gè)具有n個(gè)成員模型的決策委員會(huì) {C1, C2,… ,Cn},針對(duì)每個(gè)未標(biāo)注樣本,可用式(4)計(jì)算得到其投票不一致性度量的結(jié)果。

      本文方法通過委員會(huì)投票的方式進(jìn)行樣本采樣,其與不確定采樣的區(qū)別在于:不確定性采樣是直接通過當(dāng)前分類器模型直接估計(jì)未標(biāo)注樣本的后驗(yàn)概率分布,然后根據(jù)一定的啟發(fā)式策略優(yōu)選不確定性最高的樣本進(jìn)行標(biāo)注;而委員會(huì)投票算法是通過委員會(huì)成員模型對(duì)未標(biāo)注樣本進(jìn)行投票,根據(jù)成員模型投票的結(jié)果選擇投票最不一致的樣本交由人工專家進(jìn)行標(biāo)注,實(shí)質(zhì)上是通過委員會(huì)成員模型的投票不一致性間接地反映樣本的不確定性。因此,本質(zhì)上委員會(huì)投票算法仍是繼承了不確定性采樣的思想。

      4 實(shí)驗(yàn)結(jié)果與分析

      本文在3個(gè)圖像分類數(shù)據(jù)集上驗(yàn)證本文提出的MDS主動(dòng)學(xué)習(xí)圖像分類方法的有效性,其中,一個(gè)是人工數(shù)據(jù)集,另外2個(gè)來自UCI數(shù)據(jù)集[21],UCI數(shù)據(jù)集是常用測(cè)試數(shù)據(jù)集。在文獻(xiàn)[18]中,EQB的實(shí)驗(yàn)效果整體優(yōu)于 MS(margin sampling)、MS-cSV。MS和MS-cSV的區(qū)別之處為成批選擇候選樣本時(shí),后者會(huì)考慮樣本之間的多樣性。在文獻(xiàn)[19]中,nEQB算法整體效果要優(yōu)于 BT(breaking ties)和EQB。因此,實(shí)驗(yàn)中將提出的方法與 EQB算法和nEQB算法在同等條件下進(jìn)行比較,具體體現(xiàn)在相同數(shù)量標(biāo)注樣本下的分類準(zhǔn)確率、成員模型數(shù)目對(duì)分類準(zhǔn)確率的影響等方面。實(shí)驗(yàn)中使用Torch庫[22]實(shí)現(xiàn)多類SVM分類器,采用一對(duì)多的方式來處理多類分類問題,用于輸出各個(gè)未標(biāo)注樣本從屬于每個(gè)可能類別的概率。

      4.1 人工數(shù)據(jù)集

      為驗(yàn)證本文方法的有效性,首先在人工數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。此人工數(shù)據(jù)集共36類,類別為A~Z和0~9,使用36種不同字體構(gòu)造訓(xùn)練圖像樣本集,28種不同字體構(gòu)造測(cè)試圖像樣本集,則訓(xùn)練圖像集數(shù)目為1 296,測(cè)試圖像集數(shù)目為1 008。使用圖像像素值的統(tǒng)計(jì)信息,根據(jù)一固定子區(qū)域內(nèi)像素百分比信息提取每張圖像的二值特征,每張圖像對(duì)應(yīng)一個(gè)35維的特征向量。

      設(shè)置初始樣本個(gè)數(shù)為 50個(gè),委員會(huì)成員數(shù)目為10,每次迭代加入到標(biāo)注樣本集的樣本數(shù)為5,圖4顯示了通過3種方法采樣訓(xùn)練分類器模型得到的分類結(jié)果。通過對(duì)分類準(zhǔn)確率變化曲線進(jìn)行觀察,在迭代初期,采用各種樣本選擇方法的分類性能相差不大,這是由于在迭代初期,訓(xùn)練樣本的數(shù)量較少,訓(xùn)練得到的分類器不是很準(zhǔn)確,在這種情況下,各種樣本選擇方法都近似于隨機(jī)選擇。EQB算法在訓(xùn)練樣本數(shù)為 95時(shí),由于所選樣本的信息含量較低,EQB算法的分類準(zhǔn)確率出現(xiàn)了一段較大幅度的下降,而nEQB算法保持了分類準(zhǔn)確率的穩(wěn)定。之后3種方法隨著標(biāo)注樣本的不斷加入,分類準(zhǔn)確率逐步提高。

      圖4 人工數(shù)據(jù)集上分類準(zhǔn)確率

      從實(shí)驗(yàn)結(jié)果來看,由于nEQB算法在計(jì)算樣本的投票熵時(shí)考慮了EQB算法存在的采樣偏置問題,對(duì)樣本的投票熵進(jìn)行歸一化處理,在分類準(zhǔn)確率上的表現(xiàn)也說明了這一點(diǎn),實(shí)驗(yàn)結(jié)果相比 EQB算法占優(yōu)。經(jīng)過剛開始的交匯期之后,當(dāng)標(biāo)注樣本數(shù)達(dá)到80之后,MDS方法開始顯現(xiàn)優(yōu)勢(shì),逐漸與EQB和nEQB算法拉開差距,當(dāng)標(biāo)注樣本達(dá)到240時(shí),分類準(zhǔn)確率達(dá)到80%以上,此時(shí)EQB和nEQB算法的分類準(zhǔn)確率分別在70%和75%左右。本文MDS算法基于委員會(huì)投票最小差異采樣,考慮樣本分類可能性最大的2個(gè)類別,采用貪婪估計(jì)法優(yōu)選高信息含量的樣本進(jìn)行標(biāo)注,實(shí)驗(yàn)結(jié)果表明這種啟發(fā)式準(zhǔn)則能夠很好地度量未標(biāo)注樣本的投票不一致性,選擇的樣本更有利于改善分類器的分類性能和提升分類器模型的泛化能力。

      4.2 UCI數(shù)據(jù)集

      在4.1節(jié)實(shí)驗(yàn)中使用的是人工數(shù)據(jù)集,本節(jié)將3種算法在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)以驗(yàn)證算法的有效性。UCI數(shù)據(jù)集是常用的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集,選擇了 UCI數(shù)據(jù)集中的美國郵政手寫體數(shù)字圖像集(USPS)和英文字母數(shù)據(jù)集(letters)2個(gè)數(shù)據(jù)集,類別分別為10類和26類。

      1) 手寫體數(shù)字圖像集(USPS)

      該數(shù)據(jù)集中樣本類別分布為 0~9,每個(gè)樣本有256維特征,訓(xùn)練集大小為5 000,測(cè)試集大小為4 298。設(shè)置初始樣本個(gè)數(shù)為36,委員會(huì)成員數(shù)目為10,每次迭代加入到標(biāo)注樣本集的樣本數(shù)為5,圖5顯示了通過3種方法采樣訓(xùn)練分類器模型得到的分類結(jié)果。

      圖5 USPS數(shù)據(jù)集分類準(zhǔn)確率

      圖5顯示了3種方法在USPS圖像集上分類準(zhǔn)確率隨標(biāo)注樣本數(shù)增加的變化曲線,該數(shù)據(jù)集總共類別數(shù)為 10,類別數(shù)相對(duì)偏少,3種方法訓(xùn)練的分類器模型都能取得較好的分類精度。當(dāng)分類器迭代更新結(jié)束時(shí),3種算法都能收斂于比較高的分類精度。將EQB和nEQB 2種方法進(jìn)行比較,nEQB算法起初略占優(yōu)勢(shì),但隨著迭代的進(jìn)行,2種算法開始交織在一起,分類精度大體相當(dāng)。與此同時(shí),本文方法在此數(shù)據(jù)集上一直優(yōu)于EQB和nEQB算法:迭代初期,3種方法效果差不多,隨著標(biāo)注樣本數(shù)的增加,本文方法的作用逐漸體現(xiàn)出來,明顯優(yōu)于其他2種方法。當(dāng)標(biāo)注樣本數(shù)目相同時(shí),本文方法的分類準(zhǔn)確率較高,說明在相同人工標(biāo)注負(fù)擔(dān)的前提下,本文方法更能提高分類精度。從縱軸方向來看,在獲得相同準(zhǔn)確率的前提下,本文方法要求的標(biāo)注樣本數(shù)較其他2種方法更少,減輕了人工標(biāo)注的負(fù)擔(dān)。

      2) 英文字母數(shù)據(jù)集(letters)

      該數(shù)據(jù)集樣本類別分布為 A~Z,每個(gè)樣本有 16維特征,訓(xùn)練集大小為10 000,測(cè)試集大小為10 000。設(shè)置初始樣本個(gè)數(shù)為 65,委員會(huì)成員數(shù)目為 10,每次迭代加入到標(biāo)準(zhǔn)樣本集的樣本數(shù)為5,圖6顯示了通過3種方法采樣訓(xùn)練分類器模型得到的分類結(jié)果。通過分析letters圖像數(shù)據(jù)集實(shí)驗(yàn)結(jié)果可以看出,在曲線的前半段,nEQB算法的表現(xiàn)明顯弱于EQB算法,但在曲線的后半段,nEQB算法分類精度的提升速度開始高于 EQB算法,迭代結(jié)束時(shí)分類精度高于EQB算法近2個(gè)百分點(diǎn)。

      圖6 letters數(shù)據(jù)集分類準(zhǔn)確率

      Letters數(shù)據(jù)集類別共有26類,類別相對(duì)較多,所以3種方法在迭代結(jié)束時(shí)分類準(zhǔn)確率整體不高。但從圖6中可以看出,本文方法的分類精度從開始到結(jié)束都能有較好的表現(xiàn),一直優(yōu)于EQB和nEQB算法,體現(xiàn)出一定的算法優(yōu)勢(shì)。雖然只考慮很少一部分未標(biāo)注樣本,但本文方法所基于的最小差異采樣啟發(fā)式準(zhǔn)則依然能夠選出最具信息含量的樣本,相對(duì)于其他2種方法,顯著提高了分類準(zhǔn)確率。本文方法基于MDS度量準(zhǔn)則,衡量所有未標(biāo)注樣本相對(duì)于當(dāng)前分類器的不確定性,從中選出最不確定的樣本集合,是一種選擇高信息含量樣本的高效估計(jì)方法。

      4.3 委員會(huì)成員數(shù)目討論

      以上通過3個(gè)圖像分類數(shù)據(jù)集驗(yàn)證了本文提出的MDS主動(dòng)學(xué)習(xí)圖像分類方法的有效性。構(gòu)建委員會(huì)時(shí)成員模型數(shù)目的設(shè)定是一個(gè)值得討論的問題,本節(jié)對(duì)成員模型的數(shù)目設(shè)定進(jìn)行討論。上述 3個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果一方面驗(yàn)證了本文方法的有效性,另一方面也說明了EQB和nEQB算法的效果差異。nEQB算法針對(duì)EQB的采樣偏置問題進(jìn)行了糾正,對(duì)未標(biāo)注樣本的投票熵進(jìn)行了歸一化處理,從上述實(shí)驗(yàn)可以看出,nEQB算法要優(yōu)于EQB算法,這說明其對(duì)EQB的改進(jìn)是有效的。由于nEQB算法要優(yōu)于 EQB算法,在本節(jié)討論中,僅討論本文方法和nEQB方法在成員模型設(shè)置不同時(shí)其分類準(zhǔn)確率隨標(biāo)注樣本增長(zhǎng)的變化曲線,成員模型數(shù)目分別設(shè)置為5、10、15和20,通過比較在不同參數(shù)設(shè)置下2種算法的性能表現(xiàn)分析討論成員模型數(shù)目的設(shè)置問題。圖7(a)和圖7(b)分別顯示了nEQB算法和本文方法在不同成員模型數(shù)目設(shè)置情形下的分類準(zhǔn)確率隨標(biāo)注樣本變化的情況。

      圖7 委員會(huì)成員模型數(shù)目實(shí)驗(yàn)分析

      圖7(a)顯示了nEQB算法在成員模型數(shù)目為5、10、15和20時(shí)的分類精度變化情況,隨著成員模型數(shù)目的增加,在相同標(biāo)注樣本數(shù)量的前提下,其對(duì)應(yīng)的分類精度都會(huì)有所提升。當(dāng)成員模型數(shù)目為5時(shí),迭代結(jié)束時(shí)的分類準(zhǔn)確率為67.46%,當(dāng)成員模型數(shù)目為10、15和20時(shí),分類準(zhǔn)確率有較大的提高,迭代結(jié)束時(shí)的分類準(zhǔn)確率均在75%左右。圖7(b)顯示了本文方法在成員模型數(shù)目為 5、10、15和 20時(shí)的分類精度變化情況,隨著成員模型數(shù)目的增加,在相同標(biāo)注樣本數(shù)量的前提下,其對(duì)應(yīng)的分類精度亦有所提升。當(dāng)成員模型數(shù)目為5時(shí),迭代結(jié)束時(shí)的分類準(zhǔn)確率為78.67%,當(dāng)成員模型數(shù)目為10、15和20時(shí),分類準(zhǔn)確率有一定的提高,迭代結(jié)束時(shí)的分類準(zhǔn)確率均在80%以上。綜合圖7(a)和圖 7(b)來看,nEQB算法受成員模型數(shù)目的影響較大,而本文方法在成員模型數(shù)目為 10時(shí)就能較好地收斂,且收斂于比較高的分類精度。成員模型的數(shù)目越大,分類準(zhǔn)確度相對(duì)會(huì)越好,但需權(quán)衡成員模型數(shù)目的設(shè)置所帶來的時(shí)間開銷。

      5 結(jié)束語

      本文針對(duì)委員會(huì)投票不一致性度量問題提出了一種基于最小差異采樣的主動(dòng)學(xué)習(xí)圖像分類方法,方法首先基于標(biāo)注樣本集進(jìn)行bagging采樣,

      然后基于 bagging采樣的結(jié)果構(gòu)建決策委員會(huì)對(duì)未標(biāo)注樣本集中每個(gè)樣本的不確定性進(jìn)行度量。實(shí)驗(yàn)結(jié)果表明本文方法能有效提高分類精度。委員會(huì)投票選擇算法通過成員模型投票的不一致性間接反映樣本的不確定性,充分利用已標(biāo)注樣本集來對(duì)未標(biāo)注樣本進(jìn)行估計(jì)。后續(xù)研究將進(jìn)一步考慮未標(biāo)注樣本集的分布信息,保證選擇的樣本可以有效地降低預(yù)期誤差,提高分類器模型的泛化能力。

      [1] 鐘樺, 楊曉鳴, 焦李成. 基于多分辨共生矩陣的紋理圖像分類[J].計(jì)算機(jī)研究與發(fā)展, 2011, 48(11):1991-1999.ZHONG H, YANG X M, JIAO L C. Texture classification based on multiresolution co-occurrence matrix[J]. Journal of Computer Research and Development, 2011, 48(11):1991-1999.

      [2] CIRESAN D, MEIER U, SCHMIDHUBER J. Multi-column deep neural networks for image classification[A]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[C]. Rhode Island, USA, 2012.3642-3649.

      [3] XU Y, ZHU J Y, CHANG E, et al. Multiple clustered instance learning for histopathology cancer image classification, segmentation and clustering[A]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2012)[C]. Rhode Island, USA, 2012.964-

      [4] 9V7O1.LPI M, TUIA D, KANEVSKI M. Memory-based cluster sampling for remote sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(8):3096-3106.

      [5] SETTLES B. Active Learning Literature Survey[R]. Madison:University of Wisconsin, 2010.

      [6] LEWIS D D, CATLETT J. Heterogenous uncertainty sampling for supervised learning[A]. Proceedings of International Conference on Machine Learning (ICML 1994)[C]. New Brunswick, NJ, USA,1994.148-156.

      [7] OLSSON F. A Literature Survey of Active Machine Learning in the Context of Natural Language Processing[R]. Swedish Institute of Computer Science, 2009.

      [8] FU Y, ZHU X, LI B. A survey on instance selection for active learning[J]. Knowledge and Information Systems, 2013, 35(2):

      [9] 2JO49S-H28I 3A. J, PORIKLI F, PAPANIKOLOPOULOS N P. Scalable active learning for multi-class image classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11):2259-2273.

      [10] LI X, GUO Y. Adaptive active learning for image classi fi cation[A].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013)[C]. Portland, Oregon, USA, 2013.859-866.

      [11] HOI S C H, JIN R, LYU M R. Batch mode active learning with applications to text categorization and image retrieval[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9):

      [12] 1W2A33N-G12 4M8,. HUA X S. Active learning in multimedia annotation and retrieval: a survey[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(2):1899412-1899414.

      [13] 梁爽, 孫正興. 面向草圖檢索的小樣本增量有偏學(xué)習(xí)算法[J]. 軟件學(xué)報(bào), 2009, 20(5): 1301-1312.LIANG S, SUN Z X. Small sample incremental biased learning algorithm for sketch retrieval[J]. Journal of Software, 2009,

      [14] 2L0E(W5):I1S3 0D1- 1D3,1 2G.ALE W A. A sequential algorithm for training text classifiers[A]. Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C]. Dublin, Ireland, 1994.3-12.

      [15] SEUNG H S, OPPER M, SOMPOLINSKY H. Query by committee[A]. Proceedings of the Fifth Annual Workshop on Computational Learning Theory[C]. Pittsburgh, PA, USA,

      [16] 1吳99偉2.寧28,7 -劉29揚(yáng)4., 郭茂祖等. 基于采樣策略的主動(dòng)學(xué)習(xí)算法研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2012, 49(6): 1162-1173.WU W N, LIU Y, GUO M Z, et al. Advances in active learning algorithms based on sampling strategy[J]. Journal of Computer Research and Development, 2012, 49(6): 1162-1173.

      [17] ABE N, MAMITSUKA H. Query learning strategies using boosting and bagging[A]. Proceedings of the Fifteenth International Conference(ICML'98)[C]. Madison, Wisconsin, USA, 1998.1-9.

      [18] TUIA D, RATLE F, PACIFICI F, et al. Active learning methods for remote sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2009, 47(7): 2218-2232.

      [19] COPA L, TUIA D, VOLPI M, et al. Unbiased query-by-bagging active learning for VHR image classification[A]. Proceedings of SPIE Remote Sensing[C]. Toulouse, France, 2010.783001-783008.

      [20] BREIMAN L. Bagging predictors[J]. Machine learning, 1996, 24(2):123-140.

      [21] ASUNCION A, NEWMAN D J. UCI machine learning repository.[EB/OL]. http://www.ics.uci.edu/mlearn/ MLRepository.html, 2007.

      [22] COLLOBERT R, BENGIO S, MARIETHOZ J. Torch: A Modular Machine Learning Software Library[R]. Technical Report, 2002.

      猜你喜歡
      類別分類器委員會(huì)
      跟蹤導(dǎo)練(五)(2)
      編輯委員會(huì)
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      服務(wù)類別
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
      什邡市| 全州县| 唐山市| 利辛县| 黑龙江省| 凤台县| 永宁县| 贵州省| 博乐市| 应用必备| 皮山县| 保亭| 永清县| 安阳县| 哈巴河县| 扎兰屯市| 阿尔山市| 威远县| 丹巴县| 揭阳市| 张家界市| 中山市| 高阳县| 荥经县| 内丘县| 哈尔滨市| 绥芬河市| 门源| 安徽省| 余庆县| 镇雄县| 安庆市| 漳州市| 苗栗县| 女性| 平陆县| 响水县| 富民县| 大竹县| 交城县| 晋州市|