摘 "要:本文提出了一種基于樣例池不確定性縮減最大的主動學習方法,該方法選擇那些能夠使得樣例池不確定性縮減最大的樣例,從而使得到的分類器具有更好的泛化能力。
關鍵詞:主動學習;樣例挑選;不確定性縮減;樣例池
當前主動學習算法大致可分成兩大類:基于流的主動學習和基于池的主動學習。與基于流的主動學習不同,基于池的主動學習不是由學習器產(chǎn)生新的樣例,而是從樣例池中選擇樣例。所謂的樣例池就是一些無類標的樣例的集合,為主動學習器提供選擇的樣例。
1.基于不確定性縮減最大的主動學習
基于不確定性縮減最大的主動學習是應用最為廣泛的一種,它選擇選擇當前學習器最難分類的樣例,通常這些樣例位于分類邊界附近。
本文提出一種基于樣例池不確定性縮減最大的主動學習算法,即選取那些能最大程度上減少樣例池不確定性的樣例,也就是能使得樣例池的不確定性縮減最大的樣例。實驗表明,與選擇不確定性最大的樣例相比,該方法選取的樣例能使學習器的收斂速度更快,更快的獲得較好的性能。
1.1 基本思想
由于主動學習的目的最終是要獲得一個分類器,該分類器要具有好的泛化能力。基于樣例池不確定性縮減最大的主動學習方法選擇的樣例是那些能夠最大程度上縮減樣例池不確定性的樣例,因此該方法能夠是樣例池的不確定性快速的縮減到最少。該方法的主要思想如下:
設當前樣例池P中有N個樣例e1,e2,…eN且當前樣例池的不確定性為U(PN),若標注某樣例
1.3 算法描述
新算法描述如下:
步驟一:用有類標的樣例訓練得到一個分類器;
步驟二:用樣例池中的每一個樣例,并計算每個樣例的類別不確定性,記為 " " " " " " ";
步驟三:計算各個樣例間的相似度,由此形成相似矩陣:
步驟四:根據(jù)公式(7)計算每個樣例被標注后樣例池的不確定性縮減量 " " " " " " " " " ;
步驟五:選取使得樣例池不確定性縮減量最大的樣例交由專家標注,并將標注后的樣例加入到訓練集中;步驟六:判斷選擇的樣例個數(shù)是否達到預訂的閾值,若是,則結束該算法;否則,返回步驟一;
2.實驗及結果分析
采用模糊決策樹作為基準分類器,分別在Glass和Pima數(shù)據(jù)庫上進行了實驗。數(shù)據(jù)庫信息如表所示。
數(shù)據(jù)庫名稱 Glass Pima
基于樣例不確定性最大 0.5712 0.7194
基于樣例池不確定性縮減最大 0.5755 0.7198
由表格可以看出,與基于樣例不確定性最大的主動學習方法相比,新方法——基于樣例池不確定性縮減最大的方法在標注相同數(shù)目的樣例情況下,得到的學習器的性能更好。
參考文獻:
[1]X. Zhu. Semi-supervised learning with graphs. Doctoral Thesis, May 2005.
[2]龍軍,殷建平,祝恩,趙文濤;主動學習研究綜述;計算機研究與發(fā)展;45 (Suppl1) : 300~304, 2008