胡 峰,周 耀,王 蕾
(重慶郵電大學(xué) 計算智能重慶市重點實驗室,重慶 400065)
基于鄰域粗糙集的主動學(xué)習(xí)方法
胡 峰,周 耀,王 蕾
(重慶郵電大學(xué) 計算智能重慶市重點實驗室,重慶 400065)
主動學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域的重要研究方向。現(xiàn)有主動學(xué)習(xí)方法通常選擇不確定性的或具有代表性的樣本供專家打標,然后添加到已標記的數(shù)據(jù)集中供分類器學(xué)習(xí),但沒能充分利用數(shù)據(jù)的分布信息,并且在野點采集問題上有待改進。結(jié)合鄰域粗糙集理論,提出了一種基于鄰域粗糙集的主動學(xué)習(xí)方法(neighhbor rough set active learning,NRS-AL)。實驗結(jié)果表明,在加州大學(xué)數(shù)據(jù)集(university of CaliforniaIrvine,UCI)上,該算法充分利用了數(shù)據(jù)的分布信息,同時結(jié)合樣本的不確定性和代表性計算,處理了野點的選擇,是一種能有效解決主動學(xué)習(xí)樣本選擇問題的算法,在accuracy,受試者工作特征(receiver operating characteristic curve,ROC)曲線下面的面積(area under curve,AUC)指標上優(yōu)于文獻中的主動學(xué)習(xí)算法。
鄰域粗糙集;主動學(xué)習(xí);基于池的樣本選擇
在傳統(tǒng)監(jiān)督學(xué)習(xí)問題中,通常給定有標記的樣本作為訓(xùn)練集,學(xué)習(xí)算法以此訓(xùn)練出分類模型。在真實的數(shù)據(jù)分析場景下,雖然我們可以輕松獲得海量的數(shù)據(jù),但是這些數(shù)據(jù)都是沒有標注過的數(shù)據(jù),很多經(jīng)典分類算法并不能直接應(yīng)用,對數(shù)據(jù)進行一一標記不僅需要時間和精力還要有專業(yè)的知識,這代價顯然是比較昂貴的,實行起來也是比較困難。如果算法可以主動對原始數(shù)據(jù)進行篩選,只將含有信息量較高的數(shù)據(jù)交給專家標注,那么就可以解決上述問題。半監(jiān)督學(xué)習(xí)(semi-supervised learning)和主動學(xué)習(xí)(active Learning)算法在這種情況下應(yīng)運而生,并且得到了快速發(fā)展。主動學(xué)習(xí)最初是由耶魯大學(xué)的Angluin教授[1]提出,該方法選擇部分最值得標記的樣本進行標記添加到訓(xùn)練集,之后利用新的分類器模型對無標記樣本進行再次選擇,通過標記部分樣本擴大訓(xùn)練集和迭代訓(xùn)練的方式使得學(xué)習(xí)模型的泛化能力得到提高。主動學(xué)習(xí)可以高效利用專家標注并且適用性廣泛,在機器學(xué)習(xí)領(lǐng)域占有舉足輕重的地位。
目前,主動學(xué)習(xí)的處理方法可以分為2種:基于流(stream-based)的處理方法和基于池(pool-based)的處理方法。在基于流的主動學(xué)習(xí)[2]中,設(shè)定一個閾值,所有未標記的樣本逐個提交給選擇引擎,由選擇引擎根據(jù)計算結(jié)果和閾值對比,來決定是否標記當前提交的樣本。在基于池的主動學(xué)習(xí)[3]中,設(shè)立一個未標注樣本集合,由選擇引擎在該集合中選擇當前值得標注的樣本。目前研究比較充分的是基于池的主動學(xué)習(xí)樣本選擇方法,按照選擇標準可分為:基于不確定性縮減的方法[4-6]、基于版本空間縮減的方法[7-9]、基于未來泛化錯誤率縮減的方法[10-12]等。
在基于不確定性縮減的方法中,由于在計算樣本重要性時需要考慮到樣本本身的不確定性,我們需要借助數(shù)學(xué)工具來表達和處理這些不確定性問題。Rough集[13-18]理論是一種有效的不確定信息處理方法,可以根據(jù)數(shù)據(jù)分布,自動將樣本空間劃分為正區(qū)域、邊界域和負區(qū)域。迄今為止,不少學(xué)者結(jié)合粗糙集開展了主動學(xué)習(xí)算法的研究。Wang等[19]提出結(jié)合模糊粗糙集選擇樣本的主動學(xué)習(xí)方法,通過計算樣本在條件特征和決策標簽之間的不一致性來選擇樣本。此外,Wang等[20]還提出了基于模糊粗糙集做流式選擇的主動學(xué)習(xí)方法,通過模糊粗糙集考慮特征和決策標簽之間的不一致性來計算樣本的不確定性。
本文結(jié)合鄰域粗糙集[21]理論,通過對邊界區(qū)域內(nèi)的樣本計算樣本重要性,提出了一種基于鄰域粗糙集的主動學(xué)習(xí)樣本選擇方法(neighhbor rough set active learning,NRS-AL),并結(jié)合J48基分類器,對無標簽數(shù)據(jù)進行標記并添加到訓(xùn)練集。實驗結(jié)果表明,文中提出的算法是一種有效的解決主動學(xué)習(xí)樣本選擇問題的算法,在accuracy,受試者工作特征(receiver operating characteristic curve,ROC)曲線下面的面積(area under curve,AUC)等指標上優(yōu)于文獻中的主動學(xué)習(xí)算法。
主動學(xué)習(xí)方法的工作過程是維護一個迭代訓(xùn)練的分類器的過程,一般可以分為2個部分:學(xué)習(xí)引擎和選擇引擎。學(xué)習(xí)引擎負責(zé)維護一個基分類器,根據(jù)提供的訓(xùn)練集和新增的標記樣本,利用監(jiān)督學(xué)習(xí)算法進行迭代學(xué)習(xí),從而使該分類器性能提高;選擇引擎負責(zé)運行樣本選擇算法,選擇新的樣本交給人類專家進行標記,之后將標記的樣本添加到訓(xùn)練集中。學(xué)習(xí)引擎和選擇引擎交替工作,通過不斷的迭代使得基分類器性能不斷提高,當達到迭代次數(shù)或者預(yù)定精度等預(yù)定條件時,算法終止。主動學(xué)習(xí)算法偽代碼描述如下。
輸入:已標記的訓(xùn)練集L,未標記的數(shù)據(jù)集U,測試集T,學(xué)習(xí)引擎LE,選擇引擎SE
當今社會的就業(yè)競爭非常激烈,用人單位在選擇畢業(yè)生的時候都會著重考慮他們的綜合素質(zhì)和實用的技術(shù)能力。隨著社會國際化進程發(fā)展的需要,對畢業(yè)生提出了更高的要求,不僅需要他們掌握專業(yè)技能,還需要他們能夠使用英語對外進行交際。因此,高職院校英語教學(xué)的重點是要加強學(xué)生使用英語對外進行溝通的能力。高職英語教學(xué)可以在課堂上模擬各種真實工作場景,鍛煉學(xué)生在實踐中解決各種問題?!皩嵺`出真知”,這種任務(wù)型教學(xué)模式將會大大提高學(xué)生實際生活中用英語解決各種問題的能力,從而提高高職院校學(xué)生的就業(yè)水平。
輸出:學(xué)習(xí)引擎LE
step1:train(LE,L) //訓(xùn)練基分類器模型
result=test(LE,T)//測試樣本
案例3:在“均值不等式的定理”一節(jié)中,可用“某商店在節(jié)前進行商品降價酬賓銷售活動,擬分兩次降價,有三種降價方案:甲方案是第一次打A折銷售,第二次打B折銷售;乙方案是第一次打B折銷售,第二次打A折銷售;丙方案是兩次都打—樣折銷售,問哪一種方案降價較多?”
if 算法精度或者迭次次數(shù)到達預(yù)設(shè)條件
return LE算法結(jié)束
step2:S=select(SE,U)//使用樣本選擇算法從無標記樣本中選擇最值得標記的樣本
step3:label(S)//將選擇的樣本交給人類專家進行標記
step4:L=L+S;U=U-S ;return step1;
//更新訓(xùn)練集和無標記數(shù)據(jù)集,將標記好的樣本添加到訓(xùn)練集,同時在未標記數(shù)據(jù)集中刪去所選樣本,并返回step1迭代執(zhí)行
本研究結(jié)果提示,B7-H3蛋白除了在免疫調(diào)節(jié)中發(fā)揮作用,還對腫瘤細胞的生物學(xué)特性產(chǎn)生影響,同時也提示我們,B7-H3蛋白在不同組織細胞中可能發(fā)揮不同的作用。這些實驗數(shù)據(jù)可以為進一步研究B7-H3的功能奠定實驗基礎(chǔ),同時也將為乳腺癌的治療提供新的靶點。
(1)
1988年,T.Y Lin[24]提出了鄰域模型,該模型通過空間點的鄰域來?;撚蚩臻g。把鄰域理解成基本信息粒子,空間中的其他概念可借此進行描述。
胡清華等[25]利用鄰域模型對經(jīng)典粗糙集理論進行拓展,提出了鄰域粗糙集模型。在該模型中,實數(shù)空間中的點形成一個δ鄰域,所以空間中任意概念的基本信息粒子由δ鄰域族描述。
定義1[25]給定任意xi∈U,B?C,xi在屬性子集B上的鄰域δB(xi)定義為
δB(xi)={xj|xj∈U,ΔB(xi,xj)≤δ}
(2)
δ為度量函數(shù)。定義x1,x2為2個N維空間樣本,A={a1,a2,…,aN},f(x,ai)表示x在屬性ai上值,則2個樣本的Minkowsky距離可定義為
(3)
當p=2時,即歐拉距離(euclidean distance)。
ASet=random(ASet)
(4)
(4)式中:C1為總體樣本中屬性值為V1的個數(shù),C1i為其中類別為i的個數(shù);C2是總體樣本中該屬性值為V2的個數(shù),C2i為其中類別為i個數(shù);K取常數(shù),通常設(shè)為1。
定義2[25]鄰域近似空間定義如下,給定數(shù)據(jù)集U,N是U的鄰域關(guān)系,鄰域粒族可表示為{δ(xi)|xi∈U},則表示為鄰域近似空間。
之后,新的海底往兩邊均勻地推開山脊上密度較大的現(xiàn)有巖塊,在地球表面的海洋板塊之間漂離得越來越遠,直到最終被海溝吞沒或撞到海岸上。當板塊相撞之時,一個板塊會滑動到另一個板塊下面,熔化成地球內(nèi)部的物質(zhì)??茖W(xué)家認為,自從侏羅紀時代,一片相當于太平洋大小的水域獨自潛沒于美洲大陸之下,這也是那里的海底較為年輕的原因。
定義3[25]對于任意X?U,在鄰域空間下,X在鄰域關(guān)系N中的上近似,下近似和邊界域定義為
(6)式中:min(dis(xi,s))表示距離其最近樣本的距離;range(dis(xi,s))表示在指定數(shù)據(jù)集中其距離的取值范圍;w表示權(quán)重。將鄰域內(nèi)的樣本劃分為負域,邊界上的樣本劃分為邊界域,鄰域外的樣本劃分為正域,算法對邊界域和負域的樣本進行處理。
做人要實,就是要清清白白做人,老老實實干事。為人處世要表里如一、知行合一,仰不愧天,俯不愧地,內(nèi)不愧心,打牢修身做人的根基,夯實為官從政的基礎(chǔ),做官要經(jīng)得起道德良知的拷問,要經(jīng)得起歷史后人的評說,做一個高尚的人和有益于人民的人。
牙隱裂是牙體牙髓科的常見病,根據(jù)隱裂程度不同我們采取的治療方法也不盡相同,對于伴發(fā)牙髓炎或者根尖周炎隱裂牙通常會采取根管治療后冠修復(fù)來保存患牙。根管治療是目前治愈牙髓炎和根尖周炎的有效方法,常規(guī)的根管治療包括根管預(yù)備,根管消毒和根管充填,因此療程較長,患者需要多次到醫(yī)院接受治療,伴發(fā)牙髓炎或者根尖周炎的隱裂牙因其特殊性需要的治療時間越短患牙的保存幾率就會越高。近年來一次性根管治療技術(shù)的療效得到了肯定,為了節(jié)省患者就診時間和提高患牙的保存率,我院對伴發(fā)牙髓炎或根尖周炎的患牙采取了一次性根管治療技術(shù),其臨床療效值得肯定,現(xiàn)將本次研究結(jié)果進行如下報道。
(5)
主動學(xué)習(xí)方法一般考慮信息含量高的和具有代表性的無標記樣本進行標記,信息含量高也就是不確定性大,適合使用粗糙集來處理這類不確定性問題。一般主動學(xué)習(xí)算法在計算代表性時使用的是聚類算法,但是聚類僅利用無標記樣本的分布信息,而本文提出的算法不僅利用無標記樣本的分布信息,還利用有標記樣本的分布信息。同時在預(yù)處理階段,對無標記樣本在鄰域內(nèi)縮減樣本,有效地控制了野點的采集。
考慮是計算數(shù)據(jù)集中所有樣本之間的兩兩距離,本算法大部分時間在距離計算,所以考慮多線程并行的方式,用公式(3)進行計算。
δ=min(dis(xi,s))+w×range(dis(xi,s)), 0≤w≤1
(6)
?,xi∈U},
考慮信息熵的計算方式
(7)
待標記樣本鄰域信息量定義如下
(8)
(9)
鄰域內(nèi)的無標記樣本信息量原理如圖1所示,在有標記樣本集中計算無標記樣本A和B的信息量,在A的鄰域中,含有更多類別的樣本,所以無標記樣本A的信息量大于B,樣本A更容易被選中。
1)積極引進國內(nèi)外知名MOOCs課程體系,并重點建設(shè)本專業(yè)自己的MOOCs課程和翻轉(zhuǎn)課堂教學(xué)模式,并應(yīng)用于課程教學(xué)中,目前已完成3門專業(yè)課程的MOOCS建設(shè)和3門專業(yè)課程的“翻轉(zhuǎn)課堂”教學(xué)模式的建設(shè),并都應(yīng)用于相關(guān)課程教學(xué)改革的實施中。
圖1 鄰域內(nèi)的無標記樣本信息量原理圖Fig.1 Principle of calculating the information quantity of the non labeled samples in the neighborhood
考慮樣本的泛化性能,也就是需要待標記樣本處于訓(xùn)練集的低密度區(qū)域,并且處于無標簽數(shù)據(jù)集的高密度區(qū)域。無標簽樣本鄰域泛化性定義如下
gene(x)=dens_u(x)p/dens_l(x)q
(10)
(10)式中:dens_1表示樣本在訓(xùn)練集中的鄰域密度;dens_u表示樣本在無標簽數(shù)據(jù)集中的鄰域密度;q,p為權(quán)重。無標記樣本在有標記樣本鄰域和無標記樣本鄰域計算泛化量原理如圖2所示,在所有樣本集中計算無標記樣本A和B的泛化量,在A的鄰域中,A處于無標記樣本集的高密度區(qū)域,有標記樣本集的低密度區(qū)域,而B樣本處于有標記樣本的高密度區(qū)域,所以,A的泛化量大于B,樣本A會更容易被選中。
為了避免信息量和泛化量過大過小,所以考慮取p泛數(shù),省去了調(diào)參過程。
隨著“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的發(fā)展浪潮,大學(xué)生自主創(chuàng)業(yè)成為解決大學(xué)生就業(yè)困難問題的有效手段,正引起社會的廣泛關(guān)注和重視。面對高校畢業(yè)生日益嚴峻的就業(yè)形勢,大學(xué)生無疑是創(chuàng)業(yè)界的中流砥柱及重點培育對象,對于為社會注入新鮮的活力頗為重要。但盡管如此,比起社會平均水平,大學(xué)生創(chuàng)業(yè)成功的概率仍較低。本文通過對200份廣東大學(xué)生創(chuàng)業(yè)融資情況問卷的數(shù)據(jù)研究發(fā)現(xiàn),41%的大學(xué)生認為資金短缺是創(chuàng)業(yè)路上的最大障礙。
imp(x)=(info(x)p+gene(x)p)1/p
(11)
將樣本按照重要性排序,取TopK添加到訓(xùn)練集,并從無標簽樣本中刪除這部分樣本
與蒙特卡洛仿真類似,利用重要抽樣策略進行失效概率梯度計算時,隨機樣本與式(7)中失效概率計算的樣本一致,即利用重要抽樣策略計算失效概率梯度時不會增加額外的計算成本。
在無標記樣本集中指定一個較小的鄰域半徑權(quán)重w,在預(yù)處理階段刪除鄰域內(nèi)的樣本即可,即可達到去除野點的目的。
圖2 無標記樣本在有標記樣本鄰域和 無標記樣本鄰域計算泛化量原理Fig.2 Non labeled samples are calculated from the neighborhood of labeled samples and the neighborhood of unlabeled samples
基于鄰域粗糙集的主動學(xué)習(xí)方法的具體步驟。
1)根據(jù)指定參數(shù)劃分數(shù)據(jù)集,輸入訓(xùn)練集占比,無標簽樣本占比,剩余數(shù)據(jù)為測試集,算法如下。
算法1數(shù)據(jù)集劃分算法
輸入:全部數(shù)據(jù)集ASet,訓(xùn)練集比重t,無標簽數(shù)據(jù)比重u。
輸出:訓(xùn)練集TSet,無標簽數(shù)據(jù)集USet,測試集TestSet。
毫無疑問,數(shù)學(xué)史融入數(shù)學(xué)教學(xué)實踐會對學(xué)生的數(shù)學(xué)學(xué)習(xí)產(chǎn)生影響,此方面的研究大都依托于具體的教學(xué)主題,通常附屬于HPM教學(xué)實踐,在數(shù)學(xué)史融入數(shù)學(xué)教學(xué)實踐后對融入效果進行測評,以此看對學(xué)生數(shù)學(xué)學(xué)習(xí)的影響.例如報告11在數(shù)學(xué)史融入對數(shù)教學(xué)實踐后,研究者用學(xué)生課上對工作單的作答、小組及全體討論的錄音及課后兩份匿名的問卷來評估學(xué)生知識的獲得及學(xué)生對使用數(shù)學(xué)史的意見等.報告17中,研究者用前后測、田野觀察及最后的問卷來評估實踐效果.
TSet=?;USet=?;
TestSet=?
4.并購后組織機構(gòu)整合的納稅籌劃。并購后組織機構(gòu)整合的納稅籌劃主要是考慮應(yīng)該設(shè)立子公司還是分公司,但無論設(shè)立哪種,都應(yīng)該從總體利益出發(fā)。企業(yè)若是設(shè)立子公司,對于享受稅收優(yōu)惠的被并購企業(yè),并購企業(yè)應(yīng)該設(shè)立子公司,延續(xù)該優(yōu)惠政策,母子公司之間的利潤可以進行合理轉(zhuǎn)移,各種費用容易形成合理列支,使母子公司之間的稅收籌劃空間更大。企業(yè)若是設(shè)立分公司,因為分公司不具有獨立法人資格,需要總公司匯總收支進行納稅,所以總公司的盈利可以沖減分公司的虧損,降低總體稅負。
良好的開端是成功的一半,新班主任在開學(xué)工作伊始,就要在班級工作上打好第一戰(zhàn),吃好“開頭奶”,在新接班級工作開展的每一個“第一次”上下功夫,讓每一個“第一次”化為一種堅守,多管齊下,力爭文明之花隨之綻放。那么,班主任要從哪幾個方面快速投入班級建設(shè)呢?筆者結(jié)合自己的經(jīng)驗淺談中途新接班級的幾點方略。
步驟2:(打亂數(shù)據(jù))
歐拉距離只適用于屬性是連續(xù)型的情況,不能處理分類型屬性。Stanfill和Waltz[26]提出的不同屬性度量 (value difference metric,VDM)可用來處理分類型屬性 。假設(shè)樣本x1,x2有分類型屬性的2個值V1,V2,他們之間的距離定義為
步驟3:(劃分數(shù)據(jù))
TSet=ASet[0,size(ASet)×t]
USet=ADet[size(ASet)×t,size(ASet)×(u+t)]
TestSet=ASet[size(ASet)×(u+t),size(ASet)]
步驟4:將訓(xùn)練集,無標簽數(shù)據(jù)集和測試集分別輸出。
2)根據(jù)算法1劃分的數(shù)據(jù)集,對無標簽樣本進行計算信息量和泛化量,然后對重要性排序?qū)opk的樣本進行詢問(query)操作,將新打標的樣本添加到訓(xùn)練集,并重復(fù)此過程,直到無標簽樣本被選擇完,訓(xùn)練集不再更新,算法如下。
算法2基于鄰域粗糙集的主動學(xué)習(xí)算法(NRS-AL)
輸入:訓(xùn)練集TSet,無標簽數(shù)據(jù)集USet,測試集TestSet,鄰域半徑參數(shù)w,重要性計算的參數(shù)泛數(shù)p,每次選擇詢問的樣本數(shù)k。
forxiin USet do
步驟1:(計算TSet和USet中樣本間距離)
利用公式(3)和(4)計算distance(x,y)
步驟2:(計算無標記樣本的鄰域)
forxiin USet do
利用公式(5)計算樣本xi在TSet和USet中的鄰域半徑δ。計算xi的鄰域δ1(xi)和δu(xi),將鄰域內(nèi)的樣本劃分為負域,邊界上的樣本劃分為邊界域,鄰域外的樣本劃分為正域,算法對邊界域和負域的樣本進行處理。
步驟1:(初始化)
δ1(xi)={x|x∈TSet,Δ(x,xi)≤δli}
這項研究還表明,通過額外的機制,小農(nóng)戶可以整合入新的供應(yīng)鏈。在超市供應(yīng)鏈中,先鋒農(nóng)民對于鼓勵其他農(nóng)民的參與是非常重要的,例如,通過“衛(wèi)星”農(nóng)場實現(xiàn)。盡管農(nóng)民愿意通過正規(guī)的農(nóng)民組織參與集體行動加入超市供應(yīng)鏈,但是還有些農(nóng)民可能是通過其他的機制參與。政策不應(yīng)僅僅因為社會的原因而促進組織的發(fā)展,也要根據(jù)農(nóng)民的條件和喜好去探索其他機制。
δu(xi)={x|x∈USet,Δ(x,xi)≤δui}
end for
步驟3:(計算無標簽樣本的重要性)
輸出:分類器ActiveClassifier
利用公式(7)計算info(x),
利用公式(9)計算gene(x),
利用公式(10)計imp(x)。
end for
QuerySet=topk(rank(X))
TSet={x|x∈TSet,x∈QuerySet}
USet={x|x∈USet,x?QuerySet}
步驟4:(更新分類器并輸出測試集結(jié)果)
if TrainSet is updated then
ActiveClassifier=train(TSet)
TestResult=test(TSet)
else return ActiveClassifier
重復(fù)步驟2—步驟4直到訓(xùn)練集不再更新。
本次試驗所使用的15個數(shù)據(jù)集為公開數(shù)據(jù)集,如表1所示,其中字母識別來自加州大學(xué)數(shù)據(jù)集(University of CaliforniaIrvine,UCI)[27],選擇其中比較難分辨的DP,EB,EF,IJ,MN,RK構(gòu)建二分類數(shù)據(jù)集。其中數(shù)字手寫體識別數(shù)據(jù)集來自Kaggle[28]中較難分辨的17,35,69,89作為本次實驗的數(shù)據(jù)集。austra,cortex_nuclear,occupancy,vehicle,wdbc均來自UCI公開數(shù)據(jù)集。其中多分類評價指標為準確率accuracy,二分類評估指標為受試者工作特征(receiver operating characteristic curve,ROC)曲線下面的面積(area under curve,AUC)。其中,AUC被定義為ROC曲線下的面積,由于ROC曲線一般都位于y=x這條線的上方,所以AUC的取值在[0.5,1]。因為在很多時候,ROC曲線并不能清晰地說明哪個分類器效果更好,通常考慮到數(shù)據(jù)集分布有可能是不平衡數(shù)據(jù),所以,本質(zhì)是對分類器排序性能評估的AUC指標在二分類中獲得更廣泛的使用。
表1 實驗數(shù)據(jù)集Tab.1 Experimental data set
本次實驗采用隨機方法將1%的數(shù)據(jù)劃分為初始訓(xùn)練集,69%的數(shù)據(jù)劃分為無標簽數(shù)據(jù)集,30%的數(shù)據(jù)劃分為測試集。無標簽數(shù)據(jù)均分成50次添加到訓(xùn)練集,基分類器采用開源工具Weka中的J48,使用默認參數(shù)。對每個數(shù)據(jù)集運行10次取均值作為最終實驗結(jié)果。
本次實驗采用AUC和accuracy作為評估指標。AUC表示ROC曲線下的面積,介于0和1之間,AUC作為數(shù)值可以直觀的評價分類器的好壞,AUC值越大表示當前分類算法越有可能將正樣本排在負樣本前面。accuracy表示分類準確率,二分類采用AUC評估,多分類采用accuracy評估。采用5種主動學(xué)習(xí)方法,基于不確定性的主動學(xué)習(xí)方法[29](uncertainty),主要采用基于SVM為基分類模型的一種基于超平面度量樣本不確定性的方法;基于代表性的主動學(xué)習(xí)方法[30](representative),主要采用了基于層次聚類來度量樣本代表性的方法;委員會投票主動學(xué)習(xí)方法[7](QBC),采用了訓(xùn)練多個模型來投票度量樣本信息量的方法;隨機選擇的主動學(xué)習(xí)方法(random),保持新樣本的較大泛化性能的方法。Huang[31]等提出的主動學(xué)習(xí)算法中,實驗結(jié)果表明,部分主動學(xué)習(xí)算法性能并不如隨機選擇效果好,所以本文也將隨機選擇的方法加入對比。本文所使用的基于粗糙集的主動學(xué)習(xí)方法(NRS-AL)。在本次實驗中,分別使用20%,40%,60%,80%,100%無標記數(shù)據(jù),實驗結(jié)果如表2-表6所示,對于5種算法重復(fù)10次試驗取平均結(jié)果,評估指標為10次試驗的均值,二分類數(shù)據(jù)采用AUC評估,多分類數(shù)據(jù)采用accuracy。
表2 使用20%無標記數(shù)據(jù)時算法性能對比Tab.2 Performance comparison of algorithms using 20% unlabeled data
表3 使用40%無標記數(shù)據(jù)時算法性能對比Tab.3 Performance comparison of algorithms using 40% unlabeled data
表4 使用60%無標記數(shù)據(jù)時算法性能對比Tab.4 Performance comparison of algorithms using 60% unlabeled data
表5 使用80%無標記數(shù)據(jù)時算法性能對比Tab.5 Performance comparison of algorithms using 80% unlabeled data
表6 使用100%無標記數(shù)據(jù)時算法性能對比Tab.6 Performance comparison of algorithms using 100% unlabeled data
續(xù)表6
在15個數(shù)據(jù)集上,對比5種算法在無標簽數(shù)據(jù)添加過程的性能表現(xiàn),在不同無標簽數(shù)據(jù)量時,其中本文提出的NRS-AL算法在75次比較中45次獲得領(lǐng)先,明顯優(yōu)于其他算法。representative和QBC其次,分別是基于代表性主動學(xué)習(xí)算法和不確定性主動學(xué)習(xí)算法中效果較好的算法,本文提出的NRS-AL算法吸取了2種算法的優(yōu)點,同時考慮了樣本的代表性和不確定性,并且處理了野點,使得算法選擇到的樣本更重要,對模型的性能提升更大。random算法效果最差,雖然該算法選擇的樣本泛化性能較好,但是過于盲目,細節(jié)因素并未考慮。
另外NRS-AL算法在digit 4個數(shù)據(jù)集中表現(xiàn)并不如意,因為該數(shù)據(jù)集在實驗數(shù)據(jù)中特征數(shù)明顯大幅多過其他數(shù)據(jù)集,包含784個特征,其余數(shù)據(jù)集特征數(shù)在5-81之間,特征過多時可能包含的噪聲特征也變多,導(dǎo)致NRS-AL算法性能下降。
在所有數(shù)據(jù)集上不同數(shù)據(jù)量時算法性能平均表現(xiàn)如表7所示。無標記數(shù)據(jù)量在20%-40%的時候,本文提出的NRS-AL算法性能明顯領(lǐng)先于其他算法,甚至超過100%無標記數(shù)據(jù)作為訓(xùn)練集的性能,當數(shù)據(jù)量逐漸增加的時候,所有算法性能均保持提升并趨于穩(wěn)定。
表7 在所有數(shù)據(jù)集上不同數(shù)據(jù)量時算法性能平均表現(xiàn)Tab.7 Algorithm performance with average performance in all data sets with different data volumes
本文提出了一種基于鄰域粗糙集的主動學(xué)習(xí)方法,用于解決主動學(xué)習(xí)算法中無標簽樣本的選擇問題。首先根據(jù)鄰域粗糙集模型從樣本分布來定義正域樣本、邊界域樣本和負域樣本;然后對負域和邊界域樣本進行計算無標簽樣本的不確定性和泛化性,以此來衡量該無標簽樣本的重要性。一方面該算法充分地利用了有標簽數(shù)據(jù)和無標簽數(shù)據(jù)的分布,另一方面,還在預(yù)處理階段過濾掉部分無標簽樣本,減少計算量,同時計算了樣本的泛化性能,有效地解決了野點采集問題。在15個UCI數(shù)據(jù)集上的實驗結(jié)果表明,相較于其他主動學(xué)習(xí)算法,文中提出的方法對樣本選擇的效率明顯提高,在相同樣本選擇數(shù)量上,精度和AUC指標也明顯提高。在20%-40%無標記數(shù)據(jù)使用量時,本文提出的算法性能甚至超過100%無標記數(shù)據(jù)使用量性能,起到了縮減樣本的功能。本文所提出方法適合在大規(guī)模集群上并行實現(xiàn),研究更高效的并行算法將是今后的研究重點。
[1] ANGLUIN D. Queries and concept learning[J]. Machine Learning, 1988, 2(4):319-342.
[2] FREUND Y, SEUNG H S, SHAMIR E, et al. Selective Sampling Using the Query by Committee Algorithm[J]. Machine Learning, 1997, 28(2):133-168.
[3] MUSLEA I A. Active Learning with Multiple Views.[J]. Journal of Artificial Intelligence Research, 2011, 27(1):203-233.
[4] WROBEL S. Active Learning of Partially Hidden Markov Models[J]. Data Mining and Knowledge Discovery, 2001, 15(2):102-107.
[5] VLACHOS A. Active Learning with Support Vector Machines[J]. Wiley Interdisciplinary Reviews Data Mining & Knowledge Discovery, 2004, 4(4):313-326.
[6] CAMPBELL C, CRISTIANINI N, SMOLA A. A Query learning with large margin classifiers[C]//DAN R.17th International Conference On Machine Learning (ICML). CA: JMLR, 2000:111-118.
[7] SEUNG H S, OPPER M. Query by Committee[J]. Acm conference on Computational Learning Theory, 1992, 28(4):287-294.
[8] ABE N, MAMITSUKA H. Query Learning Strategies Using Boosting and Bagging [C]//JUDE W. Fifteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 1998:1-9.
[9] MELVILLE P, MOONEY R J. Diverse ensembles for active learning[C]//DAN R, International Conference on Machine Learning.CA: JMLR, 2004:74.
[10] ROY N, MCCALLUM A. Toward Optimal Active Learning through Sampling Estimation of Error Reduction[C]// Richard N, Eighteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 2001:441-448.
[11] TONG S, KOLLER D. Active Learning for Parameter Estimation in Bayesian Networks[J]. Nips, 2001,1(1):647-653.
[12] LINDENBAUM M, MARKOVITCH S, RUSAKOV D. Selective Sampling for Nearest Neighbor Classifiers[J]. Machine Learning, 2004, 54(2):125-152.
[13] PAWLAK Z. Rough sets[J]. International Journal of Parallel Programming, 1982, 38(5):88-95.
[14] PAWLAK Z, SKOWRON A. Rudiments of rough sets[J]. Information Sciences, 2007, 177(1):3-27.
[15] PAWLAK Z, SKOWRON A. Rough sets: Some extensions[J]. Information Sciences, 2007, 177(1):28-40.
[16] PAWLAK Z, SKOWRON A. Rough sets and Boolean reasoning[J]. Information Sciences, 2007, 177(1):41-73.
[17] 王國胤,苗奪謙,吳偉志,等.不確定信息的粗糙集表示和處理[J].重慶郵電大學(xué)學(xué)報:自然科學(xué)版, 2010, 22(5):541-544..
WANG Guoyin, MIAO Duoqian, WU Weizhi, et al. Uncertain knowledge representation and processingbased on rough set. rough set representation and processing of uncertain information[J].Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition,2010, 22(5):541-544.
[18] 李華雄,劉盾,周獻中.決策粗糙集模型研究綜述[J].重慶郵電大學(xué)學(xué)報:自然科學(xué)版,2010, 22(5):624-630.
LI Huaxiong,LIU Dun,ZHOU Xianzhong.A survey of rough set model[J]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2010, 22(5):624-630.
[19] WANG R, CHEN D, KWONG S. Fuzzy-Rough-Set-Based Active Learning[J]. IEEE Transactions on Fuzzy Systems, 2014, 22(6):1699-1704.
[20] WANG R, KWONG S, CHEN D, et al. Fuzzy rough sets based uncertainty measuring for stream based active learning[J]. Machine Learning and Cybernetics(ICMLC), 2012, 1:282-288.
[21] HU Q, YU D, XIE Z. Neighborhood classifiers[J]. Expert systems with applications, 2008, 34(2): 866-876.
[22] LEWIS D D, CATLETT J. Heterogeneous Uncertainty Sampling for Supervised Learning[J]. Machine Learning Proceedings, 1994, 7(4):148-156.
[23] VLACHOS A. Active Learning with Support Vector Machines[J]. Wiley Interdisciplinary Reviews Data Mining and Knowledge Discovery,2004, 4(4):313-326.
[24] LIN T Y. Neighborhood Systems and Approximation in Relational Databases and Knowledge Bases[J]. Proceedings of International Symposium on Methodologies of Intelligent Systems, 1988, 12(5):132-155.
[25] HU Q, YU D, XIE Z. Neighborhood classifiers[J]. Expert Systems with Applications An International Journal, 2008, 34(2):866-876.
[26] STANFILL C. Toward memory-based reasoning[J]. Communications of the Acm, 1986, 29(12):1213-1228.
[27] MEILA M, JORDAN M I. Learning with Mixtures of Trees[J]. Journal of Machine Learning Research, 1999, 1(1):1-48.
[28] KAGGLE.Digit Recongnizer[EB/OL]. (2012-03-01)[2016-10-15].https://www.kaggle.com/c/digit-recognizer/data.
[29] TONG S, KOLLER D. Support vector machine active learning with applications to text classification[J]. Journal of Machine Learning Research, 2001, 2(1):45-66.
[30] DASGUPTA S, HSU D. Hierarchical sampling for active learning[C]// Daniel Hsu. International Conference on Machine Learning. Helsinki: Pattern Analysis, 2008:208-215.
[31] HUANG S J, JIN R, ZHOU Z H. Active Learning by Querying Informative and Representative Examples[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 36(10):892-900.
s:The National Natural Science Fundation of China(61309014);The Ministry of Education Humanities and Social Sciences Program(15XJA630003);The Science and Technology Research Project of Chongqing Municipal Education Commission(KJ1500416);The Chongqing Basic and Frontier Research Program(cstc2013jcyjA40063)
Algorithmforactivelearningbasedonneighborroughsettheory
HU Feng, ZHOU Yao,WANG Lei
Chongqing Key Laboratory of Computational Intelligence, Chongqing University of Posts and Telecommunications, Chongqing 400065, P. R. China)
Active learning is one of the major research directions of machine learning. Most active learning approaches select uncertain or representative unlabeled samples to query their labels, and then add them into labeled data sets for classifier learning. However, these approaches have not fully utilized data distribution information, and not processed outlier acquisition problem well enough, too. With neighbor rough set theory, an algorithm named NRS-AL is proposed. The experiment results have shown that in UCI data set, combined with uncertainty and representative calculation of samples, the proposed algorithm in this paper has solved the previous problems, and is effective in solving sample choosing problems in active learning, which shows better accuracy and AUC performances than others in the literatures.
neighborhood rough set; active learning; pool-based sample selection
10.3979/j.issn.1673-825X.2017.06.011
2016-11-10
2017-09-15
周 耀 384375530@qq.com
國家自然科學(xué)基金(61309014);教育部人文社科規(guī)劃項目(15XJA630003);重慶市教委科學(xué)技術(shù)研究項目(KJ1500416);重慶市基礎(chǔ)與前沿研究計劃項目(cstc2013jcyjA40063)
TP183
A
1673-825X(2017)06-0776-09
胡 峰(1978 -),男,湖北天門人,教授, 碩士生導(dǎo)師,主要研究方向為數(shù)據(jù)挖掘、 Rough集和粒計算等。E-mail:hufeng@cqupt.edu.cn。
周 耀(1992 -),男,重慶人,碩士研究生,主要研究方向為數(shù)據(jù)挖掘。E-mail:384375530@qq.com。
(編輯:田海江)