蔡靜
摘要:針對不均衡數(shù)據(jù)處理問題,提出一種AdaBoost與在線連續(xù)極限學習機的集成算法。用在線連續(xù)極限學習機(OSELM)作為基分類器,根據(jù)AdaBoost集成各個基分類器,用AdaBoost集成分類器的權值,得出最終結果。實驗結果表明,該方法具有較高的準確率。關鍵詞:AdaBoost;在線連續(xù)極限學習機;集成算法DOI:10.11907/rjdk.162759中圖分類號:TP312文獻標識碼:A
文章編號:16727800(2017)004004902
0引言 隨著不均衡數(shù)據(jù)不斷涌現(xiàn),針對不均衡數(shù)據(jù)分類算法的研究方興未艾。針對數(shù)據(jù)分類的主要有基于支持向量機(SVM)[1]、BP神經(jīng)網(wǎng)絡[2]、K最近鄰算法[3]、決策樹、貝葉樹等算法的單分類器模型和多分類器模型。實驗過程中往往會忽略少數(shù)類、重視多數(shù)類。針對這些問題,很多學者對傳統(tǒng)算法進行了改進,以提高整體的分類精度。如有采樣的方法、代價敏感學習、裝袋[4]和提升[5]集成算法等,集成分類器是解決不均衡數(shù)據(jù)的分類方法。本文提出一種基于Adaboost與在線連續(xù)極限學習機的集成算法。
1相關概念
1.1極限學習機極限學習機由輸入層、隱含層及輸出層3部分構成。其中輸入層與隱含層之間有隨機產(chǎn)生的連接權值ω、隱含層與輸入層之間有隨機產(chǎn)生的連接權值β,隱含層輸入矩陣為H,輸出矩陣為T。具有N個不同訓練樣本N(Xi,Yj),如矩陣形式Hβ=T,神經(jīng)網(wǎng)絡模型為:
1.3Adaboost
Adaboost是Boosting的一種進化算法。Adaboost主要解決某種算法的學習率,對每個訓練樣本取相同的權值1/d。對于誤分類樣本其權重會增加,相反分類正確的樣本權重會減少,Adaboost更加關注誤分類或難以分類的樣本??倶颖炯殖蒼個訓練集Ni,Adaboost將N個分類器Hi合并成強分類器Y(X),使預測結果更加理想。
2本文算法本文實驗數(shù)據(jù)集來自UCI庫。實驗主要針對二類不平衡數(shù)據(jù)問題進行研究,選取數(shù)據(jù)集具有兩個類標簽。Adaboost可在保證準確率的情況下很好地處理不平衡問題。K選5,即有5個弱分類器。算法步驟如下:①初始化OSELM權值、閾值。選取m組訓練數(shù)據(jù),賦予相同的權值Dt(i)=1/m;②根據(jù)公式(4)計算初始權值β0,設置m=0;③數(shù)據(jù)更新得到新訓練集后,更新部分隱含層的輸出矩陣,計算矩陣βm+1;④根據(jù)步驟③,更新分類器βm+1權值;⑤對弱分類器進行預測。訓練第t個弱分類器,用訓練數(shù)據(jù)訓練OSELM并預測輸出的值,得到預測序列g(t)的預測誤差和et;⑥計算預測序列權重。根據(jù)預測序列g(t)的預測誤差et計算序列權重at。權重計算公式為:at=1/2ln(1-et/et);⑦強分類函數(shù)。訓練T輪后得到T組弱分類函數(shù)f(gt,at),由T組弱分類器f(gt,at)得到強分類器h(x)。h(x)公式為:
3結果與分析不均衡數(shù)據(jù)中存在類不平衡現(xiàn)象,最能引起關注的是少數(shù)類。然而在實驗過程中,關注的少數(shù)類即正類分布的很少,而相對較多的多數(shù)類即負類分布卻很多。本文對初始權值與閾值進行隨機分配,將強類器結果與弱分類器結果進行比較,對比AdaBoost與ELM集成算法。
其中TP代表真正例,TN代表真負例,F(xiàn)P代表假正例,F(xiàn)N代表假負例。表1、圖1為AdaBoost與OSELM集成算法中強分類器與弱分類器的準確率;表2、圖2為AdaBoost與ELM集成算法中強分類器與弱分類器的準確率;表3、圖3為AdaBoost與OSELM、AdaBoost與ELM集成算法強分類器的準確率。
根據(jù)圖表對比準確率,可以清楚看出本文提出的AdaBoost與OSELM集成算法中強分類器的準確率明顯高于弱分類器,然而在AdaBoost與ELM集成算法對比中,隱含層結點數(shù)目逐漸減少,AdaBoost與OSELM集成算法的準確率明顯上升,但是在隱含層結點相對較多時,較AdaBoost與ELM集成算法的準確率不相上下,尤其在隱含層結點數(shù)為250時,明顯低于AdaBoost與ELM集成算法。
4結語 本文將在線連續(xù)極限學習機作為基分類器,AdaBoost集成各個基分類器,采用AdaBoost集成分類器權值計算得出最終結果。與AdaBoost集成極限學習機作為基分類器的結果進行對比,評估了各種方法的準確率。實驗還存在不足之處,如當隱含層節(jié)點增加時會出現(xiàn)準確率不理想情況。今后要進行大量的對比試驗,以得到更優(yōu)效果。
參考文獻:[1]G M FUNG,O L MANGASARIAN.Incremental support vector machine classification[M].SIGKDD,2001:7786.
[2]Z H ZHOU,X Y LIU.Training costsensitive neural networks with methods addressing the class imbalance problem[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(1):6377.
[3]S TAN.Neighborweighted knearest neighbor for unbalanced text corpus[J].Expert System and Applications,2005,28(4):667671.
[4]J BASZCZY′NSKI,JERZY STEFANOWSKI,UKASZ IDKOWIAK.Institute of computing science[Z].Pozna′n University of Technology,ul.Piotrowo,2011(2):60965.
[5]M FERNANDEZ,GALAR,A BARRENECHEA,et al.A review on ensembles for class imbalance problem:bagging,boosting and hybrid based approaches[J].IEEE Transactions on Systems,Man,and CyberneticsPart C ,2011,42(4):463484.(責任編輯:杜能鋼)