朱亮,徐華,成金海,朱深
AdaBoost的樣本權(quán)重與組合系數(shù)的分析及改進
朱亮,徐華*,成金海,朱深
(江南大學 人工智能與計算機學院,江蘇 無錫 214122)( ? 通信作者電子郵箱joanxh2003@163.com)
針對自適應(yīng)增強(AdaBoost)算法的基分類器線性組合效率低以及過度關(guān)注難分樣本的問題,提出了基于間隔理論的兩種改進算法WPIAda與WPIAda.M。首先,WPIAda與WPIAda.M算法都將樣本權(quán)值的更新分為四種情形,從而增加間隔從正到負變化的樣本權(quán)值來抑制間隔的負向移動,并減少間隔處于零點的樣本數(shù)量;其次,WPIAda.M算法根據(jù)基分類器的錯誤率與樣本權(quán)重的分布狀態(tài),給出新的基分類器系數(shù)求解方法,從而提高基分類器的組合效率。在10個UCI數(shù)據(jù)集上,與dfAda、skAda、swaAda等算法相比,WPIAda和WPIAda.M算法的測試誤差分別平均降低了7.46個百分點和7.64個百分點;AUC分別提高了11.65個百分點和11.92個百分點。實驗結(jié)果表明,WPIAda和WPIAda.M算法可以有效降低對難分樣本的關(guān)注,并且WPIAda.M算法能夠更高效地集成基分類器,因此兩種算法均可進一步提高分類性能。
自適應(yīng)增強;間隔理論;樣本權(quán)重;基分類器;組合效率
集成學習是機器學習中的一個重要研究領(lǐng)域,它不力求得到單一最優(yōu)分類器,而是通過已有數(shù)據(jù)訓(xùn)練出一組弱分類器,然后按照一定策略將弱分類器組合成一個強分類器。Boosting[1]是集成學習的代表算法,它可將簡單的、正確率不高的粗糙預(yù)測方法,通過特定規(guī)則構(gòu)造出一個復(fù)雜且準確度高的預(yù)測方法[2]。其中自適應(yīng)增強(Adjusts Adaptive Boosting, AdaBoost)[3]是Boosting家族中最具代表性的算法,隨著不斷的研究衍生出多種AdaBoost算法[4-5]。有學者從統(tǒng)計學的方向?qū)daBoost的成功進行了解釋[6],認為AdaBoost是邏輯模型上以最大伯努利似然為準則的加性建模的近似方法,并在此基礎(chǔ)上對AdaBoost進行了小的修改,減少計算量,以適應(yīng)大規(guī)模的數(shù)據(jù)挖掘;但實踐表明,在多數(shù)情況下AdaBoost在收斂后繼續(xù)迭代,仍然能降低測試集上的錯誤率,對于這種現(xiàn)象統(tǒng)計學不能給出很好的解釋。文獻[7]從間隔理論的方向解釋了這個問題,并證明了訓(xùn)練樣本的間隔分布與集成時的策略相關(guān)[8]。由于AdaBoost算法的優(yōu)秀表現(xiàn),它被廣泛應(yīng)用于圖像采集[9]、語音識別[10]、電力需求預(yù)測[11]、醫(yī)療診斷[12]、室內(nèi)定位[13]、人臉識別[14]等現(xiàn)實問題中。
集成學習主要有兩個方面:一是樣本權(quán)重的更新策略,二是基分類器的組合策略。為提高樣本權(quán)重的更新效率,文獻[15]對樣本特征進行排序,而特征排序方法的表現(xiàn)基本上取決于數(shù)據(jù)集的分布,使用最高排序特征的子集構(gòu)造基分類器,可減少訓(xùn)練時間。文獻[16]在樣本權(quán)重更新上不再依賴基分類器,而是依賴每次迭代的強分類器,通過并行訓(xùn)練基分類器同樣可以縮短訓(xùn)練時間。為削減AdaBoost算法對難分樣本的過度關(guān)注,導(dǎo)致算法退化,文獻[17]首先對不同類別的樣本給出不同權(quán)重的損失函數(shù),然后構(gòu)造相應(yīng)的基分類器,同時用標準Logistic函數(shù)估計其條件概率,最后引入極大似然估計更新樣本的權(quán)重。文獻[18]提出了基于樣本抽樣和權(quán)重調(diào)整的SWA-AdaBoost(簡記為swaAda)算法,通過降低錯分樣本權(quán)值的增長速度,使得樣本權(quán)重的分布更加均勻,從而分類能力得到進一步提高。文獻[19]先對樣本進行聚類,將不同類別盡可能地聚合起來,對于邊界重疊的樣本再使用AdaBoost算法進行劃分,提高了算法的收斂速度。
為高效集成基分類器,文獻[20]提出了一種新的集成策略,內(nèi)循環(huán)將基分類器通過核支持向量機超平面幾何線性集成為一個中等分類器,外循環(huán)使用AdaBoost組合方法將中等分類器進行集成。文獻[21]不需要交叉驗證或單獨的驗證集來確定AdaBoost使用的基分類器數(shù)量,這種方法可以找出算法最佳的基分類器的數(shù)量。文獻[22]中提出了基于AdaBoost的Linux病毒檢測算法(簡記為adAda),使用了新的基分類器參數(shù)求解方法,基分類器的權(quán)重不再僅受錯誤率的影響,而是同時考慮錯誤率和對正樣本的識別率,這種做法提高了集成效率。文獻[23]中的基學習器在問題數(shù)據(jù)集上的誤差統(tǒng)計可用于自動選擇最佳臨界閾值,將訓(xùn)練出的每個基分類器單獨使用回歸模型,并結(jié)合單層神經(jīng)網(wǎng)絡(luò)進一步調(diào)整模型結(jié)構(gòu)和增強適應(yīng)能力。
為同時解決樣本權(quán)重更新和基分類器組合上的問題,文獻[24]提出了一種改進的帶參數(shù)AdaBoost(Improved Parameterized AdaBoost, IPAB)算法,樣本權(quán)值的更新粒度更小,基分類器的組合方式也被優(yōu)化。文獻[25]為解決間隔在零點附近頻繁移動的問題,提出了PAB (Parameterized AdaBoost)算法分情況處理樣本權(quán)值的更新,并在樣本權(quán)值的更新中引入?yún)?shù),使更新步長處于一個合理區(qū)間,進而抑制間隔從正到負的移動,使間隔不斷正向移動,使損失函數(shù)得到了優(yōu)化。文獻[26]提出的損失函數(shù)定義為修正指數(shù)損失函數(shù)和平方損失函數(shù)的加權(quán)組合,重新設(shè)計基分類器權(quán)值和訓(xùn)練樣本概率分布的更新公式。文獻[27]則從多樣性的方向?qū)λ惴ㄟM行改進,研究表明雙誤度量(Double Fault)對組合分類器的影響最大,進而基于雙誤度量提出了WLDF_Ada(簡記為dfAda)算法,改進后的算法分類效果更好。
以上算法與AdaBoost相比,分類性能得到了一定程度的提高,但整體上還是稍顯不足。為進一步提高AdaBoost算法的分類性能,本文首先通過強分類器連續(xù)兩輪對樣本的分類結(jié)果給出改進的樣本權(quán)重更新策略,并提出WPIAda(sample Weight and Parameterization of Improved AdaBoost)算法;其次,通過基分類器連續(xù)兩輪對樣本分類結(jié)果給出粒度更小的樣本權(quán)重更新策略,并給出新的基分類器權(quán)重表達式,通過在樣本權(quán)重的更新策略和基分類器的組合策略上的改進,提出WPIAda.M(sample Weight and Parameterization of Improved AdaBoost-Multitude)算法。本文所提的兩種算法有更低的錯誤率和更高的AUC(Area Under Curve)值。
AdaBoost算法具體步驟如下。
步驟1 給定訓(xùn)練集:
4) 更新樣本權(quán)重,見式(4):
步驟4 得到強分類器:
間隔理論在文獻[7]中被首次提出,并給出了基于間隔分布、訓(xùn)練集數(shù)目以及假設(shè)集復(fù)雜性的泛化誤差上界。在文獻[28]中,推導(dǎo)出在分類樣本的間隔近似滿足高斯分布的假設(shè)下,AdaBoost算法的損失函數(shù)可近似化為最大化且非標準化的間隔均值和最小化且非標準化間隔分布的方差相關(guān)的函數(shù),形式化的表達式如下所示:
相較于樣本間隔,平均間隔能夠從統(tǒng)計學角度反映整體間隔分布。個樣本的平均間隔可以定義為:
WPIAda算法的樣本權(quán)重更新策略分為以下4種情形:
1) 被前一輪強分類器正確分類,且被本輪強分類器錯誤分類的樣本。
2) 被前一輪強分類器正確分類,且被本輪強分類器正確分類的樣本。
3) 被前一輪強分類器錯誤分類,且被本輪強分類器錯誤分類的樣本。
4) 被前一輪強分類器錯誤分類,且被本輪強分類器正確分類的樣本。
對情形1)和情形3)進行分析,情形1)的間隔大于情形3)的間隔,但情形1)的間隔處于負向移動狀態(tài)。為了抑制間隔發(fā)生負向移動,樣本權(quán)值在情形1)下應(yīng)比在情形3)下增加的幅度大。
對情形2)和情形4)進行分析,情形2)的間隔大于情形4)的間隔,為保證間隔繼續(xù)正向移動狀態(tài),情形4)的樣本權(quán)值應(yīng)比情形2)的樣本權(quán)值增加的幅度大。下面將給出WPIAda算法的樣本權(quán)重更新策略。
WPIAda算法流程如下:
步驟1與步驟2 與1.1節(jié)AdaBoost算法流程相同,給定訓(xùn)練集,并且初始化樣本權(quán)重。
1)~3)與1.1節(jié)AdaBoost算法流程相同,首先訓(xùn)練出基分類器,并且計算出此時的錯誤率,最后通過錯誤率給出基分類器的權(quán)重。
4)樣本權(quán)值更新策略如下:
步驟4 得到強分類器:
證明權(quán)值調(diào)整是否達到抑制間隔負向移動和控制間隔正向移動目的,即證明樣本權(quán)重更新策略是否滿足2.1節(jié)的分析。
綜上所述,在前后兩次迭代時,WPIAda算法更加關(guān)注間隔處在0附近的樣本。也就是說,通過WPIAda算法的樣本更新策略,可以使下一輪基分類器更加關(guān)注跨越0點的樣本、間隔從負到正變化的樣本,以降低它們在下一輪被錯分的概率。
在集成算法的研究中,基分類器組合策略一直是研究的熱點,典型的組合系數(shù)有最大法、簡單多數(shù)投票法、加權(quán)平均法等,以上方法的一個共同缺陷是基分類器權(quán)重僅由錯誤率給出。在樣本權(quán)值的更新策略上,WPIAda.M算法將考慮更小的粒度,保證間隔從負到正的變化,也就是考慮前后兩輪基分類器的分類結(jié)果,不再考慮強分類器的分類結(jié)果,基分類器組合系數(shù)僅由錯誤率給出,對于WPIAda.M算法來說不再適用。
在WPIAda.M算法中對樣本權(quán)重分布狀態(tài)的定義如式(17)所示:
而對基分類器系數(shù)重新定義為式(18),為大于零的常數(shù)。
基于WPIAda算法思路,通過調(diào)節(jié)權(quán)值來抑制間隔增量從正到負的減小,更加合理地調(diào)整樣本的權(quán)重分布狀態(tài)。
WPIAda.M算法樣本權(quán)值調(diào)整策略分為如下4種情形:
1) 被前一輪基分類器正確分類,且被本輪基分類器錯誤分類的樣本。
2) 被前一輪基分類器正確分類,且被本輪基分類器正確分類的樣本。
3) 被前一輪基分類器錯誤分類,且被本輪基分類器錯誤分類的樣本。
4) 被前一輪基分類器錯誤分類,且被本輪基分類器正確分類的樣本。
WPIAda.M算法的樣本權(quán)重更新策略需滿足以下兩個條件:
條件1:情形1)比情形3) 樣本權(quán)重增加的數(shù)值大。
條件2:情形4)比情形2) 樣本權(quán)重增加的數(shù)值大。
WPIAda.M算法流程如下:
步驟1和步驟2 與1.1節(jié)AdaBoost算法流程相同,給定訓(xùn)練集,并且初始化樣本權(quán)重。
1)~3)與1.1節(jié)AdaBoost算法流程相同,先訓(xùn)練出基分類器,并且計算出此時的錯誤率,然后通過錯誤率給出基分類器的權(quán)重。
4) 樣本權(quán)值更新策略如下:
其他條件:
步驟4 得到強分類器:
證明權(quán)值的調(diào)整是否達到間隔從負到正變化的目的,即證明權(quán)值調(diào)整策略是否滿足2.4節(jié)提出的兩個條件。
表1 實驗數(shù)據(jù)集信息
WPIAda和WPIAda.M算法與其他集成算法的分類誤差結(jié)果如表2和圖1所示。
表2 8種算法在10個數(shù)據(jù)集上的分類誤差對比 單位:%
圖1 不同算法測試誤差的Friedman檢驗圖
如表2所示,在10個數(shù)據(jù)集上,WPIAda相較于dfAda、IPAB、skAda、adAda、swaAda、PAB在australian數(shù)據(jù)集上誤差分別低了0.15、54.06、0.87、1.02、13.63、20.15個百分點;類似地在breast、chess、german、sonar數(shù)據(jù)集上,WPIAda算法的表現(xiàn)均優(yōu)于dfAda、IPAB、skAda、adAda、swaAda、PAB;單獨比較WPIAda與skAda,除了在balance、heart、pimax數(shù)據(jù)集上,WPIAda比skAda分類誤差最大降低2.95個百分點,最小降低了0.29個百分點。WPIAda.M相較于dfAda、IPAB、skAda、adAda、swaAda、PAB在balance、breast、chess、german、messidor、pima、sonar數(shù)據(jù)集上分類誤差均是最小,其中在balance數(shù)據(jù)集上WPIAda.M的分類誤差為0;在heart數(shù)據(jù)上與dfAda的誤差相同,與其他幾種算法相比誤差是最小的;單獨比較WPIAda.M與skAda,除了在australian數(shù)據(jù)集上誤差相同,在其余數(shù)據(jù)集上均有不同程度上的性能提升。在多個數(shù)據(jù)集上比較不同算法的性能時,可使用基于算法排序的Friedman檢驗,實驗采用顯著水平為0.05的Friedman檢驗,各圓點對應(yīng)各算法顯示平均序值,以圓點為中心的線段表示臨界閾值的大小,若兩個算法的橫線段沒有交疊區(qū)域,則說明兩個算法的分類效果有明顯差異,反過來不一定成立,即使兩個橫線存在交疊的區(qū)域,二者也可能存在顯著的差異。圖1中的縱軸顯示各個集成算法,橫軸是平均序值。由圖1可知 ,WPIAda和WPIAda.M算法在分類誤差上表現(xiàn)的性能顯著優(yōu)于swaAda、adAda、PAB、IPAB。
AUC為受試者工作特征曲線下的面積[30],AUC越大代表分類的效果越好,AUC為1表示達到了最理想的分類效果;AUC為0.5則表示是隨機猜測。AUC的計算由真正率(Ture Positive Rate,)和假正率(False Positive Rate,)給出,計算式如下:
表示被正確分類的比率,取值范圍為[0,1],計算式如下:
表示錯誤分類的比率,取值范圍為[0,1],計算式如下:
(True Positive)表示真正類數(shù),(False Positive)表示假正類數(shù),(True Negative)表示真反類數(shù),(False Negative)表示假反類數(shù)。
表3 8種算法在10個數(shù)據(jù)集上的AUC對比 單位:%
分析表3可得,WPIAda算法相較于dfAda、IPAB、skAda、adAda、swaAda、PAB算法在balance、german、heart、messidor、pima數(shù)據(jù)集上AUC均有不同程度上的提升,分別至少提高了0.02、1.79、0.8、3.21、0.63個百分點。WPIAda單獨與skAda比較,AUC在10個數(shù)據(jù)集上都有提升,最高提升了12.57個百分點,最低提升了0.17個百分點。WPIAda.M算法與dfAda、IPAB、skAda、adAda、swaAda、PAB算法相比在balance、breast、chess、german、heart、messidor、pima、sonar數(shù)據(jù)集上AUC同樣有不同程度的提升,單獨比較WPIAda.M與skAda,在10個數(shù)據(jù)集上分別提高6.9、0.17、4.17、4.57、11.84、8.42、13.28、9.82、11.72、12.18個百分點。
為進一步比較WPIAda和WPIAda.M算法在AUC性能上的差異,本文在顯著水平為0.05時進行了Friedman檢驗,檢驗結(jié)果如圖2所示。分析圖2可知,WPIAda和WPIAda.M算法在AUC上表現(xiàn)的性能顯著優(yōu)于IPAB、skAda、adAda、swaAda、PAB算法。綜上分析可知,本文所提WPIAda和WPIAda.M算法在AUC上表現(xiàn)的性能優(yōu)于其他集成算法。
圖2 不同算法的AUC Friedman檢驗圖
本文實驗將驗證間隔的提高是否可以提高算法的性能,因此只需比較WPIAda和WPIAda.M算法與skAda算法的平均間隔,若間隔大且算法的AUC較大,則能表明從間隔理論方向研究AdaBoost是可行的。各算法的平均間隔結(jié)果如圖3所示,在圖3(a)、(c)、(d)、(f)、(h)、(i)上,三種算法分別迭代45次、35次、55次、30次、43次、35次后平均間隔值趨于平穩(wěn);在圖3(e)、(g)、(j)上WPIAda算法、WPIAda.M算法與skAda算法的平均間隔值的變化基本相同;在圖3(b)、(f)上WPIAda算法的間隔大于skAda算法,同時WPIAda算法的AUC也大于skAda算法,在圖3(c)上skAda、WPIAda.M算法的間隔大于WPIAda算法,同時AUC也大于WPIAda算法,在圖3(h)上也是同樣的情況;在圖3(a)、(d)、(e)、(g)上WPIAda、WPIAda.M、skAda算法的間隔幾乎相等,但WPIAda和WPIAda.M算法的AUC大于skAda算法,這說明本文所提的算法在理論和實驗方面是可行的。實驗結(jié)果表明,從間隔理論的方向可以為改進AdaBoost算法提供新的思路,本文所提算法與其他算法相比都有不同程度上的性能提升。
圖3 3種算法的平均間隔變化
針對傳統(tǒng)AdaBoost算法在樣本權(quán)重更新時,將錯分樣本分配較大權(quán)值,進而隨著迭代的進行,算法會過度關(guān)注錯分樣本,可能使得已經(jīng)正確分類的樣本被再次錯分,以及對噪聲樣本敏感等問題,本文提出了WPIAda算法和WPIAda.M算法,將樣本更新過程分為四種情形,針對每種不同的情形,使用不同的更新的策略,克服了樣本過度關(guān)注難分樣本的缺點,降低了噪聲對算法的影響。其中WPIAda.M算法對基分類器系數(shù)求解方法進行了改進,新的基分類器系數(shù)由錯誤率和樣本權(quán)重的分布狀態(tài)共同給出,使得算法集成基分類器更高效。同時,本文兩種算法沒有考慮基分類器間的差異性,增加基分類器間的差異性有助于提高集成算法的泛化能力及分類精度,因此尋找適合本文算法的多樣性度量方法是今后研究的重點。
[1] SCHAPIRE R E. The strength of weak learnability[J]. Machine Learning, 1990, 5(2):197-227.
[2] REYZIN L, SCHAPIRE R E. How boosting the margin can also boost classifier complexity[C]// Proceedings of the 23rd International Conference on Machine Learning. New York: ACM, 2006:753-760.
[3] FREUND Y, SCHAPIRE R E. A decision-the retic generation of online learning and an application to boosting[J]. Journal of Computer and System Science, 1997, 55(1):119-139.
[4] BIAU G, CADRE B, ROUVIèRE L. Accelerated gradient boosting[J]. Machine Learning, 2019, 108(6):971-992.
[5] ZHANG C S, BI J J, XU S X, et al. Multi-Imbalance: an open-source software for multi-class imbalance learning [J]. Knowledge-Based Systems, 2019, 174:137-143.
[6] FRIEDMAN J, HASTIE T, TIBSHIRANI R. Additive logistic regression: a statistical view of boosting[J]. The Annals of Statistics, 2000, 28(2):337-407.
[7] SCHAPIRE R E, FREUND Y, BARTLETT P, et al. Boosting the margin: a new explanation for the effectiveness of voting methods[J]. The Annals of Statistics, 1998, 26(5):1651-1686.
[8] SHEN C H, LI H X. On the dual formulation of boosting algorithms[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2010, 32(12):2216-2231.
[9] AL-SHEMARRY M S, LI Y, ABDULLA S. Ensemble of AdaBoost cascades of 3L-LBPs classifiers for license plates detection with low quality images[J]. Expert Systems with Applications, 2018, 92:216-235.
[10] GOSZTOLYA G, BUSA-FEKETE R. Calibrating AdaBoost for phoneme classification[J]. Soft Computing, 2019, 23(1):115-128.
[11] PINTO T, PRA?A I, VALE Z, et al. Ensemble learning for electricity consumption forecasting in office buildings[J]. Neurocomputing, 2021, 423:747-755.
[12] GUTIéRREZ-TOBAL G C, áLVAREZ D, DEL CAMPO F, et al. Utility of AdaBoost to detect sleep apnea-hypopnea syndrome from single-channel airflow[J]. IEEE Transactions on Biomedical Engineering, 2016, 63(3):636-646.
[13] ZHANG Y, LI D P, WANG Y J. An indoor passive positioning method using CSI fingerprint based on AdaBoost[J]. IEEE Sensors Journal, 2019, 19(14):5792-5800.
[14] MA Z, LIU Y, LIU X M, et al. Lightweight privacy preserving ensemble classification for face recognition[J]. IEEE Internet of Things Journal, 2019, 6(3): 5778-5790.
[15] AL-SALEMI B, AYOB M, NOAH S A M. Feature ranking for enhancing boosting-based multi-label text categorization[J]. Expert Systems with Applications, 2018, 113:531-543.
[16] VALLE C, ?ANCULEF R, ALLENDE H, et al. LocalBoost: a parallelizable approach to boosting classifiers[J]. Neural Processing Letters, 2019, 50(1):19-41.
[17] QI Z Q, MENG F, TIAN Y J, et al. AdaBoost-LLP: a boosting method for learning with label proportions[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(8):3548-3559.
[18] 高敬陽,趙彥. 基于樣本抽樣和權(quán)重調(diào)整的SWA-Adaboost算法[J]. 計算機工程, 2014, 40(9):248-251, 256.(GAO J Y, ZHAO Y. SWA-Adaboost algorithm based on sampling and weight adjustment[J]. Computer Engineering, 2014, 40(9):248-251, 256.)
[19] YANG Y, JIANG J M. Hybrid sampling-based clustering ensemble with global and local constitutions[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(5):952-965.
[20] FILISBINO T A, GIRALDI G A, THOMAZ C E. Nested AdaBoost procedure for classification and multi-class nonlinear discriminant analysis[J]. Soft Computing, 2020, 24(23):17969-17990.
[21] HTIKE K K. Efficient determination of the number of weak learners in AdaBoost[J]. Journal of Experimental and Theoretical Artificial Intelligence, 2017, 29(5):967-982.
[22] 吳戀,馬敏耀,黃一峰,等. 基于AdaBoost算法的Linux病毒檢測研究[J]. 計算機工程, 2018, 44(8):161-166.(WU L, MA M Y, HUANG Y F, et al. Linux virus detection study based on AdaBoost algorithm[J]. Computer Engineering, 2018, 44(8):161-166.)
[23] ZHANG P B, YANG Z X. A novel AdaBoost framework with robust threshold and structural optimization[J]. IEEE Transactions on Cybernetics, 2018, 48(1):64-76.
[24] 邱仁博,婁震. 一種改進的帶參數(shù)AdaBoost算法[J]. 計算機工程, 2016, 42(7):199-202, 208.(QIU R B, LOU Z. An improved parameterized AdaBoost algorithm[J]. Computer Engineering, 2016, 42(7):199-202, 208.)
[25] WU S Q, NAGAHASHI H. Parameterized AdaBoost: introducing a parameter to speed up the training of real AdaBoost[J]. IEEE Signal Processing Letters, 2014, 21(6):687-691.
[26] XING H J, LIU W T. Robust AdaBoost based ensemble of one-class support vector machines[J]. Information Fusion, 2020, 55:45-58.
[27] 王玲娣,徐華. AdaBoost的多樣性分析及改進[J]. 計算機應(yīng)用, 2018, 38(3):650-654, 660.(WANG L D, XU H. Diversity analysis and improvement of AdaBoost[J]. Journal of Computer Applications, 2018, 38(3): 650-654, 660.)
[28] SHEN C H, LI H X. Boosting through optimization of margin distributions[J]. IEEE Transactions on Neural Networks, 2010, 21(4): 659-666.
[29] 朱亮,徐華,崔鑫. 基于基分類器系數(shù)和多樣性的改進AdaBoost算法[J]. 計算機應(yīng)用, 2021, 41(8):2225-2231.(ZHU L, XU H, CUI X. Improved AdaBoost algorithm based on classifier coefficient and diversity[J]. Journal of Computer Applications, 2021, 41(8):2225-2231.)
[30] FAWCETT T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8):861-874.
ZHU Liang, born in 1994, M. S. candidate. His research interests include machine learning, data mining.
XU Hua, born in 1978, Ph. D., associate professor. Her research interests include computing intelligence, workshop scheduling, big data.
CHENG Jinhai, born in 1997, M. S. candidate. His research interests include data mining, machine learning, embedded software.
ZHU Shen, born in 1997, M. S. candidate. His research interests include data mining, machine learning.
Analysis and improvement of AdaBoost’s sample weight and combination coefficient
ZHU Liang, XU Hua*, CHENG Jinhai, ZHU Shen
(,,214122,)
Aiming at the problems of low linear combination efficiency and too much attention to hard examples of the base classifiers of Adjusts Adaptive Boosting (AdaBoost) algorithm, two improved algorithms based on margin theory, named sample Weight and Parameterization of Improved AdaBoost (WPIAda) and sample Weight and Parameterization of Improved AdaBoost-Multitude (WPIAda.M), were proposed. Firstly, the updates of sample weights were divided into four situations by both WPIAda and WPIAda.M algorithms, which increased the sample weights with the margin changing from positive to negative to suppress the negative movement of the margin and reduce the number of samples with the margin at zero. Secondly, according to the error rates of the base classifiers and the distribution of the sample weights, a new method to solve the coefficients of base classifiers was given by WPIAda.M algorithm, thereby improving the combination efficiency of base classifiers. On 10 UCI datasets, compared with algorithms such as WLDF_Ada (dfAda), skAda, SWA-Adaboost (swaAda), WPIAda and WPIAda.M algorithms had the test error reduced by 7.46 percentage points and 7.64 percentage points on average respectively, and the Area Under Curve (AUC) increased by 11.65 percentage points and 11.92 percentage points respectively. Experimental results show that WPIAda and WPIAda.M algorithms can effectively reduce the attention to hard examples, and WPIAda.M algorithm can integrate base classifiers more efficiently, so that the two algorithms can both further improve the classification performance.
Adjusts Adaptive Boosting (AdaBoost); margin theory; sample weight; base classifier; combination efficiency
1001-9081(2022)07-2022-08
10.11772/j.issn.1001-9081.2021050726
2021?05?08;
2022?02?10;
2022?02?18。
TP181
A
朱亮(1994—),男,安徽阜陽人,碩士研究生,CCF會員,主要研究方向:機器學習、數(shù)據(jù)挖掘; 徐華(1978—),女,江蘇無錫人,副教授,博士,主要研究方向:計算智能、車間調(diào)度、大數(shù)據(jù); 成金海(1997—),男,江蘇南通人,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、機器學習、嵌入式軟件; 朱深(1997—),男,河南周口人,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、機器學習。