趙永彬,陳 碩,劉 明,曹 鵬
(1.國網(wǎng)遼寧省電力有限公司信息通信分公司,沈陽 110006;2.中國電力財(cái)務(wù)有限公司,北京100005;3.東北大學(xué)信息科學(xué)與工程學(xué)院,沈陽 110819)
基于置信度代價(jià)敏感的支持向量機(jī)不均衡數(shù)據(jù)學(xué)習(xí)
趙永彬1,陳 碩1,劉 明2,曹 鵬3
(1.國網(wǎng)遼寧省電力有限公司信息通信分公司,沈陽 110006;2.中國電力財(cái)務(wù)有限公司,北京100005;3.東北大學(xué)信息科學(xué)與工程學(xué)院,沈陽 110819)
現(xiàn)實(shí)世界中廣泛存在著很多不均衡的數(shù)據(jù),其分類問題是機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。為了提高不均衡數(shù)據(jù)的分類性能,提出一種基于核空間置信度的代價(jià)敏感支持向量機(jī)分類算法。通過注入類別錯(cuò)分代價(jià)機(jī)制,以不均衡數(shù)據(jù)評價(jià)指標(biāo)作為目標(biāo)函數(shù),優(yōu)化錯(cuò)分代價(jià)因子,提升少數(shù)類樣本的識(shí)別率。計(jì)算類中所有樣本在核空間下的類別置信度,從而確定樣本對決策分類貢獻(xiàn)的重要程度,降低噪音或孤立點(diǎn)對支持向量機(jī)的影響。通過大量UCI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,與其他同類算法相比,該算法能更好地提高不均衡數(shù)據(jù)的分類性能。
機(jī)器學(xué)習(xí);分類;不均衡數(shù)據(jù)學(xué)習(xí);支持向量機(jī);代價(jià)敏感學(xué)習(xí)
DO I:10.3969/j.issn.1000-3428.2015.10.033
在醫(yī)療診斷、網(wǎng)絡(luò)入侵等現(xiàn)實(shí)領(lǐng)域中產(chǎn)生了大量類別分布不均衡的數(shù)據(jù)。由于來自不同類別樣本的數(shù)量差異性,造成分類模型傾向于多數(shù)類的預(yù)測而忽略少數(shù)類,從而最終影響分類器的分類性能。近年來,不平衡學(xué)習(xí)問題引起機(jī)器學(xué)習(xí)研究者的廣泛關(guān)注[1-3],主要提出了數(shù)據(jù)重采樣預(yù)處理方法[4-6]和代價(jià)敏感策略分類方法[7-9]。 另外,集成學(xué)習(xí)方法,如Boosting[10]、隨機(jī)子空間[11],通過與數(shù)據(jù)采樣
以及代價(jià)敏感算法相結(jié)合,可以提升不均衡數(shù)據(jù)學(xué)習(xí)的泛化性。
支持向量機(jī)(Support Vector Machine,SVM)是機(jī)器學(xué)習(xí)領(lǐng)域研究熱點(diǎn)之一。不均衡數(shù)據(jù)導(dǎo)致SVM分類平面會(huì)向少數(shù)類樣本偏移[7],造成少數(shù)類的精度下降。另外,SVM訓(xùn)練過程中對所有訓(xùn)練樣本是平等對待的,這就造成了SVM分類器對噪音和孤立點(diǎn)數(shù)據(jù)樣本極為敏感,進(jìn)而導(dǎo)致了過擬合的情況發(fā)生。解決該問題主要分為2種策略:數(shù)據(jù)預(yù)處理方法[12-13]和模糊支持向量機(jī)算法[14-15]。 數(shù)據(jù)預(yù)處理方法主要在分類學(xué)習(xí)之前對數(shù)據(jù)進(jìn)行噪音和孤立點(diǎn)的識(shí)別和過濾,模糊支持向量機(jī)算法利用模糊技術(shù)對訓(xùn)練數(shù)據(jù)樣本建立模糊關(guān)系,基于距離的模糊隸屬度設(shè)計(jì)方法,根據(jù)樣本的位置和貢獻(xiàn)為其賦予不同的權(quán)重,從而降低噪音和孤立點(diǎn)對分類結(jié)果的影響。
為了提高不均衡數(shù)據(jù)下SVM算法性能,本文提出一種基于核空間置信度的代價(jià)敏感支持向量機(jī)(Confidence Cost Sensitive Support Vector Machine,CCS-SVM)算法,把不同的錯(cuò)分代價(jià)信息融入到分類器訓(xùn)練過程中,以最大化不均衡數(shù)據(jù)評估指標(biāo)為優(yōu)化函數(shù)對錯(cuò)分代價(jià)因子進(jìn)行尋優(yōu);另外,由于SVM對噪音數(shù)據(jù)極為敏感,為了減少噪音數(shù)據(jù)的影響,在核空間下定義樣本類別置信度函數(shù),給每個(gè)樣本不同的權(quán)重,并把樣本的置信度引入到代價(jià)敏感SVM優(yōu)化問題中,提高SVM分類性能。
分類問題是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域的重要研究課題之一,傳統(tǒng)的分類算法通常以最小化錯(cuò)誤率為優(yōu)化目標(biāo)。然而在故障診斷、醫(yī)療診斷、欺詐檢測等領(lǐng)域,不同類型的錯(cuò)誤率往往具有不等的代價(jià)。
代價(jià)敏感的學(xué)習(xí)方法是在訓(xùn)練過程中為不同的類別注入不同的錯(cuò)分代價(jià)參數(shù)。不同的代價(jià)通常被表示成為一個(gè)N×N的錯(cuò)分代價(jià)矩陣,其中N是類別的個(gè)數(shù)。C(i,j)表示將一個(gè)j類的對象錯(cuò)分到i類中的代價(jià)。表 1列出了二類類別的錯(cuò)分代價(jià)矩陣。
表1 錯(cuò)分代價(jià)矩陣
3.1 支持向量機(jī)
SVM目的就是找到一個(gè)最優(yōu)超平面,在允許少量樣本錯(cuò)分的情況下,使2類的間距最大,以得到最強(qiáng)的泛化能力。SVM求解最優(yōu)化問題如式(1):
其中,ξi為松弛因子;C為懲罰系數(shù),用來控制錯(cuò)誤率與模型復(fù)雜性之間的關(guān)系。
3.2 改進(jìn)支持向量機(jī)
傳統(tǒng)SVM是基于所有類被錯(cuò)分的代價(jià)相等,當(dāng)不同類被錯(cuò)分的代價(jià)不等時(shí),使用不同的懲罰參數(shù)C+和C-來代替原有的參數(shù)C,從而生成代價(jià)敏感支持向量機(jī)(Cost-Sensitive SVM,CS-SVM),使得分類時(shí)針對不同的類采用不同的錯(cuò)分代價(jià)提高對少數(shù)類樣本的識(shí)別能力,如圖1所示,原始優(yōu)化目標(biāo)函數(shù)轉(zhuǎn)化為如下目標(biāo)函數(shù):
其中,C+和C-分別代表2類樣本的錯(cuò)分代價(jià)參數(shù)。重新對C+和C-進(jìn)行設(shè)置,令C-=C,C+= C×Cf,其中,C為SVM的懲罰參數(shù);Cf為錯(cuò)分代價(jià)因子[7]。
圖1 CS-SVM分類決策平面
為了解決SVM對噪音和異常樣本的過分敏感問題,需要賦予樣本在類內(nèi)部空間內(nèi)的類別置信度。SVM的超平面是在核空間下構(gòu)造的,所以直接在核空間下計(jì)算樣本對分類性能的權(quán)重,定義一種樣本類別置信度來描述樣本的權(quán)重,可以給予不同的樣本不同的置信度,從而確定樣本在類中的相對重要性,同一類別中樣本離類中心越近,類別置信度越
高;反之則越小,從而降低或者忽略了噪音或者孤立點(diǎn)數(shù)據(jù)對分類的影響,更加準(zhǔn)確地構(gòu)建分類超平面。在核空間中假設(shè)映射核函數(shù)為 φ(χ),則類中心為Cenφ:
樣本χj與類中心Cenφ的核距離為:
另外,定義最大距離:
經(jīng)過歸一化后,每個(gè)樣本χj的類置信度為:
其代表了隸屬于某一類的程度,基于核空間置信度直接在核空間內(nèi)進(jìn)行計(jì)算,可以更加直接準(zhǔn)確地獲得每個(gè)樣本的類置信度值。根據(jù)樣本的核空間置信度,重新定義SVM的目標(biāo)函數(shù):
利用對偶進(jìn)行優(yōu)化,式(7)的對偶問題變?yōu)椋?/p>
Cf對分類起到了重要的作用,為了獲取最佳的錯(cuò)分代價(jià)因子Cf,以G-mean作為目標(biāo)函數(shù),對Cf進(jìn)行評估和優(yōu)化,來獲得最佳的錯(cuò)分代價(jià)因子BestCf。G-mean是一種衡量不均衡數(shù)據(jù)的綜合指標(biāo)[7],由2類準(zhǔn)確率ACC+和ACC-構(gòu)成。利用G-mean指導(dǎo)優(yōu)化,可以提高少數(shù)類精度的同時(shí),并不會(huì)嚴(yán)重破壞多數(shù)類的分類精度。G-mean定義如下:
CCS-SVM算法詳細(xì)步驟如下:
輸入 訓(xùn)練子集TrSet,驗(yàn)證子集ValSet,懲罰參數(shù)C,遞增步長μ
輸出 分類模型CCS-SVM
CalculateConfDataSet算法詳細(xì)步驟如下:
輸入 數(shù)據(jù)集DataSet
輸出 置信度數(shù)據(jù)集ConfDataSet
根據(jù)式(4)計(jì)算樣本 xj與所屬類別的類中心 Cenφ的距離Disj
根據(jù)式(6)獲得每個(gè)樣本的置信度conf(xj)
根據(jù)式(3)計(jì)算核空間下的類中心Cen+φ和Cen-φ
為了對算法進(jìn)行評估驗(yàn)證,選取10組UCI公開數(shù)據(jù)集,數(shù)據(jù)特征信息如表2所示。
表2 實(shí)驗(yàn)數(shù)據(jù)集
為了評估CCS-SVM的分類性能,分別采用如下方法進(jìn)行對比驗(yàn)證,包括重采樣算法:升采樣算法SMOTE[5],基于Boosting架構(gòu)的RAMOBoost組合采樣算法[6];代價(jià)敏感組合分類算法:未經(jīng)優(yōu)化的CS-SVM,基于組合分類器的代價(jià)敏感分類算法的BCS-SVM[10]。其中,BCS-SVM利用Boosting集成學(xué)習(xí)架構(gòu),并引入不同的錯(cuò)分代價(jià)因子提高不均衡數(shù)據(jù)分類性能,集成分類中基分類器個(gè)數(shù)設(shè)為 50。
另外,也與基于核空間隸屬度的模糊 SVM方法FSVM[14]進(jìn)行對比。SVM模型均選擇徑向基核函數(shù)作為核函數(shù),其中參數(shù) γ設(shè)為1,并且模型參數(shù)C設(shè)為10。CS-SVM和BCS-SVM算法中的錯(cuò)分代價(jià)因子Cf設(shè)為2類樣本的數(shù)量比例。對于2種升采樣算法,采樣數(shù)量設(shè)為2類數(shù)量的差。
從表3可以看出,CCS-SVM算法的G-mean性能要優(yōu)于其他方法。為了更全面評估算法的性能,另外選取AUC(Area Under the ROC Curve)對算法進(jìn)行評估。由于ROC曲線作為分類器評估的可視化技術(shù)得到了廣泛應(yīng)用,ROC曲線越靠近左上方,表示對應(yīng)的分類器的辨別能力越強(qiáng)[1]。AUC能以定量的方式表示 ROC曲線對應(yīng)的分類器性能,AUC分類結(jié)果如表4所示。通過對多種算法的G-mean和AUC性能比較發(fā)現(xiàn),CCS-SVM算法在多數(shù)數(shù)據(jù)集中都優(yōu)于其他的采樣算法和代價(jià)敏感算法,說明通過優(yōu)化錯(cuò)分代價(jià)因子可以獲得較好的分類標(biāo)準(zhǔn),降低SVM對不均衡分布的敏感性;同時(shí)利用置信度可以減弱噪音和異常數(shù)據(jù)對分類平面的影響。
表3 多種不均衡數(shù)據(jù)分類算法的G-mean比較
表4 多種不均衡數(shù)據(jù)分類算法的AUC比較
從表3和表4的結(jié)果中也可以看出,雖然2種升采樣算法對數(shù)據(jù)進(jìn)行了均衡化處理,但新增的采樣數(shù)據(jù)對于最終的分類模型不一定有效。相對于采樣算法的隨機(jī)性,CCS-SVM算法沒有對數(shù)據(jù)進(jìn)行處理和改變,性能相對穩(wěn)定。另外,實(shí)驗(yàn)也證明了對于代價(jià)敏感學(xué)習(xí)算法,對錯(cuò)分代價(jià)參數(shù)的優(yōu)化至關(guān)重要,設(shè)置的不合理不但不會(huì)提高分類性能,反而會(huì)使多數(shù)類準(zhǔn)確率的降低程度大于少數(shù)類的提升程度,最終導(dǎo)致整體性能下降,如數(shù)據(jù)集Pima和Vehicle。對于高特征維度的不均衡數(shù)據(jù)集,本文算法也獲得了更好的分類性能。
為提高不均衡數(shù)據(jù)的SVM性能,本文提出一種基于核空間置信度的代價(jià)敏感支持向量機(jī)算法,通過優(yōu)化G-mean構(gòu)造不均衡數(shù)據(jù)的最佳分類SVM模型。另外,在核空間下定義樣本類別置信度函數(shù),計(jì)算每個(gè)樣本不同的權(quán)重,并把樣本的置信度引入到代價(jià)敏感SVM優(yōu)化問題中,提高了SVM的分類性能。下一步工作是研究如何將算法擴(kuò)展到高維不均衡數(shù)據(jù)的學(xué)習(xí)中。
[1] He Haibo,Garcia E A.Learning from Imbalanced Data[J].IEEE Transactions on Know ledge and Data Engineering,2009,21(9):1263-1284.
[2] 葉志飛,文益民,呂寶糧.不平衡分類問題研究綜述[J].智能系統(tǒng)學(xué)報(bào),2009,4(2):148-156.
[3] 張銀峰,郭華平,職為梅.一種面向不平衡數(shù)據(jù)分類的組合剪枝方法[J].計(jì)算機(jī)工程,2014,40(6):157-161.
[4] 曹 鵬,栗 偉,趙大哲.面向不均衡數(shù)據(jù)集的ARSGOS算法[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(4):818-823.
[5] Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.
[6] Chen Shen.He Haibo,Garcia E A.RAMO Boost:Ranked Minority Oversampling in Boosting[J].IEEE Transac-tions on Neural Networks,2010,21(10):1624-1642.
[7] Cao Peng,Zhao Dazhe,Zaiane O.An Optimized Cost-sensitive SVM for Imbalanced Data Learning[C]// Proceedings of the 17th Pacific-Asia Conference on Know ledge Discovery and Data Mining.Gold Coast,Australia:[s.n.],2013:280-292.
[8] Zhou Zhihua,Liu Xuying.Training Cost-sensitive Neural Networks with Methods Addressing the Class Im balance Problem[J].IEEE Transactions on Know ledge and Data Engineering,2006,18(1):63-77.
[9] Masnadi H,Vasconcelos N,Iranmehr A.Cost-sensitive Support Vector Machines[J].Journal of Machine Learning Research,2015,1(1):1-26.
[10] Wang B X,Japkowicz N.Boosting Support Vector Machines for Im balanced Data Sets[J].Know ledge and Information System s,2010,25(1):1-20.
[11] Cao Peng,Zhao Dazhe,Zaiane O.Hybrid Probabilistic Sampling with Random Subspace for Imbalanced Data Learning[J].Intelligent Data Analysis,2014,18(6):1089-1108.
[12] Thongkam J,Xu Guandong,Zhang Yanchun,et al. Support Vector Machine for Outlier Detection in Breast Cancer Survivability Prediction[C]//Proceedings of Asia-Pacific Web Conference.Berlin,Germ any:Springer,2008:99-109.
[13] Debruyne M.An Outlier Map for Support Vector Machine Classification[J].Annals of Applied Statistics,2009,3(4):1566-1580.
[14] Batuwita R,Palade V.FSVM-CIL:Fuzzy Support Vector Machines for Class Imbalance Learning[J].IEEE Transactions on Fuzzy System s,2010,18(3):558-571.
[15] 劉三陽,杜 喆.一種改進(jìn)的模糊支持向量機(jī)算法[J].智能系統(tǒng)學(xué)報(bào),2007,2(3):30-33.
編輯 顧逸斐
Imbalanced Data Learning for Support Vector Machine Based on Confidence Cost Sensitivity
ZHAO Yongbin1,CHEN Shuo1,LIU Ming2,CAO Peng3
(1.Information and Communication Branch of State Grid Liaoning Electric Power Supply Co.,Ltd.,Shenyang 110006,China;2.China Electric Power Finance Co.,Ltd.,Beijing 100005,China;3.College of Information Science and Engineering,Northeastern University,Shenyang 110819,China)
Imbalanced data classification problem is one of the main research field of machine learning in the real world.In order to im prove the classification performance of Support Vector Machine(SVM),a kernel space confidence based cost SVM is proposed.It can improve the accuracy of minority class by injecting the strategy of misclassification cost into training.Using the imbalanced data evaluation metric as the objective function,the method optimizes the misclassification cost parameter,so as to improve the accuracy of minority class.Moreover,the weight of each instance for decision classification contribution can be obtained by calculating the class confidence on the kernel space,so as to decrease the effect of noisy and outlier instances for SVM.Experimental results show that the proposed algorithm provides a very competitive solution to other existing methods for combating imbalanced classification problem s.
machine learning;classification;imbalanced data learning;Support Vector Machine(SVM);cost sensitive learning
趙永彬,陳 碩,劉 明,等.基于置信度代價(jià)敏感的支持向量機(jī)不均衡數(shù)據(jù)學(xué)習(xí)[J].計(jì)算機(jī)工程,2015,41(10):177-180,185.
英文引用格式:Zhao Yongbin,Chen Shuo,Liu Ming,et al.Imbalanced Data Learning for Support Vector Machine Based on Confidence Cost Sensitivity[J].Computer Engineering,2015,41(10):177-180,185.
1000-3428(2015)10-0177-04
A
TP18
國家自然科學(xué)基金資助項(xiàng)目(61302012);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)基金資助項(xiàng)目(N140403004)。
趙永彬(1975-),男,高級工程師、碩士,主研方向:人工智能,智能電網(wǎng);陳 碩,工程師、博士;劉 明,高級會(huì)計(jì)師、碩士;曹 鵬,講師、博士。
2015-04-27
2015-06-09E-mail:neu-cp@163.com