林培榕, 林耀進(jìn)
(閩南師范大學(xué) 計(jì)算機(jī)學(xué)院,福建 漳州 363000)
噪聲數(shù)據(jù)下基于模型權(quán)重與隨機(jī)子空間的集成學(xué)習(xí)
林培榕, 林耀進(jìn)
(閩南師范大學(xué) 計(jì)算機(jī)學(xué)院,福建 漳州 363000)
針對(duì)訓(xùn)練集中類標(biāo)號(hào)存在噪聲的情況,提高分類模型的穩(wěn)定性和分類精度是分類建模的目標(biāo)。文章通過隨機(jī)化鄰域?qū)傩约s簡(jiǎn),生成多個(gè)鄰域可分子空間,從而形成不同的基分類模型;通過基分類模型的預(yù)測(cè)結(jié)果及一致性原則學(xué)習(xí)基分類模型權(quán)重,降低了噪聲對(duì)基分類模型權(quán)重學(xué)習(xí)的影響;最后利用模型權(quán)重融合基分類模型的分類結(jié)果獲得測(cè)試樣本的類別,并通過仿真實(shí)驗(yàn)驗(yàn)證該方法的有效性。
噪聲數(shù)據(jù);集成學(xué)習(xí);鄰域粗糙集;隨機(jī)約簡(jiǎn);模型權(quán)重
噪聲數(shù)據(jù)對(duì)數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)有著明顯的負(fù)向影響,許多學(xué)者在噪聲數(shù)據(jù)上深入地研究各種挖掘方法[1-4]。噪聲數(shù)據(jù)的挖掘方法主要分為帶噪聲的挖掘和去除噪聲后再挖掘2種。帶噪聲的挖掘主要是指直接在噪聲數(shù)據(jù)上構(gòu)建更加魯棒的挖掘方法。例如,文獻(xiàn)[1]將噪聲分為屬性噪聲和類噪聲2種,對(duì)噪聲在機(jī)器學(xué)習(xí)中的影響進(jìn)行了系統(tǒng)的評(píng)價(jià),同時(shí)研究了屬性噪聲與類噪聲之間的關(guān)系、噪聲在不同屬性中的影響及相應(yīng)的解決方案;文獻(xiàn)[5]針對(duì)動(dòng)態(tài)分類集成選擇介紹了一類GMDH的數(shù)據(jù)處理方法,并在保證子分類器的精度和多樣性基礎(chǔ)上介紹了集成學(xué)習(xí)中分類器的動(dòng)態(tài)選擇策略;文獻(xiàn)[6]在對(duì)樣本分配一個(gè)類標(biāo)號(hào)隸屬度概率向量的基礎(chǔ)上,在訓(xùn)練分類模型時(shí)將樣本所屬類標(biāo)號(hào)的置信度作為權(quán)重以降低噪聲的影響。去除噪聲再挖掘方法主要是利用K近鄰、ROC曲線等方法對(duì)噪聲進(jìn)行去除后再利用傳統(tǒng)方法進(jìn)行挖掘[4,7]。
集成學(xué)習(xí)在對(duì)測(cè)試樣本進(jìn)行分類時(shí),通過把若干個(gè)單分類器集成起來,對(duì)多個(gè)分類器的分類結(jié)果進(jìn)行某種組合來決定最終的分類,以取得比單個(gè)分類器更好的性能[8]。在集成學(xué)習(xí)中,子分類器的差異性[9]及分類器的權(quán)重學(xué)習(xí)[10]是影響集成學(xué)習(xí)效果的關(guān)鍵。文獻(xiàn)[11]為了提高分類器的差異性和精度,提出了一種基于成對(duì)差異性度量的選擇性集成方法;文獻(xiàn)[12]采用特征選擇方法得到一個(gè)有效的特征序列,進(jìn)而將特征序列劃分為幾個(gè)區(qū)段并依據(jù)在各區(qū)段的采樣比例進(jìn)行隨機(jī)采樣,以此來改進(jìn)子分類器性能和子分類器的多樣性;文獻(xiàn)[13]通過鄰域粗糙集生成多個(gè)特征子空間,在不同空間中學(xué)習(xí)分類器,取得了良好的效果;文獻(xiàn)[14]根據(jù)多分類器行為信息,產(chǎn)生待測(cè)樣本局部分類精度的有效判定區(qū)域,提出適用于集成學(xué)習(xí)方法的權(quán)重自適應(yīng)調(diào)整多分類器集成算法;文獻(xiàn)[15]提出了一種線性加權(quán)投票的集成學(xué)習(xí)方法。
由于訓(xùn)練集中類標(biāo)號(hào)存在噪聲會(huì)對(duì)傳統(tǒng)分類模型的學(xué)習(xí)能力有著巨大的干擾,而集成學(xué)習(xí)有著強(qiáng)大的泛化能力及穩(wěn)定性,因此本文提出了一種基于隨機(jī)子空間與模型權(quán)重的集成學(xué)習(xí)方法。首先在保證核屬性基礎(chǔ)上,通過隨機(jī)化鄰域約簡(jiǎn),得到一組分類性能較強(qiáng)的鄰域可分子空間,在每個(gè)子空間學(xué)習(xí)一個(gè)分類模型,由此得到一系列的子分類模型。其中,子分類模型的權(quán)重依賴于模型預(yù)測(cè)結(jié)果的一致程度,避免了訓(xùn)練集存在噪聲對(duì)子分類模型權(quán)重學(xué)習(xí)產(chǎn)生的誤差。實(shí)驗(yàn)結(jié)果表明,本文提出的方法分類性能優(yōu)于或相當(dāng)于其他相關(guān)的分類模型。
粗糙集理論自1982年由Pawlak教授提出以來,得到了廣泛的研究和發(fā)展。針對(duì)數(shù)值型與名義型并存的數(shù)據(jù),文獻(xiàn)[16]構(gòu)建了基于鄰域?;拇植诩P汀?/p>
給定決策表〈U,A,D〉,U={x1,x2,…,xM}為由樣本構(gòu)成的非空有限集,A={a1,a2,…,aN}為描述樣本的屬性集合,D為分類屬性。
定義1 對(duì)于xi∈U,定義xi的鄰域?yàn)棣模▁i)={xj|xj∈U,Δ(xi,xj)≤δ},其中δ≥0,Δ為距離函數(shù)。
定義2 給定〈U,A,D〉,如果A生成一組論域上的鄰域關(guān)系,則稱〈U,A,D〉為鄰域決策系統(tǒng)。
在鄰域粗糙集的前向貪心屬性約簡(jiǎn)算法中,根據(jù)屬性重要度的大小依次獲得最重要的屬性,直到增加任何屬性,區(qū)分能力都不再增長(zhǎng),于是生成一個(gè)嵌套的特征子集序列:B1?B2?…?Bk。由于每次都是選擇區(qū)分能力最大的特征,因此只能得到1個(gè)約簡(jiǎn)。給定一個(gè)決策表〈U,A,D〉,一般存在多個(gè)可以保持原始數(shù)據(jù)近似能力的屬性子集。例如,文獻(xiàn)[17]放寬貪心算法每一個(gè)都選最佳屬性的要求,而采用隨機(jī)區(qū)分能力最大的前F個(gè)特征的一個(gè)作為選中屬性,然后通過多次運(yùn)行算法得到多個(gè)具有區(qū)分能力的屬性子集;文獻(xiàn)[18]提出WADF方法來求得多個(gè)約簡(jiǎn),通過隨機(jī)刪除非核屬性中的一個(gè)屬性,在刪除后的屬性子集上尋找新的約簡(jiǎn),即可得到多個(gè)屬性約簡(jiǎn)。
由于刪除核屬性會(huì)降低系統(tǒng)的逼近能力,而約簡(jiǎn)中的非核屬性的區(qū)分能力可以由其他若干個(gè)屬性來替代,因此本文融合文獻(xiàn)[17-18]的優(yōu)點(diǎn),首先求得核屬性,再隨機(jī)選擇核屬性外重要度排前F個(gè)的任一屬性,然后在所有剩余屬性中進(jìn)行屬性約簡(jiǎn),最后通過重復(fù)上面步驟得到多個(gè)具有區(qū)分能力的屬性子集。此算法依據(jù)是在保證核屬性不丟失的情況下,每個(gè)決策信息系統(tǒng)一般都存在多個(gè)保持原始數(shù)據(jù)近似能力的屬性子集,不同的約簡(jiǎn)構(gòu)成的特征空間蘊(yùn)含的信息不同,具有相互補(bǔ)充的作用。另外,通過構(gòu)建多屬性約簡(jiǎn)的集成學(xué)習(xí)可提高系統(tǒng)泛化能力。
算法1 保持核屬性下隨機(jī)化屬性約簡(jiǎn)算法。
輸入:決策表〈U,A,D〉,參數(shù)δ、隨機(jī)數(shù)F。
2.加強(qiáng)建設(shè)項(xiàng)目環(huán)境規(guī)劃和環(huán)境影響評(píng)價(jià),落實(shí)開發(fā)建設(shè)項(xiàng)目的管理工作,落實(shí)污染物排放總量控制工作,實(shí)施環(huán)境統(tǒng)計(jì),各種污染因子的調(diào)查工作,從源頭管理杜絕新的污染源的產(chǎn)生。
輸出:約簡(jiǎn)red。
(1)計(jì)算核屬性Core:Core→red。
(2)當(dāng)ai∈A-red,計(jì)算屬性ai的重要度Sig(ai,B,D)。
(3)選擇屬性ak,ak為屬性集{A-red}中屬性重要度前F中隨機(jī)一個(gè)。
(4)若Sig(ak,B,D)>0,則red∪ak→red,回到步驟(2);否則,返回約簡(jiǎn)red。
算法1中約簡(jiǎn)本質(zhì)上是一組保持原始數(shù)據(jù)近似刻畫能力的特征子集。
通過鄰域粗糙集的隨機(jī)化屬性約簡(jiǎn)算法得到一組屬性子空間集合后,在屬性子空間集合{AR1,AR2,…,ARn}上分別構(gòu)建基分類模型{C1,C2,…,Cn}。假設(shè)存在測(cè)試樣本x,如果一個(gè)基分類模型對(duì)x類標(biāo)號(hào)的預(yù)測(cè)比大多數(shù)基分類模型更加一致,說明該基分類模型對(duì)x類標(biāo)號(hào)的預(yù)測(cè)將更加準(zhǔn)確,也具有更大的權(quán)重,將其稱為一致性原則。該原則充分體現(xiàn)了眾數(shù)投票準(zhǔn)則,即大多數(shù)相同的投票結(jié)果為最終結(jié)果。
通過分類模型之間的一致性來近似刻畫分類模型的權(quán)重,可得:
由于存在對(duì)測(cè)試樣本類標(biāo)號(hào)的正確預(yù)測(cè)只集中于少數(shù)幾個(gè)分類模型的情況,所以S(Ca,Cb|x)反映的是Ca與Cb2個(gè)模型之間的局部一致性,并不能保證所有模型的全局一致性。因此,需增加一個(gè)平滑項(xiàng)使W(Ca|x)近似滿足全局一致性,即
(3)式由模型一致項(xiàng)和平滑項(xiàng)組成,模型一致項(xiàng)反映了模型之間一致性程度,而平滑項(xiàng)反映對(duì)模型的無偏使用。其中,(3)式滿足約束條件
給定一個(gè)決策表〈U,A,D〉,條件屬性集為{a1,a2,…,aN},利用2.1中的隨機(jī)化屬性約簡(jiǎn)算法得到一組屬性子空間集合{AR1,AR2,…,ARn},通過在屬性子空間集合{AR1,AR2,…,ARn}上分別構(gòu)建多個(gè)子分類模型{C1,C2,…,Cn}。利用2.2中根據(jù)子分類模型與其他子分類模型的輸出結(jié)果的一致程度高低原則得到每個(gè)子分類模型的權(quán)重,以加權(quán)投票的方式對(duì)測(cè)試樣本的輸出結(jié)果進(jìn)行融合,得到測(cè)試樣本的最終類標(biāo)號(hào)。
為了驗(yàn)證本文方法的有效性,從UCI數(shù)據(jù)庫中下載了4個(gè)數(shù)據(jù)集,分別為wdbc、heart、hepatitis及ICU,數(shù)據(jù)的描述信息見表1所列。
表1 數(shù)據(jù)集描述
對(duì)于集成學(xué)習(xí)方法,選擇Cart和LSVM作為基分類模型。算法1中的鄰域大小直接影響特征子空間的生成,本文中鄰域設(shè)置為0.1,隨機(jī)數(shù)設(shè)為100。另外,產(chǎn)生噪聲的方法通過隨機(jī)打亂樣本的序號(hào)后,取前p%(p=10,20,30)個(gè)樣本進(jìn)行改變類標(biāo)號(hào)。最后,采用十折交叉驗(yàn)證法進(jìn)行驗(yàn)證。測(cè)試樣本的類標(biāo)號(hào)存在10%、20%和30%噪聲比率的情況下4個(gè)數(shù)據(jù)集在不同分類方法下的分類精度見表2~表4所列。其中,分類方法Cart、LSVM、眾數(shù)投票法及本文方法分別代表傳統(tǒng)的Cart分類模型、LSVM分類模型、采用眾數(shù)投票法的算法1及本文所提出的方法。
表2 噪聲率10%下分類精度的比較
表3 噪聲率20%下分類精度的比較
表4 噪聲率30%下分類精度的比較
由表2~表4可以看出,針對(duì)類標(biāo)號(hào)存在噪聲的數(shù)據(jù)集,集成學(xué)習(xí)方法比傳統(tǒng)的分類方法具有更強(qiáng)的泛化能力,而本文中考慮了模型權(quán)重的集成方法在大部分的實(shí)驗(yàn)上比傳統(tǒng)的眾數(shù)投票集成學(xué)習(xí)具有更強(qiáng)的分類性能。
4個(gè)數(shù)據(jù)集在2個(gè)基分類器上的分類精度隨著噪聲比率變化的情況如圖1所示。從圖1可以看出,隨著噪聲比率的增大,分類精度基本呈現(xiàn)降低趨勢(shì),與實(shí)際情況相符。相比于傳統(tǒng)分類模型及眾數(shù)投票法,本文方法的分類精度降低趨勢(shì)比較緩慢,說明本文方法受噪聲影響較低,具有較高的穩(wěn)定性;對(duì)于ICU數(shù)據(jù)集,本文方法與眾數(shù)投票法的分類精度基本沒有下降,分析可知ICU是一個(gè)不平衡數(shù)據(jù)集,其1類、2類及3類的樣本數(shù)比例為37∶1∶1,而噪聲的生成方法很大程度上改變了數(shù)據(jù)的分布,影響了分類精度的變化。
圖1 4種分類方法在不同噪聲比率下的分類精度對(duì)比
在不同的噪聲比率下,本文方法的分類精度比眾數(shù)投票法及傳統(tǒng)的Cart、Lsvm分類方法都高。
針對(duì)類標(biāo)號(hào)存在噪聲的情況,本文提出了一種基于隨機(jī)子空間和模型權(quán)重的分類集成方法。該算法在不刪除核屬性下隨機(jī)選擇一組具有較高分類能力的特征子集,以此來提高子分類模型的性能且增強(qiáng)子分類模型的多樣性;然后利用基分類模型預(yù)測(cè)結(jié)果的一致程度來學(xué)習(xí)不同分類模型的權(quán)重;最后通過加權(quán)融合集成學(xué)習(xí)獲得對(duì)象的類別。實(shí)驗(yàn)結(jié)果表明,本文算法優(yōu)于傳統(tǒng)單個(gè)分類器的分類性能,且在多數(shù)情況下優(yōu)于經(jīng)典的眾數(shù)投票集成方法。
[1]Zhu X Q,Wu X D.Class noise vs.attribute noise:a quantitative study[J].Artificial Intelligence Review,2004,22(3):177-210.
[2]Wu X D,Zhu X Q.Mining with noise knowledge:error-aware data mining[J].IEEE Transactions on Systems,Man and Cybernetics,Part A,2008,38(4):917-932.
[3]Zhu B,He C Z,Liatsis P.A robust missing value imputation method for noisy data[J].Applied Intelligence,2012,36(1):61-74.
[4]石鑫鑫,胡學(xué)鋼,林耀進(jìn).融合互近鄰和可信度的K-近鄰分類算法[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2014,37(9):1055-1058.
[5]Xiao J,He C Z,Jiang X Y,et al.A dynamic classifier ensemble selection approach for noise data[J].Information Sciences,2010,180(18):3402-3421.
[6]Rebbapragada U,Brodley C E.Class noise mitigation through instance weighting[C]//Machine Learning:ECML,2007:708-715.
[7]Catal C,Alan O,Balkan K.Class noise detection based on software metrics and ROC curves[J].Information Sciences,2011,181(21):4867-4877.
[8]Kittler J,Hatef M,Duin R P W,et al.On combining classifiers[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(3):226-239.
[9]Zhou Z H,Yu Y.Ensembling local learners through multimodal perturbation[J].IEEE Transactions on Systems,Man and Cybernetics,Part B,2005,35(4):725-735.
[10]Kuncheva L I,Rodriguez J J.A weighted voting framework for classifiers ensembles[J].Knowledge and Information Systems,2014,38(2):259-275.
[11]楊長(zhǎng)勝,陶 亮,曹振田,等.基于成對(duì)差異性度量的選擇性集成方法[J].模式識(shí)別與人工智能,2010,23(4):565-570.
[12]楊 明,王 飛.一種基于局部隨機(jī)子空間的分類集成算法[J].模式識(shí)別與人工智能,2012,25(4):595-603.
[13]Hu Q H,Yu D R,Xie Z X,et al.EROS:ensemble rough subspaces[J].Pattern Recognition,2007,40 (12):3728-3739.
[14]方 敏.集成學(xué)習(xí)的多分類器動(dòng)態(tài)融合方法研究[J].系統(tǒng)工程與電子技術(shù),2006,28(11):1759-1761,1769.
[15]Fumera G,Roli F.A theoretical and experimental analysis of linear combiners for multiple classifier systems [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(6):942-956.
[16]Hu Q H,Yu D R,Xie Z X.Neighborhood classifiers[J].Expert Systems with Applications,2008,34 (2):866-876.
[17]朱鵬飛,胡清華,于達(dá)仁.基于隨機(jī)化屬性選擇和鄰域覆蓋約簡(jiǎn)的集成學(xué)習(xí)[J].電子學(xué)報(bào),2012,40(2):273-278.
[18]Wu Q X,Bell D,McGinnity M.Multiknowledge for decision making[J].Knowledge and Information Systems,2005,7(2):246-266.
Ensemble learning based on model weight and random subspace in noise data
LIN Pei-rong, LIN Yao-jin
(School of Computer Science and Engineering,Minnan Normal University,Zhangzhou 363000,China)
In view of the class label noise in training dataset,the objective of classification modeling is to improve the stability and classification accuracy of classification model.In this paper,a set of neighborhood separable subspaces is generated based on randomized neighborhood attribute reduction,in which a set of base classification models is obtained.The weight of base classification model is studied by the prediction of base classification model and consensus principle,which decreases the impact of noise data on the weight study of base classification model.Finally,the classification result is gotten by combing the classification decision of different base classification models using model weight,and the experimental results show the validity of the method.
noise data;ensemble learning;neighborhood rough set;randomized reduction;model weight
TP181
A
1003-5060(2015)02-0186-06
10.3969/j.issn.1003-5060.2015.02.010
2013-10-25;
2014-10-08
國(guó)家自然科學(xué)基金資助項(xiàng)目(61303131;61379021);福建省自然科學(xué)基金資助項(xiàng)目(2013J01028)和漳州市科技計(jì)劃資助項(xiàng)目(ZZ2013J04)
林培榕(1966-),男,福建平和人,閩南師范大學(xué)教授,碩士生導(dǎo)師.
(責(zé)任編輯 胡亞敏)