陳麗芳,代琪,劉洋,劉保相
(1.華北理工大學(xué) 理學(xué)院,河北 唐山 063210;2.中國石油大學(xué)(北京) 自動(dòng)化系,北京 102249)
不平衡數(shù)據(jù)普遍存在于生活的各個(gè)領(lǐng)域。由于不平衡數(shù)據(jù)集中類間數(shù)量不均衡,從這些數(shù)據(jù)中進(jìn)行分類學(xué)習(xí)需要新的算法及工具,以便從原始數(shù)據(jù)中有效獲取有價(jià)值信息[1-2]。因此,針對(duì)不平衡數(shù)據(jù)的分類問題,常見的處理方法分為兩類:一類是從數(shù)據(jù)層面出發(fā),對(duì)訓(xùn)練集進(jìn)行重采樣;另一類則是在不改變數(shù)據(jù)集分布的前提下,對(duì)分類算法進(jìn)行改進(jìn),增強(qiáng)算法對(duì)不平衡數(shù)據(jù)結(jié)構(gòu)的適應(yīng)能力,提升算法的分類精度。在實(shí)際應(yīng)用中,數(shù)據(jù)采樣技術(shù)因其計(jì)算量小,提升效果明顯而備受關(guān)注,主要分為欠采樣、過采樣和混合采樣。
欠采樣的基本思想是通過刪除一部分多數(shù)類樣本,使數(shù)據(jù)集實(shí)現(xiàn)再平衡。其中,隨機(jī)欠采樣[3]是欠采樣技術(shù)中簡單易行的方法,雖然該方法具有操作簡單、易實(shí)現(xiàn)等優(yōu)點(diǎn),但刪除過程中容易刪除多數(shù)類有價(jià)值樣本,造成信息丟失,算法分類精度提升不明顯。Sun等[4]將Bagging算法引入欠采樣EUS方法中,提出新的欠采樣算法EUS-Bag。Kang[5]等指出少數(shù)類樣本中可能存在噪聲,降低分類器分類性能,從而提出一種結(jié)合噪聲濾波器的欠采樣算法。魏力[6]等結(jié)合NearMiss算法和K-means聚類算法的優(yōu)點(diǎn),通過計(jì)算聚類簇中心點(diǎn)之間的NearMiss距離,對(duì)聚類中心賦予不同的選擇權(quán)重,提出一種新的欠采樣算法。
過采樣主要是在多數(shù)類與少數(shù)類之間生成一部分少數(shù)類樣本的人造數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的再平衡。合成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling Technique, SMOTE)算法是過采樣算法中的經(jīng)典算法,可以有效地提升過采樣方法的性能。夏英等[7]通過層次聚類將少數(shù)類樣本劃分為多個(gè)類簇并計(jì)算簇的密度因子,獲得采樣比例,根據(jù)每個(gè)簇中樣本與多數(shù)類邊界的聚類確定采樣權(quán)重,從而實(shí)現(xiàn)數(shù)據(jù)集過采樣。Rivera[8]在SMOTE的基礎(chǔ)上,結(jié)合降噪技術(shù),提出一種新的過采樣算法,通過減少少數(shù)類樣本噪聲,對(duì)少數(shù)類樣本進(jìn)行選擇性過采樣,從而改善少數(shù)類樣本的分類難度。
混合采樣是通過聯(lián)合欠采樣和過采樣方法,結(jié)合兩種或兩種以上的采樣方法,實(shí)現(xiàn)數(shù)據(jù)的再平衡。吳藝凡等[9]利用SVM的分類超平面劃分?jǐn)?shù)據(jù)集,對(duì)靠近超平面的少數(shù)類樣本采用SMOTE過采樣,刪除遠(yuǎn)離超平面的一些多數(shù)類樣本,使分類超平面向真實(shí)分類邊界偏移。Zhang等[10]結(jié)合EUS和Boosting算法,結(jié)合欠采樣和過采樣的優(yōu)勢(shì),提出一種有監(jiān)督的混合采樣算法,提高弱分類器的準(zhǔn)確率。Liu等[11]將SMOTE與Tomek-Link算法結(jié)合,提出新的混合采樣算法,首先利用SMOTE對(duì)數(shù)據(jù)進(jìn)行過采樣,然后使用Tomek-Link算法剔除邊界域中的樣本,從而提升模型的分類精度。
分析以上研究成果,數(shù)據(jù)采樣技術(shù)能有效提高不平衡數(shù)據(jù)的分類準(zhǔn)確率,但數(shù)據(jù)采樣過程存在一定的盲目性,使采樣算法的計(jì)算過程煩瑣,鑒于此,本文將三支決策和粒計(jì)算思想融入混合采樣中,提出一種基于三支等價(jià)粒的混合采樣算法(Three Equivalent Granules Hybrid Sampling Algorithms,3EG-HS),大大約簡了采樣計(jì)算過程。具體思路如下:采用二元關(guān)系粒化數(shù)據(jù)集,生成正等價(jià)粒、不確定等價(jià)粒和負(fù)等價(jià)粒;使用馬氏距離分別計(jì)算各負(fù)等價(jià)粒中樣本之間的距離,保留距離最小的樣本;利用SMOTE算法對(duì)不確定等價(jià)粒中的少數(shù)類樣本進(jìn)行過采樣,降低訓(xùn)練集(Imbalanced Ratio,IR)不平衡比。實(shí)驗(yàn)結(jié)果表明,與其他采樣算法對(duì)比,該混合采樣算法的G-mean值提升效果明顯,在不平衡數(shù)據(jù)分類問題上具有明顯優(yōu)勢(shì)。
本文的主要貢獻(xiàn)如下:
(1)結(jié)合三支決策和二元關(guān)系,針對(duì)不平衡數(shù)據(jù)提出了三支等價(jià)粒概念。
(2)提出的混合采樣算法對(duì)不同的等價(jià)關(guān)系采用不同的處理方法,有效地提高了采樣準(zhǔn)確率,有利于后續(xù)分類模型的分類學(xué)習(xí)。
本節(jié)簡要介紹了三支決策、二元關(guān)系的理論知識(shí),定義了三支等價(jià)粒。
三支決策(Three-way decisions,3WD)是近幾年發(fā)展起來的一種符合人類認(rèn)知的“三分而治”模型[12]。三支決策的核心思想是將一個(gè)統(tǒng)一集合劃分為三個(gè)兩兩互不相交的成對(duì)區(qū)域,對(duì)每一個(gè)區(qū)域制定相應(yīng)的決策策略[13]。
定義1(三支決策)[14-15]基于條件集C,三支決策通過一個(gè)映射f將對(duì)象集U分為三個(gè)兩兩互不相交的R1域、R2域和R3域,即:
f:U→{R1,R2,R3} ,
(1)
其中,R1,R2,R3?U,U=R1∪R2∪R3,R1∩R2=?,R2∩R3=?,R1∩R3=?。
特別地,R1域、R2域和R3域可能為空集。若三個(gè)區(qū)域存在當(dāng)且僅當(dāng)一個(gè)區(qū)域?yàn)榭占瘯r(shí),三支決策轉(zhuǎn)化為二支決策問題。
定義2(等價(jià)?;?[16-17]令U={x1,x2,…,xn}是一個(gè)論域,R是U上的一個(gè)二元關(guān)系。若R是自反、對(duì)稱的及傳遞的,則稱R為等價(jià)關(guān)系。用等價(jià)關(guān)系實(shí)現(xiàn)的粒化,稱為等價(jià)?;?。
定義3(二元關(guān)系)[16-17]設(shè)R和S是U上的兩個(gè)二元關(guān)系,定義:
(2)
(3)
式(2)為二元關(guān)系的交運(yùn)算;式(3)為二元關(guān)系的并運(yùn)算。
本文分別使用兩個(gè)關(guān)系R和S獲得?;蟮男铝?應(yīng)用二元關(guān)系的交運(yùn)算對(duì)合并后的粒進(jìn)行細(xì)化計(jì)算,得到細(xì)化后的粒及粒層,新粒分別包含舊粒的所有信息。
定義4(三支等價(jià)粒)考慮一個(gè)二分類問題U,C={C1,C2},其中C1為正類,而C2為負(fù)類。假設(shè)存在屬性a1,a1∈A,通過二元關(guān)系?;?形成等價(jià)粒R,如果x1,x2∈R,當(dāng)x1,x2∈C1時(shí),稱該等價(jià)粒為正等價(jià)粒;當(dāng)x1∈C1,x2∈C2時(shí),則稱該等價(jià)粒為不確定等價(jià)粒;當(dāng)x1,x2∈C2時(shí),稱該等價(jià)粒為負(fù)等價(jià)粒。
在本節(jié)中,主要介紹三支等價(jià)粒混合采樣算法的算法設(shè)計(jì)和模型構(gòu)建過程。其中,2.1節(jié)給出了算法設(shè)計(jì)流程及流程圖。2.2節(jié)介紹了混合采樣分類模型的構(gòu)建過程。
該算法(Three Equivalent Granules Hybrid Sampling Algorithms,3EG-HS)流程圖如圖1所示。
圖1 三支等價(jià)粒混合采樣算法流程圖Fig.1 Flow chart of three equivalengranules hybrid sampling algorithms
算法步驟如下:
Step1:數(shù)據(jù)歸一化處理
由于樣本集初始屬性表中各屬性之間量綱不同、取值范圍不同,原始數(shù)據(jù)差異較大。為了避免計(jì)算過程產(chǎn)生誤差,采用比例轉(zhuǎn)換法、極差轉(zhuǎn)換法等方法,消除量綱和取值范圍的影響,將屬性值規(guī)范到一定區(qū)間上,使屬性之間能夠進(jìn)行比較。
Step2:數(shù)據(jù)離散化處理
每個(gè)屬性設(shè)置相同或不同的區(qū)間,采用等距劃分方法對(duì)歸一化后的數(shù)據(jù)進(jìn)行離散化處理。
Step3:等價(jià)類劃分
采用二元關(guān)系計(jì)算實(shí)現(xiàn)屬性?;幚?得到最終等價(jià)類。
Step4:三支等價(jià)粒?;?/p>
根據(jù)Step 3?;纬傻牡葍r(jià)粒,采用三支決策思想劃分為正等價(jià)粒、不確定等價(jià)粒和負(fù)等價(jià)粒。當(dāng)粒中樣本均為少數(shù)類時(shí),劃分為正等價(jià)粒;當(dāng)粒中樣本包含多數(shù)類樣本及少數(shù)類樣本,劃分為不確定等價(jià)粒;當(dāng)粒中樣本均為多數(shù)類時(shí),劃分為負(fù)等價(jià)粒。
Step5:負(fù)等價(jià)粒欠采樣
負(fù)等價(jià)粒主要包含大量的多數(shù)類樣本,在多數(shù)類樣本中也可能存在有價(jià)值樣本,完全刪除負(fù)等價(jià)??赡軐?dǎo)致分類器性能降低,因此,當(dāng)負(fù)等價(jià)粒中只包含唯一樣本時(shí),該樣本直接保存,當(dāng)負(fù)等價(jià)粒中包含多個(gè)樣本時(shí),采用馬氏距離計(jì)算負(fù)等價(jià)粒中各樣本與等價(jià)粒中其他樣本之間的距離,保留距離最小的樣本,合并所有保留的負(fù)等價(jià)粒樣本形成新的欠采樣樣本集。
Step6:不確定等價(jià)粒過采樣
不確定等價(jià)粒中包含少數(shù)類樣本和多數(shù)類樣本,這些樣本不容易區(qū)分,因此,采用SMOTE算法對(duì)整個(gè)不確定粒層進(jìn)行過采樣,形成新的過采樣不確定等價(jià)粒,其采樣過程如下。
首先,隨機(jī)選擇少數(shù)類樣本,并根據(jù)公式(4)計(jì)算樣本之間的歐氏距離。假設(shè)存在兩個(gè)相同維度的樣本X={x1,x2,…,xn},Y={y1,y2,…,yn},那么樣本X與樣本Y的歐氏距離為:
(4)
然后,計(jì)算不確定等價(jià)粒層上少數(shù)類樣本與多數(shù)類樣本的比例,獲得過采樣比例及生成人工數(shù)據(jù)點(diǎn)的數(shù)量。
最后,通過在少數(shù)類樣本中隨機(jī)選擇樣本點(diǎn),與其k個(gè)最近鄰樣本之間線性內(nèi)插合成新的少數(shù)類樣本,根據(jù)公式(5)合成新的數(shù)據(jù)樣本。
xnew=xi+rand(0,1)×(xi,j-xi) ,
(5)
其中,xnew為新的少數(shù)類樣本,xi為第i個(gè)少數(shù)類樣本,xi,j為第i個(gè)少數(shù)類樣本的第j個(gè)近鄰樣本。
Step 7:合并三支等價(jià)粒
采用兩兩相互組合的方式合并正等價(jià)粒、過采樣不確定等價(jià)粒和欠采樣負(fù)等價(jià)粒,形成新的采樣數(shù)據(jù)集。
計(jì)算中有兩點(diǎn)需注意:第一,不確定等價(jià)粒包含更多重要信息,需采用過采樣方法進(jìn)行二次處理;第二,若完全刪除負(fù)等價(jià)粒,容易丟失有價(jià)值的多數(shù)類樣本,導(dǎo)致分類器性能降低,因此采用馬氏距離計(jì)算負(fù)等價(jià)粒中各樣本的距離,保留各等價(jià)粒中距離最小的樣本,當(dāng)負(fù)等價(jià)粒中只存在一個(gè)樣本時(shí),不再對(duì)樣本計(jì)算馬氏距離,直接將該負(fù)等價(jià)粒保留。
經(jīng)過以上混合采樣算法,可以獲得相對(duì)平衡的新訓(xùn)練集,分別在新訓(xùn)練集上構(gòu)建分類器,并對(duì)分類結(jié)果進(jìn)行對(duì)比分析,驗(yàn)證算法的準(zhǔn)確性及可行性。
模型構(gòu)建的具體步驟如下:
步驟1:按照80%訓(xùn)練集Strain,20%測(cè)試集Stest的比例劃分原始數(shù)據(jù)集S,在訓(xùn)練過程中采用五折交叉驗(yàn)證評(píng)估模型的穩(wěn)定性。
步驟3:使用測(cè)試集中的數(shù)據(jù)測(cè)試模型的分類精度,并使用G-mean值計(jì)算模型的得分,計(jì)算公式如下所示。
(6)
其中,TP為少數(shù)類樣本正確分類數(shù);FN為少數(shù)類樣本錯(cuò)誤分類數(shù);FP為多數(shù)類樣本錯(cuò)誤分類數(shù);TN為多數(shù)類樣本正確分類數(shù)。
本節(jié)主要介紹了算法示例、數(shù)據(jù)集及仿真環(huán)境和分類算法的性能分析。
以KEEL數(shù)據(jù)庫中haberman數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)(20個(gè)樣本)為例,給出計(jì)算過程,原始數(shù)據(jù)如表1所示。
表1 haberman部分真實(shí)數(shù)據(jù)
根據(jù)公式(7)歸一化數(shù)據(jù)集,采用等距劃分方法對(duì)數(shù)據(jù)離散化為3類,由于篇幅所限,此處省略離散化后的屬性表。
(7)
利用二元關(guān)系粒化形成三支等價(jià)粒。選擇屬性A1作為等價(jià)粒層R進(jìn)行計(jì)算,可以將論域U?;癁?類,分別為:
選擇屬性A2作為等價(jià)粒層S進(jìn)行計(jì)算,可以將論域U?;癁?類,分別為:
粒化獲得8個(gè)等價(jià)粒,其余交運(yùn)算結(jié)果均為?。
依據(jù)算法計(jì)算過程,本數(shù)據(jù)集類別為1的是少數(shù)類,因此,三支等價(jià)粒劃分如下:
僅包含少數(shù)類樣本的等價(jià)粒定義為正等價(jià)粒,劃分結(jié)束后,正等價(jià)粒為:?;
既包含類別1又包含類別2的等價(jià)粒定義為不確定等價(jià)粒,劃分結(jié)束后,不確定等價(jià)粒為:{x4,x11,x14},{x9,x12},{x2,x10},{x3,x8,x13,x16},{x2,x10},{x3,x8,x13,x16},{x1,x15,x20};
只包含類別2的等價(jià)粒定義為負(fù)等價(jià)粒,劃分結(jié)束后,負(fù)等價(jià)粒為:{x6,x18},{x5,x19},{x7,x17}。
具體計(jì)算過程此處不再贅述,按照此方法,確定數(shù)據(jù)集的正等價(jià)粒、不確定等價(jià)粒、負(fù)等價(jià)粒。
三支等價(jià)粒劃分后,對(duì)各負(fù)等價(jià)粒分別采用馬氏距離計(jì)算并查找待合并樣本;對(duì)不確定等價(jià)粒合并后使用SMOTE算法進(jìn)行過采樣。經(jīng)仿真實(shí)驗(yàn),合并不確定等價(jià)粒統(tǒng)一進(jìn)行過采樣,能夠提升運(yùn)算效率,節(jié)省計(jì)算時(shí)間,因此本文采用合并的方法對(duì)不確定等價(jià)粒進(jìn)行計(jì)算。
基于Python編程實(shí)現(xiàn)算法仿真。系統(tǒng)環(huán)境如下:
硬件環(huán)境:CPU:i3-2348M;RAM:8 GB;
軟件環(huán)境:操作系統(tǒng):Windows 10專業(yè)版;解釋器:Python 3.7。
該算法(3EG-HS)使用KEEL不平衡數(shù)據(jù)庫中的20組數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),數(shù)據(jù)集基本信息如表2所示,其中“不平衡比”表示數(shù)據(jù)集中多數(shù)類樣本與少數(shù)類樣本的數(shù)量比值。
仿真過程中,該算法(3EG-HS)分別與ENN、ADASYN[18]、SMOTE[19]、SMOTE+ENN、SMOTE+TL[20]五種采樣算法進(jìn)行對(duì)比實(shí)驗(yàn),選擇CART、ELM和SVM作為模型的基分類器,驗(yàn)證模型的分類性能,以G-mean、F-measure1計(jì)算模型的最終得分。
表2 數(shù)據(jù)集基本信息
原始數(shù)據(jù)集按照80%訓(xùn)練集,20%測(cè)試集的比例劃分,采用五折交叉驗(yàn)證的方式計(jì)算分類模型的標(biāo)準(zhǔn)差驗(yàn)證模型的穩(wěn)定性,算法標(biāo)準(zhǔn)差越低,模型穩(wěn)定性越好,反之,穩(wěn)定性差。各模型的G-mean值如表3所示,最優(yōu)結(jié)果均以加粗的形式在表格中標(biāo)出。
根據(jù)表3中各模型的G-mean值結(jié)果可以看出,該混合采樣算法(3EG-HS)在大部分?jǐn)?shù)據(jù)集上具有明顯的分類優(yōu)勢(shì),其中在abalone19、ecoli2、ecoli3、new-thyroid1、newthyroid2、pima、yeast3、yeast6八個(gè)數(shù)據(jù)類SVM具有更優(yōu)秀的分類性能;在ecoli1、glass0、haberman、page-blocks0、segment0、vehicle2六個(gè)數(shù)據(jù)集上CART決策樹分類精度提升明顯;在glass1上ELM的分類性能優(yōu)于其他分類模型,在其他數(shù)據(jù)集上,ELM的分類性能欠佳,不能有效地識(shí)別少數(shù)類樣本。ELM是單隱層前饋神經(jīng)網(wǎng)絡(luò),在訓(xùn)練過程中需要隨機(jī)給定參數(shù),每次訓(xùn)練都會(huì)產(chǎn)生不同的訓(xùn)練結(jié)果,因此,在選擇ELM作為基分類器時(shí),更重要的是優(yōu)化模型參數(shù)。
在magic04、vehicle1、vehicle3、yeast1、yeast4五個(gè)數(shù)據(jù)集上,3EG-HS的分類性能低于其他分類模型,由于采樣前需要將數(shù)據(jù)進(jìn)行歸一化和離散化處理,歸一化方法及離散化取值范圍對(duì)采樣結(jié)果影響較大。離散化取值范圍的大小與?;^程中粒的粗細(xì)息息相關(guān),當(dāng)取值范圍較細(xì)時(shí),粒化形成的等價(jià)粒更細(xì),反之,?;纬傻牡葍r(jià)粒較粗。
表3 分類模型的G-mean值
圖2表示分類模型在不同數(shù)據(jù)集上G-mean值的均值,分析圖中數(shù)據(jù)可以得出,選擇過采樣或混合采樣技術(shù)處理不平衡數(shù)據(jù)時(shí),訓(xùn)練集中少數(shù)類樣本與多數(shù)類樣本數(shù)量差距不大,SVM的分類性能優(yōu)于CART和ELM;選擇欠采樣處理數(shù)據(jù)集時(shí),CART表現(xiàn)出更加優(yōu)秀的分類性能。因此,當(dāng)選擇混合采樣或過采樣技術(shù)對(duì)不平衡數(shù)據(jù)預(yù)處理時(shí),可以優(yōu)先考慮選擇SVM作為基分類器,當(dāng)選擇欠采樣技術(shù)處理不平衡數(shù)據(jù)時(shí),建議優(yōu)先考慮決策樹,如CART、ID3等決策樹。
在不平衡數(shù)據(jù)分類過程中,不僅需要考慮分類精度,也需要考慮模型的穩(wěn)定性,采用標(biāo)準(zhǔn)差衡量模型穩(wěn)定性,分類模型在各數(shù)據(jù)集上分類標(biāo)準(zhǔn)差的均值如圖3所示。
圖2 各模型G-mean值均值Fig.2 Mean G-mean value of each model
圖3 分類模型G-mean值的標(biāo)準(zhǔn)差均值Fig.3 Means of standard deviation of G-mean values of classification models
分析圖3中各分類模型G-mean值的標(biāo)準(zhǔn)差均值可以看出,在所有采樣算法框架下,ELM的標(biāo)準(zhǔn)差均值最高,SVM次之,CART的標(biāo)準(zhǔn)差均值最低,因此,CART的穩(wěn)定性優(yōu)于其他兩種分類算法。在3EG-HS混合采樣框架下,CART決策樹的穩(wěn)定性優(yōu)于其他兩種混合采樣算法。因此,就穩(wěn)定性而言,CART更具有競爭力。
分析F-measure1值的公式的計(jì)算過程可以得出,F-measure1綜合了P和R的評(píng)價(jià)結(jié)果,當(dāng)F-measure1較高時(shí),則分類算法的性能越好,當(dāng)數(shù)據(jù)較大時(shí),查準(zhǔn)率和召回率卻是互相制約的兩個(gè)評(píng)價(jià)指標(biāo),并不能同時(shí)得到最優(yōu)結(jié)果,因此,在不平衡數(shù)據(jù)處理過程中,不能單獨(dú)使用查準(zhǔn)率或查全率評(píng)價(jià)模型的分類性能,需要綜合分析模型的分類性能。
表4 分類模型的F-measure1值
分析表4中各分類模型的F-measure1可以看出,3EG-HS在大部分?jǐn)?shù)據(jù)集上性能提升明顯,僅僅在haberman、page-blocks0、segment0、vehicle1、vehicle2、vehicle3、yeast1、yeast3、yeast6九個(gè)數(shù)據(jù)集上F-measure1值小于其他分類模型。由于該算法(3EG-HS)在離散過程中存在主觀因素的影響,離散化取值范圍的選擇上不能準(zhǔn)確地選擇最適宜的離散區(qū)間,因此,在采樣過程中,對(duì)模型的分類性能影響較大。
從圖4中可以看出,各模型的F-measure1值相差并不大,分析結(jié)果可以看出,SVM的F-measure1值大于CART和ELM,而ELM的F-measure1值最低。因此,當(dāng)采用F-measure1作為評(píng)價(jià)標(biāo)準(zhǔn),且需要更高的F-measure1時(shí),建議優(yōu)先選擇SVM作為基分類器,而采樣方法并沒有明顯的差異性,對(duì)于3EG-HS混合采樣方法優(yōu)化歸一化方法和離散化區(qū)間有利于提高模型的分類性能。
圖5中展示了在不同采樣框架下F-measure1值標(biāo)準(zhǔn)差的平均值,ADASYN和ENN的總體標(biāo)準(zhǔn)差均值優(yōu)于其他分類模型,而在混合采樣模型中,CART的穩(wěn)定性優(yōu)于其他兩種混合采樣模型,而SVM和ELM的穩(wěn)定性仍然屬于次優(yōu)。
由圖6可以看出,3EG-HS算法在運(yùn)算時(shí)間上略低于SMOTE算法,其主要原因是在過采樣的同時(shí)還需要對(duì)數(shù)據(jù)集進(jìn)行欠采樣,造成該算法的訓(xùn)練時(shí)間略長于SMOTE算法。SMOTE+ENN和SMOTE+TL兩種混合采樣算法均是先對(duì)數(shù)據(jù)集進(jìn)行過采樣,然后使用ENN和TL算法剔除邊界域中的樣本,而3EG-HS混合采樣算法是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,將不同的數(shù)據(jù)分別進(jìn)行欠采樣和過采樣,因此,該算法與SOMTE+ENN和SMOTE+TL兩種混合采樣算法相比,運(yùn)算時(shí)間明顯縮短。
圖4 分類模型的F-measure1值均值Fig.4 Mean F-measure1 values of the classification models
圖5 分類模型F-measure1值標(biāo)準(zhǔn)差均值Fig.5 Mean values of standard deviation of F-measure1 values of classification models
圖6 分類模型運(yùn)行時(shí)間均值Fig.6 Mean running time of classification models
混合采樣算法是處理不平衡數(shù)據(jù)的常用方法,傳統(tǒng)的混合采樣方法采用串聯(lián)的方式處理訓(xùn)練集,容易造成模型分類精度偏低,計(jì)算時(shí)間過長的問題。本文提出的混合采樣算法,以三支決策為理論依據(jù),使用二元關(guān)系將數(shù)據(jù)集劃分為正等價(jià)粒、不確定等價(jià)粒和負(fù)等價(jià)粒,對(duì)不同等價(jià)粒上的數(shù)據(jù)采用不同的采樣方法。實(shí)驗(yàn)結(jié)果表明,該算法與較新的采樣算法相比,大部分?jǐn)?shù)據(jù)集上,分類精度提升效果明顯,大幅縮短了模型的運(yùn)算時(shí)間,為不平衡數(shù)據(jù)采樣算法的研究提供了新的思路。