陳俊豐,鄭中團(tuán)
上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計(jì)學(xué)院,上海 201620
不平衡數(shù)據(jù)分類問題目前已成為機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的研究熱點(diǎn)之一。現(xiàn)實(shí)世界中大多數(shù)數(shù)據(jù)是不平衡的,即多數(shù)類樣本個(gè)數(shù)顯著大于少數(shù)類樣本個(gè)數(shù),由于傳統(tǒng)的機(jī)器學(xué)習(xí)方法僅適用于樣本數(shù)量均衡的數(shù)據(jù)集上,因此不平衡數(shù)據(jù)無法適用。在醫(yī)療診斷[1]、信用欺詐[2]等領(lǐng)域,數(shù)據(jù)集往往是不平衡的,人們關(guān)注的多是少數(shù)類樣本,將少數(shù)類樣本錯(cuò)誤分類為多數(shù)類樣本可能會(huì)帶來嚴(yán)重的后果,因此,提高少數(shù)類樣本分類的準(zhǔn)確率是現(xiàn)今的研究熱點(diǎn)之一。
目前,解決不平衡數(shù)據(jù)分類問題的方法大致有兩類,一類是基于數(shù)據(jù)層面的方法,另一類是基于算法層面的方法。隨機(jī)欠采樣(Random Under-sampling)[3]和隨機(jī)過采樣(Random Over-sampling)[3]是兩種最簡單的處理不平衡數(shù)據(jù)的方法[3]。但是,隨機(jī)欠采樣和隨機(jī)過采樣面臨著可能剔除樣本內(nèi)重要信息和過擬合的問題,因此不同學(xué)者提出了不同的采樣方法[4-7]。其中,最為經(jīng)典且常用的方法是SMOTE[4](Synthetic Minority Oversampling Technique)方法。該方法通過對(duì)少數(shù)類樣本進(jìn)行插值生成新的樣本,但該方法選擇所有少數(shù)類樣本來生成新樣本,存在著一定的盲目性?;谒惴▽用娴姆椒ㄖ饕ㄟ^改進(jìn)傳統(tǒng)分類算法,使其能夠應(yīng)用在不平衡數(shù)據(jù)集上,常見方法包括集成學(xué)習(xí)[8-10]和代價(jià)敏感學(xué)習(xí)[11]。
聚類算法是一種無監(jiān)督的分類算法,其中K均值算法[12](K-means)是一種最為簡單而又常見的聚類算法。傳統(tǒng)的K-means算法在聚類的過程中平等對(duì)待所有的特征,然而在現(xiàn)實(shí)生活中,不同特征對(duì)不同數(shù)據(jù)集的聚類效果影響不同,因此不同學(xué)者針對(duì)該問題提出了不同的特征加權(quán)方法[13-14]以處理特征對(duì)最終聚類結(jié)果的影響。
聚類融合[15-17]是一種較為新穎的技術(shù),通過對(duì)樣本數(shù)據(jù)進(jìn)行多次聚類,然后對(duì)這些聚類結(jié)果采用共識(shí)函數(shù)進(jìn)行合并。與傳統(tǒng)的聚類算法相比,聚類融合方法因?yàn)檫M(jìn)行多次聚類,在一定程度上提高了聚類效果?!熬垲愐恢滦韵禂?shù)”(Clustering consistency index)[18]表示樣本被分配到某簇的最多的次數(shù)與聚類次數(shù)的比值,反映了樣本的穩(wěn)定程度。本文將其運(yùn)用在聚類融合方法上,當(dāng)樣本數(shù)據(jù)頻繁更換其所在的簇時(shí),聚類一致性系數(shù)較低,認(rèn)為該樣本數(shù)據(jù)是不穩(wěn)定的,相反,多次聚類之后,樣本數(shù)據(jù)基本不改變其所在的簇,則聚類一致性較高,認(rèn)為該樣本數(shù)據(jù)是穩(wěn)定的。觀察發(fā)現(xiàn),聚類一致性較低的樣本數(shù)據(jù)往往處于簇的邊界區(qū)域,聚類一致性較高的樣本數(shù)據(jù)往往處于簇的中心區(qū)域。處于簇邊界的樣本數(shù)據(jù)往往更容易被誤分類,因此在分類器學(xué)習(xí)時(shí)應(yīng)盡可能多學(xué)習(xí)簇邊界的樣本數(shù)據(jù),從而更有效提升分類器的分類準(zhǔn)確度。
針對(duì)不平衡數(shù)據(jù)分類問題,本文主要在數(shù)據(jù)層面,提出一種基于特征加權(quán)與聚類融合結(jié)合的改進(jìn)算法Weightd Kmeans-SMOTE(WKMeans-SMOTE)方法,并在UCI數(shù)據(jù)集上與其他算法進(jìn)行對(duì)比實(shí)驗(yàn)分析。
SMOTE方法在選擇少數(shù)類樣本合成新樣本時(shí),考慮了所有的少數(shù)類樣本,這樣會(huì)帶來很多問題,因此本文使用改進(jìn)的K均值算法WKMeans并結(jié)合聚類一致性系數(shù)找到處于簇邊界的少數(shù)類樣本,并對(duì)它們進(jìn)行SMOTE過采樣,對(duì)新的樣本數(shù)據(jù)集使用CART決策樹分類器進(jìn)行訓(xùn)練。
訓(xùn)練數(shù)據(jù)集S={(x1,y1),(x2,y2),…,(xn,yn)},其中n為訓(xùn)練集中樣本的總數(shù),樣本xi∈Xd,i=1,2,…,n,yi∈{0,1},yi=1表示樣本i為少數(shù)類樣本,yi=0表示樣本i為多數(shù)類樣本。
傳統(tǒng)的K-means算法雖然能高效地對(duì)大規(guī)模數(shù)據(jù)進(jìn)行聚類,但是無法區(qū)別不同特征屬性在聚類過程中的重要性。Huang等人提出了一種自動(dòng)特征加權(quán)的方法WK-means[13],該方法加入權(quán)重因子ωβ j并通過迭代方法為不同的特征計(jì)算一個(gè)權(quán)重值,權(quán)重值越大表明該特征對(duì)最后的聚類結(jié)果越重要,且根據(jù)權(quán)重值可以識(shí)別出無關(guān)緊要的變量,刪除這些變量可以改善聚類結(jié)果。WK-means算法目標(biāo)函數(shù)為:
在式(1)中,U表示一個(gè)n×k的分配矩陣,ui,l表示樣本i分配在簇l中;Z={Z1,Z2,…,Zk}表示k個(gè)簇中心向量;W表示權(quán)重矩陣;d(xi,j,zl,j)表示樣本i和第l個(gè)簇中心向量在第j個(gè)特征屬性上的距離度量或差異性度量,當(dāng)該屬性是連續(xù)型變量時(shí):
詳細(xì)的計(jì)算過程與算法步驟可參考文獻(xiàn)[13]。
在機(jī)器學(xué)習(xí)領(lǐng)域,聚類算法方法眾多,但不同場景所使用的聚類方法往往不同,因此使用不同的聚類算法,得到的聚類結(jié)果也不同。聚類融合方法的思想就是通過選擇不同的聚類方法、相同聚類方法不同初始值設(shè)置、選擇不同特征子集等方法進(jìn)行聚類獲得多個(gè)聚類結(jié)果,并通過共識(shí)函數(shù)將它們進(jìn)行合并得到最終的聚類結(jié)果。
文獻(xiàn)[19]首先選擇特征子空間,然后再利用K-means算法在子空間中進(jìn)行聚類,通過改變初始簇中心的方法生成不同的聚類結(jié)果。本文在其基礎(chǔ)上,對(duì)K-means算法進(jìn)行改進(jìn),考慮了不同特征權(quán)重對(duì)聚類的影響,使用WKMeans進(jìn)行聚類,并通過改變初始簇中心的方法生成不同的聚類結(jié)果。
聚類分析中,選擇的初始簇中心不同,所產(chǎn)生的聚類結(jié)果也往往存在差異性,且不同聚類結(jié)果所賦的簇往往也不相同。例如,在兩個(gè)不同的聚類結(jié)果中,6個(gè)樣本數(shù)據(jù)所對(duì)應(yīng)的簇標(biāo)記分別為{1,1,2,3,2,3}和{2,2,3,1,3,1},顯然它們的簇標(biāo)記不同,但是事實(shí)上這兩個(gè)聚類結(jié)果產(chǎn)生的簇是完全相同的。
Zhou等人[20]和Fred[15]提出了不同的簇標(biāo)記匹配方法。本文在它們基礎(chǔ)上,先將簇(第i個(gè)聚類結(jié)果的第j個(gè)簇)轉(zhuǎn)化為指示向量(有n個(gè)分量),當(dāng)其某個(gè)分量值為1表示該樣本數(shù)據(jù)屬于簇j,若為0,則不屬于j,然后使用Jaccard系數(shù)比較不同聚類結(jié)果中簇的相似性與差異度。具體算法如下所示:
簇標(biāo)記匹配算法MCA(Matching Clusters Algorithm)
輸入:聚類結(jié)果πa,πb(以πa為參考劃分)
輸出:簇標(biāo)記匹配后的聚類結(jié)果
初始化矩陣J[ka][kb],ka、kb分別表示兩個(gè)聚類結(jié)果中簇的個(gè)數(shù),本文聚類使用相同的聚類次數(shù)k,J[i][j]表示πa、πb中Cai和Cbj的相似程度。
步驟1將簇Cai和Cbj分別轉(zhuǎn)化為指示向量Xai和Xbj;
步驟2fori=1 tok,j=1 tok,計(jì)算:
步驟3進(jìn)行k次循環(huán):
刪除矩陣J的第p行和第q列;
輸出簇標(biāo)記匹配后的聚類結(jié)果πb。
“聚類一致性系數(shù)”[18]表示樣本被分配到某簇的最多的次數(shù)與聚類次數(shù)的比值,該系數(shù)反映了樣本在多次聚類結(jié)果中的穩(wěn)定程度。當(dāng)樣本在簇邊界的時(shí)候,該樣本會(huì)不穩(wěn)定地在不同簇中波動(dòng),此時(shí)“聚類一致性系數(shù)”往往比較小,當(dāng)樣本在簇內(nèi)部的時(shí)候,樣本會(huì)非常穩(wěn)定地被分配到相同簇中,此時(shí)“聚類一致性系數(shù)”接近于1。聚類一致性系數(shù)的定義如下所示:
式中,h表示聚類次數(shù);πt(xi)表示樣本xi在第t次聚類結(jié)果中的簇標(biāo)簽;C表示簇標(biāo)簽的可能值;δ為比較函數(shù),兩參數(shù)相等時(shí)返回1,不等時(shí)返回0。本文計(jì)算每個(gè)少數(shù)類樣本的聚類一致性系數(shù),當(dāng)其小于某個(gè)設(shè)定的閾值時(shí),則認(rèn)為該少數(shù)類樣本不穩(wěn)定,對(duì)其進(jìn)行SMOTE過采樣。
詳細(xì)的WKMeans-SMOTE算法如下所示:
輸入:訓(xùn)練數(shù)據(jù)集S,上采樣倍數(shù)n,聚類次數(shù)h,聚類簇?cái)?shù)k,閾值α
輸出:分類模型H
步驟1對(duì)訓(xùn)練數(shù)據(jù)集S隨機(jī)選擇k個(gè)初始簇中心,使用WKMeans聚類方法進(jìn)行聚類;
步驟2改變步驟1中的初始簇中心,共計(jì)算出h個(gè)聚類結(jié)果;
步驟3使用簇標(biāo)記匹配方法,對(duì)不同聚類結(jié)果進(jìn)行匹配,得到新的h個(gè)聚類結(jié)果;
步驟4計(jì)算每個(gè)少數(shù)類樣本的聚類一致性系數(shù)CI(xi);
步驟5將CI(xi)小于α的少數(shù)類樣本加入到集合Smin中;
步驟6根據(jù)上采樣倍數(shù)n,對(duì)訓(xùn)練數(shù)據(jù)集S中的樣本進(jìn)行SMOTE,此處僅選擇Smin中的少數(shù)類樣本來合成新的樣本,并加入到集合Snew中;
步驟7將集合Snew加入到原數(shù)據(jù)S中得到新的訓(xùn)練數(shù)據(jù)集S,使用傳統(tǒng)的分類學(xué)習(xí)器CART進(jìn)行學(xué)習(xí),得到最終的分類模型H。
對(duì)學(xué)習(xí)器泛化性能進(jìn)行評(píng)估需要有衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn),不同的模型往往使用不同的評(píng)價(jià)指標(biāo)。傳統(tǒng)的分類模型中,通常使用分類準(zhǔn)確性,即正確分類個(gè)數(shù)占總個(gè)數(shù)的百分比作為評(píng)價(jià)指標(biāo),但該指標(biāo)因未考慮少數(shù)類樣本錯(cuò)分與多數(shù)類樣本錯(cuò)分代價(jià)不同,因此該指標(biāo)評(píng)價(jià)不平衡數(shù)據(jù)分類的效果是不合理的。針對(duì)不平衡數(shù)據(jù),學(xué)者們提出了不同的評(píng)價(jià)指標(biāo),如Fvalue[6],G-mean[21],這些指標(biāo)都建立在混淆矩陣的基礎(chǔ)上(見表1)。
表1 二分類的混淆矩陣Table 1 Confusion matrix for two-class problem
根據(jù)表1,可計(jì)算如下指標(biāo):
F-value是衡量不平衡數(shù)據(jù)分類問題的評(píng)價(jià)指標(biāo)之一,該指標(biāo)是precision和recall的權(quán)重平均,其定義如下:
從上式可以看出,只有當(dāng)precision和recall都比較大時(shí),F(xiàn)-value才會(huì)比較大,因此它能有效衡量不平衡數(shù)據(jù)分類的效果。其中β表示precision和recall的相對(duì)重要性,實(shí)驗(yàn)中,β常設(shè)置為1。
G-mean表示不平衡數(shù)據(jù)集中少數(shù)類樣本和多數(shù)類樣本分類精度的幾何均值,其定義如下:
G-mean值只有當(dāng)少數(shù)類樣本分類精度和多數(shù)類樣本分類精度都比較大時(shí),才能比較大,因此常作為衡量數(shù)據(jù)集整體分類性能的評(píng)價(jià)指標(biāo)。
為評(píng)價(jià)WKMeans+SMOTE方法的有效性,本文從UCI公開數(shù)據(jù)庫中選取了8組數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集信息如表2所示。文獻(xiàn)[22]中提出,數(shù)據(jù)集的不平衡程度對(duì)分類效果也有差異,一般少數(shù)類樣本與多數(shù)類樣本之比小于1∶2時(shí),認(rèn)為數(shù)據(jù)集為非平衡,本文選取低不平衡率(0.073 9)到高不平衡率(0.475 6)的數(shù)據(jù)進(jìn)行實(shí)證分析。所用的數(shù)據(jù)樣本范圍為214~1 967,對(duì)于含有多類別的數(shù)據(jù)集,人為進(jìn)行重構(gòu),同時(shí)為了后文進(jìn)行聚類影響的評(píng)價(jià),部分?jǐn)?shù)據(jù)集重構(gòu)時(shí)選擇其中四類作為多數(shù)類樣本,一類作為少數(shù)類樣本,并依據(jù)呈現(xiàn)不同不平衡率的原則選取少數(shù)類與多數(shù)類樣本。表2中,Nsample代表樣本總數(shù),Nmin代表少數(shù)類樣本個(gè)數(shù),Nmaj代表多數(shù)類樣本個(gè)數(shù),IR代表不平衡率,Nattr代表特征屬性個(gè)數(shù)(不包含類別屬性)。部分?jǐn)?shù)據(jù)集進(jìn)行如下操作:Abalone數(shù)據(jù)集中將離散屬性Sex予以剔除,Abalone-1為類18(少數(shù)類)vs類8(多數(shù)類),Abalone-2為類7vs類5,6,11,15,Abalone-3為類10vs類5,6,7,8;數(shù)據(jù)集Glass中將headlamps作為少數(shù)類別,其他類作為多數(shù)類別;Ecoli數(shù)據(jù)集剔除固定值屬性“chg”,Ecoli-1為類imUvs類cp、im、om和pp;Ecoli-2為類ppvs類cp、im、imU和om。
表2 數(shù)據(jù)集的基本信息Table 2 Information of data sets
表3 7種方法在8個(gè)UCI數(shù)據(jù)集上的F-value值對(duì)比Table 3 Comparision of F-value between 7 methods on 8 UCI data sets
實(shí)驗(yàn)中將傳統(tǒng)的分類方法(即直接對(duì)原始數(shù)據(jù)進(jìn)行分類學(xué)習(xí))和6種針對(duì)不平衡數(shù)據(jù)集的分類方法的性能進(jìn)行對(duì)比,其中6種算法分別為KMeans-SMOTE、WKMeans-SMOTE、SMOTE、RUS、Borderline-SMOTE和ADASYN,上述方法都使用相同CART決策樹進(jìn)行學(xué)習(xí)。為了客觀對(duì)比各個(gè)方法,本文采用分層劃分來保持訓(xùn)練集和測試集的不平衡始終一致,并使用10次10折交叉驗(yàn)證方法得到最終的實(shí)驗(yàn)結(jié)果。
本次實(shí)驗(yàn)采用Python3.7進(jìn)行仿真。實(shí)驗(yàn)中,聚類次數(shù)h設(shè)置為10,KMeans和WKMeans方法中的聚類簇?cái)?shù)設(shè)置為5,閾值α設(shè)置為0.75,WKMeans算法中權(quán)重系數(shù)中的β設(shè)置為10,SMOTE方法中的近鄰樣本個(gè)數(shù)設(shè)置為5,上采樣倍數(shù)n設(shè)置為1,即通過SMOTE方法生成的少數(shù)類樣本個(gè)數(shù)與原本少數(shù)類樣本個(gè)數(shù)相同,RUS的欠抽樣率為100%,即隨機(jī)刪除多數(shù)類樣本中一半的樣本。表3、4分別給出7種方法在8個(gè)數(shù)據(jù)集上的F-value和G-mean,最后一行給出了所有數(shù)據(jù)集在每種方法上的平均值,且每一行的最大值用下劃線及加粗形式表示。
由表3和表4可知,本文比較的7種方法中,WKMeans+SMOTE+CART算法對(duì)少數(shù)類的識(shí)別準(zhǔn)確率F-value和數(shù)據(jù)集整體的識(shí)別準(zhǔn)確率G-mean都普遍優(yōu)于其他6種方法,這是因?yàn)樵摲椒ㄍㄟ^引入聚類一致性系數(shù)來篩選出處于簇邊界區(qū)域的少數(shù)類樣本并合成新的樣本。
為進(jìn)一步分析特征權(quán)重對(duì)不平衡數(shù)據(jù)樣本聚類和分類的影響,選取含有原始簇標(biāo)簽的數(shù)據(jù)集Ecoli-1、2和Abalone-2、3,計(jì)算其在KMeans聚類和WKMeans聚類下的聚類外部指標(biāo):準(zhǔn)確率Accuracy(Acc)和調(diào)整蘭德系數(shù)Adjust Rand Index(ARI)。從表5可以看出,基于特征加權(quán)的KMeans算法相比于傳統(tǒng)的KMeans算法,在Acc和ARI指標(biāo)上都有顯著的提升,且數(shù)據(jù)集的F-value分別提升了2.29%、4.23%、1.78%、2.22%,G-mean分別提升了4.72%、6.70%、1.86%、2.33%,數(shù)據(jù)集F-value平均提高了2.11%,G-mean平均提高了3.90%。這說明考慮特征加權(quán)的聚類算法在對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)獲得了更好的聚類結(jié)果,這使得挑選出來的處于簇邊界的少數(shù)類樣本更佳,且含有更多有用信息,進(jìn)而能合成更有利于分類器學(xué)習(xí)的樣本,提高不平衡數(shù)據(jù)集的分類準(zhǔn)確性。
表4 7種方法在8個(gè)UCI數(shù)據(jù)集上的G-mean值對(duì)比Table 4 Comparision of G-mean between 7 methods on 8 UCI data sets
表5 Ecoli-1、2和Abalone-2、3聚類評(píng)價(jià)指標(biāo)(Acc、ARI)Table 5 Acc and ARI of Ecoli-1,2 and Abalone-2,3
圖1是7種方法在各數(shù)據(jù)集上F-value和G-mean的平均性能??梢钥闯?,除了直接對(duì)原始數(shù)據(jù)集進(jìn)行CART分類得到的F-value和G-mean之外,RUS+CART方法所得到的F-value和G-mean都比較小,這是由于隨機(jī)欠采樣方法只是從多數(shù)類樣本中隨機(jī)地剔除一部分少數(shù)類樣本,而這一部分樣本可能包含重要信息,致使學(xué)習(xí)出來的模型效果較差。同時(shí),使用聚類融合思想的KMeans+SMOTE+CART和WKMeans+SMOTE+CART算法在模型性能上普遍優(yōu)于SMOTE、Borderlin-SMOTE、RUS、ADASYN等采樣方法,這是因?yàn)檫@兩個(gè)方法在合成少數(shù)類樣本時(shí),都選擇了處于簇邊界區(qū)域的少數(shù)類樣本進(jìn)行過采樣,使得新合成的樣本含有更多有用信息,提升了分類性能。
圖1 7種方法在8組數(shù)據(jù)集上的分類性能Fig.1 Classification performance of 7 methods on 8 data sets
在聚類的過程中,WKMeans方法為每一個(gè)特征計(jì)算出一個(gè)權(quán)重,代表對(duì)聚類結(jié)果的影響,權(quán)重值越大,說明該特征對(duì)最后的聚類結(jié)果影響越大。以Glass和Ecoli-2數(shù)據(jù)集為例,其最終迭代所得的特征權(quán)重值如表6、7所示。從表6可以看出,在Glass數(shù)據(jù)集中,特征1的權(quán)重值最大,達(dá)到了0.284 7,因此認(rèn)為該特征對(duì)最后聚類結(jié)果的影響最大,同時(shí)相比于傳統(tǒng)KMeans+SMOTE+CART算法,WKMeans+SMOTE+CART算法所得的Fvalue值和G-Mean分別提升了0.35%和1.52%,說明基于特征加權(quán)的聚類結(jié)果對(duì)最后模型的分類效果優(yōu)于傳統(tǒng)聚類方法所得結(jié)果。在Ecoli-2數(shù)據(jù)集中,特征3的特征值最大,達(dá)到了0.268 8,F(xiàn)-value值和G-Mean相比于傳統(tǒng)KMeans方法所得結(jié)果,分別提升了4.23%和6.70%,再一次印證加入特征加權(quán)的聚類方法對(duì)最終分類效果具有提升效果。
表6 Glass數(shù)據(jù)集最終特征權(quán)重值Table 6 Final feature weight value of Glass data set
表7 Ecoli-2數(shù)據(jù)集最終特征權(quán)重值Table 7 Final feature weight value of Ecoli-2 data set
由于WKMmeans+SMOTE+CART算法與聚類次數(shù)h的大小有關(guān),因此本文在保持其他條件不變的情況下,對(duì)比聚類次數(shù)從5到35,以步長為5遞增時(shí),少數(shù)類分類正確率指標(biāo)F-value的變化情況。由圖2可知,不同聚類次數(shù)下,8個(gè)數(shù)據(jù)集都有較高的F-value值,F(xiàn)-value值對(duì)聚類次數(shù)并不敏感。
圖2 聚類次數(shù)對(duì)數(shù)據(jù)集少數(shù)類樣本F-value的影響Fig.2 Impact of clustering times on F-value of minority samples
Ecoli-2是典型的不平衡數(shù)據(jù)集,且由于其在加入特征加權(quán)思想的聚類算法中所得的兩個(gè)性能指標(biāo)都有一定比例的提升,因此選擇該數(shù)據(jù)集對(duì)算法中的一些關(guān)鍵參數(shù)進(jìn)行實(shí)驗(yàn)分析,包括上采樣倍數(shù)n,閾值α。
由圖3可知,在不同上采樣倍數(shù)下,WKMeans+SMOTE方法的少數(shù)類分類性能指標(biāo)F-value值都普遍高于其他方法,KMeans+SMOTE方法次之。SMOTE方法和ADASYN方法的F-value值都呈下降趨勢,分析原因,SMOTE方法和ADASYN方法在采樣時(shí),盲目地選擇了所有少數(shù)類樣本進(jìn)行過采樣,進(jìn)而影響分類性。本文方法和KMeans+SMOTE方法都選擇了處于簇邊界的少數(shù)類樣本進(jìn)行過采樣,包含更多有用的信息。
圖3 上采樣倍數(shù)對(duì)Ecoli-2少數(shù)類樣本F-value的影響Fig.3 Impact of over-sampling rates on F-value of minority samples on Ecoli-2 dataset
圖4給出了當(dāng)其他條件不變情況下,閾值從0.5以步長為0.05遞增到0.95時(shí),Ecoli-2數(shù)據(jù)集分類性能的變化情況。當(dāng)閾值較小時(shí),模型的分類性能較差,分析原因,這時(shí)有較多不屬于簇邊界的少數(shù)類樣本被誤分為簇邊界樣本,致使合成的少數(shù)類樣本質(zhì)量較差。隨著閾值的增加,分類性能逐步提升,這是因?yàn)榇藭r(shí)對(duì)邊界少數(shù)類樣本的篩選愈加嚴(yán)格,當(dāng)閾值處于0.6~0.7之間時(shí),效果十分明顯。而當(dāng)閾值過高時(shí),分類性能有所下降,原因可能是原本為簇邊界的樣本,由于其聚類一致性系數(shù)不夠大,導(dǎo)致其被忽略。
圖4 閾值對(duì)Ecoli-2數(shù)據(jù)集F-value和G-mean的影響Fig.4 Impact of threshold(consistency indices)on G-mean and F-value on Ecoli-2 dataset
針對(duì)不平衡數(shù)據(jù)問題,本文在Kmeans-SMOTE過采樣方法的基礎(chǔ)上,提出了一種特征加權(quán)聚類和聚類融合相結(jié)合的過采樣方法WKMeans-SMOTE。基于特征加權(quán)的WKMeans算法在Acc和ARI指標(biāo)上顯著高于KMeans算法,從而獲得了更好的聚類結(jié)果,這使得使用聚類一致性系數(shù)篩選出來的處于簇邊界的少數(shù)類樣本更佳,包含了更多有用信息。通過與傳統(tǒng)SMOTE等重采樣方法做實(shí)驗(yàn)對(duì)比,WKMeans-SMOTE方法在評(píng)價(jià)指標(biāo)G-mean和F-value上都有一定的提升,驗(yàn)證了該方法的有效性。然而,聚類融合過程中有著許多不同方法獲得聚類結(jié)果,基于K均值算法的聚類融合方法僅適用于球狀簇,因此如何更好利用聚類融合方法或其他方法以提升不平衡數(shù)據(jù)分類性能將是進(jìn)一步研究重點(diǎn)。