趙自翔,王廣亮,李曉東
(中山大學(xué)信息科學(xué)與技術(shù)學(xué)院∥智能傳感器網(wǎng)絡(luò)教育部重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510006)
在數(shù)據(jù)分類(lèi)問(wèn)題中,人們往往會(huì)遇到這種情況:在一個(gè)有兩個(gè)類(lèi)別數(shù)據(jù)的數(shù)據(jù)集中,一類(lèi)數(shù)據(jù)較多,而另一類(lèi)數(shù)據(jù)較少,我們把這種數(shù)據(jù)集稱為不平衡數(shù)據(jù)。傳統(tǒng)機(jī)器學(xué)習(xí)方法用于不平衡數(shù)據(jù)分類(lèi)時(shí),往往會(huì)產(chǎn)生很大的偏向性,即對(duì)較多的一類(lèi)數(shù)據(jù)(以下簡(jiǎn)稱多數(shù)類(lèi))有很高的識(shí)別率,對(duì)較少的一類(lèi)數(shù)據(jù)(以下簡(jiǎn)稱少數(shù)類(lèi))識(shí)別率卻很低。遺憾的是,在日常生活中,對(duì)人們有用的往往是比較少的那類(lèi)數(shù)據(jù)[1-2]。以檢測(cè)信用卡非法交易[3]為例,在信用卡的成千上萬(wàn)次使用記錄中,絕大部分是正常而合法的,只有極少數(shù)屬于非法交易。如果對(duì)合法記錄識(shí)別較好而對(duì)極少數(shù)的非法交易識(shí)別率低下,檢測(cè)過(guò)程將變得毫無(wú)意義。簡(jiǎn)單來(lái)說(shuō),當(dāng)把少數(shù)類(lèi)數(shù)據(jù)錯(cuò)分為多數(shù)類(lèi)的代價(jià)遠(yuǎn)遠(yuǎn)高于把多數(shù)類(lèi)錯(cuò)分為少數(shù)類(lèi)的代價(jià)時(shí),一些“偏愛(ài)”多數(shù)類(lèi)的傳統(tǒng)分類(lèi)方法就不再適用。
多年以來(lái),人們對(duì)不平衡數(shù)據(jù)分類(lèi)中“偏愛(ài)”多數(shù)類(lèi)問(wèn)題的產(chǎn)生原因進(jìn)行過(guò)一系列研究。Japkowicz等[4]認(rèn)為造成不平衡數(shù)據(jù)分類(lèi)問(wèn)題的因素有類(lèi)間不平衡程度(即類(lèi)間訓(xùn)練樣本數(shù)量的比值)、訓(xùn)練樣本規(guī)模和概念復(fù)雜度等,其中以類(lèi)間不平衡程度最為明顯。Prati等[5]則通過(guò)實(shí)驗(yàn)證明:即使在一些數(shù)量嚴(yán)重不平衡的數(shù)據(jù)中,只要類(lèi)重疊不嚴(yán)重,分類(lèi)器仍然具有良好效果,從而把類(lèi)重疊也作為引起不平衡數(shù)據(jù)分類(lèi)問(wèn)題的重要因素。在此基礎(chǔ)上,一系列針對(duì)不平衡數(shù)據(jù)分類(lèi)問(wèn)題的解決方案被人們提出[2],其中,欠采樣就是一種解決不平衡數(shù)據(jù)分類(lèi)問(wèn)題的有效方法。然而,常用的隨機(jī)欠采樣方法因其自身的特點(diǎn)導(dǎo)致分類(lèi)穩(wěn)定性較差。針對(duì)于此,本文將在討論欠采樣原理及不平衡數(shù)據(jù)分類(lèi)問(wèn)題評(píng)價(jià)標(biāo)準(zhǔn)的基礎(chǔ)上,提出一種改進(jìn)的欠采樣方法(FN欠采樣),并結(jié)合支持向量機(jī),通過(guò)實(shí)驗(yàn)仿真進(jìn)行對(duì)比研究。
支持向量機(jī) (Support Vector Machine) 由Cortes和Vapnik于1995年提出[6],它建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上,在小樣本,非線性,高維識(shí)別等方面表現(xiàn)出獨(dú)特的優(yōu)勢(shì),并在模式識(shí)別領(lǐng)域得到了廣泛應(yīng)用。
ξi
s.t.yi(w·xi+b)≥1-ξi,
ξi≥0,i=1,…,l
與其他分類(lèi)算法相比,支持向量機(jī)具有解決非線性問(wèn)題,高維度的獨(dú)特優(yōu)勢(shì),并且Japkowicz等[4]曾通過(guò)實(shí)驗(yàn)證明:在BP神經(jīng)網(wǎng)絡(luò)、C4.5決策樹(shù)算法[7]以及支持向量機(jī)中,不平衡數(shù)據(jù)對(duì)支持向量機(jī)帶來(lái)的影響是相對(duì)較小的,因此基于支持向量機(jī)解決不平衡數(shù)據(jù)分類(lèi)問(wèn)題,是一個(gè)切實(shí)可行的方向[8]。
傳統(tǒng)模式分類(lèi)問(wèn)題中,使用總準(zhǔn)確率作為衡量分類(lèi)器性能的主要指標(biāo),但在不平衡數(shù)據(jù)分類(lèi)問(wèn)題中,這不再適用。舉例而言,一組少數(shù)類(lèi)和多數(shù)類(lèi)數(shù)目分別為5和95的測(cè)試數(shù)據(jù),即使少數(shù)類(lèi)數(shù)據(jù)完全被分錯(cuò),也很容易達(dá)到90%以上的總準(zhǔn)確率,這顯然不夠合理。
在機(jī)器學(xué)習(xí)的二分類(lèi)問(wèn)題中,對(duì)于一個(gè)測(cè)試數(shù)據(jù),如果它被分類(lèi)器分為正類(lèi),而它實(shí)際上也是正類(lèi),我們稱之為正確正類(lèi),寫(xiě)為T(mén)P;如果它被分為正類(lèi),而實(shí)際上卻是負(fù)類(lèi),稱之為錯(cuò)誤正類(lèi),寫(xiě)為FP。與此類(lèi)似,可以定義正確負(fù)類(lèi)TN和錯(cuò)誤負(fù)類(lèi)FN,如表1所示:
表1 二分類(lèi)問(wèn)題中一次預(yù)測(cè)可能出現(xiàn)的四種結(jié)果
根據(jù)這些術(shù)語(yǔ),可以定義如下指標(biāo):
查準(zhǔn)率(擊中率) Precision = TP/(TP+FP)
查全率 Recall = TP/(TP+FN)
虛警率 FA = FP/(FP+TN)一種被廣泛使用的評(píng)價(jià)不平衡問(wèn)題的方法是ROC曲線[9]。ROC曲線以虛警率為X軸,以擊中率為Y軸,通過(guò)調(diào)整分類(lèi)器的決策閾值得到一條曲線。ROC曲線直觀明了,曲線整體越凸,越靠近左上方,表明分類(lèi)器性能越好。
數(shù)據(jù)重構(gòu)是解決數(shù)據(jù)不平衡問(wèn)題的一類(lèi)常用方法,通常分為過(guò)采樣和欠采樣兩類(lèi)。
過(guò)采樣的基本思想是針對(duì)二分類(lèi)問(wèn)題中的少數(shù)類(lèi),設(shè)法增加其樣本數(shù)。最基本的過(guò)采樣是隨機(jī)過(guò)采樣,即隨機(jī)選取原少數(shù)類(lèi)中的樣本,復(fù)制并加入到訓(xùn)練集中。
欠采樣的基本思想跟過(guò)采樣相反,它針對(duì)二分類(lèi)中的多數(shù)類(lèi),人為減少其樣本數(shù),從而使訓(xùn)練集數(shù)量平衡。隨機(jī)欠采樣是最簡(jiǎn)單的欠采樣方法,通過(guò)隨機(jī)舍棄多數(shù)類(lèi)中的一些樣本來(lái)達(dá)到數(shù)量平衡。
過(guò)采樣使樣本規(guī)模變大,增加了訓(xùn)練時(shí)間,且容易導(dǎo)致過(guò)擬合。欠采樣雖然在訓(xùn)練時(shí)間上有明顯縮短,但是在去掉多數(shù)類(lèi)樣本的過(guò)程中,可能會(huì)去除某些對(duì)分類(lèi)過(guò)程“有價(jià)值”的點(diǎn)。盡管如此,Drummond等[12]認(rèn)為,綜合而言,欠采樣在性能上優(yōu)于過(guò)采樣。
在模式分類(lèi)的有監(jiān)督學(xué)習(xí)中,訓(xùn)練分類(lèi)器的典型做法是,給定一個(gè)輸入,計(jì)算其輸出類(lèi)別,把它與實(shí)際類(lèi)別標(biāo)記做比較,并根據(jù)差異來(lái)改善分類(lèi)器性能。因此訓(xùn)練集樣本是影響分類(lèi)器性能的重要因素之一。一個(gè)良好的訓(xùn)練集應(yīng)該具備以下特點(diǎn):(i)不同類(lèi)別的樣本分布均衡;(ii)各樣本在特征空間中分布比較集中;(iii)每個(gè)類(lèi)別中的樣本,都能夠很好地代表該類(lèi)別的特點(diǎn)。針對(duì)特點(diǎn)(i),可以采用分層抽樣的方法,使不同類(lèi)別在訓(xùn)練集中保持原來(lái)的比例。特點(diǎn)(ii)涉及的是單個(gè)樣本的特征維數(shù),我們希望在容易提取、對(duì)噪聲不敏感,并對(duì)區(qū)分不同類(lèi)別很有效的基礎(chǔ)上,選取盡量少的特征來(lái)構(gòu)成樣本[13-14]。通常情況下,我們需要關(guān)注的是怎樣使訓(xùn)練集中的每一類(lèi)樣本都能夠盡量好地代表這一類(lèi)數(shù)據(jù)的特點(diǎn)。
如前所述,欠采樣與過(guò)采樣相比,有著數(shù)據(jù)量少,訓(xùn)練時(shí)間短的優(yōu)點(diǎn)。但欠采樣的缺點(diǎn)也同樣明顯,容易去掉訓(xùn)練集的多數(shù)類(lèi)樣本中有價(jià)值的樣本點(diǎn)。由于受偶然性的影響,在一次對(duì)訓(xùn)練集的多數(shù)類(lèi)隨機(jī)欠采樣的過(guò)程中,可能得到很好的效果,也可能得到非常不理想的“失真”訓(xùn)練集。以圖1的二維數(shù)據(jù)為例,圓點(diǎn)代表多數(shù)類(lèi),方點(diǎn)代表少數(shù)類(lèi)。圖1(A)為對(duì)原始不平衡訓(xùn)練集的分類(lèi)情況,分類(lèi)結(jié)果表現(xiàn)為“偏愛(ài)”多數(shù)類(lèi)。圖1(B)對(duì)多數(shù)類(lèi)數(shù)據(jù)進(jìn)行了一次隨機(jī)欠采樣,黑色點(diǎn)為參與訓(xùn)練的樣本點(diǎn)。雖然得到的兩類(lèi)數(shù)據(jù)數(shù)量相同,但過(guò)程中許多有價(jià)值的樣本被舍棄,留下來(lái)的樣本點(diǎn)體現(xiàn)的僅僅是原數(shù)據(jù)集極其有限的一部分特點(diǎn)。使用該訓(xùn)練集訓(xùn)練的分類(lèi)器,對(duì)訓(xùn)練集的分類(lèi)效果或許很好,對(duì)于其余數(shù)據(jù)的分類(lèi)效果卻會(huì)很差, 如圖1(B)所示。一個(gè)優(yōu)秀的訓(xùn)練集,應(yīng)該是能最大程度地表現(xiàn)原數(shù)據(jù)集特點(diǎn)的樣本集合。在使用隨機(jī)欠采樣方法選取訓(xùn)練集的過(guò)程中,這種“失真”情況的發(fā)生將會(huì)導(dǎo)致分類(lèi)器穩(wěn)定性降低。
圖1 一次隨機(jī)欠采樣和一次FN欠采樣結(jié)果比較
在統(tǒng)計(jì)學(xué)習(xí)中,正態(tài)分布是最普遍的分布情況。當(dāng)樣本的各個(gè)特征大多滿足這種分布特性時(shí),樣本將在特征空間中形成一個(gè)中部集中、邊緣稀疏的超幾何體形狀?;谠摾碚?,Tax等[15]提出了SVDD方法,利用緊致超球體對(duì)樣本分布進(jìn)行描述。以這種描述為基礎(chǔ),我們進(jìn)一步提出以下設(shè)想:在多數(shù)類(lèi)的特征空間中,假定各個(gè)樣本的分布是一個(gè)接近球體的凸幾何體。以圖1(A)的二維空間為例,可以把多數(shù)類(lèi)的分布看作一個(gè)接近橢圓的集群。在欠采樣過(guò)程中,當(dāng)保留的僅僅是集群中有限的某一個(gè)區(qū)域中的樣本點(diǎn)時(shí),將有大量的有價(jià)值點(diǎn)被舍棄;而如果能在集群的每一區(qū)域均保留一定量的樣本,則能夠防止“失真”的最壞情況發(fā)生。對(duì)于集群上某一區(qū)域樣本點(diǎn)來(lái)說(shuō),它們到一個(gè)定點(diǎn)的距離應(yīng)該是相差不大的。于是,為了在一次欠采樣過(guò)程中盡可能保持訓(xùn)練集中多數(shù)類(lèi)樣本原本的類(lèi)別特點(diǎn),我們采用如下方法:(規(guī)定實(shí)驗(yàn)中的少數(shù)類(lèi)為正類(lèi),多數(shù)類(lèi)為負(fù)類(lèi))先找到所有負(fù)類(lèi)樣本點(diǎn)的均值點(diǎn),如圖1(C)中的黑色圓點(diǎn)所示;計(jì)算所有負(fù)類(lèi)樣本到該均值點(diǎn)的距離,在距離相近的每個(gè)小區(qū)域中,保留一個(gè)點(diǎn)而去掉剩下的點(diǎn),并將保留下的所有負(fù)類(lèi)樣本點(diǎn)作為新的負(fù)類(lèi)樣本集和原有的正類(lèi)樣本集一起組成新訓(xùn)練集,如圖1(D)所示。由于在算法過(guò)程中我們采用從離均值點(diǎn)最遠(yuǎn)的點(diǎn)開(kāi)始舍棄樣本,我們把這種欠采樣方法稱為FN欠采樣方法(Furthest Neighbor based under-sampling)。下面給出算法的基本流程:
FN Under-sampling(TrainData,T)
1) 讀入 TrainData //讀入訓(xùn)練集
設(shè)置參數(shù) T //決定將訓(xùn)練集中的多數(shù)類(lèi)縮小的倍數(shù)
2) 找出 TrainData 中的正類(lèi)子集 -> P_TrainData
找出 TrainData 中的負(fù)類(lèi)子集 -> N_TrainData
//實(shí)驗(yàn)中我們將少數(shù)類(lèi)標(biāo)記為正類(lèi),多數(shù)類(lèi)為負(fù)類(lèi),多數(shù)類(lèi)集合為 N_TrainData
3) 得出 N_TrainData 中樣本的均值 -> MeanSample
4) 計(jì)算 N_TrainData 中每個(gè)樣本與 MeanSample 的距離,并將 N_TrainData 中各樣本按所得距離從大到小排序 -> N_TrainData_Sorted
5) 設(shè)置計(jì)數(shù)器timer=0,遍歷 N_TrainData_Sorted 中的樣本,每經(jīng)過(guò)一個(gè)樣本,timer加一,當(dāng)且僅當(dāng)timer為 T 的整數(shù)倍時(shí)保留當(dāng)下樣本,其余情況將當(dāng)下樣本從 N_TrainData_Sorted 中去掉。
//實(shí)質(zhì)上就是每輪去掉(T-1)個(gè)樣本之后,保留一個(gè),如此反復(fù)形成新的負(fù)類(lèi)子集
6) 將上一步完成后的 N_TrainData_Sorted 作為新的負(fù)類(lèi)子集,和正類(lèi)子集 P_TrainData 一起形成新的訓(xùn)練集,帶入支持向量機(jī)進(jìn)行訓(xùn)練。
我們采用以下7組UCI數(shù)據(jù)對(duì)相關(guān)算法進(jìn)行對(duì)比實(shí)驗(yàn)。
(i)Abalone數(shù)據(jù): 它是UCI數(shù)據(jù)庫(kù)中一組關(guān)于鮑魚(yú)年齡預(yù)測(cè)的數(shù)據(jù)集,每個(gè)樣本有8個(gè)特征,共有29個(gè)類(lèi)別,實(shí)驗(yàn)中選擇類(lèi)別“18”作為正類(lèi),其余統(tǒng)一作為負(fù)類(lèi)。
(ii) Ecoli數(shù)據(jù): 它是關(guān)于蛋白質(zhì)研究的數(shù)據(jù),共有8個(gè)類(lèi)別,每個(gè)樣本8維,其中類(lèi)別標(biāo)號(hào)“im”的樣本為正類(lèi),其余為負(fù)類(lèi)。
(iii) Glass數(shù)據(jù): 它有6個(gè)類(lèi)別,類(lèi)別“3”被選為正類(lèi),其余為負(fù)類(lèi),每個(gè)樣本10個(gè)特征。
(iv) Haberman數(shù)據(jù): 它是關(guān)于乳腺癌病人生存狀況的一組統(tǒng)計(jì)數(shù)據(jù),分兩類(lèi),其中取類(lèi)別“2”為正類(lèi),類(lèi)別“1”為負(fù)類(lèi).
(v) Page-blocks數(shù)據(jù): 它是典型的文本分類(lèi)數(shù)據(jù),共有5個(gè)類(lèi),類(lèi)別“5”為正類(lèi),其余作為負(fù)類(lèi),每一個(gè)樣本11個(gè)特征。
(vi) Transfusion數(shù)據(jù): 它有兩類(lèi)樣本,每個(gè)樣本5維,是一個(gè)關(guān)于血站維護(hù)的統(tǒng)計(jì)研究數(shù)據(jù),我們用類(lèi)別“1”做正類(lèi),類(lèi)別“2”為負(fù)類(lèi)。
(vii) Yeast數(shù)據(jù): 它也是一組關(guān)于蛋白質(zhì)定位研究的數(shù)據(jù),共有10個(gè)類(lèi),每個(gè)樣本9個(gè)特征,類(lèi)別“ME2”被選為正類(lèi),其余為負(fù)類(lèi)。
在以上七組數(shù)據(jù)中,統(tǒng)一規(guī)定少數(shù)類(lèi)為正類(lèi),并選擇一定數(shù)量比例的正負(fù)樣本參與實(shí)驗(yàn),如表2所示。實(shí)驗(yàn)采用分層抽樣得到訓(xùn)練集和測(cè)試集,以保持固定的不平衡比例。
表2 數(shù)據(jù)集描述
表3 算法在測(cè)試集上的性能比較
從表3中可以看到,普通支持向量機(jī)對(duì)測(cè)試集的分類(lèi)效果很差。對(duì)于一部分嚴(yán)重不平衡的數(shù)據(jù),如Abalone、Page-blocks等,更是把少數(shù)類(lèi)當(dāng)作噪音,將測(cè)試樣本統(tǒng)統(tǒng)分為多數(shù)類(lèi),從而使TP和FP均為0,無(wú)法求出查準(zhǔn)率。而兩種欠采樣方法均得到了較好的Gmean,使支持向量機(jī)性能受不平衡數(shù)據(jù)影響更小。兩種欠采樣方法之間,性能表現(xiàn)各有優(yōu)劣,這是因?yàn)殡S機(jī)欠采樣方法的隨機(jī)性,使得結(jié)果時(shí)好時(shí)壞。
為了進(jìn)一步比較兩種欠采樣方法的性能,較少偶然性的干擾,我們?cè)龠M(jìn)行如下實(shí)驗(yàn):在上一步實(shí)驗(yàn)的基礎(chǔ)上,對(duì)于每一組數(shù)據(jù),分別進(jìn)行五組對(duì)比,每組分別使用兩種欠采樣方法重復(fù)上步實(shí)驗(yàn)100次,200次,500次,1 000次和2 000次。對(duì)每一組數(shù)據(jù)的實(shí)驗(yàn)結(jié)果,比較采用隨機(jī)欠采樣和改進(jìn)欠采樣分類(lèi)時(shí)得到的Gmean,并統(tǒng)計(jì)各自Gmean較大的次數(shù),結(jié)果如表4所示。
表4 兩種欠采樣性能比較
為了更直觀比較兩種欠采樣方法的性能,我們將上表結(jié)果繪制成圖像如圖2所示。
從實(shí)驗(yàn)結(jié)果可以看到,相比隨機(jī)欠采樣,在除Yeast外的六組數(shù)據(jù)的測(cè)試中,F(xiàn)N欠采樣方法取得較好效果的次數(shù)都更多。部分實(shí)驗(yàn)數(shù)據(jù)中,兩種方法的勝出次數(shù)之和并不等于重復(fù)實(shí)驗(yàn)總數(shù),這是因?yàn)殡S機(jī)欠采樣方法在隨機(jī)抽樣的過(guò)程中,可能會(huì)抽
到“失真”數(shù)據(jù)而造成所有樣本被分為多數(shù)類(lèi),出現(xiàn)無(wú)法計(jì)算Gmean的情況。同時(shí)可以發(fā)現(xiàn),隨著重復(fù)次數(shù)的增加,雖然改進(jìn)后的方法仍然效果更佳,但是優(yōu)勢(shì)開(kāi)始慢慢減弱,以Transfusion的實(shí)驗(yàn)結(jié)果為例,T=100時(shí)FN欠采樣勝出的次數(shù)約是隨機(jī)欠采樣的1.63倍,而當(dāng)T=2 000時(shí),僅為約1.18倍。這說(shuō)明當(dāng)實(shí)驗(yàn)次數(shù)足夠多時(shí),隨機(jī)欠采樣方法依然有著很好的綜合性能。
FN欠采樣對(duì)于Yeast的實(shí)驗(yàn)效果不好,可以解釋為數(shù)據(jù)維數(shù)造成的影響。對(duì)于一個(gè)數(shù)據(jù)分類(lèi)問(wèn)題,樣本的各個(gè)特征中一部分特征是對(duì)分類(lèi)結(jié)果“強(qiáng)相關(guān)”的,一部分是“弱相關(guān)”的,也有些是“不相關(guān)”的。受到“不相關(guān)”特征的影響,即使是“強(qiáng)相關(guān)”與“弱相關(guān)”特征完全一致的兩個(gè)樣本,它們之間的距離也可能會(huì)非常遠(yuǎn)[16],這就讓以均值樣本和樣本間距離為基礎(chǔ)的FN欠采樣方法失去了意義。Khoshgoftaar等[17]也曾通過(guò)實(shí)驗(yàn)證明,在處理不平衡問(wèn)題時(shí),不同的特征選擇過(guò)程會(huì)對(duì)分類(lèi)效果產(chǎn)生重要影響。
根據(jù)以上分析可以說(shuō)明,對(duì)低維數(shù)據(jù)使用本文提出的FN欠采樣方法更有意義,實(shí)驗(yàn)中幾組低維數(shù)據(jù)效果較好的現(xiàn)象恰好說(shuō)明了這點(diǎn)。對(duì)于高維數(shù)據(jù)來(lái)說(shuō),由于有更多的特征,受“不相關(guān)”特征的影響而讓該方法失效的可能性越大。
需要注意的是,本文的FN欠采樣方法對(duì)于不平衡比值為整數(shù)的數(shù)據(jù)集,能使訓(xùn)練集中兩類(lèi)樣本完全平衡。對(duì)于訓(xùn)練集不平衡比值不為整數(shù)的情況,可以將改進(jìn)后的欠采樣方法與隨機(jī)欠采樣相結(jié)合,先用改進(jìn)方法使兩類(lèi)樣本數(shù)盡量接近,再由隨機(jī)欠采樣進(jìn)一步平衡,在最大程度上提高分類(lèi)器穩(wěn)定性。
本文在分析支持向量機(jī)、欠采樣方法基本思想的基礎(chǔ)上,討論了不平衡數(shù)據(jù)分類(lèi)優(yōu)劣的評(píng)價(jià)標(biāo)準(zhǔn),進(jìn)而針對(duì)隨機(jī)欠采樣方法可能出現(xiàn)的問(wèn)題,提出了一種適用于支持向量機(jī)的FN欠采樣方法。該方法基于均值樣本以及樣本間距離實(shí)現(xiàn)。UCI數(shù)據(jù)實(shí)驗(yàn)結(jié)果表明,對(duì)于低維數(shù)據(jù)和一部分高維數(shù)據(jù)來(lái)說(shuō),F(xiàn)N欠采樣方法有較好的效果,避免了隨機(jī)欠采樣方法偶然性帶來(lái)的“失真”影響,提高了支持向量機(jī)分類(lèi)不平衡數(shù)據(jù)的穩(wěn)定性。然而在對(duì)一些比較特殊的高維不平衡數(shù)據(jù)進(jìn)行分類(lèi)時(shí),由于受維度影響,F(xiàn)N欠采樣方法表現(xiàn)不夠理想。在進(jìn)一步的工作中,將針對(duì)這種影響進(jìn)行研究,并結(jié)合特征選擇算法提出相應(yīng)的解決方法。
參考文獻(xiàn):
[1] WEISS G M. Mining with rarity: A unifying framework [J]. ACM SIGKDD Explorations Newsletter-Special issue on learning from imbalanced datasets, 2004, 6(1): 7-19.
[2] HE H B, GARCIA. Learning from imbalanced data [J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.
[3] CHAN P K, STOLFO S J. Toward scalable learning with non-uniform class and cost distributions: A case study in credit card fraud detection [C]∥The Fourth International Conference on Knowledge Discovery and Data Mining, 1998: 164-168.
[4] JAPKOWICZ N, STEPHEN S. The class imbalance problem: A systematic study [J]. Intelligent Data Analysis, 2002, 6(5): 429-449.
[5] PRATI R C, BATISTA G, MONARD M C. Class imbalances versus class overlapping: an analysis of a learning system behavior [C]∥MICAI 2004: Advances in Artificial Intelligence, 2004: 312-321.
[6] CORTES C, VAPNIK V. Support-vector networks [J]. Machine Learning, 1995, 20(3): 273-297.
[7] QUINLAN J R. C4.5 programs for machine learning [M]. San Mateo, Calif: Morgan Kaufmann Publishers, 1993.
[8] TANG Y C, ZHANG Y Q, CHAWLA N V, et al. SVMs modeling for highly imbalanced classification [J]. IEEE Transactions on Systems, Man, and Cybernetics, 2009, 39(1): 281-288.
[9] WANG X H, SHU P, CAO L, et al. A ROC curve method for performance evaluation of support vector machine with optimization strategy [C]∥IFCSTA '09. 2009, 2: 117-120.
[10] PRATI R C, BATISTA G, MONARD M C. A study of the behavior of several methods for balancing machine learning training data [J]. ACM SIGKDD Explorations Newsletter-Special issue on learning from imbalanced datasets, 2004, 6(1): 20-29.
[11] BATUWITA R, PALADE V. FSVM-CIL: fuzzy support vector machines for class imbalance learning [J]. IEEE Transactions on Fuzzy Systems, 2010, 18(1): 558-571.
[12] DRUMMOND C, HOLTE R C. C4.5, class imbalance, and cost sensitivity: why under-sampling beats over-sampling [C]∥The Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2001: 198-207.
[13] SAEYS Y, INZA I, LARRANAGA P. A review of feature selection techniques in bioinformatics [J]. Oxford Journals: Bioinformatics, 2007, 23(19): 2507-2517.
[14] TED W W, SAHINER B, HADJIISKI L M, et al. Effect of finite sample size on feature selection and classification: a simulation study [J]. Medical Physics, 2010, 37(2): 907-920.
[15] TAX D M J, DUIN R P W. Support vector data description [J]. Machine Learning, 2004, 54:45-66.
[16] 陳振洲,李磊,姚正安. 基于SVM的特征加權(quán)KNN算法 [J]. 中山大學(xué)學(xué)報(bào):自然科學(xué)版, 2005,44: 17-20.
[17] KHOSHGOFTAAR T M, GAO K H. Feature selection with imbalanced data for software defect prediction [C]∥ICMLA ‘09, 2009: 235-240.