• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    不均衡數(shù)據(jù)分類算法的綜述

    2013-09-20 08:19:54陶新民郝思媛張冬雪
    關(guān)鍵詞:代價分類器分類

    陶新民,郝思媛,張冬雪,徐 鵬

    (哈爾濱工程大學(xué)信息與通信工程學(xué)院,黑龍江 哈爾濱 150001)

    0 引言

    分類問題是數(shù)據(jù)挖掘領(lǐng)域中重要的研究內(nèi)容之一。傳統(tǒng)的分類方法對平衡數(shù)據(jù)集分類取得了良好的效果。但實(shí)際的數(shù)據(jù)集往往不平衡,即數(shù)據(jù)集中某類的樣本數(shù)遠(yuǎn)遠(yuǎn)大于其他類的樣本數(shù)目。對于基于總體分類精度為學(xué)習(xí)目標(biāo)的傳統(tǒng)分類器而言,這種不均衡勢必會導(dǎo)致分類器過多關(guān)注多數(shù)類樣本,從而使少數(shù)類樣本分類性能下降。而在實(shí)際應(yīng)用中,人們更關(guān)心的恰恰是數(shù)據(jù)集中的少數(shù)類,并且錯分這些少數(shù)類的代價也通常大于多數(shù)類,例如,把有入侵行為判為正常行為,將有可能造成重大網(wǎng)絡(luò)安全事故;把癌癥病人誤診為正常,將會延誤最佳治療時機(jī),對病人造成生命威脅;將故障誤判為正常,導(dǎo)致故障漏檢,有可能引發(fā)重大安全事故。因此,在實(shí)際應(yīng)用中,人們更需要提高少數(shù)類樣本的分類精度。

    對不均衡樣本機(jī)器學(xué)習(xí)的研究已成為目前最熱門的課題之一[1-2],近年來,一些重要的學(xué)術(shù)會議都對不均衡樣本分類進(jìn)行了討論與分析。例如:由美國人工智能協(xié)會主辦的關(guān)于不均衡樣本學(xué)習(xí)的研討會(AAAI'00)[3],不均衡樣本集機(jī)器學(xué)習(xí)的國際會議研討會(ICML'03)[4],計算機(jī)機(jī)械專家組主辦的知識發(fā)現(xiàn)和樣本挖掘探索協(xié)會(ACMSIGKDD'04)[5]等。這些對不均衡樣本學(xué)習(xí)問題的關(guān)注和研討活動促進(jìn)了該研究領(lǐng)域的快速發(fā)展,使得與該領(lǐng)域的有關(guān)論文呈明顯增長趨勢。由于研究該領(lǐng)域的重要性且該領(lǐng)域發(fā)展的迅速性,有必要將該領(lǐng)域近年來的研究成果進(jìn)行整理和總結(jié),并對該領(lǐng)域今后的發(fā)展提出設(shè)想和展望。

    1 不均衡數(shù)據(jù)分類問題的本質(zhì)

    數(shù)據(jù)不均衡表現(xiàn)在兩個方面。

    一方面為類間不均衡,即某類樣本數(shù)量明顯少于其他類樣本數(shù)量。由于傳統(tǒng)分類器都是以總體分類精度為學(xué)習(xí)目標(biāo),因此在這種情況下,為了獲得更大的分類精度,訓(xùn)練算法勢必會導(dǎo)致分類器過多關(guān)注多數(shù)類樣本,從而使少數(shù)類樣本分類性能下降。例如對于一個99∶1的不均衡數(shù)據(jù)分類問題而言,分類器在把少數(shù)類樣本完全誤判為多數(shù)類情況下,所獲的總體分類精度仍然很高,即為99%,而此時少數(shù)類樣本的錯分率卻是100%。

    另一方面在多數(shù)類與少數(shù)類出現(xiàn)類間不均衡的同時,在每一類樣本中間也可能存在另一種不平衡的形式,即類內(nèi)不均衡[6-11]。大量研究表明,樣本間不均衡的程度不是阻礙分類學(xué)習(xí)的唯一因素,類內(nèi)的不均衡也是導(dǎo)致分類性能惡化的重要因素,如圖1,2所示。其中三角和空心橢圓分別代表少數(shù)類和多數(shù)類。圖1和圖2中的分布都存在類間不均衡,不過圖1中,類間沒有重疊的樣本,且每一類都只有一個聚類。但是,在圖2中不僅有多個子集,同時還有重疊的樣本。類內(nèi)不均衡問題實(shí)質(zhì)上與數(shù)據(jù)集內(nèi)存在分離項密切相關(guān)。研究表明,小的分離項的存在會導(dǎo)致分類器性能嚴(yán)重下降。簡單說,分類器試圖通過描述占主要地位的聚類來建立學(xué)習(xí)規(guī)則,必然會導(dǎo)致該規(guī)則缺乏對次子集的描述[12-14]。由于分類器既要學(xué)習(xí)少數(shù)類又要學(xué)習(xí)多數(shù)類,少數(shù)類次子集的出現(xiàn)可能會導(dǎo)致多數(shù)類產(chǎn)生小的分離項,從而增加了分類器的學(xué)習(xí)難度。此外,由于缺乏少數(shù)類樣本,分類器無法有效分辨出少數(shù)類樣本噪聲和少數(shù)類樣本子集。例如,在圖2中,設(shè)想對于集B中的2個少數(shù)類噪聲樣本,分類器可能產(chǎn)生相應(yīng)的小分離項,然而分類器很難將由噪聲產(chǎn)生的非法分離項與合法子集C區(qū)分開來,這些都是導(dǎo)致傳統(tǒng)分類器學(xué)習(xí)性能下降的主要原因。

    2 不均衡數(shù)據(jù)分類的改進(jìn)算法

    近年來,很多學(xué)者針對不均衡數(shù)據(jù)分類問題提出了多種改進(jìn)算法。改進(jìn)方向主要?dú)w納為以下兩類:一是從數(shù)據(jù)集的角度,另一個是從算法角度。

    圖1 類間不均衡數(shù)據(jù)集Fig.1 Unbalanced between classes

    圖2 既有類間,又有類內(nèi)不均衡的高復(fù)雜度的數(shù)據(jù)集Fig.2 Highly complicated dataset with unbalanced of classes and the class

    2.1 數(shù)據(jù)集層面的方法

    數(shù)據(jù)層面的處理方法是通過一些機(jī)制改善不均衡數(shù)據(jù)集,以期獲得一個均衡的數(shù)據(jù)分布。它是處理不均衡數(shù)據(jù)分類問題的重要途徑之一,因?yàn)榕c不均衡的數(shù)據(jù)集相比,一個均衡的數(shù)據(jù)集更有利于提高全局的分類性能[15-16]。

    2.1.1 過抽樣策略

    隨機(jī)過抽樣是處理不均衡數(shù)據(jù)最基本的方法。該算法首先復(fù)制隨機(jī)選擇的少數(shù)類樣本,并將生成的樣本集合添加到少數(shù)類中,得到新的少數(shù)類集合。雖然它只是簡單地將復(fù)制后的數(shù)據(jù)添加到原始數(shù)據(jù)集中,且某些樣本的多個實(shí)例都是“并列的”,但是也有可能使分類器學(xué)習(xí)出現(xiàn)過擬合現(xiàn)象[17]。特別是,過抽樣算法會導(dǎo)致分類器對于同一個樣本的多個復(fù)本產(chǎn)生多條規(guī)則,從而使這些規(guī)則過于具體化。為了有效解決隨機(jī)過抽樣算法的過擬合問題,Chawla N V等提出了一種基于人工合成少數(shù)類過抽樣技術(shù)(synthetic minority over-sampling technique,SMOTE)。SMOTE算法的基本思想是:首先尋找每一個少數(shù)類樣本的k個同類最近鄰樣本(其中k通常是大于1的奇數(shù)),然后隨機(jī)選擇k個最近鄰中的一個,并在這2個樣本之間隨機(jī)進(jìn)行線性插值,構(gòu)造出新的人工少數(shù)類樣本。該方法可以有效地解決由于決策區(qū)間較小導(dǎo)致的分類過擬合問題,而且可使分類器的學(xué)習(xí)能力得到顯著提高。但是,SMOTE算法對每個原少數(shù)類樣本產(chǎn)生相同數(shù)量的合成數(shù)據(jù)樣本,而沒有考慮其鄰近樣本的分布特點(diǎn),使得類間發(fā)生重復(fù)的可能性加大[18]。另外,SMOTE算法的樣本生成機(jī)制也同樣存在一定的盲目性。為了克服上述不足,近些年一些學(xué)者相繼提出了許多針對SMOTE的改進(jìn)算法,例如文獻(xiàn)[19]提出的利用求最近鄰樣本均值點(diǎn)進(jìn)而生成人工樣本的D-SMOTE算法;文獻(xiàn)[20]利用周圍空間結(jié)構(gòu)信息的鄰居計算公式提出的N-SMOTE過抽樣算法;文獻(xiàn)[21]提出的基于交叉算子的過抽樣算法以及文獻(xiàn)[22]提出的基于核SMOTE的過抽樣方法。此外,還有一些自適應(yīng)過抽樣方法相繼被提出,具有代表性的算法包括Borderline-SMOTE算法[23]和自適應(yīng)合成抽樣算法 (adaptive synthetic sampling,ADASYN)[24]。SMOTE算法和這些自適應(yīng)抽樣算法最大的差別在于:SMOTE算法為每一個少數(shù)類樣本生成合成樣本,而Borderline-SMOTE算法只為那些“靠近”邊界的少數(shù)類樣本生成合成樣本,而ADASYN算法的主要思想是使用密度分布作為自動確定合成樣本數(shù)目的標(biāo)準(zhǔn),且通過自適應(yīng)地改變不同少數(shù)類樣本的權(quán)重,為每個樣本產(chǎn)生相應(yīng)數(shù)目的合成樣本。

    另外,為了解決SMOTE技術(shù)引起的噪聲樣本問題,一些數(shù)據(jù)清潔技術(shù)也已被廣泛采用,最具代表性的是SMOTE與Tomek算法相結(jié)合的SMOTE+Tomek算法[25],該算法首先利用SMOTE算法生成合成樣本,然后利用Tomek算法對來自2個不同類的Tomek連接樣本對進(jìn)行清理,這樣就很好地克服了SMOTE帶來的噪聲問題。

    除了采用SMOTE合成人工樣本外,一些學(xué)者還提出利用概率密度生成第二類人工數(shù)據(jù)的方法。該方法是利用合適的概率分布來生成異性樣本,然后通過將不均衡數(shù)據(jù)問題轉(zhuǎn)換為均衡兩類問題,實(shí)現(xiàn)不均衡數(shù)據(jù)的分類。如文獻(xiàn)[26]提出的均勻分布,以及文獻(xiàn)[27]提出的基于高斯分布產(chǎn)生第二類數(shù)據(jù)的方法。然而,在眾多的復(fù)雜實(shí)際問題中,異性樣本有很多種,分布十分復(fù)雜,不可能通過單一的概率模型對其進(jìn)行描述。為此,文獻(xiàn)[28]提出一種基于陰性免疫的過抽樣算法,該算法利用陰性免疫算法對多數(shù)類樣本學(xué)習(xí),生成覆蓋少數(shù)類樣本空間的人工少數(shù)類樣本,從而實(shí)現(xiàn)訓(xùn)練樣本數(shù)據(jù)的均衡。由于該算法只利用多數(shù)類樣本先驗(yàn)知識,不需要少數(shù)類樣本信息,因此避免了通過學(xué)習(xí)少數(shù)類樣本生成的人工樣本缺乏空間代表性的不足。由于在不均衡數(shù)據(jù)應(yīng)用中,多數(shù)類樣本數(shù)據(jù)很容易得到,因此該算法具有廣闊的應(yīng)用前景。

    2.1.2 欠抽樣策略

    與過抽樣技術(shù)將數(shù)據(jù)添加到原始數(shù)據(jù)集的機(jī)制不同,欠抽樣技術(shù)是將數(shù)據(jù)從原始數(shù)據(jù)集中移除。最基本的欠抽樣技術(shù)是隨機(jī)欠抽樣,即隨機(jī)地減少多數(shù)類樣本來縮小多數(shù)類樣本的規(guī)模,達(dá)到與少數(shù)類樣本數(shù)量相同的目的。但是該方法在將多數(shù)類樣本刪除的同時有可能會丟失具有代表性的多數(shù)類樣本信息。為克服這一不足,文獻(xiàn)[29]提出2個Informed的智能欠抽樣算法:EasyEnsemble和 BalanceCascade算法。其中EasyEnsemble算法的實(shí)施方法很簡單:通過從多數(shù)類中獨(dú)立隨機(jī)抽取若干子集,且將每個子集與少數(shù)類數(shù)據(jù)聯(lián)合起來訓(xùn)練生成多個基分類器,最終將這些基分類器組合形成一個集成學(xué)習(xí)系統(tǒng)。BalanceCascade算法則使用前面已形成的集成分類器來為下一次訓(xùn)練選擇多數(shù)類樣本,然后再進(jìn)行欠抽樣。與此同時,P.Chan 等[30]提出了一種最近鄰規(guī)則欠抽樣方法(edited nearest neighbor,ENN),基本思想是刪除其最近的3個近鄰樣本中的2個或者2個以上類別不同的樣本。但是大多數(shù)的多數(shù)類樣本附近的樣本都是多數(shù)類的,所以該方法所能刪除的多數(shù)類樣本十分有限。鑒于此,Laur Ikkala J等[31]在ENN的基礎(chǔ)上提出了鄰域清理規(guī)則欠抽樣方法(neighborhood cleaning rule,NCL),核心思想是針對訓(xùn)練樣本集中的每個樣本找出其3個最近鄰樣本,若該樣本是多數(shù)類樣本且其3個最近鄰中有2個以上是少數(shù)類樣本,則刪除它;反之,當(dāng)該樣本是少數(shù)類,并且其3個最近鄰中有2個以上是多數(shù)類樣本,則去除近鄰中的多數(shù)類樣本。但是該方法中未能考慮到在少數(shù)類樣本中存在的噪聲樣本,而且第2種方法刪除的多數(shù)類樣本大多屬于邊界樣本,對后續(xù)分類器的分類會產(chǎn)生很大的不良影響。鑒于此,文獻(xiàn)[32]使用K-近鄰(K-nearest neighbor algorithm,KNN)分類器來進(jìn)行欠抽樣,并給出4種不同的KNN欠抽樣方法,即:NearMiss-1,NearMiss-2,NearMiss-3以及“最遠(yuǎn)距離”方法。其中,NearMiss-1方法選擇到最近的3個少數(shù)類樣本平均距離最小的那些多數(shù)類樣本;而NearMiss-2方法選擇到最遠(yuǎn)的3個少數(shù)類樣本平均距離最小的那些多數(shù)類樣本;NearMiss-3為每個少數(shù)類樣本選擇給定數(shù)目的最近多數(shù)類樣本,目的是保證每個少數(shù)類樣本都被一些多數(shù)類樣本包圍;“最遠(yuǎn)距離”方法則選擇到最近的3個少數(shù)類樣本平均距離最大的那些多數(shù)類樣本。除上述方法外,還存在其他類型的智能欠抽樣方法,如Kubat等[33]提出的單邊選擇方法(one-sided selection,OSS),該方法是將多數(shù)類樣本分為“噪音樣本”、“邊界樣本”和“安全樣本”,然后將邊界樣本和噪音樣本從多數(shù)類中刪除,盡可能保留那些具有一定信息量又有一定空間代表性的樣本?;谏鲜鏊枷?,文獻(xiàn)[34-35]提出利用聚類方法來獲得具有空間代表性的樣本。算法首先對多數(shù)類樣本進(jìn)行聚類,聚類個數(shù)設(shè)置與少數(shù)類樣本數(shù)目相同,然后提取出每個聚類的中心作為多數(shù)類樣本,如此操作就可以使選擇出來的多數(shù)類樣本具有一定的空間代表性,典型的聚類方法有譜聚類和核聚類方法。

    由上述分析可知,過抽樣算法采用的是重復(fù)少數(shù)類樣本或生成人工樣本的方式實(shí)現(xiàn)樣本均衡,這樣會增加訓(xùn)練時間,且容易產(chǎn)生過擬合現(xiàn)象。而欠抽樣算法采用的是刪除多數(shù)類樣本的方式實(shí)現(xiàn)樣本均衡,容易導(dǎo)致丟失重要的樣本信息。因此,為了彌補(bǔ)欠抽樣和過抽樣的缺點(diǎn),文獻(xiàn)[36]提出基于隨機(jī)欠抽樣和SMOTE相結(jié)合的不均衡SVM分類算法以及文獻(xiàn)[37]提出逐級優(yōu)化遞減(optimization of decreasing reduction,ODR)欠抽樣算法和BSMOTE算法相結(jié)合的不均衡SVM分類算法。該方法的核心是:首先利用ODR對多數(shù)類樣本進(jìn)行欠抽樣,去除樣本中大量重疊的冗余和噪聲樣本,使得在減少數(shù)據(jù)的同時保留更多的有用信息;而對少數(shù)類樣本的過抽樣則是對邊界樣本進(jìn)行的,如此操作能更有利于后續(xù)SVM算法分類界面的生成,最終實(shí)現(xiàn)提高不均衡數(shù)據(jù)SVM算法分類性能的目的。

    2.2 算法層面的方法

    2.2.1 改變概率密度

    由于目標(biāo)(正常)樣本已知,可以通過采用合適的統(tǒng)計分布來實(shí)現(xiàn)目標(biāo)樣本的概率密度估計,在識別階段,依據(jù)得到的概率密度,若其他樣本的概率密度值低于某個預(yù)先設(shè)定的閾值,則認(rèn)定為異性樣本。如文獻(xiàn)[38]采用高斯分布進(jìn)行目標(biāo)樣本密度估計。該方法的最大問題是對所選的統(tǒng)計模型十分敏感,需要人們事先了解目標(biāo)樣本的分布,這在很多現(xiàn)實(shí)應(yīng)用中難以實(shí)現(xiàn)。另一種方法是采用無參數(shù)概率密度方法,如文獻(xiàn)[39-40]提出的基于核空間密度估計不均衡數(shù)據(jù)分類方法,該算法由于將密度估計從傳統(tǒng)數(shù)據(jù)空間轉(zhuǎn)換為高維核空間中進(jìn)行,有可能導(dǎo)致算法出現(xiàn)維度災(zāi)難問題且計算復(fù)雜度也大大提高。因此,這種方法在實(shí)際應(yīng)用中還是存在很大限制。

    2.2.2 單類學(xué)習(xí)分類

    基于單類學(xué)習(xí)的分類算法是將傳統(tǒng)不均衡數(shù)據(jù)基于區(qū)別的分類方法改為基于識別的方法進(jìn)行學(xué)習(xí)。其主要思想是只利用感興趣的目標(biāo)類樣本進(jìn)行學(xué)習(xí)和訓(xùn)練,即只對多數(shù)類樣本進(jìn)行訓(xùn)練,其目標(biāo)是從測試樣本中識別出多數(shù)類樣本,而不是對少數(shù)類和多數(shù)類進(jìn)行區(qū)分。對于新的樣本,通過比較該樣本與目標(biāo)類的相似程度來識別該樣本是否歸屬于目標(biāo)類。如文獻(xiàn)[41-42]采用支持向量機(jī)數(shù)據(jù)描述方法實(shí)現(xiàn)目標(biāo)數(shù)據(jù)的非線性邊界描述。

    2.2.3 集成算法(ensemble learning)

    從20世紀(jì)90年代開始,對集成學(xué)習(xí)理論和算法的研究成為了機(jī)器學(xué)習(xí)的一個熱點(diǎn)。早在1997年,國際機(jī)器學(xué)習(xí)界的權(quán)威 T.G.Dietterich就將集成學(xué)習(xí)列為機(jī)器學(xué)習(xí)4大研究方向之首,典型的集成方法有:Bagging[43]、隨機(jī)森林[44]和 Boosting。

    1)Boosting。

    AdaBoost算法是Boosting中最具代表性的算法,基本思想是:集中在上次分類器判決出錯的樣本。開始時,每一個樣本給定固定的權(quán)重,一般采用均勻分布,每次循環(huán)后,產(chǎn)生一個新的分類器,然后重新對訓(xùn)練樣本進(jìn)行加權(quán),使下一個訓(xùn)練分類器集中在上次最近的分類器判別出錯的訓(xùn)練樣本上,即出錯的樣本施加更大的權(quán)重,易分樣本減少權(quán)重,最后利用加權(quán)投票集成方法實(shí)現(xiàn)決策分類[45]。由于在不均衡數(shù)據(jù)分類應(yīng)用中容易將少數(shù)類樣本錯分,因此集成算法就會過多地關(guān)注少數(shù)類樣本,從而產(chǎn)生有利于少數(shù)類分類的基分類器,最終通過集成實(shí)現(xiàn)提高分類器對少數(shù)類的分類性能。

    2)抽樣和集成算法的融合。

    抽樣策略與集成學(xué)習(xí)算法相融合的思想已在不均衡數(shù)據(jù)分類領(lǐng)域中廣泛應(yīng)用。例如,文獻(xiàn)[46]提出的DataBoost-IM算法,它是將文獻(xiàn)[47]提出的數(shù)據(jù)生成技術(shù)與AdaBoost.M1結(jié)合,根據(jù)類間難以學(xué)習(xí)樣本的比例生成合成樣本;另一種算法是文獻(xiàn)[48]提出的SMOTEBoost算法,它是基于SMOTE抽樣技術(shù)和Adaboost.M2算法相融合的思想。該算法是在每次boosting迭代中引入了合成抽樣技術(shù)。這樣,每個連續(xù)的分類器就更加注重少數(shù)類,由于每個基分類器都建立在不同的數(shù)據(jù)樣本上,最終投票集成后的分類器就會使得少數(shù)類擁有更寬廣、更明確的決策域。

    雖然合成抽樣方法可有效解決不均衡數(shù)據(jù)的學(xué)習(xí)問題,但是由于數(shù)據(jù)生成方法都相對復(fù)雜,且計算量很大。為此,針對隨機(jī)過抽樣技術(shù)中導(dǎo)致的數(shù)據(jù)重疊問題,Mease et al.在文獻(xiàn)[49]中提出了能克服這一缺點(diǎn)的簡單有效的過抽樣技術(shù),它不再使用計算方法生成新的數(shù)據(jù),而是通過從隨機(jī)過抽樣獲得重復(fù)數(shù)據(jù)且給新產(chǎn)生的重疊數(shù)據(jù)引入騷動(抖動)方法來打破這種重疊關(guān)系,這樣就會使算法的運(yùn)算效率大大提升,這就是著名的抖動過/欠抽樣算法(over/under-sampling and jittering of the data,JOUSBoost)。該算法在每次boosting迭代中都向少數(shù)類樣本引入獨(dú)立的、同分布的噪聲。這一思想較合成抽樣方法來說相對簡單,且能夠結(jié)合Boost集成算法的優(yōu)點(diǎn)來提高不均衡分類器的性能。類似的方法還有很多,例如文獻(xiàn)[50]提出基于核函數(shù)的Adaboost分類算法,分別引入了3種核函數(shù)(多項式核函數(shù)、徑向核函數(shù)、Sigmoid核函數(shù))同Adaboost算法集成。文獻(xiàn)[51]提出一種基于核的模糊多球分類算法及其集成算法。該算法在訓(xùn)練時,為每一個模式建造多個最小超球體覆蓋所有的訓(xùn)練樣本,在識別階段利用隸屬度函數(shù)對測試樣本進(jìn)行歸類,最后將這些基分類器進(jìn)行集成。為了提高樣本的代表性以及分類器的泛化性能,文獻(xiàn)[52]提出了基于核聚類欠抽樣集成不均衡SVM分類算法,該算法首先在核空間中對多數(shù)類樣本集進(jìn)行聚類,然后隨機(jī)選擇出具有代表意義的聚類信息點(diǎn),在減少多數(shù)類樣本的同時,將SVM算法的分類界面向多數(shù)類樣本方向偏移,并利用集成手段對基于核聚類的欠抽樣SVM算法進(jìn)行集成,最終實(shí)現(xiàn)提高不均衡數(shù)據(jù)SVM算法泛化性能的目的。

    2.2.4 代價敏感學(xué)習(xí)

    抽樣技術(shù)是通過改變數(shù)據(jù)分布中類樣本代表比例的方式實(shí)現(xiàn)數(shù)據(jù)均衡,而代價敏感學(xué)習(xí)方法則是通過考慮與錯分樣本相關(guān)代價的方式來處理不均衡分類。以往研究表明,代價敏感學(xué)習(xí)與不均衡數(shù)據(jù)學(xué)習(xí)有很大的聯(lián)系,因此代價敏感方法的理論基礎(chǔ)和算法很自然地被用到不均衡學(xué)習(xí)問題中,而不再需要通過抽樣技術(shù)來建立均衡的數(shù)據(jù)分布。代價敏感學(xué)習(xí)使用的是特定的錯分樣本代價矩陣來處理不均衡學(xué)習(xí)問題,此外,很多實(shí)驗(yàn)表明,在一些應(yīng)用領(lǐng)域,包括某種具體的不均衡學(xué)習(xí)領(lǐng)域,代價敏感學(xué)習(xí)都優(yōu)于抽樣方法。

    代價敏感學(xué)習(xí)方法的基礎(chǔ)理論是代價矩陣。代價矩陣可以看作是將一類樣本錯分為另一類樣本懲罰項的數(shù)字表示。代價敏感學(xué)習(xí)算法有很多,一般說來可分成三類。第一類是將錯分代價直接應(yīng)用到數(shù)據(jù)集上作為數(shù)據(jù)空間的權(quán)重形式,利用錯分代價選擇最佳的訓(xùn)練分布,該技術(shù)稱作代價敏感數(shù)據(jù)空間權(quán)重方法;第二類是將最小化代價技術(shù)應(yīng)用到集成方法結(jié)合方案中,將標(biāo)準(zhǔn)的學(xué)習(xí)算法與集成方法相融合形成代價敏感集成分類器。這兩類方法都有堅實(shí)的理論基礎(chǔ),代價敏感數(shù)據(jù)空間權(quán)重方法是基于轉(zhuǎn)化定理的,而代價敏感集成分類器則是基于元代價框架的基礎(chǔ)上。最后一類是將代價敏感函數(shù)或特征直接應(yīng)用到分類實(shí)例中,使代價敏感框架直接融入到這些分類器中。典型算法有文獻(xiàn)[53]提出的通過改變訓(xùn)練集類別分布的代價敏感性學(xué)習(xí)算法;文獻(xiàn)[54]提出的通過改變正類和反類占總樣本數(shù)比例的較優(yōu)代價敏感分類器算法;文獻(xiàn)[55]提出的代價敏感的支持向量機(jī)算法,該算法首先利用邊界人工少數(shù)類過抽樣技術(shù)(BSMOTE)實(shí)現(xiàn)訓(xùn)練樣本的均衡,然后利用K近鄰構(gòu)造代價值,并利用每個樣本的代價函數(shù)來消除噪聲樣本對SVM算法分類精度的影響。需要說明的是,在現(xiàn)實(shí)中,代價敏感學(xué)習(xí)方法通常難以確定代價敏感值的大小。因此,如何確定代價矩陣是阻礙該方法成功應(yīng)用的關(guān)鍵。

    2.2.5 核方法

    隨著SVM理論的快速發(fā)展以及成功應(yīng)用,核方法越來越引起了人們的關(guān)注。線性SVM能夠成功推廣到非線性空間,就是得益于核矩陣能代替復(fù)雜內(nèi)積計算的優(yōu)勢。針對不均衡數(shù)據(jù)分類問題,很多學(xué)者試圖從核函數(shù)角度出發(fā)進(jìn)行了研究,其中包括Wu和Chang[56]提出的一種通過修改SVM核矩陣的方法。該方法通過將核函數(shù)矩陣進(jìn)行保角變換,實(shí)現(xiàn)擴(kuò)大稀有類特征向量處的邊界,增加正負(fù)類樣本的分離度,減少大類支持向量數(shù)目的目的。文獻(xiàn)[57]提出改進(jìn)的基于核密度估計的數(shù)據(jù)分類算法。該方法通過引入空間信息和相應(yīng)平滑參數(shù),改善了原方法對不平衡問題的適應(yīng)力。文獻(xiàn)[58]提出利用特征選擇方法來處理不均衡數(shù)據(jù),使用多個樸實(shí)貝葉斯函數(shù)以及正規(guī)化邏輯回歸作為分類器,實(shí)驗(yàn)結(jié)果表明,根據(jù)不均衡數(shù)據(jù)的成分將少數(shù)類特征和多數(shù)類特征結(jié)合,可以有效提高算法的分類性能。

    以上方法都是針對單核情況進(jìn)行分析的,然而采用單核進(jìn)行映射的方式對所有樣本進(jìn)行處理并不合理。近年來,出現(xiàn)了大量關(guān)于核組合方法的研究,即多核學(xué)習(xí)方法。處理不均衡數(shù)據(jù)的典型多核算法是多尺度核的學(xué)習(xí),直觀思路就是進(jìn)行多尺度核的序列學(xué)習(xí)[59]。多尺度核序列合成方法相當(dāng)簡單,它首先用大尺度核擬合對應(yīng)決策函數(shù)平滑區(qū)域的樣本,然后用小尺度核擬合決策函數(shù)變化相對劇烈區(qū)域的樣本,后面的步驟利用前面步驟的結(jié)果,進(jìn)行逐級優(yōu)化,最終得到更優(yōu)的分類結(jié)果。

    3 不均衡數(shù)據(jù)分類器性能評價標(biāo)準(zhǔn)

    傳統(tǒng)的性能評估都是從分類器的整體分類情況來考慮,即考慮所有樣本的分類準(zhǔn)確率。但是在不均衡數(shù)據(jù)分類中,少數(shù)類樣本更容易錯分,同時少數(shù)類樣本數(shù)目所占比例不大,所以總體分類性能的指標(biāo)變化也不大。例如一個二分類的問題:A樣本數(shù)目是99個,B樣本數(shù)目是1個,按照傳統(tǒng)性能評估指標(biāo)(即總體的分類正確率)評估分類器的性能,分類器可以將所有樣本都識別為A類,而總體的性能指標(biāo)仍為99%。但是這就導(dǎo)致B類樣本的錯分概率為100%。在大多現(xiàn)實(shí)應(yīng)用中,少數(shù)類樣本識別率往往更為重要,因此,針對傳統(tǒng)的性能指標(biāo)存在的缺陷,很多學(xué)者在研究不均衡數(shù)據(jù)集分類時通常不使用總體分類性能指標(biāo),而使用以下幾個性能指標(biāo)。

    定義在不均衡數(shù)據(jù)集中少數(shù)類樣本為P;多數(shù)類樣本為N;FP是指將多數(shù)類樣本錯分成少數(shù)類的數(shù)目;FN是指將少數(shù)類樣本錯分成多數(shù)類的數(shù)目;TP和TN分別表示少數(shù)類和多數(shù)類樣本被正確分類的數(shù)目,具體如表1說明。

    表1 二分類數(shù)據(jù)集的混合矩陣Tab.1 Mixing matrix of binary data sets

    由此可以得到以下公式。少數(shù)類樣本正確率為

    從(4)式可知,性能指標(biāo)G綜合考慮了少數(shù)類和多數(shù)類兩類樣本的分類性能,G的值是隨著少數(shù)類和多數(shù)類樣本正確率在[0,1]單調(diào)遞增的,因此要使G的值大,必須滿足少數(shù)類和多數(shù)類樣本正確率的值同時都大。如果分類器分類偏向于其中一類就會影響另一類的分類正確率,導(dǎo)致G值會變小。性能指標(biāo)F也是一種常用的不均衡數(shù)據(jù)分類問題的評價準(zhǔn)則。從(5)式中可知,性能指標(biāo)F既考慮少數(shù)類樣本的查全率又考慮查準(zhǔn)率,其中任何一個值都能影響F值的大小。如果查全率和查準(zhǔn)率的值都比較小,則F的值也會很小;若查全率較大而查準(zhǔn)率較小,或者查全率較小而查準(zhǔn)率較大,則F的值也都是很小;只有在查全率和查準(zhǔn)率的值都比較大的前提下,F(xiàn)值才會很大。因此,可見該性能指標(biāo)主要是在查全率和查準(zhǔn)率均衡的情況下才可能將其最大化。它能綜合地體現(xiàn)出分類器對多數(shù)類和少數(shù)類的分類效果,但側(cè)重于體現(xiàn)少數(shù)類樣本的分類效果。曲線下面積(area under the ROC curve,AUC)是另一個有效的不均衡數(shù)據(jù)分類性能評價手段,對于一個給定的兩分類問題,ROC曲線是利用多個(FPR,TPR)對描述性能的方法,其中FPR代表假陽性率,TPR代表真陽性率,AUC是這個曲線形成的面積,如圖3中著色部分。它評測的是FPR所有可能值對應(yīng)的分類方法的性能,因此被證明是一個非常有效的不均衡分類性能評測標(biāo)準(zhǔn)。

    4 幾種主要學(xué)習(xí)方法的性能比較

    4.1 實(shí)驗(yàn)數(shù)據(jù)

    選用國際機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)數(shù)據(jù)庫UCI中的6個不同的數(shù)據(jù)集對算法進(jìn)行實(shí)驗(yàn),數(shù)據(jù)特征信息如表2所示,類別表示選擇出來作為少數(shù)類和多數(shù)類樣本的代表類別,例如,B∶A表示違約客戶與不違約客戶的個數(shù)比;R∶N表示復(fù)發(fā)病人和未復(fù)發(fā)病人個數(shù)比;NUC∶CYT表示細(xì)胞核與細(xì)胞質(zhì)樣本個數(shù)比。這里選擇傳統(tǒng)SVM分類算法作為分類器。

    圖3 ROC曲線示例Fig.3 ROC curve example

    表2 實(shí)驗(yàn)數(shù)據(jù)集描述Tab.2 Description of experimental datasets

    4.2 不同學(xué)習(xí)方法的分類性能比較

    實(shí)驗(yàn)中,選取了幾種具有代表性的學(xué)習(xí)方法進(jìn)行比較,分別是:傳統(tǒng)的SVM算法、基于隨機(jī)欠抽樣的SVM算法(RU)、基于SMOTE過抽樣的SVM算法、基于BSMOTE過抽樣的SVM算法、基于代價敏感的SVM算法(SVM-WEIGHT)和自適應(yīng)人工樣本過抽樣SVM算法(AdaSyn)。對每一個數(shù)據(jù)集,采用10次交叉驗(yàn)證的方法進(jìn)行實(shí)驗(yàn),對每次交叉實(shí)驗(yàn)運(yùn)行10次,以防止隨機(jī)影響,最后計算這些實(shí)驗(yàn)的F,G性能評測指標(biāo)的統(tǒng)計平均值。為了考察不均衡數(shù)據(jù)下,算法的分類性能,實(shí)驗(yàn)中選擇1∶10的比例進(jìn)行隨機(jī)選擇。其中,分類器SVM參數(shù)設(shè)置為:核函數(shù)為高斯函數(shù),核寬度數(shù)為10,懲罰因子設(shè)置為C=10,SMOTE,BSMOTE算法中最近鄰算法參數(shù)選擇為6,其他欠抽樣算法保留著與少數(shù)類樣本數(shù)目相同的多數(shù)類樣本。代價敏感SVM算法的少數(shù)類的代價與多數(shù)類的代價比值設(shè)置為CMI/CMA=10。從表3的實(shí)驗(yàn)結(jié)果可以看出,針對不均衡數(shù)據(jù)集分類而言,SVM算法的Specificity性能指標(biāo)多為1,Sensitivity性能指標(biāo)基本為0,而其他不均衡數(shù)據(jù)分類算法在二者指標(biāo)上都有明顯的提高。由于G性能既考慮了多數(shù)類的樣本分類性能,也考慮了少數(shù)類樣本的分類性能,因此,基于代價敏感的SVM算法(SVM-WEIGHT)和自適應(yīng)人工樣本過抽樣SVM算法(AdaSyn)在整體性能上最優(yōu)。觀察另一個F性能評測指標(biāo),可以看到SVM-Weight算法在該性能指標(biāo)上表現(xiàn)較好。而同樣是欠抽樣算法的隨機(jī)欠抽樣算法RU,由于對多數(shù)類抽樣的盲目性使得該算法對不均衡數(shù)據(jù)分類性能的改善不如其他算法顯著。

    表3 10∶1不均衡數(shù)據(jù)下,數(shù)據(jù)集F,G的性能比較Tab.3 Performance comparison of F,G in unbalanced datasets

    續(xù)表3

    5 總結(jié)與展望

    對不均衡數(shù)據(jù)分類問題,近些年,學(xué)者提出了很多解決方案,并且取得了一定的研究成果。本文首先從數(shù)據(jù)角度和算法角度對經(jīng)典的解決方案進(jìn)行歸納。同時,通過仿真實(shí)驗(yàn)比較了多種改進(jìn)的不均衡分類算法在不同數(shù)據(jù)集上的分類性能。實(shí)驗(yàn)表明,這些改進(jìn)的算法在不均衡數(shù)據(jù)分類性能上都得到不同程度的改善。結(jié)合當(dāng)前不均衡數(shù)據(jù)分類的研究現(xiàn)狀,該領(lǐng)域未來的發(fā)展還需解決的部分問題如下。

    1)數(shù)據(jù)碎片問題。一些算法將原始的數(shù)據(jù)空間分為越來越小的一系列子空間,導(dǎo)致了數(shù)據(jù)碎片問題。這樣就只能在各個獨(dú)立的空間內(nèi)歸納數(shù)據(jù),那么每個小的子空間中所含有的少數(shù)類信息就更少了,使得一些跨類空間的數(shù)據(jù)無法被挖掘,這是影響少數(shù)類樣本學(xué)習(xí)的關(guān)鍵。

    2)歸納偏置問題。特定樣本的歸納需要一個適當(dāng)?shù)钠?,這是學(xué)習(xí)的先決條件。歸納偏置對算法的性能起著關(guān)鍵性作用。許多算法為了避免過度擬合或是獲得較好的算法性能,使用歸納偏置可能會對少數(shù)類的學(xué)習(xí)產(chǎn)生不利的影響。同時歸納推理系統(tǒng)常常將不確定的樣本劃分為多數(shù)類樣本。因此,如何改善這一缺陷是未來學(xué)者關(guān)注的方向。

    3)噪聲問題。噪聲會嚴(yán)重影響分類器的性能,對于不均衡數(shù)據(jù)分類問題,少數(shù)類樣本很少,所以很難正確區(qū)分噪聲和少數(shù)類樣本。因此,如何抑制噪聲也是目前亟待解決的關(guān)鍵問題。

    [1]KUBAT M,HOLTE R C,MATW IN S.Machine learning for the detection of oil spills in satellite radar images[J].Machine Learning,1998,30(223):195-215.

    [2]LIU Y H,CHEN Y T.Face recognition using total margin-based adaptive fuzzy support vector machines[J].IEEE Transactions on Neural Networks,2007:178-192.

    [3]JAPKOWICZ N.Learning from Imbalanced Data Sets[C]//Proc.Am Assoc for Artificial Intelligence(AAAI)Workshop.[s.l.]:[s.n.],2000.

    [4]CHAWLA N V,JAPKOWICZ N,KOLCZ A.Workshop Learning from Imbalanced Data Sets II[C]//Proc.Int'l Conf Machine Learning.Washington DC:AAAI Press,2003.

    [5]CHAWLA N V,JAPKOWICZ N,KOLCZ A.Editorial:Special Issue on Learning from Imbalanced Data Sets[J].ACM SIGKDD Explorations Newsletter,2004,6(1):1-6.

    [6]SUN Y,KAMEL M S,WANG Y.Boosting for Learning Multiple Classeswith Imbalanced ClassDistribution[C]//Proc.Int'l Conf Data Mining.[s.l.]:[s.n.],2006:592-602.

    [7]ABE N,ZADROZNY B,LANGFORD J.An Iterative Method for Multi-Class Cost-Sensitive Learning[C]//IEEE.Proc ACMSIGKDD Int'l Conf Knowledge Discovery and Data Mining.Washington:IEEE Press,2004:3-11.

    [8]CHEN K,LU B L,KWOK J.Efficient Classification of Multi-Label and Imbalanced Data Using Min-Max Modular Classifiers[C]//Proc.World Congress on Computation Intelligence-Int'l Joint Conf USA:Neural Networks,2006:1770-1775.

    [9]ZHOU Z H,LIU X Y.On Multi-Class Cost-Sensitive Learning[C]//Proc.Nat'l Conf Artificial Intelligence.[s.l.]:[s.n.],2006:567-572.

    [10]LIU X Y,ZHOU Z H.Training Cost-Sensitive Neural Networks with Methods Addressing the Class Imbalance Problem[J].IEEE Trans Knowledge and Data Eng,2006,18(1):63-77.

    [11]TAN C,GILBERT D,DEVILLE Y.Multi-Class Protein Fold Classification Using a New Ensemble Machine Learning Approach[J].Genome Informatics,2003,14:206-217.

    [12]HOLTE R C,ACKER L,PORTER B W.Concept Learning and the Problem of Small Disjuncts[C]//Proc.Int'l J Conf Artificial Intelligence.San Mateo,CA:Morgan Kaufman Publishers,1989:813-818.

    [13]JO T,JAPKOWICZ N.Class Imbalances versus Small Disjuncts[J].ACM SIGKDD Explorations Newsletter,2004,6(1):40-49.

    [14]RAUDYS S J,JAIN A K.Small Sample Size Effects in StatisticalPattern Recognition: Recommendationsfor Practitioners[J].IEEE Trans Pattern Analysis and Machine Intelligence,1991,13(3):252-264.

    [15]WEISS G M,PROVOST F.The Effect of Class Distribution on Classifier Learning:An Empirical Study[C]//Technical Report MLTR-43,Dept of Computer Science.New Jersey:Rutgers University Press,2001.

    [16]ESTABROOKS A,JO T,JAPKOWICZ N.A Multiple Resampling Method for Learning from Imbalanced Data Sets[J].Computational Intelligence,2004,20:18-36.

    [17]MIERSWA I.Controlling overfitting with multi-objective support vector machine[J].ACM GECCO'07,2007:1830-1837.

    [18]WANG B X,JAPKOWICZ N.Imbalanced Data Set Learning with Synthetic Samples[C]//Proc.IRIS Machine Learning Workshop.[s.l.]:[s.n.],2004.

    [19]CALLEJA Jorge de la,F(xiàn)UENTES Olac.A distance-based over-sampling method for learning from imbalanced data sets[C]//IEEE.Proceedings of the Twentieth International Florida Artificial Intelligence Research Society Conference.Florida:IEEE Press,2007:634-635.

    [20]GARCíA V,SáNCHEZ J S.On the use of surrounding neighbors for synthetic over-sampling of the minority class[C]//IEEE.Proceedings of the 8th conference on Simulation, modeling and optimization. Cantabria: IEEE Press,2008:389-394.

    [21]曾志強(qiáng),吳群,廖備水.一種基于核SMOTE的非平衡數(shù)據(jù)集分類方法[J].電子學(xué)報,2009,37(11):2489-2495.ZENG Zhiqiang,WU Qun,LIAO Beishui.A Classification Method For Imbalance Data Set Based on kernel SMOTE[J].ACTA Electronica Sinica,2009,37(11):2489-2495.

    [22]李鵬,王曉龍,劉遠(yuǎn)超.一種基于混合策略的失衡數(shù)據(jù)集分類方法[J].電子學(xué)報,2007,35(11):2161-2165.LI Peng,WANG Xiaolong,LIU Yuanchao.A Classification Method for Imbalance Data Set Based on Hybrid Strategy[J].ACTA Electronica Sinica,2007,35(11):2161-2165.

    [23]HAN H,WANG W Y,MAO B H.Borderline-SMOTE:A New Over-Sampling Method in Imbalanced Data Sets Learning[J].Lecture Notes In Computer Science,2005,3644(1):878-887.

    [24]HE H,BAI Y,GARCIA E A.Adaptive Synthetic Sampling Approach for Imbalanced Learning[C]//IEEE.Proc Int'l J Conf Neural Networks.USA:IEEE Press,2008:1322-1328.

    [25]BATISTA G,PRATI R C,MONARD M C.A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data[J].ACM SIGKDD Explorations Newsletter,2004,6(1):20-29.

    [26]VEERAMACHANENI S,NAGY G.Style context with second-order statistics[J].IEEE Trans Pattern Anal Mach Intell,2005,27(1):14-22.

    [27]ABE N,ZADROZNY B.Outlier detection by active learning[C]//Proceedings of the 12th ACM SIGKDD International Conf on Knowledge Discovery and Data Mining.NY,ACM Press,2006:767-772.

    [28]陶新民,徐晶,童稚靖.不均衡數(shù)據(jù)下基于陰性免疫的過抽樣算法[J].控制與決策,2010,25(6):867-873.TAO Minmin,XU Jin,TONG Zhijing.Over-sampling Algorithm Based On Negative Immune In Imbalanced Data Sets Learning[J].Control and Decision,2010,25(6):867-873.

    [29]LIU X Y,WU J,ZHOU Z H.Exploratory Under Sampling for Class Imbalance Learning[C]//IEEE.Proc Int'l Conf Data Mining.[s.l.]:IEEE Press,2006:965-969.

    [30]CLIFTON P,DAMMINDA A,VINCENT L.Minority Report in Fraud Detection:Classification of Skewed Data[J].ACM SIGKDD Explorations Newsletter,2004,6(1):50-59.

    [31]LAURIKKALA J.Improving identification of difficult small classes by balancing class distribution[C]//Proc.of the 8th Conference on AI in Medicine in Europe:Artificial Intelligence Medicine.London,UK:Springer-Verlag,2001:63-66.

    [32]ZHANG J,MANI I.Approach to Unbalanced Data Distributions:A Case Study Involving Information Extraction[C]//Proc.Int'1 Conf Machine Learning From Imbalanced Data Sets.Washington DC:AAAI Press,2003.

    [33]KUBAT M,MATWIN S.Addressing the Curse of Imbalanced Training Sets:One-Sided Selection[C]//Proc.Int'l Conf Machine Learning.San Francisco:Morgan Kaufmann,1997:179-186.

    [34]YUAN J,LI J,ZHANG B.Learning concepts from large scale imbalanced data sets using support cluster machines[J].ACM Multimedia Conference(MM),2006:441-450.

    [35]BATISTA G,PRATI R C,MONARD M C.A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data[J].ACM SIGKDD Explorations Newsletter,2004,6(1):20-29.

    [36]朱明,陶新民.基于隨機(jī)下采樣和SMOTE的不均衡SVM 分類算法[J].信息技術(shù),2012:39-42.ZHU Ming,TAO Xinmin.The SVM Classifier For Unbalanced Data Based on Combination of RU-Undersample And SMOTE[J].Information Technology,2012:39-42.

    [37]陶新民,童智靖,劉玉.基于ODR和BSMOTE結(jié)合的不均衡數(shù)據(jù)SVM分類算法[J].控制與決策,2011,26(10):1535-1541.TAO Xinmin,TONG Zhijing,LIU Yu.SVM Classifier For Unbalanced Data Based On Combination Of ODR And BSMOTE[J].Control and Decision,2011,26(10):1535-1541.

    [38]GUNETTI D,PICARDI C.Keystroke Analysis of Free tetext[J].ACM Transaction on Information and System Security,2005,8(3):312-347.

    [39]ROTH V.Kernel Fisher Discriminants For Outlier Detection[J].Neural Computing,2006,18(4):942-960.

    [40]HONG X,CHEN S,HARRIS C J.A Kernel-Based Two-Class Classifier For Imbalanced Datasets[J].IEEE Transactions on Neural Networks,2007,18(1):28-41.

    [41]陳斌,馮愛民.基于單簇類聚類的數(shù)據(jù)描述[J].計算機(jī)學(xué)報,2007,30(8):1325-1332.CHEN Bin,F(xiàn)ENG Aimin.One-Clustering Based Data Description[J].Chinese Journal of Computers,2007,30(8):1325-1332.

    [42]WANG D F,YEUNG D S.Structured one-class classification[J].IEEE Trans on Systems and Cybernetics,2006,36(6):1283-1295.

    [43]BREIMAN L.Bagging Predictions[J].Machine Learning,1996,24(2):123-140.

    [44]BREIMAN L.Random forests[J].Journal Machine Learning,2001,45(1):5-32.

    [45]張曉龍,任芳.支持向量機(jī)與AdaBoost的結(jié)合算法研究[J].計算機(jī)應(yīng)用研究,2009,26(1):77-79.ZHANG Xiaolong,REN Fang.Study On Combinability of SVM And Adaboost Algorithm[J].Application Research of Computers,2009,26(1):77-79.

    [46]GUO H,VIKTOR H L.Learning from Imbalanced Data Sets with Boosting and Data Generation:The DataBoost IM Approach[J].ACM SIGKDD Explorations Newsletter,2004,6(1):30-39.

    [47]GUO H,VIKTOR H L.Boosting with Data Generation:Improving the Classification of Hard to Learn Examples[C]//IEEE.Proc Int'l Conf.Innovations Applied Artificial Intelligence.USA:IEEE Press,2004:1082-1091.

    [48]CHAWLA N V,LAZAREVIC A,HALL L O,et al.SMOTEBoost:Improving Prediction of the Minority Class in Boosting[C]//Proc.Seventh European Conf.Principles and Practice of Knowledge Discovery in Databases.Cavtat-Dubrovnik,Croatia:[s.n.],2003:107-119.

    [49]MEASE D,WYNER A J,BUJA A.Boosted Classification Trees and Class Probability/Quantile Estimation[J].Machine Learning Research,2007,8:409-439.

    [50]李想,李濤.基于核函數(shù)的Adaboost分類算法研究[J].電腦知識與技術(shù),2011,7(28):6970-6979.LI Xiang,LI Tao.Classification Algorithm of Kernelbased In Adaboost[J].Computer Knowledge and Technology,2011,7(28):6970-6979.

    [51]顧磊,吳慧中,肖亮.一種基于核的模糊多球分類算法及其集成[J].計算機(jī)工程與應(yīng)用,2007,43(27):10-12.GU Lei,WU Huizhong,XIAO Liang.Kernel-based Fuzzy Multiple Spheres Classification Algorithm And Its Ensemble[J].Computer Engineering and Applications,2007,43(27):10-12.

    [52]陶新民,劉福榮,杜寶祥.不均衡數(shù)據(jù)SVM分類算法及其應(yīng)用[M].哈爾濱:黑龍江科技技術(shù)出版社,2011:223-257.TAO Xinmin,LIU Furong,DU Baoxiang.Unbalanced Data SVM Classification Algorithm And Application[M].Harbin:Heilongjiang Science and Technology Press,2011:223-257.

    [53]ZHOU Z H,LIU X Y.The Influence of Class Imbalance on Cost-Sensitive Learning:An Empirical Study[C]//IEEE.In Proceedings of the sixth IEEE International Conference on Data Mining(ICDM'06).Hong Kong,China:IEEE Press,2006:970-974.

    [54]WU J,BRUBAKER S C,MULLIN M D,et al.Fast asymmetric learning for cascade face detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(3):369-382.

    [55]陶新民,劉福榮,童智靖,等.不均衡數(shù)據(jù)下基于SVM的故障檢測新算法[J].振動與沖擊,2010,29(12):8-12.TAO Xinmin,LIU Furong,TONG Zhijing,et al.A New Algorithm Of Fault Detection Based On SVM In Unbalanced Data[J].Journal of Vibration and Shock,2010,29(12):8-12.

    [56]WU G,KBA Chang E Y.kernel boundary alignment considering imbalanced data distribution[J].IEEE Trans on Knowledge and Data Engineering,2005,17(6):786-795.

    [57]李俊林,符紅光.改進(jìn)的基于核密度估計的數(shù)據(jù)分類算法[J].控制與決策,2010,25(4):507-513.LI Junlin,F(xiàn)U Hongguang.Improved KDE-based Data Classification Algorithm[J].Control and Decision,2010,25(4):507-513.

    [58]ZHENG Z,WU X,SRIHARI R.Feature selection for text categorization on imbalanced data[J].SIGKDD Explorations,2004,6(1):80-89.

    [59]KINGSBURY N,TAY D B H,PALANISWAMI M.Multi-scale kernel methods for classification[C]//IEEE.Proceedings of the IEEE Workshop on Machine Learning for Signal Processing.Washington D.C:USA:IEEE Press,2005,43-48.

    猜你喜歡
    代價分類器分類
    分類算一算
    分類討論求坐標(biāo)
    數(shù)據(jù)分析中的分類討論
    BP-GA光照分類器在車道線識別中的應(yīng)用
    電子測試(2018年1期)2018-04-18 11:52:35
    愛的代價
    海峽姐妹(2017年12期)2018-01-31 02:12:22
    教你一招:數(shù)的分類
    代價
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    成熟的代價
    青草久久国产| 日韩精品中文字幕看吧| 国内精品一区二区在线观看| 麻豆久久精品国产亚洲av| 真人做人爱边吃奶动态| 久久婷婷成人综合色麻豆| av国产免费在线观看| 日韩欧美三级三区| 美女大奶头视频| 最好的美女福利视频网| 日韩成人在线观看一区二区三区| 国产亚洲精品第一综合不卡| 美女午夜性视频免费| www.999成人在线观看| 黄色视频,在线免费观看| 99久久无色码亚洲精品果冻| 国产成人av教育| 国产成人啪精品午夜网站| 在线播放国产精品三级| 日本一本二区三区精品| 女人爽到高潮嗷嗷叫在线视频| 天天一区二区日本电影三级| 韩国av一区二区三区四区| 欧美激情久久久久久爽电影| 日韩精品青青久久久久久| 草草在线视频免费看| 国产一区二区激情短视频| 大型av网站在线播放| 国产成人精品久久二区二区91| 最近在线观看免费完整版| 女人被狂操c到高潮| 成人18禁高潮啪啪吃奶动态图| 观看免费一级毛片| 亚洲av五月六月丁香网| 日韩欧美国产一区二区入口| 波多野结衣高清作品| 香蕉丝袜av| 国产精品久久视频播放| 亚洲av美国av| 久久久久久久精品吃奶| 欧美人与性动交α欧美精品济南到| 国产成人欧美在线观看| 可以在线观看毛片的网站| 欧美日韩瑟瑟在线播放| 精品人妻1区二区| 一进一出好大好爽视频| 91av网站免费观看| 女警被强在线播放| 黑人欧美特级aaaaaa片| 在线a可以看的网站| 又黄又爽又免费观看的视频| 精品第一国产精品| 黄色视频不卡| 少妇人妻一区二区三区视频| 日韩免费av在线播放| 国产精品久久久久久久电影 | 好看av亚洲va欧美ⅴa在| 欧美日韩亚洲国产一区二区在线观看| 欧美3d第一页| 欧美成人免费av一区二区三区| 亚洲欧美激情综合另类| 亚洲人成电影免费在线| 99热6这里只有精品| 蜜桃久久精品国产亚洲av| 精品久久久久久久人妻蜜臀av| 午夜激情av网站| 精品人妻1区二区| 国产成年人精品一区二区| 日韩av在线大香蕉| 性欧美人与动物交配| 免费观看精品视频网站| 999久久久精品免费观看国产| 国产一区在线观看成人免费| 亚洲人成77777在线视频| 精品久久久久久久末码| a在线观看视频网站| 亚洲第一欧美日韩一区二区三区| 搡老熟女国产l中国老女人| 少妇粗大呻吟视频| 亚洲精品国产精品久久久不卡| 国产精品久久视频播放| 伦理电影免费视频| 国产亚洲精品综合一区在线观看 | 母亲3免费完整高清在线观看| 欧美性猛交黑人性爽| 日本a在线网址| 亚洲国产欧美人成| 国产午夜精品久久久久久| 国产三级中文精品| 国产1区2区3区精品| 99热6这里只有精品| 日本三级黄在线观看| xxx96com| 一级毛片高清免费大全| 久久热在线av| 中文字幕av在线有码专区| 99精品在免费线老司机午夜| 国产又黄又爽又无遮挡在线| 久久久久久亚洲精品国产蜜桃av| 欧美黄色淫秽网站| 久久草成人影院| 国产真实乱freesex| 国产亚洲av嫩草精品影院| 亚洲色图 男人天堂 中文字幕| 成人手机av| tocl精华| 99在线视频只有这里精品首页| 好男人在线观看高清免费视频| 女警被强在线播放| 亚洲人成伊人成综合网2020| 久久久国产成人免费| 欧美一区二区国产精品久久精品 | 制服诱惑二区| 欧美日韩一级在线毛片| 久久九九热精品免费| 欧美黑人巨大hd| 这个男人来自地球电影免费观看| 午夜精品久久久久久毛片777| 国产成人av教育| 久久九九热精品免费| 很黄的视频免费| 夜夜夜夜夜久久久久| 精品欧美国产一区二区三| 成人av在线播放网站| 桃红色精品国产亚洲av| 国产熟女午夜一区二区三区| 国产日本99.免费观看| 精品欧美一区二区三区在线| 亚洲国产精品合色在线| 国产一区二区在线观看日韩 | 老司机午夜十八禁免费视频| 午夜精品在线福利| 精品国产亚洲在线| 国产精品免费视频内射| 亚洲精品在线美女| 国产激情欧美一区二区| 国产探花在线观看一区二区| 亚洲精品中文字幕在线视频| 国产午夜精品久久久久久| 亚洲欧美日韩高清专用| 黄色丝袜av网址大全| 黑人操中国人逼视频| 亚洲电影在线观看av| 亚洲精品久久成人aⅴ小说| 国产精品综合久久久久久久免费| 久久久水蜜桃国产精品网| 久久99热这里只有精品18| 老鸭窝网址在线观看| 成熟少妇高潮喷水视频| 中文字幕av在线有码专区| 亚洲人成网站高清观看| 99精品欧美一区二区三区四区| 日韩 欧美 亚洲 中文字幕| 欧美黑人欧美精品刺激| 国产精品一及| 国产三级黄色录像| 丝袜美腿诱惑在线| 一个人免费在线观看的高清视频| 两性夫妻黄色片| 天堂影院成人在线观看| 日本成人三级电影网站| av在线播放免费不卡| 91av网站免费观看| 国产精品久久电影中文字幕| 国产精品国产高清国产av| 日韩欧美精品v在线| 成在线人永久免费视频| 国产区一区二久久| netflix在线观看网站| 好男人电影高清在线观看| av有码第一页| 国产成人一区二区三区免费视频网站| √禁漫天堂资源中文www| 国产精品亚洲美女久久久| 最好的美女福利视频网| 少妇裸体淫交视频免费看高清 | 观看免费一级毛片| 国产精品综合久久久久久久免费| 听说在线观看完整版免费高清| 久久久久性生活片| 欧美 亚洲 国产 日韩一| 亚洲真实伦在线观看| 午夜影院日韩av| 国产单亲对白刺激| 夜夜夜夜夜久久久久| 老司机福利观看| 亚洲va日本ⅴa欧美va伊人久久| av福利片在线观看| 在线免费观看的www视频| 男插女下体视频免费在线播放| 日韩欧美国产在线观看| 成人av一区二区三区在线看| 亚洲国产欧美人成| 精品久久蜜臀av无| 757午夜福利合集在线观看| 啦啦啦免费观看视频1| 少妇裸体淫交视频免费看高清 | 天堂av国产一区二区熟女人妻 | 国产精品,欧美在线| 亚洲五月天丁香| 欧美另类亚洲清纯唯美| 一级黄色大片毛片| 亚洲av成人av| 免费看日本二区| 欧美精品啪啪一区二区三区| 欧美黄色片欧美黄色片| 国产欧美日韩一区二区精品| 麻豆一二三区av精品| 久久久久亚洲av毛片大全| 国产精品自产拍在线观看55亚洲| 成人国语在线视频| 在线观看舔阴道视频| 在线观看舔阴道视频| 人人妻人人澡欧美一区二区| av超薄肉色丝袜交足视频| 亚洲国产精品久久男人天堂| 麻豆久久精品国产亚洲av| 国产一区二区在线av高清观看| 99久久国产精品久久久| 99国产精品一区二区三区| 国产真人三级小视频在线观看| 国产精品久久久久久人妻精品电影| 国产久久久一区二区三区| 女同久久另类99精品国产91| 国内毛片毛片毛片毛片毛片| √禁漫天堂资源中文www| 国语自产精品视频在线第100页| 19禁男女啪啪无遮挡网站| 欧美3d第一页| 亚洲熟女毛片儿| 长腿黑丝高跟| xxxwww97欧美| 不卡一级毛片| 香蕉丝袜av| 蜜桃久久精品国产亚洲av| 欧美性长视频在线观看| 天堂动漫精品| 成年女人毛片免费观看观看9| 白带黄色成豆腐渣| 九色成人免费人妻av| 欧美日韩亚洲国产一区二区在线观看| 亚洲人成网站在线播放欧美日韩| 欧美性猛交黑人性爽| 老司机午夜福利在线观看视频| 国产精品一区二区精品视频观看| 国产高清视频在线观看网站| 日本一区二区免费在线视频| 精品一区二区三区视频在线观看免费| 亚洲九九香蕉| 国产精品一区二区免费欧美| www.自偷自拍.com| 一级片免费观看大全| 亚洲欧美日韩高清在线视频| 丁香欧美五月| 欧美人与性动交α欧美精品济南到| 91在线观看av| 亚洲激情在线av| 欧美人与性动交α欧美精品济南到| 国产免费男女视频| 国产精品,欧美在线| bbb黄色大片| 天堂av国产一区二区熟女人妻 | 久久精品影院6| 亚洲av成人av| 免费在线观看黄色视频的| 亚洲国产欧美网| 日韩精品免费视频一区二区三区| 在线看三级毛片| 国产69精品久久久久777片 | 久久中文看片网| 亚洲欧美一区二区三区黑人| 人妻久久中文字幕网| 国产精品亚洲一级av第二区| 国产91精品成人一区二区三区| 国产亚洲av嫩草精品影院| 一级毛片女人18水好多| 村上凉子中文字幕在线| 国产精品久久视频播放| 一级毛片精品| 国产主播在线观看一区二区| 给我免费播放毛片高清在线观看| 成人精品一区二区免费| 午夜福利欧美成人| 欧美日韩中文字幕国产精品一区二区三区| 两人在一起打扑克的视频| 国产精品亚洲美女久久久| 久久精品aⅴ一区二区三区四区| 国产精品免费一区二区三区在线| 色综合亚洲欧美另类图片| 久久久久久大精品| 国产精品久久电影中文字幕| 欧美又色又爽又黄视频| 精品久久久久久久末码| 精品高清国产在线一区| 99国产精品99久久久久| 在线永久观看黄色视频| 亚洲av熟女| 亚洲在线自拍视频| 欧美日本亚洲视频在线播放| 午夜免费激情av| 中文字幕高清在线视频| 亚洲激情在线av| 午夜老司机福利片| 国产精品1区2区在线观看.| 国产在线观看jvid| 午夜福利视频1000在线观看| 色av中文字幕| 又粗又爽又猛毛片免费看| 久久精品影院6| 亚洲中文av在线| 亚洲免费av在线视频| 亚洲欧美日韩高清在线视频| 精品久久久久久,| 这个男人来自地球电影免费观看| 午夜日韩欧美国产| 久久精品国产亚洲av香蕉五月| 在线观看免费午夜福利视频| 白带黄色成豆腐渣| 国产欧美日韩精品亚洲av| 久久精品aⅴ一区二区三区四区| 国产熟女午夜一区二区三区| 欧美日韩国产亚洲二区| 久久99热这里只有精品18| 免费在线观看黄色视频的| 久久久久国产精品人妻aⅴ院| 久久精品aⅴ一区二区三区四区| 在线观看日韩欧美| 国产精品乱码一区二三区的特点| 国产高清视频在线观看网站| 欧美色欧美亚洲另类二区| 在线a可以看的网站| 免费在线观看完整版高清| 国产视频内射| 成人永久免费在线观看视频| 亚洲国产欧美人成| 国产日本99.免费观看| 国语自产精品视频在线第100页| 狠狠狠狠99中文字幕| 午夜精品一区二区三区免费看| 亚洲激情在线av| 国产区一区二久久| 国产精品久久久av美女十八| 成年女人毛片免费观看观看9| 久久久久久人人人人人| 无人区码免费观看不卡| 亚洲国产欧美网| 天天躁狠狠躁夜夜躁狠狠躁| 国产免费男女视频| 18禁裸乳无遮挡免费网站照片| 午夜福利在线观看吧| 亚洲国产精品久久男人天堂| 99国产精品99久久久久| 白带黄色成豆腐渣| 美女黄网站色视频| 丁香欧美五月| 老汉色av国产亚洲站长工具| АⅤ资源中文在线天堂| 首页视频小说图片口味搜索| 亚洲中文字幕一区二区三区有码在线看 | 国产在线观看jvid| 中文字幕精品亚洲无线码一区| 亚洲精品一卡2卡三卡4卡5卡| 在线视频色国产色| 久久久久国内视频| 特级一级黄色大片| videosex国产| 淫妇啪啪啪对白视频| 女同久久另类99精品国产91| 国产亚洲精品久久久久5区| 国内精品久久久久精免费| 99久久久亚洲精品蜜臀av| 亚洲黑人精品在线| 国产精品野战在线观看| 深夜精品福利| 国产人伦9x9x在线观看| 国产男靠女视频免费网站| 国产欧美日韩一区二区精品| 久久国产精品影院| 长腿黑丝高跟| 99久久精品国产亚洲精品| 国产午夜福利久久久久久| 日韩欧美 国产精品| 亚洲国产精品成人综合色| 亚洲熟妇中文字幕五十中出| 亚洲精品粉嫩美女一区| 亚洲欧美日韩无卡精品| 免费av毛片视频| 亚洲性夜色夜夜综合| 19禁男女啪啪无遮挡网站| 免费在线观看黄色视频的| 真人做人爱边吃奶动态| 香蕉久久夜色| 精品电影一区二区在线| 99在线人妻在线中文字幕| 嫁个100分男人电影在线观看| 精品久久久久久久久久久久久| 色尼玛亚洲综合影院| 久久国产精品影院| 久久精品国产清高在天天线| 91av网站免费观看| 婷婷丁香在线五月| 一级黄色大片毛片| 黄色视频不卡| 制服诱惑二区| 亚洲午夜理论影院| 免费av毛片视频| 久久午夜亚洲精品久久| 亚洲熟女毛片儿| 搡老妇女老女人老熟妇| 91在线观看av| 九色成人免费人妻av| 国产麻豆成人av免费视频| 亚洲中文字幕日韩| 巨乳人妻的诱惑在线观看| 别揉我奶头~嗯~啊~动态视频| 日本熟妇午夜| 舔av片在线| 精品国内亚洲2022精品成人| 精品乱码久久久久久99久播| 欧美成人免费av一区二区三区| 国产精品影院久久| 欧美成人一区二区免费高清观看 | 国产精品亚洲av一区麻豆| 在线观看舔阴道视频| 国产高清视频在线观看网站| 夜夜爽天天搞| 夜夜躁狠狠躁天天躁| 1024香蕉在线观看| 99热这里只有精品一区 | 91麻豆精品激情在线观看国产| 久久久国产成人精品二区| av天堂在线播放| 精品国产乱码久久久久久男人| 老司机福利观看| 亚洲欧美精品综合一区二区三区| 日本 av在线| 国产97色在线日韩免费| 91老司机精品| 免费无遮挡裸体视频| 一边摸一边做爽爽视频免费| 欧美国产日韩亚洲一区| 99久久99久久久精品蜜桃| 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲精品在线美女| 久久久久久大精品| 天堂av国产一区二区熟女人妻 | 久久久精品国产亚洲av高清涩受| 三级国产精品欧美在线观看 | 女人高潮潮喷娇喘18禁视频| 亚洲av第一区精品v没综合| 日韩欧美在线乱码| 久久香蕉国产精品| 欧美日韩中文字幕国产精品一区二区三区| 精品久久久久久久久久免费视频| 国产精品亚洲一级av第二区| 亚洲av日韩精品久久久久久密| 高潮久久久久久久久久久不卡| 亚洲精品中文字幕在线视频| 毛片女人毛片| 日韩中文字幕欧美一区二区| 成人国产一区最新在线观看| 国产真实乱freesex| 全区人妻精品视频| 日韩高清综合在线| av福利片在线观看| 男女下面进入的视频免费午夜| 性欧美人与动物交配| 村上凉子中文字幕在线| 亚洲免费av在线视频| 最好的美女福利视频网| 国产69精品久久久久777片 | 亚洲国产精品成人综合色| 国产免费男女视频| 国产一区在线观看成人免费| 国产日本99.免费观看| 又粗又爽又猛毛片免费看| 国产一区二区激情短视频| 人妻久久中文字幕网| av中文乱码字幕在线| 麻豆成人午夜福利视频| 欧美三级亚洲精品| 热99re8久久精品国产| 在线观看www视频免费| 久9热在线精品视频| 我的老师免费观看完整版| 亚洲成av人片免费观看| 999久久久国产精品视频| 一本一本综合久久| 欧美乱码精品一区二区三区| 久久亚洲真实| 亚洲色图av天堂| 亚洲欧美日韩高清专用| 久热爱精品视频在线9| 亚洲一码二码三码区别大吗| 999久久久精品免费观看国产| 国产成人精品无人区| 一区二区三区国产精品乱码| 天天添夜夜摸| 亚洲欧洲精品一区二区精品久久久| 亚洲国产欧美人成| 男男h啪啪无遮挡| 色播亚洲综合网| 色老头精品视频在线观看| 真人一进一出gif抽搐免费| 国产午夜福利久久久久久| 午夜精品在线福利| 国产成人系列免费观看| 亚洲欧美精品综合久久99| 美女黄网站色视频| 久久久久久久久免费视频了| 俄罗斯特黄特色一大片| 国产精品乱码一区二三区的特点| 一二三四社区在线视频社区8| 国产精品 欧美亚洲| 亚洲成人久久性| 久久国产乱子伦精品免费另类| 国产爱豆传媒在线观看 | 神马国产精品三级电影在线观看 | 久热爱精品视频在线9| 久久精品91无色码中文字幕| 一区二区三区激情视频| 非洲黑人性xxxx精品又粗又长| 亚洲真实伦在线观看| √禁漫天堂资源中文www| 国产黄a三级三级三级人| 日日爽夜夜爽网站| 大型av网站在线播放| 一区二区三区高清视频在线| 精品一区二区三区四区五区乱码| 久久这里只有精品中国| 一级毛片高清免费大全| 香蕉丝袜av| 999久久久精品免费观看国产| 久久香蕉激情| 亚洲精品久久成人aⅴ小说| 日韩欧美国产在线观看| 亚洲人成77777在线视频| 国产免费男女视频| 日本 av在线| 中文字幕久久专区| a级毛片a级免费在线| 在线观看日韩欧美| 嫩草影视91久久| 国产区一区二久久| 悠悠久久av| 久久久国产成人精品二区| 日本精品一区二区三区蜜桃| 成人一区二区视频在线观看| 两个人视频免费观看高清| 欧美激情久久久久久爽电影| 我要搜黄色片| 三级男女做爰猛烈吃奶摸视频| 男女视频在线观看网站免费 | 午夜亚洲福利在线播放| 中文资源天堂在线| 男插女下体视频免费在线播放| 日韩欧美 国产精品| 日韩欧美在线二视频| 国产私拍福利视频在线观看| 在线观看舔阴道视频| 精品免费久久久久久久清纯| 少妇粗大呻吟视频| 免费在线观看成人毛片| 又粗又爽又猛毛片免费看| 亚洲成a人片在线一区二区| 此物有八面人人有两片| 黄色丝袜av网址大全| 亚洲av成人av| 国产精品一区二区三区四区免费观看 | 久久国产精品人妻蜜桃| 国产精品久久久久久精品电影| 色av中文字幕| 亚洲成人国产一区在线观看| 国产av麻豆久久久久久久| 夜夜爽天天搞| 亚洲精品中文字幕在线视频| 亚洲精品国产一区二区精华液| 欧美午夜高清在线| 久久久久免费精品人妻一区二区| 两个人视频免费观看高清| 大型黄色视频在线免费观看| 老司机午夜十八禁免费视频| 88av欧美| 一区二区三区国产精品乱码| 日本一二三区视频观看| 午夜福利高清视频| 制服人妻中文乱码| 亚洲熟妇熟女久久| 精品福利观看| 午夜免费激情av| 99re在线观看精品视频| xxxwww97欧美| 日韩欧美精品v在线| 日日爽夜夜爽网站| 国产成人精品无人区| 久久精品人妻少妇| 成人三级做爰电影| 久久精品综合一区二区三区| 国产激情偷乱视频一区二区| 丝袜美腿诱惑在线| 国产黄片美女视频| 在线观看免费午夜福利视频| 成人三级黄色视频| 91麻豆av在线| 国产免费av片在线观看野外av| 精品久久久久久久久久久久久| 国产黄色小视频在线观看| 国产视频一区二区在线看| 亚洲欧美精品综合久久99| 欧美午夜高清在线| 岛国在线观看网站| 两性夫妻黄色片| 男女做爰动态图高潮gif福利片| 国产99久久九九免费精品| 久久久久久大精品|