• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向不平衡數(shù)據(jù)集的機(jī)器學(xué)習(xí)分類(lèi)策略

    2020-12-26 02:56:24徐玲玲遲冬祥
    關(guān)鍵詞:特征選擇分類(lèi)器分類(lèi)

    徐玲玲,遲冬祥

    上海電機(jī)學(xué)院 電子信息學(xué)院,上海201306

    1 引言

    科學(xué)技術(shù)的不斷創(chuàng)新發(fā)展使得數(shù)據(jù)迅速膨脹并呈爆炸性增長(zhǎng),從錯(cuò)綜復(fù)雜的海量數(shù)據(jù)中挖掘出潛在的價(jià)值成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域最為熱門(mén)的話(huà)題。傳統(tǒng)的分類(lèi)問(wèn)題大體是假設(shè)數(shù)據(jù)平衡,但在諸多應(yīng)用領(lǐng)域這種假設(shè)往往是不成立的,即數(shù)據(jù)集中某一類(lèi)的數(shù)量顯著多于另一類(lèi),因此形成了不平衡數(shù)據(jù)集(imbalanced data sets)[1],此時(shí)傳統(tǒng)的分類(lèi)算法如決策樹(shù)、樸素貝葉斯、KNN、SVM等基于精度評(píng)價(jià)標(biāo)準(zhǔn)的分類(lèi)算法也不能很好地適用于不平衡數(shù)據(jù)集。一般稱(chēng)樣本數(shù)量極端少的一類(lèi)為少數(shù)類(lèi)(minority class),樣本數(shù)量特別多的類(lèi)別為多數(shù)類(lèi)(majority class),正類(lèi)和負(fù)類(lèi)之間的比例稱(chēng)之為不平衡比例(Imbalanced Ratio,IR),這種廣泛存在的樣本數(shù)量不平衡問(wèn)題使得在處理不平衡數(shù)據(jù)集分類(lèi)時(shí)容易發(fā)生錯(cuò)誤分類(lèi),尤其在不平衡比例非常高的情況下,會(huì)造成很大的分類(lèi)損失。例如在癌癥疾病診斷中,把患者錯(cuò)誤診斷為正常,會(huì)使病人錯(cuò)失最佳治療時(shí)機(jī),嚴(yán)重的還會(huì)造成生命威脅;又如在欺詐檢測(cè)中,把欺詐事件誤判為正常的代價(jià)遠(yuǎn)大于把正常的誤判為異常,甚至造成不可預(yù)估的損失。

    近年來(lái),上述數(shù)據(jù)不平衡現(xiàn)象在各行各業(yè)愈發(fā)突出,引起了眾多專(zhuān)家學(xué)者的高度關(guān)注[2],提出解決不平衡數(shù)據(jù)集的分類(lèi)策略也層出不窮,總結(jié)起來(lái)可以歸為兩大類(lèi),一類(lèi)是從數(shù)據(jù)本身出發(fā)對(duì)數(shù)據(jù)集重構(gòu),以此改變樣本數(shù)量的分布結(jié)構(gòu),使不平衡數(shù)據(jù)集內(nèi)不同類(lèi)別之間的數(shù)量達(dá)到相對(duì)平衡。另一類(lèi)針對(duì)傳統(tǒng)分類(lèi)模型整體分類(lèi)精度高卻對(duì)少數(shù)類(lèi)識(shí)別能力低的特點(diǎn),分別從分類(lèi)算法和分類(lèi)思想層面,提出了一系列有針對(duì)性、偏向?qū)ι贁?shù)類(lèi)更加關(guān)注、提高少數(shù)類(lèi)分類(lèi)精度的改進(jìn)策略。

    2 不平衡數(shù)據(jù)集分類(lèi)問(wèn)題概述

    本章主要通過(guò)介紹不平衡數(shù)據(jù)集存在的基本問(wèn)題,如不平衡數(shù)據(jù)集的特征描述、常見(jiàn)的應(yīng)用場(chǎng)景、一般的分類(lèi)過(guò)程以及不平衡數(shù)據(jù)集分類(lèi)困難的主要來(lái)源,提供了對(duì)類(lèi)不平衡數(shù)據(jù)集全面且深入的剖析。

    2.1 不平衡數(shù)據(jù)集定義及應(yīng)用場(chǎng)景

    數(shù)據(jù)不平衡問(wèn)題主要是指數(shù)據(jù)集中各類(lèi)別樣本數(shù)量分布不均衡,由于不平衡數(shù)據(jù)集分類(lèi)問(wèn)題的特殊性,用一般的分類(lèi)算法對(duì)其進(jìn)行分類(lèi)操作時(shí),往往易受“少數(shù)服從多數(shù)”原則影響。顯而易見(jiàn),分類(lèi)器為了提高整體的分類(lèi)精度,會(huì)自然地忽略少數(shù)類(lèi)對(duì)分類(lèi)的影響并將其劃分為多數(shù)類(lèi)。依據(jù)這樣的劃分結(jié)果確實(shí)能得到一個(gè)較高的分類(lèi)性能,卻不能帶來(lái)相對(duì)高的利用價(jià)值。正所謂“物以稀為貴”,類(lèi)不平衡問(wèn)題中數(shù)量稀少的少數(shù)類(lèi)帶來(lái)的價(jià)值遠(yuǎn)遠(yuǎn)超過(guò)多數(shù)類(lèi),集中研究它會(huì)給人們帶來(lái)巨大的潛在價(jià)值。在醫(yī)療檢測(cè)、異常檢測(cè)、故障分析、信用卡欺詐等場(chǎng)景中無(wú)一例外地存在不平衡數(shù)據(jù)集分類(lèi)的困擾。

    2.2 不平衡數(shù)據(jù)集分類(lèi)過(guò)程

    機(jī)器學(xué)習(xí)的分類(lèi)過(guò)程主要包括:獲取原始數(shù)據(jù)集、數(shù)據(jù)預(yù)處理、分類(lèi)模型構(gòu)建、模型評(píng)估四部分,不平衡數(shù)據(jù)集也常遵循著以下分類(lèi)流程。

    (1)獲取原始數(shù)據(jù)集:數(shù)據(jù)集是機(jī)器學(xué)習(xí)算法必不可少的元素,獲取數(shù)據(jù)集也是機(jī)器學(xué)習(xí)研究的第一步,較為常見(jiàn)的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集是UCI數(shù)據(jù)集。

    (2)數(shù)據(jù)預(yù)處理:原始數(shù)據(jù)可能是雜亂無(wú)章、紛繁復(fù)雜的,直接用這樣的數(shù)據(jù)集進(jìn)行建模訓(xùn)練往往會(huì)給分類(lèi)器帶來(lái)極高的訓(xùn)練成本,卻得不到較好的分類(lèi)效果。通常會(huì)在對(duì)不平衡數(shù)據(jù)集分析后,進(jìn)行一些預(yù)處理操作,為訓(xùn)練模型減少后顧之憂(yōu)。

    (3)分類(lèi)模型構(gòu)建:這是從數(shù)據(jù)中學(xué)習(xí)從而建立一個(gè)分類(lèi)模型(分類(lèi)器,classifier),然后對(duì)新的輸入進(jìn)行輸出預(yù)測(cè)的過(guò)程。構(gòu)建分類(lèi)模型從來(lái)不是一勞永逸的事情,需要根據(jù)不平衡數(shù)據(jù)集的內(nèi)在特征,構(gòu)建適合的分類(lèi)模型。

    (4)模型評(píng)估:通過(guò)一系列的評(píng)估指標(biāo)去判斷一個(gè)分類(lèi)器模型的分類(lèi)效果。

    2.3 不平衡數(shù)據(jù)集分類(lèi)存在的困難

    分類(lèi)是機(jī)器學(xué)習(xí)研究的基本問(wèn)題,就算面對(duì)一組平衡的數(shù)據(jù)集,分類(lèi)問(wèn)題本身也沒(méi)有一套較為完善的處理算法,不平衡數(shù)據(jù)集又以其內(nèi)在的復(fù)雜性和特殊性,使得這一領(lǐng)域的研究還存在諸多有待解決的困難,其分類(lèi)困難的主要原因如下。

    (1)數(shù)據(jù)采樣困難:分類(lèi)問(wèn)題常帶來(lái)的是大量數(shù)據(jù),但在不平衡數(shù)據(jù)集中少數(shù)類(lèi)樣本所占比值往往遠(yuǎn)不及整體樣本的百分之一。雖然會(huì)采取一系列的采樣策略去平衡數(shù)據(jù),而現(xiàn)存的采樣方法普遍存在諸如過(guò)擬合、易丟失多數(shù)類(lèi)樣本信息、增加冗余信息等缺陷。

    (2)算法選擇困難:常見(jiàn)的較為成熟的分類(lèi)算法如決策樹(shù)、隨機(jī)森林、支持向量機(jī)等雖已取得長(zhǎng)足的發(fā)展,但它們對(duì)不平衡數(shù)據(jù)中少數(shù)類(lèi)的識(shí)別率低,不能很好地適應(yīng)不平衡數(shù)據(jù)集的特點(diǎn)。

    (3)數(shù)據(jù)識(shí)別困難:噪聲通常是數(shù)據(jù)集中不可避免的因素,少數(shù)類(lèi)樣本遇上噪聲無(wú)疑會(huì)降低分類(lèi)器對(duì)少數(shù)類(lèi)的識(shí)別能力。特別當(dāng)噪聲數(shù)據(jù)的數(shù)量與少數(shù)類(lèi)樣本數(shù)量持平或多于時(shí),可能出現(xiàn)分類(lèi)器同時(shí)學(xué)習(xí)噪聲和少數(shù)類(lèi)的風(fēng)險(xiǎn)。因此,盡可能多地去除不平衡數(shù)據(jù)集中的噪聲尤為重要,也與后續(xù)分類(lèi)器順利分類(lèi)息息相關(guān)。

    (4)性能評(píng)價(jià)困難:性能評(píng)價(jià)對(duì)衡量一個(gè)分類(lèi)器的優(yōu)劣具有重要的評(píng)判價(jià)值,也為選擇合適的分類(lèi)器提供了不可或缺的參考價(jià)值?;跍?zhǔn)確率和錯(cuò)誤率的評(píng)價(jià)指標(biāo)會(huì)為了追求整體較高的準(zhǔn)確率和較低的錯(cuò)誤率,不惜以犧牲少數(shù)類(lèi)為代價(jià)將未知樣本向多數(shù)類(lèi)傾斜,忽略了少數(shù)類(lèi)樣本的分類(lèi)精度,因而不能很好地反映模型的好壞。

    3 不平衡數(shù)據(jù)集的數(shù)據(jù)重構(gòu)策略

    數(shù)據(jù)重構(gòu)策略是獨(dú)立于分類(lèi)算法、在數(shù)據(jù)層面上對(duì)原始數(shù)據(jù)分布進(jìn)行預(yù)處理的過(guò)程,旨在將不平衡數(shù)據(jù)集轉(zhuǎn)換成較平衡數(shù)據(jù)集,然后采用對(duì)平衡數(shù)據(jù)的分類(lèi)方法進(jìn)行學(xué)習(xí)分類(lèi)和性能評(píng)估。目前最為常見(jiàn)的數(shù)據(jù)重構(gòu)策略有特征選擇和重采樣技術(shù)。

    3.1 特征選擇

    有時(shí)數(shù)據(jù)集中的數(shù)據(jù)是不相關(guān)的、冗余的或是有噪聲的,特征選擇的目的是在不丟失有用信息的前提下,采用“取其精華,去其糟粕”的思想,從原始特征空間中選擇較優(yōu)的特征,剔除劣等特征,從而在原始特征中選擇更適合不平衡數(shù)據(jù)集、能更好地反映不平衡數(shù)據(jù)集特點(diǎn)的訓(xùn)練子集,使構(gòu)建的分類(lèi)器模型達(dá)到最優(yōu)的性能。

    常見(jiàn)的特征選擇方法大致可分為三類(lèi):過(guò)濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。以下分別介紹了三種特征選擇方法的特點(diǎn)、分析了面對(duì)不平衡數(shù)據(jù)集時(shí)它們做出的一系列改進(jìn)方法。

    (1)過(guò)濾式特征選擇算法(filter)

    過(guò)濾式算法與分類(lèi)器獨(dú)立,在訓(xùn)練分類(lèi)器之前先利用距離測(cè)度、信息測(cè)度和相關(guān)性測(cè)度等特征選擇方法對(duì)初始特征進(jìn)行“過(guò)濾”,再使用過(guò)濾后的特征對(duì)模型訓(xùn)練。文獻(xiàn)[3]便提出三種filter 技術(shù):高權(quán)重(HW)、差分少數(shù)重復(fù)(DMR)和平衡少數(shù)重復(fù)(BMR),有效地從不平衡分布數(shù)據(jù)集中識(shí)別和選擇出重要信息的特征。Relief[4]是一種典型的基于filter 原理的特征選擇方法,根據(jù)二分類(lèi)中每個(gè)樣本的特征與其最近的樣本之間的差異來(lái)估計(jì)特征的重要性,為分類(lèi)貢獻(xiàn)大的特征賦予較大的權(quán)值,Relief 算法簡(jiǎn)單、運(yùn)行效率高、對(duì)數(shù)據(jù)類(lèi)型也沒(méi)有限制,然而它在廣泛應(yīng)用的同時(shí),暴露出不適合處理有干擾的數(shù)據(jù),也不適合處理不平衡數(shù)據(jù)等缺陷。為了彌補(bǔ)這些缺陷,菅小艷等[5]提出基于Relief 算法的閾值-Relief 干擾數(shù)據(jù)特征選擇算法,消除了干擾數(shù)據(jù)對(duì)分類(lèi)結(jié)果的影響。

    特征選擇方法多采用歐氏距離來(lái)衡量樣本之間的差異,以識(shí)別出有助于分類(lèi)的特征。歐氏距離簡(jiǎn)單易計(jì)算,卻只局限于兩個(gè)樣本之間的相似度,忽略了數(shù)據(jù)的整體結(jié)構(gòu)以及類(lèi)內(nèi)的不平衡,導(dǎo)致分類(lèi)器的分類(lèi)性能較差。Shahee 等[6]由此提出了基于距離的特征選擇方法(ED-Relief),其特點(diǎn)是采用一種新的距離度量,利用歸一化JF散度的幾何平均值以及類(lèi)之間的分離來(lái)同時(shí)處理類(lèi)內(nèi)和類(lèi)間的不平衡,突破了傳統(tǒng)僅基于類(lèi)間不平衡特征選擇的局限。

    由于filter 算法獨(dú)立于分類(lèi)器,只是通過(guò)分析原始特征集的內(nèi)在特性,再結(jié)合相應(yīng)的評(píng)價(jià)準(zhǔn)則來(lái)選擇特征子集,通常會(huì)降低分類(lèi)器的準(zhǔn)確率。

    (2)包裹式特征選擇算法(wrapper)

    包裹式特征選擇算法[7]與分類(lèi)器相結(jié)合,直接把最終將要使用的分類(lèi)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則,旨在通過(guò)啟發(fā)式或順序式搜索等方式為給定的分類(lèi)器選擇出能夠取得較高準(zhǔn)確率、有利于其性能的特征子集。Yang等[8]提出的基于集成的包裹式特征選擇方法,從類(lèi)分布高度不平衡的數(shù)據(jù)中進(jìn)行特征選擇,通過(guò)采樣方法從原始的不平衡數(shù)據(jù)集中創(chuàng)建多個(gè)平衡數(shù)據(jù)集,然后使用在平衡數(shù)據(jù)集上訓(xùn)練的基分類(lèi)器集成來(lái)評(píng)估特征子集。Das等[9]正是分析了過(guò)濾和包裹式方法在特征選擇中的優(yōu)缺點(diǎn),從而提出一種新的混合算法,它利用提升技術(shù),將wrapper 方法的一些特征融合到一種快速的特征選擇filter 方法中。實(shí)驗(yàn)結(jié)果表明,該混合算法不僅在訓(xùn)練速度上優(yōu)于單一的wrapper 方法,并且可以很好地?cái)U(kuò)展到具有數(shù)千個(gè)特征的數(shù)據(jù)集。

    雖然包裹式特征選擇方法為給定分類(lèi)器進(jìn)行優(yōu)化,獲得了比過(guò)濾式特征選擇方法更好的性能,但它需要不斷地訓(xùn)練和測(cè)試分類(lèi)器以找到最優(yōu)的特征組合,需要的計(jì)算代價(jià)大,遍歷時(shí)間長(zhǎng)。

    (3)嵌入式特征選擇算法(embedding)

    不同于過(guò)濾式和包裹式方法,嵌入式算法沒(méi)有將特征選擇過(guò)程和分類(lèi)器訓(xùn)練過(guò)程明顯區(qū)別,而是將這兩者有機(jī)融合在一起,在訓(xùn)練分類(lèi)器的過(guò)程中自動(dòng)進(jìn)行特征選擇。不僅能使所訓(xùn)練的分類(lèi)器具有較高的準(zhǔn)確率,還能大大節(jié)省計(jì)算開(kāi)銷(xiāo)。Maldonado等[10]針對(duì)高維不平衡數(shù)據(jù),采用嵌入式特征選擇方法選擇原始數(shù)據(jù)集中不同類(lèi)型的特征來(lái)權(quán)衡對(duì)少數(shù)類(lèi)樣本的重要性,從而篩選出對(duì)有效分類(lèi)出少數(shù)類(lèi)樣本更有意義的特征,同時(shí)達(dá)到降維的目的,更有利于分類(lèi)器的訓(xùn)練。Liu 等[11]提出代價(jià)敏感的嵌入式特征選擇方法,在基于CART[12]決策樹(shù)算法結(jié)構(gòu)的基礎(chǔ)上,增加了一種處理不平衡數(shù)據(jù)集的索引加權(quán)方法以達(dá)到提升分類(lèi)器分類(lèi)性能的目的。

    一個(gè)好的特征選擇可以提高分類(lèi)器的學(xué)習(xí)速度、減少內(nèi)存消耗、簡(jiǎn)化模型。文獻(xiàn)[13]便全面介紹了上述三種特征選擇方式的優(yōu)缺點(diǎn)及其各自適用的應(yīng)用場(chǎng)景。

    3.2 重采樣技術(shù)

    特征選擇側(cè)重對(duì)數(shù)據(jù)進(jìn)行“選擇”,選擇更有助于分類(lèi)的特征進(jìn)行訓(xùn)練,重采樣技術(shù)則是一種異于特征選擇的數(shù)據(jù)重構(gòu)策略,通過(guò)調(diào)整多數(shù)類(lèi)和少數(shù)類(lèi)之間的樣本分布結(jié)構(gòu),達(dá)到削弱數(shù)據(jù)集不平衡度的目的。

    3.2.1 欠采樣(Under-Sampling)

    欠采樣策略通過(guò)減少部分多數(shù)類(lèi)樣本數(shù)量來(lái)降低類(lèi)間不平衡比例,使樣本數(shù)量趨于平衡。最簡(jiǎn)單的欠采樣策略是隨機(jī)欠采樣(Random Under-Sampling,RUS),即從多數(shù)類(lèi)樣本中隨機(jī)選取一些樣本進(jìn)行剔除。常見(jiàn)的欠采樣策略如圖1所示。

    圖1 欠采樣分類(lèi)策略

    編輯最近鄰(Edited Nearest Neighbor,ENN)[14]欠采樣算法主要?jiǎng)h除那些類(lèi)別與其最近三個(gè)鄰近樣本類(lèi)別中有兩個(gè)或以上不同類(lèi)別的樣本,在ENN 的基礎(chǔ)上鄰域清理法(Neighborhood Cleaning Rule,NCL)[15]進(jìn)一步識(shí)別訓(xùn)練集中的樣本,若該樣本屬于少數(shù)類(lèi)且它的三個(gè)最近鄰中包含兩個(gè)或以上的多數(shù)類(lèi),便將三個(gè)最近鄰中的多數(shù)類(lèi)刪除;若該樣本屬于多數(shù)類(lèi)且它的三個(gè)最近鄰中包含兩個(gè)或以上的少數(shù)類(lèi)樣本,則把該多數(shù)類(lèi)樣本直接刪除,NCL能精準(zhǔn)地刪除更多的多數(shù)類(lèi)。壓縮最近鄰法(Condensed Neatest Neighbor,CNN)[16]反其道而行之,盡量保留決策邊界附近可能具有價(jià)值的多數(shù)類(lèi)樣本,移除了遠(yuǎn)離決策邊界的多數(shù)類(lèi)樣本,將剩下的多數(shù)類(lèi)與少數(shù)類(lèi)樣本組合成新的數(shù)據(jù)集訓(xùn)練。Tomek Links[17]被用來(lái)識(shí)別噪聲樣本和邊界樣本,它計(jì)算來(lái)自不同類(lèi)別的兩個(gè)樣本之間的距離,若在數(shù)據(jù)集剩下的樣本中找不到任何一個(gè)樣本與它們的距離更近,則稱(chēng)這兩個(gè)少數(shù)類(lèi)樣本與多數(shù)類(lèi)樣本互為最近鄰(稱(chēng)Tomek對(duì)),Tomek對(duì)中可能存在一個(gè)噪聲或這兩個(gè)樣本位于兩類(lèi)樣本的分類(lèi)邊界區(qū)域。通過(guò)找到所有的Tomek對(duì),便可以刪除多數(shù)類(lèi)樣本中的噪聲或邊界上的多數(shù)類(lèi)樣本,從而消除類(lèi)之間的重疊。單邊選擇[18](one-sided selection)欠采樣算法,利用CNN算法刪除遠(yuǎn)離邊界的樣本點(diǎn),利用Tomek對(duì)刪除噪聲樣本點(diǎn)和邊界樣本點(diǎn),兩種方法的結(jié)合使采樣后的樣本更具有學(xué)習(xí)價(jià)值。Garcia等[19]則提出了一種進(jìn)化欠采樣(Evolutionary Under-Sampling,EUS)方法,旨在從原始訓(xùn)練集中選擇數(shù)據(jù)樣本的最佳子集,使用不同的適應(yīng)度函數(shù),以在不平衡數(shù)據(jù)集的類(lèi)分布和分類(lèi)器性能之間取得良好的平衡。

    上述通過(guò)減少多數(shù)類(lèi)的數(shù)量來(lái)平衡數(shù)據(jù)集的欠采樣技術(shù),簡(jiǎn)單高效易實(shí)現(xiàn)但易忽略多數(shù)類(lèi)潛在的信息,特別是當(dāng)不平衡比例非常高的時(shí)候需要剔除較多的多數(shù)類(lèi)樣本信息,嚴(yán)重影響了分類(lèi)器的泛化能力。為了緩解這一問(wèn)題,提出了兩種算法,其一是EasyEnsemble[20]算法,將不平衡原始數(shù)據(jù)集劃分為多數(shù)類(lèi)數(shù)據(jù)集和少數(shù)類(lèi)訓(xùn)練集兩部分,對(duì)多數(shù)類(lèi)隨機(jī)欠采樣獨(dú)立生成與少數(shù)類(lèi)樣本數(shù)目相當(dāng)?shù)亩鄠€(gè)訓(xùn)練子集,并將生成的每個(gè)子集和少數(shù)類(lèi)結(jié)合起來(lái)訓(xùn)練學(xué)習(xí)多個(gè)子分類(lèi)器,然后將構(gòu)建的子分類(lèi)器加權(quán)融合成一個(gè)最終的分類(lèi)器模型。其二是BalanceCascade[20]算法,前者是分類(lèi)器串行的級(jí)聯(lián)算法,后者則是分類(lèi)器并行的算法。該算法反復(fù)迭代隨機(jī)欠采樣與分類(lèi)器訓(xùn)練這兩個(gè)過(guò)程,每迭代一次把子分類(lèi)器中正確分類(lèi)的多數(shù)類(lèi)樣本從訓(xùn)練數(shù)據(jù)集中移除,再對(duì)多數(shù)類(lèi)樣本集隨機(jī)欠采樣,直到訓(xùn)練數(shù)據(jù)集中多數(shù)類(lèi)樣本數(shù)目少于少數(shù)類(lèi)樣本數(shù)目為止。雖然這兩種算法緩解了欠采樣存在的問(wèn)題,但分批訓(xùn)練多個(gè)分類(lèi)器增加了訓(xùn)練時(shí)間和學(xué)習(xí)成本。

    以上討論的大都是基于K 近鄰的欠采樣方法,在不平衡數(shù)據(jù)集的背景下,聚類(lèi)[21]以其“物以類(lèi)聚,人以群分”,感知樣本間的相識(shí)度,對(duì)類(lèi)別歸納,對(duì)新的輸入進(jìn)行輸出預(yù)測(cè)的思想獲得了廣泛的關(guān)注。從表1 的AUC對(duì)比值中,可以看出基于聚類(lèi)的欠采樣在不平衡數(shù)據(jù)集中獲得了較好的效果[22]。Lin等[23]同樣通過(guò)實(shí)驗(yàn)證明了基于聚類(lèi)的欠采樣策略可以降低從多數(shù)類(lèi)中移除潛在有用數(shù)據(jù)的風(fēng)險(xiǎn),使構(gòu)造的分類(lèi)器優(yōu)于使用基于隨機(jī)欠采樣的分類(lèi)器。文獻(xiàn)[24]提出基于聚類(lèi)的欠采樣方法來(lái)選擇具有代表性的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),以提高少數(shù)類(lèi)的分類(lèi)精度。

    表1 UCI數(shù)據(jù)集上三種欠采樣的AUC值對(duì)比

    圖2 過(guò)采樣分類(lèi)策略

    除了基于K 近鄰和基于聚類(lèi)的欠采樣方法外,基于進(jìn)化論的遺傳算法也時(shí)常被用來(lái)探究多數(shù)類(lèi)樣本之間的特性,如Drown等[25]通過(guò)遺傳算法對(duì)多數(shù)類(lèi)樣本欠采樣,同時(shí)去除了噪聲和冗余數(shù)據(jù),使得采樣后的數(shù)據(jù)更利于分類(lèi)器訓(xùn)練。文獻(xiàn)[26]等提出基于遺傳算法的欠采樣GAUS(Genetic Algorithm Based Under-Sampling)方法,使用遺傳算法對(duì)樣本選擇,彌補(bǔ)了單一使用欠采樣算法易丟失潛在有效信息的不足,使分類(lèi)器的性能更加穩(wěn)定。

    3.2.2 過(guò)采樣(Over-Sampling)

    與欠采樣相對(duì)應(yīng)的過(guò)采樣技術(shù)采用增加不平衡數(shù)據(jù)集中少數(shù)類(lèi)數(shù)量的策略,通過(guò)一系列方法合成新的少數(shù)類(lèi)樣本,并添加到原始數(shù)據(jù)集中,從而均衡數(shù)據(jù)集。隨機(jī)過(guò)采樣(Random Over-Sampling,ROS)同樣是最簡(jiǎn)單的過(guò)采樣策略,從樣本少的類(lèi)別中隨機(jī)復(fù)制采樣,再將采樣得來(lái)的樣本添加到數(shù)據(jù)集中。過(guò)采樣策略實(shí)現(xiàn)思想簡(jiǎn)單,但以這樣簡(jiǎn)單隨機(jī)復(fù)制的方法來(lái)增加少數(shù)類(lèi)樣本,易造成過(guò)擬合,使模型沒(méi)有很好的泛化能力,新合成樣本的加入也會(huì)增加樣本訓(xùn)練時(shí)間。為了降低分類(lèi)算法過(guò)擬合的可能性,過(guò)采樣策略處理不平衡數(shù)據(jù)集引起了眾多專(zhuān)家學(xué)者的廣泛關(guān)注,經(jīng)典的SMOTE 過(guò)采樣算法應(yīng)運(yùn)而生。常見(jiàn)的過(guò)采樣分類(lèi)策略如圖2所示。

    SMOTE(Synthetic Minority Over-sampling Technique)是由Chawla 等人[27]提出的基于隨機(jī)過(guò)采樣算法的一種改進(jìn)的線(xiàn)性插值過(guò)采樣方法。該算法通過(guò)對(duì)少數(shù)類(lèi)進(jìn)行分析,取每一個(gè)少數(shù)類(lèi)樣本點(diǎn)xi,沿著連接它們?cè)谑S嗌贁?shù)類(lèi)中隨機(jī)選擇出的k 個(gè)最近鄰的樣本點(diǎn)x?i,并以0~1 之間的采樣倍率進(jìn)行線(xiàn)性插值,從而產(chǎn)生新的合成數(shù)據(jù)(synthesized data),其合成原理如公式(1)所示,合成示意圖如圖3所示。

    圖3 SMOTE算法合成數(shù)據(jù)示意圖

    SMOTE算法不僅有效彌補(bǔ)了隨機(jī)過(guò)采樣簡(jiǎn)單復(fù)制少數(shù)類(lèi)合成新樣本易造成模型過(guò)擬合、泛化能力不強(qiáng)等缺陷,還以其設(shè)計(jì)過(guò)程簡(jiǎn)單易實(shí)現(xiàn),具有較強(qiáng)的魯棒性等優(yōu)勢(shì),為人們研究不平衡數(shù)據(jù)集提供了強(qiáng)有力的理論基礎(chǔ),后續(xù)衍生出一系列基于SMOTE 算法原理的采樣策略,文獻(xiàn)[28]綜述了自SMOTE 算法被提出15 年來(lái)系列擴(kuò)展算法及它帶來(lái)的影響和將迎來(lái)的挑戰(zhàn)。

    從表2中也可以明顯看出SMOTE算法在不同不平衡數(shù)據(jù)集分類(lèi)器中的AUC值明顯高于其他重采樣算法[29]。

    表2 三種重采樣方法在不同不平衡數(shù)據(jù)集使用C4.5分類(lèi)的AUC值比較 %

    MSMOTE[30]是一種典型的優(yōu)化算法,它彌補(bǔ)了SMOTE合成數(shù)據(jù)時(shí)對(duì)數(shù)據(jù)集中少數(shù)類(lèi)分布特征和對(duì)潛在噪聲欠考慮的不足,通過(guò)計(jì)算少數(shù)類(lèi)樣本與訓(xùn)練數(shù)據(jù)樣本間的距離,將少數(shù)類(lèi)樣本劃分為安全、邊界和潛在噪聲三類(lèi),并對(duì)安全樣本隨機(jī)選擇k 最近鄰樣本點(diǎn)、對(duì)邊界樣本只選擇最近鄰樣本點(diǎn),來(lái)進(jìn)行SOMTE采樣,對(duì)潛在噪聲不進(jìn)行任何操作。Borderline-SMOTE[31]則利用k 近鄰規(guī)則將少數(shù)類(lèi)樣本分為噪聲、邊界和安全三個(gè)區(qū)域,重點(diǎn)關(guān)注那些容易被錯(cuò)誤分類(lèi)的邊界樣本,分析和識(shí)別邊界中的少數(shù)類(lèi)樣本,只對(duì)邊界上的少數(shù)類(lèi)進(jìn)行SMOTE 過(guò)采樣,減少了對(duì)所有的少數(shù)類(lèi)進(jìn)行過(guò)采樣的處理時(shí)間、強(qiáng)化了邊界數(shù)據(jù)的學(xué)習(xí)。自適應(yīng)合成抽樣算法(adaptive synthetic sampling,ADASYN)[32],同樣是對(duì)少數(shù)類(lèi)進(jìn)行劃分并針對(duì)其特征采取不同的處理方式合成新樣本。但ADASYN方法側(cè)重于根據(jù)樣本分類(lèi)的難易程度為少數(shù)類(lèi)樣本賦予不同的權(quán)重,并不斷自適應(yīng)調(diào)整,不僅減少了原始不平衡數(shù)據(jù)分布帶來(lái)的偏差,而且自適應(yīng)地將決策邊界轉(zhuǎn)移到難以學(xué)習(xí)的樣本上。然而它易受離群點(diǎn)的影響,當(dāng)一個(gè)少數(shù)類(lèi)樣本的K 近鄰都是多數(shù)類(lèi)樣本時(shí),會(huì)被賦予相當(dāng)大的權(quán)重,進(jìn)而會(huì)在其周?chē)铣奢^多的樣本。此外蔣華等[33]發(fā)現(xiàn)無(wú)論是SMOTE還是ADSYN 方法在合成新樣本時(shí)都忽略了數(shù)據(jù)集分布特點(diǎn),從而提出將兩者相結(jié)合來(lái)合成少數(shù)類(lèi)樣本,使不同類(lèi)別樣本點(diǎn)邊界更加清晰,分類(lèi)性能明顯優(yōu)于兩者單獨(dú)使用。文獻(xiàn)[34]正是認(rèn)識(shí)到SMOTE算法在沒(méi)有考慮多數(shù)類(lèi)的情況下泛化了少數(shù)類(lèi)區(qū)域的現(xiàn)象,提出了Safe-Level-SMOTE 算法,它在合成數(shù)據(jù)之前使用最近鄰少數(shù)樣本為每一個(gè)少數(shù)類(lèi)計(jì)算一個(gè)安全級(jí)別,沿著同一條線(xiàn)根據(jù)不同的安全級(jí)別賦予不同的采樣權(quán)重,由于只在安全區(qū)域生成所有合成樣本,使得每個(gè)新合成的樣本的位置將更接近最大安全級(jí)別,獲得了更好的性能。盡管諸多SMOTE 改進(jìn)算法獲得了較好的成效,但仍然無(wú)法解決數(shù)據(jù)集中少數(shù)類(lèi)樣本分布邊緣化和計(jì)算復(fù)雜度較大的問(wèn)題,為此趙清華等[35]提出TSMOTE(Triangle SMOTE)算法和MDSMOTE(Max Disatance SMOTE)算法,前者著重關(guān)注新樣本產(chǎn)生的區(qū)域,避免所產(chǎn)生的新樣本使數(shù)據(jù)集分布邊緣化;后者只關(guān)注少數(shù)類(lèi)樣本質(zhì)心點(diǎn)和距離質(zhì)心最遠(yuǎn)的少數(shù)類(lèi)樣本點(diǎn),在這兩個(gè)樣本點(diǎn)連線(xiàn)之間隨機(jī)產(chǎn)生新樣本。

    雖然上述SMOTE改進(jìn)算法合成新數(shù)據(jù)采取的技術(shù)各不相同,核心仍是在選定的線(xiàn)段上線(xiàn)性插值。Luo等[36]針對(duì)SMOTE線(xiàn)性插值的不足提出利用不平衡三角形合成數(shù)據(jù)(the Imbalanced Triangle Synthetic Data method,ITSD),充分利用數(shù)據(jù)空間里將多數(shù)類(lèi)和少數(shù)類(lèi)分開(kāi)的機(jī)器學(xué)習(xí)分類(lèi)超平面,從超平面的兩端取三個(gè)數(shù)據(jù)構(gòu)成不平衡三角形,最大限度地利用了少數(shù)類(lèi)和多數(shù)類(lèi)數(shù)據(jù)?;诟咚垢怕史植嫉腉aussian-based SMOTE[37]算法,結(jié)合特征空間中的高斯概率分布,解決了SMOTE傾向于以高概率在同一條直線(xiàn)上合成數(shù)據(jù)易造成過(guò)擬合的問(wèn)題。它不再以0~1間均勻分布的隨機(jī)數(shù)生成數(shù)據(jù),而是采用介于0~從高斯分布中啟發(fā)式選擇數(shù)字,使SMOTE算法產(chǎn)生的新合成樣本不顯著偏離直線(xiàn)。

    以上主要是針對(duì)線(xiàn)性可分?jǐn)?shù)據(jù)集的討論,實(shí)際應(yīng)用中也不乏非線(xiàn)性可分的數(shù)據(jù)集,為了解決非線(xiàn)性數(shù)據(jù)集的分類(lèi)難題,常使用核方法對(duì)其高維映射,然后在核空間線(xiàn)性分類(lèi)[38]。王莉等[39]提出的基于核空間的過(guò)采樣算法(NKSMOTE),首先利用非線(xiàn)性映射函數(shù)將樣本映射到一個(gè)高維的核空間,在核空間中將少數(shù)類(lèi)分成不同的類(lèi)別,然后根據(jù)類(lèi)別的不同賦予不同的向上采樣倍率,再結(jié)合K 近鄰合成新的樣本。Lin等[40]為了減少特征空間投影過(guò)程中的信息損失,提出新的核自適應(yīng)子空間過(guò)采樣(MOKAS)算法,利用核變體中不變特征析取的能力來(lái)自適應(yīng)子空間進(jìn)行自組織映射,盡可能地保留了原始特征在映射過(guò)程中信息的完整性。

    3.2.3 混合采樣(Hybrid-Sampling)

    欠采樣方法縮小了樣本訓(xùn)練空間、降低了學(xué)習(xí)成本,但易造成潛在有用信息遺失;過(guò)采樣方法雖擴(kuò)大了樣本訓(xùn)練空間,卻增加了訓(xùn)練時(shí)間,新合成的樣本也增加了過(guò)擬合的風(fēng)險(xiǎn)。混合采樣[41]將過(guò)采樣和欠采樣融合在一起,一定程度彌補(bǔ)了二者的缺點(diǎn),也能兼顧他們的優(yōu)點(diǎn),往往能夠取得比采用單個(gè)采樣策略更好的效果。

    Padmaja等[42]對(duì)不平衡數(shù)據(jù)集中的多數(shù)類(lèi)樣本隨機(jī)欠采樣,并在對(duì)少數(shù)類(lèi)樣本進(jìn)行SMOTE 過(guò)采樣時(shí)摒棄了使用歐氏距離來(lái)衡量樣本間的距離,改用插值度量(VDM)來(lái)計(jì)算距離的混合采樣方式平衡原始數(shù)據(jù)集。歐陽(yáng)源遊[43]為了緩解過(guò)采樣可能存在合成無(wú)用新樣本以及噪聲樣本對(duì)分類(lèi)產(chǎn)生干擾等問(wèn)題,提出基于錯(cuò)分思想的混合采樣算法,以錯(cuò)分樣本為基礎(chǔ)有指導(dǎo)地、針對(duì)性地合成新樣本,避免了盲目產(chǎn)生新樣本的風(fēng)險(xiǎn)。為了解決基于聚類(lèi)的欠采樣易造成訓(xùn)練集過(guò)度稀疏,SMOTE 過(guò)采樣時(shí)常引入較多噪聲等問(wèn)題,林舒楊等[44]使用SMOTE過(guò)采樣算法結(jié)合聚類(lèi)欠采樣方法。張明等[45]引進(jìn)“變異系數(shù)”找出樣本的稀疏域和密集域,針對(duì)稀疏域中的少數(shù)類(lèi)樣本,提出BSMOTE過(guò)采樣算法;對(duì)密集域中的多數(shù)類(lèi)樣本,提出了改進(jìn)的欠采樣方法(IS)形成新的多數(shù)類(lèi)樣本集。

    4 不平衡數(shù)據(jù)集分類(lèi)模型改進(jìn)策略

    數(shù)據(jù)重構(gòu)策略重點(diǎn)調(diào)整數(shù)據(jù)內(nèi)部分布結(jié)構(gòu),使不平衡數(shù)據(jù)集趨于平衡。分類(lèi)模型的改進(jìn)策略則盡可能地保留原始數(shù)據(jù)的分布特征和數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),旨在調(diào)整傳統(tǒng)的分類(lèi)算法或提出對(duì)現(xiàn)有分類(lèi)思想進(jìn)行優(yōu)化和改進(jìn),使其適應(yīng)不平衡數(shù)據(jù)集的內(nèi)在特征,從而提高對(duì)少數(shù)類(lèi)樣本的識(shí)別能力。本章所闡述的分類(lèi)模型改進(jìn)策略主要是從分類(lèi)算法和分類(lèi)思想這兩方面對(duì)不平衡數(shù)據(jù)集分類(lèi)進(jìn)行優(yōu)化和改進(jìn)。

    4.1 分類(lèi)算法的改進(jìn)策略

    傳統(tǒng)的分類(lèi)算法在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域取得了較為成熟的發(fā)展,也衍生出一系列經(jīng)典的分類(lèi)算法[46],如K 最近鄰、支持向量機(jī)、樸素貝葉斯、決策樹(shù)等已得到了廣泛的應(yīng)用。然而這些分類(lèi)算法大都是基于樣本數(shù)據(jù)間平衡的假設(shè),當(dāng)類(lèi)不平衡時(shí)便出現(xiàn)了分類(lèi)器明顯向多數(shù)類(lèi)偏移的共性問(wèn)題。不平衡數(shù)據(jù)集的算法改進(jìn)策略最大程度地保留了原始數(shù)據(jù)集的所有信息,因而受到了不少研究學(xué)者的青睞。

    4.1.1 K 最近鄰

    K 最近鄰(K-NearestNeighbor,KNN)[47]是一種經(jīng)典的數(shù)據(jù)挖掘分類(lèi)算法,測(cè)量不同樣本之間的距離進(jìn)行分類(lèi),大體思想是計(jì)算給定樣本與剩下其他樣本之間的距離,選出距離該樣本最近的K 個(gè)鄰近值,如果這K 個(gè)樣本大多屬于某個(gè)類(lèi)別,則該樣本同屬于這一類(lèi)別。當(dāng)面對(duì)不平衡數(shù)據(jù)集時(shí),KNN 算法卻沒(méi)有發(fā)揮屬于它的優(yōu)勢(shì),因?yàn)槠銴 最近鄰?fù)ǔ?huì)受到多數(shù)類(lèi)的影響,多數(shù)類(lèi)在K 近鄰中占主導(dǎo)地位使得分類(lèi)結(jié)果向多數(shù)類(lèi)偏移,少數(shù)類(lèi)分類(lèi)精度下降。為了緩解不平衡數(shù)據(jù)的影響,Tan等[48]提出的近鄰加權(quán)算法(Neighbor-Weighted KNearest Neighbor,NWKNN),對(duì)K 近鄰中的少數(shù)類(lèi)賦予較大權(quán)重,為多數(shù)類(lèi)賦予較小權(quán)重,將其應(yīng)用于文本分類(lèi)領(lǐng)域,取得了較好的成果。在選擇K 近鄰時(shí)通常采用歐氏距離來(lái)測(cè)量各樣本間的距離,作為一種定量距離度量公式,顯然并不適用于二分類(lèi)不平衡數(shù)據(jù)集非此即彼的分類(lèi)規(guī)則。Batista 等[49]由此提出了使用異質(zhì)值差度量(HVDM)距離函數(shù)來(lái)實(shí)現(xiàn)KNN 算法,該距離函數(shù)使用歐式距離來(lái)定量衡量樣本間的距離;使用VDM距離來(lái)定性考慮樣本的每個(gè)可能值分類(lèi)的相似性,能夠更好地描述不平衡數(shù)據(jù)集中樣本間的差異和距離。

    4.1.2 支持向量機(jī)

    支持向量機(jī)(Support Vector Machine,SVM)[50]是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,在訓(xùn)練集的樣本空間中找到一個(gè)能夠?qū)㈩?lèi)別不同的樣本劃分開(kāi)的最優(yōu)邊界或最大間隔超平面。當(dāng)數(shù)據(jù)集中各個(gè)類(lèi)別的數(shù)量比例是均衡時(shí),支持向量機(jī)生成的決策邊界是理想分界面;然而當(dāng)面對(duì)不平衡數(shù)據(jù)集時(shí)或各類(lèi)別間的數(shù)量比呈現(xiàn)高度不平衡狀態(tài)時(shí),支持向量機(jī)所訓(xùn)練的分類(lèi)器會(huì)明顯將決策邊界偏向少數(shù)類(lèi),與理想的分界面形成一定的偏差(如圖4 所示),受分類(lèi)邊界偏移的影響,新樣本進(jìn)行分類(lèi)時(shí)易被錯(cuò)分為多數(shù)類(lèi),造成少數(shù)類(lèi)預(yù)測(cè)精度比多數(shù)類(lèi)的預(yù)測(cè)精度低。Imam等[51]考慮到傳統(tǒng)支持向量機(jī)處理類(lèi)不平衡時(shí)決策邊界的偏移,在訓(xùn)練不平衡數(shù)據(jù)集建立支持向量機(jī)模型時(shí),根據(jù)模型結(jié)果引入附加參數(shù)自動(dòng)對(duì)決策邊界進(jìn)行修正,使其趨近理想分界面,從而消除SVM對(duì)多數(shù)類(lèi)的偏差。同樣為了矯正偏移的決策邊界,文獻(xiàn)[52-54]引入權(quán)重參數(shù)來(lái)調(diào)整SVM 的分類(lèi)決策函數(shù),以此提高少數(shù)類(lèi)樣本對(duì)分類(lèi)器的貢獻(xiàn),使分類(lèi)平面向多數(shù)類(lèi)樣本傾斜,解決了類(lèi)不平衡對(duì)SVM 造成的影響。

    圖4 數(shù)據(jù)不平衡數(shù)據(jù)集下SVM的分類(lèi)邊界的偏移

    楊等[55]直接將少數(shù)類(lèi)作為訓(xùn)練目標(biāo),提出基于樣本重要性的支持向量機(jī)(IISVM),首先將訓(xùn)練集按照樣本的重要性重新組織規(guī)劃,然后在新訓(xùn)練集上顯式設(shè)置早停止條件,既節(jié)省了分類(lèi)器學(xué)習(xí)訓(xùn)練的時(shí)間又高效地實(shí)現(xiàn)了對(duì)少數(shù)類(lèi)的識(shí)別。Batuwita等[56-57]則利用在不平衡數(shù)據(jù)集上訓(xùn)練支持向量機(jī)模型得到的分離超平面,選擇距離類(lèi)邊界區(qū)域最近且信息量最大的數(shù)據(jù)樣本,再使用這些選定的樣本進(jìn)行重采樣,避免了采樣的盲目性,還處理了異常值和噪聲,極大縮短了SVM的訓(xùn)練時(shí)間。

    雖然SVM 在許多應(yīng)用領(lǐng)域取得了不錯(cuò)的分類(lèi)效果,當(dāng)面對(duì)分類(lèi)數(shù)據(jù)集呈現(xiàn)非線(xiàn)性分布的情況時(shí),卻很難找到超平面將樣本分開(kāi)。此時(shí)核方法的引入巧妙地將非線(xiàn)性映射到一個(gè)高維核空間,進(jìn)而在高維映射的核空間分離樣本,例如Zhang等[58]首先使用標(biāo)準(zhǔn)的支持向量機(jī)算法來(lái)獲得一個(gè)近似的超平面,然后根據(jù)統(tǒng)計(jì)分析中的保角變換和卡方檢驗(yàn),結(jié)合每個(gè)樣本到支持向量機(jī)分類(lèi)器的距離,得到一個(gè)新尺度的核函數(shù)來(lái)修正近似超平面,解決了數(shù)據(jù)分布不均勻而導(dǎo)致的分類(lèi)器性能下降的問(wèn)題。

    4.1.3 決策樹(shù)

    決策樹(shù)(Decision Tree,DT)算法是機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法之一,利用樹(shù)形結(jié)構(gòu)、基于規(guī)則進(jìn)行分類(lèi)決策,將樣本數(shù)據(jù)根據(jù)其特征的重要性進(jìn)行分割,遞歸地生成決策樹(shù),樹(shù)的葉子節(jié)點(diǎn)代表著最終決策結(jié)果。傳統(tǒng)的使用信息增益或信息熵作為選擇決策樹(shù)分裂特征的度量準(zhǔn)則在面對(duì)類(lèi)不平衡數(shù)據(jù)時(shí)效果欠佳[59],Cieslak等[60]為此提出使用海林格距離作為決策樹(shù)分裂準(zhǔn)則來(lái)建立海林格距離決策樹(shù)(Hellinger Distance Decision Tree,HDDT),有效提升了決策樹(shù)在類(lèi)不平衡數(shù)據(jù)下分類(lèi)的魯棒性。Liu 等[61]對(duì)基于關(guān)聯(lián)規(guī)則的分類(lèi)方法進(jìn)行優(yōu)化,用類(lèi)置信度代替置信度,提出類(lèi)置信度比例決策樹(shù)(Class Confidence Proportion Decision Tree,CCPDT),充分考慮了類(lèi)之間的聯(lián)系,提高了決策樹(shù)的健壯性和對(duì)類(lèi)大小的敏感性。然而決策樹(shù)在訓(xùn)練數(shù)據(jù)的過(guò)程中可能會(huì)生成復(fù)雜的樹(shù)結(jié)構(gòu),易造成過(guò)擬合的現(xiàn)象。

    4.1.4 樸素貝葉斯

    樸素貝葉斯(Naive Bayes,NB)[62]是基于Bayes 定理的簡(jiǎn)單概率歸納算法,在各屬性間相互獨(dú)立的假設(shè)下,根據(jù)樣本的后驗(yàn)概率對(duì)樣本進(jìn)行分類(lèi),該算法不需要對(duì)參數(shù)調(diào)整和估計(jì),對(duì)缺失數(shù)據(jù)不敏感,效率高且具有廣泛的適用范圍,常應(yīng)用于文本分類(lèi)、推薦系統(tǒng)等領(lǐng)域進(jìn)行決策與分析,但由于類(lèi)不平衡數(shù)據(jù)的內(nèi)在特征,使得后驗(yàn)概率與實(shí)際結(jié)果存在較高的偏差,影響了樸素貝葉斯分類(lèi)性能。蔣盛益等[63]便提出一種對(duì)樸素貝葉斯的后驗(yàn)概率進(jìn)行加權(quán)運(yùn)算的算法,結(jié)合基于整個(gè)數(shù)據(jù)集的類(lèi)別分布構(gòu)造能自適應(yīng)數(shù)據(jù)分布的代價(jià)敏感函數(shù),使偏差盡量減小,顯著提高了分類(lèi)性能。姚宇等[64]進(jìn)一步提出基于數(shù)據(jù)平滑與加權(quán)補(bǔ)集的樸素貝葉斯優(yōu)化算法,并將其應(yīng)用于文本分類(lèi)中解決類(lèi)不平衡及數(shù)據(jù)稀疏問(wèn)題。韓忠明等[65]將貝葉斯思想引入不平衡分類(lèi)任務(wù),用類(lèi)別的間隔似然函數(shù)代替后驗(yàn)分布中樣本的概率似然函數(shù),優(yōu)化了不平衡類(lèi)的分類(lèi)判別依據(jù),從而提高不平衡數(shù)據(jù)的分類(lèi)精度。

    樸素貝葉斯這一基于概率論的分類(lèi)方法雖簡(jiǎn)單易實(shí)現(xiàn),但其各屬性間需要獨(dú)立的前提假設(shè)和將各特征屬性對(duì)分類(lèi)影響一致視為相同的規(guī)則,在實(shí)際應(yīng)用中很難滿(mǎn)足,制約了它在類(lèi)不平衡數(shù)據(jù)中的發(fā)展。

    4.1.5 基于神經(jīng)網(wǎng)絡(luò)的分類(lèi)策略

    神經(jīng)網(wǎng)絡(luò)(Neural Network)[66]分類(lèi)算法是運(yùn)用類(lèi)似于大腦神經(jīng)突觸聯(lián)接結(jié)構(gòu),對(duì)信息進(jìn)行分析處理的模型,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)主要通過(guò)梯度下降算法迭代調(diào)整權(quán)值的方式來(lái)縮小訓(xùn)練誤差,將其應(yīng)用于不平衡數(shù)據(jù)集時(shí),由于多數(shù)類(lèi)樣本數(shù)多于少數(shù)類(lèi)樣本,導(dǎo)致梯度下降方向受多數(shù)類(lèi)影響,以縮小訓(xùn)練誤差為目的的迭代會(huì)使得決策邊界向少數(shù)類(lèi)樣本傾斜,降低了少數(shù)類(lèi)樣本的識(shí)別率。文獻(xiàn)[67]便采用反向傳播算法對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練,然后應(yīng)用粒子群優(yōu)化算法(PSO)去訓(xùn)練網(wǎng)絡(luò)中的數(shù)據(jù),從而輸出預(yù)測(cè)值,優(yōu)化了神經(jīng)網(wǎng)絡(luò)的決策邊界,以此解決類(lèi)不平衡數(shù)據(jù)集對(duì)神經(jīng)網(wǎng)絡(luò)分類(lèi)的影響。張文東等[68]則提出一種改進(jìn)的神經(jīng)網(wǎng)絡(luò)算法,在輸入層與隱藏層之間加入一層特征受損層,剔除了部分冗余特征值,降低了數(shù)據(jù)集的不平衡度。神經(jīng)網(wǎng)絡(luò)常與SMOTE 過(guò)采樣結(jié)合起來(lái)處理類(lèi)不平衡問(wèn)題,如基于SMOTE 的互補(bǔ)神經(jīng)網(wǎng)絡(luò)[69]和基于SMOTE 的去噪自編碼神經(jīng)網(wǎng)絡(luò)[70],不僅均衡了數(shù)據(jù)集,還有效降低了數(shù)據(jù)冗余和噪聲。NNSMOTE[71]則彌補(bǔ)了SMOTE 線(xiàn)性插值的不足,采用神經(jīng)網(wǎng)絡(luò)非線(xiàn)性插值的思想來(lái)合成新的少數(shù)類(lèi),使合成的樣本豐富多樣,能更靈活地?cái)M合原少數(shù)類(lèi)樣本的分布。值得注意的是,訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),需要較多的參數(shù),如權(quán)值和閾值等,增加了訓(xùn)練成本和時(shí)間。

    神經(jīng)網(wǎng)絡(luò)得到了如此廣泛的應(yīng)用,提出了一系列基于神經(jīng)網(wǎng)絡(luò)的算法,其中最為常見(jiàn)且在類(lèi)不平衡應(yīng)用中獲得了較為深入的研究當(dāng)屬于極限學(xué)習(xí)機(jī)和深度學(xué)習(xí)。

    (1)極限學(xué)習(xí)機(jī)

    極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是由Huang等[72]提出的一種機(jī)器學(xué)習(xí)算法,主要通過(guò)隨機(jī)初始化輸入層和隱藏層的權(quán)重參數(shù),并利用最小二乘法求解輸出層權(quán)重的方式來(lái)訓(xùn)練單隱層前饋神經(jīng)網(wǎng)絡(luò),相比于傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò),在保證學(xué)習(xí)精度的前提下實(shí)現(xiàn)了更快的速度,同時(shí)避免了迭代訓(xùn)練過(guò)程。ELM 也因其泛化能力強(qiáng),訓(xùn)練速度快等優(yōu)點(diǎn)被廣泛運(yùn)用于故障診斷[73]、遙感圖像分類(lèi)等諸多實(shí)際應(yīng)用領(lǐng)域。但當(dāng)面對(duì)不平衡數(shù)據(jù)集時(shí),同樣面臨著分類(lèi)算法向多數(shù)類(lèi)偏移的問(wèn)題,針對(duì)這一現(xiàn)象很多學(xué)者也相繼提出了不同的極限學(xué)習(xí)機(jī)處理類(lèi)不平衡的算法。較為常見(jiàn)的便是為樣本賦予不同的權(quán)重而引申出來(lái)的加權(quán)極限學(xué)習(xí)機(jī)[74-77],略有區(qū)別的是Zhang[76]將模糊記憶應(yīng)用于ELM 的每個(gè)輸入,使得不同的輸入對(duì)輸出權(quán)值的學(xué)習(xí)產(chǎn)生不同的貢獻(xiàn),于化龍等[77]基于此進(jìn)一步提出了模糊加權(quán)極限學(xué)習(xí)機(jī),引入模糊集的概念,充分挖掘每個(gè)樣本在特征空間中的分布信息并對(duì)其各自的權(quán)重進(jìn)行模糊化與個(gè)性化設(shè)置,以最大化分類(lèi)性能。

    (2)深度學(xué)習(xí)

    正如上述所述,機(jī)器學(xué)習(xí)已經(jīng)在不平衡數(shù)據(jù)集處理方法中取得了較好的研究成果[78],而深度學(xué)習(xí)雖然近年在某些方面取得了不錯(cuò)的進(jìn)展,但是其在類(lèi)不平衡情況下的研究還是非常少的。從圖5 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)處理流程對(duì)比圖中,可以很明顯地看到深度學(xué)習(xí)省去了機(jī)器學(xué)習(xí)中人工建立特征工程的步驟,能自動(dòng)地學(xué)習(xí)特征和預(yù)測(cè)結(jié)果之間的關(guān)聯(lián),自動(dòng)了解樣本的數(shù)據(jù)分布特征,也能從簡(jiǎn)單特征中提取復(fù)雜的特征。特別是在大數(shù)據(jù)背景下,深度學(xué)習(xí)的出現(xiàn)無(wú)疑為機(jī)器學(xué)習(xí)開(kāi)辟了一個(gè)新的領(lǐng)域,真正實(shí)現(xiàn)了“自主學(xué)習(xí)”。

    圖5 機(jī)器學(xué)習(xí)與深度學(xué)習(xí)處理流程對(duì)比

    深度學(xué)習(xí)(Deep Learning,DL)[79]是源于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,不同于極限學(xué)習(xí)機(jī)的單隱層結(jié)構(gòu),深度學(xué)習(xí)是具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),采用多層級(jí)的模型結(jié)構(gòu),對(duì)輸入的樣本數(shù)據(jù)進(jìn)行層次化提取與分析,因而具有更強(qiáng)的自主學(xué)習(xí)和泛化能力。如Dong等[80]提出了一種新的類(lèi)不平衡深度學(xué)習(xí)方法,利用批量?jī)?yōu)化過(guò)程對(duì)少數(shù)類(lèi)中難以分類(lèi)的樣本進(jìn)行批量學(xué)習(xí),對(duì)少數(shù)類(lèi)增量校正。常見(jiàn)的深度學(xué)習(xí)模型有生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等。

    生成對(duì)抗網(wǎng)絡(luò)[81]能夠?qū)W習(xí)原始樣本數(shù)據(jù)分布特征,進(jìn)而生成具有相似分布的新樣本。Lee等[82]便設(shè)計(jì)了一個(gè)用于故障檢測(cè)與診斷的深層神經(jīng)網(wǎng)絡(luò),利用經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)能譜數(shù)據(jù)通過(guò)GAN 生成的新樣本,得到了比傳統(tǒng)過(guò)采樣技術(shù)更好的故障診斷結(jié)果。解曉波[83]認(rèn)為不平衡數(shù)據(jù)集分類(lèi)困難的主要原因是數(shù)據(jù)集中樣本類(lèi)別不協(xié)調(diào),因此著眼于少數(shù)類(lèi)樣本,提出了基于生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)集增強(qiáng)方法,充分利用生成對(duì)抗網(wǎng)絡(luò)中生成器的強(qiáng)擬合能力最大程度擬合少數(shù)類(lèi)樣本的分布,再用較為成熟的生成器去生成與多數(shù)類(lèi)數(shù)量趨于均衡的少數(shù)類(lèi)樣本。

    卷積神經(jīng)網(wǎng)絡(luò)(CNNs)因其能夠?qū)⒆詣?dòng)特征提取和判別分類(lèi)器集成在一個(gè)模型中的特性,在深度學(xué)習(xí)領(lǐng)域受到廣泛的關(guān)注。如文獻(xiàn)[84]為了解決背景圖像塊與目標(biāo)圖像塊數(shù)量不平衡問(wèn)題,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行檢測(cè),只隨機(jī)選取背景圖像塊的10%進(jìn)行訓(xùn)練,極大地降低了訓(xùn)練成本。陳志等[85]在使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中,為損失函數(shù)引入類(lèi)別標(biāo)簽權(quán)重,從而強(qiáng)化少數(shù)類(lèi)對(duì)模型參數(shù)的影響,極大緩解了不平衡數(shù)據(jù)集分類(lèi)難的問(wèn)題。Xie[86]則巧妙地將卷積和生成對(duì)抗網(wǎng)絡(luò)結(jié)合,提出了深卷積GAN(DCGAN)模型來(lái)模擬少數(shù)類(lèi)的原始分布,從整體的類(lèi)分布中學(xué)習(xí),從而生成新的數(shù)據(jù)來(lái)解決不平衡問(wèn)題。

    4.2 分類(lèi)思想的改進(jìn)策略

    分類(lèi)算法側(cè)重通過(guò)對(duì)分類(lèi)器改進(jìn)和優(yōu)化來(lái)適應(yīng)不平衡數(shù)據(jù)集的內(nèi)部分布結(jié)構(gòu),而分類(lèi)思想上的改進(jìn)則保持了各類(lèi)分類(lèi)器原有的屬性特征,根據(jù)不平衡數(shù)據(jù)集的特征采用不同的學(xué)習(xí)思想進(jìn)行分類(lèi)改進(jìn),但它們最終的分類(lèi)實(shí)現(xiàn)往往還是要借助于傳統(tǒng)的分類(lèi)器。

    4.2.1 代價(jià)敏感學(xué)習(xí)

    不平衡數(shù)據(jù)集分類(lèi)過(guò)程中,數(shù)量稀少的少數(shù)類(lèi)往往是需要重點(diǎn)關(guān)注的研究對(duì)象,傳統(tǒng)的分類(lèi)器并不對(duì)各個(gè)類(lèi)別的錯(cuò)分代價(jià)加以區(qū)分。代價(jià)敏感學(xué)習(xí)(Cost Sensitive Learning)[87]針對(duì)分類(lèi)器對(duì)少數(shù)類(lèi)的錯(cuò)分代價(jià)遠(yuǎn)遠(yuǎn)大于對(duì)多數(shù)類(lèi)的這一特點(diǎn),給予少數(shù)類(lèi)更高的錯(cuò)分代價(jià),從而使構(gòu)建的分類(lèi)器對(duì)少數(shù)類(lèi)有較高的識(shí)別率和關(guān)注度,并最小化錯(cuò)誤分類(lèi)所帶來(lái)的影響,即使面對(duì)大型數(shù)據(jù)集也能取得相當(dāng)好的效果。

    MetaCost[88]便是一種典型的代價(jià)敏感元學(xué)習(xí)方法,通過(guò)估計(jì)訓(xùn)練樣本的后驗(yàn)概率密度,并結(jié)合代價(jià)矩陣來(lái)計(jì)算每個(gè)訓(xùn)練樣本的理想類(lèi)別,然后根據(jù)理想類(lèi)別修改原訓(xùn)練樣本的類(lèi)別得到新的訓(xùn)練集,最后使用基于錯(cuò)誤率的分類(lèi)器學(xué)習(xí)此新的訓(xùn)練集。Zhou 等[89]則將代價(jià)敏感引入神經(jīng)網(wǎng)絡(luò)中,深入研究了采樣和閾值移動(dòng)對(duì)訓(xùn)練代價(jià)敏感神經(jīng)網(wǎng)絡(luò)的影響。

    如上分析可知,代價(jià)敏感根據(jù)不同的類(lèi)別對(duì)分類(lèi)影響的重要程度給予相應(yīng)的權(quán)重,迫使分類(lèi)器更加關(guān)注權(quán)值大的類(lèi)別,常與其他主流的分類(lèi)算法結(jié)合使用獲得了更好的分類(lèi)效果。雖然在很多實(shí)際運(yùn)用中取得了較大的成功,但也存在模型過(guò)擬合的風(fēng)險(xiǎn),而準(zhǔn)確地確定誤分類(lèi)成本也是需要有足夠多的先驗(yàn)知識(shí)來(lái)支撐的,同樣需要付出很大的學(xué)習(xí)代價(jià)去確定代價(jià)參數(shù),數(shù)據(jù)內(nèi)在特征也為代價(jià)敏感學(xué)習(xí)用于類(lèi)不平衡數(shù)據(jù)帶來(lái)巨大的挑戰(zhàn)。

    4.2.2 集成學(xué)習(xí)

    集成學(xué)習(xí)[90]是在原始訓(xùn)練集上訓(xùn)練多個(gè)子分類(lèi)模型,預(yù)測(cè)時(shí)根據(jù)每個(gè)子分類(lèi)器的分類(lèi)結(jié)果進(jìn)行加權(quán)投票,得到最終預(yù)測(cè)結(jié)果來(lái)綜合決策分類(lèi)的技術(shù),即將多個(gè)分類(lèi)器組合起來(lái),形成一個(gè)強(qiáng)大的分類(lèi)器,如圖6 所示。集成算法增加了分類(lèi)器的多樣性,按集成組合方式的不同,大致可分為三類(lèi),分別是Bagging、Boosting 以及隨機(jī)森林。

    圖6 基于集成學(xué)習(xí)的方法

    (1)Bagging

    Bagging[91]是子學(xué)習(xí)器間不存在強(qiáng)依賴(lài)關(guān)系,可同時(shí)生成的并行化套袋算法,主要思想是使用Bootstraping方法從原始數(shù)據(jù)集中隨機(jī)有放回地抽取數(shù)據(jù)樣本,形成一個(gè)新的訓(xùn)練集,進(jìn)行多次同樣的隨機(jī)抽取得到多個(gè)獨(dú)立的訓(xùn)練集,對(duì)生成的多個(gè)訓(xùn)練集來(lái)最小化預(yù)測(cè)方差,獨(dú)立地為每個(gè)訓(xùn)練集生成一個(gè)分類(lèi)器,然后將它們各自的模型采用投票或加權(quán)的方式得到分類(lèi)結(jié)果。通常在使用Bagging 算法之前會(huì)對(duì)原始數(shù)據(jù)集進(jìn)行重采樣,得到均衡的數(shù)據(jù)集來(lái)集成訓(xùn)練分類(lèi)器的每個(gè)子分類(lèi)器,有效地避免了重采樣技術(shù)的潛在缺點(diǎn),增強(qiáng)了弱分類(lèi)器的性能。例如文獻(xiàn)[92]使用SMOTE過(guò)采樣和欠采樣技術(shù)與Bagging 結(jié)合得到SMOTEBagging 和UnderBagging to OverBagging(UOBag)等套袋算法。RB-Bagging[93](Roughly Balanced-Bagging)算法則利用一種新的采樣技術(shù)改進(jìn)了現(xiàn)有的基于Bagging的不平衡數(shù)據(jù)處理方法中每一個(gè)子分類(lèi)器的類(lèi)分布與期望的分布完全相同的現(xiàn)狀,使每個(gè)子集的類(lèi)分布變得略有不同,以此增加訓(xùn)練模型的多樣性。

    (2)Boosting

    Boosting[94]是子學(xué)習(xí)器間存在強(qiáng)依賴(lài)關(guān)系,須以串行方式生成的序列化提升算法。Boosting 在對(duì)每個(gè)模型序列進(jìn)行擬合時(shí),會(huì)更加關(guān)注那些序列中容易錯(cuò)分或難以處理的數(shù)據(jù),即每次迭代都是對(duì)上一輪結(jié)果的優(yōu)化、提升。AdaBoost[95]是典型具有代表性的Boosting 提升算法,它可以自適應(yīng)地修改權(quán)重以減少預(yù)測(cè)偏差,從而提高分類(lèi)器性能并有效地防止過(guò)擬合。該算法主要使用整個(gè)數(shù)據(jù)集對(duì)每個(gè)分類(lèi)器進(jìn)行串行訓(xùn)練,在每一輪訓(xùn)練之后,將更多的精力放在分類(lèi)難度大的樣本數(shù)據(jù)上,經(jīng)過(guò)多次迭代后,錯(cuò)誤分類(lèi)的數(shù)據(jù)樣本權(quán)重都會(huì)增加,而正確分類(lèi)的數(shù)據(jù)樣本權(quán)重則會(huì)減少。AdaCost[96]是AdaBoost的變體,它為了減少累積的錯(cuò)誤分類(lèi)成本,在迭代過(guò)程中利用錯(cuò)分代價(jià)來(lái)更新數(shù)據(jù)集中樣本的分布,降低了固定和可變的錯(cuò)誤分類(lèi)成本。

    同樣,提升算法與采樣技術(shù)結(jié)合,衍生出SMOTEBoost[97]等一系列基于采樣技術(shù)的Boosting 算法在處理不平衡數(shù)據(jù)集的分類(lèi)問(wèn)題中也獲得顯著的成效。盡管Boosting 算法具有較高的準(zhǔn)確率,但它的串行迭代過(guò)程,時(shí)常會(huì)降低訓(xùn)練速度、增加訓(xùn)練時(shí)間和學(xué)習(xí)成本。

    (3)隨機(jī)森林

    隨機(jī)森林(Random Forest,RF)[98]是Bagging的一個(gè)擴(kuò)展變體,利用Bootstrap隨機(jī)重采樣技術(shù)和節(jié)點(diǎn)隨機(jī)分裂技術(shù)構(gòu)建多棵決策樹(shù),通過(guò)投票得到最終分類(lèi)結(jié)果。其各子樹(shù)間相對(duì)獨(dú)立,各自選擇部分樣本進(jìn)行訓(xùn)練或?qū)μ卣靼粗匾潭群Y選出對(duì)分類(lèi)貢獻(xiàn)較大的特征來(lái)分裂,避免了過(guò)擬合的風(fēng)險(xiǎn),可擴(kuò)展性強(qiáng),受噪聲和異常值影響較小,即使是面對(duì)高維特征也能獲得較優(yōu)的分類(lèi)結(jié)果。盡管如此,隨機(jī)森林遇到類(lèi)不平衡數(shù)據(jù)時(shí),分類(lèi)效果仍欠佳。為了使隨機(jī)森林算法能夠適用于不平衡數(shù)據(jù)的分類(lèi),目前提出了兩種主流的優(yōu)化方案,一種是結(jié)合預(yù)處理的隨機(jī)森林優(yōu)化算法,另一種則是改進(jìn)自身構(gòu)建過(guò)程的隨機(jī)森林優(yōu)化算法。如文獻(xiàn)[99]針對(duì)這兩種解決方案提出了平衡隨機(jī)林(BRF)和加權(quán)隨機(jī)林(WRF),實(shí)驗(yàn)結(jié)果表明這兩種方法均能提高少數(shù)類(lèi)的預(yù)測(cè)精度。魏正韜等[100]從數(shù)據(jù)層進(jìn)行預(yù)處理,提出基于不平衡數(shù)據(jù)對(duì)隨機(jī)森林算法進(jìn)行新的改進(jìn),對(duì)采樣結(jié)果增加約束條件來(lái)改進(jìn)重采樣方法,削弱采樣對(duì)類(lèi)不平衡的影響,保證算法隨機(jī)性的同時(shí)利用生成的不平衡系數(shù)對(duì)每個(gè)決策樹(shù)進(jìn)行加權(quán)處理,以此提高不平衡數(shù)據(jù)敏感決策樹(shù)在最終投票時(shí)的權(quán)重。文獻(xiàn)[101]則從算法構(gòu)建自身出發(fā),在構(gòu)造隨機(jī)森林算法過(guò)程中為處于劣勢(shì)地位的少數(shù)類(lèi)賦予較高的投票權(quán)重,提高了少數(shù)類(lèi)樣本識(shí)別率。

    4.2.3 單類(lèi)學(xué)習(xí)

    數(shù)據(jù)集中數(shù)據(jù)分布不平衡時(shí),分類(lèi)器通常都會(huì)間接地忽略少數(shù)類(lèi)對(duì)分類(lèi)結(jié)果的影響,傾向于將所有的數(shù)據(jù)劃分為多數(shù)類(lèi)。為了避免分類(lèi)器在對(duì)樣本分類(lèi)時(shí)受多數(shù)類(lèi)支配,傳統(tǒng)采用基于區(qū)別的分類(lèi)方法逐漸淡出了人們的研究視線(xiàn),探索出了一種基于識(shí)別的方法進(jìn)行學(xué)習(xí),單類(lèi)學(xué)習(xí)由此應(yīng)運(yùn)而生。它只利用感興趣的少數(shù)類(lèi)數(shù)據(jù)樣本進(jìn)行學(xué)習(xí),對(duì)于新的樣本,通過(guò)比較該樣本與目標(biāo)類(lèi)的相似程度而識(shí)別該樣本是否歸屬于目標(biāo)類(lèi),巧妙地將兩類(lèi)問(wèn)題轉(zhuǎn)化成單類(lèi)問(wèn)題。在解決不平衡分類(lèi)問(wèn)題時(shí),從少數(shù)類(lèi)到多數(shù)類(lèi),單類(lèi)學(xué)習(xí)為每個(gè)類(lèi)制定規(guī)則,不斷為每個(gè)規(guī)則添加條件。William[102]基于此就提出了一種直接僅用于少數(shù)類(lèi)的規(guī)則學(xué)習(xí)算法,該算法以規(guī)則為基礎(chǔ),在規(guī)則歸納系統(tǒng)中采用分而治之的方法建立迭代規(guī)則,覆蓋了以往未覆蓋的訓(xùn)練樣本。對(duì)可能包含噪聲特征的高維空間下的高度不平衡數(shù)據(jù)集,單類(lèi)學(xué)習(xí)效果顯著。Bernhard 等[103]則提出了單類(lèi)支持向量機(jī)(One-Class Support Vector Machine,OCSVM),它把原始數(shù)據(jù)映射到特征空間中,同時(shí)把原點(diǎn)作為異常點(diǎn),將原點(diǎn)和訓(xùn)練樣本分隔開(kāi)來(lái)的超平面作為決策邊界來(lái)實(shí)現(xiàn)對(duì)新樣本的分類(lèi)決策。

    單類(lèi)學(xué)習(xí)僅僅考慮某一個(gè)類(lèi)別的樣本數(shù)據(jù)來(lái)解決不平衡問(wèn)題,雖然能夠有效地減少時(shí)間開(kāi)銷(xiāo),但也容易對(duì)訓(xùn)練集中的少數(shù)類(lèi)造成過(guò)擬合,而且它完全無(wú)視多數(shù)類(lèi)樣本的相關(guān)有用信息,泛化能力明顯下降,多用于數(shù)據(jù)極度不平衡的情況。

    4.2.4 主動(dòng)學(xué)習(xí)

    單類(lèi)學(xué)習(xí)只學(xué)習(xí)感興趣的少數(shù)類(lèi)樣本,進(jìn)而識(shí)別出新樣本是否屬于少數(shù)類(lèi)。而主動(dòng)學(xué)習(xí)[104]能夠主動(dòng)去選擇想要學(xué)習(xí)的數(shù)據(jù),從不帶標(biāo)簽的數(shù)據(jù)中主動(dòng)選擇一部分進(jìn)行標(biāo)注,然后讓分類(lèi)器進(jìn)行訓(xùn)練和學(xué)習(xí),不斷迭代這兩個(gè)過(guò)程直到達(dá)到預(yù)先設(shè)定的最優(yōu)值。即利用盡可能少的標(biāo)記數(shù)據(jù)來(lái)達(dá)到高精度,最大限度地降低獲取標(biāo)記數(shù)據(jù)的成本。文獻(xiàn)[105]較為詳細(xì)地闡述了主動(dòng)學(xué)習(xí)對(duì)不平衡數(shù)據(jù)的正面影響。主動(dòng)學(xué)習(xí)時(shí)常會(huì)與重采樣技術(shù)、SVM算法等結(jié)合起來(lái)處理類(lèi)不平衡問(wèn)題。張永等[106]運(yùn)用SMOTE 方法均衡部分少數(shù)類(lèi)樣本,得到初始分類(lèi)器;然后利用主動(dòng)學(xué)習(xí)方法調(diào)整分類(lèi)器精度,有效提高了不平衡數(shù)據(jù)的分類(lèi)準(zhǔn)確率?;谥С窒蛄繖C(jī)的主動(dòng)學(xué)習(xí)選擇[107-108]策略,從較小的樣本庫(kù)中選擇信息數(shù)據(jù)進(jìn)行主動(dòng)學(xué)習(xí),避免了學(xué)習(xí)整個(gè)數(shù)據(jù)集帶來(lái)的開(kāi)銷(xiāo)。Fu等[109]提出了基于確定性的主動(dòng)學(xué)習(xí)(CBAL)算法來(lái)確定每個(gè)未標(biāo)記樣本在探索的鄰域內(nèi)查詢(xún)的概率,有效地識(shí)別出信息樣本和處理不平衡數(shù)據(jù)分類(lèi)問(wèn)題。

    表3 各類(lèi)分類(lèi)算法總結(jié)

    表4 各類(lèi)分類(lèi)思想總結(jié)

    4.3 各類(lèi)分類(lèi)模型總結(jié)

    以上分別討論了各類(lèi)分類(lèi)模型為了適應(yīng)不平衡數(shù)據(jù)集數(shù)據(jù)分布結(jié)構(gòu)所做出的一系列的改進(jìn)和優(yōu)化,表3和表4 分別直觀地展現(xiàn)了各類(lèi)分類(lèi)算法和分類(lèi)模型的核心、優(yōu)缺點(diǎn)以及所對(duì)應(yīng)的文獻(xiàn)。

    5 分類(lèi)評(píng)價(jià)指標(biāo)

    準(zhǔn)確率(Accuracy)是分類(lèi)問(wèn)題的一項(xiàng)常見(jiàn)的評(píng)價(jià)指標(biāo),反映的是被正確分類(lèi)的樣本數(shù)量占樣本總數(shù)量比值的大小。對(duì)于傳統(tǒng)的數(shù)據(jù)平衡分類(lèi)問(wèn)題,準(zhǔn)確率能夠很好地反映分類(lèi)算法的性能。然而對(duì)于不平衡問(wèn)題,少數(shù)類(lèi)會(huì)向多數(shù)類(lèi)傾斜,導(dǎo)致準(zhǔn)確率這一評(píng)價(jià)指標(biāo)似乎沒(méi)有參考價(jià)值。在信用卡欺詐檢測(cè)案例中,正常情況的多數(shù)類(lèi)占總體樣本的比值高達(dá)99%,屬于欺詐事件的少數(shù)類(lèi)占總體樣本數(shù)的1%,如果此時(shí)分類(lèi)器把僅存的1%的欺詐事件歸為多數(shù)正常類(lèi),盡管分類(lèi)器的準(zhǔn)確率達(dá)到99%,卻忽視了真正關(guān)注的少數(shù)類(lèi),不僅不能夠檢測(cè)出欺詐事件,不能為決策提供有意義的信息,甚至?xí)?lái)巨大的損失。因而一般采用召回率(Recall)、精確率(Precision)等單一評(píng)價(jià)指標(biāo)和F-measure、G-mean、ROC曲線(xiàn)等綜合評(píng)價(jià)指標(biāo)作為不平衡數(shù)據(jù)集的評(píng)價(jià)指標(biāo)。為了更好地描述這幾類(lèi)評(píng)價(jià)指標(biāo),本文首先引入混淆矩陣的相關(guān)概念?;煜仃嘯110]將預(yù)測(cè)分類(lèi)結(jié)果和實(shí)際分類(lèi)結(jié)果以矩陣的形式直觀地展示出來(lái)。在二分類(lèi)的不平衡分類(lèi)問(wèn)題中,將重點(diǎn)關(guān)注的少數(shù)類(lèi)記為正類(lèi),多數(shù)類(lèi)記為負(fù)類(lèi)?;煜仃嚾绫?所示。

    表5 混淆矩陣

    表5 中真正類(lèi)(True Positive,TP)表示樣本集中被正確分為正類(lèi)的個(gè)數(shù);假正類(lèi)(False Positive,TP)表示樣本集中錯(cuò)分為正類(lèi)的個(gè)數(shù);假負(fù)類(lèi)(False Negative,TN)表示樣本集中錯(cuò)分為負(fù)類(lèi)的個(gè)數(shù);真負(fù)類(lèi)(True Negative,TN)表示樣本集中被正確分為負(fù)類(lèi)的個(gè)數(shù)。

    5.1 單一評(píng)價(jià)指標(biāo)

    召回率(Recall)指分類(lèi)正確的正類(lèi)個(gè)數(shù)占所有正類(lèi)個(gè)數(shù)的比例,Recall=TP/(TP+FN),召回率較高的分類(lèi)器會(huì)盡可能多的關(guān)注少數(shù)類(lèi),盡量避免將少數(shù)類(lèi)誤分為多數(shù)類(lèi)。

    精確率(Precision)指分類(lèi)正確的正類(lèi)個(gè)數(shù)占所有被預(yù)測(cè)為正類(lèi)個(gè)數(shù)的比例,Precision=TP/(TP+FP),精確率較高的分類(lèi)器會(huì)盡可能地避免將多數(shù)類(lèi)誤分為少數(shù)類(lèi)。

    5.2 綜合評(píng)價(jià)指標(biāo)

    顯而易見(jiàn),召回率和精確率有時(shí)是一對(duì)相互矛盾的指標(biāo),即不能保證在擁有較高召回率的同時(shí)也擁有較高的精確率。由于不平衡數(shù)據(jù)集分類(lèi)的復(fù)雜性,很難做到僅使用召回率或精確率這樣單一指標(biāo)就能較準(zhǔn)確地評(píng)價(jià)分類(lèi)器的性能,為了綜合反映不平衡數(shù)據(jù)集的分類(lèi)性能,常采用F-measure、G-mean、ROC等作為評(píng)價(jià)指標(biāo)。

    F-measure[111]又稱(chēng)F-Score,其計(jì)算公式如式(2)所示,α是常取值為1的比例系數(shù)。F-measure可以兼顧精度和召回率并找到它們的最佳組合。

    G-mean也是一項(xiàng)綜合評(píng)價(jià)指標(biāo),涉及靈敏度(Sensitive)和特異度(Specificity)兩個(gè)單一評(píng)價(jià)指標(biāo),Sensitive=TP/(TP+FN) ,衡量了分類(lèi)器對(duì)正類(lèi)的識(shí)別能力;Specificity=TN/(TN+FP),衡量了分類(lèi)器對(duì)負(fù)類(lèi)的識(shí)別能力。其表達(dá)式如式(3):

    盡管F-measure 和G-mean 對(duì)準(zhǔn)確率和錯(cuò)誤率進(jìn)行了改進(jìn)和完善,但在比較分類(lèi)器和各種分布之間的性能時(shí),仍不能起到很好的評(píng)估效果。ROC[112]曲線(xiàn)的出現(xiàn)恰如其分地解決了難以在不同樣本分布范圍上比較不同分類(lèi)器性能的這一問(wèn)題。

    ROC 曲線(xiàn)全稱(chēng)為接受者操作特性曲線(xiàn)(receiver operating characteristic curve)以假正率(FP_rate)和真正率(TP_rate)為軸,權(quán)衡了正確分類(lèi)的收益和錯(cuò)誤分類(lèi)的代價(jià)之間的關(guān)聯(lián),并以可視化的方式直觀地展現(xiàn)出來(lái)。ROC 曲線(xiàn)下方的面積稱(chēng)為AUC(Area Under Curve)[113],AUC用來(lái)定量評(píng)價(jià)分類(lèi)器預(yù)測(cè)的準(zhǔn)確性,曲線(xiàn)越接近左上角,值越高,即曲線(xiàn)下方面積越大,預(yù)測(cè)準(zhǔn)確率越高。如圖7所示,圖中L2曲線(xiàn)對(duì)應(yīng)的性能比曲線(xiàn)L1 好,D 點(diǎn)是性能最好的點(diǎn),B 點(diǎn)則是最差的點(diǎn),位于CA 直線(xiàn)上的點(diǎn)所代表的是隨機(jī)分類(lèi)器分類(lèi)的結(jié)果,位于CA線(xiàn)之上的點(diǎn)如G點(diǎn)的性能比隨機(jī)分類(lèi)器上的點(diǎn)E好,F(xiàn) 點(diǎn)的性能比隨機(jī)分類(lèi)器差。最理想的情況是TP_rate接近1,F(xiàn)P_rate接近0。圖7中TP_rate=TP/(TP+FN),F(xiàn)P_rate=FP/(FP+TN)。

    圖7 ROC曲線(xiàn)

    AUC 因其不受分類(lèi)器種類(lèi)以及先驗(yàn)概率的影響,在不平衡數(shù)據(jù)集分類(lèi)性能評(píng)價(jià)指標(biāo)中獲得廣泛的認(rèn)可??紤]到不同類(lèi)別的分類(lèi)代價(jià)存在著一定的偏差,Weng等[114]引入了加權(quán)AUC指標(biāo),它在計(jì)算面積時(shí)引入成本偏差,更好地反映了類(lèi)不平衡數(shù)據(jù)集類(lèi)別間誤分代價(jià)的差異。文獻(xiàn)[115]同樣意識(shí)到ROC 曲線(xiàn)下的區(qū)域(AUC)由于隱式地對(duì)不同的分類(lèi)器使用不同的誤分類(lèi)代價(jià)分布而存在的嚴(yán)重缺陷,提出H 測(cè)度,用對(duì)稱(chēng)β分布代替AUC中的隱式成本權(quán)重分布來(lái)評(píng)估分類(lèi)器在訓(xùn)練不平衡數(shù)據(jù)集時(shí)的性能,即使面對(duì)高度不平衡數(shù)據(jù)時(shí)該方法也能獲得比AUC更好的評(píng)價(jià)性能。Drummond等[116]則提出了一種代價(jià)敏感評(píng)估方法:代價(jià)曲線(xiàn)(Cost Curves),彌補(bǔ)了ROC曲線(xiàn)尚存的不足,直觀地反映了分類(lèi)器期望的總代價(jià),更支持了幾種關(guān)鍵的性能評(píng)估類(lèi)型,評(píng)估效果更佳。

    不可否認(rèn)ROC曲線(xiàn)為類(lèi)不平衡數(shù)據(jù)分類(lèi)評(píng)估提供了強(qiáng)大的可視化方法,但當(dāng)面對(duì)不平衡比例非常高,即高度傾斜的數(shù)據(jù)集時(shí),ROC 曲線(xiàn)往往呈現(xiàn)出過(guò)于樂(lè)觀的圖來(lái)展示分類(lèi)算法的性能,評(píng)估效果明顯下降。在這種情況下,精確召回(Precision-Recall,PR)[117]曲線(xiàn)則可以提供一個(gè)較為全面、信息量更大的評(píng)估曲線(xiàn)。

    6 不平衡數(shù)據(jù)集分類(lèi)研究的挑戰(zhàn)和展望

    6.1 不平衡數(shù)據(jù)集內(nèi)在結(jié)構(gòu)分析問(wèn)題

    一些研究認(rèn)為,類(lèi)不平衡是造成機(jī)器學(xué)習(xí)算法分類(lèi)性能受限的根本原因。但在某些情況下,分類(lèi)算法在類(lèi)不平衡的各個(gè)應(yīng)用領(lǐng)域也能夠獲得較高的分類(lèi)性能,由此又引發(fā)了對(duì)類(lèi)不平衡問(wèn)題新的思考。文獻(xiàn)[118-119]等通過(guò)實(shí)驗(yàn)證明,在分類(lèi)性能上造成阻礙的主要原因不是類(lèi)分布不均,而是類(lèi)之間的重疊程度,這常常是多數(shù)類(lèi)和少數(shù)類(lèi)邊界模糊造成的。因此,即使解決了類(lèi)不平衡問(wèn)題也并不總是有助于分類(lèi)器性能的提高。一個(gè)類(lèi)中由于樣本數(shù)量不同的多個(gè)子簇(也稱(chēng)小分離項(xiàng),small disjuncts)而形成的類(lèi)內(nèi)不平衡同樣會(huì)導(dǎo)致分類(lèi)器性能的下降[120],由于普遍存在的類(lèi)間不平衡問(wèn)題,類(lèi)內(nèi)不平衡分布問(wèn)題往往被忽視。

    除此之外,以上對(duì)類(lèi)不平衡數(shù)據(jù)分類(lèi)方法的討論大都是在有監(jiān)督學(xué)習(xí)框架下進(jìn)行的,但實(shí)際應(yīng)用中半監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)廣泛存在,即未充分標(biāo)注或完全未標(biāo)注的樣本均可能存在于數(shù)據(jù)集中,如何充分利用僅有標(biāo)注好的少數(shù)類(lèi)數(shù)據(jù)或從未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)隱藏信息是深入研究類(lèi)不平衡數(shù)據(jù)又一大需要突破的瓶頸。

    6.2 不平衡大數(shù)據(jù)分類(lèi)問(wèn)題

    信息化時(shí)代的到來(lái),數(shù)據(jù)的產(chǎn)生日益增加,如此龐大的數(shù)據(jù)體系雖然可以提供足夠多的信息進(jìn)行決策,但同樣為對(duì)這些大規(guī)模數(shù)據(jù)進(jìn)行分類(lèi)提出了新的挑戰(zhàn)。不言而喻,當(dāng)使用傳統(tǒng)的不平衡數(shù)據(jù)二分類(lèi)技術(shù)去處理大數(shù)據(jù)時(shí),即使分類(lèi)器能夠獲得較好的分類(lèi)性能,但所花費(fèi)的時(shí)間以及需要的計(jì)算成本必將是巨大的,況且很多二分類(lèi)分類(lèi)器在面對(duì)不平衡大數(shù)據(jù)時(shí)表現(xiàn)得并不友好,分類(lèi)性能明顯下降。由于巨大的不平衡數(shù)據(jù)可能來(lái)自不同的應(yīng)用領(lǐng)域,產(chǎn)生的數(shù)據(jù)其內(nèi)部結(jié)構(gòu)所呈現(xiàn)出的多樣性和復(fù)雜性,為類(lèi)不平衡數(shù)據(jù)集的分類(lèi)帶來(lái)了更大的挑戰(zhàn)[121]。正如Katal[122]等指出的在大數(shù)據(jù)類(lèi)不平衡比例高達(dá)10 000∶1的背景下,現(xiàn)有的分類(lèi)方法對(duì)這些大數(shù)據(jù)進(jìn)行建模和分析將會(huì)變得異常困難,其困難具體表現(xiàn)在大數(shù)據(jù)體積大、數(shù)據(jù)格式紛繁復(fù)雜、需要在海量數(shù)據(jù)中對(duì)重要數(shù)據(jù)進(jìn)行過(guò)濾才能提取有價(jià)值的數(shù)據(jù)信息等,現(xiàn)有的分類(lèi)方法望而卻步,此時(shí)不僅急切需要可擴(kuò)展和高效的分類(lèi)算法,還需要能夠處理異構(gòu)數(shù)據(jù)的新方法,來(lái)解決大數(shù)據(jù)集下的類(lèi)不平衡問(wèn)題。

    大數(shù)據(jù)還時(shí)常伴隨著高維不平衡數(shù)據(jù)集的出現(xiàn),這使得分類(lèi)器對(duì)少數(shù)類(lèi)的識(shí)別變得更加復(fù)雜。特別在高維特征空間下,數(shù)據(jù)分布尤其稀疏,直接導(dǎo)致少數(shù)類(lèi)難以識(shí)別,而高維特征中含有更多的冗余和不相關(guān)特征,也為不均衡數(shù)據(jù)分類(lèi)帶來(lái)了額外的難度?,F(xiàn)存處理高維數(shù)據(jù)的主要方式是降低數(shù)據(jù)維度來(lái)找到一個(gè)適合分類(lèi)的低維空間或是通過(guò)特征選擇[123]等預(yù)處理方式減少特征數(shù)量來(lái)緩解高維不平衡數(shù)據(jù)帶來(lái)的問(wèn)題。但面對(duì)數(shù)據(jù)呈現(xiàn)高維和不平衡的雙重特性,目前這兩種處理方式還存在欠缺,有效地分類(lèi)高維不平衡數(shù)據(jù)仍是亟待解決的問(wèn)題。

    6.3 基于不平衡數(shù)據(jù)流分類(lèi)問(wèn)題

    以上研究的分類(lèi)算法主要是從靜態(tài)的數(shù)據(jù)集中學(xué)習(xí),實(shí)際應(yīng)用中數(shù)據(jù)不乏以流的方式呈現(xiàn),如在對(duì)動(dòng)態(tài)不斷更新的網(wǎng)頁(yè)中分析數(shù)據(jù)以期建立分類(lèi)模型時(shí),因其數(shù)據(jù)特征高度動(dòng)態(tài)變化的特性,對(duì)新的樣本類(lèi)別分布存在不確定性使得分類(lèi)任務(wù)無(wú)法如期進(jìn)行。以上分析可知,數(shù)據(jù)流分布可能隨著時(shí)間的推移而改變,會(huì)形成概念漂移(Concept Drift)[124]的現(xiàn)象,可能導(dǎo)致數(shù)據(jù)集中多數(shù)類(lèi)和少數(shù)類(lèi)的不平衡比例變化,流式數(shù)據(jù)也可能表現(xiàn)出不同程度的類(lèi)不平衡,導(dǎo)致分類(lèi)任務(wù)更加復(fù)雜多變,基于靜態(tài)學(xué)習(xí)的分類(lèi)算法儼然難以根據(jù)數(shù)據(jù)集的分布規(guī)律和內(nèi)在屬性建立分類(lèi)模型,進(jìn)而對(duì)新樣本進(jìn)行預(yù)測(cè),迫切需要能夠?qū)崟r(shí)處理類(lèi)不平衡數(shù)據(jù)流的自適應(yīng)方法。Nguyen等[125]提出新的自適應(yīng)重用數(shù)據(jù)學(xué)習(xí)方法來(lái)解決類(lèi)不平衡數(shù)據(jù)流問(wèn)題便獲得了較優(yōu)的性能。Ryan等[126]則綜合考慮了數(shù)據(jù)流中分布變化和類(lèi)不平衡問(wèn)題,提出基于分布散度和元分類(lèi)的新方法,改進(jìn)了不平衡分類(lèi)研究中常用的幾種性能指標(biāo),即使對(duì)于不平衡度高且極為復(fù)雜的數(shù)據(jù)流,它的分類(lèi)性能也能明顯提高。

    雖文獻(xiàn)[127]回顧了學(xué)習(xí)類(lèi)不平衡數(shù)據(jù)流中的一系列框架,但是目前對(duì)類(lèi)不平衡數(shù)據(jù)流的研究還是非常稀少,值得今后去進(jìn)一步研究。

    6.4 不平衡數(shù)據(jù)集的多分類(lèi)問(wèn)題

    本文主要研究的是類(lèi)不平衡數(shù)據(jù)下的二分類(lèi)問(wèn)題,討論了類(lèi)不平衡分類(lèi)的各種策略。雖然這些應(yīng)對(duì)策略可以使用多個(gè)二元分類(lèi)任務(wù)序列擴(kuò)展到多分類(lèi)問(wèn)題,但這大都是建立在理想的條件下,多分類(lèi)問(wèn)題的分類(lèi)任務(wù)實(shí)際情況會(huì)復(fù)雜得多,很難判斷數(shù)據(jù)集中不同類(lèi)別之間的聯(lián)系,而且也可能會(huì)為了追求某個(gè)類(lèi)別較高的分類(lèi)性能,而犧牲其他類(lèi)別的分類(lèi)性能。當(dāng)然也存在著多個(gè)少數(shù)類(lèi)和多個(gè)多數(shù)類(lèi)的情況,文獻(xiàn)[128]便深入研究了多少數(shù)類(lèi)和多多數(shù)類(lèi)這兩類(lèi)多分類(lèi)不平衡問(wèn)題,提出三種集成方法對(duì)總體性能和少數(shù)類(lèi)性能進(jìn)行分析,發(fā)現(xiàn)欠采樣技術(shù)對(duì)少數(shù)類(lèi)的數(shù)量很敏感,并且在多數(shù)類(lèi)數(shù)據(jù)中分類(lèi)器的性能會(huì)受到損失,得出一個(gè)好的解決多分類(lèi)問(wèn)題的方案不是減少多數(shù)類(lèi)的數(shù)量,而應(yīng)該克服過(guò)采樣帶來(lái)的過(guò)擬合問(wèn)題的結(jié)論。Zhou等[129]也指出處理具有不同類(lèi)別錯(cuò)誤分類(lèi)代價(jià)的多類(lèi)別任務(wù)會(huì)比處理兩類(lèi)別的任務(wù)更困難。

    另外,分類(lèi)評(píng)估指標(biāo)一直以來(lái)都飽受爭(zhēng)議,又由于類(lèi)不平衡問(wèn)題的特殊性,使得對(duì)分類(lèi)器性能的評(píng)價(jià)變得更加困難,即使是針對(duì)二分類(lèi)任務(wù)也鮮有為其量身定制的分類(lèi)性能評(píng)估指標(biāo)出現(xiàn),而多分類(lèi)問(wèn)題的復(fù)雜性導(dǎo)致很多適用于二分類(lèi)問(wèn)題的評(píng)估指標(biāo)對(duì)于多分類(lèi)問(wèn)題未必適用。

    只有深入了解多分類(lèi)中類(lèi)不平衡的本質(zhì),才能設(shè)計(jì)一個(gè)較為適合的算法處理該問(wèn)題。而目前針對(duì)不平衡多分類(lèi)問(wèn)題的研究仍處于初期,還擁有很大的發(fā)展空間,這也為未來(lái)的研究提出了許多開(kāi)放的挑戰(zhàn)。

    猜你喜歡
    特征選擇分類(lèi)器分類(lèi)
    分類(lèi)算一算
    分類(lèi)討論求坐標(biāo)
    數(shù)據(jù)分析中的分類(lèi)討論
    BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
    教你一招:數(shù)的分類(lèi)
    Kmeans 應(yīng)用與特征選擇
    電子制作(2017年23期)2017-02-02 07:17:06
    加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
    結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    基于LLE降維和BP_Adaboost分類(lèi)器的GIS局部放電模式識(shí)別
    北川| 集安市| 康平县| 呼和浩特市| 甘谷县| 雷波县| 城市| 大宁县| 巨野县| 肇东市| 福清市| 旺苍县| 两当县| 容城县| 灌云县| 德州市| 县级市| 米林县| 乐东| 通渭县| 邹平县| 呼图壁县| 长治市| 澜沧| 曲水县| 高要市| 彭泽县| 平遥县| 青海省| 扎囊县| 河池市| 临桂县| 旌德县| 平乐县| 东乡族自治县| 青川县| 抚远县| 扎鲁特旗| 池州市| 和平县| 英德市|