• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于SMOTE的不平衡數(shù)據(jù)集重采樣方法

    2021-09-15 11:47:18張?zhí)煲?/span>丁立新
    關(guān)鍵詞:分類器向量分類

    張?zhí)煲?丁立新

    (武漢大學(xué)計(jì)算機(jī)學(xué)院 湖北 武漢 430072)

    0 引 言

    現(xiàn)實(shí)中的數(shù)據(jù)集通常是不平衡的,不平衡數(shù)據(jù)集中的實(shí)例分布十分不均衡。當(dāng)基于不平衡數(shù)據(jù)集構(gòu)造分類器時(shí),分類器的預(yù)測結(jié)果可能會(huì)偏向多數(shù)類,這些分類器很容易將少數(shù)樣本誤分類為多數(shù)類。但是有時(shí)少數(shù)類樣本才是問題的主要研究對(duì)象,在這種情況下,少數(shù)類樣本的錯(cuò)誤分類可能會(huì)帶來嚴(yán)重的問題和風(fēng)險(xiǎn)。例如,在醫(yī)學(xué)數(shù)據(jù)集中,健康人的樣本通常遠(yuǎn)遠(yuǎn)多于患者樣本,如果基于此數(shù)據(jù)集構(gòu)建分類器,那么輸入一個(gè)測試樣本,分類器大概率會(huì)將輸入樣本預(yù)測為健康人,但是將患者誤分類為健康人的風(fēng)險(xiǎn)遠(yuǎn)高于將健康人誤分類為患者的風(fēng)險(xiǎn)。數(shù)據(jù)失衡不僅出現(xiàn)在醫(yī)學(xué)檢測中,而且也出現(xiàn)在許多其他實(shí)際應(yīng)用中,例如海上雷達(dá)圖像中油污泄露區(qū)域檢測[1]、電信欺詐檢測[2]等。

    研究者們已經(jīng)開發(fā)出了許多方法來消除數(shù)據(jù)不平衡所帶來的影響,這些方法大都在算法層面或數(shù)據(jù)層面來解決不平衡問題。算法層面的方法主要包括集成學(xué)習(xí)法和成本敏感型學(xué)習(xí)法。傳統(tǒng)分類算法的目標(biāo)是平衡的數(shù)據(jù)集,因此數(shù)據(jù)集中的所有樣本都具有相同的重要性,并且將A誤分類為B和將B誤分類為A的代價(jià)是相同的。但是在不平衡的數(shù)據(jù)集中,對(duì)于少數(shù)類而言,擁有與多數(shù)類樣本相等的誤分類成本并不公平。因?yàn)樵谝恍﹩栴}中,少數(shù)類相比于其他類具有更大的研究價(jià)值。成本敏感型學(xué)習(xí)方法則修改了各類錯(cuò)誤的懲罰因子,分類器將少數(shù)類樣本誤分類為多數(shù)類樣本會(huì)受到更大的懲罰,在迭代過程中會(huì)逐漸減少這類錯(cuò)誤,因此可以弱化或消除分類器的錯(cuò)誤偏差。AdaCost[3]是一種典型的成本敏感型學(xué)習(xí)方法。AdaCost在迭代學(xué)習(xí)過程中為少數(shù)樣本的錯(cuò)誤分類提供了更大的懲罰因素,這使得少數(shù)樣本在總體成本函數(shù)中占主導(dǎo)地位。

    集成學(xué)習(xí)方法從數(shù)據(jù)集中生成多個(gè)獨(dú)立的預(yù)測模型作為弱分類器,然后將這些模型組合為強(qiáng)分類器。當(dāng)每個(gè)弱分類器具有相對(duì)較低的錯(cuò)誤率時(shí),組合的強(qiáng)分類器將具有比任何弱分類器低得多的錯(cuò)誤率。研究人員已經(jīng)開發(fā)了基于提升算法的改進(jìn)方法來解決數(shù)據(jù)不平衡問題,例如文獻(xiàn)[4]提出少數(shù)類合成提升算法(SMOTEBoost)、文獻(xiàn)[5]提出隨機(jī)欠采樣提升算法(RUSBoost)、文獻(xiàn)[6]提出干擾修正提升算法(PCBoost)、文獻(xiàn)[7]提出基于模型的樣本合成提升算法(MBSBoost)、文獻(xiàn)[8]提出基于過采樣的不平衡數(shù)據(jù)集成分類算法(SDPDBoost)。SMOTEBoost使用SMOTE進(jìn)行樣本合成,并且把新樣本加入到數(shù)據(jù)集中。這些新樣本可以給弱分類器帶來更多有關(guān)少數(shù)群體分類的信息,經(jīng)過多次迭代,最終的強(qiáng)分類器可以得到針對(duì)少數(shù)類樣本分類的提升。RUSBoost則采用欠采樣方法,隨機(jī)刪除一些多數(shù)類樣本,然后使用處理后的數(shù)據(jù)構(gòu)造弱分類器。PCBoost算法首先對(duì)少數(shù)類進(jìn)行隨機(jī)過采樣,然后使用信息增益率構(gòu)造弱分類器。錯(cuò)誤分類的過采樣樣本在最后階段會(huì)被刪除。除了基于提升算法的方法,還有其他的方法,如文獻(xiàn)[9]提出的概率閾值袋裝法,利用袋裝法首先獲得校準(zhǔn)良好的后驗(yàn)估計(jì),然后根據(jù)性能指標(biāo)選取適當(dāng)?shù)拈撝?,以使其最大化?/p>

    數(shù)據(jù)層面的方法采用的主要策略是合成新樣本和重采樣。這些方法會(huì)重塑數(shù)據(jù)集,因此可以通過重塑每個(gè)類別中的樣本數(shù)來消除數(shù)據(jù)不平衡。主要有三種重采樣方式:多數(shù)類樣本欠采樣、少數(shù)類樣本過采樣和混合方法。欠采樣方法會(huì)丟棄多數(shù)類中的某些內(nèi)部樣本,或?qū)⒛承颖咎鎿Q為合成樣本,然后通過某種標(biāo)準(zhǔn)選擇丟棄的樣本或替換后的樣本,以便剩余的多數(shù)樣本可以保留盡可能多的原始數(shù)據(jù)信息。欠采樣后,兩種類型的采樣數(shù)近似相等,數(shù)據(jù)集達(dá)到平衡。過采樣方法通過生成新的少數(shù)類樣本來消除偏斜分布的危害,生成的新樣本加入數(shù)據(jù)集后,應(yīng)使數(shù)據(jù)集達(dá)到平衡,并且基于這些數(shù)據(jù)集訓(xùn)練的分類器可以是無偏的?;旌戏椒ㄊ巧鲜龇椒ǖ幕旌?,它同時(shí)使用欠采樣和過采樣來使數(shù)據(jù)集平衡,經(jīng)由數(shù)據(jù)層面的方法處理后的數(shù)據(jù)集是平衡的,因此基本分類器可以發(fā)揮其原始作用。

    在以上不同類型的方法中,過采樣是研究人員在解決數(shù)據(jù)不平衡問題中的一種流行策略[10],而使用較多的方法之一是少數(shù)類樣本合成過采樣技術(shù)(SMOTE)算法[11]。該方法根據(jù)少數(shù)樣本的k個(gè)最近鄰樣本生成新的合成樣本,合成樣本是端點(diǎn)為兩個(gè)最近鄰少數(shù)類樣本對(duì)應(yīng)的線段上的隨機(jī)點(diǎn)。由于缺乏多樣性,已經(jīng)有許多其他改進(jìn)的算法被提出,例如文獻(xiàn)[12]提出的邊界線少數(shù)類樣本合成技術(shù)(Borderline SMOTE)、文獻(xiàn)[13]提出的自適應(yīng)綜合過采樣(ADASYN)、文獻(xiàn)[14]提出的基于類聚集程度的少數(shù)類樣本合成(DB-SMOTE)、文獻(xiàn)[15]提出的基于周圍鄰域的SMOTE和文獻(xiàn)[16]提出的隨機(jī)游走過采樣(RWO)。針對(duì)多分類不平衡問題,文獻(xiàn)[17]提出了基于馬氏距離的適應(yīng)性過采樣方法(AMDO)。為了使合成的樣本更具多樣性,本文提出了一種改進(jìn)的合成技術(shù)。與其選擇兩個(gè)點(diǎn)來構(gòu)建一條線,不如在合成過程中涉及更多樣本來構(gòu)建平面或空間。除了過采樣策略,還有許多欠采樣的方法被用來解決不平衡問題,如文獻(xiàn)[18]提出的去噪欠采樣(Noise-filtered Under-sampling Scheme)。

    1 背景知識(shí)

    1.1 少數(shù)類樣本合成過采樣技術(shù)

    解決數(shù)據(jù)不平衡問題的一種典型的過采樣方法是SMOTE算法,該方法旨在彌補(bǔ)少數(shù)類隨機(jī)過采樣的缺陷。對(duì)少數(shù)類樣本進(jìn)行隨機(jī)過采樣不會(huì)使得少數(shù)類樣本更具識(shí)別性,因?yàn)檫^采樣過程其實(shí)是對(duì)樣本進(jìn)行復(fù)制,這種復(fù)制會(huì)使樣本的決策判定越來越嚴(yán)格,越來越具體,導(dǎo)致分類過擬合。例如,如果原始決策為[0,10],則在隨機(jī)過采樣后,由于復(fù)制了多個(gè)少數(shù)樣本,這使分類器確信少數(shù)類在較窄的范圍內(nèi),分類器將給出更具體的決策區(qū)域,例如[3,6]。SMOTE算法則采用了合成新樣本的方法來增加少數(shù)類樣本的數(shù)量,其基本步驟如下:

    Step1從少數(shù)類樣本A的K最近鄰少數(shù)類中隨機(jī)選取一個(gè)B,A和B的樣本特征的差向量為(B-A)。

    Step2從區(qū)間(0,1)中隨機(jī)選取一個(gè)實(shí)數(shù)i作為權(quán)值。將權(quán)值i與差向量相乘得到i(B-A)。

    Step3把Step 2的結(jié)果與樣本A的特征向量相加得到合成樣本A+i(B-A)。

    該技術(shù)通過生成人工樣本來拓寬決策區(qū)域,因?yàn)樘砑拥綌?shù)據(jù)集中的樣本位于原始樣本的附近的合成樣本,而不是樣本本身。與帶有替換的隨機(jī)過采樣相比,決策區(qū)域更為通用。實(shí)驗(yàn)表明,SMOTE算法可以提高少數(shù)類的分類器準(zhǔn)確性,并且SMOTE算法和欠采樣的組合比單純使用欠采樣效果更好。SMOTE算法在低維不平衡數(shù)據(jù)集中運(yùn)行良好,但在一些實(shí)驗(yàn)中能觀察到,SMOTE在高維上的性能不如在低維上的性能[19]。SMOTE包含一個(gè)參數(shù)k,代表了取最近鄰的個(gè)數(shù),文獻(xiàn)[20]介紹了如何選取合適的k值。

    1.2 已有的SMOTE算法改進(jìn)

    盡管SMOTE算法是解決數(shù)據(jù)不平衡問題的有效工具,但它仍有一些局限性。其沒有考慮多數(shù)類別即可生成合成樣本,由于新樣本的生成過程是隨機(jī)的,因此新生成的樣本可能會(huì)出現(xiàn)在多數(shù)類的決策區(qū)域中。隨機(jī)生成的結(jié)果是兩種類別的決策區(qū)域的重疊的概率會(huì)增加,這使得兩個(gè)類別更難以區(qū)分[11]。前人已經(jīng)提出了SMOTE算法的一些改進(jìn)版本,大多數(shù)的改進(jìn)算法都在尋找一個(gè)合適的生成區(qū)域生成新樣本并盡量避免重疊的增大。文獻(xiàn)[12]提出的Borderline SMOTE將少數(shù)樣本劃分為噪聲點(diǎn)、危險(xiǎn)點(diǎn)和安全點(diǎn),首先刪除噪聲點(diǎn),僅使用危險(xiǎn)點(diǎn)進(jìn)行樣本合成。Borderline SMOTE在生成過程中不僅使用少數(shù)樣本,還使用多數(shù)樣本,通過此方法可以加強(qiáng)類之間的邊界。自適應(yīng)SMOTE考慮了最近鄰居和被選取的少數(shù)樣本的距離[13],設(shè)置了最近鄰距離的閾值,避免了樣本到合成樣本之間的距離過長,并根據(jù)不同樣本集的內(nèi)部分布特征調(diào)整閾值。基于周圍鄰域的SMOTE算法使用了最近鄰的不同定義[14],該方法使用了最近的質(zhì)心鄰域和Graph鄰域,以確保最近的鄰域距離不太遠(yuǎn)?;诰植烤€性嵌入的SMOTE算法將局部線性嵌入算法部署到少數(shù)樣本[15]。隨機(jī)游走過采樣(RWO)引入了基于中心極限定理的過采樣方法[16],它以新生成的少數(shù)樣本均值遵循原始分布的方式創(chuàng)建樣本。當(dāng)使用帶有SVM的SMOTE算法作為分類器時(shí),合成采樣方法會(huì)影響SVM的內(nèi)核歸納特征空間的性能,基于內(nèi)核的SMOTE算法直接在SVM的特征空間中生成合成樣本[23]。文獻(xiàn)[24]結(jié)合了K-means聚類和SMOTE算法來創(chuàng)建新樣本,避免了噪聲的產(chǎn)生,有效地克服了類之間和類內(nèi)部的不平衡。

    2 改進(jìn)算法

    2.1 SMOTE算法的局限性

    SMOTE算法首先找出每個(gè)少數(shù)類的k個(gè)最近鄰樣本,然后隨機(jī)選擇一個(gè)最近鄰樣本和一個(gè)實(shí)數(shù)來合成新樣本。根據(jù)算法的描述,對(duì)于單個(gè)合成樣本,只有兩個(gè)真實(shí)的少數(shù)樣本參與合成,并且合成樣本選自兩個(gè)真實(shí)樣本所對(duì)應(yīng)的線段上。換言之,合成樣本的特征向量是兩個(gè)真實(shí)樣本特征向量的線性組合。整個(gè)少數(shù)類中新樣本的潛在出現(xiàn)范圍是每個(gè)少數(shù)類樣本對(duì)之間的一組線段上。在低維特征空間中,這種方法足以描述潛在的少數(shù)類樣本分布特點(diǎn)。但當(dāng)特征空間維度較高時(shí),線性關(guān)系太單調(diào)以致不足以描述潛在的少數(shù)樣本的分布。因?yàn)樵诘途S度空間中可能的真實(shí)樣本落在一條線段上的概率較高,但是隨著維度的增大,潛在的真實(shí)樣本落入在兩個(gè)樣本之間線段上的可能性則會(huì)越來越小。

    另外,原有的合成策略不足以改變某些分類器的偏差。例如,支持向量機(jī)分類器使用支持向量來找出分隔不同類的邊界,支持向量是靠近邊界的樣本向量,是分類算法的核心,如果將SVM應(yīng)用于通過SMOTE算法進(jìn)行過采樣的數(shù)據(jù)集,參與單個(gè)樣本合成的真實(shí)樣本存在三種可能性,即兩個(gè)都是支持向量、兩個(gè)都不是支持向量、一個(gè)是支持向量且一個(gè)是非支持向量,后兩種可能性的合成樣本幾乎不能成為支持向量,因此新樣本對(duì)邊界的計(jì)算沒有幫助。對(duì)于第一種情況,新樣本不會(huì)顯著改變原始邊界,因?yàn)樗鼈兾挥谥С窒蛄康闹本€上,并且這些直線與邊界線段趨近平行。總體而言,SMOTE算法在高維度上缺乏多樣性,并且可能不會(huì)大大改變某些分類器的偏差。

    2.2 改進(jìn)SMOTE算法設(shè)計(jì)

    基于以上分析,SMOTE算法的缺點(diǎn)實(shí)際上有著相同的原因,即合成方法太單調(diào),并且線段關(guān)系太簡單以致無法適應(yīng)潛在的少數(shù)類特征。為合成樣本添加一些垂直偏移可以增加多樣性,一種有效的方法是在生成過程中涉及更多的少數(shù)類樣本。

    因此,本文提出了一種改進(jìn)的SMOTE算法,與原始的SMOTE算法相比,本文使用D個(gè)少數(shù)類樣本創(chuàng)建了人工樣本,這里D是特征空間的維數(shù)。首先,對(duì)于所有少數(shù)樣本,計(jì)算它們的k個(gè)相同類別的最近鄰樣本集,然后對(duì)于每個(gè)少數(shù)樣本,選擇D個(gè)鄰居和0到1/D的實(shí)數(shù)以創(chuàng)建新樣本。該方法將合成樣本空間從一維空間擴(kuò)展到D維空間,從而使新樣本更加多樣化。改進(jìn)的SMOTE算法描述如算法1所示。

    算法1改進(jìn)的SMOTE算法

    輸入:訓(xùn)練集中的正類樣本集合(少數(shù)類集合)P={P1,P2,…,Pmin};正類樣本的個(gè)數(shù)min;每一個(gè)正類需合成樣本的數(shù)量N;近鄰個(gè)數(shù)k;參與合成的近鄰個(gè)數(shù)D(D

    輸出:一個(gè)合成樣本集合Syntheticsamples。

    使用少數(shù)類集合P構(gòu)建Kd樹;

    fori=1 tomindo

    找出Pi的k近鄰集合:

    knni={knni1,knni2,…,knnik};

    fora=1 toNdo

    從knni中隨機(jī)選擇D個(gè)緊鄰樣本:

    da={da1,da2,…,daD};

    計(jì)算被選取的近鄰與樣本Pa的向量差:

    計(jì)算合成樣本的向量:

    將生成的新樣本計(jì)入集合;

    Endfor

    Endfor

    這里,失衡率是多數(shù)類樣本個(gè)數(shù)與少數(shù)類樣本個(gè)數(shù)的比值,N=INT(maj/min-1),maj是多數(shù)樣本的數(shù)量。

    上述的改進(jìn)算法中有兩個(gè)參數(shù)k和D,其中k表示最近鄰樣本的數(shù)量,D表示生成新樣本過程中涉及的樣本數(shù)量。原始SMOTE算法始終將參數(shù)D設(shè)置為1,這使得樣本出現(xiàn)的范圍在真實(shí)的少數(shù)類樣本的線段上。如果將D設(shè)置為2,則合成樣本將在平面上而不是在線段上。如果將D設(shè)置為特征向量的大小,則合成樣本的可能范圍將擴(kuò)展到整個(gè)特征空間。在一些特殊情況下,合成樣本的可能范圍會(huì)小于預(yù)期,如選取的最近鄰中存在某個(gè)樣本是其他樣本的線性組合,此時(shí)依然能夠生成足夠多樣的合成樣本。

    新算法會(huì)輸出min×D個(gè)合成樣本,這些樣本分布在整個(gè)特征空間而不是線段中。因此,本文改進(jìn)的SMOTE算法的結(jié)果會(huì)更加多樣化,并且能夠表示潛在分布特征。與RWO算法相比,本文改進(jìn)的SMOTE算法生成的人工樣本具有更多的局部分布特征。

    3 實(shí) 驗(yàn)

    準(zhǔn)確率是衡量分類器性能的通用指標(biāo),但是當(dāng)數(shù)據(jù)集不平衡時(shí),準(zhǔn)確率并不能很好地體現(xiàn)分類器對(duì)于少數(shù)類樣本的分類性能。由于數(shù)據(jù)集中包含大量多數(shù)類樣本,因此多數(shù)類的準(zhǔn)確率主導(dǎo)了整體準(zhǔn)確率。為了評(píng)估分類器的整體性能,研究者們使用了許多其他指標(biāo),例如AUC和F-measure。AUC是ROC(接收器工作特性曲線)曲線下的面積,ROC曲線是表示在不同分類標(biāo)準(zhǔn)下真陽率和假陽率變化的曲線。根據(jù)不同的分類器,標(biāo)準(zhǔn)也有所不同。由于ROC曲線下的面積是不同標(biāo)準(zhǔn)的積分結(jié)果,針對(duì)分類器的整體度量,因此該度量僅與分類器和數(shù)據(jù)集有關(guān)。ROC曲線如圖1所示,其中:曲線最左邊點(diǎn)的坐標(biāo)為(0,0),最右邊點(diǎn)的坐標(biāo)為(1,1)。AUC則是ROC曲線下的的面積,即ROC在[0,1]區(qū)間的定積分。

    圖1 ROC曲線示例

    F-measure是精度和召回率的加權(quán)諧波平均值。由于多數(shù)類的權(quán)重更多地取決于準(zhǔn)確性,因此手動(dòng)為少數(shù)類設(shè)置適當(dāng)?shù)臋?quán)重可以對(duì)分類器進(jìn)行公平的評(píng)估。F測度的公式為:

    (1)

    式中:recall為召回率,recall=TP/(TP+FN);precision為準(zhǔn)確率,precision=TP/(TP+FP);β為諧波系數(shù),設(shè)置β=1;F-measure為F1-measure,本文實(shí)驗(yàn)中也使用了F1-measure作為衡量指標(biāo)之一。實(shí)驗(yàn)中選擇AUC、少數(shù)類召回率、少數(shù)類準(zhǔn)確率及F1量度作為度量標(biāo)準(zhǔn),因?yàn)檫@些衡量指標(biāo)更多地集中于分類器的整體表現(xiàn)。

    本文使用的數(shù)據(jù)集來自UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫。數(shù)據(jù)集包括Adults、Forest、Phoneme和Pima。在這些數(shù)據(jù)集中Adults、Phoneme和Pima是二分類集,F(xiàn)orest是多分類集。由于Forest數(shù)據(jù)集具有兩個(gè)以上的類別,所以手動(dòng)選擇一個(gè)類作為少數(shù)類,并將其余的類合并為一個(gè)類作為多數(shù)類。某些數(shù)據(jù)集包含名義屬性,SMOTE算法是為數(shù)字屬性設(shè)計(jì)的,不能用于名詞性屬性。為了方便起見,將這些名詞性屬性刪除。改進(jìn)算法中的參數(shù)D則會(huì)根據(jù)數(shù)據(jù)集的屬性數(shù)有所改變。Adult、Forest、Phoneme和Pima的參數(shù)D分別為14、12、5和8。表1展示了每個(gè)數(shù)據(jù)集的詳細(xì)信息。

    表1 數(shù)據(jù)集信息

    實(shí)驗(yàn)中應(yīng)用了不同的機(jī)器學(xué)習(xí)算法作為過采樣數(shù)據(jù)集的分類器,包括KNN、CART、樸素貝葉斯分類器(Bayes)和支持向量機(jī)(SVM)。這些分類器是基于scikit-learn(https://scikit-learn.org/)構(gòu)建。

    實(shí)驗(yàn)測試了三種過采樣方法,分別為SMOTE算法、本文改進(jìn)的SMOTE算法和RWO算法。SMOTE算法是本文中改進(jìn)算法的原算法。RWO算法是一種基于中心極限定理的過采樣算法,在合成新樣本的過程中首先會(huì)計(jì)算出所有少數(shù)類樣本的正態(tài)分布,再根據(jù)這個(gè)分布產(chǎn)生新樣本。所以新樣本是根據(jù)所有少數(shù)類樣本產(chǎn)生的,并且在所有屬性上都具有多樣性。本文算法是針對(duì)原算法在合成樣本多樣性上的改進(jìn),因此選用SMOTE算法和RWO算法作為對(duì)照比較。由于所有這些方法均包含隨機(jī)因素,因此單次實(shí)驗(yàn)無法有效反映算法的性能。針對(duì)每種過采樣方法和分類器進(jìn)行了30次重復(fù)實(shí)驗(yàn),最終結(jié)果是所有結(jié)果的平均值。每種過采樣算法和分類算法的實(shí)驗(yàn)結(jié)果如表3-表5所示。4個(gè)指標(biāo)通過十折交叉驗(yàn)證進(jìn)行評(píng)估,每個(gè)指標(biāo)的評(píng)估將產(chǎn)生10個(gè)實(shí)驗(yàn)結(jié)果,并且表中顯示的結(jié)果是所有驗(yàn)證結(jié)果的均值。

    表2 Adult數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

    表3 Forest數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

    表4 Phoneme數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

    表5 Pima數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

    續(xù)表5

    為了更加直觀地比較三種方法的綜合性能,本文特別比較了三種方法在不同數(shù)據(jù)集和分類算法下的ROC-AUC指數(shù),如圖2-圖5所示。

    圖2 Adult數(shù)據(jù)集ROC-AUC比較

    圖3 Forest數(shù)據(jù)集ROC-AUC比較

    圖4 Phoneme數(shù)據(jù)集ROC-AUC比較

    圖5 Pima數(shù)據(jù)集ROC-AUC比較

    根據(jù)Adult數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,本文方法具有比原始SMOTE算法更好的總體性能,尤其是在使用SVM分類器的Forest和Pima數(shù)據(jù)集的結(jié)果上,本文方法在這些數(shù)據(jù)集上實(shí)現(xiàn)了更高的ROC-AUC。至于其他指標(biāo)和測試,結(jié)果提升了1%~2%。當(dāng)使用CART分類器對(duì)過采樣的數(shù)據(jù)集進(jìn)行分類時(shí),SMOTE算法的性能要優(yōu)于本文方法,SMOTE算法在召回率、F1和ROC-AUC方面表現(xiàn)更好。在高失衡率數(shù)據(jù)集中,本文方法的性能不如RWO算法。但是在低失衡率數(shù)據(jù)集(如Pima)中,本文方法具有與RWO算法類似的結(jié)果。綜合結(jié)果表明本文方法優(yōu)于其他兩種方法,特別是在使用SVM時(shí),而RWO算法在使用樸素貝葉斯分類器時(shí)具有更好表現(xiàn)。

    4 結(jié) 語

    數(shù)據(jù)不平衡會(huì)影響基本分類器的分類結(jié)果,使它們很難對(duì)少數(shù)類進(jìn)行公平的分類。為了解決這個(gè)問題,SMOTE算法被提出以通過生成少數(shù)樣本的合成來達(dá)到平衡。本文提出了一種SMOTE方法的改進(jìn),使算法產(chǎn)生的合成樣本更具多樣性。實(shí)驗(yàn)表明,該方法在召回率、F1和ROC-AUC方面比原始SMOTE算法具有更好的性能,并且在使用SVM分類器的低失衡率數(shù)據(jù)集上特別有效。本文算法比原始SMOTE算法在綜合性能上也有一定的提升,在使用不同的分類算法時(shí),本文方法和RWO算法也會(huì)有不同的表現(xiàn)。在使用樸素貝葉斯分類器時(shí),RWO算法優(yōu)于本文方法;使用支持向量機(jī)時(shí),本文方法則會(huì)有更好的綜合性能。盡管在整體實(shí)驗(yàn)結(jié)果上,本文方法優(yōu)于SMOTE算法,但是當(dāng)數(shù)據(jù)集的不平衡率較高時(shí),RWO算法會(huì)比本文方法更好。因此,當(dāng)數(shù)據(jù)集高度不平衡時(shí),還需要探索更有效的改進(jìn)策略。

    本文方法比原始SMOTE算法多一個(gè)設(shè)定參數(shù)。對(duì)于不同的數(shù)據(jù)集,最佳參數(shù)是不同的,如何設(shè)置適當(dāng)?shù)膮?shù)是有待解決的問題。未來可嘗試將其他的一些改進(jìn)版本的SMOTE上使用的策略移植到本文方法上,多種策略融合或許是處理非平衡數(shù)據(jù)集分類問題的可選途徑。

    猜你喜歡
    分類器向量分類
    向量的分解
    分類算一算
    聚焦“向量與三角”創(chuàng)新題
    分類討論求坐標(biāo)
    數(shù)據(jù)分析中的分類討論
    BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
    電子測試(2018年1期)2018-04-18 11:52:35
    教你一招:數(shù)的分類
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    向量垂直在解析幾何中的應(yīng)用
    成年人黄色毛片网站| 丰满的人妻完整版| 午夜免费成人在线视频| 国产亚洲精品久久久久久毛片| 搞女人的毛片| 亚洲成av人片在线播放无| 国产在线精品亚洲第一网站| 内地一区二区视频在线| 在线免费观看不下载黄p国产 | 精品福利观看| 尾随美女入室| 午夜视频国产福利| 精品久久久久久久久久久久久| 麻豆av噜噜一区二区三区| 久久久久性生活片| 午夜激情欧美在线| 国产精品一区www在线观看 | 国产精品98久久久久久宅男小说| 不卡视频在线观看欧美| 色综合婷婷激情| 天堂网av新在线| 成人一区二区视频在线观看| 日韩欧美国产在线观看| 婷婷丁香在线五月| 啦啦啦啦在线视频资源| 美女高潮的动态| 一级黄片播放器| 可以在线观看的亚洲视频| 欧美bdsm另类| av国产免费在线观看| 午夜福利在线在线| 又粗又爽又猛毛片免费看| 国产高清视频在线播放一区| 亚洲第一区二区三区不卡| .国产精品久久| 一级黄色大片毛片| 国产高清不卡午夜福利| 国产毛片a区久久久久| 日韩,欧美,国产一区二区三区 | 91在线观看av| 精品久久久久久成人av| 极品教师在线视频| 久久草成人影院| 国产真实乱freesex| 国产不卡一卡二| 91久久精品国产一区二区三区| 男插女下体视频免费在线播放| 久久精品国产亚洲av天美| 亚洲国产欧美人成| 97超视频在线观看视频| www.色视频.com| 国产私拍福利视频在线观看| 欧美黑人欧美精品刺激| 中文字幕熟女人妻在线| 99久久无色码亚洲精品果冻| 午夜免费激情av| 给我免费播放毛片高清在线观看| 男插女下体视频免费在线播放| 久久国内精品自在自线图片| 日本一二三区视频观看| 一本一本综合久久| 国产精品美女特级片免费视频播放器| 国产美女午夜福利| 三级毛片av免费| 97超级碰碰碰精品色视频在线观看| bbb黄色大片| 韩国av在线不卡| 国产精品一区www在线观看 | 国产精品国产高清国产av| 亚洲av五月六月丁香网| 国产精品99久久久久久久久| 熟妇人妻久久中文字幕3abv| 国产免费男女视频| 国产亚洲精品av在线| 天天一区二区日本电影三级| 国产精品1区2区在线观看.| 国产午夜福利久久久久久| 日韩一本色道免费dvd| 久久人人精品亚洲av| 精华霜和精华液先用哪个| 精品久久久久久久久亚洲 | 欧美另类亚洲清纯唯美| 尤物成人国产欧美一区二区三区| 国产 一区 欧美 日韩| 可以在线观看毛片的网站| 中文字幕高清在线视频| 久久久久免费精品人妻一区二区| 99久久九九国产精品国产免费| av.在线天堂| 1000部很黄的大片| 亚洲美女黄片视频| 一a级毛片在线观看| 国产精品人妻久久久影院| 久久久久久大精品| 亚洲精华国产精华精| 麻豆成人午夜福利视频| 精品日产1卡2卡| 天堂网av新在线| 韩国av一区二区三区四区| .国产精品久久| 97碰自拍视频| 3wmmmm亚洲av在线观看| 97超视频在线观看视频| 国产一区二区三区在线臀色熟女| 色播亚洲综合网| 日韩 亚洲 欧美在线| 内地一区二区视频在线| 国产探花在线观看一区二区| 欧美+日韩+精品| 欧美区成人在线视频| 成人毛片a级毛片在线播放| 亚洲成人中文字幕在线播放| 亚州av有码| 最近中文字幕高清免费大全6 | 国产aⅴ精品一区二区三区波| 91在线观看av| 女同久久另类99精品国产91| 欧美+亚洲+日韩+国产| 久久精品国产自在天天线| 精品午夜福利在线看| 我要搜黄色片| 精品久久久久久久末码| 国产麻豆成人av免费视频| 精品99又大又爽又粗少妇毛片 | 美女黄网站色视频| 亚洲国产精品sss在线观看| 色综合亚洲欧美另类图片| 嫩草影院精品99| 欧美xxxx黑人xx丫x性爽| 狂野欧美白嫩少妇大欣赏| 亚洲不卡免费看| 成人精品一区二区免费| 国语自产精品视频在线第100页| 亚洲专区中文字幕在线| 国产高清激情床上av| 欧美性猛交黑人性爽| 色精品久久人妻99蜜桃| 亚洲欧美激情综合另类| 又黄又爽又刺激的免费视频.| 小蜜桃在线观看免费完整版高清| 精品不卡国产一区二区三区| 22中文网久久字幕| 亚洲美女视频黄频| 亚洲无线在线观看| 中国美女看黄片| 狂野欧美白嫩少妇大欣赏| 在线播放国产精品三级| 免费av观看视频| 精品一区二区三区视频在线观看免费| 精品人妻视频免费看| 精品久久久久久久久av| 最近中文字幕高清免费大全6 | 国产在线精品亚洲第一网站| 内射极品少妇av片p| 悠悠久久av| 热99在线观看视频| 亚洲av一区综合| 麻豆成人午夜福利视频| 亚洲av不卡在线观看| 日韩大尺度精品在线看网址| 又黄又爽又免费观看的视频| 我的老师免费观看完整版| 亚洲精品日韩av片在线观看| 久久精品综合一区二区三区| 午夜老司机福利剧场| 99久国产av精品| 免费观看精品视频网站| 亚洲成人av在线免费| 深夜a级毛片| 97在线视频观看| 插阴视频在线观看视频| 三级国产精品片| 亚洲人成网站高清观看| 国产一区二区三区综合在线观看 | 国产精品av视频在线免费观看| 国产综合精华液| 91久久精品国产一区二区成人| 99热这里只有是精品在线观看| 国产亚洲av片在线观看秒播厂| 亚洲成色77777| 亚洲天堂av无毛| 激情五月婷婷亚洲| 国产淫片久久久久久久久| 直男gayav资源| 免费看光身美女| 3wmmmm亚洲av在线观看| 天堂8中文在线网| 久久久久性生活片| 久久精品熟女亚洲av麻豆精品| 色网站视频免费| 日韩中字成人| 深爱激情五月婷婷| 亚洲欧美日韩另类电影网站 | 国产免费一级a男人的天堂| 国产伦精品一区二区三区视频9| 99九九线精品视频在线观看视频| 国产精品久久久久久精品电影小说 | 亚洲精品乱码久久久v下载方式| 国产伦在线观看视频一区| 亚洲精品亚洲一区二区| 一级片'在线观看视频| 久久国产亚洲av麻豆专区| 国产69精品久久久久777片| 一级av片app| 欧美老熟妇乱子伦牲交| 男女边摸边吃奶| 97超视频在线观看视频| 午夜福利视频精品| 热re99久久精品国产66热6| 国产欧美日韩精品一区二区| 身体一侧抽搐| 亚洲国产av新网站| 久久6这里有精品| 亚洲成人一二三区av| 日日摸夜夜添夜夜添av毛片| 亚洲av国产av综合av卡| 国产精品人妻久久久影院| 精品久久久精品久久久| 极品少妇高潮喷水抽搐| 亚洲av二区三区四区| 婷婷色综合大香蕉| 久久影院123| 青春草国产在线视频| 人妻 亚洲 视频| 在线看a的网站| 十分钟在线观看高清视频www | 七月丁香在线播放| av国产久精品久网站免费入址| 特大巨黑吊av在线直播| 在线精品无人区一区二区三 | 国产淫片久久久久久久久| tube8黄色片| 日本-黄色视频高清免费观看| 草草在线视频免费看| 国产成人免费无遮挡视频| 国产精品久久久久久久久免| 国产精品国产av在线观看| 一个人看视频在线观看www免费| 夜夜看夜夜爽夜夜摸| 我的女老师完整版在线观看| 欧美成人a在线观看| 久久久久久久大尺度免费视频| 亚洲经典国产精华液单| 久久久成人免费电影| 99久久综合免费| 丝瓜视频免费看黄片| 网址你懂的国产日韩在线| 七月丁香在线播放| 国内精品宾馆在线| 国产免费又黄又爽又色| 欧美精品一区二区大全| 欧美国产精品一级二级三级 | 热re99久久精品国产66热6| 亚洲在久久综合| 又大又黄又爽视频免费| 欧美xxxx黑人xx丫x性爽| 在线观看一区二区三区激情| 天天躁夜夜躁狠狠久久av| 国产精品女同一区二区软件| 男女无遮挡免费网站观看| 菩萨蛮人人尽说江南好唐韦庄| 免费在线观看成人毛片| 1000部很黄的大片| 毛片女人毛片| 美女脱内裤让男人舔精品视频| 亚洲精品久久午夜乱码| 欧美日本视频| 国国产精品蜜臀av免费| 免费少妇av软件| 又大又黄又爽视频免费| 欧美成人精品欧美一级黄| 国产爱豆传媒在线观看| 2021少妇久久久久久久久久久| 黄色一级大片看看| 日本爱情动作片www.在线观看| 午夜免费观看性视频| 成人国产av品久久久| 精品午夜福利在线看| 亚洲人成网站在线播| 久久久午夜欧美精品| 日本欧美国产在线视频| 人体艺术视频欧美日本| 久久99热这里只频精品6学生| 赤兔流量卡办理| av又黄又爽大尺度在线免费看| 丝瓜视频免费看黄片| 国产精品无大码| 国产黄色视频一区二区在线观看| 三级国产精品欧美在线观看| 大香蕉97超碰在线| 天堂中文最新版在线下载| 99久久综合免费| 国产一区二区三区综合在线观看 | 久久女婷五月综合色啪小说| 在线观看免费高清a一片| 尾随美女入室| 2018国产大陆天天弄谢| 国产精品久久久久久精品古装| 永久网站在线| 国产成人免费无遮挡视频| 老女人水多毛片| 91aial.com中文字幕在线观看| 51国产日韩欧美| 高清黄色对白视频在线免费看 | 精品亚洲成a人片在线观看 | 国产av一区二区精品久久 | 熟妇人妻不卡中文字幕| 欧美日韩精品成人综合77777| 色视频www国产| 亚洲精品乱码久久久久久按摩| 男人和女人高潮做爰伦理| 夫妻性生交免费视频一级片| 一区二区三区免费毛片| 夫妻性生交免费视频一级片| 好男人视频免费观看在线| www.av在线官网国产| 在线观看美女被高潮喷水网站| 国产又色又爽无遮挡免| av一本久久久久| h视频一区二区三区| 97超视频在线观看视频| 国产成人精品一,二区| 亚洲国产精品专区欧美| 丝瓜视频免费看黄片| 久久精品国产自在天天线| 国产精品伦人一区二区| 精华霜和精华液先用哪个| 啦啦啦啦在线视频资源| 国产一区二区三区av在线| a级毛色黄片| 日韩一本色道免费dvd| 99久国产av精品国产电影| 熟女电影av网| 毛片女人毛片| 成人毛片60女人毛片免费| 国内精品宾馆在线| 成人毛片60女人毛片免费| 亚洲av免费高清在线观看| 大陆偷拍与自拍| 毛片一级片免费看久久久久| 网址你懂的国产日韩在线| 久久6这里有精品| 日韩,欧美,国产一区二区三区| 视频中文字幕在线观看| 色5月婷婷丁香| 久久影院123| 97超碰精品成人国产| 成人特级av手机在线观看| 日韩一区二区视频免费看| 国产男女内射视频| 久热这里只有精品99| 免费久久久久久久精品成人欧美视频 | 亚洲av二区三区四区| 国产免费视频播放在线视频| 国产黄片美女视频| 日韩欧美精品免费久久| av福利片在线观看| 我要看黄色一级片免费的| 亚洲成人av在线免费| 一区二区三区免费毛片| 国产精品久久久久久久电影| 国产老妇伦熟女老妇高清| 欧美xxⅹ黑人| 国产精品久久久久久精品电影小说 | 91精品国产国语对白视频| 欧美激情极品国产一区二区三区 | 纵有疾风起免费观看全集完整版| 丝袜脚勾引网站| 欧美精品一区二区大全| 午夜激情福利司机影院| 国产精品福利在线免费观看| 天堂俺去俺来也www色官网| 自拍偷自拍亚洲精品老妇| 少妇熟女欧美另类| 国产 一区精品| 亚洲精品456在线播放app| 91aial.com中文字幕在线观看| 一级av片app| 五月伊人婷婷丁香| 精品99又大又爽又粗少妇毛片| 精品国产三级普通话版| 中文在线观看免费www的网站| 日日撸夜夜添| 大又大粗又爽又黄少妇毛片口| 九色成人免费人妻av| 久久这里有精品视频免费| 一级毛片电影观看| 国产毛片在线视频| 国产高清有码在线观看视频| 看十八女毛片水多多多| 夜夜骑夜夜射夜夜干| 制服丝袜香蕉在线| 久久精品夜色国产| 久久国产乱子免费精品| 欧美极品一区二区三区四区| 七月丁香在线播放| 久久精品熟女亚洲av麻豆精品| 欧美国产精品一级二级三级 | av播播在线观看一区| 在线观看三级黄色| 午夜视频国产福利| 18禁在线播放成人免费| 色综合色国产| 午夜福利视频精品| 免费观看在线日韩| 国产成人aa在线观看| 国产精品国产三级专区第一集| 欧美3d第一页| 精品国产三级普通话版| 国产精品麻豆人妻色哟哟久久| 国产成人精品婷婷| 欧美日本视频| 午夜福利视频精品| 欧美xxⅹ黑人| 久久人人爽人人片av| 免费人妻精品一区二区三区视频| 午夜精品国产一区二区电影| 十分钟在线观看高清视频www | 99国产精品免费福利视频| 嫩草影院新地址| 性高湖久久久久久久久免费观看| 精品久久久久久久末码| 国产精品久久久久久久电影| 精品人妻熟女av久视频| 亚洲真实伦在线观看| 香蕉精品网在线| 国产伦精品一区二区三区视频9| 最近最新中文字幕大全电影3| 久久久国产一区二区| 80岁老熟妇乱子伦牲交| 国产精品女同一区二区软件| 国产在线免费精品| 亚洲欧美清纯卡通| 国产爱豆传媒在线观看| 国产精品久久久久久精品古装| 国内揄拍国产精品人妻在线| 国产 一区 欧美 日韩| 日本猛色少妇xxxxx猛交久久| 国产精品不卡视频一区二区| 国精品久久久久久国模美| 国产高清不卡午夜福利| 国产老妇伦熟女老妇高清| 这个男人来自地球电影免费观看 | 国产乱来视频区| 亚洲天堂av无毛| 久久精品国产鲁丝片午夜精品| 大码成人一级视频| 国产又色又爽无遮挡免| 日日摸夜夜添夜夜爱| 全区人妻精品视频| 国产黄色视频一区二区在线观看| 免费观看a级毛片全部| 国产成人a区在线观看| 国产精品人妻久久久影院| 赤兔流量卡办理| 精品少妇久久久久久888优播| 欧美最新免费一区二区三区| 国产淫片久久久久久久久| av在线观看视频网站免费| 蜜桃亚洲精品一区二区三区| 亚洲综合色惰| h视频一区二区三区| 少妇裸体淫交视频免费看高清| 亚洲av二区三区四区| 男人和女人高潮做爰伦理| 日日啪夜夜撸| 亚洲美女搞黄在线观看| 国产国拍精品亚洲av在线观看| 中国美白少妇内射xxxbb| 一二三四中文在线观看免费高清| 肉色欧美久久久久久久蜜桃| 99热6这里只有精品| 一区在线观看完整版| 中文在线观看免费www的网站| 亚洲国产欧美人成| 岛国毛片在线播放| 五月天丁香电影| 日本与韩国留学比较| 直男gayav资源| 日韩av免费高清视频| 高清视频免费观看一区二区| 性色avwww在线观看| 久久久亚洲精品成人影院| 亚洲av综合色区一区| 美女国产视频在线观看| 久久久欧美国产精品| 91久久精品国产一区二区成人| 欧美三级亚洲精品| 美女高潮的动态| 亚洲综合色惰| 国产又色又爽无遮挡免| 欧美成人a在线观看| 交换朋友夫妻互换小说| 亚洲av不卡在线观看| 亚洲自偷自拍三级| 国产精品99久久久久久久久| 亚洲精品国产av成人精品| 亚洲av中文av极速乱| 亚洲国产成人一精品久久久| 五月玫瑰六月丁香| 一个人看视频在线观看www免费| 国语对白做爰xxxⅹ性视频网站| 日韩一本色道免费dvd| 纯流量卡能插随身wifi吗| 亚洲国产欧美在线一区| 人人妻人人爽人人添夜夜欢视频 | 欧美xxxx性猛交bbbb| 26uuu在线亚洲综合色| 亚洲三级黄色毛片| av国产精品久久久久影院| 肉色欧美久久久久久久蜜桃| 欧美丝袜亚洲另类| 一级毛片 在线播放| 亚洲精华国产精华液的使用体验| 好男人视频免费观看在线| 日韩人妻高清精品专区| 纯流量卡能插随身wifi吗| 大片电影免费在线观看免费| 日韩,欧美,国产一区二区三区| 在现免费观看毛片| 亚洲成人中文字幕在线播放| 亚洲三级黄色毛片| 亚洲欧美日韩卡通动漫| 中文天堂在线官网| 成年av动漫网址| 国产国拍精品亚洲av在线观看| 久久鲁丝午夜福利片| 国产精品嫩草影院av在线观看| 国产 一区精品| 国产成人精品一,二区| 天美传媒精品一区二区| av.在线天堂| 欧美丝袜亚洲另类| 久久久久视频综合| 免费看光身美女| 日韩亚洲欧美综合| 欧美bdsm另类| 亚洲av中文字字幕乱码综合| 亚洲婷婷狠狠爱综合网| 亚洲精品亚洲一区二区| av黄色大香蕉| 在线观看国产h片| 在线天堂最新版资源| 啦啦啦啦在线视频资源| 亚洲国产欧美在线一区| 黄色一级大片看看| 亚洲人与动物交配视频| 亚洲综合色惰| 麻豆成人av视频| 婷婷色综合www| 亚洲欧美日韩无卡精品| 中文字幕久久专区| 日日摸夜夜添夜夜爱| 国产乱人视频| 97在线人人人人妻| 成人18禁高潮啪啪吃奶动态图 | 联通29元200g的流量卡| 啦啦啦视频在线资源免费观看| 在线观看av片永久免费下载| 精品亚洲乱码少妇综合久久| 美女xxoo啪啪120秒动态图| 日本免费在线观看一区| 极品教师在线视频| 亚洲内射少妇av| 久久久久久久久久久免费av| 韩国av在线不卡| 免费不卡的大黄色大毛片视频在线观看| 国产精品99久久久久久久久| 成年人午夜在线观看视频| 视频区图区小说| 97超碰精品成人国产| 免费观看的影片在线观看| 婷婷色综合大香蕉| av视频免费观看在线观看| 精品久久久精品久久久| 亚洲精品日韩av片在线观看| 亚洲丝袜综合中文字幕| 男男h啪啪无遮挡| 国内少妇人妻偷人精品xxx网站| 亚洲精品一区蜜桃| 一级毛片久久久久久久久女| 两个人的视频大全免费| 亚洲人成网站在线播| 激情 狠狠 欧美| 制服丝袜香蕉在线| 欧美高清性xxxxhd video| 舔av片在线| 男女免费视频国产| 国产91av在线免费观看| 中国国产av一级| 身体一侧抽搐| 久久精品国产亚洲av天美| 偷拍熟女少妇极品色| 三级国产精品欧美在线观看| 丝瓜视频免费看黄片| 欧美一区二区亚洲| 中文天堂在线官网| 涩涩av久久男人的天堂| 91在线精品国自产拍蜜月| 91午夜精品亚洲一区二区三区| 观看免费一级毛片| 91在线精品国自产拍蜜月| 91午夜精品亚洲一区二区三区| 久久久a久久爽久久v久久| 免费观看无遮挡的男女| 欧美亚洲 丝袜 人妻 在线| 夜夜爽夜夜爽视频| 久久午夜福利片| 日本色播在线视频| 小蜜桃在线观看免费完整版高清| 我要看黄色一级片免费的| 成人国产麻豆网| 亚洲,欧美,日韩| 欧美xxxx性猛交bbbb| 爱豆传媒免费全集在线观看|