• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于混合采樣的非均衡數(shù)據(jù)集分類算法

    2019-06-06 05:46:34胡曉輝吳嘉昕
    關(guān)鍵詞:密集決策樹個(gè)數(shù)

    張 明,胡曉輝,吳嘉昕

    (蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070)

    1 引 言

    大數(shù)據(jù)時(shí)代使得數(shù)據(jù)的知識(shí)獲取變得更加便捷,促進(jìn)了數(shù)據(jù)密集型科學(xué)的發(fā)展.分類是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中重要的信息獲取手段之一,傳統(tǒng)的分類方法有線性判別分析法、決策樹、貝葉斯、Logistic回歸分析和支持向量機(jī)等[1-4],但傳統(tǒng)的分類算法沒有考慮數(shù)據(jù)的均衡性,在非均衡分類問題上仍面臨著巨大的挑戰(zhàn).所謂非均衡數(shù)據(jù),是指某一類樣本的數(shù)量明顯少于另一類樣本的數(shù)量,即多數(shù)類(負(fù)類)和少數(shù)類(正類)存在比例失衡[5].在非均衡數(shù)據(jù)集中少數(shù)類可能比多數(shù)類包含著更多有價(jià)值的信息,在這種情況下,正確識(shí)別少數(shù)類比正確識(shí)別多數(shù)類更加重要.

    隨機(jī)森林[6]通過自助采樣[7]獲取樣本集,從而構(gòu)建決策樹得到很好的分類預(yù)測效果,常被用于數(shù)據(jù)集分類研究[8,9]中.但在實(shí)際應(yīng)用中,因?yàn)樗@得的數(shù)據(jù)常常表現(xiàn)為非均衡數(shù)據(jù)[10],所以在數(shù)據(jù)處理方面經(jīng)常引入欠采樣和過采樣方法,對于非均衡數(shù)據(jù)集的處理Chawla 等人提出了SMOTE算法[11],該算法通過人為構(gòu)造少數(shù)類樣本使得數(shù)據(jù)集趨于平衡.由于該方法沒有考慮到少數(shù)類內(nèi)部分布不均的現(xiàn)象,針對文獻(xiàn)[11],Han等人后來又在SMOTE方法的基礎(chǔ)上提出了Borderline-SMOTE方法[12],該方法把少數(shù)類樣本分為安全樣本、邊界樣本和噪聲樣本3 類,并對邊界樣本進(jìn)行近鄰插值.這些算法雖然都一定程度上改善了非均衡數(shù)據(jù)集處理的問題,但是因?yàn)檫@些算法都只是對少數(shù)類樣本進(jìn)行過采樣處理,所以最后可能會(huì)導(dǎo)致樣本集分類時(shí)出現(xiàn)過擬合現(xiàn)象.由于欠采樣方法可能會(huì)失去許多樣本的信息,而過采樣方法可能會(huì)使少數(shù)類樣本過擬合.本文提出了一種新的基于混合采樣的隨機(jī)森林算法(USI).在對非均衡數(shù)據(jù)分類的研究中,基于混合采樣的隨機(jī)森林算法(USI)與基于樣本特性欠采樣的隨機(jī)森林算法(RU)、基于IS欠采樣的隨機(jī)森林算法、基于SMOTE過采樣的隨機(jī)森林算法(SMOTE)、基于USMOTE過采樣的隨機(jī)森林算法以及基于隨機(jī)欠采樣與SMOTE相結(jié)合的隨機(jī)森林算法(RU-SMOTE)進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明改進(jìn)算法(USI)進(jìn)一步提高了在非均衡數(shù)據(jù)集上的G-mean值,F-value值,具有更高的綜合分類準(zhǔn)確率.

    2 傳統(tǒng)算法與原理

    2.1 隨機(jī)森林

    隨機(jī)森林[6]基本思想可概括為:包含多個(gè)決策樹的分類器.首先有放回地重復(fù)隨機(jī)抽取原始訓(xùn)練樣本集中一定量的樣本生成新的訓(xùn)練集,然后對這些訓(xùn)練集建立決策樹模型得到不同的分類結(jié)果,最后統(tǒng)計(jì)分類結(jié)果來決定最優(yōu)的分類結(jié)果.隨機(jī)森林算法詳細(xì)步驟如下:

    1)設(shè)原始訓(xùn)練集為N,采用Bootstrap重抽樣方法[7]有放回地隨機(jī)抽取t個(gè)新樣本集,構(gòu)建t棵分類樹.每個(gè)樣本包含v個(gè)屬性;

    2)在樣本v個(gè)屬性中進(jìn)行隨機(jī)特征選擇,選擇m(m

    3)每棵決策樹不做任何修剪,最大限度地生長,多個(gè)決策樹形成的分類器組成隨機(jī)森林;

    4)當(dāng)待測樣本X進(jìn)入該隨機(jī)森林后,隨機(jī)森林里的每個(gè)決策樹對其進(jìn)行判別,通過類似投票的方式將票數(shù)最多的類設(shè)為該樣本點(diǎn)的預(yù)測類別.

    2.2 隨機(jī)欠采樣

    在非均衡數(shù)據(jù)集處理中隨機(jī)欠采樣[13]方法主要是隨機(jī)刪除多數(shù)類中的一部分樣本,而對少數(shù)類樣本不做任何操作,由于在隨機(jī)刪除樣本的過程中存在隨機(jī)性和偶然性,會(huì)導(dǎo)致多數(shù)類樣本中的一些重要信息丟失,最終會(huì)影響在非均衡數(shù)據(jù)集中的綜合分類性能.

    2.3 SMOTE算法

    SMOTE算法[11]即合成少數(shù)類過采樣技術(shù).如圖1所示,

    對每個(gè)少數(shù)類樣本X,得到其k近鄰,k取5,如5個(gè)最近鄰樣本Y1,Y2,Y3,Y4,Y5,然后在X與這5個(gè)樣本之間的連線上隨機(jī)生成新的少數(shù)類樣本Z1,Z2,Z3,Z4,Z5.它其實(shí)是對于隨機(jī)過采樣算法的一種改進(jìn)算法,隨機(jī)過采樣增加少數(shù)類樣本的方法只是通過簡單復(fù)制樣本,這樣容易產(chǎn)生過擬合的問題,會(huì)使模型學(xué)習(xí)到的信息過于特別而不夠泛化.SMOTE算法詳細(xì)步驟如下:

    1)少數(shù)類中每一個(gè)樣本x,以公式(1)歐幾里得距離D計(jì)算它到少數(shù)類樣本集中所有樣本的距離,得到其k近鄰[14],通常k取5;

    (1)

    2)對少數(shù)類樣本集進(jìn)行分組,以歐幾里得距離最近的6個(gè)樣本分為1組;

    3)根據(jù)公式(2),在每組樣本兩兩之間連線上隨機(jī)生成少數(shù)類樣本,加入樣本集;

    4)當(dāng)少數(shù)類樣本與多數(shù)類樣本比例不成1:1,執(zhí)行步驟3).

    Xnew=x+rand(0,1)*|x-t|

    (2)

    隨機(jī)欠采樣,SMOTE算法較好地改善了隨機(jī)森林處理非均衡數(shù)據(jù)集的問題,使得模型對樣本的分類預(yù)測正確率有所提高.但是隨機(jī)欠采樣方法會(huì)失去許多樣本的信息,而SMOTE過采樣方法會(huì)使樣本數(shù)據(jù)集的少數(shù)類過擬合.

    3 分類算法改進(jìn)

    3.1 稀疏域和密集域檢測

    在非均衡數(shù)據(jù)集的處理上,由于欠采樣方法可能會(huì)失去許多樣本的信息,而過采樣可能會(huì)使少數(shù)類樣本過擬合.而且傳統(tǒng)的方法分類前,往往先將稀疏區(qū)域數(shù)據(jù)作為噪聲數(shù)據(jù)直接刪除.但是,由于在非均衡數(shù)據(jù)集中多數(shù)類樣本與少數(shù)類樣本數(shù)量差異較大,如果稀疏區(qū)域數(shù)據(jù)中的少數(shù)類樣本數(shù)量過多,直接刪除稀疏區(qū)域數(shù)據(jù)會(huì)使數(shù)據(jù)集更加非均衡.假設(shè)一個(gè)數(shù)據(jù)集T,多數(shù)類樣本集為D,少數(shù)類樣本集為S.針對以上問題,本文提出基于混合采樣的非均衡數(shù)據(jù)集算法.首先采用基于變異系數(shù)[15]的樣本檢測方法識(shí)別非均衡數(shù)據(jù)集的稀疏域和密集域,基本思想如下:

    1)在數(shù)據(jù)集T中計(jì)算出對象t到其k近鄰距離之和的平均值,其中對象d為t的k近鄰,Nkdist(t)為d的k近鄰的個(gè)數(shù).每個(gè)點(diǎn)的密度用平均值的倒數(shù)表示

    (3)

    2)該對象k近鄰密度的標(biāo)準(zhǔn)差與它們的平均值的比值定義為t的變異系數(shù),即

    (4)

    3.2 稀疏域樣本處理

    稀疏域:改進(jìn)的SMOTE—USMOTE

    該方法首先把稀疏域中少數(shù)類樣本S分為安全樣本、邊界樣本和噪聲樣本3類,找出少數(shù)類的邊界樣本后,不僅從少數(shù)類樣本中求最近鄰,生成新的少數(shù)類樣本,而且在多數(shù)類樣本中求其最近鄰,生成新的少數(shù)類樣本,最后再對加入人工合成少數(shù)類后的稀疏域數(shù)據(jù)集進(jìn)行適當(dāng)?shù)那凡蓸犹幚韀16],這會(huì)使得少數(shù)類樣本更加接近其真實(shí)值.

    1)在少數(shù)類樣本S中,計(jì)算每個(gè)樣本點(diǎn)pi與所有訓(xùn)練樣本的歐氏距離,獲得該樣本點(diǎn)的m近鄰,m=5.

    2)在少數(shù)類樣本S中,設(shè)在m近鄰中有m′個(gè)屬于多數(shù)類樣本,顯然0≤m′≤m.若m′=m,pi被認(rèn)為是噪聲樣本;若m/2≤m′

    3)計(jì)算邊界樣本點(diǎn)pi′與少數(shù)類樣本S的k近鄰,k=5.選出α比例的樣本點(diǎn)與pi′進(jìn)行隨機(jī)的線性插值,產(chǎn)生新的少數(shù)類,最后在多數(shù)類樣本D中選出1-α比例的樣本點(diǎn)與pi′進(jìn)行線性插值,隨機(jī)產(chǎn)生新的少數(shù)類,α=0.7.

    4)對加入人工合成少數(shù)類后的稀疏域數(shù)據(jù)集進(jìn)行欠采樣處理,為了避免對多數(shù)類樣本進(jìn)行欠采樣時(shí)去掉過多有用信息的數(shù)據(jù),所以適當(dāng)減少清理的程度.對于數(shù)據(jù)集的每一個(gè)樣本pi,找到它的2個(gè)近鄰,如果樣本pi屬于多數(shù)類,當(dāng)分類后,它的2個(gè)近鄰屬于少數(shù)類時(shí),則去掉樣本pi;如果樣本pi屬于少數(shù)類,并且它的2個(gè)近鄰屬于多數(shù)類,則去掉pi的2個(gè)多數(shù)類近鄰.

    5)稀疏域中重構(gòu)后的樣本集形成新的樣本集Train1.

    3.3 密集域樣本處理

    密集域:改進(jìn)的欠采樣算法—IS

    對多數(shù)類樣本集D進(jìn)行劃分,首先采用k近鄰方法將多數(shù)類樣本集分為噪聲樣本、邊界樣本和安全樣本,然后在邊界樣本集中選定一個(gè)樣本點(diǎn)c,以c為圓心r為半徑形成的圓內(nèi),n表示在圓內(nèi)所包含的樣本數(shù)量.如果在圓內(nèi)的總樣本大于等于n/2,則刪除該樣本點(diǎn),否則保留樣本點(diǎn).具體流程如下:

    1)采用k近鄰方法將多數(shù)類樣本集分為噪聲樣本、邊界樣本和安全樣本.刪除噪聲樣本,保留安全樣本[11];

    2)在邊界樣本集中,選定樣本點(diǎn)c,確定以樣本點(diǎn)c為圓心,r為半徑的圓形區(qū)域,調(diào)整控制r大小使圓形區(qū)域內(nèi)的樣本數(shù)量為10;

    3)如果在圓內(nèi)的總樣本數(shù)大于或等于5,則刪除該樣本點(diǎn),否則保留樣本點(diǎn).一直重復(fù)以上步驟直到達(dá)到設(shè)定的采樣樣本數(shù);

    4)密集域中重構(gòu)后的樣本集形成新的樣本集Train2.

    3.4 基于混合采樣的隨機(jī)森林算法流程

    各樣本定義如下:設(shè)稀疏域樣本A大小LA、密集域樣本B大小LB、稀疏域樣本中的少數(shù)類樣本a1大小La1、稀疏域樣本中的多數(shù)類樣本a2大小La2、密集域樣本中的多數(shù)類樣本b1大小Lb1、密集域樣本中的少數(shù)類樣本b2大小Lb2.

    USI算法的流程見圖2.該算法首先采用基于變異系數(shù)的稀疏點(diǎn)檢測方法識(shí)別非均衡數(shù)據(jù)集的稀疏域和密集域,設(shè)置變異系數(shù)閾值,如果樣本的變異系數(shù)大于該閾值,則劃分為稀疏域樣本集,否則為密集域樣本集;然后,對稀疏域中的少數(shù)類,采用USMOTE算法進(jìn)行過采樣,過采樣倍率為N;對于稀疏域中的多數(shù)類不做處理直接加入訓(xùn)練集中;最后,對于密集域中的多數(shù)類樣本,采用IS算法進(jìn)行欠采樣,欠采樣倍率為M.

    N=La2/La1

    (5)

    M=Lb1/Lb2

    (6)

    本文提出的基于混合采樣的USI算法的具體步驟如下:

    Step 1.遍歷S(fori:S)計(jì)算出每個(gè)樣本Xi的變異系數(shù).

    a)以歐氏距離計(jì)算出樣本Xi到每個(gè)樣本的距離并加入G集合中,對G集合進(jìn)行排序;

    b)找出Xi的k近鄰,計(jì)算樣本Xi分別到k個(gè)樣本的距離之和Gnum;

    c)求得每個(gè)樣本的密度Td(Xi)=Gnum/k;

    d)求出每個(gè)樣本的變異系數(shù)V(Xi).

    Step 2.如果V(Xi)>Vp,Xi劃分到稀疏域A,否則劃分到密集域B.

    Step 3.遍歷LA,如果Xi是少數(shù)類樣本,則加入集合a1;否則加入集合a2.

    Step 4.對A中的a1樣本,采用改進(jìn)SMOTE的USMOTE算法以N倍采樣率生成新樣本,得到樣本集Ca1,此樣本集與a1,a2形成新樣本集Train1.

    圖2 算法流程圖Fig.2 Algorithm flow chart

    Step 5.在B集合中采用IS算法對多數(shù)類樣本以欠采樣倍率M形成新樣本集Train2.

    Step 6.Train1和Train2形成訓(xùn)練集Train-data進(jìn)行訓(xùn)練.

    Step 7.對新樣本集Train-data采用隨機(jī)森林進(jìn)行分類.

    本文提出的基于混合采樣的隨機(jī)森林算法(USI)相比其他算法,首先通過引進(jìn)“變異系數(shù)”識(shí)別非均衡數(shù)據(jù)集的稀疏域和密集域,然后分別對稀疏域和密集域進(jìn)行改進(jìn)的過采樣和欠采樣方法,本文提出的USI算法克服了其他欠采樣方法如RU、IS算法可能會(huì)失去許多樣本的信息,而過采樣方法如SMOTE、USMOTE算法以及混合采樣RU-SMOTE算法可能會(huì)使少數(shù)類樣本過擬合等問題.

    4 實(shí)驗(yàn)分析

    4.1 非均衡數(shù)據(jù)分類研究評價(jià)準(zhǔn)則

    在非均衡數(shù)據(jù)分類研究評價(jià)[17,18]中以TP表示少數(shù)類樣本被正確分類的樣本個(gè)數(shù),FN表示少數(shù)類樣本被錯(cuò)誤分類的樣本個(gè)數(shù),FP表示多數(shù)類樣本被錯(cuò)誤分類的樣本個(gè)數(shù),TN表示多數(shù)類樣本被正確分類的樣本個(gè)數(shù).設(shè)1為少數(shù)類,0為多數(shù)類.

    真正率(查全率):即實(shí)際類別為1的樣本中,被模型正確分類的樣本所占比例:

    TPR=TP/(TP+FN)

    (7)

    真負(fù)率:即實(shí)際類別為0的樣本中,被模型正確分類的樣本所占比例:

    TNR=TN/(FP+TN)

    (8)

    假正率:即實(shí)際類別為0的樣本中,被模型錯(cuò)誤分類的樣本所占比例:

    FPR=FP/(TN+FP)

    (9)

    假負(fù)率:即實(shí)際類別為1的樣本中,被模型錯(cuò)誤分類的樣本所占比例:

    FPR=FN/(TP+FN)

    (10)

    精度(查準(zhǔn)率):即所有預(yù)測為1的樣本中,正確預(yù)測的樣本所占比例:

    rPr=TP/(FP+TP)

    (11)

    4.1.1 F-value準(zhǔn)則

    在非均衡數(shù)據(jù)評價(jià)標(biāo)準(zhǔn)中,F-value是一個(gè)綜合性的評價(jià)標(biāo)準(zhǔn)[20],如公式(12)所示:

    (12)

    其中TPR表示查全率,其公式如(7)所示,rPr表示查準(zhǔn)率,其公式如(11)所示.β是一個(gè)系數(shù),通常取值為1.根據(jù)F-value表達(dá)式可以看出,F-value可以正確的衡量分類器的每一項(xiàng)的性能,如果一個(gè)分類器分類后得到的召回率和精確率值都比較高,那么F-value的值也會(huì)比較高,表明該分類器性能較好,對少數(shù)類的識(shí)別精度越高.

    4.1.2 G-mean準(zhǔn)則

    G-mean評價(jià)標(biāo)準(zhǔn)中包含兩個(gè)子度量標(biāo)準(zhǔn)[21].第一個(gè)是TPR,它主要是用來衡量分類器對少數(shù)類樣本的靈敏度,其公式如(7)所示.第二個(gè)則是TNR,它主要是用來衡量多數(shù)類的識(shí)別性能,其對應(yīng)公式如(8)所示.將這兩個(gè)衡量標(biāo)準(zhǔn)結(jié)合得到G-mean評價(jià)指標(biāo),如公式(13):

    (13)

    其中TPR是分類器對少數(shù)類的分類精度,TNR是分類器對多數(shù)類的分類精度.根據(jù)G-mean的表達(dá)式可以看出,在不考慮TNR的值大小的前提下,不管TPR的數(shù)值大還是數(shù)值小都不能保證G-mean的值大.同樣,在不考慮TPR的值大小的前提下,不管TNR的數(shù)值大還是數(shù)值小都不能保證G-mean的值大,只有少數(shù)類預(yù)測準(zhǔn)確率和多數(shù)類預(yù)測準(zhǔn)確率都高的時(shí)候,G-mean值才會(huì)增加.因此可以說G-mean值能更加全面的評價(jià)分類器的性能.

    4.2 數(shù)據(jù)集描述

    UCI數(shù)據(jù)庫是加州大學(xué)歐文分校(University of CaliforniaIrvine)提出的用于機(jī)器學(xué)習(xí)的數(shù)據(jù)庫,UCI數(shù)據(jù)集是一個(gè)常用的標(biāo)準(zhǔn)測試數(shù)據(jù)集,為了評價(jià)本算法的性能,因此采用了

    表1 數(shù)據(jù)表
    Table 1 Sample data table

    數(shù)據(jù)集維數(shù)少數(shù)類/多數(shù)類非均衡率credit17439/45618.78%pima819419/5688534.1%page1096/56314.5%iris429/1853.5%ecoli877/25929.7%german2510926/7652314.2%

    UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的6組有代表性的非均衡數(shù)據(jù)集,如表1是數(shù)據(jù)特征信息,數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),需要對其做特征縮放,將特征縮放至同一個(gè)規(guī)格.數(shù)據(jù)預(yù)處理將訓(xùn)練集和測試集歸一化到[0,1]區(qū)間.如果樣本集中包含幾個(gè)類別,則選擇其中一類樣本或者將數(shù)量較少的幾類樣本合并后作為少數(shù)類,其余作為多數(shù)類.采用python語言進(jìn)行實(shí)驗(yàn),這6組非均衡數(shù)據(jù)集分別是credit數(shù)據(jù)集,pima數(shù)據(jù)集,page數(shù)據(jù)集,iris數(shù)據(jù)集,ecoli數(shù)據(jù)集,german數(shù)據(jù)集.每次實(shí)驗(yàn)將樣本集隨機(jī)劃分,80%為訓(xùn)練集20%為測試集.

    4.3 實(shí)驗(yàn)分析與結(jié)果(不同算法在非均衡數(shù)據(jù)集上的比較)

    表2為6種算法在6種數(shù)據(jù)集上的G-mean值比較,可以看出,本文提出的USI算法與基于樣本特性欠采樣(RU)的隨機(jī)森林算法、基于IS欠采樣的隨機(jī)森林算法(IS)、基于SMOTE過采樣的隨機(jī)森林算法(SMOTE)、基于USMOTE過采樣的隨機(jī)森林算法(USMOTE)以及基于隨機(jī)欠采樣與SMOTE相結(jié)合的隨機(jī)森林算法(RU-SMOTE)進(jìn)行比較,其G-mean值比其他算法都有較大幅度的提升.當(dāng)決策樹個(gè)數(shù)設(shè)置為9時(shí),credit數(shù)據(jù)集中RU算法的G-mean值是0.8991,IS算法的G-mean值是0.9031,SMOTE算法的G-mean值是0.9193,USMOTE算法的G-mean值是0.9263,RU-SMOTE算法的G-mean值達(dá)到0.9325,USI算法的G-mean值達(dá)到0.9693.說明credit數(shù)據(jù)集中稀疏域樣本點(diǎn)對分類性能影響較大,導(dǎo)致其他算法表現(xiàn)較差,而USI算法通過引進(jìn)變異系數(shù),采用改進(jìn)的混合采樣方法克服了以上問題.

    表2 不同算法上的G-mean值對比
    Table 2 Comparison of G-mean values on different algorithms

    數(shù)據(jù)集G-meanRU ISSMOTE USMOTERU-SMOTEUSIcreditpimapageiris ecoli german0.89910.90570.77820.62810.62530.8482 0.90310.91350.78010.64310.67210.85050.9193 0.92930.78850.67590.68740.86440.92630.93830.81560.67930.76450.87730.93250.94020.81730.71320.79370.88130.96930.96360.85220.79340.89220.9076

    圖3給出6種算法在選取的4組數(shù)據(jù)集(credit、page、pima、german數(shù)據(jù)集)上不同決策樹個(gè)數(shù)對應(yīng)的G-mean值,各算法的G-mean值均隨著決策樹個(gè)數(shù)增加而增加,剛開始增加較快,并最終趨于平穩(wěn).本文提出改進(jìn)的USI算法的G-mean值均比其他算法有一定幅度提高.說明USI算法對少數(shù)類樣本和多數(shù)類樣本的預(yù)測準(zhǔn)確率都有所提高.

    表3 不同算法上的F-value值對比
    Table 3 Comparison of F-value values on different algorithms

    數(shù)據(jù)集G-meanRU ISSMOTE USMOTERU-SMOTEUSIcreditpimapageiris ecoli german0.87810.86230.77400.74710.62530.9105 0.88450.87330.77920.75610.74130.91660.9023 0.87660.78140.77650.78960.93320.91420.89350.78920.78660.78760.93620.92650.90520.80120.79320.79540.93910.9458 0.94060.84130.91450.78340.9552

    表3為6種算法在6種數(shù)據(jù)集上的F-value值比較,可以看出,除了ecoli數(shù)據(jù)集,其他數(shù)據(jù)集上USI算法的F-value值均得到提高.當(dāng)決策樹個(gè)數(shù)設(shè)置為9時(shí),iris數(shù)據(jù)集中RU算法的F-value值是0.7471,IS算法的F-value值是0.7561,SMOTE算法的F-value值是0.7765,USMOTE算法的F-value值是0.7866,RU-SMOTE算法的F-value值達(dá)到0.7932,USI算法的F-value值達(dá)到0.9145.其中,USI算法性能大幅度提升.說明iris數(shù)據(jù)集中,其他算法可能會(huì)使樣本數(shù)據(jù)集的少數(shù)類過擬合,導(dǎo)致查全率和查準(zhǔn)率較低.USI算法通過引進(jìn)變異系數(shù)采用改進(jìn)的混合采樣方法克服了以上問題,提高了分類準(zhǔn)確率.

    圖3 不同數(shù)據(jù)集上的G-mean值比較Fig.3 Comparison of G-mean values on different data sets

    圖4 不同數(shù)據(jù)集上的F-value值比較Fig.4 Comparison of F-value values on different data sets

    圖4給出6種算法在選取的4組數(shù)據(jù)集(credit、page、pima、german數(shù)據(jù)集)上不同決策樹個(gè)數(shù)對應(yīng)的F-value值,可以看出各算法的F-value值均隨著決策樹個(gè)數(shù)增加而增加.本文提出改進(jìn)的USI算法的F-value值均比其他算法有一定幅度提高.說明USI算法的綜合分類準(zhǔn)確率有所提高.

    5 結(jié) 語

    在非均衡數(shù)據(jù)集分類算法的研究中,由于欠采樣方法可能會(huì)失去許多樣本的信息,而過采樣方法可能會(huì)使少數(shù)類樣本過擬合.本文提出了一種基于混合采樣的算法(USI)來平衡數(shù)據(jù)集.該算法通過引進(jìn)變異系數(shù)界定稀疏域和密集域,對于稀疏域中的少數(shù)類樣本,采用改進(jìn)SMOTE算法的過采樣方法(USMOTE)合成新的少數(shù)類樣本,對于密集域中的多數(shù)類樣本,采用改進(jìn)的欠采樣方法(IS)形成新的多數(shù)類樣本,最后將平衡后的數(shù)據(jù)集送入由多個(gè)決策樹組成的分類器隨機(jī)森林中進(jìn)行訓(xùn)練,并與其他分類算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,本文提出的算法(USI)進(jìn)一步提高了在非均衡數(shù)據(jù)集上的G-mean值,F-value值,分類準(zhǔn)確率均優(yōu)于其他算法.

    猜你喜歡
    密集決策樹個(gè)數(shù)
    耕地保護(hù)政策密集出臺(tái)
    怎樣數(shù)出小正方體的個(gè)數(shù)
    密集恐懼癥
    英語文摘(2021年2期)2021-07-22 07:56:52
    等腰三角形個(gè)數(shù)探索
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    怎樣數(shù)出小木塊的個(gè)數(shù)
    怎樣數(shù)出小正方體的個(gè)數(shù)
    決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    基于決策樹的出租車乘客出行目的識(shí)別
    歐盟等一大波家電新標(biāo)準(zhǔn)密集來襲
    热99久久久久精品小说推荐| 在线观看www视频免费| 少妇裸体淫交视频免费看高清 | 国产黄色免费在线视频| 欧美日韩精品网址| 精品国产一区二区三区久久久樱花| 亚洲五月色婷婷综合| 欧美精品av麻豆av| 美女大奶头黄色视频| 黄色视频不卡| 蜜桃在线观看..| tube8黄色片| 国产精品熟女久久久久浪| 亚洲av片天天在线观看| av国产精品久久久久影院| 狂野欧美激情性xxxx| 国产区一区二久久| 大片电影免费在线观看免费| 国产区一区二久久| 狂野欧美激情性xxxx| 三级毛片av免费| 69av精品久久久久久 | 日韩制服丝袜自拍偷拍| 国产亚洲一区二区精品| 成年人午夜在线观看视频| 久久午夜综合久久蜜桃| 女性生殖器流出的白浆| 两个人免费观看高清视频| 老熟女久久久| 国产成人精品在线电影| 中文字幕人妻丝袜一区二区| 久久精品国产亚洲av香蕉五月 | 伊人亚洲综合成人网| 亚洲九九香蕉| 大陆偷拍与自拍| 国产男女超爽视频在线观看| 中文字幕人妻丝袜一区二区| 欧美在线黄色| 国产欧美日韩一区二区三区在线| 狂野欧美激情性bbbbbb| 久久久久网色| 亚洲自偷自拍图片 自拍| 国产免费一区二区三区四区乱码| 男男h啪啪无遮挡| 啦啦啦在线免费观看视频4| 咕卡用的链子| 精品少妇内射三级| 大片免费播放器 马上看| 久久精品亚洲熟妇少妇任你| 欧美精品亚洲一区二区| 在线十欧美十亚洲十日本专区| 亚洲自偷自拍图片 自拍| 久久久久国产精品人妻一区二区| 亚洲精品第二区| 我要看黄色一级片免费的| 国产精品久久久久成人av| 9191精品国产免费久久| 丰满少妇做爰视频| 老司机深夜福利视频在线观看 | 国产亚洲欧美在线一区二区| 国产欧美日韩精品亚洲av| 亚洲中文av在线| 国产欧美日韩精品亚洲av| 欧美日韩中文字幕国产精品一区二区三区 | av免费在线观看网站| 啦啦啦视频在线资源免费观看| 9色porny在线观看| 国产1区2区3区精品| 久久综合国产亚洲精品| 看免费av毛片| 看免费av毛片| 亚洲中文日韩欧美视频| 亚洲av片天天在线观看| 亚洲欧美清纯卡通| 国产精品1区2区在线观看. | 日韩制服丝袜自拍偷拍| 欧美 日韩 精品 国产| 久久久久久久大尺度免费视频| 亚洲三区欧美一区| 性色av一级| 麻豆乱淫一区二区| 国产一级毛片在线| 久久久国产欧美日韩av| 欧美av亚洲av综合av国产av| 精品亚洲乱码少妇综合久久| 动漫黄色视频在线观看| 乱人伦中国视频| 国产欧美日韩一区二区三区在线| 精品亚洲乱码少妇综合久久| www.自偷自拍.com| 国产精品av久久久久免费| 狠狠狠狠99中文字幕| 母亲3免费完整高清在线观看| 亚洲熟女精品中文字幕| 国产精品秋霞免费鲁丝片| 成人国产av品久久久| 在线天堂中文资源库| 岛国毛片在线播放| 欧美日韩亚洲综合一区二区三区_| 久久人妻福利社区极品人妻图片| 性色av乱码一区二区三区2| 高清黄色对白视频在线免费看| 俄罗斯特黄特色一大片| 黄色视频,在线免费观看| 母亲3免费完整高清在线观看| 十八禁人妻一区二区| 免费观看a级毛片全部| 亚洲美女黄色视频免费看| 99国产精品一区二区蜜桃av | 国精品久久久久久国模美| 精品少妇久久久久久888优播| 亚洲精品国产色婷婷电影| 国产人伦9x9x在线观看| 最新在线观看一区二区三区| 91麻豆av在线| 国产高清国产精品国产三级| 久久综合国产亚洲精品| 免费一级毛片在线播放高清视频 | 成在线人永久免费视频| 久久国产精品大桥未久av| 叶爱在线成人免费视频播放| 日韩欧美免费精品| 一级,二级,三级黄色视频| a在线观看视频网站| 69精品国产乱码久久久| 后天国语完整版免费观看| 国产国语露脸激情在线看| 国产97色在线日韩免费| 欧美日韩亚洲国产一区二区在线观看 | 一本—道久久a久久精品蜜桃钙片| 狂野欧美激情性xxxx| 精品一区二区三区av网在线观看 | 99香蕉大伊视频| 女警被强在线播放| tocl精华| 亚洲国产av新网站| 日本撒尿小便嘘嘘汇集6| 国产亚洲欧美精品永久| 成人影院久久| 日日爽夜夜爽网站| 国产在视频线精品| 美国免费a级毛片| 午夜激情av网站| 性色av一级| 三上悠亚av全集在线观看| 少妇精品久久久久久久| 欧美黄色片欧美黄色片| 国产欧美日韩精品亚洲av| 老司机影院毛片| 亚洲欧美一区二区三区黑人| 亚洲人成电影观看| 视频区图区小说| 多毛熟女@视频| 精品国内亚洲2022精品成人 | 黑人巨大精品欧美一区二区蜜桃| 日本欧美视频一区| 免费在线观看完整版高清| 女性生殖器流出的白浆| 成年美女黄网站色视频大全免费| a级毛片在线看网站| 99香蕉大伊视频| www.精华液| 黑人操中国人逼视频| 国产精品免费视频内射| 少妇精品久久久久久久| 啦啦啦 在线观看视频| 亚洲黑人精品在线| av福利片在线| 可以免费在线观看a视频的电影网站| 久久人人爽av亚洲精品天堂| 99国产精品一区二区三区| 悠悠久久av| 日韩精品免费视频一区二区三区| 老汉色av国产亚洲站长工具| 国产精品av久久久久免费| 制服诱惑二区| 成人三级做爰电影| 国产97色在线日韩免费| 久久午夜综合久久蜜桃| 热99国产精品久久久久久7| 亚洲精品国产av蜜桃| 18禁国产床啪视频网站| 精品福利永久在线观看| 国产一区二区三区av在线| 精品久久蜜臀av无| 精品国内亚洲2022精品成人 | 中国国产av一级| 在线观看舔阴道视频| 丝袜在线中文字幕| 美女高潮喷水抽搐中文字幕| 免费看十八禁软件| 美女扒开内裤让男人捅视频| 无限看片的www在线观看| 亚洲av成人不卡在线观看播放网 | 国产成人av激情在线播放| 秋霞在线观看毛片| 午夜福利一区二区在线看| 男女下面插进去视频免费观看| 一本色道久久久久久精品综合| 天天躁日日躁夜夜躁夜夜| www.自偷自拍.com| 亚洲av电影在线进入| 法律面前人人平等表现在哪些方面 | 大陆偷拍与自拍| 国产片内射在线| 亚洲av成人不卡在线观看播放网 | 三上悠亚av全集在线观看| 国产成人精品久久二区二区91| 我的亚洲天堂| tube8黄色片| 久久精品亚洲av国产电影网| 亚洲一区中文字幕在线| 久久久国产精品麻豆| 国产亚洲午夜精品一区二区久久| av在线app专区| 18在线观看网站| 精品国产国语对白av| 蜜桃在线观看..| 夜夜夜夜夜久久久久| 亚洲精品第二区| 女性生殖器流出的白浆| 91老司机精品| 国产成人系列免费观看| 人人妻人人澡人人看| 一级a爱视频在线免费观看| 视频区欧美日本亚洲| 国产精品欧美亚洲77777| 丝瓜视频免费看黄片| 麻豆av在线久日| 在线观看免费高清a一片| 国产精品香港三级国产av潘金莲| 最新在线观看一区二区三区| 亚洲全国av大片| a级毛片在线看网站| 亚洲国产欧美网| 国产又色又爽无遮挡免| 色综合欧美亚洲国产小说| 免费在线观看影片大全网站| 18在线观看网站| 亚洲欧美清纯卡通| 90打野战视频偷拍视频| 正在播放国产对白刺激| 男人添女人高潮全过程视频| 国产区一区二久久| www.自偷自拍.com| 99精品久久久久人妻精品| 一边摸一边抽搐一进一出视频| 国产一区二区激情短视频 | 大香蕉久久网| 国产精品 欧美亚洲| 亚洲少妇的诱惑av| 久久精品久久久久久噜噜老黄| 国产精品免费视频内射| 大型av网站在线播放| 日日摸夜夜添夜夜添小说| 在线永久观看黄色视频| 色综合欧美亚洲国产小说| 好男人电影高清在线观看| 中国美女看黄片| 国产成+人综合+亚洲专区| 捣出白浆h1v1| 高清av免费在线| 99国产极品粉嫩在线观看| 一区二区三区精品91| 五月天丁香电影| 久久精品人人爽人人爽视色| 国产日韩一区二区三区精品不卡| 亚洲欧美色中文字幕在线| 亚洲人成电影免费在线| 另类精品久久| 桃红色精品国产亚洲av| 亚洲精品第二区| 亚洲欧美精品自产自拍| 天天躁日日躁夜夜躁夜夜| 十八禁网站免费在线| 亚洲avbb在线观看| 欧美97在线视频| 日本91视频免费播放| 亚洲五月婷婷丁香| 日韩一区二区三区影片| 国产伦人伦偷精品视频| 欧美日韩国产mv在线观看视频| 深夜精品福利| 欧美中文综合在线视频| 在线观看一区二区三区激情| 夜夜夜夜夜久久久久| 国产高清视频在线播放一区 | 99热全是精品| 色精品久久人妻99蜜桃| 不卡av一区二区三区| 亚洲中文av在线| 黑人欧美特级aaaaaa片| 考比视频在线观看| 亚洲avbb在线观看| 久久久国产欧美日韩av| 久久久久久亚洲精品国产蜜桃av| 99久久人妻综合| 日本av免费视频播放| 国产精品一区二区精品视频观看| 纵有疾风起免费观看全集完整版| 欧美性长视频在线观看| 国产伦人伦偷精品视频| 99国产极品粉嫩在线观看| 久久精品成人免费网站| 亚洲精品久久午夜乱码| 欧美激情 高清一区二区三区| 色综合欧美亚洲国产小说| 欧美97在线视频| 亚洲av男天堂| 男女午夜视频在线观看| 日韩一卡2卡3卡4卡2021年| 女人被躁到高潮嗷嗷叫费观| 别揉我奶头~嗯~啊~动态视频 | 母亲3免费完整高清在线观看| 又黄又粗又硬又大视频| 国产一区二区三区在线臀色熟女 | 免费观看人在逋| 啦啦啦视频在线资源免费观看| 一本一本久久a久久精品综合妖精| 国产精品欧美亚洲77777| 日本欧美视频一区| 大片电影免费在线观看免费| 搡老岳熟女国产| av片东京热男人的天堂| 日韩制服丝袜自拍偷拍| 极品人妻少妇av视频| 18禁观看日本| 欧美精品一区二区免费开放| 国产无遮挡羞羞视频在线观看| 中亚洲国语对白在线视频| 男人爽女人下面视频在线观看| 久久久国产成人免费| 亚洲欧美精品综合一区二区三区| 永久免费av网站大全| 免费在线观看视频国产中文字幕亚洲 | 日本撒尿小便嘘嘘汇集6| 午夜精品国产一区二区电影| 99热国产这里只有精品6| 婷婷色av中文字幕| 午夜精品久久久久久毛片777| 国产亚洲一区二区精品| 国产黄频视频在线观看| 婷婷色av中文字幕| 久9热在线精品视频| 国产精品1区2区在线观看. | 亚洲视频免费观看视频| 久久影院123| 久久精品aⅴ一区二区三区四区| 777米奇影视久久| 欧美精品高潮呻吟av久久| 亚洲免费av在线视频| 91字幕亚洲| 99香蕉大伊视频| 亚洲精品国产区一区二| 69精品国产乱码久久久| 天天躁夜夜躁狠狠躁躁| 极品人妻少妇av视频| 丝瓜视频免费看黄片| 一进一出抽搐动态| 亚洲伊人色综图| 亚洲国产av影院在线观看| 嫩草影视91久久| 亚洲欧美成人综合另类久久久| 老司机靠b影院| 亚洲天堂av无毛| 精品国产超薄肉色丝袜足j| 又大又爽又粗| 少妇 在线观看| 天堂中文最新版在线下载| 亚洲精品国产av成人精品| 黑丝袜美女国产一区| 亚洲av成人一区二区三| 黑丝袜美女国产一区| 国产免费一区二区三区四区乱码| 久久国产精品大桥未久av| 色播在线永久视频| www.av在线官网国产| 丰满迷人的少妇在线观看| 欧美午夜高清在线| 男女国产视频网站| 久久久精品免费免费高清| 国产精品 欧美亚洲| 精品人妻在线不人妻| 国产成人啪精品午夜网站| 日韩 欧美 亚洲 中文字幕| 成年女人毛片免费观看观看9 | 国产精品久久久久成人av| 欧美日韩中文字幕国产精品一区二区三区 | 精品国产一区二区久久| 三上悠亚av全集在线观看| 日韩有码中文字幕| 国产在线一区二区三区精| 日本wwww免费看| 亚洲精品一区蜜桃| 色婷婷av一区二区三区视频| 国产成人系列免费观看| 欧美日韩亚洲国产一区二区在线观看 | 性少妇av在线| 亚洲成人免费av在线播放| 爱豆传媒免费全集在线观看| 精品视频人人做人人爽| 亚洲免费av在线视频| 久久久国产欧美日韩av| 成年人黄色毛片网站| 亚洲五月色婷婷综合| 欧美日韩成人在线一区二区| 999精品在线视频| 中文字幕人妻熟女乱码| 亚洲伊人色综图| 国产区一区二久久| 日韩电影二区| 亚洲欧洲精品一区二区精品久久久| 91麻豆精品激情在线观看国产 | 亚洲av电影在线进入| 人妻人人澡人人爽人人| 永久免费av网站大全| 欧美日韩精品网址| 免费人妻精品一区二区三区视频| 老司机靠b影院| 女警被强在线播放| 老司机深夜福利视频在线观看 | 999久久久精品免费观看国产| 免费观看a级毛片全部| 亚洲精品国产av蜜桃| 国产精品秋霞免费鲁丝片| 男女午夜视频在线观看| 久久久国产一区二区| av欧美777| 伦理电影免费视频| 欧美激情 高清一区二区三区| 午夜免费鲁丝| 人人妻人人澡人人爽人人夜夜| 人妻人人澡人人爽人人| 精品福利永久在线观看| 夜夜骑夜夜射夜夜干| 国产福利在线免费观看视频| 99热全是精品| 欧美日韩一级在线毛片| 日本五十路高清| 少妇的丰满在线观看| 一区福利在线观看| 国产精品免费大片| 91麻豆精品激情在线观看国产 | 欧美老熟妇乱子伦牲交| 一级毛片精品| 国内毛片毛片毛片毛片毛片| 亚洲自偷自拍图片 自拍| 国产精品久久久久久人妻精品电影 | 久久精品熟女亚洲av麻豆精品| 精品欧美一区二区三区在线| 1024香蕉在线观看| 夫妻午夜视频| 在线精品无人区一区二区三| 丝袜美足系列| 高清黄色对白视频在线免费看| 精品少妇一区二区三区视频日本电影| 国产成人影院久久av| 悠悠久久av| 国产成人免费观看mmmm| 国产淫语在线视频| 色视频在线一区二区三区| 久久女婷五月综合色啪小说| 一边摸一边抽搐一进一出视频| 亚洲人成电影观看| 丝瓜视频免费看黄片| 欧美一级毛片孕妇| 80岁老熟妇乱子伦牲交| 国产精品一区二区免费欧美 | 亚洲一区中文字幕在线| 久久性视频一级片| 女人高潮潮喷娇喘18禁视频| www.精华液| 在线精品无人区一区二区三| 一区二区三区乱码不卡18| 母亲3免费完整高清在线观看| 一区二区三区激情视频| 老司机午夜十八禁免费视频| 免费少妇av软件| 欧美大码av| 免费在线观看完整版高清| 啦啦啦视频在线资源免费观看| 久久人妻熟女aⅴ| 欧美国产精品va在线观看不卡| av超薄肉色丝袜交足视频| 免费在线观看视频国产中文字幕亚洲 | 亚洲免费av在线视频| 在线观看一区二区三区激情| 中国国产av一级| 久久精品人人爽人人爽视色| 国产精品久久久久久精品电影小说| 青草久久国产| 国产野战对白在线观看| 国产成人啪精品午夜网站| 欧美黑人欧美精品刺激| 亚洲欧美清纯卡通| 国产成人精品久久二区二区91| 亚洲欧美激情在线| 菩萨蛮人人尽说江南好唐韦庄| 精品国产一区二区三区四区第35| 高潮久久久久久久久久久不卡| 欧美日韩亚洲综合一区二区三区_| 久久久久国产精品人妻一区二区| 18禁黄网站禁片午夜丰满| 美女午夜性视频免费| 国产成人av激情在线播放| 亚洲中文av在线| 国产成+人综合+亚洲专区| 亚洲精品日韩在线中文字幕| 成年av动漫网址| 国产精品免费大片| 亚洲精品国产精品久久久不卡| 老司机亚洲免费影院| 一区二区三区精品91| 99国产极品粉嫩在线观看| 黑人猛操日本美女一级片| 亚洲中文av在线| 一边摸一边抽搐一进一出视频| 成人黄色视频免费在线看| tube8黄色片| 两个人看的免费小视频| 中文字幕另类日韩欧美亚洲嫩草| 国产精品免费视频内射| 日本wwww免费看| 成年动漫av网址| 一区二区三区四区激情视频| 满18在线观看网站| 欧美 日韩 精品 国产| 国产男人的电影天堂91| 亚洲第一青青草原| 精品国产国语对白av| 这个男人来自地球电影免费观看| 黑人巨大精品欧美一区二区蜜桃| 亚洲avbb在线观看| 岛国毛片在线播放| 水蜜桃什么品种好| 免费观看a级毛片全部| 免费少妇av软件| 黄色怎么调成土黄色| 亚洲七黄色美女视频| 丝袜在线中文字幕| 国产亚洲欧美精品永久| 国产在线视频一区二区| 亚洲国产精品成人久久小说| 两性夫妻黄色片| 国产精品麻豆人妻色哟哟久久| 精品第一国产精品| 久久久国产精品麻豆| 一级a爱视频在线免费观看| 国产麻豆69| kizo精华| 咕卡用的链子| 永久免费av网站大全| 午夜两性在线视频| 少妇的丰满在线观看| 十八禁网站网址无遮挡| 免费日韩欧美在线观看| 国产欧美日韩一区二区精品| 久久国产精品男人的天堂亚洲| 高潮久久久久久久久久久不卡| 最近最新中文字幕大全免费视频| 午夜精品国产一区二区电影| 久久久精品94久久精品| 啦啦啦 在线观看视频| 老熟妇乱子伦视频在线观看 | 国产精品1区2区在线观看. | 国产精品av久久久久免费| 性色av一级| 亚洲国产欧美在线一区| 亚洲精品美女久久av网站| 欧美日韩精品网址| 精品熟女少妇八av免费久了| 啦啦啦免费观看视频1| 丁香六月欧美| 国产黄色免费在线视频| videos熟女内射| 国产一区二区 视频在线| 日本a在线网址| 中文字幕制服av| 午夜成年电影在线免费观看| 成在线人永久免费视频| 国产精品久久久久久精品古装| 色综合欧美亚洲国产小说| 日韩熟女老妇一区二区性免费视频| 亚洲精品第二区| 亚洲成国产人片在线观看| 国产欧美日韩精品亚洲av| 97人妻天天添夜夜摸| 99久久精品国产亚洲精品| 人妻一区二区av| 色老头精品视频在线观看| 国产成人一区二区三区免费视频网站| av视频免费观看在线观看| 久久精品国产综合久久久| 日本av免费视频播放| 亚洲精品久久成人aⅴ小说| 亚洲av成人一区二区三| 成年人黄色毛片网站| av欧美777| 欧美日韩国产mv在线观看视频| 成年人黄色毛片网站| 午夜福利乱码中文字幕| 天天躁日日躁夜夜躁夜夜| 69精品国产乱码久久久| 日韩欧美一区二区三区在线观看 | 夜夜夜夜夜久久久久| 国产在线视频一区二区| 久久久久国产精品人妻一区二区| 国产成人欧美在线观看 | 亚洲男人天堂网一区| 国产精品久久久久成人av| 一进一出抽搐动态| 亚洲,欧美精品.| 手机成人av网站| 国产区一区二久久| 国产精品九九99|