• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      構(gòu)造性覆蓋算法的SMOTE 過(guò)采樣方法*

      2020-06-11 01:03:14嚴(yán)遠(yuǎn)亭朱原瑋吳增寶張以文張燕平
      計(jì)算機(jī)與生活 2020年6期
      關(guān)鍵詞:集上準(zhǔn)確率分類

      嚴(yán)遠(yuǎn)亭,朱原瑋,吳增寶,張以文,張燕平

      安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥230601

      1 引言

      在生物醫(yī)學(xué)數(shù)據(jù)分析[1-3]、衛(wèi)星雷達(dá)圖像中溢油的檢測(cè)[4]、文本分類[5]和欺詐電話的檢測(cè)[6]等很多實(shí)際的應(yīng)用領(lǐng)域中,處理的對(duì)象往往是不平衡數(shù)據(jù)集。不平衡數(shù)據(jù)集[7]是指數(shù)據(jù)集中某類樣本的數(shù)量明顯少于其他類樣本的數(shù)量。為了描述方便,一般將數(shù)量較多的樣本稱為負(fù)類樣本,數(shù)量較少的樣本稱為正類樣本。在處理不平衡數(shù)據(jù)集分類問(wèn)題上,傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法總會(huì)傾向于負(fù)類樣本的預(yù)測(cè),從而導(dǎo)致正類樣本的識(shí)別能力下降。在很多情況下,識(shí)別出正類樣本要比識(shí)別出負(fù)類樣本更為重要,甚至?xí)婕暗椒诸惔鷥r(jià)敏感問(wèn)題[8]。因此,如何有效地提高不平衡數(shù)據(jù)集中少數(shù)類樣本的分類準(zhǔn)確率和整體準(zhǔn)確率成為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn)和難點(diǎn)。

      在解決不平衡數(shù)據(jù)分類問(wèn)題上,近十年來(lái)眾多國(guó)內(nèi)外學(xué)者做了大量的研究工作,主要概括為以下兩類:一個(gè)是從數(shù)據(jù)集層面;另一個(gè)是從算法層面。其中,從數(shù)據(jù)集層面[9]是通過(guò)一些機(jī)制改善不平衡數(shù)據(jù),獲到均衡的數(shù)據(jù)分布,常見(jiàn)的策略包括過(guò)采樣技術(shù)和欠采樣技術(shù),一種常用的過(guò)采樣方法是Chawla等[10]提出的合成少數(shù)類過(guò)采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)。SMOTE 方法的優(yōu)點(diǎn)在于它能使決策區(qū)域更大,但也存在兩方面的缺陷:一是在選擇最近鄰時(shí)存在一定的盲目性,即如何確定K值才能使算法達(dá)到最優(yōu)是未知的;二是該算法無(wú)法克服不平衡數(shù)據(jù)集的數(shù)據(jù)分布問(wèn)題,即容易產(chǎn)生分布的邊緣化問(wèn)題。在少數(shù)類中,不同樣本在過(guò)采樣過(guò)程中的作用并不相同,處于少數(shù)類邊界的樣本往往比處于少數(shù)類中心的樣本作用更大。

      為了解決上述SMOTE 方法盲目性和邊緣化的問(wèn)題,Han等[11]提出基于SMOTE的Borderline-SMOTE算法,算法通過(guò)比較少數(shù)類樣本近鄰中多數(shù)類與少數(shù)類樣本的個(gè)數(shù),來(lái)判斷該樣本是否處于少數(shù)類樣本的邊界,然后只對(duì)少數(shù)類的邊界樣本進(jìn)行SMOTE過(guò)采樣處理。He等[12]提出一種自適應(yīng)合成采樣(adaptive synthetic sampling,ADASYN)算法,算法以樣本的分布為標(biāo)準(zhǔn),動(dòng)態(tài)地確定合成樣本的總數(shù)量,并自適應(yīng)地改變不同少數(shù)類樣本的權(quán)重,為每個(gè)樣本合成相應(yīng)數(shù)量的樣本。Calleja 等[13]提出D-SMOTE 算法,利用求最近鄰樣本均值點(diǎn)生成人工合成樣本。陳思等[14]提出在數(shù)據(jù)處理之前對(duì)數(shù)據(jù)進(jìn)行聚類融合,判定在多次聚類過(guò)程中總是處于同一類簇的樣本為中心樣本,總是變化所屬類簇的樣本為邊界樣本,然后對(duì)少數(shù)類的邊界樣本進(jìn)行SMOTE 采樣,對(duì)于多數(shù)類的中心樣本進(jìn)行欠采樣。Barua 等[15]提出(majority weighted minority over-sampling technique,MWMOTE)算法,該方法首先識(shí)別難以學(xué)習(xí)的信息類樣本,并根據(jù)其與最近的多數(shù)類樣本之間的歐氏距離賦予它們權(quán)重,然后利用聚類方法從加權(quán)信息類樣本中生成合成樣本,這樣所有生成的樣本都位于某個(gè)少數(shù)類的集群中。陶新民等[16]提出基于代價(jià)敏感的支持向量機(jī)算法,首先利用邊界人工少數(shù)類過(guò)采樣技術(shù)(Borderline-SMOTE)實(shí)現(xiàn)訓(xùn)練樣本的均衡,然后利用K近鄰構(gòu)造代價(jià)值,同時(shí)利用每個(gè)樣本的代價(jià)函數(shù)來(lái)消除噪聲樣本對(duì)SVM(support vector machine)算法精度的影響。Batista 等[17]提出了SMOTE+Tomek-Link 的方法,首先對(duì)原始的數(shù)據(jù)集進(jìn)行SMOTE 過(guò)采樣,然后將Tomek 鏈作為清除數(shù)據(jù)的方法,生成具有定義明確的類集群的平衡數(shù)據(jù)集。

      上述方法從不同的側(cè)重點(diǎn)對(duì)不平衡數(shù)據(jù)進(jìn)行了處理,但這些方法在篩選少數(shù)類關(guān)鍵樣本方面仍存在一定的不足。為了解決此問(wèn)題,本文提出一種基于構(gòu)造性覆蓋算法[18]的不平衡數(shù)據(jù)分類算法(constructive covering algorithm-based minority oversampling technique,CMOTE)。該算法提供了兩種不同的策略(覆蓋內(nèi)樣本個(gè)數(shù)和覆蓋密度)對(duì)少數(shù)類中關(guān)鍵樣本進(jìn)行選擇。首先,利用構(gòu)造性覆蓋算法找出少數(shù)類樣本的所有覆蓋;然后,選擇覆蓋中樣本數(shù)或樣本密度不大于給定閾值的樣本作為過(guò)采樣過(guò)程的輸入;最后,對(duì)所選樣本使用SMOTE 生成新的少數(shù)類樣本,并將其與原始數(shù)據(jù)集結(jié)合作為訓(xùn)練集構(gòu)造分類器。

      2 SMOTE 算法

      SMOTE 是一種基于隨機(jī)過(guò)采樣算法的改進(jìn)過(guò)采樣方法[19],應(yīng)用十分廣泛。SMOTE 的基本思想是利用K近鄰[20-21]和線性插值[22],在相距較近的兩個(gè)少數(shù)類樣本間按照一定的規(guī)則人工地插入新的樣本,以達(dá)到使少數(shù)類樣本數(shù)目增加,數(shù)據(jù)集趨于平衡的目的。算法具體過(guò)程描述如下:

      (1)對(duì)于少數(shù)類中每一個(gè)樣本x,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到其他每一個(gè)少數(shù)類樣本的距離,得到其K近鄰。

      (2)根據(jù)樣本不平衡程度設(shè)置一個(gè)采樣倍率N,對(duì)每一個(gè)少數(shù)類樣本x,從其K近鄰中隨機(jī)選擇若干個(gè)樣本,假設(shè)其中一個(gè)選中的近鄰為xn。

      (3)對(duì)于每一個(gè)隨機(jī)選擇的近鄰xn,按照式(1)構(gòu)建新的樣本Xnew:

      (4)把人工合成的新樣本與原始數(shù)據(jù)集組成一個(gè)新的數(shù)據(jù)集,然后利用分類器對(duì)其進(jìn)行分類。

      為了更直觀地表述,圖1(a)表示少數(shù)類樣本x利用K近鄰找出最近的同類樣本點(diǎn),圖1(b)中Xnew表示利用最近鄰和線性插值的方法生成少數(shù)類樣本點(diǎn)。

      Fig.1 SMOTE schematic chart圖1 SMOTE 示意圖

      3 構(gòu)造性覆蓋算法的少數(shù)類過(guò)采樣技術(shù)

      3.1 構(gòu)造性覆蓋算法

      構(gòu)造性覆蓋算法(constructive covering algorithm,CCA)可以看作一個(gè)三層的神經(jīng)網(wǎng)絡(luò)分類器,包括輸入層、隱藏層和輸出層。

      輸入層共有n個(gè)神經(jīng)元,每個(gè)神經(jīng)元對(duì)應(yīng)樣本的一維特征屬性,假定X={(xi,li)|i=1,2,…,t,li=1,2,…,m}為給定的數(shù)據(jù)集,t和m分別表示樣本數(shù)目和類別數(shù)目,即。

      隱藏層共有s個(gè)神經(jīng)元,初始時(shí)為0 個(gè),每一個(gè)球形覆蓋對(duì)應(yīng)一個(gè)神經(jīng)元,每個(gè)神經(jīng)元的權(quán)值為覆蓋的中心點(diǎn),閾值為覆蓋的半徑。對(duì)所有的樣本進(jìn)行覆蓋,求得的一組覆蓋表示為表示第i類樣本的第j個(gè)覆蓋。隱藏層共有s=∑ni個(gè)覆蓋,其中ni代表第i類的覆蓋個(gè)數(shù),i=1,2,…,m。

      輸出層共有m個(gè)神經(jīng)元,第i個(gè)神經(jīng)元的輸入為類別相同的一組覆蓋,輸出為該類別。例如當(dāng)輸出Ot=(o1=0,o2=0,…,oi=1,…,om=0),oi=1 表示第i個(gè)樣本的輸出。

      CCA 根據(jù)樣本之間的距離構(gòu)造一個(gè)覆蓋,首先找到不同類別的最近樣本,然后找到相同類別的最遠(yuǎn)樣本。值得注意的是,求最大距離等于求最小內(nèi)積,在構(gòu)造覆蓋時(shí)用內(nèi)積來(lái)描述CCA。CCA 算法描述如下[23-24]:

      (1)根據(jù)式(2)將全部樣本投影到n+1 維的球面空間。

      (2)隨機(jī)選擇一個(gè)樣本xi作為覆蓋中心點(diǎn),根據(jù)內(nèi)積計(jì)算公式分別計(jì)算最大內(nèi)積d1(k)和最小內(nèi)積d2(k)。

      (3)計(jì)算覆蓋半徑:

      (4)根據(jù)xi和θ構(gòu)造一個(gè)覆蓋,即一個(gè)隱藏神經(jīng)元。

      (5)從訓(xùn)練集中刪除覆蓋內(nèi)的樣本,回到步驟(2),直到所有的樣本都被覆蓋。

      從以上描述很容易看出,如果學(xué)習(xí)了一個(gè)樣本,它將立即從訓(xùn)練集中移除,CCA 算法避免了迭代計(jì)算。此外,CCA 算法從一個(gè)空的隱藏層開始,并根據(jù)后續(xù)數(shù)據(jù)的位置擴(kuò)展現(xiàn)有的隱藏神經(jīng)元,該學(xué)習(xí)過(guò)程避免了盲目選擇神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。覆蓋的形成十分適合在不平衡數(shù)據(jù)中為SMOTE 算法尋找候選樣本。

      3.2 CMOTE 算法

      在少數(shù)類中識(shí)別哪些關(guān)鍵樣本進(jìn)行過(guò)采樣,與數(shù)據(jù)集的不平衡度、樣本整體分布情況、少數(shù)類內(nèi)部樣本分布情況、樣本個(gè)數(shù)、樣本屬性個(gè)數(shù)以及樣本屬性的類型都有一定的關(guān)系。這是一個(gè)復(fù)雜的優(yōu)化問(wèn)題,確定數(shù)學(xué)模型比較困難。從構(gòu)造性覆蓋算法的構(gòu)建過(guò)程來(lái)看,其能夠從一定程度上挖掘樣本空間領(lǐng)域的信息,因此本文基于CCA 這樣的特點(diǎn),提出利用CCA 來(lái)進(jìn)行關(guān)鍵樣本的選擇。

      根據(jù)上述提到的CCA 與SMOTE 算法,本文提出基于以上兩種算法的不平衡數(shù)據(jù)分類算法(CMOTE算法),識(shí)別不平衡數(shù)據(jù)集中容易被誤分的少數(shù)類樣本。

      首先,該算法利用構(gòu)造性覆蓋算法對(duì)不平衡數(shù)據(jù)求覆蓋,每一個(gè)覆蓋包括覆蓋類別、覆蓋內(nèi)樣本數(shù)、覆蓋半徑和覆蓋中心點(diǎn)樣本。對(duì)于少數(shù)類樣本形成的覆蓋,如果覆蓋包含較多個(gè)樣本,則該覆蓋中的樣本易于分類,對(duì)于提高識(shí)別少數(shù)類樣本模型的能力貢獻(xiàn)不大。

      其次,本文提出了兩種策略來(lái)確定選擇哪些少數(shù)類樣本來(lái)生成新樣本。(1)若覆蓋內(nèi)的樣本數(shù)量小于特定閾值P,則覆蓋內(nèi)的樣本視為關(guān)鍵樣本;(2)若覆蓋內(nèi)的樣本密度小于特定閾值D,則覆蓋內(nèi)的樣本視為關(guān)鍵樣本。

      按照CCA的構(gòu)建過(guò)程,本文定義如下的覆蓋密度:

      其中,m表示的是第i個(gè)少數(shù)類樣本的覆蓋中樣本的個(gè)數(shù),r是覆蓋的半徑,其值由式(3)~式(5)求得。

      算法1基于構(gòu)造性覆蓋算法的少數(shù)類過(guò)采樣技術(shù)

      輸入:訓(xùn)練集T={(x1,l1),(x2,l2),…,(xn,ln)},閾值P,閾值D,采樣倍率N。

      輸出:合成的少數(shù)類樣本集合。

      最后,使用SMOTE 算法對(duì)上述關(guān)鍵樣本合成新的少數(shù)類樣本。CMOTE 算法的具體過(guò)程描述如算法1 所示。

      為了直觀地描述CMOTE 算法,以二維數(shù)據(jù)為例,算法的大致過(guò)程如圖2 所示。圖2(a)中少數(shù)類樣本B是利用構(gòu)造性覆蓋算法篩選出容易被誤分的樣本點(diǎn)。圖2(b)中的少數(shù)類樣本B利用SMOTE 算法按照特定的比率N合成新的樣本,新樣本與原數(shù)據(jù)集組合成新的數(shù)據(jù)集,新數(shù)據(jù)集使用WEKA 平臺(tái)[25]中的C4.5 決策樹分類算法進(jìn)行分類。

      4 實(shí)驗(yàn)與分析

      4.1 評(píng)價(jià)標(biāo)準(zhǔn)

      Fig.2 CMOTE schematic chart圖2 CMOTE 示意圖

      在不平衡數(shù)據(jù)分類中,少數(shù)類樣本更容易被錯(cuò)誤分類,少數(shù)類樣本的錯(cuò)誤分類對(duì)分類器整體分類性能[26]的影響很小。例如,當(dāng)少數(shù)類樣本數(shù)目所占不到1%時(shí),即使所有的少數(shù)類樣本被錯(cuò)誤劃分成多數(shù)類樣本,整體的分類準(zhǔn)確率也可以達(dá)到99%,但少數(shù)類的分類準(zhǔn)確率為0。在實(shí)際應(yīng)用中,識(shí)別少數(shù)類樣本的正確率尤其重要[27]。研究表明,當(dāng)存在類的不平衡問(wèn)題時(shí),最常用的性能度量“精度”已經(jīng)不能準(zhǔn)確地度量分類器的性能,因?yàn)樗荒芊謩e反映出正類和負(fù)類的真實(shí)分類性能。

      一些研究者在研究不平衡數(shù)據(jù)集分類指標(biāo)時(shí)沒(méi)有使用整體的分類性能,ROC 曲線下面積(AUC,縮寫為RA)和準(zhǔn)確率、召回率、F-measure、G-mean 等指標(biāo)更適合評(píng)價(jià)對(duì)少數(shù)類的分類性能。因此,本文以準(zhǔn)確率、召回率、F-measure、G-mean 和AUC為主要評(píng)價(jià)指標(biāo)。召回率用于評(píng)價(jià)不平衡數(shù)據(jù)集中少數(shù)樣本的正確率。F-measure 用來(lái)評(píng)價(jià)不平衡數(shù)據(jù)集中少類樣本的分類性能,G-mean 用來(lái)評(píng)價(jià)整體分類性能[4]。

      機(jī)器學(xué)習(xí)算法的性能通常由一個(gè)混淆矩陣來(lái)評(píng)估,如表1 所示(針對(duì)一個(gè)2 類問(wèn)題)。通常把少數(shù)類樣本的標(biāo)簽視為正,多數(shù)類樣本的標(biāo)簽視為負(fù)。表的第一列為真正的類標(biāo)簽,第一行為預(yù)測(cè)的類標(biāo)簽。TP和TN分別表示正確分類的正類和負(fù)類樣本個(gè)數(shù),F(xiàn)N和FP分別表示錯(cuò)誤分類的正類和負(fù)類樣本個(gè)數(shù)。

      Table 1 Confusion matrix of binary classification tasks表1 二分類任務(wù)的混淆矩陣

      由上述的混淆矩陣可以得到以下公式。

      少數(shù)類樣本的召回率為:

      少數(shù)類樣本的準(zhǔn)確率為:

      在上述指標(biāo)的基礎(chǔ)上,定義F-measure(簡(jiǎn)稱F1):

      其中,β表示Recall與Precision的相關(guān)重要性,本文中取值為1,從定義可以看出,Recall和Precision可用來(lái)評(píng)估少數(shù)類的分類性能,只有Recall和Precision都比較大時(shí),才能獲得較大的F-measure 值,因此Fmeasure常用來(lái)評(píng)估分類器對(duì)于少數(shù)類的分類準(zhǔn)確率。

      Kubat等[28]提出G-mean 作為評(píng)價(jià)指標(biāo):

      其中,TPrate用來(lái)評(píng)估少數(shù)類的分類性能,TNrate用來(lái)評(píng)估多數(shù)類的分類性能。從定義可以看出,只有TPrate和TNrate都比較大時(shí),才能獲得較大的G-mean 值,因此G-mean 常用來(lái)評(píng)估數(shù)據(jù)集整體的分類準(zhǔn)確率。

      4.2 實(shí)驗(yàn)數(shù)據(jù)集

      本文使用文獻(xiàn)[29]中的前11 個(gè)不平衡數(shù)據(jù)集,這些數(shù)據(jù)集在http://www.keel.es/dataset.php 上公開可用,連同從UCI 數(shù)據(jù)庫(kù)下載的數(shù)據(jù)集Satimage 來(lái)驗(yàn)證本文方法的性能。特別地,對(duì)于數(shù)據(jù)集Satimage,類4的樣本被認(rèn)為是少數(shù)類,其余類的樣本被認(rèn)為是多數(shù)類。對(duì)于每個(gè)數(shù)據(jù)集,數(shù)據(jù)集的詳細(xì)信息包括名稱(Dataset)及其縮寫(Abb)、樣本數(shù)量(#Ex.)、屬性個(gè)數(shù)(#Atts.)、少數(shù)類和多數(shù)類樣本所占總樣本的百分比{mr,MR}以及數(shù)據(jù)集的不平衡率(imbalanced ratio,IR),都在表2 中列出。

      Table 2 Basic information of datasets表2 數(shù)據(jù)集基本信息

      4.3 算法參數(shù)的確定

      為了篩選出容易被錯(cuò)誤分類的樣本,需要確定CMOTE 中的兩個(gè)參數(shù),即P值和D值。確定P值是因?yàn)楦采w內(nèi)的樣本中,樣本數(shù)量較少的樣本很有可能是噪聲樣本或重疊樣本;D值則是用來(lái)衡量樣本的聚集程度,對(duì)于D值較小的覆蓋,這些樣本更有可能是噪聲或重疊樣本。

      表3 和表4 中顯示了不同參數(shù)P和D對(duì)應(yīng)的性能指標(biāo),最好的實(shí)驗(yàn)結(jié)果以粗體顯示。表3 表明了參數(shù)P與CMOTE1 性能之間的關(guān)系。從實(shí)驗(yàn)結(jié)果可以看出,當(dāng)P=1 時(shí),5 種評(píng)價(jià)指標(biāo),Precision、F-measure、G-mean、Recall和AUC(縮寫為P1、F1、G1、R1 和AU)在更多的數(shù)據(jù)集上可以獲得最優(yōu)值,分別為:P1,8 個(gè)數(shù)據(jù)集;F1,11 個(gè)數(shù)據(jù)集;G1,8 個(gè)數(shù)據(jù)集;R1,10 個(gè)數(shù)據(jù)集;AU,7 個(gè)數(shù)據(jù)集。表4 給出了參數(shù)D與CMOTE2 性能之間的關(guān)系,當(dāng)D≤0.1 時(shí),5 種指標(biāo)可以在大多數(shù)數(shù)據(jù)集上得到最優(yōu)值,數(shù)據(jù)集數(shù)目分別為9、11、8、9、10。D≤0.1 的情況下,Recall在Y04 數(shù)據(jù)集上沒(méi)有得到最大值,但與最優(yōu)性能之間只有0.4%的差距,可以忽略。因此,本文將P的值設(shè)為1,D的值設(shè)為0.1。

      確定上述兩個(gè)參數(shù)后,可篩選出少數(shù)類中更容易被誤分的樣本,對(duì)這些關(guān)鍵樣本用SMOTE 方法進(jìn)行過(guò)采樣。表5 給出了每個(gè)數(shù)據(jù)集在SMOTE 算法中特定的采樣比率N,其中第2 列和第4 列表示兩個(gè)不同閾值P和D下對(duì)應(yīng)的采樣比率,即以每個(gè)關(guān)鍵樣本為種子需要擴(kuò)充的少數(shù)類樣本個(gè)數(shù)。

      4.4 實(shí)驗(yàn)結(jié)果與分析

      本實(shí)驗(yàn)采用C4.5 決策樹[30]作為分類算法,該部分主要展示了本文提出的CMOTE算法與對(duì)比算法的實(shí)驗(yàn)結(jié)果,并對(duì)算法的分類性能進(jìn)行了分析。對(duì)于每一個(gè)算法,進(jìn)行10次10折交叉驗(yàn)證,取平均值作為平均性能。為了簡(jiǎn)便起見(jiàn),本節(jié)中列出了3 個(gè)重要指標(biāo)F-measure、G-mean 以及AUC的對(duì)比結(jié)果。表6、表7給出了7 種算法在F-measure、G-mean 評(píng)價(jià)指標(biāo)上的結(jié)果,最后一行給出了每種算法在12 個(gè)數(shù)據(jù)集上的平均值,最佳結(jié)果以粗體顯示。為了方便,將算法SMOTE、Borderline-SMOTE、SMOTE+TomekLin、ADASYN、MWMOTE、CMOTE1 和CMOTE2 分 別縮寫為SMO、B-SM、SM-T、ADAS、MWM、CSM1 和CSM2。

      Table 3 Results of metrics corresponding to different P values表3 不同P 值對(duì)應(yīng)的性能指標(biāo)結(jié)果

      Table 4 Results of metrics corresponding to different D values表4 不同D 值對(duì)應(yīng)的性能指標(biāo)結(jié)果

      Table 5 Sampling rate corresponding to different P and D表5 兩個(gè)不同閾值P/D 對(duì)應(yīng)的采樣率

      Table 6 Experimental results on F-measure表6 指標(biāo)F-measure上的實(shí)驗(yàn)結(jié)果

      Table 7 Experimental results on G-mean表7 指標(biāo)G-mean 上的實(shí)驗(yàn)結(jié)果

      從表6、表7 可以看出,本文所提到的過(guò)采樣技術(shù)在F-measure、G-mean 指標(biāo)上對(duì)大部分?jǐn)?shù)據(jù)集都得到了有效的提高。例如,在F-measure 上,本文方法在12 個(gè)數(shù)據(jù)集中的9 個(gè)有最高的F-measure 值。與ADAS 算法相比,CSM1 和CSM2 在某些數(shù)據(jù)集上甚至有超過(guò)10 個(gè)百分點(diǎn)的提升。而對(duì)于G-mean,本文方法在12 個(gè)數(shù)據(jù)集中的7 個(gè)數(shù)據(jù)集上取得了最優(yōu)值,與ADAS 算法相比,CSM1 和CSM2 的G-mean 分別提高了4.29 個(gè)百分點(diǎn)和4.50 個(gè)百分點(diǎn)。

      AUC被認(rèn)為能夠更好地衡量對(duì)少數(shù)類樣本的分類性能。圖3 給出了7 種算法在AUC上的結(jié)果,最后一組為AUC在12 個(gè)數(shù)據(jù)集上的平均值。從圖3 中可以看出與ADAS 算法相比,CSM1 和CSM2 的AUC上分別有明顯的提高。相對(duì)于性能較好的SM-T 算法,本文算法在大部分?jǐn)?shù)據(jù)集(12 個(gè)數(shù)據(jù)集中的10 個(gè))上的AUC都取得更優(yōu)值。另外從平均的角度來(lái)看,本文提出的兩種過(guò)采樣技術(shù)的策略在F-measure 和Gmean 這兩種指標(biāo)上都得到了明顯的改進(jìn)。

      Fig.3 Experiment result on AUC圖3 指標(biāo)AUC 上的實(shí)驗(yàn)結(jié)果

      本文還對(duì)算法的性能進(jìn)行了統(tǒng)計(jì)比較。圖4 和圖5 給出了CSM1 和CSM2 與其余5 種算法在每個(gè)指標(biāo)上Welch t 檢驗(yàn)的p值的實(shí)驗(yàn)結(jié)果圖,細(xì)節(jié)如圖4和圖5 中子圖所示??傮w上,對(duì)比算法的Recall、Fmeasure、G-mean 和AUC與CSM1 和CSM2 都有顯著差異。至于Precision,算法性能僅在幾種對(duì)比算法上與CSM1 和CSM2 有顯著差異(5 種算法中有2 種)。從實(shí)驗(yàn)結(jié)果來(lái)看,CSM2 方法略優(yōu)于CSM1 方法,CSM1有14個(gè)較好的結(jié)果,CSM2有18個(gè)較好的結(jié)果。說(shuō)明了本文所提出的CMOTE 算法可以在大多數(shù)數(shù)據(jù)集上表現(xiàn)出最佳性能。

      5 結(jié)論

      Fig.4 Experiment result of Welch p between CSM1 and 5 algorithms圖4 CSM1 和5 種算法的Welch p 實(shí)驗(yàn)結(jié)果

      Fig.5 Experiment result of Welch p between CSM2 and 5 algorithms圖5 CSM2 和5 種算法的Welch p 實(shí)驗(yàn)結(jié)果

      作為一種典型的過(guò)采樣技術(shù),SMOTE 及基于SMOTE 改進(jìn)的方法受到了越來(lái)越多的關(guān)注。本文針對(duì)SMOTE 方法所存在的缺陷,引入了構(gòu)造性覆蓋算法CCA 來(lái)選擇用于SMOTE 過(guò)采樣的關(guān)鍵少數(shù)類樣本。CCA 作為一種監(jiān)督學(xué)習(xí)模型,能夠有效地檢測(cè)出對(duì)分類邊界影響較大的關(guān)鍵樣本。在12 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,在給定合適的參數(shù)下,CMOTE 算法的性能在不平衡數(shù)據(jù)分類方面于其他對(duì)比算法有了很大的提高。

      猜你喜歡
      集上準(zhǔn)確率分類
      分類算一算
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
      分類討論求坐標(biāo)
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      數(shù)據(jù)分析中的分類討論
      復(fù)扇形指標(biāo)集上的分布混沌
      盱眙县| 镇远县| 彝良县| 拉萨市| 巨鹿县| 清镇市| 子洲县| 府谷县| 顺义区| 土默特右旗| 长治市| 酉阳| 葫芦岛市| 乌拉特后旗| 乐东| 冕宁县| 榆中县| 东光县| 徐汇区| 开平市| 鸡泽县| 奉贤区| 洛阳市| 泸水县| 乌兰县| 东乡| 英超| 搜索| 黄大仙区| 西吉县| 周至县| 美姑县| 沾益县| 自治县| 靖西县| 赣州市| 肇东市| 高阳县| 读书| 拜城县| 白玉县|