• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于SVM的非均衡數(shù)據(jù)集過采樣方法

      2020-12-07 08:20:48張忠林馮宜邦趙中愷
      計算機工程與應用 2020年23期
      關鍵詞:分類器邊界權重

      張忠林,馮宜邦,趙中愷

      蘭州交通大學 電子與信息工程學院,蘭州 730070

      1 引言

      在現(xiàn)實生活中,許多數(shù)據(jù)集分布不均勻,類與類之間的樣本數(shù)差異很大,即不平衡數(shù)據(jù)集:如信用卡欺詐檢測[1]、故障診斷[2]、醫(yī)療診斷[3]、垃圾郵件過濾[4]等。而傳統(tǒng)分類算法在最初被設計和實驗時都是基于分布均勻的數(shù)據(jù)集提出的,將不平衡數(shù)據(jù)集不加處理直接送入傳統(tǒng)分類算法訓練,分類器為了確保總體性能,部分少數(shù)類樣本會被錯誤地歸類,致使少數(shù)類的分類準確率下降。但是,通常更重視少數(shù)類樣本的分類準確性,因為少數(shù)類樣本攜帶的信息具有更高的價值,是數(shù)據(jù)挖掘的重要目標。因此,很多研究學者將目光聚焦于不平衡數(shù)據(jù)集的分類研究,并將提升少數(shù)類樣本的分類精度以及總體性能作為目標。

      針對不平衡數(shù)據(jù)在分類過程中呈現(xiàn)的問題,業(yè)界主要通過數(shù)據(jù)采樣和算法兩個方向進行相關研究。在算法層面,探究不同錯分情形代價的差異性通過引進懲罰機制對算法進行優(yōu)化,如代價敏感學習[5]、集成學習[6]以及模糊支持向量機[7]等。通過算法解決不平衡數(shù)據(jù)問題,不改變原始數(shù)據(jù)的分布,避免了合成或刪除樣本引進的誤差,但算法優(yōu)化、參數(shù)的選用比較困難。而數(shù)據(jù)層面通過平衡數(shù)據(jù)集的方式提升分類器的性能如:欠采樣、過采樣以及混合采樣。

      文獻[8]提出了典型的過采樣算法SMOTE,該算法通過分析少數(shù)類樣本,并與k個同類樣本間線性插值合成新樣本。該算法雖然使少數(shù)類的預測精度有所提升,但由于在合成新樣本時沒有考慮樣本的分布,易合成噪聲樣本和冗余樣本,而且不能避免過擬合的情形。文獻[9]提出了Borderline-SMOTE 算法,該算法對SMOTE 的不足進行優(yōu)化,認為分類邊界處的樣本含有更豐富的信息,因此該算法只在邊界處合成少數(shù)類樣本。文獻[10]提出ADASYN算法,其由每個少數(shù)類樣本采取某種方法自動決定合成樣本的數(shù)量,但該算法易受離群點的干擾。文獻[11]提出基于自然最近鄰的不平衡數(shù)據(jù)過采樣方法,該方法首先確定少數(shù)類的自然最近鄰,然后根據(jù)樣本的自然近鄰關系對少數(shù)類樣本進行聚類,找到核心點與非核心點,最后在核心點與非核心點之間合成樣本。

      隨機欠采樣[12]核心思想是隨機刪除多數(shù)類樣本的部分樣本達到均衡數(shù)據(jù)集的目標,但是隨機欠采樣可能會丟失對分類效果有重要影響的樣本。因此,楊杰明等[13]針對上述不足點提出了US-DD算法,該算法依據(jù)數(shù)據(jù)的密度分布,將數(shù)據(jù)集區(qū)分為高低不同的密度簇,然后對不同的密度簇運用不同的采樣方法。文獻[14]提出基于KNN 的NearMiss 算法,該算法通過設定啟發(fā)式規(guī)則欠采樣,改進了隨機欠采樣的不足。

      對于欠采樣可能會丟失關鍵樣本信息、過采樣會合成無效樣本的問題,文獻[15]提出基于邊界混合重采樣的分類方法(BMRM),該算法引入k-離群度將數(shù)據(jù)集劃分邊界樣本和非邊界樣本,然后對少數(shù)類的邊界樣本使用優(yōu)化的SMOTE 算法采樣,對多數(shù)類樣本采用基于距離的欠采樣算法采樣,達到平衡數(shù)據(jù)集的目的。文獻[16]提出基于分類超平面的混合采樣算法SVM_HS,該算法運用SVM分類超平面找出分錯的少數(shù)類樣本進行采樣,同時對離分類超平面較遠的多數(shù)類樣本進行隨機刪除。該算法雖然考慮了不同樣本對分類算法的重要程度不同,但在過采樣的過程中沒有考慮少數(shù)類樣本的分布情況。

      針對現(xiàn)有采樣算法的不足,本文根據(jù)每個少數(shù)類樣本的重要程度不同,同時考慮少數(shù)類樣本的類內平衡,提出一種基于SVM 的非均衡數(shù)據(jù)集過采樣方法(SVMOM)。算法根據(jù)少數(shù)類樣本到分類超平面的距離和樣本的分布情況賦予每個少數(shù)類樣本選擇權重,最后根據(jù)樣本的選擇權重選擇樣本運用SMOTE迭代合成新樣本,以達到均衡數(shù)據(jù)集的目的。最后將本文提出的SVMOM 算 法 與 SMOTE 算 法 、Borderline-SMOTE 算法、ADASYN 算法、NearMiss-2 算法、SMOTE+ENN 算法在6個UCI數(shù)據(jù)集上進行實驗,并將采樣的后的數(shù)據(jù)在SVM、Logistic Regression 和RandomForest 三個分類器上進行性能比較,實驗結果表明,本文算法在F-value、G-mean和AUC上都具有較好的表現(xiàn)。

      2 相關工作

      2.1 SVM算法

      SVM算法是由Vapnik[17]在20世紀90年代提出的可用于回歸和分類的機器學習技術,對于分類問題,SVM的基本思想是在最小化分類誤差的同時,求解一個能夠正確劃分訓練數(shù)據(jù)集且最大化兩個類之間的幾何間隔。

      SVM 不僅可以用于線性可分的情況,也可以用于線性不可分的情況,當兩個類數(shù)據(jù)不可分時,可以通過應用核技巧將數(shù)據(jù)映射到高維的特征空間,而在高維的特征空間中數(shù)據(jù)是可分的。線性可分的SVM算法如算法1所示。

      算法1線性可分的SVM算法

      輸入:訓練集D={(x1,y1),(x2,y2),…,(xN,yN)},其中,x∈Rm,y∈{1,-1},i=1,2,…,N ii

      輸出:分類超平面與決策函數(shù)

      步驟1構造并求解約束最優(yōu)化問題:

      其約束條件為:

      其中,ξi為松弛因子,C >0 是懲罰系數(shù)。

      步驟2求得最優(yōu)解w*、b*。

      步驟3由此得到分類超平面:

      分類決策函數(shù)為:

      w*、b*的求解,可以通過對式(1)使用拉格朗日乘子法得到其對偶問題。

      其約束條件為:

      對于式(5),通過序列最小優(yōu)化算法(SMO),得到最優(yōu)的α*=(α1,α2,…,αN)T,進而求得w*、b*。

      在線性SVM 訓練的對偶問題里,目標函數(shù)和分類決策函數(shù)都只涉及樣本與樣本之間的內積。因此,對于非線性分類問題,并不需要顯示的指定線性變換,只需用核函數(shù)K(x,z)代替當中的內積。最后求解的決策函數(shù)為:

      2.2 不平衡數(shù)據(jù)集對SVM的影響

      SVM 是一個有監(jiān)督的機器學習算法,其在平衡數(shù)據(jù)集上具有良好的性能,但將非均衡數(shù)據(jù)集送入SVM訓練時,分類器為了確保總體性能,SVM 的分類超平面會向少數(shù)類傾斜,這致使部分少數(shù)類樣本被錯誤地劃分為多數(shù)類,如圖1 所示。圖1 中實線為SVM 在非均衡數(shù)據(jù)集上訓練得到的決策邊界,虛線為真正的決策邊界。

      圖1 不平衡數(shù)據(jù)集決策邊界

      研究結果表明[18],SVM在非均衡數(shù)據(jù)集上的決策邊界向少數(shù)類傾斜,這是因為SVM 中的分類決策邊界是由支持向量決定的,在非均衡數(shù)據(jù)集中,多數(shù)類樣本比少數(shù)類樣本可能有更多的支持向量,這就導致了不平衡的支持向量比,致使決策邊界向少數(shù)類移動。為了使決策邊界向正確的位置移動,應對少數(shù)類進行過采樣,使少數(shù)類樣本具有更多的支持向量。

      不同分布區(qū)域的樣本的重要程度不同,往往越靠近類邊界的樣本攜帶的信息量越高。在SVM 算法中,樣本到決策邊界的距離反映了樣本所攜帶信息的信息量[19]。離決策邊界越近,則樣本所攜帶信息量越高,樣本越重要;離決策邊界較遠,則樣本攜帶的信息量越低。考慮圖1,其中樣本點A與樣本點B離決策平面較近,而樣本點C離決策平面較遠。因此樣本點A與樣本點B相比樣本點C更重要。同樣的,稀疏簇的樣本比密集簇的樣本更重要,這是因為密集簇的樣本更多,攜帶的信息量更為豐富,而稀疏簇樣本較少,則攜帶的信息量較少。同樣考慮圖1,樣本點A與樣本點B到決策平面的距離相同,但樣本點A的密度低于樣本點B的密度,在合成樣本時,應對樣本點A附近合成更多的樣本,使少數(shù)類樣本類內更加平衡。

      3 基于SVM的非均衡數(shù)據(jù)集過采樣算法

      3.1 算法思想

      如2.2 節(jié)所述,SVM 在用于非均衡數(shù)據(jù)集時,決策邊界將更接近于少數(shù)類,致使少數(shù)類樣本分類精度下降。而離決策邊界越近且處于低密度區(qū)域的樣本重要程度越高,離決策邊界越遠且處于高密度區(qū)域的樣本重要程度越低。基于以上分析,本文結合SVM 設計了SVMOM 算法。SVMOM 算法通過迭代合成樣本。在每輪迭代的過程中,首先運用SVM 分類器在訓練集上得到決策邊界,在測試集上計算G-mean值,并根據(jù)樣本點到SVM 決策邊界的距離賦予樣本距離權重,同時考慮少數(shù)類的分布情況,計算樣本的密度,根據(jù)樣本的密度賦予樣本密度權重。然后根據(jù)樣本的距離權重和密度權重計算每個少數(shù)類樣本的選擇權重,最后根據(jù)樣本的選擇權重選擇樣本運用SMOTE 合成新樣本,將合成的樣本加入到訓練集中。迭代完成,最后選擇G-mean值最大的那輪采樣后的訓練集作為最終的平衡數(shù)據(jù)集。

      3.2 SVMOM算法描述

      設非均衡數(shù)據(jù)集為D(i=1,2,…,N),N為樣本數(shù),d為樣本維度,訓練集為S,測試集為T,訓練集S中少數(shù)類樣本為Smin,m為少數(shù)類樣本數(shù),多數(shù)類樣本為Smaj,n為多數(shù)類樣本數(shù),合成的樣本為Snew。算法流程如圖2。

      SVMOM算法如算法2所示。

      圖2 SVMOM算法流程圖

      算法2SVMOM算法

      輸入:不平衡數(shù)據(jù)集D(i=1,2,…,N),N為樣本數(shù)量,每輪迭代采樣倍率δ,0<δ<1。

      輸出:處理后的平衡數(shù)據(jù)集S

      步驟1將數(shù)據(jù)集D劃分為訓練集S和測試集T。

      步驟2在訓練集S上計算要合成的樣本數(shù)G_gap。

      步驟3在訓練集S上用SVM訓練分類模型h(x),其決策邊界為D_B,并在測試集T上計算G-mean值。

      步驟4對于每個xi∈Smin,根據(jù)xi到決策邊界D_B的距離,計算樣本xi的距離權重Distw(xi)。

      步驟5對于每個xi∈Smin計算其密度權重Densityw(xi)。

      步驟6根據(jù)Distw(xi)和Densityw(xi)計算樣本xi的選擇權重Sw(xi)。

      步驟7計算本輪迭代要合成的樣本數(shù)G_num。

      步驟8以Sw(xi)為概率選擇G_num個樣本,其集合為SG。

      步驟9對于SG中的每一個樣本xi,計算其k近鄰,并用公式(12)合成新樣本。

      步驟10將合成的新樣本合并入訓練集S。

      步驟11重復步驟3~10,直到合成樣本數(shù)達到G_gap。

      步驟12選擇G-mean最大的那輪采樣后的訓練集作為最終的訓練集。

      3.3 樣本選擇權重的計算

      樣本的選擇權重Sw(xi) 反映了樣本被選中的概率。本文根據(jù)少數(shù)類樣本到決策邊界的距離和樣本的分布密度賦予每個少數(shù)類樣本選擇權重。樣本離決策平面越近且樣本密度越小,則樣本的選擇權重越大;樣本離決策平面越遠且樣本密度越大,則樣本的選擇權重越小。具體步驟如下:

      (1)對于xi∈Smin,根據(jù)公式(14)計算其到決策邊界D_B的距離Dist(xi,D_B)。

      (2)樣本的距離權重為:

      (3)對于xi∈Smin,根據(jù)公式(16)計算xi與xj∈Smin(j=1,2,…,m)的歐式距離,得到xi的k個近鄰,在本文中k=5。

      (4)樣本xi的密度Density(xi)為。

      (5)樣本xi的密度權重為:

      (6)最后樣本xi的選擇權重為:

      其中α+β=1(本文中α=β=0.5)。

      3.4 SVMOM算法時間復雜度分析

      SVMOM 算法通過迭代合成樣本。在每輪迭代的過程中首先運用SVM 算法訓練分類器,然后計算樣本的距離權重與密度權重,進而合成樣本。而線性SVM的時間復雜度為O(dN),非線性SVM 的時間復雜度為O(dN2),其中N為訓練樣本數(shù),d為特征維度。樣本距離權重的計算需要計算少數(shù)類樣本到決策邊界的距離,其時間復雜度為O(m),m為少數(shù)類樣本數(shù)。樣本的密度權重根據(jù)樣本的k近鄰估算。因此需計算少數(shù)類樣本間的距離并進行升序排序,其時間復雜度為O(m2+mlogm)。因此SVMOM 算法一輪迭代的時間復雜度為O(dN2+m+m2+mlogm)=O(dN2)。

      SVMOM的迭代次數(shù)與數(shù)據(jù)集的不平衡率有關,不平衡率越高,所需合成的樣本數(shù)越多,迭代次數(shù)越多。假設迭代次數(shù)為l次,則SVMOM算法最終的時間復雜度為O(ldN2)。

      基于以上分析,本文采樣算法具有較高的時間復雜度,且數(shù)據(jù)集樣本量越大,不平衡率越高,算法耗時越長。

      4 實驗結果與分析

      4.1 評價指標

      在不平衡數(shù)據(jù)集的研究中,通常將數(shù)目少的類別視為正類,數(shù)目多的類視為負類,而正類能否被準確分類是數(shù)據(jù)挖掘的目標。在不平衡數(shù)據(jù)集分類過程中,如果分類器將全部的樣本都分類到負類,就可以輕松地達到很高的準確率,但實際上該分類效果并不好。因此,傳統(tǒng)用于評估分類器性能的準確率和錯誤率可能就不再適用了,為了更精準地評價不平衡數(shù)據(jù)的分類性能,通常采用構造混淆矩陣,將 F-value[20]、G-mean[20]、AUC[21]等作為評價標準。構造的混淆矩陣如表1所示。

      表1 混淆矩陣

      表1中TP表示實則為正類且預測為正類的樣本數(shù)目。FN表示實則為正類且預測為負類的樣本數(shù)目。TN表示實則為負類且預測為負類的樣本數(shù)目。FP表示實則為負類且預測為正類的樣本數(shù)目。

      根據(jù)構建的混淆矩陣,引入查全率、真負率、假正率、查準率四個定義。

      查全率,即真正類別為正類的樣本中,被正確預測的樣本所占比率:

      真負率,即真正類別為負類的樣本中,被正確預測的樣本所占比率:

      假正率,即真正類別為負類的樣本中,被錯誤真正的樣本所占比率:

      查準率,正確分類的正類樣本與所有預測為正類樣本的比值:

      在不平衡數(shù)據(jù)的分類評價標準中,正確率或錯誤率有時候并不能有效地評估模型表現(xiàn),通常需要綜合考慮,而F-value綜合考慮了正類的準確率和召回率,其公式定義如下:

      其中,TPR為查全率,RPR為查準率;β代表了TPR和RPR的相對重要性系數(shù),在數(shù)據(jù)集分布不均勻的二分類問題中,β一般取值為1。

      G-mean是評估不平衡數(shù)據(jù)集分類性能的另一個指標,其定義如下:

      根據(jù)公式(24),G-mean取值與TPR、TNR有關,只有TPR、TNR同時增大時,G-mean的值才能提高,因此G-mean值是一個更加綜合的分類器性能評價指標。

      ROC曲線是由FRP(假正率)和TPR(查全率)構成的點連成的線,能很直觀地看出任意界限值對性能的判別能力。ROC 曲線離左上角越近,實驗的準確性就越高,模型的表現(xiàn)就越好,曲線下面積(Area Under Curve,AUC)也就越大。因而AUC 是評價模型表現(xiàn)優(yōu)劣的一個有效指標。

      本文將選取F-value、G-mean、AUC作為度量分類性能的評估標準。

      4.2 數(shù)據(jù)集描述

      本文從國際機器學習標準庫UCI 中選取6 組不平衡數(shù)據(jù)集驗證文中所提算法的有效性,數(shù)據(jù)集信息如表2所示。6組數(shù)據(jù)集既有二分類數(shù)據(jù)集也包含多分類數(shù)據(jù)集。對于多分類數(shù)據(jù)集,合并其中的幾類樣本形成二分類樣本集。haberman數(shù)據(jù)集的類別1為多數(shù)類,類別2為少數(shù)類;transfusion數(shù)據(jù)集的類別0為多數(shù)類,類別1為少數(shù)類;credit 數(shù)據(jù)集的類別0 為多數(shù)類,類別1 為少數(shù)類;german 數(shù)據(jù)集的類別1 為多數(shù)類,類別0 為少數(shù)類;ionosphere 數(shù)據(jù)集的g 類為多數(shù)類,b 類為少數(shù)類;yeast 數(shù)據(jù)集的ME3 類為少數(shù)類,其他類合并為多數(shù)類。數(shù)據(jù)集的不平衡度定義為多數(shù)類樣本數(shù)量與少數(shù)類樣本數(shù)量的比值。

      表2 數(shù)據(jù)集信息

      4.3 實驗及分析

      為驗證本文所提SVMOM算法的有效性和通用性,實驗設置如下:

      (1)將其與SMOTE算法、Borderline SMOTE算法、ADASYN、NearMiss、SMOTE+ENN 在 haberman、transfusion、credit、german、ionosphere、yeast 6 個數(shù)據(jù)集上進行采樣實驗。

      (2)SVMOM 作為數(shù)據(jù)預處理階段的算法,為進一步驗證本文算法的通用性,分別將SVM、Logistic Regression、RandomForest作為分類器,用F-value和G-mean和AUC作為評價指標進行對比。

      (3)為了更好地評價各種方法的性能,實驗采用五折交叉檢驗法在6 組數(shù)據(jù)集上實驗,每次選擇其中4 組作為訓練集,1組作為測試集。

      本文實驗環(huán)境使用Pycharm2018為仿真環(huán)境,所用其他對比算法使用imbalance-learn提供的算法實現(xiàn)。

      4.3.1 參數(shù)敏感性分析

      本文提出的SVMOM過采樣算法,需要指定每次迭代的采樣倍率δ、距離權重系數(shù)α和密度權重系數(shù)β。為了評估δ、α和β的影響,本文選取haberman、transfusion、credit、german、ionosphere、yeas 6 個數(shù)據(jù)集進行測試,并以SVM 作為分類器,核函數(shù)為高斯徑向基,核寬度數(shù)設為10,懲罰因子C為1 000,k近鄰k的取值為5。用F-value、G-mean和AUC評估參數(shù)的影響。

      為了評估采樣倍率的影響,對δ分別設置為0.1,0.2,0.3,0.4進行實驗。實驗結果如表3所示。通過表3可以看出當δ=0.2 時,F(xiàn)-value、G-mean 和 AUC 三個值普遍具有較好表現(xiàn),如表中黑體表示。

      距離權重系數(shù)α表示距離權重在樣本選擇權重的重要性,當α越大時,靠近決策邊界的樣本越容易被選中;密度權重系數(shù)β表示密度權重在樣本選擇權重的重要性,當β越大時稀疏處的樣本越容易被選中。當α=β時,認為樣本的距離權重與密度權重同等重要,即靠近決策邊界且越稀疏處的樣本更容易被選中。為了評估距離權重系數(shù)α和密度權重系數(shù)β影響。設置δ=0.2 ,且將 (α,β)分為(0.8,0.2),(0.6,0.4),(0.5,0.5),(0.6,0.4),(0.2,0.8)5組分別進行實驗。實驗結果如表4 所示。通過表4 可以看出當α=β=0.5 時,分類器在6個數(shù)據(jù)集上的整體性能表現(xiàn)較好,如表中黑體表示。

      表3 不同采樣倍率δ 下的分類效果對比

      4.3.2 實驗結果

      根據(jù)4.3.1節(jié)討論,本文實驗參數(shù)設置如下:δ的取值為0.2,α=β=0.5,根據(jù)學者研究表明[22],k近鄰取值推薦設為5。SVM分類器的參數(shù)設置為:核函數(shù)為高斯徑向基,核寬度數(shù)設為10,懲罰因子C為1 000。Logistic Regression、RandomForest分類器參數(shù),使用算法開發(fā)人員推薦的參數(shù)值。表5給出了本文采樣算法與其他5種采樣算法在 SVM-RBF、Logistic Regression、Random-Forest 三個分類器上的實驗結果,并將實驗結果最大值加粗表示。

      表4 不同α,β 下的分類效果對比

      通過表5可以發(fā)現(xiàn),本文所提采樣算法,在用SVMRBF作為分類器時,除了credit數(shù)據(jù)集,在其他5個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他采樣算法。這是因為本文算法通過支持向量機迭代合成樣本,在每輪迭代的過程中,對離決策平面較近的且稀疏簇的樣本賦予較高的采樣權重,使這些樣本更容易被選中合成樣本,最終使決策平面向準確的方向移動。

      而本文算法在Logistic Regression與RandomForest分類器上性能并不總是最好的。其中本文算法在Logistic Regression 上有三個數(shù)據(jù)集表現(xiàn)不是最好的;在RandomForest分類器中,有兩個數(shù)據(jù)集表現(xiàn)不是最好的,但AUC 值都是最優(yōu)的。本文所提SVMOM 算法是嵌入到SVM 中的,所以它在SVM 算法中有更好的表現(xiàn)。盡管本文算法在其他分類算法中表現(xiàn)不是最優(yōu)的,但就整體而言,本文所提算法的整體性能較其他算法有較大的優(yōu)勢。通過實驗對比發(fā)現(xiàn),本文所提算法具有一定的有效性和通用性。

      為了直觀地體現(xiàn)不同算法的性能效果,圖3~圖5分別繪制了6 種算法在6 個數(shù)據(jù)集分別在SVM-RBF、Logistic Regression、RandomForest 三個分類模型上的實驗結果曲線。其中橫坐標代表6種算法,縱坐標代表性能評價指標結果。通過圖可以直觀地得出,當以SVM-RBF 作為分類器時,本文提出的采樣算法相比較其他算法在F-value、G-mean、AUC三個分類評價指標上都有比較明顯的提高。雖然在Logistic Regression、RandomForest 分類器上的性能在6 個數(shù)據(jù)集上并不都是最好的,但與其他算法相比,通過本文算法采樣后的數(shù)據(jù),總體性能更好,因此本文所提數(shù)據(jù)采樣算法具有通用性,可用于其他機器學習算法。

      表5 不均衡數(shù)據(jù)集在3個分類器上算法性能對比

      圖3 SVM-RBF作為分類器的性能對比

      圖4 Logistic Regression作為分類器的性能對比

      圖5 RandomForest作為分類器的性能對比

      5 結束語

      本文針對不平衡數(shù)據(jù)的分類結果偏向多數(shù)類的缺陷,提出了一種基于SVM 的不平衡數(shù)據(jù)過采樣算法(SVMOM)。SVMOM 通過迭代合成樣本。在迭代過程中,首先通過支持向量機算法,找到分類超平面,其次根據(jù)樣本點到分類超平面的距離賦予樣本距離權重;同時考慮少數(shù)類的分布情況,計算樣本的密度,根據(jù)樣本的密度分布賦予樣本密度權重。依據(jù)樣本的距離權重和密度權重計算每個少數(shù)類樣本的選擇權重,然后根據(jù)樣本的選擇權重選擇樣本運用SMOTE 迭代合成新樣本,最后將過采樣后的平衡數(shù)據(jù)集在SVM 分類器、Logistic Regression、RandomForest 中訓練。實驗結果表明,本文提出的采樣算法優(yōu)于其他采樣算法,一定程度上解決了分類結果偏向多數(shù)類的問題,有效地改善了分類器的性能。但是,由于本文提出的算法,在每輪迭代進行采樣時,首先要找出分類超平面,當算法應用非常大的數(shù)據(jù)集時,運行時間較長,盡管目前計算機計算能力有了很大的提升,但仍然需要提高算法在大數(shù)據(jù)集中的速度,如何提高算法的運行效率將是今后研究的重點。

      猜你喜歡
      分類器邊界權重
      拓展閱讀的邊界
      權重常思“浮名輕”
      當代陜西(2020年17期)2020-10-28 08:18:18
      論中立的幫助行為之可罰邊界
      為黨督政勤履職 代民行權重擔當
      人大建設(2018年5期)2018-08-16 07:09:00
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于公約式權重的截短線性分組碼盲識別方法
      電信科學(2017年6期)2017-07-01 15:44:57
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      “偽翻譯”:“翻譯”之邊界行走者
      外語學刊(2014年6期)2014-04-18 09:11:49
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      巴南区| 海丰县| 赤水市| 高平市| 闻喜县| 双峰县| 奈曼旗| 阜宁县| 醴陵市| 沁水县| 塔河县| 乌拉特后旗| 宜丰县| 平原县| 蒙自县| 罗平县| 张掖市| 桂东县| 资阳市| 安化县| 嘉峪关市| 洛扎县| 武汉市| 柳江县| 特克斯县| 富川| 洪雅县| 贵溪市| 景东| 深圳市| 封开县| 西安市| 顺昌县| 疏附县| 兖州市| 石泉县| 通州市| 拉萨市| 太和县| 施甸县| 页游|