鄧明陽,郭應(yīng)時(shí),劉 通
(1.長(zhǎng)安大學(xué) 汽車學(xué)院, 西安 710064; 2.長(zhǎng)春工業(yè)大學(xué)人文信息學(xué)院 汽車工程學(xué)院, 長(zhǎng)春 130122;3.重慶交通大學(xué) 交通運(yùn)輸學(xué)院, 重慶 400074)
數(shù)據(jù)采樣作為機(jī)器學(xué)習(xí)中對(duì)數(shù)據(jù)處理的常用方法,經(jīng)常用于不平衡數(shù)據(jù)的重采樣過程。在現(xiàn)實(shí)生活中,各個(gè)領(lǐng)域都會(huì)產(chǎn)生諸多不平衡數(shù)據(jù)集合,如在自動(dòng)駕駛汽車市場(chǎng)調(diào)查中,不同地區(qū)、不同車型的樣本中都會(huì)出現(xiàn)多種類小樣本數(shù)據(jù);其他行業(yè)如一年中天氣的統(tǒng)計(jì),工廠產(chǎn)品抽樣檢測(cè),臨床醫(yī)學(xué)數(shù)據(jù)統(tǒng)計(jì)中也會(huì)涉及到多種類的不平衡數(shù)據(jù)。由于小樣本數(shù)據(jù)具有種類多、信息量豐富和價(jià)值高等特點(diǎn),數(shù)據(jù)采樣中不可被舍棄,而現(xiàn)有的主流分類算法無法對(duì)不平衡數(shù)據(jù)進(jìn)行精確處理。故此,需要重新采樣來保留高價(jià)值的小樣本數(shù)據(jù)[1]。為保證數(shù)據(jù)分類的精準(zhǔn)性,不平衡樣本的重采樣既要保持原有各個(gè)樣本的數(shù)據(jù)特征,又要保持樣本中各個(gè)分類數(shù)據(jù)的平衡性。因此,多種類不平衡數(shù)據(jù)的采樣成為機(jī)器學(xué)習(xí)中諸多學(xué)者研究的重點(diǎn)領(lǐng)域。
目前,對(duì)平衡數(shù)據(jù)采樣方法的研究主要以數(shù)據(jù)過采樣、欠采樣和混合采樣為主,每種方法適用的條件各不相同。1993年,自Anand等[2]發(fā)現(xiàn)不平衡數(shù)據(jù)影響神經(jīng)網(wǎng)絡(luò)算法的收斂性以來,針對(duì)不平衡數(shù)據(jù)的采樣方法被逐漸完善。1995年,Vapnik[3]首次提出一種機(jī)器學(xué)習(xí)算法,命名為支持向量機(jī)算法,不僅代替了之前隨機(jī)采樣分類方法,還解決了不同樣本的分類問題。在此基礎(chǔ)上,各國(guó)學(xué)者不斷提出各種改進(jìn)算法。
早期,對(duì)不平衡數(shù)據(jù)的研究以過采樣方法為主,Chawla等[4]在2002年提出了synthetis minority oversampling technique (SMOTE)智能過采樣方法代替隨機(jī)采樣算法。Han等[5]提出了改進(jìn)算法borderline-smote,形成了基于K階的臨近思想方法;而Snchez等[6-7]提出了聚類的思想方法,擴(kuò)大了數(shù)據(jù)采樣范圍。隨后,Lima等[8-9]引入進(jìn)化的思想來優(yōu)化過采樣理論,而陳麗芳等[10]提出基于空間距離作為權(quán)重的方法保留了數(shù)據(jù)的特征。袁帥等[11-12]提倡的半監(jiān)督算法開始用于機(jī)器學(xué)習(xí)中,提高了算法的實(shí)用性;許皓等[13]提出基于深度學(xué)習(xí)的算法,提高了大樣本數(shù)據(jù)分類的準(zhǔn)確率。
為保留高價(jià)值的小樣本數(shù)據(jù),部分學(xué)者同時(shí)研究不平衡數(shù)據(jù)欠采樣方法,形成了聚類和整合2種主要思想。聚類欠采樣主要由Yen等[14]提出,后來經(jīng)過Varassin等[15-16]逐漸完善算法精度。針對(duì)多種小樣本采樣問題,研究以整合欠采樣算法為主,Liu等[17-19]對(duì)整合思想進(jìn)行了擴(kuò)展,提高了小樣本采樣的數(shù)據(jù)精度。混合算法是將2種算法結(jié)合起來。目前,應(yīng)用最多的是張家偉等[20]提出的混合隨機(jī)采樣法,而趙學(xué)華等[21-22]提出的改進(jìn)采樣算法,推動(dòng)了多種類不平衡數(shù)據(jù)的研究。
在汽車技術(shù)發(fā)展中,社會(huì)調(diào)查作為數(shù)據(jù)采集的重要手段,被廣泛應(yīng)用。由于調(diào)查數(shù)據(jù)涉及地區(qū)、人群、型號(hào)等多種因素,所采集到的數(shù)據(jù)呈現(xiàn)出不平衡特性,后期數(shù)據(jù)分類較難;其他行業(yè)也有不平衡數(shù)據(jù)分析的需求,因此,不平衡數(shù)據(jù)的重采樣是一個(gè)普遍問題。然而,已有的重采樣方法無法對(duì)多種類不平衡數(shù)據(jù)進(jìn)行完善[21-23]。本文提出一種基于超平面的抽樣及重組重采樣算法(SVM+RDS),先對(duì)每種類別數(shù)據(jù)進(jìn)行排序;然后對(duì)不同種類樣本進(jìn)行最大公共基數(shù)抽樣;再按照不同種類完成重組;最后,通過多次迭代的采樣法生成新的數(shù)據(jù)集。提出的重采樣算法不僅能保持原有數(shù)據(jù)的特征,還能為數(shù)據(jù)分類擴(kuò)大訓(xùn)練的數(shù)據(jù)集合種類,為機(jī)器學(xué)習(xí)中數(shù)據(jù)分類及數(shù)據(jù)挖掘提供了一種新方法。
多種類的不平衡數(shù)據(jù)特征主要表現(xiàn)為樣本種類多,不平衡度差異大[15]。因此,數(shù)據(jù)重采樣既要保持各種類原有數(shù)據(jù)分布特征,又要平衡不同種類樣本的數(shù)量。為了平衡不同類別樣本的數(shù)據(jù)量,如果僅對(duì)大樣本數(shù)據(jù)進(jìn)行欠采樣,新的數(shù)據(jù)集合會(huì)因?yàn)樯釛壊糠謽颖径鴣G失重要信息;如果直接對(duì)小樣本進(jìn)行過采樣,新的數(shù)據(jù)集合又會(huì)因?yàn)樯纱罅啃聵颖径霈F(xiàn)過擬合現(xiàn)象。經(jīng)過對(duì)比大小樣本的數(shù)據(jù)量,以最大公共基數(shù)對(duì)所有樣本進(jìn)行分層抽樣,按照公共基數(shù)倍數(shù)重組構(gòu)成新的樣本數(shù)據(jù)集合,既滿足了多種類樣本中數(shù)據(jù)量的平衡,又保持了原有數(shù)據(jù)特征。
首先,在每一類樣本中,按照樣本中各個(gè)數(shù)據(jù)到分類超平面的距離對(duì)樣本數(shù)據(jù)進(jìn)行重新排序,確保采樣過程中數(shù)據(jù)的有序性。為保持?jǐn)?shù)據(jù)量的平衡性,小樣本全數(shù)采樣;大樣本通過間隔抽樣的方法構(gòu)成公共基數(shù),在保持原有數(shù)據(jù)特征基礎(chǔ)上,以防止大樣本抽樣的重復(fù)性。先對(duì)大樣本進(jìn)行等距離分組,每次抽樣時(shí)從各個(gè)組內(nèi)按照從頭至尾的順序只采集一個(gè)數(shù)據(jù),由此構(gòu)成一個(gè)公共基數(shù),其采集數(shù)量等于分組數(shù)量。最后,在大致保持整體樣本特征的基礎(chǔ)上,重新組合不同種類樣本之間的公共基數(shù),構(gòu)建多種類的平衡數(shù)據(jù)集。采樣過程中,公共基數(shù)為保持不同種類樣本間的平衡性,分組間隔采樣則為了保持原有數(shù)據(jù)特征完整性的前提下,能夠減少大樣本的數(shù)量,由此構(gòu)建成多種類平衡的數(shù)據(jù)集合。
對(duì)于樣本種類為n的不平衡數(shù)據(jù)集D={D1,D2,D3,…,Dn},其中Di代表第i類樣本,i=1,2,…,n。每種類別的樣本數(shù)量為Di={x1,x2,x3,…,xm},m為第i類樣本中數(shù)據(jù)的數(shù)量。首先,將該集合中的樣本按照數(shù)據(jù)到超平面距離的大小進(jìn)行排序,保持采樣前各種類內(nèi)部的樣本數(shù)據(jù)特征。為了比較不同種類的樣本數(shù)量,定義排序后的樣本數(shù)量集合S={S1,S2,S3,…,Sn},其中Si代表第i類樣本數(shù)量,Si 1) 當(dāng)S3 2) 當(dāng)S1+S2 3) 當(dāng)2(S1+S2) 由此可知,樣本數(shù)據(jù)的不平衡度影響G值的確定方法,也直接影響采樣后樣本數(shù)量的大小。 輸入:多種類的不平衡數(shù)據(jù)集合,D={D1,D2,D3,…,Dn} 輸出:多種類的平衡數(shù)據(jù)集合。 算法流程: 步驟1樣本數(shù)據(jù)排序。在每一類樣本中,按照數(shù)據(jù)到超平面的距離大小,樣本Ai的數(shù)據(jù)排序結(jié)果為x1 步驟2求最大公共基數(shù)G。比較各個(gè)類別樣本的數(shù)量,結(jié)合不平衡度參數(shù),求取采樣點(diǎn)最大公共基數(shù)G作為采樣最小單元數(shù)。 步驟3分層采樣。按照公共采樣基數(shù)G,在多種類樣本中進(jìn)行一次采樣,每一類樣本形成(Si-G)+1組抽樣方法。 步驟4組合數(shù)據(jù)集。按照平衡度不同,對(duì)原有樣本采樣后進(jìn)行重組數(shù)據(jù)集。判斷樣本數(shù)據(jù)的不平衡度,小樣本取樣為Si或G,大樣本取樣數(shù)約為G的倍數(shù)。 以自動(dòng)駕駛汽車接受度中氣候?yàn)槔斜┨鞖釧1=110 d,雨霧天氣A2=50 d,晴天A3=200 d,以上情況符合G值確定的條件2,A2全數(shù)取樣,A1全數(shù)取樣,A3按照160 d取樣,共有41種取樣方法。 為了驗(yàn)證算法的可行性,從國(guó)際標(biāo)準(zhǔn)數(shù)據(jù)集UCI中選取不平衡數(shù)據(jù)集作為訓(xùn)練樣本[15-16,19-20]對(duì)算法進(jìn)行訓(xùn)練;然后,取一組自動(dòng)駕駛汽車調(diào)查數(shù)據(jù)作為測(cè)試集,以此驗(yàn)證算法的實(shí)用性,選取的不平衡數(shù)據(jù)集按照不平衡度分布,見表1。 表1 不平衡數(shù)據(jù)訓(xùn)練及測(cè)試集合 建立數(shù)據(jù)采樣模型后,選取自動(dòng)駕駛汽車接受度調(diào)查中的價(jià)格、能耗、排量和舒適性4類數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),選取安全性數(shù)據(jù)集作為測(cè)試數(shù)據(jù)。分層重組采樣過程及效果如圖1所示。 圖1 汽車安全性市場(chǎng)調(diào)研中不平衡數(shù)據(jù)的重組采樣過程曲線 為了更加精確地評(píng)價(jià)本算法的性能,以機(jī)器學(xué)習(xí)分類算法來檢驗(yàn)采樣數(shù)據(jù)的可用性。通過分析混淆矩陣中各個(gè)參數(shù)的含義,選用復(fù)合指標(biāo)來評(píng)價(jià)算法性能。在不平衡數(shù)據(jù)中,定義少數(shù)類別為正類,大數(shù)類別為負(fù)類,混淆矩陣的類別見表2。 表2 混淆矩陣的類別 表中,TP表示預(yù)測(cè)為正類,實(shí)際也是正類的樣本數(shù)目;FN表示預(yù)測(cè)為負(fù)類,實(shí)際卻是正類的樣本數(shù)目;FP表示預(yù)測(cè)為正類,實(shí)際是負(fù)類的樣本數(shù)目;TN表示預(yù)測(cè)為負(fù)類,實(shí)際是負(fù)類的樣本數(shù)目。由混淆矩陣所定義的查全率、真正率和查準(zhǔn)率3個(gè)指標(biāo),其定義式如下: 準(zhǔn)確率Acc=(TP+TN)/(TP+TN+FN+FP) (1) 查全率Rec=TP/(TP+FN) (2) 查準(zhǔn)率Pre=TP/(TP+FP) (3) 特異率Spc=TN/(FP+FN) (4) 由指標(biāo)定義可知,單類指標(biāo)能夠精確反應(yīng)平衡數(shù)據(jù)采集中的算法性能,在不平衡數(shù)據(jù)分類中,由于小樣本的樣本量少,容易分類錯(cuò)誤,部分指標(biāo)之間是相互矛盾的,故采用多個(gè)指標(biāo)綜合評(píng)價(jià)算法的性能。經(jīng)過對(duì)比分析,Acc已經(jīng)綜合考慮了4類指標(biāo)大小,適合作為綜合評(píng)價(jià)參數(shù);同理,F(xiàn)-value綜合考慮了正類樣本的查全率和查準(zhǔn)率,G-mean考察了正、負(fù)樣本查全率和特異率大小,故選定這3個(gè)復(fù)合指標(biāo)評(píng)價(jià)采樣算法的性能。F-value和G-mean 2個(gè)指標(biāo)定義如下。 1)F-value。F-value是精準(zhǔn)率P和召回率R的調(diào)和平均數(shù)。這2個(gè)數(shù)值的調(diào)和平均數(shù)更加接近于2個(gè)數(shù)當(dāng)中較小的那個(gè)。因此,如果F值較大,那么精準(zhǔn)率和召回率都很大。 (5) 2) G-mean。G-mean是求Rec和Spc乘積的平方根。如果G-mean較大,則Rec和Spc這2個(gè)數(shù)都應(yīng)該較大。例如,2個(gè)數(shù)相乘大于0.5,至少應(yīng)該2個(gè)數(shù)都大于0.7。 (6) 以電動(dòng)汽車市場(chǎng)調(diào)研舒適性數(shù)據(jù)集為測(cè)試集(見表1),經(jīng)過不同算法采樣后,利用同一分類算法來檢驗(yàn)采樣數(shù)據(jù)的可用性來評(píng)價(jià)采樣算法的性能。用本文提出的算法(SVM+RDS)與當(dāng)下流行的典型算法隨機(jī)過采樣(SMOTE)、超平面過采樣(SVMOM)、隨機(jī)混合采樣(SMO+TLK)和混合過采樣(SVM+ENN)對(duì)同一數(shù)據(jù)集進(jìn)行重采樣和數(shù)據(jù)分類,通過對(duì)比復(fù)合指標(biāo)來反映不同算法的性能,評(píng)價(jià)指標(biāo)的計(jì)算結(jié)果見表3。 表3 評(píng)價(jià)指標(biāo)的計(jì)算 由表3可以得出,本文提出的算法在F-value和G-mean兩項(xiàng)復(fù)合指標(biāo)的值高于其他4種算法,其Acc的值與其他算法大小持平。由復(fù)合指標(biāo)Acc的定義可知,本算法在樣本集合中對(duì)正、負(fù)樣本的分類方面與其他算法性能相差不大;由復(fù)合指標(biāo)F-value和G-mean的定義可知,本算法SVM-RDS對(duì)小樣本的查全率和查準(zhǔn)率明顯高于其他算法,這說明在對(duì)不平衡數(shù)據(jù)的重采樣中,本算法能夠精準(zhǔn)地提取小樣本的數(shù)據(jù)特征,有效區(qū)分大、小樣本種類。因此,本文提出的算法在保持整體采樣準(zhǔn)確率的基礎(chǔ)上,對(duì)不平衡數(shù)據(jù)重采樣具有較好的通用性和實(shí)用性。 針對(duì)多種類的不平衡數(shù)據(jù),提出了一種基于最大公共采樣基數(shù)分層抽樣和總體平衡的重組采樣方法。與現(xiàn)有采樣方法相比,所提出的算法在數(shù)據(jù)特征保持方面有較好的表現(xiàn)。經(jīng)過實(shí)際數(shù)據(jù)測(cè)試,在正樣本分類中,與其他算法相比,本算法精度較高,表現(xiàn)為在真實(shí)為正的樣本中有絕大部分樣本被識(shí)別出來;而在判斷為正樣本的數(shù)據(jù)中,真正為正樣本的數(shù)據(jù)較多。通過復(fù)合指標(biāo)的計(jì)算,所提出的算法在查準(zhǔn)率和查全率均明顯高于其他算法,對(duì)不平衡數(shù)據(jù)采集具有較高的精準(zhǔn)度。根據(jù)分層理論,在大樣本特征不變的前提下,樣本數(shù)據(jù)量減少;再根據(jù)組合理論,由不同公共基數(shù)構(gòu)成的平衡新樣本集在整體數(shù)量上保持不變,但所生成的新樣本集數(shù)量是由原各類別樣本以公共基數(shù)為單元所進(jìn)行的組合方式?jīng)Q定的。這種采樣方法減小了機(jī)器訓(xùn)練和測(cè)試的算法耗時(shí),為機(jī)器學(xué)習(xí)中多種類不平衡數(shù)據(jù)處理提供了一種通用的采樣方法。3 算法設(shè)計(jì)
4 仿真實(shí)驗(yàn)
4.1 采集過程
4.2 算法評(píng)價(jià)指標(biāo)的選取
5 結(jié)論