吳正江,楊 天,鄭愛玲,梅秋雨,張亞寧
河南理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454003
不平衡數(shù)據(jù)是指數(shù)據(jù)集內(nèi)部類別分布不平衡的數(shù)據(jù),通常產(chǎn)生于網(wǎng)絡(luò)安全、異常流量檢測、生物信息中的異?;蚱魏托庞每ㄖЦ兜阮I(lǐng)域。在實際生活中,少數(shù)類的價值往往要高于多數(shù)類。因此,如何有效地提升不平衡數(shù)據(jù)的分類效果已經(jīng)引起了廣泛學(xué)者的關(guān)注?,F(xiàn)階段,對于不平衡數(shù)據(jù)的處理主要分?jǐn)?shù)據(jù)層面與算法層面兩個方面。對于數(shù)據(jù)層面來說,通過欠采樣、過采樣與混合采樣的方式,使得數(shù)據(jù)達(dá)到相對平衡。Chen等[1]提出的RSMOTE 模型引入相對密度來測量每個少數(shù)樣本的局部密度,通過在邊界樣本和安全樣本周圍分別進(jìn)行數(shù)據(jù)生成來提升邊界的可區(qū)分性,從而改進(jìn)分類效果。Li 等[2]提出的SMOTE-NaN-DE 模型基于噪聲檢測的方法來改進(jìn)SMOTE 過采樣后生成的數(shù)據(jù)。Ramentol 等[3]提出的SMOTE-RSB 模型通過將SMOTE平衡化后的數(shù)據(jù)用粗糙集下近似處理,從而提高數(shù)據(jù)質(zhì)量。對于算法層面來講,通過代價敏感學(xué)習(xí)、集成學(xué)習(xí)和單類學(xué)習(xí)等方法改善已有的算法。張壯等[4]提出的Takagi-Sugeno-Kang 模型通過集成學(xué)習(xí)改進(jìn)分類能力,徐劍等[5]結(jié)合代價敏感學(xué)習(xí)構(gòu)建不均衡數(shù)據(jù)分類器,陸妙芳等[6]通過基于密度和徑向基函數(shù)來提升過采樣能力。在文獻(xiàn)[7-9]中,均是通過不同方式改進(jìn)過采樣數(shù)據(jù)質(zhì)量來提升不平衡數(shù)據(jù)的分類效果,在文獻(xiàn)[10-11]中,通過不同的機(jī)器學(xué)習(xí)方法來解決不平衡數(shù)據(jù)分類問題??偟膩碚f,改進(jìn)數(shù)據(jù)質(zhì)量是提升不平衡數(shù)據(jù)分類能力的重點,其中,如何合理地降低噪聲數(shù)據(jù)的影響也是研究中的熱點問題。由于粗糙集下近似具有較高的數(shù)據(jù)質(zhì)量,因此作為降低噪聲數(shù)據(jù)的處理手段是可行且合理的。
在一個信息系統(tǒng)中,如果其中包含集值,就稱之為集值信息系統(tǒng)[12]。在集值信息系統(tǒng)中,如果只是簡單地將集值記錄刪除,可能會放大該記錄帶來的影響,尤其是該記錄存在于少數(shù)類中。因此,將適用于集值信息系統(tǒng)的擬單層覆蓋粗集模型與過采樣或是欠采樣方法結(jié)合是一種合理的方案。
容差關(guān)系粗糙集與擬單層覆蓋粗集是集值信息系統(tǒng)中的兩種主要粗糙集模型。Guan 等[13]提出了從集值信息系統(tǒng)中獲取決策規(guī)則的最大相容類模型。在文獻(xiàn)[14-15]中,基于容差關(guān)系從不完備信息系統(tǒng)中獲取高質(zhì)量的近似集和決策規(guī)則。Stefanowski 等[16]基于非對稱相似關(guān)系從不完備信息系統(tǒng)中獲取近似集和決策規(guī)則。Wang[17]處理基于限制性容差關(guān)系的不完備信息系統(tǒng),是粗糙集的進(jìn)一步擴(kuò)展。Wu 等[18]在覆蓋近似空間的基礎(chǔ)上提出了擬單層覆蓋近似空間的概念,并提出了近似集集合形式表示的原型。在文獻(xiàn)[19]中,討論了求解集值信息系統(tǒng)中擬單層近似集的問題。與其他基于容差關(guān)系的粗糙集模型相比,擬單層覆蓋粗集不僅具有更高的近似質(zhì)量,且因其等價類表示的優(yōu)點所以具有更快的計算速度。因此,選用擬單層覆蓋粗集作為樣本區(qū)域劃分的工具,在集值信息系統(tǒng)中將所屬不同區(qū)域的樣本根據(jù)不同的采樣策略進(jìn)行處理,能夠有效提高不平衡數(shù)據(jù)的分類效果。
基于BorderlineSMOTE[20]的分區(qū)域處理與SMOTETomek[21]欠采樣與過采樣混合處理的思想。針對集值信息系統(tǒng)中的不平衡數(shù)據(jù),本文提出了SMCRS-BS-CL模型。在SMCRS-BS-CL模型中,首先使用擬單層覆蓋粗集(semi-monolayer covering rough set,SMCRS)下近似進(jìn)行區(qū)域劃分,將屬于下近似的元素劃分為可靠的元素,將這一部分可靠的元素使用BorderlineSMOTE模型進(jìn)行過采樣;將不屬于下近似的元素劃分為邊界元素,將這一部分邊界元素用ClusterCentroids[22]進(jìn)行欠采樣。模型建立的思想是,對于下近似部分,數(shù)據(jù)相對來說是質(zhì)量高數(shù)據(jù),因此用過采樣方法進(jìn)行過采,能夠極大程度提高分類質(zhì)量。對于邊界元素部分,由于數(shù)據(jù)相對來說質(zhì)量較低,因此對其進(jìn)行欠采樣,極大程度保留數(shù)據(jù)信息。通過利用分治的策略對不同區(qū)域的不平衡數(shù)據(jù)進(jìn)行處理,能夠極大地提升不平衡數(shù)據(jù)的分類效果。
集值信息系統(tǒng)(SVIS)由(U,A,V,f)組成,U為論域,A是屬性的非空有限集合,(U,A∪j5i0abt0b,V,f)是集值信息決策系統(tǒng)(SVDIS),d代表了決策屬性,A代表了條件屬性,A∩j5i0abt0b=?,VA是條件屬性的取值,Vd是決策屬性的取值,V=VA∪Vd,f是V關(guān)于U×(A∪j5i0abt0b)上的函數(shù)。集值信息系統(tǒng)中的函數(shù)滿足f:U×A→2VA,單值系統(tǒng)中函數(shù)滿足f:U×j5i0abt0b→Vd。
接下來,以2位審稿人審稿結(jié)果為例進(jìn)行模型的闡釋,數(shù)據(jù)如表1所示。
表1 中,G 代表了good,P 代表了poor,Ac 代表了accept,Re 代表了reject,{G,P}則代表了兩位審稿人意見不一致,也就是集值信息。C={K1,K2,K3,K4}是U={1,2,3,4,5,6,7,8,9,10,11}的擬單層覆蓋。其中K1={1,2,3,4,5,11},K2={4,5,6,7,8},K3={9,10,11},K4={9}K10={1,2,3},K20={6,7,8},K30={10},具體信息如圖1所示。
圖1 擬單層覆蓋Fig.1 Semi-monolayer covering
表1 集值信息系統(tǒng)Table 1 Set-valued information system
根據(jù)定義2,可以計算出不同決策集合的上下近似集合,如下所示:
由于以上近似集求出的是決策規(guī)則,因此還需要通過決策規(guī)則來過濾數(shù)據(jù),過濾出的數(shù)據(jù)如圖2所示。
圖2 近似集Fig.2 Approximation set
根據(jù)容差關(guān)系、非對稱相似關(guān)系、限制性容差關(guān)系、最大相容類粗糙集相關(guān)定義,計算出其在表1中所對應(yīng)的下近似集合為空,近似質(zhì)量相對于擬單層覆蓋粗集較低,在文獻(xiàn)[19]中通過較為詳細(xì)的實驗證明了擬單層覆蓋粗集相對于其他容差關(guān)系粗糙集近似質(zhì)量高,因此選用擬單層覆蓋粗集模型作為劃分工具相對于其他容差關(guān)系粗糙集模型是有效且合理的,并在本文實驗部分也給予了驗證。
BorderlineSMOTE[20]是一種基于SMOTE 的過采樣改進(jìn)算法。與SMOTE 不同,該算法只是用邊界上的少數(shù)類來進(jìn)行樣本的人工合成。主要思想是將數(shù)據(jù)集中的少數(shù)類樣本根據(jù)KNN原理劃分為三類,分別是Safe、Danger、Noise。本文采用的方法是BorderlineSMOTE-1,僅在Danger類樣本的k個近鄰中,隨機(jī)選取少數(shù)類樣本進(jìn)行人工生成數(shù)據(jù),以增強(qiáng)Danger類數(shù)據(jù)的魯棒性,算法步驟如下:
步驟1 根據(jù)不平衡率,計算出需要人工生成樣本的數(shù)量S。
步驟2 對于少數(shù)類M中的每一個樣本mi(i=1,2,…,n)計算其k個最近鄰,記k個最近鄰中多數(shù)類個數(shù)為k′( 0<k′<k)。
步驟3 對k′數(shù)量進(jìn)行判斷,如果k′=k,則該樣本屬于Noise 類樣本,不做任何操作。如果k/2>k′,則該樣本屬于Safe類樣本,不做任何操作。如果k/2<k′,則該樣本屬于Danger類樣本,也就是邊界上的樣本,對其采取以下操作。
步驟4 計算Danger類中每個mi距M中其他少數(shù)類樣本的n個最近鄰。從n個最近鄰中隨機(jī)選取s個最近鄰按照公式:
進(jìn)行樣本生成,mnew為新生成的樣本,ms為隨機(jī)選中的近鄰樣本。
重復(fù)步驟4,直至生成滿足平衡率的S個樣本。
ClusterCentroids 最早由Singh 等[22]提出,是一種基于原型生成方式的高效欠采樣方法,基于原始數(shù)據(jù)集Doriginal生成一個子集D′,D′的生成方式是基于k-Means算法求出Doriginal的簇心進(jìn)行替換原始數(shù)據(jù),而不是從Doriginal中進(jìn)行選取,通過這種下采樣方式能夠很好地保證源數(shù)據(jù)的信息質(zhì)量與信息載量,算法步驟如下:
步驟1 計算不平衡率,根據(jù)不平衡率計算需要聚類的個數(shù)k。
步驟2 在樣本集Doriginal中隨機(jī)選取k個多數(shù)類樣本作為初始的簇中心。
步驟3 根據(jù)公式計算每個多數(shù)類樣本與簇中心的距離,將距離近的多數(shù)類樣本歸為一類,形成新的簇。
步驟4 計算每個簇中對應(yīng)坐標(biāo)向量的平均值,從而求出新的簇心向量。
步驟5 重復(fù)步驟3 與步驟4,直至簇中心向量未更新。
步驟6 將生成的簇中心向量代替原有的多數(shù)類樣本,加入到數(shù)據(jù)集中。
至此,通過簇心代替原有的多數(shù)類向量,對不平衡數(shù)據(jù)完成欠采樣。
本章將對SMCRS-BS-CL算法原理進(jìn)行介紹,并將該模型核心代碼部分進(jìn)行闡述。
由粗糙集的定義可知,粗糙集中下近似集中的元素是可靠且數(shù)據(jù)質(zhì)量較高的,因此,選取下近似集中的決策規(guī)則作為知識提取是合理的。
從1.1 節(jié)中理論與結(jié)果可以看出,擬單層覆蓋粗集相對于傳統(tǒng)的覆蓋粗糙集來說,對于每一個塊都有一個全局且獨特的標(biāo)簽,并且能將可靠元與爭議元通過單值與集值建立一一對應(yīng)的關(guān)系。除此之外,將所有的可靠元加入運(yùn)算,并通過可靠元所對應(yīng)的決策來對爭議元的決策進(jìn)行賦值,能夠大大提升數(shù)據(jù)的數(shù)據(jù)質(zhì)量。此外,擬單層覆蓋粗集相較于其他容差關(guān)系粗糙集有較高的近似質(zhì)量,在文獻(xiàn)[19]中已經(jīng)經(jīng)過證實,較高的近似質(zhì)量能夠保證在對數(shù)據(jù)進(jìn)行規(guī)則提取的同時極大程度地保留數(shù)據(jù)的完整性,以保證模型的泛化能力。
對于BorderlineSMOTE-1(BS)來說,為了提升分類算法能力,僅對邊界域元素進(jìn)行過采樣,以提升整體分類精度。然而,原始數(shù)據(jù)集有可能會存在大量的噪聲數(shù)據(jù),用BS直接處理可能會降低分類效果。以1.1節(jié)中的例子來說,對象6、7、8 雖然且同為可靠元素,但其對應(yīng)的決策并不相同,因此在進(jìn)行下近似求解時,由于它的知識模糊表達(dá)性質(zhì)并不會將其考慮進(jìn)去,這樣就能夠降低因數(shù)據(jù)模糊而造成的影響。此外,對于集值數(shù)據(jù),只有確定能與可靠元素建立規(guī)則的才予以保留,這樣做,可以極大程度地確定信息表達(dá)的正確性。BS生成數(shù)據(jù)模擬如圖3 所示,通過擬單層覆蓋粗集下近似處理,能夠提供給BS 更可靠的信息,降低信息表達(dá)不確定以及噪聲數(shù)據(jù)對BS 的影響,并通過BS 生成更為可靠的數(shù)據(jù),也就是圖3中的黑色實心五角星的數(shù)據(jù)。
圖3 BS生成數(shù)據(jù)模擬Fig.3 BS generates data simulation
對于ClusterCentroids(CL)來說,基于原型生成式的欠采樣方法在一定程度上會將原有高質(zhì)量數(shù)據(jù)抹去,降低分類精度??紤]到在不平衡數(shù)據(jù)中,少數(shù)類數(shù)據(jù)尤其珍貴,而下近似由于追求較好的數(shù)據(jù)質(zhì)量可能會造成少數(shù)類數(shù)據(jù)被過濾掉,因此使用CL 算法對不滿足下近似的數(shù)據(jù)質(zhì)量較低的數(shù)據(jù)進(jìn)行欠采樣,如圖4所示。通過CL 模型將多數(shù)類聚合,這樣做首先避免了高質(zhì)量數(shù)據(jù)在欠采樣過程中被抹掉,其次還能保留少數(shù)類數(shù)據(jù),并且對數(shù)據(jù)質(zhì)量較低的多數(shù)類數(shù)據(jù)進(jìn)行原型生成,降低噪聲對整體數(shù)據(jù)分類能力的影響。
圖4 CL欠采樣數(shù)據(jù)模擬Fig.4 CL under-sampled data simulation
SMCRS-BS-CL模型是基于擬單層覆蓋粗集的分治法預(yù)處理模型,它首先使用擬單層覆蓋粗集就DA0 下近似與DE0下近似將不平衡數(shù)據(jù)分別劃分為4個部分,分別為滿足DA0下近似與不滿足DA0下近似的數(shù)據(jù),滿足DE0下近似與不滿足DE0下近似的數(shù)據(jù)。將滿足下近似的數(shù)據(jù)用BS 進(jìn)行過采樣處理,增強(qiáng)邊界域區(qū)分性的同時極大程度降低噪聲數(shù)據(jù)對BS的影響。
此外,為了充分提取數(shù)據(jù)的知識表達(dá)信息,將不屬于下近似的數(shù)據(jù)用CL 進(jìn)行欠采樣處理,目的也是降低噪聲數(shù)據(jù)對整體數(shù)據(jù)集的影響。最后,將相對應(yīng)處理好的數(shù)據(jù)集進(jìn)行合并,具體流程如圖5 所示。根據(jù)圖5 思想,結(jié)合其他不平衡數(shù)據(jù)處理算法替代了BS與CL進(jìn)行了對比實驗,驗證了SMCRS-BS-CL 的有效性,具體數(shù)據(jù)在實驗部分展示。
圖5 SMCRS-BS-CL算法流程圖Fig.5 Flow chart of SMCRS-BS-CL algorithm
SMCRS-BS-CL模型的算法核心即擬單層覆蓋粗集的實現(xiàn)過程,具體可分為如下步驟:
步驟1 輸入數(shù)據(jù),構(gòu)建集值信息決策系統(tǒng)ISVDS=(U,A∪j5i0abt0b,V,f)。
步驟2 根據(jù)定義1計算覆蓋塊K以及相對應(yīng)的K0。
步驟3 根據(jù)步驟2 中計算出的K、K0,求出不同決策集對應(yīng)的決策規(guī)則(定義2),并將求出的結(jié)果取并集,得到不同近似集的整體決策規(guī)則。
步驟4 根據(jù)步驟3計算出的決策規(guī)則,對原始數(shù)據(jù)進(jìn)行決策過濾,選取數(shù)據(jù)質(zhì)量較高的數(shù)據(jù)。
步驟5 調(diào)用BS算法,根據(jù)步驟4中計算出的DA0、DE0 下近似進(jìn)行過采樣。
步驟6 調(diào)用CL 算法,根據(jù)步驟4 中計算出的不滿足DA0、DE0下近似的樣本進(jìn)行欠采樣。
步驟7 合并步驟5 與步驟6 中的數(shù)據(jù),完成集值數(shù)據(jù)的數(shù)據(jù)處理。通過以上步驟,完成SMCRS-BS-CL算法的整個過程。
SMCRS-BS-CL算法對擬單層覆蓋粗集進(jìn)行了下一步的研究,由近似質(zhì)量轉(zhuǎn)為了決策規(guī)則的提取,通過計算出決策規(guī)則,結(jié)合數(shù)據(jù)進(jìn)行性數(shù)據(jù)清洗,篩選出符合決策規(guī)則的高質(zhì)量數(shù)據(jù)。其次,結(jié)合BS 與CL 算法,通過分治法提升數(shù)據(jù)質(zhì)量與降低數(shù)據(jù)損耗來提升不平衡數(shù)據(jù)的分類能力。
實驗中的數(shù)據(jù)集來自Kaggle中的不平衡數(shù)據(jù)集,選取了Abalone、Bank、Waktu、Magic、Wdbc、White_wine和House_vote共7個不同數(shù)據(jù)集,并將數(shù)據(jù)集劃分為訓(xùn)練集與測試集,比例為8∶2。其中前6個數(shù)據(jù)集是完備的,在進(jìn)行擬單層覆蓋粗集算法時首先構(gòu)建集值信息系統(tǒng),轉(zhuǎn)變?yōu)榧禂?shù)據(jù),實現(xiàn)方式由3.1 節(jié)給出。House_vote數(shù)據(jù)集是不完備的,直接根據(jù)映射關(guān)系將缺失值映射為集值進(jìn)行處理,此外,為了加大數(shù)據(jù)的不平衡性,對House_vote數(shù)據(jù)集少數(shù)類進(jìn)行隨機(jī)抽取處理,使其平衡率為3∶1,具體信息如表2所示。
表2 數(shù)據(jù)集Table 2 Datasets
本次實驗采用Python 3.6進(jìn)行實驗設(shè)計,實驗過程中,SMOTE[23]、BorderlineSMOTE-1、BorderlineSMOTE-2[20]過采樣方法的過采樣率為100%,即平衡少數(shù)類樣本與多數(shù)類樣本的個數(shù),近鄰個數(shù)設(shè)置為5,ClusterCentroids、TomekLinks[24]欠采樣率均為100%,即平衡少數(shù)類樣本與多數(shù)類樣本的個數(shù)。其中ClusterCentroids 聚類的簇數(shù)由不平衡率進(jìn)行確定,各個分類算法與不平衡數(shù)據(jù)處理方法的隨機(jī)種子設(shè)置為42,指標(biāo)評測值是進(jìn)行10次實驗計算平均值得出的結(jié)果。
集值信息系統(tǒng)覆蓋規(guī)則的構(gòu)建就是計算出每列屬性的最小值、最大值、均值、中位數(shù)。判斷每個對象屬性值所屬的區(qū)間位置,如果位于最小值與min{均值,中位數(shù)}之間或是位于max{均值,中位數(shù)}與最大值之間,則該屬性值被認(rèn)為是單值;若屬性值位于中位數(shù)與均值之間,則該屬性值被認(rèn)為是集值。
由于不平衡數(shù)據(jù)本身的獨特性質(zhì),僅用單一指標(biāo)去評價不平衡數(shù)據(jù)并不能有效地展示其分類性能。因此,選取F-score、AUC、Accuracy 作為不平衡數(shù)據(jù)的分類效果評價指標(biāo)。
基于表3,可以算出F-score(公式(3))、AUC(公式(4))、Accuracy(公式(5))計算過程中的指標(biāo)。
表3 混淆矩陣Table 3 Confusion matrix
其中,F(xiàn)PR、TPR分別代表了假陽性率與真陽性率,二者與坐標(biāo)軸圍成的面積即為AUC值。
為了檢測SMCRS-BS-CL 算法對不平衡數(shù)據(jù)分類性能的提升,選取了SMOTE、BorderlineSMOTE-1、BorderlineSMOTE-2、ClusterCentroids、TomekLinks、SMOTETomek分別對數(shù)據(jù)集進(jìn)行處理,設(shè)計了如下對比實驗方案,在實驗數(shù)據(jù)表中,加粗的數(shù)據(jù)為最優(yōu)值,加下劃線的數(shù)據(jù)為次優(yōu)值。SMCRS-BS-CC-DE0與SMCRSBS-CC-DA0分別代表了經(jīng)過DE0近似集與DA0近似集按照本文模型處理后的結(jié)果。
3.3.1 F-score
為了驗證SMCRS-BS-CL 模型相較于其他不平衡數(shù)據(jù)處理模型的組合效果,結(jié)合圖中思想,將BS(BS-CL)模型更換為SMOTE(SMOTE-CL)、BorderlineSMOTE-2(BS-2-CL),將CL 模型更換為Tomek(BS-Tomek)。此外,為了驗證CL 模型的重要性,單獨將BS 模型處理后的數(shù)據(jù)用于驗證,分類器采用Extra-Tree[25],評價指標(biāo)選取F-score,具體數(shù)值如表4所示。以模型整體效果為標(biāo)準(zhǔn),SMCRS-BS-CL 模型在5 個數(shù)據(jù)集合上都有較好的效果,驗證了該模型的有效性。
表4 不同組合模型F-score對比Table 4 Comparison of F-scores for different combination models
將SMCRS-BS-CL 與其他不平衡數(shù)據(jù)處理方法處理后的數(shù)據(jù)經(jīng)過Extratree分類器訓(xùn)練后的F-score值如表5 所示。從表5 中可以看出,SMCRS-BS-CC-DE0 較原始數(shù)據(jù)集F-score 平均提升4.30 個百分點,SMCRSBS-CC-DA0平均提升了1.85個百分點。SMCRS-BS-CL相對其他方法表現(xiàn)較好。
表5 不同模型F-score值Table 5 F-scores for different combination models
3.3.2 AUC
首先,通過ExtraTree 與DecisionTree[26]作為分類器(隨機(jī)種子設(shè)置為42,其余參數(shù)均是默認(rèn)值,下同),訓(xùn)練經(jīng)過SMCRS-BS-CL 以及上述不平衡數(shù)據(jù)算法處理過的數(shù)據(jù),得到每個處理方式處理后的所對應(yīng)的AUC值。
ExtraTree分類器對應(yīng)的AUC值如圖6所示。
圖6 ExtraTree下AUC值比較Fig.6 Comparison of AUC values under ExtraTree
從圖6中可以看出,SMCRS-BS-CL整體較其他方法表現(xiàn)好。具體數(shù)值如表6,根據(jù)表6 可以看出SMCRSBS-CL-DE0 在5 個數(shù)據(jù)集上達(dá)到了最優(yōu)值,AUC 值平均提升了4.22 個百分點。SMCRS-BS-CL-DA0 在兩個數(shù)據(jù)集上達(dá)到了最大值,較原始數(shù)據(jù)集平均提升了2.71個百分點。但SMCRS-BS-CL-DE0 在White_wine 數(shù)據(jù)集表現(xiàn)一般,原因是由于構(gòu)建集值信息系統(tǒng)過程中,爭議元較多,使用DA0近似集對數(shù)據(jù)集進(jìn)行決策過濾能夠更好清除噪聲數(shù)據(jù)從而達(dá)到更好的效果。整體來說,SMCRS-BS-CL-DE0表現(xiàn)較SMCRS-BS-CL-DA0優(yōu)異。
表6 ExtraTree下AUC值Table 6 AUC values under ExtraTree
DecisionTree分類器對應(yīng)的AUC值如表7所示。根據(jù)表7中數(shù)據(jù)可以得到SMCRS-BS-CL-DE0在3個數(shù)據(jù)集上達(dá)到了最優(yōu),兩個數(shù)據(jù)集達(dá)到了次優(yōu),AUC值平均提升了3.10 個百分點。SMCRS-BS-CL-DA0 在兩個數(shù)據(jù)集上達(dá)到了最優(yōu),一個數(shù)據(jù)集達(dá)到了次優(yōu),原始數(shù)據(jù)集合平均提升了3.35 個百分點。整體來說,SMCRSBS-CL算法相對于其他算法表現(xiàn)優(yōu)異。
表7 DecisionTree下AUC值Table 7 AUC values under DecisionTree
3.3.3 Accuracy
為了驗證擬單層覆蓋粗集模型相對于其他容差關(guān)系模型的在集值信息系統(tǒng)中的優(yōu)越性,本文采用容差關(guān)系粗糙集(TR)、限制性容差關(guān)系粗糙集(LTR)、非對稱限制關(guān)系粗糙集(NTR)、最大相容類粗糙集(MTR)進(jìn)行對比,對不平衡數(shù)據(jù)處理方式均是將屬于下近似的數(shù)據(jù)進(jìn)行過采樣,不屬于下近似的欠采樣,最后將二者合并為一個數(shù)據(jù)集。訓(xùn)練器采用feature generation by convolutional neural network(FGCNN)[27],該訓(xùn)練器是一種利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行自動特征提取的深度學(xué)習(xí)模型,模型中epochs設(shè)置為50。經(jīng)過FGCNN訓(xùn)練后的Accuracy如圖7所示,從圖7中明顯看出SMCRS-BS-CL相對于其他容差關(guān)系粗糙集模型,在大多數(shù)數(shù)據(jù)集上表現(xiàn)出了較好的結(jié)果。
針對集值信息系統(tǒng)中的不平衡數(shù)據(jù)問題,本文提出了一種基于擬單層覆蓋粗集與BorderlineSMOTE、ClusterCentroids 的混合采樣方法。該方法首先通過擬單層覆蓋粗集分別用DE0 與DA0 下近似進(jìn)行數(shù)據(jù)劃分,將屬于下近似的數(shù)據(jù)用BorderlineSMOTE進(jìn)行過采樣,將不屬于下近似的數(shù)據(jù)用ClusterCentroids進(jìn)行欠采樣,最后分別將屬于DE0 與DA0 的過采樣數(shù)據(jù)與欠采樣數(shù)據(jù)合并,達(dá)到對不平衡數(shù)據(jù)的預(yù)處理。這種處理方式能夠極大程度地增強(qiáng)邊界數(shù)據(jù)可區(qū)分性,并且能夠降低少數(shù)類數(shù)據(jù)的信息損耗。最后,基于Kaggle上的公開數(shù)據(jù)集進(jìn)行實驗驗證,證明了算法的有效性。但是該算法仍有需要改進(jìn)的地方,由于結(jié)合了多種算法,模型處理上稍微復(fù)雜,仍需要進(jìn)一步深入優(yōu)化。