徐玲玲, 遲冬祥, 黃彥乾, 曹鈞燁
(上海電機(jī)學(xué)院電子信息學(xué)院,上海 201306)
不平衡數(shù)據(jù)主要是指生活和生產(chǎn)中采集或獲取到的各類(lèi)存在類(lèi)別數(shù)量不平衡的數(shù)據(jù),常表現(xiàn)為數(shù)據(jù)集中于某一類(lèi)數(shù)據(jù)的數(shù)量顯著多于另一類(lèi)或剩下其他幾類(lèi)的數(shù)量[1]。以二分類(lèi)的分類(lèi)任務(wù)為例,設(shè)M為數(shù)據(jù)樣本集合,S1、S2分別為數(shù)據(jù)集的兩個(gè)子集,且有S1∪S2=M,S1∩S2=Ф。若滿(mǎn)足|S1|<|S2|,則將M稱(chēng)為不平衡數(shù)據(jù)集,其中|S|表示集合S的個(gè)數(shù)。用不平衡比例(Imbalanced Ratio,IR)來(lái)表示兩類(lèi)樣本間的不平衡程度,s1、s2分別為兩個(gè)子集元素的個(gè)數(shù),IR具體計(jì)算公式如下:
IR的值越小,數(shù)據(jù)集中樣本不平衡比例越大;IR的值越大,不平衡比例越小。以工業(yè)生產(chǎn)中產(chǎn)生的數(shù)據(jù)展開(kāi)描述,實(shí)際生產(chǎn)工作的設(shè)備大部分處于正常運(yùn)行狀態(tài),故障發(fā)生的頻率很小,因而收集到的數(shù)據(jù)大多處于正常狀態(tài),異常的故障數(shù)據(jù)量很少,正常與異常設(shè)備故障數(shù)據(jù)數(shù)量之間存在明顯的不平衡現(xiàn)象,由此可將工業(yè)生產(chǎn)設(shè)備運(yùn)行數(shù)據(jù)視作工業(yè)不平衡數(shù)據(jù)。傳統(tǒng)的機(jī)器學(xué)習(xí)模型通?;跀?shù)據(jù)平衡的假設(shè),這一假設(shè)使分類(lèi)器在訓(xùn)練過(guò)程中易偏向數(shù)量較多的多數(shù)類(lèi)正常樣本,忽略樣本量極少的異常少數(shù)類(lèi)樣本對(duì)分類(lèi)模型的貢獻(xiàn),將使具有巨大研究?jī)r(jià)值的少數(shù)異常類(lèi)樣本的分類(lèi)準(zhǔn)確率降低,可見(jiàn)傳統(tǒng)的機(jī)器學(xué)習(xí)模型無(wú)法適用于不平衡數(shù)據(jù)[2-3]的分類(lèi)。在實(shí)際工業(yè)生產(chǎn)過(guò)程中及時(shí)發(fā)現(xiàn)潛在故障設(shè)備,不僅能避免因設(shè)備故障導(dǎo)致的大量生產(chǎn)材料及財(cái)產(chǎn)損失,也能最大可能降低設(shè)備故障導(dǎo)致設(shè)備操作人員面臨的安全隱患,因而構(gòu)建基于不平衡數(shù)據(jù)內(nèi)在特征的分類(lèi)算法迫在眉睫[4-7]。
數(shù)據(jù)不平衡現(xiàn)象廣泛存在于各行各業(yè),越來(lái)越多的專(zhuān)家學(xué)者投身對(duì)其研究討論。向鴻鑫等[8]綜合論述了近年來(lái)處理不平衡數(shù)據(jù)集分類(lèi)任務(wù)較為常見(jiàn)的方法。Garcia 等[9]提出了一種進(jìn)化欠采樣方法,旨在從原始訓(xùn)練集中選擇數(shù)據(jù)樣本的最佳子集,使用不同的適應(yīng)度函數(shù),在不平衡數(shù)據(jù)集的類(lèi)分布和分類(lèi)器性能之間取得良好的平衡。文獻(xiàn)[10-11]為了修正支持向量機(jī)對(duì)多數(shù)類(lèi)偏差形成的偏移決策邊界,引入權(quán)重參數(shù)以調(diào)整支持向量機(jī)的分類(lèi)函數(shù),提高少數(shù)類(lèi)對(duì)分類(lèi)器的貢獻(xiàn),迫使分類(lèi)平面向多數(shù)類(lèi)傾斜,消除了數(shù)據(jù)不平衡對(duì)支持向量機(jī)產(chǎn)生的負(fù)面影響。目前較為成熟的不平衡數(shù)據(jù)處理分類(lèi)路線(xiàn)大體上可以分為兩類(lèi)[12]:一類(lèi)是從數(shù)據(jù)自身層面通過(guò)特征選擇或重采樣技術(shù)重新調(diào)整數(shù)據(jù)樣本數(shù)量的分布結(jié)構(gòu),以期降低數(shù)據(jù)集不平衡度;另一類(lèi)是從分類(lèi)模型層面對(duì)現(xiàn)有處理平衡數(shù)據(jù)的分類(lèi)算法進(jìn)行改進(jìn),使其適應(yīng)于不平衡數(shù)據(jù)的內(nèi)在特征,以提高分類(lèi)器的分類(lèi)性能。本文主要立足于數(shù)據(jù)自身層面,提出了一種基于幾何合成少數(shù)類(lèi)過(guò)采樣技術(shù)(Geometric Synthetic Minority Oversampling Technique,GSMOTE)算法改進(jìn)的k-GSMOTE 過(guò)采樣方法,為少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣,從而增加少數(shù)類(lèi)樣本的數(shù)量,進(jìn)而提高少數(shù)類(lèi)的分類(lèi)性能。
圖1 以輸入空間的原點(diǎn)為中心的單位超球體截面
圖2 新生成點(diǎn)矯正變換示意圖
本文提出了一種基于GSMOTE 算法改進(jìn)的k-GSMOTE 過(guò)采樣方法,與原算法相比,結(jié)合了k-means[14]聚類(lèi)的GSMOTE 過(guò)采樣技術(shù)不僅能夠有效緩解SMOTE[15]過(guò)采樣合成新樣本過(guò)程中產(chǎn)生噪聲、邊界樣本合成不當(dāng)?shù)痊F(xiàn)象的發(fā)生,還能有效緩解常被忽略的類(lèi)內(nèi)不平衡問(wèn)題。
圖3 新生成點(diǎn)變形變換示意圖
為了更好地描述k-GSMOTE 過(guò)采樣方法的實(shí)現(xiàn)過(guò)程,給出了k-GSMOTE 算法的詳細(xì)偽代碼描述,算法中主要包括的輸入?yún)?shù)有:k-means 均值聚類(lèi)個(gè)數(shù)k∈[3,20]、多數(shù)類(lèi)樣本集Smaj、多數(shù)類(lèi)樣本的數(shù)量nmaj、少數(shù)類(lèi)樣本集Smin、采樣比率r∈(0,1)、需要新合成樣本總數(shù)N、最近鄰選擇策略αsel、少數(shù)類(lèi)選擇策略中的k近鄰個(gè)數(shù)x、截?cái)嘁蜃应羣runc∈[-1,1]、形變因子αdef∈[0,1],其中N、x、αsel、αtrunc、αdef均為根據(jù)不平衡數(shù)據(jù)的特點(diǎn)進(jìn)行設(shè)定的超參數(shù),且有N=nmaj·[ ]r/(1-r) 。算法的輸出是新生成的少數(shù)類(lèi)樣本集Sgen,隨后便可將其加入原始不平衡數(shù)據(jù)集中,從而降低數(shù)據(jù)集的不平衡度。k-GSMOTE算法的流程描述如下:
輸入k,Smaj,nmaj,Smin,r,x,αsel,αtrunc,αdef
輸出Sgen
步驟1 對(duì)輸入的原始不平衡多數(shù)類(lèi)Smaj、少數(shù)類(lèi)Smin以及k-means 均值聚類(lèi)個(gè)數(shù)k,通過(guò)以下聚類(lèi)函數(shù)進(jìn)行聚類(lèi)劃分,返回k-means 均值聚類(lèi)簇集S。
Function KMeans(Smaj,Smin,x):
returnS
步驟2 對(duì)聚類(lèi)簇集S中的少數(shù)類(lèi)子群集合成新樣本,首先在少數(shù)類(lèi)子群中任意選擇一個(gè)少數(shù)類(lèi)樣本xcenter,本文從3種采樣策略中選擇少數(shù)類(lèi)采樣策略,即αsel=Smin,此時(shí)k-GSMOTE 合成新樣本的近鄰選擇策略與SMOTE 一致。在xcenter的k近鄰中選擇構(gòu)成單位超球體表面的一點(diǎn)xcenter,超球體半徑R=‖ ‖xcenter-xsurface。單位超球體的構(gòu)造函數(shù)如下:
其中,向量vi是由正態(tài)分布N(0,1)中p個(gè)隨機(jī)數(shù)生成;r為服從均勻分布U(0,1)中的隨機(jī)數(shù)。函數(shù)返回值為單位超球體上初始生成的新樣本xgen。
步驟3 構(gòu)造投影向量x//和垂直向量x⊥,矯正新生成的樣本xgen,使其不偏離由xcenter和xsurface構(gòu)造的單位超球體(即為設(shè)定的樣本合成安全區(qū)域),x//將生成的xgen投影到與xcenter和xsurface相關(guān)聯(lián)的單位超球體,x⊥則將生成的點(diǎn)垂直朝向xgen和e//定義的同一單位超球體。構(gòu)造公式為
步驟4 在投影向量x//和垂直向量x⊥的共同作用下,運(yùn)用截?cái)嘧儞Q函數(shù)Truncate()、形變函數(shù)Deform()以及平移縮放函數(shù)Translate()對(duì)新生成少數(shù)類(lèi)樣本點(diǎn)xgen進(jìn)行一系列的規(guī)范變換。以上涉及的變換函數(shù)如下所示:
步驟5 最后將新生成的少數(shù)類(lèi)樣本xgen加入Sgen樣本集中,即Sgen←Sgen∪{xgen}。
重復(fù)以上步驟,直到滿(mǎn)足|Sgen|<N,最終完成了整個(gè)生成新樣本的全過(guò)程。
以上介紹了k-GSMOTE 過(guò)采樣算法所需要的主要超參數(shù),本文實(shí)際實(shí)驗(yàn)過(guò)程中的參數(shù)設(shè)置如 下:αsel=′auto′、αtrunc=1.0、αdef=0、k=5、r=0.5。實(shí)驗(yàn)環(huán)境如表1所示。
表1 實(shí)驗(yàn)環(huán)境
以玻璃類(lèi)型不平衡數(shù)據(jù)集為例,通過(guò)對(duì)玻璃類(lèi)型不平衡數(shù)據(jù)進(jìn)行k-GSMOTE 過(guò)采樣操作,過(guò)采樣前后對(duì)比如圖4所示。
圖4 經(jīng)過(guò)k-GSMOTE過(guò)采樣處理前后對(duì)比
圖4(a)中玻璃類(lèi)別標(biāo)簽的取值依次降低,數(shù)據(jù)集整體呈現(xiàn)明顯的不平衡現(xiàn)象,數(shù)量少的少數(shù)類(lèi)樣本對(duì)分類(lèi)的貢獻(xiàn)很低,能夠預(yù)想到若將該原始不經(jīng)過(guò)任何處理的不平衡數(shù)據(jù)用傳統(tǒng)的分類(lèi)模型進(jìn)行學(xué)習(xí)訓(xùn)練,將使對(duì)少數(shù)類(lèi)樣本的識(shí)別變得異常困難;圖4(b)則是經(jīng)過(guò)k-GSMOTE 過(guò)采樣后各類(lèi)樣本數(shù)量的比較,當(dāng)采樣比例r設(shè)置為0.5時(shí),多數(shù)類(lèi)樣本數(shù)量和少數(shù)類(lèi)樣本數(shù)量基本達(dá)到平衡。
本文所使用的玻璃不平衡實(shí)驗(yàn)數(shù)據(jù)集主要有序號(hào)、鐳、鈉、鎂、鋁、硅、鉀、鈣、鋇、鐵(Id、Ra、Na、Mg、AI、Si、K、Ca、Ba、Fe)等10 個(gè)屬性特征,類(lèi)別標(biāo)簽有7 種不同的取值。玻璃類(lèi)型不平衡數(shù)據(jù)集類(lèi)別標(biāo)簽數(shù)量分布及比例,如表2所示。數(shù)據(jù)集類(lèi)別標(biāo)簽的取值存在明顯的不平衡,占比最高是類(lèi)別為2 的標(biāo)簽,其值為35.5%,而最少的類(lèi)別6 僅占4.2%,少數(shù)類(lèi)樣本和多數(shù)類(lèi)樣本之間的不平衡比約為1∶8,屬于典型的不平衡數(shù)據(jù)集。工業(yè)玻璃數(shù)據(jù)集的分類(lèi)任務(wù)是根據(jù)以上提及的9 種化學(xué)成分特征在工業(yè)玻璃中的含量,推斷該玻璃可能的類(lèi)型,最終達(dá)到確定該玻璃用途的目的。
表2 玻璃不平衡數(shù)據(jù)集類(lèi)別標(biāo)簽數(shù)量分布及比例
實(shí)驗(yàn)過(guò)程中設(shè)置了未經(jīng)過(guò)采樣處理的玻璃數(shù)據(jù)集、經(jīng)過(guò)GSMOTE過(guò)采樣和k-GSMOTE過(guò)采樣后的玻璃數(shù)據(jù)集3組分類(lèi)進(jìn)行對(duì)比實(shí)驗(yàn),分類(lèi)過(guò)程中將玻璃類(lèi)型不平衡數(shù)據(jù)集劃分為訓(xùn)練集(Train)和測(cè)試集(Test)兩個(gè)子集。表3~表5分別展示了以上3組對(duì)比實(shí)驗(yàn)在邏輯回歸(Logistic Regression,LR)、K近鄰(K-Nearest Neighbor,KNN)、決策樹(shù)(Decision Tree,DT)、隨機(jī)森林(Random Forest,RF)、線(xiàn)性支持向量機(jī)(Linear Support Vector Machine,LSVM)、核支持向量機(jī)(Kernel Linear Support Vector Machine,KSVM)以及樸素貝葉斯(Naive Bayesian,NB)等7組基礎(chǔ)分類(lèi)器上的分類(lèi)評(píng)估結(jié)果,對(duì)比3組對(duì)照組在測(cè)試集上準(zhǔn)確率、F1分?jǐn)?shù)、召回率、精確率以及均方誤差等5個(gè)分類(lèi)評(píng)價(jià)指標(biāo),可以看到經(jīng)過(guò)本文分類(lèi)算法處理后,7組基礎(chǔ)分類(lèi)器的分類(lèi)性能在未經(jīng)采樣處理以及經(jīng)過(guò)GSMOTE過(guò)采樣的基礎(chǔ)上逐步得到了改善。表中加粗?jǐn)?shù)據(jù)表示該分類(lèi)評(píng)估指標(biāo)中的最優(yōu)值。
表3 未經(jīng)過(guò)采樣處理的玻璃數(shù)據(jù)集分類(lèi)評(píng)價(jià)結(jié)果
表4 經(jīng)過(guò)GSMOTE過(guò)采樣后的玻璃數(shù)據(jù)集分類(lèi)評(píng)價(jià)結(jié)果
表5 經(jīng)過(guò)k-GSMOTE過(guò)采樣后的玻璃數(shù)據(jù)集分類(lèi)評(píng)價(jià)結(jié)果
此外,由表3可知,未經(jīng)過(guò)k-GSMOTE 過(guò)采樣的分類(lèi)準(zhǔn)確率取值最高的隨機(jī)森林分類(lèi)器僅為0.833。結(jié)合表5 可知,在原始不平衡數(shù)據(jù)分類(lèi)效果最差的NB 分類(lèi)器,經(jīng)過(guò)本文k-GSMOTE 過(guò)采樣方法采樣后分類(lèi)訓(xùn)練模型整體的分類(lèi)準(zhǔn)確率從0.500 提升到0.633。以上實(shí)驗(yàn)結(jié)果均展示了本文機(jī)器學(xué)習(xí)分類(lèi)模型在處理工業(yè)玻璃不平衡數(shù)據(jù)分類(lèi)任務(wù)上的可行性和有效性。
為了進(jìn)一步提高本文算法的說(shuō)服力,避免單一片面實(shí)驗(yàn)數(shù)據(jù)可能帶來(lái)實(shí)驗(yàn)結(jié)論的偏差,在已公開(kāi)的不平衡信用卡欺詐檢測(cè)數(shù)據(jù)集中,用本文提出的改進(jìn)k-GSMOTE過(guò)采樣方法進(jìn)行一系列對(duì)比分析實(shí)驗(yàn)。由于信用卡欺詐檢測(cè)是二分類(lèi)任務(wù),根據(jù)其內(nèi)在屬性特征,采用的分類(lèi)評(píng)價(jià)指標(biāo)主要有AUC值、F1分?jǐn)?shù)、召回率以及均方誤差。未經(jīng)過(guò)處理的不平衡數(shù)據(jù)在LR、DT、RF、集成學(xué)習(xí)(AdaBoost 和XGBoost)、神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)以及LightGBM 等不同基礎(chǔ)分類(lèi)器上的分類(lèi)評(píng)估結(jié)果,與經(jīng)過(guò)本文k-GSMOTE過(guò)采樣方法采樣后的不平衡數(shù)據(jù)在不同基礎(chǔ)分類(lèi)器上的分類(lèi)評(píng)估結(jié)果分別見(jiàn)表6、表7。
表6 未經(jīng)過(guò)處理的分類(lèi)評(píng)估結(jié)果
表7 經(jīng)過(guò)k-GSMOTE過(guò)采樣后分類(lèi)評(píng)估結(jié)果
對(duì)比表6、表7 可知,本文基于k-GSMOTE 的過(guò)采樣方法在各項(xiàng)指標(biāo)上均呈現(xiàn)出較好的發(fā)展趨勢(shì),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的可靠有效。
長(zhǎng)期以來(lái),不平衡數(shù)據(jù)的分類(lèi)一直是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要的研究課題。在數(shù)字信息化時(shí)代,海量數(shù)據(jù)逐漸在生活和工業(yè)生產(chǎn)中占據(jù)半壁江山,大數(shù)據(jù)使世界變得更精確的同時(shí),也帶來(lái)了前所未有的數(shù)據(jù)分析挑戰(zhàn),廣泛存在各行各業(yè)的數(shù)據(jù)不平衡現(xiàn)象無(wú)疑增加了數(shù)據(jù)挖掘的難度。機(jī)器學(xué)習(xí)技術(shù)的日趨成熟足以讓傳統(tǒng)的分類(lèi)算法在平衡數(shù)據(jù)集上取得較為滿(mǎn)意的分類(lèi)效果,而面對(duì)不平衡數(shù)據(jù)集傳統(tǒng)分類(lèi)算法常常勞而無(wú)功。受GSMOTE 過(guò)采樣方法的啟發(fā),k-GSMOTE 方法針對(duì)前者的不足進(jìn)一步改進(jìn)了合成新少數(shù)類(lèi)的方法,將采樣區(qū)域衍生至超球體的幾何區(qū)域,以擴(kuò)展線(xiàn)性插值機(jī)制;通過(guò)k-means 聚類(lèi)劃分巧妙地解決了眾多分類(lèi)算法普遍忽略的類(lèi)內(nèi)不平衡分類(lèi)問(wèn)題,使不平衡數(shù)據(jù)分類(lèi)問(wèn)題不再受限于類(lèi)內(nèi)不平衡,在經(jīng)典的玻璃不平衡數(shù)據(jù)集和不平衡信用卡欺詐檢測(cè)數(shù)據(jù)集上,各類(lèi)評(píng)價(jià)指標(biāo)普遍得以大幅提升,驗(yàn)證了本文改進(jìn)算法的有效性。