曹瑞陽,郭佑民,牛滿宇
(蘭州交通大學(xué) 機電技術(shù)研究所,蘭州 730070)
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分析方法進(jìn)入了一個全新階段[1]。在大數(shù)據(jù)環(huán)境下構(gòu)建并訓(xùn)練的深度學(xué)習(xí)模型具有較優(yōu)的性能。然而,數(shù)據(jù)量的缺乏[2-3]使得深度學(xué)習(xí)模型訓(xùn)練不充分,導(dǎo)致模型的泛化性能降低[4]。對于這種過擬合現(xiàn)象的發(fā)生[5],正則化方法或簡單收集更多的標(biāo)記數(shù)據(jù)[6]能夠增加數(shù)據(jù)量。此外,數(shù)據(jù)增強技術(shù)[7-8]通過特定的方法生成合成數(shù)據(jù),通過對圖像進(jìn)行翻轉(zhuǎn)[9-11]、旋轉(zhuǎn)[12]、鏡像[13]、高斯白噪聲等技巧,實現(xiàn)數(shù)據(jù)增強,廣泛應(yīng)用于圖像領(lǐng)域[14-15]。
在其他領(lǐng)域中也有相應(yīng)的數(shù)據(jù)增強方法[16-17]。文獻(xiàn)[18]采用隨機設(shè)置部分信息缺失和增加噪聲的方式對原有數(shù)據(jù)集進(jìn)行擴(kuò)充,在信息缺失和含噪聲的情況下提高模型的魯棒性,但是填充的數(shù)據(jù)量不好控制。如果填充的數(shù)據(jù)太少,則幾乎不會改變原有數(shù)據(jù)集的分布,如果被擴(kuò)充得太多,模型在該增強數(shù)據(jù)集下的檢測效果呈現(xiàn)降低的趨勢。文獻(xiàn)[19]采用合成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE)對少數(shù)類樣本進(jìn)行過采樣操作,通過ENN(Edited Nearest Neighbor)算法剔除不符合要求的噪聲數(shù)據(jù)。該方法能夠有效解決數(shù)據(jù)不平衡所帶來的問題。因SMOTE 算法存在一定的不足,多數(shù)類樣本和少數(shù)類樣本的邊界出現(xiàn)模糊現(xiàn)象,使得檢測的難度加大,甚至存在數(shù)據(jù)生成越界的問題。文獻(xiàn)[20]通過時域重采樣、能量變化、隨機零填充這3 個步驟模擬數(shù)據(jù),以提高模型的精確率,但是因?qū)刂诡l率和重采樣率有所限制,導(dǎo)致所產(chǎn)生模擬信號的多樣性也受到了一定的限制。
現(xiàn)有的數(shù)據(jù)增強方法在時間序列分類方面的數(shù)據(jù)增強有限。文獻(xiàn)[21]提出時間序列數(shù)據(jù)增強技術(shù),能夠有效解決數(shù)據(jù)增強在深度學(xué)習(xí)模型分類中存在的問題。在數(shù)據(jù)增強過程中,將所有訓(xùn)練集作為中心數(shù)據(jù),延長模型的計算時間,同時由于某些中心數(shù)據(jù)選取不合適造成生成的新數(shù)據(jù)樣本類別存在偏差,或者生成數(shù)據(jù)中心靠近邊界,易受離散點的影響,導(dǎo)致生成數(shù)據(jù)越界現(xiàn)象的發(fā)生。在整個過程中固定近鄰數(shù)k及權(quán)重函數(shù),即生成數(shù)據(jù)所用樣本的權(quán)重不變,在生成樣本數(shù)據(jù)的多樣性方面存在一定不足。
本文提出一種基于最大最小距離的多中心數(shù)據(jù)增強方法。通過加權(quán)密度減少離群點對最終結(jié)果的影響,將抽樣方法與最大最小距離算法相結(jié)合得到多生成中心,避免了生成結(jié)果出現(xiàn)樣本類別越界的情況。在此基礎(chǔ)上,根據(jù)樣本的相似性構(gòu)建權(quán)重函數(shù),計算加權(quán)平均得到新的樣本,拓展樣本數(shù)據(jù)的多樣性。
最大最小距離準(zhǔn)則[22]是基于歐氏距離,在最大程度上選取盡可能遠(yuǎn)的樣本點作為生成中心,從而避免產(chǎn)生初始中心過于近鄰的情況。數(shù)據(jù)生成類別越界示意圖如圖1 所示。
圖1 數(shù)據(jù)生成類別越界示意圖Fig.1 Schematic diagram of data generation categories transgression
最大最小距離算法的基本原理是首先從樣本中選擇1個任意樣本點v1,并將其作為數(shù)據(jù)生成中心,選擇距離v1最遠(yuǎn)的樣本點v2作為另一個生成中心,然后再選擇剩余l(xiāng)(l>2)時的中心點,分別計算剩余樣本點到之前中心點的歐氏距離,將距離最小值依次放入集合中,同時下一個中心點為集合中最大值所對應(yīng)的樣本點,以此重復(fù)計算剩余所需要的中心點,過程如式(1)所示:
其中:disti1和disti2分別為樣本i到v1和v2的歐氏距離。
最大最小距離算法可以有效地解決數(shù)據(jù)生成中心處于邊界的問題,從而避免出現(xiàn)生成樣本越界的情況。傳統(tǒng)SMOTE 算法對少數(shù)類樣本進(jìn)行分析和模擬后,在其近鄰進(jìn)行隨機線性插值。如果該少數(shù)類樣本位于邊界處,那么隨機生成的新樣本就有可能出現(xiàn)越界的情況,而引入最大最小距離準(zhǔn)則會重新選擇生成中心。在第1 次計算過程中選取了最大的距離,在之后的計算過程中生成中心會向更小的距離接近,使得最遠(yuǎn)少數(shù)類樣本點成為生成中心范圍的邊界,從而將最遠(yuǎn)邊界控制在最遠(yuǎn)的少數(shù)類樣本點之內(nèi),使得生成中心始終不會出現(xiàn)越界的情況,同時也帶來了最大最小距離算法自身的缺點。最大最小距離算法在運行過程中要遍歷兩遍數(shù)據(jù)庫,如果數(shù)據(jù)庫很大,那么需要的計算時間將會延長。針對上述問題,本文考慮將抽樣方法與最大最小距離算法相結(jié)合,通過簡單隨機抽樣方法[23]提取原始數(shù)據(jù)庫的主要特征,采用最大最小距離算法從抽樣后的數(shù)據(jù)集中選取數(shù)據(jù)生成中心G1,重復(fù)該步驟得到生成中心G1,G2,…,Gn,經(jīng)過多次抽樣后得到多中心的數(shù)據(jù)生成中心集合G。原始數(shù)據(jù)集采樣過程示意圖如圖2 所示。
圖2 原始數(shù)據(jù)集采樣過程Fig.2 Sampling process of original dataset
設(shè)數(shù)據(jù)庫的規(guī)模個數(shù)為105,直接采用最大最小距離算法對數(shù)據(jù)庫進(jìn)行計算,所需計算次數(shù)為2k×105。假設(shè)樣本集的大小為103,采用最大最小距離算法對單個樣本集進(jìn)行計算,計算次數(shù)為2k×103。如果進(jìn)行10次抽樣,則共需的計算次數(shù)為2k×104,計算次數(shù)僅為前者的1/10。
簡單隨機抽樣使得每個對象在總體中被抽到的概率相等,且每個樣本集的數(shù)據(jù)生成中心點集都不同,極大豐富了數(shù)據(jù)的隨機性和多樣性。如果隨機性過高會導(dǎo)致抽樣樣本分布不均勻。為保證一定的抽樣精度,簡單隨機抽樣必須進(jìn)行多次抽樣。
動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)算法是一個典型的優(yōu)化問題,可以衡量2 個不同長度的時間序列相似度。
DTW 對序列A和B定義為A=(a1,a2,…,am)和B=(b1,b2,…,bn)。動態(tài)規(guī)整路徑W=(w1,w2,…,wk),max(m,n)≤K≤m+n-1。其中:wk對應(yīng)同步點(x,y)k,k=1,2,…,k;x表示序列A元素的索引;y表示序列B元素的索引。動態(tài)規(guī)整路徑需滿足A和B序列上所有元素的索引與規(guī)整路徑相一致,且w1=(1,1),wk=(m,n)。假如某路徑已經(jīng)處于同步點(x,y)之后,那么該路徑下一步只能通過點(x+1,y)、(x,y+1)、(x+1,y+1),滿足條件的路徑個數(shù)為指數(shù)。動態(tài)時間規(guī)整的目的是用最少的代價找出與目標(biāo)最相近的路徑,其表達(dá)式如式(2)所示:
最小代價路徑可以通過累計距離來計算得到,累積距離如式(3)所示:
其中:d(x,y)為ax與by之間的距離。在該約束條件下最短的規(guī)整路徑所對應(yīng)的累計距離,便是所求2 個序列之間的DTW 距離。
本文提出一種基于最大最小距離的數(shù)據(jù)增強方法MCA,基本原理是首先計算所有樣本的加權(quán)密度,以排除離群點的影響,通過改進(jìn)的最大最小距離算法得到中心點集G,盡可能保留有效特征;其次在每個備選中心點集中找出中心數(shù)據(jù)的k個近鄰對近鄰樣本和非近鄰樣本進(jìn)行賦權(quán);最后利用加權(quán)算法計算選取樣本的加權(quán),以得到新的合成數(shù)據(jù)。
本文需要對各樣本點的密度進(jìn)行從大到小的排序,以減少MCA 方法的時間復(fù)雜度。樣本xi的密度計算如式(4)和式(5)所示:
其中:dij為樣本xi與樣本xj之間的距離;dc為設(shè)置的閾值;ρi為落入以xi為圓心和以dc為半徑的圓內(nèi)樣本數(shù)量。
加權(quán)的歐氏距離如式(6)所示:
其中:distw(xi,xj)為樣本xi和xj在m維空間下的加權(quán)歐氏距離;xil和xjl分別為在空間l維下的樣本xi和xj;m、l為空間維數(shù)。
所有樣本點的平均歐氏距離如式(7)所示:
本文從總體樣本中抽取具有代表性的樣本[24],使得統(tǒng)計推斷更加可靠。表1 是樣本容量選取的參數(shù)。
表1 樣本容量選取的參數(shù)Table 1 Parameters of sample size selection
在估算樣本容量時需要給定抽樣精度,一般用(α,ε)精度來表示,即在置信概率1-α下總體平均數(shù)的置信區(qū)間長度不超過2ε。在總體平均數(shù)的置信區(qū)間中,當(dāng)n無限大時,近似服從正態(tài)分布,如式(8)和式(9)所示:
因此,當(dāng)0<α<1 時,置信概率如式(10)所示:
uα定義為:
其中:φ為標(biāo)準(zhǔn)正態(tài)分布N(0,1)的分布函數(shù)。
由式(11)可知,(α,ε)精度等價于:
由式(13)和式(14)可得:
因此,樣本容量n的取值如式(16)所示:
在相同的總體容量中,用戶可根據(jù)需求設(shè)定不同的置信區(qū)間和抽樣誤差。抽樣誤差和置信區(qū)間設(shè)置越小,所需的樣本容量就越大。當(dāng)總體容量增加超過一定閾值時,總體對樣本容量的影響基本可以忽略不計。
本文對權(quán)重進(jìn)行賦值,選定時間序列T*和其最近鄰,如果時間序列數(shù)據(jù)相對遠(yuǎn)離T*及其最近鄰,則權(quán)重相對較低。本文隨機選擇一個中心時間序列T*,構(gòu)建近鄰相似權(quán)重,如式(17)所示:
雖然式(17)描述了連接Ti與T*的權(quán)重,但是未考慮Ti與T*的相關(guān)性,因此,相關(guān)權(quán)重的計算如式(18)所示:
其中:ne(T*)為Ti的k近鄰。剩余樣本權(quán)重的計算如式(19)所示:
其中:d*NN為T*與其近鄰之間的最小距離。
MCA 方法將樣本集X 作為輸入,數(shù)據(jù)增強后的數(shù)據(jù)集作為輸出。MCA 方法流程如圖3 所示,通過計算所有點的密度,剔除離群點,利用簡單隨機抽樣獲得小樣本數(shù)據(jù)集,同時對小樣本集運用最大最小距離算法得到生成中心,根據(jù)樣本相似性構(gòu)建權(quán)重函數(shù),得到新的生成樣本。
圖3 MCA 方法流程Fig.3 Procedure of MCA method
深度神經(jīng)網(wǎng)絡(luò)層數(shù)的加深不僅會導(dǎo)致出現(xiàn)過量的參數(shù),還會引起網(wǎng)絡(luò)退化。然而殘差模塊的引入就是為了解決網(wǎng)絡(luò)退化的問題。深度殘差網(wǎng)絡(luò)[25]包括卷積層、池化層和全連接層等,其結(jié)構(gòu)與深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類似。卷積層由含有若干可學(xué)習(xí)參數(shù)的卷積核構(gòu)成,主要對局部信息進(jìn)行計算,因此降低了計算量。池化層對主要信息進(jìn)行降維處理,使原本高維計算變?yōu)榈途S數(shù)據(jù)的計算,有效地降低了計算量,在一定程度上避免了過擬合現(xiàn)象的發(fā)生。全連接層經(jīng)過分類計算后,全連接層會對結(jié)果進(jìn)行分類處理。
殘差網(wǎng)絡(luò)通過添加快捷連接作為恒等映射,使得網(wǎng)絡(luò)性能不會退化。殘差單元的示意圖如圖4所示。
圖4 殘差單元示意圖Fig.4 Schematic diagram of residual unit
圖4 中殘差單元的輸入為x,殘差單元中各層的參數(shù)為W。殘差單元主要由2 個卷積層組成,這2 個卷積層的輸出F()表示需要學(xué)習(xí)的殘差函數(shù)??鐚涌旖葸B接和殘差函數(shù)則共同構(gòu)成殘差單元的輸出y,如式(20)和式(21)所示:
其中:σ()為激活函數(shù),選用線性整流單元(Rectified Linear Unit,ReLU)作為激活函數(shù)。激活函數(shù)使輸入的線性組合變?yōu)榉蔷€性組合,從而解決模型梯度消失的問題,如式(22)所示:
ReLU 的輸入為r,對應(yīng)上一層網(wǎng)絡(luò)的輸出,ReLU 輸出結(jié)果為r與0 的相對最大值。本文構(gòu)建的深度殘差網(wǎng)絡(luò)用于檢測生成數(shù)據(jù)的分類結(jié)果,其結(jié)構(gòu)如圖5 所示。
圖5 深度殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of deep residual network
從圖5 可以看出,深度殘差網(wǎng)絡(luò)由卷積層、池化層和全連接層構(gòu)成,激活函數(shù)為ReLU 函數(shù),在一定程度上避免出現(xiàn)梯度消失的現(xiàn)象,且使得特征在層間傳遞時取值范圍不變。深度殘差網(wǎng)絡(luò)采用Adma算法優(yōu)化目標(biāo)損失函數(shù),其中基礎(chǔ)學(xué)習(xí)率設(shè)置為0.1,衰減率為0.9,損失函數(shù)如式(23)所示:
其中:p為softmax 函數(shù)的輸出概率值;y為樣本的真實標(biāo)簽。在本文中,少數(shù)類樣本標(biāo)簽為1,多數(shù)類樣本標(biāo)簽為0。在實測數(shù)據(jù)集中軸箱振動異常樣本的真實標(biāo)簽為1,無異常狀態(tài)樣本的真實標(biāo)簽為0。
為檢測MCA 方法的性能,本文選取UCR 數(shù)據(jù)庫中的SwedishLeaf 數(shù)據(jù)集和某高鐵軸箱振動實測數(shù)據(jù)集進(jìn)行實驗。實測數(shù)據(jù)集為安裝在高鐵軸箱上振動傳感器采集的數(shù)據(jù),用于分析檢測軌道平整度,同時選取領(lǐng)域內(nèi)常用的過采樣合成數(shù)據(jù)方法(SMOTE)、下采樣的代表方法(Easy Ensemble)、隨機簡單復(fù)制樣本(RR)、保結(jié)構(gòu)過采樣(INOS)、模型空間學(xué)習(xí)過采樣(MK)及DTW 數(shù)據(jù)增強方法進(jìn)行對比。數(shù)據(jù)集描述如表2 所示。
表2 數(shù)據(jù)集描述Table 2 Dataset description
本文實驗采用的軟件配置為64 位window10 的操作系統(tǒng),開發(fā)工具采用PyCharm 運行所提出的算法,運行環(huán)境為Intel?CoreTMi5-7200U CPU,2.50 GHz,8.00 GB。
樣本容量是決定數(shù)據(jù)信息正確和計算效率的重要因素之一。樣本容量越大,正確率越高,但效率會降低;樣本容量越小,正確率越低,但效率會提高。本文對2.3節(jié)提出的公式進(jìn)行定量分析,從SwedishLeaf 數(shù)據(jù)集中任選1 000 條數(shù)據(jù),設(shè)置抽樣誤差為0.1,計算總體方差為0.368 2,利用式(16)計算在不同總體個數(shù)N發(fā)生變化時所對應(yīng)的樣本容量n的變化情況。樣本容量計算結(jié)果如表3 所示。
表3 樣本容量計算結(jié)果Table 3 Calculation results of sample size
從表3 可以看出,在確定方差和抽樣精度后,總體個數(shù)N越大,所需的樣本容量n所占總體的比例越小。在置信度設(shè)置為90%的情況下,當(dāng)N為100 時,n所占的比例約為51%;當(dāng)N為600時,n所占的比例約為15%;當(dāng)N為10 000 時,n所占的比例約為1%。在置信度設(shè)為95 的情況下,當(dāng)N為100 時,n所占的比例約為60%;當(dāng)N為600時,n所占的比例約為20%;當(dāng)N為10 000時,n所占的比例約為1.5%。當(dāng)置信度設(shè)置更高時,需要更多的樣本容量來支持,抽樣精度也需要相應(yīng)的提高。當(dāng)N達(dá)到一定閾值時,再增加N的量,n的增長呈現(xiàn)緩慢趨勢。因此,超過一定閾值的總體個數(shù)對樣本容量的影響趨向于0。
本文對不同的數(shù)據(jù)增強方法進(jìn)行可視化分析,直觀地展示采樣后樣本的分布情況。由于本文所采用的數(shù)據(jù)集維度較高,難以直接可視化,因此采取主成分分析(Principal Component Analysis,PCA)方法進(jìn)行降維處理,選取貢獻(xiàn)率排前2 的主成分,并在平面空間上進(jìn)行結(jié)果可視化。在SwedishLeaf 數(shù)據(jù)集上時序采樣可視化結(jié)果如圖6 所示。實心點表示多數(shù)類樣本,空心點表示少數(shù)類樣本。
圖6 時序采樣可視化結(jié)果Fig.6 Visualization results of timing sampling
從圖6 可以看出,SwedishLeaf 訓(xùn)練集由1 個少數(shù)類樣本和14 個多數(shù)類樣本組成,按照少數(shù)類和多數(shù)類1∶14 的關(guān)系隨機選取30 條樣本數(shù)據(jù),并采用不同方法均生成15 個樣本。不同方法的采樣結(jié)果分析如下:
1)RR 方法僅通過隨機復(fù)制少數(shù)類樣本來平衡數(shù)據(jù)集,導(dǎo)致新生成的少數(shù)類樣本與原少數(shù)類樣本幾乎完全重合。該方法對數(shù)據(jù)集信息量的擴(kuò)充沒有作用。
2)SMOTE 方法在原少數(shù)類樣本周邊均勻生成新的樣本,生成的樣本容易靠近邊界,且在近鄰選擇時多數(shù)類樣本和少數(shù)類樣本的區(qū)別較模糊。
3)Easy Ensemble 方法剔除了信息量較少的數(shù)據(jù),盡可能保留更多的有效信息,由于未考慮一些偏遠(yuǎn)點對結(jié)果的影響,生成的樣本較原數(shù)據(jù)集中,缺少隨機性。
4)本文提出的MCA 方法首先計算樣本密度,排除噪聲點的干擾,同時將最大最小距離算法與抽樣方法相結(jié)合確定多生成中心,使得生成中心也遠(yuǎn)離邊界,不會造成生成樣本邊緣化的問題,同時通過多次抽樣提高樣本的隨機性,采用樣本加權(quán)隨機分配權(quán)重,使得生成樣本序列多樣性更豐富。
在SwedishLeaf 數(shù)據(jù)集的少數(shù)類樣本和多數(shù)類樣本不平衡率(IR)下,不同方法的分類精度、召回率對比如圖7 和圖8 所示。
圖7 在SwedishLeaf 數(shù)據(jù)集上不同方法的精確率對比Fig.7 Precision comparison among different methods on SwedishLeaf dataset
圖8 在SwedishLeaf 數(shù)據(jù)集上不同方法的召回率對比Fig.8 Recall comparison among different methods on SwedishLeaf dataset
從圖7 和圖8 可以看出,在SwedishLeaf 數(shù)據(jù)集上,MCA 方法的精確率相較于其他6 種數(shù)據(jù)增強方法提高了7%~18%,召回率提高了4%~15%。MCA 數(shù)據(jù)增強方法較未進(jìn)行增強前相比,精確度和召回率分別提高18%和15%,說明數(shù)據(jù)增強可以有效地提高數(shù)據(jù)集的分類準(zhǔn)確度。相比SMOTE 方法,MCA 方法的精確率和召回率分別提高約6.7%和6%。SMOTE 方法只是在少數(shù)類樣本周邊生成新樣本,未考慮整體樣本的信息,在少數(shù)類樣本的周圍增加無用的噪聲點,且可能出現(xiàn)樣本越界的情況,從而影響分類結(jié)果。與Easy Ensemble方法相比,MCA 方法的精確率和召回率分別提高了約8.9%和8%。Easy Ensemble 方法采用降采樣選取有效的樣本子集,減少了整體數(shù)據(jù)量,導(dǎo)致模型訓(xùn)練量不夠充分且整體數(shù)據(jù)量越小,降低了分類效果。相比RR、INOS、MK 方法,MCA 方法的精確率和召回率分別提高了5.9%和7%。RR 方法通過簡單復(fù)制樣本,生成的數(shù)據(jù)多樣性較差,因此分類精度提升幅度較小。相比DTW 方法,MCA 方法精確率和召回率分別提高了約1.17%和2%。
為進(jìn)一步驗證MCA方法的有效性,在SwedishLeaf數(shù)據(jù)集上不同增強方法的F1 值對比如圖9 所示。在相同的不平衡率下,MCA 方法的F1 值最高。在不平衡率較高的情況下,MCA 方法與其他方法相比提高了2%左右。
圖9 在SwedishLeaf 數(shù)據(jù)集上不同方法的F1 值對比Fig.9 F1 values comparison among different methods on SwedishLeaf dataset
在實測數(shù)據(jù)集上MCA 方法與其他6 種方法的精確率和召回率對比如圖10 和圖11 所示。從圖10和圖11 可以看出,在實測數(shù)據(jù)集上MCA 方法與6 種數(shù)據(jù)增強方法相比,精確率、召回率均有大幅提升。相比Easy Ensemble、SMOTE 和RR 方法,MCA 方法的精確率提高5%左右,由于MCA 方法解決了生成數(shù)據(jù)樣本類別越界的問題,提高了模型的訓(xùn)練準(zhǔn)確率。MCA 方法與其他方法相比分類效果有很大提升,尤其是召回率提高了2%~6%。
圖10 在實測數(shù)據(jù)集上不同方法的精確率對比Fig.10 Precision comparison among different methods on measured dataset
圖11 在實測數(shù)據(jù)集上不同方法的召回率對比Fig.11 Recall comparison among different methods on measured dataset
在實測數(shù)據(jù)集上不同方法F1 值對比如圖12 所示。從圖12 可以看出,MCA 方法與其他方法相比F1 值提高了2%~5%,當(dāng)不平衡率較大時,F(xiàn)1 值的提升速度最快,說明MCA 方法在不平衡率較大的數(shù)據(jù)集上仍具有較優(yōu)的分類結(jié)果,適應(yīng)不平衡數(shù)據(jù)的分類。
圖12 在實測數(shù)據(jù)集上不同方法的F1 值對比Fig.12 F1 values comparison among different methods on measured dataset
本文提出一種基于最大最小距離的數(shù)據(jù)增強方法,通過考慮加權(quán)密度對排除離群點的影響,將抽樣方法與最大最小距離算法相結(jié)合選取多中心,優(yōu)化生成數(shù)據(jù)的中心,同時結(jié)合樣本加權(quán)對多中心樣本重新賦權(quán),有效地增加生成數(shù)據(jù)的隨機性。在UCR數(shù)據(jù)集和實測數(shù)據(jù)集上的實驗結(jié)果表明,相比SMOTE、Easy Ensemble、RR 等方法,本文方法具有較高的精確率,并且在不平衡率較高的情況下具有較優(yōu)的分類效果。下一步將通過對抽樣方法和原始數(shù)據(jù)信息提取的問題進(jìn)行研究,提高增強后數(shù)據(jù)集的分類精確度。