摘" 要: 當(dāng)樣本特征向量交織時,分類很容易出錯。為解決這個問題,提出一種基于Bayes和F?measure的分類器算法。采用替代方法評估分類器的性能正受到關(guān)注,特別是對于不平衡的問題。該算法利用F?measure分析不平衡數(shù)據(jù)的分類準(zhǔn)確度,將類概率密度函數(shù)引入判據(jù),并采用梯度下降法得到準(zhǔn)則函數(shù)。文中將所提出的方法與傳統(tǒng)方法進(jìn)行比較,實驗結(jié)果表明,該方法能夠有效提高識別的準(zhǔn)確率和精確度。
關(guān)鍵詞: 分類; F?measure; 不平衡數(shù)據(jù); 后驗概率; 準(zhǔn)確率; 實驗驗證
中圖分類號: TN02?34" " " " " " " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " " " " 文章編號: 1004?373X(2019)21?0125?05
Abstract: A classifier algorithm based on Bayes and F?measure is proposed to solve the problem that the classification is prone to error when the sample feature vectors are intertwined. The alternative methods used for the performance evaluation of classifiers are receiving increasing attention, especially for unbalanced data classification. The algorithm is used to analyze the classification accuracy of the unbalanced data by means of F?measure. The probability density function is introduced into the criterion, and the gradient descent method is used to obtain criterion function. The proposed method is compared with the traditional ones, in this paper. The experimental results show that the proposed method can effectively improve the accuracy and precision of recognition.
Keywords: classification; F?measure; imbalance data; posterior probability; accuracy rate; experimental verification
0" 引" 言
F?measure又稱為F?Score,是IR(信息檢索)領(lǐng)域的一個評價標(biāo)準(zhǔn),常用于評價分類模型的好壞,也是作為不同類型預(yù)測問題的性能指標(biāo),包括二分類、多標(biāo)簽分類(MLC)以及結(jié)構(gòu)化輸出預(yù)測的某些應(yīng)用,如文本分塊和命名實體識別等。與二分類中的錯誤率和多標(biāo)簽分類(MLC)中漢明損失等方法相比,F(xiàn)?measure方法在少數(shù)類和多數(shù)類之間都表現(xiàn)出很好的平衡性,因此,在非平衡數(shù)據(jù)的情況下更適合。
傳統(tǒng)的模式識別方法通常需要多個類別的樣本,因此需要設(shè)計兩個或多個類別的分類器。構(gòu)建分類器方法有很多,如貝葉斯[1]、決策樹、人工神經(jīng)網(wǎng)絡(luò)[2]、遺傳算法、支持向量機(jī)(SVM)[3]遺傳編程、粗糙集[4]、模糊判別等,在這些分類方法中,貝葉斯方法已經(jīng)成為最引人注目的焦點之一,因為它的精度高[5],可以有效地處理不完整的數(shù)據(jù)。然而,當(dāng)樣本特征向量相互交織時,貝葉斯分類器容易出錯。為了提高貝葉斯分類器的性能,提出一些方法和技術(shù),例如,樹擴(kuò)張型貝葉斯(TANB)、Generalized Naive Bayes分類器[6]。 TANB算法通過查找屬性之間的依賴關(guān)系來減輕樸素貝葉斯中任何屬性之間的獨立性假設(shè)。在學(xué)習(xí)參數(shù)方面,TANB模型比樸素貝葉斯模型面臨更多的困難,特別是在訓(xùn)練集數(shù)據(jù)較少時。GNB認(rèn)為整個數(shù)據(jù)集只有一個概率依賴關(guān)系,當(dāng)整個數(shù)據(jù)集單一分布時,GNB性能會更好,但是,當(dāng)整個數(shù)據(jù)集不是單一分布時,GNB性能較差,近年來,評估措施在分類器分析和設(shè)計中起著至關(guān)重要的作用。準(zhǔn)確率、召回率、精度、F?measure、Kappa、ACU等新的措施已經(jīng)被提出[7]。F?measure被認(rèn)為是測試有效性的重要措施[8]。由于Bayes和F?measure的優(yōu)勢,本文結(jié)合了兩者對不平衡數(shù)據(jù)進(jìn)行分類。
當(dāng)大多數(shù)類的輸出數(shù)量遠(yuǎn)遠(yuǎn)超過其他幾個類時,很難將錯誤的樣本與這幾個類別分開。近年來,研究人員在不平衡問題上做出了很大的努力,并得到了更好的解決方案[9],例如,改變類分布,結(jié)合決策成本,在學(xué)習(xí)過程中用性能測量來替代標(biāo)準(zhǔn)算法的準(zhǔn)確性。大多數(shù)方法更適合于平衡域中的分類。
本文提出一種不同的方法來解決這個問題,給出一種基于貝葉斯和F?measure的新的分類器算法。所提出的算法不會改變類的分布和任何決策成本。首先計算后驗概率,當(dāng)樣本不在混合交叉域時,本文應(yīng)用Beyes分類器進(jìn)行分類。其次,當(dāng)樣本處于混合交叉域時,本文采用新的框架對易錯分類區(qū)進(jìn)行分類。
1" 在條件分布密度的混合交叉域內(nèi)的F?measure感知器
當(dāng)樣本在混合交叉域內(nèi)時,貝葉斯分類器容易出錯。感知器算法適用于小樣本,它是收斂算法,具有計算簡單、存儲容量小和易于實現(xiàn)等優(yōu)點。F?measure在分類器分析和設(shè)計中起著至關(guān)重要的作用。F?measure被認(rèn)為是測試有效性的有效措施。
1.1" F?measure評估標(biāo)準(zhǔn)
當(dāng)樣本特征相互依存時,分類容易出錯。為了解決這個問題,本文提出一種新的分類算法。
在本文中假設(shè)有兩個類[ω+],[ω-],定義[C={ω+,ω-}]為可能類的集合,其中,[ω+]表示為正相關(guān)類,[ω-]表示為負(fù)相關(guān)類。TP(Ttrue Positive)表示類別為[ω+]的樣本被系統(tǒng)正確判定為類別[ω+]的數(shù)量,F(xiàn)N(False Negative)表示類別為[ω+]的樣本被系統(tǒng)誤判定為類別[ω-]的數(shù)量,顯然有[P=]TP+FN;FP(False Positive)表示類別為[ω-]的樣本被系統(tǒng)誤判定為類別[ω+]的數(shù)量,TN(True Negative)表示類別為[ω-]的樣本被系統(tǒng)正確判定為類別[ω-]的數(shù)量,顯然有[N=]FP+TN。
1.2" 普通感知器
由于函數(shù)[f(W)]的數(shù)值解通常只是某種意義上的最優(yōu)解。 定義準(zhǔn)則函數(shù),然后在最大或最小的條件下使此準(zhǔn)則函數(shù)找到解[f(W)]。梯度下降法確定準(zhǔn)則函數(shù)[J(W)],然后選擇初始值[W(1)],迭代公式如下:
當(dāng)[u(X)gt;0]時,表示樣本正確分類,[W(k+1)=W(k)],無需修改權(quán)重;否則,當(dāng)[u(X)≤0]時,表示樣本錯誤分類,[W(k+1)=W(k)+CX(k)],需要修改權(quán)重。普通感知器只考慮調(diào)整單個樣本,而不考慮樣本分布的調(diào)整。為了解決這個問題,本文提出F?measure感知器算法。
1.3" F?measure的最優(yōu)邊界確定
傳統(tǒng)的貝葉斯分類器是使后驗概率最大化,改進(jìn)的算法是使F?measure最大化。最大化F?measure等于最小化[E]:
當(dāng)偏微分方程達(dá)到穩(wěn)態(tài)時,式(21)得到滿足。
本文首先計算樣本的后驗概率。如果后驗概率大于閾值,則樣本不在容易出錯的區(qū)域中。如果后驗概率的最大值小于或等于閾值,則樣本處于容易出錯的區(qū)域,然后采用新方法進(jìn)行分類。對于[n]維空間,樣本由矢量[X=(x1,x2,…,xn)T]表示,識別函數(shù)如下:
矢量的方向主要取決于最大分量的值。負(fù)梯度矢量表示最速下降的方向。當(dāng)梯度矢量為零時,它可以達(dá)到函數(shù)的極值。如果[?E?W=0],[E]可以達(dá)到極值,得到式(21)的最優(yōu)解。[W(k)]被定義為[W]的第[k]個迭代解,[W(k+1)]是第[k+1]次迭代解。
2" 實驗結(jié)果
將本文提出的方法用于齒輪故障診斷,使用100個正常齒輪樣本和30個異常齒輪樣本的不平衡數(shù)據(jù)集。小波包和包絡(luò)譜的能譜用于故障診斷。正常齒輪有[100×9]個特征,異常齒輪有[30×9]個特征。去噪后的齒輪故障信號波形如圖1所示。故障信號由3層小波包分解,得到8個頻帶能量,如圖2所示。小波包分解后的能量分布可以清楚地顯示故障信息齒輪,證明故障診斷有用。異常齒輪的包絡(luò)譜如圖3所示。
將本文提出的算法與傳統(tǒng)的樸素貝葉斯分類器進(jìn)行比較。圖4顯示了所提出的算法和傳統(tǒng)的樸素貝葉斯分類器在[β]變化時的魯棒性。表1給出了實驗結(jié)果的詳細(xì)情況,每個算法執(zhí)行5次。所提出算法的參數(shù)為 [β=1],[C=1]。實驗的收斂速度取決于初始向量[W(1)]和[C]。從表1可以看出,樸素貝葉斯分類器具有差的F?measure、召回率和準(zhǔn)確率。本文所提出的算法得到了更好的F?measure,得到了更高的召回率和準(zhǔn)確率。由于樣本的特征向量不是完全獨立的,所以本文提出的方法比傳統(tǒng)的樸素貝葉斯分類器具有更高的識別率。
對于實驗驗證,用KEEL數(shù)據(jù)集[10]中提供的公開實際數(shù)據(jù)進(jìn)行了實驗驗證。對多類數(shù)據(jù)集進(jìn)行修改以獲得兩類不平衡問題,以便一個或多個類的聯(lián)合成為正類,其余類中的一個或多個類的聯(lián)合被標(biāo)記為負(fù)類。表2給出了實驗研究中使用的不平衡數(shù)據(jù)集的描述。表2中顯示的信息包括:數(shù)據(jù)集名稱(數(shù)據(jù)集);屬性數(shù)(Atts.);樣本數(shù)(Ex.);少數(shù)群體和多數(shù)群體的百分比(%min;%max);不平衡比(IR)。
在研究中,將提出的算法與普通感知器、結(jié)合貝葉斯和梯度下降的感知器以及傳統(tǒng)的樸素貝葉斯分類器進(jìn)行比較。每個算法進(jìn)行10次交叉驗證。應(yīng)用95%置信水平的雙尾[t]檢驗系統(tǒng)地比較NB算法、普通感知器算法和結(jié)合貝葉斯和梯度下降的感知器算法的分類精度。在圖5中,通過使用5個數(shù)據(jù)集獲得[Fβ]值。所提出的算法具有最好的結(jié)果。表3給出詳細(xì)實驗結(jié)果。實驗結(jié)果表明,隨著不平衡數(shù)據(jù)的增加,NB、普通感知器和結(jié)合貝葉斯和梯度下降的感知器算法的分類精度逐漸降低。與這三種方法相比,本文提出方法的分類精度最高。雖然提出方法的準(zhǔn)確性隨著失衡數(shù)據(jù)的增加而減小,但平均準(zhǔn)確率為90.42%。
3" 結(jié)" 論
本文提出一種新的分類算法處理不平衡問題,尤其在樣本特征相互依賴時。首先計算后驗概率以判斷樣本是否位于易錯區(qū)域。采用該算法對易于誤分類的樣本進(jìn)行分類,在研究中,將所提出的算法與傳統(tǒng)的分類器方法進(jìn)行了比較,實驗結(jié)果證明了該方法的優(yōu)越性。
參考文獻(xiàn)
[1] JIANG R, YU J, MAKIS V. Optimal Bayesian estimation and control scheme for gear shaft fault detection [J]. Computers amp; industrial engineering, 2012, 63(4): 754?762.
[2] WU J D, CHAN J J. Faulted gear identification of a rotating machinery based on wavelet transform and artificial neural network [J]. Expert systems with applications, 2009, 36(5): 8862?8875.
[3] BANSAL S, SAHOO S, TIWARI R, et al. Multiclass fault diagnosis in gears using support vector machine algorithms based on frequency domain data [J]. Measurement, 2013, 46(9): 3469?3481.
[4] RAJESWARI C, SATHIYABHAMA B, DEVENDIRAN S, et al. A gear fault identification using wavelet transform, rough set based ga, ann and c4. 5 algorithm [J]. Procedia engineering, 2014, 97: 1831?1841.
[5] LIU H, HAN M. A fault diagnosis method based on local mean decomposition and multi?scale entropy for roller bearings [J]. Mechanism and machine theory, 2014, 75: 67?78.
[6] LARSEN K. Generalized naive Bayes classifiers [J]. ACM SIGKDD explorations news letter, 2005, 7(1): 76?81.
[7] SARAVANAN N, RAMACHANDRAN K I. A case study on classification of features by fast single?shot multiclass PSVM using morlet wavelet for fault diagnosis of spur bevel gear box [J]. Expert systems with applications, 2009, 36(8): 10854?10862.
[8] MATíAS D M, GUZMAN H, MARCELO F, et al. A new framework for optimal classifier design [J]. Pattern recognition, 2013, 46(8): 2249?2255.
[9] SUN Y, WONG A K C, KAMEL M S. Classification of imba?lanced data: A review [J]. International journal of pattern recognition and artificial intelligence, 2009, 23(4): 687?719.
[10] ALCALá J, FERNáNDEZ A, LUENGO J, et al. Keel data?mining software tool: data set repository, integration of algorithms and experimental analysis framework [J]. Journal of multiple?valued logic and soft computing, 2011(17): 255?287.