謝春
上海電氣集團(tuán)股份有限公司 中央研究院,上海 200070
在二元分類問題中經(jīng)常會出現(xiàn)樣本不平衡問題,樣本不平衡是指一個類的實(shí)例(多數(shù)類)明顯多于另一個類(少數(shù)類)。而在實(shí)際應(yīng)用中,正確識別少數(shù)類實(shí)例往往更有價值,例如,在故障診斷中,正常狀態(tài)遠(yuǎn)遠(yuǎn)多于故障狀態(tài),但是正確識別故障狀態(tài)更有意義。目前絕大多數(shù)的機(jī)器學(xué)習(xí)算法針對的是平衡樣本集,因此,用常規(guī)學(xué)習(xí)算法來訓(xùn)練不平衡樣本集往往產(chǎn)生的是次優(yōu)模型,其性能和泛化能力較弱[1-2]。
針對二分類問題中的樣本不平衡問題,已經(jīng)提出了很多解決辦法,常用的方法有通過抽樣的方法重新平衡樣本集,如上采樣技術(shù);自主選擇更有價值的子樣本集訓(xùn)練模型,使用其他示例提高模型的性能[3-4];通過調(diào)整算法使得學(xué)習(xí)到的模型更傾向于正確分類少數(shù)類實(shí)例,如兩階段規(guī)則學(xué)習(xí)方法和單類學(xué)習(xí)方法[5-9]。
本文將基于密度的噪聲應(yīng)用空間聚類算法(density-based spatial clustering of applications with noise,DBSCAN)和邏輯回歸相結(jié)合,提出一種針對不平衡樣本集二分類問題的混合策略方法。該方法通過DBSCAN聚類算法對多數(shù)類樣本集進(jìn)行重新分類,添加標(biāo)簽,增強(qiáng)樣本集的線性可分性,可有效提高不平衡樣本集的分類準(zhǔn)確率。
基于DBSCAN和邏輯回歸的混合策略針對的是不平衡樣本的二分類問題。該方法首先使用DBSCAN算法將多數(shù)類劃分為k個子簇,并給每個子簇添加標(biāo)簽(0,1,···,k-1),然后和少數(shù)類實(shí)例(少數(shù)類實(shí)例的類別標(biāo)記為k)重新組合為一個新的樣本集,即新樣本集中有k+1個類別。
為保證重新劃分后不同類別的樣本數(shù)基本保持一致,k值的選擇可以以多數(shù)類樣本數(shù)和少數(shù)類樣本數(shù)的倍數(shù)關(guān)系來決定,即滿足:
式中:N0為多數(shù)類樣本數(shù),N1為少數(shù)類樣本數(shù),ceil表示向上取整函數(shù)。
通常情況下,邏輯回歸算法只能解決二分類問題,針對多分類問題,可采用“一對一”(one-vsone)策略。針對含有k+1個類別的樣本集,onevs-one策略會選擇兩兩配對的方式組合分類器,這樣組合將生成m=個邏輯回歸分類器,對測試集進(jìn)行分類時,將依次利用m個邏輯回歸分類器來預(yù)測分類,每進(jìn)行一次分類會進(jìn)行一次投票記錄。當(dāng)所有分類器預(yù)測完成后,選擇票數(shù)最多的類別為該測試樣本的分類結(jié)果[10-13]。
通過one-vs-one多分類的測試集樣本有k+1個類別,其中標(biāo)簽為0~k-1的為多數(shù)類樣本,標(biāo)簽為k的為少數(shù)類樣本,此時將所有非k樣本標(biāo)簽重置為0,將所有k樣本標(biāo)簽重置為1,即將多分類問題重新劃歸為二分類問題。
所述方法流程如圖1所示。
圖1 混合策略方法流程
評價指標(biāo)是評估一個算法是否有效的重要手段,對于二分類問題,少數(shù)類標(biāo)記為1,多數(shù)類標(biāo)記為0,分類模型正確和不正確的示例數(shù)目的混淆矩陣詳見表1。
表1 二分類模型混淆矩陣
在分類問題中,常用準(zhǔn)確率(accuracy)、召回率(recall)、精確率(precision)和F1分?jǐn)?shù)等作為評估算法性能好壞的重要指標(biāo),定義為
一般情況下僅僅通過一個指標(biāo)來評價算法存在著一定的局限性,可采用若干指標(biāo)來評估算法性能,一個好的算法需要在提高召回率和F1分?jǐn)?shù)的同時不降低準(zhǔn)確率。
選取某電廠2020年3月~2020年5月鍋爐監(jiān)測數(shù)據(jù)作為樣本集來驗(yàn)證混合策略的分類方法。該樣本集包括鍋爐各個受熱面上的溫度、蒸汽壓力及歷史故障數(shù)據(jù),其中歷史故障數(shù)據(jù)中切圓偏斜故障是指采用四角切圓燃燒方式的鍋爐,運(yùn)行中發(fā)生氣流偏斜導(dǎo)致火焰貼墻,引起偏燒及燃燒不穩(wěn)定的現(xiàn)象,該故障數(shù)據(jù)表現(xiàn)為明顯的樣本不平衡,因此以該故障數(shù)據(jù)作為原始樣本集,出現(xiàn)切圓偏斜故障的樣本標(biāo)簽置為1,非切圓偏斜故障的樣本標(biāo)簽置為0。
經(jīng)分析可知多數(shù)類樣本數(shù)(即標(biāo)簽為0)約為少數(shù)類樣本數(shù)(標(biāo)簽為1)的9倍,根據(jù)式(1),為將數(shù)據(jù)集劃分為較為平衡的樣本集,采用DBSCAN聚類模型,選取合適的劃分半徑(eps)和半徑范圍內(nèi)的最小樣本數(shù)(min_samples),使得DBSCAN簇?cái)?shù)k=9。
在本案例中DBSCAN劃分半徑(eps)為0.1~0.9,以0.1遞增選擇,同時確定半徑范圍內(nèi)的最小樣本數(shù)(min_samples)在2~10以1遞增選擇,不同的eps和min_samples的組合參數(shù)對應(yīng)不同的k值,當(dāng)k值等于指定的數(shù)值,即k=9時,以此時對應(yīng)的eps和min_samples組合參數(shù)作為DBSCAN模型的最優(yōu)參數(shù),將多數(shù)類樣本進(jìn)行重新劃分,和少數(shù)類樣本組合為新的樣本集D。
D中各個類別的數(shù)量對比關(guān)系如圖2所示。
圖2 樣本集D中各個類別數(shù)對比
圖2中新樣本集D中共有k+1個類別,其樣本不平衡性已被明顯弱化,可用于邏輯回歸onevs-one多分類建模。
基于新樣本集D中的k+1個類別,任意選取其中2個類別的樣本數(shù)據(jù)建立邏輯回歸模型,即建立m=個邏輯回歸分類器,對每一個測試樣本均會輸出m個預(yù)測類別,m個模型預(yù)測結(jié)果的部分?jǐn)?shù)據(jù)詳見表2。
表2 one-vs-one預(yù)測結(jié)果
表2中可知,對測試樣本1,標(biāo)簽為0和標(biāo)簽為1的兩類樣本(即0,1)構(gòu)建的邏輯回歸模型預(yù)測標(biāo)簽為0;標(biāo)簽為1和標(biāo)簽為2的兩類樣本(即1,2)構(gòu)建的模型預(yù)測標(biāo)簽為1,以此類推,測試樣本1的最終預(yù)測標(biāo)簽為所有m個結(jié)果中出現(xiàn)次數(shù)最多的標(biāo)簽。
將多分類結(jié)果進(jìn)行標(biāo)簽重置,獲得最終的二分類結(jié)果,其混淆矩陣如圖3所示。
圖3(a)為原始樣本集用邏輯回歸模型進(jìn)行分類后預(yù)測結(jié)果的混淆矩陣;圖3(b)為樣本集經(jīng)混合策略分類預(yù)測的多分類(k+1個類別)的混淆矩陣。圖3(c)為將圖3(b)對應(yīng)的樣本進(jìn)行標(biāo)簽重置,k+1個類別重置為2個類別后的混淆矩陣。
對比圖3(a)和圖3(c)可以看出,經(jīng)混合策略處理后的預(yù)測結(jié)果,其FP值(即真實(shí)值為0,預(yù)測值為1)明顯下降,而TP值(即真實(shí)值為1,預(yù)測值為1)則上升。
為作為對比,對原始數(shù)據(jù)采用常規(guī)的上采樣方法重新平衡數(shù)據(jù)集,分別采用了上采樣中的隨機(jī)樸素上采樣(random)、合成少數(shù)類(smote)上采樣和自適應(yīng)綜合(adasyn)上采樣方法[14-15],并對平衡后的樣本集分別進(jìn)行邏輯回歸分類預(yù)測,其結(jié)果混淆矩陣如圖4所示。
圖4 上采樣分類結(jié)果混淆矩陣
從圖4和圖3(c)的對比可知,常規(guī)上采樣方法處理的樣本集建立的模型,其分類性能要明顯差于經(jīng)混合策略后獲得的分類模型。
基于原始樣本(raw)、上采樣處理后樣本(random、smote、adasyn)及經(jīng)混合策略(mix)處理的樣本集構(gòu)建的邏輯回歸模型在鍋爐切圓偏斜故障預(yù)測中的評估指標(biāo)詳見表3。根據(jù)表3繪制的經(jīng)不同方法處理后的分類指標(biāo)柱狀圖如圖5所示。從表3和圖5中可直觀看出,相比未經(jīng)處理的原始樣本(raw)建立的模型,混合策略(mix)方法建立的模型其precision、accuracy、recall和F1均有明顯提高,其中accuracy達(dá)到0.97,而相比常規(guī)上采樣方法(random、smote、adasyn)處理的模型,混合策略方法在precision、F1及accuracy上也有較為明顯的優(yōu)勢,表明通過DBSCAN處理的樣本集弱化了數(shù)據(jù)不平衡性,可以提高邏輯回歸在不平衡樣本集上的分類性能。
表3 模型性能評估指標(biāo)
圖5 模型的分類評估指標(biāo)
基于DBSCAN和邏輯回歸的混合策略方法可用來解決樣本不平衡問題,將該方法應(yīng)用于鍋爐切圓偏斜故障的分類預(yù)測上,可得出以下結(jié)論:
1)相比原始樣本和經(jīng)常規(guī)上采樣方法建立的模型,混合策略方法建立的模型具有更優(yōu)的評估指標(biāo);
2)基于DBSCAN和邏輯回歸的混合策略方法可應(yīng)用于鍋爐燃燒故障診斷中,可有效提高鍋爐燃燒的智能化運(yùn)營效率;
3)針對DBSCAN的聚類簇?cái)?shù)k,本文選擇多數(shù)類樣本數(shù)和少數(shù)類樣本數(shù)的比值,后續(xù)研究中可深入研究該參數(shù)對分類結(jié)果的影響;
4)當(dāng)多數(shù)類樣本數(shù)和少數(shù)類樣本數(shù)的比值處于動態(tài)變化的時候,可通過調(diào)整算法的參數(shù)(如劃分半徑和半徑范圍內(nèi)的最小樣本數(shù))由DBSCAN聚類算法根據(jù)樣本分布,自動確定多數(shù)類樣本合理的劃分簇?cái)?shù),后續(xù)將會對該問題進(jìn)行更深的研究。