史步海 許家祥 蔣通
(華南理工大學(xué)自動化科學(xué)與工程學(xué)院,廣東 廣州 510641)
盾構(gòu)機是一種大型綜合性隧道挖掘設(shè)備,是現(xiàn)代地下掘進(jìn)施工的重要裝備。盾構(gòu)機常在地下運行,工作環(huán)境復(fù)雜多變,易發(fā)生故障。常見的盾構(gòu)機故障有刀盤結(jié)泥餅、刀具損壞、排泥管堵塞、塌陷和地質(zhì)異常等,這些故障會影響施工進(jìn)度。因此,通過盾構(gòu)機的運行數(shù)據(jù)提前預(yù)知和診斷故障,對其安全高效施工具有重大現(xiàn)實意義。目前,盾構(gòu)機故障診斷主要依靠施工人員根據(jù)經(jīng)驗進(jìn)行判斷,不僅效率低且浪費人力資源。一些學(xué)者對盾構(gòu)機故障診斷做了相關(guān)研究:李貴紅等[1]提出用經(jīng)驗?zāi)B(tài)分解和沖擊脈沖法對盾構(gòu)機的軸承進(jìn)行故障診斷;郝用興等[2]用差分進(jìn)化算法和BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法進(jìn)行盾構(gòu)機推進(jìn)液壓系統(tǒng)的故障診斷;李笑等[3]采用神經(jīng)網(wǎng)絡(luò)信息融合的方法對盾構(gòu)機故障進(jìn)行診斷;Shi B H等[4]利用LMBP神經(jīng)網(wǎng)絡(luò)對盾構(gòu)機的常見故障進(jìn)行預(yù)測和診斷。以上研究大多假設(shè)可獲取數(shù)量相當(dāng)?shù)墓收蠑?shù)據(jù),但與實際數(shù)據(jù)不平衡的情況有所偏差;且多數(shù)研究僅采用單一的分類器進(jìn)行故障診斷,影響模型的泛化能力。
采用傳統(tǒng)分類器處理數(shù)據(jù)不平衡分類問題時,訓(xùn)練結(jié)果往往偏向于含有多數(shù)樣本的類別,從而導(dǎo)致少數(shù)樣本類別的正確率偏低[5]。數(shù)據(jù)不平衡問題的解決方案大致可分為2種:算法層面和數(shù)據(jù)層面[6]。算法層面主要對已有分類算法進(jìn)行改進(jìn)或提出新算法[7],使其在不平衡數(shù)據(jù)集上也能具有良好的分類效果,如王彩文等[8]提出的針對不平衡數(shù)據(jù)的改進(jìn)近鄰分類算法等。數(shù)據(jù)層面主要通過調(diào)整不同類別數(shù)據(jù)的比例,使樣本類別數(shù)據(jù)大致均衡。常用方法有欠采樣算法[9]、過采樣算法[10]等,如付彬等[11]將合成少數(shù)類過采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)算法應(yīng)用于不同人群的分類問題。
本文采用SMOTE算法合成人工樣本以改善數(shù)據(jù)不平衡問題;針對模型單一的問題,利用Bagging算法在集成多個基分類器[12]的同時豐富基分類器的種類,提高模型的泛化能力。
SMOTE算法[13]主要思想是:少數(shù)類樣本及其近鄰的k個同類樣本通過線性插值的方式合成新樣本數(shù)據(jù)。采用SMOTE算法合成數(shù)據(jù)的過程:對屬于每個少數(shù)類p的樣本xi,采用近鄰算法找到距離xi最近的k個近鄰樣本;然后在k個近鄰樣本中選擇n個近鄰樣本[14],按式(1)合成新樣本。
式中,為新合成樣本;xi為屬于每個少數(shù)類p的樣本;rand( 0,1)為區(qū)間(0,1)的一個隨機數(shù);xij為距離xi最近的第j個屬于p類的近鄰樣本。
集成學(xué)習(xí)算法可融合多個分類器的分類效果,相比于單個分類器,集成學(xué)習(xí)算法可有效提高故障預(yù)測的準(zhǔn)確性和模型的泛化能力。常用集成學(xué)習(xí)算法有Boosting算法[15]和Bagging算法[16]。這兩種算法通過對多個弱分類器按一定的方式組合,得到一個具有更優(yōu)性能的強分類器。
本文采用Bagging算法將多個不穩(wěn)定的基分類器集成,并通過分類投票機制[17]構(gòu)成一個具有更好分類效果的強分類器[18]。Bagging算法通過對訓(xùn)練樣本進(jìn)行可放回地隨機采樣,獲得多個樣本數(shù)量相當(dāng)且相互有一定差異的樣本集合;用每一個樣本集合分別訓(xùn)練一個基分類器;每一個基分類器的決策結(jié)果通過投票方式得出樣本的分類屬性,從而提高不穩(wěn)定分類模型的泛化能力。
采用SMOTE算法和Bagging算法實現(xiàn)不平衡故障數(shù)據(jù)的診斷;選擇CART決策樹算法、BP神經(jīng)網(wǎng)絡(luò)算法和k近鄰算法為基本分類器算法。首先采用Bagging算法對 3種基本算法的T個分類器進(jìn)行集成,得到 3個集成分類器;再采用投票輸出方式對3個集成分類器投票組合,得到集成分類器H(x),其結(jié)構(gòu)如圖1所示。
圖1 分類模型結(jié)構(gòu)圖
訓(xùn)練分類器的主要步驟:
1) 采集盾構(gòu)機的故障數(shù)據(jù)Xall和標(biāo)簽Yall,按一定比例劃分為訓(xùn)練集Xtrain,Ytrain和測試集Xtest,Ytest;
2) 統(tǒng)計訓(xùn)練集中各類別的樣本數(shù)量,并采用SMOTE算法對少數(shù)類樣本人工合成新數(shù)據(jù),使得各類別的樣本量均等于原訓(xùn)練集中樣本數(shù)最多的類別,得到新訓(xùn)練集
4) 取每一個子集合訓(xùn)練一個基分類器,將各類別的T個基分類器用 Bagging算法組合成3個集成分類器;
5) 將3個集成分類器采用投票機制組合,并根據(jù)實際情況調(diào)整各分類器的投票權(quán)重,得到最終集成分類器H(x)。
對于一般分類問題,常用測試集的準(zhǔn)確率作為評價分類器的性能指標(biāo)。但為了更合理地評價不平衡分類器的性能,還需考慮少數(shù)類分類的正確率與多數(shù)類分類的準(zhǔn)確率之間的均衡性。本文選用分類器的G-mean值[19]作為性能指標(biāo),該值為各類別召回率的幾何平均值,可以較好地平衡各類別準(zhǔn)確率,計算公式為
式中,K為分類器類別數(shù);Ri為第i類樣本的召回率,計算公式為
式中nii為第i類樣本被分類器分為類別j的數(shù)量。
仿真實驗采用的數(shù)據(jù)來源于廣州某施工單位的泥水平衡盾構(gòu)機的施工數(shù)據(jù)。實驗數(shù)據(jù)包括刀具磨損數(shù)據(jù)1657組、結(jié)泥餅數(shù)據(jù)767組、排泥管堵塞數(shù)據(jù)76組、地質(zhì)異常數(shù)據(jù)75組和正常數(shù)據(jù)2198組。施工專家通過對不同地質(zhì)情況主要變量如何操作及變量相互關(guān)聯(lián)情況的分析,選擇刀盤扭矩、千斤頂推力、千斤頂速度、切削面水壓和土砂密封冷卻水溫度5個參數(shù)組成輸入向量x。類別標(biāo)簽y在各種情況的取值如表1所示。
表1 各種情況的標(biāo)簽值y
將原始數(shù)據(jù)按每種類型1:1的比例隨機分成訓(xùn)練集和測試集。訓(xùn)練集中各類別的數(shù)據(jù)量及經(jīng)過取近鄰數(shù)k=5的SMOTE算法插值后的數(shù)據(jù)量如表2所示。在進(jìn)行訓(xùn)練之前,先對訓(xùn)練數(shù)據(jù)進(jìn)行歸一化處理,將所有數(shù)據(jù)映射到[0, 1]區(qū)間內(nèi),從而加快模型的收斂速度,歸一化公式為
式中,x為訓(xùn)練樣本數(shù)據(jù);xmin為訓(xùn)練樣本中最小值;xmax為訓(xùn)練樣本中最大值。
表2 SMOTE前后訓(xùn)練集數(shù)量
經(jīng)調(diào)試,選擇算法中的參數(shù)值T= 5,決策樹選用CART算法,BP神經(jīng)網(wǎng)絡(luò)選用一層隱含層,隱含層網(wǎng)絡(luò)單元為48個,學(xué)習(xí)率為0.01,k= 5;采用投票權(quán)重為最終得到分類器H(x)的G-mean= 95.28%。本實驗選擇常用機器學(xué)習(xí)分類算法進(jìn)行對比,包括CART決策樹、BP神經(jīng)網(wǎng)絡(luò)分類和KNN分類3種模型。由于SMOTE算法和Bagging算法具有一定的隨機性,導(dǎo)致結(jié)果不穩(wěn)定,本實驗在同等情況下運行20次求各分類器性能指標(biāo)的平均值進(jìn)行對比,結(jié)果如表3所示。
表3 模型結(jié)果對比
由表3可知,采用SMOTE人工合成樣本在一定程度上提高了G-mean值,這是因為增加的少數(shù)類樣本可以代表少數(shù)類的分布情況,改善了數(shù)據(jù)不平衡對分類器造成的影響。采用多個分類器進(jìn)行Bagging算法的集成在多數(shù)情況下有利于提高分類器的多樣性,也可有效提高模型的泛化能力。本文采用SMOTE人工合成算法、Bagging算法和投票機制組成的分類器G-mean值高于Bagging_SMOTE_CART,Bagging_SMOTE_BPNN和Bagging_SMOTE_KNN 3種算法,這是因為通過投票機制集成的最終分類器和傳統(tǒng)Bagging算法相比,進(jìn)一步提高基分類器的多樣性,使G-mean值更高,對不平衡數(shù)據(jù)集具有更強的分類能力。
盾構(gòu)機在運行過程中發(fā)生各種故障的頻率不同等原因,導(dǎo)致采集到的各種故障數(shù)據(jù)數(shù)量難以達(dá)到平衡。本文結(jié)合實際情況,針對盾構(gòu)機故障診斷數(shù)據(jù)不平衡的問題,采用SMOTE算法合成樣本數(shù)據(jù),并針對故障診斷采用單一分類器泛化能力不足的問題,采用基于多種基分類器的 Bagging算法加權(quán)投票方式,提高分類器的多樣性,從而提高故障診斷預(yù)測模型的泛化能力。仿真實驗結(jié)果表明,本文算法用于盾構(gòu)機故障種類診斷,準(zhǔn)確率較高。